사례 기반 다지선다형 문항 작성을 위한 ChatGPT 프롬프트(Spanish Journal of Medical Education, 2023)
A ChatGPT Prompt for Writing Case-Based Multiple-Choice Questions 
Yavuz Selim Kıyak1 *

 

소개
Introduction

의과대학에서는 의대생의 고차원적인 능력, 특히 임상적 추론 능력을 평가하기 위해 다양한 필기 평가 방법을 사용합니다. 이러한 방법에는 사례 기반 객관식 문제(MCQ), 핵심 기능 문제, 스크립트 일치도 테스트 등이 포함됩니다(1). 이 중 사례 기반 MCQ는 매우 효과적이고 일반적으로 활용되는 것으로 알려져 있습니다(2). 그러나 의과대학의 한정된 자원으로 양질의 문항(문항)을 작성하는 과정은 상당한 도전 과제입니다.  
Medical schools use various written assessment methods to evaluate higher-order skills of medical students, particularly clinical reasoning. These methods encompass case-based multiple-choice questions (MCQs), key-feature questions, script concordance tests, and others (1). Among these, case-based MCQ stands out as both highly effective and commonly utilized (2). However, the process of writing high-quality items (questions) presents a significant challenge on the limited resources of medical schools. 

특히, 고차원적인 기술을 평가하기 위해 고안된, 맥락이 풍부한 단일 문항을 작성하려면 의대 교수의 상당한 시간 투자가 필요하며, 이는 종종 몇 시간으로 연장되기도 합니다(3). 많은 노력이 필요한 과정이지만, 의학교육에서 상당한 양의 MCQ에 대한 수요는 도전의 수준을 크게 높입니다. 진도 테스트만을 위한 문제은행을 개발하는 경우에도 수천 개의 문제를 통합해야 합니다(4). 따라서 의과대학이 직면한 중요한 과제는 고품질의 MCQ를 대량으로 작성하는 것입니다. 
More specifically, writing a single context-rich MCQ designed to assess higher-order skills demands a significant investment of a medical teacher's time, often extending into hours (3). While it requires an effortful process, the demand for a substantial quantity of MCQs within medical education significantly increases the level of challenge. Even developing a question bank solely for progress testing necessitates incorporating thousands of questions (4). Hence, the significant challenge faced by medical schools lies in writing a high quantity of high-quality MCQs. 

기존 솔루션
Existing Solutions

교육 분야에서 대량의 MCQ가 요구됨에 따라 연구자들은 소프트웨어를 사용하여 한 번에 많은 수의 문항을 생성하는 새로운 방법을 개발하게 되었습니다. 자동 문항 생성(AIG)은 "컴퓨터 기술을 사용하여 모델을 사용하여 문항을 생성하는 프로세스"(5)로서 이러한 목적으로 개발되었습니다. 템플릿 기반 AIG는 임상 문제에 직면했을 때 내용 전문가의 사고 과정을 드러내는 인지 모델을 만드는 것을 기반으로 합니다. 그런 다음 주제별 전문가는 질병/문제에 대한 인지 모델을 기반으로 항목 모델을 만듭니다. 문항 모델에는 템플릿 MCQ가 구축되고, 주제별 전문가가 제공한 사양을 고려하여 문항 내 적절한 부분에 적절한 단어를 할당하는 단어가 만들어집니다(6). 문항 모델은 수백 개의 문항을 만들 수 있기 때문에 템플릿 기반 AIG는 기존의 문항 작성 방식보다 실현 가능성이 높습니다.  
High volume of MCQ need in education led researchers to develop new methods to generate high number of items at once by using software. Automatic Item Generation (AIG) has been developed for this purpose as "a process of using models to generate items using computer technology" (5). Template-based AIG is based on creating a cognitive model, which reveals subject matter experts’ thinking process when they faced with a clinical problem. Then, subject matter experts create an item model based on the cognitive model on a disease/problem. In the item model, a template MCQ is built, and the words assigning the appropriate words to the appropriate parts in the items considering the specifications provided by subject matter experts (6). An item model is able to result in hundreds of MCQs, therefore template-based AIG is more feasible than traditional way of item writing. 

템플릿 기반 AIG는 지난 10년 동안 큰 성공을 거두었습니다. 영어, 프랑스어, 중국어, 스페인어, 한국어, 터키어 등 다양한 언어로 성공적으로 구현된 사례가 문헌에 나와 있습니다(6,7). 또한 캐나다의 국가 의사 면허 시험에서도 자동 생성된 문제가 사용되었습니다(8).  
Template-based AIG has shown a great success in the last ten years. Successful implementations have been shown in the literature in various languages, such as English, French, Chinese, Spanish, Korean, and Turkish (6,7). Furthermore, automatically generated questions have been used in national medical licensure exam in Canada (8). 

템플릿 기반 인공지능이 기존 문항 작성에 비해 우월함에도 불구하고, 인지 모델과 문항 모델을 개발하기 위해서는 분야별 전문가가 필요하기 때문에 여전히 인간의 노력에 의존하고 있습니다. 인공지능(AI)을 사용하면 시험 개발자가 문항을 생성하는 데 드는 노력이 줄어들지만, 연구자들은 여전히 템플릿 기반 방식에 비해 만족스럽지 못한 문항을 제공했기 때문에 이러한 목적으로 AI를 사용하는 것보다 템플릿 기반 AIG를 선호했습니다(6).  
Despite the superiority of template-based AIG over traditional item writing, it still depends on human efforts as it requires subject matter experts to develop cognitive models and item models. Although artificial intelligence (AI) is less effortful for test developers to generate items, researchers still preferred template-based AIG over the use of AI for this purpose because AI provided unsatisfying MCQs compared to template-based methods (6). 

MCQ 생성을 위한 AI
AI for Generating MCQs

AIG의 비템플릿 기반 방법은 자연어 처리(NLP)에 의존하는데, 과거에 사용되긴 했지만 만족스러운 MCQ를 생성하지 못했습니다(6). 그러나 대규모 언어 모델(LLM)인 생성적 사전 학습 트랜스포머(GPT)와 같은 NLP 기반 AI 솔루션이 이를 변화시킬 것으로 보입니다. GPT-3.5와 같은 LLM이 '우리말 해킹'에 성공했기 때문입니다(9).  
Non-template based methods in AIG relies on Natural Language Processing (NLP), which has been used but did not produce satisfying MCQs in the past (6). However, it seems NLP-based AI solutions like generative pretrained transformer (GPT), which is a large language model (LLM), is about to change this. It is because LLMs, such as GPT-3.5, achieved a success in “hacking our languages” (9). 

GPT-3.5의 변형인 ChatGPT는 2022년 11월에 공개적으로 도입되었습니다. 단 5일 만에 사용자 100만 명을 돌파했습니다(10). 이는 의료 전문직 교육에도 영향을 미쳤습니다(11-14). 그 결과 일부 의학교육 연구자들은 ChatGPT의 출시일을 ChatGPT 이전 시대와 이후 시대를 구분하는 중요한 기준으로 제시하기도 했습니다(15). 이러한 성공은 아마도 GPT-3가 이전 모델의 10배에 달하는 훨씬 더 큰 데이터 말뭉치를 보유하고 있다는 사실(16)과 ChatGPT가 무료로 공개되었기 때문일 것입니다(15).  
ChatGPT, a variant of GPT-3.5, was publicly introduced in November 2022. It passed one million user mark in only five days (10). It affected health professions education as well (11–14). As a result, some medical education researchers suggested the release date of ChatGPT as a crucial delineation between the pre-ChatGPT era and the post-ChatGPT era (15). This success was probably due to the fact that GPT-3 possesses a data corpus that is significantly larger, being ten times the size of prior models (16), and due to ChatGPT’s free and public release (15). 

저희의 개인적인 경험에 따르면 ChatGPT를 사용하여 고품질의 MCQ를 생성하는 것은 프롬프트의 품질에 달려 있습니다. 그래서 저희는 의대생들을 위해 Esh Tatla가 개발한 프롬프트를 수정하여 프롬프트를 개발했습니다(17). 원래 프롬프트가 유용하더라도 의학교육에서 객관식 문항을 구성하는 원칙에 더 가깝게 부합하는 MCQ를 생성하기 위해 수정이 필요했습니다. 지속적인 테스트와 개선을 통해 완성된 프롬프트는 표 1에 제시되어 있습니다. 또한 시험 개발자와 의대생의 이해를 돕기 위해 정답에 대한 설명을 제공하는 부분도 포함되어 있습니다.  
Our personal experiences show that generating high quality MCQs using ChatGPT depends on the quality of prompts. Therefore, we developed a prompt by revising the prompt developed by Esh Tatla for medical students (17). Even if the original prompt was useful, it required us to make revisions to generate MCQs that align more closely with the principles of constructing multiple-choice items in medical education. The prompt, achieved through continuous testing and refinement, is presented in Table 1. It also includes a part to provide explanations of the answers that may help test developers and medical students to better understand. 

이 프롬프트를 사용하려면 사용자는 대문자로 표시된 두 부분만 채우면 됩니다:
To use this prompt, the user needs only to fill two parts presented using capital letters:

  1. [주제를 입력하세요]
    [PLEASE INSERT A TOPIC]
  2. [난이도(예: 쉬움, 어려움)를 입력하세요]
    [PLEASE INSERT A DIFFICULTY LEVEL (E.G. EASY, DIFFICULT]

첫 번째 부분에서는 사용자가 주제를 삽입합니다. 이 주제는 의과 대학 교육의 학습 목표로 간주할 수도 있습니다. 두 번째 부분은 MCQ의 난이도를 결정하는 부분입니다. 
In the first part, the user inserts a topic. The topic can also be considered as a learning objective of a training in a medical school. The second part is to determine the difficulty of the MCQ.

표 2는 "일차 진료 환경에서 본태성 고혈압 관리"를 주제로, 난이도를 "쉬움"으로 설정한 프롬프트를 사용하여 생성된 MCQ를 보여 줍니다https://chat.openai.com/share/4342df6f-7cbe-43df-98dc-b110b53983e3(무료 연구 미리보기, 9월 25일 버전)에서 액세스할 수 있습니다. 
Table 2 shows an MCQ generated by using the prompt with “managing essential hypertension in a primary care setting” as the topic, and “Easy” as the difficulty level, which is accessible from https://chat.openai.com/share/4342df6f-7cbe-43df-98dc-b110b53983e3. (Free Research Preview, September 25 Version). 

의학교육학 박사 학위를 가진 의사로서 위의 MCQ는 그럴듯하고 잘 구성되어 있는 것 같습니다. 문항의 질에 대한 철저한 분석도 가능하겠지만, 프롬프트를 입력하고 버튼을 누르는 것만으로 몇 초 만에 이러한 MCQ를 생성할 수 있다는 점이 우선 흥미롭습니다. 과거에는 이러한 MCQ를 작성하려면 해당 분야 전문가들의 오랜 시간이 필요했습니다. 하지만 오늘날에는 인터넷 연결과 일반 컴퓨터, 그리고 상세한 프롬프트만 있으면 몇 초 만에 효율적으로 MCQ를 생성할 수 있습니다. 이 때문에 일부 연구자들은 2022년 11월부터 시작되는 이 시기를 포스트 ChatGPT 시대라고 명명하기도 합니다. 
As a physician with a PhD in medical education, it seems the MCQ above is both plausible and well-constructed. While a thorough analysis of the item's quality could be carried out, it is initially intriguing to generate such an MCQ within seconds by simply inputting a prompt and pressing a button, which is an extraordinary success. In the past, writing such MCQs required extensive time of subject matter experts. However, in today, with an internet connection, an average computer, and the detailed prompt, we can efficiently generate MCQs in a few seconds. This is why some researchers name this period began in November 2022 as post-ChatGPT era. 

향후 연구를 위한 권장 사항
Recommendations for Future Research

ChatGPT를 이용한 자동 MCQ 생성은 많은 연구 질문에 대한 해답을 제시합니다. 그 중 일부는 다음과 같습니다:
Automatic MCQ generation using ChatGPT comes up with many research questions that need to be answered. Some of them are:
 MCQ가 과학 및 임상 지식 측면에서 주제별 전문가의 평가를 통해 수용 가능한 것으로 간주됩니까? 
 프롬프트가 심리측정 표준을 충족하는 MCQ를 생성할 수 있나요? 
 ChatGPT가 생성한 MCQ의 품질은 인간 전문가가 생성한 것과 비교했을 때 어떤 차이가 있나요? 
 ChatGPT가 생성한 질문의 인지 수준이 의도한 학습 목표 및 블룸의 분류 체계와 어떻게 일치하나요? 
 MCQ의 의도된 난이도가 실제 평가 환경에서 실제 난이도와 일치합니까? 
 다양한 보건 전문직 교육 환경에서 MCQ를 생성하는 데 프롬프트를 효과적으로 사용할 수 있습니까? 
 MCQ를 시험에 포함하기 전에 사람이 편집해야 합니까? 
 설명이 형성 평가에서 의대생에게 효과적인 피드백으로 작용하나요? 
 Are the MCQs considered acceptable through evaluation by subject matter experts in terms of scientific and clinical knowledge? 
 Is the prompt capable of generating MCQs that meet psychometric standards? 
 How does the quality MCQs generated by ChatGPT compared to those created by human experts? 
 How do the cognitive levels of questions generated by ChatGPT align with the intended learning objectives and Bloom's taxonomy? 
 Do the intended difficulty levels of the MCQs align with their actual difficulty in real assessment settings? 
 Can the prompt be effectively used to generate MCQs in various health professions education settings? 
 Do the MCQs need editing by humans before incorporating them into exams? 
 Do the explanations serve as effective feedback for medical students in formative assessments? 

결론
Conclusions

 ChatGPT는 몇 초 만에 사례 기반 MCQ를 생성할 수 있는 흥미로운 기회를 제공합니다. 
 연구자들은 ChatGPT를 사용하여 생성된 MCQ의 품질을 평가하기 위한 연구를 수행해야 합니다.
 ChatGPT provides an exciting opportunity for generating case-based MCQs in a few seconds. 
 Researchers should conduct studies to evaluate the quality of MCQs generated by using ChatGPT. 


Table 1. A prompt for generating MCQs in medical education. 

You are developing a question bank for medical exams focusing on the topic of [PLEASE INSERT A TOPIC]. Please generate a high-quality single best answer multiple-choice question. Follow the principles of constructing multiple-choice items in medical education. Generate the questions using the following framework:

Case (write as a single narrative paragraph without providing each part separately): 
Patient details (gender/age)
Presenting complaint
Relevant clinical history
Physical examination findings
Diagnostic test results (optional)

Question stem: [Insert relevant information from the above sections without compromising the answer]
Acceptable question style: Ask for the BEST answer, NOT one that is TRUE/FALSE.

Answer options:
[Insert plausible answer option]
[Insert plausible answer option]
[Insert plausible answer option]
[Insert plausible answer option]
[Insert plausible answer option]

Explanation:
• Identify and explain the correct answer.
• Explain why this is the most appropriate answer based on evidence-based guidelines or expert consensus.
• Briefly explain why the other answer options are less correct or incorrect.

Difficulty level: [PLEASE INSERT A DIFFICULTY LEVEL (E.G. EASY, DIFFICULT]


Table 2. An MCQ generated by using the prompt in ChatGPT.

Case:

Mr. Johnson, a 55-year-old male, presents to the primary care clinic with a chief complaint of recurrent headaches. He reports a sedentary lifestyle and a family history of hypertension. His blood pressure readings during previous routine check-ups have consistently been elevated. Mr. Johnson denies any chest pain, shortness of breath, or visual disturbances. His past medical history is significant for obesity and a sedentary occupation. On physical examination, his blood pressure is 150/92 mmHg, and his BMI is 31. Laboratory results show normal renal function and lipid profile.  

Question stem:

Given Mr. Johnson's presentation with recurrent headaches, a family history of hypertension, and consistently elevated blood pressure readings, what is the BEST initial management strategy in a primary care setting? 

Answer options:

A. Initiate lifestyle modifications, including dietary changes and increased physical activity.
B. Start antihypertensive medication immediately to lower blood pressure.
C. Order a 24-hour ambulatory blood pressure monitoring for further assessment.
D. Recommend immediate admission to the hospital for comprehensive evaluation.
E. Suggest over-the-counter analgesics for headache relief and reassess in six months.

Explanation:

The correct answer is A. Initiate lifestyle modifications, including dietary changes and increased physical activity.

Explanation:

Hypertension management guidelines emphasize lifestyle modifications as the initial approach in patients with uncomplicated essential hypertension. For individuals like Mr. Johnson, who presents with elevated blood pressure, obesity, and a sedentary lifestyle, initiating lifestyle changes is crucial. These changes should include adopting a heart-healthy diet (such as the DASH diet), increasing physical activity, and weight reduction. Lifestyle modifications have been shown to significantly contribute to blood pressure control and may obviate the need for immediate pharmacologic intervention.

Option B (Start antihypertensive medication immediately) is not the best initial approach unless there are compelling indications for immediate treatment, which are not evident in Mr. Johnson's case. Option C (Order a 24-hour ambulatory blood pressure monitoring) may be considered in certain situations but is not the primary step in the management of essential hypertension. Option D (Recommend immediate admission to the hospital) is not warranted in the absence of hypertensive emergencies. Option E (Suggest over-the-counter analgesics) does not address the underlying hypertension and is not the primary management strategy for this patient. 


 


Abstract

The significant challenge faced by medical schools is the effortful process of writing a high quantity of high-quality case-based multiple-choice questions (MCQs) to assess the higher-order skills of medical students. The demand for a high volume of MCQs in education has led to the development of Automatic Item Generation (AIG), specifically template-based AIG, which involves creating cognitive and item models by subject matter experts to generate hundreds of MCQs at once using software. It demonstrated significant success in various languages and even being incorporated into national medical licensure exams. However, this method still heavily depends on the efforts of subject matter experts. This paper introduces a detailed ChatGPT prompt for quickly generating case-based MCQs and provides important research questions for future exploration into ChatGPT's potential in generating items, signaling the beginning of the artificial intelligence era in medical education, encouraging health professions education researchers to delve deeper into its potential.

졸업후교육 학습자(전공의)의 평가에서 환자참여: 스코핑 리뷰(Med Educ, 2021)
Patient involvement in assessment of postgraduate medical learners: A scoping review
Roy Khalife1 | Manika Gupta1 | Carol Gonsalves1 | Yoon Soo Park2 | Janet Riddle3 | Ara Tekian3 | Tanya Horsley4,5

 

1 소개
1 INTRODUCTION

역량 기반 의학교육(CBME)이 가져온 광범위한 변화에 대응하여, 졸업후의학교육(PGME) 교육 프로그램(PGME)은 투명하고 사회적으로 책임감 있는 환자 중심 교육을 제공하여 미래의 의사 인력이 사회와 환자의 요구를 충족할 수 있도록 준비시킬 의무가 있습니다.1, 2 PGME가 실제로 이러한 의무를 이행하는 정도는 주로 무감독 실습에 대한 증명을 제공하는 평가 시스템에 의존합니다.3 그러나 졸업후의학교육(PGME) 학습자의 역량과 무감독 실습 준비도를 평가하는 것은 복잡하고 어려운 일입니다.4-6  
In response to broad-sweeping changes brought on by competency-based medical education (CBME), postgraduate medical education (PGME) training programmes are mandated to deliver transparent, socially accountable and patient-centred education that prepares the future physician workforce to meet societal and patient needs.1, 2 The extent to which PGME in fact delivers on this mandate relies predominantly on systems of assessment that provide attestation for unsupervised practice.3 However, assessing postgraduate medical learners' competence and readiness for unsupervised practice is complex and challenging.4-6

일반적으로 평가 시스템은 전적으로 의사의 판단에만 의존하며, 최근 21세기 의료,5,7,8 환자 참여형 의료에 대한 졸업후의학교육(PGME) 의료 학습자의 역량에 대한 총체적인 관점을 제공하지 못한다는 비판을 받고 있습니다. 환자를 의료 서비스에서 보다 동등한 파트너로 장려하는 전 세계적인 움직임을 고려할 때 이는 놀라운 일이 아닙니다.9,10 실제로 의과대학 커리큘럼에서 환자 파트너가 입학 위원회 및 자문 그룹에서 필수적인 역할을 하거나 표준화된 환자 및 교사로서 점점 더 많이 등장하고 있습니다.11-14 하지만 왜 환자를 포함해야 할까요? 교육 전반에 걸친 환자 참여는 진정한 환자 중심 의학교육과 사회적 책임성 증대로 이어질 수 있지만,15 역량에 대한 결정을 내리는 평가 노력에서 환자의 목소리는 눈에 띄게 부재하거나 중요하지 않은 것으로 남아 있습니다.16-18  
Generally, systems of assessment rely solely on physicians' judgements and have recently been criticised for not providing a holistic view of postgraduate medical learners' competence for 21st century care,5, 7, 8 care that is patient-partnered. This should come as no surprise given a global movement promoting patients as more equal partners in health care.9, 10 In fact, patient partners are increasingly present in medical school curricula with integral roles on admission committees and advisory groups and as standardised patients and teachers.11-14 But why include patients? Patient engagement across the educational spectrum can lead us towards true patient-centred medical education and increased social accountability,15 and yet the patient voice remains conspicuously absent, and inconsequential, from assessment endeavours that inform decisions vis-à-vis competence.16-18

최근의 일부 증거에 따르면

  • 행정적 어려움(예: 시간 및 인적 자원 제약, 평가 도구의 부족, 사회문화적 및 조직적 장애물)이 평가에 환자를 포함시키는 데 장애가 되는 것으로 나타났습니다.16 이는 어느 정도 놀라운 일이 아니지만, 새로운 증거는 더 복잡한 그림을 그려줍니다.
  • 한편으로 환자들은 역량 기반 평가 관행에 자신의 경험적 전문성을 기여할 의향이 있고, 열의가 있으며, 좋은 위치에 있는 것으로 분류되어 왔습니다.17, 19
  • 한편, 평가 시스템의 중심 행위자인 의사들의 관점에서는 환자의 관심, 능력, 전문성 부족, 평가에 대한 잠재적 편견에 대해 불확실성과 우려를 표하는 것으로 보입니다.16

이러한 긴장은 환자가 역량 기반 평가에서 적극적인 역할을 하는 맥락을 불러오는 교육 관행의 발전을 방해할 수 있습니다. 
Some recent evidence has positioned

  • administrative challenges (e.g. time and human resource constraints, perceived lack of assessment tools and sociocultural and organisational hurdles) as a barrier to patient inclusion in assessment.16 While this is to some extent not surprising, emerging evidence paints a more complex picture.
  • On the one hand, patients have been categorised as willing, eager and well-positioned to contribute their experiential expertise to our competency-based assessment practices.1719 
  • Meanwhile, there appears to be misalignment with physicians' perspectives (the central actor in assessment systems) who express uncertainty and concern towards patients' lack of interest, abilities, expertise and potential biases in assessment.16 

This tension may impede the development of educational practices that invoke contexts where patients have an active role in competency-based assessment.

평가에 대한 환자의 참여에 대한 다양한 의견과 잠재적으로 관련성이 있는 광범위한 문헌을 고려할 때, 우리는 범위 검토 방법론을 사용하여 환자가 졸업후의학교육(PGME) 의학 학습자 평가에 참여했는지 여부와 그 방법을 탐구하고자 했습니다. 구체적으로, '졸업후의학교육(PGME) 의학 학습자 평가에 대한 환자 참여를 탐구하는 문헌의 범위, 성격 및 범위는 어느 정도인가'라는 질문에 답하고, 이어서 '역량 기반 평가에서 환자 참여에 영향을 미치는 요인(예: 어포던스 및 장벽)은 무엇인가'라는 질문에 답하고자 했습니다. 
Given the disparate opinions of patients' involvement in assessment and the breadth of potentially relevant literature, we aimed to explore whether and how patients have partnered in the assessment of postgraduate medical learners using a scoping review methodology. Specifically, we aimed to answer the question ‘What is the extent, nature and range of literature that exists exploring patient involvement in the assessment of postgraduate medical learners?’ and subsequently, ‘what factors influence (e.g., affordances and barriers) patient involvement in competency-based assessment?’

2 방법
2 METHODS

Arksey와 O'Malley의 6단계 방법론 프레임워크가 우리의 범위 검토에 영향을 미쳤습니다.20 우리는 또한 Levac 외와 Thomas 외의 업데이트된 방법론 권고사항도 고려했습니다.21,22 구체적으로, 우리는 Levac 외의 제안대로 선택 과정과 데이터 차트 작성 단계에서 여러 차례 회의와 토론을 진행했으며,21 그리고 Thomas 등이 권고한 대로 대상 집단과 중재의 초점을 좁혔습니다.22 20개 항목으로 구성된 체계적 문헌고찰 및 범위 설정을 위한 메타분석의 선호 보고 항목(PRIMA-Scr)이 연구 보고의 지침이 되었습니다.23 
Arksey and O'Malley's six-stage methodological framework informed our scoping review.20 We also considered updated methodological recommendations by Levac et al. and Thomas et al.21, 22 Specifically, we conducted multiple meetings and discussions at the selection process and data charting stages as suggested by Levac et al.,21 and we narrowed the focus of our target population and intervention as recommended by Thomas et al.22 The 20-item, Preferred Reporting Items for Systematic reviews and Meta-Analyses extension for Scoping Reviews (PRIMA-Scr) guided our reporting of our research.23

2.1 1단계: 연구 질문 파악하기
2.1 Stage 1: Identifying the research question

범위 검토 프레임워크의 첫 번째 단계에서 정의한 대로, 4명의 저자(RK, CG, YSP, AT)는 보건 전문직 교육(HPE) 문헌에서 평가자로서의 환자를 광범위하게 논의했습니다. 이러한 논의를 통해 연구 질문에 대한 정보를 얻고 정의했습니다: 
As defined by the first step of the scoping review framework, four authors (RK, CG, YSP and AT) broadly discussed patients as assessors within the health professions education (HPE) literature. These discussions informed and defined our research questions:

  1. 졸업후의학교육(PGME) 학습자 평가에 환자의 참여를 탐구하는 문헌의 범위, 성격 및 범위는 어느 정도인가? 
    What is the extent, nature and range of literature that exists exploring patient involvement in assessment of postgraduate medical learners? and
  2. 역량 기반 평가에서 환자의 참여에 영향을 미치는 요인(예: 어포던스 및 장벽)은 무엇인가? 
    What factors appear to influence (e.g. affordances and barriers) patient involvement in competency-based assessment?

주제의 복잡성과 식별할 수 있는 문헌의 폭(환자 중심 문헌과 의료 전문직 교육의 교차점)을 고려하여 검토의 초점을 졸업후의학교육(PGME) 의료 학습자(예: 레지던트 및 펠로우)로 좁혔습니다. 의학 교육은 하나의 연속체이지만, 학부 학습자와 졸업후의학교육(PGME) 학습자는 학습자를 평가하는 이유와 방법이 근본적으로 다릅니다. 이러한 이유로, 우리는 졸업후의학교육(PGME) 학습자만을 분석 단위로 포함하도록 모집단을 합리적으로 분리했습니다. 학부생과 졸업후의학교육(PGME)생이 혼합된 모집단(예: 학부생과 졸업후의학교육(PGME)생 의학 학습자)이 포함된 연구의 경우, 졸업후의학교육(PGME)생 데이터가 별도로 제시된 경우에만 연구에 포함시켰습니다. 
Given the complexity of the topic and the breadth of literature that might be identified (intersection of patient-oriented literature and health professions education), we narrowed the focus of our review to postgraduate medical learners (e.g. residents and fellows). Although medical education is a continuum, why and how learners are assessed are fundamentally different between undergraduate and postgraduate learners. For this reason, we rationalised segregating our population to include only postgraduate learners as a unit of analysis. When studies included mixed populations (e.g. undergraduate and postgraduate medical learners), we included studies only when graduate learners data were presented separately.

Thomas 등22 의 영향을 받아 대상 집단(졸업후의학교육(PGME) 의학 학습자)에 초점을 좁혔을 뿐만 아니라, HPE 프로그램의 이질성과 관련된 잠재적인 보급 및 실행 문제를 최소화하기 위해 개입(평가 도구의 환자 완료)의 우선순위를 정하고 집중적으로 포함시켰습니다. 
Influenced by Thomas et al.,22 not only did we narrow our focus on a target population (postgraduate medical learners), we prioritised and focused inclusion of the intervention (patient completion of assessment tools) to minimise potential dissemination and implementation challenges related to the heterogeneity of HPE programmes.

2.2 2단계: 관련 연구 식별
2.2 Stage 2: Identifying relevant studies

반복적인 접근 방식과 숙련된 의학 사서의 안내에 따라 날짜 제한 없이 MEDLINE과 EMBASE에 대한 검색 전략을 개발했습니다(부록 S1). 검색의 정확도와 회상률을 높이기 위해 미리 식별된 관련 기록에 대해 검색을 테스트했습니다. 검색은 2019년 11월 18일에 시행되었으며 2021년 2월 25일에 제출하기 전에 업데이트되었습니다. 원래 PubMED©는 진행 중인 기록과 초기 릴리즈 기록을 포착하기 위한 목적으로 검색되었으며, 초기에는 낮은 수율로 인해 후속 검색은 적용되지 않았습니다. 모든 기록은 독점적인 체계적 문헌고찰 소프트웨어 도구로 다운로드되었습니다(Covidence 체계적 문헌고찰 소프트웨어, 베리타스 헬스 이노베이션, 호주 멜버른. http://www.covidence.org 에서 사용 가능). 주제의 복잡성과 검색의 알려진 어려움을 감안하여, 포함된 모든 연구의 참조 목록을 확인하여 원래 검색에서 포착되지 않은 관련 기록을 식별했습니다.24 
Using an iterative approach and guided by an experienced medical librarian, we developed a search strategy for MEDLINE and EMBASE without date restrictions (Appendix S1). Searches were tested against pre-identified relevant records as a measure of improving precision and recall of the search. The search was implemented on 18 November 2019 and was updated prior to submission on 25 February 2021. Originally, PubMED© was searched with the intent to capture in-process and early-release records; given the low yield initially, no subsequent searches were applied. All records were downloaded to a proprietary systematic review software tool (Covidence systematic review software, Veritas Health Innovation, Melbourne, Australia. Available at www.covidence.org). Given the complexity of the topic and known challenges with searching, we checked reference lists of all included studies to identify any relevant records not captured by the original search.24

2.3 3단계: 연구 선택
2.3 Stage 3: Study selection

2.3.1 적격성 기준
2.3.1 Eligibility criteria

검토를 위한 포함 기준을 충족하기 위해, 기록은 (i) 환자를 능동적 평가자로 다루고(예: 완성된 평가 도구), (ii) 졸업후의학교육(PGME) 의학 학습자(예: 레지던트 및 펠로우)를 평가하는 데 초점을 맞추고, (iii) 영어 또는 프랑스어 출판물이어야 하며, (iv) 전체 텍스트 기록으로 제공되어야 합니다. 회색 문헌과 논평, 논문, 사설 또는 의견서는 제외되었습니다. 
To meet the threshold of inclusion for our review, records had to (i) address patients as active assessors (e.g. completed assessment tool), (ii) focus on assessing postgraduate medical learners (e.g. residents and fellows), (iii) be English- or French-language publications and (iv) be available as full-text records. Grey literature as well as commentaries, dissertations, editorials or opinion pieces were excluded.

2.3.2 선정 과정
2.3.2 Selection process

정의된 적격성 기준을 사용하여 표준화된 양식을 개발하고 파일럿 테스트를 거쳐 기록의 포함 및 제외 결정을 내리는 데 사용했습니다. 두 명의 저자(RK와 MG)가 검토 소프트웨어 내에서 각 제목과 초록을 독립적으로 검토하고 프로젝트 시작, 중간, 종료 시점에 만나(Levac 외.21의 권고에 따라) 합의점을 논의하고 그에 따라 적격성 결정을 구체화했습니다. 의견 불일치는 각 단계의 적격성 평가 후 토론을 통해 해결했습니다. 다른 복잡한 주제와 마찬가지로, 이는 검토 개념을 구체화하고 졸업후의학교육(PGME) 의학 학습자 또는 환자 자체를 정의할 때 보고가 부실하거나 이질적이기 때문에 발생하는 갈등을 해결하는 데 도움이 되었습니다. 이를 위해 검토자 간의 일치도는 코헨 카파를 사용하여 0.54로 평가되었으며, 이는 중간 수준의 일치도로 해석됩니다. 
Using a defined eligibility criterion, we developed and pilot-tested a standardised form that was then used to guide decisions for inclusion and exclusion of records. Two authors (RK and MG) reviewed each title and abstract independently within the review software and met at the project start, midpoint and end (as recommended by Levac et al.21) to discuss agreement and refine eligibility decisions accordingly. Disagreements were resolved by discussion after each level of eligibility assessment. As with any complex topic, this proved helpful in refining review concepts and resolving conflicts, for example, that were due to either poor reporting or heterogeneity in defining postgraduate medical learners or patients themselves. To this end, agreement between reviewers was assessed at 0.54 using a Cohen's kappa, interpreted as a moderate level of agreement.

2.4 4단계: 데이터 차트 만들기
2.4 Stage 4: Charting the data

범위 검토 프레임워크의 4단계에 따라 미리 정의된 데이터 차트 양식을 만들었습니다. 처음에 한 명의 저자(RK)가 기록 수준의 우선순위 항목을 개괄적으로 설명하기 위해 개발한 이 양식은 더 광범위한 팀(RK, CG, YSP 및 AT)의 의견을 수렴하여 검토 및 수정되었습니다. 데이터 차트 항목에는 환자의 특성, 연구 환경, 평가 개입, 사전 지정된 질문에 따른 주요 결과가 포함되었습니다(부록 S2). 그런 다음 양식의 유용성과 포괄성에 대해 파일럿 테스트를 거쳐 팀의 승인을 받았습니다. 한 명의 저자(RK)가 초기 데이터 차트 작성을 수행했고, 두 번째 저자(MG)가 각 대상 연구를 검토하고 차트 작성된 데이터의 정확성을 확인했습니다. Levac 등이 제안한 대로,21 두 저자는 처음 10개의 연구에서 차트화된 데이터에 대해 논의한 후 데이터 차트 양식을 더욱 구체화했습니다. 이 양식에 추가된 항목에는 환자 배제 또는 거부, 환자 익명성 및 기밀성, 환자 참여율, 다중 출처 피드백과 관련된 추가 세부 정보에 관한 데이터가 포함되었습니다. 그런 다음 데이터 차트 작성 프로세스가 끝날 때 저자들이 다시 만나 토론을 통해 모든 이견을 해결했습니다. 
In keeping with Stage 4 of the scoping review framework, we constructed a predefined data-charting form. Initially developed by one author (RK) to outline record-level, priority items, the form was then reviewed and revised with input from the broader team (RK, CG, YSP and AT). Data charting items included the characteristics of patients, study settings, assessment interventions and primary outcomes based on our prespecified questions (Appendix S2). The form was then pilot-tested for usability and comprehensiveness and approved by the team. One author conducted initial data charting (RK), and a second author (MG) reviewed each eligible study and verified the charted data for accuracy. As suggested by Levac et al.,21 both authors met to discuss the charted data from the first 10 studies and then further refined the data-charting form. Items added to the form included data pertaining to patient exclusion or refusal, patient anonymity and confidentiality, patient participation rates and additional details related to multi-source feedback. The authors then met again at the end of the data charting process and resolved all disagreements through discussion.

2.5 5단계: 결과 집계, 요약 및 보고
2.5 Stage 5: Collating, summarising and reporting results

아크시와 오말리의 5단계 접근 방식에 따라, 차트화된 데이터는 엑셀 파일에 간결하게 요약되어 저자 간의 토론과 해석을 알리는 데 사용되었습니다. 연구 설계, 출판 유형, 출판 국가, 개입 세부 사항, 분석 인구 단위(예: 전문 분야) 및 관련 결과 측정값을 포함한 인구통계학적 특성을 보고하기 위해 정량적 서술적 분석을 완료했습니다. 한 명의 저자(RK)가 앞서 언급한 연구 질문에 따라 선택된 모든 연구의 내용을 분류했습니다. 추출된 모든 데이터는 두 번째 저자(MG)가 검토했으며, 두 사람이 만나서 합의점을 논의하고 분류를 수정했습니다. 그런 다음 두 저자는 데이터를 해석하여 연구팀에게 설명적으로 제시했습니다. 그런 다음 연구팀은 가상으로 만나 데이터를 어떻게 제시하고 맥락화할지 논의했습니다. 이후 세 명의 저자(RK, JR, TH)가 세 차례에 걸쳐 만나 해석 분석을 추가로 비교, 대조, 수정했습니다. 
In keeping with Step 5 of Arksey and O'Malley's approach, charted data were summarised succinctly within an excel file and used to inform discussions and interpretations between authors. Quantitative descriptive analysis was completed to report on demographic characteristics including study design, publication type, country of publication, intervention details, population unit of analysis (e.g. specialty) and relevant outcome measures. One author (RK) categorised the content of all selected studies based on the aforementioned study questions. All extracted data were reviewed by a second author (MG), and both met to discuss agreement and revise the categorisation. The data were then interpreted by the two authors and presented descriptively to the study team. The team then met virtually to discuss how the data were presented and contextualised. Three authors (RK, JR and TH) then met on three subsequent occasions to further compare, contrast and revise the interpretative analysis.

2.6 6단계: 협의 연습
2.6 Stage 6: Consultative exercise

아크시와 오말리 프레임워크의 6단계(이해관계자 자문)는 '소비자 및 이해관계자가 참여하여 추가 참고 문헌을 제안하고 문헌에 없는 통찰력을 제공할 수 있는 기회'를 제공합니다.20 이 단계는 아크시와 오말리의 프레임워크에서는 선택 사항으로 설명되지만 레박 외의 업데이트에서는 필수 사항으로 간주됩니다.20, 21 이를 고려하여 연구팀은 적절한 연구 윤리 승인 및 자금 지원을 통해 향후 연구를 통해 이 작업을 해결하는 것이 가장 좋다는 결론을 내렸습니다. 
Stage 6 of the Arksey and O'Malley framework (consulting stakeholders) provides ‘opportunities for consumer and stakeholder involvement to suggest additional references and provide insights beyond those in the literature’.20 This step is described as optional in Arksey and O'Malley's framework, but deemed essential in Levac et al.'s update.20, 21 Given this, the study team concluded that this work may be best addressed through future research with appropriate research ethics approval and funding.

3 결과
3 RESULTS

검색 결과 821개의 기록이 발견되었습니다. 적격성 평가 결과, 41개의 전체 텍스트 연구가 포함 기준을 충족했습니다. 적격성 평가의 각 단계에 대한 자세한 내용은 그림 1에 나와 있습니다. 포함된 연구의 인구통계학적 특성은 표 1에 요약되어 있습니다. 대부분의 연구는 최근 10년(2010~2020년) 동안 미국 출신 저자에 의해 발표되었으며, 단일 기관에서 수행되었습니다. 포함된 연구는 내과와 가정의학 등 여러 분야에서 발표되었으며, 환자는 여러 임상 환경(대부분 외래 진료소)을 대표하는 경우가 많았습니다(표 1). 부록 S4에는 연구 설계, 출판 국가, 졸업후의학교육(PGME) 학습자의 특성, 환자 평가 횟수, 주요 연구 결과 등 41개 연구 전체에 대한 자세한 설명이 나와 있습니다. 
Our search yielded 821 records. Following eligibility assessment, 41 full-text studies met the inclusion criteria. Details outlining each stage of eligibility assessment are depicted in Figure 1. Demographic characteristics of included studies are outlined in Table 1. Most studies were published by authors originating from the United States, during the most recent decade (2010–2020), and form a single institution. Included studies were published within several disciplines, most commonly internal and family medicine, with patients representing multiple clinical settings, most frequently out-patient clinics (Table 1). Appendix S4 provides a detailed description of all 41 studies including study design, country of publication, characteristics of postgraduate learners, number of patient assessments and the main study findings.

3.1 환자 대표성
3.1 How patients are represented

포함된 41개의 연구 중 18개(43.9%)만이 환자의 성별을 보고했습니다.25-27, 37, 41-49, 58, 59, 61-63 부모와 보호자를 대표하는 소아 환자 집단을 대상으로 한 3개의 연구에서 여성은 학습자 평가의 일부로 피드백 수집의 82-87%에 기여했습니다.44, 45, 49 여러 연구에서 인구학적 특성을 보고했지만, 성별이 평가에 미치는 영향을 탐구한 연구는 거의 없었습니다. 외과 레지던트의 의사소통 능력에 대한 다중 소스 피드백(MSF)의 타당성을 조사한 한 연구에서는 성별에 기반한 접근 방식을 사용하여 여성 레지던트가 통계적으로 유의하게 높은 평가를 받은 것으로 보고했습니다.41 
Of the 41 included studies, only 18 (43.9%) reported patients' gender.25-27, 37, 41-49, 58, 59, 61-63 In three studies with a paediatric patient population representing parents and guardians, women contributed to 82–87% of feedback collection as part of learners' assessments.44, 45, 49 While several studies reported demographic characteristics, few explored the effect of gender on assessment. One study that explored the feasibility of multi-source feedback (MSF) for surgical residents' communication skills used a gender-based approach to report as women as providing statistically significantly higher ratings of residents.41

환자의 인종과 민족은 13개 연구(31.7%)에서 확인되었습니다. 보고된 용어에 따르면, 환자는 주로 '백인' 또는 '백인'으로 식별되었으며, 13개 연구 중 9개 연구에서 가장 큰 코호트(>50%)를 차지했습니다.25-27, 41, 46, 48, 49, 59, 62 실제로 두 연구에서 '백인' 환자 참가자 비율이 90%까지 보고되었습니다.26, 62 소수 인종 또는 소수 민족의 대표성은 다양했으며 그 이유를 명확하게 파악하기 위한 설명 정보가 거의 없었습니다. 샘플링이 수행된 이유와 대표성을 추구했는지에 대한 이유는 보고되지 않았습니다. 기타 환자 인구통계학적 특성(예: 사회경제적 지위)에 대한 보고는 공통성과 일관성이 부족하여 연구 간 비교가 어려웠습니다.
Patient race and ethnicity were identified in 13 studies (31.7%). Using the reported terminology, patients predominantly identified as ‘White’ or ‘Caucasian’ representing the largest cohort of participants (>50%) in nine of the 13 studies.25-27, 41, 46, 48, 49, 59, 62 In fact, two studies reported rates of ‘White’ patient participants as high as 90%.26, 62 Representation of racial or ethnic minorities was variable, with little explanatory information to succinctly determine why. Reasons for how sampling was carried out, and whether representation was sought, was not reported. Reporting of other patient demographics (e.g. socio-economic status) lacked commonality and consistency making comparisons across studies challenging.

3.2 환자 포함(및 제외)
3.2 Patient inclusion (and exclusion)

환자 포함 및 제외는 포함된 연구 전반에 걸쳐 다양한 방식으로 나타났습니다. 포함된 연구의 절반 미만(18/41, 43.9%)에서 특정 환자가 학습자 평가에서 제외된 이유를 명확하게 설명했습니다(부록 S5).25, 26, 28-32, 41, 43, 44, 47-50, 59, 61, 62, 64 가장 빈번한 제외 이유는 언어 능력(예: 제한된 영어 능력)이었는데, 이는 발표된 연구의 대부분이 영어 교육이 주를 이루는 국가에서 시작되었음을 고려할 때 놀라운 일이 아닙니다. 평가 도구를 여러 언어로 제공함으로써 평가 도구의 접근성을 보장하기 위한 조치를 고안한 연구는 Tamblyn과 동료들의 연구 한 건에 불과했습니다.58 반대로 환자가 평가에 참여하지 않기로 선택한 경우는 5건(12.8%)에서 보고되었으며, 여기에는 관심 부족, 경쟁 치료 계획, 전반적인 건강(예: 신체적 또는 정신적으로 건강하지 않음) 및 언어 장벽(예: 개인적으로 의사소통이 불가능하다고 느낌)의 예가 포함됩니다(부록 S5).25, 28, 31, 59, 65 
Patient inclusion and exclusions were represented in a variety of ways across included studies. Less than half of included studies (18/41, 43.9%) clearly described reasons for why certain patients were excluded from learner assessment (Appendix S5).25, 26, 28-32, 41, 43, 44, 47-50, 59, 61, 62, 64 The most frequent reasons for exclusion was language proficiency (e.g. limited proficiency in English), perhaps unsurprising given the majority of published studies originated in countries where English-language instruction predominates. Only one study by Tamblyn and colleagues devised measures to ensure accessibility of their assessment tool by making it available in multiple languages.58 Conversely, patients' choice to not engage in assessment was reported in five studies (12.8%) and included examples lack of interest, competing care plans, overall well-being (e.g. physically or psychologically unwell) and language barriers (e.g. personally felt unable to communicate) (Appendix S5).25, 28, 31, 59, 65

진행성 암 환자,25 중증 만성 질환을 앓고 있는 환자,62 사회경제적 지위가 낮은 환자,62 교육 수준이 낮은 환자 등 다양한 환자 집단이 대표되었습니다.26, 58 그러나 미성년자, 수감자, 중환자 또는 임종기 환자 등 특정 환자 집단을 체계적으로 배제한 연구는 거의 보고되지 않았습니다.25, 29, 32, 47, 62 
There was diverse patient populations represented including those living with advanced-stage cancers,25 suffering from severe chronic diseases,62 from lower socio-economic status,62 and lower educational attainment.26, 58 That said, few studies reported systematically excluding specific patient population such as minors, prisoners or patients critically ill or at the end-of-life.25, 29, 32, 47, 62

3.3 환자 신원 보호(기밀 유지)
3.3 Protecting patient identify (confidentiality)

학습자 평가에 환자를 참여시키는 것은 위험을 수반하는 것으로 인식될 수 있습니다. 학습자가 평가 데이터를 해당 맥락과 연결할 수 없을 때 환자의 평가 및 서술적 의견에 대한 인식에 부정적인 영향을 미칠 수 있습니다.30, 33 이러한 이유로 사용된 절차에 대한 추가 정의 없이 환자 기밀성 및 익명성이 7건(17.9%)의 연구에서만 보고되었습니다.27, 32, 46, 47, 49, 51, 52. 8건(19.5%)의 연구에서는 수집된 환자 설문지가 익명화되었다고 명시했습니다.31, 33-35, 37, 44, 48, 65 비밀이 보장된 피드백 수집을 보장한 9개 연구(23.1%) 중26, 36, 38, 50, 53, 59, 60, 64 Reinders 등만이 특정 환자를 생년월일을 통해 추적할 수 있어 익명성을 보장할 수 없다고 설명했습니다.50 환자의 비밀 유지 및 익명성은 중요한 고려사항이 되며 프로그램의 환자 피드백 요청 목적에 따라 달라질 수 있습니다. 환자-연수생 관계의 유지가 기밀성 및 익명성 보장을 지지하는 주요 논거였습니다.  
Involving patients in assessment of learners may be perceived as carrying some risk. There may be a signal that this could adversely influence learners' perceptions of patient ratings and narrative comments when they were unable to link the assessment data to the context in question.30, 33 To this end, patient confidentiality and anonymity were reported in only seven studies (17.9%) without further defining the procedures used.27, 32, 46, 47, 49, 51, 52 Eight studies (19.5%) stated that the collected patient questionnaires were anonymised.31, 33-35, 37, 44, 48, 65 Of the nine studies (23.1%) that assured confidential feedback collection,26, 36, 38, 50, 53, 59, 60, 64 only Reinders et al. explained how they could trace certain patients back through their date of birth and therefore could not guarantee anonymity.50 Maintaining patient confidentiality and/or anonymity becomes an important consideration and dependent on the purpose for which a programme is seeking patients' feedback. Preserving the patient–trainee relationship was the main argument in favour of confidentiality and anonymity.

3.4 환자 평가 수집 방법
3.4 How patient assessments are collected

환자 평가는 다양한 심리측정 도구를 통해 수집되었습니다(표 2). 의사소통 평가 도구(CAT)는 지난 10년간 발표된 총 9건의 연구(22.0%)에서 가장 많이 사용되었습니다.27-30, 41, 43, 45-47 환자의 평가 참여는 14건의 연구에서 보고되었습니다.33, 34, 36-39, 44, 49, 51-54, 59, 61 이 연구들 중 MSF 프로세스는 교수진 의사,33, 34, 36, 38, 39, 44, 49, 52-54, 59, 61 간호사,33, 34, 36, 38, 44, 49, 51, 53, 54, 59, 61 수련생/동료,36-39, 53, 54 사무직원,36, 38 연합 보건 전문가53 및 프로그램 디렉터가 중심이 되었습니다.59 
Patient assessments were captured by a variety of psychometric tools (Table 2). The Communication Assessment Tool (CAT) was most frequently used in a total of nine studies (22.0%) published within the last decade.27-30, 41, 43, 45-47 Patients' engagement in assessment as a component of MSF was reported in 14 studies.33, 34, 36-39, 44, 49, 51-54, 59, 61 Of these studies, the MSF process centred on faculty physicians,33, 34, 36, 38, 39, 44, 49, 52-54, 59, 61 nurses,33, 34, 36, 38, 44, 49, 51, 53, 54, 59, 61 trainees/peers,36-39, 53, 54 office staff,36, 38 allied health professionals53 and programme directors.59

23개 연구(51.2%)에서 환자 참여 또는 작업장 상황을 지원하기 위해 원래 도구를 수정한 것으로 보고되었으며 표 2.25-28, 30, 33, 34, 37, 41, 42, 45-51, 58, 59, 62, 64 두 연구에서 수정된 도구를 시행하기 전에 시범적으로 사용했다고 보고했습니다.34, 43 양적 및 질적 평가 접근법이 포함된 연구들에서 모두 보고되었습니다. 환자가 질적 의견을 제공하는 기능은 11개 연구에서 보고되었으며, 일반적으로 환자에게 전반적인 의견(예: '이 레지던트의 의사소통에 대해 어떤 점이 좋았습니까?'30 또는 '레지던트가 제공하는 진료에 대해 무엇을 바꾸겠습니까?'51)을 묻거나 레지던트의 성과와 관련하여 인지된 강점 및 개선할 부분에 대해 구체적으로 언급하도록 요청했습니다.26, 28, 30, 32, 33, 43, 44, 49, 51, 52, 54 
Modifications to adapt the original tool to support patient involvement or the workplace context were reported in 23 studies (51.2%) and listed in Table 2.25-28, 30, 33, 34, 37, 41, 42, 45-51, 58, 59, 62, 64 Two studies reported piloting their modified tool prior to its implementation.34, 43 Both quantitative and qualitative assessment approaches were reported across the included studies. The ability for patients to provide qualitative comments was reported in 11 studies and generally asked patients for either global comments (e.g. ‘what did you like about this resident's communication?’30 or ‘what they would change about the care provided by the residents?’51) or to comment specifically on perceived strengths and areas for improvement in relation to resident's performance.26, 28, 30, 32, 33, 43, 44, 49, 51, 52, 54

3.5 환자 모집 방법
3.5 How patients are recruited

환자는 주로 연구 조교에 의해 모집되었습니다(16/41, 39.0%).25, 26, 28, 30, 31, 34, 39, 41, 44, 45, 49, 51, 58, 59, 62, 64 대상 연구의 거의 1/3에서 수련의의 이름과 사진 신분증이 사용되었습니다.26, 28, 30-32, 34, 39, 41, 44, 45, 49, 51, 54, 59 이 방법을 사용한 환자들은 88%의 비율로 훈련생을 인식했습니다.26 표 3은 환자 설문지를 수집하는 데 사용된 다른 방법에 대한 추가 세부 정보를 제공합니다. 프로그램 관리자, 사무 직원 또는 병원 자원봉사자와 같은 제3자를 통해 환자 참여를 요청하면 보고된 교육생들의 불편함과 환자 선택에 대한 편견을 최소화할 수 있습니다.30 
Patients were recruited primarily by research assistants in our sample of studies (16/41, 39.0%).25, 26, 28, 30, 31, 34, 39, 41, 44, 45, 49, 51, 58, 59, 62, 64 Trainees' name and photo identification were used in nearly one-third of eligible studies.26, 28, 30-32, 34, 39, 41, 44, 45, 49, 51, 54, 59 Using this method, patients recognised trainees at rates of 88% as shown by McKinley et al.26 Table 3 provides additional details on other methods used to collect patient questionnaires. Soliciting patient participation through a third party, such as programme administrators, clerical staff or hospital volunteers, may minimise reported trainees' discomfort and bias in patient selection.30

환자 피드백을 수집하는 데 필요한 평균 시간은 4개의 연구에서 몇 분(1~10 범위)에서31, 32, 43, 52, 한 연구에서는 25분 이상까지 다양했습니다.28 인적 자원 필요성은 6개의 연구에서만 기술되었습니다.28, 34, 52, 55, 59, 65 Mahoney 등은 12개의 환자 설문지를 수집하는 데 입원 환자의 경우 평균 6.36시간, 외래 환자의 경우 10.14시간의 연구 보조(RA) 시간을 보고했습니다.28 울리스크로프트의 연구에서는 8명의 RA가 20개월 동안 70명의 레지던트를 위해 625명의 환자로부터 피드백을 수집하는 데 도움을 주었습니다.59 Wood 등은 지원 직원(유방 영상 기술자)의 업무량이 증가하지는 않았지만 레지던트가 시술을 수행할 것이라는 사실을 미리 알지 못한 경우 환자에게 평가 양식을 배포하는 것을 잊는 경향이 있었다고 보고했습니다.52 
The average time commitment required to collect patient feedback varied from a few minutes (range 1–10) in four studies,31, 32, 43, 52 to over 25 minutes in one study.28 Human resource needs were described in only six studies.28, 34, 52, 55, 59, 65 Mahoney et al. reported an average research assistant (RA) time of 6.36 hours for in-patients and 10.14 hours for out-patients to collect 12 patient-questionnaires.28 In Woolliscroft's study, eight RAs helped collect feedback from 625 patients for 70 residents over a 20-month period.59 Wood et al. reported no increased workload for support staff (technologist in breast imaging), but they tended to forget distribution of the evaluation form to patients if they did not know ahead of time that residents will be performing the procedures.52

환자 설문지 수집 기회를 놓치는 데 기여한 몇 가지 물류 문제를 논의한 연구는 거의 없습니다. Tamblyn 등은 시간 제약으로 인해 외래 환자의 11.1%가 모집되지 않았다고 보고했습니다.58 입원 환자의 경우, Dine 등과 Mahoney 등의 두 연구에 따르면 레지던트를 인식하지 못하는 것이 설문지 미작성 이유의 각각 8%와 13%를 설명했습니다.28, 31 Jagadeesan 등은 설문지 관리를 담당하는 사람이 한 명뿐이어서 적격 환자의 36%는 모집되지 않았다고 설명했습니다.48 
Few studies discussed some of the logistical issues that contributed to missed opportunities for the collection of patient questionnaires. Tamblyn et al. reported that 11.1% of their out-patients were not recruited due to time constraints.58 In the in-patient context, two studies by Dine et al. and Mahoney et al. showed that the inability of recognising residents explained 8% and 13% of patients' reasons for non-completion of questionnaires, respectively.28, 31 Jagadeesan et al. explained that 36% of eligible patients were not recruited since only one person was responsible for the administration of their questionnaire.48

3.6 환자 참여 및 평가 횟수
3.6 Patient participation and number of assessments

환자의 참여율은 14개 연구에서 보고되었으며, 두 연구를 제외한 모든 연구에서 60% 이상의 참여율을 보였다.25, 26, 28, 31, 36-38, 41, 48, 49, 58, 59, 63, 64 Mahoney등과 McKinley등은 모두 레지던트 교육에 대한 환자의 의견에 대한 기관의 관심과 과정에 만족하는 경향이 있다고 보고하였다.26, 28 Olsson의 연구는 가정의학과 전공의를 대상으로 6개월 동안 평가를 수집한 외래 환자의 경우 25%로 가장 낮은 참여율을 보였다고 보고하였다.37 Newcomb 등은 일반외과 레지던트를 대상으로 12개월 동안 환자 피드백을 수집한 결과 입원 환자의 참여율은 28%, 외래 환자의 참여율은 72%로 보고했습니다.41 다중 소스 피드백(MSF) 도구의 심리측정 특성을 평가하기 위해 유사한 설계를 적용한 두 연구에서는 모든 참가자의 참여율이 100%로 보고되었습니다.36, 38 
Patients' participation rates were reported in 14 studies with rates over 60% in all but two studies.25, 26, 28, 31, 36-38, 41, 48, 49, 58, 59, 63, 64 Mahoney et al. and McKinley et al. both showed that patients tend to be satisfied with the process and the institution's interest in their input towards residents' education.26, 28 Olsson's study reported the lowest participation rate at 25% for out-patients over a 6-month period of assessment collection for family medicine residents.37 Newcomb et al. reported a 28% participation rate for in-patients compared with 72% for out-patients over a 12-month period of collected patient feedback for general surgery residents.41 Two studies with similar designs to assess the psychometric properties of a multi-source feedback (MSF) tool reported 100% participation rates from all participants.36, 38

4건의 연구에 따르면 수용 가능한 평가자 간 신뢰도를 달성하기 위해서는 많은 수의 환자를 모집해야 합니다.31, 56, 58, 59 집계된 EVGP 도구를 사용하여 Tamblyn 등은 0.75에서 0.80 사이의 신뢰도를 위해 30-40명의 환자를 제안했습니다.58 Murphy 등은 CARE 도구의 신뢰도 0.80을 위해 40명 이상의 환자를 추천했습니다.56 반면, 연구 저자들이 개발한 설문지의 경우 울리스크로프트 등은 100명 이상의 환자를, 다인 등은 이상적인 평가자 간 신뢰도 수준인 0.80을 위해 165명의 환자 평가를 권고했습니다.31,59 한편, 소아과 입원실에 입원한 아동의 보호자를 대상으로 ABIM 환자 만족도 설문지를 사용한 Byrd 등은 레지던트 1인당 7명의 환자 피드백에 대해 0.97의 Cronbach α 계수로 높은 수준의 내적 신뢰도를 보고했습니다.44 
Recruitment of a high number of patients is required to achieve acceptable inter-rater reliability based on four studies.31, 56, 58, 59 Using the aggregated EVGP instrument, Tamblyn et al. suggested 30–40 patients for reliability between 0.75 and 0.80.58 Murphy et al. recommended over 40 patients for a reliability of 0.80 with the CARE instrument.56 On the other hand, for questionnaires developed by the study authors, Woolliscroft et al. proposed over 100 patients, and Dine et al. advised for 165 patient-ratings for an ideal inter-rater reliability level of 0.80.31, 59 On the other hand, using the ABIM Patient Satisfaction Questionnaire with caregivers of children admitted on paediatric in-patient units, Byrd et al. reported high degree of internal reliability with a Cronbach α coefficient of 0.97 for seven patient feedback per resident.44

3.7 환자가 학습자를 평가하고 피드백을 제공하는 방법
3.7 How patients rate and give feedback to learners

학습자를 평가하는 것은 일반적으로 환자에게 새로운 경험입니다. 24개 연구(58.5%)에서 보고된 바와 같이 환자들은 학습자를 높게 평가했습니다.26-29, 31, 34-38, 41, 43-49, 56-59, 63, 64 그러나 환자에게 선험적 지침을 제공하면 평가 점수의 변동이 개선되고 높은 평가의 비율이 낮아졌습니다.41 MSF 기반 도구를 사용한 연구에서 레지던트에 대한 환자의 평가는 다른 환자의 평가와 잘 일치했지만 의사와는 일치하지 않았습니다44, 53, 61; 두 평가자에게 동일한 도구를 사용한 경우는 Byrd 등이 유일했습니다.44 
Rating learners is generally a new experience for patients. Patients were described as rating learners highly as reported in 24 studies (58.5%).26-29, 31, 34-38, 41, 43-49, 56-59, 63, 64 However, providing patients with a priori instructions improved variation in rating scores and lowered the proportion of high ratings.41 In studies using MSF-based instruments, patient ratings of residents correlated well with those of other patients but not with physicians44, 53, 61; only Byrd et al. used the same instrument for both raters.44

그들의 피드백에서 환자 또는 간병인은 관찰된 전문적 행동, 옹호 및 의사소통 기술을 중요시하고 집중하는 것으로 보고되었습니다.33, 40, 49, 62 이에 비해 의사는 의학 지식을 우선시했으며33, 49 간호사는 리더십, 협업 및 의사소통에 대해 보고했습니다.33 가정의학 프로그램의 후향적 데이터를 사용하여 환자 평가는 면허 시험 성적 및 어려움에 처한 레지던트의 수련 연장과 상관관계가 있습니다.42 마지막으로, 맥킨리는 환자 평가가 실제로 주니어와 시니어 레지던트를 차별할 수 있음을 입증했습니다.26 그러나 이러한 결과는 포함된 다른 연구들에서 반복되지 않았습니다.32, 35, 44-46, 63 
In their feedback, it was reported that patients and/or caregivers valued and focused on the observed professional behaviours, advocacy and communication skills.33, 40, 49, 62 In comparison, physicians prioritised medical knowledge,33, 49 and nurses reported on leadership, collaboration and communication.33 Using retrospective data from a family medicine programme, patient ratings correlate with performance on licensing examinations and extensions of training for residents in difficulty.42 Lastly, McKinley demonstrated that patient ratings could in fact discriminate between junior and senior residents.26 These findings were not replicated however across other included studies.32, 35, 44-46, 63

3.8 환자 평가의 인식 및 수용 방법
3.8 How patient assessments are perceived and received

13개 연구에서 수집된 환자 평가와 피드백이 학습자에게 제공되었습니다(부록 S6).30, 32, 33, 36, 39, 45, 47, 51, 52, 54, 60, 64, 65 졸업후의학교육(PGME) 학습자들은 일반적으로 환자 평가가 자신의 행동과 술기가 환자 치료에 미치는 영향을 더 잘 이해하는 데 도움이 되고, 수용 가능하며, 유용하다고 인식했습니다.30, 33, 44, 52, 56, 65 두 연구에서 일부 수련의는 환자 피드백을 받아들이는 데 어려움을 겪었으며, 심지어 스스로 인지한 역량과 일치하지 않거나 피드백을 환자 또는 임상 상황과 연관시킬 수 없는 경우 무효화하기도 했습니다.30, 33 몇몇 연구에서는 수련의에게 수집된 환자 피드백에 대해 토론할 기회를 제공했습니다. 이러한 연구에서는 프로그램 디렉터,47, 51, 54, 64 다른 교수진 의사,39, 45, 52 수련의가 선택한 의학 교육자33 또는 행동 과학에 대한 전문적 배경을 가진 비의사가 레지던트를 위한 코치 역할을 수행했습니다.65 
Collated patient ratings and feedback was provided to learners in thirteen studies (Appendix S6).30, 32, 33, 36, 39, 45, 47, 51, 52, 54, 60, 64, 65 Graduate medical learners generally perceived patient assessments as helpful, acceptable and useful to better understand how their behaviours and skills influence patient care.30, 33, 44, 52, 56, 65 In two studies, some trainees struggled to accept and even invalidated patient feedback if not aligned with self-perceived competence, or if they could not associate the feedback with the patient or clinical context.30, 33 Several studies offered trainees the opportunity to discuss collated patient feedback. In these studies, programme directors,47, 51, 54, 64 other faculty physicians,39, 45, 52 a medical educator chosen by the trainee33 or a non-physician with a professional background in behavioural science served as coach for residents.65

환자 참여가 행동 변화에 기여했는지 또는 환자 결과에 영향을 미쳤는지 평가한 연구는 거의 없습니다(7/39; 15.4%).25, 33, 39, 45, 51, 54, 64 MSF와 기존의 교수진만 평가하는 무작위 연구에서 환자 평가자로부터 피드백을 받은 레지던트는 대인관계 및 의사소통 기술이 크게 향상되는 것으로 나타났습니다.54 Bylund 등은 종양학 학습자를 위한 의사소통 기술 프로그램을 연구하고 프로그램 완료 전후에 환자 피드백을 수집한 결과, 기준 점수가 낮은 학습자에서 유의미한 개선이 나타났지만 의사소통 기술에는 큰 변화가 없는 것으로 나타났습니다.25 마찬가지로, Cope 등은 기준 점수가 낮고 코칭 피드백을 받은 학습자가 시간이 지남에 따라 개선되어 이후 약간 더 나은 환자 평가를 받았음을 보여주었습니다.64 그러나 다른 4개의 연구에서는 환자 설문조사에서 수집된 피드백을 기반으로 학습자를 코칭하는 것이 레지던트의 성과에 대한 후속 환자 평가에 영향을 주지 않았습니다.39, 45, 51, 64 그럼에도 불구하고 환자 피드백을 반영하고 맥락화하는 코칭은 학습자의 신뢰를 방해하지 않고 수용을 향상시키는 데 도움이 되었습니다.45, 51 
Few studies (7/39; 15.4%) evaluated whether patient involvement contributed to changes in behaviours or impacted patient outcomes.25, 33, 39, 45, 51, 54, 64 In a randomised study comparing MSF and traditional faculty-only evaluations, residents who received feedback from patient raters showed significant improvement in interpersonal and communication skills.54 Bylund et al. studied a communication skills programme for oncology learners and collected patient feedback before and after completion of the programme showing no significant change in communication skills, although there was significant improvement seen in learners with lower baseline scores.25 Similarly, Cope et al. demonstrated that learners who had low baseline scores and who received coaching feedback improved over time with subsequent slightly better patient ratings.64 However, in four other studies, coaching learners based on collated feedback from patient surveys did not influence subsequent patient ratings of resident's performance.39, 45, 51, 64 Nevertheless, coaching to reflect on and contextualise patient feedback helped improve its acceptance without hindering their learners' confidence.45, 51

4 토론
4 DISCUSSION

우리의 범위 검토는 졸업후의학교육(PGME) 학습자 평가에 환자의 참여를 최대한 촉진하고, 종종 환자 참여의 장애물로 언급되는 행정적 부담이 실제로는 극복할 수 없는 것이 아니라는 다른 학자5,66의 의견과 일치합니다. 환자는 여러 전문 교육 분야, 임상 환경 및 환자 집단에 걸쳐 효율적으로 참여할 수 있으며, 환자의 참여는 사용 가능한 행정 자원에 달려 있습니다. 환자 모집은 일반적으로 큰 어려움이 없는 것으로 보이며, 다른 연구에서 설명한 바와 같이 적극적으로 참여하고 경험을 공유하려는 환자의 의지와 관련이 있을 수 있습니다12, 17, 19; 대부분의 연구에서 상대적으로 높은 참여율이 보고되었습니다. 환자는 전공의의 대인관계 기술 및 행동 수행과 밀접하게 연관되어 있기 때문에 전통적인 평가 접근법을 보강하고 의사소통, 옹호, 전문성 등 잘 드러나지 않는 역량을 조명할 수 있는 잠재력을 가지고 있으며,19, 66 따라서 학습자의 역량에 대한 보다 전체적인 그림을 제공합니다.5 다양성과 포용성을 보장하고 이러한 요소가 환자의 평가와 의견, 학습자의 환자 중심 진료에 대한 수용에 미치는 영향에 대한 이해를 더욱 향상시키기 위해 모국어 및 기타 사회 문화적 고려사항과 평가를 일치시키는 데 더 많은 주의가 필요합니다. 
Our scoping review highlights, and aligns with other scholars,5, 66 that promote patient involvement in postgraduate learner assessment as possible and that administrative burdens, often cited as barriers to patient involvement, are in fact not insurmountable. Patients can be engaged efficiently across a number of specialty training areas, clinical settings and patient populations and their involvement hinges on available administrative resources. Patient recruitment appeared to be generally without major challenges and may tie into patients' willingness to actively participate and share their experiences as described in other studies12, 17, 19; relatively high participation rates were reported in most studies. By virtue of being intimately coupled to performances of residents' interpersonal skills and behaviours, patients hold the potential to augment traditional assessment approaches and shed light on less represented competencies such as communication, advocacy and professionalism,19, 66 thus provide a more holistic picture of learners' competence.5 Greater attention is required to align assessments with native language and other sociocultural considerations to ensure diversity and inclusion and further improve our understanding of how these factors influence patient ratings and comments and learners' uptake into their patient-centred practice.

환자 참여의 본질은 다양한 형태로 나타날 수 있습니다. 우리의 종합 결과, 환자는 개별 작업장 기반 평가뿐만 아니라 다중 소스 피드백 프로세스(의사가 풍부한 평가 데이터를 받아 정기적으로 상호 작용하는 다양한 개인 그룹으로부터 얻은 평가와 비교하여 환자 치료를 개선할 수 있는 핵심 역량을 알려주는 방법)의 구성 요소에도 관여하는 것으로 확인되었습니다.67, 68 환자의 평가와 의견을 수집하기 위해 다양한 구성을 측정하는 여러 평가 도구가 연구되었습니다. 그러나 이러한 도구에 대한 타당성 증거는 주로 신뢰도 측정에 초점을 맞추었으며, 신뢰도 높은 판단을 위해 필요한 환자 평가 횟수에 대한 권장 사항은 대부분 가변적이었습니다. 그러나 CBME 프레임워크에서 '학습을 위한 평가'에 대한 강조가 증가함에 따라,69 환자 평가의 유용성은 학습자의 역량 달성 및 전문성 개발에 정보를 제공하고 혜택을 주는 방법에 따라 결정되어야 합니다.5 따라서 다른 평가 방법과 결합할 경우 많은 수의 환자 평가를 수집하는 것이 필요하지 않을 수도 있습니다. 
The nature of patient involvement can take many forms. Our synthesis identified patients have been involved in individual workplace-based assessments as well as a component of a multi-source feedback process (a method by which physicians receive rich assessment data to compare self-assessment to those obtained from different groups of individuals with whom they interact regularly and thereby inform on key competencies that can improve patient care).67, 68 Several assessment tools measuring various constructs have been studied to capture patients' ratings and comments. However, validity evidence for these tools focused primarily on reliability measures with largely variable recommendations in the number of patient assessments needed for highly reliable judgements. However, with the increased emphasis towards ‘assessment for learning’ in CBME frameworks,69 utility of patient assessments need to be driven by how it informs and benefits learners' competency attainment and professional development.5 Therefore, collecting a high number of patient assessments may arguably not be necessary when coupled with other assessment methods.

샘플 조사에서 코칭과 성찰을 통한 피드백 촉진이 환자 평가 데이터의 수용과 이해를 개선하는 것으로 나타났습니다. 그러나 코칭 피드백 개입 후의 결과는 역량 달성에 가장 큰 혜택을 경험한 것으로 보이는 낮은 등급의 학습자를 제외하고는 모호한 결과를 보여주었습니다. MSF 문헌은 코치 또는 동료와의 성찰과 대화가 임상 실습에서 의미 있는 변화를 채택하는 데 중요한 역할을 한다고 제안합니다.70, 71 코치의 지도 아래 수련생이 받은 피드백을 분석하고 반영하여 목표를 파악하고 목표 달성을 위한 계획을 개발하는 코칭 피드백은 의학 교육에서 점점 더 많이 사용되고 있지만,72 종단 데이터가 부족하여 환자 평가와 관련된 연구는 미흡한 실정입니다. 환자의 의견을 바탕으로 한 코칭 피드백이 어떻게 학습, 전문성 개발 및 진료 변화를 유도하여 궁극적으로 환자 치료와 결과를 개선할 수 있는지에 대한 보다 완전한 이해는 앞으로의 과제입니다. 
In our sample, we found that feedback facilitation through coaching and reflection improved acceptance and understanding of patient assessment data. However, outcomes following coaching feedback interventions demonstrated equivocal results except for learners with lower ratings who seemed to experience the most benefit to competency attainment. The MSF literature does suggest an important role for reflection and conversations with a coach or peer to adopt meaningful changes in one's clinical practice.70, 71 Coaching feedback whereby trainees analyse and reflect on the received feedback to identify goals and develop a plan to reach them under the guidance of a coach is increasingly used in medical education,72 but under-studied in relation to patient assessments with lack of longitudinal data. Understanding more fully how coaching feedback based on patient input can drive learning, professional development and practice changes that ultimately improve patient care and outcomes is an area of future.

4.1 격차 및 향후 연구에 대한 시사점
4.1 Gaps and implication for future research

양질의 진료와 환자 중심주의는 CBME 프레임워크의 중요한 결과이므로,1, 7 역량 기반 평가에서 환자가 더 큰 역할을 할 수 있도록 평가 대화를 전환하는 것이 우선순위가 됩니다.5, 66 우리의 연구 결과는 환자가 효과적인 평가자가 될 수 있음을 시사합니다. 그러나 수집된 데이터를 역량 성취와 관련된 결정을 위해 요약 수준에서 어떻게 사용할 수 있는지에 대해서는 표본에서 논의되지 않았으며, 이는 역량 기반 평가의 중요한 요소로서 학술적 관심이 필요합니다. 
Since quality care and patient-centeredness are important outcomes to CBME frameworks,1, 7 shifting our assessment conversations to provide patients a larger role in competency-based assessment becomes a priority.5, 66 Our findings suggest that patients can be effective assessors. However, how their collated data may be used at a summative level for decisions related to competency attainment was not discussed in our sample and is an important element of competency-based assessment in need of scholarly attention.

환자의 피드백이 교육생의 성과 및 행동 변화에 미치는 영향은 여전히 모호하며, 이를 해결하기는 어렵지만 불가능하지는 않습니다. 수련의에 대한 환자 평가를 조사한 다른 리뷰에서도 비슷한 결론에 도달했습니다.50, 73 교육 성과 측정과 연결된 환자 보고 성과 척도(PROM)는 평가 시스템에서 교육적 역할로 인해 PGME에서 주목받고 있습니다.74-76 PROM과 연결된 환자 피드백이 성과 평가에 정보를 제공하고 추가하는 방법을 탐구하면 교육 개입, 의미 있는 진료 변화, 진료의 질, 환자 결과 사이의 격차를 해소하는 데 유용할 수 있습니다.
The effect of patient feedback on trainees' performance and behavioural changes remains equivocal and will be challenging, but not impossible, to address. Other reviews investigating patient assessments of practicing physicians reached similar conclusions.50, 73 Patient reported outcome measures (PROMs) linked to educational outcome measures are gaining attention in PGME for their educational role in our systems of assessment.74-76 Exploring how patient feedback tied to PROMs informs and adds to performance assessment may prove useful to bridge the gap between education interventions, meaningful practice change, quality of care and patient outcomes.

PGME 프로그램이 점점 더 어려워지는 경제적 제약 속에서 유능한 의사를 졸업시키기 위해 노력함에 따라,77,78 환자 참여, 평가 데이터 수집 및 학습자 전달의 경제적 영향을 다루는 비용 효과성 연구는 우리가 선택한 연구에는 없었지만 많은 PGME 프로그램이 직면한 중요한 장벽이 될 수 있으므로 추가로 고려할 필요가 있습니다. 
As PGME programmes strive to graduate competent physicians in ever-growing economical restrictions,77, 78 cost-effectiveness studies that address the economic implications of patient involvement, assessment data collection and delivery to learners need to be further considered as this was absent from our selected studies yet may be a critical barrier facing many PGME programmes.

마지막으로, 더 중요한 것은 유능한 의사에 대한 총체적인 관점에 기여하고 안전하고 효과적인 환자 중심 진료로 나아가는 데 기여할 수 있는 환자의 목소리를 방해하는 PGME의 사회문화적 및 제도적 장애물을 즉시 해결해야 한다는 점입니다.7, 66 
Lastly, and perhaps more importantly, we need to promptly address the sociocultural and institutional roadblocks in PGME that impede the patient voice which can contribute to a holistic view of the competent physician and drive us towards safe, effective patient-centred care.7, 66

4.2 제한점
4.2 Limitations

검색을 위해 포괄적으로 검색하고 숙련된 사서와 협력했지만, 보건 전문직 교육은 검색이 어려운 것으로 확인되었습니다.79 관련 연구가 확인되지 않았을 가능성이 있습니다. 모든 전자 데이터베이스를 검색하지는 않았으며 영어 또는 프랑스어가 아닌 언어는 제외했습니다. 또한 '환자'라는 검색어는 의료 분야에서 모호하지 않기 때문에 포함시켰으며, 고려할 수 있었던 다른 용어로는 '사용자', '소비자', '클라이언트'가 있으며, 이는 앞서 언급한 문헌 검토의 복잡성을 반영한 것입니다.12 검토의 맥락이 레지던트에 대한 평가임을 감안하여 이러한 용어가 '환자'보다 우선순위가 높지 않을 것이라는 가설을 세웠지만 이 가설을 테스트하지 않았습니다.  
Although we searched comprehensively and collaborated with an experienced librarian for our search, health professions education is identified as difficult to search.79 It is possible that relevant studies were not identified. We did not search all electronic databases and excluded non-English or French languages. We also included the search term ‘patients’ as it is unambiguous for the medical field; other terms that could have been considered include ‘user’, ‘consumer’ and ‘client’ and speaks to the previously documented complexities in reviewing this literature.12 Given the context of the review was assessment of residents, we hypothesised that these terms were unlikely to be prioritised over ‘patient’ in this context but we did not test this hypothesis.

5 결론
5 CONCLUSION

전공의에 대한 보다 총체적인 관점을 확보하려면 평가에 다양한 관점, 특히 환자를 포함시키는 것이 도움이 될 수 있습니다. 검토 결과, 평가에 환자의 참여는 여러 학문 분야와 임상 환경에서 가능한 것으로 나타났습니다. 또한, 환자는 평가에서 의사 중심의 전통적인 관점을 보완할 수 있는 다양한 관점과 전문성(예: 경험적 관점)을 제공합니다. 학습자의 전문성 개발과 환자 중심 관행을 알리기 위해 환자 수준의 데이터를 가장 잘 활용할 수 있는 방법, 특히 평가 시스템에 대한 환자의 참여가 사회적 요구에 더 많이 기여할 준비가 된 의사를 배출하는 데 의미 있게 기여하는지 여부와 그 방법에 대해서는 향후 연구가 필요합니다. 이를 위해 환자가 의학교육 전반과 특히 평가에 점점 더 많이 참여함에 따라, 총체적인 평가가 완전히 실현될 수 있도록 공평하고 다양한 참여를 보장하는 것이 우선시되어야 합니다. 
Achieving a more holistic view of postgraduate learners may benefit from including diverse perspectives in their assessments and specifically patients. In our review, patient engagement in assessments was viewed as feasible across multiple disciplines and clinical settings. Further, patients contribute different perspectives and expertise (e.g. experiential) that can augment more traditional, physician-focused, perspectives in assessments. How patient-level data can best be used to inform learners' professional development and patient-centred practices remains in need of future research, in particular if and how patient involvement in assessment systems contribute meaningfully to producing physicians that are ready to contribute more fully to societal needs. To this end, as patients increasingly engage in medical education generally and assessment specifically, ensuring equitable, diverse inclusion should be prioritised to ensure holistic assessments are to be fully realised.


Med Educ. 2022 Jun;56(6):602-613. doi: 10.1111/medu.14726. Epub 2022 Jan 17.

Patient involvement in assessment of postgraduate medical learners: A scoping review

Affiliations

1Department of Medicine (Hematology), The Ottawa Hospital, University of Ottawa, Ottawa, Ontario, Canada.

2Massachusetts General Hospital, Harvard Medical School, Boston, Massachusetts, USA.

3Department of Medical Education, University of Illinois College of Medicine at Chicago, Chicago, Illinois, USA.

4Research Unit, Royal College of Physicians and Surgeons of Canada, Ottawa, Ontario, Canada.

5School of Epidemiology and Public Health, University of Ottawa, Ottawa, Ontario, Canada.

PMID: 34981565

DOI: 10.1111/medu.14726

Abstract

Context: Competency-based assessment of learners may benefit from a more holistic, inclusive, approach for determining readiness for unsupervised practice. However, despite movements towards greater patient partnership in health care generally, inclusion of patients in postgraduate medical learners' assessment is largely absent.

Methods: We conducted a scoping review to map the nature, extent and range of literature examining the inclusion (or exclusion) of patients within the assessment of postgraduate medical learners. Guided by Arskey and O'Malley's framework and informed by Levac et al. and Thomas et al., we searched two databases (MEDLINE® and Embase®) from inception until February 2021 using subheadings related to assessment, patients and postgraduate learners. Data analysis examined characteristics regarding the nature and factor influencing patient involvement in assessment.

Results: We identified 41 papers spanning four decades. Some literature suggests patients are willing to be engaged in assessment, however choose not to engage when, for example, language barriers may exist. When stratified by specialty or clinical setting, the influence of factors such as gender, race, ethnicity or medical condition seems to remain consistent. Patients may participate in assessment as a stand-alone group or part of a multi-source feedback process. Patients generally provided high ratings but commented on the observed professional behaviours and communication skills in comparison with physicians who focused on medical expertise.

Conclusion: Factors that influence patient involvement in assessment are multifactorial including patients' willingness themselves, language and reading-comprehension challenges and available resources for training programmes to facilitate the integration of patient assessments. These barriers however are not insurmountable. While understudied, research examining patient involvement in assessment is increasing; however, our review suggests that the extent which the unique insights will be taken up in postgraduate medical education may be dependent on assessment systems readiness and, in particular, physician readiness to partner with patients in this way.

평가 프로그램에서 학생의 진급 결정: 임상적 의사결정과 배심원 의사결정을 외삽할 수 있을까? (BMC Med Educ, 2019)
Student progress decision-making in programmatic assessment: can we extrapolate from clinical decision-making and jury decision-making? 
Mike Tweed1* and Tim Wilkinson2

 

배경
Background

평가 의사 결정의 문제점
The problem with decision-making in assessment

학생에 대한 개별 평가에서 생성되는 데이터의 견고성을 확보하기 위해 많은 노력을 기울여 왔습니다. 점수 신뢰도, 청사진 작성, 표준 설정 등 개별 시험 또는 평가 이벤트 수준에서 평가 데이터의 견고성을 확보하는 데 관한 광범위한 문헌이 있습니다[1,2,3]. 이는 특히 수치 데이터[4]에 해당하지만, 텍스트/내러티브 데이터[5]에 대해서도 점점 더 많이 요구되고 있습니다. 그러나 의사 결정은 여러 평가 이벤트의 증거를 종합적으로 고려하여 내리는 경우가 더 많습니다. 이는 평가에 대한 보다 프로그래밍적인 접근 방식을 취함에 따라 점점 더 많아지고 있습니다[6]. 예를 들어, 한 해의 합격 여부에 대한 결정은 연말 시험 합격 여부에 대한 결정이 아니라 한 해 전체의 평가 결과를 종합하여 내리는 결정이 되고 있습니다. 이러한 변화에도 불구하고, 개별 학생에 대한 강력한 결정을 내리기 위해 여러 가지 이질적인 개별 평가의 정보를 종합하는 데 따르는 함정과 개선 방법에 대한 간극이 존재합니다[7]. 
Much effort has been put into the robustness of data produced by individual assessments of students. There is an extensive literature on achieving robustness of assessment data at the individual test or assessment event level, such as score reliability, blueprinting, and standard setting [1,2,3]. This is especially so for numerical data [4], but increasingly also for text/narrative data [5]. However, decisions are more often made by considering a body of evidence from several assessment events. This is increasingly the case as a more programmatic approach to assessment is taken [6]. For example, the decision on passing a year is becoming less about a decision on passing an end of year examination and more about a decision based on synthesising assessment results from across an entire year. Despite these changes, there is a gap regarding the pitfalls and ways to improve the aggregation of information from multiple and disparate individual assessments in order to produce robust decisions on individual students [7].

이 백서에서는 학생의 진급 의사 결정과 임상 의사 결정 사이의 유사점을 도출한 다음, 그룹이 내리는 의사 결정의 맥락에서 진급 의사 결정과 배심원의 의사 결정 사이의 유사점을 도출할 것입니다. 마지막으로, 이러한 유사점을 살펴봄으로써 진급 의사 결정과 관련된 정책, 실무 및 절차에 대한 실질적인 요점을 제안합니다. 사용할 수 있는 의사결정의 예는 많지만, 의료 교육 기관에 익숙한 임상 의사결정과 집단이 증거를 평가하여 중대한 결정을 내리는 방법과 관련된 사례인 배심원 의사결정을 선택했습니다.  
In this paper we draw parallels between student progression decision-making and clinical decision-making, and then within the context of decisions a made by groups, we will draw parallels between progression decision-making and decision-making by juries. Finally, exploration of these parallels leads to suggested practical points for policy, practice and procedure with regard to progression decision-making. There are many examples of decision-making that could be used but we chose clinical decision-making as it is familiar to healthcare education institutions, and jury decision-making as it is a relevant example of how groups weigh evidence to make high-stakes decisions.

진급 의사 결정: 임상 의사 결정의 유사점
Progression decision-making: parallels in clinical decision-making

학생이 진급 진행(합격) 또는 불합격(불합격) 여부에 대한 의사 결정은 환자 진단과 많은 유사점이 있습니다[8].

  • 평가 진도 결정과 환자 진단 결정 모두 여러 가지 정보(다양한 수준의 견고성을 가진 수치와 서술/텍스트가 혼합되어 있음)를 종합적으로 고려해야 합니다.
  • 환자 진단 결정과 후속 관리 결정은 환자 및/또는 의료기관에 미치는 영향 측면에서 중대한 사안일 수 있습니다.
  • 마찬가지로 진급 상황 결정과 그 결과도 학생, 교육 기관, 의료 기관, 환자 및 사회에 큰 영향을 미칩니다.

The decision-making around whether a student is ready to progress (pass) or not (fail) has many parallels with patient diagnosis [8].

  • For both assessment progression decisions and patient diagnosis decisions, several pieces of information (a mix of numerical and narrative/text with varying degrees of robustness), need to weighed up and synthesised.
  • Patient diagnosis decisions and subsequent decisions on management can be high-stakes in terms of impact on the patient and/or healthcare institution.
  • Likewise progression decisions and the consequences carry high-stakes for students, educational institutions, healthcare institutions, patients, and society.

의사 결정을 위한 정보 취합
Aggregating information to make decisions

임상의와 임상팀은 휴리스틱을 사용하여 다양한 정보를 효율적이고 정확하게 결합하지만[9,10,11,12,13,14], 환자 진단에 관한 임상 의사 결정은 편견과 부정확성에 취약할 수 있습니다[12,15,16,17,18]. 이러한 편견과 오류에 대한 메타인지적 인식[15,16]이 임상 의사 결정을 개선하는 것으로 가정되는 것처럼[19,20,21], 평가 정보를 결합할 때 이러한 편견에 대한 인식과 이를 해결하는 방법도 진행 상황 결정의 견고성을 개선할 수 있다고 제안합니다. 
Clinicians and clinical teams combine various pieces of information efficiently and accurately using heuristics [9,10,11,12,13,14], however clinical decision-making regarding patient diagnoses can be prone to biases and inaccuracies [12, 15,16,17,18]. Just as metacognitive awareness of such biases and errors [15, 16] is postulated to lead to improved clinical decision-making [19,20,21], we suggest that an awareness of such biases in combining assessment information, and ways to address this, could also improve the robustness of progression decisions.

정보 수집
Gathering information

임상 환경에서 환자 진단에 대한 의사 결정을 내리는 데 사용되는 데이터는 상담 및 관련 조사에서 얻을 수 있습니다. 병력은 거의 전적으로 서술형/텍스트, 임상 검사는 대부분 서술형/텍스트와 일부 수치 데이터, 조사는 서술형/텍스트와 수치 데이터가 혼합된 형태로 이루어집니다. 진단으로 이어지는 임상 의사 결정은 빠르고 효율적일 수 있지만[15], 때로는 더 어렵고 임상의는 더 많은 정보를 얻고, 다양한 옵션을 평가하고, 상충되는 증거를 평가해야 할 수도 있습니다. 
In the clinical setting, data used to inform the decision-making of a patient diagnosis may come from the consultation and associated investigations. The history is almost entirely narrative/text, the clinical exam is mostly narrative/text with some numerical data, and investigations are a mixture of narrative/text and numerical data. Clinical decision-making leading to a diagnosis can be quick and efficient [15], but sometimes it is more difficult and the clinician may need to obtain more information, weigh up different options, and/or weigh up conflicting pieces of evidence.

추가 정보를 얻는 과정에는 상담 및 조사 재방문과 같이 데이터 수집을 반복하거나, 일반 방사선 사진을 보완하기 위해 컴퓨터 단층 촬영 스캔을 얻는 등 다른 관점에서 문제에 접근하거나, 생검과 같이 완전히 새롭고 다른 정보 출처를 찾는 것 등이 포함될 수 있습니다[15]. 이러한 추가 정보의 성격은 지금까지 얻은 정보에 따라 달라지며, 이미 알려진 것과 관계없이 모든 환자에게 동일한 추가 검사를 실시하는 것은 좋은 임상 관행이 아닙니다. 또한 제기된 임상적 질문에 답하기 위해 효율성, 위험/편익, 비용 측면에서 가장 적절한 조사를 고려합니다[22, 23]. 
The process of obtaining additional information may include repeating data collection, e.g. revisiting the consultation and investigations; approaching the issue from a different perspective, e.g. obtaining a computerised tomography scan to complement a plain radiograph; and/or looking for an entirely new and different source of information, e.g. getting a biopsy [15]. The nature of this additional information will depend on the information obtained so far, as doing the same extra tests on all patients regardless of what is already known is not good clinical practice. Consideration is also given to the most appropriate investigations in terms of efficiency, risk/benefit, and cost [22, 23], to answer the clinical question posed.

임상 의사 결정에서 진단이 확정된 후에도 데이터를 계속 수집하거나 조사를 수행하는 것은 비효율적이며 때로는 해로울 수 있습니다. 진급 의사결정 측면에서도 이와 유사한 점이 있는데, 진급 의사결정에 필요한 추가 정보를 얻기 위해 충분한 정보가 수집되면 개별 학생에 대한 검사를 중단하는 순차적 검사가 포함될 수 있습니다[24]. 이는 진급 결정의 근거가 될 충분한 정보가 확보되면 평가를 중단하는 평가 프로그램에도 적용될 수 있습니다. 결정의 부담stake은 충분한 정보에 필요한 정보의 강도와 가중치를 알려줄 것입니다. 임상 의사 결정과 마찬가지로, 같은 유형의 평가를 더 많이 한다고 해서 진도 의사 결정이 개선되지 않을 수 있으며, 새로운 관점이나 완전히 새로운 데이터 소스가 필요할 수 있습니다. 학생에게 평가를 반복하도록 요청하는 대신, 필요한 충분한 정보를 제공하기 위해 목표 관찰 기간, 면밀한 감독 또는 다른 평가를 실시하는 것이 더 바람직할 수 있습니다. 필요한 추가 정보의 성격은 개인에 대해 이미 알려진 내용에 따라 달라지며 학생마다 다를 수 있습니다. 결과적으로 가변 평가는 공정성에 대한 우려를 불러일으킬 수 있습니다. 이에 대해 저희는 공정성이란 모든 학생이 동일하게 평가되었는지 여부보다는, 진급 결정의 견고성과 방어 가능성에 더 많이 적용된다고 주장합니다. 
In clinical decision-making it is inefficient, and sometimes harmful, to keep collecting data or undertaking investigations once a diagnosis is secure. There are parallels with this, in terms of progression decision-making: obtaining additional information to inform progression decision-making may include sequential testing, whereby testing ceases for an individual student when sufficient information has been gathered [24]. This could be extrapolated to programmes of assessment whereby assessments cease when sufficient information is available on which to base a progress decision. The stakes of the decision would inform the strength and weight of the information required for a sufficiency of information. Just as for clinical decision-making, more of the same type of assessment may not improve progress decision-making, and a new perspective or an entirely new data source may be required. Instead of asking a student to repeat an assessment, a period of targeted observation, closer supervision or different assessments might be preferable to provide the required sufficiency of information. The nature of the extra information required will depend on what is already known about the individual, and may vary between students. The resulting variable assessment may generate concerns over fairness. In response, we would argue that fairness applies more to the robustness and defensibility of the progression decision, than to whether all students have been assessed identically.

상충되는 정보 취합
Aggregating conflicting information

임상 의사 결정에서는 상충되는 증거를 종합적으로 검토해야 하는 경우가 많습니다. 병력, 검사 및 조사에서 수집한 정보를 개별적으로 고려하면 가장 가능성이 높은 진단 목록이 여러 개 생성될 수 있으며, 각 목록은 불확실성을 내포하고 있습니다. 그러나 모든 정보를 종합하면 가장 가능성이 높은 진단 목록이 더 명확해지고 점점 더 확실해집니다[25]. 진도 의사 결정에서도 마찬가지로, 독립적인 평가 이벤트에서 생성된 단일 정보를 고려하면 학생의 진도 준비 상태에 대한 해석이 달라질 수 있지만, 이러한 단일 정보를 종합하면 더 강력한 그림이 구성됩니다.  
In clinical decision-making it is often necessary to weigh up conflicting pieces of evidence. Information gathered from history, examination, and investigations might, if considered in isolation, generate different lists of most likely diagnoses, each of which is held with uncertainty. However, when all the information is synthesised, the list of most likely diagnoses becomes clearer, and is held with increasing certainty [25]. Likewise in progression decision-making, considering single pieces of information generated from independent assessment events might generate different interpretations of a student’s readiness to progress, but when these single pieces are synthesised, a more robust picture is constructed.

의료 정책 입안자와 실무자는 여러 출처의 데이터를 종합할 수 있습니다[26,27,28]. 일부 데이터 합성은 개별 임상의보다 기계적으로 또는 알고리즘에 의해 더 잘 수행되지만[29], 빠르고 검소한 휴리스틱을 보험 계리 방법과 결합하면 더 나은 결과를 얻을 수 있습니다[30]. 진행 의사 결정에서 알고리즘을 사용하여 점수를 결합하는 것은 가능하지만[31], 똑같이 그럴듯한 알고리즘도 다른 결과를 초래할 수 있습니다[32, 33]. 검사 결과를 단순히 합산하는 것은 쉬울 수 있지만, 그 결과가 반드시 의사결정 목적에 가장 적합한 정보를 제공하지는 않을 수 있습니다[31]. 
Synthesising data from multiple sources is possible for healthcare policy makers and practitioners [26,27,28]. Some data synthesis is done better mechanically or by algorithms than by individual clinicians [29], but better results may be achieved if fast and frugal heuristics are combined with actuarial methods [30]. In progression decision-making, combining scores using algorithms is possible [31], but equally plausible algorithms can lead to different outcomes [32, 33]. It may be easy simply to add test results together, but the result may not necessarily contribute the best information for decision-making purposes [31].

임상 의사 결정의 경우, 의사 결정을 개선하기 위한 전략에는 진단 의사 결정 지원의 가용성, 이차 의견, 감사 등 의료 시스템에 대한 고려가 포함됩니다[12]. 확인 및 안전장치가 부족하면 오류가 발생할 수 있습니다[34]. 이를 진행 의사 결정에 적용하면 모든 평가 결과를 맥락에서 고려하고 의사 결정 지원 및 의사 결정 검토 프로세스를 사용해야 합니다. 
For clinical decision-making, strategies to improve decision-making include consideration of the health systems, including the availability of diagnostic decision support; second opinions; and audit [12]. A lack of checking and safeguards can contribute to errors [34]. Extrapolating this to progression decision-making, all assessment results should be considered in context, and decision support and decision review processes used.

선별 검사 및 진단 검사
Screening tests and diagnostic tests

임상 진료에서 질병 검사에는 선별 검사와 확진 검사 등 검사를 결합해야 하는 선별 검사 프로그램이 포함될 수 있습니다[35]. 이는 특히 데이터가 희박한 경우[36] 진행 의사 결정으로 추정될 수 있습니다[8]. 일반적으로 임상 검사 및 교육 평가를 통한 의사 결정은 민감도와 검사의 특이도 간의 균형을 유지하여 의사 결정에 도움을 주어야 합니다. 이는 개별 평가의 목적과 평가 검사 프로그램의 목적에 따라 영향을 받습니다[8]. 일반적으로 질병 선별 검사는 특이도가 낮고 민감도가 높으며, 확진 검사는 민감도가 낮고 특이도가 높습니다[35]; 검사의 예측 값은 질병 유병률에 따라 달라집니다. 따라서 겉으로 보기에 민감도와 특이도가 우수하더라도 유병률이 매우 높거나 낮으면 검사 프로그램이 기여도가 없거나 더 심하면 잠재적으로 해로울 수 있습니다[8]. 교육 평가와 관련된 이러한 편견은 나중에 논의합니다. 
Testing for disease in clinical practice can include a screening programme which requires combining tests, such as a screening test followed by a confirmatory test [35]. This can be extrapolated to progression decision-making [8], especially when data are sparse [36]. Generally, decision-making from clinical tests and educational assessments has to balance the sensitivity with the specificity of a test to help inform the decision. This is influenced by the purpose of the individual assessment and by the purpose of the assessment testing programme [8]. A screening programme for a disease will generally have a lower specificity and higher sensitivity, and a confirmatory test a lower sensitivity and higher specificity [35]; the predictive value of the test will be dependent on disease prevalence. Hence despite apparently excellent sensitivity and specificity, if the prevalence is very high or low, a testing programme can be non-contributory, or worse still, potentially harmful [8]. Such biases associated with educational assessment are discussed later.

결정과 관련된 위험
Risks associated with decisions

잘못된 임상적 결정 또는 최적의 진료에서 벗어난 결과와 위험은 임상적으로 유의미한 결과가 없는 것부터 사망에 이르기까지 크게 다를 수 있습니다[37]. 최적의 진료에서도 부작용과 위험은 발생할 수 있습니다. 약물은 적절하게 사용하더라도 부작용이 있으며, 때때로 이러한 위험은 임상 진료에서야 드러납니다[38]. 
The consequence and risk of incorrect clinical decisions, or deviation from optimal practice, can vary significantly from no clinically significant consequence to fatality [37]. Adverse consequences and risks occur even with optimal practice. Drugs have side effects, even when used appropriately, and sometimes these risks only come to light in clinical practice [38].

의료 교육 기관은 학생에 대한 진급 결정을 내릴 때 학생[39]과 사회[40]의 이익을 모두 고려해야 할 주의 의무가 있습니다. 개인뿐만 아니라 사회에도 영향을 미치는 개인을 위한 결정을 내릴 때의 이러한 딜레마는 배심원 의사 결정 섹션에서 자세히 살펴봅니다. 
Healthcare educational institutions have a duty of care to take the interests of both students [39] and society [40] into account when making progression decisions on students. This dilemma of making decisions for individuals which have an impact not only on that individual, but also society, is explored further in the section on jury decision-making.

결정이 어려울 때
When the decisions get tough

임상에서 시간에 쫓기는 의사 결정[41] 및 고위험 의사 결정[42]과 같이 상황에 따라 의사 결정이 더 어려워지는 경우도 있습니다. 정답을 알고 있더라도 시간 압박은 의사 결정의 불확실성과 부정확성을 증가시킵니다. 교육 기관은 의사 결정자에게 올바른 결정을 내릴 수 있는 충분한 시간을 제공하는 것이 중요합니다.
Some decisions are made more difficult by the context, such as time-pressured decision-making in clinical practice [41] and high-stakes decision-making [42]. Even when correct answers are known, time-pressure increases uncertainty and inaccuracy in decision-making. It is important that educational institutions provide decision-makers with sufficient time to make robust decisions.

또한 개인이 해결할 수 없는 질문도 있습니다[34]. 결정이 중대한 결과를 초래할 수 있고 최적의 치료를 조언하기 위해 여러 전문 정보 또는 관점을 결합해야 할 수 있기 때문에 진단이 간단하지 않을 수 있습니다. 이러한 상황에서는 2차 소견을 요청할 수 있습니다[12]. 사용 가능한 데이터를 고려하는 사람의 수를 늘리는 것이 실용적이거나 안전하지 않은 경우 사용 가능한 데이터를 늘리는 것보다 더 나은 방법이 될 수 있습니다. 다학제 팀, 다학제 회의, 사례 회의는 여러 사람의 도움을 받아 집계된 정보를 바탕으로 의사 결정을 내림으로써 환자 치료를 개선할 수 있습니다. 특정 상황에서는 이러한 집단 의사 결정이 환자의 치료 결과를 개선하기도 합니다[43].
In addition, there are some questions that are impossible for an individual to resolve [34]. The diagnosis may not be straightforward because decisions may have significant consequences, and multiple specialised pieces of information or perspectives may need to be combined in order to advise optimal care. In these circumstances a second opinion may be requested [12]. Increasing the number of people considering the available data can be a better method than increasing the available data where this is not practical or safe. Multi-disciplinary teams, multi-disciplinary meetings, and case conferences can enhance patient care by using multiple people help to make decisions on aggregated information. In certain situations such group decision-making improves outcomes for patients [43].

의료 전문직 학생에게 가장 중요한 진급 결정 중 하나는 졸업입니다. 교육기관은 개인이 의료 전문직에 진출할 준비가 되었으며, 최소한 유능하고 안전한 의료인이 될 것임을 규제 기관과 사회에 권고해야 합니다. 고려해야 할 정보의 잠재적 위험과 복잡성을 고려할 때, 패널은 종종 프로그램 평가에서 의사 결정의 일부가 됩니다[6]. 패널은 서로 다른 관점을 가지고 있으며, 집단이 구성 요소 개인보다 낫다는 오랜 주장이 있습니다[44]. 
One of the highest-stakes progression decisions on healthcare professional students is at graduation. The institution needs to recommend to a regulatory authority, and thereby society, that an individual is ready to enter the healthcare profession, and will be at least a minimally competent and safe practitioner. Given the potential high-stakes and complexity of the information to be considered, a panel is often part of decision-making in programmatic assessment [6]. The panellists bring different perspectives, and the longstanding assertion is that the collective is better than the component individuals [44].

개인과 집단의 의사 결정 비교
Comparing decision-making by individuals and groups

정보를 취합할 때, 개인의 추정치가 다양하고 현실과 거리가 멀더라도 많은 개인의 추정치의 평균은 현실에 가까울 수 있습니다[44, 45]. 이러한 '군중의 지혜' 효과가 모든 상황에서 적용되는 것은 아닙니다. 사람들이 개별적으로 일하지 않고 집단적으로 일할 때는 사회적 상호작용과 집단 내에서 인지된 권력 차이가 개인의 추정치에 영향을 미치기 때문에 이 효과가 덜 분명할 수 있습니다. 결과적으로 도출된 합의는 더 이상 정확하지 않지만, 그룹 구성원은 자신이 더 나은 추정을 하고 있다고 인식할 수 있습니다[45]. 또한, 평균이든 중앙값이든 이 효과를 입증하기 위해 평균을 사용하는 것은 이 효과가 서술형 데이터가 아닌 수치 데이터에서 작동하는 방식, 즉 수학적 효과의 강점을 반영합니다[45]. 집단이 개인보다 더 나은 의사 결정을 내린다는 명백한 안심은 예방 조치를 취하지 않는 한 내러티브 데이터나 집단적 의사 결정에 있어서는 잘못된 판단일 수 있습니다
When aggregating information, the average of many individuals’ estimates can be close to reality, even when those individual estimates may be varied and lie far from it [44, 45]. This ‘wisdom of the crowd’ effect may not be true in all situations. When people work collectively rather than individually, this effect may be less apparent, as social interactions and perceived power differentials within groupings influence individual estimates. The resulting consensus produced is no more accurate, yet group members may perceive that they are making better estimates [45]. Further, the use of average, whether mean or median, to demonstrate this effect reflects the strength of how this effect works for numerical rather than narrative data, it is a mathematical effect [45]. The apparent reassurance that groups make better decisions than individuals may be misplaced when it comes to narrative data or collective decisions, unless precautions are taken.

의사 결정의 오류는 지식, 데이터 수집, 정보 처리 및/또는 검증의 결함으로 인해 발생할 수 있습니다 [46]. 개인의 의사 결정에는 편견과 오류가 존재하며[10, 12, 15, 17, 18, 47], 그 중 일부는 집단 의사 결정에서도 나타납니다[48,49,50]. 개인이 내린 의사 결정의 편견과 오류를 집단이 내린 의사 결정과 비교할 때, 일부는 약화되고 일부는 증폭되며 일부는 재생산되며 분류별로 일관된 패턴이 없습니다 [48]. 이러한 편견과 오류는 개인 및 그룹 진급 의사 결정과 관련하여 표 1에 나와 있습니다. 
Errors in decision-making can arise due to faults in knowledge, data gathering, information processing, and/or verification [46]. There are biases and errors in individual’s decision-making [10, 12, 15, 17, 18, 47], some of which are also evident in group decision-making [48,49,50]. In comparing biases and errors in decisions made by individuals with those made by groups, some are attenuated, some amplified, and some reproduced, with no consistent pattern by categorisation [48]. These biases and errors, as they relate to individual and group progression decision-making, are shown in Table 1.

개인과 마찬가지로 그룹도 의사결정을 내릴 때 여러 과정을 거칩니다. 개인이 그룹으로 모이는 과정은 정보 회상 및 처리에 영향을 미칠 수 있습니다[48]. 개인이 의사 결정을 내리는 것에 대한 문헌이 훨씬 더 많지만, 의사 결정을 내리는 그룹도 편견에 빠지기 쉬우며[63] 이는 여러 출처에서 발생할 수 있습니다[43]. 진행 의사결정의 맥락에서, 그룹의 초기 선호도는 이용 가능하거나 이후에 공개된 정보에도 불구하고 지속될 수 있으며[64], 이는 진단 의사결정의 조기 종결 편향과 유사합니다[15]. 그룹 구성원은 지배적인 성격의 과도한 비중과 같은 의사 결정 그룹 내 대인 관계를 인식할 수 있으며, 이러한 인식은 개인의 기여와 정보 토론에 영향을 미칠 수 있습니다[48]. 설득과 영향력은 후보자 평가에 대한 토론 중에 발생합니다. 처음에 후보자의 점수를 높게 매긴 이상값은 점수를 낮출 가능성이 높고, 처음에 후보자의 점수를 낮게 매긴 이상값은 점수를 높일 가능성이 낮기 때문에 합의된 토론은 후보자의 점수를 낮추어 합격률을 낮출 가능성이 높습니다[65].
Groups, like individuals, undertake several processes in coming to a decision. The process of individuals gathering into a group can influence information recall and handling [48]. Although there is a significantly greater literature on individuals making decisions, groups making decisions can also be prone to biases [63] and this can arise from many sources [43]. In the context of progression decision-making, a group’s initial preferences can persist despite available or subsequently disclosed information [64], a bias similar to premature closure in diagnostic decision-making [15]. Group members may be aware of interpersonal relationships within the decision group, such as the undue weight of a dominant personality, and these perceptions can influence an individual’s contribution and discussion of information [48]. Persuasion and influence occur during discussion of a candidate assessment. Outliers who initially score candidates higher are more likely to reduce their score, while outliers who initially score the candidates lower are less likely to increase their score, with the result that consensus discussion is likely to lower candidate scores and therefore reduce the pass rate [65].

집단에 의한 고위험 의사 결정의 예로서 배심원단
A jury as an example of high-stakes decision-making by a group

배심원 의사결정은 그룹이 고위험 의사결정을 내리는 예로서[48], 광범위하게 연구되어 왔으므로 진급 의사결정에 대한 통찰력을 제공할 수 있습니다. 배심원 및/또는 배심원의 의사 결정, 편견, 오류에 관한 중요한 문헌[49, 50, 66,67,68,69,70,71, 72,73,74,75,76]이 있으며, 여기에는 요약 리뷰[77]도 포함되어 있습니다. 모든 증거를 고려하는 배심원 그룹의 주된 목적(유죄 또는 무죄라는 이분법적인 평결에 도달하는 것을 목표로 함)과 모든 평가 데이터를 고려하는 의사 결정자 그룹의 주된 목적(합격 또는 불합격이라는 고위험 평결에 도달하는 것을 목표로 함) 사이에는 유사성이 있습니다. 배심원 의사 결정은 진도 의사 결정과 비슷하지만, 앞서 설명한 다른 그룹 의사 결정과 달리 정답이 알려진 문제를 다루지 않습니다[48, 66]. 
Jury decision-making is an example of a group making a high-stakes decision [48], that has been extensively researched and therefore could offer insights into progression decision-making. There is significant literature on decision-making, biases, and errors by jurors and/or juries [49, 50, 66,67,68,69,70,71,72,73,74,75,76], including a summarising review [77]. There are similarities between the main purpose of the group of jurors considering all the evidence (with the aim of reaching a high-stakes verdict which is often a dichotomous guilty or not guilty verdict) and the main purpose of a group of decision-makers to consider all the assessment data (with the aim of reaching a high-stakes verdict of pass or fail). Jury decision-making, like progression decision-making, but unlike other group decision-making described, does not address a problem with a known correct answer [48, 66].

배심원과 배심원이 내린 결정에 대한 상대적 기여도는 과제에 따라 다릅니다 [50]. 임상 의사결정의 경우 의사결정의 정확성과 효율성을 향상시킬 수 있는 휴리스틱이 있지만, 이러한 휴리스틱이 정확도가 떨어지거나 효율성이 떨어지는 결과를 낳으면 편견으로 간주됩니다. 시뮬레이션 배심원 및/또는 일부 실제 배심원의 경우 편견과 편향에 대한 취약성이 보고되었으며, 그 요인으로는 [49, 50, 66,67,68,69,70,71,72,73,74,75,76,77] 등이 있습니다: 
The relative contribution to the decision brought about by jurors and juries varies with the task [50]. As for clinical decision-making, there are heuristics which can improve the accuracy and efficiency of decisions, but when these produce less accurate or less efficient results, they are seen as biases. Susceptibility to variation and bias has been reported for simulated jurors and/or for some real juries, with factors that include [49, 50, 66,67,68,69,70,71,72,73,74,75,76,77]:

  • 피고 및/또는 피해자/원고 요인. 여기에는 성별, 인종, 외모, 경제적 배경, 성격, 부상, 재판 전 홍보, 피고인의 전과 기록 공개, 자기 모욕죄로부터의 자유, 개인 또는 법인 여부, 법정 행동과 같은 개인적 요인이 포함됩니다;
    Defendant and/or victim/plaintiff factors. This includes personal factors such as gender, race, physical appearance, economic background, personality, injuries, pre-trial publicity, disclosure of defendants prior record, freedom from self-incrimination, being individual or corporation, courtroom behaviour;
  • 배심원 요인. 여기에는 권위주의, 유죄 또는 무죄 판결에 찬성하는 성향, 나이, 성별, 인종, 사회적 배경, 증거의 기억력, 증거에 대한 이해도, 지시된 정보를 무시하는 정도, 배심원 경험 등이 포함됩니다;
    Juror factors. This includes authoritarianism, proneness to be pro-conviction or pro-acquittal, age, gender, race, social background, recall of evidence, understanding of evidence, ignoring information as instructed, prior juror experience;
  • 대표성 요인. 여기에는 성별, 서면/언어적 표현, 명확성, 스타일 및 프레젠테이션의 효율성과 같은 법적 대표성 요인이 포함됩니다;
    Representative factors. This includes legal representation factors such as gender, written/verbal representation, clarity, style and efficiency of presentation;
  • 증거 요인. 여기에는 증거의 이미지(더 시각적이거나 시각적으로 상상할 수 있는 것), 제시 순서, 증거의 성격이 포함됩니다;
    Evidence factors. This includes imagery of evidence (the more visual or more visually imaginable), order of presentation, nature of evidence;
  • 범죄 요인. 여기에는 범죄의 심각성 또는 유형이 포함됩니다;
    Crime factors. This includes the severity or type of crime;
  • 판사 요인. 여기에는 주어진 지침 또는 안내의 내용이 포함됩니다;
    Judge factors. This includes the content of the instructions or guidance given;
  • 배심원단 구성 요소. 여기에는 사회적 배경 혼합, 인종 혼합과 같은 여러 측면이 포함됩니다.
    Jury membership factors. This includes the mix of aspects such as social background mix, racial mix.

이러한 요인 중 일부는 진행 상황 결정과 관련하여 유사점이 있습니다. 스토리 구축의 용이성은 결정과 그 결정의 확실성 모두에 영향을 미치며[71], 이는 가용성 편향과 유사합니다. 첫인상으로 인한 배심원 편향[67, 75, 77]은 앵커링과 유사합니다. 사람들은 비슷한 사람들과 동일시할 수 있으며, "우리와 같은 사람들" 효과가 존재할 수 있습니다[78]. 진급 의사 결정의 경우 이러한 영향 중 일부는 가능한 한 학생을 익명화하여 완화할 수 있습니다. 
There are similarities in some of these factors in relation to progression decision-making. The ease of building a story influences both the decisions and the certainty in those decisions [71], akin to the availability bias. The juror bias due to initial impression [67, 75, 77] is akin to anchoring. People may identify with similar people; a “people like us” effect may be present [78]. For progression decision-making some of these effects can be mitigated by anonymisation of students, as far as possible.

배심원과 진도 결정을 내리는 패널의 한 가지 차이점은 배심원은 동료 배심원에게 정보를 제공하지 않는다는 점입니다. 이와는 대조적으로 진급 결정 패널의 구성원은 학생을 관찰하고 정보를 제공할 수 있습니다. 의사 결정권자의 관찰 부족은 편견의 잠재적 원인을 제거하기 때문에 의사 결정에 도움이 될 수 있습니다. 하나의 일화가 강력한 증거와 부적절하게 모순될 수 있기 때문입니다[57]. 또한, 잘못된 증거 회상으로 인한 편견은 심의를 위해 패널에 제출된 증거보다 덜 문제가 됩니다. 
One difference between a jury and a panel making a progression decision, is that a juror does not provide information to their co-jurors. In contrast, a member of a progression decision panel might also have observed the student and can provide information. Lack of observation by the decision-makers can be a benefit in decision-making, as it removes a potential source of bias: a single anecdote can inappropriately contradict a robust body of evidence [57]. Additionally, bias produced by incorrect evidential recall is less of an issue than evidence presented to the panel for deliberation.

프로그램 평가 패널은 일반인 및 동료 배심원단보다는 대법원 판사 패널에 더 가까울 수 있지만, 비공개 회의로 진행되는 대법원 판사 패널의 의사 결정 및 심의에 대한 연구는 거의 없습니다. 
The programmatic assessment panel may be closer to a Supreme Court panel of judges rather than a jury of lay-people and peers, but there is little research on the decision-making and deliberations of panels of Supreme Court judges, which are conducted in closed-door meetings.

배심원단의 의사 결정 스타일
Jury decision-making style

배심원단의 심의 스타일은 정보 수집을 통한 증거 중심 또는 평결 투표로 시작하는 평결 중심[68]으로 나타났습니다. 증거 중심 심의는 시간이 오래 걸리고 더 많은 합의를 이끌어내는 반면, 평결 중심 심의는 적대적인 방식으로 반대 의견을 이끌어내는 경향이 있습니다. 증거 중심 심의에서 의견이 크게 바뀌는 경우, 이는 판사의 지시에 대한 토론과 관련이 있을 가능성이 높습니다[68]. 결정 규칙이 합의 없이 다수결로 평결을 내릴 수 있도록 허용하는 경우, 작지만 실질적인 효과를 볼 수 있습니다. 배심원단이 필요한 정족수에 도달하면 심의를 중단하는 것입니다 [77]. 평결 투표는 사람들이 투표 순서에 따라 투표를 변경하는 투표 순서와 같은 추가적인 편견의 영향을 받을 수 있습니다[77]. 그룹 토론은 극단적인(보다 정직한) 입장을 도출할 수 있다는 점에서 잠재적인 문제가 없는 것은 아닙니다. 전체 배심원 평결의 90%는 1차 투표 과반수[66]의 방향으로 이루어지지만, 적지 않은 수의 배심원들이 숙의에 의해 흔들립니다. 개인이 개별적인 결정과 근거를 진술하면 그룹 내에서 책임이 분산되어 더 위험한 의견이 진술되고 따라서 더 위험한 결정이 내려질 수 있습니다[66]. 
Jury deliberation styles have been shown to be either evidence-driven, with pooling of information, or verdict-driven, which start with a verdict vote [68]. Evidence-driven deliberations take longer and lead to more consensus; verdict-driven deliberations tend to bring out opposing views in an adversarial way. When evidence-driven deliberations lead to a significant change of opinion, it is more likely to be related to a discussion of judge’s instructions [68]. If the decision rules allow a majority vote verdict without consensus, a small but real effect is seen [77]: juries will stop deliberating once the required quorum is reached. Verdict voting can be subject to additional biases such as voting order where people alter their vote depending on the votes given to that point [77]. Group discussions are not without potential problems, in that they can generate extreme (more honest) positions. Ninety percent of all jury verdicts are in the direction of the first ballot majority [66], but a small and not insignificant number are swayed by deliberation. Once individuals state their individual decisions and rationales, diffusion of responsibility within a group may lead to riskier opinions being stated, and therefore riskier decisions being made [66].

이를 진급 의사 결정의 맥락으로 확장하면, 최적의 접근 방식정책과 프로세스의 규칙과 실행에 주의를 기울이면서, 증거에 기반하는 합의 결정입니다.
Extrapolating this to the context of progression decision-making, an optimal approach is consensus decisions that are based on evidence, whilst attending to the rules and implementation of policy and process.

배심원 리더십
Jury leadership

배심원 의사결정 프로세스에 대해 우리가 알고 있는 바에 따르면, 평가 진행 패널 위원장에 해당하는 배심원 단장은 의사결정에서 좋은 프로세스를 유지하면서 열린 담론을 보존할 수 있는 기술이 필요합니다. 배심원단장은 영향력이 있을 수 있으며[77], 개별 배심원들은 극단적인 견해를 가질 수 있지만, 배심원단 선정 과정이 일반적으로 극단적인 견해를 가진 사람들의 선정 가능성을 낮춰준다[66]. 
Based on what we know about jury decision-making processes, the jury foreperson, the equivalent of the assessment progress panel chair, needs the skills to preserve open discourse, whilst maintaining good process in decision-making. The jury foreperson can be influential [77], and individual jurors can hold extreme views, though the process of jury selection usually mitigates against the selection of people with extreme views [66].

진행 의사결정자를 선정할 때는 임상 진료와 관련된 기술 및 지식보다는, 정보를 종합하여 중대한 결정을 내리는 데 필요한 기술을 고려해야 합니다.
In choosing progress decision-makers, consideration should be given to the skills that are required to make high-stakes decisions based on aggregating information, rather than skills and knowledge relating to clinical practice.

배심원단의 관용과 실패하지 않기
Jury leniency and failure to fail

피고인에 대한 관용과 failure to fail 현상 사이에 유사점이 있습니까[55]? 배심원단은 무죄를 추정하도록 지시받습니다[67]: 평결에 오류가 있을 경우 관용을 베푸는 것이 바람직합니다[79]. 법적 의사 결정에는 결정을 지지할 확률과 해당 결정을 지지하는 데 필요한 임계값이라는 두 가지 요소가 있습니다[66]. 결정을 지지하면서도 어느 정도의 의심은 남아있을 수 있습니다. 배심원 및 배심원 결과에 요구되는 증명 기준(합리적 의심)의 영향은 상당합니다[69, 77]. 의심스러운 경우 배심원은 무죄를 선호합니다[48, 63]. 배심원단의 심의는 관용을 베푸는 경향이 있으며[72, 75], 대부분의 관용은 증명 기준의 요건에 의해 설명됩니다[72]. 
Is there a parallel between leniency towards the defendant and the failure to fail phenomenon [55]? Juries are instructed to presume innocence [67]: if one is to err in a verdict, leniency is preferred [79]. Legal decision-making has two components: the probability of supporting a decision, and threshold required to support that decision [66]. It is possible to support a decision but still retain a degree of doubt. The effect of standard of proof (reasonable doubt) required on juror and jury outcomes is significant [69, 77]. If in doubt, a jury will favour acquittal [48, 63]. Jury deliberations tend towards leniency [72, 75], with most leniency is accounted for by the requirement of standard of proof [72].

진급 의사 결정에서도 비슷한 효과가 관찰되었는데, 의심스러운 경우 일반적으로 학생을 합격시키는 결정을 내립니다[55]. 유죄가 입증되지 않는 한 무죄를 추정할 책임은 배심원단에게 있지만, 학생의 유능함을 입증할 책임은 진행 패널에게 있습니까? 이 책임은 무능력이 입증되지 않는 한 능력이 있다고 추정하는 것으로 잘못 해석되는 경우가 너무 많습니다. 이는 능력이 아직 입증되지 않았음을 시사하는 여러 가지 작은 증거를 무시하는 것으로 나타날 수 있습니다[36]. 
A similar effect has been observed in progression decision-making where, if in doubt, the decision is usually to pass the student [55]. The onus is on the jury to presume innocence unless finding guilt proven, but is the onus on the progress panel to find student competent proven? Too often this onus is erroneously misinterpreted as presuming competence unless finding incompetence proven. This can manifest as a discounting of multiple small pieces of evidence suggesting that competence has not yet been demonstrated [36].

학생 진급과 관련된 의사 결정의 견고성을 높이기 위해 주의해야 할 제안 사항
Suggestions to attend to in order to promote robustness of decisions made relating to student progression

이제 진급 결정권자가 사용할 수 있는 몇 가지 모범 사례 팁과 원칙을 제안합니다. 이는 앞서 설명한 임상 의사 결정 및 배심원단 의사 결정의 증거와 추가 관련 문헌에 근거한 것입니다. 
We now propose some good practice tips and principles that could be used by progression decision-makers. These are based on the previously outlined evidence from clinical decision-making and jury decision-making, and from additional relevant literature.

교육 기관, 의사 결정 패널, 패널리스트는 진행 상황 결정에 편견과 오류가 있을 수 있음을 인지해야 합니다.
Educational institutions, decision-making panels, and panellists should be aware of the potential for bias and error in progression decisions

편견의 가능성을 의식적으로 인식하는 것이 편견을 완화하기 위한 첫 번째 단계입니다[19,20,21]. 이러한 편향은 의사 결정을 내리는 개인과 의사 결정을 내리는 집단 모두에서 발생할 수 있습니다. 임상 의사 결정에서 추론해 보면, 의사 결정자의 오류 가능성에 대한 인식을 높이는 것이 과제입니다[12]. 임상의가 임상 의사 결정에서 불확실성을 인식하고 공개하지 않는 것은 심각한 문제입니다 [47, 80]. 그러나 학생 성과에 대한 불확실성이 있더라도 의사 결정 패널은 여전히 결정을 내려야 합니다
Being consciously aware of the possibility of bias is the first step to mitigate against it [19,20,21]. Such biases can occur both for individuals making decisions and for groups making decisions. Extrapolating from clinical decision-making, the challenge is raising awareness of the possibility of error by decision-makers [12]. Clinicians failing to recognise and disclose uncertainty in clinical decision-making is a significant problem [47, 80]. However, even when there is uncertainty over student performance, decision panels still need to make a decision.

의사 결정은 적절하게 선정된 의사 결정 패널에 의해 이루어져야 합니다.
Decisions should be made by appropriately selected decision-making panels

임상 의사 결정에서 추론해 볼 때, 개인의 의사 결정을 개선하기 위한 전략에는 전문 지식과 메타인지 연습을 증진하는 것이 포함됩니다. 전문성 부족은 오류의 원인이 될 수 있으므로[34], 평가 내용보다는 학생 결과 의사결정에 대한 적절한 전문성을 갖춘 패널을 선정해야 하며, 의사결정의 질에 대한 반영에는 의사결정에 대한 피드백 및 의사결정 훈련 방식의 질 보증이 포함되어야 합니다. 따라서 패널은 지위/연공서열, 평가 내용에 대한 친숙도 또는 학생과의 친밀도보다는 편견을 인식하는 메타인지 능력을 기준으로 선정해야 합니다.
Extrapolating from clinical decision-making, strategies to improve individual decision-making include promotion of expertise and metacognitive practice. A lack of expertise can contribute to errors [34], hence panel members should be selected with appropriate expertise in student outcome decision-making, rather than assessment content, and reflections on decision quality should include quality assurance in the way of feedback on decisions and training for decision-making. As such, the panel should be chosen on the basis of its ability to show metacognition in recognising bias, rather than status/seniority, familiarity with assessment content, or familiarity with the students.

숙련된 의사결정자들로 구성된 패널도 편견의 가능성이 없는 것은 아니지만[81], 정책, 절차 및 실무 수준에서 구현할 수 있는 가능한 해결책이 있습니다. 학생과 교직원 간의 직업적, 사회적 상호 작용의 가능성을 고려할 때 잠재적 이해 상충에 대한 정책, 절차 및 실무 문서가 있어야 합니다. 의사 결정자가 한 명 이상의 학생과 이해관계가 충돌하는 경우 의사 결정에서 물러나야 합니다. 잠재적 이해 상충은 개별 의사 결정자 및 개별 학생과 관련될 가능성이 훨씬 높으므로 적절한 정책에 따라 사례별로 처리해야 합니다. 갈등의 예로는 가족 구성원과의 보다 명백한 관계뿐만 아니라 멘토/멘티, 학생과 복지 역할을 하는 사람과의 관계도 포함될 수 있습니다.  
Even a panel of experienced decision-makers is not without the potential for bias [81], but there are possible solutions that can be implemented at the policy, procedure and practice levels. Given the potential for professional and social interactions between students and staff, there should be policy, procedure, and practice documentation for potential conflicts of interest. If a decision-maker is conflicted for one or more students, then they should withdraw from decision-making. Potential conflicts of interest are far more likely to relate to individual decision-makers and individual students, and should be dealt with on a case-by-case basis guided by an appropriate policy. Examples of conflict might include more obvious relationships with family members, but also with mentors/mentees and those with a welfare role with students.

교육 기관은 평가 이벤트 및 관련 의사 결정과 관련된 정책, 절차 및 실무 문서를 공개적으로 이용할 수 있어야 합니다.
Educational institutions should have publicly available policies, procedures, and practice documentation related to assessment events and the associated decision-making

배심원단의 성과를 개선하는 것은 절차적 문제를 개선함으로써 달성할 수 있습니다[77]. 여기에는 다음 등이 포함되고 다른 것도 있을 수 있습니다.

  • 증거 사실에 대한 철저한 검토,
  • 판사의 지시에 대한 배심원단의 정확한 이해,
  • 모든 배심원의 적극적인 참여,
  • 규범적 압력이 아닌 토론을 통한 이견 해소,
  • 다양한 평결 옵션의 요건에 대한 사건 사실의 체계적 일치 

마찬가지로 진행 패널 결정의 관점에서 보면, 이는 다음에 해당합니다.

  • 제공된 정보의 철저한 검토,
  • 정책에 대한 정확한 이해,
  • 모든 패널 구성원의 적극적인 참여,
  • 토론과 합의를 통한 이견 해소,
  • 평가 목적 및 결과에 대한 요건에 대한 정보의 체계적 매칭

이러한 요소들이 이미 많은 의사결정 과정에 내재되어 있다고 주장하는 사람들도 있지만, 이러한 요소들을 보다 명시적으로 만들면 의사결정의 질이 향상될 수 있습니다. 
Improving jury performance can be achieved through improving procedural issues [77]. These include, but are not necessarily limited to, the following:

  • a thorough review of the facts in evidence,
  • accurate jury-level comprehension of the judge’s instructions,
  • active participation by all jurors,
  • resolution of differences through discussion as opposed to normative pressure, and
  • systematic matching of case facts to the requirements for the various verdict options.

Likewise, from the perspective of a progression panel decision, these would equate to:

  • a thorough review of the information provided,
  • accurate comprehension of the policy,
  • active participation by all panel members,
  • resolution of differences through discussion and consensus, and
  • systematic matching of information to the requirements for the assessment purpose and outcomes.

While some might argue that these components are already implicit in many decision-making processes, the quality of decision-making may be improved if such components are made more explicit.

패널과 토론자에게 필요한 의사결정을 위한 충분한 정보를 제공해야 합니다.
Panels and panellists should be provided with sufficient information for the decision required

그룹 토론은 정보 기억력을 향상시킬 수 있으며[48], jurors과 달리 juries의 이점 중 일부는 개인에 비해 그룹이 기억력을 향상시키는 것과 관련이 있습니다[66, 67, 74]. 다수의 배심원은 개별 배심원보다 덜 완전하지만 더 정확한 보고서를 작성합니다[66].
Group discussions can improve recall of information [48], and some of the benefit of juries, as opposed to jurors, relates to improved recall by a group compared to individuals [66, 67, 74]. Multiple jurors produce less complete but more accurate reports than individual jurors [66].

진급 의사 결정에서 패널리스트가 결정을 내릴 때 정보 또는 정책의 세부 사항에 대한 회상에 의존해야 할 가능성은 낮지만, 패널은 개별 학생에 대한 결정에 도달하기 위해 충분한 정보(질과 양)를 가지고 있는지 결정해야 할 것입니다. 정보가 불충분하지만 더 많은 정보가 입수될 수 있는 경우, 이를 구체적으로 구하고[36] 결정을 연기해야 합니다. 추가 정보가 제공되지 않을 경우, 입증 책임이 어디에 있는지에 대한 질문으로 전환해야 합니다. 
In progression decision-making, it is unlikely that panellists will have to rely on recall for specifics of information or policy when making decisions, but the panel will need to decide if they have sufficient information (quality and quantity) in order to reach a decision for an individual student. Where there is insufficient information, but more may become available, this should be specifically sought [36], and a decision deferred. Where further information will not become available, the question should then turn to where the onus of the burden of proof lies.

패널과 토론자는 정보 종합을 최적화하고 편견을 줄이기 위해 노력해야 합니다.
Panels and panellists should work to optimise their information synthesis and reduce bias

표 1에 요약된 바와 같이 그룹 내 심의 및 토론 행위는 개인의 많은 편견과 오류를 줄여줍니다[48]. 증거 외 편향과 같은 일부 편향은 그룹 의사 결정에서 증폭될 수 있으며, 일화 제공이 그룹의 결정에 부당하게 영향을 미칠 수 있는 경우를 예로 들 수 있습니다[57]. 
The act of deliberation and discussion within groups attenuates many of the biases and errors of individuals [48], as outlined in Table 1. Some biases, such as extra-evidentiary bias, can be amplified in group decision-making, an example being where provision of an anecdote could unduly influence a group’s decision [57].

의사 결정은 의사 결정 지원 및 의사 결정 검토와 함께 모든 정보와 맥락을 고려해야 합니다. 외부 검토는 단순히 의사 결정에 대한 검토를 넘어 기본 패널 프로세스, 절차 및 관행에 대한 외부 검토로 확장될 수 있습니다. 모든 패널 토론에 외부 검토가 필요한 것은 아니지만, 정기적인 외부 참관과 관련된 정책 검토는 적절할 수 있습니다. 
Progression decision-making requires consideration of all information and the context, with decision support and decision review. External review might extend beyond just reviewing the decisions, to an external review of the underlying panel process, procedures, and practices. Not every panel discussion needs external review, but policy review associated with regular external observation would be appropriate.

패널은 합의를 통해 결정에 도달해야 합니다.
Panellists should reach decisions by consensus

투표가 아닌 합의에 의한 의사결정은 적대적인 의사결정을 피할 수 있습니다. 법정에서는 공정성을 확보하기 위해 사실관계가 적대적인 방식으로 밝혀지고 제시되며, 반대 측 법률 대리인이 정보를 문제 삼습니다[67]. 그 결과 증거의 신뢰성이 떨어지고 논쟁의 여지가 있는 것처럼 보입니다. 마찬가지로, 적대적인 방식으로 제시된 정보에 직면한 경우, 진급 의사결정 패널은 해당 정보의 신뢰성이 떨어지고 따라서 확고한 결정을 내리기에는 불충분하다고 생각할 수 있습니다. 
Consensus decision-making rather than voting avoids adversarial decision-making. In an attempt to produce fairness within a courtroom, facts are uncovered and presented in an adversarial manner, with information being questioned by opposing legal representation [67]. This results in the appearance of evidential unreliability and contentiousness. Similarly, when faced with information presented in an adversarial way, progression decision-making panels might view the information as being less reliable, and therefore insufficient to make a robust decision.

입증 책임은 입증된 역량 입증자에게 있어야 합니다.
The burden of proof should lie with a proven demonstration of competence

합격/불합격이 중요한 의사 결정의 경우, 입증 기준은 학생의 역량이 진도에 만족할 만한 수준이라는 것을 증명하는 것이어야 합니다. 그렇지 않다는 것이 증명되기 전까지는 학생이 유능하다고 가정하는 경우가 많습니다. "유죄가 입증될 때까지 무죄"와는 대조적으로, 우리는 보건의료 교육 기관이 사회를 보호해야 할 의무를 반영하여 유능한 것으로 입증될 때까지 학생을 무능력한 것으로 간주해야 한다고 제안합니다[40]. 
For high-stakes pass/fail decision-making, the standard of proof should be proof that the student’s competence is at a satisfactory standard to progress. The assumption is often that the student is competent, until proved otherwise. In contrast to “innocent until proven guilty”, we suggest students should be regarded as incompetent until proven competent, reflecting the duty for healthcare educational institutions to protect society [40].

검사 결과의 예측값은 민감도와 특이도는 변하지 않더라도 검사 전 확률 또는 유병률의 영향을 받습니다. 시험 전 합격 확률 또는 유병률은 코호트가 과정을 진행하면서 능력이 떨어지는 학생이 제거됨에 따라 증가해야 합니다. 따라서 잘못된 합격/불합격 결정은 잘못된 합격(진정한 불합격)보다 잘못된 불합격(진정한 합격)일 가능성이 상대적으로 더 높으며, 평가가 모호한 경우에는 학생이 괜찮을satisfactory 가능성이 안괜찮을 가능성보다 더 높습니다. 그러나 학생이 코스를 진행하면서 추가 평가의 기회가 줄어듭니다. 졸업이 가까워질수록 잘못된 합격/불합격 결정의 위험과 영향이 커집니다. 시험 전 확률이나 유병률을 고려하면 학생의 pass할 가능성이 높아질테지만, 사회의 요구와 기대를 충족해야 하는 교육기관의 의무가 이를 우선시해야 합니다. 
The predictive value of a test result is affected by the pre-test probability or prevalence, even though sensitivity and specificity may not change. This pre-test probability or prevalence of passing should increase as a cohort progresses through the course, as less able students are removed. Therefore, incorrect pass/fail decisions are relatively more likely to be false fails (true passes) than false passes (true fails), and when an assessment is equivocal, it is more likely that the student is satisfactory than not. However, as a student progresses through the course and the opportunities for further assessment are reduced. As graduation nears, the stakes and impact of an incorrect pass/fail decision increases. Although pre-test probability or prevalence considerations would favour passing the student, the duty of the institution to meet the needs and expectations of society should override this.

결론
Conclusion

우리는 진급 의사 결정에 메타인지를 요구합니다. 우리는 학생에 대한 정확한 그림을 구성하기 위해 여러 정보를 결합하는 것의 강점을 염두에 두어야 하지만, 결정을 내릴 때 편견의 근원에 대해서도 염두에 두어야 합니다. 많은 교육기관이 이미 모범 사례를 보여주고 있다는 점을 인정하지만, 편견에 대한 인식과 이 백서에 요약된 제안 프로세스는 숨겨진 편견과 의사 결정 오류를 최소화하기 위한 품질 보증 체크리스트의 일부로 활용될 수 있습니다. 임상 의사결정 경험과 배심원단의 의사결정에 대한 이해가 도움이 될 수 있습니다.
We provide a call for metacognition in progression decision–making. We should be mindful of the strengths of combining several pieces of information to construct an accurate picture of a student, but should also be mindful of the sources of bias in making decisions. While we acknowledge that many institutions may already be demonstrating good practice, awareness of biases and the suggested process outlined in this paper can serve as part of a quality assurance checklist to ensure hidden biases and decision-making errors are minimised. Drawing on one’s experience of clinical decision-making and an understanding of jury decision-making can assist in this.


 

BMC Med Educ. 2019 May 30;19(1):176. doi: 10.1186/s12909-019-1583-1.

Student progress decision-making in programmatic assessment: can we extrapolate from clinical decision-making and jury decision-making?

Affiliations 

1Department of Medicine, University of Otago Wellington, Wellington, New Zealand. mike.tweed@otago.ac.nz.

2University of Otago Christchurch, Christchurch, New Zealand.

PMID: 31146714

PMCID: PMC6543577

DOI: 10.1186/s12909-019-1583-1

Free PMC article

Abstract

Background: Despite much effort in the development of robustness of information provided by individual assessment events, there is less literature on the aggregation of this information to make progression decisions on individual students. With the development of programmatic assessment, aggregation of information from multiple sources is required, and needs to be completed in a robust manner. The issues raised by this progression decision-making have parallels with similar issues in clinical decision-making and jury decision-making.

Main body: Clinical decision-making is used to draw parallels with progression decision-making, in particular the need to aggregate information and the considerations to be made when additional information is needed to make robust decisions. In clinical decision-making, diagnoses can be based on screening tests and diagnostic tests, and the balance of sensitivity and specificity can be applied to progression decision-making. There are risks and consequences associated with clinical decisions, and likewise with progression decisions. Both clinical decision-making and progression decision-making can be tough. Tough and complex clinical decisions can be improved by making decisions as a group. The biases associated with decision-making can be amplified or attenuated by group processes, and have similar biases to those seen in clinical and progression decision-making. Jury decision-making is an example of a group making high-stakes decisions when the correct answer is not known, much like progression decision panels. The leadership of both jury and progression panels is important for robust decision-making. Finally, the parallel between a jury's leniency towards the defendant and the failure to fail phenomenon is considered.

Conclusion: It is suggested that decisions should be made by appropriately selected decision-making panels; educational institutions should have policies, procedures, and practice documentation related to progression decision-making; panels and panellists should be provided with sufficient information; panels and panellists should work to optimise their information synthesis and reduce bias; panellists should reach decisions by consensus; and that the standard of proof should be that student competence needs to be demonstrated.

Keywords: Decision-making; Policy; Programmatic assessment.

 

평가에 대한 메타포의 사용과 남용(Adv Health Sci Educ Theory Pract. 2023)
On the use and abuse of metaphors in assessment
Jacob Pearce1 · Neville Chiavaroli1 · Walter Tavares2

 

평가에서의 은유 소개
Introduction to metaphors in assessment

은유적 언어는 모든 분야에서 풍부하게 사용됩니다. 보건 전문직의 평가 맥락에서 일하면서 우리는 은유가 평가 프로그램의 개념화, 개발 및 배포에 중요한 역할을 한다는 사실을 발견했습니다. 은유는 평가 개념을 전달하고 복잡한 아이디어와 문제를 실무자에게 전달하는 데 도움이 됩니다. 이는 새로운 평가 프로그램을 구축하고 이해관계자와 소통할 때, 그리고 교육 및 훈련에서 평가에 관한 일상적인 결정을 내릴 때 매우 중요합니다. 그러나 평가의 개념화 및 실행 방식에 영향을 미칠 수 있는 의도하지 않은 결과나 오해에 대해 잠시 멈춰서 생각해 보아야 할 때가 많았습니다. 이러한 순간들은 은유를 비판할 때 얻을 수 있는 가치를 강조하고, 은유가 지속적으로 유용하게 사용될 수 있도록 하기 위해 필요한 주의를 기울여야 함을 보여주었습니다. 이 백서는 은유의 현명하고 생산적인 사용을 장려함으로써 보건 전문직의 평가를 발전시키고자 하는 열망에서 출발했습니다. 무엇이 그러한 사용을 구성하는지를 결정하는 것이 우리의 과제이며, 우리는 비판적 철학적 관점, 즉 철저하고 신중한 비평 과정을 통해 평가 은유를 검토하는 방식으로 진행합니다.  
Metaphorical language is abundant in all disciplines. Working in assessment contexts in the health professions, we have noticed metaphors playing an important role in the conceptualisation, development, and deployment of assessment programs. Metaphors help communicate assessment concepts and translate complex ideas and issues to practitioners. This is extremely important both when building a new assessment program and engaging with stakeholders, and when being pragmatic in making routine decisions about assessment in education and training. However, many times we have needed to pause to reflect on potential unintended consequences or misinterpretations that may impact the way assessments and conceptualized and/or implemented. These moments have highlighted the value that comes from critiquing metaphors, and demonstrated the care required to ensure that metaphors have continued utility. This paper is motivated by a desire to advance assessment in the health professions through encouraging the judicious and productive use of metaphors. Determining what constitutes such a use is our task here, and we proceed by examining assessment metaphors from a critical philosophical perspective; that is, through a thorough and considered process of critique.

이 주제는 평가의 맥락을 넘어서는 적용 가능성이 있지만, 최근 몇 년 동안 은유의 적용이 눈에 띄게 증가했음을 알았기 때문에 특히 보건 전문직의 평가 맥락에서 은유의 사용과 적용에 초점을 맞춥니다. 특히 프로그램 평가는 지난 몇 년 동안 의료와 프로그램 평가 사이의 비유(Schuwirth et al., 2017), 합창단 가입 과정(Uijtdehaage & Schuwirth, 2018, 350쪽), 배심원 재판에서의 의사 결정(Tweed & Wilkinson, 2019), 프로그램 평가를 시험 단계의 약물로 생각하기(Wilkinson & Tweed, 2018, 191쪽) 등 많은 비유를 불러일으키고 있습니다. 보건 전문직의 평가 설계는 칵테일과 교향곡(Al-Kadri, 2015), 범선의 설계 및 건조(Dauphinee, 2020)와 비교되었습니다. 의학교육자들이 학생과의 평가 관계에 대해 이야기할 때 은유적 언어가 점점 더 일반화되고 있으며(Rees 등, 2009), 피드백과 평가의 분리는 운전 수업과 운전 시험의 구분과 비교되고 있습니다(Brand 등, 2021). 우리는 또한 은유적 언어가 의학교육을 넘어 교육 평가(예: '군비 경쟁'으로서의 평가)에 더 일반적으로 사용되고 있으며(Bearman & Ajjawi, 2021; Harland & Wald, 2021), 의학에서도 은유적 언어가 사용되고 있음을 주목하고 있습니다(Isaacs & Priesz, 2021). 
Although this topic has applicability beyond the context of assessment, we focus our attention on the use and application of metaphor specifically in assessment contexts in the health professions because we have noticed a marked increase of the application of metaphors in recent years. Programmatic assessment in particular has given rise to many analogies over the past few years, such as between healthcare and programmatic assessment (Schuwirth et al., 2017), the process of joining a choir (Uijtdehaage & Schuwirth, 2018, p. 350), decision-making in jury trials (Tweed & Wilkinson, 2019), and thinking of programmatic assessment as a drug in a trial phase (Wilkinson & Tweed, 2018, p. 191). Assessment design in the health professions has been compared with cocktails and symphonies (Al-Kadri, 2015) and the design and building of sailing ships (Dauphinee, 2020). Metaphorical language is increasingly common in medical educators’ talk about their assessment relationships with students (Rees et al., 2009) and the separation of feedback and assessment has been compared with the distinction between driving lessons and driving tests (Brand et al., 2021). We are also noticing metaphorical language being deployed in educational assessment more generally (such as assessment as an ‘arms race’), outside of medical education (Bearman & Ajjawi, 2021; Harland & Wald, 2021), as well as its use in medical science (Isaacs & Priesz, 2021).

언어가 의미를 전달하는 데 중요한 역할을 하기 때문에 사람들이 은유적 언어에 반응하고, 받아들이고, 사용하는 방식과 관련하여 시간이 지남에 따라 일어난 변화를 생각해 볼 필요가 있습니다. 현재의 사용과는 완전히 대조적으로, 1955년 철학자 맥스 블랙의 에세이는 은유를 사용하는 철학자를 경시하는 경향에 대해 언급하면서 은유는 논증이 아니라는 점을 지적했습니다: "은유에 대한 중독은 은유적으로만 말할 수 있는 곳에서는 전혀 말하지 말아야 한다는 원칙에 따라 불법으로 간주됩니다."(Black, 1955). 1955년 블랙의 생각은 언어를 설명의 수단으로 사용하고 난독화에 반대하는 분석철학 전통의 추진력과 일치합니다. 당시에는 언어를 신중하고 정확하게 사용하는 것이 의도한 의미에 도달하는 가장 좋은 방법이라는 생각이었습니다. 이러한 관점에서 볼 때 문자 그대로의 언어는 의미를 더 투명하게 만드는 데 도움이 됩니다. 이러한 입장은 비트겐슈타인과 같은 철학자들에 의해 도전받았는데, 비트겐슈타인은 말의 의미를 파악하기 위해서는 단어가 어떻게 사용되는지 살펴봐야 한다고 주장했습니다(Wittgenstein, 2009). 그리고 더 근본적으로는 의미를 생성하는 것은 언어 그 자체라고 주장한 데리다(Derrida, 1974)도 있습니다. 이러한 질문은 해석과 의미의 문제를 다루는 철학의 하위 분야인 해석학의 심오한 질문으로, 은유의 사용을 살펴볼 수 있는 렌즈를 제공합니다. 
Because of the role language plays in conveying meaning, it is worth reflecting on the shifts that have occurred over time in relation to the way people react to, accept and use metaphorical language. In stark contrast to current usage, a 1955 essay by philosopher Max Black remarked on the tendency to belittle philosophers for using metaphor, also noting that metaphors are not arguments: “Addiction to metaphor is held to be illicit, on the principle that whereof one can speak only metaphorically, thereof one ought not to speak at all” (Black, 1955). Black’s thinking in 1955 aligns with the drive in the analytic philosophical tradition that wanted to use language as a means of clarification, rallying against obfuscation. The idea here was that language, used carefully and with precision was the best way to get to intended meaning. From this perspective, literal language helps make meaning more transparent. This position was challenged by philosophers such as Wittgenstein in his later work (Wittgenstein, 2009), who claimed that to get at the meaning of words we need to look at how they are used. And more radically, by Derrida (Derrida, 1974), who argues that it is language itself which generates meaning. These are deep questions in hermeneutics – a sub-branch of philosophy that deals with issues of interpretation and meaning – which provide lenses through which we can examine the use of metaphors.

이러한 이론적 논쟁에도 불구하고, 최근 우리 학계의 학술 활동을 보면 은유의 명성이 회복되고 있는 것으로 보입니다(Regehr, 2010; Rodgers, 2016; Tate, 2020). 이 논문 작업을 처음 시작했을 때 가장 최근호인 의학교육(55권 8호, 2021년 8월)에는 제목에 늑대, 벽돌과 박격포, 곡물, 바 등 은유가 명백하게 사용된 논문이 6편이나 실렸습니다. 분명히 은유는 교육에서 어디에나 존재하며 다양한 방식으로 자리 잡고 있습니다. 은유적 언어는 단순히 장식적인 것으로 여겨지기보다는 지적 활동에 거의 필수적인 요소가 되었습니다. 라코프와 존슨의 1980년 저서 『우리는 은유로 산다』는 "은유적 사고는 의식적이든 무의식적이든 우리의 정신 생활에서 정상적이고 보편적인 것"임을 입증했습니다(Lakoff & Johnson, 2003, 244쪽). 우리의 개념 체계는 본질적으로 은유적입니다. 우리는 은유를 통해 추론하고 추론하며, 우리가 사용하는 은유는 우리가 세상을 해석하는 방식에 영향을 미칩니다. 
Regardless of these theoretical disputes, to judge from recent scholarly activity in our discipline, metaphor’s reputation has been well and truly restored (Regehr, 2010; Rodgers, 2016; Tate, 2020). When we initially began working on this paper, the most recent issue of Medical Education (Vol. 55, No. 8, August 2021) contained six articles with overt metaphors in their title (such as wolves, bricks and mortar, grains, bars…). Clearly metaphors are ubiquitous in education, and are entrenched in manifold ways. Rather than being seen as merely decorative, metaphorical language has become almost essential to intellectual activity. Lakoff and Johnson’s seminal 1980 Metaphors We Live By demonstrated that “metaphorical thought is normal and ubiquitous in our mental life, both conscious and unconscious” (Lakoff & Johnson, 2003, p. 244). Our conceptual systems are fundamentally metaphorical in nature. We reason and infer in terms of metaphor, and the metaphors we use impact how we interpret the world.

은유적 언어가 널리 퍼져 있으며 사고의 중심적인 역할을 한다는 Lakoff와 Johnson의 주장에 동의합니다. 예를 들어, 과학은 물리적 과정에서 의미를 만들기 위해 은유를 사용해 온 오랜 역사를 가지고 있습니다(Brown, 2003; Hesse, 1965). Bleakley는 의학 연구도 다르지 않으며, 특히 의학 언어는 "은유에 젖어 있고 은유로 사고하는 것이 진단 작업의 중심"이므로 은유는 우리가 적극적으로 수용해야 하는 언어의 "생명선"이라고 주장합니다(Bleakley, 2017). 그는 의학이 전통적으로 두 가지 은유, 즉 전쟁으로서의 의학(그리고 질병은 전투)과 기계로서의 신체라는 두 가지 은유에 의해 지배되어 왔다고 생각합니다. 이러한 은유는 매우 영향력이 커서 우리는 그것이 비문자적이라는 사실을 거의 잊어버립니다. 의학의 은유는 "삶과 죽음은 대중문화에서 반복되는 주제이며 관련 은유가 풍부"하기 때문에 우리의 상상력을 분명하게 사로잡습니다(Kirklin, 2001). 은유는 의학교육과 임상 교육에서도 일상적으로 사용되며(Masukume & Zumla, 2012), 종종 직관적이고 교육자의 공감을 불러일으킵니다. 평가도 이 점에서 다르지 않은 것으로 보입니다. 
We agree with Lakoff and Johnson that metaphorical language is pervasive and plays a central role in thinking. The sciences, for example, have a long history of using metaphors to make meaning from physical processes (Brown, 2003; Hesse, 1965). Bleakley argues that the study of medicine is no different and that metaphor is the “lifeblood” of language that we should actively embrace, especially as medical language is “soaked in metaphor, and thinking with metaphor is central to diagnostic work” (Bleakley, 2017). He regards medicine as traditionally dominated by two metaphors in particular: medicine as war (and illness a battle), and the body as machine. These lenses are so influential that we almost forget they are non-literal. Metaphors in medicine clearly capture our imagination, perhaps due to the fact that “life and death are recurrent themes in popular culture and related metaphors abound” (Kirklin, 2001). Metaphors are also routinely part of medical education and clinical teaching (Masukume & Zumla, 2012), are often intuitive and resonate with educators. And assessment appears to be no different in this regard.

방법론적 접근
Our methodological approach

이 주제를 보다 심도 있게 탐구하기 위해서는 먼저 특정 은유(비유를 포함)와 비유적 언어(비유적 언어를 말이나 글에 사용하는 것)로 더 잘 설명되는 은유적 언어의 광범위한 현상을 구분할 필요가 있습니다. 이 백서 전반에 걸쳐 사용된 이러한 언어는 일반적으로 독자를 '끌어들이는' 수사적 기능을 합니다. 예를 들어, 제목은 니체의 초기(1874년) 에세이 중 하나인 "삶을 위한 역사의 사용과 남용에 관하여"(니체, 2007)에 대한 경의를 표합니다. 삶을 위한 역사의 유용성에 대한 니체의 비판을 통해 우리는 평가 연구 및 실무에서 은유의 유용성/장점 및 잠재적 위험/단점을 모두 조사하고자 합니다. 여기서 우리가 문제 삼고자 하는 것 중 하나는 은유가 충분한 의미를 전달하고, 어떻게든 자명하게 정당하며, 반드시 이해를 증진시키거나 사고의 미묘한 탐구를 이끌어낸다는 개념입니다. 우리는 일반적으로 비유적 언어의 사용에 대해 비판적이지는 않지만(실제로 우리 자신도 의미를 전달하기 위해 지속적으로 비유적 언어에 의존하고 있습니다), 보건 전문직의 평가에서 은유가 너무 자주 무비판적으로 수용되어 의도하지 않거나 고려하지 않은 의미가 문제의 개념에 '스며들' 위험이 있다는 우려에 동기를 부여받았습니다. 그렇지 않더라도 평가에서 은유의 가치에 대한 이러한 비판은 시의적절하다고 생각합니다.

To probe the topic in greater depth, we need to first make an important distinction between specific metaphors (which include analogies) and the broader phenomenon of metaphorical language, perhaps better described as tropological language – the use of figurative language in speech or writing. Such language, as utilised by us throughout this paper, typically ‘hooks in’ readers and has a rhetorical function. For instance, our title pays homage to one of Nietzsche’s early (1874) essays “On the use and abuse of history for life” (Nietzsche, 2007). Channelling Nietzsche’s critique of the utility of history to serve life, we aim to interrogate both the usefulness/benefits and potential dangers/disadvantages of metaphor in the service of assessment research and practice. Part of what we want to problematize here is the notion that metaphors convey sufficient meaning, are somehow self-evidently legitimate, necessarily advance understanding or elicit nuanced exploration in thought. Although we are not critical of the use of tropological language in general (indeed, we continually rely on it ourselves to convey meaning), we are motivated by a concern that metaphors are too often accepted uncritically in assessment in the health professions, with the risk that unintended or unconsidered meanings ‘seep into’ the concept in question. Even if this is not the case, we believe that such a critique of the value of metaphor in assessment is timely.

이 논문에서 우리는 의학교육에서 은유를 사용할 때, 특히 평가와 관련하여 은유의 역할, 기여도, 이점 및 한계에 대해 신중한 주의가 필요하다는 점을 설득력 있게 제시하고자 합니다. 요컨대, 우리는 은유 사용에 대한 비판적 관점을 요구합니다. 보노가 은유가 기능하는 방식에서 어떻게 생성적이고 변형적인지 설명한 것처럼(Bono, 1990), 우리는 모든 은유가 잠재적으로 조명과 오해를 불러일으킬 수 있는 효과를 가지고 있다고 주장합니다. 즉, 은유는 사고와 행동을 형성하고 기대, 신념, 문화, 담론을 변화시킬 수 있습니다(Elmore & Luna-Lucero, 2017; Thibodeau et al., 2017). 따라서 은유의 힘 - 은유적 담론은 은유적 언어가 의미를 변화시키는 능력과 거래합니다(Bono, 1990, 73쪽; Lakoff & Johnson 2003). 은유는 사람들이 사물을 이해하는 데 도움이 될 수 있으며('설명'에 사용될 때), 개념이나 문제를 생산적으로 복잡하게 만들기 위해 사용될 수도 있습니다('탐구'에 사용될 때). 하지만 은유는 모호하게 만들 수도 있습니다. 다섯 가지 구체적인 은유를 실제로 풀어봄으로써 평가 연구와 실무를 발전시키는 데 도움이 될 만한 인사이트를 도출합니다. 
In this paper, we make attempts to offer a compelling indication that the use of metaphors in medical education, particularly in reference to assessment, require careful attention with respect to their role, contributions, benefits and limitations. In short, we call for a critical perspective on the use of metaphors. Just as Bono elucidates how metaphors are both generative and transformative in the way that they function (Bono, 1990), so do we argue that every metaphor has potentially illuminating and misleading effects. That is, metaphors can shape thought and behaviour, shift expectations, beliefs, cultures and discourses (Elmore & Luna-Lucero, 2017; Thibodeau et al., 2017). Hence the power of metaphor – metaphorical discourse trades on the capacity of metaphorical language to shift meaning (Bono, 1990, p. 73; Lakoff & Johnson 2003). Metaphors can help people make sense of things (when used to ‘explain’), and they can also be used in order to productively complexify a notion or issue (when used to ‘explore’). But they can also obscure. By unpacking five specific metaphors in action, we draw out insights that we hope will help advance assessment research and practice.

특정 은유가 평가에 어떻게 사용되는지 조사하여 평가 이론과 실무에 어떤 가치를 더하는지 살펴봅니다. 이 설명적 분석에서는 각 은유의 근거와 기능, 각 은유가 가져다주는 이득을 조사하고 각 은유가 의도하지 않은 결과나 손실을 가져올 수 있는지 여부를 탐구합니다. 다시 한 번 강조하지만, 우리는 평가에서 일반적으로 사용되는 비유적 언어가 아니라 보건 전문직에서 사용되는 특정 평가 비유를 조사합니다. 여기서 은유란 평가 설계자 또는 사용자가 진행하는 방식에 영향을 미치는 휴리스틱 또는 사고 도구로 배포된 은유를 의미합니다. 은유의 유용성에 대한 유형을 제안함으로써 은유의 잠재적 장단점을 논의하는 것으로 마무리합니다. 
We proceed by interrogating how specific metaphors are used in assessment to consider what value they add to assessment theory and practice. In this descriptive analysis, we probe each metaphor’s rationale and function, the gains each metaphor makes, and explore whether each may carry unintended consequences or losses. Again, we are not examining tropological language in assessment in general, but rather, specific assessment metaphors in action in the health professions. By this, we mean metaphors deployed as heuristics or thinking tools with implications for how assessment designers or users proceed. We conclude by discussing the potential advantages and disadvantages of metaphors in action by proposing a typology of their utility.

이것은 사용 가능한 모든 은유에 대한 완전한 연구가 아니며, 다른 사람들이 더 체계적인 연구를 수행하도록 권장합니다. 저희의 접근 방식은 은유가 어떻게 사용되고 기능하는지에 대한 경험적 연구와 더 많은 성찰을 자극하는 방법이라고 생각합니다. 저희는 이 작업을 '성찰'로 시작했습니다. 시간이 지남에 따라 작업이 발전하면서 주제에 접근하는 방식을 명확히 하는 것이 중요하다는 것을 알게 되었습니다. 사실, 성찰은 방법론적 토대와 반대되는 개념이 아닙니다. 우리의 의도는 주로 문제를 제기하고 은유를 비평하는 것의 가치를 입증하는 것입니다. 이 다섯 가지를 선정한 이유는 주로 평가 담론에서 지배적이기 때문입니다. 우리의 접근 방식은 전반적으로 비판하는 것이 아니라 이러한 사례를 활용하여 은유 사용의 함의를 강조하는 것입니다. 이 다섯 가지 사례는 간략하게 해체하면 그 가치를 강화하는 동시에 다른 잠재적 문제도 제기할 수 있습니다. 따라서 이러한 사례는 평가 맥락에서 은유를 적용할 때의 다양한 장점과 잠재적인 단점을 설명하는 데 도움이 됩니다. 여기서 '잠재적'이라고 표현한 이유는 은유가 잘못되었다는 발표된 증거가 거의 없기 때문입니다. 문헌에 이러한 사례가 없음에도 불구하고 실제로 문제가 발생하는 것을 목격했다는 사실은 주의가 필요한 실제 문제를 말해줍니다. 출판된 증거가 부족함에도 불구하고 이 잘 설명되지 않은 문제에 의도적으로 초점을 맞추면 보건 전문직 교육의 중요한 측면을 조명할 수 있습니다(Paton 외., 2021). 
This is by no means an exhaustive study of all the metaphors available, and we encourage others to conduct more systematic studies. We see our approach as a way of stimulating empirical work and further reflections on how metaphors are used and function. We began working on this piece as a ‘reflection’. As our work developed over time, we saw it important to articulate how we approached the topic. Indeed, a reflection is not antithetical to a methodological underpinning. Our intention is primarily to raise the issue and demonstrate the value in critiquing metaphors. We have selected these five mainly due to their dominance in assessment discourse. Our approach is not to critique overall, but to leverage these examples to highlight implications of metaphor use. We found these five amenable to a brief deconstruction that reinforced some of their value but also raised other potential issues. As such, they serve to elucidate different advantages and potential disadvantages of applying metaphors in assessment contexts. We say ‘potential’, as there is scant published evidence of metaphors going wrong. Despite this absence in the literature, the fact that we have seen problems arise in practice speaks to a real issue requiring attention. Deliberately focusing on this under-described issue, despite the lack of published evidence, can still shed light on this important aspect of health professions education (Paton et al., 2021).

구체적인 평가 은유를 실제로 살펴보기
Examining specific assessment metaphors in action

예 1 - 픽셀 은유
Example 1 – The pixel metaphor

단일 픽셀 이미지가 픽셀이 증가함에 따라 점차 해상도가 높아져 모나리자를 보여주는 한 가지 평가 은유가 현재 평가계에서 일반화되어 있습니다(van der Vleuten et al., 2017). 이는 특정 은유가 사고 도구로 활용되는 예시이며, 더 많은 데이터 포인트가 더 나은 역량 측정과 동일하거나 더 많은 평가 방법이 더 나은 그림을 제공하거나 더 많은 평가자 특유의 판단이 그림을 완성한다는 개념에 기반합니다... 이 은유는 널리 적용 가능하며 샘플링의 복잡성을 간단한 방식으로 제시하고 새로운 통찰력과 이해에 도달하는 데 유용했습니다(Pearce et al., 2021). 예를 들어, 픽셀 은유는 다중 및 표적 샘플링 평가에서 중요한 개념을 촉진하는 것과 함께 학습자의 역량을 '인식'했다고 생각하면 데이터 포화 상태에 도달하여 샘플링이 충분히 이루어졌다는 것을 암시할 수도 있습니다. 더 이상의 '픽셀'은 불필요하며 우리가 이미 알고 있는 것을 알려줄 뿐입니다. 
One assessment metaphor is now common in assessment circles – a single-pixel image becomes progressively more resolved with increasing pixels to show the Mona Lisa (van der Vleuten et al., 2017). This is an exemplar of a specific metaphor being deployed as a thinking tool, and it hinges on the notion that more datapoints equate to a better measure of competence, or more methods of assessment give a better picture, or more rater idiosyncratic judgments complete the picture… This metaphor has widespread applicability, suggests the complexities of sampling in a simple way, and has been useful in helping reach new insights and understanding (Pearce et al., 2021). For instance, along with promoting the important concept in assessment of multiple and targeted sampling, the pixel metaphor could also suggest that once we think we ‘recognise’ the competence of the learner, we have reached data saturation and have sampled enough. Further ‘pixels’ are redundant and just tell us what we already know.

하지만 비판적인 관점에서 볼 때, 프로그래밍 방식에는 픽셀 은유로 인해 가려질 수 있는 몇 가지 뉘앙스가 내재되어 있으며, 특히 은유가 다른 방향으로 취해지는 경우 더욱 그렇습니다. 예를 들어, 모나리자처럼 보이는 것이 잘 실행된 모사본으로 판명되면 어떻게 될까요(즉, 학습자가 표면적으로는 유능해 보이지만 진정한 이해가 부족한 것처럼 보일 정도로 충분히 연습한 경우)? 아니면 초기의 다소 거친 원본 버전(학습자의 실력이 현재 학습 단계에 맞게 충분히 발전하고 있음)인가요? 특이한 평가자 데이터를 결합하는 것이 측정 구성을 만족시킨다는 개념에 이의를 제기하는 문헌도 있습니다(Gingerich 외., 2014; Sherbino 외., 2013; Tavares 외., 2016). 실제로 이 은유는 (프로그램적 평가 자체가 구성주의적 접근 방식과 일치함에도 불구하고) '진정한' 이미지가 발견되거나 발견되기 때문에 포스트 실증주의적 사고에 근거한 것으로 보입니다. 다른 곳에서도 언급했듯이(Pearce & Tavares, 2021), 픽셀(데이터) 포화도에 도달하면 이미지가 고정되는 경향이 있기 때문에 의사 결정에 편향성을 초래할 수 있습니다. 따라서 이 은유는 샘플링을 신뢰성 또는 삼각 측량으로 보는 입장에 영향을 미치는 기본 전제와 같이 논쟁의 여지가 있는 중요한 철학적 문제를 잠재적으로 모호하게 만들 수 있습니다. 우리는 이를 암묵적인 철학적 가정이 은유를 해석하는 방식에 어떤 영향을 미치는지 보여주는 예로 제시합니다(Tavares et al., 2020a, b). 픽셀 은유는 샘플링과 관련된 문제를 단순화하는 데 도움이 되고 직관적으로 매력적이지만, 이 은유를 지나치게 강조하거나 신중한 검토 없이 채택하면 프로그래밍 평가에 내재된 일부 복잡성을 잃을 수 있습니다. 
From a critical perspective though, there are several nuances inherent in a programmatic approach that may become obscured as a result of the pixel metaphor, especially if the metaphor is taken in different directions. For example, what if what looks like the Mona Lisa turns out to be a well-executed copy (i.e., the learner has practiced sufficiently to appear superficially competent but lacks genuine understanding)? Or an early and somewhat rough version of the original (the learner’s skills are developing well enough for the current stage of learning)? There is also literature that challenges the notion that combining idiosyncratic rater data satisfies a measurement construct (Gingerich et al., 2014; Sherbino et al., 2013; Tavares et al., 2016). Indeed, the metaphor seems grounded in post-positivist thinking, as the “true” image is uncovered or discovered (despite programmatic assessment itself aligning with a constructivist approach). As we have noted elsewhere (Pearce & Tavares, 2021), this may result in a propensity for bias in decision-making, as images tend to become fixed once pixel (data) saturation is reached. The metaphor can thus potentially obscure important philosophical issues that are contested, such as the way underlying presuppositions influencing positions on sampling as reliability or sampling as triangulation. We offer this as an example of how implicit philosophical assumptions colour the way the metaphor is interpreted (Tavares et al., 2020a, b). Although the pixel metaphor has helped to simplify issues related to sampling and is intuitively appealing, some of the intricacies inherent in programmatic assessment may be lost if this metaphor is over-emphasized or adopted without careful examination.

예 2 - 운전 강습과 운전 시험 비교
Example 2 – Driving lesson vs. driving test

이 비유는 최근에야 보건 전문직 평가 문헌에서 등장했습니다(Brand et al., 2021). 이 아이디어는 대부분의 사람들이 쉽게 이해할 수 있으며, 직관적인 매력으로 인해 빠르게 자리 잡을 것으로 예상됩니다. 이 비유는 평가와 피드백이 혼동될 때, 즉 감독자와 학습자가 총체적 평가와 피드백을 혼동할 때 어떤 일이 일어나는지 보여주기 위한 것입니다. 저자들은 학습자가 평가를 시험으로 간주하면 피드백을 받아들이지 않는다고 가정합니다. 시험 모드에서는 시험에 합격하여 운전면허를 취득할지 여부에만 관심을 갖습니다. 그러나 학습자가 평가 과제를 운전 강습과 같이 접근하면 학습 모드에 있으며, 구체적인 피드백을 수용하고 종종 찾게 됩니다. 거의 모든 성인이 운전 강습과 운전 시험의 차이에 공감할 수 있기 때문에 이 비유는 매우 효과적입니다. 이 비유는 평가와 평가 과제에 대한 접근 방식 및 경험에 대한 대화의 방향을 전환하는 데 도움이 될 수 있으므로 교수자 개발에 매우 유용할 수 있습니다.
This metaphor has only recently emerged in the health professions assessment literature (Brand et al., 2021). The idea is easy for most to appreciate, and one which we believe will quickly take hold due to its intuitive appeal. The metaphor intends to show what happens when assessment and feedback are confused; when supervisors and learners mix up summative assessment and feedback. The authors posit that when learners view an assessment as a test, it renders them unreceptive to feedback. In exam mode, all they care about is whether they pass the test and get their driver’s license. But if learners approach an assessment task like a driving lesson, they are in learning mode, and they are receptive to and often looking for specific feedback. This metaphor is powerful, because practically every adult can relate to the difference in experiencing a driving lesson versus a driving test. It may help re-orient conversations around assessment, and approaches to and experiences of an assessment task, and is thus potentially highly useful in faculty development.

우리는 저자들이 이 은유의 가치를 신중하게 고려한 것을 지지하며, 그러한 주의 없이 이 은유를 사용하는 것은 바람직하지 않습니다. 저자들은 "은유의 유용성"에 대해 세 단락을 할애하여 논의하며 은유의 유용성은 은유의 인식에 있다고 말합니다. 또한 "의사를 혼란스럽고 짜증나게 할 수 있는 복잡한 교육 전문 용어에 의존하지 않고도" 시험과 학습 모드의 차이를 명확히 설명할 수 있다는 점을 주요 장점으로 꼽으며, 이러한 실용적인 이점은 분명 높이 평가합니다. 그러나 저자가 이 은유를 사용할 때 발생할 수 있는 다른 잠재적 위험은 저자가 설명하지 않았습니다. 예를 들어, 둘 중 하나만 제시하는 방식은 모든 평가가 형성적 또는 총괄적 평가라는 평가에 만연한 이분법/극단을 강화할 수 있습니다(Govaerts et al., 2019). 또한 운전면허 시험이 중요한 전부라고 받아들일 경우 시험의 지속적인 헤게모니를 영속화할 수 있습니다(Pearce & Prideaux, 2019). 여기에는 은유에 가려질 수 있는 심오한 철학적 문제에서 비롯된 다양한 견해가 있습니다. 또한 평가와 피드백이 동시에 상호 강화적인 방식으로 이루어질 수 있는 가능성에 대한 사고와 인식을 제한하거나 차단할 수도 있습니다. 우리 중 한 사람은 사건 발생 후 수십 년이 지난 후 운전면허 시험에 합격한 후 평가자가 제공한 유용한 구체적인 피드백을 기억하고 있으며, 이는 평가와 피드백이 어떤 상황에서는 공존할 수 있음을 보여줍니다. 저자들은 이러한 뉘앙스뿐만 아니라 이 비유가 한 가지 목적에는 잘 부합하지만 의도하지 않은 방식으로 평가에 대한 관념을 영속화할 수 있다는 점도 잘 알고 있을 것으로 생각합니다. 이 글의 의도는 형성적 평가와 총괄적 평가를 혼용하는 것의 장점에 대해 토론하는 것이 아니라, 이 비유를 실제로 사용할 때 발생하는 함의를 강조하는 것입니다. 
We endorse the authors’ careful consideration of the value of the metaphor, rather than just employing it without such care. They devote three paragraphs discussing “the usefulness of the metaphor” and note its utility lies in its recognition. Further, they see its main advantage as elucidating the difference between exam and learning mode “without having to resort to complex educational jargon that may confuse and irritate physicians” – a pragmatic benefit that we certainly appreciate. However, there are other potential risks that could emerge from the use of this metaphor that are not explored by the authors. For instance, the either/or presentation may reinforce prevailing dichotomies/polarities in assessment (Govaerts et al., 2019), such as all assessment being either formative or summative. It also may perpetuate the persistent hegemony of examinations (Pearce & Prideaux, 2019) if we accept that the driving test is all that matters. There are differing views here stemming from deep philosophical issues which may be obscured by the metaphor. It may also limit or shutdown more nuanced thinking and appreciation of the possibility of assessment and feedback occurring simultaneously and in a mutually reinforcing way. One of us specifically remembers useful specific feedback given by the assessor after his driving test (which he passed… just) many decades after the incident, illustrating that assessment and feedback can co-exist in some circumstances. We assume the authors appreciate this nuance, but also how the metaphor – while serving one purpose well – may perpetuate notions about assessment in unintended ways. Our intention here is not to debate the merits of blurring formative and summative assessment, but to highlight the implications that arise from using this metaphor in action.

예 3 - 배심원단의 증거 심의
Example 3 – Jury deliberations of evidence

역량 위원회는 평가 정보를 검토하고 학생의 진도에 대한 중대한 결정을 내리는 임무를 맡고 있습니다. 그룹이 정보에 입각하여 방어 가능한 결정을 내릴 수 있도록 신뢰할 수 있는 증거의 필요성과 '편견'(그룹 환경에서 증폭되거나 약화될 수 있음)의 위협에 관한 많은 문헌이 있습니다. 트위드와 윌킨슨은 배심원이 중요한 집단 결정을 내리는 것에 대해 논의하고, 배심원 및/또는 배심원의 의사 결정, 편견, 오류와 관련된 법과 심리학의 연구를 활용합니다(트위드 & 윌킨슨, 2019). 또한 배심원의 관용과 의학 교육에서 잘 알려진 'failure to fail'의 비교와 같은 흥미로운 유사점을 제시합니다. 배심원단은 일반적으로 다양한 형태의 증거를 검토하고 다양한 유형의 정보에 질적으로 가중치를 부여해야 합니다. 배심원단의 결과는 유죄/무죄로 이분법적으로 나뉘며, 이는 의학 수련생의 진급 결정(합격/불합격, 펠로우십 수여 여부)과 유사합니다. 배심원 은유는 대부분의 사람들이 이해하는 일반적인 용어를 채택하고 역량 위원회의 일부 개념에 대한 새로운 관점을 통합합니다. 이는 역량 위원회 구성원이 프로세스에서 자신이 수행하는 역할을 인식하고 잠재적으로 일부 방어성 문제를 완화하는 데 도움이 될 수 있는 흥미로운 휴리스틱입니다. 
Competence committees are tasked with reviewing assessment information and making high-stakes decisions about student progress. There is much literature on the need for credible evidence to allow groups to make informed and defensible decisions, and the threat of ‘biases’ (that can be either amplified or attenuated in a group setting). Tweed and Wilkinson discuss the idea of a jury making a high-stakes group decision, and draw on research from law and psychology relating to decision-making, biases, and errors by jurors and/or juries (Tweed & Wilkinson, 2019). They also present interesting parallels, such as the comparison between jury leniency and the well-known ‘failure to fail’ in medical education. Juries must typically review a range of different forms of evidence and qualitatively give weight to different types of information. The outcome is dichotomous (guilty/not guilty) and analogous to high-stakes progression decisions for medical trainees (pass/fail, award fellowship or not). The jury metaphor adopts a common vernacular that most people understand, and incorporates a fresh perspective on some concepts for competence committees. It is an interesting heuristic that may help members of the competence committee appreciate the role that they are playing in the process, and potentially alleviate some defensibility concerns.

이 은유의 기능과 관련 이점은 사람들이 증거에 기반한 심의 과정을 이해하는 데 도움이 된다는 점에서 분명합니다. 저자들은 이 아이디어에 대한 합의 부족, 역량과 관련하여 입증 책임이 어디에 있어야 하는지(예: 역량이 입증될 때까지 학생의 무능력을 추정하는 것으로 합의) 등 여러 가지 걸림돌이 있을 수 있다고 예상합니다. 그러나 위원회 위원들이 이 아이디어를 너무 멀리 받아들이면 문제가 될 수 있습니다. 배심원단은 수사나 추측에 휘둘려 중요한 증거를 실수로 놓치거나, 선입견을 무시하거나, 학생을 강력하게 옹호하는 사람에게 지나치게 휘둘릴 수 있습니다. 또한 배심원 평결에는 역량 개발에는 적용되지 않는 최종성이 있습니다. 유죄 평결은 번복되지 않는 한 영원히 지속되는 낙인이며, '불합격' 결정은 개선 피드백과 지원이 수반되는 일시적인 시점의 판단입니다(또는 그래야 합니다). 이는 은유의 장점으로 보일 수 있지만, 오해의 소지가 있고 비생산적일 수 있다는 주장도 제기될 수 있습니다. 또한 위원회가 동료가 아닌 전문가로만 구성되므로, 피고는 배심원 선정에 대한 우려가 있을 수 있습니다. 배심원단은 암묵적인 편견과 검증되지 않은 철학적 관점을 가지고 있을 수 있으며, 이는 상충될 수 있어 편향적인 결과를 초래할 수 있습니다. 전반적으로 이 비유는 이러한 심층적인 문제를 명시적으로 고려하는 한 교수진 개발에 도움이 될 수 있는 것 같습니다. 
The function of this metaphor and its associated gains is clear in helping people understand a process of deliberation based on evidence. The authors anticipate a number of possible stumbling blocks to the idea, such as dealing with lack of consensus, and where the burden of proof should lie with respect to competence (e.g., settling on assuming student incompetence until competence is proven). But we wonder whether there are troubling implications if committee members take this idea too far. Juries can be won over by rhetoric or conjecture – they may inadvertently miss important evidence, ignore precent, or be overly swayed by a strong advocate for the student. There is also a finality to jury verdicts that doesn’t seem applicable to competency development. A guilty verdict lasts forever, a stigma someone carries with them for life, unless it is overturned; a ‘fail’ decision is (or should be) a temporary point-in-time judgement that would be accompanied by remedial feedback and support. This may be seen as an advantage of the metaphor, but it could be argued that it has the potential to become misleading and counterproductive. There may also be concerns around juror selection by the defendant, as the committee is made up only of experts rather than peers. The jury may have implicit biases and unexamined philosophical perspectives that could be in conflict, leading to tendentious outcomes. Overall, this metaphor seems like it could be helpful for faculty development, as long as these deeper issues are explicitly attended to.

예 4 - 신호 처리
Example 4 – Signal processing

다음 예는 좀 더 심리 측정적인 관점이기는 하지만 평가의 타당도와도 관련이 있습니다. 최근 교육 측정 저널에 실린 논문에서 뉴턴은 20세기 후반 메시크가 타당도에 대해 연구한 두 가지 타당도 개념, 즉 구성-무관 분산구성 과소대표를 활용합니다(Newton, 2020). 이들은 독자가 특정 영역에서 학습의 실제 숙련도를 생각하도록 독려하는 신호 처리 은유를 사용하며, 평가 과정에는 해당 숙련도에 관한 정보를 이끌어내고, 전달하고, 수신하는 과정이 포함된다는 점을 인식하도록 합니다. 시험 구성 및 수행 기반 평가에 종사하는 사람은 구성과 무관한 분산과 구성 과소 대표성으로 인해 발생하는 타당도 위협을 이해합니다. 신호 처리 은유는 이러한 개념을 신호 오염신호 결핍으로 생각할 수 있다는 점을 강조하며, 두 개념 모두 잠재적으로 더 친숙한 개념입니다. 이 논문은 복잡한 타당도 문제를 처음 설명할 때보다 더 명확하고 포괄적으로 풀어내고, 타당도에 대한 연구와 실무를 발전시킬 수 있는 프레임워크를 제공하는 것을 목표로 합니다. 

The next example also relates to validity in assessment, albeit from a more psychometric perspective. In a recent paper in an educational measurement journal, Newton draws on two validity concepts from Messick’s late 20th century work on validity – construct-irrelevant variance and construct underrepresentation (Newton, 2020). They use a signal processing metaphor encouraging readers to think of the actual level of proficiency of learning in a particular domain, and recognise that the process of assessment involves eliciting, transmitting, and receiving information concerning that level of proficiency. Those who work in test-construction and performance-based assessments will understand the validity threats that arise with construct-irrelevant variance and construct underrepresentation. The signal processing metaphor emphasizes that these notions can be thought of as signal contamination and signal deficiency, both potentially more familiar concepts. The paper aims to unpack the complex validity issues more clearly and comprehensively than their initial articulation, and provides a framework to advance research and practice on validity.

뉴턴의 글은 은유가 명확성, 포괄성, 새롭고 흥미로운 연구 및 분석 방법을 창출하는 데 도움이 되는 사고 도구라는 점을 주의 깊게 설명합니다. 하지만 이 은유에 수반되는 잠재적 위험은 무엇일까요? 뉴턴은 포스트 실증주의적 사고에 기반한 측정 패러다임 내에서 평가 문제에 분명히 대응하고 있습니다. 이 은유는 역량과 평가를 특정 맥락에서 구성되는 것이 아니라 내재적이고 객관적인 것으로 취급합니다. '오염'이라는 개념은 상황에 따라 달라지는 것이 아니라 평가자가 노력해야 하는 '순수한' 버전을 가정합니다. 신호 오염과 결핍은 분명 중요한 의사 선발 시험에서 고려할 가치가 있는 문제이지만, 평가의 목적이 학생의 학습을 개선하는 것이거나 다른 철학적 관점에서 볼 때는 관련성이 떨어집니다. 우리는 이 비유를 평가하려는 것이 아니라, 이 비유가 어떻게 해석될 수 있는지, 그리고 이것이 평가 관행에 어떤 영향을 미칠 수 있는지 알아보고자 합니다. 이 비유는 다른 많은 비유와 마찬가지로 특정 평가 상황에서만 유용할 수 있으며, 모든 평가에 이 비유를 광범위하게 적용하는 것은 문제가 될 수 있습니다. 
Newton’s article carefully outlines how the metaphor is a thinking tool that helps us in terms of clarity, comprehensiveness, and in generating new and interesting avenues of research and analysis. But what are the potential risks that come with this metaphor? Newton is clearly responding to assessment issues from within a measurement paradigm, and one that is built on post-positivist thinking. The metaphor treats competence and assessment as intrinsic and objective, not constructed within a specific context. The notion of ‘contamination’ assumes a ‘pure’ version that assessors must strive for, rather than being situational. Signal contamination and deficiency is certainly an issue worth considering in high-stakes medical selection examinations, but it is less relevant when the purpose of assessment is to improve student learning or when viewed from another philosophical position. We are not intending to evaluate this metaphor, only to draw out how it may be interpreted and what implications this may have for assessment practice. This metaphor is likely to be useful, like many, but only in certain assessment contexts – and the application of it more widely to all assessment would be problematic.

예 5 - 도구 상자로서의 평가
Example 5 – Assessment as a toolbox

마지막으로 살펴보고자 하는 은유는 평가에서 진정으로 유비쿼터스적인 것, 즉 평가를 도구 상자의 보유 또는 사용으로 생각해야 한다는 생각입니다. 평가 방법을 '도구'라는 개념은 심리 측정적 사고와 더 일반적으로 연관된 '도구'라는 용어와 함께 거의 자명하고 문자 그대로 보일 정도로 널리 퍼진 은유입니다. 두 은유 모두 평가 전반을 '도구 상자'라고 생각하면 쉽게 확장할 수 있습니다. 이러한 은유는 특히 전문적 또는 특수한 역량을 평가할 때 흔히 사용됩니다(Ghaderi et al., 2015; Ogunyemi & Dupras, 2017; Taylor et al., 2002). 도구 상자 은유의 매력은 몇 가지 유용한 아이디어를 촉진하기 때문에 이해하기 어렵지 않습니다. 우선, 과거에는 시험관이 선호하고 익숙한 몇 가지 방법에 지나치게 의존했던 것과 달리, 교육자/시험관이 학습자의 역량을 평가하고자 할 때 사용할 수 있는 다양한 형식과 방법이 있다는 아이디어를 깔끔하게 전달해 줍니다. 도구/도구상자 은유는 하나의 평가 방법만으로는 충분하지 않다는 점을 강조하며, 올바른 목적에 맞는 도구(방법)를 선택해야 한다는 타당도 개념과도 일치합니다. 또한 교육 전문가가 평가 방법을 최대한 신뢰할 수 있고 정확하게 만들기 위해 시간과 노력을 기울이는 평가 실무의 중요한 '비하인드 스토리' 작업에 주목할 수 있습니다(평가의 '보정'이라는 관련 은유에서 알 수 있듯이). 

The final metaphor we wish to examine is truly ubiquitous in assessment – that is, the idea that assessment should be thought of as a having or using toolbox. The notion of an assessment method as a ‘tool’ is so prevalent a metaphor that it can almost seem self-evident and literal, along with the term ‘instrument’ more commonly associated with psychometric thinking. With either metaphor, it is a simple extension to think of assessment overall as a ‘toolbox’. Such usage is particularly common in the assessment of professional or specialized competence (Ghaderi et al., 2015; Ogunyemi & Dupras, 2017; Taylor et al., 2002). The appeal of the toolbox metaphor is not hard to understand, as it does promote several useful ideas. For one, it neatly conveys the idea that there are many different formats and methods available to educators/examiners seeking to assess competence in their learners, whereas in the past examiners may have been unduly reliant on a few preferred and familiar methods. The tool/toolbox metaphor encourages more variation in assessment practice, that no one assessment method is sufficient, and aligns with the concept of validity – we need to select the right tool (method) for the right purpose. Further, it can also draw attention to the important ‘behind the scenes’ work of assessment practice, where educational specialists have given time and thought to helping make the method as dependable and accurate as possible (as suggested by the related metaphor of ‘calibration’ in assessment).

그러나 도구 상자의 은유는 각 평가 상황에 대해 하나의 '올바른' 평가 방법 또는 형식이 있다는 생각을 확산시킬 위험이 있습니다. 물론 기본적인 수준에서 평가의 목적과 형식 사이에는 밀러의 가르침처럼 중요한 일치가 있습니다. 지식 평가는 일반적으로 서면 인지 과제를 필요로 하는 반면, 임상 술기 평가는 수행 기반 방법으로 가장 잘 포착할 수 있습니다(Miller, 1990). 그러나 Miller의 피라미드는 다양한 방법을 반드시 도구로 취급하는 것이 아니라 더 넓은 범주의 평가를 의미합니다. 도구 상자 비유는 훨씬 더 나아가 평가 설계는 근본적으로 개별적인 방법/도구의 집합이며, 훌륭한 평가자가 할 수 있어야 하는 것은 올바른 작업에 적합한 도구를 선택하는 것뿐이라는 것을 암시합니다(Kogan 외., 2009 참조). 이 관점에 따르면, 모든 평가 방법은 다른 좋은 도구와 마찬가지로 기성품으로 제공되며 사전 보정되어 있습니다. 이러한 평가의 개념화는 평가의 타당성을 도구의 설계, 적용, 추론 및 사용과 관련된 함의가 아닌 도구 자체에 내재된 것으로 간주하여 품질 평가 실무에 필요한 의도적인 사고와 성찰을 저해할 수 있습니다(Cook et al., 2015). 그 결과, 평가가 의심스러운 결과에 직면하면 도구의 선택과 실행이 아니라 '도구 상자'가 비판과 개혁의 초점이 되고, 더 나은 도구만 있으면 된다는 유혹에 빠지게 됩니다. 실제로 보건 전문직 평가의 역사는 특정 평가 상황에 맞는 '성배' 또는 최고의 도구(또는 도구의 조합)를 찾는 과정으로 특징지을 수 있습니다(van der Vleuten & Schuwirth, 2005). 다양한 도구의 확산은 평가를 최적화하는 방법으로서 van der Vleuten의 효용 방정식에 대한 동기가 된 것으로 보이며(van der Vleuten, 1996), 개별 도구보다는 평가 프로그램 전체에 대해 생각하는 프로그램 평가 개발의 선구자 역할을 했습니다(Pearce & Tavares, 2021). 따라서 도구 상자로서의 평가 개념은 교육자/시험관이 특정 상황에 대한 방법의 적절성, 가치 및 잠재적 타당성 위협에 영향을 미칠 수 있는 맥락 및 설계 요소를 고려하지 않고 일상적으로 방법을 채택하도록 장려할 위험이 있습니다. 
However, the toolbox metaphor risks propagating the idea that there is one ‘right’ assessment method or format for each assessment situation. At a basic level, of course, there are important correspondences between an assessment’s purpose and format, as Miller has taught us: assessment of knowledge generally calls for written cognitive tasks, while assessment of clinical skills are best captured by performance-based methods (Miller, 1990). But Miller’s pyramid does not necessarily treat different methods as tools; rather, it refers to broader categories of assessments. The toolbox metaphor goes much further, suggesting that assessment design is fundamentally a collection of individual methods/tools, and that all a good examiner needs to be able to do is pick the right one for the right job (see Kogan et al., 2009). According to this view, each assessment method, like any good tool, comes ready-made and pre-calibrated. This conceptualisation of assessment can discourage the purposeful thinking and reflection which quality assessment practice requires, with the validity of the assessment assumed to inhere in the tool itself, rather than in the design, application, inferences and implications associated with its use (Cook et al., 2015). The resulting temptation is that, in the face of questionable results from our assessments, the ‘toolbox’ becomes the focus of critique and reform instead of the selection and implementation: all we need is a better tool. Indeed, the history of assessment in the health professions may be characterised as a search for the ‘holy grail’ or best tool (or combination of tools) for particular assessment situations (van der Vleuten & Schuwirth, 2005). The proliferation of different instruments seemed to be motivation for van der Vleuten’s utility equation, as a way of optimizing assessment (van der Vleuten, 1996) and a precursor for the development of programmatic assessment – thinking less about individual tools and more about the program of assessment as a whole (Pearce & Tavares, 2021). The notion of assessment as a toolbox thus risks encouraging educators/examiners to adopt methods routinely, rather than think through the contextual and design factors that might affect the method’s appropriateness, value and potential validity threats for particular situations.

토론: 평가에서 은유의 사용과 단점
Discussion: On the uses and disadvantages of metaphors in assessment

제목에서 은유의 '사용과 남용'이라는 다소 자극적인 표현에서 벗어나, 니체의 동일한 에세이(Nietzsche, 1997)의 다른 번역본(홀링데일 저)을 논의의 출발점으로 삼아 평가 맥락에서 은유의 '사용과 단점'을 보다 냉정하게 검토해 보려고 합니다. 제시된 다섯 가지 사례를 보면 은유가 평가에 가져다주는 가치가 무엇이든 그에 상응하는 비생산적인 연관성, 함의 또는 오해가 발생할 수 있는 것으로 보입니다. 따라서 은유를 사용할 때는 잠재적 장점과 그에 따른 잠재적 단점에 세심한 주의를 기울여야 합니다. 
Departing from the more provocative language of the ‘use and abuse’ of metaphor in our title, we take a different translation (by Hollingdale) of Nietzsche’s same essay (Nietzsche, 1997) as the starting point for our discussion, and examine, more dispassionately, the ‘uses and disadvantages’ of metaphor in assessment contexts. From the five examples given, it seems that whatever value a metaphor brings to assessment, there are potentially corresponding counterproductive associations, implications, or misinterpretations that may arise. We thus need to pay careful attention to potential advantages and their corollary potential disadvantages when using metaphors.

널리 받아들여지는 은유의 타당성에 대한 잠재적 자기충족성은 평가 프로그램의 방어 가능성에 영향을 미칠 수 있습니다. 예를 들어, 저희는 교육 활동에서 픽셀 은유(및 다른 은유)를 여러 번 사용했으며, 대부분 긍정적인 반응과 새로운 이해에 대한 뚜렷한 감각을 느낀 적이 있음을 인정합니다. 그러나 다른 경우에는 서로 다른 암묵적 가정에서 비롯된 잠재적 혼란을 발견하기도 했으며, 모든 은유가 그렇듯이 이 은유에도 한계와 오해의 소지가 있다는 것을 깨닫게 되었습니다. '신 용어god term'(비슷하게 직관적이지만 역시 한계가 있는 또 다른 은유)에 대한 링가드의 경고는 여기서 적절하며, 그녀는 은유가 "반복적인 사용과 친숙함을 통해" "자연스럽고 보편적이며 필연적인 현실의 질서를 암시하게 될 수 있다"(Lingard, 2009, 627쪽)고 지적합니다. 예를 들어, 픽셀 은유를 채택하는 것이 반드시 타당한 평가를 의미한다고 잘못 생각할 수 있습니다(예: 샘플링 대상과 이유에 대한 세심한 주의 없이 샘플링하는 것)(Tavares et al., 2020a, b). 
The potential self-fulfilling nature of the validity of widely accepted metaphors could have implications for the defensibility of an assessment program. For instance, we acknowledge that we have found ourselves drawing on the pixel metaphor (and others) many times in our educational activities, with mostly positive responses and even a palpable sense of new understanding. Yet on other occasions we have also noticed potential confusion, stemming from differing implicit assumptions, helping us realise that this metaphor, as with all metaphors, also has limitations and potential misleadings. Lingard’s warning about ‘god terms’(another metaphor, similarly intuitive but also limited) is relevant here, about which she notes that “through repeated use and familiarity” a metaphor may “become suggestive of a natural, universal and inevitable order of reality” (Lingard, 2009, p. 627). For example, one may incorrectly assume that adopting the pixel metaphor necessarily implies valid assessment (e.g., sampling without careful attention to what is being sampled and why) (Tavares et al., 2020a, b).

라코프와 존슨은 은유가 "개념을 더 정의하고 적용 범위를 변경하기 위한 체계적인 장치"가 될 수 있는 방법을 설명합니다(Lakoff & Johnson, 2003, 125쪽). 개념을 추론하는 데 사용되는 은유는 일관성이 없을 수 있으며, 이는 불협화음과 긴장을 유발할 수 있습니다. 이러한 불협화음은 생산적이고, 생성적이며, 변혁적일 수 있습니다(Bono, 1990). 즉, 평가 은유가 중요하다는 것이 요점입니다. 실제로 "은유적으로 생각하는 방식이 중요합니다."(Lakoff & Johnson, 2003, 243쪽). 이 다섯 가지 (그리고 다른) 평가 은유는 우리가 평가에 대해 생각하고 실천하는 방식을 변화시킵니다. Lakoff와 Johnson의 말을 빌리자면, "상상력이 풍부하고 창의적인 은유는 ... 우리의 경험을 새롭게 이해할 수 있게 해 줍니다. 따라서 은유는 우리의 과거, 일상 활동, 우리가 알고 믿는 것에 새로운 의미를 부여할 수 있습니다."(Lakoff & Johnson, 2003, 139쪽). 

Lakoff and Johnson outline how metaphors may be “systematic devices for further defining a concept and for changing its range of applicability” (Lakoff & Johnson, 2003, p. 125). The metaphors used to reason about concepts may be inconsistent (Lakoff & Johnson, 2003, p. 273), which can lead to dissonance and tension. Such dissonance can be productive, generative, and transformative (Bono, 1990) – the point being that assessment metaphors matter. Indeed, “How we think metaphorically matters” (Lakoff & Johnson, 2003, p. 243). These five (and other) assessment metaphors change the way we think about and practice assessment. In the words of Lakoff and Johnson, “metaphors that are imaginative and creative … are capable of giving us a new understanding of our experience. Thus, they can give new meaning to our pasts, to our daily activity, and to what we know and believe” (Lakoff & Johnson, 2003, p. 139).

우리는 은유 자체은유가 선택되어 평가에 적용되는 방식 사이에 또 다른 중요한 구분을 하고자 합니다. 이 글 전체에서 비판해 온 것은 후자이며, 실제로 은유의 인스턴스화는 더 많은 비판을 필요로 합니다. 니체가 역사에서 그랬던 것처럼, 은유가 평가에 방해가 되지 않고 평가에 도움이 되려면 은유를 주의 깊게 파악하고 정교화하거나 설명해야 한다고 판단합니다. 따라서 이러한 요구를 해결하기 위해 은유를 배치하기 전에 구체적인 평가 요구가 무엇인지 맥락에서 파악하는 것이 출발점이 되어야 합니다. 

We want to make another important distinction, this time between the metaphors themselves, and the way they are selected and applied to assessment. It is the latter that we have been critiquing throughout this piece, and the instantiation of metaphors in practice necessitate further critique. In the same way Nietzsche does for history, we determine that metaphors must be carefully grasped and elaborated or explained if they are to be useful in serving assessment needs, rather than hindering assessment. The starting point should thus be determining what the specific assessment needs are, in context, before any metaphor is deployed to address those needs.

아래 표는 평가 맥락에서 특정 은유를 적용하는 것의 유용성을 일반적인 용도/장점 및 식별 가능한 측면의 상응하는 위험/단점 측면에서 도출하기 위한 시도입니다. 은유를 사용하는 이유, 은유가 작동하는 방식, 고려해야 할 중요한 측면에 대한 유형입니다. 행위자가 은유의 특정 인스턴스화를 단점 또는 장점으로 보는지 여부는 행위자의 관점에 따라 달라질 수 있습니다.

The box below is our attempt to draw out the utility of applying specific metaphors in assessment contexts, in terms of general uses/advantages and corresponding dangers/disadvantages of identifiable aspects. This is our typology of why metaphors may be deployed, how they work, and important aspects to consider. Whether an actor sees a particular instantiation of a metaphor as a disadvantage or advantage is likely contingent on their vantage point.

 

결론
Concluding remarks

은유는 평가 상황에서 매우 유용할 수 있습니다. 은유는 단순화, 복잡화, 의사소통, 번역, 성찰 유도, 설득에 중요한 역할을 할 수 있습니다. 은유는 강력한 수사학적 효과를 발휘하여 의도한 결과, 행동 및 기타 실용적인 결과를 이끌어낼 수 있습니다. 그러나 은유는 그 자체로 철저하고 비판적이며 정당한 증거나 논증을 구성하지 않습니다. 은유는 그러한 해명의 출발점이 될 수 있더라도 일반적으로 논증(강점과 약점 모두)을 우회하기 때문에 그럴 의도가 없습니다. 실제로 모든 사람이 은유를 사용하는 목적은 아닐 수도 있습니다! 우리는 은유가 장점으로 활용될 수 있는 잠재적인 방법뿐만 아니라 은유가 어떻게 잘못 해석될 수 있는지, 은유가 무엇을 제공하고 무엇을 무시하는지, 그리고 예상되는 수정이나 미묘한 자격을 통해 문제가 있거나 의도하지 않은 결과 또는 행동을 완화하거나 보호할 수 있는지에 대해서도 주의를 기울여야 합니다.
Metaphors can be extremely helpful in assessment contexts. They can play important roles in simplifying, complexifying, communicating, translating, encouraging reflection, and convincing. They may be powerfully rhetorical, leading to intended consequences, actions, and other pragmatic outcomes. However, in and of themselves, metaphors do not constitute thorough, critical and justified evidence or argumentation. They are not meant to, as they typically bypass argument (both their strength and weakness) even if they may be the starting point for such elucidation. Indeed, this may not be everyone’s purpose when using a metaphor! We should pay attention to potential ways that metaphors may be leveraged for their advantages, but also how they may be misinterpreted, what they offer as well as what they ignore, and perhaps mitigate or protect against problematic or unintended consequences or actions with anticipated corrections or nuanced qualifications.

블랙은 1955년 에세이를 이렇게 마무리합니다: "은유가 위험하다는 것은 의심할 여지가 없으며, 특히 철학에서는 더욱 그렇습니다. 그러나 은유 사용을 금지하는 것은 우리의 탐구 능력에 대한 고의적이고 해로운 제한이 될 것입니다."(Black, 1962). 또한 평가에서 은유를 사용하지 못하게 하고 싶지도 않습니다. 결국 은유적 언어는 정상적이고 널리 퍼져 있으며 개념적 사고의 중심입니다(Lakoff & Johnson, 2003). 그러나 우리는 은유를 사용할 때 발생할 수 있는 잠재적 위험/불이익에 주의를 기울일 것을 촉구하며, 학자들이 은유가 이해를 밝히는 것이 아니라 오히려 이해를 모호하게 하기 시작하면 의문을 제기하고, 수정하고, 자격을 부여하고, 심지어는 은유를 사용하지 않을 것을 촉구합니다. 이것이 바로 우리가 은유 사용에 대한 비판적 관점을 요구할 때 의미하는 바입니다. 

  • 은유를 사용할 때 의도적으로 이 개념이 은유와 정확히 어떻게 같은가?
  • 은유는 어떤 용도로 사용되는가?
  • 은유는 문자 그대로의 설명을 넘어 주제에 대한 우리의 이해에 무엇을 더해주는가?
  • 원래 아이디어가 은유와 어떻게 다른가요?
  • 상반되는 은유를 포함하여 어떤 다른 은유도 관련성이 있을 수 있나요?
  • 어떤 다른 비유 또는 새로운 비유가 평가 요구 사항을 더 잘 충족시킬 수 있는가?

Black concludes his 1955 essay thus: “No doubt metaphors are dangerous – and perhaps especially so in philosophy. But a prohibition against their use would be a wilful and harmful restriction upon our powers of inquiry” (Black, 1962). Nor would we wish to discourage metaphors in assessment. After all, metaphorical language is normal, pervasive and central to conceptual thought (Lakoff & Johnson, 2003). However, we do call for attention to be given to the potential dangers/disadvantages that may arise with their use, and urge scholars to interrogate, revise, qualify, or even dispense with a metaphor once it starts to obscure understanding rather than illuminate it. This is what we mean when we call for a critical perspective on the use of metaphors. It means being obligated to deliberately ask probing questions when metaphors are used: 

  • how exactly is this concept like the metaphor?
  • What purpose does the metaphor serve?
  • What does the metaphor add to our understanding of the topic beyond a more literal explanation?
  • How is the original idea not like the metaphor?
  • What other metaphors, including contrary ones, might also be relevant?
  • What different or new metaphors could better serve the assessment needs?

은유적 언어는 우리가 세상을 보고, 해석하고, 이해하는 방식을 형성하므로(Lakoff & Johnson, 2003), 평가 은유를 무비판적으로 사용하는 것이 평가가 무엇인지 또는 평가가 될 수 있는지에 대한 우리의 가정에 어떤 영향을 미칠 수 있는지 인식할 필요가 있습니다. 궁극적으로 이 글이 의료 전문가 평가에서 은유의 적절한 사용과 해석을 장려하는 데 조금이나마 도움이 되기를 바랍니다. 은유는 평가에서 아이디어와 관행을 전달하는 데 여전히 매우 중요하며, 저희는 연구와 실무에서 은유를 계속 사용하고 있습니다. 이 백서를 작업하는 동안 저희 스스로 은유를 사용하는 것에 대해 더 잘 인식하게 되었고, 이로 인해 은유의 가치와 은유 사용으로 인해 실제로 어떤 단점과 한계가 발생할 수 있는지 더 자주 멈춰서 생각해 보아야 한다는 것을 알게 되었습니다. 평가에서 은유를 비판하는 것의 중요성이 다른 사람들에게 전달되었기를 바라며, 이러한 비판적 시각이 은유의 지속적인 유용성을 보장할 것이라고 믿습니다.

As metaphorical language shapes the way we see, interpret and understand the world (Lakoff & Johnson, 2003), we need to be aware of how the uncritical use of assessment metaphors may influence our assumptions about what assessment is or can be. Ultimately, we hope that this piece goes some way to encouraging the appropriate use and interpretation of metaphors in health professions assessment. Metaphors remain extremely important for conveying ideas and practices in assessment – and we continue to use them in our research and practice. We have found that while we were working on this paper, we have become more aware of our own use of metaphors, and this has forced us to pause and reflect more often on their value and, importantly, what disadvantages and limitations in practice may be being introduced with the use of the metaphor. We hope we have conveyed the importance of critiquing metaphors in assessment to others, and we believe such a critical lens will ensure their continued utility.

 


Adv Health Sci Educ Theory Pract. 2023 Oct;28(4):1333-1345. doi: 10.1007/s10459-022-10203-w. Epub 2023 Feb 2.

On the use and abuse of metaphors in assessment

Affiliations

1Tertiary Education, Australian Council for Educational Research, Camberwell, Australia. jacob.pearce@acer.org.

2Tertiary Education, Australian Council for Educational Research, Camberwell, Australia.

3Department of Health and Society and Wilson Centre, Temerty Faculty of Medicine, University of Toronto, Toronto, ON., Canada.

PMID: 36729196

DOI: 10.1007/s10459-022-10203-w

Abstract

This paper is motivated by a desire to advance assessment in the health professions through encouraging the judicious and productive use of metaphors. Through five specific examples (pixels, driving lesson/test, jury deliberations, signal processing, and assessment as a toolbox), we interrogate how metaphors are being used in assessment to consider what value they add to understanding and implementation of assessment practices. By unpacking these metaphors in action, we probe each metaphor's rationale and function, the gains each metaphor makes, and explore the unintended meanings they may carry. In summarizing common uses of metaphors, we elucidate how there may be both advantages and/or disadvantages. Metaphors can play important roles in simplifying, complexifying, communicating, translating, encouraging reflection, and convincing. They may be powerfully rhetorical, leading to intended consequences, actions, and other pragmatic outcomes. Although metaphors can be extremely helpful, they do not constitute thorough critique, justified evidence or argumentation. We argue that although metaphors have utility, they must be carefully considered if they are to serve assessment needs in intended ways. We should pay attention to how metaphors may be misinterpreted, what they ignore or unintentionally signal, and perhaps mitigate against this with anticipated corrections or nuanced qualifications. Failure to do so may lead to implementing practices that miss underlying and relevant complexities for assessment science and practice. Using metaphors requires careful attention with respect to their role, contributions, benefits and limitations. We highlight the value that comes from critiquing metaphors, and demonstrate the care required to ensure their continued utility.

Keywords: Assessment; Assessment Practice; Critique; Metaphor; Metaphors.

사회문화적 학습이론과 학습을 위한 평가 (Med Educ, 2023)
Sociocultural learning theory and assessment for learning
Damian Castanelli

 

 

 

학습을 위한 평가는 프로그램 평가 및 역량 기반 의학교육(CBME)을 구현하는 데 있어 매력적인 동기 부여입니다. CBME가 광범위하게 채택됨에 따라 이제 전 세계 대학원 의학교육 프로그램에 직장 기반 평가(WBA)가 포함되고 있습니다. 그러나 실행 보고서에 따르면 WBA에서 학습을 위한 평가의 약속과 실현 사이에는 차이가 있을 수 있습니다. 실제로 교수진과 학습자는 요약 평가와 형성 평가를 혼동하고,1 수퍼바이저는 코치와 심사위원 역할을 동시에 수행하기 위해 고군분투하고,2 수련생은 공연 준비에 집중했습니다.3 많은 임상 교사와 수련생에게 학습을 위한 평가의 약속과 실현 사이의 간극은 틈새이며, WBA가 약속한 학습 포상금은 여전히 달성하기 어려운 것으로 나타났습니다. 
Assessment for learning is an enticing motivation for implementing programmatic assessment and competency-based medical education (CBME). With the widespread adoption of CBME, workplace-based assessment (WBA) is now embedded in postgraduate medical education programmes worldwide. However, implementation reports suggest that there may be a gap between the promise and realisation of assessment for learning in WBA. In practice, faculty and learners have confused summative and formative assessment,1 supervisors have struggled to act as both coach and judge,2 and trainees have focused on staging a performance.3 For many clinical teachers and trainees, the gap between the promise and realisation of assessment for learning is a chasm, and the promised learning bounty of WBA remains elusive.

많은 임상 교사와 수련생에게 학습을 위한 평가의 약속과 실현 사이의 격차gap가 틈새chasm입니다. 
For many clinical teachers and trainees, the gap between the promise and realisation of assessment for learning is a chasm.

이러한 배경에서 Martin 외4는 최근 검토에서 실제로 학습을 위한 평가의 성취를 안내할 수 있는 프레임워크가 없다는 점을 강조했습니다. 이에 따라 이들은 빌렛의 보건의료 업무를 통한 학습 모델5을 채택하여 검토의 틀을 마련하고, WBA가 학습에 미치는 영향에 대한 이해를 증진하기 위해 사회문화적 학습 이론을 사용해야 한다고 주장했습니다. 이 연구는 사회문화적 학습 이론이 WBA에서 학습 평가를 더 잘 실현하는 데 어떻게 도움이 될 수 있을까라는 질문을 자극합니다. 그러나 이 문제를 다루기 전에 학습을 위한 평가가 어떻게 작동해야 하는지에 대한 명확한 설명이 필요합니다.
Against this background, Martin et al.4 have highlighted in their recent review that there is no framework available to guide the achievement of assessment for learning in practice. In response, they have adopted Billett's model of learning through health care work5 to frame their review and argue for the use of sociocultural learning theories to further our understanding of the impact of WBA on learning. This work stimulates the question—How might sociocultural learning theory help us better realise assessment for learning in WBA? But before addressing this, clarification of how assessment for learning is supposed to work is required.

명확하게 표현되는 경우는 드물지만, 프로그램 평가와 CBME 모두 학습에 대한 구성주의적 관점을 취합니다.6,7 WBA의 초점은 임상 실습에서 수행되는 활동이며,

  • 연수생은 능동적인 학습자로 간주되는 반면, 슈퍼바이저는 코치 또는 멘토로 간주됩니다.
  • 수련자와 슈퍼바이저는 학습 결과 또는 역량으로 표현되는 학습 목표를 정의할 수 있으며, 최근에는 위임 가능한 전문 활동으로 표현하기도 합니다.8
  • 목표는 수련자가 향후 실습을 향상시키기 위해 슈퍼바이저의 전문적인 판단에 접근하는 피드백 대화가 이어지는 것입니다.7
  • 수련자는 필요한 수행 기준에 대한 슈퍼바이저의 관찰과 지식을 사용하여 자신의 수행에 대해 성찰하고 개선 방법을 계획하며,9 자기 주도적인 실습이 되기를 바랍니다.10
  • 구성주의 관점에서 학습은 사고의 변화입니다. 교육생은 이전 경험을 바탕으로 다른 사람과의 상호작용 및 상황에 따라 능동적으로 지식을 재구성합니다.

Although seldom articulated clearly, both programmatic assessment and CBME take a constructivist view of learning.6, 7 The focus of a WBA is an activity performed in clinical practice, and

  • trainees are viewed as active learners while supervisors are seen as coaches or mentors.
  • The trainee and supervisor may have defined learning goals, expressed as a learning outcome or competency or, more recently, an entrustable professional activity.8 
  • The aim is that a feedback conversation ensues where trainees access the expert judgement of supervisors to enhance their future practice.7 
  • The trainee uses the supervisor's observations and knowledge of the required performance standard to help them reflect on their performance and plan how they will improve,9 with the hope that this will become a self-directed practice.10 
  • From a constructivist viewpoint, learning is a change in our thinking. Trainees build upon their prior experiences and actively re-organise their knowledge in response to their interactions with others and their context.

연구자들이 학습을 위한 평가가 효과가 없다고 말하는 것은 이러한 과정이 일어나지 않는다는 것을 의미합니다. 
When researchers say assessment for learning is not working, they mean this process is not occurring.

사회문화적 학습 이론은 환경과의 관계를 강조하는 다양한 철학적 토대에서 출발합니다

  • 사회문화적 관점에서 우리는 맥락의 영향을 받는 고립된 개체가 아니라 항상 사회 전체의 일부이며 사회와 분리될 수 없습니다.11 
  • 사고하고 행동하는 우리의 능력은 활동과 실천에 대한 적극적인 참여와 관여에서 비롯됩니다.12, 13 
  • 그러한 활동에 참여할 때 우리는 변화에 영향을 미치고, 변화를 받기도 합니다.13 
  • 사회문화적으로 활동은 학습을 함의하며, 따라서 학습은 여러 활동 중 한 가지 유형이 아니라 모든 활동에 필수적인 요소입니다.14 

Sociocultural learning theories start from different philosophic underpinnings that emphasise our connection with our environment.

  • From the sociocultural viewpoint, we are not isolated entities affected by context but are always a part of the social whole and cannot be separated from it.11 
  • Our capacity to think and act arises from active engagement and participation in activity and practice.1213 
  • When we engage in such activity, we both effect change and are changed.13 
  • Socioculturally, activity implies learning, so that learning is not one type of activity among many but integral to all activity.14 

사회문화적 학습 이론을 사용하여 WBA에서 일어나는 일을 더 잘 이해할 수 있는 잠재적 이점은 이전에 제안되었지만,15 여기서는 이러한 철학적 뿌리에서 비롯된 WBA의 학습에 대한 두 가지 통찰력을 강조하고자 합니다. 

  • 첫째, 학습은 항상 일어나며 의도적인 교수 또는 학습 활동에만 국한되지 않는다는 것입니다.
  • 둘째, 학습은 사고의 변화를 넘어 우리 자신의 변화를 수반한다는 것입니다.

While potential benefits in using sociocultural learning theories to better understand what is happening in WBAs have been proposed previously,15 I will highlight here two insights into learning from WBA that flow from these philosophical roots.

  • Firstly, that learning is always occurring and is not confined to intentional teaching or learning activities.
  • Secondly, that beyond a change in thinking, learning involves a change in ourselves.

사회문화적으로 활동은 학습을 의미하므로, 학습은 여러 활동 중 한 가지 유형이 아니라 모든 활동에 필수적인 요소입니다. Socioculturally, activity implies learning, so that learning is not one type of activity among many but integral to all activity.

CBME의 학습 결과는 일반적으로 교육과정에 교육생이 원하는 역량으로 문서화되는데, 이는 교육과정이 제정된 맥락에서 벗어난 일반적이고 추상적인 의미입니다.16 학습이 학습 환경의 실천에 필수적인 사회문화적 관점에서 볼 때,17 

  • 이러한 역량 또는 모든 실무자에게 기대되는 '표준적' 지식16 은 필수적이지만 학습해야 할 내용에 대한 불완전한 설명입니다
  • 연수생은 실제 실습에 참여하여 특정한 물리적, 사회적 맥락에서 다른 독특한 개인과 상호 작용하면서 배웁니다
  • 무엇을 배우고 어떻게 배울 것인지는 훈련생들의 참여와 그들이 인식하는 기회에 따라 달라집니다.17 
  • 커리큘럼 설계자가 의도한 대로, WBA는 감독관이 훈련생들이 표준 지식을 사용할 맥락에서 학습할 수 있는 기회를 제공할 수 있습니다.15 
  • 그러나 학습은 항상 일어나기 때문에 의도한 학습이 없는 것처럼 보이는 곳에서도 다른 학습이 일어날 수 있습니다

The learning outcomes in CBME are generally documented in curricula as the competencies desired of trainees, in a generic and abstract sense that is removed from the context in which they are enacted.16 From a sociocultural viewpoint, where learning is integral to the practices of the learning environment,17 

  • these competencies, or the ‘canonical’ knowledge16 expected of all practitioners, are essential but incomplete descriptions of what is to be learned.
  • Trainees learn from engaging in authentic practice, interacting with other unique individuals in particular physical and social contexts.
  • What is to be learned and how it is learned depend upon their engagement and the opportunities they perceive.17 
  • As curriculum designers intend, WBAs may provide an opportunity for supervisors to help trainees learn canonical knowledge in the context where it will be used.15 
  • However, given that learning is always occurring, where intended learning appears absent, there will still be other learning.

장 라브는 '학습이 일어난다는 것은 문제가 되지 않는다... 학습된 것은 항상 복잡하게 문제가 된다'고 언급했습니다.14 향후 연구에서는 의도된 학습이 일어나고 있는지에 좁게 초점을 맞추기보다는 한 걸음 물러나서 WBA에서 어떤 학습이 일어나고 있으며 어떻게 발생하는지 탐구할 수 있습니다.15 이러한 연구는 학습을 위한 평가가 주로 훈련생이 표준 지식을 학습하도록 돕는다는 현재의 이해를 넓히고10 사회 문화적 관점에서 적절한 이론적 틀을 제공하는 데 도움이 될 수 있을 것입니다.
Jean Lave noted, ‘that learning occurs is not problematic … what is learned is always complexly problematic’.14 Rather than focusing narrowly on whether desired learning is occurring, future research could take a step back and explore what learning is occurring in WBA and how it comes about.15 Such research could help broaden our current understanding that assessment for learning primarily entails helping trainees learn canonical knowledge10 and a sociocultural perspective could provide suitable theoretical framing.

의도된 학습이 부재한 것처럼 보이는 경우에도 다른 학습이 있을 수 있습니다.
Where intended learning appears absent, there will still be other learning.

학습에 대한 사회문화적 이해에서는 지식을 동화시키고 '다르게 생각하는 법'을 배우는 것을 넘어, 수련생은 특정 맥락에서 전문직의 관행을 알고 이에 기여하게 됩니다.17 이러한 관행은 지역 역사 및 문화와 일치하지만, 각각의 재현은 고유하기 때문에 관행도 진화합니다. 수련생은 실습에 참여하는 동안 전문직의 가치와 신념에 동화됩니다.18 또한 수련생은 수퍼바이저와 자신을 차별화하여 기관의 한 개인이 되어 전문직 발전에 기여하고 실천 공동체의 완전한 구성원이 됩니다.18 Martin 등이 제안했듯이 향후 연구에서는 WBA가 학습의 이러한 측면에 어떻게 기여하는지 살펴볼 수 있습니다. 
In a sociocultural understanding of learning, beyond assimilating knowledge and learning to ‘think differently’, the trainee comes to know and contribute to the profession's practices in their particular context.17 Such practices concord with local history and culture, yet practice also evolves because each reproduction is unique. Trainees assimilate the profession's values and beliefs while they participate in practice.18 Additionally, trainees differentiate themselves from their supervisors, becoming an individual with the agency to contribute to the profession's development and assume full membership of their community of practice.18 As Martin et al. suggest, future research could explore how WBAs contribute to these aspects of learning.

사회문화적 관점에서, 의도한 대로 [학습을 위한 평가]를 달성하는 것으로 돌아가면, 수련생이 배우는 실무에는 전문직의 평가 관행이 포함됩니다. 임상 교사와 학습자가 학습을 향상시키기 위해 참여하는 활동인 WBA는 교육학적 관행을 나타냅니다.5 학습은 공동 생산되고 수련생은 자신의 경험, 가치, 동기를 가진 주체적 학습자이므로 수퍼바이저와의 상호작용은 각각 고유한 학습 사건을 나타냅니다. 슈퍼바이저와 실습생은 각 WBA에서 평가 실습이 어떻게 시행되는지에 대한 이해를 더합니다. 슈퍼바이저와 실습생은 참여를 통해 현지 평가 관행을 재현할 뿐만 아니라 잠재적으로 변화시킬 수 있습니다.
Circling back to achieving assessment for learning as intended, from a sociocultural point of view, the practices which trainees learn include the profession's assessment practices. WBA, as an activity that clinical teachers and learners participate in to enhance learning, represents a pedagogical practice.5 Since learning is co-produced and the trainee is an agentic learner with their own experience, values and motivation, each interaction with a supervisor represents a unique learning event. The supervisor and trainee add to their understanding of how assessment practice is enacted in each WBA. Through their participation, the supervisor and trainee not only reproduce but potentially change local assessment practices.

슈퍼바이저와 연수생은 참여를 통해 현지 평가 관행을 재생산할 뿐만 아니라 잠재적으로 변화시킬 수 있습니다.
Through their participation, the supervisor and trainee not only reproduce but potentially change local assessment practices.

WBA 연구에 사회문화적 프레임워크를 적용하면 WBA를 통한 학습의 복잡한 관계적, 맥락적 요소를 조사할 수 있습니다. 이러한 연구는 진화하는 WBA 문화에 대한 이해를 높이고 잠재적인 개선의 길을 제시할 수 있습니다. 예를 들어, 빌렛의 어포던스 및 참여 프레임워크는 직장에서 인식되는 초대적 특성이 연수생의 학습 참여에 어떻게 중요한 영향을 미치는지를 강조합니다.17 연수생의 참여 방식은 적어도 부분적으로는 감독자의 행동을 반영합니다. 따라서 각 WBA는 동기 부여가 된 감독자와 수련생이 현지 평가 실습이 원하는 방식으로 발전하도록 도울 수 있는 기회를 제공합니다. 
Applying a sociocultural framework in WBA research would allow us to examine the complex relational and contextual elements of learning through WBAs. Such research might enhance our understanding of the evolving culture of WBA and generate potential avenues for improvement. For example, Billett's framework of affordances and engagement emphasises how the perceived invitational qualities of the workplace critically influence trainee engagement in learning.17 At least in part, how the trainee engages reflects supervisor behaviour. Each WBA, therefore, represents an opportunity for motivated supervisors and trainees to help their local assessment practice evolve in the way they desire.

WBA 연구에 사회문화적 프레임워크를 적용하면 WBA를 통해 학습의 복잡한 관계적, 맥락적 요소를 조사할 수 있습니다.
Applying a sociocultural framework in WBA research would allow us to examine the complex relational and contextual elements of learning through WBAs.


학습을 위한 평가를 구현하는 것은 평가 관행의 혁신적인 변화를 의미하며7, 이러한 변화는 WBA 기간 동안 급격하게 부각됩니다. 직장 학습에 대한 사회문화적 이론은 학습을 위한 평가를 달성하는 데 방해가 되는 어려움을 더 잘 이해하고 이에 대응할 수 있는 매력적인 프레임워크를 제공합니다. 이러한 이론은 우리가 학습이라고 생각하는 것과 학습이 발생하는 시기를 확장할 수 있게 해줍니다. WBA를 재생산되면서 발전할 수 있는 관행으로 보는 것은 WBA를 개선하고 학습을 위한 평가를 더 잘 실현할 수 있는 새로운 기회를 제공할 수 있습니다.

Implementing assessment for learning represents a transformative change in assessment practice7 and that change comes sharply into focus during WBAs. Sociocultural theories of workplace learning provide an attractive framework to better understand and respond to the difficulties impeding us from achieving assessment for learning. They allow us to expand what we think of as learning and when we think learning occurs. Viewing WBAs as a practice that can evolve as it is reproduced may provide new opportunities to improve WBAs and better realise assessment for learning.

 


 

Med Educ2023 May;57(5):382-384. doi: 10.1111/medu.15028. Epub 2023 Feb 21.

Sociocultural learning theory and assessment for learning

Affiliations collapse

Affiliation

1School of Clinical Sciences at Monash Health, Monash University, Clayton, Victoria, Australia.

PMID: 36760219

DOI: 10.1111/medu.15028

No abstract available

 

작은 코호트 OSCE에서 방어가능한 합격선 설정하기: 언제 경계선 회귀방법이 효과적인지 이해하기(Med Teach, 2020)
Setting defensible standards in small cohort OSCEs: Understanding better when borderline regression can ‘work’
Matt Homera , Richard Fullerb, Jennifer Hallama and Godfrey Pella

 

 

소개
Introduction

특히 고부담 성과 평가에서 합격선 설정은 항상 어려운 과제입니다(Cusimano 1996; Ben-David 2000; Cizek 2012). 경계선 회귀법(BRM)은 표준 설정에 대한 수험자 중심의 접근 방식으로, 스테이션(또는 사례)에서의 응시자 성과는 글로벌 등급에 따라 전체적으로 채점하거나 체크리스트 또는 도메인 기반 채점 도구를 사용하여 두 가지 방식으로 채점됩니다(Kramer 외. 2003; Pell 외. 2010; McKinley and Norcini 2014). BRM에서는 글로벌 성적에 대해 후자의 점수를 회귀하고, 경계선 성적에 해당하는 회귀 모델 예측 점수를 사용하여 시험장 수준 표준을 사후에 설정합니다. 그런 다음 시험 수준 표준은 스테이션 수준 컷 점수의 합계를 기반으로 하며, 표준 측정 오차 사용과 같은 추가적인 결합 수준 표준을 사용할 수 있습니다(Hays 외. 2008). 
Standard setting, particularly in high stakes performance assessments, is always challenging (Cusimano 1996; Ben-David 2000; Cizek 2012). The borderline regression method (BRM) is an examinee-centred approach to setting standards (Livingston and Zieky 1982), where candidate performance in stations (or cases) is scored in two different ways: holistically by a global grade, and also with a checklist or domain-based scoring instrument (Kramer et al. 2003; Pell et al. 2010; McKinley and Norcini 2014). Under BRM, the latter score is regressed on the global grade, and the station-level standard is set post hoc using the regression model predicted score corresponding to the borderline grade. The exam-level standard is then based on the aggregate of the station level cut-scores, with the option to employ additional conjunctive level standards such as the use of the standard error of measurement (Hays et al. 2008).

광범위한 맥락에서 BRM은 이제 일반적으로 방어 가능한 표준을 제공하는 것으로 인정받고 있으며, 많은 고위험 성과 평가 맥락에서 기본 접근 방식이 되었습니다(Boursicot 외. 2007; McKinley와 Norcini 2014). BRM은 경계선 그룹이 아닌 평가자와 응시자 간의 모든 상호작용을 사용하여 커트라인 점수를 설정함으로써 다른 경계선 방법과 비교하여 추가적인 이점을 제공합니다. 예를 들어, 스테이션을 두 가지 방식으로 채점한다는 것은 BRM 하에서 평가 품질에 대한 자세한 통찰력을 제공하는 다양한 스테이션 및 시험 수준의 추가 지표가 있다는 것을 의미합니다(Pell 외. 2010). 또한 이러한 지표를 통해 평가 개선을 위한 개입의 영향을 종단적으로 측정할 수 있습니다(풀러 외. 2013). 
Across a broad set of contexts, BRM is now generally acknowledged as providing defensible standards and has become the default approach in many high stakes performance assessment contexts (Boursicot et al. 2007; McKinley and Norcini 2014). By using all interactions between assessors and candidates to set the cut-score rather than just the borderline group, BRM brings additional benefits in comparison to other borderline methods. For example, having stations scored in two different ways mean that under BRM there are a range of additional station- and exam-level metrics which give detailed insight into assessment quality (Pell et al. 2010). These metrics also allow for the impact of interventions aimed at improving assessments to be measured longitudinally (Fuller et al. 2013).

BRM 문헌의 대부분은 상대적으로 '대규모' 코호트(즉, n > 50)를 대상으로 한 평가에서 생성되며, 후보자 그룹은 일반적으로 높은 성과를 보이는 집단(예: 의과대학의 한 학년 그룹 또는 대학원 지원자 코호트)입니다. BRM이 효과적으로 작동하려면 체크리스트 점수 및 글로벌 성적의 범위가 커트라인 점수를 비교적 안정적으로 추정할 수 있을 정도로 충분해야 하므로, 상대적으로 큰 표본 크기는 코호트 전체의 성과가 높더라도 BRM 적용을 뒷받침할 수 있는 후보자 능력의 충분한 확산을 보장하는 데 도움이 됩니다.
The majority of the BRM literature is generated from assessments with relatively ‘large’ cohorts (i.e. n > 50) where the candidate group is typically high-performing (i.e. a single year group at medical school, or a cohort of post-graduate candidates). For BRM to function effectively, the range of checklist marks and global grades should be sufficient to provide a comparatively stable estimate of the cut-score, and so relatively large sample sizes help to ensure sufficient spread in candidate ability to support the application of BRM, despite the cohort as a whole being high-performing.

BRM을 검증하는 대부분의 문헌에서는 리샘플링 접근법 또는 회귀 기반 공식을 통해 다양한 경험적 접근법을 사용하여 산출된 컷 점수의 오차를 추정했습니다. 이 오차를 추정하는 것은 일반적으로 특정 표준 설정 접근법과 관련된 타당도 증거의 중요한 구성 요소로 간주됩니다(미국 교육 연구 협회 2014, 108페이지). 증거에 따르면 다른 표준 설정 접근법에 비해 BRM은 적당한 후보 표본 크기(n > 50)에서 오차가 더 낮습니다. 리샘플링 기반 연구에서는 더 큰 코호트의 데이터를 사용하여 더 작은 표본(n <50)에 대한 컷 점수 오차를 추정하려고 시도했으며, 50명 미만의 후보 코호트 규모에서는 컷 점수의 추정 오차가 상당히 커지는 것으로 나타났습니다(Homer et al. 2016). 
Most of the literature validating BRM has used a range of empirical approaches to estimate the error in the cut-score it produces – either through resampling approaches (Muijtjens et al. 2003; Homer et al. 2016) or via regression-based formulae (Kramer et al. 2003; Wood et al. 2006; Hejri et al. 2013). Estimating this error is generally considered as an important constituent of validity evidence linked to a particular standard setting approach (American Educational Research Association 2014, p. 108). The evidence suggests that in comparison with other standard setting approaches, BRM has lower error at modest candidate sample sizes (n > 50). The resampling-based work has also attempted to use data from larger cohorts to extrapolate cut-score error for smaller samples (n < 50), and indicates that the estimated error in the cut-score becomes quite large at cohort sizes below 50 candidates (Homer et al. 2016).

이러한 표준 설정 문제에 직면한 소규모 코호트를 보유한 기관은 일반적으로 전문가 그룹에 의해 체크리스트 항목 또는 더 일반적으로는 스테이션 수준의 난이도를 선험적으로 판단하는 앙고프형 방법과 같은 시험 중심 접근 방식에 의존해 왔습니다(McKinley and Norcini 2014). 이러한 방법은 시간과 자원이 많이 소요될 수 있으며, '합격'을 개념화한 다음 복잡한 OSCE 스테이션 내에서 상호 의존적인(그리고 관찰되지 않는) 일련의 활동에 대한 합격 기준을 명확히 하는 것이 어렵기 때문에 그 자체로 특별히 신뢰할 수 없을 수 있습니다(Boulet et al. 2003). 시험 중심의 표준 설정 방법의 문제점을 탐구하는 대부분의 증거는 지식 테스트의 맥락에서 개발되었습니다(Clauser 외. 2009; Margolis 외. 2016). 응시자가 당일에 실제로 어떻게 수행하는지, 즉 '현실 점검'이 아니라, 단순히 스테이션 내용에 대한 지식만을 바탕으로 OSCE 스테이션에서 최소한의 역량을 반영하는 점수를 판단할 때 유사한 문제가 발생하지 않을 것이라고 상상하기는 어렵습니다. 이 특정 지점에 대한 문헌에는 모순된 증거가 있는 것으로 보이며, 일부에서는 앙고프 유형의 접근 방식이 BRM보다 성과가 낮다는 데 동의합니다(Schoonheim-Klein 외. 2009). 그러나 최근의 연구 결과에 대한 해석은 동일한 시험에서 주니어 레지던트와 시니어 레지던트에 대해 두 가지 표준을 설정하려는 시도로 인해 복잡해졌지만, 앙고프형 접근법이 OSCE에서 어느 정도 효과가 있다고 주장합니다(Dwyer 등. 2016). 이러한 새로운 증거에도 불구하고, 앙고프의 자원 집약적 특성과 다양한 고위험 평가 형식에 사용될 때 그 효과에 대한 의구심은 여전히 남아 있습니다. 
Faced with these standard setting challenges, institutions with small cohorts have generally relied on test-centred approaches such as Angoff-type methods where checklist item or more commonly, station-level difficulty is judged a priori by a group of experts (McKinley and Norcini 2014). These methods can be time-consuming and resource intensive, and may not be particularly reliable in themselves – the difficulty of conceptualising the ‘just passing’ candidate, and then articulating a passing standard for a series of interdependent (and unobserved) activities within a complex OSCE station can prove difficult in practice (Boulet et al. 2003). Most of the evidence exploring the problems with test-centred standard setting methods have been developed in the context of knowledge testing (Clauser et al. 2009; Margolis et al. 2016). It is difficult to imagine that judging what scores would reflect the minimally competent performance in an OSCE station based merely on knowledge of the station content, rather than how candidates actually perform on the day – the ‘reality check’ (Livingston and Zieky 1982), would not encounter similar problems. There appears to be contradictory evidence in the literature on this specific point with some agreeing that Angoff-type approached performs less well than BRM (Schoonheim-Klein et al. 2009). However, more recent work argues that Angoff-type approaches can work to an extent in OSCEs (Dwyer et al. 2016) although interpretation of the findings in this particular paper is complicated by an attempt in it to set two standards, for junior and senior residents, in the same examination. Despite this newer evidence, the resource intensive nature of Angoff, and the doubts about its efficacy when employed in a range of high stakes assessment formats, remain.

소규모 코호트에서 적절하고 방어 가능한 표준 설정의 어려움에 대한 조사
Investigating the challenge of appropriate, defensible standard setting in small cohorts

이 백서에서는 훈련된 임상 평가자가 있는 소규모 코호트에서 BRM이 방어 가능한 표준을 제공할 수 있는 조건에 관한 보다 맥락화된 증거 기반을 개발하기 위해 다양한 소규모 코호트 맥락에서 BRM의 사용을 조사합니다. 특히 소규모 코호트에서 표준 설정에 이 접근법을 사용할 때 발생하는 문제(및 그 유병률)를 더 잘 이해하는 데 관심이 있습니다. 연구실 수준의 품질을 측정하는 주요 지표로, 글로벌 등급과 체크리스트 점수 사이의 선형적 연관성의 강도를 측정하는 R-제곱을 사용합니다(Pell 외. 2010). 공식적으로 이는 두 점수 간의 공유 분산 비율을 정량화하며, 높은 값(예: 0.8)은 강한 연관성을 나타내며 BRM에 따른 점수 및 표준 설정의 유효성에 대한 증거를 제공하는 반면, 낮은 값(예: 0.4 또는 0.5 미만)은 스테이션에 잠재적으로 문제가 있음을 나타냅니다((Pell et al. 2010). 또한 점수의 확산 정도를 평가하기 위해 분산 그래프를 육안으로 검사하며, 방법 섹션에서 접근 방식에 대한 자세한 내용을 제공합니다. 
In this paper we investigate the use of BRM in a range of different small cohort contexts in order to develop a more contextualized evidence-base regarding the conditions under which BRM in small cohorts with trained clinical assessors might provide defensible standards. We are particularly interested in better understanding the issues (and their prevalence) that arise when using this approach to standard setting in small cohorts. As our main metric of station-level quality, we use R-squared, the measure of the strength of linear association between the global grade and the checklist-score (Pell et al. 2010). Formally, this quantifies the proportion of shared variance between the two scores, with high values (e.g. 0.8) indicating a strong association and providing some evidence of validity in the scoring and standard setting under BRM, whereas low values (e.g. less than 0.4 or 0.5) potentially signify problems in the station ((Pell et al. 2010). We also employ visual inspection of scatter graphs to assess the degree of spread in scores – we give more details of our approach in methods section.

이 논문은 시험장 수준에서의 표준 설정에 초점을 맞추고 있으며, 시험 수준에서의 결합 표준 사용과 관련된 더 광범위한 시험 문제(예: 통과된 최소 시험장 또는 측정 표준 오차)는 다루지 않습니다(Cizek and Bunch 2007, 2장; Hays et al. 2008). 소규모 코호트 성능 테스트에서 이러한 결합 표준을 사용하는 것은 별도의 조사가 필요합니다.
This paper focuses on standard setting at station level and does not explore wider examination issues related to the use of conjunctive standards at the test level (e.g. minimum stations passed or standard errors of measurement) (Cizek and Bunch 2007, chap. 2; Hays et al. 2008). The use of these conjunctive standards in small cohort performance testing merits separate investigation.

소규모 코호트를 사용한 평가 상황
Assessment contexts with small cohorts

우리는 상당히 다른 세 가지 고부담 평가 맥락에서 BRM의 사용을 조사합니다: 
We investigate the use of BRM in three quite different high stakes assessment contexts:

영국에서 의사를 개업하기 위해 전문의 등록을 원하는 국제 의대 졸업생을 대상으로 하는 OSCE 시험
The OSCE for international medical graduates seeking professional registration to practice medicine in the UK

이 시험은 영국의 일반 의학 위원회(GMC)에서 시행하며, PLAB - 전문 및 언어 평가 위원회 시험(General Medical Council 2019)이라고 하는 일련의 지식 및 수행 능력 테스트의 일부입니다. OSCE 구성요소(PLAB2)는 영국에서 수련받은 의사가 의과대학을 졸업하고 대학원 수련의 첫 번째 파운데이션 연도를 마친 후 2년차 진료 첫날에 볼 수 있는 임상 진료의 모든 측면을 다루도록 설계되었습니다.

  • 시험은 18개의 스테이션으로 구성되며, 임상적으로 훈련된 평가자가 수행 능력을 종합적으로 판단하여 4점 만점(0 = 불만족, 1 = 경계선, 2 = 만족, 3 = 양호)으로 각각 점수를 매깁니다.
  • 또한 응시자는 세 가지 영역(데이터 수집, 기술 및 평가 기술, 임상 관리 기술, 대인관계 기술)에서 점수를 받습니다.
  • 각 영역은 4점 척도로 채점되며, 이 점수는 12점 만점의 총점으로 합산됩니다. 

This examination is administered by the General Medical Council (GMC) in the UK and is part of a sequence of knowledge and performance testing referred to as PLAB – Professional and Linguistic Assessment Board test (General Medical Council 2019). The OSCE component (PLAB2) is designed to cover all aspects of clinical practice a UK-trained doctor might expect see during their first day of their second year of medical practice following graduation from medical school and completion of the first Foundation Year of postgraduate training.

  • The examination consists of 18 stations which are each scored by clinically trained assessors via a holistic judgement of the performance in a four-point global grade (0 = unsatisfactory, 1 = borderline, 2 = satisfactory, 3 = good).
  • Candidates are also scored in three separate domains (Data gathering, technical and assessment skills, Clinical management skills, and Interpersonal skills).
  • Each domain is scored on a 4-point scale and these are aggregated to a total station score out of 12.

각 PLAB2 시험은 오전과 오후로 나누어 진행되며, 일반적으로 각 시험장에 동일한 평가자가 배치되고, 30-35명의 응시자에 대한 모든 평가 결과를 합산하여 당일의 BRM 표준 설정에 반영합니다. 즉, 각 시험은 표준 설정 측면에서 서로 독립적으로 취급되며, 해당 날짜의 데이터만 BRM에 따른 커트라인 점수를 계산하는 데 사용됩니다. PLAB2에 응시하려면 응시자는 PLAB1 응용 지식 시험을 통과해야 합니다. PLAB2는 연간 100회 정도 시행되며이 백서에 사용된 스테이션 레벨 데이터는 2016년 9월부터 2018년 10월까지 198회 시행된 시험으로 구성되어 있습니다. PLAB2를 대량으로 시행하려면 기본적으로 표준 설정이 수험자 중심으로 이루어져야 하며(즉, 사후에), 2016년부터 BRM이 사용되었습니다.

Each PLAB2 administration consists of a morning and afternoon circuit, usually with the same assessors in each station, with all assessment outcomes for the 30-35 candidates combined for the BRM standard setting for the day – in other words, each administration is treated independently of any other in terms of standard-setting, and only data from the day in question is used to calculate cut-scores under BRM. In order to sit PLAB2, candidates have to pass the PLAB1 applied knowledge test. There are of the order of 100 administrations of PLAB2 per year, and the station level-data used in this paper consists of 198 test administrations over September 2016 to October 2018. The large volume of PLAB2 administrations essentially necessitates standard setting to be examinee-centred (i.e. post hoc), and BRM has been used since 2016.

이 연구의 PLAB2 스테이션은 총 264개의 스테이션 뱅크에서 추출되었으며, 198개의 관리 각각에 대해 적절한 청사진 프로세스를 수행하여 시험에서 각 18개의 스테이션 세트를 선택했습니다. 그 결과, 개별 스테이션의 사용 빈도는 데이터에서 1에서 48까지 다양하며, 해당 기간 동안 평균은 11입니다. 스테이션 수준 데이터는 컷 점수, R-제곱, 스테이션 삭제시 신뢰도 계수(스테이션을 제거한 전체 시험의 신뢰도), 스테이션 '쉬움'(즉, 각 관리의 스테이션 합격률)과 같은 다양한 스테이션 및 시험 수준 지표(Pell et al. 2010)로 구성됩니다. 또한 각 시험의 각 스테이션에 대한 전체 영역 점수 대비 글로벌 성적의 분산 그래프도 시각적으로 확인할 수 있습니다.
PLAB2 stations in this study were drawn from a bank of 264 stations in total, and an appropriate blueprinting process was carried out for each of the 198 administrations to select each set of 18 stations in the exam. As a consequence, the frequency of use of any individual station varies in the data, ranging from 1 to 48 with a median of 11 over the period. Station-level data consists of a range of station and test-level metrics (Pell et al. 2010) such as the cut-score, R-squared, reliability coefficient-station-deleted (reliability of the overall exam with station removed), and station ‘facility’ (i.e. station pass rate for each administration). In addition, scatter graphs of global grades versus total domain scores for each station in each administration are also available for visual inspection.

영국 의과대학 학부생들을 위한 순차적 OSCE의 두 번째 파트
The second part of a sequential OSCE for undergraduate medical students in a UK medical school

평가에 대한 보다 혁신적인 접근 방식의 일환으로, 시험에 대한 적응형 접근 방식이 개발되면서 평가가 두 부분으로 나누어 실시되는 순차적 시험 모델이 도입되었습니다. 모든 응시자를 대상으로 하는 초기 선별 OSCE와 취약한 응시자를 위한 추가 시퀀스는 적응형 시험 형식과 전반적으로 향상된 의사 결정을 모두 제공합니다(Pell 외. 2013; Homer 외. 2018). 이 연구의 일부는 약 300명의 학생으로 구성된 전체 코호트가 초기 선별 시퀀스를 치르고 20-50명의 학생이 두 번째 시퀀스 OSCE를 치르기 위해 소환되는 4학년과 5학년(예선) OSCE의 연구를 기반으로 합니다. 이 소규모 응시자 집단에 대한 합격/불합격 결정은 두 시퀀스(4학년과 5학년에서 각각 총 26개, 25개 스테이션)에서의 성적을 기준으로 이루어집니다. 
As part of more innovative approaches to assessment, the development of adaptive approaches to testing has seen the introduction of sequential testing models, where assessment is delivered in two parts. An initial screening OSCE for all candidates, with a further sequence for weaker candidates provide both an adaptive test format and overall enhanced decision-making (Pell et al. 2013; Homer et al. 2018). This part of the study draws on work from Year 4 and Year 5 (qualifying) OSCEs, where the full cohort of approximately 300 students take the initial screening sequence, with 20-50 students being recalled to sit the second sequence OSCE. Pass/fail decisions for this smaller cohort of candidates are made based on performance across both sequences (26 and 25 stations in total in Years 4 and 5, respectively).

임상 평가자는 주요 특징 체크리스트(Farmer and Page 2005)와 5점 척도(0 = 불합격, 1 = 경계선, 2 = 합격, 3 = 양호 합격, 4 = 우수 합격)를 사용하여 스테이션에 점수를 매깁니다. 6번의 시퀀스 2 관리(2017~2019년 포함)의 후보자 수준 데이터를 고려합니다. 시퀀스 2에서 사용하도록 선택된 스테이션은 이전 시퀀스 1 투여에서 사용되었으므로 전체 코호트에서 BRM을 만족스럽게 사용하여 생성된 기존 합격 점수가 있는 스테이션입니다(즉, R-제곱과 같은 지표가 충분히 양호함).
Stations are scored by clinical assessors using key features checklist (Farmer and Page 2005) and a global grade on a five-point scale – 0 = fail, 1 = borderline, 2 = pass, 3 = good pass, 4 = excellent pass. We consider candidate-level data from six sequence 2 administrations (2017–2019 inclusive). Stations selected for use in sequence 2 are those that have been used in a previous sequence 1 administration, and so have pre-existing passing scores generated from the satisfactory use of BRM in the full cohort (i.e. with sufficiently good metrics such as R-squared).

어떤 이유로든 새 시행의 BRM 표준에 문제가 있는 경우 BRM 또는 이전 합격 점수로 대체하여 표준 설정이 수행됩니다. 우리 연구의 일부는 이러한 대체가 얼마나 자주 필요한지 정량화하는 것입니다.

  • 첫 번째 시퀀스의 경우 사후 분석을 통해 평가자 불균형 측정을 포함한 정교한 범위의 시험 및 시험장 수준 메트릭을 제공합니다(Pell 외. 2010, 2015).
  • 그러나 두 번째 시퀀스의 경우, 상대적으로 작은 응시자 하위 그룹의 비정형적인 특성을 고려할 때 이러한 분석은 필연적으로 제한적입니다.

이 2차 시퀀스 분석에서는 체크리스트 점수 및 관련 지표(예: R-제곱)에 대한 성적의 분산 그래프에 중점을 둡니다. 
Standard setting is undertaken by BRM or substitution with previous pass marks if there is a concern, for any reason, with the BRM standards in the new administration. Part of our research is to quantify how often this substitution might prove necessary.

  • For the first sequence, post-hoc analysis provides a sophisticated range of test- and station level metrics, including measures of assessor disparity (Pell et al. 2010, 2015).
  • However, for the second sequence, such analysis is necessarily limited, given the atypical nature of this relatively small sub-group of candidates.

The focus in this sequence 2 analysis is on scatter graphs of grades versus checklist scores and associated metrics (e.g. R-squared).

영국 의과대학의 의사 보조원을 위한 OSCE
OSCEs for physician associates in a UK medical school

의사 보조원(PA, 미국에서는 '의사 보조원')은 영국에서 비교적 최근에 등장한 의료 전문가입니다. 교육 프로그램은 일반적으로 2년제 대학 석사 수준의 자격을 제공하는 대학원 입학 프로그램으로 구성되며, 그 후 신입 PA는 정식 자격을 갖춘 의사와 함께 팀의 일원으로 실습을 하게 됩니다(Health Education England 2015). 리즈 대학교 PA 프로그램은 연말에 실시되는 고난도 OSCE를 포함하여 다양한 지식, 성과 및 전문성 평가를 통해 평가됩니다. 일반적으로 20~30명의 학생으로 구성된 코호트는 임상 평가자가 5점 만점 글로벌 등급과 주요 기능 체크리스트(상황 2에서와 같이)를 통해 스테이션을 채점하는 '전통적인 단일 시험 OSCE'를 사용하여 평가됩니다.  
A physician associate (PA, ‘physician assistant’ in the US) is a relatively new healthcare professional in the UK. The training programme typically consists of a graduate entry programme which provides a two-year university Masters-level qualification, following which new PAs practice as part of a team alongside fully qualified doctors (Health Education England 2015). The University of Leeds PA programme is assessed through a range of knowledge, performance and professional assessments, including end of year high stakes OSCEs. A cohort of typically 20–30 students are assessed using a ‘traditional single test OSCE’, where stations are scored by clinical assessors via a five-point global grade, and key features checklist (as in context 2).

이 연구에서는 4개 시험(2018년과 2019년의 Y1 및 Y2)의 PA 후보자 수준 데이터를 사용합니다. 표준은 일반적으로 시험장 수준에서 수정된 Angoff 방법을 사용하여 설정되며(McKinley and Norcini 2014), 본 연구의 일부는 BRM이 이러한 시험에서 표준 설정의 대체 또는 최소한 기본 접근법으로 사용될 수 있는 범위를 탐색합니다. 결과적으로 앙고프 표준 설정의 적용으로 인해 제한된 범위의 사후 분석 품질 데이터(예: 스테이션 수준 시설, R-제곱, 분산 그래프 검사)를 사용할 수 있습니다. 
In this study, we use PA candidate-level data from four administrations (Y1 and Y2 in 2018 and 2019). Standards are usually set using a modified Angoff method at the station level (McKinley and Norcini 2014), and part of our research explores the extent to which BRM can be used as a replacement or, at least, as the default approach to standard setting in these exams. Consequent to the application of Angoff standard setting, a limited range of post hoc analysis quality data is available (e.g. station level facility, R-squared, scatter graph inspection).

방법
Methods

세 가지 후보 상황 모두에서 공통적으로 사용되는 방법
Common methods across all three candidate contexts

위에서 설명한 대로 다양한 스테이션 수준 데이터를 사용하여 스테이션 및 테스트 수준 메트릭을 조사하고 스테이션의 글로벌 등급과 총 주요 기능/도메인 점수 간의 관계를 조사합니다(Pell 외. 2010). R-제곱 값이 '낮은'(예: 0.4 미만) 스테이션의 경우(Pell 외. 2010), 각 스테이션 내에서 등급과 점수가 충분한 변동을 보이는 정도도 평가합니다. 전반적인 접근 방식은 체크리스트/영역 점수와 글로벌 등급 간의 충분히 만족스러운 양의 관계와 각 스테이션 내 등급/점수의 적절한 분포를 기반으로 스테이션 수준에서 BRM이 '작동'하고 있다는 증거가 있는지 평가하는 것입니다. 
Using a range of station-level data as detailed above, we investigate station- and test-level metrics and examine the relationship between global grades and total key feature/domain scores in stations (Pell et al. 2010). For stations with ‘low’ R-Squared value (e.g. below 0.4) (Pell et al. 2010), we also assess the extent to which grades and scores show sufficient variation within each station. Our overall approach is to assess whether there is evidence that BRM is ‘working’ at the station level – based on a sufficiently satisfactory positive relationship between checklist/domain scores and global grades, and an adequate spread of grades/scores within each station.

PLAB2 시험에 특정한 방법
Methods specific to PLAB2 exams

PLAB2 데이터의 경우, 위에서 설명한 일반적인 분석 외에도 시험장 수준(n = 3645)에서 간단한 기술 및 상관 분석 방법을 사용하여 컷 점수, 시설(합격률) 및 R-제곱 값 간의 관계를 조사하고 여러 행정부에 걸쳐 동일한 시험장에서 컷 점수가 달라지는 정도를 측정합니다. 
For the PLAB2 data, in addition to the common analyses outlined above, we also use simple descriptive and correlational methods at the station level (n = 3645) to probe the relationships between cut-scores, facility (pass rate) and R-squared values, and to measure the extent to which cut scores vary for the same station across multiple administrations.

순차적 시험에 특화된 방법
Methods specific to sequential exams

순차적 시험의 경우, BRM에서 설정한 표준을 이전 시험의 주요 코호트에서 생성된 표준과 비교하여 상당히 다른 학생 코호트에서 표준의 일관성을 평가합니다. 이 논문에서 고려한 다른 두 가지 상황과 달리, 2차 시험에 응시한 학생들은 1차 시험에서 충분히 우수한 성적을 거두지 못했기 때문에 이것만으로는 '합격'할 수 없다는 점에서 전체 코호트를 대표하지 않는다는 점에서 '극단적인 하위 집단'이라고 정의할 수 있습니다. 이는 전통적인 '재시험 OSCE'와 같이 시험장 및 시험 품질을 보장하는 데 사용되는 일반적인 측정 항목의 적절한 해석에 영향을 미칩니다(Pell 외. 2010). 점수의 범위가 제한적이어서 점수 간 상관관계가 낮을 가능성이 높고(Bland and Altman 2011), 전체 코호트에서 사용할 때보다 스테이션 실패율이 높을 것으로 예상되기 때문에 일반적인 신뢰도 측정은 일반적으로 적절하지 않습니다. 
For the sequential context, we also compare the BRM-set standards with those generated from main cohorts in a previous administration in order to assess the consistency of the standards across these quite different cohorts of students. In contrast to the other two contexts considered in this paper, the students sitting the sequence two examinations are by definition an ‘extreme sub-group’ in the sense that they are not representative of the full cohort, having failed to perform sufficiently strongly in the first sequence to ‘pass’ based on this alone. This has implications for the appropriate interpretation of the usual range of metrics used for assuring station and exam quality, akin to a traditional ‘resit OSCE’ (Pell et al. 2010). Typical measures of reliability are not usually appropriate as scores are likely to have a limited range which lowers correlation between scores (Bland and Altman 2011), and station failure rates will be expected to be high compared to when used in the full cohort.

PA 시험에 특화된 방법
Methods specific to the PA exams

PA 시험의 경우, 현재 실제 표준을 제공하기 위해 사용되는 수정된 앙고프 접근법의 표준과 스테이션 수준 및 전체 BRM 표준도 비교합니다. 이러한 비교 작업을 통해 BRM이 설정한 표준에 대한 추가적인 타당성 증거를 제공할 수 있습니다. 다른 두 가지 컨텍스트인 PLAB2와 Sequential의 경우, 앙고프 판단을 사용할 수 없으므로 이러한 추가 분석이 불가능합니다. 또한 재샘플링 접근법을 사용하여 각 시험에서 전체 합격 점수의 표준 오차를 계산합니다(Homer et al. 2016).  
For the PA exam, we also compare station-level and overall BRM standards with those from the modified Angoff approach that is currently employed to provide the actual standard. This comparative work allows for the possibility of providing additional validity evidence for the BRM-set standards. Note that for the other two contexts, PLAB2 and Sequential, Angoff judgements are not available so this additional analysis is not possible. We also calculate the standard error of the overall pass mark in each exam using a resampling approach (Homer et al. 2016).

결과
Results

각 상황을 차례로 살펴보고 각 상황에서 수행한 주요 분석을 요약하여 BRM이 방어 가능한 표준을 제공하고 있다는 증거를 평가합니다. 먼저 시험의 전반적인 신뢰도를 살펴본 다음 BRM별 분석으로 넘어갑니다. 
We take each context in turn and summarise the key analyses we have carried out in each to assess the evidence that BRM is providing defensible standards. We first give the overall reliability of the exams and then move on to the BRM-specific analysis.

PLAB2 시험
PLAB2 exams

크론바흐 알파로 측정한 198개 18개 스테이션 시험의 신뢰도는 198개 알파 값 분포의 5번째, 50번째, 95번째 백분위수가 각각 0.64, 0.79, 0.87로 전반적으로 양호한 수준입니다. 
The reliability of these 198 18-station examinations, as measured by Cronbach’s alpha, is generally good with the 5th, 50th and 95th percentiles of the distribution of 198 alpha values being 0.64, 0.79, and 0.87, respectively.

글로벌 성적과 도메인 점수 간의 관계의 강도(R-제곱)
The strength of the relationship between global grades and domain scores (R-squared)

주요 분석을 위해 먼저 198개 시행의 R-제곱 값의 분포를 살펴봅니다. 분석 대상인 3,564개 시행의 평균 R-제곱 값은 0.75입니다(표준 편차 0.12, 5, 50 및 95번째 백분위수 = 각각 0.51, 0.77, 0.89). 이 데이터는 대부분의 시험장에서 글로벌 성적과 도메인 점수 간의 관계 강도가 매우 우수하다는 것을 나타내며, 이는 BRM이 일반적으로 이 시험에 대해 방어 가능한 표준을 제공하고 있음을 시사합니다(Pell 외. 2010). 
For our main analysis, we first look at the distribution of R-squared values across the 198 administrations. Across the 3,564 stations in the analysis, the mean value of R-squared is 0.75 (standard deviation 0.12; 5th, 50th and 95th percentiles = 0.51, 0.77, 0.89, respectively). This data indicates that in the vast majority of these stations the strength of the relationship between global grades and domain scores is very good – in turn suggesting that BRM is generally providing defensible standards for this examination (Pell et al. 2010).

R-제곱 값이 상대적으로 낮은 경우, 이는 도메인 점수가 서로 다른 글로벌 등급 간에 변별력이 크지 않다는 것을 의미합니다(Pell et al. 2010). 전체 데이터 세트에서 가장 극단적인 예(R-제곱 = 0.10)는 그림 1에 나와 있습니다(환자가 비뇨기 질환을 호소하는 스테이션):
Where the value of R-squared is relatively low, this implies that the domain scores are not discriminating strongly between different global grades (Pell et al. 2010). The most extreme example in the whole data set (R-squared = 0.10) is shown in Figure 1 (a station where a patient presents with a urinary problem):

이 스테이션의 단일 시험에 대한 이 스테이션 수준 도표는 글로벌 성적과 도메인 '점수' 간의 상관 관계를 강조합니다. 플롯의 각 '점'은 개별 평가자-응시자 관찰을 나타내며, 더 큰 '점'은 동일한 관찰/점수가 많음을 반영합니다. 그림 1에서는 대부분의 응시자가 전체 성적과 영역 점수 모두에서 상당히 높은 점수를 받고 있으며, 이 두 가지 측정치 모두에서 변별력이 상대적으로 부족합니다. 
This station level plot of a single administration of this station highlights the degree of correlation between a global grade and domain ‘score’. Each ‘dot’ on the plot represents an individual assessor-candidate observation, with bigger ‘dots’ reflecting a number of identical observation/scores. In Figure 1, there is a relative lack of discrimination in scores – most candidates are scoring quite highly in both global grades and domain scores, and there is a lack of spread in both of these measures.

이 중요한 지표의 값이 이처럼 낮다면, 표준 세트의 방어 가능성에 어떤 영향을 미칠까요? 일반적으로 전체 PLAB2 데이터 세트에서 스테이션의 R-제곱 값과 해당 스테이션 수준의 컷 점수 사이에는 약한 음의 상관관계가 있는 것으로 나타났습니다(r = -0.13, n = 3564, p < .001). 이는 R-제곱 값이 낮을수록 일반적으로 약간 높은 컷 점수와 연관되어 잠재적으로 더 높은 실패율을 초래할 수 있음을 시사합니다. 
For such poor values of this important metric, the key question is what the impact is on the defensibility of the standard set? In general, across the full PLAB2 dataset, we find there is a weak negative correlation between R-squared values in stations and corresponding station-level cut-scores (r = −0.13, n = 3564, p < .001). This suggests that low values of R-squared are typically associated with slightly higher cut-scores, potentially leading to higher failure rates.

비뇨기 스테이션(그림 1에 표시된 단일 투여)은 해당 기간 동안 22회 시행되었습니다. 흥미롭게도, 이들 시행의 R-제곱 중앙값은 0.70으로 이 스테이션에서 낮은 R-제곱이 일반적이지 않다는 것을 매우 강력하게 시사하며, 따라서 스테이션 설계의 근본적인 문제라기보다는 개별 평가자 문제이거나 이 특정 관리의 스테이션에서 점수가 분산되지 않은 문제일 가능성이 높습니다. 이 22개 행정 구역의 컷 점수는 표준 편차가 0.86점(척도의 7.2%에 해당)으로 약간의 편차를 보였으며, 그림 1에 표시된 것처럼 R-제곱 값이 가장 낮은 컷 점수가 이 스테이션의 모든 시행에서 가장 높은 컷 점수를 생성합니다. 그러나 데이터 세트 전체에서 R-제곱 값이 낮은 스테이션의 비율은 5% 정도로 낮다는 점을 강조합니다.
The urinary station (single administration shown in Figure 1) has been administered 22 times over the period concerned. Interestingly, the median R-squared across these administrations is 0.70 which very strongly suggests that the low R-squared is not typical for this station, and therefore is likely to be either an individual assessor issue, and/or a problem with lack of spread in the scores in the station in this particular administration, rather than an underlying problem with the station design. The cut-scores across these 22 administrations show some variation, with a standard deviation of 0.86 domain marks (equivalent to 7.2% of the scale) – and the cut-score with the lowest R-squared value (as shown in Figure 1) produces the highest cut-score across all administrations of this station. However, we emphasize that the prevalence of stations with poor R-squared values across the data set as a whole is low (e.g. 5%).

스테이션 수준 통과율
Station level pass rates

스테이션 수준에서의 통과율은 3564개 스테이션 시행의 중앙값이 74%입니다. 이는 일반적으로 상당수의 응시자가 스테이션에서 상대적으로 낮은 점수를 받고 있으며, 대부분의 코호트 내에서 능력의 범위가 상당히 넓다는 것을 나타냅니다. 즉, 각 코호트 내에는 잘하는 응시자 외에도 낮은 점수를 받는 응시자가 상당수 존재한다는 뜻입니다. 이러한 상황에서 BRM을 성공적으로 적용하기 위한 핵심 요건은 스테이션 내 후보자 성과 범위이며, 이 문제는 논의에서 다시 다룰 것입니다.
The pass rate at the station level has a median value of 74% across the 3564 station administrations. This indicates that typically a significant proportion of candidates are scoring relatively poorly in stations, and that there is a reasonably wide range of abilities within most cohorts – in other words, a significant number of candidates with each cohort are receiving low scores in addition to a number of candidates doing well. This range of candidate performances within stations is a key requirement for the successful application of BRM in these contexts, an issue we will return to in the Discussion.

스테이션 내 기준의 변화
Variation in the standard within stations

전체 데이터 세트에서 각 스테이션별 컷 점수의 변동은 (중앙값) 표준 편차가 5.6%로, 일반적으로 BRM에서 설정한 컷 점수가 여러 스테이션에 걸쳐 대체로 안정적이라는 것을 시사합니다. 
The variation in cut-scores for each station across the full dataset has a (median) standard deviation of 5.6% which suggests that generally the cut-scores set by BRM are broadly stable across administrations.

시퀀스 2 시험
Sequence 2 exams

이 하위 그룹은 정의상 전체 코호트보다 약하기 때문에 시퀀스 2에 대한 신뢰도 수치를 따로 계산하는 것은 적절하지 않습니다. 대신, 의사 결정 이론을 사용하여 시퀀스 1 점수만을 기반으로 전체 신뢰도를 추정합니다. (Pell 외. 2013). 이러한 맥락에서 전체 시퀀스에 대한 오메가-총계(Revelle and Zinbarg 2009)는 연구된 6개의 검사 각각에 대해 0.80(또는 그 이상)입니다.
It is not appropriate to calculate reliability figures for Sequence 2 in isolation as this sub-group, is by definition, weaker than the full cohort. Instead, we use decision theory to estimate overall reliability based on Sequence 1 scores alone. (Pell et al. 2013). In this context, omega-total (Revelle and Zinbarg 2009) for the full sequence is of the order of 0.80 (or greater) for each of the six examinations studied.

2017년부터 2019년까지 6번의 순차적 시험에서 BRM 지표와 점수 분포가 충분히 만족스러운 것으로 판단되어 해당 커트라인 점수를 두 번째 시험의 표준 설정에 자신 있게 사용할 수 있는 시험장의 수를 표 1에 제시했습니다. 그렇지 않은 경우, 전체 코호트 시행에서 도출된 해당 스테이션의 이전 컷 점수와 만족스러운 BRM 지표가 사용되었습니다. 
Across the six sequential examinations from 2017–2019, Table 1 gives the number of stations where BRM metrics and spread of marks were judged sufficiently satisfactory for the corresponding cut scores to be used with confidence in the standard setting for the second part of the sequence. Where this was not the case, the previous cut-score for the station, derived from administration in a full cohort and with satisfactory BRM metrics, was used.

표 1에 요약된 분석에 따르면 BRM은 대부분의 시험장(86%)에서 표준 설정에 대해 실현 가능하고 방어 가능한 접근 방식을 제공합니다. 경계선 회귀가 적용되지 않는 좋은 예가 그림 2에 나와 있는 무릎 시험장(2018년 5학년, 22명의 응시자)입니다. 여기서 문제는 전체 성적의 분산이 부족하여(5개의 가능한 성적 중 2개만 사용됨) R-제곱이 낮고(=0.14), 결과적으로 이 시험의 BRM 합격 점수의 정확성에 대한 우려로 이어진다는 점입니다. 

The analysis summarized in Table 1 suggests that BRM provides a feasible, and defensible approach to standard setting in these exams for a large percentage of stations (86%). A good example of where borderline regression is not doing so is shown in Figure 2, a knee examination station (Year 5, 2018, 22 candidates). The problem here is lack of spread in the global grades (only two of five possible grades employed), which leads to a low R-squared (=0.14) and subsequently to concern about the accuracy of the BRM pass mark for this administration.

이 스테이션의 경우, 지표가 양호한 전체 코호트에서 이전에 이 스테이션을 사용한 BRM 컷 점수가 선호됩니다. 
For this station, the BRM cut-score from a previous use of this station in a full cohort with good metrics is preferred.

주요 코호트 표준과의 비교
Comparison with main cohort standards

다음으로 BRM 소규모 코호트 전체 표준(4년차 및 5년차에 각각 10개 또는 12개의 시퀀스 2 스테이션에 대해)을 이전 전체 코호트 데이터에서 생성된 표준과 비교합니다. 고려 중인 6개의 관리 중 4개의 관리에서 BRM이 소규모 코호트에서 약간 더 높은 표준을 생성하는 경향(5% 정도)이 있는 것으로 보입니다. 이 문제는 분명히 추가 연구의 가치가 있습니다. 
We next compare the BRM small cohort overall standard (for the 10 or 12 sequence 2 stations in Year 4 and Year 5, respectively) with that for the standard generated from previous full cohort data. In four out of the six administrations under consideration, there appears to be a tendency for BRM to produce a slightly higher standard in small cohorts (of the order of 5%). This issue is clearly worthy of additional research.

PA 시험
PA exams

2018년의 네 가지 PA 시험 각각에 대해 크론바흐 알파로 계산한 전체 시험 수준의 신뢰도는 각 경우에서 최소 0.80입니다. 
Overall test level reliability as calculated by Cronbach’s alpha for each of the four PA examinations from 2018 is at least 0.80 in each case.

표 2에는 분산 그래프와 R-제곱 값을 육안으로 확인한 결과, 각 시험에서 BRM 지표가 만족스러운 것으로 판정된 스테이션 수가 자세히 나와 있습니다. 대부분의 스테이션(88%)에서 데이터에 따르면 BRM 표준을 방어할 수 있는 것으로 나타났습니다
Table 2 details the number of stations in each examination where BRM metrics were judged satisfactory based on visual inspection of scatter graphs and values of R-squared. We see that in the majority of stations (88%) the data suggest that BRM standards are defensible.

컷 점수의 표준 오차
Standard error of the cut-score

PA 시험에 대한 전체 BRM 합격 점수의 표준 오차는 재샘플링 방법을 사용하여 추정되었으며, 네 번의 시험에서 각각 1% 정도입니다. 이 값은 문헌에서 발견된 주요 시험에서 추정된 값(≈1.4%)보다 낮다는 점에서 허용 가능한 것으로 간주됩니다(Muijtjens 외. 2003; Homer 외. 2016). 
The standard errors of the overall BRM pass mark for the PA exams is estimated using resampling methods, and are of the order of 1% across each of the four examinations. These values are considered acceptable, in that they are lower than extrapolated values from main exams found in the literature (≈1.4%) (Muijtjens et al. 2003; Homer et al. 2016).

앙고프 판정과의 비교
Comparison with Angoff judgements

기존 관행의 일환으로, PA OSCE 팀은 각 스테이션에 대해 스테이션을 통과할 수 있는 최소한의 유능한 PA 후보자의 예상 비율을 기준으로 각 스테이션에 대한 앙고프형 판정을 내립니다. 이 접근 방식을 BRM에서 파생된 표준과 비교하는 데는 분명한 관심이 있습니다. 그림 3은 2018년 1차 시험의 산포 그래프로, BRM 기준(가로)과 앙고프 기준(세로)을 비교하여 총 스테이션 점수의 백분율로 계산한 것입니다. 파란색(점선)은 가장 잘 맞는 선(r = 0.68, n = 16, p = .004)이고 주황색(굵은선)은 y = x입니다(즉, 각 표준 설정 방법의 컷 점수가 각 스테이션에서 동일하다면 모두 이 선에 있을 것임): 

As part of established practice, the PA OSCE team produces an Angoff-type judgement of each station in terms of the expected proportion of minimally competent PA candidates who would pass the station. There is obvious interest in comparing this approach with a BRM derived standard. Figure 3 gives a scatter graph for the 2018 Year 1 examination comparing BRM standards (horizontally) with those from the Angoff (vertically) – both calculated as the percentage of the total station score. The blue (dashed) line is the line of best fit (r = 0.68, n = 16, p = .004), the orange (bold) line is y = x (i.e. if cut-scores for each standard setting method were the same in each station they would all be on this line):

그림 3은 2018년 1차 PA 시험에서 난이도가 높은 시험장(그래프의 왼쪽 하단)의 경우 Angoff가 BRM(굵은 선 위의 점)에 비해 더 높은 커트 점수를 부여하는 경향이 있고, 쉬운 시험장(오른쪽 상단)의 경우 더 낮은 커트 점수를 부여하는 경향이 있음을 보여줍니다(굵은 선 아래의 점). 이러한 차이로 인해 Angoff는 전체 커트라인 점수가 69% 대 66%로 더 높았으며, 이는 모든 스테이션에서 Angoff가 설정한 커트라인 점수에 해당하는 약 20명의 응시자 코호트에서 한 명의 추가 불합격이 발생한 것과 같습니다. 

Figure 3 shows that for more challenging stations (bottom left corner of graph), Angoff tends to give a higher cut-score compared to BRM (dots above the bold line) for the 2018 Year 1 PA exam, and for easier stations (top right) it tends to give a lower cut-score (dots below bold line). These differences result in Angoff giving a higher overall cut-score – 69 vs. 66% for BRM, and this corresponds to one additional failure for the cohort of approximately 20 candidates under an Angoff set cut-score across all stations.

스테이션 수준에서도 2018년 1차 PA 시험에서 앙고프에 따른 개별 스테이션 불합격이 더 많았습니다(78 대 52). 마지막으로, BRM은 합격 점수의 편차가 더 컸습니다. BRM은 스테이션 전체에서 39%의 더 넓은(수평) 범위의 커트라인을 가진 반면, 앵고프(수직) 범위는 19%에 불과했으며, 다른 PA 데이터에서도 비슷한 결과가 나타났습니다. 이러한 분석 결과를 합리적으로 해석하면 BRM은 보다 현실적인 범위의 컷 점수를 산출하는 반면, Angoff 점수는 보다 제한된 범위를 보여줍니다.
At the station level, there are also more individual station failures in the 2018 Year 1 PA exam under Angoff (78 vs. 52). Finally, BRM gives more variation in passing scores – BRM has a broader (horizontal) range of 39% in cut-scores across stations compared to a more constricted Angoff (vertical) range of 19% – with similar findings in the other PA data. A reasonable interpretation of these analyses suggest that BRM is producing a more realistic range of cut-scores, whereas Angoff scores show a more restricted range.

토론
Discussion

세 가지 서로 다른 다양한 소규모 코호트 OSCE 컨텍스트의 대규모 세트 스테이션에서 BRM은 대다수의 스테이션에서 효과적으로 작동하는 것으로 나타났습니다(각 컨텍스트에서 86% 이상). BRM이 만족스러운 스테이션 수준의 지표를 생성하는 경우, 우리는 이것이 높은 위험도 테스트 결과의 사용을 정당화하는 광범위한 유효성 논증에 중요한 증거를 제공한다고 주장합니다(Kane 2013). 
Across large set stations from three different and diverse small cohort OSCE contexts, BRM has been shown to function effectively in the vast majority of stations (over 86% in each context). Where BRM produces satisfactory station level metrics, we argue this contributes important evidence towards the wider validity argument in the justification of the use of high stakes test outcomes (Kane 2013).

표준 설정 방법으로서 BRM의 효과에 대한 기존의 가정은 긍정적으로 왜곡된 집단(Pell 외. 2010; McKinley와 Norcini 2014), 즉 대다수의 학생이 '유능-우수' 능력 범위에 속하는 대규모 응시자 코호트의 고위험도 데이터를 통해 정보를 얻는 경향이 있었습니다. 세 가지 상황 각각에서 우리는 BRM이 대부분의 스테이션에서 방어 가능한 표준을 제공할 수 있다는 증거를 제공했습니다. 그렇지 않은 경우, 이는 일반적으로 글로벌 성적과 체크리스트/도메인 점수 간의 관계가 좋지 않아 BRM 표준에 의문을 제기하기 때문입니다(Pell 외. 2010). 이 문제는 후보 점수가 충분히 분산되지 않아서 발생하는 경우가 많으며(예: 그림 1), 소규모 코호트의 경우 대규모 코호트에 비해 '제한된 범위'의 점수가 나올 위험이 분명히 더 큽니다. 이러한 가설에도 불구하고, 세 가지 상황 모두에서 이러한 위험의 유병률은 특별히 높지 않았으며, 이는 아마도 우수한 OSCE 시험장(및 채점) 설계와 응시자의 관찰된 성과에 대한 평가자의 글로벌 판단 능력(및 이에 대한 지원)의 상호작용을 반영하는 것일 수 있습니다.
Existing assumptions about the effectiveness of BRM as a standard setting method have tended to be informed by high stakes data from larger cohorts of candidates from a positively skewed population (Pell et al. 2010; McKinley and Norcini 2014) – namely, where the vast majority of students occupy a ‘competent-excellent’ range of ability. In each of our three contexts, we have provided evidence that BRM can deliver defensible standards in the majority of stations. Where this is not the case, this is usually because of a poor relationship between global grades and checklist/domain scores that brings into question the BRM standard (Pell et al. 2010). This problem is often brought about by a lack of sufficient spread in candidate scores (e.g. Figure 1), and for small cohorts, the risk of a ‘restricted range’ of scoring is obviously more likely compared to larger cohorts. Despite this hypothesis, the prevalence of this was not particularly high across any of the three contexts, perhaps reflecting the interplay of good OSCE station (and scoring) design and the ability of (and support for) assessors global judgments about observed performance of candidates.

이 시험은 상대적으로 높은 불합격률(일반적으로 스테이션 수준에서 26%)로 인해 코호트 내에서 점수가 더 가변적이라는 것을 나타내며, 이는 기술적 관점에서 BRM이 효과적으로 작동할 가능성이 더 높은 특성입니다(Draper and Smith 1998, 3장). 순차적 맥락에서 실패율은 일반적으로 더 낮으며(역의 실패율 중앙값은 18% 정도), PA 검사의 경우 이보다 더 낮습니다(≈12%). 우리의 분석은 실제로 이 가설을 부분적으로 확인시켜 주었으며, PLAB2 스테이션의 일부(≈5%)만이 BRM 적용에 문제가 있는 반면, 다른 두 컨텍스트에서는 BRM의 문제 유병률이 조금 더 높았습니다(시퀀스 2의 경우 14%, PA의 경우 12%). BRM에 따른 점수/등급(및 응시자 능력)의 확산 문제와 표준에 미치는 영향(및 이와 관련된 오류)은 더 많은 연구가 필요한 분야이지만, 우리의 연구에 따르면 BRM은 응시자 능력의 확산이 제한적인 일부 소규모 코호트 평가 형식 시험(예: 고도로 전문화된 대학원 시험)에는 여전히 적합하지 않을 수 있습니다. 
One might hypothesize that BRM standard setting should ‘work’ better in PLAB2 compared to the other contexts, since this exam has a relatively high failure rate (typically 26% at the station level) which indicates that scores are more variable within the cohort – a characteristic that, from a technical point of view, makes BRM more likely to function effectively (Draper and Smith 1998, chap. 3). The failure rates in the sequential context are generally lower (median failure rate in station of the order of 18%), and for the PA examinations are lower still (≈12%). Our analysis does indeed partially confirm this hypothesis, with only a small proportion (≈5%) of PLAB2 stations being problematic for the application of BRM, whereas the prevalence of issues with BRM is a little higher in the other two contexts (14% for sequence 2, and 12% for PA). The issue of spread of marks/grades (and candidate ability) and the impact on standards (and error associated with this) under BRM is an area that requires more research but our work might indicate that BRM remains unsuited to some small cohort assessment formats testing where there is a limited spread of candidate ability (e.g. highly specialized postgraduate examinations).

평가자 엄격성 및 평가 설계
Assessor stringency and assessment design

세 가지 상황과 대규모 코호트 시험의 중요한 차이점 중 하나는 전자의 경우 병렬 회로가 없다는 것입니다(Harden 외. 2015, 6장). 즉, 세 가지 상황에서는 각 스테이션에 해당하는 평가자가 (보통) 한 명인 반면, 대규모 의과대학의 경우 병렬 회로가 20개 이상일 수 있으므로 각 스테이션은 많은 수의 개별 평가자가 평가하게 됩니다. 어떤 의미에서는 한 명의 평가자가 모든 응시자를 시험 전반에 걸쳐 동일한 평가자가 관찰하기 때문에 스테이션 채점에 일관성을 가져올 가능성이 더 높습니다. 반면, 소규모 코호트에서는 단일 평가자가 스테이션과 혼동될 수 있으며 스테이션 수준에서 평가자의 엄격성을 직접 비교할 수 있는 쉬운 방법이 없습니다(Pell 외. 2010; Yeates 외. 2019). 또한, 여러 서킷에 걸쳐 여러 평가자가 아닌 스테이션당 한 명의 평가자가 존재할 경우 동일한 스테이션을 모두 심사하는 동료 그룹에 비해 보정이 부족할 수 있습니다. 이 문제와 관련하여 Crossley 외(2019)의 최근 연구에서는 평가자가 변화에 대한 개방성과 개인적 판단에 대한 충실성 사이에서 균형을 잡는 '경계된 호기심'(동료의 비교 판단), 정서적 편향, '적당한 보수주의'의 복잡한 균형에 대해 설명합니다. 

One important difference between our three contexts and larger cohort exams is the lack of parallel circuits in the former (Harden et al. 2015, chap. 6). In other words, there is (usually) a single assessor corresponding to each station in our three contexts, whereas in a large undergraduate medical school, for example, there might be of the order of 20 or more parallel circuits, so that each station is assessed by a large number of individual assessors. In one sense, having a single assessor is more likely to bring consistency to the marking of the station since all candidates will be observed by the same set of assessors across the exam. On the other hand, in small cohorts, single assessors are confounded with stations and there is no easy way to directly compare assessor stringency at the station level (Pell et al. 2010; Yeates et al. 2019). The presence of a single assessor per station (rather than multiple across circuits) may also contribute to a lack of calibration compared to a group of peers all examining the same station. Pertinent to this issue, recent work by Crossley et al. (2019) describes a complex balance of ‘guarded curiosity’ (of comparative judgments by peers), affective bias and ‘moderated conservatism’ where assessors balance openness to change alongside loyalty to personal judgments.

이 주제를 좀 더 자세히 살펴보면, 평가자의 점수 엄격성(즉, '매와 비둘기')이 소규모 코호트에서 BRM 표준에 미치는 영향이 더 클 수 있습니다(Yeates and Sebok-Syer 2017). '관대한' 채점을 사용하면 점수가 분산형 다이어그램의 오른쪽 상단 모서리에 위치하는 경향이 있으며(그림 1 참조), 이는 회귀선을 통해 경계선 등급으로 다시 추정할 때 '정확한' 컷 점수에 상당한 불확실성이 있다는 것을 의미합니다. 이 문제는 마커가 더 엄격하면 점수가 경계선 등급에 가까워지고 외삽의 정도, 따라서 '오차'가 상대적으로 작아질 가능성이 높기 때문에 덜 심각할 수 있습니다. 이와 관련이 있지만 직관적이지 않을 수 있는 점은 덜 엄격한 평가자가 실제로 BRM에서 컷 점수를 높일 수 있다는 점입니다. 그림 1에 표시된 비뇨기 스테이션의 투여는 데이터 세트에서 동일한 스테이션의 22개 투여 중 컷 점수가 가장 높지만 평가자는 상대적으로 높은 점수를 부여하고 있으며 평가자 엄격도 척도의 비둘기파 쪽에 속할 가능성이 높습니다. 이러한 문제는 분명 복잡하며, 소규모 코호트 시험에서 평가자 선정 및 교육과 관련하여 더 많은 사고를 도울 수 있는 통계적 시뮬레이션 방법(Currie and Cleland 2016; Homer 외. 2016)을 사용하여 추가 조사를 하는 것이 도움이 될 수 있습니다. 
Exploring this theme further, the impact of assessor scoring stringency (i.e. ‘hawks and doves’) (Yeates and Sebok-Syer 2017) is likely to be greater on BRM standards in small cohorts. With ‘generous’ markers, the scores will tend to be in the top right corner of the scatter diagram (see Figure 1) and this means that there is considerable uncertainty in the ‘correct’ cut-score when extrapolating back towards the borderline grade via the regression line. This issue is perhaps less acute with stricter markers as then the scores will be near the borderline grade and the degree of extrapolation, and hence the ‘error’, is, therefore, likely to be smaller in comparison. A related, but perhaps, counter-intuitive point is that less stringent assessors might actually raise the cut-score under BRM – the administration of the urinary station shown in Figure 1 has the highest cut-score out of the 22 administration of the same station in the dataset, and yet the assessor is giving relatively high scores and is likely to be on the dovish end of the assessor stringency scale. Clearly, these issues are complex and would benefit from further investigation, perhaps using statistical simulation methods (Currie and Cleland 2016; Homer et al. 2016), which could aid further thinking with regard to the selection and training of assessors in small cohort exams.

설계 문제에 관한 마지막 의견은 글로벌 성적에 대한 평가 척도의 성격과 관련이 있습니다. 예를 들어 상황에 따라 4점 또는 5점 척도가 더 적절한지, 소규모 코호트에서는 더 짧은 척도를 선호할 수 있는지를 조사하기 위해서는 더 많은 연구가 필요합니다. 한 가지 권장 사항은 응시자 풀의 능력 프로필을 광범위하게 반영하여 평가자가 실제로 모든 성적을 사용할 가능성을 높이는 것입니다. 교수진은 평가 척도를 작성하기 위해 '안전'의 양쪽에서 볼 수 있는 성과 범위를 개념화해야 하며, 이 과정을 정기적으로 검토할 수 있습니다. 세 가지 상황 모두에서 이 척도는 여러 개의 합격 등급과 하나의 불합격 등급으로 구성된 비대칭형입니다. 저희가 아는 한, BRM에 따라 다르게 구성된 글로벌 평가 척도의 효율성을 비교한 연구는 아직 발표되지 않았습니다.
A final comment concerning design issues relate to the nature of the rating scale for the global grade. More research is needed to investigate whether, for example, four or five-point scales are more appropriate depending on the context – and perhaps in small cohorts the evidence might favour a shorter scale. One thing we recommend is that the scale broadly reflects the ability profile of the candidate pool – thereby making it more likely that all grades are actually used by assessors. Faculty should conceptualize the range of performances that are seen, either side of just ‘safe’ to produce the rating scale, and this process can be reviewed regularly. In all three of our contexts the scale is asymmetric, with multiple passing grades and a single fail grade. To our knowledge, there is no published work comparing the efficacy of differently constructed global rating scales under BRM.

다른 표준 설정 접근 방식과의 비교
Comparisons with other standard setting approaches

일반적으로 저희는 스테이션 설계 요소, 현재 의료 관행, 평가자 교육 표준이 지속적으로 발전하고 있는 이전 시행의 데이터에서 파생된 표준보다는 실제 시험의 데이터를 사용하여 설정된 표준을 선호합니다. 이러한 모든 요소를 점수/등급 부여 패턴에 충분히 고려하고 그에 따라 기준을 설정할 수 있는 것은 현 행정부에서만 가능합니다. 그러나 6번의 순차적 시험 시행을 분석한 결과, 시험 대상인 소규모 코호트에서 직접 도출한 2단계 스테이션의 BRM 도출 표준과 대규모 코호트에서 도출한 동일한 스테이션의 표준(예: 1단계의 일부로 설계된 경우)에는 약간의 차이가 있는 것으로 나타났습니다. 이는 분명히 중요한 문제이며, 이러한 차이가 소규모 코호트와 대규모 코호트 간 평가자 행동의 실질적이고 체계적인 변화의 결과인지 더 잘 이해하기 위해 추가 조사가 필요합니다. 시퀀스 2 시험에서 학생들은 정의상 더 약한 하위 그룹에 속하며, 평가자가 어느 정도는 시퀀스 1 시험보다 더 높은 지분을 가진 것으로 인식할 수 있습니다. 이러한 지식이 평가자가 제공하는 채점에 영향을 미칠 수 있나요? 
As a general principle, we prefer standards set using data from the actual examination, rather than that derived from data from previous administrations – elements of station design, current medical practice, and standards of assessor training are constantly developing. It is only in the current administration that all these factors can be taken into account fully in the pattern of scores/grades awarded, and the standard thereby set. However, analysis of six sequential test administrations has shown small differences in the BRM derived standards of Sequence 2 stations when derived directly from the small cohort examined versus those from that same stations derived from larger cohorts (e.g. when blueprinted as part of Sequence 1). This is clearly an important issue and merits further investigation to better understand whether these differences are the result of substantive, systematic changes in assessor behaviour between small and large cohorts. In the sequence 2 examination, the students are by definition a weaker sub-group, and to an extent, the stakes may be perceived by assessors to be higher than they are in the sequence 1 examination. Might this knowledge influence the marking that assessors provide?

PA 시험에서 우리는 평가자가 앙고프 점수를 제공할 때 극단적인 점수를 피하는 경향이 있음을 보았습니다(BRM에서는 이 문제가 훨씬 덜함). 이는 평가자가 전체 척도를 사용하는 것을 꺼리는 작업장 기반 평가에서 잘 알려진 문제의 반향을 담고 있습니다(Crossley and Jolly 2012). 선험적 표준 설정 회의에서 이러한 꺼려하는 것으로 추정되는 사회적 이유도 있을 수 있지만(Fitzpatrick 1989), 현재 연구에는 이 문제에 대해 언급할 만한 데이터가 없습니다.
In the PA exam, we have seen that assessors tend to shy away from extremes when providing their Angoff scores (and that this is far less of a problem with BRM) – this carries an echo of the well-known issue in workplace-based assessment where there is a reluctance for assessors to use the full scale (Crossley and Jolly 2012). There may also be social reasons for this presumed reluctance in an a priori standard setting meeting (Fitzpatrick 1989) but the current study has no data to speak to this issue.

결론
Conclusions

이 연구는 기존의 가정에 도전하고 비교적 간단한 방법(예: 분산 그래프의 육안 검사 및 R-제곱 값 계산)을 사용하여 소규모 코호트의 맥락에서 BRM을 사용하는 것이 일반적으로 성공적일 수 있음을 보여주었습니다. 이 논문에서는 회귀 기반 접근법의 견고성을 판단하기 위한 보다 기술적 접근법(예: 견고한 회귀, 베이지안 방법 또는 보다 정교한 모델링 접근법)은 피했지만, 이러한 접근법은 향후에 추가로 적용할 가치가 있을 것입니다(Wilcox 2012, 10장; Tavakol 외. 2018). 정기적으로 사용되는 스테이션의 표준이 정확히 무엇을 의미하는지에 대한 철학적 문제도 있지만, 예를 들어 해당 날짜의 표준인지 아니면 이전 시행의 모든 데이터를 사용하여 표준을 도출해야 하는지에 대해서는 이 논문의 범위를 넘어서는 철학적 문제도 있습니다.
Challenging established assumptions, and using relatively simple methods (e.g. visual inspection of scatter graphs and calculation of R-squared values), this study has shown that the use of BRM in the context of the small cohorts can be generally successful. We have avoided in this paper more technical approaches to judging robustness of regression-based approaches (e.g. robust regression, Bayesian methods, or more sophisticated modelling approaches) but these might well merit further application in the future (Wilcox 2012, chap. 10; Tavakol et al. 2018). There are also philosophical issues that are worthy of further consideration, but beyond the scope of this paper, regarding what exactly we mean by the standard for a station that is used regularly – for example, is it the standard on the day in question, or should we use all data from previous administrations to derive the standard?

그러나 실용적인 관점에서 볼 때, 가급적이면 이전에 만족스러운 스테이션 성과를 기반으로 한 기존 컷 점수가 소규모 코호트 시험의 모든 스테이션에 이상적으로 제공되어야, BRM에 문제가 발생했을 때(예: 점수 확산 부족) 스테이션을 제거할 필요 없이 이 컷 점수가 대체할 수 있습니다. 저희는 지표가 좋지 않다는 것은 스테이션에 문제가 있다는 것을 의미할 수 있음을 잘 알고 있습니다(예: 설계 문제, 예상 성능 수준에 대한 이해 부족, 평가자 교육 문제). 간결성의 원칙과 청사진을 유지해야 할 필요성에 따라 점수가 명백히 잘못되지 않는 한 시험에서 해당 스테이션을 제거하지 않는 것이 좋습니다. 그러나 이러한 스테이션은 문제의 원인을 더 잘 이해하기 위해 시험 후 검토를 위해 플래그를 지정해야 합니다. 
However, from a practical point of view, extant cut-scores, preferably based on previous satisfactory station performance (Pell et al. 2010), should ideally be available for all stations in small cohort exams so that when problems with BRM do occur (e.g. a lack of spread of scores) these cut-scores can substitute without the need for the removal of the stations. We recognize that poor metrics might well indicate that there is a problem in the station (e.g. a design issue, or a lack of understanding of expected level of performance, or an assessor training issue). The principle of parsimony and the need to maintain the blueprint would suggest not removing the station from the exam unless scores are clearly erroneous. However, such stations should be flagged for post-examination review to better understand the causes of the problems.

사후 분석에 따라 BRM에 문제가 있는 것으로 판명되는 드문 경우를 대비하여 대규모 코호트에서는 '백업' 컷 점수가 어느 정도 필요하다고 주장할 수도 있지만, 그 자체가 청사진 작성 과정의 품질과 궁극적으로 평가의 타당성을 위협하는 저조한 스테이션을 제거하는 것에 만족하지 않는 한 그렇지 않습니다(Downing and Haladyna 2004). 
One could argue that the need for ‘backup’ cut-scores might also be true to an extent for larger cohorts for the rare occasions when BRM proves problematic based on post hoc analysis – unless one is happy with removing poorly performing stations which itself threatens the quality of blueprinting process and ultimately the validity of the assessment (Downing and Haladyna 2004).

모든 고품질 평가 도구의 개발 및 사용과 마찬가지로, 우리는 마지막으로 평가의 목적과 평가 결과에서 도출할 추론에 대한 명확한 표현을 기반으로 스테이션 수준 채점 도구(예: 글로벌 평가 척도, 주요 기능 체크리스트 또는 도메인 채점 척도)의 전반적인 설계에 항상 주의를 기울여야 한다는 점을 언급합니다(Kane 2013). BRM을 효과적으로 사용하려면 적절한 코호트 규모를 고려해야 하지만, 피검자의 이질성 정도, 양호한 시험장 설계, 만족스러운 평가자 교육 및 행동 등 다양한 다른 요인에 따라 달라질 수 있습니다.
As with all development and use of high quality assessment tools, we comment finally that care always needs to be taken in the overall design of station level scoring instruments (i.e. global rating scales, and key features checklists or domain scoring scales) based on clear articulation of the purpose(s) of the assessment and the inferences to be drawn from its outcomes (Kane 2013). Whilst the effective use of BRM should include consideration of adequate cohort size, it is also contingent on a range of other factors including the degree of examinee heterogeneity, good station design, and satisfactory assessor training and behaviour.

 


 

Med Teach. 2020 Mar;42(3):306-315. doi: 10.1080/0142159X.2019.1681388. Epub 2019 Oct 26.

Setting defensible standards in small cohort OSCEs: Understanding better when borderline regression can 'work'

Affiliations collapse

Affiliations

1Leeds Institute of Medical Education, School of Medicine, University of Leeds, Leeds, UK.

2School of Medicine, University of Liverpool, Liverpool, UK.

PMID: 31657266

DOI: 10.1080/0142159X.2019.1681388

Free article

 

Abstract

Introduction: Borderline regression (BRM) is considered problematic in small cohort OSCEs (e.g. n < 50), with institutions often relying on item-centred standard setting approaches which can be resource intensive and lack defensibility in performance tests.Methods: Through an analysis of post-hoc station- and test-level metrics, we investigate the application of BRM in three different small-cohort OSCE contexts: the exam for international medical graduates wanting to practice in the UK, senior sequential undergraduate exams, and Physician associates exams in a large UK medical school.Results: We find that BRM provides robust metrics and concomitantly defensible cut scores in the majority of stations (percentage of problematic stations 5, 14, and 12%, respectively across our three contexts). Where problems occur, this is generally due to an insufficiently strong relationship between global grades and checklist scores to be confident in the standard set by BRM in these stations.Conclusion: This work challenges previous assumptions about the application of BRM in small test cohorts. Where there is sufficient spread of ability, BRM will generally provide defensible standards, assuming careful design of station-level scoring instruments. However, extant station cut-scores are preferred as a substitute where BRM standard setting problems do occur.

OSCE를 위한 자원 효율적이고 신뢰할 수 있는 합격선 설정 방법: 표준화 환자를 단독 평가자로 하는 경계선 회귀 방법(Med Teach, 2022)
A resource efficient and reliable standard setting method for OSCEs: Borderline regression method using standardized patients as sole raters in clinical case encounters with medical students 
Felise B. Milana and Joseph H. Grochowalskib

 

소개
Introduction

의학교육이 학부(UME), 대학원(GME) 및 평생의학교육(CME) 프로그램 전반에 걸쳐 역량 기반 평가를 강조하는 방향으로 점점 더 이동함에 따라, 의학교육자가 이러한 평가와 그 결과의 질과 엄격성을 보장해야 할 필요성이 증가하고 있습니다(Pell 외. 2010). 마일스톤, EPA(위탁 가능한 전문 활동) 또는 역량에 관계없이 교육기관은 평가를 기반으로 내린 결정이 신뢰할 수 있고 방어할 수 있음을 모든 이해관계자에게 보장하는 데 필요한 지식과 기술을 습득해야 할 필요가 있습니다(Lockyer 외. 2017). 성취한 역량에 기반한 교육 시스템으로 전환해야 하는 상황에서 합격선 설정(역량을 입증하는 점수 결정으로 진급자 및/또는 재교육 대상자를 결정)이 더욱 중요해졌습니다. 그러나 교육 예산이 점점 더 타이트해지고 임상의 교수진의 임상 생산성 요구가 증가함에 따라 더 적은 리소스로 이 작업을 수행해야 하는 과제에 직면해 있습니다(Price 외. 2018). 
As medical education moves increasingly to emphasize competency-based assessments throughout the spectrum of undergraduate (UME), graduate (GME) and continuing medical education (CME) programs, there is an increased need for medical educators to ensure the quality and rigor of these assessments and their outcomes (Pell et al. 2010). Whether we are working with milestones, EPAs (Entrustable professional activities) or competencies, there is a need for institutions to acquire the knowledge and skills necessary to assure all stakeholders that the decisions made based on their assessments are reliable and defensible (Lockyer et al. 2017). With the imperative to move to an educational system based on competencies achieved, standard setting (determining the score that demonstrates competency to decide who moves forward and/or who must be remediated) becomes ever more crucial. However, as education budgets get tighter and as our clinician faculty have increasing clinical productivity demands, we are faced with the challenge of accomplishing this task with fewer resources (Price et al. 2018).

합격선 설정 결정은 복잡하며 교육기관의 문화, 정치적 분위기, 커리큘럼 프로그램, 리소스 등 다양한 변수에 따라 달라집니다(Downing and Yudkowsky 2009). 지난 20년 동안 성과 기반 평가를 위한 표준 설정 전략에 대한 지식이 엄청나게 성장했습니다(De Champlain 2018). 표준 설정 방법에는 일반적으로 두 가지 유형이 있습니다.

  • (1) 교수자가 예정된 시험과 무관하게 시험 자료를 검토할 수 있는 시험 자료 검토 방법(예: 앙고프 및 에벨 방법)
  • (2) 수험자의 수행을 검토하는 방법(예: 경계선, 경계선 회귀 및 대조군 방법)

영국과 캐나다에서는 보건의료 및 의학교육 시스템의 구조상 이를 허용하는 교수진이 평가자로 사용되는 경우가 많기 때문에 고부담 OSCE(관찰형 표준화 임상시험)에 사용되는 수험자 중심의 표준 설정 방법에 대한 많은 연구가 수행되었습니다(Price et al. 2018). 교수진은 각 스테이션에서 학습자를 관찰하고 체크리스트와 전체 평가 점수를 작성한 다음 경계선 방법을 사용하여 학습자의 점수와 합격 기준을 모두 결정하는 데 사용합니다. 교수 평가자를 사용하는 교육 환경에서 경계선 그룹 및 경계선 회귀 방법은 신뢰할 수 있고 실용적인 표준 설정 방법인 것으로 나타났습니다(Kilminster and Roberts 2004; Boursicot 외. 2006; Wood 외. 2006; Boursicot 외. 2007; Wilkinson 외. 2008; Hejri 외. 2013; Yousuf 외. 2015; Malau-Aduli 외. 2017). 
Standard setting decisions are complex and based on a multitude of variables that are specific to an institution’s culture, political climate, curricular program, and resources (Downing and Yudkowsky 2009). The past twenty years have seen an enormous growth of knowledge in standard setting strategies for performance-based assessments (De Champlain 2018). Standard setting methods are typically of two types;

  • (1) Those involving review of examination materials (e.g. Angoff and Ebel methods) where faculty can review these materials independent of scheduled testing, and
  • (2) Those involving review of examinee performance (e.g. Borderline, borderline regression and contrasting groups methods) (Kilminster and Roberts 2004; Pell et al. 2010).

Much of the work on the examinee-focused standard setting methods used for high stakes OSCEs (observed standardized clinical exam) has been done in the UK and Canada where faculty are used as raters, as the structure of their health care and medical education systems allow for this (Price et al. 2018). These faculty observe the learners at each station and complete checklists and global rating scores, which are then used to determine both the learners’ scores as well as the passing standard using the borderline method. In educational settings using faculty raters, the borderline group and borderline regression methods have been shown to be reliable and practical standard setting methods (Kilminster and Roberts 2004; Boursicot et al. 2006; Wood et al. 2006; Boursicot et al. 2007; Wilkinson et al. 2008; Hejri et al. 2013; Yousuf et al. 2015; Malau-Aduli et al. 2017).

현재 교수진이 평가에 참여하지 않는 OSCE에 사용되는 가장 신뢰할 수 있는 표준 설정 방법은 앙고프 방법과 그 파생 방법입니다(Kilminster and Roberts 2004). 그러나 경계선 방법과 달리 앙고프 표준 설정 방법은 합격 기준을 설정하는 소규모 전문가 그룹의 판단에 상당한 시간을 투자해야 합니다. 이 방법은 더 많은 비용으로 경계선 방법보다 덜 신뢰할 수 있는 표준을 생성하는 것으로 나타났습니다(도피니 외. 1997). 이러한 여러 가지 요인으로 인해 저희 학교를 포함한 미국의 많은 학교에서는 표준 설정에 규범 기반 기준을 사용해 왔습니다. 물론 이 방법은 역량 기반 평가를 실천하고자 하는 우리의 바람과는 상반됩니다.
Currently, the most reliable standard setting method used for OSCEs that does not involve the faculty being present for the assessment is the Angoff method and its derivations (Kilminster and Roberts 2004). However, in contrast to the borderline methods, the Angoff standard setting method requires significant investment of time from a small expert group of faculty whose judgments set the passing standards. The method has been shown to produce less reliable standards than the borderline methods at a greater cost (Dauphinee et al. 1997). Due to these many factors, many schools in the US, including ours, have used a norm-based criterion for standard setting. This method, of course, runs counter to our desire to practice competency-based assessment.

미국에서는 미국국립의학시험위원회(NBME)와 외국 의대 졸업생 교육위원회(ECFMG)는 물론 많은 의과대학에서 고도로 훈련된 표준화 환자(SP)를 사용하여 환자를 묘사하고 학생의 점수를 생성하는 체크리스트 또는 척도를 작성합니다(Zanten 외. 2007). 많은 교육기관에서 SP는 임상 술기에 대한 교육과 피드백을 제공하는 교육자로서도 중요한 역할을 합니다(Howley 2013; May et al. 2009). 표준화된 환자에 의한 학생의 임상 술기 평가가 신뢰할 수 있고 타당하다는 것을 보여주는 많은 문헌이 있습니다. SP 평가자가 교수 평가자만큼 신뢰할 수 있다는 일부 문헌도 있습니다: Han 등(2006)은 SP 평가자가 체크리스트 채점에서 의사 평가자와 동일한 신뢰도를 보였으며, 4학년 의대생 임상 술기 OSCE에서 전체 평가에서 의사보다 더 높은 신뢰도를 보였다고 밝혔습니다. 
In the U.S., both the National Board of Medical Examiners (NBME) and Educational Commission for Foreign Medical Graduates (ECFMG), as well as many medical schools, use highly trained standardized patients (SPs) to both portray the patients as well as complete the checklists or scales that create the students’ scores (Zanten et al. 2007). In many institutions SPs also play a key role as educators providing instruction and feedback on clinical skills (Howley 2013; May et al. 2009). There is a significant body of literature showing that the rating of students’ clinical skills by standardized patients is both reliable and valid (Boulet et al. 2002; Humphrey-Murto and Macfadyen 2002; Kilminster and Roberts 2004; Whelan et al. 2005; Han et al. 2006; McKinley and Norcini 2014). There is also some literature showing that SP raters may even be as reliable as faculty raters: Han et al. (2006) demonstrated SP raters had the same reliability as physician raters on checklist scoring and higher reliability than the physicians on global rating in a 4th year medical student clinical skills OSCE.

미국은 영국이나 캐나다와 같은 시스템보다 OSCE에 참석할 교수진의 시간이 더 제한되어 있으므로, 이 연구의 목표는 경계선 표준 설정 방법을 사용하는 데 필요한 글로벌 평가 점수를 작성하는 데 SP를 안정적으로 사용할 수 있는지 조사하는 것이었습니다. SP가 신뢰할 수 있는 점수를 제공할 수 있다면, 임상시험 OSCE에 교수진이 참석할 필요가 없어질 것입니다. 
Faculty time to be present for OSCEs is more limited in the USA than in systems such as the UK and Canada, so the goal of this study was to investigate whether SPs could reliably be used to complete the global rating score needed to use the borderline method of standard setting. If SPs could provide reliable scores, it would obviate the need for faculty to be present for the clinical encounter OSCE.

(의도된 목적에 따라) 신뢰할 수 있는 점수는 점수의 타당성을 뒷받침하는 데 필요한(충분하지는 않지만) 증거이며, 이는 지속적인 조사 과정입니다(Kane 2013). 부정확한 점수는 일관된 내용의 표현, 수험자 순위, 합격/불합격 결정, 예측 또는 기타 점수 활용을 뒷받침할 수 없습니다. 이 논문의 핵심 목표는 OSCE 설계 및 채점 결정을 기반으로 점수의 reliability과 dependability의 토대를 구축하는 것이었습니다. 물론 이 측정 방법을 개발하는 과정에서 내용 및 구성 타당도를 확립하기 위한 일반적인 접근 방식도 통합했으며, 이에 대해서는 방법에서 설명합니다. 
Reliable scores (for an intended purpose) is a necessary (but not sufficient) piece of evidence to have in support of score validity, which is an ongoing investigative process (Kane 2013). Imprecise scores cannot support representation of cohesive content, examinee ranking, pass/fail decisions, predictions, or other score uses in its absence. Our central goal in this paper was to establish the foundation of score reliability and dependability based on our OSCE design and scoring decisions. Of course, in our development of this method of measure, we also incorporated common approaches to establishing content and construct validity, which we describe in the methods.

방법
Methods

참가자
Participants

참가자는 우리 기관의 3학년 의대생 182명 전원을 포함했습니다. OSCE는 다양한 임상 시나리오를 제시하는 8개 스테이션으로 구성되었으며 필수 평가이므로 매년 100% 참여가 이루어졌습니다. 
Participants included all 182 third-year medical students at our institution. The OSCE had 8 stations presenting a variety of clinical scenarios and is a required assessment, so 100% participation was achieved yearly.

OSCE
The OSCE

학생들은 환자의 나이, 성별, 진료 장소(예: 응급실, 클리닉, 병동)가 주어지고 한 케이스당 15분 동안 3케이스에 대해서만 병력 청취를 하거나 5케이스에 대해 병력 및 신체검사를 하도록 지시받았습니다. 어떤 케이스에서도 절차적 술기를 평가하지 않았습니다.

  • 6개의 스테이션에서는 환자들이 해결해야 할 다양한 주요 불만 사항을 제시했습니다(5명은 직접 방문, 1명은 전화로). 이 스테이션은 집중적인 병력 청취, 집중적인 신체 진찰, 임상적으로 적절한 감별 진단에 기반한 적절한 관리 계획 수립 및 환자에게 해당 계획을 전달하는 학생의 능력을 평가하도록 설계되었습니다.
  • 다른 두 스테이션에서는 환자 상담이 주요 과제였습니다.

케이스는 핵심 임상 로테이션을 막 마친 학생에게 적합한 난이도로 설계되었습니다. 구성 및 내용 타당성을 확립하기 위해 전문가들은 OSCE 사례를 검토하여 의학, 정신과, 외과, 노인병, 신경과, 소아과 등 다양한 분야의 입원 및 외래 임상 문제를 다양하게 제공했는지 확인했습니다. 임상 술기 측정에 대한 포괄적이고 적절한 범위를 보장하기 위해 의사 교육자로 구성된 다학제적 위원회에서 사례를 작성했습니다. 임상 전문가들이 콘텐츠의 타당성과 임상적 정확성을 위해 사례를 검토했습니다. 
Students were given the patient’s age, gender and encounter location (i.e. ER, clinic, hospital ward) and instructed to do a history for only three cases or history and physical exam for five cases in the 15 minutes allotted per case. No procedural skills were assessed in any of the cases.

  • In six of the stations, patients presented (five in person, one by telephone) with chief complaints of varying acuity to be addressed. These stations were designed to assess the students’ ability to take a focused history, perform a focused physical, develop an appropriate management plan based on clinically appropriate differential diagnoses and communicate that plan to the patient.
  • In the other two stations, the primary task was patient counseling.

The cases were designed to have a difficulty level appropriate for a student who had just completed their core clinical rotations. To establish construct and content validity, experts reviewed the OSCE cases to ensure they offered a diverse array of both inpatient and outpatient clinical problems from varied disciplines including medicine, psychiatry, surgery, geriatrics, neurology and pediatrics. Cases were written by a multidisciplinary committee of physician educators to ensure comprehensive and adequate coverage of clinical skills measurement. Clinical specialists reviewed cases for content validity and clinical accuracy.

SP 교육
SP training

표준화된 환자(SP)가 술기 체크리스트(병력, 신체 검사 및 의사소통 기술)를 사용하여 (학생들이 진료 후 노트를 작성하는 10분 동안) 학생들의 수행을 평가했습니다. SP 그룹은 표준화 환자로 훈련받았으며 이 역할에 4~25년의 경력을 가진 전문 배우들이었습니다. 이들은 30년 동안 이 일을 해온 의사와 SP 트레이너가 각 사례에 맞게 모집하고 훈련했습니다. SP는 OSCE와 관련된 다분야 의사 그룹이 개발한 허용 가능한 신체 검사 기법 매뉴얼을 기반으로 신체 검사 기법 표준에 대해 의사로부터 광범위하게 교육을 받았습니다. 이들은 SP 트레이너로부터 표준화된 방식으로 사례를 묘사하고 학생들이 질문한 병력 항목을 안정적으로 보고할 수 있도록 사례에 대한 교육을 받았습니다. 글로벌 평가 항목(그림 1)에서는 SP에게 훈련받고 경험이 풍부한 SP로서의 관점과 해당 학습자의 환자가 되어본 느낌에 대해 글로벌 평가를 하도록 요구했지만, 교수 평가자에게 요청하는 것처럼 임상적 판단을 하도록 요구하지는 않았습니다. 
The students’ performances were evaluated by standardized patients (SPs) using skills checklists (history, physical exam and communication skills), during the 10 minutes that the students had to write their post-encounter note. The group of SPs were professional actors who had been trained as standardized patients and had from 4 to 25 years of experience in this role. They were recruited and trained for each case by a physician and SP trainer who had been doing this work for 30 years. The SPs were extensively trained by the physician on physical exam technique standards based on a manual of acceptable physical exam maneuvers that had been developed by a multi-disciplinary group of physicians involved with the OSCE. They were trained on the cases by the SP trainer to both portray the case in a standardized fashion as well as to reliably report which history items had been asked by the students. The global rating item (Figure 1) required the SPs to make a global rating from their perspective as a trained and experienced SP as well as what it was like to be this learner’s patient, but did not ask them to make a clinical judgment as would be asked of a faculty rater.

저자 중 한 명은 SP 트레이너와 협력하여 약 60분 동안 의사소통 기술 체크리스트 및 글로벌 평가 항목 사용에 대한 참조 프레임 평가자 교육(Holmboe and Hawkins 2008) 세션을 진행했습니다. 참조 프레임 훈련은 수행 차원 훈련의 연장선이며 평가자 간 신뢰도를 높이는 데 매우 효과적인 것으로 나타났습니다(Roch 외. 2012). 저희 교육에서는 SP에게 다양한 역량 수준에서 수행한 이전 학생들의 비디오 클립을 시청하게 하고, 평가할 동일한 사례를 묘사한 표준화 환자를 인터뷰한 후, SP가 의사소통 기술 체크리스트와 글로벌 평가 항목의 일부를 완료하도록 했습니다. 각 영상이 끝난 후 SP는 주어진 항목에 대한 자신의 등급을 보고하기 위해 손을 들어 응답했습니다. 의견이 일치하지 않는 경우 평가자는 자신이 선택한 이유를 설명했습니다. 평가자에게 행동 앵커를 참조하고, 행동을 적절한 차원으로 분류하고, 각 행동의 효과를 탐색하고, 행동이 역량 표준을 충족할 때 강화했습니다. 각 항목은 합의에 도달할 때까지 논의되었습니다. 
One of the authors worked with the SP trainer to administer a frame-of-reference rater training (Holmboe and Hawkins 2008) session on the use of the communication skills checklist and global rating item, lasting about 60 minutes. Frame of reference training is an extension of performance dimension training and has been shown to be very effective in increasing inter-rater reliability (Roch et al. 2012). In our training we had the SPs view video clips of previous students performing at various competency levels and interviewing the standardized patients portraying the same cases they would be rating, the SPs completed portions of the communication skills checklist and global rating item. After each clip, the SPs responded to a show of hands to report their rating on a given item. When there was disagreement, raters explained their reasons for their choices. We referred raters to the behavioral anchors, categorized behaviors into appropriate dimensions, explored the effectiveness of each behavior and reinforced when behaviors met competency standards. Each item was discussed until consensus was reached.

교수진 교육
Faculty training

교수진은 검토자로 프로그램에 참여하면 2시간의 교육을 받습니다. 여기에는 각 사례에 대한 수행 기준을 제공하는 병력 및 신체 검사 체크리스트와 의사소통 기술 체크리스트에 대한 행동 앵커에 대한 광범위한 논의가 포함됩니다. 또한 교수진이 모여 점수, 비디오 및 SP 코멘트를 논의하여 학생이 합격에 필요한 역량 기준을 충족하는지 여부를 결정하는 추가 회의가 있습니다. 
Faculty receive a 2-hour training when they enter the program as reviewers. This includes extensive discussion of the history and physical exam checklists and behavioral anchors for communication skills checklist which provide a performance standard for each case. In addition, there are additional meetings where faculty meet to discuss the scores, videos and SP comments to decide whether students meet the competency standard for passing.

도구: 역사, 신체 검사 및 커뮤니케이션 기술 체크리스트
Instruments: History, physical exam, and communication skills checklists

OSCE의 각 케이스에는 약 14개 항목으로 구성된 케이스별 병력 체크리스트가 있습니다. 신체검사가 포함된 사례의 경우 약 8개의 항목으로 구성된 케이스별 신체검사 체크리스트가 있었습니다(스테이션 사례 요약 및 체크리스트 항목 수는 표 1 참조). 이 두 가지 사례별 체크리스트의 항목은 여러 전문 분야로 구성된 임상 교수진 그룹이 해당 사례의 감별 진단을 결정하는 데 필수적인 항목으로 선정했습니다. 
Each case in the OSCE had a case-specific history checklist with approximately 14 items. For cases that included a physical exam, there was a case-specific physical exam checklist with approximately eight items (Table 1 for a breakdown of station case summaries and checklist item counts). The items on both of these case-specific checklists were chosen by a multi-specialty group of clinical faculty as items essential to the determination of the differential diagnoses for that case.


그런 다음 행동에 기반한 의사소통 기술 체크리스트를 모든 사례에 사용했습니다. 이 체크리스트는 2004년 3년차 OSCE를 위해 다른 기관과 협력하여 처음 개발되었으며, 2006년에 의료 커뮤니케이션 아카데미에서 개발하여 우리 기관에서 의사소통 기술을 교육하는 데 사용하는 3기능 모델파트너십, 공감, 사과, 존중, 정당화 및 지원(PEARLS) 라포 형성 모델(Cole and Bird 2013)과 보다 밀접하게 일치하도록 개정되었습니다. 이 체크리스트는 교수진과 표준화 환자의 피드백을 바탕으로 2010년에 현재 버전(부록 1)으로 한 번 더 개정되었습니다. 체크리스트는 정보 수집(4개 항목), 촉진(2개 항목), 영어 능력(1개 항목), 관계 형성(3개 항목), 환자 교육(2개 항목)의 기술 영역으로 구성되어 있습니다. 체크리스트는 일반화 가능성 이론을 사용하여 분석되었으며, 이번 3년차 OSCE에 사용하기에 Φ̂=0.79의 점수 신뢰도가 있는 것으로 나타났습니다.
The behaviorally anchored communication skills checklist was then used across all cases. The checklist was first developed in 2004 in collaboration with another institution for the 3rd year OSCE and was revised in 2006 to more closely align with the 3-function model and Partnership, Empathy, Apology, Respect, Legitimation, and Support (PEARLS) model of rapport building (Cole and Bird 2013), developed by the Academy of Communication in Healthcare and used for teaching communication skills at our institution. It was revised once more to its current version (Supplementary Appendix 1) in 2010 based on feedback from faculty and standardized patients. The checklist is organized into the following skill areas: information gathering (four items), facilitation (two items), English Language proficiency (one item), relationship building (three items), and patient education (two items). The checklist was analyzed using generalizability theory and found to produce score reliability of Φ̂=0.79  for use with this third year OSCE.

글로벌 평가 항목
The global rating item

위에서 설명한 체크리스트 외에도 학생의 정량 점수에 포함되지 않고 표준 설정에만 사용되는 5점 만점의 글로벌 평가 항목이 하나 있습니다(그림 1). 영국과 경계선 회귀에 관한 많은 문헌에서 사용된 글로벌 평가 항목의 저자(Boursicot 외. 2007, Homer and Pell 2009)는 저자와 이 항목을 공유했으며, SP의 글로벌 평가에 대해 수행한 일부 작업을 바탕으로 SP와 함께 사용할 수 있도록 개정하는 데 조언을 제공했습니다. SP 트레이너와 소수의 숙련된 SP로부터 SP로서의 관점에서 판단할 수 있다고 생각하는 항목에 대한 의견을 받았습니다. 이 작성자는 원래의 글로벌 평가 항목에서 5가지 핵심 영역을 파악하고 환자의 관점에 맞게 문구를 수정했습니다. 
In addition to the above checklists described, there is a single five-point global rating item (Figure 1) that does not count towards the students’ quantitative score but is used solely for standard setting. The authors of the global rating item used in the UK and in much of the literature on borderline regression (Boursicot et al. 2007; Homer and Pell 2009) shared the item with the authors and advised us in the revision of it for use with the SPs based on some work they had done with global rating from SPs. We received input from the SP trainer and a small group of experienced SPs as to what they felt they could make a judgment on from their perspective as an SP. This author identified five key domains in the original global rating item and revised the wording to match the patient perspective.

분석
Analyses

먼저 체크리스트와 경계선 방식을 사용할 필요가 있는지, 아니면 글로벌 평가 점수가 합격과 불합격을 결정할 수 있을 만큼 정확하고 신뢰할 수 있는지를 고려했습니다. 우리는 G 이론을 사용하여 글로벌 점수의 컷 점수 신뢰도(Brennan and Kane 1977)를 계산하여 컷 결정을 내릴 때 관찰된 점수의 정확성을 평가했습니다. 
We first considered whether it was necessary to use the checklist and borderline method at all, or whether the global rating scores were precise and reliable enough to make pass or fail decisions. We calculated the cut score dependability (Brennan and Kane 1977) of the global scores using G-theory, assessing the accuracy of observed scores for making cut decisions.

저희는 Homer와 Pell(2009)의 제안(보충 부록 2, A4)에 따라 OSCE 점수의 품질과 경계선 회귀 결과를 평가했으며, 글로벌 점수와 스테이션 점수에 대해 각각 무작위 효과 분산분석(random-effects ANOVA)을 실시했습니다. 이를 통해 스테이션/평가자 점수가 전반적으로 얼마나 다른지, 스테이션에서 개인별 점수가 얼마나 다른지, 학습자 능력과 사례/평가자에 의해 설명되지 않는 분산의 비율(글로벌 평가 일관성 포함)을 설명했습니다(보충 부록 2, A5). 
We evaluated the quality of OSCE scores and borderline regression results based on suggestions from Homer and Pell (2009) (Supplementary Appendix 2, A4) and we conducted random-effects ANOVAs for the global scores and station scores, separately. This explained the degree that station/rater scores differed overall, how much person scores at stations differed, and the proportion of variance unexplained by learner ability and cases/raters, including global rating consistency (Supplementary Appendix 2, A5).

마지막으로, 기존 방법의 대안으로 경계선 회귀법의 타당성을 평가하기 위해 경계선 회귀법을 사용하여 결정된 전체 OSCE 점수에 대한 합격률을 기존의 규범 기반 표준 설정 방법(합격 점수가 평균보다 2 표준편차 이상 낮을 경우 합격)과 비교했습니다. 
Finally, we went on to evaluate the feasibility of the borderline regression method as an alternative to our former method, and we compared the passing rate for the overall OSCE score determined by this new method, using borderline regression, to our previous norm-based standard setting method (in which passing score is >2 standard deviations below the mean).

합격 기준을 충족하지 못한 지원자의 OSCE 결과를 면밀히 검토하여 점수에 불만족스러운 성과가 반영되었는지 확인했습니다. 숙련된 교수진은 비디오, 체크리스트 점수, SP 의견 및 학생 메모를 검토하여 불합격 점수가 실제로 표준 이하의 성과를 반영하는지, 불합격 결정이 타당하지 않거나 부정확한 합격 점수로 인한 것이 아닌지 확인했습니다. 
The OSCE results for persons that did not meet passing standards were carefully reviewed to ensure that their scores reflected unsatisfactory performance. Trained faculty reviewed videos, checklist scores, SP comments and student notes to ensure that sub-passing scores truly reflected substandard performance, and that a fail decision was not an artifact of an invalid or imprecise passing score.

결과
Results

먼저 SP에 의한 평가의 안정성과 신뢰성을 평가했습니다. 학생들의 체크리스트 총점 평균은 0.96점(SD = 0.053점)이었으며, 글로벌 평가 점수는 평균 3.25점(SD = 0.44점)이었습니다. 글로벌 점수의 신뢰도는 0.44로, 그 자체만으로는 중요한 의사 결정 기준으로 신뢰하기에는 너무 낮았습니다. 체크리스트는 한 명의 평가자만 채점했기 때문에 평가자 효과와 스테이션 효과가 혼동되어 평가자 신뢰도를 직접 추정할 수 없었습니다. 그러나 체크리스트와 같은 사례 세부 사항이 아닌 보다 일반적인 평가이므로 글로벌 평가에 대한 평가자 신뢰도를 평가할 수 있었습니다. SP의 글로벌 등급(스테이션 난이도와 혼동)의 클래스 내 상관관계로서의 신뢰도는 ICC = 0.09/(0.09 + 0.81/8) = 0.47(이 값의 출처는 표 2 참조)로, '괜찮은' 일관성을 보였습니다(Cicchetti 1994). 글로벌 평가 점수가 중요한 결정을 내리기에는 충분히 정확하지 않고 스테이션에 중첩된 평가자의 일관성이 공정한 수준이라는 점을 감안하여 경계선 회귀법에서 함께 사용된 글로벌 및 스테이션 점수를 기준으로 결정의 품질을 평가했습니다. 

We first assessed the stability and reliability of ratings by SPs. Students had an average total score on the checklists of 0.96 (SD = 0.053), and they had average global rating scores of 3.25 (SD = 0.44). The dependability of the global scores was 0.44, which was too low to be reliably used as a high-stakes decision point by itself. The checklists were only scored by one rater, and so rater effects and station effects were confounded, and rater reliability could not be directly estimated. However, rater reliability could be assessed for the global rating, as this was a more general rating and not specific to case details like the checklists. The reliability as intraclass correlations (Shrout and Fleiss 1979) of the SPs global ratings (confounded with station difficulty) was ICC = 0.09/(0.09 + 0.81/8) = 0.47 (Table 2 for the source of these values), which is ‘fair’ consistency (Cicchetti 1994). Given that the global rating score was not precise enough for high-stakes decisions and the raters nested in stations had only fair consistency of consistency, we assessed the quality of decisions based on global and station scores as used together in the borderline regression method.

 

 
 
 
 

 

 

경계선 회귀 방법을 사용한 합격 점수는 시범 도입 및 사용 후 7년간 일관되게 높았지만 그 정도는 다양했습니다(표 4). 전체 합격 점수는 0.6~4.0% 포인트 더 높았으며, 평균 차이는 2.64% 포인트였습니다. 그 결과 해당 연도에 시험을 치른 전체 학생의 1.1%(N = 2명)에서 7.4%(N = 12명)까지, 총 161명에서 182명에 이르는 매우 작지만 꾸준히 불합격 학생이 증가했습니다. 

The passing score using the borderline regression method was consistently higher but to a varying degree in the seven years following the institution of its piloting and use (Table 4). The overall passing score ranged from 0.6 to 4.0 percentage points higher with a mean difference of 2.64 percentage points. This resulted in an increase in a very small-but-consistent increase in student failures ranging from 1.1% (N = 2) to 7.4% (N = 12) of the total students taking the exam in the year, which ranged from a total of 161 to 182 students.

표 2의 결과는 무작위 효과 공변량 분석에서 체크리스트 점수와 전체 점수의 변동성 정도를 나타냅니다. 체크리스트 사례/평가자 측면의 표준편차는 0.056으로 전체 평균인 0.96에 비해 상대적으로 작았습니다. 마찬가지로 전체 점수의 경우 사례/평가자 표준편차는 0.31로, 0~5점 사이의 등급 범위에 비해 스테이션 간 변동성이 훨씬 작았습니다. 이러한 결과는 등급과 점수의 변동성이 부분적으로 스테이션 간의 차이로 인한 것으로, 스테이션 간 점수가 비교적 균일하다는 것을 시사합니다. 
The results in Table 2 describe the degree of variability of checklist scores and global scores from the random effects ANOVA analysis. The checklist case/rater facet had a standard deviation of 0.056, which is relatively small, compared to the overall mean of 0.96. Similarly, the global scores had a case/rater standard deviation of 0.31, which is even smaller variability across stations relative to the rating range of 0 to 5. These results suggested that the variability in the ratings and scores was in small part due to differences between the stations, indicating relatively homogeneous scoring across stations.

토론
Discussion

경계선 회귀 표준 설정 방법을 사용하여 8개의 임상 사례 OSCE에서 신뢰할 수 있는 합격 기준을 생성할 수 있었으며, SP는 SP로서의 관점에서 글로벌 등급 항목을 사용하는 유일한 평가자였습니다. 개별 사례 점수만으로는 신뢰도 기준을 충족하지 못하지만, 8개 사례의 점수는 각각 신뢰도 > =0.70이었습니다. OSCE에서 글로벌 등급을 사용하면 타당한 점수를 산출한다는 연구 결과가 여러 차례 발표되었습니다(Solomon 외. 2000; Scheffer 외. 2008). 그러나 본 연구에서는 글로벌 등급 점수만으로는 합격/불합격 결정을 내릴 수 있는 신뢰도 기준을 충족하지 못했지만, 경계선 회귀 방법의 일부로 사용했을 때 수용 가능한 수준 이상의 신뢰도를 보여주었습니다. 또한 경계선 회귀법을 사용한 결과 불합격률이 상대적으로 적게 증가하여 우리 기관의 정치적, 재정적 관점에서 전적으로 수용 가능한 것으로 나타나 이러한 기준 설정 방법의 변경이 매우 실현 가능한 것으로 나타났습니다. 
We were able to produce reliable passing standards in an eight-case clinical encounter OSCE using the borderline regression standard setting methods with SPs as the only raters employing the global rating item from their perspective as an SP. Using any individual case score alone would not meet reliability standards, but scores from each of the 8 cases had dependability > =0.70. There have been several studies showing the use of global rating producing a valid score in OSCEs (Solomon et al. 2000; Scheffer et al. 2008). In our study, however, use of the global rating score alone would not meet reliability standards on which to make a pass/fail decision, but used as part of the borderline regression method it demonstrated more than acceptable dependability. In addition, our results showed that the relatively small increase in failure rate using the borderline regression method was entirely acceptable from both a political and financial perspective at our institution making this change in standard setting method to be very feasible.

경계선 회귀 방법은 교수 평가자를 사용하는 성과 기반 시험의 표준 설정에 매우 신뢰할 수 있는 방법이라는 것이 입증되었습니다. 또한 Homer와 Pell(2009)은 모의 환자의 평가를 포함시킴으로써 교수 평가에 비해 OSCE 평가의 신뢰도가 높아졌음을 보여줄 수 있었습니다. 또한, 경계선 회귀법은 (직접 비교 연구 시) 성과 기반 평가를 위한 유일한 근거 기반 표준 설정 방법인 Angoff 방법보다 더 신뢰할 수 있는 점수를 산출했습니다(Dauphinee 외. 1997; Kramer 외. 2003). 영국의 5개 학교에서 6개의 OSCE 사례에 대한 합격 기준을 설정하는 데 Angoff 방법을 사용했을 때, 이 학교들에서 설정된 기준에는 허용할 수 없는 변동성이 있었습니다(Boursicot 외. 2006). 경계선 그룹과 수정된 경계선 모두 OSCE의 표준 설정 방법으로 인정받고 있지만, 경계선 회귀 방법은 신뢰도가 높고 오류가 적으며 특히 소수의 학습자가 참여하는 OSCE에 유용한 것으로 나타났습니다(Wood et al. 2006). 최근 연구에서는 다른 표준 설정 방법과 경계선 회귀 방법을 비교하여 경계선 회귀 방법을 상대적 황금 표준으로 삼았습니다(Yousuf 외. 2015; Malau-Aduli 외. 2017). 경계선 그룹 방법의 사용은 경계선 회귀 방법을 사용하기 위한 통계적 지원이 없는 프로그램에서 고려할 수 있는 중요한 방법입니다. 
The borderline regression method has been shown to be a highly reliable method for standard setting for performance-based exams using faculty raters. In addition, Homer and Pell (2009) were able to show an increased level of reliability in their OSCE assessments over the faculty ratings by including the ratings of simulated patients. Furthermore, the borderline regression method, when studied in direct comparison, has produced more reliable scores than the Angoff method, which is the only other evidence based standard setting method for performance-based assessment (Dauphinee et al. 1997; Kramer et al. 2003). When the Angoff method was used to set passing standards for a set of 6 OSCE cases across five schools in the UK, there was unacceptable variability in the standards set across these schools (Boursicot et al. 2006). While both the borderline group (Kilminster and Roberts 2004) and modified borderline (Humphrey-Murto and Macfadyen 2002) are both accepted standard setting methods for OSCEs, the borderline regression method has been shown to have greater reliability, lower error and be particularly useful when the OSCE involves a small number of learners (Wood et al. 2006). Recent studies have compared other standard setting methods to the borderline regression method as the relative gold standard (Yousuf et al. 2015; Malau-Aduli et al. 2017). Use of the borderline group method is an important method to consider for programs without the statistical support to use the borderline regression method.

비의사 평가자(SP)가 임상 술기 OSCE의 맥락에서 신뢰할 수 있는 글로벌 평가 점수를 산출할 수 있는지에 대한 질문과 관련하여, 우리의 결과는 비의사를 포함한 비전문가도 글로벌 평가를 사용할 때 신뢰할 수 있는 평가자 역할을 할 수 있다는 최근의 문헌과 일치합니다. 외과 분야에서는 콘텐츠 전문성 수준이 평가 점수의 신뢰도 향상과 관련이 없으며(Patnaik 외. 2020), 의대생 OSCE를 포함하여 훈련된 비전문가도 신뢰할 수 있고 타당한 성과 기반 평가를 제공할 수 있다는 연구(Mahmood 외. 2018; Pradarelli 외. 2021)가 여러 차례 발표되었습니다(Donohoe 외. 2020). 본 연구 결과는 본 연구와 더 밀접한 관련이 있는 연구와 일치합니다. Berger 등(2012)과 최근 Yudkowsky 등(2019)은 비임상 평가자가 상세한 채점 루브릭을 제공받았을 때 교수 평가자만큼 신뢰성 있게 OSCE 환자 기록을 채점하고 임상 추론을 평가할 수 있음을 보여 주었기 때문입니다. 마지막으로 Han 등(2006)은 일반화 가능성 분석을 통해 의대 4학년 학생을 대상으로 의사소통 기술 태도와 전반적인 수행을 평가하는 5점 만점 항목 3개를 사용할 때 SP 평가자가 교수 평가자보다 더 신뢰할 수 있는 점수를 산출할 수 있음을 입증할 수 있었습니다. 이 결과는 'SP 기반 기본 임상술기 시험에 전문가가 필요한가'라는 질문에 대한 답이기도 합니다(한 외, 2006, 308쪽). 이 의문을 해결하기 위해 다음 프로젝트에서는 교수진에게 동일한 체크리스트를 사용하게 하고, 비디오로 촬영한 학생의 모습에 대한 SP와 교수진의 평가를 직접 비교하는 연구를 진행할 예정입니다. 
Regarding the question of whether a non-physician rater (SP) can produce a reliable global rating score in the context of a clinical skills OSCE, our results are in alignment with the growing literature that non-experts, including non-physicians, can serve as reliable raters even when using global rating. In the field of surgery, there are several studies showing that level of content expertise is not associated with improved reliability in rating scores (Patnaik et al. 2020) and that trained non-experts can provide reliable and valid performance-based assessments (Mahmood et al. 2018; Pradarelli et al. 2021) including in a medical student OSCE (Donohoe et al. 2020). Our results are in accord with research more closely related to our study, as both Berger et al. (2012) and more recently Yudkowsky et al. (2019) showed that non-clinician raters, when provided with a detailed grading rubric were able to score OSCE patient notes and assess clinical reasoning as reliably as faculty raters. Lastly, Han et al. (2006) was able to demonstrate, using generalizability analysis, that when using three 5-point global items assessing communication skills attitude and overall performance, SP raters could produce more reliable scores than the faculty raters in a 4th year medical student. Our results also echo the question they raised, ‘whether experts are required for an SP based basic clinical skills exam’ (Han et al. 2006 p. 308). In order to further address this question, our next project will be to have faculty use the same checklists and to directly compare SP and faculty ratings of students’ videotaped encounters.

본 연구의 잠재적으로 중요한 한계 중 하나는 단일 기관에서 표준화된 단일 환자를 대상으로 수행되었다는 점입니다. 우리 SP는 경험이 풍부하고 수년에 걸쳐 누적적으로 매우 잘 훈련된 사람들입니다. 우리는 지속적으로 우리와 함께 일할 수 있는 미취업 배우가 많은 도시에 위치하고 있습니다. 새로운 SP 프로그램이나 아직 배우로 훈련받지 않은 사람들을 훈련시키는 프로그램을 운영하는 기관에서는 본 연구에서 발견한 수준의 신뢰도를 재현하지 못할 가능성이 높습니다. 또한, 본 연구의 일반화 가능성에 대한 또 다른 잠재적 한계는 본 연구가 임상 환자를 대상으로 임상 기술을 평가하는 OSCE였다는 점입니다. 보다 다양한 학생의 술기를 평가하는 OSCE에는 유용하지 않을 수 있습니다. 마지막으로, OSCE 설계의 효율적이고 비용 효율적인 특성으로 인해 평가자와 사례 효과를 분리하여 독립적으로 연구할 수 없기 때문에 SP, 체크리스트 항목 또는 사례 특징을 조정할 수 있는 진단 능력이 제한됩니다. 그러나 신뢰도 추정치는 이러한 제한의 영향을 받지 않습니다. 
One of the potentially significant limitations of our study is that it was done in a single institution using a single cadre of standardized patients. Our SPs are highly experienced and cumulatively over the years, very well trained. We are located in a city with a large number of underemployed actors who are consistently available to work with us. It is quite possible that institutions with newer SP programs or programs that train people not already trained as actors might not be able to reproduce the level of reliability found in our study. In addition, another potential limitation to the generalizability of these findings is that ours was an OSCE evaluating clinical skills with clinical patient encounters. It may not be as useful for OSCEs that assess a greater variety of student skills. Finally, because of the efficient and cost-effective nature of the OSCE design, it is not possible to disaggregate rater and case effects such that they can be studied independently, which limits our diagnostic ability to adjust SPs, checklist items, or case features. However, the estimates of dependability are unaffected by this limitation.

요약하면, 우리의 결과는 글로벌 등급을 제공하는 데 있어 SP의 역할을 뒷받침하는 새로운 연구 및 문헌을 더욱 확인시켜 주며(Homer and Pell 2009), 경계선 방법이 매우 신뢰할 수 있는 합격 기준 점수를 생성할 수 있다는 과거의 연구 결과와도 일치합니다(Dauphinee 외. 1997; Kramer 외. 2003). 신뢰도 높은 전체(및 스테이션) 커트라인 점수에 대한 증거는 이 방법에 대한 신뢰도 증가에 추가적인 신뢰를 제공합니다(Yousuf 외. 2015; Malau-Aduli 외. 2017). 임상의가 아닌 SP가 신뢰할 수 있고 유효한 성과 기반 평가를 생성할 수 있고(Mahmood 외. 2018; Patnaik 외. 2020; Donohoe 외. 2020; Pradarelli 외. 2021), 잘 훈련된 SP가 교수진과의 신뢰도에 상응하는 평가를 생성할 수 있다는 다른 연구 결과(Berger 외. 2012; Yudkowsky 외. 2019)에 따라, 단독 SP를 평가자로 사용하는 경계선 방법이 매우 신뢰할 수 있는 기준 점수를 생성한다는 것을 발견했습니다. 이상적으로는 타당도 프로세스의 다음 단계는 합격 또는 불합격 결정의 기준 및 예측 타당도를 탐색하는 것이지만, 전문적인 효능 및 결과 데이터의 가용성이 부족하기 때문에 수집하기 매우 어려운 증거입니다. 
In summary, our results further confirm the emerging research and literature that supports the role of SPs in providing global ratings (Homer and Pell 2009), and our results are also consistent past findings that the borderline method can produce highly dependable pass criterion scores (Dauphinee et al. 1997; Kramer et al. 2003). Our evidence of highly reliable overall (and station) cut scores gives additional credence to the increasing confidence in the method (Yousuf et al. 2015; Malau-Aduli et al. 2017). In line with other research finding that non-clinician SPs can produce reliable and valid performance-based assessments (Mahmood et al. 2018; Patnaik et al. 2020; Donohoe et al. 2020; Pradarelli et al. 2021), and that well-trained SPs can produce ratings commensurate in reliability with faculty (Berger et al. 2012; Yudkowsky et al. 2019), we found that the borderline method using sole SPs as raters produced a highly reliable criterion score. Ideally, a next step in our validity process would be to explore criterion and predictive validity of our pass or fail decisions, which is very difficult evidence to collect, given the scant availability of professional efficacy and outcomes data.

결론
Conclusion

결론적으로, 우리가 사용한 표준 설정 방법은 평가자가 OSCE 동안 한 가지 추가 항목(글로벌 평가)만 완료하면 됩니다. 성과 기반 평가에서 SP 평가자를 사용하는 기관은 환자의 관점에 기반한 글로벌 평가 항목 사용에 대해 SP에게 짧은 교육(본 연구에서는 1시간)만 받으면 이 표준 설정 방법을 활용할 수 있습니다. 요약하면, 본 연구는 경계선 회귀 방법을 SP만 평가자로 사용하여 임상 진료 OSCE에서 신뢰할 수 있는 합격 점수를 생성하는 데 사용할 수 있음을 보여줍니다. 
In conclusion, the standard setting method we used requires only that the raters complete one additional item (global rating) during the OSCE. Institutions using SP raters in a performance-based assessment can utilize this standard setting method with a short training (one hour in our study) of their SPs on the use of the global rating item based on their perspective as the patient. In summary, our study demonstrates that the borderline regression method can be used with only SPs as raters to create reliable passing scores in a clinical encounter OSCE.

 

 


Med Teach. 2022 Aug;44(8):878-885. doi: 10.1080/0142159X.2022.2041586. Epub 2022 Mar 2.

A resource efficient and reliable standard setting method for OSCEs: Borderline regression method using standardized patients as sole raters in clinical case encounters with medical students

Affiliations collapse

Affiliations

1Clinical Skills Center, Albert Einstein College of Medicine, Bronx, NY, USA.

2Psychometrics and Quantitative Psychology, Fordham University, Bronx, NY, USA.

PMID: 35234562

DOI: 10.1080/0142159X.2022.2041586

Abstract

Finding a reliable, practical and low-cost criterion-referenced standard setting method for performance-based assessments has proved challenging. The borderline regression method of standard setting for OSCEs has been shown to estimate reliable scores in studies using faculty as raters. Standardized patients (SPs) have been shown to be reliable OSCE raters but have not been evaluated as raters using this standard setting method. Our study sought to find whether SPs could be reliably used as sole raters in an OSCE of clinical encounters using the borderline regression standard setting method.SPs were trained for on a five-point global rating scale. In an OSCE for medical students, SPs completed skills checklists and the global rating scale. The borderline regression method was used to create case passing scores. We estimated the dependability of the final pass or fail decisions and the absolute dependability coefficients for global ratings, checklist scores, and case pass-score decisions using generalizability theory.The overall dependability estimate is 0.92 for pass or fail decisions for the complete OSCE. Dependability coefficients (0.70-0.86) of individual case passing scores range demonstrated high dependability.Based on our findings, the borderline regression method of standard setting can be used with SPs as sole raters in a medical student OSCE to produce a dependable passing score. For those already using SPs as raters, this can provide a practical criterion-referenced standard setting method for no additional cost or faculty time.

Keywords: OSCE; Standard-setting; borderline-regression; generalizability theory; global-rating; standardized patients (SPs).

OSCE에서 경계선 집단 방법과 경계선 회귀 방법을 기준-기반 합격선 설정과 비교(J Educ Eval Health Prof. 2021)
Comparing the cut score for the borderline group method and borderline regression method with norm-referenced standard setting in an objective structured clinical examination in medical school in Korea 
Song Yi Park1,2, Sang-Hwa Lee2*, Min-Jeong Kim3, Ki-Hwan Ji4, Ji Ho Ryu5

 

소개
Introduction

배경/근거
Background/rationale

합격선 설정은 인간의 판단을 합리적이고 방어 가능한 방식으로 종합하여 점수 척도를 카테고리로 분류하는 과정입니다[1]. 실제 시험에서 커트라인 점수를 설정하는 것과 관련하여 '골드 스탠다드'는 없지만, 이 활동은 보건 전문직에서 매우 중요합니다[2]. 이는 의료 행위의 허용 여부를 평가하기 위해 의료 행위의 성과에 대한 최소한의 판단입니다. 
Standard setting is a process by which human judgment can be synthesized in a rational and defensible way to classify score scales into categories [1]. Although there is no ‘gold standard’ in regard to setting the cut score in real examinations, this activity is critical in health professions [2]. This is the minimum judgment on the performance of medical practice to assess whether it is acceptable or unacceptable.

합격선에는 규범 참조형(상대적)과 기준 참조형(절대적)의 두 가지 유형이 있습니다. 의학교육 시험의 경우 일반적으로 기준 참조형 표준이 선호됩니다. 기준 참조 표준은 개별 수험생에 대한 정보가 거의 없기 때문에 수험생 그룹의 역량 수준에 따라 커트라인 점수가 달라집니다. 기준 참조 표준 설정 방법에는 시험 중심과 수험자 중심의 두 가지 유형이 있습니다. 전자는 객관식 시험과 같은 지식 평가에서 커트라인 점수를 설정하는 데 적합하고, 후자는 객관적 구조화 임상시험(OSCE)과 같은 수행 평가에 적합합니다[3]. 수험자 중심의 표준 설정으로 잘 알려진 것은 대조군 방법과 경계선 그룹 방법(BGM)입니다. 
There are 2 types of standards: norm-referenced (relative) and criterion-referenced (absolute). For medical education examinations, a criterion-referenced standard is generally preferred. Because the norm-referenced standard tells little about the individual examinee, the cut score varies according to the competency level of the examinee group. Criterion-referenced standard setting methods are of 2 types: test-centered and examinee-centered. The former is appealing for setting a cut score on knowledge assessment, such as multiple-choice examination, and the latter is well suited for performance assessment, such as objective structured clinical examination (OSCE) [3]. Well-known examinee-centered standard settings are the contrasting groups method and the borderline group method (BGM).

BGM에서는 시험관이 양호, 경계선, 불합격과 같은 글로벌 등급 척도로 수험생의 성적을 평가합니다. 컷 점수는 경계선 등급을 받은 수험생의 중간 점수입니다. BGM은 시간 효율적이고 구현이 간단합니다. 하지만 경계선 그룹에 대한 합의 도출이 어렵고, 경계선 수험생 수가 적을 경우 컷 점수의 타당도가 낮을 수 있다는 점에서 한계가 있습니다[4]. 이러한 BGM의 한계를 인식하여 모든 OSCE 체크리스트 점수를 사용하여 선형 회귀를 통해 컷 점수를 개발하는 경계선 회귀법(BRM)이 개발되었습니다. 글로벌 등급 점수를 OSCE 총점으로 회귀하면 선형 방정식이 산출됩니다. 경계선 그룹의 예상 커트라인 점수는 경계선 등급 값을 회귀 방정식에 대입하여 결정됩니다. 
In the BGM, examiners evaluate students’ performance on a global rating scale such as good, borderline, and fail. The cut scores are the median scores of examinees with borderline ratings. The BGM is time efficient and straightforward to implement. However, it has some limitations in that achieving consensus on the borderline group is difficult, and when the number of borderline examinees is small, the cut score may have low validity [4]. Recognizing the limitations of the BGM, the borderline regression method (BRM) was developed, which uses all OSCE checklist scores to develop a cut score using linear regression. Regression of global rating scores to OSCE total scores yields a linear equation. The predicted cut score of the borderline group is determined by substituting the borderline rating values into the regression equation.

그러나 수험생 중심의 기준 설정 방법이 수행 평가의 커트라인 점수 설정에 항상 적용되는 것은 아닌 것으로 보입니다. 어떤 경우에는 의료 전문가 교육자들이 의사의 역량을 평가하기 위해 적절한 방법이 아니더라도 사용 가능한 평가 방법을 사용하기도 합니다[5]. 규범 참조 기준 설정에 따른 컷 점수(보통 60 백분위수)도 성과 평가에 사용됩니다[6]. 이 표준 설정은 이해하고 적용하기 쉽습니다. 그러나 규범 참조 표준 설정은 스테이션의 난이도를 고려하지 않기 때문에 정당화하기 어렵습니다 [4]. 
However, it seems that examinee-centered standard-setting methods do not always apply to the setting of cut scores in performance assessments. In some instances, health care professional educators have used available assessment methods to assess a physician’s competencies even if the methods were not appropriate [5]. The cut score (usually 60 percentile) based on the norm-referenced standard setting is also used in the performance assessment [6]. This standard setting is easy to understand and apply. However, norm-referenced standard setting is difficult to justify because it does not consider the difficulty of the stations [4].

부적절한 표준 설정 방법은 바람직하지 않은 결과를 초래할 수 있습니다. 실력이 있는데도 불합격하는 수험생과 실력이 없는데도 합격하는 수험생이 있을 수 있습니다. 이는 의학교육자뿐만 아니라 교육 행정가에게도 중요한 문제입니다. 그러나 표준 설정에 대한 연구는 거의 없으며, 국내 의학교육 및 간호교육에서 Angoff, Ebel과 같은 시험 중심의 표준 설정 방법을 비교한 연구가 대부분이었다[7-9]. 의료계에서 수행 평가는 매우 중요한 부분입니다. 따라서 수험자 중심의 기준 설정 방법도 중요하게 고려되어야 하지만, 국내에서는 이에 대한 연구가 전무한 실정이다. 
Inappropriate standard setting method can lead to undesirable result. There may be examinees who fail even though they are competent and examinees who pass even though they are not competent. This is an important issue for educational administrators as well as medical educators. However, there are few studies on standard setting and most of the studies have been about comparison of test-centered standard setting method such as Angoff, Ebel in medical and nursing educations in Korea [7-9]. Performance assessment is an important part of the medical profession. Therefore, examinee-centered standard setting method should also be considered as important, but there has been no research on this in Korea.

연구 목적
Objectives

본 연구의 연구문제는 의과대학입문자격시험에서 표준설정방식을 규준참조방식에서 BGM과 BRM으로 변경하였을 때 커트라인 점수가 어떻게 변화하는지에 대한 것이다. 본 연구의 목적은 의과대학 4학년 학생을 대상으로 한 OSCE에서 표준점수 설정 방식을 규범 참조 방식에서 BGM과 BRM으로 변경했을 때 커트라인 점수가 어떻게 달라지는지 비교하는 것이었습니다. 이 연구 결과는 수행평가를 담당하는 교육 관리자 및 의학교육자에게 실질적인 도움이 될 수 있습니다. 
The research question of this study was how the cut scores changed when the standard setting method was changed from a norm-referenced method to the BGM and BRM in an OSCE for medical students. The aim of this study was to compare the cut score when the standard setting is changed from the norm-referenced method to the BGM and BRM in an OSCE of fourth-year medical students. The results of this study can be of practical help to educational administrators and medical educators who are in charge of the performance assessment.

방법
Methods

윤리 선언문
Ethics statement

본 연구는 동아대학교 기관생명윤리심의위원회의 승인을 받았습니다(IRB 승인번호, 2-1040709-AB-N-01-202106-HR-047-02). 본 연구는 인간 대상 또는 인간 유래 물질을 대상으로 하지 않았으므로 피험자의 사전 동의를 받지 않았습니다. 
This study was approved by the Institutional Review Board of Dong-A University (IRB approval no., 2-1040709-AB-N-01-202106-HR-047-02). This study was not on human subjects or human-originated materials; thus, informed consent from subjects was not indicated.

연구 설계
Study design

이 연구는 컷 점수를 파악하고 분석하여 표준을 설정하기 위한 BGM 및 BRM의 구현을 모델링하기 위한 탐색적 연구였습니다[10]. 
This was an explorative study to model the implementation of BGM and BRM for setting the standard by identifying and analyzing the cut score [10].

설정
Setting

본 연구는 지난 7월 12일부터 15일까지 부산-경남 임상술기시험(BGCSE) 컨소시엄에서 시행한 부산-경남 임상술기시험 최종일 시험 결과에 적용되었습니다. 부산-경남 임상술기시험 컨소시엄은 부산-경남 지역 5개 의과대학 연합으로, 2014년부터 매년 3, 4학년 의대생을 대상으로 의사국가고시 공동 임상술기시험을 실시해 왔다[11]. 
This study was applied to the final day’s examination results of the Busan-Gyeongnam Clinical Skill Examination (BGCSE) conducted by the BGCSE consortium from July 12th to 15th, 2021. The consortium is an association of 5 medical schools in Busan-Gyeongnam region of South Korea that have annually conducted joint clinical skill examinations for the OSCE for third- and fourth-year medical students since 2014 [11].

시험은 학생들이 표준화 환자(SP)를 접하는 7개의 스테이션과 마네킹을 대상으로 시술 술기를 수행하는 1개의 스테이션으로 구성되었습니다. 각 스테이션의 주제는 다음과 같습니다:

  • 스테이션 1, 지난 한 달 동안 기침과 호흡곤란을 호소하는 60세 여성,
  • 스테이션 2, 오른쪽 눈이 붓고 멍이 든 41세 여성,
  • 스테이션 3, 일주일 전부터 오른쪽 무릎 통증이 있는 44세 남성,
  • 스테이션 4, 2개월 동안 가끔씩 질 출혈이 있는 40세 여성;
  • 스테이션 5, 오늘 아침 발작을 일으킨 26세 남성,
  • 스테이션 6 , 오늘 아침 기상 후 갑자기 어지럼증이 시작된 46세 여성,
  • 스테이션 7, 오른쪽 하복부 통증이 있는 21세 여성,
  • 스테이션 8, 병동 복도에서 갑자기 의식을 잃은 57세 남성이었습니다.

이 연구를 위해 새로 추가되거나 개발된 스테이션은 없었습니다. 
The examination was comprised of 7 stations where students encountered standardized patients (SPs) and 1 station where students performed procedural skills on a manikin. The topic of each station was as follows: station 1, a 60-year-old woman presented with cough and shortness of breath for the past month; station 2, a 41-year-old woman presented with swelling and bruising of her right eye; station 3, a 44-year-old man with a right knee pain from a week ago; station 4, a 40-year-old woman with occasional vaginal bleeding for 2 months; station 5, a 26-year-old man with seizure this morning; station 6, a 46-year-old woman with sudden onset of dizziness after waking up this morning; station 7, a 21-year-old woman with right lower abdominal pain; and station 8, a 57-year-old man suddenly lost consciousness in a ward hallway. There were no newly added or developed stations for this study.

검사관 교육은 평소와 동일한 방식으로 진행되었습니다. 총 32명의 의사 시험관이 4개 의과대학의 각 스테이션에서 체크리스트와 글로벌 평가 척도를 작성하여 수험자의 수행 능력을 평가했습니다. 글로벌 평가에서 기존 4점 숫자 척도의 숙련도 평가가 불합격, 경계선, 양호, 우수의 범주형 척도로 변경된 것이 유일한 변경 사항입니다. 각 스테이션의 컷 점수는 다음과 같이 결정되었습니다: (1) 평균과 표준편차(SD)를 계산하고, (2) 평균에서 1 SD를 뺀 다음, (3) 이 점수를 커트라인 점수로 설정합니다.
The examiners’ training proceeded in the same way as usual. A total of 32 physician examiners evaluated examinee performance at each station in 4 medical schools by completing the checklist and global rating scales. The only change was that the existing 4-point numeric scale for proficiency in global rating was changed to a categorical scale of fail, borderline, good, and excellent. The cut score of each station was determined as follows: (1) calculate the mean and standard deviation (SD); (2) subtract 1 SD from the mean; and (3) set this score as the cut score.

참가자
Participants

5개 의과대학에서 총 107명의 4학년 의대생이 4개 의과대학 술기 센터에서 열린 BGCSE 마지막 날에 참석했습니다. 
A total of 107 fourth-year medical students from 5 medical schools attended the last day of the BGCSE at 4 medical school skill centers.

변수
Variables

주요 결과는 각 스테이션의 규범 참조 방식, BGM, BRM에 의한 컷 점수로 정의했습니다.

  • 표준참조법의 컷 점수는 각 스테이션의 평균에서 1 SD를 빼는 방식으로 결정되었으며, 이는 BGCSE의 기존 방식입니다.
  • BGM의 컷 점수는 다음과 같은 단계로 수행되었습니다: (1) 경계선 그룹 수험자를 식별하고, (2) 체크리스트 점수를 수집하고, (3) 이 그룹의 중앙값을 컷 점수로 설정했습니다.
  • BRM의 컷 점수는 다음 단계에 따라 결정되었습니다: (1) 모든 수검자의 체크리스트 점수와 전체 평가 점수를 수집하고, (2) Microsoft Excel(Microsoft Corp., 미국 워싱턴주 레드몬드)을 사용하여 회귀 방정식(y=a+bx)을 만들고, (3) 경계선 그룹의 척도(본 연구에서는 x=2)를 방정식에 삽입하고, (4) 방정식에서 계산된 y를 컷 점수로 설정했습니다. 

The primary outcomes were defined as a cut score by the norm-referenced method, BGM, and BRM of each station.

  • The cut score of norm-referenced method was determined by subtracting 1 SD from the mean of each station, which is the conventional method in BGCSE.
  • The cut score of the BGM was performed by the following steps: (1) borderline group examinees were identified, (2) their checklist scores were collected, and (3) the median score for this group was set as the cut score.
  • The cut score of the BRM was determined as following steps: (1) checklist and global rating scores of all examinees at the station were collected, (2) a regression equation (y=a+bx) was produced using Microsoft Excel (Microsoft Corp., Redmond, WA, USA), (3) the scale of borderline group (in this study, x=2) was inserted into the equation, and (4) the calculated y of the equation was set as the cut score.

2차 결과는 각 표준 설정 방법에 따라 각 스테이션에서 불합격 학생의 수로 정의했습니다. 
The secondary outcome was defined as the number of failed students at each station according to each standard setting method.

데이터 소스/측정
Data sources/measurement

시험관들은 컴퓨터 프로그램을 사용하여 학생들의 성적을 채점했으며, 결과는 자동으로 처리되었습니다. 모든 변수는 엑셀 스프레드시트(Microsoft Corp.)에 기록했습니다.편향성연구 계획에서 편향성은 발견되지 않았습니다. 
The examiners scored the students’ performance using a computer program, and the results were automatically processed. All variables were recorded in an Excel spreadsheet (Microsoft Corp.).BiasNo bias was found in the study scheme.

연구 규모
Study size

이 연구는 효과를 결정하기 위한 것이 아니므로 표본 크기를 계산하지 않았습니다. 
This study was not intended to determine effect and was therefore not indicated to calculate sample size.

통계적 방법
Statistical methods

각 스테이션과 경계선 그룹의 평균과 SD를 포함한 기술적 통계가 사용되었습니다. 회귀 분석은 Microsoft Excel ver. 2105(Microsoft Corp.)를 사용하여 회귀 방정식을 생성했습니다. 회귀 방정식에 경계선 그룹의 척도(x=2)를 삽입하여 BRM의 컷 점수를 계산했습니다. 표준 참조 방식과 BGM, 그리고 표준 참조 방식과 BRM 간의 컷 점수 비교를 위해 쌍으로 된 t-검정을 실시했습니다. P-값이 0.05 미만이면 유의미한 것으로 간주했습니다. 
Descriptive statistics were used, including the mean and SD of each station and borderline group. Regression analysis was conducted to produce a regression equation using Microsoft Excel ver. 2105 (Microsoft Corp.). The scale of the borderline group (x=2) was inserted into the regression equation to calculate the cut score of the BRM. A paired t-test for the cut score comparison between the norm-referenced method and BGM, and between the norm-referenced method and BRM were conducted. The P-value <0.05 was considered significant.

결과
Results

참가자
Participants

총 107명의 학생이 시험을 완료했으며, 32명의 교수가 시험관으로 참여했습니다. 
A total of 107 students completed the examination, and 32 professors participated as examiners.

주요 결과
Main results

7개 SP 접점 스테이션과 1개 스킬 스테이션의 G-계수를 사용한 신뢰도는 각각 0.76, 0.73이었습니다(표 1, 2).
The reliability using the G-coefficient in 7 SP encounter stations and 1 skill station was 0.76 and 0.73, respectively (Tables 1, 2).

 

규범 참조 표준 설정 방법, BGM, BRM에 따른 각 스테이션의 예측 컷 점수
Predicted cut score of each station by the norm-referenced standard setting method, BGM, and BRM

표준 참조 방식과 각 스테이션의 BGM 및 BRM에 따른 평균, SD, 예측 컷 점수는 표 3과 데이터 세트 1에 나와 있습니다. 수험생들의 점수 히스토그램은 그림 1에 나와 있습니다. 각 스테이션에서 "경계선"으로 평가된 수험생의 비율은 그림 2에 나와 있습니다. 회귀 방정식, 결정 상관관계(R2), BRM에 의한 각 스테이션의 플롯은 표 4, 데이터 세트 1 및 그림 3에 나와 있습니다. 

The mean, SD, and predicted cut score by the norm-referenced method and the BGM and BRM of each station are shown in Table 3 and Dataset 1. The histogram of the examinees’ scores is shown in Fig. 1. The proportion of examinees rated as “borderline” at each station is shown in Fig. 2. The regression equation, correlation of determination (R2), and plot of each station by the BRM are shown in Table 4, Dataset 1, and Fig. 3.

표준 참조 방식의 컷 점수는 각 스테이션에서 BGM(P<0.01)과 BRM(P<0.02)보다 각각 낮았습니다. BGM과 BRM 간의 컷 점수는 유의미한 차이가 없었습니다(P=0.99)(표 3). SD가 가장 높은 스테이션 5와 '경계선' 판정을 받은 수검자 비율이 가장 높은 스테이션 6이 표준 설정 방법에 따른 컷 점수 차이가 가장 크게 나타났습니다(표 3). 각 스테이션의 판정 상관관계(R2)는 0.28~0.64 범위였습니다(표 4).  
The cut score of the norm-referenced method was lower than that of the BGM in each station (P<0.01) and BRM (P<0.02), respectively. There was no significant difference in the cut score between the BGM and BRM (P=0.99) (Table 3). Station 5, with the highest SD, and station 6, with the highest proportion of examinees rated as “borderline”, showed the largest cut score difference by standard setting methods (Table 3). The correlation of determination (R2) of each station ranged from 0.28 to 0.64 (Table 4).

표준점수 기준 설정 방식별 표준점수 미달 수험자 수, BGM 및 BRM
Number of examinees below standard by norm-referenced standard setting, BGM, and BRM

모든 스테이션에서 규범 참조 기준 설정 방식에 의한 불합격자 수보다 BGM과 BRM에 의한 불합격자 수가 더 많았습니다. 특히 3번, 5번, 6번 스테이션의 불합격자 수가 2배 가까이 증가했습니다(표 1). 
At all stations, there were more failed examinees by the BGM and BRM than by the norm-referenced standard setting method. In particular, the number of failed examinees at stations 3, 5, and 6 almost doubled (Table 1).

토론
Discussion

주요 결과
Key results

본 연구는 의과대학 4학년 학생을 대상으로 한 OSCE에서 표준 설정을 규범 참조 방식에서 BGM과 BRM으로 변경했을 때의 커트라인 점수를 비교하는 것을 목표로 했습니다. BGM과 BRM의 전체 커트라인 점수는 규범 참조 방식과 비슷하거나 더 높았기 때문에 불합격자 수가 더 많았습니다. 그러나 3번, 5번, 6번 문항은 표준점수 설정 방식에 따른 커트라인 점수 차이가 가장 크게 나타났습니다. 
This study aimed to compare the cut score when the standard setting was changed from the norm-referenced method to the BGM and BRM in an OSCE of fourth-year medical students. The overall cut scores of the BGM and BRM were similar or higher than those of the norm-referenced method; thus, the number of failed examinees was higher. However, stations 3, 5, and 6 showed the largest differences in the cut score according to each standard setting method.

해석
Interpretation

의사국가고시에서 표준점수 설정은 중요하지만, 실제 의대생들의 데이터를 다루고 다양한 표준점수 설정 방법의 결과를 비교한 실제 가이드라인은 거의 없습니다. 이러한 표준 설정 방법의 특성을 비교하는 것은 의과대학의 시험 관리자에게 유용할 것입니다. 이 연구에서는 두 가지 표준 설정 방법의 실제 시행 사례를 보고하고 제공했습니다. 
The standard setting for OSCEs is important; however, there are few practical guidelines that handle real medical students’ data and compare the outcomes of using different standard setting methods. Comparing the characteristics of these standard setting methods would be useful for examination administrators of medical schools. This study reported and provided a real example of the implementation of 2 standard setting methods for OSCEs.

스테이션 3과 스테이션 6은 히스토그램을 고려할 때 케이스 난이도가 높은 것으로 보입니다(그림 1). 스테이션이 어려우면 점수가 낮은 수험생이 많을 수 있습니다. 실제 수험생 성적을 기준으로 하는 BGM과 BRM에서는 불합격 수험생이 증가할 수 있습니다. 하지만 표준점수 기준 방식(보통 1등급 또는 백분위 60점 이하로 설정)은 문항의 난이도를 고려하지 않고, 단순히 1등급 이하를 불합격으로 정의합니다. 스테이션 3과 6의 표준 설정에 따른 컷 점수의 차이는 규범 참조 방식이 어려운 스테이션에서 잘 작동하지 않는다는 것을 보여줍니다. 
Stations 3 and 6 seemed to have a high level of case difficulty considering their histograms (Fig. 1). If the station is difficult, there may be many examinees with low scores. Under the BGM and BRM, which are based on actual examinee performance, failed examinees would increase. However, the norm-referenced method (usually set below 1 SD or 60 percentile) does not consider the difficulty of the station; it simply defines failed examinations as below 1 SD. The difference in cut scores according to standard settings at stations 3 and 6 shows that the norm-referenced method does not function well in difficult stations.

스테이션 5는 경계선(15.89%)으로 평가된 수험생의 비율이 가장 낮고 SD가 가장 높았습니다(14.27). 경계선으로 평가된 코호트가 충분하지 않은 경우, 상대적으로 적은 수의 수험자를 기준으로 컷 점수가 산출되어 컷 점수와 관련된 통계적 오차가 증가할 수 있습니다[12]. 점수 분포가 왼쪽으로 치우쳐 있고 경계선 그룹이 전체 점수 분포의 아래쪽 얇은 꼬리에 위치하기 때문에 평균 또는 중앙값이 높은 쪽으로 편향될 수 있습니다[13]. 이러한 편향성은 본 연구 결과에서도 확인할 수 있습니다. 경계선 그룹이 가장 큰 스테이션 6의 경우 BGM과 BRM의 컷 점수 차이는 0.20으로 스테이션 간 차이가 가장 작았지만, 경계선 그룹이 가장 작은 스테이션 5의 경우 2.86으로 스테이션 간 차이가 가장 컸습니다. 스테이션 5에서 BGM과 BRM의 컷 점수 차이가 큰 것은 이러한 편향 때문인 것으로 생각됩니다. 경계선 그룹의 코호트가 더 작으면 이 차이는 더 커질 것입니다. 그러나 선형 회귀는 그룹 내의 모든 점수를 사용하므로 이러한 편향을 피할 수 있습니다. 
Station 5 had the lowest proportion of examinees rated as borderline (15.89%) and the highest SD (14.27). If there are insufficient cohorts evaluated as borderline, cut scores may be calculated based on a relatively small number of examinees, which may increase the statistical error associated with the cut score [12]. As the score distribution is left-skewed and the borderline group is at the lower thin tail of the overall score distribution, the mean or median will be biased toward the high side [13]. This bias can also be confirmed in the results of this study. In station 6 with the largest borderline group, the difference in cut score between BGM and BRM was 0.20 (the smallest difference among stations), but at station 5 with the smallest borderline group, it was 2.86 (the largest difference among stations). At station 5, the difference in cut scores between the BGM and BRM is thought to be due to this bias. If the cohort of borderline group is smaller, this difference will be larger. However, linear regression uses all the scores within the group and therefore avoids this bias.

이전 연구와의 비교
Comparison with previous studies

본 연구 결과에서 알 수 있듯이, 규범 참조 방식은 시험관이 수험생이 수행 능력이 부족하다고 평가했음에도 불구하고 합격할 위험이 있었습니다. 이러한 유형의 표준 설정은 일반적으로 채용 지원자를 선발하거나 채용 가능한 자리가 제한되어 있는 교육 프로그램에서 사용됩니다[14]. 표준 설정은 시험의 목표에 따라 적용되어야 합니다. 의과대학에서 지원자 선발에 OSCE를 사용하는 경우가 아니라면, 규범 참조 방법은 적절하지 않습니다. 
As the results of this study show, the norm-referenced method had a risk of examinees passing the station even though the examiner evaluated the examinee as not competent on the performance. This type of standard setting is typically used when selecting applicants for employment or for educational programs where available positions are limited [14]. The setting of standards should be applied according to the goal of the examination. If the OSCE is not used for applicant selection in medical school, the norm-referenced method is not appropriate.

BGM의 장점은 통계적 절차가 필요하지 않고 컷 점수 계산이 쉽다는 것입니다. 그러나 본 연구의 5번 스테이션에서와 같이 경계선 그룹이 충분하지 않은 경우 BGM은 잠재적인 문제가 발생할 수 있습니다. Wood 등[13]의 연구에서도 동일한 문제가 발견되었습니다. 이 연구에서 경계선 그룹은 20%(수험생 12/59명)였으며, 합격률의 차이는 BGM에서 69%, BRM에서 92%였습니다. 세부적으로 살펴보면 12명의 수험생 모두 경계선 만족(열등, 미흡, 경계선 불만족, 경계선 만족, 양호, 우수의 6점 척도 사용)으로 BRM의 커트라인 점수가 수험생의 성적을 더 적절히 반영하고 있음을 알 수 있습니다. 
The advantages of the BGM are that no statistical procedure is required and the cut score calculation is easy. However, the BGM can have a potential problem when the borderline group is not sufficient, such as in station 5 of this study. The same problem was also found in the study of Wood et al. [13]. In their study, the borderline group was 20% (12/59 examinees), and the difference in the pass rate was 69% in the BGM and 92% in the BRM. When the station was reviewed in detail, all 12 examinees had borderline satisfactory scale (they used 6-point scales with inferior, poor, borderline unsatisfactory, borderline satisfactory, good, and excellent), indicating that the cut score of the BRM was a more appropriate reflection of the examinees’ performance.

BRM을 활용한 대부분의 연구는 졸업후의학교육 지원자와 같이 수험생 집단의 성적이 높은 비교적 큰 규모의 코호트(n>50)를 평가하는 데서 진행되었습니다. 이 연구 역시 107명의 수험생으로 구성된 대규모 코호트를 대상으로 진행되었습니다. 그러나 많은 의과대학의 OSCE는 1년 단위와 같은 소규모 코호트를 가지고 있을 수 있습니다. Homer 등[12]은 소규모 코호트에서 BRM을 사용하는 것이 일반적으로 성공적일 수 있음을 보여주었습니다. 그들은 다양한 고부담 평가 맥락에서 BRM의 사용을 조사한 결과 대부분의 스테이션에서 BRM이 효과적으로 작동한다는 것을 발견했습니다. 이들은 실용적인 관점에서 현존 컷 점수를 제안했습니다. 이전 스테이션 성과에 기반한 기존 컷 점수는 소규모 코호트에서 이상적으로 사용할 수 있습니다[12]. 
Most studies using the BRM have been conducted in the evaluation of relatively large cohorts (n>50) in which the examinee group is high performing, such as postgraduate candidates. This study was also conducted in a large cohort of 107 examinees. However, OSCEs in many medical schools may have small cohorts, such as a single-year group. Homer et al. [12] have shown that the use of the BRM in the context of small cohorts can be generally successful. They investigated the use of the BRM in different high stakes assessment contexts and found that the BRM functions effectively at most stations. They proposed an extant cut score from a practical point of view. Extant cut scores based on previous station performance would ideally be available in a small cohort [12].

BRM에서는 모델이 OSCE의 컷 점수를 얼마나 잘 예측하는지에 대한 회귀 모델의 적합성을 평가하기 위해 R2를 조사합니다. R2는 일반적으로 시험에서 획득한 점수의 백분율로 해석되며, 이는 시험 응시자의 임상 성과에 대한 글로벌 평가의 벤치마크 점수로 설명할 수 있습니다.

  • R2가 1.0이면 체크리스트의 모든 점수가 독립 변수인 시험자의 글로벌 등급 척도로 완전히 설명된다는 것을 의미합니다.
  • R2가 0.85에서 1.0 사이로 높으면 수험자의 임상 수행 체크리스트가 글로벌 등급 점수에 반영된 시험관의 평가와 일치한다는 것을 의미합니다.
  • R2가 0.5 이하로 낮으면 체크리스트 점수가 글로벌 등급 점수와 일치하지 않음을 나타냅니다[15].

그러나 많은 연구에서 R2의 값은 약 0.5로 본 연구와 크게 다르지 않은 합리적인 것으로 간주되었습니다 [16,17]. 
In the BRM, to assess the fitness of the regression model in terms of how well the model predicts the cut score of the OSCE, the R2 is examined. R2 is generally interpreted as a percentage of the score achieved in an examination that can be explained by a benchmark score of global rating on examinees’ clinical performance.

  • An R2 of 1.0 means that all scores of the checklist are completely explained by the global rating scale of the examiner as an independent variable.
  • A high R2, between 0.85 and 1.0, indicates that the checklist of examinees’ clinical performance is aligned with the examiner’s evaluation reflected in the global rating score.
  • A low R2 of 0.5 or less indicates that the checklist score is not aligned with the global rating score [15].

However, in many studies, the value of R2 was approximately 0.5 and was considered reasonable, which was not significantly different from this study [16,17].

 

한계점
Limitations

시험관들이 경계선 그룹의 학생을 평가하는 데 있어 합의는 BGM과 BRM에 중요합니다. 그러나 본 연구에서는 이 점을 다루지 않았습니다. 본 연구에서는 BGCSE에 참여한 시험관들이 다년간의 채점 경험을 바탕으로 충분한 합의가 이루어졌다고 가정했습니다. 이러한 합의를 유지하기 위해 시험관들이 수년 동안 익숙하게 사용해 온 4가지 범주형 척도를 수정하지 않고 글로벌 등급 척도로 사용했습니다. 그러나 이 가정이 항상 유효한 것은 아닙니다. 의과대학에 경험이 풍부한 시험관이 충분하지 않은 경우 경계선 학생 그룹을 식별하는 모델을 개발하는 것이 도움이 될 수 있습니다[18]. 
The consensus for rating borderline groups of students by examiners is important for the BGM and BRM. However, this study did not address this point. We assumed that the examiners who participated in the BGCSE had sufficient consensus based on their many years of scoring experience. In order to maintain this consensus, the 4 categorical scale, which examiners have been accustomed to using for many years, was used without modification as global rating scale. However, this assumption will not always be valid. If the medical school does not have enough experienced examiners, it may be helpful to develop a model to identify borderline groups of students [18].

일반화 가능성
Generalizability

본 연구의 결과를 고려할 때, BRM은 소규모 코호트에 적용할 수 있으며, 통계적 방법은 마이크로소프트사의 엑셀을 이용하여 수행할 수 있는 수준입니다. 
Considering the results of this study, the BRM can be applied to a small cohort, and its statistical methods are at a level that can be performed using Microsoft Excel (Microsoft Corp.).

제언
Suggestions

본 연구에서 사용된 글로벌 평가 척도는 실패, 경계선, 양호, 우수를 포함한 범주형 척도입니다. 그러나 이 척도가 5점 또는 6점으로 변경될 때 커트라인 점수가 어떻게 변하는지에 대해서는 추가 연구가 필요합니다. 본 연구의 OSCE에는 7개의 SP 만남 스테이션과 1개의 스킬 스테이션이 있었습니다. 또한 스테이션의 내용과 조합에 따라 컷 점수가 어떻게 변하는지에 대한 연구도 필요합니다. 
The global rating scale used in this study was a categorical scale including fail, borderline, good, and excellent. However, further study is needed to determine how the cut score changes when this scale changes to 5 or 6. In the OSCE of this study, there were 7 SP encounter stations and 1 skill station. It is also necessary to study how the cut score changes depending on the content and combination of the stations.

결론
Conclusions

규범 참조 방식의 컷 점수는 BGM과 BRM보다 낮았으며, BGM과 BRM 간 컷 점수에는 큰 차이가 없었습니다. 기존에 사용하던 기준 설정 방식을 변경하는 것은 쉽지 않을 것입니다. 그러나 문항 내용이나 수험생의 실력이 고려되지 않은 채 규범 참조 방식에 의한 컷 점수는 문항 난이도 및 내용에 따라 달라질 수 있어 기준 설정 결정의 적절성에 영향을 미칠 수 있습니다. OSCE의 커트라인 점수가 의료행위의 수행이 허용 가능한지 여부를 평가하는 최소한의 판단 기준이라면, 수험자 중심의 기준 설정 방식이 그 목적에 더 적합하다. 또한, 본 연구에서 제시된 바와 같이 BGM과 BRM 방식은 실무에 적용하기 어렵지 않다. 경계집단 기준에 대한 충분한 합의가 이루어진다면, BRM을 이용한 기준 설정은 보다 방어적인 방법으로 수검자의 커트라인 점수를 결정하는 데 적용될 수 있을 것입니다. 

The cut score of the norm-referenced method was lower than that of the BGM and BRM, and there was no significant difference in the cut score between the BGM and BRM. It will not be easy to change the previously used standard setting method. However, prefixed cut scores by the norm-referenced method, without considering station contents or examinee performance, can vary due to station difficulty and content, affecting the appropriateness of the standard setting decision. If the cut score of OSCE is the minimum judgement assessing whether the performance of medical practice is acceptable or not, examinee-centered standard setting method are more appropriate for that purpose. Moreover, as presented in this study, BGM and BRM methods are not difficult to apply in practice. If there is an adequate consensus on the borderline group criteria, standard setting with the BRM could be applied as more defensible method to determine the cut score of the OSCE stations.

 

 

 


J Educ Eval Health Prof. 2021;18:25. doi: 10.3352/jeehp.2021.18.25. Epub 2021 Sep 27.

Comparing the cut score for the borderline group method and borderline regression method with norm-referenced standard setting in an objective structured clinical examination in medical school in Korea

Affiliations collapse

Affiliations

1Department of Emergency Medicine, Dong-A University, College of Medicine, Busan, Korea.

2Department of Medical Education, Dong-A University, College of Medicine, Busan, Korea.

3Department of Medical Education and Neurology, Kosin University, College of Medicine, Busan, Korea.

4Department of Neurology, Busan Paik Hospital, Inje University, College of Medicine, Busan, Korea.

5Department of Emergency Medicine, Pusan National University, School of Medicine, Busan, Korea.

PMID: 34565121

PMCID: PMC8543078

DOI: 10.3352/jeehp.2021.18.25

Free PMC article

Abstract

Purpose: Setting standards is critical in health professions. However, appropriate standard setting methods do not always apply to the set cut score in performance assessment. The aim of this study was to compare the cut score when the standard setting is changed from the norm-referenced method to the borderline group method (BGM) and borderline regression method (BRM) in an objective structured clinical examination (OSCE) in medical school.

Methods: This was an explorative study to model of the BGM and BRM. A total of 107 fourth-year medical students attended the OSCE at seven stations with encountering standardized patients (SPs) and one station with performing skills on a manikin on 15 July 2021. Thirty-two physician examiners evaluated the performance by completing a checklist and global rating scales.

Results: The cut score of the norm-referenced method was lower than that of the BGM (p<0.01) and BRM (p<0.02). There was no significant difference in the cut score between the BGM and BRM (p=0.40). The station with the highest standard deviation and the highest proportion of the borderline group showed the largest cut score difference in standard setting methods.

Conclusion: Prefixed cut scores by the norm-referenced method without considering station contents or examinee performance can vary due to station difficulty and content, affecting the appropriateness of standard setting decisions. If there is an adequate consensus on the criteria for the borderline group, standard setting with the BRM could be applied as a practical and defensible method to determine the cut score for OSCE.

Keywords: Checklist; Educational measurement; Medical students; Objective structured clinical examination; Standard setting.

OSCE 합격선 설정: 세 가지 경계선 집단 방법(Medical Science Educator, 2022)
OSCE Standard Setting: Three Borderline Group Methods
Sydney Smee2 · Karen Coetzee1 · Ilona Bartman2 · Marguerite Roy3 · Sandra Monteiro4

 

소개
Introduction

표준 설정 시험에서 "경계선"으로 평가된 수험생은 전문 표준을 명확하게 충족한 수험생과 그렇지 않은 수험생을 구분하는 중요한 점수 범위를 나타내며, 어떤 "경계선" 수험생이 표준을 충족했는지를 파악하는 것이 과제입니다. 객관적 구조화 임상시험(OSCE)의 데이터로 커트라인 점수를 계산하기 위해 다양한 경계선 그룹 방법이 도입되었습니다[1,2,3,4,5,6]. 수정된 BGM은 사용 편의성을 최우선으로 고려했습니다[4]. 일반적으로 경계선으로만 평가된 수험자의 평균 점수가 각 스테이션에 대해 계산됩니다. 그런 다음 스테이션 평균 점수를 평균하여 최종 OSCE 컷 점수를 얻습니다. 최종 결정은 시험관의 판단을 최대한 반영하여 실제 수행을 관찰한 결과를 바탕으로 이루어집니다. 따라서 별도의 표준 설정 패널이 필요하지 않아 컷 점수 설정에 드는 노력과 비용을 크게 줄일 수 있다는 장점이 있습니다[7,8,9,10,11]. 그러나 이 방법의 유용성에 대한 초기 증거는 대규모 국가 OSCE의 맥락에서 나온 것입니다. 각 시험장마다 여러 명의 시험관이 있었고 각 시험장의 경계선 코호트 규모가 컸습니다[4]. 시험관 편차가 전체 등급에 미치는 영향과 경계선 그룹에 속한 이상치 응시자의 영향은 평균화하여 역별 컷 점수에 미치는 영향을 최소화하거나 전혀 영향을 미치지 않았습니다. 소규모 단일 기관 OSCE의 경우, 경계선 코호트에서 시험관 분산과 이상치 응시자, 또는 심지어 OSCE 스테이션에 경계선 응시자가 거의 또는 전혀 없는 경우에도 컷 점수에 상당한 부정적 영향을 미칠 수 있습니다. 
In standard-setting exercises, examinees rated as “borderline” represent a critical range of scores separating those that clearly met the professional standard and those that did not, the challenge being to determine which “borderline” examinees have also met the standard. A variety of borderline group methods have been introduced [1,2,3,4,5,6], for calculating cut scores with data from objective structured clinical exams (OSCE). The modified BGM places ease of use at the top of the list [4]. Typically the mean scores of examinees exclusively rated as borderline are calculated for each station. Then, the station mean scores are averaged to achieve a final OSCE cut score. The final decision is based on observations of actual performances, making the most of the judgment of the examiners. Consequently, another advantage is eliminating the need for a separate standard-setting panel, significantly reducing the effort and cost of setting a cut score [7,8,9,10,11]. However, early evidence of the method’s utility was in the context of a large-scale national OSCE. There were multiple examiners for each station and the borderline cohorts for each station were large [4]. The impact of examiner variance on the global ratings and the effect of outlier examinees in the borderline groups were averaged out with minimal to no impact on the station cut scores. For smaller, single institution OSCEs, examiner variance and outlier examinees in the borderline cohorts, or even having few to no borderline examinees identified for an OSCE station, can significantly and negatively impact the cut score.

본 연구는 수정된 BGM의 타당성을 유지하면서 소규모 코호트에서 수정된 BGM 사용의 위험을 완화할 수 있는 OSCE 컷 점수 설정 프로세스를 평가하기 위해 수행되었습니다. 이를 위해 이 연구에서는 회귀 기반 수정과 라쉬 기반 수정을 수정된 BGM과 비교하여 고려했습니다. 회귀 기반 경계선 그룹 방법(회귀 BGM) 라쉬 기반 경계선 그룹 방법(라쉬 BGM)의 강점을 아래에서 자세히 설명합니다. 
The present study was conducted to assess a process for setting an OSCE cut score that would mitigate the risks of using modified BGM with smaller cohorts while retaining the feasibility of modified BGM. To this end, this study considered a regression-based modification and Rasch-based modification in comparison to modified BGM. We expand on the strengths of both a regression-based borderline group method (regression BGM) and Rasch-based borderline group method (Rasch BGM) below.


회귀 BGM수정 BGM에서와 같이 경계선 수험생의 데이터뿐만 아니라 모든 수험생의 점수 데이터를 회귀 방정식에 사용하여 스테이션별 편차를 처리합니다. 회귀 BGM 표준 설정에서 각 시험장에 대한 선형 방정식은 각 수험생의 글로벌 등급을 독립 변수로, 관련 총 시험장 점수를 종속 변수로 사용하여 계산됩니다[5,6,7]. 그런 다음 경계선 표준을 나타내는 글로벌 등급(예: 5점 척도 3점)을 방정식에 삽입하여 스테이션별 컷 점수를 나타내는 해당 스테이션 점수를 예측합니다[5,6,7]. 데이터 그래프를 검토하고 회귀선에서 글로벌 점수와 스테이션 점수 사이의 교차점을 식별하여 이 작업을 수행할 수도 있습니다. 그런 다음 예측된 스테이션 컷 점수를 평균화하여 최종 OSCE 컷 점수를 결정합니다. 이 통계 분석은 일반적인 통계 소프트웨어 또는 스프레드시트를 사용하여 선형 회귀 분석을 스테이션 데이터에 적용하기만 하면 되기 때문에 매력적입니다 [5,6,7]. 회귀 BGM은 보건 교육에서 OSCE를 위한 최적의 선택으로 설명되어 왔으며[12], 여러 연구에서 OSCE 표준 설정 접근법에 대한 신뢰성이 입증되었습니다[13, 14]. 또한 회귀 BGM은 수정 BGM의 모든 장점을 포함하고 있습니다 [5]. 회귀 BGM은 경계선 등급 데이터뿐만 아니라 전체 등급의 모든 데이터를 사용함으로써 경계선 등급을 받은 수험생이 없더라도 스테이션 컷 점수를 설정할 수 있습니다. 그러나 수정된 BGM과 마찬가지로, 이 계산은 특히 스테이션당 시험관 수가 적은 경우 극단적인 시험관 평가에 여전히 취약합니다.  

The regression BGM addresses variance from a station by using all the examinee score data in the regression equation, not just data from the borderline examinees, as is done in modified BGM. In a regression BGM standard setting, a linear equation for each station is calculated using the global rating for each examinee as the independent variable and the associated total station scores as the dependent variable [5,6,7]. The global rating that represents the borderline standard (e.g. three on a 5-point scale) is then inserted into the equation to predict a corresponding station score that represents the station-specific cut score [5,6,7]. This can also be accomplished by examining a graph of the data and identifying the point of intersection on the regression line, between the global and station scores. The predicted station cut scores are then averaged to determine the final OSCE cut score. This statistical analysis is appealing as regression BGM only requires the application of a linear regression analysis to the station data, using common statistical software or spreadsheets [5,6,7]. The regression BGM has been described as an optimal choice for OSCEs in health education [12] and its reliability for OSCE standard-setting approach has been upheld in several studies [13, 14]. Furthermore, regression BGM includes all the advantages of modified BGM [5]. By using all the data from the global rating, not just the borderline rating data, regression BGM is able to set station cut scores even if no examinees are rated as borderline. However, as with modified BGM, the calculations are still vulnerable to extreme examiner ratings, especially when the number of examiners per station is small.

라쉬 BGM수정 BGM과 회귀 BGM의 동일한 장점과 시험자 편차의 영향을 완화할 수 있는 가능성을 제공합니다. 특히 Stone 등[15]은 수험자, 시험관, 시험장 및 전체 글로벌 성과 점수를 포함하는 4면체 라쉬 모델 분석을 Facets 소프트웨어에서 개발했습니다. Stone 등[15]은 라쉬 BGM이 평가 대상에 대한 잘못 정의된 구성에 대한 수정된 BGM의 의존도를 바로잡는다고 주장합니다. 라쉬 BGM의 뛰어난 특징은 정성적 전문가 판단을 평가 대상의 구성을 정의하는 정량적 단일 선형 척도로 변환한다는 것입니다[16, 17]. 이 표준화된 척도를 사용하면 콘텐츠 난이도와 응시자 능력 간의 직접적인 점수 비교가 가능하며, 이 척도를 따라 컷 점수를 점수로 표시할 수 있습니다. 커트라인 점수는 능력 수준이 충분하다고 판단되고 필수 지식 또는 역량을 습득한 것으로 간주되는 지점을 척도 상에 표시합니다. 다면 라쉬 측정 모델은 수험자의 점수에 영향을 줄 수 있는 시험 요소, 즉 OSCE와 같은 수행 평가에서 시험관의 채점 행동과 같은 요소를 포함할 수 있습니다. 여러 측면을 포함하면 이러한 측면과 관련된 분산을 추정할 수 있으며 시험관 매개 평가를 위한 객관적인 표준 설정 방법의 개발이 가능해집니다. 시험관을 포함함으로써 모델은 엄격하거나 관대한 채점과 관련된 분산을 설명할 수 있었습니다. 글로벌 등급 패싯은 경계선 수험생과 관련 역 점수 간의 직접 점수 비교를 위한 추정치를 계산하는 데 사용되었습니다. Stone 등[15]은 라쉬 기반 컷 점수가 패널 기반 표준 설정 패널의 결과와 매우 유사한 결과를 산출하여 라쉬 BGM이 검사자 매개 평가를 위한 유효하고 자원 집약적이지 않은 표준 설정 대안임을 입증했다고 밝혔습니다. 
The Rasch BGM offers the same advantages of both modified BGM and regression BGM, and the possibility of mitigating the impact of examiner variance. Specifically, Stone et al. [15] developed a four-facet Rasch model analysis in Facets software, which included examinees, examiners, stations, and the overall global performance score. Stone et al. [15] argue the Rasch BGM rectifies modified BGM’s reliance on a poorly defined construct of what is being assessed. The outstanding feature of Rasch BGM is the translation of qualitative expert judgments onto a quantitative single linear scale that defines the construct being assessed [16, 17]. Using this standardized scale, it is possible to make direct score comparisons between content difficulty and test-taker ability and to represent the cut score as a point along this scale. The cut score marks the point on the scale where ability level is judged sufficient and essential knowledge or competence is deemed to be mastered. The many-facet Rasch measurement model allows for the inclusion of test facets that may influence examinee scores; facets such as examiner scoring behaviour in performance assessments like an OSCE. The inclusion of multiple facets allows the variance associated with these facets to be estimated and makes the development of an objective standard-setting method for examiner-mediated assessments possible. Including examiners allowed the model to account for variance associated with stringent or lenient scoring. The global rating facet was used to calculate estimates for direct score comparisons between borderline examinees and their associated station scores. Stone et al. [15] found that the Rasch-based cut score produced results that were very similar to results from a panel-based standard-setting panel, thereby demonstrating that Rasch BGM was a valid and less resource-intensive standard-setting alternative for examiner-mediated assessments.

세 가지 경계선 그룹 방법의 공통적인 장점은 위에 언급된 연구에 열거되어 있습니다:

  • (1) 기준 참조 컷 점수는 임상 전문가가 여러 번의 실제 수행을 직접 관찰하여 (비디오로 촬영된 소량의 샘플이나 가상 수행에 근거한 판단이 아니라) 달성되며,
  • (2) 이미 OSCE에 참여하고 있는 시험관에게 의존함으로써 실현 가능성이 크게 향상되고,
  • (3) 기본 소프트웨어를 사용하여 각 시행 후 컷 점수 계산이 신속하게 완료되며,
  • (4) 비용, 시간 또는 노력 측면에서 컷 점수 설정과 관련된 자원이 적다는 점 등이 있습니다. 

The common advantages of all three borderline group methods are enumerated in the studies referenced above:

  • (1) a criterion-referenced cut score is achieved based on direct observation of multiple actual performances by clinical experts (rather than judgments based on a small sample of videotaped or hypothetical performances),
  • (2) feasibility is significantly enhanced by reliance on examiners who are already part of the OSCE,
  • (3) calculating the cut score is completed quickly after each administration using basic software, and
  • (4) resources associated with setting the cut score are small, whether measured in terms of money, time, or effort.

저희의 의도는 시험관 및 기타 원치 않는 변수의 영향을 최소화하여 OSCE 표준 설정 결정에 더 나은 정보를 제공할 수 있는 가능성을 고려하여 더 일반적으로 사용되는 수정된 BGM회귀 BGM과 비교하여 라쉬 BGM의 정확성을 설명하는 것이었습니다. 각 방법은 캐나다에서 실무 경험을 쌓고자 하는 국제적으로 훈련된 간호사를 평가하는 고난도 12개 스테이션 OSCE의 커트라인 점수를 설정하는 데 채택되었습니다.  
Our intent was to describe the accuracy of the Rasch BGM, compared to the more commonly used modified BGM and the regression BGM, given its potential to minimize the impact of examiner and other unwanted variance with the goal of better informing OSCE standard-setting decisions. Each method was adopted to set the cut score for a high-stakes 12-station OSCE assessing internationally trained nurses seeking entry to practice in Canada.

자료 및 방법
Materials and Method

이 연구의 데이터는 캐나다 내 주정부 등록 절차의 일환으로 평가 프로그램을 이수한 112명의 국제 교육을 받은 간호사를 평가한 2016년 OSCE에서 얻었습니다. OSCE는 다양한 환자 인구 통계에 걸쳐 공통적이고 중요한 환자 프레젠테이션을 샘플링하는 12개 스테이션으로 구성되었습니다. 응시자는 각 스테이션을 11분 이내에 완료해야 했습니다. 
Data for this study came from a 2016 OSCE that assessed 112 internationally educated nurses who completed an assessment program as part of a provincial registration process within Canada. The OSCE consisted of 12 stations that sampled common and important patient presentations across various patient demographics. Examinees were required to complete each station within 11 min.

모든 응시자는 연구 및 품질 관리 목적으로 데이터를 사용하는 데 동의했으며, 모든 보고서는 모든 개인 식별자를 제거한 집계 데이터만 사용한다는 데 동의했습니다. 맥마스터 대학교의 해밀턴 통합 연구위원회는 이 동의서에 따라 수행된 OSCE 연구(보고 포함)는 추가적인 윤리 검토가 면제되는 것으로 간주했습니다. 
All the examinees consented to the use of their data for research and quality control purposes with the agreement that any reports would only use aggregate data with all personal identifiers removed. The Hamilton Integrated Research Board of McMaster University deemed OSCE research done under this consent agreement, including reporting, exempt from further ethics review.

성과는 주 간호대학에서 정의한 입문-실무 역량과 관련된 14개의 사전 정의된 역량을 사용하여 채점되었습니다.

  • 지식 기반 실무에는 (1) 병력 및 데이터 수집, (2) 신체 사정, (3) 결과 분석 및 해석, (4) 우선순위 결정, (5) 간호 전략 실행, (6) 의사소통, (7) 고객과의 협력, (8) 의료팀과의 협력, (9) 간호 계획 개발, (10) 간호 평가 및 모니터링 등 10가지 역량이 포함되었습니다.
  • 윤리적 실천의 경우 (1) 책임과 성실성, (2) 안전, (3) 옹호, (4) 법적 의무의 네 가지 역량이 있었습니다.

각 스테이션에서 이 중 10~12개의 역량을 평가했습니다. 수험생들은 4개의 트랙 중 하나에 배정되었으며, 같은 날 모두 세 개의 세션 중 하나에 배정되었습니다. 각 스테이션당 4명의 시험관이 배치되었으며, 각 시험관은 28개의 수행을 관찰하여 총 48명의 시험관이 참여했습니다.  
Performance was scored using 14 predefined competencies related to entry-to-practice competencies defined by the provincial college of nurses.

  • For knowledge-based practice, there were 10 competencies: (1) health history and data collection, (2) physical assessment, (3) analysis and interpretation of findings, (4) prioritization, (5) implementation of care strategies, (6) communication, (7) collaboration with the client, (8) collaboration with the health care team, (9) nursing care plan development, and (10) evaluation and monitoring of care.
  • For ethical practice, there were four competencies: (1) responsibility and integrity, (2) safety, (3) advocacy, and (4) legal obligations.

Ten to 12 of these competencies were assessed in each station. The examinees were allocated to one of four tracks, as well as one of three sessions all conducted on the same day. There were four examiners per station, with each one observing 28 performances, for a total of 48 examiners.

시험관들은 현재 주 내에서 근무 중인 간호사들로 구성되었습니다. 이들은 OSCE에 대한 정보(기본 사항, 평가 대상 역량, 평가 지침 등)로 시작하여 태블릿 채점 및 시험 당일 물류에 대한 지침으로 구성된 공식 교육을 받았습니다. 또한 필기 내용에 대한 이해도를 보정하고 표준화하기 위한 소그룹 작업도 있었습니다. 마지막으로, 화상 회의와 후속 토론을 통해 대그룹 채점 연습이 진행되었습니다. 총 교육 시간은 이틀에 걸쳐 12시간이었습니다. 
Examiners were registered nurses currently practicing within the province. They received formal training that began with information about the OSCE (i.e. fundamentals, competencies being assessed, and rating guidelines), followed by instructions on tablet scoring and exam day logistics. There was also small group work to calibrate and standardize their understanding of the written content. Finally, there was a large group scoring exercise using videotaped encounters and follow-up discussions. Total training time was 12 h spread over 2 days.

시험관들은 각 역량에 대해 동일한 5점 만점 평가 척도를 사용하여 배정된 스테이션 내에서 수험생의 수행을 채점했습니다. 평가 척도는 녹색(탁월한 성과), 파란색, 노란색, 주황색, 빨간색(긴급한 성과)의 색상으로 고정되었습니다. 시험관이 피시험자의 성과에 범주형 라벨을 부여하도록 장려하기 위해 숫자 대신 색상을 성과 수준을 나타내는 지표로 사용했습니다. 터치스톤 연구소에서 실시한 내부 품질 보증 조사에 따르면, 시험관들은 숫자 등급이 암시하는 정확성이나 등급이 수험생의 합격 또는 불합격 여부에 영향을 미치는 것과는 달리, 색상 등급이 성능에 더 집중하는 데 도움이 된다고 생각하여 색상 등급을 선호한다고 답했습니다. 이 척도에서 파란색은 앵커 점수 또는 시험 표준을 나타내며, 이는 수험생이 최근 캐나다 간호 프로그램을 졸업한 사람에게 기대되는 실무 진입 표준과 동등한 수준의 수행을 하고 있음을 의미합니다. 시험관은 이 표준에 약간 미달하는 점수에는 노란색을, 이보다 더 낮은 점수를 받은 수험생에게는 주황색을 할당하도록 훈련받았습니다. 이러한 색상 수준은 사후에 5(녹색)에서 1(빨간색)까지의 수치 점수로 변환되었습니다. 각 스테이션의 등급 척도 점수의 평균이 해당 스테이션에 대한 수험자의 점수입니다. 각 스테이션 점수의 평균은 각 수험자의 총 OSCE 점수입니다. 
During the OSCE, examiners scored examinee performances within their assigned stations using the same 5-point global rating scale for each competency. The rating scales were anchored by colours ranging from green (exceptional performance), blue, yellow, orange, to red (emergent performance). Colours were used as indicators of performance level, instead of numbers, to encourage examiners to assign a categorical label to the examinee’s performance. Internal quality assurance inquiries conducted at Touchstone Institute indicated that examiners preferred a colour scale as they felt it helped them focus more on the performance, as opposed to the precision implied by a number rating, or whether their rating would be responsible for passing or failing the examinee. On this scale, blue represents the anchor score or test standard, meaning an examinee is performing at a level equivalent to the Entry to Practice Standard expected of a recent graduate of a Canadian nursing program. Examiners are trained to allocate yellow to a performance slightly below this standard and orange to an examinee who performs even further below this. These colour levels were converted to numerical scores ranging from 5 (green) to 1 (red) post hoc. The mean of the rating scale scores for each station was the examinee’s score for that station. The mean of the station scores was each examinee’s total OSCE score.

합격 기준은 해당 주 내에서 최근 간호사를 졸업한 사람들이 수용할 수 있는 성적을 획득하는 것으로 정의되었습니다. 각 스테이션에 대해 시험관들은 위에서 설명한 역량에 점수를 매기는 데 사용한 것과 동일한 5점 척도를 사용하여 각 수험자의 성과를 전반적으로 평가했습니다. 다음과 같은 지침이 제공되었습니다. "이 스테이션의 전반적인 성과에 근거하여, 최근 주 학사 간호 프로그램을 졸업한 졸업생과 비교한 수험생의 현재 역량 수준은 -입니다."입니다. 5점 만점에 3점(노란색)을 받으면 "경계선"에 해당하는 수행을 확인할 수 있습니다. 수정된 BGM과 회귀 BGM의 경우 스테이션 점수가 사용되었습니다. 라쉬 BGM의 경우, 스테이션 점수를 먼저 백분율로 변환했습니다. 모든 OSCE 컷 점수는 가장 가까운 정수로 반올림했습니다.  
The standard for passing was defined as attaining a performance acceptable for recent nurse graduates within the province. For each station, examiners rated each examinee’s performance globally, using the same 5-point rating scale as used to score the competencies described above. The following guideline was provided, “Based on the overall performance for this station, the examinee’s current level of competence as compared to a recent graduate from a provincial baccalaureate nursing program is–”. A global rating of 3 (yellow) out of 5 identified performances that were “borderline”. For modified BGM and regression BGM, stations scores were used. For Rasch BGM, station scores were first converted to a percent. All the OSCE cut scores were rounded to the nearest whole number.

  • 수정된 BGM의 경우, 경계선 수행능력의 평균 점수가 해당 스테이션의 컷 점수가 되고, 스테이션 컷 점수의 평균이 OSCE 컷 점수가 되었습니다. 계산은 스프레드시트에서 수행되었습니다.
    For modified BGM, the mean score of the borderline performances became the cut score for the station and the average of the station cut scores became the OSCE cut score. The calculations were done in a spreadsheet.
  • 회귀 BGM의 경우, 각 수험생의 글로벌 등급을 독립변수로, 해당 스테이션 점수를 종속변수로 사용하여 12개 스테이션 각각에 대한 선형 방정식을 계산했습니다. 이러한 계산은 스프레드시트에서도 수행되었습니다. 각 방정식에서는 3등급의 경계선 등급을 사용하여 스테이션별 예상 컷 점수를 계산했습니다. 스테이션별 컷 점수의 평균을 계산하여 OSCE 컷 점수를 생성했습니다.
    For regression BGM, a linear equation for each of the 12 stations was calculated using the global rating for each examinee as the independent variable and the corresponding station score as the dependent variable. These calculations were done in a spreadsheet as well. The borderline rating of three was used in each equation to calculate the predicted station-specific cut scores. The station cut scores were averaged to generate the OSCE cut score.
  • 라쉬 BGM의 경우, 백분율로 표시되는 점수[18,19,20,21]에 유용한 4면 B100 라쉬 모델을 Facets 소프트웨어[22] 내에서 생성하여 각 스테이션에 개별적으로 적용했습니다. 패싯 1은 수험생, 패싯 2는 시험관, 패싯 3은 스테이션의 전체 글로벌 성능 점수(1~5로 코딩), 패싯 4는 수험생의 스테이션 점수로 구성되었습니다.
    For Rasch BGM, a four-facet B100 Rasch model, useful for scores expressed as percentages [18,19,20,21], was created within Facets software [22] and applied to each station separately. Facet One was examinees, Facet Two was examiner, Facet Three was the overall global performance score for the station, coded as 1 to 5, and Facet Four was examinees’ station scores.

단절되거나 분리된 하위 집합을 처리하기 위해 패싯 1(수험생)을 0에 고정하고 중심이 아닌 패싯 4(스테이션 점수)를 고정했습니다. 따라서 패싯 1은 각 수험자를 수험자 표준 셀의 대표로 취급하는 더미 변수로 나타났습니다[18]. 데이터가 Rasch 모델 사양에 어느 정도 부합하는지, 따라서 이 분석에 적합한지 확인하기 위해 소프트웨어 출력의 일부로 생성된 적합 평균 제곱(MnSq) 통계를 조사했습니다. 적합도 또는 정보 가중치 통계는 개인을 대상으로 하는 항목에 대한 응답 패턴에 더 민감하며 그 반대의 경우도 마찬가지이므로 일반적으로 모델 적합도 데이터를 결정할 때 적합도보다 더 유용한 것으로 간주됩니다[19]. 그 범위에 대해서는 종종 논란이 있지만, 우리는 0.50에서 1.50 사이의 인핏 MnSq 값을 "측정에 생산적"으로, 0.50 미만과 1.50에서 2.0 사이는 생산성은 떨어지지만 저하되지는 않는 것으로, 2.0 이상은 측정 시스템을 왜곡하는 것으로 채택했습니다[19, 20]. 또한 출력의 일부로 생성된 분리 신뢰도 지수 통계는 각 패싯에 포함된 요소 간의 분산 또는 이질성 수준을 나타냅니다. 이 통계는 0에서 1 사이의 범위를 사용하며, 1에 가까운 값은 요소 간의 분산 수준이 높음을 나타냅니다[21]. 
To deal with disconnected or disjointed subsets, we anchored Facet One (examinees) at 0 and non-centred Facet Four (station score). Facet One therefore represented a dummy variable which treated each examinee as a representative of their examiner-standard cell [18]. To determine the extent to which the data fit the Rasch model specifications and therefore its suitability for this analysis, we investigated the infit mean square (MnSq) fit statistics generated as part of the software output. Infit or information-weighted statistics are more sensitive to the pattern of responses to items targeted on the person and vice versa; they are therefore generally considered more useful than outfit in determining data to model fit [19]. Although the range is often disputed, we adopted infit MnSq values between 0.50 and 1.50 as “productive for measurement”, less than 0.50 and between 1.50 and 2.0 as less productive but not degrading, and greater than 2.0 as distorting the measurement system [19, 20]. The Reliability of Separation Index statistic, also generated as part of the output, provided an indication of the level of variance or heterogeneity between the elements included within each facet. This statistic adopts a range from 0 to 1, with values closer to 1 representing higher levels of variance between elements [21].


경계선 수험생의 공정 평균 점수는 각 스테이션의 커트라인 점수가 되었습니다. 각 측면의 공정 평균 점수는 원래 점수 지표를 사용하여 계산되었으며, 시험관 배정과 관련된 분산과 같은 맥락[18,19,20,21]을 고려한 관찰된 평균을 나타냅니다. 그런 다음 스테이션 컷 점수를 평균화하여 최종 Rasch BGM 컷 점수를 생성했습니다. 
The fair averagescore for borderline examinees became the cut score for each station. The fair average score for each facet was calculated using the original score metric and represents the observed average, accounting for context [18,19,20,21], for instance, the variance associated with examiner assignment. The station cut scores were then averaged to generate the final Rasch BGM cut score.

알파 계수와 함께 OSCE에 대한 기술 통계가 계산되었습니다. 컷 점수와 합격률, 결정 정확도 및 일관성 지수도 BB-CLASS 소프트웨어[23,24,25]를 사용하여 계산했습니다. 항목별 총 상관관계 및 컷 점수와 함께 스테이션 수준의 설명 통계도 분석에 포함되었습니다. 회귀 분석의 스테이션 수준 결과도 제공됩니다. 
Descriptive statistics for the OSCE, along with the alpha coefficient, were calculated. The cut scores and pass rates were also calculated, along with decision accuracy and consistency indices, which were generated using BB-CLASS software [23,24,25]. Station-level descriptive statistics along with item-total correlations and cut scores were included in the analysis. Station-level results from the regression analyses are also provided.

결과
Results

OSCE는 큰 문제 없이 시행되었습니다. 평균 점수는 64%, 표준 편차는 7.7%, 알파 계수는 0.85였습니다. 스테이션별 기술통계 결과는 평균 점수의 범위가 54.8~73.3%로 스테이션별 난이도의 범위를 보여줍니다. 모든 스테이션의 항목-총상관계수(ITC)는 0.20 이상으로 12개 스테이션에서 적절한 수준의 내부 일관성이 있음을 나타냅니다[24]. 스테이션에 대한 설명적 결과는 표 1에 나와 있습니다. 
The OSCE was administered without any significant issues. The mean score was 64% with a standard deviation of 7.7% and an alpha coefficient of 0.85. Station-level descriptive results show a range in mean scores from 54.8 to 73.3%, illustrating a range in station difficulty. All stations had item-total correlations (ITC) greater than 0.20, indicating an adequate degree of internal consistency across the 12 stations [24]. The descriptive results for the stations are provided in Table 1.

전반적으로 데이터는 인핏 MnSq 통계에 의해 결정된 모델 사양에 충분히 부합했습니다. 구체적으로,

  • 패싯 2(검사자)는 12개 스테이션에서 평균 1.34(범위: 0.94~1.93)의 인핏 MnSq 값을 달성했고,
  • 패싯 3(글로벌 성능 점수)은 평균 1.28(범위: 0.55~2.11)을 달성했습니다. 패싯 3의 경우, 스테이션 8의 한 스테이션만이 측정 시스템을 왜곡하는 것으로 간주되는 값(2.11)을 달성하여 평가 품질 보증을 위해 추가 조사가 필요했으며, 본 연구 내에서 스테이션 8에 대한 조정은 이루어지지 않았습니다.
  • 마지막으로, 패싯 4(스테이션 점수)는 1.31(범위: 0.95~1.79)의 평균 적합도 MnSq 값을 달성했습니다.
  • 이 패싯은 더미 변수로 모델에 포함되었기 때문에 패싯 1(수험자)에 대한 적합도 통계는 생성되지 않았습니다. 

Overall, the data achieved sufficient fit to model specifications as determined by infit MnSq statistics. Specifically,

  • Facet Two (examiners) achieved a mean infit MnSq value of 1.34 (range: 0.94 to 1.93) across the 12 stations,
  • Facet Three (global performance score) achieved a mean of 1.28 (range: 0.55 to 2.11). For Facet Three, only one station, namely Station 8, achieved a value considered distorting to the measurement system (2.11) and warranted further investigation for assessment quality assurance purposes; no adjustments were made to Station 8 within this study.
  • Lastly, Facet Four (station score) achieved a mean infit MnSq value of 1.31 (range: 0.95 to 1.79).
  • Note, fit statistics were not generated for Facet One (examinees), as this facet was included in the model as a dummy variable.


패싯 2와 패싯 3에 각각 표시된 수험자 및 글로벌 성과 점수 요소에 걸쳐, 결과는 수험자 간에는 중간에서 높은 수준의 분산이, 글로벌 성과 점수 간에는 높은 수준의 분산이 나타났습니다. 특히 시험관의 경우, 평균 분리 신뢰도 지수는 0.64(범위: 0.18~0.94)로, 일부 시험소의 경우 시험관의 채점 행동에 상당한 차이가 있음을 나타냅니다. 전체 수행 점수 간의 차이 측면에서, 3번 영역의 분리 신뢰도는 12개 스테이션에서 평균 0.96(범위: 0.88~0.99)을 기록했으며, 이는 시험관이 이 점수를 사용하여 각 스테이션에서 응시자 간의 전반적인 수행 수준을 적절하게 식별했음을 나타냅니다. 
Across the examiner and global performance score elements represented in Facet Two and Facet Three, respectively, results showed moderate to high levels of variance across examiners, and high levels of variance across global performance scores. Specifically for examiners, a mean Reliability of Separation Index of 0.64 (range: 0.18 to 0.94) was achieved, indicating that for some stations, examiners displayed significant differences in their scoring behaviour. In terms of differences between global performance scores, Reliability of Separation for Facet Three achieved a mean of 0.96 (range 0.88 to 0.99) across the 12 stations, indicating that examiners used these scores to appropriately identify distinct overall levels of performance between examinees in each station.

세 가지 방법으로 생성된 컷 점수는 거의 비슷했으며(범위 64-65%), 회귀 BGM과 라쉬 BGM 컷 점수는 동일한 값(65%)으로 반올림되었습니다. BB-CLASS 분석[23, 24]에서는 의사 결정 일관성과 의사 결정 정확도 지표를 제공했습니다. 결정 일관성은 반복 테스트에서 동일한 합격/불합격 결정을 내릴 가능성이 얼마나 되는지를 나타내며, 결정 정확성은 다른 측정치와 비교하여 동일한 결과를 얻을 가능성이 얼마나 되는지를 나타냅니다[24]. 세 가지 컷 점수는 모두 0.82 이상의 지수로 허용 가능한 일관성과 정확성을 보였으며, 이는 의사 결정에 대한 위양성과 위음성의 위험을 충분히 최소화한다는 것을 의미합니다. 표 2에는 세 가지 컷 점수에 대한 결과가 요약되어 있습니다. 
The cut scores generated by the three methods were close (range 64–65%), with regression BGM and Rasch BGM cut scores rounding to the same value (65%). A BB-CLASS analysis [23, 24] provided decision consistency and decision accuracy indices. Decision consistency indicates how likely the same pass/fail decisions would be achieved on repeat testing while decision accuracy indicates how likely the same results would be achieved relative to other measures [24]. All three cut scores were acceptably consistent and accurate with indices ≥ 0.82, meaning they sufficiently minimized the risk of false positives and false negatives for decision-making. Table 2 summarizes the results for the three cut scores.

컷 점수의 작은 차이가 합격률에 영향을 미칠 수 있습니다. 표 2에서 볼 수 있듯이, 가장 높은 합격률(즉, 56%)은 수정된 BGM 컷 점수 64%에서 발생했습니다. 기준 설정 방식에 따라 합격률은 4%의 변동이 있었습니다.
Small differences in cut scores may impact pass rates. As shown in Table 2, the highest passing rate (i.e. 56%) was generated by the modified BGM cut score of 64%. Depending on the standard-setting method, the pass rate fluctuated by 4%.

표 3은 각 스테이션의 경계선 그룹 크기와 각 방법 내 관련 컷 점수를 설명합니다. 각 스테이션별 경계선 그룹의 크기는 다양했지만 n = 31(코호트의 27.7%)에서 n = 67(59.8%)까지 모두 컸으며, 경계선 그룹이 n = 40(35.7%) 이하로 떨어진 경우는 단 3곳에 불과했습니다. 회귀 BGM과 라쉬 BGM 방법 모두 시험관의 경계선 판단을 사용하여 컷 점수를 설정했지만 전체 코호트의 점수와 함께 사용했습니다.  

Table 3 describes the size of the borderline group in each station and the relevant cut score within each method. The size of the borderline group for each station varied but all were large, ranging from n = 31 (27.7% of the cohort) to n = 67 (59.8%), with only three borderline groups falling below n = 40 (35.7%). Both the regression BGM and Rasch BGM methods used the examiners’ borderline judgments to set the cut score but worked with the scores for the total cohort.

 

토론
Discussion

표준 설정은 궁극적으로 표준 설정 방법이 모범 사례를 반영하고 일관되게 따를 때 가장 방어할 수 있는 정책 결정입니다. 경계선 그룹 방법은 수험자 기반 및 기준 참조 방식이며 OSCE 형식과 잘 부합합니다. 이러한 방법에 대한 연구에 따르면 이러한 방법은 중대한 의사 결정을 지원하기에 충분히 타당하고 신뢰할 수 있는 것으로 입증되었습니다[5, 26, 27]. 또한 극단적인 시험관의 판단, 경계선에 있는 수험생 코호트가 작거나 존재하지 않는 경우, 시험장당 시험관이 소수이고 수험생 코호트가 작은 경우, 극단적인 수험생의 성적으로 인해 공정한 커트라인 점수를 설정할 때 발생할 수 있는 위험성을 강조한 연구도 있습니다[28]. 
Standard setting is ultimately a policy decision that is most defensible when the standard-setting method reflects best practice and is followed consistently. Borderline group methods are examinee-based and criterion-referenced and align well with the OSCE format. Studies of these methods have demonstrated that they are sufficiently valid and reliable to support high-stakes decision-making [5, 26, 27]. Studies have also highlighted the risks posed to setting a fair cut score introduced by the judgments of extreme examiners, small or non-existent cohorts of borderline examinees, and extreme examinee performances when there are only a few examiners per station and examinee cohorts are smaller [28].

이 연구 결과가 경계선 그룹 방법 중 한 가지를 다른 방법보다 명확하게 선호하지는 않았지만, 연구 결과에 따르면 수정된 BGM이 경계선 그룹 내 낮은 점수의 영향을 가장 많이 받아 가장 낮은 커트 점수로 이어지며, 이는 회귀 BGM 또는 라쉬 BGM 접근법 중 하나를 사용해야 한다는 주장을 뒷받침하는 약점이었습니다.
While the results of this study did not clearly favour one borderline group method over another, the findings did suggest that the modified BGM was the most influenced by lower scores within the borderline group, leading to the lowest cut score, a weakness that supports the arguments for using either of the regression BGM or Rasch BGM approaches.

스테이션 수준에서 모든 방법은 동일한 스테이션 5를 제외하고 스테이션 간에 서로 다른 컷 점수를 생성했습니다. 스테이션 간 차이는 평균을 내어 거의 동일한 총 컷 점수를 산출했으며, 라쉬 BGM회귀 BGM의 경우 동일한 값으로 반올림했습니다. 이 두 가지 방법이 이 코호트에서 거의 동일한 컷 점수를 생성했다는 사실은 놀라운 일이 아닙니다. 라쉬 BGM 방식은 기본적으로 시험자 편차를 고려한 후 회귀 BGM 방식입니다. 시험관 간 편차가 크면 각자의 컷 점수에 더 큰 차이가 있을 것입니다. OSCE 또는 기타 수행 평가를 위한 시험관 교육은 특히 수행을 평가하는 기준에 대한 공통된 이해를 증진하는 데 중요합니다. 시험관 선발 및 교육과 함께 트랙 차이를 최소화하기 위한 다른 전략이 효과적이라면 Rasch BGM에서 공정 평균을 계산할 때 조정이 최소화됩니다. 이 경우 조정이 적었기 때문에 컷 점수가 비슷했습니다. 그러나 OSCE 시험관 교육에 투입되는 시간과 노력은 잘 보고되지 않았으며 기관마다 크게 다릅니다. 개별 학교나 소규모 기관은 대규모 시험 설계 센터에서 실시하는 면허 시험 준비의 일상적인 부분인 시험관 교육에 투자할 충분한 자원이 없을 수 있습니다. 회귀 BGM보다 Rasch BGM을 사용하는 것의 가치는 문제가 되는 분산을 설명할 수 있다는 점입니다. 또한 두 방법 모두 모든 수험생 데이터를 사용했고 이 경우 시험장 점수 분포가 넓었기 때문에(표준편차 범위: 8.2~16.9%) 회귀선에 대한 극단적인 점수의 영향이 최소화되었고 데이터는 Rasch BGM에서 사용되는 공정 평균을 계산하는 데 좋은 근거를 제공했습니다. 
At the station level, all methods generated different cut scores across stations, except for Station 5 which was identical. Differences between stations were averaged out to almost the same total cut score and rounded to the same value for Rasch BGM and regression BGM. The fact that these two methods generated almost the same cut score for this cohort is not surprising. The Rasch BGM method is basically the regression BGM method after taking into account examiner variance. With more variance between examiners, there would be a greater difference between their respective cut scores. Training examiners for an OSCE or any other performance assessment is important; in particular, to promote a common understanding of the standard against which performance is being judged. If examiner selection and training along with other strategies to minimize track differences are effective then the adjustments made when calculating the fair average in Rasch BGM are minimized. In this case, the adjustments were small and therefore cut scores were similar. However, the time and effort given to training OSCE examiners is not well reported and varies greatly across organizations. Individual schools or smaller institutions may not have sufficient resources to invest in examiner training, which is a routine part of OSCE preparation for licensing exams conducted by larger test design centres. The value of using Rasch BGM over regression BGM is its capacity to account for problematic variance. Furthermore, since both methods used all the examinee data and in this instance the station score distributions were broad (range of standard deviation: 8.2 to 16.9%), the impact of extreme scores on the regression line was minimized and the data provided a good basis for calculating the fair average used in Rasch BGM.

수정 BGM은 몇 가지 간단한 계산을 기반으로 가장 쉬운 방법이며, 커트라인 점수(64%)가 회귀 BGM 및 라쉬 BGM 방법(65%)과 거의 동일하지만, 수험자와 시험관 수가 적은 경우 여전히 가장 취약한 방법임에 틀림없습니다. 이번 OSCE에서는 12개 스테이션 모두에서 경계선 등급을 받은 수험생이 많았는데, 이는 적어도 부분적으로는 코호트의 이질성에 기인한 것으로 보입니다. 수험생들은 서로 다른 나라에서 훈련을 받았고 서로 다른 실무 배경을 가지고 있었습니다. 단일 간호 학교의 비슷한 규모의 코호트라면 훨씬 더 동질적일 것이며 경계선 그룹이 작거나 존재하지 않을 위험이 더 높을 것입니다. 
While modified BGM remains the easiest based on a few simple calculations and despite a cut score (64%) almost identical to the regression BGM and Rasch BGM methods (65%), it is still arguably the most vulnerable method when examinee and examiner numbers are small. This OSCE had a good number of examinees rated as borderline for all 12 stations, which is at least partially attributable to the heterogeneity of the cohort. The examinees trained in different countries and came from different practice backgrounds. A similar-sized cohort from a single nursing school would be significantly more homogeneous and the risk of small or non-existent borderline groups would be higher.

회귀 BGM과 라쉬 BGM 모두 모든 수험자 데이터를 사용하여 경계선 그룹 내 극단적인 점수로 인한 편차를 상쇄했습니다. 회귀 BGM은 익숙한 방법인 단순 선형 회귀에 의존하고 계산도 쉽기 때문에 더 널리 사용되고 보고되었습니다. 
Both regression BGM and Rasch BGM methods used all the examinee data to offset variance due to extreme scores within the borderline groups. Regression BGM has been more widely used and reported, likely because it relies on simple linear regression, a familiar method, and is also easily calculated.

4면 라쉬 모델은 공정 평균을 사용하여 스테이션 컷 점수를 설정함으로써 원치 않는 분산을 더 잘 분리하기 때문에, 라쉬 BGM이 더 방어력이 높다고 할 수 있습니다. 콘텐츠 난이도 대비 임상 능력을 정의하는 선형 척도를 따라 커트라인 점수를 배치하면 극단적인 점수, 시험관 편견 또는 경계선으로 평가되는 소수의 응시자의 영향에 덜 취약한 커트라인 점수를 얻을 수 있습니다. 하지만 이 방법을 적용하려면 어느 정도의 측정 전문 지식과 Facets 소프트웨어가 필요했습니다.
The Rasch BGM is arguably more defensible as the four-facet Rasch model better separates out unwanted variance by using the fair average to set station cut scores. Placing the cut score along a linear scale that defined clinical ability relative to content difficulty resulted in a cut score less vulnerable to the influence of extreme scores, examiner biases, or a small number of examinees being rated as borderline. However, some degree of measurement expertise and Facets software were required to apply this method.

Wood 등[4], Homer 등[29], Stone[15]이 주장한 바와 같이, 수정된 BGM은 여전히 학교 규모의 OSCE에서 가장 위험하며 소규모 OSCE의 경우 위험도가 증가합니다. 회귀 BGM과 라쉬 BGM은 모두 OSCE의 커트라인 점수를 설정하는 데 실행 가능하고 방어 가능한 옵션입니다. Stone 등[15]이 판사 매개 성능 평가에 라쉬 BGM을 사용했다고 보고한 것 외에는, 라쉬 BGM은 BGM과 회귀 BGM의 취약성을 모두 완화할 수 있는 잠재력에도 불구하고 OSCE에 사용하기 위해 검토되지 않았습니다. 표준 설정 방법은 퍼포먼스를 구분하지 않는 점수를 "고정"할 수는 없지만, 효율적인 BG 표준 설정 방법을 사용하면 채점 도구를 설계할 때 충분한 주의를 기울이는 데 사용할 수 있는 리소스를 확보할 수 있다는 이점이 있습니다.
The modified BGM is still the riskiest for school-sized OSCEs and the risk increases for smaller OSCEs, as argued by Wood et al. [4], Homer et al. [29], and Stone [15]. Both regression BGM and Rasch BGM are feasible and defensible options for setting a cut score for an OSCE. Aside from Stone et al. [15] reporting on the use of Rasch BGM for judge-mediated performance assessment, Rasch BGM has not been explored for use with OSCEs, despite its potential to mitigate the vulnerabilities of both BGM and regression BGM. Standard-setting methods cannot “fix” scores that do not differentiate between performances, but the benefit of using an efficient BG standard-setting method is that it frees up resources that can be used to ensure sufficient care is taken in designing the scoring instruments.

연구의 한계
Limitations of the Study

이 연구는 알파 계수가 높은 하나의 OSCE를 12개 스테이션에서 한 번 시행하고 모두 등급 척도로 채점하여 세 가지 방법을 경험적으로 비교한 것입니다. 이 OSCE의 높은 내적 일관성은 적어도 부분적으로는 평가 척도[30]의 사용과 수험자 코호트의 이질성 때문이라고 할 수 있습니다. 다양한 OSCE 설계(예: 체크리스트/평정 척도 조합을 사용한 채점), 보다 동질적인 수험자 코호트, 소규모 응시자 코호트를 통한 추가 탐색이 필요합니다. 하위 집합 간의 연결성은 수험자를 더미 변수로 포함시킴으로써 달성할 수 있습니다. 이상적으로 이러한 연결은 두 명 이상의 시험관이 동일한 성과에 대해 수험생을 채점하는 데이터 설계를 통해 달성할 수 있습니다. 
This was an empirical comparison of three methods based on one administration of one OSCE with a high alpha coefficient, 12 stations, all scored with rating scales. The high internal consistency of this OSCE is due, at least in part, to the use of rating scales [30] and to the heterogeneity of the examinee cohort. Further exploration with different OSCE designs (e.g. scoring with checklist/rating scale combinations), more homogeneous examinee cohorts, and smaller candidate cohorts is needed. The connectedness between subsets was achieved by including the examinees as a dummy variable. Ideally this connection is achieved through a data design where examinees are scored by more than one examiner on the same performance.

결론
Conclusion

각 시험 양식마다 특정 사례의 난이도를 반영할 수 있도록 커트라인 점수를 설정해야 하며, 이는 실현 가능한 OSCE 표준 설정에 대한 주요 도전 과제입니다. 한 번의 시행에 사용되는 사례 집합인 각 OSCE 시험 양식은 사례가 다르다는 사실 외에는 다른 이유가 없다면 동일한 사례 은행에서 동일한 목적으로 만들어진 다른 시험 양식과 난이도 및 점수 분포가 다를 수 있습니다. 
Cut scores need to be set for each test form to ensure that they reflect the difficulty of a specific set of cases, and therein lies a major challenge to feasible OSCE standard setting. Each OSCE test form, the set of cases used for one administration, will vary in its difficulty and in its score distribution from other test forms created for the same purpose from the same bank of cases, if for no other reason than the fact that cases are different.

시험 양식 간의 난이도 차이는 시험 양식을 동일하게 하거나 최소한 연결하여[31] 점수를 비슷한 분포로 변환함으로써 완화할 수 있습니다. 연계하면 연결된 시험 양식에 하나의 커트라인 점수를 적용할 수 있으며, 표준 설정 패널을 소집하는 데 드는 비용을 여러 번의 OSCE 시행에 걸쳐 분할 상각할 수 있습니다. 그러나 여러 시험 양식에 걸쳐 공통된 내용과 관련된 필수 가정을 충족하고 결과가 타당하고 신뢰할 수 있는지 확인하기 위한 심리측정 전문 지식을 갖추려면 리소스 집약적인 노력이 필요하며 대규모 사례 은행과 대규모 데이터 세트에서 가장 잘 작동할 수 있습니다. 
Differences in difficulty across test forms can be mitigated with equating or at least linking test forms [31] which allows scores to be transformed to comparable distributions. With linking, one cut score can be applied across the linked test forms and the cost of convening standard-setting panels can be amortized over multiple OSCE administrations. However, meeting the necessary assumptions related to common content across test forms and having the psychometric expertise to ensure that the outcomes are valid and reliable are resource-intensive efforts and most workable with large case banks and large data sets.

연결하지 않는다면, 방어 가능한 커트라인 점수가 필요하기 때문에 각 시험 양식에 커트라인 점수를 설정하여 해당 사례 집합의 난이도를 고려해야 하며, 이 점에서 본 연구에서 검토한 표준 설정 방법의 근거가 있습니다. 단순히 정책적 결정으로 커트라인 점수를 설정하는 대안은 쉽고 비용이 저렴하지만 방어할 수 없습니다. 정책적으로 설정된 커트라인 점수는 시험 유형에 따른 난이도 차이를 고려하지 못하기 때문에 수험생에게 본질적으로 불공정한 결과를 초래합니다. 
Without linking, the need for a defensible cut score requires that a cut score be set for each test form so that the difficulty of that set of cases is taken into account, and therein lies the rationale for the standard-setting methods examined in this study. The alternative of simply setting a cut score with a policy decision, while easy and inexpensive, is not defensible. Policy-set cut scores fail to account for the differences in difficulty across test forms, creating an inherent unfairness for examinees.

세 가지 경계선 그룹 방법의 목표는 모두 패널 기반 표준 설정에 대한 실현 가능한 대안이면서도 방어 가능한 커트라인 점수를 제공하는 것이었습니다. 이 연구 결과는 이전 연구 결과와 일치하며, 회귀 BGM이 매우 큰 편차와 매우 작은 편차 사이에 있는 OSCE의 경우 실현 가능하고 방어 가능한 표준 설정 방법이며, 특히 시험자 편차가 크게 문제가 될 수 있는 OSCE에서 고려할 만한 옵션으로 Rasch BGM을 추가한다는 추가적인 증거를 제공했습니다.
The goal of all three borderline group methods was a feasible alternative to panel-based standard setting that would still provide a defensible cut score. The results of this study were congruent with the findings of earlier studies and provided further evidence that for OSCEs that fall between being very large and very small, regression BGM is a feasible and defensible standard-setting method and adds Rasch BGM as an option worth considering, especially in OSCEs where examiner variance may be significantly problematic.

 


Med Sci Educ. 2022 Nov 16;32(6):1439-1445. doi: 10.1007/s40670-022-01667-x. eCollection 2022 Dec.

OSCE Standard Setting: Three Borderline Group Methods

Affiliations collapse

Affiliations

1Medical Council of Canada, Ottawa, Canada.

2Touchstone Institute, Toronto, Canada.

3Department of Innovation in Medical Education, University of Ottawa, Ottawa, Canada.

4Department of Medicine, Division of Education, and Innovation, McMaster University, Hamilton, Canada.

PMID: 36532388

PMCID: PMC9755382 (available on 2023-12-01)

DOI: 10.1007/s40670-022-01667-x

Abstract

High-stakes assessments must discriminate between examinees who are sufficiently competent to practice in the health professions and examinees who are not. In these settings, criterion-referenced standard-setting methods are strongly preferred over norm referenced methods. While there are many criterion-referenced options, few are feasible or cost effective for objective structured clinical examinations (OSCEs). The human and financial resources required to organize OSCEs alone are often significant, leaving little in an institution's budget for additional resource-intensive standard-setting methods. The modified borderline group method introduced by Dauphinee et al. for a large-scale, multi-site OSCE is a very feasible option but is not as defensible for smaller scale OSCEs. This study compared the modified borderline group method to two adaptations that address its limitations for smaller scale OSCEs while retaining its benefits, namely feasibility. We evaluated decision accuracy and consistency of calculated cut scores derived from (1) modified, (2) regression-based, and (3) 4-facet Rasch model borderline group methods. Data were from a 12-station OSCE that assessed 112 nurses for entry to practice in a Canadian context. The three cut scores (64-65%) all met acceptable standards of accuracy and consistency; however, the modified borderline group method was the most influenced by lower scores within the borderline group, leading to the lowest cut score. The two adaptations may be more defensible than modified BGM in the context of a smaller (n < 100-150) OSCE.

Keywords: Borderline group; OSCE; Standard setting; Validity.

OSCE의 타당도 근거 평가하기: 신설 의과대학으로부터의 결과(BMC Med Educ, 2018)
Evaluating the validity evidence of an OSCE: results from a new medical school
Vanda Yazbeck Karam1* , Yoon Soo Park2, Ara Tekian2 and Nazih Youssef1

 

배경
Background

기존 임상 평가의 문제점을 방지하기 위해 Harden은 보다 타당하고 신뢰할 수 있는 평가 도구로 "객관적 구조화 임상 검사(OSCE)"를 제시했습니다[1]. 그러나 고품질의 효과적인 OSCE를 보장하기 위한 필수 조건은 점수의 타당성을 뒷받침하는 증거를 확보하는 것입니다[2]. 
To prevent the problems of traditional clinical evaluation, the “Objective Structured Clinical Examination (OSCE)” was presented by Harden as a more valid and reliable assessment instrument [1]. However, an essential condition to guarantee a high-quality and effective OSCE is the assurance of evidence to support the validity of its scores [2].

검사의 타당도는 해당 검사가 측정하고자 하는 것을 얼마나 잘 측정하는지를 의미하며, 따라서 검사의 타당도는 여러 증거를 수집하여 축적되어야 합니다[3]. 1989년 Messick은 현대적인 타당도 프레임워크[4]를 제안했으며, 이는 1999년[5]과 2014년[6]에도 실무 표준으로 간주되었습니다. Messick의 구성 타당도 이론에는 테스트 개발을 뒷받침하는 증거와 결과의 결과가 포함됩니다[4]. Messick의 프레임워크에 따르면, 평가 도구에서 생성된 점수를 수락하거나 반박하기 위해서는 다섯 가지 타당도의 원천을 고려해야 합니다[4]. 다섯 가지 원천은 다음과 같다.

  • 내용(시험 문항이 관심 구성의 특징),
  • 응답 과정(데이터 일관성의 증거),
  • 내부 구조(시험의 심리 측정적 특성),
  • 다른 변수와의 관계(동일한 주제를 측정하는 유사하거나 다른 도구와의 결과 일치) 및
  • 결과(학습자, 교수자 및 커리큘럼에 미치는 영향)

The validity of a test is the degree to which this test measures what is intended to measure and hence the validity of a test should be accumulated by collecting several sources of evidence [3]. In 1989, Messick proposed a modern validity framework [4] that was considered a standard of practice in 1999 [5] and also in 2014 [6]. The theory behind Messick’s construct validity includes the evidence supporting the test development and the consequences of the results [4]. According to Messick’s framework, five sources of validity should be considered in order to accept or refute the scores generated by any assessment tool [4]. The five sources are:

  • content (test items are characteristic of the construct of interest),
  • response process (evidence of data coherence),
  • internal structure (psychometric properties of the exam),
  • relations with other variables (alignment of results with similar or different tools measuring the same subject) and
  • consequences (impact on learners, instructors, and curriculum) [4].

OSCE에서 생성된 점수의 타당성은 측정할 영역을 적절하게 표본화할 수 있는 능력에 따라 달라집니다[7]. 궁극적으로 효과적인 OSCE는 인지, 정신 운동 및 정서 능력을 테스트해야 합니다. 그러나 OSCE는 주로 밀러 피라미드의 'shows how' 수준을 평가하는 데 사용됩니다[8]. 우리의 목적은 Messick의 이론을 개념적 프레임워크로 사용하여 레바논 아메리칸 대학교 - 의과 대학(LAU-SOM)에서 시행한 OSCE의 구성 타당성을 조사하는 것입니다. 내부 구조와 결과 타당도를 뒷받침하는 데 중점을 두고 다양한 증거 자료를 수집하려고 시도했습니다. 다른 검증 연구와 달리, 본 조사는 점수 추론의 타당성이 표준 설정 기법의 적절한 적용에 크게 좌우되는 OSCE의 총합적 적용을 기반으로 했습니다. 연구의 또 다른 목적은 합격/불합격 커트라인 점수를 결정하기 위한 합격선 설정 방법으로 경계선 회귀법(BRM)을 사용하고, 이를 기존의 결과 계산 방법과 비교하는 것이었습니다. 
The validity of the scores generated by any OSCE depends on its capability to appropriately sample the domain to be measured [7]. Ultimately, an effective OSCE should test cognitive, psychomotor, and affective skills. However, the OSCE is principally used for the assessment of the ‘shows how’ level of Miller’s pyramid [8]. Our purpose is to examine, using Messick’s theory as a conceptual framework, the construct validity of an OSCE we administered at the Lebanese American University – School of Medicine (LAU-SOM). We attempted to gather multiple sources of evidence with an emphasis on supporting internal structure and consequential validity. Unlike other validation studies, our investigation was based on a summative application of an OSCE where the validity of the score inferences is dependent, to a great extent, on the proper application of standard setting techniques. The other objective of the study was the use of the Borderline Regression Method (BRM) as a method for standard setting to determine the pass/fail cut scores and its comparison to our traditional method of computing the results.

연구 방법
Methods

연구 참가자
Study participants

이 연구는 학사 학위 후 4년의 통합 커리큘럼을 따르는 LAU-SOM에서 실시되었습니다. 평가 배터리에는 OSCE를 포함한 총괄 및 형성 도구가 포함되어 있습니다. LAU의 OSCE 팀은 표준화 환자(SP)를 모집하고 교육하는 연극 교사 1명과 사례를 작성하고 체크리스트를 개발하는 의사 2명으로 구성되어 있습니다. 53명의 1학년 의대생이 혈액학 및 내분비학 모듈을 평가하는 총괄적 OSCE에 참여했습니다. LAU 기관윤리심의위원회에서 윤리 승인을 받았습니다. 학생들은 두 개의 동시 트랙과 세 번의 연속 시험 기간을 사용하여 같은 날에 평가를 받았습니다. 각 트랙에는 임상 시뮬레이션 센터의 다른 방에 위치한 동일한 스테이션이 포함되었습니다. 각 트랙은 7개의 OSCE 스테이션으로 구성되었습니다. 5개 스테이션은 시험관, SP 또는 시험실에 있는 마네킹과 환자가 마주치는 상황으로 구성되었습니다. 나머지 두 스테이션은 병리학 및 미생물학 스테이션이었기 때문에 분석에서 제외되었습니다. 
This study was conducted at the LAU-SOM, where a 4-year integrated curriculum is followed after a Bachelor’s degree. The assessment battery includes summative and formative tools, including OSCEs. The OSCE team at LAU comprises one drama teacher who recruits and trains standardized patients (SPs) and two physicians who write cases and develop checklists. Fifty-three first year medical students took part in a summative OSCE evaluating the hematology and endocrinology modules. Ethics approval was granted by the LAU Institutional Review Board. Using two simultaneous tracks and three consecutive testing periods, students were assessed on the same day. Each track included the same stations located in different rooms of the clinical simulation center. Each track comprised seven OSCE stations. Five stations consisted of patient encounters with an examiner and an SP or a manikin present in the room. The other two stations were pathology and microbiology and therefore were excluded from our analysis.

콘텐츠
Content

내용 증거는 평가 대상 구조가 시험에서 정확하고 완벽하게 표현되었는지를 확인하는 것을 의미합니다[9].

  • OSCE 스테이션에는 혈액학 및 내분비학 모듈과 관련된 다양한 임상 술기가 포함되었습니다: 1-발 검사, 2-목 검사, 3-커플 스테이션: 피로가 있는 환자의 병력 청취 및 기록, 4- 지중해빈혈 상담, 5-유방 검사. 각 스테이션은 30분 동안 진행된 3번 스테이션을 제외하고 10분씩 진행되었습니다.
  • 다양한 콘텐츠 전문가들이 파일럿 테스트에 앞서 사례를 작성하고 검토했습니다. 또한 모든 체크리스트는 콘텐츠 전문가들의 자문을 거쳐 평가 결과에 따라 사전에 개발되었습니다.
  • 의사 시험관(PE)은 학생들의 수행을 직접 관찰하고 체크리스트 성적과 글로벌 등급 성적을 모두 제공했습니다. 또한, 병력 청취 및 의사소통 능력을 평가하는 스테이션의 경우 SP가 채점한 체크리스트가 사용되었으며, 체크리스트 성적에 10%의 가중치를 부여하여 성적을 합산했습니다(추가 파일 1).
  • OSCE가 끝나면 완성된 체크리스트의 정확성을 점검했습니다. 

Content evidence refers to ensuring that the construct being assessed is accurately and completely represented on a test [9].

  • The OSCE stations included various clinical skills related to the hematology and endocrinology modules: 1-ft exam, 2-neck exam, 3-couplet station: history taking patient with fatigue and write-up, 4-counseling for thalassemia, and 5-breast exam. Each station was 10 min except station three that lasted 30 min.
  • Different content experts wrote and reviewed the cases that were pilot-tested prior to their implementation. Moreover, All checklists were developed in advance, following consultation with the content experts and in line with outcomes being assessed.
  • The physician examiners (PEs) directly observed students’ performance and provided both grades; the checklist grades and the global rating grades. In addition, for stations assessing history taking and communication skills, a checklist scored by the SP was used and its grade added to the checklist grade with a weight of 10% (Additional file 1).
  • At the end of the OSCE, the completed checklists were checked for their accurateness.

응답 프로세스
Response process

응답 프로세스체크리스트에 의해 수집된 데이터의 정확성과 무결성을 보장하여 편향 가능성을 줄입니다[6]. 최종 점수의 타당성은 평가자가 제공한 성적의 정확성과 직접적으로 관련이 있습니다.

  • 의사 시험관(PE)은 의과대학에서 교육을 받은 교수진으로 구성되었습니다. 이들은 2시간 동안 체크리스트 항목, 채점 과정, 예상되는 학생의 행동에 익숙해지도록 적절한 지침을 제공받았습니다. OSCE 당일에는 채점 시스템에 대한 지침을 강화했습니다.
  • 체크리스트에는 각 스테이션별로 10~35개 항목이 포함되어 있습니다(추가 파일 2). 각 항목은 과제 완료도와 상관관계가 있는 3점 척도를 사용하여 채점되었습니다.
  • 글로벌 평가 점수는 학생의 전반적인 성과와 관련된 5점 척도로 구성되었으며, 체크리스트 항목별 점수가 아닌 스테이션의 글로벌 인상을 기반으로 했습니다. 글로벌 평가 기술서의 하드 카피는 시험관 파일(추가 파일 3)의 각 스테이션에 보관되었습니다.
  • SP는 각 2시간씩 세 차례에 걸쳐 자신의 역할에 대한 적절한 교육을 받았습니다. 이들에게는 각자의 역할, 학생들이 질문할 수 있는 잠재적 질문, 각 질문에 대한 적절한 답변을 포함한 사례 세부 정보가 제공되었습니다.
  • OSCE를 진행하는 동안 전담 직원이 각 학생의 라운드가 끝난 후 체크리스트 항목의 완성도와 글로벌 등급을 모니터링했습니다.

Response process ensures the correctness and the integrity of the data collected by the checklists to reduce any possible bias [6]. The validity of the final scores relates directly to the accuracy of the grades provided by the assessors.

  • Physician examiners (PEs) were trained faculty from the School of Medicine. For this OSCE, they were provided with the appropriate instructions during a 2-h session in order to get familiar with the checklists’ items, the marking process, and the expected students’ behavior. Updating on the OSCE day reinforced the guidelines about the marking system.
  • Checklists included 10–35 items for each station (Additional file 2). Each item was scored using a 3-point scale correlated to the task completion.
  • The global rating score consisted of a 5-point scale associated with the overall performance of the student and based on the PEs’ global impression and not on the items’ scores. A hard copy of the global rating descriptors was kept in each station in the examiner file (Additional file 3).
  • SPs were properly trained for their roles over three sessions, 2 h each. They were provided with the case details including their roles, any potential questions students may ask, and the appropriate answer for each question.
  • During OSCE administration, the completeness of the checklist items and the global rating was monitored by dedicated staff after each round of students.

결과 타당도
Consequences

결과 타당도시험 점수가 수험생에게 미치는 실제 및 잠재적 영향을 탐구합니다. 합격률 또는 커트라인 점수는 결과 타당도의 출처와 밀접한 관련이 있습니다[10]. 합격 점수는 허용 가능한 성능을 입증하고 시험에 합격하는 데 필요한 최소 점수입니다. 합격선은 무작위적인 결정을 통해 설정될 수 있지만, 합격선 설정은 논리적이고 정당한 방식으로 신뢰할 수 있고 수용 가능한 합격 또는 커트라인 점수를 도출하는 프로세스입니다[11].

  • OSCE에서는 BRM을 적용하여 합격 기준을 설정했습니다[12,13,14]. 체크리스트와 글로벌 등급 점수는 각 스테이션에 대해 별도로 보고되었습니다. 글로벌 등급은 표준 설정 계산에만 사용했습니다.
  • 각 스테이션에 대해 체크리스트를 종속변수로, 글로벌 등급을 독립변수로 고려한 선형 회귀 모델을 사용했습니다. 회귀선을 사용하여 글로벌 등급의 커트라인 '2'(경계선)에 해당하는 체크리스트 점수를 계산하여 스테이션별 BR 합격/불합격 기준을 구했습니다.
  • 스테이션 1에 대한 기준 설정 계산 예는 그림 1에 나와 있습니다. 경계선 그룹에 해당하는 글로벌 등급 척도의 2점을 삽입하면 그에 해당하는 예상 체크리스트 점수가 결정될 수 있습니다. 이 예측 점수 72점이 이 스테이션의 합격/불합격 기준이 되었습니다. 총 시험 점수는 스테이션 체크리스트 점수를 평균하여 계산되었습니다.
  • 5개 스테이션에 대한 해당 합격/불합격 기준은 스테이션 커트라인 점수의 평균으로 정의되었으며, 30분간 지속된 커플링 스테이션이므로 4번 스테이션에 가중치 2를 부여한 것을 제외한 모든 스테이션에 가중치 1을 부여했습니다. 경계선 회귀법(방법 2)을 사용한 OSCE의 합격/불합격 결과는 75%의 가중치가 부여된 체크리스트 성적에 25%의 가중치가 부여된 글로벌 등급 성적을 합산하는 현재의 결과 산출 방법(방법 1)과 비교했습니다.

Consequential validity explores the real and latent impact of any test scores on examinees. Passing rates or cut-off scores are closely linked to the sources of consequential validity [10]. The passing score is the minimum score needed to demonstrate acceptable performance and pass the test. While standards may be set using random decisions, standard setting is a process that results in a credible and acceptable passing or cut-off scores in a logical and justifiable manner [11].

  • In our OSCE, the BRM was applied to establish a passing standard [12,13,14]. Checklists and global rating scores were reported separately for each station. We used the global rating solely for the calculation of standard setting.
  • For each station, a linear regression model was utilized, with the consideration of the checklist as dependent variable and the global rating as independent variable. The BR pass/fail standard per station was obtained by using the regression line to calculate the checklist score corresponding with the cut-off point ‘2’ (borderline) of the global rating.
  • An example for the calculation of the standard setting for station one is shown in Fig. 1. By inserting the point 2 of the global rating scale corresponding to the borderline group, a corresponding predicted checklist score could be determined. This predicted score 72 became the pass/fail standard for this station. The total test score was calculated by averaging the station checklist scores.
  • The corresponding pass-fail standard for the five stations was defined as the average of the stations cut-scores, giving all stations a weight of one except station four with a weight of two since this is a couplet station that lasted 30 min. The pass/fail results of the OSCE using the borderline regression method (Method 2) were compared to our current method of computing the results (Method 1) that consists of ading the checklist grades with a weight of 75% to the global rating grades with a weight of 25%.

 

내부 구조
Internal structure

내부 구조 타당도 증거는 문항 간 상관관계, 시험 난이도 및 점수 신뢰도를 포함하는 시험의 심리측정 측정과 관련이 있습니다. 신뢰도는 다음 지표를 사용하여 평가했습니다: 

  • 1- 크론바흐 알파는 내적 일관성을 측정하는 것으로, 효과적인 시험에서는 우수한 학생이 모든 문항에서 비슷한 성적을 보여야 합니다. SP가 사용되는 OSCE에서 허용되는 알파 값은 0.7 이상입니다. 그러나 더 낮은 등급의 시험에서는 이보다 낮은 값의 크론바흐 알파가 허용됩니다.
  • 2- R2 계수총점 점수와 체크리스트 점수 간의 제곱 선형 상관관계입니다. 두 점수는 양의 상관관계가 있을 것으로 예상됩니다. R2 = 0.5는 적절한 것으로 간주되며,
  • 3- 등급 간 변별력은 총체적 평가에서 등급이 한 단계 올라갈 때마다 체크리스트 점수가 평균적으로 증가하는 것을 의미합니다. 적절한 변별력은 체크리스트에 의해 생성될 수 있는 최대 점수의 10분의 1,
  • 4- 불합격자 수는 특정 과목에 대한 교육의 질과 변화의 필요성을 검토하는 데 사용,
  • 5- 집단 간 변동는 수험생의 수행보다는 환경과 평가자의 태도가 점수에 미치는 영향과 관련이 있습니다. 이상적인 평가 과정에서는 모든 차이가 학생의 성과로 인한 것이어야 하므로 그룹 간 편차는 30% 미만이어야 하며,
  • 6- 체크리스트 성적에 [10%의 가중치를 부여한 표준화 환자 등급]은 이러한 데이터를 통합하는 강력한 방법으로 평가의 신뢰도를 향상시키는 것으로 보입니다(Homer et al. 2009). SP 등급이 정상보다 높은 실패율과 결합된 경우, 이는 해당 주제에 대한 부적절한 교육의 결과일 수 있습니다.

The internal structure validity evidence correlates to the psychometric measures of the test encompassing inter-item correlations, exam difficulty and score reliability. Reliability was evaluated using the following metrics:

  • 1- Cronbach’s alpha measures the internal consistency whereby in an effective test, better students should perform similarly well in all stations. Acceptable alpha value in OSCEs where SPs are used is 0.7 or above. However, in lower stakes exam, a Cronbach’s alpha of a lesser value is acceptable;
  • 2- R2 coefficient is the squared linear correlation between the holistic rating score and the checklist score. It is expected that the two scores be positively correlated. An R2 = 0.5 is considered reasonable;
  • 3- inter-grade discrimination is the average increase in scores of the checklist for each grade increase on the holistic rating. An adequate discrimination index should be the tenth of the maximum score that could be generated by the checklist;
  • 4- number of failures is used to review the quality of teaching and the need for change on a particular subject;
  • 5- between group variation relates to the effect of the environment and assessor attitude on the scores rather than the performance of examinees. To note that in an ideal assessment process, all differences should be only due to student performance therefore between group variation should be under 30%,
  • 6- standardized patient rating that is added to the checklist grade with a weight of 10% appears to be a robust way of incorporating such data, leading to the improved reliability of the assessment (Homer et al. 2009). If the SP rating is coupled with a higher than normal failure rate, this could be the result of inadequate teaching of the topic.

통계 분석
Statistical analysis

데이터는 Microsoft Excel, 2010을 사용하여 분석되었습니다. 연구 집단의 특성은 서술적 통계를 사용하여 평가했습니다. 데이터는 범주형 변수의 경우 숫자와 백분율로, 연속형 변수의 경우 평균 ± SD로 표현했습니다. 두 그룹 간의 평균을 비교하기 위해 독립적인 t 검정을 사용했습니다. p < 0.05의 값은 유의미한 것으로 간주했습니다. 리스케일링은 두 방법의 합격 점수가 동일(60%)하고 보고에 대한 학교 정책을 준수하기 위해 사용되었습니다. 
Data were analyzed using Microsoft Excel, 2010. Characteristics of the study population were evaluated using descriptive statistics. Data were expressed as numbers and percentages for categorical variables and as means ± SD for continuous variables. Independent t tests were used for comparing means between the two groups. A value of p < 0.05 was considered significant. Rescaling was used to have the same passing score for both methods (60%) and to comply with the school policy for reporting.

결과
Results

남학생 27명, 여학생 26명, 총 53명의 학생이 이번 OSCE에 참여했습니다.
Fifty-three students, 27 males and 26 females participated in this OSCE.

시험 내용
Content

OSCE 블루프린트는 혈액학-내분비학 모듈의 주요 목표 중 5가지로 구성되었습니다(추가 파일 4). 채점 도구에는 전문가가 개발한 스테이션별 분석 채점 또는 체크리스트, 전공의가 작성한 총점 또는 5점 만점 글로벌 평가 척도, SP가 작성한 커뮤니케이션 기술 체크리스트가 포함되었습니다.
The OSCE blueprint represented five of the major objectives of the hematology-endocrinology module (Additional file 4). The scoring instruments included a station-specific analytical scoring or checklist developed by experts, a holistic score or five-point global rating scale, both filled by the PEs and a communication skills checklist filled by the SP.

대응 프로세스
Response process

저희의 PE와 SP는 다양한 체크리스트 사용에 대한 교육 세션을 받았습니다. OSCE 이후 진행된 디브리핑 세션에서 모두 체크리스트 사용에 익숙해졌다고 답했습니다.
Our PEs and SPs underwent training sessions about the use of the different checklists. During the debriefing session following the OSCE, all reported being comfortable with its use.

결과
Consequences

5개 스테이션의 커트라인 점수는 (72 × 1) + (60 × 1) + (53 × 1) + (70 × 2) + (67 × 1) = 65.16%였습니다. 이 컷 점수를 사용하면 합격률은 100%입니다. 

  • 표 1은 스테이션의 길이, 평균 및 표준편차, 최소 및 최대 등급, 커트라인 점수, 합격률 및 불합격자 수를 보여줍니다. 
  • 표 2는 BRM(방법 2)과 실제 결과 산출 방법(방법 1)을 비교한 결과를 나타냅니다. 

BRM 방식이 학생들의 평균 성적(75.63점 대 79.23점)은 낮고 커트라인 점수(65.16점 대 60점)는 높았지만, 모든 스테이션 간 점수에서 통계적으로 유의미한 차이는 발견되지 않았습니다. 그러나 학교 정책에 따라 커트라인 점수인 60점으로 점수를 재조정했을 때, 전체 성적과 스테이션 2를 제외한 모든 스테이션에서 두 방법 간의 점수에서 통계적으로 유의미한 차이가 나타났습니다. 전체 시험에 대한 보상형 표준을 제공하기 위해 모든 사례에 대한 점수를 합산하기 때문에 두 가지 방법 모두 합격률은 100%였습니다.
The cut score for the 5 stations was: (72 × 1) + (60 × 1) + (53 × 1) + (70 × 2) + (67 × 1) = 65.16%. Using this cut score, the passing rate was 100%.

  • Table 1 shows stations’ length, means and standard deviation, minimum and maximum grades, cut score as well as the percentage of pass rate and number of failures.
  • Table 2 represents the compared results of the BRM (Method 2) to our actual method of computing the results (Method 1).

Although the BRM method showed a lower students’ average grades (75.63 vs 79.23) and a higher cut score (65.16 vs 60), no statistical significance in scores between all stations was noted. However, when scores were rescaled to the cut score of 60%, as per our School policy, a statistical difference in the scores between the two methods for the overall grade and for all stations except for station 2 was noted. The passing rate was 100% for both methods because scores are aggregated across cases to provide a compensatory-type standard for the whole test.

 

내부 구조
Internal structure

스테이션 전체에서 OSCE의 크론바흐 알파는 0.43이었습니다. 다양한 지표를 분석한 결과, 스테이션 4의 R2 값은 0.160, 스테이션 3의 등급 간 판별 지수는 13.55, 실패 횟수는 스테이션 3에서 7회(13.2%), 스테이션 4에서 10회(18.86%)로 나타났습니다. 그룹 간 편차는 30% 미만이었고 불합격 건수는 5건(9.43%)이었습니다. 각 스테이션의 메트릭은 표 3에 나와 있습니다.
Across stations, Cronbach’s alpha in our OSCE was 0.43. The analysis of the different metrics showed an R2 value of 0.160 in station four, an inter-grade discrimination index of 13.55 in station three, the number of failures of 7 in station three (13.2%) and 10 in station four (18.86%). Between group variation was less than 30% and the number of failures was five (9.43%). The metrics of the different stations are shown in Table 3.

토론
Discussion

OSCE의 품질을 확립하려면 점수의 타당성을 검증할 수 있는 증거가 필요합니다. 또한 점수 기반 추론의 타당성을 위협할 수 있는 요인도 해결해야 합니다.
To establish the quality of an OSCE, evidence is needed to verify the validity of the scores. Moreover, one must also address possible threats to the validity of score-based inferences.

타당도의 결과적 근거는 시험 성적 분석 및 사용을 의미합니다. 시험의 사용은 사회적 결과와 교육생, 교사 및 전체 교육과정에 미치는 영향을 고려해야 하는 반면, 시험 결과의 해석은 수행될 수 있는 유리한 결정과 불리한 결정 사이의 관계를 고려해야 합니다[4]. 표준 설정을 사용하여 방어 가능한 합격 점수를 선택하는 것은 교육자들에게 지속적인 도전 과제이지만 결과적 타당성의 근거를 보장하기 위한 핵심 문제입니다[15,16,17]. 오늘날 많은 교육 기관에서는 몇 가지 장점이 있는 경계선 방식을 선호합니다[18].

  • 첫째, 체크리스트 점수가 아닌 수련의의 전반적인 수행 능력에 따라 달라지며, 시험 중에 전체 등급이 채점되기 때문에 임상의의 시간을 절약할 수 있습니다.
  • 또한, 글로벌 등급은 불합격, 경계선, 합격의 세 가지 점수만 필요하고 경계선 학생들의 평균 분석 점수가 시험의 합격 점수가 되므로 간단한 통계적 절차만 거치면 됩니다.

The consequential basis of validity implicates test grade analysis and use. Whereas the use of tests should consider the social consequences and their impact on trainees, teachers, and the whole curriculum, the interpretation of the tests’ results should consider the relationships between the favorable and unfavorable decisions that could be undertaken [4]. Choosing a defensible passing score by employing standard settings represents a persistent challenge to educators yet it is a key issue for ensuring the consequential basis of validity [15,16,17]. Nowadays, many institutions favor the borderline method that has several benefits [18].

  • First, it depends on the overall performance of trainees rather than the checklist markings and saves the clinicians’ time since the global rating is scored during the exam.
  • Also, only three marks are required for global ratings (fail, borderline, pass) and the mean analytic scores of borderline students is the passing score of the exam, therefore it requires a simple statistical procedure.

그러나 우리와 같이 수험생 수가 한정된 소규모 OSCE의 경우, 경계선 범위에 있는 수험생이 소수에 불과할 경우 의도하지 않은 편향이 발생할 수 있습니다. Pell 등은 2005년에 Wood가 처음 설명한 BRM을 사용할 것을 권고했습니다[12, 19]. BRM은 소규모 OSCE에 이상적입니다. 이 방법은 선형 회귀 접근법을 통합하여 일부 하위 집합이 아닌 모든 수험자의 점수를 사용하여 커트라인 점수를 설정할 수 있도록 함으로써 글로벌 성적과 체크리스트 점수 간의 관계를 나타냅니다[14]. 이 방법을 사용하려면 5개의 글로벌 등급(예: 불합격, 경계선, 합격, 매우 우수 합격, 구별)을 사용해야 하며 계산에 더 많은 전문 지식이 필요합니다. 그러나 더 다양한 품질 보증 메트릭에 액세스할 수 있습니다[13]. 저희 OSCE에서는 표준 설정 도입으로 학생들의 평균 성적은 낮아지고 커트라인 점수는 높아졌습니다. 

However, for the small-scale OSCE such as ours having a limited number of examinees, the presence of an only few examinees in the borderline range could introduce an unintentional bias. Pell et al. advised the use of the BRM that was initially described by Wood in 2005 [12, 19]. BRM is ideal in a small scale OSCE. It gives an indication of the relationship between global grade and checklist score by incorporating a linear regression approach allowing the cut score to be set using the scores from all examinees and not from a subset [14]. This method requires the use of five global ratings (e.g. fail, borderline, pass, very good pass, distinction) and more expertise for computation. However, it gives access to a wider variety of quality assurance metrics [13]. In our OSCE, the introduction of standard setting resulted in lower students’ average grades and a higher cut score.

내부 구조 타당도 증거는 OSCE의 다양한 심리측정 특성을 분석하는 것입니다[20]. 신뢰도 검사 점수는 일반화 가능성, 평가자 간 신뢰도, 평가자 일관성과 같은 다양한 지표를 사용하여 평가할 수 있으며, 일관성을 평가하는 맥락에 따라 계수 알파 또는 크론바흐 알파로 평가할 수 있습니다[21]. 

  • 전체 스테이션에서 크론바흐 알파는 0.43으로 낮은 것으로 나타났습니다. 이는 스테이션 수가 적기 때문으로 설명할 수 있습니다. 스테이션 수를 늘리면 신뢰도가 높아질 수 있습니다[7, 22]. 이는 각 설정의 타당성과 균형을 맞춰야 합니다. 
  • R2 값이 낮았던 스테이션 4와 같이 특정 스테이션에서 체크리스트와 전체 등급이 불일치하는 경우, 이는 일부 학생이 '과정'에 대한 분석 체크리스트에서 많은 점수를 획득했지만 전반적인 성과가 시험관에게 깊은 인상을 주지 못했음을 나타내며 체크리스트가 능력에 대한 잘못된 지표가 될 수 있음을 시사합니다. 따라서 학생 수준과 기준을 일치시키는 데 초점을 맞춰 재설계하고, 평가자 체크리스트에 중간 등급 설명자를 포함시키고, 체크리스트 기준에 적절한 경우 앵커가 2개가 아닌 3개가 되도록 하여 평가자가 변별력을 높일 수 있도록 해야 합니다. 
  • 특정 시험장에서 높은 불합격률이 발생하면 커리큘럼의 특정 부분에 대한 교육을 재검토해야 합니다. OSCE에서는 스테이션 3과 4의 높은 불합격률로 인해 지중해빈혈 환자 상담과 피로 및 어지럼증에 대한 병력 청취에 대한 교육 문제가 부각되었습니다.

The internal structure validity evidence involves the analysis of the different psychometric properties of the OSCE [20]. The reliability test scores can be evaluated using various indicators such as Generalizability, inter-rater reliability, rater consistency, and by the Coefficient alpha or Cronbach’s alpha, depending on the context of consistency evaluated [21].

  • Across stations, Cronbach’s alpha in our OSCE was 0.43 and is considered low. This could be explained by the low number of stations. Increasing the number of stations would result in greater reliability [7, 22]. This will have to be balanced against the feasibility in each setting.
  • When a mismatch between the checklist and the global rating in a specific station is revealed, such in station four where the R2 value was low, this indicates that some students have acquired many of the marks from the analytic checklist for ‘process’, but their overall performance did not impress in parallel the examiner, suggesting that the checklists can be a poor marker of ability. Consequently, a redesign of the station should be made while focusing on matching criteria with the student level, inclusion of intermediate grade descriptors on the assessor checklists and ensuring that checklist criteria have three instead of two anchors where appropriate, thereby allowing greater discrimination by examiners.
  • The presence of high failure rates at particular stations should lead to revisiting the teaching of a specific parts of the curriculum. In our OSCE, the high number of failures in station three and four highlighted teaching problems about counseling patients with thalassemia and conducting a history taking about fatigue and dizziness.

평가의 타당성에 대한 위협을 피하기 위해 OSCE의 계획 단계부터 신중하게 고려해야 합니다. 타당도에 대한 두 가지 주요 위협은 구인 과소 대표성(CU)과 구성과 무관 분산(CIV)입니다[23]. 

  • CU는 불충분한 수의 사례 사용으로 인해 콘텐츠 영역의 샘플링이 부족한 경우와 블루프린트가 시험 스테이션을 교육과정 내용 및 목표에 매핑하지 않을 때 샘플링이 부적절한 경우를 말합니다. OSCE의 청사진에는 콘텐츠 하위 영역, 평가 대상 역량 및 환자 특성이 포함되어 있었습니다.
  • CIV는 측정 대상과 무관한 변수에 의해 평가 데이터에 도입된 체계적 오류입니다. CIV의 예로는 결함이 있는 사례/체크리스트/평가 척도, 사례의 부적절한 난이도, 제대로 훈련되지 않은 표준화 환자 또는 평가자 오류 등이 있습니다. CIV의 주요 위협은 체계적인 평가자 오류로 인한 것입니다. 실제로 평가자는 평가자 심각도 또는 관용 오류, 중심 경향 오류, 후광 평가자 효과와 같은 측정 오류의 주요 원인입니다. 따라서 평가자의 평가 능력을 균일화하기 위해서는 평가자 간 합의도를 높이기 위한 교육 방법을 개선하는 것이 필수적입니다. 또한, 평가에 앞서 평가자 및 SP를 대상으로 상세한 지원 자료 제공 및 브리핑을 체계적으로 실시해야 합니다. 

Threats to the validity of any assessment should be well-thought-out since the planning phase of an OSCE in order to avoid them. Two major threats to the validity are construct underrepresentation (CU) and construct-irrelevant variance (CIV) [23].

  • CU refers to the under sampling of the content domain by the use of insufficient number of cases, and to the inadequate sampling when the blueprint does not map the exam stations to the curriculum content and objectives. The blueprint of our OSCE included the content subdomains, the competencies to be assessed and patients’ characteristics.
  • CIV is a systematic error introduced into the assessment data by variables unrelated to the construct being measured. CIV examples include flawed cases/checklists/rating scales, inappropriate difficulty level of the case, poorly trained standardized patients, or rater errors. The major CIV threat is due to systematic rater error. In fact, raters are a major source of measurement error, such as rater severity or leniency errors, central tendency error and halo rater effect. Therefore, upgrading training methods to improve between examiners’ agreement is essential in order to homogenize raters’ assessing skills. In addition, the provision of a detailed support material and briefings the examiners’ and SPs prior to the assessment should be systematically implemented. 

이번 OSCE에서는 콘텐츠 전문가들이 세심하게 문항을 구성한 체크리스트를 만들었고, 심사관들은 숙련된 교수진으로 구성되었습니다. 또한 적절한 체크리스트/평가 척도를 사용하는 것이 중요합니다[24]. 현재 증거에 따르면 숙련된 의사가 총체적 채점 또는 글로벌 평가 척도를 사용하면 체크리스트에 비해 검사소 간 신뢰도, 구성 타당도, 동시 타당도가 더 높은 것으로 나타났습니다[25]. 글로벌 평가 척도는 판단력, 공감, 지식의 조직화, 테크니컬 스킬과 같은 영역을 평가할 때 한 가지 측면만 특별히 보는 평가 척도에 비해 검사자가 전체 과정을 평가할 수 있게 해줍니다[26, 27]. 표준 설정을 위해 BRM을 사용하는 OSCE의 경우 두 가지 유형의 체크리스트 사용은 필수입니다.

In this OSCE, content experts designed the checklists with carefully worded items and our examiners were trained faculty. Furthermore, the use of appropriate checklists/rating scales is critical [24]. Current evidence suggests that the use of holistic scoring or global rating scales by an experienced physician shows greater inter-station reliability, better construct validity, and better concurrent validity compared to checklists [25]. Global rating scales allow the examiner to rate the whole process compared to rating scales looking at one aspect alone specially when assessing areas such as judgment, empathy, organization of knowledge and technical skills [26, 27]. For OSCEs which use the BRM for establishing a standard setting, the use of the two types of checklists is mandatory.

평가를 사용하는 사람들이 결과를 신뢰할 수 있어야 하기 때문에 교육 평가에 대한 엄격한 검증은 매우 중요합니다[28]. 많은 학교에서 OSCE 시험에 미리 정해진 커트라인 점수를 사용합니다. 그러나 객관적인 방식으로 학생의 성취도에 대한 방어 가능한 기준을 설정하는 것은 특히 OSCE가 총점제인 경우 매우 중요합니다[29]. 본 연구에서는 표준 설정 방법을 도입하여 학교 정책에 따라 미리 설정된 커트라인 점수와 비교했습니다. 또한 개별 스테이션 수준과 전체 임상 평가에서 여러 심리 측정 측정을 사용하여 내부 구조 타당성 증거를 분석하여 OSCE 점수의 품질에 대한 강점과 약점을 식별할 수 있었습니다.
Rigorous validation of educational assessments is critically important because those using an assessment must be able to trust the results [28]. Many schools use a predetermined cut scores for OSCE exams. However, setting defensible standards for student performance in an objective manner is critical, in particular when the OSCE is summative [29]. In this study, we have introduced a standard setting method and compared it to the preset cut score as per our school policy. We also analyzed the internal structure validity evidence by the use of multiple psychometric measures both at the individual station level and across the complete clinical assessment which allowed us to identify strengths and weaknesses of the quality of our OSCE scores.

본 연구의 한계는 학생의 표본 크기와 OSCE 스테이션의 수입니다. 또 다른 한계는 연구 결과의 일반화 가능성입니다. 저희는 학교의 한 학습자 그룹을 대상으로 시행한 OSCE의 특정 인스턴스화의 유효성을 뒷받침하는 증거를 제공했습니다. 당연히 표본 규모가 더 크고 학교 대표성이 더 넓어지면 연구 결과에 다양한 영향을 미칠 수 있으며 추가 조사가 필요합니다. 그러나 본 연구는 점수 추론의 타당성이 다양한 품질 보증 및 표준 설정 기법의 적절한 적용에 크게 좌우되는 OSCE의 총체적 적용을 기반으로 한 몇 안 되는 연구 중 하나입니다.
A limitation to our study is the sample size of students as well as the number of OSCE stations. Another limitation is the generalizability of our results. We provided the evidence supporting the validity of a particular instantiation of an OSCE administered for one group of learners at our school. Understandably, larger sample sizes and wider school representation may have a varied impact on our results and warrants further investigation. However, our study is one of the few that was based on a summative application of an OSCE where the validity of the score inferences is largely dependent on the proper application of various quality assurance and standard setting techniques.

결론
Conclusion

OSCE는 복잡한 과정 내에서 기준 기반 평가 원칙을 사용하며 많은 학교의 평가 시스템에서 필수적인 부분을 구성합니다. OSCE 결과에 대한 심리측정 분석을 일상적으로 수행하면 시험에 대한 전반적인 관점을 확보하고 일반적인 함정을 식별하고 피할 수 있습니다.
OSCEs use criterion-based assessment principles within a complex process and constitute an integral part of the assessment system at many schools. The routine performance of a psychometric analysis on the OSCE results helps gaining an all-round view of the exam and prompts the identification and avoidance of common pitfalls.

여러 지표를 통해 결과적 및 내부 구조적 타당성 증거를 수집하는 것은 특히 요약 목적으로 사용될 때 OSCE의 품질에 대한 지지 또는 반대를 제공합니다. 이러한 분석은 주어진 테스트의 로컬 반복에 대해 정기적으로 수행되어야 하며, 그 결과는 평가의 품질을 향상시키는 데 사용됩니다.
Gathering consequential and internal structure validity evidence by multiple metrics provides support for or against the quality of an OSCE, in particular when used for a summative purpose. It is critical that this analysis be performed routinely on local iterations of given tests, and the results used to enhance the quality of assessment.

 


BMC Med Educ. 2018 Dec 20;18(1):313. doi: 10.1186/s12909-018-1421-x.

Evaluating the validity evidence of an OSCE: results from a new medical school

Affiliations collapse

Affiliations

1Lebanese American University-School of Medicine, P.O. Box: 113288, Zahar Street, Beirut, Lebanon. vanda.abiraad@lau.edu.lb.

2Department of Medical Education, University of Illinois, Chicago, USA.

3Lebanese American University-School of Medicine, P.O. Box: 113288, Zahar Street, Beirut, Lebanon.

PMID: 30572876

PMCID: PMC6302424

DOI: 10.1186/s12909-018-1421-x

Free PMC article

Abstract

Background: To prevent the problems of traditional clinical evaluation, the "Objective Structured Clinical Examination (OSCE)" was presented by Harden as a more valid and reliable assessment instrument. However, an essential condition to guarantee a high-quality and effective OSCE is the assurance of evidence to support the validity of its scores. This study examines the psychometric properties of OSCE scores, with an emphasis on consequential and internal structure validity evidence.

Methods: Fifty-three first year medical students took part in a summative OSCE at the Lebanese American University-School of Medicine. Evidence to support consequential validity was gathered by using criterion-based standard setting methods. Internal structure validity evidence was gathered by examining various psychometric measures both at the station level and across the complete OSCE.

Results: Compared to our actual method of computing results, the introduction of standard setting resulted in lower students' average grades and a higher cut score. Across stations, Cronbach's alpha was moderately low.

Conclusion: Gathering consequential and internal structure validity evidence by multiple metrics provides support for or against the quality of an OSCE. It is critical that this analysis be performed routinely on local iterations of given tests, and the results used to enhance the quality of assessment.

Keywords: Objective structured clinical examination; Quality assurance; Validity evidence.

 

OSCE에서 합격선 설정: 경계선 접근법(Clin Teach. 2014)
Standard setting in OSCEs: a borderline approach
Kingston Rajiah , Sajesh Kalkandi Veettil and Suresh Kumar , Department of Pharmacy Practice , International Medical University , Kuala Lumpur , Malaysia 

 

 

소개
Introduction

임상 술기 및 역량 평가는 응시자에게 중대한 결과를 초래하는 중요한 과정입니다.1 따라서 타당하고 신뢰할 수 있는 객관적 구조화 임상시험(OSCE)을 유지하기 위해서는 합격 점수를 정당화할 수 있는 강력한 방법이 필수적입니다.2 그러나 합격 점수가 부적절하게 설정되면 이러한 성취는 거의 의미가 없습니다.3
The evaluation of clinical skills and competencies is a high-stakes process carrying significant consequences for the candidate.1 Hence, it is mandatory to have a robust method to justify the pass score in order to maintain a valid and reliable objective structured clinical examination (OSCE).2 These attainments are of little significance if the passing score is set inadequately, however.3

임상 시험에서 표준을 설정하는 방법은 여전히 어려운 과제입니다.1 표준 설정에는 여러 가지 방법이 있으며, 각 방법에는 장점과 단점이 있으며, 각 방법마다 합격 점수가 다릅니다.4 표준 설정 방법은 시험 항목 또는 응시자의 성과에 따라 설정되는 상대적 또는 절대적 방법(경계선 방법)이 있습니다.5 표준 설정의 두 가지 광범위한 접근 방식 중 임상 역량 테스트에는 절대적 방법이 선호되었습니다.6, 7 
The methods for setting standards in clinical examinations remain challenging.1 There are different methods for standard setting, each with benefits as well as drawbacks; each method gives a dissimilar pass mark.4 Standard-setting methods can be relative or absolute, established on either the test item or on the performance of the candidate (borderline methods).5 Of the two broad approaches in standard setting, the absolute method has been preferred for testing clinical competencies.6, 7

표준 설정에는 여러 가지 방법이 있으며, 각 방법에는 장점과 단점이 있습니다.
There are different methods for standard setting, each with benefits as well as drawbacks


현재 많은 기관에서 경계선 및 회귀 접근법을 선호하는데, 이는 글로벌 등급과 체크리스트 점수 간의 관계 및 학생 간의 변별 수준을 관찰할 수 있는 이점을 제공합니다.5 이 접근법은 시험관이 각 스테이션에서 경계선에 있는 학생을 식별하는 데 도움이 되며 경계선 점수의 평균을 반영하여 각 스테이션의 합격 점수로 설정할 수 있습니다.4, 8 OSCE의 합격 점수는 각 스테이션의 합격 점수에 1 표준 오차를 더한 값입니다.8 이 방법은 다른 기존 방식과 비교할 때 평가자의 시간을 절약할 수 있는 방법입니다. 따라서 OSCE의 표준 설정을 위해 두 가지 영역의 글로벌 평가 척도를 사용하여 경계선 접근법을 시험해 보는 것이 목표였습니다.  
Presently, many institutions favour borderline and regression approaches, which can offer the advantage of observing the relationship between global rating and checklist scores, and also the level of discrimination between the students.5 This approach helps examiners to identify the borderline students at each station and also reflects the mean of the borderline marks, which can be set as the pass mark for each station.4, 8 The pass mark for the OSCE is the sum of the pass marks for each station plus one standard error of measurement.8 Compared with the other established approaches, this method is a time saver for the assessors. Hence, the aim was to trial the borderline approach using a two-domain global rating scale for standard setting in the OSCE.

우리의 일반적인 목표는 작업 기반 체크리스트 점수와 글로벌 등급 간의 상관관계를 분석하는 것이었습니다. 
Our general objective was to analyse the correlation between the task-based checklist score and the global rating.

구체적인 목표는 경계선 방식에 따라 각 OSCE 스테이션에서 최소 합격 점수를 결정하는 것이었습니다. 
Our specific objective was to determine the minimum pass mark in each OSCE station according to the borderline method.

연구 방법
Methods

이 연구는 약학 학부 2학년 학생들을 대상으로 횡단면 연구를 수행했습니다. 2013년 학기 말에 실시된 OSCE가 본 연구의 연구 대상이었습니다. Raosoft 표본 크기 계산기를 사용하여 표본 크기 계산을 수행했습니다. 필요한 최소 표본 크기는 116명이었으며 오차 범위는 5%, 신뢰 수준은 95%였습니다. 표본을 수집하기 위해 편의 표본 추출 기법을 사용했습니다. 약대생 164명의 결과가 분석에 사용되었는데, 이는 계산된 필수 표본 크기보다 많았습니다. 
This was a cross-sectional study carried out with second-year undergraduate pharmacy students. The OSCE conducted at the end of the semester in 2013 was the research subject of this study. A sample size calculation was performed using the Raosoft sample size calculator. The minimum required sample size was 116 with a 5 per cent margin of error and 95 per cent confidence level. A convenience sampling technique was used to collect the sample. The results for 164 pharmacy students were used in the analysis, which was more than the required calculated sample size.

2학년 OSCE는 총 14개의 스테이션이 직렬로 연결된 회로로 구성되었습니다. 각 스테이션에 할당된 시간은 5분이었습니다. 스테이션은 활동, 준비, 휴식으로 분류되었습니다(표 1). 학생들은 스테이션의 회로를 돌며 각 활성 스테이션에서 과제를 수행했습니다.9 학생들이 활성 스테이션에 들어가기 전에 과제를 준비할 수 있도록 준비 스테이션이 포함되었습니다. 시험이 진행되는 15분마다 학생들을 위한 휴식 스테이션이 포함되었습니다. 시험관은 표준화된 과제 기반 체크리스트를 사용하여 각 활성 스테이션에서 표준화된 모의 환자에 대한 학생의 수행을 관찰하고 평가한 후 두 가지 영역의 글로벌 등급 척도를 사용하여 평가했습니다. 
The second-year OSCE had a circuit of 14 stations in total, which were connected in a series. The time allotted for each station was 5 minutes. The stations were categorised as active, preparatory and rest (Table 1). Students rotate around the circuit of stations, and perform the tasks at each active station.9 A preparatory station was included for the students to prepare for the task before entering into the active station. A rest station for the students was incorporated after every 15 minutes in the exam. The student's performance with a standardised simulated patient in each active station was observed and evaluated by an examiner using a standardised task-based checklist, followed by a two-domain global rating scale.

OSCE에 사용된 모든 시나리오는 새로운 스크립트였기 때문에 학생들이 이전에 접해본 적이 없었습니다. 체크리스트와 글로벌 평가 척도는 모두 시험관들 사이에서 검증되고 표준화된 후 OSCE에서 사용되었습니다. 다양한 분야의 표준화된 임상 교수진이 시험관으로 참여했습니다. 
All the scenarios used in the OSCE were new scripts, and therefore had not been encountered by the students previously. Both checklists and the global rating scales were validated and standardised among examiners before using them in the OSCE. Standardised clinical faculty members from a variety of disciplines served as examiners.


각 스테이션의 임상 시나리오와 과제 기반 체크리스트는 약학 실습 교수진이 모듈의 학습 결과와 학생의 학습 수준에 따라 구성했습니다. 시험 콘텐츠는 기본적인 '블루프린팅'를 통해 학습 목표에 맞게 계획되었습니다. 모듈 결과와 과제 기반 체크리스트를 기반으로 핵심 역량을 파악하여 체크리스트의 전반적인 기준을 나타내는 두 가지 영역글로벌 평가 척도로 개발했습니다. 각 영역에 대해 6점 척도 세트를 사용하여 높고 낮은 부분을 반영했습니다(5점, 우수 합격, 4점, 만족 합격, 3점, 합격' 2점, 경계 합격, 1점, 불합격, 0점, 명백한 불합격). 두 개별 영역의 점수를 합산하여 '합산된 글로벌 등급'을 만들었습니다. 개별 스테이션에 대한 작업 기반 체크리스트 점수는 14점 만점으로 채점되었습니다. 활성 스테이션이 5개였으므로 작업 기반 체크리스트의 총 점수는 70점이었습니다. 따라서 35점(70점의 50% 임의로)을 합격 점수로 유지했습니다(상자 1). SPSS 18을 사용하여 과제 기반 체크리스트 점수와 두 영역의 글로벌 평가 척도 간의 상관관계를 Pearson의 상관관계 테스트를 통해 분석했습니다. 유의 수준은 p <0.05로 설정했습니다. 각 스테이션의 체크리스트 점수와 글로벌 등급 간의 (선형) 상관관계를 결정하기 위해 R2 계수를 사용했으며, 일반적으로 전체 글로벌 등급이 높을수록 체크리스트 점수도 높을 것으로 예상했습니다. 이 R2 값으로부터 OSCE의 최소 합격 점수가 결정되었습니다. 경계선 등급은 시험관이 스테이션을 통과하기에는 성적이 부족하다고 생각하지만 명백하게 불합격하지는 않은 학생을 나타냅니다. 그런 다음 학생들의 체크리스트 점수와 글로벌 등급이 집계되었습니다. 그런 다음 시험관이 부여한 해당 글로벌 성적에 대해 스테이션 체크리스트 점수 집합을 회귀시켜 스테이션의 각 개별 합격 점수를 계산했습니다. 이 과정을 통해 합격 또는 불합격 점수가 도출되었습니다. 연구의 전체 절차는 그림 1에 흐름도로 나와 있습니다. 

Clinical scenarios and task-based checklists for each station were formulated by pharmacy practice faculty members, based on the learning outcomes of the module and the students’ level of learning. The test content was planned against the learning objectives through basic ‘blueprinting’. Based on the module outcomes and the task-based checklists, key competencies were identified and developed into a two-domain global rating scale, which generally represented the overall criteria in the checklists. For each domain a set of six-point scales were used to reflect high and low divisions (5, excellent pass; 4, satisfactory pass; 3, pass’ 2, borderline pass; 1, fail; 0, clear fail). Scores on the two individual domains were summed to create a ‘summed global rating’. Task-based checklist scores for individual stations were scored out of 14 marks. There were five active stations, and hence the total score of the task-based checklists was 70 marks. Therefore, a pass mark of 35 (arbitrarily 50% of 70) was kept as pass mark (Box 1). spss 18 was used to analyse the correlation between the task-based checklist scoring and the two-domain global rating scale by Pearson's correlation test. The level of significance was set at p < 0.05. The R2 coefficient was used to determine the degree of (linear) correlation between the checklist score and the global rating at each station, with the expectation that higher overall global ratings should generally correspond with higher checklist scores. From these R2 values the minimum pass mark for the OSCE was determined. The borderline grade represented students whose performances the examiner thought insufficient to pass the station, but equally who did not clearly fail. Following this, the students’ checklist scores and global ratings were gathered. Each individual pass mark for the station was then calculated by regressing the set of station checklist scores on the corresponding global grades given by the examiners. This process then derived the pass or fail score. The entire procedure of the study is given as a flow chart in Figure 1

 

 

다양한 분야의 교수진이 시험관으로 참여했습니다.
Faculty members from a variety of disciplines served as examiners

시험 결과
Results

총 164명의 응시자가 참여했으며, 이 중 126명이 여성, 38명이 남성이었습니다. 전체 글로벌 평가 점수의 신뢰도 계수(크론바흐 알파)는 모든 현역 스테이션에서 0.722~0.741로 체크리스트 점수(현역 스테이션의 항목별 0.601~0.686)보다 높은 값을 보였습니다. 과제 기반 체크리스트 점수와 두 가지 영역의 글로벌 평가 척도 간의 피어슨 상관관계는 중간 정도이며 유의미했습니다. 스테이션 7의 R2 계수가 0.479로 가장 높았고 스테이션 14의 계수가 0.241로 가장 낮았습니다(표 2). 총 14개 중 각각 5개의 활성 스테이션이 있었으므로 모든 활성 스테이션의 총 체크리스트 점수는 70점, 평균 점수는 52.5점이었습니다(표 3). 마찬가지로 전체 글로벌 등급의 평균 점수는 50점 만점에 29.7점이었습니다. 
There were 164 participating candidates, of which 126 were women and 38 were men. The reliability coefficient (Cronbach's alpha) for overall global rating scores showed a value ranging from 0.722 to 0.741 across all active stations, which was higher than the checklist scoring (0.601–0.686 across items for active stations). The Pearson's correlation between the task-based checklist scoring and the two-domain global rating scale were moderate and significant. A highest R2 coefficient of 0.479 was obtained for station 7, and the lowest value of 0.241 was obtained for station 14 (Table 2). There were total of five active stations, each marked out of 14, so the total possible checklist score for all active stations was 70, with the mean score of 52.5 (Table 3). Similarly, the mean score for the total global grade was 29.7 out of 50.

 

그림 2-6은 시험장 합격 점수에 대한 경계선 방법 계산을 개략적으로 보여 주며, 시험관의 체크리스트 점수를 시험관의 글로벌 등급 점수에 회귀시키는 선형 회귀 기법을 사용하여 각 활성 시험장의 합격 점수를 계산한 방법을 나타냅니다. 합격 점수는 경계선 평균에 1 표준 오차(0.67)를 더한 값의 합계였습니다: 44.9점 또는 64퍼센트. 
Figures 2-6 present the borderline method calculation for the station pass mark in schematic terms, indicating how the linear regression technique of the examiners’ checklist scores regressed on the examiners’ global rating scores was used to calculate the pass mark at each active station. The pass mark was the sum of the borderline means plus one standard error of measurement (0.67): 44.9 or 64 per cent.

두 척도 사이에는 유의미한 양의 상관관계가 있었습니다.
There was a significant positive correlation between the two scales

 

토론
Discussion

두 척도 간에는 유의미한 양의 상관관계가 있었지만, 7번 문항을 제외하고는 R2 값이 만족스럽지 않았습니다. 경계선 방식에 따른 OSCE의 합격 점수는 64%로 임의로 설정한 점수인 50%보다 높았습니다. 
There was a significant positive correlation between the two scales; however, the R2 value was not satisfactory, except for station 7. The pass mark for the OSCE according to the borderline method was 64 per cent, which is higher than the arbitrarily set mark of 50 per cent.

각 활성 스테이션의 합격 점수 차이는 작았지만, 14번 스테이션은 약물 상담 스테이션으로 합격 점수가 6.99/14에 불과하여 다른 활성 스테이션보다 낮았습니다(그림 2-6). 이는 종속 변수(체크리스트 점수)와 독립 변수(글로벌 등급) 사이에 반비례 관계가 있음을 분명히 나타냅니다.5
The variation in pass marks for each active station was small, except for station 14: it was a drug-counselling station, and the pass mark was only 6.99/14, which is lower than the other active stations (Figures 2-6). This clearly indicates an inverse proportionality between the dependent variable (checklist score) and the independent variable (global rating).5

일부 학생은 두 영역의 글로벌 등급에서 더 높은 점수를 받았지만 체크리스트 점수는 기대 수준에 미치지 못했습니다. 경계선 응시자의 점수가 이렇게 큰 차이를 보인다는 것은 시험관마다 체크리스트 또는 글로벌 등급 기준을 다르게 해석하고 있음을 시사하며, 시험관 표준화가 필요하다는 것을 나타냅니다. 체크리스트 점수와 글로벌 등급 사이의 불만족스러운 연관성은 대부분의 스테이션에서 볼 수 있으며, 이로 인해 어느 정도의 비선형성이 발생했습니다. 일부 스테이션에서는 경계선 이하로 평가된 학생 수가 더 많았으며, 이는 이러한 스테이션에 대한 평가가 필요하다는 것을 나타냅니다. 
Some students acquired higher marks from the two-domain global grade, but their checklist marks did not attain the expected level. This wide variation in marks for borderline candidates suggests that different examiners are interpreting the checklists or the global rating criteria differently, and indicates the need for examiner standardisation, which is challenging. This unsatisfactory association between checklist marks and global ratings can be seen in most of the stations, which has caused some degree of nonlinearity. Some stations had a greater number of students who were rated as borderline or below, which indicates that there is a need for an appraisal of these stations.

일부 스테이션의 R2 값이 낮았지만, 글로벌 평가 척도는 체크리스트의 전반적인 기준을 정확하게 나타내도록 설계되었습니다. 따라서 불만족스러운 상관관계는 심사자 간에 글로벌 등급 척도와 체크리스트의 표준화가 제대로 이루어지지 않았거나 글로벌 등급 시스템 사용법에 대한 이해가 부족하기 때문에 발생할 수 있습니다. 이 분석 과정을 통해 표준 설정에 대한 경계선 접근 방식이 실현 가능하고 평가 중에 사용할 수 있으며 다른 방법보다 훨씬 적은 시간이 필요하다는 것이 입증되었습니다. 그러나 여기서 확인된 문제점을 해결해야 하며, 스테이션 체크리스트의 표시 체계와 글로벌 등급 기준을 재평가해야 합니다. 향후 OSCE에서 표준 설정 절차를 구현하기 전에 이러한 문제를 해결하는 것이 중요합니다. 
Although the R2 value at some stations was low, the global rating scale was designed to represent the overall criteria of the checklists exactly. Hence, the unsatisfactory correlation may arise from the improper standardisation of the global scale and the checklist among examiners, or from a poor understanding of how to use the global rating system. The process of this analysis demonstrated that the borderline approach to standard setting is feasible and can be used during the assessment, thereby requiring much less time than the other methods. But the problems identified here must be addressed, and the marking schemes for the station checklists and criteria for the global rating should be reassessed. It is important to resolve these problems before implementing the standard setting procedure in future OSCEs.

여기서 확인된 문제점을 해결해야 합니다.
Problems identified here must be addressed

결론
Conclusions

글로벌 등급 척도를 사용하면 많은 이점이 있습니다. 글로벌 등급 척도는 체크리스트보다 다양한 수준의 숙련도를 더 잘 파악할 수 있고 시험관이 사용하기 쉽다는 증거가 있습니다. 이 연구는 두 영역의 글로벌 평가 척도가 OSCE의 틀에서 학생들의 능력을 평가하는 데 적합하다는 것을 확인시켜 줍니다. 두 영역 글로벌 평가 척도와 과제 기반 체크리스트 간의 강력한 관계는 두 영역 글로벌 평가 척도가 학생의 숙련도를 진정으로 평가하는 데 사용될 수 있다는 증거를 제공합니다.
The use of a global rating scale has numerous benefits. There is evidence that global rating scales capture diverse levels of proficiencies better than checklists, and are easy for examiners to use. This study confirms that the two-domain global rating scale is appropriate to assess the abilities of students in the framework of OSCEs. The strong relationship between the two-domain global rating scale and the task-based checklists provide evidence that the two-domain global rating scale can be used to genuinely assess students’ proficiencies.

두 영역 글로벌 평가 척도는 OSCE의 틀에서 학생의 능력을 평가하는 데 적합합니다.
The two-domain global rating scale is appropriate to assess the abilities of students in the framework of OSCEs

 


Clin Teach. 2014 Dec;11(7):551-6. doi: 10.1111/tct.12213.

Standard setting in OSCEs: a borderline approach

Affiliations collapse

Affiliation

1Department of Pharmacy Practice, International Medical University, Kuala Lumpur, Malaysia.

PMID: 25417986

DOI: 10.1111/tct.12213

Abstract

Background: The evaluation of clinical skills and competencies is a high-stakes process carrying significant consequences for the candidate. Hence, it is mandatory to have a robust method to justify the pass score in order to maintain a valid and reliable objective structured clinical examination (OSCE). The aim was to trial the borderline approach using the two-domain global rating scale for standard setting in the OSCE.

Methods: For each domain, a set of six-point (from 5 to 0) scales were used to reflect high and low divisions within the 'pass', 'borderline' and 'fail' categories. Scores on the two individual global scales were summed to create a 'summed global rating'. Similarly task-based checklists for individual stations were summed to get a total score. It is mandatory to have a robust method to justify the pass score in order to maintain a valid and reliable OSCE RESULTS: The Pearson's correlation between task-based checklist scoring and the two-domain global rating scale were moderate and significant. The highest R(2) coefficient of 0.479 was obtained for station 7, and the lowest R(2) value was 0.241 for station 14.

Discussion: There was a significant positive correlation between the two scales; however, the R(2) value was not satisfactory except for station 7. The pass mark for the OSCE according to the borderline method was 64 per cent, which is higher than the arbitrarily set pass mark of 50 per cent.

Conclusions: This study confirms that the two-domain global rating scale is appropriate to assess the abilities of students within the framework of an OSCE. The strong relationships between the two-domain global rating scale and task-based checklists provide evidence that the two-domain global rating scale can be used to genuinely assess students' proficiencies.

복잡한 수행능력 평가에서 인지적 영향: 의학과 심리학 사이의 상호작용으로부터의 교훈(Journal of Applied Research in Memory and Cognition, 2018)
Cognitive Influences on Complex Performance Assessment:Lessons from the Interplay between Medicine and Psychology 

Kevin W. Eva∗

 

의료 서비스의 효율성은 부분적으로 의료진의 역량에 의해 결정됩니다. 이러한 역량을 확보하기 위해 매년 수백만 달러가 사내 평가, 면허 및 인증 시험, 역량 프로그램의 개발 및 운영에 지출되고 있습니다. 이러한 관행의 대부분은 현대 의료 시스템에서 잘 기능하는 데 필요한 다양한 자질을 평가하기보다는 임상의가 알아야 할 내용을 알고 있는지 여부를 테스트하는 협소하게 초점을 맞추고 있습니다. 그러나 적절한 치료가 개별 의료진이 보유한 지식에만 의존하는 것이 아니라는 인식이 점점 더 확산되고 있습니다(Anderson, 2011). 효과적이고 안전하게 진료하려면 의료 전문가는 환자가 자신의 건강 문제를 해결하는 데 적극적으로 참여할 수 있는 다양한 기술에 능숙해야 하며, 다른 의료 전문가, 환자 가족 및 진화하는 기술 지원과의 협력을 촉진해야 합니다(Balogh, Miller, & Ball, 2015). 그러나 개인이 필요한 다양한 역량에 대한 역량을 개발했는지 여부를 판단하는 것은 쉬운 일이 아닙니다. 
The effectiveness of healthcare is determined, in part, by the competence of its practitioners. Assuring such competence results in millions of dollars being spent annually to develop and run intramural assessments, licensing and certification examinations, and maintenance of competence programs. The majority of these practices are narrowly focused, testing whether or not clinicians know what they should know rather than assessing the many qualities required to function well in modern healthcare systems. It is increasingly recognized, however, that adequate care is not solely dependent on the knowledge possessed by individual practitioners (Anderson, 2011). To work effectively and safely, health professionals must be proficient at a wide range of skills that enable patients to become active participants in solving their health concerns while also promoting collaboration with other health professionals, with patients’ families, and with evolving technological supports (Balogh, Miller, & Ball, 2015). Determining whether or not an individual has developed capacity for the various competencies required, however, is no easy matter.

이 점에서 의료계만 특별한 것은 아닙니다. 결과가 중요하고 부정적인 결과가 가혹하기 때문에 의사로 일할 수 있는 사람을 잘못 결정하면 어떤 영향을 미칠지 쉽게 상상할 수 있습니다. 하지만 누구와 친구가 되고 싶은지에 대한 사회적 판단에서부터 고용 제안을 연장하는 것, 국가의 지도자가 될 정치 후보를 선택하는 것까지, 모든 삶의 영역에서 우리는 누가 성공(어떻게 정의되든) 가능성을 최적화하고, 동시에 용납할 수 없는 부정적인 결과의 위험을 최소화할 수 있는 자질의 적절한 균형을 유지하는지에 대한 평가를 내립니다. 때로는 이러한 역량 평가가 옳을 때도 있지만 때로는 끔찍하게 잘못될 수도 있습니다. 이 주제 글에서는 의료 수련생과 전문가에 대한 평가를 예로 들어 복잡한 성과 평가에 대해 알려진 많은 내용과 이를 개선하는 방법을 요약해 보겠습니다. 의학은 이 분야에 대한 연구의 우선순위를 정해온 오랜 역사(Epstein, 2007)가 있을 정도로 그 중요성이 높기 때문에 대부분의 응용 분야에서 수행된 것보다 더 많은 경험적 연구를 산출할 수 있는 풍부한 영역입니다. 이러한 역사는 응용 분야와 학문 분야 간의 상호작용에 대한 흥미로운 사례 연구를 제공하는 방식으로 기초 심리학의 연구를 활용하려는 노력으로 가득 차 있습니다. 이러한 사례를 살펴보기 위해 보건 전문 교육자가 직면한 과제, 해결책을 도출하기 위해 인지 심리학을 적용하여 얻은 통찰력, 그리고 인지 기초 연구에 피드백될 수 있는 과학의 현재 상태와 지속적인 요구 사항에 대한 몇 가지 성찰을 제공할 것입니다. 
In this regard, medicine is not unique. It is easy to imagine the impact of poor decisions about who should be trusted to work as a physician because the outcomes matter and negative results are harsh. In any walk of life though, ranging from social judgments about who we want to befriend, through extending employment offers, to choosing between political candidates who will become our nations’ leaders, we make assessments about who maintains the right balance of qualities that will optimize the likelihood of success (however defined) and minimize the risk of unacceptably negative consequences. Sometimes these assessments of competence are right; sometimes they go horribly wrong. In this target article I will use the assessment of medical trainees and professionals as an example to summarize much of what is known about complex performance assessment and the ways in which it is being improved. Medicine is a rich domain for that purpose because the stakes are high enough that there is a long history of prioritizing research in this area (Epstein, 2007), yielding more empirical study than has been conducted in most applied contexts. That history is rife with efforts to draw upon studies from basic psychology in a way that provides an interesting case study for the interplay between an applied field and an academic discipline. To explore that case, I will provide an overview of the challenges facing health-professional educators, the insights that have been gained from the application of cognitive psychology toward deriving solutions, and some reflections on the current state of the science and ongoing needs that might be fed back into the fundamental study of cognition.

의학 분야의 복잡한 성과 평가
Complex Performance Assessment in Medicine

응급실 진료실에 들어선 레지던트(즉, 수련의)가 영어를 잘 못하는 히스테리에 가까운 엄마가 안고 있는 눈은 시커멓게 충혈되고 이마는 심하게 멍이 든 채 우는 아이를 만났다고 상상해 보세요. 분명히 상당히 효율적으로 해결해야 할 진단 문제가 있습니다: 뼈가 부러지지는 않았는가? 아이의 눈이 손상되었나요? 뇌진탕이나 내부 출혈이 있을 가능성이 있나요? 어떤 진단을 고려해야 하는지, 어떤 검사를 통해 중요한 임상 상태를 배제할 수 있는지, 환자를 치료하기 위해 취해야 할 주요 조치(근본적인 문제가 무엇이든)에 대한 임상의의 지식을 정확하게 평가하는 것은 비교적 간단합니다. 이 시나리오와 같이 매우 간단한 시나리오에서도 의사가 이해해야 할 내용이 많습니다(예: 해부학, 생리학, 위험도, 수행할 수 있는 검사의 예측 가치, 특정 조치를 취했을 때의 비용/편익 등). 그러나 잘 작성된 객관식 또는 단답형 시험은 지식 기반의 강점을 적절히 파악할 수 있습니다(Case & Swanson, 2002). 실제로 일부 상황에서는 의사가 환자를 진찰한 지 10년이 지난 후에도 심장 사망률(Ramsey et al., 1989) 및 기타 중요한 임상 지표(Wenghofer et al., 2009)를 포함한 실제 환자 결과를 예측할 수 있는 것으로 나타났습니다. 

Imagine the medical resident (i.e., senior trainee) who enters an examining room in the emergency department to meet a crying child with a blackened eye and badly bruised forehead who is being held by a nearly hysterical mother who speaks English poorly. Clearly there are diagnostic issues that need to be resolved fairly efficiently: Are any bones broken? Has the child's eye been damaged? Is he likely to be concussed or haemorrhaging internally? Accurately assessing the clinician's knowledge regarding what diagnoses need to be considered, what tests will help rule out important clinical conditions, and what key steps need to be taken to treat the patient (whatever the underlying problem happens to be) is relatively straightforward. There is a lot that needs to be understood by the physician even in a fairly simple scenario such as this one (e.g., anatomy, physiology, risk, the predictive value of tests that could be performed, and the costs/benefits of taking particular actions). Well-written multiple choice or short answer exams, however, can adequately capture the strength of one's knowledge base (Case & Swanson, 2002). In fact, in some circumstances they have been shown capable of predicting real patient outcomes including cardiac mortality rates (Ramsey et al., 1989) and other important clinical measures (Wenghofer et al., 2009) a decade after the physician is examined.

그러나 환아와 그 가족에게 긍정적인 결과를 가져다주는 것은 단순히 진단 라벨을 지정하여 현재 문제를 분류하는 방법을 아는 것의 문제가 아닙니다(Ilgen, Eva, & Regehr, 2016). 

  • 환자 및 어머니와 효과적으로 소통할 수 있는 능력을 포함한 대인관계 기술은 환자의 상태와 그 원인을 제대로 이해하는 것뿐만 아니라 어머니가 상황을 완화하여 아이가 필요한 지원을 받고 이해할 수 있도록 하는 데에도 필요합니다(Menichetti, Libreri, Lozza, & Graffigna, 2016). 
  • 팀 기반 접근 방식과 이를 실행하는 데 필요한 기술은 이 환자뿐만 아니라 클리닉에 계속 유입되는 다른 문제와 관련하여 이러한 상호 작용을 분류하는 데 필요한 다양한 작업 및 후속 조치 단계를 조정하는 데 필요합니다(Abu-Rish 외., 2012). 
  • 부상의 원인을 파악하고 다시 발생할 가능성을 줄이려면 특히 학대가 의심되는 경우 의사의 상당한 주의와 옹호가 필요할 수 있으며, 향후 문제 예방을 위한 조율된 노력을 이끌기 위한 조치를 다시 취해야 합니다(Hubinette, Dobson, & Regehr, 2015). 
  • 그리고 이 모든 과정은 모든 의료 전문가에게 기대되는 전문성을 정의하는 데 기여하는 이타주의, 정직성, 다양성에 대한 존중을 보여주면서 이루어져야 합니다(Kelly, Mullan, & Gruppen, 2016).

Enabling a positive outcome for this child and his family, however, is not simply a matter of knowing how to categorize the presenting problem by assigning a diagnostic label (Ilgen, Eva, & Regehr, 2016).

  • Interpersonal skills, including the capacity to communicate effectively with the patient and his mother, are required not only to gain a proper understanding of the patient's condition and its cause, but to defuse the situation so the mother can understand and get the child the support he needs (Menichetti, Libreri, Lozza, & Graffigna, 2016).
  • A team-based approach and the skills required to enact it are necessary to coordinate the various stages of work-up and follow-up needed not just by this patient, but also for triaging this interaction relative to the other problems that continue to flow into the clinic (Abu-Rish et al., 2012).
  • Determining the cause of the injury and reducing the likelihood that it will happen again may require considerable care and advocacy on the part of the physician, especially if abuse is suspected, again with steps taken to lead a coordinated effort toward prevention of future problems (Hubinette, Dobson, & Regehr, 2015).
  • And, all of this must be done while demonstrating the altruism, honesty, and respect for diversity that contribute to defining the professionalism expected of all healthcare professionals (Kelly, Mullan, & Gruppen, 2016).

캐나다 왕립 의사 및 외과의 대학에서 설계한 모델로 전 세계 여러 지역에서 의사 교육을 안내하는 데 사용되어 온 CanMEDS 프레임워크의 최신 버전에는 "의사가 의료 서비스를 제공하는 사람들의 의료 요구를 효과적으로 충족하는 데 필요한 능력을 설명"하는 7가지 역할이 나열되어 있습니다: 협력자, 커뮤니케이터, 리더, 건강 옹호자, 의료 전문가, 전문가, 학자(Frank, Snell, & Sherbino, 2015). 이러한 역할은 27개의 "핵심 역량"으로 요약되며, 이는 다시 93개의 "활성화 역량"으로 세분화됩니다. 대부분의 역량을 평가하려면 실제 시나리오에서 의도적인 관찰 노력이 필요하며(Wass, van der Vleuten, Shatzer, & Jones, 2001), 관찰된 행동이 원하는 역량을 어느 정도 대표할 수 있는지에 대한 상당한 추론이 필요합니다(Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2011). 
In the latest iteration of the CanMEDS framework, a model designed by the Royal College of Physicians and Surgeons of Canada that has been used to guide physician training in many parts of the world, 7 roles are listed that “describe the abilities physicians require to effectively meet the healthcare needs of the people they serve”: Collaborator, Communicator, Leader, Health Advocate, Medical Expert, Professional, and Scholar (Frank, Snell, & Sherbino, 2015). These roles encapsulate 27 “key competencies” that are further subdivided into 93 “enabling competencies.” Assessment of most of them requires deliberate efforts at observation in real-world scenarios (Wass, van der Vleuten, Shatzer, & Jones, 2001) with considerable need for inferences to be drawn regarding the extent to which the behaviour observed is representative of the skillset desired (Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2011).

대부분의 임상 상황에서는 긍정적인 결과에 이르는 여러 경로가 존재하고(Eva, 2005) 모든 사례에서 경로와 결과 간의 불완전한 상관관계가 존재하기 때문에 이러한 영역에서는 "지상 진실"과 같은 것은 존재하지 않습니다(Zwaan & Singh, 2015);

  • 맥락이 행동의 강력한 결정 요인으로 밝혀졌기 때문입니다(Eva, Neville, & Norman, 1998); 그리고
  • 역량이 나타내는 복잡한 개념을 "객관적으로" 식별 가능한 행동으로 원자화하려는 노력은 필연적으로 그 개념이 의미하는 본질을 나타내지 못하기 때문입니다(Eva and Hodges, 2012, Whitehead et al. , 2015).

예를 들어, 상대의 눈을 바라보는 것은 훌륭한 의사소통 기술의 구성 요소로 취급되어 왔지만, 그 적절성과 의미는 문화적으로 다양하며(Akechi et al., 2013), 서구 문화권 내에서도 상대방의 눈을 바라보는 방식(예: 공격성, 연민, 지루함 또는 이해)이 중요하며 사람마다 다르게 해석될 수 있습니다(Gingerich, Ramlo, van der Vleuten, Eva, & Regehr, 2017). 실제로 의학 분야의 전문가 성과는 알고리즘에 따른 일련의 행동을 엄격하고 의도적으로 준수하는 것이 특징이 아니라는 사실은 20년 동안 알려져 왔습니다(Norman & Brooks, 1997). 그 결과, 사전 정의된 작업의 완료를 문서화하는 데 사용되는 체크리스트 중심 전략과 비교할 때, 주관적인 성과 등급을 사용하여 의료진을 평가하려는 노력은 신뢰할 수 있으면서도 숙련된 전문가와 수련생을 더 잘 구별할 수 있는 경향이 있습니다(Hodges, Regehr, McNaughton, Tiberius, & Hanson, 1999).

There is no such thing as “ground truth” in such domains because there are multiple pathways to positive outcomes in most clinical situations (Eva, 2005) and an imperfect correlation between pathway and outcome in all cases (Zwaan & Singh, 2015);

  • because context has been shown to be a robust determinant of one's behaviour (Eva, Neville, & Norman, 1998); and,
  • because efforts to atomize the complex concepts represented by the competencies into “objectively” identifiable behaviours inevitably fail to represent the essence the concepts are meant to signify (Eva and Hodges, 2012Whitehead et al., 2015).

For example, while looking one in the eye has been treated as a component of good communication skill, the appropriateness and meaning of doing so is culturally variable (Akechi et al., 2013) and, even within Western cultures, the way in which one looks another in the eye (e.g., with aggression, with compassion, with boredom, or with understanding) matters and can be interpreted differently by different people (Gingerich, Ramlo, van der Vleuten, Eva, & Regehr, 2017). In fact, it has been known for two decades that expert performance in medicine is not characterized by strict and deliberate adherence to an algorithmic set of actions (Norman & Brooks, 1997). As a result, when compared to checklist-driven strategies used to document completion of pre-defined tasks, efforts to assess medical practitioners using subjective ratings of performance tend to be just as reliable, yet better able to differentiate trainees from experienced professionals (Hodges, Regehr, McNaughton, Tiberius, & Hanson, 1999).

이러한 모든 이유(무엇보다도)로 인해 의학 분야의 성과 평가는 개인의 판단에 크게 의존합니다(Kogan & Holmboe, 2013). 판단의 근거가 되는 관찰 자료는 시뮬레이션 환경이나 직장에서 수집할 수 있습니다. 실시간으로 수집하거나 평가 대상자에게 이전에 노출된 적이 있는 개인을 대상으로 한 설문조사를 기반으로 수집할 수도 있습니다. 임상 교육자, 실습 동료 또는 환자가 제공할 수도 있습니다. 그러나 모든 경우에서 개인의 역량을 표현하기 위해서는 개인이 인식한 것을 번역해야 합니다(Williams, Klamen, & McGaghie, 2003). 평가 과정의 적절성은 일반적으로 주장의 진실성을 검증하여 결정할 수 없기 때문에 의료계는 효용성utility의 구성에 기반하여 사례를 만드는 데 의존하고 있습니다(van der Vleuten & Schuwirth, 2005). 이 영역에서 효용성은 일반적으로 평가 과정의 실현 가능성, 수용 가능성, 신뢰성, 타당성 및 교육적 영향의 조합으로 해석되어 왔습니다. 예를 들어, 신뢰성의 향상은 일반적으로 타당성에 영향을 미치지 않으면서도 타당성의 저하를 동반하기 때문에 이러한 기능은 서로 상응하지 않는 경우가 많습니다(Eva, 2009). 이 백서에서는 이러한 실제적인 현실을 제쳐두고 이 문제에 인지적 렌즈를 적용하여 평가자 기반 평가를 개선하기 위한 노력에서 배운 내용에만 초점을 맞출 것입니다. 예를 들어, 사회문화 이론가들은 평가 대상, 방법, 이유에 대해 완전히 다른 인식론적 질문을 제기할 수 있다는 점을 고려할 때, 인지적 관점만이 이 문제와 관련된 유일한 관점은 아닙니다. 하지만 개인에게 복잡한 퍼포먼스의 강도에 대한 판단을 요구하는 데 내재된 인지적 문제 자체가 충분히 중요하고 흥미로우며 도전적이기 때문에 지금은 그러한 질문은 한쪽으로 치워두겠습니다.  
For all these reasons (among others) performance assessment in medicine is heavily dependent on the judgment of individuals (Kogan & Holmboe, 2013). Observations on which judgments are made might be collected in simulated settings or in the workplace. They might be collected in real time or based on surveys of individuals who have had previous exposure to the individual being assessed. They might be provided by clinical educators, practicing colleagues, or patients. In all instances, however, they require the translation of what one perceives into a representation of the individual's competence (Williams, Klamen, & McGaghie, 2003). Because the adequacy of the assessment process cannot commonly be determined by verifying the veracity of any claims made, the medical profession is reliant on making a case based on the construct of utility (van der Vleuten & Schuwirth, 2005). In this domain, utility has generally been interpreted as a combination of the feasibility, acceptability, reliability, validity, and educational impact of the assessment process. These features are not often commensurate with one another as improvements in reliability, for example, are generally accompanied by declines in feasibility without necessarily impacting upon validity (Eva, 2009). For the purpose of this paper, we will set aside such practical realities and focus exclusively on what has been learned in efforts to improve rater-based assessments by applying a cognitive lens to this problem. This is not the only lens that is relevant given that socio-cultural theorists, for example, would raise entirely different epistemological questions regarding what is being assessed, how, and why. For now though such questions will be set to the side because the cognitive issues inherent in asking individuals to offer judgment on the strength of complex performances are themselves sufficiently important, interesting, and challenging.

평가자 기반 평가의 가치에 의문을 제기하는 지속적인 문제는 신중하게 통제된 자극(예: 환자와의 의료적 상호작용을 비디오로 녹화한 것)조차도 동등한 자격과 훈련을 받은 개인으로부터 매우 다양한 평가를 이끌어내는 경향이 있다는 것입니다(Cook 외., 2010, Downing, 2005, Margolis 외., 2006). 실제로 똑같은 자극에 대한 평가가 9점 척도에서 6점 차이가 나는 것은 흔한 일이며, 그 결과 평가자에 따라 합격-불합격 결정이 일관되지 않게 내려집니다(Holmboe, Huot, Chung, Norcini, & Hawkins, 2003). 긍정적 왜곡, 후광 효과, 극단값 회피와 같은 평가 편향이 일반적이며, 성과가 해석될 수 있는 방식에 대한 내재적 모호성은 일반적으로 인식되지 않습니다(Haber and Avins, 1994, Herbers 등, 1989, Kalet 등, 1992, LaMantia 등, 1999, Lurie 등, 2009). 이러한 문제를 개선하려는 노력은 크게 두 가지 범주 중 하나로 나뉘는데, 두 가지 모두 평가자의 개인적인 경험과 인식에 대한 의존도를 제한하거나 줄이는 평가자 기반 평가 프로토콜을 구축하려는 의도적인 시도에 해당합니다. 즉, 모든 평가자가 인정하지 않는 의료진의 성과에 대한 객관적인 현실이 있다는 가정에서 출발합니다.
A persistent problem that calls into question the value of rater-based assessments is that even carefully controlled stimuli (e.g., video-recorded renditions of a medical interaction with a patient) tend to elicit highly variable ratings from equally qualified and trained individuals (Cook et al., 2010, Downing, 2005, Margolis et al., 2006). It is commonplace, in fact, for ratings of the exact same stimulus to reveal a 6-point variation on a 9-point scale, resulting in inconsistent pass–fail decisions that are highly dependent on the assessors consulted (Holmboe, Huot, Chung, Norcini, & Hawkins, 2003). Rating biases such as positive skew, halo effects, and end aversion are common and the inherent ambiguity regarding the ways in which a performance could be interpreted generally goes unrecognized (Haber and Avins, 1994, Herbers et al., 1989, Kalet et al., 1992, LaMantia et al., 1999, Lurie et al., 2009). Efforts to ameliorate these problems have broadly fallen into one of the two categories, both of which amount to deliberate attempts to build rater-based assessment protocols that constrain or reduce dependency on the personal experience and perceptions of the raters. That is, they derive from the assumption that there is an objective reality to the quality of a medical practitioner's performance that simply is not recognized by all raters.

이러한 노력의 첫 번째는 평가자를 교육하여 조직의 표준과 정의에 대한 이해를 높임으로써 관찰된 성과에 대한 자신의 해석을 극복할 수 있도록 노력하는 것입니다(Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2015). 이 전략은 대체로 성공적이지 못했습니다(Cook, Dupras, Beckman, Thomas, & Pankratz, 2009). 평가자 교육은 때때로 평가자의 엄격성을 증가시키지만, 일반적으로 평가자 간 신뢰도에는 뚜렷한 영향을 미치지 않습니다(Holmboe, Hawkins, & Huot, 2004). 또한, 평가자의 임상 경험이 많을수록 평가자로서의 수행이 잘 바뀌지 않는 경향이 있습니다(Eva, 2001). 평가자는 평가자와 같은 방식으로 과제를 수행하는 사람에게 더 높은 평가를 내리는 것으로 알려져 있는데(Kogan, Hess, Conforti, & Holmboe, 2010), 이는 앞서 언급했듯이 이러한 맥락에서 적절하고 의미 있는 많은 시나리오의 경우 단일 전략이 진정한 표준이 되지 않고 좋은 치료를 위한 여러 경로가 있기 때문에 문제가 될 수 있습니다. 
The first such effort involves training raters, striving to help them overcome their own interpretations of the performances observed by improving their understanding of the organization's standards and definitions (Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2015). This strategy has largely been unsuccessful (Cook, Dupras, Beckman, Thomas, & Pankratz, 2009). Rater training sometimes increases rater stringency, but does not typically have a discernible influence on inter-rater reliability (Holmboe, Hawkins, & Huot, 2004). Further, the more clinical experience a rater has the less malleable their performance as a rater tends to be (Eva, 2001). Raters are known to give higher ratings to others who engage with the observed task in the same way the rater would (Kogan, Hess, Conforti, & Holmboe, 2010), which is problematic because (as alluded to earlier) for many of the scenarios that are relevant and meaningful in this context there are multiple pathways to good care without any single strategy being a true gold standard.

두 번째 노력은 응답 옵션의 수를 줄이거나(예/아니오 체크리스트의 극단적인 경우) 평가자가 평가해야 하는 행동의 수와 구체성을 늘려 평가자가 사용하도록 요청하는 평가 척도를 조정하거나 확장하는 것입니다. 다시 말하지만, 이러한 전략의 궁극적인 목표는 평가자의 인식에 존재하는 특이성을 극복하는 것입니다. 다시 말하지만, 이러한 전략은 대체로 성공적이지 못했습니다(Cook and Beckman, 2009, Donato et al., 2008). 포괄적인comprehensive 평가 도구를 생성하려는 노력은 특정 질문과 관련된 샘플링 오류를 줄임으로써 수집된 평가의 내적 일관성을 높일 수 있습니다. 그러나 척도를 완성하는 것이 너무 부담스러워 평가자가 직접 관찰보다는 기억에 의존하는 경우가 많기 때문에 이러한 이점이 약화되는 경향이 있습니다(Eva et al., 2007). 또한, 이러한 척도는 행동의 개별적인 측면이 특정 평가자에게 특히 두드러지게 나타나는 특이성을 줄이는 데 아무런 도움이 되지 않으며(Yeates, O'Neill, Mann, & Eva, 2013), 동시에 과제의 인지적 난이도를 증가시킵니다(Tavares & Eva, 2013).
The second effort involves tweaking or expanding the rating scales that assessors are asked to use by reducing the number of response options (to the extreme of a yes/no checklist) or increasing the number and specificity of the behaviours raters are asked to assess. Again, the ultimate goal of such strategies is to overcome idiosyncrasies present in raters’ perceptions. Again, such strategies have largely been unsuccessful (Cook and Beckman, 2009, Donato et al., 2008). Efforts to generate comprehensive rating instruments can enable increasing degrees of internal consistency in the ratings collected by reducing the sampling error related to asking particular questions. That benefit tends to be undermined though because completion of the scale becomes so burdensome that raters increasingly depend on their memory (often over long periods) rather than direct observation (Eva et al., 2007). Further, such scales do nothing to reduce the idiosyncrasy with which individual aspects of behaviour appear particularly salient to particular raters (Yeates, O’Neill, Mann, & Eva, 2013) while simultaneously increasing the cognitive difficulty of the task (Tavares & Eva, 2013).

종합하면, 이 영역의 증거 기반은 복잡한 수행 평가에는 의사 또는 수련의의 기술을 측정하는 것이 [관찰 대상의 수행]보다 [평가자의 관점]에 대한 더 나은 통찰력을 제공할 수 있는 상당한 위험이 수반된다는 것을 시사합니다. 극단적인 사례로, 기존의 패널 기반 의과대학 입학 면접에서 부여된 점수 차이의 거의 60%가 면접관 간의 차이에 기인하는 것으로 밝혀졌습니다(Harasym, Woloschuk, Mandin, & Brundin-Mather, 1996). 즉, 지원자 자체의 기술이나 자질보다는 누가 특정 지원자를 면접하도록 배정되었는지에 따라 입학 여부가 결정되었는데, 이러한 상황은 고위험 상황에서는 명백히 비윤리적이라고 할 수 있습니다(Norman, 2004). 
Taken together, the evidence base in this domain suggests that complex performance assessment carries with it considerable risk that measurement of a physician's or trainee's skill provides better insight into the perspective of the rater than it does into the performance of the observed. In one extreme case, nearly 60% of the variance in scores assigned during traditional panel-based medical school admissions interviews was found to be attributable to differences between interviewers (Harasym, Woloschuk, Mandin, & Brundin-Mather, 1996). In other words, who gained entry to the school was driven by who happened to be assigned to interview a given candidate moreso than by the skill or qualities of the candidates themselves, a situation that is plainly unethical in high-stakes contexts (Norman, 2004).

다행히도 인지 심리학의 원리를 적용하여 의학 분야에서 평가자 기반 평가를 개선하는 방향으로 일부 진전이 이루어지고 있습니다. 의학은 이러한 원리를 적용할 수 있는 풍부한 영역을 제공하지만, 이러한 원리는 복잡한 성과 평가의 모든 영역에 적용될 수 있습니다. 따라서 다음과 같이 인지심리학의 적용을 통해 의학교육이 얻은 교훈을 요약한 이유는 JARMAC 독자들이 의료행위에 특별히 관심이 있다고 가정하기 때문이 아니라, 의사에 대한 평가가

  • (a) 다양한 맥락에서 복잡한 수행평가에 정보를 제공할 수 있는 사례 연구를 제공하고,
  • (b) 인지를 통해 다루면 좋을 미해결 문제에 대한 지침을 제공하며,
  • (c) 참가자가 제한된 실제 환경에서 심리적 과정을 조사하려고 할 때 양보해야 하는 점을 강조함으로써 수행의 어려움에 대한 통찰을 제공하기 때문입니다.

후자의 문제와 관련하여 원하는 모든 데이터에 액세스할 수 있는 경우는 거의 없습니다. 의학 교육 참가자는 그 수가 제한되어 있고 모집하는 데 많은 비용이 듭니다. 따라서 이러한 상황에서 이러한 문제를 현명하게 연구하려면 경험적 데이터, 이론, 논리, 삼각측량, 추론의 조합이 필요합니다. 이는 응용 현상을 이해하기 위해 인지심리학 같은 핵심 학문의 가치를 강조하는 동시에, 이러한 학문의 이론적, 실험실 기반 연구를 현실 세계와 관련이 있고 의미 있는 관찰과 사례에 근거하는 것의 가치를 강조하는 것이기도 합니다. 

Fortunately, some headway is being made toward improving rater-based assessment in medicine through the application of principles from cognitive psychology. While medicine provides a rich domain for such application, those principles are likely pertinent to any area of complex performance assessment. As such, we offer the following summary of the lessons learned by medical education from the application of cognitive psychology not because we assume readers of JARMAC care specifically about medical practice, but because the assessment of physicians offers a case study that can

  • (a) inform complex performance assessment in various contexts,
  • (b) provide guidance on unresolved challenges that would do well to be taken up by cognition, and
  • (c) offer insight into the challenges of doing that by highlighting the concessions that need to be made when trying to examine psychological processes in real-world environments with limited supplies of participants.

With respect to the latter issue, few and far between are the cases when one can have access to all the data one might desire. Participants in medical education are limited in number and expensive to recruit. As a result, sensibly studying these issues in these contexts requires a combination of reasoning from empirical data, theory, logic, triangulation, and parsimony. This simultaneously reinforces the value of having a core discipline like cognitive psychology on which to draw to understand applied phenomena and emphasizes the value of grounding theoretical, lab-based studies from such disciplines in observations and practices that are relevant in and meaningful to the real world.

의학교육과 심리학의 상호 작용에서 얻은 교훈
Lessons Derived from the Interplay Between Medical Education and Psychology

기본적으로 임상 환경에서 임상의의 성과에 대한 결정을 내리는 것은 여러 가지 속성을 고려해야 하는 다중 속성 선택 작업으로, 판단자는 매우 산만한 환경에서 불완전한 정보와 함께 항상 일치하지 않는 여러 측면의 역량을 고려해야 합니다. 즉, Simon(1956)이 제시한 만족satisficing의 개념에 따라 휴리스틱과 유사성 기반 추론에 의존하도록 유도하는 완벽한 레시피입니다. 평가자가 아무리 신중하고 성실하게 앞에 놓인 과제에 참여하려고 노력하더라도 합리적으로 추론하는 능력은 시간, 정신 능력 및 문제를 통제할 수 있는 정도에 의해 제한된다는 점에서 합리성은 불가피하게 "한계"를 가질 수밖에 없습니다(Gigerenzer & Selten, 2002). 
Fundamentally, making a decision about a clinician's performance in a clinical setting is a multi-attribute choice task, in which the judge has to consider many aspects of competence that do not always align, in a highly distracting environment, with incomplete information. In other words, it is a perfect recipe to induce reliance on heuristics and similarity-based reasoning as per Simon's (1956) notion of satisficing; regardless of how deliberately and conscientiously assessors strive to engage with the task before them, their rationality is inevitably “bounded” in that the capacity to reason rationally is limited by time, mental capacity, and the extent to which the problem can be controlled (Gigerenzer & Selten, 2002).

지난 섹션에서 시작했던 응급실에서 우는 아이의 시나리오와 관련하여 이러한 요소를 고려해 보세요. 그러나 이제 레지던트 앞에 놓인 임상 과제를 상상하는 대신, 레지던트의 성과를 관찰하고 문서화하며 개선을 촉진할 책임이 있는 감독 의사가 앞에 놓인 과제를 상상해 보십시오. 그녀는 환자의 치료를 궁극적으로 책임진다는 점에서 레지던트와 동일한 과제를 안고 있습니다(더 큰 시간 압박을 느낄 수도 있습니다). 그러나 레지던트가 해당 수련 단계의 레지던트에게 기대되는 모든 역량을 충족하고 있는지 여부도 고려해야 합니다. 보다 제약된(즉, 시뮬레이션된) 환경에서도 이 작업은 지각 능력, 주의력, 작업 기억에 상당한 스트레스를 주는 매우 까다로운 작업으로, 많은 정보를 사용할 수 있고 해석을 고려해야 한다는 단순한 사실 때문에(Byrne, Tweed, & Halligan, 2014), 지각 능력과 주의력, 작업 기억에 상당한 부담을 줍니다. 취급용이성tractability 측면에서 볼 때, 개별 임상의의 경험과 특이한 환자 시나리오가 상호 작용하여 행동을 결정하는 무수한 방식으로 인해, 임상의의 효과 판단을 [쉽게 통제할 수 있는 문제]로 의미 있게 취급하는 것은 불가능합니다. 
Consider these factors in relation to the scenario of a crying child in the emergency department that began the last section. Now, however, instead of imagining the clinical task put before the resident, imagine the task put before the supervising physician who is responsible for observing, documenting, and facilitating the improvement of the resident's performance. She has all the same challenges as the resident given that she is ultimately responsible for the patient's care (and may feel even greater time pressures). In addition, however, she also needs to consider whether the resident is meeting all of the competencies expected of someone at that level of training. Even in a more constrained (i.e., simulated) environment, this is an incredibly demanding task that places considerable stress on one's perceptual abilities, attentional capacity, and working memory (Byrne, Tweed, & Halligan, 2014) by virtue of the simple fact that there is a lot of information available and many interpretations to be weighed. In terms of tractability, the countless ways in which individual clinicians’ experiences and idiosyncratic patient scenarios interact to determine behaviour make it impossible to meaningfully treat the judgment of a clinician's effectiveness as an easily controlled problem.

따라서 평가자의 사고 과정에 대한 통찰력을 제공하기 위해 작성된 연구 논문에서 의학교육 연구자들이 평가자가 가용성 휴리스틱, 확증 편향, 프레이밍 효과 등에 매우 취약한 정보 처리 모델을 사용하여 평가자의 과제를 일상적으로 구성하도록 유도하는 것은 놀라운 일이 아닙니다(Gauthier, St-Onge, & Tavares, 2016). 이 섹션에서는 교육 설계자가 이러한 근본적인 인지 과정을 극복하기 위해 급류에 휩쓸리지 않고 이를 수용하려는 노력을 통해 수행 평가의 관행을 개선할 수 있는 방법에 대한 구체적인 통찰을 제공한 몇 가지 연구 사례를 소개합니다. 

As a result, it should come as no surprise that research articles written to offer insight into the thought processes of raters have led medical education researchers to routinely frame the rater's task using information processing models within which assessors are highly susceptible to availability heuristics, confirmation bias, framing effects, and so on (Gauthier, St-Onge, & Tavares, 2016). In this section we offer a few examples of research that has provided particular insights into how educational designers might improve the practice of performance assessment through efforts to accommodate such fundamental cognitive processes rather than swimming upstream with the goal of overcoming them.

평가에 인지를 맞추는 것이 아니라 인지에 평가를 맞추기
Matching Assessment to Cognition Rather than Cognition to Assessment

평가자 기반 평가를 제한적 합리성의 관점에서 생각하면 평가자 교육, 보다 포괄적인 평가 양식 개발, 객관성을 위한 노력 등을 통해 평가 관행을 개선하려는 노력이 왜 제한적인 이점을 가져올 수밖에 없는지(또는 아예 실패할 수밖에 없는지) 밝히는 데 도움이 됩니다. 우리는 다음과 같은 주장이 심리학의 기본 법칙에 가장 근접한 것이라고 생각합니다: 주의력은 유한하고, 지각은 기대의 영향을 받으며, 기억은 제한적이고, 판단은 상대적이다. 의학에서 성과 평가를 제공하기 위해 활용해야 하는 대규모 인구에서 이러한 원칙을 뒤집거나 극복하려는 것은 어리석은 일입니다. 의사 결정이 복잡할수록 이러한 법칙의 역할은 더욱 두드러질 것이며, 아무리 많은 평가자 교육을 받아도 다음의 사실은 변하지 않을 것입니다.

  • 의학 분야의 성과는 다면적이고
  • 역량은 다양한 방식으로 나타나며
  • 특정 행동의 근간이 되는 원동력에 대한 추론을 도출해야 한다 

[주의해야 할 행동의 목록을 더 객관적이고, 더 길고, 더 세밀하게 원자화하여 제시하는 것]은 위에서 언급한 심리 법칙을 그대로 두고 있을 뿐만 아니라, 주의력을 더 많이 분산시키고 기억을 압도하는 역효과를 초래할 수 있습니다.
Thinking of rater-based assessment in terms of bounded rationality helps shine light on why efforts to improve assessment practices through rater training, by developing more comprehensive rating forms, or by striving for objectivity are destined to produce limited benefits (or fail altogether). We consider the following claims to be as close as one can come to stating fundamental laws in psychology: Attention is finite, perception is influenced by expectations, memory is limited, and judgment is relative. Hoping to reverse or overcome such principles in the large population that must be drawn upon to provide performance assessment in medicine is a fool's task. The more complex the decision made the more prominent a role these laws will play, and no amount of rater training will change the fact

  • that performance in medicine is multifaceted,
  • that competence presents itself in many ways, and
  • that inferences regarding the driving forces underlying particular behaviours must be drawn.

Offering a more objective, longer, or more carefully atomized list of behaviours to watch for will not only leave the above-stated psychological laws untouched, but may be counterproductive by virtue of dividing attention and overwhelming memory to an even greater extent.

그렇다면 평가자의 인지에 대한 주의를 기울이는 것이 복잡한 성과 평가를 수행하는 능력을 향상시키는 데 어떻게 사용될 수 있는지 이해하는 데 있어 어떤 시사점을 얻을 수 있을까요? 인간 인지의 다른 영역에서와 마찬가지로, 성과 평가자에게도 타불라 라사가 존재하지 않는다는 점을 고려할 때, 이 영역의 혁신은 지각과 학습이 우리가 이미 알고 있는 것을 기반으로 구축된다는 점을 고려해야 합니다. 이러한 구성주의 모델을 효과적으로 적용하여 성과 평가를 개선하려면 해당 활동에 참여한 사람들의 생생한 경험을 고려해야 합니다. 즉, 평가자의 선입견과 일치하지 않는 세계관을 강요하기보다는, 평가자가 있는 곳에서 평가자를 만나면 평가 프로세스에 도움이 될 수 있습니다. 
Where does this leave us in terms of understanding how attention to raters’ cognition might be used to improve their capacity to provide complex performance assessments? Given that the tabula rasa does not exist for performance assessors any more than it does in other realms of human cognition, innovations in this domain must take into account that perceptions and learning are built upon what we already know. Effectively applying such a constructionist model to improve performance assessment demands that we consider the lived experience of those who have been involved in that activity. That is, our assessment processes stand to benefit if we meet assessors where they are rather than trying to force a worldview on them that is inconsistent with their preconceptions.

이를 위해 연구자들은 일련의 연구를 통해 수퍼바이저가 수련생 성과에 대한 인식의 핵심에 '신뢰성'이 있다는 설득력 있는 주장을 펼쳤다는 점에 주목할 필요가 있습니다(Hauer 외., 2015, ten Cate, 2006). 임상 수퍼바이저를 대상으로 열등, 평균, 우수 레지던트에게서 관찰한 특징에 대해 말하게 하기 위해 인터뷰를 진행한 긴스버그, 맥일로이, 울라노바, 에바, 레거(2010)는 언급된 많은 행동이나 활동이 공식적으로 확립된 역량 프레임워크와 상당히 잘 일치하지만, '역량'이라는 라벨을 붙이기는 어려운 요소의 영향이 강한 것으로 보인다는 결론을 내렸습니다. 예를 들어, 수퍼바이저들은 수련생이 독립성과 임상적 정교함을 보여준 정도와 수련생이 수퍼바이저의 업무를 더 쉽게 만든 정도에 대해 일상적으로 이야기했습니다. 또한, 각 행동의 해석이 다른 행동과의 관계에 어느 정도 영향을 받는다는 점을 고려할 때, 관찰된 긍정적 행동과 부정적 행동을 단순히 합산하는 것만으로는 능력에 대한 판단이 자연스럽게 도출되지 않음을 시사하는 미묘한 뉘앙스가 응답에 드러났습니다(Ginsburg, Regehr, Lingard, & Eva, 2015). 실제로 '강하다' 또는 '견고하다'와 같이 단순해 보이는 형용사가 어떻게 해석되는지는 표현되는 문맥에 따라 달라집니다(Ma, Min, Neville, & Eva, 2013). 
To this end, it is important to note that a series of studies have led researchers to make compelling claims that “entrustability” is at the heart of supervisors’ perceptions of trainee performance (Hauer et al., 2015, ten Cate, 2006). Interviewing clinical supervisors in an effort to get them to speak about the characteristics they observed in poor, average, or good medical residents led Ginsburg, McIlroy, Oulanova, Eva, and Regehr (2010) to conclude that, while a number of behaviours or activities that were mentioned aligned reasonably well with formally established competency frameworks, there appeared to be a strong influence of things that one would be hard pressed to force into a “competency” label. For example, supervisors spoke routinely of the extent to which the trainee demonstrated independence and clinical sophistication, as well as the degree to which the trainee made the supervisor's job easier. Further, their responses revealed a degree of nuance that suggested naturally generated judgments of ability did not derive simply from summing the positive and negative behaviours observed given that the interpretation of each behaviour was to some extent influenced by its relation to other behaviours (Ginsburg, Regehr, Lingard, & Eva, 2015). Indeed, how seemingly simple adjectives like “strong” or “solid” are interpreted is dependent on the context in which they are expressed (Ma, Min, Neville, & Eva, 2013).

이러한 관찰은 단순히 평가자 기반 평가가 오류 가능성이 있다는 또 다른 증거로 사용될 수 있지만, 특히 Crossley, Johnson, Booth, Wade(2011)는 보다 낙관적이고 발전적인 전망을 유지해야 하는 이유를 입증했습니다. 이들은 이 문헌을 사용하여 평가자가 고려하도록 요청받은 평가 척도를 교육생의 성과에 대한 인식을 나타낼 때 자연스럽게 생각하는 특성과 더 잘 일치시킴으로써 평가의 유용성을 개선할 수 있는지 여부에 대해 질문했습니다. 즉, 평가자에게 다른 구성 요소의 정의를 내면화하도록 요구하기보다는, 평가자가 중요하게 생각하는 구성 요소와 평가 척도를 일치시키기 위해 노력했습니다. 보다 구체적으로, 이들은 일련의 평가 척도에 제시된 형용사를 '기대 충족'과 같은 형식적이고 추상적인 역량 기반 서술어에서, 훈련생이 보여준 독립성과 정교함의 정도를 나타내는 구조에 부합하는 서술어로 수정했습니다. 이렇게 함으로써 여러 평가 전략에 걸쳐 신뢰도가 향상되었으며, 이러한 결과는 최근 프로그램 평가 영역에서도 재현되고 있습니다(Rusticus, Eva, & Peterson, 언론 발표). 물론 이러한 관찰은 의견의 특이성이 어디에서 비롯되는지에 대한 근본적인 의문을 여전히 남깁니다. 
While these observations could be used simply as another indication that rater-based assessment is fallible, Crossley, Johnson, Booth, and Wade (2011) in particular have demonstrated reasons to maintain a more optimistic and generative outlook. They used this literature to question whether or not the utility of ratings could be improved by better aligning the rating scales assessors were asked to consider with the characteristics they indicated naturally thinking about when indicating their perceptions of trainees’ performance. In other words, they made an effort to bring the rating scales in line with the constructs considered important to raters rather than asking raters to internalize the definitions of other constructs. More specifically, they modified the adjectives presented on a series of rating scales away from formal and abstract competency-based descriptors such as “meeting expectations” to construct-aligned descriptors that indicated the degree of independence and sophistication the trainee demonstrated. Doing so resulted, across a number of assessment strategies, in improved reliability, a finding that has recently been replicated in the realm of program evaluation (Rusticus, Eva, & Peterson, in press). These observations of course still leave alive the fundamental question of whence does idiosyncrasy of opinion derive?

과거 경험과 판단의 상대성이 평가자의 특이성을 만드는 방법
How Past Experience and the Relativity of Judgment Create Rater Idiosyncrasy

평가자가 자신의 평가에서 두드러진 특징이라고 주장하는 구조에 맞춰 평가 프로토콜을 구축하면 개선 효과가 있는 것처럼 보이지만, 평가자 간 신뢰도는 여전히 불완전합니다. 비디오로 녹화된 하나의 수행능력에에 주의를 기울였다고 주장하는 두 사람이 공연자가 환자와 눈을 마주치는 것과 같은 간단한 행동을 했는지 여부에 대해 근본적으로 다른 관점을 가질 수 있는 이유는 무엇일까요? 평가자의 특이성이 발생하는 다양한 메커니즘을 직접적으로 이해하기 위한 몇 안 되는 연구 중 하나인 Yeates 등(2013)은 평가자의 판단이 기본적인 인지적 힘과 개인의 이전 경험 간의 상호 작용에 의해 좌우된다는 것을 시사하는 데이터 패턴을 보고했습니다. 연구진은 후배 의사가 환자의 병력을 받는 임상 수행을 비디오로 녹화한 후, 평가자에게 각 의사의 역량에 대한 인상을 공식화하면서 큰 소리로 생각하도록 요청했습니다. 작성된 문장을 주제별로 분석한 결과, (이전 연구를 반복한) 평가의 다양성은 다음 때문에 발생하는 것으로 나타났습니다. 

  • (a) 평가자가 수행의 서로 다른 측면에 주목하고(차별적 중요도),
  • (b) 평가자가 수행을 판단하는 데 가장 중요한 기준에 대해 다른 인상을 가지고 있으며(기준 불확실성),
  • (c) 평가자가 이러한 독특한 관점을 사용하여 개인의 수행에 대한 전체적인 인상을 형성함(정보 통합) 

While building rating protocols to align with the constructs that assessors claim to be prominent in their assessments appears to offer improvement, inter-rater reliabilities remain imperfect. How is it possible that two people, who both claim and appear to be paying attention to a single video-recorded performance, come to fundamentally different perspectives on whether or not the performer did something as straightforward as making eye contact with the patient? In one of the few studies aimed directly at understanding the various mechanisms whereby rater idiosyncrasy arises, Yeates et al. (2013) reported patterns of data that suggest raters’ judgments are driven by the interaction between basic cognitive forces and personal previous experiences. Upon presenting video-recorded representations of clinical performances involving junior doctors taking a history from a patient, they asked assessors to think aloud as they formulated their impressions of each physician's competencies. Thematic analysis of the statements made suggested that the variability of ratings (which replicated previous work) arose due to

  • (a) assessors attending to different aspects of performance (differential salience),
  • (b) assessors having different impressions of the criteria that were most important for judging performance (criterion uncertainty), and
  • (c) assessors forming global impressions of the individual's performance using these unique perspectives (information integration).

즉, 평가자는 고려해야 할 성과에 대한 각 측면에 대해 쉽게 등급을 매기지만, 전체적인 인상은 관찰된 행동의 일부에 초점을 맞춘 독특한 관점에 의해 현저하게 좌우되는 것으로 보입니다. 중요한 것은 평가자의 다양한 인상을 좌우하는 관점의 특이성이 평가자와 그들이 관찰한 다른 수련의/의사 간의 이전 만남의 강도와 두드러짐의 차이에서 비롯되었다는 강력한 징후가 있었다는 점입니다. 이러한 결과를 종합하면, 관찰한 내용이 서로 다른 방식으로 의사의 성과에 대한 판단으로 변환되더라도 똑같이 정확할 수 있기 때문에 인상의 다양성이 반드시 일부 평가자의 '옳음'과 일부 평가자의 '틀림'에 기인한 것은 아니라는 점을 시사합니다(Gingerich et al., 2017).
In other words, while assessors readily provide ratings to each aspect of performance they are asked to consider, their overall impressions appear to be driven markedly by an idiosyncratically focused upon subset of the behaviours observed. Importantly, there were strong indications that the idiosyncrasies of perspective that drove raters’ variable impressions arose from differences in the strength and salience of previous encounters between the assessors and other trainees/physicians they had observed. Taken together, these findings suggest that the variability in impression was not necessarily driven by some raters being “right” and some being “wrong” because the observations made could be equally accurate even though they were translated into judgments of physician performance in different ways (Gingerich et al., 2017).

평가자는 일반적으로 다른 사람이 자신과 현저하게 다른 인상을 형성할 수 있다는 사실을 인식하지 못하기 때문에 복잡한 성과를 평가할 때 발생할 수 있는 측정의 어려움을 이해하기가 어렵습니다. 다시 말하지만, 이는 지식의 저주(타인이 우리와 동일한 배경 지식과 정보를 가지고 있다고 가정함으로써 파생되는 타인의 관점을 고려하는 데 내재된 어려움; Camerer, Loewenstein, & Weber, 1989)의 예를 제공하므로 광범위하게 적용할 수 있는 인지적 현상을 나타냅니다. 대부분의 임상의들은 (일화적으로) 관찰된 자극의 모호성 가능성을 인식할 수 있는 어떤 흔들림도 없이 어떤 훈련생이 문제가 될 가능성이 있는지 몇 분 안에 안다고 말할 것입니다. 이러한 맥락에서 판단이 필요한 영역에서 직관적 전문성을 발휘할 수 있는 조건으로 카네만과 클라인(2009)이 제시한 조건이 거의 충족되지 않는다는 점을 고려하면 이러한 인상이 착각일 수 있다는 점을 놓치기 쉽습니다. 직관적 판단이 진정으로 숙련되려면 다음과 같아야 한다고 주장합니다

  • 환경이 상황의 본질에 대해 적절하게 유효한 단서를 제공하고
  • 사람들이 관련 단서를 학습할 수 있는 기회를 가져야 한다

Assessors are not generally aware that others can form such markedly different impressions from the ones they possess, making it hard to understand the measurement difficulties that can arise when trying to assess complex performances. Again, this is indicative of a broadly applicable cognitive phenomenon as it offers an example of the curse of knowledge (the difficulty inherent in considering the perspective of others derived from presumptions they have the same background knowledge and information that we possess; Camerer, Loewenstein, & Weber, 1989). Most clinicians (anecdotally) will tell you that they know within minutes which trainees are likely to be problematic without any vacillation that would suggest recognition of the potential for ambiguity in the stimulus observed. It is easy in this context to miss that such impressions can be illusory given that the conditions outlined by Kahneman and Klein (2009) as enabling intuitive expertise in domains requiring judgment are rarely met. For intuitive judgment to be genuinely skilled, they argue,

  • the environment must provide adequately valid cues to the nature of the situation and
  • people must have the opportunity to learn the relevant cues.

규칙성이 너무 적은 복잡한 상황(예: 임상 교육 환경)에서는 첫 번째 요건을 위반하기 때문에 예측이 실패합니다. 임상의 평가자는 가장 눈에 띄는 단서가 가장 예측력이 높은 단서라기보다는, 자신의 개인적인 경험(예: 연습 방법 및 과거에 만났던 유사한 훈련생)과 가장 관련성이 높은 단서일 수 있다는 사실을 인식하지 못한 채 성과를 구별하는 데 도움이 되는 단서에 집중합니다. 
In complex situations in which there is too little regularity (e.g., clinical training environments), forecasting fails because the first requirement is violated. Clinician raters focus upon the cues that help them differentiate between performances without recognizing that the cues that are most noticed by them may be the ones that are most relevant to their personal experience (i.e., how they practice and similar trainees they have encountered in the past) rather than those that are most predictive.

자신의 결정의 정확성에 대한 피드백이 일상적으로 제공되지 않는 경우(예: 의학의 거의 모든 성과 평가 상황), 두 번째 요건도 위반됩니다. 평가는 관찰 대상자를 추적 관찰할 기회와 분리되는 경우가 많으며, 그렇지 않은 경우에도 임상의가 개별 학습자에 대한 인상을 통해 다른 인상을 가진 교육생과 다르게 상호작용하도록 유도함으로써 자기충족적 예언을 만들 수 있다는 것은 쉽게 상상할 수 있습니다(우리가 아는 한 문서화된 적은 없지만). 동시에, 인상이 바뀌는 경우 초기 인상이 잘못되었다고 결론 내리기보다는 관찰 대상자의 성장으로 인한 변화로 돌리는 것이 더 쉬울 수 있습니다.
When feedback regarding the accuracy of one's decision is not routinely available (e.g., nearly every performance assessment context in medicine), the second requirement is also violated. Assessments are often divorced from opportunities to follow up with the person being observed and, even when they are not, it is easy to imagine (although never documented to our knowledge) that clinicians’ impressions of individual learners would create self-fulfilling prophecies by leading them to interact differently with trainees about whom they have different impressions. At the same time, if one's impression does change it is likely easier to attribute such change to growth on the part of the person being observed rather than to conclude that one's initial impression was wrong.

예이츠와 그의 팀은 평가자에게 제시하는 순서를 조작(또는 기록)하는 일련의 연구를 통해 과거 경험이 현재 관찰 대상에 대한 인상에 미치는 영향을 실험적으로(그리고 관찰적으로) 확인했습니다. 대조 효과(자극 간의 차이를 지나치게 강조하는 현상; Stewart, Brown, & Chater, 2005)는 순차적으로 제시된 자극을 의도적으로 고려해야 하는 과제에서 발생하는 경향이 있다는 심리적 앵커링 문헌의 제안에 따라(Mussweiler, 2003, Tanner, 2008), 연구진은 동일한 수행을 관찰하기 전에 좋은 수행을 관찰했을 때보다 나쁜 수행을 관찰하기 전에 수행했을 때 응시자의 수행이 일상적으로 평균적으로 높게 평가되는 것을 발견했습니다. 이러한 패턴은 평가자가 신중하게 통제된 비디오에 부여한 평가(Yeates, O'Neill, Mann, & Eva, 2012), 실제의 고부담 평가 상황에서 부여된 평가를 조사한 연구(Yeates, Moreau, & Eva, 2015), 평가자가 수행을 관찰한 후 훈련생에게 제공하기로 선택한 내러티브 피드백(Yeates, Cardell, Byrne, & Eva, 2015)에서도 발견되었습니다. 이러한 판단의 상대성은 우리가 관찰 가능하고 잠재적으로 의미 있는 모든 정보를 고려하는 동시에 작업 기억에서 활성화되는 절대적 기준에 대한 정신적 접근(또는 보유 능력)의 한계로 인해 사용 가능한 정보의 일부에만 인상을 근거로 삼을 수밖에 없음을 시사합니다(Tavares & Eva, 2013).
Yeates and his team experimentally (and observationally) confirmed the influence of past experience on one's impressions of current observations across a series of studies in which they manipulated (or recorded) the order of presentation to raters. Consistent with the psychological anchoring literature's suggestion that contrast effects (an over-emphasis on differences between stimuli; Stewart, Brown, & Chater, 2005) tend to arise when tasks involve deliberate consideration of sequentially presented stimuli (Mussweiler, 2003, Tanner, 2008), they found that candidates’ performance was routinely rated higher on average when it was preceded by observation of a poor performance relative to when the same performance was preceded by observation of a good performance. This pattern was seen in the ratings assessors assigned to carefully controlled videos (Yeates, O’Neill, Mann, & Eva, 2012), in a study examining ratings assigned in a real life, high-stakes, assessment context (Yeates, Moreau, & Eva, 2015), and also in the narrative feedback assessors chose to provide to trainees after observing their performance (Yeates, Cardell, Byrne, & Eva, 2015). Such relativity of judgment suggests we are forced to base our impressions on only a sample of the information available due to limitations in our mental access to (or capacity to hold) absolute standards active in working memory while also considering all observable and potentially meaningful information (Tavares & Eva, 2013).

적은 것을 요구하여 더 많은 것을 얻기
Getting More by Asking for Less

평가자가 사용 가능한 정보의 일부에 크게 영향을 받는 작업 기억 제약에 대한 이러한 우려는 평가자에게 특정 시점에 더 적은 일을 요구함으로써 평가자의 특이성을 어느 정도 극복할 수 있다고 제안하는 Tavares의 실험 연구와 함께 고려할 때 더욱 강화됩니다. 그의 연구의 기본 설계는 평가자의 평가의 유용성이 어떻게 달라지는지를 확인하는 것이었습니다.

  • 평가자에게 표준 직장 기반 평가 과제(즉, 의료 전문가에게 기대되는 광범위한 역량을 반영하는 7개 차원에 대해 성과를 관찰하고 등급을 부여하는 과제)를 완료하도록 요청했을 때와
  • 평가자에게 7개 차원 중 2개만 포함된 수정된 버전의 동일한 평가 양식을 사용하여 동일한 성과를 검토하고 점수를 부여하도록 요청했을 때 

평가자가 작업 기억 과부하로 인해 부담을 느끼고 7가지 차원 버전에서는 주의가 너무 얇게 나뉜다는 가설을 세우고, (a) 두 그룹에 일관된 수행의 2개 차원에 해당하는 행동을 성공적으로 식별한 수를 고려하여 평가자 기반 평가의 유용성을 조사하고 (b) 해당 2개 차원에 할당된 점수의 평가자 간 신뢰도를 계산하여(Tavares and Eva, 2014, Tavares et al, 2016), (c) 평가자가 제공한 피드백의 양을 조사했습니다(Tavares et al., 2016). 
Such concerns about working memory constraints leading assessors to be heavily influenced by a subset of the information available become strengthened when considered in conjunction with experimental research conducted by Tavares that suggests rater idiosyncrasy can be overcome to some extent by asking them to do less at any given point in time. The basic design of his studies has been to determine what happens to the utility of assessors’ ratings

  • when they are asked to complete a standard workplace-based assessment task (i.e., observing a performance and assigning ratings to 7 dimensions that reflect the breadth of competencies expected of health professionals) compared to
  • when they are asked to review and score the same performance using a modified version of the same rating form that includes only 2 of the 7 dimensions.

Hypothesizing that raters are burdened by working memory overload and that their attention is divided too thinly in the 7 dimensional version, the utility of rater-based assessment has been examined by (a) considering the number of behaviours successfully identified that are specific to the 2 dimensions of performance consistent to both groups (Tavares & Eva, 2014), (b) calculating the inter-rater reliability of the scores assigned to those 2 dimensions (Tavares and Eva, 2014, Tavares et al., 2016), and (c) examining the amount of feedback provided by assessors (Tavares et al., 2016).

각각의 데이터는 평가자에게 관찰된 성과를 보다 포괄적으로 평가하도록 요청할 때 평가의 질이 저하되는 것을 시사했습니다. 또한, 과제 후 인터뷰의 주제별 분석에 따르면 평가자들은 적어도 사후에 평가 과제를 단순화하기 위한 조치를 취해야 한다는 사실을 인식하고 있었습니다(Tavares 외., 2016). 7가지 차원을 모두 평가해야 했던 평가자들은 의사의 행동과 관련된 모든 특징을 추적하는 것이 너무 어려웠기 때문에 일부 차원에 우선순위를 둠으로써 자발적으로 과제 요구 사항을 줄였다고 보고했습니다. 이 과정에서 평가자들은 "가장 쉬운", "부정적인" 또는 "가장 명백한" 항목에 집중했다고 주장합니다. 개별 평가자가 특정 행동에 일관되게 우선순위를 부여한다는 증거가 없기 때문에, 평가자가 스스로 판단하여 과제를 단순화하는 방법을 결정하도록 맡길 경우 해당 범주에 해당하는 차원 또는 행동은 평가를 수행하는 개인과 평가 대상자 간의 상호작용에 따라 달라지는 것으로 보입니다. 

In each case the data suggested a decline in the quality of assessments when assessors are asked to rate the performances observed more comprehensively. Further, thematic analysis of post-task interviews suggested that assessors were aware, at least after the fact, of taking steps to simplify the assigned rating task (Tavares et al., 2016). Those charged with assessing all seven dimensions reported feeling that they had spontaneously reduced the task demands by prioritizing a subset of the dimensions because they found it too difficult to track all relevant features of the physician's behaviour. In doing so, assessors claim to have focused on what they found “easiest,” “negative,” or “most obvious.” When left to their own devices to determine how to simplify the task before them, what dimensions or behaviours fit into those categories appears to be idiosyncratic to the interaction between the individual performing the assessment and the individual being assessed, as there has been no evidence that individual raters consistently prioritize particular behaviours.

이러한 발견은 다양한 역량의 개발과 평가를 장려하여 진료의 현대화를 위해 노력하는 의학교육자들에게 상당한 수수께끼를 안겨줍니다. 즉, 수행의 모든 중요한 측면을 한 시점에 개인이 평가할 수 없다는 사실을 인정하거나 평가의 질을 희생해야 한다는 것입니다. 즉, 평가 설계자는 평가자가 고려해야 할 사항을 제한함으로써 평가 프로세스의 유용성을 향상시킬 수 있지만, 역량 기반 의학교육이 극복하고자 했던 상황, 즉 지나치게 좁은 진료 범위에 대한 불균형적인 의존과 주의로 돌아갈 위험이 있습니다(Frank et al., 2015). 이러한 상충하는 힘의 조화는 모든 것을 평가해야 하지만 반드시 한꺼번에 평가할 필요는 없다는 생각에 있을 수 있습니다. 물론 평가 과제를 분산하면 실행 가능성에 대한 압박이 발생하지만, 최근 Tavares 등이 수행한 후속 연구에 따르면 평가자에게 6가지 역량 차원을 판단하도록 요청하는 것보다 각각 2가지 역량 차원을 평가하도록 요청받은 평가자의 판단을 합산하는 것이 평가의 신뢰도를 높이고 수행자에게 더 많은 피드백을 제공하는 것으로 나타났습니다. 

Such findings create a considerable puzzle for medical educators who strive to modernize practice by encouraging the development and assessment of varied competencies: either accept that not every important aspect of performance can be assessed by an individual at a point in time or sacrifice quality of the assessment. That is, while assessment designers can improve the utility of an assessment process by limiting what assessors are asked to consider, they risk doing so in a manner that returns to the situation that competency-based medical education was intended to overcome: unbalanced reliance on, and attention to, an overly narrow scope of practice (Frank et al., 2015). The reconciliation of these competing forces may lie in the idea that while everything needs to be assessed it need not necessarily be assessed all at once. Spreading out an assessment task of course creates feasibility pressures, but recent follow-up work conducted by Tavares et al. has indicated that, relative to asking assessors to judge 6 dimensions of competence, aggregating the judgments of raters who are each asked to evaluate two dimensions of competence increased the reliability of the ratings and resulted in more feedback to the performer.

군중의 지혜 활용하기
Taking Advantage of the Wisdom of Crowds

그렇다고 해서 성과 판단에 대한 책임을 분담한다고 해서 분담 규모에 비례하여 리소스의 필요성이 반드시 증가한다고 가정할 필요는 없을 것입니다. 작업을 더 단순하게 만들면 더 짧은 시간에 의미 있는 성과에 대한 인상을 형성할 수 있습니다. 지금까지 논의한 문헌과 일관되게, 직무 또는 교육 프로그램 면접에서 성과 평가를 조사한 연구에 따르면 성과에 대한 포괄적인 인상을 주기 위해 더 많은 시간을 투자하는 것은 환상에 불과하다고 합니다. Ambady 등은 면접에서 지원자의 성과를 판단해 달라는 요청을 받은 평가자가 몇 분 안에 대부분 인상을 형성한 다음, 대부분의 경우 지원자가 인상 관리 전략을 성공적으로 사용할 수 있는 더 큰 기회를 놓칠 위험을 감수하면서 면접의 나머지 시간을 초기 인상을 강화하는 데 보낸다고 보고합니다(Ambady and Rosenthal, 1992, Ambady 등, 2000, Ellis 등, 2002). Wood, Chan, Humphrey-Murto, Pugh, Touchie(2017)는 임상 수행 환경에서 평가자가 관찰 후 1분 이내에 형성하는 판단이 수행이 완료된 후 수집된 최종 평가를 강력하게 예측한다는 사실을 유사하게 보여주었습니다. 관찰에서 수집된 정보의 양보다 수행 평가의 신뢰성에 훨씬 더 중요한 것은 정보를 수집하는 관찰 횟수입니다. 일련의 짧은 만남에 대한 평가는 일반적으로 한 번의 만남에 장기간 노출되는 것보다 더 높은 신뢰성을 제공합니다(Axelson & Kreiter, 2009). 이는 필기 평가와 임상 수행 평가 모두에서 강력하게 입증되었으며, 샘플링은 오랜 시간 동안 평가 형식 전반에 걸쳐 주요 일관성을 유지하는 것으로 확인되었습니다(Eva, 2009). 
That said, it perhaps need not be assumed that divvying up responsibility for judging performance necessarily increases resource needs proportionate to the amount of division. If the task is made simpler, then one can potentially form a meaningful impression of performance in less time. Consistent with the literature discussed to this point, studies examining performance assessment in job or training program interviews suggest that the value of spending more time striving to generate a comprehensive impression of performance is illusory. Ambady and others report that assessors who are asked to judge the performance of job candidates during an interview have largely formed their impression within minutes and then, for the most part, spend the rest of the interview reinforcing that initial impression at the risk that candidates find greater opportunity to successfully engage impression management strategies (Ambady and Rosenthal, 1992, Ambady et al., 2000, Ellis et al., 2002). Wood, Chan, Humphrey-Murto, Pugh, and Touchie (2017) have similarly shown that in clinical performance settings, the judgments that assessors form within the first minute of observation are strongly predictive of their final rating collected after the performance is complete. Much more important to the reliability of a performance assessment than the amount of information collected from an observation is the number of observations from which information is collected. Assessment of a series of brief encounters generally offers greater reliability than prolonged exposure to a single encounter (Axelson & Kreiter, 2009). This has been demonstrated both in written assessments and clinical performance assessments so robustly that sampling has been identified as the main consistency across assessment formats that have stood the test of time (Eva, 2009).


학생 선발 문헌을 예로 들면, 지원자에 대한 짧은 노출을 많이 활용하는 혁신적인 면접 형식에 대한 10년 반의 연구를 통해 시험-재시험 신뢰도가 기존 면접 전략의 두 배에 달하고(Eva 외, 2009), 면접이 실시된 후 최대 4년까지 수행 결과를 예측할 수 있는 강력한 역량을 확보한 것으로 나타났습니다(Eva 외, 2009, Eva 외, 2012c, Reiter 외, 2007). 다중 미니 인터뷰(MMI)라고 불리는 이 형식은 지원자가 여러 면접관과의 긴 패널식 인터뷰에 참여하는 대신 단일 면접관과의 짧은(5~8분) 인터뷰 시리즈(n = 8~12)를 돌아가며 진행하도록 하는 사실상 '벨 러너(bell ringer)'입니다(Eva, Rosenfeld, Reiter, & Norman, 2004). 중요한 점은 이러한 연구에서 데이터를 제공한 평가자들이 특정 분야에 대해 고도로 훈련된 전통적인 의미의 '전문가'가 아니었다는 점입니다. 의대 지원자를 평가해 달라는 요청을 받은 사람들 중에는 의사가 포함되어 있었지만, 의대와 관련이 없는 의대생과 지역사회 구성원도 포함되었습니다. 사실, 의사가 환자 인구의 대부분을 차지하는 일반인과 얼마나 효과적으로 소통하는지를 판단하는 데는 의사보다 일반인이 더 나은 참고 집단이라는 점에서 이 맥락에서 어떤 형태의 '전문성expertise'이 특히 가치가 있는지는 명확하지 않습니다. 

Using the student selection literature as an example, a decade and a half of work on an innovative interview format that relies on many short exposures to candidates has revealed test–retest reliabilities double that of traditional interview strategies (Eva et al., 2009) and yielded stronger capacity to predict performance outcomes up to four years after the interviews take place (Eva et al., 2009, Eva et al., 2012c, Reiter et al., 2007). The format, called a Multiple Mini-Interview (MMI) is effectively a “bell ringer” in which applicants are asked to rotate through a series (n = 8–12) of brief (5–8 min) interviews with single examiners rather than participating in a long panel-style interview with multiple interviewers (Eva, Rosenfeld, Reiter, & Norman, 2004). Importantly, the raters who provided the data in these studies were not “experts” in the traditional sense of being highly trained in a particular area. Those asked to judge candidates to medical school included physicians, but they also included medical students and community members with no affiliation to the medical school. In fact, what form of “expertise” is particularly valuable in this context is not clear because arguably laypeople are a better reference group than physicians to determine how effectively physicians communicate with the laypeople who constitute the majority of the patient population.

어떤 경우에는 전문성이 도움이 될 수 있으며, 후보자 간에 일관된 초점이 유지되도록 면접을 신중하게 구조화함으로써 얻을 수 있는 유용성이 있는 것으로 보이지만(Axelson, Kreiter, Ferguson, Solow, & Huebner, 2010), 최근 발표된 실험 비교에 따르면 MMI 프로세스를 수행함으로써 얻을 수 있는 이점의 대부분은 여러 맥락에서 여러 평가자의 인상을 샘플링함으로써 생성되는 것으로 나타났습니다(Eva & Macala, 2014). 수로비에츠키(2004)의 저서 '군중의 지혜'에서 널리 알려진 이 원칙은 다음이 증가함에 따라 주관성의 가치가 증가한다는 것으로 요약할 수 있습니다. 

  • (a) 수집된 관찰의 수,
  • (b) 관찰의 독립성,
  • (c) 평가가 생성되는 관점의 다양성,
  • (d) 평가가 이루어지는 근거의 탈중앙화(즉, 평가자가 특정 알고리즘을 적용하여 판단하도록 장려하는 것이 아니라 자신의 경험과 전문성을 바탕으로 자신의 인상을 형성하도록 맡김)

Expertise might be beneficial in some instances, and there appears to be some utility derived from carefully structuring interviews such that a consistent focus is maintained across candidates (Axelson, Kreiter, Ferguson, Solow, & Huebner, 2010), but recently published experimental comparisons have indicated that the bulk of the benefit gained from undertaking the MMI process is generated by sampling the impressions of multiple assessors in multiple contexts (Eva & Macala, 2014). The principle, popularized in Surowiecki's (2004) book, The Wisdom of Crowds, is summarized by that author as the value of subjectivity increasing with

  • (a) the number of observations collected,
  • (b) the independence of those observations,
  • (c) the diversity of perspectives from which the assessments are generated, and
  • (d) decentralization of the basis from which the assessment is made (i.e., leaving the assessors to form their own impressions based on their experience and expertise rather than encouraging them to apply a particular algorithm to form their judgment).


의학의 많은 평가 상황에서 다양한 사람들을 많이 접할 수 없는 현실을 고려할 때, 크라우드 소싱의 이점이 다양한 사람들이 자신의 인상을 제공하는 것에 전적으로 의존하지 않는다는 증거가 있다는 사실을 아는 것은 매우 중요합니다. 오히려 개인이 여러 차례 독립적으로 관찰하는 동안 성능 평가를 제공함으로써 '군중의 지혜'가 생성될 수 있습니다. 벌과 파슬러(2008)는 개인의 판단이 그들이 인식하는 확률 분포의 표본을 나타낼 수 있으며, 이를 통해 한 개인의 여러 표본이 다양한 사람들의 관점에서 표본을 추출하는 것과 동일한 많은 이점을 복제할 수 있다고 제안합니다. 연구진은 일반 지식 질문을 사용하여 추측 사이에 지연이 개입되었는지 여부에 관계없이 여러 추측의 평균이 개별 추정치보다 더 정확하다는 사실을 발견했습니다. 마찬가지로 튜토리얼 기반 평가 관행과 관련된 신뢰도 지표에 좌절감을 느낀 저희는 앞서 언급한 노력과는 정반대로, 맥락과 관련된 성능의 측면을 의도적으로 많이 나열하여 "평가 척도를 개선"하려는 노력을 기울였습니다(Eva et al., 2007). 문헌의 여러 보고서에서는 튜토리얼 기반 평가자에게 더 많은 질문을 함으로써 평가 척도의 내적 일관성을 개선할 수 있다고 제안했습니다(Hebert and Bravo, 1996, Ladouceur et al., 2004). 안타깝게도 시험-재시험 신뢰도는 개선되지 않았으며, 이는 이러한 노력이 기껏해야 한 시점에만 학생의 성과에 대한 유효한 인상을 생성하는 반면 응답 부담은 더 커졌음을 시사합니다. 한 학기에 한두 번만 양식을 작성하면 평가자가 학기 말의 평가가 학생의 평균 성적을 반드시 대표하지 않는 최근 또는 특히 두드러진 관찰에 의해 주로 좌우될 가능성이 높다는 점에서 가용성 편향(Tversky & Kahneman, 1973)에 매우 취약해집니다. 기억력의 한계를 극복하기 위해 설문지를 길게 작성하는 대신 3개 문항으로만 단축하고(그룹 과정에 대한 기여도, 그룹 내용에 대한 기여도, 전문적 행동),  7개 과목의 튜터에게 각 튜터링이 끝난 후 학생을 위해 양식을 작성하도록 요청했습니다(Eva et al., 2007). 튜터의 직관과 달리 튜토리얼마다 부여된 평가는 매우 다양했으며, 이는 성과(또는 적어도 평가자의 성과에 대한 인상)가 우리가 일반적으로 인식하는 것처럼 관찰할 때마다 일관적이지 않다는 것을 나타냅니다. 그러나 각 튜토리얼에 부여된 등급을 집계한 결과, 테스트-재테스트 신뢰도가 완벽에 가까워짐에 따라 관찰된 성능을 정의하는 데 사용되는 점수가 안정화되었습니다. 즉, 메모리는 제한되어 있지만 평가자의 성과 평가를 보다 체계적으로 수집하려는 의도가 있다면 메모리에 의존할 필요가 없습니다. 한 시점에(즉, 지체 없이) 여러 개의 추정치를 취하면 오류가 줄어든다는 벌과 파슬러의 발견은 평가자에게 관찰된 각 수행 후에 특정 능력에 대한 여러 개의 추정치를 제공하도록 요청하는 또 다른 방법을 시사합니다. 

Given the practical reality that many assessment contexts in medicine do not allow access to a large number of varied people, it becomes valuable to know that evidence suggests that the benefits of crowd sourcing are not fully dependent on many different people providing their impressions. Rather, there may be a “wisdom of the crowd within” that can be generated by having individuals offer performance ratings during multiple independent occasions of observation. Vul and Pashler (2008) suggest that an individual's judgments may represent a sample of the probability distribution they perceive, which would enable multiple samples from within an individual to replicate many of the same benefits as sampling across the perspectives of various people. They found, using general knowledge questions, that the average of multiple guesses was more accurate than individual estimates whether or not a delay intervened between guesses. Similarly, frustrated by reliability metrics associated with tutorial-based assessment practices, we took a tack opposite to the efforts alluded to earlier that strive to “improve the rating scales” by deliberately listing as many aspects of performance as are relevant to the context (Eva et al., 2007). Multiple reports in the literature suggested that one could improve the internal consistency of rating scales by asking tutorial-based assessors a larger number of questions (Hebert and Bravo, 1996, Ladouceur et al., 2004). Unfortunately, test–retest reliability did not improve, suggesting that at best the effort generated a valid impression of student performance at only one point in time while resulting in greater response burden. Filling out the form only once or twice a term leaves raters highly susceptible to availability bias (Tversky & Kahneman, 1973) in that their ratings at the end of a term are likely to be predominantly driven by recent or particularly salient observations, neither of which are necessarily representative of the student's average performance. To try to overcome the limitations of memory, rather than lengthening the questionnaire, we shortened it to only 3 questions (contribution to group process, contribution to group content, and professional behaviour) and asked tutors in seven distinct courses to complete the form for their students after each tutorial (Eva et al., 2007). Contrary to tutors’ intuitions, the ratings assigned from one tutorial to the next were highly variable, indicating that performance (or at least assessors’ impressions of performance) was not as consistent from one observation to the next as we commonly perceive. However, aggregating across the ratings assigned to each tutorial resulted in stabilization of the scores used to define the performance observed as the test–retest reliability approached perfection. In other words, while memory is limited, we need not rely on it if we are deliberate about gathering raters’ assessments of performance more systematically. Vul and Pashler's finding that multiple estimates taken at a single time point (i.e., without delay) resulted in error reduction implies another way forward by asking raters to offer multiple estimates of a particular ability after each observed performance.

요약 및 지속적인 요구 사항
Summary and Ongoing Needs

복잡한 성과를 평가하기 위한 평가자 기반 평가 관행을 개발하려는 노력에서 나온 많은 문헌의 주제를 가장 일반적으로 표현하면, 평가자는 인간이라는 사실에 의해 방해를 받는다는 것입니다. 인간의 인지 능력은 여러 가지 면에서 제한적입니다.

  • 유한한 주의력,
  • 불완전한 정보로 자동적이고 빠르게 인상을 형성하는 경향,
  • 모든 관찰을 기억에 완벽하게 기록하지 못하는 점 등 

이러한 요인들은 단순히 다르게 생각하라고 말하는 것만으로는 바꿀 수 없는 방식으로 성과 평가에 영향을 미칩니다. 다행히도 효과적인 수행을 정의하는 광범위한 역량을 평가하려면 판단력이 필요하다는 점을 고려할 때, 평가자의 인지를 탐구하려는 최근의 노력(예: Gauthier 외, 2016, Gingerich 외, 2014)은 우리의 한계로 인해 발생하는 문제를 더 잘 인식한다면 우리의 단점을 수용하는 방식으로 평가 프로토콜을 설계하고 그 단점에 맞서 싸우지 않고 자연스러운 사고 방식을 활용할 수 있음을 시사합니다. 이 백서에 소개된 다양한 사례를 통해 주관적인 인상 형성을 통해 수집된 데이터의 유용성을 향상시킬 수 있는 방법을 설명했습니다. 이를 무술의 아이키 원리에 비유하자면, 상대방에게 직접적으로 대항하여 상당한 힘이나 노력을 기울이기보다는 상대방의 기세를 이용하여 상대방의 힘을 무력화하거나 방향을 전환하는 것입니다. 다시 말해, 우리는 적을 보았고, 그 적은 바로 우리 자신입니다.
Expressed most generally, the theme of much of the literature that has emerged from efforts to develop rater-based assessment practices for the evaluation of complex performances is that raters are hindered by the fact they are human. Human cognition is limited in many ways,

  • from our finite attentional capacity,
  • through our tendency to form impressions automatically and rapidly with incomplete information,
  • to an inability to retain a complete record of all observations in memory.

These factors influence performance assessment in ways that cannot be changed by simply telling people to think differently. Fortunately, given that assessing the breadth of competencies that define effective practice requires judgment, more recent efforts to explore rater cognition (e.g., Gauthier et al., 2016, Gingerich et al., 2014) suggest that if we are more aware of the challenges our limitations create, we can design assessment protocols in ways that accommodate our shortcomings and take advantage of our natural ways of thinking rather than fighting against them. In the variety of examples outlined in this paper we have illustrated ways in which doing so has improved the utility of data collected through subjective impression formation. We liken this to the martial arts principle of Aiki, which amounts to negating or redirecting the power of one's opponent by taking advantage of his momentum rather than exerting considerable force or effort by trying to directly oppose it. In other words, we have seen the enemy and it is us.

이러한 문헌의 증가에 따라 Crossley와 Jolly(2012)는 의학교육 분야에서 "올바른 사람에 대해 올바른 방식으로 올바른 질문을 하는 것"을 목표로 평가자 기반 평가에 대해 생각해 보도록 설득력 있게 도전했습니다. 아이키를 그 방법에 대한 은유로 사용하게 된 연구를 고려할 때, 우리는 어디에 서 있으며 인지 심리학은 이러한 각 요구와 관련하여 무엇을 더 제공할 수 있을까요?
As a result of this growing literature, Crossley and Jolly (2012) eloquently challenged the field of medical education to think about rater-based assessment with the goal to “ask the right questions, in the right way, about the right things, of the right people.” Given the research that prompted the use of Aiki as a metaphor for how to do so, where do we stand and what more can cognitive psychology provide with respect to each of these demands?

올바른 질문하기 ...
Ask the Right Questions …

인지적 한계로 인해 더 많은 질문을 할 때 내적 일관성을 보장하는 후광 효과와 혼 효과가 발생하기 때문에 점점 더 많은 수의 질문을 더 자세히 묻는 것은 평가 관행이 개선되었다는 착각만 불러일으킵니다(Eva 외., 2007). 이는 의료 전문가가 유지해야 하는 다양한 역량에 대한 변별력 있는 지침을 제공하려는 시도를 저해하는 요인으로 작용합니다(Lurie et al., 2009). 반대로, 평가 프로토콜을 성과 평가자가 성과 품질을 정의할 때 강조하는 구성에 맞게 조정하면 현재 관찰과 평가자가 상대적 판단을 내리는 경험의 토대 사이에 더 나은 일치를 만들어 평가의 유용성을 개선하는 데 도움이 됩니다(Crossley et al., 2011). 
Asking increasing numbers of questions in increasing detail creates only the illusion of improved assessment practices because cognitive limitations lead to halo and horn effects that ensure greater internal consistency when larger numbers of questions are asked (Eva et al., 2007). That acts to the detriment of attempts to offer discriminating guidance regarding the diverse competencies health professionals are expected to maintain (Lurie et al., 2009). In contrast, tailoring assessment protocols to the constructs of performance raters themselves highlight as defining performance quality helps improve the utility of the ratings by creating better alignment between current observations and the foundation of experience against which raters make relative judgments (Crossley et al., 2011).

가장 엄격한 평가 프로토콜에서도 불가피하게 가변적 인상이 발생할 때 이를 어떻게 처리해야 하는지는 아직 이해되지 않았습니다. 다양한 연구에 따르면 평가의 특이성은 평가자가 자신의 경험을 통해 수행의 특이적인 측면에 초점을 맞추도록 유도하기 때문에 발생한다는 사실이 밝혀졌다고 해서(Kogan 외., 2010), 점수의 변동에 기여한 사람이나 모든 사람이 틀렸다고 단정할 수는 없습니다(Gingerich, Regehr, & Eva, 2011). 학습자(즉, 우리 모두)는 부정적인 피드백을 무시하는 경향이 있지만(Eva 외., 2012a, Harrison 외., 2013), 관찰자마다 다른 인상을 형성했다고 해서 평가 정보를 무시하는 것은 너무 안일한 대응입니다. 임상의의 일반적인 경향을 의미 있게 표현하기 위해 많은 노력이 필요하다는 사실은 모든 삶의 영역에서와 마찬가지로, 의학에서도 특정 성과에 대한 다양한 관점을 가진 사람들을 계속 만나게 될 것임을 나타냅니다. 따라서 우리는 평가자와 평가 대상자 모두가 이러한 다양성과 씨름하는 방식을 더 잘 이해하여 평가의 정보적 가치를 반사적으로 디스카운트하지 않고 최적화할 수 있는 방법이 있는지 판단할 필요가 있습니다. 결국, 마음에 들지 않는 평가를 받으면 일부 사람들이 그러한 인상을 형성하는 것에 만족할지, 아니면 다른 '이상치'가 동일한 인상을 형성할 위험을 최소화하기 위해 어떤 식으로든 행동을 바꿔야 할지 결정해야 할 책임이 우리에게 있습니다.
Not yet understood is what to do with variable impressions when they inevitably arise, even in the most rigorous of assessment protocols. The fact that various studies have shown idiosyncrasy of assessment arises because assessors are prompted, through their own experiences (Kogan et al., 2010), to focus upon idiosyncratic aspects of performance (Yeates et al., 2013), does not necessitate that anyone or everyone who contributed to the variability in scores was wrong (Gingerich, Regehr, & Eva, 2011). While learners (i.e., all of us) have a tendency to discount feedback that is negative (Eva et al., 2012a, Harrison et al., 2013), ignoring assessment information just because different observers formed different impressions is too glib a response. The fact that so much effort is required to generate a meaningful representation of a clinician's general tendencies indicates that we will continue in medicine, as in all walks of life, to encounter people with variable perspectives on the strengths of any given performance. As such, we need to better understand how raters and ratees alike grapple with such variability to determine if there are ways to optimize the informational value of assessments rather than reflexively discounting them. When we receive an assessment that is less than comfortable, after all, the onus lies upon us to determine if we are content for some people to form that impression or if we need to change our behaviour in some way to minimize the risk of other “outliers” forming the same impression.

올바른 방법으로...
… in the Right Way …

평가자에게 현실을 표현하기 위해 질문에 숫자를 할당하도록 요청하는 것은 모든 목적에 충분하지 않은 정확성에 대한 환상만 불러일으킵니다(Regehr et al., 2012). 이는 품질 보증 요구(게이트키핑 역할)를 충족하는 것 외에도 질적 개선(평가의 정보적 가치를 활용하여 전문성 개발을 지속하는 것)을 위해 평가 관행을 사용하려는 시도를 저해하는 요인으로 작용합니다. 이와는 대조적으로, 심리학 및 의학교육 분야에서 평가 관행이 학습의 측정으로만 작용하기보다는 학습을 가능하게 할 수 있다는 연구가 급증하고 있지만(Roediger and Butler, 2011, Schuwirth and van der Vleuten, 2011), 보건 전문가에게 기대되는 광범위한 역량을 고려할 때, 의사소통 기술에서 4.3점을 받았다는 말만으로는 개선 방법에 대한 충분한 지침을 제공하지 못합니다. 이 원고 전체에 걸쳐 설명된 평가 프로토콜의 목적은 암묵적으로 측정 속성을 개선할 수 있는 방식으로 데이터를 수집하는 데 중점을 두었습니다. 성과 개선이 최우선 과제인 순간에는 수집된 평가의 심리측정 특성을 높이는 것이 그 목적을 달성하는 수단이 아닐 수 있습니다.
Asking raters to assign numbers to questions as a representation of reality creates only the illusion of precision that will not be sufficient for all purposes (Regehr et al., 2012). That acts to the detriment of attempts to use assessment practices for the sake of quality improvement (taking advantage of assessment's informational value to continue one's professional development) in addition to fulfilling quality assurance needs (their gatekeeping role). In contrast, while there is a burgeoning industry of research in both psychology and medical education indicating that assessment practices can enable learning rather than acting purely as measurement of learning (Roediger and Butler, 2011, Schuwirth and van der Vleuten, 2011), for the breadth of competencies expected of health professionals, being told that one achieved a rating of 4.3 for communication skills does not provide sufficient guidance regarding how to improve. Throughout this manuscript the purpose of the assessment protocols described has implicitly been focused on gathering data in ways that might improve their measurement properties. In moments when performance improvement is one's priority, increases in the psychometric properties of the ratings collected may not be the means through which that end is achieved.

복잡한 행동과 역량을 평가로 적절히 추출할 수 있다고 믿기보다는 내러티브나 다른 형태의 평가를 고려함으로써 더 많은 것을 얻을 수 있는 정도는 아직 이해되지 않았습니다. 한 영역에서 숙련되지 않은 사람들은 자신이 숙련되지 않았다는 사실을 인식하지 못할 것이며, 더 큰 문제는 숙련되기 위해 무엇을 해야 하는지 판단할 수 있는 능력이 부족할 것이라고 믿을 만한 충분한 이유가 있습니다(Kruger & Dunning, 1999). 여기에 설명된 모든 동일한 문제(의견의 다양성 등)가 수치적 피드백에 영향을 미치는 것만큼이나 서술형 피드백에도 쉽게 영향을 미칠 수 있고, 서술형 피드백에는 더 많은 리소스가 필요하다는 추가적인 문제가 있음에도 불구하고, 서술형 평가 형식이 이러한 수행의 복잡성을 적절히 포착하고 보다 건설적인 지침을 제공할 수 있는지 여부를 결정하기 위한 노력이 진행 중입니다. 평가자가 특정 의견을 할당하도록 유도하는 요인과 그러한 의견의 해석에 영향을 미치는 요인은 정성적 평가 데이터와 정량적 평가 데이터가 서로 함께 제시될 때 상호 작용의 영향과 마찬가지로 더 자세히 살펴볼 필요가 있습니다(Eva, Regehr, & Gruppen, 2012). 
Not yet understood is the extent to which more might be gained by considering narrative or other forms of assessment rather than trusting that complex behaviours and competence can be adequately distilled into ratings. There is good reason to believe that those who are unskilled in a domain will be unaware that they are unskilled and, more problematically, will be poorly positioned to determine what to do to become skilled (Kruger & Dunning, 1999). Efforts are underway to determine whether or not narrative forms of assessment can adequately capture that complexity of performance and provide more constructive guidance despite the fact that all the same challenges outlined here (variability of opinion, etc.) will impact narrative feedback as readily as they impact numerical feedback and that narrative has the added challenge of being more resource intensive. What prompts raters to assign particular comments and what factors influence interpretation of such comments needs to be further explored, as does the influence of the interplay between qualitative and quantitative assessment data when presented in conjunction with one another (Eva, Regehr, & Gruppen, 2012).

... 올바른 것들에 대해 ...
… About the Right Things …

평가자에게 특정 수행의 맥락에서 고려해야 할 중요하고 관련성이 있는 모든 역량을 파악하도록 요청하는 것은 주의력이 유한하고 모든 것을 하려고 하면 제대로 된 것이 없기 때문에 평가 관행이 개선되었다는 환상만 불러일으킵니다(Tavares & Eva, 2013). 이는 현대 의료 전문가에게 기대되는 많은 역할을 신뢰성 있게 반영하는 교육 및 품질 보증 시스템을 활성화하려는 노력에 해를 끼칩니다(Frank et al., 2015). 반면, 평가자가 의도적이고 전향적으로 성과 차원의 하위 집합에 우선순위를 두도록 하면 관련 행동을 식별하는 속도가 빨라지고 평가자 간 신뢰도가 높아지며 수행자에 대한 차원별 피드백이 더 많이 생성됩니다(Tavares et al., 2016).
Asking raters to capture the entire breadth of competencies that might be relevant and important to consider in the context of any given performance creates only the illusion of improved assessment practices because attention is finite and trying to do everything results in nothing being done well (Tavares & Eva, 2013). That acts to the detriment of efforts to enable a system of education and quality assurance that credibly reflects the many roles expected to be played of modern day health professionals (Frank et al., 2015). In contrast, having raters deliberately and prospectively prioritize attending to a subset of performance dimensions increases the rate at which relevant behaviours are identified, raises inter-rater reliability, and generates more dimension-specific feedback for performers (Tavares et al., 2016).

이러한 관찰로 인해 발생하는 타당성 문제를 극복하는 가장 좋은 방법은 아직 이해되지 않았습니다. 특정 평가 순간에 평가자의 집중력을 의도적으로 좁힌다고 해서 수행의 모든 측면을 고려해야 할 책임이 사라지는 것은 아닙니다. 많은 의료 교육 환경에서 소수의 임상 프리셉터와만 상호 작용할 수 있기 때문에 평가자를 추가하거나 관찰되는 환자 수를 늘리는 것이 항상 가능한 것은 아닙니다. 또한, 시간적 여유가 있는 프리셉터도 작업장 기반 평가를 의미 있게 만드는 데 필요한 직접 관찰 및 피드백 세션을 수행하는 데 우선순위를 정하기 어려운 경우가 많습니다. 여러 평가자를 참여시키기 위해 비디오 기반 성과 검토가 필요한지, 새로운 방식으로 평가 프로토콜을 운영하면 '군중 내 평가자의 지혜'를 활용할 수 있는지, 아니면 이러한 상황에서 평가자가 함께 일하는 수련의에 대한 첫인상을 극복할 수 없게 만드는 동화 효과가 이러한 노력을 방해하는지 여부는 아직 결정되지 않았습니다. 즉, 좁혀진 판단의 초점이 긍정적인 효과를 발휘할 수 있는 한계와 조건에 대해 더 잘 이해할 필요가 있습니다. 

Not yet understood is the best way to overcome the feasibility problems that these observations create. Deliberately narrowing assessors’ focus during particular assessment moments does not remove the onus of considering all dimensions of performance. Adding raters or increasing the number of patient encounters observed are not always options because many medical training environments allow interactions with only a few clinical preceptors. Further, those who are available often find it difficult to prioritize time to conduct the direct observations and feedback sessions required to make workplace-based assessment meaningful. Whether video-based review of performance is necessary to get multiple raters involved, whether operationalizing assessment protocols in novel ways allows one to take advantage of the “within rater wisdom of crowds,” or whether assimilation effects plague such efforts by making it impossible for raters in this context to overcome their initial impressions of trainees with whom they work remains to be determined. In other words, we need to better understand the limitations and conditions that allow narrowed focus of judgment to have positive effect.

... 적합한 인재의 평가
… of the Right People

특정 영역에 대한 전문성 수준에 관계없이 개인에게 훈련생의 수행 능력에 대한 의견을 제시하도록 요청하는 것은 해당 훈련생의 근본적인 성격이나 능력에 대해 알고 있다는 착각만 불러일으킵니다(Harasym 외., 1996). 이는 행동과 행동에 대한 인식이 현재 관찰과 이전 경험 간의 유사성을 비롯한 다양한 맥락적 요인에 의해 영향을 받는다는 점을 인식하는 데 방해가 됩니다(Norman & Brooks, 1997). 반대로 평가 프로토콜은 가능한 한 다양한 평가자 그룹에서 독립적으로 생성된 많은 인상을 우선적으로 취합하도록 설계되어야 합니다(Surowiecki, 2004). 

Asking an individual, any individual, regardless of her level of expertise in a domain, to offer an opinion on the proficiency of a trainee's performance creates only the illusion that one has an indication of the fundamental character or ability of that trainee (Harasym et al., 1996). That acts to the detriment of appreciating that both behaviour and perceptions of behaviour are influenced by various contextual factors including the similarity between current observations and previous experience (Norman & Brooks, 1997). In contrast, assessment protocols should be designed wherever possible to prioritize the aggregation of many independently generated impressions from diverse rater groups (Surowiecki, 2004).

일반적인 평가자 교육 워크숍에서 일반적으로 제시되는 추상적인 내용을 중심으로 교육하는 대신 사례의 강점과 약점을 비교하고 대조하는 노력을 기울인 사례 분포를 제시하는 것을 중심으로 평가자 교육을 의도적으로 구성하여 평가자 간의 공통된 이해를 촉진하는 교육 관행을 확립할 수 있는지 여부는 아직 이해되지 않았습니다. 고도로 기능하고 성공적인 평가 프로그램은 단순히 평가자의 인식에만 의존하는 것이 아니라 다양한 제도적, 문화적, 사회 문화적 영향에 따라 달라진다는 것은 말할 필요도 없습니다. 즉, 평가자의 인상이 모든 의료 시스템에서 중요한 역할을 하는 이유는 개인이 실습에 필요한 기술을 습득했는지 여부뿐만 아니라 기술을 향상시키는 데 필요한 바람직한 어려움을 경험할 수 있는 기회가 부여되는지 여부를 결정하기 때문입니다. 따라서 평가자의 인지에 대한 향상된 이해를 바탕으로 판단을 수집하는 노력을 더 잘 구현하면 복잡한 성과 평가의 세계에서 직면한 다른 과제를 극복하는 데 도움이 될 수 있는지 판단할 필요가 있습니다. 

Not yet understood is whether or not training practices can be established that would facilitate a greater degree of common understanding between assessors by deliberately structuring rater training around presentation of a distribution of cases with efforts to compare and contrast their strengths and weaknesses rather than training around the abstractions that are commonly presented during typical rater training workshops. It goes without saying that a highly functioning and successful assessment program is not simply reliant on the cognition of our raters, but rather it is dependent on various systemic, cultural, and socio-cultural influences. That said, raters’ impressions play a crucial role in any healthcare system because they determine not only whether or not individuals have amassed the skills necessary to practice, but also whether or not those same individuals are granted the opportunities to experience the desirable difficulties necessary to further their skill. As a result, it behooves us to determine if better implementation of efforts to collect judgments based on improved understanding of rater cognition might help facilitate the surmounting of other challenges faced by the world of complex performance assessment.


The assessment of healthcare professionals is a critical determinant of patient safety and healthcare quality, playing both a gatekeeping function and a path toward performance improvement. Given the complexity of physician–patient interactions and the inadequacy of self-assessment for judging one's own strengths and weaknesses, medicine exemplifies a domain in which adequate assessment is dependent on the perceptions and perspectives of observers. Such perspectives are susceptible to influences that range well beyond the performance itself, offering an opportunity to consider how cognitive psychology can guide improved practices and how examination of psychological processes in real-world environments can inform thinking about cognition. In this target article I will provide an overview of the challenges facing health professional educators, the insights that have been gained from the application of cognitive psychology toward deriving solutions, and some reflections on the current state of the science and ongoing needs. These efforts lead to the conclusion that performance assessment protocols stand a better chance of success when they are designed to accommodate limitations of attentional capacity, working memory, and the idiosyncratic influence of prior experience rather than striving to change these fundamental aspects of human cognition through rater training or response form alterations.

교사, 문지기, 혹은 팀원: 평가 프로그램에서 슈퍼바이저의 포지셔닝(Adv Health Sci Educ Theory Pract. 2023)
Teacher, Gatekeeper, or Team Member: supervisor positioning in programmatic assessment
Janica Jamieson1,2 · Simone Gibson1 · Margaret Hay1 · Claire Palermo1

 

소개
Introduction

프로그램식 평가는 이제 의학교육 내에서 역량 기반 평가에 대한 일반적인 접근법으로 확고히 자리 잡았으며(Pearce & Tavares, 2021), 다른 학문 분야에서도 주목받고 있습니다(Bok et al., 2018; Palermo et al., 2017). 프로그램적 평가는 학생의 학습(학습을 위한 평가)을 극대화하는 동시에 학습자에 대한 정보를 제공하여 신뢰할 수 있는 평가 결정을 내릴 수 있도록 노력합니다(Torre et al., 2021).

  • 이는 여러 이해관계자(학생, 감독자, 치료 수혜자, 교육자)로부터 시간이 지남에 따라 수집한 교육학적으로 정보에 입각한 저부담의 평가 순간을 사용하여, 학생에게 맞춤형의 의미 있는 피드백을 제공하고, 학습을 촉진하는 대화를 촉진함으로써 달성할 수 있습니다.
  • 이러한 저부담의 데이터 요소는 학습자에 대한 전체적인 그림을 제공하고, 고부담의 평가 결정에 정보를 제공하기 위해 의도적으로 집계됩니다.
  • 고부담 평가 결정은 전문가 집단의 합의 형성을 통해 이루어지며, 이는 신뢰성과 투명성을 향상시킵니다(Heeneman 외., 2021).

이러한 원칙은 고유한 상황적 요인에 대응하는 맞춤형 평가 시스템을 구축할 수 있는 토대를 제공합니다(Torre et al., 2022). 
Programmatic assessment is now firmly established as the prevailing approach to competency-based assessment within medical education (Pearce & Tavares, 2021) and is gaining traction in other disciplines (Bok et al., 2018; Palermo et al., 2017). Programmatic assessment strives to maximise student learning (assessment for learning) whilst simultaneously providing information about the learner to enable credible assessment decisions (Torre et al., 2021).

  • This is achieved using pedologically informed low-stakes assessment moments, collected over time from multiple stakeholders (student, supervisor, care recipient, educator), that provide tailored and meaningful feedback to the student and promotes a dialogue that drives learning.
  • These low-stakes data points are purposefully aggregated to give a holistic picture of the learner and inform high-stakes assessment decisions.
  • High-stakes assessment decisions are achieved through consensus building by a collection of experts which improves the credibility and transparency (Heeneman et al., 2021).

These principles provide the foundation on which to create a bespoke assessment system that is responsive to unique contextual factors (Torre et al., 2022).

프로그램식 평가는 역량 기반 평가를 운영할 때 직면하는 문제를 해결할 수 있는 잠재력을 가지고 있기 때문에 보건 전문가 교육 커뮤니티의 반향을 불러일으켰습니다. 최근 연구에 따르면 프로그래밍 방식 평가는 학생의 학습을 촉진하는 동시에 신뢰할 수 있는 고부담 평가 결정이라는 두 가지 목적을 달성할 수 있다고 합니다. 이는 특히 커뮤니케이션 및 전문성 영역에서 저조한 성과를 조기에 발견하고 교정할 수 있도록 지원하며, 학생의 학습 이해도에 대한 통찰력을 제공합니다(Schut 외., 2021). 감독자에게 부담을 주고, 시스템을 사소하게 만들고, 학생의 피드백 추구 행동을 무력화시키는 과도한 평가 경향이 있는 프로그램 평가에는 어려움이 있습니다. 평가 데이터의 양이 질보다 우선해서는 안 되며, 이는 신뢰할 수 있는 높은 수준의 평가 결정을 내리는 데 가장 중요한 요소입니다(Schut et al., 2021). 이러한 문제는 신중한 계획과 비판적 평가를 통해 극복할 수 있습니다. 
Programmatic assessment has resonated with the health professional education community as it has the potential to remedy challenges encountered with operationalising competency-based assessment. Emerging research indicates that programmatic assessment can achieve the dual purpose of credible high-stakes assessment decisions while also promoting student learning. It supports early detection and remediation of underperformance, notably in the areas of communication and professionalism, and gives insight into student comprehension of their own learning (Schut et al., 2021). There are challenges for programmatic assessment, with a tendency for over-assessment that burdens supervisors, threatens to trivialise the system, and negates feedback-seeking behaviours in students. The quantity of assessment data should not supersede quality, as this is paramount to credible high-stakes assessment decisions (Schut et al., 2021). These challenges are surmountable with careful planning and critical evaluation.

프로그램 평가의 시급한 문제는 실행 과정에서 이해관계자, 특히 감독자가 직면하는 변화에 대한 저항입니다(Schut et al., 2021; Torre et al., 2021). 이러한 저항은 복잡하고 종종 음성화되지 않은 이유로 패러다임 전환에서 흔히 발생하지만(Watling et al., 2020), 성공적인 교육 변화를 달성하기 위해서는 다양한 이해관계자를 통합해야 할 필요가 있습니다(Torre et al., 2021; van der Vleuten et al., 2015). 프로그램적 평가는 관련된 사람들의 동의와 믿음이 중요하며 성공은 모든 이해관계자의 검증에 달려 있다는 원칙에 기초합니다(Pearce & Tavares, 2021; van der Vleuten 외., 2012). 프로그램 평가에 대한 감독자의 인식된 입장과 반응을 이해하는 것은 실행을 지원하기 위해 필요합니다. 프로그램적 평가의 실행을 가능하게 하거나 저해하는 요인(Schut 외, 2021; Torre 외, 2021, 2022)과 시스템 내에서 활동하는 이해관계자가 평가 정보의 채택 및 사용에 어떤 영향을 미치는지 조명할 필요가 있습니다(Telio 외, 2016; Watling & Ginsburg, 2019). 

The exigent issue for programmatic assessment is resistance to change encountered from stakeholders, particularly supervisors, during implementation (Schut et al., 2021; Torre et al., 2021). Such resistance is commonplace in paradigm shifts for complex and often unvoiced reasons (Watling et al., 2020) and yet there is a need to unify the varied stakeholders to achieve successful educational change (Torre et al., 2021; van der Vleuten et al., 2015). Programmatic assessment was founded on the principle that buy-in, and belief by the people involved is crucial and that success is contingent on validation by all stakeholders (Pearce & Tavares, 2021; van der Vleuten et al., 2012). Understanding supervisors’ perceived positions and reactions to programmatic assessment is necessary to support implementation. There is a need to illuminate factors that enable or inhibit implementation of programmatic assessment (Schut et al., 2021; Torre et al., 2021, 2022) and how stakeholders operating within the system influence the adoption and use of assessment information (Telio et al., 2016; Watling & Ginsburg, 2019).

직장에서 이루어지는 평가는 평가 프로세스를 수행하고 철학을 구현하는 데 중요한 역할을 하는 직장 감독자로서 실무자의 참여에 의존합니다. 교사는 교육 전반에 걸쳐 학습자에게 강력한 영향을 미치며(Hattie, 2009; Stenfors-Hayes 외., 2010), 교사의 특성과 기술은 학생의 학습에 중요한 결정 요인입니다(Cantillon 외., 2019; Rees 외., 2020b). 안전한 학습 환경을 조성하기 위해 지지적인 학생-감독자 관계를 발전시킬 필요가 있기 때문에 학습을 위한 평가 맥락에서 감독자의 역할은 더욱 높아집니다(Konopasek 외., 2016). 보건 전문가 교육에서 이러한 관계는 단기간에 형성되며 업무 외적인 요구로 인해 복잡해집니다. 이전 연구에서는 프로그램 평가와 상호 작용하여 성공에 영향을 미치는 무언의, 그러나 영향력 있는 문화적 및 관계 역학이 밝혀졌습니다(Jamieson 외., 2021). 따라서 저희는 슈퍼바이저가 프로그래밍 방식의 평가를 어떻게 경험하는지 이해하고 실행에 미치는 잠재적 영향을 규명하고자 했습니다.  
Assessment that occurs in the workplace relies on the participation of practitioners, as workplace supervisors, who have a crucial role in undertaking assessment processes and embodying the philosophies. Teachers have a powerful influence on the learner that holds true across the educational spectrum (Hattie, 2009; Stenfors-Hayes et al., 2010) and their attributes and skills are critical determinants to student learning (Cantillon et al., 2019; Rees et al., 2020b). The role of a supervisor is further elevated within the assessment for learning context as there is a need to develop a supportive student-supervisor relationship to cultivate a safe learning environment (Konopasek et al., 2016). In health professional education, these relationships are forged over short durations and are complicated by extraneous workplace demands. Our previous research revealed unspoken, yet influential, cultural and relationship dynamics that interacted with programmatic assessment to influence success (Jamieson et al., 2021). We therefore sought to understand how supervisors experienced programmatic assessment and elucidate potential influences on implementation.

포지셔닝 이론
Positioning Theory

포지셔닝 이론은 사회심리학의 한 분야로, 사람과 집단이 사회적 상호작용에서 다른 사람과 비교하여 자신을 포지셔닝하기 위해 담화를 사용하는 방법을 탐구하고 설명하고자 합니다(Green et al., 2020). 사회 구성주의에 기반을 둔 이 접근법은 데이비스와 하레(1990)의 공동 연구에서 비롯되었으며, 언어 철학, 언어학 및 언어 행위 이론에 뿌리를 두고 있습니다(McVee et al., 2018). 포지션은 개인과 개인이 속한 환경 내에서 자신의 역할을 수행하는 방식에 따라 달라집니다. 사람들은 자신의 경험과 관련하여 내재적이지만 유동적인 포지션을 갖는 것으로 인식됩니다(McVee 외, 2018). 
Positioning Theory is a branch of social psychology which seeks to explore and explain how people and groups use discourse to situate themselves, relative to others, within social interactions (Green et al., 2020). The approach, grounded in social constructionism, arose from a collaboration between Davies and Harré (1990) and is rooted in the philosophy of language, and linguistics and speech act theory (McVee et al., 2018). Positions are responsive to the individual and how they enact their role within their environment. People are perceived as having inherent but fluid positions with reference to their own experience (McVee et al., 2018).

포지셔닝 이론은 포지션, 행동, 스토리라인이라는 삼각형으로 개념화된 상호 연관된 세 가지 기둥을 포함합니다.

  • 포지션개인에게 채택되거나 부여된 분쟁의 여지가 있는 권리와 의무의 집합입니다.
    • 의무는 권력을 가진 한 개인이나 집단이 내재적 취약성으로 인해 다른 개인이나 집단에 대해 져야 하는 의무입니다.
    • 권리는 다른 사람 또는 그룹이 보유한 권력에 대한 취약한 사람 또는 그룹의 자격입니다.
    • 포지셔닝(권리와 의무)타인에 의해 부여되거나 부과될 수 있고, 개인이 채택할 수도 있습니다(Harré & Moghaddam, 2003).
  • 행동개인이 자신의 지위와 관련하여 수행하는 관행과 내러티브입니다. 행동은 의미가 있으며 말, 움직임, 제스처로 나타날 수 있습니다. 행동은 사회적 에피소드와 개인에 따라 다르게 해석될 수 있습니다.
  • 스토리라인사회적 상호 작용을 뒷받침하고 지시하는 논리와 관습, 내러티브의 집합입니다(Davies & Harré, 1990; Harré, 2012). 한 개인이나 집단의 권리는 다른 사람의 의무를 선동할 수 있으며, 이는 스토리라인의 맥락에서 행동으로 표현됩니다.

이 세 가지 요소는 재귀적으로 상호 작용하여 사회적 상황 내에서 개인의 포지셔닝은 자신이 할 수 있고 기꺼이 할 수 있는 일과 특정 맥락 내에서 허용되는 일 사이의 역동적인 상호작용입니다(Bourgeois-Law 외., 2020). 

Positioning Theory encompasses three interrelated pillars, conceptualised as a triangle—positions, actions, and storylines. 

  • Positions are a group of disputable rights and duties either adopted or assigned to individuals.
    • A duty is an obligation owed by one person or group, who holds power, to another person or group due to their inherent vulnerability.
    • Rights are the entitlements of a vulnerable person or group with respect to the power held by another person or group.
    • Positioning (rights and duties) can be both granted or imposed to or by others and adopted by individuals (Harré & Moghaddam, 2003). 
  • Actions are the practices and narratives undertaken by individuals related to their position. They are meaningful and can manifest as speech, movement, and gestures. Actions can be interpreted differently dependent on the social episode and the individual. 
  • Storylines are logics and conventions, a collection of narratives, underpinning and dictating social interactions (Davies & Harré, 1990; Harré, 2012). The perceived rights of a person or group can incite the duties of another, which is expressed as actions within the context of a storyline.

The three pillars recursively interact so that one’s positioning within a social situation is a dynamic interplay between what they are capable and willing to do, and what they are permitted to do within the specific context (Bourgeois-Law et al., 2020).

포지셔닝 이론은 의료 전문직 교육에 적용되어 교육 이니셔티브(Møller & Malling, 2019), 동료 교정(Bourgeois-Law 외, 2020), 특정 의료 서비스 내에서의 실무자 포지셔닝(Andreassen & Christensen, 2018; Williams 외, 2015), 학생 정체성 형성(Monrouxe, 2010), 시뮬레이션 학습(Christensen 외, 2017; Sargeant 외, 2016), 피드백(Clarke & Molloy, 2005), 의료 교육자의 책임(Hu 외, 2019) 등을 탐구하는 데 활용되어 왔습니다. 우리가 아는 한 포지셔닝 이론은 아직 프로그램 평가에 적용되지 않았습니다. 포지셔닝 이론을 설명 도구로 사용하면 권력, 영향력, 제도적, 문화적, 사회적 규범, 가치, 내재적 및 부여된 지위에 대한 일상적인 사회적 에피소드를 조사할 수 있습니다. 이를 통해 사람들이 사회적 상황에 고유하게 반응하는 이유에 대한 통찰력을 얻을 수 있으며, 이를 통해 개입을 이해하고 갈등을 해결하여 긍정적인 변화에 영향을 미칠 수 있습니다(Green et al., 2020). 따라서 포지셔닝 이론은 직위와 책임, 개인의 가치와 문화적 관행의 영향에 대한 중요한 통찰력을 제공하므로 프로그램 평가를 탐구하는 데 매우 적합하고 참신한 렌즈입니다. 포지셔닝 이론을 바탕으로 최근 시행된 프로그램 평가에서 슈퍼바이저가 자신의 포지셔닝을 어떻게 경험하고 인식하는지 이해하고자 했습니다. 
Positioning Theory has been applied to health profession education to explore training initiatives (Møller & Malling, 2019), peer remediation (Bourgeois-Law et al., 2020), practitioner positioning within specific health services (Andreassen & Christensen, 2018; Williams et al., 2015), student identity formation (Monrouxe, 2010), simulation learning (Christensen et al., 2017; Sargeant et al., 2016), feedback (Clarke & Molloy, 2005), and medical educator responsibilities (Hu et al., 2019). To our knowledge, Positioning Theory has not yet been applied to programmatic assessment. When used as an explanatory tool, Positioning Theory allows examination of everyday social episodes for power, influence, institutional, cultural, and social norms, values, and inherent and granted status. This provides insight into why people uniquely respond to social situations which can then be used to understand interventions and address conflict, which in turn can be used to affect positive change (Green et al., 2020). As such, Positioning Theory is a well suited, and novel, lens to explore programmatic assessment as it provides critical insight into the positions and responsibility, and the influence of personal values and cultural practices. Informed by Positioning Theory, we sought to understand how supervisors experienced and perceived their positioning within recently implemented programmatic assessment.

연구 방법
Methods

연구 맥락
Research context

이 질적 연구는 이론에 기반한 귀납적 데이터 분석을 사용하여 연구 질문을 탐구하고자 했습니다. 이 접근 방식에서는 연구자가 데이터 수집 초기 단계 또는 수집 후에 이론을 적용하여 해석을 구체화합니다. 연구자는 현상에 대한 예비적 이해를 한 다음, 이론을 적용하여 데이터 탐색을 심화합니다(Varpio et al., 2020). 본 연구의 저자들은 감독자들 사이에서 저항을 드러낸 프로그램적 평가의 실행에 대한 이전 평가에 참여했습니다(Jamieson et al., 2021). 프로그램 평가 시행의 어려움에 관한 연구가 부족하다는 점을 고려할 때, 우리는 이 주제를 이론적 렌즈를 적용하여 데이터를 해명함으로써 더 비판적으로 탐구할 필요가 있다고 생각했습니다. 두 명의 저자(CP 및 SG)가 감독자를 포함한 프로그램 평가에 대한 별도의 평가에 참여했습니다(Dart et al., 2021). 이는 맥락과 참여자가 비슷한 두 데이터 세트를 결합하고 이론에 기반한 귀납적 접근 방식을 적용하여 더 큰 표본 크기를 사용하여 데이터를 비판적이고 엄격하게 탐색할 수 있는 특별한 기회를 제공했습니다.  

This qualitative study sought to explore the research question using theory-informing inductive data analysis. In this approach, researchers apply a theory in the early stages of, or after, data collection to shape interpretation. Researchers have a preliminary understanding of the phenomenon and then apply a theory to deepen the exploration of the data (Varpio et al., 2020). The authors of the present study were involved in a previous evaluation of the implementation of programmatic assessment which revealed resistance among supervisors (Jamieson et al., 2021). Given the paucity of research regarding the challenges of implementing programmatic assessment, we believed this theme warranted further critical exploration by applying a theoretical lens to elucidate the data. Two authors (CP and SG) were involved in a separate evaluation of a programmatic assessment which also included supervisors (Dart et al., 2021). This provided a unique opportunity to combine the two datasets, which had similar context and participants, and apply a theory-informing inductive approach to explore the data critically and rigorously using a larger sample size.

이 연구는 구성주의적 인식론에 기반을 두고 있습니다. 구성주의지식이 맥락의 영향을 받는 사회적 상호작용을 통해 가변적으로 형성되며, 이는 다양한 구성과 행동을 유발한다고 가정합니다(Rees et al., 2020a). 이러한 인식론에 따라 이 연구는 연구팀의 이전 연구에서 밝혀진 바와 같이 프로그래밍 방식의 평가 도입에 따른 입장의 변화를 더 깊이 이해하고자 하는 호기심에서 시작되었습니다. 참가자는 직장 슈퍼바이저로서의 역할에서 프로그램 평가에 대한 친밀한 경험을 바탕으로 선정되었습니다. 선택한 정성적 데이터 방법인 포커스 그룹과 인터뷰를 통해 대화, 경험, 감정, 책임에 대한 설명을 들을 수 있었습니다. 이론을 바탕으로 한 귀납적 데이터 분석 접근 방식에 따라 포지셔닝 이론을 데이터 분석에 적용하여 연구 질문에 따른 이해 패턴을 구성했습니다. 
This research is situated within a constructionist epistemology. Constructionism posits that knowledge is variably formed through social interactions, influenced by context, that give rise to different constructs and behaviours (Rees et al., 2020a). Aligning with this epistemology, this research began with a curiosity to further understand the changes in positions that occurred with the introduction of programmatic assessment, as revealed in earlier research by the team. Participants were selected based on their intimate experience of programmatic assessment in their role as workplace supervisors. The selected qualitative data methods, focus groups and interviews, allowed for conversations, recounts of experiences, emotions, and responsibilities to be elucidated. Positioning Theory was applied to data analysis, consistent with a theory-informing inductive data analysis approach, to construct a pattern of understanding in accordance with the research question.

설정
Setting

A 대학(에디스 코완 대학)과 B 대학(모나쉬 대학)은 호주에 있는 교육기관으로, 2년제 영양학 석사 과정에 100일간의 의무 배치 프로그램을 포함하여 학생들이 직장 감독자의 감독 하에 실제 학습 과제에 참여하도록 하고 있습니다. 두 과정 모두 주요 이해관계자가 참여하여 각자의 프로그램 평가 접근 방식을 점진적으로 설계하고 이후 실행에 옮겼습니다.
University A (Edith Cowan University) and University B (Monash University) are Australian institutions that have an accredited 2-year master dietetic course that included a mandatory 100-day placement program where students participated in authentic learning tasks under the supervision of workplace supervisors. Both courses engaged key stakeholders to progressively design their respective programmatic assessment approaches with subsequent implementation.

A 대학의 영양학 과정은 10년 전에 개설되어 매년 15~20명의 학생이 졸업하고 있습니다. 이 과정의 20주 배치 구성 요소에 대한 프로그램적 평가는 감독자와 교직원이 참여하는 참여형 행동 연구 접근법을 사용하여 개발되었습니다(Jamieson et al., 2021). 배치 기간 동안 학생들은 슈퍼바이저 평가, 사례 노트 및 보고서와 같은 학습 과제 결과물, 자기 성찰, 동료 피드백 및 고객 관점을 포함한 성과 증거를 수집해야 했습니다. 이러한 항목은 저부담 평가로 간주되어 학생이 대학 직원의 지원을 받아 포트폴리오로 작성했습니다. 이 포트폴리오는 대학 교직원 패널에 의해 결정되는 고부담 평가의 기초가 되었습니다. 프로그램 평가는 2016년에 시행되었으며 설명한 대로 실제로 계속 시행되고 있습니다. 
The dietetic course at University A was established 10 years ago and has 15–20 students graduate each year. Programmatic assessment was developed for the 20-week placement component of the course using a participatory action research approach which engaged supervisors and academic staff (Jamieson et al., 2021). During the placement, students were required to collect performance evidence which included supervisor appraisals, learning task artefacts such as case notes and reports, self-reflections, peer feedback, and client perspectives. These items were considered low-stakes assessments and were compiled by the student, with support from university staff, into a portfolio. The portfolio formed the basis for the high-stakes assessment which was determined by a panel of university staff. The programmatic assessment was implemented in 2016 and continues in practice as described.

B 대학은 데이터 수집 시점에 매년 55~65명의 영양학 전공 학생을 졸업시켰으며, 20년 동안 영양학 전공을 개설해 왔습니다. 프로그램 평가는 학습자, 대학 교수진 및 감독자가 참여하는 반복적이고 협의적인 접근 방식을 사용하여 22주 배치 과정을 포함한 2년 석사 과정 전체에 대해 개발되었습니다. 프로그램 평가는 2018년에 도입되었습니다(Dart et al., 2021). 프로그래밍 방식 평가는 40개의 개별 평가 과제로 구성되었으며, 개별적으로는 모두 총괄적 저부담을 차지하지만 다양한 순서로 결합하면 대학에서 학생의 진도를 판단하는 데 사용되었습니다. 두 과정 모두 시행 후 2년 이내에 각각의 프로그램 평가를 평가했습니다. 연구 및 B 대학 데이터를 사용한 2차 분석에 대한 승인은 두 기관 모두에서 획득했습니다(모나쉬 대학교 인간연구윤리위원회 승인 번호. 19967 및 에디스 코완 대학교 인간연구윤리위원회 승인 번호. 12549).
University B graduated 55–65 dietetic students each year at the time of data collection and has offered studies in dietetics for 20 years. The programmatic assessment was developed for the entirety of the 2-year masters, including the 22-week placement, using an iterative and consultative approach involving learners, university faculty, and supervisors. The programmatic assessment was introduced in 2018 (Dart et al., 2021). The programmatic assessment was comprised of 40 individual assessment tasks, all summative, low-stakes individually but when combined in various sequences were used by the university to judge student progression. Both courses evaluated their respective programmatic assessments within 2 years of implementation. Approval for the research, and the secondary analysis using University B data, was obtained at both institutions (Monash University Human Research Ethics Committee approval no. 19967 and Edith Cowan University Human Research Ethics Committee approval no. 12549).

데이터 수집
Data collection

A 대학의 참가자는 2016년 또는 2017년에 처음으로 프로그램 평가에 참여한 감독자였습니다. 참가자는 자격을 갖춘 개인에게 참여를 권유하는 이메일을 보내는 자기 선택 샘플링을 통해 모집되었습니다(n = 169). 포커스 그룹이 시작될 때 서면 동의와 인구통계학적 데이터를 확보했습니다. 반구조화된 포커스 그룹은 2016년과 2017년에 참가자의 직장에서 한 차례의 원격 회의와 수도권 외 지역에 거주하는 사람들을 위한 화상 회의 세션을 통해 진행되었습니다. 포커스 그룹 질문은 문헌(van der Vleuten 외., 2012), 워킹 그룹 우선순위(Jamieson 외., 2021), 동일한 감독자 코호트에서 작성한 설문지에서 도출되었습니다. 포커스 그룹은 30분에서 90분 정도 소요되었으며 제1저자가 진행했습니다. 모든 세션은 오디오로 녹음되었고 연구자는 메모를 작성했으며(Barbour & Flick, 2018), 이후 데이터는 그대로 전사되고 비식별화되었습니다. 
Participants from University A were supervisors who had engaged with the programmatic assessment for the first time in either 2016 or 2017. Participants were recruited using self-selection sampling whereby an email was sent inviting eligible individuals to participate (n = 169). Written consent and demographic data were obtained at the commencement of the focus group. Semi-structured focus groups were held in 2016 and 2017 at the participants place of employment with one teleconference and one videoconference session for those living outside the metropolitan area. Focus groups questions were derived from the literature (van der Vleuten et al., 2012), working group priorities (Jamieson et al., 2021), and a questionnaire completed by the same cohort of supervisors. Focus groups were between 30 and 90 min in length and conducted by the first author. All sessions were audio recorded and the researcher took notes (Barbour & Flick, 2018), data was subsequently transcribed verbatim and de-identified.

B 대학 평가는 같은 해에 프로그램 평가가 시행된 후 2019년에 실시되었으며 졸업생, 지도교수 및 대학 교직원을 대상으로 실시되었습니다. 본 연구에서는 연구 질문에 따라 수퍼바이저로부터 수집한 데이터만 포함했습니다. 22주 배치에서 프로그램 평가에 참여한 수퍼바이저를 모집하기 위해 다양한 환경과 수퍼비전 경험에서 최대 변동 샘플링을 사용했습니다. 수퍼바이저들은 이메일(n = 60)로 참여 초대를 받았으며 인터뷰에 동의한 후 참여에 동의했습니다. 연구팀(저자 SG 포함)은 인구통계학적 질문부터 시작하여 참가자의 프로그램 평가에 대한 이해와 경험을 탐색하는 일대일 전화 반구조화 인터뷰를 실시했습니다. 인터뷰는 오디오 녹음, 필사 및 분석을 위해 비식별화되었습니다. 부록 표 1에는 A 대학 포커스 그룹과 B 대학 인터뷰 질문을 연계한 질문 로직이 제시되어 있습니다. 
The University B evaluation occurred in 2019 after the implementation of the programmatic assessment in the same year and included graduates, supervisors, and university staff. For the purposes of the present study, only the data collected from supervisors was included in accordance with the research question. Maximal variation sampling was used to recruit supervisors who had engaged with the programmatic assessment in the 22-week placement from across settings and supervision experience. Supervisors were invited to participate by email (n = 60) and consented to participation upon agreeing to an interview. One-on-one telephone semi-structured interviews were conducted by the research team (which included author SG) commencing with demographic questions and then exploring participant understanding and experience of the programmatic assessment. The interviews were audio recorded, transcribed and de-identified for analysis. Supplementary Table 1 presents the inquiry logic aligning the University A focus group and University B interview questions.

데이터 분석
Data analysis

B 대학 인터뷰 기록은 NVivo™로 가져와서 한 명의 저자가 원래 연구의 A 대학 데이터에 적용된 것과 동일한 프레임워크를 사용하여 분석했습니다. 이 예비 분석을 통해 B 대학 데이터 세트에 권력, 권위, 저항 코드가 존재함을 확인하여 추가 분석이 필요함을 확인했습니다. 그런 다음 저자들은 적합한 이론을 찾기 위해 문헌 검색을 실시했습니다. 포지셔닝 이론은 프로그램 평가 이해관계자의 권리와 의무를 이해하는 설명 도구를 제공하고, 진실은 언어와 행동 안에 있으며 '개인 간의 대화적 거래'로 존재한다는 구성주의적 접근 방식과 일치하므로 적절한 선택으로 간주되었습니다(Rees et al., 2020a). 두 대학의 데이터는 프레임워크 분석 방법(Gale et al., 2013)을 사용하여 분석하기 위해 NVivo™로 가져왔고 포지셔닝 이론을 통해 정보를 얻었습니다.

  • 한 명의 저자가 귀납적으로 두 대학의 성적표를 포함한 5개의 성적표를 코딩하여 설명적 진술과 예시적 인용을 포함하는 초기 분석 프레임워크를 개발했습니다. 이를 위해 코드를 직위, 의무, 권리 및 책임과 관련된 범주로 그룹화했습니다.
  • 코딩과 프레임워크는 두 번째 저자가 검토하여 여러 하위 코드를 서로 통합하고, 다른 하위 코드는 설명과 더 잘 일치하도록 이름을 바꾸고, 4개의 새로운 하위 코드를 추가했습니다. 이러한 추가 코드에는 게이트키퍼, 문화와 차별, 권위와 통제, 평가자로서의 학생 등이 포함되었으며, 이는 결과적인 포지셔닝 이론에서 두드러지게 나타났습니다.
  • 최종 프레임워크에는 7개의 코드와 29개의 하위 코드가 포함되었습니다[부록 표 2].
  • 그런 다음 프레임워크를 NVivo™로 가져와서 한 명의 저자가 원래 코딩한 5개의 코드를 포함한 모든 녹취록에 적용했습니다. 각 녹취록에 코딩된 모든 텍스트가 포함된 프레임워크 매트릭스를 NVivo™를 사용하여 생성하고 Microsoft Excel로 내보냈습니다. 

The University B interview transcripts were imported into NVivo™ and analysed by one author using the same framework applied to the University A data in the original study. This preliminary analysis confirmed the presences of power, authority, and resistance codes within the University B dataset, warranting further analysis. The authors then conducted a search of the literature to identify a suitable theory. Positioning Theory was deemed an appropriate choice as it provided an explanatory tool to understand the rights and duties of programmatic assessment stakeholders and aligned with the underpinning constructionist approach that truth lies within language and actions and exists as a ‘dialogic transaction between individuals’ (Rees et al., 2020a). The data from both universities were imported into NVivo™ for analysis using the framework analysis method (Gale et al., 2013) and informed by Positioning Theory.

  • One author inductively open coded five transcripts, including those from both universities, to develop an initial analytical framework which included descriptive statements and illustrative quotations. This was achieved by grouping the codes into categories with reference to positions, duties, rights, and responsibilities.
  • This coding and framework were reviewed by a second author with several sub-codes collapsed into each other, others re-named to better align with the description, and the addition of four new sub-codes. These additional codes included gatekeeper, culture and discrimination, authority and control, and student as assessor, which were salient to the resultant positioning theory.
  • The final framework included seven codes and 29 sub-codes [Supplementary Table 2].
  • The framework was then imported into NVivo™ and applied to all transcripts, including the five originally coded, by one author. A framework matrix containing all coded text across each transcript was generated using NVivo™ and exported to Microsoft Excel.

한 명의 저자가 프레임워크 매트릭스를 한 줄씩 읽으면서 담화적 표식, 비언어적 행위, 분열적 언어, 감정을 식별했습니다. 이 단계에서는 대명사 마커의 사용에 특히 주의를 기울였습니다. 대명사에 초점을 맞추면서 참가자들이 자신과 다른 사람, 일반적으로 학생과 대학 교직원 사이에서 인식하는 힘의 균형을 조명하고자 했습니다. 대명사 사용의 전환은 권력에 대한 포지셔닝의 변화를 드러내기 때문에 주목하고 기록했습니다(Harré & Moghaddam, 2013; Loo et al., 2019).

  • 대명사 I와 me는 개인적인 신념과 생각, 자아에 대한 초점 또는 타인과의 거리를 나타내기 위해 사용되었고,
  • we와 us는 연대, 그룹 구성원 및 그룹 구성원을 대표하는 것으로 가정된 권위를 암시했으며,
  • you는 특정 사람, 상황 또는 아이디어로부터 배제하거나 거리를 두는 것을 제안했습니다(Loo et al., 2019).
  • 인터뷰와 포커스 그룹이 대학 교직원에 의해 수행되었기 때문에 you라는 사용은 연구자와 소속 대학을 지칭하기도 했습니다.

대명사에 주의를 기울임으로써 참가자들이 다른 사람들에 비해 자신을 어떻게 포지셔닝하는지, 그리고 다른 방법으로는 간과했을 수 있는 무언의 권력 역학 관계에 대한 귀중한 통찰력을 얻을 수 있었습니다. 관련성이 있는 경우, 참가자들이 대명사를 많이 사용한 부분은 결과 내에서 굵은 따옴표로 표시했습니다.

One author conducted a line-by-line reading of the framework matrix to identify discursive markers, illocutionary acts, divisive language, and emotions. Particular attention to the use of pronominal markers was given at this stage. Focusing on pronouns sought to illuminate the power balance as perceived by participants between themselves and others, with others commonly being students and the university staff. Switches in the use of pronouns were noted and recorded as these reveal changes to positioning relative to power (Harré & Moghaddam, 2013; Loo et al., 2019).

  • The pronouns I and me were taken to indicate personal beliefs and ideas, a focus on the self, or distancing from others; 
  • we and us implied solidarity, group membership and an assumed authority to represent group members; 
  • you suggested excluding or distancing from a person, situation, or idea (Loo et al., 2019).
  • The use of you also referred to the researcher and their affiliated university as interviews and focus groups were conducted by university staff.

The heeding of pronouns provided valuable insight into how participants positioning themselves relative to others and unspoken power dynamics which may have been otherwise overlooked. Where relevant, significant use of pronouns by participants has been indicated in bold in quotes within the results.

프레임워크 매트릭스를 반복적으로 읽고 원본 녹취록과 상호 참조하여 데이터를 감독자의 직위, 의무 및 책임으로 종합했습니다. 직위(1순위, 2순위 또는 3순위), 의도성(암묵적, 고의적 또는 강제적), 포지셔닝 주체(자기 또는 타인)에 주의를 기울였습니다(Dennen, 2011; Hu et al., 2019). 

  • 첫 번째 순서 포지셔닝에서 개인은 도전 없이 그 위치를 수락하거나 가정하고, 
  • 두 번째 순서 포지셔닝에서는 거부 또는 저항이 있으며 재포지셔닝이 발생할 수 있으며, 
  • 세 번째 순서 포지셔닝은 회고적 거부 또는 재포지셔닝이 포함될 수 있는 사회적 에피소드를 회상하는 것을 수반합니다. 

포지셔닝은

  • 암묵적으로 가정되거나(암묵적 의도),
  • 적극적으로 의도를 가지고 발생하거나(고의적 의도),
  • 다른 사람에 대한 반응으로 발생할 수 있습니다(강제적 의도). 

Through repeated readings of the framework matrix and cross-referencing with the original transcripts, the data was synthesised into positions, duties, and responsibilities of supervisors. Attention was paid to the position (first order, second order or third order), intentionality (tacit, deliberate or force), and positioner (self or others) (Dennen, 2011; Hu et al., 2019).

  • In first order positioning the individual accepts or assume the position without challenge;
  • in second order positioning there is rejection or resistance, and re-positioning may occur; and 
  • third order positioning involves the recall of social episodes which may involve retrospective rejection or re-positioning.

Positions can

  • implicitly be assumed (tacit intention), arise
  • actively and with intent (deliberate intention), or
  • occur in response to another (forceful intention).

결과 해석을 위해 각 참가자의 실습 환경과 소속 대학을 기록했습니다. 종합 결과는 두 번째 저자가 검토했으며, 두 저자가 함께 모여 최종 분석 및 이론에 대한 합의에 도달하기 위해 논의했습니다.
The practice setting and affiliated university for each participant was recorded for interpretation of the results. The synthesis was reviewed by a second author with both authors coming together in discussion to reach agreement on the final analysis and theory.

반사성
Reflexivity

제1저자(JJ)는 A 대학의 배치 코디네이터이자 강사였으며 다른 동료들과 함께 프로그램 평가의 개발을 담당했습니다. JJ는 자신의 경험에서 비롯된 평가를 변화시키고자 하는 동기를 가지고 A 대학의 프로그램 평가와 직업적, 개인적 관계를 맺고 있었습니다. CP와 SG는 B대학의 학자였으며 동료들과 함께 학업 및 업무 환경에서 프로그램 평가의 개발 및 실행을 주도했습니다. 이러한 성향은 연구 주제에 대한 본질적인 맥락적 이해를 제공합니다(Berger, 2015). 또한 열망과 이상, 미리 정해진 판단과 편견을 불러일으키기도 합니다. 연구자는 연구 과정에서 배제될excised 수 없으며, (우리의 신념에 따라) 배제되어서도 안 됩니다. 오히려 이러한 포지셔닝이 연구의 모든 측면에 미치는 영향을 인식하고 그 영향을 완화하기 위해 반사성을 채택해야 합니다(Soedirgo & Glas, 2020).

The first author (JJ) was a placement coordinator and lecturer at University A and was responsible, with other colleagues, for the development of the programmatic assessment. JJ had a professional and personal connection to the programmatic assessment at University A with the motivation to transform the assessment arising from her own experiences. CP and SG were academics at University B and, with their colleagues, led the development and implementation of programmatic assessment across the academic and work settings. This propinquity gives an intrinsic contextual understanding of the research topic (Berger, 2015). It also gives rise to aspirations and ideals, predetermined judgements, and biases. The person cannot, and (by our beliefs) should not, be excised from the research process. Rather the impact of this positioning on all aspects of the research should be recognised and reflexivity adopted to mitigate the impact (Soedirgo & Glas, 2020).

각 포커스 그룹과 인터뷰는 진실성을 추구하며 진행자/면접자는 대학 직원이 아니라 호기심 많은 연구자라는 성명서를 큰 소리로 읽는 것으로 시작되었습니다. 이 성명서의 의도는 두 가지였습니다.

  • 첫째, 모든 당사자 간에 연구자의 역할을 명확히 하려는 것이었습니다. 이 문장의 효과와 참가자들이 어떻게 해석했는지는 추론할 수 없습니다. 참가자들은 대학의 위치에 대해 논의할 때 '당신'이라는 대명사를 자주 사용했는데, 이는 진행자나 인터뷰어를 중립적인 당사자로 인식하지 않았음을 시사합니다.
  • 둘째, 가장 중요한 것은 이 문장이 진행자/면담자가 세션을 통해 자신의 판단과 편견을 인식하게 하는 역할을 했다는 점입니다. 저자들은 모두 질적 연구와 보건 전문가 교육에 대한 폭넓은 경험을 가지고 있었으며, 연구의 모든 단계에서 서로의 데이터 해석에 이의를 제기했습니다. 

 

Each focus group and interview commenced by reading aloud a statement that truthfulness was sought, and that the facilitator/ interviewer was, in that moment, not a university staff member but a curious researcher. The intent of this statement was two-fold.

  • Firstly, it sought to make explicit between all parties the role of the researcher. The effectiveness of this and how it was interpreted by participants cannot be deduced. Participants frequently used the pronoun you when discussing the positioning of the university which suggests that they did not identify the facilitator or interviewer as a neutral party.
  • Secondly, and most importantly, the statement served to bring awareness to the facilitator/ interviewer of their own judgements and biases through the session. As authors we all had extensive experience in qualitative research and health professional education and challenged each other’s interpretation of the data through all stages of the research.

연구 결과
Results

A 대학 수퍼바이저를 대상으로 9개의 포커스 그룹(참가자 수 32명)을, B 대학 수퍼바이저를 대상으로 12개의 인터뷰를 진행했습니다. 이를 통해 두 기관 모두에서 44명의 감독자 의견을 수집하여 데이터 분석에 활용했습니다. 참가자 특성은 표 1에 나와 있습니다. 참가자들은 대부분 병원(n = 34명) 또는 1차 예방 부문(예: 비영리, 공중보건)에 종사하는 숙련된 실무자 및 평가자였습니다(n = 10명). 여성화된 호주의 영양사 인력을 반영하듯 여성으로 확인된 참가자의 비율이 더 높았습니다(호주 보건 인력, 2014). 

Nine focus groups (n = 32 participants) were held with University A supervisors and 12 interviews for University B. This provided 44 supervisors voices across both institutions for data analysis. Participant characteristics are presented in Table 1. Participants were mostly experienced practitioners and assessors, employed in either the hospital (n = 34) or primary prevention sector (e.g., not-for-profit, public health) (n = 10). A greater proportion of participants identified as female reflecting the feminized Australian dietetic workforce (Health Workforce Australia, 2014).

프로그램 평가의 맥락에서 학생 감독에 대해 논의할 때 감독자는 세 가지 중 두 가지 방식으로 자신을 포지셔닝했습니다. 첫 번째, 교사는 모든 참가자가 설명했으며 핵심 권리와 의무를 반영했습니다. 또한 슈퍼바이저는 게이트키퍼 또는 팀원으로서 자신을 포지셔닝했는데, 이 두 가지 포지션은 서로 대립되는 상호 배타적인 입장이었습니다. 그림 1은 이 세 가지 입장을 보여줍니다.

When discussing student supervision, within the context of programmatic assessment, supervisors positioned themselves in two of three ways. The first, Teacher, was described by all participants and reflected the core rights and duties. Supervisors also positioned themselves as either a Gatekeeper or Team Member; two mutually exclusive positions which stood in opposition to one another. Figure 1 presents these three positions.

교사
Teacher

교사 직책은 병원 및 1차 예방 부문의 모든 참가자가 설명했으며 슈퍼바이저의 정체성에 내재되어 있었습니다. 이 직책에서 슈퍼바이저는 학생의 학습과 역량 개발을 지원해야 할 의무를 설명했습니다. 이는 전문 지식과 기술을 가르치고, 피드백을 제공하고, 성과를 평가하고, 학생을 위한 학습 기회를 조정하는 것으로 구체화되었습니다. 슈퍼바이저는 대학이 지시한 프로그램 평가 프로세스를 준수할 책임이 있습니다. 수퍼바이저는 대학이 수퍼바이저가 교사 포지셔닝을 시행할 수 있도록 지원할 의무가 있는 것으로 간주했습니다. 이는 대학이 공감대 형성을 위한 토론을 통해 수퍼바이저의 평가를 확인하고 지원하며, 학생과의 어려운 대화에 대한 책임을 지고, 전문 지식과 경험을 수퍼바이저와 공유하며, 성과가 저조한 학생을 위한 개선 계획을 개발하는 등의 다양한 조치를 통해 달성되었습니다. 대학을 전문적인 조언자이자 조력자로 포지셔닝함으로써 슈퍼바이저들은 자신의 교수직에 대한 자신감을 갖게 되었습니다. 대학은 이러한 포지셔닝을 수용하고 받아들이는 것으로 인식되었습니다. 
The Teacher positioning was described by all participants across both hospital and primary prevention sectors and was inherent to the identity of supervisors. In this position, supervisors described a duty to support student learning and competence development. This was enacted by teaching professional knowledge and skills, providing feedback, evaluating performance, and coordinating learning opportunities for students. Supervisors had a responsibility to abide by the programmatic assessment process as directed by the university. Supervisors positioned the university as having a duty to assist supervisors to enact their Teacher positioning. This was achieved in a range of actions including the university confirming and supporting supervisors in their evaluations through consensus building discussions, holding responsibility for difficult conversations with students, sharing their expertise and experience with supervisors, and developing a remediation plan for underperforming students. Positioning the university as an expert advisor and helper contributed to the confidence the supervisors experience in their own Teaching position. The university was perceived as being receptive and accepting of this positioning.

"저는 항상 여러분[대학]에게 문제를 제기하고, 제가 문제를 제기한다고 해서 그 학생이 퇴학당하는 것이 아니라는 것을 믿기 때문에 아주 편안하게 전화할 수 있습니다. 그냥 "제가 걱정해야 할까요... 무엇을 추천하시겠습니까?"라고 묻는 것일 뿐입니다. 저는 전문가가 아니기 때문에 당신[대학]과 당신[대학]이 추천하는 대로 따라야 한다는 입장입니다." (감독관 9, B 대학).
I always flag the issues with you guys [the university], and I feel perfectly comfortable calling…because I also trust you guys that if I flag something it doesn't mean the student's going to be booted out. It's just flagging…“Do I need to be concerned…what do you recommend?” I also kind of come from the position that I'm not the expert, I will be guided by you [the university] and what you [the university] recommend.” (Supervisor 9, University B).

학생들은 교사의 지위에 있는 슈퍼바이저가 제공하는 피드백을 수용하고 그에 따라 행동해야 할 의무가 있다고 생각했습니다. 학생들은 개인적인 속성에 따라 슈퍼바이저의 교사 지위를 수락하거나 거부하는 것으로 인식되었습니다. 학습에 적극적으로 참여하고 주도권을 가진 학생이 선호되었으며 이러한 포지셔닝을 받아들이는 것으로 나타났습니다.  
Students were positioned as having a duty to accept and act on the feedback provided by supervisors in their Teacher position. Students were perceived to either accept or reject the supervisor’s Teacher positioning based on personal attributes. Those students who were engaged and had initiative in their learning were preferred and seen to accept this positioning.

슈퍼바이저와 실습 부문에 걸쳐 교사 포지셔닝은 공통적으로 적용되었지만, 두 가지 방식으로 시행되었습니다. 첫 번째는 병원에 고용된 수퍼바이저에서만 관찰된 것으로, 위계적 접근 방식이었습니다. 이 슈퍼바이저 그룹은 자신의 의견을 학생에게 전달하는 일방적인 대화 방식을 취했습니다. 학생은 평가 피드백과 결정을 수동적으로 받는 입장이었습니다. 데이터 내에서 이러한 하위 입장은 학생에 대해 이야기할 때 미묘한 언어 사용과 명백한 진술에서 드러났습니다.
While the Teacher positioning was common across supervisors and practice sectors, it was enacted in two distinct ways. The first, observed only in hospital-employed supervisors, was a hierarchical approach. This group of supervisors describe a one-directional dialogue whereby they communicated their opinions to the student. Students were positioned as passive recipients of assessment feedback and decisions. Within the data, this sub-position was revealed in the subtle use of language when talking about students and in overt statements.

"저는 당신의 [학생의] 능력을 평가해야 하는데..."(감독자 1, B 대학)
I'm going to have to assess your [the student’s] ability…” (Supervisor 1, University B)

"제 학생 중 한 명이... 방금... "위임받았습니다." 그래서 저는 "아니, 그건 내년에 다 할 거야"라고 말했죠. "아니, 넌 아직 위임받은 게 아니야, 넌 하위권이야, 미안해."라고 말했죠. (감독자 4, B 대학)
“one of my students…just popped… “Entrusted.” And I’m like, “Well, no, that’s all next year.” Things like that they didn’t know… “No, you’re not entrusted, not yet; you’re at the bottom of the spectrum, sorry.” (Supervisors 4, University B)

"...[프로그램 평가]는 학생들에게 더 많은 권한을 부여합니다... 때로는 기분이 좋지만 때로는... 논쟁의 여지가 있습니다... 결국 우리[감독자]는 학생을 평가하는 것이고... 학생이 어떻게 하고 있는지에 대한 그들의 인식은 당신[감독자]의 인식과 상당히 다를 수 있기 때문입니다... 같은 페이지에 있도록 지속적으로 피드백을 주는 것이 중요하다고 생각합니다. 하지만 때때로 학생들은 그 피드백에도 불구하고 여전히 다른 인식을 가질 수 있습니다... 그래서 이런 종류의 모델[프로그램적 평가]에서 흥미로울 수 있습니다... 학생은 이전보다 조금 더 많은 권한을 갖습니다... 이전에는 조금 더 흑백이었는데... 이건 조금 더 회색으로 보입니다..."(포커스 그룹 2, A 대학)
“… [programmatic assessment] empowers the students more…which sometimes feels good but sometimes...is a…bone of a contention…because at the end of the day we [the supervisors] are assessing a student and…their perception of how they’re doing might be quite different to your [the supervisor’s] perception…I think it’s important that you continuously give them feedback so that you are on the same page. But sometimes students, even with that feedback, will still have a different perception…so that can be interesting in this kind of model [programmatic assessment] …the student has a little bit more power than they did before…it was a bit more black and white…and this one seems a little bit more grey…” (Focus group 2, University A)

감독관들은 학생을 제외한 동료들과 학생의 성과에 대해 논의하여 이 하위 포지션을 제정했습니다. 이러한 토론은 그들의 해석과 판단에 자신감을 가져다주었습니다. 이 감독관들은 학생의 성과를 파악해야 하는 의무에 초점을 맞추었고, 특히 성과 저조가 우려될 때 더욱 그러했습니다.
Supervisors enacted this sub-position by discussing student performance with their colleagues which excluded the student. These discussions brought confidence to their interpretations and judgements. For these supervisors, the focus was on their duty to identify student performance, and this became particularly true when underperformance was a concern.

"저는 항상 학생에게 그 문제[성과 문제]를 제기하여 중간 평가와 최종 평가 사이에 학생이 잘하지 못할 수 있다고 생각되는 영역에서 역량을 발휘해야 한다는 것을 그들이 알 수 있도록 했습니다." (감독관 9, B 대학)
“I'd always bring that [a performance issue] up with the student so that they can know that I've almost got them on notice and that they are to demonstrate competency in those areas that I think they might not be great at between that mid-assessment and the final assessment.” (Supervisor 9, University B)

소수의 병원 및 일차 예방 부문 감독자에서는 교사 포지셔닝에 대한 다른 접근 방식이 관찰되었습니다. 이 하위 포지셔닝은 양방향 대화로 뒷받침되는 역동적인 학생-감독자 관계와 관련된 협력적인 교사를 설명했습니다. 슈퍼바이저와 학생 모두 학습 과정에 참여할 공동의 의무를 가졌습니다. 학생은 평가의 리더로서 이러한 책임에 대한 권리가 있다는 입장이었습니다. 이러한 슈퍼바이저는 학생의 참여가 학생의 성과에 대한 통찰력을 제공한다는 점에서 학생의 참여에 가치를 두었습니다. 이는 교사가 학생의 학습 요구에 더 잘 대응할 수 있는 무언의 기대와 학생의 추론을 밝혀내어 감독자가 교사 포지셔닝을 제정하는 데 도움이 되었습니다.
A different approach to the Teacher positioning was observed in a smaller number of both hospital and primary prevention sector supervisors. This sub-positioning described a collaborative Teacher involving a dynamic student-supervisor relationship, underpinned by a two-way dialogue. Both the supervisor and the student held a shared duty to engage in the learning process. Students were positioned as being leaders in their assessment and having a right to this responsibility. These supervisors placed value on the participation of students as it provided them with insight into the student’s performance. This helped the supervisor enact their Teacher positioning as it revealed unspoken expectation and student reasoning which allowed the Teacher to better respond to student learning needs.

"...우리[슈퍼바이저]가 학생을 판단하기 위해 여기 있는 것이 아니라는 것을 그들(학생)에게 알립니다. 우리는 그들을 지원하고 육성하고 멘토링하기 위해 여기에 있으며... 더 많은 정보를 가질수록... 더 많이 이끌고 안내하고 발전하도록 도울 수 있습니다."(슈퍼바이저 3, B 대학)
“…letting them [the student] know that we're [the supervisors] not here to judge them. We're here to support them and nurture them and mentor and that…the more information you have…the more you are able to lead and guide and help them progress” (Supervisor 3, University B)

"...우리[슈퍼바이저]가 그들[학생]이 자신의 발전 영역을 파악하고 학습 목표를 개발하도록 도와주고, 그들이 계속 앞으로 나아갈 수 있도록 돕고, 그렇게 하기 위한 전략을 세우도록 도와주는 것이 도움이 됩니다..."(포커스 그룹 3, A 대학)
“…it helps us [supervisors] to help them [students] to identify their areas for development and develop learning goals and then try and help them to continue to move forward and help them put some strategies in place to do that...” (Focus group 3, University A)

게이트키퍼
Gatekeeper

수퍼바이저의 하위 그룹에서 게이트키퍼의 역할은 직업적 표준을 준수하고 직장에 들어오는 학생들이 안전하고 유능한 실무자가 되도록 보장해야 할 의무를 설명하는 것으로 강력하게 확인되었습니다. 이러한 입장은 특히 병원 부문에서 일하는 수퍼바이저들에게서 뚜렷하게 나타났습니다. 이러한 수퍼바이저들은 실패하면 대중에게 큰 위험을 초래할 수 있다고 인식했으며, 병원 부문을 역량에 대한 기준으로 여겼습니다.
A Gatekeeper position was strongly identified in a sub-group of supervisors who described a duty to uphold professional standards and ensure that students entering the workforce were safe and competent practitioners. This positioning was particularly evident for supervisors working in the hospital sector. These supervisors perceived that failure to fail carried a great risk to the public, with the hospital sector viewed as the benchmark for competence.

"임상에서 무언가를 잘하지 못하면 유능하지 않다고 생각합니다." (포커스 그룹 8, A 대학)
“if you're not competent at something in clinical, then I feel like you're not competent.” (Focus group 8, University A)

이러한 위치에서 수퍼바이저는 대중의 안전을 지켜야 할 의무가 있고 대중은 보호받을 권리가 있습니다. 감독관들은 성과가 저조한 것을 감지하는 데 경계를 늦추지 않음으로써 이러한 위치를 확보할 수 있었습니다. 이 감독자 그룹은 대학의 프로그램 평가 도입에 저항했습니다. 
In this position, the supervisors had a duty to keep the public safe and the public had a right to be protected. Supervisors achieved this positioning by being vigilant to the detection of underperformance. This group of supervisors resisted the introduction of programmatic assessment by the university.

"그들[수퍼바이저]은 대학에 대한 피드백이... 양방향 응답을 통해 검증되었다고 생각하지 않았습니다. 조직과 대학이 학생의 위치에 대해 서로 다른 페이지에 있다고 생각했기 때문입니다. 저는 그들이 [감독관들의] 피드백을 통해 자신들이 그 [높은 수준의] 평가를 내리는 사람이라는 책임이 주어지지 않는다는 사실에 약간 실망했다고 생각합니다... 결국, 그것은 그들의 평가로 귀결되지 않았습니다. 다른 방식으로 진행되었습니다." (감독자 2, B 대학)
“they [supervisors] didn’t necessarily feel like their feedback…to the university was validated by that two-way response, in that I think the organisation and the university were on different pages about where the student sat. I think their [the supervisors] feedback is that they are a bit disheartened that they are not being given that responsibility of…being the person who makes that [high-stakes] assessment…At the end of the day, it didn’t come down to their assessment. It went a different way.” (Supervisor 2, University B)


프로그램 평가는 고부담 평가 결정에 대한 책임을 감독자에서 대학으로 이전했습니다. 이러한 방식으로 대학은 스스로를 게이트키퍼로 포지셔닝하여 수퍼바이저의 권한을 박탈하고 권리를 박탈하여 불만을 불러 일으켰습니다. 이러한 변화는 수퍼바이저의 권위와 힘을 약화시키고 그들의 직업적 정체성을 위협했습니다. 이 슈퍼바이저 그룹은 대학의 이러한 입장을 거부하고 평가 결정에서 배제되었다고 느꼈을 때 실무 기준이 훼손되는 것에 대한 우려를 표명했습니다.
Programmatic assessment transferred the responsibility for high-stake assessment decisions from supervisors to the university. In this way, the university positioned themselves as the Gatekeeper which left supervisors disempowered and disenfranchised, invoking frustration. This change diminished their authority and power and threatened their professional identity. This group of supervisors rejected this positioning by the university and expressed concern for compromised practice standards when they felt excluded from the assessment decisions.

"당신[면접관]이 모델을 완전히 바꾸게 된 이유는 무엇인가요? 과거에는 우리가 의사 결정권자였기 때문입니다. 예전에는 우리가 피드백을 제공하고 대학 감독관과 협력했지만 지금은 완전히 그 반대입니다." (포커스 그룹 6, A 대학)
“what made you [the interviewer] change the model completely? Because before, in the past, we used to be the decision makers. We used to give our feedback, work with the uni [university] supervisors, but now it's totally the other way around.” (Focus group 6, University A)

이 슈퍼바이저들은 학생들이 졸업을 '강요'받아 대중에 대한 의무와 자신의 직업적 평판과 신뢰성을 위협받을 수 있다는 우려를 표명했습니다. 프로그램 평가의 도입으로 인한 권한과 권력의 변화와 그에 따른 위상 변화는 감독관과 대학 사이에 갈등의 불씨를 만들었습니다.
These supervisors expressed concern that students would be ‘pushed through’ to graduation which threated their duty to the public and their own professional reputation and credibility. This shift in authority and power, and subsequent positioning, with the introduction of programmatic assessment created a flashpoint between supervisors and the university.

"... 약간 불안하고 약간 밀리는 느낌이 듭니다. 영양학 분야에서 일할 수 있는 학위를 학생들에게 준다는 것이 조금은 부담스럽습니다. 그리고 그것은 꽤 높은 기준이어야한다고 생각합니다. 그리고 그 [평가] 옆에 제 이름이 붙는다는 것이 저를 조금 불편하게 만드는 것 같아요. 왜냐하면 저는 그런 평가가 저에게 다시 돌아오는 것을 원하지 않기 때문입니다." (슈퍼바이저 7, B 대학)
“…it just makes me feel a bit anxious and a little bit pushed. A little bit pushed that we’re giving …[students]…degrees to work in dietetics. And I think that that should be of quite a high standard. And I think having my name next to that [assessment] makes me feel a bit uncomfortable, because I don’t want that to come back on me at any point.” (Supervisor 7, University B)

수퍼바이저들은 평가를 '올바르게' 하기 위해 오류나 실수를 피하는 데 몰두하고 있다고 말했습니다. 감독자들은 평가 순간과 양식을 놓치거나 학생의 수행을 관찰한 내용을 충분히 자세히 기록하지 못할 것이라는 우려를 표명했습니다. 감독자들은 자신의 실수가 대학과 학생에게 중대한 영향을 미칠 것이라고 추측했습니다. 이러한 책임감은 일부 감독관에게 큰 부담으로 작용하여 학생들이 프로그램 평가 내에서 권한을 부여받는 데 방해 요인이 되었습니다.
The supervisors spoke of getting the assessment correct and were preoccupied with avoiding errors or mistakes as they sought to do assessment ‘right’. Supervisors expressed concern that they would miss assessment moments and forms or would not write sufficient detail on their observations of student performance. Supervisors speculated that their error would have significant ramifications for the university and student. This responsibility weighed heavily on some supervisors and was an inhibitory factor in allowing students to be empowered within programmatic assessment.

"옛날에는 우리 이름이 서명하는 것이었는데... 저는 학생에 대해 서명하는 것을 매우 꺼려했습니다. 안전하지 않을 것 같다는 생각이 들었고, 책임감도 있었으니까요..."(포커스 그룹 6, A 대학)
“Once upon a time it was our name signing off and…I was very reluctant to sign off on a student. I felt that it wouldn't be safe, and you have that sense of responsibility...” (Focus group 6, University A)

"집에 돌아가거나 저녁을 먹으면서 파트너와 이 문제에 대해 이야기하는 경우가 많았습니다. 파트너는 "그건 네 문제가 아니야"라고 말하죠. 하지만 전 이렇게 말하죠. "하지만 제 생각은 그래요. 저는 그들이 잘하기를 바라고 좋은 감독자가 되고 싶어요."라고 말하죠. 그래서 항상 신경이 쓰이죠." (슈퍼바이저 7, B 대학)
“Frequently I would be going home, or I would be eating dinner, talking to my partner about it. He’s like, “It’s not your problem.” But I’m like, “But I feel like it is. I want them to do good and I want to be a good supervisor.” So, it does play on your mind at all times.” (Supervisor 7, University B)

이 슈퍼바이저 그룹은 또한 학생이 졸업하고 직업에 진출할 준비가 되었는지를 판단하기 위해 취업 척도를 사용한다고 설명합니다.
This group of supervisors also describe using a measure of employment to determine if a student was ready to graduate and enter the profession.

팀원
Team Member

게이트키퍼와 달리 다른 감독자 그룹은 프로그램 평가의 도입으로 책임이 재분배되는 것을 받아들이고 스스로를 팀원으로 포지셔닝했습니다. 일부의 경우 이러한 포지셔닝이 즉시 이루어지지 않았습니다. 대신, 그들은 이러한 포지셔닝을 받아들이기 전에 프로그램적 평가에 익숙해지고 엄격함에 대한 확신을 가져야 했습니다. 
In contrast to the Gatekeeper, a different group of supervisors accepted the redistribution of responsibilities with the introduction of programmatic assessment and positioned themselves as Team Members. For some, this positioning did not occur immediately. Instead, they needed to become familiar with programmatic assessment and have confidence in the rigour before they accepted this positioning.

"사실 제가 한 발 물러서서 그들[학생들]이 주도권을 갖고 저에게 오도록 내버려 두었어야 했는데, 그냥 그런 변화 때문이라고 생각하죠? 학생들[학생들]이 주도권을 갖는 것에 익숙하지 않으니까...." (포커스 그룹 1, A 대학). 
“you do feel a little bit disempowered…when really I probably should have taken a step back and just let them [the students] have the initiative and come to me, but I think, yeah, just because it’s just that change, isn’t it? You’re just not used to them [the students] having control….” (Focus group 1, University A).

팀원들은 프로그램 평가의 원칙과 목적을 사용하여 학생의 성과와 역량에 대한 전체적인 그림을 구축하는 데 기여하는 팀의 중요한 부분으로 자신을 포지셔닝했습니다. 이러한 감독관은 고부담 평가 결정에 대한 권위를 포기하고, 권한을 대학에 이양하고 학생이 스스로 학습할 수 있는 권한을 갖도록 허용했습니다. 이러한 포지셔닝은 제공된 리소스를 사용하여 학생과 대학에 피드백을 제공하고, 대학과 선배 동료에게 문제를 에스컬레이션하고, 후배 감독자를 교육하고 지원하는 방식으로 이루어졌습니다.

Team Members used the principles and purpose of programmatic assessment to position themselves as an important part of a team which contributed to the construction of a holistic picture of a student’s performance and competence. These supervisors relinquished authority and deferred power for high-stakes assessment decisions to the university and allowed the student to become empowered in their own learning. This positioning was enacted by providing feedback to the student and the university using the provided resources, escalating issues to the university and senior colleagues, and teaching and supporting junior supervisors.

"우리[슈퍼바이저]가 그들[학생]이 유능하지 않다고 말했다고 해서 반드시 전체 과정에 불합격할 것이라는 의미는 아닙니다. 그것은 훨씬 더 많은 과정이며... 토론하고 전체 그림을 보는 것은 감독자의 부담을 덜어주기 때문에 이 특정 [성과가 저조한] 학생을 감독할 때 확실히 감사한 일이었습니다. 학생에게 "넌 전체 과정을 낙제했어"라고 말하는 것과는 다릅니다. "이 특정 섹션에서 당신은 역량을 충족하지 못했고, 전체 성과를 검토하는 것은 대학에 달려 있습니다."라고 말하는 것뿐입니다. (감독자 3, B 대학) 
“just because we [the supervisors] said they're [the student] not competent, doesn’t necessarily mean that they're going to fail the entire course. It’s a lot more of a process…and discussing and looking at the whole picture, which has definitely been something that I appreciated when I was supervising this particular [underperforming] student because it takes the pressure off the supervisor. It’s not like we’re saying to the student, “You've failed you [the] entire course”. It’s just saying, “In this particular section you haven't met competency and it’s up to the uni [university] then to review their entire performance.” (Supervisor 3, University B)

수퍼바이저들은 고부담 의사 결정에 기여할 권리가 있으며, 대학은 이들의 의견을 소중히 여기고 의사 결정에 반영할 의무가 있다고 설명했습니다. 
Supervisors described having a right to contribute to high-stake decisions and the university had a duty to value and include their opinions in decisions.

"... 슈퍼바이저로서 지원을 받는다는 느낌, 마지막 결정권을 갖고 있지 않다는 자신감이 생겼습니다... 마지막 결정권을 갖고 싶지는 않지만... 여러분[대학]과 함께 의견을 확인할 수 있습니다..."(슈퍼바이저 9, B 대학) 
“… it does boost my confidence that I just feel supported as a supervisor, that I don't have the last word…I don't want to have the last word but…I can have an opinion check it with you guys [the university] …” (Supervisor 9, University B)

이 수퍼바이저들은 권한과 권력의 변화로 인해 고부담 평가 결정과 관련된 부담과 스트레스가 줄어들고 지지적 교수 관계를 구축할 수 있게 되어 해방감을 느낀다고 설명했습니다. 고부담 평가 결정에 대한 책임은 이해관계의 충돌이며 학생과 감독자 관계를 손상시켜 학생을 가르치는 데 방해가 된다는 인식이 있었습니다. 이 감독자 그룹을 통해 학생은 평가 내에서 자신의 권리와 의무를 제정할 수 있었고, 대학은 고위험 평가 결정을 내릴 의무를 부여받았습니다.
These supervisors described the shift in authority and power as liberating as it reduced the burden and stress associated with high-stakes assessment decisions and enabled them to cultivate a supporting teaching relationship. There was recognition that responsibility for high-stakes assessment decisions was a conflict of interest and compromised the student-supervisor relationship, hindering their ability to teach students. This group of supervisors enabled students to enact their rights and duties within assessment and the university was given the duty to make high-stakes assessment decisions.

"이제 대학이 현장 감독자와 함께 [학생이] 충분한 증거를 제공했는지에 대한 최종 결정을 내리고 있기 때문에... 스트레스가 조금 완화되는 것 같아요..."(포커스 그룹 5, A 대학) 
“now that the university is making that final call on whether they’ve [the student] provided enough evidence, obviously in conjunction with site supervisors…I think it eases that stress a little bit...” (Focus group 5, University A)

토론
Discussion

우리는 슈퍼바이저들이 프로그램 평가에서 자신의 위치를 어떻게 경험하고 인식하는지 이해하기 위해 포지셔닝 이론의 비판적 렌즈를 적용했습니다. 수퍼바이저들은 다음 세 가지 중 두 가지 방식으로 자신을 포지셔닝했습니다: 교사, 게이트키퍼 또는 팀원.

  • 모든 수퍼바이저는 학생을 교육해야 하는 고유한 의무가 있다고 설명했으며, 이는 교사에 반영되었습니다.
    • 일부 슈퍼바이저는 협력적인 교육 관계를 설명하는 반면,
    • 다른 슈퍼바이저는 학생을 수동적인 피교육자로 간주하는 위계적 접근 방식을 채택하는 등 이분법적인 포지셔닝이 이루어졌습니다.
  • 게이트키퍼와 팀원이라는 상호 배타적인 두 가지 직책도 확인되었습니다.
    • 게이트키퍼 감독관은 더 넓은 커뮤니티를 보호해야 할 의무가 있으며 부적절한 학생의 성과를 감지하는 데 집중한다고 설명했습니다.
    • 반면, 팀원은 높은 수준의 성과에 기여할 권리가 있으며 평가에 대한 책임과 부담에서 자유롭다고 설명했습니다. 

We applied the critical lens of Positioning Theory to understand how supervisors experienced and perceived their positioning within programmatic assessment. Supervisors positioned themselves in two of three ways: Teacher, and either a Gatekeeper or Team Member. All supervisors described an inherent duty to educate students, reflected in Teacher. This positioning was enacted dichotomously with some supervisors describing a collaborative teaching relationship, while others adopted a hierarchical approach whereby students were disempowered passive recipients. Two alternative and mutually exclusive positions, the Gatekeeper and Team Member, were also identified. Gatekeeper supervisors described a duty to protect the wider community and focussed on the detection of inadequate student performance. In contrast, Team Members described a right to contribute to high-stakes outcomes and were liberated from the responsibility and burden of assessment.

우리의 연구는 프로그램식 평가에 저항하고 수용하는 사람들의 속성을 설명했습니다. 본 연구에서 대학 교직원들은 주요 이해관계자들과 함께 수퍼바이저의 업무가 교육 및 성과 평가로 재조정되어(1순위 포지셔닝) 고부담 평가 결정에 기여하지만 책임을 지지 않는 프로그램식 평가 전환을 주도했습니다. 일부 수퍼바이저의 경우 대학 측의 이러한 직위 부여를 거부하고(2순위 및 3순위 직위 부여) 스스로 게이트키퍼임을 드러냈습니다. 게이트키퍼대중과 자신의 직업적 평판을 보호해야 한다는 열렬한 의무에서 비롯된 학생의 저조한 성과를 경계할 권리가 프로그램 평가와 모순되는 측면이 있었습니다. 이러한 입장은 다른 사람들에 의해 설명되었으며(O'Connor 외., 2019), 객관성(종종 주관성을 희생시키면서), 표준화 및 환원주의에 중점을 둔 전통적인 심리측정 중심 접근 방식을 대표합니다(Hodges, 2013). 반대로, 프로그램 평가는 이러한 심리측정적 접근 방식과 상충될 수 있는 집단적이고 주관적인 구성주의적-해석주의적 인식론을 구현합니다(Govaerts et al., 2007; Hodges, 2013). 게이트키퍼 포지셔닝과 프로그램적 평가 사이에 관찰되는 긴장을 설명할 수 있는 것은 바로 이러한 이념적 불협화음입니다(Pearce & Tavares, 2021; Torre et al., 2022).

Our research expounded the attributes of those who both resist and accept programmatic assessment. In our study, university staff, coupled with key stakeholders, led the programmatic assessment transitions whereby the duties of supervisors were reoriented to teaching and performance appraisal (first order positioning) where they contributed, but did not hold responsibility, for high-stakes assessment decisions. For some supervisors, this positioning by the university was rejected (second order and third order positioning) and revealed itself as the Gatekeeper. The Gatekeepers right to be vigilant to poor student performance, derived from a fervent duty to protect the public and their professional reputation, was incongruent with programmatic assessment. Such positioning has been described by others (O’Connor et al., 2019) and typifies a traditional psychometric-focussed approach that centres on objectivity (oft at the expense of subjectivity), standardisation, and reductionism (Hodges, 2013). Conversely, programmatic assessment embodies a collective and subjective constructivist-interpretivist epistemology which can be at odds with this psychometric approach (Govaerts et al., 2007; Hodges, 2013). It is this ideological dissonance that may account for observed tensions between the Gatekeeper positioning and programmatic assessment (Pearce & Tavares, 2021; Torre et al., 2022).

이러한 긴장을 개선하기 위한 실용적인 전략으로는 모든 사용자의 참여와 권한 부여, 강력한 리더십과 비전, 인내와 인내심을 가지고 프로그램적 평가를 실행하는 것 등이 있습니다(Roberts et al., 2021; Schut et al., 2021; Torre et al., 2021; van der Vleuten et al., 2015). 이러한 전략은 대다수에게는 효과적이지만, 확고한 인식론적 차이를 극복하기에는 불충분할 수 있습니다. 대신 모든 이해관계자, 특히 반대하는 이해관계자의 견해와 신념에 대한 명시적인 인정과 담론이 필요합니다(Pearce & Tavares, 2021). 이는 암묵적 가정을 파악하고, 공통 언어를 개발하고, 공유된 이해를 구축함으로써 앞서 언급한 전략의 성공을 개선하는 데 도움이 될 수 있습니다(Tavares et al., 2021). Govaerts 외(2019)는 긴장을 인간 행동의 피할 수 없는 특성으로 간주하고, 갈등을 해결하려 하기보다는 차이를 활용하여 시스템을 최적화하는 폴라리티 씽킹™에서 유망한 접근법을 제시합니다. 연구 결과를 설명하기 위해 철학적 비교를 제시했지만, 현실은 사회적 맥락적 요인에 영향을 받는 미묘한 이념의 연속체이며(Pearce & Tavares, 2021; Schoenherr & Hamstra, 2015), 포지셔닝은 개인의 경험과 사회적 상황 사이의 역동적인 상호작용에 반응하는 고정된 것이 아니라 유동적인 구성요소라는 점을 인정합니다(McVee et al., 2018). 이는 현재와 진화하는 사회문화적 결정 요인이 모두 프로그램 평가 내에서 감독자의 포지셔닝에 영향을 미칠 수 있는 역량을 가지고 있음을 시사합니다. 프로그램 평가를 실행하려는 사람들은 자신의 세계관과 신념, 이해관계자의 세계관을 고려하고, 격차를 해소하고 교육 변화에 대한 공동의 지원을 창출하는 전략을 사용하는 것이 현명할 것입니다. 

Pragmatic strategies to ameliorate such tensions include involving and empowering all users, having strong leadership and vision, and patience and perseverance when implementing programmatic assessment (Roberts et al., 2021; Schut et al., 2021; Torre et al., 2021; van der Vleuten et al., 2015). While effective for the majority, such strategies may be insufficient to overcome staunch epistemological differences. Instead, explicit recognition and discourse of the views and beliefs held by all stakeholders, particularly those in opposition, is required (Pearce & Tavares, 2021). This may go some ways to improve the success of the aforementioned strategies through the identification of implicit assumptions, developing a common language, and building shared understanding (Tavares et al., 2021). Govaerts et al. (2019) presents a promising approach in Polarity Thinking™ which frames tensions as an inescapable trait of human behaviour and rather than trying to solve the conflict, differences are leveraged to optimise the system. While we have presented here a philosophical comparison to unpack our research findings, we acknowledge that reality is a nuanced continuum of ideologies influenced by socio-contextual factors (Pearce & Tavares, 2021; Schoenherr & Hamstra, 2015) and that positioning is a fluid construct, rather than fixed, responsive to the dynamic interplay between a person’s own experience and the social situation (McVee et al., 2018). This suggests that both current and evolving socio-cultural determinants have capacity to influence supervisor positioning within programmatic assessment. Those seeking to implement programmatic assessment would be wise to consider their own worldview and beliefs, and those of stakeholders, and employ strategies to bridge the gaps and create shared support for educational change.

우리의 연구에 따르면 임상 병원 부문에서 일하는 수퍼바이저는 위계적 교사 및 게이트키퍼 포지션을 설명하는 경향이 있는 것으로 나타났습니다. 특정 집단이 공유하는 고유한 이념과 가치로 정의되는 문화는 개인과 팀의 태도와 행동을 형성하기 때문에 의료 교육 변화의 실행 가능성에 중요한 기여를 합니다(Bearman 외., 2021; Govaerts 외., 2007; Pearce & Tavares, 2021; van der Vleuten 외., 2015; Watling 외., 2020). 문화는 보건 전문직 교육 내에서 복잡하고 종종 잘 이해되지 않는 현상입니다. 최근 Sheehan과 Wilkinson(2022)은 사회, 조직, 실무, 자아 및 정체성, 전문가 및 교육 제공자를 포괄하는 학습 환경 문화에 대한 다층적 개념화를 제시하여 우리의 이해를 넓혔습니다. 이 연구는 교육 기관과 의료 현장의 문화적 요구를 수용해야 하는 보건 전문직 교육 이니셔티브가 직면한 복잡성과 문화적 불일치 및 불협화음의 위험을 강조합니다(Govaerts et al., 2019; Sheehan & Wilkinson, 2022). 이러한 위험을 완화하려면 관찰된 문제에 대해 단순히 문화에 책임을 묻기보다는 특정 맥락에 존재하는 다양한 문화를 이해하고 포용하며 그 안에서 협력해야 합니다. 이는 문화와 문화를 구성하는 사람들 사이에 존재하는 상호적인 파트너십을 인정하는 것입니다(Bearman et al., 2021; Sheehan & Wilkinson, 2022). 문화적 외부인이 주도하는 단기적인 변화 시도는 제한적인 성공에 그칠 가능성이 높습니다. 오히려 성공적인 변화를 위한 맥락을 조성하기 위해서는 특정 문화를 구성하는 사람들의 지지와 리더십이 필요합니다(Pearce & Tavares, 2021; Torre et al., 2021; Watling et al., 2020). 또한 '문화적 반사성'도 필요한데, 이는 특정 문화의 뉘앙스를 이해하기 위해 시간이 지남에 따라 그 구조 내에서 사람들을 참여시켜 행동을 조절하는 조건을 드러내는 것입니다(Aronowitz et al., 2015). 우리의 연구 결과에 따르면 일부 직장에서 프로그램 평가에 대한 교육 기관의 우선순위와 신념이 기존의 사회적, 문화적 태도와 맞지 않아 긴장이 관찰되었을 수 있습니다. 이러한 문제는 다른 연구자들에 의해 관찰되었으며(Torre 외, 2021), 프로그램 평가를 시행할 때 '문화적 반성성'이 필요하다는 것을 보여줍니다. 최근 Torre 등(2022)은 프로그램적 평가의 실행을 촉진할 수 있는 복잡한 맥락적 요인을 탐색하고 이에 대응할 수 있는 '지식 브로커'에 대해 설명했습니다. 이러한 결과는 미묘한 문화적 요소를 수용하고 활용하여 성공적인 실행을 지원하기 위해 프로그래밍 방식의 평가의 유연한 원칙을 고유하게 구현할 수 있는 방법을 강조합니다. 

Our research revealed that supervisors working within the clinical hospital sector had a propensity to describe the hierarchical Teacher and the Gatekeeper positionings. Culture, defined as the shared and unique ideologies and values held by a particular group of people (Peterson & Spencer, 1990), is a significant contributor to the viability of medical educational change as it shapes the attitudes and behaviours of individuals and teams (Bearman et al., 2021; Govaerts et al., 2007; Pearce & Tavares, 2021; van der Vleuten et al., 2015; Watling et al., 2020). Culture is a complex and often poorly understood phenomenon within health professions education. Recently Sheehan and Wilkinson (2022) presented a multilayered conceptualisation of the learning environment culture which encompasses society, organisational, practice, self and identity, professional and education providers that broadens our understanding. This work highlights the complexities facing health professions education initiatives which need to accommodate cultural demands of both the educational institution and the health care workplace or risk cultural misalignment and discordance (Govaerts et al., 2019; Sheehan & Wilkinson, 2022). Mitigating against such risks involves understanding, embracing, and working within the spectrum of cultures that exist for a particular context rather than simply holding culture accountable for observed problems. This recognises the reciprocal partnership that exists between culture and the people that make up a culture (Bearman et al., 2021; Sheehan & Wilkinson, 2022). Short term attempts at change, led by cultural outsiders, will likely be met with limited success. Rather, advocacy and leadership from the people who constitute a particular culture are needed to create a context for successful change (Pearce & Tavares, 2021; Torre et al., 2021; Watling et al., 2020). ‘Cultural reflexivity’ is also required whereby we come to understand the nuances of a particular culture by engaging the people over time, within their structures, to reveal the conditions that moderate behaviours (Aronowitz et al., 2015). Our findings suggest that in some workplaces the educational institution priorities and beliefs about programmatic assessment may have been misaligned with established social and cultural attitudes leading to observed tensions. Such challenges have been observed by others (Torre et al., 2021) and illustrate the need for ‘cultural reflexivity’ when implementing programmatic assessment. Recently, Torre et al. (2022) described ‘knowledge brokers’ that could navigate, and be responsive to, complex contextual factors that enabled them to drive the implementation of programmatic assessment. These results highlight how the malleable principles of programmatic assessment can be uniquely implemented to accommodate and leverage nuanced cultural factors to support successful implementation.

최근 문헌 검토에서 Schut 등(2021)은 대부분의 경우 슈퍼바이저가 효과적인 학습 환경을 조성하고 역할 갈등을 해결하기 위해 프로그래밍 방식의 평가를 수용한다는 사실을 보여주었습니다.

  • 팀원 포지셔닝에서도 슈퍼바이저가 역할 갈등의 부담에서 해방감을 느끼고 시스템 내에서 가치를 인정받는다고 느끼는 비슷한 패턴을 발견했습니다. 이러한 포지셔닝은 안전하고 최적의 학습 환경을 조성하는 슈퍼바이저와 학생 간의 동맹을 가능하게 했으며, 이는 학습에 필수적인 것으로 관찰되었습니다(Telio 외., 2015).
  • 소수의 수퍼바이저인 게이트키퍼의 경우, 프로그램식 평가는 고부담 평가 결정에 대한 권한을 약화시키고 전문가로서의 정체성에 도전하여 좌절과 저항으로 이어졌습니다.

In a recent literature review, Schut et al. (2021) demonstrated that for the most part, supervisors embraced programmatic assessment as it created effective learning environments and resolved role conflicts.

  • In Team Members positioning, we also found a similar pattern whereby supervisors described a feeling of liberation from the burden of role conflict and felt valued within the system. This positioning enabled an alliance between supervisor and student that created a safe and optimal learning experience, which has been observed as a necessity for learning (Telio et al., 2015).
  • For a minority of supervisors, the Gatekeepers, programmatic assessment diminished their authority over high-stakes assessment decisions and challenged their professional identity, leading to frustration and resistance.

권력은 개인의 행동과 행동에 복합적으로 영향을 미치기 때문에 학생-감독자 관계를 형성하는 중요한 요소입니다(Janss 외., 2012; Rees 외., 2020b). 권력은 '다른 사람을 통제하거나 영향을 미칠 수 있는 개인의 상대적 능력'으로 광범위하게 정의됩니다(Janss 외, 2012). 학생들이 무력하고 상사의 권위를 묵인한다는 통념은 최근 학생들이 다양한 은밀하고 명백한 행동을 통해 권력을 행사(및 저항)하는 미묘한 역학 관계와 방식을 밝히는 연구로 인해 도전을 받고 있습니다(Rees et al., 2020b). 공유된 권력과 공동 구성 학습은 생산적인 학습 환경을 형성하는 가치 있는 대인 관계를 만들어냅니다. 공유된 권력학생의 자기 성찰, 피드백 대화, 자신의 성과에 대한 피드백을 잘 받아들이는 공감적 감독자(친근함, 취약성, 정직성 등의 속성을 가진)를 통해 달성됩니다(Castanelli 외, 2022; O'Connor 외, 2018; Rees 외, 2020b). 이러한 전략은 프로그래매틱 평가의 원칙에 반영되어 있습니다(Heeneman 외., 2021; Torre 외., 2020; van der Vleuten 외., 2012). 이를 바탕으로 우리는 다음의 이론을 세웠습니다(Cantillon 외, 2016; de Jonge 외, 2017; Meeuwissen 외, 2019; Torre 외, 2021).

  • 프로그램식 평가의 도입이 학생-감독자 관계에 만연한 '권력 비대칭성'을 파괴하고 권한과 책임의 재분배를 촉진하여 교육 결과를 최적화하는 학생의 주체성과 상호성을 선호한다

우리 연구와 다른 연구자들(복 외, 2013; 슈트 외, 2021)의 연구에 따르면 이러한 변화에 저항하는 감독자 중 일부인 게이트키퍼는 평가 시스템을 불신하고 프로그램적 평가에 지속적인 도전을 제시합니다(칸틸롱 외, 2016; 슈트 외, 2021). 프로그램 평가를 시행하는 사람들은 프로그램 평가에서 게이트키퍼의 역할(있는 경우)을 고려해야 할 수 있습니다. 

Power is a significant factor shaping the student-supervisor relationship through its complex influence on an individual’s behaviours and actions (Janss et al., 2012; Rees et al., 2020b). Power is broadly defined as the ‘relative ability of an individual to control or influence others’ (Janss et al., 2012). The prevailing belief that students are powerless and acquiesce their authority to supervisors has recently been challenged with research revealing the nuanced dynamics and ways by which students exert power (and resistance) using a range of covert and overt actions (Rees et al., 2020b). Shared power and co-constructed learning create valuable interpersonal relationships which form productive learning environments. Shared power is achieved through student self-reflection, feedback dialogue, empathetic supervisors (with attributes including friendliness, vulnerability, and honesty) who are receptive to receiving feedback on their own performance (Castanelli et al., 2022; O'Connor et al., 2018; Rees et al., 2020b). These strategies are reflected in the principles of programmatic assessment (Heeneman et al., 2021; Torre et al., 2020; van der Vleuten et al., 2012). On this basis, we theorise that

  • the introduction of programmatic assessment disrupted the prevailing ‘power asymmetry’ within the student-supervisor relationship and precipitated a redistribution of authority and responsibility, favouring student agency and mutuality which optimises educational outcomes (Cantillon et al., 2016; de Jonge et al., 2017; Meeuwissen et al., 2019; Torre et al., 2021).

Our research, and that of others (Bok et al., 2013; Schut et al., 2021) has revealed the subset of supervisors that resist this shift, the Gatekeepers, who mistrust the assessment system and present an ongoing challenge to programmatic assessment (Cantillon et al., 2016; Schut et al., 2021). Those implementing programmatic assessment may need to consider the role, if any, that Gatekeepers have in programmatic assessment.

우리가 아는 한, 포지셔닝 이론을 프로그램적 평가를 탐구하는 프레임워크로 사용한 연구는 이번이 처음입니다. 우리는 포지셔닝 이론을 보건 전문가 교육에 보다 광범위하게 활용하고 그 잠재력을 지지하는 제한적이지만 통찰력 있는 연구 풀에 기여해 왔습니다. 이 연구에 적용된 해석적 또는 이론에 기반한 귀납적 데이터 분석의 실용적 접근 방식은 데이터 분석에 이론적 렌즈를 적용하여 연구 결과에 깊이를 더할 수 있게 해주었습니다(Varpio 외., 2020). 우리는 이것이 연구 과정의 초기 단계에서 이론의 잠재적 영향력을 제한한다는 것을 인식했으며, 보건 교육에 이론을 채택하여 문제에 대한 더 큰 통찰력을 제공해야 한다는 요구를 반영합니다(Varprio et al., 2017). 한 국가에 있는 두 기관에서 참가자를 모집했기 때문에 연구의 표본 크기가 더 커졌지만 이전 가능성은 제한적이었습니다. 우리는 독자의 이해를 돕고 각자의 환경에 대한 적용 가능성을 높이기 위해 풍부한 설명을 제공했습니다. 배치 구조와 환경이 유사하고 이해관계자 기반 접근 방식을 활용하여 프로그램 평가를 설계한 두 교육 과정은 유사했지만, 다른 고유한 맥락적 요인이 조사 결과에 영향을 미쳤을 가능성이 있습니다. 이는 다양한 환경에서 프로그램 평가의 설계 및 채택에 대한 문화의 영향에 대한 추가 조사의 필요성을 강조합니다. 감독자의 포함은 프로그램적 평가에 대한 이야기의 일부에 불과합니다. 학생, 대학, 치료 수혜자 등 모든 이해관계자의 목소리를 포함하는 향후 연구를 통해 이해의 폭을 넓힐 수 있을 것입니다. 
To our knowledge, this is the first study that has used Positioning Theory as a framework to explore programmatic assessment. We have contributed to the limited, but insightful, pool of research that uses Positioning Theory more broadly within health professional education and advocate for its potential. The interpretive, or theory-informing inductive data analysis, pragmatic approach applied in this research enabled a theoretical lens at data analysis to give depth to the findings (Varpio et al., 2020). We recognised that this limits the potential influence of the theory on the earlier stages of the research process and we echo calls for theory to be adopted in health education to provide greater insight into challenges (Varprio et al., 2017). Transferability was limited as participants were derived from two institutions in one country, although this provided a larger sample size for the research. We have provided the reader with a rich description to assist understanding of the context and enhance transferability to their own settings. Although the courses were similar in placement structure and setting, and utilisation of a stakeholder-based approach to design the programmatic assessments, it is feasible that other unique contextual factors may have influenced the findings. This highlights a need for further exploration into the influence of culture on the design and adoption of programmatic assessment across different settings. Inclusion of supervisors tells only part of the programmatic assessment story. Future research that includes the voices of all stakeholders including students, university, and care recipients, will expand our understanding.

결론
Conclusion


포지셔닝 이론은 프로그램 평가가 전통적인 의학교육 구조와 이념에 도전하고 성공에 영향을 미치는 감독자의 권리와 의무를 어떻게 재조정했는지 밝혀냈습니다. 프로그램적 평가는 진공 상태에서 발생하지 않습니다. 오히려 다양한 신념과 가치관을 가진 이해관계자들이 서로 조화를 이루어야 성공할 수 있는 문화적으로 복잡한 공간에 존재합니다. 이해관계자는 개인적, 문화적 요인에 의해 형성되므로 시간이 지나고 저항에 직면하더라도 지속 가능한 프로그램 평가를 구현하기 위해서는 사려 깊고 유연하며 상황에 민감한 접근 방식이 필요합니다. 이 연구는 프로그램적 평가로 나아갈 때 감독자를 지원하고 참여시키는 방법에 대한 새로운 통찰력을 제공합니다. 

Positioning Theory revealed how programmatic assessment reorientated supervisor rights and duties which challenged traditional medical education structures and ideologies, and influenced success. Programmatic assessment does not occur in a vacuum. Rather, it inhabits a culturally complex space that requires a symphony of stakeholders, with differing beliefs and values, to succeed. Stakeholders are shaped by individual and cultural factors, warranting a considered, flexible, and context-sensitive approach to implementing programmatic assessment that is sustained over time and in the face of resistance. This research provides new insights into how to support and engage supervisors when moving towards programmatic assessment.

 

 


Adv Health Sci Educ Theory Pract. 2023 Aug;28(3):827-845. doi: 10.1007/s10459-022-10193-9. Epub 2022 Dec 5.

Teacher, Gatekeeper, or Team Member: supervisor positioning in programmatic assessment

Affiliations

1Monash University, Melbourne, Australia. j.jamieson@ecu.edu.au.

2School of Medical and Health Sciences, Edith Cowan University, 270 Joondalup Drive, Joondalup, WA, 6027, Australia. j.jamieson@ecu.edu.au.

3Monash University, Melbourne, Australia.

PMID: 36469231

DOI: 10.1007/s10459-022-10193-9

Abstract

Competency-based assessment is undergoing an evolution with the popularisation of programmatic assessment. Fundamental to programmatic assessment are the attributes and buy-in of the people participating in the system. Our previous research revealed unspoken, yet influential, cultural and relationship dynamics that interact with programmatic assessment to influence success. Pulling at this thread, we conducted secondary analysis of focus groups and interviews (n = 44 supervisors) using the critical lens of Positioning Theory to explore how workplace supervisors experienced and perceived their positioning within programmatic assessment. We found that supervisors positioned themselves in two of three ways. First, supervisors universally positioned themselves as a Teacher, describing an inherent duty to educate students. Enactment of this position was dichotomous, with some supervisors ascribing a passive and disempowered position onto students while others empowered students by cultivating an egalitarian teaching relationship. Second, two mutually exclusive positions were described-either Gatekeeper or Team Member. Supervisors positioning themselves as Gatekeepers had a duty to protect the community and were vigilant to the detection of inadequate student performance. Programmatic assessment challenged this positioning by reorientating supervisor rights and duties which diminished their perceived authority and led to frustration and resistance. In contrast, Team Members enacted a right to make a valuable contribution to programmatic assessment and felt liberated from the burden of assessment, enabling them to assent power shifts towards students and the university. Identifying supervisor positions revealed how programmatic assessment challenged traditional structures and ideologies, impeding success, and provides insights into supporting supervisors in programmatic assessment.

Keywords: Assessment; Competency-based assessment; Health education; Higher education; Learner educator partnership; Power; Programmatic assessment; Supervisors.

"내 평가는 편향되었어요!": 의학교육에서 평가의 공정성을 달성하기 위한 측정과 사회문화적 접근(Acad Med, 2023)
“My Assessments Are Biased!” Measurement and Sociocultural Approaches to Achieve Fairness in Assessment in Medical Education 
Karen E. Hauer, MD, PhD, Yoon Soo Park, PhD, Justin L. Bullock, MD, MPH, and Ara Tekian, PhD, MHPE 

 

학습자 평가의 편향성은 의학교육의 질에 대한 중요하고 지속적인 도전 과제입니다. 편견에 기반한 개인 또는 하위 그룹의 평가된 퍼포먼스에 대한 부당한 차이는 학습자의 발달을 저해할 수 있으며 일부 학습자는 의료계에서 계속 활동하지 못할 수도 있습니다. 임상 성과 평가는 편견을 도입하고 영속화할 위험이 특히 높습니다. 다양한 학습 경험, 평가자 또는 평가가 이루어지는 상황을 표준화할 수는 없습니다. "좋은" 퍼포먼스에 대한 허용 기준은 평가자 또는 환자 또는 간병인의 문화와 맥락, 기관의 규범과 문화에 따라 달라질 수 있으며, 이는 모두 필요한 환자 치료, 의사소통 기술 및 전문적 행동에 대한 기대치에 영향을 미칩니다. 이러한 다양성은 일부 학습자에게 불이익을 주는 유해한 편견의 발판을 마련합니다. 
Bias in learner assessment presents a critical, ongoing challenge to the quality of medical education. Unwarranted differences in assessed performance of individuals or subgroups rooted in bias can hinder learners’ developmental progress and may prevent some from continuing in the medical profession. Assessment of clinical performance raises particular risks for introducing and perpetuating bias. It is not possible to standardize the wide array of learning experiences, assessors, or contexts under which assessment occurs. Acceptable standards for “good” performance may vary based on the assessor’s—or patient’s or caregiver’s—culture and context and institutional norms and culture, which all influence expectations for what constitutes needed patient care, communication skills, and professional behavior. This variability sets the stage for harmful bias that disadvantages some learners.

의학교육에 관한 연구 결과, 의학 분야에서 소외된 배경을 가진 학생(UIM)에게 불리하게 작용하는 학습자 특성에 따른 평가 성과에 대한 체계적인 차이가 점점 더 많이 확인되고 있습니다.1-4 예를 들어, 의학 지식 시험은 일부 학습자 그룹에게 다른 학습자 그룹보다 문항 내용이 더 익숙하거나 사전 교육 경험으로 인해 일부 학습자 그룹이 다른 그룹보다 더 잘 준비할 수 있기 때문에 편향된 결과를 초래할 수 있습니다. 의과대학과 레지던트 수련 프로그램은 다양한 환자 집단을 대표하고 서비스를 제공하기 위해 학습자 집단을 다양화하는 것이 중요하므로, 학습자가 공평하게 학습하고 평가받고 후속 수련 및 취업 기회에 선발될 기회를 갖는 것이 중요합니다.5 유해한 편견을 이해하고 해결하는 것은 모든 학습자에게 공정하고 평등한 학습 환경과 평가 과정을 만드는 데 필수적입니다. 
Studies in medical education have increasingly identified systematic differences in assessed performance based on learner characteristics that disadvantage students from backgrounds underrepresented in medicine (UIM).1–4 For example, examinations of medical knowledge can generate biased results due to the content of items being more familiar to some learner groups than others, or prior educational experiences affording better preparation for some learner groups than others. As medical schools and residency training programs embrace the importance of diversifying their learner populations to represent and serve diverse patient populations, it is critical that learners have equitable opportunities to learn, be assessed, and be selected for subsequent training and job opportunities.5 Understanding and addressing harmful bias is essential to making the learning environment and assessment process fair and equitable for all learners.

이 원고에서는 임상 학습자에 초점을 맞춘 평가의 편향성에 대한 개요를 제공합니다. 평가에 대한 접근 방식의 역사적 맥락에 뿌리를 두고 편견을 정의하고, 평가에서 유해한 편견이 어떻게 도입되고 나타나는지 설명하며, 그 결과를 개괄적으로 설명합니다. 편견은 평가의 타당성과 공정성을 위협하며 학습자, 환자 및 간병인, 지역사회 및 의학 분야에 해를 끼칩니다. 메시크의 타당도 프레임워크의 관점에서 평가의 편향성을 살펴보고,6 의학교육에서 평가의 편향성을 해결하기 위해서는 공정성과 교육의 사회문화적 맥락에 대한 추가적인 고려가 필요하다는 점을 자세히 설명합니다. 편견을 극복하고 이상적인 평가 시스템을 구축하기 위한 권장 사항을 제시합니다. 
This manuscript provides an overview of bias in assessment with a focus on clinical learners. Rooted in the historical context of approaches to assessment, we define bias, describe how harmful bias is introduced and manifests in assessment, and outline its consequences. Bias threatens the validity and fairness of assessment, with harm to learners, patients and caregivers, communities, and the field of medicine. We examine bias in assessment from the perspective of Messick’s validity framework,6 elaborating how addressing bias in assessment in medical education requires additional consideration of fairness and the sociocultural context of training. We present recommendations to overcome bias and create an ideal assessment system.

평가의 편향성: 정의, 원인 및 결과
Bias in Assessment: Definition, Causes, and Consequences

옥스퍼드 고급 학습자 사전에서는 편향bias일반적으로 불공평하다고 여겨지는 방식으로 한 사물, 사람 또는 그룹을 다른 사물, 사람 또는 그룹과 비교하여 찬성하거나 반대하는 편견prejudice으로 정의합니다. 편향은 해석을 돕기 위해 정보를 분류하려는 인간의 타고난 경향에서 비롯됩니다. 예를 들어, 임상 의사 결정에서 임상의는 방대한 정보를 이해하고 패턴을 식별하여 진단을 용이하게 하는 휴리스틱 또는 인지적 지름길을 사용합니다. 편향은 긍정적일 수도 있고 부정적일 수도 있지만, 이 원고에서는 해로운 편견에 초점을 맞춥니다. 학습자 평가에서 학습자의 능력과 성과에 근거하지 않은 평가자의 범주화, 해석 및 가정에서 발생하는 편견은 구조적으로 억압받는 집단의 학습자에게 불균형적이고 부정적인 영향을 미칩니다. 
The Oxford Advanced Learner’s Dictionary defines bias as prejudice in favor of or against one thing, person, or group compared with another, usually in a way considered unfair. Bias arises from innate human tendencies to categorize information to aid interpretation. For example, in clinical decision making, clinicians employ heuristics, or cognitive shortcuts, that enable making sense of voluminous information and identifying patterns to facilitate diagnoses. While bias can be positive or negative, this manuscript focuses on harmful bias. In learner assessment, bias that arises from assessors’ categorizations, interpretations, and assumptions that are not based on learners’ ability and performance disproportionately and negatively affects learners from structurally oppressed groups.

의학 교육에서 편향이 평가에 영향을 미친다는 증거가 점점 더 많아지고 있습니다. 예를 들어, 인종적/민족적 배경이 소수인종인 학습자는 커리큘럼 자료와 일상적으로 접하는 고정관념 및 미시적 공격에서 해로운 인종주의, 차별, 편견에 직면합니다.7 여러 의과대학에서 소수인종 학생이 비 소수인종 학생보다 낮은 임상실습 성적을 받는 것으로 보이는 평가된 성과에서 소폭이지만 일관된 그룹 간 차이를 확인했습니다.1-3 이러한 차이는 향후 명예, 인정, 수상 및 기회에 있어 심각한 불공평을 초래합니다.1 레지던트 지원자를 분석한 결과, 다른 성과 척도를 통제한 후에도 인종, 성적 지향, 어린 시절 가정 소득을 기준으로 의학계에서 소외된 정체성을 가진 학생들은 경쟁이 치열한 레지던트 프로그램에 선발되는 데 도움이 되는 알파 오메가 알파 명예 의사회에 선발될 가능성이 동료들보다 낮았습니다.4,8 이러한 연구를 종합하면 의학교육 평가에 만연한 편향이 학습자와 미래의 의사 인력에 중요한 결과를 초래할 수 있음을 알 수 있습니다.
Growing evidence suggests bias plagues assessment in medical education. For example, learners from racial/ethnic backgrounds that are UIM face harmful racism, discrimination, and bias in curricular materials and in daily stereotypes and microaggressions they encounter.7 Multiple medical schools have identified modest but consistent group differences in assessed performance that appear to result in UIM students earning lower clerkship grades than non-UIM students.1–3 These differences create critical inequities in future honors, recognitions, awards, and opportunities for UIM learners.1 Analyses of residency candidates revealed that, after controlling for other measures of performance, students with identities marginalized in medicine based on race, sexual orientation, and childhood family income were less likely than their peers to be selected to the Alpha Omega Alpha Honor Medical Society, a coveted recognition that helps drive selection to competitive residency programs.4,8 Taken together, these studies demonstrate pervasive bias in medical education assessments with important consequences for learners and the future physician workforce.

여러 연구에서 여성보다 남성을 선호하는 성과 평가의 차이를 확인했지만 성별 편견에 관한 연구 결과는 엇갈렸습니다.9-12 응급의학과 레지던트 평가에서는 리더십 중심 역량에서 여성보다 남성이 더 높은 평가를 받았습니다.10 두 기관에서 최고 임상실습 성적을 받은 의대생의 서면 평가서를 분석한 결과,

  • 남성과 비 UIM 학습자를 설명하는 데 눈에 띄는 단어(예, "최상급")과 지식 및 역량과 관련된 단어가 더 많이 사용되었으며, 사용된 단어가 더 많은 반면,
  • 여성과 UIM 학생은 더 부드러운 언어(예: "좋은", "유능한")와 노력 및 협업과 관련된 단어로 설명되었습니다.13

여러 의과대학의 의대생 성과 평가에 포함된 언어를 텍스트 분석한 결과 성별과 인종에 따라 유사한 패턴이 나타났습니다.14 이러한 연구는 교차하는 의료 학습자 특성을 기반으로 평가된 성과에 편향이 있음을 시사합니다. 
Studies have revealed mixed findings regarding gender bias, although multiple studies have identified differences in ratings of performance favoring men over women.9–12 Evaluations in emergency medicine residency show higher ratings for men than women in leadership-oriented competencies.10 Analysis of written evaluations of medical students who earned top clerkship grades at 2 institutions revealed

  • more standout words (e.g., “superlative”) and more words relating to knowledge and competence used to describe men and non-UIM learners,
  • whereas women and UIM students were described with more muted language (e.g., “good,” “competent”) and words relating to effort and collaboration.13 

Textual analysis of language in Medical Student Performance Evaluations from multiple medical schools showed similar patterns based on gender and race.14 These studies suggest bias in assessed performance based on intersecting medical learner characteristics.

평가 편향은 다른 많은 학습자 특성과 관련해서도 발생합니다. 장애가 있는 학습자에게 적절한 편의를 제공하기 위한 정책과 절차의 부재는 편견에 뿌리를 두고 있을 수 있는 구조적 장벽을 나타내며 이러한 학습자가 평가에서 성공하는 데 방해가 됩니다.15 국제 의학 졸업생(IMG)의 경우, 시험의 평가 항목이나 임상 환경에서의 상호작용이 다른 문화권 출신에게 익숙하지 않은 시나리오나 언어를 제시하거나 다른 나라에서 교육받은 개인에게 익숙하지 않은 형식을 사용하는 경우 편향된 평가가 발생할 수 있습니다.16 레즈비언, 게이, 양성애자, 성전환자 또는 퀴어라고 밝힌 학습자는 최상의 수행 능력과 평가 능력을 방해할 수 있는 학대를 더 많이 경험합니다.17표 1은 위에서 언급한 범주에 대한 샘플 사례로 문제, 편견의 원인이 되는 요인, 대응을 안내하는 가치/원칙 및 잠재적 해결책을 강조합니다.
Assessment bias also arises related to many other learner characteristics. Lack of policies and procedures to implement appropriate accommodations for learners with disabilities represents a structural barrier that may be rooted in bias and inhibits these learners from achieving success in assessment.15 For international medical graduates (IMGs), biased assessment can arise if assessment items on an exam or interactions in the clinical setting present scenarios or language not familiar to someone from a different culture or use formats unfamiliar to individuals educated in a different country.16 Learners who identify as lesbian, gay, bisexual, transgender, or queer experience higher rates of mistreatment that can disrupt their ability to perform and be assessed at their best.17Table 1 presents sample cases for the categories mentioned above highlighting the problem, factors that contribute to biases, values/principles that guide response, and potential solutions.

편견에 대한 측정 및 사회문화적 관점
Measurement and Sociocultural Perspectives on Bias

평가의 편향성은 크게 두 가지 관점에서 고려할 수 있습니다.

  • 심리측정학적 측정 관점에서 볼 때, 평가의 문항이 인종, 성별, 사회경제적 지위 또는 종교와 같은 학습자의 특성으로 인해 학습자에게 불쾌감을 주거나 불공정한 불이익을 줄 때마다 평가 편향이 존재합니다.18 이러한 평가에서 도출된 추론은 특정 학습자에 대한 편향으로 인해 학습자의 성과를 부정확하게 반영하므로 타당하지 않습니다.
  • 평가에서 편견에 대한 관점을 넓히면 사회문화적 관점을 고려해야 하며, 이를 통해 유해한 편견이 교육에서 학습과 평가에 어떤 영향을 미치는지 살펴볼 수 있습니다. 예를 들어, UIM 그룹의 학습자는 고정관념의 위협과 미시적 공격으로 인해 학습 성과를 제약받습니다.19 교수자는 무의식적으로 학습자의 특성에 따라 학습 기회를 차별적으로 할당하여 불평등하고 유해한 학습 환경을 조성할 수 있습니다. 

Bias in assessment can be considered from 2 broad perspectives.

  • From a psychometric, measurement perspective, assessment bias exists whenever items on an assessment offend or unfairly penalize learners because of learner characteristics, such as race, gender, socioeconomic status, or religion.18 Inferences drawn from such assessments are invalid, reflecting learner performance inaccurately due to bias against certain learners.
  • Broadening views of bias in assessment invite consideration of sociocultural perspectives, which explore how harmful bias affects learning and assessment in training. For example, learners from UIM groups experience stereotype threat and microaggressions that, in turn, constrain their performance.19 Faculty may unknowingly assign learning opportunities differentially to learners based on their characteristics, creating inequitable and harmful learning environments.

측정 문제로서의 편향성
Bias as a measurement problem

통계학자들은 편향을 평가의 공정성과 정확성을 방해하는 측정 문제로 이해합니다. 평가의 편향은 특정 하위 그룹(예: 인종, 성별)에 대한 차별적 선호를 수반하며, 이는 선호 그룹의 구성원이 아닌 학습자에게 불쾌감을 주거나 불공정한 불이익을 줄 수 있습니다.18 편향의 결과에는 학습자의 성과를 저해하는 평가 콘텐츠를 접한 학습자 하위 그룹에 대한 의도하지 않은 불공정한 불이익이 포함됩니다. 교육 및 심리 검사 표준은 편향이 시험 구성의 두 가지 문제로 인해 공정성을 저해하는 방법을 설명합니다.20

  • 첫 번째는 구성 과소 대표성으로, 시험이 측정 대상인 구성을 너무 좁게 다룰 때 발생합니다.
  • 두 번째, 구성과 무관한 분산은 평가가 원하는 구성과 다른 것을 측정할 때 발생합니다.

표 2는 이러한 형태의 측정 편향이 검사 및 실제 임상 평가 환경에서 어떻게 발생하고 해를 끼치는지 설명합니다.
Statisticians understand bias as a measurement problem that interferes with the fairness and accuracy of assessments. Bias in assessment entails differential preference to a particular subgroup (e.g., race, gender) that can offend or unfairly penalize learners who are not members of the preferred group(s).18 Consequences of bias include unintended, unfair penalties for learner subgroups who encounter assessment content that inhibits their performance. The Standards for Educational and Psychological Testing explain how bias interferes with fairness due to 2 problems in test construction.20 

  • First is construct underrepresentation, which occurs when the test too narrowly addresses the construct being measured.
  • The second, construct-irrelevant variance, arises when assessments measure something different than the desired construct. 

Table 2 describes how these forms of measurement bias arise and cause harm in examination and real-world clinical assessment settings.


측정의 관점에서 볼 때, 특히 표본 추출 및 구조(평가 설계)와 관련하여 평가 개발 및 시행에서 해로운 편향이 발생할 수 있습니다.
From a measurement perspective, harmful bias may arise in assessment development and implementation, specifically regarding sampling and structure (assessment design).

평가에서의 샘플링.
Sampling in assessment.

평가에는 가능한 학습자 활동의 세계(사례 및 임상 문제)에서 지식, 기술 또는 행동의 대표 표본을 추출하는 작업이 수반됩니다. 학습에 대한 사전 결정된 기대치를 기반으로 표본을 추출하지 않으면 편견을 유발할 수 있는 잘못된 표본 추출 기법을 의미합니다. 필기 시험 또는 객관적이고 구조화된 임상 시험을 위한 계획된 샘플링은 시험 또는 평가 청사진을 통해 체계적으로 이루어집니다.21,22 평가할 내용과 요구되는 역량 수준에 대한 기대치가 모든 학습자에게 동일하게 명확하지 않으면 편향이 개입할 수 있습니다. 블루프린팅은 기대치와 평가를 일치시키고 구성 과소 대표성 및 구성과 무관한 분산으로 인해 발생하는 편향에 대한 해결책을 제공합니다. 
Assessment entails taking representative samples of knowledge, skills, or behaviors from a universe of possible learner activities—cases and clinical problems. Failure to sample based on predetermined expectations for learning represents poor sampling technique that can introduce bias. Planned sampling for a written examination or objective structured clinical examination is done systematically through test or assessment blueprints.21,22 Bias may interfere if expectations are not equally clear to all learners regarding what content will be assessed and what level of competence is required. Blueprinting aligns expectations and assessment and provides a solution to bias arising from construct underrepresentation and construct-irrelevant variance.

임상 환경에서는 평가의 편향성이 더 커질 위험이 있다. 교수진이 학습자의 임상 활동을 관찰하거나 어떤 환자가 병원이나 클리닉에 내원하는지에 따라 샘플링이 무작위로 이루어지기 때문이다. 

  • 편향의 위험을 해결하기 위한 첫 번째 해결책은 역량, 이정표 또는 행동 또는 활동 목록(목표 또는 위임 가능한 전문 활동)을 사용하여 기대치를 명확히 하여 감독자와 학습자가 기대치에 대한 공통된 이해를 안내하는 것입니다.
  • 직장 기반 평가(WBA)와 같이 학습자를 자주 관찰하도록 설계된 도구는 감독자(또는 동료, 환자 또는 기타 의료 전문가)가 병력 기록, 신체 검사 또는 임상 절차와 같은 특정 행동을 직접 관찰하고 문서화하는 빈번한 "샘플링"을 권장합니다.23,24
  • 세 번째 해결책은 학습자와 그들의 업무에 대한 많은 관찰이 역량과 발전에 대한 판단에 정보를 제공하도록 빈번한 샘플링입니다.25

In the clinical environment, sampling becomes more random—and bias in assessment more of a risk—based on what faculty members happen to observe learners doing clinically or which patients happen to present to the hospital or clinic.

  • A first solution to address the risk of bias is clarifying expectations using competencies, milestones, or a list of behaviors or activities (objectives or entrustable professional activities) to guide supervisors’ and learners’ common understanding of expectations.
  • A tool designed for frequent observation of learners, such as with workplace-based assessment (WBA), encourages frequent “sampling” as a supervisor (or peer, patient, or other health professional) directly observes and documents specific behaviors, such as history taking, physical exam, or clinical procedures.23,24 
  • A third solution is frequent sampling so that many observations of learners and their work inform judgments about competence and advancement.25

평가의 구조.
Structure in assessment.

모든 평가에서 구조structure는 구인construct과 무관한 분산과 평가 편향을 최소화하는 것을 목표로 하는 관리, 사례/항목 선택, 데이터 수집에 사용되는 도구 등의 표준화를 수반합니다. 평가 유형이나 형식에 따라 이러한 구조적 측면의 표준화는 다양한 스펙트럼으로 이루어질 수 있습니다. 일부 형태의 편향은 구조를 통해 완화될 수 있지만, 편향은 여전히 내용에서 발생하거나 평가자의 암묵적 편향에 의해 간섭을 받습니다. 임상 환경에서의 평가는 경험을 구조화하는 데 더 큰 어려움을 야기합니다. WBA와 임상 평가는 환자 상태, 팀 구성 및 관계, 평가 시기(종종 실제 수행 후 한참 지난 후), 맥락에 따라 가변성이 발생합니다. 미리 정해진 평가 도구로 구조를 도입하면 평가 데이터를 수집하고 측정하는 방법에 대한 지침을 얻을 수 있습니다. 그러나 완전한 표준화는 어렵고 아래 권장 사항에 자세히 설명된 대로 편견을 완화하기 위한 추가 전략이 필요합니다.
In any assessment, structure entails standardization—in administration, case/item selection, and instrument used to collect data—aimed toward minimizing construct irrelevant variance and assessment bias. A spectrum of standardization of these aspects of structure is possible, depending on assessment type or format. While some forms of bias may be mitigated through structure, bias still arises in content or interferes via rater implicit bias. Assessment in the clinical environment creates even greater challenges for structuring experiences. WBAs and clinical evaluations introduce variability in patient condition, team composition and relationships, timing of assessment (often long after actual performance), and context. Introducing structure with a predetermined assessment instrument provides guidance on how assessment data are collected and measured. However, full standardization becomes elusive and additional strategies to mitigate bias are needed, as elaborated in the recommendations below.

심리측정학자들은 이러한 표본 추출 및 구조의 문제를 인식하고 학습자의 성과(관심 구성)를 시험/문항 특성에서 분리하는 방법을 모색해 왔습니다. 차등 문항 기능(DIF)과 같은 기법은 비슷한 능력을 가지고 있지만 다른 특성(인종, 성별 등)을 가진 학습자가 다르게 수행하는 문항을 식별합니다.26 DIF와 같은 측정 솔루션은 편향을 감지할 수 있지만 의학 교육에서는 한계가 있습니다. 이러한 기법은 분석을 수행하기 위해 많은 수의 항목과 응시자가 필요합니다. 평가 내용이나 평가 정보가 사용되는 방식은 다루지 않습니다. 
Recognizing these problems with sampling and structure, psychometricians have sought ways to disentangle learner performance (the construct of interest) from test/item characteristics. Techniques such as differential item functioning (DIF) identify items on which learners of similar ability, but with different characteristics (race, gender, etc.), perform differently.26 While measurement solutions such as DIF can detect bias, they have limitations in medical education. These techniques require large numbers of items and test takers to conduct analyses. They do not address assessment content or how assessment information is used.

사회문화적 문제로서의 편향성
Bias as a sociocultural problem

실제 임상 환경에서 학습자 하위 그룹 간의 평가 성과 차이는 평가자의 접근 방식과 편견, 학습자의 배경, 경험 및 학습 준비, 각 학습자에게 주어진 학습 활동, 학습 환경 및 맥락에서 발생할 수 있습니다.27 이에 따라 해결책이 달라지고 편견을 완화하기 위한 포괄적인 접근 방식이 필요하므로 성과 차이의 원인을 이해하는 것이 필수적입니다(표 1). 사회문화적 관점에서 볼 때 평가 편향의 원인은 여러 가지가 있습니다. 
In the real-world clinical environment, differences in assessed performance between learner subgroups may arise from assessors’ approaches and biases; learners’ backgrounds, experiences, and preparation for learning; learning activities afforded each learner; and the environment and context of learning.27 Understanding causes of differential performance is essential because solutions will vary accordingly and a comprehensive approach to mitigating bias is needed (Table 1). From a sociocultural perspective, multiple sources of assessment bias exist.

평가자.
Assessors.

평가자 관행의 다양성은 편향된 평가로 나타날 수 있습니다. 일부 문제가 있는 평가자의 행동은 모든 학습자에게 영향을 미칩니다.

  • 관찰되지 않은 역량에 대해 학습자를 평가하거나,28
  • 지나치게 가혹하거나 관대한 평가를 제공하거나,29
  • 적시에 평가를 완료하지 않는 등 

실제 수행 능력과 무관한 이유로 임상 수행 능력이 낮게 평가될 수 있는 일부 학습자 그룹에는 추가적인 문제가 불균형적으로 영향을 미칩니다. 
Variability in assessor practices may manifest in biased assessment. Some problematic assessor behaviors affect all learners, such as

  • evaluating learners on competencies not observed,28 
  • providing overly harsh or lenient ratings, or
  • not completing timely assessments.

Additional problems disproportionately affect some learner groups whose assessed clinical performance may be lower for reasons unrelated to their actual performance.

암묵적 편견(개인 집단에 대한 부정적이고 해로운 사고 패턴)한 집단을 다른 집단보다 선호하는 휴리스틱을 수반합니다.29 휴리스틱은 인간이 정보를 덩어리로 묶고 가정을 세워 정보를 빠르게 처리하는 데 사용하는 인지적 지름길입니다.30 방대한 양의 데이터를 조작하고 처리하는 데 유용하지만, 인식하지 않으면 휴리스틱은 평가에서 편견을 조장할 수 있습니다. 예를 들어,

  • 평가자가 학습자가 속한 집단에 대한 고정관념에 근거하여 학습자의 숙련도에 대한 초기 결정을 내린 다음 더 이상 그 결정을 바꿀 수 있는 증거를 찾지 않을 때 평가에서 "조기 종결"이 발생합니다.
  • "후광 효과"는 개인에 대한 일반적인 인상(예: "훌륭한 사람!" 또는 "소심한 사람")이 여러 영역에 걸쳐 해당 학습자의 성과에 대한 인식에 영향을 미치면서 발생합니다.
  • 회상 편향은 평가자가 학습자를 관찰한 지 한참 후에 학습자에 대한 평가를 완료하여 학습자의 특성이나 문화에 대한 일반성에 고정된 평가를 내릴 때 발생할 수 있습니다.

종합적으로, 인지적 지름길은 편향된 평가에 기여할 수 있습니다. 이러한 위험을 인지한 학습자는 첫인상을 두려워하여 결과적으로 성적이 떨어질 수 있습니다. 
Implicit bias—negative, harmful patterns of thinking about groups of individuals—entails heuristics that favor one group over another.29 Heuristics are cognitive shortcuts that humans use to process information rapidly by chunking information and making assumptions.30 While useful to manipulate and process voluminous data, without awareness, heuristics may promote bias in assessment. For example,

  • “premature closure” in assessment arises when an assessor makes an initial determination about a learner’s proficiency, perhaps based on stereotypes about a group to which the learner belongs, and then no longer looks for evidence that could alter that determination.
  • The “halo effect” arises with a general impression of an individual (e.g., “great person!” or “timid person”) that influences perceptions of that learner’s performance across multiple domains.
  • Recall bias can arise when assessors complete assessments of learners long after observing them, precipitating anchoring on generalities around learner characteristics or culture.

Collectively, cognitive shortcuts can contribute to biased assessment. Learners who recognize this risk may fear the first impression they will make and consequently perform less well.

학습자.
Learners.

의료 학습자는 자신이 속한 집단에 대한 부정적인 고정관념을 충족하는 것을 두려워하는 심리적 현상고정관념 위협을 경험할 수 있습니다.19,31 인종/민족 고정관념 위협은 같은 인종/민족의 사람들이 평가 또는 기타 활동에서 성적이 떨어지는 경향이 있다는 내부 대화로 인해 궁극적으로 성과가 저하되는 개인에게 영향을 미칩니다. 의학에서 고정관념 위협은 학생의 인종/민족을 통제하더라도 핵심 임상실습에 대한 평가 성과와 반비례합니다.32 만성적인 고정관념 위협[개인이 시험의 타당성, 지식의 영역 또는 교수자의 역량을 무시하여, 노력을 덜 투자하고, 결과적으로 더 낮은 성과를 내는 현상]인 도메인 탈동일시를 생성합니다.33
Medical learners can experience stereotype threat, a psychological phenomenon in which individuals fear fulfilling negative stereotypes about groups to which they belong.19,31 Racial/ethnic stereotype threat affects individuals whose performance ultimately suffers because their internal dialogue tells them that people of their same race/ethnicity tend to perform less well on an assessment or other activity. In medicine, stereotype threat is inversely associated with assessed performance on core clerkships, even when controlling for a student’s race/ethnicity.32 Chronic stereotype threat generates domain disidentification: a phenomenon in which individuals may discount the validity of tests, domains of knowledge, or competence of an instructor and thereby invest less effort and subsequently perform more poorly.33

부록 디지털 부록 1(https://links.lww.com/ACADMED/B415 참조)에서는 성별, 인종/민족, 성적 지향, 능력 상태 및 IMG로서의 경험에 따라 일부 학습자의 성과 및 평가에 부정적인 영향을 미치는 위협의 전체 목록을 제공하지 않습니다.
In Supplemental Digital Appendix 1 (available at https://links.lww.com/ACADMED/B415), we provide a nonexhaustive list of examples of threats that negatively impact performance and assessment of some learners based on gender, race/ethnicity, sexual orientation, ability status, and experience as an IMG.

acadmed_2023_04_18_hauer_acadmed-d-23-00419_sdc1.pdf
0.17MB

학습 환경.
Learning environment.

학습 환경은 일부 학습자가 학습하고 자신의 역량을 입증하려고 할 때 불평등하게 불리하게 작용할 수 있습니다. 학습자와 평가자 간의 정체성 차이는 학습과 평가에 영향을 미치는 암묵적 편향을 촉발할 수 있습니다.34 편향은 학습 기간 동안 일부 학습자 또는 학습자 그룹이 자신의 기술을 연습하고 시연할 수 있는 기회가 차별적으로 주어질 때 발생합니다. 연습, 피드백 및 개선의 기회를 제공하는 학습 활동은 학습자 특성에 따라 다르게 할당될 수 있습니다. 일부 학습자가 이전의 개인적, 가족적 또는 직장 경험을 바탕으로 더 많은 이해를 가지고 참여하는 경우 학습자 그룹에 따라 성과 기대치의 명확성이 달라질 수 있습니다. 
The learning environment may unequally disadvantage some learners as they learn and attempt to demonstrate their competence. Differences in identities among learners and their assessors can precipitate implicit bias affecting learning and assessments.34 Bias arises during periods of learning when some learners or learner groups have differential opportunities to practice and demonstrate their skills. Learning activities, which drive opportunities for practice, feedback, and improvement, may be assigned differently based on learner characteristics. The clarity of performance expectations may vary for learner groups if some learners enter with greater understanding based on prior personal, family, or work experiences.

미세 공격[자신의 정체성에 대한 적대감을 나타내는 대인 관계 언어적 또는 행동적 거부감]으로35, 의학계에 만연해 있으며 의대생의 인종/민족적 고정관념 위협의 주요 유발 요인입니다.19 미세 공격은 대상자에게 심리적 및 생리적 고통을 유발하며, 미세 공격은 누적적으로 학습자의 소속감과 안전감에 타격을 줍니다.36 미세 공격은 학생 성과에 부정적인 영향을 미칠 수 있는 우울 및 불안 증상 등 부정적인 정신 건강 결과와 연관됩니다.37 
Microaggressions are interpersonal verbal or behavioral snubs that indicate hostility to one’s identity35; they are pervasive in medicine and a key trigger of racial/ethnic stereotype threat in medical students.19 Microaggressions cause psychological and physiological distress in targeted individuals; microaggressions cumulatively take a toll on learners’ feelings of belonging and safety.36 Microaggressions are associated with adverse mental health outcomes, including greater depressive and anxiety symptoms, conditions that may adversely affect student performance.37

타당성과 공정성 추구를 통한 편견 최소화
Minimizing Bias Through Pursuit of Validity and Fairness

타당도 프레임워크
Validity framework

모든 평가의 목표는 타당하고 공정한 결정을 내리는 것입니다. 교육자는 특정 상황에서 주어진 도구에 대한 타당도 증거의 출처를 고려해야 합니다. 그러면 타당도는 사용 가능한 증거에 의해 뒷받침되는 주장이 됩니다. Messick의 통합 타당도 프레임워크에는 5가지 타당도 근거 소스가 포함되어 있습니다(표 3).6 의학교육 환경의 복잡성과 평가되는 역량의 범위는 공정하고 편견을 최소화하는 타당도에 대한 전반적인 접근 방식을 채택해야 할 필요성을 높입니다. 
The goal with any assessment is to render valid and fair decisions. Educators must consider sources of validity evidence for a given tool in a particular context. Validity then becomes an argument supported by available evidence. Messick’s unified validity framework includes 5 sources of validity evidence (Table 3).6 The complexity of the medical education environment and range of assessed competence heightens the need to employ an overall approach to validity that is fair and minimizes bias.

공정성
Fairness

공정성은 타당성과 밀접하게 연관되어 있습니다. 좋은 평가 관행의 특징으로서 공정성에 대한 광범위한 지지에도 불구하고, 평가의 공정성에 대한 단일 정의는 없습니다. 공정한 평가는 학습자의 진정한 능력을 측정하고 보고합니다.20 따라서 공정성은 단순히 평가 절차나 결과의 평등이나 표준화가 아닙니다.38 The Standards에서는 공정성을 "개인의 특성과 시험의 맥락에 반응하여 점수가 의도한 사용자에게 타당한 해석을 산출하는 것"으로 정의합니다.20 공정성을 위해서는 평가가 의도한 구성과 무관한 특성으로 인해 일부 개인에게 불이익을 주어서는 안 됩니다.20 이 표준은 시험에 초점을 맞추고 있습니다.
Fairness is closely aligned with validity. Despite widespread endorsement of fairness as a hallmark of good assessment practice, fairness in assessment has no single definition. Fair assessment measures and reports learners’ true abilities.20 Therefore, fairness is not just equality or standardization of assessment procedures or outcomes.38 The Standards define fairness as “responsive to individual characteristics and testing contexts so that scores yield valid interpretations for intended users.20 To be fair, assessments should not disadvantage some individuals due to characteristics irrelevant to the intended construct.”20 These standards focus on testing.

이 백서에서는 특히 수많은 학습 경험과 환자 및 전문가 간 동료와의 상호작용이 있는 복잡한 임상 맥락에서 의료 학습자에 대한 모든 평가를 포함하도록 공정성에 대한 고려 사항을 넓혔습니다. [평가의 공정성을 정의하고 추구하는 것]은 편견을 해결하고 모든 학습자에게 도움이 되고 사회 개혁에 기여하는 이상적인 평가 접근법을 구상하는 데 매우 중요합니다.39 
In this paper, we broaden considerations of fairness to include all assessments of medical learners, particularly in the complex clinical context with myriad learning experiences and interactions with patients and interprofessional colleagues. Defining and pursuing fairness in assessment is critical to addressing bias and envisioning an ideal approach to assessment that serves all learners and contributes to social reform.39

공정성은 의학 및 사회에서 역사적으로 억압받아온 집단을 포함한 모든 학습자 집단에 대해 존재해야 합니다. 좋은 평가 관행은 의료 학습자 사이에서 증가하는 다양성을 인정하고 이를 충족시켜야 합니다.40 공정성은 모든 학습자와 환자, 지역사회, 교육 프로그램 리더(평가 데이터를 사용하여 프로그램의 질을 판단하거나 평가 데이터를 사용하여 학습자 또는 직원을 선발하는 사람)를 포함한 기타 의료 교육 이해관계자에게 중요합니다.
Fairness must exist for all learner groups, including groups historically oppressed in medicine and society. Good assessment practice must acknowledge and serve the increasing diversity among medical learners.40 Fairness matters to all learners and other medical education stakeholders, including patients, communities, and education program leaders (whose program quality may be judged using assessment data or who use assessment data to select learners or employees).

[타당도]평가가 측정하고자 하는 구조를 얼마나 잘 포착하는지를 다루는 반면, [공정성]개인의 특성, 배경, 평가 상황에 대한 반응성을 요구합니다.41 예를 들어, 특정 그룹의 학습자가 숙련도가 낮거나 참여도가 낮기 때문에 임상실습에서 유능하지 않다는 결론을 내리는 것은 해당 학습자에게 환자를 보거나 시술을 하거나 주치의에게 사례를 발표할 기회가 더 적게 주어진다면 불공정하고 편향된 결론이 될 수 있습니다. [공정성]은 모든 학습자가 측정 대상 구성에서 자신의 성취도를 입증할 수 있도록 하는 것을 포함합니다. 이러한 접근 방식에는 개인이 자신의 역량을 발휘할 수 있도록 표준화와 유연성이 모두 수반됩니다. 교육에서의 유니버설 디자인은 배경 특성과 능력에 관계없이 모든 학습자가 교육과 학습 환경에 접근하고 포용할 수 있도록 하는 철학적 접근 방식입니다.42 유니버설 디자인의 원칙에는 형평성, 유연성, 단순성, 오류 허용, 다양한 학생의 능력과 필요에 맞는 물리적 설계가 포함됩니다. 교육자는 접근 문제를 최소화하고 학습자가 필요한 편의를 요청할 수 있는 메커니즘을 만들어야 합니다. 학습 기회에 대한 접근성 보장평가의 공정성을 위한 발판을 마련합니다. 
Whereas validity addresses the degree to which an assessment captures the construct being measured, fairness also requires responsiveness to individual characteristics, backgrounds, and assessment contexts.41 For example, drawing conclusions that learners from a particular group are less skilled or less participatory and, therefore, less competent in a clerkship would be unfair and biased if those learners were afforded fewer opportunities to see patients, do procedures, or present cases to attendings. Fairness encompasses enabling all learners to demonstrate their achievement in the construct being measured. This approach entails both standardization and flexibility to ensure individuals can demonstrate their competence. Universal design in education is a philosophical approach to make education and the learning environment accessible and inclusive for all learners regardless of their background characteristics and abilities.42 Principles of universal design include equity, flexibility, simplicity, tolerance for error, and physical design amenable to a range of student abilities and needs. Educators must minimize access challenges and create mechanisms for learners to request needed accommodations. Assurance of access to learning opportunities sets the stage for fairness in assessment.

객관성과 주관성
Objectivity and subjectivity

객관성 또는 측정 정밀도에만 의존하는 것은 공정성과 동일시할 수 없으며 해로운 편견 문제를 해결할 수 없습니다.43 임상 수행 능력 평가에는 암묵적 편견에 취약한 개인적 의견을 포함하여 임상의의 주관적 판단이 필연적으로 포함될 수밖에 없습니다. 따라서 임상 수행 평가의 편향성은 단순히 객관성과 주관성의 문제로 이분화할 수 없습니다.43,44 평가의 객관성이라는 목표에 대한 집요한 의존은 의학교육의 맥락에서 그 명확성이 부족합니다.43,45 
Sole reliance on objectivity, or measurement precision, cannot equate to fairness and solve the problem of harmful bias.43 Clinical performance assessments inevitably incorporate clinicians’ subjective judgments, including personal opinions vulnerable to implicit bias. Hence, bias in clinical performance assessment cannot be simply dichotomized as an issue of objectivity and subjectivity.43,44 The tenacious reliance on the goal of objectivity in assessment falls short of its seeming clarity in the medical education context.43,45

평가에서 객관성과 주관성의 강점을 결합하는 것이 임상 평가에 더 적합합니다. 평가자 해석의 지속적인 차이는 의미 있는 정보를 나타낼 수 있습니다.46 평가자 교육은 평가자 간의 일관성을 개선하고 특이성의 함정을 인식하게 할 수 있지만, 교육이 인식과 접근 방식에서 개인의 다양성을 제거하지는 않습니다.47 교육자가 학습자의 성과를 명확하고 상세하게 설명하는 기술과 어휘를 갖추면 학습자와 프로그램에 유용하고 실행 가능한 정보가 생성됩니다.48 여러 활동과 평가자로부터 정보를 샘플링하고 수집하면 하나의 평가가 평가 결과에 불균형하게 영향을 미칠 위험을 완화할 수 있습니다. 평가 프로그램 설계에서 정당한(필요, 바람직한) 변수와 부당한 변수를 구분하고 평가 편향 등 부당한 변수를 해결하기 위해 지속적인 품질 개선을 위한 강력한 절차를 구축하는 것은 앞으로 나아갈 수 있는 단계를 제공합니다.49 
A combination of the strengths of both objectivity and subjectivity in assessment is better suited to clinical assessment. Persistent differences in raters’ interpretations may represent meaningful information.46 While rater training can improve consistency among raters and bring awareness to the pitfalls of idiosyncrasy, training does not eliminate individual variability in perceptions and approaches.47 Equipping educators with skills and vocabulary to describe learners’ performance in clear and detailed narratives produces useful, actionable information for learners and their programs.48 Sampling and collecting information from multiple activities and assessors mitigates the risk that any one assessment disproportionately influences assessment outcomes. Distinguishing warranted (necessary, desired) and unwarranted variation in assessment program design and building robust procedures for continuous quality improvement to address unwarranted variability, including bias in ratings, offer steps forward.49

권장 사항
Recommendations

유해한 편견을 피하는 이상적인 평가 시스템에 필수적인 5가지 영역과 12가지 구체적인 권장 사항을 제시합니다(표 4).
We present 5 domains essential to an ideal assessment system that avoids harmful bias, with 12 specific recommendations (Table 4).

평가를 안내하는 명확한 가치 표현
Articulate values to guide assessment

1. 평가 설계 및 실행을 환자와 학습자 중심의 가치와 일치시킵니다.
1. Align assessment design and practices with values centered on patients and learners.

해로운 편견을 피하고 평가의 공정성을 달성하려면 의료 학습자를 평가하는 접근 방식을 주도하는 가치를 명확히 해야 합니다(목록 1).50 모든 학습자 그룹이 최상의 학습과 수행을 할 수 있는 기회를 보장하는 것이 공정하고 공평한 평가의 특징입니다.38 루시와 동료들은 다음과 같이 썼습니다:

  • "평가의 공평성은 모든 학생이 의학 분야에서 미래의 성공을 예측할 수 있는 성취를 입증하여 학습, 평가, 코칭, 채점, 진급, 졸업 및 후속 기회에 선발될 수 있는 공정하고 공평한 기회를 가질 때 존재하며, 학습 경험이나 평가가 학습자 또는 평가자의 개인적 또는 사회적 특성과 관련된 구조적 또는 대인적 편견에 의해 부정적 영향을 받지 않을 때 나타납니다."5

현재 많은 교육 기관에서 다양성, 공평성 및 포용에 관한 가치를 명시하여 평가의 편향성에 대한 관점을 넓히고 사회 문화적 관점을 통합하는 것이 중요하다는 것을 강조하고 있습니다. UIM 학습자보다 비 UIM 학습자를 선호하는 평가 시스템을 설계하고, 평가 결과의 타당성에 의문을 제기하지 않고 평가 결과의 그룹 간 차이를 용인하는 것은 편견을 최소화하고 형평성을 증진하겠다는 명시된 약속에 모순됩니다. 평가 개선은 인종/민족에 따른 성취도 차이를 해결하고 의학교육의 결과에 대한 기관의 책임을 인정하기 위한 주요 전략입니다.51 
Avoiding harmful bias and achieving fairness in assessment entail articulating values that drive the approach to assessing medical learners (List 1).50 Ensuring all learner groups have opportunities to learn and perform at their best characterizes fair and equitable assessment.38 Lucey and colleagues write:

  • “Equity in assessment is present when all students have fair and impartial opportunities to learn, be evaluated, coached, graded, advanced, graduated, and selected for subsequent opportunities based on their demonstration of achievements that predict future success in the field of medicine, and that neither learning experiences nor assessments are negatively influenced by structural or interpersonal bias related to personal or social characteristics of learners or assessors.”5 

Many education institutions now articulate values around diversity, equity, and inclusion that emphasize the importance of broadening views on bias in assessment and incorporating sociocultural perspectives. Designing assessment systems that favor non-UIM learners over UIM learners, and condoning group differences in assessed outcomes without questioning the validity of those outcomes, contradict stated commitments to minimize bias and promote equity. Improving assessment is a primary strategy to address differential attainment based on race/ethnicity and acknowledge institutional accountability for outcomes in medical education.51


목록1. 편견을 완화하고 공정성과 형평성을 증진하기 위해 의료 학습자 평가 접근 방식을 주도하는 가치 
List 1 
Values That Drive the Approach to Assessing Medical Learners to Mitigate Bias and Promote Fairness and Equity

1. 평가는 공정하고 공평해야 합니다.
1. Assessment must be fair and equitable.

2. 의학교육에서의 평가는 모든 학습자가 공평하게 배우고 발전할 수 있는 기회를 제공하는 데 기여해야 합니다.
2. Assessment in medical education must contribute to equitable opportunities for all learners to learn and advance.

3. 의학교육은 환자와 인구가 필요로 하는 의료 서비스를 제공할 준비가 된 의사를 양성하는 데 목적이 있습니다.
3. Medical education serves the purpose of training physicians prepared to provide the health care that patients and populations need.

4. 평가는 사회 정의와 건강 형평성을 증진할 수 있는 학습자의 능력을 키워야 합니다.
4. Assessment should foster learners’ ability to promote social justice and health equity.

5. 적응형 학습자 기술 및 성장 마인드를 습득하여 의료 학습자가 의사 경력 전반에 걸쳐 적응하고 개선할 수 있도록 준비시킵니다.
5. Master Adaptive Learner skills and a growth mindset prepare medical learners to adapt and improve throughout their physician careers.


평가 시스템 설계 및 실행은 학습자의 발달적 성장에 가치를 두고 모든 학습자의 성공을 보장하기 위한 노력을 보여 주어야 합니다. 이러한 가치는 단일 평가 및 전체 평가 시스템의 공정성과 평가 결과가 의사 결정에 사용되는 방식에 대한 고려를 이끌어냅니다. 임상의와 환자의 다양한 관점과 경험을 초대하고 경청함으로써 포용성을 중시하는 것은 학습자와 교사의 행동 및 결과에 대한 중요한 결정을 내리는 데 도움이 됩니다. 이러한 가치는 편견을 최소화하고 공정성을 달성하기 위해 활용할 수 있는 총체적인 학습자 선택, 표준 설정 및 전문가 합의 모델과 공감을 불러일으킵니다.
Assessment system design and implementation should demonstrate value placed on learners’ developmental growth and commitment to ensuring all learners’ success. These values also drive consideration of fairness for single assessments and the entire assessment system, and how assessment results are used to make decisions. Valuing inclusivity by inviting and listening to diverse perspectives and experiences of clinicians and patients informs decisions about what learner and teacher behaviors and results are important. Such values resonate with practices of holistic learner selection, standard setting, and expert consensus models, which can be leveraged to minimize bias and achieve fairness.

2. 편견을 줄이고 형평성을 지원하기 위한 교육기관 및 프로그램 정책을 작성합니다.
2. Write institutional and program policies to reduce bias and support equity.

평가의 편견을 최소화하려면 평가의 공정성과 형평성을 명문화하는 기관 정책이 필요합니다. 정책은 학습 기회와 경험, 평가, 성적 및 진급 결정에서 형평성과 억압 방지를 안내하고 지원해야 합니다.18 예를 들어,

  • 성과 결과의 그룹 간 차이를 모니터링하고 식별하기 위해 데이터 검토 및 분석이 필요한 정책을 시행하는 것은 편견을 해결하고 구조적 불평등을 완화하는 데 중요한 단계입니다.
  • 평가에 관한 정책은 또한 성과 평가에서 시험 점수에 과도한 가중치를 부여하여 연수생의 경력 발전 기회에 부정적인 영향을 미칠 수 있는 것을 방지하는 데 도움이 될 수 있습니다.
  • 이동 및 조기 경력 개발을 위한 자금 제공을 포함하여 다양한 정체성을 가진 제공자를 모집하고 유지하기 위한 기관, 주 및 국가 정책을 옹호하면 더 많은 인구를 대표하는 인력 개발을 촉진할 수 있습니다. 

Minimizing bias in assessment requires institutional policies that codify fairness and equity in assessment. Policies should guide and support equity and antioppression in learning opportunities and experiences, assessment, and grading and advancement decisions.18 For example,

  • implementing policies that require data review and analysis to monitor for and identify group differences in performance outcomes is a crucial step in addressing bias and mitigating structural inequities.
  • Policies about assessment can also help avoid the overweighting of exam scores in performance assessment, which might otherwise negatively impact trainees’ opportunities for career advancement.
  • Advocacy for institutional, state, and national policies to recruit and retain providers of diverse identities, including provision of funding for moving and early career development, promotes development of a workforce representative of the larger population.

학습과 성과를 촉진하는 평가 설계
Design assessment to foster learning and outcomes

3. 평가를 시스템으로 구현합니다.
3. Implement assessment as a system.

임상 평가는 전반적인 평가 시스템 내에서 개념화되어야 하며, 여러 개별 평가 소스의 정보를 결합하고 역량 기반 의학교육(CBME)의 통합 구조와 프로그램 평가 원칙을 사용하여 종합해야 합니다.25 교육 결과를 정의하는 프레임워크인 CBME는 학습자와 평가자에게 학습자 성과에 대한 명확한 기대치를 제공합니다.52 평가 시스템은 기준 기반 표준(동료와의 규범적 비교가 아닌 사전 정의된 표준과 비교)과 기대치를 사용하여 CBME 프레임워크에 맞게 조정할 수 있습니다. CBME에서는 모든 학습자가 이정표를 따라 성장하고 있다는 가정을 통해 개발과 개선을 정상화하고 개별 역량에 도달할 수 있는 기회를 제공합니다.27 
Clinical assessments should be conceptualized within an overall assessment system, combining information from multiple sources of individual assessments and synthesized using a unifying structure of competency-based medical education (CBME) and principles of programmatic assessment.25 As a framework that defines the outcomes of training, CBME affords clearly articulated expectations for learner performance for learners and assessors.52 Assessment systems can be tailored to align with the CBME framework, using criterion-based standards (comparing with a predefined standard rather than normative comparison with peers) and expectations. With CBME, the assumption that all learners are growing along milestones normalizes development and improvement and invites opportunity for individual paths to competence.27

프로그램식 평가는 CBME를 운영하기 위한 접근 방식으로, 그룹 의사 결정을 통해 모든 평가 데이터를 수집하고 검토하는 엄격한 절차를 보장합니다.53 프로그램식 평가에서는 단일 인상이나 점수로 결론을 내리는 것이 아니라 많은 평가 데이터 포인트가 전반적인 성과에 대한 판단에 기여합니다. 샘플링은 평가자 또는 활동의 가변성의 한계를 광범위하게 극복하고 공정성을 높이고 편견을 최소화하는 학습자 성과에 대한 균형 잡힌 관점을 생성합니다. 
Programmatic assessment is an approach to operationalize CBME, ensuring rigorous procedures to collect and review all assessment data using group decision making.53 In programmatic assessment, many assessment data points contribute to judgments about overall performance, rather than single impressions or scores driving conclusions. Sampling broadly overcomes limitations of variability in assessors or activities and creates a well-rounded view of learner performance that advances fairness and minimizes bias.

4. 학습자를 형성적으로 평가할 수 있는 기회를 극대화합니다.
4. Maximize opportunities to assess learners formatively.

고품질의 형성적 평가에 대한 노력은 편견을 극복하고 학습 및 평가의 형평성을 증진하는 데 도움이 됩니다. 고부담의 평가 전에 저부담의 평가를 통해 피드백을 제공하면 학습자가 피드백을 통해 성장한 모습을 보여줄 수 있습니다.40 이러한 관행은 연습 기회가 없었던 학습자에게는 놀랍고 연습 기회가 있었던 학습자에게는 익숙한 총평 형식 또는 내용일 때 발생하는 편견을 방지합니다. 학습자와 교사 간의 파트너십을 구축하기 위해 고안된 형성 평가는 모든 학습자에게 연습하고 피드백을 받을 수 있는 기회를 제공합니다.54 형성 평가에서

학습자의 역할은

  • 관찰과 피드백을 구하고
  • 학습 활동을 다시 시도하여
  • 해결할 학습 격차를 파악하는 것을 수반합니다.

감독자의 역할

  • 학습 기대치를 명확히 하고,
  • 학습자가 문제를 해결하거나 과제를 수행하는 과정을 관찰하고,
  • 구체적인 피드백을 제공하고,
  • 학습자가 자신의 성과를 반성하도록 유도하는 것입니다.  

A commitment to high-quality formative assessment helps overcome bias and promote equity in learning and assessment. Providing feedback through low-stakes before high-stakes assessment offers learners opportunities to demonstrate growth from feedback.40 This practice avoids the bias that arises when summative assessment formats or content are a surprise to learners who didn’t have practice opportunities and familiar to those who did. Formative assessment designed to create partnerships between learners and their teachers affords all learners opportunities to practice and receive feedback.54 

  • The learner role in formative assessment entails
    • seeking observation and feedback and
    • identifying learning gaps to address
    • by reattempting a learning activity.
  • A supervisor’s role is to
    • clarify learning expectations,
    • observe the learner working on problems or doing tasks,
    • provide specific feedback, and
    • engage the learner in reflecting on their performance.

평가 절차 준수
Attend to assessment procedures

5. 평가 설계 전반에 걸쳐 편향성을 고려합니다.
5. Consider bias throughout assessment design.

블루프린트을 사용하여 평가를 설계하고 평가 항목의 내용을 검토하는 것은 잠재적인 편향을 식별하고 바람직한 교육 결과에 초점을 맞추는 데 매우 중요합니다. 억압과 차별적 평가 결과를 지속시키는 개인적 편견과 구조를 포함하여 임상 주제와 편견의 원인을 모두 이해하는 전문가 또는 전문가 패널을 참여시켜 문항과 평가 도구/접근법을 검토하면 고정관념이나 편견을 지속시키는 문제가 있는 문항을 제거하거나 수정할 수 있습니다.51 이러한 전문가 검토자는 평가가 CBME 프로그램에 정의된 결과 기대치를 전체적으로 어느 정도 반영하는지 질문해야 합니다. 구조적으로 억압받는 배경을 가진 학습자 및 기타 개인으로 구성된 자문 그룹은 교육자에게 평가에 대한 자신의 경험을 알리고 편견을 최소화할 수 있는 영역을 제안할 수 있습니다. 
Using blueprints to design assessments and reviewing the content of assessment items is critical to identifying potential bias and maintaining focus on desired outcomes of training. Engaging experts, or an expert panel, who understand both the clinical subject matter and sources of bias, including individual biases and structures that perpetuate oppression and differential assessment outcomes, to review items and assessment tools/approaches enables removal or revision of problematic items that perpetuate stereotypes or bias.51 These expert reviewers should ask the degree to which the assessment overall reflects the outcome expectations defined in the CBME program. An advisory group of learners and other individuals from structurally oppressed backgrounds can inform educators about their experiences with assessment and suggest areas to minimize bias.

6. 편견을 최소화하는 평가 절차를 사용합니다.
6. Use rating procedures that minimize bias.

루브릭(마일스톤이 이러한 목적에 부합할 수 있음)을 사용하여 수행 기대치 및 수행 수준을 정의하는 구조에 부합하는 평가 척도를 개발하면 기준이 명확하고 일관되게 설정됩니다.55 학습자와 루브릭을 공유하면 교수자와 학습자가 이러한 이해에 일치하게 됩니다. 학습자의 이름 또는 사진을 숨길 수 있는 경우, 이 전략은 학습자에 대한 다른 관찰에 기반한 확증 편향(즉, 교수자가 평가 데이터를 학습자에 대해 이미 생각한 바를 확인하는 것으로 간주하는 것)을 완화할 수 있습니다. 
Using rubrics (milestones can serve this purpose) to develop construct-aligned rating scales that define performance expectations and levels of performance makes criteria clear and consistent.55 Sharing rubrics with learners aligns faculty and learners in this understanding. In cases where concealing learner names and/or photos is possible, this strategy may mitigate confirmation bias based on other observations of the learner (i.e., faculty member views the assessment data as confirmation of what they already thought of the learner).

7. 내러티브 평가를 통합합니다.
7. Incorporate narrative assessment.

학습자 성과에 대한 설명은 평가자가 일반적인 인상을 바탕으로 숫자를 부여하는 것이 아니라 학습자와 학습자의 작업을 관찰해야 합니다. 따라서 평가자는 미리 정의된 기대치에 대해 자신의 평가와 인상을 정당화해야 합니다. 소수 배경을 가진 학습자는 내러티브가 공평하고 유익하다고 강조합니다.27 
Descriptions of learner performance require that assessors observe learners and their work, rather than just assign a number based on a general impression. Thus, assessors are prompted to justify their ratings and impressions against predefined expectations. Learners from minoritized backgrounds highlight narratives as equitable and beneficial.27

8. 의사 결정에 그룹 프로세스를 사용합니다.
8. Use group processes for decision making.

평가 설계는 교수진 패널 간의 공동 토론을 통해 학습자의 진도 및 진도에 대한 합의된 결정에 도달하여 편견을 완화하도록 최적화할 수 있습니다. 평가 및 채점 시 그룹 검토는 개인의 편견 위험을 줄이고 구성원이 서로의 해석에 의문을 제기하고 이의를 제기함으로써 교수개발의 한 형태가 될 수 있습니다.56 그룹에는 채점 위원회, 진도 위원회 및 임상 역량 위원회가 포함됩니다.57,58 다양한 배경 특성(성별, 연령, 인종/민족 포함) 및 경험을 가진 다양한 그룹 구성원을 모집하면 평가 대상 학습자 집단을 반영하는 등 관점을 넓히고 의사 결정을 강화할 수 있습니다. 그룹 구성원은 자신의 책임과 업무 수행 방법에 대한 공유된 사고 모델을 협상해야 합니다.59 공유된 사고 모델은 기대 학습자 성과에 대한 이해, 평가 데이터 해석 및 기대치와 비교한 학습자의 성과에 대한 그룹의 의사 결정에 대한 접근 방식을 가이드합니다. 학습자의 진도에 대한 의사 결정을 담당하는 그룹은 편견을 피하기 위한 노력을 공유하고 편견을 최소화하기 위한 절차를 통합해야 합니다.56 학습자의 성과 관찰에 기반한 구조화된 토론은 비구조화된 토론, 그룹 응집력에 대한 과도한 헌신, 학습자에 대한 일화적 증거에 대한 과도한 의존에서 나타나는 편견을 최소화합니다.56 
Assessment design can be optimized to mitigate bias using collaborative discussion among a panel of faculty to reach consensus decisions on learner promotion and progress. Group review in assessment and grading reduces the risk of individual bias and can serve as a form of faculty development as members question and challenge one another’s interpretations.56 Groups include grading committees, progress committees, and clinical competency committees.57,58 Recruiting diverse group members with a range of background characteristics (including gender, age, race/ethnicity) and experiences, including those that reflect the learner population being assessed, broadens perspectives and strengthens decisions. Group members should negotiate a shared mental model of their charge and how they will accomplish their work.59 Shared mental models guide understanding of expected learner performance, interpretation of assessment data, and approaches to the group’s decision making about learners’ performance compared with expectations. Groups charged with decision making about learners’ progress must share commitment to avoiding bias and incorporate procedures to minimize bias.56 Structured discussions based on observations of learners’ performance minimize biases that manifest with unstructured discussions, excessive commitment to group cohesion, and overreliance on anecdotal evidence about learners.56

품질 보증 촉진
Promote quality assurance

9. 평가 시스템 설계, 유지 관리 및 개선에 다양한 배경과 관점을 가진 개인을 포함시킵니다.
9. Include individuals with diverse backgrounds and perspectives in assessment system design, maintenance, and improvement.

평가 시스템 설계, 선택한 도구 및 문항 검토, 표본 추출 및 채점 절차, 결과 검토에 다양한 목소리를 참여시키면 불공정한 문항이나 절차를 유발하는 편견을 발견할 수 있습니다. 예를 들어, 학습자 또는 커뮤니티 구성원은 고정관념을 고착화하거나 학습자 하위 그룹에 장벽을 제시하는 평가 도구 또는 항목을 식별할 수 있습니다. 이러한 절차에 학습자를 참여시키는 것은 학습자가 자신의 개발에 참여하기 위한 전략으로서 공동 제작에 대한 권장 사항을 준수하는 것입니다.60  
Engaging diverse voices in assessment system design, review of selected tools and items, procedures for sampling and scoring, and review of outcomes can reveal biases that drive unfair items or procedures. For example, learners or community members could identify assessment tools or items that perpetuate stereotypes or present barriers for subgroups of learners. Involving learners in these procedures adheres to recommendations for co-production as a strategy for learner engagement in their own development.60

10. 평가 데이터 및 결과를 모니터링합니다.
10. Monitor assessment data and consequences.

평가 시스템 내에 존재할 수 있는 편견을 발견하기 위해서는 정기적인 데이터 검토가 필수적입니다. 편향의 신호가 될 수 있는 하위 그룹 성과 차이에 대한 평가 데이터의 지속적인 검토를 안내하는 품질 개선 절차를 개발하면 적시에 개입할 수 있습니다.61 교육 프로그램은 평가 사무소와 협력하여 DIF 분석과 같은 심리측정 방법을 사용하여 편향의 신호를 조사하여 학습자가 속한 UIM 그룹에 따라 다르게 능력을 측정할 수 있는 평가 항목을 식별해야 합니다. 평가 결과는 교육 리더, 교수진, 학습자와 공유하여 투명성을 높이고 다양한 이해관계자의 정보를 바탕으로 문제를 해결할 수 있도록 해야 합니다. 교육자는 평가 데이터를 기반으로 부적절하거나 불공정한 점수 해석을 사용하지 않도록 보호하고 불평등을 지속시키는 절차를 적시에 수정해야 합니다. 
Committing to regular data review is essential to uncovering bias that may exist within the assessment system. Developing quality improvement procedures to guide ongoing review of assessment data for subgroup performance differences that can signal bias enables timely intervention.61 Educational programs should collaborate with offices of assessment to examine signals for bias using psychometric methods, such as DIF analyses, to identify assessment items that may measure ability differently based on UIM groups to which the learner belongs. Results should be shared with education leaders, faculty, and learners to promote transparency and enable problem solving informed by diverse stakeholders. Educators must safeguard against using inappropriate or unfair score interpretations based on assessment data and make timely corrections to procedures that perpetuate inequity.

공평한 학습 및 평가 환경 조성
Foster an equitable learning and assessment environment

11. 학습의 맥락을 최적화합니다.
11. Optimize context of learning.

이 원고에서 다루지 않았지만, 모든 학습자가 연습하고, 피드백에 대해 토론하고, 최고의 성과에 따라 평가받을 수 있는 기회를 경험하려면 학습 환경에 대한 관심이 중요합니다. 모든 학습 환경에서 임상 팀 내에서 포용성을 배양하고 미세공격을 최소화하는 전략이 이러한 목표를 지원합니다.

  • 학습자가 차별이나 괴롭힘 사례를 보고할 수 있는 시스템을 구축하면 학습자에게 권한을 부여하고 문제가 있는 개인과 구조를 파악할 수 있습니다. 이 시스템은 필요한 경우 기관의 조사와 조치로 이어져야 합니다.
  • 구조적으로 억압받는 집단에서 교수진을 채용하면 모든 학습자의 학습 환경이 개선되고 평가에서 형평성을 추구하는 교수진의 역량이 강화됩니다.51
  • UIM 학습자를 위한 멘토십 프로그램은 소속감을 고취하고 교육 프로그램 전반에 걸쳐 지원을 제공할 수 있습니다.
  • 장애 자원 담당자가 주도하는 잘 홍보된 편의 제공 프로세스는 장애 학습자의 공정성을 촉진합니다. 

Though beyond the scope of this manuscript, attention to the learning environment is critical for all learners to experience opportunities to practice, discuss feedback, and be assessed based on their best performance. Strategies to cultivate inclusivity within clinical teams in all learning environments and minimize microaggressions support this aim.

  • Creating a system for learners to report instances of discrimination or harassment empowers them and identifies problematic individuals and structures. This system must lead to institutional investigation and action when appropriate.
  • Recruiting faculty from structurally oppressed groups improves the learning environment for all learners and strengthens the ability of the faculty at large to pursue equity in assessment.51 
  • Mentorship programs for UIM learners can promote feelings of belonging and offer support throughout the training program.
  • A well-advertised accommodations process led by disability resource personnel promotes fairness for learners with disabilities.

12. 평가의 편견과 공정성에 대한 교수진 개발을 제공합니다.
12. Provide faculty development on bias and fairness in assessment.

평가의 편향성은 교수자 개발을 통해 모든 수준에서 잠재적으로 완화될 수 있습니다. 학습자와 피드백을 논의하거나, 학습자의 성과에 대한 더 높은 수준의 평가에 참여하거나, 평가를 개발하고 해석하는 교수진은 편향성에 대한 교육이 필요합니다. 교육의 목표는

  • 첫째, 암묵적 편견의 가능성과 학습자 평가에 대한 자신의 편견에 대한 취약성을 인식하고
  • 둘째, 반성과 지속적인 학습을 촉진하는 것입니다.62

편견을 완전히 제거할 수는 없지만, 암묵적 편견을 식별하고 최소화하는 기술을 포함하여 편견을 해결하기 위한 전략을 교육할 수 있습니다. 사기꾼 증후군, 고정관념 위협, 미세 공격에 대처하는 심리적으로 안전한 학습 환경 조성에 관한 교육을 통해 교수진은 학습자가 최고의 학습과 성과를 달성할 수 있는 환경을 조성할 준비를 할 수 있습니다. 
Bias in assessment can potentially be mitigated at all levels through faculty development. Faculty who discuss feedback with learners, participate in higher-stakes assessment of learner performance, or develop and interpret assessments require training about bias. The goals of training are:

  • first, to bring awareness to the potential for implicit bias and for one’s own vulnerability to bias in ratings of learners, and
  • second, to promote reflection and continued learning.62 

While bias may not be fully eliminated, strategies to address bias can be trained, including skills to identify and minimize implicit bias. Training about creating psychologically safe learning environments that addresses imposter syndrome, stereotype threat, and microaggressions prepares faculty to foster environments that allow learners to achieve their best learning and performance.

평가의 질에 대한 교수진에 대한 피드백은 교육의 중요한 구성 요소입니다.63 워크숍에 참석하거나 자료를 검토한 교수진은 교육이 끝난 것이 아니라 임상의가 임상에서 계속 배우고 개선하는 것처럼, 교육은 교육자를 위한 지속적인 개선 과정입니다. 구조화된 도구를 사용하여 학습자의 임상 성과에 대한 교수자 평가 및 서술형 평가의 품질을 측정한 다음 해당 정보를 교수자 평가자에게 제공하면 후속 평가의 품질이 향상됩니다.64
Feedback to faculty on the quality of their assessments is an important component of training.63 Faculty who attended a workshop or reviewed materials are not done with their training; rather, training is an ongoing process of continuous improvement for educators, just as clinicians continue to learn and improve in their clinical practice. Using a structured tool to measure quality of faculty ratings and narrative assessments of learners’ clinical performance and then providing that information to faculty raters improves their subsequent assessment quality.64

결론
Conclusions

이 문서에서는 임상 학습자를 중심으로 평가에서 유해한 편견의 결과적 영향에 대한 개요를 제공합니다. 편견에 대한 정의를 제공하고 측정, 의학교육 및 사회문화 분야 전반에 걸친 문헌을 종합합니다. 유해한 편견을 입증하는 증거가 증가하고 있지만, 여전히 커뮤니티에서 더 많은 강조와 집단적 사고가 필요한 주제입니다. 이 가이드라인에서는 평가 편향을 완화하기 위한 권장 사항과 지침을 제시합니다. 

  • 평가 가치에 초점을 맞추고,
  • 평가 시스템 설계 및 평가 절차에 주의를 기울이고,
  • 그룹 심의 의사결정 과정학습자 홍보를 위한 모범 사례를 소개하고,
  • 형평성 관점에서 평가 시스템을 모니터링하고,
  • 평가 결과를 검토하고,
  • 공평한 학습 환경을 조성함으로써

이 가이드라인은 공정성 원칙과 타당성 증거에 부합하는 평가를 사용하여 학습자에게 학습 기회를 제공합니다. 우리는 방어 가능한 관련 절차 및 프로세스를 갖춘 강력한 평가 시스템을 개발하고, 학습자에게 공평한 방식으로 의미 있는 학습을 제공하며, 궁극적으로 환자 안전과 공중 보건을 보호하고자 합니다. 
This article provides an overview of consequential effects of harmful bias in assessments, focusing on clinical learners. We provide a definition of bias and synthesize literature across measurement, medical education, and sociocultural disciplines. While evidence documenting harmful bias is growing, it remains a topic that needs greater emphasis and collective thought from the community. We present recommendations and guidelines to mitigate assessment bias by

  • focusing on assessment values,
  • attending to assessment system design and assessment procedures,
  • introducing best practices for group deliberation decision-making processes and learner promotion,
  • monitoring the assessment system from an equity perspective,
  • reviewing assessment consequences, and
  • fostering an equitable learning environment.

These guidelines provide learning opportunities for learners through use of assessments that conform to principles of fairness and validity evidence. We aspire to develop robust assessment systems with associated procedures and processes that are defensible, provide meaningful learning to learners in an equitable manner, and ultimately protect patient safety and public health.


 

 

Acad Med. 2023 Apr 21. doi: 10.1097/ACM.0000000000005245. Online ahead of print.

 

 

"My Assessments Are Biased!" Measurement and Sociocultural Approaches to Achieve Fairness in Assessment in Medical Education

Affiliations collapse

Affiliations

1K.E. Hauer is associate dean for competency assessment and professional standards, and professor, Department of Medicine, University of California, San Francisco School of Medicine, San Francisco, California; ORCID: http://orcid.org/0000-0002-8812-4045.

2Y.S. Park is associate professor and associate head, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois; ORCID: http://orcid.org/0000-0001-8583-4335.

3J.L. Bullock is a fellow, Department of Medicine, Division of Nephrology, University of Washington School of Medicine, Seattle, Washington; ORCID: http://orcid.org/0000-0003-4240-9798.

4A. Tekian is professor and associate dean for international education, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois; ORCID: http://orcid.org/0000-0002-9252-1588.

PMID: 37094278

DOI: 10.1097/ACM.0000000000005245

Abstract

Assessing learners is foundational to their training and developmental growth throughout the medical education continuum. However, growing evidence shows the prevalence and impact of harmful bias in assessments in medical education, accelerating the urgency to identify solutions. Assessment bias presents a critical problem for all stages of learning and the broader educational system. Bias poses significant challenges to learners, disrupts the learning environment, and threatens the pipeline and transition of learners into health professionals. While the topic of assessment bias has been examined within the context of measurement literature, limited guidance and solutions exist for learners in medical education, particularly in the clinical environment. This article presents an overview of assessment bias, focusing on clinical learners. A definition of bias and its manifestations in assessments are presented. Consequences of assessment bias are discussed within the contexts of validity and fairness and their impact on learners, patients/caregivers, and the broader field of medicine. Messick's unified validity framework is used to contextualize assessment bias; in addition, perspectives from sociocultural contexts are incorporated into the discussion to elaborate the nuanced implications in the clinical training environment. Discussions of these topics are conceptualized within the literature and the interventions used to date. The article concludes with practical recommendations to overcome bias and to develop an ideal assessment system. Recommendations address articulating values to guide assessment, designing assessment to foster learning and outcomes, attending to assessment procedures, promoting continuous quality improvement of assessment, and fostering equitable learning and assessment environments.

보건의료전문직교육에서 학생의 학습동기와 성과에 평가가 미치는 영향: 검토와 실재주의자 통합(Acad Med, 2023)
The Effect of Assessments on Student Motivation for Learning and Its Outcomes in Health Professions Education: A Review and Realist Synthesis
Rashmi A. Kusurkar, MD, PhD, Cesar Orsini, MEd, DHPE, Sunia Somra, MSc, Anthony R. Artino Jr, PhD, Hester E.M. Daelmans, MD, PhD, Linda J. Schoonmade, and Cees van der Vleuten, PhD 

 

일반적으로 고등 교육, 특히 보건 전문직 교육(HPE)에서 저자들은 "평가가 학습을 주도한다", "학습을 위한/위한 평가", "학습으로서의 평가"와 같은 문구를 사용하여 평가가 학습에 미치는 영향에 대해 논의해 왔습니다.1-3 그러나 이러한 과학적 논의에서 평가가 학습 동기의 질과 그 결과에 미치는 영향은 대부분 소홀히 다루어져 왔습니다. 고부담 평가는 장기적으로 학생의 자율적 동기를 저해할 뿐만 아니라4 심리적 고통을 유발할 수 있기 때문에 이러한 격차는 중요합니다.5 따라서 고부담 평가가 동기 부여에 미치는 영향은 평가가 학습 및 심리적 안녕에 영향을 미치는 하나의 인과 메커니즘일 수 있습니다.6,7 이 검토에서는 평가가 학생의 학습 동기에 어떻게 영향을 미치고, 이는 다시 학습 및 심리적 안녕 결과에 영향을 미치는지에 대한 보건 전문직 교육자의 이해를 높이는 것을 목표로 하고 있습니다.  
In higher education, in general, and in health professions education (HPE), more specifically, authors have debated the effect of assessments on learning, with phrases like “assessment drives learning,” “assessment for/of learning,” and “assessment as learning” pervading the literature.1–3 However, the effect of assessments on the quality of student motivation for learning and its consequences have been largely neglected in this scientific dialogue. This gap is important as high-stakes assessments can not only hamper students’ autonomous motivation in the long term4 but also produce psychological distress.5 Thus, high-stakes assessment's effect on motivation could be one causal mechanism by which assessment influences learning and psychological well-being.6,7 In this review, we aim to improve health professions educators’ understanding of how assessments influence student motivation for learning, which in turn has an effect on learning and psychological well-being outcomes.

이 검토에서 심리적 안녕은 기분이 좋고 효과적으로 기능하는 것을 포함합니다.7 따라서 부정적인 심리적 안녕은 이 두 가지 중 하나 또는 둘 다 손상된 것으로 특징지어집니다.7 학습"연습 또는 다른 형태의 경험에서 비롯되는 행동의 지속적인 변화 또는 주어진 방식으로 행동할 수 있는 능력"을 의미합니다.8 
For this review, psychological well-being includes feeling good and functioning effectively.7 Thus, negative psychological well-being would be characterized as either or both of these being compromised.7 Learning denotes “an enduring change in behavior or the capacity to behave in a given fashion, which results from practice or other forms of experience.”8

교육자는 학생의 지식과 기술에 대한 총체적인 평가를 제공하는 것과 함께, 평가를 통해 학습을 이끌어내려는 의도를 가지고 있는 경우가 많습니다. 반면에 학생들은 학습보다는 '성과'에 초점을 맞추는 경우가 많습니다.9,10 이는 평가의 의도와 영향력 사이에 큰 차이가 있음을 나타냅니다. "2018 좋은 평가를 위한 합의 프레임워크"에서는 학생 동기와 관련된 교육적 효과와 촉매적 효과를 포함하여 평가에 대한 7가지 기준을 권장합니다.11

  • 교육적 효과는 학생이 교육적 혜택을 준비하고 생산하도록 동기를 부여하는 평가를 말하며,
  • 촉매적 효과는 교육을 창출, 개선 및 지원하는 이해 관계자에게 동기를 부여하는 결과와 피드백을 제공하는 평가를 말합니다.11

Along with providing summative evaluations of students’ knowledge and skills, educators often intend for assessments to produce learning. Students, on the contrary, often focus on “giving a performance” rather than on learning.9,10 This represents a major gap between the intention and impact of assessments. The “2018 consensus framework for good assessment” recommends 7 criteria for assessments, including that they have educational and catalytic effects that are concerned with student motivation.11 

  • Educational effects refer to assessments motivating students to prepare for and produce educational benefit, whereas
  • catalytic effects refer to assessments providing results and feedback that motivate stakeholders in creating, improving, and supporting education.11 

이 프레임워크에서는 교육적 혜택에 초점을 맞추기 때문에 동기 부여의 개념이 다소 제한적이며, 교육이 학생의 호기심을 불러일으키고 자극해야 한다는 동기 부여의 측면을 무시합니다.12,13 Lineberry는 학생 동기를 고려하고 교육에서 학습과 성과를 장려하는 주요 방법으로 평가를 사용할 것을 권장하는 "학습에 영향을 미치는 평가"의 개념을 제시합니다.9 그러나 이러한 접근 방식은 통제된 동기자율적 동기를 통해 학생의 학습을 촉진하는 것을 구분하거나 통제된 동기를 촉진하는 것이 자율적 동기에 해로운 영향을 미치는 문제를 다루지 않습니다.12,13 동기를 자율적 동기(진정한 관심 및/또는 개인적으로 지지하는 중요성)와 통제된 동기(내부 또는 외부 압력 또는 보상이나 제재에 따른 조건부)로 분류하는 동기 자기 결정 이론(SDT)은 통제된 동기보다는 자율적 동기를 촉진하기 위해 평가를 어떻게 개념화해야 하는지에 대한 지침을 제공할 수 있습니다.12,13 통제된 동기와 비교하여 자율적 동기는 심층 학습, 학업 성취도 향상, 창의성 및 심리적 안녕과 관련이 있습니다.12-14 자율적 동기를 자극하는 것은 자율성(학습에 대한 선택감), 유능감(학습 능력), 관련성(또래 집단에 대한 소속감)이라는 세 가지 기본 심리적 욕구의 충족에 달려 있습니다. 반대로 통제된 동기는 이러한 욕구의 좌절에 의해 자극됩니다.12-14 
In this framework, the concept of motivation is rather limited, as it focuses on the educational benefit, while ignoring the aspect of motivation suggesting education should inspire and stimulate student curiosity.12,13 Lineberry puts forward the concept of “assessment affecting learning,” which considers student motivation and recommends using assessment as the primary way of encouraging learning and performance in education.9 But, this approach does not differentiate between driving student learning through controlled and autonomous motivation or address the problem of how driving controlled motivation has a harmful effect on autonomous motivation.12,13 Self-determination theory (SDT) of motivation—which classifies motivation as autonomous (out of genuine interest and/or personally endorsed importance) and controlled (out of internal or external pressure or contingent on rewards or sanctions)—can provide guidance on how assessments should be conceptualized to foster autonomous rather than controlled motivation.12,13 Autonomous motivation as compared with controlled motivation is associated with deep learning, better academic performance, higher creativity, and psychological well-being.12–14 Stimulating autonomous motivation is contingent on the satisfaction of 3 basic psychological needs: autonomy (sense of choice in learning), competence (sense of capability for learning), and relatedness (sense of belonging to the peer group). In contrast, controlled motivation is stimulated by the frustration of these needs.12–14

SDT는 고부담의 평가가 학생들의 자율적인 학습 동기에 해로운 영향을 미치고 교육 관행을 부패시킬 수 있다고 가정합니다.4 교육자가 형성 평가총괄 평가를 구분한 후에도 학생들은 종종 형성 평가의 순간을 총괄 평가의 순간으로 인식하는 경우가 많습니다. 학생들은 형성 평가에서 최고의 성적을 거둔 순간을 선택하여 성적을 관리하려고 합니다.15 이는 평가가 미래의 교육 기회를 결정하는 데 도움이 되는 경우가 많다는 생각에 뿌리를 두고 있을 수 있습니다. 따라서 이러한 현상은 주로 학습을 위한 평가 기회로 설계된 프로그램 평가와 같은 정교한 평가 시스템이나 프로그램에서도 발생할 수 있습니다.16 프로그램 평가를 채택한 의과대학에서 학생들은 평가 결과에 대한 통제감을 느끼지 못할 때 형성 평가를 총괄 평가처럼 취급하는 것으로 나타났습니다.17 이는 특히 정답이 구조화된 지식 기반 평가의 경우, 교사와의 신뢰 관계가 부족하고 평가가 수행 능력 향상에 사용될 수 없는 경우 더욱 그렇습니다.17 또한 교사는 교육과정 개발자의 의도와 다르게 평가를 시행할 수 있습니다(예: 임상 감독자마다 역량 채점 기준을 다르게 적용하는 것으로 밝혀짐).3,18 이는 평가의 의도와 영향 사이의 격차를 확대할 수 있는 추가적인 요인입니다. 따라서 좋은 의도의 평가 시스템이나 프로그램이라도 잘못 시행하면 학생의 동기 부여에 역행할 수 있습니다.19 
SDT posits that high-stakes assessments have deleterious effects on students’ autonomous motivation for learning and can corrupt educational practices.4 Even after educators distinguish between formative and summative assessments in HPE, students often perceive formative moments as summative ones. They try to control their grades by choosing their best performance moments for their formative assessments.15 This may be rooted in the notion that assessments often help to determine future educational opportunities. This can, therefore, happen even in sophisticated assessment systems or programs, like programmatic assessment, which is primarily designed as an assessment for learning opportunity.16 In medical schools that have adopted programmatic assessment, students have been found to treat formative assessments like summative assessments when they do not feel a sense of control over the assessment outcome.17 This is especially true for knowledge-based assessments with structured answers, when there is a lack of a trusting relationship with teachers and when assessments cannot be used for improving performance.17 Moreover, teachers may implement assessments differently than intended by curriculum developers (e.g., different clinical supervisors have been found to apply standards for scoring competencies differently).3,18 This is an additional factor that can widen the gap between the intention and impact of assessments. Thus, even a well-intentioned assessment system or program may work against student motivation if implemented incorrectly.19

따라서 이 검토는 HPE 문헌에 보고된 바와 같이 평가가 동기에 미치는 영향과 그 결과를 조사하여 학생의 호기심과 자율적 동기를 자극하여 궁극적으로 학습과 장기적인 임상 성과 및 심리적 안녕을 촉진하는 평가를 설계하기 위한 과학적 근거를 제공하는 것을 목표로 합니다. 이 검토를 이끄는 연구 질문은 다음과 같습니다: HPE에서 평가는 학생의 학습 동기에 어떤 영향을 미치는가? 어떤 상황에서 어떤 결과를 가져오는가? 
Therefore, this review aims to examine the effect of assessments on motivation and its consequences, as reported in the HPE literature, thereby attempting to provide a scientific grounding for designing assessments that stimulate student curiosity and autonomous motivation which, in turn, should ultimately foster learning and long-term clinical performance and psychological well-being. The research questions guiding this review were: How do assessments affect student motivation for learning in HPE? What outcomes does this lead to in which contexts?

조사 방법
Method

체계적인 방식으로 검색을 수행했으며 데이터 분석을 위해 실재주의적 종합 방법을 사용했습니다. 방법론 논문과 함께 HPE에 게재된 현실주의적 검토를 인용하여 방법을 안내했습니다.20-24 
We conducted our search in a systematic manner and used realist synthesis method for data analysis. We used the cited realist reviews published in HPE along with methodology articles to guide our method.20–24

검색 전략
Search strategy

검색 전략은 정보 전문가(L.J.S.)와 함께 반복적으로 개발했으며, 실현 가능성을 고려하여 2010~2020년으로 제한했습니다.21 2020년 10월, 2010년 1월 1일부터 2020년 10월 29일까지의 논문을 포함하는 6개의 서지 데이터베이스(PubMed, Embase, APA PsycInfo, ERIC(교육자원정보센터), CINAHL, Web of Science Core Collection)에서 언어 제한 없이 종합적인 검색을 수행했습니다. 다음 용어는 색인어 또는 자유 텍스트 단어의 반복적으로 개발된 3개의 검색 문자열(동의어 및 밀접하게 관련된 단어 포함)에 사용되었습니다: "평가" 및 "동기 부여" 및 "보건 전문직 교육/학생"(보충 디지털 부록 1 참조). 중복 논문은 제외되었습니다. 더 관련성이 높은 논문을 찾기 위해 포함된 모든 논문의 참고문헌에 대해 눈덩이 검색을 실시했습니다. 
The search strategy was developed iteratively with an information specialist (L.J.S.) and was limited to 2010–2020 because of feasibility considerations.21 In October 2020, a comprehensive search was performed in 6 bibliographic databases—PubMed, Embase, APA PsycInfo, ERIC (Education Resources Information Center), CINAHL, and Web of Science Core Collection—that included articles from January 1, 2010, to October 29, 2020, with no language restrictions. The following terms were used in 3 iteratively developed search strings (including synonyms and closely related words) of index terms or free-text words: “assessments” AND “motivation” AND “health professions education/students” (see Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B420 for the full search strategy). Duplicate articles were excluded. A snowball search was conducted on the references of all included articles to identify more relevant articles.

포함 기준
Inclusion criteria

HPE에서 평가(모든 유형)가 학생의 학습 동기에 미치는 영향을 조사하고, 경험적 논문 및 문헌 고찰이며, 양적, 질적 또는 혼합 방법을 사용한 논문이 포함되었습니다. 
Articles were included if they investigated the effect of assessments (all types) on student motivation for learning in HPE; were empirical papers and literature reviews; and used quantitative, qualitative, or mixed methods.

제외 기준
Exclusion criteria

HPE가 아닌 집단을 조사했거나, 평가와 동기를 다루지 않았거나, 비경험적 출판물(의견, 관점, 편지, 사설, 논평, 논문, 학회 초록)이거나, 동기가 결과 측정이 아니거나 측정 또는 평가되지 않은 경우 논문은 제외되었습니다. 
Articles were excluded if they examined a non-HPE population, were not on assessments and motivation, were nonempirical publications (opinions, perspectives, letters, editorials, commentaries, dissertations, conference abstracts), or if motivation was not an outcome measure or was not measured or evaluated.

엄격성 및 관련성
Rigor and relevance

포함된 논문의 엄격성과 관련성은 사실주의적 합성을 위한 RAMSES(Realist and Meta-narrative Evidence Syntheses: Evolving Standards) 출판 표준에 명시된 대로 평가되었습니다.20,21 엄격성은 결과를 생성하는 데 사용된 방법의 신뢰성과 신뢰성을 평가했습니다. 관련성은 연구 질문에 답하는 데 있어 논문의 중요성을 평가했습니다.20 
The rigor and relevance of included articles were evaluated as specified by the RAMSES (Realist and Meta-narrative Evidence Syntheses: Evolving Standards) standards of publication for a realist synthesis.20,21 Rigor evaluated the credibility and trustworthiness of the method used to generate the results. Relevance evaluated the importance of the article in answering our research questions.20

사실주의 합성을 선택한 이유
Rationale for choosing realist synthesis

저희는 복잡한 주제, 즉 평가가 동기 부여에 미치는 영향이 학습 및 심리적 웰빙 결과에 미치는 영향이라는 의도된 결과와 의도하지 않은 결과를 연구하고 싶었습니다. 현실주의적 종합은 "어떤 메커니즘이 어떤 맥락에서 어떤 결과를 초래하는지"(맥락-기제-결과)를 탐구하기 때문에 우리 분석에 가장 적합한 방법이라고 생각했습니다.20,21 즉, 우리의 의도는 즉시 실제적으로 적용할 수 있는 개입을 찾는 것이 아니었기 때문에 Carrieri와 동료들이 설명한 현실주의적 검토 방법을 따르지 않았습니다(예, 모든 단계에서 중요한 이해관계자를 참여시켜 의사와 의대생의 정신건강 문제를 해결하는 데 가장 적합한 개입을 결정하는 것).25 대신 동기 부여에 영향을 미쳐 학습 및 심리적 웰빙 결과를 산출하는 평가 기능(예: 평가 내용, 형식)의 맥락-기제-결과 구성을 연구하고자 했습니다. 따라서 HPE의 특정 변수에 영향을 미치는 요인을 연구한 다른 저자들이 따르는 현실주의적 방법이 우리의 목표에 더 적합했습니다.21-24 
We wanted to study the intended and unintended consequences of a complex topic—the effect of assessments on motivation and hence on, among others, learning and psychological well-being outcomes. Because realist synthesis explores “which mechanisms lead to what outcomes in which contexts” (context–mechanism–outcome), it seemed to be the most suitable method for our analysis.20,21 That said, we did not follow the realist review method described by Carrieri and colleagues because our intention was not to find an immediately practically applicable intervention (e.g., to determine which intervention is best for tackling doctors’ and medical students’ mental ill-health by involving important stakeholders at all stages).25 Our intention was instead to study the context–mechanism–outcome configurations of assessment features (e.g., assessment content, format) that influence motivation and hence produce, among others, learning and psychological well-being outcomes. Thus, the realist method followed by other authors, who also studied factors influencing certain variables in HPE, suited our objectives better.21–24

데이터 추출
Data extraction

R.A.K.와 C.O. 또는 S.S.는 먼저 모든 제목과 초록을 읽고 포함 또는 제외를 결정한 후 전문을 읽고 추가 포함 또는 제외를 결정했습니다. 의견 차이는 회의에서 논의하고 합의를 통해 해결했습니다. 그런 다음 R.A.K.와 C.O. 또는 S.S.가 독립적으로 기사에서 실제 데이터 문장 또는 구문을 추출하고(보충 디지털 부록 2 참조), 합의를 통해 최종 확정했습니다. 그런 다음 R.A.K는 문맥-메커니즘-결과 데이터(보충 디지털 부록 3 참조)를 추출하여 C.O.와 S.S.가 독립적으로 확인했습니다. 의견 차이는 합의를 통해 해결되었습니다. 
R.A.K. and C.O. or S.S. first read all titles and abstracts to make inclusion or exclusion decisions followed by reading full texts to make further inclusion or exclusion decisions. Differences of opinion were discussed in a meeting and resolved through consensus. R.A.K. and C.O. or S.S. then independently extracted actual data sentences or phrases from the articles (see Supplemental Digital Appendix 2 at https://links.lww.com/ACADMED/B420), which was finalized through consensus. R.A.K then extracted context–mechanism–outcome data (see Supplemental Digital Appendix 3 at https://links.lww.com/ACADMED/B420), which was independently checked by C.O. and S.S. Differences in opinion were resolved through consensus.

데이터 분석
Data analysis

분석의 모든 단계는 R.A.K.가 수행했습니다. 각 단계는 최고운영책임자(CO)와 수석연구원이 독립적으로 확인했습니다. A.R.A. Jr는 무작위로 선정된 6개 논문의 코딩된 데이터를 확인했습니다. 
R.A.K. conducted all steps of the analysis. C.O. and S.S. checked each step independently. A.R.A. Jr checked the coded data of 6 randomly chosen articles.

첫째, R.A.K.는 자율적 또는 통제적 동기의 자극을 식별하기 위해 MAXQDA(버전 2020, VERBI GmbH, 독일 베를린)를 사용하여 SDT로부터 민감화 개념을 사용하여 데이터의 내용 분석을 수행했습니다. 
First, R.A.K. used MAXQDA (version 2020, VERBI GmbH, Berlin, Germany) to conduct a content analysis of the data using sensitizing concepts from SDT to identify stimulation of autonomous or controlled motivation.

둘째, 내용 분석에서 나온 코드를 맥락, 메커니즘 또는 결과로 분류했습니다. 자율적 또는 통제적 동기에 영향을 미치는 조건이 맥락을 구성했습니다. 자율적 또는 통제적 동기가 자극되는 방식은 메커니즘을 구성했습니다. 결과는 학습 및 심리적 웰빙 결과(예: 영감 감소, 성과 문화 조성)로 구성되었습니다.  
Second, she classified the codes from the content analysis as a context, mechanism, or outcome. The conditions which led to effects on autonomous or controlled motivation constituted the context. How autonomous or controlled motivation was stimulated constituted the mechanism. Outcomes comprised learning and psychological well-being outcomes, among others (e.g., decreased inspiration, creation of a performance culture).

셋째, R.A.K.는 맥락-기제-결과 구성을 추출하여 평가 기능이 자율적 또는 통제적 동기를 자극하는 방식에 대한 중요한 프로그램 이론을 제안했습니다. 여기서 제안된 현실주의 프로그램 이론은 연구팀 전체의 합의를 통해 최종 확정되었습니다. 
Third, R.A.K. extracted context–mechanism–outcome configurations to propose overarching program theories on how assessment features stimulate autonomous or controlled motivation. The realist program theories proposed here were finalized through consensus among the whole research team.

결과
Results

포함 및 제외 기준을 적용한 결과 15,291개의 논문 중 24개의 논문이 포함되었습니다(그림 1 참조).26-49 각 논문의 엄격성과 관련성은 부록 디지털 부록 2에 보고되어 있습니다.  
After applying the inclusion and exclusion criteria, 24 out of 15,291 articles were included (see Figure 1).26–49 The rigor and relevance of each article is reported in Supplemental Digital Appendix 2 (at https://links.lww.com/ACADMED/B420).

의대생 또는 레지던트를 대상으로 한 연구는 10건, 간호학과 학생을 대상으로 한 연구는 4건, 의대생과 간호학과 학생을 대상으로 한 연구는 1건, 영양학과 학생을 대상으로 한 연구는 2건, 수의학, 물리치료, 보건학, 구강보건, 의사 보조, 약학, 치의학 학생을 대상으로 한 연구는 각각 1건씩이었습니다. 유럽에서 11건, 호주에서 4건, 아시아와 미국에서 각각 3건, 캐나다에서 2건, 중동에서 1건의 연구가 수행되었습니다. 현실주의적 종합 접근법을 사용했기 때문에 이 리뷰에서는 다양한 평가의 특징에 중점을 두었습니다. 따라서 구체적인 평가는 여기서는 다루지 않았지만 부록 디지털 부록 4에 나열되어 있습니다. 
Ten studies were conducted on medical students or residents; 4 on nursing students; 1 on medical and nursing students; 2 on nutrition students; and 1 each on veterinary medicine, physiotherapy, health sciences, oral health, physician assistant, pharmacy, and dental students. Eleven studies were conducted in Europe, 4 in Australia, 3 each in Asia and the United States, 2 in Canada, and 1 in the Middle East. As we used a realist synthesis approach, we focused on the features of the different assessments in this review. The specific assessments were, therefore, not relevant, but are listed in Supplemental Digital Appendix 4 (at https://links.lww.com/ACADMED/B420). 

분석에서는 SDT의 민감 개념을 사용하여 어떤 평가 기능이 자율적 동기와 통제적 동기를 자극하는지 파악했습니다. 아래에서 이 두 가지 범주 각각에 대한 맥락, 메커니즘 및 결과를 보고합니다(주요 결과의 개요는 차트 1 참조).
In our analysis, we used sensitizing concepts from SDT, to identify which assessment features stimulated autonomous versus controlled motivation. We report the contexts, mechanisms, and outcomes for each of these 2 broad categories below (see Chart 1 for an overview of the main findings).

 

통제된 동기 부여
Controlled motivation

결과.
Outcomes.

통제된 동기를 자극하는 평가의 결과로는 다음 등이 있습니다.33

  • 외부 압력에 의한 노력 증가26-30, 
  • 표면적 및 전략적 학습(흥미 또는 향후 연습을 위해 학습을 희생하면서 평가될 가능성이 있는 내용만 학습)26-28,31-34, 
  • 학생 참여 및 학습 저해34, 
  • 학습에 대한 압박감, 불안, 좌절, 스트레스26,27,33, 
  • 학습 및 개발을 희생한 '성과 문화' 조성33, 
  • 평가 프로그램의 학습 잠재력 저해 

평가에서 통제된 동기를 자극하는 평가는 영감과 동기를 감소시키고35 학생들의 자기 효능감을 감소시키며, 직장 기반 학습에 대한 학생들의 성찰에 색을 입힙니다.33 학습에 대한 압박, 불안, 좌절, 스트레스, 영감 감소, 낮은 자기 효능감은 모두 부정적인 심리적 안녕의 지표로 간주될 수 있습니다.7 
The outcomes of assessments stimulating controlled motivation included

  • higher effort driven by external pressure26–30;
  • surface and strategic learning (learning only what is likely to be assessed, which happened at the expense of learning out of interest or for future practice)26–28,31–34;
  • undermining of student engagement and learning34;
  • feelings of pressure to study, anxiety, frustration, and stress26,27,33;
  • creation of a “performance culture” at the expense of learning and development33; and
  • undermining of the learning potential of an assessment program.33 

With assessments that stimulate controlled motivation failure in assessments decreased inspiration and motivation,35 reduced students’ sense of self-efficacy, and colored their reflections of workplace-based learning.33 Pressure to study, anxiety, frustration, stress, decreased inspiration, and low perceived self-efficacy can all be considered indicators of negative psychological well-being.7

맥락.
Contexts.

통제된 동기 부여의 자극은 다양한 맥락에서 일어났습니다. 평가(형성형31,32 또는 총괄형26-28,36,37)가 있다는 것만으로도 학습 또는 평가 준비에 대한 외적 동기를 유발했으며,34,38 고부담의 평가(면허 시험36 등),26 사실적 지식에 대한 강한 초점도 마찬가지였습니다.27 통제된 동기를 자극하는 다른 맥락으로는 경쟁 요소의 존재26,31, 성과와 관련된 압력,27 시간,26-28,35 감정,27 외부 보상,27 내적 이유(감독자의 기대 충족 욕구)36, 지식 부족 또는 실패를 드러내는 것에 대한 두려움 등이 있었습니다.26,27 임상 전문직 준비와 최종 시험 통과 사이의 갈등26,38 및 평가와 결합된 결과도 통제된 동기를 자극했습니다.39 평가의 단계는 평가가 끝날수록 동기가 떨어지는 것처럼 보였기 때문에 중요한 역할을 하는 것으로 보였습니다.40
Stimulation of controlled motivation happened in different contexts. The mere presence of assessments (formative31,32 or summative26–28,36,37) was an external motivator for learning or preparing for the assessments, as were the presence of grades,34,38 high-stakes assessments (like licensure examinations36),26 and a strong focus on factual knowledge.27 Further contexts stimulating controlled motivation included the presence of a competitive element26,31; pressures related to performance,27 time,26–28,35 emotions,27 external rewards,27 and internal reasons (the desire to fulfill supervisor’s expectations)36; and fear of disclosing a lack of knowledge or failure.26,27 Conflict between preparing for the clinical profession and to pass the final examinations26,38 and consequences being coupled with assessments also stimulated controlled motivation.39 The phase of the assessment seemed to play a role as motivation seemed to dip toward the end of the assessment.40

메커니즘.
Mechanisms.

평가는 여러 가지 메커니즘을 통해 통제된 동기를 자극했습니다.

  • 실습practice에 중요한 내용을 배우기 위해 공부하거나28 평가를 통과하기 위해 공부하도록 가해지는 외부 압력은 통제된 동기를 자극했습니다.27,31
  • 시험은 틀을 제공하고 학생들이 필요한 지식을 습득하고 우선순위를 정하도록 강요했습니다.28
  • 외부 압력보상은 통제된 동기를 유발하는 트리거로 작용했습니다.27,29,31,38,41,42
  • 평가는 통제된 동기를 유발하여 학생들이 평가를 위해 공부하고 연습하게 했습니다.27
  • 일부 형성 평가는 학생들의 통제된 동기를 자극하여 성취도를 높였습니다.31 평가 채점은 학생들이 양질의 과제를 제출하도록 동기를 부여했습니다.43
  • 형성 평가에서 출제된 문제가 기말 시험에 중요하다고 인식되는 경우 더 많은 학습 노력을 기울였습니다.31
  • 평가는 학생들이 더 많이 공부해야 한다는 압박감을 느끼게 하지만, 과목에 대한 흥미를 자극할 수도 있습니다.27
  • 외부 규제 기관과 규정의 존재는 평생 학습을 자극했습니다.36
  • 평가 결과에 대한 위임에 초점을 맞추면 학습자가 지속적으로 평가를 받는다는 인식과 평가가 형성적이기보다는 총괄적인 것으로 인식되는 것으로 나타났습니다.33 이러한 효과는 신뢰와 심리적 안전에 기반한 평가 프로그램의 학습 잠재력을 약화시킬 수 있습니다.33
  • 자율성과 감독되지 않은 연습에 중점을 두기 때문에 위임 언어는 학습과 개발을 희생하는 성과 문화로 이어질 수 있습니다.33 평가는 또한 불안과 좌절감을 유발했습니다.26,27,40,41 

Assessments stimulated controlled motivation through several mechanisms.

  • External pressure exerted to study to learn material that was important for practice28 or to study to pass assessments stimulated controlled motivation.27,31 
  • Examinations provided a framework and forced students to acquire and prioritize the required knowledge.28 
  • External pressures and rewards functioned as triggers for controlled motivation.27,29,31,38,41,42 
  • Assessments triggered controlled motivation, which made students study and practice for assessments.27 
  • Some formative assessments stimulated students’ controlled motivation and hence achievement.31 
  • Grading of assessments motivated students to submit high-quality work.43 
  • Questions asked in a formative assessment garnered more study effort if they were perceived to be important for final examinations.31 
  • Although assessments made students feel pressure to study more, they could also stimulate an interest in the subject.27 
  • The existence of external regulating bodies and regulations stimulated lifelong learning.36 
  • Focus on entrustment as the assessment outcome seemed to enhance learner perceptions of being judged continuously and of assessments being perceived as summative rather than formative.33 This effect can undermine the learning potential of an assessment program, which is based on trust and psychological safety.33 
  • Because of its focus on autonomy and unsupervised practice, entrustment language can lead to a performance culture at the expense of learning and development.33 Assessments also led to anxiety and frustration.26,27,40,41

평가는 또한 경쟁 의식을 유발하거나, 실패 또는 성과 저하에 대한 두려움으로 인해 통제된 동기를 자극하기도 합니다. 동료 평가는 동료와의 비교를 유도하고,42 낮은 점수를 받는 것에 대한 두려움(기여하지 않은 경우)29 학습 동기를 부여했습니다. 동료들이 자신의 과제에 대해 어떻게 생각하는지 알고 싶어서 동료의 피드백에 비추어 자신의 과제를 다시 읽게 되었습니다.42 학생들은 추가 학점이라는 보상을 위해27 더 열심히 공부했고,26,29 성적이 낮아지거나,26,29 실패하거나,30 성적이 좋지 않을 것이라는 두려움 때문에 더 열심히 공부했습니다.26,31 학생들은 동료 학생들을 실망시키지 않기 위해 협력 시험을 위해 열심히 공부했고, 이는 자신감을 강화하고 뛰어난 성적을 거두게 만들었습니다.44
Assessments also stimulated controlled motivation through creating a sense of competition or out of fear of failure or poor performance. Peer assessment led to comparisons with peers,42 fear of receiving low marks (if they did not contribute),29 and motivated them to learn. Wanting to know what their peers thought of their work prompted them to reread their work in light of the peer feedback.42 Students studied harder for the reward of extra credits27 and out of fear of getting lower grades, failing,26,29 or performing poorly.30 Competition motivated students to prepare for assessments.26,31 Students studied hard for collaborative tests to avoid disappointing fellow students; this strengthened their confidence and made them excel.44

평가는 통제된 동기를 자극하여 표면적이고 전략적인 학습을 장려했습니다. 평가에서 사실적 지식에 초점을 맞추고 동기를 통제하면 표면적 학습이 이루어졌습니다.27 암기식으로 학습하여 시험 때에는 이해 없이 토해내는regurgitate 학생은 특정 평가에서 더 잘하는 경향이 있었습니다.26 전통적인 채점을 사용했을 때 학생들은 평가가 전체 성적에서 차지하는 비중을 기준으로 평가를 평가했습니다. 이는 주제와 학습 목표에 대한 참여도에 영향을 미쳤습니다.34 학습할 내용을 선택하는 것은 실무에 필수적인 지식보다는 이전 시험 문제를 기반으로 했습니다.28 학생들은 가능하면 더 좋은 성적을 받기 위해 더 쉬운 평가 활동을 선택하는 경향이 있었습니다.26 높은 비중의 평가는 표면적 학습 접근 방식을 장려하는 반면, 다른 평가 유형은 낮은 비중으로 인해 심층적 학습 접근 방식을 장려했습니다.26 특정 평가 유형(예: 위탁 전문 활동[EPA])의 비중을 높게 설정하면 학생들 사이에서 전략적 학습 행동을 유발할 수 있습니다.33 
Assessments stimulated controlled motivation resulting in encouragement of surface and strategic learning. Focus on factual knowledge in assessments and controlled motivation led to surface learning.27 Students who learned by rote memorization and regurgitated the material without understanding it during examinations tended to fare better on certain assessments.26 When traditional grading was employed, students valued the assessment on the basis of the weight it carried for the overall grade. This influenced their engagement with the topic and the learning objectives.34 Choosing what to study was based on previous examination questions rather than on the knowledge essential for practice.28 When possible, students were inclined to pick easier assessment activities to fare better.26 High-stakes assessments encouraged a surface learning approach, while other assessment types encouraged a deep learning approach owing to the lower stakes.26 Making certain assessment types (like entrustable professional activities [EPAs]) high stakes may give rise to strategic learning behavior among students.33

평가에 대한 개별적인 인식은 서로 다른 행동을 유발했습니다(예: 일부 학생은 능동적 학습 기반 평가에서 아이디어를 생성하는 것을 경쟁 과정으로 인식한 반면, 다른 학생은 이를 성찰의 기회로 인식했습니다40).
Individual perceptions about assessments gave rise to different behaviors (e.g., some students perceived generating ideas, in an active learning-based-assessment, as a competitive process, while others perceived it as an opportunity for reflection40).

자율적 동기 부여
Autonomous motivation

결과.
Outcomes.

자율적 동기를 자극하는 평가의 결과는 더 높은 창의성34; 기술 개발44; 자기 조절, 시간 관리 기술, 숙달 학습 및 자기 주도적 수정 행동의 육성30,34,41; 주제에 대한 관심27; 더 깊이 있는 학습 접근 방식26,43,45,46 더 높은 노력과 자료와의 더 나은 연결34,47 등이었습니다; 업무의 질 향상,29 역량, 자신감 및 성과26,40; 목표 설정 및 학습 참여도 향상33,44; 오류 식별 능력 향상 및 임상 술기 연습에 대한 노력 증가48; 환자와 더 많은 시간을 보내려는 동기 부여 증가38; 기술 및 전문성 개발 증가45; 학생의 업무 개선 독려. 42 자율적 동기를 자극하는 형성적 평가에도 불구하고 총합적 평가에 비해 형성적 평가에서 더 낮은 노력이 발견되었습니다.38 평가에 대한 성찰은 학생의 동기, 학습 및 복지를 향상시켰습니다.33  
The outcomes of assessments that stimulated autonomous motivation were higher creativity34; skill development44; fostering of self-regulation, time management skills, mastery learning, and self-directed corrective actions30,34,41; interest in the topic27; a deeper learning approach,26,43,45,46 higher effort and better connection with the material34,47; increased quality of work,29 competence, confidence, and performance26,40; improved goal setting and engagement in learning33,44; better error identification and higher effort on practicing clinical skills48; increased motivation to spend more time with patients38; increased skills and professionalism development45; and encouraging students to improve their work.42 Lower effort was found in formative compared with summative assessments in spite of formative assessments stimulating autonomous motivation.38 Reflection on assessments enhanced student motivation, learning, and well-being.33

맥락.
Contexts.

자율적 동기의 자극은 평가가

  • 재미있고 흥미로우며 도전적인26,27,36,40,45,
  • 혁신적이고 숙달에 기반하며 종단적으로 실시되는33,34,
  • 수업의 일부로 매끄럽게 도입되는46,
  • 학생 자율성의 측면이 포함된 맥락에서 발생했습니다 (예,
    • 교사가 미리 정한 숙달 기준에 따라 학생 스스로 채점,34
    • 합격/불합격 채점만 사용,34
    • 여러 번의 합격 시도 제공,26
    • 과제 선택,34
    • 관심 있는 주제에 대한 학습 선택,40,45
    • 평가 장소 및 시간 선택39). 

Stimulation of autonomous motivation happened in the context of the assessment being

  • fun, interesting, and challenging26,27,36,40,45;
  • innovative, mastery-based, and conducted longitudinally33,34;
  • introduced in a seamless manner as part of instruction46; and
  • embedded with facets of student autonomy (e.g.,
    • students graded themselves on mastery criteria predetermined by the teacher,34 
    • use of pass/fail grading only,34 
    • provision of multiple attempts to pass,26 
    • choices of assignments,34 
    • choices in learning about topics of interest to them,40,45 
    • choices in place and time of assessment39).

평가가 직접적으로 역량을 키울 수 있도록 준비되어 있고, 시기적절하고 외부적이며 다양한 피드백을 제공하는 능동적 학습 평가인 경우에도 자율적 동기를 자극하는 효과가 있었습니다.28,31,33,40,41,44,47,49) 다음과 같은 평가도 자율적 동기를 자극합니다.

  • 개별적40 또는 공유 목표 설정이 포함된 평가,41
  • 학습자의 성찰을 자극하고,33
  • 학습자와 교사가 공동으로 구성하고,45
  • 임상 실습과 진정성이 있고,26,28,35,37,38,49
  • 공유를 장려하거나 그룹 학습 및 책임을 공유하며,27,39,41,44
  • 학생에게 개인적인 가치를 부여하는 27,31,45

높은 기본 자율적 동기(학습에 대한) 수준,39 개인적 성취 또는 만족에 대한 동기, 학습에 대한 애정과 열정 등 특정 학생 특성도 자율적 동기 자극의 맥락을 형성합니다.26,40 평가 유형(예: 사실 회상 또는 심층 사고 테스트)에 따라 평가가 동기에 미치는 영향의 차이가 나타났습니다.26 
Stimulation of autonomous motivation also happened if the assessment was poised to directly build competence and was an embedded active learning assessment, with timely, external, and multiple sources of feedback.28,31,33,40,41,44,47,49 Assessments that 

  • included setting individual40 or shared goals,41 
  • stimulated learners to reflect,33 
  • were jointly constructed by learners and teachers,45 
  • had authenticity with clinical practice,26,28,35,37,38,49 
  • encouraged sharing or shared group learning and responsibility,27,39,41,44 and
  • held personal value for students also stimulated autonomous motivation.27,31,45 

Certain student characteristics also form the context for autonomous motivation stimulation, such as high baseline autonomous motivational (for learning) levels,39 having the motivation for personal achievement or satisfaction, or having a love of learning and passion for the topic.26,40 Variations in the effect of assessments on motivation were seen depending on the type of assessment (i.e., testing fact recall or deep thinking).26

메커니즘.
Mechanisms.

평가는 여러 가지 메커니즘을 통해 자율적 동기를 자극합니다. 재미있고 도전적인 평가는 자율적 동기를 유발하고, 그룹으로 수행하면 개별 학생이 혼자서 하기 어려운 전체적인 그림을 그릴 수 있습니다.27 학생들은 스스로 주제를 선택하고 학습 방식을 변경할 수 있을 때 개인적 동기에 의해 더 많이 움직였습니다.45 학생들은 자율적 동기에 의해 일정에 따라 학습했습니다.32 일부 학생은 좋은 의사가 되고 싶어서 성적이 나오지 않더라도 평가를 위해 공부했습니다.38 형성 평가는 학생들이 이미 알고 있는 내용과 공부해야 할 내용을 인식하게 함으로써 동기를 부여했습니다.27 특정 평가 유형은 루브릭을 통해 즉각적인 피드백을 제공하고 숙달 학습으로 초점을 전환함으로써 자율적 동기를 자극했습니다.34
Assessments stimulated autonomous motivation through several mechanisms. A fun and challenging assessment triggered autonomous motivation and doing it in a group provided a holistic picture, which would be difficult for individual students to do on their own.27 Students were more driven by personal motivation when they could choose their own topics and change their learning approach.45 Students worked to a schedule because they were autonomously motivated.32 Some students would study for the assessment even if they were not graded as they just wanted to be good doctors.38 Formative assessments motivated students by making them aware of what they already knew and what they needed to study.27 Certain assessment types stimulated autonomous motivation by providing instant feedback through rubrics and shifting the focus to mastery learning.34

학습의 자율성은 또한 자율적 동기를 자극했습니다. 포트폴리오를 사용하면 학생들이 개인적으로 더 많은 동기를 갖게 되어 학습을 강의 자료에만 의존하지 않게 되었습니다.45 평가에서 어느 정도의 선택권(예: 학습 주제 또는 포트폴리오에 추가할 내용)은 커리큘럼에 국한된 경계를 없애고 개인적인 탐색을 허용하며 학습 주제에 대한 학생들의 인정appreciation을 높였습니다.45 학생들이 계획 과정을 진행하고 더 독립적이 되면서 동기 부여가 증가했습니다.45 학습의 자율성은 학생들이 독립적으로 자신의 기술을 개발하고 동기를 증가시켰습니다.40 자신의 수행을 볼 수 있다는 것은 학생들이 기술을 연습하도록 동기를 부여했습니다.48 특정 평가 유형은 학생들이 더 많이 공부하고 중요한 개념에 집중하며 학습을 반성하도록 동기를 부여했습니다.31 일부 평가 유형은 즉각적인 피드백을 제공함으로써 동기를 높였습니다.41 평가에서 기대되는 것을 알고 이해하면 학생들이 향상하는 데 도움이 되었습니다.42
Autonomy in learning also stimulated autonomous motivation. Use of portfolio made students more personally motivated and so they did not rely only on lecture material for their study.45 Some amount of choice in assessments (e.g., of topics to study or what to add in the portfolio) removed boundaries (e.g., being confined to the curriculum), allowed for personal exploration, and increased students’ appreciation of the study topics.45 Students’ motivation increased as they progressed through the planning process and became more independent.45 Autonomy in learning made students independently develop their skills and increased their motivation.40 Being able to watch their own performance motivated students to practice their skills.48 Certain assessment types motivated students to study more, focus on important concepts, and reflect on their learning.31 Some assessment types increased motivation by giving immediate feedback.41 Knowing and understanding what was expected in the assessment helped students to improve.42

피드백을 받는 것은 여러 가지 방식으로 자율적 동기를 자극했습니다

  • 대면 피드백은 학생의 역량과 자신감을 향상시켰습니다.26 
  • 환자와 동료의 피드백은 학생이 역량을 향상하고 우수성을 추구하도록 동기를 부여했습니다.49 
  • 평가 직후 정답을 알게 되면 학생이 모든 문제에 더 집중하고 동기를 부여하도록 자극했습니다.31 
  • 평가 후 설명 피드백은 학습 과정을 개선하고 학생 동기를 지속했습니다.46 
  • 오류 감지는 학생이 자신의 지식 격차를 파악하는 데 도움이 되었습니다.47 
  • 공동 시험은 지속적인 동료 평가와 피드백을 통해 수행 격차를 줄이는 데 도움이 되었습니다.44 
  • 평가에 대해 성찰하면 학생의 발달에 대해 더 잘 파악하여 동기, 학습, 웰빙을 개선했습니다.33

Getting feedback stimulated autonomous motivation in several ways.

  • Face-to-face feedback improved students’ competence and confidence.26 
  • Feedback from patients and colleagues motivated students to improve their competence and pursue excellence.49 
  • Getting to know the correct answer immediately after the assessment stimulated students to focus more on all questions and their motivation.31 
  • Assessment followed by explanatory feedback enhanced the learning process and sustained student motivation.46 
  • Error detection helped students to identify their knowledge gaps.47 
  • Collaborative testing helped in closing a performance gap through constant peer evaluation and feedback.44 
  • By providing a better picture on their development, reflection on assessments improved students’ motivation, learning, and well-being.33

능동적 학습 평가는 자율적 동기를 자극했습니다. 능동적 학습 평가는 학습 여정의 각 단계를 완료한 후 기술, 자신감 및 동기 부여를 향상시켰습니다.40,47 능동적 학습 평가는 지식 구축을 지원할 뿐만 아니라 학생들에게 질문을 공식화할 기회를 제공함으로써 탐구심을 유발하여 인지적, 정서적으로도 학생들의 참여를 유도했습니다.42,45
Active learning assessments stimulated autonomous motivation. They led to increased skills, confidence, and motivation after the completion of each stage of the learning journey.40,47 Active learning assessments not only supported knowledge building but also engaged students cognitively and emotionally,42,45 as they generated enquiry by providing students with the opportunity to formulate questions.45

실습과 진정성이 있는 평가는 온전함을 제공하고, 임상 기술과 전문성을 키우고, 학생들의 관심을 끌고, 팀워크를 장려하기 때문에 학생들에게 본질적인 동기를 부여했습니다.27,38,41,44,45 포트폴리오에 포함할 내용을 선택할 수 있어 학생들은 자신의 개인적인 경험을 학습에 포함할 수 있었고 상당한 동기를 부여했습니다.45 의사의 직업적 책임은 학생들에게 평생 학습에 대한 동기를 부여했습니다.36
Assessments that had authenticity with practice motivated students intrinsically as they provided a sense of wholeness, fostered clinical skills and professionalism, captured students’ interest, and encouraged teamwork.27,38,41,44,45 Having choices in what to include in the portfolio allowed students to include their personal experiences into their study and significantly motivated them.45 The professional responsibility of physicians motivated students for lifelong learning.36

동료, 그룹 또는 공유 학습은 학생들이 자신의 지식 격차를 파악하고 건설적인 마찰을 일으키며 비고츠키의 근위 발달 영역(즉, 학생들이 충분히 도전하고 새로운 것을 배우고자 하는 동기가 있는 영역)으로 이동하여 학습을 향상시키는 데 도움이 되었습니다.41

  • 동료 평가는 개별 학생이 의미 있는 방식으로 그룹에 기여할 수 있는 추가적인 동기 부여 전략으로 기능하고 팀워크 경험을 제공했습니다.29,44
  • 동료 학습 형식은 상호 작용을 유도하여 참여와 동기를 부여했습니다.44
  • 동료 평가 과정은 학생들에게 권한을 부여하고 동기를 부여하며 학습에 대한 자신감과 참여도를 높였습니다.42
  • 그룹 평가는 학생들이 혼자서는 달성하기 어려웠을 주제에 대해 더 넓은 시각을 갖도록 도왔습니다.27
  • 상호 의존적인 목표를 공유하는 그룹에서 학습하면 학생들은 그룹 작업에 대한 개인적인 책임감을 느끼고 지식과 노력 측면에서 더 많은 기여를 하게 됩니다.41
  • 일부 학생들은 평가의 일부인 아이디어 창출을 경쟁 과정으로 인식한 반면, 다른 학생들은 자신의 아이디어를 반성하고 비교할 기회로 인식했습니다.40
  • 실패는 학생들이 더 열심히 공부하도록 이끌었습니다.33 위탁 평가를 통과하지 못한 학생들은 좌절감을 느낍니다.33 

Peer, group, or shared learning helped students to identify their knowledge gaps, created constructive friction, and moved them into Vygotsky’s Zone of Proximal Development (i.e., the zone in which students have enough challenge and are motivated to learn new things), enhancing their learning.41 

  • Peer assessment functioned as an extra motivational strategy for individual students to contribute to the group in a meaningful way and provided teamwork experience.29,44 
  • Peer learning formats led to interactions, resulting in engagement and motivation.44 
  • The peer assessment process empowered students, motivated them, and increased their confidence and engagement in learning.42 
  • Group assessment helped students to get a broader view of topics, which would have been hard to achieve on their own.27 
  • Learning in a group with a shared interdependent goal made students feel personal responsibility for the group work and contribute more in terms of knowledge and effort.41 
  • Some students perceived generating ideas as part of the assessment as a competitive process, while others perceived it as an opportunity to reflect on their ideas and make comparisons.40 
  • Failure led students to study harder.33 Not passing their entrustment assessment made students feel frustrated.33

맥락-기제-결과 조합에 기반한 새로운 프로그램 이론
Emergent program theories based on context–mechanism–outcome combinations

그림 2는 평가가 어떻게 통제된 동기를 향상시키고 부정적인 학습 및 심리적 웰빙 결과를 초래할 수 있는지 설명하는 신흥 현실주의 프로그램 이론을 보여줍니다. 부정적인 심리적 웰빙은 질적 데이터에서만 보고된 결과로 불안, 스트레스, 좌절과 같은 부정적인 감정이 특징입니다.26,27,33 평가가 어떻게 통제된 동기를 향상시킬 수 있는지에 대한 이해를 위해 평가 시스템 또는 프로그램 수준과 개별 학생 수준에서 자율성을 빼앗고 역량에 대한 부정적인 인식을 형성하는 맥락적 요인을 발견했습니다. 또한 평가 시스템 또는 프로그램 수준에서 통제된 동기를 자극하면 성과 문화가 형성되고 평가 시스템의 학습 잠재력이 약화된다는 사실도 발견했습니다.

Figure 2 depicts the emergent realist program theory that explains how assessments can enhance controlled motivation and lead to negative learning and psychological well-being outcomes. Negative psychological well-being was an outcome reported only in qualitative data and was characterized by negative emotions, such as anxiety, stress, and frustration.26,27,33 For an understanding on how assessments can enhance controlled motivation, we found contextual factors at an assessment system or program level as well as at an individual student level that work by taking away autonomy and creating negative perceptions of competence. We also found that at an assessment system or program level, stimulation of controlled motivation led to creation of a performance culture and undermining of the learning potential of the assessment system.

그림 3은 평가가 어떻게 자율적 동기를 강화하고 긍정적인 학습 결과로 이어질 수 있는지를 설명하는 새로운 현실주의 프로그램 이론을 보여줍니다. 평가가 어떻게 자율적 동기를 향상시킬 수 있는지에 대한 통찰력을 얻기 위해, 우리는 평가 기능의 맥락적 요인(즉, 평가 내용 및 형식과 개별 학생 수준에서)이 자율성, 역량 및 관련성이라는 기본적인 심리적 요구를 충족하고 개별 학생 수준에서 긍정적인 학습 결과를 생성하는 활동에 대한 가치를 창출함으로써 작용한다는 사실을 발견했습니다. 자율적 동기를 자극하는 평가에 대한 심리적 웰빙 결과를 찾지 못했습니다.

Figure 3 depicts the emergent realist program theory that explains how assessments can enhance autonomous motivation and lead to positive learning outcomes. For insights into how assessments can enhance autonomous motivation, we found that contextual factors in the assessment features (i.e., in the assessment content and format, as well as at an individual student level) work through satisfying the basic psychological needs of autonomy, competence, and relatedness as well as by creating value for the activity to produce positive learning outcomes at an individual student level. We did not find psychological well-being outcomes for assessments that stimulate autonomous motivation.

토론
Discussion

이 검토 및 현실주의적 종합에서 우리는 평가가 학생의 학습 및 심리적 웰빙 결과로 이어지는 동기에 어떻게 영향을 미치는지에 대한 맥락 메커니즘-결과 구성을 평가 시스템 또는 프로그램 수준뿐만 아니라 개인 수준에서도 설명함으로써 HPE 문헌에 추가하고자 했습니다.

  • 우리는 평가 시스템 또는 프로그램과 개별 학생 수준에서 평가가 자율성과 역량이라는 SDT 기반 심리적 요구를 좌절시킴으로써 통제된 동기를 강화하여 평가 시스템 또는 프로그램과 개별 학생 수준에서 부정적인 결과를 초래한다는 것을 발견했습니다.
  • 반면, 특정 평가와 학생 개개인의 특성은 자율성, 유능성, 관계성이라는 SDT 기반의 기본 심리적 욕구를 충족시켜 자율적 동기를 강화하고 학생 개인 수준에서만 성과를 창출하는 가치를 창출한다는 사실을 발견했습니다.

현재 HPE 문헌에서 자율적 동기 향상과 관련된 심리적 웰빙이나 평가 시스템 또는 프로그램 수준의 결과를 찾지 못했습니다. 

In this review and realist synthesis, we sought to add to the HPE literature by describing context–mechanism–outcome configurations for how assessments influence motivation leading to learning and psychological well-being outcomes among students at an individual level as well as at an assessment system or program level.

  • We found that assessments, at the assessment system or program as well as the individual student levels, enhance controlled motivation by frustrating the SDT-based psychological needs of autonomy and competence, leading to negative outcomes at the assessment system or program as well as the individual student levels.
  • In contrast, we found that certain assessment as well as individual student characteristics enhance autonomous motivation through satisfaction of the SDT-based basic psychological needs of autonomy, competence, and relatedness, along with creation of value to produce outcomes only at an individual student level.

We did not find any psychological well-being or assessment system- or program-level outcomes related to the enhancement of autonomous motivation in the current HPE literature.

조사 결과를 바탕으로, 표 2에서는 통제된 동기를 자극하는 평가를 자율적 동기를 자극할 수 있는 평가로 전환하기 위해 교육자가 사용할 수 있는 기능 변경 목록을 제공합니다. 통제된 동기를 자극하는 평가는 부정적인 심리적 웰빙 결과를 초래할 뿐만 아니라 자율적 학습 동기에 장기적으로 해로운 영향을 미칠 수 있기 때문에 이는 중요합니다.4
Based on our findings, in Chart 2, we provide a list of feature changes educators can use to convert assessments that stimulate controlled motivation into ones that can stimulate autonomous motivation. This is important because assessments that stimulate controlled motivation can not only produce negative psychological well-being outcomes but also have a long-term deleterious effect on autonomous motivation for learning.4

현재 HPE 실무에서 널리 시행되고 있는 두 가지 주요 평가 개념은 프로그램식 평가와 EPA입니다.50 프로그램식 평가가 학생 동기 부여에 미치는 영향에 대한 연구는 찾지 못했습니다. 이러한 연구는 문헌에 추가될 수 있는데,

  • 특히 프로그램식 평가에는 본 검토에서 자율적 동기를 자극하는 것으로 확인된 몇 가지 특징이 있기 때문입니다.51
  • EPA의 경우, EPA 기반 평가가 주로 통제 동기를 자극한다는 한 연구를 발견했습니다.33

이 발견은 본 검토에서 자율적 동기를 자극하는 것으로 확인된 몇 가지 특징(예, 임상 실습의 진정성과 학생의 자율성 제공).52 우리는 이러한 단절이 개별 EPA 평가의 설계와 평가 프로그램 또는 전반적인 평가 문화에 포함되는 방식 사이의 차이 때문일 수 있다고 가정하지만, 이에 대해서는 추가 조사가 필요합니다. 
In current HPE practice, the 2 major assessment concepts being implemented widely are programmatic assessment and EPAs.50 We did not find any research on the effect of programmatic assessment on student motivation. Such research would add to the literature, especially because programmatic assessment has some of the features identified in this review as ones that seem to stimulate autonomous motivation.51 In terms of EPAs, we found one study suggesting that EPA-based assessments mainly stimulated controlled motivation.33 This finding was somewhat surprising, given that EPA-based assessments have some of the features identified in this review as stimulating autonomous motivation (e.g., authenticity with clinical practice combined with providing students with autonomy).52 We hypothesize that this disconnect may be due to the gap between the design of individual EPA assessments and how they are embedded in an assessment program or an overall assessment culture, but this needs further investigation.

본 검토 결과 전반에 걸쳐 나타난 평가의 의도와 영향력 사이의 격차는 이전에 발표된 문헌과 일치합니다.3 서로 다른 평가 관행, 평가에 대한 시행자의 신념, 졸업 연수생의 질을 유지하고 보장해야 하는 요구사항 사이의 긴장이 이러한 격차를 설명할 수 있습니다.53 이 문제는 평가 설계 시 학생 동기 고려, 평가가 포함된 문화 변화, 의도대로 평가를 시행하도록 교직원 교육3, 평가 목표에 대한 교사와 학생 간의 공유 이해 구축을 포함하는 다각적인 전략으로 해결할 수 있습니다.54
The presence of a gap between the intention and impact of an assessment, which was seen throughout the results of this review, aligns with earlier published literature.3 Tensions between different assessment practices, the implementers’ beliefs about assessments, and the requirement to uphold and guarantee the quality of graduating trainees may account for this gap.53 This issue can be addressed by a multipronged strategy that includes considering student motivation when designing assessments, changing the culture within which assessments are embedded, training faculty to implement assessments as they are intended,3 and building a shared understanding between teachers and students on the goals of assessment.54

실천을 위한 시사점
Implications for practice

우리가 발견한 자율적 동기를 자극할 수 있는 평가 특징은 현재 평가를 재설계하거나 혁신적인 평가를 개발하는 데 사용할 수 있습니다. 표준 객관식 문제보다 환자의 문제와 근본적인 메커니즘을 설명하는 임상적 추론 연습 문제나 감별 및 근거를 제시하는 진단적 정당화 연습 문제를 더 많이 출제하는 등 학생들이 임상 실습에 보다 진정성 있게 대비할 수 있는 평가를 개발하는 것이 좋습니다. 우리는 학생들이 실제로 필요한 것을 희생하면서까지 평가에 출제될 것으로 예상되는 내용을 전략적으로 학습하는 경향을 발견했습니다. 이는 인센티브(예: 성적 및 자격)를 통한 통제된 동기의 자극이 자율적 동기에 장기적으로 해로운 영향을 미친다는 SDT의 주장에 비추어 볼 때 우려스러운 결과입니다.4,55 교육자가 평가를 통해 자율적 학습 동기를 자극하는 데 주의를 기울여야만 HPE 학생들에게 단순히 "양동이를 채우는" 대신 "학습의 불을 붙일 수 있을 것"입니다.13 
The assessment features we found that can stimulate autonomous motivation can be used by educators to redesign current assessments or develop innovative assessments. We recommend developing assessments that more authentically prepare students for clinical practice, such as having more clinical reasoning exercises, where students describe patient problems and the underlying mechanisms, or diagnostic justification exercises, where students suggest a differential and rationale, over the standard multiple-choice questions. We found a trend that suggests students strategically learned what was expected to appear in the assessments at the expense of what was needed in practice. This is alarming in light of SDT’s claim that stimulation of controlled motivation through incentives (i.e., grades and qualifications) has a long-term deleterious effect on autonomous motivation.4,55 Only if educators pay attention to stimulating autonomous motivation for learning through assessments, will they be able to “light the fire of learning” instead of just “filling the bucket” for HPE students.13

추가 연구를 위한 시사점
Implications for further research

이 검토 결과는 자율적 동기를 자극하는 혁신적인 평가 설계에 대한 연구 프로그램을 개발하고 설계 기반 연구를 통해 이러한 평가가 어떻게 작동하는지, 그리고 프로그램 및 EPA 기반 평가가 학생 동기 부여에 미치는 영향을 조사하는 데 과학적 근거를 제공합니다. 
The results of this review provide a scientific basis for developing a research program on designing innovative assessments stimulating autonomous motivation and investigating how they work through design-based research and the effects of programmatic and EPA-based assessments on student motivation.

제한 사항
Limitations

이 검토는 HPE 문헌에 국한되었습니다. 고등 교육에서 평가가 동기 부여에 미치는 영향에 대한 광범위한 검토가 도움이 될 수 있습니다. 검토에서 각 연구의 엄격성과 관련성을 평가했지만, 이 평가를 사용하여 논문을 제외하지는 않았습니다. 그러나 이 접근 방식은 현실주의적 종합 방법과 잘 맞으며,20,24 혁신적인 평가 방법에 기여하는 모든 아이디어를 포함할 수 있습니다. 
This review was limited to the HPE literature. A broader review of the effect of assessments on motivation in higher education may be beneficial. Although we evaluated the rigor and relevance of each study in the review, we did not use this evaluation to exclude articles. This approach, however, fits well with the realist synthesis method,20,24 allowing us to include all ideas that contribute to innovative assessment methods.

결론
Conclusions

통제된 동기를 자극하는 평가 기능은 심리적 안녕감 저하와 같은 부정적인 결과를 초래하는 것으로 나타났습니다. 자율적 동기를 자극하는 평가 기능은 더 높은 노력과 창의성과 같은 긍정적인 결과를 가져오는 것으로 보였습니다. 연구 결과에 따르면 학생들은 실제로 필요한 것을 희생하면서까지 평가에 출제될 것으로 예상되는 내용을 전략적으로 학습하는 것으로 나타났습니다. 이러한 접근 방식은 스트레스와 부정적인 심리적 웰빙으로 이어집니다. 따라서 보건 전문직 교육자들은 평가 철학과 관행을 재고하고 콘텐츠에 대한 호기심과 진정한 관심을 자극하고 전문직 실무와 관련 있는 평가를 도입해야 합니다. 
Assessment features stimulating controlled motivation seemed to lead to negative consequences like decreased psychological well-being. Assessment features stimulating autonomous motivation seemed to lead to positive outcomes such as higher effort and creativity. Our findings indicate that students strategically learn what is expected to appear in assessments at the expense of what is needed in practice. This approach leads to stress and negative psychological well-being. Therefore, health professions educators urgently need to rethink their assessment philosophy and practices and introduce assessments that stimulate curiosity and genuine interest in the content and that are relevant to professional practice.

 


 

 

 

Acad Med. 2023 May 4;98(9):1083-1092. doi: 10.1097/ACM.0000000000005263. Online ahead of print.

 

 

The Effect of Assessments on Student Motivation for Learning and Its Outcomes in Health Professions Education: A Review and Realist Synthesis

Affiliations

1R.A. Kusurkar is professor and research programme leader, Research in Education, Amsterdam University Medical Centers location Vrije Universiteit Amsterdam, professor and research programme leader, LEARN! Research Institute for Learning and Education, Faculty of Psychology and Education, VU University Amsterdam, and professor and research programme leader, Amsterdam Public Health, Quality of Care, Amsterdam, the Netherlands; ORCID: http://orcid.org/0000-0002-9382-0379.

2C. Orsini is associate professor in medical education, Norwich Medical School, University of East Anglia, Norwich, United Kingdom, and Researcher in Health Professions Education, Faculty of Dentistry, Universidad de Los Andes, Santiago, Chile; ORCID: http://orcid.org/0000-0002-5226-3625.

3S. Somra was research assistant, Research in Education, Amsterdam University Medical Centers location Vrije Universiteit Amsterdam, Amsterdam, the Netherlands, at the time of this study.

4A.R. Artino Jr. is professor and associate dean for evaluation and educational research, School of Medicine & Health Sciences, George Washington University, Washington, DC; ORCID: http://orcid.org/0000-0003-2661-7853.

5H.E.M. Daelmans is director of the master of medicine programme, Faculty of Medicine Vrije Universiteit Amsterdam, Amsterdam, the Netherlands.

6L.J. Schoonmade is information specialist at the medical library, Vrije Universiteit Amsterdam, Amsterdam, the Netherlands; ORCID: https://orcid.org/0000-0002-2407-5977.

7C. van der Vleuten is professor, School of Health Professions Education, University of Maastricht, Maastricht, the Netherlands; ORCID: http://orcid.org/0000-0001-6802-3119.

PMID: 37146237

PMCID: PMC10453393

DOI: 10.1097/ACM.0000000000005263

Free PMC article

 

Abstract

Purpose: In health professions education (HPE) the effect of assessments on student motivation for learning and its consequences have been largely neglected. This is problematic because assessments can hamper motivation and psychological well-being. The research questions guiding this review were: How do assessments affect student motivation for learning in HPE? What outcomes does this lead to in which contexts?

Method: In October 2020, the authors searched PubMed, Embase, APA PsycInfo, ERIC, CINAHL, and Web of Science Core Collection for "assessments" AND "motivation" AND "health professions education/students." Empirical papers or literature reviews investigating the effect of assessments on student motivation for learning in HPE using quantitative, qualitative, or mixed methods from January 1, 2010-October 29, 2020, were included. The authors chose the realist synthesis method for data analysis to study the intended and unintended consequences of this complex topic. Assessments were identified as stimulating autonomous or controlled motivation using sensitizing concepts from self-determination theory and data on context-mechanism-outcome were extracted.

Results: Twenty-four of 15,291 articles were ultimately included. Assessments stimulating controlled motivation seemed to have negative outcomes. An example of an assessment that stimulates controlled motivation is one that focuses on factual knowledge (context), which encourages studying only for the assessment (mechanism) and results in surface learning (outcome). Assessments stimulating autonomous motivation seemed to have positive outcomes. An example of an assessment that stimulates autonomous motivation is one that is fun (context), which through active learning (mechanism) leads to higher effort and better connection with the material (outcome).

Conclusions: These findings indicate that students strategically learned what was expected to appear in assessments at the expense of what was needed in practice. Therefore, health professions educators should rethink their assessment philosophy and practices and introduce assessments that are relevant to professional practice and stimulate genuine interest in the content.

신뢰의 문제: 의학교육에서 온라인감독 시험과 평가에 테크놀로지 통합하기(Teach Learn Med. 2022)
A Matter of Trust: Online Proctored Exams and the Integration of Technologies of Assessment in Medical Education
Tim Fawnsa and Sven Schaepkensb

 

소개: 평가의 테크놀로지
Introduction: the technology of assessment

테크놀로지는 의학 및 의학교육에 널리 퍼져 있습니다. 호흡 모니터, 휴대폰, 디지털 환자 기록, 소셜 미디어, 디지털 교육 플랫폼은 모두 지식, 실무, 관계를 변화시켰습니다.1-4 테크놀로지는 방사선과 약학과 같은 전문직의 역할과 전문성을 재편했습니다.5 많은 장점과 함께 위험도 존재합니다. 테크놀로지는 우리가 일하고 학습하는 방식뿐만 아니라 우리의 광범위한 도덕적 관계, 신념, 규범 및 가치관에도 영향을 미칩니다.6,7 교육자들은 새로운 테크놀로지를 협상할 때 테크놀로지적 문제뿐만 아니라 매우 복잡하고 도덕적이며 교육적인 문제에 직면하게 됩니다.5 그럼에도 불구하고 테크놀로지를 사용하는 사람들이 테크놀로지를 검토하지 않거나,8 우리의 이해가 개인의 상호작용, 경험, 학습, 결과에 대한 질문으로 제한되는 경우가 많습니다.9  
Technology is pervasive in medicine and medical education. Respiratory monitors, mobile phones, digital patient records, social media, and digital education platforms have all changed knowledge, practice, and relationships.1–4 Technologies have reshaped professional roles and specialisms such as radiology and pharmacy.5 Alongside the many benefits, there are also risks. Technology changes more than how we work and learn; it also influences our wider moral relations, beliefs, norms and values.6,7 As educators negotiate new technologies, they are confronted not only with technical challenges but also highly-complex, moral, and pedagogical ones.5 Despite this, technology often goes unexamined by those who use it,8 or our understanding is limited to questions about individual interactions, experiences, learning, and outcomes.9

평가 문화는 또한 정체성, 사회적 관계, 직업에서 인정하는 정당한 지식과 행동을 형성합니다.10-13 평가 관행과 문화는 시간이 지남에 따라 루브릭, 점수표, 가상 학습 환경, 표절 감지 소프트웨어와 같은 테크놀로지에 의해 형성되었습니다.14 평가에서 테크놀로지의 미래 방향에 대해 추측하는 Hodges15는 감시와 자동화된 판단을 통해 고부담 시험에서 수행성이 강화될 것을 경고합니다. 지금까지 평가 테크놀로지(및 보다 일반적인 평가)13에 대한 연구는 형평성, 윤리 또는 가치의 문제보다는 중립적이고 객관적인 도구를 중심으로 개별 결과에 초점을 맞춰 왔습니다.16 
Cultures of assessment also shape identities, social relations, and the legitimate knowledge and behavior recognized by a profession.10–13 Assessment practice and culture have, in turn, been shaped over time by technologies such as rubrics, mark sheets, virtual learning environments, and plagiarism detection software.14 Hodges,15 speculating on future directions of technology in assessment, warns of an intensification of performativity in high stakes examinations through surveillance and automated judgements. Thus far, research on assessment technologies (and assessment more generally)13 has focused on individual outcomes, framed around neutral and objective tools, rather than issues of equity, ethics, or values.16

조사할 가치가 있는 테크놀로지 중 하나는 시험장 외부에 감독관이 있는 시험 환경을 조성하는 서비스인 온라인 감독입니다.17 이러한 서비스는 코로나19 팬데믹 이전에도 존재했지만, 기관들이 안전한 평가의 연속성을 추구하면서 2020년에 그 사용이 크게 증가했습니다.18 오프라인 시험장은 여전히 시험장이 지향하는 표준을 대표하지만, 온라인 감독관은 "시험을 전혀 치를 수 없는 상황"에 대한 대안으로 자리 잡았습니다.18(p8) 다양한 서비스에서19 정기적인 소프트웨어 업데이트와 데이터 기반 접근 방식의 조합은 혁신의 느낌을 주며18,20 이는 효율성과 함께 평가에서 테크놀로지 채택의 핵심 요소입니다.21 그러나 감독관은 학습자 프라이버시와 관련된 새로운 위험을 초래하고,18 불신을 조장하며,22 비백인과 장애인을 차별하고 데이터를 오용한다는 비판을 받습니다. 
One technology worth investigating is online proctoring—a service that creates invigilated examination conditions outside of the exam hall.17 Such services existed before the Covid-19 pandemic, but their use increased significantly in 2020 as institutions sought continuity of secure assessment.18 While exam halls still represent the standard to which it aspires, online proctoring has been positioned as an alternative to “not being able to run exams at all”.18(p8) Across a variety of services,19 a combination of regular software updates and data-driven approaches produces a sense of innovation18,20 which, along with efficiency, is a key factor in technology adoption in assessment.21 However, proctoring has been criticized as introducing new risks around learner privacy, foregrounding distrust,18 discriminating against nonwhite and disabled people, and misusing data.22

온라인 감독에 대한 연구는 이제 막 등장하고 있습니다. 이 분야에 대한 리뷰는 종종 언론 자료에 의존하며,18,23,24 비판적 접근 방식을 채택한 연구는 거의 없습니다. 코글린 등24 은 교육기관에 대한 불신 증가와 감시 및 통제의 가속화에 대한 우려를 제기합니다. 리와 팡기25는 푸코의 '규율적 정부성'26을 한국 대학의 온라인 감독에 적용합니다. 이들은 감시가 사고와 행동의 가능성을 제약하고 학생들을 경쟁의 장에서의 상대로 위치시킨다고 제안합니다. 호주의 셀윈 등은 인터뷰, 문서, 미디어를 분석하여 대학, 감독업체, 학생 간의 관계를 비판적으로 검토합니다.18 이들은 감시와 함께 "상업적 공급자에게 통제권을 넘기는 것"과 교사가 교육적 가치를 유지하기 위해 테크놀로지를 전복해야 할 필요성에 대해 의문을 제기합니다. 
Research on online proctoring is just emerging. Reviews of the field often rely on journalistic sources,18,23,24 and few studies have adopted critical approaches. Coghlin et al.24 raise concerns about increasing distrust toward institutions and an acceleration of surveillance and control. Lee and Fanguy25 apply Foucault’s “disciplinary governmentality”26 to online proctoring at a South Korean university. They propose that surveillance constrains possibilities for thinking and behavior, and positions students as opponents in an atmosphere of competition. In Australia, Selwyn et al. analyze interviews, documents, and media to critically examine relations between universities, proctoring companies, and students.18 Alongside surveillance, they question “the surrender of control to commercial providers”, and the need for teachers to subvert the technology to maintain their educational values.

의학 교육에서 온라인 프록팅은 아직 비판적인 연구의 대상이 되지 않았습니다. 의학이 청렴하고 전문성을 갖춘 의료인을 양성하는 것을 강조하는 것을 고려할 때, 이것은 걱정스러운 일입니다. 프록팅의 테크놀로지화된 과정은 결과가 공정하고 객관적이라는 것을 의과 대학, 고용주 및 대중을 안심시킬 수 있습니다. 그러나 "모든 형태의 시험은 감시"이며, 신뢰, 전문직업성 및 지식에 대한 규범적 개념이 이미 의료 교육의 전통적인 평가 관행에 포함되어 있지만, 단순히 "시험을 온라인으로 옮기는 것" 이상의 일이 진행되고 있는지 여부를 고려하는 것이 중요합니다. 
In medical education, online proctoring has not yet been subject to critical research. This is worrying, given medicine’s emphasis on cultivating practitioners with integrity and professionalism. The technologized process of proctoring may reassure medical schools, employers, and the public that results are fair and objective.25 However, while “all forms of examination are surveillance”,15(p3) and while normative conceptions of trust, professionalism, and knowledge were already embedded within traditional assessment practice in medical education,27,28 it is important to consider whether something more is going on than simply “moving exams online”.

본 논문에서는 속도를 늦추고 맥락을 고려하며 의료교육에서 평가테크놀로지와 문화, 이들이 촉진하는 지식과 직업적 정체성의 상호작용을 성찰하자는 빈과 시아노콜로의 제안을 따릅니다. 우리는 포스트 디지털 접근법과 포스트 현상학 접근법을 결합하여 2020년 온라인 프로텍팅된 영국의학전문대학(MRCP) 회원 시험을 분석합니다. 우리는 이 온라인 프록팅의 예시를 통해 생성된 대본, 규범, 신뢰 관계를 살펴보고 역사적, 경제적 맥락에서 이를 위치시킵니다. 이를 통해 교육훈련생과 의료교육기관 간 지식, 전문성, 관계 측면에서 무엇이 가치 있는지 고려한 후 의료교육에서 평가테크놀로지의 통합에 대한 시사점을 도출합니다. 
In this paper, we follow Veen and Ciancolo’s29 suggestion to slow down, consider context, and reflect on the interplay between assessment technology and culture in medical education, and the kinds of knowledge and professional identity they promote. We combine postdigital and postphenomenology approaches to analyze the 2020 online proctored United Kingdoml College of Physicians (MRCP) membership exam. We examine the scripts, norms, and trust relations produced through this example of online proctoring, and locate them in historical and economic contexts. Through this, we consider what is valued in terms of knowledge, professionalism, and relations between trainees and medical education institutions, before drawing out implications for the integration of technologies of assessment in medical education.

이론적 틀: 포스트 디지털과 포스트 현상학의 결합
Theoretical framework: combining the postdigital and postphenomenological

의학 교육 연구가 주로 개인주의와 지식을 "개인 자본"으로 다루는 것에 몰두해 온 반면, 일부는 의학 교육 내에서 테크놀로지를 검토하기 위해 더 복잡한 프레임워크를 채택했습니다. 신체 교육학은 학습과 실천을 (테크놀로지를 포함하는) 물질적 환경과 상호 작용하여 발생하는 구체화된 프로세스로 간주합니다. 활동 이론, 실천 이론 및 기타 사회 물질적 접근법은 테크놀로지와 사람이 특정 상황에서 함께 행동하는 방법을 보는 데 도움이 되어 둘 다 고립되어 이해될 수 없습니다. 이러한 작업은 주로 실천 설정에 초점을 맞추고 있으며, 우리가 아는 한 의료 교육에서 평가 테크놀로지를 검토하는 데 아직 사용되지 않았습니다. 
While medical education research has been largely preoccupied with individualism, and the treatment of knowledge as “private capital”,30(p849) some have employed more complex frameworks to examine technology within medical education. Body pedagogics3 considers learning and practising as embodied processes that occur in interaction with the material environment (which includes technologies). Activity theory,31,32 practice theory,33 and other sociomaterial approaches34 have helped us see how technology and people act together, in particular situations, such that neither can be understood in isolation. Such work focuses primarily on practice settings, and has not yet, to our knowledge, been used to examine assessment technology in medical education.

디지털 테크놀로지의 복잡한 얽힘을 심문하기 위한 새로운 관점은 "포스트 디지털"입니다. 테크놀로지에 대한 사회 물질적 이해와 관련하여, 그것은 모든 "디지털"이 더 넓은 맥락에 포함된 것으로 이해되어야 한다고 주장합니다. 테크놀로지의 결과는 그것이 사용되는 방법과 여러 이해 당사자의 목적, 가치 및 맥락에 달려 있습니다. 더욱이, 디지털 활동과의 만남은 구체화되고 창발합니다. 온라인 시험은 물리적 신체와 물리적 환경에서 이루어지며, 전통적인 교육 관행의 간단한 온라인 버전은 있을 수 없습니다. 온라인 감독 시험은 일부 공통점이 있지만, 필연적으로 시험장과 다른 현실을 수반합니다. 이러한 더 넓은 관점을 강화하기 위해, 우리는 먼저 프록터링 테크놀로지의 예에 의해 촉진되는 인간-테크놀로지 관계(행동 스크립트, 사회적 규범 및 신뢰 관계)의 더 면밀한 심문을 위해 테크놀로지 접근법의 후현상 테크놀로지를 채용합니다. 그런 다음 우리는 이 테크놀로지에 의해 만들어진 평가 현실이 역사적, 정치적, 교육학적 및 경제적 맥락에 어떻게 포함되며, 이것이 평가 테크놀로지의 훈련생, 기관 및 문화 간의 관계에 어떤 의미가 있는지 고려하기 위해 줌아웃합니다. 
An emerging perspective for interrogating the complex entanglements of digital technology is that of the “postdigital”.35,36 Related to sociomaterial understandings of technology, it asserts that anything “digital” must be understood as embedded in a broader context. Outcomes of technology are contingent on the methods by which it is used, and the purposes, values, and contexts of multiple stakeholders.37 Further, encounters with digital activity are embodied and emergent. Online exams take place in physical settings with physical bodies, and there can be no straightforward online versions of traditional educational practices.35,38,39 Online proctored exams inevitably involve a different reality from the exam hall, albeit with some commonalities.40 To augment this broader perspective, we first employ a postphenomenology of technology approach,41–44 for a closer interrogation of the human-technology relations (behavioral scripts, social norms, and trust relations) promoted by an instance of proctoring technology. We then zoom out to consider how the assessment reality created by this technology is embedded in historical, political, pedagogical, and economic contexts, and what this means for relationships between trainees, institutions, and cultures of assessment technology.

포스트 디지털 관점포스트 현상학 관점 모두 현실이 인간의 주관적인 해석과 행동에만 기초한다는 생각을 거부합니다. 우리는 우리 주변의 세계를 완전히 결정하지는 않습니다. 반면, 두 관점 모두 현실이 단지 "저 밖에" 있고 우리가 객관적으로 알 수 있다는 관점을 비판합니다. 우리 주변의 세계가 우리를 완전히 결정하지는 않습니다. 반대로 두 관점 모두 "현실은 관계에서 발생하며, 이를 접하는 인간이 발생하는 것처럼"을 강조하며, 테크놀로지는 이러한 관계를 형성하는 역할을 합니다. 
Both postdigital and postphenomenological perspectives reject the idea that reality is based on human, subjective interpretation and action alone. We do not fully determine the world around us. On the other hand, both perspectives also criticize the view that reality is just “out there” and we can know it objectively. The world around us does not fully determine us. Conversely, both perspectives emphasize that “reality arises in relations, as do the humans who encounter it”,43(p568) and technology has a role in shaping these relations.

온라인 관리 시험
Online proctored exams

온라인 프록팅은 행동과 이동에 대한 가능성을 감시하고 제한함으로써 원격 버전의 시험장 조건을 만듭니다. 그 테크놀로지는 각 응시자의 신원을 확인하고, 그들이 그들의 수행을 도울 수 있는 자원으로부터 혼자이고 격리되어 있다는 것을 확인합니다. 귀마개를 착용하거나 교과서 또는 모바일 장치를 다루는 것은 "심각한 시험 프로토콜 위반"으로 간주될 수 있습니다. 일부 서비스는 시험자가 문서, 응용 프로그램 및 웹사이트에 대한 액세스를 차단하기 위해 그들의 장치에 소프트웨어를 설치하도록 요구합니다. 인증은 일반적으로 시험 동안 환경을 감시하는 웹캠과 마이크를 제어하기 위한 소프트웨어의 허가를 요구합니다. 다른 데이터는 키보드 스트로크, 네트워크 트래픽 및 컴퓨터 메모리 사용량을 포함할 수 있습니다. 모니터링은 녹화 또는 둘 다를 통해 라이브 또는 회고적일 수 있으며 알고리즘 또는 학생에게 알려지지 않고 보이지 않는 인간을 포함할 수 있습니다. 시험 전에 응시자는 웹캠으로 시험 공간(종종 침실, 부엌 또는 집 내의 다른 개인 공간)을 스캔해야 합니다. 
Online proctoring creates a remote version of exam-hall conditions by monitoring and constraining possibilities for action and movement. The technology verifies each candidate’s identity, and that they are alone and isolated from resources that could aid their performance. Wearing earplugs or handling textbooks or mobile devices may be considered a “serious breach of exam protocol”.45(p5) Some services require exam-takers to install software on their device to block access to documents, applications, and websites. Authentication normally requires permission for the software to control webcams and microphones, which monitor the environment during the examination. Other data can include keyboard strokes, network traffic, and computer memory usage.17 Monitoring can be live or retrospective via recordings, or both, and may involve an algorithm, or a human who is unknown to, and unseen by, the student. Before the exam, candidates must scan the examination space (often a bedroom, kitchen, or other private space within their home) with their webcams.

온라인 프록팅의 최근 예는 영국 왕립 의과 대학(MRCP) 회원 시험입니다. 두 파트로 이뤄진 이 시험은 전문가 양성을 위한 관문 역할을 합니다. "매년 5천 명의 응시자가 검사를 받는 "세계에서 가장 큰 규모의 대학원 임상 시험"입니다. 1부는 입문, 필기 시험입니다. 2부는 두 시간, 세 시간의 필기 시험으로 구성되어 있으며 둘 다 같은 날 앉았습니다. 마지막으로 임상 시험 스킬 실무 평가(PACE)가 있습니다. 2020년에 MRCP는 다양한 구성 요소에 대해 다른 활력 서비스를 사용하여 원격 검사할 수 있는 옵션을 제공했습니다. MRCP 지침에 따르면 프록팅은 "대면 시험에서 마주치는 것처럼 시험 내내 활동을 모니터링"하는 "전문 제공자에 의해" 수행됩니다. 45(p5) 
A recent example of high-stakes online proctoring is the United Kingdom’s Royal College of Physicians (MRCP) membership exam. This two-part exam acts as a gateway into specialist training.46 It is “the largest high stakes postgraduate clinical examination in the world” with “5000 candidates examined each year”.47(p2) 

  • Part One is an introductory, written examination.
  • Part Two is more advanced, consisting of two, three-hour written exams, both sat on the same day.
  • Finally, there is the Practical Assessment of Clinical Examination Skills (PACES).

In 2020, MRCP offered the option of remote examination using different invigilation services for the different components. According to the MRCP guidance, proctoring would be performed “by a specialist provider” who would “be monitoring your activity throughout the exam, just as they would in a face to face exam encounter.”45(p5)

본 논문에서는 MRCP 시험 2부의 실기시험 구성 요소를 제외하고 분석을 필기 요소로 제한합니다. 임상 스킬을 입증하기 위한 동등한 평가 환경을 만들 수 있는 온라인 프록팅 능력에 대한 우려가 분명히 있지만 범위를 제한하면 테크놀로지가 필기 평가에서도 제한된 물리적 환경을 어떻게 만드는지에 초점을 맞출 수 있습니다. 2020년 MRCP 회원 시험 2부는 프록터 검사 서비스를 사용했습니다. 수험생은 "보장"되는 조용한 위치를 선택해야 했습니다. 시험 공간은 조명이 잘 켜져 있어야 하고 신뢰할 수 있는 WiFi가 있어야 했습니다. 웹캠과 마이크가 있는 노트북, 구글 크롬 브라우저, 최소 인터넷 속도가 요구되었습니다. 프록터 검사는 눈의 움직임이나 키 누름을 측정하지 않았지만 추가적인 "정확도"를 위해 추가 카메라(예: 응시자의 스마트폰)를 추가하는 "리더"라고 자부했습니다. 48 화면 및 카메라 영상은 "내부 사용"을 위해 녹화되었으며 응시자나 시험관이 사용할 수 없게 되었습니다. 45 
In this paper, we limit our analysis to the written element in Part Two of the MRCP exam, excluding the practical component. While there are obvious concerns about the capacity for online proctoring to create equivalent assessment environments for demonstrating clinical skills, limiting our scope allows us to focus on how the technology creates constrained physical environments even for written assessments. In 2020, Part Two of the MRCP membership exam used the ProctorExam service. Examinees were required to choose a quiet location where they were “guaranteed” not be disturbed.45 The exam space needed to be well lit and have reliable WiFi. Requirements included a laptop with webcam and microphone, Google Chrome browser, and a minimum Internet speed. ProctorExam did not measure eye movements or keystrokes, but prided itself as a “leader” in adding extra cameras (e.g. the candidate’s smartphone) for additional “accuracy”.48 Screen and camera footage was recorded for “internal use” and not made available to candidates or examiners.45

인간 검사관들(Proctor Exam 또는 기관 직원들)은 응시자들이 정확한 시간에 시작했는지 확인하고 필요할 때 도움을 제공하기 위해 응시자들을 지켜봤습니다. 게다가, 그들은 시험 환경이 안전한지 확인했습니다. 이 지지적 체계는 비정상적인 행동을 잠재적인 부정행위로 표시하는 주요 기능을 과소평가했습니다. 이러한 경우, 의료 교육 기관은 취해진 모든 조치에 대해 최종 결정권을 갖습니다. 검사관들은 응시자들에게 보이지 않았습니다. 문자 채팅을 통해 의사소통이 이루어졌습니다. 응시자들은 더 일찍 끝났음에도 불구하고 할당된 시간이 끝날 때까지 컴퓨터에 앉아 있어야 했습니다.
Human proctors (either ProctorExam or institutional employees) watched the candidates, to ensure they started at the correct time and to provide assistance when needed (e.g. where candidates felt unwell or needed the bathroom). Moreover, they ensured that the exam environment was secure. This supportive framework underplayed the primary function, which was to flag abnormal behavior as potential cheating. In such cases, the medical education institution would have the final say on any action taken. Proctors were not visible to candidates; communication occurred via text chat. Candidates had to remain seated at their computer until the end of the allocated time, even if they had finished earlier.45

프록팅의 사후 명명법: 테크놀로지가 현실을 만드는 방법
Postphenomology of proctoring: how technology creates reality

Ihde41과 베어벡에 의해 개발된 Purse 현상학은 테크놀로지가 단순히 우리가 의도하는 것을 하는 특정한 목적을 가지고 설계된 도구라는 생각에 도전합니다.49 대신 테크놀로지는 중립적이지 않은 방법으로 인간과 세계 사이의 관계를 중재합니다.50 이 렌즈를 사용하여 우리는 테크놀로지가 사용자에게 어떻게 그들이 세계에서 어떻게 행동할 수 있는지를 형성하는 특정한 스크립트를 제공하고, 테크놀로지가 어떻게 세계를 그들에게 제시하는지를 면밀히 조사합니다. 
Postphenomenology, as developed by Ihde41 and Verbeek,42 challenges the idea that technology is an instrument designed with a certain purpose that simply does what we intend it to do.49 Instead, technology mediates relations between human and world in non-neutral ways.50 With this lens, we scrutinize how technology offers users particular scripts that shape how they can act in the world, and how technology presents the world to them.

스크립트 및 규범
Scripts and norms

테크놀로지적인 물건들은 "그것들이 사용되는 방식을 형성하는 경향이나 궤적"인 대본을 가지고 있습니다. 43(p569) 예를 들어, 만년필은 우리가 그것들을 쓰기 전에 그것들을 미리 생각하고 문장을 구성하도록 요구하는 반면, 워드 프로세서는 말을 흉내내는 빠르고 유연한 글쓰기를 호출합니다. 어떤 사람은 어느 것으로 천천히 그리고 빠르게 쓸 수 있지만, 각각은 다른 사람들을 방해하면서 특정한 종류의 사용을 촉진합니다. 43,51 게다가, 테크놀로지는 사회적으로 내재되어 있고 문화적인 규범을 형성합니다. 초기의 볼펜은 더 빠르고, 엉성한 글쓰기를 이끌어냄으로써 아이들의 작품의 질을 손상시키는 것으로 생각되었던 반면, 만년필은 깔끔하고 신중한 작품을 생산하는 것으로 보여졌습니다 
Technological objects have a script, that is an “inclination or trajectory that shapes the ways in which they are used.”43(p569) For example, fountain pens require us to think ahead and compose sentences before writing them down, while word processors invoke quick, flexible writing that mimics speech. One can write slowly and quickly with either, but each promotes a certain type of use while discouraging others.43,51 Moreover, technologies are socially embedded and shape cultural norms. Early ballpoint pens were thought to impair children’s quality of work by eliciting quicker, sloppy writing, whereas fountain pens were seen as producing neat and careful work.43

온라인 프록팅에서 수험생의 행동은 테크놀로지의 감시 기능에 의해 통제됩니다. 프록터 Exam은 멀티 카메라 솔루션을 통해 보안과 정확성이 향상된 순수한 맥락을 제공한다고 주장합니다.48 그러나 수험생의 행동에 대한 엄격한 통제와 수험생의 불가피한 해석으로 인해 맥락의 순수성이 훼손됩니다.51 시험장에서 수험생은 자신의 사람을 정화purify하기만 하면 됩니다(예: 금지된 노트 또는 장치를 제외함으로써). 온라인 프록팅에서 수험생은 자신의 전체 환경과 신체 움직임 범위를 정화해야 합니다. 
In online proctoring, examinees behavior is governed by the technology’s surveillance function. ProctorExam claims to provide a pure context, with greater security and accuracy, through their multi-camera solution.48 Purity of context is, however, undermined by the strict control of examinees’ behavior, and by the inevitable interpretation by examiners.51 In exam halls, candidates only need to purify their person (e.g. by excluding prohibited notes or devices); in online proctoring, they must purify their whole environment and range of bodily movement.

따라서, 비록 시험장 활성화는 감시와 행동의 해석을 수반하지만 (예를 들어, 이웃을 바라보는 것은 부정행위 또는 정신을 산만하게 한다는 것을 의미하는가?), 중요한 차이점이 있습니다. 첫째, 시험장에서, (잠재적인) 부정행위는 금지된 자원을 보거나 다른 응시자들에게 말하는 것으로 프레임화되는 반면, 온라인 프록팅에서는 그것이 더 광범위하게 프레임화됩니다:

  • 화면에서 멀리 떨어진 곳을 바라보는 것,
  • 비정형적인 방식으로 움직이는 것,
  • 시험을 위해 사용되고 있는 기기의 불법적인 사용,
  • 인터넷 연결 불량,
  • 다른 테크놀로지적인 문제,
  • 다른 사람이 들어오는 것 

많은 학생들이 온라인 프록팅을 지나치게 간섭적으로 경험하지 않는 것 같고, 어떤 학생들은 그것을 보는 것을 잊거나 그것에 무관심해지는 것처럼 보이지만, 그럼에도 불구하고 신체 움직임에 대한 엄격한 감시는 그들이 수험생의 이상적인 모델을 따르도록 강요합니다. 22,27

Thus, although exam hall invigilation also involves surveillance and interpretation of behavior (e.g. does looking toward a neighbor imply cheating or mind-wandering?), there are important differences. Firstly, whereas in the exam hall, (potential) cheating is framed as looking at prohibited resources, or speaking to other candidates, in online proctoring it is framed more widely:

  • looking away from the screen,
  • moving in an atypical fashion,
  • unsanctioned use of the device being used for exam-taking,
  • poor Internet connectivity,
  • other technical issues,
  • someone entering the room, etc.

While many students do not seem to experience online proctoring as overly intrusive, and some forget about being watched or become apathetic to it,18 strict monitoring of bodily movements, nonetheless, compels them to conform to an ideal model of an examinee.22,27

둘째로, 온라인 프록팅에는 다양한 행동 데이터(예: 눈 움직임, 키 누름, 비디오 피드)가 있으며, 각각은 시험 세계의 디지털화된 부분을 나타냅니다. 이러한 데이터는 행동이 부적절한지 여부를 직접 확인할 수 없습니다. 시험관은 부정행위를 나타내는 벤치마크를 "읽어야" 하며, 시험관은 이러한 기준에 적응하도록 테크놀로지에 의해 격려됩니다. 셋째로, 응시자들은 온라인 시험관을 볼 수 없고, 그들과 그들의 평가관 모두 소프트웨어가 작동하는 방식에 접근할 수 없어 시험관 활성화에 대한 정상적인 신뢰 관계를 방해합니다. 시험관이 무엇을 하고 관찰하는지에 대한 이해가 거의 없기 때문에 시험관의 행동이 미세하게 기록되기 때문에 수험생들은 불리합니다.
Secondly, in online proctoring, there is a variety of behavioral data (e.g. eye-movement, keystrokes, video feeds), and each represents a digitized slice of the test world. These data cannot directly confirm whether behavior is inappropriate. Proctors must “read” the benchmarks that indicate cheating, and examinees are encouraged by the technology to adapt to these standards. Thirdly, candidates cannot see online proctors, and neither they, nor their assessors, have access to how the software works, disrupting normal trust relations of exam hall invigilation.24,25 Examinees are at a disadvantage, since their behavior is minutely recorded, while their understanding of what proctors do and observe is nearly absent.

 

신뢰
Trust

온라인 감독 테크놀로지는 더 엄격한 프로토콜을 시행함으로써 신뢰보다 감시의 규범을 강화하는 동시에 객관성이라는 잘못된 인식을 전달합니다우리가 테크놀로지를 사용할 때 테크놀로지는 투명해집니다(감독을 받는 수험생이 자신이 감시당하고 있다는 사실을 잊어버리는 것처럼).18,43,50 우리는 펜으로 글을 쓰고, Google로 검색 결과를 얻고, 감독관 테크놀로지로 부정행위자를 식별할 수 있기를 기대합니다. 응우옌은 신뢰의 개념을 사람 간의 관계뿐만 아니라 우리가 지속적으로 신뢰하는 (테크놀로지적) 대상에도 적용합니다.52 인간의 신체적, 인지적 한계를 넘어서는 압도적인 세상에 대처하기 위해 우리는 타인, 동물, 사물에게 대리인을 위탁합니다.52 우리는 시각을 안내견에게, 자녀의 교육을 교사에게, 시험 감시를 감독관 테크놀로지에 위탁할 수 있습니다. 각각의 경우 신뢰는 테크놀로지의 신뢰성에 대해 의심하지 않는 태도를 의미합니다. 로프를 잊어버리는 훈련이 필요한 초보 등산객이52 로프가 추락을 막아줄 것이라고 믿고, 소중한 주의를 다른 곳으로 돌릴 수 있다고 생각해 보십시오. 이 테크놀로지는 더 이상 보이지 않거나 투명해졌습니다. 감독 테크놀로지를 효과적으로 활용하려면 수험생은 부정행위를 감지하지 않도록 테크놀로지를 신뢰하는 법을 배워야 하고, 감독관은 부정행위를 적절히 감지할 수 있도록 테크놀로지를 신뢰해야 합니다.
Online proctoring technology intensifies norms of surveillance over trust by enforcing stricter protocols, while also conveying a false sense of objectivity. Technology becomes transparent to us when we use it (as with proctored examinees who forget they are watched).18,43,50 We expect pens to write, Google to yield search results and proctor technology to identify cheaters. Nguyen applies the concept of trust, not only to relations between people, but also to those (technological) objects that we trust constantly.52 To cope with an overwhelming world that poses demands beyond our physical and cognitive limitations, we outsource agency to human others, animals, and objects.52 We may outsource our sight to a guide dog, the education of our children to teachers, and exam surveillance to proctor technologies. In each case, trust implies an unquestioning attitude to the technology’s reliability. Consider a novice mountaineer, who requires training to forget their rope,52 trusting it to stop them from falling, so that they can direct their precious attention elsewhere. The technology is no longer visible, or has become transparent. To work effectively with proctoring technology, examinees must learn to trust it not to flag them inappropriately, while examiners must trust it to appropriately detect cheating.

여러 비디오 피드가 감독자에게는 객관성을 만드는 것처럼 보이지만, 수험생에게는 오프라인 시험장보다 더 세세한 측면까지 외부 힘에 의해 신체가 제약, 감시, 통제되는 매우 작위적인 현실에 위치합니다. 투명성의 붕괴는 응시자가 잠재적으로 의심스러운 행동을 할 때 소프트웨어에 의해 생성되는 알림과 경고에 의해 유발됩니다. 이러한 힘은 기업을 자애롭거나 중립적으로 보호하는 것으로 전달되지만, 그들의 주요 기능은 이동과 환경의 미세한 테크놀로지 스크립트를 통해 제약을 집행하고, 전복을 보고하는 것입니다. 
While multiple video feeds seemingly create objectivity for proctors, for examinees, the assessment is located in a highly-contrived reality in which their bodies are constrained, monitored, and controlled by external forces, in more detail than in exam halls. Breakdowns of transparency are provoked by notifications and warnings produced by the software when a candidate engages in potentially suspicious behavior (e.g. looking in the wrong place or moving in the wrong way). These forces are conveyed by proctoring companies as benevolent or neutral, but their primary function is enforcing constraint and reporting subversion through the minute technological scripting of movement and environment.

온라인 프록팅의 포스트 디지털 뷰
A postdigital view of online proctoring

우리는 온라인 프록팅이 시험장 활성화보다 더 엄격한 대본과 더 많은 해석을 포함한다고 주장했습니다. 이 섹션에서는 포스트 디지털 보기를 확대하여 MRCP 시험이 위치한 역사적, 경제적 맥락과 평가 문화를 축소하고 조사합니다. 
We have argued that online proctoring involves a tighter script and more interpretation than exam hall invigilation. In this section, we broaden our postdigital view to zoom out and investigate the historical and economic contexts and assessment cultures in which the MRCP exam is located.

역사적 맥락
Historical context

온라인 프록팅은 전통적인 시험 환경의 역사적 맥락에 의해 채색된 렌즈를 통해 해석됩니다. Carless의 주장에 따르면, 우리는 부분적으로 그것의 오랜 전통 때문에 시험을 신뢰합니다. 그것들은 "전통적인 시험은 지속성과 안정성을 나타내는 반면, 다른 더 혁신적인 형태의 평가는 마치 위험을 감수하는 것으로 보일 수 있습니다." 게다가, 온라인과 전통적인 시험 사이의 동등성은 시간이 지남에 따라 응시자를 비교하기 위해 필수적입니다. 
Online proctoring is interpreted through a lens colored by the historical context of traditional examination settings. As Carless53 argues, we trust exams, in part, due to their long tradition. They “represent continuity and stability, whilst other more innovative forms of assessment may be seen as risk-taking.” 53(p82) Further, equivalence between online and traditional exams is necessary for comparing candidates over time.

고객을 안심시키기 위해 온라인 프록팅은 "학생들이 어떤 시험 환경에서도 무력화된 감시 위치에 놓인다"는 "대학 공부의 확립된 논리" 내의 기존 불신을 모방합니다. 이러한 전통적인 활성화 관행의 모방은 MRCP 지침에 명시되어 있습니다. 그것은 온라인 프록터가 "대면 시험에서 마주치는 것처럼" 일하는 것으로 프레임화합니다.
To reassure its customers, online proctoring mimics a preexisting distrust within the “established logics of university study” through which “students are placed in disempowered surveilled positions during any examination setting.”18(p13) This mimicry of traditional invigilation practices is explicit in the MRCP guidance. It frames online proctors as working “just as they would in a face to face exam encounter”.45(p5)

그러나 우리의 사례에는 보이지 않는 온라인 감독관, 여러 대의 카메라, 공유 환경 제어, 타사와의 파트너십 등이 포함되었습니다. 또한, ProctorExam의 행동의 데이터화는 [시험을 통한 지식의 정량화와 숫자]를 [다른 형태의 정보]보다 더 객관적인 것으로 여기는 전통을 반영하는 한편, 빅데이터와 알고리즘으로 진실을 판단하는 추세의 일부이기도 합니다.20 데이터 기반 프로세스와 지속적인 소프트웨어 업데이트를 통해 ProctorExam은 끊임없는 혁신의 의미를 담고 있으며18, 동시에 위험이 낮은 연속성 있는 관행으로 인식되고 있습니다.
However, our case involved invisible online proctors, multiple cameras, control of shared environments, partnerships with 3rd party companies, and more. Further, while ProctorExam’s datafication of behavior echoes the quantification of knowledge through exams, and a tradition of seeing numbers as more objective than other forms of information,20,54 it is also part of an increasing trend of big data and algorithmically adjudicated truth.20 With data-driven processes and constantly updating software, ProctorExam is imbued with a sense of relentless innovation,18 while also being perceived as a lower-risk practice of continuity.

경제적 맥락
Economic context

프록팅 테크놀로지는 상업적 제품으로서 가치를 창출해야 합니다. 먼저, 그것은 의과 대학을 고객으로 간주하고, 평가자와 학생 사이의 관계에 스스로 삽입합니다. 상당한 비용을 지출한 의대는 그 시스템에 투자되며, 그 테크놀로지가 성공으로 인식되는 것은 그것의 이익에 부합합니다. 게다가, 보호할 필요가 없는 다른 평가 형식으로 변경하는 것은 비싸고 복잡할 것입니다. 이 인센티브는 의사 결정자들이 비판으로부터 그 테크놀로지를 방어하고, 그것을 계속 사용하도록 장려합니다. 
As a commercial product, proctoring technology must create value. First, it frames medical schools as clients, inserting itself into the relationship between assessors and students.18,48 Having spent considerable money, the medical school is invested in the system, and it is in its interests for the technology to be perceived as a success. Moreover, it would be expensive and complicated to change to a different assessment format that did not require proctoring.18 This incentivises decision-makers to defend the technology against critiques, and to continue using it.

둘째, 보호 테크놀로지는 학생들을 잠재적인 부정행위자로 그리고 따라서 의과대학과 의료계의 학문적 진실성에 대한 위협으로 간주합니다. 소프트웨어는 사람들이 부정행위를 하는 경우에만 필요하기 때문에 이것은 상업적 지속가능성을 위해 중요합니다.
Second, proctoring technology frames students as potential cheaters and, therefore, as threats to the academic integrity of the medical school and the medical profession.25 This is important for commercial sustainability, since the software is only necessary if people cheat.

셋째, 그것은 또한 공정함과 지지의 수사를 통해 학생들을 고객으로 만듭니다. 온라인 감독관들은 "어떤 문제에 대해서도 당신을 돕기 위해 그곳에 있습니다 … 당신이 그들에게 문제를 알려야 할 필요가 있다면 그것들은 당신의 화면에 나타나지 않을 것이지만 사용 가능할 것입니다". 열심히 일하고 부정행위를 하지 않는 학생들은 그들이 다른 사람들의 부정행위로 인해 불이익을 받지 않는다는 것을 안심시킬 수 있습니다. 마지막으로, 그 테크놀로지의 인지된 효과는 또한 데이터를 생성하는 원천으로서 학생들에게 달려있는데, 그들이 시험에 통과하고 싶다면 그들을 따르는 것 외에는 선택의 여지가 없습니다.
Third, it also frames students as clients through its rhetoric of fairness and support. Online proctors are there to “assist you with any issues … They will not be visible on your screen but will be available should you need to alert them to a problem.”45(p13) Hard-working, non-cheating students can be reassured that they are not disadvantaged by the cheating of others.24,25 Finally, the technology’s perceived effectiveness is also contingent on students as sources that generate data,55 with no choice but to comply if they want to pass the exam.

평가문화
Assessment culture

평가는 학생들이 무엇을 어떻게 배우는지, 그리고 교육 시스템과 전문적인 규율 안에서 무엇이 가치 있는지에 강력한 영향을 미칩니다. 예를 들어, 시험은 "객관적인" 지식에 가치를 부여하고, 다른 종류의 지식을 보여주고 검증하기 위한 가능성을 제한합니다. 모든 활력은 표준화와 경험의 평등을 기반으로 하여 성과의 공정한 평가를 위한 환경을 만드는 것을 목표로 합니다. 하지만 외부 자원에 대한 접근을 막고 신체 행동을 통제하는 것은 신뢰, 관계, 팀워크가 기반이 되는 구체화되고 사회적이며 물질적이고 집단적인 지식을 희생시키면서 개별화되고 추상적이며 명제화된 지식을 우선시합니다. 비판적이거나 창의적인 지식을 소외시키고 미래의 자율적인 실천가들의 발전을 방해합니다. 10 
Assessment has a powerful influence over what and how students learn, and over what is valued within education systems13 and professional disciplines.10,56 Exams, for example, value “objective” knowledge, and constrain possibilities for demonstrating and validating other kinds of knowledge.10 All invigilation is aimed at creating an environment for fair assessment of performance, based on standardization and equality of experience.57 Yet preventing access to external resources and controlling bodily behavior prioritizes individualized, abstract, and propositional knowledge58 at the expense of embodied, social, material and collective knowledge on which trust, relationships, and teamwork are founded.59 It marginalizes critical or creative knowledge and inhibits the development of future autonomous practitioners.10

이미 좁은 지식의 관점이었던 것이 온라인 프록팅을 통해 더욱 강화됩니다. 시험장에서 모든 응시자는 동일한 물리적 위치에서 수행하고 매우 제한된 일련의 자료만 허용됩니다. 온라인 프록팅 시험에서 테크놀로지가 학생이 시험 동안 어떻게 행동하고 움직이거나 보여야 하는지에 대한 모델을 준수한다고 고려되지 않는 사람은 진실성이 부족하다는 표시와 관련이 있습니다. 단일 디지털 인터페이스에 대한 시선과 이동의 제한은 물질적, 비인지적 지식 및 다양한 신체 특성 및 조건을 강력하게 부정하는 것과 같다. 이것은 다른 사람들보다 일부에게는 어렵고 온라인 프록팅 서비스가 성별, 인종, 장애, 언어, 문화 등과 관련하여 응시자를 차별한다는 보고가 있습니다. 이것들은 다른 상황적 단점(예: 공유된 생활 공간, 돌봄 책임, 제한된 테크놀로지 자원 또는 신체적 도전이 있는 사람)과 함께 공정하고 객관적인 평가와 상충됩니다.
What was already a narrow view of knowledge is further tightened through online proctoring. In exam halls, all candidates perform in the same physical location, and are allowed only a highly-restricted set of materials. In online proctored exams, anyone not considered by the technology to conform to its model of how a student should behave, move, or look during an exam is associated with signifiers of a lack of integrity. The restriction of gaze and movement to a single digital interface is a strong commitment to the denial of material, non-cognitive knowledge and of diverse bodily characteristics and conditions. This is harder for some than others, and there are reports of online proctoring services discriminating against candidates in relation to gender, race, disability, language, culture, and more.22,24,55 These, along with other circumstantial disadvantages (e.g. those with shared living spaces, caring responsibilities, limited technological resources, or physical challenges) are at odds with fair and objective assessment.

논의
Discussion

무결성, 전문성 및 감시
Integrity, professionalism, and surveillance

시험에서 정답, 자원 배제, 행동 통제는 존재, 사고, 지식, 행동의 가능성을 닫아버립니다.11 또한 "객관적" 평가는 집단적이고 협력적이며 복잡한 전문적 수행을 희생시키면서까지 능력을 표준화되고 탈맥락화된 지식으로 세분화해야 합니다.59-61 온라인 감독에서는 훈련생이 집에서 시험을 볼 수 있도록 유연성을 부여하면 규칙과 감시의 요구 사항이 증가합니다. 이는 수험자, 신뢰, 지식에 대한 기존의 문제적 프레임을 심화시켜 '공정성'이라는 이름으로 더 진정성 있고 의미 있는 형태의 평가가 희생될 수 있다고 주장해 왔습니다."25
In exams, definitive answers, the exclusion of resources, and behavioral control close down possibilities of being, thinking, knowing, and acting.11 Further, “objective” assessment requires breaking ability down into standardized and decontextualized knowledge at the potential expense of collective, collaborative, and complex professional performance.59–61 In online proctoring, the flexibility of enabling trainees to take exams from home increases the requirements of rules and surveillance. We have argued that this intensifies existing problematic framings of examinees, trust, and knowledge, in which more authentic or meaningful forms of assessment are sacrificed in the name of “fairness.”25

2020년 MRCP 시험에서 온라인 감독관은 학습자가 상상한 이상적인 응시자를 묘사하기 위해 자신을 왜곡하는 수행성을 강화함으로써 기존 형태의 차별을 악화시켰을 수도 있습니다.15 평가에서의 감시는 광범위한 정상화 과정의 일부이며, 이를 통해 "'정상' 범주에 부합하지 않는 사람들을 배제하기 때문에... 객관화 기법이 우리를 평가하고 통제하는 데 끊임없이 사용된다."27(p445) "평등, 다양성 및 포용은 규제 기관으로서 우리의 업무에 필수적"이라는 영국 일반의협의회(General Medical Council)와 같은 주장에도 불구하고 62(p3) 학생들은 자신의 민족성, "성별, 성, 문화, 종교, 언어 또는 장애/능력"15(p3) 을 증폭, 위생화 또는 억제해야 한다고 느낄 수도 있습니다.
In the 2020 MRCP exam, online proctoring may also have exacerbated existing forms of discrimination by heightening performativity, through which learners contort themselves to portray an imagined ideal candidate.15 Surveillance in assessment is part of a broader process of normalization, through which “techniques of objectification… are constantly used to evaluate and control us because they exclude those who cannot conform to ‘normal’ categories.”27(p445) Despite claims like the UK General Medical Council’s that “equality, diversity and inclusion are integral to our work as a regulator,”62(p3) students may feel they need to amplify, sanitize, or suppress their ethnicity, “gender, sexuality, culture, religion, language or disability/ability.”15(p3)

또한, 감시는 감시를 받는 조건에 얽매인 일종의 유사 진실성pseudo-integrity을 만들어낼 수 있습니다. 이는 학생들이 해당 학문의 일원이 되어 그 분야에 기여할 수 있도록 준비하는 시험 평가의 문제를 더욱 악화시킵니다.10,63 강제적인 성실성은 독립적인 전문직업성 개발에 역효과를 낼 가능성이 높기 때문입니다.64-67 테크놀로지 감시는 교육자와 학생 간의 불신을 조장하고,68 카메라의 존재는 학생들이 면밀히 감시해야 하는 잠재적 부정행위자라는 것을 암시합니다. 감독 업체들은 응시자의 가정에서 강압적이고 침습적인 조치를 정상화하려고 노력하며, 감시를 교육기관의 '학문적 무결성'과 공정한 시험에 대한 신뢰할 수 있는 학생의 권리를 보호하기 위한 '필요악'으로 포지셔닝합니다.18
Further, surveillance may produce a kind of pseudo-integrity that is bound to conditions of being watched. This exacerbates a problem for exam assessment more generally, in how it prepares students to become part of and contribute to their disciplines,10,63 since enforced integrity is likely to be counterproductive to the development of independent professionalism.64–67 Technological surveillance promotes distrust between educators and students,68 and the presence of cameras implies that students are potential cheaters who must be closely watched. Proctoring companies seek to normalize coercive and invasive measures in the homes of candidates, positioning surveillance as a “necessary evil” to protect the “academic integrity” of institutions and the rights of trustworthy students to a fair examination.18

응시자를 잠재적 부정행위자로 규정하고, 부정행위를 중요하고 성장하며 역동적인 문제로 간주하는 것은 시험 감독 회사의 상업적 이익에 부합합니다.69 테크놀로지적 해결책으로.18,22 MRCP가 온라인 시험 감독을 "임시 비상 해결책"으로 사용하는 것은 테크놀로지 자동화의 광범위한 추세를 따르고 "학생과 대학 간의 필수 인프라 중개자로서 민간 및 상업 제공자"를 확립합니다.55(p2)
It is in the commercial interest of proctoring companies to frame candidates as potential cheaters and cheating as a significant, growing, and dynamic problem,69 with a technological solution.18,22 MRCP’s use of online proctoring as a “temporary emergency solution” follows a broader trend of technological automation and establishes “private and commercial providers as essential infrastructural intermediaries between students and their universities”.55(p2)

의학교육의 테크놀로지에 대한 복잡한 관점
Complex perspectives on technology in medical education

철학적 접근을 통해 분석은 일반적인 형태의 증거를 뛰어넘을 수 있으며, 이는 종종 복잡성을 다루는 방식에 제한이 있습니다.11 포스트 디지털이라는 광범위한 관점을 통해 시험장과 온라인 감독 사이에 직접적인 동등성이 없다는 것을 알 수 있습니다. 2020 MRCP 시험의 "디지털" 테크놀로지는 역사적, 경제적 맥락과 얽혀 있는 방식으로 평가 문화에 내재되어 있습니다. 포스트 현상학적 렌즈는 스크립트와 스크립트가 평가 현실을 형성하는 방식에 주목합니다. 이 두 가지 접근법을 결합하면 "실습과 그 효과에 대한 설득력 있고 방어 가능한 설명을 제공할 수 있습니다."33(219쪽) 이러한 접근법 또는 기타 복잡한 프레임워크는 의학교육의 다른 테크놀로지 적용에도 적용될 수 있으며, 적용되어야 합니다. 예를 들어, 학습 분석을 통해 촉진되는 학습의 종류,35,70 또는 온라인 학습의 사회적 및 물질적 맥락72이 매우 다르기 때문에 캠퍼스 내 교육이 "온라인으로 전환"71되는 것이 무엇을 의미하는지 의문을 제기할 수 있습니다. 각각의 경우에 도덕적, 윤리적 의미를 파악하려면 결과, 약관, 조건을 넘어40 테크놀로지가 특정 문화와 관행에 어떻게 내재되어 있는지 살펴볼 필요가 있습니다.
Philosophical approaches allow analyses to go beyond the usual forms of evidence, which are often limited in terms of how they address complexity.11 Our broader postdigital perspective helps us see that there is no straightforward equivalence between exam halls and online proctoring. The “digital” technology of the 2020 MRCP exam was embedded in an assessment culture in ways that are entangled in a historical and economic context. The postphenomenological lens draws attention to scripts and how they shape the assessment reality. Combined, these two approaches “provide a convincing and defensible account of both the practice and its effects.”33(p219) These or other complex frameworks can, and should, be applied to other applications of technology in medical education. For example, we might question the kinds of learning promoted via learning analytics,35,70 or what it means for on campus teaching to “move online”,71 since the social and material context of online learning72 is very different. In each case, the moral and ethical implications require looking beyond outcomes, terms, and conditions,40 to how technology is embedded in particular cultures and practices.

의료 교육 평가 테크놀로지에 대한 광범위한 수업
Broader lessons for assessment technology in medical education

니미넨과 라덴페라는 고등 교육 평가에서 학생 기관이 어떻게 미래의 발전을 촉진하거나 방해하는지에 대한 연구를 촉구합니다.10 전문직업적 의사는 유능할 뿐만 아니라 신뢰할 수 있어야 하며, 감시를 받지 않고 정직하게 행동해야 합니다. 또한 팀과 더 넓은 시스템의 전문적 구성원이어야 합니다. 반대로 온라인 감독 시험에서 수련생은 잠재적인 부정행위자일 뿐만 아니라, 스스로 생각하고 책임을 지거나 새로운 지식을 창출할 수 없는 통제의 대상으로 구성됩니다.11
Nieminen and Lahdenperä call for research into how student agency in higher education assessment promotes or hinders future development.10 Professional doctors must not only be competent but also trustworthy, and act with integrity without being monitored. Furthermore, they should be professional members of teams and wider systems. Conversely, in online proctored exams, trainees are constructed not only as potential cheaters, but also as objects of control who cannot think for themselves, take responsibility, or create new knowledge.11

코로나19 상황이 안정화되면 온라인 감독관에게 어떤 일이 일어날지는 불분명합니다. 앞으로의 과제는 단순히 온라인 감독 도구가 가치가 있는지,73 또는 스크립트 및 감시를 완화해야 하는지 여부를 결정하는 것이 아닙니다. 특정 조건에서 시험이 효과적일 수 있다는 것을 인정하고 응시자가 원하는 대로 하도록 허용하는 것을 옹호하지는 않지만, 우리는 의학교육자들이 고부담 평가를 수행하는 방법과 왜 그렇게 감독에 의존하는지에 대해 질문할 것을 요청합니다. 여기서 우리의 목표는 감독 시험에 대한 대안을 제안하거나 교육자가 평가에서 테크놀로지를 피해야 한다는 것이 아닙니다. 오히려 테크놀로지와 평가의 결합이 특정 종류의 지식, 정체성, 전문성, 신뢰 관계를 어떻게 촉진하는지에 대한 비판적 고려를 불러일으키고자 합니다.43 이는 결코 간단한 일이 아닙니다. 교육 전반에 걸쳐 평가의 목적, 평가가 교육 관계에 미치는 영향, 또는 평가가 "진실, 공정성, 신뢰, 인간성 또는 사회 정의"와 어떻게 관련되는지에 대한 근본적인 질문을 던지는 것을 오랫동안 꺼려온 것에 맞서야 합니다.74(2쪽) 좋은 출발점은 우리가 현재 평가를 수행하는 방식과 수련생과 의학 교육 기관 간의 관계를 강화하는 방식으로 우리의 관행을 어떻게 재구성할 수 있는지에 대해 솔직한 대화를 나누고, 더 이상 테크놀로지에 대한 신뢰를 학생에 대한 신뢰보다 우선시하지 않도록 하는 것입니다. 
It is unclear what will happen with online proctoring as the Covid-19 situation stabilizes. The challenge ahead is not simply to decide whether online proctoring tools are worthwhile,73 or whether we need to soften their scripts and surveillance. While we acknowledge that exams might be effective under certain conditions, and we would not advocate letting candidates do whatever they want, we call for medical educators to ask questions about how we conduct high stakes assessment and why it is so reliant on invigilation. Our aim here is not to propose alternatives to invigilated examinations, nor that educators should avoid technology in assessment. Rather, we aim to provoke critical consideration of how the combination of technology and assessment promotes particular kinds of knowledge, identity, professionalism, and trust relations.43 This is no simple task. It involves confronting a longstanding reluctance, across education more broadly, to ask fundamental questions about the purpose of assessment, how it affects educational relationships, or how it relates to “truth, fairness, trust, humanity or social justice”.74(p2) A good starting point is to engage in honest dialogue around how we currently do assessment, and how we might reimagine our practices in ways that reinforce relations between trainees and medical education institutions, such that we no longer place trust in technology above trust in our students.

결론
Conclusion

평가는 의학교육에서 가치 있는 것을 반영하고 형성합니다. 2020년 MRCP 회원 시험을 분석한 결과, 온라인 감독 테크놀로지가 시험장 감독에 이미 존재하는 신뢰에 대한 감시 규범을 어떻게 강화하는지를 알 수 있습니다. 이는 의학교육의 평가 문화에 이미 존재하는 긴장, 즉 표준화되고 탈맥락화된 정당한 지식에 대한 편협한 개념, 이상적인 고독한 시험 응시자에 대한 편협한 모델, 수련생에 대한 기본 불신 등을 악화시킵니다. MRCP 시험의 역사적, 경제적 맥락을 살펴봄으로써 이러한 긴장이 불신을 조장하는 시험 감독 회사의 상업적 이익과 데이터에 기반한 규범 모델에 의해 어떻게 강화되는지 보여주었습니다.
Assessment both reflects and shapes what is valued in medical education. Our analysis of the 2020 MRCP membership exam shows how online proctoring technology intensifies a norm of surveillance over trust that already exists in exam hall invigilation. This exacerbates some established tensions within the assessment culture of medical education, namely: a narrow conception of legitimate knowledge as standardized and decontextualized, a narrow model of the ideal, solitary exam candidate, and a default distrust of trainees. By examining the historical and economic contexts of the MRCP exam, we have showed how these tensions are reinforced by the commercial interests of proctoring companies that incentivise distrust and data-driven normative models of invigilation.

이 시리즈를 시작한 논문에서 Veen과 Cianciolo29(pp337-338)는 "학습자를 돌보고 학습자의 성과, 전문성 및 복지를 개선하기 위해 우리가 무엇을 하고 있는지 신중하게 검토하기 위해" 속도를 늦추고 맥락을 고려해야 한다고 썼습니다. 우리는 일반적으로 의학교육자들이 학생들을 신뢰하고 학생들이 신뢰할 수 있도록 지원하기 위해 열심히 노력한다고 확신하지만, 온라인 감독 테크놀로지가 촉진하는 평가 문화와 평가 테크놀로지를 더 광범위하게 사용하는 것은 검토가 필요하다고 주장했습니다. Bearman75이 제안한 것처럼 시험 세계가 실천 세계를 형성한다면, 우리는 평가 테크놀로지를 사용하여 어떤 종류의 세계를 만들어낼 것인가에 대해서도 질문해야 합니다.
Veen and Cianciolo29(pp337-338) wrote, in the paper that launched this series, to slow down and consider context “to examine carefully what we are doing to care for learners and improve their performance, professionalism, and well-being.” While we are confident that, in general, medical educators trust students, and work hard to support them to become trustworthy, we have argued that the assessment culture promoted by online proctoring technology, and our employment of assessment technology more widely, are in need of review. If, as Bearman75 suggests, the test world shapes the practice world, we must also ask: what kind of world do we generate through our use of assessment technology?

 


Teach Learn Med. 2022 Aug-Sep;34(4):444-453. doi: 10.1080/10401334.2022.2048832. Epub 2022 Apr 25.

A Matter of Trust: Online Proctored Exams and the Integration of Technologies of Assessment in Medical Education

Affiliations

1Edinburgh Medical School, University of Edinburgh, Edinburgh, United Kingdom.

2Department of General Practice, Erasmus University Medical Center, Rotterdam, The Netherlands.

PMID: 35466830

DOI: 10.1080/10401334.2022.2048832

Abstract

Issue: Technology is pervasive in medicine, but we too rarely examine how it shapes assessment, learning, knowledge, and performance. Cultures of assessment also shape identities, social relations, and the knowledge and behavior recognized as legitimate by a profession. Therefore, the combination of technology and assessment within medical education is worthy of review. Online proctoring services have become more prevalent during the Covid-19 pandemic, as a means of continuing high-stakes invigilated examinations online. With criticisms about increased surveillance, discrimination, and the outsourcing of control to commercial vendors, is this simply "moving exams online", or are there more serious implications? What can this extreme example tell us about how our technologies of assessment influence relationships between trainees and medical education institutions?

Evidence: We combine postdigital and postphenomenology approaches to analyze the written component of the 2020 online proctored United Kingdom Royal College of Physicians (MRCP) membership exam. We examine the scripts, norms, and trust relations produced through this example of online proctoring, and then locate them in historical and economic contexts. We find that the proctoring service projects a false objectivity that is undermined by the tight script with which examinees must comply in an intensified norm of surveillance, and by the interpretation of digital data by unseen human proctors. Nonetheless, such proctoring services are promoted by an image of data-driven innovation, a rhetoric of necessity in response to a growing problem of online cheating, and an aversion, within medical education institutions, to changing assessment formats (and thus the need to accept different forms of knowledge as legitimate).

Implications: The use of online proctoring technology by medical education institutions intensifies established norms, already present within examinations, of surveillance and distrust. Moreover, it exacerbates tensions between conflicting agendas of commercialization, accountability, and the education of trustworthy professionals. Our analysis provides an example of why it is important to stop and consider the holistic implications of introducing technological "solutions", and to interrogate the intersection of technology and assessment practices in relation to the wider goals of medical education.

Keywords: assessment technology; norms; online proctoring; postdigital; postphenomenology; trust.

보건의료전문직교육에서 러닝 애널리틱스의 열 가지 위협: 소비자 관점(Med Teach, 2020)
Ten caveats of learning analytics in health professions education: A consumer’s perspective
Olle ten Catea , Suzan Dahdalb, Thomas Lambertc, Florian Neubauerd, Anina Plesse, Philippe Fabian Pohlmannf, Harold van Rijena and Corinne Gurtnerg 

 

  • 최근 JAMA는 의대생, 주니어 레지던트, 시니어 레지던트, 펠로우, 신경외과 의사로 나뉜 50명의 참가자가 각각 270개의 지표(총 300만 개 이상의 데이터 포인트)를 수집하여 250개의 모의 신경외과 수술을 연습한 후 머신러닝 알고리즘에 의해 90% 정확하게 분류되었다는 연구 결과를 발표했습니다. 저자들은 기존 시뮬레이션에는 숙련된 강사의 학습자 피드백이 필요하지만, 인공지능은 인간 평가자의 필요성을 줄여줄 수 있다고 제안합니다(Winkler-Schwartz 외. 2019).
  • 2016년에 Warm 등은 신시내티 내과(IM) 프로그램에서 36개월 이내에 수집한 189명의 레지던트에 대한 364,728건의 위탁 데이터를 사용하여 교수진, 동료 및 관련 의료 전문가의 평가 간의 체계적인 차이를 보여주는 발달 및 추세에 대한 명확한 그래픽을 만들었습니다(Warm 등, 2016).
  • 또 다른 신시내티 연구에 따르면 IM 레지던트의 USMLE 2단계 임상 지식 점수가 1점 상승할 때마다 미국 내과학회 인증에 합격할 확률이 6.9%씩 증가했습니다(Sharma 외. 2019).
  • 또 다른 신시내티 연구에서는 1511명의 환자 전자 기록을 통해 인턴이 환자의 주치의인지 아닌지를 매우 정확하게 예측할 수 있음을 보여주었습니다(Schumacher 외. 2019).
  • Saqr 등은 133명의 학생을 대상으로 추적한 초기 온라인 활동을 기반으로 학생의 최종 성적을 63.5%의 정확도로 예측하고 위험에 처한 학생을 어느 정도 예측했습니다(Saqr 등. 2017). 

Recently, JAMA published a study showing how 50 participants, divided in medical students, junior residents, senior residents, fellows, and neurosurgeons, were 90% correctly classified by a machine learning algorithm after all had exercised 250 simulated neurosurgical operations, each collecting 270 metrics (totaling over 3 million data points). The authors suggest that, while traditional simulation requires learner feedback by skilled instructors, artificial intelligence may decrease the need for human evaluators (Winkler-Schwartz et al. 2019). In 2016, Warm et al. used 364,728 entrustment data of 189 residents in the Cincinnati Internal Medicine (IM) program, collected within 36 months, and created clear graphics of development and trends showing systematic differences between faculty, peers and allied health professionals’ assessments (Warm et al. 2016). Another Cincinnati study showed that for every point increase in USMLE Step 2 Clinical Knowledge scores of IM residents, the odds of passing the American Board of Internal Medicine certification increased by 6.9% (Sharma et al. 2019). Still another Cincinnati study showed how 1511 patients’ electronic records enabled predicting with great accuracy whether or not an intern was the primary caregiver of the patient (Schumacher et al. 2019). Saqr et al. predicted student’s final grades with 63.5% accuracy and predicted at risk students to some degree based on their earlier online activity traced among 133 students (Saqr et al. 2017).

이러한 학습 분석(LA) 사례는 학습자 및 전문가에 대해 수집된 빅 데이터가 보건 전문직 교육자 및 다른 사람들에게 학습자와 학습자의 진행 상황에 대해 알려주는 역할을 하는 방법을 보여줍니다(Chan 외. 2018). 학습 분석은 개발 초기 단계에 있으며 교육 및 개별 학생에게 많은 이점을 제공할 수 있습니다. 이점은 분명하지만 LA를 사용할 때 몇 가지 단점도 있을 수 있습니다. 우리는 이러한 몇 가지 주의 사항을 파악하려고 시도했습니다.
These examples of learning analytics (LA) show how big data collected on learners and professionals serve to inform health professions educators and others about learners and their progress (Chan et al. 2018). Learning analytics is in an early phase of development and may bring many advantages to education and individual students. While benefits may be undisputed, there may also be some downsides of the use of LA. We attempted to identify some of these caveats.

연구 배경, 설정 및 방법
Background, setting, and methods

2019년 7월, 스위스 베른 대학교의 의학교육 석사 과정에 재학 중인 22명의 교육자 그룹이 네덜란드 위트레흐트 대학 메디컬 센터에 모여 보건 전문직 교육에 대한 관심 주제를 논의하기 위해 여름 수련회에 모였습니다. 이 자리에는 전문의, 일차 의료 과학자, 수의 병리학자, 마취과 교육자, 레지던트 2명, 선임 교육 학자 3명이 참석했습니다. 관심 주제 중 하나는 LA였습니다. 모든 참가자가 토론에 참여했으며, 3개 그룹과 전체 토론을 번갈아 가며 진행했습니다. 토론이 풍부하게 진행되었기 때문에 그 결과를 기사로 정리하기로 결정했으며, LA를 사용하고 조정하는 교육자의 관점, 즉 '소비자 관점'에서 바라본 LA의 주의 사항에 중점을 두었습니다. 
In July 2019, a group of 22 educators, predominantly participants of the Master of Medical Education Course of the University of Bern, Switzerland, convened for a summer retreat at University Medical Center Utrecht, The Netherlands, to discuss topics of interest for health professions education. The participants included medical specialists, a primary health care scientist, a veterinary pathologist, a nurse anesthetist educator, two residents, and three senior educational scholars. One of the topics of interest was LA. All participants engaged in its discussion, which alternated between groups of three and plenary discussions. The richness of the discussion led to the decision to consolidate its results in an article, with a focus on caveats of LA, as viewed from the perspective of an educator using and adjusting, but not developing LA, i.e. a ‘consumers’ perspective’.

토론은 세 가지 질문을 중심으로 진행되었습니다:

  • 학습 분석이란 무엇인가?
  • 학습 분석의 목적은 무엇인가?
  • 그리고 학습 분석의 잠재적 위험은 무엇인가?

The discussion evolved around three questions:

  • What is learning analytics?
  • What are its purposes? and
  • What are potential risks of learning analytics?

그룹은 문헌('학습과 학습이 이루어지는 환경을 이해하고 최적화하기 위한 목적으로 학습자와 그 맥락에 대한 데이터를 측정, 수집, 분석 및 보고하는 것')을 반영하는 정의에 도달했습니다(Siemens 2012). 그러나 학습자, 측정, 데이터, 분석이라는 필수 개념 외에도 학습자의 진도, 학습 과정 정보, (학습에 소요된 시간과 같은) 행동적 측면이 정의에 포함되어야 한다는 의견도 있었습니다.
The group arrived at definition features that reflect the literature (‘The measurement, collection, analysis and reporting of data about learners and their contexts, for purposes of understanding and optimizing learning and the environments in which it occurs’) (Siemens 2012). However, the group also felt that, in addition to necessary concepts of learners, measurement, data and analysis, the definition should include learner progresslearning process information, and behavioral aspects, such as time spent on learning.

학습을 이해하고 최적화하는 것 외에도 그룹은 LA가 교육과 교육, 연구 개발을 최적화해야 한다는 데 동의했습니다. 또한, 보건 전문직 교육에서 LA는 학습을 최적화할 뿐만 아니라 궁극적으로 임상의료행위를 최적화해야 합니다.
As a purpose, besides understanding and optimizing learning, the group agreed that LA should optimize teaching and education, and its research and development. Furthermore, LA in health professions education should not only optimize learning but eventually optimize clinical practice.

마지막으로, LA를 사용할 때 의도하지 않은 부작용이나 잠재적 위험과 같은 주의 사항에 대해 중점적으로 논의했습니다. 데이터는 쉽게 수집할 수 있지만, 어려운 부분은 교육 정책에 대한 해석과 번역입니다. Gašević 등이 주장하듯이, LA 도구가 효과적이려면 인간 행동에 대한 강력한 이론적 모델을 기반으로 해야 합니다(Gašević 외. 2015).
Finally, the core discussion focused on caveats, i.e. unintended adverse consequences or potential risks of using LA. Data are easily collected; the hard part is interpretation and translations to educational policy. As Gašević et al. contend, LA tools should be based on robust theoretical models of human behavior to be effective (Gašević et al. 2015).

이러한 주의 사항은 토론 중에 플립 차트에 나열되었고, 회의가 끝난 후 필사되고 정교화되어 참가자들에게 피드백되었습니다. 회의 후 몇 주 내에 두 번째와 세 번째 라운드에서 의견과 추가 사항이 제공되었고, 그 결과 그룹이 공유할 가치가 있다고 판단한 일련의 주의 사항이 도출되었습니다. 다음으로, 전체 논문의 공동 저자로 자원한 모든 사람에게 확인된 주의 사항 중 두 가지 이상을 입증하는 과제를 부여했습니다. 이를 주 저자가 편집하여 10가지 주의 사항으로 통합했습니다. 
These caveats were listed on flip-charts during the discussion, transcribed, elaborated, and fed back to the participants after the meeting. In a subsequent second and a third round within weeks after the meeting, comments and additions were provided, resulting in a series of caveats the group found worthy of sharing. Next, all who volunteered to be co-authors on the full paper were tasked to substantiate two or more of the caveats identified. These were edited and consolidated in 10 caveats by the primary author.

소비자 관점에서의 학습 분석의 주의 사항
Caveats of learning analytics from a consumer’s perspective

표준화된 학습으로 인한 자율성 저하
Decreased autonomy through standardized learning

대량의 데이터를 수집하고 개별화된 학습 추천을 제공함으로써 개별 학습을 촉진하는 도구로 설계된 LA는 [최적의 학습이 무엇인지에 대한 인사이트]를 제공할 수 있습니다. 그러나 이러한 인사이트는 학습자 사이에서 그 이상을 충족해야 한다는 압박감을 유발할 수 있으며, 이는 스트레스를 유발하고 대안적인 학습 경로를 없애버릴 수 있습니다(Gašević 외. 2015).

  • 한 가지 예로 e-포트폴리오를 들 수 있는데, e-포트폴리오는 학습자가 전자 데이터 관리 시스템에 입력한 데이터를 기반으로 교사로부터 개별화된 피드백을 받을 수 있는 기회를 제공합니다(van der Schaaf 외. 2017).
    • 반면에 학습자는 동료와 비교되고 순위가 매겨지는 것에 대한 두려움 때문에 일정량의 데이터 포인트를 입력해야 한다는 압박감을 느낄 수 있습니다.
    • 결과적으로 학습자는 지금까지 자신에게 효과적인 것으로 입증된 학습 스타일이라 할지라도 다른 사람들의 학습 방식을 반영하지 않는다는 이유만으로 학습 스타일을 변경할 수 있습니다.
    • 결과적으로 스스로 선택한 자율성 감소는 LA의 의도하지 않은 부작용으로 간주될 수 있습니다(Buckley 외. 2009; van der Schaaf 외. 2017).
  • 또 다른 예로 AMBOSS 또는 의료 지식 자가 평가 프로그램과 같은 상용 플랫폼은 과거 시험의 MCQ 질문에 대한 답을 기반으로 특정 주제 학습에 대한 개별화된 권장 사항을 제공합니다(Bientzle 외. 2019).
    • 이러한 간결하고 전문적인 권장 사항은 학습자가 더 큰 그림과 학습에 대한 주인의식을 잃을 위험을 수반합니다.
    • 학습의 자율성이 감소하면 동기 부여와 학업 성취도에 부정적인 영향을 미칠 수 있습니다(Artino 외. 2010; Kusurkar 외. 2011). 

Designed as a tool to facilitate individual learning by collecting large amounts of data and providing individualized learning recommendations, LA may give insight into what optimal learning is. However, this insight may give rise to pressure among learners to meet that ideal, which can cause stress and could obliterate alternative learning paths (Gašević et al. 2015).

  • One example is that of e-portfolios: they provide an opportunity for learners to receive individualized feedback by teachers based on data entered into the electronic data management system (van der Schaaf et al. 2017).
    • On the other hand, learners could feel pressured to fill in a certain amount of data points for fear of being compared to peers and ranked.
    • Consequently, they might change their learning style, even if it has proven to be effective for them so far, just because it does not reflect how (most) others learn.
    • The resulting self-chosen decrease of autonomy can be considered an unintended side effect of LA (Buckley et al. 2009; van der Schaaf et al. 2017).
  • Another example is the commercial platforms such as AMBOSS (for students; https://www.amboss.com/us) or the Medical Knowledge Self-Assessment Program (for clinicians; https://mksap18.acponline.org) offer individualized recommendations to learning specific topics based on answers to MCQ questions from past exams (Bientzle et al. 2019).
    • These concise, specialized recommendations entail the risk that learners lose sight of the bigger picture and their sense of ownership of learning.
    • A decrease in autonomy of learning may have adverse effects on motivation and academic performance (Artino et al. 2010; Kusurkar et al. 2011).

학습 자원의 다양성 감소
A decrease in the variety of learning resources

학습 리소스는 계속 증가하고 있고 학생들은 과거보다 훨씬 더 다양한 리소스 중에서 자신의 선호도에 맞게 선택할 수 있지만, LA는 학생들을 가장 효율적이거나 효과적인 리소스로 강하게 유도할 수 있습니다. 주의할 점은 그룹 전체(또는 '평균' 학생)에 대한 '가장 효율적이거나 효과적인'은 스타일과 선호도의 개인차를 숨길 수 있다는 것입니다(Newble and Clarke 1986; Newble and Entwistle 1986). 평가의 요구 사항을 충족하기 위해 학생들은 종종 전략적 학습 접근 방식을 찾습니다(Taylor와 Hamdy 2013). 시스템을 게임하기 위해 학생들은 '검증된' 효과가 있는 리소스를 빠르게 찾고 교환하여 학습 리소스의 폭을 좁히고 다양성을 떨어뜨릴 수 있습니다. LA의 매혹적인 '입증의 힘'은 비주류 학습 접근 방식이 더 나은 개별 학생들을 오도할 수 있습니다.  
While resources for learning keep increasing and students can choose from a much larger variety to match their preferences than in the past, LA may strongly direct students toward the most efficient or effective sources. A caveat is that ‘the most efficient or effective’ for the group as a whole (or the ‘average’ student) may conceal individual differences in style and preference (Newble and Clarke 1986; Newble and Entwistle 1986). To meet the demands of their assessment students often seek strategic learning approaches (Taylor and Hamdy 2013). To game the system students may quickly seek and exchange resources with a ‘proven’ effect, thus narrowing down the breadth of learning resources and impoverishing its variety. The seductive ‘power of proof’ from LA can mislead individual students who would be better served with a non-mainstream approach to learning.

의도하지 않은 효율성 결과
Unintended efficiency consequences

LA가 가장 효과적이고 효율적인 학습 행동을 정의하면 규제 당국은 평균보다 짧은 학습 궤적을 반영하여 이 행동을 표준으로 간주하고 싶은 유혹을 받을 수 있습니다. 결국 교육(및 학습)에 할당된 시간과 비용이 감소하는 방향으로 나아갈 수 있습니다. 의학교육은 개인뿐만 아니라 지역사회를 위해서도 길고 비용이 많이 들기 때문에 효율성이 높아지고 기간이 단축되면 환영받을 것입니다. 거의 모든 분야에서 데이터 분석을 통해 효율성을 높일 수 있습니다. 문제는 학습 속도가 실제로 빨라질 수 있는가 하는 것입니다(10 Cate 외. 2018). 효율성을 높이고 평균적인 학생과 일치하거나 능가해야 한다는 압박은 스트레스를 유발하고 학생들 간의 경쟁을 심화시킬 수 있습니다. 이미 위태로운 상황에 처해 있는 학생의 웰빙이 더 이상 위태로워져서는 안 됩니다(Mata 외. 2015; Rotenstein 외. 2016). 의료 서비스 개선을 위한 '4중 목표' 중 하나인 '의료 전문가의 웰빙' 역시 학생을 고려해야 합니다. 
Once LA has defined the most effective and efficient learning behavior, regulators may be tempted to regard this behavior as the norm, reflecting a shorter than average learning trajectory. There may eventually be a push toward a decrease in time and money allotted to education (and thus to learning). Medical education is long and expensive, for the individual as well as for the community, so any increase in efficiency and decrease in length will be welcomed. Data analytics in almost any branch drive to increase efficiency. The question is whether learning can really be sped up (ten Cate et al. 2018). Pressure on students to increase efficiency, and to match or exceed the average student, can cause stress, and increased competition among students. Student wellbeing, already at stake (Mata et al. 2015; Rotenstein et al. 2016), should not be further jeopardized. Wellbeing of health professionals, one of the ‘quadruple aims’ for improvement of health care (Bodenheimer and Sinsky 2014), should also regard students.

교사의 시간 투입 증가
Increased time commitment from teachers

LA는 방대한 양의 데이터를 수집해야 하므로 많은 수의 평가가 필요합니다. 현재 역량 기반 의학교육(CBME) 프로그램에서는 교육생 역량을 평가하고 커리큘럼 내에서 교육생 진도에 대한 결정을 내리기 위해 이미 많은 정성적, 정량적 데이터가 생산되고 있습니다. 그러나 LA에서는 더 많은 수의 데이터 포인트가 필요하기 때문에 평가의 목적이 [학습자와 교사를 위한 직접적인 혜택]에서, 데이터베이스에 제공하기 위해 데이터를 축적하는 보다 [관리적인 목표]로 바뀔 수 있습니다(Chan et al. 2018). 이러한 데이터 수집 과정은 교사에게 부담을 줄 수 있습니다. 데이터를 생성하는 것 자체가 하나의 작업이 되어 수업에서 시간과 에너지 자원을 빼앗고 평가 피로를 유발할 수 있습니다(Barrett 외. 2018). LA의 장기적인 이점이 존재할 수 있지만, 자신의 가르침에 대한 즉각적인 가시적 가치가 부족하면 좌절감과 열정을 잃을 수 있으며 실제로 학생에 대한 피드백의 질을 저해할 수 있습니다. 교사의 의사 결정에 도움이 되려면 데이터가 이해하기 쉬워야 하며, 단순한 양만으로는 이러한 목적에 부합하지 않을 수 있습니다(Chan 외. 2018). 
LA requires massive amounts of data to be collected, thus making a large number of evaluations necessary. In the current competency-based medical education (CBME) programs much qualitative and quantitative data is already being produced in order to assess trainee competencies and to make decisions about their progression within the curriculum. As LA requires an increased number of data points; however, the purpose of evaluations may shift from a direct benefit for the learner and teacher toward the more managerial goal of amassing data in order to feed a database (Chan et al. 2018). The process of this data collection may burden teachers. Creating the data becomes a task in itself, which can take time and energy resources away from teaching and may lead to evaluation fatigue (Barrett et al. 2018). Although long-term benefits of LA may be present, the lack of an immediate visible value for one’s own teaching could lead to frustration and loss of enthusiasm and actually impede the quality of feedback to students. To serve decision making by teachers, the data need to be comprehensible; the mere volume of it may not serve that purpose (Chan et al. 2018).

학습자의 진도를 평가할 수 있는 '유효한' 정보 소스의 감소
A decrease of ‘valid’ information sources to assess learner progress

역설적이게도, LA는 가급적이면 많은 주제에 걸쳐 많은 소스의 빅 데이터를 사용하지만, 분석이 다른 소스를 희생하면서 학습 결과를 가장 잘 예측하는 소스를 최적화하려고 시도할 수 있기 때문에, 학습자 평가가 이러한 데이터 소스 중 더 많은 것에 초점을 맞추기보다는 더 적은 것에 집중할 위험이 있을 수 있습니다. Winkler-Schwarz 등이 측정한 270개의 지표 중 머신러닝 알고리즘은 6~9개를 선택하여 성과 평가에 포함시켰습니다(Winkler-Schwarz 외. 2019). 그러나 근거 기반 환자 관리 프로토콜이 모든 개별 환자에게 최적이 아닌 것처럼, 그룹을 기반으로 한 추론이 모든 개인에게 항상 최적은 아닐 수 있습니다. 
Paradoxically, while LA uses big data, preferably from many sources across large numbers of subjects, there may be a risk that learner assessment will focus on less rather than more of these data sources, because the analysis may attempt to optimize the sources that predict outcomes of learning best, at the cost of other sources. Of the 270 metrics measured by Winkler-Schwarz et al., machine learning algorithms chose 6 to 9 to include in performance evaluation (Winkler-Schwartz et al. 2019). However, inferences based on groups may not always be optimal for all individuals, just like evidence-based patient management protocols may not be optimal for all individuals patients.

임상 현장에서 학습자의 행동을 문서화하는 e-포트폴리오는 데이터 포인트가 많기 때문에 학습자에 대한 정확한 그림을 제안할 수 있다고 생각할 수 있지만, 이러한 데이터 중 일부는 정확하지 않을 수 있습니다. '가비지 인 가비지 아웃'은 너무 냉소적인 시각일 수 있지만, 집계된 포트폴리오 데이터에서 도출된 결론의 정확성이 잘못될 수 있다는 점을 인지해야 합니다. 집계된 포트폴리오 데이터가 항상 잘 해석되는 것은 아니며(Oudkerk Pool 외. 2018), 데이터 자체의 타당성이 부족할 수도 있습니다. 학생이 관찰 순간과 관찰자를 선택할 수 있고, 평가하는 임상 스태프가 부주의하거나 성급하거나 기분과 성격에 과도하게 영향을 받거나 인지적으로 과부하가 걸린 경우 항목이 선택적으로 작성되었을 수 있습니다(Paravattil and Wilby 2019). 훌륭한 임상 책임자는 포트폴리오 정보를 평가하는 직원들 사이에서 '비둘기와 매파'를 알고 있으며, 모든 정보를 똑같이 타당한 것으로 받아들이지 않고 해석해야 합니다. 포트폴리오 데이터를 신중하게 검토하지 않으면 이러한 수정이 이루어지지 않을 수 있습니다.  
E-Portfolios that document learner behavior in the clinical workplace may suggest building an accurate picture of the learner, because of the large number of data points, but some of these data may not be accurate. ‘Garbage-in-garbage-out’ maybe a too cynical view, but we should be aware of the possibility of false accuracy of conclusions drawn from aggregated portfolio data. While aggregated portfolio data are not always well interpreted (Oudkerk Pool et al. 2018), the data itself may lack validity. Entries may have been selective if the student can choose observation moments and observers, and if clinical staff who rate are careless, hasty, unduly affected by mood and personality or cognitively overloaded (Paravattil and Wilby 2019). A good clerkship director knows the ‘doves and hawks’ among the staff who assess and should interpret portfolio information, rather than accept all information as equally valid. Without carefully weighing portfolio data, such corrections may not happen.

학습 분석이 최종 임상 성과와 맞지 않을 수 있음
Learning analytics may misalign with eventual clinical performance

'도구가 망치라면 모든 것이 못처럼 보인다'는 매슬로우의 옛 속담은 LA의 경우 어느 정도는 사실일 수 있습니다. 수집하기 쉬운 온라인 행동 및 필기 시험 점수와 같은 학습 분석 데이터는 교육의 궁극적인 목적인 전문 환경에서의 성과를 제대로 반영하지 못할 수 있습니다. LA는 교육 프로그램에서 학습을 최적화하는 데 중점을 둡니다. 이러한 학습이 필기시험을 가장 바람직한 결과 척도로 삼는 강의실 학습으로 정의되면 임상 성과 예측 변수를 놓칠 수 있습니다. 최적의 학습자가 최적의 의료인이 아닐 수도 있습니다.

  • 밀러 피라미드의 하위 수준('알고 있음' 및 '알고 있음') 데이터(Miller 1990)는 많은 교수진 데이터베이스에서 쉽게 구할 수 있지만 임상 성과를 잘 반영하지는 못합니다.
  • 마찬가지로, 교육 연속체의 다른 쪽 끝에서는 전문 위원회가 개발한 필기 시험을 기반으로 한 인증 유지가 실제 진료 품질 유지에 대한 유용성이 낮고(Weinberger 2019),
  • 평생 의학 교육 과정의 효과에 대한 지식이 대부분 Kirkpatrick 평가 계층 구조의 가장 낮은 수준의 데이터로 제한되어 있다는 비판을 받고 있습니다(Tian et al. 2007).

학습자, 의사 및 교육자에게 피드백을 제공하기 위해 이러한 '망치와 못'을 사용하면 적절한 데이터가 수집되지 않아 임상 실습의 중요한 구성 요소에 집중하지 못할 수 있습니다. 임상 성과에 진정으로 초점을 맞춘 더 많은 더 나은 지표가 필요합니다. LA를 가장 중요한 의료 관련 교육 성과에 맞추는 것은 아직 초기 단계에 있습니다(Bakharia 외. 2016).

Maslow’s old saying ‘if your tool is a hammer, everything looks like a nail’ might hold true, to a certain extent, for LA. Learning analytics data such as online behavior and scores on written tests, which are easy to collect, may poorly reflect the ultimate purpose of training: performance in a professional environment. LA is focused on optimizing learning in educational programs. If such learning is defined as classroom learning with written examinations as the most desirable outcome measure, predictors of clinical performance may be missed. The optimal learner may not be the optimal medical practitioner.

  • Data at lower levels of Miller’s Pyramid (‘Knows’ and ‘Knows how’) (Miller 1990) are readily available in many faculty databases but do not reflect clinical performance very well.
  • Likewise, at the other end of the educational continuum, maintenance of certification based on written exams developed by specialty boards has been criticized because of their low usefulness for the actual maintenance of practice quality (Weinberger 2019) and
  • knowledge about the effectiveness of continuing medical education courses is mostly limited to data from the lowest levels of the Kirkpatrick evaluation hierarchy (Tian et al. 2007).

Using these ‘hammers and nails’ for feedback to learners, physicians and educators may distract from important components of clinical practice, simply because appropriate data is not collected. There is a need for more and better metrics that truly focus on clinical performance. Aligning LA with the most important, health care related outcomes of education is still in its infancy (Bakharia et al. 2016).

LA가 개인 정보 및 데이터 보호에 미치는 영향
Impact of LA on privacy and data protection

학습 행동에 대한 권장 사항을 최적화하고 성공을 예측하기 위해 LA는 학습자에 대한 데이터를 가능한 한 많이 수집해야 합니다. 여기에는 학습이 이루어지는 장소와 시간, 휴식 시간 및 횟수, 온라인 키보드 동작, 심지어 생리적 매개변수와 같은 매우 개인적인 측정값이 포함될 수 있습니다. 복강경 수술 중 시선추적은 이제 수술 기술을 평가하는 데 사용되었습니다(구나와데레나 외. 2011). 얼굴 인식과 인간 활동 인식은 다양한 센서와 다양한 이유로 인간 행동에 대한 지극히 개인적인 데이터를 식별하는 데 사용될 수 있습니다(Kabassi and Alepis 2019; Lu et al. 2017; Ravi et al. 2017). 이러한 데이터의 존재만으로도 의도하지 않은 목적으로 데이터를 사용하려는 관심을 불러일으킬 수 있습니다. 학습자의 개인 정보를 보호하려면 LA 데이터 수집, 저장, 사용 및 삭제의 한계를 결정하는 규칙이 필요합니다. 데이터의 소유권과 주권 및 데이터 사용은 중요한 문제이며 반드시 해결해야 할 문제입니다.

  • 어떤 데이터를 언제, 어떤 의도로 분석할지 결정할 수 있는 사람 또는 이사회는 누구입니까?
  • 동의를 받은 후 데이터의 사용 목적을 조정할 수 있나요?
  • 동의는 정기적으로 갱신해야 하나요?
  • 데이터 수집이 코스 등록의 조건이 될 수 있나요, 아니면 학습자가 동의를 거부할 수 있으며, 그럴 경우 어떤 결과가 발생하나요?

이러한 질문을 명확히 하지 않으면 데이터 오용과 원치 않는 새로운 권력 관계의 발생에 대한 두려움이 남아 있습니다. 이러한 규정에서 학생이 발언권을 갖는 것은 적절해 보입니다(West 외. 2020). 
To optimize recommendations about learning behavior and to predict success, LA must collect as much data about learners as possible. This may include very personal measures, like place and time of the day when learning occurs, duration and number of breaks taken, online keyboard behavior, possibly even physiological parameters. Eye tracking during laparoscopic surgery has now been used to assess surgical skills (Gunawardena et al. 2011). Face recognition and Human Activity Recognition can be used to identify extremely personal data of human behavior through various sensors and for various reasons (Kabassi and Alepis 2019; Lu et al. 2017; Ravi et al. 2017). The mere existence of such data may evoke interest to use them for unintended purposes. Rules determining the limits of LA data collection, storage, use, and deletion are needed to protect the privacy of learners. Ownership and sovereignty of data and its use are crucial issues and need to be addressed.

  • Which person or board can decide which data will be analyzed when and with which intention?
  • Can the intended use of data be adjusted after consent was given?
  • Must consent be renewed on a regular basis?
  • Can data collection be a condition for course enrolment or can learners refuse to give consent and what consequences will that have?

Without clarification of these questions, a fear of data misuse and the development of new but possibly unwanted power relationships remains. It seems pertinent that students have a say in these regulations (West et al. 2020).

문서화된 실패의 불가피성
The inescapability of documented failures

모든 학생은 오류와 실수를 통해 학습하고 숙련된 교사의 건설적인 구두 피드백을 통해 교정받을 자격이 있지만, 작업장 기반 평가 및 피드백에서 전자 문서화가 증가하면 시도, 작은 실수 및 오류에 과도한 가중치를 부여할 수 있습니다. 많은 학생이 문서화된 피드백이 의도한 것보다 더 총괄적이라고 느낍니다(Bok 외. 2013; Heeneman 외. 2015). 모든 행동을 문서화하면 관찰된 모든 실패가 정보 클라우드에 영원히 남는다는 단점이 있기 때문에 이를 비난할 수는 없습니다. 과거의 실수가 미래의 학생에게 불리하게 작용할 수 있다는 단순한 생각은 사실 여부와 상관없이 학생들의 개방성과 학습의 즐거움에 해로운 영향을 미칠 수 있습니다(Dyer and Cohen 2018). 고등 교육을 위한 '온라인 자기 보호'에 관한 최근 보고서에서 Bond와 Phippen은 많은 관할권의 검색 엔진과 마찬가지로 '잊혀질 권리'에 관한 규칙을 권고합니다(Bond and Phippen 2019). 이는 특히 학생 포트폴리오에 대한 대규모 데이터 수집과 프로그램 평가의 진행 상황 모니터링(Van Der Vleuten 외. 2015)이 주를 이루는 경우와 관련이 있습니다. 새로운 출발을 위해 학생의 기록을 '정리'하는 옵션은 성공적인 교정 후 조치에 포함될 수 있습니다. 
While all students learn through errors and mistakes and deserve to be corrected with constructive oral feedback by skilled teachers, the increased electronic documentation in workplace-based assessment and feedback may give undue weight to attempts, small mistakes, and errors. Many students feel documented feedback to be more summative than was intended (Bok et al. 2013; Heeneman et al. 2015). They cannot be blamed for that, as the flipside of documenting all of the behavior is that all of their observed failures will remain forever in the information cloud. The mere idea that mistakes in the past can be held against students in the future, true or not, can have detrimental effects on their openness and their fun of learning (Dyer and Cohen 2018). In a recent report on ‘online self-guarding’ for higher education, Bond and Phippen recommend a rule concerning the ‘right to be forgotten’ (Bond and Phippen 2019) as is the case for search engines in many jurisdictions. This is particularly relevant when massive data collection for student portfolios and monitoring of progress in programmatic assessment (Van Der Vleuten et al. 2015) becomes dominant. The option to ‘clean’ a student’s record in order to grant a new start may be incorporated in measures after successful remediation.

LA의 호손 및 시간 지연 효과
Hawthorne and time-lag effects of LA

교육과 같은 복잡한 적응 시스템에서는 학습자에게 피드백되는 LA 측정 정보가 학습자의 행동을 변화시킬 수 있습니다. 따라서 개인이 관찰되고 있다는 인식에 반응하여 행동을 수정할 때 심리학 연구에서 호손 효과와 유사하게 LA 추론의 예측력이 감소할 수 있습니다. 호손 효과는 임상 과제를 직접 관찰하는 맥락에서 논의되어 왔지만(Kogan 외. 2017; Paradis and Sutkin 2017), 종단적 행동 기록에 대한 학습자의 반응은 덜 명확합니다. 그러나 기록된 온라인 행동에 따라 '성취도 미달' 또는 '위험군'(Saqr 외. 2017)으로 분류된 학생이 튜터로부터 깜짝 전화를 받은 후 온라인 행동이 어떻게 변화하여 참여와 적절한 자기 조절을 모방하게 되는지 상상하기란 어렵지 않습니다. 그들의 '온라인 이미지'는 더 이상 타당하지 않을 수 있습니다.
In a complex adaptive system such as education, the information from LA measurement fed back to learners may change their behavior. Consequently, the predictive power of LA inferences may decrease, comparable to the Hawthorne effect in psychological studies, when individuals modify behavior in response to awareness of being observed. While Hawthorne effects have been discussed in the context of direct observations of clinical tasks (Kogan et al. 2017; Paradis and Sutkin 2017), the reaction of learners to longitudinal behavior recordings is less clear. However, it is not hard to imagine how students flagged as ‘under-achievers’ or ‘at risk’ (Saqr et al. 2017) based on their documented online behavior and receiving surprise calls from a tutor, change their online behavior to mimic engagement and appropriate self-regulation. Their ‘online image’ may no longer be valid.

마찬가지로, 참조 데이터의 출처가 되는 학습 집단과 조사 대상 집단이 크게 다를 경우 LA의 예측값은 실패할 수 있습니다. 빠르게 부상하는 기술 기반 인터넷 사회(Wartman 2019), 의료 서비스의 빠른 진화, 학습 행동에 대한 새로운 습관의 출현으로 인해 이러한 시차로 인해 개별화된 학습에 대한 LA 기반 표준이 무효화될 수 있습니다. 
Similarly, the predictive value of LA could fail if the training cohort from which the reference data originate and the investigated cohort deviate significantly. Due to a rapidly emerging technology-based internet society (Wartman 2019), a fast evolution of health care, and due to the emergence of new habits in learning behavior, this time-lag might render any LA-based standards for individualized learning invalid.

LA의 점진적인 목적 변화
A gradual shift of the purpose of LA

한 가지 목적을 위해 개발된 도구는 점차 의도하지 않은 목적으로 사용될 수 있습니다. [학습자에게 피드백을 제공하기 위한 모니터링 도구나 프로그램 개선을 위한 평가 데이터]는 [데이터와 분석이 설계되지 않은 목적]으로 개인이나 프로그램의 인증, 품질 비교 또는 순위를 매기는 데 사용될 위험이 있습니다. 특히 순위매기기ranking는 방법론적 또는 이데올로기적 오류와 불공정성의 위험을 수반합니다(Powell and Steelman 2006). 문헌에는 오용 사례가 풍부하며(Cousins 2004), 데이터 누락은 심각한 결과를 초래할 수 있습니다(Chan et al. 2018; McConnell et al. 2016). 직장 기반 평가를 위해 고안된 도구가 면허 인증 획득을 위해 의무화되는 것은 상상할 수 없는 일이 아닙니다. 이러한 사용은 '학습을 위한 평가'의 초기 목적이 아니었습니다(Rogausch 외. 2012). 교육자, 교육 기관 및 인증 기관은 오용을 방지하기 위해 LA 도구와 데이터를 올바르게 사용해야 할 책임이 있습니다.
Tools developed for one purpose may gradually shift to being used for purposes that were not intended. Monitoring instruments to provide feedback to learners, or evaluation data to improve programs run the risk of becoming used for accreditation, quality comparisons or ranking of individuals or programs, purposes for which the data and analysis were not designed. Rankings, in particular, carry the risk of methodological or ideological errors and unfairness (Powell and Steelman 2006). There are abundant examples of misuse in the literature (Cousins 2004) and missing data might have severe ramifications (Chan et al. 2018; McConnell et al. 2016). It is not unthinkable that tools designed for workplace-based assessment will become mandatory to obtain license certification. Such use was not the initial purpose of ‘assessments for learning’ (Rogausch et al. 2012). Educators, educational institutions, and accrediting bodies bear a high responsibility for the correct use of LA instruments and data to avoid misuse.

토론
Discussion

커리큘럼을 개선하고 학생의 역량을 강화하기 위한 목적으로 LA를 사용하는 것은 칭찬할 만한 일이며 다른 곳에서도 많은 미덕이 강조되었습니다(Chan et al. 2018). 기술 발전에는 그 자체의 역학 관계가 있으며 이러한 발전에 의문을 제기하는 것은 의미가 없습니다. 문제는 이러한 기술과 데이터를 사용해야 하는지 여부가 아니라, 의미 있는 학습을 위해 이러한 사용을 최적화하고 학습자, 교육자 및 관리자의 요구를 충족하고 동시에 권리를 보호하는 방법입니다. 위트레흐트 회의에 모인 교육자들은 몇 가지 우려 사항을 더 많은 청중과 공유할 가치가 있다고 생각했습니다. 
The use of LA for the purpose of improving curricula and empowering students is a laudable cause and many virtues have been highlighted elsewhere (Chan et al. 2018). Technology advancements have their own dynamics and there is no sense in questioning these advancements. The question is not whether we should use such technology and data, but how to optimize this use for meaningful learning and fulfill the needs and protect the rights of learners, educators, and administrators at the same time. The educators gathered in the Utrecht meeting felt that some concerns were worth sharing with a wider audience.

우리의 운동에는 상당한 한계가 있습니다. 이 그룹은 보건 전문직 교육에 대한 고급 학위를 가지고 있거나 수료한 보건 전문직 교육자들로 구성되었지만 특별히 LA 전문가는 포함되지 않았습니다. 따라서 이 보고서는 정보에 입각한 소비자 우려에 대한 개요로 간주해야 합니다. 이 보고서는 향후 보다 다양한 전문가 패널의 합의 방법을 확립하여 보다 엄격한 연구를 위한 출발점으로 간주될 수 있습니다.
Our exercise has significant limitations. The group consisted of health professions educators with, or completing advanced academic degrees in health professions education, but did not specifically include LA experts. Our report should, therefore, be viewed as an overview of informed consumer concerns. It may be regarded as a starting point for more rigorous future studies with established consensus methods among a more diverse expert panel.

 


Med Teach. 2020 Jun;42(6):673-678. doi: 10.1080/0142159X.2020.1733505. Epub 2020 Mar 9.

Ten caveats of learning analytics in health professions education: A consumer's perspective

Affiliations

1Center for Research and Development of Education, University Medical Center Utrecht, Utrecht, The Netherlands.

2University Hospital Bern, Bern, Switzerland.

3Kepler University Hospital Linz, Johannes Kepler University Linz, Linz, Austria.

4Institute for Medical Education, University of Bern, Bern, Switzerland.

5Institute of Primary Health Care (BIHAM), University of Bern, Bern, Switzerland.

6Faculty of Medicine, University of Freiburg, Breisgau, Germany.

7Institute of Animal Pathology, Vetsuisse Faculty Bern, University of Bern, Bern, Switzerland.

PMID: 32150499

DOI: 10.1080/0142159X.2020.1733505

Free article

Abstract

A group of 22 medical educators from different European countries, gathered in a meeting in Utrecht in July 2019, discussed the topic of learning analytics (LA) in an open conversation and addressed its definition, its purposes and potential risks for learners and teachers. LA was seen as a significant advance with important potential to improve education, but the group felt that potential drawbacks of using LA may yet be under-exposed in the literature. After transcription and interpretation of the discussion's conclusions, a document was drafted and fed back to the group in two rounds to arrive at a series of 10 caveats educators should be aware of when developing and using LA, including too much standardized learning, with undue consequences of over-efficiency and pressure on learners and teachers, and a decrease of the variety of 'valid' learning resources. Learning analytics may misalign with eventual clinical performance and can run the risk of privacy breaches and inescapability of documented failures. These consequences may not happen, but the authors, on behalf of the full group of educators, felt it worth to signal these caveats from a consumers' perspective.

Keywords: Portfolio; computer-based; information handling; trends.

 

역량-기반 평가: 인공지능을 활용하여 하위역량 내용 예측하기 (Acad Med, 2023)
Competency-Based Assessments: Leveraging Artificial Intelligence to Predict Subcompetency Content
Gregory J. Booth, MD, Benjamin Ross, MD, William A. Cronin, MD, Angela McElrath, MD, Kyle L. Cyr, MD, John A. Hodgson, MD, Charles Sibley, MD, J. Martin Ismawan, MD, Alyssa Zuehl, MD, James G. Slotto, MD, Maureen Higgs, MD, Matthew Haldeman, MD, Phillip Geiger, MD, and Dink Jardine, MD, MS

 

 

역량 기반 의학교육(CBME)은 의학교육에서 졸업후교육의 기본이 되는 표준 패러다임이 되었습니다.1 미국의 경우, 미국의학전문대학원교육인증위원회(ACGME) 인증 프로그램 중 현재 평가 프레임워크는 6개의 핵심 역량 영역으로 구성되며, 각 영역은 수련의의 궤적을 추적하기 위해 5단계의 점진적 척도로 이루어져 있습니다. ACGME는 각 전문과목이 초심자에서 독립 전문의가 되기까지의 특정 경로("마일스톤"이라고 함)를 정의할 수 있도록 합니다.2 기술과 의료 행위가 발전함에 따라 이러한 경로는 주기적으로 재평가되어 지속적인 발전과 진화하는 수련 표준에 발맞출 수 있도록 보장합니다. 
Competency-based medical education (CBME) has become the standard paradigm underlying postgraduate training in medical education.1 In the United States, among Accreditation Council for Graduate Medical Education (ACGME)-accredited programs, the current evaluation framework consists of 6 core competency domains, each with a progressive 5-level scale to track the trajectory of trainees. ACGME allows each specialty to define the specific pathways of progression from novice to independent (termed “Milestones”).2 As technology and medical practice progress, these pathways are periodically reassessed to ensure that they keep pace with ongoing developments and the evolving standard of training.

담당 의사는 수련의를 위한 성과 피드백을 생성하며, 이 피드백은 개인의 진전도를 평가하는 데 중추적인 역할을 합니다.3 CBME 프레임워크에서 이러한 피드백은 정량적 평가에만 국한되어서는 안 됩니다.4 마일스톤을 만든 이유 중 하나는 수치화된 평가 척도에서 벗어나기 위해서였으며,5 의학교육의 일부 리더들은 서술적 피드백이 수치화된 평가를 완전히 대체해야 한다고 주장합니다.6 ACGME에 따르면, 각 프로그램은 "후원 기관의 전반적인 사명, 해당 기관이 봉사하고 졸업생이 봉사하게 될 지역사회의 요구사항, 졸업하고자 하는 의사의 고유한 역량"을 고려해야 합니다.7 내러티브 피드백에서 프로그램이 사용하는 용어와 문구는 피드백 문화, 기관 관행, 환자 집단 등의 차이로 인해 매우 다양할 수 있습니다. 따라서 내러티브 피드백을 분석하는 데 사용되는 기법을 포함한 평가 방법은 각 프로그램에 맞게 조정되어야 합니다.
Staff physicians generate performance feedback for trainees that is pivotal in assessing their individual progress.3 In the CBME framework, this feedback should not be limited to quantitative ratings.4 One of the stated reasons for creating Milestones was to move away from numerical rating scales,5 and some leaders in medical education argue that narrative feedback should replace numerical ratings entirely.6 According to the ACGME, each program must consider the “overall mission of its Sponsoring Institution, the needs of the community it serves and that its graduates will serve, and the distinctive capabilities of physicians it intends to graduate.”7 The terms and phrases that programs use in narrative feedback can vary widely due to differences in feedback culture, institution practices, patient populations, and more. Therefore, evaluation methods, including techniques used to analyze narrative feedback, must be tailored to each program.

자연어 처리(NLP) 또는 컴퓨터 언어학은 컴퓨터 처리 방법을 사용하여 구어 또는 문어를 분석하여 인간의 능력에 근사치를 구하는 작업을 수행합니다.8 CBME 영역 내에서 NLP를 평가한 연구는 거의 없으며, 이러한 연구의 대부분은 연수생의 임상 기록을 검토하거나 특정 임상 경험에 대한 연수생의 노출을 분석하는 데 중점을 두었습니다.9 그러나 일부 연구에서는 NLP가 ACGME 역량과 관련된 언어를 식별할 수 있는지 여부를 조사했습니다. 

  • Neves 등은 NLP를 사용하여 수련의 평가에 대한 서술적 코멘트에 높은 품질과 높은 유용성 등 특정 피드백 특성이 포함되어 있는지 예측하고 전문성 또는 의사소통에 대한 내용이 포함되어 있는지 조사했습니다.10
  • Zhang 등은 NLP를 사용하여 수련의 평가의 정서를 조사하고 코멘트에 반영된 ACGME 핵심 역량을 예측하는 모델을 개발했습니다.11 Zhang 등은 향후 연구에서는 더 큰 데이터 세트를 사용하여 하위 역량을 식별하는 이러한 모델의 타당성에 초점을 맞추는 것이 좋다고 제안했습니다.

Natural language processing (NLP), or computational linguistics, uses computer processing methods to analyze spoken or written language to perform tasks that seek to approximate human abilities.8 Few published studies have evaluated NLP within the realm of CBME, and most of these studies focused on reviewing trainees’ clinical notes or analyzing trainees’ exposure to certain clinical experiences.9 But a small subset explored whether NLP can identify language related to ACGME competencies.

  • Neves et al used NLP to predict whether narrative comments on trainee evaluations contained specific feedback traits, including high quality and high utility, and explored whether they included content about professionalism or communication.10 
  • Zhang et al used NLP to investigate sentiment of trainee evaluations and developed models to predict ACGME Core Competencies reflected by comments.11 Zhang et al suggested that future work should use larger data sets to focus on feasibility of such models to identify subcompetencies.

NLP를 사용하여 ACGME 전문 분야에 특화된 피드백 언어를 학습하는 모델을 만든 다음, 특정 프로그램에 대한 서술 코멘트의 ACGME 하위 역량 내용을 예측하기 위해 고유한 기관에 맞게 미세 조정할 수 있습니다. 이러한 모델은 각 프로그램이 졸업하고자 하는 고유한 역량에 대한 교육생의 진전 궤적을 추적하는 각 프로그램의 기능을 강화할 수 있습니다. NLP 기술은 대량의 텍스트를 매우 빠르게 처리할 수 있도록 확장할 수 있으며, 다양한 시스템에 통합하여 교육생 평가의 프로그래밍 관리와 평가 언어에 대한 교수진의 피드백을 향상시킬 수 있습니다. 또한 자연어 처리 기술은 수련의 성별과 관련된 암묵적 편견과 같은 평가의 편견을 밝혀내어 의학교육의 특정 격차를 완화할 수 있는 잠재력을 가지고 있습니다.12 
NLP could be used to create models that learn the feedback language specific to ACGME specialties, which then could be fine-tuned to unique institutions to predict ACGME subcompetency content in narrative comments for specific programs. Such models could augment each program’s ability to track the trajectory of trainees’ progress toward the unique capabilities that the program intends to graduate. NLP techniques can scale to process volumes of text very rapidly and could be integrated into a variety of systems to enhance programmatic management of trainee evaluations and feedback to faculty on their evaluation language. NLP also holds promise to reveal biases in evaluation, such as implicit bias related to trainee gender, which could mitigate certain disparities in medical education.12

이 연구의 목적은 마취과 수련의에 대한 평가의 서술적 피드백을 적절한 ACGME 마일스톤 2.0 하위 역량 범주로 자동 분류하는 NLP 모델을 개발하고 평가하는 것이었습니다.
The aim of this study was to develop and evaluate an NLP model to automatically categorize narrative feedback from evaluations of anesthesiology trainees into the appropriate ACGME Milestone 2.0 subcompetency categories.

방법
Method

투명성 및 개방성 증진
Transparency and openness promotion

이 조사는 개인 예후 또는 진단을 위한 다변량 예측 모델의 투명한 보고13 가이드라인과 생의학 연구에서의 기계 학습 예측 모델 개발 및 보고 가이드라인을 따릅니다.14 NLP 모델 구축을 위한 소스 코드는 공개적으로 사용 가능하며, 최종 모델은 공개적으로 사용할 수 있습니다. 
This investigation follows the Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis13 guidelines and the Guidelines for Developing and Reporting Machine Learning Predictive Models in Biomedical Research.14 Source code for building the NLP model is publicly available (https://github.com/gb563/Milestone_NLP), and the final model is available for public use (http://nb-group.org/milestone/).

연구 설계 및 데이터 출처
Study design and data source

이 프로토콜은 해군 의료센터 포츠머스 기관생명윤리심의위원회의 승인을 받았습니다. 이 연구는 2개의 완전한 학년도(2019년 7월 1일 ~ 2021년 6월 30일, 적격 기록 수 = 6,494건) 동안 4개의 군 의학전문대학원(GME) 프로그램에서 마취과 수련의의 임상 성과 평가를 포괄하는 후향적 코호트 연구였습니다. 모든 사이트는 동일한 핵심 프로그램 목표를 공유합니다. 모든 데이터는 전자 평가 시스템에서 추출했습니다. 성과 평가에는 일일 임상 과제에서 직접 관찰한 피드백이 포함되었습니다. 평가 구조와 질문은 사이트마다 다르지만, 모두 서술적 설명을 위한 필드가 포함되어 있습니다. 2곳의 사이트에는 전반적인 의견을 위한 일반 항목이, 1곳에는 긍정적인 관찰과 건설적인 관찰 항목이, 1곳에는 전반적인 의견, 긍정적인 관찰, 건설적인 관찰 항목이 포함되었습니다. 코멘트이 없는 평가는 모두 제외했으며, 나머지 평가의 각 분야별 코멘트을 합산했습니다. 총 5,935개의 평가가 연구에 포함되었습니다. 이러한 평가는 25,714개의 개별 문장으로 분리되었으며, 169명의 수련의에 대한 207명의 마취과 전문의의 피드백을 나타냅니다. 문장 분리 및 추가 텍스트 전처리는 자연어 툴킷 3.6.15를 사용하여 수행되었습니다. 
This protocol was approved by the Naval Medical Center Portsmouth Institutional Review Board. This was a retrospective cohort study encompassing clinical performance evaluations of anesthesiology trainees from 4 military graduate medical education (GME) programs during 2 complete academic years (July 1, 2019, to June 30, 2021, n = 6,494 eligible records). All sites share the same core set of program aims. All data were extracted from electronic evaluation systems. Performance evaluations included direct observation feedback from daily clinical assignments. Evaluation structure and questions are site-specific, but all include fields for narrative comments. Two sites included a generic field for overall comments, 1 site included a field for positive observations and another for constructive observations, and 1 site include fields for overall comments, positive observations, and constructive observations. All evaluations without comments were excluded, and comments from each field in the remaining evaluations were pooled. A total of 5,935 evaluations were included in the study. These evaluations were separated into 25,714 individual sentences and represented feedback from 207 staff anesthesiologists on 169 trainees. Sentence separation and further textual preprocessing were performed using Natural Language Toolkit 3.6.15

이 조사는 Zhang 등11의 연구를 기반으로 하며 몇 가지 주요 차이점이 있습니다. 이 조사는 단일 기관의 699개 코멘트을 사용하여 ACGME 핵심 역량을 예측하도록 설계된 모델에 대한 내부 검증 메트릭을 보고했으며, 유사한 모델이 하위 역량을 예측할 수 있는지 평가하기 위해 더 큰 데이터 세트를 탐색해야 한다고 가정했습니다. 이 조사에는 여러 기관의 수천 개의 코멘트이 포함되었으며, 사전에 훈련 코호트검증 코호트로 나뉘어 하위 역량 예측을 수행했습니다. 
This investigation builds on the work of Zhang et al11 and has several key differences. Their investigation reported internal validation metrics on models designed to predict ACGME Core Competencies using 699 comments from a single institution and posited that a larger data set should be explored to assess whether similar models can predict subcompetencies. This investigation included several thousand comments from multiple institutions, split a priori into training and validation cohorts, and we performed subcompetency prediction.

본 조사는 의료 분야에서 책임감 있는 인공 지능을 목표로 하는 몇 가지 최신 전략을 사용하여 설계 및 구현되었습니다.16 여기에는 다음이 포함됩니다.

  • 엄격한 설계 및 보고 기준13,14;
  • 모델 개발에 사용된 코드 공개;
  • 모델을 웹 기반 애플리케이션으로 구축하여 공개적으로 탐색, 테스트 및 검증할 수 있도록 하는 노력.
  • 모델이 예측하는 방식을 더 잘 이해할 수 있도록 해석 가능성 그래픽을 포함시켰습니다.

또한, 하위 단어 또는 단어의 작은 부분을 잡아내어 학습 중에 한 번도 접해보지 못한 단어에 대해서도 예측할 수 있습니다. 이 기능은 비표준 단어, 약어, 철자 오류가 자주 발생하는 의료 분야에서 특히 중요합니다.
Our investigation was designed and implemented using several contemporary strategies aimed at responsible artificial intelligence in health care,16 including

  • rigorous design and reporting criteria13,14;
  • publishing the code that was used to develop models;
  • an effort to build the model into a web-based application to allow public exploration, testing, and validation; and
  • the inclusion of interpretability graphics to better understand how the model makes predictions.

Additionally, our model captures subwords, or smaller sections of words, so that it can make predictions on words that it never encountered during training. This feature is particularly important in health care where nonstandard words, abbreviations, and spelling errors are frequently encountered.

결과
Outcomes

이 조사의 1차 평가지표는 마취과 수련의의 성과 평가에 대한 서술적 코멘트를 통해 마일스톤 2.0 하위 역량을 예측하는 알고리즘의 개발 및 평가였습니다. 2차 결과에는 각 평가 문장에 하위 역량 레이블을 할당하는 전문가들의 평가자 간 합의와 전문가들이 동의하지 않을 때 가장 빈번하게 발생하는 하위 역량 레이블에 대한 탐색적 분석이 포함되었습니다.
The primary endpoint of this investigation was the development and evaluation of an algorithm to predict Milestone 2.0 subcompetencies from narrative comments on anesthesiology trainee performance evaluations. Secondary outcomes included inter-rater agreement for experts assigning subcompetency labels to each evaluation sentence and exploratory analysis of the most frequent co-occurring subcompetency labels when experts disagreed.

마일스톤 2.0 하위 역량을 평가에 할당하기
Assigning Milestone 2.0 subcompetencies to evaluations

4개의 군사 대학원 교육 프로그램에서 10명의 마취과 전문의가 모집되었습니다. 이 그룹에는 프로그램 책임자 2명과 현재 또는 과거의 부프로그램 책임자 8명이 포함되었습니다. 편향성을 완화하기 위해 난수 생성기를 사용하여 각 평가에 2명의 검토자를 배정했습니다. 어떤 리뷰어에게도 동일한 평가 세트를 배정하지 않았으며, 각 평가는 정확히 두 번 배정되었습니다. 모든 평가는 비식별화되었습니다. 비식별화를 달성하기 위해 평가 모음에 나타나는 모든 단어의 사전을 수동으로 검토했습니다. 이 사전 내의 모든 교육생 및 교수진 이름을 컴파일한 다음 프로그래밍 방식으로 평가에서 제거했습니다. 각 검토자에게는 개별 문장으로 분할된 평가 목록이 제공되었습니다. 그런 다음 검토자는 할당된 문장에 내용을 가장 잘 파악한 23개의 마취과 마일스톤 2.0 하위 역량 중 하나를 선택하거나, 인구통계학적 특성(예: "이것은 당직 근무에 대한 평가입니다.") 또는 유용하지 않은 경우(예: "잘했음.")를 나타내는 D 또는 N으로 레이블을 지정했습니다. 각 문장에는 고유 식별 번호가 부여되어 검토자가 어떤 문장이 같은 평가에서 나온 것인지 알 수 있도록 했습니다. 여러 문장이 있는 평가의 경우, 식별 번호는 검토자가 코멘트의 맥락을 이해하는 데 도움이 되었습니다.
Ten academic anesthesiologists from 4 military graduate education programs were recruited. This group included 2 program directors and 8 current or past associate program directors. To mitigate bias, a random number generator was used to assign 2 reviewers to each evaluation. No reviewers were assigned the same set of evaluations, and each evaluation was assigned exactly twice. All evaluations were deidentified. To achieve deidentification, a dictionary of all words that appear in the collection of evaluations was manually reviewed. All trainee and faculty names within this dictionary were compiled and then programmatically removed from evaluations. Each reviewer was provided a list of evaluations that were split into individual sentences. The reviewers then labeled their assigned sentences with 1 of the 23 anesthesiology Milestone 2.0 subcompetencies that best captured content, or D for demographics (e.g., “This is an evaluation for a call shift.”), or N for not useful (e.g., “Good job.”). Each sentence was given a unique identifying number so that reviewers knew which sentences came from the same evaluation. For evaluations that had multiple sentences, the identifier helped reviewers understand the context of comments.

연구 책임자(G.J.B.)는 각 검토자를 만나 마일스톤 2.0 하위 역량에 대해 논의하고, 지침을 설명하고, 검토자가 과제를 수행할 능력이 있다고 느낄 때까지 몇 가지 예제를 검토했습니다. 각 검토자에게는 ACGME 마취학 마일스톤 2.0 가이드가 제공되었지만, 결과 평가의 편견을 최소화하기 위해 명시적인 채점 규칙은 제공되지 않았습니다. 
The principal investigator (G.J.B.) met with each reviewer to discuss the Milestone 2.0 subcompetencies, explain the instructions, and go through several examples until reviewers felt competent performing the task. Each reviewer was given the ACGME Anesthesiology Milestone 2.0 guide, but no explicit scoring rules were provided to minimize bias in outcome assessment.

훈련 및 검증 코호트
Training and validation cohorts

사전 훈련 코호트는 사이트 1, 2, 4의 풀링된 데이터로, 외부 검증 코호트는 사이트 3으로 결정했습니다. 훈련 코호트는 두 리뷰어가 라벨에 동의한 문장으로 제한되었습니다(n = 11,960). 이러한 문장은 각 평가 내에서 동일한 레이블이 할당된 문장을 결합하는 방식으로 추가 처리되었습니다. 이 단계를 거친 최종 훈련 코호트에는 10,218개의 코멘트이 포함되었습니다(그림 1). 따라서 각 코멘트은 단일 문장 또는 단일 평가에서 나온 동일한 레이블을 가진 문장들의 조합을 나타냅니다. 이 단계는 다양한 구두점 사용을 제어하기 위해 수행되었습니다.

  • 어떤 평가자는 연속된 문장을 작성했고,
  • 어떤 평가자는 세미콜론으로 아이디어를 구분했으며,
  • 어떤 평가자는 대시 또는 아무것도 사용하지 않았습니다.

A priori, it was decided that the training cohort was the pooled data from Sites 1, 2, and 4, and the external validation cohort was Site 3. The training cohort was limited to sentences for which both reviewers agreed on the label (n = 11,960). These sentences were further processed by combining sentences within each evaluation that were assigned the same label. After this step, the final training cohort contained 10,218 comments (Figure 1). Therefore, each comment represents either a single sentence or a combination of sentences that come from a single evaluation and have the same label. This step was performed to help control for variable use of punctuation.

  • Some evaluators wrote run-on sentences,
  • others separated ideas with semicolons, and
  • others with dashes or nothing at all.

알고리즘은 평가를 문장으로 분할한 다음 분류하도록 설계되었기 때문에 이 처리 단계는 학습 데이터가 단순히 [별개의 문장]이 아닌 평가에서 [별개의 주제]를 포착하도록 하는 데 도움이 되었습니다. 검증 코호트의 경우, 연구 책임자가 라벨 할당에 대한 의견 불일치 시 동점자를 결정하는 역할을 했습니다. 최종 검증 코호트에는 2,255개의 문장이 포함되었습니다. 이 접근 방식에는 두 가지 장점이 있었습니다.

  • 첫째, 평가자 간 합의가 완벽한 훈련 데이터를 선택함으로써 숙련된 분류자를 구축하는 데 도움이 되었습니다.
  • 둘째, 검증 사이트의 모든 평가를 포함함으로써 프로그램의 모든 피드백을 대표하는 보이지 않는 데이터에 대한 분류기의 일반화 가능성을 평가하여 편향을 줄이는 데 도움이 되었습니다. 

Since the algorithm was designed to split evaluations into sentences and then classify them, this processing step helped ensure that training data captured distinct topics in evaluations rather than simply distinct sentences. For the validation cohort, the principal investigator served as the tie-breaker for any disagreements in label assignments. The final validation cohort contained 2,255 sentences. This approach had 2 advantages.

  • First, selecting training data with perfect inter-rater agreement helped build a skilled classifier.
  • Second, including all evaluations from the validation site helped reduce bias by assessing the generalizability of the classifier to unseen data representative of all feedback from a program.

 

예측자
Predictors

모델 입력은 내러티브 성능 평가의 원시 텍스트만 사용했습니다. 모든 텍스트는 소문자로 변환되었고 알파벳이 아닌 문자는 제거되었습니다. 텍스트 분류기에 거의 가치를 부여하지 않는 일반적인 단어, 즉 중단어(예: of, to, in)는 제거되었습니다. 하위 역량 레이블은 상당한 클래스 불균형을 보여주었습니다(표 1). 환자 관리(PC)6, PC9, 전문성(P)3, 대인 커뮤니케이션 및 기술(ICS)3, 실습 기반 학습 및 개선(PBLI)1, 시스템 기반 실습(SBP)1은 각각 전체 레이블의 1% 미만으로 포함되었습니다. 따라서 NLP 모델에 각 범주에서 적절한 샘플을 제공하기 위해 특정 하위 역량을 결합했습니다. PC6(현장 초음파)는 PC2(수술 전후 치료 및 관리)로, PC9(중환자 치료)는 PC7(상황 인식 및 위기 관리)로 재할당되었습니다. P, ICS, PBLI 및 SBP 내의 모든 하위 역량은 통합되었습니다. 따라서 분류 알고리즘이 예측할 수 있는 최종 카테고리는 16개였습니다: PC1, PC2, PC3, PC4, PC5, PC7, PC8, PC10, MK1, MK2, P, ICS, PBLI, SBP, D, N(표 2). 이러한 처리 기법은 훈련 및 검증 코호트에도 동일한 방식으로 적용되었습니다.

The only model inputs were raw text from narrative performance evaluations. All text was converted to lowercase, and nonalphabetic characters were removed. Common words that add little value to text classifiers, termed stopwords (e.g., of, to, in), were removed. Subcompetency labels demonstrated substantial class imbalance (Table 1). Patient care (PC)6, PC9, professionalism (P)3, interpersonal communication and skills (ICS)3, practice-based learning and improvement (PBLI)1, and systems-based practice (SBP)1 each contained < 1% of total labels. Therefore, to provide the NLP model with adequate samples in each category, certain subcompetencies were combined. PC6 (point of care ultrasound) was reassigned to PC2 (perioperative care and management) and PC9 (critical care) was reassigned to PC7 (situational awareness and crisis management). All subcompetencies within P, ICS, PBLI, and SBP were combined. Therefore, there were 16 final categories for the classification algorithm to predict: PC1, PC2, PC3, PC4, PC5, PC7, PC8, PC10, MK1, MK2, P, ICS, PBLI, SBP, D, N (Table 2). These processing techniques were applied in the same manner for the training and validation cohorts.

 

통계 분석
Statistical analysis

모델 개발.
Model development.

NLP 모델에는 FastText가 사용되었습니다. FastText는 맞춤법 오류와 의학 전문 용어 등 데이터 세트에 내재된 몇 가지 한계를 극복하는 오픈 소스 머신 러닝 알고리즘17입니다. FastText는 하위 단어(예: "intubate"의 하위 단어에는 "int", "ntu", "tub", "uba", "bat", "ate"가 포함될 수 있음)에 집중함으로써 이러한 영역에서 탁월한 성능을 발휘하며, 표준 영어 사전에 나타나지 않을 수 있는 철자와 단어 또는 약어에 대한 내성을 갖추고 있습니다. 또한 하위 단어 분석을 통해 분류기가 학습 과정에서 한 번도 보지 못한 단어가 포함된 문장을 예측할 수 있습니다. 마지막으로, FastText는 불균형한 클래스가 포함된 대규모 데이터 세트를 쉽게 처리할 수 있습니다. 
FastText was used for the NLP model. FastText is an open-source machine learning algorithm17 that overcomes several limitations inherent to the dataset, including spelling errors and medical jargon. FastText excels in these areas by focusing on subwords (e.g., subwords for “intubate” could include “int,” “ntu,” “tub,” “uba,” “bat,” “ate”), making it resistant to misspellings and words or abbreviations that may not appear in a standard English dictionary. Subword analysis also allows predictions on sentences containing words that the classifier has never seen in the training process. Finally, FastText is facile dealing with large datasets that contain imbalanced classes.

머신러닝에서 하이퍼파라미터는 학습 과정을 안내하는 알고리즘 피쳐입니다. 조사된 구체적인 하이퍼파라미터는 다음이 있다. 

  • 학습 속도(각 훈련 주기 동안 모델이 스스로 업데이트하는 정도),
  • 에포크(훈련 주기 수),
  • 하위 단어의 길이(고려해야 할 연속 글자 수),
  • 단어 n-그램(고려해야 할 연속 단어 수)

매크로 F1 점수를 최적화하는 하이퍼파라미터 세트를 결정하기 위해 5배 교차 검증을 사용하여 그리드 검색을 수행했습니다. F1 점수는 민감도와 양의 예측값의 균형을 추구하며, 매크로 F1은 각 클래스의 관찰 수를 고려하지 않고 각 클래스에 대한 F1 점수의 평균을 산출합니다. 이 접근 방식은 클래스 불균형의 영향을 완화하고 16개 카테고리를 모두 동등하게 중요하게 취급합니다.
In machine learning, hyperparameters are algorithm features that guide the learning process. Specific hyperparameters investigated were

  • learning rate (the extent to which the model updates itself during each training cycle),
  • epochs (number of training cycles),
  • length of subwords (number of consecutive letters to consider), and
  • word n-grams (number of consecutive words to consider).

Grid search was performed using fivefold cross-validation to determine the set of hyperparameters that optimized the macro F1 score. F1 score seeks to balance sensitivity and positive predictive value, and macro F1 averages F1 scores for each class without considering the number of observations in each class. This approach mitigates the impact of class imbalance and treats all 16 categories as equally important.

교차 검증을 사용하면 전체 훈련 세트가 80%:20% 코호트 또는 폴드로 분할됩니다. 모델은 80% 폴드에서 일련의 하이퍼파라미터를 사용하여 훈련되고, 훈련된 모델의 성능은 20% 폴드에서 평가됩니다. 다른 폴드를 사용하여 동일한 하이퍼파라미터로 이 과정을 4회 반복하여 주어진 하이퍼파라미터 조합에 대한 전체 학습 데이터 세트의 평균 매크로 F1 점수를 계산합니다. 이 과정은 가능한 모든 하이퍼파라미터 조합에 대해 반복됩니다. 그런 다음 가장 우수한 성능을 보인 하이퍼파라미터를 전체 훈련 데이터 세트를 사용하여 최종 모델을 훈련하는 데 사용했습니다.
With cross-validation, the entire training set is split into 80%:20% cohorts, or folds. The model is trained using a set of hyperparameters on the 80% fold, and performance of that trained model is assessed on the 20% fold. This repeats 4 times with the same hyperparameters using the other folds to calculate average macro F1 score across the entire training dataset for a given combination of hyperparameters. This process is repeated for all possible combinations of hyperparameters. The hyperparameters that yielded the best performance were then used to train the final model using the entire training dataset.

성능 메트릭 및 모델 검증.
Performance metrics and model validation.

최종 모델 파라미터가 결정되면 각 클래스에 대한 민감도, 양의 예측값, F1 및 수신기 작동 특성 곡선 아래 면적(AUC)을 계산하여 내부 검증을 평가했습니다. AUC는 한 클래스와 다른 모든 클래스를 고려하여 계산했습니다. 예를 들어, PC1에 대한 AUC는 코멘트을 PC1에 속하는 것과 다른 카테고리에 속하는 것을 구별하는 알고리즘의 능력을 측정합니다. 외부 검증은 검증 코호트에 대한 AUC를 계산하여 평가했습니다. 성능 지표의 평균 및 95% 신뢰 구간은 500개의 샘플로 계층화된 부트스트래핑을 통해 결정되었습니다. 계층화된 부트스트래핑은 각 훈련 샘플에 동일한 비율의 하위 역량이 포함되도록 하여 클래스 불균형을 고려합니다. 훈련 및 검증 코호트에서 보정 곡선을 통해 예측 신뢰도를 평가했습니다. 각 범주에 대한 관찰 확률과 모델 예측 확률을 비교하여 각 범주에 대한 보정 곡선을 생성했습니다. 잘 보정된 모델은 관찰된 확률과 매우 유사한 예측 확률을 보여야 합니다. 예를 들어, 모델이 어떤 코멘트을 70%의 확률로 PC1이라고 예측했다면, 리뷰어에 따르면 유사한 코멘트 10개 중 7개가 실제로는 PC1이어야 합니다.
Once the final model parameters were determined, internal validation was assessed by calculating sensitivity, positive predictive value, F1, and area under the receiver operating characteristic curve (AUC) for each class. AUC was calculated by considering one class vs all others. For example, AUC for PC1 measures the algorithm’s ability to discriminate a comment as belonging to PC1 vs any other category. External validation was assessed by calculating AUC on the validation cohort. Mean and 95% confidence intervals for performance metrics were determined by stratified bootstrapping with 500 samples. Stratified bootstrapping ensures that each training sample contains the same relative proportions of subcompetencies to account for class imbalance. Prediction reliability was assessed in the training and validation cohorts through calibration curves. Calibration curves were generated for each category by plotting observed probabilities vs model prediction probabilities for each class. A well-calibrated model should demonstrate prediction probabilities that are very similar to observed probabilities. For example, if the model predicts that a comment is PC1 with 70% probability, then 7 out of 10 similar comments should in fact be PC1 according to reviewers.

2차 결과 및 민감도 분석.
Secondary outcomes and sensitivity analyses.

리뷰어의 레이블은 개수와 빈도로 설명했습니다. 레이블은 순위나 순서가 없는 명목 변수로 간주했습니다. 모든 하위 역량 라벨에 대한 전반적인 평가자 간 일치도는 Fleiss의 카파를 사용하여 평가했습니다. 각 하위 역량에 대해 범주별 일치율을 계산하여 특정 하위 역량에 따라 평가자 간 동의가 달라지는지 조사했습니다. 리뷰어들이 동의하지 않을 때 가장 빈번하게 함께 나타나는 하위 역량 레이블을 조사하여 하위 역량에 구분하기 어려운 주제가 있는지 조사했습니다. 두 가지 민감도 분석이 수행되었습니다.

  • 첫째, 6개의 핵심 역량으로 묶은 후 평가자가 지정한 라벨에 대한 평가자 간 합의도를 조사했습니다.
  • 둘째, 외부 검증 데이터에 대한 성능 지표를 평가자 간 완벽한 합의가 있는 문장 하위 집합에 대해 계산하여 평가자 간 완벽한 합의가 포함된 학습 데이터로 개발되었기 때문에 동점자 불일치 또는 모델 예측에 편향이 있을 수 있는지 평가했습니다.

분석은 Python 3.8(델라웨어주 윌밍턴) 및 R 4.1(매사추세츠주 보스턴)을 사용하여 수행되었습니다.
Reviewers’ labels were described with counts and frequencies. Labels were considered nominal variables with no ranking or ordering. Overall inter-rater agreement for all subcompetency labels was assessed with Fleiss’ Kappa. Category-specific percent agreement was calculated for each subcompetency to investigate whether specific subcompetencies varied in reviewer agreement. The most frequent co-occurring subcompetency labels when reviewers disagreed were explored to investigate whether there were themes in subcompetencies that were difficult to differentiate. Two sensitivity analyses were performed.

  • First, inter-rater agreement on reviewer-assigned labels was explored after pooling them into the 6 Core Competencies.
  • Second, performance metrics on external validation data were calculated for the subset of sentences for which there was perfect inter-rater agreement to assess whether there could be bias in the process of tie-breaking disagreements or bias in model predictions since it was developed with training data that contained perfect inter-rater agreement.

Analyses were performed with Python 3.8 (Wilmington, Delaware) and R 4.1 (Boston, Massachusetts).

모델 해석 가능성.
Model interpretability.

대부분의 머신 러닝 모델과 마찬가지로 NLP 모델은 블랙박스 동작으로 인해 어려움을 겪습니다. 로지스틱 회귀의 확률 비율과 같이 쉽게 해석할 수 있는 계수가 없습니다. 최종 모델이 어떻게 예측을 했는지 이해하기 위해 로컬 해석 가능한 모델-무관용 설명(LIME)18을 사용했습니다. LIME은 다양한 머신러닝 알고리즘에 사용되어 예측을 할 때 어떤 특징이 중요한지 설명하는 데 도움이 됩니다. 3개의 예시 문장에 대해 모델 예측과 LIME 시각화를 수행했으며, 이 기능은 온라인 애플리케이션에 내장되었습니다.
NLP models, like most machine learning models, suffer from black-box behavior. There are no coefficients, such as odds ratios in logistic regression, that are easily interpretable. Local Interpretable Model-Agnostic Explanations (LIME)18 was used to understand how the final model made predictions. LIME can be used for a wide range of machine learning algorithms to help demonstrate what features are important while making predictions. Model predictions and LIME visualizations were performed for 3 example sentences, and this feature was built into the online application.

모델 구현.
Model implementation.

이 모델은 교육생 자가 평가 연습의 일부로 작동되었습니다. 모델을 구현하는 간단한 컴퓨터 프로그램을 만든 다음 모델 출력이 포함된 스프레드시트를 생성했습니다. 18명의 교육생에 대한 모든 평가는 연구 기간 후 6개월 동안 수집되었습니다. 이 모델은 각 교육생의 내러티브 코멘트를 읽고 개별 문장으로 분리한 다음 각각에 해당 카테고리에 레이블을 지정했습니다. 이렇게 분류된 코멘트는 각 교육생이 멘토와 함께 검토할 수 있도록 별도의 스프레드시트에 자동으로 정리되어 스스로 결정한 하위 역량에 대한 성과를 개선하기 위한 실행 계획을 안내하는 데 도움이 되었습니다.
The model was operationalized as part of a trainee self-assessment exercise. A simple computer program was created which implements the model and then produces spreadsheets containing model outputs. All evaluations on 18 trainees were collected from a 6-month window after the study period. The model read each trainee’s narrative comments, separated them into individual sentences, and labeled each with the corresponding category. These labeled comments were then automatically organized into separate spreadsheets for each trainee for review with their mentors to help guide action plans to improve performance in self-determined subcompetencies.

결과
Results

평가 라벨
Evaluation labels

전체 데이터 세트에 대한 검토자 라벨(두 검토자가 라벨에 동의하지 않은 의견을 제외하기 전)에는 PC 35.2%, MK 8.8%, P 10.1%, ICS 5.9%, PBLI 5.1%, SBP 3.8%, D 10.1%, N 21.0%가 포함되었으며, 훈련 코호트최종 검증 코호트 간에 검토자가 지정한 라벨의 분포에 유의미한 차이가 있었습니다(P < .01). 가장 큰 차이는 P와 N에서 관찰되었습니다(표 1).
Reviewer labels on the complete dataset (before excluding comments where both reviewers did not agree on the labels) included 35.2% PC, 8.8% MK, 10.1% P, 5.9% ICS, 5.1% PBLI, 3.8% SBP, 10.1% D, and 21.0% N. There were significant differences in the distribution of reviewer-assigned labels between the training and final validation cohorts (P < .01). The biggest differences were observed for P and N (Table 1).

평가자 간 합의
Inter-rater agreement

검토자들은 25,714개 문장 중 13,068개 문장에 대해 25개 레이블(23개 하위 역량, D, N)에 동의했습니다(전체 동의율 50.8%). PC10(말초 및 신경계 마취, 72.0%)이 가장 높은 동의율을 보였고 SBP3(의료 시스템에서의 의사의 역할, 9.9%)가 가장 낮은 동의율을 보였습니다(보충 디지털 부록 1). Fleiss의 카파는 25개 범주에 대해 0.44였습니다. 하위 역량을 핵심 역량으로 합산했을 때 Fleiss의 카파는 0.50이었습니다. 전문가들이 하위 역량에 대해 의견이 일치하지 않을 때 가장 빈번하게 동반되는 하위 역량 레이블은 PC4(수술 중 관리)였습니다. ICS와 SBP 간, 그리고 P와 N 간에는 빈번하게 공존하는 경향이 있었습니다(보충 디지털 부록 1).
Reviewers agreed on the 25 labels (23 subcompetencies, D, and N) for 13,068 of 25,714 sentences (overall agreement 50.8%). Percent agreement was highest for PC10 (peripheral and neuraxial anesthesia, 72.0%) and lowest for SBP3 (physician role in health care systems, 9.9%) (Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B361). Fleiss’ Kappa was 0.44 for the 25 categories. When subcompetencies were aggregated into the core competencies, Fleiss’ Kappa was 0.50. The most frequent co-occurring subcompetency label when experts disagreed on any subcompetency was PC4 (intraoperative care). There tended to be frequent co-occurrence between ICS and SBP and between P and N (Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B361).

모델 개발
Model development

432개의 하이퍼파라미터 조합(4개의 개별 학습률과 에포크, 3개의 단어 길이, 9개의 개별 하위 단어 길이)에 대해 그리드 검색을 수행했습니다. 모델 구축에 대한 자세한 내용은 여기에서 확인할 수 있습니다. 최종 모델의 하이퍼파라미터에는 2개의 단어 n-그램과 1~4자 길이의 하위 단어가 포함되었습니다. 
Grid search was performed on 432 combinations of hyperparameters (4 separate learning rates and epochs, 3 lengths for word n-grams, and 9 separate subword lengths). Details for building the model are available at https://github.com/gb563/Milestone_NLP. Hyperparameters for the final model included 2 word n-grams and subwords that were 1–4 characters long.

모델 성능
Model performance

내부 검증 결과, PC5, PC10, MK1, D, N은 우수한 판별력(AUC ≥ 0.8)을 보였고, PC1, PC3, PC4, P, ICS, PBLI는 양호한 판별력(AUC ≥ 0.7)을 보였습니다. SBP는 변별력이 가장 낮았습니다(AUC 0.59)(표 2). 양성 예측값은 PC5와 PC10(0.88)이 가장 높았고, SBP(0.31)가 가장 낮았습니다. 민감도는 N(0.89)이 가장 높았고 SBP(0.19)가 가장 낮았습니다. 훈련 및 검증 코호트에 대한 양성 예측값, 민감도, F1에 대한 전체 보고는 보충 디지털 부록 2와 3에서 확인할 수 있습니다. 보정 곡선은 예측 확률 범위에서 신뢰할 수 있는 예측을 보여주었습니다(추가 디지털 부록 4).
On internal validation, excellent discrimination (AUC ≥ 0.8) was observed for PC5, PC10, MK1, D, and N. Good discrimination (AUC ≥ 0.7) was observed for PC1, PC3, PC4, P, ICS, and PBLI. SBP had the worst discrimination (AUC 0.59) (Table 2). Positive predictive value was highest for PC5 and PC10 (0.88), and lowest for SBP (0.31). Sensitivity was highest for N (0.89) and lowest for SBP (0.19). Full reporting of positive predictive value, sensitivity, and F1 for training and validation cohorts can be found in Supplemental Digital Appendices 2 and 3 at https://links.lww.com/ACADMED/B361. Calibration curves demonstrated reliable predictions across the range of predicted probabilities (Supplemental Digital Appendix 4 at https://links.lww.com/ACADMED/B361).

모델 평가
Model evaluation

모델 변별력은 검증 데이터에서 매우 일관적이었습니다. 내부 검증 데이터와 비교했을 때 Professionalism을 제외하고는 성능에 차이가 없었습니다(표 2). 검토자의 완전한 동의를 얻은 문장만 검증 데이터에 포함시킨 민감도 분석에서도 내부 검증과 비교했을 때 전문성에 대한 AUC는 더 이상 차이가 없었습니다(보충 디지털 부록 5). 검증 데이터에 대한 모델 보정 결과, 모든 범주에서 예측이 과신하는 경향이 나타났습니다(보충 디지털 부록 6).
Model discrimination was very consistent on the validation data. There were no differences in performance compared with the internal validation data except professionalism (Table 2). On the sensitivity analysis in which only sentences with complete reviewer agreement were included in the validation data, there was no longer a difference in AUC for professionalism compared with internal validation (Supplemental Digital Appendix 5 at https://links.lww.com/ACADMED/B361). Model calibration on validation data demonstrated a tendency toward overconfident predictions for all categories (Supplemental Digital Appendix 6 at https://links.lww.com/ACADMED/B361).

모델 사양
Model specification

이 알고리즘은 독립적인 테스트와 검증을 위해 웹 기반 애플리케이션에 구축되었습니다. 누구나 자유 응답 평가 내러티브를 입력할 수 있으며, 모델은 해당 내러티브에 포함된 (하위) 역량을 예측합니다. 상위 3개 예측을 요약하고 모델이 이러한 예측을 하게 된 단어를 강조하는 LIME 그래픽이 표시됩니다. 예를 들어 다음과 같은 코멘트가 모델에 전달되었습니다:

  • "이 평가는 흉부외과에서의 하루를 다룹니다. 동의하는 동안 환자와 가족을 안심시키는 데 큰 역할을 했습니다. 응급 섬망에 대한 근거 기반 진료 권고사항을 통합했습니다. 중심정맥관 배치는 숙련되었으나 심폐우회술에서 분리하는 동안 인트로프로프 관리를 제대로 하지 못함. 다음 사례에 대비하여 분리 과정을 시각화하여 보다 원활하고 안전하게 분리할 수 있도록 하는 것이 좋습니다."

The algorithm was built into a web-based application for independent testing and validation. Anyone can type a free-response evaluation narrative, and the model predicts which (sub)competencies it contains. LIME graphics are displayed that outline the top 3 predictions and highlight which words drove the model to make those predictions. As an example, the following comment was passed to the model:

  • “This evaluation covers a day in the cardiothoracic room. Did a great job putting patient and family member at ease during consent. Incorporated evidence-based practice recommendations on emergence delirium. Skillful central line placement, but poor management of inotropes while separating from cardiopulmonary bypass. Consider visualizing the separation process in preparation for your next case so you can do this more smoothly and safely.”

이 모델은 단락을 개별 문장으로 분할한 다음, 각 문장이 어떤 (하위) 역량을 다룰지 예측합니다. 이 예는 모델이 자유 응답 내러티브를 분석하여 ACGME (하위) 역량 프레임워크로 구성하는 방법을 강조합니다. 모델 예측은 표 3에 나와 있습니다. LIME 해석 가능성 도표로 개선된 세 가지 추가 예는 부록 디지털 부록 7-9에 포함되어 있습니다.
The model splits the paragraph into individual sentences, then predicts which (sub)competencies each sentence addresses. This example highlights how the model can dissect a free-response narrative to organize it into an ACGME (sub)competency framework. Model predictions are presented in Table 3. Three additional examples, enhanced by LIME interpretability plots, are included in Supplemental Digital Appendices 7–9 at https://links.lww.com/ACADMED/B361.

acadmed_2023_01_19_booth_acadmed-d-22-00772_sdc1.pdf
0.51MB

모델 구현
Model implementation

컴퓨터 프로그램은 약 1분 만에 18명의 교육생에 대한 수백 개의 서술적 의견을 읽고, 라벨을 붙이고, 정리하여 교육생과 멘토가 검토할 수 있도록 개별화된 스프레드시트를 생성했습니다. 조직화된 피드백은 교육생이 마일스톤 2.0을 통해 스스로 결정한 하위 역량에 대한 진도를 향상시키기 위한 실행 계획을 세우도록 안내했습니다. 이 구현에 대한 영향 지표는 수집되지 않았습니다. 그러나 내부 피드백은 이 연습에 대해 매우 긍정적이었으며, "레지던트가 자신의 강점을 활용하고 성장 영역을 식별하기 위해 개별화된 학습 계획을 개발하도록 지원"하는 ACGME 공통 프로그램 요건을 달성했습니다.7
In approximately 1 minute, the computer program read, labeled, and organized several hundred narrative comments on 18 trainees and produced individualized spreadsheets for review by trainees and their mentors. The organized feedback guided trainees to make action plans to enhance their progress through Milestones 2.0 on self-determined subcompetencies. Impact metrics were not collected on this implementation. However, internal feedback was very positive on the exercise, and it achieved the ACGME Common Program Requirement to “assist residents in developing individualized learning plans to capitalize on their strengths and identify areas for growth.”7

토론
Discussion

이 연구는 인공지능이 GME 연수생에 대한 내러티브 피드백을 마일스톤 2.0의 하위 역량과 핵심 역량으로 정확하게 분류할 수 있음을 보여줍니다. NLP 모델은 3개 레지던트 프로그램의 마취과 전문의로부터 10,000개 이상의 코멘트을 사용하여 피드백 언어를 학습했습니다. 이 모델은 외부 평가 사이트에서도 잘 일반화되었습니다. 개념 증명 시험에서 이 모델은 최소한의 노력으로 대량의 내러티브 피드백을 빠르게 정리하고 마일스톤 자가 평가 연습에서 수련의를 성공적으로 안내하는 것으로 입증되었습니다. 이 연구에서 개발된 NLP 모델은 기존 전자 평가 시스템에 구축하여 수천 개의 평가를 쉽게 관리할 수 있도록 확장할 수 있으며, 이를 통해 교육생의 진행 상황에 대한 구조화된 피드백과 적시 평가를 제공하는 프로그램의 기능을 강화할 수 있습니다.
This study shows that artificial intelligence can accurately categorize narrative feedback on GME trainees into corresponding Milestone 2.0 subcompetencies and core competencies. An NLP model learned the feedback language from anesthesiologists at 3 residency programs using more than 10,000 comments. The model generalized well to an external evaluation site. A proof-of-concept trial demonstrated that the model rapidly organizes large volumes of narrative feedback with minimal effort, and it successfully guided trainees in a Milestone self-assessment exercise. An NLP model, such as developed in this study, could be built into existing electronic evaluation systems and scaled to manage thousands of evaluations with ease, thereby augmenting programs’ ability to provide structured feedback and timely assessments of trainee progress.

NLP 모델은 대부분의 하위 역량과 핵심 역량에 걸쳐 우수한 성능을 보였으며, 내부 및 외부 검증 모두에서 우수한 변별력을 보여준 여러 범주에서 우수한 성능을 보였습니다. 

  • PC3(훈련 데이터의 1.9%, AUC 0.76) 및 PBLI(훈련 데이터의 3.8%, AUC 0.75)와 같이 거의 사용되지 않는 몇 가지 범주에서도 우수한 성능을 보였습니다.
  • 이 모델은 인구통계학적 정보와 관련된 코멘트(예: "이것은 전기생리학 실험실에서 하루 동안의 평가입니다.", AUC 0.87)과 유용하지 않은 코멘트(예: "잘했어요.", AUC 0.87)을 예측하는 데 특히 우수한 성능을 보였습니다.

The NLP model performed well across most subcompetencies and core competencies with several categories demonstrating excellent discrimination on both internal and external validation.

  • It performed well even for several of the rarely used categories, such as PC3 (1.9% of training data, AUC 0.76) and PBLI (3.8% of training data, AUC 0.75).
  • The model performed particularly well for predicting comments related to demographic information (e.g., “This is an evaluation for a day in the electrophysiology lab,” AUC 0.87) and comments that were not useful (e.g., “Good job,” AUC 0.87).

SBP(AUC 0.59)의 성능이 최악이었습니다. Zhang 등은 교육생 평가의 피드백 코멘트에 포함된 감정과 관련 핵심 역량을 식별하려는 NLP 기법을 살펴본 결과, 마찬가지로 SBP가 예측하기 가장 어려운 역량이라는 사실을 발견했습니다.11 SBP에 대한 코멘트 분석의 어려움은 평가자 간 일치도 결과에서 잘 드러나는데, SBP 하위 역량 중 하나에 대한 평가자 간 일치도가 9.9%로 낮게 나타났습니다. 이 결과는 SBP와 관련된 의견을 예측하는 데 문제가 있는 것은 GME 커뮤니티가 SBP를 특성화하는 데 어려움을 겪고 있거나, 서술적 의견 이외의 평가 기법으로 SBP를 더 잘 평가할 수 있다는 것을 시사합니다. 
Performance was worst for SBP (AUC 0.59). Zhang et al explored NLP techniques that attempt to discern the sentiment and pertinent core competencies contained in feedback comments from trainee evaluations, and they similarly found that SBP was the most difficult competency to predict.11 The challenge of analyzing comments about SBP is underscored by our results for inter-rater agreement; inter-rater agreement was as low as 9.9% for one of the SBP subcompetencies. This finding suggests that the problem predicting comments related to SBP may be that the GME community has a hard time characterizing SBP or that SBP may be assessed better by evaluation techniques other than narrative comments.

전문가 라벨에 대한 전반적인 동의도는 보통 수준이었으며(Fleiss의 카파 0.44), 하위 역량 간 동의도에는 상당한 편차가 있었습니다. 일반적으로 PC 하위 역량에 대한 동의도가 가장 높았고, P와 SBP에 대한 동의도가 가장 낮았습니다. 하위 역량을 핵심 역량으로 통합했을 때 평가자 간 일치도는 소폭 개선되었지만 여전히 보통 수준이었습니다(Fleiss의 카파 0.50). 이러한 결과는 지속적인 교수진 개발의 필요성을 뒷받침하며, 이 프로젝트의 다음 반복에서는 트레이너 교육 환경에서 이러한 기회를 모색할 것입니다.
Overall agreement on expert labels was moderate (Fleiss’ Kappa 0.44), and there was substantial variability in agreement between subcompetencies. In general, agreement was highest for PC subcompetencies and lowest for P and SBP. When subcompetencies were pooled into core competencies, inter-rater agreement improved marginally but was still moderate (Fleiss’ Kappa 0.50). These results support the need for ongoing faculty development, and the next iteration of this project will seek to explore this opportunity in a train-the-trainer setting.

이 연구는 레지던트 프로그램의 지속적인 수련 과정 평가를 지원하기 위한 도구로 NLP를 사용하려는 이전의 노력을 기반으로 합니다. 여러 선행 연구에서 평가의 품질 또는 유용성을 예측하기 위해 NLP를 다루고 있지만,10,19,20 본 연구 결과에 따르면 교수진이 평가서를 작성하는 방법뿐만 아니라 평가서에 작성하는 내용을 대상으로 하는 것이 더 신중할 수 있음을 시사합니다. 유용하지 않거나 인구통계학적 내용에 관한 코멘트이 데이터의 30% 이상을 차지했습니다. CBME 평가를 목표로 하는 교수진 개발 이니셔티브는 필수적입니다.21 ACGME는 교수진 개발에는 교육기관에 맞는 구조화된 프로그램이 포함된다고 설명하며7 피드백 제공자를 위한 트레이너 양성 프로그램을 권장합니다.22 프로그램은 웹 기반 애플리케이션에 내장된 NLP 모델을 사용하여 교수진이 교육기관에 맞는 피드백 언어에 대해 구조적이고 신중한 연습을 할 수 있도록 지원할 수 있습니다.
This study builds on prior endeavors to use NLP as a tool to assist residency programs in the ongoing evaluation of trainee progress. While several prior studies address NLP to predict the quality or utility of evaluations,10,19,20 our results suggest that it may be as prudent to target what faculty write about in their evaluations, rather than only how they write them. Comments that were not useful or about demographic content made up more than 30% of the data. Faculty development initiatives aimed at CBME assessments are imperative.21 ACGME outlines that faculty development includes structured programming specific to an institution7 and recommends train-the-trainers programs for feedback providers.22 Programs could use NLP models built into web-based applications to facilitate structured, deliberate practice for faculty on feedback language consistent with their institution.

이 연구에는 몇 가지 한계가 있습니다. NLP 모델은 훈련에 사용된 데이터에 의해 제한됩니다. SBP와 같은 일부 범주에서는 평가자 간 일치도가 낮게 나타났습니다. 잘 훈련된 인공 지능 모델은 모호한 결과를 예측하는 데 제한적인 유용성을 가집니다. 이 연구에서 개발된 모델과 같은 모델은 ACGME 마일스톤에 대한 프로그램의 해석에 대해 직원을 교육하는 것을 목표로 하는 전문성 개발 활동과 병행해야 할 수도 있습니다. 또 다른 한계는 이 모델이 품질이나 유용성보다는 하위 역량과 역량을 학습하도록 훈련되었다는 점입니다. 따라서 알고리즘을 통합한 트레이너 교육 프로그램은 교수진이 형성적인 피드백보다는 특정 유행어나 문구를 작성하도록 장려할 수 있습니다. 데이터 세트에서 유용하지 않은 코멘트의 비율이 높다는 점을 고려할 때, 현재의 알고리즘은 평가자가 역량에 대해 더 구체적으로 작성하는 방법을 배우는 데 도움을 줌으로써 우선적으로 큰 가치를 더할 수 있습니다. 향후 연구에서는 (코멘트가 설명하는 역량과 무관하게 )실행 가능한 코멘트와 그렇지 않은 코멘트을 인식하는 별도의 모델을 쉽게 훈련할 수 있으며, 이를 현재 알고리즘과 결합하여 콘텐츠와 품질에 대한 동시 예측을 생성할 수 있습니다.
This study has several limitations. NLP models are limited by the data used to train them. Some categories, such as SBP, demonstrated poor inter-rater agreement. A well-trained artificial intelligence model has limited utility in predicting ambiguous outcomes. Models such as the one developed in this study may need to be paired with a professional development activity aimed at educating staff on a program’s interpretation of ACGME Milestones. Another limitation was that the model was trained to learn subcompetencies and competencies rather than quality or utility. Therefore, a train-the-trainer program incorporating the algorithm may encourage faculty to write certain buzzwords or phrases rather than formative feedback. Given the high proportion of comments that were not useful in the dataset, the present algorithm can add a great deal of value first by helping evaluators learn to write more specifically to competencies. A future study could easily train a separate model to recognize actionable comments vs not (independent of the competencies they may or may not describe), which could be paired with the present algorithm to produce simultaneous predictions on content and quality.

향후 작업에서 가장 중요하게 고려해야 할 사항은 이러한 모델을 책임감 있고 윤리적으로 배포하는 것입니다. 개념 증명 시험은 교육생이 자가 평가 연습을 할 수 있도록 설계되었습니다. 만약 이 모델이 훈련생의 진도에 대한 결정을 내리기 위해 설계된 방식으로 배포되었다면 알고리즘 개발의 특정 편향23,24 또는 내러티브 피드백 자체에 내재된 편향23-25으로 인해 재앙적인 결과를 초래할 수 있습니다. 
A major consideration for future work is responsible and ethical deployment of these models. The proof-of-concept trial was designed to guide trainees in a self-assessment exercise. If the model were deployed instead in a manner designed to make decisions on trainee progress, certain biases in algorithm development,23,24 or biases inherent in the narrative feedback itself,23–25 could have disastrous consequences.

결과 평가에 편향이 있을 가능성이 있었습니다. 라벨링 프로세스는 고유한 지식, 교육 및 GME 경험을 가진 10명의 리뷰어에게 의존했으며, 모델은 완전한 동의가 있는 데이터만을 사용하여 학습되었습니다. 이로 인해 평가 의견의 크기가 제한되고 모호성이 덜한 언어로 모델이 편향되었습니다. 그러나 최종 모델에는 여전히 10,000개가 넘는 개별 코멘트의 언어가 포함되었으며, 외부 검증을 통해 성능이 잘 일반화되었음을 확인할 수 있었습니다. 데이터 분석 수명 주기에서 많은 의료 서비스 관련 프로젝트에 부족한 중요한 단계는 모델 모니터링 및 피드백 루프입니다. 이 연구에서 설명한 것과 같은 알고리즘에 대한 향후 작업에서는 오분류의 영향을 완화하는 데 도움이 되는 다양한 데이터 세트와 모델 업데이트를 통한 지속적인 검증을 모색해야 합니다. 또한 모델 모니터링을 통해 기관 및/또는 프로그램 간의 일반화 가능성을 평가할 수 있으며, 성능 임계값을 정의하여 모델을 미세 조정하기 위한 재교육을 트리거할 수 있습니다. 또 다른 한계는 문장을 하나의 하위 역량으로만 제한하는 것입니다. 여러 문장이 두 개 이상의 하위 역량에 대해 말하고 있으며, 평가자에게는 레이블을 할당하는 구체적인 규칙이 제공되지 않았습니다. 따라서 여러 하위 역량이 적용되는 경우, 전문가가 특정 인지적 편견으로 인해 한 범주를 다른 범주보다 더 많이 선택했을 수 있습니다.
There was potential for bias in outcome assessment. The labeling process relied on 10 reviewers with unique knowledge, training, and GME experiences, and the model was trained only using data for which there was complete agreement. This restricted the size of evaluation comments and biased the model toward language that is less ambiguous. However, the final model still incorporated language from more than 10,000 individual comments, and external validation supports that performance generalizes well. A critical phase of the data analytics lifecycle that many health care–related projects lack is model monitoring and feedback loops. Future work on algorithms, such as described in this work, should explore ongoing validation with various datasets and model updating to help mitigate the impacts of misclassification. Model monitoring would also allow assessment of generalizability between institutions and/or programs, and performance thresholds could be defined to trigger retraining to fine-tune models. Another limitation is restricting sentences to just a single subcompetency. Several sentences speak to more than one subcompetency, and raters were not provided with specific rules to assign labels. Therefore, when multiple subcompetencies applied, certain cognitive biases may have contributed to experts choosing one category over another.

마지막으로, 마일스톤 2.0과 그에 수반되는 하위 역량이 포함 기간 동안 공개되었습니다. 대부분의 의견은 첫 번째 마일스톤 세트를 대상으로 했을 가능성이 높지만, 전문가들은 이를 마일스톤 2.0에 매핑했습니다. 이러한 접근 방식은 특정 범주에 편향성을 불러일으킬 수 있지만, 이러한 접근 방식은 추가적인 미래 지향적 검증을 용이하게 합니다.
Finally, Milestones 2.0 with their accompanying subcompetencies were released during the inclusion period. Most comments likely targeted the first set of Milestones, yet experts mapped them to Milestones 2.0. This approach may have introduced bias to certain categories, but this approach facilitates further prospective validation.

결론
Conclusions

이 연구는 4개의 교육 프로그램에 걸쳐 207명의 교수진이 169명의 마취과 수련의에 대한 25,714개의 서술적 코멘트를 검토했습니다. NLP 알고리즘은 3개의 마취과 GME 프로그램의 언어를 학습하도록 훈련되었으며, 대부분의 ACGME 하위 역량에 걸쳐 매우 우수한 성능을 보였습니다. 이 모델은 6개월간의 교육생 피드백을 신속하게 정리하여 자가 평가 연습을 안내하는 컴퓨터 프로그램에 구축되었습니다. 효과적인 자동화 프로세스를 개발하는 데 성공하면 마일스톤 2.0을 통해 개별 수련의가 발전함에 따라 레지던트 프로그램의 추적 기능을 향상시킬 수 있지만, 이러한 시스템이 책임감 있고 윤리적으로 배포되도록 하기 위해서는 상당한 작업이 필요합니다. 자연어 처리 방법은 내러티브 데이터를 복잡하게 분류하고 처리할 수 있으며, 이러한 방법을 CBME에 적용할 수 있는지에 대한 추가 조사가 필요합니다.

This study reviewed 25,714 narrative comments on 169 anesthesiology trainees from 207 faculty across 4 training programs. An NLP algorithm was trained to learn the language of 3 anesthesiology GME programs, and it performed very well across most ACGME subcompetencies. The model was built into a computer program which rapidly organized 6 months of trainee feedback to guide a self-assessment exercise. Success in developing an efficacious automated process could enhance the tracking capabilities of residency programs as individual trainees progress through Milestones 2.0, although substantial work is needed to make sure such systems are deployed responsibly and ethically. NLP methods are capable of complex categorization and processing of narrative data, and further investigation into these applications to CBME is warranted.


Acad Med. 2023 Apr 1;98(4):497-504. doi: 10.1097/ACM.0000000000005115. Epub 2022 Dec 5.

Competency-Based Assessments: Leveraging Artificial Intelligence to Predict Subcompetency Content

Affiliations collapse

1G.J. Booth is assistant professor, Uniformed Services University of the Health Sciences, and residency program director, Department of Anesthesiology and Pain Medicine, Naval Medical Center Portsmouth, Portsmouth, Virginia.

PMID: 36477379

DOI: 10.1097/ACM.0000000000005115

Abstract

Purpose: Faculty feedback on trainees is critical to guiding trainee progress in a competency-based medical education framework. The authors aimed to develop and evaluate a Natural Language Processing (NLP) algorithm that automatically categorizes narrative feedback into corresponding Accreditation Council for Graduate Medical Education Milestone 2.0 subcompetencies.

Method: Ten academic anesthesiologists analyzed 5,935 narrative evaluations on anesthesiology trainees at 4 graduate medical education (GME) programs between July 1, 2019, and June 30, 2021. Each sentence (n = 25,714) was labeled with the Milestone 2.0 subcompetency that best captured its content or was labeled as demographic or not useful. Inter-rater agreement was assessed by Fleiss' Kappa. The authors trained an NLP model to predict feedback subcompetencies using data from 3 sites and evaluated its performance at a fourth site. Performance metrics included area under the receiver operating characteristic curve (AUC), positive predictive value, sensitivity, F1, and calibration curves. The model was implemented at 1 site in a self-assessment exercise.

Results: Fleiss' Kappa for subcompetency agreement was moderate (0.44). Model performance was good for professionalism, interpersonal and communication skills, and practice-based learning and improvement (AUC 0.79, 0.79, and 0.75, respectively). Subcompetencies within medical knowledge and patient care ranged from fair to excellent (AUC 0.66-0.84 and 0.63-0.88, respectively). Performance for systems-based practice was poor (AUC 0.59). Performances for demographic and not useful categories were excellent (AUC 0.87 for both). In approximately 1 minute, the model interpreted several hundred evaluations and produced individual trainee reports with organized feedback to guide a self-assessment exercise. The model was built into a web-based application.

Conclusions: The authors developed an NLP model that recognized the feedback language of anesthesiologists across multiple GME programs. The model was operationalized in a self-assessment exercise. It is a powerful tool which rapidly organizes large amounts of narrative feedback.

전공의의 임상추론 문서의 평가 자동화를 위한 머신러닝 모델 개발 및 타당화(J Gen Intern Med. 2022)
Development and Validation of a Machine Learning Model for Automated Assessment of Resident Clinical Reasoning Documentation 
Verity Schaye, MD, MHPE1,2 , Benedict Guzman, MS1, Jesse Burk-Rafel, MD,MRes1, Marina Marin, MSc1, Ilan Reinstein, MS1, David Kudlowitz, MD1, LouisMiller,MD3, Jonathan Chun, MD4, and Yindalon Aphinyanaphongs, MD, PhD1 

 

소개
INTRODUCTION

전자 의료 기록(EHR)의 주요 역할은 우선순위에 따른 감별 진단을 포함한 환자의 임상 경과를 명확한 추론 설명과 함께 전달하는 것입니다.1 그러나 EHR의 등장 이후 문서화 품질이 저하되었습니다.2,3,4,5 노트는 임상적 추론(CR)의 효과적인 전달이 부족한 경향이 있으며, 수련의는 감독 교수진의 시간 제약CR 문서에 대한 공유된 멘탈 모델의 부재로 인해2,3,4,5 피드백을 자주 받지 못합니다.6,7,8,9,10 문서화 품질을 평가하기 위한 여러 노트 평가 도구가 존재하지만 평가자 교육과 노트의 수동 평가에 많은 시간이 소요됩니다.4,11,12,13,14,15 
A primary role of the electronic health record (EHR) is to communicate the patient’s clinical course including a prioritized differential diagnosis with clear explanation of reasoning.1 However, since the advent of EHRs, there has been a decline in documentation quality.2,3,4,5 Notes tend to lack effective communication of clinical reasoning (CR), and trainees infrequently receive feedback,2,3,4,5 owing to time constraints of supervising faculty and lack of a shared mental model of CR documentation.6,7,8,9,10 Several note-rating instruments exist to assess documentation quality, but require time-consuming rater training and manual rating of notes.4,11,12,13,14,15

머신러닝(ML)과 자연어 처리(NLP)는 CR 문서 평가를 자동화할 수 있는 잠재력을 제공합니다.16,17,18,19 인공 지능의 한 분야인 ML은 컴퓨터 시스템과 통계 알고리즘을 사용하여 대량의 데이터에서 패턴을 식별하여 자동화된 분류 모델을 생성합니다.20 NLP는 ML과 언어학의 결합으로 텍스트 데이터를 통해 자연어를 연구합니다.21 문서화 개선 및 감별 진단 생성을 위해 ML과 NLP를 사용하는 것이 제안되었지만, 이 영역에서 구현된 보고는 제한적입니다.17,18,19,21,22,23,24,25,26,27,28,29,30,31 
Machine learning (ML) and natural language processing (NLP) offer the potential to automate assessment of CR documentation.16,17,18,19 ML, a domain of artificial intelligence, uses computer systems and statistical algorithms to identify patterns in large amounts of data to create automated classification models.20 NLP is a combination of ML and linguistics for studying natural human language through text data.21 While use of ML and NLP to improve documentation and differential diagnosis generation have been suggested, there are limited reports of implementation in this domain.17,18,19,21,22,23,24,25,26,27,28,29,30,31

미국 의사 면허 시험 2단계 임상 기술 시험에서 메모를 평가하기 위해 의사 위원회가 미리 결정한 메모에서 필수 필수 개념의 존재를 감지하는 NLP 기반 평가가 개발되었습니다.22,23 유사하게, Cianciolo 등은 표준화된 환자 진료에 대한 의대생 메모에 점수를 매기기 위해 NLP 기반 ML 모델을 개발했습니다.31 감별 진단에 대한 피드백을 제공하기 위해 Khumrin 등은 문서화된 임상 관찰을 기반으로 진단 가능성을 예측하는 ML 모델을 개발했습니다.24,25 이 모델은 하나의 주요 관심사(복통)에 초점을 맞추고 5가지 진단 가능성을 예측했습니다. 표준화된 사례 또는 고정된 주요 관심사 집합에서 CR을 평가하기 위해 NLP와 ML을 적용하면, 진단적으로 다양한 임상 환경에서는 적용되지 않는 예상 언어를 미리 지정할 수 있습니다. 
To evaluate notes in the United States Medical Licensing Examination Step 2 Clinical Skills Exam, an NLP–based assessment was developed to detect presence of essential required concepts in notes pre-determined by a committee of physicians.22,23 Similarly, Cianciolo et al. developed an NLP–based ML model to score medical student notes for standardized patient encounters.31 To give feedback on differential diagnosis, Khumrin et al. developed a ML model that predicts the likelihood of a diagnosis on the basis of documented clinical observations.24,25 Their model focused on one chief concern (abdominal pain) and predicted the likelihood of five diagnoses. These applications of NLP and ML to assess CR in standardized cases or a fixed set of chief concerns permit a preset designation of expected language which would not be applicable in the diagnostically varied clinical environment.

우리가 아는 한, 임상 환경에서 CR 문서를 자동으로 분류한 연구는 없습니다. 이 연구에서는 레지던트 입원 기록에 저품질 또는 고품질 CR 문서가 있는지 분류하는 ML 모델을 개발하고 Kane의 타당성 프레임워크를 사용하여 초기 타당성 증거를 수집했습니다.32 
To our knowledge, no studies have described automated classification of CR documentation in the clinical environment. In this study, we developed a ML model that classifies whether a resident admission note has low- or high-quality CR documentation and collected initial validity evidence using Kane’s validity framework.32

방법
METHOD

설정 및 연구 모집단
Setting and Study Population

뉴욕시 소재 한 학술 의료 센터의 통합 EHR(에픽 시스템즈, 위스콘신주 베로나)에서 두 가지 노트 세트가 검색되었습니다. 

  • (1) 2014년 7월부터 2019년 6월까지 내과(IM) 레지던트 및 하위 전문과 펠로우의 입원 기록으로 구성된 ML 개발 데이터 세트
  • (2) 2019년 7월부터 2020년 3월까지 레지던트 입원 기록으로 구성된 인간 검증 및 후향적 데이터 분석 데이터 세트

이 연구는 뉴욕대학교 그로스만 의과대학 기관윤리심의위원회의 승인을 받았습니다. 
Two distinct note sets were retrieved from an integrated EHR (Epic Systems, Verona, WI) at one academic medical center in New York City:

  • (1) ML development dataset comprised of internal medicine (IM) residents’ and subspecialty fellows’ admission notes from July 2014 to June 2019 and
  • (2) human validation and retrospective data analysis dataset comprised of resident admission notes from July 2019 to March 2020.

The study was approved by the NYU Grossman School of Medicine institutional review board.

인간 평가(개정된 DEA 평가)
Human Rating (Revised-DEA Assessment)

지도 머신러닝 모델을 생성하려면 먼저 신뢰할 수 있는 골드 스탠다드에 따라 데이터에 레이블을 지정해야 합니다(그림 1).33 저희는 CR 문서 품질에 대한 골드 스탠다드로 Revised-IDEA 도구의 DEA 구성 요소(이하 Revised-DEA 도구)를 사용했습니다. Revised-IDEA 도구4개의 영역(해석적 요약, 감별 진단, 추론 설명, 대체 진단 설명)에 걸쳐 검증된 노트 평가 도구로, 총점 범위는 0~10점, Revised-DEA 하위 점수는 0~6점입니다.34 해석적 요약은 CR의 중요한 측면이지만, 고품질 해석적 요약을 만드는 구성 요소가 너무 복잡하여 초기 ML 개발 단계에서 포착하기 어렵기 때문에, 이 단계에서는 이를 통합하지 않았습니다.  
To create a supervised ML model, data must first be labeled by a reliable gold standard (Fig. 1).33 We used the DEA component (the Revised-DEA tool) of the Revised-IDEA tool as our gold standard for CR documentation quality. The Revised-IDEA tool is a validated note-rating instrument across four domains (Interpretive summary, Differential diagnosis, Explanation of reasoning, Alternative diagnoses explained) with a total score range of 0–10 for the Revised-IDEA score and 0–6 for the Revised-DEA subscore.34 While the interpretive summary is an important aspect of CR, we did not incorporate it at this stage as the components that make for a high-quality interpretive summary were too complex to capture for the initial ML development.

CR 전문 지식을 갖춘 4명의 의사(IM 치프 레지던트, 호스피탈리스트 2명, 심장 전문의(IM 레지던트 프로그램의 수석 부프로그램 책임자)가 Revised-DEA 도구를 사용하여 입원 기록을 검토했습니다. 도구의 특정 앵커를 고려할 때 최소한의 교육만 필요했습니다.34 Kane의 타당도 프레임워크는 채점, 일반화, 추정, 함의의 네 가지 영역에서 타당도 논증의 추론을 식별합니다(그림 2).32 평가자 선정 및 교육 과정은 Kane 프레임워크의 점수 추론에 대한 타당성 증거를 제공했습니다. 

Four physicians with CR expertise (an IM chief resident, two hospitalists, and a cardiologist (who was the senior associate program director for the IM residency program)) reviewed admission notes using the Revised-DEA tool. Minimal training was required given the tool’s specific anchors.34 Kane’s validity framework identifies inferences in the validity argument in four domains: scoring, generalization, extrapolation, and implications (Fig. 2).32 The process of rater selection and training provided validity evidence for the scoring inference of Kane’s framework.

ML 개발 데이터세트 노트는 비식별화되었고, 의사 패널이 평가 및 계획 섹션을 평가했습니다. 처음에는 무작위로 노트를 선택했지만, Revised-DEA 도구에서 평가한 고품질 노트의 수가 적었습니다. 따라서 의도적인 샘플링이 필요했습니다. 1차 평가에서 높은 점수를 받은 펠로우의 노트와 레지던트의 추가 노트를 평가하여 최종 ML 개발 데이터세트에 충분한 수의 고품질 노트를 확보했습니다(최종 데이터세트에서 n = 414개 노트). 평가자 간 신뢰도는 먼저 3명의 평가자가 414개의 노트 중 10%를 평가하고, 나머지는 한 명의 평가자가 평가함으로써 확립되었습니다. 의도적인 샘플링 과정과 평가자 간 신뢰도는 케인 프레임워크의 일반화 추론에 대한 타당성 증거를 제공했습니다(그림 2).

The ML development dataset notes were deidentified, and the assessment and plan sections rated by the panel of physicians. At first, notes were randomly selected; however, the number of high-quality notes as rated by the Revised-DEA tool was low. Therefore, purposive sampling was required: notes from fellows and additional notes from residents, with high-quality notes in the first round of rating, were rated to ensure a sufficient number of high-quality notes in the final ML development dataset (n = 414 notes in the final dataset). Interrater reliability was established by first rating 10% of the 414 notes by three raters; the remainder was rated by a single rater. The process of purposive sampling and the interrater reliability provided validity evidence for the generalization inference of Kane’s framework (Fig. 2).

고품질 CR에 대한 수정-DEA 커트라인은 심사위원이 최소 및 최대 실패율과 허용 가능한 합격 점수를 결정하여 최종 합격 커트라인 점수를 결정하는 규범 참조 기준과 기준 참조 기준을 조합하여 사용하는 Hofstee 기준 설정에 의해 결정되었습니다.35 패널의 각 의사는 최소 허용 가능 및 최대 허용 가능한 수정-DEA 커트라인 점수 및 실패율을 결정했습니다. Revised-DEA 점수가 3점 이상(6점 만점)이면 높은 품질로 간주되었습니다(그림 3). 이 표준 설정 프로세스는 케인 프레임워크의 함의 추론에 대한 타당성 증거를 제공했습니다(그림 2). 

Revised-DEA cutoff for high-quality CR was determined by Hofstee standard setting which utilizes a combination of norm-referenced and criterion-referenced standards where judges decide on the minimum and maximum failure rates and acceptable pass mark to determine the final passing cutoff score.35 Each of the physicians on the panel determined the minimally acceptable and maximally acceptable Revised-DEA cutoff score and failure rate. A Revised-DEA score of ≥ 3 (out of 6) was deemed high quality (Fig. 3). This standard setting process provided validity evidence for the implication inference of Kane’s framework (Fig. 2).

노트 전처리
Note Preprocessing

ML 개발 데이터 세트의 문서 패턴을 검토한 결과, 노트 작성 구조와 길이가 다양하다는 사실을 발견했습니다. 우리는 [주요 문제에 대한 감별진단을 반영하는 평가 및 계획의 부분]을 [리드 및 대체 진단에 대한 설명]과 분리하려고 노력했습니다. 이러한 섹션은 일반적으로 시작 키워드(예: '~을 보였다', '입원하였다')로 시작하고 구분 기호(예: 두 번째 '#'[해시 기호]) 또는 끝 키워드(예: 'ppx', '코드 상태')로 끝맺습니다. 시작 및 종료 키워드의 전체 목록은 두 명의 검토자가 결정했습니다(부록 1). 평가에서 원하는 부분으로 메모를 잘라내기 위해 총 5가지 방법이 개발되었습니다(부록 2).
Review of documentation patterns in the ML development dataset revealed variability in note writing structure and length. We sought to isolate the portion of the assessment and plan reflecting the differential for the main problem with the explanation of the lead and alternative diagnoses. Such sections typically began with a start keyword (e.g., “presents with,” “admitted”) and terminated with either a delimiter (e.g., second “#” [hash sign]) or an end keyword (e.g., “ppx,” “code status”). A complete list of start and end keywords was determined by two human reviewers (Appendix 1). A total of five methods were developed to truncate the notes to the desired portion of the assessment (Appendix 2).

피쳐 엔지니어링
Feature Engineering

[잘린 임상 노트]는 (규칙 기반 및 ML 기술을 사용하여 구조화되지 않은 임상 텍스트에서 정보를 추출하는 오픈 소스 NLP 시스템인) cTAKES 4.0.0에서 처리되었습니다.36 cTAKES는 해부학적 부위, 약물, 질병/장애, 징후/증상, 영상 검사 등의 [명명된 개체]를 동일한 의미를 가진 개념에 대한 개념 고유 식별자(CUI)를 사용하여 식별합니다. 또한 두 명의 의사가 [ML 개발 데이터세트]를 검토하여 CR을 나타내는 단어와 구문(즉, 우선순위가 지정된 감별 진단을 전달할 때 일반적으로 결합어로 사용되는 단어와 구문) 목록을 선별했습니다. 이 검토를 통해 '가장 가능성이 높은', '일치하는', '높은 의심' 등의 총 91개의 단어나 문구가 도출되었습니다(부록 3).
Truncated clinical notes were processed in cTAKES 4.0.0, an open-source NLP system that uses rule-based and ML techniques to extract information from unstructured clinical text.36 cTAKES identifies named entities such as anatomical sites, drugs, diseases/disorders, signs/symptoms, and imaging tests—each with a concept unique identifier (CUI) for concepts with the same meaning. Additionally, two physicians reviewed the ML development dataset and curated a list of words and phrases that conveyed CR (i.e., those typically used as a conjunction in communicating prioritized differential diagnoses). This review yielded 91 words or phrases in total, such as “most likely,” “consistent with,” and “high suspicion” (Appendix 3).

용어 빈도 역 문서 빈도(분석 대상 텍스트에서 특정 단어나 구가 얼마나 중요한지를 나타내는 데 사용되는 NLP 기법)를 통해 ML 모델에 대한 입력 변수(주요 관심사, 잘린 텍스트 길이, 해부학적 부위 언급, 약물 언급, 시술 언급, 원시 텍스트의 숫자 표현 등이)를 여러 번 반복하여 테스트했습니다. 그러나 이러한 입력 변수를 사용하면 다음을 최종적으로 선택한 3가지 변수를 사용한 모델보다 성능이 더 떨어졌습니다.

  • (1) 고유한 CUI를 가진 질병/장애 명명 개체의 수,
  • (2) CR을 전달한 단어나 구의 수,
  • (3) 질병/장애로 명명된 개체에서 5단어 범위 내에서 CR을 전달한 단어나 구의 개수로, 이러한 단어나 구가 CR을 전달하기 위해 사용되었을 가능성이 높은 시기를 구분하기 위한 것입니다.

종속 변수는 CR 노트 품질로, 사람의 평가에 따라 낮은 품질(Revised-DEA 점수 0~2점) 또는 높은 품질(Revised-DEA 점수 3~6점)로 이분화했습니다.
There were multiple iterations of input variables tested for the ML models including chief concern, truncated text length, anatomical site mention, medication mention, procedure mention, and numerical representations of the raw text via term frequency inverse document frequency (an NLP technique used to represent how important a specific word or phrase is in the text being analyzed). However, utilizing these input variables yielded worse performance than the models with the 3 finally selected variables:

  • (1) counts of disease/disorder named entities with unique CUIs;
  • (2) counts of words or phrases that conveyed CR; and
  • (3) counts of words or phrases that conveyed CR within a 5-word window frame from a disease/disorder named entity, to differentiate when these words or phrases were likely used to convey CR.

The dependent variable was CR note quality, binarized as low quality (Revised-DEA score 0–2) or high quality (Revised-DEA score 3–6) as determined by the human rating.

모델 선택 및 평가
Model Selection and Evaluation

ML 개발 데이터 세트는 ML 모델 개발의 표준 절차에 따라 훈련 데이터 세트(71%, 294개 노트)와 검증 데이터 세트(29%, 120개 노트)로 구분되었습니다. 모델 훈련은 훈련 데이터세트에서 반복적으로 수행된 다음, 과적합을 방지하고 일반화 가능성을 높이기 위해 이전에 본 적이 없는 검증 데이터세트에서 모델 성능을 테스트합니다.37 노트 품질을 분류하기 위해 세 가지 종류의 모델을 테스트했습니다:

  • (1) 로지스틱 회귀(해석 가능성, 즉 분류 결정을 이해하기 쉽도록),
  • (2) 단순 신경망(보다 복잡한 비선형 패턴을 학습하기 위한 다층 퍼셉트론),
  • (3) 앙상블 모델(예측 정확도는 높지만 해석 가능성이 떨어지는 랜덤 포레스트 및 극한 그라데이션 부스팅).

The ML development dataset was divided into a training dataset (71%, 294 notes) and validation dataset (29%, 120 notes)—standard procedure for ML model development. Model training occurs iteratively on the training dataset, then model performance is tested on the never-before-seen validation dataset, to counter overfitting and promote generalizability.37 Three classes of models were tested to classify note quality:

  • (1) logistic regression (for interpretability, i.e., ease of comprehending classification decisions);
  • (2) simple neural network (multilayer perceptron to learn more complex nonlinear patterns); and
  • (3) ensemble models (random forest and extreme gradient boosting for high predictive accuracy but reduced interpretability).

모델 출력은 0과 1 사이의 확률로 제공되었으며, 0.50을 기본 컷오프 값으로 설정했습니다(0.50 이상 고품질, 0.50 미만 저품질). 모델 성능은 이진 분류 작업에 대한 표준 지표인 수신기 작동 특성 곡선 아래 면적(AUROC)(컷오프 값에 관계없이 모델이 클래스를 얼마나 잘 구분하는지), 평균 정밀도(또는 양성 예측값, PPV) 및 정확도(둘 다 컷오프 값에 따라 달라짐)를 사용하여 평가되었습니다.38
Model outputs were provided as probabilities (ranging between 0 and 1), with 0.50 as the default cutoff value (> 0.50 high quality and < 0.50 low quality). Model performance was evaluated using standard metrics for binary classification tasks: area under the receiver operating characteristic curve (AUROC) (how good a model distinguishes between classes regardless of cutoff value), and average precision (or positive predictive value, PPV) and accuracy (both dependent on the cutoff value).38

인간 검증 및 후향적 데이터 세트
Human Validation and Retrospective Dataset

이 모델은 새로운 개별 입원 기록 세트(인간 검증 및 후향적 데이터 세트)에 대해 실행되었습니다(n = 9591). 인적 검증의 경우, 의사 검토자 중 한 명이 ML 결과를 보지 못한 채 Revised-DEA 도구를 사용하여 무작위로 선정된 205개의 메모를 평가했습니다. 초기 인간 평가 단계에서 이미 평가자 간 신뢰성이 확립되었기 때문에 이 단계는 한 명의 평가자만 수행했습니다. Revised-DEA 점수와 ML 모델 결과는 Cohen의 카파를 사용하여 비교했습니다. 이 후향적 데이터 세트를 사용하여 ML 모델의 기본 확률 컷오프인 0.5를 새로운 임계값으로 수정하여 민감도를 낮추면서 모델의 특이도를 최대화했습니다. 본적 없는 새로운 데이터에 대해 0.55의 확률 컷오프가 선택되어 70%의 민감도와 80%의 PPV를 목표로 삼았습니다.
The model was run on a new set of distinct admission notes (the human validation and retrospective dataset) (n = 9591). For human validation, one of the physician reviewers, blinded to ML output, rated a random selection of 205 of these notes using the Revised-DEA tool. Only one reviewer performed this round as interrater reliability had already been established in the initial human rating phase. The Revised-DEA score and the ML model output were compared using Cohen’s kappa. Using this retrospective dataset, the default probability cutoff of 0.5 for the ML model was modified to a new threshold to maximize the model’s specificity at a small cost to sensitivity. A probability cutoff of 0.55 was selected for new, unseen data to target a sensitivity of 70% and a PPV of 80%.

데이터 분석
Data Analysis

모든 데이터 전처리, 모델링 및 시각화는 Python(버전 3.6.6, Python Software Foundation)의 Anaconda(버전 5.3.0, Anaconda Inc., 텍사스주 오스틴) 배포판을 사용하여 수행되었습니다. 이 연구에 사용된 라이브러리에는 판다(pandas), 넘피(numpy), 사이킷-런(scikit-learn), 매트플롯리브(matplotlib), xgboost 및 해당 라이브러리 종속성이 포함되었습니다. 
All data preprocessing, modeling, and visualization were performed using the Anaconda (version 5.3.0; Anaconda Inc., Austin, TX) distribution of Python (version 3.6.6; Python Software Foundation, https://www.python.org). Libraries utilized in this study included pandas, numpy, scikit-learn, matplotlib, xgboost, and their respective library dependencies.

설명적 통계, 클래스 내 상관관계, 코헨의 카파를 포함한 비식별화된 데이터의 분석은 SPSS v25(미국 일리노이주 시카고)를 사용하여 완료되었습니다. 선형 추세에 대한 맨텔-헨젤 카이제곱 검정을 사용해 졸업 연도(PGY)와 노트 품질 간의 관계를 조사했습니다.
Analysis of deidentified data including descriptive statistics, intraclass correlation, and Cohen’s kappa was completed with SPSS v25 (Chicago, IL, USA). The Mantel-Haenszel chi-square test for linear trend was used to examine the relationship between post-graduate year (PGY) and note quality.

결과
RESULTS

인적 평가
Human Rating

세 명의 평가자가 채점한 노트 간의 클래스 내 상관관계는 0.84(95% CI 0.74-0.90)였습니다. ML 개발 데이터세트에서 Revised-DEA 등급을 기준으로 195개(47%)의 노트가 높은 품질, 219개(53%)의 노트가 낮은 품질로 분류되었습니다.
Intraclass correlation was 0.84 (95% CI 0.74–0.90) among notes scored by three raters. In the ML development dataset, 195 notes (47%) were high quality and 219 notes (53%) were low quality by Revised-DEA rating.

모델 성능
Model Performance

테스트한 모델 중 로지스틱 회귀 모델과 랜덤 포레스트 모델의 성능 측정값이 가장 높았습니다(표 1). 로지스틱 회귀 모델은 AUROC가 0.88, PPV가 0.68, 평균 정확도가 0.79로 우수한 해석 가능성을 고려하여 선택되었습니다.39
Among the models tested, logistic regression and random forest models had the highest performance measures (Table 1). The logistic regression model with an AUROC of 0.88, a PPV of 0.68, and an average accuracy of 0.79 was selected given its superior interpretability.39

인간 검증
Human Validation

205개의 보이지 않는 검증 세트에서 인간과 ML 평가 간의 평가자 간 신뢰도에 대한 코헨의 카파는 0.67로, 케인의 프레임워크에서 외삽 타당성 증거를 제공했습니다(그림 2).
Cohen’s kappa was 0.67 for interrater reliability between human and ML ratings in the unseen validation set of 205 notes, thus providing extrapolation validity evidence in Kane’s framework (Fig. 2).

후향적 데이터 세트
Retrospective Dataset

후향적 데이터세트에는 295명의 레지던트가 작성한 9591개의 입원 노트(레지던트당 평균 32.5개, 범위는 1-245개)가 있었으며, 이 중 31.1%의 노트가 ML 모델에 의해 높은 품질로 분류되었습니다. 노트 품질은 PGY별로 27.0%(PGY1)에서 31.0%(PGY2)로, 39.0%(PGY3)로 증가했습니다(맨텔-헨젤 테스트 추세 p < .001). 후향적 데이터 세트에는 50가지가 넘는 주요 우려 사항이 있었습니다. 가장 흔한 것은 호흡곤란(11.0%), 기타(7.5%), 상세불명(6.0%), 흉통(6.0%), 복통(4.0%), 낙상(3.0%), 정신 상태 변화(2.0%), 발열(2.0%), 쇠약(2.0%)이었으며 나머지 주요 우려 사항은 각각 2% 미만으로 나타났습니다. 이 대규모 후향적 데이터 세트에 포함된 광범위한 주요 우려 사항과 눈에 띄는 전공의들은 케인 프레임워크의 일반화 추론에 대한 추가적인 타당성 증거를 제공했습니다(그림 2).
In the retrospective dataset, there were 9591 admission notes written by 295 distinct residents (mean 32.5 notes per resident, range 1–245); 31.1% of the notes were classified as high quality by the ML model. Note quality increased by PGY from 27.0% (PGY1) to 31.0% (PGY2) to 39.0% (PGY3) (Mantel-Haenszel test of trend p < .001). There were over 50 chief concerns in the retrospective dataset. The most common were shortness of breath (11.0%), other (7.5%), unspecified (6.0%), chest pain (6.0%), abdominal pain (4.0%), fall (3.0%), altered mental status (2.0%), fever (2.0%), and weakness (2.0%); the remainder of chief concerns occurred < 2% each. The breadth of chief concerns and distinct residents included in this large retrospective dataset provided further validity evidence for the generalization inference of Kane’s framework (Fig. 2).

토론
DISCUSSION

우리는 레지던트 입원 기록에서 CR 문서 품질을 자동으로 분류하기 위해 Kane의 프레임워크를 사용하여 NLP 기반 ML 모델에 대한 타당성 증거를 개발하고 수집했습니다. 이 연구는 ML과 NLP를 사용하여 표준화된 사례에서 CR 문서를 평가하는 이전 연구를 뛰어넘는 것으로, 우리의 모델이 광범위한 주요 관심사가 있는 임상 환경에 적용되고 사전 설정된 임상 정보 목록에 의존하지 않기 때문입니다22,23,24,25,31 우리가 아는 한 이러한 연구는 처음입니다. 저희 기관의 CR 문서화 품질은 전반적으로 낮은 수준이었으며, 이는 널리 보고된 것과 유사했습니다.2,3,4,5 295명의 레지던트가 작성한 후향적 데이터 세트의 9591개 메모 중 31.1%만이 고품질의 CR 문서화를 보여주었습니다. 수련이 더 진행된 레지던트일수록 더 높은 품질의 CR 문서를 보유하고 있었습니다. ML 개발 데이터세트에는 의도적인 샘플링이 사용되었기 때문에 고품질 노트의 비율이 더 높았습니다. 
We developed and collected validity evidence with Kane’s framework for an NLP–based ML model to automatically classify CR documentation quality in resident admission notes. This study goes beyond prior work using ML and NLP to assess CR documentation in standardized cases as our model is applied in the clinical environment with a wide range of chief concerns and is not dependent on a preset list of clinical information22,23,24,25,31—the first study to our knowledge to do so. We found at our institution low overall levels of CR documentation quality, similar to what has been widely reported.2,3,4,5 Only 31.1% of the 9591 notes in the retrospective dataset from 295 residents demonstrated high-quality CR documentation. Residents further along in training did have higher-quality CR documentation. The ML development dataset had a higher proportion of high-quality notes owing to the purposive sampling used.

우리는 케인 프레임워크의 네 가지 영역 모두에서 이 새로운 평가 도구에 대한 타당성 증거를 수집했습니다.

  • 채점(평가자가 어떻게 점수를 부여하는가)에 대한 증거
    • 평가자 선정 및 교육에 대한 설명
  • 일반화(평가가 이론적 테스트 세계에서 가능한 모든 항목의 성과를 대표한다는 것을 입증)에 대한 증거
    • 의도적 샘플링 과정,
    • 인간 평가자 간 신뢰도,
    • 광범위한 주요 관심사와 레지던트를 대표하는 후향적 데이터 세트의 대규모 표본 규모
  • 외삽(이론적 테스트 세계에서의 성과는 관련 구성에 대한 실제 세계의 성과를 반영)에 대한 증거는
    • ML 모델 결과물이 동일한 현상에 대한 인간 평가 참조 표준 측정치(Revised-DEA 점수)와 얼마나 잘 상관관계가 있는지, 그리고
    • 전문가와 초보자를 비교한 결과, 교육이 많이 진행된 레지던트가 더 높은 품질의 CR 문서를 작성했다는 사실에서 알 수 있듯이, 마지막으로 전문가와 초보자를 비교한 결과입니다
  • 함의(평가 데이터가 사용되는 방법)에 대한 증거는
    • 고품질 CR 문서의 컷오프 점수를 결정하는 Hofstee 표준 설정에 대한 

We collected validity evidence for this novel assessment tool in all four domains of Kane’s framework. We provided

  • evidence on scoring (how an assessor gives a single score) with
    • the description of rater selection and training;
  • evidence on generalization (demonstrating the assessment is representative of performance on all possible items in a theoretical test universe) with
    • the process of purposive sampling,
    • interrater reliability among human raters, and
    • the large sample size of the retrospective dataset with a wide breadth of chief concerns and residents represented;
  • evidence on extrapolation (performance in the theoretical test universe reflects performance in the real world on related constructs) 
    • with how well the ML model output correlated with a human rating reference-standard measure of the same phenomenon (the Revised-DEA score) and
    • with expert-novice comparison as evidenced by the fact that residents further along in training had higher-quality CR documentation; and lastly,
  • evidence on implications (how the assessment data will be used) with
    • Hofstee standard setting to determine cutoff scores for high-quality CR documentation.32

우리는 ACGME 하위 역량 대인관계 및 의사소통 기술 3(건강 기록의 적절한 활용 및 작성40)과 같은 다른 관련 구성 요소와의 관계를 포함하여 타당성 증거를 계속 수집하고 시행의 영향을 연구할 것입니다. 그러나 평가의 의도가 형성적 피드백이라는 점을 고려할 때, 시범 시행을 보증하기에 충분한 타당성 증거가 수집되었다고 판단하여32 대화형 대시보드에 표시되는 ML 모델 출력을 사용하여 우리 기관의 IM 레지던트에게 피드백을 제공하기 시작했습니다(그림 4). EHR에서 입원 기록을 매일 추출하여 ML 모델로 분석하고 대시보드에 시각화하여 출력합니다. 2개월 동안 2주 야간 로테이션(입원 기록의 대부분이 작성되는 시기)의 중간에 이 대시보드를 통해 레지던트에게 중간 피드백을 제공하는 시범 서비스를 실시했습니다. 레지던트들은 고품질 CR 문서의 중요성과 (개정된-IDEA 프레임워크에 대한) 공유된 정신 모델을 개괄적으로 설명하는 간단한 PowerPoint 프레젠테이션과 자신의 데이터를 보는 방법에 대한 지침이 포함된 대시보드 개요가 포함된 소개 이메일을 받았습니다. 이 교육이 시행되기 전에는 레지던트들에게 개정-IDEA 프레임워크나 CR 문서화에 대한 기타 명시적인 커리큘럼을 교육하지 않았습니다. 레지던트들은 Revised-IDEA 프레임워크를 배우고 노트에 대한 피드백을 받는 것이 도움이 되었다고 보고했습니다. 그러나 이 대시보드를 교수진과 함께 사용하고 더 구체적인 피드백을 ML 모델에 통합하는 것이 향후 반복 작업의 목표라는 일관된 개선 주제가 있었습니다. 

We will continue to collect validity evidence including relation to other related constructs such as ACGME sub-competency interpersonal and communication skills 3 (Appropriate utilization and completion of health records40) and studying the impact of implementation. However, given the intent of the assessment is for formative feedback, we believe sufficient validity evidence has been gathered to warrant pilot implementation32 and have begun providing feedback to IM residents at our institution using ML model output displayed on an interactive dashboard (Fig. 4). Admission notes from the EHR are extracted daily, analyzed by the ML model, and output visualized on the dashboard. For a 2-month period, we piloted providing residents mid-block feedback with this dashboard halfway through their 2-week night rotation (when the majority of admission notes are written). Residents received an introductory email including a brief PowerPoint presentation overviewing the importance of and a shared mental model for (the Revised-IDEA framework) high-quality CR documentation and an overview of the dashboard with instructions of how to view their own data. Prior to this implementation, residents were not taught the Revised-IDEA framework or other explicit curriculum on CR documentation. The residents reported learning the Revised-IDEA framework and receiving feedback on their notes were helpful. However, a consistent theme for improvement was to use this dashboard with faculty and to incorporate more specific feedback into the ML model—both goals for future iterations.

다음 단계는 이 대시보드를 사용하여 CR 문서에 대한 피드백을 제공하도록 교수진을 교육하는 것입니다. 우리는 피드백 세션을 용이하게 하기 위해 개별 및 전체 레지던트 보기가 포함된 대시보드의 교수용 보기화면를 개발했습니다(그림 5). 또한 이 대시보드는 프로그램 리더십이 이 데이터에 액세스할 수 있도록 하여 평가 프로그램에 통합할 수 있습니다. 밀러 피라미드의 '수행' 수준에서 CR에 대한 작업장 기반 평가는 역량 개발에 필수적입니다.41 CR 평가의 과제 중 하나는 상황 특이성(상황의 영향이 CR 프로세스에 미치는 영향) 문제를 고려할 때, 광범위한 사례 샘플링이 필요하다는 것입니다.42 ML 모델을 사용하여 평가에 자동화된 프로세스를 사용하면 다양한 사례에 걸쳐 많은 수의 평가를 신속하게 제공할 수 있으므로 이러한 문제를 극복하는 혁신적인 솔루션이 될 수 있습니다. 마지막으로, 이 ML 모델은 레지던트 개인에게 의미 있는 데이터를 제공하는 것 외에도 커리큘럼 또는 시스템 변경에 대한 정보를 제공하는 데 사용될 수 있습니다. ML 모델은 수동 차트 검토나 기타 평가자 기반 평가(예: 마일스톤)로는 달성할 수 없는 레지던트의 CR 문서화 관행에 대한 대규모 데이터 세트를 즉각적으로 생성할 수 있습니다. 이러한 데이터 세트에서 패턴을 검토하여 부족한 부분을 파악하여 커리큘럼 또는 시스템 변경(예: CR 문서화 커리큘럼 또는 EHR 템플릿 변경)을 알리는 데 도움을 줄 계획이며, 이는 의학교육에서 ML을 혁신적으로 사용하는 것입니다.16 

Next steps are to train faculty to use this dashboard to provide feedback on CR documentation. We have developed a faculty-facing view of the dashboard with individual and aggregate resident views to facilitate feedback sessions (Fig. 5). This dashboard also provides program leadership access to this data which can be integrated into our assessment program. Workplace-based assessment of CR at the “Does” level of Miller’s pyramid is essential to developing competence.41 One of the challenges of CR assessment is it requires a broad sampling of cases given the issue of context specificity (the impact of context on the CR process).42 Using automated processes for assessment with a ML model is an innovative solution to overcome these challenges as it can rapidly provide a large number of assessments across a range of cases. Lastly, in addition to providing meaningful data to the individual resident, this ML model could also be used to inform curricular or systems change. The ML model can instantaneously create large datasets on residents’ CR documentation practices that cannot be achieved with manual chart review or other human-rater-based assessments (e.g., milestones). We plan to review these datasets for patterns to help identify areas of deficiency to inform curricular or systems changes (such as CR documentation curriculum or EHR template changes), which would be an innovative use of ML in medical education.16

한계
LIMITATIONS

ML 모델은 민감도 70%, PPV 80%, 코헨의 카파 0.67로 성능이 뛰어나지만 불완전합니다. 또한, 현재 ML 모델은 노트를 이진 방식으로 분류하지만, 가장 효과적인 피드백은 구체적이고 실행 가능한 피드백입니다.43 또한, ML 모델은 Revised-IDEA 도구의 초기 검증에 포함되었던 해석적 요약을 제외합니다. 그러나 검증 연구에서 D, E, A 항목 간의 일치도는 0.69, I, D, E, A 항목 간의 일치도는 0.53으로 더 높은 것으로 나타났습니다.34 이는 DEA 구성요소가 해석적 요약과는 다른 CR 문서의 측면(감별 진단의 우선순위 지정 및 정당화)을 측정하고 있음을 시사하며,44 따라서 ML 모델 개발에서 DEA 구성요소를 사용하는 것을 뒷받침합니다. 모델 성능을 개선하고 해석 요약을 통합하는 모델을 개발하기 위한 작업이 진행 중입니다. 
The ML model was high performing but imperfect, with a sensitivity of 70%, PPV of 80%, and Cohen’s kappa of 0.67. Furthermore, the current ML model classifies notes in a binary fashion; however, the most effective feedback is specific and actionable.43 Additionally, the ML model excludes the interpretive summary which was included in the initial validation of the Revised-IDEA tool. However, we did find in the validation study higher agreement between the D, E, and A items with a Cronbach alpha of 0.69 vs Cronbach alpha of 0.53 between the I, D, E, and A items.34 This suggests that the DEA component is measuring an aspect of CR documentation (prioritizing and justifying a differential diagnosis) distinct from the interpretive summary,44 thus supporting use of the DEA component in the ML model development. Work is ongoing to improve upon the model performance and develop a model incorporating the interpretive summary.

ML 모델은 CR이 수행되었는지 또는 정확한지 여부는 평가하지 않으며 문서화되었는지 여부만 평가합니다. 레지던트는 문서화하지 못한 고품질 CR을 보유하거나 반대로 임상적으로 부정확한 고품질 CR을 문서화할 수 있습니다. 그러나 CR 문서화는 필수적인 기술이며, 레지던트는 졸업 시 "문서에서 CR을 효과적으로 전달할 수 있는 역량"을 갖추도록 기대됩니다.40 
The ML model does not assess whether CR was performed or was accurate, only if it was documented. Residents may possess high-quality CR that they failed to document or conversely documented high-quality CR that was clinically inaccurate. However, CR documentation is an essential skill and residents are expected to achieve the competency “to demonstrate effective communication of CR in their documentation” upon graduation.40

마지막으로, EHR의 복잡하고 다양한 특성과 이 기술을 구현하는 데 필요한 리소스를 고려할 때 일반화 가능성에 대한 몇 가지 우려가 있습니다. 400개 이상의 라벨이 지정된 데이터 세트로 모델을 학습시키고 다양한 주요 관심사가 포함된 205개의 다른 데이터로 검증했지만, 임상 환경에는 수많은 주요 관심사가 있을 수 있습니다. 예상되는 실제 성능을 확인하기 위해 지속적인 전향적 검증을 수행할 계획입니다.45 또한 다른 레지던트 프로그램에서 이 기술을 구현할 수 있도록 ML 모델 아키텍처를 공개 도메인에서 사용할 수 있도록 하는 프로세스를 진행 중이며 구현을 지원하기 위한 협업에 열려 있습니다. 
Lastly, there are some concerns about generalizability given the complex and varied nature of the EHR and the resources required to implement this technology. While we trained the model with a labeled dataset of over 400 notes and validated with another 205 notes with a wide range of chief concerns, there are numerous possible chief concerns in the clinical environment. To ascertain expected real-world performance, we will plan to perform ongoing prospective validation.45 We are also working on a process to make the ML model architecture available in the public domain so other residency programs could implement this technology and are open to collaborations to assist with implementation.

결론
CONCLUSIONS

이 검증 연구는 다양한 주요 관심사에 걸쳐 임상 환경에서 레지던트 CR 문서 품질을 평가하는 데 ML과 NLP를 사용할 수 있는 가능성을 보여줍니다. 이 기술의 잠재적 사용 사례는 CR 교육 및 평가에 혁신적일 수 있습니다. 향후 방향에는 모델을 계속 반복하고, 더 많은 타당성 증거를 수집하고, 다른 프로그램에서 구현하기 위한 프로세스를 생성하는 것이 포함됩니다.
This validation study demonstrates the feasibility of using ML and NLP to assess resident CR documentation quality in the clinical environment across a wide array of chief concerns. There are many potential use cases for this technology which could be transformative for teaching and assessment of CR. Future directions will include continuing to iterate on the model, gathering further validity evidence, and generating a process for implementation at other programs.


J Gen Intern Med. 2022 Jul;37(9):2230-2238. doi: 10.1007/s11606-022-07526-0. Epub 2022 Jun 16.

Development and Validation of a Machine Learning Model for Automated Assessment of Resident Clinical Reasoning Documentation

Affiliations collapse

1NYU Grossman School of Medicine, New York, NY, USA. verity.schaye@nyulangone.org.

2NYC Health & Hospitals/Bellevue, New York, NY, USA. verity.schaye@nyulangone.org.

3NYU Grossman School of Medicine, New York, NY, USA.

4Zucker School of Medicine at Hofstra/Northwell, Hempstead, NY, USA.

5Stanford University School of Medicine, Stanford, CA, USA.

PMID: 35710676

PMCID: PMC9296753

DOI: 10.1007/s11606-022-07526-0

Free PMC article

Abstract

Background: Residents receive infrequent feedback on their clinical reasoning (CR) documentation. While machine learning (ML) and natural language processing (NLP) have been used to assess CR documentation in standardized cases, no studies have described similar use in the clinical environment.

Objective: The authors developed and validated using Kane's framework a ML model for automated assessment of CR documentation quality in residents' admission notes.

Design, participants, main measures: Internal medicine residents' and subspecialty fellows' admission notes at one medical center from July 2014 to March 2020 were extracted from the electronic health record. Using a validated CR documentation rubric, the authors rated 414 notes for the ML development dataset. Notes were truncated to isolate the relevant portion; an NLP software (cTAKES) extracted disease/disorder named entities and human review generated CR terms. The final model had three input variables and classified notes as demonstrating low- or high-quality CR documentation. The ML model was applied to a retrospective dataset (9591 notes) for human validation and data analysis. Reliability between human and ML ratings was assessed on 205 of these notes with Cohen's kappa. CR documentation quality by post-graduate year (PGY) was evaluated by the Mantel-Haenszel test of trend.

Key results: The top-performing logistic regression model had an area under the receiver operating characteristic curve of 0.88, a positive predictive value of 0.68, and an accuracy of 0.79. Cohen's kappa was 0.67. Of the 9591 notes, 31.1% demonstrated high-quality CR documentation; quality increased from 27.0% (PGY1) to 31.0% (PGY2) to 39.0% (PGY3) (p < .001 for trend). Validity evidence was collected in each domain of Kane's framework (scoring, generalization, extrapolation, and implications).

Conclusions: The authors developed and validated a high-performing ML model that classifies CR documentation quality in resident admission notes in the clinical environment-a novel application of ML and NLP with many potential use cases.

Keywords: assessment; clinical reasoning; documentation; machine learning; natural language processing.

인공지능을 활용하여 어떻게 피드백이 위임을 나타나는지 탐색하기 (Med Educ, 2022)
Exploring how feedback reflects entrustment decisions using artificial intelligence
Brian C. Gin1 | Olle ten Cate2,3 | Patricia S. O'Sullivan3,4 | Karen E. Hauer3 | Christy Boscardin3,5

 

 

1 소개
1 INTRODUCTION

임상 책임의 발전은 수련의가 의료 역량을 개발하는 데 매우 중요합니다. 이러한 발전은 위임이라는 과정을 통해 이루어지며, 임상 감독자는 수련자에게 환자 진료에 대한 책임감을 부여함으로써 수련의의 성장을 유도합니다.1, 2 이상적으로는 감독자가 수련의의 역량 수준에 맞는 적절한 수준의 독립성을 부여하는 위임 결정을 내리는 것이 좋습니다.3 그러나 교육자들이 위임의 틀을 적용함에 따라, 위임 기반 평가가 교육 목표 달성을 위한 수련의의 지침을 어떻게 제공하는지에 대한 증거는 아직 명확하지 않습니다.4-7 위임을 부여하는 임상에서 수퍼바이저의 피드백은 수련의에게 더 높은 위임을 달성하는 방법에 대한 지침을 제공하고, 이는 다시 수련의의 학습 요구를 파악할 수 있게 합니다. 수퍼바이저의 위임 결정과 수련의의 학습 요구 사이의 이러한 상호작용은 아직 경험적으로 입증되지 않았습니다. 특히, 다양한 수준의 위임이 연수생에게 제공되는 피드백의 성격 및 품질과 어떤 관련이 있는지는 불분명합니다. 위임을 부여하는 만남에서 생성된 내러티브 피드백을 조사하면 내러티브 주제와 위임 등급 간의 연관성을 발견할 수 있습니다. 이러한 연관성은 위임 결정이 감독자의 연수생 지도에 어떤 영향을 미치는지에 대한 통찰력을 제공하여 위임 기반 평가의 개발과 유용성을 더욱 지원할 수 있습니다. 
Progressions in clinical responsibility are crucial for trainees to develop medical competence. These progressions are mediated by a process called entrustment, through which clinical supervisors guide trainees' growth by granting them increasing responsibility for patient care.1, 2 Ideally, supervisors make entrustment decisions that grant a trainee an appropriate degree of independence to match their level of competence.3 Yet, as educators apply the framework of entrustment, evidence of how entrustment-based assessment provides trainees' guidance for achieving educational goals remains less clear.4-7 Supervisors' feedback from entrustment-granting clinical encounters may provide trainees with guidance on how to achieve higher entrustment, which may, in turn, capture trainees' learning needs. This interaction between supervisors' entrustment decisions and trainees' learning needs has yet to be demonstrated empirically. Particularly, it is unclear how different levels of entrustment may relate to the nature and quality of feedback provided to trainees. Examining narrative feedback generated from entrustment-granting encounters may reveal associations between narrative themes and entrustment ratings. These associations may provide insight into how making entrustment decisions affects supervisors' guidance of trainees, to further support the development and utility of entrustment-based assessments.

위임 결정은 몇 가지 주요 요인에 의해 영향을 받기 때문에 수련생이 다양한 수준의 위임을 달성할 수 있는 방법에 대한 지침도 이러한 요인에 의해 형성될 것이라고 추론할 수 있습니다.8-10 선행 연구에서는 수련생과의 피드백 상호 작용의 맥락에서가 아니라 위임에 대한 감독자의 사고 과정에 대한 해석을 조사하여 이러한 요인을 탐색했습니다.11-13 위임을 결정하는 요인에는 과제의 복잡성과제가 완료될 임상적 맥락이 포함됩니다. 대인관계 요인에는 다음이 포함됩니다.9, 14 

  • 과제에 대한 수련자의 신뢰성(역량 및 경험 포함),
  • 수퍼바이저의 신뢰 성향(위험 허용 및 지원 제공 능력 포함),
  • 수련자와 수퍼바이저의 관계(서로에 대한 상호 신뢰 포함)

Because entrustment decisions are influenced by several key factors, it could be inferred that guidance for how trainees can achieve different levels of entrustment would also be shaped by those factors.8-10 Prior research explored these factors by examining supervisors' interpretations of their own thought processes around entrustment but not in the context of feedback interactions with trainees.11-13 Entrustment-determining factors include the complexity of the task and the clinical context in which the task is to be completed. Interpersonal factors include

  • the trustworthiness of the trainee for the task (including competence and experience),
  • the supervisor's tendency to trust (including tolerance of risk and ability provide support) and
  • the relationship between the trainee and supervisor (including their mutual trust in each other).914 

이러한 요인은 주로 수퍼바이저의 이전 위임 결정에 대한 회상 또는 향후 만남에 대한 예측을 사용하여 식별되었습니다.15, 16 최근의 한 연구에서는 수퍼바이저가 위임 결정을 내린 직후(또는 '임시')15, 17에 인터뷰를 실시하여 잠재적인 회상 편향을 완화했지만,11 인터뷰 중 수퍼바이저의 자기보고가 연수생 이해관계자에 대한 책임을 반드시 반영하지 않을 수 있기 때문에 왜곡 가능성이 여전히 남아있을 수 있습니다. 대인관계 요인은 위임을 탐색하는 데 있어 감독자와 연수생 간의 의사소통의 중요성을 강조하며, 이는 Telio 등의 '교육 동맹' 연구에도 반영되어 있습니다.12, 13 피드백은 이러한 의사소통의 한 형태입니다. 피드백 상호작용은 수퍼바이저가 연수생의 신뢰도와 역량을 판단하는 방법뿐만 아니라 각 위임 등급에서 연수생의 교육적 요구를 해결하기 위해 이러한 판단을 해석하는 방법도 반영할 수 있습니다. 
These factors were largely identified using supervisors' recall of prior entrustment decisions or projections of how they would approach future encounters.15, 16 While a recent study mitigated potential recall bias, by performing interviews with supervisors shortly after in-the-moment (or ‘ad-hoc’)15, 17 entrustment decisions,11 a potential for distortion may still remain, because supervisor self-reports during interviews may not necessarily reflect their accountability to trainee stakeholders. The interpersonal factors highlight the importance of communication between supervisor and trainee in navigating entrustment, as is also reflected in Telio et al.'s work on the ‘educational alliance’.12, 13 Feedback represents one such form of communication. Feedback interactions may reflect not only how the supervisors judge trainees' trustworthiness and competence but also how they translate these judgements to address trainees' educational needs at each entrustment rating.

여러 연구에서 위임 평가가 피드백에 어떻게 반영될 수 있는지 조사했습니다. Dolan 등은 평가에 위임 언어를 포함하면 감독자가 더 낮은 점수를 선택하려는 의지가 증가하고 더 자세한 설명으로 이를 정당화할 수 있다는 사실을 발견했습니다.18 Dudek 등은 질적 연구에서 피드백의 위임 앵커피드백 품질 개선 간에 유사한 연관성을 발견했습니다.5 위임은 학습자의 과제별 및 일반적인 자질 모두에 영향을 받습니다.15 위임을 결정하는 일반적인 요인을 피드백에서 어떻게 도출할 수 있는지, 피드백 내용이 관련 위임 등급에 따라 어떻게 변하는지에 대해서는 알려진 바가 많지 않습니다. 이 흥미로운 질문에도 불구하고 내러티브 피드백 데이터를 질적으로 분석하여 학습자가 감독자 사이에서 자신의 과제 수행에 대한 신뢰를 높이는 데 필요한 요소를 이해하는 데 도움이 될 수 있는 요인을 추출하려면 많은 자원과 인적 노력이 필요할 것입니다.19 

Several studies have examined how entrustment can be captured in feedback. Dolan et al. found that including entrustment language in an assessment increased supervisors' willingness to choose lower scores and also to justify them with more written detail.18 Dudek et al. found a similar connection between entrustment anchors in feedback and improved feedback quality in a qualitative study.5 Entrustment is affected by both task-specific and general qualities of the learner.15 Not much is known about how general factors determining entrustment can be derived from feedback and how feedback content varies with associated entrustment ratings. Despite this intriguing question, it would require extensive resource and human effort to analyse narrative feedback data qualitatively to extract factors that might guide learners in understanding what it takes to enhance trust in their task execution among supervisors.19

이 연구에서는 임상실습 시기의 의대생과 임상 감독자가 함께 작성한 즉석 평가에 기록된 임시 위임 결정과 관련된 요인을 조사하고자 했습니다. 이 평가는 핵심 임상실습 기간 동안 위임을 부여하는 만남에서 생성된 피드백 내러티브의 대규모(약 3300건 관찰) 데이터 세트와 후향적 위임-감독(ES) 수준(학생이 임상 과제를 완료하는 데 필요한 감독 정도를 나타내는 수치 평가)을 생성했습니다. 설명 가능한 자연어 처리(NLP) 방법론을 개발 및 활용하여 이 내러티브를 통해 ES 수준을 예측하고, 그 예측에 사용된 주제에 대한 결과를 검토하여 감독된 임상 만남 및 관련 피드백 상호 작용 내에서 위임 요인이 어떻게 작동하는지에 대한 경험적 증거를 얻습니다. 특히 역량 기반 의학교육(CBME)을 시행하는 기관에서 유사한 데이터 세트를 생성하는 의료 커뮤니티의 다른 사람들이 위임을 탐색할 수 있도록 방법론을 자세히 설명합니다. 
In this study, we sought to investigate factors associated with ad hoc entrustment decisions as documented by in-the-moment assessments completed together by clerkship-year medical students and their clinical supervisors. Generated from entrustment-granting encounters during the core clerkships, this assessment yielded a large (~3300 observation) dataset of feedback narratives paired with retrospective entrustment-supervision (ES) levels—a numeric rating indicating how much supervision a student required to complete a clinic task. We develop and employ an explainable natural language processing (NLP) methodology to predict ES levels from this narrative and examine results for themes NLP used to make that prediction—yielding empirical evidence for how entrustment factors operate within supervised clinical encounters and their associated feedback interactions. We detail our methodologies so that others in the medical community, particularly in institutions implementing competency-based medical education (CBME), generating similar datasets can explore entrustment.

2 방법론
2 METHODS

NLP 접근 방식 개요
Overview of NLP approach

최근 인공지능(AI) 및 NLP의 발전은 대규모 내러티브 데이터 세트 분석의 한계를 극복하기 위해 적용되었습니다.20-24 NLP는 언어학, 의미론 및 AI의 한 분야로 기계 학습(ML) 알고리즘을 활용하여 언어의 의미 패턴을 인식하며 이러한 패턴은 단어, 구문, 문장, 문단 수준에서 인식할 수 있습니다.22 문장 및 단락 수준에서 NLP는 정성적 코딩에서 생성된 것과 유사한 주제를 인식하는 데 사용할 수 있으며, 기존의 정성적 분석으로는 접근하기 어려운 대규모 내러티브 데이터 세트에 적용할 수 있다는 추가적인 이점이 있습니다.25 
Recent developments in artificial intelligence (AI) and NLP have been applied to overcome limitations in analysing large narrative datasets.20-24 NLP is a branch of linguistics, semantics and AI that harnesses machine learning (ML) algorithms to recognise semantic patterns in language; these patterns can be recognised at the level of the word, syntax, sentence, paragraph and beyond.22 At the sentence and paragraph level, NLP can be used to recognise themes similar to those generated by qualitative coding—with the added advantage of application to large narrative datasets frequently inaccessible to traditional qualitative analysis.25

스탈 등은 NLP를 활용하여 다양한 위임 수준과 관련된 내러티브를 모델링했습니다.26 이들의 방법은 위임 수준별로 내러티브를 그룹화하고 각 수준에서 높은 빈도로 발견되는 키워드를 식별했습니다. 이러한 키워드는 다양한 수준의 위임과 관련된 기술에 대한 인사이트를 제공했지만 명확하게 정의할 수 있는 질적 주제나 요인을 나타내는 데는 부족했습니다. 최근 외틀레쉬(Ötleş) 등27은 NLP 알고리즘의 예측 능력을 입증하기 위해 사람이 품질을 코딩한 피드백 댓글의 하위 집합을 학습시킨 후 내러티브 피드백의 품질을 인식하도록 NLP 알고리즘을 훈련시켰습니다. 스탈 등은 더 발전된 NLP 기술을 사용하는 향후 연구에서는 위임과 관련된 주제를 자동으로 식별하고 이를 사용하여 내러티브 데이터에서 위임 수준을 예측할 수 있을 것으로 예상했습니다. 
Stahl et al. utilised NLP to model narratives associated with different entrustment levels.26 Their method grouped narratives by entrustment level and identified keywords found with high frequency at each level. These keywords gave insight into the skills relevant to different levels of entrustment but stopped short of representing clearly definable qualitative themes or factors. Demonstrating predictive capabilities of NLP algorithms, Ötleş et al.27 recently trained an NLP algorithm to recognise the quality of narrative feedback after training it on a subset of feedback comments coded by humans for their quality. Stahl et al. projected that future studies using more advanced NLP techniques would automatically be able to identify themes related to entrustment and use these to predict entrustment levels from narrative data.

내러티브 피드백을 통해 위임 등급을 예측하도록 NLP 알고리즘을 훈련시킬 수는 있지만, 알고리즘이 어떤 테마를 인식하여 예측을 했는지 이해할 수 없다면 이는 제한적으로 사용될 것입니다. 이러한 '설명 가능성'의 부족은 AI 애플리케이션에 대한 주요 비판 중 하나입니다. AI가 복잡한 작업에서 인간의 인지를 모방하는 데는 성공했지만, 그 작동 방식을 이해할 수 있는 간단한 방법이 없는 경우가 많기 때문입니다. 마찬가지로, 설명가능성의 부족은 피드백 품질에 대한 외틀쉬의 작업에도 영향을 미칩니다. NLP 알고리즘이 품질을 할당하기 위해 어떤 내러티브 특징을 인식했는지 불분명하기 때문입니다. AI 시스템이 패턴을 인식하고 의사 결정을 내리는 방식에 대한 인사이트를 얻는 것은 새롭게 떠오르는 설명 가능한 AI 분야의 주제입니다.28 NLP의 관점에서 설명 가능성을 향한 첫 번째 단계는 알고리즘이 텍스트를 기반으로 예측, 분류 또는 의사 결정을 내리기 위해 인식하는 의미론적 주제가 무엇인지 이해하는 것입니다. 
While NLP algorithms could be trained to predict entrustment ratings from narrative feedback, this would be of limited use if we could not understand what themes the algorithm recognised to make predictions. This lack of ‘explainability’ is one of the key criticisms of AI applications—although AI has succeeded in mimicking human cognition on complex tasks, there is often no straightforward way to understand how it works. Similarly, a lack of explainability affects Ötleş's work on feedback quality—it is unclear what narrative features their NLP algorithm recognised to assign quality. Gaining insight into how AI systems recognise patterns and make decisions is the subject of the emerging field of explainable AI.28 From the perspective of NLP, a first step towards explainability is understanding what semantic themes an algorithm recognises to make predictions, classifications or decisions based on text.

저희는 각 피드백 내러티브에 할당된 ES 수준과 짝을 이루는 데이터 세트를 사용했으며, 이는 의대생들이 직접 관찰한 임상 사례 중 빈도가 낮고 빈도가 높은 상황에서 생성되었습니다.29 먼저 각 피드백 내러티브에 ES 수준과 관련된 단어 또는 문구가 포함되어 있는지 여부를 조사했습니다. 이를 위해 (복잡한 인지를 가장 잘 모방할 수 있는 것으로 여겨지는 기계 언어 방법론인) 심층 신경망(DNN)을 사용했습니다. 지도* ML 접근 방식에서는, 감독자가 지정한 ES 수준이 '골드 스탠다드'(즉, 특정 내러티브와 관련된 실제 ES 수준)를 나타낸다고 가정하고, 피드백 내러티브로부터 ES 수준을 예측하도록 DNN을 훈련시켰습니다. DNN은 복잡한 작업을 수행할 수 있지만, 전통적으로 설명이 가장 어려운 AI 방법 중 하나로 여겨져 왔습니다.31, 32 우리는 훈련된 DNN을 심문interrogate하는 새로운 방법을 개발하여, DNN이 다양한 ES 레벨을 할당하도록 유도하는 특정 단어와 구문('특징features'이라고 함)을 식별함으로써 감독자의 ES 레벨 할당과 관련된 요소를 밝혀냄으로써 이 과제에 접근했습니다. 

We used a dataset of feedback narratives each paired with an assigned ES level, generated during low-stakes, high frequency directly observed clinical encounters of clerkship-year medical students.29 We first examined whether each feedback narrative contained words or phrases associated with its ES level. To do this, we employed a deep neural network (DNN)—a machine language methodology that has been viewed as the most capable of mimicking complex cognition. In a supervised* ML approach, we trained the DNN to predict ES levels from feedback narratives, assuming that the ES level assigned by the supervisors represented the ‘gold standard’ (i.e. the true ES level associated with any given narrative). While capable of complex tasks, DNNs have traditionally been seen as one of the least explainable AI methods.31, 32 We approached this challenge by developing a new method to interrogate trained DNNs, identifying specific words and phrases (termed ‘features’) that triggered the DNN's assignment of different ES levels, thus revealing the factors associated with supervisors' ES level assignment.

데이터, 참가자 및 환경
Data, participants and setting

데이터는 216명의 고유(비식별화된) 의대생에 대한 3328개의 개별 평가로 구성되었으며, 1455명의 고유(비식별화된) 임상 감독자(교수진 및 레지던트)가 관찰했습니다. 각 평가는 관찰된 단일 임상 상황에서 생성되었으며, 과제 유형, 개방형 프롬프트에 의해 생성된 피드백 서술, 과제에 대해 얼마나 많은 감독이 제공되었는지를 후향적으로 표시하기 위해 1에서 4까지의 ES 수준(수정된 O-SCORE 척도 기준)으로 구성되었습니다(상자 1).33 이러한 평가는 감독자와 의대생이 공동으로 작성하고 온라인 설문지에 감독자 또는 의대생이 입력했습니다(이 경우 학생에게 피드백을 요약하여 제출할 기회가 주어졌으며 감독자의 승인을 받아야 했습니다). 학생들은 일주일에 2번의 평가를 수집해야 했습니다(따라서 데이터는 연구 기간 동안 핵심 임상 실습을 순환한 모든 의대생을 대표합니다). 데이터는 2020년 1월부터 7월까지 미국의 4년제 학사 학위 취득 후 의과대학에서 수집되었으며, 하나의 주State에 여러 임상실습 사이트가 있습니다. 이 데이터 세트에 포함된 클리닉은 마취과, 가정의학과, 내과(3년차 클리닉 및 4년차 인턴십), 신경과, 산부인과, 소아과, 정신과 및 외과였습니다. 관찰된 임상 과제는 의사소통, 구두 발표, 병력, 신체 검사, 메모 작성 및 기타(분류되지 않음)의 6가지 유형으로 나뉘었습니다. 감독자와 학생은 무작위로 할당된 숫자 자리 표시자를 사용하여 비식별화되었습니다. 기관 심의 위원회는 연구 프로토콜을 승인했습니다(연구 ID 20-32 478). 
The data consisted of 3328 individual assessments of 216 unique (de-identified) medical students, observed by 1455 unique (de-identified) clinical supervisors (faculty and residents). Each assessment was generated from a single observed clinical encounter and consisted of type of task, a feedback narrative generated by an open-ended prompt and an assigned ES level (based on the Modified O-SCORE scale) ranging from 1 to 4 (Box 1) to indicate retrospectively how much supervision was provided for the task.33 These assessments were completed collaboratively by the supervisor and medical student and were entered into an online questionnaire by either the supervisor or medical student (in which case the student was given the opportunity to summarise and submit the feedback with supervisor approval). Students were required to collect 2 assessments per week (thus, the data represent all medical students who rotated through their core clinical clerkships during the study period). The data were collected from January to July 2020 at a 4-year post baccalaureate medical school in the United States with multiple sites in a single state. The clerkships included in this dataset were anesthesiology, family and community medicine, internal medicine (3rd-year clerkship and 4th-year acting internship), neurology, obstetrics/gynaecology, paediatrics, psychiatry and surgery. Clinical tasks observed were divided into six types: communication, oral presentation, history, physical exam, note taking and other (uncategorized). Supervisors and students were de-identified using randomly assigned numerical placeholders. Our Institutional Review Board approved the study protocol (study ID 20-32 478).

주제 정의-전문가 지원 축 코딩
Defining themes—Expert-assisted axial coding

DNN은 다른 정성적 분석과 마찬가지로 주제를 암시하는 features에 따라 내러티브 데이터를 클러스터링할 수 있지만, 콘텐츠 전문 지식을 통해 이러한 테마의 해석 가능성이 향상됩니다. DNN은 텍스트 데이터를 단어, 단어 패턴, 구문 등 특정 features에 의해 우선적으로 활성화되는 상호 연결된 인공 뉴런의 집합으로 모델링합니다. 따라서 우리는 내러티브 데이터 클러스터 내에서 DNN이 식별한 각 features이 무엇을 나타내는지에 대한 합의를 도출하고 의학 교육자에게 의미 있는 방식으로 각 특징을 정의하기 위해 인간 전문가 패널을 고용했습니다. 이 과정은 질적 분석의 축 코딩 및 주제 분석과 유사합니다.34 이 그룹은 제1저자(BG)와 보건 전문직 교육 위임에 초점을 맞춘 이전 연구 경험이 있는 세 명의 학자(OtC, PO'S 및 CB)로 구성되었습니다. 구성원들은 훈련된 DNN이 식별한 features(아래 설명 참조)을 기반으로 독립적으로 주제를 정의하고 각 주제에 대한 합의된 정의에 공동으로 도달했습니다. 
While DNNs can cluster narrative data by features suggestive of themes, as in other qualitative analysis, the interpretability of these themes is enhanced with content expertise. DNNs model textual data as a set of interconnected artificial neurons activated preferentially by specific features: words, patterns of words and phrases. As such, we employed a panel of human experts to reach consensus as to what each of the DNN's identified features represented within the cluster of narrative data and to define each in a way that is meaningful to medical educators. This process is similar to axial coding and thematic analysis in qualitative analysis.34 This group was composed of first author (BG) and three scholars with prior work focused on entrustment in health professions education (OtC, PO'S and CB). Members independently defined themes based on features identified by the trained DNN's (as described below) and collaboratively reached consensus definitions of each theme.

NLP 구현
NLP implementation

내러티브 데이터에서 ES 수준을 예측하기 위한 머신러닝 알고리즘은 텐서플로우 2.3에서 스택형 장단기 메모리(LSTM) 아키텍처30를 사용하는 DNN으로 구현되었습니다(기술적 세부 사항은 부록 S1 참조). LSTM은 언어의 단어 시퀀스와 계층 구조를 인식하는 능력으로 NLP 애플리케이션에서 사용되는 인공 뉴런의 일종입니다.36, 37 입력 텍스트를 인코딩하기 위해 GloVe 사전 학습된 단어 임베딩38을 사용한 다음 두 개의 양방향 LSTM 레이어4방향 다중 클래스 분류를 수행하는 최종 예측 레이어를 사용했습니다.

  • 원본 데이터 세트의 30%를 차지하는 무작위로 추출된 하위 집합에서 생성된 훈련 세트(각 평가에 대해 피드백 내러티브와 ES 수준을 모두 사용할 수 있는)를 사용하여 여러 번의 반복(또는 NLP 용어로 '에포크')으로 DNN을 훈련시켰습니다.
  • 그런 다음 원본 데이터 세트의 나머지 70%를 나타내는 검증 세트(알고리즘에 피드백 내러티브만 제공되고 할당된 ES 레벨은 보류됨)에 훈련된 DNN을 적용했습니다.

그런 다음 검증 세트에서 예측된 ES 레벨과 보류된 ES 레벨을 비교하여 수신자 운영 특성(ROC) 곡선을 만들고 곡선 아래 면적(AUC)을 계산하여 각 ES 레벨을 예측하는 DNN의 능력을 표시했습니다(AUC가 1이면 완벽한 예측 능력을, 0.5이면 그러한 능력이 없음을 나타냄). ES 수준과 내러티브 특징 간의 연관성을 기대할 수 없는(그리고 AUC가 0.5에 가까워야 하는) 무작위로 할당된 ES 수준의 피드백 내러티브를 사용하여 DNN을 훈련시킨 대조 실험에서 이러한 단계를 반복했습니다.  

Our ML algorithm for predicting ES levels from narrative data was implemented as a DNN employing a stacked long short-term memory (LSTM) architecture30 in TensorFlow35 2.3 (see Appendix S1 for technical details). LSTMs are a type of artificial neuron that have been used in NLP applications for their ability to recognise sequences of words and hierarchical structures in language.36, 37 We used the GloVe pretrained word embeddings38 to encode the input text, followed by two bidirectional LSTM layers, and a final prediction layer that performed 4-way multiclass classification. We trained the DNN in multiple iterations (or ‘epochs’ in NLP terminology) using a training set (where both the feedback narrative and ES level were available for each evaluation) created from a randomly drawn subset representing 30% of our original dataset. We then applied the trained DNN to a validation set (where only the feedback narrative was available to the algorithm, and the assigned ES levels were withheld), which represented the remaining 70% of the original dataset. We then compared the predicted ES levels from the validation set to the withheld ES levels, constructing receiver operating characteristic (ROC) curves and calculating the area under the curve (AUC) to indicate the DNN's ability to predict each ES level (an AUC of 1 represents perfect predictive ability; 0.5 represents no such ability). We repeated these steps in a control experiment in which the DNN had been trained using feedback narratives with randomly assigned ES levels, where no association between ES levels and narrative features should be expected (and the AUC should approach 0.5).

DNN의 예측 능력이 확립된 다음에는 어떤 features(예: 특정 단어 또는 단어 패턴)이 위임 수준과 관련이 있는 것으로 '학습'되는지 파악하는 것이 주요 목표였습니다. 이를 위해서는 훈련된 DNN의 중간 계층 내에 있는 인공 뉴런(상자 2 참조)을 조사해야 했습니다. 훈련 후 이러한 인공 뉴런은 특정 내러티브 features에 민감하게 반응합니다. 마지막 중간 레이어(부록 S1의 레이어 4)에서 훈련된 DNN을 잘라내어 이러한 features을 추출하여 개별 인공 뉴런의 출력(즉, 활성화)을 주어진 내러티브에 대한 반응으로 평가할 수 있도록 했습니다. 이러한 활성화를 다차원 벡터 공간으로 표현하고 주성분 분석(PCA)을 사용하여 차원을 줄였습니다.39 처음 세 개의 주성분은 데이터 세트의 분산 중 90% 이상을 설명했습니다(부록 S1의 그림 A2). 세 가지 주성분 각각과 가장 강한 상관관계가 있는 내러티브와 약한 상관관계가 있는 내러티브(즉, 가장 긍정적인 내적 곱과 가장 부정적인 내적 곱이 있는 내러티브)를 식별하여 총 6개의 내러티브 세트를 도출한 다음, 위에서 설명한 전문가 패널을 통해 코딩했습니다. 또한, 각 내러티브 세트에 단어가 각 주성분의 해당 인공 뉴런을 얼마나 강하게 활성화했는지를 반영하는 워드 클라우드로 각 내러티브 세트를 보강했습니다(부록 S2의 그림 B3). 이 절차는 부록 S2에서 더 자세히 설명합니다. 
With the predictive ability of our DNN established, we turned to the primary goal of the determining which features (i.e. specific words or patterns of words) it ‘learned’ as being related to entrustment levels. This required us to examine the artificial neurons (see Box 2) within the intermediate layers of the trained DNN. After training, these artificial neurons develop sensitivities to specific narrative features. We extracted these features by truncating our trained DNN after the last intermediate layer (Layer 4 in Appendix S1), so that the outputs (i.e. activations) of individual artificial neurons could be assessed in response to any given narrative. We represented these activations in a multidimensional vector space and used principal component analysis (PCA) to reduce its dimensionality.39 The first three principal components explained >90% of the variance in our dataset (Figure A2 of Appendix S1). We identified the narratives most strongly and weakly correlated with each of the three principal components (i.e. narratives that had the most positive and most negative inner products), yielding six total sets of narratives that we then coded via the expert panel described above. Additionally, we augmented each narrative set with a word cloud reflecting how strongly the words activated each principal component's corresponding artificial neurons (Figure B3 of Appendix S2). We describe this procedure in more detail in Appendix S2.

medu14696-sup-0001-supporting_information_proof-revision.docx
0.37MB

3 결과
3 RESULTS

평가 데이터 세트 특성
Assessment dataset characteristics

비식별처리된 평가 데이터의 출처는 표 1에 전문 분야 및 과제 유형과 함께 요약되어 있습니다. '기타' 범주로 표시된 대부분의 작업은 봉합, 정맥로 확보, 삽관 및 배액관 제거와 같은 절차적 술기였습니다. 전반적으로 높은 ES 레벨이 우세했으며, 가장 낮은 ES 레벨인 1을 받은 평가는 70개에 불과했습니다. 

The de-identified sources of assessment data are summarised in Table 1 with specialty and task type. Most tasks represented by the ‘other’ category were procedural skills such as suturing, i.v. placement, intubation and drain removal. We found a predominance of higher ES levels overall, and just 70 assessments received the lowest ES level of 1.

ES 수준과 관련된 주제 식별
Identification of themes related to ES levels

표 2는 알고리즘에 의해 식별된(그리고 전문가 패널에 의해 코딩된) 내러티브의 특징과 해당 특징을 구성하는 내러티브에 대한 관련 ES 수준을 보여줍니다. 표 2에 따르면 내러티브는 각각 고유한 특징과 연관된 네 가지 범주의 ES 수준에 따라 그룹화할 수 있습니다: 
Table 2 shows the narrative features identified by the algorithm (and coded by the expert panel) and the associated ES level for the narratives making up that feature. Table 2 reveals that narratives could be grouped according to four categories of ES levels, each associated with distinct features:

1. 가장 높은 ES 수준과 연관된 내러티브는 높은 위임 평가에 대한 정당성으로 교육생의 특정 행동과 특성을 언급하는 상세한 강화 피드백을 나타냅니다(평균 ES = 3.83 [SD 0.67]). 
1. Narratives associated with the highest ES levels represented
 detailed reinforcing feedback that cited specific trainee behaviours and characteristics as justification for the high entrustment ratings (average ES = 3.83 [SD 0.67]).

문서/SOAP 메모를 시작할 때 한 줄로 시작하는 탁월한 사용. 환자 우려 사항과 관련된 철저한 HPI. 노트에서 평가와 계획을 분리하고, 평가에서 관련 세부 사항에 초점을 맞춥니다. 
Outstanding use of a one-liner to start the documentation/SOAP note. Thorough HPI relevant to patient concerns. Separate assessment from plan in the note, and focus on pertinent details in the assessment …


2. 다음으로 높은 ES 수준과 관련된 서술은 세부적인 일반적 칭찬(3.40 [0.65])과 임상적 추론에 대한 상세한 건설적 피드백(3.32 [0.55])을 모두 나타냈습니다. 
2. Narratives associated with the next highest set of ES levels represented both low detail generic praise (3.40 [0.65]) and detailed constructive feedback on clinical reasoning (3.32 [0.55]).

병력을 작성하는 동안 이러한 증상에 대한 감별 진단을 염두에 두고 체계적으로 더 질문하고 싶은 핵심 증상 한두 가지를 생각해 보세요. 
During the history taking think about what your differential is and the one or two key symptoms you would like to ask more questions about in a systematic way, keeping in mind your differentials for these symptoms.
전반적으로 잘했습니다. 
Good job overall.

3. ES 수준이 낮을수록 디테일이 적은 강화 피드백(2.86 [0.63])과 수술 및 검사 기술에 대한 건설적인 피드백(2.85 [0.84])이 모두 낮게 나타났습니다. 
3. Narratives associated with lower ES levels represented both low detail reinforcing feedback (2.86 [0.63]) and constructive feedback on surgical and exam skills (2.85 [0.84]).

바늘을 피부와 수직으로 움직이고 피부 가장자리를 일직선으로 만들기 위해 얼마나 많이 물어야 하는지 생각해야 합니다. 
Make sure to drive the needle perpendicular to the skin and think about how much of bite you need to take to make the skin edge line up.
구두 발표가 우수합니다. 
Excellent oral presentation.

4. 가장 낮은 ES 수준과 관련된 서술은 향후 수행을 위한 구체적인 지침을 제공하는 모든 유형의 술기에 대한 상세하고 건설적인 피드백을 나타냈습니다(2.57 [0.61]). 
4. Narratives associated with the lowest ES levels represented detailed constructive feedback on all types of skills that provided specific instructions for future performance (2.57 [0.61]).

몇 가지 다른 팁 시간순으로 살펴보기: 증상이나 기타 데이터를 얻을 때마다 해당 증상이 나타난 시간대를 파악하세요. 지리적/직업적/관계 마커를 사용해 시간대를 구분하세요. 기분 에피소드나 입원의 경우, 주요 증상을 파악하고 싶을 때 ... 
A few other tips: Make sure you go chronologically: whenever you get symptoms or other data, ensure that you know the time frame in which they are present. Block out epochs of time with geographic/occupational/relationship markers. For mood episodes or hospitalizations, you want to get primary symptoms …
 

강화로 분류된 내러티브만 고려했을 때, 구체적인 강화 피드백일반적인 칭찬이나 비특이적 강화 피드백보다 평균 ES 수준이 더 높았으며, 각각 평균 3.83, 3.40, 2.86이었습니다(모든 쌍별 비교에서 p <0.001). 
Considering only narratives classified as reinforcing, specific reinforcing feedback had a higher average ES level than generic praise or nonspecific reinforcing feedback, with means 3.83, 3.40, and 2.86, respectively, (p < 0.001 for all pairwise comparisons).

이러한 결과는 알고리즘이 위임 수준과 관련된 다음과 같은 피드백의 특징을 인식하고 있음을 시사합니다. 

  • (i) 피드백의 세부 수준,
  • (ii) 피드백이 건설적인지 강화적인지 여부,
  • (iii) 피드백이 절차적 기술인지 인지적 기술인지 또는 과제를 반영하는지 여부와 같은 

These findings suggest that the algorithm recognised the following feedback features associated with levels of entrustment:

  • (i) the level of detail of the feedback,
  • (ii) whether the feedback was constructive versus reinforcing and
  • (iii) whether the feedback reflected procedural versus cognitive skills or tasks.

피드백 내러티브를 통한 ES 수준 예측
Prediction of ES levels from feedback narratives

감독된 NLP 알고리즘은 ES 레벨 2~4(높은 수준의 위임, 낮은 수준의 감독)에 대해 중간 정도의 변별력(AUC 0.6~0.7)을 보여주었습니다.40, 41 알고리즘은 이 ES 점수가 할당된 평가의 수가 적기 때문에 가장 낮은 ES 레벨 1(AUC 0.5)을 변별하지 못했습니다. 이러한 결과는 부록 S1의 그림 A1에 각 ES 레벨에 대한 ROC 곡선과 AUC를 보여줍니다. 오른쪽 삽입물은 알고리즘이 예상한 결과를 제공하는지 확인하기 위해 각 내러티브의 ES 수준을 무작위로 지정한 대조 실험(섹션 2 참조)의 결과를 보여줍니다(AUC 0.5는 무작위로 할당된 ES 수준으로 훈련했을 때 알고리즘이 내러티브를 변별할 수 없음을 나타냄). 
The supervised NLP algorithm demonstrated low-to-moderate discrimination ability (AUC 0.6–0.7) for ES Levels 2 through 4 (higher levels of entrustment, lower levels of supervision).40, 41 The algorithm was unable to discriminate the lowest ES level 1 (AUC 0.5) due to the small number (70) of evaluations assigned this ES score. These findings are depicted in Figure A1 of Appendix S1 showing the ROC curves and AUCs for each ES level. The right inset shows the results of the control experiment (see Section 2) where we randomised the ES level of each narrative to verify that the algorithm gave the expected result (an AUC of 0.5 indicating the algorithm's inability to discriminate narratives when trained with randomly assigned ES levels).

4 토론
4 DISCUSSION

우리는 NLP를 사용하여 위임 결정과 피드백이 교육생에게 특정 학습 목표를 달성하는 데 필요한 세부 정보를 제공할 수 있는 방식으로 상호 작용한다는 사실을 발견했습니다. 감독자들은 특정 목표 설정, 즉 높은 수준의 위임을 획득(또는 유지)하고 위임을 획득(또는 유지)하는 방법에 대한 자세한 지침을 제공하는 피드백 프로세스에서 무의식적으로 위임 프레임워크를 사용하는 것으로 보였습니다. 최근 사례 연구에서 슈퍼바이저가 서로 다른 역량 수준의 연수생에게 접근하는 일관성에 의문이 제기되었지만,4 NLP를 통해 더 큰 데이터 세트를 조사하여 ES 수준과 연수생 지도 사이의 두드러진 경향을 밝혀냈습니다. 즉, 위임 척도의 높은 끝과 낮은 끝 모두에서 지침의 세부 수준과 구체성이 증가한다는 점에서, 위임이 슈퍼바이저의 연수생 지도에 영향을 준다는 것을 알 수 있었습니다. 또한 내러티브 평가 데이터의 신뢰성이 이전에 입증된 점을 고려할 때 내러티브의 위임 등급을 예측하는 NLP 알고리즘의 능력은 예상치 못한 것이 아니었습니다.42 알고리즘에 대한 심층 분석을 통해 위임과 특별히 연관된 특징이 밝혀졌습니다. 이러한 특징들을 위임 모델(수련생, 수퍼바이저, 상황, 업무 및 관계) 내에서 구성하여 수퍼바이저가 위임 수준을 할당할 때 고려하는 요소를 제시했습니다.8, 43 한 가지 요소(관계)를 제외한 모든 요소가 데이터에 직접적으로 반영된 것으로 나타났습니다.  
We found by using NLP that entrustment decisions and feedback interacted in a way that could provide trainees with details necessary to achieve specific learning goals. Supervisors appeared to employ, perhaps subconsciously, the entrustment framework in the feedback processes guiding specific goal-setting—i.e. earning (or maintaining) a high level of entrustment—and providing detailed instruction on how to earn (or maintain) that entrustment. While a recent case study cast doubt on the consistency with which supervisors approach trainees at different competency levels,4 NLP allowed us to examine a larger dataset to reveal a prominent trend between ES levels and trainee guidance: the level of detail and specificity of instruction increased at both high and low ends of the entrustment scale, suggesting that entrustment does affect supervisors' guidance of trainees. Further, the ability of the NLP algorithm to predict entrustment ratings of narratives was not unexpected given the previously demonstrated reliability of narrative assessment data.42 Deeper analysis of the algorithm revealed the features specifically associated with entrustment. We framed these features within an entrustment model (trainee, supervisor, context, task and relationship) suggesting factors supervisors considered when assigning entrustment levels.8, 43 All but one factor (relationship) appeared to be directly reflected in our data.

연수생
Trainee

수퍼바이저의 성찰에서 도출된 수련의 요인의 개념화(신뢰성과 관련된 수련의 자질에 초점을 맞춘)와 비교했을 때,15 여기서 확인된 주제는 수련의가 임상 업무를 수행하는 방법의 실용성에 초점을 맞추는 경향이 있었습니다. 실제로 ES 수준이 가장 높거나 낮은 것과 관련된 내러티브는 과제를 어떻게 유능하게 수행했거나 수행했어야 하는지에 대한 구체적인 세부 사항에 집중하는 것으로 나타났습니다. 위임의 사용은 이러한 세부 사항을 불러일으키는 데 도움이 되었을 수 있습니다. 교육생에 대한 감독자의 긍정적인 감정(칭찬 및 강화 진술에 반영됨)은 유능한 교육생의 성과에 대한 구체적인 증거를 인용하는 것보다 덜 중요한 것으로 보였으며, [일반적인 칭찬]이나 [비특이적 강화 피드백]보다 [구체적인 성과에 대한 강화 피드백]이 평균 ES 수준이 더 높았습니다. 
Compared with conceptualizations of the trainee factor derived from supervisor reflections (that focused on trainee qualities associated with trustworthiness),15 the themes identified here tended to focus on the practicalities of how trainees perform clinical tasks. Indeed, the narratives associated with the highest and lowest ES levels appeared to centre on the specific details of how a task was, or should have been, performed competently. The use of entrustment may have helped to engender these details. Supervisors' positive sentiments about trainees (reflected by praise and reinforcing statements) appeared to be less important than their citing specific evidence of competent trainee performance—specific reinforcing feedback had a higher average ES level than generic praise or nonspecific reinforcing feedback.

감독자들이 과제별 증거에 집중하는 것은 효과적인 피드백은 학생의 특성보다는 학생의 성과와 관련되어야 한다는 Gibbs 등의 명제를 반영합니다.44 낮은 ES 수준을 할당할 때, 감독자들은 더 높은 수준의 위임을 받기 위해 연수생이 앞으로 수행해야 할 구체적인 단계를 상세하게 설명했습니다. 이 결과는 위임 척도 사용이 피드백에 미치는 영향에 대한 Dolan 등 및 Dudek 등의 연구와 건설적인 피드백은 구체적이고 미래의 방향을 포함해야 한다는 결론을 내린 여러 연구를 뒷받침합니다.45-48 또한, 본 연구 결과는 수퍼바이저가 수련생에게 제공하는 지도의 양이 위임 결정에 영향을 미치는 주요 요인이며, 지도의 필요성이 증가할수록 ES 수준이 낮아진다는 Robinson 등의 최근 질적 인터뷰 결과를 뒷받침합니다.11 따라서 낮은 ES 수준에 대한 본 연구 결과는 이러한 선행 연구의 맥락에서 예상되는 것이지만, 가장 높은 ES 수준에서도 서술의 세부 수준이 높아진 것은 다소 의외입니다. 이 결과는 감독자가 더 높은 수준의 위임을 선택한 이유와 이를 뒷받침할 수 있는 증거의 가용성과 관련이 있을 수 있습니다. 
Supervisors' focus on task-specific evidence mirrors Gibbs et al.'s proposition that effective feedback should relate to students' performance rather than their characteristics.44 When assigning low ES levels, supervisors detailed specific steps for trainees to perform in the future, to earn higher levels of entrustment. This finding corroborates the work of Dolan et al. and Dudek et al. on the effects of using an entrustment scale on feedback, as well as several studies concluding that constructive feedback should be specific and contain future direction.45-48 In addition, our results support Robinson et al.'s recent finding from qualitative interviews that the amount of guidance a supervisor provided to a trainee was the primary factor that influenced their entrustment decision, where an increasing need for guidance led to lower ES levels.11 While our results about low ES levels are thus expected in the context of these prior studies, it is somewhat surprising that the level of narrative detail was also increased at the highest ES levels. This finding may relate to how supervisors justified their choice of higher entrustment and the availability of evidence to support it.

감독자
Supervisor

피드백의 세부 수준에 대한 조사 결과는 수퍼바이저가 위임을 정당화할 때 공정성에 대한 고려를 반영할 수도 있습니다.

  • 세부 수준이 높을수록 피드백의 공정성에 대한 인식이 높아지는 것으로 생각되며,49 이는 또한 수퍼바이저가 ES 수준을 높고 낮게 지정할 때 더 구체적이고 세부적으로 지정하는 경향이 있는 이유를 설명할 수 있습니다.
  • 최고 또는 최저 ES 등급을 선택하는 데 대한 슈퍼바이저의 자신감 부족은 관찰 및 피드백 제공에 대한 슈퍼바이저의 참여가 적기 때문일 수 있습니다.50 또한, 중간 ES 등급에서 세부 사항이 부족하다는 것은 슈퍼바이저가 더 높거나 낮은 ES 등급을 명확하게 정당화할 증거가 부족하다는 것을 반영할 수 있습니다.
  • 피드백을 강화하는 '일반적인' 칭찬은 아직 더 높은 수준의 위임을 받을 자격이 없는 학생을 격려하려는 감독자의 시도로 볼 수 있습니다.51 

Our findings about the level of detail of feedback may also reflect supervisors' considerations of fairness in justifications of entrustment.

  • An increased level of detail is thought to support perceptions of fairness in feedback,49 which could also explain why supervisors tended to be more specific and detailed when assigning both higher and lower ES levels.
  • Lack of supervisor confidence to choose the highest or lowest ES levels may be a consequence of less supervisor participation in the exercise of observing and giving feedback.50 Furthermore, the lack of detail at the middle ES ratings may reflect supervisors' lack of evidence to clearly justify a higher or lower ES rating.
  • ‘Generic’ praise as reinforcing feedback could be seen as supervisors' attempts to encourage students who did not yet deserve higher levels of entrustment.51

맥락과 과제
Context and task

본 연구는 위임 결정에서 맥락과 과제 요인의 중요성을 강조하는 동시에 추가적인 질문을 제기합니다. 감독자들은 인지적 과제(환자 의사소통 및 임상적 추론 포함)에 비해 절차적 과제(수술 및 검사 기술 포함)에 대해 더 낮은 ES 수준을 부여하는 경향이 있었습니다. 이러한 과제 유형의 효과는 의과대학 초기에 절차적 기술을 쌓을 기회보다는 인지적 기술(환자 사례, 임상 추론, 기초 과학 등)을 쌓는 데 중점을 두는 것을 반영할 수 있습니다.52 또는 수행되는 전문 분야(예: 외과 대 내과), 학생과 레지던트 수련의에게 업무를 맡기는 임상 문화의 잠재적 차이 또는 편견을 반영할 수도 있습니다.53 마지막으로, 이 발견은 시술의 자율성에 대한 어포던스가 제한될 수 있고 환자 안전에 대한 우려가 높기 때문에, 임상실습 기간 동안 의대생이 인지적 과제에 비해 절차적 과제에 대해 지각(감독자 편견 또는 평가 척도에 대한 이해로 인해) 또는 실제 신뢰도에 내재된 차이를 추가로 반영할 수 있습니다.53 이러한 기여를 분석하려면 추가 연구가 필요하지만, 우리의 결과는 수련의 및 감독자의 고려 사항과는 별개로 과제 및 상황 요인의 영향에 대한 직접적인 증거를 제공한다는 것은 분명합니다. 
Our study highlights the importance of context and task factors in entrustment decisions while raising further questions. Supervisors tended to assign lower ES levels for procedural tasks (including surgical and exam skills) compared with cognitive tasks (including patient communication and clinical reasoning). This effect of task type may reflect the focus during the early years of medical school on cognitive skill-building (such as patient cases, clinical reasoning and basic sciences) rather than opportunities for building procedural skills.52 Alternatively, it may reflect context—the specialty in which it is performed (i.e. surgery versus medicine) and potential differences or biases in clinical cultures' tendencies to entrust student versus resident trainees.53 Finally, this finding may additionally reflect an inherent difference in perceived (due to supervisor bias or understanding of the rating scale) or actual trustworthiness of medical students for procedural tasks compared with cognitive ones during the clerkship years, because affordances for autonomy in procedures may be limited and concerns about patient safety are high.53 While further investigation is needed to parse these contributions, it is clear that our results provide direct evidence of the effects of task and context factors independent from trainee and supervisor considerations.

AI는 문헌에 보고되지 않은 인사이트를 제공했지만, 이는 의료 분야와 그 밖의 분야에서 최근의 ML 성과에 기반이 되는 DNN의 새로운 기능을 통해서만 가능했습니다.54, 55 동시에 이러한 복잡한 네트워크가 어떻게 '사고' 또는 '학습'하는지는 평가하기 어려웠으며, 이는 AI의 '블랙박스' 문제를 보여줍니다.24 연구자들은 설명 가능한 AI 기술을 사용하여 전자 의료 기록을 검토하고 재입원과 관련된 요인을 파악하고 방사선과에서 병리 분류에 중요한 이미지의 특징을 강조하는 데 사용했습니다.56-58 우리의 절차는 ES 수준에 연결된 특정 인공 뉴런을 활성화하는 단어와 문장을 식별하여 NLP에 유사한 설명 가능한 AI 전략을 도입합니다. NLP를 설명 가능하게 만들기 위한 노력이 계속되고 있지만,28,59,60 우리의 방법론은 이제 의학교육 연구자들이 그러한 인사이트에 접근할 수 있게 해줍니다. 이 방법론은 의학교육 연구자가 기존의 질적 방법으로는 평가하기 어려울 수 있는 엄청나게 큰 내러티브 데이터베이스에서 주제를 탐색할 수 있도록 AI 매개 지원을 제공함으로써 기존의 질적 및 혼합 방법 분석을 보강합니다(예: 리소스 제한으로 인해 선택적 샘플링이 필요하거나 코딩 일관성 제한으로 인해 전체 데이터 집합을 고려하지 못할 수 있음).25 질적 데이터를 정량적으로 평가하는 새로운 도구를 제공하여 질적 데이터와 범주형 또는 연속형 변수 간의 연관성을 조사하고 그러한 연관성에 기여하는 요소를 밝혀야 하는 시나리오에 적용할 수 있습니다. 예를 들어, 고품질 노트와 관련된 요인을 파악하고 이러한 요인을 자동화된 피드백의 기초로 사용하여 교육생에게 문서 품질에 대한 피드백을 제공하는 데 사용할 수 있습니다. 
While AI provided insights that have not been reported in the literature, this only happened through the emerging capabilities of the DNNs underlying recent ML achievements in healthcare and beyond.54, 55 At the same time, how these complex networks ‘think’ or ‘learn’ has been difficult to assess, illustrating AI's ‘black box’ issue.24 Researchers have used explainable AI techniques to review electronic health records and determine factors associated with readmission and in radiology for highlighting features of images important to pathology classification.56-58 Our procedure brings a similar explainable AI strategy to NLP by identifying words and sentences that activate specific artificial neurons tied to ES levels. While there are ongoing efforts to make NLP explainable,28, 59, 60 our methodology makes such insights accessible to medical education researchers now. Our methods augment traditional qualitative and mixed-methods analysis by giving medical education researchers AI-mediated assistance to explore themes in prohibitively large narrative databases that may be difficult to assess with traditional qualitative methods (i.e. resource limitations may lead to selective sampling, or coding consistency limitations may restrict consideration of the entire dataset).25 The methodology provides a new tool to assess qualitative data quantitatively, applying to scenarios in which associations between qualitative data and a categorical or continuous variable need to be examined and the factors contributing to such associations elucidated. For example, it could be used to provide trainees with feedback on the quality of their written documentation by both identifying factors associated with high-quality notes and using these factors as a basis for automated feedback.

이 연구에는 한계가 있습니다. 데이터 세트 수집 방식을 변경하면 위임(일반적인 피드백 대비)과 결과의 관련성을 개선할 수 있습니다. 첫째, 피드백 내러티브 프롬프트는 (감독자에게 할당된 ES 수준을 정당화하도록 요청하는 것과 달리) 비특이적이었습니다. 또 다른 한계는 후향적('얼마나 많은 슈퍼비전이 제공되었습니까?') ES 척도의 성격이었습니다.33 전향적 ES 척도('향후 사례에 대해 얼마나 많은 슈퍼비전이 권장됩니까?')였다면 내러티브와 할당된 척도 값 사이에 더 강력한 연결 고리를 제공했을 것입니다.61 실제로, 낮은 수준에서 중간 수준의 예측 능력(부록 S1의 그림 A1)은 알고리즘 자체의 약점이 아니라 데이터 수집 도구가 부과한 한계를 반영하는 것일 수 있습니다.42 의학 텍스트에 대해 사전 학습된 어휘집을 사용하는 것도 결과를 개선할 수 있지만, 최근 연구에 따르면 어휘집 선택이 분류에 큰 영향을 미치지 않을 수 있다고 합니다.62 위임 요인과 관련하여, 교수 수퍼바이저와 레지던트 수퍼바이저 간의 결과를 비교하여 수퍼바이저 요인의 명확성을 검토할 수도 있습니다.9 우리의 데이터는 관계 요인에 대한 유의미한 증거를 밝히지 못했으며, 이는 수퍼바이저와 수련의의 종적 짝을 중심으로 데이터 집합을 수집함으로써 잠재적으로 해결될 수 있을 것입니다. 이 연구의 또 다른 한계(결과의 일반화 가능성에 영향을 미침)로는 단일 기관에서 수집했다는 점, 주로 임상실습 연도에 초점을 맞췄다는 점, 상업적으로 훈련된 NLP 애플리케이션에 비해 훈련 데이터의 가용성이 제한적이라는 점을 들 수 있습니다. 
This study has limitations. The relevance of our results to entrustment (versus feedback in general) could be improved by making changes to how our dataset was collected. Firstly, the feedback narrative prompt was nonspecific, as opposed to asking supervisors to justify the ES levels assigned. Another limitation was the nature of the retrospective (i.e. ‘how much supervision was provided?’) ES scale.33 A prospective ES scale (‘how much supervision is recommended for future instances?’) might have provided a stronger link between the narratives and assigned scale values.61 Indeed, the low-to-moderate predictive abilities (Figure A1 of Appendix S1) likely do not reflect a weakness of the algorithm itself but rather a ceiling imposed by the data collection instrument.42 Using a lexicon pretrained on medical texts may also improve results, but a recent study suggests that lexicon choice may not significantly impact classification.62 With respect to entrustment factors, clarification of the supervisor factor could also be examined by comparing results between faculty supervisors and resident supervisors.9 Our data did not reveal significant evidence for the relationship factor, which may potentially be addressed by collecting a dataset focused on longitudinal pairings of supervisors and trainees. Additional limitations of this study (affecting generalizability of our results) include collection at a single institution, the focus primarily on the clerkship year and the limited availability of training data compared to commercially trained NLP applications.

5 결론
5 CONCLUSIONS

결론적으로, 위임 중심 피드백 상호작용은 학습자가 임상 과제를 수행할 수 있는 역량을 갖추도록 구체적인 단계를 안내할 수 있으며, 위임 척도의 양 극단에서 더 많은 세부 정보를 제공하고 있다. 본 연구 결과는 감독자의 관점에 기반하여 Hauer 등이 발전시킨 이전 모델을 확증하는 한편, 위임 기반 평가에서 이러한 요소가 교육생-감독자 피드백 상호작용 내에서 어떻게 작용하는지를 보여줍니다. 본질적으로 위임의 프레임워크에는 더 높은 수준의 위임을 받는다는 목표가 내재되어 있으며, 따라서 이 목표를 달성하는 데 필요한 역량을 중심으로 피드백 프로세스63가 이루어지는 것으로 보입니다. 우리의 혁신적인 ML 접근 방식은 기존에는 불투명한 NLP 알고리즘으로만 가능했던 복잡한 분류 작업에 대한 투명성을 확보하여 NLP에서 설명 가능한 AI를 향해 한 걸음 더 나아가고 있습니다. 이러한 기술을 더욱 발전시키면 형성 평가 데이터의 사용을 강화하여 학습자의 성과를 파악하고 향후 학습 및 환자 치료를 안내할 수 있습니다. 

In conclusion, entrustment-centred feedback interactions can drive concrete steps in guiding the learner towards achieving competence to perform clinical tasks, with increasing detail provided at both extremes of the entrustment scale. While our results corroborate prior models advanced by Hauer et al. and Holzhauzen et al. based on supervisor perspectives, our results reveal how these factors operate within trainee–supervisor feedback interactions within entrustment-based assessment. In essence, the framework of entrustment carries the built-in goal of earning higher levels of entrustment, thus appearing to centre feedback processes63 around the competencies needed to achieve this goal. Our innovative ML approach creates transparency around complex classification tasks traditionally afforded only by opaque NLP algorithms, taking a step towards explainable AI in NLP. Further developing these techniques can strengthen the use of formative assessment data to understand learner performance and guide their future learning and patient care.


 

 

Med Educ. 2022 Mar;56(3):303-311. doi: 10.1111/medu.14696. Epub 2021 Dec 1.

 

 

Exploring how feedback reflects entrustment decisions using artificial intelligence

Affiliations collapse

1Department of Pediatrics, University of California San Francisco, San Francisco, CA, USA.

2Utrecht Center for Research and Development of Health Professions Education, University Medical Center, Utrecht, The Netherlands.

3Department of Medicine, University of California San Francisco, San Francisco, CA, USA.

4Department of Surgery, University of California San Francisco, San Francisco, CA, USA.

5Department of Anesthesia, University of California San Francisco, San Francisco, CA, USA.

PMID: 34773415

DOI: 10.1111/medu.14696

Abstract

Context: Clinical supervisors make judgements about how much to trust learners with critical activities in patient care. Such decisions mediate trainees' opportunities for learning and competency development and thus are a critical component of education. As educators apply entrustment frameworks to assessment, it is important to determine how narrative feedback reflecting entrustment may also address learners' educational needs.

Methods: In this study, we used artificial intelligence (AI) and natural language processing (NLP) to identify characteristics of feedback tied to supervisors' entrustment decisions during direct observation encounters of clerkship medical students (3328 unique observations). Supervisors conducted observations of students and collaborated with them to complete an entrustment-based assessment in which they documented narrative feedback and assigned an entrustment rating. We trained a deep neural network (DNN) to predict entrustment levels from the narrative data and developed an explainable AI protocol to uncover the latent thematic features the DNN used to make its prediction.

Results: We found that entrustment levels were associated with level of detail (specific steps for performing clinical tasks), feedback type (constructive versus reinforcing) and task type (procedural versus cognitive). In justifying both high and low levels of entrustment, supervisors detailed concrete steps that trainees performed (or did not yet perform) competently.

Conclusions: Framing our results in the factors previously identified as influencing entrustment, we find a focus on performance details related to trainees' clinical competency as opposed to nonspecific feedback on trainee qualities. The entrustment framework reflected in feedback appeared to guide specific goal-setting, combined with details necessary to reach those goals. Our NLP methodology can also serve as a starting point for future work on entrustment and feedback as similar assessment datasets accumulate.

일반외과에서 NLP와 EPA에 대한 텍스트 피드백: 머신러닝 모델과 전공의 자율성(Am J Surg. 2021)
Natural language processing and entrustable professional activity text feedback in surgery: A machine learning model of resident autonomy 
Christopher C. Stahl a, Sarah A. Jung a, Alexandra A. Rosser a, Aaron S. Kraut b, Benjamin H. Schnapp b, Mary Westergaard b, Azita G. Hamedani b, Rebecca M. Minter a, Jacob A. Greenberg a, *

소개
Introduction

외과 교육은 현장과 환자의 요구를 충족하기 위해 끊임없이 진화하고 있습니다. 외과 졸업생이 수련을 마친 후 독립적으로 수술할 수 있는 능력에 대한 우려로 인해 외과에서 역량 기반 교육이 추진되고 있습니다.1 역량 기반 교육과 관련된 근본적인 과제 중 하나는 역량 측정입니다. 레지던트가 언제 독립적으로 안전하게 수술할 준비가 되었는지 어떻게 알 수 있을까요? 
Surgical education is constantly evolving to meet the needs of the field and its patients. There has been a push towards competency-based education in Surgery due to concerns about the ability of surgical graduates to operate independently upon completion of their training.
1 One of the fundamental challenges involved in competency-based education is the measurement of competency: how do we know when a resident is ready to safely practice independently?

위임 가능한 전문 활동(EPA)은 의학전문대학원 교육에서 위임 결정을 정의하고 표준화하는 데 도움을 주기 위해 개발된 새로운 역량 기반 평가 프레임워크입니다. EPA는 특정 전문과목에 종사하는 의사의 필수 활동을 나타냅니다. 현재 일반외과에 대해 5개의 EPA가 존재하며, 레지던트가 EPA 평가를 완료할 때마다 교수진이 미세평가를 완료합니다. 미세 평가는 숫자 점수('관찰만'에서 '다른 사람 감독'에 이르는 0~4점)와 전문 활동에 대한 피드백을 제공하는 자유 텍스트 의견 옵션으로 구성됩니다.2 각 EPA는 해당 '위임 로드맵'과 함께 게시되며, 각기 다른 0~4 위임 수준에 해당하는 레지던트가 보여준 행동에 대한 서술형 텍스트 설명이 포함되어 있습니다. 이러한 위임 로드맵은 내러티브 코멘트 내에서 특정 행동에 대한 점수 할당 및 토론을 안내하기 위한 것입니다.  
Entrustable Professional Activities (EPAs) are a novel competency-based assessment framework developed to help define and standardize entrustment decisions in graduate medical education. EPAs represent the essential activities of a practicing physician in a given specialty. Five EPAs currently exist for general surgery, and each time a resident completes an EPA evaluation, faculty complete a microassessment. The microassessment consists of a numeric score (0–4, ranging from “observation only” to “supervising others”) and an option for free text comments giving feedback on the professional activity.2 Each EPA is published with a corresponding ‘entrustment roadmap’, a narrative text description of the behaviors demonstrated by the resident that correspond to the different 0–4 entrustment levels. These entrustment roadmaps are meant to guide score assignment and discussion of specific behaviors within the narrative comments.

이러한 위임 로드맵은 ABS, APDS, RRC 및 RAS의 대표로 구성된 전문가 위원회에서 신중하게 작성되었습니다.2 그러나 당시에는 실제로 외과의사 교육자들이 각 EPA 위임 수준에 대해 대표적인 행동으로 간주하는 것이 무엇인지에 대한 데이터가 거의 없었습니다. 각 위임 수준과 관련된 실제 EPA 의견에 대한 심층 분석은 "현장에 있는" 외과 교수진이 레지던트 위임에 대해 중요하게 생각하는 것이 무엇인지에 대한 중요한 통찰력을 제공할 수 있습니다. 또한 이 데이터는 일상적인 관행을 더 잘 반영하기 위해 EPA 위임 로드맵을 반복적으로 수정하는 데 사용될 수 있습니다. 
These entrustment maps were carefully written by an expert committee with representation from the ABS, APDS, RRC, and RAS.2 However, at that time there was very little data on what surgeon educators out in practice considered representative behaviors for each EPA entrustment level. An in-depth analysis of real-world EPA comments associated with each given entrustment level can offer important insight into what “boots on the ground” surgical faculty consider important for resident entrustment. Additionally, this data could be used to iteratively revise the EPA entrustment roadmaps to better reflect daily practice.

이 연구는 자연어 처리(NLP)의 힘을 활용하여 이러한 분석을 수행합니다. 잠재 디리클레 할당(LDA) 주제 모델링을 사용하여 EPA 내러티브 피드백 내에서 잠재 주제를 식별했습니다. 이러한 코멘트 내에서 위임 가능한 전문 활동(EPA) 프레임워크에 정의된 다양한 위임 수준에 일관되게 매핑되는 주제를 식별하는 LDA 알고리즘의 능력을 평가했습니다. 그런 다음 식별된 주제를 검토하여 컴퓨터로 생성된 이러한 주제를 위임 수준에 매핑하는 것이 인간 평가자가 이해할 수 있는지 여부를 결정했습니다. 
This study harnesses the power of natural language processing (NLP) to perform such an analysis. Latent Dirichlet allocation (LDA) topic modeling was used to identify latent topics within EPA narrative feedback. We assessed the ability of the LDA algorithm to identify topics within these comments that consistently mapped to different entrustment levels as defined within the Entrustable Professional Activities (EPA) framework. We then reviewed the identified topics to determine if the mapping of these computer-generated topics to entrustment levels was comprehensible to human raters.

자료 및 방법
Material and methods

EPA 데이터
EPA data

우리 기관은 외과 교육에서 위임 가능한 전문 활동(EPA)에 대한 미국 외과학회(ABS)의 전국적 파일럿 시험에 참여하고 있습니다. 앞서 설명한 바와 같이, EPA 평가에 대한 우리의 실행 전략에는 레지던트와 교수진이 위임 점수("관찰만"에서 "다른 사람 감독"에 이르는 0~4점)와 레지던트의 성과에 대한 자유 텍스트 의견을 모두 포함하는 EPA 평가를 제출할 수 있는 휴대폰 애플리케이션이 포함됩니다.3 평가는 2018년 7월부터 2020년 1월까지 현재 시범 시험 중인 5개 일반외과 EPA(일반 외과 상담, 외상, 담낭 질환, 우하단부 통증, 사타구니 탈장)에 대해 수집했습니다. 레지던트에 대한 교수진의 평가만 분석에 포함되었습니다. 이 실행 전략의 독특한 특징은 외과 및 응급의학과 교수진이 레지던트에 대한 교수 평가를 수행하는 등 여러 부서의 협업을 통해 이루어졌다는 점입니다. 이 두 교수진 그룹이 수행한 평가는 모두 분석에 포함되었습니다. 
Our institution is participating in the national American Board of Surgery (ABS) pilot trial of Entrustable Professional Activities (EPAs) in surgical education. As previously described, our implementation strategy for EPA assessment involves a mobile phone application to which residents and faculty can submit EPA assessments containing both an entrustment score (0–4, ranging from “observation only” to “supervising others”) and free text comments on the resident’s performance.3 Assessments were collected for the five general surgery EPAs currently in the pilot trial (General Surgical Consultation, Trauma, Gallbladder Disease, Right Lower Quadrant Pain, Inguinal Hernia) from July 2018 to January 2020. Only faculty assessments of residents were included in the analysis. A unique feature of our implementation strategy is multi-departmental collaboration, with faculty evaluations of residents performed by both Surgery and Emergency Medicine faculty. Assessments performed by both of these faculty groups were included in the analysis.

토픽 모델링
Topic modeling

자연어 처리(NLP)는 자연어 데이터와 상호 작용하기 위해 컴퓨터를 활용하는 것을 포함합니다. 토픽 모델링은 텍스트 데이터의 말뭉치(본문) 내에 존재하는 토픽을 발견하기 위해 고안된 NLP의 하위 집합입니다. 좀 더 기술적인 수준에서는 텍스트에서 용어(단어) 발생 빈도에 대한 확률적 프레임워크를 제공하는 생성 통계 모델입니다.4 NLP 및 기계 학습 분야의 상당한 발전에도 불구하고, 대부분의 텍스트 컴퓨터 분석은 여전히 단어장 모델을 사용하여 데이터와 상호 작용하고 있다는 점에 유의하세요. 향후에는 컴퓨터가 '개념 가방' 또는 '서술 가방'과 같이 인간에게 더 친숙한 방식으로 텍스트와 상호 작용할 수 있게 되겠지만, 현재는 '단어 가방' 모델이 우세합니다.5 즉, 이러한 방법을 사용하여 생성된 주제는 주어진 주제에 속할 가능성(단어 분포)에 따라 정렬된 단어 목록이며 여전히 사람의 해석이 필요합니다.6 
Natural language processing (NLP) involves the utilization of computers to interact with natural language data. Topic modeling is a subset of NLP designed to uncover topics present within a corpus (body) of text data. On a more technical level, these are generative statistical models that provide a probabilistic framework for the frequency of term (word) occurrence in text.4 Of note, despite significant advances in the fields of NLP and machine learning, most computational analyses of text still interact with data using a bag-of-words model. Future developments may allow computers to interact with text in a more humanly familiar way, such as a ‘bag-of-concepts’ or ‘bag-of-narratives’, but currently bag-of-words models predominate.5 This means that the topics generated using these methods are lists of words ordered by likelihood of belonging to a given topic (a distribution over words) and still require human interpretation.6

잠재 디리클레 할당
Latent Dirichlet Allocation

잠재 디리클레 할당(LDA)은 토픽 모델링에 사용되는 일반적인 접근 방식입니다. LDA는 문서에 존재하는 단어를 토픽으로 할당하기 위해 디리클레 분포를 사용하여 텍스트 말뭉치에서 숨겨진(잠재) 토픽을 식별하는 데 사용되는 생성적, 확률적, 베이지안, 비지도 머신 러닝 알고리즘입니다.4,7 할당 과정을 간단히 살펴보면 다음과 같습니다.

  • 알고리즘은 데이터 코퍼스의 모든 단어를 k개의 토픽 중 하나에 무작위로 할당합니다(토픽 수[k]는 사용자가 미리 지정함).
  • 그런 다음 알고리즘은 단일 단어에 대한 토픽을 "버린"다음 다른 모든 단어의 분포를 기반으로 해당 단어가 할당될 가능성이 가장 높은 토픽을 다시 계산합니다.
  • 그런 다음 해당 단어를 가장 가능성이 높은 토픽에 다시 할당하고 말뭉치의 모든 단어를 다시 할당할 때까지 다음 단어에 대해 이 과정을 반복합니다.
  • 이 프로세스는 단어가 새로운 주제에 지속적으로 할당되는 것을 멈출 때까지(즉, 추정치가 안정 상태에 도달할 때까지) 수천 번 반복됩니다

Latent Dirichlet Allocation (LDA) is a common approach used for topic modeling. LDA is a generative, probabilistic, Bayesian, unsupervised machine learning algorithm used to identify hidden (latent) topics in text corpora using a Dirichlet distribution to allocate the words present in documents into topics.4,7 A simplified view of the allocation process is as follows:

  • the algorithm randomly assigns every word in the corpus of data to one of k topics (the number of topics [k] is pre-specified by the user).
  • The algorithm then “throws out” the topic for a single word and re-calculates the topic to which that word is most likely to be assigned based on the distribution of all other words.
  • It then reassigns that word to its most likely topic and repeats the process for the next word until it has reassigned all words in the corpus.
  • This process is repeated thousands of times, until the words stop consistently getting reassigned to new topics (i.e., the estimates have reached a steady state).

해석
Interpretation

LDA 프로세스가 완료되면 문서-토픽 확률(감마)단어-토픽 확률(베타)을 생성합니다.8

  • LDA는 각 문서를 토픽의 혼합으로 모델링하며, 각 문서-토픽 쌍에는 해당 토픽으로 구성된 문서의 비율을 나타내는 감마가 있습니다. 감마는 확률처럼 보고되며, 값이 1이면 해당 문서의 100%가 해당 토픽으로 구성되어 있음을 의미하고 0이면 0%를 나타냅니다.
  • 각 토픽은 단어의 분포로 구성되며, 각 단어에는 단어-토픽 확률(베타)이 있으며 베타가 높을수록 해당 단어가 해당 토픽에 포함될 가능성이 높습니다. 각 단어는 다양한 확률로 여러 토픽에 나타날 수 있습니다. LDA를 사용하여 식별된 토픽은 베타 값이 감소하는 순서대로 정렬된 단어 가방입니다.

이러한 용어에 대한 요약은 표 1에서 확인할 수 있습니다. 
After the LDA process is complete, it generates document-topic probabilities (gamma), and word-topic probabilities (beta).8 

  • LDA models each document as a mixture of topics—each document-topic pair has a gamma that represents proportion of the document made up of that topic. Gamma is reported like a probability, with a value of 1 meaning that 100% of that document is made up of the given topic, and a value of zero indicating 0%.
  • Each topic consists of a distribution of words—each word has a word-topic probability (beta), with a higher beta representing a higher likelihood of that word being present in the corresponding topic. Each word may appear in multiple topics, albeit with varying probability. The topics identified using LDA are bags-of-words ordered by decreasing beta values.

A summary of these terms can be found in Table 1.

분석
Analysis

LDA 분석을 위해 EPA 코멘트는 축약어와 특수 문자를 제거하여 정리한 다음 R의 tm 패키지를 사용하여 개별 단어로 토큰화했습니다.9 정지어("the", "and" 등과 같이 일반적으로 의미가 거의 없는 영어에서 일반적으로 사용되는 단어)는 세 글자 미만의 모든 단어와 함께 제거되었습니다. 중복된 단어는 제거되지 않았습니다. 위임 수준이 0인 평가는 빈도가 낮아 제거되었습니다(1015개 중 n = 8개). 토픽모델 패키지는 데이터의 EPA 위임 수준("1", "2", "3", "4")과 일치하도록 k 토픽을 4로 설정한 표준 변형 기대 최대화(VEM) 알고리즘을 사용하여 LDA 분석을 수행하는 데 사용되었습니다.4 문서별 토픽 분포에 대한 디리클레 선행의 매개변수인 알파는 토픽모델 패키지 기본값인 50/k에 따라 시작값이 할당되었습니다. 이 분석은 '유니그램'(단일 단어) 항목을 사용하여 수행되었습니다. '준비되지 않음' 또는 '유능하지 않음'과 같은 부정적 수식어의 영향을 포착하기 위해 유니그램 + 빅그램(두 단어 항목) 결합 분석을 사용하여 분석을 반복했습니다. 빅그램의 추가는 결과에 큰 영향을 미치지 않았으며 단순화를 위해 이 원고에서는 생략했습니다. 문서-토픽 확률(감마)을 사용하여 LDA에서 생성된 토픽과 EPA 위임 수준의 매핑을 분석했습니다. 이 분석은 각 개별 EPA(외상, 일반 외과 상담 등)에 대해 반복되었습니다. 
EPA comments were cleaned for LDA analysis by removing contractions and special characters and then tokenized into individual words using the tm package in R.9 Stop words (commonly used words in the English language that typically provide little meaning such as “the”, “and”, etc.) were removed, along with any words less than three letters long. Duplicate words were not removed. Assessments with an entrustment level of 0 were removed due to low frequency (n = 8 out of 1015). The topicmodels package was used to perform the LDA analysis using the standard variational expectation-maximization (VEM) algorithm with k topics set at 4 to match the number of EPA entrustment levels (“1”, “2”, “3”, “4”) in the data.4 Alpha, the parameter of the Dirichlet prior for the per-document topic distribution, was assigned a starting value per the topicmodels package default of 50/k. This analysis was performed using ‘unigram’ (single word) items. The analysis was repeated using a combined unigram + bigram (two word item) analysis to help capture the impact of negative modifiers such as ‘not ready’ or ‘not competent’. The addition of bigrams did not significantly impact the results and were omitted from this manuscript for simplicity. The mapping of LDA-generated topics to EPA entrustment levels was analyzed using document-topic probabilities (gammas). This analysis was repeated for each individual EPA (Trauma, General Surgical Consultation, etc.).

각 주제와 연관된 상위 10개 단어(단어-주제 확률[베타]를 사용하여 계산)를 수동으로 검토하여 주제가 위임 수준과 일관되게 일치하는지 확인했습니다. 한 명의 외과 레지던트가 위임 수준에 따라 다르며 자율성과 연관된 단어를 식별했습니다. 이러한 단어는 위임 수준에 따라 색상이 지정된 상자(낮음=빨간색, 중간=노란색, 높음=초록색)를 사용하여 수동으로 강조 표시한 다음 다른 저자 4명(외과의사 및 교육 과학자)이 이 과제를 검토했습니다. 이 수동 검토는 체계적이지 않고 비구조적이라는 점에 유의하는 것이 중요합니다. 토픽 모델링으로 생성된 토픽을 해석하는 한 가지 방법은 없으며, 토픽 모델링을 시도하는 모든 그룹은 특정 프로젝트의 요구 사항에 적합한 방법을 선택하는 것이 좋습니다. 이 수동 검토는 컴퓨터로 생성된 주제가 사람이 이해할 수 있는지 신속하게 확인하는 방법으로, EPA 평가 수준을 그룹으로 완벽하게 분류했지만 해석 가능한 패턴이나 내러티브를 제공하지 못하는 주제는 실제 유용성이 제한될 수 있습니다. 
The top ten words associated with each topic (calculated using word-topic probabilities [betas]) were manually reviewed to determine if the topics coherently corresponded to the entrustment levels. A single surgery resident identified words that differed between entrustment levels and were associated with autonomy. These words were manually highlighted using boxes colored according to the level of entrustment they appeared to represent (low = red, intermediate = yellow, high = green) and then these assignments were reviewed by 4 other authors (surgeons and education scientists). It is important to note that this manual review was unstructured, and not systematic. There is no one way to interpret the topics created by topic modeling, and we recommend that any group attempting to do so select a method well suited to the needs of their specific project. This manual review was a way to quickly check that the computer-generated topics were understandable by humans—topics that perfectly sorted EPA assessment levels into groups but failed to provide any interpretable pattern or narrative would have limited real-world utility.

이 프로젝트는 기관 보건 과학 IRB의 검토를 거쳐 공식적인 검토가 면제된 것으로 인증되었습니다. 사전 동의는 면제되었습니다. 모든 데이터 분석 및 시각화는 R 3.6.1(오스트리아 비엔나, 통계 컴퓨팅을 위한 R 재단)을 사용하여 수행되었습니다. 
This project was reviewed by the institutional Health Sciences IRB and certified as exempt from formal review. Informed consent was waived. All data analysis and visualizations were performed using R 3.6.1 (R Foundation for Statistical Computing, Vienna, Austria).

결과
Results

LDA-EPA 상관관계
LDA-EPA correlation

2018년 7월부터 2020년 1월까지 1015개의 교수진 EPA 평가가 수집되었으며, 이 중 97%는 자유 텍스트 코멘트와 연관되어 있었습니다. 이러한 코멘트는 32,215개의 단어로 구성되었습니다. 중지 단어, 길이가 3글자 미만인 단어, 레벨 0 평가를 제거한 후 13,364개의 단어가 남았습니다. 단어는 모든 EPA에 고르게 분포되어 있었으며, 각 EPA에는 최소 1831개의 단어가 포함되어 있었습니다. 
1015 faculty EPA assessments were collected between July 2018 and January 2020; 97% of these assessments were associated with free text comments. These comments consisted of 32,215 words. After removal of stop words, words less than three letters in length, and level 0 assessments, 13,364 words remained. Words were well distributed across all EPAs, with each EPA containing at least 1831 words.


5개의 EPA를 모두 단일 그룹으로 분석했을 때, LDA 알고리즘은 1:1로 매핑되는 토픽을 EPA 위임 수준 1-4에 식별할 수 있었습니다(모든 감마 >0.99)(그림 1). 안타깝게도 이러한 주제는 수준 간 위임의 차이보다는, 각 위임 수준에 일반적으로 할당되는 서로 다른 EPA를 정성적으로 반영했습니다. 따라서 더 의미 있는 토픽이 생성되는지 확인하기 위해 개별 EPA에 대해 개별적으로 LDA 분석을 반복했습니다. 그 결과, 위임 수준 간의 매우 효과적인 구분이 개별 EPA 수준에서 재현되었고(모든 감마 >0.99), 더 이해하기 쉬운 토픽이 생성되었습니다(그림 2, 그림 3, 그림 4, 그림 5, 그림 6). 

When all 5 EPAs were analyzed together as a single group, the LDA algorithm was able to identify topics that mapped 1:1 onto EPA entrustment levels 1–4 (all gammas >0.99) (Fig. 1). Unfortunately, these topics qualitatively reflected the different EPAs commonly assigned to each entrustment level, rather than differences in entrustment between levels. Therefore, the LDA analysis was repeated for each EPA individually to see if more meaningful topics would be generated. The highly effective discrimination between entrustment levels was replicated at the individual EPAs level (all gammas >0.99), and more comprehensible topics were generated (Fig. 2, Fig. 3, Fig. 4, Fig. 5, Fig. 6).

 

주제 해석
Topic interpretation

개별 EPA에 대해 발견된 주제는 해당 위임 수준 아래에 표시됩니다(그림 2, 그림 3, 그림 4, 그림 5, 그림 6). 예시 단어는 한 명의 검토자가 위임 수준에 따라 색상이 지정된 상자를 사용하여 수동으로 강조 표시했습니다(낮음 = 빨간색, 중간 = 노란색, 높음 = 녹색). 조사된 모든 개별 EPA에서 낮은 위임 단어에서 높은 위임 단어로 논리적인 추세가 있는 것으로 보입니다(그림 2, 그림 3, 그림 4, 그림 5, 그림 6). 예를 들어, RLQ 통증 EPA(그림 4)의 경우,

  • 위임 수준 1과 2는 충수절제술의 기술적 측면("기구", "손/손/취급", [따라] "지시")을 배우는 것을 설명하는 것으로 보이는 반면,
  • 위임 수준 3과 4는 독립적으로 사례를 완료하는 것, 종종 후배 전공의를 감독하면서("독립적으로", "완료", "감독", "취하다", "후배", "레지던트", "관리") 설명하는 것처럼 보였습니다.

흥미롭게도 레벨 3은 사례의 기술적 난이도("간단함")를 명확히 하는 것으로 보이며, 이는 레벨 3과 4 수행 간의 중요한 차이를 강조할 수 있습니다. 
The topics uncovered for individual EPAs are shown underneath the corresponding entrustment levels (Fig. 2, Fig. 3, Fig. 4, Fig. 5, Fig. 6). Illustrative words were manually highlighted by a single reviewer using boxes colored according to the level of entrustment they appeared to represent (low = red, intermediate = yellow, high = green). There appears to be a logical trend from low entrustment words to higher ones for all of the individual EPAs examined (Fig. 2, Fig. 3, Fig. 4, Fig. 5, Fig. 6). For example, for the RLQ Pain EPA (Fig. 4) entrustment levels 1 and 2 seem to describe learning technical aspects of an appendectomy (“instruments”, “hand/hands/handling”, [following] “directions”), while levels 3 and 4 seem to describe independently completing cases, often while supervising junior residents (“independently”, “complete”, “supervise”, “taking”, “junior”, “residents”, “management”). Interestingly, level 3 appears to clarify the technical difficulty of the case (“straightforward”), which may highlight a critical difference between level 3 and 4 performance.

마찬가지로, 외상 EPA 수행에 있어 위임의 경로는

  • 기본 평가("초기", "평가", "2차", "조사")를 학습하는 것부터
  • 효과적으로 의사소통하고 적절한 후속 연구를 지시하는 것("의사소통", "영상"),
  • 마지막으로 이전의 모든 기술을 효과적으로 수행하고 외상 베이를 관리하는 것("우수", "침착")으로 추적할 수 있습니다(그림 6).

평가된 나머지 세 개의 EPA에서도 유사한 일관된 경향을 발견할 수 있습니다(그림 2, 그림 3, 그림 5). 
Similarly, the path to entrustment in the performance of Trauma EPAs may be traced

  • from learning the fundamental evaluation (“initial”, “assessment”, “secondary”, survey”)
  • to communicating effectively and ordering appropriate follow up studies (“communication”, “imaging”),
  • to finally performing all of the previous skills effectively and managing the trauma bay (“excellent”, “calm”) (Fig. 6).

Similar coherent trends can be found in the remaining three EPAs evaluated (Fig. 2, Fig. 3, Fig. 5).

토론
Discussion

LDA는 다양한 EPA 위임 수준과 관련된 텍스트 피드백의 고유한 패턴을 식별할 수 있습니다. LDA를 사용하여 생성된 토픽은 EPA 위임 수준에 합리적으로 매핑됩니다. 이는 실제 적용 가능성도 있는 중요한 개념 증명입니다. 첫째, 수술 교육에 EPA를 구현하는 것은 진화하는 과정입니다. 각 위임 로드맵에 명시된 현재 행동은 외과 교육 전문가들이 전문가 의견을 바탕으로 작성하고 개선한 것입니다.2 전문가 의견은 항상 유용한 출발점이지만, 이 연구에서 확인된 EPA 위임 수준-LDA 주제 쌍은 구현된 EPA 시스템 내에서 일하는 광범위한 교육자 풀로부터 실제로 각 위임 수준을 차별화하는 요소에 대한 데이터를 제공합니다. 이는 교육생의 자율성/위임과 의미 있는 상관관계가 있는 행동에 대한 중요한 통찰력을 제공하며, 데이터에 기반하여 기존 위임 설명을 수정하고 정보에 기반한 향후 위임 로드맵을 작성할 수 있게 해줍니다. 
LDA is capable of identifying unique patterns of text feedback associated with different EPA entrustment levels. Topics generated using LDA map sensibly to EPA entrustment levels. This is an important proof-of-concept that also has practical applicability. First, the implementation of EPAs into surgical education is an evolving process. The current behaviors ascribed to each entrustment roadmap were created and refined by experts in surgical education based on their expert opinion.2 While expert opinion is always a useful starting point, the EPA entrustment level—LDA topic pairs identified in this study provide data from a broad pool of educators working within an implemented EPA system on what actually differentiates the distinct entrustment levels. This provides important insight into what behaviors meaningfully correlate with trainee autonomy/entrustment and will allow for a data-driven revision of the existing entrustment descriptions and informed creation of future entrustment roadmaps.

더 넓은 범위에서 이 원고는 외과 교육에서 NLP 전략의 잠재적 유용성을 보여줍니다. 놀랍지 않게도 외과 교육자들은 서로 다른 EPA 위임 수준에서 레지던트 성과에 대해 설명할 때 서로 다른 어휘와 구조를 사용합니다. 중요한 것은 LDA가 이러한 중요한 차이점을 포착하고 평가자가 해석할 수 있는 방식으로 위임 수준의 주요 차별화 측면을 강조할 수 있었다는 점입니다. 이는 자연어 처리 기술을 외과 교육에 광범위하게 통합하는 데 있어 유망한 첫 단계입니다. 레지던트 성과에 대한 대량의 텍스트 기반 데이터를 통합하는 평가 프레임워크가 개발됨에 따라 이러한 데이터를 대규모로 해석할 수 있는 전략이 필요합니다. NLP는 데이터를 통해 외과 교육을 확장하는 데 도움이 될 수 있습니다. 예를 들어, 추출 기반의 자동화된 문서 요약은 레지던트에게 제공되는 내러티브 피드백 코퍼스 내에서 가장 중요한 코멘트를 강조 표시할 수 있어 CCC 위원회를 통해 신속하게 검토할 수 있습니다.10,11 감독형 LDA(sLDA)와 같은 예측 모델링 기법은 평가를 그룹으로 분류하는 데 가장 능숙한 주제 대신 응답(점수)을 예측하는 잠재 주제를 식별하는 것을 목표로 관련 응답이 포함된 텍스트 평가 본문(예: 쌍을 이룬 위임 점수를 가진 EPA 평가)을 사용하여 학습할 수 있습니다. 그런 다음 레이블이 지정되지 않은 평가의 점수를 모델을 사용하여 추정할 수 있습니다. 이러한 시스템은 개별 레지던트에 대한 대량의 텍스트 데이터에 대한 요약적인 해석을 제공할 수 있어 잠재적으로 CCC의 의사 결정을 지원할 수 있습니다. 또는 교육자는 전공의에게 형성적인 무료 텍스트 피드백을 제공하는 데만 집중하고, 각 EPA 의견을 '점수'로 종합적으로 평가하는 작업은 컴퓨터에 맡기는 시스템을 상상해 볼 수 있습니다. 

On a broader scale, this manuscript demonstrates the potential utility of NLP strategies in surgical education. Not surprisingly, surgical educators use different vocabulary and structure in their comments on resident performance at different EPA entrustment levels. Critically, LDA was able to pick up on these important differences, and highlight key differentiating aspects of entrustment levels in ways that are interpretable to human raters. This is a promising first step in a broader integration of NLP into surgical education. As assessment frameworks that consolidate large volumes of text-based data on resident performance are developed, strategies to interpret this data at scale are needed. NLP can help surgical education scale with its data. For example, extraction-based automated document summarization can highlight the most important comments within a corpus of narrative feedback provided to a resident—allowing for rapid review via CCC committee.10,11 Predictive modeling techniques, such as supervised LDA (sLDA) can be trained using a body of text assessments with an associated response (e.g. EPA assessments with a paired entrustment score) with the goal of identifying latent topics predictive of the response (score) instead of the topics most adept at classifying the assessments into groups. Then an unlabeled assessment’s score can be estimated using the model. Such a system would be able to provide a summative interpretation of a large body of text data for any individual resident, potentially assisting CCC decision making. Or one could imagine a system in which educators can focus only on providing formative free text feedback to their residents, while the job of summatively assessing this each EPA comment for a ‘score’ could be left to the computer.

외과 교육에서 NLP의 잠재적 가능성에도 불구하고 이 연구에는 몇 가지 한계가 있습니다. 무엇보다도, 이 연구는 단일 센터에서 단일 EPA 평가를 시행한 연구이므로 일반화 가능성에 한계가 있습니다. 향후 무료 텍스트 데이터를 EPA 평가에 통합하는 다른 센터와 협력하여 위치 또는 구현 전략에 따라 피드백 패턴이 어떻게 달라질 수 있는지 살펴보고자 합니다. 이 연구는 또한 일반외과를 위해 만들어진 처음 5개의 EPA만 평가하는데, 이는 레지던트가 졸업할 때까지 축적해야 하는 전체 수술 지식의 일부만을 다루고 있습니다. NLP 기술은 낮은 품질의 텍스트 데이터를 보완할 수 없습니다. 평가자는 여전히 알고리즘이 분석할 수 있도록 레지던트에게 고품질 텍스트 피드백을 제공해야 합니다. 마지막으로, 현재의 토픽 모델링 기법은 여전히 '단어 가방' 모델에 국한되어 있어 결과 토픽에 대한 사람의 해석이 필요합니다. 이 원고의 다른 연구자나 독자는 우리의 해석에 동의하지 않을 수 있습니다. 저희의 데이터와 해석은 EPA의 위임과 자율성에 대한 논의를 시작하기 위한 것이지 최종적인 권위 있는 중재자 역할을 하는 것이 아닙니다. 궁극적으로 컴퓨터가 자연어 데이터에서 의미론(개념 가방) 또는 실용론(내러티브 가방)을 구분하여 더 유용한 정보를 제공할 수 있게 되겠지만, 그렇게 될 때까지 이러한 중요한 논의를 미룰 이유가 없다고 생각합니다. 
Despite the potential promise for NLP in surgical education, this study has several limitations. Foremost, this was a single center study with a single implementation of EPA assessments, limiting generalizability. We hope to collaborate with other centers that incorporate free text data into their EPA assessments in the future to see how patterns in feedback might vary based on location or implementation strategy. This study also only assesses the first 5 EPAs created for general surgery, which cover only a fraction of the total knowledge of surgery which residents must accumulate by graduation. NLP techniques cannot make up for low quality text data. Evaluators will still need to provide high-quality text feedback to residents for the algorithms to analyze. Finally, current topic modeling techniques are still limited to the ‘bag of words’ model, requiring human interpretation of resulting topics. Different researchers or readers of this manuscript may disagree with our interpretations. We encourage this—our data and interpretations are meant to start discussions about entrustment and autonomy in EPAs, not function as a final authoritative arbiter. Eventually, computers may be able to distinguish semantics (bag of concepts) or pragmatics (bag of narratives) from natural language data to provide more useful input, but we see no reason to delay these important discussions until that is possible.

결론
Conclusions

잠재 디리클레 할당을 사용한 토픽 모델링은 EPA 위임 수준을 구분할 수 있습니다. LDA로 생성된 주제는 위임 수준에 일관되게 매핑되어 외과의 교육자가 수련의의 자율성을 설명하고 위임을 부여하는 방식에 대한 통찰력을 제공합니다. 이 데이터는 향후 EPA 위임 로드맵을 작성하고 기존 로드맵을 데이터 기반으로 개정하는 데 사용할 수 있습니다. 외과 교육에서 NLP 방법론이 더욱 발전하면 외과의사 교육자는 대량의 텍스트 평가 데이터를 확장 가능한 방식으로 분석할 수 있습니다. 

Topic modeling using latent Dirichlet allocation is capable of discriminating between EPA entrustment levels. Topics generated by LDA map coherently to entrustment levels, providing insight on how surgeon educators describe trainee autonomy and grant entrustment. This data can be used to inform the creation of future EPA entrustment roadmaps, and data-driven revision of existing ones. Further development of NLP methodologies in surgical education may allow surgeon educators to analyze large amounts of text assessment data in a scalable fashion.

 


Am J Surg. 2021 Feb;221(2):369-375. doi: 10.1016/j.amjsurg.2020.11.044. Epub 2020 Nov 26.

Natural language processing and entrustable professional activity text feedback in surgery: A machine learning model of resident autonomy

Affiliations collapse

1Department of Surgery, University of Wisconsin School of Medicine and Public Health, Madison, WI, USA.

2Department of Emergency Medicine, University of Wisconsin School of Medicine and Public Health, Madison, WI, USA.

3Department of Surgery, University of Wisconsin School of Medicine and Public Health, Madison, WI, USA. Electronic address: greenbergj@surgery.wisc.edu.

PMID: 33256944

PMCID: PMC7969407

DOI: 10.1016/j.amjsurg.2020.11.044

Free PMC article

Background: Entrustable Professional Activities (EPAs) contain narrative 'entrustment roadmaps' designed to describe specific behaviors associated with different entrustment levels. However, these roadmaps were created using expert committee consensus, with little data available for guidance. Analysis of actual EPA assessment narrative comments using natural language processing may enhance our understanding of resident entrustment in actual practice.

Methods: All text comments associated with EPA microassessments at a single institution were combined. EPA-entrustment level pairs (e.g. Gallbladder Disease-Level 1) were identified as documents. Latent Dirichlet Allocation (LDA), a common machine learning algorithm, was used to identify latent topics in the documents associated with a single EPA. These topics were then reviewed for interpretability by human raters.

Results: Over 18 months, 1015 faculty EPA microassessments were collected from 64 faculty for 80 residents. LDA analysis identified topics that mapped 1:1 to EPA entrustment levels (Gammas >0.99). These LDA topics appeared to trend coherently with entrustment levels (words demonstrating high entrustment were consistently found in high entrustment topics, word demonstrating low entrustment were found in low entrustment topics).

Conclusions: LDA is capable of identifying topics relevant to progressive surgical entrustment and autonomy in EPA comments. These topics provide insight into key behaviors that drive different level of resident autonomy and may allow for data-driven revision of EPA entrustment maps.

Keywords: Assessment; Entrustable professional activities; Feedback; Natural language processing; Surgery education.

구두평가 맥락에서 질문하기: 분류체계와 기본원칙 (J Med Educ Curric Dev. 2020)
Prompting Candidates in Oral Assessment Contexts: A Taxonomy and Guiding Principles
Jacob Pearce and Neville Chiavaroli

 

 

배경
Background

의과대학 및 의학전문대학원 교육 과정의 고난도 시험에서 시험관들은 구두 평가 형식, 특히 시험관이 수험생에게 질문을 던지는 것에 대해 불안감을 느끼는 경우가 많습니다. 구조화되지 않은 구술 시험의 신뢰성과 타당성에 대한 오랜 우려1-3와 시험관의 객관성과 일관성에 기반한 OSCE 형식의 등장에도 불구하고, 구술 시험은 임상적 추론 및 전문적 행동과 같은 고차원적 역량을 평가하는 중요한 방법으로 많은 임상 평가 상황에서 살아남아 번성하고 있습니다. 이는 진정성, 유연성 및 대화형 형식으로 인식되기 때문입니다.4-6 그러나 시험관의 역할에 대한 오해와 응시자 수행에 대한 질문, 자극 및/또는 프로빙의 적절한 사용으로 인해 그 가치가 손상될 수 있습니다. 
In high-stakes examinations in both medical school and post-graduate medical education, examiners often feel uneasy about the oral assessment format, particularly the notion of examiner prompting of the examinee. Despite long-standing concerns about the reliability and validity of unstructured oral exams,1-3 and the emergence of the OSCE format founded upon examiner objectivity and consistency, the Viva survives (and arguably thrives) in many clinical assessment contexts as a valued method for assessing higher order competencies such as clinical reasoning and professional behaviour. It does so due to its perceived authenticity, flexibility and interactive format.4-6 Yet its value can be compromised through misunderstanding of the role and appropriate use of examiner questioning, prompting and/or probing of candidate performance.

의과대학과 전문의 수련 대학에서 우리는 이 문제에 대해 시험관들 사이에서 상당한 혼란이 있음을 발견했습니다. 시험관이 잘 훈련된 경우에도 어떤 종류의 프롬프트 관행이 허용되는지 또는 아예 허용되는지 여부에 대한 불확실성이 남아 있습니다. 의심할 여지 없이 시험관들은 옳은 일을 하고 싶어 합니다. 구두 평가 형식 및/또는 다양한 평가 맥락에서 프롬프트의 의미에 대한 정확성이 부족하기 때문에 문제가 발생할 수 있다고 생각합니다. 우리는 주로 프롬프트와 구술 시험 간의 관계에 초점을 맞추고 있지만, 프롬프트는 더 넓은 범위의 시험, 실제로 평가자와 응시자 간의 상호 작용이 수반되는 모든 평가 방법에서 중요한 고려 사항이라고 주장합니다. 예를 들어, 프롬프트는 미니 임상 평가 연습(min-CEX), 객관적 구조화 임상 시험(OSCE), 절차적 기술 관찰(DOPS), 다중 미니 인터뷰(MMI), 표준화된 사례 기반 토론 등 시험관과 응시자 간에 언어적 상호작용이 있는 다른 많은 평가 유형에서 공통으로 사용되는 요소입니다.  
In medical schools and specialist training colleges, we have noticed considerable confusion amongst examiners on this issue. Even when examiners are well-trained, there remains uncertainty about what kind of prompting practices are permissible, or whether it is permissible at all. Undoubtedly, examiners want to do the right thing. We suggest that the problem may arise due to a lack of precision around what prompting means in the oral assessment format, and/or in different assessment contexts. Although we focus mainly on the relationship between prompting and oral examinations, we argue that prompting is an important consideration in a wider range of examinations and, indeed, any assessment method that involves an interaction between assessor and candidate. For instance, prompting is a common component of many other assessment types where there is verbal interaction between examiner and candidate, including the Mini-Clinical Evaluation Exercise (min-CEX), Objective Structured Clinical Examinations (OSCEs,) Direction Observation of Procedural Skills (DOPS), Multiple Mini Interviews (MMIs) and Standardised Case-Based Discussions. 

우리는 프롬프트가 구두 평가의 유효성에 결정적인 역할을 하는 측면이며, 이 형식에 대한 학술 문헌에서 더 많은 관심을 기울일 필요가 있다고 주장합니다. 구두 평가에 대한 심층 분석에서5 Joughin은 '상호작용'이라는 차원과 '프로빙'이라는 용어를 사용하여 이 기능이 형식의 고유한 장점에 기여할 뿐만 아니라 유효성 관점에서 주요 과제를 구성한다는 점을 인정합니다. 다른 저자들은 구두 평가 시 다양한 프롬프트 관행이 응시자에게 미칠 수 있는 잠재적 영향에 대해 언급했습니다.7,8 그러나 이 외에도 프롬프트의 성격과 형태에 대한 논의는 문헌에서 상대적으로 거의 찾아볼 수 없습니다. 예를 들어, OSCE에 대한 한 종합 가이드에서 프롬프트에 대한 언급은 'OSCE에서 응시자에게 프롬프트를 하는 것이 적절한지에 대한 의견은 다를 수 있지만, 모든 응시자에게 동일한 경험을 제공하기 위해 모든 시험관은 프롬프트와 관련하여 합의된 정책을 미리 알고 있어야 한다'는 다소 모호한 언급만 있습니다.9 구두 평가의 타당성을 명시적으로 탐구하고 구체적인 실행 지침을 제공하는 논문에서도 프롬프트 문제에 대해서는 거의 언급이 없습니다.2
Prompting, we argue, is an aspect of oral assessment that is crucial to the validity of its implementation, and deserves more attention in the scholarly literature on the format. In his in-depth analysis of the oral assessment,5 Joughin acknowledges, under the dimension of ‘interaction’ and using the term ‘probing’, that this feature contributes to the unique advantages of the format, as well as constituting a major challenge from a validity perspective. Other authors have noted the potential impact that different prompting practices can have on candidates during oral assessment.7,8 Beyond this, however, there is relatively little discussion of the nature and forms of prompting in the literature. For example, in one comprehensive guide to the OSCE, prompting receives scant and somewhat ambivalent mention: ‘Opinions will differ as to whether it is appropriate to prompt candidates in an OSCE, but all examiners should know the agreed policy with regard to prompting in advance in order that all candidates are given the same experience’.9 Even a paper explicitly exploring the validity of oral assessment and offering specific guidelines for practice has little to say about the issue of prompting.2

우리의 경험에 따르면 실무자들이 프롬프트를 개념화하는 방식과, 실제로 프롬프트를 사용하는 방식에는 상당한 차이가 있습니다. 프롬프트 정책과 기법에 대한 명확성이 필수적입니다. 따라서 이 백서의 목표는 시험관이 사용할 수 있는 다양한 형태의 프롬프트와 응시자에게 미치는 잠재적 영향에 대한 명확한 가이드를 제공하고 실무에 대한 지침 원칙을 제시하는 것입니다. 
Our experience is that there is considerable variation in how practitioners conceptualise prompting and how it is deployed in practice. Clarity around prompting policies and techniques is essential. Our aim in this paper therefore is to provide a clearer guide to the different forms of prompting available to examiners, their potential effects on candidates, and to suggest guiding principles for practice.

 

프롬프트의 분류
A taxonomy of prompting

프롬프트의 용어와 관련 관행을 이해하기 위해 프롬프트의 분류법을 제시합니다. 이 분류법은 개별적인 범주가 아닌 연속적인 유형의 연속체라고 생각합니다. '프롬프트'라는 용어는 다음 5가지 활동 중 하나를 지칭할 수 있습니다.

  • 과제 제시하기,
  • 정보 반복하기,
  • 질문 명확히 하기,
  • 질문 탐색하기,
  • 질문 유도하기

평가 상황에 따라 처음 4가지 유형의 프롬프트가 유용할 수 있습니다. 마지막 유형의 프롬프트는 타당도에 심각한 위협이 될 수 있습니다. 이 용어를 사용할 때는 먼저 해당 용어가 문맥에서 의미하는 바를 명확히 설명해야 한다는 점을 강조하는 것이 중요합니다. 
In order to unpack the term and associated practices, we present a taxonomy of prompting. We think of this taxonomy as a continuum of types, rather than as discrete categories. As we see it, the term ‘prompting’ may refer to any of the 5 following activities:

  • presenting the task;
  • repeating information;
  • clarifying questions;
  • probing questions; and finally,
  • leading questions.

The first 4 types of prompting may be useful, depending on the assessment context. The final type of prompting poses a significant threat to validity. It is important to stress that when the term is deployed, what it means in context first needs to be elucidated.

스크립트의 특정 문구
Specific wording on a script

가장 간단한 형태로 '프롬프트'는 단순히 응시자에게 과제를 제시하는 시험 또는 평가 문제의 특정 문구를 의미합니다. 이는 시험 중 시험관이 모든 응시자에게 제공해야 하는 질문 또는 정보를 나타냅니다. 이 유형의 프롬프트는 시험관의 최소한의 상호작용을 나타내며 가장 중립적인 형태의 프롬프트를 나타냅니다.
In its simplest form, a ‘prompt’ simply refers to the specific wording on an examination or assessment question which presents the task to candidates. It represents a question or information that examiners should provide all candidates during the examination. This class of prompting represents the minimum level of interaction from the examiner and the most neutral form of prompting.

반복 정보
Repeating information

두 번째 유형의 프롬프트는 단순히 정보를 반복하는 것입니다. 이 경우 시험관은 응시자가 제공받은 정보 중 잊어버린 것으로 보이는 정보를 다시 생각하도록 상기시키려는 의도가 있습니다. 

  • '이 사람은 80세 노인이라는 것을 기억하세요. . ' 또는 
  • '이전 기록에 비추어 볼 때 여전히 그렇습니까?' 

이러한 형태의 프롬프트는 원래 프롬프트의 문구를 바꾸거나, 응시자가 의도하지 않은 방향으로 내용을 받아들이는 경우 응시자를 원래 프롬프트로 다시 안내하는 형태를 취할 수 있습니다. 이러한 개입은 일반적으로 응시자에게 이전 답변이 궤도를 벗어났다는 것을 우회적으로 알리는 방식으로만 표현하는 것이 가장 좋으며, 시험관이 명백한 불만이나 좌절감을 표출해서는 안 됩니다. 이러한 형태의 프롬프트는 응시자의 응답이 문제 프롬프트를 잘못 기억하거나 오해한 결과인 것이 분명해 보이는 경우 응시자에게 스스로 수정할 기회를 주기 위한 것일 뿐입니다.
A second type of prompting is simply repeating the information. Here, examiners intend to remind the candidate to think about information they have been provided, and appear to have forgotten.

  • ‘Remember that this is an 80-year-old. . .’ or
  • ‘Is that still the case in light of the previous history?’

This form of prompting may take the form of re-phrasing the original prompt, or if a candidate is taking the content in an unintended direction, of re-directing the candidate back to the original prompt. Such intervention is usually best expressed in a way that only incidentally cues the candidate that their previous responses were off-track; that is, it should not be accompanied by obvious expressions of disapproval or frustration by the examiner. This form of prompting is simply aimed at giving the candidate the opportunity to correct themselves when it seems clear that their response is a result of misremembering or misunderstanding the question prompt.

명확화 질문 
Clarifying questions

셋째, '좀 더 구체적으로 설명해 주시겠습니까?' 또는 'X가 무슨 뜻입니까?'와 같이 명확히 하기 위한 질문으로 프롬프트가 더 나아갈 수 있습니다. 명확화 질문은 일반적으로 사용되지만, 일부 시험관들은 공식적인 평가 상황에서 부적절할 수 있다고 우려합니다. 이는 시험의 목적과 맥락에 따라 달라집니다. 예를 들어, 응시자에게 자신의 답변을 명확히 할 기회를 주는 것을 목표로 하는 질문은 대부분의 구두 평가 상황에서 적절해 보일 수 있습니다. 결국 학습자가 무엇을 알고 이해하고 있는지 알아내는 것이 평가의 근본적인 목표 중 하나이기 때문입니다. 모든 응시자가 자신의 의미를 명확히 할 수 있는 유사한 기회를 얻을 수 있도록 시험관의 일관성이 중요합니다. 시험관의 책임은 응시자에게 은밀하게 힌트를 주는 것이 아니라 전적으로 응답을 명확히 하는 데 목적이 있음을 전달하는 것입니다.

  • 반대로, '정확히 어떤 유형입니까?', '다른 방식으로 표현할 수 있습니까?'와 같이 대체 답변을 찾는 질문은 프로빙 또는 리딩으로 분류하는 것이 더 좋습니다. 고난도 평가에 응시하는 응시자는 일반적으로 이러한 단서에 매우 민감하게 반응합니다.

Third, prompting may go further to indicate clarifying questions, such as ‘Can you be more specific?’ or ‘What do you mean by “X”?’ Questions of clarification are commonly used, but some examiners worry that they may be inappropriate in formal assessment contexts. This will depend on the purpose and context of the examination. For example, a question which aims to give the candidate the opportunity to clarify their response would seem appropriate in most oral assessment contexts; it is, after all, one of the fundamental aims of assessment, to find out what the learner knows and understands. Consistency by examiners is key, so that all candidates get similar opportunities to clarify their meaning. It is the examiner’s responsibility to convey that their purpose is wholly to clarify the response, not surreptitiously cue the candidate. In contrast, a question that searches for an alternative response is better categorised as probing or leading; for example, ‘What type exactly?’, ‘Can you phrase that in a different way?’ Candidates in high-stakes assessment are usually highly attuned to such clues.

탐구 질문
Probing questions

넷째, 시험관은 탐색 질문을 할 수 있습니다. 이는 사례와 시험관마다 표준화하기가 더 어렵습니다. 응시자의 반응에 따라 시험관은 응시자가 특정 지식을 얼마나 잘 이해하고 있는지 또는 더 넓은 임상 맥락에서 그 중요성을 확인하기 위해 더 심층적인 질문을 던질 수 있습니다.

  • '그 접근법의 어떤 의미가 있을 수 있습니까?', '어떤 상황에서 그 접근법이 적절할까요?' 등 

일부 형태의 구조화된 구술 평가에서는 응시자의 임상적 추론 능력을 평가하기 위해 이러한 형태의 프롬프트가 특별히 요구됩니다.10,11 이러한 형태의 프로빙은 응시자의 임상적 의사결정 능력의 정도를 평가하는 예로서 Simpson과 Ballard의 논문12에 설명되어 있습니다. 또한 Pylman과 Ward13가 질문(형성적 맥락에서의 질문)에 대한 12가지 팁 기사에서 제공한 지침, 특히 '프로빙'과 '찌르기'를 구분하고, 총괄 시험을 실시하는 동안에도 심리적으로 안전한 분위기를 조성하는 것이 중요하다는 점을 지지합니다.
Fourth, examiners may be permitted to ask probing questions. This is more difficult to standardise across cases and examiners. Depending on how the candidate responds, an examiner prompts by probing deeper to ascertain how well the candidate understands the specific piece of knowledge, or its significance in a broader clinical context, for example,

  • ‘What might be some implications of that approach?’, ‘Under what circumstances would that be appropriate?’

Some forms of structured oral assessment specifically call for this form of prompting in order to assess the candidate’s clinical reasoning ability.10,11 This form of probing is illustrated in the paper by Simpson and Ballard,12 as an example of assessing the extent of candidates’ clinical decision-making skills. We also endorse the guidance provided by Pylman and Ward13 in their 12 tips article on questioning (in formative contexts), especially the importance of distinguishing ‘probing’ from ‘prodding’, and attempting to create a climate of psychological safety, even while conducting a summative examination.

이러한 질문형 프롬프트에서는 응시자의 특정 지식과 응답에 따라 시험관의 프롬프트 내용이 달라질 수 있기 때문에, 일관성보다는 동등성의 개념이 더 유용한 원칙으로 보입니다. 시험관은 서로 다른 특정 문제 또는 시험의 다른 지점이 프로빙에 사용되더라도 프로빙의 성격이 가능한 한 공평하게 이루어지도록 해야 합니다프로빙의 또 다른 위험은 시험관이 자신의 특정 '취미 분야(관심분야)'에만 집중할 수 있다는 것입니다. 이는 시험의 청사진 정렬 및 내용 타당성에 대한 불공정성과 위협의 중요한 원천으로 인식되어야 하며, 따라서 시험관 교육 시 특별히 다루어야 합니다. 시험관들의 이러한 접근 방식은 구술 시험의 목적에 대한 상반된 이해를 나타낼 수 있으며, 일부 시험관들은 이러한 평가를 대부분의 고난도 평가에서 요구되는 관찰 중심의 평가적 접근 방식이 아닌 교육 기회로 간주할 수 있습니다. 따라서 시험관 브리핑, 교육 및 선발 과정 자체의 명확성이 매우 중요합니다.
In this from of interrogative prompting, the concept of equivalence seems a more helpful principle than consistency, because the content of the examiner’s probing is likely to vary between candidates depending on their particular knowledge and responses. The examiner must ensure that the nature of the probing is as equitable as possible, even while different specific questions, or different points of the exam, are used for probing. Another risk of probing is that examiners may focus on their particular ‘hobby horses’. This needs to be recognised as a significant source of unfairness and threat to the blueprint alignment and content validity of the examination, and should therefore be specifically addressed during examiner training. Such an approach from examiners may indicate conflicting understanding of the purpose of oral examinations; some may see these assessments as teaching opportunities rather than the observation-focussed and evaluative approach which most high-stakes assessments require. This makes the clarity of examiner briefing, training and the selection process itself, crucial.

유도 질문과 모호한 질문
Leading and vague questions

마지막으로, 시험관들은 때때로 유도적인 질문을 던짐으로써 질문을 유도하기도 합니다. 이는 가장 '방해가 되는' 형태의 프롬프트이므로 대부분의 고난도 평가 상황에서는 권장하지 않습니다. 유도 질문의 일반적인 예는 다음과 같습니다:

  • '유형 II를 말씀하시는 거죠?', '그럴 것 같네요. . .'

응시자의 성과에 도움이 되지 않는 경우, '다른 것은요?'와 같이 매우 모호한 프롬프트의 형태를 취할 수도 있으며, 이는 종종 응시자와 시험관 모두를 좌절시키는 추측 게임으로 끝납니다. 시험관이 좋은 의도를 가지고 있을 수 있지만, 이러한 프롬프트는 시험관이 응시자의 성과에 연루되게 만듭니다. 모든 응시자에게 일관되게 적용하더라도 평가 결과의 타당성을 위협할 수 있습니다. 안타깝게도 이러한 유형의 프롬프트는 의도적이든 그렇지 않든 실무에서 종종 발생합니다.
Finally, examiners sometimes enact prompting by asking leading questions. This represents the most ‘intrusive’ form of prompting and is rightly discouraged in most high-stakes assessment contexts. Typical examples of leading prompts include:

  • ‘You mean type II, don’t you?’, and ‘It sounds like you would. . .’

Less helpfully to the candidates’ performance, it can also take the form of very vague prompts such as ‘What else?’, which frequently ends in a guessing game that frustrates both candidate and examiner. Although examiners may have good intentions, such prompting makes the examiner complicit in the candidate’s performance. Even if done consistently for all candidates, it threatens the validity of the assessment result. Unfortunately, this type of prompting often occurs in practice, whether intentional or otherwise.

실무 지침 원칙
Guiding principles for practice

다양한 형태의 프롬프트의 적절성을 고려할 때는 잠시 멈추고 특정 평가의 목적이 모든 이해관계자가 명확하고 잘 이해하고 있는지 확인하는 것이 중요합니다. 예를 들어,

  • 평가의 맥락이 고부담 숙달 시험인 경우 평가 리더는 단순히 정보를 반복하거나 정보를 명확히 하는 것 이상의 프롬프트를 금지할 수 있습니다.
  • 평가 맥락이 저부담 시험이고, 주로 응시자의 학습 기회로 활용되는 경우, 더 많은 질문을 던지는 것이 매우 유용할 수 있습니다.13

모든 평가에서 그렇듯이, 프롬프트에는 정해진 규칙이 있을 수 없습니다. 구두 평가에서 프롬프트를 사용할 때 고려해야 할 일반적인 원칙을 제시하지만, 평가 상황과 구체적인 목적에 따라 다른 프롬프트를 사용할 수 있는지 여부는 달라질 수 있습니다.
When considering the appropriateness of different forms of prompting, it is essential to pause and ensure that the purpose of the specific assessment is clear and well understood by all stakeholders. For example, if the assessment context is a high-stakes mastery examination, prompting beyond mere repeating information or clarifying information may be outlawed by assessment leaders. If the assessment context is lower-stakes and primarily used as a learning opportunity for candidates, more probing questions may be highly useful.13 With prompting, as arguably in all assessment, there can be no hard and fast rules. Although we present these general principles for consideration when using prompting in oral assessment, the defensibility of using different prompts will depend on the assessment context and specific purpose.

응시자와의 상호작용에서 중립적 태도를 지키기 위해 노력합니다.
Strive to be neutral in interactions with the candidate

시험관은 프롬프트를 제공할 때마다 응시자를 낙담시키거나 안심시키지 않는 방식으로 프롬프트를 제공하려고 노력해야 합니다. 응시자는 이러한 중립 원칙에 유의해야 하며, 시험관의 발언이나 몸짓에서 긍정이나 비난을 추구하지 않도록 격려해야 합니다. '잘했다' 또는 '잘하고 있다. .'와 같은 긍정적인 말이나 '음, 사실 Y 상태였어요'와 같은 정정(더 나쁘게는 끔찍한 눈동자 굴림)과 같은 부정적인 피드백은 응시자의 심리 상태와 이후 성과에 큰 영향을 미칠 수 있습니다. 경험상, 응시자의 성적을 긍정도 부정도 하지 않는 적절한 시험 '포커 페이스'를 개발하는 것은 많은 시험관에게 상당한 도전이 될 수 있습니다. 특정 시험관이 뛰어난 경우, 적절한 경우 전략적인 시험관 짝짓기를 통해 유용한 역할 모델을 제공할 수 있습니다. 
Whenever examiners prompt, they should try to do so in a way which neither discourages nor reassures the candidate. Candidates should be alerted to this principle of neutrality, and encouraged not to seek affirmation or censure in examiners’ utterances or body language. Positive comments such as ‘Good job’ or ‘Doing well. . .’, or corrections such as ‘Well, it was actually condition y’. – or worse, the dreaded eye-roll – can have significant impact on candidates’ state of mind and subsequent performance. In our experience, developing an appropriate examination ‘poker face’, offering neither affirming nor disapproving clues to candidates’ performance, can be a significant challenge for many examiners. Where certain examiners excel, they can provide helpful role models through strategic pairing of examiners, where appropriate.

모든 응시자에게 일관된 방식으로 프롬프트 사용
Use prompting in a consistent way for all candidates

응시자가 자신의 지식과 이해를 보여줄 기회가 다양할 때 불공평성이 발생합니다. 시험관은 특히 응시자의 답변을 조사할 때 접근 방식에 일관성을 유지하려고 노력해야 하지만, 앞서 언급한 바와 같이 이러한 일관성은 내용 자체뿐만 아니라 조사 방식과 정도에 있어서도 더 필요할 수 있습니다. 또 다른 문제는 프롬프트의 정도가 응시자의 결과에 어떤 영향을 미치는가 하는 것입니다. 일반적으로 프롬프트의 필요성이 클수록 점수가 낮아지지만,8,14 이는 평가 상황과 기준에 따라 달라질 수 있으므로 보편적인 원칙으로 간주해서는 안 됩니다. 응시자의 사고 과정을 존중하는 것도 중요합니다. 시험관의 조급함이 성급한 질문의 단서가 되어서는 안 됩니다. 잘 훈련되고 성찰적인 시험관은 평가 프로토콜과 신중한 판단을 결합하여 프롬프트가 적절한지 여부와 시기를 결정할 것입니다.
Unfairness arises when candidates have variable opportunities to display their knowledge and understanding. Examiners should try to be consistent in their approach, especially when probing candidate responses, although as noted, such consistency may need to be more in the manner and degree of probing as in the content itself. A further issue is how the degree of prompting should impact the candidate’s result. Typically, a greater need for prompting will translate into a lower score,8,14 but this will depend on the assessment context and criteria, and shouldn’t be assumed to be a universal principle. Respecting the candidate’s thinking processes is also important. Examiner impatience should not be a cue for hasty prompting. A well-trained and reflective examiner will combine assessment protocol with considered judgement to determine if and when a prompt is appropriate.

필요한 형태의 프롬프트에 대해 명확하고 투명하게 설명하기
Be clear and transparent about the required forms of prompting

일반적으로 이해관계자들이 프롬프트의 의미와 허용되는 프롬프트의 형태에 대해 서로 다른 개념을 가지고 있을 때 혼란이 발생합니다. 투명성은 실무에서 중요한 원칙입니다. 첫째, 평가 리더는 다양한 형태의 프롬프트에 대해 잘 알고 있어야 하며, 특정 평가 상황에서 어떤 형태가 필요한지에 대한 명확하고 정당한 근거를 가지고 있어야 합니다서면 지침은 투명성을 확보하는 데 도움이 되는 방법이며 평가자 교육 개발의 좋은 출발점입니다.
Confusion typically emerges when stakeholders have different conceptions of what prompting means, and what forms of prompting are permissible. Transparency is an important principle for practice. Firstly, assessment leaders need to be well-versed in the different forms of prompting and have clear and justifiable rationales for which forms are required in the specific assessment context. Written guidelines are a helpful way of being transparent and a good starting point for the development of assessor training.

평가자가 프롬프트 기술에 대해 적절한 교육을 받았는지 확인합니다.
Ensure assessors are adequately trained in prompting techniques

평가자는 특정 상황에서 허용되는 행동과 허용되지 않는 행동에 대해 적절히 교육받아야 합니다. 평가자가 프롬프트의 분류법을 이해하도록 돕는 것이 좋은 출발점이며, 이를 통해 다양한 형태의 프롬프트를 명확하게 파악하고 정확한 언어와 의미에 대한 공유된 이해를 바탕으로 토론과 심의가 이루어질 수 있습니다. 관련 예시와 함께 참고할 수 있는 접근 가능한 가이드라인이 도움이 됩니다. 교육 자료에는 구체적인 '해야 할 일'과 '하지 말아야 할 일'이 담긴 시험 영상이나 모의 시험이 포함될 수 있습니다. 동일한 문제를 설명하는 서면 문서보다 실제 상황과 맥락에서 실행되는 프롬프트를 보는 것이 일반적으로 더 큰 영향을 미칩니다.
Assessors need to be adequately trained in acceptable and unacceptable behaviours for the specific context. Helping assessors appreciate the taxonomy of prompting is a good place to start, and it makes different forms of prompting explicit and allows for discussions and deliberations to occur with precise language and a shared understanding of meaning. Accessible guidelines for reference with relevant examples are helpful. Training material may include video footage of examinations or mock examinations, with specific ‘dos’ and ‘don’ts’. Seeing prompting executed in practice (and in context) is usually more impactful than a written document that describes the same issue.

응시자에게 프롬프트 기대치에 대한 적절한 브리핑을 제공해야 합니다.
Ensure candidates are adequately briefed on prompting expectations

응시자는 시험관으로부터 프롬프트를 받을 수 있는지 여부와 프롬프트가 어떤 형태로 나타날 수 있는지 알아야 합니다. 프롬프트에 대한 불안은 지식, 적성 또는 기술 평가에 부수적인 평가에서 잠재적으로 복합적인 요인이 될 수 있습니다. 응시자에게 명확하고 투명하게 설명하면 이러한 불안을 완화하는 데 도움이 됩니다.4 이 과정에서 중요한 부분은 평가 중 시간 관리 책임자가 누구인지 명확히 파악하는 것입니다. 예를 들어,

  • 구술 시험의 경우 할당된 시간 내에 문제를 푸는 것이 응시자의 책임인지, 아니면 시험관이 응시자가 할당된 시간 내에 문제를 풀 수 있도록 '유도'해야 하는지 명확히 명시해야 합니다. 

Candidates also need to know whether they can expect prompting from examiners, and what shape this can take. Anxiety about prompting is a potential compounding factor in assessment that is ancillary to the assessment of knowledge, aptitude or skill. Being clear and transparent with candidates helps alleviate such anxiety.4 An important part of this process is also ensuring that there is a clear understanding of who is responsible for time management during the assessment.

  • For example, in an oral examination it should be clearly stated whether it is the candidate’s responsibility to get through the questions in the allocated time, or whether the examiners are expected to ‘move the candidate along’ to get through in the allocated time.

프롬프트 실천 중에 지속적인 성찰을 장려합니다.
Encourage ongoing reflection in prompting practice

평가자(평가 책임자, 의과대학 및 전문의 수련 대학은 말할 것도 없고)에게도 반성적인 태도가 필요합니다. 평가의 목적에 따라 다양한 프롬프트 접근 방식이 다양한 상황에서 유용성을 높일 수 있습니다. 평가 과제를 개발하는 초기 단계에서는 사례별 실무 검토가 필요합니다. 마지막으로, 지속적인 개선을 위해 프롬프트 지침, 실행 문제 및 응시자에 대한 잠재적 영향을 주기적으로 검토하고 지속적인 모니터링과 평가가 필요합니다.
Reflexivity is also required of assessors (not to mention assessment leads, medical schools and specialist training colleges). Different prompting approaches may enhance utility in different contexts, depending on the purpose of the assessment. Case-by-case review of practice will be required in the early stages of developing an assessment task. Finally, in the spirit of continuous improvement, periodic review of prompting guidance, implementation issues and potential impact on candidates will require ongoing monitoring and evaluation.

결론
Conclusion

구술시험의 신뢰성 부족과 시험관 관행 표준화의 어려움에 대한 역사적 우려에도 불구하고, 구술시험은 의과대학과 대학원 모두에서 중요한 평가 도구로 남아 있습니다. 우리의 경험에 비추어 볼 때, 프롬프트의 역할과 이를 구현하는 다양한 방법을 더 잘 이해하는 것은 모든 상황에서 근본적으로 고려해야 할 사항입니다. 이 백서의 목표는 특정 형태의 프롬프트를 규정하는 것이 아니라, 프롬프트라는 용어에 포함되는 다양한 행동에 대한 인식을 제고하고 몇 가지 일반적인 실천 원칙을 제시하는 데 있습니다. 제시된 분류법을 검증하기 위한 추가적인 경험적 연구를 환영합니다. 평가 상황에 관계없이 구두 평가를 계획할 때마다 평가자는 필요한 프롬프트의 유형과 정도에 대해 적절히 교육받고 응시자는 예상되는 사항을 알 수 있도록 적절히 브리핑을 받는 것이 중요합니다. 이 분류법과 지침 원칙이 시험관이 선택할 수 있는 다양한 형태의 프롬프트 관행을 설명하는 데 도움이 되고, 평가 책임자가 상황에 가장 적합한 프롬프트를 결정할 수 있기를 바랍니다.

Despite historical misgivings about its lack of reliability and the challenges of standardising examiner practices, the oral exam remains an important assessment tool in both medical school and postgraduate contexts. In our experience, better understanding the role of prompting and the different ways of implementing it, is a fundamental consideration in all contexts. Our aim in this paper has not been to prescribe any particular form of prompting, but rather to raise awareness of the different behaviours which tend to be subsumed under the term, while offering some general principles for practice. We would welcome further empirical research to validate the taxonomy presented. Regardless of the assessment context, it is crucial that whenever oral assessment is planned, assessors are appropriately trained in the type and degree of prompting required, and candidates are suitably briefed to know what to expect. We hope this taxonomy and guiding principles are helpful in elucidating the varied forms of prompting practices at examiners’ disposal, and allow assessment leads to determine what works best for their context.


J Med Educ Curric Dev. 2020 Aug 13;7:2382120520948881. doi: 10.1177/2382120520948881. eCollection 2020 Jan-Dec.

Prompting Candidates in Oral Assessment Contexts: A Taxonomy and Guiding Principles

Affiliations collapse

1Tertiary Education (Assessment), Australian Council for Educational Research, Camberwell, VIC, Australia.

PMID: 32851194

PMCID: PMC7427130

DOI: 10.1177/2382120520948881

Free PMC article

 

Abstract

Prompting is an aspect of oral assessment that deserves more attention. There appears to be considerable variation in how practitioners conceptualise prompting and how it is deployed in practice. In order to unpack the term and promote the validity of its use in performance assessments, we present a taxonomy of prompting as a continuum of types, namely: presenting the task; repeating information; clarifying questions; probing questions; and finally, leading questions. We offer general principles for consideration when using prompting in oral assessment: neutrality; consistency; transparency; and reflexivity. Whenever oral assessment is planned, assessors should be appropriately trained in the type and degree of prompting required, and candidates suitably briefed to know what to expect. Overall, we aim to raise awareness that quite different behaviours tend to be subsumed under the general term 'prompting'. This paper provides concrete guidelines for implementing the defensible and effective use of prompting in oral examinations, applicable to a wide range of assessment contexts.

Keywords: Prompting; assessment; oral assessment; oral examinations; viva.

생성형 인공지능의 시대에 평가를 다시 생각하기 (Med Educ, 2023)
Rethinking assessment in response to generative artificial intelligence
Jacob Pearce | Neville Chiavaroli

 

시험에서 전자 감별 진단과 같은 평가 중 의사 결정 지원 도구의 사용은1 현재 기술이 평가 관행을 어떻게 변화시키고 있는지에 관해서는 빙산의 일각에 불과합니다. 이렇게 말하는 이유는 인공 지능(AI) 개발이 혁신적 단계에 도달한 것으로 보이기 때문입니다. 이른바 제너레이티브 AI가 여기에 있습니다. OpenAI의 ChatGPT가 등장했고, 다른 도구들도 속속 등장하고 있습니다. ChatGPT-3는 다양한 프롬프트와 질문에 대한 자연어 응답을 처리하고 생성하도록 설계된 언어 모델입니다. 이 모델은 약 45테라바이트의 텍스트 또는 수천억 개의 단어에 해당하는 방대한 양의 데이터로 학습되었습니다. 적어도 우리가 물었을 때 ChatGPT는 이렇게 대답했습니다. 그리고 우리 모두가 이 모든 것이 교육과 평가에 미치는 영향을 이해하려고 노력하고 있을 때, 이미지를 '보고' 처리할 수 있는 멀티모달 ChatGPT-4가 출시되어 이 기술이 얼마나 빠르게 발전하고 있는지를 보여주고 있습니다. 
The use of decision-making support tools during assessments, such as electronic differential diagnosis in examinations,1 is just the tip of the iceberg when it comes to how technology is currently changing assessment practice. We say this, because it appears we have reached a transformative stage in the development of artificial intelligence (AI). So-called generative AI is here. OpenAI's ChatGPT has burst onto the scene, and other tools are coming. ChatGPT-3 is a language model designed to process and generate natural language responses to a wide range of prompts and questions. It was trained on a massive amount data, corresponding to approximately 45 terabytes of text, or hundreds of billions of words. At least this is what ChatGPT told us when we asked. And just as we are all trying to understand the ramifications of all this for education and assessment, the multimodal ChatGPT-4 has been released that can ‘see’ and process images, highlighting just how fast this technology is advancing.

제너레이티브 AI는 학생과 연수생을 평가하는 방식에 잠재적으로 급진적이고 중요한 영향을 미칠 수 있습니다. 한 AI 도구는 이미 미국 의사 면허 시험에 합격한 것으로 나타났습니다.2,3 또 다른 도구는 방사선 사진 판독과 관련된 왕립 방사선사 대학 시험에서 상당히 우수한 성적을 거두었습니다.4 더욱 중요한 것은 출시 당시 ChatGPT-4가 잘 알려진 다양한 고난도 시험에서 상위 10%에 드는 성적을 거둔 것으로 나타났습니다. 이러한 최신 세대의 AI가 평가 과제에 설득력 있게 응답하는 능력은 인상적입니다. 따라서 우리는 더 이상 학생의 학습과 역량을 입증하기 위해 감독 없는 평가와 제출된 '인공물'에 의존할 수 없게 되었습니다. 이로 인해 교육자, 코스 코디네이터 및 커리큘럼 설계자에게 장기적으로 많은 요구가 제기되고 있으며, 평가 접근 방식에 대해 다시 생각해야 합니다. 이는 분명 지필 평가 과제의 역할과 위치에 의문을 제기하며, 지필 평가가 어떤 가치를 제공하고 있으며 앞으로도 계속 제공할 것인지 재고하게 만듭니다. 
Generative AI has potentially radical and significant implications for the way we assess our students and trainees. One AI tool has already shown to be capable of passing the US Medical Licensing Exam.2, 3 Another tool has performed reasonably well in a Royal College of Radiologists examination, involving the interpretation of radiographs.4 Even more significantly, at its launch, ChatGPT-4 was shown to have performed in the top 10% on a range of well-known high-stakes examinations. The ability of these latest generations of AI to respond convincingly to assessment tasks is impressive. Consequently, we can no longer rely on non-invigilated assessments and submitted ‘artefacts’ to demonstrate student learning and competence. This is bringing many long-term demands on educators, course coordinators and curriculum designers, forcing us to rethink assessment approaches. It certainly calls into question the role and place of written assessment tasks and makes us reconsider what value they offer or will continue to offer.

Generative AI has potentially radical and significant implications for the way we assess our students and trainees.



앞으로 우리는 '지원형' 평가와 '비지원형' 평가 사이에 중요한 차이가 있음을 알게 되었습니다. 

  • 전자는 응시자가 교과서, 인터넷, 의사 결정 지원 도구1, 그리고 이제는 실제 임상 실습을 대표하는 제너레이티브 AI 모델 등 다양한 도구와 리소스를 활용할 수 있는 평가입니다.
  • 반면에 비보조 평가는 임상 지식과 추론의 독립적인(그리고 검증 가능한) 시연이 관련 역량의 필수 요소인 인증 또는 요약 맥락에서 이러한 리소스에 대한 접근 없이 학생과 연수생의 지식과 이해를 평가하고자 할 때를 말합니다.

Going forward, we see an important distinction between ‘assisted’ assessments and ‘unassisted’ assessments.

  • The former is assessment that allows the candidate to draw on tools and resources, including textbooks, the Internet, decision-making support tools1 and now, generative AI models—in many ways, representative of real-life clinical practice.
  • Unassisted assessment, on the other hand, refers to times when we may wish to assess our students' and trainees' knowledge and understanding without access to such resources, such as for certification or summative contexts when the independent (and verifiable) demonstration of clinical knowledge and reasoning is a necessary element of the relevant competencies.

We see an important distinction between ‘assisted’ assessments and ‘unassisted’ assessments.

 

인증 시험에서 인공지능의 성과는 인공지능의 놀라운 합격 능력만큼이나 해당 평가의 성격에 대해 많은 것을 말해줍니다. 우리는 평가에서 어떤 종류의 성과를 이끌어내고자 하는지에 대해 신중하게 생각해야 합니다. 시발드 등의 연구에서 알 수 있듯이, 전자 진단 소프트웨어를 사용하여 시험 수행을 '보조'한다고 해서 시험의 심리 측정적 특성이 반드시 훼손되는 것은 아닙니다.1 하지만 이러한 보조 수행을 통해 진정한 이해와 '노하우'(밀러의 용어로)5를 유추할 수 있을까요? 아마도 아닐 수도 있습니다. 보조 기술을 즉시 사용할 수 없는 경우를 상상할 수 있을 뿐만 아니라(그러나 여전히 감별 진단이 필요하기 때문에), 교육자들은 이해가 여전히 교수, 학습 및 평가의 중요한 요소임을 계속 상기시키기 때문입니다.6 진정한 이해는 사실을 암기하거나 데이터를 입력하거나 알고리즘을 따르는 것과는 달리 사고와 지식 적용에 어느 정도의 자율성을 필요로 합니다. 
The performance of AI on certification tests says as much about the nature of those assessments as it does about the remarkable capacity of AI to pass them. We need to think carefully about the kind of performance we want our assessments to elicit. As Sibbald et al's study shows, the use of electronic diagnosis software to ‘assist’ performance on exams does not necessarily undermine their psychometric properties.1 But can we infer genuine understanding and ‘knows how’ (in Miller's terms)5 from such assisted performance? Perhaps not. This is where there remains value in assessing learners' understanding through unassisted means, not just because we might envisage times when assistive technology is not immediately available (and yet differential diagnoses are still required), but because educators keep reminding us that understanding remains a crucial element of teaching, learning and assessment.6 Genuine understanding requires some degree of autonomy in thinking and application of knowledge, as opposed to reciting facts, entering data or following algorithms.

비보조 평가 상황에서는 구술 평가와 같은 구두 평가 방법이 중요한 역할을 할 수 있으며 이러한 높은 수준의 인지에 접근할 수 있는 강력한 수단을 제공할 수 있다고 주장합니다. 구술 평가 방법은 낮은 신뢰도, 표준화 부족, 평가자 편향 가능성 등의 이유로 한동안 많은 평가계에서 저평가되어 왔습니다.7 그러나 많은 평가 학자들이 지적했듯이 평가 형식의 가치 또는 '유용성'은 여러 가지 상반된 요소에 따라 달라집니다.8 특정 상황에서는 구술 평가의 본질적인 특성, 특히 직접적인 의사소통, 상호 작용 및 유연성 모드가 부각되어 비보조 평가에 특히 적합한 선택이 될 수 있습니다. 학습자의 이해도와 역량에 대한 직접적이고 검증 가능한 증거가 필요한 경우, 구두 평가 형식은 비교적 간단하고 매우 유용한 방법입니다. 
For unassisted assessment contexts, we argue that oral assessment methods such as the viva can play an important role and offer a powerful avenue for accessing such higher levels of cognition. Oral assessment methods have been undervalued in many assessment circles for some time, in part due to their perceived poor reliability, lack of standardisation and potential for assessor bias.7 But as many assessment scholars have pointed out, the value or ‘utility’ of an assessment format depends on many different and competing factors.8 In certain circumstances, the intrinsic characteristics of oral assessment—in particular its mode of direct communication, interactivity and flexibility—come to the fore and make it a particularly apt choice for unassisted assessment. For those occasions when we need direct and verifiable evidence of our learners' understanding and competence, the oral assessment format is a relatively straightforward and highly useful method.

For unassisted assessment contexts, we argue that oral assessment methods such as the viva can play an important role and offer a powerful avenue for accessing such higher levels of cognition.

최근 편리한 온라인 플랫폼을 통한 가상 평가의 증가와 활성화, 그리고 AI가 제기하는 비구술 평가 형식에 대한 새로운 도전에 따라, 우리는 구술 형식이 의학교육에서 매우 가치 있고 독특한 평가 형식으로서 '재활'되고 재수용될 때가 왔다고 생각합니다. 다른 평가 형식과 마찬가지로, 평가 설계자와 실무자는 구두 평가를 계획하고 설계할 때 다양한 유형의 프롬프트 관행을 명확히 하고 모든 이해관계자에게 이러한 형태의 평가를 가장 잘 운영하는 방법에 대해 교육하는 등 사려 깊은 태도를 보여야 합니다. 한 가지 주요 이점은 응시자의 답변을 실시간으로 확인할 수 있기 때문에 진정한 이해와 고차원적 사고에 대한 심층적인 조사가 가능하다는 점입니다. 이러한 시험관의 상호작용은 사려 깊은 설계와 적절한 교육을 통해 효과적으로 표준화할 수 있습니다.9, 10 최근 보다 명확한 가이드라인이 등장하면서 의학교육 평가에서 구두 형식의 보다 유효한 적용에 대한 지원이 이루어지고 있습니다.11, 12
With the recent increase and facilitation of virtual assessment through convenient online platforms, and the new challenge to non-invigilated assessment formats posed by AI, we think the time has come for the ‘rehabilitation’ and re-acceptance of the oral format as a highly valuable and unique form of assessment in medical education. As with any assessment format, this requires that assessment designers and practitioners be thoughtful in planning and designing oral assessments, including clarifying the different types of prompting practices and educating all stakeholders on how to best operationalise this form of assessment. One major benefit is that since candidate responses can be clarified in real time, deep probing of genuine understanding and higher-order thinking is possible. Such examiner interaction can be standardised effectively with thoughtful design and appropriate training.9, 10 The recent emergence of clearer guidelines provides support for more valid application of the oral format in medical education assessment.11, 12

Think the time has come for the ‘rehabilitation’ and re-acceptance of the oral format.


생성형 AI가 형성적 또는 총괄적 맥락에서 평가의 유효성이나 신뢰성을 위협할 필요는 없습니다. 오히려 보조 평가에 충실도와 뉘앙스를 더하는 동시에 비보조 평가에 더 큰 집중력과 목적의식을 부여할 수 있습니다. 보조 평가 내에서 생성형 AI의 역할과 가치는 더 자세히 살펴봐야 합니다. 이러한 도구의 유용성은 빠르게 분명해지고 있으며, 많은 사람들이 AI를 사용하여 학습을 비계화하는 방법을 올바르게 고려하고 있습니다. 보조 평가 작업에 AI를 활용하면 학습을 발전시키고, 오해와 감독을 식별하고, 문제 해결의 길을 제시하는 데 도움이 될 수 있습니다. 예를 들어, 의사가 일상적으로 휴대폰을 사용하여 임상 진료 지침을 참조하거나 문서 템플릿을 사용하여 보고서를 표준화하는 방식과 유사하게 AI를 확인 리소스 또는 텍스트 생성 도구로 사용할 수 있습니다. 보조 평가에 AI를 전략적으로 포함시키는 것의 다른 측면은 비보조 평가를 통해 판단, 평가 및 비판적 추론과 같은 전형적인 인간 기술의 평가에 더 중점을 둘 수 있는 기회입니다.13 
Generative AI need not threaten the validity or trustworthiness of our assessments in either formative or summative contexts. Rather, it can add fidelity and nuance to assisted assessment while facilitating a greater focus and purposefulness to unassisted assessment. The role and value of generative AI within assisted assessments should be further explored. The usefulness of these tools is quickly becoming apparent, with many rightly considering how to use AI to scaffold learning. Building the use of AI into our assisted assessment tasks may advance learning, help identify misconceptions and oversight and suggest avenues for solutions to problems. For example, AI can be used as a confirmatory resource or text generation tool, akin to the way doctors routinely use their phones to consult clinical practice guidelines or standardise reports through the use of document templates. The other side of such strategic inclusion of AI in assisted assessment is the opportunity to place greater emphasis on the assessment of quintessential human skills, such as judgement, evaluation and critical reasoning through unassisted assessments.13

Generative AI need not threaten the validity or trustworthiness of our assessments in either formative or summative contexts. Rather, it can add fidelity and nuance to assisted assessment while facilitating a greater focus and purposefulness to unassisted assessment.

제너레이티브 AI가 기존의 평가 관행을 즉각적으로 해체할 필요는 없지만, 맥락에서 평가의 목적에 더욱 집중하여 현재 우리가 시행하고 있는 평가에 대해 다시 생각해 볼 필요가 있습니다. 우선, 구술 평가 형식은 비보조 상황에서 평가의 인증 기능을 충족하는 데 중요한 역할을 할 수 있으므로 '재생reclaim'해야 한다고 제안합니다. 또한, 보조 작업이 합당한 평가 맥락에서 AI에 대한 접근도 포괄적인 평가 시스템의 일부로 수용해야 합니다.
Although generative AI does not warrant a reactive dissolution of established assessment practices, it does call for a rethinking of assessment as we currently practice it, with a sharpening focus on its purpose in context. Initially, we propose that the oral assessment format should be ‘reclaimed’ as it can play an important role in meeting the certification function of assessment in unassisted contexts. Further, access to AI in assessment contexts where assisted tasks make sense will also need to be embraced as part of a comprehensive assessment system.


 
Med Educ. 2023 Apr 12. doi: 10.1111/medu.15092. Online ahead of print.

Rethinking assessment in response to generative artificial intelligence

Affiliations collapse

Affiliation

1Tertiary Education, Australian Council for Educational Research, Camberwell, Victoria, Australia.

PMID: 37042389

DOI: 10.1111/medu.15092

No abstract available

전공의 수련과정에서 직접관찰의 현상학: 밀러의 'does'레벨은 관찰가능한가? (Med Educ, 2022)
A phenomenology of direct observation in residency: Is Miller's ‘does’ level observable?
Chris B. T. Rietmeijer1 | Suzanne C. M. van Esch2 | Annette H. Blankenstein1 | Henriëtte E. van der Horst1 | Mario Veen3 | Fedde Scheele4 | Pim W. Teunissen5 

 

 

1 서론
1 INTRODUCTION

직접 관찰(DO)은 역량 기반 의학교육(CBME)의 초석이며, 형성적 및 총체적 목적을 가진 작업장 기반 평가(WBA)의 핵심입니다.1, 2 그러나 졸업후의학교육(PGME)에서 DO의 활용은 저조합니다.1, 3, 4 PGME에서 DO에 관한 문헌은 불분명한 이해관계, 평가에 대한 두려움, 환자와의 상호작용의 어려움, 관찰을 요청하거나 제공하는 것과 상충되는 자율성과 효율성에 대한 기대 등 이러한 저조한 활용에 대한 충분한 설명을 제공합니다.3-12 한 가지 중요한 반복되는 발견은 '관찰자 효과'입니다. Ladonna와 동료들이 발견한 바와 같이, 관찰하는 레지던트들은 마치 '공연을 하는 것'처럼 느껴져 환자에게 덜 자연스럽게 행동하고 '평소'의 진료 방식을 '교과서적인' 접근 방식으로 바꾼다고 합니다. 이러한 '진정성 없는 행동'에 대한 피드백은 레지던트들에게 유용한 것으로 간주되지 않았습니다.6 
Direct observation (DO) is a cornerstone of competency-based medical education (CBME); it is at the heart of workplace-based assessment (WBA) with its formative and summative purposes.1, 2 Yet the uptake of DO in postgraduate medical education (PGME) is poor.1, 3, 4 The literature on DO in PGME provides ample explanations for this poor uptake, such as unclear stakes, fear of assessment, difficulties in interacting with patients and expectations concerning both autonomy and efficiency that conflict with asking for, or offering, observation.3-12 One important recurring finding is the ‘observer effect’. As Ladonna and colleagues found, observed residents felt as if they were ‘staging a performance’; they behaved less naturally towards patients and ‘they exchanged their ‘usual’ practice for a ‘textbook’ approach’. Feedback on this ‘inauthentic behaviour’ was not considered useful by these residents.6

진정성 없는 행동이 '임상 역량을 평가하기 위한 밀러 피라미드의 최상단에 있는 '한다'에 대한 평가'로서 DO의 가치에 심각한 위협이 된다는 것은 의심의 여지가 없습니다.1, 13 '한다' 수준의 평가는 학습자가 임상 상황에서 독립적으로 기능할 수 있는 능력을 평가하는 것입니다.13 코건과 동료들은 DO에 대한 지침에서 '학습자가 관찰을 받을 때 실제와 다른 의료행위를 할 수 있다(예: 환자 병력을 기록할 때 전자 건강 기록을 입력하지 않거나 더 집중적인 검사가 적절한데도 종합적인 신체 검사를 하는 경우)'는 점을 인식했습니다. 그러나 저자들은 '관찰자는 학습자가 실제 업무 행동에 대한 피드백을 받을 수 있도록 학습자가 '평소에 하던 대로' 하도록 격려해야 한다'고 말하며 이 문제에 반박합니다.1 
There can be no doubt that inauthentic behaviour is a serious threat to the value of DO as ‘an assessment of “does” at the top of Miller's pyramid for assessing clinical competence’.1, 13 Assessment of the ‘does’ level is an assessment of the learner's ability to function independently in clinical situations.13 In their guidelines on DO, Kogan and colleagues recognised that ‘learners may default to inauthentic practice when being observed (e.g., not typing in the electronic health record when taking a patient history or doing a comprehensive physical exam when a more focused exam is appropriate)’. But the authors counter this problem by stating that ‘observers should encourage learners to “do what they would normally do” so that learners can receive feedback on their actual work behaviour’.1

동일한 지침에 따르면, 이를 더 쉽게 하기 위해 감독자는 물리적으로 그 상황에 있지만, 예를 들어 환자의 시야에서 벗어난 곳에 앉는 등 가능한 한 적게 존재해야 합니다.1 
To make this easier, according to the same guidelines, supervisors, while physically being in the situation, should be as little present as possible, for example, by sitting out of the patient's line of sight.1

그러나 이러한 슈퍼바이저의 역할은 일반 진료(GP) 교육에서 환자의 진료 상황 경험에 대한 최근 현상학적 연구와 상충되는 것으로 보입니다.14 환자들은 여러 가지 이유로 슈퍼바이저가 어느 정도 대화에 참여하기를 원했고, 실제로 그렇게 했습니다. 그 이유 중 하나는 환자들이 [후배의 접근에 대한 선배의 승인]이 필요했기 때문입니다. 이를 심각하게 받아들이면 선배의사가 [가능한 한 대화에 벗어나있는 것]이 아니라, 반대로 [신중하게 대화에 참여]하는 방향으로의 변화를 의미할 수 있습니다.14 
This take on the supervisor's role, however, seems to conflict with our recent phenomenological research on patients' experiences in DO situations in general practice (GP) training.14 Patients, for several reasons, needed—and indeed caused—supervisors to participate in the conversation to some extent. One of those reasons was that patients needed the senior's approval of the junior's approach. Taking this seriously would imply a movement in the opposite direction, where a supervisor judiciously participates in the activity, rather than keeping out of it as much as possible.14

그러나 이러한 대조적인 통찰은 단 하나의 연구, 즉 환자의 관점에 대한 연구로만 뒷받침됩니다.14 중요한 것은 현상학적 접근법을 통해 환자의 관점에 대한 이해를 얻었으며, 즉 환자가 진료 상황에서 본질적으로 경험하는 것의 규칙성을 조사했다는 점입니다. 빈과 시안치올로가 조언했듯이, 의학교육에서 지속적인 문제(대부분의 교육 상황에서 DO가 부족하다는 점 등)에 직면할 때 우리는 '속도를 늦춰야 할 때 속도를 늦출 수 있도록 하여, 연구 대상과 더 직접적으로 소통하고, 우리의 가정을 드러내고, 새로운 각도에서 성가신 문제를 해결하도록 돕는' 철학적 접근 방식을 취해야 합니다.15 현상학은 그러한 접근 방식이며, 이를 통해 DO 상황에서 환자가 필요로 하는 것의학교육이 DO를 개념화하는 방식 사이의 불일치를 볼 수 있게 해줍니다.1, 14 DO 상황에서 레지던트(및 수퍼바이저)의 경험에 대한 유사한 현상학적 이해가 부족하며, 모든 관점에서 DO 상황에 대한 보다 완전한 이해를 바탕으로 제기된 질문에 대한 답을 찾기 위해 필요합니다. 따라서 우리는 현상학적 접근 방식을 따라 다음을 조사했습니다. 
This contrasting insight, however, is supported by only one study, on one perspective, that is, that of patients.14 Importantly, we obtained our understanding of the patients' perspective by following a phenomenological approach, meaning that we investigated regularities in what patients essentially experienced in DO situations. As Veen and Cianciolo advised, when facing persistent problems in medical education (such as the lack of DO in most training contexts), we should take a philosophical approach that ‘empowers us to slow down when we should, thereby engaging us more directly with our subjects of study, revealing our assumptions, and helping us address vexing problems from a new angle’.15 Phenomenology is such an approach; it enabled us to see the discrepancy between what patients needed in DO situations and how medical education conceptualises DO.1, 14 A similar phenomenological understanding of residents'(and supervisors') experiences in DO situations is lacking and needed to find answers to the questions that have arisen, based on a more complete understanding of DO situations from all perspectives. We, therefore, followed a phenomenological approach to investigate

수퍼바이저가 직접 환자를 관찰하는 동안 레지던트들이 환자와 함께 일할 때 어떤 규칙적인 경험을 했는지 조사했습니다.
the regularities in how residents essentially experienced working with a patient while a supervisor was physically present, observing them.

앞서 언급한 바와 같이, DO는 WBA의 핵심입니다.1, 2 그러나 현상학적 접근은 예를 들어 목적 등의 측면에서 현상을 미리 정의하지 않고 조사하는 것을 의미합니다.16 따라서 우리는 DO의 목적이나 다른 정의에 관계없이 위의 연구 질문에 정의된 대로 DO 상황을 조사했습니다.
As indicated, DO is central to WBA.1, 2 A phenomenological approach, however, implicates investigating phenomena without pre-defining them, in terms of their purposes for example.16 We therefore investigated DO situations as defined in the research question above, regardless of the purposes or other definitions of DO.

2 방법
2 METHODS

현상학적 접근
Phenomenological approach

우리는 네덜란드의 한 GP 수련 센터에서 현상학적 인터뷰 연구를 수행했습니다. 
We performed a phenomenological interview study in one Dutch GP training centre.

의학교육 문헌에서는 종종 해석적(또는 해석학적) 현상학서술적(또는 초월적) 현상학을 구분한다.17, 18 그러나 Rietmeijer와 Veen은 저자들이 특정 학파에 가입하기보다는 현상학을 어떻게 이해하고, 연구에서 현상학의 원칙을 어떻게 적용했는지 명확히 할 것을 제안했다.16 이제 이러한 원칙과 우리가 사용한 방법을 설명한다. 
Medical education literature often distinguishes interpretive (or hermeneutic) phenomenology from descriptive (or transcendental) phenomenology.17, 18 However, Rietmeijer and Veen proposed that, rather than subscribing to a specific school, authors should make clear how they understand phenomenology and how they applied principles of phenomenology in their study.16 We now describe these principles and the methods we used.

2.1.1 사전 반성적 경험의 공통 구조
2.1.1 Common structures in pre-reflective experience

우리는 전공의들이 DO 상황에서 무엇을 경험했는지, 즉 이러한 상황에 대해 반성하기 전에 '반성 전 경험'을 조사했습니다. 이 반성 전 경험을 조사하는 것은 달성할 수 없는 이상이지만, 우리의 목표는 참가자들의 반성, 아이디어 및 의견을 통해 반성 전 경험의 공통 구조에 대해 알아보는 것이었습니다. 이러한 공통 구조규칙성 또는 불변 구조 또는 경험의 본질이라고도 불립니다.16, 19, 20
We investigated what residents experienced in DO situations before they had reflected on these situations: the ‘pre-reflective experience’. Although investigating this pre-reflective experience is an unattainable ideal, our goal was to learn what participants' reflections, ideas and opinions revealed about the common structures of this pre-reflective experience. These common structures are also called regularities, or invariant structures, or essences of the experience.16, 19, 20

2.1.2 이론에 얽매이지 않는 개방적 연구, 브래킷 사용
2.1.2 Open, theory-free; bracketing

우리는 의도적으로 참가자의 역할, 방법 또는 목표와 같은 DO 상황에 대한 이론 없이 이 연구를 시작했습니다. 우리는 상황 자체가 전공의들에게 어떻게 발생하는지에 초점을 맞췄습니다.16 현상학적 원칙에 따라 이러한 개방적인 접근 방식을 통해 현상을 미리 정의하고 관심 대상을 좁혔더라면 발견하지 못했을 현상의 측면을 볼 수 있었습니다.16 
We deliberately started this study without a theory on DO situations, for example, in terms of participants' roles, methods or goals. We focused on how the situation in itself occurred to residents.16 In line with phenomenological principles, this open approach enabled us to see aspects of the phenomenon that would remain unnoticed had we pre-defined it and narrowed our object of interest.16

이러한 개방성을 얻기 위해 우리는 조사 대상에 대한 '자연스러운 태도'를 '괄호'(=보류)해야 했습니다.16, 19-22

  • 자연스러운 태도에서는21 레지던트, 환자, 감독자, DO 상황 사이의 관계에 대한 가정을 당연한 것으로 간주하게 됩니다. 즉, 인터뷰를 시작하기 전에 이미 교육 이벤트와 같은 DO 상황을 미리 정의하고 모든 참가자에게 특정한 역할을 부여합니다.
  • 반면에 현상학적 태도를 취하는 경우, 우리는 자신과 다른 참가자, 상황 사이의 관계에 대한 참가자의 경험에 정확히 관심을 갖습니다.16, 19-22

In order to attain this openness, we had to ‘bracket’ (= suspend) our ‘natural attitude’ towards our object of investigation.16, 19-22 

  • With a natural attitude,21 we would take our assumptions about relations between the resident, the patient, the supervisor and the DO situation for granted. In other words, before starting the interviews, we would already have predefined DO situations, for instance, as a teaching event, with particular roles for all the participants.
  • With a phenomenological attitude, by contrast, we are precisely interested in participants' experiences of these relationships between themselves, the other participants and the situation.1619-22

[가정에 대한 반성적 성찰]은 모든 질적 연구에서 일반적이지만, 현상학에서 괄호치기는 그보다 더 나아가, 현상에 대한 시야를 좁힐 수 있는 이론적, 개념적 아이디어를 중단하는 것을 의미합니다

  • 이는 종종 후설의 '사물 그 자체로'라는 말과 함께 언급됩니다.21 따라서 연구자는 자신의 자연스러운 태도와 인터뷰 대상자의 자연스러운 태도를 끊임없이 의식해야 합니다.22
  • 따라서 괄호치기는 인터뷰와 분석 과정에서 똑같이 중요했습니다. 이를 위해서는 DO에 대한 의견과 이론을 끊임없이 중단하고 전공의들이 DO 상황을 어떻게 경험했는지, 그리고 이러한 경험의 공통된 구조가 무엇인지에 대해 그들이 밝힌 내용으로 되돌아가는 것이 수반되었습니다.22

Although reflexivity on one's assumptions is common in all qualitative research, in phenomenology, bracketing goes further than that and means suspending theoretical and conceptual ideas that may narrow one's sight of the phenomenon.

  • This is often referred to with Husserl's dictum ‘to the things themselves’.21 Researchers must, therefore, constantly be aware of both their own natural attitude and the natural attitude of the interviewees.22 Bracketing was, consequently, equally important during the interviews and the analysis of them.
  • This entailed constantly suspending opinions and theories about DO that arose and bringing them back to what they revealed about how residents experienced DO situations and what were the common structures of this experience.22

인터뷰를 시작하기 전에 CBTR과 SCMvE는 각각 DO 상황에서 레지던트가 된 경험에서 중요한 측면이라고 생각하는 것에 대한 에세이를 썼습니다. 이 에세이에서 그들은 DO에 대한 이전 연구 결과를 포함하여 DO 상황에 대해 당연하게 여기는 자신의 자연스러운 태도에 대해서도 성찰했습니다.10, 11, 14 이후 그들은 이 에세이에 대해 서로 인터뷰하고, 인터뷰 및 분석 기간 동안 반성적 일기와 추가 메모 작성의 시작으로 이러한 성찰을 활용했습니다. 이 연습을 통해 밝혀진 한 가지 예로, 두 연구자 모두 후배 의사는 선배 의사로부터 배워야 하며, 그 역할을 DO가 해야 한다고 확신하고 있는 것으로 나타났습니다. 이것이 그럴듯해 보이지만, 이 의견 및 다른 의견/이론(예: 서론에서 설명한 바와 같이)을 의도적으로 중단함으로써, 그들은 인터뷰 과정에서 레지던트들의 사전 성찰적 경험에 기여하는 DO 상황의 다른 측면도 보기 위해 더 민감해지려고 노력했습니다
Before starting the interviews, CBTR and SCMvE each wrote an essay on what they thought were important aspects of the experience of being the resident in a DO situation. In these essays, they also reflected on their natural attitude, what they tend to take for granted regarding DO situations, including findings from their previous research on DO.10, 11, 14 They subsequently interviewed one another about these essays and used these reflections as the start of a reflexive diary and further memo writing throughout the interview and analysis period. As one example of what this exercise revealed, it appeared that both researchers were convinced that a junior doctor must learn from a senior doctor, with DO playing a role. However plausible this seems, by deliberately suspending this and other opinions/theories (e.g., as described in the introduction), they tried to become more sensitive in their interviews to see also other aspects of DO situations that contributed to residents' pre-reflective experience.

컨텍스트
Context

저희는 네덜란드 서부에서 인터뷰를 진행했습니다. 네덜란드의 GP 수련은 역량 기반의 3년 수련 프로그램으로, 레지던트는 첫해와 마지막 해를 GP에서 보내며 교대로 근무하는 두 명의 GP 트레이너의 감독 하에 일합니다. 레지던트는 주간 퇴원 프로그램을 위해 매주 1일씩 수련 기관을 방문합니다. 수퍼바이저와 레지던트는 수련 기관에서 환자 진료 중에 의사 또는 관찰자가 되어 번갈아 가며 정기적인 양방향 DO 세션에 참여하도록 점점 더 많이 권장하고 있습니다. 인터뷰 당시 실제로 이러한 조언을 받아들이는 비율은 점점 증가하고 있었지만 여전히 적당한 수준이었습니다. 저자는 해당 수련 기관에서 근무하지 않았으며 인터뷰에 응한 레지던트들과는 아무런 관계가 없습니다. 
We performed our interviews in the western part of the Netherlands. Dutch GP training is a competency-based, 3-year training programme; residents spend their first and final years in GP, working under the nearby supervision of one—sometimes two alternating—GP trainers. Residents visit their academic training institute 1 day each week for their day release programme. Supervisors and residents are increasingly encouraged by the training institute to engage in regular bi-directional DO sessions, taking turns being the doctor or the observer, during patient care. The take-up of this advice in practice, at the time of our interviews, was growing but still moderate. The authors did not work at the training institute and had no relationship with the residents interviewed.

데이터 수집
Data collection

2021년에는 무작위로 선정된 총 30명의 1~3년차 레지던트에게 DO 상황에서의 경험에 대한 인터뷰에 응해달라는 이메일 초대장을 보냈습니다. 수락한 레지던트는 SCMvE 또는 CBTR에서 인터뷰를 진행했습니다. 인터뷰는 코로나19 팬데믹으로 인해 물리적 만남이 제한되었기 때문에 화상 통화로 진행되었습니다. 인터뷰는 '환자를 진료하는 동안 상사가 방에 함께 있어 환자를 관찰했던 상황에 대해 말씀해 주시겠습니까'라는 첫 질문 외에는 미리 정해진 질문이 없다는 점에서 비구조화22되었습니다. 그러나 경험의 방식을 이해하려는 우리의 목표는 우리가 사용한 질문 유형에 영향을 미쳤습니다: 저희는 반 마넨을 따라 의도적으로 '경험의 실존적 요소'를 찾았습니다. 반 마넨은 사람들이 다음에서 경험한다고 주장합니다.20

  • 신체(예: 무엇을 느끼고 무엇을 하는지),
  • 시간(예: 언제 무슨 일이 일어나고 시간이 얼마나 빨리 가는지),
  • 장소(예: 누가 어디에 앉고 가구의 위치),
  • 관계(예: 환자와의 친숙함 및 수련 관계의 질)

경험의 방법을 파악하기 위해 이러한 경험의 실존적 요소에 따라 구체적인 DO 상황에서 어떤 일이 일어났는지 매우 사실적으로 질문했습니다.20, 22 인터뷰 시간은 60분에서 75분까지 다양했습니다. 
In 2021, we sent an email invitation to a total of 30 first- and third-year residents, randomly chosen, to be interviewed about their experiences in DO situations. Those who accepted were interviewed by either SCMvE or CBTR. The interviews took place via video calls because physical encounters were restricted because of the Covid 19 pandemic. The interviews were unstructured22 in the sense that there were no pre-fixed questions other than the opening question: ‘Can you tell me about a situation in which your supervisor was present in the room, observing you while you were working with a patient?’ However, our aim of understanding the how of the experience did influence the type of questions that we used: We followed van Manen by deliberately looking for his ‘existential elements of experience’. Van Manen claims that people experience things

  • in their body (e.g., what they feel and what they do),
  • in time (e.g., what happens when and how fast the time goes),
  • in place (e.g., who sits where and position of furniture) and
  • in relationship (e.g., familiarity with the patient and quality of the training relationship).20 

To get to the how of the experience, we asked quite factually what happened in specific DO situations, guided by these existential elements of experience.20, 22 The interviews varied in length from 60 to 75 min.

분석
Analysis

인터뷰는 비디오로 녹화되었습니다. CBTR과 SCMvE는 먼저 비디오 녹화를 개별적으로 분석하여 이 인터뷰가 주제에 대해 말하는 내용을 한두 개의 문구(즉, 'sententious phrases'[반 마넨])로 캡처하여 전체적으로 분석했습니다.20 그런 다음 인터뷰를 필사하고 익명화했으며, CBTR은 이 필사본을 반 마넨의 다양한 렌즈인 [살아있는 신체, 살아있는 공간, 살아있는 시간, 살아있는 관계]를 통해 네 차례에 걸쳐 코딩하여 분석했습니다.20 이 네 가지 렌즈 사용은 경험의 이러한 모든 측면에 더 민감하게 반응하도록 만들었습니다. 이는 분석에서 중요한 단계였습니다. 그러나 이 작업의 목적은 경험을 네 가지 범주로 설명하는 것이 아니라 경험에 대한 보다 완전한 그림을 얻는 것이었습니다.20 따라서 결과 섹션에서는 이러한 실존적 요소에 대해 보고하지 않고 반복적이거나 공통적인 구조로 사전 반영 경험을 세분화할 것입니다.16, 19, 20
The interviews were videotaped. Both CBTR and SCMvE first—separately—analysed the video recordings holistically by capturing in one or two phrases what this interview told them about our topic (i.e., ‘sententious phrases’ [van Manen]).20 They then transcribed and anonymised the interviews, and CBTR analysed these transcriptions in four rounds of coding through Van Manen's different lenses of lived body, lived space, lived time and lived relationship.20 Using these four lenses made us more sensitive to all these aspects of the experience. It was an important step in the analysis. The aim of this, however, was to gain a more complete picture of the experience, not to describe the experience in four categories.20 Therefore, in the results section, we will not report on these existential elements but will break down the pre-reflective experience in recurrent, or common, structures.16, 19, 20

CBTR은 사전 반성적 경험의 특정 공통 구조(예: '평가자로서의 수퍼바이저에 대한 전공의의 인식')에 대해 드러나는 것으로 보이는 코드를 해석하여 코드를 그룹화했습니다. 그는 '상상적 변형' 과정을 통해 이러한 공통 구조를 파악했습니다.

  • 상상적 변형이란 이 구조가 없더라도 같은 경험이 될 수 있는지 스스로에게 물어보는 것을 의미합니다. 대답이 '아니오'면 공통 구조로 간주했습니다.16, 20

CBTR grouped the codes by interpreting what they seemed to reveal about specific common structures of the pre-reflective experience (e.g., ‘residents' awareness of the supervisor as an assessor’). He determined these common structures through a process of ‘imaginative variation’.

  • Imaginative variation means asking oneself if the experience would still be the same experience without this structure. If the answer was no, it was a common structure.1620

CBTR은 이 과정에서 반성적인 메모를 작성했습니다. 그런 다음 이 모든 자료를 SCMvE에게 보냈고, SCMvE는 직접 녹취록을 읽고 코드, 코드 그룹, 메모에 댓글을 달고 더 많은 코드와 메모를 추가했습니다. SCMvE와 CBTR은 각 인터뷰가 끝난 후 화상 통화를 통해 결과를 논의했습니다. 3번과 6번의 인터뷰가 끝난 후 PWT는 이들과 함께 회의에 참여하여 지금까지의 분석 결과를 검토했습니다. 분석에 대한 추가 검토는 MV, AHB, HEvdH, FS를 포함한 전체 팀과 두 차례의 회의에서 이루어졌으며, 이들은 코드, 코드 그룹 및 메모의 예와 분석 시스템에 대해 의견을 제시했습니다. 
CBTR wrote reflexive memos during this process. He then sent all this material to SCMvE who read the transcripts herself, commented on codes, code groups and memos, and added more codes and memos. SCMvE and CBTR discussed their findings during video calls, after each interview. After three and six interviews, PWT joined them in a meeting to review the analyses thus far. A further review of the analyses took place in two meetings with the whole team, including MV, AHB, HEvdH and FS, who commented on examples of codes, code groups and memos and on the system of analysis.

3 결과
3 RESULTS

총 6명의 레지던트를 인터뷰했는데, 그 중 5명은 수련 1년차 후반에, 1명은 수련 3년차에 있었습니다. 모든 레지던트는 전체 상담 과정에서 지도의의 관찰을 받은 경험이 있었습니다. 이러한 DO 세션은 형성적인 목적으로 진행되었습니다. 우리가 들은 대부분의 이야기는 이러한 예정된 DO 상황에 관한 것이었지만, 일부는 환자상담 중에 조언을 구하기 위해 슈퍼바이저를 호출하여 발생한 부가적ad hoc 관찰에 관한 것이었습니다. 우리는 인터뷰를 분석하여 전공의의 사전 성찰적 경험의 공통 구조에 대해 밝혀진 내용을 해석했습니다. 다음 단락에서는 이러한 공통 구조에 대해 보고합니다.
We interviewed a total of six residents, five of them in the second half of their first year, and one in her third year of the training. All residents had experience with being observed by their supervisor throughout a whole consultation. These DO sessions were intended to be formative. Most accounts we heard were about these scheduled DO situations, but some were about ad hoc observations when the supervisor was called in for advice during a consultation. We analysed the interviews by interpreting what they revealed about common structures of residents' pre-reflective experiences. We report on these common structures in the following paragraphs.

[첫 번째이자 명백한 공통 구조]는 DO 상황에서 레지던트들은 환자와 수퍼바이저가 함께 있는 방에 있는 경험을 했다는 것입니다. 레지던트들은 자신과 환자, 수퍼바이저 간의 언어적 및 비언어적 상호작용은 물론 수퍼바이저와 환자 간의 상호작용도 경험했습니다:
A first and obvious common structure was that in DO situations residents experienced being in a room with a patient and with a supervisor. Residents experienced verbal and non-verbal interactions between themselves and the patient and the supervisor, as well as interactions between the supervisor and the patient:

  • R2: 그래서 좀 더 열심히 해야겠다는 생각이 들어요, 거의 '안녕하세요!!' (손을 흔들며) [...] 환자가 수퍼바이저에게 계속 말을 걸면 [...] 그러면 '내가 이 대화를 해야 하는데, 이렇게 하면 잘 안 되겠구나'라는 생각이 들어요.
    R2: So, then I feel that I have to work a bit harder, I'm almost doing like ‘hallo!!’ (waves her hand) […] if the patient keeps talking to the supervisor […] Then I think: I was supposed to do this conversation, but this way I'm not quite succeeding.

레지던트들의 사전 성찰 경험에서 [두 번째로 공통적인 구조]수퍼바이저와 환자 모두에게 인상을 남기면서 수퍼바이저의 관찰을 받는 경험을 했다는 것이었습니다:
A second common structure in residents' pre-reflective experiences was that they experienced being observed by their supervisor while making an impression on both the supervisor and the patient:

  • R6: 네, 하지만 수련 중이라는 것과 환자가 당신에 대한 의견을 형성하고 슈퍼바이저가 당신에 대한 의견을 형성한다는 것을 매우 의식하고 있죠 [...].
    R6: Well, but yes, you are very conscious of being in training and that, um, the patient forms an opinion of you, and that the supervisor forms an opinion of you […].

수퍼바이저에게 어떤 인상을 남겼는지에 대한 인식은 레지던트들이 자신의 성취에 대해 자부심을 가질 수 있게 합니다:
Awareness of the impression they made on supervisors could make residents proud of their accomplishments:

  • R1: 그리고 나서 [...] 이게 잘 되고 있구나, 이게 잘 되고 있구나, 이게 잘 되고 있구나, 그리고 은근히 이렇게 생각했죠, 아, 잘 되고 있구나, 슈퍼바이저가 여기 와서 (이걸) 봐주셔서 다행이다.
    R1: And then I thought, yeah, […] this is going well, this is going well, this is going well, and I secretly thought like, oh, this is going nicely and I'm glad that my supervisor is here (and sees it).

이러한 관찰에 대한 인식은 전공의들이 관찰되지 않는 환자면담과 비교해보면, 관찰받는 때에 더 불안감을 느끼고 심지어 장애를 느낄 수도 있습니다:
This awareness of being observed could also make residents feel insecure and even handicapped compared with a not-observed consultation:

  • R6: 글쎄요, 관찰을 받을 때는 그것이 무엇인지, 무엇을 해야 하는지 잘 모르는 경우가 많고, 평상시에는 무언가를 생각하거나 무언가를 만들어내지만, 감독관이 저를 관찰하고 있으면 잘못된 말을 할까 봐 두렵습니다.
    R6: Well, um, I feel that when I'm being observed I know less often what it is or what I have to do; and, normally, I would think of something, or make something up, but if my supervisor is observing me, I'm afraid that I'll say the wrong things.

레지던트들이 환자와 진단 및 치료 계획에 대해 논의할 때 불안감과 장애를 느끼는 것이 가장 두드러졌습니다:
Feeling insecure and handicapped was most prominent when residents discussed the diagnosis and care plan with the patient:

  • R2: [...] 진단과 치료 방법에 대해 완전히 확신하지 못하면 [...] 감독관이 끼어들어 전혀 하지 않겠다고 말할지도 모르기 때문에 [...] 그렇게 해야 하는 것이 매우 어색했습니다.
    R2: […] concerning the diagnosis and how to handle this, if I am not entirely certain, I can't be very firm in saying we're going to do this […] because perhaps the supervisor will interrupt and say that we're not going to do this at all […] I found that very awkward to have to do.

불안감 및/또는 장애를 느끼는 것은 레지던트들이 환자와 상호작용하는 개인적인 방식과도 관련이 있을 수 있습니다:
Feeling insecure and/or handicapped could also relate to residents' personal way of interacting with patients:

  • R2: [...] 제가 환자와 소통하는 방식 등 여러 가지 측면에 대해 상사가 인정해줄지 궁금합니다 [...] 저는 상당히 친근하고 가능하면 격식을 차리지 않는데, 상사도 그런 점을 인정해줬으면 좋겠어요 [...].
    R2: […] that I wonder if my supervisor approves […] that can concern multiple aspects, such as how I communicate with patients, I'm quite approachable and not so formal if possible, and then I hope that she will appreciate that too […].

[또 다른 공통적인 경험 구조]로, 레지던트들은 관찰 수퍼바이저를 선배 동료이자 잠재적 조력자로 경험했습니다. 이로 인해 레지던트들은 독립적인 노동자로서 수퍼바이저에게 주는 인상에 해가 되더라도 최적의 환자 치료를 위해 수퍼바이저의 의견을 묻게 될 수 있습니다:
As another common structure of the experience, residents experienced their observing supervisor as a senior colleague and potential helper. This could lead residents to ask the supervisor's opinion, for the sake of optimal patient care, even if this was to the detriment of the impression they made on their supervisor as an independent worker:

  • R3: 특히 치료 계획은 최소한 확인을 받고 싶어요. 특히 전문가가 제 옆에 앉아있는데 환자가 최적의 치료보다 못한 치료를 받는 것은 원치 않아요 [...] 저는 항상 갈등을 겪습니다: 이것은 관찰이기 때문에 전문가가 없는 것처럼 행동해야 한다. 하지만 어쨌든 저는 그와 상담합니다 [...].
    R3: Especially the care plan, I want to have that checked at least. I don't want the patient to get less than optimal treatment when the expert, notably, was sitting beside me […] I always have that conflict: this is an observation so I should act as if he wasn't there. But then I consult him anyway […].

또한 레지던트들은 자신의 지도의가 환자에게 친숙한 GP인 경우가 많았습니다. 이것 역시 레지던트가 대화에 감독관을 참여시킬 수 있습니다:
Also, residents often experienced their supervisor as the patient's familiar GP. This, too, could make residents engage their supervisor in the conversation:

  • R4: [...] 환자가 (슈퍼바이저와 상의할 때) 그걸 좋아하는 것 같아요 [...] 자기 담당 GP가 동의한다는 것을 알기 때문이죠.
    R4: […] I think that the patient likes that (when I discuss things with my supervisor) […] because she sees that her own GP agrees.

[또 다른 공통된 구조]는 레지던트들이 진료실에서 슈퍼바이저의 위치에 대해 경험하는 것이었습니다:
Another common structure was the residents' experience of the position of the supervisor in the room:

  • R3: 네, 그녀가 제 뒤에 조금 더 옆으로 앉았다면 도움이 되었을 거예요 [...] 이제 저는 그녀가 우리 사이에 [...] 거의 중재자처럼 [...] 앉았다는 것을 깨달았습니다.
    R3: Yes, it would have helped if she had sat more to the side, a bit behind me […] Now I realise that she sat right between us […] almost like a mediator […].
  • R5: 그는 정말 말 그대로 기댈 수 있는 사람이고 저를 지지해주는 사람이기 때문에 그가 제 뒤에 앉지 않고 옆으로 더 멀리 앉았다면 아마도 (책임자라는) 느낌을 줄 수 있었을 것입니다.
    R5: Well he is really quite literally someone to lean on, someone who supports me, so if he did not sit behind me but to the side and further away, that would perhaps give me the feeling (of being in charge).

놀랍게도 수퍼바이저의 존재로 인한 방해에도 불구하고 레지던트들은 종종 관찰 상황을 독립적으로 일하는 방법을 보여주기 위한 초대 또는 과제로 경험했습니다:
Strikingly, despite the disturbances resulting from the presence of the supervisor, residents often did experience the observation situation as an invitation, or assignment, to show how they work independently:

  • R1: [...] 이것은 (환자와 그의 아들과) 꽤 좋은 3자 대화였습니다; 제 수퍼바이저는 옆에 앉아서 개입하지 않았고, 어..., 그냥 관찰했고, 어... 저는 모든 것을 혼자서했습니다 [...].
    R1: […] This was quite a good three-way conversation (with a patient and his son); my supervisor sat to the side, and he did not intervene, he, uh …, he just observed, and uh… I did it all by myself […].

마치 환자와 혼자 있는 것처럼 독립적으로 일하려고 하면 많은 좌절감을 느낄 수 있습니다:
Trying to work independently, as if they were alone with the patient, could cause many frustrations:

  • R5: 제가 약간 수렁에 빠지거나 개요를 잃을 때 ..., 그가 거기에 없으면 스스로 회복할 수 있지만 [...], 분명히 저는 상사가있을 때 대부분 회복하지 못합니다.
    R5: When I get bogged down a bit, or lose the overview …, if he were not there I would recover myself, […] but, apparently, I mostly don't manage to recover when my supervisor is present.
  • R1: 그리고 그것은 ..., 당신은 최고의 자아가 아니며, 최적의 기능을 발휘하지 못하고 [...] 당신이 원하지만, 그것은 역설입니다.
    R1: and that's …, then you're not your best self, you're not functioning optimally […] while you do wish you did, that's a paradox.

반면, 일부 레지던트들은 독립적으로 일하는 방식을 보여주기 위한 과제로서 DO 상황을 경험하지 않았을 때를 설명하면서, 그 상황을 [상사와 함께 일하고 서로를 관찰하면서 배울 수 있는 기회]로 해석하기도 했습니다:
By contrast, some residents provided accounts of times when they did not experience DO situations as an assignment to show how they work independently; they could also interpret the situation as an opportunity to work and learn together with their supervisor, observing each other, which they valued:

  • R2: [...] 저는 그 상황을 협력적인 상담으로 바꾸고 싶었습니다 [...] 서로를 보완하고 [...] 어떻게 할 것인지에 대해 스파링을하고, 음, 네, 그게 재미 있다고 생각했습니다 [...].
    R2: […] I was inclined to turn the situation into a collaborative consultation […] I like that, complementing each other […] sparring about what would you do, and um, yeah, I thought that was fun […].

흥미롭게도 DO 상황에 대한 이러한 해석은 대부분 자발적으로 발생했으며 감독자와 사전에 합의하지 않았습니다.
Interestingly, this interpretation of the DO situation mostly arose spontaneously and was not agreed upon in advance with the supervisor.

[마지막으로 공통적 경험 구조]로, 레지던트들은 이전 경험을 바탕으로 수퍼바이저와 기존 관계를 맺고 있었으며, 이는 DO 상황을 경험하는 방식에 영향을 미쳤습니다:
As a last common structure of experience, residents had a pre-existing relationship with their supervisor based on previous experiences, which influenced how they experienced the DO situation:

  • R2: 저는 이 수퍼바이저와 매우 잘 지낼 수 있었고, 서로 신뢰하는 관계였기 때문에 수퍼바이저의 관찰을 받는 것이 신경 쓰이지 않았어요.
    R2: I could get along very well with this supervisor, we had a trusted relationship, so I didn't mind being observed by him.

4 토론
4 DISCUSSION

일반적으로 DO에 대한 이해를 증진하기 위해, 특히 '관찰자 효과', '진정성 있는 행동', 밀러의 'DO' 수준 및 DO 상황에서 수퍼바이저의 참여와 관련하여 [레지던트들이 DO 상황에서 전-성찰적으로 경험한 것의 규칙성]을 조사했습니다. 그 결과, 관찰하는 수퍼바이저가 관찰하지 않는 상담과 비교했을 때 레지던트의 경험과 행동이 어떻게 크게 달라졌는지 밝혀냈습니다. 다음 단락에서 이에 대해 자세히 설명하겠습니다.
In order to advance our understanding of DO in general, and specifically concerning the ‘observer effect’, ‘authentic behaviour’, Miller's ‘does’ level and the participation of supervisors in DO situations, we investigated regularities in what residents pre-reflectively experienced in DO situations. Our results illuminate how an observing supervisor substantially changed the experience of residents and their behaviour, compared with unobserved consultations. We will elaborate on this in the following paragraphs.

Ladonna와 동료들은 레지던트들이 DO 하에서 '진실하지 않게' 행동한다고 보고했으며,6 따라서 관찰되지 않을 때, 즉 독립적으로 일할 때 어떻게 행동할지 보여주지 못한다는 사실을 발견했습니다.1, 13 이 저자들은 관찰자 효과(관찰 및 평가받는다고 느낄 때 다르게 행동하는 것을 말함)가 이에 대한 책임이 있다고 주장했습니다. 그러나 이러한 관찰자 효과는 레지던트에게 평소처럼 행동하도록 격려하고1 더 나은 DO 조건을 조성함으로써 극복할 수 있는 것으로 간주되는 경우가 많습니다.4, 8, 23 이러한 조건에는 다음이 포함됩니다.4, 8, 23, 24 

  • 종단적이고 신뢰할 수 있는 훈련 관계,
  • 전용 시간이 있는 반복적인 DO 세션,
  • 감독자가 의도적으로 한쪽에 앉아 환자와 눈을 마주치는 등 접촉을 피하는 등 레지던트의 자율성을 촉진하는 조치

연구 결과에 따르면 이러한 예방 조치는 실제로 산만한 상호작용을 줄이고 레지던트가 더 편안하게 느끼도록 도울 수 있음을 확인시켜 줍니다. 그러나 더 편안하고 산만함을 덜 느낀다는 것은 감독자가 없을 때처럼 '진정성 있게' 또는 독립적으로 일할 수 있다는 것과는 다릅니다.
Ladonna and colleagues found that residents reported behaving ‘inauthentically’ under DO,6 thus not showing how they would work when not observed, that is, independently.1, 13 These authors held the observer effect responsible for this, which refers to acting differently when feeling observed and assessed. This observer effect, however, is often regarded as something that can be overcome, by encouraging residents to behave as they would normally do,1 and by creating better DO conditions.4, 8, 23 Such conditions comprise

  • longitudinal, trusted, training relationships,
  • recurring DO sessions with dedicated time and
  • measures to promote residents' autonomy such as supervisors avoiding contact, including eye contact, with the patient by deliberately sitting to one side.482324 

Our results confirm that these precautions may indeed help reduce distracting interactions and make residents feel more at ease. However, feeling more at ease and less distracted is not the same as being able to work ‘authentically’, or independently, as one would when the supervisor is not there.

우리는 수퍼바이저의 존재로 인해 발생하는 [관찰자 효과]가 이전에 이해했던 것보다 훨씬 더 중요하기 때문에 독립적으로 일할 수 없다는 것을 발견했습니다. 관찰되는 상황에 놓임으로써, 수퍼바이저는 레지던트와 환자가 경험하고 느끼고 행동하는 것에 불가피한 영향을 미치면서, 그 상황을 여러 가지 방식으로 변화시켰기 때문입니다.

  • 한 가지 예로, 레지던트들은 관찰되지 않는 상황에서는 그렇게 하지 않았을지라도 최적의 환자 치료와 편안함을 위해 수퍼바이저를 대화에 참여시키고 싶은 유혹을 받는다는 사실을 발견했습니다. 이러한 레지던트들은 선배가 병실에 있을 때 자신의 전문성을 활용하지 않는 것이 부자연스럽게 느껴졌습니다.
  • 환자와 슈퍼바이저(주로 담당 GP)가 친숙하다는 점도 레지던트들이 슈퍼바이저를 참여시키는 또 다른 이유였습니다. DO 상황에서 환자의 경험에 대한 이전 연구14에 따르면 환자들도 같은 이유로 슈퍼바이저의 연륜 및/또는 환자와의 친숙함 때문에 슈퍼바이저를 대화에 끌어들이는 것으로 나타났습니다.

We found that the observer effect that is caused by the presence of the supervisor did not allow for working independently because this effect was much more material than was previously understood: By being in the situation that was observed, the supervisor changed that situation in numerous ways with an inevitable impact on what the resident and patient experienced, felt and did.

  • As one example, we found that residents were tempted to engage their supervisor in the conversation for the sake of optimal patient care and comfort, even if they would not have done so in an unobserved situation. For these residents, when the senior was in the room, it felt unnatural not to make use of their expertise.
  • The familiarity of the patient with the supervisor, often their GP, was an additional reason for residents to engage their supervisor. Our previous study of patients' experiences14 in DO situations indicated that patients also drew supervisors into the conversation, for the same reasons: the supervisor's seniority and/or familiarity with the patient.

우리는 관찰자 효과는 레지던트가 관찰되고 평가받는다고 느끼는 것뿐만 아니라, 감독하는 GP의 존재가 관찰 대상 상황을 심오한 방식으로 변화시킨다는 결론을 내립니다. 따라서 레지던트가 독립적으로 일하는 방식을 관찰하는 것으로 정의된 Miller의 '한다' 수준을 관찰하는 것은1,13 불가능해 보입니다. 
We conclude that the observer effect is not just about residents feeling observed and assessed; the presence of a supervising GP changes the situations to be observed in profound ways. Therefore, observing Miller's ‘does’ level, defined as observing how a resident works independently,1, 13 seems impossible.

우리는 레지던트들이 종종 이 문제로 어려움을 겪는다는 것을 발견했습니다: 레지던트들은 수퍼바이저나 프로그램의 기대에 따라 [독립적으로 일하는 모습을 보여줘야 한다]고 생각하면서도, 동시에 그것이 [불가능]하고, 심지어 [좋은 환자 치료를 위해서도 바람직하지 않다]는 것을 경험했습니다. 기대에 부응하고 가능한 한 독립적으로 일하려고 노력하면서 이에 대처한 레지던트들은 많은 장애와 좌절을 경험했다고 보고했습니다. 이전 연구에서도 DO가 레지던트, 환자, 감독자 세 참여자 모두에게 불편한 상황과 어색함을 초래하는 경우가 많다고 강조합니다.3, 6, 9-11, 25 이러한 원인 중 하나는 한편으로는 감독자의 참여에 대한 환자와 레지던트의 요구와 다른 한편으로는 DO 지침에 따라 감독자를 대화에서 배제하려는 감독자 및 레지던트의 시도1에서 찾을 수 있다고 이 문헌에 덧붙여 설명합니다.
We found that residents often struggled with this: They experienced the expectations of the supervisor, or the programme, as needing to show how they work independently, while they simultaneously experienced that this was impossible, and even undesirable in the interests of good patient care. Residents who coped with this by complying with the expectations and trying to work as independently as possible reported many impediments and frustrations. Previous research also highlights that DO often brings about uncomfortable situations and awkwardness for all three participants: residents, patients and supervisors.3, 6, 9-11, 25 We add to this literature that one of the causes for this may be found in the discrepancy between patients' and residents' needs for the participation of the supervisor on the one hand, and the DO guidelines-driven supervisors' and residents' attempts to keep the supervisor out of the conversation,1 on the other.

실무적 시사점
Practical implications

이 연구는 평가에 관한 연구는 아니지만, 연구 결과는 WBA에 영향을 미칠 수 있습니다.26, 27

  • 레지던트 역량 평가에 필요한 데이터를 어떻게 수집할 수 있을까요?
  • 레지던트가 독립적으로 유능한 GP 또는 전문의가 되고 있는지 어떻게 확신할 수 있을까요?
  • PGME는 어떻게 사회적 책임에 부응하고 있나요?
  • 어느 정도 거리를 두고 객관적으로 레지던트를 평가해야 하지 않을까요?

이러한 질문은 의학교육에서 일반적이고 타당한 질문이며, CBME 시대에는 더욱 그렇습니다.26
Although this study was not about assessment, our findings may have implications for WBA.26, 27 

  • How do we collect the data we need for assessing our residents' competence?
  • How can we be certain that a resident is becoming an independently competent GP or medical specialist?
  • How does PGME live up to its societal accountability?
  • Must we not assess residents with a certain degree of distance and objectivity?

These are common and valid questions in medical education; more so in the CBME era.26

그러나 우리의 연구 결과는 독립적 역량에 대한 이러한 거리두기 관찰의 실현 가능성에 의문을 제기합니다. 앞서 살펴본 바와 같이, 관찰자가 관찰하는 것은 적어도 부분적으로는 관찰자의 존재에 의해 영향을 받습니다. 자연 과학에서는 인공물이라고 할 수 있습니다. 이는 레지던트의 성과에 대해 '객관적'이고 거리를 두고 판단하고자 하는 욕구가 실제로는 자연과학자, 즉 (포스트)실증주의적 태도를 드러낸다는 것을 알 수 있게 해줍니다.28 그러나 사회구성주의에서 이러한 [인공물]은 [레지던트의 학습 궤적에 대한 의미]에 관한 [대화의 유효한 출발점]이 될 수 있습니다.28 이는 대화의 중요성이 점점 강조되는 피드백에 관한 문헌과 공명합니다.29-31 우리의 결과는 이러한 대화가 우리가 본 것은 그 자체로는 의미가 없음을 확고히 확립하는 것으로 시작해야 한다는 것을 시사합니다. 연구 결과에서 종종 반영된 것처럼, 모호하지 않고 명확하게 이 점을 밝히면 DO 상황의 긴장을 완화할 수 있습니다.
Our results, however, question the feasibility of this distanced observing of independent competence. As shown, what observers observe is, at least in part, caused by their presence. In the natural sciences, we would speak of artefacts. This helps us see that the wish for an ‘objective’, distanced, judgement of a resident's performance actually reveals a natural scientist, that is, a (post-) positivist attitude.28 In social constructivism, however, these artefacts can be valid starting points for a dialogue concerning their meaning for the resident's learning trajectory.28 This resonates with the literature on feedback, in which the importance of dialogue is increasingly emphasised.29-31 Our results suggest that this dialogue should start with firmly establishing that what we have seen has no meaning in itself. Being clear about this instead of ambiguous, as was often reflected in our results, may relieve tensions in DO situations.

위의 내용을 다시 밀러의 피라미드에 대입하면,13 우리는 절대로 'shows how'를 수준 이상은 볼 수 없으며, 'does'라는 단계는 [우리가 관찰한 것]과 [다른 출처에서 추론한 것]을 기반으로 구축하는 구조입니다. 이러한 다른 출처와 관련하여 점점 더 많은 지식이 민족지학 및 현상학에서 파생된 전공의의 역량 진전을 평가하는 새로운 보완적인 방법을 뒷받침합니다.32-34
When we translate the above again to Miller's pyramid,13 we will never see more than the ‘shows how’ level, which makes the ‘does’ level a construction that we build upon what we have observed and what we infer from other sources. Concerning these other sources, a growing body of knowledge supports new complementary ways of assessing the residents' progress in competence, derived from, for example, ethnography and phenomenology.32-34

마지막으로, 우리의 연구 결과는 레지던트와 수퍼바이저가 환자와 같은 공간에 있는 목적과 진행 방법에 관한 대화를 개선할 수 있음을 시사합니다. 유사한 GP 수련 환경에서 수행된 최근 연구에 따르면 레지던트와 수퍼바이저는 이에 대해 거의 논의하지 않는 것으로 확인되었습니다.10-12 이러한 대화의 중요한 요소는 DO 상황이 양방향적이고 전경이 아닌 경우 학습에 가장 효과적인 것으로 보입니다.10, 11 따라서 레지던트와 수퍼바이저는 서로 관찰하고, 관찰 정보를 수집, 공유 및 함께 해석하면서 함께 일하고 배우기 위해 DO 상황을 사용하는 것을 고려해야 합니다. 
As a last practical implication, our results suggest that residents and supervisors could improve their dialogue concerning the purpose of their being in the same room with a patient and how to proceed. Recent research in similar GP training settings confirms that residents and supervisors hardly discuss this.10-12 An important factor for this dialogue appears to be that DO situations seem to work best for learning when DO is bi-directional and not foregrounded.10, 11 Residents and supervisors should therefore consider using DO situations to work and learn together while observing each other, collecting, sharing and together interpreting observational information along the way.

향후 연구에 대한 시사점
Implications for future research

레지던트와 환자를 대상으로 한 현상학적 연구는 PGME에서 DO를 개념화하는 데 기여했으며, 수퍼바이저가 관찰하는 상황에 필연적으로 참여해야 함을 강조했습니다. 이 과정에서 수퍼바이저의 DO 상황에 대한 경험에 대한 현상학적 조사는 아직 중요한 부분이 누락되었습니다. 
Our phenomenological research amongst residents and patients has contributed to the conceptualisation of DO in PGME, highlighting the inevitable participation of supervisors in the situations they observe. In this, a phenomenological investigation of supervisors' experiences in DO situations is yet an important missing piece.

이 연구의 주요 기여는 관찰자 효과를 단순히 불안을 유발하는 것이 아니라 상황을 실질적으로 변화시키는 것으로 새롭게 개념화했다는 점입니다. 이러한 이해를 확인 및/또는 개선하기 위해서는 다른 맥락에서의 추가 연구가 필요합니다.35
The main contribution of this work to the literature is the new conceptualisation of the observer effect, not just as anxiety-provoking but as a material alteration of the situation. Further research in other contexts is needed to confirm and/or improve this understanding.35

또한, 함께 일하고 배우는 세션에서 얻은 정보가 전공의에 대한 요약 평가에 가장 적합한 정보를 제공할 수 있는 방법에 대한 더 많은 연구가 필요합니다. 
Moreover, we need more research on how information obtained from working and learning together sessions can best inform summative assessments of residents.

제한 사항
Limitations

본 연구는 네덜란드의 한 GP 수련 센터에서 수행되었기 때문에 다른 상황에 적용하는 데 한계가 있습니다. 언급해야 할 중요한 맥락적 요소는 GP 수련 과정에서 환자가 레지던트보다 레지던트의 지도의인 자신의 GP를 더 잘 알고 있다는 점입니다. 이 사실은 우리의 연구 결과 중 하나에 기여했습니다: 레지던트들은 자신의 슈퍼바이저를 환자에게 친숙한 GP로 경험했습니다. 이렇기에 레지던트가 수퍼바이저를 대화에 참여하도록 유도할 수 있습니다. 수퍼바이저를 참여시키는 또 다른 이유인 연공서열은 아마도 대부분의 의료 전문직의 교육 맥락에 적용될 것입니다. 
We conducted our research in one Dutch GP training centre, limiting its transferability to other contexts. An important contextual factor to mention is that patients, in GP training, usually know their own GP, who is the resident's supervisor, better than they know the resident. This fact contributed to one of our findings: Residents experienced the presence of their supervisor as the patient's familiar GP. This could encourage them to engage the supervisor in the conversation. The other reason to engage the supervisor, their seniority, will probably apply to education contexts in most health professions.

두 번째 한계는 이 연구가 네덜란드의 한 일반의 교육 센터라는 한 가지 맥락에서만 이루어진 소규모 인터뷰 연구라는 점입니다. 그러나 현상학적 연구에서는 소수의 참여자만으로도 의미 있는 결과를 얻을 수 있는 경우가 많습니다. 반 마넨의 말처럼: '모든 현상학적 주제는 언제나 다시 다루어지고 원래 의미의 차원과 의미의 측면을 탐구할 수 있다'.20 또한 귀납적으로 얻은 이론의 타당성은 그 자체의 양적 토대가 아니라 다양한 맥락에서의 유용성에 의해 결정되며,35 이는 더 많은 연구가 필요합니다.
A second limitation is that this is a small interview study in only one context: a GP training centre in the Netherlands. In phenomenological research, however, small numbers of participants often suffice to attain meaningful, though not exhaustive, results. As van Manen puts it: ‘Every phenomenological topic can always be taken up again and explored for dimensions of original meaning and aspects of meaningfulness’.20 Also, the validity of inductively obtained theory is not determined by its quantitative underpinning per se but by its usefulness in different contexts,35 which needs to be determined further.

5 결론
5 CONCLUSION

우리의 연구 결과는 '관찰자 효과'가 이전에 이해되었던 것보다 훨씬 더 중요하다는 것을 보여줍니다. 결과적으로, 밀러의 'Does' 수준에서 마치 수퍼바이저가 없는 것처럼 전공의의 '진짜' 행동을 관찰하는 것은 이론적으로나 실제적으로 불가능하며, 오해의 소지가 있는 개념으로 보입니다:

  • 수퍼바이저가 그곳에 있는데도, 마치 수퍼바이저가 그곳에 없는 것처럼 일하도록 하는 불가능한 일을 전공의에게 강요하나, 보고된 모든 관련 문제와 고통을 포함하여 상황을 실질적으로 변화시켰기 때문에 오해의 소지가 있으며,
  • 수퍼바이저가 상황에 참여하지 않도록 하여 잠재적으로 환자와 전공의의 요구를 무시하게 만들었기 때문에 오해의 소지가 있으며,
  • 전공의과 수퍼바이저가 교육과 학습의 기회를 낭비하게 만들었다는 점에서 오해의 소지가 있습니다.

Our results indicate that the ‘observer effect’ is much more material than was previously understood. Consequently, observing residents' ‘authentic’ behaviour at Miller's ‘does’ level, as if the supervisor was not there, seems—theoretically and practically—impossible and a misleading concept: misleading because it invited residents to do the impossible:

  • to work as if the supervisor was not there while he/she was there and substantially changed the situation, with all the reported associated problems and distress;
  • misleading also because it made supervisors try to avoid participating in the situation, thereby potentially neglecting patients' and residents' needs; and
  • misleading, finally, because it made residents and supervisors waste opportunities for educating and learning.

이번 연구 결과와 이전 연구 결과를 바탕으로, 레지던트와 수퍼바이저가 한 공간에서 함께 환자 진료에 참여하는 경우, 일방향 DO는 함께 일하고 배우는 세션에서 양방향 DO로 대체하는 것이 더 낫다고 제안합니다.
Based on our results and previous findings, we suggest that when a resident and a supervisor are together in one room, engaged in patient care, one-way DO is better replaced by bi-directional DO in working-and-learning-together sessions.

 


Med Educ. 2023 Mar;57(3):272-279. doi: 10.1111/medu.15004. Epub 2022 Dec 23.

A phenomenology of direct observation in residency: Is Miller's 'does' level observable?

Affiliations collapse

Affiliations

1Department of General Practice, Amsterdam UMC, location Vrije Universiteit Amsterdam, Amsterdam, The Netherlands.

2Department of General Practice, Amsterdam UMC, location University of Amsterdam, Amsterdam, The Netherlands.

3Department of General Practice, Erasmus Medical Center, Rotterdam, The Netherlands.

4School of Medical Sciences, Athena Institute for Transdisciplinary Research, Amsterdam UMC, location Vrije Universiteit Amsterdam, Amsterdam, The Netherlands.

5School of Health Professions Education, Maastricht University, Maastricht, The Netherlands.

PMID: 36515981

PMCID: PMC10107098

DOI: 10.1111/medu.15004

Abstract

Introduction: Guidelines on direct observation (DO) present DO as an assessment of Miller's 'does' level, that is, the learner's ability to function independently in clinical situations. The literature, however, indicates that residents may behave 'inauthentically' when observed. To minimise this 'observer effect', learners are encouraged to 'do what they would normally do' so that they can receive feedback on their actual work behaviour. Recent phenomenological research on patients' experiences with DO challenges this approach; patients needed-and caused-some participation of the observing supervisor. Although guidelines advise supervisors to minimise their presence, we are poorly informed on how some deliberate supervisor participation affects residents' experience in DO situations. Therefore, we investigated what residents essentially experienced in DO situations.

Methods: We performed an interpretive phenomenological interview study, including six general practice (GP) residents. We collected and analysed our data, using the four phenomenological lenses of lived body, lived space, lived time and lived relationship. We grouped our open codes by interpreting what they revealed about common structures of residents' pre-reflective experiences.

Results: Residents experienced the observing supervisor not just as an observer or assessor. They also experienced them as both a senior colleague and as the patient's familiar GP, which led to many additional interactions. When residents tried to act as if the supervisor was not there, they could feel insecure and handicapped because the supervisor was there, changing the situation.

Discussion: Our results indicate that the 'observer effect' is much more material than was previously understood. Consequently, observing residents' 'authentic' behaviour at Miller's 'does' level, as if the supervisor was not there, seems impossible and a misleading concept: misleading, because it may frustrate residents and cause supervisors to neglect patients' and residents' needs in DO situations. We suggest that one-way DO is better replaced by bi-directional DO in working-and-learning-together sessions.

평가 실무의 개편에서 복잡성 탐색: 비판적 실재주의자 관점(Adv Health Sci Educ Theory Pract. 2021)
Exploring complexities in the reform of assessment practice: a critical realist perspective
Chris Roberts1 · Priya Khanna1 · Andrew Stuart Lane1 · Peter Reimann2 · Lambert Schuwirth3

 

소개
Introduction

학습에 대한 전통적인 평가를 학습을 위한, 그리고 학습으로서의 평가를 포괄하는 프로그램으로 개혁할 때 몇 가지 문제가 있을 수 있습니다. 총괄적 고부담 의사 결정을 강조하는 평가 시스템에 대한 전통적 접근 방식은 복잡한 인간의 기술과 행동을 숫자로 변환하는 데 한계가 있다는 지적을 받아왔습니다(Cate & Regehr, 2019; Driessen et al., 2005; Epstein & Hundert, 2002; Hodges, 2006, 2013; Schuwirth & Van der Vleuten, 2006). 이러한 한계를 부분적으로 해결하기 위해 [학습을 위한 평가] 그리고 [학습으로서의 평가]를 지원하는 프로그램 평가와 같은 대안적 접근 방식이 개발되었습니다. 프로그램적 평가는 의도적으로 선택된 여러 평가 과제를 사용하여 각각 일정 기간 동안 결합된 의미 있는 데이터를 생성함으로써 다양한 역량 결과 영역에서 학습자의 진행 상황에 대한 풍부하고 종적인 삼각형 정보의 흐름을 생성할 수 있습니다(Van der Vleuten & Schuwirth, 2005). 학습자에 대한 정보는 수집(종단적), 대조(삼각 측량) 및 연결(정보의 질)되어 해당 정보의 의미에 대한 의사 결정이 평가자의 전문적 판단과 일치하도록 합니다. 이를 통해 프로그래밍 방식 평가는 학습을 위한 평가, 학습으로서의 평가, 학습에 대한 평가 간의 균형을 촉진합니다. (Dannefer, 2013; Driessen 외., 2012; Khanna 외., 2021). 
There can be several problems when reforming traditional assessment of learning to a program which encompasses assessment for and as learning. Traditional approaches to assessment systems which emphasise summative high-stakes decision making, have been challenged for their limitations in converting complex human skills and behaviours to numbers (Cate & Regehr, 2019; Driessen et al., 2005; Epstein & Hundert, 2002; Hodges, 2006, 2013; Schuwirth & Van der Vleuten, 2006). Partly to address these limitations, alternate approaches such as programmatic assessment have been developed that support assessment for and as learning. By using purposefully selected multiple assessment tasks, each generating its own meaningful data combined over a period of time, programmatic assessment allows for the creation of an abundant and longitudinal flow of triangulated information about a learner's progress in various competency outcome areas (Van der Vleuten & Schuwirth, 2005). Information about learners is collected (longitudinally), collated (triangulation), and connected (quality of information), so that decision making about the implications of that information is aligned with the professional judgement of assessors. In doing this, programmatic assessment promotes a balance between assessment for, as and of learning. (Dannefer, 2013; Driessen et al., 2012; Khanna et al., 2021).

개혁을 도입하고 보고할 때 교육자들이 직면하는 주요 과제이자 이 백서의 초점은 의과대학이 학습을 위한 평가 및 학습으로서의 평가 원칙에 동의하는 경우에도 기존의 전통적인 관행을 개혁하는 것이 어렵다는 것입니다(Driessen 등, 2012; Roberts 등, 2014; Dannefer, 2013; Torre 등, 2021). 여기에는 보건 전문가 교육 결과에 관심이 있는 이해관계자들에게 의미 있는 방식으로 변화를 촉진하고 평가하고자 하는 사람들에게 통찰력을 제공할 수 있는 복잡한 이유가 있습니다. 한 가지 이유는 다음 두 그룹 간의 의견 불일치일 수 있습니다. 

  • 학습자의 성과에 대한 기존의 '객관적', 구조화된 정량화를 평가에 유지하려는 사람들(Swanson & Roberts, 2016)과
  • 임상 역량에 대한 새로운 개념을 고려한 체계적인 접근 방식을 장려하는 사람들(Driessen et al., 2012; Schuwirth & Van der Vleuten, 2011)

When introducing and reporting reforms, a major challenge for educators, and the focus of this paper, is that medical schools have found it difficult to reform pre-existing traditional practices, even where there is agreement with the principles behind assessment for and as learning, (Driessen et al., 2012; Roberts et al., 2014; Dannefer, 2013; Torre et al., 2021). There are complex reasons for this which may provide insights for those wishing to promote and evaluate change in a way that is meaningful to stakeholders interested in health professional education outcomes. One reason might be disagreement between

  • those who wish to retain the traditional ‘objective’, structured quantification of learners’ performances to assessment (Swanson & Roberts, 2016) and
  • those promoting a systemic approach that take into account newer conceptions of clinical competence (Driessen et al., 2012; Schuwirth & Van der Vleuten, 2011).

이 백서에서 논의한 바와 같이, 의료 전문가 교육 내에서 평가 문화를 크게 변화시키는 데 중요한 요소를 조명할 수 있는 방법론을 개발하는 데 있어 교육자를 안내할 수 있는 출판된 문헌은 거의 없습니다. 이 백서에서는 이론에 기반한 접근 방식을 취하여 평가 실무에서 주요 개혁을 실행하고 평가하려는 사람들을 지원하기 위한 몇 가지 핵심 원칙과 방법론적 접근 방식을 제안합니다. 
As we discuss in this paper, there is little published literature to guide educators in developing methodologies that might illuminate significant factors in making major changes to the culture of assessment within healthcare professional education. In this paper, we take a theoretically informed approach to propose some key principles and a methodological approach to support those considering implementing and evaluating major reform in assessment practice.

표면적으로는 학습 평가에 대한 전통적인 접근 방식과 평가의 의사 결정 및 학습 기능을 통합하는 새로운 접근 방식(Schut et al., 2021)의 차이점은 방법론적인 것으로 보입니다. 이는 부분적으로는 평가 관행의 기본 프레임워크와 품질을 확립하는 데 사용되는 타당성 제안의 차이 때문일 수 있습니다.

  • 구조화된 임상 평가의 객관성이 고부담 평가의 특징이 된 이후(Newble & Swanson, 1988), [전통적인 평가 접근법]은 의과대학 평가 관행을 안내하는 데 큰 영향을 미쳐 왔습니다.
  • 이 방식을 옹호하는 사람들은 공정성 문제를 해결하는 동시에 측정 오류를 줄임으로써 학생의 임상 역량에 대한 고품질 시험의 타당성과 신뢰성을 확립할 수 있다고 주장합니다. (Clauser 외, 2006; Norcini 외, 2018)
  • [학습의 평가]는 미래의 성과를 예측할 수 있다고 가정하는 [선형 동적 과정]으로 생각됩니다.
  • '공정성'은 평등의 관점에서 다루어지며, 모든 응시자는 동일한 표준화되고 구조화된 테스트 프로세스를 적용받습니다. (AERA, 2014)
  • 검증된 평가 도구는 상황, 문화 또는 관련된 사람에 관계없이 일반화하거나 다른 환경으로 이전할 수 있는 것으로 간주됩니다. 

On the surface, the differences between traditional approaches to the assessment of learning and newer approaches that integrate the decision-making and learning functions of assessment (Schut et al., 2021) appear to be methodological. In part this may be due to differences in the validity propositions used to establish the underlying frameworks and quality of assessment practices.

  • Since the objectivity of structured clinical assessments became the hallmark of high stakes assessment (Newble & Swanson, 1988) traditional approaches to assessment have been highly influential in guiding medical school assessment practice. Advocates claim that the validity and reliability of high quality testing of the clinical competence of students is established by reducing errors of measurement, at the same time as addressing fairness. (Clauser et al., 2006; Norcini et al., 2018)
  • The assessment of learning is thought to be a linear dynamic process which is assumed to be predictable of future performance.
  • ‘Fairness’ is addressed from a perspective of equality; all candidates are subject to the same standardised and structured testing processes. (AERA, 2014)
  • Validated assessment tools are assumed to be generalisable or transferable to other settings regardless of context, culture, or persons involved.

반면에 프로그램적 평가를 지지하는 사람들은 [복잡한 비선형 시스템 접근 방식]을 취하여 임상 역량 개념에 더 잘 부합하는 평가 접근 방식을 강조합니다.

  • 이러한 복잡성 관점에서는 역량이 다면적인 것으로 간주되며 단일 수치 결과로 표현하기 어렵습니다. 대신 역량은 문제 공간의 경계를 넘나드는 민첩한 문제 해결에서 나타난다는 점을 인정합니다. 따라서 전문성, 팀워크, 전문가 간 협업과 같은 복잡하고 실용적인 기술을 포함하고 통합하도록 설계되었습니다(Khanna et al., 2021; Schuwirth & Van der Vleuten, 2020; Van der Vleuten et al., 2018).
  • 습을 위한 그리고 학습으로서의 평가는 평가 프로그램, 평가자 및 학생 간의 긴밀한 상호 작용을 가정합니다. (Schuwirth & Van der Vleuten, 2011, 2019; Van der Vleuten 외., 2012)
  • 타당도는 전체 프로그램 내의 특정 목적에 따라 다양한 평가 도구를 신중하고 맞춤식으로 조합하는 것을 기반으로 합니다. (Schuwirth & Van der Vleuten, 2012).
  • 공정성형평성의 관점에서 다루어지며, 모든 학습자가 동일한 품질의 평가를 받지만 그 과정은 맞춤형으로 이루어집니다. (Schuwirth & Ash, 2013) 검증된 평가 프로그램은 상황, 문화 및 관련 인원을 고려하여 다른 환경에 맞게 조정할 수 있습니다. (Valentine 외., 2021).

Advocates for programmatic assessment, on the other hand, take a complex non-linear systems approach, emphasising an approach to assessment that better aligns with concepts of clinical competence.

  • In this complexity perspective, competence is seen as multifaceted and not amenable to being expressed by a single numerical outcome. Instead it accepts that competence manifests itself in agile problem solving withing the boundaries of a problem space. As such it is designed to include and integrate complex and practical skills such as professionalism, team work and interprofessional collaboration (Khanna et al., 2021; Schuwirth & Van der Vleuten, 2020; Van der Vleuten et al., 2018).
  • Assessment for and as learning assumes a close interaction between the assessment program, the assessors, and the students. (Schuwirth & Van der Vleuten, 2011, 2019; Van der Vleuten et al., 2012)
  • Validity is based on a careful and tailored combination of various assessment instruments depending on the specific purposes within the overall program. (Schuwirth & Van der Vleuten, 2012).
  • Fairness is addressed from a perspective of equity; all learners receive the same quality of assessment, but the processes are tailored. (Schuwirth & Ash, 2013)
  • Validated programs of assessment can be adapted to other settings taking account of context, culture, and the people involved. (Valentine et al., 2021).

고전적 평가 관행과 프로그램적 평가 관행을 옹호하는 사람들 사이의 의견 차이는 종종 [철학적 수준에서 평가와 학습 간의 관계에 대한 확고한 신념과 서로 다른 구성]에 있습니다(Torre et al., 2020).

  • 전통적인 평가 관행[학습하는 사람]과 [평가받는 사람]의 경험을 분리하는 경험주의적 인식론에 기반을 두고 있으며(Adie 외, 2018), 따라서 학습자는 '측정의 대상'이 됩니다.
  • 학습을 위한 그리고 학습으로서의 평가를 옹호하는 접근 방식에서 평가 프로그램의 설계는 학습 및 커리큘럼 품질 보증을 최적화하기 위한 것입니다. (Van der Vleuten 외., 2015) 평가는 학습자가 평가와 학습을 경험하는 동안 자신의 행동을 선택할 수 있는 능력을 포함하여 학습자의 주체성을 촉진하는 쌍방향 대화입니다(Meeuwissen 외., 2019; Schut 외., 2018, 2020).
  • 전통적인 접근 방식에서는 평가가 학생에게 수행되는 반면,
    프로그램적 평가에서는 학생과 함께 평가가 수행됩니다.

The differences in opinion between advocates of classical and programmatic assessment practices often also lies in firmly held beliefs and differing constructions of the relationship between assessment and learning at a philosophical level (Torre et al., 2020).

  • Traditional assessment practices are based on an empiricist epistemology that separates the experience of the person-as-learning from the person-as-being assessed (Adie et al., 2018) and therefore learners become an ‘object of measurement’.
  • In approaches that advocate assessment for and as learning, the design of an assessment program is intended to optimise learning and curriculum quality-assurance. (Van der Vleuten et al., 2015Assessment is a two-way dialogue promoting learners’ agency including their ability to make choices in their actions during their experience of assessment and learning (Meeuwissen et al., 2019; Schut et al., 2018, 2020).
  • In the traditional approach, assessment is done to the students while
    in programmatic assessment, assessment
     is done with the students.

이러한 대조는 평가 분야의 평가 및 연구에 시사점을 주는데, 연구자들은 평가 실행과 같은 복잡한 사회 현상을 고려한 이론적 관점과 이를 뒷받침하는 연구 패러다임 및 이론을 설명할 필요가 있습니다(Roberts et al., 2020).

  • [학생을 대상으로] 평가가 이루어지는 연구에서는 일반적으로 맥락, 문화, 사람 및 이들 간의 상호 작용과 같은 요소와 무관하게 "무엇이 효과가 있는가"라는 질문을 던집니다. 이는 평가 도구의 고유한 가치와 타당성을 파악하고자 합니다(Cronbach & Meehl, 1955; Downing, 2003; Messick, 1995).
  • [학생과 함께] 평가를 실시하는 경우 "무엇이 효과가 있는가"라는 질문만으로는 충분하지 않습니다. 대신 "무엇이, 누구에게, 어떤 맥락에서, 그리고 가장 중요한 것은 왜 효과가 있는가"와 같은 보다 복잡한 질문이 더 적절합니다.

This contrast has implications for evaluation and research in the field of assessment, where researchers need to explain the theoretical lens through which they have considered complex social phenomena like assessment practice, including the underpinning research paradigm and theory (Roberts et al., 2020).

  • Research where assessment is done to the students typically asks the question “what works” independently of the factors such as context, culture, and people and the interactions between them. It seeks to tease out the unique value and validity of the assessment instrument (Cronbach & Meehl, 1955; Downing, 2003; Messick, 1995).
  • Where assessment is done with the students, the question of “what works” is not enough. Instead, more complex questions such as “what works, for whom, in which context and, most importantly, why” are more appropriate.

이론적 프레임워크
Theoretical framework

이러한 질문은 이러한 현상에 대한 비판적 현실주의적 평가의 전형적인 예입니다(Ellaway 외., 2020).

  • 비판적 현실주의 관점에서 평가는 특정 사회 구조 내에서 목적과 기능을 정의할 수 있는 관행으로 볼 수 있습니다(Delandshere, 2001).
  • 평가 관행을 뒷받침하는 구조를 탐구하는 것은 바스카의 현실주의적 분석을 통해 도움이 될 수 있습니다. (Bhaskar, 1978; Bhaskar 외., 2018; Groff, 2004)
    • 경험적(경험),
    • 실제적(사건),
    • 실재적(인과 구조 및 메커니즘) 수준을 구분한 
  • 인과적 구조와 메커니즘은 실재적이며 그것이 생성하는 사건의 패턴과 구별되며, 이는 다시 그것이 포착되는 경험과는 구별됩니다.
  • 현실에 대한 바스카의 광범위한 설명의 주요 응용 분야 중 하나는 의료 환경과 같은 복잡한 시스템에서 현실주의 프로그램 평가의 현대적 접근 방식으로 이어졌습니다. 현실주의 평가는 주로 개입의 효과 여부가 아니라 '무엇이, 누구에게, 어떤 상황에서, 어떻게 효과가 있는가'라는 질문을 해결하기 위해 맥락-기제-결과 구성을 이해하는 데 중점을 둡니다(Dalkin 외., 2015).
  • 현실주의적 접근법은 '생성적' 인과관계 이론에 기반합니다. 즉, 상황을 변화시키는 것은 프로그램이 아니라, 프로그램에 노출되었을 때, 주어진 메커니즘을 활성화하고 변화를 일으키는 것은 [맥락에 내재된 사람]입니다(Pawson et al., 1997).

Such questions are typical examples of a critical realist evaluation of such a phenomenon (Ellaway et al., 2020).

  • From a critical realist perspective, assessment can be viewed as a practice whose purpose and functions can be defined within particular social structures (Delandshere, 2001).
  • Exploring the structures that underpin assessment practice can profit from Bhaskar’s realist analysis of the distinction between the level of
    • the empirical (experiences),
    • the actual (events) and
    • the real (causal structures and mechanisms). (Bhaskar, 1978; Bhaskar et al., 2018; Groff, 2004)
  • Causal structures and mechanisms are real and distinct from the pattern of events they generate, which in turn are distinct from the experiences in which they are captured.
  • One of the key applications of Bhaskar’s extensive account of reality has led to the contemporary approach of realist program evaluation in complex systems such as healthcare settings. Realist evaluation is primarily concerned with understanding the context-mechanism-outcome configuration to address the question, 'what works, for whom, under what circumstances, and how' as opposed to whether an intervention works or not (Dalkin et al., 2015).
  • The realist approach is based on a ‘generative’ theory of causality: it is not programs that make things change, it is people, embedded in their context who, when exposed to programs, do something to activate both given mechanisms and change (Pawson et al., 1997).

학생의 학습 및 평가에 대한 구조적 요인의 영향을 이해하는 것뿐만 아니라 개별 학생의 주체성과 학습에서 선택할 수 있는 개인적 권한을 어떻게 행사할 수 있는지를 고려하는 것이 중요합니다(Kahn, 2013). 교사도 마찬가지입니다. 아처는 [사회 구조]와 [인간의 주체성] 간의 상호작용을 설명하기 위해 이러한 프레임워크를 제공합니다(Archer, 2000; 2003). [학습자의 주체성]은 기본적인 자아 감각에서 시작하여 프로그램에 참여하는 과정을 통해 발전하며 미래의 실무자가 되기 위한 기본 요소입니다. 에이전시를 설명하려면 [시간에 따른 구조와 에이전시 간의 복잡한 상호작용]을 포함해야 합니다(Archer, 2000, 2002; Priestley 외., 2015). Archer의 '형태 발생적' 접근법(Archer, 1982)에 따르면 학습자가 사회적, 실제적, 자연적 세계와 상호작용할 때 행위자성의 변화가 나타납니다. 개인이 교육 프로그램에 대한 누적된 경험에 반응하고 물질적, 사회적 조건이 변화함에 따라 행위자성의 변화는 긍정적이거나 부정적일 수 있습니다. 아처의 이론은 고등 교육 분야(Ashwin, 2008; Case, 2015; Leibowitz 외, 2012), 전문직 간 보건직업 교육(Hutchings 외, 2013), 의학교육에서 교육자가 소그룹 교육을 통해 전문성을 증진하는 방법을 조사하기 위해 광범위하게 사용되어 왔습니다(Kahn, 2013).
As well as understanding the influences of structural factors in student learning and assessment, it is important to consider the agency of individual students and how they might exercise their personal powers to make choices in their learning (Kahn, 2013). Similarly with teachers. Archer provides such a framework that seeks to account of the interplay between social structure and human agency (Archer, 2000; 2003). Learner agency develops from a basic sense of self through a process of engagement with programs and is fundamental to becoming a future practitioner. Explanation of agency must include the complex interplay between structure and agency over time (Archer, 2000, 2002; Priestley et al., 2015). In Archer’s ‘‘morphogenetic’’ approach (Archer, 1982) changes in agency emerge as a learner interacts with the social, practical and natural worlds. Change in agency may be both positive and negative as individuals respond to their cumulative experience of the educational program and as their material and social conditions evolve. Archer’s theory has been used extensively in the higher educational field (Ashwin, 2008; Case, 2015; Leibowitz et al., 2012), in interprofessional health professions education (Hutchings et al., 2013) and in medical education in order to investigate how educators develop their practice to promote professionalism through small group teaching (Kahn, 2013).

우리는 프로그램적 평가를 도입하는 복잡한 개입이 여러 환경에서 작동하여 무엇이, 어떻게, 누구를 위해, 어떤 맥락에서 작동하는지에 대한 유용한 통찰력을 제공할 수 있는 방법을 고려하고자 했습니다. 우리의 비판적 현실주의 접근법은 다음의 상호 작용을 탐구함으로써 평가 시스템 개혁에 영향을 미치는 조건의 복잡성을 해결하고자 합니다. 

  • 평가 구조(학생에게 수행되는 평가를 제한하거나 가능하게 하는 규칙 및 리소스)와
  • 학습자 주체성(학생과 교직원이 평가가 어떻게 학생과 함께 수행되었는지에 대한 의견을 제시하는 곳)

We wished to consider the ways in which the complex intervention of introducing programmatic assessment might work across multiple settings to provide useful insights of what works, how it works, for whom, and in what contexts. Our critical realist approach seeks to address the complexity of conditions that influence reforming of assessment systems by exploring the interplay of

  • assessment structures (rules and resources that constrain or enable assessment that is done to students) and
  • learner agency (where students and staff have input into how assessment is done with them).

우리의 중심 질문은 "기존 평가가 학습에 대한 전통적인 총괄 평가였던 의학 또는 보건 과학 프로그램에서 프로그램 평가 관행의 번성을 뒷받침하는 몇 가지 중요한 요소는 무엇인가?"였습니다.
Our central framing question was “What are some critical factors that underpin the flourishing of programmatic assessment practices in a medical or health science program where pre-existing assessment has been traditional summative assessments of learning?”.

방법
Methods

구조와 기관의 문제로서 평가 개혁에 관한 프로젝트의 맥락을 제공하기 위해, 우리는 기존 평가 시스템을 개혁하고 평가를 계획하는 한 의과대학의 전형적이지만 익명으로 처리된 비넷을 개발했습니다. 이 그림은 저자들의 평가 개혁에 대한 국제적 경험을 바탕으로 작성되었습니다. (표 1 참조). 
In order to provide a context for our project on assessment reform as a problem of structure and agency, we developed a typical but anonymised vignette of a medical school undergoing reform in its traditional assessment system, and planning an evaluation. The vignette is based on the authors’ international experience of assessment reform. (See Table 1).

평가 관행과 기관 간의 관계에 대한 우리의 프레임 질문을 다루기 위해, 우리는 헌신적인 개인의 반사성의 특징적인 측면, 즉 프로그램 평가의 측면을 구현할 때 궁극적인 관심사의 본질과 순서를 파악하기 위해 Archer가 개발한 이론에 대한 비판적 현실주의적 접근 방식을 수정했습니다(Archer, 2000, 2007). 처음 두 저자는 다른 저자들과 개별적인 개방형 질문 토론을 진행하면서 평가와 학습에 대한 서로 다르지만 광범위한 이론적, 경험적 경험들 사이에서 반사성을 장려했습니다.

  • 토론은 첫째, 프로그램적 평가를 도입하고 유지하는 데 있어 근본적인 문제를 규명하는 것으로 시작되었습니다.
  • 둘째, 잠재적인 기본 메커니즘에 대한 통찰력을 제공한 프로그램 평가의 주요 논문에 대한 해석을 논의하고,
  • 셋째, 세 개의 다른 기관에서 프로그램 평가의 구현을 설계하고 평가한 저자의 경험을 반성했습니다.

각 회의에 대한 자세한 메모가 작성되었습니다. 첫 번째 저자들은 새로운 주제를 도출하고 이를 수집 및 정리하여 추가 논의를 위해 그룹에 다시 제시했습니다. 이러한 반복적인 과정을 통해 합의에 도달하고 관련 문헌과 저자들의 전문가적 입장을 모두 담아낸 주제를 더욱 구체화할 수 있었습니다. 이 연구에서는 기관 윤리를 요구하지 않았습니다.  
In order to address our framing question about the relationship between assessment practices and agency, we modified a critical realist approach to theory developed by Archer in order to tease out characteristic aspects of reflexivity in committed individuals, about the nature and order of their ultimate concerns in implementing aspects of programmatic assessment (Archer, 2000, 2007). The first two authors held extended individual open-ended questions discussions with the other authors, encouraging reflexivity amongst our differing but extensive theoretical and empirical experiences of assessment and learning.

  • The discussions began with first, elucidating the fundamental issues in introducing and sustaining programmatic assessment.
  • Second, discussing interpretations of key papers in programmatic assessment that gave insight into potential underlying mechanisms, and
  • third reflecting on the author experience of designing and evaluating implementations of programmatic assessment across three different institutions.

Detailed notes were made of each of the meetings. The first authors drew out emergent themes which were captured and collated and presented back to the group for further discussion. Through this iterative process, we were able to reach a consensus and further refine the themes that captured both the pertaining literature and the expert positions of the authors. We did not require institutional ethics for this study.

연구 결과
Findings

프레이밍 리얼리즘 질문과 관련하여, 우리는 비판적 리얼리즘 관점에서 의료 또는 보건 과학 프로그램에서 새로운 평가 관행을 구현하는 맥락에서 네 가지 주제를 도출했습니다. 이는 다음과 같습니다:
In relation to our framing realist question, we drew out four themes in the context of implementing new assessment practices in a medical or health science program from a critical realist perspective. These were:

  • 1. 학습자의 적극적 참여와 주체성 활성화.
  • 2. 논증적 타당성에 중점을 둔 타당성 프레임워크 구축.
  • 3. 통합된 프레임워크 내에서 의도적이고 다양한 평가 과제를 설계합니다.
  • 4. [평가 규칙의 구조]와 [학습자 주체성] 간의 관계를 더 잘 이해할 수 있도록 공유된 내러티브를 일관되게 사용합니다.
  1. 1.Enabling positive learner engagement and agency.
  2. 2.Establishing validity frameworks that are oriented on argumentative validity.
  3. 3.Designing purposeful and eclectic assessment tasks within an integrated framework.
  4. 4.Developing consistent use of a shared narrative to provide a better understanding of the relationship between the structure of assessment rules and learner agency.

학습자의 긍정적인 참여 및 자율성 지원
Enabling positive learner engagement and agency

이 주제에서는 평가 관행을 변경할 때 학습자의 자율성을 향상하기 위해 무엇이 어떻게 작용할 수 있는지에 대한 관점에서 구조와 자율성 간의 상호 작용에 대해 설명합니다. [구조]는 [행동을 가능하게 하거나 제약할 수 있는 규칙 및 리소스]로 구성되며, 일부 구조적 특성은 다른 구조적 특성보다 변경하기가 더 어렵습니다. (Archer, 1982) 평가에서 학습자 주체성은 학습자를 선택을 하는 행위자로 인정하며, 학습자의 행동은 예상된 방식과 예상치 못한 방식으로 평가 관행을 형성합니다. (Adie 외., 2018).
This theme describes the interplay between structure and agency from the perspective of how and what might work to enhance learner agency when changing assessment practice. Structure consists of the rules and resources that may enable or constrain action, with some structural properties being more challenging to change than others. (Archer, 1982) Learner agency in assessment acknowledges learners as actors who make choices, and whose actions shape assessment practices in both anticipated and unexpected ways. (Adie et al., 2018).

[행위자성에 영향을 미치기 위해 평가를 재설계하는 것]은 교육 시스템 내의 모든 평가, 특히 널리 사용되는 고부담 총점 평가의 배경을 고려하여 고려해야 합니다. (Cilliers 외., 2010; Harrison 외., 2015, 2017). 개혁을 실행할 때 교수진이 새로운 평가 접근법을 통해 학습자가 참여할 수 있는 기회를 수용하면 구조와 학습자 주체 사이의 역학 관계가 바뀔 것입니다(Adie 외., 2018). 
Re-designing assessment to influence agency has to be considered against the backdrop of all assessment within the educational system, particularly the prevailing high-stakes summative assessments. (Cilliers et al., 2010; Harrison et al., 2015, 2017). In implementing reform, the dynamic between structure and learner agency will change where faculty embraces opportunities for learners to engage (Adie et al., 2018) with new assessment approaches.

[교사-학습자 관계의 특성] 또한 학습자 에이전시의 중요한 특징입니다. (Schut 외., 2021), 특히 [교사의 평가 신념](Meeuwissen 외., 2019)에 영향을 미칩니다. 교사가 커리큘럼 변화에 가져올 수 있는 신념, 가치 및 속성은 교사가 주체성을 달성할 수 있는 정도에 영향을 미칩니다(Priestley 외., 2012). 객관식(MCQ)(Haggerty, 1918)과 OSCE(Harden & Gleeson, 1979)가 지배적인 평가 관행 문화에서 교사가 사회화되어 온 방식은 보다 미묘한 평가 이론을 개발하는 데 있어 교사의 주체성을 제약할 수 있습니다(Vosniadou, 2014; Vosniadou 외., 2001). 교수개발은 교사의 주체성을 개발하고 학습 문화에 프로그램 평가에 대한 공유된 이해를 포함시키는 데 중요합니다. (Bok et al., 2016; Driessen et al., 2012; Schut et al., 2021) 
The nature of teacher-learner relationships is also an important feature of learner agency. (Schut et al., 2021) and in particular the assessment beliefs of teachers (Meeuwissen et al., 2019). The beliefs, values and attributes that teachers can bring to curriculum change impacts the extent to which they are able to achieve agency (Priestley et al., 2012). The ways in which teachers have been socialised in a culture of assessment practice dominated by multiple choice questions (MCQ) (Haggerty, 1918) and the OSCE, (Harden & Gleeson, 1979) can constrain their agency in developing a more nuanced theory of assessment (Vosniadou, 2014; Vosniadou et al., 2001). Faculty development is important in developing teacher agency and embedding a shared understanding of programmatic assessment in the learning culture. (Bok et al., 2016; Driessen et al., 2012; Schut et al., 2021)

그러나 학생은 평가 및 학습 참여를 유도하고 지원하는 다양한 상황적 요인을 경험할 가능성이 높습니다(Billett, 2001).

  • Heeneman 등(2015)은 관찰 및 피드백을 위한 작업장의 특성에 따라 학습자의 주체성에 미치는 영향이 달라질 수 있다고 지적합니다.
  • 학습자가 이해하지 못하거나, 학습의 이득에 비해 너무 복잡하거나, 업무량이 너무 많아 학습자의 주체성에 도전하는 평가 과제는 학습에 부정적인 영향을 미칠 수 있습니다(Cilliers et al., 2010).
  • 학습자의 주체성은 학습자가 평가 과제를 부담스러운 것으로 인식하는 경우에도 방해받을 수 있지만, 예를 들어 교사가 안전하고 신뢰할 수 있는 평가 관계에서 학습자의 주체성을 촉진함으로써 강화될 수 있습니다(Schut et al., 2020).

However, students are likely to experience differing situational factors that invite and support their engagement in assessment and learning (Billett, 2001).

  • Heeneman et al., 2015 also note the differences in characteristics of the workplace for observation and feedback, leading to differing impacts on learner agency.
  • Assessment tasks that challenge learners’ sense of agency by virtue of not being understood or too complex or too great a workload for the gain in learning may have a negative impact on learning (Cilliers et al., 2010).
  • Learner agency may be also hindered by learners' perceptions of assessment tasks as high stakes but can be empowered, for example, by teachers promoting learner agency in safe and trusting assessment relationships (Schut et al., 2020).

그럼에도 불구하고 학습자가 평가 설계에 적극적으로 참여할 수 있는 권리에는 책임이 수반됩니다. 학습자는 체계적인 평가의 표준과 규범, 특정 측정 방법, 학습 목표 및 달성해야 할 역량 간의 관계를 존중해야 합니다. 프로그램 평가의 원칙에 대한 학생 오리엔테이션과 개별 학생 및 학생 단체와의 지속적인 커뮤니케이션을 통해 상당한 학습자 개발이 필요합니다. 

Notwithstanding, the right for learners to be actively involved in assessment design comes with responsibilities. Learners must respect the standards and norms of systematic assessment and the relation between specific measurement methods, learning goals and the competencies to be achieved. Significant learner development will be needed with student orientation to the principles of programmatic assessment and ongoing communication with the individual students and the student body.

[학습 멘토 시스템]과 같이 학습자 행위자성을 지원할 수 있는 평가 구조에 새로운 리소스를 재할당하거나 제공하는 것도 고려해야 합니다(Schut et al., 2018). 전통적인 평가 실행 구조는 대규모 객관적 구조화 임상 시험(OSCE)과 서면 문제 은행을 실행하는 데 상당한 리소스를 필요로 합니다. 프로그래밍 방식의 평가는 맞춤형 소프트웨어인 e포트폴리오에서 보다 의미 있고 확실한 평가를 수집하고 대조하는 데 리소스가 필요할 수 있습니다(Driessen et al., 2007).
Consideration needs to be given to reallocating or providing new resources to those assessment structures which might support learner agency such as a learning mentor system (Schut et al., 2018). Traditional assessment practice structures require significant resource in running large-scale Objective Structured Clinical Examinations (OSCEs) and written question banks. Programmatic assessment might require resources to collect and collate more meaningful and authentic assessments in customized software; the ePortfolio (Driessen et al., 2007).

요약하면, 학습자 주도성을 촉진하기 위한 전략에는 [학습자와 함께] 평가가 이루어질 수 있도록 [평가 구조를 변경하는 것]이 포함됩니다. 변화의 주요 장벽은 교사와 학생이 기존의 평가 구조에서 벗어나 프로그램 평가에 유리한 조건을 제공하는 새로운 구조로 전환하는 것일 수 있습니다. 교수자가 평가 관행을 변경하는 경우, 학생은 학습 기회를 극대화하기 위해 적극적으로 참여할 책임이 있습니다. 학습자의 주체성을 촉진하기 위해 평가에 대한 리소스를 재할당해야 할 수도 있습니다. 이 시나리오에서 평가 관행의 구조를 변경하면 학습자의 주체성에 복잡한 영향을 미칠 수 있습니다. 동시에 학습자의 주체성을 촉진하려면 평가 구조의 변화가 필요합니다.
In summary, strategies to promote learner agency involve changing assessment structures so that assessment is done with learners. Major barriers to change may be the socialization of teachers and students away from pre-existing structures of assessment into newer structures that provide favourable conditions for programmatic assessment. Where faculty does change assessment practice, students have responsibilities to be active in maximizing their learning opportunities. Resources for assessment may need to be reallocated to promote learner agency. In our scenario, changing the structure of assessment practice will have complex impacts on learners’ agency. At the same time, promoting learner agency would require a change in the structure of assessment.

타당도 프레임워크 구축
Establishing validity frameworks

이 주제에서는 논증 기반 프레임워크가 제공하는 구조가 교수자, 학생 및 인증 기관과 같은 외부 이해관계자 모두에게 프로그램식 평가의 타당성 주장을 명확하게 하는 방법을 설명합니다.
This theme describes how the structure provided by an argument-based framework might give clarity around the validity claims of programmatic assessment for both faculty, students, and external stakeholders such as accreditation bodies.

프로그래밍 방식 평가는 [학습을 위한 평가]를 촉진합니다. 학습의 평가에서는, 원하는 학습 결과의 범위를 나타내는 통합된 작업 모음에 대한 결정이 내려집니다(Van der Vleuten & Schuwirth, 2005) 전통적인 평가 관행에서는 학습에 대한 검증된 총합 평가를 준비한다는 측면에서, ['형성'이라는 용어]가 [학습을 위한 평가]를 의미하는 다양한 평가를 사용하는 경향이 있습니다. 이론적 관점에서 이러한 가정을 비판하는 광범위한 문헌이 있습니다. (Bennett, 2011).
Programmatic assessment promotes assessment for learning. For assessment of learning, decisions are made on an integrated collection of work representing a range of desired learning outcomes (Van der Vleuten & Schuwirth, 2005) Traditional assessment practice tends to use a variety of assessments where the term ‘formative” implies assessment for learning, in preparation for a validated summative assessment of learning. There is an extensive literature critiquing this assumption from a theoretical perspective. (Bennett, 2011).

교수자가 형성적 평가를 프로그램적 평가로 인식하는 경우에도, 학생은 평가가 진급progression 결정에 사용되는 경우 형성적 평가를 총괄적 평가로 인식합니다(Heeneman 외., 2015). 학습에 대한 평가에서 형성적/총괄적 평가가 무엇인지에 대한 이러한 혼란을 피하기 위해, 우리는 프로그램식 평가를 뒷받침할 수 있는 타당성에 대한 논증 기반 관점으로 전환합니다.
Students perceive formative assessment as summative if it is used for any progression decisions (Heeneman et al., 2015) even where faculty perceive the assessment as programmatic. To avoid this confusion about what is formative/summative in the assessment for and of learning, we turn to an argument-based view of validity that can underpin programmatic assessment.

케인의 프레임워크는 프로그램적 평가 관행에 대한 검증 프로세스와 의도적으로 선택된 증거 기반 평가 과제의 타당성에 신뢰성을 부여하는 데 중요한 역할을 할 수 있습니다. (Kane, 2013; Schuwirth & Van der Vleuten, 2012).
Kane’s framework can play a significant role in lending credibility to the validation process for programmatic assessment practice, and the validity of purposely chosen and evidence-based assessment tasks. (Kane, 2013; Schuwirth & Van der Vleuten, 2012).

타당도는 [시험의 속성]이 아니라 [시험 점수의 해석 및 사용 제안의 속성]입니다.

  • 해석과 사용에 있어 타당성이 있고 적절한 증거에 의해 뒷받침되는 높은 타당도를 가진 것으로 간주됩니다.
  • 해석과 사용에 있어 적절하게 뒷받침되지 않거나 증거에 의해 모순되는 것은 타당도가 낮은 것으로 간주됩니다. (Kane, 2013) 

Validity is not a property of a test, but a property of the proposed interpretations and uses of test scores.

  • Interpretations and uses that make sense, and are supported by appropriate evidence, are considered to have high validity.
  • Those that are not adequately supported or are contradicted by evidence, are taken to have low validity. (Kane, 2013)

모든 이해관계자의 초점은 점수/측정/정보가 [의도한 결론을 도출하는 데 유효하게 사용될 수 있다]는 명제를 뒷받침할 수 있는 충분한 증거와 논리적 논거가 있는지에 있습니다. Kane의 주장에는 특정한 철학적 또는 이론적 제약이 없습니다(Schuwirth & Van der Vleuten, 2012). 타당성 논증을 구축하기 위한 케인의 조언에는 테스트 프로세스의 품질에 대한 구체적인 가설이나 테스트에 대한 구체적인 기법이 포함되어 있지 않습니다. 그는 평가 대상 구조의 본질에 대한 명확한 이론적 가정이 중요하며, 이해 관계자를 설득하기 위해서는 잘 논증된 일련의 추론이 필요하다고 조언합니다(Kane, 2013). 평가 프로그램에 사회적 관심사에 대한 고려가 포함된 경우, '사회적 명령으로서의 타당성'이 평가 전략에 포함될 수 있습니다(Marceau et al., 2018; St-Onge et al., 2017). 케인 프레임워크의 네 가지 추론 유형, 즉 채점, 일반화, 외삽, 결정 규칙 [평가 실무에서 일상적으로 사용할 수 있는 이론적 발판]을 제공합니다. 관찰에서 점수, 목표 영역으로, 마지막으로 구성으로 이어지는 논증적 추론은 [추론의 계층]을 추가하여 타당성을 향상시킵니다. 평가 프로그램의 타당성을 입증하는 데에도 동일한 원칙을 사용할 수 있습니다.

The focus for all stakeholders is on whether there is sufficient evidence and a logical argument to support the proposition that the scores/measures/information it yields can be validly used to draw the conclusions it was designed to support. There are no specific philosophical or theoretical constraints on Kane’s argument, (Schuwirth & Van der Vleuten, 2012). Kane’s advice for building the validity argument does not include specific hypotheses about the quality of test processes or specific techniques for testing them. He advises that a clear theoretical assumption about the nature of the construct being assessed is important and that a well-argued series of inference is needed to convince stakeholders (Kane, 2013). Where the program of assessments includes consideration of societal concerns, then ‘validity as a social imperative’ can be embedded in the assessment strategy (Marceau et al., 2018; St-Onge et al., 2017). The four types of inferences in Kane’s framework, namely, scoring, generalisations, extrapolation, and decision rules, provide theoretical scaffolding for their everyday use in assessment practice. Argumentative inferences from an observation to a score, to target domain, and finally to construct, add layers of inferences to improve validity. The same principles can be used to establish the validity of programs of assessments.

평가 설계자는 평가의 맥락과 목적에 따라 주장arguments의 성격이 추론에 가장 적합한 이유를 명확하고 일관성 있게, 그리고 그럴듯하게 방어해야 할 책임이 있습니다. 논증 기반 타당도 프레임워크를 전체 평가 프로그램으로 확장하려면 학습을 위한 평가의 [이중적 성격]을 인식해야 합니다(Van der Vleuten & Schuwirth, 2005).

  • 목표 역량을 평가하는 평가 프로그램의 경우, 채점 과정과 시험관 등급 생성에 일관된 원칙을 적용하여 평가 형식을 만들거나 조정할 때 주의를 기울여야 합니다. 이러한 평가는 단순히 완료/미완료, 만족/불만족 또는 등급을 매길 수 있습니다.
  • 의도적으로 설계된 과제 모음에서 기대되는 성과는 목표 역량을 평가하는 데 사용될 수 있는 과제의 '유니버스'에 걸쳐 일반화할 수 있어야 합니다.
  • 의미 있는 정보 삼각 측량을 통해 선택된 과제 모음과 그 평가 또는 서술적 피드백에서 외삽하는 것은 목표 역량 또는 다른 맥락에서의 향후 역량 성과를 측정하는 것이어야 합니다.
  • 선택된 과제의 수집을 기반으로 한 의사 결정 프로세스의 견고성이 갖는 함의를 고려해야 합니다. 교수진 개발은
    • 첫째, 개별 평가를 수행하고 피드백을 제공하는 방법에 대한 교사의 우려를 해결해야 합니다.
    • 둘째, 의사 결정 과정, 진행 규칙, 적절한 교정 및 추가 평가 규칙에 대한 이해와 자신감의 수준을 높입니다.

The onus is with the assessment designer to clearly, coherently, and plausibly defend why the nature of the arguments are best suited for the inferences according to the context and purpose of the assessment. Extending an argument-based validity framework into the whole program of assessments also needs to recognise the dual nature of the assessment for learning (Van der Vleuten & Schuwirth, 2005).

  • For programs of assessment to assess targeted competencies, care needs to be taken in creating or adapting assessment formats, by applying consistent principles on scoring processes and the generation of examiner ratings. These may be simple completed/not completed, satisfactory/unsatisfactory or graded.
  • The expected performance across the purposively designed collection of tasks should be generalisable across the ‘universe’ of tasks that could have been used to assess the target competencies. 
  • Extrapolating from the collection of selected tasks and their ratings or narrative feedback through meaningful triangulation of information should be a measure of the target competencies, or future performance of competencies in a different context.
  • Consideration needs to be given to the implications of the robustness of the decision-making process based on the collection of selected tasks. Faculty development will need to address teachers’ concerns about
    • first; how to undertake individual assessment and give feedback.
    • Second, increase the level of understanding and confidence in the decision-making processes, progression rules, and were appropriate remediation and further assessment rules.

케인은 평가 프로그램의 타당성 주장에 대한 엄격한 평가는 해석 사용 논증에서 [가장 약한 가정]이나 [고부담 결정을 뒷받침하는 가정]을 식별하고 우선순위를 정하는 것에서 시작해야 한다고 주장합니다. (Kane, 2013) 연구 결과는 평가 구조를 최적화하고, 교수자 개발을 개선하고, 학생의 학습 개발을 개선하는 데 다시 피드백될 수 있습니다.
Kane argues rigorous evaluation of the claims to validity of a program of assessments, should start by identifying and prioritising the weakest assumptions in the interpretation use argument or those that underpin high stakes decisions. (Kane, 2013) Findings can be fed back into optimising the structures of assessment, refining faculty development, and learning development of students.

요약하면, 논증 기반 타당도 프레임워크는 학생이 프로그램 평가를 위해 제시한 특정 정보 모음이 해당 학생의 진도 결정을 알리는 데 충분한 타당도를 가질 수 있는 방법과 이유를 명확하게 제공함으로써 교수자 및 학습자를 포함한 다양한 이해관계자에게 효과적일 수 있습니다.
In summary, an argument-based validity framework can work for a range of stakeholders including faculty and learners by providing clarity in how and why a particular collection of information presented by a student for programmatic assessment can have sufficient validity to inform progression decisions about that student.

목적이 있고 다양한 과제 설계
Designing purposeful and eclectic tasks

이 주제에서는 평가 시스템 구조와 학습자 기관 간의 교차점이 평가에 대한 다양한 접근 방식에 대한 일부 교수진의 순진함으로 인해 어떻게 영향을 받을 수 있는지에 대해 설명합니다.

  • 첫째, 순진한 경험주의: 학습자에 대한 지식의 기초를 형성하는 절대적인 사전 이론적 관찰 및 경험이 있다는 믿음입니다.
  • 둘째, 순진한 절충주의: 순전히 경험주의적이고 환원주의적인 접근 방식으로 평가 과제를 설계하거나 프로그램 내 관습 및 관행에 기반한 형식을 사용할 때 발생할 수 있습니다(Bhaskar 외., 2018).

This theme describes how the intersection between the structure of an assessment system and learner agency can be impacted by the naivety of some faculty in differing approaches to assessment.

  • First, naïve empiricism: the belief that there are some absolute pre-theoretical observations and experiences which form the basis of knowledge about a learner.
  • Second, naïve eclecticism (Bhaskar et al., 2018) which can arise when assessment tasks are designed on a purely empiricist and reductionist approach, or using formats based on custom and practice within the program.

좀 더 자세히 설명하자면, 학습자의 수행에 대한 '관찰'에 초점을 맞추면 평가 설계자가 순진한 경험주의, 즉 평가자의 평가가 오류 없이 절대적인 시험 점수를 제공할 수 있다는 생각으로 이어질 수 있습니다. 점수에 대한 지나친 강조는 학습자의 주체성을 해칠 수 있습니다. 숫자는 학습자의 성과에 대한 다양한 판단과 후속 학습을 개선하기 위한 피드백의 동화를 왜곡할 수 있습니다. 평가와 학습의 이론이 서로 어떻게 영향을 미치는지에 대한 최근의 검토에서 베어드 외, 2017은 평가의 이론적 근거는 불가지론적이라고 제안합니다. 
To illustrate further, a focus on ‘observation’ of learner performances can lead to naïve empiricism by the assessment designer; the notion that an assessor’s rating can provide a person’s test score that is absolute and free from error. An overemphasis on scores can be detrimental to learner agency. Numbers can skew the assimilation of multiple judgements of a learner’s performances and the attendant feedback aimed at refining subsequent learning. In a recent review of how theories of assessment and learning influence each other, Baird et al., 2017 suggest that the theoretical basis of assessment is agnostic.

학습을 위한 평가와 학습을 위한 평가는 평가의 서로 다른 기능을 제시하는 서로 다른 방식으로 간주됩니다. 이러한 주장은 형성 평가와 총괄 평가의 맥락에서 Norcini 외., 2018에 의해 제기되었습니다. 평가에 대한 이러한 이론적 접근의 의도하지 않은 결과는 평가 설계자가 정책, 커리큘럼 및 측정 의무를 충족하는 과정에서 발생하는 실용적 및 측정 고려 사항이 우세하다는 것입니다. 순진한 절충주의의 의도하지 않은 결과는 이론적 근거에 기반한 가정 없이, 오직 실용적으로 평가 과제를 선택할 수 있으며, 이러한 과제의 집합으로서 학습자의 다양한 역량에 대한 학습자의 진도에 대한 정보의 종적 흐름을 제공하지 못할 수 있다는 것입니다(Van der Vleuten & Schuwirth, 2005).
Assessment for learning and of learning are seen as differing ways of presenting the different functions of assessment. This argument is taken up in the context of formative and summative assessment by Norcini et al., 2018. An unintended consequence of this atheoretical approach to assessment is the dominance of practical and measurement considerations arising from assessment designers meeting policy, curriculum, and measurement imperatives. An unintended consequence of naive eclecticism is that assessment tasks may be chosen pragmatically without theoretically informed assumptions, and which may, as a collection of tasks, fail to provide for longitudinal flow of information about a learner's progress in various competencies (Van der Vleuten & Schuwirth, 2005).

[평가 관행을 혼합하는 것][이론]과 [실행의 실용성] 사이의 균형을 맞추기 위해 서로 반대되는 것처럼 보이는 평가 관행 사이의 긴장을 해결하는 한 가지 접근 방식입니다. 일반적으로 일부 학습 결과에는 전통적인 총괄 평가 요소를, 다른 학습 결과에는 프로그래밍 방식의 평가를 사용합니다. 안타깝게도 혼합형 평가 관행은 다양한 평가 과제의 중요성을 해석하는 타당성(Cook & Beckman, 2006)과 신뢰성(Driessen et al., 2012)을 둘러싸고 학습자와 교수진의 마음속에 긴장을 조성합니다. 가능한 경우 혼합 평가 관행을 피하는 것이 좋습니다. 
Hybridising assessment practice is one approach to resolving the tension between seemingly opposing assessment practices to balance theory with the pragmatics of implementation. Typically, by having an element of traditional summative assessment for some learning outcomes and programmatic assessment for others. Unfortunately, hybridised assessment practices create tensions in the minds of learners and faculty, around the validity (Cook & Beckman, 2006) and trustworthiness (Driessen et al., 2012) of interpreting the importance of various assessment tasks. It is beneficial to avoid hybrid assessment practice where possible.

요약하면, 평가 구조를 설계할 때 교수자의 순진한 경험주의는 프로그램적 평가의 구현을 방해하고 학습자의 주체성과 학습을 위한 평가를 제약할 수 있습니다. 학생과 교수진 모두에게 효과적인 평가 시스템을 만들려면 평가 시스템을 의도적으로 설계해야 합니다. 필요한 역량을 다루기 위한 다양한 평가 과제의 필요성은 프로그램에 적합한 증거 기반 평가 과제를 의도적으로 선택하여 그 타당성을 확립함으로써 관리할 수 있습니다(Schuwirth & Van der Vleuten, 2012).
In summary, naïve empiricism from faculty in designing the structures of assessment can impede the implementation of programmatic assessment and constrain learner agency and assessment for learning. To make an assessment system work for both students and faculty, it must be purposefully designed. The need for an eclectic set of assessment tasks to address the required competencies is managed by establishing the validity of purposely chosen evidence-based assessment tasks appropriate to the program (Schuwirth & Van der Vleuten, 2012).

공유된 내러티브 개발
Developing a shared narrative

이 주제는 평가와 학습 간의 상호작용에 대해 서로 다른 생각을 가진 교육자 간의 격차를 해소하기 위한 공유 내러티브에 대한 합의가 부족하다는 점에 초점을 맞췄습니다. (웹스터-라이트, 2009). 
This theme focussed on the lack of a consensus on a shared narrative to bridge the gap between educators holding differing ideas about the interplay between assessment and learning. (Webster-Wright, 2009).

우리는 [학습을 위한 평가]에서 중요한 두 가지 문제, 즉 비례성(평가의 지분)과 학생 학습에 대한 데이터의 삼각 측정을 논의함으로써 평가 관행을 개혁하는 데 있어 공유된 내러티브의 필요성을 설명합니다. 프로그램식 평가에는 [학습을 위한 평가]의 구조를 제공하고, 여기에는 기존의 총괄 평가와는 크게 다른 여러 가지 핵심 타당도 주장이 있습니다. 여기에는 다음이 포함됩니다(Dijkstra 외., 2012; Van der Vleuten 외., 2015). 

  • 비례성의 원칙,
  • 피드백의 가치,
  • 학습에 대한 평가와 학습을 위한 평가 간의 균형


We illustrate the need for a shared narrative in reforming assessment practice by discussing two issues that are important in assessment for learning: proportionality (the stakes of an assessment) and triangulation of data on student learning. In programmatic assessment, there are a number of core validity claims which provide a structure for assessment for learning, and which differ substantially from traditional summative assessment. These include

  • the principle of proportionality,
  • the value of feedback, and
  • the balance between assessment of and assessment for learning (Dijkstra et al., 2012; Van der Vleuten et al., 2015).

[비례성]은 학습자의 진도에 대한 결정에 대한 이해관계가 정보의 신뢰성 또는 풍부함에 비례해야 한다는 것을 의미합니다. 프로그램 평가에서 형성적-총괄적 평가의 전통적인 이분법은 의사 결정의 이해관계에 따른 연속적인 평가로 대체됩니다(Schuwirth et al., 2017). 비판적 현실주의 관점에서 볼 때, 무엇이 누구에게 왜 효과가 있는지에 대한 실제 설명은 다소 다릅니다. 프로그램 설계자는 주로 평가의 구조, 즉 학습자 선택에 미치는 영향을 검토하지 않고 타당도 규칙을 다루는 것처럼 보입니다. 현재 프로그래밍 평가의 언어에서는 학습자 선택권을 최적화하기 위해 개별 평가에 "낮은 위험도" 또는 "중간 위험도"라는 라벨을 붙입니다. Schut 등(2018)과 Heeneman 등(2015)은 '낮은 위험도 평가'를 뒷받침하는 프로그램 설계자의 의도와 이러한 평가를 높은 위험도로 인식하는 학습자의 인식 사이에 불일치가 있음을 보여주었습니다.
Proportionality implies that the stakes of decisions about a learner’s progress should be proportional to the credibility or richness of information. The traditional dichotomy of formative-summative assessments in programmatic assessment is replaced with a continuum of assessments depending upon stakes of decisions (Schuwirth et al., 2017). From a critical realist perspective, the real explanation of what is working for whom and why is somewhat different. It would seem program designers mainly address the structure of assessment, i.e., the validity rules without examining impacts on learner agency. In the current language of programmatic assessment, individual assessments are labelled as “low stakes” or “medium stakes” to optimise learner agency. Schut et al. (2018) and Heeneman et al. (2015) have shown that there is a mismatch between program designers’ intentions underpinning ‘low stakes assessments,” and learners’ perceptions of these assessments as high stakes.

이로 인해 학습자가 평가 과제를 저부담, 중부담 또는 고부담으로 간주하는지 또는 위험도가 평가의 조합을 기반으로 한 판단 또는 진도 결정을 의미하는지에 대해 혼란을 야기할 수 있습니다. 프로그래밍 방식의 평가를 구현할 때 개별 평가 과제에 할당된 '부담'이라는 단어는 세 가지 문제를 야기합니다. 

  • 첫째, 평가에 '스테이크'가 부여되는 순간 학습자는 평가가 '합산'된 것으로 인식하여 의도한 교육 효과를 방해할 수 있습니다(Heeneman 외., 2015; Schut 외., 2018; Watling & Ginsburg, 2019). 
  • 둘째, 프로그램식 평가의 적용 가능성을 주로 의사 결정 또는 판단 목적으로 제한하고 평가의 학습 효과를 가려버립니다
  • 개별 과제에 '부담'을 할당할 때 의도하지 않은 세 번째 효과는 학습을 위한 평가의 [이중 목적]에 미치는 영향입니다. 학생은 저부담 과제를 작업량 측면에서 수행할 가치가 없는 것으로 인식하고, 고부담 과제로부터 주의를 분산시키는 과제일 뿐이어서, 학습 목적도 낮은 가치로 간주할 수 있습니다. 

This leads to confusion as to whether students considered assessment tasks as low, medium, or high stakes, or whether the stakes refer to the judgment or progression decision based on the collation of the assessments. When implementing programmatic assessment, the ‘stakes’ assigned to individual assessment tasks leads to three issues.

  • First, the moment ‘stakes’ are assigned to assessments, they are perceived as ‘summative’ by learners which may interfere with the intended educational effect (Heeneman et al., 2015; Schut et al., 2018; Watling & Ginsburg, 2019).
  • Second, it limits the applicability of programmatic assessment mostly to the decision-making or judgemental purpose of assessments and eclipses the learning impact of assessment.
  • A third and unintended effect of assigning ‘stakes’ to individual tasks is its impact on the dual purpose of the assessment for learning. Students may perceive a task with low stakes as not worth doing in terms of the workload and distracting them from tasks designated high stakes and inferring that the learning purpose of the task is also deemed as low value.

따라서 '부담'이라는 용어의 사용하는 것은 그 자체로 학생의 자율성에 부정적인 영향을 미칠 수 있으며, '위험도가 낮은' 과제에 대해 풍부한 피드백을 제공하는 등 교사의 자율성을 증진하는 데 거의 도움이 되지 않습니다.
Thus, counterintuitively the use of the term ‘stakes’ can have a negative effect on student agency, and do little to promote teacher agency in for example giving rich feedback for ‘low stakes’ tasks.

'스테이크'라는 용어는 학습 과제에 대한 개별 평가와 관련하여 사용하지 않는 것이 가장 좋으며, [학습의 평가]를 목적으로 제출된 작품 모음에 대한 의사 결정 및 진급 결정을 위해 유보되어야 한다.
The term ‘stakes’ is best avoided in relation to individual assessment for learning tasks, and reserved for the decision making and progression decisions on the collection of works submitted for the purpose of in assessment of learning.

평가 관행 개혁의 두 번째 사례는 [삼각 측량 개념]입니다.

  • [전통적인 평가]에서 삼각 측량이란 프로그램에서 각 평가 요소의 최종 결과를 조합하는 것을 말합니다. 이러한 정보 결합 방식은 학생의 전반적인 역량에 대한 논증과 추론의 근거가 취약할 수 있습니다. 이 공식은 [결합 및 보상]과 같은 개념을 기반으로 합니다(Schuwirth & Van der Vleuten, 2012). 역량 기반 의학교육에서 결합과 보상의 개념은 논쟁의 여지가 있습니다. 예를 들어, 지식이 부족한 학생에게 의사소통을 잘하는 것이 충분한 보상이 될 수 있다고 주장할 수는 없습니다.
  • [프로그램식 평가]에서는 평가 도구 간의 삼각 측정을 통해 학습자의 강점, 약점 및 진도에 대한 의미 있는 정보를 제공합니다. 기존 평가에서는 임상 검사에서 복부 검사 스테이션의 결과와 무릎 검사의 결과와 같이 동일한 형식이기 때문에 서로 다른 부분이 결합됩니다. 프로그래밍 방식 평가는 의미 있는 콘텐츠를 기반으로 삼각 측정을 추구한다는 점에서 근본적으로 다릅니다. 즉, 서로 다른 평가 도구의 일부가 의미 있게 결합되어 정보가 풍부한 내러티브로 이어질 수 있기 때문에 서로 삼각 측량됩니다. 

Our second example of a shared narrative issue in assessment practice reform is the concept of triangulation.

  • In traditional assessment, triangulation refers to a combination of the final results of each assessment element in the program. This way of combining information may provide a weak basis for argumentation and making inferences about the students’ overall competence. This formulation is based on notions such as conjunction and compensation (Schuwirth & Van der Vleuten, 2012). In competency-based medical education, the notions of conjunction and compensation are contentious; one cannot argue that for example, being a good communicator would be sufficient compensation for a student having insufficient knowledge.
  • In programmatic assessment, triangulation across assessment instruments provides meaningful information about a learner’s strengths, weaknesses and progress. In traditional assessment different parts are combined because they are of the same format, e.g., the results on an abdominal examination station in a clinical examination with those on a knee examination. Programmatic assessment is fundamentally different in that it seeks triangulation based on meaningful content. This means that parts of different assessment instruments are triangulated with each other because they can be meaningfully combined leading to information-rich narratives.

또한 삼각측정은 단일 평가 형식, 단독 평가자, 단일 관점의 이론이나 모델의 한계를 극복합니다. 삼각측량과 삼각측량 수행 방법에 대한 명확한 규칙은 평가 프레임워크의 타당성 논증의 요소를 강화합니다. 이 평가 시스템에서 나오는 풍부한 정보 결과와 내러티브에 중점을 두면 [학습을 위한 평가]에 더 잘 적용될 수 있습니다. 동시에 삼각측량 과정의 종단적 특성과 풍부한 정보는 환자에게 임상의의 역량을 확신시켜야 하는 면허 취득 상황과 같은 고위험 학습 평가에 더욱 적합하게 만듭니다. (Norcini 등, 2018)

  • 전통적인 시험에서는 각 역량 영역이 개별적으로 측정 가능한 구성 요소로 간주되는 반면,
  • 프로그램적 평가에서는 [역량]이라는 [다면적인 현상에 대한 다양한 렌즈]로 간주되며, 각 영역은 서로 보완적인 역할을 합니다(Schuwirth & Van der Vleuten, 2012).

Moreover, triangulation overcomes the limitation of singular assessment formats, lone assessors, and single-perspective theories or models. Clear rules on triangulation and how it was performed, will enhance elements of the validity argument of the assessment framework. The emphasis on information-rich results and narratives that emerge from this system of assessment make it more applicable for an assessment for learning. At the same time, the longitudinal nature and the information richness of the triangulation process make it more defensible for high-stakes assessment of learning, for example the licensing context, where patients need to be assured of their clinician’s’ competence. (Norcini et al., 2018)

  • Where in traditional testing, each competency domain is seen as a separately measurable construct,
  • in programmatic assessment, they are seen as a variety of lenses on the multifaceted phenomenon of competence, and each is complementary to the other (Schuwirth & Van der Vleuten, 2012).

종단적 평가 정보가 쉽게 접근 가능하고 상호 참조할 수 있는 형식으로 제공되고, 소위 '저부담' 평가를 포함한 모든 평가에서 삼각측정이 학생의 전반적인 역량에 기여하는 것을 볼 수 있는 경우, 교사와 학생은 비례성삼각측량의 개념을 더 잘 이해할 수 있습니다. 이는 의사 결정을 지원하기 위해 학생들의 정보 모음을 시각화하는 데 기술을 사용하는 것과 관련이 있습니다.
The concepts of proportionality and triangulation are more likely to be appreciated by teachers and students where longitudinal assessment information is in an easily accessible and cross-referential format and the contribution of triangulating across all assessment including so-called ‘low stakes’ assessments can be seen contributing to the overall capabilities of the students. This relates to the use of technology in visualising collections of astudents’ information to support decision-making.

요약하면, '스테이크' 및 '평가의 삼각 측량'과 같은 [주요 용어의 정의]에 대한 아이디어를 공유하면 교육자가 평가와 학습의 상호 작용을 더 잘 이해하고 다양한 평가 관행의 언어에 대한 유창성을 개발하는 데 도움이 될 수 있습니다. 이러한 방식으로 교수진과 학생 모두 몇 가지 지침과 이론적 틀을 통해 평가 관행을 변화시킬 수 있는 역량을 강화할 수 있습니다. 교수자와 학습자는 아이디어를 공유해야만 학습자의 선택권을 부여하고 평가 관행의 구조를 어느 정도 통제할 수 있는 선택권과 조치를 취할 수 있습니다(Archer, 2003).
In summary, sharing of ideas about the definitions of key terms such as ‘stakes’ and ‘triangulation of assessment’ could help educators better appreciate the interplay of assessment and learning and develop fluency in the language of differing assessment practices. In this way both faculty members and students might be better empowered to change assessment practice with some guidelines and theoretical framing. Only through sharing their ideas can faculty and learners have the power to make choices and take action to privilege learner agency and develop a degree of control over the structure of assessment practice (Archer, 2003).

토론
Discussion

우리의 비판적 현실주의 질문은 새로운 평가 관행을 구현하고 평가하는 맥락에서 [평가 관행의 구조]와 [학습자 주체성] 간의 상호 작용을 탐구했습니다. 우리는 개혁 관리의 문제에 대한 더 깊은 설명은 평가 관행을 뒷받침하는 구조와 학습자 선택의 어포던스 사이의 복잡한 역학 관계에 대한 설명에서 찾을 수 있다고 주장했습니다. 우리는 구조, 에이전시 및 이들 간의 상호 작용에 대한 정보를 제공함으로써 기존의 전통적인 평가 시스템이 있는 맥락에서 프로그램 평가와 같은 새로운 프로그램이 미치는 영향에 대한 초기 이해를 제공하고자 했습니다(De Souza, 2013; Pawson 외., 1997).
Our framing critical realist question explored the interplay between the structure of assessment practice and learner agency in the context of implementing and evaluating new assessment practices. We have argued that a deeper explanation of the problem in managing reform can be found in accounts of the complex dynamics between the structures underpinning assessment practice and the affordances of learner agency. We have sought to provide some initial understanding of the impact of a new program such as programmatic assessment in a context where there is a pre-existng traditional assessment system by providing information about the workings of structure, agency and the interplay between them (De Souza, 2013; Pawson et al., 1997).

네 가지 주요 관점에 주의를 기울이면 기존 평가 관행의 한계를 이해하고 새로운 평가 관행을 개발하는 데 도움이 될 것입니다. 

  • 학습자의 주체성 활성화, 
  • 새로운 타당성 논거의 재구성 및 확립, 
  • 목적에 맞는 평가 과제 설계, 
  • 이해관계자가 평가에 대한 새로운 접근 방식을 이해하고 수용할 수 있도록 교수자 개발을 촉진하는 것입니다. 

이러한 관점을 통해 교육자는 프로그램 평가와 같은 개입이 여러 맥락에서 누구를 위해, 어떤 상황에서, 왜 작동하는지에 대한 복잡성을 풀 수 있습니다.
Paying attention to four key perspectives will aid in both understanding the limitations of traditional assessment practice and in developing new assessment practice. These are:

  • enabling learner agency,
  • restructuring and establishing new validity arguments,
  • designing purposeful assessment tasks, and
  • promoting faculty development to enhance the fluency of stakeholders to understand and accept new approaches to assessment.

These perspectives allow educators to unpack the complexity of how interventions such as programmatic assessment work across multiple contexts, for whom, under what circumstances, and why?

비판적 현실주의 렌즈를 통해 평가 개혁을 실행하고 평가할 때 이론, 정책 및 실무에 대한 여러 가지 시사점이 있습니다. 구조와 행위자성 간의 상호 작용에 대한 이러한 접근 방식은 교육자가 자신의 교육기관에서 평가 관행에 대한 주요 변화의 복잡성을 이해하는 데 유용한 통찰력을 제공할 수 있습니다. 이는 정책, 커리큘럼 및 측정 의무를 충족하고 연구 질문, 데이터 수집 및 분석 방법 안내를 포함한 평가 연구 프로토콜을 개발할 때 실제 평가 고려 사항을 기반으로 할 수 있는 이론적 틀을 제공할 수 있습니다. 
There are a number of implications for theory, policy, and practice when implementing and evaluating assessment reforms when viewed through a critical realist lens. This approach around the interplay between structure and agency can give helpful insights for educators in making sense of the complexity of major changes to assessment practice in their own institutions. It can provide a theoretical framing on which to base practical assessment considerations in meeting policy, curriculum, and measurement imperatives, and in developing evaluative research protocols, including guiding research questions, data collection and analysis methods.

표 2에서는 프로그램 평가를 실행하거나 지속하는 데 관심이 있는 사람들을 위해 각 주제에서 다양한 실제 적용 사례를 제공하며, 비네트(표 1)에 요약된 문제 유형을 다룹니다.
In Table 2, we provide a number of practical applications from each theme for those interested in implementing or sustaining programmatic assessment and addressed the kinds of issues outlined in our vignette (Table 1).

[학습자 주도성을 촉진하기 위한 전략]에는 학습자와 함께 평가가 이루어질 수 있도록 평가 구조를 변경하는 것이 포함됩니다. 학생은 학습 기회를 극대화하고 성취도에서 표준을 입증할 수 있도록 연중 내내 자신의 책임에 대해 방향을 설정하고 지속적으로 참여해야 합니다.
Strategies to promote learner agency involve changing assessment structures so that assessment is done with learners. Students need to be orientated and continually engaged throughout the year around their responsibilities to maximize their learning opportunities and demonstrate standards in their achievements.

[Kane과 같은 논증적 프레임워크를 재구성]하면 교수자, 학생 및 인증 기관과 같은 외부 이해관계자 모두에게 평가의 타당성과 표준에 대한 명확성을 제공할 수 있습니다(Kane, 2013; Schuwirth & Van der Vleuten, 2012). 그러면 학생은 자신의 학습을 결정할 때 진정으로 얼마나 많은 권한을 가질 수 있는지, 학습 결과의 성취를 뒷받침하는 데 사용할 수 있는 증거의 종류에 대해 더 명확하게 알 수 있습니다. 학생 점수/측정/정보에 대한 의사 결정의 타당성을 명확히 하면 교수진, 학생, 인증 기관, 의료 서비스 제공자 및 커뮤니티에 확신을 줄 수 있습니다.
Restructuring an argumentative framework such as Kane’s gives clarity around validity and standards of assessment for both faculty, students and external stakeholders such as accreditation bodies (Kane, 2013; Schuwirth & Van der Vleuten, 2012). Students can then have more clarity around how much agency they can genuinely assume in determining their learning and the kinds of evidence they can use to underpin their achievements of learning outcomes. Clarity around the validity of decision making on student scores/measures/information in their collections of evidence gives assurity for faculty, students, accreditation bodies, healthcare providers, and the community.

[교수진 개발 전략]은 학생과 교사를 새로운 평가 관행의 변경된 언어와 규칙에 익숙하게 만드는 데 매우 중요합니다. 이러한 방식으로 교수진과 학생 모두 평가 관행의 변화를 지속할 수 있는 역량을 강화할 수 있습니다(Leibowitz et al., 2012).

  • 교수자 개발은 새로운 평가 관행의 변화된 언어와 규칙에 익숙해지도록 할 때 교사의 상황에 따라 영향을 받은 평가 경험뿐만 아니라 제도적 맥락을 고려해야 합니다.
  • 마찬가지로, 프로그램 평가에 대한 학습자 개발도 학습 활동에 포함되어야 합니다. 워크숍은 개인(교사와 학생)이 변화하는 평가 관행에 대한 우려를 해결하고 우선순위를 정하는 반성적 숙고, 즉 내부 대화를 촉진할 수 있습니다(Archer, 2003).

이러한 방식으로 교수진은 평가 관행에 대한 신뢰를 갖고 변화를 지속할 수 있으며(Schut et al., 2020), 교사-학습자 관계가 개선될 수 있습니다. (Schut 외, 2021) 
Strategies for faculty development are critical in socializing student and teachers into the changed language and rules of the new assessment practices. In this way both faculty members and students might be better empowered to sustain changes in assessment practice (Leibowitz et al., 2012).

  • Faculty development needs to take the institutional context as well as teachers’ contextually influenced experiences of assessment into account when socializing them into the changed language and rules of the new assessment practices.
  • Similarly, learner development around programmatic assessment needs to be embedded in the learning activities. Workshops can promote an internal conversation; the reflexive deliberations through which the individual (teachers and students) address and prioritise their concerns about changing assessment practice (Archer, 2003).

In these ways, both faculty members might be better empowered to have trust in and sustain changes in assessment practice (Schut et al., 2020) and have an improved teacher-learner relationship. (Schut et al., 2021)

비판적 현실주의 접근법은 의과대학 또는 대학 내의 다양한 주체(예: 프로그램 및 평가 위원회 구조)가 어떻게 인과적 힘을 행사하고 의도된(예: 통합 평가 시스템) 및 의도하지 않은 관찰 가능한 결과(예: 과도한 평가를 통한 학습자 이탈)로 이어지는 일련의 사건 패턴을 생성할 수 있는 메커니즘을 생성할 수 있는지를 설명하는 데 도움이 될 수 있습니다. 권력 문제가 평가 이외의 '현실' 구조의 겹겹이 쌓인 층과 상호작용하여 개혁에 영향을 미치는 방식에서 우리의 시나리오에 대한 추가적인 방법론적 탐구의 기회가 있습니다. 예를 들어, 교육 거버넌스, 그리고 선임 교수진(학장 및 부학장)과 같은 인과적 권한을 가진 기타 행위자들(Bhaskar, 1978)이 이에 해당합니다. 향후 연구에서는 이 방법론적 접근 방식을 평가 관행의 주요 변화에 관여하는 프로그램의 경험적 데이터에 적용하여 주요 기본 메커니즘을 밝힐 수 있습니다.

A critical realist approach might help explain how various entities within the medical school or university, for example, the program and assessment committee structures, are capable of exercising causal powers and generating mechanisms that can create a pattern of events leading to intended (e.g., an integrated assessment system) and unintended observable outcomes (e.g., learner disengagement through over assessment). There is an opportunity for further methodological exploration of our scenario in the ways in which issues of power interact with the laminated layers of ‘reality’ of structures other than assessment, to impact reform. For example, educational governance, and other agencies having causal powers, for example senior faculty (Deans and Associate Deans) (Bhaskar, 1978). Future research might apply this methodological approach to empirical data from programs engaged in major change in assessment practice to illuminate the key underlying mechanisms.

불확실성 영역
Areas of uncertainty

이 논문은 변화하는 평가 관행에 대한 비판적 현실주의적 탐구를 제공하는 몇 안 되는 문헌 중 하나입니다. 이 연구는 평가 관행의 구조 개혁에 대한 현재의 맥락적 영향, 평가와 학습 간의 관계에 대한 다양한 생각, 학습자의 선택권을 강화하기 위해 평가 구조와 프레임워크를 조정하는 데 필요한 여러 단계와 관련하여 설명된 구조와 선택권 간의 상호 작용이라는 개념을 지지합니다. 저희는 저희의 분석과 이론화가 데이터에 기반한 것이 아니라 반사적이라는 점을 인정하지만, 평가 관행 변화의 맥락에서 경험적 연구에 대한 중요한 노력을 고려하는 사람들에게 견고한 이론적 근거를 제공했다고 믿습니다. 저희는 근본적인 메커니즘을 제공하지 못했음을 인정합니다. 그보다는 맥락이 풍부한 연구 환경에서 경험적 데이터를 검토할 때 해결해야 할 가능성이 있는 논쟁의 종류를 설명했습니다.
This paper is one of few in the literature that provide a critical realist exploration of changing assessment practice. The study supports the notion of an interplay between structure and agency, which has been illustrated in relation to current contextual influences on reforming the structure of assessment practices, differing ideas about the relationship between assessment and learning, and the several steps required to adapt assessment structures and frameworks to enhance learner agency. We acknowledge that our analysis and theorising was reflexive and not data driven, but we believe we have provided a solid theoretical grounding for those contemplating significant efforts on empirical research in contexts of assessment practice change. We recognise that we have not provided underlying mechanisms as such. Rather, we have described the kinds of arguments that are likely to need addressing when reviewing empirical data in context rich research settings.

결론
Conclusion

비판적 현실주의 접근법은 교육자가 평가 실무에서 개혁을 반영하고, 실행하고, 평가하는 데 도움이 될 수 있습니다. 비판적 현실주의 접근법은 프로그램 평가와 같은 혁신이 여러 맥락에서 어떻게 작동할 수 있는지, 그리고 어떤 것이 누구에게 효과가 있는지 설명하는 데 도움이 될 수 있습니다. 저희는 교육자가 각자의 맥락에서 평가 관행의 구조를 개혁하는 데 도움이 되는 근본적인 설명을 찾는 데 도움이 될 수 있는 네 가지 관점을 제안합니다. 여기에는 다음이 포함됩니다. 

  • 학습자의 참여와 선택권 보장,
  • 논증에 기반한 타당도를 강조하는 타당도 프레임워크 수립,
  • 증거에 기반한 의도적이고 다양한 평가 과제 설계,
  • 평가 구조와 학습자의 선택권에 대한 대화의 결과를 통합할 수 있는 공유 내러티브 개발

이러한 관점과 관련된 전략을 적용하는 방법에 대한 몇 가지 지침을 제공합니다.
A critical realist approach may help educators in reflecting on, implementing, and evaluating reforms in assessment practice. It can help identify how innovations such as programmatic assessment might work across multiple contexts and explain how it works, and what works for whom. We propose four perspectives which can aid educators to find underlying explanations that are helpful in reforming the structures of assessment practice in their contexts. These include

  • enabling learner engagement and agency,
  • establishing validity frameworks that emphasizes argument-based validity,
  • designing purposeful and eclectic assessment tasks that are evidence-based, and
  • developing a shared narrative that can integrate outcomes of conversations about the structure of assessment and learner agency.

We provide some guidance on how to apply strategies related to these perspectives.


Adv Health Sci Educ Theory Pract. 2021 Dec;26(5):1641-1657. doi: 10.1007/s10459-021-10065-8. Epub 2021 Aug 24.

Exploring complexities in the reform of assessment practice: a critical realist perspective

Affiliations collapse

Affiliations

1Faculty of Medicine and Health, Education Office, Sydney Medical School, The University of Sydney, Sydney, NSW, Australia. christopher.roberts@sydney.edu.au.

2Faculty of Medicine and Health, Education Office, Sydney Medical School, The University of Sydney, Sydney, NSW, Australia.

3Centre for Research on Learning and Innovation (CRLI), The University of Sydney, Sydney, NSW, Australia.

4Prideaux Discipline of Clinical Education, College of Medicine and Public Health, Flinders University, Adelaide, South Australia, Australia.

PMID: 34431028

DOI: 10.1007/s10459-021-10065-8

Abstract

Although the principles behind assessment for and as learning are well-established, there can be a struggle when reforming traditional assessment of learning to a program which encompasses assessment for and as learning. When introducing and reporting reforms, tensions in faculty may arise because of differing beliefs about the relationship between assessment and learning and the rules for the validity of assessments. Traditional systems of assessment of learning privilege objective, structured quantification of learners' performances, and are done to the students. Newer systems of assessment promote assessment for learning, emphasise subjectivity, collate data from multiple sources, emphasise narrative-rich feedback to promote learner agency, and are done with the students. This contrast has implications for implementation and evaluative research. Research of assessment which is done to students typically asks, "what works", whereas assessment that is done with the students focuses on more complex questions such as "what works, for whom, in which context, and why?" We applied such a critical realist perspective drawing on the interplay between structure and agency, and a systems approach to explore what theory says about introducing programmatic assessment in the context of pre-existing traditional approaches. Using a reflective technique, the internal conversation, we developed four factors that can assist educators considering major change to assessment practice in their own contexts. These include enabling positive learner agency and engagement; establishing argument-based validity frameworks; designing purposeful and eclectic evidence-based assessment tasks; and developing a shared narrative that promotes reflexivity in appreciating the complex relationships between assessment and learning.

Keywords: Assessment reform; Clinical competence; Critical realism; Programmatic assessment; Structure and agency.

졸업후의학교육에서 자기모니터링의 스코핑 리뷰 (Med Educ, 2023)
A scoping review of self-monitoring in graduate medical education
William Rainey Johnson1 | Steven J. Durning2 | Rhonda J. Allard3 | Adam M. Barelski4 | Anthony R. Artino Jr5

 

1 서론
1 INTRODUCTION

의사와 수련 중인 의사는 어떤 개입이 되었든, [특정 업무의 맥락이 소거된 글로벌 자기평가의 정확도가 낮다]는 것을 반복적으로 입증해 왔습니다.1, 2 구조로서의 자기평가는 잘 정의되지 않았으며, 일반적으로 [지식, 기술 또는 태도와 관련된 특정 영역에서 자신의 전반적인 성과에 대한 개인적인 반성, 요약 또는 평가]를 나타냅니다.3 그러나 수련 중인 의사가 자신의 성과 한계와 성장 기회를 인식하는 법을 배워야 한다는 생각은 매력적이며 수많은 인증 기관의 지침 문서에 나타나 있습니다.4-7 결국, 수련 중인 의사와 지속적으로 '함께' 하는 유일한 사람은 의사 자신입니다. 
Physicians and physicians-in-training have repeatedly demonstrated poor accuracy of global self-assessments, which are removed from the context of a specific task, regardless of any intervention.1, 2 Self-assessment as a construct is ill-defined, generally representing a personal reflection, summary or evaluation of one's overall performance in a particular area typically related to knowledge, skill or attitude.3 Yet, the idea that practicing physicians should learn to recognise their performance limitations and opportunities for growth is appealing and appears in the guiding documents of numerous accreditation bodies.4-7 After all, the only person who is consistently “with” a practicing physician is the physician themself.

[자가 모니터링]은 [자신의 성과에 대한 순간적인 자기 인식]이며, [자가 평가에 대한 유망한 대안]을 제공합니다.8, 9 [Global phenomenon인 자가 평가]와 달리, [자가 모니터링]은 [특정 시점]의 [특정 작업]에 초점을 맞추고 있습니다. 예를 들어, 수련의가 중환자에게 동맥관을 삽입하는 능력을 전반적으로 평가하도록 요청받는다면 자신의 능력에 대해 부정확한 평가를 내릴 가능성이 높습니다. 반면에 학부 의학교육 수련생은 정확하게 자가 모니터링을 할 수 있다는 연구 결과가 있습니다.8, 9 즉, 수련생은 중환자실에서 근무하는 동안 72세의 중환자인 존스 씨에게 동맥관 삽입을 [완료하기 직전, 도중 또는 직후]에 자신의 수행 능력을 정확하게 평가할 수 있다는 것입니다.
Self-monitoring is an in-the-moment self-awareness of one's performance and offers a promising alternative to self-assessment.8, 9 Unlike self-assessment, which is a global phenomenon, self-monitoring focuses on a specific task at a specific moment in time. For example, if a trainee was asked to globally assess their ability to insert an arterial line in a critically ill patient, he/she would likely provide an inaccurate assessment of their capabilities. On the other hand, research suggests that undergraduate medical education trainees can accurately self-monitor.8, 9 In other words, a trainee can accurately evaluate their performance of an arterial line placement in Ms. Jones, a 72-year-old critically ill patient, immediately before, during or after completing it at 0115 during a shift in the intensive care unit.

학부 과정과 비교하여 [졸업후 과정의 의사 수련생]에 대한 자가 모니터링에 관한 문헌도 다소 명확하지는 않지만 유망합니다.10 존스 씨에게 동맥 라인을 배치한 의대생처럼, 수행에 대한 자기 인식을 시간적, 맥락적으로 행동에 연결하면 대학원 의학 교육(GME) 수련생이 자신의 역량을 더 정확하게 평가하는 데 도움이 될 수 있습니다. 즉, 초보 의대생과 마찬가지로 GME 수련생도 정확하게 자기 모니터링을 할 수 있을 것입니다. 안타깝게도 이 아이디어의 직관적인 매력에도 불구하고 [GME에서 수련의 자가 모니터링]에 대한 문헌은 엄격하게 평가되지 않았습니다.
The literature on self-monitoring for post-graduate, as compared with undergraduate, physician trainees is also promising, albeit a little less clear.10 Like the medical student placing the arterial line in Ms. Jones, tying the self-awareness of performance temporally and contextually to the action may help graduate medical education (GME) trainees to more accurately evaluate their capabilities. In other words, much like the novice medical student, GME trainees may be able to accurately self-monitor. Unfortunately, despite the intuitive appeal of this idea, the literature on trainee self-monitoring in GME has not been rigorously appraised.

[레지던트]와 [펠로우 의사]는 각자의 프로그램을 졸업하고 임상 진료에서 역할을 맡아 독립적으로 진단 및 치료 결정을 내립니다. 그러나

  • 진단 및 치료 오류는 여전히 환자 안전 사고의 약 15%를 차지하며 미국에서만 매년 1,200만 명 이상의 사람들에게 부정적인 영향을 미치고 있습니다.11
  • 또한 임상의는 수련 후 진화하는 의료 지식과 기술을 따라잡기 위해 고군분투하며, 최신 상태를 유지하지 못하면 환자 결과에 부정적인 영향을 미칠 수 있습니다.12
  • 마지막으로 임상 진료는 종종 복잡하고 복잡하며 내재된 불확실성으로 가득 차 있어 중요한 자가 모니터링이 필요합니다.13
  • 궁극적으로 모든 진단 및 치료 결정에 책임 있는 유일한 사람은 임상의 본인뿐입니다.

Resident and fellow physicians graduate their respective programmes and assume roles in clinical care, making diagnostic and therapeutic decisions independently.

  • However, diagnostic and therapeutic errors still account for approximately 15% of patient safety events, negatively affecting over 12 million people annually in the United States alone.11 
  • What is more, clinicians struggle to keep up with evolving medical knowledge and skills after training, and failures to stay current can negatively impact patient outcomes.12 
  • Finally, clinical practice is often complex and messy, filled with inherent uncertainty that requires critical self-monitoring.13 
  • Ultimately, the only person present for every diagnostic and therapeutic decision is the responsible clinician themself.

[자기 모니터링]은 많은 [자기조절학습(SRL) 이론]의 필수적인 특징으로 간주됩니다.14,15 

  • 전체적으로 [SRL 이론]은 발달 중인 의사가 다음을 할 수 있는 정도를 이해하기 위한 프레임워크를 제공합니다.
    • [자신의 한계를 적극적으로 인식]하고
    • [동료 및 임상 지원 도구를 활용]하며
    • [변화무쌍하고 종종 불확실한 임상 실무의 요구를 충족]하기 위해 [학습을 구체화]
  • [SRL에 대한 사회인지적 관점]에는 [목표 설정, 동기 부여, 자기 모니터링 및 주기적 피드백]이라는 최소 네 가지 핵심 기능이 포함됩니다.14
    • 최근의 체계적 문헌고찰에 따르면 학부 의학교육 및 GME 문헌에서 목표 설정과 동기 부여는 일반적으로 나타났지만 자기 모니터링과 주기적 피드백을 포함하는 규제 평가 과정은 거의 나타나지 않았습니다.16
    • 마찬가지로, 의대생을 대상으로 한 SRL에 대한 범위 검토에서 학생들의 자기 모니터링이 작업장 환경에서 관찰되는 상황적 자기 모니터링을 탐구한 연구는 4건만 확인되었습니다.17

Self-monitoring is considered an essential feature of many self-regulated learning (SRL) theories.14, 15 

  • As a group, SRL theories provide a framework for understanding the degree to which developing physicians can
    • actively recognise their limitations,
    • leverage peer and clinical support tools and
    • sculpt their learning to meet the demands of an evolving and often uncertain clinical practice.
  • The social cognitive perspective on SRL includes at least four core features: goal setting, motivation, self-monitoring and cyclical feedback.14 
    • A recent systematic review found that goal setting and motivation commonly appeared in the undergraduate medical education and GME literature; however, the process of regulatory appraisal, which encompasses self-monitoring and cyclical feedback, rarely appeared.16 
    • Similarly, a scoping review of SRL in medical students identified only four studies that explored situated self-monitoring, where students' self-monitoring was observed in the workplace environment.17 

그러나 임상 맥락에서 이루어지는 자기 모니터링은 의사가 자신의 기술을 연습하고 숙달해야 하는 바로 그 장소입니다. 사회인지 학습 이론에 따라 자기 모니터링은 다음을 포함합니다(그림 1a).18

  • 자기 관찰(즉, 자신의 생각, 태도 또는 행동 인식),
  • 자기 판단(즉, 자신의 생각, 태도 또는 행동의 정확성/적절성 평가) 및
  • 자기 반응(즉, 생각, 태도 또는 행동의 변화 강화, 계획 또는 실행)

과제 수행과 관련하여, 자기 모니터링은 활동 [직전, 도중 또는 후]에 발생할 수 있습니다. 자가 모니터링 시기와 사용되는 특정 유형의 자가 모니터링의 중요성은 불확실합니다.

Yet, self-monitoring situated within the clinical context is the very place where physicians must practice and master their skills. Consistent with social cognitive learning theories, self-monitoring encompasses

  • self-observation (i.e. recognising one's thoughts, attitudes or behaviours),
  • self-judgement (i.e. grading accuracy/appropriateness of one's own thoughts, attitudes or behaviours) and
  • self-reaction (i.e. reinforcing, planning or implementing change in thoughts, attitudes or behaviours) (Figure 1a).18 

Relevant to task performance, self-monitoring can occur immediately before, during or after an activity. The significance of the timing of self-monitoring and the particular type of self-monitoring being used are uncertain.

이 연구의 목적은 GME에서 자체 모니터링의 상태를 더 잘 이해하기 위한 것으로, 특히 자체 모니터링이 GME에 어떻게 통합되는지, 즉 [자기 모니터링]이 어떻게 [특성화, 개발, 장려, 측정]되는지 조사했습니다(표 1). 여기서 

  • '특성화'는 자체 모니터링에 참여하는 과정과 자체 모니터링에 영향을 미치는 요인을, 
  • '개발'은 자체 모니터링의 품질을 개선하기 위한 전략을, 
  • '장려'는 자체 모니터링의 빈도나 적절성을 높이기 위한 조치를, 
  • '측정'은 자체 모니터링의 정확성이나 성과에 미치는 영향을 의미합니다. 

이를 통해 자체 모니터링을 촉진하고, 경험적 문헌의 격차를 파악하며, 향후 자체 모니터링 연구에 대한 방향을 제시하기 위해 GME 내 모범 사례를 발굴하고자 합니다.

The purpose of this study is to better understand the state of self-monitoring in GME; specifically, we examined how self-monitoring is incorporated in GME—how self-monitoring is characterised, developed, encouraged and measured (Table 1). For our purposes,

  • “characterised” describes the process of engaging in self-monitoring and factors that influence self-monitoring;
  • “developed” represents strategies to improve the quality of self-monitoring;
  • “encouraged” means actions intended to increase the frequency or appropriateness of self-monitoring; and
  • “measured” refers to the accuracy or impact on performance of self-monitoring.

In doing so, we hope to discover the best practices within GME to promote self-monitoring, identify the gaps in the empirical literature and recommend future directions for self-monitoring research within GME.

2 방법
2 METHODS

지식 종합의 한 유형인 범위 검토는 향후 연구를 위해 무르익은 지식이나 관행의 격차를 파악한다는 중요한 목적을 위해 대량의 문헌을 종합하여 현재 상태를 파악하는 데 가장 적합합니다.23 따라서 우리는 광범위한 연구 질문을 해결하기 위해 Arksey와 O'Malley의 6단계인 연구 질문 식별, 관련 연구 식별, 포함된 연구 선택, 데이터 차트 작성, 결과 집계 및 요약, 주요 이해 관계자 또는 전문가 자문에 따라 범위 검토를 수행했습니다.23-25 
As a type of knowledge synthesis, scoping reviews are best for synthesising a large volume of literature to understand its current state for the overarching purpose of identifying gaps in knowledge or practice that are ripe for future research.23 Therefore, we performed a scoping review to address our broad research question, following Arksey and O'Malley's six steps: identifying a research question, identifying relevant studies, selecting included studies, charting the data, collating and summarising the results and consulting key stakeholders or experts.23-25

연구 질문 식별
Identifying a research question

우리는 예비 문헌 검색을 수행하고 연구 질문을 구체화하기 위해 협력적인 토론을 진행했습니다:

  • 자가 모니터링은 GME에 어떻게 통합되어 있는가(예: 특성화, 개발, 장려 및 측정)?

We conducted preliminary literature searches and had collaborative discussions to hone our research question:

  • How is self-monitoring incorporated (e.g. characterised, developed, encouraged and measured) in GME?

관련 연구 식별
Identifying relevant studies

연구 사서와 협력하여 4개월 동안 검색을 최적화한 후 2019년 4월에 문헌 검색을 실시했으며, 2022년 10월에 업데이트된 검색을 실시했습니다. 검색은 Ovid Medline, Web of Science, PsychINFO, Eric 및 EMBASE 데이터베이스를 쿼리했습니다. 각 데이터베이스에 대한 구체적인 검색 전략은 데이터 S1에서 확인할 수 있습니다. 예비 검색 전략에 따라 자가 모니터링을 설명하는 데 사용되는 용어의 이질성과 GME 특정 집단에 대한 문헌의 양이 불확실하다는 점을 고려하여 의도적으로 포괄적이고 광범위한 검색 전략을 수립했습니다. 
We spent 4 months optimising our search in collaboration with a research librarian and then conducted our literature search in April 2019, with an updated search conducted in October 2022. The search queried Ovid Medline, Web of Science, PsychINFO, Eric and EMBASE databases. These specific search strategies for each database can be found in Data S1. We intentionally created an inclusive, broad search strategy given the heterogeneity of terms used to describe self-monitoring and uncertainty of volume of literature for a GME-specific population based on our preliminary search strategies.

포함된 연구 선택
Selecting included studies

중복, 1999년 이전의 출판물, 리뷰, 관점 및 의견과 같은 비일차 문헌을 제거했습니다. 두 명의 저자(WRJ 및 SJD)가 제목, 초록 및 색인된 설명 필드를 검토하여 GME 모집단이 없거나, 자가 모니터링과 관련이 있을 것 같은 내용이 없고, 정보가 불충분한 결과를 제외했습니다. 이견이 있는 경우 전체 텍스트 검토에 포함시켰습니다. 각 논문 전문은 동일한 제외 기준을 적용하여 두 명의 저자(WRJ 및 AMB, ARA 또는 SJD)가 검토했습니다. 방법 및 결과 섹션을 가장 면밀히 검토하여 내용이 자체 모니터링의 정의에 부합하는지 확인했습니다. 의견이 일치하지 않는 부분은 합의에 도달할 때까지 최소 3명의 저자와 함께 그룹으로 논의했습니다. 이러한 논의는 자체 모니터링의 정의3를 실제로 적용할 수 있는 프레임워크로 운영하는 데 도움이 되었습니다. 전체 텍스트를 검토하는 동안, 관련성이 있을 수 있는 인용이 검색 결과에 포함되었는지 확인했습니다. 참고 문헌이 누락된 경우, 참고 문헌의 전문을 검토하여 포함 가능성을 평가했습니다.
We removed duplicates, publications before 1999 and non-primary literature, such as reviews, perspectives and opinion pieces. Two authors (WRJ and SJD) reviewed titles, abstracts and indexed descriptive fields to exclude results without a GME population, without content likely related to self-monitoring and with insufficient information. Any disagreements were included for full text review. Each full text article was reviewed by two authors (WRJ and AMB, ARA or SJD) with the same exclusion criteria. The methods and results sections were most heavily scrutinised to ensure that the content met our definition of self-monitoring. Any disagreements were discussed as a group with a minimum of three authors until consensus was reached. These discussions helped us to operationalise the definition of self-monitoring3 into a framework that we could practically apply. During the full text review, we looked at potentially relevant citations to ensure that they had been captured in our search results. Where a reference was missing, we evaluated the full text of the reference for potential inclusion.

데이터 차트화
Charting the data

포함된 논문의 하위 집합을 예비 코딩하고 공동 저자 간의 그룹 토론을 통해 반복적으로 개발한 코딩 시트를 사용하여 데이터를 도표화했으며, 사회 인지 이론인 SRL 이론과 특히 자기 모니터링에 근거하여 데이터를 도표화했습니다. 최종 코딩 시트를 포함된 각 논문에 적용했습니다(데이터 S2). 논문 유형의 이질성을 고려하여 의학교육 연구 품질 도구질적 연구 보고 표준이라는 잘 연구된 두 가지 품질 지표를 사용하여 각 연구의 질을 평가했습니다.26, 27 양적 연구는 의학교육 연구 품질 도구로, 질적 연구는 질적 연구 보고 표준으로, 혼합 방법 연구는 이 두 가지를 모두 사용하여 평가했습니다. 모든 분야가 각 연구와 관련이 있는 것은 아니므로, 해당 분야에 따라 논문이 받을 수 있는 최대 점수의 백분율로 품질 점수를 보고하기로 결정했습니다. 한 명의 저자(WRJ)가 각 논문을 코딩했습니다. 두 번째 저자(AMB, ARA 또는 SJD)가 각 논문을 검토하고 코딩을 할당했습니다. 불일치하는 부분이 있으면 최소 3명의 저자(ARA, SJD, WRJ)가 참석한 가운데 토론을 통해 해결했습니다. 
We charted the data using a coding sheet that we developed iteratively by preliminary coding a subset of included articles and group discussions among the co-authors, grounded in a social cognitive theory of SRL theory and, specifically, self-monitoring. We applied the final coding sheet to each included article (Data S2). Given the heterogeneity of types of articles, we assessed the quality of each study using two different, well-studied quality metrics—the Medical Education Research Study Quality Instrument and Standards for Reporting Qualitative Research.26, 27 Quantitative studies were evaluated with the Medical Education Research Study Quality Instrument, qualitative studies with the Standards for Reporting Qualitative Research and mixed methods studies with both. Given that not all fields were relevant for each study, we decided to report quality scores as a percentage of the maximum possible points an article could receive based on the applicable fields. One author (WRJ) coded each article. A second author (AMB, ARA or SJD) reviewed each article and assigned coding. Any discrepancies were resolved through discussion with a minimum of three authors present (ARA, SJD and WRJ).

결과 집계 및 요약
Collating and summarising the results

한 명의 저자(WRJ)가 결과를 취합하고 요약하여 공동 저자들과 논의했습니다. 함께 결과를 검토하고 그룹 합의를 통해 어떤 결과를 결과로 포함할지 결정했습니다. 이러한 결과를 바탕으로 우리는 조사 결과에서 얻을 수 있는 주요 메시지와 자체 모니터링 문헌에 추가할 가치를 결정하기 위해 협력했습니다. 데이터 취합 과정에서 우리는 판단에 영향을 미칠 수 있는 편견을 인식하고 반성하는 태도를 취하려고 노력했습니다. 
One author (WRJ) collated and summarised the results to discuss with the co-authors. Together, we reviewed the findings and, through group consensus, determined which findings to include as results. Based on these results, we collaborated to determine the key take away messages from our findings and value added to the self-monitoring literature. Throughout the collation process, we attempted to practice reflexivity, recognising our biases that may impact our judgements.

주요 이해관계자 또는 전문가 자문
Consulting key stakeholders or experts

검토 과정 전반에 걸쳐 이해관계자 및 SRL 분야 전문가와 상의하여 연구 질문에 대해 논의하고 포함된 논문을 검토하여 관련 출판물이 누락될 위험을 최소화했습니다. 저희는 의학교육의 SRL 분야에서 동료 심사 저널 논문을 여러 편 게재한 전문가를 고려했습니다. 제안된 논문은 검색 결과에 포함되었는지 여부에 따라 포함 여부를 검토하거나 재검토했습니다. 
Throughout the review process, we consulted stakeholders, experts in the field of SRL, to discuss our research question and review our included articles to minimise the risk of relevant missing publications. We consider expert individuals who had published multiple peer-reviewed journal articles in the field of SRL in medical education. Any suggested articles were reviewed or re-reviewed for inclusion, depending on whether they had been included in our search results.

3 결과
3 RESULTS

문헌 검색을 통해 중복을 제거한 후 5개의 다른 데이터베이스에서 5363개의 논문이 검색되었습니다. 초록과 전문 논문의 반복적인 검토를 통해 72편의 논문을 확인했으며, 참고 문헌 검색과 전문 컨설턴트의 피드백을 통해 찾은 5편의 논문을 추가한 후 77편의 논문으로 증가했습니다(그림 2). 
The literature search yielded 5363 articles from the five different databases, after removing duplicates. Through iterative reviews of the abstracts and full text articles, we identified 72 articles for inclusion, which increased to 77 articles after we added five articles that we found during reference hand searching and via feedback from our expert consultants (Figure 2).

범위 검토 프로세스에서 얻은 결과
Findings from the process of the scoping review

범위 검토를 수행하는 과정, 즉 무엇을 포함하거나 제외할지 결정하는 과정은 자가 모니터링을 이해하는 방식을 형성했습니다. 우리는 [자신의 성과에 대한 순간적인 자기 인식]인 [자가 모니터링]에 대한 [문헌의 명확한 정의]에서 프로세스를 시작했으며,3 [일관되지 않은 언어와 정의가 부족한 이질적인 문헌의 바다]에서 정의를 조작화하면서 [자가 모니터링의 실질적인 한계를 보다 명확하게 정의해야 한다]는 것을 알게 되었습니다. 자가 모니터링을 다른 유형의 자기 인식, 특히 자기 평가와 구별하기 위해 포함 사항과 제외 사항에 대한 논의를 통해 개발한 프레임워크를 아래에 공유합니다. 
The process of performing the scoping review—of deciding what should be included or excluded—shaped the way that we understand self-monitoring. We started the process with a clear definition from the literature of self-monitoring, an in-the-moment self-awareness of one's performance,3 and found that operationalising the definition in a sea of heterogeneous literature with inconsistent language and lack of definitions forced us to define the practical limits of self-monitoring more clearly. We share below the framework that we developed through dialogue around inclusions and exclusions for distinguishing self-monitoring from other types of self-awareness and particularly self-assessment.

자기 모니터링과 자기 평가의 개념은 연속선상에 놓여 있다고 생각하시면 됩니다(그림 3).

  • 어떤 자기 인식의 순간은 매우 명확하게 자기 모니터링인 반면, 어떤 순간은 자기 평가이며, 또 다른 순간은 그 중간 어딘가에 있습니다. 우리는 이 연속체가 시간맥락의 좌표를 따라 놓여 있다고 제안합니다.
  • 시간은 자기 인식과 실제 또는 재현된(예: 비디오로 관찰한) 작업 수행의 시간적 근접성을 측정합니다. 자기 인식이 과제와 시간적으로 분리되지 않고 발생하는 경우, 자기 인식은 시간에 따라 달라집니다.
  • 컨텍스트단일 과제 수행에 대한 자기 인식의 특이성을 측정합니다. 특정 단일 작업 수행에 대해 자기 인식이 발생하는 경우, 자기 인식은 컨텍스트에 따라 달라집니다.
  • 자기 인식이 시간에 따라 달라지고 상황에 따라 달라지면 자기 모니터링입니다.
  • 컨텍스트시간 의존성을 모두 충족하지 못하는 자기 인식은 자기 평가입니다(그림 3).
  • 그러나 모든 자기 평가가 동일한 것은 아닙니다.
    • 컨텍스트 의존성을 충족하는 자기 평가는 컨텍스트 의존성이 결여된 자기 평가보다는 자기 모니터링에 더 가깝고, 이 리뷰의 일부 결과는 컨텍스트 특이적 자기 평가에 적용될 수도 있습니다.
    • 한 사람이 한 가지 일을 수행하면서 다른 일을 생각하는 등 멀티태스킹을 해야 하는 경우, 시간에 의존적이고 상황에 독립적인 자기 인식이 발생할 가능성은 낮습니다.28 우리는 이러한 유형의 자기 인식을 정의되지 않은 자기 인식이라고 분류했습니다.

We suggest that the concepts of self-monitoring and self-assessment lie on a continuum (Figure 3).

  • Some moments of self-awareness are very clearly self-monitoring; whereas others are self-assessment; and still others, somewhere in the middle. We propose that the continuum lies along the coordinates of time and context.
  • Time measures the temporal proximity of the self-awareness and actual or relived (e.g. video observed) task performance. When self-awareness occurs without temporal separation from the task, the self-awareness is time dependent.
  • Context measures the specificity of self-awareness to a single performance of a task. When self-awareness occurs about a specific, single performance of a task, the self-awareness is context dependent.
  • When self-awareness is both time dependent and context dependent, then it is self-monitoring.
  • Self-awareness that fails to meet both context and time dependence is self-assessment (Figure 3).
  • However, not all self-assessment is equivalent.
    • Self-assessment that achieves context dependence is more like self-monitoring than self-assessment that lacks context dependence, and, perhaps, some of our findings in this review apply to context-specific self-assessment.
    • Self-awareness that is time dependent and context independent is unlikely to occur, given a person would have to multitask to do this—performing one thing, while thinking about another.28 We have labelled this type of self-awareness as undefined self-awareness.

포함된 문헌의 내용에서 얻은 결과
Findings from the content of the included literature

표 2에는 결과 요약이 나와 있으며, 자세한 결과는 데이터 S3에서 확인할 수 있습니다. 이 문헌에는 GME에서 자가 모니터링의 특성, 개발, 장려 및 측정 방법을 탐구하는 연구가 포함되어 있습니다. 문헌의 이질성으로 인해 명확한 결론을 내리기는 어렵습니다. 그러나 자가 모니터링의 특성, 개발, 장려 및 측정 방법에 대한 몇 가지 일관된 주제가 있다고 생각합니다.

Table 2 presents a summary of the results with more detailed results available in Data S3. The literature includes studies that explore how self-monitoring is characterised, developed, encouraged and measured in GME. The heterogeneity of the literature makes definitive conclusions difficult. However, we believe that there are some consistent themes for how self-monitoring is characterised, developed, encouraged and measured.

[자가 모니터링 과정] 또는 [자가 모니터링에 영향을 미치는 요인]에 초점을 맞춘 연구를 [자가 모니터링 특성화 연구]로 분류했습니다.

  • 대부분의 연구에서 [훈련 연수가 많은 훈련생]이 [훈련 연수가 적은 훈련생]보다 정확도가 높았습니다.29-32
  • 또한 대부분의 연구에서 높은 수준의 훈련생이 더 정확한 자가 모니터링을 수행했으며,19, 33-35 자신의 성과를 과소평가하는 경향이 있었습니다.33, 36
  • 동시 자가 모니터링의 정확도는 작업의 정신적 노력이 증가할수록 저하되었으며,10, 37, 38 주의 산만 증가,39 실수,40 작업 난이도,40, 41 등을 포함합ㄴ디ㅏ.
  • 전문가의 질문,42 목표 및 이전 경험이 자가 모니터링을 유발하는 것으로 나타났습니다.43
  • 자가 모니터링 시기가 정확도에 미치는 영향에 대한 연구 결과는 동시적 자가 모니터링이 후향적 자가 모니터링보다 더 정확하다는 일부 연구,44 그 반대의 결과를 보인 연구32,45 및 동시적 자가 모니터링과 후향적 자가 모니터링 간에 차이가 없다는 연구34,46와 일치하지 않았습니다.

We classified studies as characterising self-monitoring when the study focused on the self-monitoring process or the factors that influence self-monitoring.

  • Trainees with more years of training had more accuracy than trainees with less years of training, in most studies.29-32 
  • Trainees who performed at a higher level also had more accurate self-monitoring, in most studies,1933-35 and tended to underestimate their performance.3336 
  • The accuracy of concurrent self-monitoring degraded with increased mental effort of task,103738 which includes increased distractions,39 mistakes,40 task difficulty,4041 
  • questions from experts,42 goals and prior experiences triggered self-monitoring.43 
  • The findings about the influence of timing of self-monitoring on accuracy were inconsistent with some studies finding that concurrent self-monitoring is more accurate than retrospective self-monitoring,44 others finding the opposite3245 and still other studies finding no difference between concurrent and retrospective self-monitoring.3446

저희는 자가 모니터링의 [빈도나 적절성을 높이는 데 초점]을 맞춘 연구를 [자가 모니터링을 장려]하는 것으로 분류했습니다.

  • 사용하기 쉬운 로그 또는 자가 모니터링 도구는 자가 모니터링 빈도를 증가시키는 것으로 나타났습니다.47-49
  • 자가 모니터링에 할애할 시간을 확보하는 것도 자가 모니터링 빈도를 증가시키는 것으로 나타났습니다.21, 50-52

We classified studies as encouraging self-monitoring if they focused on increasing the frequency or appropriateness of self-monitoring.

  • Easy to use logs or self-monitoring instruments seemed to increase frequency of self-monitoring.47-49 Carving out time to dedicate to self-monitoring also seemed to increase frequency of self-monitoring.2150-52

자가 모니터링의 정확성 또는 특정 결과에 대한 자가 모니터링의 영향에 초점을 맞춘 연구를 [자가 모니터링을 측정]하는 것으로 분류했습니다.

  • 자가 모니터링에 참여한 교육생(자가 모니터링을 하지 않았거나 빈도가 낮은 교육생에 비해)은 더 나은 성과를 거두거나 더 큰 성과 향상을 보였으며,51-56 이러한 성과 효과는 동시51-53, 55 및 후향적54, 56 자가 모니터링 모두에 해당되는 것으로 나타났습니다.
  • 또한 자가 모니터링은 환자 수준의 결과57 및 직장 내 임상 행동에 긍정적인 영향을 미칠 수 있습니다.58, 59
  • 그러나 자가 모니터링을 측정한 대부분의 연구는 전문가 평가22, 29-32, 34-36, 44, 45, 60-71 동료 평가35, 72 또는 표준화된 임상 관리와 비교하여 성과에 대한 자가 판단의 정확성에 초점을 맞추었습니다.37-39, 47, 73-75 연구에서는 자가 평가와 전문가 평가 사이에 일치하지 않는 것부터 강한 일치까지 다양한 결과가 나타났습니다.
  • 코칭, 피드백 또는 표준 설정과 같은 개입을 통해 교육생의 자가 평가를 보정하는 방법이 포함된 연구에서 더 긍정적인 일치도를 보이는 경향이 있었습니다.19, 20, 60, 61, 64, 76, 77

We classified studies as measuring self-monitoring if they focused on accuracy of self-monitoring or impact of self-monitoring on a specified outcome.

  • Trainees who engaged in self-monitoring (as compared with those that did not or did so less frequently) had better performances or larger performance gains,51-56 and this performance effect seemed to hold true for both concurrent51-5355 and retrospective5456 self-monitoring.
  • In addition, self-monitoring could have positive impacts on patient-level outcomes57 and workplace clinical behaviours.5859 
  • Most of the studies that measured self-monitoring, however, focused on the accuracy of self-judgement of performance compared with an expert rating,2229-3234-36444560-71 peer rating3572 or standardised clinical management.37-394773-75 Studies showed everything from no agreement to strong agreement between self-ratings and expert ratings.
  • Studies that included some method for calibrating trainees' self-ratings through interventions such as coaching, feedback or standard setting tended to show more positive agreement.19206061647677

우리는 자가 모니터링 개선에 초점을 맞춘 연구를 [자가 모니터링 개발] 연구로 분류했습니다.

  • 전문가 피드백60-62 코칭68, 78-80 및 자가 모니터링 방법에 대한 전용 교육(예: 교훈)20, 51, 57-59, 81 모두 자가 모니터링의 정확성 또는 자가 모니터링과 함께 트레이너의 성과에 긍정적인 영향을 미치는 것으로 나타났습니다.
  • 대부분의 연구에서 자가 모니터링과 코칭의 결합 효과와 코칭 단독 효과의 영향력을 구분할 수 없었지만, 일부 연구에서는 각 개입의 단독 효과와 시너지 효과가 있다고 제안했습니다.54, 67, 82 부정적인 결과가 나온 연구 중 자가 모니터링과 코칭 또는 전문가 피드백을 병행한 연구는 없었습니다.

We classified studies as developing self-monitoring if they focused on improving self-monitoring.

  • Expert feedback,60-62 coaching6878-80 and dedicated instruction (e.g. didactics) on a method for self-monitoring205157-5981 all seemed to positively influence the accuracy of self-monitoring or trainee performance in conjunction with self-monitoring. Differentiating the influence of the combined effect of self-monitoring and coaching versus coaching alone was not possible in most studies; however, some studies suggested that there is a synergistic difference from the effect of each intervention alone.546782 None of the studies with negative findings paired self-monitoring with coaching or expert feedback.

4 토론
4 DISCUSSION

범위 검토를 통해 GME에서 자가 모니터링의 역할을 탐색하는 것은 현존하는 문헌에서 [명확한 정의가 부족]하고 [일관되지 않은 언어]로 인해 특히 어려웠습니다. 자체 모니터링을 GME에 통합하기 위한 명확한 모범 사례를 확인할 수는 없었지만, GME에서 자체 모니터링의 유용성을 뒷받침하는 트렌드는 확인할 수 있었습니다. 또한, 범위 검토 과정과 결과는

  • (a) 자체 모니터링을 식별하기 위한 실용적인 프레임워크를 개발하고,
  • (b) 질문 및 시기와 관련하여 다양한 유형의 자체 모니터링을 인식하고,
  • (c) 자체 모니터링의 유용성을 확인하고,
  • (d) 자체 모니터링에 관한 문헌의 한계를 인식하는 데 도움이 되었습니다.

Exploring the role of self-monitoring in GME through a scoping review was particularly challenging because of the lack of clear definitions and inconsistent language in the extant literature. We were unable to identify clear best practices for incorporating self-monitoring into GME; however, we did identify trends that support the usefulness of self-monitoring in GME. Moreover, the scoping review process and results helped us to

  • (a) develop a practical framework for identifying self-monitoring,
  • (b) recognise different types of self-monitoring with respect to question and timing,
  • (c) confirm the usefulness of self-monitoring and
  • (d) appreciate the limitations of the literature on self-monitoring.

[자가 모니터링의 개념]을 설명하는 데 사용되는 용어는 20개 이상이지만, [사용된 용어에 대한 정의]가 포함된 연구는 20% 미만이었습니다. 자가 모니터링과 자가 평가가 보건 전문직 교육 문헌에서 명확하게 정의되어 있다는 점을 고려할 때 이러한 일관성 부족은 의외입니다.3, 8 안타깝게도 문헌에 제시된 명확한 정의가 보편적인 채택으로 이어지지는 않는 것 같습니다. 저희는 범위 검토를 통해 기존의 자가 모니터링 정의를 운영하기 위해 상당한 노력을 기울였기 때문에 명확한 정의가 반드시 쉽게 적용될 수 있는 것은 아니라는 사실을 알게 되었습니다(그림 3). 하지만 적용이 어렵다고 해서 정의를 일관되게 배제하는 것이 변명의 여지가 있는 것은 아닙니다. 따라서 우리는 문헌에 정의가 부족한 것은 자가 모니터링에 대해 연구하는 저널과 연구자가 매우 다양하기 때문일 수 있다고 가설을 세웠습니다. 정의가 포함된 논문(n = 13) 중 거의 85%(n = 11)가 보건 전문가 교육 중심 저널에서 나왔고, 임상 중심 저널에서 나온 정의가 포함된 논문은 단 1편에 불과했습니다. 하지만 대부분의 교육 중심 저널 논문(69%, n = 24)에도 정의가 포함되어 있지 않았습니다. 
We found more than 20 terms used to describe the concept of self-monitoring, yet fewer than 20% of studies included a definition of the term used. We found this lack of consistency surprising given that self-monitoring and self-assessment have been clearly defined in the health professions education literature.3, 8 Unfortunately, it seems a clear definition provided in the literature does not lead to universal adoption. Through our scoping review, we also came to appreciate that a clear definition does not necessarily make for easy application, as we spent significant effort operationalising the existing definition of self-monitoring (Figure 3). That said, difficulty with application does not excuse the consistent exclusion of definitions. We hypothesize, then, that the lack of definitions in the literature may be related to the wide variety of journals that publish and investigators who examine self-monitoring. Of the articles that included definitions (n = 13), nearly 85% (n = 11) came from health professions education-focused journals; only one article with a definition emerged from a clinically focused journal. Still, most educationally focused journal articles (69%, n = 24) also did not include a definition.

또한 많은 연구에서 [인증 기관이 정의]의 유무에 영향을 미쳤을 수 있다고 언급했습니다. 교육 인증 기관은 빠르면 1990년대 후반부터 인용되었습니다. 이 범위 검토에 포함된 문헌에 언급된 이전 버전의 인증 표준을 모두 찾을 수는 없었지만, 동일한 [인증 기관의 현재 표준]을 면밀히 검토한 결과 [명확하게 정의된 용어가 부족]하다는 것을 알 수 있었습니다. 예를 들어, ACGME 이정표 가이드북에는 정의 없이 "자가 평가" 또는 "자가 지시"가 16번 언급되어 있습니다.83 따라서 인증 기관의 교육 지침을 따르는 임상의들도 일반적으로 일관된 언어나 정의를 사용하지 않는 것은 당연한 일입니다. 이러한 연구를 발전시키기 위해 연구자와 인증 기관 모두 이전 연구를 기반으로 한 명확한 정의를 사용할 것을 강력히 권장합니다. 명확한 정의는 검색 가능성을 개선하고 비교를 가능하게 하며, 명확한 정의는 향후 연구를 더욱 효과적으로 이끌 것입니다. 
Moreover, many studies cited accreditation bodies that may have influenced the definitions or lack thereof. Educational accreditation bodies are cited from as early as the late 1990s. Although we could not find all the older versions of accreditation standards referenced in the included articles of this scoping review, close examination of current standards from the same accreditation agencies demonstrates a lack of clearly defined terminology as well. The ACGME Milestones guidebook, for example, mentions “self-assessment” or “self-direct” 16 times without a definition.83 It is no wonder, then, that clinicians following educational guidance of their accreditation bodies are generally not using consistent language nor definitions either. To advance this line of research, we strongly recommend the use of clear definitions—by both researchers and accreditation bodies—that build off prior work. Clear definitions would improve searchability and allow for comparisons; clear definitions would also drive more effective future research.

[자체 모니터링의 보편적인 매력]은 또한 자체 모니터링 구현 및 정의와 관련하여 문헌의 이질성을 유발할 수 있습니다. 자기 모니터링은 각각 [자기 주도 학습]과 [자기 조절 학습SRL]이라는 교육 및 심리학 이론에 뿌리를 두고 있습니다.14-16 자기 모니터링은 이러한 이론의 핵심적인 특징이며, 이 작업 중 일부는 상당히 난해하고 이론적일 수 있습니다. 그러나 이번 리뷰에 포함된 출판물의 50% 이상(n=42)이 교육에 초점을 맞추지 않은 저널에서 나온 것에서 알 수 있듯이 자기 모니터링의 매력은 광범위합니다. 다음과 같은 궁금증이 생겼습니다: 이러한 결과가 인증 기관의 언어 변화와 관련이 있을까요? [교육에 중점을 둔 인증 기관]이 1990년대 후반부터 자체 모니터링 [연구의 주요 동기로 언급]되었으며,47, 58 [전문 분야별 인증 기관]은 2000년대 후반에 연구자들에게 동기를 부여하는 것으로 나타났습니다.53, 61, 84 그럼에도 불구하고 인증 기관을 동기로 언급한 연구는 소수에 불과했습니다(32%, n = 25). 아마도 말콤 글래드웰의 『아웃라이어』(2008)나 앤더스 에릭슨의 『피크』(2016)와 같은 인기 도서에서 자기 모니터링 개념이 등장한 것이 유비쿼터스적인 관심의 일부를 설명하거나, 자기 개선의 직관적인 특성으로 인해 거의 모든 사람이 주어진 작업에 대해 자기 모니터링에 접근할 수 있다고 느끼는 것일 수도 있습니다. 이유야 어떻든, 자기 모니터링의 개념은 교육 및 심리학 이론가들과 임상을 염두에 둔 실무자들 모두에 의해 고려되고 있습니다. 이에 따라 자가 모니터링을 탐구하는 논문이 증가하고 있는 것으로 보입니다. 검색에 포함된 논문 중 25% 이상이 지난 4년 이내에 출판되었습니다. 정확한 이유는 아직 불분명하지만, 특히 지속적인 연구가 최대한 생산적이고 의미 있으며 실용적이기를 원한다면 문헌 내에서 일관성을 유지하는 것이 그 어느 때보다 중요해 보입니다. 

The ubiquitous appeal of self-monitoring may also drive the heterogeneity of the literature, both with respect to self-monitoring implementation and definitions. Self-monitoring is rooted within educational and psychological theories of self-directed learning and SRL, respectively.14-16 Self-monitoring is a core feature of these theories, and some of this work can be quite esoteric and theoretical. Yet, the appeal of self-monitoring is broad, as evidenced by the fact that over 50% (n = 42) of the publications included in our review came from non-educationally focused journals. We wonder the following: Could this finding be related to changes in the language of accreditation bodies? Educationally focused accreditation bodies are cited as a primary motivation for studying self-monitoring as early as the late 1990s,47, 58 and specialty-specific accreditation bodies appeared to motivate researchers in the late 2000s.53, 61, 84 Still, only a minority of studies cited accreditation bodies as motivation (32%, n = 25). So, perhaps, the appearance of the concept of self-monitoring in popular books, such as Malcom Gladwell's Outliers (2008) or Anders Erickson's Peak (2016), explains some of the ubiquitous interest, or maybe, the intuitive nature of self-improvement makes self-monitoring feel accessible to almost everyone for a given task. Regardless of the reason, the concept of self-monitoring is being thought about both by educational and psychological theorists and by clinically minded practitioners alike. To that end, publications exploring self-monitoring appear to be rising. Over 25% of the articles included in our search were published within the last 4 years. Although the exact reason remains unclear, the importance of cultivating consistency within the literature seems more important than ever, especially if we want ongoing research to be as productive, meaningful and practical as possible.

이를 위해 우리는 문헌3의 자체 모니터링 정의를 사용하여 자체 모니터링을 식별하는 프레임워크(그림 3)를 만들고 이를 범위 검토 프로세스와 결합했습니다. 자체 모니터링 프레임워크는 포함 및 제외 프로세스의 초석 역할을 했습니다. 그럼에도 불구하고 일부 사람들에게는 자체 모니터링과 자체 평가의 연속성이 여전히 모호할 수 있습니다. 저희 중 세 명은 임상의이고, 두 명은 GME 교육생과 광범위하게 일하고 있습니다. 저희의 전문적 경험은 자가 모니터링을 결정할 때 시간 및 상황 의존성에 대한 임계값에 영향을 미쳤습니다.

  • [컨텍스트 의존성]을 유지하기에는 너무 큰 작업의 크기는 어느 정도일까요?
  • [시간 종속성]을 유지하기에는 너무 긴 시간(작업 전 또는 후)은 얼마나 되는가?

To that end, we created a framework for identifying self-monitoring (Figure 3) using a definition of self-monitoring from the literature3 and marrying that with the process of our scoping review. Our self-monitoring framework served as the cornerstone of our inclusion and exclusion processes. Still, the continuum of self-monitoring and self-assessment may continue to be blurry for some. Three of us are clinicians and two of us work extensively with GME trainees. Our professional experiences influenced our thresholds for time and context dependence in the determination of self-monitoring. Consider two questions—

  • what size of task is too big to remain context dependent?
  • How long is too long (pre- or post-task) to be time dependent?

예를 들어, 몇 분이 걸리는 간단한 열상을 봉합하는 작업에 대한 자체 판단은 분명 상황에 따라 달라지지만, 4-H 수술에 대한 자체 판단은 어떨까요? 특정 환자의 30일 입원 치료는 어떨까요?

  • 저희는 4-H 수술이 상황에 따라 달라질 수 있다고 생각합니다. 결국, 외과의가 이 정도(또는 그 이상)의 수술에 대한 기록을 작성할 것으로 예상되므로 수술 직후의 사건에 대한 기억만으로도 자가 모니터링에 충분할 것입니다.
  • 그러나 한 명의 환자가 30일간 입원하는 경우, 수련의가 내내 환자를 돌보았다고 해도 입원 마지막 날에 상세한 문서화를 기대하는 것은 합리적이지 않습니다. 문서는 상세한 설명보다는 요약본에 가까울 것입니다. 

[상황에 따른 임계값]을 충족하려면 수행자가 [상세한 설명을 제공할 수 있을 정도로 작은 작업]을 수행하는 것이 좋습니다. 

For example, a self-judgement of task of suturing a simple laceration that takes minutes is certainly context dependent, but what about self-judgement of a 4-h surgery? What about a 30-day inpatient stay of a specific patient? We suggest that the 4-h surgery can be context dependent.

  • After all, we expect surgeons to dictate notes about a surgery of this length (and even longer); thus, their recollection of the events in the time immediately after the procedure should be sufficient for self-monitoring.
  • However, for a 30-day admission of a single patient, even if a trainee was taking care of the patient the entire time, it would not be reasonable to expect a detailed documentation on the last day of the hospitalisation. The documentation would be much more a summary than a detailed account.

To meet the context-dependent threshold, we suggest that a task should be small enough for the performer to provide a detailed description.


[시간 의존성 임계값]을 식별하는 데에도 비슷한 접근 방식이 적용됩니다. 위의 단순 열상 봉합의 예를 다시 한 번 생각해 보겠습니다:

  • 조직 취급의 품질에 대한 자체 판단이 작업 후 몇 초 이내에 이루어졌다면 이는 확실히 시간 의존성 기준을 충족할 것입니다.
  • 하지만 자체 판단이 작업 후 30분 후에 이루어졌다면 어떨까요?
  • 또는 작업 후 7일이 지난 후였다면 어떨까요?

[수행자가 작업에 대해 자세히 설명하는 것이 합리적]이라고 생각되면 [시간 종속 기준이 충족]되는 것으로 간주합니다. 이는 작업 전후의 시간 경과 기간과 작업 시점과 자체 모니터링 시도 사이에 발생한 추가 작업의 수에 따라 달라질 수 있습니다.
A similar approach works for identifying the threshold of time dependence. Again, consider the example of suturing of a simple laceration above:

  • If a self-judgement about the quality of the tissue handling was made within seconds after the task, this would certainly meet the time-dependent criteria.
  • But what if the self-judgement was 30 min after the task?
  • Or what if it were 7 days after the task?

We suggest that the time-dependent threshold is met if it seems reasonable for the performer to give a detailed account of the task. This is likely dependent on both the duration of time that passes before or after a task and the number of additional tasks that occur between the time of the task and attempted self-monitoring.

[셀프 모니터링]은 수행되는 활동이나 작업의 성격에 따라 매우 다르게 보일 수 있습니다.

  • 저희는 사회인지 학습 이론의 관점에서 [다양한 유형의 자가 모니터링]을 예상했습니다(그림 1a).
  • 문헌 검토를 통해 교육생이 이 세 가지 유형의 자가 모니터링을 각각 수행하기 위해 물어볼 수 있는 [질문의 예를 공식화]하는 데 도움이 되었습니다(그림 1b).
  • 문헌을 검토하는 동안 자가 모니터링 유형에 대한 또 다른 차원, 즉 [시기의 가변성]에 주목했습니다. 작업 전, 작업 중, 작업 후에 발생하는 자가 모니터링을 발견했습니다.

Self-monitoring can look very different depending on the nature of the activity or task performed.

  • We anticipated the different types of self-monitoring from the perspective of social cognitive learning theory (Figure 1a).
  • Our review of the literature helped to formulate examples of questions that a trainee might ask to perform each of these three types of self-monitoring (Figure 1b).
  • During our review of the literature, we appreciated an additional dimension to the type of self-monitoring—the variability of timing. We encountered self-monitoring that occurred before, during and following a task.

또한 자기 모니터링은 작업 수행과 동시적으로, 또는 작업 수행을 회상하는 방법을 통해 후향적(회고적)으로 발생했습니다.

  • 회고적 자기 모니터링은 종종 비디오 녹화와 같은 기술을 사용하여 과제를 재현하기 위해 다시 그 과제를 떠올리게 하는 방식으로 이루어졌습니다(그림 4).
  • 우리는 회고적 자가 모니터링이 존재할 수 있는지에 대해 고민했습니다. 회고적 자기 모니터링은 앞서 설명한 시간 및 상황 의존적 기준에 거의 반직관적으로 보입니다. 우리는 과제를 실제로 재현하기 위한 충분한 노력이 있다면 개인이 과제의 마음가짐으로 완전히 또는 거의 완전히 돌아갈 수 있어야 맥락 의존적 임계값을 충족할 수 있다고 주장합니다.
  • [시간 의존적 기준]은 [동시 자기 모니터링]과 같은 방식으로 충족할 수 있습니다. 즉, 수행자가 [회고적으로 재현한 과제]에 대해 자세히 설명하는 것이 합리적이라고 판단되는 경우입니다.
  • 일부 연구에서는 수행에 대한 [동시적 자기 판단]과 [회고적 자기 판단]의 정확도를 비교한 결과 차이가 없거나,34, 46 동시적 자기 모니터링이 더 우수하고44 회고적 자기 모니터링이 더 우수하다는 결과가 엇갈렸습니다.32, 45 [높은 인지 부하]가 [자기 모니터링에 부정적인 영향을 미치는 것으로 보인다]는 점을 고려할 때,37-39 [매우 까다로운 작업]이나 [매우 산만한 상황]에서는 [회고적 자기 모니터링]이 최적일 수 있다는 가설이 있습니다.

Additionally, self-monitoring occurred concurrently, at the same time as the task performance or, retrospectively, through a method of reliving the task performance.

  • Retrospective self-monitoring often used technology, such as video recording, to bring a person back into mindset of the task (Figure 4) in an effort to relive it.
  • We wrestled with whether retrospective self-monitoring could exist. Retrospective self-monitoring seems almost counterintuitive to the time- and context-dependent criteria we have described. We argue that if there is sufficient effort to really relive the task, then an individual should be able to return to the mindset of the task completely or almost completely, thereby meeting the context-dependent threshold.
  • The time-dependent criterion can be met in the same way as concurrent self-monitoring: if it seems reasonable for the performer to give a detailed account of the retrospectively re-lived task.
  • Some studies compared the accuracy of concurrent versus retrospective self-judgement of performance with mixed results—no difference,3446 better with concurrent44 and better with retrospective self-monitoring.3245 Given that high cognitive load seems to negatively impact self-monitoring,37-39 we hypothesize that retrospective self-monitoring may be optimal for very demanding tasks or highly distracting contexts.

 

[자가 모니터링 데이터]는 [작업 전, 작업 중 또는 작업 후 동시에 수집]하거나, [작업 전, 작업 중 또는 작업 후 소급하여 수집]하는 등 [다양한 시점에 수집]할 수 있기 때문에, 서로 다른 연구 간의 자가 모니터링을 비교하는 것은 어렵습니다. 최소한 향후 연구의 연구자는 자가 모니터링을 자극 및/또는 기록하는 데 사용한 방법을 명확하게 설명할 것을 권장합니다. 방법에는 과제 전(과제 전), 과제 수행 중 또는 과제 수행 후(과제 후)의 자기 모니터링과 과제 간의 관계, 과제와의 동시적 또는 후향적 일치에 대한 설명이 포함되어야 합니다. 
The comparison of self-monitoring between different studies is difficult because self-monitoring data can be collected at many different time points:

  • concurrently before, during or following task and
  • retrospectively before, during or following task.

At the very least, we encourage investigators of future studies to clearly describe the methods they used to stimulate and/or record self-monitoring. Methods should include a description of the relationship between self-monitoring and the task—before (pre-task), during or following (post-task)—and the concurrence with the task—concurrent or retrospective.

[언어의 일관성]을 높이면 최적의 셀프 모니터링 시기 및/또는 다양한 순간에 대한 셀프 모니터링의 유용성을 명확히 하는 데 도움이 됩니다. [일관된 언어]는 연구를 비교하고 재현하는 것을 더 쉽게 만들어 결과적으로 더 영향력 있는 문헌을 만들 수 있습니다.85 예를 들어, 앞서 가설한 대로 [동시적 자가 모니터링]과 [후향적 자가 모니터링]의 장단점이 다르다고 가정해 보겠습니다.
Increased consistency of language will help to clarify the optimal timing of self-monitoring and/or utility of self-monitoring at different moments. Consistent language will make comparing and reproducing studies easier and, as a result, create a more impactful body of literature.85 For example, we imagine that the advantages and disadvantages of concurrent and retrospective self-monitoring are different, as previously hypothesized.

문헌의 이질성에도 불구하고 자가 모니터링이 유용하다는 분명한 신호가 있습니다. 자가 모니터링은 성과를 향상시키는 것으로 보이며,51-58, 65 일부 연구에서는 자가 모니터링이 보다 객관적인 성과 측정과 일치하는 것으로 나타났습니다.37-39, 73, 74, 86 그러나 자가 모니터링이 더 유용하거나 신뢰할 수 있는 시기와 장소는 문헌의 이질성으로 인해 여전히 불분명합니다. 명명법과 관련하여 문헌을 동질화하면 문헌의 비교와 집계가 더 쉬워지겠지만, 더 많은 연구가 필요합니다. 
Despite the heterogeneity of the literature, there is a clear signal that self-monitoring is useful. Self-monitoring seems to improve performance,51-58, 65 and some studies find that self-monitoring aligns with more objective performance measures.37-39, 73, 74, 86 When and where self-monitoring is more useful and/or reliable, however, remains unclear secondary to heterogeneity of the literature. Although homogenising the literature with respect to nomenclature will make comparisons and aggregation of literature easier, more research is also needed.

자가 모니터링의 [첫 번째 단계]는 [자가 모니터링을 하기로 결정하는 것]입니다.

  • 즉, [언제] 자가 모니터링을 하는 것이 적절한가요?
  • 일부 문헌에서는 무엇이 자가 모니터링을 촉발하는지에 대한 질문에 답하기 위해 자가 모니터링의 트리거를 탐색했지만,40,42,43 반드시 무엇이 자가 모니터링을 촉발해야 하는지에 대해서는 다루지 않았습니다.
  • 또한 자가 모니터링의 적절성을 자연스럽게 높이려고 시도한 연구는 단 한 건에 불과했습니다.40
  • 마찬가지로 자가 모니터링의 최적 빈도는 알려져 있지 않습니다.

The first step in self-monitoring is deciding to self-monitor—that is, when is self-monitoring appropriate?

  • Some literature has explored triggers for self-monitoring answering the question of what prompts self-monitoring,404243 but not necessarily what should prompt self-monitoring.
  • Additionally, we found only one study that attempted to naturally increase the appropriateness of self-monitoring.40 
  • Similarly, the optimal frequency of self-monitoring is unknown.

현재 문헌은 절차적 기술, 관리 또는 해석에 대한 성과에 대한 [작업 후 자기 판단(55건, n = 71%)에 초점]을 맞추고 있습니다. 그러나 절차적 술기 및/또는 관리 및 해석에 관한 의사 결정 시 환자의 안전을 위해 [가장 중요하고 적절한 것은 작업 전과 작업 중 자가 판단]입니다. 술기 전 자기 판단은 교육생이 준비 상태를 평가한 다음 실제 수행과 비교하여 측정할 수도 있지만, 술기 전 자기 판단을 평가하는 더 실용적인 방법은 도움 요청이나 준비 자료(예: 읽기, 비디오 및 메모)의 소화 과정을 기록하는 것입니다.

  • Moulton 등은 수술실에서의 자가 모니터링을 "해야 할 때 속도를 늦추는 것"으로 설명하며, 이는 작업 중 자가 모니터링을 설명합니다.87
  • Ilgen 등은 작업장 기반 연구에서 유사하게 임상 실습 중 수련의의 자가 모니터링 대부분이 실제로 작업 중이라고 제안합니다.41 

The current literature focuses on post-task self-judgements (55, n = 71%) of performance on procedural skills, management or interpretation. Yet, pre-task and during task self-judgement would seem most critical and appropriate for patient safety during procedural skills and/or decisions around management and interpretation. Although pre-task self-judgement could be measured through trainee estimation of preparedness and then compared against actual performance, another, more practical method for assessing pre-task self-judgement might be recording the request for help or digesting of preparatory materials (e.g. reading, videos and notes).

  • Moulton et al. describe self-monitoring in the operating room as “slowing down when you should,” which describes a during task self-monitoring.87 
  • Ilgen et al., in their workplace-based study, similarly suggest that most of trainees' self-monitoring during clinical practice is actually during task.41 

과제 수행 중 자가 모니터링을 포함하는 기존 연구가 부족하다는 점을 고려할 때, [과제 수행 중 자가 모니터링]은 [실제로 진행 중인 과제에 대한 사전 및 사후 자가 모니터링의 반복적 과정]이라고 개념화하는 것이 더 쉬울 수 있습니다. 과제 완료 후 수행이 미흡하다고 자가 판단하는 것은 향후 진료에 도움이 될지라도 수술 중인 환자나 퇴원 서류 작성에 도움이 되지 않지만, 과제의 구성 요소 후 수행에 대한 반복적인 자가 판단은 결과에 영향을 미칠 수 있습니다. 또한, [과제 후 절차적 기술에 대한 자가 판단]은 상당한 정확성을 시사하지만,19, 20, 29, 31, 32, 45, 48, 53, 54, 61, 64, 65, 70, 71, 76, 77, 84, 88 절차적 맥락에서의 결과가 비절차적 맥락으로 일률적으로 해석되는 것은 아닙니다. 자가 모니터링의 정확성 외에도 여러 연구에서 실제로 절차적 술기가 개선된 것으로 나타났습니다.52, 54-56, 65, 76 절차적 영역에 대한 향후 연구는 입증된 자가 모니터링의 정확성을 기반으로 자가 모니터링의 최적 시기를 탐색하고 자가 모니터링이 임상 진료에 미칠 수 있는 긍정적인 영향을 연구해야 합니다.

Based on the lack of existing research that includes during task self-monitoring, it may be easier to conceptualise pre- and post-task self-monitoring, such that during task self-monitoring is actually an iterative process of pre- and post-task self-monitoring of an ongoing task. A self-judgement of poor performance after the completion of a task will not help the patient under-the-knife or with their discharge paperwork in hand, even if it may improve future practice; however, an iterative self-judgement of performance after components of a task may well influence outcomes. Additionally, although the post-task self-judgement of procedural skills suggests decent accuracy,19, 20, 29, 31, 32, 45, 48, 53, 54, 61, 64, 65, 70, 71, 76, 77, 84, 88 findings within a procedural context do not uniformly translate to non-procedural contexts. Beyond the accuracy of self-monitoring, several studies actually showed improved procedural skills.52, 54-56, 65, 76 Future research in the procedural realm should build off the demonstrated accuracy of self-monitoring, explore the optimal timing of self-monitoring and study the likely positive impact of self-monitoring on clinical practice.

자가 모니터링의 유용성은 [비-프로시져 과제]에서도 유망한 것으로 보입니다. 그러나 대부분 문헌은 진단 또는 해석에 기반한 자가 모니터링 정확도,73-75 환자 결과57 또는 임상 행동에 초점을 맞추고 있습니다.51, 80 이러한 측정은 모두 장기적인 추적 관찰이 필요하며, [수술 문헌]에서는 [기술 술기의 객관적 구조화 평가], [절차 학습 개선 및 측정 시스템] 또는 [특정 수술에 대한 역량 평가 도구]와 같이 타당성 증거가 있는 여러 도구의 이점을 활용하고 있습니다. [비-프로시저 과제]에 대한 자가 모니터링 도구의 개발 및 구현은 교육생에게 또 다른 피드백 소스를 제공하고 비절차적 작업에서 자가 모니터링을 이해하는 데 필요한 데이터를 제공할 수 있습니다. 
The usefulness of self-monitoring seems promising even in non-procedural tasks. The literature, however, has mostly focused on self-monitoring accuracy based on diagnosis or interpretation,73-75 patient outcomes57 or clinical behaviours.51, 80 All of these measures require longer term follow-up, and the surgical literature has benefited from multiple instruments with validity evidence, such as Objective Structured Assessment of Technical Skills, System for Improving and Measuring Procedural Learning or Competency Assessment Tools for specific surgeries. The development and implementation of self-monitoring instruments for non-procedural tasks would provide another source of feedback for trainees and data for understanding self-monitoring in non-procedural tasks.

[코칭이나 피드백]을 통한 교정은 자가 모니터링의 정확성과 성과 향상에 중요한 역할을 하는 것으로 보입니다.20, 51, 60-62, 74, 76, 80 [코칭과 피드백이 자가 모니터링에 미치는 시너지 효과]에 대한 관찰은 [목표 설정, 동기 부여, 자가 모니터링 및 주기적 피드백 간의 상호 작용]을 설명하는 [SRL 이론]과 일치합니다. 이러한 관찰은 향후 연구 개발에 영향을 미칠 것이며,

  • 자기 판단의 정확성에 대한 순수한 측정에서 벗어나
  • 자기 모니터링을 장려하는 방법,
  • 특히 모든 유형의 자기 모니터링(자기 관찰, 자기 판단, 자기 반응)이 SRL 이론의 다른 핵심 특징의 맥락에서 임상 실습에 미치는 영향에 대한 조사로 문헌을 이동시키는 데 도움이 될 것입니다.

우리는 [양질의 자기 모니터링]이 당장의 업무 준비나 성과를 개선할 뿐만 아니라 동기 부여와 목표 설정에도 영향을 미쳐 전문가 성장에 더 큰 영향을 미칠 수 있다는 가설을 세웠습니다. 요약하자면, 향후 연구에서는 학습 설계를 지원하기 위해 다양한 학습 이론 프레임워크를 더 잘 활용해야 합니다.
Calibration, often via coaching or feedback, seems to play an important role in the accuracy of self-monitoring and even performance improvement.20, 51, 60-62, 74, 76, 80 The observation of the synergism of coaching and feedback with self-monitoring aligns with SRL theory, which describes the interplay among goal setting, motivation, self-monitoring and cyclical feedback. These observations should influence the development of future studies and help to

  • move the literature away from pure measurement of the accuracy of self-judgement and
  • towards an examination of the methods that encourage self-monitoring and,
  • in particular, the impact of increased self-monitoring of all types (self-observation, self-judgement and self-reaction) on clinical practice in the context of the other core features of SRL theory.

We hypothesize that quality self-monitoring cannot only improve in-the-moment task preparation or performance but also influence motivation and goal setting to have more global impact on professional growth. In sum, future research should do a better job utilising various learning theory frameworks to support study design.

본 연구 결과와 논의는 몇 가지 중요한 제한점을 염두에 두고 해석해야 합니다. 가장 주목할 만한 점은 자가 모니터링에 관한 문헌에서 사용된 용어의 이질성으로 인해 검색이 매우 어려웠다는 점입니다. 그 결과, 비교적 광범위한 검색 후 수작업으로 문헌을 포함하거나 제외하는 데 의존했습니다. 그럼에도 불구하고 날짜 범위와 언어별로 검색을 제한했습니다. 검색을 영어로 된 문헌으로 제한하면 저자가 독립적으로 수동 검토를 수행할 수 있습니다. 문헌 검색의 시작일은 우리가 사용한 자가 모니터링의 정의 이전 10년 전으로 선택했습니다.3 수동 검토는 인적 오류의 가능성을 높입니다. 우리는 제외된 논문에 대한 2차 검토, 포함된 논문의 참고문헌 수작업 검색, 전문가 검토 활용을 통해 이 문제를 해결하려고 노력했습니다. 또한 광범위한 수작업 검토로 인해 검토 완료가 지연되어 출판 전에 검색을 업데이트해야 했습니다. 또한 자가 모니터링에 대한 연구의 품질은 매우 다양하고, 그 중 상당수가 불완전하거나 타당성 근거가 불충분한 도구에 의존하는 낮은 수준의 연구로 인해 GME에서 자가 모니터링의 모범 사례를 식별하는 데 한계가 있었습니다. 이러한 한계를 해결하기 위해 사용된 방법론에 관계없이 포함된 각 논문의 품질 지표를 포함한 투명성을 선택하고 향후 연구 기회에 초점을 맞추었습니다. 
Our results and discussion should be interpreted with several important limitations in mind. Most notably, the heterogeneity of the terminology used in the literature on self-monitoring made searching very challenging. As a result, we relied on manual inclusion and exclusion of the literature after a relatively broad search. Nevertheless, we did limit our search by date range and language. Limiting the search to literature in the English language allows the authors to independently perform the manual review. We chose a start date of our literature search as 10 years prior to the definition of self-monitoring that we used.3 Manual review increases the probability of human error. We attempted to combat this with secondary reviews of excluded articles, hand searching of the references of our included articles and leveraging of expert review. The extensive manual review also delayed the completion of our review, requiring us to update our search before publication. Additionally, the quality of research on self-monitoring is highly variable, and much of it is of low quality, relying on instruments with incomplete or inadequate validity evidence, which limited our ability to identify best practices for self-monitoring in GME. To address this limitation, we chose transparency, including quality metrics for each included article, regardless of the methodology employed, and focused on the opportunities for future research.

5 결론
5 CONCLUSION

자가 모니터링은 복잡하지만 매력적인 현상으로, 특히 임상시험의 질과 임상 진료의 안전성을 개선하기 위한 연구 초점으로서 유망해 보입니다. 현재 문헌에는 명확한 정의와 용어가 부족하다는 점 등 여러 가지 과제가 산적해 있습니다. 이 범위 검토가 연구 질문과 연구 설계를 안내하는 용어, 정의 및 이론적 프레임워크에 대한 권장 사항을 제공함으로써 향후 GME의 자가 모니터링에 대한 연구의 토대가 되기를 바랍니다.
Self-monitoring is a complex yet appealing phenomenon that seems promising as a research focus to improve the quality of GME specifically and the safety of clinical practice more generally. The current literature is riddled with challenges, most notably a lack of clear definitions and terminology. We hope this scoping review will establish a foundation for future research on self-monitoring in GME by providing recommendations for terminology, definitions and theoretical frameworks to guide research questions and study designs.

 


Med Educ. 2023 Feb 5. doi: 10.1111/medu.15023. Online ahead of print.

A scoping review of self-monitoring in graduate medical education

Affiliations

1Military and Emergency Medicine and Medicine, Uniformed Services University of Health Sciences, Bethesda, Maryland, USA.

2Center for Health Professions Education, Uniformed Services University of Health Sciences, Bethesda, Maryland, USA.

3James A. Zimble Learning Resource Center, Uniformed Services University of the Health Sciences, Bethesda, Maryland, USA.

4Department of Medicine, Uniformed Services University of Health Sciences, Bethesda, Maryland, USA.

5School of Medicine and Health Sciences, George Washington University, Washington, District of Columbia, USA.

PMID: 36739527

DOI: 10.1111/medu.15023

Abstract

Background: Physicians and physicians-in-training have repeatedly demonstrated poor accuracy of global self-assessments, which are assessments removed from the context of a specific task, regardless of any intervention. Self-monitoring, an in-the-moment self-awareness of one's performance, offers a promising alternative to global self-assessment. The purpose of this scoping review is to better understand the state of self-monitoring in graduate medical education.

Methods: We performed a scoping review following Arksey and O'Malley's six steps: identifying a research question, identifying relevant studies, selecting included studies, charting the data, collating and summarising the results and consulting experts. Our search queried Ovid Medline, Web of Science, PsychINFO, Eric and EMBASE databases from 1 January 1999 to 12 October 2022.

Results: The literature search yielded 5363 unique articles. The authors identified 77 articles for inclusion. The search process helped create a framework to identify self-monitoring based on time and context dependence. More than 20 different terms were used to describe self-monitoring, and only 13 studies (17%) provided a definition for the equivalent term. Most research focused on post-performance self-judgements of a procedural skill (n = 31, 42%). Regardless of task, studies focused on self-judgement (n = 66, 86%) and measured the accuracy or impact on performance of self-monitoring (n = 41, 71%). Most self-monitoring was conducted post-task (n = 65, 84%).

Conclusion: Self-monitoring is a time- and context-dependent phenomenon that seems promising as a research focus to improve clinical performance of trainees in graduate medical education and beyond. The landscape of current literature on self-monitoring is sparse and heterogeneous, suffering from a lack of theoretical underpinning, inconsistent terminology and insufficiently clear definitions.

자기평가: 그 모든 한계에도 불구하고, 왜 우리는 여전히 측정하고 가르치는가? 스코핑 리뷰의 교훈 (Med Teach, 2022)
Self-assessment: With all its limitations, why are we still measuring and teaching it? Lessons from a scoping review
Natasha Yatesa , Suzanne Gougha and Victoria Brazila,b

 

 

소개
Introduction

자기 평가(SA)는 의사가 안전하게 진료하고 평생 학습하는 데 중요하고 심지어 필수적인 것으로 간주됩니다(Boud and Falchikov 1989). 그러나 이러한 가정은 [SA의 복잡하고 잘 정의되지 않은 특성]과 [역량과의 상관관계가 없다는 점]을 강조하면서 광범위하게 반박되었습니다(Eva 외. 2012). 이러한 반박과 SA의 한계에 대한 수십 년간의 증거에도 불구하고 의학교육에서 SA의 오용은 지속되고 있습니다. 우리는 지난 10년간 의학교육에서 자기평가(SA)가 학습을 발전시키는 데 어떻게 적절하게 사용되었는지에 대한 공식적인 범위 검토를 수행하면서 그 정도를 발견했습니다. 우리는 SA가 유효하고 신뢰할 수 있는 결과 측정으로 오용되거나 그 자체로 학습 목표로 추구되는 경우가 많다는 사실에 놀랐습니다. SA의 문서화된 한계를 무시하여 범위 검토에서 제외된 논문을 종합하여 제시합니다. 우리는 성과를 개선하고/하거나 평생 학습자를 개발하는 방식으로 의대생 교육에서 SA를 독점적으로 발전시켜야 한다는 주장에 무게를 더하기를 희망합니다. 현재의 오해와 관행을 계속 유지한다면 의학교육의 중요한 영역에서 수행된 연구가 낭비될 위험이 있습니다.
Self-assessment (SA) is assumed to be important, even necessary, for doctors to practice safely and for life-long learning (Boud and Falchikov 1989). However, this assumption has been extensively rebutted (Eva et al. 2012), with emphasis on the complex, ill-defined nature of SA, and the lack of correlation with competence. Despite this rebuttal and decades of evidence around the limitations of SA, its misuse in Medical Education persists. We discovered the extent of this while undertaking a formal scoping review on how self-assessment (SA) has been used appropriately to advance learning in medical education over the past 10 years. We were surprised to find SA frequently misappropriated as a valid and reliable outcome measure, or sought as a learning goal in and of itself. We present a synthesis of papers excluded from our scoping review because they ignored the documented limitations of SA. We hope to add weight to calls to exclusively progress SA in medical student education in ways that improve performance and/or develop life-long learners. If we continue with current misconceptions and practices, we risk wasting research done in this important area of medical education.

배경
Background


시간이 지남에 따라 자가 평가에 대한 반복적인 요구에도 불구하고 보편적으로 받아들여지는 자가 평가의 정의는 아직 없습니다(Sargeant 2008). 정의는 연구 방법론, 해석 및 결론을 뒷받침하는 데 중요합니다. 무수히 많은 개념화 중에서 설명하는 데 도움이 되는 세 가지 명확한 구분이 있습니다:
There is no universally accepted definition of self-assessment, despite repeated calls for this over time (Sargeant 2008). Definitions are important to underpin research methodologies, interpretation, and conclusions. Within a myriad of conceptualisations, there are three clear distinctions that we have found helpful to explicate:

SA는 가이드형인가, 비가이드형인가? 
Is SA guided or unguided?
[가이드가 없는 SA]는 내부적으로 생성되고 고립되어 있으며 개인주의적입니다. 이를 '비공개 SA' 또는 '내부 피드백'이라고 부르기도 합니다. 이는 검사하기 어려울 수 있고(Andrade 2010) 항상 개입할 수 있는 것은 아니기 때문에 가치가 제한적입니다.  
Unguided SA
 is internally generated, isolated, and individualistic. Sometimes this is referred to as ‘private SA’ or ‘internal feedback.’ This has limited value because it can be difficult to inspect (Andrade 2010) and is not always amenable to intervention.  
  [가이드형 SA]는 동료나 교사와 같은 다른 사람의 피드백을 통해 보다 협력적이고 구조화되어 있지만, 이러한 피드백을 구하고 처리하는 책임은 여전히 개인에게 있습니다. 이는 또한 지시형 또는 정보에 입각한 자기 평가로 이해될 수 있습니다. 우리는 이것이 교육 및 학습의 맥락에서 SA를 고려하는 필수적인 방법이라고 주장하는 사람들의 주장에 동의합니다(Sargeant 2008).
Guided SA
 is more collaborative and structured, with input from others like peers or teachers, although the responsibility for seeking and processing this input still rests on the individual. This may also be understood as directed or informed Self-Assessment. We agree with those who contend that this is an essential way to consider SA in the context of teaching and learning (Sargeant 2008).
SA는 글로벌 성과인가요, 아니면 특정 성과인가요? 
Is SA a global or a specific accomplishment?
[글로벌 SA]는 본질적으로 자신감의 표현입니다('나는 좋은 운전자다').
Global SA
 is essentially a statement of self-confidence (‘I am a good driver’).
  [특정적 SA]특정 영역에 초점을 맞춘 진술입니다('나는 안전하게 후진 평행 주차를 할 수 있다'). 우리는 자신의 전반적인 능력을 과대평가하는 경향이 있지만, 좁고 집중된 과제에 대해 생각하도록 요청받으면 자기 평가가 더 정확해지는 경향이 있습니다(Eva and Regehr 2011).
Specific SA
 is a focussed statement in a particular area (‘I am able to reverse-parallel park safely’). We tend to overestimate our global abilities, but when asked to think about a narrow, focussed task we tend to be more accurate in our self-assessment (Eva and Regehr 2011).
[글로벌 SA]는 대부분 도움이 되지 않지만, [특정 SA]는 학습을 진전시키는 데 유용한 보조 도구가 될 수 있습니다.
While global SA is mostly unhelpful, specific SA can be a valuable aide to progress learning.
SA는 능력인가요, 접근 방식인가요? Is SA an ability or an approach? 어떤 사람들은 SA를 [학습하고 측정할 수 있는 기술이나 능력]으로 간주합니다. 여기서 SA는 최종 목표로 간주되며 외부 표준과 비교하여 측정할 수 있습니다. 개입이 개선된 자기 평가로 이어진다는 것을 입증하면 성공으로 간주할 수 있습니다. 이러한 관점에서 자기 평가는 총체적인 목적을 가진 학습에 대한 평가입니다. 학생이 외부 측정치에 가까울수록 학생의 자기 평가가 더 나은 것으로 간주되며, 이는 학습/성과 향상으로 이어질 것이라는 가정을 하게 됩니다.
Some view SA as a skill or ability, able to be learned and measured. Here SA is seen as the end goal, and measurable compared to an external standard. Demonstrating that intervention leads to improved self-assessment would be considered a success. Through this lens, self-assessment is an assessment of learning, with a summative purpose. The closer the student approximates an external measure, the better their SA is considered to be, and the assumption is that this will then lead to improved learning/performance.

그러나 이는 문제가 있습니다. 학생이 자기 평가를 더 정확하게 하는 법을 배운다고 해서 SA 기술을 더 잘하게 된 것일 뿐, 반드시 앎, 이해 또는 수행 능력이 더 좋아지는 것은 아니며안타깝게도 자기 평가 개선이 성과 향상으로 이어진다는 증거는 거의 없습니다(Davis 외. 2006). 또한 SA를 습득해야 할 기술로 간주하는 경우, 일반적으로 약점은 파악하지만 강점은 강화하지 않는 '격차 기반' 학습 접근 방식에 중점을 둡니다(Eva and Regehr 2005).

However, this is problematic—if students learn to self-assess more accurately, all that we have done is made them better at the skill of SA but not necessarily better at knowing, understanding, or performing—unfortunately, there is little evidence that improved self-calibration will lead to improved performance (Davis et al. 2006). Additionally, if SA is seen as a skill to obtain, the focus is generally a ‘gaps-based’ approach to learning, where weaknesses are identified but strengths are not reinforced (Eva and Regehr 2005).
  SA를 [전략 또는 접근 방식]으로 보는 사람들도 있습니다. [최종 목표]는 [학습, 성과 또는 안전을 개선]하는 것이며 SA는 이를 위한 수단입니다. 이러한 관점을 통해 연구자들은 SA를 교육학, 프로세스 또는 습관으로 논의하며 [평가의 정확성]보다는 [자체 평가의 메커니즘에 초점]을 맞춥니다. SA는 학습을 위해, 그리고 보다 형성적인 목적으로 수행되고 있습니다. 이를 통해 약점만 다루는 것이 아니라 강점 강화(Cheng 외. 2021)를 포함한 다양한 평가와 조치를 취할 수 있습니다.
Others see SA as a strategy or approach. The end goal is to improve learning, performance, or safety, and SA is the means to that end. Through this lens, researchers discuss SA as a pedagogy, process, or even a habit, and focus is on the mechanisms of self-assessing rather than the accuracy of that assessment. SA is being done for learning, and with a more formative purpose. This allows for a spectrum of assessments and actions, including reinforcement of strengths (Cheng et al. 2021) and not just addressing weaknesses.

평생 학습자를 개발하기 위해 우리가 선호하는 개념화는 SA가 학습을 진전시키기 위한 안내적이고 구체적인 전략이라는 것입니다.
In pursuit of developing life-long learners, our preferred conceptualisation is that SA is a guided, specific, strategy to progress learning.

중복되는 개념 및 정의
Overlapping concepts and definitions

자기 평가
Self-evaluation

종종 SA와 같은 의미로 사용되는 이 용어는 주로 자기조절학습(SRL) 문헌에서 학습 주기 내의 특정 하위 과정을 설명하기 위해 사용되었습니다. [자기 평가]는 짐머만 사이클의 [세 번째('성찰') 단계]에서 이루어집니다.
Often used interchangeably with SA, this term has primarily been used in the Self-Regulated Learning (SRL) literature to describe a specific sub-process within the cycle of learning. Self-evaluation occurs in the third (‘Reflection’) phase of Zimmerman’s cycle.

자기 모니터링
Self-monitoring

특정 상황에서 행동할 수 있는 기술/지식을 유지하고 있는지에 대한 가능성을 [순간순간 인식]하는 것입니다. [SRL 문헌에서는 짐머만 사이클의 두 번째('행동') 단계]에서 발생합니다. 자기 모니터링은 '순간적 SA'라고 부를 수 있지만(McConnell 외. 2012), 그 이상의 개념과 기능도 포함합니다.
A moment-by-moment awareness of the likelihood that one maintains the skill/knowledge to act in a particular situation. Within the SRL literature, this occurs in the second (‘Action’) phase of Zimmerman’s cycle. Self-monitoring could be called ‘SA in-the-moment’ (McConnell et al. 2012), although it also includes conceptualisations and functions beyond this.

평가적 판단
Evaluative judgement

'자신과 타인의 업무의 질에 대한 결정을 내릴 수 있는 능력'으로, 주로 임상 환경과 전문성 개발을 탐구할 때 사용됩니다(p471)(Tai 외. 2018).
‘The capability to make decisions about the quality of work of oneself and others,’ is used primarily in clinical settings and when exploring the development of expertise (p471) (Tai et al. 2018).

자기 효능감
Self-efficacy

종종 [과제에 대한 자신감]으로 설명되며, Bandura(1997)는 이를 [특정 과제를 성공적으로 수행할 수 있는 자신의 능력에 대한 역량]으로 설명했습니다.
Often described as task-specific self-confidence; Bandura (1997) described it as SA of one’s competence to successfully undertake a particular task.

조사 방법
Methods

우리는 지난 10년간 의학교육에서 학습을 발전시키기 위해 자기평가(SA)가 어떻게 사용되었는지를 조사하는 범위 검토를 수행했습니다. 우리는 오픈 사이언스 프레임워크에 프로토콜을 등록(NY 2021)하고 Arksey와 O'Malley의 6단계 프레임워크(Arksey and O'Malley 2005)에 따라 진행했습니다. 
We undertook a scoping review exploring how self-assessment (SA) has been used to advance learning in medical education over the past 10 years. We registered (NY 2021) our protocol on the Open Science Framework and were guided by Arksey and O’Malley’s 6-step framework (Arksey and O'Malley 2005).

  • 1단계: '지난 10년 동안(2011년 이후) 의학교육자들은 의대생 교육에서 성과를 개선하고/하거나 평생 학습자를 개발하는 방식으로 SA를 어떻게 개념화하고, 탐구하고, 발전시키고 있는가'라는 연구 질문을 확인했습니다. 
  • 2단계: 2021년 9월 14일에 체계적 문헌고찰 가속기(SRA)의 자동화 도구를 사용하여 관련 연구를 확인했습니다 (Clark, Glasziou 외. 2020). 액세스한 데이터베이스는 Pubmed, Embase, PsychINFO 및 ERIC입니다. 선임 정보 전문가는 검색 및 선별 과정을 지원하는 다양한 자동화된 도구에 익숙합니다. 각 데이터베이스에 대한 전체 검색 전략은 프로토콜(NY 2021)(공개적으로 볼 수 있음)에 게시되어 있으며, SRA 다국어 검색 번역기(Clark, Sanders 외. 2020)를 사용하여 개발되었습니다. SRA 중복 제거기(Clark, Glasziou 외. 2020)를 사용하여 중복 논문을 제거한 후 1151개의 연구가 남았습니다. 
  • 3단계: 모든 저자는 포함 및 제외 기준을 사용하여 관련 연구를 독립적으로 선택하고, SRA Screenatron 도구를 사용하여 제목과 초록을 검토했습니다(Clark, Glasziou 외. 2020). 가이드가 없는 SA를 설명하거나 SA를 글로벌 스킬(일반적인 자신감)로 정의한 연구는 제외했습니다. 또한 SA의 정확성(즉, 학습을 위한 SA가 아닌 학습에 대한 SA)을 파악하는 데 주안점을 두고 학생의 자기평가를 외부 측정에 보정하는 능력을 측정하는 것을 목표로 한 연구도 제외했습니다. 마지막으로, SA를 사용하여 개입의 성공 여부를 평가한 연구는 학습 진도에 초점을 맞춘 것이 아니라 프로그램을 평가하는 데 SA를 사용했기 때문에 제외했습니다. 
  • Step 1: We identified the research question: ‘Over the past 10 years (since 2011), how are medical educators conceptualising, exploring, and progressing SA in medical student education in ways that improve performance and/or develop life-long learners?’
  • Step 2: We identified the relevant studies on 14/09/2021 using automation tools from the Systematic Review Accelerator (SRA) (Clark, Glasziou et al. 2020). Databases accessed were Pubmed, Embase, PsychINFO, and ERIC. A senior information specialist is familiar with various automated tools assisted with the searching and screening process. The full search strategy for each database is published with our protocol (NY 2021) (publicly viewable) and was developed using the SRA Polyglot Search Translator (Clark, Sanders et al. 2020). After duplicate papers were removed using SRA Deduplicator (Clark, Glasziou et al. 2020), 1151 studies remained.
  • Step 3: All authors independently selected relevant studies using inclusion and exclusion criteria, reviewing titles and abstracts using the SRA Screenatron tool (Clark, Glasziou et al. 2020). We excluded studies that described unguided SA or defined SA as a global skill (general self-confidence). We also excluded studies that aimed to measure students’ abilities to calibrate their self-assessment to an external measure, with the primary focus being identifying the accuracy of SA (i.e. SA of learning, rather than SA for learning). Finally, we excluded studies that used SA to evaluate the success of an intervention, because their focus was not on using SA to progress learning, instead, they used SA to evaluate a program.

이 시점에서 저희는 제외된 연구들에서 상당수의 연구자들이 SA의 문서화된 한계를 무시하는 방식으로 SA를 사용하고 있다는 점을 우려하여 연구를 잠시 중단했습니다. 저희는 SA에 대한 지속적인 오해의 범위를 정의하기 위해 제외된 연구들을 비판적으로 분석하는 이례적인 조치를 취했습니다. 그 결과 연구 이해나 접근 방식에 결함이 있다고 판단되는 두 그룹을 발견했습니다: 
At this point, we paused, because we were concerned to note in our excluded studies that significant numbers of researchers are using SA in ways that ignore its’ documented limitations. We took the unorthodox step of critically analysing these excluded studies, aiming to define the extent of persistent misconceptions regarding SA. We identified two groups where we believe research had a flawed understanding or approach:

  • 그룹 1. 학습의 SA에 대한 연구로, 어떤 조건/특성 때문에 학생들이 자가 교정 능력이 떨어지는지 탐구하고, 정확도를 개선하는 방법에 초점을 맞춥니다(따라서 교정의 정확도가 학습의 전제 조건이 아니라는 점을 인정하지 않음).
  • Group 1. Research into SA of learning, exploring what conditions/features lead to students being poor self-calibrators, with a focus on how to improve their accuracy (and therefore no acknowledgement that accuracy of calibration is not a pre-requisite for learning).
  • 그룹 2. 참가자의 SA를 개입/프로그램의 결과 측정치로 사용한 연구. 이 연구에서는 참가자가 학습 또는 개선되었다고 진술하는 것이 프로그램 또는 개입의 효과에 대한 증거라고 가정했습니다.
  • Group 2. Research that used SA of participants as an outcome measure for their intervention/program. The assumption made in this research is that participants stating they learned or improved was evidence of the efficacy of their program or intervention.

 

결과
Results

검색에서 확인된 1151개의 연구 중 821개는 의대생을 포함하지 않았거나, SA를 다루지 않았거나, 영어로 되어 있지 않아 완전히 제외되었고, 27개는 가이드가 없는 SA를 탐구했거나 SA를 글로벌 기술(일반적인 자신감)로 정의했기 때문에 제외되었습니다. 96건은 전체 텍스트 검토에 포함되었고, 207건의 연구는 SA의 문서화된 한계를 무시했기 때문에 제외되었습니다. 
Of the 1151 studies identified in the search, 821 were excluded outright (e.g. did not include medical students, were not looking at SA, or were not in English) and 27 because they explored unguided SA or defined SA as a global skill (general self-confidence). Ninety-six were included for full-text review, leaving 207 studies excluded because they ignored the documented limitations of SA.

나머지 207개 연구는 여기에서 추가 분석에 포함되었습니다. 
These remaining 207 studies are included in our further analysis here.

  • 그룹 1. 연구자들이 학습의 SA를 살펴본 39개의 연구를 확인했습니다. 이 연구는 지적으로 흥미로울 수 있지만(예를 들어 여성은 일반적으로 학습에 대한 자기 평가에서 남성보다 '정확성'이 떨어지는 것으로 나타났습니다), 성과 향상이나 평생 학습에는 거의 유용하지 않습니다. 이 그룹의 연구자들은 학생들이 더 정확하게 자기 평가를 할 수 있도록 가르치는 것을 '해결책'으로 제안하기도 했습니다. 이 중 ¼ 이상이 1등급 의학교육 학술지(즉, 영향력 지수 2.0 이상)에 게재되었습니다(그림 1(인포그래픽) 참조). 
  • Group 1. We identified 39 studies where researchers looked at SA of learning. This research may be intellectually interesting (for example females are usually found to be less ‘accurate’ than males at self-assessment of their learning), but it is of little utility for improving performance or lifelong learning. Sometimes researchers in this group went on to suggest as a ‘solution’ that students be taught to self-assess more accurately. Over ¼ of these were published in tier 1 Medical Education Journals (i.e. with an Impact Factor of >2.0); see Figure 1 (infographic).
  • 그룹 2. 188개는 프로그램 또는 개입의 효과를 평가하기 위한 결과 측정으로 SA를 사용했습니다. 시간이 지남에 따라 이러한 방식으로 SA를 사용하는 출판물이 줄어들고 있다는 징후는 보이지 않습니다(그림 1(인포그래픽) 참조).
  • Group 2. One hundred and sixty-eight used SA as an outcome measure to assess the efficacy of a program or intervention. There is no sign that publications using SA in this way are abating over time—see Figure 1 (infographic).
 

참가자의 지식 및/또는 기술 습득과 같은 [객관적인 결과를 평가하기 위한 척도로 SA를 사용]한 94건의 연구를 확인했습니다. 이 중 63개는 학습/성과에 대한 다른 증거를 찾으려 하지 않고 [SA를 유일한 결과 측정치로 사용]했습니다.
We identified 94 studies that used SA as a measure to evaluate an objective outcome, like knowledge and/or skills acquisition of participants. Of these, 63 used SA as the sole outcome measure with no attempt to seek other evidence of learning/performance.

나머지 31개 연구는 자체 평가 개선도와 다른 결과(예: 시험에서 얻은 점수 또는 전문가 의견)를 모두 측정하고 그 일치 여부를 고려했습니다. 이 중 
A further 31 studies measured both self-assessed improvement and another outcome (e.g. marks achieved on a test, or expert opinion) and considered whether they aligned. Of these:

  • 20개 연구에서 [SA의 원자가valence]가 [객관적 결과의 원자가valence]와 상관관계가 있는 것으로 나타났습니다. 거의 항상 이러한 값은 긍정적인 방향이었습니다(즉, '학생들이 더 많이 배웠고 스스로도 더 많이 배웠다고 평가했습니다.'). 이러한 연구에 참여한 학생들의 지식/기술이 향상되었을 가능성도 있지만, SA가 학습을 과대평가하거나 과소평가했을 가능성도 있습니다.
    Twenty of these found that the valence of SA correlated with the valence of objective outcomes. Almost invariably these valences were in a positive direction (i.e. ‘the students learned more and they also self-assessed as learning more.’) It is possible that students in these studies did improve in their knowledge/skills, but also possible their SA over-estimated or under-estimated their learning.
  • 연구 중 5건은 [SA]와 [다른 결과]를 모두 측정하였고 [정렬에 대해 불분명]했습니다.
    Five of the studies measuring both SA and another outcome were unclear about alignment
  • 6개의 연구에서 자체 평가 결과를 다른 측정치와 비교하여 정량화한 결과, [초보자가 과대 평가]하거나 [전문가가 과소 평가]하는 것이 분명하게 나타났습니다.
    Six studies quantified self-assessed results compared with another measure and clearly found over-estimation by novices, or under-estimation by experts.

SA는 [자신감, 불안감 또는 공감]과 같은 [주관적인 결과를 측정하는 합리적인(때로는 유일한) 방법]입니다. 74건의 연구 중

  • 12건은 교육 개입에 대한 학생들의 자기보고 불안 또는 공감을 측정한 연구였습니다.
  • 나머지 62개 연구는 자체 평가한 자신감을 측정했습니다. 이는 역량에 대한 강력한 검증 없이 자신감이 결과로 나타나는 상황에서 문제가 됩니다.
    • 62개 연구 중 13개 연구는 자신감만을 유일한 결과로 측정했습니다.
    • 나머지 39개는 자신감과 다른 한 가지 결과를 함께 측정했지만, 대개 각 측정값의 원자가 또는 방향을 보고하는 등 상관관계를 시도하지 않았습니다.

변함없이 자신감이 높아지면 성과도 높아졌지만, 학생들이 자신의 성과에 비해 자신감이 지나치게 높거나 낮은지 여부는 조사되지 않았습니다. 추가로 10건의 연구에서는 자신감이 객관적인 성과 측정치와 일치하지 않는 것으로 나타났습니다.
SA is a reasonable (and sometimes the only) way to measure subjective outcomes, like confidence, anxiety, or empathy. We found 74 studies where this occurred, including

  • 12 which measured students’ self-reported anxiety or empathy in response to a teaching intervention.
  • The remaining 62 studies measured self-assessed confidence. This becomes problematic in situations where confidence is an outcome without any robust validation of competence.
    • Thirteen of those 62 studies measured confidence as the only outcome.
    • Another 39 measured confidence plus one other outcome, but usually did not attempt to correlate them, mostly reporting a valence or direction of each measure.

Invariably, as confidence increased so did performance, but what was not explored was whether students were now over-or under-confident compared to their performance? A further 10 studies found that confidence did not align with an objective measure of performance.

요약하면, 지난 10년 동안 많은 저자들은 SA를 학습이 이루어지기 위해 ['정확성'을 향상시켜야 하는 기술]로 간주하거나, [SA를 유효하고 신뢰할 수 있는 결과 측정 도구로 가정]하여 [교육 개입의 '성공'을 측정하는 방법으로 SA를 사용]해 왔습니다. [SA를 오용한 연구]를 발표한 저자(207명)가 [근거 기반 적용 가능성이 있는 연구]를 발표한 저자(96명)보다 두 배 이상 많았습니다. 원래의 범위 검토에서는 SA의 오용 사례를 의도적으로 찾아낸 것이 아니라 성과를 개선하거나 평생 학습자를 개발하는 방식으로 SA를 사용한 사례만 조사했기 때문에 오용 사례의 수는 이보다 훨씬 더 많을 수 있습니다.
In summary, many authors over the past 10 years have viewed SA as a skill that needs to be improved in ‘accuracy’ for learning to take place, or have used SA as a way to measure the ‘success’ of teaching intervention, assuming SA to be a valid and reliable outcome measurement tool. More than twice as many authors (207) have published research that misappropriates SA, than those who published research with the probable evidence-based application (96). The number of misuses may be even higher than this, as our original Scoping review was not deliberately searching for misappropriated use of SA, but rather for its use in ways that improve performance and/or develop life-long learners.

토론
Discussion

제외된 연구에 대한 분석에서 알 수 있듯이 SA의 주제와 사용에 대한 오해가 많습니다이러한 오해가 근거에 기반한 연구보다 두 배 이상 많은 연구가 발표되고 있습니다. 이러한 현상이 발생하는 이유를 살펴보기 위해 의학교육 이외의 교육 및 학습에 대한 비유를 고려해 보겠습니다.

  • 십대 자녀에게 자동차 운전법을 가르치려고 한다고 상상해 보세요. 몇 번의 운전을 가르친 결과, 아이들은 처음부터 끝까지 무사히 운전할 수 있었습니다. 자녀는 이제 고속도로에서 운전하고 싶다고 말하지만, 부모는 자녀의 능력에 대해 확신이 없습니다. 그래서 당신은 자녀가 자신의 한계를 인식하고 아직 고속도로 운전에 적합하지 않다는 것을 깨닫는 데 도움이되기를 바라면서 자녀에게 자가 평가를 요청합니다. 자녀는 잠시 앉아서 생각한 다음 고속도로를 운전할 준비가 되었다고 확신하며 몇 가지 근거에 기반한 이유를 설명합니다. 지금까지 성공적인 여행만 했고, 과속이나 교통 위반 벌금을 받은 적이 없으며, 친구들보다 더 많은 거리를 운전했기 때문에 상대적으로 더 경험이 많다고 느낀다는 것입니다.

Misconceptions around the subject and use of SA abound, as our analysis of excluded studies demonstrates. More than twice as much research is being published with these misconceptions than with evidence-based constructs. To help explore why this is occurring, we would like you to consider an analogy of teaching and learning that sits outside Medical Education:

  • imagine you are trying to teach a teenager how to drive a car. You take them out for a few trips, and they manage to get from start to finish unscathed. They tell you that they now want to drive on the highway, but you are not as confident in their abilities as they are. So, you ask them to self-assess, hoping this will help them recognise their limits and realise they are not fit for highway driving yet. They sit and think for a while and then explain that they are sure that they are ready to drive the highway, giving you some evidence-based reasons: they have had only successful trips so far, they have never received a speeding or traffic infringement fine, and they have driven more distance than their friends have, so feel comparatively more experienced.

크루거와 더닝의 연구에 따르면 이러한 능력에 대한 과대 평가는 정상입니다(Ehrlinger 외. 2008). 당신은 지금까지의 여행이 상대적으로 쉬웠다는 점(조용한 이면도로를 다녔다는 점), 수많은 아차사고(옆자리에 앉아있을 때 구해냈다는 점), 동료와 자신을 비교하는 것은 능력의 기준이 될 수 없다는 점 등을 지적하며 그들의 주장에 반박할 수 있습니다. 이제 이 대화는 그림 2에 제시된 것처럼 여러 가지 방식으로 진행될 수 있습니다:
This over-estimation of their abilities would be normal according to research by Kruger and Dunning (Ehrlinger et al. 2008). You counter their arguments by pointing out the relative ease of the trips so far (you have taken quiet back roads), their numerous near misses (from which you rescued them as you were sitting next to them), and the fact that comparing themselves with peers is not a benchmark for capability, as none of them are competent yet either. This conversation could now go several different ways, as presented in Figure 2:

[시나리오 1과 2]는 예측 가능하지만 원치 않는 반응으로 학습을 방해합니다. 우리는 종종 [인지적 편향]과 [자기 이미지 보호/인상 관리](Evans et al. 2005)와 같은 요인으로 인해 [정확한 자기 평가를 하지 못합니다](Yu et al. 2020). 마찬가지로 저성과자의 SA를 개선하면 자기효능감이 낮아질 위험이 있습니다(Artino 2012). 성과가 낮은 학습자가 자신이 하위 사분위수에 속한다는 사실에 직면하게 되면 개선할 수 있다는 자신감을 잃을 수 있습니다. 이렇게 학습에 대한 정확한 SA를 요구하면 의도치 않게 성과가 악화될 수 있습니다.
Scenarios 1 and 2 would be predictable but unwanted responses, which hamper learning. We frequently cannot self-assess accurately (Yu et al. 2020): things like our cognitive biases and self-image protection/impression management (Evans et al. 2005) get in the way. Likewise, improving the SA of a low performer risks lowering their self-efficacy (Artino 2012). If a poor performer is forced to face the fact that they are in the lower quartile they may lose the confidence that they can improve. This push for accurate SA of their learning then may inadvertently worsen performance.

문제는 청소년이 [시나리오 3의 반응]을 보이도록 도울 수 있을까요? 그렇다면 어떻게? 정확한 자기 평가를 하는 방법을 배우도록 도와주면 그렇게 할 수 있을까요? 
The question is, can we assist the teenager to have a Scenario 3 response? If so, how? Will helping them learn to accurately self-assess enable that to occur?

바로 이 지점에서 [증거에 맞는 방식으로 SA를 개념화]하는 것이 중요해집니다. 청소년이 운전을 잘하기 위해서는 정확한 자기 평가를 배워야 한다는 가정은 면밀한 조사를 통해 입증되지 않았습니다. 요컨대, [SA가 운전 실력 향상으로 가는 길이라고 가정하는 연구]는 [근본적으로 결함]이 있습니다(Colliver 외. 2005). [SA 정확도 향상에 초점을 맞추는 것]은 [운전 능력 향상에 초점을 맞추기]보다는, 청소년들이 [능숙하게 운전할 수 있는 도로에만 청소년들을 투입하는 것]과 같습니다(따라서 SA를 안전한 운전 성능에 맞추는 것). 
This is where it becomes essential to conceptualise SA in a way that fits the evidence. The assumption that this teenager needs to learn to self-assess accurately before they can progress in their driving does not hold up under scrutiny. In short, research that assumes that SA is the route to improved performance is fundamentally flawed (Colliver et al. 2005). Focussing on improving SA accuracy is like only ever putting our teenagers on roads that they can competently drive (therefore matching their SA to a safe driving performance), rather than focussing on improving their driving.

다시 의학교육에 대한 생각으로 돌아와서, 몇 년 전부터 이러한 점을 지적하는 강력하고 분명한 목소리가 있었습니다. 언뜻 역설적으로 보이지만 데이터는 분명합니다. Eva, Regehr, Gruppen(Eva 외. 2012)이 설명한 것처럼, SA를 가르치는 데 많은 노력을 기울이면 학생과 의사가 보다 정확하게 자기 평가를 할 수 있는(즉, SA 기술/능력을 개발할 수 있는) 교육을 성공적으로 수행할 수 있지만, 반드시 성과를 향상시키지는 못합니다. 또한 학생들이 자기 평가 능력을 향상시키는 데 도움을 줄 수는 있지만(Lopez와 Kossack 2007), SA 향상과 성과(Andersen 외. 2015), 통찰력(Ehrlinger 외. 2008), 학습(Colthart 외. 2008) 또는 환자 결과(Al-Kadri 외. 2012) 사이에는 상관관계가 낮다는 것은 잘 알려진 사실입니다. 대신 약한 학생의 성과를 개선하기 위한 증거 기반 방법에 초점을 맞추면 일반적으로 [부산물]로 [자기 평가 능력이 향상]됩니다(Hawkins 외. 2012).  
Returning to thinking about Medical Education, there have been strong and clear voices making these points for some years now. Although it seems paradoxical at first glance, the data is clear. As Eva, Regehr, and Gruppen (Eva et al. 2012) explain, if our efforts go into teaching SA, we may successfully train students and doctors who can more accurately self-assess (i.e. develop their SA skills/abilities), but not necessarily improve their performance. Additionally, it’s well-established that although we can help students to improve their ability to self-assess (Lopez and Kossack 2007), there is a poor correlation between improving SA and their performance (Andersen et al. 2015), insight (Ehrlinger et al. 2008), learning (Colthart et al. 2008), or patient outcomes (Al-Kadri et al. 2012). If instead, we focus on evidence-based ways of improving the performance of weaker students, their ability to self-assess will usually improve as a by-product (Hawkins et al. 2012).

10대 운전자의 시나리오를 다시 생각해본다면, 시간이 지남에 따라 이들을 관찰한다면, 도로에서 더 많은 감독을 받는 시간을 보내면 더 많은 도전에 노출되어 유능한 운전자가 되기 위해 필요한 것이 무엇인지에 대한 미묘한 관점을 얻을 수 있기를 바랍니다(그림 3-시나리오 4). 그러면 (아마도!) 초기의 잘못된 자신감을 비웃고 더 많은 경험이 쌓인 후에야 고속도로에 나설 수 있을 것입니다.
If we reconsider our teenage driver scenario and observe them over time, we would hope that spending some more supervised hours on the road would expose them to increasing challenges, helping them gain a more nuanced perspective of what it takes to be a competent driver (Figure 3—scenario 4). They would then (possibly!) laugh at their earlier misplaced self-confidence and only take to the highway when they were more experienced.

이 마지막 시나리오는 [학습자가 목표로 하는 명확하고 구체적인 표준]이 있고 [다른 사람의 의견에 반응하는 안내형 SA]입니다. 이것이 바로 학습을 위한 SA입니다.
Notice that this final scenario is guided SA where the learner has clear, specific standards to aim for and is responsive to the input of others. It is SA for learning.

왜 그렇게 많은 연구의 초점이 여전히 성과, 학습 또는 안전의 개선 측정과는 별개로 SA를 주요 예상 결과로 개선하는 데 맞춰져 있는지 궁금합니다. 또는 왜 그렇게 많은 연구자들이 SA의 제한된 신뢰성과 타당성을 고려하지 않고 프로그램의 '성공'을 평가하는 도구로 SA를 사용하는 것일까요? 이러한 [SA의 오용]은 특히 초보자나 실력이 약한 학생과 관련하여 문제가 되는데, 이들은 프로그램을 통해 실력이 향상되었다고 생각하기 때문에 이제 전문가가 되었다고 생각할 수 있습니다(Kruger and Dunning 1999). 
We wonder why the focus of so much research is still on improving SA as the primary anticipated outcome, detached from any measure of improvement in performance, learning or safety? Or why so many researchers use SA as a tool to evaluate the ‘success’ of a program, without regard to its limited reliability and validity? This misuse of SA is particularly troubling with regard to novices or weaker students, who may believe that because they have been through a program and feel they have improved, they are now an expert (Kruger and Dunning 1999).

한 가지 가능한 이유는 [SA 데이터가 양적 및 질적 형태로 수집하기 쉽기 때문]에, 한계와 역설에 익숙하지 않은 연구자들은 [SA가 간단하고 유용한 정보를 제공한다고 잘못 생각]하기 때문입니다. 또한 학생들은 자신의 SA를 묻는 질문에 의문을 제기하지 않을 것입니다. 사람들은 직관적으로 자신이 자신을 가장 잘 평가할 수 있는 위치에 있다고 믿기 때문입니다. 인간은 자신을 가장 잘 안다고 생각하는 경향이 있습니다.
One likely reason is that SA data is easy to collect, in both quantitative and qualitative forms, so researchers who are unfamiliar with its limitations and paradoxes, mistakenly think it provides straightforward and useful information. In addition, students are unlikely to question being asked for their own SA: it is intuitive for people to believe that they are in the best position to assess themselves. Humans tend to think we know ourselves best.

보다 구조적인 수준에서는 SA의 개념을 정의하기 어렵고, 그 결과 의미와 적용에 일관성이 없다는 것이 문제의 일부일 수 있습니다. 또 다른 문제는 학문적 대화의 사일로화일 수 있으며, 다른 맥락에서 병렬적으로 논의가 진행되는 것입니다[다른 곳에서 발생한 것처럼(Evans 외. 2021)]. 네트워크 분석은 주제에 대한 학문적 담론의 단절을 드러낼 수 있으며(Manlove 외. 2016), 이는 SA의 향후 연구 분야가 될 수 있습니다. 
At a more structural level, part of the problem is likely the difficulty in defining the concept of SA, with resulting in inconsistency in meaning and application. Another issue may be siloing of academic conversations, with parallel discussions happening in different contexts [as has occurred elsewhere (Evans et al. 2021)]. A  network analysis can reveal disconnects in academic discourses on topics (Manlove et al. 2016) and this may be an area of future research for SA.

마지막으로, 이 연구 논문의 비정통적 접근 방식이 의학교육의 다른 주제에도 도움이 될지 궁금합니다. SA를 도움이 되지 않는 방식으로 사용한 연구의 정도를 정량화함으로써 [의학교육자들이 SA를 측정 도구로 사용하는 것을 고려할 때 잠시 멈칫할 수 있기를 바랍니다]. SA가 부적절하게 사용되면 연구가 낭비될 수 있습니다. 의료 연구 전반에서 연구 낭비를 제한해야 한다는 요구가 증가하고 있으며(Chalmers and Glasziou 2009), 이에 대한 책임은 자금 제공자, 규제 기관, 학술지, 학술 기관, 연구자 등 다섯 가지 주요 이해관계자에게 있습니다(Moher 외. 2016). 
Finally, we wonder if our unorthodox approach in this research paper would benefit other topics in Medical Education? By quantifying the extent of research that has used SA in unhelpful ways, we hope medical educators will take a pause when considering using SA as a measurement tool. If SA is used inappropriately, their research may be wasted. Within Healthcare research more broadly there have been increasing calls to limit research waste (Chalmers and Glasziou 2009) with responsibility for this laying at the feet of five main stakeholders—funders, regulators, journals, academic institutions, and researchers (Moher et al. 2016).

이를 통해 의학교육은 우선순위가 가장 높은 주제를 연구하고, 적절한 연구 설계와 방법론을 보장하며, 연구 결과를 필요로 하는 사람들에게 접근 가능한 방식으로 연구 결과를 보고하고 배포하는 것을 최적화하는 등의 고려 사항을 통해 학문으로서의 이점을 얻을 수 있습니다. 체계적 문헌고찰과 범위 검토에서 '제외된' 연구에는 향후 연구 질문에 대한 해답이 있을 수 있는데, 이는 향후 반복되지 않기를 바라는 단점이 포함되어 있기 때문입니다. 연구 제외 이유를 체계적으로 평가함으로써 이 논문이 자체 평가에 대한 이해를 높이고 향후 이 분야의 연구를 개선하는 데 기여했기를 바랍니다.
Learning from this, Medical Education as a discipline may benefit from the following considerations: researching the highest priority topics; ensuring appropriate research designs and methodologies; and optimising reporting and dissemination of findings in accessible ways, to the people who need to see them. It may be that answers to future research questions can be found in the ‘excluded’ studies in our Systematic and Scoping reviews, as these contain the shortcomings which we want to ensure are not replicated in the future. By systematically assessing the reasons for excluding research, we hope this paper has contributed to a deeper understanding of Self-Assessment and improved future research in this area.

결론
Conclusion

SA를 탐구하는 교육자가 SA에 대한 명확한 정의를 가지고 있을 때, 이는 학생의 학습 방식에 대한 이용 가능한 증거에 부합합니다: SA는 가이드가 있고(가이드가 없는 것이 아니라), 구체적이며(포괄적인 것이 아니라), 능력이 아닌 과정으로 개념화하는 것이 가장 도움이 됩니다. 우리는 의학교육자와 학자들이 [결과 측정으로서의 자기평가의 한계]와 [자기평가가 추구해야 할 목표라는 증거가 부족하다]는 점을 이해할 것을 촉구합니다. 앞으로 나아가는 데 도움이 되는 한 걸음은 개입/프로그램의 '성공'에 대한 의미 있는 결과 측정으로 참여자 SA를 사용하는 것을 중단하는 것입니다. SA는 평생 학습 과정의 중요한 부분이지만, 학생들이 외부 측정치(학습에 대한 자기 평가)로 SA를 보정하는 데 어려움을 겪는 이유에 대한 연구는 유용한 목적이 없습니다. 마찬가지로, 정확도/보정을 개선하려는 시도 역시 잘못된 방향의 노력입니다. 프로젝트를 설계하는 연구자, 학술 기관, 자금 제공자, 저널은 더 이상 이러한 결함이 있는 방식으로 SA를 사용하는 것을 받아들이지 않는 것이 좋습니다. 그 대신 학생들의 [학습을 위한 자기평가]를 발전시키는 데 집중해야 합니다. 
When educators exploring SA have a clear definition of SA, it fits the available evidence on how students learn: SA is most helpfully conceptualised as a guided (not unguided), specific (not global), process (not ability). We call on medical educators and scholars to understand the limitations of self-assessment as an outcome measure, and the lack of evidence for it being a goal to strive for. A helpful step forward would be for us to stop using participant SA as a meaningful outcome measure of the ‘success’ of an intervention/program. While SA is an important part of the life-long learning process, research into reasons why students are poor at calibrating their SA with external measures (self-assessment of learning) serves no useful purpose. Similarly, attempts to improve their accuracy/calibration is misdirected effort. Researchers designing projects, academic institutions, funders, and journals would benefit from no longer accepting the use of SA in these flawed ways. Efforts should instead focus on progressing students’ self-assessment for learning.

우리는 SA의 [정의, 한계, 역설을 명확히 하는 것]이 의과대학 내 교육과 학습에 의미 있는 적용을 가능하게 할 것이라고 믿습니다. 이러한 한계와 역설을 인정하지 않는 연구의 범위에 대한 우리의 탐구가 향후 이 분야의 연구 낭비를 줄이는 데 도움이 되기를 바랍니다. 마지막으로, 의학교육 연구의 다른 분야에서도 마찬가지로 범위 설정 및 체계적 문헌고찰에서 '제외된' 연구를 검토하여 학문으로서 개선할 수 있는 부분에 대한 인사이트를 얻을 수 있지 않을까 생각합니다. 
We believe that clarifying definitions, limitations, and the paradoxes of SA will afford meaningful application to teaching and learning within medical schools. We hope that our exploration of the extent of research that fails to acknowledge these limitations and paradoxes will help reduce future wastage of research in this area. Finally, we wonder if other areas of medical education research would similarly benefit from examining ‘excluded’ studies from scoping and systematic reviews, to gain insights into what where we could improve as a discipline.

 


 

Med Teach. 2022 Nov;44(11):1296-1302. doi: 10.1080/0142159X.2022.2093704. Epub 2022 Jul 4.

 

Self-assessment: With all its limitations, why are we still measuring and teaching it? Lessons from a scoping review

Affiliations collapse

1Faculty of Health Sciences and Medicine, Bond University, Gold Coast, Australia.

2Translational Simulation Collaborative, Gold Coast, Australia.

PMID: 35786121

DOI: 10.1080/0142159X.2022.2093704

Abstract

Introduction: Self-Assessment (SA) is often assumed to be essential for learning, however, this assumption has been extensively rebutted. Research shows SA has significant limitations, including its lack of correlation with competence.

Method: We undertook a scoping review of SA in medical education (2011-2021) and surprisingly discovered substantial research where SA was erroneously assumed to be a valid measure of successful learning, or a skill needing to be taught. Although the initial intent of our scoping review was to explore where SA is being effectively used to advance lifelong learning, we paused to explore the extent of the problem of its misuse and resulting in wasted research, by examining excluded studies.

Results: From 1151 articles, we identified 207 which ignored the documented limitations of SA. Thirty-nine studies explored SA of learning. This research has limited utility: increasing the accuracy of SA does not improve performance or lifelong learning. One hundred and sixty-eight used SA as an outcome measure to assess a program or intervention, including 63 where self-assessed improvement in knowledge/skills was the sole measure. SA of self-confidence was measured in 62 studies. When confidence was compared with an objective measure of performance, both invariably increased, but confidence did not always align with competence when measured.

Discussion: Many researchers mistakenly assume the ability to accurately self-assess is essential for learning, so focus on teaching self-calibration rather than evidence-based methods of advancing learning. Other researchers incorrectly suppose that self-reported improvements in knowledge/skills provide evidence of the efficacy of a program/intervention. This is particularly troubling with regards to novices, who may believe that because they self-assess to have improved/gained confidence, they are now competent.

Conclusion: Our findings highlight the significant volume of research being done where SA is misunderstood and/or misused as a measurement. We posit reasons that such research continues to take place and suggest solutions moving forward.

Keywords: Self-assessment; life-long learning; medical education; research wastage.

전공의 역량 검토: 수행능력 평가에 CCC의 역할에 대한 질적 연구(Acad Med, 2015)
Reviewing Residents’ Competence: A Qualitative Study of the Role of Clinical Competency Committees in Performance Assessment 
Karen E. Hauer, MD, Benjamin Chesluk, PhD, William Iobst, MD, Eric Holmboe, MD, Robert B. Baron, MD, Christy K. Boscardin, PhD, Olle ten Cate, PhD, and Patricia S. O’Sullivan, EdD 

 

의학교육자는 수련의의 성과를 평가하여 수련의가 고품질의 안전한 의료 서비스를 제공할 수 있는 역량을 갖추었는지 판단합니다. 점점 더 많은 대중은 교육 프로그램에 미래의 의사가 독립적인 진료를 할 수 있도록 준비된 프로세스가 마련되어 있기를 기대하게 되었습니다. 전 세계의 교육자들은 [의사가 수행해야 할 바람직한 특성]을 명확히 하고 평가의 근거로 삼기 위해 역량을 정의하고 최근에는 [마일스톤을 정의]했습니다.1-3 
Medical educators assess trainees’ performance to determine whether they have achieved competence to provide high-quality, safe medical care. Increasingly, the public has come to expect that training programs have processes in place to ensure that future physicians are prepared for independent practice. Educators around the world have defined competencies, and more recently milestones, to articulate the desired characteristics of physicians’ performance and to serve as the basis for assessment.1–3

과거에는 특정 분야의 레지던트 수련을 [정해진 기간] 동안 [공인된 프로그램]에서 이수하는 것으로 거의 모든 수련의의 진료 준비가 완료되었다고 정의했지만, 이제는 [역량을 확인하는 메커니즘]에 대한 면밀한 검토가 이루어지고 있습니다. 역량 및 이정표 기반 교육은 모든 수련의가 [의료행위에 대비]하고 [주요 활동에 능숙]하도록 하는 것을 목표로 합니다.4,5 이정표는 개별 학습 요구에 맞춘 일관되고 논리적인 경험의 순서로서 레지던트의 학습을 지원하는 프레임워크 역할을 하도록 고안되었습니다. [역량]의 [추상적인 특성]으로 인해 사용이 복잡할 수 있지만,6 [마일스톤]은 [특정 역량 영역에서 평가할 진행 상황을 명확히 하는 것]을 목표로 합니다.
Whereas the completion of residency training within a specific discipline in an accredited program after a prescribed number of years has historically defined readiness for practice for nearly all trainees, mechanisms to confirm competence are now receiving closer scrutiny. Competency- and milestones-based education seeks to ensure that all trainees are prepared for practice and competent in key activities.4,5 Milestones are intended to serve as a framework to support residents’ learning as a coherent and logical sequence of experiences tailored to individual learning needs. Although the abstract nature of competencies can complicate their use,6 milestones aim to clarify progress to be assessed in specific competency domains.

의학전문대학원(GME) 프로그램 디렉터는 항상 레지던트의 성과를 모니터링할 책임이 있었지만, 미국에서는 이제 [차기 인증 시스템(NAS)7]에 따라 [GME 프로그램 내에서 임상역량위원회(CCC)]가 [레지던트의 점진적인 역량 달성을 측정]하도록 요구하고 있습니다. 2013년부터 CCC는 모든 레지던트 평가를 반기별로 검토하고 주요 성과를 의학전문대학원교육인증위원회(ACGME)에 보고해야 합니다.1 그럼에도 불구하고, 이 의무화에는 이러한 위원회가 역량 판단을 내리기 위해 [어떤 방식으로 업무에 접근해야 하는지]에 대한 답이 없는 질문이 있습니다. [무엇을 평가할 것인지], [어떻게 정보를 종합하여 수련의의 성과에 대한 판단을 내릴 것인지]에 대한 결정은 검토 과정의 목적에 대한 기본 가정을 반영합니다.8,9 CCC가 이용할 수 있는 정보 출처, 이 정보를 공유하고 사용하는 방식, 의사 결정 책임에 대한 인식은 모두 수련생과 환자에 대한 책임의 범위와 성격에 대한 이해를 반영할 수 있습니다. [수련의의 성과에 대한 정보를 종합하여 승진을 권고하는 것]은 궁극적으로 수련의가 [향후 임상 업무를 감독 없이 독립적으로 수행할 수 있도록 신뢰한다는 판단]에 해당합니다.10
Though graduate medical education (GME) program directors have always been responsible for monitoring residents’ performance, in the United States, the Next Accreditation System (NAS)7 now requires that, within GME programs, clinical competency committees (CCCs) measure residents’ progressive attainment of competence. As of 2013, CCCs must review all resident evaluations semiannually and report on milestones to the Accreditation Council for Graduate Medical Education (ACGME).1 Nonetheless, this mandate comes with unanswered questions about how these committees should approach their work to render judgments of competence. Decisions about what will be evaluated and how information will be synthesized into a judgment about a trainee’s performance reflect underlying assumptions about the purposes of the review process.8,9 The information sources available to CCCs, the ways that they share and use this information, and their perceptions of their decision-making accountability all may reflect their understanding of the scope and nature of their responsibilities toward trainees and patients. Synthesizing information about a trainee’s performance into a recommendation for advancement ultimately constitutes a judgment to trust the trainee to perform future clinical work independently and unsupervised.10

본 연구는 전공의의 역량 개발을 안내하고 보장하기 위한 목적으로 성과 정보를 해석하는 관점에서 [GME에서 CCC의 현황]을 설명하고자 했습니다. 현재 레지던트 프로그램에서 CCC가 의무화되었지만, 이들의 업무를 안내할 수 있는 정보는 문헌에 거의 존재하지 않습니다. 또한 이러한 위원회가 자신의 임무에 어떻게 접근하거나 목적을 어떻게 인식하는지, 또는 운영이 의도와 어떻게 일치하는지에 대해서는 아직 알려지지 않았습니다. 이 연구는 레지던트 CCC의 특성, 목적에 대한 이해, 레지던트의 역량에 대한 판단을 내리기 위해 성과 정보를 사용하는 방식을 파악하는 것을 목표로 합니다. 연구 결과는 교육자가 평가와 커리큘럼 설계, 학습 및 결과 간의 관계를 다루는 데 도움이 되는 현재 관행을 파악할 것입니다. GME 평가의 중추적인 시기에 연구 결과는 CCC 과정의 리더이자 최종 사용자로서 프로그램 디렉터가 레지던트의 역량 보장에 대한 책임과 책임을 어떻게 인식하는지에 대한 기초적인 통찰력을 제공할 수 있습니다. 
From the perspective of interpreting performance information for the purpose of guiding and ensuring residents’ development of competence, this study sought to describe the current state of CCCs in GME. Although CCCs are now required in residency programs, little information exists in the literature to guide their work. In addition, how these committees approach their charge or perceive their purpose, or how their operations align with their intentions, remains unknown. This study aims to characterize residency CCCs, understandings of their purpose, and the ways in which they use performance information to make judgments about residents’ competence. Study results will identify current practices to help educators address the relationship between assessment and curricular design, learning, and outcomes. At a pivotal time for assessment in GME, study findings can provide baseline insights about how program directors, as both leaders and end users of the CCC process, perceive their charge and their accountability for ensuring residents’ competence.

연구 방법
Method

연구 설계
Study design

이 질적 연구는 데이터의 검사, 코딩, 해석을 통해 현상을 설명하고 주제를 파악하는 전통적인 내용 분석을 사용했습니다.11 연구자들은 2013년 캘리포니아에 있는 5개 기관의 레지던트 프로그램 디렉터들과 반구조화된 인터뷰를 실시했습니다. 연구자들은 프로그램마다 차이가 있을 것으로 예상하고 인터뷰를 통해 프로그램 디렉터들의 CCC 절차에 대한 인식과 달성한 결과에 대해 심층적으로 이해했습니다. 캘리포니아 대학교 샌프란시스코 의과대학의 기관윤리심의위원회는 이 연구를 승인했습니다. 
This qualitative study used conventional content analysis, which seeks to describe a phenomenon through the examination, coding, and interpretation of data to identify themes.11 The investigators conducted semistructured interviews with residency program directors at five institutions in California in 2013. Anticipating variability across programs, the investigators used interviews to gain an in-depth understanding of program directors’ perceptions of their CCC procedures and the results achieved. The institutional review board at the University of California, San Francisco, School of Medicine approved this study.

연구팀에는 성과 평가 연구 및 수행 경험이 있고 학생 역량 위원회에서 활동한 경험이 있는 연구 책임자(K.E.H.)가 포함되었습니다. 인터뷰를 수행한 연구 조교는 질적 인터뷰 및 연구 경험이 풍부했습니다. 나머지 팀원들은 연구 방법(B.C., C.K.B., O.T.C., P.S.O.)과 여러 기관의 역량 기반 교육(W.I., E.H., R.B.B.)에 대한 전문성을 가지고 있었습니다.
The research team included the principal investigator (K.E.H.), who had experience studying and conducting performance assessment and had served on a student competency committee. The research assistant, who conducted the interviews, had extensive experience in qualitative interviewing and research. The remaining team members brought expertise in research methods (B.C., C.K.B., O.T.C., P.S.O.) and competency-based education across institutions (W.I., E.H., R.B.B.).

표본
Sample

응답의 다양성을 극대화하기 위해 조사자들은 데이비스, 어바인, 로스앤젤레스, 샌디에이고, 샌프란시스코에 있는 캘리포니아 대학교 의과대학의 레지던트 프로그램 디렉터들을 대상으로 [계층화된 의도적 표본 추출12]을 선택했습니다. 프로그램은 [대규모 또는 소규모]로, [절차적 또는 비절차적 프로그램]으로 분류되었습니다(보충 디지털 부록 1 참조). 연구자들은 일반화 가능성을 높이고 대표성을 보장하기 위해 [난수 생성기]를 사용하여 각 참여 기관에서 [8개의 레지던트 프로그램(대규모 절차적 프로그램 3개, 대규모 비절차적 프로그램 3개, 소규모 절차적 프로그램 1개, 소규모 비절차적 프로그램 1개)을 선정]하고 해당 프로그램의 책임자를 참여하도록 초청했습니다. 1차 인터뷰 후, 각 참여 기관의 프로그램 책임자를 추가로 초청했으며, 연구자들은 각 기관의 각 범주(대규모 절차적, 대규모 비절차적, 소규모 절차적, 소규모 비절차적)에서 무작위로 하나의 프로그램을 선택했습니다. 연구자들은 이러한 추가 참가자를 통해 포화 상태에 도달할 것으로 예상했습니다. 
To maximize diversity of responses, the investigators chose stratified purposive sampling12 of residency program directors from the University of California Schools of Medicine at Davis, Irvine, Los Angeles, San Diego, and San Francisco. Programs were classified as larger or smaller and as procedural or nonprocedural (see Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/A277). Using a random number generator to increase generalizability and assure representation, the investigators selected eight residency programs from each participating institution (three large procedural, three large nonprocedural, one small procedural, one small nonprocedural) and invited the directors of those programs to participate. After the initial interviews, additional program directors from each of the participating institutions were invited—the investigators randomly selected one program from each category at each institution (large procedural, large nonprocedural, small procedural, small nonprocedural). They anticipated achieving saturation with these additional participants.

데이터 수집
Data collection

연구 책임자(K.E.H.)는 캘리포니아 대학교 샌프란시스코 의과대학의 펠로우십 디렉터와 세 차례의 파일럿 인터뷰를 실시하여 [인터뷰 가이드를 명확하게 수정]했습니다. 연구팀은 각 레지던트 프로그램의 프로그램 요건과 집단 의사 결정에 관한 문헌을 검토하여 [인터뷰 질문을 개발]했으며, 각자의 전문 지식도 활용했습니다.
The principal investigator (K.E.H.) conducted three pilot interviews with fellowship directors from the University of California, San Francisco, School of Medicine and refined the interview guide for clarification. The research team developed the interview questions by reviewing the program requirements for each residency program and the literature on group decision making; they also drew on their expertise.

잠재적 참가자에게는 이메일 참여 초대장을 보냈습니다. 응답하지 않은 참가자에게는 최대 3번의 후속 이메일 초대를 보냈습니다. 참가자들은 구두 동의를 한 후 7가지 항목의 전자 설문지와 1회의 인터뷰를 완료했습니다. 설문지에는 참가자의 전문 분야, 성별, 나이, CCC 의장, 프로그램 디렉터 및 부프로그램 디렉터로 활동한 기간, 프로그램에 참여한 전공의 수에 대한 질문이 포함되었습니다. 숙련된 연구 보조원은 2013년 1월부터 5월까지, 7개의 1단계 전문과목에 대한 NAS의 역량 위원회 구성 요건을 준수하기 위한 2013년 7월 마감일 발표 이후부터 그 직전까지 각 참가자와 약 30분 동안 전화 인터뷰를 진행했습니다.13 인터뷰는 녹음되었으며, 전문 전사 서비스에서 이를 그대로 옮겨 적었습니다. 참가자들은 보상을 받지 않았습니다.
Potential participants received an e-mail invitation to participate. Nonrespondents received up to three follow-up e-mail invitations. Participants provided verbal consent and completed a seven-item electronic questionnaire and one interview. The questionnaire queried the participant’s specialty; gender; age; years as a CCC chair, program director, and/or associate program director; and number of residents in the program. The trained research assistant conducted phone interviews lasting approximately 30 minutes with each participant between January and May 2013, after the announcement about but just prior to the July 2013 deadline for the seven Phase 1 specialties to adhere to the NAS requirement to have a competency committee.13 Interviews were recorded; a professional transcription service transcribed them verbatim. Participants did not receive compensation.

인터뷰 질문은 회원 구성, 회원 교육, 위원회 리더십, 회의 빈도 및 사용 가능한 상주 성과 데이터를 포함하여 CCC에 대한 설명을 요청했습니다(부록 1 참조). [CCC가 운영되지 않는 프로그램]의 경우, 프로그램 책임자에게 전공의의 성과를 검토하는 데 사용되는 프로세스를 설명하도록 요청했습니다. 모든 참가자는 신원 정보를 사용하지 않고 [최근 어려움을 겪고 있는 전공의의 사례][일반적인(어려움을 겪지 않는) 전공의의 사례]에 대한 검토 프로세스를 설명했습니다. 질문은 위원회 또는 검토 절차의 주요 목적에 대한 프로그램 책임자의 인식, 현재 절차의 장단점, 절차에 예상되는 변경 사항을 다루었습니다.
Interview questions solicited descriptions of CCCs, including membership composition, member training, committee leadership, frequency of meetings, and resident performance data available (see Appendix 1). For programs without a functioning CCC, the program director was asked to describe the process used to review residents’ performance. All participants described, without using any identifying information, the review process for a recent example of a struggling resident and an example of a typical (nonstruggling) resident. Questions addressed program directors’ perceptions of the main purpose their committee or review process served, pros and cons of their current procedures, and any anticipated changes to their procedures.

5명의 조사자(K.E.H., B.C., W.I., E.H., 연구 보조원)가 명확성을 위해 2~4개의 초기 녹취록을 읽은 후, 불명확한 질문 1개를 삭제하고 두 개의 질문을 추가했습니다.
Five investigators (K.E.H., B.C., W.I., E.H., the research assistant) read two to four early transcripts for clarity; subsequently, one unclear question was dropped, and two questions were added.

분석
Analysis

두 명의 연구자(연구 조교인 K.E.H.)가 각 프로그램에 대한 [기술적 정보]를 추출했는데, 여기에는 [CCC의 존재 여부, 위원회 위원 수, 위원회 회의 빈도, 전공의의 성과를 검토하는 다른 위원회의 존재 여부]가 포함되었습니다.
Two investigators (K.E.H., the research assistant) extracted descriptive information about each program, including the presence of a CCC, the number of committee members, the frequency of committee meetings, and the presence of any other committee that also reviewed residents’ performance.

주제에 대한 질적 분석을 위해 연구자들은 [지속적 비교 방법14] 및 [불일치 사례 분석]을 사용한 [데이터 수집과 함께 반복적으로 전사 코딩]을 수행했습니다.15 한 명의 연구자(K.E.H.)가 처음 10개의 인터뷰를 읽고 초기 주제를 생성했습니다. 4명의 추가 연구자(B.C., W.I., E.H., P.S.O.)가 각각 10명의 그룹에서 [무작위로 선정된 5~6개의 녹취록을 검토]하고 [코드북 초안]에서 [주제를 검토]한 후 [연구책임자와 만나 코드북 추가 및 수정]에 기여했습니다. 그 후 [코드북이 최종 완성]되었습니다. 두 명의 코더(연구 조교인 K.E.H.)가 [각각 독립적으로 나머지 모든 트랜스크립트를 코딩]했습니다. 이들은 전체 트랜스크립트 검토와 토론을 통해 불일치하는 부분을 해결했습니다.
For the qualitative analysis of themes, the investigators conducted transcript coding iteratively with data collection using the constant comparative method14 and discrepant case analysis.15 One investigator (K.E.H.) read the first 10 interviews and generated initial themes. Four additional investigators (B.C., W.I., E.H., P.S.O.) each reviewed 5 to 6 randomly selected transcripts from that group of 10, reviewed the themes in a draft codebook, and met with the principal investigator to contribute codebook additions and revisions. The codebook then was finalized. Two coders (K.E.H., the research assistant) each independently coded all remaining transcripts. They resolved discrepancies through full transcript review and discussion.

[다양한 관점]을 가진 [다양한 연구자 그룹 간]의 [정기적인 연구팀 회의]는 삼각측량의 목적에 부합했습니다.16 연구자들은 초기 (개방형) 코딩을 기반으로 데이터를 검토하고 토론하여 더 큰 새로운 주제를 식별하고 구체화했습니다.
Regular research team meetings amongst this diverse group of investigators with multiple perspectives served the purpose of triangulation.16 On the basis of the initial (open) coding, the investigators reviewed and discussed the data to identify and refine larger emerging themes.

데이터 코딩, 구성 및 검색에는 Dedoose 버전 4.5(미국 캘리포니아주 로스앤젤레스의 SocioCultural Research Consultants, LLC) 웹 애플리케이션 소프트웨어가 사용되었습니다. 
Dedoose Version 4.5 (SocioCultural Research Consultants, LLC, Los Angeles, California) Web application software was used for coding, organizing, and retrieving data.

결과
Results

초청된 레지던트 프로그램 디렉터 60명 중 34명(56.7%)이 인터뷰를 완료했습니다. 9명의 프로그램 디렉터가 추가로 참여하기로 동의했지만 일정상의 제약이나 연구 주제가 포화 상태에 이르렀기 때문에 참여하지 않았습니다. 표본 추출 절차에 따라 참가자는 22개의 대규모 프로그램과 12개의 소규모 프로그램을 포함했으며, 15개의 절차적 전문 분야와 19개의 비절차적 전문 분야를 대표했습니다. 학교별 참여율은 33.3%에서 75.0%까지 다양했습니다. 참가자는 남성이 23명, 여성이 11명이었습니다.
Thirty-four of 60 (56.7%) invited residency program directors completed an interview. Nine additional program directors agreed to participate but did not either because of schedule constraints or because the study had achieved thematic saturation. Consistent with our sampling procedure, participants included 22 large and 12 small programs, representing 15 procedural and 19 nonprocedural specialties. The participation rate by school varied from 33.3% to 75.0%. Participants included 23 men and 11 women.

전체적으로 31명(91.2%)의 참가자가 인구통계학적 설문조사를 완료했습니다. 평균 연령은 48세였으며, 35세 미만에서 66세까지 다양했습니다. 이들은 평균 7년(1~21년 범위, 30명)간 프로그램 디렉터로 근무했으며, 이는 전국 프로그램 디렉터와 비슷한 수준입니다.17 14명은 이전에 부 프로그램 디렉터로 근무한 경험이 있습니다. 연구 당시 각 프로그램의 전공의 수는 평균 39명이었습니다(범위 0~99명, 소규모 프로그램 1곳은 당시 전공의가 없었습니다).
Overall, 31 (91.2%) participants completed the demographic survey. Their mean age was 48, ranging from under 35 to 66 years. They had served as program director for an average of 7 years (range 1–21, n = 30), comparable to program directors nationally.17 Fourteen had previously served as an associate program director. The number of residents in each program at the time of the study averaged 39 (range 0–99; one small program did not have residents at the time).

CCC 구조에 대한 설명
Description of CCC structure

34개 프로그램 중 21개 프로그램에 CCC가 있었습니다. 22명의 참가자는 평균 5.6년(범위 1-18년) 동안 CCC 또는 이와 동등한 그룹의 의장을 맡았습니다. 위원회 구성원의 규모는 3명에서 약 25명까지 다양했지만, 많은 참가자가 참석 인원이 다양하고 전체 인원에 미치지 못한다고 설명했습니다. 회의 빈도는 [매주에서 매년까지] 다양했습니다. CCC가 있는 10개 프로그램은 레지던트 성과에 대해 논의하는 두 번째 장소로 [광범위한 교육 위원회] 또는 [전체 교수진 회의]가 있다고 설명했으며, 이러한 장소를 통해 어려움을 겪는 레지던트를 조기에 파악하거나 보다 심도 있는 논의를 할 수 있었다고 답했습니다.
Twenty-one of the 34 programs had CCCs. Twenty-two participants had chaired a CCC or equivalent group for an average of 5.6 years (range 1–18 years). Committee membership ranged in size from 3 to about 25 members, although many participants described that attendance varied and was less than the full possible membership. Meeting frequency varied from weekly to yearly. Ten programs with CCCs described second venues for discussing residents’ performance, such as a broader education committee or a general faculty meeting; these venues allowed for early identification or more in-depth discussion of struggling residents.

레지던트 평가의 특징
Characteristics of resident evaluation

분석 결과, CCC가 있는 프로그램과 없는 프로그램이 레지던트 역량 평가의 목적을 어떻게 인식하는지를 특징짓는 두 가지 주요 패러다임이 나타났습니다. 이러한 패러다임은 [문제 식별 모델]과 [발달 모델]의 원칙과 일치했습니다.

  • [문제 식별 모델]이 우세했습니다. 이 모델은 레지던트 성과 평가의 주요 목적을 어려움을 겪고 있는 소수의 레지던트를 식별하는 것으로 간주했습니다. 이 모델의 암묵적인 가정은 레지던트 프로그램에 참여하면 대부분의 레지던트가 수련이 끝날 때까지 역량과 성공을 거둘 수 있다는 것이었습니다.
  • 이와는 대조적으로 [발달 모델]은 교육을 숙달을 향한 일련의 계획된 단계로 간주했습니다. 모든 레지던트가 학습자라는 기본 오리엔테이션은 '문제' 레지던트를 선별하지 않고 레지던트의 점진적인 발전을 유도하는 데 초점을 맞추었습니다.

일부 프로그램에는 두 가지 모델의 요소가 모두 포함되어 있었습니다.

From our analysis, two major paradigms emerged that characterized how programs with and without CCCs perceived their purpose in evaluating residents’ competence. These paradigms aligned with the tenets of a problem identification model and a developmental model.

  • The problem identification model predominated. This model viewed the primary purpose of resident performance review as identifying the few struggling residents. The implicit assumption with this model was that participating in the residency program would lead most residents to competence and success by the end of training.
  • In contrast, the developmental model viewed education as a planned series of steps toward mastery. The underlying orientation that all residents were learners informed a focus on guiding residents’ progressive development, without necessarily singling out “problem” residents.

Some programs had elements of both models.

아래 결과는 [세 가지 주요 주제]와 [각 모델에 적용되는 방식]을 설명합니다. 참가자의 연구 식별 번호는 괄호 안에 예시적인 인용문과 함께 나열되어 있습니다. 주요 주제와 관련 하위 주제는 여기에 나열되어 있으며 표 1에 요약되어 있습니다.

  • (1) 레지던트 성과 데이터 사용: 다양한 도구, 임상 시스템 데이터, 비공식 데이터,
  • (2) 위원회 위원 참여: 위원회 위원의 자격, 위원회 과정의 신뢰성에 대한 기여도, 의사 결정,
  • (3) 레지던트에 대한 시사점: 위원회 검토 결과, 받은 피드백, 위험에 대처하는 방법 등이 그것입니다.

그런 다음 각 모델에 대한 성과 검토 프로세스의 효과성에 대한 참여자의 인식을 설명합니다.
The results below describe three major themes and how they apply within each model. Participants’ study identification numbers are listed in parentheses with illustrative quotations. The major themes and associated subthemes are listed here and summarized in Table 1. They are

  • (1) Use of residents’ performance data: variety of tools, clinical systems data, and informal data;
  • (2) Committee member engagement: committee members’ qualifications, contributions to the credibility of the committee process, and decision making; and
  • (3) Implications for residents: committee review consequences, feedback received, and dealing with risks.

The results then describe participants’ perceptions of the effectiveness of their performance review processes with each model.

 

입주자의 성과 데이터 사용.
Use of residents’ performance data.

레지던트의 성과 데이터는 [임상 시스템 데이터] 및 [비공식적으로 수집된 데이터]와 함께 레지던트 프로그램에서 구현된 [다양한 도구]에서 나왔습니다. 프로그램에서 다양한 평가 도구를 사용했지만, 성과 검토 프로세스를 위한 평가 데이터는 주로 감독자의 [글로벌 평가]와 [지식 시험]으로 구성되었습니다.
Residents’ performance data came from a variety of tools implemented in the residency program along with clinical systems data and informally gathered data. Although programs used a variety of assessment tools, evaluation data for the performance review process constituted primarily supervisors’ global evaluations and knowledge examinations.

[문제 식별 모델]에서 이러한 성과 데이터의 중요한 측면은 일반적으로 [낮은 점수 경고]와 같은 [이상값을 적시에 인식]하고 [임상 수퍼바이저의 구두 보고]를 포함하여 [여러 정보 출처에서 성과 문제를 확인하는 것]이었습니다. 지속적인 데이터 수집에도 불구하고 위원회 회의에서 CCC 위원은 특히 [어려움을 겪고 있는 전공의]에 대한 평가 내용을 보완하기 위한 중요한 추가 정보원으로 간주되었습니다. 따라서 [위원회 위원]은 대부분 [여러 현장에서 전공의와의 접촉을 기준으로 선정]되었습니다. 위원들은 [전공의들과의 경험]을 통해 [전공의의 역량과 수행상의 문제점을 전반적으로 파악]할 수 있었으며, 특히 [소규모 프로그램]과 [프로시저 중심 전공]처럼 [직접 관찰이 용이한 분야]에서는 더욱 그러했습니다.
With the problem identification model, valued aspects of these performance data were the timely recognition of outliers, usually as low score alerts, and the corroboration of performance problems from more than one information source, including a verbal report from a clinical supervisor. Despite ongoing data collection, CCC members were viewed as important additional sources of information at committee meetings to supplement what was written in evaluations, particularly about struggling residents. Consequently, committee members were selected in large part on the basis of their contact with residents across sites. Committee members’ experience with residents informed an overall understanding of the residents’ competence and any performance problems, particularly in small programs and procedural specialties, whose characteristics facilitated direct observation.

환자 또는 전문가 간 직원의 [사고 보고서 및 불만 사항]과 같은 [임상 시스템 데이터]는 중요한 "위험 신호" 문제 식별 메커니즘을 구성했습니다. 이를 통해 프로그램 디렉터와 CCC는 해당 레지던트에 대한 이전 슈퍼바이저의 평가와 다른 슈퍼바이저의 구두 의견 등 다른 성과 데이터를 검토한 후 개입 계획을 수립했습니다. 여러 참가자가 [교수진 및 치프 레지던트와의 복도 대화]와 [교수진의 이메일]을 통해 [비공식적으로 수집한 데이터]의 가치에 대해 설명했습니다. 이러한 정보는 "대개 [긍정적인 것이 아니라 문제에 관한 것]이었습니다."(1011).
Clinical systems data, such as incident reports and complaints from patients or interprofessional staff, constituted important “red-flag” problem identification mechanisms. These triggered program directors and CCCs to review other performance data for those residents, such as their prior supervisors’ evaluations and verbal comments from other supervisors, then to generate plans to intervene. Multiple participants described the value of the data they gathered informally through hallway conversations with faculty and chief residents and through e-mails from faculty. This information was “usually about a problem, not something that’s positive” (1011).

참가자들은 위원회 검토를 위한 [평가 데이터를 효율적으로 수집하고 종합하는 데 어려움]을 겪었으며, 이는 [발달 모델]을 구현하는 데 방해가 되는 것 같다고 설명했습니다. 한 참가자는 [레지던트의 진행 상황을 특성화하기 위해 정보를 효율적으로 종합하는 것이 어렵다]고 설명했습니다:
Participants described challenges with efficiently gathering and synthesizing evaluation data for committee review, which seemed to impede their ability to implement the developmental model. One described the challenge of synthesizing information efficiently to characterize a resident’s progress:

지금 데이터를 수집하는 데 너무 오래 걸리고...... 예를 들어, 레지던트가 발달적으로 어디에 있는지, 임상 역량과 임상 독립성을 달성하는 데 있어 어디에 있는지 생각하거나 기록할 수 없습니다. (0901)
Our efficiency with gathering the data right now, it takes way too long.… I can’t, for example, think about or record in it where they are developmentally, or where they are on achieving clinical competence and clinical independence. (0901)

[여러 출처의 피드백, 동료 평가, 직접 관찰한 술기] 등 [다양한 평가 도구]가 널리 사용되고 있음에도 불구하고, 대부분의 참가자들은 [이러한 데이터를 사용하여 각 레지던트의 발달 궤적을 특성화하지 않았습니다]. [임상 시스템 위험 신호 도구]나 [비공식적으로 수집한 데이터]는 [성과 검토의 발달 모델]을 설명하는 맥락에서 언급되지 않았습니다. 일부 참가자는 [발달 모델]의 기초가 될 수 있는 레지던트의 수련 연도에 따른 성과 기대치 또는 이정표를 설명했습니다.
Despite the widespread use of multiple assessment tools, such as for multisource feedback, peer evaluations, and directly observed skills, most participants did not use these data to characterize each resident’s developmental trajectory. Neither clinical systems red-flag tools nor informally gathered data were mentioned in the context of informing a developmental model of performance review. Some participants did describe performance expectations or milestones based on the resident’s year of training that could serve as the foundation for the developmental model.

위원회 위원 참여.
Committee member engagement.

프로그램 디렉터들은 [위원회 위원의 자격]이 성과 검토 프로세스에 신뢰성을 더하고 레지던트의 승진에 대한 의사 결정에 기여할 수 있다고 인식했습니다. 21개 프로그램 중 14개 프로그램에서 [CCC 위원]은 일반적으로 [프로그램 목표, 목적 또는 이정표를 배포하는 방식]으로 [위원회 역할에 대한 교육]을 받았습니다. 일부는 레지던트 평가에 관한 [연례 또는 격년 교수진 개발 세션]을 개최했습니다. 참가자들은 어려움을 겪는 레지던트에 대한 더 많은 [의견이 공유]되고, 프로그램 책임자가 [어려운 결정을 내릴 때 지원]을 받으며, [상충되는 정보가 종종 조정]되기 때문에 그룹 성과 평가가 신뢰할 수 있다고 답했습니다.
Program directors perceived that committee members’ qualifications added credibility to the performance review process and enabled them to contribute to the decision making about residents’ advancement. In 14 of the 21 programs, CCC members received training for their committee roles, typically via the distribution of program goals, objectives, or milestones. A few held annual or biannual faculty development sessions on assessing residents. Participants opined that group performance review was credible because more opinions about struggling residents were shared, the program director was supported in making difficult decisions, and conflicting information was often reconciled.

프로그램 전반에서 [문제 식별 모델]은 교수진이 [전문가, 전담 교육자 및 임상 감독자]로 인식되는 지위를 통해 교수진의 자격에 크게 의존하여 [성과 검토 책임]에 대비했습니다.
Across programs, the problem identification model relied heavily on faculty members’ qualifications via their perceived status as expert, dedicated educators and clinical supervisors to prepare them for their performance review responsibilities.

교수진들은 평가 전략이 무엇인지, 어떻게 사용하는지, 그리고 점점 더 많은 위원회에 참석하면서 이해하게 되지만 구체적인 교육은 없습니다. (5817)
It’s both kind of learn as they go and then understanding of what our assessment strategies are, how we use them and they pick it up as they attend more and more committees, but there isn’t specific training. (5817)

[레지던트를 비교하는 성과 기준]은 [레지던트 성과에 대한 교수진의 일반적인 지식], 즉 [규범적 기준]이었습니다. 레지던트에 대한 의사 결정은 [일반적으로 체계적인 심의나 투표]를 통해 결정되기보다는 [이분법적(적절하게 수행했는지 여부)]이고 [추론]에 의해 이루어졌습니다. 특정 [전공의에 대한 우려가 없다]는 것은 [승진을 위한 준비가 되어 있다]는 의미로 받아들여졌고, [의사 결정]은 대개 [어려움을 겪고 있는 전공의]에 초점을 맞추었습니다. 그 결과, CCC와 프로그램 디렉터는 대다수 전공의에 대한 자세한 데이터를 논의하거나 검토하지 않는 경우가 많았습니다. 문제 파악에 초점을 맞춘 의사 결정은 매우 효율적이라고 설명했습니다: 레지던트 한 명당 "보통 1~2분 정도 걸린다"(0771), "다른 교수진에게는 매우 쉽다"(4399)는 응답이 있었습니다. 참가자들은 다양한 성과 등급을 가진 레지던트를 돕는 것이 어렵다는 것을 알았고, 위원회 위원들이 직접 경험에 대해 논의하거나 다른 임상 교수진에게 연락하여 추가 데이터 수집을 통해 이러한 상황을 관리했습니다.
The performance standard against which residents were compared was these faculty members’ general knowledge of resident performance—their normative frame of reference. Decision making about residents was commonly dichotomous (performing adequately or not) and inferred rather than determined by systematic deliberation or voting. The absence of concerns regarding a particular resident was taken to imply readiness for advancement, and decision making usually focused on struggling residents. Consequently, CCCs and program directors often did not discuss or review detailed data regarding the majority of residents. Decision making focused on problem identification was described as very efficient: “It usually takes a minute or two” per resident (0771) and “very easy for the other faculty” (4399). Participants found it difficult to help residents with variable performance ratings, and they managed these situations through additional data gathering, either through committee members’ discussing their own direct experience or by contacting other clinical faculty.

드물게 참가자들은 레지던트의 진척도를 분석하기 위해 [발달 모델]을 사용했다고 설명했습니다. 구체적인 교수진 교육에 대해서는 설명하지 않았습니다. 일부 CCC는 [발달 모델 사용]을 뒷받침할 수 있는 [이정표 또는 단계별 진전 기대치]를 적용하기 시작했습니다. 4명의 참가자는 [모든 레지던트의 성과 데이터를 공유]하여 CCC 구성원의 참여를 유도했다고 구체적으로 설명했습니다. 일부는 의사 결정을 위한 마일스톤과 전공의의 성과를 비교하는 데 따르는 [가치와 업무량], 그리고 위원회 [결정의 신뢰성을 실제로 향상시킬 수 있을지에 대해 우려]를 표명했습니다: "더 많은 목록과 체크리스트, 요구 사항으로 이미 이 일을 정말 잘 해내고 있는 교수진의 사기를 꺾고 싶지 않습니다."(0370).
Infrequently, participants described using a developmental model for analyzing residents’ progress. They did not describe specific faculty training. Some with CCCs were beginning to apply milestones or stepwise expectations for progress that would support the use of a developmental model. Four participants specifically described engaging CCC members by sharing performance data for all residents. Some expressed trepidation about the value and workload involved with comparing residents’ performance against milestones for decision making and whether it would really enhance the credibility of the committee decisions: “I just don’t want to dampen the spirit of my faculty that do this really well already with more lists and checklists and demands” (0370).

전공의를 위한 시사점.
Implications for residents.

성과 검토 프로세스의 시사점에는 위원회가 모든 전공의에 대해 논의했는지, 피드백이 어떻게 전달되었는지, 전공의에 대한 잠재적 위험이 어디에 존재하는지 등이 포함되었습니다. 16개 위원회는 매 회의마다 모든 전공의를 간략하게나마 검토했지만, 다른 위원회는 어려움을 겪고 있는 전공의에 대해서만 논의했습니다. 모든 전공의를 심층적으로 검토한 프로그램의 한 참가자는 다음과 같이 설명했습니다:
The implications of the performance review process included whether committees discussed all residents, how feedback was delivered, and where potential risks to residents existed. Sixteen committees reviewed all residents at least briefly at each meeting; others discussed only struggling residents. One participant from a program with a more in-depth review of all residents explained:

마지막으로 만난 이후 지난 6개월 동안의 점수, 평가 점수 및 의견을 강의실에서 각 전공의별로 투사한 다음 각 전공의에 대해 개별적으로 논의합니다. (4399)
Their scores, their evaluation scores and the comments from the last six months since the last time we met are projected for each resident in the lecture room and then we discuss each resident individually. (4399)

거의 모든 참가자가 회의 후 전공의들에게 피드백을 제공한다고 답했으며, 보통 2년에 한 번씩 피드백을 제공한다고 답했습니다.
Nearly all participants described providing feedback to residents after meetings, usually biannually.

[문제 식별 모델]은 대부분의 성과 검토 시간을 [어려움을 겪고 있는 레지던트]에게 할당했습니다: "우리가 이야기한 사람들 중 완벽하게 잘하고 있는 사례는 없습니다."(1582). CCC는 평가 도구나 위원회 위원의 개인적 지식으로 파악한 성과가 우수한 레지던트에 대해 논의하여 상, 펠로우십 또는 교수직 후보로 추천하는 것을 제안하기도 했습니다. [문제 파악에 중점을 둔 프로그램]에서는 레지던트에게 [피드백 보고서]를 보내거나, 프로그램 디렉터와 함께 레지던트를 위한 [피드백 미팅]을 예약하는 경우도 있었고, 피드백을 어떻게 활용할지 결정할 [책임을 레지던트에게 떠넘기는 경우]도 있었습니다. 이러한 피드백 회의에서는 [성장에 필요한 부분에 최소한의 시간만 할당]했는데, 한 참가자는 다음과 같이 전공의에게 피드백을 주는 것에 대해 설명했습니다:
The problem identification model allocated most performance review time to struggling residents: “There aren’t examples of people we’ve talked about who were doing just perfectly well” (1582). CCCs sometimes discussed high-performing residents, identified by evaluation tools or committee members’ personal knowledge, to suggest nominating them for awards, fellowships, or faculty positions. Programs oriented toward problem identification described sending feedback reports to residents; some scheduled feedback meetings for residents with the program director, whereas others relegated the responsibility for figuring out how to use the feedback to the residents. These feedback meetings allocated minimal time on areas for growth; one participant described giving a resident feedback as follows:

자신에 관해서는 잘하고 있다고 할 말이 별로 없습니다. 저는 그저 그들이 여전히 잘하고 있다고 격려할 뿐입니다. (2800) 
Regarding themselves, I just don’t have much to say, that they’re doing a good job. I just encourage them to still do a good job. (2800)

여러 참가자가 성과 평가가 [편향된 프로세스]가 될 수 있기 때문에 위험하다고 인식했습니다. 이들은 전공의에게 도움이 되는 피드백의 내용이 아닌 대규모 또는 대표 위원회 내에서 성과 정보를 공유(전달)할 경우, 위원회 위원들이 전공의에 대한 [해로운 정보를 알게 되면 전공의에게 해를 끼칠 수 있다는 우려]를 표명했습니다. 임상 수퍼바이저가 성과 우려 사항을 서면으로 [문서화하는 것을 꺼린다]는 사실을 인지한 프로그램 디렉터들은 [구두 또는 이메일로 우려 사항을 보고하거나 익명의 레지던트 성과 리뷰]를 사용했습니다. 일부 프로그램 디렉터들은 레지던트들이 피드백을 받기 위해 자신들을 만나는 것을 부담스러워한다는 것을 감지했습니다. 
Multiple participants perceived risks with performance review because it could be a potentially biased process. They expressed apprehension that sharing performance information (forward-feeding) within large or representative committees, rather than serving as the content of helpful feedback to residents, could harm residents if committee members learned damaging information about their trainees. Perceiving clinical supervisors’ reluctance to document performance concerns in writing, program directors invited verbal or e-mail reports of concerns or used anonymous resident performance reviews. Some program directors sensed that residents were nervous to meet with them for feedback.

[발달 모델]에서, [이정표]는 성과 검토를 안내하고 여러 역량 영역에서 전공의의 상대적 강점과 약점을 파악하도록 했습니다. [피드백 토론]에서는 각 레지던트의 개선이 필요한 영역을 파악하는 데 우선순위를 두었습니다. 한 참가자는 이렇게 설명했습니다: 
With a developmental model, milestones guided performance review and the identification of residents’ relative strengths and weaknesses across multiple domains of competence. Feedback discussions prioritized the identification of areas for improvement for each resident. One participant explained:

이러한 벤치마크는 레지던트의 목표와 벤치마크가 무엇인지에 대해 레지던트, 그리고 교수진과 매우 투명하게 소통할 수 있게 해주기 때문에 매우 유용합니다. (1570) 
These benchmarks are great because it lets us have a very transparent communication with our residents as to what the goals and benchmarks of residency are and then as well as with the faculty. (1570)

일부 프로그램에서는 [레지던트 어드바이저를 CCC 회의에 참석]시켜, 보다 심도 있는 피드백과 학습 계획을 제공하기도 했습니다. 피드백의 유용성을 높이기 위한 또 다른 접근 방식은 [각 레지던트의 성과를 맥락화]하기 위해, 프로그램 내 [다른 레지던트에 대한 집계 데이터를 제공]하는 것이었습니다. [발달 모델]은 레지던트의 [점진적인 성숙]이 예상되고, [모든 레지던트가 성장할 수 있는 영역이 있기 때문에], 성과 검토의 위험에 대한 [우려를 완화]하는 것 같았습니다. 
Some programs enlisted resident advisors who attended the CCC meetings to inform more in-depth feedback and learning planning. Another approach to enhance feedback usefulness was providing aggregate data about the other residents in the program to contextualize each resident’s performance. The developmental model seemed to mitigate concerns about the risks of performance review because residents’ progressive maturation was expected and all residents would have areas for growth.

성과 검토의 효과에 대한 증거.
Evidence of the effectiveness of performance review.

거의 모든 참가자가 [성과 검토 프로세스에 대해 높은 자신감]을 나타냈습니다. 그 근거는 '최종 결과물'(레지던트)이 [우수하다는 느낌]에 근거한 [효과성에 대한 게슈탈트적 인상]부터 [모든 레지던트를 신중하게 평가하는 엄격한 데이터 기반 프로세스]라는 흔하지 않은 설명까지 다양했습니다. 이러한 자신감은 교수진 개개인의 경험과 헌신, 그리고 그룹 전체의 노력에서 비롯된 것이었습니다. 일부 참가자는 프로세스가 "적절했다" 또는 "80%는 좋았다"고 말하는 등 긍정적인 확신을 양면성으로 표현했으며, 한 참가자는 "누군가 더 좋은 아이디어를 내놓지 않는 한 이 정도면 충분하다고 생각한다"고 말했습니다(7415).
Almost all participants expressed high confidence in their performance review processes. The grounds they cited varied, from gestalt impressions of effectiveness based on a sense that their “end product” (the trainees) was excellent, to the less common description of a rigorous, data-driven process in which every resident was carefully assessed. This confidence was derived from the experiences and commitment of individual faculty members and from the group as a whole. Some participants qualified their positive convictions with ambivalence, such as saying that the process was “adequate” or “80% good”; one said, “I feel reasonably well, I guess, as well as I could, unless someone comes up with some better ideas” (7415).

일부 응답자는 어려움을 겪고 있는 전공의에게는 효과적이지만 다른 전공의에게는 그렇지 않을 수도 있다는 우려를 표명했습니다. 한 명은 전공의의 역량에 대한 궤적에 대해 불확실성을 표명했습니다:
Some shared misgivings that their processes were effective for struggling residents but perhaps not for other residents. One expressed uncertainty about residents’ trajectory toward competence:

누군가 저에게 "이 2년차 레지던트는 [특정 임상 활동을] 할 수 있는 위치에 있나요?"라고 묻는다면... 모든 2년차 레지던트에게 대답할 수 있었으면 하는 질문입니다. (3651)
If someone were to ask me, “Is this second-year resident in a position where they can [do this particular clinical activity]?”… That’s a question I’d like to be able to answer for every second-year resident. (3651)

그럼에도 불구하고 이 참가자는 대부분의 다른 참가자들과 마찬가지로 [모든 레지던트가 졸업 때가 되면 필요한 활동을 수행할 수 있으며] [펠로우십과 고용주로부터 칭찬을 받는다]는 데 동의했습니다.
Nonetheless, this participant concurred with most others that all residents could perform the necessary activities by graduation and were praised by fellowships and employers.

향후 방향.
Future directions.

레지던트 성과 평가에 [예상되는 변화]에 대한 질문에, 참가자들은 기존 위원회를 추가하거나 변경하는 것이 [단순히 요건을 충족하는 정도]와 [가치를 더하는 정도]에 대해 다양한 의견을 제시했습니다. 일부는 현재의 위원회가 이름만 바꾸거나 "이름만" 문서를 제공하는 것만으로도 ACGME의 기대치를 준수하고 있음을 입증할 수 있을 것이라고 예측한 반면, 더 효과적인 업무는 공식적인 레지던트 성과 검토 외에서 계속 이루어질 것이라고 예상했습니다. 참가자들은 마일스톤이 있는 성과 검토를 위해서는 데이터 캡처, 종합 및 프레젠테이션을 위한 더 많은 시간과 더 나은 전자 시스템이 필요할 것이라고 예측했습니다. 마일스톤이 글로벌 평가나 전반적인 역량에 기반한 리뷰보다 더 세분화되고 구체적일 것이라는 기대가 많았습니다. 교수진이 마일스톤을 어떻게 이해할지, 마일스톤 간 성과 불일치를 어떻게 관리할지, 새로운 시스템이 현재 절차보다 더 나은지 등이 불확실성이라고 답했습니다. 
When asked about anticipated changes to their resident performance review, participants’ opinions varied about the degree to which adding or changing an existing committee would simply satisfy requirements versus add value. Some predicted that the current committee would demonstrate adherence to ACGME expectations just by changing its name or providing documentation “in name only,” while the more effective work would continue to occur outside of formal resident performance review. Participants predicted that performance review with milestones would necessitate more time and better electronic systems for data capture, synthesis, and presentation. Many were hopeful that milestones would provide more granularity and specificity than reviews based on global evaluations or overarching competencies. Common uncertainties included how faculty would understand milestones, how discrepant performance across milestones would be managed, and whether the new system would be better than current procedures.

토론
Discussion

이번 연구 결과는 레지던트 프로그램이 광범위한 데이터 수집과 정보 종합에 대한 다양한 접근 방식을 통해 [레지던트 성과 평가에 참여하는 방식]을 보여줍니다. 분석 결과, 성과 검토 프로세스를 이끄는 두 가지 패러다임, 즉 [문제 식별 모델][발달 모델]이 확인되었습니다. [문제 식별 모델]에 따른 레지던트의 발전에 대한 의사 결정은 대부분의 레지던트가 [수련이 끝날 때까지 성공할 것이라는 가정과 함께 암묵적]으로 이루어지며, 이는 의학교육의 [체류 시간 또는 차 우려내기 모델]과 일치합니다.18,19 대부분의 프로그램은 발달적 접근법보다는 [문제 식별 접근법]을 취하고 있으며, 마일스톤 기반 평가 및 보고에 대한 새로운 요건이 요구되는 이 중요한 시기에 마일스톤이 어떻게 유리하게 운영될 것인지에 대해 의문을 제기합니다.19 또한 우리의 연구 결과는 NAS의 목표인 발달적 모델이 개별화된 역량 경로를 어떻게 지원할지에 대한 레지던트 프로그램 디렉터들의 질문, 우려 및 열망을 드러내고 있습니다.
Our findings illustrate the ways that residency programs engage in resident performance review through broad data collection and varying approaches to information synthesis. Our analyses identified two paradigms guiding performance review processes—a problem identification model and a developmental model. Decision making about residents’ advancement under the problem identification model is implicit, with the assumption that most residents will become successful by the end of training, consistent with the dwell time or tea-steeping model of medical education.18,19 Most programs take a problem identification approach rather than a developmental approach, and they question how milestones will be advantageously operationalized at this pivotal time of new requirements for milestones-based assessment and reporting.19 Our findings also reveal the questions, concerns, and aspirations that residency program directors harbor about how the developmental model—the goal of the NAS—will support individualized paths to competence.

이 두 가지 모델은 [품질 보증]과 [품질 개선]의 원칙을 잘 보여줍니다. [문제 식별 모델]은 어려움을 겪고 있는 전공의를 식별하여 [품질 보증]의 목적을 달성합니다. 이 모델이 전공의에게 미치는 위험에 대한 프로그램 책임자의 설명은 [품질 보증]을 [이상값을 식별하는 데 필요한 과정]으로 해석하는 것과 일치하지만, 잠재적으로 [징벌적]이며 [방어성을 유발]하기 쉽습니다.20 이 모델에서 [전공의의 최선의 행동 방침]은 [문제를 일으키지 않는 것]이며, 사소한 성과 결함이 성과 [문제로 분류되는 수준까지 올라가지 않는 한 용인될 수 있다고 추론]할 수 있습니다. 전공의가 진정으로 [학습을 위한 성과 피드백]을 원하더라도, [무능해 보이거나 감독자와의 관계가 위태로워질 것을 두려워]할 수 있습니다.21 [형성적 피드백이 고위험 총괄적 정보로 인식]되는 이러한 시나리오는 모든 레지던트가 더 나아지기 위한 노력을 유도하는 도구로서 [마일스톤의 의도된 가치를 위태롭게 합니다]. 

These two models exemplify the tenets of quality assurance and quality improvement. The problem identification model serves a quality assurance purpose by identifying struggling residents. Program directors’ descriptions of the risks of this model for residents are consistent with interpretations of quality assurance as a necessary process to identify outliers, yet also potentially punitive and prone to generating defensiveness.20 In this model, residents may infer that the best course of action is to stay out of trouble and that minor performance deficits are tolerated unless they rise to the level of being labeled performance concerns. Even with a genuine desire for performance feedback to guide learning, trainees can fear appearing incompetent or jeopardizing relationships with supervisors.21 This scenario, in which formative feedback is perceived as high-stakes summative information, jeopardizes the intended value of the milestones as a tool to guide all residents’ efforts to become better.

성과 검토의 [발달 모델]은, [마일스톤 기반 평가]를 통합하여, [지속적인 개선을 위한 전략]을 능동적으로 통합하는 [품질 개선]과 일치합니다. 환자 치료의 [품질 개선]에 중점을 두면서 의료 전문가들이 학습하고 행동을 변화시켜야 했던 것처럼, 레지던트 성과 평가의 [발달 모델]도 마찬가지로 [문화와 절차를 변화시켜야 합니다]. 이 모델에 따른 평가 프로세스는 [학습자 중심적]이며, [피드백 및 코칭]을 통해 독립적인 진료 역량을 갖추기 위해 [레지던트가 스스로 개선]할 수 있도록 [동기와 기술을 부여]하는 것을 목표로 합니다.22,23 

The developmental model of performance review, by incorporating milestones-based assessment, aligns with quality improvement, which proactively incorporates strategies for continuous improvement. Just as the emphasis on quality improvement in patient care has required medical professionals to learn and change their behaviors, the developmental model of resident performance review similarly requires changing culture and procedures. Assessment processes under this model aim to be learner-centered and to empower residents with the motivations and skills, supported with feedback and coaching, to self-improve toward competence for independent practice.22,23 

레지던트 프로그램에서 [이 두 가지 모델이 공존]할 수 있지만, 일부 프로그램 디렉터, 특히 성과가 우수한 레지던트가 있는 프로그램 디렉터는 벤치마크를 충족하지 못하는 [소수의 레지던트]를 위해 집중적인 이정표 기반 지원 또는 교정을 제공하기 위해 자원을 우선순위에 둘 수 있습니다.
These two models may coexist in residency programs, although it is possible that some program directors, particularly those with high-performing residents, may prioritize resources to provide intensive, milestones-based support or remediation for the small number of residents who do not meet the benchmarks.

연구 결과에 따르면 프로그램은 레지던트 성과 검토 및 역량 결정을 위해 [문제 식별 모델] 및 [발달 모델]의 요소를 모두 통합할 수 있습니다.

  • 예를 들어, [발달적 접근 방식]은 [식별된 문제에 대한 해결책]을 알려줄 수 있습니다.
  • 그러나 [문제 식별 모델]은 [잠재적으로 위험한 '문제' 레지던트]를 걸러내어 [즉각적인 환자 안전을 강조]하는 반면,
  • [발달 모델]은 개별 레지던트의 [발달과 경력 전반에 걸쳐 제공]되는 [환자 치료의 질을 강조]하는 등 각 모델마다 강조하는 바가 다릅니다.

[마일스톤]은 [명확한 성과 기대치]를 바탕으로 대화를 진행하고, [성과 이상값의 근본 원인을 규명함]으로써 [문제 식별 모델을 향상]시킬 수 있습니다. 프로그램 디렉터에 대한 경고와 같은 [문제 식별 시스템]은 교수진이 상황을 조사하는 데 시간을 소비하는 반면, [역량 및 마일스톤 기반 교육]에서 구상하는 [학습자 중심의 오리엔테이션]은 [자신의 성장 영역을 사전에 파악하고 해결]하는 등, 현재 교수진이 수행하는 일부 업무에 [레지던트가 참여]할 수 있도록 할 수 있습니다.4 앞으로 NAS는 CCC가 마일스톤을 사용하여 [각 레지던트의 진행 상황을 평가하는 개발 전략]을 수용하도록 의무화했으며, 조사 결과에 따르면 프로그램 디렉터와 CCC는 이 새로운 의무화된 개발 접근 방식을 구현하는 방법에 대한 지침을 통해 혜택을 받을 수 있을 것으로 보입니다.
Our findings show that programs can incorporate elements of both the problem identification and developmental models for resident performance review and determinations of competence.

  • For example, a developmental approach can inform solutions to identified problems.
  • However, each model highlights a particular emphasis—
    • the problem identification model emphasizes immediate patient safety (by attempting to weed out potentially dangerous “problem” residents),
    • whereas the developmental model emphasizes individual residents’ development and the quality of patient care provided throughout their careers.

Milestones could enhance the problem identification model by grounding conversations in clear performance expectations and elucidating underlying etiologies of performance outliers. Whereas problem identification systems, such as alerts to program directors, consume faculty time as they investigate the situation, a more learner-centered orientation as is envisioned with competency- and milestones-based education may engage residents in doing some of the work currently done by their faculty, such as proactively identifying and addressing their own areas for growth.4 Going forward, the NAS has mandated that CCCs embrace the developmental strategy to evaluate each resident’s progress using milestones, and our findings suggest that program directors and CCCs will benefit from guidance on how to implement this new mandated developmental approach.

참가자들은 [전공의의 성과를 평가하는 데 필요한 시간]에 대해 우려를 표명했으며, [발달 모델 하에서는 더 많은 부담]이 될 수 있다고 예상했습니다. 그러나 [문제 식별 모델에도 리소스가 필요]하며, 프로그램은 [일상적인 평가를 보완하기 위해 비공식 데이터를 수집]하기 위해 현재 CCC 내부 및 외부에서 수행되는 작업을 과소평가할 수 있습니다. 참가자들의 프로그램에서는 일반적으로 위원회가 [평균적 전공의 및 고성과 전공의를 검토할 수 있는 시간이 제한적이거나 전혀 할당되지 않았습니다]. 이러한 전공의를 검토하는 데 이상적인 시간은 알 수 없지만 현재보다 더 많은 시간을 할애할 가능성이 높습니다. 그럼에도 불구하고 [이상적인 관행과 효율성의 균형]을 맞출 필요는 계속 있을 것입니다. 평가자와 위원회 위원이 강력한 정보 기술의 도움을 받아 마일스톤을 효과적으로 이해하고 적용한다면 마일스톤을 통해 보다 효율적으로 판단에 도달할 수 있습니다.24-26 참여 프로그램에서 [교수진의 CCC 참여를 준비하기 위해 실시한 교수진 개발의 양이 적다는 것]은 위원회가 효과적인 집단 의사 결정이라는 목표를 달성하기 위해 교수진 개발도 강화해야 함을 시사합니다.27,28 
Participants expressed concern about the time required to assess residents’ performance and anticipated that it could be more onerous under the developmental model. However, the problem identification model also requires resources, and programs may underappreciate the work currently done within and outside of CCCs to collect informal data to supplement routine evaluations. Our participants’ programs typically allocated limited or no time for committees to review average and high-performing residents. Although the ideal amount of time for reviewing these residents is unknown, it is likely more than currently occurs. Nonetheless, there will continue to be a need to balance ideal practices with efficiency. Milestones may enable evaluators and committee members to reach judgments more efficiently if they understand and apply the milestones effectively with the aid of robust information technology.24–26 The modest amount of faculty development that the participating programs conducted to prepare faculty for CCC participation suggests that augmented faculty development will also be needed for committees to accomplish their goals of effective group decision making.27,28

참가자들의 경험과 프로세스의 효과성에 대한 인식을 검토하고 성과 검토가 레지던트의 역량 개발을 지원하는 방식에 대한 분석을 통해 NAS의 목표를 지원할 수 있는 관행이 밝혀졌습니다. [CCC 위원]은 [마일스톤 및 역량을 구성하는 요소에 대한 정의]를 포함하여 [성과 검토 기준]을 가지고 있어야 합니다. 임상 감독자와 레지던트는 [성과 마일스톤과 그 적용 방법]을 이해해야 합니다. CCC는 논의 전에 각 레지던트의 성과 데이터를 확인해야 하며, 프로그램 내 모든 레지던트의 성과를 검토해야 합니다. 전체 위원회 회의 전에 소규모 그룹이 성과 정보를 사전 검토하고 종합하는 것과 마찬가지로, 여러 데이터 소스를 적시에 데이터 종합과 함께 사용하면 위원회 설정의 효율성을 높일 수 있습니다. 각 레지던트의 역량을 향한 궤적을 촉진하기 위해 위원회는 [이전 회의에서 중점 또는 관심 분야를 재검토]하여 시간 경과에 따른 진행 상황을 검토해야 합니다. [레지던트의 어드바이저]를 참여시키면, 수동적으로 피드백을 보내는 대신, [레지던트와 함께 평가에 대해 논의]함으로써 레지던트가 학습의 다음 단계를 파악하는 데 도움이 될 수 있습니다. 
Our review of participants’ experiences and their perceptions of the effectiveness of their processes, as well as our analysis of the ways that performance review supports residents’ development of competence, revealed practices that would support the aims of the NAS. CCC members must have criteria for performance review that include milestones and define what constitutes competence. Clinical supervisors and residents themselves need to understand the performance milestones and how they are applied. CCCs should view performance data for each resident before their discussions, and they should review the performance of all residents in the program. The use of multiple data sources coupled with timely data synthesis facilitates efficiency in the committee setting, as does pre-review and the synthesis of performance information by a small group prior to a full committee meeting. To facilitate each resident’s trajectory toward competence, committees should review progress over time by revisiting areas of focus or concern from prior meetings. Enlisting a resident’s advisor to discuss evaluations with her rather than just sending feedback passively can help the resident to identify next steps in her learning.

이 연구에는 한계가 있습니다. 참가자들은 한 지역에 있는 5개 공공 기관의 프로그램 디렉터들이었기 때문에 연구 결과의 일반화 가능성이 제한될 수 있습니다. 그러나 다양한 분야의 프로그램 디렉터가 다수 참여했습니다. 또한 역량 검토에 대한 질문으로 인해 참가자들이 자신의 최고 또는 이상적인 관행을 소개하도록 유도했을 수 있으며, CCC의 절차를 확인하기 위해 관찰하지는 않았습니다. 마지막으로, 본 연구는 성과 검토 요건이 변화하는 시기에 이루어졌으며 참가자들의 관행은 계속 발전할 수 있지만, 본 연구 결과에 따르면 프로그램에서 개발 모델을 더 많이 채택하는 것은 어려울 수 있습니다. 
This study has limitations. Participants were program directors at five public institutions in one geographic region, potentially limiting the generalizability of our findings. However, a large number of program directors participated across specialties. In addition, our questions about competence review may have steered participants to showcase their best or idealized practices, and we did not observe the CCCs to confirm their procedures. Finally, our study occurred during a time of change in performance review requirements, and participants’ practices may continue to evolve, although our findings suggest that greater adoption of the developmental model may be difficult for programs.

역량 기반 의학교육과 마일스톤 기반 평가의 등장으로 의학교육자들은 수련의의 성과를 평가할 수 있는 의미 있는 전략을 찾아야 하는 과제를 안고 있습니다. 본 연구에 참여한 레지던트 프로그램은 성과 이상치를 식별하기 위해 기능적 전략을 사용했지만, 많은 레지던트들이 모든 레지던트의 발달 궤적을 이해하는 데 어려움을 겪고 있습니다. 이 두 가지 패러다임(문제 식별 모델과 발달 모델)의 불안정한 공존[CCC가 역량을 향한 개별 경로를 지원한다는 비전]을 달성하기 위해서는 다음이 필요하다는 것을 시사합니다. 

  • 성과 데이터를 관리하고 종합하는 정보 시스템,
  • CCC 성과 검토의 목적에 대한 명확한 이해,
  • 레지던트에 대한 건설적인 피드백을 환영하는 문화

이러한 요소들은 레지던트의 독립적인 진료 준비를 보장하고 GME 시스템의 공공 및 교육적 책임에 대한 의무를 이행할 수 있도록 프로그램을 강화할 수 있습니다.

The emergence of competency-based medical education and milestones-based assessment challenges medical educators to find meaningful strategies to assess trainees’ performance. The residency programs in our study used functional strategies for identifying performance outliers, yet many struggle to understand the trajectory of all residents’ development. The uneasy coexistence of these two paradigms (the problem identification model and the developmental model) suggests that, for CCCs to fulfill the vision of supporting individual paths toward competence,

  • information systems to manage and synthesize performance data,
  • clear understanding of the purpose of CCC performance review, and
  • a culture that welcomes constructive feedback to residents
    are needed.

These ingredients could empower programs to ensure their residents’ readiness for independent practice and fulfill their obligation for public and educational accountability of the GME system.

 


Acad Med. 2015 Aug;90(8):1084-92. doi: 10.1097/ACM.0000000000000736.

Reviewing residents' competence: a qualitative study of the role of clinical competency committees in performance assessment

Affiliations collapse

1K.E. Hauer is professor, Department of Medicine, University of California, San Francisco, School of Medicine, San Francisco, California. B. Chesluk is clinical research associate, Evaluation, Research, and Development, American Board of Internal Medicine, Philadelphia, Pennsylvania. W. Iobst is vice president for academic and clinical affairs and vice dean, Commonwealth Medical College, Scranton, Pennsylvania. E. Holmboe is senior vice president, Accreditation Council for Graduate Medical Education, Chicago, Illinois, and adjunct professor of medicine, Yale School of Medicine, New Haven, Connecticut. R.B. Baron is professor of medicine and associate dean for graduate and continuing medical education, Division of General Internal Medicine, Department of Medicine, University of California, San Francisco, School of Medicine, San Francisco, California. C.K. Boscardin is associate professor, Department of Medicine, University of California, San Francisco, School of Medicine, San Francisco, California. O. ten Cate is professor of medical education and director, Center for Research and Development of Education, University Medical Center Utrecht, Utrecht, The Netherlands. P.S. O'Sullivan is professor of medicine and director of research and development in medical education, Office of Medical Education, University of California, San Francisco, School of Medicine, San Francisco, California.

PMID: 25901876

DOI: 10.1097/ACM.0000000000000736

Abstract

Purpose: Clinical competency committees (CCCs) are now required in graduate medical education. This study examined how residency programs understand and operationalize this mandate for resident performance review.

Method: In 2013, the investigators conducted semistructured interviews with 34 residency program directors at five public institutions in California, asking about each institution's CCCs and resident performance review processes. They used conventional content analysis to identify major themes from the verbatim interview transcripts.

Results: The purpose of resident performance review at all institutions was oriented toward one of two paradigms: a problem identification model, which predominated; or a developmental model. The problem identification model, which focused on identifying and addressing performance concerns, used performance data such as red-flag alerts and informal information shared with program directors to identify struggling residents.In the developmental model, the timely acquisition and synthesis of data to inform each resident's developmental trajectory was challenging. Participants highly valued CCC members' expertise as educators to corroborate the identification of struggling residents and to enhance credibility of the committee's outcomes. Training in applying the milestones to the CCC's work was minimal.Participants were highly committed to performance review and perceived the current process as adequate for struggling residents but potentially not for others.

Conclusions: Institutions orient resident performance review toward problem identification; a developmental approach is uncommon. Clarifying the purpose of resident performance review and employing efficient information systems that synthesize performance data and engage residents and faculty in purposeful feedback discussions could enable the meaningful implementation of milestones-based assessment.

임상실습에서 과락-실패를 유발하는 교수역할특성 (Med Educ, 2022)
Role of faculty characteristics in failing to fail in clinical clerkships
Jennifer L. Swails1 | Meghana A. Gadgil2,3 | Heath Goodrum4 | Resmi Gupta5 |
Mohammad H. Rahbar5,6 | Elmer V. Bernstam1,4

 

 

1 소개
1 INTRODUCTION


CBME(역량 기반 의료 교육)는 학생들이 진급을 하기 전에 숙련도를 입증하도록 요구함으로써 환자의 안전을 증진시킨다. 이와 같이 중요한 사건 보고는 의과대학에서 시작되어, 성과가 저조한 미래의 의사를 식별하고 임상 치료에 영향을 미치기 전에 개선할 수 있는 기회를 제공함으로써 환자를 보호한다. 또한 의과대학 평가는 전공의 성공의 중요한 예측요인으로 간주되어 전공의 선정과정에서 가중치를 부여하고 있다. 
Competency-based medical education (CBME) promotes patient safety by requiring students to demonstrate proficiency before they can progress. In this way, critical event reporting begins in medical school, protecting patients by identifying underperforming future physicians and allowing them the opportunity to improve before impacting clinical care.1 Furthermore, medical school evaluations are considered an important predictor of residency success and are thus weighted heavily in the residency selection process.2-4

의학 교육과 경력 개발에서 중요한 역할에도 불구하고, 의대생 임상실습 등급 보고는 사용된 등급 척도에 따라 기관마다 크게 다르다. 평가는 학생의 성별과 인종에 따라 영향력에 취약할 수 있다. 게다가, 임상실습 책임교수 조사 데이터는 등급 인플레이션의 지속적인 국가 패턴을 시사하지만, 이에 대한 명확한 설명은 존재하지 않는다.
Despite their key role in medical education and career development, medical student clerkship grade reporting varies greatly between institutions,5-8 depending on the grading scale used7 and even across rotations within a clerkship.7 Evaluations can be vulnerable to influence based on the gender and race of students.9 Moreover, clerkship director survey data suggest a persistent national pattern of grade inflation,10-12 though no clear explanation for this exists.

교수진들은 또한 표준 이하의 임상실습 수행능력을 문서화하는 것을 꺼릴 수 있다. 특히, 최근의 메타 분석에서 교수진의 전문직업적 우려를 "과락 실패"의 주요 원인으로 확인했습니다. 최근 몇 년간 교수진에 대한 의대생 평가는 교수진 승진에 중요한 요소가 되고 있다. 의대생 사무원 자격 평가에 대한 우리의 현재 이해에서 중요한 차이는 교수직, 성별 및 인종과 같은 평가자 특성의 영향이다. 학계의 여성과 소수자는 전반적으로 승진 기준이 다르고 더 높은 수준을 유지하고 있으며, 의대생들의 평가는 교직원의 성별과 인종에 따라 영향을 받는다는 것이 데이터에 의해 입증되었다. 교육생과의 선행연구를 통해 교직원과 전공의 평가 사이의 호혜성(긍정적, 부정적 모두)을 입증했지만 의대생에 대한 자료는 거의 없다.
Faculty may also be reluctant to document substandard clerkship performance.12 Notably, a recent meta-analysis identified faculty professional concerns as a major reason for “failure to fail.”13 In recent years, medical student evaluations of faculty have become an important factor in faculty promotion. An important gap in our current understanding of medical student clerkship evaluations is the impact of evaluator characteristics like faculty rank, gender, and race. Data have demonstrated that women and minorities in academia overall are held to different and higher standards for promotion14-16 and that evaluations by medical students are impacted by the gender and race of the faculty member.17, 18 Prior research with trainees has demonstrated reciprocity (both positive and negative) in faculty and resident evaluations,19, 20 but there is little data for medical students.

이전 연구들은 학생을 낙제시키는 장벽을 조사했지만, 교수 인구 통계와 직위rank는 제외되었다. 우리는 [승진 전에 부정적인 영향에 대한 취약성]을 인지했기 때문에, 주니어 교수진이 낮은 성과 평가(LPE)를 제출할 가능성이 낮다고 가정했다. 또한 주니어 교수진은 일반적으로 경험이 부족하고, 평가 기술에 대한 자신감이 떨어질 수 있다. 우리는 교수진에 대한 학생 평가의 변동성뿐만 아니라 학문적 순위에서 알려진 차이를 고려할 때 교수진의 성별, 인종, 민족성이 중요한 수식어가 될 것이라고 생각했다. 이러한 가설을 테스트하기 위해, 우리는 미국 남부의 한 대형 학술 의료 센터에서 10년 이상의 의대 학생 임상실습생 평가와 함께 대규모 데이터 세트를 분석했다. 재교육 교정조치가 필요한 학생을 정확하게 평가하려면 두 가지 작업을 모두 수행해야 합니다.

  • (1) 표준 이하의 행동을 식별할 수 있다. 
  • (2) 그것을 기꺼이 구두로 말하거나 기록한다. 

본 연구에서는 [평가의 정확성]을 평가할 수 없었고, 대신 두 번째 요소인 [문서 작성 의지]에 초점을 맞췄다. 두 구성 요소를 별도로 평가하는 것은 정확도를 향상시키기 위한 고유한 개입을 제안할 수 있다.
Previous studies have investigated the barriers to failing a student, but faculty demographics and rank were excluded.13 We hypothesized that junior faculty were less likely to submit low performance evaluations (LPEs), perhaps due to perceived vulnerability to negative repercussions prior to promotion. Junior faculty could also be generally less experienced and less confident in their evaluation skills. We thought faculty gender, race, and ethnicity would be important modifiers given the known disparities in academic rank, as well as variability in student evaluations of faculty. To test these hypotheses, we analysed a large dataset with more than a decade of medical student clerkship evaluations from a large academic medical centre in the Southern United States. Accurately assessing a student who needs remediation requires faculty to both

  • (1) be able to identify the substandard behaviour and
  • (2) be willing to verbalise or document it.

In this study, we could not assess the accuracy of assessment and, instead, focused on the second component, willingness to document. Evaluating the two components separately may suggest unique interventions to improve accuracy.

2 방법
2 METHOD

단일 기관에서 15년 동안 완료한 3학년 임상실습 재직 중 의대생에 대한 교수진 평가를 분석하였다. 이 연구는 프로토콜 HSC-SBMI-19-0385에 따라 인간 대상 보호를 위한 위원회의 승인을 받았다.
Faculty evaluations of medical students during third-year clerkships completed over a 15-year period from a single institution were analysed. This study has been approved by the Committee for the Protection of Human Subjects under protocol HSC-SBMI-19-0385.

핵심 3년차 임상실습 7개 중 5개(가정의학과와 지역사회의학, 내과, 소아과, 정신과학, 신경학)에 대한 중간점 및 최종 교수진 평가가 모두 포함되었습니다. 외과, 산부인과, 산부인과가 제외되었는데, 이는 교수진이 사무직에 대한 총체적인 평가를 완료하기 때문이다(즉, 평가는 여러 교수진의 의견을 반영한다). 임상강사들이 완료한 평가는 한 부서에만 소수 인원이 있어 제외됐다.
All midpoint and final faculty evaluations for five of seven core third-year clerkships (Family Medicine and Community Medicine, Internal Medicine, Paediatrics, Psychiatry, and Neurology) were included. Surgery and Obstetrics and Gynaecology were excluded because the faculty complete evaluations in aggregate for those clerkships (i.e., the evaluation reflected input from multiple faculty members). Evaluations completed by clinical instructors were excluded because there were a small number in only one department.

[불충분한 학생 성과를 문서화할 의사가 있는 교직원]을 식별하기 위해, 우리는 LPE를 교직원이 중간 지점이나 사무직 최종 평가에서 학생이 기대에 미치지 못한다고 판단한 평가로 정의했다. 최종 평가 형태는 연구 기간 15년 동안 다양했으며, 형태별로 질문 항목 수가 달랐다.

  • 질문은 binary하거나 (예: "이 학생들의 윤리적 또는 직업적 행동에 대해 심각한 우려가 있습니까?" [예/아니오]) 
  • 또는 임상실습 역량 평가를 위한 5점 리커트 척도를 가지고 있었다. 

중간점 평가도 15년의 연구 기간에 걸쳐 다양했지만, 이진 척도 질문(예/아니오)으로 구성되었으며, 이를 통해 교수진은 학생이 여러 역량 영역에서 "기대 충족" 또는 "실패"를 나타낼 수 있었다. 우리는 매년 완료되는 평가 양식을 수동으로 검토하여 해당 양식에 대해 어떤 답변이 LPE를 정의했는지 확인했습니다. 
To identify faculty willing to document inadequate student performance, we defined LPEs as evaluations where the faculty instructor determined that the student did not meet expectations either at the midpoint or at the final evaluation of the clerkship. Final evaluation forms varied over the 15-year period of the study, with differing numbers of question items per form. Questions

  • were either binary (e.g., “Do you have any serious concerns about this students ethical or professional behavior?” [Yes/No])
  • or had 5-point Likert scales for assessment of clerkship competencies.

Midpoint evaluations also varied across the 15-year study period but consisted of binary scale questions (Yes/No) through which faculty could indicate if the student was “meeting” or “failing to meet” expectations in a number of competency areas. We manually reviewed the evaluation forms completed each year to determine what answers defined LPE for that form.

다음 중 하나 이상을 통해 학생의 [LPE를 정의]했습니다.

  • 중간 평가에서 학생은 하나 이상의 역량 영역에서 "기대 충족에 실패"했습니다.
  • 중간 평가 또는 최종 평가에서 비윤리적인 행동으로 플래그 지정됨
  • 전반적 최종 평가에서 낙제 점수—평가 양식에 '전반적 평가'항목이 존재했을 때(5점 Likert 척도에서 1 또는 2의 값으로 정의됨)
  • 최종 평가에서 성과에 대한 리커트 척도의 중앙 점수 아래에 있는 하나 이상의 점수(5점 리커트 척도의 경우 1 또는 2의 값) 모든 형태는 연구자들에 의해 독립적으로 검토되었으며(J. L. S., M. A. G. 또는 E. V. B.) 형태 간 변동성에도 불구하고 이러한 값에 대한 앵커들은 일관되게 부적절한 성능을 나타냈다(보조 자료에 이용 가능한 평가 양식에 사용되는 앵커). 예를 들어, 여러 형태의 레벨 2 성과는 다음과 같이 표현되었습니다. 
    • "최소한의 기본 기술 수준입니다. 면담과 신체진찰에 대한 공부가 필요하다. 임상실습 동안 진전이 거의 없습니다."
    • "환자의 불만과 관련된 정신 상태 검사를 수행하지 않으며 일부 비정상적인 소견을 간과합니다."
    • "환자기록 노트가 약간 불완전합니다."

We defined an LPE for a student through one or more of the following:

  1. A midpoint evaluation indicated the student “failed to meet expectations” in one or more competency areas;
  2. Flagged for unethical behaviour on the midpoint or final evaluation;
  3. An overall failing grade on the final evaluation—when an overall question existed in the evaluation form (defined as value of 1 or 2, on a 5-point Likert scale); and
  4. One or more scores below the centre score on any Likert scale for performance (e.g., a value of 1 or 2, on a 5-point Likert scale) on the final evaluation. All forms were independently reviewed by researchers (J. L. S., M. A. G., or E. V. B.), and despite variability among forms, the anchors for these values consistently indicated inadequate performance (anchors used in the evaluation forms available in supplemental materials). For example, level 2 performance across several forms was indicated by the following:
    1. “Minimal level of basic skills. Needs work on interviews and PE. Little progress during clerkship.”
    2. “Does not perform mental status exam relevant to patients' complaints and overlooks some abnormal findings.”
    3. “Notes somewhat incomplete.”

각 로테이션마다, 교수진들은 그들이 감독한 학생들에 대한 평가를 완료하도록 요청받았다. 각 학생은 3학년 임상실습 과정 동안 여러 평가 세션을 거쳤으며, 대부분의 교수진은 15년 동안 여러 학생을 평가했습니다. 학생들은 특정한 교수진을 요청할 수 있었지만, 그러한 요구들이 항상 허락된 것은 아니었다. 대부분의 과제는 무작위로 이루어졌다. 
For each rotation, faculty were asked to complete evaluations for students they had supervised. Each student moved through multiple evaluation sessions over the course of their third-year clerkships, and most faculty evaluated multiple students over the 15 years of the study. Students could request specific faculty, but such requests were not always granted. Most assignments were random.

위에서 정의한 바와 같이 LPE 제출 가능성과 함께 교수 평가자 등급(조교, 준교수 또는 정교수)의 연관성을 평가했습니다. 교수진 특성에는 학력, 성별, 인종, 민족성, 나이, 그리고 평가를 내린 경험이 포함된다. 학생 인구 통계 데이터를 사용할 수 없습니다. 
We assessed the association of a faculty evaluator's rank (assistant, associate, or full professor) with the likelihood of submitting an LPE as defined above. Faculty characteristics included academic rank, gender, race, ethnicity, age, and experience giving evaluations. Student demographic data were not available.

우리는 [경험 점수]를 사용하여 [직위]와 [경험]을 구분했다. 이 값은 해당 교수진이 제출한 각 평가 시 해당 교수진이 데이터 세트 내에서 완료한 평가 수의 카운트로서 각 교수진에 대해 계산되었다. 예를 들어, 학생에 대한 19번째 평가를 마친 교직원은 해당 평가에 대해 19의 경험치, 25번째 평가에 대해 25의 경험치가 할당됩니다. 평가 당시 경험치가 낮은 경험은 경험점수 ≤ 50, 중간 경험은 > 50이지만 ≤ 100으로, 높은 경험은 > 100으로 범주형 변수로 그룹화했다. 이 전략은 연구 기간 전에 상당한 수의 평가를 완료한 고위 교수진의 경험을 과소평가할 수 있지만, 모든 교수진은 시작부터 시작하여 연구 과정에 걸쳐 각 수준에서 동일한 수의 평가를 입력할 수 있는 기회를 갖게 된다. 연구 기간 15년에 걸쳐 시간이 경과되고 새로운 교수진이 추가됨에 따라, 그들의 새로운 평가 수치(평균 2134.9/년)는 더 많은 상급 교수진이 학습 시작 전에 제출한 평가의 잘못된 "startup" 효과를 훨씬 초과한다. 우리 표본에서 낮은 빈도의 LPE와 각 순위의 교수진을 고려할 때 통계적 힘을 보존하기 위해 범주형 변수가 필요했다. 
We distinguished faculty rank from experience using an experience score. This was calculated for each faculty member at the time of each evaluation submitted by that faculty member, as a count of the number of evaluations completed by that faculty member, within our dataset. For example, faculty completing their 19th evaluation of a student would be assigned an experience value of 19 for that evaluation and a value of 25 for the 25th evaluation. We grouped experience as a categorical variable, with low experience defined as an experience score of ≤50, middle experience as >50 but ≤100, and high experience as >100, at the time of evaluation. Although this strategy may underestimate the experience of senior faculty with a significant number of evaluations completed prior to the study period, all faculty will begin at the start and have an opportunity to enter the same number of evaluations at each level over the course of the study. As time progressed over the 15 years of the study and new faculty are added, their new evaluation numbers (mean 2134.9/year) far exceed the false “startup” effect of evaluations submitted by more senior faculty prior to study start. A categorical variable was necessary to conserve statistical power given the low frequency of LPE and faculty of each rank in our sample.

연속형 변수에 대한 기술 통계량을 중위수 및 표준 편차(SD)로 계산하고 범주형 변수는 빈도와 백분율로 계산했습니다. 반복 측정 계층적 데이터 구조를 고려할 때, 우리는 구조화되지 않은 공분산을 가진 이항 분포와 로지스틱 링크 함수를 갖는 일반화된 혼합 회귀 모델을 사용했다. 학생들의 평가는 교직원 평가자 내에 nested되었고, 평가자는 로테이션 내에 nested되었다. 모든 모형에 대한 결과 변수는 LPE 대 그렇지 않음을 나타내는 각 평가에 대한 이진 변수였습니다. 교직원의 성별, 교직원의 연령, 교직원의 인종, 교직원의 민족성, 교직원의 인종, 민족성, 연령 및 교직원의 평가년도의 역할과 교직원의 성별, 인종, 연령 및 교직원의 상호 작용 효과를 교직원의 등급 간 연관성과 최종 평가에 대한 LPE 부여의 잠재적 교란자로 평가하였다.
We calculated descriptive statistics for continuous variables as medians and standard deviations (SD). Categorical variables were calculated as frequencies and percentages. Given the repeated-measures hierarchical data structure, we utilised a generalised mixed regression model having binary distribution and logistic link function with unstructured covariance. Students' evaluations were nested within faculty evaluators, and evaluators were nested within a rotation. The outcome variable for all models was a binary variable for each evaluation indicating LPE versus not. We evaluated the role of faculty gender, faculty age, faculty race, faculty ethnicity, experience giving evaluations, and calendar year of evaluation, as well as interactive effects between faculty gender, race, ethnicity, age, and faculty rank, as potential confounders of association between faculty rank and giving LPE on final evaluations.


[최종 평가]와 비교하여 [중간점 평가]에서 LPE를 받을 가능성 사이에 상당한 차이를 발견했지만, 중간점평가에서 LPE의 사용에는 큰 차이가 있었다. 예를 들어, 한 교직원은 중간 지점에서 학습자의 50% 이상의 LPE를 제공했지만 최종(요약) LPE는 훨씬 적게 제공했습니다. 따라서 중간점 평가를 모델에 포함하지 않았다.

Although we found a significant difference between the likelihood of receiving an LPE on a midpoint evaluation compared with a final evaluation, there was wide variation in the use of midpoint LPEs. For example, one faculty member gave more than 50% of learners LPEs at midpoint but gave far fewer final (summative) LPEs. Thus, we did not include midpoint evaluations in our model.

통계적 비유의성으로 인해 교수 연령과 교수 인종, 민족성, 상호작용 효과의 잠재적 modifier effect는 최종 모형에서 삭제되었다. 우리의 1차 가설은 교수진과 관련이 있기 때문에 통계적 유의성이 부족함에도 불구하고 추진되었다. 결과는 95% 신뢰 구간(CI)과 함께 승산비(OR)로 표시된다. 통계적 유의 수준은 α = 0.05로 설정되었다. 모델에 적합한 GLIMMIX 절차를 포함하여 모든 분석은 SAS 통계 소프트웨어 버전 9.4.4로 수행되었다(SAS Institute Inc., Cary, NC).
Because of nonstatistical significance, the potential modifier effects of faculty age and faculty race, ethnicity, and interactive effects were dropped from the final model. Our primary hypothesis is related to faculty rank, so it was carried forward despite lack of statistical significance. Results are presented as odds ratio (OR) along with 95% confidence intervals (CIs). Statistical significance level was set at α = 0.05. All analyses were conducted with SAS statistical software version 9.4.4, including the GLIMMIX procedure to fit the model (SAS Institute Inc., Cary, NC).

3 결과
3 RESULTS

데이터 세트에는 2007년 1월부터 2021년 4월까지 총 3447명의 학생(표 1)을 대상으로 585명의 교수 평가자가 완료한 50120개의 평가(32024 최종 평가[64%] 및 18096 중간 평가[36%])가 포함되었으며, 총 1418(2.8%)의 LPE가 주어졌다. 조교수가 가장 많은 평가(70%)를 제출했고, 준교수와 정교수(각각 15%)가 그 뒤를 이었다. 여성 교직원이 51.3%의 평가를 제출했으며, 평가 완료 당시 교직원의 중위연령은 43세(28~87세)였다. 텍사스 대학교 시스템이 채용한 인종 및 민족 범주별로 보면, 비히스패닉으로 자처한 교수진이 89%의 평가를 마쳤으며, 백인 46%, 아시아인 30%, 기타 24%가 평가되었다. "낮은" 경험 교수진은 방법에 정의된 대로 38%의 평가를 완료했습니다. "중간" 경험은 21%의 평가를 마쳤고, "높은" 경험 교직원은 42%를 마쳤습니다. 교수진은 최종 평가(1.6%)보다 중간 지점(4.9%)에서 LPE를 줄 가능성이 더 높았다(OR = 4.004, 95% CI [3.59, 4.53]; p < 0.001). 
The dataset included 50 120 evaluations (32 024 final evaluations [64%] and 18 096 middle evaluations [36%]) completed by 585 faculty evaluators on 3447 students (Table 1) between January 2007 and April 2021, with a total of 1418 (2.8%) LPEs given. Assistant professors submitted the most evaluations (70%), followed by associate and full professors (15% each). Female faculty submitted 51.3% of evaluations, and the median age of faculty was 43 (range 28–87 years) at the time the evaluation was completed. Per the race and ethnicity categories employed by the University of Texas system, 89% of evaluations were completed by faculty that self-identified as non-Hispanic, with 46% White, 30% Asian, and 24% Other. “Low” experience faculty completed 38% of evaluations, as defined in the methods. “Middle” experience completed 21% of evaluations, and “high” experience faculty completed 42%. Faculty were more likely to give LPEs at the midpoint (4.9%), compared with the final (1.6%), evaluation (OR = 4.004, 95% CI [3.59, 4.53]; p < 0.001).

표 1은 최종 평가를 위한 단일 변수 연관성과 기술 통계량을 보여줍니다. 최종 평가의 2%는 LPE였다. 조교수가 LPE의 67%, 부교수가 15%, 정교수가 18%로 가장 많았다. 여성 교수진은 LPE의 63%를 주었다. LPE의 90%는 비히스패닉 교수진에 의해 주어졌다. 백인 교수진이 LPE의 47%, 아시아 교수진이 27%, 기타 교수진이 26%를 받았다. 낮은 경험의 교수진은 LPE의 54%, 중간 경험의 교수진은 22%, 그리고 높은 경험의 교수진은 24%를 주었다. 해당 연도에 주어진 총 평가의 백분율로서 연간 LPE의 백분율은 그림 1에 나와 있다. 
Table 1 shows the results of univariable associations and descriptive statistics for final evaluations. Two per cent of final evaluations were LPEs. Assistant professors gave the most LPEs (67%), associate professors gave 15%, and full professors gave 18%. Female faculty gave 63% of LPEs. Ninety per cent of LPEs were given by non-Hispanic faculty. White faculty gave 47% of LPEs, Asian faculty gave 27%, and “Other” faculty gave 26%. Low experience faculty gave 54% of LPEs, 22% by middle experience faculty, and 24% by high experience faculty. The percentages of LPE per year as a percentage of total evaluations given in that year are shown in Figure 1.

표 2는 최종 모델의 결과를 보여줍니다. 귀무 모델은 AIC(Akaike Information Criteria) 적합 통계가 5359.73인 반면, 우리의 최종 모델은 Akaike Information Criteria가 5006.32로 더 적합하다는 것을 보여주었다. 연구 기간 동안 LPE의 가능성은 각 달력 연도에 따라 유의하게 감소했습니다(표 2, OR = 0.94 [0.90, 0.97]; p < 0.01). 정교수는 조교수보다 LPE를 줄 가능성이 유의미하게 높았다(OR = 1.62 [1.08, 2.43]; p = 0.02). 여성이 남성보다 LPE를 투여할 가능성이 더 높았다(OR = 1.88 [1.37, 2.58]; p 0.01). 경험은 LPE와 연관되지 않았습니다.
Table 2 shows the results of our final model. The null model had an Akaike Information Criteria (AIC) fit statistic of 5359.73, whereas our final model had an Akaike Information Criteria of 5006.32, indicating a better fit. The likelihood of LPE decreased significantly with each calendar year during the study period (Table 2; OR = 0.94 [0.90, 0.97]; p < 0.01). Full professors were significantly more likely to give an LPE than assistant professors (OR = 1.62 [1.08, 2.43]; p = 0.02). Women were more likely to give LPEs than men (OR = 1.88 [1.37, 2.58]; p 0.01). Experience was not associated with LPE.

4 토론
4 DISCUSSION

15년에 걸쳐 제출된 이 대규모 임상실습 평가 코호트에서, 우리는 LPE가 상대적으로 드물다는 것을 발견했는데, 이는 모든 최종 평가의 2.8%에 해당한다. 다행히도, [큰 표본 크기]는 우리가 의학 교육에서 드물지만 중요한 사건에 대한 결론을 도출할 수 있게 해주었다.

  • 대부분의 이전 작업은 정성적이었고 더 작은 샘플도 포함했습니다.
  • 다른 연구는 "명예" 등급의 예측 변수에 초점을 맞췄다.
  • 한 대규모 연구는 진급 실패를 예측하기 위해 전공의 평가에서 키워드를 확인했지만, 교수 요인의 역할을 조사하지 않았다.

In this large cohort of clerkship evaluations submitted over 15 years, we found that LPEs were relatively rare, representing 2.8% of all final evaluations. Fortunately, the large sample size allowed us to draw conclusions about this rare but important event in medical education.

  • Most previous work was qualitative and included smaller samples.21 
  • Other research focused on predictors of an “honours” grade.22 
  • One large study identified keywords in resident evaluations to predict failure to progress but did not investigate the role of faculty factors.23 

우리는 또한 주니어 교수진에 비해 시니어 교수진의 낮은 유병률, 특정 임상실습(예: 입원 병동 대 일반 진료소) 및 연도를 포함하여 여러 잠재적 교란자를 제어할 수 있는 정교한 계층적 모델을 구현했다. 이 모델을 기반으로 최종(요약) 평가에 비해 중간점(형식) 평가에서 LPE가 일반적으로 3배 이상 제출되었다. (연구 기간 동안 완료된 평가 횟수로 측정되는) 교수 경험과 무관하게 정교수가 조교수보다 종합 LPE를 제출할 가능성이 더 높았다.  여성은 남성보다 LPE를 투여할 가능성이 더 높았다. 전반적으로 LPE 빈도는 우리 기관의 역량 기반 교육의 직접 관찰 및 구현에 대한 강조가 증가했음에도 불구하고 시간이 지남에 따라 감소하였다. 
We also implemented a sophisticated hierarchical model that allowed us to control for multiple potential confounders including the lower prevalence of senior faculty compared with junior faculty, specific clerkship (e.g., inpatient wards vs. general medicine clinic), and year. Based on this model, LPEs were over three times more commonly submitted at the midpoint (formative) evaluation compared with final (summative) evaluations. Full professors were more likely to submit summative LPEs than assistant professors, independent of faculty experience (as measured by number of evaluations completed during the study period). Women were more likely to give LPEs compared with men. Overall, LPE frequency decreased over time despite increased emphasis on direct observation and implementation of competency-based education at our institution.

비록 이 관찰 연구가 원인을 결정할 수는 없지만, 우리는 주니어 교수진이 부정적인 결과, 특히 학생으로부터의 부정적 평가에 대한 우려 때문에 수준 이하의 학생 성과를 문서화하는 것을 주저할 수 있다고 가정한다. 교직평가는 승진을 위한 평가, 교직상 선정, 기타 승진 및 리더십 기회의 중요한 구성 요소이다. 우리의 가설은 [특정 세부전공 로테이션, 평가 형태 변화, 교수 경험, 시간 경과에 따른 등급 인플레이션 등의 잠재적 교란 요인을 통제]한 후에도 지속된 주니어 교수진과 시니어 교수진 간 등급 차이로 뒷받침된다. 이는 또한 교수진이 개인적인 스트레스, 낙제생으로 인한 행정적 부담, 교수진 개발 부족 또는 연수생 성과에 대한 죄책감을 피하기 위해 LPE를 주는 것을 꺼릴 수 있다는 것을 발견한 이전 연구에서도 입증되었다. 그러나 이러한 원인은 특히 [제출된 평가 수에 따른 경험]을 통제한 후 서로 다른 직급의 교수들 사이에서 일정할 수 있다. [학생으로부터의 우수한 평가를 유지하기 위해 주니어 교수들이 부정적인 피드백을 제공하는 것을 피한다]는 학부 기관의 자료를 볼 때, 의학 교육에서도 비슷한 양상이 나타난다면 놀랄 일은 아닐 것이다. 하지만, 기관들은 승진에서 학생 평가를 탈-강조하는 것을 꺼릴 수 있다. 
Although this observational study cannot determine causes, we hypothesise that junior faculty may be hesitant to document substandard student performance due to fear of negative consequences, particularly poor teaching evaluations. Teaching evaluations are an important component of assessment for promotion, selection for teaching awards, and other advancement and leadership opportunities. Our hypothesis is supported by the difference in grading between junior and senior faculty that persisted even after controlling for specific subspecialty rotations, changes in evaluation forms, faculty experience, and grade inflation over time as potential confounders. This has been documented in previous research, which also found that faculty may also be reluctant to give LPEs to avoid personal stress, the administrative burden caused by failing a student, lack of faculty development, or guilt about trainee outcomes.13 However, these causes would likely be constant among faculty at different academic ranks, especially after controlling for experience based on number of evaluations submitted. Given data from undergraduate institutions that junior faculty avoid providing negative feedback in order to maintain good student evaluations, it would not be surprising if similar patterns were seen in medical education. However, institutions may be reluctant to de-emphasise student evaluations in promotion.24

교수 평가가 진급에 덜 중요할 수 있는 [임상의-연구자]는 승진할 가능성이 더 높고, 더 낮은 평가를 내릴 수 있다. 우리의 데이터 세트는 학생 평가 당시 각 교수진의 특정 트랙(예: 임상의-교육자 및 테뉴어 트랙 연구원)에 대한 정보를 포함하지 않았으며, 연구 기간 동안 승진 지침이 다양했다. 종신 재직권은 조교수나 부교수에 비해 정교수 계급의 교수들 사이에서 더 흔하다. 우리 기관에는 종신 재직 중인 부교수들이 있지만, 종신 재직 중인 정교수의 비율은 훨씬 더 높다. 이는 코호트에서 조교수와 부교수 간에 LPE의 차이를 발견하지 못한 이유를 설명하는 데 도움이 될 수 있지만, 조교수와 정교수 사이에는 차이가 있었다. 향후 연구는 성적 인플레이션, 교수진 및 재직 기간 간의 관계를 조사해야 한다.
Clinician-researchers, for whom teaching evaluations may be less critical for advancement, may be both more likely to be promoted and give lower evaluations. Our dataset did not include information on the specific track (e.g., clinician-educator and tenure-track researcher) of each faculty member at the time of student evaluation, and promotion guidelines varied during the study period. Tenure is more common among faculty at the rank of full professor compared with either associate professors or assistant professors. Although there are tenured associate professors at our institution, the proportion of tenured full professors is much higher. This may help explain why we found no difference in LPEs between assistant and associate professors in our cohort, but there was a difference between assistant professors and full professors. Future studies should investigate the relationship between grade inflation, faculty tracks, and tenure.

교수진이 개별 학생들과 보내는 시간을 제한하는 근무 패턴을 바꾸는 것은 성적 인플레이션에 기여할 수 있다. 과거에는 팀들이 매달 돌아가면서, 교수진들은 시간이 지남에 따라 학생들의 성과를 관찰할 수 있었다. 최근, 2주 또는 심지어 1주 블록이 더 흔해졌다. 이전 연구에서는 학습자와의 시간이 줄어들면 교수진이 낙제 평가를 기꺼이 제출할 가능성도 감소한다고 관찰했습니다. 따라서 "의문의 이점"은 LPE의 빈도를 감소시킬 수 있다.
Changing work patterns that limit the time that faculty spend with individual students may contribute to grade inflation. In the past, teams rotated monthly; thus, faculty were able to observe student performance over time. Recently, 2-week or even 1-week blocks have become more common. Previous studies observed that decreased time with a learner also reduced the likelihood that a faculty would be willing to submit a failing evaluation.13 Thus, the “benefit of the doubt” may decrease the frequency of LPEs.

우리는 교직원의 성별과 인종이 학생 평가에 미치는 영향을 조사했습니다. 인종과 민족은 LPE를 예측하지 못했지만, 비슷한 직위에 있는 남성보다 여성이 LPE를 제출할 가능성이 더 높았다. 남녀 후배 교수진이 부여한 LPE가 승진, 학술상, 리더십 직급에 어떤 영향을 미치는지, 어떻게 영향을 미치는지 판단할 자료가 부족하지만, 이는 향후 조사에 중요한 영역이 될 수 있다.
We investigated the effect of faculty gender and race on student evaluations. Race and ethnicity did not predict LPE, but women were more likely to submit LPEs compared with men at a similar academic rank. We lack the data to determine whether and how LPEs given by male and female junior faculty affect promotion, academic awards, and leadership positions, but these may be important areas for future investigation.

어려움을 겪고 있는 학생들을 정확하게 식별하는 것은 그 학생이 발전하도록 돕는 동시에 공공의 이익을 위해서도 중요하다. 이전의 교육 질 개선 작업은 학생 실패에 대한 근본 원인 분석을 수행했지만 실패가 환자 치료에 미칠 수 있는 영향을 고려할 때 더 심각한 중대 사건이 될 수 있다. 학습자의 성장 마인드를 강조하는 것은 낮은 점수를 교육 성장을 이끄는 도구로 해석하는 데 도움이 될 것이다. 성별, 인종 및 민족성이 평가에 미치는 영향에 대한 교수진과 학생들의 더 나은 교육과 훈련은 또한 그들이 서로에 대해 더 집중적이고 유용한 평가를 제공하는 데 도움이 될 수 있다. 시간이 지남에 따라, 그러한 환경은 더 포괄적인 학습과 전문적 개발을 지원할 것이다. 
Accurately identifying struggling students is important to help the student improve but also for the public good. Previous educational quality improvement work has performed root cause analysis on student failure, but failure to fail may be a more serious critical event given its potential impact on patient care.25, 26 Emphasis on a growth mindset in learners would help them interpret low scores as tools to guide their educational growth.27, 28 Better education and training of faculty and students on the impacts of gender, race, and ethnicity on evaluations may also help them provide more focused, useful assessments of each other.29, 30 Over time, such an environment would support more inclusive learning and professional development.


우리의 데이터는 비록 크지만, 단일 기관에서 가져온 것이다. 따라서, 우리의 연구 결과는 교직원이나 학생의 모집단이 다르거나 다른 채점 시스템(예: Likert-scale 형식이 아닌 서술적 평가)을 가진 다른 기관으로 일반화되지 않을 수 있다. 또한 일반외과 및 산부인과 임상실습은 그룹 평가를 제출하기 때문에 제외했으며, 이는 절차 하위 전문 분야에서 교수진에 대한 일반화 가능성을 제한할 수 있다. 추가 연구는 다양한 채점 메커니즘(합격/실패, 질적 또는 서술적, 조형적 또는 요약적)이 교수진이 표준 이하의 성적을 가진 학생을 식별하는 데 어떻게 도움이 될 수 있는지 조사해야 한다. 최종과 비교하여 중간 지점에서 LPE가 더 자주 주어졌다는 것을 발견한 것은, 평가에서 [중간 지점 LPE]가 우리 코호트에서 희귀했기 때문에 더 많은 조사가 필요하겠지만, 솔직한 피드백이 형성 평가에서 제공될 가능성이 더 높을 수 있음을 시사한다. 낙관적으로, 아마도 CBME 주도 교수 개발은 연구 기간 동안 다양한 상황(예: 구두 또는 EPA 양식의 맥락에서)에서 의미 있는 형성 피드백을 유발했고, 따라서 더 많은 학생들이 역량을 달성하고 LPE를 요구하지 않았다. 기관이 역량 기반 교육을 시행함에 따라 교수진이 기준 미달 성과를 정확하고 신뢰성 있게 식별할 수 없도록 할 수 있는 요인을 이해하고 해결하는 것이 매우 중요하다.

Though large, our data are from a single institution. Thus, our findings may not generalise to other institutions with different populations of faculty or students or different grading systems (e.g., narrative evaluations rather than Likert-scale forms). We also excluded surgery and OB/GYN clerkships because they submit group evaluations, which may limit generalizability to faculty from procedural subspecialties. Further studies should investigate how various grading mechanisms (pass/fail, qualitative or narrative, formative vs. summative) can help faculty identify students with substandard performance. Our finding that LPEs were more frequently given at the midpoint, compared with the final, evaluation suggests that honest feedback may be more likely to be provided at the formative evaluation, although more investigation will be needed, as midpoint LPEs remained rare in our cohort. Optimistically, perhaps CBME-driven faculty development prompted meaningful formative feedback in multiple contexts (e.g., verbally or in the context of our EPA forms) over the study period, and thus, more students achieved competence and did not require an LPE. As institutions implement competency-based education, it is critically important to understand and address factors that may prevent faculty from accurately and reliably identifying substandard performance.

우리의 데이터 세트는 다른 지표로 평가된 학생 인구 통계 및 학생 성과를 포함하여 평가에 영향을 미칠 수 있는 학생 정보를 포함하지 않았다. (예: 시험, 거주 마일스톤 및 환자 결과) 따라서 LPE가 향후 환자 치료와 관련이 있는지 여부를 알 수 없다. 학습자의 종단적 추적은 LPE가 역량 결손 학생을 얼마나 신뢰성 있게 식별하는지, 문제가 있는 의사가 의과대학에서 LPE를 받았는지 여부를 결정하는 데 도움이 될 수 있다. 우리의 연구 결과는 의대생들의 정확한 평가에 대한 장벽을 조사하는 향후 연구를 안내할 수 있으며, CBME가 전문적 성장과 환자 안전에 대한 잠재력에 도달할 수 있도록 한다. 
Our dataset did not contain student information that may have influenced evaluations, including student demographics and student performance as assessed with other indicators (e.g., exams, residency milestones, and patient outcomes). Thus, we do not know whether LPEs are related to future patient care. Longitudinal follow-up of learners can help determine how reliably LPEs identify students with competency deficits and whether problematic physicians received LPEs during medical school. Our findings can guide future research investigating the barriers to accurate evaluation of medical students, allowing CBME to reach its potential for professional growth and patient safety.


 

Med Educ. 2022 Jun;56(6):634-640. doi: 10.1111/medu.14725. Epub 2022 Jan 12.

Role of faculty characteristics in failing to fail in clinical clerkships

Affiliations collapse

Affiliations

1Department of Internal Medicine, Mc Govern Medical School, University of Texas Health Science Center at Houston, Houston, Texas, USA.

2Division of Hospital Medicine, San Francisco General Hospital, San Francisco, California, USA.

3Division of Health Policy and Management, School of Public Health, University of California, Berkeley, Berkeley, California, USA.

4School of Biomedical Informatics, University of Texas Health Science Center at Houston, Houston, Texas, USA.

5Division of Clinical and Translational Sciences, Department of Internal Medicine, McGovern Medical School, Houston, Texas, USA.

6Department of Epidemiology, Human Genetics, and Environmental Sciences, School of Public Health, The University of Texas Health Science Center at Houston, Houston, Texas, USA.

PMID: 34983083

DOI: 10.1111/medu.14725

Abstract

Introduction: In the context of competency-based medical education, poor student performance must be accurately documented to allow learners to improve and to protect the public. However, faculty may be reluctant to provide evaluations that could be perceived as negative, and clerkship directors report that some students pass who should have failed. Student perception of faculty may be considered in faculty promotion, teaching awards, and leadership positions. Therefore, faculty of lower academic rank may perceive themselves to be more vulnerable and, therefore, be less likely to document poor student performance. This study investigated faculty characteristics associated with low performance evaluations (LPEs).

Method: The authors analysed individual faculty evaluations of medical students who completed the third-year clerkships over 15 years using a generalised mixed regression model to assess the association of evaluator academic rank with likelihood of an LPE. Other available factors related to experience or academic vulnerability were incorporated including faculty age, race, ethnicity, and gender.

Results: The authors identified 50 120 evaluations by 585 faculty on 3447 students between January 2007 and April 2021. Faculty were more likely to give LPEs at the midpoint (4.9%), compared with the final (1.6%), evaluation (odds ratio [OR] = 4.004, 95% confidence interval [CI] [3.59, 4.53]; p < 0.001). The likelihood of LPE decreased significantly during the 15-year study period (OR = 0.94 [0.90, 0.97]; p < 0.01). Full professors were significantly more likely to give an LPE than assistant professors (OR = 1.62 [1.08, 2.43]; p = 0.02). Women were more likely to give LPEs than men (OR = 1.88 [1.37, 2.58]; p 0.01). Other faculty characteristics including race and experience were not associated with LPE.

Conclusions: The number of LPEs decreased over time, and senior faculty were more likely to document poor medical student performance compared with assistant professors.

수행능력이 저조한 학생들도 행동-중-성찰 시에는 통찰력이 있다(Med Educ, 2017)
Low performing students have insightfulness when they reflect-in-action
Mike Tweed,1 Gordon Purdie1 & Tim Wilkinson2

 

서론
Introduction

현재의 전문 의료 실무 모델, 즉 학부 의료 교육은 자기 조절, 자기 평가 및 자기 모니터링에 의존한다. 정확한 자체 평가와 자체 모니터링은 의료 전문가의 자기 조절에 필수적이다.

  • 자기 평가는 전반적인 성과에 대한 누적 평가로 간주될 수 있는 반면,
  • 자기 모니터링은 그 순간의 성과와 관련이 있다.

The current model of professional medical practice, and therefore undergraduate medical education, relies on self-regulation, self-assessment and self-monitoring.1-9 Accurate self-assessment and self-monitoring are vital to health care professionals' self-regulation.

  • Self-assessment can be considered as a cumulative evaluation of overall performance, whereas
  • self-monitoring relates to performance in the moment.6910 

[행동-중-성찰]로서의 [자체 모니터링]은 일상 업무에 authentic하다.

  • 임상의가 결정을 내릴 때, 그들은 옳다는 것에 대한 적절한 확신을 가질 필요가 있다.
  • 올바른 진단 또는 관리를 결정하지 못하면 환자에게 해를 끼칠 수 있으며 과소평가된 위험이 될 수 있습니다.
  • 더 나쁜 것은 [잘못된 행동]이 [높은 확실성]으로 유지되는 상황이다. 진단 오류는 병원 실무에서 발생하는 부작용의 10%에 기초한다. 진단 오류의 74~96%가 일부 인지적 요인을 포함하고 있는 것으로 보고되었다.
  • [인지 오류]는 모든 수준에서, 그리고 다양한 방식으로 임상의에 의해 발생한다.
  • 임상의는 그들이 환자의 진단 또는 최적의 치료라고 믿는 것을 고려한다.
  • 그런 다음 그들은 자신의 결정을 정당화하기 위해 도움을 구할 필요가 있는지 아니면 추가 정보를 구할 필요가 있는지 결정한다.
  • 임상 실무에서 의사결정에 대한 부적절한 확실성의 정도는 부작용과 환자 위해를 초래할 수 있다. 따라서 보건의료 전문가나 학생을 평가할 때, [응답에 대한 확실성]을 고려하는 것은 잠재적 가치가 있다.  

Self-monitoring as reflection-in-action is authentic to daily practice.5, 6, 9 

  • When clinicians make decisions, they need to have an appropriate certainty of being correct.1112 
  • Failure to decide on the correct diagnosis or management can lead to patient harm and is probably an underestimated risk.13 
  • Worse is the situation where an incorrect action is held with high certainty. Diagnostic error underlies 10% of adverse events in hospital practice.14 It is reported that 74–96% of diagnostic errors include some cognitive factors.
  • Cognitive errors are made by clinicians at all levels and in different ways.14 
  • Clinicians consider what they believe to be the patient's diagnosis or optimal treatment.
  • They then decide whether they need to seek assistance or additional information in order to justify their decisions.15 
  • In clinical practice, an inappropriate degree of certainty regarding a decision has the potential to lead to adverse outcomes and patient harm.16-18 Therefore, when assessing health care professionals or students, there is potential value in considering their certainty in their responses.19-21

[자신의 결함에 대해 잘 알지 못하는 사람들]은 [자신의 결정이 옳다는 확신]을 부적절하게 가질 수 있으며, 따라서 실수를 하기 쉽다. 일반 문헌의 상당 부분이 있으며, 의료 문헌은 기술이 낮은 사람들도 자신의 성과에 대해 덜 인식하고 있다는 것을 발견한다: ‘the unskilled are unaware’. 이는 숙련도가 낮은 사람들이 자신의 행동을 반성하고 스스로 바로잡을 수 없기 때문일 수 있다. 그러나 성적이 낮은 응시자는 성적이 좋은 또래와 마찬가지로 객관식 질문 응답 시간, 질문 플래그 지정 및 응답 변화를 분석할 경우, 실제로 '그 순간에in the moment' 성찰한다. 이는 형식이 [성찰과 자기 평가의 결과]에 영향을 미칠 수 있음을 시사한다. 
Those who are less aware of their deficiencies can have inappropriately high certainty that their decisions are correct,22-24 and are therefore more prone to error.25 There is a significant body of general literature 23, 25-30 and health care literature31-33 that finds that those with less skill are also less aware of their performance: ‘the unskilled are unaware’. This could be because the less skilled cannot reflect on their actions and self-correct. However, lower performing candidates, like their higher performing peers, do actually reflect ‘in the moment’ if multiple-choice question response time, flagging questions and changing response are analysed.8 This suggests the format may influence the results of reflection and self-assessment.34

[자기 평가의 정확성]을 결정하는 것은 임상 실습에서 자가 모니터링에 대한 모든 것이 진짜인 것은 아니지만 다양한 방법으로 달성되었다. 예를 들어, 정확할 확률을 추정하는 것은 적절하지 않을 수 있으며, 복잡한 의료 결정과 같은 일부 상황에서는 [확실성의 서면 서술자]가 선호될 수 있다. 환자와 관련된 결정을 내리는 임상의는 일반적으로 확률로 정확할 가능성에 대해 스스로 반성하지 않는다. 즉, 임상의는 '내가 70% 맞을 것 같다'고 생각하지 않는다. 대신, 그들은 [더 많은 정보나 도움이 필요한지] 고려할 수 있다. 이와 같이 의료 전문가 실무에서 일부 측정은 자체 모니터링을 위해 다른 측정보다 더 적절하다. 예를 들어, 반응이 정확할 확률을 추정하는 대신 도움을 구하는 것을 가리키는 확실성 설명자는 임상 실습과 더 유사하다. 마찬가지로 '찾아봐야 할 때'나 '타인에게 양보해야 할 때'와 같은 자기감시 수단을 일상적 실천에서의 [행동-중-성찰]로 보는 것이 더 적절할 수 있으며, 이러한 방법은 이전에 시범적으로 시행된 적이 있다. 이러한 발전은 임상 실무에 정통한 설명자를 사용하는 경우 일반적으로 평가가 더 정확하다는 연구 결과와 일치한다. 
Determining accuracy of self-assessment has been achieved in a variety of ways, not all of which are authentic to self-monitoring in clinical practice. For example, estimating the probability of being correct may not be appropriate35 and written descriptors of certainty may be preferable in some situations,36 such as in complex health care decisions.37 A clinician making a decision related to a patient generally does not self-reflect on his or her likelihood of being correct as a probability. In other words, a clinician does not consider ‘I'm likely to be 70% correct’. Instead, they might consider whether more information or assistance is needed. As such, within health care professional practice, some measurements are more appropriate than others for self-monitoring.5, 9 For example, certainty descriptors that refer to seeking assistance,37 as opposed to estimating a probability that a response is correct,9, 38 are more analogous to clinical practice. Likewise, looking at measures of self-monitoring such as ‘when to look it up’ or ‘defer to others’ as reflection-in-action in daily practice may be more appropriate,5, 6 and such methods have previously been piloted.19, 21 These developments are also consistent with the finding that assessments in general are more accurate if descriptors are used that are authentic to clinical practice.39

[reflection-in-action]에 의해 계층화된 확실성을 포함함으로써 [실제와 유사authentic to practice]한 평가 시스템은 형식의 무작위 제어 시험을 포함한 연구 프로젝트의 맥락에서 가능하다는 것이 입증되었다. 그러나 연구 프로젝트 상황에서의 응답은 [과정 평가in-course assessment]에서 응시자가 어떻게 응답하는지 반영하지 못할 수 있다.
An assessment system that is authentic to practice, by including certainty, stratified by reflection-in-action, has proven possible in the context of a research project, including a randomised controlled trial of formats.19, 21 However, responses in the setting of a research project may not reflect how candidates would respond in an in-course assessment.

자체 모니터링 능력과 정확성 사이의 연관성을 살펴보는 데 있어 추가 고려 사항은 해당 코호트의 능력 범위와 관련이 있다. 그러나 의과대학에서는 높은 능력을 가진 학생 코호트가 미리 선발된다. 그러므로 그들이 '미숙함'의 정도는 명확하지 않다.
A further consideration in looking at the association between ability and accuracy of self-monitoring, relates to the range of ability of the cohort in question.40 Within medical school classes, however, the cohort is preselected as having high ability. Therefore the extent to which they are ‘unskilled’ is not clear.

따라서 본 연구를 안내하는 개념적 프레임워크는 이러한 이전 연구를 바탕으로 하고 다음을 제안합니다. 

  • (i) [자체 모니터링 척도]가 평가 속성에 반영되어야 하는 [바람직한 실천 속성]임을 확인한다. 
  • (ii) [자체 모니터링의 측정방식]authentic practice와 관련이 있어야 한다. (즉, 질문의 문구는 그러한 판단이 임상 실무에서 어떻게 발생하는지와 관련되어야 한다.) 
  • (iii) 의과대학에서는 학생 간 능력이 균질하므로, 다른 그룹의 연구 결과가 의과대학 학생에게 적용되지 않을 수 있음을 의미한다.

The conceptual framework guiding this study therefore draws on these previous studies and suggests:

  • (i) that measures of self-monitoring are desirable attributes of practice that should be reflected in attributes of assessment
  • (ii) that the manner in which self-monitoring is measured needs also to relate to authentic practice (i.e. the wording of the question needs to relate to how such judgements occur in clinical practice); and
  • (iii) that the homogeneous nature of the abilities of individuals within medical school classes means the findings in other groups may not be applicable to medical students.

progress test 상황에서는 전 학년 학생들이 같은 시험 문제를 동시에 출제하는 것이 일반적이다. 학생들이 그 과정을 통과함에 따라 그들의 능력과 그에 따라 점수가 향상될 것으로 기대된다. 그러므로 하나의 progress test에는 다양한 범위의 경험과 능력을 가진 학생들이 동일한 시험을 본다. 이는 경험 수준에 따라 반응을 비교할 수 있는 기회를 제공합니다. 또한, 우리 기관에서 사용하는 progress test는 확실도 수준을 요구한다. 이러한 요인은 학생 경험과 학생 능력에 따라 계층화된 확실성과 정확성 수준 사이의 연관성을 탐구할 수 있는 독특한 기회를 제공한다.
In the setting of a progress test, it is usual for students from all years to sit the same examination questions at the same time. It is expected that as students pass through the course their ability and therefore scores will improve.41 Therefore for any given progress test there are students with a diverse range of experiences and abilities sitting an identical test. This provides an opportunity to compare responses according to levels of experience. Furthermore, the progress test used in our institution also asks for levels of certainty. These factors provide a unique opportunity to explore associations between levels of certainty and levels of correctness, stratified by student experience and by student ability.

이것은 객관식 질문(MCQ) 진행 테스트에서 행동 중 반영으로 설명되는 응답에 대한 후보 확실성의 첫 번째 사용이다. 이 연구는 두 가지 질문을 해결하기 위해 시작되었습니다. 

  • (i) 응답 확실성과 정확성 사이에는 어떤 관계가 있습니까? 
  • (ii) 이러한 확실성과 정확성의 측정은 연도 그룹 및 능력에 따라 어떻게 달라집니까?

This is the first use of candidate certainty regarding responses, described by reflection-in-action, in a multiple-choice question (MCQ) progress test. This research set out to address two questions.

  • (i) What is the relationship between response certainty and correctness?
  • (ii) How do these measures of certainty and correctness vary with year group and ability?

방법
Method

설정
Setting


오타고 의과대학의 의학 학위 과정은 6년 과정으로 4개의 뚜렷한 부분으로 나뉘어져 있다.

  • 첫번째는 일반적인 보건의료과학의 해이다.
  • 이것은 단일 캠퍼스에서 2학년과 3학년으로 이어진다.
  • 이후 학생들은 지리적으로 분리된 세 개의 캠퍼스 중 하나에서 4학년과 5학년 과정을 밟는다.
  • 마지막 해는 교육생 인턴(TI)의 해로, 학생들은 많은 다른 건강 관리 지역에 퍼져 있다. 비록 TI가 아직 학생이지만, 그들은 감독 아래 다양한 임무를 수행하는 건강 관리 팀의 구성원이다.

2-5학년 학생들은 모두 progress test를 보아야 한다.

The Medicine degree course at the University of Otago Medical School is a 6-year course that is divided into four distinct sections.

  • The first is a common health science year.
  • This is followed by years 2 and 3 at a single campus.
  • Following this, the students undertake years 4 and 5 at one of three geographically separate campuses.
  • The final year is a Trainee Intern (TI) year, with students spread across many different health care locations. Although TIs are still students, they are members of health care teams undertaking a variety of duties under supervision.

All students in Years 2–5 are expected to sit the progress test.

경과검사
Progress test

진도 테스트는 1년에 두 번 온라인으로 제공됩니다. 각 테스트는 무작위로 전달되는 150개의 MCQ로 구성됩니다. 각 MCQ는 스템, 질문 과제 및 5-16가지 옵션을 통합한다. 그 내용은 과정을 마칠 때까지 어느 시점에나 핵심 커리큘럼의 모든 측면과 관련이 있다.
The progress test is delivered online twice per year. Each test is made up of 150 MCQs delivered in random order. Each MCQ incorporates a stem, question task and a range of 5–16 options. The content is related to any aspects of the core curriculum at any point through to the completion of the course.

이 시험은 시험 조건 하에서 실시되지 않으며 학생들은 시험을 치를 수 있는 2주간의 기간이 있다. 학생들은 참고자료를 찾아보지 않고 시험에 참여하고 도전하도록 권장되지만, [확실성 응답certainty response]을 사용하여 이를 인정한다. 각 질문에 따라 학생들은 설명자를 기준으로 확실도 등급을 완성합니다(표 1).
This test is not administered under examination conditions and the students have a 2-week window to undertake the test. The students are encouraged to engage with and undertake the test without seeking resources, but acknowledge this by the use of the certainty response. Following each question the students complete a certainty rating based on descriptors (Table 1).

개별 시험에서 학생 개개인이 획득한 점수는 능력 부족을 벌하는 데 사용되지 않는다. 다만 정답 수가 찍어서맞출 확률(chance) 이하이거나, 시험 시간이 적은 학생(문항당 평균 20초 미만)은 개인적 교육 참여도에 대해 고려해보아야 할 수 잇으므로, 해당 학생진도위원회에 보고한다.
The score achieved by an individual student on an individual test is not used to penalise a lack of ability. However, students whose number of correct answers is at or less than chance or who spend little time on the test (a mean of < 20 seconds per question) are reported to the relevant student progress committee as this may inform consideration of their degree of engagement in personal education.

채점에 따라 각 연도 그룹의 최소 기준은 정답의 총 수를 기준으로 설정되었습니다.42 최소 기준은 피드백의 일부로 학생들에게 제공됩니다.

  • 모든 학생들에게 주어지는 추가 피드백에는 [학년별 각 확실도 수준에 따른 정답 비율]이 포함되어 있었다.
  • 개별 학생에게 주어지는 피드백에는 [커리큘럼 분야 또는 영역 분류에 따라, 각 확실도 수준에 따른 정답 비율]이 포함되었다.

2015년의 시험은 두 개의 다른 문제 풀로 구성되었다.
Minimum standards for each year group were set following the scoring, based on total number of correct answers.42 The minimum standards are given to students as part of their feedback.

  • Additional feedback given to all students included means of proportion correct for each level of certainty by year group.
  • Individual feedback included proportion correct for each level of certainty and proportion correct by curriculum discipline or domain categorisation.

The tests in 2015 were made up of two different pools of questions.

분석.
Analysis

혼합 모형 로지스틱 회귀 분석을 사용하여 확실도 수준, 검정 번호, 연도 그룹, 정답 수가 검사 시 표준보다 높거나 낮거나 이러한 요인 간의 모든 가능한 교호작용에 대한 항을 사용하여 모든 개별 문항에 대해 정답의 로그 확률을 모델링했습니다. 이 모형에는 학생과 모든 예측 변수, 그리고 학생과의 교호작용에 대한 랜덤 항이 포함되어 있습니다(학생이 1년 그룹에만 속해 있기 때문에 연도 그룹과 관련된 항은 제외). sas 9.4(SAS Institute Inc., Cary, North Carolina, 미국)의 글림믹스 절차를 사용하였다. 
A mixed model logistic regression analysis was used to model the log odds of being correct for any individual question with terms for level of certainty, test number, year group, number correct being above or below standard on examination and all possible interactions between these factors. The model included random terms for student and all of the predictors, and their interactions, with student (except those involving year group, as students were only in one year group). The glimmix procedure of sas 9.4 (SAS Institute Inc., Cary, North Carolina, USA) was used. 

결과.
Results


1차 시험 응시자는 1114명으로, 이 중 2학년 290명(정답 30.8%, 기준 67명), 3학년 279명(정답 36.6%, 기준 26명), 4학년 260명(정답 42.5%, 기준 14명), 5학년 285명(정답 280명)이었다.47.2%의 정확도, 5는 표준 이하).
2차 시험 응시자는 1114명으로, 이 중 2차 시험 287명(정답 31.2% 이하 73명), 3차 시험 272명(정답 232명, 정답 36.4% 이하 40명), 4차 시험 266명(정답 41.6% 이하 16명), 5차 시험 289명(정답 285명 이상 285명)이었다.
48.1%의 정확도, 4는 표준 이하). 

Test 1 was sat by 1114 students, of whom 290 were in Year 2 (223 were above the standard of 30.8% correct, 67 below the standard), 279 were in Year 3 (253 were above the standard of 36.6% correct, 26 below the standard), 260 were in Year 4 (246 were above the standard of 42.5% correct, 14 below the standard) and 285 were in Year 5 (280 were above the standard of 47.2% correct, 5 below the standard).
Test 2 was sat by 1114 students, of whom 287 were in Year 2 (214 were above the standard of 31.2% correct, 73 below the standard), 272 were in Year 3 (232 were above the standard of 36.4% correct, 40 below the standard), 266 were in Year 4 (250 were above the standard of 41.6% correct, 16 below the standard) and 289 were in Year 5 (285 were above the standard of 48.1% correct, 4 below the standard).

각 확실도 수준에 따른 MCQ 보기의 수는 거의 차이가 없었다(모든 확실도 수준에 대해 중위 6, 사분위간 범위 5-8). 전체적으로 51%의 경우, 정답을 맞추었고, 85%는 높은 확실성, 65%는 중간 정도, 38%는 낮은 확실성, 32%는 확실성이 없었다.
There was little difference in the number of MCQ options for each level of certainty (median 6, interquartile range 5–8 for all levels of certainty). In total, on 51% of occasions the questions were answered correctly, 85% with high certainty, 65% with moderate, 38% with low and 32% with no certainty.

혼합 모형 로지스틱 회귀 분석은 희소 데이터 때문에 4차 교호작용에 대해 가능하지 않으므로 교호작용이 포함되지 않았습니다. 모든 [3차 교호작용]이 있는 모형에서 확실도*테스트*표준, 확실성*연도 그룹*표준 및 검정*연도 그룹*표준 교호작용이 유의하지 않았으므로(각각 p = 0.30, 0.92, 0.43) 모형에서 제거되었습니다. 후속 모델인 Test*Standard와 Year group*Standard 교호작용은 유의하지 않았으며(각각 p = 0.20, 0.18)
The mixed-models logistic regression analysis was not possible for the four-way interaction because of sparse data, and hence the interaction was not included. In the model with all three-way interactions, Certainty*Test*Standard, Certainty*Year Group*Standard and Test*Year group*Standard interactions were not significant (p = 0.30, 0.92, 0.43, respectively) and so were removed from the model. In the subsequent model Test*Standard and Year group*Standard interactions were not significant (p = 0.20, 0.18, respectively) and were removed from the model.

결과 로지스틱 모형(표 2)에서 확실도*테스트*학년 그룹, 확실성*기준(위/아래)테스트*학년 그룹 상호작용이 유의했습니다(각각 p < 0.0001, p < 0.0001, p = 0.001). 모델은 주어진 테스트, 표준 및 연도 그룹(표 3)의 각 확실도 수준에 대한 정확성에 대한 승산비(OR)를 계산하는 데 사용되었다. OR은 2학년 학생들이 [기준 이하]이고, [답안에 대한 확신이 없는 질문]에 대해 계산되었다.
In the resulting logistic model (Table 2) the Certainty*Test*Year group, Certainty*Standard and Test*Year group interactions were significant (p < 0.0001, p < 0.0001 and p = 0.001, respectively). The model was used to calculate odds ratios (ORs) for correctness for each level of certainty given test, standard and year group (Table 3). The ORs were calculated relative to questions answered by Year 2 students who were below standard and had no certainty in their answers.

 

가장 경험이 부족하고 가장 낮은 수행자인 시험 1의 2학년 최소 기준 미달자를 포함한 모든 그룹, 표준 및 시험 번호의 경우, 확실도가 증가할 때마다 정확할 확률이 유의하게 증가하였다(모든 p < 0.0001).e all p < 0.01).
For all groups, allowing for year group, standard and test number, including Year 2 students who were below the minimum standard for Year 2 on Test 1, the most inexperienced and lowest performers, there were significant increases in the odds of being correct with each increasing level of certainty (all p < 0.0001, except from no to low certainty where all p < 0.01).

낮은 확률과 불확실한 확률에 대한 OR은 1.15(95% 신뢰 구간 [CI], 1.03–1.29)로 표준보다 낮았다(p = 0.02). 중간 대 낮은 확실성에 대한 OR은 1.15(95% CI, 1.03–1.27) 더 높았다(p = 0.009). 높은 확실성 대 중간 확실성의 경우 OR은 1.09배(95% CI, 0.94–1.25)로 유의하게 다르지 않았다(p = 0.26). 예를 들어, 2학년의 경우 표준보다 낮은 확률과 높은 확실성의 OR은 2.20/1.38(표 3) = 1.59로 표준 1.39(표 3)보다 1.15배 높다. 표 전체에 동일한 비율이 적용되므로, 이는 학년별 그룹 및 확실도 수준에서 확인할 수 있습니다.
The ORs for low versus no certainty were 1.15 (95% confidence interval [CI], 1.03–1.29) higher for those above the standard than those below (p = 0.02). The ORs for moderate versus low certainty were 1.15 (95%CI, 1.03–1.27) higher (p = 0.009). For high certainty versus moderate certainty the ORs were not significantly different at 1.09 times higher (95%CI, 0.94–1.25) (p = 0.26). For example, for year 2, the OR for low versus no certainty above the standard is 2.20/1.38 (Table 3) = 1.59, which is 1.15 times higher than for below the standard 1.39 (Table 3). As the same ratio applies throughout the table, this can be seen across year groups and levels of certainty.

논의
Discussion

우리는 [정답 확률이 확실성의 수준과 강하게 연관되어 있다]는 발견에 의해 결정되는 자체 모니터링의 정확성의 증거를 발견했다. 또한, 이전 연구와 달리, 우리는 [가장 정확할 가능성이 가장 낮은 학생]들, 특히 저학년 그룹에 있는 학생들, 가장 경험이 적은 학생들, 그리고 기준 이하의 성과를 가진 학생들에서도 그러한 정확한 자기 모니터링이 존재한다는 것을 발견했다. 표준 이하와 위의 OR을 비교할 때 낮은 확실도와 낮은 확실도, 낮은 확실도 또는 중간 정도의 확실도 사이에서 OR이 약간 증가했다.
We have found evidence of accuracy of self-monitoring as determined by the finding that the odds of being correct are strongly associated with the levels of certainty. Furthermore, and unlike previous work, we have found such accurate self-monitoring present even in those students who were least likely to be correct, specifically those in the earliest year group, those with the least experience and those with performance below standard. There was a small increase in the OR between no to low certainty and low to moderate certainty, but not moderate to high certainty, when comparing those below and above the standard.

[순간순간의moment-by-moment 성찰]을 장려하는 평가 형식은 자신의 한계에 대한 인식을 자극할 수 있다. 우리는 이러한 측정이 중요한 문헌과 달리 잘 수행되는 이유 중 하나가 [확실성 질문의 문구와 형식]이 임상 실습에 더 authentic했기 때문일 수 있다고 가정한다. 구체적으로, 문구는 정확할 가능성을 추정하기보다는 '찾아볼 때' 또는 '다른 사람에게 양보할 때'를 언급하였다. 응답 척도는 인지적 구조를 반영할 때 가장 잘 작동하는데, 이 경우 행동 중 반영을 목표로 하고 도움을 요청할 필요성과 관련이 있다. 확실성 설명자의 표현은 반응 및 의미를 변경할 수 있습니다. 안전하고 효과적인 임상 성과를 보장하기 위해서는 일상적 실무에서 반사를 다루는 평가가 더 중요할 수 있다.
Formats of assessment that encourage moment-by-moment reflection can stimulate awareness of limitations.9 We postulate that one of the reasons these measures perform well, and contrary to a significant body of literature,23, 25-33 could be that the wording and format of the certainty questions were more authentic to clinical practice. Specifically, the wording referred to ‘when to look it up’ or ‘defer to others’ rather than estimating a likelihood of being correct. Response scales work best when they reflect cognitive structuring,39 which in this case was targeted at reflection-in-action and tied to the need to ask for assistance. The wording of certainty descriptors can alter responses and therefore meanings.34, 43 An assessment that addresses reflection-in-action in daily practice could be more important for ensuring safe and effective clinical performance.5


연구 결과에 대한 대안적인 설명은 코호트와 하위 그룹은, 심지어 표준 이하의 성능을 가진 사람들조차도, 다른 요인 때문에 자기 모니터링의 증거를 보여주었다는 것이다. 이러한 요소에는 다음과 같은 것들이 포함될 수 있다.

  • 일반적인 프로세스가 자기 모니터링 용어보다는 자기 반성을 장려한다. 
  • 또는 의학적 학위 및 자체 모니터링 능력에 따라 선택된 이러한 학생 집단에게 고유한 요인.

An alternative explanation for the findings is that the cohort and subgroups, even those with performance below standard, demonstrated evidence of self-monitoring because of other factors. These factors may include:

  • the general process encouraged self-reflection, rather than specifically the self-monitoring terminology; or
  • a factor specific to these cohorts of students, selected according to the medical degree, and their ability to self-monitor.

기준 이하의 학생과 비교하여 기준 이상의 학생이 확실도 수준에 따라 정답을 맞출 OR이 작게 증가함을 고려할 때, [기준 이상above standard의 수행자]에 대한 자기 모니터링의 일부 개선이 발생할 수 있다. 그러나 자기 모니터링은 [기준 이하below standard]의 수행자에 대해서도 명백하다.
Given the small increase in the OR of being correct between levels of certainty for those above compared with those below standard, it could be that some improvement in self-monitoring occurs for those performing above standard; however, self-monitoring is apparent even for those performing below standard.

이 연구의 강점은 경험과 성과에 의해 정의된 하위 그룹 내에 충분한 수험자 수가 있는 데이터 세트에 대해 반사 작용으로 확실도 수준을 사용하여 정확성의 정확도를 탐구하는 첫 번째 분석이라는 것을 포함한다. 두 개의 서로 다른 테스트 관리에서 분석을 반복하고 동일한 결과를 찾으면 결과의 일반화 가능성이 높아집니다. 
The strengths of this study include that this is the first analysis, to our knowledge, to explore the accuracy of correctness using levels of certainty as reflection-in-action, for a dataset where there are sufficient examinee numbers within subgroups defined by experience and performance. Repeating the analysis across two separate administrations of a test, and finding the same results, increases the generalisability of the findings.

[도움의 필요성을 인정]한다면 외부 인지적 지원의 역할을 인식할 수 있다. 이 응답 형식에서 생성된 추가 정보는 학생 학습을 안내하고 학생 진행에 대한 결정을 안내할 수 있습니다. 비록 우리는 학생들이 일반적으로 정확한 자기 모니터링을 보인다는 것을 발견했지만, 이것을 덜 할 수 있는 특이치 학생들이 있을 수 있다. 이러한 학생들을 식별하고 추적하며, 그들의 결과를 다른 평가와 비교하고 학습에 미치는 영향을 평가하는 것은 미래 탐구 영역이다. 특히, 현재 연구는 단일 학년도 안에서 확인한 스냅샷을 보고했지만, 시간이 지남에 따라 응답 패턴이 분명해질 수 있다. 우리는 잘못된 정보를 높은 수준의 확실성으로 보유하는 소규모 학생 그룹을 식별할 수 있는 잠재적 이점이 있다고 제안한다.
Acknowledging the need for assistance recognises the role of external cognitive support.15 The extra information generated from this response format can guide student learning and can guide decisions on student progress. Although we have found that the student cohorts generally show accurate self-monitoring, there may well be outlier students who are less able to do this. Identifying and following such students, comparing their results with other assessments and evaluating any effect on learning, are areas for future exploration. In particular, the current study reports a snapshot within a single calendar year, but over time response patterns may become apparent. We suggest that there is potential benefit in being able to identify the small group of students who hold erroneous information with high levels of certainty.

정답 숫자를 가지고 합격 또는 불합격 결정을 내리는 데 사용되는 평가에는 [행동 중 성찰의 설명자]에 의해 정의된 확실성이 포함될 수 있다. 주어진 시점에서 학생 확실성과 관련된 단일 응답 집합은 특히 과정 초기에 충분한 증거로 간주되지 않을 수 있다. 그러나 피드백과 반영하고 개선할 시간에도 불구하고 지속되는 대응 패턴은 주목할 만하다.
Certainty defined by descriptors of reflection-in-action could be included in assessments where the numbers correct are used to inform pass or fail decisions. A single set of responses relating to student certainty, at a given point in time, might not be considered sufficient evidence, especially early in a course; however, a concerning pattern of response that persists despite feedback and time to reflect and improve might become noteworthy.

[실무와 맞는 평가]를 만드는 것은 의학 교육에서 지속적인 도전이다. 우리의 [지식 테스트]가 그러한 [전문적인 관행과 병행되도록 보장]하는 것은 [authentic한 응답의 형식과 표현을 개발]하는 데 도움이 된다. 이 시험 형식은 학생들의 반응이 다른 형식과 다르다는 것을 보여줄 뿐만 아니라, 전문적인 실습에서 기대와 일치한다.
Making assessments authentic to practice is an enduring challenge in medical education. Ensuring our tests of knowledge parallel such professional practice is aided by developing formats and wording of responses that are authentic. This test format not only shows that student responses are different from other formats, but is aligned with expectations in professional practice.

결론들
Conclusions

[행동-중-성찰 설명자]는 실무에 authentic하며, 학생들의 응답에 대한 확실성을 문서화하는 더 나은 방법입니다. 심지어 확실성 수준과 무관하게, 정답을 맞출 가능성이 낮을 [저학년 그룹과 수행능력 저조 그룹의 학생들]도 확실성이 증가함에 따라 정답률이 증가함을 보여주었다. 실제 자체 모니터링에 적합한 reflection-in-action 설명자를 사용하면 능력이 낮은 사람들이 적절한 확실성을 확인할 수 있다.
Reflection-in-action descriptors are authentic to practice and a better way to document students' certainty in their responses. Even students in lower year groups and lower performance groups who were less likely to be correct for any given level of certainty, still demonstrated an increase in correctness with increasing certainty. Using reflection-in-action descriptors, which are authentic for self-monitoring in practice, enables those of lower ability to confirm their appropriate certainty.

 

 


 

Med Educ. 2017 Mar;51(3):316-323. doi: 10.1111/medu.13206. Epub 2017 Jan 12.

Low performing students have insightfulness when they reflect-in-action

Affiliations collapse

Affiliations

1School of Medicine and Health Sciences, University of Otago, Wellington, New Zealand.

2School of Medicine and Health Sciences, University of Otago, Christchurch, New Zealand.

PMID: 28084033

DOI: 10.1111/medu.13206

Abstract

Context: Measuring appropriateness of certainty of responses in a progress test using descriptors authentic to practice as reflection-in-action builds on existing theories of self-monitoring. Clinicians making decisions require the ability to accurately self-monitor, including certainty of being correct. Inappropriate certainty could lead to medical error. Self-assessment and certainty of assessment performance have been measured in a variety of ways. Previous work has shown that those with less experience are less accurate in self-assessment, but such studies looked at self-assessment using methods less authentic to clinical practice. This study investigates how correctness varies with certainty, allowing for experience and performance.

Methods: Students in Years 2-5 were certain of their responses to two iterations of a progress test during one calendar year. Analyses compared correctness for certainty of response, test number, student year cohort and performance level, defined by criterion scores.

Results: The odds of a correct response increased with student certainty for all subsets allowing for year group and ability, including student subsets with less experience and subsets in lower-performance groups.

Conclusion: Unlike previous work showing poorer accuracy of self-assessment for those with less experience or ability, we postulate that our finding of similar increases in correctness with increasing certainty even in the less experienced and lower performance groups, relates to certainty descriptors being worded in a way that is authentic to clinical practice, and in turn related to reflection-in-action.

+ Recent posts