가이드라인: 의학교육에서 임상술기 직접관찰의 할 것, 하지 말 것, 모르는 것 (Perspect Med Educ, 2017)
Guidelines: The do’s, don’ts and don’t knows of direct observation of clinical skills in medical education
Jennifer R. Kogan1 · Rose Hatala2 · Karen E.Hauer3 · Eric Holmboe4

 

 

소개
Introduction

임상 술기를 직접 관찰하는 것은 역량 기반 의학교육의 핵심 평가 전략이지만, 모든 졸업생이 필수 영역에서 역량을 갖출 수 있도록 하는 것은 항상 의료 전문직 교육에 필수적이었습니다[1, 2]. 이 가이드라인에서는 다음과 같은 역량에 대한 정의를 사용합니다: '의학교육 또는 실습의 정의된 단계에서 특정 맥락에서 모든 영역에서 요구되는 능력을 보유하는 것[1]'. 이제 교육 프로그램과 전문과목은 관찰 및 평가할 수 있는 필수 역량, 역량 구성 요소, 발달 이정표, 성과 수준 및 위탁 가능한 전문 활동(EPA)을 정의했습니다. 그 결과, 학습자(의대생, 대학원 또는 대학원 수련의)가 의미 있고 진정성 있고 현실적인 환자 치료 및 임상 활동에 참여하는 동안 감독자가 관찰하는 직접 관찰이 점점 더 강조되는 평가 방법[3, 4]이 되고 있습니다[4, 5]. [직접 참관]은 의학교육 연락 위원회, 의학전문대학원 교육 인증위원회, 영국 파운데이션 프로그램과 같은 의학교육 인증 기관에서 요구합니다[6,7,8]. 그러나 그 중요성에도 불구하고 임상 술기에 대한 직접 관찰은 드물고 관찰의 질이 떨어질 수 있습니다[9,10,11]. 양질의 직접 관찰이 부족하면 학습에 중대한 영향을 미칩니다. 형성적 관점에서 학습자는 임상 술기 개발을 지원하기 위한 피드백을 받지 못합니다. 또한 학습자의 역량과 궁극적으로 환자에게 제공되는 치료의 질에 대한 종합적인 평가도 위태롭습니다.  
While direct observation of clinical skills is a key assessment strategy in competency-based medical education, it has always been essential to health professions education to ensure that all graduates are competent in essential domains [1, 2]. For the purposes of these guidelines, we use the following definition of competent: ‘Possessing the required abilities in all domains in a certain context at a defined stage of medical education or practice [1].’ Training programs and specialties have now defined required competencies, competency components, developmental milestones, performance levels and entrustable professional activities (EPAs) that can be observed and assessed. As a result, direct observation is an increasingly emphasized assessment method [3, 4] in which learners (medical students, graduate or postgraduate trainees) are observed by a supervisor while engaging in meaningful, authentic, realistic patient care and clinical activities [4, 5]. Direct observation is required by medical education accrediting bodies such as the Liaison Committee on Medical Education, the Accreditation Council of Graduate Medical Education and the UK Foundation Program [6,7,8]. However, despite its importance, direct observation of clinical skills is infrequent and the quality of observation may be poor [9,10,11]. Lack of high quality direct observation has significant implications for learning. From a formative perspective, learners do not receive feedback to support the development of their clinical skills. Also at stake is the summative assessment of learners’ competence and ultimately the quality of care provided to patients.

이 백서에서 제안하는 가이드라인은 임상 술기 직접 관찰에 관한 문헌의 종합을 기반으로 하며, 학습자 감독자와 의학교육 임상 교육 프로그램을 담당하는 교육 리더 모두에게 실질적인 권장 사항을 제공합니다. 이 백서의 목적은

  • 1) 일선 교사, 학습자 및 교육 리더가 직접 관찰의 질과 빈도를 개선하도록 돕고,
  • 2) 직접 관찰에 대한 현재의 관점을 공유하며,
  • 3) 이 분야를 발전시키기 위한 향후 연구 의제에 정보를 제공할 수 있는 이해의 격차를 파악하는 것입니다.

The guidelines proposed in this paper are based on a synthesis of the literature on direct observation of clinical skills and provide practical recommendations for both supervisors of learners and the educational leaders responsible for medical education clinical training programs. The objectives of this paper are to

  • 1) help frontline teachers, learners and educational leaders improve the quality and frequency of direct observation;
  • 2) share current perspectives about direct observation; and
  • 3) identify gaps in understanding that could inform future research agendas to move the field forward.

방법
Methods

이 지침은 직접 관찰에 대한 연구 경험이 있고 임상 환경에서 학부(의대생) 및 대학원/대학원(레지던트/펠로우) 학습자를 가르치고, 관찰하고, 피드백을 제공한 실무 경험이 있는 2개국 4명의 의학교육자의 전문가 의견과 함께 기존 증거에 대한 서술적 검토[12]로 이루어졌습니다. 반복적인 프로세스를 통해 가이드라인을 개발했습니다. 특히 병력 청취, 신체 검사, 상담 및 시술 기술 관찰과 같이 학습자가 환자 및 그 가족과 상호작용하는 모습을 직접 관찰하는 것으로 범위를 제한했습니다. 고품질의 직접 관찰을 촉진하고 보장하는 권장 사항을 만들기 위해 일선 교사/감독자, 학습자, 교육 리더 및 상황을 구성하는 기관에 초점을 맞추었습니다.

This is a narrative review [12] of the existing evidence coupled with the expert opinion of four medical educators from two countries who have research experience in direct observation and who have practical experience teaching, observing, and providing feedback to undergraduate (medical student) and graduate/postgraduate (resident/fellow) learners in the clinical setting. We developed the guidelines using an iterative process. We limited the paper’s scope to direct observation of learners interacting with patients and their families, particularly observation of history taking, physical exam, counselling and procedural skills. To create recommendations that promote and assure high quality direct observation, we focused on the frontline teachers/supervisors, learners, educational leaders, and the institutions that constitute the context. 

형성 평가와 총괄 평가 모두에 사용되는 직접 관찰을 다루었습니다. 평가의 단계는 연속적이지만,

  • [형성 평가]는 학습자 성취도에 대한 증거를 도출하고 해석하여 교사와 학습자가 수업의 다음 단계에 대한 결정을 내리는 데 사용하는 저부담의 평가로 정의하고,
  • [총괄 평가]는 행정적 결정의 주요 목적(예: 진도 진행 여부, 졸업 여부 등)을 위해 학습자를 평가하도록 고안된 고부담의 평가로 정의합니다[13].

다음은 제외했습니다

  • 1) 모의 진료, 비디오 녹화 진료 및 기타 기술(예: 프레젠테이션 기술, 전문가 간 팀 기술 등)에 대한 관찰,
  • 2) 실무 의사에 초점을 맞춘 직접 관찰,
  • 3) 다른 형태의 작업장 기반 평가(예: 차트 감사)

직접 관찰의 중요한 측면은 관찰 후 학습자에게 피드백을 제공하는 것이지만, 피드백 가이드라인이 이미 발표되었기 때문에 피드백에 초점을 맞춘 가이드라인의 수를 제한하기로 합의했습니다[14].
We addressed direct observation used for both formative and summative assessment. Although the stakes of assessment are a continuum, we define

  • formative assessment as lower-stakes assessment where evidence about learner achievement is elicited, interpreted and used by teachers and learners to make decisions about next steps in instruction, while
  • summative assessment is a higher-stakes assessment designed to evaluate the learner for the primary purpose of an administrative decision (i. e. progress or not, graduate or not, etc.) [13].

We excluded

  • 1) observation of simulated encounters, video recorded encounters, and other skills (e. g. presentation skills, inter-professional team skills, etc.);
  • 2) direct observation focused on practising physicians; and
  • 3) other forms of workplace-based assessment (e. g. chart audit).

Although an important aspect of direct observation is feedback to learners after observation, we agreed to limit the number of guidelines focused on feedback because a feedback guideline has already been published [14].

이러한 매개변수를 정의한 후 각 저자는 아래에 정의된 대로 해야 할 일, 하지 말아야 할 일 및 모르는 일 목록을 독립적으로 생성했습니다. 특히 '모르겠다'는 답변이 있을 경우 교육 관행을 바꿀 수 있는 항목에 초점을 맞추었습니다. 일련의 반복적인 토론을 통해 [해야 할 일, 하지 말아야 할 일, 모르는 일] 목록에 합의할 때까지 목록을 검토하고 토론하고 다듬었습니다. 그런 다음 항목은 4명의 저자가 나누어 담당했으며, 각 저자는 할당된 항목에 대한 찬성과 반대의 증거를 식별할 책임이 있었습니다. 주로 임상 술기의 직접 관찰에 초점을 맞춘 근거를 찾았지만, 근거가 부족한 경우 다른 평가 양식과 관련된 근거도 고려했습니다. 그런 다음 모든 저자가 증거 요약을 공유했습니다. 필요한 경우 근거에 따라 항목을 재분류하고 상충되는 근거가 있는 항목은 '잘 모름' 범주로 이동했습니다. 그룹 합의를 통해 이전 지침의 강도 지표를 사용하여 각 지침을 뒷받침하는 근거의 강도를 결정했습니다([14], 표 1). 직접 관찰이 아닌 평가 방식을 추정하여 얻은 증거는 보통 이상의 지지를 받지 못했습니다. 
With these parameters defined, each author then independently generated a list of Do’s, Don’ts and Don’t Knows as defined below. We focused on Don’t Knows which, if answered, might change educational practice. Through a series of iterative discussions, the lists were reviewed, discussed and refined until we had agreed upon the list of Do’s, Don’ts and Don’t Knows. The items were then divided amongst the four authors; each author was responsible for identifying the evidence for and against assigned items. We primarily sought evidence explicitly focused on direct observation of clinical skills; however, where evidence was lacking, we also considered evidence associated with other assessment modalities. Summaries of evidence were then shared amongst all authors. We re-categorized items when needed based on evidence and moved any item for which there was conflicting evidence to the Don’t Know category. We used group consensus to determine the strength of evidence supporting each guideline using the indicators of strength from prior guidelines ([14]; Table 1). We did not give a guideline higher than moderate support when evidence came from extrapolation of assessment modalities other than direct observation.

결과
Results

원래 목록에는 개별 감독자, 학습자, 교육 프로그램을 담당하는 교육 리더의 세 그룹에 초점을 맞춘 지침이 있었습니다. 이 초기 목록에는 67개(해야 할 일 35개, 하지 말아야 할 일 16개, 잘 모르겠다 16개)의 항목이 있었습니다. 그룹 토론을 통해 유사하거나 중복되는 항목을 합쳐 33개로 줄였고, 중요하지 않다고 판단된 항목은 2개만 삭제했습니다. 교육 프로그램을 담당하는 교육 리더를 위한 지침에 학습자 중심의 항목을 포함시켜 중복 항목을 줄이고, 교육 리더가 학습자가 직접 관찰하고 피드백을 학습 전략의 일부로 통합하도록 활성화하는 학습 문화를 조성하는 것이 얼마나 중요한지 강조하기로 했습니다.
Our original lists had guidelines focused on three groups: individual supervisors, learners, and educational leaders responsible for training programs. This initial list of Do’s, Don’ts and Don’t Knows numbered 67 (35 Do’s, 16 Don’ts, 16 Don’t Knows). We reduced this to the 33 presented by combining similar and redundant items, with only two being dropped as unimportant based on group discussion. We decided to embed items focused on learners within the guidelines for educational leaders responsible for training programs to reduce redundancy and to emphasize how important it is for educational leaders to create a learning culture that activates learners to seek direct observation and incorporate feedback as part of their learning strategies.

증거를 검토한 결과, 원래 '해야 할 일'로 정의된 4개 항목이 '모름'으로 이동되었습니다. 해야 할 일, 하지 말아야 할 일 및 잘 모름의 최종 목록은 개별 감독자에 초점을 맞춘 지침(표 2)과 교육 프로그램을 담당하는 교육 리더에 초점을 맞춘 지침(표 3)의 두 섹션으로 나뉩니다. 이 원고의 나머지 부분에서는 각 지침을 뒷받침하는 주요 근거와 이용 가능한 문헌에 근거한 지침의 강점을 제공합니다.
After review of the evidence, four items originally defined as a Do were moved to a Don’t Know. The final list of Do’s, Don’ts and Don’t Knows is divided into two sections: guidelines that focus on individual supervisors (Table 2) and guidelines that focus on educational leaders responsible for training programs (Table 3). The remainder of this manuscript provides the key evidence to support each guideline and the strength of the guideline based on available literature.

 

 

직접 관찰을 수행하는 개별 임상 감독자를 위한 근거가 포함된 가이드라인
Guidelines with supporting evidence for individual clinical supervisors doing direct observation

개별 슈퍼바이저가 해야 할 일
Do’s for individual supervisors

지침 1. 실제 임상 현장에서 실제 임상 업무를 관찰합니다.
Guideline 1. Do observe authentic clinical work in actual clinical encounters.

직접 관찰은 임상 현장에서 이루어지는 평가로서 임상 역량 평가를 위한 밀러 피라미드의 최상단에 있는 '해야 한다'의 평가를 지원합니다[15, 16]. 교육과 평가의 목표는 임상 환경에서 감독 없이 실습할 수 있는 의사를 배출하는 것이므로, 학습자는 임상 역량을 입증해야 하는 환경에서 관찰되어야 합니다. 실제 임상 상황은 시뮬레이션이나 역할극보다 더 복잡하고 미묘하며 다양한 맥락을 수반하는 경우가 많으므로 실제 임상 진료를 직접 관찰하면 이러한 복잡성을 탐색하는 데 필요한 임상 기술을 관찰할 수 있습니다[17].
Direct observation, as an assessment that occurs in the workplace, supports the assessment of ‘does’ at the top of Miller’s pyramid for assessing clinical competence [15, 16]. Because the goal of training and assessment is to produce physicians who can practise in the clinical setting unsupervised, learners should be observed in the setting in which they need to demonstrate clinical competence. Actual clinical encounters are often more complex and nuanced than simulations or role plays and involve variable context; direct observation of actual clinical care enables observation of the clinical skills required to navigate this complexity [17].

학습자와 교사는 임상 활동 참여를 통한 실습이 학습의 핵심임을 인식하고 있습니다[18,19,20]. [진정성]은 상황별 학습의 핵심 요소이며, 학습이 실제와 가까울수록 기술을 더 빠르고 효과적으로 학습할 수 있습니다[21, 22]. 또한 학습자는 실제 환자와의 만남과 그 환경이 시뮬레이션된 만남보다 더 자연스럽고 유익하며 흥미진진하다고 느끼며, 시뮬레이션된 만남보다 실제 만남에 대해 더 많은 준비를 하고 자율 학습에 대한 더 강한 동기를 표현할 수 있습니다[23]. 학습자는 시간이 지남에 따라 의미 있는 임상 진료에 참여하는 것을 관찰한 후 발생하는 평가와 피드백을 중요하게 생각합니다[24,25,26]. [진정한 만남의 예]로는 임상팀이 이미 병력을 확보한 환자에 대해 학습자가 병력을 작성하는 것을 지켜보는 것보다, 학습자가 초기 병력을 작성하는 것을 지켜보는 것을 들 수 있습니다. 
Learners and teachers recognize that hands-on-learning via participation in clinical activities is central to learning [18,19,20]. Authenticity is a key aspect in contextual learning; the closer the learning is to real life, the more quickly and effectively skills can be learned [21, 22]. Learners also find real patient encounters and the setting in which they occur more natural, instructive and exciting than simulated encounters; they may prepare themselves more for real versus simulated encounters and express a stronger motivation for self-study [23]. Learners value the assessment and feedback that occurs after being observed participating in meaningful clinical care over time [24,25,26]. An example of an authentic encounter would be watching a learner take an initial history rather than watching the learner take a history on a patient from whom the clinical team had already obtained a history.

감독자는 학습자를 실제 상황에서 관찰하려고 노력할 수 있지만, 저자의 경험에 따르면 학습자는 관찰을 받을 때 비실제적인 실습(예: 환자 병력을 기록할 때 전자 건강 기록에 입력하지 않거나 더 집중적인 검사가 적절한데도 종합적인 신체 검사를 하는 등)을 기본값으로 설정할 수 있습니다. 관찰자 효과가 성과에 미치는 영향에 대해서는 논란의 여지가 있지만(호손 효과라고도 함)[11, 27], 관찰자는 학습자가 실제 업무 행동에 대한 피드백을 받을 수 있도록 학습자가 '평소에 하던 대로' 하도록 격려해야 합니다. 관찰자는 [호손 효과]에 대한 두려움을 임상 환경에서 학습자를 관찰하지 않는 이유로 사용해서는 안 됩니다[지침 18 참조].
Although supervisors may try to observe learners in authentic situations, it is the authors’ experience that learners may default to inauthentic practice when being observed (for example, not typing in the electronic health record when taking a patient history or doing a comprehensive physical exam when a more focused exam is appropriate). While the impact of observer effects on performance is controversial (known as the Hawthorne effect) [11, 27], observers should encourage learners to ‘do what they would normally do’ so that learners can receive feedback on their actual work behaviours. Observers should not use fear of the Hawthorne effect as a reason not to observe learners in the clinical setting [see Guideline 18].

지침 2. 관찰하기 전평가의 후과 및 성과를 포함하여 목표를 논의하고 기대치를 설정하여 학습자를 준비시킵니다.
Guideline 2.
Do prepare the learner prior to observation by discussing goals and setting expectations, including the consequences and outcomes of the assessment.

목표 설정에는 학습자와 감독자 간의 협상이 포함되어야 하며, 가능한 경우 직접 관찰에서는 학습자가 가장 필요하다고 느끼는 것에 초점을 맞추어야 합니다. 학습자의 목표는 어떤 활동에 참여할지, 그리고 그러한 활동에 대한 접근 방식에 대해 학습자가 선택할 수 있도록 동기를 부여합니다. 잘 수행하고 '잘 보이는 것'보다는 [학습과 개선을 지향하는 목표]는 학습자가 직접 관찰에 수반될 수 있는 피드백과 교육을 더 잘 수용할 수 있도록 합니다[28, 29]. 학습자가 직접 관찰을 언제, 무엇을 위해 수행할지 자율적으로 결정하면 관찰에 대한 동기가 강화되고 수행 목표에서 학습 목표로 초점을 전환할 수 있습니다[30, 31]. 교사는 학습자의 목표를 묻고 이를 해결하기 위해 교육 및 관찰의 초점을 조정함으로써 이러한 자율성을 촉진할 수 있습니다. 예를 들어, 동일한 임상 상황 내에서 감독자는 학습자가 관찰 및 피드백의 초점(병력 기록, 의사소통 또는 환자 관리)을 선택할 수 있도록 함으로써 학습자를 위한 직접 관찰의 관련성을 높일 수 있습니다. 학습자의 목표는 프로그램 목표, 역량(예: 마일스톤) 및 특정 개인의 필요와 일치해야 합니다[지침 17 참조]. 모든 수준의 학습자에게 목표를 설정하도록 요청하면 어려움을 겪는 학습자에게 초점을 맞추기보다는 모든 학습자에게 개선의 중요성을 정상화하는 데 도움이 됩니다. 관찰자와 학습자 간의 협력적 접근 방식은 아래에 설명된 자기조절 학습 주기의 첫 번째 단계인 학습 계획을 촉진합니다[32]. 학습자는 특정 개인화된 목표를 식별하고 이를 위해 노력하라는 요청을 받아들이고, 그렇게 함으로써 학습에 대한 책임감을 심어줍니다[31]. 
Setting goals should involve a negotiation between the learner and supervisor and, where possible, direct observation should include a focus on what learners feel they most need. Learners’ goals motivate their choices about what activities to engage in and their approach to those activities. Goals oriented toward learning and improvement rather than performing well and ‘looking good’ better enable learners to embrace the feedback and teaching that can accompany direct observation [28, 29]. Learners’ autonomy to determine when and for what direct observation will be performed can enhance their motivation to be observed and shifts their focus from performance goals to learning goals [30, 31]. Teachers can foster this autonomy by soliciting learners’ goals and adapting the focus of their teaching and observation to address them. For example, within the same clinical encounter, a supervisor can increase the relevance of direct observation for the learner by allowing the learner to select the focus of observation and feedback-history taking, communication, or patient management. A learner’s goals should align with program objectives, competencies (e. g. milestones) and specific individual needs [see Guideline 17]. Asking learners at all levels to set goals helps normalize the importance of improvement for all learners rather than focusing on struggling learners. A collaborative approach between the observer and learner fosters the planning of learning, the first step in the self-regulated learning cycle described below [32]. Learners are receptive to being asked to identify and work towards specific personalized goals, and doing so instills accountability for their learning [31].

관찰하기 전에 관찰자는 평가의 후과에 대해서도 학습자와 논의해야 합니다. 관찰이 높은 수준의 평가가 아닌 피드백을 위해 사용되는 경우 이를 명확히 하는 것이 중요합니다. 학습자는 직접 관찰을 통해 얻을 수 있는 형성적 학습 기회의 이점을 인식하지 못하는 경우가 많으므로 이점을 설명하는 것이 도움이 될 수 있습니다[33]. 
Prior to observation, observers should also discuss with the learner the consequences of the assessment. It is important to clarify when the observation is being used for feedback as opposed to high-stakes assessment. Learners often do not recognize the benefits of the formative learning opportunities afforded by direct observation, and hence explaining the benefits may be helpful [33].

가이드라인 3. 학습자의 자기조절 학습 능력배양합니다.
Guideline 3. 
Do cultivate learners’ skills in self-regulated learning.

학습을 향상시키기 위한 직접 관찰을 위해 학습자는 개별 목표를 달성하기 위해 받은 피드백의 유용성을 극대화하는 전략을 사용할 준비가 되어 있어야 합니다. 자신의 학습 요구와 지식 및 성과 향상에 필요한 행동에 대한 인식은 직접 관찰의 가치를 최적화합니다. 자기조절 학습은 다음의 지속적인 주기를 설명합니다[32].  

  • 1) 학습을 위한 계획 수립,
  • 2) 활동 중 자기 모니터링 및 학습과 성과를 최적화하기 위해 필요한 조정,
  • 3) 활동 후 목표 달성 여부 또는 어려움의 위치와 이유에 대한 성찰

직접 관찰의 맥락에서의 예는 그림 1에 나와 있습니다. 직접 관찰의 맥락에서 발생하는 것처럼 활동 중에 소량의 특정 피드백을 제공하면 자기조절 학습이 극대화됩니다[34]. 훈련생은 피드백을 구함으로써 스스로 평가한 성과를 보강하는 정도가 다양합니다[35]. [직접 관찰과 피드백을 결합]하면 학습자가 받는 피드백의 양을 늘림으로써 이러한 문제를 극복하는 데 도움이 될 수 있습니다[프로그램 지침 18 참조]. 

For direct observation to enhance learning, the learner should be prepared to use strategies that maximize the usefulness of feedback received to achieve individual goals. Awareness of one’s learning needs and actions needed to improve one’s knowledge and performance optimize the value of being directly observed. Self-regulated learning describes an ongoing cycle of

  • 1) planning for one’s learning;
  • 2) self-monitoring during an activity and making needed adjustments to optimize learning and performance; and
  • 3) reflecting after an activity about whether a goal was achieved or where and why difficulties were encountered [32].

An example in the context of direct observation is shown in Fig. 1. Self-regulated learning is maximized with provision of small, specific amounts of feedback during an activity [34] as occurs in the context of direct observation. Trainees vary in the degree to which they augment their self-assessed performance by seeking feedback [35]. Direct observation combined with feedback can help overcome this challenge by increasing the amount of feedback learners receive [see Program Guideline 18].

가이드라인 4. 중요한 임상 술기는 대리 정보를 사용하지 말고 직접 관찰을 통해 평가합니다.
Guideline 4. 
Do assess important clinical skills via direct observation rather than using proxy information.

감독자는 평가할 술기를 직접 관찰해야 합니다. 실제로 감독자는 학습자의 임상 술기를 평가할 때 대리 정보를 기반으로 하는 경우가 많습니다. 예를 들어, 감독자는 학습자가 환자를 진찰하는 것을 듣고 병력 및 신체 검사 기술을 추론하거나 학습자와 팀과의 상호 작용을 기반으로 환자와의 대인관계 기술을 추론하는 경우가 많습니다[36]. 직접 관찰은 임상 수행 평가의 질, 의미, 신뢰성 및 타당성을 향상시킵니다[37]. 감독자와 학습자는 직접 관찰에 기반한 평가를 효과적인 평가자의 가장 중요한 특성 중 하나로 간주합니다[38]. 또한 학습자는 직접 관찰에 기반한 교육생에 대한 직접적인 정보에 근거할 때 교육 중 평가가 가치 있고 정확하며 신뢰할 수 있다고 생각할 가능성이 더 높습니다[39]. 예를 들어, 로테이션이 끝날 때 평가할 술기인 경우, 감독자는 로테이션이 진행되는 동안 학습자가 병력을 작성하는 것을 여러 번 직접 관찰해야 합니다. 
Supervisors should directly observe skills they will be asked to assess. In reality, supervisors often base their assessment of a learner’s clinical skills on proxy information. For example, supervisors often infer history and physical exam skills after listening to a learner present a patient or infer interpersonal skills with patients based on learner interactions with the team [36]. Direct observation improves the quality, meaningfulness, reliability and validity of clinical performance ratings [37]. Supervisors and learners consider assessment based on direct observation to be one of the most important characteristics of effective assessors [38]. Learners are also more likely to find in-training assessments valuable, accurate and credible when they are grounded in first-hand information of the trainee based on direct observation [39]. For example, if history taking is a skill that will be assessed at the end of a rotation, supervisors should directly observe a learner taking a history multiple times over the rotation.

가이드라인 5. 실습을 방해하지 않고 관찰합니다.
Guideline 5. 
Do observe without interrupting the encounter.


관찰자는 가능한 한 학습자가 방해받지 않고 면담을 진행할 수 있도록 해야 합니다. 학습자는 자율성과 점진적인 독립성을 중요하게 생각합니다[40, 41]. 많은 학습자는 이미 직접 관찰이 학습, 자율성 및 환자와의 관계에 방해가 된다고 느끼고 있으며, 방해는 이러한 우려를 더욱 악화시킵니다[42, 43]. 학습자가 환자 치료에 참여하는 동안 방해하면 학습자의 구두 사례 발표(임상 추론에 대한 직접 관찰의 예)를 중단한 감독자에 대한 연구에서 볼 수 있듯이 중요한 정보가 누락될 수 있습니다[44]. 또한 평가자는 종종 자신의 존재가 학습자와 환자의 관계를 손상시킬 수 있다고 걱정합니다. 관찰자는 환자가 학습자를 우선적으로 바라볼 수 있도록 환자의 주변 시야에 위치하여 직접 관찰하는 동안 방해 요소를 최소화할 수 있습니다. 이러한 위치에서도 관찰자는 [학습자와 환자의 얼굴을 모두 볼 수 있어야 비언어적 단서를 식별]할 수 있습니다. 또한 관찰자는 학습자가 심각한 오류를 범하지 않는 한 학습자와 환자의 상호 작용을 방해하지 않음으로써 관찰자의 존재감을 최소화할 수 있습니다. 관찰자는 과도한 움직임이나 소음(예: 펜 두드리기)과 같이 주의를 산만하게 하는 방해 요소를 피해야 합니다. 
Observers should enable learners to conduct encounters uninterrupted whenever possible. Learners value autonomy and progressive independence [40, 41]. Many learners already feel that direct observation interferes with learning, their autonomy and their relationships with patients, and interruptions exacerbate these concerns [42, 43]. Interrupting learners as they are involved in patient care can lead to the omission of important information as shown in a study of supervisors who interrupted learners’ oral case presentations (an example of direct observation of clinical reasoning) [44]. Additionally, assessors often worry that their presence in the room might undermine the learner-patient relationship. Observers can minimize intrusion during direct observation by situating themselves in the patient’s peripheral vision so that the patient preferentially looks at the learner. This positioning should still allow the observer to see both the learner’s and patient’s faces to identify non-verbal cues. Observers can also minimize their presence by not interrupting the learner-patient interaction unless the learner makes egregious errors. Observers should avoid distracting interruptions such as excessive movement or noises (e. g. pen tapping).

가이드라인 6. 인지적 편견인상 형성 및 암묵적 편견이 관찰 중에 도출된 추론에 영향을 미칠 수 있음을 인식합니다.
Guideline 6. 
Do recognize that cognitive bias, impression formation and implicit bias can influence inferences drawn during observation.

직접 관찰을 통해 도출된 평가의 타당성에는 여러 가지 위협이 있습니다. 평가자는 학습자를 관찰하기 시작하는 순간부터 즉각적인 인상을 형성하며(종종 적은 정보에 근거하여), 종종 빠르게(몇 분 내에) 수행 능력을 판단할 수 있다고 생각합니다[45, 46]. 이러한 빠른 판단, 즉 인상은 개인이 사람의 성격이나 행동에 대한 정보를 인지하고, 조직화하고, 통합하는 데 도움이 됩니다[47]. 인상 형성 문헌에 따르면 이러한 초기 판단이나 추론은 무의식적으로 빠르게 이루어지며 향후 상호 작용, 사람에 대해 기억하는 것, 미래 행동에 대해 예측하는 것에 영향을 미칠 수 있습니다[48]. 또한 학습자의 역량에 대한 판단은 다른 학습자와의 상대적 비교(대조 효과)에 의해 영향을 받을 수 있습니다[49]. 예를 들어, 실력이 부족한 학습자를 관찰한 후 한계 실력의 학습자를 관찰한 감독자는 이전에 실력이 뛰어난 학습자를 관찰했을 때보다 한계 실력의 학습자에 대해 더 호의적인 인상을 가질 수 있습니다. 관찰자는 이러한 편견을 인식하고 관찰된 행동에 근거하여 판단할 수 있도록 충분히 오래 관찰해야 합니다. 감독자는 [추론이 높은 인상]보다는 [추론이 낮고 관찰 가능한 행동]에 초점을 맞춰야 합니다. 예를 들어 학습자가 팔짱을 끼고 서서 나쁜 소식을 전하는 경우, 관찰 가능한 행동은 학습자가 팔짱을 끼고 서 있다는 것입니다. 이러한 행동은 상황에 대한 공감 부족 또는 불편함을 나타낸다는 추론 인상이 높습니다. 관찰자는 자신의 높은 수준의 추론이 정확하다고 가정해서는 안 됩니다. 오히려 비언어적 의사소통의 일부로서 팔짱을 끼는 것이 무엇을 의미하는지 학습자와 함께 탐구해야 합니다[가이드라인 16 참조]. 
There are multiple threats to the validity of assessments derived from direct observation. Assessors develop immediate impressions from the moment they begin observing learners (often based on little information) and often feel they can make a performance judgment quickly (within a few minutes) [45, 46]. These quick judgments, or impressions, help individuals perceive, organize and integrate information about a person’s personality or behaviour [47]. Impression formation literature suggests that these initial judgments or inferences occur rapidly and unconsciously and can influence future interactions, what is remembered about a person and what is predicted about their future behaviours [48]. Furthermore, judgments about a learner’s competence may be influenced by relative comparisons to other learners (contrast effects) [49]. For example, a supervisor who observes a learner with poor skills and then observes a learner with marginal skills may have a more favourable impression of the learner with marginal skills than if they had previously observed a learner with excellent skills. Observers should be aware of these biases and observe long enough so that judgments are based on observed behaviours. Supervisors should focus on low inference, observable behaviours rather than high inference impressions. For example, if a learner is delivering bad news while standing up with crossed arms, the observable behaviour is that the learner is standing with crossed arms. The high inference impression is that this behaviour represents a lack of empathy or discomfort with the situation. Observers should not assume their high-level inference is accurate. Rather they should explore with the learner what crossed arms can mean as part of non-verbal communication [see Guideline 16].

가이드라인 7. 관찰 후 피드백은 관찰 가능한 행동에 초점을 맞춰 제공하세요.
Guideline 7. 
Do provide feedback after observation focusing on observable behaviours.

직접 관찰 후 피드백은 이전에 발표된 모범 사례를 따라야 합니다[14]. 직접 관찰은 행동 계획과 관련된 시기적절한 행동 기반 피드백을 동반할 때 학습자가 더 잘 받아들일 수 있습니다[50]. 직접 관찰 후 피드백은 학습자의 즉각적인 우려 사항을 해결하고, 구체적이고 가시적이며, 학습자가 개선을 위해 앞으로 다르게 수행해야 할 사항을 이해하는 데 도움이 되는 정보를 제공할 때 가장 의미가 있습니다[31, 51]. 긍정적인 피드백은 학습자의 자신감을 향상시켜 학습자가 더 많은 관찰과 피드백을 구하도록 유도하기 때문에 학습자가 잘한 것을 설명하는 것은 중요합니다[31]. 피드백은 직접 대면하여 제공할 때 가장 효과적이므로 감독자는 대면 토론 없이 단순히 평가 양식에 피드백을 문서화하는 것을 피해야 합니다. 
Feedback after direct observation should follow previously published best practices [14]. Direct observation is more acceptable to learners when it is accompanied by timely, behaviourally based feedback associated with an action plan [50]. Feedback after direct observation is most meaningful when it addresses a learner’s immediate concerns, is specific and tangible, and offers information that helps the learner understand what needs to be done differently going forward to improve [31, 51]. Describing what the learner did well is important because positive feedback seems to improve learner confidence which, in turn, prompts the learner to seek more observation and feedback [31]. Feedback is most effective when it is given in person; supervisors should avoid simply documenting feedback on an assessment form without an in-person discussion.

지침 8. 학습자가 피드백을 통합할 수 있도록 종단적으로 관찰합니다.
Guideline 8. 
Do observe longitudinally to facilitate learners’ integration of feedback.

교수자가 학습자를 시간이 지남에 따라 반복적으로 관찰하면 학습이 촉진되며, 이를 통해 전문성 개발에 대한 더 나은 그림을 그릴 수 있습니다. 학습자는 자신의 성과를 되돌아보고 [종적 관계]에서 학습 목표 및 목표 달성에 대해 감독자와 논의할 수 있을 때 매우 만족합니다[25, 31]. 종적 관계는 학습자가 자신의 학습 진행 상황을 목격하고 학습자로서의 더 넓은 관점에서 피드백을 제공할 수 있는 기회를 제공합니다[25]. 지속적인 관찰은 감독자가 학습자의 역량과 한계를 평가하는 데 도움이 될 수 있으며, 이를 통해 학습자에게 앞으로 얼마나 많은 감독이 필요한지 알 수 있습니다[52]. 유능하게 임상 활동을 수행하는 것이 관찰된 학습자에게 다음 임상 활동에서 더 큰 독립성을 가지고 이러한 활동을 수행할 수 있는 권리가 부여되면 자율성이 강화됩니다[53]. 숙련된 임상 교사는 개별 학습자의 목표와 필요에 맞게 교육을 조정하는 기술을 습득하며, 직접 관찰은 학습자 중심의 교육 및 감독 접근 방식에서 중요한 구성 요소입니다[54]. 동일한 감독자가 학습자를 종적으로 관찰할 수 없는 경우, 여러 교수진이 프로그램 수준에서 이러한 관찰 순서를 수행하는 것이 중요합니다.
Learning is facilitated by faculty observing a learner repeatedly over time, which also enables a better picture of professional development to emerge. Learners appreciate when they can reflect on their performance and, working in a longitudinal relationship, discuss learning goals and the achievement of those goals with a supervisor [25, 31]. Longitudinal relationships afford learners the opportunity to have someone witness their learning progression and provide feedback in the context of a broader view of them as a learner [25]. Ongoing observation can help supervisors assess a learner’s capabilities and limitations, thereby informing how much supervision the learner needs going forward [52]. Autonomy is reinforced when learners who are observed performing clinical activities with competence are granted the right to perform these activities with greater independence in subsequent encounters [53]. Experienced clinical teachers gain skill in tailoring their teaching to an individual learner’s goals and needs; direct observation is a critical component of this learner-centred approach to teaching and supervision [54]. If the same supervisor cannot observe a learner longitudinally, it is important that this sequence of observations occurs at the programmatic level by multiple faculty.

가이드라인 9. 많은 학습자가 직접 관찰을 거부한다는 점을 인식하고 이러한 주저함을 극복할 수 있는 전략을 준비합니다.
Guideline 9. 
Do recognize that many learners resist direct observation and be prepared with strategies to try to overcome their hesitation.

일부 학습자는 직접 관찰이 유용하다고 생각하지만[24, 55], 많은 학습자는 직접 관찰을 (주로 사용되는 평가 도구와 무관하게) '체크 박스 연습' 또는 커리큘럼상의 의무로 간주합니다[33, 56]. 학습자는 여러 가지 이유로 직접 관찰을 거부할 수 있습니다. 학습자는 직접 관찰이 [불안을 유발하고 불편하며 스트레스가 많고 인위적이라고 생각]할 수 있습니다[31, 43, 50, 57, 58]. 학습자의 저항은 교수자가 자신을 관찰하기에는 너무 바쁘고[43], 관찰할 시간이 있는 교수자를 찾는 데 어려움을 겪을 것이라는 믿음에서 비롯될 수도 있습니다[59]. 많은 학습자는 [직접 관찰이 피드백이 아닌 높은 수준의 평가에만 사용될 때] 교육적 가치가 거의 없다고 생각하며[60], 교육 및 개선 계획이 포함된 피드백 없이는 직접 관찰이 유용하지 않다고 생각합니다[59]. 한 연구에서는 미니 CEX의 일환으로 100회 이상의 피드백 세션을 오디오 녹음한 결과 교수진이 학습자와 함께 실행 계획을 세우는 데 거의 도움이 되지 않는 것으로 나타났습니다[61]. 학습자는 [교육 도구로서의 직접 관찰]과 [평가 방법으로서의 직접 관찰] 사이에 충돌이 있다고 인식합니다[57, 60]. 많은 학습자는 직접 관찰이 학습, 자율성, 효율성 및 환자와의 관계에 방해가 된다고 생각합니다[42, 43]. 또한 학습자는 자신의 학습을 촉진하기 위해 어려운 상황을 독립적으로 처리하는 것을 중요하게 생각합니다[62, 63]. 

Although some learners find direct observation useful [24, 55], many view it (largely independent of the assessment tool used) as a ‘tick-box exercise’ or a curricular obligation [33, 56]. Learners may resist direct observation for multiple reasons. They can find direct observation anxiety-provoking, uncomfortable, stressful and artificial [31, 43, 50, 57, 58]. Learners’ resistance may also stem from their belief that faculty are too busy to observe them [43] and that they will struggle to find faculty who have time to observe [59]. Many learners (correctly) believe direct observation has little educational value when it is only used for high-stakes assessments rather than feedback [60]; they do not find direct observation useful without feedback that includes teaching and planning for improvement [59]. One study audiotaped over a hundred feedback sessions as part of the mini-CEX and found faculty rarely helped to create an action plan with learners [61]. Learners perceive a conflict between direct observation as an educational tool and as an assessment method [57, 60]. Many learners feel that direct observation interferes with learning, autonomy, efficiency, and relationships with their patients [42, 43]. Furthermore, learners value handling difficult situations independently to promote their own learning [62, 63].

감독자는 직접 관찰에 대한 학습자의 [저항을 줄이기 위한 전략]을 사용할 수 있습니다. 학습자는 관찰을 수행하는 개인과 종적인 관계를 맺을 때 직접 관찰 과정에 참여할 가능성이 더 높습니다. 학습자는 감독자가 자신에게 투자하고, 자신을 존중하며, 자신의 성장과 발달에 관심을 갖고 있다고 느낄 때 더 잘 받아들입니다[31, 64]. 학습자는 일반적으로 관찰이 정기적으로 이루어질 때 직접 관찰에 더 익숙해지기 때문에 관찰은 자주 이루어져야 합니다[58]. [로테이션을 시작할 때 학습 및 기술 개발을 위한 직접 관찰의 역할에 대해 논의]하면 직접 관찰의 양이 늘어납니다[43]. 감독자는 학습자에게 직접 관찰할 수 있음을 알려야 합니다. 감독자는 직접 관찰이 피드백 및 개발을 위해 사용되는 경우와 더 높은 수준의 평가를 위해 사용되는 경우를 명시하여 학습자에게 관찰의 위험도를 명확히 알려야 합니다. 감독자는 학습자가 총괄 평가를 위한 직접 관찰보다 [형성 목적의 직접 관찰]을 더 긍정적으로 여긴다는 점을 기억해야 합니다[65]. 또한 학습자는 개인화된 학습 목표에 초점을 맞추고[31] 효과적이고 질 높은 피드백이 뒤따를 때 직접 관찰을 더 중요하게 여기고 참여할 가능성이 높습니다.
Supervisors can employ strategies to decrease learners’ resistance to direct observation. Learners are more likely to engage in the process of direct observation when they have a longitudinal relationship with the individual doing the observations. Learners are more receptive when they feel a supervisor is invested in them, respects them, and cares about their growth and development [31, 64]. Observation should occur frequently because learners generally become more comfortable with direct observation when it occurs regularly [58]. Discussing the role of direct observation for learning and skill development at the beginning of a rotation increases the amount of direct observation [43]. Supervisors should let learners know they are available for direct observation. Supervisors should make the stakes of the observation clear to learners, indicating when direct observation is being used for feedback and development versus for higher-stakes assessments. Supervisors should remember learners regard direct observation for formative purposes more positively than direct observation for summative assessment [65]. Additionally, learners are more likely to value and engage in direct observation when it focuses on their personalized learning goals [31] and when effective, high quality feedback follows.

개별 감독자가 하지 말아야 할 사항
Don’ts for individual supervisors

가이드라인 10. 피드백을 정량적 평가로 제한하지 마세요.
Guideline 10. Don’t limit feedback to quantitative ratings.

직접 관찰한 내러티브 코멘트는 학습자에게 풍부한 피드백을 제공합니다. 수치 평가가 포함된 평가 양식을 사용하는 경우 학습자에게 서술형 피드백도 제공하는 것이 중요합니다. 많은 직접 관찰 평가 도구는 평가자가 학습자의 수행을 설명하기 위해 숫자 등급을 선택하도록 유도합니다[66]. 그러나 수행 점수를 의미 있게 해석하려면 평가자의 추론에 대한 통찰력을 제공하는 서술적 코멘트가 필요합니다. 내러티브 코멘트는 역량 성취도에 대한 신뢰할 수 있고 방어 가능한 의사 결정을 지원할 수 있습니다[67]. 또한 내러티브 피드백은 건설적인 방식으로 제공될 경우 교육생이 수행 능력의 강점과 약점을 정확하게 파악하고 역량 개발을 안내하는 데 도움이 될 수 있습니다[46]. 직접 관찰 자체에 대한 증거가 부족하고 정량적 평가가 성적과 동일하지 않지만, 다른 평가 문헌에 따르면 학습자가 성적이나 코멘트와 함께 성적만 받았을 때 학습 이득을 보이지 않는다고 합니다. 학습자는 성적에 집중하고 코멘트를 무시하기 때문에 코멘트가 포함된 성적을 받을 때 학습 이득이 발생하지 않는다는 가설이 있습니다[68,69,70]. 반면, 성적 없이 코멘트만 받은 학습자는 큰 학습 이득을 보입니다[68,69,70]. [서술적 피드백이 없는 성적]은 학습자에게 개선을 자극할 수 있는 충분한 정보와 동기를 제공하지 못합니다[26]. 합격/불합격 등급이 특정 수치 등급보다 학생에게 더 잘 받아들여질 수 있지만[51], 전체 등급을 사용하면 피드백에 대한 수용도가 떨어질 수도 있습니다[71]. 직접 관찰 후 학습자와 평점을 공유하는 것의 장단점은 알려져 있지 않지만, 형성적 평가에 직접 관찰을 사용하는 경우 학습자가 강점 영역(잘 수행한 기술)과 개선이 필요한 기술을 설명하는 서술형 피드백을 받는 것이 중요합니다.
Narrative comments from direct observations provide rich feedback to learners. When using an assessment form with numerical ratings, it is important to also provide learners with narrative feedback. Many direct observation assessment tools prompt evaluators to select numerical ratings to describe a learner’s performance [66]. However, meaningful interpretation of performance scores requires narrative comments that provide insight into raters’ reasoning. Narrative comments can support credible and defensible decision making about competence achievement [67]. Moreover, narrative feedback, if given in a constructive way, can help trainees accurately identify strengths and weaknesses in their performance and guide their competence development [46]. Though evidence is lacking in direct observation per se and quantitative ratings are not the same as grades, other assessment literature suggests that learners do not show learning gains when they receive just grades or grades with comments. It is hypothesized that learning gains do not occur when students receive grades with comments because learners focus on the grade and ignore the comments [68,69,70]. In contrast, learners who receive only comments (without grades) show large learning gains [68,69,70]. Grades without narrative feedback fail to provide learners with sufficient information and motivation to stimulate improvement [26]. The use of an overall rating may also reduce acceptance of feedback [51] although a Pass/Fail rating may be better received by students than a specific numerical rating [71]. Although the pros and cons of sharing a rating with a learner after direct observation are not known, it is important that learners receive narrative feedback that describes areas of strength (skills performed well) and skills requiring improvement when direct observation is being used for formative assessment.

가이드라인 11. 학습자와 환자 모두의 허락을 구하고 준비하지 않은 상태에서 환자 앞에서 피드백을 제공하지 마십시오.
Guideline 11.
Don’t give feedback in front of the patient without seeking permission from and preparing both the learner and the patient.

감독자가 환자 앞에서 직접 관찰한 후 학습자에게 피드백을 제공하려는 경우, 사전에 학습자와 환자의 허락을 구하는 것이 중요합니다. 피드백은 일반적으로 조용하고 사적인 장소에서 제공되며, 환자 앞에서 피드백을 제공하면 학습자와 환자의 관계가 손상될 수 있으므로 이러한 허락은 특히 중요합니다. 허가를 구하지 않았거나 허가를 받지 않은 경우 학습자는 환자 앞에서 피드백을 받아서는 안 됩니다. 그러나 예외적으로 환자가 안전하고 효과적이며 환자 중심의 치료를 받지 못하는 경우에는 즉시 중단해야 하며, 이러한 상황에서는 이러한 중단이 피드백의 한 형태임을 인식하고 학습자를 지지하고 비하하지 않는 방식으로 즉각 중단해야 합니다.  
If a supervisor plans to provide feedback to a learner after direct observation in front of a patient, it is important to seek the learner’s and patient’s permission in advance. This permission is particularly important since feedback is typically given in a quiet, private place, and feedback given in front of the patient may undermine the learner-patient relationship. If permission has not been sought or granted, the learner should not receive feedback in front of the patient. The exception, however, is when a patient is not getting safe, effective, patient-centred care; in this situation, immediate interruption is warranted (in a manner that supports and does not belittle the learner), recognizing that this interruption is a form of feedback.

병상 교육은 학습자에게 효과적이고 흥미를 유발할 수 있지만[72, 73] 일부 학습자는 환자 앞에서 교육하는 것이 환자와의 치료 동맹을 약화시키고 긴장된 분위기를 조성하며 질문할 수 있는 능력을 제한한다고 느낍니다[73, 74]. 그러나 환자 중심주의 시대에는 피드백에서 환자 목소리의 역할과 중요성이 증가할 수 있습니다. 실제로 이전 연구에 따르면 많은 환자가 자신의 치료에 대해 논의할 때 의료진이 병상에 있기를 원한다고 합니다[75]. 직접 관찰의 맥락에서 환자와 치료 및 교육적 제휴를 가장 잘 구축하는 방법은 추가적인 주의가 필요합니다. 
Although bedside teaching can be effective and engaging for learners, [72, 73] some learners feel that teaching in front of the patient undermines the patient’s therapeutic alliance with them, creates a tense atmosphere, and limits the ability to ask questions [73, 74]. However, in the era of patient-centredness, the role and importance of the patient voice in feedback may increase. In fact, older studies suggest many patients want the team at the bedside when discussing their care [75]. How to best create a therapeutic and educational alliance with patients in the context of direct observation requires additional attention.

개별 감독자의 경우 모름
Don’t Knows for individual supervisors

지침 12. 직접 관찰하는 동안 인지 부하가 미치는 영향은 무엇이며 이를 완화하기 위한 접근 방식은 무엇입니까?
Guideline 12. 
What is the impact of cognitive load during direct observation and what are approaches to mitigate it?

평가자는 학습자를 관찰하고 평가하는 동시에 환자를 진단하고 돌보려고 노력하면서 상당한 인지 부하를 경험할 수 있습니다[76]. [지각 부하]가 관찰자의 주의력을 압도하거나 초과할 수 있습니다. 이러한 과부하는 한 자극에 집중하면 다른 자극에 대한 지각이 손상되는 '부주의성 실명'을 유발할 수 있습니다[76]. 예를 들어, 학습자의 임상적 추론에 집중하는 동시에 환자를 진단하려고 하면 감독자가 학습자의 의사소통 기술에 주의를 기울이는 데 방해가 될 수 있습니다. 평가자가 평가해야 하는 차원 수가 증가하면 평가의 질이 떨어집니다[77]. 경험이 많은 관찰자는 학습자와 환자에 대한 휴리스틱, 스키마 또는 수행 스크립트를 개발하여 정보를 처리함으로써 관찰 능력을 향상시킵니다[45, 76]. 또한 고도로 숙련된 교수진은 더 강력한 스키마 및 스크립트와 관련된 노력이 감소하기 때문에 인지 부하를 줄이면서 강점과 약점을 감지할 수 있습니다[78]. [평가 도구 설계]도 인지 부하에 영향을 미칠 수 있습니다. 예를 들어, Byrne과 동료들은 인지 부하를 측정하기 위해 검증된 도구를 사용하여 마취를 유도하는 수련의에 대한 객관적인 구조화된 임상 시험을 위해 주관적인 평가 척도보다 20개 이상의 항목 체크리스트를 작성하도록 요청받았을 때 교수진이 더 큰 인지 부하를 경험하는 것으로 나타났습니다[79]. 시뮬레이션이 아닌 상황에서 직접 관찰하는 동안 인지적 부하가 미치는 영향과 관찰자가 중요한 요소만 평가하도록 평가 양식을 구성하여 평가할 항목 수를 제한하는 방법을 결정하기 위해서는 더 많은 연구가 필요합니다. 
An assessor can experience substantial cognitive load observing and assessing a learner while simultaneously trying to diagnose and care for the patient [76]. Perceptual load may overwhelm or exceed the observer’s attentional capacities. This overload can cause ‘inattentional blindness,’ where focusing on one stimulus impairs perception of other stimuli [76]. For example, focusing on a learner’s clinical reasoning while simultaneously trying to diagnose the patient may interfere with the supervisor’s ability to attend to the learner’s communication skills. As the number of dimensions raters are asked to assess increases, the quality of ratings decreases [77]. More experienced observers develop heuristics, schemas or performance scripts about learners and patients to process information and thereby increase observational capacity [45, 76]. More highly skilled faculty may also be able to detect strengths and weaknesses with reduced cognitive load because of the reduced effort associated with more robust schemes and scripts [78]. Assessment instrument design may also influence cognitive load. For example, Byrne and colleagues, using a validated instrument to measure cognitive load, showed that faculty experienced greater cognitive load when they were asked to complete a 20 plus item checklist versus a subjective rating scale for an objective structured clinical examination of a trainee inducing anaesthesia [79]. More research is needed to determine the impact of cognitive load during direct observation in non-simulated encounters and how to structure assessment forms so that observers are only asked to assess critical elements, thereby limiting the number of items to be rated.

지침 13. 다양한 기술을 직접 관찰하기 위한 최적의 시간길이는 얼마입니까?
Guideline 13. 
What is the optimal duration for direct observation of different skills?

최근 직접 관찰 및 피드백 관련 문헌의 대부분은 바쁜 업무 환경에서 효율성을 높이기 위해 직접 관찰 시간을 짧고 집중적으로 유지하는 데 초점을 맞추고 있습니다[80]. 짧은 관찰은 환자를 만나는 시간이 짧은 임상 전문과목에 적합하지만, 다른 전문과목의 경우 긴 관찰을 통해서만 알 수 있는 진료의 관련 측면을 짧은 관찰로 놓칠 수 있습니다. 직접 관찰 및 피드백을 위한 시급한 질문 중 하나는 다양한 전문과목, 학습자 및 술기에 대한 최적의 면담 시간을 결정하는 것입니다. 최적의 면담 시간은 환자의 요구, 관찰 대상 과제, 학습자의 역량, 교수자의 과제에 대한 친숙도 등 여러 변수를 반영해야 할 것입니다[78, 81].
Much of the recent direct observation and feedback literature has focused on keeping direct observation short and focused to promote efficiency in a busy workplace [80]. While short observations make sense for clinical specialties that have short patient encounters, for other specialties relevant aspects of practice that are only apparent with a longer observation may be missed with brief observations. One of the pressing questions for direct observation and feedback is to determine the optimal duration of encounters for various specialties, learners and skills. The optimal duration of an encounter will likely need to reflect multiple variables including the patient’s needs, the task being observed, the learner’s competence and the faculty’s familiarity with the task [78, 81].

교육자/교육 지도자를 위한 근거가 있는 가이드라인
Guidelines with supporting evidence for educators/educational leaders

교육 지도자를 위한 지침
Do’s for educational leaders

지침 14. 관련 임상 기술과 전문성을 기준으로 참관자를 선정합니다.
Guideline 14. 
Do select observers based on their relevant clinical skills and expertise.

프로그램 디렉터와 같은 교육 리더는 관련 임상 기술과 교육 전문성을 기준으로 참관자를 선정해야 합니다. 공정하고 신뢰할 수 있는 평가를 위해서는 콘텐츠 전문성(모범 술기가 어떤 것인지에 대한 지식과 이를 평가할 수 있는 능력)이 전제 조건입니다[82]. 그러나 평가자는 종종 내용 전문성이 부족하다고 느끼는 술기를 직접 관찰하도록 요청받으며, 평가자는 체크리스트를 사용하여 자신의 임상 기술 부족을 보완할 수 있다고 생각하지 않습니다[83]. 또한 감독자 자신의 임상 기술이 학습자를 평가하는 방식에 영향을 미칠 수 있습니다[78]. 평가자의 특성이 평가자 자신의 역량 결핍의 결과인 경우[84], 평가자가 관찰 및 피드백 시 자신을 표준으로 삼는 경우 학습자도 동일한 결핍 또는 역량 장애를 습득할 수 있습니다[78,85,86,87,88,89,90]. 교수진은 종종 자신을 학습자 수행을 평가하는 기준(즉, 참조 프레임)으로 사용하기 때문에[82], 임상 술기 전문성을 기반으로 평가자를 선정하거나 평가자가 자신을 참조 프레임으로 사용하지 않고 유능하고 전문적인 수행을 인정할 수 있도록 평가자 교육을 제공하는 것이 중요합니다.  
Educational leaders, such as program directors, should select observers based on their relevant clinical skills and educational expertise. Content expertise (knowledge of what exemplar skill looks like and having the ability to assess it) is a prerequisite for fair, credible assessment [82]. However, assessors are often asked to directly observe skills for which they feel they lack content expertise, and assessors do not believe using a checklist can make up for a lack of their own clinical skill [83]. Additionally, a supervisor’s own clinical skills may influence how they assess a learner [78]. When assessors’ idiosyncrasy is the result of deficiencies in their own competencies [84] and when assessors use themselves as the gold standard during observation and feedback, learners may acquire the same deficiencies or dyscompetencies [78, 85,86,87,88,89,90]. Because faculty often use themselves as the standard by which they assess learner performance (i. e. frame of reference), [82] it is important to select assessors based on their clinical skills expertise or provide assessor training so assessors can recognize competent and expert performance without using themselves as a frame of reference.

프로그램 수준에서는 특정 술기를 평가할 수 있는 [전문성을 갖춘 개인]에게 필요한 관찰 유형을 조정하는 것이 현명합니다. 예를 들어, 프로그램 디렉터는 심장 전문의에게 학습자의 심장 검사를 관찰하도록 요청하고 완화 치료 의사에게 학습자의 치료 목표에 대한 논의를 관찰하도록 요청할 수 있습니다. 학습자가 평가할 특정 술기에 대한 콘텐츠 전문 지식과 임상적 통찰력을 갖춘 평가자를 사용하는 것도 중요한데, 학습자는 이러한 개인의 피드백을 신뢰할 수 있고 신뢰할 수 있다고 생각할 가능성이 높기 때문입니다[20, 64]. 전문성이 부족한 경우 교수진의 역량 부족을 교정하도록 돕는 것이 중요합니다[91]. 평가와 관련된 교수진 개발은 이론적으로 교수진 자신의 임상 기술을 향상시키는 동시에 관찰 기술을 향상시키는 '일거양득'이 될 수 있습니다[91]. 
At a programmatic level, it is prudent to align the types of observations needed to individuals who have the expertise to assess that particular skill. For example, a program director might ask cardiologists to observe learners’ cardiac exams and ask palliative care physicians to observe learners’ goals of care discussions. Using assessors with content expertise and clinical acumen in the specific skill(s) being assessed is also important because learners are more likely to find feedback from these individuals credible and trustworthy [20, 64]. When expertise is lacking, it is important to help faculty correct their dyscompetency [91]. Faculty development around assessment can theoretically become a ‘two-for-one’—improving the faculty’s own clinical skills while concomitantly improving their observation skills [91].

평가자는 임상 술기 전문성 외에도 [다양한 교육 수준에서 학습자에게 기대할 수 있는 사항에 대한 지식]이 있어야 합니다[83]. 평가자는 교수 및 교육에 전념하고, 학습자의 성장을 촉진하는 데 투자하며, 학습자의 폭넓은 정체성과 경험에 관심을 갖고, 학습자를 신뢰하고 존중하며 돌볼 의향이 있어야 합니다[64][지침 28 참조].
In addition to clinical skills expertise, assessors also must have knowledge of what to expect of learners at different training levels [83]. Assessors must be committed to teaching and education, invested in promoting learner growth, interested in learners’ broader identity and experience, and willing to trust, respect and care for learners [64] [see Guideline 28].

가이드라인 15. 가능하면 직접 관찰을 위해 새로운 도구를 만들기보다는 기존의 타당성 근거가 있는 평가 도구를 사용합니다.
Guideline 15. 
Do use an assessment tool with existing validity evidence, when possible, rather than creating a new tool for direct observation.

직접 관찰을 기반으로 학습자의 수행을 평가하는 데 도움이 되는 많은 도구가 존재합니다[66, 92]. 교육자는 새로운 도구를 만들기보다는 가능하면 타당성 근거가 있는 기존 도구를 사용해야 합니다[93]. 교육자의 목적에 맞는 도구가 존재하지 않는 경우, 기존 도구를 수정하거나 새로운 도구를 만드는 방법이 있습니다. 직접 관찰을 위해 새로운 도구를 만들거나 기존 도구를 수정하려면 타당도 근거 축적을 포함하여 도구 설계 및 평가 지침을 따라야 합니다[94]. 필요한 타당도 증거의 양은 낮은 수준의 형성 평가보다 높은 수준의 총합 평가에 사용되는 도구의 경우 더 많을 것입니다. 
Many tools exist to guide the assessment of learners’ performance based on direct observation [66, 92]. Rather than creating new tools, educators should, when possible, use existing tools for which validity evidence exists [93]. When a tool does not exist for an educator’s purpose, options are to adapt an existing tool or create a new one. Creating a new tool or modifying an existing tool for direct observation should entail following guidelines for instrument design and evaluation, including accumulating validity evidence [94]. The amount of validity evidence needed will be greater for tools used for high-stakes summative assessments than for lower-stakes formative assessments.

도구 설계는 평가자 응답의 신뢰도를 최적화하는 데 도움이 될 수 있습니다. 도구의 앵커 또는 응답 옵션은 수행을 평가하는 방법에 대한 지침을 제공할 수 있습니다. 예를 들어, 행동 앵커 또는 발달 수행의 스펙트럼을 따라 행동을 설명하는 이정표로 정의된 앵커는 평가자의 일관성을 향상시킬 수 있습니다[95]. 학습자에게 필요한 감독 정도 또는 감독자가 느끼는 신뢰도에 대한 감독자의 인상을 묻는 척도는 감독자가 생각하는 방식과 더 잘 일치할 수 있습니다[96]. 전체적인 인상은 긴 체크리스트보다 평가자 간에 성과를 더 안정적으로 포착할 수 있습니다[97]. 특정 [체크리스트]와 [글로벌 인상] 중 어떤 것을 선택할지, 그리고 그 사이의 모든 것을 선택할지는 주로 평가의 목적에 따라 달라집니다. 예를 들어, [피드백]이 주요 목표인 경우 (학습자가 세분화되고 구체적인 피드백을 받지 못한다면) [총체적 평가]는 거의 유용하지 않습니다. 어떤 도구를 선택하든, 도구가 서술적 코멘트를 위한 충분한 공간을 제공하는 것이 중요합니다[71][가이드라인 16 및 30 참조]. 
Tool design can help optimize the reliability of raters’ responses. The anchors or response options on a tool can provide some guidance about how to rate a performance; for example, behavioural anchors or anchors defined as milestones that describe the behaviour along a spectrum of developmental performance can improve rater consistency [95]. Scales that query the supervisor’s impressions about the degree of supervision the learner needs or the degree of trust the supervisor feels may align better with how supervisors think [96]. A global impression may better capture performance reliably across raters than a longer checklist [97]. The choice between the spectrum of specific checklists to global impressions, and everything in between, depends primarily on the purpose of the assessment. For example, if feedback is a primary goal, holistic ratings possess little utility if learners do not receive granular, specific feedback. Regardless of the tool selected, it is important for tools to provide ample space for narrative comments [71] [see Guideline 16 and 30].

중요한 것은 도구의 타당도는 궁극적으로 도구의 사용자와 도구가 사용되는 맥락에 달려 있다는 것입니다. 평가자(예: 교수진)가 직접 관찰하는 것이 바로 도구라고 주장할 수 있습니다. 따라서 프로그램 책임자는 도구를 사용할 관찰자를 교육하는 것보다 도구를 설계하는 데 너무 많은 시간을 할애하는 경우가 많다는 점을 인식해야 합니다[지침 20 참조].
Importantly, validity ultimately resides in the user of the instrument and the context in which the instrument is used. One could argue that the assessors (e. g. faculty), in direct observation, are the instrument. Therefore, program directors should recognize that too much time is often spent designing tools rather than training the observers who will use them [see Guideline 20].

지침 16. 관찰자에게 직접 관찰하는 방법공유된 정신 모델과 공통 평가 기준을 채택하고 피드백을 제공하는 방법을 교육합니다.
Guideline 16. 
Do train observers how to conduct direct observation, adopt a shared mental model and common standards for assessment, and provide feedback.

감독자가 학습자를 관찰한 후 내리는 평가는 매우 다양하며, 같은 상황을 관찰하는 감독자라도 사용하는 도구에 따라 평가와 평가가 달라질 수 있습니다. 관찰자가 수행의 다양한 측면에 초점을 맞추고 우선순위를 정하고 수행을 판단하는 데 다른 기준을 적용하기 때문에 변동성이 발생합니다[46, 82, 98, 99]. 평가자는 또한 역량에 대한 서로 다른 정의를 사용합니다[82, 98]. 관찰자가 성과를 판단하는 데 사용하는 기준은 종종 경험적이고 특이한 방식으로 도출되며, 일반적으로 최근 경험의 영향을 받고[49, 82, 100], 첫인상에 크게 의존할 수 있습니다[48]. 평가자는 자신의 훈련과 수년간의 임상 및 교육 관행의 결과로 특이성을 개발합니다. 이러한 특성이 강력한 임상적 증거와 모범 사례에 근거한 경우 반드시 도움이 되지 않는 것은 아닙니다. 예를 들어, 평가자는 환자 중심 면담의 전문가로서 면담의 다른 측면을 배제하고 관찰하는 동안 그러한 행동과 기술을 크게 강조할 수 있습니다[47]. 뛰어난 성과 또는 매우 취약한 성과를 식별하는 것은 간단한 것으로 간주되지만, '회색 영역'의 성과에 대한 결정은 더 어렵습니다 [83].  

The assessments supervisors make after observing learners with patients are highly variable, and supervisors observing the same encounter assess and rate the encounter differently regardless of the tool used. Variability results from observers focusing on and prioritizing different aspects of performance and applying different criteria to judge performance [46, 82, 98, 99]. Assessors also use different definitions of competence [82, 98]. The criteria observers use to judge performance are often experientially and idiosyncratically derived, are commonly influenced by recent experiences, [49, 82, 100] and can be heavily based on first impressions [48]. Assessors develop idiosyncrasies as a result of their own training and years of their own clinical and teaching practices. Such idiosyncrasies are not necessarily unhelpful if based on strong clinical evidence and best practices. For example, an assessor may be an expert in patient-centred interviewing and heavily emphasize such behaviours and skills during observation to the exclusion of other aspects of the encounter [47]. While identifying outstanding or very weak performance is considered straightforward, decisions about performance in ‘the grey area’ are more challenging [83].

[평가자 교육]은 이러한 직접 관찰의 한계를 극복하는 데 도움이 될 수 있지만 완전히 없애지는 못합니다.
Rater training can help overcome but not eliminate these limitations of direct observation.

[수행 차원 교육]은 참가자들이 관찰되는 [수행의 측면]과 [수행 평가 준거]에 대한 이해를 공유하는 평가자 교육 접근 방식입니다[9]. 예를 들어, 슈퍼바이저는 환자에게 약물 복용 시작에 대해 상담할 때 중요한 기술이 무엇인지 논의할 수 있습니다. 대부분의 평가자는 판단의 [스캐폴드 또는 중추 역할을 하는 프레임워크]를 환영합니다[83]. [성과 차원 교육]을 받은 수퍼바이저는 이 과정을 통해 평가 기준에 대한 [공유된 정신 모델]을 제공받음으로써 보다 표준화되고 체계적이며 포괄적이고 구체적인 관찰을 할 수 있고, 이전에는 주의를 기울이지 않았던 기술에 주의를 기울이며, 구체적인 피드백을 제공하는 자기 효능감을 향상시킬 수 있었다고 설명합니다[91]. 
Performance dimension training is a rater training approach in which participants come to a shared understanding of the aspects of performance being observed and criteria for rating performance [9]. For example, supervisors might discuss what are the important skills when counselling a patient about starting a medication. Most assessors welcome a framework to serve as a scaffold or backbone for their judgments [83]. Supervisors who have done performance dimension training describe how the process provides them with a shared mental model about assessment criteria that enables them to make more standardized, systematic, comprehensive, specific observations, pay attention to skills they previously did not attend to, and improve their self-efficacy giving specific feedback [91].

[기준 프레임 교육]평가자에게 [평가 차원과 관련된 적절한 기준을 제공]함으로써 관찰 및 평가 중에 성과에 대한 공통 개념화(즉, 기준 프레임)를 사용하도록 평가자를 교육함으로써 [성과 차원 교육]을 기반으로 합니다[101]. 비의료 성과 평가 문헌의 체계적 검토 및 메타 분석에 따르면 [기준 프레임 교육]은 중간 정도의 효과 크기로 평가 정확도를 크게 향상시키는 것으로 나타났습니다[101, 102]. 의학 분야에서 Holmboe 등은 표준화된 레지던트 및 환자와 함께 실제 실습을 포함한 8시간의 [기준 프레임 훈련 세션]이 개입 8개월 후 직접 관찰에서 관용을 약간 줄이고 정확도를 향상시킨다는 것을 보여주었습니다[9]. 그러나 짧은 평가자 교육(예: 반나절 워크숍)은 평가자 간 신뢰도를 개선하는 것으로 나타나지 않았습니다[103].
Frame of reference training builds upon performance dimension training by teaching raters to use a common conceptualization (i. e., frame of reference) of performance during observation and assessment by providing raters with appropriate standards pertaining to the rated dimensions [101]. A systematic review and meta-analysis from the non-medical performance appraisal literature demonstrated that frame of reference training significantly improved rating accuracy with a moderate effect size [101, 102]. In medicine, Holmboe et al. showed that an 8‑hour frame of reference training session that included live practice with standardized residents and patients modestly reduced leniency and improved accuracy in direct observation 8 months after the intervention [9]. However, brief rater training (e. g. half day workshop) has not been shown to improve inter-rater reliability [103].

교수진 개발 프로그램 책임자는 참가자가 교육 및 임상 업무에 평가자 교육을 적용할 수 있도록 하는 방법을 계획해야 합니다. 전략에는 참가자가 인지한 필요와 관련된 자료와 업무 맥락에서 적용 가능한 형식을 만드는 것이 포함됩니다[82, 104]. 교육 효과를 위한 [효과적인 교수진 개발]의 주요 특징에는 체험 학습, 피드백 제공, 효과적인 동료 및 동료 관계, 의도적인 커뮤니티 구축, 종단적 프로그램 설계 등이 포함됩니다[105, 106]. 동료 평가와 협업을 위해 서로 의지하는 교육자 간부 집단인 실무 커뮤니티를 개발하는 데 초점을 맞춘 교수진 개발은 평가자 교육에서 특히 중요하며 참가자들로부터 긍정적인 반응을 얻고 있습니다[91]. 그룹 교육은 교수진 개발의 중점을 개인에서 직접적인 관찰과 피드백에 투자하는 교육자 커뮤니티로 옮기는 것이 중요하다는 점을 강조합니다. 평가자는 직접 관찰 후 피드백을 제공할 때, 특히 건설적인 피드백을 제공할 때 긴장을 경험하기 때문에[107], 평가자 교육에는 [직접 관찰 후 효과적인 피드백 제공에 대한 교육]도 포함되어야 합니다[지침 32 참조]. 평가자 교육이 중요하지만, 평가자 교육에 대한 해답이 없는 질문이 여전히 많이 남아 있습니다[가이드라인 31 참조].

Directors of faculty development programs should plan how to ensure that participants apply the rater training in their educational and clinical work. Strategies include making the material relevant to participants’ perceived needs and the format applicable within their work context [82, 104]. Key features of effective faculty development for teaching effectiveness also include the use of experiential learning, provision of feedback, effective peer and colleague relationships, intentional community building and longitudinal program design [105, 106]. Faculty development that focuses on developing communities of practice, a cadre of educators who look to each other for peer review and collaboration, is particularly important in rater training and is received positively by participants [91]. Group training highlights the importance of moving the emphasis of faculty development away from the individual to a community of educators invested in direct observation and feedback. Because assessors experience tension giving feedback after direct observation, particularly when it comes to giving constructive feedback [107], assessor training should also incorporate teaching on giving effective feedback after direct observation [see Guideline 32]. While rater training is important, a number of unanswered questions about rater training still remain [see Guideline 31].

지침 17. 직접 관찰이 프로그램 목표 및 역량(예: 마일스톤)과 일치하는지 확인합니다.
Guideline 17. 
Do ensure direct observation aligns with program objectives and competencies (e. g. milestones).

명확하게 표현된 프로그램 목표와 목적은 [직접 관찰의 목적을 정의하기 위한 단계]를 설정합니다[93]. 정의된 평가 프레임워크는 학습자와 감독자의 교육 목표에 대한 이해를 조정하고 평가에 사용할 도구의 선택을 안내합니다.

  • 프로그램 디렉터는 관찰할 실습의 구성 요소를 정의하는 분석적 접근법('분해하기')을 사용하여 목표와 목적을 정의할 수 있으며, 이를 통해 세부 체크리스트를 작성할 수 있습니다[108].
  • 또한 [종합적 접근법]을 사용하여 유능하고 신뢰할 수 있는 실습에 필요한 업무 활동을 정의할 수 있으며, 이를 통해 위탁 등급과 같은 보다 총체적인 척도를 적용할 수 있습니다[109].

프로그램 디렉터는 감독자와 학습자가 직접 관찰을 위해 학습자 목표를 논의할 때 프로그램에서 사용되는 프로그램 목표, 역량, 마일스톤 및 EPA를 참조하도록 권장할 수 있습니다.
Clearly articulated program goals and objectives set the stage for defining the purposes of direct observation [93]. A defined framework for assessment aligns learners’ and supervisors’ understandings of educational goals and guides selection of tools to use for assessment.

  • Program directors may define goals and objectives using an analytic approach (‘to break apart’) defining the components of practice to be observed, from which detailed checklists can be created [108].
  • synthetic approach can also be used to define the work activities required for competent, trustworthy practice, from which more holistic scales such as ratings of entrustment can be applied [109].

Program directors can encourage supervisors and learners to refer to program objectives, competencies, milestones and EPAs used in the program when discussing learner goals for direct observation.

지침 18. 학습자가 진정성 있게 연습하도록 유도하고 피드백을 환영하는 문화를 조성합니다.
Guideline 18. 
Do establish a culture that invites learners to practice authentically and welcome feedback.

대부분의 학습자는 성적과 고난도 시험에 중점을 두는 예비 대학 또는 학부 문화에서 의과대학에 입학합니다. 의과대학에서는 여전히 성적과 시험이 학습자의 행동을 크게 좌우할 수 있으며, 학습자는 여전히 낮은 비중의 평가를 학습 기회라기보다는 극복해야 할 총체적인 장애물로 인식할 수 있습니다. 학습자는 종종 학습 또는 성과에 대한 기대치에 대해 여러 가지 상충되는 메시지를 감지합니다[60, 110]. 그렇다면 현재 상황을 어떻게 [학습자 중심]으로 바꿀 수 있을까요? 
Most learners enter medical school from either pre-university or undergraduate cultures heavily steeped in grades and high-stakes tests. In medical school, grades and tests can still drive substantial learner behaviour, and learners may still perceive low-stakes assessments as summative obstacles to be surmounted rather than as learning opportunities. Learners often detect multiple conflicting messages about expectations for learning or performance [60, 110]. How then can the current situation be changed to be more learner centred?

프로그램은 학습자에게 언제, 어디서 학습 문화가 낮은 위험도의 실습 기회를 제공하는지 명시적으로 파악하고, 학습자가 직접 관찰을 학습 활동으로 받아들일 수 있는 문화를 조성해야 합니다. 임상 교육 환경에서 학습자는 유능해 보이고 높은 점수를 받아야 한다는 압박감을 최소화하는 감독자가 학습 목표에서 다루는 술기를 수행하는 것을 관찰할 기회가 필요합니다[111]. 학습 방향(학습자 또는 숙달 목표 대 수행 목표)은 학습 결과에 영향을 미칩니다[112].

  • [숙달 지향적 학습자]는 학습을 위해 노력하고, 피드백을 요청하며, 도전을 수용하고, 개선을 축하합니다. 반대로
  • [성과 지향적 학습자]는 유능해 보이고 실패를 피할 수 있는 기회를 찾습니다.
  • 같은 기술이나 과제를 연습하고 재시도할 수 있고 노력과 개선에 대해 보상하는 문화는 숙달 지향성을 촉진합니다.

Programs should explicitly identify for learners when and where the learning culture offers low-stakes opportunities for practice, and programs should foster a culture that enables learners to embrace direct observation as a learning activity. In the clinical training environment, learners need opportunities to be observed performing the skills addressed in their learning goals by supervisors who minimize perceived pressures to appear competent and earn high marks [111]. Orientations to learning (learner or mastery goals versus performance goals) influence learning outcomes [112].

  • A mastery-oriented learner strives to learn, invites feedback, embraces challenges, and celebrates improvement.
  • Conversely, a performance-oriented learner seeks opportunities to appear competent and avoid failure.
  • A culture that enables practice and re-attempting the same skill or task, and rewards effort and improvement, promotes a mastery orientation. 

[학습을 희생하면서 성적, 완벽함 또는 정답을 강조하는 문화]는 학습자가 직접 관찰을 피하는 것처럼 실패를 피하기 위해 적극적으로 노력하는 부적응적인 '성과 회피' 목표를 조장할 수 있습니다[28]. 프로그램은 직접 관찰자가 정확성보다는 연습과 노력에 가치를 두는 커뮤니케이션 관행을 사용하도록 장려해야 합니다. 낮은 수준의 환경에서 직접 관찰 및 피드백을 수행하는 교사의 역할과 평가자의 역할을 분리하면 학습자가 이러한 구분을 명확히 알 수 있습니다. 또한 프로그램은 학습자에게 학습에 대한 개인적 선택권을 부여하고 학습자와 감독자 간의 종적 관계를 보장함으로써 학습자가 피드백을 잘 받아들이는 문화가 조성되도록 해야 합니다[14, 26]. 
A culture that emphasizes grades, perfection or being correct at the expense of learning can promote maladaptive ‘performance-avoid’ goals in which learners actively work to avoid failure, as in avoiding being directly observed [28]. Programs should encourage direct observers to use communication practices that signal the value placed on practice and effort rather than just on correctness. Separating the role of teacher who conducts direct observation and feedback in low-stakes settings from the role of assessor makes these distinctions explicit for learners. Programs should also ensure their culture promotes learner receptivity to feedback by giving learners personal agency over their learning and ensuring longitudinal relationships between learners and their supervisors [14, 26].

가이드라인 19. 직접 관찰을 가능하게 하거나 방해하는 시스템 요인에 주의를 기울이십시오.
Guideline 19. 
Do pay attention to systems factors that enable or inhibit direct observation.

[의료 실습 환경의 구조와 문화]는 직접 관찰에 대한 가치를 뒷받침할 수 있습니다. 수련생은 지도의가 언제, 어떤 활동을 관찰하는지에 주의를 기울이고 이를 바탕으로 어떤 교육 및 임상 활동을 중요하게 여기는지 유추합니다[42]. 
The structure and culture of the medical training environment can support the value placed on direct observation. Trainees pay attention to when and for what activities their supervisors observe them and infer, based on this, which educational and clinical activities are valued [42].

교육 환경 내에서 환자 중심 치료에 초점을 맞추면 [마이크로 시스템] 내에서 학습자와 감독자가 공유하는 임상 실습 과제를 통해 일상적인 임상 치료에 교육을 포함할 수 있습니다 [113]. 직접 관찰 과정에 대한 교수진의 동의는 학습을 위한 직접 관찰의 중요성에 대한 교육과 교수진이 병상에서 학습자와 함께 시간을 보낼 수 있는 일정 구조를 통해 얻을 수 있습니다[93]. 환자 간호를 수행할 때 직접 관찰을 수행하도록 교수진을 교육하면 이 작업이 효율적이고 질 높은 간호 및 교육에 필수적인 것으로 간주됩니다[114]. 이 교육 전략에 대한 환자와 가족의 선호도는 이 전략이 치료에 도움이 된다고 인식하고 있으며, 그 결과 임상의의 환자 만족도가 더 높아질 수 있음을 시사합니다[115, 116]. 
A focus on patient-centred care within a training environment embeds teaching in routine clinical care through clinical practice tasks shared between learners and supervisors within microsystems [113]. Faculty buy-in to the process of direct observation can be earned through education about the importance of direct observation for learning and through schedule structures that enable faculty time with learners at the bedside [93]. Training faculty to conduct direct observation as they conduct patient care frames this task as integral to efficient, high quality care and education [114]. Patient and family preferences for this educational strategy suggest that they perceive it as beneficial to their care, and clinicians can enjoy greater patient satisfaction as a result [115, 116].

교육 리더는 직접 관찰을 제한하는 [시스템 장벽]을 해결해야 합니다.

  • 직접 관찰과 피드백을 위한 시간 부족은 직접 관찰을 가로막는 가장 흔한 장벽 중 하나입니다. 프로그램은 교육 및 환자 치료 시스템(예: 감독자:학습자 비율, 환자 센서스)이 직접 관찰 및 피드백을 위한 시간을 허용하도록 보장해야 합니다.
  • 교육 병원의 더 큰 임상 진료 환경에 주의를 기울이면 직접 관찰을 촉진하기 위해 해결해야 할 추가적인 장벽을 발견할 수 있습니다.
  • 현재의 수련 환경은 전자 건강 기록을 사용하여 컴퓨터로 빠르게 작업을 완료하는 데 집중하는 경우가 너무 많으며, 환자와 상호 작용하거나 교육 활동에 소요되는 수련의의 시간은 소수에 불과합니다[117, 118].
  • 드물지 않게, 감독자-학습자 쌍이 자주 바뀌면 학습자가 피드백을 통합하고 개선 사항을 입증하기 위해 동일한 감독자가 오랜 시간 동안 관찰하기 어렵습니다[119].
  • 프로그램 디렉터는 학습 환경에 대한 감독자와 학습자의 인식, 건설적인 피드백을 주고받는 능력, 학습자에 대한 판단의 공정성을 신뢰하는 능력을 향상시키는 종적 관계를 제공하는 커리큘럼 구조를 고려해야 합니다[26, 120, 121].
  • 대학원 의학 교육에서 외래 연속성 경험을 재설계하면 이러한 직접 관찰 및 피드백을 위한 종단적 기회를 촉진할 수 있습니다[122]. 

Educational leaders must address the systems barriers that limit direct observation.

  • Lack of time for direct observation and feedback is one of the most common barriers to direct observation. Programs need to ensure that educational and patient care systems (e. g. supervisor:learner ratios, patient census) allow time for direct observation and feedback.
  • Attention to the larger environment of clinical care at teaching hospitals can uncover additional barriers that should be addressed to facilitate direct observation.
  • The current training environment is too often characterized by a fast-paced focus on completing work at computers using the electronic health record, with a minority of trainee time spent interacting with patients or in educational activities [117118].
  • Not uncommonly, frequent shifts in supervisor-learner pairings make it difficult for learners to be observed by the same supervisor over time in order to incorporate feedback and demonstrate improvement [119].
  • Program directors should consider curricular structures that afford longitudinal relationships that enhance supervisors’ and learners’ perceptions of the learning environment, the ability to give and receive constructive feedback and trust the fairness of judgments about learners [26120121].
  • Redesign of the ambulatory continuity experience in graduate medical education shows promise to foster these longitudinal opportunities for direct observation and feedback [122].

프로그램에 집중하지 않기
Don’ts focused on program

지침 20. 직접 관찰에 적합한 도구를 선택한다고 해서 평가자 교육이 필요 없다고 가정하지 마십시오.
Guideline 20. 
Don’t assume that selecting the right tool for direct observation obviates the need for rater training.

직접 관찰용 도구 사용자는 잘 설계된 도구는 평가자가 사용법을 모두 이해할 수 있을 정도로 명확할 것이라고 잘못 생각할 수 있습니다. 그러나 앞서 설명한 바와 같이, 어떤 도구를 선택하든 평가자는 도구를 사용하여 직접 관찰하고 관찰 내용을 기록하도록 교육받아야 합니다. 실제 측정 도구는 도구가 아니라 교수 감독자입니다. 
Users of tools for direct observation may erroneously assume that a well-designed tool will be clear enough to raters that they will all understand how to use it. However, as described previously, regardless of the tool selected, observers should be trained to conduct direct observations and record their observations using the tool. The actual measurement instrument is the faculty supervisor, not the tool.

지침 21. 학습자에게 직접 관찰을 요청하는 책임을 전적으로 학습자에게만 지우지 마세요.
Guideline 21. 
Don’t put the responsibility solely on the learner to ask for direct observation.

학습자와 감독자는 직접 관찰 및 피드백이 이루어질 수 있도록 함께 책임을 져야 합니다. 학습자는 실제 임상 수행에 초점을 맞춘 의미 있는 피드백을 원하지만, [31, 39] 일반적으로 직접 관찰을 학습에 유용한 것으로 평가하는 것과 자율적이고 효율적으로 수행하기를 원하는 것 사이에서 긴장을 경험합니다[42]. 직접 관찰, [자율성, 효율성]이라는 두 가지 목표를 동시에 인정하면서 직접 관찰이 일상적인 활동의 일부가 되는 교육 문화로 바꾸면 학습자의 부담을 완화할 수 있습니다. 직접 관찰을 요청하는 학습자의 책임을 제거하거나 줄이고, 부분적으로 교수진과 프로그램의 책임으로 만드는 것은 이 학습 활동에 대한 [공동 책임]을 촉진할 것입니다. 
Learners and their supervisors should together take responsibility for ensuring that direct observation and feedback occur. While learners desire meaningful feedback focused on authentic clinical performance, [31, 39] they commonly experience tension between valuing direct observation as useful to learning and wanting to be autonomous and efficient [42]. Changing the educational culture to one where direct observation is a customary part of daily activities, with acknowledgement of the simultaneous goals of direct observation, autonomy and efficiency, may ease the burden on learners. Removing or reducing responsibility from the learner to ask for direct observation and making it, in part, the responsibility of faculty and the program will promote shared accountability for this learning activity.

지침 22. 교수자가 교사와 평가자 사이에서 느끼는 긴장을 과소평가하지 마십시오.
Guideline 22. 
Don’t underestimate faculty tension between being both a teacher and assessor.

20년 전 마이클 J. 고든은 교수자가 교사(학습자에게 지도 제공)와 평가자(학습자가 성과 기준을 충족하는지 교육 프로그램에 보고)로서 겪는 갈등에 대해 설명했습니다[123]. 현재 역량 기반 의학교육의 시대에는 교수진이 [직접 관찰한 상황을 보고해야 하는 요구 사항이 증가함]에 따라 이러한 긴장이 지속되고 있습니다. Gordon의 해결책은 역량 기반 의학교육의 많은 발전 사항을 반영합니다. 학습자 중심의 두 가지 시스템을 개발하여 일선 교수진이 학습자에게 피드백과 지도를 제공하는 시스템과 교수자 중심의 시스템으로 최소한의 역량을 유지하지 못하는 학습자를 모니터링하거나 선별하여 추가 의사 결정 및 평가를 전문 표준위원회에 넘기는 것입니다[124, 125]. 프로그램은 역량 기반 의학교육에서 직접 관찰을 사용할 때 교수진의 이중적 입장에 민감해야 하며, 이러한 역할 갈등을 최소화하는 패러다임을 고려해야 합니다[126, 127].

Two decades ago Michael J. Gordon described the conflict faculty experience being both teacher (providing guidance to the learner) and high-stakes assessor (reporting to the training program if the learner is meeting performance standards) [123]. In the current era of competency-based medical education, with increased requirements on faculty to report direct observation encounters, this tension persists. Gordon’s solution mirrors many of the developments of competency-based medical education: develop two systems, one that is learner-oriented to provide learners with feedback and guidance by the frontline faculty, and one that is faculty-oriented, to monitor or screen for learners not maintaining minimal competence, and for whom further decision making and assessment would be passed to a professional standards committee [124, 125]. Programs will need to be sensitive to the duality of faculty’s position when using direct observation in competency-based medical education and consider paradigms that minimize this role conflict [126, 127].

가이드라인 23. 직접 관찰에 대한 학습 문화를 방해할 수 있으므로 모든 직접 관찰을 높은 위험도로 만들지 마십시오.
Guideline 23. 
Don’t make all direct observations high stakes; this will interfere with the learning culture around direct observation.

대부분의 직접 관찰은 높은 위험도가 아니라 교수자가 학습자의 일상 업무에 대한 지침을 제공할 수 있도록 진정한 환자 중심 진료에 대한 낮은 위험도의 평가로 수행해야 합니다. 직접 관찰의 장점 중 하나는 학습자가 실제 임상 업무에 어떻게 접근하는지 볼 수 있는 기회이지만, 관찰 행위로 인해 성과가 변경되면 이점이 상쇄될 수 있습니다[128]. 학습자는 자신의 성과가 변경될 정도로 관찰과 관련된 '이해관계'에 매우 민감합니다[11, 31]. 직접 관찰에 대한 레지던트의 인식에 대한 질적 연구에서 레지던트들은 관찰자를 기쁘게 하기 위해, 그리고 성과가 채점된다고 생각하기 때문에 임상 스타일을 바꾼다고 보고했습니다. 직접 관찰은 학습자의 목표를 환자 중심 진료에서 성과 중심 진료로 전환했습니다[11]. 또 다른 연구에서 레지던트들은 직접 관찰에 대한 '이해관계'가 없기 때문에(관찰과 관련된 대화는 관찰자와 학습자 사이에만 이루어짐) 임상 수행의 진정성을 높이는 데 도움이 된다고 인식했습니다[31].
Most direct observations should not be high stakes, but rather serve as low-stakes assessments of authentic patient-centred care that enable faculty to provide guidance on the learner’s daily work. One of the benefits of direct observation is the opportunity to see how learners approach their authentic clinical work, but the benefits may be offset if the act of observation alters performance [128]. Learners are acutely sensitive to the ‘stakes’ involved in observation to the point that their performance is altered [11, 31]. In a qualitative study of residents’ perceptions of direct observation, residents reported changing their clinical style to please the observer and because they assumed the performance was being graded. The direct observation shifted the learner’s goals from patient-centred care to performance-centred care [11]. In another study, residents perceived that the absence of any ‘stakes’ of the direct observation (the conversations around the observations remained solely between observer and learner) facilitated the authenticity of their clinical performance [31].

지침 24. 직접 관찰을 사용하여 중요한 종합 결정을 내릴 때는 너무 짧은 시간 동안 너무 적은 수의 평가자에 의한 너무 적은 수의 직접 관찰에 근거하여 결정하지 말고 직접 관찰 데이터에만 의존하지 마십시오.
Guideline 24. 
When using direct observation for high-stakes summative decisions, don’t base decisions on too few direct observations by too few raters over too short a time and don’t rely on direct observation data alone.

단일 임상 성과에 대한 단일 평가에는 잘 설명된 한계가 있습니다:

  • 1) 평가는 단 한 명의 평가자의 인상을 포착하고
  • 2) 임상 수행은 단일 콘텐츠 영역으로 제한되는 반면 학습자는 평가의 내용, 환자 및 맥락에 따라 다르게 수행합니다[129, 130].

평가의 일반화 가능성을 높이려면 다양한 콘텐츠(예: 진단 및 술기) 및 맥락에서 학습자의 수행을 관찰하는 평가자의 수를 늘리는 것이 중요합니다[131, 132]. 또한 특정 시점의 학습자의 임상 수행은 감정 상태, 동기 부여 또는 피로와 같은 외부 요인에 의해 영향을 받을 수 있습니다. 따라서 일정 기간 동안 관찰한 내용을 캡처하면 보다 안정적으로 성과를 측정할 수 있습니다.
A single assessment of a single clinical performance has well-described limitations: 1) the assessment captures the impression of only a single rater and 2) clinical performance is limited to a single content area whereas learners will perform differentially depending on the content, patient, and context of the assessment [129, 130]. To improve the generalizability of assessments, it is important to increase the number of raters observing the learner’s performance across a spectrum of content (i. e. diagnoses and skills) and contexts [131, 132]. Furthermore, a learner’s clinical performance at any given moment may be influenced by external factors such as their emotional state, motivation, or fatigue. Thus, capturing observations over a period of time allows a more stable measure of performance.

평가 프로그램에서 여러 평가 도구(예: 의학 지식 테스트, 모의 상황, 직접 관찰)에서 수집한 정보를 결합하면 단일 평가 도구보다 학습자의 역량을 더 균형 있게 평가할 수 있습니다[133, 134]. 역량은 다차원적이며, 단일 평가 도구로는 모든 차원을 하나의 형식으로 평가할 수 없습니다[130, 135]. 이는 평가 도구를 뒷받침하는 타당성 논거를 검토할 때 분명하게 드러나는데, 단일 평가 도구의 경우 항상 논거의 강점과 약점이 존재합니다[136, 137]. 역량에 관한 의사결정에 도움이 되는 최상의 증거를 제공하는 도구를 신중하게 선택하는 것이 중요합니다[136, 137]. 예를 들어, 기술 숙련도를 평가하는 것이 목표인 경우, 프로그램은 시술의 적응증, 금기 사항 및 합병증에 대한 지식 테스트와 시뮬레이션 실험실의 파트별 트레이너를 사용한 직접 관찰 및 실제 임상 환경에서의 직접 관찰(환자와의 의사소통과 더불어 학습자의 기술 숙련도를 평가할 수 있는 곳)을 결합할 수 있습니다.
Combining information gathered from multiple assessment tools (e. g. tests of medical knowledge, simulated encounters, direct observations) in a program of assessment will provide a more well-rounded evaluation of the learner’s competence than any single assessment tool [133, 134]. Competence is multidimensional, and no single assessment tool can assess all dimensions in one format [130, 135]. This is apparent when examining the validity arguments supporting assessment tools; for any single assessment tool, there are always strengths and weaknesses in the argument [136, 137]. It is important to carefully choose the tools that provide the best evidence to aid decisions regarding competence [136, 137]. For example, if the goal is to assess a technical skill, a program may combine a knowledge test of the indications, contraindications and complications of the procedure with direct observation using part-task trainers in the simulation laboratory with direct observation in the real clinical setting (where the learner’s technical skills can be assessed in addition to their communication with the patient).

모름
Don’t Knows

가이드라인 25. 학습자의 독립성과 효율성이라는 가치를 훼손하지 않으면서 학습자가 관찰을 요청하도록 동기를 부여하는 프로그램은 무엇입니까?
Guideline 25. 
How do programs motivate learners to ask to be observed without undermining learners’ values of independence and efficiency?

직접적인 관찰/피드백과 자율성/효율성을 동시에 중시하는 학습 문화를 조성하는 데 따르는 어려움에 대해 논의되었지만, 이 문제에 대한 해결책은 명확하지 않습니다. 잠재적인 접근 방식으로는 교수진을 대상으로 짧은 만남에 대한 직접 관찰을 장려하고(따라서 효율성에 미치는 영향을 최소화), 교수진의 일상 업무에 직접 관찰의 근거를 두는 것이 있습니다[66, 129]. 그러나 이러한 전략은 직접 관찰에 더 많은 시간이 필요한 역량(예: 전문적 행동, 협업 기술 등)과는 반대로 짧은 관찰이 가능한 특정 업무에 직접 관찰을 집중하는 의도하지 않은 효과를 가져올 수 있습니다[60]. 또 다른 해결책은 환자 회진, 인수인계, 병원 또는 외래 환자 퇴원, 클리닉 프리셉팅 등과 같은 일상 업무에 직접 관찰을 포함시키는 것입니다. 기존 활동을 활용하면 일부 전문 분야 및 프로그램에서 발생하는 것처럼 학습자가 직접 관찰을 요청해야 하는 부담을 줄일 수 있습니다. 예를 들어, 맥마스터의 응급의학과 레지던트 프로그램에서는 관찰 영역을 공식화하여 각 응급실 교대 근무 시 감독자가 직접 관찰하는 시스템을 활용하고 있습니다[138]. 학습자가 관찰을 요청하도록 동기를 부여하는 추가 접근 방식을 식별하는 것이 중요합니다. 

While the difficulties in having a learning culture that simultaneously values direct observation/feedback and autonomy/efficiency have been discussed, solutions to this problem are less clear. Potential approaches might be to target faculty to encourage direct observation of short encounters (thus minimizing the impact on efficiency) and to ground the direct observation in the faculty’s daily work [66, 129]. However, these strategies can have the unintended effect of focusing direct observation on specific tasks which are amenable to short observations as opposed to competencies that require more time for direct observation (e. g. professional behaviour, collaboration skills etc.) [60]. Another solution may be to make direct observation part of daily work, such as patient rounds, hand-offs, discharge from a hospital or outpatient facility, clinic precepting and so forth. Leveraging existing activities reduces the burden of learners having to ask for direct observation, as occurs in some specialties and programs. For example, McMaster’s emergency medicine residency program has a system that capitalizes on supervisors’ direct observation during each emergency department shift by formalizing the domains for observation [138]. It will be important to identify additional approaches that motivate learners to ask for observation.

가이드라인 26. 전문과목은 어떻게 직접 관찰의 초점을 환자가 중요하게 여기는 임상 진료의 중요한 측면으로 확대할 수 있습니까?
Guideline 26. 
How can specialties expand the focus of direct observation to important aspects of clinical practice valued by patients?

환자와 의사는 임상 진료의 측면의 상대적 중요도에 대해 의견이 다릅니다. 예를 들어, 환자는 건강 관련 정보의 효과적인 전달의 중요성을 더 높게 평가합니다[139]. 평가자가 가장 중요하게 생각하거나 가장 편한 것만 관찰하는 경우, 직접 관찰의 초점을 임상 진료의 모든 중요한 측면으로 어떻게 확장할 수 있을까요[42]? 역량 기반 의료 교육에서 프로그램은 특정 술기를 강조하는 로테이션을 활용하여 관찰 빈도가 낮은 영역으로 직접 관찰의 초점을 확대할 수 있습니다(예: 일반 내과 입원 환자에서 관절 검사를 관찰하는 대신 류마티스내과 로테이션을 사용하여 학습자의 근골격 검사 술기를 직접 관찰하는 것). 분명한 것은 모든 사람이 모든 것을 관찰하기를 기대하는 것은 실패한 접근 방식이라는 것입니다. 각 전문과목별로 직접 관찰의 초점을 확대하여 환자가 중요하게 여기는 임상 치료의 측면을 포괄하는 방법을 배우기 위한 연구가 필요합니다. 많은 교수진 개발 프로그램은 교수진 개인만을 대상으로 하며, 조직 내 프로세스나 문화적 변화를 목표로 하는 프로그램은 상대적으로 적습니다[106]. 따라서 이러한 유형의 프로세스 변화를 목표로 하는 교육 리더를 위한 교수진 개발이 필요할 것으로 보입니다.
Patients and physicians disagree about the relative importance of aspects of clinical care; for example, patients more strongly rate the importance of effective communication of health-related information [139]. If assessors only observe what they most value or are most comfortable with, how can the focus of direct observation be expanded to all important aspects of clinical practice [42]? In competency-based medical education, programs may take advantage of rotations that emphasize specific skills to expand the focus of direct observation to less frequently observed domains (e. g. using a rheumatology rotation to directly observe learners’ musculoskeletal exam skills as opposed to trying to observe joint exams on a general medicine inpatient service). What seems apparent is that expecting everyone to observe everything is an approach that has failed. Research is needed to learn how to expand the focus of direct observation for each specialty to encompass aspects of clinical care valued by patients. Many faculty development programs target only the individual faculty member, and relatively few target processes within organizations or cultural change [106]. As such, faculty development for educational leaders that target these types of process change is likely needed.

지침 27. 프로그램은 어떻게 위험 부담이 크고 빈번하지 않은 직접 관찰 평가 문화를 위험 부담이 적고 형성적이며 학습자 중심적인 문화로 바꿀 수 있는가?
Guideline 27. 
How can programs change a high-stakes, infrequent direct observation assessment culture to a low-stakes, formative, learner-centred culture?

형성적 평가에 직접 관찰을 집중하는 것의 중요성은 이미 설명했습니다. 그러나 높은 수준의 빈번한 직접 관찰 평가 문화를 낮은 부담의, 형성적이고, 학습자 중심의 직접 관찰 문화로 바꾸는 데 도움이 되는 추가적인 접근 방식이 여전히 필요합니다[140]. 평가 빈도를 높이고, 학습자가 평가를 요청할 수 있도록 권한을 부여하고[141, 142], 학습자에게 피드백 및 코칭을 위한 평가가 중요하다는 점을 강조하는 전략과 그 영향을 탐구하는 연구가 필요합니다[143,144,145]. 평가 프로그램의 설계, 모니터링 및 지속적인 개선에 학습자를 효과적으로 참여시키는 방법도 추가 연구가 필요합니다[146].
The importance of focusing direct observation on formative assessment has been described. However, additional approaches are still needed that help change a high-stakes, infrequent direct observation assessment culture to a low-stakes, formative, learner-centred direct observation culture [140]. Studies should explore strategies for and impacts of increasing assessment frequency, empowering learners to seek assessment, [141, 142] and emphasizing to learners that assessment for feedback and coaching are important [143,144,145]. How a program effectively involves its learners in designing, monitoring and providing ongoing improvement of the assessment program also merits additional study [146].

직접 관찰은 형성 평가에 중점을 두어야 하지만, 궁극적으로 모든 교육 프로그램은 승진 및 전환과 관련하여 중대한 결정을 내려야 합니다. 연구에 따르면 프로그램에 더 정확한 평가 정보가 있을수록 더 정확하고 더 나은 정보를 바탕으로 고위험 결정을 내릴 수 있는 것으로 나타났습니다[134, 135]. 고위험 결정을 내리기 위해 여러 관찰을 사용하는 것 외에[140], 프로그램이 고위험 결정을 내리기 위해 여러 개의 낮은 위험도 직접 관찰 평가를 가장 잘 사용할 수 있는 방법은 정확히 밝혀지지 않았습니다. 또한, 평가가 궁극적으로 고위험 의사결정을 위해 집계될 때 프로그램이 평가가 낮은 위험도로 인식되도록(즉, 하나의 낮은 위험도 관찰이 고위험 의사결정을 유도하지 않도록) 어떻게 보장할 수 있을까요? 
Although direct observation should be focused on formative assessment, ultimately all training programs must make a high-stakes decision regarding promotion and transition. Research has shown that the more accurate assessment information a program has, the more accurate and better informed the high-stakes decisions are [134, 135]. Other than using multiple observations to make a high-stakes decision [140], it is not clear exactly how programs can best use multiple low-stakes direct observation assessments to make high-stakes decisions. Additionally, how do programs ensure that assessments are perceived as low stakes (i. e. that no one low-stakes observation will drive a high-stakes decision) when assessments ultimately will be aggregated for higher-stakes decisions?

그룹 프로세스는 프로그램 평가의 새로운 필수 구성 요소로 떠오르고 있습니다. 일부 국가에서는 임상 역량 위원회라고 불리는 이러한 그룹이 이제 의학 대학원 교육의 필수 구성 요소로 자리 잡았습니다[147]. 질적 및 양적 직접 관찰을 통해 얻은 강력한 데이터는 그룹 판단 프로세스에 매우 유용하여 진도에 대한 의사 결정을 개선할 수 있습니다[148, 149]. 직접 관찰은 역량 및 위탁에 관한 의사 결정을 개선하기 위해 그룹 프로세스를 사용할 수 있는 평가 프로그램에 중요한 입력으로 작용해야 하지만, 데이터를 가장 잘 집계하는 방법은 아직 명확하지 않습니다.
Group process is an emerging essential component of programmatic assessment. In some countries these groups, called clinical competency committees, are now a required component of graduate medical education [147]. Robust data from direct observations, both qualitative and quantitative, can be highly useful for the group judgmental process to improve decisions about progression [148, 149]. While direct observation should serve as a critical input into a program of assessment that may use group process to enhance decision making regarding competence and entrustment, how to best aggregate data is still unclear.

지침 28. 소수의 핵심 교수진을 직접 관찰을 수행하는 '마스터 교육자'로 육성하면 어떤 이점이 있나요?
Guideline 28. 
What, if any, benefits are there to developing a small number of core faculty as ‘master educators’ who conduct direct observations?

많은 프로그램에서 직접 관찰이 부족한 문제에 대한 한 가지 잠재적 해결책은 환자 치료에 대한 책임을 동시에 맡지 않고 [직접 관찰을 수행하는 것이 주된 역할인 핵심 평가자 그룹]과 병행하는 시스템을 개발하는 것입니다. 교수진이 직접 관찰에 대한 교육과 보수를 지원받은 새로운 피드백 프로그램에서 레지던트들은 임상 기술, 학습자로서의 발전, 정서적 웰빙 측면에서 혜택을 받았습니다[31]. 이러한 접근 방식은 교수진 개발 노력을 직접 관찰하고 피드백하는 기술을 개발할 소수의 교육자에게 집중할 수 있게 해줍니다. 이러한 교육자 간부는 보다 구체적이고 맞춤화된 피드백을 제공할 가능성이 높으며, 이들의 관찰은 일일 임상 감독자의 통찰력을 보완하여 학습자의 교육 경험을 잠재적으로 향상시킬 수 있습니다[150]. 이러한 접근 방식은 또한 일일 임상 감독자의 시간 제약과 바쁜 업무에 대한 해결책을 제공할 수도 있습니다. 이 접근 방식의 구조, 이점 및 비용에 대해서는 연구가 필요합니다.

One potential solution to the lack of direct observation in many programs may be to develop a parallel system with a core group of assessors whose primary role is to conduct direct observations without simultaneous responsibility for patient care. In a novel feedback program where faculty were supported with training and remuneration for their direct observations, residents benefited in terms of their clinical skills, development as learners and emotional well-being [31]. Such an approach would allow faculty development efforts to focus on a smaller cadre of educators who would develop skills in direct observation and feedback. A cadre of such educators would likely provide more specific and tailored feedback and their observations would complement the insights of the daily clinical supervisors, thus potentially enhancing learners’ educational experience [150]. Such an approach might also provide a work-around to the time constraints and busyness of the daily clinical supervisors. The structure, benefits and costs of this approach requires study.

지침 29. 위임 기반 척도가 특히 절차에 기반하지 않은 전문 분야의 경우 구성적 척도를 달성하는 데 가장 적합한 접근 방식입니까?
Guideline 29. 
Are entrustment-based scales the best available approach to achieve construct aligned scales, particularly for non-procedurally-based specialties?

아직 결론은 나지 않았지만, 위임 척도가 불만족에서 우수 또는 미흡에서 우수와 같은 형용사적 앵커를 사용하는 오래된 척도보다 더 우수할 수 있다는 연구가 증가하고 있습니다[151, 152]. 이러한 구형 척도는 교수자에게 척도에 따른 의미 있는 정의와 학습자의 성과를 다른 학습자 또는 다른 표준과 비교해야 하는지 여부를 제공하지 않는 '잘못 정렬된 척도 구성'의 예입니다. 정렬된 척도 구성은 교수진의 교육적 정신 구성에 '정렬'되는 서술적 설명어가 있거나없는 앵커를 사용합니다. (종종 감독 수준을 기반으로 하는) 위임은 교수자가 학습자에 대해 내려야 하는 결정 유형(예: 반응적 감독에 대한 신뢰 또는 신뢰하지 않음)과 더 잘 일치합니다.

  • Crossley와 동료들은 영국 수련생을 대상으로 파운데이션 기간에 실시한 미니 임상 평가 연습에서 발달 기술 척도를 사용하여 기존의 미니-CEX보다 조정된 척도를 사용하여 더 나은 신뢰도와 수용 가능성을 발견했습니다[96].
  • Regehr와 동료들은 교수진에게 일반적인 척도 대신 표준화된 설명적 내러티브를 사용하도록 요청하면 레지던트 그룹 간의 성과를 더 잘 변별할 수 있다는 사실을 발견했습니다[153].
  • 다른 연구자들도 수퍼비전 수준을 척도 앵커로 사용하는 관찰 도구의 신뢰도와 수용성이 더 우수하다는 사실을 발견했습니다[152, 154].

While the verdict is still out, there is growing research that entrustment scales may be better than older scales that use adjectival anchors such as unsatisfactory to superior or poor to excellent [151, 152]. These older scales are examples of ‘construct misaligned scales’ that do not provide faculty with meaningful definitions along the scale and whether learner performance is to be compared with other learners or another standard. Construct aligned scales use anchors with or without narrative descriptors that ‘align’ with the educational mental construct of the faculty. Entrustment, often based on level of supervision, is better aligned with the type of decisions a faculty member has to make about a learner (e. g. to trust or not trust for reactive supervision).

  • Crossley and colleagues, using a developmental descriptive scale on the mini-clinical evaluation exercise grounded in the Foundation years for UK trainees, found better reliability and acceptability using the aligned scale than the traditional mini-CEX [96].
  • Regehr and colleagues found asking faculty to use standardized, descriptive narratives versus typical scales led to better discrimination of performance among a group of residents [153].
  • Other investigators have also found better reliability and acceptability for observation instruments that use supervision levels as scale anchors [152154].

따라서 위탁 척도는 여전히 주의가 필요하지만 유망한 발전으로 보입니다. 신뢰도는 타당도의 한 측면일 뿐이며, 다른 도구에 적용되는 것과 동일한 문제가 위탁 척도에서도 여전히 문제가 될 수 있습니다. 예를 들어, 평가자는 수퍼비전에 대해 매우 다른 견해를 가지고 있을 수 있습니다(즉, 공유된 정신 모델이 부족할 수 있습니다). Teman과 동료들은 교수진이 수술실에서 레지던트를 감독하는 방식이 다양하다는 사실을 발견했으며, 레지던트에게 필요한 감독 유형을 가장 잘 결정하기 위해서는 교수진 개발이 필요하다고 주장했습니다[155, 156]. 절차적 즈위쉬 척도는 다양한 수준의 수퍼비전과 상관관계가 있는 수퍼바이저 행동에 대한 강력한 설명자를 제공합니다[108, 154, 158]. 위임 척도를 사용한 연구는 주로 절차적 전문 분야에 초점을 맞추었으며, 절차적 기반이 아닌 전문 분야에서의 유용성을 이해하려면 더 많은 연구가 필요합니다. 또한, 위탁 척도와 행동 고정 척도(학습자의 행동에 초점을 맞춘 척도)의 상대적 장점을 파악하기 위한 연구가 필요합니다. 
Thus entrustment scales appear to be a promising development though caution is still needed. Reliability is only one aspect of validity, and the same problems that apply to other tools can still be a problem with entrustment scales. For example, assessors can possess very different views of supervision (i. e. lack a shared mental model). Teman and colleagues found that faculty vary in how they supervise residents in the operating room; they argued that faculty development is needed to best determine what type of supervision a resident needs [155, 156]. The procedural Zwisch scale provides robust descriptors of supervisor behaviours that correlate with different levels of supervision [108, 154, 158]. Studies using entrustment scales have largely focused on procedural specialties; more research is needed to understand their utility in more non-procedural based specialties. Research is also needed to determine the relative merits of behaviourally anchored scales (focused on what a learner does) versus entrustment scales.

가이드라인 30. 관찰 데이터를 '즉시' 기록할 수 있도록 테크놀로지을 사용하는 가장 좋은 접근 방식은 무엇인가요?
Guideline 30. 
What are the best approaches to use technology to enable ‘on the fly’ recording of observational data?


기술은 평가 또는 정성적 의견과 같은 관찰 데이터를 즉시 기록하는 데 도움이 될 수 있습니다. 직접 관찰에 대한 경험적 의학 교육 연구의 대부분은 평가 도구가 제공되는 형식보다 평가 도구에 더 중점을 두었습니다[66]. 그러나 임상 진료가 종이 기반에서 전자 플랫폼으로 진화하고 있다는 점을 고려할 때, 직접 관찰의 기록, 작성 및 제출이 휴대용 장치 또는 기타 전자 플랫폼을 사용하여 촉진될 수 있다는 것은 직관적으로 이해가 됩니다. 이 영역에서 수행된 몇 가지 연구에서 전자적 접근 방식의 타당성과 사용자 만족도를 문서화했지만, 공유 목표 개발을 촉진하고 관찰 품질을 지원하며 관찰을 수집 및 종합하기 위해 전자 플랫폼을 최적화하는 방법을 이해하려면 더 많은 연구가 필요합니다[159,160,161,162]. 
Technology can facilitate the immediate recording of observational data such as ratings or qualitative comments. Much of the empirical medical education research on direct observation has focused on the assessment tool more than the format in which the tool is delivered [66]. However, given the evolution of clinical care from paper-based to electronic platforms, it makes intuitive sense that the recording, completion and submission of direct observations may be facilitated by using handheld devices or other electronic platforms. The few studies done in this realm have documented the feasibility of and user satisfaction with an electronic approach, but more research is necessary to understand how to optimize electronic platforms both to promote the development of shared goals, support observation quality and collect and synthesize observations [159,160,161,162].

가이드라인 31. 관찰의 질과 학습자 피드백을 개선하기 위한 최상의 교수자 개발 접근법 및 실행 전략은 무엇인가요?
Guideline 31. 
What are the best faculty development approaches and implementation strategies to improve observation quality and learner feedback?

이미 설명한 바와 같이, 평가자 인지에 대한 최근 연구는 평가자 특이성, 다양한 기준 프레임, 인지적 편향, 암묵적 편향 및 인상 형성 등 직접 관찰에 영향을 미치는 주요 요인에 대한 몇 가지 통찰력을 제공합니다[46, 47, 82, 98, 99]. 그러나 이것이 교수진 개발에 대한 접근 방식에 어떤 정보를 제공할 수 있는지는 잘 알려져 있지 않습니다. 예를 들어, 교육 리더가 평가자가 자신의 특이한 성향을 인식하도록 돕고 학습자가 다양한 평가자로부터 충분한 종단 샘플링을 받아 핵심 역량의 모든 측면을 관찰할 수 있도록 보장하는 것의 가치 또는 영향은 무엇일까요? 평가자가 강력한 공유 기준 기반 멘탈 모델을 개발하거나 위탁 기반 척도[96, 151, 152, 157]를 사용하도록 하면 평가자의 특이성 및 인지적 편향(예: 대조 효과)이 감소할 수 있습니까? [지침 16 참조].  
As already described, recent research in rater cognition provides some insights on key factors that affect direct observation: assessor idiosyncrasy, variable frames of reference, cognitive bias, implicit bias and impression formation [46, 47, 82, 98, 99]. However, how this can inform approaches to faculty development is not well understood. For example, what would be the value or impact of educational leaders helping assessors recognize their idiosyncratic tendency and ensuring learners receive sufficient longitudinal sampling from a variety of assessors to ensure all aspects of key competencies are observed? Would assessor idiosyncrasy and cognitive bias (e. g. contrast effect) be reduced by having assessors develop robust shared criterion-based mental models or use entrustment-based scales [96, 151, 152, 157]? [See Guideline 16].

성과 차원 훈련 및 기준 프레임 훈련의 원칙에 기반한 보다 집중적인 평가자 훈련은 평가자의 관용을 줄이고, 평가 정확도를 개선하며, 직접 관찰 및 피드백을 통해 자기 평가의 편안함을 개선하지만[9, 91], 평가자 훈련이 학습자에 대한 관찰, 평가 또는 피드백의 질을 향상시키는지에 대한 연구는 구체적으로 조사되지 않았습니다.
While more intensive rater training based on the principles of performance dimension training and frame of reference training decreases rater leniency, improves rating accuracy, and improves self-assessed comfort with direct observation and feedback [9, 91], studies have not specifically explored whether rater training improves the quality of observation, assessment or feedback to learners.

평가자 훈련의 최적 구조와 기간도 불분명합니다[9, 103, 157]. 직접 관찰은 복잡한 기술이며 일회성이 아닌 지속적인 교육과 연습이 필요할 가능성이 높습니다. 그러나 직접 관찰, 평가 및 피드백의 질을 향상시키는 데 가장 효과적인 평가자 교육 구조를 결정하기 위해서는 연구가 필요합니다. 초기 교육은 어느 정도의 시간이 필요할까요? 어떤 유형의 종단적 교육 또는 스킬 리프레시가 필요한가요? 얼마나 자주 실시해야 하나요? 평가자에게 평가의 질이나 서술에 대한 피드백을 제공하면 어떤 이점이 있나요? 기존 연구에 따르면 종일 교육은 효과가 미미하다는 점을 고려할 때, 집중 교육의 타당성을 판단하는 것이 중요합니다.
The optimal structure and duration of assessor training is also unclear [9, 103, 157]. Direct observation is a complex skill and likely requires ongoing, not just one-time, training and practice. However, studies are needed to determine what rater training structures are most effective to improve the quality of direct observation, assessment and feedback. Just how long does initial training need to be? What type of longitudinal training or skill refreshing is needed? How often should it occur? What is the benefit of providing assessors feedback on the quality of their ratings or their narratives? Given that existing studies show full day training has only modest effects, it will be important to determine the feasibility of intensive training.

가이드라인 32. 환자 또는 다른 의료진 구성원의 직접 관찰과 피드백을 직접 관찰 접근법에 어떻게 통합해야 합니까?
Guideline 32. 
How should direct observation and feedback by patients or other members of the health care team be incorporated into direct observation approaches?

환자 및 기타 의료 전문가는 학습자 수행의 다양한 측면을 일상적으로 관찰하며 감독자의 피드백을 보완하는 피드백을 제공할 수 있습니다. 환자의 관점과 경험을 포함하지 않고 환자 중심 치료를 가르치고 평가하는 것은 매우 어렵습니다. 전문가 간 팀워크의 중요성을 고려할 때, 다른 팀원의 평가에 대해서도 마찬가지입니다. 환자 경험 설문조사와 다중 출처 피드백 도구(환자 설문조사 포함)는 이제 환자와 의료 전문가의 관찰과 경험을 포착하는 데 일반적으로 사용됩니다[163, 164]. 다중 소스 피드백은 적절하게 구현될 경우 유용한 정보를 제공하고 행동을 변화시키는 데 효과적일 수 있습니다[165, 166]. 환자로부터 적시에 피드백을 받는 것이 도움이 될지는 아직 알려지지 않았습니다. Concato와 Feinstein은 방문이 끝날 때 환자에게 세 가지 질문을 하면 병원과 개별 의사에게 풍부한 피드백이 제공된다는 것을 보여주었습니다[167]. 방문이 끝날 때 환자에게 '오늘 필요한 모든 것을 얻었습니까?"라고 간단히 묻는 환자 중심 기법은 의미 있는 피드백으로 이어질 수 있으며, 직접 관찰 시 '환자가 안전하고 효과적이며 환자 중심적인 치료를 받았습니까'를 주요 참조 프레임으로 사용하는 개념과 잘 부합할 수 있습니다[52]. 이 두 가지 기법이 유용할 수 있지만, 환자와 전문가 간 팀을 더 높은 수준의 평가에 활용하기 위해서는 더 많은 연구가 필요합니다. 연구에 따르면 다중 출처 피드백(전문가 간 그룹의 관찰을 나타내는)을 고위험 평가에 일상적으로 사용해서는 안 된다고 강력히 제안합니다[163]. 
Patients and other health professionals routinely observe various aspects of learner performance and can provide feedback that complements supervisors’ feedback. It is very hard to teach and assess patient-centred care without involving the perspective and experiences of the patient. Given the importance of inter-professional teamwork, the same can be said regarding assessments from other team members. Patient experience surveys and multi-source feedback instruments (which may include a patient survey) are now commonly used to capture the observations and experiences of patients and health professionals [163, 164]. Multisource feedback, when implemented properly, can be effective in providing useful information and changing behaviour [165, 166]. What is not known is whether just-in-time feedback from patients would be helpful. Concato and Feinstein showed that asking the patient three questions at the end of the visit yielded rich feedback for the clinic and the individual physicians [167]. A patient-centred technique that simply asks the patient at the end of the visit ‘did you get everything you needed today?’ may lead to meaningful feedback and aligns well with the concept of using ‘did the patient get safe, effective, patient-centred’ as the primary frame of reference during direct observation [52]. While these two techniques might be of benefit, more research is needed before using patients and the inter-professional team for higher-stakes assessment. Research strongly suggests that multi-source feedback (representing the observations of an inter-professional group) should not be routinely used for higher-stakes assessment [163].

가이드라인 33. 직접 관찰이 학습자 및 환자 결과에 영향을 줍니까?
Guideline 33. 
Does direct observation influence learner and patient outcomes?

의학교육에서 직접 관찰의 핵심적인 역할에도 불구하고, 직접 관찰이 학습자 및 환자 결과를 개선한다는 것을 입증하는 결과 데이터는 거의 존재하지 않습니다. 임상 및 절차 역량은 안전하고 효과적인 환자 중심 진료의 기본입니다. 직접 관찰 평가가 학습자 결과를 개선하고 따라서 환자 결과를 개선한다는 증거는 부족하지만, 논리와 간접적인 증거는 존재합니다. 의도적인 실습과 코칭은 기술 향상과 전문성 개발을 지원합니다[168]. 의료 전문가들 사이에서 더 나은 의사소통 기술이 더 나은 환자 결과와 관련이 있다는 증거는 높은 수준의 역량을 보장하기 위해 그러한 기술을 관찰하고 피드백을 제공하는 것의 중요성을 강력하게 뒷받침합니다[169]. 반대로 앞서 지적한 바와 같이, 전 과정에서 직접 관찰은 드물고 의사의 역량에는 격차가 존재합니다[170,171,172]. 따라서 직접 관찰이 중요하지 않다고 결론을 내리는 것은 비논리적이지만, 학습자와 환자 결과에 미치는 영향을 극대화하는 최선의 방법을 결정하기 위해서는 훨씬 더 많은 연구가 필요합니다. 
Despite the central role of direct observation in medical education, few outcome data exist to demonstrate that direct observation improves learner and patient outcomes. Clinical and procedural competencies are foundational to safe, effective, patient-centred care. While evidence is lacking to show that direct observation assessments improve learner outcomes, and therefore patient outcomes, logic and indirect evidence do exist. Deliberate practice and coaching support skill improvement and the development of expertise [168]. The evidence that better communication skills among health professionals is associated with better patient outcomes strongly supports the importance of observing and providing feedback about such skills to ensure high levels of competence [169]. Conversely, as pointed out earlier, direct observation is infrequent across the continuum and there are gaps in practising physicians’ competencies [170,171,172]. Thus, it would be illogical to conclude direct observation is not important, but much more work is needed to determine the best methods that maximize the impact on learner and patient outcomes.

요약
Summary

역량 기반 의학교육의 시대에 그 중요성이 더욱 강조되고 있는 오랜 평가 전략인 임상 술기 직접 관찰에 초점을 맞춘 가이드라인 목록을 작성했습니다. 이 작업은 다양한 관점을 대표하는 광범위한 문헌을 종합하고, 반복적인 작업을 거쳤으며, 현재 문헌에 대한 우리의 합의를 나타냅니다. 체계적인 검토가 아니었기 때문에 가이드라인에 정보를 제공할 수 있는 연구를 놓쳤을 수 있습니다. 저자들이 북미 출신이어서 관점과 권장사항의 일반화 가능성이 제한될 수 있습니다. 각 가이드라인의 강점을 결정하기 위해 그룹 합의를 사용했지만, 근거 강도에 대한 해석은 주관적이었습니다.
We have compiled a list of guidelines focused on direct observation of clinical skills, a longstanding assessment strategy whose importance has heightened in the era of competency-based medical education. This work synthesizes a wide body of literature representing multiple viewpoints, was iterative, and represents our consensus of the current literature. Because this was not a systematic review, we may have missed studies that could inform the guidelines. Authors were from North America, potentially limiting generalizability of viewpoints and recommendations. Although we used group consensus to determine the strengths of each guideline, our interpretation of evidence strength was subjective.

결론
Conclusions

이 가이드라인은 보건의료 전문직 교육에서 직접 관찰의 양과 질을 높이는 데 도움이 되도록 고안되었습니다. 직접 관찰을 개선하려면 감독자 개인과 학습자뿐만 아니라 그들이 일하고 훈련하는 조직과 문화에도 초점을 맞춰야 합니다. 수퍼바이저와 학습자 모두에게 직접 관찰에 참여하도록 동기를 부여하고 직접 관찰(및 그에 따른 피드백)이 실현 가능하고 가치 있으며 효과적인 지원 교육 시스템과 문화를 조성하는 전략과 개입을 식별하기 위해 해야 할 일이 많이 남아 있습니다. 이러한 접근 방식의 설계는 자기조절 학습과 평가자의 인지에 대한 이해의 증가와 같은 개념에 기반해야 합니다. 이러한 전략을 설계, 보급 및 평가하려면 문화 변화라는 매우 어려운 작업에 참여할 준비가 된 교육 리더에 대한 투자가 필요합니다. 우리가 아는 한, 맥락, 문화 및 시스템을 고려하면서 동시에 교육 리더, 감독자 및 학습자에게 초점을 맞추어 임상 술기에 대한 직접 관찰을 개선하기 위한 이러한 다각적이고 포괄적인 접근 방식은 설명된 바가 없습니다. 학습자와 감독자가 직접 관찰을 사용하여 진행 상황을 평가하고 더 높은 수준의 평가에 정보를 제공할 수 있도록 권한을 부여하면 교육 시스템 전체가 학습자의 역량을 향상하고 환자 치료를 개선할 수 있습니다.

These guidelines are designed to help increase the amount and quality of direct observation in health professions education. Improving direct observation will require focus not just on the individual supervisors and their learners but also on the organizations and cultures in which they work and train. Much work remains to be done to identify strategies and interventions that motivate both supervisors and learners to engage in direct observation and that create a supportive educational system and culture in which direct observation (and the feedback that follows) is feasible, valued and effective. The design of these approaches should be informed by concepts such as self-regulated learning and the growing understanding of rater cognition. Designing, disseminating and evaluating such strategies will require an investment in educational leaders prepared to engage in the very difficult work of culture change. To our knowledge, such a multifaceted, comprehensive approach to improving direct observation of clinical skills by simultaneously focusing on educational leaders, supervisors, and learners, while considering the context, culture and system has not been described. Empowering learners and their supervisors to use direct observation to assess progress and inform higher-stakes assessments enables the educational system as a whole to improve learners’ capabilities and enhance the care of patients.

 


Perspect Med Educ. 2017 Oct;6(5):286-305. doi: 10.1007/s40037-017-0376-7.

Guidelines: The do's, don'ts and don't knows of direct observation of clinical skills in medical education

Affiliations

1Perelman School of Medicine at the University of Pennsylvania, Philadelphia, PA, USA. Jennifer.kogan@uphs.upenn.edu.

2University of British Columbia, Vancouver, British Columbia, Canada.

3University of California San Francisco, San Francisco, CA, USA.

4Accreditation Council of Graduate Medical Education, Chicago, IL, USA.

PMID: 28956293

PMCID: PMC5630537

DOI: 10.1007/s40037-017-0376-7

Free PMC article

Abstract

Introduction: Direct observation of clinical skills is a key assessment strategy in competency-based medical education. The guidelines presented in this paper synthesize the literature on direct observation of clinical skills. The goal is to provide a practical list of Do's, Don'ts and Don't Knows about direct observation for supervisors who teach learners in the clinical setting and for educational leaders who are responsible for clinical training programs.

Methods: We built consensus through an iterative approach in which each author, based on their medical education and research knowledge and expertise, independently developed a list of Do's, Don'ts, and Don't Knows about direct observation of clinical skills. Lists were compiled, discussed and revised. We then sought and compiled evidence to support each guideline and determine the strength of each guideline.

Results: A final set of 33 Do's, Don'ts and Don't Knows is presented along with a summary of evidence for each guideline. Guidelines focus on two groups: individual supervisors and the educational leaders responsible for clinical training programs. Guidelines address recommendations for how to focus direct observation, select an assessment tool, promote high quality assessments, conduct rater training, and create a learning culture conducive to direct observation.

Conclusions: High frequency, high quality direct observation of clinical skills can be challenging. These guidelines offer important evidence-based Do's and Don'ts that can help improve the frequency and quality of direct observation. Improving direct observation requires focus not just on individual supervisors and their learners, but also on the organizations and cultures in which they work and train. Additional research to address the Don't Knows can help educators realize the full potential of direct observation in competency-based education.

Keywords: Assessment; Clinical Skills; Competence; Direct Observation; Workplace Based Assessment.

관리추론과 환자-의사 상호작용: 공동 의사결정과 모의 외래환자로부터의 통찰(Med Teach, 2023)
Management reasoning and patient-clinician interactions: Insights from shared decision-making and simulated outpatient encounters (Med Teach. 2023)
David A. Cooka , Ian G. Hargravesb , Christopher R. Stephensonc and Steven J. Durningd

소개
Introduction

의학은 환자의 상태를 진단하는 것보다 환자의 필요를 관리하는 것이 더 중요하지만, 방대한 임상 추론 문헌은 대부분 관리를 무시하여 환자 치료에 해를 끼칩니다(Cook 외. 2018). 최근 연구에서는 환자-임상의 상호작용의 중요한 역할을 포함하여 관리 추론의 중요한 특징이 강조되었습니다(Cook 외. 2018, 2019, 2022b). 실제로 관리 추론은 '전적으로 특정 임상의 내부가 아닌 개인 간의 공간에서' 이루어집니다. (Cook 외. 2022b) 그러나 관리 추론의 이러한 상호 작용 및 의사소통 측면에 대한 우리의 이해는 아직 불완전하게 개발되어 있습니다. 이 연구의 목적은 [관리 추론에서 환자-임상의 상호 작용]에 대한 이해를 넓히는 것입니다. 
Medicine is more about managing patient needs than diagnosing their conditions, but the vast clinical reasoning literature largely ignores management, to the detriment of patient care (Cook et al. 2018). Recent work has highlighted important characteristics of management reasoning (Cook et al. 2018, 2019, 2022b), including the crucial role of patient-clinician interactions. Indeed, management reasoning takes place substantially ‘in the space between individuals rather than entirely within a given clinician.’ (Cook et al. 2022b) However, our understanding of this interactional and communicative aspect of management reasoning remains incompletely developed. The purpose of this study is to expand our understanding of patient-clinician interactions in management reasoning.

관리 추론이 진단 추론보다 더 중요하다는 것은 틀림없는 사실이지만, 현재까지 거의 모든 임상 추론 연구와 이론은 후자에 초점을 맞추고 있습니다(Elstein 외. 1978; Eva and Norman, 2005; Norman, 2005; Norman 외. 2007, 2017). 최근에야 관리 추론이 명시적으로 구분되고 논의되기 시작했습니다(Cook et al. 2018, 2019). [관리 추론]은 '임상의가 임상 정보(병력, 검사 결과, 검사 결과), 선호도, 의학 지식, 맥락(상황) 요소를 통합하여 치료, 추가 검사, 후속 진료, 제한된 자원의 할당 등 개별 환자의 관리에 대한 결정을 내리는 인지적 과정'으로 정의되었습니다(Cook 외. 2019).
Management reasoning is arguably more important than diagnostic reasoning, yet nearly all clinical reasoning research and theory to-date have focused on the latter (Elstein et al. 1978; Eva and Norman, 2005; Norman, 2005; Norman et al. 2007, 2017). Only recently has management reasoning been explicitly distinguished and discussed (Cook et al. 2018, 2019). Management reasoning has been defined as ‘the cognitive processes by which clinicians integrate clinical information (history, exam findings, and test results), preferences, medical knowledge, and contextual (situational) factors to make decisions about the management of an individual patient, including decisions about treatment, further testing, follow-up encounters, and allocation of limited resources’ (Cook et al. 2019).

[임상적 추론]은 일반적으로 개별 임상의의 인지적 활동으로 해석됩니다. 이는 진단 추론의 경우 대부분 사실일 수 있지만, 관리 추론은 [공유된 숙고 과정]을 수반합니다(Cook 외. 2019). 최근의 경험적 연구에서 우리는 관리 추론의 주요 특징을 파악하기 위해 의사-환자 간 만남을 시뮬레이션한 동영상을 검토했으며(Cook 외. 2022b), 관리 추론이 한 사람 내에서만 발생하는 것이 아니라 [사람들이 상호 작용할 때 발생]한다는 사실을 확인했습니다. 그러나 우리는 관리 추론에서 환자-임상의 상호 작용에 대한 이해가 불완전하다는 것을 인식하고 있으며, 이 현상에 대한 이해를 심화시키고 교육, 평가, 임상 실습 및 향후 연구에 대한 시사점을 식별해야한다고 느낍니다. 저희는 공유 의사결정(SDM)이 이 문제를 밝히는 데 도움이 될 수 있다고 가정합니다. 공유 의사결정은 환자와 임상의가 함께 협력적으로 의사결정 또는 추론하는 방법에 대한 이론적, 실제적 프레임워크를 제공하기 때문입니다.
Clinical reasoning is commonly construed as a cognitive activity within individual clinicians. While this may be largely true of diagnostic reasoning, management reasoning entails a shared deliberative process (Cook et al. 2019). In a recent empirical study we reviewed videos of simulated physician-patient encounters to identify key features of management reasoning (Cook et al. 2022b), and confirmed that management reasoning occurs as people interact rather than solely within one person. We recognize, however, our incomplete comprehension of patient-clinician interactions in management reasoning, and feel prompted to deepen our understanding of this phenomenon and identify implications for teaching, assessment, clinical practice, and future research. We postulate that shared decision-making (SDM) could help illuminate this issue, as SDM offers theoretical and practical frameworks about how patients and clinicians collaboratively make decisions, or reason, together.

SDM은 [환자의 자율성]과 [환자 중심 치료]를 강화하기 위해 널리 장려되고 있습니다. SDM의 다양한 모델은 환자-임상의 상호 작용의 다양한 측면을 강조합니다. 대부분의 모델은 치료 옵션 중에서 선택할 때와 같이 의사 결정에 환자를 참여시키는 데 중점을 둡니다(Makoul and Clayman, 2006; Bomhof-Roordink 외. 2019). 

  • 미국 의료 연구 및 품질 관리국 'SHARE' 모델은 임상의가 
    • 명시적으로 환자의 참여를 구하고
    • 옵션을 탐색하도록 돕고
    • 환자의 가치와 선호도를 평가하고, 
    • 결정에 도달하고, 
    • 결정을 평가할 것을 권장합니다(미국 의료 연구 및 품질 관리국, 2020). 
  • 이와 유사하게, 엘윈의 '세 가지 대화' 모델은 다음을 강조합니다(엘윈 외. 2012, 2017). 
    • 환자를 의사 결정에 참여시키고(팀 대화), 
    • 각 옵션에 대해 논의하며(옵션 대화), 
    • 선호도를 통합하는 것(결정 대화)
  • 최근에는 많은 임상 상황에서 욕구를 명확히 하거나, 문제를 해결하거나, 인간성과 정체성의 실존적 문제를 해결하는 것만큼 옵션 중에서 선택하는 것이 중요하지 않다는 점을 인식한 '목적 지향적 SDM'(Purposeful SDM)이라는 새로운 SDM 모델이 제안되었습니다(표 1)(Hargraves et al. 2019). 

SDM is widely promoted to enhance patient autonomy and patient-centered care. Different models of SDM emphasize different aspects of patient-clinician interactions. Most models focus on involving patients in decision-making (Makoul and Clayman, 2006; Bomhof-Roordink et al. 2019), as when choosing among treatment options.

  • The Agency for Healthcare Research and Quality ‘SHARE’ model encourages clinicians to
    • explicitly Seek the patient’s participation; 
    • Help them explore options; 
    • Assess their values and preferences; 
    • Reach a decision; and 
    • Evaluate the decision (Agency for Healthcare Research and Quality, 2020).
  • Similarly, Elwyn’s ‘Three Talk’ model emphasizes engaging patients in decision-making (team talk), discussing each option (option talk), and integrating preferences (decision talk) (Elwyn et al. 2012, 2017).
  • Recently, a new model of SDM has been proposed—‘Purposeful SDM’ (Hargraves et al. 2019)—that recognizes that many clinical situations do not entail choosing among options so much as clarifying desires, solving problems, or addressing existential issues of humanity and identity (Table 1) (Hargraves et al. 2019). 

이러한 관점에서 볼 때, [SDM의 주요 목적]은 환자를 의사 결정에 '참여'시키는 것이 아니라, [환자의 특정 문제에 적합한 협력 방법을 수립하는 것]입니다. [목적 지향적 SDM]은 [참여 중심]이 아닌 [문제 중심]입니다.
Viewed through this lens, the primary purpose of SDM is not to “involve” patients in decision-making, but to establish methods for working together that are appropriate for this patient’s particular problems. Purposeful SDM is problem-focused rather than involvement-focused.

이 연구에서는 이러한 SDM 모델('참여 중심', '문제 중심')과 함께 환자와 임상의가 함께 관리 결정을 내리는 시뮬레이션 동영상을 활용하여 성공적인 또는 실패한 관리 추론에 기여하는 환자-임상의 상호 작용 요소를 조명했습니다.
In this study we drew on videos of simulated patients and clinicians as they made management decisions together, along with these SDM models (‘involvement-focused,’ ‘problem-focused’), to illuminate elements of patient-clinician interactions that contribute to successful or unsuccessful management reasoning.

방법
Method

저희는 환자와 임상의의 모의 만남을 담은 10개의 비디오를 검토하고 [두 가지 개념적 렌즈]를 통해 관찰한 내용을 체계적으로 해석했습니다. 이 동영상은 이전 연구(Cook 외. 2022b)에서 사용한 것과 동일한 동영상이지만, 새롭게 수집한 데이터와 새로운 프레임워크를 사용하여 고유한 스토리를 전달했습니다.
We reviewed 10 videos of simulated patient-clinician encounters and systematically interpreted our observations through two distinct conceptual lenses. These were the same videos used in our previous study (Cook et al. 2022b), but we used newly-collected data and novel frameworks to tell a unique story.

비디오 선택 및 코딩
Video selection and coding

각 비디오(45초~7분 길이)는 [레지던트 의사와 환자 간의 모의 외래 환자 추적 관찰]을 묘사했습니다. 평가자 교육 연구에 사용된 비디오 라이브러리에서 5가지 의학적 문제(고혈압, 고지혈증, 섬유근육통, 당뇨병, 유두상 갑상선암)에 대해 각각 2개의 비디오를 선택했습니다(Cook et al. 2009, Cook and Beckman, 2009). 이러한 경험을 통해 학습을 극대화하기 위해 52명의 내과 의사('극단적인 그룹'의 의도적 표본 추출)의 미니 CEX '상담' 평점을 기준으로 각 문제별로 가장 낮은 점수와 가장 높은 점수를 받은 동영상을 선정했습니다.

  • 3개 문제(6개 동영상)의 경우 레지던트-배우가 열악한 연기와 우수한 연기를 번갈아 연기하도록 코칭을 받았고, 환자-배우에게는 대본 없이 진정성 있는 답변을 하도록 지시했습니다.
  • 나머지 4개의 비디오는 대본이 작성되었습니다.

Each video (45 s to 7 min long) portrayed a simulated outpatient follow-up encounter between a resident physician and a patient. From a library of videos used in a study of rater training (Cook et al. 2009; Cook and Beckman, 2009) we selected 2 videos for each of 5 medical problems (hypertension, hyperlipidemia, fibromyalgia, diabetes mellitus, and papillary thyroid cancer). To maximize our learning from these encounters, we selected the lowest-scoring and highest-scoring videos for each problem, based on mini-CEX ‘counseling’ ratings from 52 internal medicine physicians (‘extreme groups’ purposive sampling).

  • For 3 problems (6 videos) the resident-actor was coached to alternately portray poor or superior performance, and the patient-actor was instructed to respond authentically; there was no written script.
  • The other 4 videos were scripted.

비디오는 2단계에 걸쳐 검토되었습니다. 1단계(2020년 11월)에서는 4명의 연구자(DAC, CRS, SJD, LDG)가 개방형 프롬프트가 포함된 코딩 양식(부록 1, 보충 자료)을 사용하여 각 비디오를 최소 2회 독립적으로 검토했습니다: 

  • '이 만남에서 관리 추론의 어떤 특징이 분명하게 드러나는가? [환자, 제공자, 시스템 선호도, 제약, 가치의 우선순위, 의사소통 및 공유된 의사결정(환자 선호도 확인, 통합) 등 5가지 특징 목록]'을 포함한 5가지 특징 목록으로 구성했습니다. 

논의는 2021년 10월부터 2022년 1월까지 계속되었습니다.
We reviewed videos in 2 phases. In phase 1 (November 2020), 4 investigators (DAC, CRS, SJD, LDG) independently reviewed each video at least twice using a coding form with open-ended prompts (Appendix 1, Supplementary material), including:

  • ‘What features of management reasoning are evident in this encounter? [list of 5 features including Prioritization of patient, provider, and system preferences, constraints, and values; and Communication and shared decision-making (ascertainment of, integration with patient preferences)].’

Discussions continued October 2021 to January 2022.

데이터 분석 중에 커뮤니케이션과 SDM은 추가 조사가 필요한 것으로 나타났으며, 2단계(2022년 2월)에서 이를 추진했습니다. 먼저 Purposeful SDM 모델의 주요 개발자를 포함하여 SDM에 대한 폭넓은 경험을 가진 조사자(IGH)를 팀에 추가했습니다(Hargraves 외. 2019). 그는 처음에는 1단계 조사 결과에 대한 지식 없이 독립적으로 동일한 동영상을 검토한 다음, 조사자 DAC 및 SJD와 함께 동일한 동영상을 검토했습니다. 이 조사자들은 처음에는 독립적으로, 그다음에는 그룹으로 각 비디오를 검토하면서 참여 중심 모델과 문제 중심 모델을 차례로 명시적으로 고려했습니다. 각 영상에 대해 각 모델의 주요 특징이 반영되었는지 여부를 코딩했습니다(부록 2, 보충 자료). 참여 중심 모델의 주요 특징은 쓰리 토크 모델(OPTION-5(Barr 외. 2015))에 기반한 도구와 최근 검토(Bomhof-Roordink 외. 2019)를 통해 확인했습니다. 문제 중심 모델의 경우, 목적 중심 SDM(Hargraves et al. 2019)의 개념을 사용했습니다(표 1). 개방형 프롬프트를 사용하여 추가 관찰 사항을 문서화했습니다.
During data analysis, communication and SDM stood out as warranting further investigation, which we pursued in phase 2 (February 2022). We first added to our team an investigator (IGH) with extensive experience in SDM including being a principal developer of the Purposeful SDM model (Hargraves et al. 2019). He reviewed the same videos, first independently and without knowledge of the phase 1 findings, and then in conjunction with investigators DAC and SJD. These investigators reviewed each video, first independently and then as a group, explicitly considering in turn the involvement-focused and problem-focused models of SDM. For each video we coded whether key features of each model were reflected in the encounter (Appendix 2, Supplementary material). We identified key features of the involvement-focused model from an instrument grounded in the Three Talk model (the OPTION-5 (Barr et al. 2015)) and from a recent review (Bomhof-Roordink et al. 2019). For the problem-focused model we used concepts from Purposeful SDM (Hargraves et al. 2019) (Table 1). We documented additional observations using open-ended prompts.

데이터 분석 및 모델 구축
Data analysis and model building

우리는 4단계로 진행되는 지속적인 비교 질적 분석 접근법(Glaser, 1965)을 사용했습니다.

  • 1단계에서는 모든 원시 관찰을 요약하고 검토하여 1단계의 초기 관찰을 분석했습니다(특정 SDM 모델 없음). 그런 다음 여러 차례의 음성 및 전자 매개 대화를 통해 중복을 해결하고 이러한 관찰을 반복적으로 재구성, 재개념화, 정교화 및 구체화했습니다. 
    We used a constant comparative qualitative analysis approach (Glaser, 1965), proceeding in 4 stages. In stage 1, we analyzed the initial observations from phase 1 (no specific SDM model) by summarizing and reviewing all raw observations. We then engaged in multiple voice and electronic-mediated conversations to resolve redundancies and iteratively reorganize, reconceptualize, elaborate, and refine these observations.
  • 환자-임상의 상호작용에 대한 추가 인사이트를 얻을 수 있는 기회를 인식하고 풍부한 새로운 데이터를 수집했습니다(위의 2단계, IGH의 독립 검토 및 그룹의 공동 검토 포함). 이러한 데이터를 분석하는 동안(2단계) 우리는 각 비디오에 대해 차례로 논의하면서 개별 코딩을 공유하고 각 모델의 렌즈를 통해 이러한 결과를 해석하면서 추가 인사이트를 공동으로 정교화했습니다.
    Recognizing the opportunity to glean further insights regarding patient-clinician interactions, we collected abundant new data (phase 2 above, including IGH's independent review and the group’s conjoint review). During analysis of these data (stage 2) we discussed each video in turn, sharing our individual codings and jointly elaborating further insights as we interpreted these findings through the lens of each respective model.
  • 다음 단계(3단계)에서는 관리 추론과 환자-임상의 상호작용 간의 연관성을 명시적으로 탐색했습니다. 1단계와 2단계에서 얻은 결과를 사용하여 이전에 보고된 12가지 관리 추론 기능(Cook 외. 2022b) 각각과 참여 중심 및 문제 중심 SDM 모델 간의 상호 영향을 체계적으로 고려했습니다.
    Next (stage 3) we explicitly explored the connections between management reasoning and patient-clinician interactions. Using our findings from stages 1 and 2, we systematically considered the reciprocal implications between each of 12 previously-reported management reasoning features (Cook et al. 2022b) and the involvement-focused and problem-focused SDM models.
  • 마지막으로 4단계에서는 축 분석을 통해 다양한 기능과 모델을 비교하여 몇 가지 잠정적인 모범 사례를 식별했습니다.
    Finally, in stage 4 we used axial analysis to cut across the various features and models, to identify several tentative best practices.

모든 검토자가 주요 결과에 대해 완전한 합의를 도출했습니다. 부록 1~3에는 모든 관찰 및 분석에 대한 자세한 문서 추적이 포함되어 있습니다(보충 자료).
All reviewers came to full consensus on key findings. Appendices 1–3 contain a detailed paper trail of all observations and analyses (Supplementary material).

반사성
Reflexivity

우리의 배경은 관찰과 분석에 분명 영향을 미쳤습니다. 세 명의 조사자(DAC, SJD, CRS)는 현직 의사(일반 내과 전문의)이며, 두 명의 조사자는 교육/인지(SJD) 및 디자인, 커뮤니케이션, SDM(IGH) 분야의 박사 학위를 보유하고 있습니다. 세 명의 연구자(DAC, SJD, CRS)가 12가지 기능의 경영 추론 모델을 설명하는 데 협력했으며, 한 명(IGH)은 목적 지향적 SDM 모델을 개발했습니다(Hargraves et al. 2019).
Our background surely influenced our observations and analyses. Three investigators (DAC, SJD, CRS) are practicing physicians (general internists) and 2 have PhDs with backgrounds in education/cognition (SJD) and design, communication, and SDM (IGH). Three investigators (DAC, SJD, CRS) collaborated in describing the 12-feature model of management reasoning and one (IGH) developed the purposeful SDM model (Hargraves et al. 2019).

결과
Results

개념적 모델 없이 관찰(1단계)
Observations without conceptual model (stage 1)

먼저 특정 개념적 모델 없이 관찰한 내용을 보고하고, 환자-임상의 상호작용의 질이 특히 낮거나 추론 과정 또는 치료 계획에 해로운 것으로 보이는 사례(및 그에 따른 시사점, 결과 또는 문제)를 강조했습니다. 또한, 아무리 우수한 동영상이라도 평범한 수준에 불과하다고 판단되는 경우라도 우수한 성과를 보인 사례도 찾았습니다. 표 2에는 각 비디오와 눈에 띄는 인상이 설명되어 있으며, 부록 1에는 관찰 및 분석에 대한 자세한 내용이 나와 있습니다(보충 자료).
We first report observations made without a specific conceptual model, highlighting instances (and corresponding implications, consequences, or problems) in which the patient-clinician interaction was of particularly poor quality or seemed detrimental to the reasoning process or care plan. We also sought instances of superior performance, although in our judgment even the best videos were only mediocre. Table 2 describes each video and salient impressions; Appendix 1 details our observations and analyses (Supplementary Material).

의사는 환자의 자율성이나 선택을 허용하거나 장려하지 않는 경우가 많았습니다. 이는 대놓고 드러나는 경우는 거의 없었습니다(예: 단 하나의 옵션만 제시된 동영상은 단 한 편뿐이었음). 그러나 [미묘한 표현]으로 자율성을 침해하는 경우가 종종 있었습니다. 한 조사자는 의사들이 '환자의 의사를 뭉겠다'고 썼습니다. 예를 들어, 새로 갑상선 유두암 진단을 받은 환자에게 의사는 환자에게 수술 상담을 최우선 순위로 삼으라고 주장했습니다('이 암은 가장 중요한 암입니다. 이 암은 당신에게 가장 중요한 것이어야 합니다'), 환자가 업무 마감일과 충돌할 수 있다는 우려를 표명했음에도 불구하고. 고혈압, 고지혈증, 당뇨병에 대한 약물 치료 시작을 보여주는 동영상에서는 일반적으로 한 가지 치료 옵션이 권장되는 것으로 제시되고 환자는 이에 동의할 것으로 예상(설득)되었습니다. 이러한 문제는 치료 옵션을 식별할 때뿐만 아니라 치료 목표를 정의할 때도 나타났습니다. 예를 들어, 당뇨병 환자의 경우 의사는 국가 가이드라인에 정의된 치료 목표를 선언했지만 환자에게 이러한 목표에 동의하는지 묻지 않았습니다. 
Physicians often failed to allow or encourage patient autonomy or choice. This was rarely overt (i.e. there was only one video in which only a single option was presented). However, subtle statements frequently subverted autonomy. As one investigator wrote, physicians ‘steamrolled over the patient’s wishes.’ For example, with a patient with newly-diagnosed papillary thyroid cancer, the physician insisted that the patient make surgical consultation a top priority (‘This cancer is the most important thing. It has to be the most important thing for you’), even after the patient expressed concerns that this would conflict with work deadlines. In videos showing initiation of drugs for hypertension, hyperlipidemia, or diabetes, a single treatment option was typically presented as recommended, and the patient was expected (convinced) to acquiesce. This problem appeared not only in identifying treatment options; it also showed up in defining goals of care. For example, in a patient with diabetes, the physician declared treatment targets as defined by national guidelines, but never asked the patient if she agreed with these targets.

의사는 일반적으로 환자에게 관리 옵션 목록을 제공했지만, 환자에게 이러한 옵션 중 하나를 선택하도록 명시적으로 권유하는 경우는 드물었습니다. 상담의 여러 단계에서 어려움이 드러났습니다.

  • 상담의 목표(해결해야 할 문제)를 정의할 때 새로 섬유근육통을 진단받은 환자는 진단의 정확성을 다시 확인하고자 했지만, 의사는 곧바로 치료 옵션으로 대화를 이끌었습니다.
  • 고혈압에 대한 초기 약물 치료를 논의할 때 환자에게 세 가지 옵션이 주어졌지만 의사는 환자의 의견을 묻지 않고 환자의 의학적 문제에 맞춰 가장 적합한 옵션을 선택했습니다.
  • 치료 목표를 고려할 때 의사는 가이드라인에 따른 당화혈색소(A1c) 목표치를 제시하고 그보다 조금 더 높은 목표를 제시하는 환자의 제안을 무시했습니다.

이와 대조적으로 한 동영상에서는 의사가 고지혈증 환자에게 "어떤 약이 가장 좋을지 결정할 수 있도록 도와달라"고 요청했습니다. 
Although physicians usually offered patients a list of management options, only infrequently did they explicitly invite patients to participate in choosing among these options. Difficulties surfaced at various stages in the encounter.

  • When defining the goal of the encounter (problem to be addressed), a patient with newly-diagnosed fibromyalgia wanted to revisit the accuracy of the diagnosis, yet the physician steered the conversation immediately to treatment options.
  • When discussing initial drug treatment for hypertension, a patient was given three options but the physician selected her top choice (tailored to the patient’s medical problems) without soliciting the patient’s input.
  • When considering goals of therapy, a physician invoked a guideline-aligned A1c target and subsequently brushed aside the patient’s suggestion of a slightly higher target.

By contrast, in one video the physician invited a patient with hyperlipidemia, ‘I’d like you to help me decide what would be the best medication for you.’

의사는 종종 그 만남에서 [해결해야 할 핵심 문제를 정의하는 데 실패]했습니다. 위의 갑상선암과 섬유근육통의 예는 이 점을 잘 보여줍니다. 환자를 참여시키지 않음으로써 환자에게 가장 중요한 문제(상충되는 개인적 우선순위 또는 진단의 정확성에 대한 우려)를 고려하지 않고 궁극적으로 의사에게 가장 중요한 문제(치료)에 집중하게 됩니다. 이 문제는 치료 옵션을 논의할 때 다른 만남에서도 나타났습니다. 예를 들어, 의사는 일반적으로 치료 효과에 초점을 맞추는 반면 환자는 부작용과 비용에 대해 인내심을 발휘했습니다.
Physicians often fell short in defining the core problem to be addressed in the encounter. The examples above of thyroid cancer and fibromyalgia illustrate this point: By failing to involve the patient, they ultimately focused on the problem most salient to the physician (treatment) without considering the problem most salient to the patient (juggling conflicting personal priorities or concerns about the accuracy of diagnosis). This issue surfaced in other encounters when discussing treatment options. For example, physicians commonly focused on treatment efficacy while patients perseverated on side effects and cost.

의사들은 때때로 [근본적인 우려, 두려움, 질문]을 탐색하고 해결하지 못했습니다.

  • 한 고혈압 환자는 '약을 먹어본 적이 없어요. 아스피린도 거의 먹지 않아요. 그런데 이제 두 가지 약을 먹으라고 하네요'라고 말했습니다. 의사는 약이 저렴하고 매우 안전하다고 짧게 대답한 후 '그러니 걱정하지 않으셔도 됩니다'라고 말하며 대화를 끝냈습니다.
  • 고지혈증 환자에게 의사는 다른 옵션은 제시하지 않고 스타틴 계열의 약을 추천하면서 '부작용이 거의 없다'고 언급했습니다. 환자가 '괜찮지만 얼마나 심각한가요?"라고 묻자 의사는 "콜레스테롤을 효과적으로 낮추는 한 심각하지 않습니다."라고 대답했습니다. 장기적으로는 정말 큰 차이를 만들 수 있습니다."라고 대답했습니다. 그 후 의사는 이 문제에 대해 더 자세히 알아보지 않고 처방전을 작성했습니다.

Physicians occasionally failed to explore and address underlying concerns, fears, and questions.

  • A patient with hypertension expressed, ‘I’ve never had to take anything. I barely ever take an aspirin. Now you’re talking about putting me on two drugs.’ The physician responded with a brief assurance that the medication was inexpensive and quite safe, and then terminated the conversation with, ‘So that shouldn’t concern you.’
  • For a patient with hyperlipidemia the physician recommended a statin drug (without offering other options) and noted ‘few side effects.’ When the patient asked, ‘I guess that’s okay, but how serious is this?’ the physician responded, ‘Well, it’s not serious as long as we effectively lower your cholesterol. It can really make a big difference in the long run.’ The physician then moved forward with writing a prescription without further exploring this concern.

의사 결정의 [맥락을 적절히 탐색하지 않는 것]은 어디에나 있었습니다. 의사들은 환자에게 선호도, 가치관, 자원, 제약 조건에 대해 직접 질문하는 경우가 거의 없었으며, 설령 질문을 하더라도 짧고 피상적인 수준에 그쳤습니다. 의사들은 상황을 완전히 파악하기 위해 추가 질문을 하는 경우는 거의 없었습니다. 의료팀이나 시스템의 자원과 제약을 탐색하는 의사의 사례는 훨씬 더 적었습니다.
Failure to adequately explore the context of decision-making was ubiquitous. Physicians rarely asked the patients directly about their preferences, values, resources, and constraints, and when they did the inquiry was brief and superficial. Physicians never followed with additional probing questions to fully explore the situation. We saw even fewer examples of physicians exploring the resources and constraints of the health care team or system.

좀 더 넓게 보면, 이러한 실패와 다른 실패는 환자가 있는 곳에서 환자를 만나지 못하는 것, 즉 의사의 의제와 환자의 의제 사이의 단절로 통합됩니다. 위의 예 외에도 당뇨병 환자의 다른 동영상에서 의사는 약물 치료를 강화하라는 권고를 완화할 수 있는 생활 습관 조치에 관한 과거의 논의를 기억하지 못했습니다.
Viewed more broadly, these and other failures coalesce into a failure to meet the patient where they are—a disconnect between the physician’s agenda and the patient’s. In addition to the examples above, in a different video of a patient with diabetes, the physician failed to remember past discussions regarding lifestyle measures that might have mitigated recommendations to intensify drug treatment.

거의 모든 동영상에서 의사는 [환자와 함께 환자의 욕구, 우선순위, 동반 질환, 자원 등을 통합하는 데 실패]했습니다. 많은 동영상에서 의사는 매우 제한된 범위의 옵션을 제시했습니다. 다른 영상에서는 의사가 여러 가지 옵션을 제시했지만 환자의 고유한 요구 사항을 고려하여 명시적으로 우선순위를 정하지 않았습니다. 이러한 행동은 비개인적인(맞춤화되지 않은 일반적인) 계획으로 이어졌습니다.
In nearly every video, the physician failed to work jointly with the patient to integrate their desires, priorities, comorbidities, resources, etc. In many videos the physician presented a very limited range of options. In others, the physician offered several options but did not explicitly prioritize these considering the patient’s unique needs. Such actions resulted in an impersonal (untailored, generic) plan.

마지막으로, 임상의와 환자 간의 [관계를 구축하는 데 전반적으로 실패]한 것으로 나타났습니다. 어떤 경우에는 '증기 압연' 욕구와 잊혀진 대화의 경우처럼 의도하지는 않았지만 적극적으로 (비록 의도하지는 않았지만) 이러한 관계가 훼손되었습니다. 다른 영상에서는 서두르는 대화, 고민을 털어놓지 않거나 무시하는 말투 등 좀 더 미묘했습니다. 이는 관계에 상처를 입혔다기보다는 소홀히 한 것을 반영합니다.
Finally, we noted a general failure to build the clinician-patient relationship. In some instances, this relationship was actively (albeit unintentionally) undermined—as in the cases of ‘steamrolled’ desires and forgotten conversations. In other videos it was more subtle—a hurried conversation, failure to explore concerns, or dismissive tone of voice. These reflect a neglect of rather than injury to the relationship.

SDM의 렌즈를 통한 조사(2단계)
Examination through lens of SDM (stage 2)

위의 결과를 바탕으로 상호 보완적인 인사이트를 발견하기 위해 두 가지 SDM 렌즈(모델)를 사용하여 이러한 동영상을 체계적으로 재검토했습니다(표 2). 부록 2에는 방법, 관찰 및 분석에 대한 자세한 내용이 나와 있습니다(보충 자료).
Building on the above results, we systematically re-examined these videos (Table 2) using 2 lenses (models) of SDM in hope of discovering complementary insights; Appendix 2 details our methods, observations, and analyses (Supplementary Material).

참여 중심 모델
Involvement-focused model

[참여 중심 모델]은 [SDM의 전통적인 개념]으로, 환자가 의사 결정에 적절히 참여하여 자율성을 존중하고 가치에 기반한 의사 결정을 내릴 수 있도록 돕는 것이 SDM의 주된 이유입니다. 이러한 접근 방식의 대표적 모델인 [Three Talk 모델](Elwyn 외. 2017)은 SDM 회의에서 환자가 [팀 토크, 옵션 토크, 결정 토크]의 3단계 대화에 참여하도록 합니다. 우리는 이 모델을 사용하여 참여 중심 렌즈를 통해 해석된 관찰을 구조화했습니다.
The involvement-focused model represents a traditional concept of SDM wherein the predominant reason for SDM is to ensure that patients are adequately involved in decision-making, to respect their autonomy and help them make value-informed decisions. Representative of this approach, the Three Talk model (Elwyn et al. 2017) involves patients at 3 stages of conversation in SDM encounters: team talk, option talk, and decision talk. We used this model to structure observations interpreted through the involvement-focused lens.

팀 대화와 관련된 문제
Issues related to team talk

[팀 대화]는 환자를 의사 결정에 참여하도록 유도하고 협력 관계를 구축합니다. 위에서 언급한 바와 같이, 의사들이 환자를 의사 결정에 참여시키고 동등하게 협력하도록 초대하는 경우는 거의 없었습니다. 또한, 많은 경우 대화가 오히려 [환자의 자율성을 떨어]뜨리고 [의사와 환자 간의 권력 차이를 확대]하는 것으로 나타났습니다. 갑상선암 환자(환자에게 즉시 외과 의사를 만나라고 주장), 섬유근육통 환자(진단 재검토 요청 무시), 당뇨병 환자(치료 강화를 연기하자는 환자의 제안 묵살) 등이 그 예입니다.
Team talk invites the patient to participate in decision-making and establishes a collaborative relationship. As noted above, only rarely did physicians invite patients to engage in decision-making and collaborate as equals. Moreover, we noted that in many instances the conversation actually diminished patient autonomy and escalated the power differential between physician and patient. Examples include the patients with thyroid cancer (insisting the patient see a surgeon immediately), fibromyalgia (ignoring requests to revisit the diagnosis), and diabetes (dismissing the patient’s proposal to defer treatment intensification).

옵션 대화와 관련된 문제
Issues related to option talk

옵션 대화에서는 의사가 제시한 옵션의 장단점에 대해 논의합니다. 거의 모든 만남에서 의사는 거의 옵션을 제공하지 않았으며 각 옵션에 대한 정보도 제한적으로만 제공했습니다(위 및 표 2 참조).
Option talk discusses the pros and cons of the options identified by the physician. In nearly every encounter, physicians offered very few options and provided only limited information about each option (see above and Table 2).

또한 의사들은 [아무것도 하지 않는 옵션]을 제공한 적이 없었습니다. 그들은 항상 환자에게 조치가 필요하고 환자가 원한다고 가정했습니다.
Moreover, physicians never offered the option of doing nothing. They always assumed action was needed and desired by patient.

이러한 [제한된 옵션 목록]은 대안, 부작용, 비용, 일반적으로 차선책이 선호되는 상황(예: 비용 또는 편의성 기준) 또는 즉각적인 조치가 없을 때의 실제 위험에 대한 불완전한 지식 등 [임상의의 지식 격차]를 반영하는 것일 수 있다는 것을 감지했습니다. 지식 격차는 또한 환자의 질문에 대한 불완전한 답변(부분적인 답변 또는 질문과 관련이 있지만 직접적으로 다루지 않는 답변)의 기저에 있는 것으로 보였습니다. 지식 격차가 흔해 보였지만, 실제 지식 오류는 이 동영상에서 드물게 나타났습니다.
We sensed that such constrained option lists could reflect clinician knowledge gaps—incomplete knowledge of alternatives, side effects, costs, situations in which a typically-suboptimal option might emerge as preferred (e.g. based on cost or convenience), or the true risk of no immediate action. Knowledge gaps also seemed to underlie incomplete responses to patient questions (partial answers or answers related to but not directly addressing the question). Although knowledge gaps seemed common, actual knowledge errors were infrequent in these videos.

디시전 토크와 관련된 문제
Issues related to decision talk

[의사 결정 대화]는 환자의 선호도를 파악하고 통합하여 결정을 내리는 과정입니다. 의사는 일반적으로 환자의 선호도를 구하거나 환자를 진지하게 대하지 않았습니다. 예를 들어 당화혈색소(A1c)가 목표치보다 약간 높은 당뇨병 환자에게 메트포르민 용량을 늘려야 하며 생활습관 개선만으로는 충분하지 않다는 말을 들었다면, 이는 목표 설정과 치료 결정 모두에 환자가 관여하는 것에 위배됩니다. 마찬가지로, 유두상 갑상선암 환자는 우려를 표명했지만 대놓고 무시당했습니다.
Decision talk identifies and integrates the patient’s preferences culminating in a decision. Physicians typically did not seek the patient’s preferences or earnestly entertain them. For example, a patient with diabetes and an A1c slightly above goal was told she needed to increase the dose of metformin and that lifestyle measures would be inadequate; this violates involvement in both establishing targets and deciding on treatment. Likewise, the patient with papillary thyroid cancer expressed concerns that were overtly brushed aside.

문제 중심 모델
Problem-focused model

[문제 중심 모델](목적 중심 SDM, 표 1)에서 SDM의 목적은 [환자가 겪고 있는 문제(좁게 또는 넓게 정의)를 해결]하기 위한 것입니다.

  • 참여 중심 모델이 대화 유형과 자율성에 중점을 두는 반면,
  • 문제 중심 접근 방식은 환자와 의사가 이 문제에 대한 적절한 대응책을 함께 발견할 수 있는 방법에 중점을 둡니다. 이러한 단계에는 다음이 포함됩니다.
    • 문제 특성 파악,
    • 가능한 해결책 제안,
    • 여러 가능성 중 판단 방법 결정,
    • 치료 계획 개발

이러한 요소(문제, 가능성, 판단 접근 방식, 치료 계획) 중 어느 것도 대화 전에 완전히 정의된 것은 없습니다. 대화의 목적은 각 요소를 발견하고, 활용하고, 조정하여 잘 형성된 대응 가능한 문제 해결책을 만들기 위해 '함께 노력'하는 것입니다. 이와 대조적으로, 많은 [참여 중심 모델]은 문제와 가능성(옵션)을 미리 알고 있다고 가정합니다. 우리는 문제 중심 렌즈를 통해 관찰한 내용을 해석하면서 추가적인 인사이트를 발견했습니다.
In the problem-focused model (Purposeful SDM, Table 1), the reason for SDM is to address a problem (narrowly or broadly defined) that the patient is experiencing.

  • Whereas the involvement-focused model concentrates on types of talk and autonomy,
  • a problem-focused approach concentrates on how the patient and physician can discover together an appropriate response to this problem. These steps include:
    • characterize the problem,
    • propose possible solutions,
    • determine how to judge among the possibilities, and
    • develop a care plan.

None of these elements (the problem, possibilities, judgement approach, or care plan) are fully defined prior to the conversation. The purpose of conversation is to ‘endeavor together’ to discover, use, and adapt each element to craft a well-formed, responsive problem resolution. By contrast, many involvement-focused models assume that the problem and possibilities (options) are known up-front. We identified additional insights as we interpreted our observations through the problem-focused lens.

문제 특성화와 관련된 문제
Issues related to characterizing problems

환자와 임상의 사이의 숙의 과정에는 [문제 상황의 인간적 의미를 이해]하는 것이 포함됩니다. 이 동영상에서 의사들은 일반적으로 문제에 대한 매우 좁은 개념을 전달했으며, 종종 '높은 LDL = 스타틴' 또는 '갑상선암 = 수술 상담'과 같은 특정 해결책과 연결시켰습니다. 환자나 상황보다는 검사 결과, 조직 검사 또는 질병을 관리하는 경향이 있었습니다.
Part of deliberation between patient and clinician involves developing an understanding of the human significance of the problematic situation. In these videos, physicians typically conveyed a very narrow conception of the problem, often linking it with a specific solution: ‘high LDL = statin’ or ‘thyroid cancer = surgical consultation.’ They tended to manage the test result, biopsy, or disease, rather than the patient or situation.

이 과정에서 [상황의 진정한 의미], 즉 문제와 잠재적 해결책이 [환자의 건강과 삶 전반에 미치는 영향]을 전달하지 못했습니다. 이러한 실패에는 건강에 미치는 영향보다는 다음이 포함될 수 있습니다.

  • 중간 목표(예: 심혈관 질환 위험보다는 당화혈색소 또는 혈압 목표)에 초점을 맞추거나,
  • 질병의 영향을 최소화하거나 과장하거나,
  • 문제와 해결책이 불일치하는 경우(예: 심각한 문제와 사소한 해결책 또는 그 반대의 경우)

예를 들어, 유두상 갑상선암은 비교적 무해하여 몇 주만 지연해도 문제가 거의 발생하지 않는데도 의사는 긴급한 수술 의뢰를 고집했습니다. 이러한 실패는 의사(및 상황에 대한 잘못된 이해)나 대화 중 잘못된 단계로 인해 발생할 수 있습니다. 결론적으로, 대부분의 '공유' 의사 결정은 공식적이고 의사의 치료 목표에 초점을 맞춘 것이었습니다.
In doing so, they failed to convey the true meaning of the situation—the impact (of both the problem and potential solutions) on the patient’s health and life in general. This failure could involve

  • focusing on interim objectives rather than health impact (e.g. A1c or blood pressure targets rather than risk of cardiovascular events),
  • minimizing or overstating the impact of illness, or
  • mismatching the problem and solution (e.g. a serious problem and a trifling solution, or vice versa).

For example, papillary thyroid cancer is relatively innocuous, such that a few-week delay would rarely cause problems, yet the physician insisted on urgent surgical referral. Such failures can arise within the physician (and their [mis]understanding of the situation), or from mis-steps in the conversation. As a corollary, most ‘shared’ decision-making was formulaic and focused on physician goals of care.

예외적으로, 의사와 환자가 합의된 관심사(예: 문제)를 해결하기 위해 함께 노력한 몇 가지 사례를 확인했습니다. 예를 들어, 다른 갑상선암 동영상에서 의사는 환자가 외과 의사를 만나야 한다는 일방적인 결정을 내렸지만, 환자가 스케줄에 대한 상충을 명확히 밝히자 대화는 외과 의사와의 상담을 촉진하는 방법을 모색하는 공동 문제 해결 심의 과정으로 전환되었습니다. 환자는 초기 결정이 내려졌음에도 불구하고 궁극적으로 만족하는 모습을 보였습니다. 이는 공동 심의를 거치지 않은 '동일한' 시나리오에서 의제와 우선순위가 충돌한 것과는 극명한 대조를 이룹니다.
As an exception, we identified a few instances in which the physician and patient worked together to address an area of agreed-upon concern (i.e. a problem). For example, in the other thyroid cancer video the physician made a unilateral decision that the patient needed to see a surgeon, but when the patient articulated scheduling conflicts the conversation transformed into a joint problem-solving deliberation exploring how to facilitate the surgeon consultation. The patient ultimately appeared satisfied even though the initial decision was thrust upon him. This contrasts sharply with the ‘same’ scenario without joint deliberation that led to a clash of agendas and priorities.

가능성 제안과 관련된 문제
Issues related to proposing possibilities

심의의 또 다른 측면은 문제에 대한 [가능한 대응을 식별]하는 것입니다. 환자와 의사는 함께 협력하여 [가능한 해결책을 제안하거나, 만들거나, 발견]할 수 있습니다. 위에서 언급한 바와 같이, 이 동영상에서 의사들은 거의 항상 하나의 실행 가능한 옵션을 제시하고 다른 대안(있는 경우)은 열등한 것으로 묘사했습니다. 까다로운 수술 상담을 해결한 대화(위)는 공동으로 협력하여 대안을 찾아낸 좋은 예입니다.
Another aspect of deliberation involves identifying possible responses to a problem. Working together, patients and physicians may propose, create, or discover possible solutions. As noted above, in these videos physicians nearly always offered a single viable option, portraying alternatives (if any) as inferior. The conversation that resolved the challenging surgical consultation (above) is a good example of working jointly to identify alternative possibilities.

가능성 판단과 관련된 문제
Issues related to judging possibilities

가능성이 발생하면 그 중에서 [판단하는 방법(예: 옵션 비교, 협상, 문제 해결, 통찰력 개발)을 수립]해야 합니다. 이상적으로는 환자와 의사가 함께 이 작업을 수행합니다. 이 비디오에서 의사가 환자와 적극적으로 협력하여 서로의 관심사를 해결하는 경우는 드물었습니다. 오히려 거의 항상 의사가 진료실에 들어가기 전에 결정을 내린 다음 환자가 이 계획에 동의하도록 설득하는 데 시간을 소비하는 것처럼 보였습니다. 이러한 계획은 대개 합리적이며 가이드라인에 부합하는 것이었지만 환자의 의견은 반영되지 않았습니다. 한 조사자는 '추론은 임상의의 머릿속이 아닌 교과서에서 일어났다'고 기록했습니다.

As possibilities arise, methods of judging among them (e.g. weighing options, negotiating, problem solving, developing insight) should be established. Ideally, patients and physicians do this together. In these videos, physicians infrequently worked actively with patients to solve a problem of mutual concern. Rather, it nearly always appeared that the physician had made the decision before walking into the room, and then spent time convincing the patient to agree with this plan. Such plans were usually well-reasoned and in alignment with guidelines, but devoid of patient input. As one investigator documented, ‘Reasoning happened in the textbook (not in the clinician’s head).’

우리는 치료 목표(예: 의사가 당뇨병, 고지혈증 또는 고혈압에 대한 가이드라인 기반 치료 목표에 대해 논의하지 않고 선택)와 치료 접근 방식(예: 약물, 약물 용량, 수술 상담)에 대한 대화에서 이러한 단점을 인식했습니다. 또한 의사가 섬유근육통 진단에 대한 환자의 불확실성을 무시하고 치료 계획의 윤곽을 미리 제시하는 경우와 같이 진료 흐름에서도 이러한 문제를 확인할 수 있었습니다. 이러한 행동은 거의 항상 의사와 환자 사이에 마찰을 일으켰고, 의사는 자신의 해결책이 좋다고 환자를 설득하려고 노력했습니다.
We recognized this shortcoming in conversations about both goals of treatment (e.g. the physician selecting [rather than discussing] guideline-based treatment targets for diabetes, hyperlipidemia, or hypertension) and treatment approach (e.g. drug, drug dose, surgical consultation). We also saw this in the encounter flow, as when the physician ignored the patient’s uncertainty with her diagnosis of fibromyalgia and forged ahead to outline a care plan. Such actions nearly always resulted in friction between physician and patient, with the physician trying to convince the patient that their solution was good.

케어 플랜 개발과 관련된 문제
Issues related to developing care plans

공유된 심의 프로세스는 문제에 대응하고 지적, 실제적, 정서적으로 [합당한 치료 계획을 수립]하기 위해 노력합니다. 지적, 실용적, 정서적 일관성을 갖춘 대응 계획의 예는 거의 없었습니다. 대신 일반적으로 치료 계획 내에서 [단절] 또는 [잔류 갈등]이 관찰되었습니다.

  • 갑상선암 동영상은 문제의 심각성(상담의 시급성이 낮음)과 제안된 해결책의 영향(환자의 삶에 큰 지장을 초래함) 사이의 갈등을 보여줍니다.
  • 두 섬유근육통 동영상의 치료 계획은 체계적이지 않고 불완전하며 환자의 경험과 단절되어 있어 환자가 실질적인 다음 단계에 대해 당황하고 좌절하며 방향을 잃게 만들었습니다.
  • 다른 영상에서는 환자의 질문에 대한 답변이 없거나 치료 목표가 강요될 때 지적 단절이 빈번하게 발생하고, 환자의 우려를 무시하거나 자율성을 무시할 때 감정적 갈등이 발생하는 것을 볼 수 있었습니다.

The shared deliberative process works towards a care plan that responds to the problem and makes sense intellectually, practically, and emotionally. We saw few examples of responsive plans with intellectual, practical, and emotional coherence. Instead, we typically observed a disconnect or residual conflict within the care plan.

  • The thyroid cancer video illustrates a conflict between the severity of the problem (low urgency for consultation) and the impact of the proposed solution (large disruption of the patient’s life).
  • The care plans in both fibromyalgia videos were poorly organized, incomplete, and disconnected from the patient’s experience, leaving the patient perplexed, frustrated, and disoriented regarding practical next steps.
  • In other videos we saw frequent intellectual disconnects when patient questions remained unanswered or treatment targets were imposed, and emotional conflicts when patient concerns were brushed aside or autonomy had been disregarded.

또한 [명시적인 결정이 없는 경우]도 많이 보았습니다. 의사는 일반적으로 여러 가지 제안을 하고 선호하는 옵션을 언급하기도 했지만, 환자에게 이 계획에 대한 동의를 요청하거나 받지 않았습니다. 이러한 실패는 단순히 의사 소통 능력이 부족해서일 수도 있지만, 일부 영상에서는 의사가 환자의 동의를 얻지 못했다는 인식 때문에 의도적으로 동의를 구하지 않는 것처럼 보이기도 했습니다. 그 외에는 최선의 접근 방식에 대한 불확실성 때문인 경우가 더 많았습니다.
Additionally, we saw many instances in which there was no explicit decision. The physician had typically made a number of suggestions, and might have even stated a preferred option, but never asked for or received agreement for this plan from the patient. Although such failures could reflect merely poor communication skills, in some videos the physician seemed to deliberately avoid asking for agreement, due perhaps to awareness that the conversation had failed to garner the patient’s buy-in. Less often, vacillation seemed due to uncertainty in the best approach.

 

환자-임상의 상호 작용 및 관리 추론 통합(3단계)
Integrating patient-clinician interactions and management reasoning (stage 3)

마지막으로, 관리 추론에서 커뮤니케이션과 환자-임상의 상호작용의 역할을 이해하고자 하는 본 연구의 목표를 달성하기 위해, 이전에 확인된 관리 추론의 12가지 특징(Cook 외. 2022b)과 두 SDM 모델 간의 상호 영향을 체계적으로 고려함으로써 2단계 결과와 관리 추론의 틀을 통합했습니다(부록 3에서는 관찰 및 분석에 대한 자세한 내용(보충 자료)을 확인할 수 있습니다). 이 분석에서 얻은 수많은 인사이트(표 3) 중 주목할 만한 결과는 다음과 같습니다:
Finally, to achieve our study’s goal of understanding the role of communication and patient-clinician interaction in management reasoning, we integrated stage 2 findings and the framework of management reasoning by systematically contemplating the reciprocal implications between 12 previously-identified features of management reasoning (Cook et al. 2022b) and the two SDM models; Appendix 3 details our observations and analyses (Supplementary Material). Among the numerous insights from this analysis (Table 3), notable findings include:

 

  • [문제 중심 모델]에서 선호도는 환자가 아닌 [상황의 특징]입니다. 문제가 있는 상황은 바람직하지 않으며, 가능한 해결책은 다양한 제약 조건 내에서 인간의 범위 내에서 상황에 대응하는 성공 여부에 따라 바람직(선호) 또는 그렇지 않은 것으로 결정됩니다. [관리 추론]은 문제 상황에 대한 바람직한 해결책을 모색합니다.
  • In the problem-focused model, preferences are a feature of the situation not the patient. Problematic situations are undesirable, and possible solutions are desirable (preferred) or otherwise according to their success in responding to the human scope of the situation within various constraints. Management reasoning seeks a preferred solution to a problematic situation.
  • [환자, 의사, 상황적 제약 사이의 역동적인 상호 작용]은 거의 모든 대면 진료에서 보통 또는 높은 수준입니다. 문제가 쉽게 파악되거나 쉽게 해결될 수 있었다면 환자는 집에 머물렀을 것입니다. 임상의는 [일이 예상대로 진행되지 않을 때 개입]합니다.
  • The dynamic interplay among patient, physician, and situational constraints is moderate or high for virtually all face-to-face encounters. If the problem were readily characterized or easily resolved, the patient would have stayed home. Clinicians get involved when things do not go as expected.
  • 의사들은 [충분한 정보를 바탕으로 상호 합의]하여 선택하기보다는 [잠정적이거나 임시적인 용어('일단 약을 시작하고 마음에 들지 않으면 바꾸면 된다')로 '결정']을 내리는 경우가 많습니다. 물론 '관리 계획의 지속적인 모니터링과 조정'은 관리 추론의 핵심 기능이지만(Cook et al., 2019), 의사들은 종종 [질문을 미루고, 우려를 제쳐두고, 대립을 피하기] 위해 이러한 [전제에 지나치게 의존]하는 것처럼 보였습니다('캔을 걷어차 버리자').
  • Physicians often couched “decisions” in tentative or temporary terms (‘Let’s start the medication and if you don’t like it then we can change’) rather than mutually agreeing upon a well-informed choice. Of course, ‘ongoing monitoring and adjustment of the management plan’ is a key feature of management reasoning (Cook et al., 2019); but physicians often seemed to rely excessively on this premise to defer questions, brush aside concerns, and avoid confrontation (‘kick the can down the road’).
  • [언어]는 [미묘하지만 중요한 방식으로 문제를 형성하고 변화]시킬 수 있습니다. 예를 들어, 고지혈증을 'LDL을 낮춰야 한다' 또는 '심장마비 위험을 줄여야 한다'는 식으로 표현하면 문제의 성격과 해결책을 협상하는 방식이 크게 달라질 수 있습니다.
  • Language can shape and change the problem in subtle but important ways. For example, framing hyperlipidemia as needing to ‘lower your LDL’ or ‘reduce your risk of a heart attack’ could lead to dramatically different problem characterizations and solution negotiations.
  • 우리는 이전에 정의한 관리 스크립트('합리적인 관리 계획의 개발을 용이하게 하기 위해 관리 옵션과 임상의 업무를 시간적 또는 논리적 순서로 표현하고 연결하는 사전 편집된 개념적 지식 구조'(Cook et al., 2022b))와 관련된 [두 가지 새로운 인사이트]에 주목하고 나중에 자세히 설명했습니다(Cook et al., 2022a).
  • We noted 2 novel insights related to management scripts, which we previously defined (‘precompiled conceptual knowledge structures that represent and connect management options and clinician tasks in a temporal or logical sequence to facilitate development of a rational management plan’ (Cook et al., 2022b)) and later elaborated in detail (Cook et al., 2022a).
    • 첫째, 의사의 [관리 스크립트]는 [의사의 요구](예: 효율적인 만남 또는 신속한 결정 촉진)와 [환자의 요구](문제 이해, 질문에 대한 답변, 개별화된 결정 지원)의 [우선순위]에 따라 연속체를 따라 달라집니다.
    • First, physicians’ management scripts vary along a continuum in prioritizing physician needs (e.g. promoting an efficient encounter or expedited decision) vs patient needs (understanding problems, answering questions, supporting individualized decisions).
    • 둘째, [환자]는 의사와의 상호작용을 안내하는 [자신만의 인지적 스크립트]를 가지고 있습니다. 환자와 의사의 스크립트는 모두 유사한 범주(문제, 옵션, 선호도, 교육 요구, 대인관계, 진료 흐름(Cook et al., 2022a))로 구성될 가능성이 높지만, 각 범주에 대해 인스턴스화된 세부 사항은 상당히 다를 수 있습니다.
    • Second, patients have their own cognitive script that guides their interactions with the physician. Both patient and physician scripts likely comprise similar categories (problems, options, preferences, education needs, interpersonal interactions, and encounter flow (Cook et al., 2022a)); but the details instantiated for each category could differ substantially.
  • 문제를 해결할 때 의사는 [일반적으로 이미 알고 있는 지식에 의존]하게 되는데, 이 지식이 당면한 문제를 해결하는 데 항상 적절하거나 충분하지 않을 수 있습니다. 부주의적이든(모르는 것을 알기 어렵기 때문) 의도적이든(지식 격차를 인정하거나 추가 정보를 찾는 것을 피하기 위해서) 이러한 지식 격차는 문제 중심 SDM을 방해합니다.
  • When grappling with a problem, physicians will typically rely on what they already know—which may not always be relevant or sufficient to resolve the problem at hand. Whether inadvertent (it is difficult to know what one does not know) or conscious (to avoid admitting a knowledge gap or seeking additional information), such knowledge gaps will interfere with problem-focused SDM.
  • 환자-의사 관계의 특성은 모델에 따라 다릅니다.
    • [참여 중심 모델]에서는 공감과 신뢰의 효과적인 관계가 효과적인 SDM의 매개체(전구체)입니다. 이와 대조적으로
    • [문제 중심 모델]에서는 효과적인 관계가 SDM의 산물입니다(즉, 의사와 환자가 문제를 해결하기 위해 함께 노력하면서 관계가 발전합니다).
  • The nature of patient-physician relationships differs by model.
    • In the involvement-focused model an effective relationship of empathy and trust is a mediator of (precursor to) effective SDM. By contrast,
    • in the problem-focused model an effective relationship is the product of SDM (i.e. the relationship develops as the physician and patient work together to solve problems).
  • [설득]도 모델에 따라 다르게 볼 수 있습니다
    • [참여 중심 모델]에서는 설득은 [나쁜 것으로 간주]된다. 권위, 권력 차이, 바람직하지 않은 행동을 하도록 영향력을 행사하는 것이고, 이러한 위험 때문에 환자를 의사 결정에 참여시켜 자율성을 보존해야 한다고 생각합니다. 
    • [문제 중심 모델]에서 설득은 좋은 것이고, 사실상 목표이다. 모든 이해관계자가 이 상황에서 최선의 행동 방침을 상호 설득할 때까지 함께 노력하는 것이지만, 과도한 권력 기반 설득은 이 방법을 왜곡하는 것입니다.
  • Persuasion can also be viewed differently, depending on the model.
    • In the involvement-focused model, persuasion is bad, connoting authority, power differential, and influence to do (undesirable) actions; this risk drives the need to preserve autonomy by involving patients in decision-making.
    • In the problem-focused model, persuasion is good—indeed, the goal: stakeholders work together until all are mutually persuaded that a course of action is best in this circumstance; undue power-based persuasion is a corruption of this method.

 

제안된 모범 사례(4단계)
Proposed best practices (stage 4)

이러한 결과를 바탕으로 우리는 관리 추론에서 환자-임상의 상호작용에 대한 몇 가지 잠정적인 모범 사례를 확인했으며, 이는 상자 1에 나열되어 있습니다.
Drawing on these findings we identified several tentative best practices for patient-clinician interactions in management reasoning, listed in Box 1.

토론
Discussion

이 연구는 관리 추론이 전적으로 [임상의의 머릿속]이 아닌 [개인 사이의 공간]에서 발생한다는 이전 연구(Cook 외. 2022b)의 관찰을 더욱 입증합니다. 두 가지 다른 SDM 렌즈를 통해 시뮬레이션된 환자-임상의 만남을 분석하여 관리 추론에서 의사소통과 환자-임상의 상호 작용의 상호 보완적인 측면을 조명했습니다. SDM의 [참여 중심 모델]은 환자의 자율성을 보호하고, 정보를 명확하게 교환하며, 최종 결정이 환자의 선호도에 부합하도록 관리 추론에 환자를 참여시키는 것이 중요하다는 점을 강조했습니다. [문제 중심 모델]은 공동의 노력에서 소통과 상호 작용이 어떻게 올바른 의사 결정을 촉진하는 데 도움이 되는지 밝혀냈습니다. 
This study further probes the observation from an earlier study (Cook et al. 2022b) that management reasoning occurs in the space between individuals and not entirely in the clinician’s head. Analysis of simulated patient-clinician encounters through 2 distinct SDM lenses illuminated complementary aspects of communication and patient-clinician interaction in management reasoning. The involvement-focused model of SDM highlighted the importance of involving patients in management reasoning so that patient autonomy is preserved, information is clearly exchanged, and final decisions align with the patient’s preferences. The problem-focused model revealed how communication and interaction in a shared endeavor serve to facilitate well-formed decisions.

이러한 모델을 함께 사용하면 [커뮤니케이션 실패에 대한 순진한(분석 1단계) 관찰을 이해]하는 데 도움이 됩니다. 예를 들어, 의사가 환자를 만나지 못했거나 선택권을 제공하지 않은 경우, 모델에 따라 다른 이유로 인해 특히 중요하다는 것을 이제 알 수 있습니다.

  • [참여 중심 관점]에서 볼 때, 이는
    • 환자와 임상의 사이의 거리를 악화시키고,
    • 종종 의사소통을 차단하고,
    • 불신을 키우고,
    • 자율성을 무시하고,
    • 만남을 의지의 대결로 바꾸고,
    • 환자를 복종적인 역할로 강요하고,
    • 지속적인 관리에 필요한 파트너십을 해치고,
    • 환자가 임상의의 조언을 따라야 한다는 확신을 갖지 못하게 만들었습니다.
  • [문제 중심의 관점]에서 볼 때, 이와 같은 관찰된 실패는 임상의가 다음과 같은 것을 의미합니다. 
    • 문제가 있는 곳에서 환자를 직접 만나지 않았기 때문에 문제의 중요성/의미에 대해 자세히 설명하거나 해결하지 못했습니다, 
    • 문제를 해결하기 위해 환자-임상의 팀의 잠재력을 충분히 개발하지 못했습니다, 
    • 임상의가 선험적으로 결정한 것보다 상황에 더 잘 대응할 수 있는 심의 옵션을 제시하지 않았습니다, 
    • 종종 만남에서 모든 심의를 제거했습니다 (옵션이 논의되지 않을 때 얼마나 많은 '추론'또는 '의사 결정'이 발생하는지에 대한 의문을 제기합니다). 
    • 불확실한 가치의 치료 계획을 초래했습니다.

 

Together, these models help make sense of the naïve (analysis stage 1) observations of communicative failures. For instance, we now recognize that when physicians failed to meet the patient where they were or offered no choices, this was especially significant—for reasons that differed depending on the model.

  • From the involvement-focused perspective this
    • exacerbated the distance between patient and clinicians, and
    • often shut down communication,
    • bred mistrust,
    • disrespected autonomy,
    • turned the encounter into a contest of wills,
    • forced the patient into a subservient role,
    • harmed the partnership needed for ongoing management, and
    • left the patient unconvinced that they should follow the clinician’s advice.
  • From the problem-focused perspective these same observed failures meant that the clinician
    • didn’t meet the patient where their problem lay (and hence the full significance/meaning of the problem was never elaborated or addressed),
    • didn’t develop the full potential of the patient-clinician team to address the problem,
    • didn’t bring forward options for deliberation that might better respond to the situation than those determined by the clinician a priori,
    • often removed all deliberation from the encounter (raising the question of how much ‘reasoning’ or ‘decision-making’ occurs when no options are discussed), and
    • resulted in a care plan of uncertain value.

제한 사항
Limitations

이 연구에는 한계가 있습니다.

  • 첫째, 우리가 관찰한 동영상은 실제와 같이 보이도록 의도되었지만 실제 임상의와 환자 간의 상호작용은 하나도 없었고 4편은 대본으로 제작되었습니다. 이는 동영상의 맥락(성인 외래 환자 일차 진료만), 수행 수준(절반은 의도적으로 열악한 것으로 선택되었고 모범적인 것은 없음), 원래 목적(평가자 교육 연구(Cook 외. 2009; Cook 및 Beckman, 2009)) 및 총 수와 함께 임상적 다양성을 종합적으로 제한했습니다. 현재의 결론이 적절히 뒷받침된다고 생각하지만, 다른 관점(예: 대본에 없는, 다른 임상 상황, 다른 수준의 임상의 수행 또는 교육)을 제공하는 다른 사례에 대한 분석을 통해 추가적인 인사이트가 나올 수 있을 것으로 예상합니다. 일부 독자는 다른 목적으로 제작된 동영상의 용도 변경을 무시할 수도 있지만, 이미 언급한 맥락적 제약에 비추어 볼 때 이는 사소한 문제라고 생각합니다.
  • 둘째, 많은 추론은 실패한 사례나 바람직한 행동을 취하지 않은 채 방치된 사례에 대한 관찰을 바탕으로 이루어졌으며, 이러한 추론은 당연히 관찰자의 관점에 따라 달라질 수 있습니다.
  • 셋째, 본 연구의 저자들은 기본 개념 프레임워크의 개발자(Cook 외. 2018; Hargraves 외. 2019)이자 관찰자 및 분석가로서 본 연구의 관찰자 및 분석가로서 참여했으며, 이는 강점이지만 확증 편향의 위험도 있습니다. 또 다른 강점으로는 이러한 동영상을 사용하여 이전에 발표한 연구를 확장하면서
    • (a) SDM 및 정성적 데이터 분석에 상당한 전문성을 갖춘 새로운 연구자(IGH)를 팀에 추가하고,
    • (b) 모든 동영상을 개별적으로 또는 그룹으로 재검토하여 풍부하고 새로운 데이터를 수집하고,
    • (c) 상호 보완적인 개념적 렌즈를 사용하여 이러한 데이터를 분석하고,
    • (d) 이러한 분석을 지속하여 SDM과 경영 추론을 통찰력 있게 통합하고 여러 모범 사례를 식별했다는 점을 들 수 있습니다.
  • 요컨대, 이러한 강점은 제안된 결론을 충분히 뒷받침하지만, 이러한 한계는 추가적인 인사이트를 발견해야 함을 시사합니다.

This study has limitations.

  • First, the videos we observed were intended to be realistic, but none were actual clinician-patient interactions and 4 were scripted. This, together with the videos’ context (only adult outpatient primary care), performance levels (half were intentionally selected as poor, and none were exemplary), original purpose (a study of rater training (Cook et al. 2009; Cook and Beckman, 2009)), and total number, collectively constrained the clinical variation. While we believe the present conclusions are appropriately supported, we surmise that additional insights could emerge from analysis of other encounters offering alternative perspectives (e.g. unscripted, different clinical contexts, or different levels of clinician performance or training). Some readers might also discount the repurposing of videos created for another purpose, however we believe this constitutes a minor concern relative to the contextual constraints already noted.
  • Second, many inferences were based on observations of failures or presumably desirable actions left undone; such inferences naturally depend on the perspectives of those observing.
  • Third, we authors were both the developers of the guiding conceptual frameworks (Cook et al. 2018; Hargraves et al. 2019) and the observers and analyzers in this study; while this is a strength, there is some risk of confirmation bias. Additional strengths include that as we extended our previously-published work using these videos, we
    • (a) added to our team a new investigator (IGH) with substantial expertise in SDM and qualitative data analysis;
    • (b) collected abundant, rich new data by re-reviewing all videos both independently and as a group;
    • (c) analyzed these data using complementary conceptual lenses; and
    • (d) continued this analysis to a achieve an insightful integration of SDM with management reasoning and identify several best practices.
  • In short, these strengths provide ample support for the conclusions proposed, but these limitations suggest that additional insights remain to be discovered.

시사점
Implications

이번 연구 결과는 교육, 임상 실무 및 향후 연구에 중요한 [시사점]을 제공합니다. 가장 중요한 것은 관리 추론이 임상의의 머릿속이 아닌 [개인 간의 공간에서 일어나는 의도적인 상호 작용]을 포함한다는 점입니다. [환자와 임상의]는 [서로 다른 관점, 지식 기반, 경험, 우선순위에서 '추론'을 하지만, 한 팀으로서 '추론']을 해야 합니다. 이는 관리 추론을 가르치고 평가하는 방식에 중요한 시사점을 줍니다. 관리 추론의

  • [일부 요소]는 [임상의 내부]에서 발생하는 것처럼 가르치고 평가할 수 있지만,
  • [환자와 임상의의 상호 작용]도 가르치고 평가해야 하며,
  • [어느 시점에는 전체 전체를 종합]해야 합니다.

Our findings have important implications for education, clinical practice, and future research. Most importantly, we affirm that management reasoning involves a deliberative interaction occurring in the space between individuals and not within a clinician’s mind. Both the patient and clinician are ‘reasoning’—from different perspectives, knowledge bases, experiences, and priorities, but hopefully as a team. This has notable implications for how we teach and assess management reasoning.

  • While some elements of management reasoning can be taught and assessed as though occurring within the clinician,
  • the patient-clinician interaction must also be taught and assessed;
  • and at some point the entire whole must be assembled.

관리 추론과 SDM은 모두 [상호 합의된 공유 문제], 예를 들어 진단 라벨이나 목표치를 벗어난 검사실 수치보다는 [생명이나 건강에 대한 상호 위협에 초점]을 맞출 때 가장 효과적입니다. [공유된 문제]

  • 공동의 문제 해결('함께 노력하기')을 유도하고,
  • 사회적 조정과 협력(의사소통적 행동)을 촉진하며,
  • 갈등과 과도한 설득의 필요성을 피할 수 있습니다.

이러한 관점에서 볼 때 관리 추론은 문제 해결을 위해 고심하는 것입니다.
Management reasoning and SDM both work best when focused on a shared, mutually-agreed problem—a mutual threat to life or health rather than, for example, a diagnostic label or off-target lab value. A shared problem

  • engenders joint problem-solving (‘endeavoring together’),
  • promotes social coordination and cooperation (communicative action (Bohman and Rehg 2017)), and
  • avoids conflict and the need for undue persuasion.

Viewed this way, management reasoning is deliberating to resolve the problem.

우리는 임상의와 환자라는 [두 가지 관리 스크립트]가 작용한다는 새로운 통찰력을 강조합니다. 우리는 이전에 [임상의의 관리 스크립트]에 대해 자세히 설명했습니다. (Cook 외. 2022a) [관리 추론의 환자 측면]은 지금까지 무시되어 왔습니다. 또한 일부 스크립트는 주로 임상의에게 도움이 되는 반면(즉, 진료 효율 개선), 다른 스크립트는 환자의 대응 결정을 돕는 데 더 중점을 둡니다(연속선상에 있음). 대부분의 스크립트는 의식적인 생각 없이 자발적으로 개발되며(Custers 2015), [환자 중심 스크립트를 촉진하는 방법]은 아직 불분명합니다. SDM과 관련된 관리 스크립트에 대한 추가 연구가 필요합니다.
We underscore the novel insight that there are two management scripts in play—the clinician’s and the patient’s. We previously elaborated on the clinician’s management script; (Cook et al. 2022a) the patient’s side of management reasoning has thus-far been neglected. We also note that some scripts primarily help the clinician (i.e. to improve encounter efficiency), while others (along a continuum) are more directed at helping the patient make a responsive decision. Most scripts develop spontaneously (Custers 2015)—without conscious thought—and it remains unclear how to promote patient-centered scripts. Further research on management scripts as they relate to SDM is needed.

특히 SDM과 관련된 관리 추론에 대한 연구가 초기 단계에 있다는 점을 강조합니다. 위에서 언급한 것 외에도 이 연구에서 제기된 중요한 질문은 다음과 같습니다: 공유된 숙고 과정으로서 관리 추론을 어떻게 평가할 수 있는가? (임상 진단 추론을 평가하기 위한 수많은 도구가 존재하지만, 관리 추론에 초점을 맞춘 도구는 없습니다(Daniel 외. 2019). 마찬가지로, [참여 중심의 SDM]을 평가하기 위한 수많은 도구가 존재하지만, [대응적 문제 해결]에 초점을 맞춘 도구는 없습니다(Hartasanchez 외. 2021)). '좋은' 의학적 결정이란 무엇인가요? (보편적인 정의는 없으며, 환자 대 임상의, 임상 지침 대 실제 경험, 전문의 대 일차 진료, 참여 중심 SDM 대 문제 중심 SDM 등 다양한 관점에 따라 답이 달라지며, 이는 교육 및 평가에 중요한 영향을 미칩니다).
We emphasize the nascent state of research in management reasoning, especially in relation to SDM. Important questions emerging from this study, beyond those noted above, include: How can we assess management reasoning as a shared deliberative process? (Numerous tools exist to assess clinical diagnostic reasoning; none focus on management reasoning (Daniel et al. 2019). Similarly, numerous tools exist to assess involvement-focused SDM; none focus on responsive problem-solving (Hartasanchez et al. 2021)). What is a ‘good’ medical decision? (There is no universal definition; the answer varies for different perspectives—patient vs clinician, clinical guideline vs practical experience, specialist vs primary care, involvement-focused SDM vs problem-focused SDM, etc.—with important implications for training and assessment).

마지막으로, 연구 결과에 따르면 [좋은 의사소통]은 [단순히 좋은 매너]가 아니며, [명목상 환자를 '참여'시키는 암기식 행동]이 최선의 결정에 도달하는 데 적합하지도 않습니다. 의사소통에는 목적이 있으며, 대화가 의사소통의 목적과 동떨어져 있거나 관련된 사람들이 서로 다른 목표를 추구한다면 추론과 의사 결정에 상당한 장애가 발생할 것입니다(Hargraves 외. 2019; Bohman and Rehg 2017). 임상의는 [환자와 임상의가 함께 할 수 있는 의사소통]이 무엇인지 인식하고, 진료 목적에 따른 잠재력을 깨닫고, 환자별 및 상황별 요구에 민첩하게 부응할 수 있도록 의사소통의 내용과 방법을 조정해야 합니다.
Finally, our findings suggest that good communication is not simply good manners, nor that rote behaviors to nominally ‘involve’ patients are adequate for reaching the best decision. Communication serves a purpose, and if talking is detached from the purpose of communication, or if those involved seek disparate goals, then reasoning and decision-making will be significantly impaired (Hargraves et al. 2019; Bohman and Rehg 2017). Clinicians must (learn to) recognize what communication enables patients and clinicians to do together, realize that potential in achieving an encounter-specific purpose, and adjust what and how they communicate to nimbly meet patient-specific and situation-specific demands.

 


Med Teach. 2023 Feb 10;1-13. doi: 10.1080/0142159X.2023.2170776. Online ahead of print.

Management reasoning and patient-clinician interactions: Insights from shared decision-making and simulated outpatient encounters

Affiliations collapse

1Office of Applied Scholarship and Education Science, Mayo Clinic College of Medicine and Science; and Division of General Internal Medicine, Mayo Clinic, Rochester, MN, USA.

2Mayo Clinic National Shared Decision Making Resource Center, Mayo Clinic, Rochester, MN, USA.

3Division of General Internal Medicine, Mayo Clinic, Rochester, MN, USA.

4Center for Health Professions Education, Uniformed Services University of the Health Sciences, Bethesda, MD, USA.

PMID: 36763491

DOI: 10.1080/0142159X.2023.2170776

Abstract

Purpose: To expand understanding of patient-clinician interactions in management reasoning.

Methods: We reviewed 10 videos of simulated patient-clinician encounters to identify instances of problematic and successful communication, then reviewed the videos again through the lens of two models of shared decision-making (SDM): an 'involvement-focused' model and a 'problem-focused' model. Using constant comparative qualitative analysis we explored the connections between these patient-clinician interactions and management reasoning.

Results: Problems in patient-clinician interactions included failures to: encourage patient autonomy; invite the patient's involvement in decision-making; convey the health impact of the problem; explore and address concerns and questions; explore the context of decision-making (including patient preferences); meet the patient where they are; integrate situational preferences and priorities; offer >1 viable option; work with the patient to solve a problem of mutual concern; explicitly agree to a final care plan; and build the patient-clinician relationship. Clinicians' 'management scripts' varied along a continuum of prioritizing clinician vs patient needs. Patients also have their own cognitive scripts that guide their interactions with clinicians. The involvement-focused and problem-focused SDM models illuminated distinct, complementary issues.

Conclusions: Management reasoning is a deliberative interaction occurring in the space between individuals. Juxtaposing management reasoning alongside SDM generated numerous insights.

Keywords: Decision Making; clinical decision-making; communication; diagnostic reasoning; shared; therapeutic reasoning.

관리추론: 핵심 특징과 개념 모델의 실증적 결정(Acad Med, 2023)
Management Reasoning: Empirical Determination of Key Features and a Conceptual Model 
David A. Cook, MD, MHPE, Christopher R. Stephenson, MD, Larry D. Gruppen, PhD, and Steven J. Durning, MD, PhD 

 

 

[관리 추론]은 임상 진료와 의학교육에서 매우 중요하지만 잘 연구되지 않은 현상입니다. 1,2 [진단 추론]과 관련된 임상 추론 프로세스는 상당한 연구를 통해 밝혀졌습니다. 3-6 반면, [환자 관리 결정]에 대한 추론과 관련된 프로세스에 대해서는 알려진 바가 훨씬 적습니다. 6,7 우리는 최근 관리 추론에 대한 개념적 프레임워크를 발표했습니다. 1,2 이 보고서에서 우리는 관리 추론을 "임상의가 임상 정보(병력, 검사 소견, 검사 결과), 선호도, 의학 지식, 맥락(상황) 요소를 통합하여 치료, 추가 검사, 후속 방문, 제한된 자원의 할당 등 개별 환자의 관리에 관한 결정을 내리는 인지적 과정"1으로 정의하고 5가지 주요 특징을 제안했습니다:

  • 합리적이고 방어 가능한 여러 솔루션 간의 비교 및 선택,
  • 환자, 임상의, 시스템 선호도, 제약, 가치의 우선순위 지정,
  • 의사소통 및 공유된 의사 결정,
  • 관리 계획의 지속적인 모니터링 및 조정,
  • 사람, 시스템, 환경, 경쟁 우선순위 간의 역동적인 상호 작용(표 1).

우리 모델을 기반으로 최근 관리 스크립트의 개념을 설명하는 연구도 있습니다. 8

Management reasoning 1 is a critical yet understudied phenomenon in clinical practice and medical education. 1,2 Substantial research has illuminated the clinical reasoning processes involved in diagnostic reasoning. 3–6 By contrast, far less is known about the processes involved in reasoning about patient management decisions. 6,7 We recently published a conceptual framework for management reasoning. 1,2 In those reports, we defined management reasoning as “the cognitive processes by which clinicians integrate clinical information (history, exam findings, and test results), preferences, medical knowledge, and contextual (situational) factors to make decisions about the management of an individual patient, including decisions about treatment, further testing, follow-up visits, and allocation of limited resources,” 1 and proposed 5 key features:

  • contrasting and selection among multiple reasonable and defensible solutions;
  • prioritization of patient, clinician, and system preferences, constraints, and values;
  • communication and shared decision making;
  • ongoing monitoring and adjustment of the management plan; and
  • dynamic interplay among people, systems, settings, and competing priorities (Table 1).

Others, building on our model, have recently described the concept of management scripts. 8

그러나 [관리 추론]에 대한 경험적 연구는 제한적입니다. 연구들은 종종 치료 결정을 결과로 사용하지만, 그러한 결정의 근간이 되는 관리 추론 프로세스에 초점을 맞춘 경우는 거의 없습니다. 9-11 한 그룹에서는 12개의 임상 추론 과제를 확인한 후 13개 24개의 임상 추론 과제를 확인했으며, 이 중 11개는 관리를 용이하게 합니다. [관리 추론의 현상]과 [진단 추론과의 차이점]을 더 명확하게 이해하면 이 분야의 미래 연구를 위한 발판을 마련하고 교육에 대한 잠재적 시사점을 파악할 수 있습니다. 이 연구에서는 귀납적(경험적)으로 시뮬레이션된 외래 환자-임상의사 면담에서 나타난 관리 추론의 주요 특징을 파악하고 관리 추론 과정을 설명하는 모델을 구축하고자 했습니다.
However, empirical research on management reasoning is limited. Studies often use treatment decisions as an outcome but only rarely have focused on the management reasoning processes that underlie such decisions. 9–11 One group identified 12 and subsequently confirmed 13 24 clinical reasoning tasks, of which 11 facilitate management. Greater clarity in understanding the phenomenon of management reasoning, and how it differs from diagnostic reasoning, will set the stage for future research in this field and identify potential implications for education. In this study, we sought to inductively (empirically) identify key features of management reasoning as manifested in simulated outpatient clinician–patient encounters and construct a model that describes the management reasoning process.

방법
Method

우리는 관리 추론의 특징을 파악하기 위해 모의 외래 환자 임상의와 환자 간의 만남을 담은 10개의 비디오 클립을 검토했습니다.
We reviewed 10 video clips of simulated outpatient clinician–patient encounters, to identify features of management reasoning.

비디오 클립
Video clips

비디오 클립은 이전에 발표된 [평가자 교육 연구]에서 사용되었습니다. 14,15

  • 각 비디오는 레지던트 의사가 환자에게 의학적 상태(예: 고지혈증, 섬유근육통, 갑상선암)에 대해 상담하는 장면을 보여줍니다. 이 동영상은 레지던트의 실력이 미흡한 경우부터 우수한 경우까지 다양한 모습을 보여주기 위해 기획되었습니다.
  • [6개의 비디오]는 저자 D.A.C.가 개발했으며, 마지막 해 또는 내과 전공의와 커뮤니티 풀의 표준화된 환자 간의 즉흥적인 대화로 구성되었습니다.
    • 의사는 자신의 수행 능력(우수 또는 열악)을 변화시키도록 지시받았고, 표준화 환자는 일관적이되 적절하게 반응하도록 지시받았습니다.
  • [4개의 비디오]는 미국 내과학회에서 개발했으며(미국 내과학회의 허가를 받아 사용), 서면 스크립트를 사용했습니다.
  • [모든 비디오]는 52명의 메이요 클리닉 내과 의사가 미니 임상 평가 연습(Mini-CEX)을 사용하여 평가했습니다(이전 연구의 일부로 14,15). 15 사용 가능한 36개의 비디오 중에서 먼저 관리 상황을 가장 잘 나타내는 비디오(즉, 상담 중심)를 식별한 다음, Mini-CEX 상담 점수를 사용하여 가장 낮은 점수를 받은 5개가장 높은 점수를 받은 5개 비디오를 선정했습니다(다양한 성과를 풍부하게 표현하기 위해 극단적인 그룹을 의도적으로 선택).
  • 최종적으로 선정된 5개의 동영상은 각각 2단계의 성과로 구성된 5개의 사례(새로운 고혈압 관리, 새로운 고지혈증, 새로운 섬유근육통, 최적 조절이 되지 않는 당뇨병, 암을 나타내는 갑상선 결절 생검)를 표현했습니다.
  • 각 비디오는 트랜스크립션되었으며, 트랜스크립션은 비디오 검토 중 및 검토 후에 검토자가 참조할 수 있도록 제공되었습니다. 동영상 개발에 사용된 연구14,15는 메이요 클리닉 기관윤리심의위원회에서 면제 판정을 받았습니다. 이 연구에는 새로운 인간 피험자가 등록되지 않았습니다.

The video clips were used in a previously published study of rater training. 14,15 

  • Each video portrays a resident physician counseling a patient about a medical condition (e.g., hyperlipidemia, fibromyalgia, thyroid cancer). The videos were planned to show a range of resident performance varying from poor to superior.
  • Six videos were developed by author D.A.C. and consisted of extemporaneous dialogues between a final-year or chief internal medicine resident physician and a standardized patient from our community pool.
    • The physicians were instructed to vary their performance (superior or poor); the standardized patients were instructed to respond consistently but appropriately.
  • Four videos were developed by the American Board of Internal Medicine (used with their permission) and used written scripts.
  • All videos were rated (as part of the previous study 14,15) by 52 Mayo Clinic internal medicine physicians using the mini-clinical evaluation exercise (Mini-CEX). 15 From the 36 videos available, we first identified those that best represented management encounters (i.e., counseling focused) and then used the Mini-CEX counseling score to select the 5 lowest-scoring and 5 highest-scoring videos (extreme groups purposive selection to provide a rich representation of varying performances).
  • The ultimately selected videos represented 5 encounters (management of new hypertension, new hyperlipidemia, new fibromyalgia, suboptimally controlled diabetes mellitus, and a thyroid nodule biopsy that indicated cancer), each at 2 levels of performance.
  • Each video was transcribed, and transcripts were available to reviewers for reference during and after video review. The study used to develop videos 14,15 was judged exempt by the Mayo Clinic Institutional Review Board. No new human subjects were enrolled in this study.

관찰과 코딩의 만남
Encounter observation and coding

2020년 11월, 보드 인증 내과 의사 3명(D.A.C., C.R.S., S.J.D.)과 인지 심리학자 1명(L.D.G.)이 각 비디오를 최소 2회 이상 독립적으로 검토하고 추가로 여러 비디오를 짝을 지어 시청했습니다. 검토자들은 개방형 프롬프트가 있는 코딩 양식을 사용하여 치료(약물 및 비약물) 및 추가 진단 검사에 대한 결정, 공유된 의사 결정, 종단적 계획(예: 추적 관찰)에 대한 결정뿐만 아니라 이러한 작업을 자극, 중재, 형성 또는 영향을 미치는 추가 프로세스를 포함하되 이에 국한되지 않는 특정 관리 작업 및 프로세스를 식별하고 문서화했습니다. 우리는 이전에 구상한 모델 2를 출발점으로 삼아(즉, 여러 합리적인 옵션 중에서 선택, 환자 가치의 우선순위 결정, 공유된 의사 결정, 계획의 지속적인 조정, 사람과 시스템 간의 역동적인 상호 작용) [관리 추론의 추가 특징]을 모색했습니다. 개선할 수 있는 성과 측면(예: 레지던트에 대한 가상의 피드백)을 명시적으로 문서화했습니다. 또한 각 리뷰어는 동영상에 묘사된 경영 추론 활동을 넘어서는 새로운 인사이트, 주제, 연결점(깨달음)을 문서화했습니다.
In November 2020, 3 board-certified internal medicine physicians (D.A.C., C.R.S., and S.J.D.) and 1 cognitive psychologist (L.D.G.) independently reviewed each video at least twice and additionally viewed several videos in pairs. Using a coding form with open-ended prompts (see Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B305), reviewers identified and documented specific management tasks and processes, including but not limited to decisions about therapy (drug and nondrug) and further diagnostic testing, shared decision making, and longitudinal planning (e.g., follow-up), as well as additional processes that stimulated, mediated, shaped, or were influenced by the tasks. We used our previously conceived model 2 as a starting point (i.e., selection among multiple reasonable options, prioritization of patient values, shared decision making, ongoing adjustment of the plan, and dynamic interplay among people and systems) and further sought additional features of management reasoning. We explicitly documented aspects of performance that could be improved (i.e., hypothetical feedback to the resident). In addition, each reviewer documented novel insights, themes, and connections (epiphanies) that extended beyond management reasoning activities portrayed in the video.

데이터 분석 및 모델 구축
Data analysis and model building

우리는 지속적인 비교 분석 접근법을 사용하여 진단적 추론에 대한 연구에서 주마와 골드스미트(Juma and Goldszmidt)13가 사용한 것과 유사한 방법을 채택했습니다. 16 우리 중 한 명(D.A.C.)은 모든 비디오에 대한 모든 조사자의 원시 관찰과 깨달음을 검토하고 이를 코딩 양식 프롬프트로 구성된 관리 작업, 프로세스 및 인사이트의 길고 포괄적인 목록으로 정리했습니다. 전체 검토팀은 음성 및 전자 매개 대화를 통해 이러한 아이디어를 반복적으로 재구성, 재개념화, 정교화, 구체화하여 [핵심 기능의 간결한 목록]으로 정리한 다음, [관리 추론 모델을 구축]하기 위해 일련의 토론을 진행했습니다. 이 분석에서는 공통 주제와 소주제(핵심 기능 및 과제)를 찾고, 높은 성과와 낮은 성과를 대조하고, 각 깨달음을 신중하게 탐색했습니다. 모든 검토자가 주요 특징과 최종 모델에 대해 완전히 합의했습니다. 

We adopted a method similar to that used by Juma and Goldszmidt 13 in a study of diagnostic reasoning by using a constant comparative analysis approach. 16 One of us (D.A.C.) reviewed all investigators’ raw observations and epiphanies for all videos and organized these into a lengthy, comprehensive list of management tasks, processes, and insights organized by coding form prompts. The entire review team had a series of discussions (through voice and electronic-mediated conversations) to iteratively reorganize, reconceptualize, elaborate, and refine these ideas into a parsimonious list of key features and then construct a model of management reasoning. This analysis looked for common themes and subthemes (key features and tasks), contrasted high and low performances, and thoughtfully explored each epiphany. All reviewers came to full consensus on the key features and final model.

결과
Results

비디오를 관찰하는 동안 약 120페이지 분량의 한 칸 띄어쓰기 주석이 생성되었습니다. 이로부터 18페이지 분량의 관리 업무, 프로세스 및 인사이트 목록을 추출한 후 이를 핵심 기능 목록과 관리 추론 모델로 압축했습니다. 비디오 검토 과정에서 진화하고 단순한 관찰과 높은 수준의 인사이트가 혼합된 원시 내러티브를 직접 생성했기 때문에, 우리는 자신의 내러티브를 인용하거나 어떤 단계에서 인사이트가 도출되었는지 구분하기보다는 관찰과 인사이트를 전체적으로 요약하는 정제된 내러티브를 제시합니다. 
We collectively generated approximately 120 pages of single-spaced typed comments during video observations. From this, we distilled an 18-page list of management tasks, processes, and insights, and subsequently condensed this into a list of key features and a model of management reasoning. Inasmuch as we generated the raw narratives ourselves, which evolved during video review and contained a mixture of simple observations and high-level insights, we present a refined narrative that summarizes our observations and insights as a whole, rather than quote our own narratives or attempt to discriminate at what stage an insight emerged.

관리 추론의 특징
Features of management reasoning

우리는 [관리 추론의 12가지 특징]을 확인했습니다(표 1). 이 중 5개는 이전에 비경험적 에세이에서 제안되고 기술된 바 있으며,1 관찰을 통해 확인되었습니다. 7가지 특징은 경험적 분석에서 새롭게 나타났으며 아래에서 설명합니다. 이 중 질병 관련 지식과 임상 경험의 조직화를 제외한 나머지는 진단적 추론과 달리 관리 추론에 고유한 특징입니다.
We identified 12 distinct features of management reasoning (Table 1). Five of these had been previously proposed and described in a nonempirical essay, 1 and they were confirmed in our observations. Seven emerged anew in our empirical analysis and are discussed below. Of these, all but illness-specific knowledge and organization of the clinical encounter are largely unique to management reasoning (in contrast to diagnostic reasoning).

질환-특이적 지식.
Illness-specific knowledge.

가장 눈에 띄는 인사이트 중 하나는 [관리 추론이 콘텐츠에 따라 다르다]는 점입니다. 거의 모든 다른 기능은 질병 자체에 대한 깊고 정확한 지식(질병별 지식) 또는 지역 의료 시스템 내에서 질병을 관리하는 방법(프로세스 지식, 아래 설명 참조)에 의존합니다.
One of the most salient insights was that management reasoning is content-specific. Nearly every other feature relies on deep, accurate knowledge of the illness itself (illness-specific knowledge) or how to manage the illness within the local health care system (process knowledge, described below).

[질환 특이적 지식]에는 [질병의 메커니즘, 병리, 자연사 또는 예후, 진단 및 치료 옵션(효과, 위험 및 비용 포함)]이 포함됩니다. 유능한 임상의는 [구체적인 근거 또는 가이드라인]을 간략하게 언급하여 이러한 요점을 뒷받침했습니다(예: "연구에 따르면 고혈압을 치료하면 심장병, 뇌졸중 및 신장 질환에 걸릴 확률이 줄어듭니다."). 관련 치료 옵션을 생략하거나, 치료 효과를 잘못 설명하거나, 중요한 부작용을 무시하거나, 추가 평가의 시급성을 부정확하게 전달하는 등의 [콘텐츠 지식 결함]이 저성과자(마이너 및 메이저 모두)에게서 빈번하게 관찰되었습니다.
Illness-specific knowledge includes the mechanism, pathology, natural history, or prognosis of disease, and diagnostic and treatment options (including effectiveness, risks, and costs). Effective clinicians supported many of these points with brief reference to specific evidence or guidelines (e.g., “Research shows that treating hypertension reduces your chance of heart disease, stroke, and kidney disease.”). We observed frequent content knowledge flaws in low performers (both minor and major), such as omitting relevant treatment options, misstating treatment effectiveness, neglecting important side effects, or inaccurately conveying the urgency of further evaluation.

프로세스 지식.
Process knowledge.

[프로세스 지식][지역 의료 시스템에서 관리의 물류에 관한 운영적이고 실용적인 통찰력]("여기서 일이 어떻게 돌아가는지")을 포함합니다.

  • [프로세스 지식의 격차]는 비약물 관리 옵션(예: 물리 치료, 전문가 상담, 후속 조치에 대한 모호한 계획)에 대한 불확실성 또는 사용 가능한 모든 자원을 활용하지 못하는 것으로 나타났습니다.
  • [질병 특이적 지식 격차]에 비해 부정적 영향이 실질적이고 직접적이지 않을 수 있지만, 그럼에도 불구하고 [프로세스 지식 격차]는 환자에게 불확실성, 신뢰도 저하, 불만족을 남겼습니다.
  • 요컨대, 의사가 [환자가 [임상의사 자신의 이해를 넘어서는 결정]을 내릴 수 있도록 가이드하는 것]은 불가능합니다.

Process knowledge encompasses operational, practical insights regarding the logistics of management in the local health care system (“how things work around here”).

  • Process knowledge gaps manifested as uncertainty regarding nondrug management options (e.g., vague plans for physical therapy, specialist consultation, follow-up) or failure to draw on all available resources.
  • Although their adverse effects were perhaps less substantial and direct than illness-specific knowledge gaps, process knowledge gaps nonetheless left the patient appearing uncertain, less trusting, and dissatisfied.
  • In short, it is impossible for clinicians to guide patients in navigating a decision that exceeds their own understanding.

관리 스크립트.
Management scripts.

또 다른 중요한 인사이트는 관리 대면에서 [관리 스크립트]의 중요하고도 두드러진 역할이었습니다. [스크립트]는 일반적으로 다음과 같이 정의됩니다.
Another important insight was the prominent and critical role of management scripts in the management encounter. Scripts are defined generally as

[고수준]의 [사전 편집]된 [개념적 지식 구조] ... [이는] 개별 이벤트가 [시간적], 종종 [인과적] 또는 [계층적] 관계로 상호 연결되는 [일반적인 (고정관념화된) 이벤트 시퀀스]를 나타내며, 적절한 맥락에서 [통합된 전체]로 활성화될 수 있고, 실제 상황에 존재하는 정보로 [채워filled]지거나, 기억에서 검색되거나 맥락에서 [추론]할 수 있는 [변수와 슬롯]을 포함한다. 17(p457)
high-level, precompiled, conceptual knowledge structures … [that] represent general (stereotyped) event sequences, in which the individual events are interconnected by temporal and often also causal or hierarchical relationships; that can be activated as integral wholes in appropriate contexts [and] contain variables and slots that can be filled with information present in the actual situation, retrieved from memory, or inferred from the context. 17(p457)

[관리 스크립트]의 경우 [개별 이벤트]는 [진단 검사, 치료, 상담, 환자 교육, 공유 의사 결정, 모니터링 등]의 [관리 옵션]으로 구성됩니다. [스크립트]는 이러한 이벤트를 [합리적인 관리 계획]으로 연결합니다.
For management scripts, the individual events comprise management options, including diagnostic tests, treatments, consultations, patient education, shared decision making, and monitoring. Scripts link these events into a rational management plan.

우리는 [관리 스크립트]를 [합리적인 관리 계획의 개발]을 용이하게 하기 위해, [관리 옵션]과 [임상의 업무]를 [시간적 또는 논리적 순서]로 표현하고 연결하는 [미리 컴파일된 개념적 지식 구조]로 정의합니다(표 1).
We define management scripts as precompiled conceptual knowledge structures that represent and connect management options and clinician tasks in a temporal or logical sequence to facilitate development of a rational management plan (Table 1).

[관리 스크립트]는 [일관성 있고 유창하며 구조화된 내러티브]로서 이러한 만남에서 나타났습니다. 개별 요소는 특정 환자나 만남의 고유한 요구에 맞게 조정되었지만, 적어도 초기에는 예상치 못한 사건이나 정보(예: 환자의 저항이나 날카로운 질문)로 인해 중단되기 전까지는 스크립트 전체가 대체로 미리 결정된 것처럼 보였습니다.

  • 저품질의 스크립트는 일관성이 없고, 구불구불하며, 반응적이고, 비인격적이며, 실망스러운 면담으로 이어져 결국 환자와 의료진 모두 불만족스러운 결과를 초래했습니다.
  • 이와 대조적으로 고품질 스크립트는 환자의 질문을 미리 파악하고, 의사 결정을 공유하며, 신뢰와 확신을 불러일으키는 것으로 나타났습니다.

[스크립트의 품질]은 다음을 포함한 다각적인 요인으로 해석했습니다.

  • 스크립트 내용(질환 특이적 및 일반적인 프로세스 지식),
  • 시퀀스(자연스럽고 논리적인 시간적 전개),
  • 유연성(환자의 배경, 동반 질환, 선호도, 제약 조건, 질문 및 이해도에 대한 대응),
  • 유창성(전달의 용이성, 일관성 및 명확성)

Management scripts manifested in these encounters as coherent, fluent, structured narratives. Although individual elements were tailored to the unique needs of a given patient or encounter, the script as a whole seemed to be largely predetermined—at least initially and until disrupted by unexpected events or information (e.g., resistance or penetrating questions from the patient).

  • Low-quality scripts led to encounters that appeared disjointed, meandering, reactive, impersonal, and dispiriting, and ultimately resulted in dissatisfaction for both patients and clinicians.
  • By contrast, high-quality scripts seemed to preempt patient questions, facilitate shared decision-making, and engender trust and confidence.

We construed quality to be multifactorial, including

  • script content (illness-specific and general process knowledge),
  • sequence (natural, logical temporal evolution),
  • flexibility (responsiveness to patient background, comorbidities, preferences, constraints, questions, and comprehension), and
  • fluency (ease, coherence, and clarity of delivery).

스크립트의 일반성(즉, '나쁜 소식 전하기', '새로운 질환에 대한 치료 시작', '만성 질환에 대한 치료 강화' 등 콘텐츠 영역에서 반복될 수 있는 패턴을 준수하는 정도)도 다양했습니다. [가장 좋은 스크립트]는 [일반적인 틀에 기초]하며, [특정 질병과 환자 모두에게 맞춤화된 것]입니다.
Scripts also varied in the level of generality (i.e., adherence to a pattern that could be replicated across content areas, such as “breaking bad news,” “initiating treatment for a new condition,” and “intensifying treatment of a chronic condition”). The best scripts seem to be grounded in a general framework and then tailored to both the specific illness and the patient.

환자의 스승이자 영업사원으로서의 임상의 역할.
Clinician roles as patient teacher and salesperson.

우리는 공동 의사 결정의 개념과는 별개로 [환자에 대한 교사이자 영업사원으로서 임상의의 중요한 역할]을 확인했습니다. 효과적인 환자 교육은 공유 의사 결정

  • 활동 전(의사 결정의 필요성을 입증하기 위해),
  • 활동 중(옵션 간의 구별되는 특징을 강조하기 위해),
  • 활동 후(관리 계획에서 환자의 개인적 책임을 알리기 위해)에 필수적입니다.

임상의는 이러한 환자 교육 요건에 대한 일차적인 책임이 있습니다.
We identified critical roles for the clinician as a teacher and salesperson to the patient that seemed distinct from the concept of shared decision making. Effective patient education is essential

  • before (to substantiate the need to make a decision),
  • during (to highlight distinguishing features among options), and
  • after (to apprise patients of their personal responsibility in the management plan) the shared decision activity.

Clinicians have a primary responsibility in these patient teaching requirements.

마찬가지로 세일즈맨십, 즉 최종 결정에 대한 [환자의 완전한 동의를 얻는 역할도 중요]한 것으로 보입니다. 이 역할이 반드시 특정 치료 옵션을 '판매'하는 것을 의미하는 것은 아니며, 실제로 최고의 영업 담당자(임상의)는 먼저 구매자의 요구 사항을 확인한 다음, 이러한 요구 사항을 충족할 가능성이 가장 높은 옵션으로 구매자(환자)를 안내할 것입니다. 그럼에도 불구하고 결국에는 완전한 동의를 얻지 못하면 [차선의 결과(예: 낮은 순응도)]를 초래하게 됩니다. 또한 훌륭한 영업사원은 효과적으로 가르치고, 명확하고 공개적으로 소통하며, 신뢰 관계를 구축합니다(아래 설명 참조). 
Likewise, there seems to be a strong role for salesmanship—that is, obtaining the patient’s full buy-in on the final decision. This role does not necessarily imply “selling” a specific treatment option; indeed, the best salesperson (clinician) would first ascertain the buyer’s needs and then steer the buyer (patient) toward the option(s) most likely to meet those needs. Nonetheless, in the end, anything but full buy-in will result in suboptimal results (e.g., poor adherence). A good salesperson also teaches effectively, communicates clearly and openly, and builds a relationship of trust (described below).

임상의와 환자의 관계.
Clinician–patient relationship.

우리는 임상의의 [미묘한 행동(예: 환자의 우려 사항을 효과적으로 해결하거나 무시하거나, 치료 옵션을 유창하게 또는 일관성 없이 설명하는 등)]이 환자의 신뢰를 구축하거나 약화시키는 여러 사례를 관찰했습니다. 신뢰가 없으면 대개 환자가 납득하지 못하고 불만족스러워합니다. 신뢰는 양방향입니다. 의료진도 환자를 신뢰해야 합니다(예: 환자가 진실하고 관리 계획에서 자신의 역할을 다할 것이라는 믿음). 대부분의 만남은 적당한 수준의 상호 신뢰에서 시작하여 후속 조치를 통해 강화되거나 약화되는 것으로 보였습니다.
We observed multiple instances in which subtle clinician actions (e.g., effectively addressing or neglecting a patient concern, or fluently or disjointedly describing treatment options) built or undermined the patient’s trust. Without trust, the encounter typically ended with an unconvinced and dissatisfied patient. Trust is bidirectional: the clinician must also trust the patient (e.g., that they are truthful and that they will fulfill their part in the management plan). Most encounters seemed to start with a moderate level of mutual trust that was strengthened and weakened through subsequent actions.

예후.
Prognostication.

많은 환자 질문은 다음과 관련된 향후 기대치와 관련이 있습니다. 

  • [질병]뿐만 아니라
    • ("얼마나 빨리 나아질까요?")
  • 특히 [관리 계획 자체]
    • ("비용은 얼마나 드나요?", "이 약의 부작용은 무엇인가요?", "언제 외과의를 볼 수 있나요?", "언제 다시 볼 수 있나요?")

Many patient questions relate to future expectations regarding

  • not only the illness
    • (“How soon will I feel better?”)
  • but also—perhaps especially—the management plan itself
    • (“How much will this cost?”; “What are the side effects of this medication?”; “When will I see the surgeon?”; “When will I see you again?”).

임상의는 이러한 질문에 대한 답을 알고 있어야 미래의 상황을 정확하게 예측하거나 예상할 수 있습니다. 동영상에서 이러한 질문에 대한 

  • 모호한 답변은 신뢰를 약화시키고 환자가 걱정하고 좌절하는 것처럼 보이게 했습니다. 
  • 반면, 구체적인 답변을 제공할 수 있는 임상의는 환자의 신뢰, 확신, 헌신을 불러일으켰습니다. 

효과적인 예후 예측에는 질병 관련 지식, 치료 과정 지식, 개인적 경험, 커뮤니케이션 기술, 효과적인 교육 등이 복합적으로 작용하는 것으로 나타났습니다. 가장 숙련된 임상의(스크립트가 잘 발달된 임상의)는 [질문이 나오기 전에 미리 예상하고 답변함]으로써 질문을 방지할 수 있었습니다.
Clinicians are expected to know these answers—accurately predicting or anticipating future events. In the videos, vague answers to these questions undermined trust and left patients appearing worried and frustrated. By contrast, clinicians who could provide specific answers engendered the patient’s trust, confidence, and commitment. Effective prognostication seemed to entail a combination of illness-specific knowledge, process knowledge, personal experience, communication skill, and effective teaching. The most skilled clinicians (those with well-developed scripts) were able to forestall questions by anticipating and answering questions before they were articulated.

임상 만남의 조직화(순서 및 시간 관리).
Organization of the clinical encounter (sequencing and time management).

마지막으로, 전체 관리 추론 활동에서 가장 중요한 것은 주어진 기간 동안 [추론 프로세스 자체를 조직(시퀀싱)하는 것]입니다(이 경우 외래 임상의와 환자 간 만남). 관리 추론은 환자 교육, 질문과 답변, 옵션 조사, 다른 팀원과의 커뮤니케이션, 의사 결정, 계획 실행과 같은 활동에 대한 선택, 순서 및 시간을 관리합니다. 조직은 다양한 수준의 의식적(의도적) 및 무의식적 추론을 반영합니다. 이러한 작업 시퀀스는 종종 관리 스크립트의 일부로 컴파일됩니다. 이 비디오에서 우리는 매우 짧은 만남(의료진이 환자를 의사 결정에 참여시키지 않음)과 매우 긴 만남(의료진이 잠재적인 문제를 예상하기보다는 허둥대고 우왕좌왕하며 반응하는 것처럼 보임) 모두에서 문제를 관찰했습니다. 그러나 주어진 만남은 치료의 한 지점에 불과하며, 즉각적인 관리 결정은 과거 만남에서 얻은 정보, 토론 및 결정을 통합하고 향후 만남을 예측해야 한다는 점을 인식하고 있습니다.
Finally, overarching the entire management reasoning activity is the organization (sequencing) of the reasoning process itself in a given period (in this case, an outpatient clinician–patient encounter). Management reasoning governs the choice, sequencing, and time spent on actions such as teaching patients, asking and answering questions, researching options, communicating with other team members, making decisions, and implementing the plan. Organization reflects varying degrees of conscious (deliberate) and unconscious reasoning. These action sequences are often compiled as part of the management script. In these videos, we observed problems with encounters that were both very short (the clinician failed to involve the patient in decision making) and very long (the clinician seemed to flounder, meander, and react rather than anticipate potential challenges). We recognize, however, that a given encounter represents only 1 point in care; immediate management decisions should integrate information, discussions, and decisions from past encounters and anticipate future encounters.

관리 추론의 함정
Pitfalls in management reasoning

또한 아래에 설명된 바와 같이 관리 추론에서 [몇 가지 실수]를 발견했습니다.
We also observed several missteps in management reasoning, as described below.

  • 모호한 치료 계획: 임상의가 약물 투여 지침, 약물 부작용, 다음 관리 단계(예: 진단 검사, 전문의 상담, 물리 치료), 후속 조치 시기, 진행 중인 증상 관리 등 치료 계획에 대해 환자에게 세부 정보를 제공하거나 안심시키지 못했습니다. 환자는 당황하거나 좌절하거나 걱정하는 모습을 보였습니다. 
  • Vague care plans: Clinicians failed to provide details or reassurance to patients about the care plan, such as drug administration instructions, drug side effects, next steps in management (e.g., diagnostic testing, specialist consultation, physical therapy), timing of follow-up, and management of ongoing symptoms. The encounter ended with the patient appearing puzzled, frustrated, or worried.
  • 제한된 치료 계획: 임상의는 한 가지 치료 옵션 또는 짧은 일반(이 환자에게 맞춤화되지 않은) 옵션 목록만 제시했습니다. 이러한 계획은 진단에 대한 반사적 반응(진단적 추론에서 조기 종결과 유사)으로 보이지만, 임상의가 열등하거나 실행 불가능하다고 판단되는 옵션을 의도적으로 피하면서 알려진 또는 가정된 선호도 및 제약 조건에 따라 최적의 계획을 신중하게 미리 선택한 것일 수도 있습니다. 
  • Restricted care plans: Clinicians presented only 1 treatment option or a short generic (not tailored to this patient) list of options. This plan seemed to be a reflexive response to the diagnosis (akin to premature closure in diagnostic reasoning); however, it could alternatively represent thoughtful preselection of an optimal plan based on known or assumed preferences and constraints, with the clinician intentionally avoiding options judged as inferior or infeasible.
  • 환자 선호도를 확인하지 않은 경우: 임상의가 환자의 [선호도를 유도하거나 확인]하지 않고 계획을 제시했으며, 아마도 그러한 선호도에 대한 가정을 한 것으로 추정됩니다. 임상의가 환자와 오랜 기간 관계를 맺어온 경우에도 일반적으로 선호도를 확인하는 것이 필요합니다.
  • Failure to ascertain patient preferences: Clinicians presented a plan without eliciting or confirming patient preferences, presumably by making assumptions about such preferences. Even when a clinician has a longstanding relationship with the patient, confirmation of preferences would typically seem warranted.
  • 공유된 의사 결정의 부재: 임상의가 치료 계획을 수립하고 마무리할 때 [환자를 참여]시키지 않았습니다. 대안에 대한 사전 논의가 있든 없든 한 가지 옵션이 최선이라고 제시되었고, 환자는 이에 동의할 것으로 예상되었습니다. 일부 환자는 이러한 접근 방식을 받아들이는 것처럼 보였지만, 대부분은 불안해하거나 실망하거나 사기가 저하된 모습을 보였습니다.
  • Absence of shared decision making: Clinicians failed to involve patients in formulating and finalizing the care plan. One option was proffered as optimal (with or without antecedent discussion of alternatives), and the patient was expected to acquiesce. Although some patients seemed to accept this approach, most appeared unsettled, disappointed, or demoralized.
  • 단서를 따르지 않음: 임상의는 [우려, 질문, 의심을 암시하는 언어적 또는 비언어적 메시지를 해결]하지 못했습니다. 단서는 미묘한 것(표정이나 차분한 언어 표현)부터 명시적인 것(명확한 질문이나 우려 사항 진술)에 이르기까지 다양했습니다. 임상의의 반응에는 완전한 무시, 추가 논의 없이 피상적으로 인정, 짧은 논의 후 무시, 환자의 지속적인 우려에 대한 노골적인 무시(논의 없이 또는 논의 후)가 포함되었습니다. 환자는 항상 좌절하고 때때로 화를 내는 것처럼 보였습니다.
  • Failure to follow cues: Clinicians failed to address verbal or nonverbal messages that suggested concerns, questions, and doubts. Cues ranged from subtle (facial expression or subdued verbal expressions) to explicit (clear question or statement of concern). Clinician responses included complete ignorance, cursory acknowledgment without further discussion, brief discussion followed by dismissal, and outright overruling of persistent patient concerns (without or after discussion). Patients always appeared frustrated and occasionally upset.
  • 이해와 약속을 확인하지 않음: 임상의는 환자가 계획을 이해하고 동의했는지 확인하지 않았습니다.
  • Failure to confirm understanding and commitment: Clinicians did not confirm that patients comprehended and agreed with the plan.

관리 추론의 모델
A model of management reasoning

임상의와 환자의 만남에 대한 경험적 분석을 바탕으로 [관리 추론의 모델]을 잠정적으로 제안합니다(그림 1). 이 모델은 주로 의료진과의 만남의 시간적 진화를 반영한 것으로, 이러한 진화가 임상의의 뇌에서 일어나는 실제 인지 과정이나 일련의 과정을 어느 정도 반영하는지는 확실하지 않습니다. 우리는 주어진 만남에서 단계가 반복되거나 동시에 진행되는 경우가 많다는 것을 인정합니다.
On the basis of our empirical analysis of clinician–patient encounters, we tentatively propose a model of management reasoning (Figure 1). This model largely reflects the temporal evolution of a management encounter; we are uncertain to what extent this evolution reflects the actual cognitive processes or sequence of processes that occur in the clinician’s brain. We acknowledge that steps are often repeated or concurrent in a given encounter.

관리 추론의 첫 번째 단계는 관리 스크립트의 트리거(활성화), 선택 및 인스턴스화인 것으로 보입니다. 18 [스크립트 개념의 조작화]에는 다음의 조합이 반영됩니다. 

  • 질병별 지식,
  • 프로세스 지식,
  • 환자별 사실에 대한 지식(현재 및 과거 병력, 검사 결과, 검사 데이터 등)
  • 임상의의 개인적 경험

[인스턴스화]는 [환자 및 상황별 요소를 통합]하여 [즉각적인 문제에 맞게 스크립트를 개인화]합니다. 스크립트에는 후속 진료에서 다룰 주요 문제(교육, 치료 옵션, 예후 등)가 코드화되어 있으며 추론 프로세스에서 중요한 의사 결정 시점을 강조합니다. 
The first step in management reasoning seems to be the triggering (activation), selection, and instantiation of a management script. 18 Our operationalization of the script concept reflects a combination of

  • illness-specific knowledge,
  • process knowledge,
  • knowledge of patient-specific facts (current and past history, examination findings, test data, etc.), and
  • the clinician’s personal experience.

Instantiation integrates patient- and context-specific factors to personalize the script to the immediate problem. The script codifies the key issues (education, treatment options, prognosis, and so on) that will be addressed in the ensuing encounter and highlights critical decision points in the reasoning process.

관리 추론의 두 번째 단계에서는 [스크립트를 사용하여 이 환자와 상황에 적합한 잠재적 관리 솔루션을 식별한 다음 관련 문제(예: 의학적 상태, 관리 옵션)에 대해 환자에게 교육]합니다. 의식적이든 무의식적이든 이 단계에서 만남의 조직화(순서)가 시작됩니다.
The second step in management reasoning uses the script to identify potential management solutions appropriate to this patient and context, and then to educate the patient about relevant issues (e.g., the medical condition, management options). Organization (sequencing) of the encounter begins at this step, whether conscious or unconscious.

관리 추론의 세 번째 단계는 의사 결정을 공유하는 것입니다. 우리는 본질적으로 전혀 없음(즉, 환자의 동의를 전제로 한 치료 옵션 하나만 제시)에서 중간 정도(권장 접근법과 함께 여러 옵션을 제시하고 환자가 [동의]를 선택할 수 있도록 함)에 이르기까지 다양한 변형을 관찰했습니다. 이 동영상에서 모범적인 사례로 간주되는 사례는 없었지만, 누락된 부분과 단점(임상의가 개선해야 할 부분으로 문서화됨)은 [공동 의사 결정의 강력한 모델]을 충분히 강조했습니다. 이 모델에는 다음이 포함되었습니다. 

  • 환자의 선호도와 가치에 대한 명시적인 확인,
  • 환자의 선호도와 가치를 다른 정보와 통합(질병별 지식, 환자별 정보, 프로세스 지식 포함)
  • 향후 상황에 대한 예후 예측,
  • 환자와 임상의 모두에게 잠정 결정이 실제로 최적이라는 확신을 주는 역동적인 상호 작용

The third step of management reasoning is shared decision making. We observed wide variation, ranging from essentially none (i.e., only 1 treatment option presented, with the patient’s acquiescence presumed) to moderate (presenting several options with a recommended approach, and allowing the patient to choose [concur]). Although these videos did not offer any encounters that we considered exemplary, the omissions and shortcomings (documented as areas for improvement for the clinician) amply highlighted a robust model of shared decision making. This model included

  • explicit ascertainment or confirmation of patient preferences and values,
  • integration of patient preferences and values with other information (including illness-specific knowledge, patient-specific information, and process knowledge),
  • prognostication of future events, and
  • a dynamic interplay that assured both patient and clinician that the tentative decision was in fact optimal.

우리는 [환자의 가치관을 통합하는 것]뿐만 아니라, 환자에게 [이러한 결정이 이루어졌다는 것을 명시적으로 전달하는 것]이 중요하다는 것을 관찰했습니다.

  • 상황에 따라 의사 결정 과정에 참여하고, 생활 습관 개선 조치를 실행하고, 약을 복용하고, 다른 임상의와 상담하고, 후속 조치를 위해 재방문하는 등의 조치를 포함하여 환자가 치료 계획을 구매하도록 설득하는 데는 [교육과 세일즈맨십이 필수적]이었습니다.
  • 이 동영상에는 설명되어 있지 않지만, [의사 결정 보조 도구]가 많은 경우에 도움이 되었을 것이라는 점에 주목했습니다.
  • 또한 [다른 의료진과의 상호작용]을 보여주는 동영상은 없었지만, 이 단계에서 이러한 상호작용을 통해 의료진의 권장 사항, 우선순위, 가치, 물류 제약 사항을 확인하고 통합할 수 있을 것으로 예상됩니다.
  • 공유 의사 결정 단계는 환자가 계획을 [이해하고 동의했음을 명시적으로 확인]하는 것으로 끝나는 것이 이상적입니다(일관성이 없더라도).

We observed that it was important not only to integrate the patient’s values but also to expressly convey to the patient that this had been done.

  • Teaching and salesmanship were essential in persuading the patient to buy into the care plan, including (depending on the situation) actions such as engaging in the decision-making process, implementing lifestyle measures, taking a medication, consulting another clinician, and returning for follow-up.
  • Although not illustrated in these videos, we noted that a decision aid would have been helpful in many instances.
  • In addition, no video showed interaction with other members of the health care team, and we imagine such interactions at this step could ascertain and integrate their recommendations, priorities, values, and logistic constraints.
  • The shared decision-making step ideally (albeit inconsistently) ended with explicit confirmation that the patient understood and subscribed to the plan.

관리 추론의 마지막 단계는 지속적인 모니터링과 관리 조정입니다. 이 모든 동영상은 이전 방문에 대한 후속 조치로 이루어졌기 때문에 장기간(경우에 따라 몇 년)에 걸친 관리 활동의 한 지점만 반영했습니다. 이러한 관점에서 볼 때 관리 추론은 반드시 이전 만남을 기반으로 하며 향후 후속 조치를 계획해야 합니다. 관리 스크립트는 [과거 정보(병력 및 치료에 대한 반응[이전 반응과의 변화])에 의해 맥락화된 새로운 정보(새로운 검사 결과 및 현재 임상 결과)]에 크게 영향을 받았습니다. 이 스크립트는 다시 제시된 관리 옵션과 임상의의 영업 피치의 테너를 결정했습니다. 또한 임상의는 이 상담에서 관리 범위(예: 당뇨병만 관리할지, 당뇨병과 혈압 및 니코틴 의존도까지 관리할지)에 대해 초기에 결정을 내렸습니다. 진료가 끝날 무렵에는 대개 후속 방문에 대한 계획이 수립되어 있었습니다(그렇지 않은 경우 환자는 대개 불확실하고 불만족스러워 보였습니다). 이러한 후속 계획은 약물 치료에 대한 반응 및 부작용 가능성, 수술의 그럴듯한 결과, 상담 일정의 예상 지연, 질병의 자연력 등 예상되는 또는 [필요한 사건(예후)을 예측하는 임상의의 능력]에 영향을 받습니다. 계획에는 ['이상적인' 후속 조치 계획]과 함께 [환자 및 상황적 요인(실제적인 물류)을 고려하는 것]이 이상적입니다. 
The final step in management reasoning is ongoing monitoring and adjustment of management. All these videos were encounters in follow-up to an earlier visit and as such reflected only 1 point in a management activity spread over an extended period (in some cases, years). From this perspective, management reasoning necessarily builds on prior encounters and must plan for future follow-up. The management script was greatly influenced by new information (new test results and current clinical findings) contextualized by past information (medical history and response to treatment [change from prior response]). This script in turn dictated the management option(s) presented and the tenor of the clinician’s sales pitch. In addition, the clinician made decisions early on regarding the scope of management in this encounter (e.g., diabetes only vs diabetes and blood pressure and nicotine dependence). By the end of the encounter, plans were usually in place for a follow-up visit (and if not, the patient usually appeared uncertain and dissatisfied). These follow-up plans were influenced by the clinician’s ability to anticipate likely or necessary events (prognostication), such as likely response to and possible side effects of drug therapy, plausible outcomes of surgery, the expected delay in scheduling a consultation, or the natural history of the illness. Planning ideally included consideration of patient and contextual factors (practical logistics) married with “ideal” follow-up plans.

이러한 시간적 진화의 각 단계는 환자의 요구, 선호도 및 가치와 임상 상황에 따라 [개인화되거나 맞춤화]될 수 있으며, 맞춤화되어야 합니다. 예를 들어, '고혈압 신약'에 대한 관리 스크립트는

  • 환자의 동반 질환약물 알레르기, 보험 환급상황(응급실 대 외래 진료소)을 고려해야 하며,
  • [교육 및 세일즈맨십]은 환자의 사전 지식, 어휘 및 정보에 대한 욕구에 맞게 조정되어야 하고,
  • [공유 의사 결정]에는 임상의가 제안한 계획에 대한 단순한 동의 이상의 것이 포함되어야 하며,
  • [모니터링 및 조정]은 특정 치료, 질병의 심각도, 치료 반응, 환자 물류(예, 이동 비용 및 시간, 업무 공백 시간), 커뮤니케이션 옵션(예: 대면 방문이 아닌 전화 또는 화상 방문) 등을 고려해야 합니다.

임상의와 환자의 관계도 각 단계에서 강화되거나 약화될 것입니다. 
We note that each step in this temporal evolution can and should be personalized or tailored to the needs, preferences, and values of the patient and the clinical context. For example, a management script for “new drug for hypertension” should take into account the patient’s comorbid conditions and drug allergies, insurance reimbursement, and context (emergency department vs outpatient clinic); teaching and salesmanship should be tailored to the patient’s prior knowledge, vocabulary, and desire for information; shared decision making should involve more than simple acquiescence to the clinician’s proposed plan; and monitoring and adjustment should take into account the specific treatment, severity of illness, treatment response, patient logistics (e.g., expense and time to travel, time away from work), and communication options (e.g., telephone or video visit rather than face-to-face visit). The clinician–patient relationship will also be strengthened or undermined at each step.

마지막으로, 이 동영상에서 관찰된 [관리 추론의 가장 중요한 특징]은 일반적으로 [임상의 내부의 인지적 연습]이 아니라 [임상의와 환자의 상호 작용으로 발생]한다는 것입니다. 물론 이러한 결과는 환자가 참석하지 않거나(예: 임상의가 혼자 또는 의료진과 함께 환자 데이터를 검토하는 경우) 의사 결정에 참여할 수 없는(예: 인공호흡기를 착용한 환자) 관리 상황을 반영하지 못하는 비디오 선택(즉, 대면)의 아티팩트일 수 있습니다. 그러나 대부분의 관리 결정은 궁극적으로 한 명의 임상의가 아닌 [여러 사람이 논의해야 한다]고 생각합니다. 이 동영상에는 나타나지 않지만 이러한 상호작용에는 의료진의 다른 사람(예: 학생, 간호사, 약사, 자문 의사)과 종단적, 비동기적, 간접적 상호작용(예: 의뢰 상담, 환자 인계, 공식적인 인계 없이 동료의 환자 진료)은 물론 동시적이고 직접적인 상호작용도 포함될 수 있습니다. 요컨대, 관리 추론은 전적으로 특정 임상의사 내에서가 아니라, 일반적으로 [개인 간의 공간]에서 발생한다고 추측할 수 있습니다.
Finally, an overarching feature of management reasoning as observed in these videos is that it commonly occurs as a clinician–patient interaction rather than as a cognitive exercise within the clinician. Naturally, this finding could be an artifact of the video selections (i.e., face-to-face encounters), which fail to reflect management situations in which the patient is not present (e.g., clinicians reviewing patient data alone or with the health care team) or unable to participate in decisions (e.g., patient on a ventilator). However, we believe that most management decisions ultimately involve multiperson discussions rather than a single clinician. Although not present in these videos, these interactions could involve others on the health care team (e.g., students, nurses, pharmacists, consulting physicians) and longitudinal, asynchronous, and indirect interactions (e.g., referral consultations, patient handovers, seeing a colleague’s patient without a formal handover) as well as concurrent, direct interactions. In short, it might be conjectured that management reasoning commonly occurs in the space between individuals rather than entirely within a given clinician.

토론
Discussion

이 연구는 시뮬레이션된 임상의와 환자의 만남을 담은 비디오에 대한 경험적 분석을 통해 이전에 설명한 관리 추론의 개념적 틀을 확장했습니다1,2.

  • 이전에 생각했던 5가지 특징을 확인하는 것 외에도 관리 추론의 7가지 특징을 추가로 경험적으로 확인했습니다(표 1).
  • 질병별 및 프로세스 지식의 중요성을 강조하고 관리 스크립트의 5가지 특징을 확인했습니다.
    • (내용, 순서, 유연성, 유창성, 일반성)
  • 또한 4단계의 시간적 진화와 개인 간 개인화 및 발생이라는 중요한 특징으로 구성된 관리 추론의 경험적 모델을 개발했습니다.
    • (스크립트 인스턴스화, 옵션 식별 및 환자 교육, 공유된 의사 결정, 지속적인 모니터링 및 조정)

This study extended a previously described conceptual framework for management reasoning 1,2 through empirical analysis of videos of simulated clinician–patient encounters.

  • In addition to confirming 5 previously conceived features, we empirically identified 7 additional features of management reasoning (Table 1).
  • We highlighted the importance of illness-specific and process knowledge and identified 5 features of management scripts (content, sequence, flexibility, fluency, and generality).
  • We developed an empirical model of management reasoning composed of 4 steps of temporal evolution (script instantiation, identifying options and teaching patients, shared decision making, and ongoing monitoring and adjustment) and overarching features of personalization and occurrence between individuals.

제한 사항
Limitations

이 연구에는 한계가 있습니다.

  • 첫째, 관찰한 비디오는 사실적으로 제작되었지만 실제 임상의와 환자 간의 상호 작용이 아닙니다. 동영상은 원래 평가자 교육 연구를 위해 설계된 성인 외래 환자 1차 진료의 5개 질병으로 제한되었으며,14,15 최고 및 최악의 성과를 대표하도록 선택되었습니다. 10개의 비디오는 관리 추론 사례와 맥락의 제한된 샘플을 구성합니다. 따라서 본 연구 결과는 임상의가 모든 상황(예: 입원 환자, 전문의 또는 시술 환경)에서 관리에 대해 어떻게 추론하는지에 대한 표준적인 설명으로 해석될 수 없습니다.
  • 둘째, 이번 연구 결과는 관찰 가능한 행동을 기반으로 합니다. 관찰된 행동은 다양한 원인에 의해 나타날 수 있습니다(예: 모호한 치료 계획은 불충분한 지식, 잘못된 추론 또는 잘못된 의사소통을 반영할 수 있음).
  • 셋째, 저희는 이 연구에서 지침 개념 프레임워크 2의 개발자이면서 관찰자 및 분석자이기도 했으므로 확증 편향의 위험이 있습니다. 여섯 개의 비디오는 우리 중 한 명(박사)이 개발했으며, 이는 관찰의 객관성에 영향을 미칠 수 있습니다. 그러나 이러한 동영상 사례는 정해진 대본에 따르지 않고 즉흥적으로 제작되었으며 13년 전에 제작되었기 때문에 이러한 친숙도가 연구 결과에 큰 영향을 미치지는 않을 것으로 보입니다.

This study has limitations.

  • First, the videos we observed were developed to be realistic, but they were not actual clinician–patient interactions. The videos were limited to 5 illnesses in adult outpatient primary care, originally designed for a study of rater training, 14,15 and selected to represent the best and worst performances. Ten videos constitute a limited sample of management reasoning instances and contexts. Our findings thus cannot be construed as canonical descriptions of how clinicians reason about management in all situations (e.g., inpatient, specialist, or procedural settings).
  • Second, our findings are based on observable behaviors. We can speculate about but cannot confirm underlying cognitive processes; indeed, a given observed behavior could emerge from a variety of etiologies (e.g., a vague care plan could reflect inadequate knowledge, poor reasoning, or poor communication).
  • Third, we were both the developers of the guiding conceptual framework 2 and the observers and analyzers in this study; therefore, there is some risk of confirmatory bias. Six videos were developed by one of us (D.A.C.), which could further influence the objectivity of observations. However, these video cases were extemporaneous (rather than adhering to a defined script) and moreover were created 13 years previously; therefore, it seems unlikely that this level of familiarity would significantly affect our findings.

이전 작업과의 통합
Integration with prior work

우리의 연구는 진단을 용이하게 하는 질병(질환, 병리학적 결함, 증상 및 징후)에 대한 지식 표현인 질병 스크립트에 대한 광범위한 문헌을 보완합니다. 17,19 이에 비해 관리 스크립트는 진단 검사, 치료, 상담, 환자 교육, 공유 의사 결정 및 모니터링과 같은 옵션과 임상의 업무를 연결하는 관리 계획 개발 경로에 대한 지식 표현입니다. 최근에 제안된 관리 스크립트 모델 중 하나는 시간적 진화를 강조했지만8 경험적 데이터에 기반하지 않고 임상의 내부의 활동(추론 및 의사 결정)에 초점을 맞추었습니다. 경험적 관찰에 기반한 저희 모델은 임상의, 환자 및 기타 의료진 구성원을 포함하며, [대인 커뮤니케이션]과 [공유 의사 결정]을 관리 스크립트의 핵심 기능으로 강조합니다. 
Our work complements the extensive literature on illness scripts, which are knowledge representations of an illness (enabling conditions, pathological faults, and symptoms and signs) that facilitate diagnosis. 17,19 By contrast, management scripts are knowledge representations of the path to development of a management plan, linking options and clinician tasks, such as diagnostic tests, treatments, consultations, patient education, shared decision making, and monitoring. One recently proposed model of management scripts highlighted their temporal evolution 8 but was not based on empirical data and focused on activities (reasoning and decisions) within the clinician. Our model, grounded in empirical observations, includes clinicians, patients, and other members of the health care team, and highlights interpersonal communication and shared decision making as central features of the management script.

임상 추론의 한 모델에서는 11가지 관리 과제를 확인했습니다. 12,13 이 모든 것이 동적 상호 작용, 선호도 및 제약 조건의 우선순위 지정, 공유 의사 결정 및 모니터링이라는 특징 하에 우리 모델 안에 포함됩니다. 스크립트, 영업사원 역할, 임상의-환자 관계, 예후 및 조직과 같은 다른 기능도 고유합니다.
One model of clinical reasoning identified 11 management tasks. 12,13 All these are encompassed in our model under the features of dynamic interplay, prioritization of preferences and constraints, shared decision making, and monitoring. Other features in our model (such as scripts, salesperson role, clinician–patient relationship, prognostication, and organization) are unique.

또한 저희의 관리 추론 모델은 의료 의사 결정의 수학적 모델에 관한 방대한 문헌(예: 의사 결정 분석, 20-22 분석 계층 구조 프로세스, 23 관리 임계값, 24 및 선택의 경제 모델 25-27)을 보완합니다. 이러한 모델은 불확실성, 감정, 다양한 발생 확률 또는 시기, 경쟁하는 우선순위 등의 맥락에서 의사 결정에 관한 중요한 원칙을 설명해 왔습니다. 일반적인 수준에서 이러한 수학적 모델과 트위터의 경영 추론 모델에는 목표 정의, 옵션 식별, 혜택, 위험, 선호도에 따른 옵션 평가의 단계가 모두 포함되어 있다는 점에서 어느 정도 유사성이 있음을 인정할 수 있습니다. 그러나 수학적 모델은 이론을 발전시키거나 관리 지침 또는 의사결정 보조자료를 준비하는 등 연구 또는 배후에서 28 가장 유용해 보이는 반면, 트위터의 경영추론 모델은 병상에서의 상호작용을 강조합니다. 우리는 의사결정 모델과 관리 추론이 상호 근거를 마련하고, 입증하고, 서로를 조명할 수 있을 것으로 기대합니다. 
Our model of management reasoning also complements the vast literature on mathematical models of medical decision making (such as decision analysis, 20–22 the analytical hierarchy process, 23 management thresholds, 24 and economic models of choice 25–27). Such models have elucidated important principles regarding decisions in the context of uncertainty, emotion, varying probability or timing of occurrence, and competing priorities. At a general level, we acknowledge some similarity between these mathematical models and our model of management reasoning as both have stages of goal definition; identification of options; and evaluation of options based on benefits, risks, and preferences. However, mathematical models seem most useful in research or behind the scenes 28 (e.g., advancing theory or preparing management guidelines or decision aids), whereas our model of management reasoning emphasizes interactions at the bedside. We envision that decision-making models and management reasoning could mutually ground, substantiate, and illuminate one another.

시사점
Implications

이전의 개념적 모델을 바탕으로1,2 우리는 관리 추론의 7가지 새로운 특징을 확인했습니다(표 1). [관리 스크립트의 중심 역할]과 [질병 특이적 지식] 및 [프로세스 지식]의 중요성은 이 모델에 특히 두드러지게 추가된 사항입니다. 또한 관리 추론의 시간적 진화를 개괄하는 개념적 모델을 제안하고(그림 1) 진단 추론과 관리 추론의 구분을 더 명확하고 정교하게 만들었습니다(표 1). [임상의와 환자의 관계 구축] 및 [인카운터의 조직화]와 같은 일부 기능은 추론과 무관해 보일 수 있지만, 이러한 활동은 임상의가 말이나 행동에 대한 선택을 요구하며, 이는 결국 인지(추론) 과정을 의미합니다.
Building on our prior conceptual model, 1,2 we have identified 7 new features of management reasoning (Table 1). The central role of the management script and the importance of both illness-specific and process knowledge are particularly salient additions to this model. We have also proposed a conceptual model outlining the temporal evolution of management reasoning (Figure 1) and sharpened and elaborated the distinctions between diagnostic and management reasoning (Table 1). Some features, such as building the clinician–patient relationship and organization of the encounter, may appear unrelated to reasoning; however, such activities require clinicians to make choices about their words or actions, which in turn implies a cognitive (reasoning) process.

이러한 관찰 결과는 [관리 추론]을 [대인 상호작용(협상)]으로 개념화한 이전의 연구 결과를 입증합니다. 1,2 이 발견은 진단 추론에 대한 많은 연구에서 진단에 통합된 일련의 정보에서 개별 환자를 제외하는 경우가 많은 것과는 상당히 대조적입니다. 임상의는 정보(예: 진단, 환자 선호도, 시스템 제약)를 수집하고, 협상하고, 가르치고, 안내하고, 동기를 부여/판매하면서 최종 계획을 '추론'해야 합니다. 이러한 활동은 [한 명의 의료진 내부]에서만 이루어지는 것이 아니라 [의료진, 환자 및 다른 사람들 사이의 공간]에서 이루어집니다. 이러한 관찰은 앞서 자세히 설명한 바와 같이 의료 전문가의 교육 및 평가에 이론적, 실제적 의미를 지니고 있습니다29,30. 1
Our observations substantiate our previous conceptualization of management reasoning as an interpersonal interaction (negotiation). 1,2 This finding is in considerable contrast to many studies of diagnostic reasoning, which often remove the individual patient from the array of information incorporated into a diagnosis. Clinicians must gather information (e.g., diagnosis, patient preferences, system constraints), negotiate, teach, guide, and motivate/sell as they “reason” their way to a final plan. These activities occur in the space between clinician, patient, and others—not exclusively within the clinician. This observation has both theoretical and practical implications for the education and assessment of health professionals, 29,30 as we have previously elaborated. 1

이러한 특징과 모델은 교육에 대한 추가적인 시사점을 제공합니다.

  • 첫째, 관리 추론에서 관리 스크립트의 지배적인 역할은 이러한 [인지적 표상을 배양하는 데 집중해야 할 필요성]을 시사합니다. 또한 관리 스크립트 자체는 의료 전문가를 교육하는 데 유용한 도구가 될 수 있는데, 예를 들어 임상의가 환자 사례에 대한 접근 방식에 대해 "소리 내어 생각"할 때 유용할 수 있습니다. 17
  • 둘째, '일을 처리하는 방법'에 대한 실용적인 지식이 의료진에게 유용한 기술이라는 사실은 오랫동안 인정되어 왔지만, 이제는 [과정 지식도 관리 추론(즉, 임상의와 환자 간 협상의 일부)에서 중요한 역할]을 한다는 것을 인식하고 있습니다. 과정 지식은 환자 중심 교육, 세일즈맨십(수사학 분야와 설득에 대한 통찰력 31에서 차용한 것일 수 있음), 신뢰 형성, 예후 예측과 같은 기술과 함께 의료 전문가 교육 및 평가에서 보다 전략적으로 강조할 가치가 있습니다.
  • 셋째, 우리의 연구 결과는 관리(진단) 추론에 대해 고유하거나 다른 빈도로 요구되는 기술의 개발 및 평가와 관련하여 이전에 제안된 시사점을 경험적으로 확인합니다. 1

These features and model have additional implications for education.

  • First, the management script’s dominant role in management reasoning suggests the need to focus on cultivating these cognitive representations. The management script itself may also serve as a useful tool for teaching health professionals, such as when master clinicians “think aloud” about their approach to a patient case. 17 
  • Second, although it has long been accepted that practical knowledge of how to “get things done” is a useful skill for practitioners, we now recognize that process knowledge also plays a crucial role in management reasoning (i.e., as part of the clinician–patient negotiation). Process knowledge, along with skills such as patient-directed teaching, salesmanship (perhaps borrowing from the field of rhetoric and its insights on persuasion 31), engendering trust, and prognostication, may merit more strategic emphasis in the education and assessment of health professionals.
  • Third, our findings empirically confirm previously proposed implications regarding the development and assessment of skills that are likely unique or required with different frequencies for management (vs diagnostic) reasoning. 1

또한 임상 실무에 대한 시사점도 확인했습니다. 임상의의 일상 업무를 지원하기 위해 수많은 도구가 개발되었습니다. 관리 추론의 주요 특징과 해당 모델은 진료 수요를 충족하는 데 있어 이러한 도구의 관련성과 포괄성을 체계적으로 평가하는 데 도움이 됩니다.

  • 예를 들어,
    • [진료 지침]과 [컴퓨터 기반 지식 리소스]는 [질병 특이적 지식] 문제를 다루고,
    • [치료 경로와 프로토콜]은 치료의 [프로세스 지식]을 다루며,
    • [의사 결정 보조 도구]는 [공유 의사 결정]을 돕고,
    • [기타 컴퓨터 도구]는 [모니터링과 후속 조치]를 지원할 수 있습니다.
  • 반대로 역동적인 상호 작용, 세일즈맨십, 임상의와 환자의 관계, 진료 조직, 스크립트 개발을 지원하는 도구는 덜 보편화되어 있습니다.

We also recognize implications for clinical practice. Numerous tools have been developed to support clinicians in their daily routine. The key features and corresponding model of management reasoning facilitate an organized appraisal of the relevance and comprehensiveness of such tools in meeting practice demands.

  • For example,
    • practice guidelines and computer-based knowledge resources address issues of illness-specific knowledge;
    • care pathways and protocols address process knowledge;
    • decision aids help shared decision making; and
    • other computer tools can support monitoring and follow-up.
  • Conversely, tools to support dynamic interplay, salesmanship, clinician–patient relationships, encounter organization, and script development are less prevalent.

마지막으로, 경험적 데이터에 기반을 두고 있지만, 이번 연구 결과는 아직 잠정적이고 다소 개념적인 수준에 머물러 있으므로 추가 연구가 필요합니다. 

  • 먼저, 관리 스크립트의 역할과 개발을 이해하기 위한 이론적 및 실증적 연구를 제안합니다: 스크립트는 어떻게 활성화, 선택, 인스턴스화되나요? 18 한 스크립트가 다른 스크립트에 대한 헤게모니를 확보하는 방법은 무엇인가요? 어떤 스크립트 기능이 필수적이며, 추론 작업을 간소화하기 위해 (적어도 교육 초기에는) 어떤 기능을 할인할 수 있을까요? 이번 연구 결과는 일반적인 프레임워크("나쁜 소식 속보")를 반영하는 메타 스크립트, 특정 질병에 초점을 맞춘 기본 스크립트, 환자 또는 상황에 맞게 조정된 하위 스크립트로 구성된 가능한 스크립트 계층 구조를 제안하며, 이러한 제안은 확인과 정교화가 필요합니다.
  • 둘째, 입원 환자 진료, 종단적(반복적) 상호작용, 비대면 진료(전화 통화, 전자 통신, 환자의 개입 없이 의료 기록 검토), 다른 의료진과의 상호작용 등 다양한 환경에서 관리 추론이 어떻게 나타나는지 살펴보는 추가 연구를 제안합니다. 다양한 경력을 가진 임상의(예: 학생, 대학원 수련의, 일반의, 전문의)를 대조하는 연구도 통찰력을 얻을 수 있습니다.
  • 셋째, 이 연구에서는 인종, 민족, 성별이 임상의와 환자 간의 상호작용에 어떤 영향을 미치는지 조사하지 못했습니다. 이러한 특징과 기타 특징을 의도적으로 탐구한다면 관리 추론에 대한 이해를 높이고 잠재적인 관리 불균형을 완화하는 데 도움이 될 것입니다.
  • 넷째, 많은 관리 추론이 임상의 내부가 아닌 개인 간의 공간에서 발생한다는 주장을 검증하는 연구가 필요합니다.
  • 다섯째, 저희처럼 관찰 가능한 행동에 국한하지 않고 실제 인지 과정을 조명할 수 있는 새로운 연구 방법의 적용을 권장합니다.

Finally, although grounded in empirical data, our findings remain tentative and somewhat conceptual and thus demand further research.

  • First, we propose theoretical and empirical work to understand the role and development of management scripts: How are scripts activated, selected, and instantiated? 18 How does one script gain hegemony over another? What script features are essential, and what features could be discounted (at least early in training) to simplify the reasoning task? Our findings suggest a possible script hierarchy, with meta-scripts reflecting general frameworks (“breaking bad news”), primary scripts focusing on a given illness, and subscripts being tailored to the patient or context; this suggestion warrants confirmation and elaboration.
  • Second, we suggest further research exploring how management reasoning manifests in different settings, such as inpatient care, longitudinal (repeated) interactions, non–face-to-face care (telephone calls, electronic communication, and review of medical records without patient involvement), and interactions with other health care team members. Research contrasting clinicians of varying experience (e.g., students, postgraduate trainees, generalists, specialists) would also be insightful.
  • Third, this study could not examine how race, ethnicity, or gender influences clinician–patient interactions; intentionally exploring these and other features would enhance our understanding of management reasoning and help mitigate potential management disparities.
  • Fourth, we need research that examines our claim that much management reasoning occurs in the space between individuals vs within the clinician.
  • Fifth, we encourage application of novel research methods permitting illumination of actual cognitive processes rather than restricting to observable behaviors as we did.

 


Acad Med. 2023 Jan 1;98(1):80-87. doi: 10.1097/ACM.0000000000004810. Epub 2022 Dec 22.

Management Reasoning: Empirical Determination of Key Features and a Conceptual Model

Affiliations collapse

Affiliations

1D.A. Cook is professor of medicine and professor of medical education, director of education science, Office of Applied Scholarship and Education Science, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine and Science, Rochester, Minnesota; ORCID: https://orcid.org/0000-0003-2383-4633 .

2C.R. Stephenson is assistant professor of medicine and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine and Science, Rochester, Minnesota; ORCID: https://orcid.org/0000-0001-8537-392X .

3L.D. Gruppen is professor, Department of Learning Health Sciences, and director, Master in Health Professions Education Program, University of Michigan, Ann Arbor, Michigan; ORCID: https://orcid.org/0000-0002-2107-0126 .

4S.J. Durning is professor and vice chair, Department of Medicine, and director, Center for Health Professions Education, Uniformed Services University of the Health Sciences, Bethesda, Maryland; ORCID: https://orcid.org/0000-0001-5223-1597 .

PMID: 35830267

DOI: 10.1097/ACM.0000000000004810

Abstract

Purpose: Management reasoning is a critical yet understudied phenomenon in clinical practice and medical education. The authors sought to empirically identify key features of management reasoning and construct a model describing the management reasoning process.

Method: In November 2020, 4 investigators each reviewed 10 video clips of simulated outpatient physician-patient encounters and used a coding form to document key features and insights related to management reasoning. The team used a constant comparative approach to distill 120 pages of raw observations into an 18-page list of management tasks, processes, and insights. The team then had a series of discussions to iteratively refine these findings into a parsimonious model of management reasoning.

Results: The investigators empirically identified 12 distinct features of management reasoning: contrasting and selection among multiple solutions; prioritization of patient, clinician, and system preferences and constraints; communication and shared decision making; ongoing monitoring and adjustment of the management plan; dynamic interplay among people, systems, and competing priorities; illness-specific knowledge; process knowledge; management scripts; clinician roles as patient teacher and salesperson; clinician-patient relationship; prognostication; and organization of the clinical encounter (sequencing and time management). Management scripts seemed to play a prominent and critical role. The model of management reasoning comprised 4 steps: instantiation of a management script, identifying (multiple) options and beginning to teach the patient, shared decision making, and ongoing monitoring and adjustment. This model also conceives 2 overarching features: that management reasoning is personalized to the patient and that it occurs between individuals rather than exclusively within the clinician's mind.

Conclusions: Management scripts constitute a key feature of management reasoning, along with teaching patients about viable options, shared decision making, ongoing monitoring and adjustment, and personalization. Management reasoning seems to be constructed and negotiated between individuals rather than exclusively within the clinician.

질적 연구에서 주제 포화를 평가하고 보고하는 단순한 방법(PLOS ONE, 2020)
A simple method to assess and report thematic saturation in qualitative research
Greg Guest1, Emily NameyID2*, Mario Chen2

소개
Introduction

데이터 포화는 질적 표본 크기를 추정하고 평가하기 위한 개념적 척도입니다. 지난 20년 동안 학자들은 경험적 연구를 수행하고 특정 연구의 포화 상태에 도달하는 데 필요한 질적 인터뷰 수를 추정하기 위해 고안된 수학적/통계적 모델을 개발해 왔습니다. 이러한 연구는 질적 연구의 설계 단계에서 표본 크기 추정을 위한 근거 기반을 발전시켰지만, 데이터 수집 중 및/또는 수집 후에 포화와 표본 크기의 적절성을 결정하는 방법을 제공하지는 않습니다. 모스가 20여 년 전에 지적했듯이, "포화는 엄격성의 중요한 요소입니다. 이는 모든 질적 연구에 존재하지만, 안타깝게도 주로 선언을 통해 드러납니다."[1]. 이 백서에서는 질적 연구자가 단순한 선언을 넘어 포화에 대해 이야기하고 이에 대한 증거를 제시할 수 있도록 포화를 평가하고 보고하는 방법을 제시합니다. 
Data saturation is the conceptual yardstick for estimating and assessing qualitative sample sizes. During the past two decades, scholars have conducted empirical research and developed mathematical/statistical models designed to estimate the likely number of qualitative interviews needed to reach saturation for a given study. Although this body of work has advanced the evidence base for sample size estimation during the design phase of a qualitative study, it does not provide a method to determine saturation, and the adequacy of sample sizes, during and/or after data collection. As Morse pointed out more than 20 years ago, “saturation is an important component of rigor. It is present in all qualitative research but, unfortunately, it is evident mainly by declaration” [1]. In this paper we present a method to assess and report on saturation that enables qualitative researchers to speak about--and provide some evidence for--saturation that goes beyond simple declaration.

이 접근법의 토대를 제공하기 위해 포화를 정의한 다음, 포화와 심층 인터뷰를 위한 표본 크기를 추정하는 지금까지의 작업을 검토합니다. 그 다음에는 포화를 운영 및 측정하기 위해 제시된 몇 가지 경험적 기반 방법에 대한 개요를 살펴보고 이러한 접근법을 실제 연구 맥락, 특히 귀납적 주제 분석을 사용하는 연구 맥락에 적용하는 데 따르는 어려움을 파악합니다. 그 후, 우리는 포화를 평가하는 대안적인 방법을 제안하고 귀납적 주제 분석 중 또는 분석 후에 포화를 평가하고 보고하는 비교적 사용하기 쉬운 방법을 제공합니다. 우리는 뚜렷하게 다른 세 가지 정성적 데이터 세트에 대해 부트스트래핑 기법을 사용하여 우리의 방법을 테스트하고 검증합니다. 
To provide the foundation for this approach, we define saturation and then review the work to date on estimating saturation and sample sizes for in-depth interviews. We follow this with an overview of the few empirically-based methods that have been put forward to operationalize and measure saturation and identify challenges of applying these approaches to real-life research contexts, particularly those that use inductive thematic analyses. We subsequently propose an alternative way of evaluating saturation and offer a relatively easy-to-use method of assessing and reporting on it during or after an inductive thematic analysis. We test and validate our method using a bootstrapping technique on three distinctly different qualitative datasets.

우리가 제안하는 방법은 내러티브를 생성하는 것을 목표로 하는 정성적 데이터 수집 기법, 즉 귀납적 프로빙과 함께 개방형 질문을 사용하는 포커스 그룹 및 일대일 인터뷰를 위해 설계되었습니다(개별 인터뷰 데이터에 대해서만 이 방법을 검증하려고 시도했지만). 또한 귀납적 주제 분석[2-4]을 사용하여 데이터에서 새로운 주제를 발견한 다음 코드로 변환하는 상황에도 이 방법을 구체적으로 적용할 수 있습니다.
The method we propose is designed for qualitative data collection techniques that aim to generate narratives–i.e., focus groups and one-on-one interviews that use open-ended questioning with inductive probing (though we have only attempted to validate the method on individual interview data). Our method also specifically applies to contexts in which an inductive thematic analysis [24] is used, where emergent themes are discovered in the data and then transformed into codes.

포화 및 질적 표본 크기 추정의 간략한 역사
A brief history of saturation and qualitative sample size estimation

질적 인터뷰는 몇 번이면 충분할까요? 지난 50여 년 동안 학계 전반에서 이 질문에 대한 답은 대개 포화 상태에 도달하는 것을 중심으로 이루어졌습니다[1, 5-9]. 포화라는 개념은 1967년 글레이저와 스트라우스가 저서 '근거 이론의 발견'에서 '이론적 포화'라는 이름으로 질적 연구 분야에 처음 도입했습니다[10]. 그들은 이 용어를 ["[연구자가] 범주의 속성을 개발할 수 있는 추가 데이터가 발견되지 않는 시점"]으로 정의했습니다(61페이지). 이 정의는 질적 데이터를 사용하여 이론적 모델을 구축하고 테스트하는 관행을 위해 특별히 고안되었으며, [개발 중인 이론적 모델이 안정화되는 시점]을 의미합니다. 그러나 많은 질적 데이터 분석은 특정 근거 이론 방법을 사용하지 않고 보다 [일반적인 귀납적 주제 분석]을 사용합니다. 시간이 지남에 따라 '데이터 포화'라는 용어와 개념의 광범위한 적용을 반영하기 위해 더 넓은 의미의 '데이터 포화'라는 용어가 점점 더 많이 채택되고 있습니다. 이러한 넓은 의미에서 포화 상태는 종종 [데이터 수집 및 분석]에서 [새로 들어오는 데이터가 연구 질문에 대한 새로운 정보를 거의 또는 전혀 생성하지 못하는 시점]으로 설명됩니다[4, 9, 11-13].
How many qualitative interviews are enough? Across academic disciplines, and for about the past five decades, the answer to this question has usually revolved around reaching saturation [1, 59]. The concept of saturation was first introduced into the field of qualitative research as “theoretical saturation” by Glaser and Strauss in their 1967 book The Discovery of Grounded Theory [10]. They defined the term as the point at which “no additional data are being found whereby the [researcher] can develop properties of the category” (pg. 61). Their definition was specifically intended for the practice of building and testing theoretical models using qualitative data and refers to the point at which the theoretical model being developed stabilizes. Many qualitative data analyses, however, do not use the specific grounded theory method, but rather a more general inductive thematic analysis. Over time, the broader term “data saturation” has become increasingly adopted, to reflect a wider application of the term and concept. In this broader sense, saturation is often described as the point in data collection and analysis when new incoming data produces little or no new information to address the research question [4, 9, 1113].

흥미롭게도 포화 상태에 대한 경험적 연구는 포화 상태에 도달할 것으로 예상되는 시점을 결정하기 위한 노력에서 시작되었습니다. "포화 상태가 될 때까지 인터뷰"가 모범 사례로 인식되었지만, 표본 크기에 대한 충분한 설명은 아니었습니다. 대부분의 연구 맥락에서, 연구 수행 전에 자금 지원자, 윤리 위원회 및 기타 검토자가 표본 규모를 명시하고 정당성을 입증해야 합니다[14, 15]. 응용 질적 연구자들은 다음과 같은 질문에 직면했습니다: 현장에 들어가기 전에 얼마나 많은 인터뷰가 필요할지 어떻게 예측할 수 있을까요?
Interestingly, empirical research on saturation began with efforts to determine when one might expect it to be reached. Though “interviewing until saturation” was recognized as a best practice, it was not a sufficient description of sample size. In most research contexts, sample size specification and justification is required by funders, ethics committees, and other reviewers before a study is implemented [14, 15]. Applied qualitative researchers faced the question: How do I estimate how many interviews I’ll need before I head into the field?

이 문제를 해결하기 위한 경험적 연구는 2000년대 초부터 문헌에 등장하기 시작했습니다.

  • Morgan 등[16]은 환경 위험에 대해 수집된 데이터를 사용하여 선구적인 방법론 연구를 수행했습니다. 그들은 처음 5~6개의 인터뷰가 데이터 세트에서 대부분의 새로운 정보를 생성했으며, 표본 크기가 20개에 가까워질수록 새로운 정보를 거의 얻지 못한다는 사실을 발견했습니다. 4개의 데이터 세트에서 데이터 세트 내에서 확인된 모든 개념의 약 80%~92%가 처음 10번의 인터뷰에서 발견되었습니다.
  • 마찬가지로 Guest 등[9]은 서아프리카의 여성 성 노동자들을 대상으로 60건의 심층 인터뷰에 대한 단계적 귀납적 주제 분석을 수행한 결과, 114개의 식별된 주제 중 70%가 처음 6건의 인터뷰에서 나타났으며 92%가 처음 12건의 인터뷰에서 확인되었다는 사실을 발견했습니다.
  • 프란시스(Francis) 연구팀과 네이미(Namey) 연구팀[17, 18]의 후속 연구에서도 비슷한 결과가 보고되었습니다.
  • 이러한 초기 연구를 바탕으로 Hagaman과 Wutich[19]는 교차 문화 연구 내에서 포화를 계산한 결과, 4개 사이트 각각에서 데이터 포화에 도달하기 위해서는 16개 미만의 인터뷰만으로도 충분하지만, 사이트 간 교차 문화 메타 주제를 식별하려면 20~40개의 인터뷰가 필요하다는 사실을 발견했습니다.

Empirical research to address this issue began appearing in the literature in the early 2000s.

  • Morgan et al. [16] conducted a pioneer methodological study using data collected on environmental risks. They found that the first five to six interviews produced the majority of new information in the dataset, and that little new information was gained as the sample size approached 20 interviews. Across four datasets, approximately 80% to 92% of all concepts identified within the dataset were noted within the first 10 interviews.
  • Similarly, Guest et al. [9] conducted a stepwise inductive thematic analysis of 60 in-depth interviews among female sex workers in West Africa and discovered that 70% of all 114 identified themes turned up in the first six interviews, and 92% were identified within the first 12 interviews.
  • Subsequent studies by Francis et al. and Namey et al. [1718] reported similar findings.
  • Building on these earlier studies, Hagaman and Wutich [19] calculated saturation within a cross-cultural study and found that fewer than 16 interviews were enough to reach data saturation at each of the four sites but that 20–40 interviews were necessary to identify cross-cultural meta-themes across sites.

 

Galvin[20]은 메타 분석적 접근 방식을 사용하여 이항 논리를 사용하여 54개의 질적 연구를 검토하고 통계적으로 분석했습니다. 그는 6명의 개인 표본에서 특정 개념(주제)을 식별할 확률이 더 큰 연구 집단의 55%에서 해당 개념을 공유할 경우 99%보다 높다는 것을 발견했습니다.

  • 이와 동일한 논리를 사용하여 Fugard와 Potts[21]는 정성적 데이터의 주제별 분석에 필요한 표본 크기를 추정하는 [정량적 도구]를 개발했습니다. 이 계산에는 (1) 모집단 내에서 주제의 예상 유병률, (2) 해당 주제의 원하는 인스턴스 수, (3) 연구에 필요한 검정력 등이 포함됩니다. 예를 들어, 이 도구는 모집단에서 유병률이 10%인 테마의 인스턴스 2개를 감지할 수 있는 80%의 힘을 가지려면 29명의 참가자가 필요하다고 추정합니다. 이 모델은 무작위 표본을 가정한다는 점에 유의하세요.

Using a meta-analytic approach, Galvin [20] reviewed and statistically analyzed—using binomial logic—54 qualitative studies. He found the probability of identifying a concept (theme) among a sample of six individuals is greater than 99% if that concept is shared among 55% of the larger study population.

  • Employing this same logic, Fugard and Potts [21] developed a quantitative tool to estimate sample sizes needed for thematic analyses of qualitative data. Their calculation incorporates: (1) the estimated prevalence of a theme within the population, (2) the number of desired instances of that theme, and (3) the desired power for a study. Their tool estimates, for example, that to have 80% power to detect two instances of a theme with a 10% prevalence in a population, 29 participants would be required. Note that their model assumes a random sample.

위의 연구는 정성적 표본 크기 추정 분야의 기초가 되는 연구입니다. 이 연구들은 특정 연구에 필요한 정성적 인터뷰의 수를 추정하기 위한 경험적 기반 지침을 제공하며, 정량적 연구 설계의 검정력 계산과 유사한 역할을 합니다(물론 수학이나 정밀도가 떨어지는 경우도 있지만). 그리고 파워 계산과 마찬가지로, 데이터 수집이 시작되면 이 추정치도 논란의 여지가 있습니다. 추정치는 특정 연구의 다양한 요소에 관한 (지정된) 가정과 기대치를 기반으로 합니다. 모든 연구자가 알다시피, 현실은 종종 놀라움을 선사합니다. 연구에 특정 매개변수(정량적)가 적용되거나 경험적 지침에 따라 표본 크기가 정해져 있을 수 있지만(정성적), 데이터 수집이 완료된 후에는 결과 데이터가 어느 쪽에도 부합하지 않을 수 있습니다.
The above studies are foundational in the field of qualitative sample size estimation. They provide empirically-based guidance for approximating how many qualitative interviews might be needed for a given study and serve a role analogous to power calculations in quantitative research design (albeit in some case without the math and degree of precision). And, like power calculations, they are moot once data collection begins. Estimates are based on (specified) assumptions, and expectations regarding various elements in a particular study. As all researchers know, reality often presents surprises. Though a study may be powered to certain parameters (quantitative) or have a sample size based on empirical guidance (qualitative), after data collection is completed the resulting data may not conform to either.

당연히 연구자들은 최근 데이터 포화에 대해 추정을 넘어서는 두 가지 후속 질문을 하기 시작했습니다:

  • 포화 개념을 더 잘 조작화하려면 어떻게 해야 할까요? 그리고
  • 포화에 도달했는지 어떻게 알 수 있을까요?

Not surprisingly, researchers have recently begun asking two follow up questions about data saturation that go beyond estimation: 

  • How can we better operationalize the concept of saturation? and 
  • How do we know if we have reached saturation?

포화 조작화 및 평가
Operationalizing and assessing saturation

정성적 연구에서 포화에 대한 경험적 연구의 범위와 포화를 다루는 데이터 기반 연구에서 사용되는 운영 및 평가 메트릭에 대한 자세한 내용은 표 1에 요약되어 있습니다. 포화 평가에 대한 접근 방식의 개발을 위해 이러한 연구들을 검토하면서, 포화 평가 프로세스의 광범위한 적용에 대한 세 가지 한계를 확인했으며, 이를 극복하고자 했습니다.

  • 메트릭의 비교 가능성 부족,
  • 확률 이론 또는 무작위 샘플링에 대한 의존,
  • 완전히 코딩/분석된 데이터 세트에 의존하는 후향적 평가의 한계

대안적인 접근 방식을 소개하기 전에 각 한계에 대해 간략히 설명합니다.
The range of empirical work on saturation in qualitative research and detail on the operationalization and assessment metrics used in data-driven studies that address saturation are summarized in Table 1. In reviewing these studies to inform the development of our approach to assessing saturation, we identified three limitations to the broad application of saturation assessment processes which we sought to overcome:

  • lack of comparability of metrics,
  • reliance on probability theory or random sampling, and
  • retrospective assessment dependent on having a fully coded/analyzed dataset.

We discuss each limitation briefly before introducing our alternative approach.

 

메트릭의 비교 가능성 부족.
Lack of comparability in metrics.

현재 포화에 대한 조작화 방식은 [포화에 도달했는지 여부를 이분법적으로 판단]하는 데 사용되는 [기준이 매우 다양]합니다(예: Francis 외. [17] 및 Coenen 외. [22]). 분석 단위와 포화 임계값의 엄격성 측면에서 접근 방식이 얼마나 다른지 고려할 때, 포화 상태에 도달했는지 여부에 대한 결론에 대해 어느 정도의 확신을 가져야 하는지 이해하기는 어렵습니다. 통계적 분석 방법을 사용하는 정량적 연구자가 신뢰 구간 수준과 보고할 기타 지표에 대한 옵션을 설정한 것과 달리, [정성적 연구자]가 [포화 결과의 강도를 해석하는 데 도움이 되는 합의된 지표]가 없습니다. 우리가 제안하는 방법은 정성적 연구자가 다양한 수준의 평가 기준 중에서 선택할 수 있도록 하며, 이러한 기준에 대한 공통된 설명과 함께 사용된 기준의 엄격성에 따라 독자가 포화에 관한 결론을 어느 정도 자신 있게 해석할 수 있도록 합니다.
Current operationalizations of saturation vary widely in the criteria used to arrive at a binary determination of saturation having been reached or not reached (e.g., Francis et al. [17] and Coenen et al. [22]). Given how different approaches are–in terms of units of analysis and strictness of saturation thresholds–it is difficult to understand how much confidence to have in a conclusion about whether saturation was reached or not. Unlike quantitative researchers using statistical analysis methods who have established options for levels of confidence intervals and other metrics to report, there are no agreed-upon metrics to help qualitative researchers interpret the strength of their saturation findings. The method we propose facilitates qualitative researchers’ choice among levels of assessment criteria along with a common description of those criteria that will allow readers to interpret conclusions regarding saturation with more or less confidence, depending on the strictness of the criteria used.

확률 이론 및/또는 무작위 표본 가정에 의존합니다.
Reliance on probability theory, and/or the assumption of a random sample.

포화 평가를 [확률론적 가정](예: Lowe 등 [26], Fugard & Potts [21], Galvin [20])에 근거하는 것은 대부분의 질적 연구가 질적 조사의 성격과 목적에 적합한 [비확률적이고 의도적인 표본 추출을 사용한다는 사실]을 무시하는 것입니다[28]. 무작위 표본 추출을 사용하는 경우에도 질적 조사의 개방형 특성은 응답 범주가 구조화되어 있지 않고 상호 배타적이지 않기 때문에 대규모 모집단에 대한 확률 이론이나 통계적 추론에 적합하지 않습니다. 주제 A의 표현이 반드시 주제 B를 배제하는 것은 아니며, 주제 A의 표현이 없다고 해서 반드시 Not-A를 의미하는 것도 아닙니다. 또한, 로지스틱스 관점에서 볼 때, 많은 질적 연구자들은 데이터 세트에 대해 복잡한 통계적 테스트를 수행할 전문 지식이나 시간이 없습니다. 우리의 접근 방식은 단순한 산술과 백분율 계산만 포함합니다.
Basing assessments of saturation on probabilistic assumptions (e.g., Lowe et al. [26], Fugard & Potts [21], Galvin [20]) ignores the fact that most qualitative research employs non-probabilistic, purposive sampling suited to the nature and objectives of qualitative inquiry [28]. Even in cases where random sampling is employed, the open-ended nature of qualitative inquiry doesn’t lend itself well to probability theory or statistical inference to a larger population because response categories are not structured, so are not mutually exclusive. The expression of Theme A is not necessarily to the exclusion of Theme B, nor does the absence of the expression of Theme A necessarily indicate Not-A. Further, from a logistical standpoint, many qualitative researchers do not have the expertise, nor the time required, to perform complicated statistical tests on their datasets. Our approach involves only simple arithmetic and calculation of percentages.

후향적 평가는 완전히 코딩/분석된 데이터 세트가 있어야 합니다.
Retrospective assessment dependent on having a fully coded/analyzed dataset.

데이터 세트의 [전체 테마 수] 대비 [새로운 테마]의 비율을 기준으로 포화를 계산하는 방법(예: Guest 외. [9], Hennink 외. [23])은 수행된 총 인터뷰 수에 의해 제한됩니다. [분모]는 완전히 분석된 데이터 세트의 총 테마 수를 나타내며 고정되어 있는 반면 [분자의 테마 수]는 새로운 인터뷰를 고려할 때마다 분모에 가까워져 결국 100% 포화에 도달하게 됩니다. 후향적으로 평가되고 완전히 분석된 고정된 크기의 데이터 세트에서는 [필연적으로 포화 상태가 발생]합니다. 우리가 설명하는 방법은 전체 데이터 세트 대신 분모에 데이터 항목의 하위 집합을 사용함으로써 이 문제를 해결하여 포화를 보다 전향적으로 평가하고 연구자가 미리 지정한 인터뷰 횟수에 도달하기 전에 중단할 수 있는 이점을 제공합니다. (그러나 이 접근 방식에서는 저자들이 정의한 포화 비율을 측정할 수 없습니다.) 
Methods that calculate saturation based on the proportion of new themes relative to the overall number of themes in a dataset (e.g., Guest et al. [9], Hennink et al. [23]) are limited by the total number of interviews conducted: the denominator represents the total number of themes in the fully-analyzed dataset and is fixed, while the number of themes in the numerator gets closer to the denominator with every new interview considered, thus eventually reaching 100% saturation. Saturation will inevitably occur in a retrospectively-assessed, fully-analyzed, fixed-size dataset. The method we outline eliminates this problem by using a subset of data items in the denominator instead of the entire dataset, facilitating better prospective assessment of saturation and offering the advantage of allowing researchers to stop before reaching a pre-specified number of interviews. (Under our approach, however, a measure of percent saturation as defined by these authors will not be available.)

방법
Methods

포화 계산 및 보고에 대한 대안적 접근 방식 및 방법
An alternative approach and method to calculating and reporting saturation

평가의 목적상, [포화]는 데이터 분석 중 들어오는 데이터 포인트(인터뷰)가 연구 목표와 관련하여 새롭고 유용한 정보를 거의 또는 전혀 생성하지 않는 시점을 의미합니다. 이러한 포화의 정의를 운영하기 위한 우리의 접근 방식은 [기본 크기, 실행 길이, 들어오는 새로운 정보의 상대적 양 또는 새로운 정보 임계값]이라는 [세 가지 요소]로 구성됩니다.
For the purposes of our assessment, saturation refers to the point during data analysis at which incoming data points (interviews) produce little or no new useful information relative to the study objectives. Our approach to operationalizing this definition of saturation consists of three distinct elements–

  • the base size,
  • the run length, and
  • the relative amount of incoming new information, or the new information threshold.

 

기본 크기.
Base size.

포화를 평가할 때 [들어오는 정보]는 [이미 획득한 정보]와 비교하여 가중치를 부여합니다. [기본 크기]는 나중에 [분모]로 사용할 데이터 집합에서 이미 식별된 정보 본문을 어떻게 둘러싸는지를 나타냅니다(Francis 등의 초기 분석 샘플과 유사). 다시 말해, 이미 확보한 정보의 양을 계산하기 위해 검토/분석해야 하는 최소 데이터 수집 이벤트(예: 인터뷰)의 수는 얼마인가? 모든 데이터 수집 이벤트를 기본 크기로 사용하면 더 이상 고려할 데이터가 없기 때문에 기본적으로 포화 상태에 도달할 수 있다는 것을 알고 있습니다. 또한 이전 연구[9, 16, 29]에 따르면 정성적 데이터 세트에서 대부분의 새로운 정보는 프로세스 초기에 생성되며, 일반적으로 점근 곡선을 따르고, 소수의 데이터 수집/분석 이벤트 이후에는 새로운 정보가 상대적으로 급격히 감소한다는 사실도 알고 있습니다. 이러한 이유로 [포화 비율의 분모에 사용할 총 고유 테마 수]를 계산하기 위한 기본 크기로 4, 5, 6개의 인터뷰를 테스트하기로 선택했습니다. 기준 크기의 분석 단위는 데이터 수집 이벤트이며, 분석 항목은 테마를 나타내는 고유 코드입니다.
When assessing saturation, incoming information is weighed against the information already obtained. Base size refers to how we circumscribe the body of information already identified in a dataset to subsequently use as a denominator (similar to Francis et al.’s initial analysis sample). In other words, what is the minimum number of data collection events (i.e., interviews) we should review/analyze to calculate the amount of information already gained? We know that if we use all of the data collection events as our base size, we can reach saturation by default as there are no more data to consider. We also know from previous studies [9, 16, 29] that most novel information in a qualitative dataset is generated early in the process, and generally follows an asymptotic curve, with a relatively sharp decline in new information occurring after just a small number of data collection/analysis events. For this reason, we have chosen to test 4, 5, and 6 interviews as base sizes from which to calculate the total number of unique themes to be used in the denominator of the saturation ratio. The unit of analysis for base size is the data collection event; the items of analysis are unique codes representing themes.

실행 길이.
Run length.

[실행run]은 [연속적인 이벤트 또는 관찰(이 경우 인터뷰)의 집합]으로 정의할 수 있습니다. [실행 길이]는 [새로운 정보를 찾고 계산하는 인터뷰 횟수]입니다. 실행에서 발견된 [새로운 테마의 수]는 [포화 비율]의 [분자]를 정의합니다. 예를 들어, Hagaman과 Wutich(2017)와 Francis 등(2010)은 분자에 대한 새로운 테마의 수를 (재)평가할 때마다 3개의 데이터 수집 이벤트의 실행을 고려하는 반면, Coenen 등(2012)은 데이터 실행에 2개의 이벤트만 포함시킵니다. 저희 분석에서는 연구자에게 더 많은 유연성을 제공하기 위해 두 개의 이벤트와 세 개의 이벤트 등 두 가지 실행 길이 옵션을 계산에 제공합니다. 분석에서 연속적인 실행은 겹치는데, 각 인터뷰 세트는 하나의 이벤트에 의해 시간이 오른쪽으로 또는 "앞으로" 이동합니다. 그림 1은 이 프로세스와 기본 크기 및 실행 길이가 서로 어떻게 연관되는지 보여줍니다. 여기서도 분석 단위는 데이터 수집 이벤트이며, 분석 항목은 고유 코드입니다.
A run can be defined as a set of consecutive events or observations, in this case interviews. The run length is the number of interviews within which we look for, and calculate, new information. The number of new themes found in the run defines the numerator in the saturation ratio. Hagaman and Wutich (2017) and Francis et al. (2010), for example, consider runs of three data collection events each time they (re)assess the number of new themes for the numerator, whereas Coenen et al. (2012) include only two events in their data runs. For our analyses we provide both options for run lengths in our calculations–two events and three events–to afford researchers more flexibility. Note that in our analyses, successive runs overlap: each set of interviews shifts to the right or “forward” in time by one event. Fig 1 shows the process, and how base size and run length relate to one another. Here again the unit of analysis is the data collection event; the items of analysis are unique codes.

 

새로운 정보 임계값.
New information threshold.

[분자]와 [분모]에 대한 분석 단위가 결정되면 [비례 계산]은 간단합니다. 하지만 다음 질문은 순전히 주관적인 질문입니다: 어느 정도의 새로운 정보 부족을 포화 상태의 지표로 받아들여야 할까요? 규범적인 기준이 아니라 연구자에게 선택권을 제공하는 것이 더 현실적이고 투명하며 정확한 방법이라고 생각합니다. 따라서 데이터 수집의 특정 시점에 포화 상태에 도달했다는 증거로 받아들일 수 있는 새로운 정보의 비율을 나타내는 두 가지 수준의 새로운 정보, 즉 ≤5% 새로운 정보새로운 정보 없음(0%)을 우선 제안합니다.
Once units of analysis for the numerator and denominator are determined the proportional calculation is simple. But the next question is a purely subjective one: What level of paucity of new information should we accept as indicative of saturation? We propose that furnishing researchers with options—rather than a prescriptive threshold—is a more realistic, transparent and accurate practice. We therefore propose initially two levels of new information that represent the proportion of new information we would accept as evidence that saturation has been reached at a given point in data collection:

  • ≤5% new information and
  • no (0%) new information.

이러한 새로운 정보 임계값은 통계 분석에서 귀무가설을 거부하기에 충분한 증거가 존재하는지 여부를 판단하기 위해 0.05 또는 0.01 미만의 p값을 사용하는 것과 유사한 벤치마크로 사용할 수 있습니다. 통계 분석에서와 마찬가지로, 확률 이론이 없으므로 이러한 임계값을 충족할 때 실제로 포화 상태에 도달한다는 보장은 없습니다. 그러나 이 임계값은 다른 연구자들이 나중에 해석할 수 있는 [데이터 포화 평가를 투명하게 제시하는 방법]을 제공합니다. 새로운 정보 임계값이 낮을수록 임계값에 도달했을 때 데이터 수집이 중단될 경우 이후 인터뷰에서 중요한 주제가 발견되지 않을 가능성이 줄어듭니다. 기본 크기, 실행 길이, 새로운 정보 임계값의 개념을 종합하면 연구자는 포화 개념을 [얼마나 엄격하게 적용할지], 그리고 주어진 샘플에 대해 [데이터 포화에 도달했다고 확신할 수 있는 수준]을 선택할 수 있습니다(그림 2).
These new information thresholds can be used as benchmarks similar to how a p-value of <0.05 or <0.01 is used to determine whether enough evidence exists to reject a null hypothesis in statistical analysis. As in statistical analysis—but absent the probability theory—there is no guarantee that saturation is in fact reached when meeting these thresholds. But they do provide a transparent way of presenting data saturation assessments that can be subsequently interpreted by other researchers. The lower the new information threshold, the less likely an important number of themes may remain undiscovered in later interviews if data collection stops when the threshold is reached. Taken together, the concepts of base size, run length, and new information threshold allow researchers to choose how stringently they wish to apply the saturation concept–and the level of confidence they might have that data saturation was attained for a given sample (Fig 2).

우리가 제안하는 방법의 장점은 여러 가지가 있습니다:
The advantages of the method we propose are several:

  • 무작위 샘플을 가정하거나 필요하지 않으며, 주제의 빈도에 대한 사전 지식이 필요하지 않습니다.
  • 계산이 간단합니다. 통계적 전문 지식이 없어도 빠르게 계산할 수 있습니다.
  • 메트릭은 데이터 수집 및 분석 프로세스 중에 전향적으로 사용하여 포화 상태에 도달하는 시점을 확인할 수 있습니다(계획보다 적은 수의 데이터 수집 이벤트를 수행할 가능성도 제공).
  • 메트릭은 데이터 수집 및 분석이 완료된 후 소급하여 주제별 포화에 도달하기 위한 샘플의 적절성에 대해 보고하는 데 사용할 수 있습니다.
  • 각 메트릭에 대한 옵션은 분석 전에 지정하거나 데이터 분석 후에 보고할 수 있습니다.
  • 메트릭은 유연합니다. 연구자는 채도를 설명하는 방법에 대한 옵션을 선택할 수 있으며, 보다 투명하고 정확하게 용어를 사용할 수도 있습니다.
  • 포화는 상대적인 측정값으로 개념화됩니다. 이 방법은 분자와 분모 모두에 영향을 미치기 때문에 연구자 간의 코딩 세부 수준 차이를 중화합니다.
  • It does not assume or require a random sample, nor prior knowledge of theme prevalence.
  • Calculation is simple. It can be done quickly and with no statistical expertise.
  • Metrics can be used prospectively during the data collection and analysis process to ascertain when saturation is reached (and providing the possibility of conducting fewer data collection events than planned).
  • Metrics can be used retrospectively, after data collection and analysis are complete, to report on the adequacy of the sample to reach thematic saturation.
  • Options for each metric can be specified prior to analysis or reported after data analysis.
  • The metrics are flexible. Researchers have options for how they describe saturation and can also use the term with more transparency and precision.
  • Saturation is conceptualized as a relative measure. This neutralizes differences in the level of coding granularity among researchers, as the method affects both numerator and denominator.

 

접근 방식의 적용
Application of the approach

예상 데이터 포화 계산의 예입니다.
An example of prospective data saturation calculation.

접근 방식을 설명하기 위해 가상의 데이터 세트를 사용하여 이 프로세스가 어떻게 작동하는지에 대한 단계별 예를 살펴봅시다. 기본 인터뷰 크기 4개, 실행 길이 2개를 사용하여 포화를 전향적으로 계산해 보겠습니다. 이 예에서는 적절한 포화에 도달했음을 나타내기 위해 ≤5%의 새로운 정보 임계값을 선택했습니다. 각 단계에 사용된 데이터는 [그림 3]에 기본, 실행 및 포화 지점 표시와 함께 포함되어 있습니다.
Let’s consider a step-by-step example of how this process works, using a hypothetical dataset to illustrate the approach. We will prospectively calculate saturation using a base size of 4 interviews and run length of 2 interviews. For this example, we have selected a new information threshold of 5% to indicate that we have reached adequate saturation. [The data used for each step are included in Fig 3, along with indication of the base, runs, and saturation points.]

 

1단계 - 베이스가 될 고유 테마의 수를 찾습니다.
STEP 1 –Find the number of unique themes for base.


먼저 처음 4개의 인터뷰를 살펴보고 [이 그룹 내에서 식별된 고유 테마의 수]를 합산합니다. 결과 합계인 37이 방정식의 분모가 됩니다.
We start by looking at the first four interviews conducted and summing the number of unique themes identified within this group. The resulting sum, 37, is the denominator in our equation.

2단계-첫 번째 실행에 대한 고유 테마의 수를 찾습니다.
STEP 2—Find the number of unique themes for the first run.

이 예에서는 [실행 길이]를 2로 사용하므로 기본 세트 이후의 [다음 두 인터뷰(즉, 인터뷰 5와 6)에 대한 데이터]를 포함합니다. 이러한 인터뷰를 검토한 후 인터뷰 5에서 4개의 새로운 테마를, 인터뷰 6에서 3개의 새로운 테마를 확인했다고 가정합니다. 이 첫 번째 실행에서 새로운 테마의 수는 7개입니다.
In this example, we’re using a run length of two, so include data for the next two interviews after the base set–i.e., interviews 5 and 6. After reviewing those interviews, let’s say we identified four new themes in interview 5 and three new themes in interview 6. The number of new themes in this first run is seven.

3단계 - 포화 비율을 계산합니다.
STEP 3 –Calculate the saturation ratio.

이 실행의 새 테마 수(7개)를 기본 세트의 고유 테마 수(37개)로 나눕니다. 이 비율은 19%의 새로운 정보를 나타냅니다. 이는 ≤5% 임계값에 미치지 않으므로 계속 진행합니다.
Divide the number of new themes in this run (seven) by the number of unique themes in the base set (37). The quotient reveals 19% new information. This is not below our ≤5% threshold, so we continue.

4단계 - 시리즈의 다음 실행을 위한 새로운 고유 테마의 수를 찾습니다.
STEP 4 –Find the number of new unique themes for the next run in the series.

다음 실행에서는 다음 두 인터뷰인 6번과 7번의 새 테마를 추가하여(인터뷰 6번과 겹침에 유의) 총 4개의 테마를 만듭니다.
For the next run we add the new themes for the next two interviews, 6 and 7 (note the overlap of interview 6), resulting in a sum of four.

5단계-채도 비율 업데이트.
STEP 5—Update saturation ratio.

최신 실행의 새 테마 수(4개)를 기본 세트의 테마 수(37개)로 나눕니다. 이렇게 하면 11%의 지수가 렌더링되지만 여전히 ≤5% 임계값에 미치지 못합니다. 다음 실행을 계속합니다.
Take the number of new themes in the latest run (four) and divide by the number of themes in the base set (37). This renders a quotient of 11%, still not below our ≤5% threshold. We continue to the next run.

6단계 - 시리즈의 다음 실행을 위한 새로운 고유 테마의 수를 찾습니다.
STEP 6 –Find the number of new unique themes for the next run in the series.

이번 세 번째 실행에서는 인터뷰 7과 8에서 확인된 새로운 테마의 수를 추가합니다.
For this third run we add the number of new themes identified within interviews 7 and 8.

 

7단계 - 채도 비율을 업데이트합니다.
STEP 7—Update saturation ratio.

최신 실행의 새 테마 수(1개)를 기본 세트의 테마 수(37개)로 나눕니다.
Take the number of new themes in the latest run (one) divided by the number of themes in the base set (37).


이 시점에서 마지막 실행으로 [추가된 새로운 정보의 비율]이 우리가 설정한 [≤5% 임계값]보다 낮으므로 8번째 인터뷰 후 여기서 멈추고 주관적인 지표인 ≤5%에 따라 포화 상태에 도달했다고 말할 수 있는 수준으로 새로운 정보의 양이 감소하고 있다는 것을 알 수 있습니다. 마지막 두 번의 인터뷰는 수집된 정보에 크게 추가되지 않았으므로 [6번째 인터뷰]에 포화 상태에 도달했다고 말할 수 있습니다(다음 두 번의 인터뷰는 각각 얼마나 많은 새로운 정보가 생성되는지, 그리고 이것이 설정된 임계값 아래로 떨어질지 확인하기 위해 완료되었습니다). 인터뷰 번호에 위첨자 "+2"를 추가하여 총 8개의 인터뷰가 완료되었음을 표시함으로써 이 두 개의 추가 인터뷰(실행 길이를 나타냄)에 주석을 달 것입니다. 포화 평가를 작성할 때 기본 크기 4를 사용하면 6+2번의 인터뷰를 통해 ≤5%의 새로운 정보 임계값에 도달했다고 말할 수 있습니다. 
At this point the proportion of new information added by the last run is below the ≤5% threshold we established, so we stop here after the 8th interview and have a good sense that the amount of new information is diminishing to a level where we could say saturation has been reached based on our subjective metric of ≤5%. Since the last two interviews did not add substantially to the body of information collected, we would say that saturation was reached at interview 6 (each of the next two interviews were completed to see how much new information would be generated and whether this would fall below the set threshold). We would annotate these two extra interviews (indicative of run length) by appending a superscript “+2” to the interview number, to indicate a total of eight interviews were completed. In writing up our saturation assessment then, we would say that using a base size 4 we reached the ≤5% new information threshold at 6+2 interviews.

이 예에서 포화 상태에 도달했다는 결론에 좀 더 보수적이고 확신을 갖고 싶다면 평가의 두 가지 매개 변수를 조정할 수 있습니다. 실행 기간을 3회(또는 그보다 더 많은 횟수)로 늘리거나, 새로운 정보 임계값을 '새로운 정보 없음'으로 더 엄격하게 설정할 수 있습니다. 여기서 사용된 가상의 데이터 세트(그림 3 참조)를 고려하고 실행 길이를 2로 유지했다면 인터뷰 10+2에서 0%의 새로운 정보 임계값에 도달했을 것입니다. 
If we wanted to be more conservative, and confident in our conclusion of reaching saturation in this example, we could adjust two parameters of our assessment. We could increase the run length to 3 (or an even larger number), and/or we could set a more stringent new information threshold of no new information. If we consider the hypothetical data set used here (see Fig 3) and kept the run length of 2, the 0% new information threshold would have been reached at interview 10+2.

위의 예제 프로세스를 검토한 후에도 여전히 두 가지 논리적 질문을 제기할 수 있습니다. 첫 번째는 "포화 상태가 표시될 때 샘플을 n으로 제한함으로써 중요한 정보를 놓치고 있지 않다는 것을 어떻게 알 수 있는가?"입니다. 다시 말해, 예를 들어 인터뷰를 5번 더 진행했다면 더 중요한 데이터를 추가로 얻을 수 있었을까요? 이에 대한 정직한 대답은 5번의 추가 인터뷰와 그 이후에도 5번의 추가 인터뷰를 실시하지 않는 한 알 수 없다는 것입니다. 그렇기 때문에 인터뷰 질문, 표본 특성 및 기타 연구 매개변수를 비교적 일관되게 유지한다고 가정할 때 시간이 지남에 따라 새로운 정보가 등장하는 속도가 감소하고 가장 일반적이고 두드러진 주제가 조기에 생성된다는 경험적 연구에 의존하고 있습니다. 추가 인터뷰 실시가 포화에 어떤 영향을 미쳤는지 더 자세히 설명하기 위해 그림 3에 20개의 인터뷰를 포함시켰습니다. 인터뷰 12에 이어 진행된 인터뷰에서는 4개의 주제가 추가되었지만 새로운 정보 임계치 ≤5% 이하에 머물렀습니다. 
One may still raise two logical questions after reviewing the example process above. The first is “How do we know that we’re not missing important information by capping our sample at n when saturation is indicated?” Put another way, if we had conducted, say, five more interviews would we have gotten additional and important data? The honest answer to this is that we don’t know, and we can never know unless we conduct those five extra interviews, and then five more after that and so on. That is where we rely on the empirical research that shows the rate at which new information emerges decreases over time and that the most common and salient themes are generated early, assuming that we keep the interview questions, sample characteristics, and other study parameters relatively consistent. To further illustrate how saturation may have been affected by doing additional interviews, we include 20 interviews in Fig 3. The interviews following Interview 12, though yielding four additional themes, remained at or below the ≤5% new information threshold.

두 번째 질문은 첫 번째 질문과 어느 정도 관련이 있으며 가능한 [순서 효과]와 관련이 있습니다. 20개의 인터뷰로 구성된 데이터 집합에서 10번부터 20번까지의 인터뷰가 먼저 수행된 경우 테마 식별 패턴이 동일하게 보일까요? 데이터 수집 과정의 후반부에 새로운 주제가 나타날 수 있을까요? 프로세스/데이터셋의 후반부에 중요한 테마가 나타날 수도 있지만, 위에서 언급한 경험적 연구에 따르면 가장 널리 퍼진 상위 테마는 데이터 수집 초기에 약 6번의 인터뷰 내에서 식별되는 것으로 나타났습니다. 하지만 이를 더욱 확인하기 위해 세 가지 실제 데이터 세트에 [부트스트랩 기법]을 사용하여 이러한 초기 연구의 결과를 확증하고 제안된 메트릭의 분포 특성을 평가했습니다. 이러한 부트스트랩 결과는 새로운 인터뷰에서 새로운 주제가 발견될 때, 그리고 인터뷰 샘플의 다른 복제본에서 무작위로 인터뷰 순서를 정할 때 다양한 중단 지점에서 어떻게 포화에 도달할 수 있는지에 대한 정보를 제공합니다.
The second question is to a degree related to the first question and pertains to possible order effects. Would the theme identification pattern in a dataset of 20 interviews look the same if interviews #10 through #20 were conducted first? Could new themes start emerging later in the data collection process? Though it is possible an important theme will emerge later in the process/dataset, the empirical studies referenced above demonstrate that the most prevalent, high-level, themes are identified very early on in data collection, within about six interviews. But, to further check this, we use a bootstrapping technique on three actual datasets to corroborate findings from these earlier studies and to assess the distributional properties of our proposed metrics. These bootstrap findings give us information on how saturation may be reached at different stopping points as new themes are discovered in new interviews and when the interviews are ordered randomly in different replications of the sample of interviews.

샘플 데이터 세트.
Sample datasets.

부트스트래핑 방법을 적용한 기존의 정성적 데이터 세트 세 개를 선택했습니다. 이 데이터셋은 모두 귀납적 주제 분석 접근법을 사용하여 분석한 개별 인터뷰로부터 생성되었지만, 아래에 설명된 바와 같이 연구 모집단, 질문 주제, 표본 이질성, 인터뷰어, 데이터 수집 도구의 구조가 서로 달랐습니다.
We selected three existing qualitative datasets to which we applied the bootstrapping method. Although the datasets were all generated from individual interviews analyzed using an inductive thematic analysis approach, the studies from which they were drawn differed with respect to study population, topics of inquiry, sample heterogeneity, interviewer, and structure of data collection instrument, as described below.

데이터 세트 1. 이 연구에서는 미국 남동부 지역의 아프리카계 미국인 남성을 대상으로 건강 추구 행동에 대해 40건의 개별 인터뷰를 실시했습니다[29]. 인터뷰 가이드에는 13개의 주요 질문과 각 질문마다 스크립트로 작성된 하위 질문이 포함되어 있었습니다. 모든 인터뷰에는 귀납적 프로빙이 사용되었습니다. 귀납적 주제 분석에는 13개 질문 중 11개가 포함되었으며 93개의 고유 코드가 생성되었습니다. 연구 샘플은 매우 동질적이었습니다.
Dataset 1. This study included 40 individual interviews with African American men in the Southeast US about their health seeking behaviors [29]. The interview guide contained 13 main questions, each with scripted sub-questions. Inductive probing was employed throughout all interviews. The inductive thematic analysis included 11 of the 13 questions and generated 93 unique codes. The study sample was highly homogenous.
데이터 세트 2. 두 번째 데이터 세트는 임신 중 의학적 위험과 연구에 대해 미국 남동부의 (대부분 백인) 산모와 실시한 48건의 개별 인터뷰로 구성됩니다[30]. 인터뷰 가이드에는 13개의 주요 질문과 각 질문마다 스크립트로 작성된 하위 질문이 포함되어 있습니다. 모든 인터뷰에는 귀납적 프로빙이 사용되었습니다. 48건의 인터뷰는 대면, 화상(Skype와 유사한 플랫폼), 이메일(비동기), 문자 채팅(동기) 등 다양한 데이터 수집 모드를 사용하여 각각 12건씩 진행되었습니다. 정성적 주제 분석에는 이 중 10개의 질문이 포함되었으며 85개의 고유 코드가 생성되었습니다.
Dataset 2. The second dataset consists of 48 individual interviews conducted with (mostly white) mothers in the Southeast US about medical risk and research during pregnancy [30]. The interview guide contained 13 main questions, each with scripted sub-questions. Inductive probing was employed throughout all interviews. Of note, the 48 interviews were conducted, 12 each, using different modes of data collection: in-person, by video (Skype-like platform), email (asynchronous), or text chat (synchronous). The qualitative thematic analysis included 10 of these questions and generated 85 unique codes.
데이터 세트 3. 이 연구에는 HIV 감염 고위험군 여성 60명(케냐 30명, 남아공 30명)과의 인터뷰가 포함되었습니다[31]. 인터뷰는 정량적 설문조사에 대한 여성들의 응답에 대한 후속 정성적 조사였습니다. 가이드에는 14개의 질문이 있었지만, 여기서는 세 가지 질문의 데이터만 주제별 분석에 포함했습니다. 이 세 가지 질문에서 55개의 코드가 생성되었습니다. 두 사이트의 참가자는 학력과 결혼 여부를 제외하고는 인구통계학적으로 비슷했습니다. 케냐 표본에서는 기혼 여성과 배우자와 함께 사는 여성이 훨씬 더 많았으며(63% 대 3%), 중등 교육 이상을 이수한 비율은 더 낮았습니다. 모든 인터뷰는 현지 언어로 진행되었습니다.
Dataset 3. This study included 60 interviews with women at higher risk of HIV acquisition—30 participants in Kenya and 30 in South Africa [31]. The interview was a follow-up qualitative inquiry into women’s responses on a quantitative survey. Though there were 14 questions on the guide, only data from three questions were included in the thematic analysis referenced here. Those three questions generated 55 codes. Participants from the two sites were similar demographically with the exceptions of education and marital status. Substantially more women from the Kenya sample were married and living with their partners (63% versus 3%) and were less likely to have completed at least some secondary education. All interviews were conducted in a local language.

세 연구의 데이터는 모두 전사 프로토콜[32]을 사용하여 디지털로 기록 및 전사되었으며, 데이터세트 3의 경우 전사본이 영어로 번역되었습니다. 코딩 및 분석을 용이하게 하기 위해 트랜스크립트를 NVivo[33]로 가져왔습니다. 세 데이터세트 모두 체계적인 귀납적 주제 접근법[2]을 사용하여 분석했으며, 모든 코드는 표준 템플릿[34]에 따라 코드북에 명시적으로 정의되었습니다. 데이터세트 1과 2의 경우, 두 명의 분석가가 각 트랜스크립트를 독립적으로 코딩하고 각 트랜스크립트마다 코드 적용을 비교했습니다. 코드 적용의 불일치는 토론을 통해 해결되어 합의에 따라 코딩된 문서가 만들어졌습니다. 데이터세트 3의 경우, 두 명의 코더가 인터뷰의 20%에 대해 이러한 유형의 코더 간 신뢰도 평가를 실시했습니다(모든 인터뷰를 이중 코딩하는 것보다 표준적이고 효율적인 접근 방식입니다[2]). 데이터셋 3을 생성한 연구는 케냐와 남아프리카의 현지 IRB에서도 검토 및 승인을 받았으며, 세 연구 모두 FHI 360 인간 대상자 보호 위원회의 검토 및 승인을 받았습니다.
Data from all three studies were digitally recorded and transcribed using a transcription protocol [32]; transcripts were translated to English for Dataset 3. Transcripts were imported into NVivo [33] to facilitate coding and analysis. All three datasets were analyzed using a systematic inductive thematic approach [2], and all codes were explicitly defined in a codebook following a standard template [34]. For Datasets 1 & 2, two analysts coded each transcript independently and compared code application after each transcript. Discrepancies in code application were resolved through discussion, resulting in consensus-coded documents. For Dataset 3, two coders conducted this type of inter-coder reliability assessment on 20% of the interviews (a standard, more efficient approach than double-coding all interviews [2]). All three studies were reviewed and approved by the FHI 360 Protection of Human Subjects Committee; the study which produced Dataset 3 was also reviewed and approved by local IRBs in Kenya and South Africa.

 

부트스트래핑 방법.
Bootstrapping method.

이 세 가지 연구는 다양하고 분석적으로 엄격한 사례 연구를 제공하지만, 일반화 가능성은 제한적입니다. 모집단 수준의 통계에 근사치를 구하고 검증 범위를 넓히기 위해 위에서 설명한 각 데이터 세트에서 경험적 부트스트랩 샘플을 추출했습니다. 부트스트랩 방법은 표본 내의 변동성을 사용하여 지표(이 경우 포화 지표)의 샘플링 분포를 경험적으로 추정하는 리샘플링 기법입니다[35]. 이는 원래의 샘플링 체계를 모방하는 방식으로 표본에서 무작위로 교체(즉, 한 항목이 리샘플링에서 두 번 이상 선택될 수 있음)를 통해 여러 번 리샘플링하는 방식으로 수행됩니다. 각 정성적 데이터 세트에 대해 원본 샘플에서 10,000개의 [리샘플을 생성]했습니다. 또한 각 리샘플에서 선택한 [녹취록의 순서를 무작위로 지정]하여 새로운 코드가 발견되는 방법과 시기에 대한 순서 효과를 상쇄했습니다. 각 리샘플에 대해 4, 5 또는 6개의 인터뷰로 구성된 기본 크기 대비 2 또는 3개의 새로운 이벤트 실행 길이에서 발견된 새로운 테마의 비율을 계산했습니다. 그런 다음 ≤5% 또는 0%의 새로운 정보 임계값을 충족하는 데 필요한 트랜스크립트 수를 파악했습니다. 10,000개의 리샘플에서 얻은 이러한 임계값을 기반으로 각 데이터 세트에 대해 다양한 기본 크기와 실행 길이에 걸쳐 각각의 새로운 정보 임계값에 도달하는 데 필요한 인터뷰 수에 대한 중앙값과 5번째 및 95번째 백분위수를 계산했습니다. 5번째 및 95번째 백분위수는 이러한 새로운 정보 임계값에 정의된 포화 상태에 도달하는 데 필요한 트랜스크립트 수에 대한 비모수적 90% 신뢰 구간을 제공합니다.
While these three studies offer diverse and analytically rigorous case studies, they provide limited generalizability. To approximate population-level statistics and broaden our validation exercise, we drew empirical bootstrap samples from each of the datasets described above. The bootstrap method is a resampling technique that uses the variability within a sample to estimate the sampling distribution of metrics (in this case saturation metrics) empirically [35]. This is done by randomly resampling from the sample with replacement (i.e., an item may be selected more than once in a resample) many times in a way that mimics the original sampling scheme. For each qualitative dataset, we generated 10,000 resamples from the original sample. In addition, we randomly ordered the selected transcripts in each resample to offset any order effect on how/when new codes are discovered. For each resample, we calculated the proportion of new themes found in run lengths of two or three new events relative to a base size of four, five or six interviews. We then identified the number of transcripts needed to meet a new information threshold of ≤5% or 0%. Based on these thresholds from 10,000 resamples, for each dataset we computed the median and the 5th and 95th percentiles for number of interviews required to reach each new information threshold across different base sizes and run lengths. The 5th and 95th percentiles provide a nonparametric 90% confidence interval for the number of transcripts needed to reach saturation as defined at these new information thresholds.

각 데이터 세트에서 식별된 총 코드 수를 사용할 수 있었기 때문에 전체 데이터 세트에서 소급하여 평가한 포화와 관련된 새로운 정보 임계값에 도달하는 데 필요한 인터뷰의 중간값을 이해하기 위한 또 다른 메트릭을 제공하기 위해 한 가지 추가 계산을 수행했습니다. 이 경우, 데이터 세트의 각 실행에 대해 새로운 정보 임계값에 도달하기 위한 인터뷰 횟수가 결정되면, 그 시점까지 식별된 고유 테마의 수를 총 고유 테마의 수로 나눴습니다. 이를 통해 데이터의 각 실행에 대한 포화의 백분율 또는 정도를 제공한 다음, 도달한 포화에 대한 중앙값과 5번째 및 95번째 백분위수를 생성하는 데 사용했습니다. 그런 다음 이를 기본 크기, 실행 길이 및 새로운 정보 임계값에 걸쳐 비교할 수 있습니다. [이 과정은 제안된 프로세스의 일부가 아니라 포화 계산을 위해 제안된 접근 방식을 이해하고 검증하기 위한 추가 방법으로 포함되었습니다.] 

Since we had available the total number of codes identified in each dataset, we carried out one additional calculation as a way to provide another metric to understand how the median number of interviews to reach a new information threshold related to retrospectively-assessed degrees of saturation with the entire dataset. In this case, once the number of interviews to reach a new information threshold was determined for each run of a dataset, we divided the number of unique themes identified up to that point by the total number of unique themes. This provided a percent–or degree–of saturation for each run of the data, which was then used to generate a median and 5th and 95th percentile for the degree of saturation reached. This can then be compared across base sizes, run lengths, and new information thresholds. [Note that we include this as a further way to understand and validate the proposed approach for calculating saturation, rather than as part of the proposed process.]

결과
Results

부트스트래핑 분석의 결과는 표 2, 3, 4에 데이터 세트별로 제시되어 있습니다. 각 표에는 새로운 정보 임계값이 5% 이하이고 새로운 정보가 없을 때 기준이 4, 5 또는 6이고 실행 길이가 2 및 3인 부트스트랩 분포의 중앙값과 백분위수가 표시됩니다.
The results from the bootstrapping analyses are presented by dataset, in Tables 2, 3 and 4. Each table presents median and percentiles of the bootstrap distribution using bases of 4, 5 or 6 and run lengths of 2 and 3, at new information thresholds of ≤5% and no new information.

위의 예에서 설명한 것처럼, [실행 길이]의 인터뷰 수는 주어진 새 정보 임계값에 도달하기 위한 인터뷰 수에 포함되지 않으므로 [임계값에 도달했는지 평가하는 데 필요한 총 이벤트 수]는 선택한 실행 길이에 따라 주어진 중앙값보다 두세 개 더 많은 이벤트 수입니다. 이는 위첨자 +2 또는 +3으로 표시됩니다.
Note that, as described in the example above, the number of interviews in the run length is not included in the number of interviews to reach the given new information threshold, so the total number of events needed to assess having reached the threshold is two or three more interviews than the given median, depending on the run length of choice. This is indicated by a superscript +2 or +3.

데이터세트 1(표 2)의 경우, 신규 정보 ≤5% 임계값에서 신규 정보 감소에 도달하는 데 필요한 인터뷰 횟수의 중앙값은 모든 기본 규모에 걸쳐 일정했습니다. 인터뷰 실행 길이가 2회인 경우, 새로운 정보의 감소가 관찰되기까지 필요한 인터뷰 횟수의 중앙값은 6회였습니다. 즉, 처음 4, 5, 6번의 인터뷰에서 식별된 총 고유 코드 수에 비해 7번과 8번 인터뷰에서 기여한 새로운 정보의 양은 전체의 5% 미만이었습니다. 인터뷰가 3번 진행되었을 때, 새로운 정보가 감소하기까지 필요한 인터뷰 횟수의 중앙값은 7번이었습니다. 즉, 처음 4, 5, 6번의 인터뷰에서 식별된 총 고유 코드 수에 비해 8, 9, 10번의 인터뷰가 기여한 새로운 정보의 양은 전체의 5% 미만이었습니다. 기본 크기에서 실행 길이가 2인 경우 포화는 6+2로 나타났고, 실행 길이가 3인 경우 포화는 7+3으로 관찰되었으며, 둘 다 신규 정보 ≤5% 수준에서 관찰되었다고 말할 수 있습니다. 데이터 세트의 총 주제 수를 소급하여 사용했을 때, 6~7개의 인터뷰에 걸쳐 나타난 주제 수는 78%~82%의 포화 중간값에 해당했습니다.
For Dataset 1 (Table 2), at the ≤5% new information threshold, the median number of interviews needed to reach a drop-off in new information was consistent across all base sizes. At a run length of two interviews, the median number of interviews required before a drop in new information was observed was six. This means that relative to the total number of unique codes identified in the first four, five, or six interviews, the amount of new information contributed by interviews 7 and 8 was less than or equal to 5% of the total. At a run length of three interviews, the median number of interviews required before a drop in new information was observed was seven. This means that relative to the total number of unique codes identified in the first four, five, or six interviews, the amount of new information contributed by interviews 8, 9, and 10 was less than or equal to 5% of the total. Across base sizes, for a run length of two, we would say that saturation was indicated at 6+2, while for a run length of three we would say saturation was observed at 7+3, both at the ≤5% new information level. Using the total number of themes in the dataset retrospectively, the number of themes evident across 6–7 interviews corresponded with a median degree of saturation of 78% to 82%.

새로운 정보 임계값 0%에서 포화를 나타내는 인터뷰 수 중앙값은 실행 기간에 따라 달라졌을 뿐, 기반 규모에 관계없이 다시 일관되게 나타났습니다. 필요한 인터뷰 수의 중앙값은 11+2개와 14+3개였습니다. 즉, 실행 길이 2에서는 11번의 인터뷰와 새로운 정보가 제공되지 않음을 확인하는 데 2번의 인터뷰가 더 필요했습니다. 실행 길이 3에서는 14번의 인터뷰와 새로운 정보가 없음을 확인하는 데 3번의 인터뷰가 더 필요했습니다. 11~14개의 인터뷰를 통해 드러난 주제의 수는 포화의 중간값인 87%~89%에 해당했습니다.
At the 0% new information threshold, the median number of interviews to indicate saturation were again consistent across bases sizes, varying only by the run length. The median number of interviews required were 11+2 and 14+3. In other words, at run length 2, it took 11 interviews, plus two more to confirm that no new information was contributed. At run length 3 it was 14 interviews plus three more to confirm no new information. The number of themes evident across 11–14 interviews corresponded with a median degree of saturation of 87% to 89%.

데이터셋 2의 결과는 데이터셋 1과 거의 동일했습니다(표 3). 실행 길이가 2(6+2)인 인터뷰는 6개, 실행 길이가 3(7+3 또는 8+3)인 인터뷰는 7~8개에서 포화가 나타났습니다. 6~8개의 인터뷰에 걸쳐 나타난 테마의 수는 포화의 중간값인 79%~82%에 해당했습니다. 0%의 새로운 정보 임계값에서 포화는 데이터세트 1에서와 동일한 지점인 11+2와 14+3에서 나타났으며, 모든 기본 크기에 걸쳐 일관되게 나타났습니다. 즉, 실행 길이 2를 사용한 11번의 인터뷰 중앙값 이후에는 새로운 정보가 관찰되지 않았고, 실행 길이 3을 사용한 14번의 인터뷰 이후에도 새로운 정보가 관찰되지 않았습니다. 여기에서도 전체 데이터 세트의 총 테마 수는 다르지만, 11~14번의 인터뷰에서 나타난 새로운 테마의 수는 포화의 중앙값이 87%~89%에 해당했습니다.
The results for Dataset 2 were nearly identical to Dataset 1 (Table 3). Saturation was indicated at 6 interviews at a run length of 2 (6+2) and 7–8 interviews at run length 3 (7+3 or 8+3). The number of themes evident across 6–8 interviews corresponded with a median degree of saturation of 79% to 82%. At the 0% new information threshold saturation was indicated at the same points as in Dataset 1: 11+2 and 14+3, consistent across all base sizes. In other words, no new information was observed after a median of 11 interviews using a run-length of 2, nor after 14 interviews using a run length of 3. Here again, despite a different total number of themes in the overall dataset, the number of new themes evident across 11–14 interviews corresponded with a median degree of saturation of 87% to 89%.

데이터셋 3(표 4)은 다른 데이터셋에 비해 샘플에 더 많은 변동이 있었으며, 이는 인터뷰 수 중앙값이 약간 더 높고 포화가 더 낮게 반영되었습니다. 새 정보 임계값 ≤5%에서 실행 길이 2에서 포화 상태에 도달하는 데 필요한 인터뷰 수 중앙값은 8~9개였습니다(기본 크기 4의 경우 더 높음). 실행 길이가 3인 경우 필요한 인터뷰 수 중앙값은 11~12개였습니다(기본 크기 4의 경우 이보다 높았습니다). 8~12개의 인터뷰를 통해 드러난 새로운 주제의 수는 포화의 중앙값이 62%~71%에 해당했습니다. 새로운 정보가 0%인 임계값에서는 포화가 12+2와 16+3으로 나타났으며, 기본 크기 전반에서 일관되게 나타났습니다. 12~16개의 인터뷰에 걸쳐 나타난 새로운 주제의 수는 포화의 중앙값이 69%~76%에 해당했습니다.
Dataset 3 (Table 4) contained more variation in the sample than the others, which was reflected in a slightly higher median number of interviews and a lower degree of saturation. At the ≤5% new information threshold, the median number of interviews required to reach saturation at a run length of 2 was 8–9 (higher for base size 4). At a run length of 3, the median number of required interviews was 11–12 (again higher for base size 4). The number of new themes evident across 8–12 interviews corresponded with a median degree of saturation of 62% to 71%. At the 0% new information threshold, saturation was indicated at 12+2 and 16+3, consistent across base sizes. The number of new themes evident across 12–16 interviews corresponded with a median degree of saturation of 69% to 76%.

토론
Discussion

이 백서에서는 질적 인터뷰의 귀납적 분석에서 주제별 포화를 평가하는 방법을 제시합니다. 이 방법이 심층 인터뷰 맥락에서 포화를 개념화, 평가 및 보고하는 다른 방법과 관련된 많은 한계를 극복하는 방법을 설명합니다. 이 프로세스는 데이터 수집 및 분석 과정에서 전향적으로 적용하거나 데이터 수집 및 분석이 완료된 후 후향적으로 적용할 수 있습니다. 이 방법의 가장 큰 장점은 메트릭이 유연하여 연구자가 다양한 실행 기간 및/또는 새로운 정보 임계값을 선택하여 다양한 수준의 엄격함을 선택할 수 있다는 것입니다. 마찬가지로, 이 방법을 사용하면 포화를 설명하고 보고할 때 다양한 옵션을 사용할 수 있으며 명확성과 투명성이 향상됩니다.
In this paper we present a way of assessing thematic saturation in inductive analysis of qualitative interviews. We describe how this method circumvents many of the limitations associated with other ways of conceptualizing, assessing and reporting on saturation within an in-depth interview context. The process can be applied either prospectively during the data collection and analysis process or retrospectively, after data collection and analysis are complete. A key advantage is that the metrics are flexible, affording researchers the ability to choose different degrees of rigor by selecting different run lengths and/or new information thresholds. Similarly, the method allows for different options–and greater clarity and transparency–in describing and reporting on saturation.

부트스트래핑 분석을 기반으로 몇 가지 결론을 도출할 수 있습니다. 첫 번째는 결과가 이전의 경험적 연구를 바탕으로 예상했던 범위 내에 있다는 것입니다. 5% 이하의 새로운 정보 임계값을 사용한 결과, 일반적으로 6~7개의 인터뷰로 균질한 표본에서 대부분의 주제를 포착할 수 있습니다(6개의 인터뷰로 80%의 포화에 도달). 또한 분석 결과, 이 옵션의 상위 범위(95번째 백분위수)에서는 11~12개의 인터뷰가 필요할 수 있으며, 기존 문헌에 따르면 일반적으로 더 높은 포화에 도달하기 위해서는 12개의 인터뷰가 필요하다고 합니다.
Based on the bootstrapping analyses we can draw several conclusions. The first is that the results are within the range of what we would have expected based on previous empirical studies. Using the ≤5% new information threshold, our findings indicate that typically 6–7 interviews will capture the majority of themes in a homogenous sample (6 interviews to reach 80% saturation). Our analyses also show that at the higher end of the range for this option (95th%ile) 11–12 interviews might be needed, tracking with existing literature indicating 12 interviews are typically needed to reach higher degrees of saturation.

또한 이 프로세스의 적용에 도움이 되는 다른 교훈을 얻을 수도 있습니다:
We can also draw other lessons to inform application of this process:

  • [기본 규모]는 결과에 거의 영향을 미치지 않는 것으로 보입니다. 이는 효율성 측면에서 중요한 사항입니다. 이번 연구 결과가 다른 상황에서도 유효하다면, 기본 인터뷰 규모를 4회로 설정하는 것으로 충분하다는 것을 시사합니다. 실질적으로 이는 6번의 인터뷰(기본 4번, 실행 2번) 후에 포화를 평가해야 한다는 것을 의미합니다. 실시간으로 데이터를 분석하는 경우, 이 초기 평가 결과에 따라 추가 인터뷰가 필요한지 여부를 결정할 수 있습니다.
  • Base size appears to have almost no effect on the outcome. This is important from an efficiency perspective. If our findings hold true in other contexts, it suggests that using a default base size of four interviews is sufficient. In practical terms, this implies that saturation should initially be assessed after six interviews (four in the base, and two in the run). If analyzing data in real time, the results of this initial assessment can then determine whether or not more interviews are needed.
  • 예상대로 [실행 시간]은 결과에 영향을 미칩니다. 실행 길이가 길수록 포화 상태에 도달하기 위해 더 많은 수의 인터뷰가 필요합니다. [실행 길이]가 미치는 효과의 크기는 새 정보 임계값 ≤5%를 사용하는 경우 가장 작거나 매우 미미합니다. 이 발견의 실질적인 의미는 연구자가 더 [긴 실행 길이(예: 3회 이상의 인터뷰)]를 선택하여 포화에 대한 보다 [보수적인 평가를 생성]할 수 있다는 것입니다.
  • Run length has an effect on the outcome, as one would expect. The longer the run length, the greater number of interviews required to reach saturation. The size of run length effect is smallest–very minimal–if employing the ≤5% new information threshold. The practical implication of this finding is that researchers can choose a longer run length–e.g., three interviews (or more)–to generate a more conservative assessment of saturation.
  • [선택한 새로운 정보 임계값]은 예상대로 포화가 표시되는 지점에 영향을 미칩니다. 새로운 정보 임계값이 낮을수록, 즉 새로운 정보를 인식하는 데 더 보수적으로 허용할수록 포화 상태에 도달하기 위해 더 많은 인터뷰가 필요합니다. 응용적인 관점에서 볼 때, 이 결과는 연구자가 원하는 경우 [더 엄격한 새로운 정보 임계값(예: 0%)을 선택]하면 포화를 [더 보수적으로 평가]할 수 있다는 확신을 가질 수 있다는 점에서 중요한 의미를 갖습니다.
  • The new information threshold selected affects the point at which saturation is indicated, as one would expect. The lower the new information threshold–and therefore the more conservative the allowance for recognizing new information–the more interviews are needed to achieve saturation. From an applied standpoint this finding is important in that researchers can feel confident that choosing a more stringent new information threshold–e.g., 0%—will result in a more conservative assessment of saturation, if so desired.

물론 이 접근 방식에는 여전히 한계가 있습니다. 이 접근법은 [귀납적 주제 분석](특정 실제 이슈나 문제에 대한 비교적 좁은 질문에 답하기 위한 연구)을 염두에 두고 개발되었으며, 부트스트래핑 분석에 사용된 데이터 세트는 이 프레임워크 내에서 생성 및 분석되었습니다. 다른 인식론적 또는 현상학적 관점을 가진 질적 연구에 이 접근법을 적용할 수 있는지는 아직 검증되지 않았습니다. 이 방법의 또 다른 잠재적 한계는 [코드북 구조]와 관련이 있습니다. 귀납적 주제 분석을 수행할 때 연구자는 적절한 코드북 구성 체계를 결정해야 합니다(포화와 관련된 논의는 Hennink 외. [23]을 참조하세요). 저희는 [단일 계층 코드북]을 대상으로 이 방법을 테스트했지만, 질적 연구자들은 [계층적 코드북]을 만드는 경우가 많습니다. 기본("상위") 코드와 구성 보조("하위") 코드가 있는 2계층 구조가 일반적인 형태이지만, 연구자는 더 높은 수준의 메타 주제를 식별하고 찾고자 할 수도 있습니다(예: Hagaman과 Wutich [19]). 우리를 포함한 모든 포화 평가 방법의 경우, 연구자는 어느 수준에서 주제/코드를 식별하고 포함할지 결정해야 합니다. 귀납적 주제 분석의 경우, 이는 특정 분석 목표에 필요한 코딩의 세분성 정도와 연구팀이 연구 결과를 보고할 때 포화를 어떻게 논의할 것인지에 따라 달라지는 주관적인 결정입니다. 즉, 연구자는 이 접근 방식을 사용하여 서로 다른 수준의 코딩 세분성을 포함하는 두 개 이상의 코드북에 대한 포화 분석을 실행하고 보고할 수 있습니다. 
There are, of course, still limitations to this approach. It was developed with applied inductive thematic analyses in mind–those for which the research is designed to answer a relatively narrow question about a specific real-world issue or problem–and the datasets used in the bootstrapping analyses were generated and analyzed within this framework. The applicability of this approach for qualitative research with a different epistemological or phenomenological perspective is yet untested. Another potential limitation of this method relates to codebook structure. When conducting an inductive thematic analysis, researchers must decide on an appropriate codebook organizational scheme (see Hennink et al. [23] for discussion on this as it relates to saturation). We tested our method on single-tier codebooks, but qualitative researchers often create hierarchical codebooks. A two-tier structure with primary (“parent”) codes and constituent secondary (“child”) codes is a common form, but researchers may also want to identify and look for higher-level, meta-themes (e.g., Hagaman and Wutich [19]). For any method of assessing saturation, including ours, researchers need to decide at which level they will identify and include themes/codes. For inductive thematic analyses this is a subjective decision that depends on the degree of coding granularity necessary for a particular analytic objective, and how the research team wants to discuss saturation when reporting study findings. That said, a researcher could, with this approach, run and report on saturation analyses of two or more codebooks that contain differing levels of coding granularity.

결론
Conclusion

Tran과 동료들[24]은 "연구자는 자신이 발견한 것에 대한 정보만 가지고 있기 때문에"(17페이지) 포화점을 결정하는 것이 어려운 일이라고 정확하게 지적합니다. 그들은 또한 귀납적 연구의 중단점은 일반적으로 "연구자의 판단과 경험"에 의해 결정된다고 주장합니다. 우리는 이러한 주장을 인정하고 동의합니다.
Tran and colleagues [24] accurately point out that determining the point of saturation is a difficult endeavor, because “researchers have information on only what they have found” (pg. 17). They further argue that the stopping point for an inductive study is typically determined by the “judgement and experience of researchers”. We acknowledge and agree with these assertions.

엄격성, 정확성, 신뢰도의 수준을 선택하고 해석하는 것은 주관적인 작업입니다. 예를 들어, 정량적 연구자가 충분히 큰 효과 크기 또는 충분히 작은 p-값으로 받아들이는 것은 [주관적인 판단]이며 특정 연구 분야의 관습에 근거한 것입니다. 연구자가 통계 결과를 보고하고 해석하는 방법도 마찬가지입니다. P값은 절대값(예: p = .043) 또는 일반적으로 사용되는 몇 가지 증분값(예: p < .05, p < .01 등)으로 표현할 수 있습니다. 마찬가지로, 1.2의 승산비는 통계적으로 유의미할 수 있지만 실제 의미에서 유의미한지 여부는 전적으로 해석의 여지가 있습니다.
Selecting and interpreting levels of rigor, precision, and confidence is a subjective enterprise. What a quantitative researcher accepts, for example, as a large enough effect size or a small enough p-value is a subjective determination and based on convention in a particular field of study. The same can be said for how a researcher chooses to report and interpret statistical findings. P-values can be expressed either in absolute terms (e.g., p = .043) or in several commonly used increments (e.g., p < .05, p < .01, etc.). Likewise, while an odds ratio of 1.2 may be statistically significant, whether or not it’s meaningful in a real-world sense is entirely open to interpretation.

우리는 주제별 포도를 평가하고 보고할 때 이와 유사한 유연성과 투명성을 추구하고 있습니다. 연구자들에게 데이터 수집 중 또는 수집 후에 포화를 쉽게 계산할 수 있는 방법을 제공했습니다. 또한 이 방법을 통해 연구자는 자신의 해석과 결론이 주제별 포화에 도달한 데이터 세트에 근거한 것이라는 확신을 얼마나 갖고 싶은지에 따라 프로세스의 구성 요소인 기본 크기, 실행 길이, 새로운 정보 임계값의 수준을 다르게 선택할 수 있습니다. 연구자들이 이 방법을 유용하게 활용하고, 다른 연구자들이 다양한 연구 집단과 맥락에서 추출한 다양한 유형의 데이터세트에 대해 이 방법을 실증적으로 테스트하여 우리의 연구를 발전시켜 나가기를 바랍니다.
We are advocating for similar flexibility and transparency in assessing and reporting on thematic saturation. We have provided researchers with a method to easily calculate saturation during or after data collection. This method also enables researchers to select different levels of the constituent elements in the process–i.e., Base Size, Run Length and New Information Threshold–based on how confident they wish to be that their interpretations and conclusions are based on a dataset that reached thematic saturation. We hope researchers find this method useful, and that others build on our work by empirically testing the method on different types of datasets drawn from diverse study populations and contexts.


PLoS One. 2020 May 5;15(5):e0232076. doi: 10.1371/journal.pone.0232076. eCollection 2020.

A simple method to assess and report thematic saturation in qualitative research

Affiliations collapse

Affiliations

1Q42 Research, Research Triangle Park, North Carolina, United States of America.

2Global Health, Population, and Nutrition, FHI 360, Durham, North Carolina, United States of America.

PMID: 32369511

PMCID: PMC7200005

DOI: 10.1371/journal.pone.0232076

Abstract

Data saturation is the most commonly employed concept for estimating sample sizes in qualitative research. Over the past 20 years, scholars using both empirical research and mathematical/statistical models have made significant contributions to the question: How many qualitative interviews are enough? This body of work has advanced the evidence base for sample size estimation in qualitative inquiry during the design phase of a study, prior to data collection, but it does not provide qualitative researchers with a simple and reliable way to determine the adequacy of sample sizes during and/or after data collection. Using the principle of saturation as a foundation, we describe and validate a simple-to-apply method for assessing and reporting on saturation in the context of inductive thematic analyses. Following a review of the empirical research on data saturation and sample size estimation in qualitative research, we propose an alternative way to evaluate saturation that overcomes the shortcomings and challenges associated with existing methods identified in our review. Our approach includes three primary elements in its calculation and assessment: Base Size, Run Length, and New Information Threshold. We additionally propose a more flexible approach to reporting saturation. To validate our method, we use a bootstrapping technique on three existing thematically coded qualitative datasets generated from in-depth interviews. Results from this analysis indicate the method we propose to assess and report on saturation is feasible and congruent with findings from earlier studies.

인터뷰 기반 연구에서 표본 크기 충분성의 특성화 및 정당화: 15년간 질적 건강연구의 체계적 문헌고찰(BMC Med Res Methodol. 2018)
Characterising and justifying sample size sufficiency in interview-based studies: systematic analysis of qualitative health research over a 15-year period
Konstantina Vasileiou1* , Julie Barnett1, Susan Thorpe2 and Terry Young3

 

 

배경
Background

질적 조사에서 [표본의 적절성]은 [표본 구성 및 크기의 적절성]과 관련이 있습니다. 이는 많은 질적 연구의 품질과 신뢰성을 평가할 때 중요한 고려 사항이며[1], 특히 [후기 실증주의 전통]에 속하고 [실재론적 존재론적 전제]를 어느 정도 고수하는 연구의 경우 타당성과 일반화 가능성을 평가할 때 중요한 의미를 갖습니다[2,3,4,5]. 
Sample adequacy in qualitative inquiry pertains to the appropriateness of the sample composition and size. It is an important consideration in evaluations of the quality and trustworthiness of much qualitative research [1] and is implicated – particularly for research that is situated within a post-positivist tradition and retains a degree of commitment to realist ontological premises – in appraisals of validity and generalizability [2,3,4,5].

[질적 연구의 표본]은 이 탐구 방식의 기본인 사례 중심 분석의 깊이를 뒷받침하기 위해 작은 경향이 있습니다[5]. 또한 질적 표본은 목적적 표본, 즉 조사 대상 현상과 관련된 풍부한 질감의 정보를 제공할 수 있는 능력에 따라 선택됩니다. 결과적으로 정량적 연구에 사용되는 [확률적 표본 추출]과 달리 [의도적 표본 추출][6, 7]은 '정보가 풍부한' 사례를 선택합니다[8]. 실제로 최근 연구에 따르면 질적 연구에서 무작위 샘플링에 비해 [의도적 샘플링의 효율성이 더 높다]는 사실이 입증되어[9], 질적 방법론가들이 오랫동안 주장해온 관련 주장을 뒷받침하고 있습니다.
Samples in qualitative research tend to be small in order to support the depth of case-oriented analysis that is fundamental to this mode of inquiry [5]. Additionally, qualitative samples are purposive, that is, selected by virtue of their capacity to provide richly-textured information, relevant to the phenomenon under investigation. As a result, purposive sampling [6, 7] – as opposed to probability sampling employed in quantitative research – selects ‘information-rich’ cases [8]. Indeed, recent research demonstrates the greater efficiency of purposive sampling compared to random sampling in qualitative studies [9], supporting related assertions long put forward by qualitative methodologists.

질적 연구에서의 표본 크기는 지속적인 논의의 주제였습니다[4, 10, 11]. 정량적 연구 커뮤니티는 표본 크기를 정확하게 설정하기 위해 비교적 간단한 [통계 기반 규칙]을 확립한 반면, 질적 연구의 표본 크기 결정 및 평가의 복잡성은 질적 연구의 특징인 [방법론적, 이론적, 인식론적, 이념적 다원주의]에서 비롯됩니다(심리학 분야에 초점을 맞춘 논의는 [12]를 참조하세요). 이는 항상 적용되는 명확한 지침에 반하는 것입니다. 이러한 어려움에도 불구하고 다양한 개념적 발전이 이 문제를 해결하기 위해 지침과 원칙을 제시하고 있으며[4, 10, 11, 13,14,15,16,17,18,19,20], 최근에는 표본 크기 결정에 대한 증거 기반 접근 방식이 경험적으로 논의를 뒷받침하려고 합니다[21,22,23,24,25,26,27,28,29,30,31,32,33,34,35].
Sample size in qualitative research has been the subject of enduring discussions [4, 10, 11]. Whilst the quantitative research community has established relatively straightforward statistics-based rules to set sample sizes precisely, the intricacies of qualitative sample size determination and assessment arise from the methodological, theoretical, epistemological, and ideological pluralism that characterises qualitative inquiry (for a discussion focused on the discipline of psychology see [12]). This mitigates against clear-cut guidelines, invariably applied. Despite these challenges, various conceptual developments have sought to address this issue, with guidance and principles [4, 10, 11, 13,14,15,16,17,18,19,20], and more recently, an evidence-based approach to sample size determination seeks to ground the discussion empirically [21,22,23,24,25,26,27,28,29,30,31,32,33,34,35].

본 연구는 참여자별 단일 인터뷰 질적 설계에 초점을 맞추어, 표본 크기와 관련된 정당화 관행에 대한 실증적 증거를 제공함으로써 질적 연구에서 표본 크기의 논의에 더욱 기여하고자 합니다. 다음으로 표본 크기 결정에 관한 기존의 개념적 및 실증적 문헌을 검토합니다. 
Focusing on single-interview-per-participant qualitative designs, the present study aims to further contribute to the dialogue of sample size in qualitative research by offering empirical evidence around justification practices associated with sample size. We next review the existing conceptual and empirical literature on sample size determination.

질적 연구에서의 표본 크기: 개념적 발전과 실증적 조사
Sample size in qualitative research: Conceptual developments and empirical investigations

질적 연구 전문가들은 '몇 명'이라는 질문에 대한 정답은 없으며, 표본 크기는 인식론적, 방법론적, 실제적 문제와 관련된 여러 요인에 따라 달라진다고 주장합니다[36]. 

  • 샌델로우스키[4]는 질적 표본의 크기는 연구 대상 현상에 대한 '새롭고 풍부한 질감의 이해'를 펼칠 수 있을 만큼 [충분히 크되]질적 데이터의 '심층적인 사례 중심 분석'(183쪽)이 배제되지 않도록 [충분히 작을 것]을 권장합니다
  • 모스[11]는 각 사람으로부터 더 많은 사용 가능한 데이터를 수집할수록 더 적은 수의 참가자가 필요하다고 가정합니다. 그녀는 연구자가 연구 범위, 주제의 특성(예: 복잡성, 접근성), 데이터의 품질, 연구 설계와 같은 [매개변수를 고려]할 것을 권유합니다. 

실제로 질적 면접에서 [질문의 구조 수준]은 생성되는 [데이터의 풍부함에 영향]을 미치는 것으로 밝혀졌기 때문에[37] 주의가 필요하며, 경험적 연구에 따르면 [인터뷰 후반부에 질문하는 개방형 질문]이 [더 풍부한 데이터를 생성하는 경향]이 있다고 합니다[37].
Qualitative research experts argue that there is no straightforward answer to the question of ‘how many’ and that sample size is contingent on a number of factors relating to epistemological, methodological and practical issues [36].

  • Sandelowski [4] recommends that qualitative sample sizes are large enough to allow the unfolding of a ‘new and richly textured understanding’ of the phenomenon under study, but small enough so that the ‘deep, case-oriented analysis’ (p. 183) of qualitative data is not precluded.
  • Morse [11] posits that the more useable data are collected from each person, the fewer participants are needed. She invites researchers to take into account parameters, such as the scope of study, the nature of topic (i.e. complexity, accessibility), the quality of data, and the study design.

Indeed, the level of structure of questions in qualitative interviewing has been found to influence the richness of data generated [37], and so, requires attention; empirical research shows that open questions, which are asked later on in the interview, tend to produce richer data [37].

이러한 지침 외에도 전문가들의 질적 연구 경험을 바탕으로 구체적인 수치적 권장 사항도 제시되고 있습니다.

  • 예를 들어, Green과 Thorogood[38]은 상당히 구체적인 연구 질문으로 인터뷰 기반 연구를 수행하는 대부분의 질적 연구자의 경험에 따르면 분석적으로 관련된 하나의 참가자 '범주'에 속하는 20명 내외를 인터뷰한 후에는 새로운 정보가 거의 생성되지 않는다고 주장합니다(102-104페이지).
  • Ritchie 등[39]은 개별 인터뷰를 사용하는 연구에서는 연구자가 분석 작업의 복잡성을 관리할 수 있도록 50명 이하의 인터뷰를 실시할 것을 제안합니다.
  • 마찬가지로 Britten[40]은 대규모 인터뷰 연구의 경우 50~60명으로 구성되는 경우가 많다고 언급합니다. 전문가들은 또한 다양한 이론적, 방법론적 전통과 특정 연구 접근법(예: 근거 이론, 현상학)에 맞춘 수치적 지침을 제시했습니다[11, 41].
  • 최근에는 모집단 내 테마의 빈도 추정치를 기반으로 선험적 표본 크기 결정을 지원하는 정량적 도구가 제안되었습니다[42]. 그럼에도 불구하고 이러한 보다 [수치 공식적인 접근 방식]은 '테마'의 개념적[43], 존재론적 지위[44]에 대한 가정과 샘플링, 데이터 수집 및 데이터 분석 프로세스에 따른 선형성[45]과 관련된 비판을 불러일으켰습니다.

Beyond such guidance, specific numerical recommendations have also been proffered, often based on experts’ experience of qualitative research.

  • For example, Green and Thorogood [38] maintain that the experience of most qualitative researchers conducting an interview-based study with a fairly specific research question is that little new information is generated after interviewing 20 people or so belonging to one analytically relevant participant ‘category’ (pp. 102–104).
  • Ritchie et al. [39] suggest that studies employing individual interviews conduct no more than 50 interviews so that researchers are able to manage the complexity of the analytic task.
  • Similarly, Britten [40] notes that large interview studies will often comprise of 50 to 60 people. Experts have also offered numerical guidelines tailored to different theoretical and methodological traditions and specific research approaches, e.g. grounded theory, phenomenology [1141].
  • More recently, a quantitative tool was proposed [42] to support a priori sample size determination based on estimates of the prevalence of themes in the population. Nevertheless, this more formulaic approach raised criticisms relating to assumptions about the conceptual [43] and ontological status of ‘themes’ [44] and the linearity ascribed to the processes of sampling, data collection and data analysis [45].

원칙적인 측면에서 링컨과 구바[17]는 [정보 중복성]의 기준에 따라 표본 크기를 결정할 것을 제안했는데, 즉 [더 많은 단위를 샘플링해도 새로운 정보가 도출되지 않을 경우 샘플링을 중단할 수 있다]는 것입니다. 정보 포괄성의 논리에 따라 Malterud 등[18]은 실용적인 지침 원칙으로 [정보력 개념]을 도입하여 표본이 제공하는 [정보력이 많을수록 표본 크기가 작아야 하고 그 반대의 경우도 마찬가지]라고 제안했습니다.
In terms of principles, Lincoln and Guba [17] proposed that sample size determination be guided by the criterion of informational redundancy, that is, sampling can be terminated when no new information is elicited by sampling more units. Following the logic of informational comprehensiveness Malterud et al. [18] introduced the concept of information power as a pragmatic guiding principle, suggesting that the more information power the sample provides, the smaller the sample size needs to be, and vice versa.

의심할 여지 없이, 표본 크기를 결정하고 그 충분성을 평가하는 데 가장 널리 사용되는 원칙은 [포화]입니다. 포화 개념은 경험적으로 도출된 이론 개발과 명시적으로 관련된 질적 방법론적 접근 방식인 근거 이론[15]에서 비롯되었으며 이론적 샘플링과 불가분의 관계에 있습니다. [이론적 표본 추출]은 [데이터 수집, 데이터 분석 및 이론 개발의 반복적인 프로세스]를 설명하며, 데이터 수집은 모집단의 사전 정의된 특성이 아닌 새로운 이론에 의해 관리됩니다. [근거 이론 포화(종종 이론적 포화라고도 함)]는 개발 중인 이론 범주(데이터가 아닌)와 관련이 있으며, '새로운 데이터를 수집해도 더 이상 [새로운 이론적 통찰력]을 얻지 못하거나 [핵심 이론 범주의 새로운 속성]이 드러나지 않을 때'[46페이지 113] 분명해집니다. 따라서 근거 이론에서 포화 상태는 [일반적인 데이터 반복에 대한 초점과 동일하지 않으며], 표본 추출의 적절성을 정당화하는 표본 크기에 대한 단일 초점을 넘어서는 것입니다[46, 47]. 근거 이론에서 표본 크기는 진화하는 이론적 범주에 따라 달라지기 때문에 [선험적으로 결정할 수 없습니다].
Undoubtedly, the most widely used principle for determining sample size and evaluating its sufficiency is that of saturation. The notion of saturation originates in grounded theory [15] – a qualitative methodological approach explicitly concerned with empirically-derived theory development – and is inextricably linked to theoretical sampling. Theoretical sampling describes an iterative process of data collection, data analysis and theory development whereby data collection is governed by emerging theory rather than predefined characteristics of the population. Grounded theory saturation (often called theoretical saturation) concerns the theoretical categories – as opposed to data – that are being developed and becomes evident when ‘gathering fresh data no longer sparks new theoretical insights, nor reveals new properties of your core theoretical categories’ [46 p. 113]. Saturation in grounded theory, therefore, does not equate to the more common focus on data repetition and moves beyond a singular focus on sample size as the justification of sampling adequacy [46, 47]. Sample size in grounded theory cannot be determined a priori as it is contingent on the evolving theoretical categories.

포화(종종 '데이터' 또는 '주제별' 포화도라는 용어로 사용됨)는 근거 이론의 기원을 넘어 여러 질적 커뮤니티로 확산되었습니다. '새로운 데이터 없음', '새로운 주제 없음', '새로운 코드 없음'과 다양하게 동일시되는 의미의 확장과 함께, 포화도는 질적 탐구에서 '황금 표준'으로 부상했습니다[2, 26]. 그럼에도 불구하고 모스[48]가 주장했듯이, 포화는 '질적 엄격성의 보증'으로 가장 자주 호출되지만, '우리가 가장 잘 모르는 것'(587쪽)입니다. 물론 연구자들은 포화도가 특정 유형의 질적 연구(예: 대화 분석, [49]; 현상학적 연구, [50])에 적용하기 어렵거나 적절하지 않다고 경고하는 반면, 다른 연구자들은 이 개념을 완전히 거부합니다[19, 51]. 
Saturation – often under the terms of ‘data’ or ‘thematic’ saturation – has diffused into several qualitative communities beyond its origins in grounded theory. Alongside the expansion of its meaning, being variously equated with ‘no new data’, ‘no new themes’, and ‘no new codes’, saturation has emerged as the ‘gold standard’ in qualitative inquiry [2, 26]. Nevertheless, and as Morse [48] asserts, whilst saturation is the most frequently invoked ‘guarantee of qualitative rigor’, ‘it is the one we know least about’ (p. 587). Certainly researchers caution that saturation is less applicable to, or appropriate for, particular types of qualitative research (e.g. conversation analysis, [49]; phenomenological research, [50]) whilst others reject the concept altogether [19, 51].

이 분야의 방법론적 연구는 포화도에 대한 지침을 제공하고 포화를 '조작화'하고 증거하는 프로세스의 실제 적용을 개발하는 것을 목표로 합니다.

  • 게스트, 번스, 존슨[26]은 60개의 인터뷰를 분석한 결과 12번째 인터뷰에 이르러 주제의 포화 상태에 도달했다는 사실을 발견했습니다. 이들은 표본이 비교적 동질적이고 연구 목표가 집중되어 있기 때문에 더 이질적인 표본과 더 넓은 범위를 대상으로 한 연구는 포화 상태에 도달하기 위해 더 큰 규모가 필요할 것이라고 지적했습니다.
  • 이 질문을 다중 사이트, 다문화 연구로 확장한 Hagaman과 Wutich[28]는 연구 사이트를 가로지르는 메타 주제의 데이터 포화도를 달성하려면 20~40개의 인터뷰 샘플 크기가 필요하다는 것을 보여주었습니다.
  • 이론 중심 내용 분석에서 Francis 등[25]은 사전 결정된 모든 이론적 구성에 대해 17번째 인터뷰에 데이터 포화 상태에 도달했습니다. 저자들은 포화도 지정의 근거가 되는 두 가지 주요 원칙을 추가로 제안했습니다.
    • (a) 연구자는 1차 분석에 사용될 초기 분석 샘플(예: 10개의 인터뷰)을 선험적으로 지정하고,
    • (b) 분석에서 새로운 주제나 아이디어를 얻지 못할 경우 추가로 수행해야 하는 인터뷰 수(예: 3개)를 중단 기준으로 정해야 한다는 것입니다.
  • 투명성을 높이기 위해 프란시스 외[25]는 연구자가 포화 상태에 도달했다는 판단을 뒷받침하는 누적 빈도 그래프를 제시할 것을 권장합니다.
  • 주제 포화도 비교 방법(CoMeTS)도 제안되었는데[23], 각각의 새로운 인터뷰 결과를 이미 나온 인터뷰 결과와 비교하여 새로운 주제가 나오지 않으면 '포화된 지형'이 확립된 것으로 간주합니다.
  • 인터뷰 분석 순서는 데이터의 풍부도에 따라 포화 임계값에 영향을 미칠 수 있으므로, 콘스탄티노우 등[23]은 포화 상태를 확인하기 위해 인터뷰 순서를 바꾸고 다시 분석할 것을 권장합니다.
  • 헤닝크, 카이저, 마르코니의 [29] 방법론 연구는 포화도를 지정하고 입증하는 문제에 대해 더 자세히 조명합니다.
    • 인터뷰 데이터를 분석한 결과 코드 포화(즉, 추가 이슈가 식별되지 않는 지점)는 9번의 인터뷰로 달성할 수 있었지만 의미 포화(즉, 이슈의 차원, 뉘앙스 또는 통찰력이 더 이상 식별되지 않는 지점)는 16~24번의 인터뷰가 필요했습니다.
    • 은 특히 유병률이 높고 구체적인 코드의 경우 비교적 빨리 달성할 수 있지만, 깊이는 특히 개념적인 성격의 코드의 경우 추가 데이터가 필요합니다.

Methodological studies in this area aim to provide guidance about saturation and develop a practical application of processes that ‘operationalise’ and evidence saturation.

  • Guest, Bunce, and Johnson [26] analysed 60 interviews and found that saturation of themes was reached by the twelfth interview. They noted that their sample was relatively homogeneous, their research aims focused, so studies of more heterogeneous samples and with a broader scope would be likely to need a larger size to achieve saturation.
  • Extending the enquiry to multi-site, cross-cultural research, Hagaman and Wutich [28] showed that sample sizes of 20 to 40 interviews were required to achieve data saturation of meta-themes that cut across research sites.
  • In a theory-driven content analysis, Francis et al. [25] reached data saturation at the 17th interview for all their pre-determined theoretical constructs. The authors further proposed two main principles upon which specification of saturation be based:
    • (a) researchers should a priori specify an initial analysis sample (e.g. 10 interviews) which will be used for the first round of analysis and
    • (b) a stopping criterion, that is, a number of interviews (e.g. 3) that needs to be further conducted, the analysis of which will not yield any new themes or ideas.
  • For greater transparency, Francis et al. [25] recommend that researchers present cumulative frequency graphs supporting their judgment that saturation was achieved.
  • A comparative method for themes saturation (CoMeTS) has also been suggested [23] whereby the findings of each new interview are compared with those that have already emerged and if it does not yield any new theme, the ‘saturated terrain’ is assumed to have been established.
  • Because the order in which interviews are analysed can influence saturation thresholds depending on the richness of the data, Constantinou et al. [23] recommend reordering and re-analysing interviews to confirm saturation.
  • Hennink, Kaiser and Marconi’s [29] methodological study sheds further light on the problem of specifying and demonstrating saturation.
    • Their analysis of interview data showed that code saturation (i.e. the point at which no additional issues are identified) was achieved at 9 interviews, but meaning saturation (i.e. the point at which no further dimensions, nuances, or insights of issues are identified) required 16–24 interviews.
    • Although breadth can be achieved relatively soon, especially for high-prevalence and concrete codes, depth requires additional data, especially for codes of a more conceptual nature.


넬슨[19]은 포화도 개념을 비판하면서 개발 중인 이론의 견고성을 평가하기 위해 근거 이론 프로젝트에서 다섯 가지 개념적 깊이 기준을 제안합니다:

  • (a) 이론적 개념은 데이터에서 도출된 광범위한 증거에 의해 뒷받침되어야 하며,
  • (b) 상호 연결된 개념 네트워크의 일부임을 입증할 수 있고,
  • (c) 미묘함을 입증하고,
  • (d) 기존 문헌과 공명하고,
  • (e) 외부 타당성 테스트에 성공적으로 제출할 수 있어야 합니다.

Critiquing the concept of saturation, Nelson [19] proposes five conceptual depth criteria in grounded theory projects to assess the robustness of the developing theory:

  • (a) theoretical concepts should be supported by a wide range of evidence drawn from the data;
  • (b) be demonstrably part of a network of inter-connected concepts;
  • (c) demonstrate subtlety;
  • (d) resonate with existing literature; and
  • (e) can be successfully submitted to tests of external validity.

영양학[34], 보건 교육[32], 교육 및 보건 과학[22, 27], 정보 시스템[30], 조직 및 직장 연구[33], 인간 컴퓨터 상호작용[21], 회계 연구[24]에 이르기까지 다양한 학문 분야와 연구 영역에서 표본 크기 보고 및 충분성 평가의 관행을 조사하고자 한 다른 연구도 있습니다. 다른 연구에서는 박사 학위 질적 연구[31]와 근거 이론 연구[35]를 조사했습니다. 이러한 조사에서 불완전하고 부정확한 표본 크기 보고가 흔히 발견되는 반면, 표본 크기의 충분성에 대한 평가와 정당화는 훨씬 더 산발적으로 이루어지고 있습니다.  
Other work has sought to examine practices of sample size reporting and sufficiency assessment across a range of disciplinary fields and research domains, from nutrition [34] and health education [32], to education and the health sciences [22, 27], information systems [30], organisation and workplace studies [33], human computer interaction [21], and accounting studies [24]. Others investigated PhD qualitative studies [31] and grounded theory studies [35]. Incomplete and imprecise sample size reporting is commonly pinpointed by these investigations whilst assessment and justifications of sample size sufficiency are even more sporadic.

Sobal[34]은 30년 동안 영양 교육 저널에 발표된 질적 연구의 표본 규모를 조사했습니다. 개별 인터뷰를 사용한 연구(n = 30)의 평균 표본 크기는 45명이었으며, 이들 중 표본 크기가 포화 상태에 도달했는지 여부를 명시적으로 보고한 연구는 없었습니다. 소수의 논문에서는 표본 관련 제한 사항(대부분 표본의 크기보다는 표본의 유형에 관한 것)이 일반화 가능성을 어떻게 제한하는지 논의했습니다. 20년간의 보건 교육 연구에 대한 체계적인 분석[32]에 따르면 인터뷰 기반 연구의 평균 참여자 수는 104명(인터뷰 대상자 범위는 2~720명)이었습니다. 그러나 40%는 참가자 수를 보고하지 않았습니다. 주요 정보 시스템 저널[30]에 실린 83건의 질적 인터뷰 연구를 조사한 결과, 질적 방법론자의 권고, 선행 관련 연구 또는 포화도 기준에 근거하여 표본 규모에 대한 방어가 거의 없는 것으로 나타났습니다. 오히려 표본 크기는 출판 저널이나 연구 지역(미국 대 유럽 대 아시아)과 같은 요인과 상관관계가 있는 것으로 나타났습니다. 이러한 결과를 바탕으로 저자들은 질적 정보 시스템 연구에서 표본 규모를 결정하고 보고할 때 보다 엄격해야 하며, 근거 이론(예: 20~30개 인터뷰) 및 단일 사례(예: 15~30개 인터뷰) 프로젝트에 대한 최적의 표본 규모 범위를 권장했습니다. 
Sobal [34] examined the sample size of qualitative studies published in the Journal of Nutrition Education over a period of 30 years. Studies that employed individual interviews (n = 30) had an average sample size of 45 individuals and none of these explicitly reported whether their sample size sought and/or attained saturation. A minority of articles discussed how sample-related limitations (with the latter most often concerning the type of sample, rather than the size) limited generalizability. A further systematic analysis [32] of health education research over 20 years demonstrated that interview-based studies averaged 104 participants (range 2 to 720 interviewees). However, 40% did not report the number of participants. An examination of 83 qualitative interview studies in leading information systems journals [30] indicated little defence of sample sizes on the basis of recommendations by qualitative methodologists, prior relevant work, or the criterion of saturation. Rather, sample size seemed to correlate with factors such as the journal of publication or the region of study (US vs Europe vs Asia). These results led the authors to call for more rigor in determining and reporting sample size in qualitative information systems research and to recommend optimal sample size ranges for grounded theory (i.e. 20–30 interviews) and single case (i.e. 15–30 interviews) projects.

마찬가지로 조직 및 직장 연구 논문의 10% 미만이 방법론가, 선행 관련 연구 또는 포화도와 관련된 표본 크기 정당성을 제공했으며[33], 건강 관련 저널의 포커스 그룹 연구 중 17%만이 표본 크기(즉, 포커스 그룹 수)에 대한 설명을 제공했으며, [포화]가 가장 자주 인용된 논거였고 그 다음으로 [출판된 표본 크기 권장 사항][실용적인 이유][22] 순으로 나타났습니다. 포화 개념은 교육 및 보건 과학 분야에서 가장 많이 인용된 51개의 연구 중 11개에서 사용되었는데, 이 중 6개는 근거 이론 연구, 4개는 현상학적 연구, 1개는 내러티브 탐구였습니다[27]. 마지막으로, 회계학 분야의 인터뷰 기반 논문 641편을 분석한 Dai 등[24]은 상당수의 연구가 정확한 표본 크기를 보고하지 않았기 때문에 더 엄격할 것을 요구했습니다. 
Similarly, fewer than 10% of articles in organisation and workplace studies provided a sample size justification relating to existing recommendations by methodologists, prior relevant work, or saturation [33], whilst only 17% of focus groups studies in health-related journals provided an explanation of sample size (i.e. number of focus groups), with saturation being the most frequently invoked argument, followed by published sample size recommendations and practical reasons [22]. The notion of saturation was also invoked by 11 out of the 51 most highly cited studies that Guetterman [27] reviewed in the fields of education and health sciences, of which six were grounded theory studies, four phenomenological and one a narrative inquiry. Finally, analysing 641 interview-based articles in accounting, Dai et al. [24] called for more rigor since a significant minority of studies did not report precise sample size.

질적 연구의 엄격성에 대한 관심 증가(예: [52])와 질적 연구의 검증을 위한 보다 광범위한 방법론 및 분석 공개에도 불구하고[24], 표본 크기 보고 및 충분성 평가는 다양한 연구 영역에서 일관되지 않고 부분적으로만 이루어지고 있습니다. 
Despite increasing attention to rigor in qualitative research (e.g. [52]) and more extensive methodological and analytical disclosures that seek to validate qualitative work [24], sample size reporting and sufficiency assessment remain inconsistent and partial, if not absent, across a range of research domains.

본 연구의 목적
Objectives of the present study

본 연구는 건강과 관련된 질적 연구에 초점을 맞추어 표본 크기 보고 및 정당성에 대한 관습과 관행에 대한 기존의 체계적 분석을 강화하고자 했습니다. 또한, 본 연구는 질적 표본 크기가 학문적 서술에서 어떻게 특징지어지고 논의되는지를 조사함으로써 이전의 경험적 조사를 확장하고자 했습니다. 질적 건강 연구는 의학과의 연관성으로 인해 종종 양적 정신을 반영하는 견해와 입장에 직면하는 학제 간 분야입니다. 따라서 질적 건강 연구는 표본 규모를 고려할 때 구체화되는 과학계의 근본적인 철학적, 방법론적 차이를 드러내는 데 도움이 될 수 있는 상징적인 사례입니다. 따라서 본 연구에서는 질적 건강 연구와 관련된 세 가지 다른 학문 분야인 의학, 심리학, 사회학을 기반으로 비교 요소를 통합했습니다. 질적 건강 연구에서 대중적이고 널리 사용되는 방법론적 선택일 뿐만 아니라 인터뷰 대상자 수로 정의되는 표본 크기에 대한 고려가 특히 두드러지는 방법이기 때문에 [단일 참가자당 인터뷰 설계]에 분석의 초점을 맞추기로 결정했습니다. 
The present study sought to enrich existing systematic analyses of the customs and practices of sample size reporting and justification by focusing on qualitative research relating to health. Additionally, this study attempted to expand previous empirical investigations by examining how qualitative sample sizes are characterised and discussed in academic narratives. Qualitative health research is an inter-disciplinary field that due to its affiliation with medical sciences, often faces views and positions reflective of a quantitative ethos. Thus qualitative health research constitutes an emblematic case that may help to unfold underlying philosophical and methodological differences across the scientific community that are crystallised in considerations of sample size. The present research, therefore, incorporates a comparative element on the basis of three different disciplines engaging with qualitative health research: medicine, psychology, and sociology. We chose to focus our analysis on single-per-participant-interview designs as this not only presents a popular and widespread methodological choice in qualitative health research, but also as the method where consideration of sample size – defined as the number of interviewees – is particularly salient.

방법
Methods

연구 설계
Study design

횡단면 인터뷰 기반의 질적 연구를 보고하는 논문을 구조적으로 검색하고 양적 및 질적 분석 기법을 모두 사용하여 적격 보고서를 체계적으로 검토 및 분석했습니다. 
A structured search for articles reporting cross-sectional, interview-based qualitative studies was carried out and eligible reports were systematically reviewed and analysed employing both quantitative and qualitative analytic techniques.

(a) 동료 검토 프로세스를 따르고, (b) 저널 지표에 반영된 바와 같이 해당 분야에서 높은 수준과 영향력을 지닌 것으로 간주되며, (c) 질적 연구를 수용하고 출판하는 저널을 선정했습니다(추가 파일 1에는 질적 연구와 관련된 저널의 편집 입장과 가능한 경우 샘플 고려 사항이 제시되어 있습니다). 의학을 대표하는 영국의학저널(BMJ), 심리학을 대표하는 영국건강심리학저널(BJHP), 사회학을 대표하는 건강과 질병의 사회학(SHI) 등 각기 다른 학문 분야를 대표하는 세 개의 건강 관련 저널이 선정되었습니다. 
We selected journals which (a) follow a peer review process, (b) are considered high quality and influential in their field as reflected in journal metrics, and (c) are receptive to, and publish, qualitative research (Additional File 1 presents the journals’ editorial positions in relation to qualitative research and sample considerations where available). Three health-related journals were chosen, each representing a different disciplinary field; the British Medical Journal (BMJ) representing medicine, the British Journal of Health Psychology (BJHP) representing psychology, and the Sociology of Health & Illness (SHI) representing sociology.

연구 식별을 위한 검색 전략
Search strategy to identify studies

각 개별 저널의 검색 기능을 사용하여 '인터뷰*' 및 '질적'이라는 용어를 사용했으며, 2003년 1월 1일부터 2017년 9월 22일(즉, 15년 검토 기간) 사이에 출판된 논문으로 결과를 제한했습니다.
Employing the search function of each individual journal, we used the terms ‘interview*’ AND ‘qualitative’ and limited the results to articles published between 1 January 2003 and 22 September 2017 (i.e. a 15-year review period).

자격 기준
Eligibility criteria

검토 대상에 포함되려면 논문이 단면 연구 설계를 보고해야 했습니다. 따라서 종단 연구는 제외되었지만, 광범위한 연구 프로그램 내에서 수행된 연구(예: 광범위한 민족지학의 일부로 임상시험에 중첩된 인터뷰 연구, 종단 연구의 일부)는 단 한 번의 질적 인터뷰만 보고한 경우 포함되었습니다. 데이터 수집 방법은 개별적이고 동시적인 질적 인터뷰여야 하며(즉, 그룹 인터뷰, 구조화된 인터뷰, 일정 기간에 걸친 이메일 인터뷰는 제외), 데이터를 질적으로 분석해야 합니다(즉, 질적 데이터를 정량화한 연구는 제외). 혼합 방법 연구와 두 가지 이상의 질적 데이터 수집 방법(예: 개별 인터뷰 및 포커스 그룹)을 보고하는 논문은 제외되었습니다. 그림 1은 PRISMA 흐름도[53]로, 검색 및 선별된 논문, 적격성 평가 논문, 리뷰에 포함된 논문의 수를 보여줍니다(추가 파일 2는 리뷰에 포함된 논문의 전체 목록과 고유 식별 코드(예: BMJ01, BJHP02, SHI03)를 제공합니다). 한 명의 리뷰 저자(KV)가 검색에서 확인된 모든 논문의 적격성을 평가했습니다. 의심스러운 경우, KV와 JB는 정기적인 회의를 통해 논문을 유지하거나 제외하는 것에 대해 논의하고 공동으로 결정을 내렸습니다. 

To be eligible for inclusion in the review, the article had to report a cross-sectional study design. Longitudinal studies were thus excluded whilst studies conducted within a broader research programme (e.g. interview studies nested in a trial, as part of a broader ethnography, as part of a longitudinal research) were included if they reported only single-time qualitative interviews. The method of data collection had to be individual, synchronous qualitative interviews (i.e. group interviews, structured interviews and e-mail interviews over a period of time were excluded), and the data had to be analysed qualitatively (i.e. studies that quantified their qualitative data were excluded). Mixed method studies and articles reporting more than one qualitative method of data collection (e.g. individual interviews and focus groups) were excluded. Figure 1, a PRISMA flow diagram [53], shows the number of: articles obtained from the searches and screened; papers assessed for eligibility; and articles included in the review (Additional File 2 provides the full list of articles included in the review and their unique identifying code – e.g. BMJ01, BJHP02, SHI03). One review author (KV) assessed the eligibility of all papers identified from the searches. When in doubt, discussions about retaining or excluding articles were held between KV and JB in regular meetings, and decisions were jointly made.

 

데이터 추출 및 분석
Data extraction and analysis

데이터 추출 양식(추가 파일 3 참조)을 개발하여 (a) 논문에 대한 정보(예: 저자, 제목, 학술지, 출판 연도 등), (b) 연구의 목적, 표본 크기 및 이에 대한 정당성, 참여자 특성, 표본 추출 기법 및 저자의 표본 관련 관찰 또는 의견, (c) 데이터 분석 방법 또는 기술, 분석에 참여한 연구자 수, 소프트웨어 사용 가능성, 인식론적 고려 사항에 대한 논의 등 세 가지 영역의 정보를 기록했습니다. 각 논문의 초록, 방법 및 토론(및/또는 결론) 섹션은 모든 관련 정보를 추출한 한 명의 저자(KV)가 검토했습니다. 이는 논문에서 직접 복사했으며, 필요한 경우 의견, 메모 및 초기 생각을 기록했습니다. 
A data extraction form was developed (see Additional File 3) recording three areas of information: (a) information about the article (e.g. authors, title, journal, year of publication etc.); (b) information about the aims of the study, the sample size and any justification for this, the participant characteristics, the sampling technique and any sample-related observations or comments made by the authors; and (c) information about the method or technique(s) of data analysis, the number of researchers involved in the analysis, the potential use of software, and any discussion around epistemological considerations. The Abstract, Methods and Discussion (and/or Conclusion) sections of each article were examined by one author (KV) who extracted all the relevant information. This was directly copied from the articles and, when appropriate, comments, notes and initial thoughts were written down.

기사에서 제공하는 표본 크기의 정당성을 조사하기 위해 귀납적 내용 분석[54]이 처음에 수행되었습니다. 이 분석을 바탕으로 질적으로 다른 표본 크기 정당화를 표현하는 범주를 개발했습니다. 
To examine the kinds of sample size justifications provided by articles, an inductive content analysis [54] was initially conducted. On the basis of this analysis, the categories that expressed qualitatively different sample size justifications were developed.

또한 다음과 같은 측면에 대한 정량적 데이터를 추출하거나 코딩했습니다: 
We also extracted or coded quantitative data regarding the following aspects:

  • 학술지 및 출판 연도
  • 인터뷰 횟수
  • 참가자 수
  • 표본 크기 정당성 유무(예/아니오)
  • 특정 표본 크기 정당화 범주의 존재 여부(예/아니요) 및
  • 제공된 표본 크기 정당화 항목의 수
  • Journal and year of publication
  • Number of interviews
  • Number of participants
  • Presence of sample size justification(s) (Yes/No)
  • Presence of a particular sample size justification category (Yes/No), and
  • Number of sample size justifications provided

이러한 데이터를 탐색하기 위해 설명적 통계 분석과 추론적 통계 분석이 사용되었습니다. 
Descriptive and inferential statistical analyses were used to explore these data.

그런 다음 연구의 표본 크기에 대해 논의하거나 언급하는 모든 과학적 서술에 대해 주제별 분석[55]을 수행했습니다. 이러한 내러티브는 표본 크기를 정당화하는 논문과 그렇지 않은 논문 모두에서 분명하게 나타났습니다. 이러한 내러티브를 식별하기 위해 방법 섹션 외에도 검토된 논문의 토론 섹션을 조사하고 관련 데이터를 추출하여 분석했습니다. 
A thematic analysis [55] was then performed on all scientific narratives that discussed or commented on the sample size of the study. These narratives were evident both in papers that justified their sample size and those that did not. To identify these narratives, in addition to the methods sections, the discussion sections of the reviewed articles were also examined and relevant data were extracted and analysed.

결과
Results

총 214개 논문(BMJ 21개, BJHP 53개, SHI 140개)이 검토 대상에 포함되었습니다. 표 1은 세 저널에서 검토한 연구의 표본 크기(인터뷰 수로 측정)에 대한 기본 정보를 제공합니다. 그림 2는 학술지별로 매년 출판되는 대상 논문 수를 보여줍니다.
In total, 214 articles – 21 in the BMJ, 53 in the BJHP and 140 in the SHI – were eligible for inclusion in the review. Table 1 provides basic information about the sample sizes – measured in number of interviews – of the studies reviewed across the three journals. Figure 2 depicts the number of eligible articles published each year per journal.

 

2012년 이후 BMJ에 게재된 질적 연구 논문이 현저히 감소했으며, 이는 질적 연구를 대상으로 하는 BMJ Open의 시작과 일치하는 것으로 보입니다.
The publication of qualitative studies in the BMJ was significantly reduced from 2012 onwards and this appears to coincide with the initiation of the BMJ Open to which qualitative studies were possibly directed.

유의한 Kruskal-WallisFootnote2 테스트에 따라 쌍으로 비교한 결과, BJHP에 게재된 연구의 표본 크기가 BMJ 또는 SHI에 게재된 연구보다 유의하게(p < .001) 작은 것으로 나타났습니다. BMJ와 SHI 논문의 표본 크기는 서로 크게 다르지 않았습니다. 
Pairwise comparisons following a significant Kruskal-WallisFootnote2 test indicated that the studies published in the BJHP had significantly (p < .001) smaller samples sizes than those published either in the BMJ or the SHI. Sample sizes of BMJ and SHI articles did not differ significantly from each other.

표본 크기 정당화: 양적 및 질적 콘텐츠 분석 결과
Sample size justifications: Results from the quantitative and qualitative content analysis

BMJ 논문 21편 중 10편(47.6%), BJHP 논문 53편 중 26편(49.1%), SHI 논문 140편 중 24편(17.1%)이 일종의 표본 크기 정당화를 제공했습니다. 표 2에서 볼 수 있듯이, 표본 크기를 정당화한 논문의 대부분은 한 가지 정당화를 제공했습니다(70%).

  • 두 가지 정당화를 제공한 연구는 14건(25%),
  • 세 가지 정당화를 제공한 연구는 1건(1.7%),
  • 네 가지 정당화를 제공한 연구는 2건(3.3%)이었습니다.

Ten (47.6%) of the 21 BMJ studies, 26 (49.1%) of the 53 BJHP papers and 24 (17.1%) of the 140 SHI articles provided some sort of sample size justification. As shown in Table 2, the majority of articles which justified their sample size provided one justification (70% of articles);

  • fourteen studies (25%) provided two distinct justifications;
  • one study (1.7%) gave three justifications and
  • two studies (3.3%) expressed four distinct justifications.


수행된 인터뷰 횟수(즉, 표본 크기)와 정당화 제공 사이에는 연관성이 없었습니다(rpb = .054, p = .433). 학술지 내에서는 맨-위트니 테스트 결과 BMJ와 SHI에서 '정당화' 및 '비정당화' 논문의 표본 크기가 서로 크게 다르지 않은 것으로 나타났습니다. BJHP에서는 '정당화' 논문(평균 순위 = 31.3)의 표본 크기가 '비정당화' 연구(평균 순위 = 22.7; U = 237.000, p < .05)보다 훨씬 더 컸습니다. 
There was no association between the number of interviews (i.e. sample size) conducted and the provision of a justification (rpb = .054, p = .433). Within journals, Mann-Whitney tests indicated that sample sizes of ‘justifying’ and ‘non-justifying’ articles in the BMJ and SHI did not differ significantly from each other. In the BJHP, ‘justifying’ articles (Mean rank = 31.3) had significantly larger sample sizes than ‘non-justifying’ studies (Mean rank = 22.7; U = 237.000, p < .05).

논문이 게재된 저널과 정당화 제공 사이에는 유의미한 연관성이 있었습니다(χ2 (2) = 23.83, p < .001). BJHP 연구는 예상보다 훨씬 더 자주 표본 크기 정당성을 제공했으며(z = 2.9), SHI 연구는 훨씬 덜 자주 제공했습니다(z = - 2.4). 논문이 BJHP에 게재된 경우, 근거를 제공할 확률은 SHI에 게재된 경우보다 4.8배 더 높았습니다마찬가지로 BMJ에 게재된 경우, 표본 크기를 정당화하는 연구 확률은 SHI에 게재된 경우보다 4.5배 높았습니다.
There was a significant association between the journal a paper was published in and the provision of a justification (χ2 (2) = 23.83, p < .001). BJHP studies provided a sample size justification significantly more often than would be expected (z = 2.9); SHI studies significantly less often (z = − 2.4). If an article was published in the BJHP, the odds of providing a justification were 4.8 times higher than if published in the SHI. Similarly if published in the BMJ, the odds of a study justifying its sample size were 4.5 times higher than in the SHI.

과학적 내러티브의 질적 내용 분석을 통해 11개의 서로 다른 표본 크기 정당성을 확인했습니다. 이에 대해서는 아래에 설명되어 있으며 관련 논문에서 발췌하여 설명합니다. 요약하자면, 세 저널에서 이러한 근거가 사용된 빈도는 표 3에 나와 있습니다.
The qualitative content analysis of the scientific narratives identified eleven different sample size justifications. These are described below and illustrated with excerpts from relevant articles. By way of a summary, the frequency with which these were deployed across the three journals is indicated in Table 3.

 

포화
Saturation

포화는 세 학술지 모두에서 표본 크기의 충분성을 정당화하기 위해 연구에서 가장 많이 사용된 원칙(전체 정당화의 55.4%)이었습니다. BMJ에서 데이터 포화도를 달성했다고 주장한 연구는 2건(BMJ17, BMJ18)이었으며, 포화도라는 용어를 명시적으로 사용하지 않고 설명적으로 언급한 논문은 1건(BMJ13)이었습니다. 흥미롭게도 BMJ13은 '비정상적/일탈적 관찰'을 찾고 연구 결과의 일관성을 확립하기 위해 포화 시점을 넘어선 데이터를 분석에 포함했습니다.
Saturation was the most commonly invoked principle (55.4% of all justifications) deployed by studies across all three journals to justify the sufficiency of their sample size. In the BMJ, two studies claimed that they achieved data saturation (BMJ17; BMJ18) and one article referred descriptively to achieving saturation without explicitly using the term (BMJ13). Interestingly, BMJ13 included data in the analysis beyond the point of saturation in search of ‘unusual/deviant observations’ and with a view to establishing findings consistency.

인터뷰 연구에 참여하기 위해 33명의 여성에게 연락을 취했습니다. 27명이 동의했고 21명(21-64세, 중앙값 40세)이 데이터 포화점에 도달하기 전에 인터뷰를 진행했습니다(한 번의 테이프 실패로 분석에 사용할 수 있는 인터뷰는 20건). (BMJ17).
Thirty three women were approached to take part in the interview study. Twenty seven agreed and 21 (aged 21–64, median 40) were interviewed before data saturation was reached (one tape failure meant that 20 interviews were available for analysis).
 (BMJ17).

인터뷰의 약 3분의 2를 분석한 결과 새로운 주제는 발견되지 않았지만, 모든 인터뷰는 견해와 보고된 행동이 얼마나 특징적인지 더 잘 이해하고 비정상적이거나 일탈적인 관찰 사례를 더 수집하기 위해 코딩되었습니다. (BMJ13).
No new topics were identified following analysis of approximately two thirds of the interviews; however, all interviews were coded in order to develop a better understanding of how characteristic the views and reported behaviours were, and also to collect further examples of unusual/deviant observations.
 (BMJ13).

두 개의 논문은 데이터 포화도를 달성하기 위해 표본 크기를 미리 결정했다고 보고했습니다(BMJ08 - [기존 연구와 일치]하는 섹션의 발췌문 참조, BMJ15 - [실용적 고려 사항] 섹션의 발췌문 참조).

  • 한 논문에서는 "분석에서 더 이상 반복되는 주제가 나타나지 않을 때"를 이론적 포화 상태(BMJ06)라고 주장한 반면,
  • 다른 연구에서는 분석 범주가 매우 포화 상태이지만 이론적 포화 상태를 달성했는지 여부를 판단할 수 없다고 주장했습니다(BMJ04).
  • 한 논문(BMJ18)은 포화도에 대한 입장을 뒷받침하기 위해 참고 문헌을 인용했습니다.

Two articles reported pre-determining their sample size with a view to achieving data saturation (BMJ08 – see extract in section In line with existing research; BMJ15 – see extract in section Pragmatic considerations) without further specifying if this was achieved.

  • One paper claimed theoretical saturation (BMJ06) conceived as being when “no further recurring themes emerging from the analysis”
  • whilst another study argued that although the analytic categories were highly saturated, it was not possible to determine whether theoretical saturation had been achieved (BMJ04).
  • One article (BMJ18) cited a reference to support its position on saturation.

BJHP에서 6개의 논문이 데이터 포화 상태에 도달했다고 주장했고(BJHP21, BJHP32, BJHP39, BJHP48, BJHP49, BJHP52), 1개의 논문은 표본 크기와 데이터 포화 상태에 도달하기 위한 가이드라인을 고려할 때 포화 상태에 도달할 것으로 예상한다고 명시했습니다(BJHP50).  
In the BJHP, six articles claimed that they achieved data saturation (BJHP21; BJHP32; BJHP39; BJHP48; BJHP49; BJHP52) and one article stated that, given their sample size and the guidelines for achieving data saturation, it anticipated that saturation would be attained (BJHP50).

새로운 주제가 나타나지 않는 시점으로 정의되는 데이터 포화 상태에 도달할 때까지 모집을 계속했습니다. (BJHP48).
Recruitment continued until data saturation was reached, defined as the point at which no new themes emerged.
 (BJHP48).

이전에는 질적 연구에서 데이터 포화 상태에 도달하기 위해 최소 12개 이상의 표본 크기가 필요하다고 권장되어 왔습니다(Clarke & Braun, 2013; Fugard & Potts, 2014; Guest, Bunce, & Johnson, 2006). 따라서 이 연구의 질적 분석과 규모를 위해 13개의 표본이 충분한 것으로 간주되었습니다. (BJHP50).
It has previously been recommended that qualitative studies require a minimum sample size of at least 12 to reach data saturation (Clarke & Braun, 2013; Fugard & Potts, 2014; Guest, Bunce, & Johnson, 2006) Therefore, a sample of 13 was deemed sufficient for the qualitative analysis and scale of this study.
 (BJHP50).

두 개의 연구는 [주제 포화]를 달성했다고 주장했고(BJHP28 - 표본 크기 가이드라인 섹션의 발췌문 참조, BJHP31), 이론 개발과 이론적 표본 추출을 명시적으로 다룬 한 개의 논문(BJHP30)은 [이론적 포화]와 [데이터 포화]를 모두 주장했습니다.
Two studies argued that they achieved thematic saturation (BJHP28 – see extract in section Sample size guidelines; BJHP31) and one (BJHP30) article, explicitly concerned with theory development and deploying theoretical sampling, claimed both theoretical and data saturation.

최종 표본 크기는 주제 포화(주제와 참여자의 의견이 반복되어 새로운 데이터가 더 이상 연구 결과에 기여하지 않는 것으로 보이는 지점)에 따라 결정되었습니다(Morse, 1995). 이 시점에서 데이터 생성이 종료되었습니다. (BJHP31).
The final sample size was determined by thematic saturation, the point at which new data appears to no longer contribute to the findings due to repetition of themes and comments by participants (Morse, 1995). At this point, data generation was terminated.
 (BJHP31).

5개의 연구는 포화라는 용어를 더 이상 명시하지 않고 포화도를 달성(BJHP05, BJHP33, BJHP40, BJHP13 - 실용적 고려 사항 섹션의 발췌문 참조)했거나 예상(BJHP46)했다고 주장했습니다. BJHP17은 포화라는 용어를 구체적으로 사용하지 않고 포화 상태에 도달한 상태를 설명적으로 언급했습니다. 테마의 포화 상태가 아닌 [코딩의 포화 상태]에 도달했다고 주장한 논문은 한 편(BJHP18)이었습니다. 포화 상태에 도달하지 않았다고 명시적으로 언급한 논문은 2건이었으며, 그 대신 [테마의 완성도](BJHP27)를 주장하거나 테마가 복제되고 있다는 주장(BJHP53)을 통해 표본 크기의 충분성을 논증했습니다.
Five studies argued that they achieved (BJHP05; BJHP33; BJHP40; BJHP13 – see extract in section Pragmatic considerations) or anticipated (BJHP46) saturation without any further specification of the term. BJHP17 referred descriptively to a state of achieved saturation without specifically using the term. Saturation of coding, but not saturation of themes, was claimed to have been reached by one article (BJHP18). Two articles explicitly stated that they did not achieve saturation; instead claiming a level of theme completeness (BJHP27) or that themes being replicated (BJHP53) were arguments for sufficiency of their sample size.

또한 포화점에 도달한 시점이 아니라 실용적인 이유로 데이터 수집이 중단되었습니다. 그럼에도 불구하고 데이터 분석이 끝날 무렵에도 하위 테마 내 뉘앙스가 여전히 나타나고 있었지만, 테마 자체는 복제되고 있어 완성도가 높다는 것을 알 수 있었습니다. (BJHP27).
Furthermore, data collection ceased on pragmatic grounds rather than at the point when saturation point was reached. Despite this, although nuances within sub-themes were still emerging towards the end of data analysis, the themes themselves were being replicated indicating a level of completeness.
 (BJHP27).

마지막으로, 한 논문에서는 [이론적 충분성]의 기준이 표본 크기를 결정한다고 주장하며 데이터 포화도 개념을 비판하고 명시적으로 포기했습니다(BJHP16).
Finally, one article criticised and explicitly renounced the notion of data saturation claiming that, on the contrary, the criterion of theoretical sufficiency determined its sample size (BJHP16).

원래 근거 이론 텍스트에 따르면, 데이터 수집은 새로운 발견이 없을 때까지(즉, '데이터 포화'; Glaser & Strauss, 1967) 계속되어야 합니다. 그러나 최근 이 과정에 대한 개정 논의에서는 데이터 수집이 완전한 과정인 경우는 드물며, 연구자는 데이터가 충분한 이론적 설명을 만들 수 있는 정도, 즉 '이론적 충분성'에 의존해야 한다고 주장하고 있습니다(Dey, 1999). 이 연구에서는 데이터 포화도를 찾기보다는 이론적 충분성을 기준으로 모집을 진행하기로 결정했습니다. (BJHP16).
According to the original Grounded Theory texts, data collection should continue until there are no new discoveries (
i.e., ‘data saturation’; Glaser & Strauss, 1967). However, recent revisions of this process have discussed how it is rare that data collection is an exhaustive process and researchers should rely on how well their data are able to create a sufficient theoretical account or ‘theoretical sufficiency’ (Dey, 1999). For this study, it was decided that theoretical sufficiency would guide recruitment, rather than looking for data saturation. (BJHP16).

포화도 논증을 사용한 20개의 BJHP 논문 중 10개가 이 원칙과 관련된 인용을 하나 이상 사용했습니다.
Ten out of the 20 BJHP articles that employed the argument of saturation used one or more citations relating to this principle.

SHI에서는 한 논문(SHI01)이 저자의 판단에 따라 카테고리 포화를 달성했다고 주장했습니다.
In the SHI, one article (SHI01) claimed that it achieved category saturation based on authors’ judgment.

이 수치는 사전에 정해진 것이 아니라 샘플링 전략과 데이터 분석을 기반으로 '카테고리 포화'가 달성되는 시점에 대한 판단에 따라 결정되었습니다. (SHI01).
This number was not fixed in advance, but was guided by the sampling strategy and the judgement, based on the analysis of the data, of the point at which ‘category saturation’ was achieved.
 (SHI01).

3편의 논문은 포화도라는 용어를 사용하지 않거나 어떤 종류의 포화도(예: 데이터, 이론적, 주제적 포화도)를 달성했는지 명시하지 않고 포화도 달성 상태를 설명했으며(SHI04, SHI13, SHI30), 나머지 4편의 논문은 포화도를 달성했다고 명시적으로 언급했습니다(SHI100, SHI125, SHI136, SHI137). 2편의 논문은 데이터 포화를 달성했다고 명시했고(SHI73 - 표본 크기 가이드라인 섹션의 발췌문 참조, SHI113), 2편은 이론적 포화를 주장했으며(SHI78; SHI115), 2편은 주제별 포화를 달성했거나(SHI87; SHI139) 포화된 주제를 언급했습니다(SHI29; SHI50). 
Three articles described a state of achieved saturation without using the term or specifying what sort of saturation they had achieved (i.e. data, theoretical, thematic saturation) (SHI04; SHI13; SHI30) whilst another four articles explicitly stated that they achieved saturation (SHI100; SHI125; SHI136; SHI137). Two papers stated that they achieved data saturation (SHI73 – see extract in section Sample size guidelines; SHI113), two claimed theoretical saturation (SHI78; SHI115) and two referred to achieving thematic saturation (SHI87; SHI139) or to saturated themes (SHI29; SHI50).

아래 설명된 범주에서 이론적 포화 상태에 도달하면 모집 및 분석이 중단되었습니다(링컨과 구바 1985). (SHI115).
Recruitment and analysis ceased once theoretical saturation was reached in the categories described below (Lincoln and Guba 1985).
 (SHI115).

아래에 표시된 응답자의 인용문은 대표적인 것으로 선택되었으며 포화 된 주제를 보여줍니다. (SHI50).
The respondents’ quotes drawn on below were chosen as representative, and illustrate saturated themes.
 (SHI50).

한 기사에서는 표본 크기로 인해 주제별 포화도가 예상되었다고 언급했습니다(SHI94). [이론적 포화도를 정확히 파악하기 어렵다는 점]을 간략하게 언급하면서 SHI32(데이터의 풍부성 및 양 섹션의 발췌문 참조)는 "인터뷰 대상자들 사이에서 나타나기 시작한 높은 수준의 합의"를 근거로 표본 크기의 충분성을 옹호하며 인터뷰의 정보가 복제되고 있음을 시사했습니다. 마지막으로 SHI112(조사 결과의 일관성을 확인하기 위한 추가 샘플링 섹션의 발췌문 참조)는 [담론 패턴의 포화 상태]를 달성했다고 주장했습니다. 19개의 SHI 논문 중 7개가 [포화에 대한 입장을 뒷받침하는 참고 문헌을 인용]했습니다(세 저널에서 포화도에 대한 입장을 뒷받침하기 위해 논문에서 사용한 인용 문헌의 전체 목록은 추가 파일 4 참조).
One article stated that thematic saturation was anticipated with its sample size (SHI94). Briefly referring to the difficulty in pinpointing achievement of theoretical saturation, SHI32 (see extract in section Richness and volume of data) defended the sufficiency of its sample size on the basis of “the high degree of consensus [that] had begun to emerge among those interviewed”, suggesting that information from interviews was being replicated. Finally, SHI112 (see extract in section Further sampling to check findings consistency) argued that it achieved saturation of discursive patterns. Seven of the 19 SHI articles cited references to support their position on saturation (see Additional File 4 for the full list of citations used by articles to support their position on saturation across the three journals).

전반적으로 포화도 개념은 포화, 데이터 포화, 주제 포화, 이론적 포화, 카테고리 포화, 코딩의 포화, 담론적 주제의 포화, 주제 완성도 등의 용어로 표현되는 다양한 변형을 포괄하는 것이 분명합니다. 그러나 이러한 다양한 주장이 때때로 문헌을 참조하여 뒷받침되기는 하지만, 당면한 연구와 관련하여 입증되지는 않았다는 점에 주목할 필요가 있습니다.
Overall, it is clear that the concept of saturation encompassed a wide range of variants expressed in terms such as saturation, data saturation, thematic saturation, theoretical saturation, category saturation, saturation of coding, saturation of discursive themes, theme completeness. It is noteworthy, however, that although these various claims were sometimes supported with reference to the literature, they were not evidenced in relation to the study at hand.

실용적인 고려 사항
Pragmatic considerations

실용적 고려사항에 근거한 표본 크기 결정은 세 학술지 모두에서 두 번째로 자주 인용된 주장(전체 정당화 중 9.6%)이었습니다. BMJ에서는 한 논문(BMJ15)에서 시간 제약과 특정 연구 모집단에 접근하기 어렵다는 실용적인 이유를 들어 표본 크기 결정을 정당화했습니다.
The determination of sample size on the basis of pragmatic considerations was the second most frequently invoked argument (9.6% of all justifications) appearing in all three journals. In the BMJ, one article (BMJ15) appealed to pragmatic reasons, relating to time constraints and the difficulty to access certain study populations, to justify the determination of its sample size.

연구자들의 이전 경험과 문헌에 근거하여[30, 31] 각 사이트에서 15~20명의 환자를 모집하면 각 사이트의 데이터를 개별적으로 분석할 때 데이터 포화 상태에 도달할 것으로 예상했습니다. 시간 제약과 일부 재택 간호 서비스에서 간병인을 구하기 어려울 것으로 예상되어 사이트당 7~10명의 간병인을 목표로 설정했습니다. 이를 통해 전체적으로 75-100명의 환자와 35-50명의 간병인을 대상으로 표본을 추출했습니다. (BMJ15).
On the basis of the researchers’ previous experience and the literature, 
[30, 31] we estimated that recruitment of 15–20 patients at each site would achieve data saturation when data from each site were analysed separately. We set a target of seven to 10 caregivers per site because of time constraints and the anticipated difficulty of accessing caregivers at some home based care services. This gave a target sample of 75–100 patients and 35–50 caregivers overall. (BMJ15).

BJHP에서는 시간 또는 재정적 제약(BJHP27 - 포화 섹션의 발췌문 참조, BJHP53), 참여자 응답률(BJHP13), 인터뷰 대상자를 샘플링하는 고정된참여자 풀의 (따라서 제한된) 규모(BJHP18)와 관련된 실용적인 고려 사항을 언급한 논문이 4편 있었습니다.
In the BJHP, four articles mentioned pragmatic considerations relating to time or financial constraints (BJHP27 – see extract in section Saturation; BJHP53), the participant response rate (BJHP13), and the fixed (and thus limited) size of the participant pool from which interviewees were sampled (BJHP18).

우리는 더 이상 데이터를 수집해도 더 이상 주제가 나오지 않는 포화 상태에 도달할 때까지 인터뷰를 계속하는 것을 목표로 삼았습니다. 실제로 연구에 참여하겠다고 자원한 사람의 수에 따라 연구 모집이 중단되는 시점이 결정되었습니다(청소년 15명, 부모 15명). 그럼에도 불구하고 마지막 몇 번의 인터뷰를 통해 개념의 상당한 반복이 발생하여 충분한 샘플링이 이루어졌음을 알 수 있었습니다. (BJHP13).
We had aimed to continue interviewing until we had reached saturation, a point whereby further data collection would yield no further themes. In practice, the number of individuals volunteering to participate dictated when recruitment into the study ceased (15 young people, 15 parents). Nonetheless, by the last few interviews, significant repetition of concepts was occurring, suggesting ample sampling.
 (BJHP13).

마지막으로 세 개의 SHI 논문은 시간 제약 및 프로젝트 관리 가능성(SHI56), 제한된 응답자 및 프로젝트 리소스(SHI131), 시간 제약(SHI113)과 같은 실용적인 측면과 관련하여 표본 규모를 설명했습니다.
Finally, three SHI articles explained their sample size with reference to practical aspects:

  • time constraints and project manageability (SHI56),
  • limited availability of respondents and project resources (SHI131), and
  • time constraints (SHI113).

표본의 크기는 주로 연구를 완료할 수 있는 응답자와 리소스의 가용성에 따라 결정되었습니다. 표본 구성은 가능한 한 맥락적 요인(예: 성별 관계 및 인종)이 질병 경험을 매개하는 방식에 대한 우리의 관심을 반영했습니다. (SHI131).
The size of the sample was largely determined by the availability of respondents and resources to complete the study. Its composition reflected, as far as practicable, our interest in how contextual factors (for example, gender relations and ethnicity) mediated the illness experience.
 (SHI131).

분석의 질
Qualities of the analysis

이 표본 크기 정당화(전체 정당화 중 8.4%)는 주로 BJHP 기사에서 사용되었으며, 집중적이고 관용적이거나 잠재적으로 초점을 맞춘 분석, 즉 [설명description을 넘어선 분석]에 대해 언급했습니다. 보다 구체적으로, 6개의 논문은 녹취록에 대한 집중적인 분석 및/또는 연구/분석의 관용적 초점을 근거로 표본 크기를 옹호했습니다. 이 중 4개 논문(BJHP02, BJHP19, BJHP24, BJHP47)은 해석적 현상학적 분석(IPA) 접근법을 채택했습니다. 
This sample size justification (8.4% of all justifications) was mainly employed by BJHP articles and referred to an intensive, idiographic and/or latently focused analysis, i.e. that moved beyond description. More specifically, six articles defended their sample size on the basis of an intensive analysis of transcripts and/or the idiographic focus of the study/analysis. Four of these papers (BJHP02; BJHP19; BJHP24; BJHP47) adopted an Interpretative Phenomenological Analysis (IPA) approach.

본 연구에서는 각 참가자의 account을 탐색하기 위한 목적으로 10명의 표본을 사용했습니다(Smith et al., 1999). (BJHP19).
The current study employed a sample of 10 in keeping with the aim of exploring each participant’s account (Smith
 et al., 1999). (BJHP19).

BJHP47은 IPA 접근법 내에서 포화 개념을 명시적으로 포기했습니다. 다른 두 BJHP 논문은 주제 분석을 수행했습니다(BJHP34; BJHP38). 분석 수준 (즉, 피상적 인 설명 분석과 반대되는 잠재적 분석)은 개별 녹취록에 대한 집중적 인 분석이라는 주장과 함께 BJHP38에 의해 정당화로도 호출되었습니다.
BJHP47 explicitly renounced the notion of saturation within an IPA approach. The other two BJHP articles conducted thematic analysis (BJHP34; BJHP38). The level of analysis – i.e. latent as opposed to a more superficial descriptive analysis – was also invoked as a justification by BJHP38 alongside the argument of an intensive analysis of individual transcripts

그 결과 표본 크기는 주제별 분석에 사용되는 표본 크기 범위의 하위에 속했습니다(Braun & Clarke, 2013). 이는 각 녹취록에 대한 [상당한 성찰, 대화 및 시간을 확보하기 위한 것]으로, 피상적인 서술적 분석이 아닌 근본적인 아이디어를 파악하기 위해 사용된 [보다 잠재적인 수준의 분석]에 부합하는 것이었습니다(Braun & Clarke, 2006). (BJHP38).
The resulting sample size was at the lower end of the range of sample sizes employed in thematic analysis (Braun & Clarke, 2013). This was in order to enable significant reflection, dialogue, and time on each transcript and was in line with the more latent level of analysis employed, to identify underlying ideas, rather than a more superficial descriptive analysis (Braun & Clarke, 2006).
 (BJHP38).

마지막으로, 한 BMJ 논문(BMJ21)은 [분석 작업의 복잡성]을 언급하며 표본 규모를 옹호했습니다.
Finally, one BMJ paper (BMJ21) defended its sample size with reference to the complexity of the analytic task.

인터뷰의 깊이와 기간, 데이터의 풍부함, 분석 작업의 복잡성 때문에 30~35명의 인터뷰에 도달했을 때 모집을 중단했습니다. (BMJ21).
We stopped recruitment when we reached 30–35 interviews, owing to the depth and duration of interviews, richness of data, and complexity of the analytical task.
 (BMJ21).

샘플링 요건 충족
Meet sampling requirements

표본 추출 요건 충족(전체 정당화 이유 중 7.2%)은 두 개의 BMJ 논문과 네 개의 SHI 논문에서 표본 크기를 설명하기 위해 사용한 또 다른 논거였습니다. 특정 인터뷰 대상자 특성 측면에서 [최대 변동 샘플링을 달성]하는 것이 두 개의 BMJ 연구(BMJ02, BMJ16 - 연구 설계 요건 충족 섹션의 발췌문 참조)의 표본 규모를 결정하고 설명했습니다.
Meeting sampling requirements (7.2% of all justifications) was another argument employed by two BMJ and four SHI articles to explain their sample size. Achieving maximum variation sampling in terms of specific interviewee characteristics determined and explained the sample size of two BMJ studies (BMJ02; BMJ16 – see extract in section Meet research design requirements).

연령, 성별, 인종, 출석 빈도, 건강 상태의 다양성에 대한 샘플링 프레임 요건이 충족될 때까지 모집을 계속했습니다. (BMJ02).
Recruitment continued until sampling frame requirements were met for diversity in age, sex, ethnicity, frequency of attendance, and health status.
 (BMJ02).

SHI 논문과 관련하여 두 논문에서 표본 추출 전략에 근거하여 표본 수를 설명한 반면(SHI01-포화도 섹션의 발췌문 참조, SHI23), 한 논문에서는 [특정 관심 특성 측면에서 표본 이질성을 확보]하는 데 도움이 되는 표본 추출 요건이 인용되었습니다(SHI127).
Regarding the SHI articles, two papers explained their numbers on the basis of their sampling strategy (SHI01- see extract in section Saturation; SHI23) whilst sampling requirements that would help attain sample heterogeneity in terms of a particular characteristic of interest was cited by one paper (SHI127).

정량적 연구를 위한 모집 장소와 추가 목적 기준의 조합으로 104건의 2단계 인터뷰가 이루어졌습니다(인터넷(OLC): 21건, 인터넷(FTF): 20건, 체육관(FTF): 23건, HIV 검사(FTF): 20건, HIV 치료(FTF): 20건.). (SHI23).
The combination of matching the recruitment sites for the quantitative research and the additional purposive criteria led to 104 phase 2 interviews (Internet (OLC): 21; Internet (FTF): 20); Gyms (FTF): 23; HIV testing (FTF): 20; HIV treatment (FTF): 20.)
 (SHI23).

실시된 50건의 인터뷰 중 30건은 스페인어에서 영어로 번역되었습니다. 연구 결과를 도출한 이 30명은 우울증 증상과 교육 수준의 이질성을 고려하여 번역 대상으로 선정되었습니다. (SHI127).
Of the fifty interviews conducted, thirty were translated from Spanish into English. These thirty, from which we draw our findings, were chosen for translation based on heterogeneity in depressive symptomology and educational attainment.
 (SHI127).

마지막으로, 인터뷰 횟수를 정당화하는 데 사용되지는 않았지만 [표본 추출 요건에 따라 표본 크기를 미리 결정한 논문]이 한 편 있었습니다(SHI10).
Finally, the pre-determination of sample size on the basis of sampling requirements was stated by one article though this was not used to justify the number of interviews (SHI10).

표본 크기 가이드라인
Sample size guidelines

5개의 BJHP 논문(BJHP28, BJHP38 - 분석의 질 섹션의 발췌문 참조, BJHP46, BJHP47, BJHP50 - 포화도 섹션의 발췌문 참조)과 1개의 SHI 논문(SHI73)은 [기존의 표본 크기 가이드라인 또는 연구 전통 내 규범]을 인용하여 표본 크기를 결정하고 이를 정당화하는 데 의존했습니다(전체 정당화 사례의 7.2%).
Five BJHP articles (BJHP28; BJHP38 – see extract in section Qualities of the analysis; BJHP46; BJHP47; BJHP50 – see extract in section Saturation) and one SHI paper (SHI73) relied on citing existing sample size guidelines or norms within research traditions to determine and subsequently defend their sample size (7.2% of all justifications).

표본 크기 가이드라인에서는 20~30건의 인터뷰가 적절하다고 제시했습니다(Creswell, 1998). 면접관과 메모 작성자는 20번의 면접을 완료한 후 주제 포화 상태, 즉 후속 면접에서 새로운 개념이 나오지 않는 지점(Patton, 2002)에 도달했다는 데 동의했습니다. (BJHP28).
Sample size guidelines suggested a range between 20 and 30 interviews to be adequate (Creswell, 1998). Interviewer and note taker agreed that thematic saturation, the point at which no new concepts emerge from subsequent interviews (Patton, 2002), was achieved following completion of 20 interviews.
 (BJHP28).

데이터 포화(새로운 주제가 나오지 않는 지점)에 도달했다고 판단될 때까지 인터뷰를 계속했습니다. 연구자들은 반구조적 인터뷰 접근법을 사용할 때 이론적 포화 상태에 도달할 것으로 예상되는 대략적인 인터뷰 횟수 또는 실제 인터뷰 횟수로 30회를 제안했지만(Morse 2000), 이는 인터뷰 응답자의 이질성 및 탐구하는 문제의 복잡성에 따라 달라질 수 있습니다. (SHI73).
Interviewing continued until we deemed data saturation to have been reached (the point at which no new themes were emerging). Researchers have proposed 30 as an approximate or working number of interviews at which one could expect to be reaching theoretical saturation when using a semi-structured interview approach (Morse 2000), although this can vary depending on the heterogeneity of respondents interviewed and complexity of the issues explored.
 (SHI73).

기존 연구와 일치
In line with existing research

조사 대상 주제 분야의 출판 문헌의 표본 크기(전체 근거의 3.5%)는 2편의 BMJ 논문에서 자체 표본 크기를 결정하고 방어하기 위한 지침 및 선례로 사용되었습니다(BMJ08; BMJ15 - 실용적 고려 사항 섹션의 발췌문 참조).
Sample sizes of published literature in the area of the subject matter under investigation (3.5% of all justifications) were used by 2 BMJ articles as guidance and a precedent for determining and defending their own sample size (BMJ08; BMJ15 – see extract in section Pragmatic considerations).

연구 범위 내에서 데이터 포화도를 달성하고 충분한 후속 인터뷰를 진행하기 위해 매주 출소 예정인 수감자 목록에서 참가자를 추출하여 목표인 35건에 도달할 때까지 샘플링했으며, 이는 최근 연구[8-10]와 일치합니다. (BMJ08).
We drew participants from a list of prisoners who were scheduled for release each week, sampling them until we reached the target of 35 cases, with a view to achieving data saturation within the scope of the study and sufficient follow-up interviews and in line with recent studies 
[8–10]. (BMJ08).

마찬가지로 BJHP38(분석의 질 섹션의 발췌문 참조)은 표본 크기가 해당 분석 접근법을 사용하는 발표된 연구들의 표본 크기 범위 내에 있다고 주장했습니다.
Similarly, BJHP38 (see extract in section Qualities of the analysis) claimed that its sample size was within the range of sample sizes of published studies that use its analytic approach.

데이터의 풍부함 및 양
Richness and volume of data

BMJ21(분석의 질 섹션의 발췌문 참조)과 SHI32는 표본 크기의 충분성을 정당화하기 위해 수집된 데이터의 풍부함, 상세성, 양(전체 정당화 근거의 2.3%)을 언급했습니다.
BMJ21 (see extract in section Qualities of the analysis) and SHI32 referred to the richness, detailed nature, and volume of data collected (2.3% of all justifications) to justify the sufficiency of their sample size.

우편번호 추출을 통해 연락을 받은 잠재적 인터뷰 대상자가 더 많았음에도 불구하고 10차 인터뷰 이후에는 모집을 중단하고 이 표본 분석에 집중하기로 결정했습니다. 수집된 자료는 상당히 많았고, 연구의 집중적인 특성을 고려할 때 매우 상세했습니다. 또한 인터뷰 대상자들 사이에서 높은 수준의 합의가 이루어지기 시작했고, 어느 시점에서 '이론적 포화'에 도달했는지 또는 예외를 발견하기 위해 얼마나 많은 인터뷰가 필요한지 판단하기는 항상 어렵지만이 소규모 심층 조사의 목표를 충족시키기에 충분하다고 느꼈습니다 (Strauss and Corbin 1990). (SHI32).
Although there were more potential interviewees from those contacted by postcode selection, it was decided to stop recruitment after the 10th interview and focus on analysis of this sample. The material collected was considerable and, given the focused nature of the study, extremely detailed. Moreover, a high degree of consensus had begun to emerge among those interviewed, and while it is always difficult to judge at what point ‘theoretical saturation’ has been reached, or how many interviews would be required to uncover exception(s), it was felt the number was sufficient to satisfy the aims of this small in-depth investigation (Strauss and Corbin 1990).
 (SHI32).

연구 설계 요건 충족
Meet research design requirements

본 연구에서 채택한 연구 설계의 요건에 부합하는 표본 크기 결정(전체 정당화의 2.3%)은 2편의 BMJ 논문(BMJ16, BMJ08 - 기존 연구와 일치하는 섹션의 발췌문 참조)에서 사용된 또 다른 정당화였습니다.
Determination of sample size so that it is in line with, and serves the requirements of, the research design (2.3% of all justifications) that the study adopted was another justification used by 2 BMJ papers (BMJ16; BMJ08 – see extract in section In line with existing research).

우리는 다양한 사회적 배경과 인종, 다양한 유형의 자살 및 외상성 사망으로 인한 유가족으로 구성된 총 80명의 응답자[20]를 대상으로 다양하고 최대한의 표본을 확보하고자 했습니다. 다른 시점에 더 작은 표본을 인터뷰할 수도 있었지만(질적 종단 연구), 대신 수년 전에 유족이 된 사람과 최근에 유족이 된 사람, 다른 환경에 처한 유족과 고인과의 관계가 다른 유족, 영국의 다른 지역에 거주하는 사람, 다른 지원 시스템과 검시관 절차를 가진 사람들을 인터뷰하여 광범위한 경험을 추구하기로 결정했습니다(자세한 내용은 표 1과 2 참조). (BMJ16).
We aimed for diverse, maximum variation samples 
[20] totalling 80 respondents from different social backgrounds and ethnic groups and those bereaved due to different types of suicide and traumatic death. We could have interviewed a smaller sample at different points in time (a qualitative longitudinal study) but chose instead to seek a broad range of experiences by interviewing those bereaved many years ago and others bereaved more recently; those bereaved in different circumstances and with different relations to the deceased; and people who lived in different parts of the UK; with different support systems and coroners’ procedures (see Tables 1 and 2 for more details). (BMJ16).

연구자의 이전 경험
Researchers’ previous experience

연구자의 이전 경험(질적 연구 경험일 수 있음)은 BMJ15(실용적 고려 사항 섹션의 발췌문 참조)에서 표본 크기 결정의 근거로 사용되었습니다.
The researchers’ previous experience (possibly referring to experience with qualitative research) was invoked by BMJ15 (see extract in section Pragmatic considerations) as a justification for the determination of sample size.

연구의 성격
Nature of study

한 BJHP 논문에서는 표본 크기가 연구의 탐색적 성격에 적합하다고 주장했습니다(BJHP38).
One BJHP paper argued that the sample size was appropriate for the exploratory nature of the study (BJHP38).

이 연구의 탐구적 성격과 주제에 대한 근본적인 아이디어를 파악하는 데 중점을 두었기 때문에 8명의 참가자 표본이 적절한 것으로 간주되었습니다. (BJHP38).
A sample of eight participants was deemed appropriate because of the exploratory nature of this research and the focus on identifying underlying ideas about the topic.
 (BJHP38).

조사 결과의 일관성을 확인하기 위한 추가 샘플링
Further sampling to check findings consistency

마지막으로, SHI112는 담론 패턴의 포화 상태에 도달한 후, 연구 결과의 일관성을 확인하기 위해 추가 샘플링을 결정하고 수행했다고 주장했습니다.
Finally, SHI112 argued that once it had achieved saturation of discursive patterns, further sampling was decided and conducted to check for consistency of the findings.

연령별로 계층화된 각 그룹 내에서 담화 패턴의 포화 상태에 도달할 때까지 무작위로 인터뷰를 샘플링했습니다. 그 결과 67개의 인터뷰 샘플이 도출되었습니다. 이 샘플을 분석한 후, 연령별로 세분화된 각 그룹에서 무작위로 한 개의 인터뷰를 추가로 선정하여 조사 결과의 일관성을 확인했습니다. 이러한 접근 방식을 통해 주제 영역에서 '나', 주체성, 관계성, 권력에 대한 아동의 담론을 보다 주의 깊게 살펴볼 수 있었으며, 이 글에서 설명한 미묘한 담론적 변이를 발견할 수 있었습니다. (SHI112).
Within each of the age-stratified groups, interviews were randomly sampled until saturation of discursive patterns was achieved. This resulted in a sample of 67 interviews. Once this sample had been analysed, one further interview from each age-stratified group was randomly chosen to check for consistency of the findings. Using this approach it was possible to more carefully explore children’s discourse about the ‘I’, agency, relationality and power in the thematic areas, revealing the subtle discursive variations described in this article.
 (SHI112).

표본 크기를 논의하는 구절의 주제별 분석
Thematic analysis of passages discussing sample size

이 분석 결과 두 가지 중요한 주제 영역이 발견되었는데, 첫 번째는 표본 크기 충분성의 특징에 대한 변화, 두 번째는 표본 크기 부족으로 인한 인식된 위협과 관련된 것입니다.
This analysis resulted in two overarching thematic areas; the first concerned the variation in the characterisation of sample size sufficiency, and the second related to the perceived threats deriving from sample size insufficiency.

표본 크기 충분성의 특성
Characterisations of sample size sufficiency

분석 결과, 관련 의견과 논의를 제공한 논문에서 표본 크기에 대한 세 가지 주요 특징이 나타났습니다. 

  • (a) 대다수의 질적 연구(n = 42)는 표본 크기가 '작다'고 간주하고 이를 한계로 보고 논의했으며, 두 논문만이 작은 표본 크기를 바람직하고 적절한 것으로 간주했습니다. 
  • (b) 소수의 논문(n = 4)은 달성한 표본 크기가 '충분하다'고 선언했으며, 
  • (c) 마지막으로 소수의 연구 그룹(n = 5)은 표본 크기가 '크다'고 특징짓고 있었습니다. 

'큰' 표본 크기를 달성하는 것이 보다 풍부한 결과를 도출할 수 있다는 점에서 긍정적으로 여겨지기도 했지만, 표본 크기가 큰 것이 바람직하기보다는 문제가 되는 경우도 있었습니다.
The analysis showed that there were three main characterisations of the sample size in the articles that provided relevant comments and discussion:

  • (a) the vast majority of these qualitative studies (n = 42) considered their sample size as ‘small’ and this was seen and discussed as a limitation; only two articles viewed their small sample size as desirable and appropriate
  • (b) a minority of articles (n = 4) proclaimed that their achieved sample size was ‘sufficient’; and
  • (c) finally, a small group of studies (n = 5) characterised their sample size as ‘large’.

Whilst achieving a ‘large’ sample size was sometimes viewed positively because it led to richer results, there were also occasions when a large sample size was problematic rather than desirable.

'작다'고 하지만 왜 그리고 누구를 위한 것인가?
‘Small’ but why and for whom?

표본 크기가 '작다'고 명시한 다수의 논문은 암시적이거나 명시적인 정량적 기준 프레임워크에 반하는 결과를 초래했습니다. 흥미로운 점은 표본 크기로 데이터 포화도 또는 '이론적 충분성'을 달성했다고 주장한 3건의 연구에서 '작은' 표본 크기에 대해 논의하거나 한계로 지적했는데, 포화도의 질적 기준이 충족된 상황에서 [왜, 또는 누구를 위해 표본 크기가 작은 것으로 간주했는지에 대한 의문]을 가지게 한다.
A number of articles which characterised their sample size as ‘small’ did so against an implicit or explicit quantitative framework of reference. Interestingly, three studies that claimed to have achieved data saturation or ‘theoretical sufficiency’ with their sample size, discussed or noted as a limitation in their discussion their ‘small’ sample size, raising the question of why, or for whom, the sample size was considered small given that the qualitative criterion of saturation had been satisfied.

이번 연구에는 여러 가지 한계가 있습니다. 표본 크기가 작았고(n = 11), 새로운 주제가 나타나지 않을 만큼 충분히 컸습니다. (BJHP39).
The current study has a number of limitations. The sample size was small (n = 11) and, however, large enough for no new themes to emerge.
 (BJHP39).

이 연구에는 두 가지 주요 한계가 있습니다. 첫 번째는 연구에 참여한 응답자 수가 적다는 점입니다. (SHI73).
The study has two principal limitations. The first of these relates to the small number of respondents who took part in the study.
 (SHI73).

다른 기사들은 표본의 크기가 작기 때문에 (비대표성, 편향성, 자기 선택 등 다른 구성적 '결함'과 함께) 표본에 결함이 있음을 인정하고 받아들이거나, 표본 크기가 작다는 이유로 비판을 받을 수 있음을 예상하는 것처럼 보였습니다. [상상 속의 청중(아마도 리뷰어 또는 독자)]은 정량적 연구의 원칙을 고수하는 경향이 있는 사람으로, 작은 표본이 문제가 될 수 있다는 인식을 나타내는 것이 중요한 사람인 것 같았습니다. 표본이 작다는 것은 종종 후회나 사과의 담론으로 포장된 한계로 해석되기도 했습니다.
Other articles appeared to accept and acknowledge that their sample was flawed because of its small size (as well as other compositional ‘deficits’ e.g. non-representativeness, biases, self-selection) or anticipated that they might be criticized for their small sample size. It seemed that the imagined audience – perhaps reviewer or reader – was one inclined to hold the tenets of quantitative research, and certainly one to whom it was important to indicate the recognition that small samples were likely to be problematic. That one’s sample might be thought small was often construed as a limitation couched in a discourse of regret or apology.

간혹 작은 규모를 한계로 표현하는 것은 [실증주의 프레임워크와 정량적 연구를 지지하는 입장]에 명시적으로 부합하는 경우가 있었습니다.
Very occasionally, the articulation of the small size as a limitation was explicitly aligned against an espoused positivist framework and quantitative research.

이 연구에는 몇 가지 한계가 있습니다. 첫째, 100건의 사건 샘플은 매년 발생하는 전체 심각한 사건 중 극히 일부에 불과합니다.26 우리는 전국적으로 초대장을 보냈지만 더 많은 사람들이 연구에 자원하지 않은 이유를 알 수 없습니다. 그러나 의료 사고에 대한 역학적 지식이 부족하기 때문에 적절한 표본 규모를 결정하는 것은 여전히 어려운 일입니다. (BMJ20).
This study has some limitations. Firstly, the 100 incidents sample represents a small number of the total number of serious incidents that occurs every year.
26 We sent out a nationwide invitation and do not know why more people did not volunteer for the study. Our lack of epidemiological knowledge about healthcare incidents, however, means that determining an appropriate sample size continues to be difficult. (BMJ20).

양적 세계와 질적 세계를 구분하는 다양한 요건과 프로토콜 사이에서 [질적 연구자들이 명백하게 오락가락하고 있음]을 나타내는 몇 가지 사례에서, '작은' 표본 크기를 한계로 잠시 인정한 후, 경험의 복잡성을 포착하고 관용적으로 탐구하는 능력과 성공, 특히 풍부한 데이터를 생성하는 등 보다 질적인 근거로 연구를 옹호하는 논문이 있었습니다.
Indicative of an apparent oscillation of qualitative researchers between the different requirements and protocols demarcating the quantitative and qualitative worlds, there were a few instances of articles which briefly recognised their ‘small’ sample size as a limitation, but then defended their study on more qualitative grounds, such as their ability and success at capturing the complexity of experience and delving into the idiographic, and at generating particularly rich data.

이 연구는 규모는 제한적이지만 소득과 물질적 상황에 관한 남성의 태도와 경험에 내재된 복잡성을 포착하려고 노력했습니다. (SHI35).
This research, while limited in size, has sought to capture some of the complexity attached to men’s attitudes and experiences concerning incomes and material circumstances.
 (SHI35).

소셜 네트워크에 대한 접근을 협상하는 것이 느리고 노동 집약적이기 때문에 우리의 숫자는 적지만, 우리의 방법은 매우 풍부한 데이터를 생성했습니다. (BMJ21).
Our numbers are small because negotiating access to social networks was slow and labour intensive, but our methods generated exceptionally rich data.
 (BMJ21).

이 연구는 대표성이 없는 소규모 표본을 사용했다는 비판을 받을 수 있습니다. 선탠에 관한 연구에서 노년층이 무시되어 왔고, 피부가 고운 노년층이 피부암을 경험할 가능성이 가장 높으며, 여성은 일광욕을 할 때 건강보다 외모를 우선시한다는 점을 고려할 때, 이번 연구는 연구적 관심이 매우 필요한 인구통계학적 그룹에 대한 깊이 있고 풍부한 데이터를 제공합니다. (SHI57).
This study could be criticised for using a small and unrepresentative sample. Given that older adults have been ignored in the research concerning suntanning, fair-skinned older adults are the most likely to experience skin cancer, and women privilege appearance over health when it comes to sunbathing practices, our study offers depth and richness of data in a demographic group much in need of research attention.
 (SHI57).

'충분히 좋은' 표본 크기
‘Good enough’ sample sizes

달성한 표본 크기가 충분하다고 어느 정도 [자신감을 표명한 논문]은 4개에 불과했습니다. 예를 들어, SHI139는 주제 포화도에 대한 정당성을 제시하면서 낮은 응답률에도 불구하고 표본 크기의 충분성에 대한 신뢰를 표명했습니다. 마찬가지로 표본 크기의 정당성을 제시하지 않은 BJHP04는 낮은 응답률이 예상되었기 때문에 결국 충분한 수의 인터뷰 대상자를 모집하기 위해 더 큰 표본 크기를 목표로 삼았다고 주장했습니다.
Only four articles expressed some degree of confidence that their achieved sample size was sufficient. For example, SHI139, in line with the justification of thematic saturation that it offered, expressed trust in its sample size sufficiency despite the poor response rate. Similarly, BJHP04, which did not provide a sample size justification, argued that it targeted a larger sample size in order to eventually recruit a sufficient number of interviewees, due to anticipated low response rate.

대상 모집단 133명 중 23명(즉, 17.3%)의 제1형 당뇨병 환자가 참여에 동의했지만 4명은 이후 추가 연락에 응답하지 않았습니다(총 N = 19). 해당 연령대의 젊은이들의 바쁜 라이프스타일, 지리적 제약, 반구조화된 인터뷰 참여에 필요한 시간으로 인해 상대적으로 낮은 응답률이 예상되었기 때문에 더 많은 대상 표본을 통해 충분한 수의 참가자를 모집할 수 있었습니다. (BJHP04).
Twenty-three people with type I diabetes from the target population of 133 (
i.e. 17.3%) consented to participate but four did not then respond to further contacts (total N = 19). The relatively low response rate was anticipated, due to the busy life-styles of young people in the age range, the geographical constraints, and the time required to participate in a semi-structured interview, so a larger target sample allowed a sufficient number of participants to be recruited. (BJHP04).

다른 두 논문(BJHP35, SHI32)은 연구의 범위(즉, '소규모 심층 조사'), 목적 및 성격(즉, '탐색적')에 따라 충분하다고 주장한 표본 수를 연구의 특정 맥락과 연결시켰습니다. 그럼에도 불구하고 표본 크기가 충분하다는 주장은 표본 크기가 클수록 과학적으로 더 생산적이라는 인정과 병치될 때 때때로 약화되었습니다.
Two other articles (BJHP35; SHI32) linked the claimed sufficiency to the scope (i.e. ‘small, in-depth investigation’), aims and nature (i.e. ‘exploratory’) of their studies, thus anchoring their numbers to the particular context of their research. Nevertheless, claims of sample size sufficiency were sometimes undermined when they were juxtaposed with an acknowledgement that a larger sample size would be more scientifically productive.

이 탐색적 연구에는 표본 규모가 충분했지만, 사회경제적 지위가 낮고 인종적 다양성이 더 많은 참가자를 포함하여 더 다양한 표본을 확보하면 더 많은 정보를 얻을 수 있을 것입니다. 또한 표본이 더 크면 더 다양한 플랫폼에서 운영되는 더 많은 대표 앱을 포함할 수 있습니다. (BJHP35).
Although our sample size was sufficient for this exploratory study, a more diverse sample including participants with lower socioeconomic status and more ethnic variation would be informative. A larger sample could also ensure inclusion of a more representative range of apps operating on a wider range of platforms.
 (BJHP35).

'대규모' 표본 크기 - 약속인가 위험인가?
‘Large’ sample sizes - Promise or peril?

포화도에 대한 정당성을 제공한 세 논문(BMJ13, BJHP05, BJHP48)은 모두 표본 크기가 '크다'고 특징짓고, 이러한 불충분성이 더 풍부한 데이터와 연구 결과를 제공하고 일반화 가능성을 높인다는 긍정적인 측면을 설명했습니다. 그러나 일반화 유형(BJHP48)은 더 이상 명시되지 않았습니다. 
Three articles (BMJ13; BJHP05; BJHP48) which all provided the justification of saturation, characterised their sample size as ‘large’ and narrated this oversufficiency in positive terms as it allowed richer data and findings and enhanced the potential for generalisation. The type of generalisation aspired to (BJHP48) was not further specified however.

이 연구는 중요하지만 연구가 부족한 주제에 대해 비교적 많은 전문가 정보 제공자 표본이 제공한 풍부한 데이터를 사용했습니다. (BMJ13).
This study used rich data provided by a relatively large sample of expert informants on an important but under-researched topic.
 (BMJ13).

질적 연구는 환자의 관점에서 임상 문제를 이해할 수 있는 독특한 기회를 제공합니다. 이 연구는 다양한 지역에서 모집된 대규모의 다양한 표본을 사용했으며 심층 인터뷰를 통해 결과의 풍부함과 일반화 가능성을 높였습니다. (BJHP48).
Qualitative research provides a unique opportunity to understand a clinical problem from the patient’s perspective. This study had a large diverse sample, recruited through a range of locations and used in-depth interviews which enhance the richness and generalizability of the results.
 (BJHP48).


일부 질적 연구자들은 '큰' 표본 규모를 지지하고 중요하게 생각하지만, IPA의 심리학 전통에서는 '큰' 표본 규모는 규범에 반하는 것이므로 정당화될 필요가 있었습니다. IPA를 채택한 4건의 BJHP 연구는 모두 ['작은' 표본 크기의 적절성 또는 바람직성]을 표명하거나(BJHP41; BJHP45), 일반적인 표본 크기보다 더 큰 표본 크기를 포함하는 이유를 서둘러 설명했습니다(BJHP32; BJHP47). 예를 들어, 아래의 BJHP32는 IPA 연구에서 어떻게 큰 표본 크기를 수용할 수 있는지, 그리고 이것이 실제로 특정 연구 목적에 어떻게 적합한지에 대한 근거를 제공합니다. 비규범적 표본 크기 선택에 대한 설명을 강화하기 위해 유사한 표본 크기 접근법을 인용한 이전 IPA 연구를 선례로 사용합니다.
And whilst a ‘large’ sample size was endorsed and valued by some qualitative researchers, within the psychological tradition of IPA, a ‘large’ sample size was counter-normative and therefore needed to be justified. Four BJHP studies, all adopting IPA, expressed the appropriateness or desirability of ‘small’ sample sizes (BJHP41; BJHP45) or hastened to explain why they included a larger than typical sample size (BJHP32; BJHP47). For example, BJHP32 below provides a rationale for how an IPA study can accommodate a large sample size and how this was indeed suitable for the purposes of the particular research. To strengthen the explanation for choosing a non-normative sample size, previous IPA research citing a similar sample size approach is used as a precedent.

소규모 IPA 연구는 대규모 표본으로는 불가능한 심층 분석을 가능하게 합니다(Smith et al., 2009). (BJHP41).
Small scale IPA studies allow in-depth analysis which would not be possible with larger samples (Smith
 et al., 2009). (BJHP41).

IPA는 일반적으로 소수의 트랜스크립트를 집중적으로 조사하지만, 이번 연구는 (우리가 아는 한) 영국에서 이 집단에 대한 최초의 질적 연구이고 개요를 얻고자 했기 때문에 더 다양한 표본을 모집하기로 결정했습니다. 실제로 스미스, 플라워스, 라킨(2009)은 IPA가 대규모 집단에 적합하다는 데 동의합니다. 그러나 심층적인 개인주의적 분석에서 한 그룹의 사람들이 공유한 경험에서 공통된 주제를 도출하고 이를 통해 인터뷰에서 드러나는 주제 간의 관계망을 이해하는 데 사용할 수 있는 분석으로 강조점이 바뀝니다. 이 대규모 IPA 형식은 오탐 연구 분야의 다른 연구자들에 의해 사용되었습니다. 베일리, 스미스, 휴이슨, 메이슨(2000)은 24명의 참가자를 대상으로 염색체 이상에 대한 초음파 검사에 대한 IPA 연구를 수행했으며, 참가자의 수가 많을수록 더 정교하고 일관된 설명을 도출할 수 있다는 사실을 발견했습니다. (BJHP32).
Although IPA generally involves intense scrutiny of a small number of transcripts, it was decided to recruit a larger diverse sample as this is the first qualitative study of this population in the United Kingdom (as far as we know) and we wanted to gain an overview. Indeed, Smith, Flowers, and Larkin (2009) agree that IPA is suitable for larger groups. However, the emphasis changes from an in-depth individualistic analysis to one in which common themes from shared experiences of a group of people can be elicited and used to understand the network of relationships between themes that emerge from the interviews. This large-scale format of IPA has been used by other researchers in the field of false-positive research. Baillie, Smith, Hewison, and Mason (2000) conducted an IPA study, with 24 participants, of ultrasound screening for chromosomal abnormality; they found that this larger number of participants enabled them to produce a more refined and cohesive account.
 (BJHP32).

BJHP에서 발견된 IPA 논문은 '작은' 표본 규모를 옹호하고 '큰' 표본 규모를 문제 삼고 옹호한 유일한 사례입니다. 이러한 IPA 연구는 표본 크기 충분성의 특성화가 '객관적인' 표본 크기 평가의 결과라기보다는 연구자의 이론적, 인식론적 약속의 함수일 수 있음을 보여줍니다. 
The IPA articles found in the BJHP were the only instances where a ‘small’ sample size was advocated and a ‘large’ sample size problematized and defended. These IPA studies illustrate that the characterisation of sample size sufficiency can be a function of researchers’ theoretical and epistemological commitments rather than the result of an ‘objective’ sample size assessment.

표본 크기 불충분으로 인한 위협
Threats from sample size insufficiency

위에서 살펴본 바와 같이, 표본 크기에 대해 언급하는 대부분의 논문은 동시에 [표본 크기가 작고 문제가 있다]고 지적했습니다. 저자가 단순히 '작은' 표본 규모를 연구의 한계로 언급하는 것이 아니라 작은 표본 규모가 어떻게 그리고 왜 문제가 되는지에 대한 설명을 이어가는 경우, 연구의 두 가지 중요한 과학적 특성인 결과의 일반화 가능성과 타당성이 위협을 받는 것으로 보였습니다.
As shown above, the majority of articles that commented on their sample size, simultaneously characterized it as small and problematic. On those occasions that authors did not simply cite their ‘small’ sample size as a study limitation but rather continued and provided an account of how and why a small sample size was problematic, two important scientific qualities of the research seemed to be threatened: the generalizability and validity of results.

일반화 가능성
Generalizability

표본이 '작다'고 응답한 사람들은 이를 [결과의 일반화 가능성이 제한적이라는 점]과 연결지었습니다. 표본과 관련된 다른 특징들(종종 일종의 구성적 특수성)도 [일반화 가능성의 제한]과 관련이 있었습니다. 논문에서 어떤 형태의 일반화를 언급했는지 항상 명시적으로 표현된 것은 아니지만(BJHP09 참조), 일반화는 대부분 명목상의 개념, 즉 표본에서 더 넓은 연구 집단('대표성 일반화' - BJHP31 참조)으로 추론할 수 있는 가능성과 관련된 것이었고 다른 집단이나 문화에 대한 일반화는 덜 자주 언급되었습니다. 
Those who characterised their sample as ‘small’ connected this to the limited potential for generalization of the results. Other features related to the sample – often some kind of compositional particularity – were also linked to limited potential for generalisation. Though not always explicitly articulated to what form of generalisation the articles referred to (see BJHP09), generalisation was mostly conceived in nomothetic terms, that is, it concerned the potential to draw inferences from the sample to the broader study population (‘representational generalisation’ – see BJHP31) and less often to other populations or cultures.

표본이 적고 두 그룹 모두 대상 여성의 대다수가 참여했지만 일반화 가능성을 가정할 수 없다는 점에 유의해야 합니다. (BJHP09).
It must be noted that samples are small and whilst in both groups the majority of those women eligible participated, generalizability cannot be assumed.
 (BJHP09).

이 연구의 한계를 인정해야 합니다: 상대적으로 소수의 참가자와의 인터뷰를 통해 얻은 데이터이므로 모든 환자와 임상의에게 일반화할 수 있는 것은 아닙니다. 특히 환자는 일반적으로 COFP 진단이 확인되는 2차 진료 서비스에서만 모집되었습니다. 따라서 이 표본은 전체 환자, 특히 치과 서비스에 의뢰되지 않았거나 퇴원한 환자를 대표하지 않을 가능성이 높습니다. (BJHP31).
The study’s limitations should be acknowledged: Data are presented from interviews with a relatively small group of participants, and thus, the views are not necessarily generalizable to all patients and clinicians. In particular, patients were only recruited from secondary care services where COFP diagnoses are typically confirmed. The sample therefore is unlikely to represent the full spectrum of patients, particularly those who are not referred to, or who have been discharged from dental services.
 (BJHP31).

일반화라는 용어를 명시적으로 사용하지 않았지만, 두 개의 SHI 논문은 '작은' 표본 크기가 '참여자의 설명으로부터 추정할 수 있는 범위'(SHI114) 또는 '결과로부터 광범위한 결론을 도출할 수 있는 가능성'(SHI124)에 제한을 가한다고 언급했습니다.
Without explicitly using the term generalisation, two SHI articles noted how their ‘small’ sample size imposed limits on ‘the extent that we can extrapolate from these participants’ accounts’ (SHI114) or to the possibility ‘to draw far-reaching conclusions from the results’ (SHI124).

흥미롭게도 소수의 논문만이 [질적 연구와 일치하는 일반화 유형], 즉 [관용적 일반화](즉, 사례로부터 그리고 사례에 대해 만들 수 있는 일반화[5])를 암시하거나 언급했습니다. 모두 사회학 분야에 발표된 이 논문들은 '작은' 규모에도 불구하고 다른 맥락에 대한 논리적, 개념적 추론을 이끌어내고 지식을 발전시킬 수 있는 잠재력을 가진 이해를 생성할 수 있다는 측면에서 연구 결과를 옹호했습니다. 한 논문(SHI139)은 [명목적(통계적) 일반화]와 [관용적 일반화]를 명확하게 대조하면서, 통계적 일반화 가능성이 부족하다고 해서 질적 연구의 연구 표본을 넘어서는 관련성이 무효화되지는 않는다고 주장했습니다.
Interestingly, only a minority of articles alluded to, or invoked, a type of generalisation that is aligned with qualitative research, that is, idiographic generalisation (i.e. generalisation that can be made from and about cases [5]). These articles, all published in the discipline of sociology, defended their findings in terms of the possibility of drawing logical and conceptual inferences to other contexts and of generating understanding that has the potential to advance knowledge, despite their ‘small’ size. One article (SHI139) clearly contrasted nomothetic (statistical) generalisation to idiographic generalisation, arguing that the lack of statistical generalizability does not nullify the ability of qualitative research to still be relevant beyond the sample studied.

또한 이러한 데이터는 의료화 분석을 발전시킬 수 있는 추론을 도출하기 위해 통계적으로 일반화할 수 있는 데이터일 필요는 없습니다(Charmaz 2014). 이러한 데이터는 추가적인 가설을 생성할 수 있는 기회로 볼 수 있으며 의료화 프레임워크의 고유한 적용입니다. (SHI139).
Further, these data do not need to be statistically generalisable for us to draw inferences that may advance medicalisation analyses (Charmaz 2014). These data may be seen as an opportunity to generate further hypotheses and are a unique application of the medicalisation framework.
 (SHI139).

이 분석은 학교 상담과 관련된 소규모 질적 연구이지만 청소년의 정신 건강 관련 자원의 성공적인 활용에 대한 사례 연구로 유용하게 간주 될 수 있습니다. 탐구된 많은 문제가 보다 일반적으로 정신건강 낙인과 관련이 있기 때문에 성인의 서비스 참여에 대한 통찰력도 제공할 수 있습니다. 포지셔닝 이론을 사용하여 사람들이 정신 건강 문제와 관련하여 낙인을 협상하고 부분적으로 받아들이고 동시에 저항하는 방법을 조사하는 사회학적 분석이 정신 건강 서비스 격차를 유지하고 해소할 수 있는 사회적 과정과 내러티브 구성을 설명하는 데 어떻게 기여할 수 있는지를 보여줍니다. (SHI103).
Although a small-scale qualitative study related to school counselling, this analysis can be usefully regarded as a case study of the successful utilisation of mental health-related resources by adolescents. As many of the issues explored are of relevance to mental health stigma more generally, it may also provide insights into adult engagement in services. It shows how a sociological analysis, which uses positioning theory to examine how people negotiate, partially accept and simultaneously resist stigmatisation in relation to mental health concerns, can contribute to an elucidation of the social processes and narrative constructions which may maintain as well as bridge the mental health service gap.
 (SHI103).

단 한 편의 논문(SHI30)에서만 [전이성]이라는 용어를 사용하여 결과의 더 넓은 관련성 가능성을 주장했는데, 이는 표본의 크기보다는 표본 구성(즉, 다양한 표본)의 산물이라고 생각됩니다.
Only one article (SHI30) used the term transferability to argue for the potential of wider relevance of the results which was thought to be more the product of the composition of the sample (i.e. diverse sample), rather than the sample size.

타당성
Validity

'작은' 표본 크기로 인해 발생한 두 번째 주요 우려는 연구 결과의 [내적 타당성(여기서 이 용어는 연구 결과의 '진실성' 또는 신뢰성을 나타내는 데 사용됨)]과 관련이 있습니다. 저자들은 연구 결과의 특정 측면이나 패턴에 대한 신뢰도에 대해 불확실성을 표명했는데, 주로 관련 참가자 특성에 따른 어떤 형태의 차별화와 관련된 것이었습니다.
The second major concern that arose from a ‘small’ sample size pertained to the internal validity of findings (i.e. here the term is used to denote the ‘truth’ or credibility of research findings). Authors expressed uncertainty about the degree of confidence in particular aspects or patterns of their results, primarily those that concerned some form of differentiation on the basis of relevant participant characteristics.

선호하는 정보 출처는 부모의 교육 수준에 따라 달라지는 것으로 보였으나, 표본 크기가 너무 작아 이러한 패턴에 대한 결론을 도출하기는 어려웠습니다. (SHI80).
The information source preferred seemed to vary according to parents’ education; however, the sample size is too small to draw conclusions about such patterns.
 (SHI80).

표본 수가 너무 적어 성별 차이를 확실하게 입증하기는 어려웠지만, 남성의 계정에서는 생의학 및 에로틱한 스크립트가, 여성의 계정에서는 관계적인 스크립트가 더 흔한 것으로 보입니다. (SHI81).
Although our numbers were too small to demonstrate gender differences with any certainty, it does seem that the biomedical and erotic scripts may be more common in the accounts of men and the relational script more common in the accounts of women.
 (SHI81).

다른 사례에서는 연구 결과가 조사 대상 현상의 전체 스펙트럼과 변이를 설명하는지 여부에 대해 불확실성을 표명하는 기사도 있었습니다. 즉, '작은' 표본 크기(통계적으로 대표적이지 않은 표본과 같은 구성적 '결함'과 함께)가 결과의 '내용 타당성'을 위협하는 것으로 간주되어 연구 결론을 잠정적인 것으로 구성하게 된 것입니다.
In other instances, articles expressed uncertainty about whether their results accounted for the full spectrum and variation of the phenomenon under investigation. In other words, a ‘small’ sample size (alongside compositional ‘deficits’ such as a not statistically representative sample) was seen to threaten the ‘content validity’ of the results which in turn led to constructions of the study conclusions as tentative.

데이터 수집은 새로운 정보를 얻지 못했을 때(즉, 포화 지점)가 아니라 실용적인 이유로 중단되었습니다. 따라서 연구 결과를 과장하지 않도록 주의해야 합니다. 초기 인터뷰의 주제가 이후 인터뷰에서도 반복되는 것처럼 보였지만, 추가 인터뷰를 통해 추가 주제가 확인되거나 더 미묘한 설명이 제공되었을 수 있습니다. (BJHP53).
Data collection ceased on pragmatic grounds rather than when no new information appeared to be obtained (
i.e., saturation point). As such, care should be taken not to overstate the findings. Whilst the themes from the initial interviews seemed to be replicated in the later interviews, further interviews may have identified additional themes or provided more nuanced explanations. (BJHP53).

...이 연구는 결혼 생활을 지속하고 있는 부부 중 자체적으로 선택한 소수의 표본을 기반으로 한 것으로, 전체 인구를 대표하지 않는다는 점을 인정해야 합니다. 따라서 참가자들이 산후 외상 후 스트레스 장애를 경험하는 부부를 대표하지 않을 수 있습니다. 따라서 모든 주요 주제가 확인되고 탐구되지 않았을 가능성이 있습니다. 예를 들어, 남성 파트너가 참여를 거부하여 연구에서 제외 된 부부는 대인 관계에 더 큰 어려움을 겪고 있었을 수 있습니다. (BJHP03).
…it should be acknowledged that this study was based on a small sample of self-selected couples in enduring marriages who were not broadly representative of the population. Thus, participants may not be representative of couples that experience postnatal PTSD. It is therefore unlikely that all the key themes have been identified and explored. For example, couples who were excluded from the study because the male partner declined to participate may have been experiencing greater interpersonal difficulties.
 (BJHP03).

표본 규모가 '작다'는 사실을 인지했음에도 불구하고 연구 결과의 신뢰성을 어느 정도 유지하려고 시도한 논문도 있었습니다. 새로운 주제의 명확성과 선명성, 이전의 관련 연구와의 일치성 등이 결과의 타당성을 보증하기 위해 사용된 논거였습니다.
In other instances, articles attempted to preserve a degree of credibility of their results, despite the recognition that the sample size was ‘small’. Clarity and sharpness of emerging themes and alignment with previous relevant work were the arguments employed to warrant the validity of the results.

이 연구는 정서 장애 환자의 영국계 중국인 간병인을 대상으로 질적 방법론을 사용하여 이 커뮤니티 내에서 질병에 대한 사회문화적 표현을 종합하는 데 중점을 두었습니다. 작은 표본 규모에도 불구하고 이 탐색적 조사에 충분한 내러티브에서 명확한 주제가 나타났습니다. (SHI98).
This study focused on British Chinese carers of patients with affective disorders, using a qualitative methodology to synthesise the sociocultural representations of illness within this community. Despite the small sample size, clear themes emerged from the narratives that were sufficient for this exploratory investigation.
 (SHI98).

토론
Discussion

본 연구는 건강 관련 연구에서 질적 표본 크기가 어떻게 특징화되고 정당화되는지 살펴보고자 했습니다. 이전 연구[22, 30, 33, 34]와 마찬가지로 본 연구 결과는 표본 크기의 충분성에 대한 보고가 제한적이라는 것을 보여줍니다. BMJ와 BJHP의 논문 중 50% 이상, SHI의 82%는 [표본 크기의 정당성을 제공하지 않았습니다]. 표본 크기의 정당성을 제공하는 것은 수행된 인터뷰의 수와는 관련이 없었지만, 논문이 게재된 저널과 관련이 있었으며, 이는 선행 연구[30]에서도 보고된 바 있는 징계 또는 출판 규범의 영향을 나타냅니다. 대부분의 질적 연구자들이 표본 크기의 충분성이 연구의 질을 나타내는 중요한 지표라는 데 동의한다는 점을 고려할 때, [표본 크기의 충분성에 대한 투명성 부족]은 문제가 됩니다[56, 57]. 또한 사회과학 분야에서 질적 연구가 증가함에 따라 기존 증거를 종합하고 그 품질을 평가하려는 노력이 부실한 보고로 인해 방해를 받고 있습니다[58, 59]. 
The present study sought to examine how qualitative sample sizes in health-related research are characterised and justified. In line with previous studies [22, 30, 33, 34] the findings demonstrate that reporting of sample size sufficiency is limited; just over 50% of articles in the BMJ and BJHP and 82% in the SHI did not provide any sample size justification. Providing a sample size justification was not related to the number of interviews conducted, but it was associated with the journal that the article was published in, indicating the influence of disciplinary or publishing norms, also reported in prior research [30]. This lack of transparency about sample size sufficiency is problematic given that most qualitative researchers would agree that it is an important marker of quality [56, 57]. Moreover, and with the rise of qualitative research in social sciences, efforts to synthesise existing evidence and assess its quality are obstructed by poor reporting [58, 59].

저자들이 표본 크기를 정당화할 때, 연구 결과에 따르면 [표본 크기 결정에 대한 일반적인 조언]과 일치하여 [연구에 내재된 특징을 기준]으로 [충분성을 평가]하는 경우가 대부분이었습니다[4, 11, 36].

  • 포화의 원칙은 전체 정당화의 55%를 차지하며 가장 일반적으로 호출된 논거였습니다[22]. 포화라는 용어의 의미가 확산되고[49] 포화에 대한 다양한 기본 개념 또는 모델이 반영되는 것을 입증하는 다양한 변형이 분명히 존재했습니다[20]. 그럼에도 불구하고, [포화 상태에 대한 주장]은 [연구 자체에서 수행된 절차]와 관련하여 입증되지 않았으며, 이는 문헌에서 유사한 관찰을 뒷받침합니다 [25, 30, 47]. 포화 상태에 대한 주장은 때때로 다른 문헌의 인용으로 뒷받침되었는데, 이는 당면한 연구의 특성에서 벗어나 개념을 제거했음을 시사합니다.
  • 자원 제약이나 참여자 응답률 및 가용성과 같은 [실용적 고려사항]은 두 번째로 많이 사용된 주장으로 정당화의 약 10%를 차지했으며, 정당화의 23%는 연구의 본질적 특성(예: 분석의 질, 샘플링 또는 연구 설계 요건 충족, 얻은 데이터의 풍부함과 양, 연구의 성격, 결과 일관성을 확인하기 위한 추가 샘플링)을 나타냈습니다.

When authors justified their sample size, our findings indicate that sufficiency was mostly appraised with reference to features that were intrinsic to the study, in agreement with general advice on sample size determination [4, 11, 36]. 

  • The principle of saturation was the most commonly invoked argument [22] accounting for 55% of all justifications. A wide range of variants of saturation was evident corroborating the proliferation of the meaning of the term [49] and reflecting different underlying conceptualisations or models of saturation [20]. Nevertheless, claims of saturation were never substantiated in relation to procedures conducted in the study itself, endorsing similar observations in the literature [253047]. Claims of saturation were sometimes supported with citations of other literature, suggesting a removal of the concept away from the characteristics of the study at hand.
  • Pragmatic considerations, such as resource constraints or participant response rate and availability, was the second most frequently used argument accounting for approximately 10% of justifications and another 23% of justifications also represented intrinsic-to-the-study characteristics (i.e. qualities of the analysis, meeting sampling or research design requirements, richness and volume of the data obtained, nature of study, further sampling to check findings consistency).

표본 크기의 정당성에 대한 언급 중 12%만이 기존 표본 크기 가이드라인과 선례를 제시하는 선행 연구 등 [현재 진행 중인 연구와 무관한 외부 논거와 관련된 것]이었습니다.

  • [커뮤니티 규범]과 [선행 연구]는 표본 크기 추정에 유용한 경험 법칙을 수립할 수 있고[60], 연구 커뮤니티 내에서 어떤 크기가 수용될 가능성이 높은지 알려주지만, 연구자는 특히 그러한 가이드라인[예: 30, 35]이 표본 크기의 충분성에 대한 적절한 증거를 제공하지 않는 연구에 근거할 수 있는 경우 이러한 [규범을 무비판적으로 채택하는 것]을 피해야 합니다.
  • 마찬가지로, [포화 달성을 입증하려는 방법론적 연구]는 포화도가 결정되는 매개변수를 설명하고 연구 프로젝트에 더 작은 또는 더 큰 표본이 필요한 시기를 알려주기 때문에 매우 중요하지만[예: 29], 이러한 프로젝트에서 포화가 달성된 구체적인 수치가 다른 프로젝트에 대해 루틴으로 추정될 수 없습니다.

Only, 12% of mentions of sample size justification pertained to arguments that were external to the study at hand, in the form of existing sample size guidelines and prior research that sets precedents.

  • Whilst community norms and prior research can establish useful rules of thumb for estimating sample sizes [60] – and reveal what sizes are more likely to be acceptable within research communities – researchers should avoid adopting these norms uncritically, especially when such guidelines [e.g. 3035], might be based on research that does not provide adequate evidence of sample size sufficiency.
  • Similarly, whilst methodological research that seeks to demonstrate the achievement of saturation is invaluable since it explicates the parameters upon which saturation is contingent and indicates when a research project is likely to require a smaller or a larger sample [e.g. 29], specific numbers at which saturation was achieved within these projects cannot be routinely extrapolated for other projects.

우리는 [당면한 연구의 특성을 고려하는 것]이 표본 크기를 결정하고 그 충분성을 평가하는 주요 지침이 되어야 한다는 기존 견해에 동의합니다[11, 36].

  • 인식론적 및 이론적 접근 방식,
  • 조사 대상 현상의 특성,
  • 연구의 목적과 범위,
  • 데이터의 질과 풍부성,
  • 연구자의 질적 연구 수행 경험과 기술 등 

We concur with existing views [11, 36] that the consideration of the characteristics of the study at hand, such as

  • the epistemological and theoretical approach,
  • the nature of the phenomenon under investigation,
  • the aims and scope of the study,
  • the quality and richness of data, or
  • the researcher’s experience and skills of conducting qualitative research,

...should be the primary guide in determining sample size and assessing its sufficiency.

또한 질적 연구에서 숫자가 중요하지 않은 것은 아니지만[61], [표본 크기는 단독으로 고려되어서는 안 되며], [데이터 적절성]에 대한 보다 포괄적인 검토에 포함되어야 합니다[56, 57]. 에릭슨[62]의 '증거적 적절성' 차원이 여기에 유용합니다. 그는 아래 측면에서 이 개념을 설명합니다. 

  • 증거의 적절한 
  • 증거의 적절한 다양성
  • 증거의 적절한 해석 상태,
  • 적절한 불일치하는 증거
  • 불일치하는 사례 분석의 적절성 

모든 질적 연구 설계에서 모든 차원이 관련성이 있는 것은 아니지만, 이는 표본 규모를 넘어 데이터 적절성 개념의 두께를 보여줍니다.
Moreover, although numbers in qualitative research are not unimportant [61], sample size should not be considered alone but be embedded in the more encompassing examination of data adequacy [56, 57]. Erickson’s [62] dimensions of ‘evidentiary adequacy’ are useful here. He explains the concept in terms of

  • adequate amounts of evidence,
  • adequate variety in kinds of evidence,
  • adequate interpretive status of evidence,
  • adequate disconfirming evidence, and
  • adequate discrepant case analysis.

All dimensions might not be relevant across all qualitative research designs, but this illustrates the thickness of the concept of data adequacy, taking it beyond sample size.

본 연구는 또한 표본 크기가 일반적으로 '작고' 불충분한 것으로 간주되어 한계로 논의되는 것을 보여주었습니다. 종종 정당화되지 않는(그리고 두 사례에서는 포화 상태라는 자체 주장과 모순되는) 이러한 결과는 질적 건강 연구에서 표본 크기가 [암묵적이지만 만연한 준정량적 관점]에 따라 부정적으로 판단(또는 판단될 것으로 예상)되는 경우가 많다는 것을 시사합니다. 실제로 우리 데이터에서 저자가 검토자의 요청에 따라 자신의 [연구 결과를 정량화하는 데 거부감을 드러낸 사례]가 몇 차례 있었습니다. 이러한 암묵적인 기준점은 저자들이 불충분한 표본 크기로 인한 위협에 대해 논의할 때 더욱 분명해졌습니다. 실재주의와 밀접한 관련이 있는 질적 연구 프로젝트가 충분한 폭과 깊이로 현상을 조사하도록 설정되어 있다는 점에서 [내적 타당성에 대한 우려]는 타당할 수 있지만, [일반화 가능성에 대한 우려]는 의도적인 표본 추출과 양립할 수 없는 개념화를 드러냈습니다. 표본 크기가 작기 때문에 일반화 가능성이 제한적이라는 점은 종종 명목상의 통계적 용어로 논의되었습니다. 연구 결과의 가치를 보증하기 위해 분석적 또는 관용적 일반화가 사용된 경우는 드물었습니다[5, 17].
The present research also demonstrated that sample sizes were commonly seen as ‘small’ and insufficient and discussed as limitation. Often unjustified (and in two cases incongruent with their own claims of saturation) these findings imply that sample size in qualitative health research is often adversely judged (or expected to be judged) against an implicit, yet omnipresent, quasi-quantitative standpoint. Indeed there were a few instances in our data where authors appeared, possibly in response to reviewers, to resist to some sort of quantification of their results. This implicit reference point became more apparent when authors discussed the threats deriving from an insufficient sample size.

  • Whilst the concerns about internal validity might be legitimate to the extent that qualitative research projects, which are broadly related to realism, are set to examine phenomena in sufficient breadth and depth, the concerns around generalizability revealed a conceptualisation that is not compatible with purposive sampling.

The limited potential for generalisation, as a result of a small sample size, was often discussed in nomothetic, statistical terms. Only occasionally was analytic or idiographic generalisation invoked to warrant the value of the study’s findings [5, 17].

본 연구의 강점과 한계
Strengths and limitations of the present study

첫째, 검토한 건강 관련 저널의 수가 제한되어 있어 질적 건강 연구의 '스냅샷'만을 포착했다는 점에 유의해야 합니다. 다른 학문 분야(예: 간호학)와 학제 간 저널을 검토하면 본 분석 결과에 더 많은 내용이 추가될 수 있습니다. 그럼에도 불구하고 본 연구는 실증주의의 유산에 대한 애착이 다른 학문 분야를 기반으로 비교 통찰력을 제공하고, 15년이라는 긴 기간에 걸쳐 출판된 문헌을 분석한 최초의 연구입니다. 게터만[27]도 건강 관련 문헌을 조사했지만 이 분석은 5년 동안 가장 많이 인용된 26개의 논문으로 제한되었고, 칼슨과 글렌튼[22]의 연구는 포커스 그룹 건강 연구에 집중했습니다. 또한, 논문의 인식론적 및 이론적 입장과 관련하여 표본 크기의 정당성을 검토하고자 했으나, 관련 정보가 없거나 논문의 입장을 명확히 파악하고[63] 특정 접근 방식(예: 서로 다른 이론적 및 인식론적 전통의 요소를 결합한 연구)에 따라 분류하는 데 어려움이 있었기 때문에 이 작업이 어려웠습니다. 이러한 분석은 표본 크기라는 방법론적 문제를 연구의 광범위한 철학적 입장과 연결시켜 유용한 통찰력을 얻을 수 있다고 생각합니다. 이러한 한계에도 불구하고, 표본 크기의 특징과 불충분한 표본 크기로 인해 발생할 수 있는 위협에 대한 분석은 표본 크기의 (내)충분성 논증에 대한 우리의 이해를 연구의 다른 특징과 연결함으로써 풍부하게 해줍니다. 동료 심사 과정이 점점 더 공개됨에 따라, 향후 연구에서는 표본 크기의 충분성과 데이터의 적절성에 관한 보고가 저자와 심사자 간의 상호작용에 어떤 영향을 받을 수 있는지에 대해 유용하게 검토할 수 있을 것입니다. 
We note, first, the limited number of health-related journals reviewed, so that only a ‘snapshot’ of qualitative health research has been captured. Examining additional disciplines (e.g. nursing sciences) as well as inter-disciplinary journals would add to the findings of this analysis. Nevertheless, our study is the first to provide some comparative insights on the basis of disciplines that are differently attached to the legacy of positivism and analysed literature published over a lengthy period of time (15 years). Guetterman [27] also examined health-related literature but this analysis was restricted to 26 most highly cited articles published over a period of five years whilst Carlsen and Glenton’s [22] study concentrated on focus groups health research. Moreover, although it was our intention to examine sample size justification in relation to the epistemological and theoretical positions of articles, this proved to be challenging largely due to absence of relevant information, or the difficulty into discerning clearly articles’ positions [63] and classifying them under specific approaches (e.g. studies often combined elements from different theoretical and epistemological traditions). We believe that such an analysis would yield useful insights as it links the methodological issue of sample size to the broader philosophical stance of the research. Despite these limitations, the analysis of the characterisation of sample size and of the threats seen to accrue from insufficient sample size, enriches our understanding of sample size (in)sufficiency argumentation by linking it to other features of the research. As the peer-review process becomes increasingly public, future research could usefully examine how reporting around sample size sufficiency and data adequacy might be influenced by the interactions between authors and reviewers.

결론
Conclusions

지난 10년 동안 질적 연구 분야에서 표본 크기 결정과 표본 크기의 충분성 평가에 대한 증거 기반 접근 방식에 대한 욕구가 커졌습니다. 이 분야의 개념적, 방법론적 발전에도 불구하고, 본 연구의 결과는 표본 크기의 충분성에 대한 평가가 부재하거나 제대로 입증되지 않았다는 결론을 내린 이전 연구를 확인시켜 줍니다. 보건 관련 과학에서 질적 연구에 대한 더 많은 인식을 장려하는 고품질 연구를 보장하고 유지하기 위해[64], 우리는 질적 연구자들이 데이터 적절성 평가의 일부로 표본 규모를 더욱 투명하고 철저하게 평가해야 한다고 주장합니다. [당면한 연구를 면밀히 참조]하여 [표본 크기의 충분성을 평가]하는 관행을 권장하며, 따라서 이 분야에서 증가하는 방법론적 연구에 [표본 크기의 수치적 지침, 규범 및 원칙]을 [탈맥락적으로 적용하여 대응하는 것]을 경계합니다

  • [표본 크기 커뮤니티 규범]이 유용한 경험 법칙으로 작용할 수 있지만, 방법론적 지식을 활용하여 표본 크기의 충분성에 영향을 미치는 포화 및 기타 매개변수가 [특정 프로젝트의 세부 사항]과 어떻게 관련되는지 비판적으로 고려할 것을 권장합니다. 
  • [논문을 검토하는 사람들]은 투명한 연구별 보고를 장려하는 데 중요한 역할을 합니다. 
  • [검토 프로세스]는 저자가 표본 크기 충분성에 영향을 미치는 다양한 요인과 특정 연구의 특성을 고려하여 표본 크기 결정에 대한 결정을 내릴 때 미묘한 판단을 내릴 수 있도록 지원해야 합니다. 

이 분야의 방법론적 근거가 점점 더 많아지고 있는 상황에서 이러한 근거에 기반한 판단을 투명하게 제시하는 것은 매우 중요하며, 시간이 지나면 질적 표본의 '작은' 크기를 연구의 한계로 인용하는 일상적인 관행이 사라지게 될 것입니다.

The past decade has seen a growing appetite in qualitative research for an evidence-based approach to sample size determination and to evaluations of the sufficiency of sample size. Despite the conceptual and methodological developments in the area, the findings of the present study confirm previous studies in concluding that appraisals of sample size sufficiency are either absent or poorly substantiated. To ensure and maintain high quality research that will encourage greater appreciation of qualitative work in health-related sciences [64], we argue that qualitative researchers should be more transparent and thorough in their evaluation of sample size as part of their appraisal of data adequacy. We would encourage the practice of appraising sample size sufficiency with close reference to the study at hand and would thus caution against responding to the growing methodological research in this area with a decontextualised application of sample size numerical guidelines, norms and principles.

  • Although researchers might find sample size community norms serve as useful rules of thumb, we recommend methodological knowledge is used to critically consider how saturation and other parameters that affect sample size sufficiency pertain to the specifics of the particular project.
  • Those reviewing papers have a vital role in encouraging transparent study-specific reporting.
  • The review process should support authors to exercise nuanced judgments in decisions about sample size determination in the context of the range of factors that influence sample size sufficiency and the specifics of a particular study.

In light of the growing methodological evidence in the area, transparent presentation of such evidence-based judgement is crucial and in time should surely obviate the seemingly routine practice of citing the ‘small’ size of qualitative samples among the study limitations.

 


 

BMC Med Res Methodol. 2018 Nov 21;18(1):148. doi: 10.1186/s12874-018-0594-7.

Characterising and justifying sample size sufficiency in interview-based studies: systematic analysis of qualitative health research over a 15-year period

Affiliations collapse

Affiliations

1Department of Psychology, University of Bath, Building 10 West, Claverton Down, Bath, BA2 7AY, UK. K.Vasileiou@bath.ac.uk.

2Department of Psychology, University of Bath, Building 10 West, Claverton Down, Bath, BA2 7AY, UK.

3School of Psychology, Newcastle University, Ridley Building 1, Queen Victoria Road, Newcastle upon Tyne, NE1 7RU, UK.

4Department of Computer Science, Brunel University London, Wilfred Brown Building 108, Uxbridge, UB8 3PH, UK.

PMID: 30463515

PMCID: PMC6249736

DOI: 10.1186/s12874-018-0594-7

Abstract

Background: Choosing a suitable sample size in qualitative research is an area of conceptual debate and practical uncertainty. That sample size principles, guidelines and tools have been developed to enable researchers to set, and justify the acceptability of, their sample size is an indication that the issue constitutes an important marker of the quality of qualitative research. Nevertheless, research shows that sample size sufficiency reporting is often poor, if not absent, across a range of disciplinary fields.

Methods: A systematic analysis of single-interview-per-participant designs within three health-related journals from the disciplines of psychology, sociology and medicine, over a 15-year period, was conducted to examine whether and how sample sizes were justified and how sample size was characterised and discussed by authors. Data pertinent to sample size were extracted and analysed using qualitative and quantitative analytic techniques.

Results: Our findings demonstrate that provision of sample size justifications in qualitative health research is limited; is not contingent on the number of interviews; and relates to the journal of publication. Defence of sample size was most frequently supported across all three journals with reference to the principle of saturation and to pragmatic considerations. Qualitative sample sizes were predominantly - and often without justification - characterised as insufficient (i.e., 'small') and discussed in the context of study limitations. Sample size insufficiency was seen to threaten the validity and generalizability of studies' results, with the latter being frequently conceived in nomothetic terms.

Conclusions: We recommend, firstly, that qualitative health researchers be more transparent about evaluations of their sample size sufficiency, situating these within broader and more encompassing assessments of data adequacy. Secondly, we invite researchers critically to consider how saturation parameters found in prior methodological studies and sample size community norms might best inform, and apply to, their own project and encourage that data adequacy is best appraised with reference to features that are intrinsic to the study at hand. Finally, those reviewing papers have a vital role in supporting and encouraging transparent study-specific reporting.

Keywords: Data adequacy; Qualitative health research; Qualitative interviews; Review; Sample size; Sample size characterisation; Sample size justification; Systematic analysis.

 

코드 포화 대 의미 포화: 얼마나 많은 인터뷰가 필요한가? (Qual Health Res. 2017)
Code Saturation Versus Meaning Saturation: How Many Interviews Are Enough?
Monique M. Hennink1, Bonnie N. Kaiser2, and Vincent C. Marconi1,3

소개
Introduction

"질적 연구에 적합한 표본 크기는 얼마인가요?" 이 질문은 정답이 없는 일반적인 질문입니다. 질적 연구는 일반적으로 의도적으로 선택된 표본(확률 기반 표본과 반대)을 사용하며, 다양한 범위의 "정보가 풍부한" 소스를 찾고(Patton, 1990) 참여자 수보다는 데이터의 품질과 풍부함에 더 중점을 둡니다. 연구 목적, 연구 설계, 연구 모집단의 특성, 분석 접근 방식, 사용 가능한 리소스[다양한 요인이 질적 연구의 표본 크기에 영향]을 미칩니다(Bryman, 2012; Malterud, Siersma, & Guassora, 2015; Morse, 2000). 그러나 목적 표본의 적절성을 평가하기 위한 가장 일반적인 지침 원칙은 포화입니다(Morse, 1995, 2015). "포화는 저자가 리뷰어와 독자에게 제공하는 질적 엄격성에 대한 가장 빈번한 보증이지만, 우리가 가장 잘 알지 못하는 것입니다."(Morse, 2015, 587쪽). 
“What is an adequate sample size for qualitative studies?” This is a common question for which there is not a straightforward response. Qualitative studies typically use purposively selected samples (as opposed to probability-driven samples), which seek a diverse range of “information-rich” sources (Patton, 1990) and focus more on the quality and richness of data rather than the number of participants. Many factors influence sample sizes for qualitative studies, including the study purpose, research design, characteristics of the study population, analytic approach, and available resources (Bryman, 2012; Malterud, Siersma, & Guassora, 2015; Morse, 2000). However, the most common guiding principle for assessing the adequacy of a purposive sample is saturation (Morse, 1995, 2015). “Saturation is the most frequently touted guarantee of qualitative rigor offered by authors to reviewers and readers, yet it is the one we know least about” (Morse, 2015, p. 587).

포화는 질적 연구에서 효과적인 표본 크기의 지표로 사용되며 학술지 및 연구비 지원 기관의 질적 기준에서 볼 수 있지만, 실제로 포화가 무엇을 의미하는지는 아직 명확하지 않습니다. 또한 포화는 질적 연구에 대한 다양한 접근 방식에 적용될 때 여러 가지 의미를 갖습니다(O'Reilly & Parker, 2012). 따라서 포화를 평가하는 방법, 문서화하는 방법, 다양한 유형의 연구와 다양한 유형의 데이터에 대한 포화도의 의미에 대한 방법론적 연구의 지침 없이 포화를 표본의 적절성을 나타내는 일반적인 지표로 무조건 채택하는 것은 부적절합니다. 의도적인 표본에서 포화를 달성하는 데 필요한 표본 크기포화에 영향을 미칠 수 있는 매개변수를 조사하기 위한 방법론적 연구는 거의 수행되지 않았습니다. 본 연구는 질적 연구에서 포화에 대한 두 가지 접근 방식을 문서화하고 평가하여 연구자가 포화가 발생할 수 있는 시점을 효과적으로 측정할 수 있는 지침을 제공하고 연구 제안서 및 프로토콜의 표본 크기 추정을 강화하기 위한 방법론적 연구에 기여합니다.

Although saturation is used as an indicator of an effective sample size in qualitative research, and is seen in quality criteria of academic journals and research funding agencies, it remains unclear what saturation means in practice. Saturation also has multiple meanings when applied in different approaches to qualitative research (O’Reilly & Parker, 2012). Therefore, unquestioningly adopting saturation as a generic indicator of sample adequacy is inappropriate without guidance from methodological research on how to assess saturation, how to document it, and what it means for different types of studies and different types of data. Few methodological studies have been conducted to examine sample sizes needed to achieve saturation in purposive samples and the parameters that may influence saturation. Our study contributes methodological research to document and assess two different approaches to saturation in qualitative research, to provide guidance for researchers to effectively gauge when saturation may occur, and to strengthen sample size estimates for research proposals and protocols.

포화 정의
Defining Saturation

포화 개념은 원래 사회 현상을 설명하기 위해 텍스트 데이터로부터 사회학 이론을 개발하는 데 중점을 두는 질적 연구에 대한 영향력 있는 [근거 이론 접근법]의 일환으로 Glaser와 Strauss(1967)에 의해 개발되었습니다. 근거 이론에서는 [이론적 포화]라는 용어를 사용하는데, 이는 [데이터 수집 시 데이터에서 추가적인 문제나 통찰력이 나타나지 않고 관련 개념 범주가 모두 식별, 탐색, 소진된 시점]을 의미합니다. 이는 개념 범주가 "포화 상태"에 이르렀으며 새로운 이론이 포괄적이고 신뢰할 수 있다는 신호입니다. 따라서 [이론적 포화 상태]"이론적 구성에 대한 더 많은 데이터를 수집해도 새로운 속성이 드러나지 않거나 새로운 근거 이론에 대한 더 이상의 이론적 통찰력을 얻지 못하는 지점"입니다(Bryant & Charmaz, 2007, 611쪽). 이론적 포화의 강조점은 표본의 적절성보다는 표본 크기에 더 중점을 둡니다(Bowen, 2008).

The concept of saturation was originally developed by Glaser and Strauss (1967) as part of their influential grounded theory approach to qualitative research, which focuses on developing sociological theory from textual data to explain social phenomena.

  • In grounded theory, the term theoretical saturation is used, which refers to the point in data collection when no additional issues or insights emerge from data and all relevant conceptual categories have been identified, explored, and exhausted. This signals that conceptual categories are “saturated”, and the emerging theory is comprehensive and credible.
  • Thus, theoretical saturation is “the point at which gathering more data about a theoretical construct reveals no new properties nor yields any further theoretical insights about the emerging grounded theory” (Bryant & Charmaz, 2007, p. 611).

[이론적 포화]의 중요한 측면은 연구자가 샘플링, 데이터 수집, 데이터 분석을 동시에 수행하는 [반복적 프로세스에 포함]되어 있다는 것입니다(Sandelowski, 1995). 이러한 반복적인 프로세스는 ['이론적 샘플링']을 가능하게 하는데, 이는 참여자 모집을 안내하는 데 사용되는 데이터에서 개념을 식별하여 [이론적 포화 상태에 도달할 때까지 후속 데이터 수집에서 해당 개념을 추가로 탐색하는 것]을 포함합니다. 따라서 [이론적 샘플링]은 [이론적 포화]와 [불가분의 관계]에 있으며, 이는 현상의 모든 구성 요소(예: 이슈, 개념, 범주 및 연결)를 충분히 탐색하고 지원하여 새로운 이론이 타당하고 견고하도록 하기 위한 입니다. 따라서 [이론적 포화]는 근거 이론의 목표와 인식론적 접근 방식에 내재되어 있습니다.

The emphasis of theoretical saturation is more toward sample adequacy and less about sample size (Bowen, 2008). An important aspect of theoretical saturation is that it is embedded in an iterative process, whereby researchers are concurrently sampling, collecting data, and analyzing data (Sandelowski, 1995). This iterative process enables “theoretical sampling”, which involves identifying concepts from data that are used to guide participant recruitment to further explore those concepts in subsequent data collection until theoretical saturation is reached. Theoretical sampling is thereby inextricably linked to theoretical saturation to ensure that all constructs of a phenomenon (i.e., issues, concepts, categories, and linkages) are fully explored and supported so that the emerging theory is valid and robust. Theoretical saturation is therefore embedded in the goals and epistemological approach of grounded theory.

포화 적용의 과제
Challenges in Applying Saturation

포화는 근거 이론에서 시작되었지만, 질적 연구에 대한 다른 많은 접근 방식에도 적용됩니다. [데이터 포화] 또는 [주제 포화]라고도 하며, [데이터 수집에서 추가적인 문제가 발견되지 않고 데이터가 반복되기 시작하며 더 이상의 데이터 수집이 불필요해지는 시점]을 말합니다(Kerr, Nixon, & Wild, 2010). 이러한 포화의 광범위한 적용은 이론을 개발하기 위한 데이터의 적절성("이론적 포화"에서와 같이)보다는 표본 크기를 측정하는 데 더 직접적으로 초점을 맞추고 있습니다. 포화의 개념을 방법론적 기원에서 벗어나 질적 연구에 더 일반적으로 적용하는 것은 다소 의문의 여지가 있지만 여전히 문제가 있습니다(Kerr et al., 2010). 근거 이론 외부에서 포화를 사용할 경우, 포화는 종종 표본 추출, 데이터 수집, 데이터 분석의 반복적인 프로세스와 분리되어 적용에 절차적 구조를 제공하지 못합니다. 이러한 [광범위한 맥락에서의 적용에 대한 적절한 지침]이 없으면 [포화가 무엇을 의미하고 어떻게 달성할 수 있는지 불분명]합니다(Kerr et al., 2010). 
Despite its origins in grounded theory, saturation is also applied in many other approaches to qualitative research. It is often termed data saturation or thematic saturation and refers to the point in data collection when no additional issues are identified, data begin to repeat, and further data collection becomes redundant (Kerr, Nixon, & Wild, 2010). This broader application of saturation is focused more directly on gauging sample size rather than the adequacy of data to develop theory (as in “theoretical saturation”). Taking the concept of saturation out of its methodological origins and applying it more generically to qualitative research has been somewhat unquestioned but remains problematic (Kerr et al., 2010). When used outside of grounded theory, saturation often becomes separated from the iterative process of sampling, data collection, and data analysis, which provide procedural structure to its application. Without adequate guidance on its application in this broader context, it is unclear what saturation means and how it can be achieved (Kerr et al., 2010).

이 문제는 발표된 질적 연구에서도 명확하게 드러납니다. 포화가 언급되는 경우, 포화가 어떻게 달성되었는지 또는 포화가 정당화되는 근거가 무엇인지에 대한 설명 없이 그냥 넘어가는 경우가 많습니다(Bowen, 2008; O'Reilly & Parker, 2012).

  • 예를 들어, Francis 등(2010)은 건강 관련 분야에서 데이터 포화가 어떻게 보고되는지 파악하기 위해 16개월 동안 다학제 저널인 사회과학 및 의학에 게재된 모든 논문을 검토했습니다. 데이터 포화를 언급한 18개 논문 중 15개 논문이 포화를 달성했다고 주장했지만, 이러한 연구에서 포화가 어떻게 정의, 달성 또는 정당화되었는지는 불분명했습니다.
  • 칼슨과 글렌튼(2011)은 포커스 그룹 토론을 통해 220개의 연구를 체계적으로 검토하여 표본 크기가 어떻게 정당화되었는지 확인했습니다. 그 결과, 표본 크기를 설명한 연구 중 83%가 포화를 표본 크기의 정당화로 사용했습니다. 그러나 이러한 논문은 포화도에 대한 근거 없는 주장, 미리 정해진 표본 크기를 사용하면서 포화를 달성했다는 언급 등 포화를 달성한 방법에 대한 피상적인 보고를 제공한다는 사실을 발견했습니다.
  • 포화를 평가한 방법이나 그 근거에 대한 정당성이나 설명을 제공하지 않고 포화를 주장하는 연구자들에 대한 우려가 커지고 있습니다(Bowen, 2008; Green & Thorgood, 2009; Guest, Bunce, & Johnson, 2006; Kerr et al., 2010; Malterud et al., 2015; Morse, 1995, 2000, 2015).

This issue is clearly reflected in published qualitative research. If saturation is mentioned, it is often glossed over with no indications for how it was achieved or the grounds on which it is justified (Bowen, 2008; O’Reilly & Parker, 2012).

  • For example, Francis et al. (2010) reviewed all articles published in the multidisciplinary journal Social Science & Medicine over a 16-month period to identify how saturation is reported in health-related disciplines. Of the 18 articles that mentioned data saturation, 15 articles claimed they achieved saturation, but it was unclear how saturation was defined, achieved, or justified in these studies.
  • Carlsen and Glenton (2011) conducted a systematic review of 220 studies using focus group discussions to identify how sample size was justified. They found that of those studies that explained sample size, 83% used saturation as the justification for their sample size. However, they found that these articles provided superficial reporting of how saturation was achieved, including unsubstantiated claims of saturation and reference to achieving saturation while still using the predetermined sample size.
  • There is increasing concern over researchers claiming saturation without providing any justification or explanation of how it was assessed or the grounds on which it was achieved (Bowen, 2008Green & Thorgood, 2009Guest, Bunce, & Johnson, 2006Kerr et al., 2010Malterud et al., 2015Morse, 199520002015).


Morse(1995)는 [포화 상태에 도달하는 데 필요한 표본 크기에 대한 공개된 지침]이 부족하다는 점을 오래 전에 강조했습니다. 10년이 지난 지금도 이러한 상황은 그대로 남아 있으며, 24권의 질적 연구 교과서와 7개의 데이터베이스를 검토한 Guest 외(2006)의 연구에서도 목적적 표본의 포화를 달성하는 방법에 대한 가이드라인을 찾을 수 없었습니다. 저자들은 문헌이 "포화 개념을 제대로 조작화하지 못하며, 포화를 결정하는 방법에 대한 설명과 의도적으로 표본 추출된 인터뷰의 표본 크기를 추정하기 위한 실질적인 지침을 제공하지 않는다"고 결론지었습니다(Guest 외, 2006, 60쪽). 10년이 지난 지금도 많은 사람들은 질적 연구에서 포화를 평가하는 지침이 여전히 모호하고 근거에 기반하지 않는다는 데 동의합니다(Carlsen & Glenton, 2011; Kerr et al., 2010). 포화는 단순한 매력에도 불구하고 조작 및 입증하기가 복잡합니다. 포화가 표본의 적절성을 평가하는 기준으로 유지되려면 포화를 달성하고 평가하는 방법을 조사하기 위한 추가적인 방법론적 연구를 수행해야 합니다. 궁극적으로 이러한 연구 없이는 '포화 상태에 도달했다'는 선언은 의미가 없어지고 용어의 목적이 훼손될 수 있습니다.
Morse (1995) highlighted long ago that there exists a lack of published guidelines on sample sizes needed to reach saturation. A decade later, this situation remains, as confirmed by Guest et al. (2006), who reviewed 24 qualitative research textbooks and seven databases and found no guidelines on how to achieve saturation in purposive samples. The authors concluded that the literature does a “poor job of operationalizing the concept of saturation, providing no description of how saturation might be determined and no practical guidelines for estimating sample sizes for purposively sampled interviews” (Guest et al., 2006, p. 60). Another decade has passed, and many still agree that guidelines for assessing saturation in qualitative research remain vague and are not evidence-based (Carlsen & Glenton, 2011; Kerr et al., 2010). Despite its simple appeal, saturation is complex to operationalize and demonstrate. If saturation is to remain a criterion for assessing sample adequacy, it behooves us to conduct further methodological studies to examine how saturation is achieved and assessed. Ultimately without these studies, declarations of “reaching saturation” become meaningless and undermine the purpose of the term.

또 다른 문제는 포화는 데이터 수집 중에만 작동할 수 있지만 표본 크기는 연구 제안서와 프로토콜에 미리 명시해야 한다는 것입니다. 표본 크기를 선험적으로 파악해야 하는 것은 "질적 연구에 대해 제도적으로 생성된 문제"(Hammersley, 2015, 687쪽)입니다. 또한 질적 표본은 일반적으로 현장에서 반복적인 접근 방식을 사용하여 정의, 개선 및 강화되기 때문에 [윤리 위원회 및 자금 지원 기관에서 요구하는 선험적 표본 크기 결정 요건]은 질적 연구에 어려움을 제공합니다. 그럼에도 불구하고 연구자들은 선험적으로 표본 크기를 추정해야 하지만, 이러한 추정을 뒷받침하기 위해 다양한 유형의 질적 연구에 대해 포화 상태에 도달하는 데 필요한 표본 크기를 입증하는 방법론적 연구는 거의 없습니다. 따라서 질적 연구에 대한 대부분의 표본 크기 권장 사항은 경험적 또는 '경험의 법칙'에 따른 것입니다(Bryman, 2012; Guest 외., 2006; Kerr 외., 2010; Morse, 1995; Sandelowski, 1995). 또한 적절한 표본 크기를 사용하는 것도 [윤리적 문제]입니다(Carlsen & Glenton, 2011; Francis 외, 2010). 필요 이상으로 큰 질적 표본은 연구비를 낭비하고 연구 모집단에 부담을 주며 미사용 데이터로 이어질 수 있으며, 표본이 너무 작으면 현상을 충분히 포착하지 못하고 연구 결과의 타당성을 떨어뜨리며 연구 결과를 바탕으로 개입을 구축하는 데 자원이 낭비될 수 있습니다. 따라서 다양한 유형의 질적 연구에 대한 표본 크기의 선험적 추정치를 안내할 수 있는 증거를 제공하기 위해 포화의 실제 적용에 대한 추가적인 방법론적 연구가 필요합니다. 
A further challenge is that saturation can only be operationalized during data collection, but sample sizes need to be stated in advance on research proposals and protocols. The need to identify sample sizes a priori is to a large extent “an institutionally generated problem for qualitative research” (Hammersley, 2015, p. 687). In addition, requirements mandated by ethics committees and funding agencies for a priori determination of sample sizes provide challenges in qualitative research because qualitative samples are typically defined, refined, and strengthened using an iterative approach in the field. Nonetheless, researchers do need to estimate their sample size a priori, yet there is little methodological research that demonstrates sample sizes needed to reach saturation for different types of qualitative studies to support these estimates. Most sample size recommendations for qualitative research are thus experiential or “rules of thumb” (Bryman, 2012; Guest et al., 2006; Kerr et al., 2010; Morse, 1995; Sandelowski, 1995). Furthermore, using an appropriate sample size is also an ethical issue (Carlsen & Glenton, 2011; Francis et al., 2010): qualitative samples that are larger than needed waste research funds, burden the study population, and lead to unused data, while samples that are too small may not fully capture phenomena, reduce the validity of findings, and waste resources that build interventions on those findings. Therefore, further methodological research is needed on the practical application of saturation to provide a body of evidence that can guide a priori estimates of sample sizes for different types of qualitative research.

포화 평가
Assessing Saturation

많은 논문에서 포화를 보고할 때 투명성을 높여야 한다고 강조하지만(Carlsen & Glenton, 2011; Fusch & Ness, 2015; Kerr et al., 2010; Morse, 2015; O'Reilly & Parker, 2012), 포화를 효과적으로 평가, 보고 및 정당화하는 데 사용할 수 있는 포화 달성 방법에 대한 경험적 데이터를 제공하는 연구는 거의 없습니다. 두 가지 주목할 만한 예외가 있습니다.

  • Guest 등(2006)은 서아프리카 2개국에서 60건의 심층 인터뷰를 실시한 연구 데이터를 사용하여 주제 분석 중 데이터 포화를 체계적으로 문서화하고, 주제 소진에 도달하는 데 필요한 인터뷰 횟수를 파악하고, 중요한 주제가 언제 개발되었는지 파악했습니다. 연구진은 6차례의 연속적인 인터뷰를 통해 제기된 콘텐츠 중심 주제의 수를 세고, 새로운 주제가 제기되거나 새로운 코드북에서 기존 주제가 변경된 시기를 파악하여 주제 개발의 진행 상황을 문서화했습니다. 또한 연구 데이터 전체에서 코드 적용 빈도를 기준으로 테마의 중요도를 평가했습니다.
  • 연구팀은 12번의 인터뷰를 통해 테마의 포화 상태에 도달했지만, 6번의 인터뷰에서는 테마의 기본 요소가 이미 존재한다는 결론을 내렸습니다. 포화는 이러한 데이터에서 테마 개발의 정도와 테마의 중요도에 따라 평가되었습니다. 따라서 12번의 인터뷰를 통해 모든 신규 테마의 88%가 개발되었고, 모든 중요 테마의 97%가 개발되었으므로 12번의 인터뷰를 통해 코드북 구조가 안정화되었으며 그 이후에는 변경이나 추가가 거의 이루어지지 않았습니다.
  • 저자들은 비교적 동질적인 표본, 집중된 연구 목표, 반구조화된 인터뷰 가이드가 12번의 인터뷰를 통해 데이터 포화 상태에 도달하는 데 기여했을 수 있다고 언급합니다. 또한 포화는 연구, 데이터, 연구자의 다양한 특성에 따라 달라질 수 있다고 강조하면서 12건의 인터뷰를 포화의 일반적인 표본 크기로 사용하는 것에 대해 주의를 당부합니다.

Numerous articles emphasize the need for more transparency in reporting saturation (Carlsen & Glenton, 2011; Fusch & Ness, 2015; Kerr et al., 2010; Morse, 2015; O’Reilly & Parker, 2012); however, few studies provide empirical data on how saturation was achieved that can be used to effectively assess, report, and justify saturation. There are two notable exceptions.

  •  Guest et al. (2006) used data from a study involving 60 in-depth interviews in two West African countries to systematically document data saturation during thematic analysis, identify the number of interviews needed to reach thematic exhaustion, and find when important themes were developed. They documented the progression of theme development by counting the number of content-driven themes raised in successive sets of six interviews, identifying when new themes were raised or changes were made to existing themes in the emerging codebook. They also assessed the importance of themes based on the frequency of code application across the study data.
  • They concluded that saturation of themes was achieved by 12 interviews, but that the basic elements for themes were already present at six interviews. Saturation was assessed based on the extent of theme development and theme importance in these data. As such, by 12 interviews, 88% of all emergent themes had been developed, and 97% of all important themes were developed; therefore, the codebook structure had stabilized by 12 interviews with few changes or additions thereafter.
  • The authors note that their relatively homogeneous sample, focused study objectives, and semistructured interview guide may have contributed to reaching data saturation by 12 interviews. They also caution against using 12 interviews as a generic sample size for saturation, stressing that saturation is likely dependent on a range of characteristics of the study, data, and researchers.


이 연구는 포화 상태에 도달하는 데 필요한 샘플 크기를 입증한 최초의 방법론적 연구이지만 몇 가지 한계가 있습니다. 정확한 포화 시점이 불분명합니다. 저자는 12개의 인터뷰로 포화 상태에 도달했다고 말하지만, 인터뷰는 6개씩 일괄적으로 검토되었기 때문에 실제로는 7~12개의 인터뷰 사이에서 포화 상태가 발생했습니다. 코드가 일률적으로 제시되어 있어 다양한 유형의 코드와 코드 특성에 따라 포화도가 어떻게 달라질 수 있는지에 대한 고려가 없습니다. 또한 반복적 다양성 샘플링을 사용하여 참가자를 모집했는지 여부도 불분명하므로 이것이 이 연구의 포화도에 영향을 미쳤는지 또는 어떻게 영향을 미쳤는지는 평가할 수 없습니다(Kerr et al., 2010). 아마도 가장 큰 한계는 테마의 의미를 평가하지 않고 테마의 발생 횟수를 세어 포화도를 평가했다는 점일 것입니다. 테마를 식별하는 것은 포화도에 도달하기 위한 첫 번째 단계에 불과합니다. "테마가 처음 등장했을 때 파악된 내용은 특별히 통찰력이 있거나 드러나지 않을 수 있습니다. 테마 또는 개념의 내용과 정의를 깊이 있게 개발하려면 추가 데이터 수집 및 분석이 필요할 수 있습니다."(Kerr 외., 2010, 276쪽). 마찬가지로 코드의 중요도는 현상 이해에 대한 기여도보다는 데이터 전반에서 코드의 유병률로 정의됩니다: 
This was the first methodological study demonstrating the sample size required to achieve saturation; however, it has some limitations. The exact point of saturation is unclear. The authors state that saturation was achieved by 12 interviews, but interviews were reviewed in batches of six, so that saturation actually occurred somewhere between seven and 12 interviews. Codes are presented as uniform, so there is no consideration of different types of codes and how saturation may differ by code characteristics. It is also unclear whether iterative diversity sampling was used to recruit participants, so we cannot assess whether or how this may have influenced saturation in this study (Kerr et al., 2010). Perhaps the greatest limitation is the assessment of saturation by counting occurrences of themes, without also assessing the meaning of those themes. Identifying themes is just the first step in reaching saturation. “What is identified about the theme the first time it emerges may not be particularly insightful or revealing. Further data collection and analysis may be required to develop depth in the content and definition of a theme or concept” (Kerr et al., 2010, p. 276). Similarly, code importance is defined by the prevalence of codes across data rather than their contribution to understanding the phenomenon:

코드의 의미와 내용에 대한 질적 판단이 없다면, [덜 흔한 코드 중 하나]가 [더 적은 수의 인터뷰가 수행되었다면 놓쳤을 이해의 핵심 열쇠]가 아니라고 누가 말할 수 있겠는가. (Kerr 외, 2010, 274쪽)
Without any qualitative judgement of the meaning and content of codes who is to say that one of the less prevalent codes was not a central key to understanding that would have been missed if fewer interviews had been conducted. (Kerr et al., 2010, p. 274)
 

따라서 게스트와 동료들의 연구에서 놓친 중요한 요소는 이슈의 의미에서 포화 상태에 도달하는 데 필요한 표본 크기와 이것이 데이터에서 테마의 존재를 식별하여 제안한 표본 크기와 어떻게 비교될 수 있는지를 평가하는 것입니다. 따라서 이 연구에서는 데이터에서 제기된 이슈를 완전히 이해하는 데 필요한 인터뷰 횟수에 대한 지침을 제공하지 않습니다. 
Therefore, a critical missing element in the work of Guest and colleagues is to assess the sample size needed to reach saturation in the meaning of issues and how this might compare with their sample size suggested by identifying the presence of themes in data. Therefore, this study does not provide guidance on the number of interviews needed to fully understand the issues raised in these data.

Francis 등(2010)의 또 다른 방법론 연구에서는 이론 기반 인터뷰 연구(계획된 행동 이론에 의해 개념 범주가 미리 결정된 경우)에서 개념의 포화 상태가 언제 발생하는지 확인했습니다. 이들은 분석을 통해 선험적으로 수행할 초기 인터뷰 횟수 지정, 사용할 중단 기준(더 이상 개념이 나오지 않는 연속 인터뷰 횟수 기준) 파악, 투명하고 검증 가능한 방식으로 포화 상태 보고 등 데이터 포화 상태를 설정하고 보고하기 위한 원칙을 제안했습니다. 분석에서 연구진은 초기 샘플로 10개의 인터뷰(이 숫자에 대한 근거는 제공하지 않음)를 사용하고, 중지 기준을 3개로 설정했으며, 개념의 포화와 전체 연구 포화를 보여주기 위해 누적 빈도 그래프를 제시했습니다.

  • 이 매개변수 내에서 한 연구에서는 17번의 인터뷰를 통해 전체 연구 포화도에 도달했으며, 각 신념 범주가 다른 지점에서 포화에 도달하는 것으로 나타났습니다.
  • 두 번째 연구에서는 한 신념 범주에서는 포화 상태에 도달했지만 다른 범주에서는 포화 상태에 도달하지 않았기 때문에 14번의 인터뷰에서는 전체 연구 포화 상태에 도달하지 못했습니다.

이러한 결과는 포화가 단차원적인 것이 아니라 [개별 구성 요소] 또는 [전체 연구 포화]에 따라 다양한 수준에서 평가(또는 달성)될 수 있다는 점을 강조합니다. 따라서 연구자들은 자신이 달성했다고 주장하는 포화의 유형을 명확히 해야 합니다. Francis 등의 연구는 데이터에서 이슈의 의미에 대한 포화도를 평가할 필요성을 인정하기 시작했지만, 귀납적인 내용 중심 주제가 아닌 외부에서 파생된 개념 범주를 사용하여 연구의 포화도를 입증하는 데 그치고 있습니다.
Another methodological study by Francis et al. (2010) identified when saturation of concepts occurs in theory-based interview studies (where conceptual categories were predetermined by the theory of planned behavior). They used their analysis to propose principles for establishing and reporting data saturation, including specifying a priori an initial number of interviews to conduct, identifying stopping criteria to use (based on the number of consecutive interviews that yield no further concepts), and reporting saturation in a transparent and verifiable way. In their analysis, they used an initial sample of 10 interviews (although they provide no justification for this number), a stopping criterion of three, and present cumulative frequency graphs to demonstrate saturation of concepts and overall study saturation.

  • Within these parameters, they found that one study reached overall study saturation by 17 interviews, with each belief category reaching saturation at a different point.
  • In a second study, saturation was achieved in one belief category but not in others; therefore, overall study saturation was not achieved in the 14 interviews conducted.

These results highlight that saturation is not unidimensional; it can be assessed (or achieved) at different levels—by individual constructs or by overall study saturation. Thus, researchers need to be clear on the type of saturation they claim to have achieved. Francis et al.’s study begins to acknowledge the need to assess saturation in the meaning of issues in data; however, the results are limited to demonstrating saturation in studies using externally derived conceptual categories, rather than more inductive content-driven themes.

연구 목표
Study Aims

본 연구는 포화도 운영에 대한 더 많은 방법론적 연구에 대한 요구에 부응합니다(Francis 외, 2010; Guest 외, 2006; Morse, 2015). 우리는 포화가 실제로 무엇을 의미하는지, 어떻게 평가하고 문서화할 수 있는지 탐구하고, 질적 연구에서 표본 크기를 추정하는 데 필요한 실용적인 지침을 제공합니다. 우리는 앞서 설명한 포화의 일반적인 적용, 즉 근거 이론의 맥락 밖에서 사용되는 포화의 일반적인 적용에 초점을 맞추고 있습니다. 이러한 초점은 다른 질적 접근법에서 포화가 어떻게 적용되거나 달성되었는지에 대한 설명 없이 포화도가 자주 사용되며, 위에서 설명한 바와 같이 이러한 광범위한 맥락에서 포화도 사용에 대한 방법론적 지침이 부족하기 때문에 적절하다고 판단됩니다. 
Our study responds to calls for more methodological research on operationalizing saturation (by Francis et al., 2010; Guest et al., 2006; Morse, 2015). We explore what saturation means in practice, how it can be assessed and documented, and we provide pragmatic guidance on estimating sample sizes in qualitative research. We focus on the general application of saturation, described earlier, as used outside of the grounded theory context. This focus is warranted due to the frequent use of saturation in other qualitative approaches without explanation of how it was applied or achieved and due to the lack of methodological guidance on the use of saturation in this broader context, as described above.

본 연구에서는 [코드 포화]와 [의미 포화]라는 두 가지 포화 평가 접근법을 살펴봅니다.

  • 먼저 [코드 포화]를 평가했는데, 코드 포화는 추가적인 문제가 발견되지 않고 코드집이 안정화되기 시작하는 시점으로 정의했습니다. 그런 다음 [코드 포화]가 식별된 문제를 완전히 이해하기에 충분한지 평가했습니다.
  • 둘째, [의미 포화]를 평가했습니다. 이는 이슈를 완전히 이해하고 더 이상 이슈의 차원, 뉘앙스 또는 인사이트를 찾을 수 없는 시점으로 정의했습니다. 또한 코드의 특정 특성이 코드 또는 의미 포화에 영향을 미치는지 평가하여 연구에서 개발된 코드의 특성에 따라 포화를 추정할 수 있는 매개변수를 제공했습니다. 

이 연구에서는 다음과 같은 연구 질문에 대한 답을 찾고자 했습니다:
Our study explores two approaches to assessing saturation, which we term code saturation and meaning saturation. We first assessed code saturation, which we defined as the point when no additional issues are identified and the codebook begins to stabilize. We then assessed whether code saturation is sufficient to fully understand issues identified. Second, we assessed meaning saturation, which we defined as the point when we fully understand issues, and when no further dimensions, nuances, or insights of issues can be found. We also assessed whether certain characteristics of codes influence code or meaning saturation, to provide parameters for estimating saturation based on the nature of codes developed in a study. Our study sought to answer the following research questions:

  • 연구 질문 1: 코드 포화도에 도달하려면 얼마나 많은 인터뷰가 필요한가?
  • 연구 질문 2: 의미 포화도에 도달하기 위해 얼마나 많은 인터뷰가 필요한가?
  • 연구 질문 3: 코드 특성이 포화도에 어떤 영향을 미치는가?
  • 연구 질문 4: 질적 표본 크기를 추정하기 위해 선험적으로 포화도를 평가하는 데 사용할 수 있는 매개변수는 무엇인가요 
  • Research Question 1: How many interviews are needed to reach code saturation?
  • Research Question 2: How many interviews are needed to reach meaning saturation?
  • Research Question 3: How do code characteristics influence saturation?
  • Research Question 4: What parameters can be used to assess saturation a priori to estimate qualitative sample sizes?

이 연구는 건강 행동을 이해하고 중재를 개발하기 위해 일반적으로 보건 과학 및 공중 보건 연구에서 사용되는 응용 질적 연구의 포화도를 평가하는 데 중점을 두었습니다. 이러한 응용 분야에서는 민족지학적 연구와 같은 다른 유형의 질적 연구보다 연구 목적과 연구 집단이 더 명확하게 정의될 수 있습니다. 
Our study focused on assessing saturation in applied qualitative research, typically used in health sciences and public health research to understand health behavior and develop interventions. In these applications, the research purpose and study population may be more defined than in other types of qualitative research, such as ethnographic studies.

연구 방법
Method

연구 배경
Study Background

데이터의 포화도에 대한 분석의 맥락으로 원본 연구의 데이터 수집에 대한 개요를 제공합니다. 원래 연구의 연구 질문은 "HIV 치료에서 환자 유지에 영향을 미치는 요인은 무엇인가?"였습니다. 항레트로바이러스 치료(ART)의 등장으로 HIV 감염은 치명적인 질병에서 만성 질환으로 전환되었습니다. ART는 질병의 진행을 늦추고 다른 사람에게 HIV를 전파하는 것을 줄이는 데 중요합니다(Attia, Egger, Müller, Zwahlen, & Low, 2009; Cohen 외., 2011; "Vital Signs", 2011). HIV 진단 직후 치료와 연계되는 것은 ART를 조기에 시작하고 바이러스 부하 및 기타 동반 질환을 정기적으로 모니터링하는 데 매우 중요합니다. 그러나 미국에서 HIV 양성으로 알려진 사람들 중 77%만이 치료와 연계되어 있으며, 그 이후에도 정기적인 치료를 받는 비율은 51%에 불과합니다(Hall et al., 2012; "Vital Signs," 2011). 따라서 [본 연구의 목적]미국 최대 규모의 재향군인병원인 애틀랜타 재향군인 의료센터(AVAMC)의 감염병 클리닉(IDC)에서 HIV 양성 환자를 치료하는 데 있어 무엇이 치료 유지에 영향을 미치는지 파악하는 것이었습니다. 
We provide an overview of data collection for the original study as context for our analyses on saturation of these data. The research question of the original study was: what influences patient retention in HIV care? With the advent of antiretroviral therapy (ART), HIV infection has transitioned from a fatal disease to a chronic condition. ART is important for slowing progression of the disease and reducing HIV transmission to others (Attia, Egger, Müller, Zwahlen, & Low, 2009; Cohen et al., 2011; “Vital Signs,” 2011). Becoming linked to care soon after diagnosis with HIV is critical for early initiation of ART and regular monitoring of the viral load and other comorbidities. However, only 77% of those known to be HIV positive in the United States are linked to care, and only 51% are retained in regular care thereafter (Hall et al., 2012; “Vital Signs,” 2011). Therefore, the aim of the original study was to understand what influences retention in HIV care at the Infectious Disease Clinic (IDC) of the Atlanta VA Medical Center (AVAMC), the largest VA clinic caring for HIV-positive patients in the United States.

데이터 수집 및 분석
Data Collection and Analysis

연구 참여 자격은 18세 이상이고 2011년 1월 이전에 IDC에 처음 방문했으며 HIV 양성으로 진단받은 경우였습니다. 연구 참여자는 현재 IDC에서 치료를 받고 있는 환자(치료 중 그룹)와 IDC에서 6개월 이상 치료를 받았지만 최소 8개월 동안 클리닉 방문에 참석하지 않은 환자(치료 외 그룹)의 두 그룹으로 나뉘었습니다. 연구 기간 동안 클리닉 예약이 예정된 적격 참가자를 식별하기 위해 환자 기록을 선별했습니다. 진료 외 환자는 진료 외 시간에 따라 사분위수로 나눈 다음 각 사분위수에서 의도적으로 선정했습니다. 그런 다음 연령, 인종, 성별을 기준으로 진료 중인 환자를 진료 외 참여자와 일치하도록 선정했습니다. 참가자에게 전화로 연락하여 정기 진료 예약 시간 또는 다른 시간에 연구에 참여하도록 초대했습니다. 클리닉 기록을 사용하여 인구통계학적 특성 및 치료 유지 특성에 따라 의도적인 다양성 샘플링이 가능했으며, 이후 반복적인 모집을 통해 고용과 같은 다른 특성에서도 다양성을 확보할 수 있었습니다. 데이터는 2013년 2월부터 7월까지 25회의 심층 인터뷰를 통해 수집되었습니다: 16명은 보호 대상에서 벗어난 사람들을, 9명은 보호 대상에서 벗어난 사람들을 대상으로 심층 인터뷰를 진행했습니다. 돌봄을 받지 않는 그룹에서 더 다양한 문제가 제기되었기 때문에 이러한 문제를 완전히 이해하기 위해 더 많은 인터뷰가 필요했습니다. 인터뷰는 질적 연구에 대한 교육을 받고 HIV 치료 및 AVAMC에 대한 경험이 있는 연구자들이 수행했습니다. 연구자들은 반구조화된 인터뷰 가이드를 사용하여 군 복무가 건강 관리에 미치는 영향, HIV 진단, HIV에 대한 지식, HIV 치료, 돌봄 및 지원, AVAMC에서 HIV 치료를 받는 데 있어 장벽과 촉진 요인에 대한 주제를 다루었습니다. 모든 인터뷰는 IDC의 개인실에서 진행되었으며 디지털 방식으로 녹음되었고 약 60분 동안 진행되었습니다. 이 연구는 에모리대학교 기관윤리심의위원회(IRB00060643)의 승인을 받았습니다. 
Participants were eligible for the study if they were 18 years or older, first attended the IDC before January 2011, and were diagnosed as HIV positive. Study participants included two groups: patients currently receiving care at the IDC (in-care group) and patients who received at least 6 months of care at the IDC but had not attended a clinic visit for at least 8 months (out-of-care group). Patient records were screened to identify eligible participants due for a clinic appointment during the study period. Out-of-care patients were divided into quartiles by their time out of care and then purposively selected from each quartile. In-care patients were then selected to match out-of-care participants based on age, ethnicity, and gender. Participants were contacted by telephone and invited to participate in the study at their routine clinic appointment or a different time. Using clinic records enabled purposive diversity sampling by demographic and treatment retention characteristics; thereafter iterative recruitment was used to achieve diversity in other characteristics like employment. Data were collected from February to July 2013, through 25 in-depth interviews: 16 with those out of care and nine with those in care. A greater diversity of issues was raised in the out-of-care group which required more interviews to fully understand these issues. Interviews were conducted by researchers trained in qualitative research and experienced with HIV care and the AVAMC. Interviewers used a semistructured interview guide on the following topics: influence of military service on health care; HIV diagnosis; knowledge of HIV; HIV treatment, care, and support; and barriers and facilitators for receiving HIV care at the AVAMC. All interviews were conducted in a private room at the IDC, digitally recorded, and lasted approximately 60 minutes. The study was approved by Emory University Institutional Review Board (IRB00060643).

모든 인터뷰는 그대로 전사하고 비식별 처리한 후 정성적 데이터 분석을 위해 MaxQDA11 소프트웨어(1989-2016)에 입력했습니다. 모든 데이터에서 핵심 주제를 식별하고 설명하기 위해 주제별 분석을 사용했습니다. 여기에는 모든 녹취록을 읽고 두 명의 분석가가 확인한 참가자가 [제기한 문제를 식별]하고, 각 문제에 [코드명을 부여]하고, [코드북에 모든 코드와 코드 정의를 나열]하는 작업이 포함되었습니다. [코드북]에는 인터뷰 가이드의 주제에 따른 연역적 코드와 귀납적 내용 중심 코드가 모두 포함되었습니다. 코딩된 데이터의 일부에 대해 두 코더 간에 코더 간 일치도를 평가하고 전체 데이터 세트가 코딩되기 전에 코딩 불일치를 해결했습니다.
All interviews were transcribed verbatim, de-identified, and entered into MaxQDA11 software (1989-2016) for qualitative data analysis. We used thematic analysis to identify and describe core themes across all data. This involved reading all transcripts to identify issues raised by participants, which were verified by two analysts; giving each issue a code name; and listing all codes and code definitions in a codebook. The codebook included both deductive codes from topics in the interview guide and inductive content-driven codes. Intercoder agreement was assessed between two coders on a portion of coded data and coding discrepancies resolved before the entire data set was coded.

이러한 데이터의 포화도를 평가하기 위해 코드 개발과 관련된 추가 정보를 수집한 다음 이러한 추가 데이터에 대한 별도의 분석을 수행해야 했습니다. 이러한 추가 데이터와 분석은 다음 섹션에서 설명하며, 분석 방법에 대한 개요는 그림 1에 나와 있습니다. 
To assess saturation in these data, we needed to collect additional information regarding code development and then conduct separate analyses of these additional data. These additional data and analyses are described in the subsequent sections, and an overview of analytic methods is shown in Figure 1.

 

코드 포화도 평가를 위한 데이터
Data for Assessing Code Saturation

코드 포화도를 평가하기 위해 인터뷰가 진행된 순서대로 인터뷰 녹취록을 검토하여 코드 개발 과정을 문서화했습니다. 각 인터뷰마다 코드 이름, 코드 정의, 코드 유형(귀납적 또는 연역적), 새 코드에 대한 참고 사항(예: 문제의 명확성, 코드 정의의 완전성), 이전에 개발된 코드가 인터뷰에 포함되었는지 여부 등 새로 개발된 코드와 코드 특성을 기록했습니다. 각 코드 정의에는 해당 코드가 포착한 문제에 대한 설명, 코드 적용 기준 및 예외 사항, 코드와 관련된 텍스트의 예가 포함되었습니다. 코드 개발의 진화를 파악하기 위해 이전 인터뷰에서 개발된 코드에 대한 변경 사항과 변경 사항의 성격, 각 변경 사항이 발생한 인터뷰 번호도 기록했습니다. 이러한 코드 개발 문서화와 반복적인 코드 개선 작업은 25개의 인터뷰가 모두 검토되고 코드북이 완성될 때까지 각 인터뷰에 대해 개별적으로 계속되었습니다. 
To assess code saturation, we documented the process of code development by reviewing interview transcripts in the order in which they were conducted. For each interview, we recorded new codes developed and code characteristics, including the code name, code definition, type of code (inductive or deductive), any notes about the new code (e.g., clarity of the issue, completeness of the code definition), and whether any previously developed codes were present in the interview. Each code definition included a description of the issue it captured, criteria for code application and any exceptions, and an example of text relevant to the code. To identify the evolution of code development, we also recorded any changes made to codes developed in previous interviews, including the nature of the change and the interview number at which each change occurred. This documentation of code development and iterative refinement of codes continued for each interview individually until all 25 interviews were reviewed and the codebook was complete.

그런 다음 분석을 위해 코드를 다음과 같이 분류했습니다. 

  • 첫째, 코드는 귀납적 코드와 연역적 코드로 분류했습니다.
    • 귀납적 코드는 내용 중심적이며 참가자들이 자발적으로 제기한 반면,
    • 연역적 코드는 연구자 중심적이며 인터뷰 가이드에서 비롯된 것입니다.
  • 둘째, 코드의 변경은 코드명 변경, 코드 정의 변경, 코드 병합, 코드 분할로 분류했습니다.
    • 코드 정의 변경은 개념 확장, 예시 추가, 포함/제외 기준 수정, 부정적 요소 추가 등으로 다시 분류했습니다.
  • 셋째, 코드도 구체적 코드개념적 코드로 분류했습니다.
    • 구체적 코드는 데이터에서 명시적이고 명확한 문제를 포착하는 코드로,
      • 예를 들어 '시간' 코드는 이동 시간, 대기 시간, 약속 시간 등 구체적인 문제를 포착합니다. 마찬가지로 '업무 약속' 코드는 장시간 근무, 교대 근무 또는 휴가 사용과 같은 명시적인 문제를 캡처했습니다.
    • 개념적 코드는 지각, 감정, 판단 또는 느낌과 같은 추상적 구성을 포착하는 코드입니다.
      • 예를 들어, 개념 코드 '바이러스에 대한 편안함'은 HIV에 대한 미묘한 태도, 자신감, 통제감을 포착하는 것으로, "나는 내가 HIV 양성인이라는 사실을 받아들였다. 나는 바이러스에 대해 좀 소극적인 것 같아요. 난 괜찮을 거야."
      • 마찬가지로 '건강에 대한 책임감'이라는 개념 코드는 다음 문구에서 볼 수 있듯이 자신의 건강에 대해 책임을 지고 책임진다는 개념을 담고 있습니다: "아프면 뭔가 조치를 취해야 한다"(책임감) 또는 "HIV에 집중하지 않아서 ... 약을 먹지 않았다"(책임감 부족). 이러한 코드 분류는 코드 유형, 코드 개발 변경 유형, 코드 개발 시기를 정량화하여 결과에 보고될 패턴을 식별하는 데 사용되었습니다.

Codes were then categorized for analysis as follows.

  • First, codes were categorized as inductive or deductive.
    • Inductive codes were content-driven and raised by participants spontaneously, whereas
    • deductive codes were researcher-driven and originated from the interview guide.
  • Second, changes to codes were categorized as change in code name, change in code definition, code merged, and code split into separate codes.
    • Code definition changes were further categorized as expanded conceptually, added examples, edited inclusion/exclusion criteria, and added negative component.
  • Third, codes were also categorized as concrete or conceptual.
    • Concrete codes were those capturing explicit, definitive issues in data;
      • for example, the code “time” captured concrete issues such as travel time, waiting time, and appointment time. Similarly, the code “work commitments” captured explicit issues such as long hours, shift work, or getting time off work.
    • Conceptual codes were those capturing abstract constructs such as perceptions, emotions, judgments, or feelings.
      • For example, the conceptual code “comfort with virus” captures a subtle attitude toward HIV, a feeling of confidence, and a sense of control, as captured in this phrase: “I’ve embraced the fact that I am HIV positive . . . I guess I’m kinda passive to my virus . . . I’m gonna be OK.”
      • Similarly, the conceptual code “responsibility for health” captures the concept of taking charge and being accountable for one’s own health, as shown in these phrases: “If you get sick you need to do something about it” (taking responsibility) or “I wasn’t focused on my HIV and . . . didn’t take medication” (lack of responsibility). These categorizations of codes were used to quantify the types of codes, types of changes to code development, and timing of code development to identify patterns that will be reported in the results.

[코드 포화]가 인터뷰 기록을 검토하는 순서에 영향을 받는지 평가하기 위해 인터뷰 순서를 무작위로 지정하고, 가상의 코드 개발을 무작위 순서로 매핑한 다음, 이를 실제로 인터뷰 기록을 검토한 순서에 따른 코드 개발 결과와 비교했습니다. 이를 위해 먼저 난수 생성기를 사용하여 인터뷰 순서를 무작위로 정했습니다. 이미 동일한 인터뷰가 실제 순서대로 완료되었기 때문에 편향될 수 있으므로 코드 개발을 위해 녹취록을 검토하는 과정을 반복하지 않았습니다. 대신, 인터뷰 전체에 걸쳐 해당 주제가 동일한 횟수만큼 반복된 후에 코드가 개발될 것이라고 가정했습니다. 예를 들어, 실제 코드 개발에서 '약속을 잊어버림' 코드는 인터뷰 1과 3에서 이 문제가 언급된 후 세 번째 인터뷰에서 생성되었습니다. 따라서 무작위 순서로 '약속 잊음' 코드도 마찬가지로 이 주제가 두 번 언급된 후에 생성될 것이라고 가정했습니다. 이는 가상의 코드 개발이 실제 순서와 마찬가지로 연구자의 코드 개발 스타일을 무작위 순서에 반영하여 인터뷰 순서가 코드 개발에 미치는 영향을 보다 직접적으로 평가할 수 있도록 하기 위함이었습니다. 무작위 인터뷰의 코드 개발 패턴을 재현하기 위해 코드가 생성된 인터뷰 전에 코드가 코딩된 데이터에 적용된 인터뷰 횟수로 표시된 테마가 나타난 횟수를 계산했습니다. 그런 다음 이 숫자를 사용하여 무작위 인터뷰에서 가상의 코드 개발을 매핑했습니다. 이 계산은 모든 코드에 대해 수행되었으며 무작위 인터뷰의 코드 개발 매핑에 사용되었습니다.

To assess whether code saturation was influenced by the order in which interview transcripts were reviewed, we randomized the order of interviews, mapped hypothetical code development in the random order, and compared this with results from code development in the order in which interviews were actually reviewed. To do this, we first randomized interviews using a random number generator. We did not repeat the process of reviewing transcripts to develop codes, as this would be biased given that this process had already been completed with the same interviews in their actual order. Instead, we assumed that codes would be developed after the same number of repetitions of that theme across the interviews. For example, in actual code development, the code “forgot appointment” was created in the third interview, after this issue had been mentioned in Interviews 1 and 3. Thus, in the random order, we assumed that the “forgot appointment” code would likewise be created after two mentions of the theme. The aim here was that our hypothetical code development would reflect the researchers’ style of code development in the random order as in the actual order, so that we could assess the effect of interview order on code development more directly. We replicated the pattern of code development in the randomized interviews by calculating the number of times a theme was present (as indicated by the number of interviews in which the code was applied to the coded data) before the interview in which the code was created. We then used these numbers to map hypothetical code development in the randomized interviews. This calculation was done for all codes and was used to map code development in the randomized interviews.

의미 포화도 평가를 위한 데이터
Data for Assessing Meaning Saturation

코드 포화도에 도달하는 데 필요한 샘플 크기가 의미 포화도를 달성하기에 충분한지 평가하기 위해, [코드 포화]와 [개별 코드의 의미 포화]를 비교했습니다. 또한 코드의 유형이나 데이터에서 코드가 차지하는 비중이 어떤 코드의 포화에 영향을 미치는지도 평가했습니다.
To assess whether the sample size needed to reach code saturation was also sufficient to achieve meaning saturation, we compared code saturation with meaning saturation of individual codes. We also assessed whether the type of code or its prevalence in data influenced saturation of a code.

[의미 포화]를 파악하기 위해 원래 연구의 연구 질문에 중심이 되는, [구체적 코드와 개념적 코드](위에 정의된 대로)와 [고빈도 및 저빈도 코드](아래에 정의된 대로)가 혼합된 9개의 코드를 선택했습니다. 이러한 각 코드에 대한 궤적을 개발하여 연속적인 인터뷰를 통해 코드에 대해 알게 된 내용을 파악했습니다. 여기에는 코딩된 데이터를 사용하여 첫 번째 인터뷰에서 코드를 검색하고 설명된 문제의 다양한 차원을 기록한 다음, 두 번째 인터뷰에서 코드를 검색하고 설명된 새로운 차원을 기록한 다음, 25개의 인터뷰가 모두 검토될 때까지 이러한 방식으로 코드를 계속 추적하는 것이 포함되었습니다. 추적한 9개의 코드 모두에 대해 이 과정을 반복했습니다. [코드 궤적]을 사용하여 각 코드의 의미 포화도를 파악한 후, 추가 인터뷰에서는 코드에 대한 추가적인 차원이나 이해가 제공되지 않고 반복만 이루어졌습니다. 그런 다음 개별 코드의 [의미 포화]에 도달하는 데 필요한 인터뷰 횟수를 앞서 결정한 [코드 포화]와 비교했습니다. 
To identify meaning saturation, we selected nine codes central to the research question of the original study and comprising a mix of concrete and conceptual codes (as defined above) and high- and low-prevalence codes (as defined below). We developed a trajectory for each of these codes to identify what we learned about the code from successive interviews. This involved using the coded data to search for the code in the first interview, noting the various dimensions of the issue described, then searching for the code in the second interview and noting any new dimensions described, and continuing to trace the code in this way until all 25 interviews had been reviewed. We repeated this process for all nine codes we traced. We used the code trajectories to identify meaning saturation for each code, whereby further interviews provided no additional dimensions or understanding of the code, only repetition of these. We then compared the number of interviews needed to reach meaning saturation for individual codes with code saturation determined earlier.

코드의 유형에 따라 포화도가 영향을 받는지 평가하기 위해 구체적 코드('시간', '기분 좋음', '충분한 약물', '업무 약속')의 코드 포화와 개념적 코드('바이러스에 대한 편안함', '사형 선고가 아님', '공개', '건강에 대한 책임', 'HIV 낙인')의 코드 포화를 비교했습니다. 마지막으로 코드 포화가 코드 빈도의 영향을 받는지 평가하기 위해 빈도가 높거나 낮은 코드별로 코드 포화도를 비교했습니다. [코드 빈도prevalence]는 [코드가 존재한 인터뷰의 수]로 정의했습니다. 평균적으로 14.5개의 인터뷰에 코드가 존재했기 때문에 고빈도 코드는 14.5개 이상의 인터뷰에 나타난 코드로, 저빈도 코드는 14.5개 미만의 인터뷰에 나타난 코드로 정의했습니다. 의미 포화도를 평가한 코드 중

  • 고빈도 코드에는 "시간", "공개", "HIV 낙인", "건강에 대한 책임"이 포함되었고,
  • 저빈도 코드에는 "건강함", "직장 생활", "충분한 약물", "바이러스에 대한 편안함", "사형 선고가 아님"이 포함되었습니다.

To assess whether saturation was influenced by the type of code, we compared code saturation for the concrete codes (“time,” “feel well,” “enough medications,” and “work commitments”) with saturation for the conceptual codes (“comfort with virus,” “not a death sentence,” “disclosure,” “responsibility for health,” and “HIV stigma”). Finally, to assess whether code saturation was influenced by code prevalence, we compared code saturation by high- or low-prevalence codes. Code prevalence was defined by the number of interviews in which a code was present. On average, codes were present in 14.5 interviews; thus, we defined high-prevalence codes as those appearing in more than 14.5 interviews and low-prevalence codes as those appearing in fewer than 14.5 interviews. Of the codes assessed for meaning saturation, the high-prevalence codes included “time,” “disclosure,” “HIV stigma,” and “responsibility for health,” whereas the low-prevalence codes included “feel well,” “work commitments,” “enough medications,” “comfort with virus,” and “not a death sentence.”

결과
Results

파트 1: 코드 포화도
Part I: Code Saturation

코드 개발
Code development

그림 2는 코드 개발 시기를 보여줍니다. 인터뷰가 진행된 순서, 개발된 코드의 유형(귀납적 또는 연역적), 코드가 개발된 연구 집단(치료 외 그룹 또는 치료 중인 그룹)에 따라 각 연속 인터뷰에서 개발된 새로운 코드의 수를 확인했습니다. 귀납적 코드와 연역적 코드 모두 인터뷰 1에서 개발되었으며 이후에는 귀납적 코드만 추가되었습니다. 이 연구에서는 총 45개의 코드가 개발되었으며, 이 중 절반 이상(53%)의 코드가 첫 번째 인터뷰에서 개발되었습니다. 인터뷰 2와 인터뷰 3에서는 각각 5개의 코드만 추가되었고, 인터뷰 6에서는 84%의 코드가, 인터뷰 9에서는 91%의 새로운 코드가 개발되었습니다. 나머지 16번의 인터뷰에서는 4개의 코드만 추가되었습니다(전체 코드의 8%). 인터뷰 9 이후에 개발된 4개의 코드는 이전 인터뷰에서 개발된 보다 구체적인 주제 코드에 비해 개념적인 코드('약물 휴가', '체계적 무관심', '사형 선고가 아님', '타인 돕기')였습니다. 치료 외 그룹 인터뷰가 완료된 16번 인터뷰까지 연구 코드의 98%를 개발했으며, 두 번째 연구 집단(치료 중 그룹)을 추가한 결과 이 그룹의 의료적 맥락은 다르지만 추가 코드는 단 하나에 불과했습니다. 

Figure 2 shows the timing of code development. We identified the number of new codes developed from each successive interview in the order in which they were conducted, the type of code that was developed (inductive or deductive), and the study population in which codes were developed (out-of-care or in-care group). Both inductive and deductive codes were developed from Interview 1 and thereafter only inductive codes were added. A total of 45 codes were developed in this study, with more than half (53%) of codes developed from the first interview. Interviews 2 and 3 added only five additional codes each; by Interview 6, 84% of codes were identified, and by Interview 9, 91% of all new codes had been developed. The remaining 16 interviews yielded only four additional codes (8% of all codes). These four codes developed after Interview 9 were more conceptual codes (“drug vacation,” “systemic apathy,” “not a death sentence,” and “helping others”) compared with the more concrete topic codes developed in earlier interviews. By Interview 16, when out-of-care group interviews were completed, we had developed 98% of the codes in the study, and adding the second study population (in-care group) yielded only one additional code, despite the different health care context of this group of participants.

그림 2는 대부분의 코드가 가장 먼저 검토된 인터뷰로부터 개발되었음을 보여줍니다. 우리는 인터뷰를 검토하는 순서가 새로운 코드 개발 패턴에 영향을 미치는지, 특히 치료 외 그룹을 먼저 검토하는 것이 코드 개발에 영향을 미치는지 질문했습니다. 이를 평가하기 위해 무작위 인터뷰 순서로 개발된 신규 코드의 수와 실제 인터뷰를 검토한 순서에 따른 코드 개발 수를 비교했습니다. 그림 3은 무작위 인터뷰와 실제 인터뷰 검토 순서 모두에서 동일한 코드 개발 패턴이 나타났으며, 첫 번째 인터뷰에서는 여전히 절반 이상의 코드가 개발되었고 이후 인터뷰가 계속될수록 신규 코드 개발이 급격히 줄어드는 것을 보여줍니다. 두 시나리오 모두에서 여전히 대부분의 코드가 9번 인터뷰에 의해 개발되었습니다(실제 순서와 무작위 순서에서 각각 91%와 87%). 따라서 코드 개발을 위해 인터뷰를 검토하는 순서와 관계없이 초기 인터뷰가 대부분의 새로운 코드를 생성하는 동일한 패턴의 신규 코드 개발이 나타납니다.

 Figure 2 shows that the majority of codes were developed from the very first interview reviewed. We asked whether the order in which interviews were reviewed had any influence on the pattern of new code development and in particular whether reviewing the out-of-care group first influenced code development. To assess this, we compared the number of new codes developed in our randomized interview order with code development in the actual order in which interviews were reviewed. Figure 3 shows that the same pattern of code development emerged in both the random and the actual order in which interviews were reviewed, whereby more than half of codes were still developed in the first interview and new code development tapers sharply with successive interviews. In both scenarios, the majority of codes were still developed by interview 9 (91% and 87% in the actual and random order, respectively). Thus, regardless of the order in which interviews are reviewed for code development, the same pattern of new code development is seen, whereby early interviews produce the majority of new codes.

코드 정의 변경 사항
Code definition changes

표 1은 코드 개발 과정에서 변경된 코드 정의를 보여줍니다. 20개의 코드 정의(44%)는 코드 개발 프로세스 내내 전혀 변경되지 않았습니다. 뚜렷한 패턴은 없었지만, 변경되지 않은 코드의 절반은 보다 구체적인 문제를 포착했거나 인터뷰 가이드에서 질문한 문제에서 직접 파생된 것으로서 사전에 정의하기가 더 쉬웠을 수 있습니다. 이러한 구체적/연역적 코드의 대부분은 코드 개발 프로세스 초기(인터뷰 6)에 개발되었으며 이후 인터뷰를 검토할 때 변경되지 않은 채로 남아있었습니다. 변경되지 않은 구체적인 코드의 예로는 'HIV에 대한 지식', 'HIV 치료 시작', '치료 중단', '치료 복귀', '수감', '충분한 약물 복용' 등이 있습니다. 변경되지 않은 다른 유형의 코드는 개념 코드, 특히 감정을 포착하는 코드였습니다. 이러한 유형의 변경되지 않은 코드는 일반적으로 코딩 과정 후반부(인터뷰 6 이후)에 개발되었는데, 아마도 문제의 성격이 더 완전히 이해된 후 데이터에 잘 맞는 보다 포괄적인 초기 코드 정의가 만들어져 변경할 필요가 없었기 때문일 것입니다. 이러한 문제는 이전 인터뷰에서도 존재했지만 더 많은 데이터를 검토할 때까지 명확성이 부족했을 수 있습니다. 이러한 변경되지 않은 개념 코드의 예로는 분노, 감사, HIV 거부, 공개, 전신적 무관심, 약물 휴가 등이 있습니다.

Table 1 shows changes to code definitions during the process of code development. Twenty code definitions (44%) did not change at all throughout the code development process. Although there were no strong patterns, we did note that half of the unchanged codes captured more concrete issues or were derived directly from issues asked on the interview guide, and thus may be easier to define up front. Most of these concrete/deductive codes were developed early in the code development process (by Interview 6) and remained unchanged when reviewing later interviews. Examples of unchanged concrete codes include “knowledge of HIV”, “HIV treatment initiated”, “time out of treatment”, “return to treatment”, “incarceration”, and “having enough medication”. The other type of code that remained unchanged were conceptual codes, particularly those capturing emotions. This type of unchanged code was generally developed later in the coding process (after Interview 6), possibly once the nature of the issue was more fully understood, resulting in more inclusive initial code definitions that fit data well, thus requiring no changes. These issues may have been present in earlier interviews but lacked clarity until more data were reviewed. Examples of these unchanged conceptual codes were anger, gratitude, denial of HIV, disclosure, systemic apathy, and drug vacation.

나머지 25개 코드의 경우, 총 63개의 코드 정의가 변경되었습니다(표 1 참조). 이 중 4분의 3(75%)이 귀납적 내용 중심 코드에 대한 변경이었지만, 연역적 코드에 대한 변경은 최초 개발 이후에도 계속 이루어졌습니다. 예상대로 코드 개발 프로세스 초기에 많은 정의 변경이 발생했습니다. 코드 정의 변경의 약 절반(49%)이 인터뷰 2~4(데이터 미표시)를 검토하는 동안 발생했고, 인터뷰 6에서 정의 변경의 78%, 인터뷰 9에서 정의 변경의 92%가 이루어졌습니다(데이터 미표시). 따라서 코드 정의는 9번의 인터뷰를 검토한 후 안정화되기 시작했습니다. 두 번째 연구 집단(치료 중인 그룹)의 인터뷰를 검토할 때 코드 정의에 대한 변경 사항은 거의 없었습니다. 따라서 처음에 첫 번째 연구 집단에서 인터뷰를 통해 개발하고 개선한 코드 구조와 정의는 두 번째 연구 집단에도 그대로 적용되었습니다.
For the remaining 25 codes, a total of 63 changes were made to the code definitions (see Table 1). Three quarters (75%) of these changes were made to inductive, content-driven codes; however, changes were still made to the deductive codes after their initial development. As expected, many definition changes occurred early in the code development process. About half (49%) of the changes to code definitions occurred while reviewing Interviews 2 to 4 (data not shown), 78% of definition changes were made by Interview 6, and 92% of definition changes were made by Interview 9 (data not shown). Thus, the code definitions began to stabilize after reviewing nine interviews. When reviewing interviews from the second study population (in-care group), there were very few changes to the code definitions. Therefore, the code structure and definitions initially developed and refined using interviews in the first study population remained applicable to the second study population.

표 1에는 코드 정의에 대한 변경 유형도 나와 있습니다. 코드 정의를 확장하고 코드 적용 매개변수를 세분화하는 두 가지 유형의 변경이 일반적이었습니다. 코드 정의 변경의 1/3(36%)은 포착된 문제의 다양한 측면을 더 포괄할 수 있도록 정의를 개념적으로 확장하는 것과 관련이 있었습니다. 이러한 유형의 변경은 주로 귀납적 내용 중심 코드에 이루어졌으며, 추가 인터뷰를 검토하고 특정 코드 내의 다양성이 드러나면서 개선되었기 때문에 일부 코드 정의는 이 과정을 통해 여러 번 변경되었습니다. 예를 들어, '너무 아픔' 코드는 처음에는 독감과 같은 일회성 신체 질환으로 인해 병원에 방문하지 못하는 경우를 포착하기 위해 정의되었지만, HIV 감염인 생활로 인한 누적된 피로와 피로, 그리고 여러 HIV 관련 건강 상태를 경험하여 병원 방문을 놓친 경우까지 포착하도록 확장되었습니다. 마찬가지로 '부작용' 코드는 처음에는 HIV 치료제 복용으로 인한 부작용 경험을 포착하기 위해 정의되었다가 부작용으로 인한 HIV 치료제 기피도 포함하도록 확장되었고, 이후에는 약을 복용하지 않아 증상을 피하기 위해 HIV 약을 복용하는 순응도까지 포착하도록 확장되었습니다.
Table 1 also shows the types of changes made to code definitions. Two types of changes were common: expanding the code definition and refining the parameters of code application. One third (36%) of changes to a code definition involved conceptually expanding the definition to be more inclusive of different aspects of the issue captured. This type of change was mostly made to inductive content-driven codes that were refined as further interviews were reviewed and the variation within specific codes was revealed; thus, some code definitions changed multiple times through this process. For example, the code “too sick” was initially defined to capture a one-off physical illness preventing clinic visits, such as a flu-like illness, but was expanded to also capture cumulative exhaustion and fatigue from living with HIV and experiencing multiple HIV-related health conditions that led to missed clinic visits. Similarly, the code “side effects” was initially defined to capture experiences of side effects from taking HIV drugs, then expanded to also include avoidance of HIV drugs due to the side effects caused, and then further expanded to capture compliance with taking HIV drugs to avoid symptoms from not taking these drugs.

두 번째로 흔한 변경 유형은 코드가 포착하는 문제의 예시 추가(25%), 포함 또는 제외 기준 구체화(10%), 정의에 부정적 요소 추가(16%) 등 코드 적용의 매개변수를 세분화하는 것이었습니다. 예를 들어, '지원 출처'의 코드 정의에 '지원 부족'을, 'HIV 낙인' 코드 정의에 'HIV 낙인 경험 없음'을 포함시켰습니다. 문제를 더 잘 반영하기 위해 코드명을 수정하거나 문제의 다른 구성 요소를 개별적으로 포착하기 위해 코드를 두 개의 개별 코드로 분리하는 등의 기타 코드 변경은 그다지 흔하지 않았습니다. 코드 정의를 좁히기 위해 변경된 코드는 없었습니다.
The second common type of change involved refining the parameters of code application, such as adding examples of the issue being captured by a code (25%), refining inclusion or exclusion criteria (10%), and adding negative components to a definition (16%). For example, we included lack of support in the code definition of “source of support,” and no experience of HIV stigma in the “HIV stigma” code definition. Other changes to codes were less common, such as editing the code name to better reflect the issue and splitting a code into two separate codes to capture different components of the issue separately. No codes were changed to narrow the code definition.

코드 빈도
Code prevalence

연구에서 가장 많이 사용된 코드가 언제 개발되었는지 알아보고자 했습니다. 그림 4는 각 코드를 별도의 막대로 표시합니다: X축에서 코드의 위치는 해당 코드가 어느 인터뷰에서 개발되었는지를 나타내며, 막대의 높이는 해당 코드가 사용된 인터뷰의 수를 나타냅니다. 예를 들어, 처음 4개의 막대는 이 4개의 코드가 인터뷰 1에서 개발되어 25개의 모든 인터뷰에서 사용되었음을 나타냅니다. 가로 점선은 이 연구에서 코드가 나타난 평균 인터뷰 횟수인 14.5회를 나타냅니다. 따라서 점선 위에 나타나는 코드는 데이터 세트 전체에서 평균보다 높은 빈도를 나타냅니다. 따라서 이 데이터에서 24개의 코드가 높은 유병률을 보였고 21개의 코드가 낮은 유병률을 보였습니다. 그림 4를 보면 고빈도 코드의 75%(18/24)는 첫 번째 인터뷰에서 이미 확인되었고, 87%(21/24)는 인터뷰 6에서, 92%(22/24)는 인터뷰 9에서 고빈도 코드가 개발되었음을 알 수 있습니다. 따라서 고빈도 코드의 대부분은 초기 인터뷰에서 확인되었습니다. 인터뷰 1 이후에 개발된 대부분의 코드는 데이터 세트 전체에서 그 빈도가 낮았습니다.
We wanted to determine when the most prevalent codes in the study were developed. Figure 4 represents each code as a separate bar: The location of a code on the x-axis indicates in which interview a code was developed, and the height of the bar indicates the number of interviews in which a code was used. For example, the first four bars indicate that these four codes were developed in Interview 1 and were used in all 25 interviews. The horizontal dashed line shows the average number of interviews in which a code appears in this study, which is 14.5 interviews. Thus, a code appearing above the dashed line has a higher than average prevalence across the data set as a whole. Thus, 24 codes were of high prevalence and 21 of low prevalence in these data. Figure 4 shows that 75% (18/24) of high-prevalence codes were already identified from the first interview, 87% (21/24) by Interview 6, and 92% (22/24) of high-prevalence codes were developed by Interview 9. Therefore, the vast majority of the high-prevalence codes are identified in early interviews. Most of the codes developed after Interview 1 were less prevalent across the data set.

그림 4는 또한 개발된 코드 유형(구체적 또는 개념적), 각 코드 유형이 개발된 시기, 그리고 이러한 데이터 전체에 걸쳐 다양한 유형의 코드가 얼마나 널리 퍼져 있는지를 보여줍니다. 이 그림에 따르면 첫 번째 인터뷰에서 개발된 코드의 4분의 3(18/24)이 구체적인 코드였으며, 첫 번째 인터뷰에서 개발된 코드의 25%만이 개념적인 코드였습니다. 인터뷰 6 이후에 개발된 코드는 주로 저빈도 코드였으며 거의 전적으로 개념적 코드(7/9, 78%)였고, 이러한 개념적 코드 중 43%(3/7)는 유병률이 높은 코드였습니다. 전반적으로 이 수치는

  • [초기에 개발된 코드]는 [고빈도, 구체적 코드]인 반면,
  • [나중에 개발된 코드]는 [저빈도, 개념적 코드]임을 보여 주지만,

연구의 후반 인터뷰에서는 빈도가 높고 개념적인 코드가 일부 개발되었습니다.

Figure 4 also shows the type of codes developed (concrete or conceptual), when each type of code was developed, and the prevalence of different types of codes across these data as a whole. This figure shows that three quarters (18/24) of codes developed from the first interview were concrete codes, with only 25% of codes from the first interview being conceptual. Codes developed after Interview 6 were mainly low-prevalence codes and were almost exclusively conceptual codes (7/9, 78%), with 43% (3/7) of these conceptual codes being high-prevalence codes. Overall, these figures show that codes developed early were high prevalence, concrete codes, while those developed later were less prevalent, conceptual codes, although some high prevalent, conceptual codes were developed in later interviews in the study.

코드 포화
Code saturation

코드 포화도를 결정하기 위한 선험적 임계값은 없었으며, 분석 결과에 따라 결정되었습니다. 코드 식별률(코드의 91%가 식별됨), 코드 유병률(유병률이 높은 코드의 92%가 식별됨), 코드집 안정성(코드 정의 변경의 92%가 이루어짐)의 조합을 기준으로 [9번의 인터뷰]를 통해 [코드 포화]에 도달했다고 판단했습니다. 이러한 데이터에서 제기된 새로운 이슈의 범위를 파악하는 데는 9번의 인터뷰로 충분했지만, 당시의 이슈를 단순히 개괄적으로 설명하는 것과 비교했을 때 제기된 모든 이슈를 완전히 이해하는 데도 9번의 인터뷰로 충분한지 질문했습니다. 9번의 인터뷰로도 데이터 전반에서 제기된 이슈의 의미 포화도에 도달할 수 있었을까요? 다음 섹션에서 이 질문에 대해 살펴보겠습니다.
We did not have an a priori threshold to determine code saturation; rather, it was determined based on results of our analysis. We determined that code saturation was reached at nine interviews based on the combination of

  • code identification (91% of codes were identified),
  • code prevalence (92% of high-prevalence codes were identified), and
  • codebook stability (92% of code definition changes had been made).

Although nine interviews were sufficient to identify the range of new issues raised in these data, we asked whether nine interviews were also sufficient to fully understand all of the issues raised, compared with having simply outlined the issues at that point. Were nine interviews also sufficient to reach meaning saturation of the issues across data? We explore this question in the next section.

2부: 의미 포화
Part II: Meaning Saturation

의미 포화
Meaning saturation

2부에서는 9번의 인터뷰가 데이터에서 제기된 이슈를 포괄적으로 이해하기에 충분한지 평가합니다. 따라서 [코드 포화]와 [의미 포화] 사이의 일치 여부를 평가합니다. 이를 위해 연구의 각 연속적인 인터뷰에서 코드에 대해 얻은 정보를 기록하여 개별 인터뷰에서 코드에 대해 배운 내용을 더 자세히 파악하고 개별 코드가 의미 포화 상태에 도달하는 시점을 평가했습니다. 원래 연구의 연구 질문에 중심이 되는 9개의 코드를 추적했으며, 구체적 코드, 개념적 코드, 고빈도 또는 저빈도 코드를 혼합하여 포함했습니다. 표 2는 우리가 추적한 9개의 코드를 보여주며, 인터뷰를 통해 확인된 각 코드의 다양한 차원을 나열합니다. 의미 포화도는 새로운 코드 차원이 확인된 마지막 인터뷰에서 발생하는 것으로 결정되었습니다. 예를 들어,

  • '기분 좋음' 코드는 인터뷰 1, 3, 4에서 확인된 5개의 차원으로 구성되어 있어 인터뷰 4에서 의미 포화 상태에 도달했고,
  • '공개' 코드는 여러 인터뷰에서 확인된 13개의 차원으로 구성되어 있어 인터뷰 17에서 의미 포화 상태에 도달했습니다.

그림 5는 9개의 코드가 각각 언제 개발되었는지, 그리고 각 코드가 언제 의미 포화 상태에 도달했는지를 시각적으로 보여줍니다. 
In Part II, we assess whether nine interviews were indeed sufficient to gain a comprehensive understanding of the issues raised in the data. Thus, we assess the congruence between code saturation and meaning saturation. To do so, we recorded the information gained about a code from each successive interview in the study, to identify in greater detail what we learn about a code from individual interviews and to assess when individual codes reach meaning saturation. We traced nine codes central to the research question of the original study and included a mix of concrete, conceptual, and high- and low-prevalence codes. Table 2 shows the nine codes we traced, listing the various dimensions of each code that were identified by interview. Meaning saturation was determined to occur at the last interview in which a novel code dimension is identified.

  • As such, the code “feel well” comprises five dimensions that were identified from Interviews 1, 3, and 4; thus, it reached meaning saturation at Interview 4.
  • The code “disclosure” has 13 dimensions, identified across numerous interviews, and it reached meaning saturation at Interview 17.

Figure 5 visually depicts when each of these nine codes was developed and when each code reached meaning saturation.

 

표 2는 초기 인터뷰에서 많은 차원의 코드가 포착되었음을 보여줍니다. 

  • 인터뷰 6에서는 이미 각 코드의 여러 차원이 식별되었으며, 이 시점에서 하나의 코드가 의미 포화 상태에 도달했습니다. 
  • 인터뷰 9와 12에서는 각 코드에 추가되는 새로운 차원이 줄어들고, 5개의 코드가 의미 포화 상태에 도달했습니다. 
  • 인터뷰 12 이후에도 여러 코드가 의미 포화 상태에 도달하지 않았으며, 마지막 인터뷰까지 여러 차원의 코드가 여전히 식별되고 있습니다. 

따라서 9개의 인터뷰 표본 크기로는 일부 코드의 모든 차원을 파악할 수 있지만 다른 코드의 차원은 파악할 수 없는데, 이에 대해서는 아래에서 자세히 살펴봅니다. 

Table 2 shows that many dimensions of codes are captured in early interviews.

  • By Interview 6, multiple dimensions of each code are already identified, with one code reaching meaning saturation at this point.
  • By Interviews 9 and 12, fewer new dimensions are added to each code, and five codes have now reached meaning saturation.
  • After Interview 12, several codes have not reached meaning saturation, with multiple dimensions of codes still being identified until the last interview.

Therefore, a sample size of nine interviews is sufficient for capturing all dimensions of some codes but not others; we explore this further below.

표 2는 또한 의미 포화도에는 다양한 인터뷰가 필요하며, 다양한 인터뷰는 문제에 대한 포괄적인 이해를 위해 코드의 새로운 차원이나 뉘앙스에 기여한다는 점을 강조합니다. 

  • 예를 들어, '공개'라는 코드의 다양한 차원은 9개의 서로 다른 인터뷰를 통해 확인되었으며, 일부 인터뷰에서는 공개에 대한 여러 차원을 제공하기도 했습니다. 
  • '시간'과 같은 구체적인 코드의 경우에도 모든 차원을 완전히 포착하여 문제를 이해하려면 4가지 다른 인터뷰가 필요합니다. 

따라서 처음에는 한 번의 인터뷰로 코드를 식별할 수 있지만, 문제를 완전히 이해하려면 코드의 모든 차원을 포착하기 위해 여러 번의 인터뷰가 필요합니다. 이는 포화를 평가할 때 코드가 단순히 식별되는 [코드 포화]를 넘어 더 많은 데이터가 필요한 [의미 포화](코드가 완전히 이해되는 의미 포화도)로 나아가야 할 수 있음을 의미합니다.

 Table 2 also highlights that meaning saturation requires a range of interviews, with different interviews contributing a new dimension or nuance of the code toward a comprehensive understanding of the issue.

  • For example, the various dimensions of the code “disclosure” were identified from nine different interviews, with some interviews providing several dimensions of disclosure.
  • Even a concrete code such as “time” requires four different interviews to fully capture all dimensions and thus understand the issue.

Therefore, a code may be initially identified in one interview, but it requires multiple interviews to capture all dimensions of the code to fully understand the issue. This implies that assessing saturation may need to go beyond code saturation (whereby codes are simply identified) toward meaning saturation (where codes are fully understood), which requires more data.

그림 5는 개별 코드가 데이터의 여러 지점에서 의미 포화에 도달했음을 보여줍니다.

  • 일부 코드는 인터뷰 9에서 의미 포화도에 도달했지만, 다른 코드는 훨씬 늦게 또는 전혀 도달하지 못했습니다.
  • 구체적인 문제를 나타내는 코드는 인터뷰 9에서 의미 포화도에 도달하거나 그보다 더 빨리 도달했습니다.
    • 예를 들어, 구체적인 코드인 '기분 좋음', '충분한 약', '시간'은 각각 인터뷰 4, 7, 9에서 의미 포화도에 도달했습니다.
  • 그러나 보다 개념적인 문제를 나타내는 코드는 데이터의 후반부인 인터뷰 16과 24 사이에 의미 포화도에 도달했습니다.
    • 예를 들어, "사형 선고가 아님", "공개", "HIV 낙인" 코드는 각각 인터뷰 16, 17, 24에서 의미 포화도에 도달했습니다. '건강에 대한 책임' 코드는 마지막 인터뷰에서도 새로운 차원이 확인되었기 때문에 의미 포화 상태에 도달하지 않았습니다.

Figure 5 demonstrates that individual codes reached meaning saturation at different points in these data. While some codes reached meaning saturation by Interview 9, other codes reached meaning saturation much later or not at all. Codes representing concrete issues reached meaning saturation by Interview 9 or sooner. For example, the concrete codes “feel well,” “enough medications,” and “time” reached meaning saturation by Interviews 4, 7, and 9, respectively. However, codes representing more conceptual issues reached meaning saturation much later in the data, between Interviews 16 and 24. For example, the codes “not a death sentence,” “disclosure,” and “HIV stigma” reached meaning saturation by Interviews 16, 17, and 24, respectively. The code “responsibility for health” did not reach meaning saturation, as new dimensions were still identified at the last interview conducted.

또한 그림 5는 코드가 개발된 시점과 해당 코드의 모든 차원이 포착된 시점을 시각적으로 보여줌으로써 [코드 생성 후 각 코드를 완전히 이해하는 데 필요한 추가 인터뷰 횟수]를 강조합니다(가로선의 길이로 표시됨). 이는 [개념적 코드]의 모든 차원을 완전히 이해하려면 [구체적 코드]를 완전히 이해하는 것보다 훨씬 더 많은 데이터가 필요하다는 점을 강조합니다. 예를 들어, 

  • '기분 좋음'이라는 [구체적 코드]는 모든 차원을 파악하는 데 4번의 인터뷰만 필요했지만,
  • '공개'라는 개념적 코드는 여러 차원을 파악하는 데 17번의 인터뷰가 필요했습니다.

일부 [개념적 코드]의 경우, 해당 코드의 구체적인 차원을 조기에 파악할 수 있는 반면, 추상적인 차원일수록 [모든 차원]을 파악하기 위해 더 많은 데이터가 필요합니다.

  • 예를 들어, 'HIV 낙인' 코드의 경우, 초기 인터뷰에서는 구체적인 유형의 낙인을 파악할 수 있지만, 자기 낙인, 낙인으로 인한 스트레스, HIV로 인한 사망에 대한 낙인, 낙인을 피하기 위한 HIV 상태 공개 등 보다 미묘한 차원의 낙인을 파악하려면 더 많은 데이터가 필요합니다(표 2 참조).

요약하자면, 9개의 표본 크기는 이러한 데이터의 [구체적 코드]를 이해하는 데는 충분하지만, 이러한 [개념적 코드]나 구체적인 코드의  [개념적 차원을 완전히 이해]하기에는 충분하지 않습니다.
Figure 5 also visually depicts the point at which a code was developed and the point at which all dimensions of that code were captured, thus highlighting the number of additional interviews after code creation that are needed to gain a full understanding of each code (as depicted by the length of the horizontal line). This highlights that fully understanding all dimensions of conceptual codes requires much more data than fully understanding concrete codes. For example, the concrete code “feel well” required only four interviews to identify all its dimensions, whereas the conceptual code “disclosure” required 17 interviews to identify its multiple dimensions. For some conceptual codes, the more tangible concrete dimensions of that code are captured early, whereas the more abstract dimensions require more data to capture all dimensions. For example, in the code “HIV stigma”, the concrete types of stigma are identified from early interviews, but more data are required to reveal the more nuanced dimensions of stigma such as self-stigma, stress of stigma, stigma of dying from HIV, and disclosure of HIV status to avoid stigma (see Table 2). In sum, a sample size of nine would be sufficient to understand the concrete codes in these data, but it would not be sufficient to fully understand conceptual codes or conceptual dimensions of these concrete codes.

의미 포화도가 데이터에서 코드의 유병률이 높은지 낮은지에 따라 영향을 받는지 질문했지만 코드 빈도에 따른 명확한 패턴은 발견되지 않았습니다. 그림 5에서 '시간', '공개', 'HIV 낙인', '건강에 대한 책임'의 고빈도 코드는 9번과 24번 인터뷰 사이에 의미 포화도에 도달하거나 포화도에 도달하지 않았습니다. 저빈도 코드는 인터뷰 6과 16 사이에 의미 포화 상태에 도달했습니다. 이는 데이터에서 더 자주 발견되는 코드가 덜 자주 발견되는 코드보다 문제를 이해하는 데 더 적은 수의 인터뷰가 필요하지 않을 수 있음을 시사합니다. 이 데이터에서는 고빈도 코드와 저빈도 코드 모두 원래 연구의 연구 질문에 똑같이 중요했습니다.
We asked if meaning saturation is influenced by whether a code is of high or low prevalence in these data but found no clear patterns by code prevalence. In Figure 5, high-prevalence codes of “time,” “disclosure,” “HIV stigma,” and “responsibility for health” reached meaning saturation between Interviews 9 and 24 or did not reach saturation. Low-prevalence codes reached meaning saturation between Interviews 6 and 16. This suggests that codes found more frequently in data may not require fewer interviews to understand the issue than codes found less frequently. In these data, both the high- and low-prevalence codes were equally important for the research question of the original study.

토론
Discussion

이 연구는 질적 연구의 포화를 평가하는 제한된 방법론 연구에 기여합니다. 우리는 포화도에 대한 두 가지 접근 방식, 각 접근 방식별로 포화도에 도달하는 데 필요한 샘플 크기, 코드의 특성이 포화도에 영향을 미치는지 여부를 문서화하고자 했습니다. 그 결과를 사용하여 포화도에 도달하기 위한 샘플 크기에 영향을 미치는 매개변수를 개발했습니다.
This study contributes to a limited body of methodological research assessing saturation in qualitative research. We sought to document two approaches to saturation, the sample sizes needed to reach saturation for each approach, and whether the nature of codes influences saturation. We used our results to develop parameters that influence sample sizes for reaching saturation.

그 결과 9번의 인터뷰 끝에 [코드 포화에 도달]했으며, 두 번째 연구 모집단을 추가한 후에도 포화도는 변하지 않았습니다. 또한 [첫 번째 인터뷰]신규 코드의 절반 이상(53%)과 고빈도 코드의 4분의 3(75%)을 차지했으며, 포화 상태에 이를 때까지 후속 인터뷰가 각각 몇 개의 신규 코드를 추가한 것으로 나타났습니다. 따라서 9번의 인터뷰를 통해 공통적인 주제별 이슈의 범위가 파악되었고 코드북이 안정화되었습니다. 이러한 결과는 7~12개의 인터뷰 사이에 데이터 포화 상태가 발생하고, 인터뷰 1과 6 사이에 주제의 기본 요소가 많이 존재한다는 것을 확인한 Guest 등(2006)의 연구 결과와 매우 유사합니다. 또한 우리의 연구 결과는 원하는 포화도에 따라 8~16개의 인터뷰 사이에 포화도가 발생한다는 것을 확인한 Namey, Guest, McKenna, Chen(2016)의 연구 결과와도 일치합니다. 그러나 본 연구는 Guest 등이 수행한 것처럼 6개의 일괄 인터뷰가 아닌 개별 인터뷰에서 개발된 코드를 묘사함으로써 이전 연구보다 더 높은 정밀도를 제공하므로 코드 개발에 대한 첫 번째 인터뷰의 중요한 기여도를 파악하고 코드 포화의 시기와 궤적을 더 정확하게 지정할 수 있습니다.
Our results show that code saturation was reached after nine interviews; even after adding the second study population, saturation was not altered. We also show that the first interview conducted contributed more than half (53%) of new codes and three quarters (75%) of high-prevalence codes, with subsequent interviews adding a few new codes each until saturation. Thus, by nine interviews, the range of common thematic issues was identified, and the codebook had stabilized. These results are remarkably similar to those of Guest et al. (2006), who identified that data saturation occurred between seven and 12 interviews, with many of the basic elements of themes present between Interviews 1 and 6. Our findings also concur with Namey, Guest, McKenna, and Chen (2016), who identified that saturation occurred between eight and 16 interviews, depending on the level of saturation sought. However, our study provides greater precision than previous work by delineating codes developed in individual interviews (rather than in batches of six as done by Guest et al.); thus, we identify the significant contribution of the first interview to code development and specify the timing and trajectory of code saturation more precisely.

[코드 포화]는 [데이터 수집 중에 연구 주제와 관련된 이슈의 범위가 파악되고 더 이상 새로운 이슈가 발생하지 않는다]고 주장하여 포화도를 평가하는 데 자주 사용됩니다. 그러나 연구 결과에 따르면 [코드 포화]에 도달하는 것만으로는 충분하지 않을 수 있습니다. [코드 포화]는 문제를 식별하고 강력한 코드북으로 이어질 수 있지만, 이러한 문제를 완전히 이해하려면 더 많은 데이터가 필요합니다. 포화에 영향을 미치는 것은 이슈의 존재 여부나 빈도뿐만 아니라 이슈를 이해하는 데 도움이 되는 이슈에서 파생된 데이터의 풍부함입니다(Emmel, 2015; Morse, 1995):
Code saturation is often used during data collection to assess saturation, by claiming that the range of issues pertinent to the study topic have been identified and no more new issues arose. However, our results show that reaching code saturation alone may be insufficient. Code saturation will identify issues and lead to a robust codebook, but more data are needed to fully understand those issues. It is not only the presence or frequency of an issue that contributes to saturation but more importantly the richness of data derived from an issue that contributes to understanding of it (Emmel, 2015; Morse, 1995):

[포화도에 대한 잘못된 생각]은 연구자가 "모든 것을 다 들었을 때" 데이터가 포화 상태가 된다는 것입니다. 이 기준은 단독으로 사용할 경우 부적절하며 연구 중인 주제에 대한 이해가 얕을 수 있습니다. (모스, 2015, 587쪽)
[A] mistaken idea about saturation is that data become saturated when the researcher has “heard it all” . . . When used alone, this criterion is inadequate and may provide a shallow . . . understanding of the topic being studied. (Morse, 2015, p. 587)

따라서 [코드 포화]는 주요 탐구 영역에 대한 개요를 제공하기 때문에 [적은 수의 인터뷰]로 도달할 수 있지만, 관심 있는 현상을 이해하는 데 중요한 의미를 지닌 데이터의 깊이, 풍부함, 복잡성을 제공하려면 [더 많은 데이터]가 필요합니다.
Thus, code saturation may be reached with few interviews as it provides an outline of the main domains of inquiry, but further data are needed to provide depth, richness, and complexities in data that hold important meaning for understanding phenomena of interest.

이번 연구에서 가장 설득력 있는 결과는 [의미 포화]를 평가하는 두 번째 접근 방식과 다른 연구에서 평가되지 않은 [코드 특성이 의미 포화에 미치는 영향]과 관련이 있을 것입니다. 연구 결과에 따르면 코드는 균일하지 않고 서로 다른 지점에서 의미 포화도에 도달하거나 포화도에 도달하지 않는 것으로 나타났습니다.

  • 일부 코드의 경우 코드 포화도에 도달하는 것만으로도 의미 포화도를 달성할 수 있었지만,
  • 다른 코드의 경우 문제를 완전히 이해하려면 훨씬 더 많은 데이터가 필요했습니다.
  • [고빈도 구체적 코드]는 일반적으로 초기 인터뷰에서 식별되었으며 [9번의 인터뷰 또는 그 이전]에 의미 포화 상태에 도달하는 것으로 나타났습니다.
  • 그러나 후기 인터뷰에서 확인된 코드는 [저빈도 개념적 코드]로, 의미 포화 상태에 도달하기 위해 [16~24회의 인터뷰]를 통해 더 많은 데이터가 필요했거나 의미 포화 상태에 도달하지 못했습니다.

Perhaps the most compelling results of our study relate to our second approach of assessing meaning saturation and how code characteristics influence meaning saturation, which has not been assessed in other studies. Our results show that codes are not uniform; rather, they reach meaning saturation at different points or do not reach saturation.

  • For some codes, reaching code saturation was also sufficient to achieve meaning saturation,
  • but for other codes, much more data were needed to fully understand the issue.
  • We found that high-prevalence concrete codes were typically identified in early interviews and reached meaning saturation by nine interviews or sooner.
  • However, codes identified in later interviews were low-prevalence conceptual codes that required more data to reach meaning saturation, between 16 and 24 interviews, or they did not reach meaning saturation.

따라서 코드 포화도에서 제안하는 [9개의 표본 크기]는 데이터의 명시적인 구체적인 문제를 포괄적으로 이해하는 데만 충분할 뿐, 훨씬 더 많은 데이터가 필요한 구체적인 코드의 미묘한 개념적 문제와 개념적 차원을 놓칠 수 있습니다. 이를 고려하는 또 다른 방법은 코드를 이해하려면 [다양한 인터뷰]가 필요하며, [다양한 인터뷰]는 문제에 대한 완전한 이해를 구축하는 새로운 차원에 기여한다는 것입니다. 구체적 코드의 경우에도 모든 차원을 이해하려면 4~9개의 인터뷰가 필요하지만, 개념적 코드는 그 의미를 완전히 파악하기 위해 훨씬 더 많은 데이터(즉, 4~24개의 인터뷰)가 필요합니다. 따라서 하나의 코드가 한 인터뷰에서 식별되어 다른 인터뷰에서 반복될 수 있지만, 이를 완전히 이해하려면 문제의 모든 차원을 파악하기 위해 추가 인터뷰가 필요합니다. 이러한 결과는 [코드를 식별하는 것 이상으로 더 많은 데이터를 수집]하고 '모든 것을 들었는지'가 아니라 '모든 것을 이해했는지'를 물어야만 데이터 포화 상태라고 주장할 수 있다는 점을 강조합니다. 또한 의미 포화도를 달성하려면 반복적인 샘플링 프로세스를 사용하여 데이터의 다양성, 명확성 및 깊이를 모니터링하고 이해도가 낮은 참가자 또는 도메인에 데이터 수집을 집중해야 합니다.
Thus, a sample size of nine—as suggested by code saturation—would only be sufficient to develop a comprehensive understanding of explicit concrete issues in data and would miss the more subtle conceptual issues and conceptual dimensions of concrete codes, which require much more data. Another way to consider this is that understanding any code requires a range of interviews, with different interviews contributing new dimensions that build a complete understanding of the issue. Even concrete codes required between four and nine interviews to understand all dimensions; however, conceptual codes required an even greater range of data (i.e., between 4 and 24 interviews) to fully capture their meaning. Therefore, a code may be identified in one interview and repeated in another, but additional interviews are needed to capture all dimensions of the issue to fully understand it. These findings underscore the need to collect more data beyond the point of identifying codes and to ask not whether you have “heard it all” but whether you “understand it all”—only then could data saturation be claimed. Achieving meaning saturation also necessitates using an iterative process of sampling to monitor diversity, clarity, and depth of data, and to focus data collection on participants or domains that are less understood.

코드 사용률에 따른 포화도 패턴은 발견되지 않았습니다. 데이터에서 더 자주 언급된 이슈는 덜 자주 언급된 이슈보다 의미 포화도에 더 빨리 도달하지 않았습니다. 따라서 코드 유병률은 해당 이슈의 의미가 언제 도달할 수 있는지를 알려주지 않기 때문에 포화도를 나타내는 강력한 지표가 아닙니다. "중요한 것은 주제와 관련된 데이터가 발생하는 빈도가 아니라 특정 데이터 세그먼트가 유익한 분석 논거를 개발하고 테스트할 수 있는지 여부"이기 때문에 이는 놀라운 일이 아닙니다(Hammersley, 2015, p.688). 즉, 빈도가 높은 코드가 대부분 식별되었다고 해서 반드시 중요한 문제가 포착된 것과 동일시해서는 안 됩니다. 빈도가 낮은 코드도 데이터의 주제를 이해하는 데 똑같이 기여할 수 있으며, 따라서 빈도가 아니라 이해에 기여하는 정도가 중요해집니다. Morse(2015)는 데이터가 정상 곡선을 따라 발생하며, 일반적인 데이터는 중간에, 덜 일반적인 데이터는 곡선의 꼬리에 위치한다는 점을 강조하여 이를 잘 설명했습니다. 하지만
We found no pattern of saturation by code prevalence. Issues raised more frequently in data did not reach meaning saturation sooner than issues mentioned less frequently. Therefore, code prevalence is not a strong indicator of saturation, as it provides no indication of when the meaning of that issue may be reached. This should not be surprising because “it is not so much the frequency with which data relevant to a theme occurs that is important but rather whether particular data segments allow a fruitful analytic argument to be developed and tested” (Hammersley, 2015, p.688). Code prevalence should also not be equated with code importance; in other words, if most high-prevalence codes have been identified, this does not necessarily equate to important issues having been captured. Less prevalent codes may contribute equally to understanding themes in data; thus, they become important not for their frequency but for their contribution to understanding. Morse (2015) described this well by highlighting that data accrue along a normal curve, with common data in the middle and less common data at the tails of the curve. However,

질적 조사에서는 곡선의 꼬리에 있는 데이터도 똑같이 중요합니다. 곡선의 중앙에 있는 데이터가 덜 일반적인 데이터를 압도하고 꼬리에 있는 똑같이 중요한 데이터를 무시할 위험이 있습니다. (p. 587)
in qualitative inquiry, the data at the tails of the curve are equally important . . . The risk is that the data in the center of the curve will overwhelm the less common data, and we will ignore the equally significant data at the tails. (p. 587)


따라서 빈도가 높은 코드를 포착하여 포화도를 정당화하는 것은 포화도의 요점을 놓치는 것이며, [의미 포화]를 추구하면 곡선을 평평하게 만들어 현상 이해에 기여할 수 있는 코드의 잠재력을 동등하게 취급할 수 있습니다. 이는 포화도를 주장할 때 [코드의 빈도를 계산]하는 것이 아니라, [코드의 의미를 포착]했음을 입증하는 것이 중요하다는 점을 강조합니다.
Therefore, justifying saturation by capturing high-prevalence codes misses the point of saturation; striving for meaning saturation flattens the curve to treat codes equally in their potential to contribute to understanding phenomena. This stresses the importance of demonstrating that the meaning of codes were captured instead of counting the prevalence of codes when claiming saturation.

연구 결과는 [포화가 여러 매개변수의 영향을 받는다]는 점을 강조합니다(그림 6). 이러한 매개변수는 연구 제안서에서 특정 연구에 선험적으로 필요한 표본 크기를 추정하는 데 사용할 수 있으며, 포화도를 평가하고 달성한 근거를 입증하여 사용된 표본 크기를 정당화하는 데 사용할 수도 있습니다. 각 매개변수는 지렛대 역할을 하며 특정 연구의 맥락에서 '가중치'를 부여해야 합니다. 따라서 표본 크기는 단일 매개변수 단독이 아닌 [모든 매개변수의 영향력을 합산]하여 결정됩니다. 예를 들어, 일부 매개변수가 포화도에 대해 더 작은 표본을 나타내고 다른 매개변수가 더 큰 표본을 제안하는 경우, 결합된 영향력을 고려하면 중간 표본 크기가 필요하다는 것을 알 수 있습니다.
Our results highlight that saturation is influenced by multiple parameters (Figure 6). These parameters can be used in a research proposal to estimate sample sizes needed a priori for a specific study or they can be used to demonstrate the grounds on which saturation was assessed and achieved thereby justifying the sample size used. Each parameter acts as a fulcrum and needs to be “weighed up” within the context of a particular study. A sample size is thus determined by the combined influence of all parameters rather than any single parameter alone. For example, where some parameters indicate a smaller sample for saturation and others suggest a larger sample, the combined influence would suggest the need for an intermediate sample size.

  • 연구 목적이 포화도에 영향을 미칩니다. 코드 포화도는 9번의 인터뷰로 도달할 수 있으며, 이는 광범위한 주제에 대한 개요를 제시하거나 설문조사 도구의 항목을 개발하는 것을 목표로 하는 연구에는 충분할 수 있지만 복잡한 현상을 이해 또는 설명하거나 이론을 개발하기 위해 의미 포화도가 필요한 경우에는 더 많은 표본이 필요합니다. 
  • 연구 모집단의 특성은 포화도에 영향을 미칩니다. 본 연구에는 특정 클리닉에서 HIV 치료를 받는 퇴역군인의 비교적 동질적인 표본이 포함되었지만, 연구 집단이 더 다양하다면 코드와 의미 포화도를 모두 달성하기 위해 더 큰 표본 크기가 필요할 것으로 예상됩니다. 
  • 사용된 샘플링 전략이 포화도에 영향을 미칠 수 있는데, 반복 샘플링은 고정 모집 기준을 사용하는 것보다 포화도에 도달하기 위해 더 작은 표본이 필요할 수 있지만, 반복 샘플링은 궁극적으로 표본 크기를 확장하는 새로운 데이터 소스를 발견할 수도 있습니다. 따라서 샘플링 전략에 따라 표본 크기에 서로 다른 영향을 미칠 수 있습니다. 
  • 데이터 품질은 포화도에 영향을 미치는데, '두꺼운' 데이터는 '얇은' 데이터보다 더 깊고 풍부한 인사이트를 제공하지만, 연구 목표에 부합한다면 후자의 데이터로도 코드 포화를 달성하기에 충분할 수 있습니다. 
  • 개발된 코드의 유형은 포화도에 영향을 미칩니다. 데이터에서 명시적이고 구체적인 문제를 포착하려면 더 작은 샘플이 필요하고, 미묘하거나 개념적인 문제를 포착하려면 훨씬 더 큰 샘플이 필요하다는 것을 보여줍니다. 
  • 코드북의 복잡성과 안정성은 포화도에 영향을 미칩니다. 코드북에는 명시적, 미묘한, 개념적 코드를 포함한 광범위한 코드가 포함되어 있어 일부 코드는 안정화되어 포화 상태에 도달한 반면, 다른 코드의 차원은 25번의 인터뷰에서도 여전히 나타나고 있었습니다. 
  • 마지막으로, 포화의 목표와 초점이 포화에 도달하는 위치에 영향을 미쳤습니다. 연구 결과는 '포화 상태에 도달하는 것'이 일률적인 성과가 아님을 보여줍니다. [코드 포화]에 도달하는 것은 [의미 포화]에 도달하는 것과는 다르며, 각각 다른 샘플 크기가 필요합니다. 개별 코드도 데이터의 다른 지점에서 포화에 도달하며, 원하는 포화의 전체 비율은 연구 또는 연구자마다 다를 수 있습니다(예: 80% 대 90%). 

따라서 포화의 목표(예: 핵심 코드 또는 전체 데이터), 포화의 초점(예: 코드 포화 또는 의미 포화), 원하는 포화 수준(예: 80%, 90%)을 파악하면 샘플 크기가 결정되고 포화가 달성되는 지점을 결정할 때 더 큰 뉘앙스를 제공합니다.

  • The study purpose influences saturation. We show that code saturation may be reached at nine interviews, which may be sufficient for a study aiming to outline broad thematic issues or to develop items for a survey instrument, but a larger sample is needed if meaning saturation is needed to understand or explain complex phenomena or develop theory.
  • Characteristics of the study population influence saturation. Our study included a relatively homogeneous sample of veterans receiving HIV care at a specific clinic, but we anticipate a larger sample size would be needed to achieve both code and meaning saturation if the study population were more diverse.
  • The sampling strategy used may influence saturation, whereby iterative sampling may require a smaller sample to reach saturation than using fixed recruitment criteria; however, iterative sampling may also uncover new data sources that ultimately expand the sample size. Thus, sampling strategies may have differing influences on sample size.
  • Data quality influences saturation, as “thick” data provide deeper, richer insights than “thin” data; however, the latter may be sufficient to achieve code saturation if that aligns with the study goals.
  • The type of codes developed influences saturation. We show that a smaller sample is needed to capture explicit, concrete issues in our data, and a much larger sample is needed to capture subtle or conceptual issues.
  • The complexity and stability of the codebook influences saturation. Our codebook included a broad range of codes, including explicit, subtle, and conceptual codes; therefore, some codes stabilized and reached saturation, while dimensions of other codes were still emerging at 25 interviews.
  • Finally, the goal and focus of saturation influence where saturation is achieved. Our results show that “reaching saturation” is not a uniform accomplishment. Achieving code saturation is different from reaching meaning saturation, and each requires different sample sizes. Individual codes also reach saturation at different points in the data, and overall percentage of saturation desired may differ between studies or researchers (e.g., 80% vs. 90%).

Therefore, identifying the goal of saturation (e.g., in core codes or in all data), the focus of saturation (e.g., code saturation or meaning saturation), and the level of saturation desired (e.g., 80%, 90%) also determines the sample size and provides greater nuance in determining where saturation is achieved.

포화를 평가하는 것은 처음에 보이는 것보다 더 복잡합니다. 연구자는 포화를 평가하는 과정, 포화에 도달한 매개변수, 포화에 도달하지 못한 매개변수 및 그 이유에 대해 보다 미묘한 설명을 제공해야 합니다. 이 선언을 한계로 간주해서는 안 되며, 포화 평가에 대한 연구자의 관심과 특정 연구에 어떻게 적용되는지에 대한 인식을 나타내는 지표로 간주해야 합니다.
Assessing saturation is more complex than it appears at the outset. Researchers need to provide a more nuanced description of their process of assessing saturation, the parameters within which saturation was achieved and where it was not achieved and why. This declaration should not be viewed as a limitation but an indicator of researchers’ attention to assessing saturation and awareness of how it applies to a particular study.

연구의 한계
Study Limitations

의미 포화 분석은 다양한 코드를 대상으로 수행되었지만, 본 연구에서 모든 코드가 이 분석에 사용된 것은 아닙니다. 발견한 패턴이 다른 연구 데이터에서도 재현될 수 있는지 확인하기 위해 추가적인 방법론적 연구를 권장합니다. 또한 다른 유형의 질적 연구보다 연구 목적과 연구 참여자가 더 명확하게 정의될 수 있는 응용 질적 연구의 데이터를 사용하여 포화를 평가했습니다. 따라서 본 연구 결과를 다른 유형의 데이터나 질적 연구 접근 방식에 대한 일반적인 것으로 간주해서는 안 됩니다. 마지막으로, 질적 연구자는 코드 개발 스타일(예: 광범위한 코드 또는 특정 코드)이 다를 수 있으며, 본 연구 결과도 코드 개발 스타일을 반영할 수 있습니다. 
Our analysis of meaning saturation was conducted on a diverse range of codes, but not all codes in our study were used for this analysis. We encourage further methodological research to confirm whether the patterns we found can be replicated in other study data. Also, we assessed saturation using data for applied qualitative research, in which the study purpose and study participants may be more defined than in other types of qualitative research. Our results should not be taken as generic for other types of data or approaches to qualitative research. Finally, qualitative researchers may have different styles of developing codes (i.e., broad or specific codes), and our results may also reflect our code development style.

결론
Conclusion

"포화는 엄격성의 중요한 구성 요소입니다. 이는 모든 질적 연구에 존재하지만, 안타깝게도 주로 선언을 통해 드러납니다."(Morse, 2015, 587쪽). 본 연구는 포화에 대한 두 가지 접근 방식을 문서화하고 각 접근 방식에서 포화에 영향을 미치는 매개변수를 도출하여 질적 연구를 위한 표본 크기 추정 지침을 제공하는 방법론적 연구를 제공합니다. 적은 수의 인터뷰만으로도 데이터에서 포괄적인 범위의 문제를 파악할 수 있지만, 이러한 문제에 대한 풍부한 이해를 위해서는 더 많은 데이터가 필요하다는 것을 확인했습니다. 얼마나 많은 추가 데이터가 필요한지는 연구 목적, 연구 모집단, 코드 유형, 코드북의 복잡성 및 안정성 등 다양한 포화 매개변수에 따라 달라집니다. 이러한 포화 매개변수를 사용하여 특정 연구에 대한 표본 크기 추정치를 선험적으로 안내하고 출판물 내에서 포화를 평가하거나 달성한 근거를 입증하면 연구 목적과 질적 연구의 목표를 반영하는 보다 적절한 표본 크기가 도출될 가능성이 높습니다.
“Saturation is an important component of rigor. It is present in all qualitative research, but unfortunately, it is evident mainly by declaration” (Morse, 2015, p. 587). Our study provides methodological research to document two different approaches to saturation and draws out the parameters that influence saturation in each approach to guide sample size estimates for qualitative studies. We identified that a small number of interviews can be sufficient to capture a comprehensive range of issues in data; however, more data are needed to develop a richly textured understanding of those issues. How much additional data are needed will depend on a range of parameters of saturation, including the purpose of the study, study population, types of codes, and the complexity and stability of the codebook. Using these parameters of saturation to guide sample size estimates a priori for a specific study and to demonstrate within publications the grounds on which saturation was assessed or achieved will likely result in more appropriate sample sizes that reflect the purpose of a study and the goals of qualitative research.

 


 

Qual Health Res. 2017 Mar;27(4):591-608. doi: 10.1177/1049732316665344. Epub 2016 Sep 26.

Code Saturation Versus Meaning Saturation: How Many Interviews Are Enough?

Affiliations

11 Emory University, Atlanta, Georgia, USA.

22 Duke University, Durham, North Carolina, USA.

33 Atlanta Veterans Affairs Medical Center, Atlanta, Georgia, USA.

PMID: 27670770

PMCID: PMC9359070

DOI: 10.1177/1049732316665344

Free PMC article

 

Abstract

Saturation is a core guiding principle to determine sample sizes in qualitative research, yet little methodological research exists on parameters that influence saturation. Our study compared two approaches to assessing saturation: code saturation and meaning saturation. We examined sample sizes needed to reach saturation in each approach, what saturation meant, and how to assess saturation. Examining 25 in-depth interviews, we found that code saturation was reached at nine interviews, whereby the range of thematic issues was identified. However, 16 to 24 interviews were needed to reach meaning saturation where we developed a richly textured understanding of issues. Thus, code saturation may indicate when researchers have "heard it all," but meaning saturation is needed to "understand it all." We used our results to develop parameters that influence saturation, which may be used to estimate sample sizes for qualitative research proposals or to document in publications the grounds on which saturation was achieved.

Keywords: HIV/AIDS; USA; behavior; in-depth interviews; infection; methodology; qualitative; saturation.

질적연구에서 포화를 위한 표본 수: 실증 시험의 체계적 문헌고찰(Soc Sci Med. 2022)
Sample sizes for saturation in qualitative research: A systematic review of empirical tests
Monique Hennink a,*, Bonnie N. Kaiser b

 

 

1. 서론
1. Introduction

[포화]는 질적 연구에서 목적적 표본의 적절성을 평가하기 위한 가장 일반적인 지침 원칙입니다(Morse, 1995, 2015; Sandelowski, 1995). 그러나 포화 평가에 대한 지침과 포화에 도달하는 데 필요한 표본 크기는 모호했습니다. 최근까지 포화는 다양한 유형의 정성적 데이터로 경험적으로 평가되지 않았습니다. 포화에 대한 경험적 평가에 대한 관심이 높아지면서 이 주제에 대한 연구가 많이 이루어졌고, 이를 종합하고 이를 통해 무엇을 배울 수 있는지 파악할 수 있는 적절한 시기가 되었습니다. 이 체계적인 검토에서는 정성적 연구에서 포화를 경험적으로 평가하는 연구를 식별하고, 포화에 필요한 표본 크기, 포화를 평가하는 데 사용되는 전략 및 이러한 연구에서 도출할 수 있는 지침을 확인하고자 했습니다.  
Saturation is the most common guiding principle for assessing the adequacy of purposive samples in qualitative research (Morse, 1995, 2015; Sandelowski, 1995). However, guidance on assessing saturation and the sample sizes needed to reach saturation have been vague. Until recently, saturation had not been empirically assessed with different types of qualitative data. A growing interest in empirical assessment of saturation has now generated a body of research on the topic, making it an opportune time to synthesize it and identify what we can learn from it. This systematic review sought to identify studies that empirically assess saturation in qualitative research, to identify sample sizes needed for saturation, strategies used to assess saturation, and guidance we can draw from these studies.

포화의 개념은 Glaser와 Strauss(1967)에 의해 ['이론적 포화']로 개발되었으며, 질적 연구에 대한 영향력 있는 근거 이론 접근법의 일부였습니다. 근거 이론은 사회 현상을 설명하기 위해 텍스트 데이터로부터 사회학 이론을 개발하는 데 중점을 둡니다. 이 접근법에서 [이론적 포화]란 "이론적 구성에 대한 더 많은 데이터를 수집해도 새로운 속성이 드러나지 않고, 새로운 근거 이론에 대한 더 이상의 이론적 통찰을 얻지 못하는 지점"을 의미합니다(Bryant와 Charmaz, 2007, 611쪽). 따라서 데이터 수집에서 [중요한 이슈나 통찰력이 데이터에서 모두 소진되는 시점]은 이론을 구성하는 개념적 범주가 '포화 상태'에 이르렀음을 의미하며, 이는 새로운 이론이 포괄적이고 데이터에 근거한 이론이 될 수 있음을 의미합니다. 이론적 포화 상태는 샘플링, 데이터 수집, 데이터 분석이 동시에 이루어지는 반복적인 과정에도 내재되어 있으며(Sandelowski, 1995), 데이터는 포화 상태가 될 때까지 샘플링에 지속적으로 정보를 제공합니다. 
The concept of saturation was developed by Glaser and Strauss (1967) as ‘theoretical saturation’ and was part of their influential grounded theory approach to qualitative research. Grounded theory focuses on developing sociological theory from textual data to explain social phenomena. Within this approach, theoretical saturation refers to “the point at which gathering more data about a theoretical construct reveals no new properties, nor yields any further theoretical insights about the emerging grounded theory” (Bryant and Charmaz, 2007 p.611). Thus, it is the point in data collection when all important issues or insights are exhausted from data, which signifies that the conceptual categories that comprise the theory are ‘saturated’, so that the emerging theory is comprehensive and well-grounded in data. Theoretical saturation is also embedded in an iterative process of concurrently sampling, collecting data, and analyzing data (Sandelowski, 1995), whereby data continuously inform sampling until saturation.

대부분의 질적 연구는 근거 이론 접근법을 따르지 않지만, 포화 개념은 다른 질적 연구 접근법에서 널리 사용되며, 일반적으로 '데이터 포화' 또는 '주제 포화'라고 불립니다(Hennink et al., 2017). 이러한 포화의 광범위한 적용은 이론적 포화에서와 같이 이론을 개발하기 위한 데이터의 적절성보다는 표본 크기를 평가하는 데 더 중점을 둡니다. 더 넓은 맥락에서 사용되는 포화는 데이터 수집에서 [추가적인 문제나 인사이트]가 발견되지 않고 [데이터가 반복]되기 시작하여 더 이상의 데이터 수집이 [중복되는 시점]을 의미하며, 이는 적절한 표본 크기에 도달했음을 의미합니다. 포화는 표본이 연구 대상 현상에 적합한지, 즉 수집된 데이터가 연구 대상 이슈의 다양성, 깊이, 미묘한 차이를 포착하고 있는지, 따라서 [내용 타당성]을 입증할 수 있는지를 나타내는 중요한 지표입니다(Francis et al., 2010). 포화에 도달하는 것은 데이터 수집을 강력하고 타당하게 만드는 데 도움이 되는 질적 연구의 중요한 구성 요소가 되었습니다(O'Reilly and Parker, 2013). 또한 포화는 "저자가 리뷰어와 독자에게 제공하는 질적 엄격성에 대한 가장 빈번한 보증"입니다(Morse, 2015, 587쪽). 이 리뷰에서는 [근거 이론]의 매개변수 외부에서 사용될 때 포화를 위한 적절한 표본 크기에 대해 알려진 바가 적기 때문에 더 넓은 맥락에서 포화에 초점을 맞춥니다.
Although most qualitative research does not follow a grounded theory approach, the concept of saturation is widely used in other approaches to qualitative research, where it is typically called ‘data saturation’ or ‘thematic saturation’ (Hennink et al., 2017). This broader application of saturation focuses more on assessing sample size rather than the adequacy of data to develop theory (as in theoretical saturation). When used in the broader context, saturation refers to the point in data collection when no additional issues or insights are identified and data begin to repeat so that further data collection is redundant, signifying that an adequate sample size is reached. Saturation is an important indicator that a sample is adequate for the phenomenon studied – that data collected have captured the diversity, depth, and nuances of the issues studied – and thereby demonstrates content validity (Francis et al., 2010). Reaching saturation has become a critical component of qualitative research that helps make data collection robust and valid (O’Reilly and Parker, 2013). Moreover, saturation is “the most frequently touted guarantee of qualitative rigor offered by authors to reviewers and readers" (Morse, 2015, p. 587). In this review, we focus on saturation in the broader context, since less is known about adequate sample sizes for saturation when used outside of the parameters of grounded theory.

질적 표본의 엄밀성을 뒷받침하는 포화의 중요성에도 불구하고, 발표된 질적 연구에서 표본 크기가 정당화되는 방식에 대한 투명성이 일관되게 부족합니다(Morse, 1995; Guest 외., 2006; Kerr 외., 2010; Carlsen and Glenton, 2011; Hennink 외., 2017). [포화는 적절한 표본 크기에 대한 가장 일반적인 근거로 인용]되지만(Morse, 1995, 2015), 포화를 평가한 방법과 그 근거에 대한 자세한 내용은 질적 연구에서 거의 찾아볼 수 없습니다. Vasileiou 등(2018)은 15년 동안 건강 관련 저널에서 [심층 인터뷰를 사용한 질적 연구]를 체계적으로 검토한 결과, 대다수의 논문에서 표본 크기에 대한 정당성을 제공하지 않는다는 사실을 발견했습니다. 정당성이 제시된 경우 55%의 논문에서 포화가 인용되었지만, 포화에 대한 주장은 "연구 자체에서 수행된 절차와 관련하여 입증되지 않았으며"(12쪽), 당면한 연구와 거리가 먼 다른 문헌의 추가 인용만 제시되었습니다. 
Despite the importance of saturation to support the rigor of qualitative samples, there is a consistent lack of transparency in how sample sizes are justified in published qualitative research (Morse, 1995; Guest et al., 2006; Kerr et al., 2010; Carlsen and Glenton, 2011; Hennink et al., 2017). Although saturation is the most commonly cited justification for an adequate sample size (Morse, 1995, 2015), details of how saturation was assessed and the grounds on which it was determined are largely absent in qualitative studies. Vasileiou et al. (2018) conducted a systematic review of qualitative studies using in-depth interviews in health-related journals over a 15-year period and found the vast majority of articles provided no justification for their sample size. Where justifications were given, saturation was cited in 55% of articles; however, claims of saturation were “never substantiated in relation to procedures conducted in the study itself” (p. 12); only further citations of other literature were given that moved away from the study at hand.

마찬가지로 [포커스 그룹 토론]을 사용한 220개의 연구를 체계적으로 검토한 결과(Carlsen and Glenton, 2011), 83%가 표본 크기를 정당화하기 위해 포화를 사용했지만, 포화에 대한 근거 없는 주장이나 미리 정해진 표본 크기를 사용하면서 포화를 달성했다는 언급 등 포화를 달성한 방법에 대한 피상적인 보고만 제공한 것으로 밝혀졌습니다. 또 다른 연구(Francis 외, 2010)에서는 16개월에 걸쳐 사회과학 및 의학 저널의 논문을 검토한 결과 대부분의 논문이 포화 상태에 도달했다고 주장하지만 포화 상태를 정의, 달성 또는 정당화하는 방법에 대해 명확하게 설명하지 않는 것으로 나타났습니다. Marshall 등(2013)도 83개의 [질적 연구를 검토]한 결과 포화가 어떤 연구에서도 설명되지 않았다는 사실을 발견했습니다. 포화가 어떻게 평가되거나 결정되었는지에 대한 연구 기반의 설명 없이 포화를 주장하는 것에 대한 우려가 커지고 있습니다. 포화 상태에 도달했다는 근거 없는 주장은 포화 상태라는 개념의 가치를 훼손합니다. 부분적으로 이러한 투명성 부족은 포화를 평가하는 방법에 대한 공개된 지침이 없기 때문일 수 있습니다(Morse, 1995; Guest et al., 2006). 이 검토에서는 경험적 연구에서 포화를 평가하는 데 사용되는 전략을 파악하여 질적 연구에서 포화를 보고할 때 투명성을 높일 수 있는 방법을 모색하고자 합니다. 

Similarly, a systematic review of 220 studies using focus group discussions (Carlsen and Glenton, 2011) found that 83% used saturation to justify their sample size; however, they provided only superficial reporting of how it was achieved, including unsubstantiated claims of saturation and references to achieving saturation while still using a predetermined sample size. Another study (Francis et al., 2010) reviewed articles in the journal Social Science and Medicine over 16 months and found most articles claimed they had reached saturation but provided no clarity on how saturation was defined, achieved, or justified. Marshall et al. (2013) also reviewed 83 qualitative studies and found saturation was not explained in any study. There are increasing concerns over claims of saturation without study-based explanations of how it was assessed or determined. Unsubstantiated claims of reaching saturation undermine the value of the concept. In part, this lack of transparency may reflect the absence of published guidance on how to assess saturation (Morse, 1995; Guest et al., 2006). In this review, we seek to identify the strategies used to assess saturation in empirical research, which may encourage greater transparency in reporting saturation in qualitative studies.

또한, 다양한 질적 방법에서 포화에 도달하는 데 필요한 특정 표본 크기에 대한 지침은 방법론 문헌에 없거나 모호하며, 근거에 기반하지 않은 일반적인 '경험 법칙'만 제공합니다(Morse, 1995; Guest 외, 2006; Kerr 외, 2010; Bryman, 2012; Hennink 외, 2019). 포화를 경험적으로 평가하는 연구가 이러한 격차를 메우기 시작하면서, 질적 연구에서 포화에 대한 표본 크기에 대해 절실히 필요한 경험적 기반 지침을 제공할 수 있게 되었습니다. 
In addition, guidance on specific sample sizes needed to reach saturation in different qualitative methods has been absent or vague in the methodological literature, providing only general “rules of thumb” that are rarely evidence-based (Morse, 1995; Guest et al., 2006; Kerr et al., 2010; Bryman, 2012; Hennink et al., 2019). As research empirically assessing saturation begins to fill this gap, it allows us to provide much-needed empirically based guidance on sample sizes for saturation in qualitative research.

이 체계적 검토에서는 [정성적 데이터의 포화를 평가하는 실증적 연구를 종합]하고자 합니다. 특히, 포화를 평가하는 데 사용되는 전략을 문서화하고, 다양한 질적 방법을 사용하여 포화에 도달하는 데 필요한 표본 크기를 식별하며, 질적 연구를 위한 표본 크기에 대한 지침을 제시하고자 합니다. 저희가 알기로는 포화에 대한 경험적 연구에 대한 체계적인 검토는 이번이 처음이며, 따라서 질적 연구를 검토하는 연구자, 학술지, 학술지 심사자, 윤리 검토 위원회 및 자금 지원 기관에 유용한 리소스를 제공합니다. 연구자는 연구 제안서 및 프로토콜에서 적절한 표본 크기를 추정할 때 이 결과를 참조할 수 있으며, 이를 통해 연구 자원을 보다 효율적으로 사용하고 제안된 표본 크기에 대한 명확한 근거를 마련할 수 있습니다. 마찬가지로, 연구 결과는 질적 연구에 적합한 표본 크기에 대한 증거 기반의 기대치를 제공하여 연구를 검토하고 자금을 지원하는 사람들에게 지침을 제공할 수 있습니다.
In this systematic review, we aim to synthesize empirical studies that assess saturation in qualitative data. In particular, we aim to document strategies used to assess saturation, identify sample sizes needed to reach saturation using different qualitative methods, and suggest guidance on sample sizes for qualitative research. To our knowledge, this is the first systematic review on empirical studies of saturation and therefore provides a valuable resource for researchers, academic journals, journal reviewers, ethical review boards, and funding agencies that review qualitative research. Researchers can refer to our results when estimating an appropriate sample size in research proposals and protocols, which may lead to more efficient use of research resources and clearer justifications for proposed sample sizes. Similarly, our results may provide evidence-based expectations regarding adequate sample sizes for qualitative research to guide those who review and fund research.

2. 조사 방법
2. Methods

저희는 체계적 문헌고찰을 수행하고 보고할 때 체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목(PRISMA) 가이드라인을 따랐습니다(Moher et al., 2009). 그림 1은 식별, 선별 및 포함된 논문 수를 보여줍니다. 데이터베이스 검색과 인용 검색을 포함한 2단계 검색 프로세스를 사용했습니다. 

We followed the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) guidelines in conducting and reporting our systematic review (Moher et al., 2009). Fig. 1 shows the number of articles identified, screened, and included. We used a two-stage search process, including database searches and citation searches.

먼저 PubMed, Embase, Sociological Abstracts, CINAHL 등 4개의 데이터베이스를 사용하여 제목, 초록, 키워드/색인에 '포화'와 다음 용어 중 하나가 포함된 논문 또는 서적 챕터를 검색했습니다: "인터뷰", "포커스 그룹", "질적" 또는 "주제"(전체 검색어는 부록 표 참조). 검색 결과는 영어 및 인간 연구로 제한되었습니다. 데이터베이스 검색은 2019년 1월 31일부터 2월 1일까지 수행되었으며 2020년 7월 10일에 업데이트되었습니다. 두 저자는 모든 논문 제목, 초록, 필요한 경우 전문을 독립적으로 선별하여 적격성을 결정했습니다. 불일치하는 부분은 논의하고 합의를 통해 해결했습니다. 연구에 포함되려면,

  • a) 질적 연구에서 포화를 평가하기 위해 경험적 데이터를 사용하거나 가상의 데이터를 사용하여 포화를 결정하는 통계 모델을 사용해야 하고,
  • b) 근거 이론을 벗어난 포화에 초점을 맞춰야 하며,
  • c) 저널 논문 또는 책 챕터로 출판되어야 하고,
  • d) 영어로 이용 가능해야 합니다.

데이터베이스 검색을 통해 16개의 논문이 포함되었습니다. 
First, we used four databases -- PubMed, Embase, Sociological Abstracts, and CINAHL -- to search for articles or book chapters that included “saturation” and one of the following terms in the title, abstract, or key words/index: “interview,” “focus group,” “qualitative,” or “thematic” (see Supplemental Table for full search terms). Search results were limited to English-language and human studies. Database searches were conducted on January 31 – February 1, 2019 and updated July 10, 2020. Both authors independently screened all article titles, abstracts, and, where needed, full texts to determine eligibility. Discrepancies were discussed and resolved by consensus. To be eligible for inclusion, studies needed to:

  • a) use empirical data to assess saturation in qualitative research or use a statistical model to determine saturation using hypothetical data,
  • b) focus on saturation outside of grounded theory,
  • c) be published in journal articles or book chapters, and
  • d) be available in English.

Sixteen articles were included from database searches.

둘째, 포함된 논문의 참고문헌 목록을 검토하고 Google Scholar의 '인용 출처' 검색 옵션을 사용하여 인용 검색을 수행하여 포함 기준을 충족하는 추가 기록을 식별했습니다. Google Scholar에서 250개 이상의 인용 논문이 있는 연구의 경우, 인용 논문 내에서 "포화"를 검색하여 처음 250개의 결과(관련성 순으로 정렬됨)를 검토했습니다. 이 단계에서 추가로 7개의 논문이 포함되었습니다.
Second, we conducted citation searches by reviewing the reference lists of included articles and using the “cited by” search option in Google Scholar to identify further records meeting the inclusion criteria. For studies with more than 250 citing articles on Google Scholar, we searched within citing articles for “saturation” and reviewed the first 250 results (which are ordered by relevance). An additional seven articles were included during this step.

23개의 적격 논문에서 다음과 같은 정보를 추출했습니다:

  • a) 논문에 대한 메타 데이터(저자, 저널, 연도),
  • b) 사용된 데이터에 대한 정보(가설적 대 경험적, 인터뷰, 포커스 그룹 토론 등), 연구 목적, 표본 크기, 연구 집단(동종, 이종), 데이터 수집이 반복적이었는지 여부,
  • c) 정의, 목표, 데이터 무작위 배정, 포화 평가 전략, 포화를 위한 표본 크기 및 달성한 포화 수준(예, 코드의 90%) 및
  • d) 추가 정보(제한 사항, 제안된 포화 매개변수).

두 저자는 6개의 논문에서 독립적으로 데이터를 추출하고 결과를 논의했습니다. 이는 명확성 부족이나 중복성 등 데이터 추출 범주에 문제가 있는지 확인하고 두 저자 간의 신뢰성을 확립하기 위해 수행되었습니다. 그런 다음 나머지 각 논문은 두 저자 중 한 명이 데이터 추출을 수행했습니다.
We extracted the following information from the 23 eligible articles:

  • a) meta-data about the article (author, journal, year),
  • b) information about data used (hypothetical vs. empirical; interviews, focus group discussions, etc.), research objective, sample size, study population (homogenous, heterogenous), and whether data collection was iterative,
  • c) information about saturation, including: definition, goal, data randomization, strategy to assess saturation, sample size for saturation, and level of saturation achieved (e.g., 90% of codes), and
  • d) additional information (limitations, any parameters of saturation suggested).

Both authors independently extracted data from 6 articles and discussed results. This was done to identify any issues with the data extraction categories, such as lack of clarity or redundancy, as well as to establish reliability between the two authors. Each remaining article then underwent data extraction by one of the two authors.

경험적 데이터를 사용하여 포화를 평가한 연구와 통계적 모델을 사용한 연구의 결과를 별도로 분석했습니다. 인터뷰 또는 포커스 그룹 토론과 같은 정성적 방법을 통해 포화에 대한 샘플 크기를 분석했습니다. 연구 모집단의 동질성 및 데이터 무작위 추출을 통해 포화를 비교하여 패턴을 파악했습니다. 
We analyzed results separately for studies using empirical data to assess saturation versus those using statistical models. We analyzed sample sizes for saturation by qualitative method: interviews or focus group discussions. We conducted comparisons of saturation by homogeneity of the study population and randomization of data to identify any patterns.

3. 결과
3. Results

체계적인 검토를 통해 질적 연구의 포화를 평가한 23편의 논문을 확인했습니다. 모든 논문은 2006년부터 2020년 사이에 출판되었으며, 대다수(87%, 20/23)가 2014년 이후에 출판되었습니다. 연구 방법론 저널(43%, 10/23)과 사회과학(6/23) 또는 주제별 저널(7/23)(예: 공학, 컴퓨팅, 자연자원)에 게재된 논문이 많았습니다. 경험적 데이터를 사용하여 포화를 평가하는 논문(표 1, 17개 논문)과 통계적 모델링을 사용하여 포화를 예측하는 논문(표 2, 6개 논문)으로 분류했습니다. 이러한 접근 방식과 결과는 비교할 수 없으므로 아래에서 각각을 개별적으로 보고합니다. 

Our systematic review identified 23 articles assessing saturation for qualitative research. All articles were published between 2006 and 2020, with the majority (87%, 20/23) published since 2014. Many articles were published in research methodology journals (43%, 10/23) and others in social science (6/23) or topical journals (7/23) (e.g., engineering, computing, natural resources). We categorized the articles into those assessing saturation using empirical data (Table 1, 17 articles) and those using statistical modeling to predict saturation (Table 2, 6 articles). Since these approaches and results are not comparable, we report each separately below.

 

 

3.1. 포화

평가에 대한 접근 방식
3.1. Approaches to assessing saturation

3.1.1. 경험적 기반 테스트
3.1.1. Empirically based tests

표 1에는 경험적 데이터를 사용하여 포화를 평가한 17개의 논문이 요약되어 있습니다. 일부 논문에서는 여러 데이터 세트를 사용하여 포화를 평가하고 각각의 결과를 개별적으로 보고했기 때문에 표 1에는 17개 논문에서 23개의 테스트가 나와 있습니다(참고: 이러한 연구는 실험적 테스트를 수행하지 않았지만, 간결성을 위해 '테스트'라는 용어를 사용하여 통계적 모델링이 아닌 경험적 데이터를 사용하여 포화를 평가하는 개별 연구를 지칭합니다). 대부분의 논문은 심층 인터뷰(10/17) 또는 포커스 그룹 토론(4/17)에서 얻은 데이터를 사용했으며, 두 가지 유형의 데이터를 모두 사용한 논문은 두 편, 자유 목록 데이터를 사용한 논문은 한 편(Weller et al., 2018)이었습니다. 자유 목록 데이터는 인터뷰 및 포커스 그룹 토론에서 나온 자유로운 서술형 데이터와 비교할 수 없기 때문에 분석에서 Weller 등의 논문은 제외했습니다. 따라서 모든 논문을 설명할 때는 분모 16을 사용하고, 경험적 데이터로 모든 테스트의 데이터 세트와 결과를 설명할 때는 분모 22를 사용합니다.
Table 1 summarizes 17 articles that assess saturation using empirical data. Some articles used multiple datasets to assess saturation and report the results of each separately; therefore, Table 1 shows 23 tests from 17 articles (NB: while these studies were not conducting experimental tests, we use the term ‘test’ for brevity to refer to individual studies using empirical data, as opposed to statistical modeling, to assess saturation). Most articles used data from in-depth interviews (10/17) or focus group discussions (4/17); two articles used both types of data, and one article (Weller et al., 2018) used free list data. We excluded the article by Weller et al. in our analysis because free list data are not comparable to free-flowing narrative data from interviews and focus group discussions. We therefore use the denominator of 16 when describing all articles and 22 when describing the datasets and results of all tests with empirical data.

테스트에 사용된 각 데이터 세트의 원래 연구 목적은 다양했지만, 대부분의 연구(14/16)는 특정 건강 상태(예: 겸상 적혈구 질환, 다발성 경화증, 파제트병), 의료 서비스 또는 개입(예: 유전자 검사, 폭력 예방, 라이프스타일 개입, 환자 유지)의 [경험]과 같은 [건강 문제]에 초점을 맞췄습니다. 이러한 연구 목표는 많은 질적 건강 연구의 전형적인 목표입니다. 사용된 데이터 세트의 표본 크기는 14~132건의 인터뷰와 1~40개의 포커스 그룹으로 다양했습니다. 한 데이터셋(Francis et al., 2010)을 제외한 모든 데이터셋은 포화를 평가하는 데 필요한 표본보다 훨씬 더 큰 표본을 가지고 있어 포화를 평가하는 데 효과적이었습니다. Francis 등(2010)은 사용된 두 데이터 세트 모두에서 연구의 표본 크기와 정확히 일치하는 포화에 도달했다고 보고했습니다. 대부분의 데이터세트(18/22)는 특정 질병(예: HIV, 류마티스 관절염, 겸상 적혈구)을 앓고 있거나 특정 인구 집단(예: 남성 간호사, 의대생, 남아시아 성인, 아프리카계 미국인 남성)의 환자 등 [동질적인 연구 모집단]을 가지고 있었습니다. 나머지 데이터 세트에는 미국 전역의 20~72세 남성 또는 14~18세 청소년과 같이 이질적인 샘플이 더 많았습니다. 
The original research objective for each dataset used in the tests varied, but most studies (14/16) focused on health issues, such as experiences of a specific health condition (e.g., sickle cell disease, multiple sclerosis, Paget's disease), health service, or intervention (e.g., genetic screening, violence prevention, lifestyle interventions, patient retention). These research objectives are typical of much qualitative heath research. The sample size of the datasets used varied from 14 to 132 interviews and 1 to 40 focus groups. All datasets except one (Francis et al., 2010) had a sample that was much larger than the sample ultimately needed for saturation, making them effective for assessing saturation. Francis et al. (2010) report saturation was reached at exactly the sample size of the study for both datasets used. Most datasets (18/22) had a homogenous study population, such as patients with a specific disease (e.g., HIV, rheumatoid arthritis, sickle cell) or from a specific demographic group (e.g., male nurses, medical students, South Asian adults, African American men). The remaining datasets had more heterogeneous samples, such as men aged 20–72 across the US or youths aged 14–18.

저자들은 포화의 목표를 [개별 코드 또는 카테고리의 포화]라는 두 가지 방식으로 설명했습니다. 용어는 기사마다 다르지만,

  • [코드]는 일반적으로 데이터의 개별 이슈, 주제 또는 항목으로 설명되었고
  • [카테고리]는 이슈의 상위 그룹(예: 더 넓은 주제, 메타 주제, 개념)을 나타냅니다.

44%(7/16)의 논문이 코드의 포화를, 31%(5/16)의 논문이 카테고리의 포화를, 25%의 논문이 두 가지 모두를 명시했습니다.
Authors described their goal of saturation in two ways, either as saturation of individual codes or categories. Although terminology varied across articles,

  • codes were typically described as individual issues, topics, or items in data, while
  • categories represented higher-order groupings of issues (e.g., broader themes, meta-themes, concepts).

Forty-four percent (7/16) of articles sought saturation of codes, 31% (5/16) saturation of categories, and 25% stated both.

포화가 정의된 경우, 저자들은 비슷한 정의를 사용했습니다. 전반적으로 포화 상태는 [데이터에서 관련성이 있는 새로운 코드 및/또는 범주가 거의 또는 전혀 발견되지 않는 시점]으로, [연구 현상, 차원, 뉘앙스 또는 가변성에 대한 더 이상의 이해나 기여 없이] [문제가 반복되기 시작하는 시점]으로 설명되었습니다.

  • 일부 논문에서는 두세 번의 연속 인터뷰 또는 포커스 그룹에서 새로운 이슈가 발견되지 않은 후에야 포화 상태를 확인해야 한다고 명시하거나(Coenen 등, 2012; Francis 등, 2010; Morse 등, 2014),
  • 두 명의 연구자에 의해 포화 상태를 결정해야 한다고 명시하기도 했습니다(Morse 등, 2014).
  • 절반 이상의 논문(56%, 9/16)은 포화에 영향을 줄 수 있는 인터뷰 순서를 고려하여 분석 데이터의 순서를 무작위로 지정했습니다.
  • 일부는 무작위 인터뷰 순서와 실제 인터뷰가 진행된 순서 사이의 포화를 비교했고,
  • 다른 일부는 여러 무작위 데이터 순서에 걸쳐 포화를 계산하여 평균을 확인했습니다.

Where saturation was defined, authors used similar definitions. Overall, saturation was described as the point at which little or no relevant new codes and/or categories were found in data, when issues begin to be repeated with no further understanding or contribution to the study phenomenon, its dimensions, nuances, or variability.

  • Some articles further specified that saturation should be confirmed only after no new issues were found in two or three consecutive interviews or focus groups (Coenen et al., 2012Francis et al., 2010Morse et al., 2014) or
  • that it was determined by two researchers (Morse et al., 2014).
  • Over half of articles (56%, 9/16) randomized the order of data for analysis to account for interview order, which might influence saturation.
  • Some compared saturation between the randomized order of interviews and the actual order in which interviews were conducted,
  • while others calculated saturation across multiple randomized orderings of data to identify an average.

[포화를 평가하기 위해 다양한 전략]이 사용되었습니다. 이러한 전략은 표 1에 분류되어 있으며 표 3에 설명된 범주에 따라 분류되어 있습니다.

  • 대부분의 기사(75%, 12/16)는 포화를 평가하기 위해 [단일 전략을 사용]했습니다.
  • 모든 논문은 코드 빈도수, 비교 방법, 중지 기준, 고차 그룹화 등 어떤 형태로든 [코드 빈도수를 사용]하여 포화를 평가했으며,
  • 4편의 논문은 코드 빈도수 외에 다른 접근법을 사용하여 각각의 포화를 비교했습니다(Hennink 외, 2017, 2019; Constantinou 외, 2017; Hagaman과 Wutich, 2017).
  • 많은 논문(37%, 6/16)은 포화를 평가하기 위해 코드 빈도 수만을 사용했는데, 이는 새로운 코드의 빈도가 감소하여 포화에 도달할 때까지 연속된 녹취록 또는 녹취록 세트의 코드를 계산하는 방식이었습니다.
  • 3건(18%, 3/16)의 논문에서는 배치 비교, 중단 기준, 고차 코드 그룹을 계산(개별 코드가 아닌 메타 주제 또는 코드 범주 등)하는 등 코드 빈도 수에 특정 추가 요소를 추가했습니다.
  • 세 논문(Hennink 외., 2017, 2019; Nascimento 외., 2018)에서는 코드 빈도 수와는 완전히 다른 접근 방식인 '코드 의미'를 사용하여 포화를 평가했습니다. 이 접근 방식은 문제, 차원 및 뉘앙스가 완전히 식별되고 이해되었는지를 평가하여 데이터의 문제를 완전히 이해하는 데 중점을 두어 포화에 도달했음을 나타내는 지표로 삼았습니다.
  • 그 후 두 논문(Hennink 외., 2017, Hennink 외., 2019)에서 이 접근 방식을 사용한 포화를 코드 빈도 접근 방식과 비교했습니다.

Various strategies were used to assess saturation. These are categorized in Table 1 and the categories described in Table 3.

  • Most articles (75%, 12/16) used a single strategy to assess saturation.
  • All articles used some form of code frequency counts to assess saturation (including code frequency counts, comparative method, stopping criterion, higher-order groupings), and four articles used another approach in addition to code frequency counts and compared saturation for each (Hennink et al., 20172019Constantinou et al., 2017Hagaman and Wutich, 2017).
  • Many articles (37% 6/16) used only code frequency counts to assess saturation, which involved counting codes in successive transcripts or sets of transcripts until the frequency of new codes diminishes, signaling saturation is reached.
  • Three articles (18%, 3/16) added specific additional elements to code frequency counts, such as batch comparisons, a stopping criterion, or counting higher-order groupings of codes, such as meta-themes or categories of codes rather than individual codes.
  • Three articles (Hennink et al., 20172019Nascimento et al., 2018) used ‘code meaning’ to assess saturation, an entirely different approach from code frequency counts. This approach focused on reaching a full understanding of issues in data as the indicator that saturation is reached, by assessing whether the issue, its dimensions, and nuances are fully identified and understood.
  • Two articles (Hennink et al., 2017Hennink et al., 2019) then compared saturation using this approach with the code frequency approach.

 

3.1.2. 통계적 모델
3.1.2. Statistical models

표 2는 포화를 추정하기 위해 통계적 모델링을 사용한 6개의 논문을 요약한 것입니다. 이 논문들은 위에 요약된 것과는 다른 접근법을 사용했는데, 포화에 필요한 표본 크기를 추정하는 [공식을 개발]하여 데이터 수집 전에 연구 설계에 정보를 제공하기 위해 사용할 수 있습니다.

  • 몇몇 공식은 모집단 내 테마의 유병률 또는 데이터에서 원하는 테마의 인스턴스 수와 같은 유사한 매개변수를 기반으로 한 반면(Fugard and Potts, 2015; Galvin, 2015; Lowe 외, 2018),
  • 로그 정규 분포(Rowlands 외, 2016; Van Rijnsoever, 2017) 또는 집합 이론(Fofana 외, 2020)을 사용한 공식도 있었습니다.
  • 이러한 연구 중 다수는 무작위 표본을 가정한 반면, 무작위 표본과 의도적 표본을 모두 고려한 연구도 있었습니다(Van Rijnsoever, 2017).
  • 대부분의 공식은 인터뷰 데이터를 위해 개발되었으며, 두 개의 논문은 인터뷰, 포커스 그룹, 문서, 문헌 조사 등 다양한 형태의 데이터에 대한 포화 추정에 대해 논의했습니다. 그런 다음 공식의 절반을 경험적 데이터 세트에 적용했습니다.


Table 2 summarizes six articles that used statistical modeling to estimate saturation. These articles used a different approach than those summarized above: they developed a formula to estimate the sample size needed for saturation, which may be used prior to data collection to inform study design.

  • Several formulas were based on similar parameters, such as prevalence of a theme in a population or the desired instances of a theme in data (Fugard and Potts, 2015Galvin, 2015Lowe et al., 2018),
  • while others used a lognormal distribution (Rowlands et al., 2016Van Rijnsoever, 2017) or set theory (Fofana et al., 2020).
  • Many of these studies assumed a random sample, while one accounts for both random and purposive samples (Van Rijnsoever, 2017).
  • Most formulas were developed for interview data, while two articles discussed estimating saturation for various forms of data, including interviews, focus groups, documents, and literature surveys. Half of the formulas were then applied to empirical datasets.

3.2. 포화를 위한 샘플 크기
3.2. Sample size for saturation

그림 2는 [심층 인터뷰 데이터]를 사용한 경험적 기반 테스트의 포화에 대한 샘플 크기를 보여줍니다. 테스트에 사용된 각 데이터 세트(n = 16)에 대한 결과는 별도의 데이터 포인트로 표시됩니다. 서로 다른 표본 크기로 결과가 보고된 경우, 보고된 가장 낮은 표본 크기부터 가장 높은 표본 크기까지 선으로 표시되며, 이 범위에 영향을 미치는 매개변수가 표시됩니다. 저자가 서로 다른 포화 수준을 보고한 경우, 연구 간의 비교 가능성을 위해 90%에 가장 가까운 포화가 표시됩니다. 결과에 따르면 포화에 대한 다양한 접근 방식을 사용한 16개의 테스트에서 포화의 표본 크기는 5개에서 24개의 인터뷰 사이였습니다.

  • 가장 작은 포화 표본 크기는 5개의 인터뷰로, 설문조사 결과를 뒷받침하기 위한 동질적인 연구 모집단을 대상으로 광범위한 범주에서 포화를 구한 연구(Constantinou et al., 2017)였습니다. 이러한 연구 특성을 종합하면 5번의 인터뷰로 포화 상태에 도달한 것을 설명할 수 있습니다.
  • 포화에 대한 가장 큰 표본 크기는 4개국의 메타주제에 대한 포화를 추구한 20~40개(Hagaman and Wutich, 2017)와 연구 질문의 중심이 아닌 코드를 포함한 코드의 의미에 대한 포화를 추구한 24개(Hennink et al., 2017)였습니다.이러한 포화 목표를 달성하려면 더 많은 데이터가 필요하며, 이는 포화에 대한 더 높은 표본 크기를 뒷받침할 수 있습니다.

Fig. 2 shows sample sizes for saturation from empirically based tests using in-depth interview data. The results for each dataset used in the tests (n = 16) are shown as separate data points. Where results are reported at different sample sizes, this is depicted with a line from the lowest to highest sample size reported, and the parameters influencing this range are noted. Where authors report different levels of saturation, saturation closest to 90% is shown for comparability across studies. Results show that across 16 tests using various approaches to saturation, the sample size for saturation ranges between 5 and 24 interviews.

  • The lowest sample size for saturation was 5 interviews (Constantinou et al., 2017), in a study with a homogenous study population that was intended to support survey findings and where saturation was sought in broad categories. Together, these study characteristics may explain reaching saturation at 5 interviews.
  • The highest sample sizes for saturation were 20–40 (Hagaman and Wutich, 2017), where saturation of meta-themes across four countries was sought, and 24 (Hennink et al., 2017), where saturation was sought in the meaning of codes, including codes less central to the research question. These saturation goals require more data, which may support the higher sample sizes found for saturation.

이러한 이상값을 제외하면, 대부분의 데이터 세트는 포화를 평가하기 위해 다양한 접근 방식을 사용했음에도 불구하고 9~17개의 인터뷰, 평균 12~13개의 인터뷰 사이에 포화에 도달했습니다. 대부분의 연구는 비교적 [동질적인 연구 모집단]을 사용했으며 코드, 카테고리 또는 그 조합의 포화 목표가 다양했습니다. 이질적인 샘플을 사용한 연구는 단 3건에 불과했습니다. 이 중 두 연구는 평균보다 큰 표본 크기(16개 인터뷰)에서 포화에 도달했고, 한 연구는 작은 표본 크기(9개 인터뷰)에서 포화에 도달했습니다. 따라서 이 특성에 따른 포화 패턴은 발견되지 않았습니다. 마찬가지로, 대부분의 테스트에서 실제 인터뷰 순서대로 데이터를 분석할 때 무작위 순서와 포화를 비교하지 않았기 때문에 데이터 순서에 따른 포화의 패턴을 식별하기 어려웠습니다. 비교를 수행한 연구에서는 무작위 인터뷰 순서와 실제 인터뷰 순서에서 포화에 차이가 없거나 샘플 크기가 약간 더 큰 것으로 나타났습니다. 무작위 추출을 사용한 연구와 표본 크기의 전체 스펙트럼을 다루지 않은 연구 모두 검토 대상에 포함되지 않았습니다.

Excluding these outliers, most datasets reached saturation between 9 and 17 interviews, with a mean of 12–13 interviews, despite using different approaches to assess saturation. Most of these studies had a relatively homogenous study population and varied in their saturation goal of codes, categories, or a combination. Only three studies used a heterogeneous sample. Two of these studies reached saturation at a larger sample size than the mean (at 16 interviews), and one reached saturation at a smaller sample size (at 9 interviews). Therefore, we found no pattern in saturation by this characteristic. Similarly, it was difficult to identify any pattern of saturation by the order of data, since most tests did not compare saturation when analyzing data in the actual interview order with the randomized order. Those that did make a comparison found no difference or a slightly higher sample size for saturation in the random versus actual order of interviews. Both studies that used randomization and those that did not cover the full spectrum of sample sizes seen in our review.

그림 3은 [포커스 그룹 토론 데이터]를 사용한 6개의 경험적 테스트에서 포화에 대한 샘플 크기를 보여줍니다. 비교 가능성을 위해 다양한 수준의 포화가 보고된 경우 90%에 가장 가까운 포화가 그림에 표시되어 있습니다. 6개의 테스트 모두에서 1~16개의 포커스 그룹 사이에서 포화에 도달했습니다. 두 테스트는 이상치이므로 다른 테스트와 비교할 수 없습니다.

  • 가장 낮은 수치인 Hancock 등(2016)은 단일 비동기 온라인 포커스 그룹의 포화에 대해 보고하며, 포화는 요일 및 참여자별로 보고됩니다.
  • 상위 연구에서는 Morse 등(2014)이 16개 그룹에서 포화에 도달했다고 보고했지만, 코드나 테마가 아닌 공간적 위치에 초점을 맞추었기 때문에 포화에 대한 표본 크기가 더 클 수 있습니다.
  • 나머지 4개의 테스트는 유사한 포화 정의를 사용했으며, 평균 5~6개의 포커스 그룹으로 4~8개의 포커스 그룹 사이에서 포화에 도달했습니다.

대부분의 테스트(4/6)는 연구 모집단이 균질했지만 포화를 평가하는 접근 방식과 코드 또는 카테고리의 포화 목표가 다양했습니다. 이질적인 샘플을 사용한 두 테스트에서는 모두 평균 그룹 수보다 많은 샘플 크기(7개 및 17개 그룹)에서 포화에 도달했습니다.

Fig. 3 shows the sample size for saturation from six empirical tests using data from focus group discussions. For comparability, where various levels of saturation are reported, those closest to 90% are shown in the figure. Across all six tests, saturation was reached between 1 and 16 focus groups. Two tests are outliers and thus not comparable to others.

  • At the lower end, Hancock et al. (2016) report on saturation in a single asynchronous, online focus group, and saturation is reported by day and participant.
  • At the higher end, Morse et al. (2014) report reaching saturation at 16 groups; however, they focus on spatial locations rather than codes or themes, which may account for the higher sample size for saturation.
  • The remaining four tests used similar definitions of saturation and reached saturation between 4 and 8 focus groups, with a mean of 5–6 groups.

Most tests (4/6) had a homogenous study population but varied in their approach to assessing saturation and the saturation goal of codes or categories. In the two tests using heterogeneous samples, both reached saturation at sample sizes above the mean number of groups (at 7 and 17 groups).

 

경험적 데이터에 적용된 포화에 대한 통계 모델을 개발한 연구에서도 포화에 대한 표본 크기는 위와 유사했습니다(표 2). 예를 들어, Rowlands 등(2016)은 로그 정규 분포를 사용하여 [세 가지 인터뷰 데이터 세트]에서 포화를 추정했으며, 그 결과 95% 신뢰 수준에서 포화에 대한 표본 크기는 10개, 10개, 13개로 나타났습니다. (2020)은 [집합 이론과 부분 최소 제곱 회귀]를 사용하여 12개의 인터뷰 데이터 세트에 적용했을 때 포화를 추정했습니다.

In studies that developed statistical models for saturation that were applied to empirical data, the sample sizes for saturation were similar to those above (Table 2). For example, Rowlands et al. (2016) used the lognormal distribution to estimate saturation in three datasets of interviews, and results found the sample sizes for saturation at 95% confidence to be 10, 10, and 13 interviews. Fofana et al. (2020) used set theory and partial least squares regression to estimate saturation at 12 interviews when applied to an empirical dataset.

4. 토론
4. Discussion

이 체계적 문헌고찰은 포화를 평가하는 실증 연구를 식별하고, 포화에 필요한 표본 크기, 포화를 평가하는 데 사용되는 전략, 그리고 이러한 연구에서 도출할 수 있는 지침을 파악하고자 했습니다. 포화를 실증적으로 평가한 23개의 연구를 확인했으며, 이 중 80%가 2014년 이후에 발표된 연구였습니다. 포화를 평가하는 데는 경험적 데이터를 사용한 연구와 통계적 모델을 사용한 연구라는 두 가지 접근 방식이 있었습니다.
This systematic review sought to identify empirical studies that assess saturation, to identify sample sizes needed for saturation, strategies used to assess saturation, and guidelines we can draw from these studies. We identified 23 studies that empirically assessed saturation, with 80% published since 2014. We identified two different approaches to assess saturation: studies that used empirical data and those that used statistical models.

포화를 평가하는 한 가지 접근 방식은 데이터를 수집하기 전에 포화에 대한 표본 크기를 추정하기 위한 통계 모델을 개발하는 데 중점을 두었습니다. 포화를 선험적으로 추정하려는 노력에는 박수를 보내지만, 개발된 많은 공식은 [정성적 연구 수행에 부합하지 않는 암묵적 가정을 기반]으로 하기 때문에 그 유용성이 크게 제한됩니다. 이러한 연구 중 상당수는 [무작위 표본]을 사용하여 전체 인구에서 특정 주제의 유병률 또는 데이터에서 원하는 주제의 인스턴스를 파악하는 등 [확률 기반 가정]을 사용합니다. 게다가 연구자들은 연구를 수행하기 전에 이러한 매개변수를 알지 못하는 경우가 많으며, 항목의 유병률은 질적 연구의 중요한 초점이 아닙니다. [통계 공식]은 정량적 연구자에게 익숙한 검정력 계산과 유사하게 보일 수 있기 때문에, 정성적 연구와 가정이 일치하지 않을 경우 [궁극적으로 달성할 수 없는 과학적 신뢰성]을 오해의 소지가 있는 베일로 만들 수 있다고 생각합니다. 이러한 접근 방식에 대한 우려를 감안하여 더 이상 고려하지 않습니다.
One approach to assessing saturation focused on developing statistical models to estimate sample sizes for saturation prior to data collection. While we applaud efforts to estimate saturation a priori, many of the formulas developed are based on implicit assumptions that do not align with the conduct of qualitative research, thereby significantly limiting their utility. Many of these studies use probability-based assumptions, such as having a random sample and knowing the prevalence of a theme in the broader population or the desired instances of a theme in data. Moreover, researchers often do not know these parameters prior to conducting a study, nor is prevalence of items an important focus of qualitative research. Since a statistical formula may be seen as akin to a power calculation familiar to quantitative researchers, we feel that this may provide a misleading veil of scientific authenticity that ultimately cannot be achieved given the misalignment of assumptions with qualitative research. Given our concerns about these approaches, we do not consider them further.

포화를 평가하는 두 번째 접근 방식은 [경험적 데이터를 사용]했습니다. 심층 인터뷰 데이터를 사용한 16개의 포화 테스트에서 모두 25개 미만의 인터뷰, 더 구체적으로는 [이상값을 제외한 9~17개의 인터뷰]에서 포화에 도달했습니다. 포화를 평가하기 위해 [다양한 접근 방식, 다양한 데이터 세트, 다양한 포화 목표(코드 대 카테고리), 동질적 및 이질적인 연구 모집단을 사용]했음에도 불구하고 연구는 여전히 좁은 범위의 인터뷰 내에서 포화에 도달했습니다. 이는 다양한 접근 방식에 걸쳐 강력한 외부 신뢰도를 보여줍니다. 모든 테스트에서 평균 12~13개의 인터뷰가 포화 상태에 도달했는데, 이는 포화 상태를 경험적으로 평가한 최초의 연구 중 하나인 Guest 외(2006)의 연구 결과(12개의 인터뷰에서 포화 상태에 도달했다고 보고)와 매우 유사합니다. [연구 모집단의 동질성, 무작위 배정 사용, 포화 목표 등] [연구 특성]에 따른 포화에 대한 명확한 패턴을 발견하지 못했는데, 이는 이러한 매개변수를 실제로 평가한 연구가 거의 없었기 때문입니다. 

A second approach to assess saturation used empirical data. In all 16 tests of saturation with data from in-depth interviews, saturation was reached in under 25 interviews, more specifically between 9 and 17 interviews excluding outliers. Despite using different approaches to assess saturation, different datasets, varying saturation goals (codes vs categories), and homogenous and heterogeneous study populations, studies still reached saturation within a narrow range of interviews. This demonstrates strong external reliability across the different approaches. Across all tests, an average of 12–13 interviews reached saturation, which is remarkably similar to findings from Guest et al. (2006), one of the first studies to empirically assess saturation, which reported saturation at 12 interviews. We found no clear pattern in saturation by study characteristics, such as homogeneity of the study population, use of randomization, or saturation goal, largely because few studies actually assessed these parameters in their approach.

포커스 그룹 토론 데이터를 사용한 6개의 테스트에서 포화에 도달한 그룹은 4~8개 그룹으로, 비슷한 좁은 범위였습니다. 인구통계학적 계층화, 이질적인 샘플, 더 넓은 포화 목표(예: 코드 의미, 모든 주제 대 주요 주제)를 사용한 연구에서는 포화에 도달하기 위해 더 많은 그룹이 필요했습니다. 그러나 포커스 그룹 데이터를 비교한 추가 연구 없이 이러한 특성의 영향에 대한 결론을 내리는 것은 신중해야 합니다. 전반적으로 이러한 결과는 다양한 정성적 방법의 포화에 대한 표본 크기에 대한 절실히 필요한 경험적 증거를 제공합니다. 특정 범위의 인터뷰 또는 포커스 그룹 내에서 포화가 수렴하더라도, 아래에서 설명하는 바와 같이 이러한 방법을 사용하는 모든 질적 연구의 일반적인 표본 크기로 사용하거나 잘못 설계되거나 실행된 질적 연구를 정당화하기 위해 이러한 결과를 사용하지 않도록 주의해야 합니다. 대신, 이러한 결과를 질적 연구의 표본 크기를 추정할 때 특정 연구 특성과 함께 고려할 수 있는 지침으로 사용하는 것이 좋습니다. 

In six tests using data from focus group discussions, saturation was reached by 4–8 groups, a similarly narrow range. Studies using demographic stratification, heterogeneous samples, and broader saturation goals (e.g., code meaning, all themes vs main themes) needed more groups to reach saturation. However, we are cautious about drawing conclusions regarding the influences of these characteristics without more studies with focus group data to compare. Overall, these findings provide much-needed empirical evidence of sample sizes for saturation for different qualitative methods. Despite convergence of saturation within a specific range of interviews or focus groups, we caution not to use these findings as generic sample sizes for any qualitative study using these methods, or to justify poorly designed or executed qualitative studies, as we discuss below. Instead, we recommend using these results as guidance to consider alongside the specific study characteristics when estimating the sample size for a qualitative study.

4.1. 연구에 대한 시사점
4.1. Implications for research

체계적 문헌고찰의 결과는 몇 가지 중요한 시사점을 제공합니다. 여기서는 경험적 기반 연구의 시사점에만 초점을 맞춥니다. 이러한 결과는 인터뷰와 포커스 그룹 토론을 사용할 때 포화를 위한 적절한 표본 크기에 관한 경험적 지침을 제공하며, 이는 질적 연구 제안서를 개발할 때 유용할 수 있습니다. 검토 대상에 포함된 대부분의 경험적 기반 연구는 연구 모집단이 균질하고 연구 목표가 집중되어 있었기 때문에 이러한 결과를 다른 유형의 표본이나 더 광범위한 목표를 사용하는 연구에 자신 있게 추정할 수는 없습니다. 따라서 [이러한 결과를 출발점]으로 삼아 인터뷰 또는 포커스 그룹의 잠재적 범위를 파악한 다음 연구 특성(예: 연구 목표, 연구 대상 현상의 성격 및 복잡성, 도구 구조, 샘플링 전략, 표본의 계층화, 연구자의 질적 연구 경험, 포화 목표 및 추구하는 포화 정도)을 고려하여 표본 크기를 구체화하는 것이 좋습니다(Baker and Edwards, 2012; Galvin, 2015; Morse, 1995; 연구 변수를 사용하여 포화를 추정하는 데 대한 자세한 논의는 Hennink et al., 2017 참조). 이러한 고려사항은 각 특정 연구에 보다 맞춤화된 표본 크기로 이어질 뿐만 아니라 제안된 표본 크기에 대한 보다 명확한 정당성을 제공하여 엄밀성을 더합니다. 
The results of our systematic review have several important implications. We focus here only on implications of empirically based studies. These results provide empirical guidance regarding adequate samples sizes for saturation when using interviews and focus group discussions, which can be useful when developing qualitative research proposals. The majority of empirically based studies in our review had a homogenous study population and focused research objectives, so these results cannot be confidently extrapolated to studies using different types of samples or broader goals. Therefore, we recommend using these results as a starting point to identify a potential range of interviews or focus groups then refining the sample size by considering the study characteristics (e.g., study goals, nature and complexity of phenomenon studied, instrument structure, sampling strategy, stratification of sample, researcher's experience in qualitative research, saturation goal, and degree of saturation sought) (Baker and Edwards, 2012; Galvin, 2015; Morse, 1995; see Hennink et al., 2017 for fuller discussion on using study parameters to estimate saturation). These considerations will not only lead to a more tailored sample size for each particular study but also provide clearer justification for the proposed sample size, thereby adding rigor.

또한, 본 연구 결과는 연구자들에게 질적 표본 크기가 '너무 작다'는 일반적인 비판을 반박할 수 있는 강력한 경험적 증거를 제공하며, 이는 일반적으로 이러한 주장에 대한 근거가 제시되지 않음에도 불구하고 비효율적이라는 것을 암시합니다. 우리의 연구 결과는 '작은' 표본 크기가 질적 연구에 효과적이라는 것을 입증하고, 질적 연구에서 적절한 표본 크기의 기준이 되는 포화 상태에 도달할 수 있기 때문에 왜 효과적인지 그 이유를 보여줄 수 있습니다. 또한, 다양한 질적 방법에서 포화 상태에 도달할 수 있는 다양한 표본 크기를 제공함(예: 9~17명의 인터뷰 또는 4~8명의 포커스 그룹)으로써 '작은' 표본이 실제로 어떤 것인지 보여줍니다. [질적 연구를 위한 표본 크기에 대한 일반적인 조언]은 일반적으로 이보다 더 큰 표본 크기를 제안하기 때문에 이 점이 중요합니다. 
Our results also provide researchers with strong empirical evidence to refute the common critique that qualitative sample sizes are ‘too small’, implying that they are ineffective, although no evidence is usually given for these claims. Our results can be used to demonstrate that ‘small’ sample sizes are effective for qualitative research and to show why they are effective – because they are able to reach saturation, the long-held benchmark for an adequate sample size in qualitative research. Furthermore, our results show what a ‘small’ sample actually is, by providing a range of sample sizes for saturation in different qualitative methods (e.g., 9–17 interviews or 4–8 focus groups). This is important because general advice on sample sizes for qualitative research usually suggest higher sample sizes than this.

질적 연구 방법론에 관한 [교과서를 검토]한 결과, 5~60개의 인터뷰(Guest 외, 2006; Constantinou 외, 2017; Hagaman and Wutich, 2017), 2~40개의 포커스 그룹(Guest 외, 2016) 등 표본 크기 권장 사항이 매우 다양하다는 것을 알 수 있었습니다. 더 중요한 것은 이러한 권장 사항 중 어느 것도 경험적 근거가 없다는 것입니다. 적절한 주의 사항과 함께 근거에 기반한 표본 크기 권장 사항을 제공하는 것이 중요합니다.

  • 필요 이상으로 큰 질적 표본은 연구비 낭비, 연구 참여자의 과도한 부담, 데이터 낭비 등 윤리적 문제를 야기하며(Carlsen and Glenton, 2011; Francis 등, 2010),
  • 표본이 너무 작아 포화 상태에 도달하면 연구 결과의 타당성이 떨어집니다(Hennink 등, 2017).

따라서 본 연구 결과는 질적 연구 지침서의 가이드라인의 일부로 포함될 수 있는 포화에 대한 경험적 기반 표본 크기를 제공합니다. 
Reviews of textbooks on qualitative research methodology found that sample size recommendations vary widely, for example 5–60 interviews (Guest et al., 2006; Constantinou et al., 2017; Hagaman and Wutich, 2017) and 2 to 40 focus groups (Guest et al., 2016). More importantly, none of these recommendations is empirically based. Providing evidence-based sample size recommendations, with appropriate caveats, is important.

  • Qualitative samples that are larger than needed raise ethical issues, such as wasting research funds, overburdening study participants, and leading to wasted data (Carlsen and Glenton, 2011Francis et al., 2010),
  • while samples that are too small to reach saturation reduce the validity of study findings (Hennink et al., 2017).

Our results thus provide empirically based samples sizes for saturation that could be included as part of the guidelines in instructional textbooks on qualitative research.

또한 바실레이우 외(2018)는 일부 질적 연구자조차도 자신의 표본 크기가 '작다'고 표현했지만, 이는 "후회나 사과 담론에 따른 한계로 해석된다"(12쪽)는 점을 발견했습니다. 이러한 저자들은 [실증주의를 지향하는 독자들의 우려]에 부응하기 위해 글을 썼을지 모르지만, 질적 근거를 들어 '작은' 표본을 옹호하는 사람은 거의 없었습니다. 우리는 연구자들이 [실증주의 패러다임의 (대부분 부적절한) 우려와 수치적 기대에 대응하기]보다는 [질적 연구의 원칙을 사용하여 표본 크기를 보다 자신 있게 정당화할 수 있도록 우리의 결과를 반영할 것을 권장]합니다. 질적 연구의 표본 크기는 데이터의 적절성에 따라 결정되므로, 효과적인 표본 크기는 숫자(n)보다는 연구 대상 현상에 대한 풍부하고 미묘한 설명을 제공할 수 있는 데이터의 능력에 더 중점을 둡니다. 궁극적으로, 질적 연구를 위한 표본 크기를 결정하고 정당화하는 것은 포화에 영향을 미치는 연구 특성과 분리할 수 없습니다. 우리의 결과는 "소규모 표본에서 엄격하게 수집된 질적 데이터는 사람들의 경험의 전체 차원을 실질적으로 나타낼 수 있다"(Young and Casey, 2019, 12쪽)는 다른 연구 결과를 반영하므로 질적 연구의 엄격성을 평가할 때 이를 한계로 보거나 제시해서는 안 됩니다.
Furthermore, Vasileiou et al. (2018) found that even some qualitative researchers characterized their own sample size as ‘small’, but this was “construed as a limitation couched in a discourse of regret or apology” (p. 12). Although these authors may be writing to the concerns of more positivist-oriented readers, few defended their ‘small’ sample on qualitative grounds. We encourage researchers to reflect on our results to more confidently justify their sample sizes using the principles of qualitative research rather than responding to the (mostly inappropriate) concerns of a more dominant positivist paradigm and their numerical expectations. Sample sizes in qualitative research are guided by data adequacy, so an effective sample size is less about numbers (n's) and more about the ability of data to provide a rich and nuanced account of the phenomenon studied. Ultimately, determining and justifying sample sizes for qualitative research cannot be detached from the study characteristics that influence saturation. Our results echo others, that “rigorously collected qualitative data from small samples can substantially represent the full dimensionality of people's experiences” (Young and Casey, 2019, p.12) and therefore should not be viewed or presented as a limitation when evaluating the rigor of qualitative research.

또한, 이번 연구 결과는 [질적 연구 검토자]에게 [포화에 맞는 효과적인 표본 크기에 대한 경험적 지침]을 제공합니다. 이는 '작은' 표본 크기에 대해 질적 연구를 비판하는 일상적인 관행에 다시 초점을 맞추는 데 도움이 될 수 있으며, 검토자는 대신 연구자에게 다음과 같은 질문을 통해 표본 크기에 대한 보다 명확한 근거를 제시하도록 요청할 수 있습니다:

  • "귀하와 같은 동질적인 연구 모집단에서는 일반적으로 25명 미만으로 포화 상태에 도달할 수 있는데, 왜 40명의 인터뷰 표본을 사용했습니까?"라고 질문할 수 있습니다.

우리는 일반적으로 질적 연구에 효과적인 표본 크기를 결정할 때 수치적 지침만을 사용하는 것을 지지하지는 않지만, 이러한 유형의 질문은 포화에 대한 이용 가능한 경험적 증거를 사용하여 연구자가 표본 크기를 정당화하고 각 개별 연구의 특성을 보다 투명하게 사용하도록 도전하는 보다 정보에 입각한 비판을 반영합니다. 따라서 우리는 질적 연구자들이 표본 크기에 대해 보다 충분한 근거를 제시하고, 질적 연구 검토자들이 이러한 결과를 적용하여 질적 연구에 대한 표본 크기에 대해 보다 효과적인 비평을 제공할 것을 촉구합니다. 이를 통해 질적 연구에 대한 보고와 비평의 질을 개선하고 '작은' 표본 크기에 대한 근거 없는 비판에서 벗어날 수 있습니다.
Our results also provide empirical guidance on effective sample sizes for saturation for reviewers of qualitative research. This may help to refocus the routine practice of criticizing qualitative research for ‘small’ sample sizes so that reviewers may instead ask researchers to provide more explicit justifications for their sample size by asking, for example:

  • “why do you have a sample of 40 interviews, when saturation can typically be reached in less than 25 with a homogenous study population such as yours?”

Although, we generally do not support using only numerical guidance in determining an effective sample size for qualitative research, these types of questions reflect a more informed critique that uses available empirical evidence on saturation to challenge researchers to be more transparent in justifying their sample sizes and using the characteristics of each individual study to do so. We therefore encourage qualitative researchers to provide fuller justifications of their sample sizes and urge reviewers of qualitative studies to apply these findings to provide more effective critiques of sample sizes for qualitative research. This may improve the quality of reporting and critiquing qualitative research and move away from often unsubstantiated critiques of ‘small’ sample sizes.

또한 이번 연구 결과는 [코드 빈도 수]와 [코드 의미 평가의 여러 변형]을 포함하여 [포화를 평가하는 5가지 접근 방식]을 종합적으로 보여줍니다. 이제 질적 연구자들은 데이터 수집 중에 포화를 평가할 수 있는 다양한 전략을 사용할 수 있습니다. 정성적 연구에 대한 수많은 검토에 따르면 포화는 종종 표본 크기를 정당화하기 위해 사용되지만, 포화를 평가하거나 결정하는 방법에 대한 투명성이 압도적으로 부족하다는 사실이 밝혀졌습니다(Carlsen and Glenton, 2011; Francis 외., 2010; Marshall 외., 2013; Vasileiou 외., 2018). 특히 포화가 질적 연구에서 품질의 지표로 환영받는다는 점을 고려할 때 이러한 투명성 부족은 우려스러운 부분입니다. 이는 포화가 연구자들에 의해 거의 근거가 없고 질적 연구 검토자들에 의해 도전받지 않는 엄격함의 외관을 제공하기 위해 "엄격함의 덮개"(Constantinou 외., 2017, 2페이지)로 사용되고 있음을 시사합니다
Our results also synthesize five distinct approaches to assess saturation, including several variations of code frequency counts and assessing code meaning. Qualitative researchers now have an array of strategies to assess saturation during data collection. Numerous reviews of qualitative studies have found that saturation is often used to justify a sample size, but there was an overwhelming lack of transparency in how it was assessed or determined (Carlsen and Glenton, 2011; Francis et al., 2010; Marshall et al., 2013; Vasileiou et al., 2018). This lack of transparency is concerning, particularly given that saturation is hailed as an indicator of quality in qualitative research. It suggests that saturation is being used as a “mantle of rigor” (Constantinou et al., 2017, p. 2) to provide the appearance of rigor that is largely unsubstantiated by researchers and left unchallenged by reviewers of qualitative studies.

이러한 투명성 부족은 어느 정도 [포화 평가에 대한 지침이 없기 때문]일 수 있습니다. 이번 검토에서는 질적 연구자가 포화 평가 방법, 포화에 도달했는지 여부 또는 연구에서 포화가 어느 정도 달성되었는지를 보다 투명하게 보고하기 위해 사용할 수 있는 다양한 전략을 종합했습니다. 이제 연구자는 [포화를 평가하는 전략]과 [포화를 결정한 기준(예: 중지 기준, 누적 빈도 그래프, 코드 비율, 코드 의미)]을 지정할 수 있습니다. 이러한 투명성 강화는 개별 연구의 엄격성뿐만 아니라 질적 연구 전반의 품질에도 분명한 이점이 있습니다. 포화에 대한 투명성이 높아지면 연구의 재현성이 향상되고 포화를 보고하는 방법에 대한 기대치가 높아지며, '포화까지 데이터를 수집했다'와 같이 [일반적이고 근거가 없는 문구]를 사용하는 것에서 벗어날 수 있습니다. 

To some extent, this lack of transparency may reflect the absence of guidance on assessing saturation. Our review has synthesized a range of strategies that can be used by qualitative researchers to become more transparent in reporting how saturation was assessed, whether it was reached, or the extent to which it was achieved in a study. Researchers can now specify a strategy for assessing saturation and the criteria on which it was determined (e.g., a stopping criterion, cumulative frequency graphs, percentage of codes, code meaning). Such greater transparency has clear benefits for the rigor of individual studies but also for the quality of qualitative research as a whole. Greater transparency regarding saturation improves reproducibility of the research and raises expectations on how to report saturation, all of which move away from using generic and unsupported statements such as ‘data were collected until saturation’.

또한 [질적 연구를 발표하는 저널]은 포화에 대한 투명한 보고를 장려하는 데 중요한 역할을 합니다. Vasileiou 등(2018)은 [표본 크기의 정당성 보고]가 [특정 학술지와 일치]한다는 사실을 발견했으며, 이는 학술지 요건이 포화 보고의 투명성 강화 규범을 장려할 수 있음을 시사합니다. 학술지 심사자는 연구자에게 다음 등의 질문을 할 수 있습니다. 

  • '포화를 어떻게 평가했습니까?',
  • '포화에 도달했다는 것을 어떻게 알 수 있습니까? ' 또는
  • '핵심 코드, 범주, 의미 등에서 어느 정도 포화 상태에 도달했습니까?'

이러한 요청은 포화에 대한 보다 투명하고 미묘하며 엄격한 보고가 필요하다는 신호입니다. 이는 단순한 체크리스트 요건을 넘어서는 것으로, 포화가 어떻게 결정되었는지에 대한 연구별 세부 정보 없이 포화에 도달했다는 모호한 보고를 지속시킬 수 있습니다.

In addition, journals publishing qualitative research play a critical role in encouraging transparent reporting of saturation. Vasileiou et al. (2018) found that reporting of sample size justifications aligned with particular academic journals, suggesting that journal requirements may encourage norms of greater transparency in reporting saturation. Journal reviewers may also encourage transparency by asking researchers, for example:

  • ‘how did you assess saturation ?’,
  • ‘how do you know you reached saturation ? ’ , or
  • ‘to what extent was saturation reached – in core codes, categories, meaning etc.?'.

Such requests signal that more transparent, nuanced, and rigorous reporting of saturation is expected. This should go beyond simple check-list requirements, which may simply perpetuate vague reporting that saturation was reached without study-specific details on how it was determined.

본 연구에는 몇 가지 잠재적인 한계가 있습니다. 영어로 출판되고 근거 이론의 인식론적 접근 방식을 벗어난 연구만 포함했으며, 특정 질적 방법에 대한 검색어를 제한적으로 사용했지만 일반적인 방법도 포함했습니다. 이러한 기준 때문에 이미 발표된 다른 포화 테스트는 제외되었을 수 있지만, 검색 기준은 해당 주제에 대한 중요한 연구를 포괄할 수 있을 만큼 충분히 광범위하다고 생각합니다. 검토에서 확인된 논문은 압도적으로 건강 연구에 초점을 맞추고 있으며 포화에 대한 유사한 개념화를 가지고 있습니다. 따라서 연구 결과를 비교하기는 쉽지만, 포화를 다르게 개념화하는 다른 분야에는 이러한 결과를 적용하지 못할 수도 있습니다.
Our study has some potential limitations. We included only studies that were published in English and were outside the epistemological approach of grounded theory, and we used limited search terms for specific qualitative methods but included common methods. While these criteria may have excluded other published tests of saturation, we believe our search criteria were broad enough to capture a significant body of research on the topic. Articles identified in our review focus overwhelmingly on health research and have similar conceptualizations of saturation. While this makes the studies more comparable, these results may not be applicable to other disciplines that may conceptualize saturation differently.

5. 결론
5. Conclusion

포화는 질적 연구에서 표본 크기를 결정할 때 엄격함의 초석으로 간주되지만, 근거 이론을 제외하고는 포화 운영에 대한 지침이 거의 없습니다. 이 체계적 고찰에서는 질적 연구에서 포화를 경험적으로 평가한 연구, 포화를 평가하는 문서화된 접근법, 포화를 위한 표본 크기를 확인한 연구를 확인했습니다. 특히 연구 모집단이 비교적 균질하고 목표가 좁게 정의된 연구에서 좁은 범위의 인터뷰(9~17개) 또는 포커스 그룹 토론(4~8개)으로도 포화를 달성할 수 있음을 보여주는 다양한 포화 평가 접근법을 설명합니다. 체계적인 검토를 통해 포화에 대한 표본 크기를 확인했지만, 특정 매개변수가 포화에 어떤 영향을 미치는지 결정하기 위한 경험적 기반 연구는 거의 발견되지 않았습니다. 연구 목표, 연구 모집단의 특성, 사용된 샘플링 전략(예: 귀납적 샘플링과 고정 샘플링), 데이터 유형, 포화 목표 및 기타 영향과 같은 특정 매개변수가 포화에 미치는 영향에 대한 추가 연구가 필요합니다.

Saturation is considered the cornerstone of rigor in determining sample sizes in qualitative research, yet there is little guidance on its operationalization outside of grounded theory. In this systematic review, we identified studies that empirically assessed saturation in qualitative research, documented approaches to assess saturation, and identified sample sizes for saturation. We describe an array of approaches to assess saturation that demonstrate saturation can be achieved in a narrow range of interviews (9–17) or focus group discussions (4–8), particularly in studies with relatively homogenous study populations and narrowly defined objectives. Although our systematic review identified sample sizes for saturation, we found little empirically based research to determine how specific parameters influence saturation. Further research is needed on how specific parameters influence saturation, such as the study goal, nature of the study population, sampling strategy used (i.e. inductive vs fixed sampling), type of data, saturation goal, and other influences.


 

Soc Sci Med. 2022 Jan;292:114523. doi: 10.1016/j.socscimed.2021.114523. Epub 2021 Nov 2.

Sample sizes for saturation in qualitative research: A systematic review of empirical tests

Affiliations expand

PMID: 34785096

DOI: 10.1016/j.socscimed.2021.114523

Abstract

Objective: To review empirical studies that assess saturation in qualitative research in order to identify sample sizes for saturation, strategies used to assess saturation, and guidance we can draw from these studies.

Methods: We conducted a systematic review of four databases to identify studies empirically assessing sample sizes for saturation in qualitative research, supplemented by searching citing articles and reference lists.

Results: We identified 23 articles that used empirical data (n = 17) or statistical modeling (n = 6) to assess saturation. Studies using empirical data reached saturation within a narrow range of interviews (9-17) or focus group discussions (4-8), particularly those with relatively homogenous study populations and narrowly defined objectives. Most studies had a relatively homogenous study population and assessed code saturation; the few outliers (e.g., multi-country research, meta-themes, "code meaning" saturation) needed larger samples for saturation.

Conclusions: Despite varied research topics and approaches to assessing saturation, studies converged on a relatively consistent sample size for saturation for commonly used qualitative research methods. However, these findings apply to certain types of studies (e.g., those with homogenous study populations). These results provide strong empirical guidance on effective sample sizes for qualitative research, which can be used in conjunction with the characteristics of individual studies to estimate an appropriate sample size prior to data collection. This synthesis also provides an important resource for researchers, academic journals, journal reviewers, ethical review boards, and funding agencies to facilitate greater transparency in justifying and reporting sample sizes in qualitative research. Future empirical research is needed to explore how various parameters affect sample sizes for saturation.

Keywords: Focus group discussions; Interviews; Qualitative research; Sample size; Saturation.

의학교육에 환자/서비스사용자 참여: BEME 체계적 문헌고찰 (BEME Guide No. 58) (Med Teach, 2020)
Patient/service user involvement in medical education: A best evidence medical education (BEME) systematic review: BEME Guide No. 58 
Morris Gordona,b, Simon Guptab, Debra Thorntonb, Michael Reidb, Ernie Mallena and Angela Mellinga

 

 

배경
Background

'책 없이 질병 현상을 연구하는 것은 미지의 바다를 항해하는 것이고, 환자 없이 책을 연구하는 것은 아예 바다에 나가지 않는 것이다.' 
‘To study the phenomenon of disease without books is to sail an uncharted sea, while to study books without patients is not to go to sea at all.’

윌리엄 오슬러 경
Sir William Osler

[환자와 서비스 사용자]는 항상 의학 교육에서 중요한 역할을 담당해 왔지만, 과거에는 상태, 병리 또는 검사 징후를 설명하는 학습 자료 또는 '임상 자료'(Flexner 1910)의 역할에 그쳤습니다. 1980년대 이후 '전문가 환자'(Tuckett 1985)라는 개념이 등장하면서 환자가 자신의 치료에 보다 적극적으로 참여해야 하며 의료 전문가와 환자 간의 파트너십이 장려되어야 한다는 인식이 확산되었습니다. 이 아이디어는 '환자와 대중의 참여가 국가보건서비스(NHS)의 일상적인 관행의 일부가 되어야 하며 개선을 위한 행동으로 이어져야 한다'는 요구사항과 함께 영국(영국) 정부 정책에서 점점 더 두드러지게 부각되었습니다(보건부 2007). 2012년의 보건 및 사회보장법은 의료 시스템 전반에 걸쳐 환자의 목소리가 반영될 수 있도록 2006년에 제정된 법을 기반으로 하며, 이제 [영국의 모든 보건 관련 법정 기관]은 [환자, 보호자 및 대중을 참여시킬 의무]를 갖게 되었습니다.
Patients and service users have always been vital to medical education, but in the past this role has been a learning resource or ‘clinical material’ (Flexner 1910), illustrating conditions, pathologies or signs for examination. Since the 1980s, the notion of the ‘expert patient’ (Tuckett 1985) has led to a recognition that patients should be more actively involved in their own care and a partnership between healthcare professionals and patients should be encouraged. This idea has gained increasing prominence in the United Kingdom (UK) government policy with a requirement that ‘patient and public involvement should be part of everyday practice in the National Health Service (NHS) and must lead to action for improvement’ (Department of Health 2007). The Health and Social care Act of 2012 built on the previous 2006 Act to ensure the voice of patients is heard throughout the healthcare system and all statutory bodies in the UK relating to health now have duties with regards to the involvement of patients, carers, and the public.

이는 대학원 및 학부 교육에 영향을 미치고 있으며, 2009년에는 환자가 '의대생의 교육, 피드백 및 평가에 독특하고 귀중한 전문 지식을 제공할 수 있기'때문에 [환자를 학부 의학교육(UME)에 참여시키기 위한 의학전문대학원협의회(GMC)의 지침에 권고사항]이 작성되었습니다(General Medical Council 2009). 또한 의과대학 커리큘럼 개발 시 의대생, 수련 중인 의사, 교육자, 고용주, 기타 보건 및 사회복지 전문가, 환자, 가족 및 보호자의 의견을 수렴해야 한다고 권고했습니다(General Medical Council 2016). 
Clearly, this has an impact on postgraduate and undergraduate education and in 2009 recommendations were written into Graduate Medical Council (GMC) guidance for the involvement of patients in undergraduate medical education (UME) as they ‘can contribute unique and invaluable expertise to teaching, feedback and assessment of medical students’ (General Medical Council 2009). They further recommended that the development of medical school curricula must be informed by medical students, doctors in training, educators, employers, other health and social care professionals and patients, families and carers (General Medical Council 2016).

다른 나라에서도 의료 및 의료 교육에 환자와 대중 등 [소비자의 참여를 확대해야 한다는 요구]가 있습니다. 1995년 세계보건기구(WHO) 보고서는 의과대학이 지역사회의 요구를 충족하는 데 있어 사회적 책임이라는 새로운 패러다임을 채택할 것을 요구했으며, 이러한 요구의 우선순위는 [정부, 의료기관, 의료 서비스 제공자 및 대중]이 공동으로 파악해야 한다고 주장했습니다(Boelen and Heck 1995).
In other countries, too, there is a call for increased involvement of consumers – patients and the public – in healthcare and healthcare education. A World Health Organization report in 1995 called for medical schools to adopt a new paradigm of social accountability in meeting the needs of their communities – the priorities for these needs being identified jointly by governments, healthcare organizations, healthcare providers and the public (Boelen and Heck 1995).

의료 전문가 교육에 대한 환자 참여의 정도와 방식은 매우 다양하며, 여러 개념적 프레임워크를 사용하여 이를 조사해 왔습니다. 스펜서 외(2000)가 개발한 [캠브리지 프레임워크][참여 환경의 분류]를 설명합니다:
There is wide variation in the extent and manner of patient involvement in health professional education and these have been examined by the use of a number of conceptual frameworks. The Cambridge framework developed by Spencer et al. (2000) describes the classification of the setting of involvement:

  • 누가: 각 환자, 가족 및 간병인의 개별적인 배경, 문화 및 경험.
  • 어떻게: 환자의 역할(수동적 또는 능동적), 만남의 성격, 접촉 시간 및 감독 정도를 포함합니다.
  • 무엇을: 문제의 유형(일반적 문제와 특정 문제), 학습해야 할 지식, 기술, 가치를 포함한 교육 내용.
  • 어디서: 상호작용이 이루어지는 장소(예: 지역사회, 병원 병동, 클리닉).
  • Who: the individual background, culture, and experience of each patient, their family, and carers.
  • How: including, patient role (passive or active), nature of the encounter, length of contact, and degree of supervision.
  • What: the content of the education including the type of problem (general versus specific) and the knowledge, skills, and values to be learned.
  • Where: location of interaction (for example, community, hospital ward, clinic).

이 프레임워크는 환자/서비스 사용자가 환자/학습자와의 만남에서 얼마나 적극적인 역할을 수행할 수 있는지에 대한 가능성을 개괄적으로 보여줍니다.
This framework provides an overview of the possibilities of how active a role patients/service users may play in the patient/learner encounter.

Tew와 포스터(2004)는 [참여의 정도를 분류하는 프레임워크]를 설명합니다. 그들의 '참여의 사다리'에는 [미미한 참여, 새로운 참여, 증가하는 참여, 협력, 파트너십]의 다섯 단계가 포함됩니다. 이 프레임워크는 사용자 참여에 관한 많은 연구와 담론에서 사용되었으며, Arnstein의 '시민 참여의 사다리'(Arnstein 1969)의 영향을 많이 받았습니다. 환자의 의료 참여를 측정하는 다른 프레임워크도 존재하지만, Towle 등(2010)이 고안한 프레임워크는 [캠브리지 프레임워크와 Tew의 참여 사다리를 통합]하여 이 두 모델의 요소를 모두 포함하는 분류법을 만들었으며, 특히 의료 전반이 아닌 교육에서의 참여의 깊이와 영향을 측정하도록 고안되었습니다(표 1). 토우 프레임워크는 의학교육 내에서 서비스 제공자-사용자 참여의 상당한 다양성을 강조할 수 있는 실용적이고 포괄적인 프레임워크로 선정되었습니다.
Tew and Foster (2004) describe a framework for classifying the extent of involvement. Their ‘Ladder of Involvement’ included five steps:

  • little involvement;
  • emerging involvement;
  • growing involvement;
  • collaboration;
  • partnership.

This has been used in many studies and discourses on user involvement and was heavily influenced by Arnstein’s ‘Ladder of Citizen Participation’ (Arnstein 1969). Other frameworks exist which measure patient engagement in healthcare, but the framework devised by Towle et al. (2010) integrated the Cambridge framework and Tew’s Ladder of Involvement to produce a taxonomy with elements of both these models (Table 1), specifically designed to measure the depth and impact of involvement in education rather than in healthcare in general. The Towle framework was selected as a pragmatic, comprehensive framework that enables us to highlight the significant diversity of servicer–user involvement within medical education

이전 리뷰(Morgan and Jones 2009, Spencer 외. 2011)에서는 주로 '어떤' 참여가 이루어지고 있는지, 그리고 그러한 작업이 학습 환경을 개선하는 데 효과적인지 여부를 규명하고자 했습니다. 그러나 이 두 리뷰는 체계적이지 않았고 학술적인 2차 연구 접근법을 사용하여 증거를 종합하지 않았습니다. 더 중요한 것은 이러한 검토가 발표된 이후 동시대 연구 보고서로 이어질 가능성이 있는 보다 최근의 전략적 지침이 등장했다는 점을 고려할 때, 문헌에 대한 최신의 체계적인 검토가 필요하다는 것입니다. 이 검토에서는 증거 기반의 종합을 통해 세 가지 측면을 다루어야 합니다. 이러한 측면은 Cook 등(2008)의 의학교육 연구 프레임워크에 설명되어 있는 것으로, 세 가지 연구 질문으로 이어집니다: 
Previous reviews (Morgan and Jones 2009; Spencer et al. 2011) primarily sought to characterize the concept of ‘what’ involvement is taking place and whether such works are effective at enhancing learning encounters. However, both these reviews were not systematic and attempted no synthesis of evidence using a scholarly secondary research approach. More importantly, given the advent of more recent strategic guidance after these reviews were published that has likely led to contemporaneous research reports, there is a need for an up to date systematic review of the literature. This review must address three different aspects through a synthesis of the evidence base. These are those aspects described within Cook et al’s (2008) framework of medical education research and led to three distinct research questions:

  • 의학교육에서 어떤 서비스 사용자 참여가 이루어지고 있는가(설명)?
  • 이러한 참여가 학생의 교육에 어느 정도 영향을 미치는가(정당화)?
  • 서비스 사용자 참여가 학습에 미치는 영향은 어떻게 그리고 왜 발생하는가(명확화)?
  • What service user involvement is taking place in medical education (description)?
  • To what extent this involvement impacts the student’s education (justification)?
  • How and why such learning may be impacted by service user involvement (Clarification)?

이 마지막 질문은 이전에 다루어지지 않았고 필요한 작업 영역으로 지적된 질문입니다(Spencer 외. 2011).
This final question is one that has not been previously addressed and indicated as an area of work needed (Spencer et al. 2011).

연구 방법
Methods

이 검토를 뒷받침하는 단일 연구 패러다임은 없습니다. 우리는 실증주의(증거 수집을 위한 체계적이고 투명하며 재현 가능한 모델에 부합하고 정당성과 설명적 결과에 대한 고려를 통해)와 구성주의(개입을 뒷받침하는 이론적 틀에 대한 고려와 설명 질문을 해결하기 위한 내용 및 결과의 종합을 통해)를 모두 수용하고자 했습니다. 
No single research paradigm underpins this review. We planned to embrace both positivism (through alignment to a systematic, transparent and reproducible model for evidence collection and consideration of our justification and descriptive outcomes) and constructivism (through consideration of underpinning theoretical frameworks that inform interventions and synthesis of content and outcomes to address our clarification questions).

연구 프로토콜은 2016년 1월 13일에 BEME에서 동료 검토를 거쳐 발표되었습니다(Gordon 외. 2016) 주 저자의 역할 변경과 프로젝트에 대한 합의된 자금 확보 지연으로 인해 몇 차례 지연이 있었고 검토가 보류되었다가 2017년 7월 1일에 공식적으로 다시 시작되었습니다. 연구를 포함한 다양한 프로젝트를 지원하는 블랙풀 티칭 병원의 '블루 스카이' 자선 단체에서 기금을 지원받았습니다. 이 자금은 10개월 동안 연구원 한 명의 급여(0.2 WTE)를 제공했습니다. 
The study protocol was peer-reviewed and published by BEME on the 13th January 2016 (Gordon et al. 2016) Due to changes in roles of the main authors and delays in securing agreed funding for the project, there were several delays and the review was placed on hold and officially started again on 1st July 2017. Funding was sought from Blackpool Teaching Hospitals’ ‘Blue Skies’ charity which supports numerous projects, including research. The funding provided one researcher’s salary (0.2 WTE) for 10 months.

본 연구 결과는 STORIES(보건의료 교육에서의 근거 종합 보고에 대한 구조화된 접근 방식) 성명서(Gordon and Gibbs 2014)와 BEME 검토 체크리스트(Hammick et al. 2010)에 따라 보고했습니다. 
We have reported our findings in alignment with the STORIES (Structured approach to the reporting in healthcare education of evidence synthesis) statement (Gordon and Gibbs 2014), as well as by using the BEME review checklist (Hammick et al. 2010).

검색 전략
Search strategy

2017년 9월 1일에 검색을 실시했습니다. 우리는 다음 데이터베이스에 대해 공인된 방법론(Jenkins 2004)에 따라 표준화된 검색 전략(보충 부록 1)을 사용했습니다: MEDLINE, EMBASE, CINAHL, PsychINFO). 또한 포함된 연구에 참고 문헌으로 등재된 논문을 검토하고, 주요 의견의 저자로 확인된 서비스 사용자 참여 분야의 전문가에게 연락하여 이 검토에서 인용한 저작물을 확인했습니다. 데이터베이스의 온라인 검색 외에도 지난 5년간의 유럽 의학교육협회(AMEE) 연례 회의 초록(2013~2017년 포함)을 수작업으로 검색했습니다. 발표된 연구를 찾을 수 없는 경우 초록의 저자에게 이메일로 연락을 취했습니다. 응답하지 않은 저자는 두 번째 연락을 취한 후 제외했습니다. 모든 국가에서 수행되고 영어로 출판된 연구를 포함했습니다. 검색 날짜에는 제한을 두지 않았습니다. 저자들은 이 분야가 수십 년 동안 크게 변화했다는 사실을 알고 있었지만, 오래된 연구를 추가하는 것이 연구 결과에 부정적인 영향을 미칠 것이라고 생각하지 않았습니다. 
We conducted our search on 1st September 2017. We used a standardized search strategy (Supplementary Appendix 1) following a recognized methodology (Jenkins 2004) to the following databases: MEDLINE, EMBASE, CINAHL, PsychINFO). Additionally, we reviewed articles listed as references in included studies, and we contacted experts in the field of service user involvement identified as authors of key opinion pieces and cited works from this review. In addition to online searching of the databases, abstracts from the last 5 years of the Association for Medical Education Europe (AMEE) annual meeting proceedings (2013–2017 inclusive) were hand searched. Where published studies were not available, authors of abstracts were contacted by email. Authors who did not respond were contacted a second time before being excluded. We included studies undertaken in any country and published in English. No limitation on the search dates was imposed. Whilst the authors were aware the field has changed substantially over the decades, we did not believe the addition of older studies would in any way negatively impact findings.

이 리뷰에서는 검색 전략이 특히 까다로웠다는 점에 유의해야 합니다. '환자/서비스 사용자'라는 용어가 너무 일반적이고 보편적으로 사용되어 관련 없는 논문 수천 편이 검색되었기 때문입니다. 또한 환자/서비스 사용자 참여에 대해 합의된 통일된 명명법이 없어 검색이 복잡해졌습니다. 문헌에서 사용된 용어 중에는 환자 강사/교육자, 멘토, 환자 파트너, 서비스 사용자, 교육 보조원, 환자 자원봉사자, 환자 중재자, 지역사회 교육자, 일반인 건강 멘토 등이 있었습니다. 흥미롭게도 이전에 발표된 이 주제에 대한 리뷰(Morgan and Jones 2009)의 검색 전략을 범위 설정의 출발점으로 사용했으며, 비슷한 날짜로 제한하고 전략을 그대로 따랐음에도 불구하고 매우 다른 결과가 도출되어 이 작업에 대한 추가적인 의문을 제기했습니다. 우리는 사서 저자와 긴밀히 협력하여 검색을 구체화했으며, 최종 용어는 부록 1에 명확하게 표시되어 있지만 출판된 프로토콜(Gordon et al. 2016)과는 다릅니다. 사용자를 설명할 때 일부 주요 용어의 제한은 실행 가능한 검색을 보장하기 위해 필요했지만, 범위를 설정함으로써 주요 논문이 손실되지 않았고 이것이 유효한 접근 방식임을 보장했습니다 .
It is important to note that the search strategy was particularly challenging for this review. This was because the terms ‘patient/service user’ is so generic and ubiquitous in their use that thousands of irrelevant articles were retrieved. Additionally, the lack of an agreed, uniform nomenclature used for patient/service user involvement complicated the search. We encountered patient instructor/educator, mentor, patient partner, service user, teaching associate, patient volunteer, patient moderator, community educator, lay health mentor amongst the terms used in the literature. Interestingly, the search strategy from a previously published review of the topic (Morgan and Jones 2009) was used as a starting point for scoping and despite limiting to similar dates and following the strategy verbatim, a very different set of results was achieved, raising the further question of this work. We worked closely with our librarian author to refine the search and the final terms are displayed clearly in Supplementary Appendix 1, but differ from the published protocol (Gordon et al. 2016). The limitation of some key terms in describing users was necessary to ensure a viable search, but scoping ensured that no key papers were lost and that this was a valid approach.

심사
Screening

처음 500건의 인용을 대상으로 한 파일럿 심사 단계에서는 평가자 간의 긴밀한 합의와 토론을 통해 명확성이 부족한 주요 영역을 다루었습니다. 그 결과 품질 평가 도구를 약간 수정하여 3번 항목에 '없음'(근거, 교육학, 내용 등에 대한 언급 또는 세부 사항) 대신 '없음 또는 매우 제한적'이라고 표시하도록 했습니다. 그런 다음 한 명의 저자(SG)가 6155개의 인용 목록 전체를 심사하고 두 명의 저자(MG와 DT)가 각각 절반씩 독립적으로 심사하는 방식으로 전체 심사가 진행되었습니다. Cohen의 카파를 사용한 평가자 간 일치도는 0.401로 공정한 일치도를 보였습니다. 평가자 간의 의견 충돌은 전체 텍스트 평가를 진행하기 전에 토론을 통해 해결했습니다. 
A pilot screening phase involving the first 500 hundred citations was conducted to ensure closer inter-rater agreement and discussions addressed key areas of lack of clarity. This led to the quality assessment tool being amended slightly so that section three, instead of reading ‘no’ (mention or details of underpinning, pedagogy, content, etc.) read ‘no or extremely limited.’ Full screening then took place, with one author (SG) screening the full list of 6155 citations and two authors (MG and DT) independently screening half each. Inter-rater agreement using Cohen’s kappa showed fair agreement at 0.401. Conflicts between raters were resolved by discussion before proceeding to full-text evaluation.

포함/제외 기준
Inclusion/exclusion criteria

포함 및 제외 기준은 표 2에 나와 있습니다. 범위 검색에서 서비스 사용자 포함에 대해 피상적으로만 언급하고 자세한 내용은 언급하지 않은 연구가 여러 편 발견되었기 때문에 서비스 사용자 참여에 대해 피상적인 수준 이상으로 논의해야 했습니다. 이는 검색을 수행한 두 명의 저자가 독립적으로 판단했습니다. 또한 학습자를 위한 실제 배포를 확인하기 위해 실제 개입에 대한 어떤 형태의 평가를 기술해야 했지만, 어떤 방법이든 사용할 수 있었습니다. 의료 학습자를 포함시킨 것은 자의적인 결정이었으며 향후 다른 환경에서 검토가 필요할 수 있습니다. 
The inclusion and exclusion criteria are shown in Table 2. Studies had to discuss the service user involvement in more than a cursory fashion as scoping searches found several studies that simply made a single statement about including service users and no further details. This was independently judged by two authors performing the searches. Studies also had to describe some form of assessment of the intervention in practice to confirm its actual deployment for learners, but any method could be used. The inclusion of medical learners was an arbitrary decision and may lead to the need for future reviews in other settings.

데이터 추출 및 합성
Data extraction and synthesis

연구 내용을 평가하기 위해 BEME 지침(Hammick 외. 2010)을 기반으로 한 데이터 추출 양식(부록 2)을 사용하여 중재, 연구 유형, 결과 및 결과에 대한 데이터와 사용자 참여 및 학습자 결과의 Kirkpatrick 수준과 관련된 Towle 기준을 수집했습니다(Kirkpatrick 및 Kirkpatrick 2006). 그런 다음 세 저자 모두 이 데이터를 평가하여 주제를 생성했습니다. 누락된 주요 데이터의 경우 연구 저자에게 연락하여 이 정보를 제공받았습니다. 
A data extraction form (Supplementary Appendix 2), based on BEME guidance (Hammick et al. 2010) was used to assess the content of the studies and collected data on the interventions, study types, outcomes and results, as well as Towle criteria relating to user involvement and Kirkpatrick levels of learner outcomes (Kirkpatrick and Kirkpatrick 2006). This data was then assessed by all three authors to generate themes. In the case of key missing data, authors of studies were contacted to supply this information.

[Towle 분류법]은 의학교육 내에서 서비스 사용자 참여의 상당한 다양성을 강조할 수 있는 실용적이고 포괄적인 프레임워크로 선정되었습니다. 
The Towle Taxonomy was selected as a pragmatic, comprehensive framework that enables us to highlight the significant diversity of servicer user involvement within medical education.

교육에 대한 환자 참여를 개념화하는 데 [Towle 분류법]을 사용하는 것을 고려할 때 저자들은 처음에 몇 가지 어려움에 직면했습니다. 저자들은 처음에 이 분류법의 함의가 주어진 연구를 [단일 수준]에서 평가할 수 있고 그 수준에 따라 [6개의 차원 A-F로 세분화]할 수 있다고 생각했습니다. 그러나 특정 개입은 6가지 영역 각각에 대해 서로 다른 수준으로 평가할 수 있는 등 더 복잡하다는 것이 분명해졌습니다. 기본 가정은 차원 간 대략적인 정렬이지만, 항상 그런 것은 아닙니다. 따라서 각 연구를 각 영역에 대해 개별적으로 평가하기로 결정하고 [6가지 분류 요소]를 적용했습니다. 더 복잡하긴 하지만, 저자들은 이 방법이 독자들에게 더 정확하게 증거를 종합해 준다고 생각합니다. 여러 항목이 동일한 차원(예: 도메인 F의 경우 처음 3개 수준이 '낮음' 등급)의 경우, 더 낮거나 높은 수준은 무시하고 설명자가 적절한 가장 극단적인 수준에서 등급을 설정했습니다. 따라서 도메인 F의 경우 가장 낮은 수준은 레벨 3, 도메인 C의 경우 가장 높은 수준은 레벨 5가 됩니다. Towle 분류법 사용에 대한 이 수정안은 부록 3에 나와 있습니다.
In considering the Towle taxonomy and its use in conceptualizing patient involvement in education, the authors encountered some initial difficulty. The authors initially believed that the implication within the taxonomy is that a given study could be assessed on a single level and that level would dissect the six dimensions A–F. However, it was very clearly apparent that specific interventions were more complex, with rating possible on different levels for each of the six domains. The underpinning assumption is rough alignment across dimensions, but clearly, this is not always the case. As such, it was decided to rate each study individually for each domain and as such receive 6 elements of categorization. Whilst more complex, the authors believe this more accurately synthesizes the evidence for readers. In the case of dimensions where several items were the same (for example, for domain F the first 3 levels are ratings of ‘Low’), the lower or higher levels were ignored and the rating set at the most extreme level where the descriptor was appropriate. So in the case of domain F, this would be level 3 at the low end or in the case of domain C, level 5 at the high end. This amendment to the use of the Towle taxonomy is shown in Supplementary Appendix 3.

의학교육 연구의 중재에 적합하고 체계적 문헌고찰 과정의 일부로 BEME 공동연구에서 채택한 Kirkpatrick의 4단계 학습 평가는 각 연구에서 사용한 결과 측정을 분류하는 데 사용되었습니다(Yardley and Dornan 2012). 네 가지 수준은 다음과 같습니다:
Kirkpatrick’s four levels of learning evaluation, adapted for interventions in medical education research and adopted by the BEME collaboration as part of the systematic review process (Yardley and Dornan 2012), were used to classify outcome measures used by each study. These four levels are:

  • 레벨 1: 반응 - 개입에 대한 학습자의 반응은 어땠나요?
  • 레벨 2: 학습 - 개입 후 참가자가 태도를 바꾸거나(레벨 2a) 지식 또는 기술을 향상시킨 정도(레벨 2b).
  • 레벨 3: 행동 - 개입으로 인한 행동 또는 실천의 변화.
  • 레벨 4: 결과 - 개입으로 인한 조직 관행의 변화(레벨 4a) 또는 환자/고객에 대한 혜택(레벨 4b).
  • Level 1: Reaction – what was the reaction of the learners to the intervention?
  • Level 2: Learning – the extent to which participants changed their attitude (Level 2a) or improved their knowledge or skill (Level 2b) following the intervention.
  • Level 3: Behavior – change in behavior or practice due to the intervention.
  • Level 4: Results – changes in organizational practice (Level 4a) or benefit to patients/clients (Level 4b) due to the intervention.

연구는 계층 구조에서 두 개 이상의 수준을 반영하는 결과를 설명할 수 있습니다.
Studies may describe outcomes that reflect more than one level on the hierarchy.

증거의 종합
Synthesis of evidence

연구 유형, 교육적 개입, 협력 세부 사항 및 1차 연구의 결과에 중점을 두고 연구 데이터를 요약하는 서술적 종합이 이루어졌습니다. 연구에서 추출할 주요 방법, 내용 및 결과 항목에 대해 저자들이 논의하고 합의했습니다. 또한 질 평가 지표와 관련된 내용을 추출했으며, 관련성이 있는 경우 추가 내용이나 부록도 포함했습니다. 포함된 연구에서 기술하고 평가하는 교육적 개입에 초점을 맞춘 주요 세부 사항을 포함시킨 것은 환자/서비스 사용자 문헌의 이전 검토에서 다루지 않은 독특한 추가 사항입니다. 아래 질 평가에서 설명한 바와 같이, 교육적 관심의 주요 영역에 대한 보고 수준이 높을수록 질이 높다는 것을 의미하며, 이는 1차 독자와 이 리뷰의 독자에게 암묵적 유용성이 있기 때문입니다. 이 정보는 독자가 해당 내용을 고려할 때 유용성을 얻을 수 있도록 표 형식으로 제공됩니다. 또한 이러한 중재적 보도에 대한 RAG(빨강, 주황, 초록) 등급을 제시함으로써 독자가 해당 정보의 사용에 대한 결정을 내리는 데 도움을 줄 수 있습니다. 또한 데이터는 결과의 맥락 내에서 요약됩니다. 
A descriptive synthesis took place which summarizes the data from the studies, focusing on study type, educational intervention, collaboration details and outcomes of the primary study. Key method, content and outcome items to be extracted from the studies were discussed and agreed by the authors. Additionally, content related to the quality assessment indices was extracted, including where relevant any additional content or appendices. The inclusion of key details that focus on the educational intervention being described and assessed by the included studies was a unique addition not addressed in previous reviews of the patient/service user literature. As stated below in quality assessment, this equated higher levels of reporting in key areas of educational interest as higher quality, as this was of implicit utility to primary readers and therefore readers of this review. This information is offered within a tabulated form to allow readers to gain utility from considering such content. Additionally, the presentation of the RAG (red, amber, green) ratings of such interventional reporting should support readers in making decisions on the use of such information. The data is also summarized within the context of the results.

적절하게 동질적인 결과 데이터가 존재하는 경우, 정당성을 설명하기 위한 메타분석은 공개된 프로토콜에 따라 계획되었습니다. 그러나 어떤 연구에서도 그러한 데이터를 사용할 수 없었기 때문에 자세한 내용은 보고하지 않았습니다. 
If suitably homogeneous outcome data were present, meta-analysis – to explain Justification – was planned as per our published protocol. However, as such data was not available in any of the studies, details are not reported.

메타 민족지학(메타 민족지학은 명확성을 설명하기 위한 것으로, 질적 연구 결과를 종합하는 질적 종합 기법입니다(딕슨-우즈 외. 2005). 앞서 언급한 바와 같이, 이 방법을 사용하여 세 번째 연구 질문을 해결할 계획이었으나 해당 데이터가 부족하여 이 방법은 전체적으로 보고되지 않았으며 해당 분석도 완료되지 않았습니다. 
Meta-ethnography – to describe Clarification – is a qualitative synthesis technique which involves the synthesis of the findings of qualitative studies (Dixon-Woods et al. 2005). As mentioned before, it was planned to address our third research question with this method, but as there was a paucity of such data, these methods are not reported in full and no such analysis was completed.

포함된 연구의 질 평가
Quality assessment of included studies

보건 교육 체계적 문헌고찰의 맥락에서 질 평가를 위해 다양한 방법이 사용되어 왔지만, 합의된 방법은 존재하지 않습니다. 고려해야 할 [두 가지 핵심 요소]가 있습니다: 첫째, 연구의 방법론적 질과 둘째, 제시된 교육적 개입의 질입니다. 조사 과정에 대한 수준 높은 보고로 [방법론적]으로 건전한 보고서일 수 있지만, [중재 자체인 교육]이 자세히 보고되지 않고 이론적으로 뒷받침되지 않으며 자원이나 비용 관점에서 설명되지 않고 자료가 제공되지 않는다면 이를 수준 높은 교육적 글이라고 보기 어렵기 때문에 이 구분이 중요합니다.
Whilst there have been many different methods employed to assess quality within the context of health education systematic review, no consensus method exists. There are two key elements to consider: Firstly, the methodological quality of any study and secondly, the quality of any educational interventions presented. This distinction is important as a report may be methodologically sound with high-quality reporting of investigative process, but if the education that was the intervention itself is not reported in detail, not underpinned theoretically, not described from a resource or cost perspective and materials not available, it is hard to suggest this as a high-quality piece of educational writing.

이전 체계적 문헌고찰(Gordon 외. 2011)에서 사용되었던 시각적 RAG 순위 시스템을 사용하여 [교육 개입과 관련된 6개 영역] 각각에 대한 정보 보고의 질 또는 정도를 판단했습니다:
A visual RAG ranking system, previously used in an earlier systematic review (Gordon et al. 2011), was employed to judge the quality or extent of the reporting of information in each of six areas relating to the educational intervention:

  • 이론적 토대
  • 커리큘럼 또는 강의 계획서 설계
  • 환경(교육적 맥락 및 학습자 특성)
  • 교수법
  • 콘텐츠
  • 결론의 강도
  • Theoretical underpinning
  • Curriculum or syllabus design
  • Setting (educational context and learner characteristics)
  • Pedagogy
  • Content
  • Strength of conclusion

항목은 보고된 내용의 장점보다는 위 각 보고 영역의 포괄성 측면에서 높은 수준(녹색), 불명확한 수준(호박색), 낮은 수준(빨간색)으로 판단되었습니다.
Items were judged to be of high quality (green), unclear quality (amber), low quality (red) in terms of comprehensiveness in each of the above reporting areas, rather than the merit of what was reported.

환자/서비스 사용자 참여
Patient/service user involvement

이 체계적 문헌고찰의 주제에 따라 처음부터 [서비스 사용자를 참여]시키는 것이 적절하다고 생각했습니다. 저희는 관심 있는 사용자를 위해 UCLan의 COMENSUS(커뮤니티 참여 및 서비스 사용자 지원) 그룹에 연락했고, 이 그룹의 두 명이 원고를 검토하고 토론에 사용자 관점을 추가하는 데 자원했습니다. 
Due to the topic of this systematic review, we felt it pertinent to involve service users from the start. We contacted the COMENSUS (Community Engagement and Service User Support) group at UCLan for interested users and two from this group volunteered to review the manuscript and add a user perspective to the discussion.

결과
Results

문헌 검색을 통해 초기 11,093건의 인용이 이루어졌으며, 참고 문헌 목록과 AMEE 컨퍼런스 초록에서 47건의 추가 인용이 확인되었습니다. 해당 분야의 전문가 4명에게 연락을 취했지만 더 이상의 고유한 연구는 없었습니다. 중복을 제거한 후 6155건의 인용을 선별할 수 있었습니다. 
The literature search produced an initial 11,093 citations, with a further 47 identified from reference lists and AMEE conference abstracts. No further unique studies were received from contacting four experts in the field. After removing duplicates, the resulting 6155 citations were available for screening.

그런 다음 세 명의 저자가 위에서 설명한 포함/제외 체크리스트를 사용하여 96개의 전체 텍스트 논문 초록을 선별하여 포함 여부를 결정했습니다. 이견은 토론을 통해 해결되었으며, 최종적으로 총 39개의 논문이 포함 기준을 충족하는 것으로 간주되었으며, 연구 흐름은 그림 1에 나와 있습니다. 
All three authors then screened the abstracts of 96 full-text articles to determine eligibility for inclusion, using the inclusion/exclusion checklist described above. Disagreements were resolved by discussion and a final total of 39 articles were deemed to meet the inclusion criteria, with study flow shown in Figure 1.

제외된 연구
Excluded studies

제외된 연구 목록은 부록 4에서 확인할 수 있지만, 제외된 57건의 연구 중 가장 흔한 이유는 개입에 대한 평가가 이루어지지 않았기 때문입니다(46건의 연구). 의료진이 아닌 다른 보건 전문가가 주 학습자 그룹으로 포함된 연구도 11건 있었습니다.
The list of excluded studies can be found in Supplementary Appendix 4, but of the 57 excluded studies, the most common reason was lack of any form of evaluation of the intervention (46 studies). A further 11 studies involved other health professionals as the primary learner group, i.e. not medics.

포함된 연구 개요
Overview of included studies


포함된 39개 연구에 대한 관련 세부 정보는 부록 3에 나와 있습니다. 보다 포괄적인 데이터는 부록 5에서 확인할 수 있습니다. 
Relevant details of the 39 included studies are shown in Supplementary Appendix 3. Further comprehensive data can be found in Supplementary Appendix 5.

환자/서비스 사용자의 참여 수준
Level of involvement of patients/service users

그림 2는 Towle의 프레임워크에 따라 [개별 연구를 분류하여 6가지 영역에 매핑]하고 이 분류체계의 6가지 수준에 따라 분류한 것으로, 현재 문헌이 의학교육에서 환자/서비스 사용자 참여의 깊이와 영향력의 범위를 어떻게 반영하고 있는지 보여줍니다. 제외 기준에 따라 레벨 1 연구는 모두 제외되었으므로 포함되지 않았습니다.  
Figure 2 shows the categorization of the individual studies according to Towle’s framework, mapping to the six domains and ranging across the six levels of this taxonomy, thus demonstrating how the current literature reflects the range of the depth and impact of patient/service user involvement in medical education. Our exclusion criteria specifically removed all level 1 studies and so none were included.

대부분의 연구는 환자를 [촉진자, 교사 또는 평가자로 참여시킬 수 있는 가능성]을 나타내는 Towle의 분류법(부록 4 및 그림 2 참조)의 [레벨 3 또는 레벨 4]에 해당하는 환자를 대상으로 했습니다.
The majority of studies involved patients at Level 3 or Level 4 of Towle’s Taxonomy (see Supplementary Appendix 4 and Figure 2), which indicates the feasibility of involving patients as facilitators, teachers or assessors.

면담 기반 연구
Encounter-based studies

Encounter는 교수에 의해 기획되며, 환자는 자신의 경험을 공유하도록 초대되며, 개인적인 편안함과 참여 수준은 환자가 결정합니다. 이 범주에 속하는 17개의 연구 중 16개는 질적 방법론의 서술적 기법을 사용했으며, 학습자에게는 환자가 경험한 질병에 대한 공감과 이해 증가, 환자와의 의사소통 개선, 총체적이고 환자 중심적인 치료에 대한 이해 증진 등의 이점을 제시했습니다. 보고된 환자에 대한 이점에는 '장벽 허물기'를 통한 의사소통 개선(Cooper and Spencer-Dawe 2006), 자신의 개인적인 이야기가 치료 효과 개선에 도움이 될 것이라는 믿음(Salerno-Kennedy 외. 2009; Graham 외. 2014), 세션의 즐거움(Jha 외. 2013; Lenton and Storr 2015; Makker 2017) 등이 있습니다. 
The encounter is planned by faculty; the patient is invited to share their experience; personal comfort and level of participation is determined by the patient. Of the 17 studies in this category, 16 used descriptive techniques in a qualitative methodology and suggested benefits to learners of increased empathy and understanding of illness as experienced by patients; improved communication with patients and a greater understanding of holistic and patient-centered care. The benefits to patients, where reported, included improved communication by ‘breaking down barriers’ (Cooper and Spencer-Dawe 2006), a belief that their personal stories will help to improve treatment effectiveness (Salerno-Kennedy et al. 2009; Graham et al. 2014), and enjoyment of the session (Jha et al. 2013; Lenton and Storr 2015; Makker 2017).

이 수준의 개입의 예로는 [의료 전문가 간의 학습]을 촉진하기 위해 "건강 멘토"를 활용한 Arenson과 동료들의 연구(Arenson 외. 2015)가 있습니다. [최소 한 가지 이상의 장애 또는 만성 질환을 가진 환자와의 4가지 모듈 만남] [의대생 팀과 관련 직종 학생들 간의 팀워크 기회]를 제공했습니다. 이 연구는 품질 기준에 따라 적당히 잘 보고된 연구였으며, 그 결과 학생 팀 내에서 협업을 발전시키는 데 도움이 되는 것으로 나타났습니다. 이 범주에 속하는 단 한 건의 연구(Jha 외, 2015)만이 표준 교육과의 비교를 통해 '정당화'를 제공했으며, 쿠마가이의 공감과 도덕성 발달의 혁신적 학습 프레임워크를 사용하여 환자 내러티브가 참가자들의 정서적 반응을 불러일으켜 '의미 전달'에 어떻게 도움이 되는지 설명함으로써 '명료화'를 시도했습니다. 의사들의 안전 교육을 강화하기 위해 환자들이 의료 사고 또는 피해 경험을 공유한 이 무작위 대조군 임상시험(RCT)은 환자 안전에 대한 태도 변화라는 주요 목표에서 중재군과 대조군 간에 차이가 없는 것으로 나타났습니다. 
Examples of interventions at this level include Arenson and colleagues’ study (Arenson et al. 2015) which utilized “Health Mentors” to facilitate learning between health professionals. The 4 module encounter with patients, who had at least one disability or chronic health condition, provided an opportunity for teamwork between teams of medical students and students from allied professions. This was a moderately well-reported study according to our quality criteria and the results showed a benefit in developing collaboration within student teams. Only one study in this category (Jha et al. 2015) provided ‘justification’ by means of comparison with standard teaching, as well as attempting ‘clarification’ by using Kumagai’s transformative learning framework of empathy and moral development, by which they explained how the patient narratives helped ‘communicate meaning’ by evoking an emotional response among the participants. This randomized control trial (RCT), in which patients shared their experiences of medical errors or harm to enhance safety training amongst doctors, showed no difference between the intervention and control groups in its primary aim – to change attitudes towards patient safety.

[이 범주에 속하는 다른 연구 중 단 한 건만이 연구의 이론적 토대를 보고]했습니다(Cooper and Spencer-Dawe 2006). 이 질적 연구에서는 훈련된 서비스 사용자가 전문가 간 워크숍을 공동 진행하여 서로 다른 전문가 그룹의 학생들이 '협력적 실무에 대한 인식을 높이고 치료 전달의 효율성 향상과의 연관성을 높이기 위해 서로 배우고 서로에게서 배울 수 있도록' 했습니다. 자기 조직화, 연결성, 출현, 혼돈의 가장자리라는 [복잡성 이론]을 바탕으로 [선형성, 예측 불가능성, 자기 조직화, 연결성, 출현]이라는 주제를 도출해냈습니다. 학생들의 개인적인 경험과 서비스에 대한 참여('스토리')에 대해 듣는 경험은 전인적 치료를 제공할 때 환자 중심의 관점을 높이고 팀워크의 기반이 되는 이론적 개념을 더 잘 이해함으로써 전문가 간 통합, 파트너십 작업 및 팀워크를 향상시켰습니다 .
Only one other study in this category reported a theoretical underpinning for their study (Cooper and Spencer-Dawe 2006). In this qualitative study, trained service users co-facilitated inter-professional workshops to enable students from different professional groups to ‘learn with and from each other with a view to raising awareness about collaborative practice and its link to improving the effectiveness of care delivery.’ The underpinning complexity theory of self-organization, connectivity, emergence, the edge of chaos drew out the themes of linearity, unpredictability, self-organization, connectivity, and emergence. Students’ experience of hearing about users’ personal experiences and their involvement with services (their ‘stories’) enhanced inter-professional integration, partnership working and teamwork through a heightened patient-centered perspective in providing holistic care and a better understanding of the theoretical concepts underpinning teamwork.

교사/평가자로서의 환자
Patients as teachers/assessors

환자는 [특정 교육 역할에 대한 준비]가 주어지며 [피드백을 제공]하거나 학생의 [성과를 평가]할 수 있습니다. Towle 레벨 4에서 평가한 16개 연구 중 한 개를 제외한 모든 연구는 [실제 임상 검사 또는 평가 기술을 가르치는 교육개입]이었으며, 따라서 대조군 또는 중재(정당화)와 결과를 비교할 수 있는 경우가 많았습니다. 이 범주의 비교 연구 결과에 따르면 환자/서비스 이용자에 의한 교육이 [교수진에 의한 교육만큼 효과적]이며(Anderson and Meyer 1978; Kleinman 외. 1996; Hendry 외. 1999; Schrieber 외. 2000; Smith 외. 2000; Duffy 외. 2016), 일부 연구에서는 더 효과적인 것으로 나타났습니다(Branch 외. 1999; Haq 외. 2006; Livingstone 외. 1980).

  • 사전/사후 시험 결과 측정을 사용한 연구 중에서는 기술/지식 성취도가 증가한 것으로 나타났습니다. 예를 들어, Bideau와 동료들(Bideau et al. 2006)은 무릎과 손 검사에 대한 세션을 계획하고 가르치는 광범위한 교육을 받은 '환자 강사'(PI)를 고용했습니다. 이 연구는 세션의 커리큘럼과 내용을 포괄적으로 보고하여 향후 연구를 위해 이 연구를 재현할 수 있도록 했습니다. 이 연구는 학생들이 질병의 심리적, 정서적, 사회적, 직업적, 가족적 측면을 파악하는 능력이 현저히 향상되었으며, 이는 실제 환자와의 직접적인 접촉 때문일 수 있다고 제안했습니다.
  • 헨릭슨과 링스테드의 연구(Henriksen and Ringsted 2014)에서는 이전 연구에서 직접 고안한 이론적 모델을 사용한 질적 방법론을 사용하여 류마티스 전문의가 제공하는 교육을 PI와 비교하여 평가했습니다. 그들은 권력 관계 측면에서 PI와 학생의 관계가 교수진과 학생, 학생과 클리닉 환자 사이의 관계와 다르다는 것을 발견했습니다. 이러한 균형 잡힌 권력 관계는 학생들이 학습자의 역할을 수행하고 임상 환경에서 부적절하다고 인식되는 질문을 과감하게 할 수 있도록 정당화합니다. 이 연구는 이전 이론에서 나온 내용, 교육 형식, 권력 관계에 대한 민감성 개념을 명확히 하고 확인했을 뿐만 아니라 지식에 대한 협상의 새로운 개념인 경험적 또는 과학적 생물의학 지식을 도입했습니다.

The patient is given preparation for a specific teaching role and may give feedback or evaluate student performance. All but one of the 16 studies we assessed at Towle Level 4 were interventions which taught practical clinical examination or assessment techniques and, as such, were often able to compare outcomes with a control group or intervention (justification). Outcomes of the comparison studies in this category demonstrated that teaching by patients/service users is at least as effective (Anderson and Meyer 1978; Kleinman et al. 1996; Hendry et al. 1999; Schrieber et al. 2000; Smith et al. 2000; Duffy et al. 2016) as teaching by faculty and, in some studies, was shown to be more effective (Branch et al. 1999; Haq et al. 2006; Livingstone et al. 1980).

  • Of the studies which used a pre- and post-test outcome measure, these also showed an increase in skill/knowledge attainment. For example, Bideau and colleagues (Bideau et al. 2006) employed extensively-trained ‘Patient Instructors’ (PIs) who planned and taught sessions on examination of the knee and hand. This study comprehensively reported the curriculum and content of the sessions, enabling reproduction of this study for future research. It noted a marked improvement in students’ ability to grasp the psychological, emotional, social, professional and family aspects of the disease and suggested this may be due to the direct contact with real patients.
  • Henriksen and Ringsted’s study (Henriksen and Ringsted 2014) used a qualitative methodology using a theoretical model devised by themselves in a previous study to assess teaching delivered by rheumatologists compared with PIs. They found that, in terms of power relations, the PI-student relationship differs from those between faculty teachers and students, and students and patients in the clinic. This balanced power relationship legitimizes the students’ taking on the role of learners and daring to ask questions they perceive to be inappropriate to the clinical setting. This study clarified and confirmed the sensitizing concepts of content matter, pedagogical format and power relationship which had emerged from their earlier theory but also introduced a new concept of negotiations about knowledge – experiential or scientific biomedical knowledge.


이 범주의 연구 결과에 따르면 [환자를 교사 및 평가자로 활용하는 것]은 [표준화된 평가 체크리스트와 채점 기준을 구성]할 수 있을 때 [가장 효과적]이라고 합니다. 이러한 결과는 모든 레벨 4 연구에서 어느 정도 일관되게 나타났으며, 객관적 구조화 임상 검사(OSCE) 또는 후속 조치에서도 개선이 지속되지 않았다는 추가 연구 결과도 있습니다(Livingstone 외. 1980; Gruppen 외. 1996; Smith 외. 2000; Duffy 외. 2016). 
Results of the studies in this category suggest that utilizing patients as teachers and assessors work best when it is possible to construct standardized assessment checklists and scoring criteria. This finding was more or less consistent across all of the Level 4 studies, with a further finding that, when tested, the improvements were not sustained at objective structured clinical examination (OSCE) or follow up (Livingstone et al. 1980; Gruppen et al. 1996; Smith et al. 2000; Duffy et al. 2016).

동등한 파트너로서의 환자
Patients as equal partners

환자 튜터는 교육 전달, 개발 및 평가의 여러 측면에 관여합니다. 소비자를 튜터로 묘사한 연구 2편(Owen and Reay 2004, Towle and Godolphin 2013)만이 환자 교사를 동등한 파트너로 묘사하여 Towle의 분류법에서 레벨 5로 분류되었습니다.

  • Owen과 Reay(2004)의 연구에서 소비자 튜터는 학생 커리큘럼을 작성하는 운영 위원회의 일원으로 계획, 개발, 실행 및 평가의 모든 측면에 참여했습니다. 이 연구는 4학년 의대생을 위한 커리큘럼을 제공하는 데 있어 환자-교사가 동등한 파트너로서 참여하여 효과적인 면담 접근 방식을 통해 의학교육에 의미 있고 가치 있는 기여를 하고 있음을 명확하게 설명했습니다.
  • Towle과 Godolphin(2013)의 연구에서는 만성 질환을 앓고 관리하기 위한 전문가 간 교육 워크숍을 설계, 제공 및 평가하는 데 있어 소비자 교육자와 그들의 고유한 역할에 대해 설명합니다. 이 워크숍은 소비자 교육자가 자문 그룹의 일원으로 교수진의 의견을 수렴하여 설계했지만 교수진이 교육을 중재하거나 통제하지는 않았습니다.
  • 이 범주에 속하는 Towle의 연구만이 결과의 근거가 되는 이론적 근거를 활용했습니다. 이들은 환자가 교사인 환자 중심주의 프레임워크를 사용하여 환자를 교육자로 활용하는 전문가 간 교육 프로그램을 연구했으며, 특히 환자의 경험과 전문성이 어떻게 힘의 불균형을 줄이고 학습을 향상시키는지 명확히 했습니다. 

Patient tutors are involved in many aspects of educational delivery, development, and evaluation. Only 2 studies (Owen and Reay 2004; Towle and Godolphin 2013), which described consumers as tutors, were categorized as Level 5 on Towle’s Taxonomy – patient teachers as equal partners.

  • In Owen and Reay’s (2004) study, consumer tutors were involved in all aspects of planning, development, implementation, and evaluation as part of a steering committee that authored the student curriculum. This study gave a clear description of patient-teachers being involved as equal partners in the delivery of a curriculum for 4th-year medical students in effective approaches to interviewing and making a meaningful and valued contribution to medical education.
  • Towle and Godolphin’s (2013) study describe Consumer Educators and their unique role in designing, delivering and evaluating inter-professional educational workshops on living with and managing chronic conditions. The workshops were designed by the Consumer Educators, with input from faculty as part of an Advisory Group, but faculty did not mediate or control the teaching. Only Towle’s study in this category utilized a theoretical basis on which to base the outcomes. They used a patient-centeredness framework, where the patient is the teacher, to study a program of interprofessional education using patients as educators, specifically to clarify how the experience and expertise of patients reduce the power imbalance and enhances learning.

39건의 연구 중 환자 파트너가 기관 정책의 지원을 받아 기관 차원에서 참여하는 레벨 6의 증거는 찾지 못했습니다.
We did not find evidence of Level 6 within the 39 studies, whereby patient partners are involved at the institutional level with the support of institutional policies.

 

학습자를 위한 혜택(Kirkpatrick의 교육 평가 수준 사용)
Benefits for learners (using Kirkpatrick’s levels of training evaluation)

9개의 연구는 [Kirkpatrick 레벨 1(교육 중재의 질 또는 수용 가능성에 대한 학습자의 반응)만 보고]하고 교육 중재의 결과에 대한 다른 측면을 평가하지 않은 것으로 평가되었습니다. 이러한 연구는 대체로 의학교육에 환자를 참여시킴으로써 얻을 수 있는 실용성과 이점을 평가하는 타당성 연구였으며, 대체로 환자 중심 진료에 대한 수련의의 인식을 개선하기 위해 환자를 참여시키는 것이 실현 가능하고 실용적이라는 결론을 내렸습니다. 총 29개의 연구에서 레벨 1의 결과를 보고했지만, 다음 텍스트에 설명된 대로 더 높은 수준의 결과를 보고한 연구도 많았습니다.
Nine of the studies were assessed as reporting Kirkpatrick level 1 only (learner reactions to the quality or acceptability of the intervention), and not attempting to assess any other aspect of the outcome of the educational intervention. These were generally feasibility studies which assessed the practicalities and benefits of involving patients in medical education and usually concluded that involving patients was both feasible and practical in attempting to enhance trainees’ perceptions of patient-centered care. In total, 29 studies reported outcomes at level 1, but many also reported further outcomes as described in the following text.

16개 연구는 [Kirkpatrick 레벨 2a(중재 후 태도 또는 인식의 변화)를 보고]했습니다. 이 연구들은 다양한 연구 방법론(RCT, 관찰, 정성적, 사전/사후 테스트)을 사용했습니다. 이 연구 중 5건은 Towle의 분류법 중 4단계 이상에 해당합니다(Gruppen 외. 1996, Farber 외. 2003, Owen and Reay 2004, Towle and Godolphin 2013, Henriksen and Ringsted 2014). 이는 환자가 교사로서, 종종 평가자로서 교육 개입에 깊이 관여했음을 나타냅니다.

  • Farber의 연구에서는 암 환자들이 자신의 사례 기록을 활용하여 내과 레지던트에게 '나쁜 소식 속보' 개념을 가르쳤습니다. 이 사전 및 사후 연구에서는 4점 리커트 척도 설문지를 사용하여 환자에게 나쁜 소식을 전하는 것에 대한 11개 항목에 대한 응답을 수집했습니다. 그 결과, 참가자들은 환자에게 희망을 전달하기, 환자의 상태에 대한 초기 이해 확인, 감정 표현 장려 등 세 가지 영역에서 환자에 대한 공감 능력이 향상된 것으로 나타났습니다.
  • Owen과 Reay(2004)의 연구에서 소비자는 커리큘럼의 계획, 제공 및 평가의 모든 측면에 참여했습니다. 이 연구의 주요 결과는 소비자 참여자들 사이에서 의학교육에서 인터뷰 기술을 가르치는 정당한 교사로서의 위상을 높였다는 것입니다.

16 studies reported Kirkpatrick Level 2a (modification of attitudes or perceptions following the intervention). These employ different research methodologies (RCT, observational, qualitative and pre/post-test). Five of these studies also reached Towle’s taxonomy of 4 or above (Gruppen et al. 1996; Farber et al. 2003; Owen and Reay 2004; Towle and Godolphin 2013; Henriksen and Ringsted 2014) indicating that the patient was deeply involved in the educational intervention as teacher and, often, as assessor.

  • Farber’s study involved cancer patients using their own case histories to teach ‘breaking bad news’ concepts to internal medicine residents. This pre- and post-test study used a four-point Likert scale questionnaire to gather responses to 11 items on giving bad news to patients. The results indicated that the participants gained enhanced empathy towards patients in three areas: ensuring they convey hope to the patient; ascertaining the patient’s initial understanding of their condition and encouraging the expression of feelings.
  • In Owen and Reay’s (2004) study consumers were involved in all aspects of the planning, delivery, and evaluation of the curriculum. The main outcome of the study was that it raised the profile amongst participants of consumers as legitimate teachers of interviewing skills in medical education.

[Kirkpatrick 수준 2b(지식 또는 기술 향상)의 결과를 보고]한 15개 연구 중 대다수(14개 연구)는 전통적인 정량적 데이터 수집 방법론인 RCT, 사전/사후 시험 설계 또는 비교 그룹을 사용하여 임상 또는 신체 검사 기술에 대한 참가자의 접근 방식을 측정했습니다.

  • Duffy 등(2016)의 RCT에서는 숙련된 산부인과 교육 보조원(GTA)이 의대생에게 부인과 검사 술기 세션을 제공하여 학생들의 지식, 편안함, 자신감이 향상되었음을 보여주었으며, 중재 그룹과 대조 그룹 간 OSCE 총점에는 큰 차이가 없었습니다.
  • 나머지 연구(Graham 외. 2014)에서는 투렛 증후군 환자를 대상으로 인터뷰 또는 병력 청취 기술을 연구하기 위해 질적 접근법을 사용했으며, 참가자의 [증후군에 대한 지식]이 향상되고 환자에 대한 [공감과 인본주의적 접근]이 증가했다고 보고했습니다.

Of the 15 studies that reported outcomes at Kirkpatrick level 2b (increased knowledge or skills) the majority (14 studies) measured participants’ approaches to the clinical or physical examination skills using traditional quantitative data capture methodologies – RCTs, pre-and post-test designs or comparison groups.

  • Duffy et al’s (2016) RCT involved trained Gynecology Teaching Associates (GTAs) delivering gynecological examination skills sessions to medical students which demonstrated improvements in students’ knowledge, comfort, and confidence, with no significant difference in summative OSCE scores between the intervention and control groups.
  • The remaining study (Graham et al. 2014) used a qualitative approach to study interviewing or history taking skills amongst patients with Tourette Syndrome and reported an improvement in participants’ knowledge of the syndrome, along with an increase in empathy and humanistic approach to these patients.

커크패트릭의 환자 또는 사용자 참여 계층 구조에서 3단계 또는 4단계에 해당하는 결과, 즉 기술을 실무에 적용하거나 조직 전반의 실무 변화를 이끌어낸 연구 결과는 보고되지 않았습니다. 일부 연구에서는 중재 후 참가자를 추적 관찰하려고 시도했지만(Anderson and Meyer 1978; Gruppen 외. 1996; Duffy 외. 2016), 참가자와 관련된 결과만 평가했을 뿐 의료 교육에 대한 환자 참여에 대한 조직의 태도나 연구로 인한 환자 혜택에 대한 중재의 이점을 평가하지는 않았습니다.
No studies reported outcomes at levels 3 or 4 of Kirkpatrick’s hierarchy of patient or user involvement – transferal of skills into practice or leading to a change in practice across an organization. Some studies attempted to follow up the participants after the intervention (Anderson and Meyer 1978; Gruppen et al. 1996; Duffy et al. 2016), but only assessed the outcomes relating to the participants – they did not assess the benefit of the intervention on organizational attitudes to patient involvement in medical education or the benefit to patients that resulted from the study.

연구 방법론
Study methodology

대부분의 연구는 포커스 그룹 또는 인터뷰와 같은 [질적 방법론을 사용]했습니다. 이러한 방법론은 개입의 영향에 대한 정량적 분석을 허용하지 않지만, 향후 연구에서 연구 결과를 바탕으로 의학교육에 대한 환자 참여에 대한 보다 명확한 관점을 만들 수 있는 매우 풍부한 경험적 데이터의 원천이 될 것입니다. 이 연구는 전문성, 의사소통, 건강과 질병에 대한 태도, 면담 기술 및 역량, 환자 중심주의, 전인적 치료 등의 문제를 환자 또는 서비스 사용자를 교육 개입에 활용하여 효과적으로 가르칠 수 있는 방법을 보여주었습니다.
The majority of studies used a qualitative methodology – focus groups or interviews. Whilst these do not allow for quantitative analysis of the impact of the interventions they are an extremely rich source of experiential data which will allow future studies to build on the findings and create a clearer perspective on patient involvement in medical education. These studies demonstrated how issues of professionalism, communication, attitude towards health and illness, interviewing skills and competencies, patient-centredness and holistic care could effectively be taught using patient or service users in the educational intervention.

사전 및 사후 연구에서는 몇 가지 기준 측정을 수집한 후 교육이 [학습의 어떤 측면에 영향을 미쳤는지]에 대한 결론을 도출할 수 있었습니다. 그러나 [개입의 어떤 측면이 변화를 가져왔는지]는 밝혀내지 못했습니다. 대조군 설계를 사용한 7개의 연구에서는 환자를 대상으로 한 교육과 일반적으로 사용되는 표준 교육 방법을 비교할 수 있었습니다. Jha 등(2013)을 제외한 모든 연구에서 환자 참여 교육이 적어도 표준 교육 방법만큼 효과적이라는 결론을 내렸습니다.
Pre-and post-test studies collected several baseline measures and were then able to draw conclusions on whether the training had led to an impact on any aspect of learning. However, they do not determine which aspect of the intervention led to the change. The seven studies which used a control group design enabled comparisons to be made between the teaching involving patients and the standard teaching methods normally employed. In all of these, except Jha et al. (2013), the studies concluded that involving patients was at least as effective as standard teaching practices.

무작위 배정 방법은 명시되지 않았지만 RCT로 분류된 연구는 4편에 불과했습니다. 이 중 2건(Hendry 등, 1999; Duffy 등, 2016)은 환자 주도 교육이 학습 결과에 중간 정도의 영향을 미친다고 결론지었고, Jha 등(2015)은 환자 주도 교육이 교수 주도 교육보다 더 효과적이지 않다고 결론지었으며, Humphrey-Murto 등(2004)은 환자 주도 교육이 교수 주도 교육보다 MSK 시험에 더 효과적이라는 사실을 발견했습니다.  
Only four studies classified themselves as RCTs, although the method of randomization was not stated. Of these, two (Hendry et al. 1999; Duffy et al. 2016) concluded that patient-led teaching had a moderate effect on learning outcomes, Jha et al. (2015) concluded that patient-led teaching was no more effective than faculty-led teaching and Humphrey-Murto et al. (2004) found that faculty-led teaching was more effective in MSK examination than patient-led teaching.

학습자 유형 및 상황
Learner type and context

포함된 연구 중 높은 비율(77%)이 학부 의대생만을 학습자 그룹으로 포함했습니다. 이 중 11개는 임상 전 단계, 19개는 임상 단계에 있었습니다. 
A high proportion (77%) of the included studies involved solely undergraduate medical students as the learner group. Of these, 11 were in their pre-clinical years and 19 were in their clinical years.

대학원생의 지속적인 전문 교육에 초점을 맞춘 연구는 6건에 불과했으며, 학부생과 대학원 수련생을 모두 포함한 연구는 2건이었습니다. 
Only six studies focused on the continuing professional education of postgraduates, with two studies including both undergraduate and postgraduate trainees.

임상 전문 분야
Clinical specialty

연구는 근골격계(11개 연구), 장기/만성 건강 상태(10개 연구), 정신 건강(3개 연구), 부인과(3개 연구), 암(2개 연구), 기타 또는 지정되지 않음(11개 연구)의 6가지 주요 임상 전문 분야로 분류할 수 있습니다. 
The studies could be grouped into 6 major clinical specialties: musculoskeletal (11 studies), long-term/chronic health conditions (10 studies), mental health (3 studies), gynecology (3 studies), cancer (2 studies), other or not specified (11 studies).

[근골격계 및 부인과 연구]에서 중재는 일반적으로 응용 기술, 즉 특정 관절 검사 기술을 가르치는 것으로 구성되었으며, 환자는 교육, 평가 및 피드백에 어느 정도 관여했습니다. 14개 연구 중 5개 연구(Gruppen 외. 1996, Kleinman 외. 1996, Bideau 외. 2006, Haq 외. 2006, Duffy 외. 2016)는 질병의 심리적, 기능적 영향에 특별히 중점을 둔 병력 청취 또는 환자 중심의 공감 통합, 학생의 편안함과 자신감 증진 등 단순한 관절 검사 교육 이외의 요소를 구체적으로 탐구하고자 했습니다. 이러한 연구 중 10개의 연구에서 결론은 [훈련된 환자에 의한 술기 교육이 적어도 교수진에 의한 교육만큼 효과적]이라는 것이었지만, 단 하나의 연구에서는 류마티스내과 교수진이 환자 파트너보다 MSK 신체검사를 더 효과적으로 가르친다는 다른 결과가 나왔습니다(Humphrey-Murto 외. 2004). 
In the musculoskeletal and gynecology studies the intervention generally consisted of applied techniques, i.e. the teaching of a specific joint examination technique, with the patient being involved to a greater or lesser extent in the teaching, assessment, and feedback. 5 of the 14 studies (Gruppen et al. 1996; Kleinman et al. 1996; Bideau et al. 2006; Haq et al. 2006; Duffy et al. 2016) specifically sought to explore elements other than simply joint examination teaching: for example, history taking with a special emphasis on the psychological and functional impact of the disease or incorporating patient-centred empathy and increasing student comfort and confidence. The conclusion in 10 of these studies was that skills teaching by trained patients were at least as effective as training by faculty whereas just one study had a different finding and concluded that rheumatology faculty were more effective teachers of the MSK physical examination than patient partners (Humphrey-Murto et al. 2004).

[장기 건강 상태와 관련된 교육]에 환자가 참여하는 것은 10건의 연구의 주제였으며, 학생/수련의가 장기 질환 관리에 대한 환자의 생생한 경험을 탐구하고, 의사-환자 관계를 더 잘 이해하거나, 환자 치료에 대한 학제 간 접근법을 탐구할 수 있도록 하는 것이 그 목적이었습니다. 
Patient involvement in teaching related to long term health conditions was the subject of 10 studies, the purpose of which was to allow the students/trainees to explore patients’ lived experiences of managing a long-term condition, gain a greater understanding of the doctor-patient relationship, or explore interdisciplinary approaches to patient care.

나머지 연구에서는 정신 건강, 심혈관 질환, 당뇨병, 신장 질환을 포함하거나 단순히 의료 사용자의 개인적인 경험과 수련생이 면담 기술, 공감 능력, 환자 중심 치료에 대한 태도를 습득하는 데 도움이 되는 실제 역할에 초점을 맞춘 연구로 건강 상태를 명시하지 않았습니다. 
In the remaining studies, the health conditions included mental health, cardiovascular disease, diabetes, kidney conditions, or simply were not stated as the studies concentrated on the personal experiences of healthcare users and their authentic role in helping trainees gain skills in interviewing techniques, empathy, and attitudes towards patient-centered care.

포함된 연구의 방법론적 품질
Methodological quality of included studies

질 평가 방법에는 보고된 교육의 질을 판단하기 위해 시각적 RAG 순위 시스템을 통합했습니다(방법 섹션 참조). 
The quality assessment method incorporated a visual RAG ranking system to judge the quality of the reported education in question (see methods section).

이론적 토대 측면에서 이 기준을 충족하여 녹색(높은 질) 등급을 받은 연구는 4편에 불과했습니다(Cooper and Spencer-Dawe 2006, Towle and Godolphin 2013, Henriksen and Ringsted 2014, Jha 외. 2015).

  • 쿠퍼와 스펜서-도웨는 복잡성 이론을 기본 이론으로 선택했으며, 자기 조직화, 연결성, 출현, 혼돈의 가장자리라는 네 가지 원칙을 사용하여 프로젝트 개발을 안내한 다음 선형성, 예측 불가능성, 자기 조직화, 연결성, 출현의 다섯 가지 영역을 사용하여 논의했습니다(Cooper and Spencer-Dawe 2006).
  • Henriksen과 Ringsted는 구성주의 이론을 기반으로 연구를 진행했으며, 환자-교사-학생 간의 권력 균형을 탐구한 이전 모델에서 민감성 개념을 도출했습니다(Henriksen and Ringsted 2014).
  • Jha와 동료들은 쿠마가이가 제안한 변혁적 학습의 개념적 틀을 사용하여 환자의 감정적 이야기를 의도적으로 사용하여 교육생의 학습 경험을 향상시키고 학습자가 환자의 관점에서 안전에 대해 더 잘 이해할 수 있도록 했습니다(Jha 외. 2015).
  • Towle과 Godolphin은 환자를 교육자로 활용하는 전문가 간 교육 프로그램, 특히 환자의 경험과 전문성이 어떻게 힘의 불균형을 줄이고 학습을 향상시키는지 연구하기 위해 환자 중심주의에 대한 Bleakley와 Bligh 프레임워크를 사용했습니다(Towle and Godolphin 2013).

In terms of theoretical underpinning, only four studies achieved a ranking of green (high quality) for the reporting of these criteria (Cooper and Spencer-Dawe 2006; Towle and Godolphin 2013; Henriksen and Ringsted 2014; Jha et al. 2015).

  • Cooper and Spencer-Dawe chose complexity theory as their underpinning theory and the four principles of self-organization, connectivity, emergence, edge of chaos were used to guide the development of the project, which they then went on to discuss using five areas of a-linearity, unpredictability, self-organization, connectivity, and emergence (Cooper and Spencer-Dawe 2006).
  • Henriksen and Ringsted based their study on constructionist theory and drew sensitizing concepts from a prior model which explored the power balance between patient-teachers and students (Henriksen and Ringsted 2014).
  • Jha and colleagues used the conceptual framework of transformative learning suggested by Kumagai to deliberately use emotional stories from patients to enhance the learning experience of trainees and to provide the learners with a greater understanding of safety from the patient’s perspective (Jha et al. 2015).
  • Towle and Godolphin used the Bleakley and Bligh framework of patient-centredness to study a program of interprofessional education using patients as educators, specifically to determine how the experience and expertise of patients reduce the power imbalance and enhances learning (Towle and Godolphin 2013).

[커리큘럼에 대한 설명]은 6개의 연구(Owen and Reay 2004, Bideau 외. 2006, Towle and Godolphin 2013, Arenson 외. 2015, Jha 외. 2015, Duffy 외. 2016)에서 충분히 기술되었지만 나머지 연구에서는 커리큘럼 또는 강의 계획서에 대한 설명이 향후 연구에서 연구를 정확하게 재현하는 데 필요한 깊이나 세부 수준이 부족하다고 느꼈습니다. 마찬가지로 모든 연구에서 개입의 교육법, 환경 및 내용에 대한 충분한 세부 정보가 포함된 것은 아닙니다. Cahill 등(2015), Duffy 등(2016), Jha 등(2015), Owen과 Reay(2004), Towle과 Godolphin(2013)만이 위의 기준에 가장 근접하게 설명했습니다. 이러한 연구들은 각 개입에 대한 요구 사항을 상당히 포괄적으로 설명하여 유사하거나 다른 맥락의 학습자를 대상으로 연구를 복제하여 이론을 테스트하고 개념적 틀을 더욱 발전시킬 수 있습니다. 
Description of the curriculum was sufficiently described in six studies (Owen and Reay 2004; Bideau et al. 2006; Towle and Godolphin 2013; Arenson et al. 2015; Jha et al. 2015; Duffy et al. 2016), but in the remaining studies we felt the description of the curriculum or syllabus lacked the depth or level of detail required for accurate replication of the study in future research. Similarly, not all studies included sufficient details of the pedagogy, setting, and content of the intervention. Only Cahill et al. (2015), Duffy et al. (2016), Jha et al. (2015), Owen and Reay (2004), and Towle and Godolphin (2013) achieved close to an optimum description of the above criteria. These studies describe fairly comprehensively the requirements for each of their interventions so that the study could be replicated with learners in a similar or different context to test their theories and further develop their conceptual frameworks.

토론
Discussion

의학교육에서의 환자 참여에 관한 문헌에 대한 이전 검토(Morgan and Jones 2009)가 발표된 이후, 이 검토에서 확인된 새로운 연구가 최소 18건 이상 있었습니다. 
Since the publication of a previous review of the literature around patient involvement in medical education (Morgan and Jones 2009), there have been at least 18 new studies identified in this review.

교육에 대한 환자/서비스 이용자의 참여 수준과 관련하여, 본 검토에 따르면 많은 수의 연구에서 [이용자가 교육, 평가 및 평가에 기여하고(Towle 레벨 4 - 16개 연구)] [학생들과 직접 경험을 공유하는 것(Towle 레벨 3 - 17개 연구)]의 타당성을 입증하고 있는 것으로 나타났습니다. 향후 연구에서는 환자/서비스 사용자가 더 높은 수준, 즉 교육 커리큘럼 개발, 제공 및 평가에 동등한 파트너로서 참여하는 것을 다루어야 하며, 이는 Towle과 Godolphin(2013), Owen과 Reay(2004)의 연구에서 이것이 가능하고 성공할 수 있음을 보여주었습니다. 
With regard to the level of involvement of patients/service users in education, our review shows that a high number of studies are demonstrating the feasibility of users contributing to teaching, assessing and evaluating (Towle level 4 – 16 studies) and also in sharing their experiences directly with students (Towle Level 3 – 17 studies). Future research should address the involvement of patients/service users at a higher level i.e. as equal partners in developing, delivering and assessing educational curricula, as the studies by Towle and Godolphin (2013) and Owen and Reay (2004) have shown that this is possible and can be successful.

Morgan과 Jones의 검토에 따르면 대부분의 연구에서 학습자의 지식, 기술 및 태도에 즉각적인 영향을 미치는 Kirkpatrick 레벨 2의 결과를 평가하는 것으로 나타났습니다. 이번 검토에서도 비슷한 결과가 나타났는데, 레벨 2(학습에 미치는 영향)의 결과를 평가하는 연구 수가 더 많다는 것은 의학교육자들이 사용자 참여가 학생의 태도와 술기에 미치는 영향을 평가하려고 시도하고 있지만 이러한 [학습을 내재화하는 방법], 즉 실제 행동에 미치는 영향을 입증하여 환자 진료에 변화를 가져오는 방법을 아직 찾지 못하고 있음을 보여줍니다. 
Morgan and Jones’s review found the majority of studies to evaluate outcomes at Kirkpatrick Level 2 – immediate impact on learner knowledge, skills, and attitudes. Our review found similar, with the higher number of studies in our current review which evaluate outcomes at Level 2 (impact on learning) demonstrating that medical educators are attempting to evaluate the impact of user involvement on student attitudes and skills but are still not finding ways to embed this learning, i.e. demonstrate an impact on behavior in practice, and thus make a difference to patient care.

대부분의 연구는 [학부생을 대상으로 진행]되었습니다. 이러한 결과는 서비스 제공과 다방면의 전문적, 관리적, 리더십 개발의 균형을 맞춰야 하는 대학원 교육 커리큘럼의 과중한 부담으로 인해 연구를 통합하기 위해 대학원 교육 프로그램을 재설계할 때 발생하는 문제점을 반영하는 것일 수 있습니다. 또한 환자와 함께 일하는 대학원생에게 환자 참여는 암묵적인 것으로 간주될 수 있기 때문에 이러한 연구는 추진되지 않을 수 있습니다.
Most of the studies were of undergraduates. These findings perhaps reflect the problems in redesigning postgraduate training programs to incorporate research, due to increasingly overburdened curricula in postgraduate education, which need to balance service delivery and multi-faceted professional, managerial and leadership development. Additionally, as patient involvement may be seen as implicit for postgraduates working with patients, such studies may not be pursued.

중재에 대한 실제 1차 연구 보고의 전반적인 질은 좋지 않았습니다. 지난 10년간 발표된 연구 중 절반인 39건이 [실제 개입을 이해하거나 전파할 수 있을 만큼 충분한 내용]을 담은 연구가 1/5도 되지 않는다는 사실은 매우 실망스러운 결과입니다. 이론의 경우, 개입이 특정 방식으로 전개된 방법이나 이유를 이해할 수 있는 근거를 제공하는 수준 높은 연구로 평가된 것은 단 4건에 불과했습니다. 안타깝게도 이는 BEME 리뷰에서 종종 확인되는 이 분야의 만연한 문제이지만, 독자들이 '그래서 뭐냐'고 묻는 연구를 출판하는 데 대한 변명은 되지 못합니다. 물론 이는 왜 연구들이 이러한 주요 결과를 보고하지 않는지에 대한 의문을 제기합니다. 이 질문에 답할 수 있는 세 가지 가능성이 있습니다.

  • 첫째, 저자가 단순히 일부 데이터를 발표하지 않기로 결정했을 수 있으며, 이는 잘 보고된 문제입니다(Hoffman 외. 2013).
  • 둘째, 출판되지 않은 것은 이론을 고려하지 않았거나 콘텐츠가 의미 있는 방식으로 제작되지 않아 교육의 질이 낮음을 시사하는 등 그러한 고려가 이루어지지 않았기 때문일 수 있습니다.
  • 세 번째는 두 가지 모두에 해당할 수 있으며, 출판된 것보다 더 많은 연구가 있지만 저자가 출판할 수 있을 만큼 충분한 수준은 아닐 수도 있습니다. 안타깝게도 증거 기반을 전체적으로 고려할 때는 이용 가능한 것만 고려할 수 있으므로 향후 교육 및 연구 작업에 대한 이 분야의 증거의 유용성이 크게 제한됩니다. 

The overall quality of the actual primary study reporting of interventions was poor. With 39 studies published, half in the last 10 years, the fact that less than a fifth of studies presented sufficient content to allow their actual intervention to be understood or disseminated is extremely disappointing. When it comes to theory, just four studies were judged as high quality, providing underpinning that allows understanding of how or why interventions were deployed in a particular manner. This is, unfortunately, a pervasive problem in the field that BEME reviews often identify, but this is simply not an excuse for publishing studies that leave readers asking ‘so what.’ This, of course, raises the question as to why studies do not report such key outcomes. There are three possibilities in answering the question.

  • Firstly, the authors simply may have chosen not to publish some data, a problem well reported (Hoffman et al. 2013).
  • Secondly, the lack of publishing may be because such considerations have not been made, with either theory not considered or content not produced in any meaningful way, suggesting low-quality education.
  • The third option could be elements of both, with perhaps some more work available than published, but not at a sufficient standard that the authors felt able to publish. Unfortunately, when considering the evidence base as a whole, we can only consider what is available and therefore this significantly limits the utility of the evidence in this area for future teaching and research works.

Cook 등(2008)의 분류의 맥락에서 볼 때, 우리의 초기 '무엇을', '어떻게', '왜'라는 질문에 답할 수 있는 연구는 제한적입니다.

  • 이를 차례로 고려할 때, 커리큘럼(무엇을)에 대한 설명은 단 6개의 연구에서, 교육학, 환경 및 개입의 내용은 이 리뷰에서 단 5개의 연구에서 충분히 설명되었습니다(표 3의 RAG 등급 참조). 이러한 간단하지만 중요한 개입의 속성이 없다면, 일차 문헌의 독자는 물론 이 리뷰의 독자가 보고된 개입의 본질에 대한 통찰력을 얻는 것은 불가능합니다. 이는 역설적이지만 안타깝게도 교육 문헌에서 흔히 발견되는 현상입니다(Gordon 2016). 그러나 이는 이 주제의 맥락에서 유용성을 가로막는 더 중요한 장벽이며, 이 분야 전반에 걸쳐 완전히 확립되지 않았고 계속 진화하고 있습니다.

Within the contexts of Cook et al’s (2008) classification, there is limited work to answer our initial ‘what,’ ‘how,’ and ‘why’ questions.

  • Considering these in turn, description of the curriculum (what) was sufficiently described in just 6 studies and pedagogy, setting and content of the intervention described in just 5 studies in this review (see RAG ratings in Table 3). Without these simple, but crucial attributes of interventions, it is impossible to readers of the primary literature and in turn readers of this review to have any insight into the nature of the interventions reported. This is a paradoxical, but unfortunately common finding within the education literature (Gordon 2016). But this is a more important barrier to utility in the context of this topic, which is not established fully throughout the field and is evolving.

또한 검토 결과, 특정 개입이 '어떻게' 또는 '왜' 효과가 있는지에 대한 답을 시도한 연구는 거의 없었습니다. 39개의 연구 중 4개 연구만이 연구 결과를 제시하기 위한 근거 이론이나 프레임워크를 설명했습니다. 이러한 연구는 결과를 학습 이론에 매핑하고 개입이 효과가 있는 이유를 설명함으로써 의학교육에 대한 이해를 증진하는 데 필요합니다. 우리가 평가한 연구에 사용된 이론은 복잡성 이론(Cooper and Spencer-Dawe 2006), 구성주의 이론(Henriksen and Ringsted 2014), 변혁적 학습(Jha 외. 2015), 사회문화적 학습 이론(Towle 외. 2014) 등입니다. 이러한 연구는 학습 이론을 교육 프로그램에 적용하여 수련의와 환자 간의 힘의 균형을 맞추고, 환자가 교육 역할을 맡고 수련의는 책임감 있는 유능한 전문가의 역할을 맡지 않고도 환자에게 질문할 수 있도록 하는 방법을 보여주었습니다. 또한, 학습 이론은 공감과 환자 중심주의의 개념을 설명하고 환자와 관련된 교육적 개입에 대한 인문학적 접근이 어떻게 의학의 의미와 의료 개입에 대한 정서적 반응에 대한 이해를 높이고 궁극적으로 학습자가 환자와 더 잘 동일시할 수 있도록 하는지를 보여주는 데 도움이 됩니다. 
Our review also shows that very few studies have attempted to answer the question ‘how’ or ‘why’ a particular intervention work. Of the 39 studies included only 4 of them described an underpinning theory or framework with which to present their findings. Such studies are required to advance our understanding of medical education by mapping outcomes to learning theories and explain why an intervention works. The theories used in the studies we evaluated were complexity theory (Cooper and Spencer-Dawe 2006), constructionist theory (Henriksen and Ringsted 2014), transformative learning (Jha et al. 2015), socio-cultural learning theory (Towle et al. 2014). These studies demonstrated how learning theories can translate into pedagogical programs to create a power balance between trainee and patient, empowering patients to take on a teaching role and the trainee to be able to question patients without needing to be in the role of responsible competent professional. Additionally, learning theories help to explain the concepts of empathy and patient-centredness and demonstrate how a humanistic approach to an educational intervention involving patients can lead to an enhanced understanding of the meaning of medicine and the emotional response to medical intervention and, ultimately, allow learners to better identify with the patient.

의료 교육에서 서비스 사용자의 참여 범위가 증가하고 있다는 분명한 증거가 있습니다. 이러한 연구에 참여한 여러 기관에서 환자 또는 서비스 사용자의 의료 교육 참여를 보장하기 위해 [공식적인 사용자 참여 그룹을 설립]했다는 점은 고무적입니다. 위스콘신 대학교(Arenson 외. 2015)는 2007년부터 건강 멘토 프로그램을 교육에 통합하고 있으며, 태즈메이니아의 론체스톤 임상학교(Barr 외. 2014)는 8년 이상 환자 파트너 프로그램을 설립했고, 리버풀 대학교는 의료 교육에서 사용자 참여에 핵심적인 역할을 하는 보호자 및 서비스 사용자 포럼(FOCUS) 그룹을 운영하고 있습니다(Cooper and Spencer-Dawe 2006). 환자 또는 사용자 참여를 촉진하기 위해 유사한 공식 그룹을 운영하는 다른 기관으로는 코펜하겐 대학교(Henriksen and Ringsted 2014), 네브래스카 대학교(Hinners and Potter 2006), 노스캐롤라이나 의과대학(Kleinman 외. 1996), 호주 퀸즐랜드 대학교(Lane 외. 2015), 애리조나 대학교(Mohler 외. 2010), 시드니 대학교(Owen and Reay 2004), 브리티시 콜롬비아 대학교(Towle and Godolphin 2013; Towle 외. 2014) 등이 있습니다.
There is clear evidence of an increased range of service user involvement in medical education. What is encouraging to note is that several institutions in these studies have established formal user engagement groups to ensure patient or service user involvement in medical education. The University of Wisconsin (Arenson et al. 2015) has been incorporating the Health Mentors Program into their teaching since 2007, the Launceston Clinical School in Tasmania (Barr et al. 2014) has established a Patient Partner program for over 8 years, the University of Liverpool has a Forum of Carers and Users of Services (FOCUS) group which plays a key role in user involvement in healthcare education (Cooper and Spencer-Dawe 2006). Other institutions which have similar formal groups to promote patient or user involvement are the University of Copenhagen (Henriksen and Ringsted 2014), the University of Nebraska (Hinners and Potter 2006), North Carolina Medical School (Kleinman et al. 1996), University of Queensland, Australia (Lane et al. 2015), University of Arizona (Mohler et al. 2010), University of Sydney (Owen and Reay 2004), University of British Columbia (Towle and Godolphin 2013; Towle et al. 2014).

이전 출판물(Department of Health 2007, Morgan and Jones 2009, Spencer et al. 2011)의 결과를 반영하여 학생과 수련의의 교육 및 평가에 환자를 참여시키면 몇 가지 이점이 있다는 것을 발견했습니다.

  • 학습자의 경우 환자 중심 진료와 질병이 일상생활에 미치는 영향에 대한 인문학적 측면에 대한 이해가 향상되고, 검사 및 병력 청취 기술에 대한 자신의 지식에 대한 자신감이 높아지며 환자/서비스 사용자가 참여하는 세션이 즐겁다고 보고했습니다.
  • 환자들은 자신의 개인적인 경험을 의료 교육에 활용함으로써 만족감을 느끼고 자신의 건강이나 질병에 대한 지식에 대한 자신감이 높아지는 등의 이점을 누릴 수 있습니다.

Reflecting the findings of previous publications (Department of Health 2007; Morgan and Jones 2009; Spencer et al. 2011) we have found that involving patients in the teaching and assessing of students and trainees has several benefits:

  • for learners their understanding of patient-centered care and the humanistic aspect of the impact of illness on everyday life is enhanced,
  • they report greater confidence in their own knowledge of examination and history taking skills and they enjoy sessions where patients/service users are involved.
  • The benefits for patients include satisfaction from using their personal experiences in medical education and greater confidence in their knowledge of their own health or illness.

물론 이 분야의 연구를 설계하는 데에는 어려움이 있습니다

  • 환자 교육자를 식별, 모집, 교육 및 유지하는 현실적인 문제 외에도
  • 결과 측정에 대한 명확성이 부족하고,
  • 어떤 종류의 영향을 결론 내릴 때 고려해야 할 변수가 많으며,
  • 관찰된 행동이 아닌 참가자의 인식에 기반한 연구일 때 결론의 강도,
  • 교수진이 전문가로서의 역할을 포기하는 것을 꺼려할 수 있기 때문입니다.

There are, obviously, difficulties in designing research studies in this field.

  • Apart from the practicalities of identifying, recruiting, training and maintaining patient educators,
  • there can often be a lack of clarity on outcome measures,
  • the multitude of variables which need to be considered in concluding any kind of impact,
  • the strength of conclusions when studies are based on participants’ perceptions rather than observed behavior and
  • the possible reluctance of faculty in relinquishing their role of expert.

서비스 사용자 작성자는 이 데이터의 종합과 해석에 핵심적인 역할을 했으며, 최종 원고의 내용, 결과 및 형식에 대한 여러 논의에 참여했습니다. 이러한 논의에서 나온 몇 가지 핵심 사항은 다음과 같습니다. 자금 조달은 중요한 문제이며 일부 연구에서만 언급되었습니다. 일부 의학교육 기관에서는 [시간 또는 발생 비용에 대한 보상]을 제공하지만, 예산이 제한되어 있기 때문에 현실적으로 달성할 수 있는 참여의 양이 줄어들 수 있습니다. 또한 서비스 사용자가 시장 가격으로 비용을 지불하는 경우 '전문 서비스 사용자 및 환자'로 분류되지 않아야 하나요? [급여를 지급하지 않는 것]은 긍정적인 결과와 부정적인 결과를 모두 가져올 수 있습니다.

  • 긍정적인 측면대학 내 환자/서비스 사용자 대표의 수가 증가할 수 있다는 것입니다. 다양한 질환과 배경을 가진 환자들이 독립적으로 고려되는 가운데 그들의 고유한 목소리와 아이디어, 의견을 들을 수 있습니다.
  • 의과대학의 변덕스러운 자금 지원과 같은 부정적인 측면은 '환자/서비스 사용자가 회의에 참석할 필요가 없다는 사실을 짧은 시간에 통보받는 것'을 의미할 수 있습니다. 이는 신뢰성에 대한 의문을 불러일으키고 학생들의 학습 기회에 영향을 미칠 수 있습니다.
  • 또 다른 중요한 측면은 자금 지원이 환자의 국가 혜택에 미치는 영향인데, 일부 중앙 정부는 이러한 수입을 부정적으로 보고 참여에 불이익을 줄 수 있는 부정적인 압력을 가할 수 있습니다. 이는 각 대학의 지역적 맥락에서 고려해야 합니다.

Our service user authors were integral in the synthesis and interpretation of this data and were involved in several discussions about the content, findings, and format of the final manuscript. There were several key points that came from these discussions that are relevant. Funding is an important issue and is mentioned in only a few of the studies. Payments for time, or for incurred expenses are offered by some medical education institutions and, due to the limited amount of budget available, can sometimes curtail the amount of involvement realistically achievable. Additionally, if service users are paid at the market rate, should they not be classed as a ‘professional service user and patient?’ Nonpayment can also have both positive and negative outcomes.

  • The positive being that numbers of patient/service user representatives within the universities may increase. Enabling patients with diverse conditions and backgrounds can ensure their unique voice, ideas and opinions are heard, whilst they are considered to be independent.
  • Negative aspects, such as capricious funding arrangements in medical schools may mean ‘patients/service users are informed at short notice, that they are not required to attend meetings.’ This leads to questions around authenticity and will impact on the opportunity for learning for the students.
  • Another important aspect is the impact of funding on patients’ state benefits, with some central government sources viewing such income negatively and in turn creating a negative pressure that would penalize involvement. This must be considered in the local context of each university.

의과대학 내 기존 및 오랜 관행으로 인해 환자/서비스 사용자의 교육 참여에 대한 [토큰주의적 접근 방식]이 종종 나타날 수 있습니다. 출판된 문헌의 종합적인 합계인 Towle 결과물에 초점을 맞추는 것은 이러한 주관적인 시각을 불식시키는 데 거의 도움이 되지 않습니다. 사용자 저자들의 경험에 따르면, Towle 분류체계의 2단계 또는 3단계에 참여하면 [지원자(환자)]가 학습 경험의 진정한 파트너가 아니라 '찌르고 찔러야 하는 살아있는 몸'처럼 느낄 수 있습니다. 환자들은 자신의 질환에 대한 풍부한 지식과 서비스 경험으로 독특한 관점을 제공할 수 있으며, 이는 의료 교육에 대한 총체적이고 인본주의적인 접근 방식을 제공할 수 있습니다. 이러한 진정성을 바탕으로 파트너십을 구축하고 이를 통해 얻을 수 있는 프레임워크를 구축하는 것은 문헌에서 아직 명확하게 안내하지 않는 부분이며, 이러한 방법의 사용을 늘리려는 비전을 가진 사람들은 여전히 어떻게 해야 할지에 대해 고민하고 있습니다. 
Due to existing and long-standing practices within medical schools, there can often appear to be a tokenistic approach to patient/service user involvement in education. The focus of Towle outcomes in what is the synthesized sum of published literature does little to dispel this subjective view. The experiences of our user authors are that involvement at levels 2 or 3 of Towle’s Taxonomy can leave such volunteers feeling like ‘a live body to be poked and prodded’ rather than an authentic partner in the learning experience. Patients have a wealth of knowledge about their own conditions and experiences of services which can give a unique perspective – offering a holistic and humanistic approach to medical education. Building a framework to work in partnership and gain from this authenticity is something the literature clearly still does not guide, leaving those with the vision to increase the use of such methods still left asking how to do this.

교육은 또한 환자/서비스 사용자 참여의 중요한 측면으로, 환자에게 필요한 것이 무엇인지 더 잘 이해할 수 있게 해주고 강점이나 약점을 강조하여 해결할 수 있습니다. 그러나 연구에 포함된 연구들에서 교육 내용, 시기 및 자금에 관한 결정을 주로 내리는 것은 [교수진]입니다. 이는 궁극적인 최종 업무 관계에 분명히 영향을 미치므로 더 높은 수준의 참여를 원하는 경우 이를 고려해야 합니다. 
Training is also an important aspect of patient/service user involvement – it gives patients a better understanding of what is required of them and it can highlight any strengths or weaknesses which can then be addressed. However, in the studies included it is the faculty members who mostly made the decisions regarding the content, timing, and funding of training. This clearly has an impact on the ultimate end working relationship and should be considered for those looking to achieve higher levels of involvement.

검토의 한계
Limitations of the review

이 체계적 문헌고찰에는 몇 가지 한계가 있습니다. 번역 서비스가 제공되지 않아 영어 논문으로만 검색이 제한되었습니다. 환자 중심 치료 및 의료 교육에 대한 환자/서비스 사용자의 참여를 설명하는 데 사용되는 용어에 대한 일관성이 부족하다는 점도 아쉬운 제약 조건이었습니다. 모든 종합에서 항상 요구되는 것처럼, 실용적인 판단을 내려야 했고, 저자의 검토 내 동의 수준을 측정해야 했습니다. 그러나 관련성이 있을 수 있는 특정 논문이 포함되지 않았을 가능성이 있습니다. 이와 관련하여, 이 리뷰에는 종이 기반 또는 전자 시나리오를 포함하지 않기로 실용적인 결정을 내렸습니다(Towle의 분류법 레벨 1). 또한 이 검토는 포함된 연구의 방법론적 품질, 특히 이론적 개념, 교육학 및 커리큘럼에 대한 세부적인 보고의 부족으로 인해 제한되었습니다. 이로 인해 연구 결과를 어떤 형태로든 종합할 수 없었습니다. 
This systematic review has several limitations: the search was restricted to the English language only articles due to a lack of availability of translation services. A frustrating constraint was the lack of consistency over the terminology used to describe patients/service users involvement in patient-centered care and medical education. As is always required in any synthesis, pragmatic judgments had to be made, as well as a measurement of the author’s level of agreements within the review. However, it is possible that certain papers were not included that may be relevant. Related to this, a pragmatic decision was made to not include paper-based or electronic scenarios within this review (Level 1 of Towle’s Taxonomy). The review is also limited by the methodological quality of the included studies pertaining to the lack of detail in reporting – particularly around theoretical concepts, pedagogy, and curricula. This precluded any form of synthesis of the outcomes of the studies.

교육에 대한 시사점
Implications for teaching

이 리뷰는 '정당화' 연구를 통해 환자/서비스 사용자가 가르치는 것이 적어도 교수진이 가르치는 것만큼 효과적일 수 있음을 보여주었습니다. 또한 환자와 의료 서비스 소비자는 자신의 질병에 대한 풍부한 지식을 가지고 있어 학습자의 태도, 지식 및 공감을 크게 향상시킬 수 있지만 이러한 전문 지식을 교육 프로그램에 가장 잘 활용할 수 있는 정도는 아직 밝혀지지 않았습니다. 분명한 것은 환자가 주도하는 교육 기회는 [신체 검사 기술, 상담 및 병력 청취, 전문가 간 교육, 질병과 함께 사는 경험, 파트너와 가족에게 미치는 영향, 환자/전문가 관계의 변화하는 역학(환자 역량 강화)] 등 [다양한 주제]를 다룰 수 있다는 것입니다. 많은 증거를 통해 Towle의 분류체계의 어떤 수준에서도 사용자의 참여를 방해하는 [실제 상황적 또는 학습자적 요인이 없음]을 명확히 확인했습니다. 이는 저자 팀, 특히 이 리뷰의 사용자 작성자의 관점에서 볼 때 독자들이 반드시 고려해야 할 핵심 메시지라고 생각했습니다. 
This review has shown, through ‘justification’ studies, that teaching by patients/service users can be at least as effective as teaching by faculty. In addition, patients and consumers of healthcare services have a rich knowledge of their own illnesses which can greatly enhance learners’ attitudes, knowledge, and empathy but the extent to which this expertise could best be employed in educational programs is yet to be discovered. What is clear is that patient-led teaching opportunities can cover a diverse range of topics, including physical examination skills, consultation and history-taking, inter-professional education, the experience of living with an illness, the effect on partners and families, and the changing dynamic of patient/professional relationships (patient empowerment). The large body of evidence has clearly identified there are no real contextual or learner factors that prevent the involvement of users at any level of Towle’s Taxonomy. This is a key finding and from the perspective of the author team and specifically the user authors on this review, they felt it as a takeaway message that must be considered by readers.

그러나 독자들은 증거 기반이 종합할 수 있는 모든 면에서 제한적이라는 점도 분명히 알아야 합니다. 이 교육 방법의 이점을 입증하기 위한 최적의 환자 참여 수준을 결정할 수 없었고, 콘텐츠, 교육학 및 커리큘럼에 대한 세부 정보가 부족하여 이러한 연구 중 상당수를 정확하게 복제할 수 없었습니다. 마찬가지로, 개입의 어떤 측면이 누구에게, 어떤 상황에서, 가장 효과적으로 효과가 있었는지, 특히 사용자 관점에서 참여 유형을 최적화하여 최적의 관계를 보장하는 방법을 파악할 수 없었습니다. 내용이나 이론에 대한 광범위한 증거를 제시할 수는 없지만, 임상 교사들이 이 분야의 제한된 양질의 증거를 보고한 결과의 관련 부분을 고려하고 이를 현지에서 자료를 생산하기 위한 출발점으로 삼을 것을 제안합니다.
However, it should also be apparent to readers that the evidence base is limited in all ways it can be synthesized. We were not able to determine an optimum level of patient involvement to demonstrate benefits of this method of teaching and the lack of detail of content, pedagogy, and curricula preclude many of these studies being replicated accurately. Similarly, we were unable to identify which aspects of the interventions worked most effectively, for whom, in what circumstances and in particular how to optimize the type of involvement from the user perspective to ensure an optimal relationship. We cannot give extensive evidence of content or theory, however, would suggest clinical teachers consider the relevant sections of the results that do report the limited high-quality evidence in this area and use this as a starting point for local production of resources.

추가 연구를 위한 시사점
Implications for further research

이 체계적 문헌고찰은 맥락과 학습 과정을 탐색하여 결과를 학습 이론 개념에 매핑하고 개입이 효과가 있는 이유를 설명함으로써 의료 교육에서 사용자 참여에 대한 이해를 증진하는 데 필요한 교육적으로 강력한 연구가 부족하다는 점을 강조했습니다. 이는 향후 중점적으로 연구해야 할 핵심 영역으로, Towle과 같은 프레임워크의 맥락에서 [수행한 작업과 이러한 선택이 이루어진 이유를 구체적으로 설명]하는 연구입니다. 이는 연구 조사 방법론에 달려 있는 것이 아니며, 비록 미흡하지만 이 문제를 해결하는 데 필수적인 요소는 아닙니다. 대신 저자는 자신이 ['무엇을' 가르쳤는지를 충분히 제시하는 방식으로 교육을 제시]하기만 하면 됩니다. [학습 목표, 제작된 콘텐츠, 커리큘럼 맵, 심지어 제작을 지원하기 위해 사용된 이론적 또는 개념적 요소]까지 제시하는 것은 비용이 많이 들거나 어렵지 않습니다. 이러한 보고는 의학교육에서 환자를 가장 잘 활용할 수 있는 방법에 대한 증거적 합의를 형성하기 시작할 수 있습니다. 
This systematic review has highlighted a lack of educationally robust studies which are needed to advance our understanding of user involvement in medical education by exploring context and learning processes which would then map outcomes to learning theory concepts and explain why an intervention works. This is a key area for future focus, with studies specifically describing what they have done in the context of a framework, such as Towle’s, as well as why these choices were made. This is not hinged on the methodology of investigation of studies, which while poor, is not integral to meeting this concern. Instead, authors simply need to present their education in a manner that fully presents ‘what’ teaching they have done. It is not costly or difficult to present learning objectives, content produced, curriculum maps and even the theoretical or conceptual elements employed to support production. Such reporting may then to start to form an evidential agreement as to how patients are best employed within medical education.

또한 [학습 이론을 채택한 연구]는 환자/사용자 참여의 다양한 측면의 가치를 더 명확하게 파악할 수 있게 해줍니다.

  • 경험을 공유하여 환자 중심의 진료를 유도하거나,
  • 학습자의 대인관계 기술에 대한 즉각적인 피드백을 제공하여 의사소통 및 병력 기록 기술을 향상시키거나,
  • 자신의 상태에 대한 지식을 활용하여 교수진 대신 전문가 교육을 제공하는 등

[학습자가 자신의 역할을 어떻게 인식하는지, 참여를 통해 무엇을 얻는지] 등 [학습자의 관점에서 결과]를 측정하는 것도 필요합니다. 마지막으로, 항상 [가치value]를 고려해야 하며, 이러한 참여를 촉진하는 데 직간접적으로 [필요한 리소스에 대한 보고]가 필수적입니다. 이러한 요소 중 어느 하나라도 향후 논문을 작성하는 데 큰 방해가 되어서는 안 되며 증거 기반에 큰 영향을 미칠 수 있다는 점에 유의할 필요가 있습니다. 

Studies also adopting learning theories would enable a clearer picture of the value of the different aspects of patient/user involvement –

  • whether this is to elicit patient-centered care by sharing their experiences,
  • to improve communication and history-taking skills by giving immediate feedback on learners’ interpersonal skills, or
  • by using their knowledge of their own condition to give expert instruction in place of faculty educators.

Measuring outcomes from the perspective of the user is also needed, such as how they perceive their role and what they gain from involvement. Finally, the value must always be considered and reporting on the resources directly or indirectly needed to facilitate such involvement is vital. It is worth noting that none of these elements should massively encumber writers of future papers and could hugely impact the evidence base.

결론
Conclusions

최근 의학교육에서 환자의 참여를 탐구하는 논문이 증가하고 있음에도 불구하고 이러한 보고서가 학계나 교육 분야를 발전시키지 못하고 있습니다. 이 연구들은 다양한 참여 방법을 탐구하고 환자 또는 서비스 사용자를 교육 개입에 참여시킬 수 있는 가능성을 보여줍니다. 연구 결과에 따르면 환자 참여는 실용적인 임상 기술, 병력 청취 및 면담 기술, 의사소통 및 공감에 대한 인식을 효과적으로 전달할 수 있으며, 학습자가 전체적인 치료에서 환자 중심의 관점을 탐구할 수 있도록 함으로써 의학 교육을 풍부하게 할 수 있습니다. 그러나 교육기관 수준에서 또는 실제로 교육 커리큘럼을 설계하는 수준에서 환자가 참여하는 정도는 개선되지 않았습니다. 또한 이러한 개입의 결과도 진전되지 않았습니다. 환자의 참여가 교육적 맥락에서뿐만 아니라 전문적인 실무에서도 학습자에게 도움이 된다는 증거가 필요합니다. 또한 교육학에 대한 보고도 부족합니다. 

Despite a recent increase in the number of publications exploring patient involvement in medical education, these reports fail to move the scholarly or teaching field forward. The studies explore a wide range of methods of involvement and demonstrate the feasibility of involving patients or service users in educational interventions. They show that patient involvement can effectively deliver practical clinical skills, history taking and interview skills, enhanced perceptions of communication and empathy, and can enrich medical education by allowing learners to explore patient-centered perspectives in holistic care. However, the extent to which patients are involved at an institutional level or, indeed, at the level of designing educational curricula, has not improved. Nor has the outcomes of these interventions progressed. We need to see evidence of patient involvement benefitting learners not just in an educational context, but in professional practice. There is also a lack of reporting of pedagogy, content, curricula or any other key elements that facilitate dissemination or replication of research methods to involve patients and service users. Future studies must be underpinned by clear and relevant theory, implemented with appropriate pedagogy and reported in a fashion that supports evidence-based replication and dissemination of patient and service users in medical education.

 


 

 

Med Teach. 2020 Jan;42(1):4-16. doi: 10.1080/0142159X.2019.1652731. Epub 2019 Sep 13.

 

Patient/service user involvement in medical education: A best evidence medical education (BEME) systematic review: BEME Guide No. 58

Affiliations collapse

1School of Medicine, University of Central Lancashire, Preston, UK.

2Families Division, Blackpool Teaching Hospitals NHS Foundation Trust, Blackpool, UK.

PMID: 31518544

DOI: 10.1080/0142159X.2019.1652731

Abstract

Background: The extent to which patients and service users are involved in medical education varies widely. There is a need for an up to date systematic review of the literature that examines what involvement (description), the potential outcome of such involvement (justification) and 'why' such involvement impacts students (clarification).Methods: Systematic searches of four databases were undertaken. Citations were screened and consensus reached for inclusion/exclusion of studies. Quality of study design and interventional presentation were assessed.Results: Of the 39 studies included in the review, 4 studies were encounter based, 17 sharing experiences, 16 with patients involved in teaching, 2 studies describing consumers as tutors, and none with involvement at the institutional level. Outcomes in terms of benefits to learners included increased empathy and understanding of illness as experienced by patients, improved communication with patients and a greater understanding of patient-center care. Educational quality assessment showed specific weaknesses in theoretical underpinning, curriculum outcomes, content or pedagogy.Conclusions: Patients can enrich medical education by allowing learners to explore patient-centered perspectives in holistic care. For educators this review highlights the lack of an underpinning conceptual basis for which to translate theory into practice.

건강 및 사회적 돌봄 전문직 교육에서 환자의 목소리: 밴쿠버 성명(International Journal of Health Governance, 2016)
The patient’s voice in health and social care professional education: The Vancouver Statement
Angela Towle, Christine Farrell, Martha E. Gaines, William Godolphin, Gabrielle John, Cathy Kline, Beth Lown, Penny Morris, Jools Symons and Jill Thistlethwaite 

 

환자 참여의 역사
History of patient involvement

의료 및 사회복지 서비스를 이용하는 사람들이 치료를 제공하는 전문가 교육에 적극적으로 참여하는 것은 지난 20년 동안 크게 확대되었습니다(Towle et al., 2010). 이러한 성장은 의료 서비스의 여러 측면에서 대중과 환자의 적극적인 참여를 강조하는 의료 서비스 전달, 정책 및 연구 동향이 융합된 결과입니다. 

Active involvement of people who use health and social services in the education of professionals who provide the care has expanded greatly over the past 20 years (Towle et al., 2010). Its growth is the consequence of the convergence of trends in health care delivery, policy and research that have emphasized active participation of the public and patients in many aspects of their care.

환자의 의료 참여는 부분적으로는 [전통적인 가부장주의]에서 벗어나 [환자를 치료의 파트너로 포용]하려는 [자율성의 윤리적 의무]에서 비롯되며, [정보에 입각한 선택을 요구하는 법적 추세]에 따라 명문화되었습니다. 또한, 특히 영국, 미국, 캐나다, 호주의 정부와 영향력 있는 기관은 의료 서비스에 대한 직접적인 혜택으로 인해 더 많은 환자와 대중의 참여가 필요하다는 점을 명확히 했습니다. 환자 참여는 환자 안전(의학 연구소, 2000; 보건부, 2001), 환자 중심의 결과, 공동 의사 결정 및 공동 관리 결정 준수, 인구 고령화 및 만성 질환 증가에 따른 환자들의 보다 적극적인 치료 참여 등 환자 중심 치료 및 품질 보증의 다양한 측면과 연관되어 있습니다(Nasmith et al., 2010).
Involvement of patients in health care arises, in part, from the ethical imperative of autonomy that moves us away from traditional paternalism toward inclusion of patients as partners in care and has been codified in legal trends that require informed choice. In addition, governments and influential institutions, especially in the UK, USA, Canada and Australia, have articulated the need for more patient and public involvement because of perceived direct benefits to health care. Patient involvement has been linked to various aspects of patient-centered care and quality assurance, including

보건 연구에 대한 환자 및 대중의 참여가 절실해지면서 영국의 국립보건연구원, 미국의 환자 중심 성과 연구소, 캐나다의 환자 중심 연구 전략, 호주의 뉴사우스웨일스 임상 혁신 기관에서 대중의 적극적인 참여를 지원하는 INVOLVE와 같은 이니셔티브가 만들어졌습니다.
The imperative for patient and public involvement in health research has resulted in the creation of

  • initiatives such as INVOLVE that supports active public involvement in the National Institute for Health Research in the UK (www.invo.org.uk),
  • the Patient-Centered Outcomes Research Institute in the USA (www.pcori.org),
  • Canada’s Strategy for Patient-Oriented Research (www.cihr-irsc.gc.ca/e/documents/P-O_Research_Strategy-eng.pdf), and
  • the New South Wales Agency for Clinical Innovation in Australia (www.aci.health.nsw.gov.au).

환자와 대중의 참여를 포용할 수 있는 인력을 양성하기 위해 교육에 환자를 참여시키는 것(정의는 학회 성명서 각주 참조)은 이러한 움직임에서 논리적으로 발전한 것입니다. 이는 현재 의료 전문가를 교육하는 방식에 [내재된 몇 가지 장벽] 때문에 특히 중요합니다. 예를 들어, 오플린과 브리튼(2006)의 연구에 따르면 [공유 의사 결정]의 채택은 현재 의사가 권력과 책임의 상당한 공유를 포함하지 않는 의료 정체성을 달성해야 할 필요성과, [의료 교육 중 공감과 환자 중심주의의 침식]을 보여주는 많은 연구로 인해 제한됩니다(Neumann et al., 2011). 
The involvement of patients in education (see footnote in conference statement for definition) to develop a workforce that is able to embrace patient and public participation is a logical development from these movements. This is particularly important because of some barriers inherent in the way we currently educate health professionals. For example, the work of O’Flynn and Britten (2006) suggests that the adoption of shared decision-making is limited by the need for practitioners to achieve a medical identity that currently does not involve significant sharing of power and responsibility, and the many studies that demonstrate an erosion of empathy and patient centredness during medical training (Neumann et al., 2011). 

교육에 대한 환자 참여는 의학(Wykurz and Kelly, 2002; Jha 외, 2009; Towle 외, 2010), 간호학(Warne and McAndrew, 2005; Repper and Breeze, 2007; Terry, 2012), 사회사업학(Cairney 외, 2006; Robinson and Webber, 2013), 다양한 분야의 정신건강 전문가 교육(Livingston and Cooper, 2004; Happell 외, 2014)에서 시작되었습니다. 최근에는 물리치료(Jones 외, 2009), 작업치료(Cleminson and Moesby, 2013), 약국(Grimes 외, 2013), 치과(Renard 외, 2015)와 같은 다른 의료 전문직으로 확산되고 있습니다. 

Patient involvement in education began in

그러나 교육에 대한 환자 참여는 아직 교육 실무의 주류에서 잘 확립되지 않았습니다. 환자 참여는 

  • 삶의 경험의 다양성을 반영하기보다는 특정 환자 집단으로 제한되는 경우가 많고, 
  • 교육 기관에 통합되어 있지 않고 파편화되어 있으며, 
  • 적절한 인프라와 지속적인 리더십 및 자원이 부족합니다. 

혜택에 대한 증거가 나타나고 있지만 여전히 고르지 않습니다. 교육자로서의 환자 이니셔티브가 가장 광범위하고 제도적으로 지원되는 국가는 영국으로, "환자 주도형" 국가보건서비스(하원 보건위원회, 2007) 개발에 대한 정부의 노력과 최근에는 보건 및 사회 서비스 개발에 대한 접근 방식으로서 공동 생산 개념(Loeffler et al., 2013)이 교육 정책 지침으로 확장되었습니다. 따라서 교육에 대한 서비스 사용자 및 보호자의 참여는 간호 및 조산사(간호 및 조산사 위원회, 2010), 16개 기타 보건 및 사회복지 전문직(보건 및 사회복지 전문직 위원회, 2014), 최근에는 의학(일반 의학 위원회, 2016)의 교육 프로그램 인증을 담당하는 법정 기관의 [표준에 명시]되어 있습니다.
However, patient involvement in education is still not well established in the mainstream of educational practice. Involvement

  • is often limited to a specific population of patients rather than reflecting the diversity of lived experiences,
  • is fragmented and not embedded in the educational institution, and
  • lacks appropriate infrastructure and sustained leadership and resources.

Evidence of benefit is emerging but still patchy. The most wide-ranging and institutionally supported patient-as-educator initiatives are in the UK (Towle and Godolphin, 2011) where government commitment to the development of a “patient-led” National Health Service (House of Commons Health Committee, 2007) and, more recently, to the concept of co-production as an approach to the development of health and social services (Loeffler et al., 2013) has extended to policy directives in education. Thus, service user and carer involvement in education has become enshrined in the standards of the statutory bodies responsible for the accreditation of educational programs in nursing and midwifery (Nursing and Midwifery Council, 2010), 16 other health and social care professions (Health and Care Professions Council, 2014) and more recently, medicine (General Medical Council, 2016).

문헌에서 말하는 것
What the literature says

환자 참여의 예는 이제 기본 교육부터 대학원 및 지속적인 전문성 개발에 이르기까지 교육의 연속체에서 찾을 수 있으며, 학생 선발, 다양한 교수 역할, 피드백 및 평가, 커리큘럼 개발 및 기관 차원의 의사 결정을 포함한 [광범위한 교육 활동]을 포함합니다(유형론은 Towle 외., 2010 참조). 
Examples of patient involvement can now be found across the continuum of education from basic training through postgraduate and continuing professional development, and include a wide spectrum of educational activities including selection of students, a variety of teaching roles, feedback and assessment, curriculum development and decision-making at an institutional level (for a typology see Towle et al., 2010).

문헌에 따르면 환자로부터의 학습은 임상적 추론, 의사소통 기술, 전문적 태도, 공감적 이해 및 환자에 대한 개별화된 접근법을 개발하는 데 중요한 역할을 하며, 관련성과 맥락을 제공함으로써 학생들에게 동기를 부여합니다(Towle 외., 2010).

  • 교육에 참여하는 환자에게는 지역사회에 환원하는 것에 대한 만족감, 미래의 전문가 교육에 대한 영향력, 자존감 및 권한 부여 증가 등의 [이점]이 있습니다(McKeown 외., 2012).
  • 또한 문헌에서는 제도적 지원 및 자금 부족(Happell 외., 2015), 전문 지식과 권력에 대한 도전(Felton and Stickley, 2004), 대표성 및 토큰주의 문제(Forrest 외., 2000) 등 환자의 교육 참여에 대한 [장벽]을 파악하고 있습니다.
  • 그러나 대부분의 연구는 설명적이며 교육 전략에 정보를 제공할 수 있는 [이론적 이해나 비판적 설명]이 부족합니다(Regan de Bere와 Nunn, 2016).
  • 좋은 [평가 연구]는 거의 없으며, 진료에 대한 장기적인 영향과 의료 수혜자에게 미치는 혜택에 대한 [증거가 부족]합니다(Morgan and Jones, 2009; Robinson and Webber, 2013).

The literature provides evidence that learning from patients plays a role in the development of clinical reasoning, communication skills, professional attitudes, empathic understanding and an individualized approach to the patient; it also motivates students by providing relevance and context (Towle et al., 2010). 

  • Benefits to patients involved in education include satisfaction in giving back to the community, having an influence on the education of future professionals, and increased self-esteem and empowerment (McKeown et al., 2012). 
  • The literature also identifies barriers to patient involvement in education including lack of institutional support and funding (Happell et al., 2015), challenges to professional knowledge and power (Felton and Stickley, 2004), and issues of representativeness and tokenism (Forrest et al., 2000). 
  • However, most of the research is descriptive and lacks theoretical understanding or critical explanation that might inform educational strategies (Regan de Bere and Nunn, 2016). 
  • There are few good evaluation studies, and there is a lack of evidence of the long-term impact on practice and benefits to the recipients of care (Morgan and Jones, 2009Robinson and Webber, 2013).

"환자의 목소리는 어디에 있는가?" 컨퍼런스
“Where’s the Patient’s Voice?” Conference

2005년 캐나다 밴쿠버에서 "의료 전문가 교육에서 환자의 목소리는 어디에 있는가?"라는 주제로 첫 번째 국제 컨퍼런스가 열렸습니다. 이 컨퍼런스의 목적은 이 분야의 선구자들을 한자리에 모아 다양한 배경을 가진 240명의 참석자가 발표와 토론을 통해 '영역의 지도'를 그리는 것이었습니다. 컨퍼런스 보고서는 교육에 대한 환자 참여 현황을 문서화하고 새로운 문제와 향후 방향을 파악했습니다(Farrell et al., 2006).
In 2005, the first international conference on the topic, “Where’s the Patient’s Voice in Health Professional Education?” was held in Vancouver, Canada. The aim was to bring together pioneers in the field and “map the territory” through the presentations and discussions of 240 attendees with a wide range of backgrounds. The conference report documented the state of patient involvement in education, and identified emerging issues and future directions (Farrell et al., 2006).

10년 후인 2015년 11월에 2005년 이후의 진전 상황을 살펴보기 위한 두 번째 컨퍼런스가 열렸습니다. 컨퍼런스 위원회(이 백서의 저자)는 향후 5년간의 의제를 설정하고 각 기관 및 단체의 참가자들을 위한 자료로 사용될 성명서를 작성하기 위해 노력했습니다. 이 컨퍼런스에는 16개국에서 온 250명의 대표단이 참석했으며 모든 주요 보건 분야를 대표했습니다. 대부분은 교육 리더 또는 실무자였으며, 환자 또는 지역사회 구성원이라고 밝힌 비율은 20%가 조금 넘었고 학생은 13%였습니다.
A second conference was held ten years later in November 2015 to look at progress since 2005. The conference committee (authors of this paper) worked toward production of a statement that would set the agenda for the next five years, and serve as a resource for participants in their own institutions and organizations. The conference was attended by 250 delegates from 16 countries and representing all of the major health disciplines. Most were educational leaders or practitioners; just over 20 percent identified themselves as patients or community members and 13 percent as students.

컨퍼런스 성명서 개발
Development of the conference statement

컨퍼런스 위원회는 [성명서 초안]을 작성하여 사전에 컨퍼런스 등록자에게 소개했습니다. 대표자들은 서면, 초안 자체 또는 학회 웹사이트의 전자 버전, 학회 위원회와의 공개 회의, 학회 마지막 날 오전 중 한 가지 이상의 방법으로 초안에 대한 피드백을 제공하여 향후 성명서 개발에 참여하도록 초대되었습니다.
The conference committee prepared a draft statement that was introduced to the conference registrants in advance. Delegates were invited to participate in its future development by providing feedback on the draft in one or more of the following ways:

  • in writing,
  • on the draft itself or an electronic version on the conference website,
  • during an open meeting with the conference committee, and
  • on the final morning of the conference.

약 90명의 컨퍼런스 대표단이 최종 세션에 참석하여 컨퍼런스 위원회 위원 또는 퍼실리테이터로 지정된 사람들과 함께 [원탁 토론 그룹]을 구성했습니다. 원탁 토론 그룹은 성명서에 대한 일반적인 의견을 제시한 후 보다 구체적으로 실행 항목에 집중하도록 요청받았습니다. 그룹은 성명서 및 권고사항에 대한 실질적인 변경 사항을 보고했습니다. 모든 의견과 메모는 회의가 끝난 후 수집되어 필사되었습니다. [회의 위원회의 소그룹]이 피드백에서 주요 주제를 파악하여 회의 후 성명서 버전에 변경 사항을 반영했습니다. 이 성명서는 모든 대표자에게 이메일로 배포되어 추가 의견을 보내달라는 초대장과 함께 전달되었습니다. 추가 수정 사항은 거의 제안되지 않았으며 성명서에 대한 강력한 지지가 있었습니다. 성명서는 아래에서 확인할 수 있습니다.
About 90 conference delegates attended the final session and formed round table discussion groups with members of the conference committee or designates as facilitators. The round table groups were asked to provide general comments about the statement and to then focus more specifically on action items. The groups reported any substantive changes to the statement and recommendations. All comments and notes were collected and transcribed after the conference. A subgroup of the conference committee identified major themes from the feedback and incorporated changes into the post-conference version of the statement. This was circulated by e-mail to all delegates with an invitation to send further comments. Very few further amendments were suggested and there was strong support for the statement. The statement can be seen below.


보건 및 사회복지 전문가 교육에서 환자의 목소리는 어디에 있나요? 2015 밴쿠버 성명서 
Where’s the patient voice in health and social care professional education?
The Vancouver Statement 2015 

이 성명서는 향후 5년 동안 [교육에 대한 환자 참여의 방향을 설정]하는 것을 목표로 합니다[1]. 2015년 11월 12일부터 14일까지 밴쿠버에서 개최된 제2회 "보건의료 전문가 교육에서 환자의 목소리는 어디에 있는가?" 국제 컨퍼런스에서 참석자들과 협력하여 개발되었습니다. 우리는 환자를 교육에 적극적으로 참여시키기 위해 이미 이루어지고 있는 훌륭한 작업과 10년 전 첫 번째 컨퍼런스 이후 이루어진 진전을 인정합니다.
This statement aims to set the direction for patient involvement in education for the next five years[1]. It was developed in collaboration with attendees at the 2nd “Where’s the Patient’s Voice in Health Professional Education?” international conference, held in Vancouver from 12 to 14 November 2015. We acknowledge the excellent work that is already taking place to actively involve patients in education and the advances that have been made since the first conference ten years ago.

이 성명서는 보건 및 사회복지 전문가 교육을 담당하는 [의사결정권자를 대상]으로 하며, 개별 교육자 및 환자, 지역사회 조직과도 관련이 있습니다.
This statement is targeted at decision-makers responsible for the education of health and social care professionals, and is also relevant to individual educators and patients, and community organizations.

1. 목표 
1. Aim 

1.1 현재와 미래의 보건 및 사회복지 전문가 교육에 [환자의 자율적이고 진정성 있는 목소리]와 [환자의 생생한 경험]이 포함되도록 촉진하고 보장하여 [진정으로 환자 중심적인 치료가 제공]되도록 합니다.
1.1 To promote and ensure that the education of current and future health and social care professionals includes the autonomous and authentic voices of patients and their lived experiences so that the care delivered is genuinely patient-centred.

2. 보건의료 전문가 교육에 대한 환자 참여 - 정의 
2. Patient involvement in the education of health professionals – what it is 

2.1 환자가 [교사, 평가자, 커리큘럼 개발자 및 교육 의사 결정자]로서 [적극적이고 협력적인 교육적 역할을 수행]하는 것을 의미합니다.
2.1 We mean that patients play an active and collaborative educational role, as teachers, assessors, curriculum developers and educational decision makers.

3. 이 선언문이 중요한 이유 
3. Why this statement is important 

3.1 보건 및 사회복지 분야는 환자를 [의사 결정, 서비스 제공 및 연구의 파트너로 참여]시켜야 합니다.
3.1 Health and social care should engage patients as partners in decision-making, service delivery and research.

3.2 교육에서 환자와의 협력은 현재 및 미래의 의료인이 환자와 협력하여 다음과 같은 목적으로 일할 수 있도록 준비시키는 데 필수적입니다:

  • i) 사람 중심의 관계 기반 치료 제공;
  • ii) 공동 의사 결정에 참여;
  • iii) 자기 관리 및 회복력 지원;
  • iv) 의사소통 및 공감과 배려의 관계 강화;
  • v) 환자 안전과 질 향상 촉진;
  • vi) 공유 가치, 포용성 및 사회 정의 증진.

3.2 Patient collaboration in education is essential to prepare current and future practitioners to work in partnership with patients in order to:

  • i) deliver person-centred, relationship-based care;
  • ii) engage in shared decision-making;
  • iii) support self-care and resilience;
  • iv) enhance communication, and empathic and caring relationships;
  • v) promote patient safety and quality improvement;
  • vi) foster shared values, inclusion and social justice.

3.3 따라서 우리는 모든 교육 기관과 평생교육 제공자가 [환자와 파트너십을 구축하고 협력]할 수 있도록 [보건 및 사회복지 전문가를 준비시킬 필요성]에 대응할 것을 촉구합니다.
3.3 Therefore we call on all educational institutions and providers of continuing education to respond to the need to prepare health and social care professionals to build and work in partnerships with patients.

4. 현재 상태 
4. The current state 

4.1 환자를 적극적으로 참여시키는 교육은 혁신적이고 진화하고 있으며, 특히 환자의 전문성과 삶의 경험에 대한 인정과 존중과 관련하여 학습자의 흥미를 유발하고 있습니다.
4.1 Education that actively engages patients is innovative and evolving, especially with regard to recognition and respect for patient expertise and their lived experience, and is engaging for learners.

4.2 팀 기반 교육 및 치료를 촉진하기 위해 개별 전문 프로그램을 넘어 교육에 환자 참여를 확대할 기회를 놓치는 경우가 많습니다.
4.2 Opportunities are often missed to expand patient involvement in education beyond individual professional programs to promote team-based education and care.

4.3 현재 활동은 소수의 열성적인 사람들에 의해 주도되는 경우가 많고, 교육 구조에 통합되기보다는 단편적이거나 일시적인 경우가 많으며, 기관 내에서 지위와 우선순위가 낮은 경우가 많습니다.
4.3 Current activities are often driven by a small group of enthusiasts, are often fragmented or episodic rather than integrated into educational structures, and are often of low status and priority in the institution.

4.4 권력, 직업적 정체성, 학습 장소와 관련된 제도적 및 교육적 장벽이 존재하여 환자의 목소리를 듣지 못하게 합니다.
4.4 Institutional and educational barriers exist related to power, professional identity and location of learning which prevent patients from being heard.

4.5 환자를 교육자로 참여시켰을 때 얻을 수 있는 이점에 대한 결과 데이터는 제한적입니다.
4.5 Outcome data on the benefits of involving patients as educators are limited.

4.6 보건 및 사회복지 전문가 교육에 대한 환자 참여의 영향에 대한 [혁신, 평가 및 연구]를 위한 자금은 종종 불충분하고 안전하지 않습니다.
4.6 Funding for innovation, evaluation and research into the impact of patient involvement in health and social care professional education is often insufficient and insecure.

4.7 환자가 참여할 수 있도록 준비시키고, 권한을 부여하고, 자신감을 심어줄 수 있는 자원과 환자를 지원할 수 있는 구조와 지원이 없는 경우가 많습니다.
4.7 Resources to prepare, empower and give patients confidence to participate, and structures and support in place to support patients are often not present.

5. 향후 5년간의 행동 우선순위 
5. Priorities for action in the next five years 

5.1 인증 기준, 외부 및 내부 정책, 전문 기관의 선언문, 모범 사례 성명서 등의 지침을 통해 보건 및 사회복지 전문가 교육에 환자의 참여를 촉진합니다.
5.1 Promote the involvement of patients in health and social care professional education through directives such as accreditation standards, external and internal policies, pronouncements from professional bodies and best practice statements.

5.2 이러한 활동의 근거가 되고 가치가 있는 환자 전문성에 대한 기관, 지역, 국가 및 전 세계의 인식을 촉진합니다. 성과를 인정하고 성공을 축하합니다(교육 혁신 개발 및 보급을 위한 기금에 대한 정보를 파악하고 공개하며, 출판 기회를 늘립니다).
5.2 Foster institutional, local, national and global recognition of patient expertise that grounds this activity and makes it valued. Recognize achievement and celebrate success (identify and publicize information about funding to develop and disseminate educational innovations, increase publication opportunities).

5.3 현재 및 미래의 의료 전문가 교육에 참여하는 것이 본질적으로 매력적이고 가치 있는 활동이라고 믿는 환자, 지역사회 기관, 환자 옹호 단체 및 지역사회 구성원의 동기와 열정을 활용하여 참여하는 사람들의 다양성을 높입니다.
5.3 Increase the diversity of people who are involved by harnessing the motivation and enthusiasm of patients, community agencies, patient advocacy organizations and community members who believe that being involved in the education of current and future health professionals is an intrinsically attractive and valuable activity.

5.4 가능한 한 빨리 학습자에게 환자의 목소리 이니셔티브를 소개하고, 선발 과정, 커리큘럼 및 평가를 포함한 교육 연속체 전반에 걸쳐 이를 유지합니다.
5.4 Introduce the patient’s voice initiatives to learners as early as possible, and sustain them throughout the educational continuum, including selections processes, curriculum and assessment.

5.5 환자 파트너십과 팀워크에 대한 보다 총체적인 접근을 촉진하기 위해 새롭게 부상하는 다중 및 전문가 간 학습 활동에 환자의 참여를 목표로 삼습니다.
5.5 Target patient involvement in new and emerging multi- and inter-professional learning activities in order to facilitate a more holistic approach to patient partnerships and teamwork.

5.6 환자의 교육 참여를 촉진하기 위해 교육 기관과 지역사회 조직 간의 협력을 촉진하는 모델을 탐색하고 개발합니다.
5.6 Explore and create models to promote collaboration between educational institutions and community organizations to promote patient involvement in education.

5.7 환자와 협력하여 고품질의 포괄적이고 접근 가능한 연구 및 평가를 수행하고 전파하여 환자 및 학습자 결과와 이를 달성하는 과정을 포함하여 교육에 대한 환자 참여의 장단기적 영향에 대한 추가 증거를 제공합니다.
5.7 Conduct and disseminate high quality, inclusive and accessible research and evaluation in partnership with patients, to provide further evidence of short and long-term impact of patient involvement in education, including patient and learner outcomes, and the processes by which it is achieved.

5.8 컨퍼런스 및 교육 행사의 계획, 제공, 평가에 환자가 참여할 수 있도록 컨퍼런스 위원회에 로비하고, 환자가 컨퍼런스에 참석하고 발표할 수 있도록 지역사회 단체, 대학, 대학 및 기금 기관에 보조금을 제공할 수 있도록 로비합니다.
5.8 Lobby conference committees to involve patients in the planning, delivery and evaluation of conferences and educational events; lobby community organizations, colleges, universities and funding bodies to provide grants for patients to attend and present at conferences.

5.9 협력하고, 정보를 전파하고, 유망한 사례를 공유하고, 추가 회의를 계획할 수 있도록 지역 네트워크와 챔피언을 구축합니다.
5.9 Create regional networks of people and champions to collaborate, disseminate information, share promising practices and plan further meetings.


결론
Conclusion

우리는 이 성명서가 학회 대표들과 협력하여 개발되었기 때문에 현장에서 일하는 모든 사람들의 견해를 대표하지 않을 수 있으며, 행동 우선순위와 모범 사례를 결정할 때 맥락의 중요성을 고려하지 않았음을 알고 있습니다. 이러한 한계에도 불구하고 이 성명서는 이미 문헌에 나와 있는 아이디어를 하나의 문서로 통합했습니다.
We recognize that the statement was developed in collaboration with conference delegates and therefore may not represent the views of all those working in the field, and does not take into account the importance of context in determining the priorities for action and best practices. Despite these limitations the statement does bring together ideas, some already in the literature, into one document.

이 회의 성명서는 향후 5년 동안 보건 및 사회복지 전문가 교육에 환자 참여를 정착시키기 위해 필요하다고 생각되는 9가지 행동 우선순위를 강조합니다. 정책, 인정 및 지원, 혁신, 연구 및 평가, 보급 및 지식 교환 분야로 구성되어 있습니다. 이 중 영국의 사례에서 알 수 있듯이 실질적인 변화를 가져올 가능성이 가장 높은 활동은 정책과 관련된 활동입니다. 특히 인증 표준은 커리큘럼과 교육 환경의 변화를 이끄는 강력한 동인입니다. 인증 표준은 선도적인 교육 기관의 모범 사례와 교육 기관 외부의 정책 지침에 의해 주도됩니다. 이러한 수준의 변화를 위해서는 의료 시스템 및 전문 기관의 의사결정권자뿐만 아니라 보건 및 사회복지 전문가 교육을 직접 담당하는 사람들의 리더십이 필요합니다.
The conference statement highlights nine priorities for action over the next five years that we believe are necessary in order to embed patient involvement in the education of health and social care professionals. They are in the areas of policy, recognition and support, innovation, research and evaluation, and dissemination and knowledge exchange. Of these, the actions that are most likely to bring about substantive change, as evidenced by developments in the UK, are those related to policy. In particular, accreditation standards are powerful drivers for change in curriculum and educational settings. They are driven both by best practice within leading educational institutions and by policy directives external to them. Change at this level requires leadership from decision-makers in the health care system and professional bodies, as well as those directly responsible for the education of health and social care professionals.

리더, 교육자, 임상의가 교육 전반에 걸쳐 환자와의 협력 및 파트너십에 대한 기대치를 조기에 그리고 자주 모델링하고 설정하지 않으면 우리가 추구하는 향상된 결과, 즉 치료의 질 향상, 환자 안전 및 건강 결과 개선의 실현이 지연될 수 있습니다.Failure by leaders, educators and clinicians to model and set expectations of collaboration and partnerships with patients early and often across the continuum of education will delay the realization of the enhanced outcomes we seek: improved quality of care, patient safety and improved health outcomes.


Abstract

Purpose

The purpose of this paper is to present a statement about the involvement of patients in the education of health and social care professionals developed at an international conference in November 2015. It aims to describe the current state and identify action items for the next five years.

Design/methodology/approach

The paper describes how patient involvement in education has developed as a logical consequence of patient and public participation in health care and health research. It summarizes the current state of patient involvement across the continuum of education and training, including the benefits and barriers. It describes how the conference statement was developed and the outcome.

Findings

The conference statement identifies nine priorities for action in the areas of policy, recognition and support, innovation, research and evaluation, and dissemination and knowledge exchange.

Originality/value

The conference statement represents the first time that an international and multidisciplinary group has worked together to assemble in a single document specific priorities for action to embed the patient’s voice in health professional education.

Keywords

Citation

Towle, A., Farrell, C., Gaines, M.E., Godolphin, W., John, G., Kline, C., Lown, B., Morris, P., Symons, J. and Thistlethwaite, J. (2016), "The patient ' s voice in health and social care professional education: The Vancouver Statement", International Journal of Health Governance, Vol. 21 No. 1, pp. 18-25. 

Publisher

Emerald Group Publishing Limited

Copyright © 2016, Emerald Group Publishing Limited

의학교육에서 환자참여 (Understanding Medical Education, Chapter 15)
15 Patient Involvement in Medical Education
John Spencer1, Judy McKimm2, and Jools Symons3
1Newcastle University, Newcastle, UK
2College of Medicine, Swansea University Medical School, Swansea, UK
3Faculty of Medicine and Health, Leeds University, Leeds, UK

소개
Introduction

제 방법은 (학생들을) 매일 공립 병원에 있는 환자들을 진료하러 데려가서 환자의 증상을 듣고 신체적 소견을 볼 수 있도록 직접 의료 실습으로 안내하는 것입니다. 그런 다음 학생들에게 환자에게서 무엇을 발견했는지, 질병의 원인과 치료 원칙에 대한 그들의 생각과 인식에 대해 질문합니다.
My method (is to) lead my students by hand to the practice of medicine, taking them every day to see patients in the public hospital, that they may hear the patient
s symptoms and see their physical findings. Then I question the students as to what they have noted in their patients and about their thoughts and perceptions regarding the causes of the illness and the principles of treatment.

실비우스(1614-1672) [1]
Sylvius (1614
1672) [1]

17세기 초 실비우스의 교육 방식은 매우 이례적이었을 것이며, 실제로 환자를 의학교육에 이렇게까지 참여시킨다는 것은 상당히 괴상한 일로 여겨졌을 것입니다. 적어도 히포크라테스로 거슬러 올라가는 전통적인 의사 수습 과정은 환자와의 접촉에 의존했지만, 13세기 유럽 대학에서 의학교육이 공식적으로 확립될 무렵에는 환자가 거의 '사라진' 상태였습니다. 르네상스 이후가 되어서야 대학에서 병상 경험을 도입하기 시작했습니다. 그리고 [18세기]에는 한 저자의 표현을 빌리자면, 학생들이 '병동을 돌아다니며' 시간을 보내면서 책으로 배운 내용을 보충해야 한다는 것이 '공리'가 되었습니다[2]. 환자 접촉을 통한 임상 경험은 점차 의학교육의 중심에 자리 잡았고, 20세기에 접어들면서 윌리엄 오슬러 경의 '환자 없이 텍스트를 가르치지 않는 것이 안전한 규칙이며, 최고의 교육은 환자 자신이 가르치는 것'[3]이라는 주장은 현대 의학교육의 수사학의 일부가 되었습니다. 
In the early seventeenth century Sylvius
teaching methods would have been unusual, indeed it would have been considered distinctly eccentric to involve patients in medical education to such a degree. Whilst the traditional physician apprenticeship dating back (at least) to Hippocrates relied on contact with sick people, by the time medical education was formally established in the universities of Europe in the thirteenth century, the patient had all but disappeared. It was not until after the Renaissance that universities began to introduce bedside experience. And by the eighteenth century it was, in the words of one author, axiomatic that students should supplement their book learning by spending time walking the wards [2]. Clinical experience through patient contact gradually assumed its place at the centre of medical education such that by the turn of the twentieth century, Sir William Oslers assertion that ‘it is a safe rule to have no teaching without a patient for a text, and the best teaching is that taught by the patient himself’ [3] had become part of the rhetoric of a modern medical education.

이렇게 진화하는 중심성에도 불구하고 임상 교육에서 환자의 역할은 [역사적으로 대체로 수동적]이었습니다. 최악의 경우, 불운한 병원 수감자는 침대 밑에 모여 있는 학생들에게 '아니오'라고 말할 수 없었고, '참여'보다는 '강요'에 가까웠습니다. 기껏해야 예의를 갖춰 대하더라도 환자는 [임상 교육이 이루어지는 매개체, 즉 '흥미로운 사례'에 지나지 않는 경우]가 많았습니다. 
Despite this evolving centrality, the patient
s role in clinical education has historically been largely passive. At worst, a hapless hospital inmate unable to say No to a gaggle of students at the foot of the bed; imposition more than involvement. Even at best, the patient, though treated with courtesy, was often no more than a medium, an interesting case, through which clinical teaching took place.

이 장에서는 의사 및 기타 의료 전문가 교육에 환자를 적극적으로 참여시키는 것의 중요성을 고려하고, 참여 모델을 설명하며, 이 주제에 대한 장단점 증거를 포함하여 점점 증가하는 문헌의 측면을 살펴보고, 문제점과 도전과제를 논의하고, 추가 조사할 영역을 식별합니다. 그러나 그 전에 먼저 용어에 대해 살펴보는 것이 중요합니다.
This chapter considers the importance of actively involving patients in the education of doctors and other health professionals, describes models of involvement, explores aspects of the growing literature on the subject, including evidence of benefits and disadvantages, discusses problems and challenges, and identifies areas for further inquiry. Before doing that, however, it is important that we first consider terminology.

환자, 사용자, 소비자
Patients, Users, and Consumers

이 분야의 용어는 논란과 혼란을 야기할 수 있는 잠재적인 원천이며, 문제도 복잡합니다. 사용되는 언어는 [가치와 권력 관계를 반영]하고 강한 감정을 불러일으키며 문헌 검색과 같은 학술 활동과 이해관계가 있는 [그룹 간의 협업을 저해]할 수 있습니다[4, 5]. 사람들이 선호하는 [설명 방식에 대한 견해는 매우 다양]하며, 선호도와 언어는 시간이 지남에 따라 변화합니다[5]. 이 장에서는 간결성을 위해 주로 '환자'(그리고 해당되는 경우 '보호자')라는 용어를 사용하는데, 이는 여러 가지 한계에도 불구하고 [의학 교육에서 가장 널리 인식되는 용어]이기 때문입니다(전문가와 국가, 사용자 그룹에 따라 용어가 다르지만)(상자 15.1 참조). 우리는 '환자'를, 현재 치료를 받고 있는지 여부에 관계없이, 건강 문제가 있는 사람과 건강한 사람 모두를 의미하기 위해 사용하지만, 이것이 논쟁의 여지가 있고 모든 사람의 선호를 인정하지는 않을 것임을 알고 있습니다. 또한 우리는 ['현장에서의' 언어의 힘]을 염두에 두는 것이 중요하다는 점을 인식하고 있습니다[4]. 용어의 문제는 [환자가 점점 더 적극적으로 수행하는 역할을 설명]하는 데에도 적용됩니다. 강사, 교육자, 전문가, 동료, 멘토 등 다양한 용어가 사용되고 있습니다.
Nomenclature in this area is a potential source of controversy and confusion, and the issues are complex. The language used reflects values and power relations, generates strong emotions, and may impair both scholarly activity, such as searching the literature, and collaboration between interested groups [4, 5]. Views vary greatly about how people prefer to be described, and preferences and language change over time [5]. For simplicitys sake we will mainly use the term patient (and, where relevant, carer) throughout this chapter, because, for all its limitations, it is probably the most widely recognised term in medical education although terminology differs amongst user groups as well as different professionals and countries (see Box 15.1). We use ‘patient’ to mean both people with health problems, whether or not they are currently receiving care, and healthy people, although we recognise that this may be contentious and will not acknowledge everyones preference. We also recognise that on the ground it is important to be mindful of the power of language [4]. The problem of terminology also extends to describing the active roles increasingly played by patients. A wide range of terms are used, including instructor, educator, expert, associate, and mentor.


상자 15.1 중점 사항: 용어
BOX 15.1 FOCUS ON: Terminology

['사용자' 또는 '서비스 사용자']영국에서는 일반적으로 사용되지만 북미에서는 불법 약물 사용과 더 관련이 있을 수 있습니다. 또한, 이 용어는 [의료 서비스]를 보다 총체적인 관계 기반 상호 작용이 아닌 [단순한 기술적 서비스라는 의미를 내포]하고 있습니다. 그러나 '사용자'는 어느 정도의 적극적인 참여를 의미합니다.
User or service user is commonly used in the UK, but in North America may be more associated with illicit drug use. Furthermore, the term implies that medical care is simply a technical service rather than a more holistic, relationshipbased interaction. However, user does imply a degree of active participation.

['일반인']도 자주 사용되는데, 이는 환자가 반드시 아프거나 적극적인 치료를 받고 있지 않을 수도 있다는 점을 인정합니다. 그러나 '일반인'은 본질적으로 어떤 [긍정적인 속성이 아니라], '전문가'가 아닌 것(예: '전문가'가 아님)과 '의료 전문 지식이 없는 것'(예: 의료 전문 지식이 없음)으로 누군가를 정의합니다.
Lay is also used frequently; it acknowledges that the person may not necessarily be either sick or under active care. However, lay defines someone essentially not by any positive attributes, but by what they are not (i.e. not professional) and what they do not have (i.e. they dont have medical expertise).

['소비자', '고객' 또는 '손님'][상품으로서의 건강, 시장으로서의 의료]를 의미하므로 [상업적 관계를 암시]합니다.
Consumer, client, or customer connote health as a commodity and health care as a market, and thus suggest a commercial relationship.

['생존자' 및 '회복 중인 사람']은 주로 [암 및 정신 건강과 관련하여 사용하도록 제한]되는 용어입니다.
Survivor and person in recovery are terms mostly restricted to use in relation to cancer and mental health.

['환자'][병에 걸려 적극적인 치료를 받고 있다는 의미][수동성을 내포]하고 있으며 [치료 관계가 의료화]되어 있다는 점에서 가장 모호하지 않은 용어일 수 있습니다.
Patient is probably the most unambiguous term, although it implies that the person is sick and under active care; the term connotes passivity; and the care relationship is medicalised.

['표준화 환자']는 원래 자신의 [문제를 표준화된 방식으로 표현하도록 훈련된 실제 환자]로, ['시뮬레이션 환자'와 겹치는 경우]가 많습니다.  Standardised patients were originally real patients trained to present standardised representations of their own problems; the term often overlaps with simulated patient.  


환자 참여의 맥락
Context of Patient Involvement

환자와 대중을 의료 서비스에 참여시키는 것은 다양한 측면을 포괄할 수 있습니다. 예를 들어, Carman 등[6]은 '환자 및 가족 참여' 모델을 세 가지 중요한 차원으로 설명했습니다.

  • 참여 형태의 연속성(상담에서 파트너십 및 공유 리더십에 이르기까지), 
  • 참여가 발생할 수 있는 다양한 수준(직접 치료에서 정책 결정에 이르기까지),
  • 참여 여부와 정도에 영향을 미치는 요인

Engaging patients and the public in health care can cover many aspects. For example, Carman et al. [6] described a model of patient and family engagement with three critical dimensions:

  • the continuum of forms of engagement (from consultation to partnership and shared leadership),
  • the different levels at which engagement may occur (ranging from direct care to policy making), and
  • the factors influencing whether and to what extent engagement occurs.

[의료 서비스의 개발, 전달 및 관리에 대한 환자 참여]는 수십 년 동안 전 세계 보건 정책에 자리 잡았습니다. 영국을 예로 들면, 연속적인 보건 개혁의 물결은 '나 없이 나에 대한 결정은 없다'는 캐치프레이즈에 반영된 것처럼 환자와 대중의 참여가 NHS에서 일상적인 관행의 일부가 되어야 한다는 것을 목표로 해 왔습니다[7, 8]. 이 원칙은 이제 NHS 헌법에 명시되어 있으며, 영국에서 NHS는 '개인이 스스로 건강을 증진하고 관리할 수 있도록 지원해야 할 뿐만 아니라 NHS 서비스는 환자, 가족 및 보호자의 요구와 선호를 반영하고 이에 맞춰 조정되어야 한다'는 점을 분명히 하고 있습니다[9, 3페이지]. 이러한 발전은 필연적으로 의료 전문가의 교육과 훈련을 포함하게 되었으며[10], 일반 의학 위원회(GMC)의 최신 교육 및 훈련 표준에는 '의과대학 커리큘럼 개발은 환자, 가족 및 보호자의 의견을 반영해야 한다'는 요구 사항이 포함되어 있습니다[11]. GMC는 또한 환자와 대중의 참여에 대한 '보충 지침'을 작성했습니다 [12]. 이러한 추세는 의학교육이나 영국에만 국한된 것이 아닙니다[13].
Patient involvement in the development, delivery, and management of health care has been enshrined in health policy worldwide for several decades. Taking the UK as an example, successive waves of health reform have aimed to ensure that patient and public involvement should be part of everyday practice in the NHS [7, 8], reflected in the catchphrase
‘no decision about me, without me’. This principle is now enshrined in the NHS Constitution which is absolutely clear that the NHS (in England) ‘should support individuals to promote and manage their own health but also that NHS services must reflect, and should be coordinated around and tailored to, the needs and preferences of patients, their families and their carers’ [9, p. 3]. This development has inevitably encompassed the education and training of health professionals [10] and the latest standards for education and training from the General Medical Council (GMC) includes the requirement that ‘the development of medical school curricula must be informed by … patients, families and carers’ [11]. The GMC has also produced supplementary guidance on the involvement of patients and the public [12]. These trends are not confined to medical education nor to the UK [13].

국가 정책 의제 외에도, 의과대학은 '교육, 연구 및 봉사 활동을 그들이 봉사해야 하는 지역사회, 지역 및/또는 국가의 우선적인 건강 문제를 해결하는 방향으로 유도'하는 '사회적 책무성'을 입증해야 할 의무가 있습니다[14]. 사회적 책무성은 다음의 개념을 포괄하는 현대의 주요 담론으로 발전해 왔습니다. 

  • (직업과 사회 간의) '사회적 계약',
  • (의사와 기타 의료 전문가의) '사회적 책임',
  • (기관의) '사회적 반응'

Aside from national policy agendas, there is an obligation for medical schools to demonstrate ‘social accountability’ which involves schools directing ‘their education, research and service activities towards addressing the priority health concerns of the community, region and/or nation they have the mandate to serve’ [14]. Social accountability has evolved as a major contemporary discourse, embracing concepts such as

  • ‘the social contract’ (between professions and society),
  • ‘social responsibility’ (of doctors and other health professionals), and
  • ‘social responsiveness’ (of institutions).

 

울라드와 볼렌[15]은 의과대학이 '사회와의 유대를 통해 건강에 더 큰 영향을 미치기 위해 노력하고 이를 입증해야 하는' 과제를 강조하며, 이것이 바로 [사회적 책무성의 목적]이라고 주장합니다. 이들은 의과대학이 공식적인 프로그램과 '숨겨진 커리큘럼' 모두에서 [사회적 책무성에 대한 헌신]을 보여줘야 한다고 주장합니다. 이와 동시에 유사한 사회적, 정치적 세력의 영향을 받아 '전문직업성'의 개념이 재검토되고 재정의되었으며, 이는 교육에 분명한 영향을 미쳤습니다[16-18]. 전문직업성의 본질, 이론적 근거, 최선의 교육, 평가 및 연구 방법에 대한 논쟁이 계속되고 있지만, 전문직업성은 환자의 이익에 대한 헌신에 의해 뒷받침되며 '단순한 행동이 아닌 미덕, 더 깊은 태도, 실천적 지혜를 필요로 하는 것'이어야 한다는 데에는 대체로 동의하고 있습니다[19].
Woollard and Boelen [15] highlight the challenge for medical schools
to strive for and demonstrate greater impact on health through their bonds with society, which, they contend, is the very purpose of social accountability. They argue that medical schools must demonstrate a commitment to social accountability in both formal programmes and the hidden curriculum. At the same time, and influenced by similar social and political forces, the concept of professionalismhas been revisited and redefined, with obvious implications for education [1618]. While debate continues about the nature of professionalism, its theoretical basis, and how best to teach, assess, and research it, there is general agreement that professionalism is underpinned by a commitment to patients’ interests and must be ‘based on virtue, deeper attitudes rather than mere behaviour, and requiring of practical wisdom’ [19].

[기대치의 변화] 외에도, 이제 [건강 및 의료 치료의 심리적, 사회적 결과에 대한 인식]이 높아졌으며, 환자의 관점과 우선순위를 중심에 두는 '생물심리사회적 모델' 및 '환자 중심주의'와 같은 새로운 모델이 실천을 안내할 필요성이 커졌습니다[20, 21]. [가치관, 선호도, 질병에 대한 반응의 환자 간 차이]와 [이들이 치료 결과에 미치는 영향에 대한 지식]이 증가함에 따라 의료 전문가와 환자의 상호 작용이 중심이 되었습니다. 의학의 [기술적 복잡성]으로 인해 진단 테스트와 치료법 선택의 폭이 넓어지고 더 복잡한 개입이 가능해졌지만, [재정적 제약]으로 인해 의사는 종종 기대치와 실현 가능한 옵션 사이의 긴장을 헤쳐나가야 합니다. 
Aside from changes in expectations, there is now a greater appreciation of the psychological and social consequences of ill health and health care treatments, and the need for new models to guide practice, such as the ‘bio‐psychosocial model and ‘patient‐centredness, which put the patients perspective and priorities at the centre [20, 21]. Increased knowledge about variation between patients in values, preferences, and responses to illness and their effect on treatment outcomes has brought the health care professionals interaction with the patient to centre stage. And whilst the technical complexity of medicine offers greater choice of diagnostic tests and treatments and more complex interventions, financial constraints often lead to doctors having to navigate their way through the tensions between expectations and feasible options.  

이러한 발전은 [대중의 기대치의 변화와 병행]하여 발생했으며, 이러한 변화는 종종 [가부장제에서 파트너십으로 전환]하는 과정의 일부로 설명됩니다. [전문직에 대한 무비판적인 존중이 감소하고, 소비주의가 부상하고, 의료 서비스가 달성할 수 있는 것과 달성할 수 없는 것에 대한 이해]가 높아지면서 많은 환자들이 다음을 기대합니다[22].

  • 자신의 우려를 해결하고 요청을 경청받기,
  • 자신의 상태에 대해 충분히 정보를 얻기,
  • 치료의 위험에 대한 브리핑을 받기,
  • 치료에 대한 결정에 참여하기,
  • 자신의 상태를 관리하기 위한 교육과 지원 받기

These developments have occurred in parallel with changes in public expectations, changes often described as part of the move from paternalism to partnership. With the decline in uncritical deference to the professions, the rise of consumerism, and a greater understanding of what health care can and cannot achieve, many patients expect

  • to have their concerns addressed and their requests heard, and
  • to be fully informed about their condition,
  • briefed about risks of treatment,
  • involved in decisions about their care, and
  • educated and supported to manage their own conditions [22].

[공동 제작]은 지난 30~40년 동안 개발된 서비스 제공 모델로, [서비스 사용자의 기여가 가장 중요하다]는 점을 강조합니다[23]. [공동 제작]은 [사용자가 자신의 상황에서 전문가로 간주]되고 [전문가가 '해결사에서 촉진자'로 이동]하는 [권력의 재배치]를 포함합니다[23]. 이를 위해서는 [전문가와의 새로운 관계]가 필요하며, 모든 당사자는 새로운 역할을 수행하기 위한 교육이 필요합니다. 같은 기간 동안 [공동 의사 결정]은 임상적 만남을 위한 새로운 모델로 발전했습니다. 기본 윤리적 원칙은 [자기 결정이 바람직하며 임상의의 역할은 이를 지원하는 것]임을 인정해야 합니다. 공동 의사 결정은 그 효과를 뒷받침하는 증거 기반이 점점 늘어나고 있으며[24], 다양한 특정 의사소통 기술을 사용하여 임상 진료에서 효과적인 관계를 구축하는 데 달려 있습니다.
Co
production is a model of service delivery developed over the past 3040 years which emphasises the central importance of the contribution of service users [23]. Collaborative coproduction involves a relocation of power whereby the user is seen as an expert in their own circumstances, and professionals move from being fixers to facilitators[23]. It requires a new relationship with professionals, and all parties need training to take on new roles. Over the same period, shared decisionmaking has evolved as a new model for the clinical encounter. The underlying ethical principles require acceptance that selfdetermination is desirable and that the clinicians role is to support this. Shared decisionmaking for which there is a growing evidence base to support effectiveness [24] depends on building an effective relationship in the clinical encounter using a range of specific communication skills.

이러한 변화로 인해 [환자와 함께 일하는 것이 더욱 까다로워졌습니다]. 

  • 불확실한 상황에서 [환자가 선택권을 행사]할 수 있도록 지원해야 하고,
  • 환자가 이용 가능한 옵션과 관련된 [리스크와 위험을 이해]할 수 있도록 해야하며,
  • [선택에 대한 제한을 받아들이도록] 도와야 한다.

이러한 모든 것을 수행하는 방법을 배우려면 [환자의 의견이 필요]하며, [교육자]는 [환자의 권리와 요구를 존중]하면서 [학생과 수련의가 학습할 수 있는 가장 적절한 방법을 모색]해야 합니다[25].
Such changes make working with patients ever more demanding
for example,

  • supporting patients to exercise choice in situations of uncertainty,
  • enabling them to understand the options available and the risks and dangers involved, and
  • helping them appreciate restrictions on choice.

Learning how to do all these things needs input from patients and challenges educators to seek the most appropriate ways of enabling students and trainees to learn, whilst respecting the rights and needs of patients [25].

[의료 전문가 교육에 환자와 보호자의 적극적인 참여]는 정책 및 연구를 포함한 다른 영역에서의 참여에서 논리적으로 발전한 것입니다. 이는 의학, 간호, 사회복지, (비의사) 정신건강 전문가 교육에서 시작되었지만 작업치료, 약학, 물리치료와 같은 다른 분야로 확산되었습니다. 그럼에도 불구하고 이 글을 쓰는 시점에서 최근의 입장문을 인용하자면, '아직 교육 실무의 주류에 잘 정착되지 않았으며', '종종 특정 환자 집단에 국한되고 ... 파편화되어 교육 기관에 포함되지 않으며 적절한 인프라와 지속적인 리더십 및 자원이 부족하다'[26, 19페이지]고 합니다.
Active involvement of patients and carers in health care professional education was a logical development from involvement in other areas, including policy and research. It started in medicine, nursing, social care, and education of (non
physician) mental health professionals but has spread to other disciplines such as occupational therapy, pharmacy, and physical therapy. Nonetheless at the time of writing, to quote a recent position paper, it is still not well established in the mainstream of educational practice, and is often limited to a specific population of patients is fragmented and not embedded in the educational institution, and lacks appropriate infrastructure and sustained leadership and resources [26, p. 19].

환자 참여의 범위
Scope of Patient Involvement

많은 사람들이 '교육과정에 대한 환자 참여'를 교육, 학습 및 평가에 대한 직접적인 참여로 제한한다고 생각할 수 있으며, 실제로 이러한 영역이 이 장의 주요 초점입니다. 그럼에도 불구하고 환자는 교육 과정의 모든 측면에 기여할 수 있는 잠재력이 있습니다. 여기에는 다음이 포함됩니다:
Many people might assume that patient involvement in the curriculum was limited to direct involvement in teaching, learning, and assessment; indeed, these areas are the main focus of this chapter. Nonetheless, there is potential for people to make a contribution to all aspects of the educational process. These include the following:

- 학생 선발 및 입학
• student selection and admission

- 커리큘럼 개발
• curriculum development

- 코스 관리
• course management

- 교수 개발
• faculty development

- 실습 배치
• practice placements

- 프로그램 평가.
• programme evaluation.

그러나 최근의 여러 주요 문헌 검토에 따르면 위의 대부분의 영역에서 환자의 참여는 여전히 상대적으로 드문 것으로 나타났습니다. 여러 프레임워크가 환자 참여의 잠재적 범위를 탐색하는 데 도움이 되며, 여기서는 세 가지 프레임워크를 설명합니다: Tew 등[27]의 '환자 참여의 사다리', '캠브리지 프레임워크'[28], Towle 등[5]이 설명한 적극적 참여의 분류법.
However, several recent major literature reviews highlight that patient involvement in most of the above areas is still relatively unusual. A number of frameworks help us explore the potential scope of patient involvement, and here we describe three:

  • Tew et al.’s [27] ‘ladder of patient involvement’,
  • the ‘Cambridge framework’ [28], and
  • a taxonomy of active involvement described by Towle et al. [5].

 

환자 참여의 사다리
Ladder of Patient Involvement

Tew 등[27]은 개별 프로그램과 기관 내에서 환자의 참여를 확립하고 모니터링하는 데 사용할 수 있는 '참여의 사다리'를 설명합니다. 이 도구는 비의사의 정신건강 교육 및 훈련의 맥락에서 개발되었지만 교육 스펙트럼과 여러 분야에 걸쳐 적용될 수 있습니다(상자 15.2 참조).
Tew et al. [27] describe a 
ladder of involvement, which they propose can be used to establish and monitor patients involvement within individual programmes and institutions. The tool was developed in the context of nonphysician mental health education and training, but could be applied both across the educational spectrum and across disciplines (see Box 15.2).


박스 15.2 환자 참여의 사다리 [27]
BOX 15.2 Ladder of patient involvement [27]

1 관여하지 않음
No involvement

서비스 사용자나 보호자의 협의나 참여 없이 커리큘럼이 계획, 제공, 관리됩니다.
The curriculum is planned, delivered, and managed with no consultation or involvement of service users or carers.

2 제한적 참여
Limited involvement

지역 서비스 사용자 또는 보호자 그룹과 협력합니다. 서비스 사용자/보호자가 지정된 슬롯에서 '자신의 이야기를 들려주거나', 코스 계획 또는 관리, 학생 선발, 학생 평가 또는 프로그램 평가에 대한 자문을 받도록 초대됩니다. 비용은 제공되지만 전체 과정을 형성하는 데 참여할 기회는 없습니다.
Outreach with local service user or carer groups. Service users/carers invited to 
tell their story in a designated slot and/or be consulted about course planning or management, student selection, student assessment, or programme evaluation. Payment offered but no opportunity to participate in shaping the course as a whole.

3 참여 확대
Growing involvement

서비스 사용자/보호자가 계획, 제공, 학생 선발, 평가, 관리 또는 평가 중 최소 두 가지 이상에 정기적으로 기여합니다. 일반 방문 강사 요금으로 지불합니다. 단, [커리큘럼 콘텐츠, 학습 결과 또는 학생 선발]과 같은 문제에 대한 주요 결정은 서비스 사용자/보호자가 대표로 참여하지 않는 포럼에서 이루어집니다. 세션 전후에 일부 지원은 제공되지만 일관된 교육 및 감독 프로그램은 제공되지 않습니다. 학생으로서 프로그램에 참여하는 서비스 사용자 및 보호자에 대한 차별이 없습니다.
Service users/carers contribute regularly to at least two of the following: planning, delivery, student selection, assessment, management, or evaluation. Payment at normal visiting lecturer rates. However, key decisions on matters such as curriculum content, learning outcomes, or student selection made in forums in which service users/carers are not represented. Some support before and after sessions, but no consistent programme of training and supervision. No discrimination against service users and carers accessing programmes as students.

4 협업
Collaboration

서비스 사용자/보호자가 계획, 제공, 학생 선정, 평가, 관리 또는 평가 중 최소 세 가지에 전체 팀원으로서 참여합니다. [가치 선언문]으로 뒷받침됩니다. 서비스 사용자/보호자가 커리큘럼 콘텐츠와 같은 주요 결정에 기여합니다. 프로그램 기여자들이 모일 수 있는 시설과 정기적인 교육, 감독 및 지원 제공. 서비스 사용자 및 보호자가 학생으로서 프로그램에 참여할 수 있도록 장려하는 적극적인 조치.
Service users/carers involved as full team members in at least three of the following: planning, delivery, student selection, assessment, management, or evaluation. Underpinned by a statement of values. Service users/carers contribute to key decisions on matters such as curriculum content. Facility for contributors to the programme to meet and regular provision of training, supervision, and support. Positive steps to encourage service users and carers to access programmes as students.

5 파트너십
Partnership

서비스 사용자, 보호자, 직원은 [파트너십 가치에 대한 명시적인 선언]을 바탕으로 모든 영역에서 체계적이고 전략적으로 협력합니다. 모든 주요 결정은 공동으로 이루어집니다. 서비스 이용자 및 보호자가 실습 학습 평가에 참여합니다. 유도, 지원 및 교육을 제공하기 위한 적절한 자금이 지원되는 인프라. 프로그램과 독립 그룹 간에 체결된 보안 계약 및 계약에 따라 강사로 고용된 서비스 이용자 및 보호자. 서비스 이용자와 보호자가 아직 자격을 취득할 수 있는 위치에 있지 않더라도 학습 세션에 참여하도록 장려하기 위한 적극적인 조치.
Service users, carers, and staff work together systematically and strategically across all areas, underpinned by an explicit statement of partnership values. All key decisions made jointly. Service users and carers involved in the assessment of practice learning. Adequately funded infrastructure to provide induction, support, and training. Service users and carers employed as lecturers on secure contracts and/or contracts established between programmes and independent groups. Positive steps made to encourage service users and carers to join learning sessions, even if not (yet) in a position to achieve qualifications. 


캠브리지 프레임워크
The Cambridge Framework

스펜서 등[28]은 의학교육에서 환자의 역할을 검토하고 환자 참여에 대한 논의를 촉진하기 위한 프레임워크('캠브리지 프레임워크')를 제안했습니다. 이 프레임워크는 [환자, 학생, 교사가 상호 작용하는 맥락의 네 가지 속성]을 '누가?', '어떻게?', '어디서?', '무엇을?'이라는 제목 아래 기반으로 하며, 환자 참여를 계획하거나 평가할 수 있는 템플릿을 제공합니다.
Spencer et al. [28] reviewed the patient
s role in medical education and suggested a framework (the Cambridge framework) to facilitate discussion about patient involvement. It is based on four sets of attributes of contexts in which patients, students, and teachers interact, under the headings Who?, How?, Where, and What?, providing a template against which patient involvement can be planned or evaluated

누가?
Who?

여기에는 각 환자, 가족, 간병인의 개별적인 [배경, 문화, 경험, 기대치]가 반영됩니다. 환자는 [연령, 성별, 인종, 성적 지향, 정서적 및 지적 능력, 사회경제적 지위]뿐만 아니라 현재 나타나는 [임상적 문제]도 매우 다양합니다.
This reflects the individual background, culture, experience, and expectations of each patient, their family, and carers. Patients vary immensely in terms of the clinical problems with which they present, as well as their age, gender, ethnicity, sexual orientation, emotional and intellectual capacity, and socio
economic status.

어떻게?
How?

학생과 수련의는 다양한 교육 기회를 제공하는 다양한 환경(예: 병원 병동, 병원 및 지역사회 외래 진료소, 응급실)에서 일합니다. [교육 기회]는 만남이 계획된 만남인지 우연한 만남인지, 시간적 압박, 가능한 감독 등의 요인에 따라 달라집니다. 이러한 문제를 고려하면 교사가 의도한 학습 결과와 환경에 따라 [환자를 참여시킬 수 있는 방법]을 계획하는 데 도움이 될 수 있습니다.
Students and trainees work in a wide range of settings (such as hospital wards, hospital and community ambulatory clinics, emergency departments), which present different educational opportunities. These depend on factors such as whether encounters are planned or opportunistic, pressures of time, available supervision, and so on. Considering these issues may help teachers plan how patients may be involved based on the intended learning outcomes and the setting.

어디에서?
Where?

의료 서비스는 [다양한 장소와 환경]에서 이루어지며 맥락이 학습의 성격과 질에 영향을 미칠 수밖에 없음을 인식하고, 이 제목 아래에서 다루는 질문은 [장소, 안전, 정체성, 권력 관계]와 관련된 문제를 탐구합니다. '어디'에는 실습 병동과 같이 '실제' 환경인지 '시뮬레이션' 환경인지, '단일 전문가' 환경과 '다중 전문가' 환경을 대조하여 의사 혼자서 환자와 함께 학습하는 상황과 다양한 보건 및 사회복지 전문가가 함께 학습하고 일하는 상황을 구분하는 것도 포함됩니다.
Recognising that health care takes place in a wide range of locations and settings, and that context will inevitably influence the nature and quality of learning, questions addressed under this heading explore issues to do with place, safety, identity, and power relationships. The
Where? also includes whether it is a real or simulated environment, such as a training ward, and the contrast between uniprofessionalor multiprofessional settings to distinguish between situations in which doctors alone are learning with patients and those in which a range of health and social care professionals are learning and working.

어떤?
What?

이 속성은 '내용', 즉 제시된 임상 문제, 학습할 수 있는 특정 기술 및 지식, 기본 태도 및 가치를 다룹니다. 이러한 속성을 고려하면 교사는 특정 상황의 잠재력을 최대한 실현하고 환자와 학습자 모두에게 미칠 수 있는 영향을 평가하는 데 도움이 됩니다.
This set of attributes deals with
content: the clinical problems presented, the specific skills and knowledge that may be learned, and underlying attitudes and values. Consideration of these should help teachers realise the maximum potential of particular situations and assess the likely impact on both patients and learners.

적극적인 환자 참여의 분류법
Taxonomy of Active Patient Involvement

Towle 등[5]은 '캠브리지 프레임워크'와 '참여의 사다리'의 요소를 결합한 분류법을 제안하며, 이는 환자의 역할을 명확히 하고 연구 결과를 보다 쉽게 표현, 종합 및 비교할 수 있도록 도와준다고 주장합니다. 이 분류는 실제 환자 외에 환자를 접할 수 있는 다양한 방법을 고려하여 6단계의 5가지 속성에 기반한 참여의 연속성을 설명합니다(상자 15.3 참조).
Towle et al. [5] propose a taxonomy combining elements of both the
Cambridge Framework and ladder of involvement, which they argue helps both clarify the patients role and makes communication of research findings easier to articulate, synthesise, and compare. Their classification considers the wide variety of ways other than real patients in the workplace in which patients may be encountered, describing a continuum of involvement grounded in five attributes at six levels (see Box 15.3).

 

환자 참여의 수준
Levels of Patient Involvement

이 섹션에서는 상자 15.3에 설명된 각 참여 범주에서 의학교육자에게 발생할 수 있는 몇 가지 문제를 설명합니다.
In this section, we describe some of the issues that may arise for medical educators in each of the categories of involvement described in Box 15.3.

사례 및 시나리오
Cases and Scenarios

[종이 기반 사례]는 실제 환자 접촉을 보완하기 위해 오랫동안 사용되어 왔으며, 기술이 발전함에 따라 비디오 기반 및 전자 사례의 사용이 증가하고 있습니다. [가상 환자(VP)]의 사용은 1970년대 초에 처음 설명되었습니다. VP는 다음과 같이 정의되었습니다: '실제 임상 시나리오를 시뮬레이션하는 특정 유형의 컴퓨터 프로그램: 학습자가 의료 서비스 제공자의 역할을 모방하여 병력을 파악하고, 신체 검사를 수행하고, 진단 및 치료 결정을 내리는 것'[29]으로 정의되었습니다. 가상 환자는 [정적이거나 동적]일 수 있고, [수동적이거나 대화식]으로 사용될 수 있으며, [선형적이거나 분기적]일 수 있습니다[30].
Paper
based cases have long been used to supplement real patient contact, with videobased and electronic cases increasing in use as the technology has developed. The use of virtual patients (VPs) was first described in the early 1970s. A VP has been defined as a: specific type of computer program that simulates reallife clinical scenarios: learners emulate the roles of health care providers to obtain a history, conduct a physical examination, and make diagnostic and therapeutic decisions [29]. Virtual patients can be static or dynamic, used passively or interactively, and may be linear or branching [30].

일부 리뷰에서는 VP의 매우 다양한 용도에 대한 [증거 기반이 매우 취약]하다고 결론지었지만, 최근의 한 토론 논문에서는 PBL 사례, 대화형 강의 및 세미나, 형성 평가 및 총괄 평가와 같은 영역을 포함하여 커리큘럼에 VP가 포함될 정도로 VP의 신중한 적용에 [많은 진전이 이루어졌다]고 주장했습니다[31]. 이러한 발전의 원동력에는 국제적인 협업, 비용 절감, 더 나은 저작 시스템, 더 쉬운 보급 등이 있습니다. 실제 환자 접촉을 대체하기 위한 것은 아니지만, VP의 사용은 특히 이론적 및 경험적 관점에서 다양한 사례와 변형에 노출되어야 하는 임상 추론의 개발에서 임상 경험을 유용하게 보완할 수 있는 것으로 보입니다[31, 32]. 그러나 커리큘럼 내에서 가장 효과적인 설계, 순서 또는 균형 등에 대한 수준 높은 연구는 상대적으로 거의 이루어지지 않았습니다. 시뮬레이션 기반 교육 관련 분야에서 효과적인 교육 설계를 뒷받침하는 증거 기반 원칙을 고려하는 것이 도움이 될 수 있습니다. 여기에는 다양한 난이도, 반복적이고 분산된 연습, 인지적 상호 작용, 다양한 학습 전략, 개별화된 학습, 숙달 및 피드백이 포함됩니다 [33, 34]. 11장 참조. 
Whilst some reviews concluded that the evidence base to inform the very wide variety of uses of VPs was very weak, a more recent discussion paper contended that much progress had been made in the thoughtful application of VPs, to the point where their use has become embedded in curricula, including areas such as PBL cases, interactive lectures and seminars, and both formative and summative assessments [31]. Drivers of these developments include international collaboration, decreasing costs, better authoring systems, and greater ease of dissemination. Although not intended to replace authentic patient contact, the use of VPs appears to be able to usefully complement clinical experience
in particular, from both theoretical and empirical perspectives, in the development of clinical reasoning, requiring, as it does, exposure to multiple cases and variations [31, 32]. However, there has been relatively little highquality research into, for example, the most effective design, sequencing, or balance within the curriculum. Consideration of the evidencebased principles that underpin effective instructional design in the related field of simulation based education may be helpful. These include range of difficulty, repetitive and distributed practice, cognitive interactivity, multiple learning strategies, individualised learning, mastery, and feedback [33, 34]. See Chapter 11.

그러나 빠르게 진화하는 기술은 훨씬 더 현실감 있는 VP를 구축할 수 있는 잠재력을 가지고 있습니다. 폴튼과 발라수브라마니암은 '현재의 비교적 가벼운 VP를 진정한 대화형 환자 시뮬레이션, '전자 인간' 또는 '디지털 아바타'로 확장하여... 실제 환자 관리, 임상 및 의사소통 기술 훈련, 모든 시민의 건강 또는 질병을 모방할 수 있는 잠재적 기능을 제공하는 것을 고려할 수 있게 되었습니다'[31]라고 언급합니다. 이러한 발전은 [의료 교육자, 학습 기술자, 콘텐츠 전문가, 그리고 결정적으로 환자와 보호자 간의 새로운 협력]을 이끌어내야 할 것입니다. 그러나 VP의 유용성에 대한 문헌을 체계적으로 검토한 결과, [개발 비용이 많이] 들기 때문에 [리소스와 아이디어를 공유]할 수 있는 가상 커먼즈 또는 온라인 커뮤니티가 필요하다는 주의가 제기되었습니다[30].
However, fast
evolving technology has the potential to build VPs with far greater realism. As Poulton and Balasubramaniam note: It is now possible to consider the extension of the current relatively lightweight VP into a truly interactive patient simulation, an ehuman or digital avatar” … offering authentic patient management, clinical and communication skills training, and the potential capability to mimic the health or disease of any citizen[31]. This development will need to draw on new collaborations between medical educators, learning technologists and content experts, and, crucially, patients and carers. However, a note of caution was raised in a systematic review of the literature about the utility of VPs: they are expensive to develop, which begs the need for a virtual commons or online community where resources and ideas can be shared [30].

보다 총체적인 수준에서는 의료, 임상, 연구, 교육의 모든 측면에서 [내러티브 접근법]을 채택해야 한다는 요구가 증가하고 있으며, 모든 당사자에게 잠재적인 이점이 있다고 주장되고 있습니다[35, 36]. 1968년 널리 인용된 바바라 하디의 말처럼 '우리는 내러티브 속에서 꿈을 꾸고, 내러티브 속에서 백일몽을 꾸고, 내러티브로 기억하고, 예상하고, 희망하고, 절망하고, 믿고, 의심하고, 계획하고, 수정하고, 비판하고, 구성하고, 험담하고, 배우고, 미워하고, 사랑한다'[37, 5페이지].
On a more holistic level, there have been increasing calls to adopt a narrative approach in all aspects of health care, clinical practice, research,
and education, with potential benefits claimed for all parties [35, 36]. As the widely quoted Barbara Hardy noted in 1968 we dream in narrative, daydream in narrative, remember, anticipate, hope, despair, believe, doubt, plan, revise, criticise, construct, gossip, learn, hate and love by narrative [37, p. 5].

내러티브 기록의 한 종류는 Aronson[38]이 '자서전'이라고 부르는 것으로, 더 간단하게는 ['환자의 이야기'] 또는 더 냉소적으로 ['의학적 고해성사']라고 할 수 있습니다. 그는 약 300여 권에 달하는 책 길이의 자서전을 분석하고 그 특징을 분류했습니다. 이러한 [이야기를 읽고 성찰하는 것]은 의료 전문가가 교육과 실무 모두에서 환자를 더 잘 이해하고 공감하며 '교과서에서 배울 수 없는 것', 실제로 '다른 방법으로는 도달할 수 없는 것'을 가르치는 데 도움이 될 수 있습니다[35].
One kind of narrative account is what Aronson [38] called the
‘autopathography’, more simply referred to as a patients tale, or perhaps more cynically, the medical confessional. He analysed and classified characteristics of nearly 300 such booklength tales. Reading and reflecting on such stories may help health professionals, both in training and in practice, better understand and empathise with their patients, and teach them things they wont learn from textbooks, indeed that cannot be arrived at by any other means [35].

이러한 리소스를 [교육적으로 활용]할 수 있는 방법은 여러 가지가 있습니다. 파울리와 힉슨[39]은 교육에서 내러티브를 사용하기 위한 [간단한 프로세스]읽기, 토론, 촉진, 반응 분석, 적용에 대한 토론을 제안합니다. '이야기의 내용은 무엇인가요?', '나에게 어떤 영향을 미쳤나요?'와 같은 질문은 성찰을 촉진하고 학습자가 핵심 메시지에 집중하고 새로운 맥락에 적용하는 데 도움이 됩니다. 연습을 현실에 기반을 두면 관련성이 강화되어 학습자에게 동기를 부여하는 데 도움이 됩니다. 성찰과 토론을 위해 충분한 시간을 허용해야 합니다.
There are many ways in which such resources may be used educationally. Powley and Higson [39] suggest the following simple process for using written narratives in teaching: read, discuss, facilitate, analyse responses, and discuss applications. Questions such as What is the story about? and What effect did it have on me? promote reflection and help learners focus on key messages and apply in new contexts. Grounding the exercise in reality reinforces relevance, which in turn helps motivate learners. Sufficient time must be allowed for reflection and discussion.

텍스트 선택과 관련하여 아론슨은 '[감정적 표현]과 [분석적 담론] 사이에 현명한 균형을 제공해야 하며, [정보를 제공]하고 무엇보다도 나를 즐겁게 해야 한다'는 자신의 추천 기준을 제시했습니다[38]. 그는 자신의 글에서 '톱 10'의 책을 제안했지만, 그 글을 쓴 이후 더 많은 책이 출판되었고 지금도 계속 출판되고 있습니다.
In terms of choice of text, Aronson
s own criteria for recommending a book are that it should provide a judicious balance between emotional expression and analytical discourse, and that it should have informed, and above all entertained me [38]. He suggested a top ten books in his article, but many more have been and continue to be published since he wrote.

오늘날에는 인터넷이 이러한 이야기의 더 일반적인 출처일 것입니다. 흔한 질병이든 희귀한 질병이든 '구글'에 검색하면 '조회수'의 상당 부분이 [환자 또는 보호자가 해당 문제에 대해 작성한 개인 블로그]일 것입니다. '환자 목소리' 또는 '헬스토크'(박스 15.4 참조)와 같은 온라인 리소스를 쉽게 이용할 수 있습니다. 특정 목적에 맞게 다른 자료를 구입하거나 개발할 수도 있지만, 이에 필요한 비용, 시간, 전문성을 과소평가해서는 안 됩니다. 이 분야에 대한 문헌은 드물지만, 환자 경험을 보다 포괄적이고 정확하게 표현하기 위해서는 e-러닝 자료 설계에 환자와 보호자를 참여시키는 것이 중요합니다[40].
Perhaps a more commonly used source of such stories nowadays is the Internet.
Google any disease, common or rare, and a significant proportion of hits will be personal blogs about the problem, as either patient or carer. Online resources such as Patient Voices or Healthtalk (see Box 15.4) are readily available. Others can be purchased or developed to suit specific purposes, although the cost, time, and expertise required to do this should not be underestimated. The literature is sparse in this area, but involving patients and carers in designing elearning materials is selfevidently important to ensure that patient experiences are more comprehensively and accurately represented [40].

 

표준화된 환자
Standardised Patients

임상 환경에서 실제 환자로부터 배우는 것은 의학 교육의 핵심이며, 학습자가 다양한 출처에서 얻은 학습을 통합하고 종합할 수 있게 해줍니다. 실제로 '병상 교육'은 '의료 행위'를 구성하는 모든 기술적 및 비기술적 기술, 행동, 응용 지식을 임상 교사가 모델링하고 통합된 전체로서 학습할 수 있는 유일한 환경입니다. 
Learning from real patients in clinical settings is central to medical education, enabling learners to consolidate and synthesise learning from a range of sources. Indeed,
‘bedside teaching’ is the only setting in which all of the technical and nontechnical skills, behaviours, and applied knowledge that constitute ‘doctoring’ are modelled by clinical teachers and can be learnt as an integrated whole.

라마니는 '병상은 교사, 수련의, 환자 간의 [예기치 않은 삼각 상호작용]을 위한 완벽한 장소이며 ... 이러한 만남에서 의사 교사는 가르칠 수 있는 순간을 포착하는 데 주의를 기울여야 한다'[41]고 상기시킵니다.
Ramani reminds us that
the bedside is the perfect venue for unrehearsed and unexpected triangular interactions between teacher, trainees, and patient physician teachers should be vigilant about grabbing teachable moments [41] during these encounters.

'표준화된'(또는 '프로그램된') 환자는 1960년대에 Barrows와 Abrahamson[42]에 의해 처음 소개되었습니다. 원래는 교육과 평가를 위해 자신의 문제를 일관된 방식으로 표현하도록 훈련된 실제 환자였지만, 오늘날 '환자'는 일반적으로 '연극적 배경이 있든 없든, 환자의 질병을 시뮬레이션하도록 훈련된 건강한 사람'[43]이 될 것입니다(이 장의 뒷부분 참조). 
Standardised (or programmed) patients were first introduced by Barrows and Abrahamson [42] in the 1960s. Although originally real patients trained to represent their problem(s) in a consistent manner for the purposes of teaching and assessment, nowadays, in the words of Barrow himself, the patient will generally be a well person, with or without a thespian background, trained to simulate a patients illness [43] see the section later in this chapter.

임상 교육이 진행될 때마다 환자는 일반적으로 관련 당사자 중 [가장 수동적이고 취약한 위치]에 있습니다. 그럼에도 불구하고 대부분의 환자는 참여에 보람을 느끼고 기꺼이 참여하며, 종종 학생들이 '배워야 한다'는 것을 인식하고 있다고 말합니다. 그러나 환자가 교육에 참여할 것이라고 암묵적으로 가정해서는 안 되며, 환자의 의사와 감정은 항상 존중되어야 하며, 어떤 결정을 내리더라도 치료와 돌봄에 영향을 미치지 않는다는 사실을 알아야 합니다. 환자에게는 어떤 환경에서든 학습자가 함께 있고 치료를 제공할 수 있다는 사실을 항상 알려야 합니다. 이를 통해 환자는 첫 만남에 대비하고 불안감을 해소할 수 있습니다(이 장 뒷부분의 '윤리적 문제' 섹션 참조). 또한 환자에게 세션의 목표, 교사와 학습자가 세션에서 얻고자 하는 것, 환자에 대한 기대치(예: 피드백 제공 요청 여부)에 대해 명시적으로 브리핑하면 이점이 있습니다. 환자는 참석할 수 있는 학습자의 수와 수준을 알고 있어야 하며, 각자의 역할을 명확히 하고 구두 또는 서면 동의를 얻어 적절히 기록해야 합니다. 교육과 임상 실습에 대해 의식적으로 생각하기보다는 세 명의 '플레이어' 모두의 관계 발전에 관심을 기울이는 '세 사람 또는 그룹이 참여하는 토론 또는 대화'[45]인 McKimm의 [44] 임상 '트리아로그'는 교사가 환자 및 학습자와 함께 적극적으로 계획하고 작업하는 데 도움이 될 수 있는 유용한 모델입니다.
Whenever clinical teaching occurs, patients are usually the most passive and vulnerable of the parties involved. Notwithstanding this, most patients find involvement rewarding and are willing participants, often commenting that they recognise that students have to learn. However, it should not be tacitly assumed that patients will engage in teaching; their wishes and feelings should always be respected, and they should know that, whatever their decision, their treatment and care will not be affected. Patients must always be informed that learners may be present and may be providing care, whatever the setting. This allows them to prepare for the initial encounter and to raise anxieties (see the section on Ethical Issues later in this chapter). There are also benefits from briefing patients explicitly about a sessions aims, what teacher and learners hope to get out of it, and expectations of the patient, for example, whether they will be asked to give feedback. Patients need to be aware of the number and level of the learners who may be present, each persons role should be clarified, and verbal or written agreement obtained and recorded as appropriate. McKimms [44] clinical ‘trialogue’ a discussion or conversation in which three persons or groups participate[45] that attends to the developing relationships between all three players, rather than consciously trying to think about teaching and clinical practice is a useful model that may help teachers plan and work actively with patients and learners.

 

환자가 자신의 경험을 공유하고 환자 교사가 교육 및/또는 평가에 참여하기
Patients Share their Experience and
Patient Teachers Involved in Teaching and/or Evaluation

교육을 위해 실제 환자를 선택하는 것은 종종 기회주의적이지만, 학부 및 대학원 교육에서 훈련된 환자를 활용하는 보다 [구조화된 접근 방식]이 점점 더 많이 사용되고 있습니다. 이러한 환자 교육자는 말기 환자나 정신 건강 문제가 있는 환자 등 임시 교육으로 인해 환자에게 잠재적인 해를 끼칠 수 있다는 우려가 제기될 수 있는 분야를 포함하여 다양한 환경에서 모집할 수 있습니다.
Selecting real patients for teaching is often opportunistic, but a more structured approach employing trained patients is being increasingly used within undergraduate and postgraduate training. Such patient educators can be drawn from many settings, including areas where concerns might be expressed about potential harm to patients from ad
hoc teaching encounters, such as those who are terminally ill or have mental health problems.

[전문가 환자]의 개념은 더 광범위한 환자 참여 의제에 포함되어 있습니다. 예를 들어, 영국에서는 '전문가 환자 이니셔티브는 ... 환자를 의료 서비스의 중심에 두려는 정부의 노력의 일환이며 ... 임상 거버넌스 의제의 혁신적 초점의 일부입니다'[46]. 이는 [주로 장기 질환을 가진 사람들]이 '자신의 치료에서 주요 의사 결정권자가 될 수 있도록'[46] 돕기 위한 것이었습니다. 이 프로그램은 환자 스스로를 위한 교육 프로그램의 지원을 받았으며, 증상(통증, 피로, 우울증 등)의 자가 관리와 관련하여 자신감과 자기 효능감에 변화를 가져왔다는 일부 증거가 있습니다[47]. 그러나 이러한 프로그램의 결과를 조사한 여러 무작위 대조 시험의 결과는 의료 서비스 이용에 영향을 미치지 못했습니다 [48]. 전문 환자는 의료 전문가 교육에서 보다 적극적인 역할을 할 수 있도록 준비하기 위해, 개별 환자의 여정을 공유함으로써, 다른 환자의 지원과 격려가 필요할 수 있습니다 [49].
The concept of the expert patient is enshrined in the wider patient involvement agenda. In the UK, for example, the
expert patient initiative was part of the governments commitment to place patients at the heart of health care which is part of the transformational focus of the clinical governance agenda [46]. This was primarily targeted at people with longterm conditions to help them become key decision makers in their own care [46]. It was supported by an educational programme for the patients themselves, and there is some evidence that it resulted in changes in confidence and selfefficacy in relation to selfmanagement of symptoms (such as pain, tiredness, and depression) [47]. However, results of several randomised controlled trials looking at outcomes of such programmes failed to show any effect on use of health care [48]. Expert patients may need support and encouragement, ideally from other patients through sharing individual patient journeys, to prepare them for a more active role in the education of health professionals [49].

현재 적극적인 치료를 받고 있지 않은 환자와 함께 일할 때, 특히 임상적 요구가 허용하는 것보다 더 많은 시간이 필요할 때 경험이 없는 학습자를 가르칠 때 이점이 있습니다. 환자 교육자는 다음과 같은 이점이 있습니다:
There are advantages in working with patients who are not under current active care, particularly when teaching inexperienced learners when more time needs to be taken than clinical demands allow. Patient educators have the benefits of being:

- 의료 교육에 관심이 있는 [동기 부여된 개인]
motivated individuals with an interest in medical training

- 실제 임상 기록과 임상 징후가 있는 ['실제'(시뮬레이션이 아닌) 임상 실습]
• ‘real (not simulated) with authentic clinical histories and possibly clinical signs

- 손의 압력이나 병력 청취 방식 등 환자의 관점에서 [구조화된 피드백]을 제공할 수 있다.
able to give structured feedback from a patients perspective, such as the pressure of the hands or the way in which a history is taken.

류마티스 질환을 앓고 있는 환자 강사(PI)는 대부분의 연구에서 학습자와 PI 모두 높은 수준의 만족도를 보였으며, 특히 질환을 앓고 있는 생활의 영향에 대해 이야기할 때 학습자의 지식과 기술을 향상시키는 데 임상의사만큼 효과적일 수 있다는 사실이 잘 설명되어 있습니다[50]. 환자 교사의 또 다른 독특한 범주는 '산부인과 교육 보조원'으로, 스스로 검진을 통해 골반 및 유방 검사를 가르치도록 훈련받은 여성입니다. 이들은 북미와 스칸디나비아에서 널리 사용되고 있으며 다른 서구 국가에서도 점점 더 많이 사용되고 있지만, 학생들이 친밀한 검사를 수행하는 것에 대해서는 여전히 많은 논란이 있습니다 [51]. 이러한 교육은 일단 교육을 받으면 세션을 진행하는 데 거의 도움이 필요하지 않으므로 임상 튜터의 업무 부담을 덜어줄 수 있습니다. 한 비교 연구에서 어소시에이트가 가르친 학생들은 그렇지 않은 학생들보다 부착 종료 평가에서 더 나은 기술을 보였습니다[52]. 
Patient instructors (PIs)
with rheumatological conditions have been well described, with most studies demonstrating high levels of satisfaction from both learners and PIs, and that PIs can be as effective as clinicians in enhancing learners
knowledge and skills, especially in talking about the impact of living with the condition [50]. Another distinctive category of patient teacher is the ‘gynaecology teaching associate’, women trained to teach pelvic and breast examination through examination of themselves. They are widely used in North America and Scandinavia, and increasingly in other Western countries, although there is still much debate about students performing intimate examinations [51]. Such teaching can help free up clinical tutors as, once trained, the associates need little assistance in running sessions. They have been found to be acceptable and effective in one comparative study students taught by associates had better skills in an endofattachment assessment than students who were not [52].

[학습 장애가 있는 사람, 모국어가 모국어가 아닌 사람, 말기 환자, 노숙자, 망명 신청자 및 난민, 약물 오남용 문제가 있는 사람] 등 [전통적으로 '접근하기 어려운' 커뮤니티]를 포함하여 [특정 그룹]은 전문 교육 프로그램에서 과소 대표되어 왔습니다. 이러한 환자들을 적극적으로 참여시키는 데는 특별한 어려움이 있지만, 예를 들어 저자의 기관 중 한 곳에서는 난민들이 의과대학에 와서 자신의 이야기를 들려주고 자신의 경험에 대한 질문에 답하는 등 성공적인 개입이 이루어졌으며, 이러한 세션은 모든 당사자들로부터 항상 긍정적인 평가를 받았습니다.
Certain groups have been under
represented in professional education programmes, including people with learning disabilities, those whose first language is not the majority language, and the terminally ill, as well as traditionally hardtoreach communities such as the homeless, asylum seekers and refugees, and people with substance misuse problems. Actively involving such patients presents particular challenges but successful interventions have been described, for example in one of the authors institutions refugees came into the medical school to tell their stories and answer questions about their experience; the sessions were invariably positively evaluated by all parties.

[간병인]은 영국에서 8명 중 1명이 간병인인 것으로 알려져 있는 또 다른 중요한 인구 집단으로, 자신의 건강 및 정서적 요구가 간과되는 경우가 많으며 잠재적으로 많은 것을 제공할 수 있는 중요한 집단입니다(https://www.carersuk.org/news-and-campaigns/ press-releases/facts-and-figures 참조). 예를 들어 치매에 대한 학습에서 보호자의 관점을 중심에 두는 혁신적인 세션이 설명되었습니다[53].
Carers represent another large and important population (one in eight people are said to be carers in the UK, for example, see: https://www.carersuk.org/newsandcampaigns/ pressreleases/factsandfigures), whose own health and emotional needs are often overlooked, and who potentially have a great deal to offer. Innovative sessions have been described which put the carers perspective at the centre, for example in learning about dementia [53].

잘 관리된 환자 참여는 환자와 학습자 모두에게 도움이 될 수 있습니다. 문제는 환자와 학습자 모두의 요구에 민감하게 반응하고 참여할 준비가 되어 있다고 느끼는 적절한 환자를 식별하는 것입니다. 상자 15.5 및 상자 15.6을 참조하십시오.
Well
managed patient involvement can benefit both patients and learners. The challenge is to be sensitive to both patients and learners needs and to identify suitable patients who feel equipped to participate. See Box 15.5 and Box 15.6.


박스 15.5 사례 연구: 전문직 간 건강 멘토 프로그램 UBC [54]
BOX 15.5 Case study: Interprofessional health mentors programme UBC [54]

브리티시 컬럼비아 대학교(UBC)의 한 프로그램에서는 다양한 분야의 학생들이 [3학기 동안 장기 질환을 앓고 있는 지역사회 주민 한 명과 결연]을 맺었습니다.
In a programme at the University of British Columbia (UBC), students from different disciplines were attached to a person in the community with a long
term condition for a period of three semesters.

여섯 차례의 주제별 모임 동안 건강 멘토('경험별 전문가')는 커뮤니티 그룹을 통해 모집된 학생들과 협력하여 환자의 관점에서 장기 질환을 앓고 있는 삶에 대해 배우고 전문가 간 역량을 개발하도록 도왔습니다. 이러한 '자기 관리형 학습 커뮤니티'의 참가자들은 스스로 질문을 탐구하고 목표를 달성하기 위해 창의적으로 접근하도록 장려되었습니다. 프로그램의 3분의 2에 해당하는 심포지엄을 통해 아이디어를 공유하고 진행 상황을 되돌아볼 수 있었습니다.
During six themed meetings, the health mentors (
expertsby experience recruited through community groups) worked with students to help them learn about living with a longterm condition from the patients perspective, and to develop interprofessional competencies. Participants in these selfmanaged learning communities were encouraged to explore their own questions and to be creative in their approach to working towards the goals. A symposium twothirds of the way through the programme enabled sharing of ideas and reflection on progress.

이 프로그램은 멘토와 학생 모두에게 매우 유익하고 높은 평가를 받았습니다. 학생들은 협업의 이점과 환자의 전문성 및 수완을 인식하는 등 다양한 학습 결과를 문서화했습니다. 멘토는 자신의 '완전한 여정'을 설명할 수 있다는 점과 '환원'할 수 있는 기회를 통해 혜택을 얻었습니다. 모든 당사자는 장기적인 관계의 중요성을 인정했습니다.
The programme was rated very highly and as beneficial by mentors and students alike. A wide range of learning outcomes were documented by students, for example recognising the benefits of collaboration and the expertise and resourcefulness of patients. Mentors benefited from being able to describe their complete journey, and the opportunity to give back. All parties acknowledged the importance of longterm relationships.

[성공의 열쇠로 네 가지 요인]이 확인되었습니다:
Four factors were identified as key to success:

- 교수진이 조력자 역할을 하는 환자 중심 학습의 고유성
 the uniqueness of patient
centred learning, with faculty acting as facilitators

- 지역사회 조직과의 지속적인 파트너십
 sustained partnerships with community organisations

- 단순함 유지
 keeping things simple

- 다양성, 창의성 및 유연성 장려.
 encouraging diversity, creativity and flexibility.


상자 15.6 중점 사항: 시신 기증
BOX 15.6 FOCUS ON: Body donation

의사와 기타 보건 전문가 교육에 개인이 기여할 수 있는 궁극적인 기여는 아마도 시신 기증일 것입니다. 시체 해부는 수 세기 동안 해부학 교육의 중심이었지만, 학생들이 해부 실습 경험을 해야 하는지, 아니면 아예 시체에 노출될 필요가 있는지에 대해서는 최근 논쟁의 대상이 되고 있습니다.

  • 지지자들은 해부 실습이 입체적인 시각과 변이에 대한 통찰력을 제공하고, 손재주, 기본 수술 기술, 팀워크와 같은 전문성을 기르며, 인문학적 가치와 죽은 자에 대한 존중을 증진한다고 주장합니다.
  • 비평가들은 시체 노출의 잠재적인 비인간화 효과를 강조하며, 이는 시대에 뒤떨어진 '통과의례'이며 현대 기술, 영상, 대화형 멀티미디어, 석고 모형, 바디 페인팅, 라이프 드로잉을 사용하는 대체 교육 방법이 더 매력적인 방식으로 학습을 촉진할 수 있다고 주장합니다[62, 63].

시체 사용에는 다양한 법적, 윤리적 규정이 적용되며 문화적, 종교적 차이(예: 미소유, 미동의 시체 사용의 허용 여부)를 반영하여 국가마다 상당한 차이가 존재합니다. 이로 인해 사전 동의, 가족과의 연락, 추모 서비스, 상업화 금지 등을 포함하는 공통 프레임워크의 채택이 요구되고 있습니다[64]. 
Probably the ultimate contribution a person can make to the education of doctors and other health professionals is body donation. Cadaveric dissection was central to anatomy education for several centuries, but whether students need to

  • have hands‐on experience of dissection or even be exposed to human cadavers at all has been subject to recent debate. Proponents argue that it provides a three‐dimensional perspective, insights into variation, develops manual dexterity, basic surgical skills, and aspects of professionalism such as team working, and promotes humanistic values and respect for the dead.
  • Critics highlight the potentially de‐ humanising effect of exposure to cadavers, arguing that it is an outdated ‘rite of passage’, and that alternative teaching methods using modern technology, imaging, interactive multi‐media, plastinated models, body painting, and life drawing, have the potential to promote learning in a more engaging way [62, 63].

Use of cadavers is subject to various legal and ethical regulations and considerable variation between countries exists reflecting cultural and religious differences (e.g. concerning the acceptability of using unclaimed, unconsented bodies). This has resulted in calls for the adoption of a common framework which includes informed consent, liaison with families, services of commemoration, and discouraging commercialisation [64].

시신 기증이 복잡한 문제라는 점 외에는 [사람들이 시신을 기증하는 동기]에 대해 알려진 바가 상대적으로 거의 없습니다.

  • 네덜란드에서 시신 기증자를 대상으로 한 설문조사에서는 사후에 유용하게 쓰이고 싶다는 욕구, 장례식에 대한 부정적인 태도(예: 가족에 대한 비용 또는 부담), '시스템'에 대한 감사의 표현이라는 세 가지 주요 차원을 확인했습니다[65].
  • 뉴질랜드, 남아프리카공화국, 아이레에서 실시한 유사한 설문조사에서 응답자의 80%가 의료를 돕고 싶다는 의사를 표명했습니다[66].
  • 그러나 인도의 동시대 지역사회 설문조사에서는 시신 기부에 대한 인식 부족과 상당한 부정적 인식이 확인되었는데, 이는 부분적으로 종교적 신념 및 관습과 관련이 있으며 시신이 존중받을 수 있을지에 대한 우려와 함께 나타났습니다[67].

Relatively little is known about the motivation of people to donate their bodies, other than it is a complex issue.

  • A survey of donors in the Netherlands identified three main dimensions: a desire to be useful after death, negative attitudes to funerals (e.g. expense or burden placed on families), and an expression of gratitude to ‘the system’ [65].
  • In a similar survey in New Zealand, South Africa, and Eire, 80% of respondents expressed a desire to help medical science [66].
  • A contemporaneous community survey in India, however, identified lack of awareness of and considerable negativity towards body donation, partly related to religious beliefs and customs, along with concerns about whether bodies would be treated with respect [67]. 

동등한 파트너로서의 환자 교사
Patient Teachers as Equal Partners

의학교육에서 [이러한 수준의 환자 참여는 드문 일]이지만, 몇 가지 주목할 만한 예외를 제외하고는 다른 분야, 특히 (비정신과) 정신건강, 간호 및 사회복지 교육에서 이러한 모델이 개발되었습니다. 다양한 과정을 통해 도출된 가이드라인과 권고안이 발표되었으며[55-57], 영국의 환자 연구 참여에 관한 지침은 전문직 교육과 관련될 수 있는 문제를 강조하고 있습니다[58]. GMC와 영국의학협회는 의학 교육 및 훈련에 대한 환자의 적극적인 참여에 대한 조언을 발표했습니다[12, 59].
It is unusual in medical education to find this level of involvement, with some notable exceptions, but models have been developed in other disciplines, particularly (non
psychiatric) mental health, nursing, and social care education. Guidelines and recommendations derived through a variety of processes have been published [5557]. and UK guidance about involving patients in research highlights issues that may be relevant to professional education [58]. Both the GMC and British Medical Association have published advice about active patient involvement in medical education and training [12, 59].

 

기관 차원의 환자 참여 비율
Patients Involved at the Institutional Level

이 수준의 참여는 이전 단계보다 훨씬 드뭅니다. 영국에서 가장 좋은 사례 중 하나는 워릭 대학교[60]에 기반을 두고 있으며 워릭 대학교와 코벤트리 대학교, 보건 및 사회복지 서비스 사용자 및 보호자, NHS 간의 파트너십인 대학/사용자 교육 및 연구 활동 파트너십(UNTRAP)입니다. 환자들은 다양한 수준에서 참여하며, 일부는 일회성 이벤트에 참여하기도 하고 일부는 더 많이 참여하기도 합니다. 서비스 사용자, 보호자, 학계, 전문가가 서로의 경험을 공유하면 모두에게 도움이 된다는 것이 UNTRAP의 핵심 철학입니다. 환자와 보호자는 2013년에 시작된 워릭 의과대학의 사례 기반 커리큘럼을 전략적으로 개발하는 데 도움을 주었으며, 커리큘럼 전반에 걸쳐 적극적으로 참여하고 있습니다. UNTRAP은 파트너십 협력을 위한 최초의 공인 교육도 개발했습니다[61]. 다른 제도적 접근 방식도 설명되었습니다 [27]. 
Involvement at this level is even rarer than at the previous one. One of the best examples in the UK is the Universities/Users Teaching and Research Action Partnership (UNTRAP), based at Warwick University [60], and which is a partnership between Warwick and Coventry universities, users of health and social care services and their carers, and the NHS. Patients are involved at different levels, some in one
off events, and others more heavily. The central philosophy of UNTRAP is that everyone will benefit if service users, carers, academics, and professionals share their experience. Patients and carers helped strategically develop Warwick Medical Schools casebased curriculum launched in 2013 and are active throughout the curriculum. UNTRAP have also developed the first accredited training for partnership working [61]. Other institutional approaches have also been described [27].

 

장점과 단점
Benefits and Disadvantages

환자와 직접 접촉하지 않고 의사를 교육한다는 생각은 오늘날에는 터무니없는 것으로 간주될 것입니다. 의과대학은 이를 극대화하기 위해 노력하고, 교사와 관리자는 이를 제공하기 위해 노력하며, 학생은 가능한 한 많은 것을 요구하고, 환자는 기꺼이 도와주려고만 합니다. 대학원 수준에서는 임상 실습을 기반으로 한 실무 교육이 점점 더 강조되고 있기 때문에 환자 접촉은 분명히 중요합니다. 400편이 넘는 관련 논문[68]이 확인된 가장 포괄적인 참고 문헌 중 하나인 상당한 문헌이 축적되어 이론적 이점에 대한 확증을 제공합니다. 환자와 학습자 간의 접촉은 일반적으로 매우 호평을 받고 있으며, 환자에게는 명백한 부작용이나 불이익이 상대적으로 적고 학습자에게는 심지어 더 적다.

  • 예를 들어, 환자들은 자신의 상태에 대한 '전문가' 및/또는 모범으로 행동하고, 보여주고 말하며, 전문적인 기술과 태도 개발을 돕고, 학습자의 자신감을 높이는 등 자신의 기여를 인정합니다[69].

The thought of training doctors without direct patient contact would nowadays be considered absurd. Medical schools aspire to maximise it, teachers and administrators strive to deliver it, students demand as much as possible, and patients seem only too willing to help. At the postgraduate level, with increasing emphasis on inservice training grounded in clinical practice, patient contact is obviously crucial. A significant literature has accumulated one of the most comprehensive bibliographies identified over 400 relevant papers [68] providing corroboration for some of the theoretical benefits. Contact between patients and learners is generally very well received, with relatively few apparent adverse effects or disadvantages for the former, and even fewer for the latter.

  • Patients recognise their contribution – for example, by acting as ‘experts’ in and/or exemplars of their condition, showing and telling, aiding the development of professional skills and attitudes, and boosting learners’ confidence [69].

대부분의 연구에서 환자에게 뚜렷하고 대체로 긍정적인 결과를 보고하고 있지만, [고통스럽고 충격적인 경험을 이야기하는 것]이 환자와 학생 모두에게 [정서적, 심리적으로 미칠 수 있는 영향]과 [반복적인 이야기 전달]을 통한 일부 환자의 ['전문화'에 대한 우려]가 존재합니다[70]. 현상학적 접근법을 사용한 또 다른 연구에서는 대부분의 환자들이 임상 교육에 참여하는 것이 실제로는 일상적이라는 특징이 있다는 것을 보여주었습니다[71].
Whilst most studies report distinctive, largely positive, outcomes for patients, concerns exist about the possible emotional and psychological impact on both patients and students of recounting painful and traumatic experiences, and the ‘professionalisation’ of some patients through repeated telling of their stories [70]. Another study using a phenomenological approach, showed that involvement in clinical teaching for most patients was, in fact, often characterised by its ordinariness [71].

이러한 문헌을 뒷받침하는 대부분의 연구는 설명적이고, 이론에 근거하지 않으며(아래 참조), 자기 보고에 기반하는 경우가 많고, 교육적 개입이나 연구 설계에 대한 정보가 충분하지 않다는 점에서 한계가 있습니다. 장기적인 영향을 평가하려는 시도는 거의 없었으며, 서로 다른 용어 사용으로 인한 문제와 함께 서로 다른 출처에서 출판물이 발견되어 문헌을 검색하고 종합하는 데 어려움을 겪었습니다[5]. 그럼에도 불구하고 지난 몇 년 동안 여러 종합적인 리뷰가 발표되어 전반적으로 장점과 단점에 대한 일관된 결과를 보여주고 있습니다[4, 5, 10, 27, 72-76]. 박스 15.7 참조.
Most of the research informing this literature has limitations in that it is descriptive, is not informed by theory (see below), is often based on self
report, and provides insufficient information about educational interventions or research design. There have been few attempts at evaluating longterm impacts and publications are found in disparate outlets, which, along with problems posed by use of different terms, has bedevilled searching and synthesis of the literature [5]. Nevertheless, several comprehensive reviews have been published over the past few years showing, on the whole, consistent findings about benefits and disadvantages [4, 5, 10, 27, 7276]. See Box 15.7.


BOX 15.7 WHERE’S THE EVIDENCE: Patient involvement

학생에게 주는 혜택
Benefits to students

- 관련성을 통한 동기 부여
 motivation through relevance

- 공감 능력 향상
 increased empathy

- 전문 기술 및 태도 개발
 development of professional skills and attitudes

- 자신감 향상
 increased confidence

- 사회적 책임감
 social responsibility

- 임상적 추론 능력 개발
 development of clinical reasoning

- 새로운 통찰력과 이해
 new insights and understanding

- 문화적 다양성 및 라이프스타일 요인에 대한 인식
 recognition of cultural diversity and lifestyle factors

- 검사 수행 능력 향상
 improved performance in examinations

환자를 위한 혜택
Benefits for patients

- 학생 학습에 기여하는 것에 대한 만족도
 satisfaction at contributing to student learning

- 전문가와의 관계 개선
 improved relationships with professionals

- 이타적인 감정(예: '시스템'에 무언가를 돌려주는 것)
 altruistic feelings, for example, giving something back to the system

- 가치 인정 및 자존감 향상
 being valued and increased self
esteem

- 자신의 기술 개발
 development of own skills

- 카타르시스
 catharsis

- 자신의 상태에 대한 지식 증가
 increased knowledge about their own condition

- 임상의로부터 더 나은 서비스 받기(예: '좋은 진료')
 getting a better service from their clinicians, for example, a good going over

- 사회적 고립으로부터의 동반자 관계 및 안도감
 companionship and relief from social isolation

- 종단적 프로그램에서 확립된 장기적인 관계와 연속성
 the long
term relationship and continuity established in longitudinal programmes

학생에 대한 단점
Disadvantages to students

학생들이 보고한 단점은 거의 없지만 다음과 같은 것들이 있습니다:
Few disadvantages are reported by students, but they include:

- 당혹감
 embarrassment

- 특정 상황에서 정서적 어려움
 emotionally challenged in certain situations

- 환자에게 부담이 됨
 being a burden to patients

- 일부 환자의 대표성에 대한 우려 
 concern about representativeness of some patients 

환자에 대한 단점
Disadvantages for patients 

주로 다음과 관련되어 있습니다:
These are mainly in relation to:

- 정신 건강 문제 및 잠재적으로 당황스러운 상황(예: 친밀한 검사)
 mental health problems and potentially embarrassing situations (e.g. intimate examination)

- 기밀성 및 선택에 대한 우려, 이전의 좋지 않은 경험, 많은 수의 학습자
 concerns about confidentiality and choice, previous poor experiences, large numbers of learners

학생이나 환자의 건강과 복지에 중대한 악영향을 미친다는 증거는 거의 없습니다. 
There is little evidence of significant adverse effects on the health and well-being of either students or patients. 


 

이론적 고려 사항
Theoretical Considerations

지금까지 변화와 혁신은 주로 사회 발전이나 정책에 따라 실용적으로 추진되어 왔습니다. 주목할 만한 예외를 제외하고는 실무나 연구 모두 이론의 영향을 많이 받지 않은 것으로 보입니다. Rees 등의 [4] 연구는 ['상황적 학습']이라는 렌즈를 사용하여 의대생이 서비스 사용자를 '대상으로' 학습하는 것이 아니라 '함께' 학습하는 방법을 탐구했습니다. 이들은 환자와 학생 모두 더 많은 참여를 향해 나아가는 과정에서 [권력 불균형, 정체성, 역할 등의 문제를 동시에 겪는 '합법적인 주변 참여자'라는 가정]을 세웠습니다. 저자들은 보다 적극적인 참여를 장려하기 위한 [일련의 권장 사항]을 제시했습니다.

  • Monrouxe와 동료들은 '배우', '감독', '청중', '비인물', '소품'[77] 등 병원 병상 교육에서 참가자들이 수행하는 다양한 역할을 탐구하기 위해 Goffmann의 드라마투르기 이론을 채택했습니다.
  • Bleakley와 Bligh[78]는 현대 포스트구조주의 이론을 사용하여 환자와 학습자가 협력적 지식 생산에 참여하는 개념을 탐구했습니다. 그들은 '기존의 의사 주도 교육에 대한 근본적인 점검을 통해 ... 개인주의적 학생 중심 접근법의 정통성에 도전하는' 교육 모델을 개발하여 학습의 중심이 교육자와 학생의 관계에서 환자와 학생의 관계로, 의사는 자원과 촉진자로서의 역할로 전환될 수 있다고 주장했습니다.
  • Regan de Bere와 Nunn[79]은 '활동 이론'이 환자와 대중의 참여의 복잡성을 이해하기 위한 프레임워크를 제공하여 맥락, 변화, 도전, 갈등을 고려하고 검토 중인 활동에 대한 잠재적으로 풍부한 설명을 제공하는 방법을 보여주었습니다. 실무와 학계 모두 이러한 성격에 대한 더 많은 이론적 탐구를 통해 이익을 얻을 수 있습니다.

To date, change and innovation has been pragmatic, driven largely by social developments and/or in response to policy. Neither practice nor research appears to have been much informed by theory, with notable exceptions. Rees et al.s [4] study used the lens of situated learning to explore how medical students learn ‘with’ rather than just ‘about’ service users. They posited that both patients and students were ‘legitimate peripheral participants’ struggling in parallel with the challenges of power imbalance, identity, and roles, as they moved towards greater participation. The authors offered a set of recommendations to encourage more active participation.

  • Monrouxe and colleagues adopted Goffmann’s dramaturgy theory to explore the many roles played by participants in hospital bedside teaching, including ‘actor’, ‘director’, ‘audience’, ‘non‐person’, and ‘prop’ [77].
  • Bleakley and Bligh [78] used contemporary post‐structuralist theory to explore the concept of patients and learners engaging in collaborative knowledge production. They argued for a ‘radical overhaul of conventional doctor‐led education … that also challenges the orthodoxies of individualistic student‐centred approaches’ which could lead to development of an educational model whereby the locus of learning shifts from the relationship between doctor as educator and student to the relationship between patient and student, with the doctor as a resource and facilitator.
  • Regan de Bere and Nunn [79] demonstrated how ‘activity theory’ provides a framework for understanding the complexities of patient and public involvement, allowing, as it does, consideration of context, change, challenge, and conflict and providing potentially rich descriptions of the activity under review. Both practice and scholarship would benefit from more theoretical explorations of this nature.

원칙과 실천
Principles and Practice

이 섹션에서는 적극적인 환자 참여에 대한 일반적인 원칙을 살펴보고, 세 가지 중요한 윤리적 문제에 초점을 맞추며, 대표성의 문제를 고려합니다.
In this section we explore general principles for active patient involvement, focus on three important ethical issues, and consider the challenge of representativeness.

일반 원칙
General Principles

위에서 설명한 바와 같이 환자 참여를 지지하고 안내하는 많은 보고서가 발표되었으며, 이러한 보고서에는 항상 장벽과 과제가 강조되어 있습니다. 이러한 문헌[4, 12, 55, 58, 59, 74, 76, 80]을 바탕으로 [새로운 이니셔티브를 수립할 때 고려해야 할 실질적인 문제]를 나열했습니다(상자 15.8 참조). 장벽과 도전 과제에 대해 자세히 살펴보지는 않았지만, 다음과 같은 것들이 포함될 것으로 예상됩니다:
As described above, a number of reports supporting and guiding patient involvement have been published, and these invariably also highlight barriers and challenges. From this growing literature [4, 12, 55, 58, 59, 74, 76, 80] we have listed practical issues to consider when establishing a new initiative (see Box 15.8). We have not explored barriers and challenges in any detail, but these are argued to include the following:

- 서로 다른, 때로는 상충하는 가치와 기대치
• different, sometimes conflicting, values and expectations

- 권력 불균형
• power imbalances

- 위협에 대한 인식(예: 낯설고 심지어 적대적인 환경)
• perceptions of intimidation (such as unfamiliar even hostile environments)

- 동의, 선택권 및 기밀성 부족
• lack of consent, choice, and confidentiality

- 시간 제약
• time constraints

- 제도적 관성
• institutional inertia

- 부적절한 리소스
• inadequate resourcing

- 교육, 지원 및 디브리핑 부족
• lack of training, support, and debriefing

- 언어 및 의사소통 문제
• problems with language and communication.

상자 15.8의 실질적인 설계 고려사항은 [제도적 지원 보장, 적절한 자원 제공, 안전하고 편안한 환경 제공]을 포함하는 [일련의 원칙]에 의해 뒷받침되어야 합니다. 환자를 동등하게 대우하고 언어(예: '사용'이 아닌 '함께')에 주의를 기울여야 하며, 전문 용어와 전문 용어를 피해야 합니다. 교육자는 유연하게 대처하고 변화를 수용하며 새로운 방식으로 도전하고 사고할 준비가 되어 있어야 합니다. 참여는 일회성이 아닌 하나의 과정으로 간주되어야 하며, 추가 개발과 역량 강화를 위한 기회를 모색해야 합니다. 
The practical design considerations in Box 15.8 should be underpinned by a set of principles that include ensuring institutional support, providing adequate resources, and providing safe and comfortable environments. Patients should be treated as equals and attention paid to language (e.g.
working with rather than using), and avoiding technical jargon and terminology. Educators should be prepared to be flexible, should embrace change, and be prepared to be challenged and think in new ways. Involvement should be seen as a process, not a oneoff, and opportunities sought for further development and capacity building. 


상자 15.8 방법: 환자가 참여하는 새로운 교육 이니셔티브 개발하기
BOX 15.8 HOW TO: Develop a new educational initiative involving patients

1 팀을 구성하여 처음부터 환자가 참여하도록 하고(사후에 고려하거나 강요하지 말고), 학습자도 중요한 기여를 할 수 있으며, 전담 책임자를 지정하는 것이 중요합니다(누군가의 이미 바쁜 역할에 추가하는 것이 이상적이지 않음).
1 
Assemble a team, ensuring patients are involved from the start (not as an afterthought, or worse still, imposition); learners can also make an important contribution; a named, dedicated lead is crucial (ideally not an addon to someones already busy role).

2 관계를 구축하고 환자 및 커뮤니티가 참여함으로써 혜택을 받을 수 있는 방법을 개발하는 데 시간과 노력을 투자합니다.
2 
Invest time and effort in building relationships and developing ways in which patients and/or the community may benefit from involvement.

3 주인의식을 고취할 수 있도록 명확한 규약과 권한, 폭넓은 멤버십을 갖춘 운영위원회를 구성합니다.
3 
Set up a steering committee with clear terms of reference and some authority and broad membership to encourage ownership.

4 교육 프로그램의 설계 및 개발, 제공에 환자를 참여시키고 협력적 학습을 장려합니다.
4 
Involve patients in designing and developing as well as delivering the educational programme, and encourage collaborative learning.

5 적절한 경우 환자 지원 그룹 및 기타 지역 네트워크가 참여하는 선발 과정을 포함한 모집 전략을 개발합니다.
5 
Develop a recruitment strategy, including a selection process involving, as appropriate, patient support groups and other local networks.

6 특정 역할에 적합한 오리엔테이션과 교육을 제공하고 피드백에 대응하는 메커니즘을 포함하여 지속적인 지원 시스템을 마련합니다.
6 
Provide orientation and training appropriate to specific roles and ensure an ongoing support system is in place, including mechanisms for responding to feedback.

7 시기(회의 및 교육 세션 포함) 및 장소(접근성 포함), 지적 재산권실용적인 측면을 고려합니다.
7 Consider practicalities such as timing (including meetings as well as educational sessions) and location (including accessibility), as well as intellectual property rights.

8 복리후생 등 보수가 미치는 영향을 염두에 두고 보상에 관한 명확한 정책을 수립합니다.
8 
Establish a clear policy on remuneration being mindful of its impact, for example on welfare benefits.

9 직위, 참여 증명서, 표창 행사, 학술 시설(예: 도서관) 이용 등 (보수 이외의) 참여를 명시적으로 인정하는 방법을 모색합니다.
9 
Explore ways of explicitly recognising involvement (other than remuneration), such as job titles, certificates of participation, recognition events, access to academic facilities (e.g. library).

10 모든 이해관계자의 관점을 통합하여 처음부터 시스템에 평가를 구축합니다.
10 
Build evaluation into the system from the beginning, incorporating the perspectives of all stakeholders.

11 다양성이 반영되고 소수의 견해가 대변될 수 있도록 노력합니다.
11 
Work to ensure diversity is reflected and minority views are represented.

12 모든 전략을 가치 선언문으로 뒷받침합니다(여기에는 성별, 민족, 종교, 섹슈얼리티 등의 문제와 기대치가 포함될 수 있습니다).
12 
Underpin any strategy with a statement of values (this might include issues such as gender, ethnicity, religion, and sexuality, as well as expectations).

위의 모든 사항은 사후 협의나 강요가 아닌 처음부터 환자 및 보호자와 함께 개발하는 것이 가장 이상적입니다. 
Ideally, all the above should be developed with patients and carers from the start, not through post
hoc consultation or, worse still, through imposition. 


 

윤리적 문제
Ethical issues

환자 참여 시 고려해야 할 윤리적 이슈는 동의, 선택, 기밀 유지라는 '세 가지 C'로 요약할 수 있습니다. 정책 문서, 모범 사례 및 문헌에서 드러나는 주요 메시지는 공식적인 시스템, 전문적인 대화 및 윤리적 관행을 통해 이를 명시하지 않고 단순히 환자가 교육 및 학습에 참여할 것이라고 가정하는 것은 더 이상 허용되지 않는다는 것입니다.
Ethical Issues to be considered when involving patients can be summarised as the
three Cs: consent, choice, and confidentiality. The main message emerging from policy documents, good practice, and the literature is that simply assuming that patients will be involved in teaching and learning without making this explicit through formal systems, professional conversations, and ethical practice is no longer acceptable.

동의
Consent

의료법과 윤리는 정보에 입각한 동의의 원칙을 존중하며, 이는 친밀한 검사나 침습적 시술과 관련된 만남뿐만 아니라 일상적으로 환자의 참여를 유도해야 합니다[59]. '환자에게 미리 알리지 말아야 한다는 주장은 경험적 증거보다는 편견에 근거한 것으로 보이며'[81], 임상 참여 전에 학습자 참여에 대한 정보를 제공한다고 해서 환자의 참여 결정에 부정적인 영향을 미치지는 않는 것으로 보입니다. 당연히 환자가 [동의를 얻었을 때 참여에 대해 더 긍정적으로 반응한다는 증거]가 있습니다[82]. 동의서 획득은 '서비스가 환자와 처음 접촉할 때부터 시작되는 지속적인 과정'이어야 하며[59], [모든 환자]에게 학생이 입회할 수 있고 적절한 경우 치료에 참여할 수 있다는 사실을 알려야 합니다. 학습자의 존재가 진료의 질에 중대한 부정적인 영향을 미친다는 증거는 거의 없거나 전혀 없지만, [학습자의 존재는 필연적으로 상담의 역학을 변화시킬 것]임을 인식하는 것이 중요합니다[83]. 모든 환자가 의료 교육에 기꺼이 기여하는 것을 기본 자세로 삼아야 한다는 기대가 있어야 한다는 흥미로운 주장이 제기되었는데, 모든 학습자가 [시뮬레이션에서 관련 과제에 대한 역량을 입증]해야만 '풀어주기'를 받을 수 있다는 것입니다[84].
Medical law and ethics enshrine the principle of informed consent, which should routinely guide patient involvement, not just those encounters involving intimate examinations or invasive procedures [59].
Arguments for not informing patients in advance seem to be based more on prejudice than on empirical evidence [81], and providing information about learner involvement before the clinical encounter does not appear to adversely influence patients decisions about participation. Perhaps unsurprisingly, there is evidence that patients are more positive about involvement when consent is obtained [82]. Obtaining consent should be a continuous process that begins with the first contact the service has with the patient [59], and all patients should be informed that students may be present and, as appropriate, involved in care. It is important to recognise that the presence of a learner will inevitably change the dynamics of a consultation, although there is little, if any, evidence of significant negative effects on quality of care [83]. An interesting argument has been made that there should be an expectation that all patients should be willing to contribute to medical education as a default stance, the quid pro quo being that all learners should be required to demonstrate competence in the relevant task in simulation before being let loose [84].

선택
Choice

학생과 수련의가 '진료 제공의 격동적인 지금 여기'[84] 속에서 학습해야 하고, 각 만남이 모두에게 최적으로 설정되도록 보장할 시간이 거의 없을 때 환자 선택을 촉진하는 것은 어려운 일입니다. [적극적인 선택을 장려하는 것]은 [기본적인 존중]을 보여줄 뿐만 아니라 [환자가 자신의 상태에 영향을 미치는 방식에 대한 전문가임을 인정하는 것]입니다. 이를 통해 임상의는 '강력한 전문가 역할의 안전 안에서 작동하고, [돌봄의 거래]를 [비인격화]하는 [습관적이고 의례적인 작업]을 수행하는 것'에서 벗어날 수 있습니다[85].
Facilitating patient choice is challenging when students and trainees need to learn within the
turbulent here and now of care delivery [84], with little time to ensure that each encounter is set up optimally for all. Promoting active choice shows basic respect but also acknowledges that the patient is an expert about the way their own condition affects them. It moves clinicians away from operating from within the safety of a powerful expert role and performing habitual and ritualized tasks that depersonalize the transaction of caring [85].

교육에 대한 사전 동의를 구하는 것은 이상적으로는 학습자가 참석하지 않은 상태에서 이루어져야 하며, 그 뒤에 학습자가 있는 상태에서 확인해야 합니다[59]. 환자가 ['아니오'라고 말할 수 있는 '순간순간'의 기회를 제공하는 것]은 환자에게 권한을 부여하고 환자의 필요를 인정하는 또 다른 방법입니다[28]. 환자에게 시술을 수행하려는 학습자의 경험 수준과 신원에 대해 환자에게 알려야 합니다. 일반적으로 [더 친밀한 관계, 더 많은 프라이버시가 있고 환자의 자율성이 더 큰 1차 진료나 지역사회]에 비해 [개인의 힘과 공간이 부족하고 치료가 더 긴급하게 필요한 병원 환경]에서는 다른 접근 방식을 취해야 할 수 있음을 의미합니다[86].
Seeking informed consent about teaching should ideally be done without the learner in attendance, then confirmed in their presence [59]. Building in
momenttomomentopportunities for patients to say No is another way of empowering them and acknowledging their needs [28]. Patients should be informed about the level of experience and identity of any learner intending to carry out a procedure on them. Lack of personal power and space, and the more urgent need for treatment, mean that a different approach may need to be taken in hospital settings compared with primary care or in the community, where there is usually a more intimate relationship, more privacy, and patients have greater autonomy [86].

기밀성
Confidentiality

교육과 관련된 환자에 대한 기밀은 반드시 유지되어야 합니다. [일부 환자]들은 '학생들이 자신의 사례 노트에 접근하는 것과 진료실을 떠난 후 환자에 대한 논의가 이루어지는 것에 대해' 우려를 표명하는데[87], 이는 환자에게 선택, 동의, 기밀성 측면을 어떻게 제기해야 하는지에 대한 의문을 불러일으킵니다. [실용적인 단계]는 다음과 같습니다:
Confidentiality in relation to patients involved in education must be maintained. Some patients express concerns
about students access to their case notes and whether discussions about patients occurred after they had left the consulting room [87], which raises questions about how aspects of choice, consent, and confidentiality should be raised with patients. Practical steps include:

- 사람들이 [기밀 유지의 경계]를 이해할 수 있도록 충분한 정보 제공
providing sufficient information so people can understand the boundaries of confidentiality

- 학습자도 '완전한' 의료 전문가와 마찬가지로 [기밀을 존중해야 할 의무]가 있음을 환자에게 안심시킵니다.
reassuring patients that learners are bound by the same duty to respect confidentiality as are fully fledgedhealth professionals

- 토론에 환자 참여
involving patients in discussions

- 친밀하거나 고통스러운 문제를 논의할 수 있는 사적인 공간을 찾고, 침대나 칸막이 주위의 커튼은 방음이 되지 않는다는 점을 기억합니다(!).
finding private spaces to discuss intimate or distressing issues, remembering that curtains around a bed or cubicle are not soundproof (!)

- 준비 및 디브리핑의 일환으로 학습자와 일상적으로 기밀성 문제를 제기합니다.
raising issues of confidentiality routinely with learners as part of preparation and debriefing.

[환자 정보를 교육에 사용]할 때는 이미지, 사운드 녹음, 사례 기록에서 발췌한 내용, 특히 [식별 가능한 정보의 사용]에 대한 [허가]를 받아야 합니다. 전자 기록과 모바일 통신 및 기술의 사용이 증가함에 따라 새로운 과제가 생겨나고 있습니다.
When patient information is being used in teaching, permission must be obtained for the use of images, sound recordings, and extracts from case notes, particularly identifiable information. Increasing use of electronic records and mobile communications and technologies is creating new challenges.

의료 윤리와 법률은 복잡하고 끊임없이 변화하고 있으며, 모든 임상의는 최신 정보를 숙지하고 있어야 할 책임이 있습니다. 임상 교사는 핵심적인 역할 모델이며, 동의, 선택, 기밀 유지라는 '3C'를 염두에 두면 이러한 원칙을 선택 사항이 아닌 모범 사례의 기본 축으로 인식할 수 있습니다. 이러한 원칙을 기관의 관행과 정책에 포함시키는 것은 중요한 단계입니다.
Medical ethics and law is complex and ever
changing, and all clinicians have a responsibility to keep uptodate and informed. Clinical teachers are key role models; keeping the three Cs’ – consent, choice, and confidentiality in mind ensures these are seen as fundamental pillars of good practice, not as options. Embedding these principles in institutional practices and policies is an important step.

환자 대표
Patient Representation

'환자'는 동질적인 집단이 아니며, 실제로 다양성이 일반적이라는 사실을 잊기 쉽습니다. '환자'는 전문가와 똑같이 생각하지 않지만, '참여'에 관한 많은 문헌은 모든 사용자, 간병인, 생존자, 고객, 환자 등을 (암묵적으로라도) 동일하게 취급하는 것 같습니다. 유럽 피커 인스티튜트의 샬롯 윌리엄슨[88]은 참여가 가능한 '환자'를 다음과 같이 크게 [세 가지 범주]로 제안합니다.
It is easy to forget that the
patients are not a homogeneous group; indeed, diversity is the norm. Patients do not think alike any more than professionals do, yet much of the literature on involvement seems to treat all users, carers, survivors, clients, patients, etc. as the same (even if only implicitly). Charlotte Williamson [88] of Picker Institute, Europe, proposes the following three broad categories of patient who might get involved.

- [개별 환자] 자신의 경험을 설명할 수는 있지만 반드시 다른 사람을 대변할 수는 없음. 경험의 일반화 가능성에 대한 함의가 있는 환자.
Individual patients who can describe their own experience but cannot necessarily speak for others, with implications for the generalisability of their experience.

- [환자 그룹 구성원] 일반적으로 자신과 같은 다른 사람들의 경험에 대해 알고 있지만, [여전히 좁은 관점]을 가지고 있을 수 있습니다. 지역 내 모든 관련 그룹과 협의하는 것이 중요합니다.
Patient group members who usually do know about the experiences of others like themselves, but may still have a narrow perspective. Consulting all relevant groups in a locality is important.

- [환자 대표 또는 옹호자] 일반적으로 여러 그룹과 함께 일한 경험이 있고, 전략 및 정책 문제에 대한 지식이 풍부하며, '큰 그림'을 이해
Patient representatives or advocates who generally have broader experience, perhaps of working with several groups, wider knowledge about strategic and policy issues, and understand the bigger picture.

이상적으로는 '환자'와의 상담에는 이 세 가지 범주가 모두 포함되어야 합니다. 윌리엄슨의 말을 빌리자면: "의료 서비스의 환자 측면은 복잡하지만 신비롭지는 않습니다. '올바른' 환자와 상담하는 것은 실현 가능하고 보람 있는 일이 될 수 있습니다'[88]. 그러나 환자 그룹과 협력할 때는 한 가지 주의해야 합니다. 대부분의 환자 그룹은 제약 업계와 연관되어 있으며, 그 자체로 문제가 되지는 않지만 이러한 그룹에 참여하는 교육자는 이해 상충의 가능성을 인지해야 합니다[89].
Ideally, consultation with
patients should involve all three categories. In Williamsons words: The patient side of health care is complex but not mysterious. Consulting the right patients can be feasible and rewarding [88]. However, a note of caution must be struck regarding working with patient groups. Many, probably the majority, have links with the pharmaceutical industry, and whilst this is not in itself a problem, educators engaging with such groups should be aware of the potential for conflicts of interest [89].

 

모의 환자
Simulated Patients

강의실 및 임상 학습을 보완하기 위해 시뮬레이션 사용이 증가하고 있음을 반영하여 시뮬레이션 환자에 대한 간략한 설명으로 논의를 마무리합니다. [시뮬레이션]은 실제 체험 학습을 대체할 수는 없지만 학습자가 실제 임상 실습에 대비할 수 있도록 잠재적으로 준비시킬 수 있습니다. 최초의 시뮬레이션 환자는 '표준화된' 문제를 제시하는 실제 환자였지만[42], 더 일반적인 현대의 시뮬레이션 환자는 자신의 경험을 벗어난 다양한 시나리오를 묘사합니다(Silverman J 및 Britten N, 개인 통신). '표준화'와 '시뮬레이션'이라는 용어(종종 같은 의미로 사용됨)의 사용의 다양성은 모범 사례를 식별하거나 연구 결과를 해석할 때 혼란을 야기할 수 있습니다.

  • [시뮬레이션 환자](또는 '역할 플레이어')와 관련된 상황에서는 주로 [진위 여부에 중점]을 두는 반면,
  • [표준화된 환자]에서는 [일관성에 중점(예: 임상 징후)]을 두는 것이 차이점에 대한 유용한 사고 방식입니다.

We end our discussion with a brief word on simulated patients, reflecting the increased use of simulation to complement both classroom and clinical learning. Simulation cannot replace authentic experiential learning but can potentially prepare learners for the real world of clinical practice. The first simulated patients were real patients presenting standardised problems [42], but the more common contemporary simulated patient portrays a range of scenarios outside their own experience (Silverman J and Britten N, personal communication). The variability in the use of the terms standardised and simulated (often used interchangeably) can cause confusion when trying to identify good practice or interpret research findings. A useful way of thinking about the difference is that situations involving

  • a simulated patient (or ‘role player’) focus predominantly on authenticity, whereas with
  • a standardized patient the emphasis is on consistency (e.g. of clinical signs).

실제 환자가 아닌 시뮬레이션 환자와 함께 작업할 때의 장점으로는 진정성, 일관성, 예측 가능성, 편의성, 효율성 등이 있으며, 나쁜 소식을 전하거나 민감한 문제에 대해 소통하는 등의 어려운 상황을 탐색하고 연습할 수 있으며 시나리오를 맞춤화할 수 있습니다.
Advantages of working with simulated, rather than real, patients include authenticity, consistency, predictability, convenience, and efficiency; challenging situations such as breaking bad news or communicating about sensitive issues can be explored and rehearsed; and scenarios can be customised.

연구에 따르면 사람들은 일반적으로 실제 환자와 잘 훈련된 시뮬레이터를 쉽게 구분하지 못한다고 합니다[90, 91]. 학습자와 교수진이 수용할 수 있으며 교육과 평가 모두에서 효과적이고 신뢰할 수 있으며 유효합니다. [일부 정신 건강] 및 [소아과 문제]와 [허약한 노인의 문제]는 [시뮬레이션하기 어렵기 때문]에 [소수 민족]이나 [학습 장애]와 같은 [특정 환자 그룹]이 제대로 대표되지 않을 수 있지만, 현재 국제적으로 광범위한 경험이 축적되어 있습니다. 특정 환경에서 [실제 환자를 사용할지 시뮬레이션 환자를 사용할지 여부]는 시뮬레이션할 현상의 특성, 의도한 학습 결과, 현지 상황, 사용 가능한 리소스 등 다양한 요인에 따라 결정됩니다[92]. 하지만 시뮬레이션의 주된 목적은 술기 개발과 리허설을 가능하게 하는 것이지, [환자의 목소리를 반영하는 것이 아니라는 점]을 기억하는 것이 중요합니다.
Research has shown that people generally cannot easily distinguish between real patients and well
trained simulators [90, 91]. They are acceptable to learners and faculty, and are effective, reliable, and valid in both instruction and assessment. There is now wide international experience, although some mental health and paediatric problems, as well as those of the frail elderly, may be difficult to simulate and thus may be underrepresented, as may certain patient groups, for example, ethnic minorities or people with learning disabilities. The choice of whether to use real or simulated patients in a particular setting will be determined by a range of factors, including the nature of the phenomena to be simulated, intended learning outcomes, local circumstances, and available resources [92]. It is important to remember though that simulations main purpose is to enable skills development and rehearsal, not primarily to ensure incorporation of the patients voice.

시뮬레이션이 시뮬레이션된 환자에게 미치는 영향에 대한 문헌은 제한적입니다. 일부 상황(예: 감정적으로 격렬한 시나리오를 묘사할 때)에서는 해를 끼칠 가능성이 있으며, 실제로 전문 배우만이 이러한 까다로운 역할을 수행해야 한다는 주장도 있지만[93], 일반적으로 사람들이 역할을 적절히 선택하고 지원받는다면 이점이 단점보다 크다는 것이 일반적인 합의입니다[94]. 참여하고자 하는 사람의 이유 탐색, 교육 및 지원, 디브리핑 및 역할 해제 등 채용에 주의를 기울이는 것이 중요합니다[91, 94]. 시뮬레이션 및 모의 환자 사용은 11장에서 자세히 설명합니다. 
The literature on the effects of simulation on simulated patients themselves is limited. There is potential for harm in some situations for example, when portraying emotionally intense scenarios indeed, it has been argued that only professional actors should undertake such demanding roles [93], but the general consensus is that benefits outweigh any disadvantages so long as people are appropriately selected and supported in the role(s) [94]. It is important to pay attention to recruitment, including exploring the persons reasons for wanting to get involved, training and support, and debriefing and deroling [91, 94]. The use of simulation and simulated patients is discussed further in Chapter 11.

 

추가 연구 분야
Areas for Further Research

이 분야에 대한 많은 연구의 품질이 다양하다는 점을 고려할 때 대규모 연구 의제가 확인되었습니다. 일반적인 질문은 다음과 같습니다:
In light of the variable quality of much of the research in this area, a large research agenda has been identified. Typical questions include the following:

- 환자 참여의 동인은 무엇인가?
What are the drivers of patient involvement?

- 다양한 접근 방식의 강점과 약점은 무엇이며, 이러한 강점과 약점은 직업과 분야, 국가와 문화에 따라 어떻게 다른가?
What are the strengths and weaknesses of different approaches, and how do these vary between professions and disciplines, and between countries and across cultures?

- 효과적인 접근 방식에 영향을 미치는 요인은 무엇이며 그 이유는 무엇인가요?
What factors influence what works, and why?

- 위치, 접근성, 안전과 같은 구조적 및 조직적 요인이 프로그램 개발에 어떤 영향을 미칩니까?
How do structural and organisational factors such as location, access, and safety influence development of programmes?

- 환자의 참여 경험에 영향을 미치는 요인은 무엇인가요?
What factors influence patients experiences of involvement?

- 모든 당사자에게 장단기적으로 중요한 결과는 무엇인가요?
What are the key outcomes, short
and long term, for all parties?

- 프로그램의 지속 가능성에 영향을 미치는 요인은 무엇인가요?
What factors influence sustainability of programmes?

 

결론
Conclusion

학생과 수련의는 교육 초기 단계부터 환자, 보호자 및 가족과 적극적으로 참여하여 학습을 통합하고 다른 맥락에서 배운 내용을 실제 임상 환경에서 실천하는 방법을 배울 수 있어야 합니다. 전문적이고 세심하게 수행되는 적절한 참여는 학습자뿐만 아니라 환자에게도 엄청난 이점을 제공합니다. 많은 환자들이 자신을 돌봐주는 사람들에게 '무언가를 돌려주고' 싶어 하며, 모든 수준의 의료 교육에 참여하는 것은 그렇게 하는 한 가지 방법입니다.
From an early stage of training, students and trainees need to actively engage with patients, carers, and families so they can learn to consolidate their learning and put learning from other contexts into practice in the real clinical environment. Appropriate involvement, carried out professionally and sensitively, provides immense benefits not only for the learners, but also for patients. Many patients want to
give something back to those who care for them, and engaging in medical education at all levels is one way of so doing.

교사와 학습자는 '실제' 환자를 대상으로 학습하는 것이 부적절한 경우를 인지해야 합니다. 그러나 종이 사례 시나리오부터 고충실도 시뮬레이션에 이르기까지 다양한 대안을 사용할 수 있습니다. 법적 및 윤리적 문제, 환자 역량 강화 및 사회적 책임, 공동 의사 결정 및 공동 제작과 관련된 의제의 변화 등 전문성에 대한 강조가 커지면서 교육자는 여러 가지 이유로 환자와 보호자의 교육 활동에 대한 적극적이고 정보에 입각한 참여를 이끌어내는 데 세심한 주의를 기울일 필요가 있습니다. 이러한 접근 방식은 '파트너로서의 환자'라는 수사를 교육 및 학습 환경의 중심에 두고, 궁극적으로 임상 실습의 중심에 두는 데 도움이 될 것입니다. 상자 15.9를 참조하십시오. 
Teachers and learners need to be aware when learning on
real patients is inappropriate. However, many alternatives are available, ranging from paper case scenarios to highfidelity simulations. The greater emphasis on professionalism, including attending to legal and ethical issues, and the changing agendas relating to patient empowerment and social accountability, shared decisionmaking, and coproduction mean that, for a host of reasons, educators need to pay close attention to seeking active, informed involvement in educational activities from patients and carers. This approach will help put the rhetoric of patients as partnersat the centre of the teaching and learning environment, and ultimately at the heart of clinical practice. See Box 15.9.   

박스 15.9 행동 우선순위 [26]
BOX 15.9 Priorities for action [26]

'밴쿠버 성명서'는 2015년 국제 컨퍼런스에서 개발되었습니다[26]. 이 성명서는 혜택과 장벽을 포함하여 교육 및 훈련의 연속체 전반에 걸친 환자 및 대중의 참여 현황을 광범위하게 요약합니다. 이 성명서는 정책, 인식 및 지원, 혁신, 연구 및 평가, 보급 분야에서 저자들이 '환자 참여를 정착시키기 위해 필요하다고 생각하는' 9가지 행동 우선순위를 제시합니다.
The
Vancouver Statement was developed at an international conference in 2015 [26]. It broadly summarises the current state of patient and public involvement across the continuum of education and training, including benefits and barriers. The statement lays out nine priorities for action in the areas of policy, recognition and support, innovation, research and evaluation, and dissemination which the authors believe are necessary in order to embed patient involvement.

1 인증 기준, 외부 및 내부 정책, 전문 기관의 선언문, 모범 사례 성명서 등의 지침을 통해 환자 참여를 촉진합니다.
1
Promote patient involvement through directives such as accreditation standards, external and internal policies, pronouncements from professional bodies, and best practice statements.

2 환자 전문성에 대한 근거와 가치를 인정하는 기관, 지역, 국가, 전 세계의 인식을 촉진하고, 성취를 인정하고 성공을 축하합니다.
2
Foster institutional, local, national, and global recognition of patient expertise that grounds and values it; recognise achievement and celebrate success.

3 환자, 지역사회 기관, 환자 옹호 단체, 지역사회 구성원의 동기와 열정을 활용하여 참여하는 사람들의 다양성을 높입니다.
3
Increase the diversity of people involved by harnessing the motivation and enthusiasm of patients, community agencies, patient advocacy organisations, and community members.

4 학습자에게 가능한 한 빨리 이니셔티브를 소개하고 교육 연속성 전반에 걸쳐 유지합니다.
4
Introduce initiatives to learners as early as possible, and sustain them throughout the educational continuum.

파트너십과 팀워크에 대한 보다 총체적인 접근을 촉진하기 위해 새롭게 등장하는 학습 활동에 환자의 참여를 목표로 합니다.
5
Target patient involvement in new and emerging learning activities in order to facilitate a more holistic approach to partnerships and teamwork.

환자 참여를 촉진하기 위해 교육 기관과 지역사회 조직 간의 협력을 촉진하는 모델을 탐색하고 만듭니다.
6
Explore and create models to promote collaboration between educational institutions and community organisations to promote patient involvement.

환자와 협력하여 고품질의 연구를 수행하여 환자 참여의 단기 및 장기적 영향에 대한 추가 증거를 제공합니다.
7
Conduct high quality research in partnership with patients to provide further evidence of shortterm and longterm impact of patient involvement.

8 컨퍼런스 및 교육 행사의 기획, 제공, 평가에 환자가 참여할 수 있도록 위원회에 로비하고, 지역사회 단체, 대학, 기금 기관에 로비하여 환자들이 컨퍼런스에 참석하고 발표할 수 있도록 보조금을 제공합니다.
8
Lobby committees to involve patients in planning, delivery, and evaluation of conferences and educational events; lobby community organisations, colleges, and universities and funding bodies to provide grants for people to attend and present at conferences.

9 협력, 정보 전파, 유망한 사례 공유, 추가 회의 계획 등을 위해 지역 네트워크를 구축합니다.
9
Create regional networks of people and champions to collaborate, disseminate information, share promising practices, and plan further meetings.

 

 

양적연구 질문과 질적연구 질문 및 가설 작성의 실용 가이드 (J Korean Med Sci. 2022)
A Practical Guide to Writing Quantitative and Qualitative Research Questions and Hypotheses in Scholarly Articles
Edward Barroga 1 and Glafera Janet Matanguihan

 

 

서론
INTRODUCTION

과학 연구는 일반적으로 증거에 기반한 연구 질문을 제기한 다음 가설로 명시적으로 재구성하여 시작합니다.1, 2 가설은 연구를 안내하는 방향, 해결책, 설명 및 예상 결과를 제공합니다.3, 4 연구 질문과 가설은 모두 본질적으로 기존 이론과 실제 프로세스를 기반으로 공식화되어 새로운 연구를 시작하고 아이디어의 윤리적 테스트를 허용합니다.5, 6
Scientific research is usually initiated by posing evidenced-based research questions which are then explicitly restated as hypotheses.1, 2 The hypotheses provide directions to guide the study, solutions, explanations, and expected results.3, 4 Both research questions and hypotheses are essentially formulated based on conventional theories and real-world processes, which allow the inception of novel studies and the ethical testing of ideas.5, 6

양적 연구와 질적 연구 모두 연구 질문과 가설을 작성해야 하므로2 양적 연구와 질적 연구 모두에 대한 지식을 갖추는 것이 중요합니다.7 그러나 이러한 중요한 연구 요소들이 간과되는 경우가 있으며, 간과되지 않더라도 필요한 사전 고려와 세심한 주의 없이 틀을 짜는 경우가 있습니다. 정량적 또는 정성적 연구를 개발할 때, 특히 연구 질문과 가설을 개념화할 때 계획과 신중한 고려가 필요합니다.4 
It is crucial to have knowledge of both quantitative and qualitative research2 as both types of research involve writing research questions and hypotheses.7 However, these crucial elements of research are sometimes overlooked; if not overlooked, then framed without the forethought and meticulous attention it needs. Planning and careful consideration are needed when developing quantitative or qualitative research, particularly when conceptualizing research questions and hypotheses.4

연구자들이 혁신적인 연구 질문과 가설을 세우고 이러한 요소를 신중하게 검토하는 저널 논문을 작성할 수 있도록 지속적으로 지원할 필요가 있습니다.1 연구 질문과 가설을 신중하게 고려하지 않으면 일반적으로 비윤리적인 연구와 좋지 않은 결과가 이어집니다. 신중하게 수립된 연구 질문과 가설은 근거가 있는 목표를 정의하고, 이를 바탕으로 연구의 적절한 설계, 과정 및 결과를 결정합니다. 이 글에서는 연구 질문과 가설 수립의 다양한 측면을 자세히 논의하여 연구자가 연구 질문과 가설을 개발하는 데 도움을 드리고자 합니다. 의료 분야의 동료 검토를 거친 과학 논문과 저자들의 예시를 통해 핵심 사항을 설명합니다. 
There is a continuing need to support researchers in the creation of innovative research questions and hypotheses, as well as for journal articles that carefully review these elements.1 When research questions and hypotheses are not carefully thought of, unethical studies and poor outcomes usually ensue. Carefully formulated research questions and hypotheses define well-founded objectives, which in turn determine the appropriate design, course, and outcome of the study. This article then aims to discuss in detail the various aspects of crafting research questions and hypotheses, with the goal of guiding researchers as they develop their own. Examples from the authors and peer-reviewed scientific articles in the healthcare field are provided to illustrate key points.

연구 질문과 가설의 정의 및 관계
DEFINITIONS AND RELATIONSHIP OF RESEARCH QUESTIONS AND HYPOTHESES

[연구 질문][데이터 분석 및 해석을 통해 연구자가 답을 얻고자 하는 것]입니다. 이에 대한 답은 논문의 [토론 섹션]에 길게 작성됩니다. 따라서 연구 질문은 연구 질문에서 제기된 문제를 해결하기 위한 연구의 [다양한 부분parts과 변수]를 미리 볼 수 있습니다.1 [훌륭한 연구 질문]은 [연구 주제, 연구 목적, 연구 범위 및 한계에 대한 이해]를 용이하게 하면서 [연구 작성]을 명확하게 합니다.5 
A research question is what a study aims to answer after data analysis and interpretation. The answer is written in length in the discussion section of the paper. Thus, the research question gives a preview of the different parts and variables of the study meant to address the problem posed in the research question.1 An excellent research question clarifies the research writing while facilitating understanding of the research topic, objective, scope, and limitations of the study.5

반면에 [연구 가설]은 [예상되는 결과에 대한 교육적인 진술]입니다. 이 진술은 배경 연구와 현재 지식을 기반으로 합니다.8, 9 연구 가설은 새로운 현상에 대한 [구체적인 예측10] 또는 [독립 변수와 종속 변수 간의 예상 관계에 대한 공식적인 진술]입니다.3, 11 테스트하거나 탐구할 연구 질문에 대한 잠정적인 답을 제공합니다.4
On the other hand, a research hypothesis is an educated statement of an expected outcome. This statement is based on background research and current knowledge.8, 9 The research hypothesis makes a specific prediction about a new phenomenon10 or a formal statement on the expected relationship between an independent variable and a dependent variable.3, 11 It provides a tentative answer to the research question to be tested or explored.4

[가설]은 [이론에 기반한 결과를 예측]하기 위해 [추론]을 사용합니다.10 가설은 아직 관찰되지 않은 이론의 구성 요소에 초점을 맞추어 이론에서 발전시킬 수도 있습니다.10 가설의 타당성은 종종 재현 가능한 실험에서 이루어진 예측의 테스트 가능성에 기반합니다.8
Hypotheses employ reasoning to predict a theory-based outcome.10 These can also be developed from theories by focusing on components of theories that have not yet been observed.10 The validity of hypotheses is often based on the testability of the prediction made in a reproducible experiment.8

반대로 [가설]을 [연구 질문]으로 바꾸어 표현할 수도 있습니다. 연구 질문에 답하기 위해서는 기존의 이론과 지식에 기반한 여러 가설이 필요할 수 있습니다. 윤리적 연구 질문과 가설을 개발하면 변수 간에 논리적 관계가 있는 연구 설계가 만들어집니다. 이러한 관계는 연구 수행을 위한 견고한 토대가 됩니다.4, 11 연구 질문이 임의로 구성되면 가설이 잘못 수립되고 연구 설계가 부적절해져 신뢰할 수 없는 결과를 초래할 수 있습니다. 따라서 연구를 시작할 때 관련 연구 질문과 검증 가능한 가설을 수립하는 것이 중요합니다.12
Conversely, hypotheses can also be rephrased as research questions. Several hypotheses based on existing theories and knowledge may be needed to answer a research question. Developing ethical research questions and hypotheses creates a research design that has logical relationships among variables. These relationships serve as a solid foundation for the conduct of the study.4, 11 Haphazardly constructed research questions can result in poorly formulated hypotheses and improper study designs, leading to unreliable results. Thus, the formulations of relevant research questions and verifiable hypotheses are crucial when beginning research.12

좋은 연구 질문과 가설의 특징
CHARACTERISTICS OF GOOD RESEARCH QUESTIONS AND HYPOTHESES

우수한 연구 질문은 구체적이고 집중적입니다. 이러한 질문은 수집된 데이터와 관찰을 통합하여 후속 가설을 확인하거나 반박합니다. [잘 구성된 가설]은 [이전 보고서를 기반]으로 하며 [연구 맥락을 검증]합니다. 이러한 가설은 현실적이고, 심도 있고, 충분히 복잡하며, 재현 가능합니다. 더 중요한 것은 이러한 가설을 검증하고 테스트할 수 있다는 것입니다.13
Excellent research questions are specific and focused. These integrate collective data and observations to confirm or refute the subsequent hypotheses. Well-constructed hypotheses are based on previous reports and verify the research context. These are realistic, in-depth, sufficiently complex, and reproducible. More importantly, these hypotheses can be addressed and tested.13

잘 발달된 가설에는 몇 가지 특징이 있습니다. 좋은 가설은 

  • 1) 경험적으로 테스트할 수 있고7, 10, 11, 13, 
  • 2) 예비 증거에 의해 뒷받침되고9, 
  • 3) 윤리적 연구에 의해 테스트할 수 있고7, 9, 
  • 4) 독창적인 아이디어에 기반하고9, 
  • 5) 증거에 기반한 논리적 추론이 있으며10, 
  • 6) 예측할 수 있습니다.11 

좋은 가설은 연구 주제와 관련된 관계 또는 효과가 있음을 나타내는 윤리적이고 긍정적인 의미를 추론할 수 있습니다.7, 11 처음에는 일반 이론에서 개발되고 [연역적 추론]을 통해 구체적인 가설로 분기됩니다. 가설의 근거가 되는 이론이 없는 경우, [구체적인 관찰이나 발견에 근거]한 [귀납적 추론]이 보다 일반적인 가설을 형성합니다.10
There are several characteristics of well-developed hypotheses. Good hypotheses are

  • 1) empirically testable7101113;
  • 2) backed by preliminary evidence9;
  • 3) testable by ethical research79;
  • 4) based on original ideas9;
  • 5) have evidenced-based logical reasoning10; and
  • 6) can be predicted.11 

Good hypotheses can infer ethical and positive implications, indicating the presence of a relationship or effect relevant to the research theme.7, 11 These are initially developed from a general theory and branch into specific hypotheses by deductive reasoning. In the absence of a theory to base the hypotheses, inductive reasoning based on specific observations or findings form more general hypotheses.10

연구 질문 및 가설의 유형
TYPES OF RESEARCH QUESTIONS AND HYPOTHESES

연구 질문과 가설은 연구 유형에 따라 개발되며, 크게 정량적 연구와 정성적 연구로 분류할 수 있습니다. 정량적 연구와 정성적 연구 범주에 따른 연구 질문 및 가설의 유형은 표 1에 요약되어 있습니다.
Research questions and hypotheses are developed according to the type of research, which can be broadly classified into quantitative and qualitative research. We provide a summary of the types of research questions and hypotheses under quantitative and qualitative research categories in Table 1.

 

정량적 연구의 연구 질문
Research questions in quantitative research

정량적 연구에서 연구 질문은 조사 대상 변수 간의 관계를 묻는 질문으로, 일반적으로 연구를 시작할 때 구성됩니다. 이러한 질문은 정확하며 일반적으로 대상 집단, 종속 변수 및 독립 변수, 연구 설계와 관련이 있습니다.1

  • 연구 질문은 하나 이상의 변수와 관련하여 모집단의 행동을 설명하거나 측정할 변수의 특성을 설명하려고 시도할 수도 있습니다(설명적 연구 질문).1, 5, 14
  • 이러한 질문은 또한 결과 변수의 맥락에서 그룹 간의 차이를 발견하거나(비교 연구 질문)1, 5, 14
  • 변수 간의 추세와 상호작용을 규명하는 것을 목표로 할 수도 있습니다(관계 연구 질문).1, 5

양적 연구에서 설명적, 비교 및 관계 연구 질문의 예를 표 2에 제시하고 있습니다.

In quantitative research, research questions inquire about the relationships among variables being investigated and are usually framed at the start of the study. These are precise and typically linked to the subject population, dependent and independent variables, and research design.1 Research questions may also attempt to describe the behavior of a population in relation to one or more variables, or describe the characteristics of variables to be measured (descriptive research questions).1, 5, 14 These questions may also aim to discover differences between groups within the context of an outcome variable (comparative research questions),1, 5, 14 or elucidate trends and interactions among variables (relationship research questions).1, 5 We provide examples of descriptive, comparative, and relationship research questions in quantitative research in Table 2.

정량적 연구의 가설
Hypotheses in quantitative research

정량적 연구에서 가설은 [변수 간의 예상 관계를 예측]합니다.15

  • 예측할 수 있는 변수 간의 관계에는
    • 1) 단일 종속변수와 단일 독립변수 간(단순 가설) 또는
    • 2) 둘 이상의 독립변수와 종속변수 간(복합 가설)이 포함됩니다.4, 11
  • 가설은
    • 또한 따라야 할 예상 방향을 명시하고 특정 결과에 대한 지적 약속을 암시할 수 있습니다(방향성 가설)4.
    • 반면에 가설은 정확한 방향을 예측하지 못할 수 있으며 이론이 없거나 이전 연구 결과와 모순되는 경우(비방향성 가설)에 사용됩니다. 4
  • 또한 가설은
    • 1) 변수 간의 상호 의존성을 정의하고(연관 가설),4
    • 2) 독립 변수의 조작으로 인한 종속 변수에 대한 영향을 제안하고(인과 가설),4
    • 3) 두 변수 간의 음의 관계를 진술할 수 있습니다(귀무 가설),4, 11, 15
    • 4) 기각될 경우 작동 가설을 대체(대체 가설),15 이론을 생성할 수 있는 현상들의 관계를 설명(작동 가설),11
    • 5) 통계적으로 검증할 수 있는 정량화 가능한 변수를 포함(통계 가설),11
    • 6) 또는 상호 연관성을 논리적으로 검증할 수 있는 관계를 표현(논리적 가설)합니다. 11

In quantitative research, hypotheses predict the expected relationships among variables.15 

Relationships among variables that can be predicted include

  • 1) between a single dependent variable and a single independent variable (simple hypothesis) or
  • 2) between two or more independent and dependent variables (complex hypothesis).411 

Hypotheses may also

  • specify the expected direction to be followed and imply an intellectual commitment to a particular outcome (directional hypothesis)4.
  • On the other hand, hypotheses may not predict the exact direction and are used in the absence of a theory, or when findings contradict previous studies (non-directional hypothesis).4 

In addition, hypotheses can

  • 1) define interdependency between variables (associative hypothesis),4 
  • 2) propose an effect on the dependent variable from manipulation of the independent variable (causal hypothesis),4 
  • 3) state a negative relationship between two variables (null hypothesis),41115 
  • 4) replace the working hypothesis if rejected (alternative hypothesis),15 explain the relationship of phenomena to possibly generate a theory (working hypothesis),11 
  • 5) involve quantifiable variables that can be tested statistically (statistical hypothesis),11 
  • 6) or express a relationship whose interlinks can be verified logically (logical hypothesis).11 

 

정량적 연구에서 단순, 복합, 방향성, 비방향성, 연관성, 인과, 무(無), 대안, 작동, 통계적, 논리적 가설의 예와 정량적 가설 검증 연구의 정의는 표 3에 나와 있습니다.

We provide examples of simple, complex, directional, non-directional, associative, causal, null, alternative, working, statistical, and logical hypotheses in quantitative research, as well as the definition of quantitative hypothesis-testing research in Table 3.

 

질적 연구의 연구 질문
Research questions in qualitative research

양적 연구의 연구 질문과 달리 질적 연구의 연구 질문은 일반적으로 지속적으로 검토되고 재구성됩니다. 중심 질문과 관련 하위 질문은 가설보다 더 많이 명시됩니다.15 [중심 질문]은 [중심 현상]을 둘러싼 복잡한 요인들을 광범위하게 탐구하여 참여자들의 다양한 관점을 제시하는 것을 목표로 합니다.15
Unlike research questions in quantitative research, research questions in qualitative research are usually continuously reviewed and reformulated. The central question and associated subquestions are stated more than the hypotheses.15 The central question broadly explores a complex set of factors surrounding the central phenomenon, aiming to present the varied perspectives of participants.15

질적 연구 질문이 개발되는 목표는 다양합니다. 이러한 질문은 다양한 방식으로 작용할 수 있습니다. 

  • 1) 기존 상황을 파악하고 설명하기 위해(맥락적 연구 질문),
  • 2) 현상을 설명하기 위해(서술적 연구 질문),
  • 3) 기존 방법, 프로토콜, 이론 또는 절차의 효과를 평가하기 위해(평가 연구 질문),
  • 4) 현상을 조사하거나 대상 또는 현상 간의 이유 또는 관계를 분석하기 위해(설명적 연구 질문),
  • 5) 특정 주제에 대해 알려지지 않은 측면에 초점을 맞추기 위해(탐색적 연구 질문) 5

There are varied goals for which qualitative research questions are developed. These questions can function in several ways, such as to

  • 1) identify and describe existing conditions (contextual research questions);
  • 2) describe a phenomenon (descriptive research questions);
  • 3) assess the effectiveness of existing methods, protocols, theories, or procedures (evaluation research questions);
  • 4) examine a phenomenon or analyze the reasons or relationships between subjects or phenomena (explanatory research questions); or
  • 5) focus on unknown aspects of a particular topic (exploratory research questions).5 

또한 일부 질적 연구 질문은 이론과 행동의 발전을 위한 새로운 아이디어를 제공하거나(생성적 연구 질문) 특정 입장의 이념을 발전시키기도 합니다(이념적 연구 질문).1
In addition, some qualitative research questions provide new ideas for the development of theories and actions (generative research questions) or advance specific ideologies of a position (ideological research questions).1 

다른 질적 연구 질문은 기존 문헌을 기반으로 하여 작업 지침이 될 수도 있습니다(민족지적 연구 질문). 연구 질문은 기존 문헌이나 질문 유형에 대한 구체적인 언급 없이 광범위하게 진술될 수도 있고(현상학적 연구 질문), 어떤 과정에 대한 이론을 생성하기 위한 것일 수도 있으며(근거 이론 질문), 사례에 대한 설명과 새로운 주제(질적 사례 연구 질문)를 다룰 수도 있습니다. 15
Other qualitative research questions may build on a body of existing literature and become working guidelines (ethnographic research questions). Research questions may also be broadly stated without specific reference to the existing literature or a typology of questions (phenomenological research questions), may be directed towards generating a theory of some process (grounded theory questions), or may address a description of the case and the emerging themes (qualitative case study questions).15 

 표 4에는 질적 연구에서 맥락적, 서술적, 평가적, 설명적, 탐구적, 생성적, 이념적, 민족지학적, 현상학적, 근거 이론 및 질적 사례 연구 연구 질문의 예가 나와 있으며, 표 5에는 질적 가설 생성 연구의 정의가 나와 있습니다.
We provide examples of contextual, descriptive, evaluation, explanatory, exploratory, generative, ideological, ethnographic, phenomenological, grounded theory, and qualitative case study research questions in qualitative research in Table 4, and the definition of qualitative hypothesis-generating research in Table 5.

 
 

 

질적 연구에는 일반적으로 하나 이상의 중심 연구 질문과 '어떻게' 또는 '무엇'으로 시작하는 여러 개의 하위 질문이 있습니다. 이러한 연구 질문은 탐구하다 또는 설명하다와 같은 탐색 동사를 사용합니다. 또한 관심 있는 하나의 중심 현상에 초점을 맞추고 참여자 및 연구 사이트를 언급할 수 있습니다.15 
Qualitative studies usually pose at least one central research question and several subquestions starting with How or What. These research questions use exploratory verbs such as explore or describe. These also focus on one central phenomenon of interest, and may mention the participants and research site.15 

질적 연구의 가설
Hypotheses in qualitative research

질적 연구의 가설은 [조사하고자 하는 문제와 관련된 명확한 진술]의 형태로 진술됩니다. 일반적으로 가설을 테스트하기 위해 가설을 개발하는 양적 연구와 달리 질적 연구는 [가설 테스트와 가설 생성 결과를 모두 도출]할 수 있습니다.2 연구에 양적 연구 질문과 질적 연구 질문이 모두 필요한 경우, 이는 두 연구 방법 간의 통합 프로세스를 통해 하나의 혼합 방법 연구 질문을 개발할 수 있음을 시사합니다.1
Hypotheses in qualitative research are stated in the form of a clear statement concerning the problem to be investigated. Unlike in quantitative research where hypotheses are usually developed to be tested, qualitative research can lead to both hypothesis-testing and hypothesis-generating outcomes.2 When studies require both quantitative and qualitative research questions, this suggests an integrative process between both research methods wherein a single mixed-methods research question can be developed.1

연구 질문 및 가설 개발을 위한 프레임워크
FRAMEWORKS FOR DEVELOPING RESEARCH QUESTIONS AND HYPOTHESES

연구를 시작하기 전에 연구 질문과 가설을 개발해야 합니다.1, 12, 14 연구자와 과학계 모두에게 흥미로운 주제에 대해 실현 가능한 연구 질문을 개발하는 것이 중요합니다. 이는 이전 연구와 현재 연구를 면밀히 검토하여 새로운 주제를 설정함으로써 달성할 수 있습니다. 이후 특정 영역에 초점을 맞춰 윤리적 연구 질문을 생성합니다. 연구 질문의 관련성은 결과 데이터의 명확성, 방법론의 구체성, 결과의 객관성, 연구의 깊이, 연구의 영향력 측면에서 평가됩니다.1, 5 이러한 측면이 FINER 기준(즉, 실현 가능, 흥미, 참신, 윤리적, 관련성)을 구성합니다.1 연구 질문이 FINER 기준을 충족하면 명확성과 효과성을 확보할 수 있습니다. Ratan 등은 연구 질문의 효과성을 평가하기 위해 FINER 기준 외에도 초점, 복잡성, 참신성, 실현 가능성 및 측정 가능성을 설명했습니다.14 
Research questions followed by hypotheses should be developed before the start of the study.1, 12, 14 It is crucial to develop feasible research questions on a topic that is interesting to both the researcher and the scientific community. This can be achieved by a meticulous review of previous and current studies to establish a novel topic. Specific areas are subsequently focused on to generate ethical research questions. The relevance of the research questions is evaluated in terms of clarity of the resulting data, specificity of the methodology, objectivity of the outcome, depth of the research, and impact of the study.1, 5 These aspects constitute the FINER criteria (i.e., Feasible, Interesting, Novel, Ethical, and Relevant).1 Clarity and effectiveness are achieved if research questions meet the FINER criteria. In addition to the FINER criteria, Ratan et al. described focus, complexity, novelty, feasibility, and measurability for evaluating the effectiveness of research questions.14

연구 질문을 개발할 때 PICOT 및 PEO 프레임워크도 사용됩니다.1 이러한 프레임워크에서 다루는 요소는 다음과 같습니다

  • PICOT: P-인구/환자/문제, I-연구 중인 중재 또는 지표, C-비교군, O-관심 결과, T-연구 기간;
  • PEO: P-연구 대상 인구, E-기존 질환에 대한 노출, O-관심 결과.1
  • 연구 질문도 "정밀지도" 프레임워크에 부합하면 좋은 것으로 간주됩니다: 실현 가능, 흥미로움, 참신함, 윤리적, 관련성, 관리 가능, 적절함, 잠재적 가치/출판 가능, 체계적.14

The PICOT and PEO frameworks are also used when developing research questions.1 The following elements are addressed in these frameworks,

  • PICOT: P-population/patients/problem, I-intervention or indicator being studied, C-comparison group, O-outcome of interest, and T-timeframe of the study;
  • PEO: P-population being studied, E-exposure to preexisting conditions, and O-outcome of interest.1 
  • Research questions are also considered good if these meet the “FINERMAPS” framework: Feasible, Interesting, Novel, Ethical, Relevant, Manageable, Appropriate, Potential value/publishable, and Systematic.14

앞서 언급했듯이, 연구 질문과 가설을 신중하게 수립하지 않으면 비윤리적인 연구나 좋지 않은 결과를 초래할 수 있습니다. 이를 설명하기 위해 양적 연구(표 6)16 및 질적 연구(표 7)17에서 불명확하고 취약한 연구 목표를 초래하는 모호한 연구 질문 및 가설의 몇 가지 예와 이러한 모호한 연구 질문 및 가설을 명확하고 좋은 진술로 전환하는 방법을 제공합니다. 
As we indicated earlier, research questions and hypotheses that are not carefully formulated result in unethical studies or poor outcomes. To illustrate this, we provide some examples of ambiguous research question and hypotheses that result in unclear and weak research objectives in quantitative research (Table 6)16 and qualitative research (Table 7)17, and how to transform these ambiguous research question(s) and hypothesis(es) into clear and good statements.

 
연구 질문 및 가설 구성
CONSTRUCTING RESEARCH QUESTIONS AND HYPOTHESES

효과적인 연구 질문과 가설을 구성하기 위해서는

  • 1) 연구 배경을 명확히 하고
  • 2) 연구 시작 시 특정 기간 내에 연구 문제를 파악하는 것이 매우 중요합니다.9 그런 다음
  • 3) 이론과 선행 연구를 검토하거나 예비 연구를 수행하여 가능한 연구 질문에 대한 모든 지식을 수집합니다.18 그 후
  • 4) 연구 문제를 조사하기 위한 연구 질문을 구성합니다. 연구 질문에서 접근해야 할 변수를 식별하고4 연구 문제와 질문에서 구성 요소에 대한 조작적 정의를 내립니다. 그 후,
  • 5) 가설의 형태로 구체적인 연역적 또는 귀납적 예측을 구성합니다.4 마지막으로,
  • 6) 연구 목표를 명시합니다.

연구를 수행하기 전에 효과적인 연구 질문과 가설을 구성하기 위한 일반적인 흐름은 그림 1에 나와 있습니다.

To construct effective research questions and hypotheses, it is very important to

1) clarify the background and
2) identify the research problem at the outset of the research, within a specific timeframe.9 Then,
3) review or conduct preliminary research to collect all available knowledge about the possible research questions by studying theories and previous studies.18 Afterwards,
4) construct research questions to investigate the research problem. Identify variables to be accessed from the research questions4 and make operational definitions of constructs from the research problem and questions. Thereafter,
5) construct specific deductive or inductive predictions in the form of hypotheses.4 Finally,
6) state the study aims.

This general flow for constructing effective research questions and hypotheses prior to conducting research is shown in Fig. 1.

질적 연구에서 [연구 질문]은 목적이나 가설보다 더 자주 사용됩니다.3 이러한 질문은 "무엇을" 또는 "어떻게"라고 질문하여 경험을 발견, 이해, 탐구 또는 설명하고자 합니다. 이러한 질문은 변수를 연관시키거나 그룹을 비교하기보다는 설명을 이끌어내기 위한 개방형 질문입니다. 질적 연구를 진행하는 동안 질문은 지속적으로 검토, 재구성 및 변경됩니다.3 또한 연구 질문은 변수와 그 관계를 비교하기 위한 정량적 연구의 실험에서 가설보다 설문조사 프로젝트에서 더 자주 사용됩니다.
Research questions are used more frequently in qualitative research than objectives or hypotheses.3 These questions seek to discover, understand, explore or describe experiences by asking “What” or “How.” The questions are open-ended to elicit a description rather than to relate variables or compare groups. The questions are continually reviewed, reformulated, and changed during the qualitative study.3 Research questions are also used more frequently in survey projects than hypotheses in experiments in quantitative research to compare variables and their relationships.

[가설]은 확인된 변수를 바탕으로 '특정 행동을 취하면 특정 결과가 예상된다'는 템플릿에 따라 if-then 문장으로 구성됩니다. 이 단계에서는 수행하고자 하는 연구를 통해 기대되는 결과에 대한 아이디어를 도출해야 합니다.18 그런 다음 조작할 변수(독립변수)와 영향을 받을 변수(종속변수)를 정의합니다.4 그 후 가설을 진술하고 구체화하며 가설에 맞는 재현 가능한 데이터를 식별, 수집, 분석합니다.4 가설은 테스트 가능하고 구체적이어야 하며,18 변수와 변수 간의 관계, 연구 대상 특정 집단, 예측되는 연구 결과를 기술해야 합니다.18 가설 구성에는 이론으로부터 추론할 수 있는 테스트 가능한 명제와 독립변수와 종속변수가 분리되어 별도로 측정되어야 합니다.3 따라서 좋은 가설은 연구 또는 시험을 시작할 때 구성한 좋은 연구 질문에 기반해야 합니다.12
Hypotheses are constructed based on the variables identified and as an if-then statement, following the template, ‘If a specific action is taken, then a certain outcome is expected.’ At this stage, some ideas regarding expectations from the research to be conducted must be drawn.18 Then, the variables to be manipulated (independent) and influenced (dependent) are defined.4 Thereafter, the hypothesis is stated and refined, and reproducible data tailored to the hypothesis are identified, collected, and analyzed.4 The hypotheses must be testable and specific,18 and should describe the variables and their relationships, the specific group being studied, and the predicted research outcome.18 Hypotheses construction involves a testable proposition to be deduced from theory, and independent and dependent variables to be separated and measured separately.3 Therefore, good hypotheses must be based on good research questions constructed at the start of a study or trial.12

요약하면, [연구 질문]은 [연구의 배경]을 설정한 후 구성됩니다. 그런 다음 [연구 질문]에 따라 [가설을 개발]합니다. 따라서 우수한 가설을 도출하기 위해서는 우수한 연구 질문을 갖는 것이 중요합니다. 연구 질문에 따라 연구 목표와 연구 설계가 결정되고 궁극적으로 연구 결과가 결정됩니다.12 연구 질문과 가설을 구축하는 알고리즘은 정량적 연구의 경우 그림 2에, 질적 연구의 경우 그림 3에 나와 있습니다.
In summary, research questions are constructed after establishing the background of the study. Hypotheses are then developed based on the research questions. Thus, it is crucial to have excellent research questions to generate superior hypotheses. In turn, these would determine the research objectives and the design of the study, and ultimately, the outcome of the research.12 Algorithms for building research questions and hypotheses are shown in Fig. 2 for quantitative research and in Fig. 3 for qualitative research.

 

 

 

결론
CONCLUSION

연구 질문과 가설은 정량적이든 정성적이든 모든 유형의 연구에서 중요한 요소입니다. 이러한 질문은 연구를 시작할 때 개발해야 합니다. 훌륭한 연구 질문은 나침반처럼 연구의 방향을 설정하고 연구의 성공적인 수행을 결정할 수 있는 훌륭한 가설로 이어집니다. 많은 연구가 실패한 이유는 연구 질문과 그에 따른 가설을 개발하는 데 충분한 고민과 세심한 주의를 기울이지 않았기 때문입니다. 연구 질문과 가설의 개발은 문헌에 대한 광범위한 지식과 지식 격차에 대한 통찰력 있는 파악을 바탕으로 반복적인 과정을 거쳐야 합니다. 집중적이고 간결하며 구체적인 연구 질문은 연구 결과에 대한 공식적인 예측 역할을 하는 가설을 구성하는 데 강력한 토대를 제공합니다. 연구 질문과 가설은 간과해서는 안 되는 연구의 중요한 요소입니다. 연구를 계획할 때 신중하게 생각하고 가설을 세워야 합니다. 이는 연구의 설계, 과정 및 결과를 결정하는 근거 있는 목표를 정의함으로써 비윤리적인 연구와 부실한 결과를 방지합니다.
Research questions and hypotheses are crucial components to any type of research, whether quantitative or qualitative. These questions should be developed at the very beginning of the study. Excellent research questions lead to superior hypotheses, which, like a compass, set the direction of research, and can often determine the successful conduct of the study. Many research studies have floundered because the development of research questions and subsequent hypotheses was not given the thought and meticulous attention needed. The development of research questions and hypotheses is an iterative process based on extensive knowledge of the literature and insightful grasp of the knowledge gap. Focused, concise, and specific research questions provide a strong foundation for constructing hypotheses which serve as formal predictions about the research outcomes. Research questions and hypotheses are crucial elements of research that should not be overlooked. They should be carefully thought of and constructed when planning research. This avoids unethical studies and poor outcomes by defining well-founded objectives that determine the design, course, and outcome of the study.

 

 
EXAMPLES OF RESEARCH QUESTIONS FROM PUBLISHED ARTICLES
 
  • EXAMPLE 1. Descriptive research question (quantitative research)
  • - Presents research variables to be assessed (distinct phenotypes and subphenotypes)
  • “BACKGROUND: Since COVID-19 was identified, its clinical and biological heterogeneity has been recognized. Identifying COVID-19 phenotypes might help guide basic, clinical, and translational research efforts.
  • RESEARCH QUESTION: Does the clinical spectrum of patients with COVID-19 contain distinct phenotypes and subphenotypes?19

 

  • EXAMPLE 2. Relationship research question (quantitative research)
  • - Shows interactions between dependent variable (static postural control) and independent variable (peripheral visual field loss)
  • “Background: Integration of visual, vestibular, and proprioceptive sensations contributes to postural control. People with peripheral visual field loss have serious postural instability. However, the directional specificity of postural stability and sensory reweighting caused by gradual peripheral visual field loss remain unclear.
  • Research question: What are the effects of peripheral visual field loss on static postural control?”20

 

  • EXAMPLE 3. Comparative research question (quantitative research)
  • - Clarifies the difference among groups with an outcome variable (patients enrolled in COMPERA with moderate PH or severe PH in COPD) and another group without the outcome variable (patients with idiopathic pulmonary arterial hypertension (IPAH))
  • “BACKGROUND: Pulmonary hypertension (PH) in COPD is a poorly investigated clinical condition.
  • RESEARCH QUESTION: Which factors determine the outcome of PH in COPD?
  • STUDY DESIGN AND METHODS: We analyzed the characteristics and outcome of patients enrolled in the Comparative, Prospective Registry of Newly Initiated Therapies for Pulmonary Hypertension (COMPERA) with moderate or severe PH in COPD as defined during the 6th PH World Symposium who received medical therapy for PH and compared them with patients with idiopathic pulmonary arterial hypertension (IPAH).”21
  • EXAMPLE 4. Exploratory research question (qualitative research)
  • - Explores areas that have not been fully investigated (perspectives of families and children who receive care in clinic-based child obesity treatment) to have a deeper understanding of the research problem
  • “Problem: Interventions for children with obesity lead to only modest improvements in BMI and long-term outcomes, and data are limited on the perspectives of families of children with obesity in clinic-based treatment. This scoping review seeks to answer the question: What is known about the perspectives of families and children who receive care in clinic-based child obesity treatment? This review aims to explore the scope of perspectives reported by families of children with obesity who have received individualized outpatient clinic-based obesity treatment.”22
  • EXAMPLE 5. Relationship research question (quantitative research)
  • - Defines interactions between dependent variable (use of ankle strategies) and independent variable (changes in muscle tone)
  • “Background: To maintain an upright standing posture against external disturbances, the human body mainly employs two types of postural control strategies: “ankle strategy” and “hip strategy.” While it has been reported that the magnitude of the disturbance alters the use of postural control strategies, it has not been elucidated how the level of muscle tone, one of the crucial parameters of bodily function, determines the use of each strategy. We have previously confirmed using forward dynamics simulations of human musculoskeletal models that an increased muscle tone promotes the use of ankle strategies. The objective of the present study was to experimentally evaluate a hypothesis: an increased muscle tone promotes the use of ankle strategies. Research question: Do changes in the muscle tone affect the use of ankle strategies?”23

 

EXAMPLES OF HYPOTHESES IN PUBLISHED ARTICLES

  • EXAMPLE 1. Working hypothesis (quantitative research)
  • - A hypothesis that is initially accepted for further research to produce a feasible theory
  • “As fever may have benefit in shortening the duration of viral illness, it is plausible to hypothesize that the antipyretic efficacy of ibuprofen may be hindering the benefits of a fever response when taken during the early stages of COVID-19 illness.”24
  • “In conclusion, it is plausible to hypothesize that the antipyretic efficacy of ibuprofen may be hindering the benefits of a fever response. The difference in perceived safety of these agents in COVID-19 illness could be related to the more potent efficacy to reduce fever with ibuprofen compared to acetaminophen. Compelling data on the benefit of fever warrant further research and review to determine when to treat or withhold ibuprofen for early stage fever for COVID-19 and other related viral illnesses.”24
  • EXAMPLE 2. Exploratory hypothesis (qualitative research)
  • - Explores particular areas deeper to clarify subjective experience and develop a formal hypothesis potentially testable in a future quantitative approach
  • “We hypothesized that when thinking about a past experience of help-seeking, a self distancing prompt would cause increased help-seeking intentions and more favorable help-seeking outcome expectations.”25
  • “Conclusion
  • Although a priori hypotheses were not supported, further research is warranted as results indicate the potential for using self-distancing approaches to increasing help-seeking among some people with depressive symptomatology.”25
  • EXAMPLE 3. Hypothesis-generating research to establish a framework for hypothesis testing (qualitative research)
  • “We hypothesize that compassionate care is beneficial for patients (better outcomes), healthcare systems and payers (lower costs), and healthcare providers (lower burnout).26
  • “Conclusion
  • Compassionomics is the branch of knowledge and scientific study of the effects of compassionate healthcare. Our main hypotheses are that compassionate healthcare is beneficial for (1) patients, by improving clinical outcomes, (2) healthcare systems and payers, by supporting financial sustainability, and (3) HCPs, by lowering burnout and promoting resilience and well-being. The purpose of this paper is to establish a scientific framework for testing the hypotheses above. If these hypotheses are confirmed through rigorous research, compassionomics will belong in the science of evidence-based medicine, with major implications for all healthcare domains.”26
  • EXAMPLE 4. Statistical hypothesis (quantitative research)
  • - An assumption is made about the relationship among several population characteristics (gender differences in sociodemographic and clinical characteristics of adults with ADHD). Validity is tested by statistical experiment or analysis (chi-square test, Students t-test, and logistic regression analysis)
  • “Our research investigated gender differences in sociodemographic and clinical characteristics of adults with ADHD in a Japanese clinical sample. Due to unique Japanese cultural ideals and expectations of women's behavior that are in opposition to ADHD symptoms, we hypothesized that women with ADHD experience more difficulties and present more dysfunctions than men. We tested the following hypotheses: first, women with ADHD have more comorbidities than men with ADHD; second, women with ADHD experience more social hardships than men, such as having less full-time employment and being more likely to be divorced.”27
  • “Statistical Analysis
  • (text omitted) Between-gender comparisons were made using the chi-squared test for categorical variables and Students t-test for continuous variables…(text omitted). A logistic regression analysis was performed for employment status, marital status, and comorbidity to evaluate the independent effects of gender on these dependent variables.”27

 

EXAMPLES OF HYPOTHESIS AS WRITTEN IN PUBLISHED ARTICLES IN RELATION TO OTHER PARTS

  • EXAMPLE 1. Background, hypotheses, and aims are provided
  • BACKGROUND
  • “Pregnant women need skilled care during pregnancy and childbirth, but that skilled care is often delayed in some countries …(text omitted). The focused antenatal care (FANC) model of WHO recommends that nurses provide information or counseling to all pregnant women …(text omitted). Job aids are visual support materials that provide the right kind of information using graphics and words in a simple and yet effective manner. When nurses are not highly trained or have many work details to attend to, these job aids can serve as a content reminder for the nurses and can be used for educating their patients (Jennings, Yebadokpo, Affo, & Agbogbe, 2010) (text omitted). Importantly, additional evidence is needed to confirm how job aids can further improve the quality of ANC counseling by health workers in maternal care …(text omitted)”28
  • HYPOTHESES
  • This has led us to hypothesize that the quality of ANC counseling would be better if supported by job aids. Consequently, a better quality of ANC counseling is expected to produce higher levels of awareness concerning the danger signs of pregnancy and a more favorable impression of the caring behavior of nurses.”28
  • AIMS
  • “This study aimed to examine the differences in the responses of pregnant women to a job aid-supported intervention during ANC visit in terms of 1) their understanding of the danger signs of pregnancy and 2) their impression of the caring behaviors of nurses to pregnant women in rural Tanzania.”28
 
  • EXAMPLE 2. Background, hypotheses, and aims are provided
  • BACKGROUND
  • “We conducted a two-arm randomized controlled trial (RCT) to evaluate and compare changes in salivary cortisol and oxytocin levels of first-time pregnant women between experimental and control groups. The women in the experimental group touched and held an infant for 30 min (experimental intervention protocol), whereas those in the control group watched a DVD movie of an infant (control intervention protocol). The primary outcome was salivary cortisol level and the secondary outcome was salivary oxytocin level.”29
  • HYPOTHESIS
  • We hypothesize that at 30 min after touching and holding an infant, the salivary cortisol level will significantly decrease and the salivary oxytocin level will increase in the experimental group compared with the control group.”29
  • EXAMPLE 3. Background, aim, and hypothesis are provided
  • BACKGROUND
  • “In countries where the maternal mortality ratio remains high, antenatal education to increase Birth Preparedness and Complication Readiness (BPCR) is considered one of the top priorities [1]. BPCR includes birth plans during the antenatal period, such as the birthplace, birth attendant, transportation, health facility for complications, expenses, and birth materials, as well as family coordination to achieve such birth plans. In Tanzania, although increasing, only about half of all pregnant women attend an antenatal clinic more than four times [4]. Moreover, the information provided during antenatal care (ANC) is insufficient. In the resource-poor settings, antenatal group education is a potential approach because of the limited time for individual counseling at antenatal clinics.”30
  • AIM
  • “This study aimed to evaluate an antenatal group education program among pregnant women and their families with respect to birth-preparedness and maternal and infant outcomes in rural villages of Tanzania.”30
  • HYPOTHESIS
  • The study hypothesis was if Tanzanian pregnant women and their families received a family-oriented antenatal group education, they would (1) have a higher level of BPCR, (2) attend antenatal clinic four or more times, (3) give birth in a health facility, (4) have less complications of women at birth, and (5) have less complications and deaths of infants than those who did not receive the education.”30

 


 

 

J Korean Med Sci. 2022 Apr 25;37(16):e121. doi: 10.3346/jkms.2022.37.e121.

 

A Practical Guide to Writing Quantitative and Qualitative Research Questions and Hypotheses in Scholarly Articles

Affiliations collapse

1Department of General Education, Graduate School of Nursing Science, St. Luke's International University, Tokyo, Japan. edward-barroga@slcn.ac.jp.

2Department of Biological Sciences, Messiah University, Mechanicsburg, PA, USA.

PMID: 35470596

PMCID: PMC9039193

DOI: 10.3346/jkms.2022.37.e121

 

Abstract

The development of research questions and the subsequent hypotheses are prerequisites to defining the main research purpose and specific objectives of a study. Consequently, these objectives determine the study design and research outcome. The development of research questions is a process based on knowledge of current trends, cutting-edge studies, and technological advances in the research field. Excellent research questions are focused and require a comprehensive literature search and in-depth understanding of the problem being investigated. Initially, research questions may be written as descriptive questions which could be developed into inferential questions. These questions must be specific and concise to provide a clear foundation for developing hypotheses. Hypotheses are more formal predictions about the research outcomes. These specify the possible results that may or may not be expected regarding the relationship between groups. Thus, research questions and hypotheses clarify the main purpose and specific objectives of the study, which in turn dictate the design of the study, its direction, and outcome. Studies developed from good research questions and hypotheses will have trustworthy outcomes with wide-ranging social and health implications.

Keywords: Hypotheses; Qualitative Research; Quantitative Research; Research Questions.

전공의 역량 검토: 수행능력 평가에 CCC의 역할에 대한 질적 연구(Acad Med, 2015)
Reviewing Residents’ Competence: A Qualitative Study of the Role of Clinical Competency Committees in Performance Assessment 
Karen E. Hauer, MD, Benjamin Chesluk, PhD, William Iobst, MD, Eric Holmboe, MD, Robert B. Baron, MD, Christy K. Boscardin, PhD, Olle ten Cate, PhD, and Patricia S. O’Sullivan, EdD 

 

의학교육자는 수련의의 성과를 평가하여 수련의가 고품질의 안전한 의료 서비스를 제공할 수 있는 역량을 갖추었는지 판단합니다. 점점 더 많은 대중은 교육 프로그램에 미래의 의사가 독립적인 진료를 할 수 있도록 준비된 프로세스가 마련되어 있기를 기대하게 되었습니다. 전 세계의 교육자들은 [의사가 수행해야 할 바람직한 특성]을 명확히 하고 평가의 근거로 삼기 위해 역량을 정의하고 최근에는 [마일스톤을 정의]했습니다.1-3 
Medical educators assess trainees’ performance to determine whether they have achieved competence to provide high-quality, safe medical care. Increasingly, the public has come to expect that training programs have processes in place to ensure that future physicians are prepared for independent practice. Educators around the world have defined competencies, and more recently milestones, to articulate the desired characteristics of physicians’ performance and to serve as the basis for assessment.1–3

과거에는 특정 분야의 레지던트 수련을 [정해진 기간] 동안 [공인된 프로그램]에서 이수하는 것으로 거의 모든 수련의의 진료 준비가 완료되었다고 정의했지만, 이제는 [역량을 확인하는 메커니즘]에 대한 면밀한 검토가 이루어지고 있습니다. 역량 및 이정표 기반 교육은 모든 수련의가 [의료행위에 대비]하고 [주요 활동에 능숙]하도록 하는 것을 목표로 합니다.4,5 이정표는 개별 학습 요구에 맞춘 일관되고 논리적인 경험의 순서로서 레지던트의 학습을 지원하는 프레임워크 역할을 하도록 고안되었습니다. [역량]의 [추상적인 특성]으로 인해 사용이 복잡할 수 있지만,6 [마일스톤]은 [특정 역량 영역에서 평가할 진행 상황을 명확히 하는 것]을 목표로 합니다.
Whereas the completion of residency training within a specific discipline in an accredited program after a prescribed number of years has historically defined readiness for practice for nearly all trainees, mechanisms to confirm competence are now receiving closer scrutiny. Competency- and milestones-based education seeks to ensure that all trainees are prepared for practice and competent in key activities.4,5 Milestones are intended to serve as a framework to support residents’ learning as a coherent and logical sequence of experiences tailored to individual learning needs. Although the abstract nature of competencies can complicate their use,6 milestones aim to clarify progress to be assessed in specific competency domains.

의학전문대학원(GME) 프로그램 디렉터는 항상 레지던트의 성과를 모니터링할 책임이 있었지만, 미국에서는 이제 [차기 인증 시스템(NAS)7]에 따라 [GME 프로그램 내에서 임상역량위원회(CCC)]가 [레지던트의 점진적인 역량 달성을 측정]하도록 요구하고 있습니다. 2013년부터 CCC는 모든 레지던트 평가를 반기별로 검토하고 주요 성과를 의학전문대학원교육인증위원회(ACGME)에 보고해야 합니다.1 그럼에도 불구하고, 이 의무화에는 이러한 위원회가 역량 판단을 내리기 위해 [어떤 방식으로 업무에 접근해야 하는지]에 대한 답이 없는 질문이 있습니다. [무엇을 평가할 것인지], [어떻게 정보를 종합하여 수련의의 성과에 대한 판단을 내릴 것인지]에 대한 결정은 검토 과정의 목적에 대한 기본 가정을 반영합니다.8,9 CCC가 이용할 수 있는 정보 출처, 이 정보를 공유하고 사용하는 방식, 의사 결정 책임에 대한 인식은 모두 수련생과 환자에 대한 책임의 범위와 성격에 대한 이해를 반영할 수 있습니다. [수련의의 성과에 대한 정보를 종합하여 승진을 권고하는 것]은 궁극적으로 수련의가 [향후 임상 업무를 감독 없이 독립적으로 수행할 수 있도록 신뢰한다는 판단]에 해당합니다.10
Though graduate medical education (GME) program directors have always been responsible for monitoring residents’ performance, in the United States, the Next Accreditation System (NAS)7 now requires that, within GME programs, clinical competency committees (CCCs) measure residents’ progressive attainment of competence. As of 2013, CCCs must review all resident evaluations semiannually and report on milestones to the Accreditation Council for Graduate Medical Education (ACGME).1 Nonetheless, this mandate comes with unanswered questions about how these committees should approach their work to render judgments of competence. Decisions about what will be evaluated and how information will be synthesized into a judgment about a trainee’s performance reflect underlying assumptions about the purposes of the review process.8,9 The information sources available to CCCs, the ways that they share and use this information, and their perceptions of their decision-making accountability all may reflect their understanding of the scope and nature of their responsibilities toward trainees and patients. Synthesizing information about a trainee’s performance into a recommendation for advancement ultimately constitutes a judgment to trust the trainee to perform future clinical work independently and unsupervised.10

본 연구는 전공의의 역량 개발을 안내하고 보장하기 위한 목적으로 성과 정보를 해석하는 관점에서 [GME에서 CCC의 현황]을 설명하고자 했습니다. 현재 레지던트 프로그램에서 CCC가 의무화되었지만, 이들의 업무를 안내할 수 있는 정보는 문헌에 거의 존재하지 않습니다. 또한 이러한 위원회가 자신의 임무에 어떻게 접근하거나 목적을 어떻게 인식하는지, 또는 운영이 의도와 어떻게 일치하는지에 대해서는 아직 알려지지 않았습니다. 이 연구는 레지던트 CCC의 특성, 목적에 대한 이해, 레지던트의 역량에 대한 판단을 내리기 위해 성과 정보를 사용하는 방식을 파악하는 것을 목표로 합니다. 연구 결과는 교육자가 평가와 커리큘럼 설계, 학습 및 결과 간의 관계를 다루는 데 도움이 되는 현재 관행을 파악할 것입니다. GME 평가의 중추적인 시기에 연구 결과는 CCC 과정의 리더이자 최종 사용자로서 프로그램 디렉터가 레지던트의 역량 보장에 대한 책임과 책임을 어떻게 인식하는지에 대한 기초적인 통찰력을 제공할 수 있습니다. 
From the perspective of interpreting performance information for the purpose of guiding and ensuring residents’ development of competence, this study sought to describe the current state of CCCs in GME. Although CCCs are now required in residency programs, little information exists in the literature to guide their work. In addition, how these committees approach their charge or perceive their purpose, or how their operations align with their intentions, remains unknown. This study aims to characterize residency CCCs, understandings of their purpose, and the ways in which they use performance information to make judgments about residents’ competence. Study results will identify current practices to help educators address the relationship between assessment and curricular design, learning, and outcomes. At a pivotal time for assessment in GME, study findings can provide baseline insights about how program directors, as both leaders and end users of the CCC process, perceive their charge and their accountability for ensuring residents’ competence.

연구 방법
Method

연구 설계
Study design

이 질적 연구는 데이터의 검사, 코딩, 해석을 통해 현상을 설명하고 주제를 파악하는 전통적인 내용 분석을 사용했습니다.11 연구자들은 2013년 캘리포니아에 있는 5개 기관의 레지던트 프로그램 디렉터들과 반구조화된 인터뷰를 실시했습니다. 연구자들은 프로그램마다 차이가 있을 것으로 예상하고 인터뷰를 통해 프로그램 디렉터들의 CCC 절차에 대한 인식과 달성한 결과에 대해 심층적으로 이해했습니다. 캘리포니아 대학교 샌프란시스코 의과대학의 기관윤리심의위원회는 이 연구를 승인했습니다. 
This qualitative study used conventional content analysis, which seeks to describe a phenomenon through the examination, coding, and interpretation of data to identify themes.11 The investigators conducted semistructured interviews with residency program directors at five institutions in California in 2013. Anticipating variability across programs, the investigators used interviews to gain an in-depth understanding of program directors’ perceptions of their CCC procedures and the results achieved. The institutional review board at the University of California, San Francisco, School of Medicine approved this study.

연구팀에는 성과 평가 연구 및 수행 경험이 있고 학생 역량 위원회에서 활동한 경험이 있는 연구 책임자(K.E.H.)가 포함되었습니다. 인터뷰를 수행한 연구 조교는 질적 인터뷰 및 연구 경험이 풍부했습니다. 나머지 팀원들은 연구 방법(B.C., C.K.B., O.T.C., P.S.O.)과 여러 기관의 역량 기반 교육(W.I., E.H., R.B.B.)에 대한 전문성을 가지고 있었습니다.
The research team included the principal investigator (K.E.H.), who had experience studying and conducting performance assessment and had served on a student competency committee. The research assistant, who conducted the interviews, had extensive experience in qualitative interviewing and research. The remaining team members brought expertise in research methods (B.C., C.K.B., O.T.C., P.S.O.) and competency-based education across institutions (W.I., E.H., R.B.B.).

표본
Sample

응답의 다양성을 극대화하기 위해 조사자들은 데이비스, 어바인, 로스앤젤레스, 샌디에이고, 샌프란시스코에 있는 캘리포니아 대학교 의과대학의 레지던트 프로그램 디렉터들을 대상으로 [계층화된 의도적 표본 추출12]을 선택했습니다. 프로그램은 [대규모 또는 소규모]로, [절차적 또는 비절차적 프로그램]으로 분류되었습니다(보충 디지털 부록 1 참조). 연구자들은 일반화 가능성을 높이고 대표성을 보장하기 위해 [난수 생성기]를 사용하여 각 참여 기관에서 [8개의 레지던트 프로그램(대규모 절차적 프로그램 3개, 대규모 비절차적 프로그램 3개, 소규모 절차적 프로그램 1개, 소규모 비절차적 프로그램 1개)을 선정]하고 해당 프로그램의 책임자를 참여하도록 초청했습니다. 1차 인터뷰 후, 각 참여 기관의 프로그램 책임자를 추가로 초청했으며, 연구자들은 각 기관의 각 범주(대규모 절차적, 대규모 비절차적, 소규모 절차적, 소규모 비절차적)에서 무작위로 하나의 프로그램을 선택했습니다. 연구자들은 이러한 추가 참가자를 통해 포화 상태에 도달할 것으로 예상했습니다. 
To maximize diversity of responses, the investigators chose stratified purposive sampling12 of residency program directors from the University of California Schools of Medicine at Davis, Irvine, Los Angeles, San Diego, and San Francisco. Programs were classified as larger or smaller and as procedural or nonprocedural (see Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/A277). Using a random number generator to increase generalizability and assure representation, the investigators selected eight residency programs from each participating institution (three large procedural, three large nonprocedural, one small procedural, one small nonprocedural) and invited the directors of those programs to participate. After the initial interviews, additional program directors from each of the participating institutions were invited—the investigators randomly selected one program from each category at each institution (large procedural, large nonprocedural, small procedural, small nonprocedural). They anticipated achieving saturation with these additional participants.

데이터 수집
Data collection

연구 책임자(K.E.H.)는 캘리포니아 대학교 샌프란시스코 의과대학의 펠로우십 디렉터와 세 차례의 파일럿 인터뷰를 실시하여 [인터뷰 가이드를 명확하게 수정]했습니다. 연구팀은 각 레지던트 프로그램의 프로그램 요건과 집단 의사 결정에 관한 문헌을 검토하여 [인터뷰 질문을 개발]했으며, 각자의 전문 지식도 활용했습니다.
The principal investigator (K.E.H.) conducted three pilot interviews with fellowship directors from the University of California, San Francisco, School of Medicine and refined the interview guide for clarification. The research team developed the interview questions by reviewing the program requirements for each residency program and the literature on group decision making; they also drew on their expertise.

잠재적 참가자에게는 이메일 참여 초대장을 보냈습니다. 응답하지 않은 참가자에게는 최대 3번의 후속 이메일 초대를 보냈습니다. 참가자들은 구두 동의를 한 후 7가지 항목의 전자 설문지와 1회의 인터뷰를 완료했습니다. 설문지에는 참가자의 전문 분야, 성별, 나이, CCC 의장, 프로그램 디렉터 및 부프로그램 디렉터로 활동한 기간, 프로그램에 참여한 전공의 수에 대한 질문이 포함되었습니다. 숙련된 연구 보조원은 2013년 1월부터 5월까지, 7개의 1단계 전문과목에 대한 NAS의 역량 위원회 구성 요건을 준수하기 위한 2013년 7월 마감일 발표 이후부터 그 직전까지 각 참가자와 약 30분 동안 전화 인터뷰를 진행했습니다.13 인터뷰는 녹음되었으며, 전문 전사 서비스에서 이를 그대로 옮겨 적었습니다. 참가자들은 보상을 받지 않았습니다.
Potential participants received an e-mail invitation to participate. Nonrespondents received up to three follow-up e-mail invitations. Participants provided verbal consent and completed a seven-item electronic questionnaire and one interview. The questionnaire queried the participant’s specialty; gender; age; years as a CCC chair, program director, and/or associate program director; and number of residents in the program. The trained research assistant conducted phone interviews lasting approximately 30 minutes with each participant between January and May 2013, after the announcement about but just prior to the July 2013 deadline for the seven Phase 1 specialties to adhere to the NAS requirement to have a competency committee.13 Interviews were recorded; a professional transcription service transcribed them verbatim. Participants did not receive compensation.

인터뷰 질문은 회원 구성, 회원 교육, 위원회 리더십, 회의 빈도 및 사용 가능한 상주 성과 데이터를 포함하여 CCC에 대한 설명을 요청했습니다(부록 1 참조). [CCC가 운영되지 않는 프로그램]의 경우, 프로그램 책임자에게 전공의의 성과를 검토하는 데 사용되는 프로세스를 설명하도록 요청했습니다. 모든 참가자는 신원 정보를 사용하지 않고 [최근 어려움을 겪고 있는 전공의의 사례][일반적인(어려움을 겪지 않는) 전공의의 사례]에 대한 검토 프로세스를 설명했습니다. 질문은 위원회 또는 검토 절차의 주요 목적에 대한 프로그램 책임자의 인식, 현재 절차의 장단점, 절차에 예상되는 변경 사항을 다루었습니다.
Interview questions solicited descriptions of CCCs, including membership composition, member training, committee leadership, frequency of meetings, and resident performance data available (see Appendix 1). For programs without a functioning CCC, the program director was asked to describe the process used to review residents’ performance. All participants described, without using any identifying information, the review process for a recent example of a struggling resident and an example of a typical (nonstruggling) resident. Questions addressed program directors’ perceptions of the main purpose their committee or review process served, pros and cons of their current procedures, and any anticipated changes to their procedures.

5명의 조사자(K.E.H., B.C., W.I., E.H., 연구 보조원)가 명확성을 위해 2~4개의 초기 녹취록을 읽은 후, 불명확한 질문 1개를 삭제하고 두 개의 질문을 추가했습니다.
Five investigators (K.E.H., B.C., W.I., E.H., the research assistant) read two to four early transcripts for clarity; subsequently, one unclear question was dropped, and two questions were added.

분석
Analysis

두 명의 연구자(연구 조교인 K.E.H.)가 각 프로그램에 대한 [기술적 정보]를 추출했는데, 여기에는 [CCC의 존재 여부, 위원회 위원 수, 위원회 회의 빈도, 전공의의 성과를 검토하는 다른 위원회의 존재 여부]가 포함되었습니다.
Two investigators (K.E.H., the research assistant) extracted descriptive information about each program, including the presence of a CCC, the number of committee members, the frequency of committee meetings, and the presence of any other committee that also reviewed residents’ performance.

주제에 대한 질적 분석을 위해 연구자들은 [지속적 비교 방법14] 및 [불일치 사례 분석]을 사용한 [데이터 수집과 함께 반복적으로 전사 코딩]을 수행했습니다.15 한 명의 연구자(K.E.H.)가 처음 10개의 인터뷰를 읽고 초기 주제를 생성했습니다. 4명의 추가 연구자(B.C., W.I., E.H., P.S.O.)가 각각 10명의 그룹에서 [무작위로 선정된 5~6개의 녹취록을 검토]하고 [코드북 초안]에서 [주제를 검토]한 후 [연구책임자와 만나 코드북 추가 및 수정]에 기여했습니다. 그 후 [코드북이 최종 완성]되었습니다. 두 명의 코더(연구 조교인 K.E.H.)가 [각각 독립적으로 나머지 모든 트랜스크립트를 코딩]했습니다. 이들은 전체 트랜스크립트 검토와 토론을 통해 불일치하는 부분을 해결했습니다.
For the qualitative analysis of themes, the investigators conducted transcript coding iteratively with data collection using the constant comparative method14 and discrepant case analysis.15 One investigator (K.E.H.) read the first 10 interviews and generated initial themes. Four additional investigators (B.C., W.I., E.H., P.S.O.) each reviewed 5 to 6 randomly selected transcripts from that group of 10, reviewed the themes in a draft codebook, and met with the principal investigator to contribute codebook additions and revisions. The codebook then was finalized. Two coders (K.E.H., the research assistant) each independently coded all remaining transcripts. They resolved discrepancies through full transcript review and discussion.

[다양한 관점]을 가진 [다양한 연구자 그룹 간]의 [정기적인 연구팀 회의]는 삼각측량의 목적에 부합했습니다.16 연구자들은 초기 (개방형) 코딩을 기반으로 데이터를 검토하고 토론하여 더 큰 새로운 주제를 식별하고 구체화했습니다.
Regular research team meetings amongst this diverse group of investigators with multiple perspectives served the purpose of triangulation.16 On the basis of the initial (open) coding, the investigators reviewed and discussed the data to identify and refine larger emerging themes.

데이터 코딩, 구성 및 검색에는 Dedoose 버전 4.5(미국 캘리포니아주 로스앤젤레스의 SocioCultural Research Consultants, LLC) 웹 애플리케이션 소프트웨어가 사용되었습니다. 
Dedoose Version 4.5 (SocioCultural Research Consultants, LLC, Los Angeles, California) Web application software was used for coding, organizing, and retrieving data.

결과
Results

초청된 레지던트 프로그램 디렉터 60명 중 34명(56.7%)이 인터뷰를 완료했습니다. 9명의 프로그램 디렉터가 추가로 참여하기로 동의했지만 일정상의 제약이나 연구 주제가 포화 상태에 이르렀기 때문에 참여하지 않았습니다. 표본 추출 절차에 따라 참가자는 22개의 대규모 프로그램과 12개의 소규모 프로그램을 포함했으며, 15개의 절차적 전문 분야와 19개의 비절차적 전문 분야를 대표했습니다. 학교별 참여율은 33.3%에서 75.0%까지 다양했습니다. 참가자는 남성이 23명, 여성이 11명이었습니다.
Thirty-four of 60 (56.7%) invited residency program directors completed an interview. Nine additional program directors agreed to participate but did not either because of schedule constraints or because the study had achieved thematic saturation. Consistent with our sampling procedure, participants included 22 large and 12 small programs, representing 15 procedural and 19 nonprocedural specialties. The participation rate by school varied from 33.3% to 75.0%. Participants included 23 men and 11 women.

전체적으로 31명(91.2%)의 참가자가 인구통계학적 설문조사를 완료했습니다. 평균 연령은 48세였으며, 35세 미만에서 66세까지 다양했습니다. 이들은 평균 7년(1~21년 범위, 30명)간 프로그램 디렉터로 근무했으며, 이는 전국 프로그램 디렉터와 비슷한 수준입니다.17 14명은 이전에 부 프로그램 디렉터로 근무한 경험이 있습니다. 연구 당시 각 프로그램의 전공의 수는 평균 39명이었습니다(범위 0~99명, 소규모 프로그램 1곳은 당시 전공의가 없었습니다).
Overall, 31 (91.2%) participants completed the demographic survey. Their mean age was 48, ranging from under 35 to 66 years. They had served as program director for an average of 7 years (range 1–21, n = 30), comparable to program directors nationally.17 Fourteen had previously served as an associate program director. The number of residents in each program at the time of the study averaged 39 (range 0–99; one small program did not have residents at the time).

CCC 구조에 대한 설명
Description of CCC structure

34개 프로그램 중 21개 프로그램에 CCC가 있었습니다. 22명의 참가자는 평균 5.6년(범위 1-18년) 동안 CCC 또는 이와 동등한 그룹의 의장을 맡았습니다. 위원회 구성원의 규모는 3명에서 약 25명까지 다양했지만, 많은 참가자가 참석 인원이 다양하고 전체 인원에 미치지 못한다고 설명했습니다. 회의 빈도는 [매주에서 매년까지] 다양했습니다. CCC가 있는 10개 프로그램은 레지던트 성과에 대해 논의하는 두 번째 장소로 [광범위한 교육 위원회] 또는 [전체 교수진 회의]가 있다고 설명했으며, 이러한 장소를 통해 어려움을 겪는 레지던트를 조기에 파악하거나 보다 심도 있는 논의를 할 수 있었다고 답했습니다.
Twenty-one of the 34 programs had CCCs. Twenty-two participants had chaired a CCC or equivalent group for an average of 5.6 years (range 1–18 years). Committee membership ranged in size from 3 to about 25 members, although many participants described that attendance varied and was less than the full possible membership. Meeting frequency varied from weekly to yearly. Ten programs with CCCs described second venues for discussing residents’ performance, such as a broader education committee or a general faculty meeting; these venues allowed for early identification or more in-depth discussion of struggling residents.

레지던트 평가의 특징
Characteristics of resident evaluation

분석 결과, CCC가 있는 프로그램과 없는 프로그램이 레지던트 역량 평가의 목적을 어떻게 인식하는지를 특징짓는 두 가지 주요 패러다임이 나타났습니다. 이러한 패러다임은 [문제 식별 모델]과 [발달 모델]의 원칙과 일치했습니다.

  • [문제 식별 모델]이 우세했습니다. 이 모델은 레지던트 성과 평가의 주요 목적을 어려움을 겪고 있는 소수의 레지던트를 식별하는 것으로 간주했습니다. 이 모델의 암묵적인 가정은 레지던트 프로그램에 참여하면 대부분의 레지던트가 수련이 끝날 때까지 역량과 성공을 거둘 수 있다는 것이었습니다.
  • 이와는 대조적으로 [발달 모델]은 교육을 숙달을 향한 일련의 계획된 단계로 간주했습니다. 모든 레지던트가 학습자라는 기본 오리엔테이션은 '문제' 레지던트를 선별하지 않고 레지던트의 점진적인 발전을 유도하는 데 초점을 맞추었습니다.

일부 프로그램에는 두 가지 모델의 요소가 모두 포함되어 있었습니다.

From our analysis, two major paradigms emerged that characterized how programs with and without CCCs perceived their purpose in evaluating residents’ competence. These paradigms aligned with the tenets of a problem identification model and a developmental model.

  • The problem identification model predominated. This model viewed the primary purpose of resident performance review as identifying the few struggling residents. The implicit assumption with this model was that participating in the residency program would lead most residents to competence and success by the end of training.
  • In contrast, the developmental model viewed education as a planned series of steps toward mastery. The underlying orientation that all residents were learners informed a focus on guiding residents’ progressive development, without necessarily singling out “problem” residents.

Some programs had elements of both models.

아래 결과는 [세 가지 주요 주제]와 [각 모델에 적용되는 방식]을 설명합니다. 참가자의 연구 식별 번호는 괄호 안에 예시적인 인용문과 함께 나열되어 있습니다. 주요 주제와 관련 하위 주제는 여기에 나열되어 있으며 표 1에 요약되어 있습니다.

  • (1) 레지던트 성과 데이터 사용: 다양한 도구, 임상 시스템 데이터, 비공식 데이터,
  • (2) 위원회 위원 참여: 위원회 위원의 자격, 위원회 과정의 신뢰성에 대한 기여도, 의사 결정,
  • (3) 레지던트에 대한 시사점: 위원회 검토 결과, 받은 피드백, 위험에 대처하는 방법 등이 그것입니다.

그런 다음 각 모델에 대한 성과 검토 프로세스의 효과성에 대한 참여자의 인식을 설명합니다.
The results below describe three major themes and how they apply within each model. Participants’ study identification numbers are listed in parentheses with illustrative quotations. The major themes and associated subthemes are listed here and summarized in Table 1. They are

  • (1) Use of residents’ performance data: variety of tools, clinical systems data, and informal data;
  • (2) Committee member engagement: committee members’ qualifications, contributions to the credibility of the committee process, and decision making; and
  • (3) Implications for residents: committee review consequences, feedback received, and dealing with risks.

The results then describe participants’ perceptions of the effectiveness of their performance review processes with each model.

 

입주자의 성과 데이터 사용.
Use of residents’ performance data.

레지던트의 성과 데이터는 [임상 시스템 데이터] 및 [비공식적으로 수집된 데이터]와 함께 레지던트 프로그램에서 구현된 [다양한 도구]에서 나왔습니다. 프로그램에서 다양한 평가 도구를 사용했지만, 성과 검토 프로세스를 위한 평가 데이터는 주로 감독자의 [글로벌 평가]와 [지식 시험]으로 구성되었습니다.
Residents’ performance data came from a variety of tools implemented in the residency program along with clinical systems data and informally gathered data. Although programs used a variety of assessment tools, evaluation data for the performance review process constituted primarily supervisors’ global evaluations and knowledge examinations.

[문제 식별 모델]에서 이러한 성과 데이터의 중요한 측면은 일반적으로 [낮은 점수 경고]와 같은 [이상값을 적시에 인식]하고 [임상 수퍼바이저의 구두 보고]를 포함하여 [여러 정보 출처에서 성과 문제를 확인하는 것]이었습니다. 지속적인 데이터 수집에도 불구하고 위원회 회의에서 CCC 위원은 특히 [어려움을 겪고 있는 전공의]에 대한 평가 내용을 보완하기 위한 중요한 추가 정보원으로 간주되었습니다. 따라서 [위원회 위원]은 대부분 [여러 현장에서 전공의와의 접촉을 기준으로 선정]되었습니다. 위원들은 [전공의들과의 경험]을 통해 [전공의의 역량과 수행상의 문제점을 전반적으로 파악]할 수 있었으며, 특히 [소규모 프로그램]과 [프로시저 중심 전공]처럼 [직접 관찰이 용이한 분야]에서는 더욱 그러했습니다.
With the problem identification model, valued aspects of these performance data were the timely recognition of outliers, usually as low score alerts, and the corroboration of performance problems from more than one information source, including a verbal report from a clinical supervisor. Despite ongoing data collection, CCC members were viewed as important additional sources of information at committee meetings to supplement what was written in evaluations, particularly about struggling residents. Consequently, committee members were selected in large part on the basis of their contact with residents across sites. Committee members’ experience with residents informed an overall understanding of the residents’ competence and any performance problems, particularly in small programs and procedural specialties, whose characteristics facilitated direct observation.

환자 또는 전문가 간 직원의 [사고 보고서 및 불만 사항]과 같은 [임상 시스템 데이터]는 중요한 "위험 신호" 문제 식별 메커니즘을 구성했습니다. 이를 통해 프로그램 디렉터와 CCC는 해당 레지던트에 대한 이전 슈퍼바이저의 평가와 다른 슈퍼바이저의 구두 의견 등 다른 성과 데이터를 검토한 후 개입 계획을 수립했습니다. 여러 참가자가 [교수진 및 치프 레지던트와의 복도 대화]와 [교수진의 이메일]을 통해 [비공식적으로 수집한 데이터]의 가치에 대해 설명했습니다. 이러한 정보는 "대개 [긍정적인 것이 아니라 문제에 관한 것]이었습니다."(1011).
Clinical systems data, such as incident reports and complaints from patients or interprofessional staff, constituted important “red-flag” problem identification mechanisms. These triggered program directors and CCCs to review other performance data for those residents, such as their prior supervisors’ evaluations and verbal comments from other supervisors, then to generate plans to intervene. Multiple participants described the value of the data they gathered informally through hallway conversations with faculty and chief residents and through e-mails from faculty. This information was “usually about a problem, not something that’s positive” (1011).

참가자들은 위원회 검토를 위한 [평가 데이터를 효율적으로 수집하고 종합하는 데 어려움]을 겪었으며, 이는 [발달 모델]을 구현하는 데 방해가 되는 것 같다고 설명했습니다. 한 참가자는 [레지던트의 진행 상황을 특성화하기 위해 정보를 효율적으로 종합하는 것이 어렵다]고 설명했습니다:
Participants described challenges with efficiently gathering and synthesizing evaluation data for committee review, which seemed to impede their ability to implement the developmental model. One described the challenge of synthesizing information efficiently to characterize a resident’s progress:

지금 데이터를 수집하는 데 너무 오래 걸리고...... 예를 들어, 레지던트가 발달적으로 어디에 있는지, 임상 역량과 임상 독립성을 달성하는 데 있어 어디에 있는지 생각하거나 기록할 수 없습니다. (0901)
Our efficiency with gathering the data right now, it takes way too long.… I can’t, for example, think about or record in it where they are developmentally, or where they are on achieving clinical competence and clinical independence. (0901)

[여러 출처의 피드백, 동료 평가, 직접 관찰한 술기] 등 [다양한 평가 도구]가 널리 사용되고 있음에도 불구하고, 대부분의 참가자들은 [이러한 데이터를 사용하여 각 레지던트의 발달 궤적을 특성화하지 않았습니다]. [임상 시스템 위험 신호 도구]나 [비공식적으로 수집한 데이터]는 [성과 검토의 발달 모델]을 설명하는 맥락에서 언급되지 않았습니다. 일부 참가자는 [발달 모델]의 기초가 될 수 있는 레지던트의 수련 연도에 따른 성과 기대치 또는 이정표를 설명했습니다.
Despite the widespread use of multiple assessment tools, such as for multisource feedback, peer evaluations, and directly observed skills, most participants did not use these data to characterize each resident’s developmental trajectory. Neither clinical systems red-flag tools nor informally gathered data were mentioned in the context of informing a developmental model of performance review. Some participants did describe performance expectations or milestones based on the resident’s year of training that could serve as the foundation for the developmental model.

위원회 위원 참여.
Committee member engagement.

프로그램 디렉터들은 [위원회 위원의 자격]이 성과 검토 프로세스에 신뢰성을 더하고 레지던트의 승진에 대한 의사 결정에 기여할 수 있다고 인식했습니다. 21개 프로그램 중 14개 프로그램에서 [CCC 위원]은 일반적으로 [프로그램 목표, 목적 또는 이정표를 배포하는 방식]으로 [위원회 역할에 대한 교육]을 받았습니다. 일부는 레지던트 평가에 관한 [연례 또는 격년 교수진 개발 세션]을 개최했습니다. 참가자들은 어려움을 겪는 레지던트에 대한 더 많은 [의견이 공유]되고, 프로그램 책임자가 [어려운 결정을 내릴 때 지원]을 받으며, [상충되는 정보가 종종 조정]되기 때문에 그룹 성과 평가가 신뢰할 수 있다고 답했습니다.
Program directors perceived that committee members’ qualifications added credibility to the performance review process and enabled them to contribute to the decision making about residents’ advancement. In 14 of the 21 programs, CCC members received training for their committee roles, typically via the distribution of program goals, objectives, or milestones. A few held annual or biannual faculty development sessions on assessing residents. Participants opined that group performance review was credible because more opinions about struggling residents were shared, the program director was supported in making difficult decisions, and conflicting information was often reconciled.

프로그램 전반에서 [문제 식별 모델]은 교수진이 [전문가, 전담 교육자 및 임상 감독자]로 인식되는 지위를 통해 교수진의 자격에 크게 의존하여 [성과 검토 책임]에 대비했습니다.
Across programs, the problem identification model relied heavily on faculty members’ qualifications via their perceived status as expert, dedicated educators and clinical supervisors to prepare them for their performance review responsibilities.

교수진들은 평가 전략이 무엇인지, 어떻게 사용하는지, 그리고 점점 더 많은 위원회에 참석하면서 이해하게 되지만 구체적인 교육은 없습니다. (5817)
It’s both kind of learn as they go and then understanding of what our assessment strategies are, how we use them and they pick it up as they attend more and more committees, but there isn’t specific training. (5817)

[레지던트를 비교하는 성과 기준]은 [레지던트 성과에 대한 교수진의 일반적인 지식], 즉 [규범적 기준]이었습니다. 레지던트에 대한 의사 결정은 [일반적으로 체계적인 심의나 투표]를 통해 결정되기보다는 [이분법적(적절하게 수행했는지 여부)]이고 [추론]에 의해 이루어졌습니다. 특정 [전공의에 대한 우려가 없다]는 것은 [승진을 위한 준비가 되어 있다]는 의미로 받아들여졌고, [의사 결정]은 대개 [어려움을 겪고 있는 전공의]에 초점을 맞추었습니다. 그 결과, CCC와 프로그램 디렉터는 대다수 전공의에 대한 자세한 데이터를 논의하거나 검토하지 않는 경우가 많았습니다. 문제 파악에 초점을 맞춘 의사 결정은 매우 효율적이라고 설명했습니다: 레지던트 한 명당 "보통 1~2분 정도 걸린다"(0771), "다른 교수진에게는 매우 쉽다"(4399)는 응답이 있었습니다. 참가자들은 다양한 성과 등급을 가진 레지던트를 돕는 것이 어렵다는 것을 알았고, 위원회 위원들이 직접 경험에 대해 논의하거나 다른 임상 교수진에게 연락하여 추가 데이터 수집을 통해 이러한 상황을 관리했습니다.
The performance standard against which residents were compared was these faculty members’ general knowledge of resident performance—their normative frame of reference. Decision making about residents was commonly dichotomous (performing adequately or not) and inferred rather than determined by systematic deliberation or voting. The absence of concerns regarding a particular resident was taken to imply readiness for advancement, and decision making usually focused on struggling residents. Consequently, CCCs and program directors often did not discuss or review detailed data regarding the majority of residents. Decision making focused on problem identification was described as very efficient: “It usually takes a minute or two” per resident (0771) and “very easy for the other faculty” (4399). Participants found it difficult to help residents with variable performance ratings, and they managed these situations through additional data gathering, either through committee members’ discussing their own direct experience or by contacting other clinical faculty.

드물게 참가자들은 레지던트의 진척도를 분석하기 위해 [발달 모델]을 사용했다고 설명했습니다. 구체적인 교수진 교육에 대해서는 설명하지 않았습니다. 일부 CCC는 [발달 모델 사용]을 뒷받침할 수 있는 [이정표 또는 단계별 진전 기대치]를 적용하기 시작했습니다. 4명의 참가자는 [모든 레지던트의 성과 데이터를 공유]하여 CCC 구성원의 참여를 유도했다고 구체적으로 설명했습니다. 일부는 의사 결정을 위한 마일스톤과 전공의의 성과를 비교하는 데 따르는 [가치와 업무량], 그리고 위원회 [결정의 신뢰성을 실제로 향상시킬 수 있을지에 대해 우려]를 표명했습니다: "더 많은 목록과 체크리스트, 요구 사항으로 이미 이 일을 정말 잘 해내고 있는 교수진의 사기를 꺾고 싶지 않습니다."(0370).
Infrequently, participants described using a developmental model for analyzing residents’ progress. They did not describe specific faculty training. Some with CCCs were beginning to apply milestones or stepwise expectations for progress that would support the use of a developmental model. Four participants specifically described engaging CCC members by sharing performance data for all residents. Some expressed trepidation about the value and workload involved with comparing residents’ performance against milestones for decision making and whether it would really enhance the credibility of the committee decisions: “I just don’t want to dampen the spirit of my faculty that do this really well already with more lists and checklists and demands” (0370).

전공의를 위한 시사점.
Implications for residents.

성과 검토 프로세스의 시사점에는 위원회가 모든 전공의에 대해 논의했는지, 피드백이 어떻게 전달되었는지, 전공의에 대한 잠재적 위험이 어디에 존재하는지 등이 포함되었습니다. 16개 위원회는 매 회의마다 모든 전공의를 간략하게나마 검토했지만, 다른 위원회는 어려움을 겪고 있는 전공의에 대해서만 논의했습니다. 모든 전공의를 심층적으로 검토한 프로그램의 한 참가자는 다음과 같이 설명했습니다:
The implications of the performance review process included whether committees discussed all residents, how feedback was delivered, and where potential risks to residents existed. Sixteen committees reviewed all residents at least briefly at each meeting; others discussed only struggling residents. One participant from a program with a more in-depth review of all residents explained:

마지막으로 만난 이후 지난 6개월 동안의 점수, 평가 점수 및 의견을 강의실에서 각 전공의별로 투사한 다음 각 전공의에 대해 개별적으로 논의합니다. (4399)
Their scores, their evaluation scores and the comments from the last six months since the last time we met are projected for each resident in the lecture room and then we discuss each resident individually. (4399)

거의 모든 참가자가 회의 후 전공의들에게 피드백을 제공한다고 답했으며, 보통 2년에 한 번씩 피드백을 제공한다고 답했습니다.
Nearly all participants described providing feedback to residents after meetings, usually biannually.

[문제 식별 모델]은 대부분의 성과 검토 시간을 [어려움을 겪고 있는 레지던트]에게 할당했습니다: "우리가 이야기한 사람들 중 완벽하게 잘하고 있는 사례는 없습니다."(1582). CCC는 평가 도구나 위원회 위원의 개인적 지식으로 파악한 성과가 우수한 레지던트에 대해 논의하여 상, 펠로우십 또는 교수직 후보로 추천하는 것을 제안하기도 했습니다. [문제 파악에 중점을 둔 프로그램]에서는 레지던트에게 [피드백 보고서]를 보내거나, 프로그램 디렉터와 함께 레지던트를 위한 [피드백 미팅]을 예약하는 경우도 있었고, 피드백을 어떻게 활용할지 결정할 [책임을 레지던트에게 떠넘기는 경우]도 있었습니다. 이러한 피드백 회의에서는 [성장에 필요한 부분에 최소한의 시간만 할당]했는데, 한 참가자는 다음과 같이 전공의에게 피드백을 주는 것에 대해 설명했습니다:
The problem identification model allocated most performance review time to struggling residents: “There aren’t examples of people we’ve talked about who were doing just perfectly well” (1582). CCCs sometimes discussed high-performing residents, identified by evaluation tools or committee members’ personal knowledge, to suggest nominating them for awards, fellowships, or faculty positions. Programs oriented toward problem identification described sending feedback reports to residents; some scheduled feedback meetings for residents with the program director, whereas others relegated the responsibility for figuring out how to use the feedback to the residents. These feedback meetings allocated minimal time on areas for growth; one participant described giving a resident feedback as follows:

자신에 관해서는 잘하고 있다고 할 말이 별로 없습니다. 저는 그저 그들이 여전히 잘하고 있다고 격려할 뿐입니다. (2800) 
Regarding themselves, I just don’t have much to say, that they’re doing a good job. I just encourage them to still do a good job. (2800)

여러 참가자가 성과 평가가 [편향된 프로세스]가 될 수 있기 때문에 위험하다고 인식했습니다. 이들은 전공의에게 도움이 되는 피드백의 내용이 아닌 대규모 또는 대표 위원회 내에서 성과 정보를 공유(전달)할 경우, 위원회 위원들이 전공의에 대한 [해로운 정보를 알게 되면 전공의에게 해를 끼칠 수 있다는 우려]를 표명했습니다. 임상 수퍼바이저가 성과 우려 사항을 서면으로 [문서화하는 것을 꺼린다]는 사실을 인지한 프로그램 디렉터들은 [구두 또는 이메일로 우려 사항을 보고하거나 익명의 레지던트 성과 리뷰]를 사용했습니다. 일부 프로그램 디렉터들은 레지던트들이 피드백을 받기 위해 자신들을 만나는 것을 부담스러워한다는 것을 감지했습니다. 
Multiple participants perceived risks with performance review because it could be a potentially biased process. They expressed apprehension that sharing performance information (forward-feeding) within large or representative committees, rather than serving as the content of helpful feedback to residents, could harm residents if committee members learned damaging information about their trainees. Perceiving clinical supervisors’ reluctance to document performance concerns in writing, program directors invited verbal or e-mail reports of concerns or used anonymous resident performance reviews. Some program directors sensed that residents were nervous to meet with them for feedback.

[발달 모델]에서, [이정표]는 성과 검토를 안내하고 여러 역량 영역에서 전공의의 상대적 강점과 약점을 파악하도록 했습니다. [피드백 토론]에서는 각 레지던트의 개선이 필요한 영역을 파악하는 데 우선순위를 두었습니다. 한 참가자는 이렇게 설명했습니다: 
With a developmental model, milestones guided performance review and the identification of residents’ relative strengths and weaknesses across multiple domains of competence. Feedback discussions prioritized the identification of areas for improvement for each resident. One participant explained:

이러한 벤치마크는 레지던트의 목표와 벤치마크가 무엇인지에 대해 레지던트, 그리고 교수진과 매우 투명하게 소통할 수 있게 해주기 때문에 매우 유용합니다. (1570) 
These benchmarks are great because it lets us have a very transparent communication with our residents as to what the goals and benchmarks of residency are and then as well as with the faculty. (1570)

일부 프로그램에서는 [레지던트 어드바이저를 CCC 회의에 참석]시켜, 보다 심도 있는 피드백과 학습 계획을 제공하기도 했습니다. 피드백의 유용성을 높이기 위한 또 다른 접근 방식은 [각 레지던트의 성과를 맥락화]하기 위해, 프로그램 내 [다른 레지던트에 대한 집계 데이터를 제공]하는 것이었습니다. [발달 모델]은 레지던트의 [점진적인 성숙]이 예상되고, [모든 레지던트가 성장할 수 있는 영역이 있기 때문에], 성과 검토의 위험에 대한 [우려를 완화]하는 것 같았습니다. 
Some programs enlisted resident advisors who attended the CCC meetings to inform more in-depth feedback and learning planning. Another approach to enhance feedback usefulness was providing aggregate data about the other residents in the program to contextualize each resident’s performance. The developmental model seemed to mitigate concerns about the risks of performance review because residents’ progressive maturation was expected and all residents would have areas for growth.

성과 검토의 효과에 대한 증거.
Evidence of the effectiveness of performance review.

거의 모든 참가자가 [성과 검토 프로세스에 대해 높은 자신감]을 나타냈습니다. 그 근거는 '최종 결과물'(레지던트)이 [우수하다는 느낌]에 근거한 [효과성에 대한 게슈탈트적 인상]부터 [모든 레지던트를 신중하게 평가하는 엄격한 데이터 기반 프로세스]라는 흔하지 않은 설명까지 다양했습니다. 이러한 자신감은 교수진 개개인의 경험과 헌신, 그리고 그룹 전체의 노력에서 비롯된 것이었습니다. 일부 참가자는 프로세스가 "적절했다" 또는 "80%는 좋았다"고 말하는 등 긍정적인 확신을 양면성으로 표현했으며, 한 참가자는 "누군가 더 좋은 아이디어를 내놓지 않는 한 이 정도면 충분하다고 생각한다"고 말했습니다(7415).
Almost all participants expressed high confidence in their performance review processes. The grounds they cited varied, from gestalt impressions of effectiveness based on a sense that their “end product” (the trainees) was excellent, to the less common description of a rigorous, data-driven process in which every resident was carefully assessed. This confidence was derived from the experiences and commitment of individual faculty members and from the group as a whole. Some participants qualified their positive convictions with ambivalence, such as saying that the process was “adequate” or “80% good”; one said, “I feel reasonably well, I guess, as well as I could, unless someone comes up with some better ideas” (7415).

일부 응답자는 어려움을 겪고 있는 전공의에게는 효과적이지만 다른 전공의에게는 그렇지 않을 수도 있다는 우려를 표명했습니다. 한 명은 전공의의 역량에 대한 궤적에 대해 불확실성을 표명했습니다:
Some shared misgivings that their processes were effective for struggling residents but perhaps not for other residents. One expressed uncertainty about residents’ trajectory toward competence:

누군가 저에게 "이 2년차 레지던트는 [특정 임상 활동을] 할 수 있는 위치에 있나요?"라고 묻는다면... 모든 2년차 레지던트에게 대답할 수 있었으면 하는 질문입니다. (3651)
If someone were to ask me, “Is this second-year resident in a position where they can [do this particular clinical activity]?”… That’s a question I’d like to be able to answer for every second-year resident. (3651)

그럼에도 불구하고 이 참가자는 대부분의 다른 참가자들과 마찬가지로 [모든 레지던트가 졸업 때가 되면 필요한 활동을 수행할 수 있으며] [펠로우십과 고용주로부터 칭찬을 받는다]는 데 동의했습니다.
Nonetheless, this participant concurred with most others that all residents could perform the necessary activities by graduation and were praised by fellowships and employers.

향후 방향.
Future directions.

레지던트 성과 평가에 [예상되는 변화]에 대한 질문에, 참가자들은 기존 위원회를 추가하거나 변경하는 것이 [단순히 요건을 충족하는 정도]와 [가치를 더하는 정도]에 대해 다양한 의견을 제시했습니다. 일부는 현재의 위원회가 이름만 바꾸거나 "이름만" 문서를 제공하는 것만으로도 ACGME의 기대치를 준수하고 있음을 입증할 수 있을 것이라고 예측한 반면, 더 효과적인 업무는 공식적인 레지던트 성과 검토 외에서 계속 이루어질 것이라고 예상했습니다. 참가자들은 마일스톤이 있는 성과 검토를 위해서는 데이터 캡처, 종합 및 프레젠테이션을 위한 더 많은 시간과 더 나은 전자 시스템이 필요할 것이라고 예측했습니다. 마일스톤이 글로벌 평가나 전반적인 역량에 기반한 리뷰보다 더 세분화되고 구체적일 것이라는 기대가 많았습니다. 교수진이 마일스톤을 어떻게 이해할지, 마일스톤 간 성과 불일치를 어떻게 관리할지, 새로운 시스템이 현재 절차보다 더 나은지 등이 불확실성이라고 답했습니다. 
When asked about anticipated changes to their resident performance review, participants’ opinions varied about the degree to which adding or changing an existing committee would simply satisfy requirements versus add value. Some predicted that the current committee would demonstrate adherence to ACGME expectations just by changing its name or providing documentation “in name only,” while the more effective work would continue to occur outside of formal resident performance review. Participants predicted that performance review with milestones would necessitate more time and better electronic systems for data capture, synthesis, and presentation. Many were hopeful that milestones would provide more granularity and specificity than reviews based on global evaluations or overarching competencies. Common uncertainties included how faculty would understand milestones, how discrepant performance across milestones would be managed, and whether the new system would be better than current procedures.

토론
Discussion

이번 연구 결과는 레지던트 프로그램이 광범위한 데이터 수집과 정보 종합에 대한 다양한 접근 방식을 통해 [레지던트 성과 평가에 참여하는 방식]을 보여줍니다. 분석 결과, 성과 검토 프로세스를 이끄는 두 가지 패러다임, 즉 [문제 식별 모델][발달 모델]이 확인되었습니다. [문제 식별 모델]에 따른 레지던트의 발전에 대한 의사 결정은 대부분의 레지던트가 [수련이 끝날 때까지 성공할 것이라는 가정과 함께 암묵적]으로 이루어지며, 이는 의학교육의 [체류 시간 또는 차 우려내기 모델]과 일치합니다.18,19 대부분의 프로그램은 발달적 접근법보다는 [문제 식별 접근법]을 취하고 있으며, 마일스톤 기반 평가 및 보고에 대한 새로운 요건이 요구되는 이 중요한 시기에 마일스톤이 어떻게 유리하게 운영될 것인지에 대해 의문을 제기합니다.19 또한 우리의 연구 결과는 NAS의 목표인 발달적 모델이 개별화된 역량 경로를 어떻게 지원할지에 대한 레지던트 프로그램 디렉터들의 질문, 우려 및 열망을 드러내고 있습니다.
Our findings illustrate the ways that residency programs engage in resident performance review through broad data collection and varying approaches to information synthesis. Our analyses identified two paradigms guiding performance review processes—a problem identification model and a developmental model. Decision making about residents’ advancement under the problem identification model is implicit, with the assumption that most residents will become successful by the end of training, consistent with the dwell time or tea-steeping model of medical education.18,19 Most programs take a problem identification approach rather than a developmental approach, and they question how milestones will be advantageously operationalized at this pivotal time of new requirements for milestones-based assessment and reporting.19 Our findings also reveal the questions, concerns, and aspirations that residency program directors harbor about how the developmental model—the goal of the NAS—will support individualized paths to competence.

이 두 가지 모델은 [품질 보증]과 [품질 개선]의 원칙을 잘 보여줍니다. [문제 식별 모델]은 어려움을 겪고 있는 전공의를 식별하여 [품질 보증]의 목적을 달성합니다. 이 모델이 전공의에게 미치는 위험에 대한 프로그램 책임자의 설명은 [품질 보증]을 [이상값을 식별하는 데 필요한 과정]으로 해석하는 것과 일치하지만, 잠재적으로 [징벌적]이며 [방어성을 유발]하기 쉽습니다.20 이 모델에서 [전공의의 최선의 행동 방침]은 [문제를 일으키지 않는 것]이며, 사소한 성과 결함이 성과 [문제로 분류되는 수준까지 올라가지 않는 한 용인될 수 있다고 추론]할 수 있습니다. 전공의가 진정으로 [학습을 위한 성과 피드백]을 원하더라도, [무능해 보이거나 감독자와의 관계가 위태로워질 것을 두려워]할 수 있습니다.21 [형성적 피드백이 고위험 총괄적 정보로 인식]되는 이러한 시나리오는 모든 레지던트가 더 나아지기 위한 노력을 유도하는 도구로서 [마일스톤의 의도된 가치를 위태롭게 합니다]. 

These two models exemplify the tenets of quality assurance and quality improvement. The problem identification model serves a quality assurance purpose by identifying struggling residents. Program directors’ descriptions of the risks of this model for residents are consistent with interpretations of quality assurance as a necessary process to identify outliers, yet also potentially punitive and prone to generating defensiveness.20 In this model, residents may infer that the best course of action is to stay out of trouble and that minor performance deficits are tolerated unless they rise to the level of being labeled performance concerns. Even with a genuine desire for performance feedback to guide learning, trainees can fear appearing incompetent or jeopardizing relationships with supervisors.21 This scenario, in which formative feedback is perceived as high-stakes summative information, jeopardizes the intended value of the milestones as a tool to guide all residents’ efforts to become better.

성과 검토의 [발달 모델]은, [마일스톤 기반 평가]를 통합하여, [지속적인 개선을 위한 전략]을 능동적으로 통합하는 [품질 개선]과 일치합니다. 환자 치료의 [품질 개선]에 중점을 두면서 의료 전문가들이 학습하고 행동을 변화시켜야 했던 것처럼, 레지던트 성과 평가의 [발달 모델]도 마찬가지로 [문화와 절차를 변화시켜야 합니다]. 이 모델에 따른 평가 프로세스는 [학습자 중심적]이며, [피드백 및 코칭]을 통해 독립적인 진료 역량을 갖추기 위해 [레지던트가 스스로 개선]할 수 있도록 [동기와 기술을 부여]하는 것을 목표로 합니다.22,23 

The developmental model of performance review, by incorporating milestones-based assessment, aligns with quality improvement, which proactively incorporates strategies for continuous improvement. Just as the emphasis on quality improvement in patient care has required medical professionals to learn and change their behaviors, the developmental model of resident performance review similarly requires changing culture and procedures. Assessment processes under this model aim to be learner-centered and to empower residents with the motivations and skills, supported with feedback and coaching, to self-improve toward competence for independent practice.22,23 

레지던트 프로그램에서 [이 두 가지 모델이 공존]할 수 있지만, 일부 프로그램 디렉터, 특히 성과가 우수한 레지던트가 있는 프로그램 디렉터는 벤치마크를 충족하지 못하는 [소수의 레지던트]를 위해 집중적인 이정표 기반 지원 또는 교정을 제공하기 위해 자원을 우선순위에 둘 수 있습니다.
These two models may coexist in residency programs, although it is possible that some program directors, particularly those with high-performing residents, may prioritize resources to provide intensive, milestones-based support or remediation for the small number of residents who do not meet the benchmarks.

연구 결과에 따르면 프로그램은 레지던트 성과 검토 및 역량 결정을 위해 [문제 식별 모델] 및 [발달 모델]의 요소를 모두 통합할 수 있습니다.

  • 예를 들어, [발달적 접근 방식]은 [식별된 문제에 대한 해결책]을 알려줄 수 있습니다.
  • 그러나 [문제 식별 모델]은 [잠재적으로 위험한 '문제' 레지던트]를 걸러내어 [즉각적인 환자 안전을 강조]하는 반면,
  • [발달 모델]은 개별 레지던트의 [발달과 경력 전반에 걸쳐 제공]되는 [환자 치료의 질을 강조]하는 등 각 모델마다 강조하는 바가 다릅니다.

[마일스톤]은 [명확한 성과 기대치]를 바탕으로 대화를 진행하고, [성과 이상값의 근본 원인을 규명함]으로써 [문제 식별 모델을 향상]시킬 수 있습니다. 프로그램 디렉터에 대한 경고와 같은 [문제 식별 시스템]은 교수진이 상황을 조사하는 데 시간을 소비하는 반면, [역량 및 마일스톤 기반 교육]에서 구상하는 [학습자 중심의 오리엔테이션]은 [자신의 성장 영역을 사전에 파악하고 해결]하는 등, 현재 교수진이 수행하는 일부 업무에 [레지던트가 참여]할 수 있도록 할 수 있습니다.4 앞으로 NAS는 CCC가 마일스톤을 사용하여 [각 레지던트의 진행 상황을 평가하는 개발 전략]을 수용하도록 의무화했으며, 조사 결과에 따르면 프로그램 디렉터와 CCC는 이 새로운 의무화된 개발 접근 방식을 구현하는 방법에 대한 지침을 통해 혜택을 받을 수 있을 것으로 보입니다.
Our findings show that programs can incorporate elements of both the problem identification and developmental models for resident performance review and determinations of competence.

  • For example, a developmental approach can inform solutions to identified problems.
  • However, each model highlights a particular emphasis—
    • the problem identification model emphasizes immediate patient safety (by attempting to weed out potentially dangerous “problem” residents),
    • whereas the developmental model emphasizes individual residents’ development and the quality of patient care provided throughout their careers.

Milestones could enhance the problem identification model by grounding conversations in clear performance expectations and elucidating underlying etiologies of performance outliers. Whereas problem identification systems, such as alerts to program directors, consume faculty time as they investigate the situation, a more learner-centered orientation as is envisioned with competency- and milestones-based education may engage residents in doing some of the work currently done by their faculty, such as proactively identifying and addressing their own areas for growth.4 Going forward, the NAS has mandated that CCCs embrace the developmental strategy to evaluate each resident’s progress using milestones, and our findings suggest that program directors and CCCs will benefit from guidance on how to implement this new mandated developmental approach.

참가자들은 [전공의의 성과를 평가하는 데 필요한 시간]에 대해 우려를 표명했으며, [발달 모델 하에서는 더 많은 부담]이 될 수 있다고 예상했습니다. 그러나 [문제 식별 모델에도 리소스가 필요]하며, 프로그램은 [일상적인 평가를 보완하기 위해 비공식 데이터를 수집]하기 위해 현재 CCC 내부 및 외부에서 수행되는 작업을 과소평가할 수 있습니다. 참가자들의 프로그램에서는 일반적으로 위원회가 [평균적 전공의 및 고성과 전공의를 검토할 수 있는 시간이 제한적이거나 전혀 할당되지 않았습니다]. 이러한 전공의를 검토하는 데 이상적인 시간은 알 수 없지만 현재보다 더 많은 시간을 할애할 가능성이 높습니다. 그럼에도 불구하고 [이상적인 관행과 효율성의 균형]을 맞출 필요는 계속 있을 것입니다. 평가자와 위원회 위원이 강력한 정보 기술의 도움을 받아 마일스톤을 효과적으로 이해하고 적용한다면 마일스톤을 통해 보다 효율적으로 판단에 도달할 수 있습니다.24-26 참여 프로그램에서 [교수진의 CCC 참여를 준비하기 위해 실시한 교수진 개발의 양이 적다는 것]은 위원회가 효과적인 집단 의사 결정이라는 목표를 달성하기 위해 교수진 개발도 강화해야 함을 시사합니다.27,28 
Participants expressed concern about the time required to assess residents’ performance and anticipated that it could be more onerous under the developmental model. However, the problem identification model also requires resources, and programs may underappreciate the work currently done within and outside of CCCs to collect informal data to supplement routine evaluations. Our participants’ programs typically allocated limited or no time for committees to review average and high-performing residents. Although the ideal amount of time for reviewing these residents is unknown, it is likely more than currently occurs. Nonetheless, there will continue to be a need to balance ideal practices with efficiency. Milestones may enable evaluators and committee members to reach judgments more efficiently if they understand and apply the milestones effectively with the aid of robust information technology.24–26 The modest amount of faculty development that the participating programs conducted to prepare faculty for CCC participation suggests that augmented faculty development will also be needed for committees to accomplish their goals of effective group decision making.27,28

참가자들의 경험과 프로세스의 효과성에 대한 인식을 검토하고 성과 검토가 레지던트의 역량 개발을 지원하는 방식에 대한 분석을 통해 NAS의 목표를 지원할 수 있는 관행이 밝혀졌습니다. [CCC 위원]은 [마일스톤 및 역량을 구성하는 요소에 대한 정의]를 포함하여 [성과 검토 기준]을 가지고 있어야 합니다. 임상 감독자와 레지던트는 [성과 마일스톤과 그 적용 방법]을 이해해야 합니다. CCC는 논의 전에 각 레지던트의 성과 데이터를 확인해야 하며, 프로그램 내 모든 레지던트의 성과를 검토해야 합니다. 전체 위원회 회의 전에 소규모 그룹이 성과 정보를 사전 검토하고 종합하는 것과 마찬가지로, 여러 데이터 소스를 적시에 데이터 종합과 함께 사용하면 위원회 설정의 효율성을 높일 수 있습니다. 각 레지던트의 역량을 향한 궤적을 촉진하기 위해 위원회는 [이전 회의에서 중점 또는 관심 분야를 재검토]하여 시간 경과에 따른 진행 상황을 검토해야 합니다. [레지던트의 어드바이저]를 참여시키면, 수동적으로 피드백을 보내는 대신, [레지던트와 함께 평가에 대해 논의]함으로써 레지던트가 학습의 다음 단계를 파악하는 데 도움이 될 수 있습니다. 
Our review of participants’ experiences and their perceptions of the effectiveness of their processes, as well as our analysis of the ways that performance review supports residents’ development of competence, revealed practices that would support the aims of the NAS. CCC members must have criteria for performance review that include milestones and define what constitutes competence. Clinical supervisors and residents themselves need to understand the performance milestones and how they are applied. CCCs should view performance data for each resident before their discussions, and they should review the performance of all residents in the program. The use of multiple data sources coupled with timely data synthesis facilitates efficiency in the committee setting, as does pre-review and the synthesis of performance information by a small group prior to a full committee meeting. To facilitate each resident’s trajectory toward competence, committees should review progress over time by revisiting areas of focus or concern from prior meetings. Enlisting a resident’s advisor to discuss evaluations with her rather than just sending feedback passively can help the resident to identify next steps in her learning.

이 연구에는 한계가 있습니다. 참가자들은 한 지역에 있는 5개 공공 기관의 프로그램 디렉터들이었기 때문에 연구 결과의 일반화 가능성이 제한될 수 있습니다. 그러나 다양한 분야의 프로그램 디렉터가 다수 참여했습니다. 또한 역량 검토에 대한 질문으로 인해 참가자들이 자신의 최고 또는 이상적인 관행을 소개하도록 유도했을 수 있으며, CCC의 절차를 확인하기 위해 관찰하지는 않았습니다. 마지막으로, 본 연구는 성과 검토 요건이 변화하는 시기에 이루어졌으며 참가자들의 관행은 계속 발전할 수 있지만, 본 연구 결과에 따르면 프로그램에서 개발 모델을 더 많이 채택하는 것은 어려울 수 있습니다. 
This study has limitations. Participants were program directors at five public institutions in one geographic region, potentially limiting the generalizability of our findings. However, a large number of program directors participated across specialties. In addition, our questions about competence review may have steered participants to showcase their best or idealized practices, and we did not observe the CCCs to confirm their procedures. Finally, our study occurred during a time of change in performance review requirements, and participants’ practices may continue to evolve, although our findings suggest that greater adoption of the developmental model may be difficult for programs.

역량 기반 의학교육과 마일스톤 기반 평가의 등장으로 의학교육자들은 수련의의 성과를 평가할 수 있는 의미 있는 전략을 찾아야 하는 과제를 안고 있습니다. 본 연구에 참여한 레지던트 프로그램은 성과 이상치를 식별하기 위해 기능적 전략을 사용했지만, 많은 레지던트들이 모든 레지던트의 발달 궤적을 이해하는 데 어려움을 겪고 있습니다. 이 두 가지 패러다임(문제 식별 모델과 발달 모델)의 불안정한 공존[CCC가 역량을 향한 개별 경로를 지원한다는 비전]을 달성하기 위해서는 다음이 필요하다는 것을 시사합니다. 

  • 성과 데이터를 관리하고 종합하는 정보 시스템,
  • CCC 성과 검토의 목적에 대한 명확한 이해,
  • 레지던트에 대한 건설적인 피드백을 환영하는 문화

이러한 요소들은 레지던트의 독립적인 진료 준비를 보장하고 GME 시스템의 공공 및 교육적 책임에 대한 의무를 이행할 수 있도록 프로그램을 강화할 수 있습니다.

The emergence of competency-based medical education and milestones-based assessment challenges medical educators to find meaningful strategies to assess trainees’ performance. The residency programs in our study used functional strategies for identifying performance outliers, yet many struggle to understand the trajectory of all residents’ development. The uneasy coexistence of these two paradigms (the problem identification model and the developmental model) suggests that, for CCCs to fulfill the vision of supporting individual paths toward competence,

  • information systems to manage and synthesize performance data,
  • clear understanding of the purpose of CCC performance review, and
  • a culture that welcomes constructive feedback to residents
    are needed.

These ingredients could empower programs to ensure their residents’ readiness for independent practice and fulfill their obligation for public and educational accountability of the GME system.

 


Acad Med. 2015 Aug;90(8):1084-92. doi: 10.1097/ACM.0000000000000736.

Reviewing residents' competence: a qualitative study of the role of clinical competency committees in performance assessment

Affiliations collapse

1K.E. Hauer is professor, Department of Medicine, University of California, San Francisco, School of Medicine, San Francisco, California. B. Chesluk is clinical research associate, Evaluation, Research, and Development, American Board of Internal Medicine, Philadelphia, Pennsylvania. W. Iobst is vice president for academic and clinical affairs and vice dean, Commonwealth Medical College, Scranton, Pennsylvania. E. Holmboe is senior vice president, Accreditation Council for Graduate Medical Education, Chicago, Illinois, and adjunct professor of medicine, Yale School of Medicine, New Haven, Connecticut. R.B. Baron is professor of medicine and associate dean for graduate and continuing medical education, Division of General Internal Medicine, Department of Medicine, University of California, San Francisco, School of Medicine, San Francisco, California. C.K. Boscardin is associate professor, Department of Medicine, University of California, San Francisco, School of Medicine, San Francisco, California. O. ten Cate is professor of medical education and director, Center for Research and Development of Education, University Medical Center Utrecht, Utrecht, The Netherlands. P.S. O'Sullivan is professor of medicine and director of research and development in medical education, Office of Medical Education, University of California, San Francisco, School of Medicine, San Francisco, California.

PMID: 25901876

DOI: 10.1097/ACM.0000000000000736

Abstract

Purpose: Clinical competency committees (CCCs) are now required in graduate medical education. This study examined how residency programs understand and operationalize this mandate for resident performance review.

Method: In 2013, the investigators conducted semistructured interviews with 34 residency program directors at five public institutions in California, asking about each institution's CCCs and resident performance review processes. They used conventional content analysis to identify major themes from the verbatim interview transcripts.

Results: The purpose of resident performance review at all institutions was oriented toward one of two paradigms: a problem identification model, which predominated; or a developmental model. The problem identification model, which focused on identifying and addressing performance concerns, used performance data such as red-flag alerts and informal information shared with program directors to identify struggling residents.In the developmental model, the timely acquisition and synthesis of data to inform each resident's developmental trajectory was challenging. Participants highly valued CCC members' expertise as educators to corroborate the identification of struggling residents and to enhance credibility of the committee's outcomes. Training in applying the milestones to the CCC's work was minimal.Participants were highly committed to performance review and perceived the current process as adequate for struggling residents but potentially not for others.

Conclusions: Institutions orient resident performance review toward problem identification; a developmental approach is uncommon. Clarifying the purpose of resident performance review and employing efficient information systems that synthesize performance data and engage residents and faculty in purposeful feedback discussions could enable the meaningful implementation of milestones-based assessment.

졸업후의학교육에서 역량중심의학교육(Med Teach, 2010)
Competency-based medical education in postgraduate medical education
WILLIAM F. IOBST1, JONATHAN SHERBINO2, OLLE TEN CATE3, DENYSE L. RICHARDSON4, DEEPAK DATH5, SUSAN R. SWING6, PETER HARRIS7, RANI MUNGROO8, ERIC S. HOLMBOE9 & JASON R. FRANK10, FOR THE INTERNATIONAL CBME COLLABORATORS 

 

소개
Introduction

현재의 대학원 의학교육(PGME)은 [100년 전 존스 홉킨스의 오슬러, 할스테드 등이 설립한 이후 본질적으로 변하지 않았다는 비판]을 받아왔습니다. 그러나 의사가 실무에 투입될 수 있도록 준비하는 기간인 레지던트 교육은 1990년대 초부터 조용한 혁명을 겪어왔습니다. 1993년 영국에서 '내일의 의사'가 출범하면서(General Medical Council 1993, 2009) 의학교육의 기본 틀이 [시간 및 과정 기반 프레임워크]에서 [역량 기반 모델]로 전환되기 시작했습니다. 이러한 패러다임 전환에 대한 국제적인 수용은 이후 발표된

  • CanMEDS 프레임워크(Frank 2005; Frank & Danoff 2007),
  • The Scottish Doctor(Simpson et al. 2002; Scottish Deans' Medical Curriculum Group 2009),
  • ACGME 성과 프로젝트(Swing 2007; Accreditation Council for Graduate Medical Education 2009a,b),
  • Good Medical Practice(General Medical Council 2006),
  • 호주 전공의 교육과정 프레임워크(Graham 외. 2007),
  • 네덜란드 학부 의학교육 2009년 프레임워크(Van Herwaarden 외. 2009) 등이 발표되었습니다.

Postgraduate medical education (PGME), it its current form, has been criticized as being essentially unchanged from its founding by Osler, Halsted, and others at Johns Hopkins a century ago. However, residency education – the period of training that prepares physicians to enter practice – has undergone a quiet revolution since the early 1990s. With the launch of Tomorrow's Doctors in the United Kingdom in 1993 (General Medical Council 1993, 2009), the framework guiding medical education began to shift from a time- and process-based framework to a competency-based model. International acceptance of this paradigm shift is reflected by the subsequent release of

  • the CanMEDS framework (Frank 2005; Frank & Danoff 2007),
  • The Scottish Doctor (Simpson et al. 2002; Scottish Deans’ Medical Curriculum Group 2009),
  • the ACGME Outcomes Project (Swing 2007; Accreditation Council for Graduate Medical Education 2009a,b),
  • Good Medical Practice (General Medical Council 2006),
  • the Australian Curriculum Framework for Junior Doctors (Graham et al. 2007), and
  • the 2009 Framework for Undergraduate Medical Education in the Netherlands (Van Herwaarden et al. 2009).

역량 기반 교육으로의 전환은 이제 막 시작되었지만 관심이 커지고 있습니다. 이제 [규제 기관]은 기대치의 일부로 역량 달성에 대한 증명을 요구하고 있으며, 일부 국가에서는 이 요구사항이 인증 절차를 안내하고 있습니다. 오슬러의 '고등 의학교육 신학교'에 첫 수련의가 입학한 지 한 세기가 지난 지금, 역량 기반 의학교육(CBME)은 21세기 대학원 의학교육(PGME)을 정의하는 프레임워크가 될 것으로 기대됩니다. 이 백서에서는 PGME에 대한 역량 기반 접근 방식의 근거와 시사점, 장점과 과제, 역량 기반 비전을 실현하는 데 필요한 변화를 검토합니다.  

Although the move to competency-based training has just begun, interest is growing. Regulatory organizations now require demonstration of attainment of competency as part of their expectations; in some countries, this requirement now guides accreditation processes. A century after the first trainees entered Osler's “seminary of higher medical education,” competency-based medical education (CBME) promises to become the defining framework for postgraduate medical education (PGME) in the 21st century. In this paper, we review the rationale and the implications of a competency-based approach to PGME, its advantages and challenges, and the changes needed to realize a more competency-based vision.

레지던트 교육을 개혁해야 하는 이유는 무엇인가요?
Why reform residency education?

전 세계적으로 레지던트 교육이 성공적으로 성장하지 않았다면 현대 의학 및 진료의 놀라운 성공은 불가능했을 것입니다. 이제 의과대학 졸업 후 실습 준비를 위한 집중적인 임상 교육은 [필수적인 과정]으로 여겨지고 있습니다. PGME는 이제 수천 명의 교사와 학습자가 지속적인 활동에 참여하는 거대한 전문 기업으로 성장했습니다. 오늘날의 의사들은 역사상 가장 높은 수준의 교육을 받았습니다. 그렇다면 [왜 PGME에 대한 새로운 접근 방식]을 고려해야 할까요? 현재 시스템의 약점은 만연한 시간 기반 패러다임에 있습니다. 전 세계적으로 레지던트 커리큘럼을 성공적으로 이수했는지 여부를 [습득한 능력이 아니라 로테이션에 소요된 시간으로 인식하는 경향]이 있습니다(Carraccio 외. 2002). 모든 졸업생이 진료에 대비할 수 있도록 보다 신뢰할 수 있는 방법을 찾는 것이 바로 CBME의 동기입니다.
Arguably, the incredible successes of modern medical science and practice would not have been possible without the successful growth of residency education worldwide. Intensive clinical training in preparation for practice is now considered imperative after medical school. PGME is now an enormous professional enterprise engaging thousands of teachers and learners in continuous activity. Today's physicians are the most highly educated in history. So why should we consider a new approach to PGME? The weaknesses of our current system lie in its pervasive time-based paradigm. Worldwide, there is a tendency to recognize the successful completion of a residency curriculum as time spent on rotations, as opposed to abilities acquired (Carraccio et al. 2002). Here lies the motivation for CBME: to find a more reliable way to ensure that every graduate is prepared for practice.

역량 기반 PGME란 무엇인가요?
What is competency-based PGME?

이 주제 호의 다른 부분(Frank 외. 2010)에서 자세히 설명했듯이, CBME는 교육 성과에 초점을 맞춥니다. 역량 기반 레지던트 패러다임에서 프로그램은 [새로 수련받은 의사]가 [진료의 모든 측면에 대해 유능하다는 것을 입증]해야 합니다. 이 접근 방식은 교사나 프로그램이 [어떻게 가르쳐야 하는지] 또는 학생이 그 목표를 달성하는 동안 [어떻게 배워야 하는지]를 규정하지 않습니다. 오히려 역량 기반 교육은 바람직한 [졸업생 능력을 명시적으로 정의]하고 이러한 [결과가 커리큘럼, 평가 및 평가의 개발을 가이드]할 수 있도록 합니다. 따라서 레지던트를 위한 CBME는 [정해진 기간을 강조하지 않고], 모든 필수적인 실무 측면에서 [이정표에서 이정표로 역량이 발전하도록 장려]합니다. 또한 CBME는 커리큘럼 목표인 지식뿐만 아니라 능력 추구에 있어서, [새로운 교육 방법], [경험 순서를 구성하는 데 있어 더 큰 유연성], [더 빈번한 평가], [전문 교수진의 의미 있는 감독], [교사와 수련의 모두의 더 큰 참여]를 요구합니다. 역량 기반 레지던트 교육은 수년간 임상 서비스를 제공하는 동안 [단순히 기회주의적인 학습]이 아니라 설계 단계부터 역량을 고려한 교육입니다. Carraccio와 공동 저자(2002)는 교육에 대한 접근 방식에서 CBME 패러다임 전환의 요소를 설명했습니다(표 1 참조).
As elaborated elsewhere in this theme issue (Frank et al. 2010), CBME focuses on educational outcomes. In a competency-based residency paradigm, programs must demonstrate that the newly trained physician is competent for all aspects of practice. This approach does not prescribe how the teacher or program must teach or how the student must learn while achieving that goal. Rather, competency-based training explicitly defines desired graduate abilities and allows those outcomes to guide the development of curricula, assessment, and evaluation. CBME for residency therefore de-emphasizes fixed time periods and promotes the progression of competence from milestone to milestone in all of the essential aspects of practice. CBME also calls for new instructional methods, greater flexibility in organizing the sequence of experiences, more frequent assessment, meaningful supervision by expert faculty, and greater engagement of both teachers and trainees in the pursuit of abilities – not just knowledge – as the curricular goal. Competency-based residency education is competence by design, not merely opportunistic learning during years of providing clinical service. Carraccio and co-authors (2002) have described the elements of the CBME paradigm shift in the approach to training (see Table 1).

 
 

CBME의 커리큘럼 재조정
Realigning curricula in CBME

[전통적인 의학 대학원 교육]은 [기간과 커리큘럼 프로세스]를 중심으로 구성됩니다.

  • 이는 '체류 시간'으로 정의되는 [기회주의적 접근 방식]으로, 정해진 기간 동안 개별 활동에 지정된 개월 수가 할당됩니다.
  • [평가]는 학습자가 [특정 지식을 습득]했는지 여부를 명백하게 입증하는 데 중점을 두고, [기술과 태도의 습득]에 초점을 맞추는 경우가 훨씬 적습니다.
  • [프로그램 평가]는 [과정의 문제(예: "모든 로테이션에 대한 목표가 있는가?" 또는 "교사 평가 양식이 있는가?")]에 초점을 맞추는 경향이 있습니다.
  • [대다수의 학습자][시간, 프로세스 및 커리큘럼 요건]을 충족하여 성공적으로 교육을 이수합니다.
  • [이러한 요건이 충족]되면 학습한 내용을 실제 환자 진료에 적용할 수 있는 능력이 있는 것으로 [간주]되며, [실제로 해당 학습 내용을 의료 서비스 제공에 적용하는지 여부]는 평가하지 않습니다

Traditional graduate medical education is structured around time frames and curricular processes.

  • It is an opportunistic approach defined by “dwell time,” whereby a specified number of months is assigned to discrete activities over prescribed periods.
  • To a large extent, assessment focuses overtly on demonstrating whether the learner has acquired specific knowledge; to a much lesser extent, it focuses on the acquisition of skills and attitudes.
  • Program evaluation tends to focus on matters of process (e.g., “Are there objectives for every rotation?” or “Is there a teacher evaluation form?”).
  • The vast majority of learners successfully complete their training by meeting time, process, and curricular requirements.
  • When those requirements are met, the ability to apply what is learned to the actual delivery of patient care is assumed, without actually assessing whether the application of that learning to health care delivery occurs.

이와 대조적으로 역량 기반 교육은 의료 업무에 필요한 특정 [지식, 기술 및 태도의 적용을 성공적으로 입증하는 것]을 기반으로 합니다.

  • 수련 내에서 진급을 위해서는 학습자가 [주요 발달 단계에서 역량을 입증]해야 합니다.
  • 커리큘럼, 평가 도구 및 평가 시스템은 이러한 결과를 [달성하고 문서화]하기 위해 개발되었습니다.
  • 이 수준의 평가와 평가는 실제 의료 서비스를 제공하는 동안 이루어져야 합니다. [밀러의 평가 피라미드]는 이 과정을 개념화합니다(1990). 이 모델에서 평가는 학습자가 "알고, 방법을 알고, 방법을 보여주거나, 할 수 있다"는 것을 입증할 수 있는 능력에 초점을 맞춥니다.
  • 평가의 유형은 평가 대상 역량과 학습자의 학습 단계에 적합해야 하지만, CBME는 궁극적으로 이 피라미드의 맨 꼭대기에서 평가해야 합니다.
  • 이를 위해서는 학습자가 [안전하고 효과적인 환자 치료를 제공할 수 있는 능력을 입증]해야 하며, 이는 [직접 관찰]을 통해 가장 잘 이루어집니다.

In contrast, competency-based training is based on the successful demonstration of the application of the specific knowledge, skills, and attitudes that are required for the practice of medicine.

  • Progression in training requires that the learner demonstrate competence at critical stages of development.
  • The curriculum, assessment tools, and evaluation system are developed to achieve and document this outcome.
  • Assessment and evaluation at this level must occur during the actual delivery of care. Miller's pyramid of assessment conceptualizes this process (1990). In this model, assessments are directed at learners’ ability to demonstrate that they either “know, know how, show how, or do.”
  • Although the type of assessment must be appropriate to the competency being assessed and to the learner's stage of learning, CBME ultimately requires assessment at the very top of this pyramid.
  • This requires that learners demonstrate the ability to provide safe and effective patient care and is best accomplished through direct observation.


CBME는 [교육 또는 전문 경력]의 [다음 단계]로 나아가기 위한 [역량을 입증]해야 합니다.

  • PGME 수준의 학습자 대부분은 궁극적으로 직접 환자 치료를 제공하게 되므로, 이들의 [평가 및 평가]는 [실제 치료 제공에 필요한 능력에 초점]을 맞추어야 합니다.
  • [역량 임계값]은 평가자와 교육생 모두가 [명확하게 정의하고 이해]해야 하며, 교육생의 역량 여부를 신뢰성 있게 판단하기 위해서는 [평가가 정확]해야 합니다.
  • 순수한 역량 기반 교육 프레임워크에서 [효과적인 평가를 해야]만 성공적인 역량 입증에 기반하여 학습자가 프로그램에서 [각기 다른 속도로 진급]할 수 있도록 합니다. 어떤 학습자는 더 빨리 발전하고 어떤 학습자는 더 느리게 발전할 수 있습니다.
  • 이를 위해서는 [학습의 안내] 및 [평가 및 평가에 정보 제공]을 위하여 학습자에게 [교육 전반에 걸쳐 명확하게 정의된 목표]가 있어야 합니다. Green과 동료들이 개발한 내과 레지던트 교육에 대한 발달 이정표(2009)는 이러한 목표를 정의하는 방법의 한 예입니다.
  • 이러한 [이정표]는 개별적인 행동 또는 발달의 중요한 지점을 설명하며, 이를 충족하면 평가자와 프로그램은 학습자가 진정으로 다음 단계의 교육으로 진행할 준비가 되었다는 것을 알 수 있습니다.

CBME requires the demonstration of competence to advance in training or to the next phase of a professional career.

  • Because most learners at the PGME level will ultimately provide direct patient care, their assessment and evaluation should focus on the abilities needed for the actual delivery of that care.
  • Competence thresholds must be clearly defined and understood by both assessor and trainee, and assessment must be accurate in order to reliably determine whether the trainee is competent.
  • In a pure competency-based training framework, effective assessment would allow the learners to advance in a program at different rates on the basis of the successful demonstration of competency. Some learners would advance more quickly; others, to a point, would advance more slowly.
  • This requires that learners have clearly defined targets throughout training to guide learning and inform assessment and evaluation. The developmental milestones for Internal Medicine residency training developed by Green and associates (2009) are one example of how these targets can be defined.
  • These milestones describe discrete behaviours or significant points in development that, when met, allow evaluators and programs to know that a learner is truly ready to progress to the next stage of training.

교수자-학습자 관계 및 책임
Teacher-learner relationship and responsibilities

[전통적인 레지던트 교육 설계]에서는 학습이 [교사 주도]로 이루어집니다. [역량 기반 교육]에서는 [교사와 학습자 간에 책임이 공유되는 협업 과정]입니다.

  • 이러한 협업을 위해서는 [학습자가 학습 계획을 결정하는 데 적극적으로 참여]해야 하며, 교사는 [빈번하고 정확한 형성 피드백을 제공]해야 합니다(Westberg & Hilliard 1993).
  • 학습자에게 요구되는 핵심 기술에는 [자기 주도적 평생 학습, 자기 성찰 및 자기 평가]가 포함됩니다.
  • Epstein과 동료들(2008)은 자기 평가를 "자신의 성과에 대한 데이터를 해석하고 이를 명시적 또는 암묵적 표준과 비교하는 과정"이라고 설명했습니다.
  • 그러나 자기 평가는 성공적이고 지속적인 진료 개선, 우수성에 대한 헌신, 자기 모니터링에 매우 중요하지만, 많은 연구에서 [수련 중인 의사가 부정확한 자기 평가를 한다]는 사실이 입증되었습니다(Hodges 외. 2001; Davis 외. 2006).
  • 자기평가는 [전문가 역할 모델] 또는 [수행의 모범]을 [수행 기준으로 사용]하거나, [여러 정보 소스를 사용]하여 완료하는 것이 가장 좋으며, [단독으로 완료해서는 안 됩니다].
  • 후자는 학습자가 [외부 소스로부터 피드백]을 구하는 데 책임을 지고, 그 정보를 사용하여 "자기 주도적 평가 추구"라고 부르는 프로세스에서 [성과 개선을 안내하는 데 사용]하도록 요구합니다(Eva and Regehr, 2008).
  • 이러한 [외부 정보 소스]의 예로는 다음 등이 있습니다.
    • 여러 참관인으로부터 받은 피드백,
    • 교육 중 시험 결과,
    • 시뮬레이션 수행 결과
    • 실습 감사에서 수집한 데이터 
  • 그러나 [교수진의 피드백]은 이러한 정보의 중요한 원천이며, 학습자를 [직접 관찰]해야 합니다. CBME 프레임워크에서 [교사와 학습자 간의 역동적인 상호 작용]은 이 과정을 분명히 촉진할 수 있습니다.
  • 이러한 책임을 다하기 위해 프로그램은 [안전한 학습 환경]을 조성하고, 모든 참가자의 역할과 기대치를 명확하게 정의해야 합니다.

In a traditional residency design, learning is teacher driven. In competency-based training, it is a collaborative process in which responsibility is shared between teacher and learner.

  • This collaboration requires that the learner be an active participant in determining a learning plan, and that the teacher provide frequent and accurate formative feedback (Westberg & Hilliard 1993).
  • Critical skills required of the learner include self-directed and lifelong learning, self-reflection, and self-assessment.
  • Epstein and colleagues (2008) have described self-assessment as “the process of interpreting data about our own performance and comparing them to an explicit or implicit standard.”
  • However, although self-assessment is critical to successful and continuous practice improvement, commitment to excellence, and self-monitoring, many studies have demonstrated that physicians-in-training are inaccurate self-assessors (Hodges et al. 2001; Davis et al. 2006).
  • Self-assessment is best completed using expert role models or exemplars of performance as performance criteria, or, alternatively, multiple information sources, and should not be completed in isolation.
  • The latter requires that the learner take responsibility for seeking feedback from external sources and use that information to guide performance improvements in a process that Eva and Regehr (2008) have called “self-directed assessment seeking.”
  • Examples of such external sources of information could include
    • feedback solicited from multiple observers,
    • in-training exam results,
    • outcomes of simulation performance, and/or
    • data gleaned from a practice audit.
  • Feedback from faculty is, however, a critical source of such information and requires direct observation of the learner. The dynamic interaction between teacher and learner in a CBME framework can clearly facilitate this process.
  • To meet this responsibility, programs must create safe learning environments and clearly define roles and expectations for all participants.

또한 CBME는 프로그램이 [적절한 학습자 감독]을 보장하도록 요구합니다.

  • 레지던트 근무시간에 관한 미국의학연구소의 보고서(2008)에서 권고한 바와 같이 인증기관, 후원기관, 수련 프로그램은 각 수련자의 수준과 전문성에 적합한 [측정 가능한 감독 기준]을 수립해야 합니다.
  • 전통적으로 선임 학습자는 교육 기간 동안 더 많은 책임감을 가지고 후배 학습자를 가르치고 감독합니다. 교수진의 감독이 제한적으로 이루어지는 경우가 많습니다.
  • 이러한 활동(교수진 슈퍼비전)은 학습자의 전문성 개발에 매우 중요한 것으로 간주되며, [학습 공동체]와 [수련 프로그램 문화]의 중요한 구성 요소로 여겨집니다(미국 내과학회 2009).
  • 그러나 해당 분야의 전문가가 아닌 개인에 의한 코칭의 이점에 의문을 제기한 Ericsson과 동료들(1993)의 연구에도 불구하고, 상급 학습자가 하급 학습자를 감독하는 것은 상급 학습자가 실제로 감독을 제공할 수 있는 능력이 있는지에 대한 적절한 평가 없이 이루어지는 경우가 종종 있습니다.
  • 또한, 교육 프로그램은 동료 학습자가 어려움에 처한 상황을 파악하고 해결하기 위해 학습자에게 지나치게 의존해서는 안 됩니다. [모든 수준의 학습자를 위한 적절한 슈퍼비전]은 학습을 풍부하게 하는 동시에 안전하고 효과적인 환자 치료를 제공할 수 있도록 보장할 수 있습니다.

CBME also requires that programs ensure adequate learner supervision.

  • As recommended in the Institute of Medicine's report on resident work hours (2008), accrediting organizations, sponsoring institutions, and training programs should establish measurable standards of supervision for each trainee appropriate to his or her level and specialty.
  • Traditionally, senior learners teach and supervise junior learners with increasing responsibility during training. Frequently, this occurs with limited faculty supervision.
  • This activity is seen as critical to the learner's professional development and is believed to be a vital component of the learning community and culture of training programs (American Board of Internal Medicine 2009).
  • However, despite work by Ericsson and colleagues (1993) that has called into question the benefit of coaching by individuals who themselves are not experts in the field, supervision of junior learners by advanced learners often occurs without adequate assessment of whether the more senior learner is actually competent to provide supervision.
  • Moreover, training programs should not be overly dependent on learners to identify and remediate situations where peer learners are in difficulty. Appropriate supervision for all levels of learners can enrich learning while at the same time ensuring the delivery of safe and effective patient care.

평가에 대한 접근 방식
Approaches to assessment

[평가 프로세스]는 [학습자가 수련과정을 progress]하거나 [practice을 시작할 준비]가 되었는지에 대한 정보를 생성하는 데 사용되는 방법, 도구 및 프로세스로 구성됩니다. [평가Evaluation]는 커리큘럼의 유용성과 관련하여 이러한 데이터를 판단하거나 해석하는 것을 말합니다. 이번 호의 다른 곳에서 Holmboe와 동료들(2010)이 설명한 것처럼, CBME에는 [향상된 평가 도구와 프로세스]가 필요합니다.
The process of assessment comprises the methods, tools, and processes used to generate information about learners’ readiness to progress in training or start practice. Evaluation refers to the judgment or interpretation of those data as they relate to the utility of a curriculum. As described by Holmboe and colleagues (2010) elsewhere in this issue, CBME requires enhanced assessment tools and processes.

역량 기반 교육을 성공적으로 구현하려면 [모든 교수진]이 [역량 기반 실습을 이해하고 모범]을 보여야 합니다. 또한 교수진은 [커리큘럼 개발에 적극적으로 참여]해야 합니다. [평가 및 평가를 위해서는] 교수진이 의료 서비스를 제공하는 실습생을 [직접 관찰하는 구체적인 기술]을 개발해야 합니다. 시뮬레이션은 시간이 지남에 따라 역량 평가에서 점점 더 중요한 역할을 하게 될 것이지만, 학습자가 [진료를 제공하는 것을 직접 관찰하는 것]은 [평가 및 평가 프로세스의 초석]으로 남아 있을 것입니다. Carraccio와 동료들(2002)이 지적했듯이, 역량 기반 교육 및 훈련에는 직접 관찰이 필요하고 형성 평가의 빈도와 질이 높아지기 때문에 [교수진의 더 많은 참여가 필요]합니다.
The successful implementation of competency-based training will require that all faculty understand and model competency-based practice. Faculty must also be actively involved in curriculum development. Assessment and evaluation will require that faculty develop specific skills in the direct observation of trainees delivering care. Although simulation will likely play an increasingly important role in competency assessment over time, the direct observation of learners providing care will remain a cornerstone of assessment and evaluation process. As Carraccio and colleagues (2002) have noted, competency-based education and training requires greater involvement by faculty because of the need for direct observation and increased frequency and quality of formative assessment.

[환자를 면담하고, 진찰하고, 상담하는 기본 기술]은 효과적인 환자 치료에 필수적입니다. [직접 관찰]을 통해 이러한 기술을 평가하는 것은 [모든 역량 기반 평가 시스템에서 매우 중요한 부분]입니다. 안타깝게도 [대부분의 교수진]은 [신뢰할 수 있고 유효한 방식으로 직접 관찰을 수행할 준비]가 되어 있지 않습니다. 여러 연구에 따르면 많은 실무 의사와 교수진이 이러한 [(직접관찰)기술을 수행할 능력이 부족하다는 사실]이 입증되었습니다. 교수진은 이러한 [술기의 필수 구성 요소]를 배워야 할 뿐만 아니라, 이러한 술기를 수행하는 [학습자에 대한 유효하고 신뢰할 수 있는 평가를 제공하는 방법]도 배워야 합니다. 다행히도 수행 평가 문헌에 따르면 교수자 개발은 평가 오류를 줄이고 변별력을 개선하며 평가의 정확성을 향상시킬 수 있다고 합니다(이번 호의 Dath & Iobst 2010 참조).
The basic skills of interviewing, examining, and counselling patients are essential to effective patient care. Evaluating these skills using direct observation is a critical part of every competency-based evaluation system. Unfortunately, most faculty are not prepared to perform direct observation in a reliable and valid fashion. Multiple studies have demonstrated that many practising physicians and faculty members are not competent to perform these skills. Faculty must not only learn the essential components of these skills, but must also learn how to deliver valid and reliable evaluations of learners performing these skills. Fortunately, the performance appraisal literature suggests that faculty development can reduce rating errors, improve discrimination, and improve the accuracy of evaluation (see Dath & Iobst 2010, in this issue).

[직접 관찰을 위한 효과적인 교수자 개발]은 궁극적으로 프로그램 수준에서 평가의 신뢰성과 타당성을 향상시킬 수 있는 [직접 관찰에 대한 공유된 정신 모델 또는 이해 수준을 만드는 것]을 목표로 해야 합니다. 이러한 평가자 교육은

  • [관찰할 역량의 필수 요소]에 대한 합의를 얻고,
  • [해당 역량을 평가하는 기준을 표준화]하며,
  • [관찰 빈도를 높이기 위한 전략을 개발]하는 데 중점을 두어야 합니다(Holmboe 2008).

Effective faculty development for direct observation must aim to create a shared mental model or level of understanding about direct observation that will ultimately enhance the reliability and validity of assessment at the program level. Such rater training should seek to gain agreement on the essential elements of the competency to be observed, standardize criteria for rating that competency, and develop strategies to increase the frequency of observations (Holmboe 2008).

일부에서는 CBME가 [의료 행위]를 [객관적으로 관찰 가능한 기준의 항목별 목록]으로 [축소reduce]한다고 주장하기도 합니다(Brooks 2009). 다른 사람들(Grant 1999)은 역량 [전체가 개별 부분보다 더 크며], 궁극적으로 환자 치료 제공에 있어 [역량의 입증]은 플레밍(1993)이 [메타 역량]으로 묘사한 것을 나타낸다고 관찰합니다.

  • [메타역량]의 개념은 [실제 의료 환경에서 [안전하고 효과적인 진료]에 필요한 개인의 [지식, 기술, 태도]뿐만 아니라 [문화적, 사회적 맥락]의 복합적인 조합]을 인식합니다.
  • 이러한 메타 역량을 평가하려면 다음이 필요합니다.
    • 타당하고 신뢰할 수 있는 [다차원 평가],
    • 여러 [데이터 포인트],
    • 평가 정보를 [수집, 처리 및 조치]할 수 있는 강력한 시스템
  • 신뢰할 수 있고 타당한 [메타역량 평가]를 위해서는 교수진 평가자가 [환자 치료 제공에 대한 깊은 지식과 경험]을 가지고 있어야 합니다.
  • 또한 모든 참여자가 메타역량 평가가 [단순히 목록에 있는 항목에 체크하는 것 이상의 것]을 필요로 한다는 점을 이해해야 합니다.
    • 메타 역량을 입증하려면 평가가 [유사한 상황에서 유능하게 수행할 수 있는 능력]을 다루어야 하며,
    • 관찰된 성과를 [직접 평가하지 않은 실제 상황에서의 성과로 추정]할 수 있어야 합니다(Williams 외. 2003).

Some have argued that CBME reduces the practice of medicine to itemized lists of objective observable criteria (Brooks 2009). Others (Grant 1999) observe that the whole of competence is greater than its individual parts and that, ultimately, the demonstration of competence in the delivery of patient care represents what Fleming (1993) has described as meta-competency.

  • The concept of meta-competency recognizes the complex mix of individual knowledge, skills, and attitudes, as well as cultural and social contexts, required for safe and effective practice in actual health care environments.
  • Assessing such meta-competencies requires
    • valid and reliable multi-dimensional assessment,
    • multiple data points, and
    • a robust system for collecting, processing, and acting on evaluation information.
  • Reliable and valid meta-competency evaluation requires that faculty evaluators have deep knowledge and experience in the delivery of patient care.
  • This also requires that all participants understand that the evaluation of meta-competency requires more than simply checking off items on a list. Attesting to meta-competency will require
    • that evaluation addresses the ability to competently perform in a universe of similar situations and
    • that observed performance can be extrapolated to performance in practice situations that are not directly evaluated (Williams et al. 2003).

절차적 교육을 제외하고 [전통적인 의학교육 모델]에서는 레지던트 평가에서 [직접 관찰 능력]을 우선시하지 않았습니다. 이 프레임워크의 [기본 평가]는 일반적으로 교육 경험 과정에서 개발된 [게슈탈트 평가]에 기반한 [로테이션 종료 시 평가]입니다.
With the exception of procedural training, the traditional model of medical education has not prioritized direct observation skills in residency evaluation. The foundational evaluation in this framework is typically end-of-rotation evaluation based on a gestalt evaluation developed over the course of the educational experience.

기준 참조 평가
Criterion-referenced assessment

[지식 적용에 대한 타당하고 신뢰할 수 있는 평가]는 CBME에서 매우 중요합니다. 이를 위해서는 [규범을 참조하는 평가 기준]이 아닌 [기준을 참조하는 평가 기준]이 필요합니다.

  • [규범 참조 평가]에서는 평가자가 [즉각적이고 사용 가능한 학습자의 성과]를 사용하여 기준을 설정합니다. 이 접근 방식은 성과를 과대 평가하거나 과소 평가할 위험이 있습니다.
  • [기준 참조 평가]에서는 [미리 정해진 기준]이 평가에 영향을 줍니다. 최근에 발표된 [내과 마일스톤]이 이러한 기준의 예입니다. 이러한 마일스톤은 [행동 기반]이며 레지던트가 프로그램에서 발전하고 [커리어의 다음 단계로 진입하는 데 필요한 지식, 기술 및 태도를 습득할 수 있도록 기준]을 제시합니다.

그러나 이러한 [이정표]는 기준을 참조한 평가에 정보를 제공할 수 있지만, "one size fits all" 평가 시스템을 의무화하지는 않습니다. 각 프로그램은 [고유한 임상 환경과 자원을 기반]으로 [기준 참조 평가를 촉진하는 평가 시스템]을 개발해야 합니다.
The valid and reliable assessment of knowledge application is critical in CBME. This requires criterion-referenced rather than norm-referenced standards of assessment.

  • In norm-referenced evaluation, the evaluator uses the performance of immediate and available learners to establish criteria. This approach risks either overrating or underrating performance.
  • In criterion-referenced evaluation, predetermined criteria inform evaluation. The recently released Internal Medicine Milestones are an example of such criteria. These milestones are behaviourally based and offer criteria to ensure that residents acquire the knowledge, skills, and attitudes necessary for advancing in their program and for entering the next phase of their careers.

However, while such milestones can inform criteria referenced evaluation, they do not mandate a “one size fits all” assessment system. Programs will need to develop assessment systems that facilitate criterion-referenced evaluation based on their unique clinical environment and resources.

평가 시기
Timing of assessment

평가는 [형성 평가] 또는 [총괄 평가]를 제공할 수 있습니다. 역량 기반 교육 시스템에서 [피드백을 제공하는 형성 평가][학습자의 교육 과정 참여를 유도]하는 데 필수적입니다. 교육생은 형성 평가/피드백을 [받는 데 익숙]해져야 하며, 교수진은 이를 [자주 제공]해야 합니다. 프로그램은 이 과정을 위한 [안전한 교육 환경]을 조성하고 평가 및 피드백 제공을 위한 [다양한 기회]를 만들어야 합니다. 현재 대부분의 프로그램 평가 시스템에서 형성 평가를 자주 실시하는 것은 중요한 구성 요소가 아닙니다. 일반적인 로테이션 종료형 게슈탈트 평가는 실제 교육 경험과 시간적으로 근접한 시점에 제공되지 않기 때문에 학습자에게 즉각적이고 직접적인 피드백을 제공하는 데 성공할 수 없습니다.
Assessment can provide either formative or summative evaluation. In a competency-based education system, formative assessment that provides feedback is essential to guiding the learner's participation in the educational process. Trainees must become comfortable seeking formative assessment/feedback, and faculty must offer it frequently. Programs will need to cultivate a safe educational environment for this process and to create multiple opportunities for assessment and the delivery of feedback. Frequent formative assessment is currently not a significant component of most program evaluation systems. The typical end-of-rotation gestalt evaluation is not delivered in close temporal proximity to the actual educational experience, and so cannot succeed in providing immediate, direct feedback to the learner.

유연한 교육 기간
Flexible duration of training

CBME의 가장 큰 특징은 학습자가 입증된 능력에 따라 [자신의 속도에 맞춰 학습을 진행]한다는 것입니다. 안타깝게도 현재 널리 사용되고 있는 PGME의 구조는 여러 수준에서 순수한 역량 기반 교육 시스템의 도입을 어렵게 만듭니다. 옳든 그르든, 프로그램 디렉터들은 프로그램과 레지던트가 [점진적인 독립성]을 허용하면서 구조와 어느 정도의 감독이 필요한 성숙 과정을 통해 이익을 얻을 수 있다고 믿습니다(미국 내과학회 2009). 또한 이 과정에는 모든 학습자에게 [정해진 최소 교육 기간]이 필요하다고 생각합니다. 역량 기반 모델로 전환하면 [일부 레지던트의 조기 승진]과 [다른 레지던트의 승진 지연]으로 인해 이 과정이 중단될 위험이 있습니다. 그러나 [숙련된 학습자]는 역량을 입증하는 대로 진급해야 합니다. 한도 내에서 CBME는 [학습에 어려움을 겪는 학습자]에게도 구조화된 학습 환경에서 적절한 시간을 제공해야 합니다. 또한 CBME는 학습자가 특정 영역에서는 성취하고 다른 영역에서는 도전할 수 있음을 인식해야 합니다. 그러나 프로그램 졸업생이 안전하고 효과적인 환자 치료를 제공할 수 있도록 하기 위해서는 어떤 학습자도 [성급하게 시스템을 통과하도록 해서는 안 되며], 모든 학습자에게 원하는 역량을 개발할 수 있는 적절한 시간이 주어져야 합니다. 마지막으로, 현재의 PGME 자금 지원 시스템은 고정된 교육 기간을 기반으로 하고 있으며, [역량 기반의 유연한 시간 모델을 위한 자금 지원 전략]은 아직 제안되지 않았습니다. CBME가 발전하기 위해서는 전체 시스템의 재설계가 필요합니다. 이를 위해서는 교육 과정의 모든 수준에서 변화가 필요합니다.
A key distinguishing feature of CBME is that learners progress at their own rate in accordance with demonstrated ability. Unfortunately, the prevailing structure of PGME makes the adoption of a pure competency-based training system challenging at many levels. Rightly or wrongly, program directors believe that programs and residents benefit from a maturation process that requires structure and some degree of supervision while allowing for progressive independence (American Board of Internal Medicine 2009). They also believe that this process requires a fixed minimum period of training for all learners. Moving to a competency-based model risks disrupting this process by virtue of the early advancement of some residents and the delayed advancement of others. However, accomplished learners should advance as they demonstrate competence. Within limits, CBME should also provide appropriate time in structured learning environments for challenged learners. CBME must also recognize that a learner may be accomplished in certain domains and challenged in others. However, to ensure that program graduates can provide safe and effective patient care, no learner should be prematurely pushed through the system, and every learner should be given appropriate time to develop the desired competency. Finally, the current system of PGME funding is based on a fixed duration of training, and strategies to fund a competency-based, flexible-time model have yet to be proposed. For CBME to advance, a redesign of the entire system will be necessary. This will require change at all levels of the educational process.

프로그램 평가를 통한 인증 재조정
Realigning accreditation with program evaluation

CBME를 지원하기 위해 [인증 요건]은 점점 더 성과에 초점을 맞추고 있습니다. 예를 들어, ACGME 인증 내과 프로그램은 이제 [레지던트 성과 데이터 또는 결과][개선의 근거]로 사용하여 [데이터에 기반한 교육 프로그램 개선의 증거]를 입증해야 하며, 학습자 및 프로그램의 성과를 모두 검증하기 위해 [외부 측정]을 사용해야 합니다(ACGME 2009b). 마찬가지로, 모든 캐나다 왕립 의사 및 외과의 대학 프로그램은 전통적인 시간 기반 로테이션과 전문 분야별 역량을 모두 입증해야 합니다(인증 위원회 2006).
In support of CBME, accreditation requirements have become increasingly focused on outcomes. For instance, ACGME-accredited Internal Medicine programs must now demonstrate evidence of data-driven improvements to the training program by using resident performance data, or outcomes, as a basis for improvement, and use external measures to verify both the learner's and the program's performance (ACGME 2009b). Similarly, all Royal College of Physicians and Surgeons of Canada programs require demonstration of both traditional time-based rotations and specialty-specific competencies (Accreditation Committee 2006).

변화에 따른 레지던트 재설계
Residency redesign as change

개별 이해관계자 수준에서 역량 기반 수련 모델로의 전환은 [전문가 정체성의 극적인 재정의]가 될 수 있습니다. 많은 교수진이 역량 기반 교육이 도입되기 전에 교육을 이수했습니다. 이러한 전문가에게 CBME는 미지의 영역이며, Carraccio와 동료들(2002)이 설명한 패러다임의 변화는 교수진이 교육자로서의 전문적 정체성의 잠재적 재정의에 직면하면서 심대한 상실감을 불러일으킬 수 있습니다.
At the level of the individual stakeholder, the transition to a competency-based training model can represent a dramatic redefinition of professional identity. Many faculty completed training before the era of competency-based training. For these professionals, CBME represents uncharted waters, and the paradigm shift described by Carraccio and associates (2002) can give rise to feelings of profound loss as faculty face the potential redefinition of their professional identities as educators.

결론
Conclusion

우리는 의학전문대학원 교육 커뮤니티가 CBME로의 진화를 수용해야 한다고 믿습니다. 이러한 전환에는 여러 가지 과제를 극복해야 합니다. 역량 기반 교육 프레임워크 구현의 중요성을 이해하는 것은 변화 과정의 시작에 불과합니다. 시간 및 프로세스 기반 시스템의 기존 인프라에서 변화를 촉진하면서 학습자의 요구를 충족할 수 있는 유연성을 확보하는 것이 중요합니다. 프로그램과 교육 현장의 다양성을 고려할 때 하나의 로드맵이 모든 프로그램에 적합하지는 않습니다. 역량 기반 교육이 궁극적인 목표이지만, 전환에는 특정 역량 기반 결과뿐만 아니라 시간 및 프로세스 구성 요소를 포함하는 중간 단계의 하이브리드 프레임워크가 포함될 가능성이 높습니다. 성공적인 실행을 위해서는 교육기관 고위 경영진의 지원과 프로그램 책임자 및 지역 수준의 주요 교수진 챔피언이 제공하는 [리더십이 매우 중요]합니다. 국가 차원에서 인증 및 주요 이해관계자 조직은 CBME가 현실화될 수 있도록 [PGME 정책 개혁과 적절한 자원을 위한 로비]를 계속해야 합니다.
We believe that the graduate medical education community must embrace the evolution to CBME. This transition will involve overcoming a number of challenges. Understanding the importance of implementing a competency-based training framework is only the beginning of the process of change. Allowing for the flexibility to meet the needs of the learner while promoting change in the existing infrastructure of a time-and-process based system will be critical. Given the diversity of programs and training sites, no single road map will fit all programs. Although competency-based training is the ultimate goal, the transition will likely include intermediate hybrid frameworks containing time and process components as well as specific competency-based outcomes. The support of senior institutional administration and the leadership provided by the program director and key faculty champions at the local level will be critical to successful implementation. At the national level, accreditation and key stakeholder organizations must continue to lobby for PGME policy reform and the appropriate resources to ensure that CBME becomes a reality.

 


Med Teach. 2010;32(8):651-6. doi: 10.3109/0142159X.2010.500709.

Competency-based medical education in postgraduate medical education

Affiliations collapse

1American Board of Internal Medicine, USA. wiobst@abim.org

PMID: 20662576

DOI: 10.3109/0142159X.2010.500709

Abstract

With the introduction of Tomorrow's Doctors in 1993, medical education began the transition from a time- and process-based system to a competency-based training framework. Implementing competency-based training in postgraduate medical education poses many challenges but ultimately requires a demonstration that the learner is truly competent to progress in training or to the next phase of a professional career. Making this transition requires change at virtually all levels of postgraduate training. Key components of this change include the development of valid and reliable assessment tools such as work-based assessment using direct observation, frequent formative feedback, and learner self-directed assessment; active involvement of the learner in the educational process; and intensive faculty development that addresses curricular design and the assessment of competency.

임상역량위원회가 교육을 강화하고 역량중심-시간변동 진급에 준비하는 모습 다시 그려보기(J Gen Intern Med. 2022)
Reimagining the Clinical Competency Committee to Enhance Education and Prepare for Competency-Based Time-Variable Advancement
Mary Ellen J. Goldhamer, MD MPH1,2,3 , Maria Martinez-Lage, MD1,3, W. Stephen Black-Schaffer, MD1,3, Jennifer T. Huang, MD3,4, John Patrick T. Co, MD MPH1,2,3, Debra F. Weinstein, MD5,6, and Martin V. Pusic, MD PhD3,4

 

비네트:
Vignette:

레일라는 내과(IM) 레지던트 2년 차에 재학 중입니다. 미국(미국)으로 이민 오기 전에는 모국에서 IM 교육을 이수하고 2년 동안 독립적으로 수련을 받았습니다.
Leila is in her second year of internal medicine (IM) residency. Before emigrating to the United States (U.S.), she had completed IM training in her native country and practiced independently for 2 years.

6개월마다 열리는 임상 역량 위원회(CCC)의 정기 회의에서 레일라에 대한 논의는 거의 없었는데, 그녀의 평가는 일관되게 "기대 이상"이었습니다. 레일라가 레지던트 프로그램 디렉터를 만났을 때 CCC로부터 구체적인 요약 정보가 제공되지 않았습니다. 이용 가능한 평가 데이터는 일반적인 것이었으며 프로그램 디렉터는 "잘하고 있다"고 해석했습니다. 레일라는 CCC의 역할과 그것이 자신의 교육 궤도를 최적화하는 데 어떻게 도움이 되는지 궁금해하며 회의를 떠났습니다. 또한 미국으로 이민 오기 전에는 개업의였는데 왜 3년의 레지던트 과정을 마쳐야 하는지 의문을 제기했고, 모든 평가자들은 그녀의 뛰어난 실력에 주목했습니다. 레일라의 프로그램은 수련 시간이 아닌 입증된 역량에 따라 진급이 결정되는 역량 기반 시간 가변형 GME 파일럿 프로그램에 참여하고 있습니다. CCC는 이용 가능한 평가를 어떻게 활용하여 레일라의 비감독 실습 준비 상태를 판단할 수 있을까요? 
There was little discussion of Leila at the Clinical Competency Committee’s (CCC’s) regular 6-month meeting: her evaluations consistently reflected “exceeding expectations.” When Leila met with her residency program director, no specific summative information was available from the CCC. The available assessment data was generic and interpreted by the program director as “doing fine.” Leila left the meeting wondering about the CCC’s role, and how it helps optimize her educational trajectory. Leila also questions why she needs to finish 3 years of residency, since she was a practicing doctor prior to emigrating to the U.S.A., and all evaluators note her advanced skills. Leila’s program is participating in a competency-based time-variable GME pilot, where advancement is based on demonstrated competency rather than time in training. How can the CCC utilize available assessments to determine Leila’s readiness for unsupervised practice?

소개
INTRODUCTION

수련 중인 의사를 평가하는 것은 매우 중요한 활동입니다. 효과적인 평가는 교육 전반에 걸쳐 중요하므로, 강점과 약점을 파악하여 [결과를 최적화하기 위한 교육 계획을 수립]할 수 있습니다. 그런 다음 레지던트와 펠로우가 수련을 마칠 때 평가는 [무감독 실습에 대한 역량을 확인할 수 있는 기초]를 제공합니다. 또한, 의학전문대학원 교육(GME) 기간 동안 주기적인 평가를 통해 수련 중인 의사가 [자신의 학습을 스스로 평가하고 조절하는 능력을 연마]할 수 있도록 도와야 합니다.1 양질의 환자 진료에 필수적인 핵심 기술이자 경력 전반에 걸친 책임감은 정보에 입각한 자기 평가를 통해 배양할 수 있습니다.2 
Assessing physicians-in-training is a high-stakes activity. Effective assessment is important throughout training so that identified areas of strength and weakness can guide educational planning to optimize outcomes. Then, as residents and fellows complete their training, assessment provides the basis to confirm competence for unsupervised practice. Periodic assessment during graduate medical education (GME) should also help physicians-in-training hone their ability to self-assess and regulate their learning1—critical skills and a career-long responsibility essential for high-quality patient care which can be cultivated through informed self-assessment.2

평가의 중요성(그리고 역사적으로 강조되지 않았던)을 인식한 미국의학전문대학원교육인증위원회(ACGME)와 같은 의학교육 감독 기관은 [최근 몇 년간 관련 요건을 강화]했습니다.3,4,5 역량 기반 의학교육(CBME)에 대한 수용이 증가하고, [역량 기반 시간 가변(CB-TV) GME]로 논리적으로 확장되면서 효과적인 근거 기반 평가 접근법을 구현하는 것이 중요해졌습니다.6,7,8 미국, 캐나다, 스위스, 네덜란드, 그리고 전 세계적으로 ACGME-국제 인증을 통해 시행되고 있는 CCC는 수련의 평가의 방향 전환을 촉진하는 광범위한 교육 개혁의 산물입니다.4,6,9,10,11,12,13,14,15,16 또한 코로나19로 인해 일상적인 레지던트 및 펠로우십 교육이 중단되면서 진급 준비를 결정하기 위한 건전하고 신뢰할 수 있는 평가 절차의 중요성과 시급성이 증폭되고 있습니다.17,18,19,20,21,22,23 
Recognizing the importance (and historic under-emphasis) of assessment, medical education oversight organizations such as the Accreditation Council for Graduate Medical Education (ACGME) have strengthened related requirements in recent years.3,4,5 Growing acceptance of competency-based medical education (CBME), and its logical extension to competency-based, time-variable (CB-TV) GME, highlights the importance of implementing effective, evidence-based approaches to assessment.6,7,8 The implementation of CCCs in the USA, and their equivalent in Canada, Switzerland, the Netherlands, and globally through ACGME-International accreditation, is an outgrowth of widespread educational reform promoting a reorientation of trainee assessment.4,6,9,10,11,12,13,14,15,16 In addition, COVID-19’s disruption to routine residency and fellowship training amplifies the importance and urgency of having sound and trustworthy assessment processes to determine readiness for advancement.17,18,19,20,21,22,23

임상역량위원회(CCC)는 평가 정보를 해석하고 추가 조치를 결정하는 GME에서 평가의 핵심이며, 평가의 중심입니다. ACGME가 "차기 인증 시스템"의 일환으로 CCC를 시행하도록 요구하기 시작했을 때, 위원회의 주요 책임이 개괄적으로 설명되었으며, 시행의 세부 사항은 각 프로그램의 판단에 맡겨졌습니다.4,5 현재 다양한 접근법이 문헌에 기술되어 있으며, 2020년에 ACGME에서 GME 프로그램을 위한 CCC 가이드북 3판을 발행했지만, 아직 명확한 최선의 접근법이 확인되지는 않았습니다.24 
Clinical competency committees (CCCs) are the lynchpin of assessment in GME—the locus for interpreting evaluative information and determining further actions. When the ACGME initiated its requirement to implement CCCs as part of the “Next Accreditation System,” the committees’ key responsibilities were outlined, with the details of implementation left to each program’s judgment.4,5 Varying approaches have now been described in the literature, and the third edition of a CCC guidebook for GME programs was issued by ACGME in 2020; however, a clear best approach has yet to be identified.24

CCC 구조, 과정, 구성 및 결과25,26, 교수진 평가와 연수생 자가 평가27,28,29의 상관관계, 역량 코치의 역할30, 의미 있는 개별화된 학습 계획(ILP)을 개발하는 연수생의 능력 등을 평가하기 위한 연구가 진행되어 왔습니다. 31 다른 연구에서는 내과, 소아과, 응급의학과, 영상 진단, 외과 및 시술 전문과7,14,27,32,33,34,35,36,37,38,39 전공의가 역량 기반 진급 결정에 필수적인 전문과별 마일스톤 및 위임가능 전문 활동(EPA)에 대해 어떻게 평가되는지 규명하려고 노력했습니다.22,39 추가 연구에서는 레지던트 수련 중 CCC 역량 결정이 후속 감독 및 독립성 수준에 미치는 영향을 평가했습니다.7,27,35,36 
Studies have sought to evaluate CCC structure, process, composition, and outcomes25,26; correlation of faculty ratings with trainee self-assessment27,28,29; the role of competency coaches30; and trainee ability to develop meaningful individualized learning plans (ILPs).31 Other studies have sought to elucidate how trainees in internal medicine, pediatrics, emergency medicine, visual diagnostic, surgical, and procedural specialties7,14,27,32,33,34,35,36,37,38,39 are assessed on the specialty-specific Milestones and Entrustable Professional Activities (EPAs)which is essential for competency-based advancement decisions.22,39 Additional studies have evaluated the impact of CCC competency decisions on subsequent levels of supervision and independence during residency training.7,27,35,36

매사추세츠제너럴브리검에서는 여러 레지던트 프로그램이 CB-TV GME 파일럿40 에 참여하면서(예: 진급 및 졸업이 프로그램에서 보낸 시간에만 근거하지 않고 입증된 역량에 근거하는 경우), 그 효과를 높이고 레지던트에서 독립의료행위로의 개별화된 진급에 대한 신뢰할 수 있는 데이터 기반 결정을 보장하기 위해 CCC 프로세스에 대한 면밀한 검토를 촉진했습니다.40 시범사업 참여를 고려 중인 여러 레지던트 프로그램에서 CCC에 참여하고 CCC 문헌을 검토한 결과, 레지던트 프로그램 CCC의 목표를 재개념화하고 이를 달성하기 위한 권장 사항을 제시할 수 있었습니다. 
At Mass General Brigham, the participation of several residency programs in a CB-TV GME pilot40 (e.g., where advancement and graduation are based on demonstrated competency rather than solely on time spent in a program) has stimulated closer examination of CCC processes in order to enhance their effectiveness and ensure trustworthy data-informed decisions about individualized advancement from residency to unsupervised practice.40 Our engagement with CCCs in several residency programs considering participation in the pilot, along with our review of the CCC literature, has led us to reconceptualize the goals of residency program CCCs and make recommendations for achieving them.

배경
BACKGROUND

ACGME의 "차기 인증 시스템"마일스톤 프로젝트[측정 가능한 역량 측면에서 각 수련의의 발달 과정을 평가]하는 레지던트 프로그램을 요구하며, 이는 역량 기반 의학교육 프레임워크를 선호하는 광범위한 합의를 반영합니다.4 CCC는 수련의의 성과, 특히 시간에 따른 발달 과정을 평가하기 위해 사용 가능한 데이터를 종합하는 주요 수단입니다.4,24,41,42
The ACGME’s “Next Accreditation System” and Milestones project call for residency programs to assess the developmental progression of each trainee in terms of measurable competencies, reflecting widespread consensus favoring a competency-based framework for medical education.4 CCCs are the principal vehicle for synthesizing available data to assess trainee performance and, importantly, developmental progression over time.4,24,41,42

CCC 목표
CCC Goals

ACGME의 "프로그램 공통 요건"은 다음과 같이 CCC의 핵심 책임을 요약합니다.5

  • (1) 적어도 반기마다 모든 전공의 평가를 검토하고,
  • (2) 각 전공의의 전문과목별 마일스톤 달성에 대한 진척도를 결정하며,
  • (3) 전공의의 반기 평가 전에 만나 각 전공의의 진척도에 대해 프로그램 책임자에게 조언한다.

The ACGME’s “Common Program Requirements” outline the following core responsibilities of the CCC:

  • (1) review all resident evaluations at least semi-annually;
  • (2) determine each resident’s progress on achievement of the specialty-specific Milestones; and
  • (3) meet prior to the residents’ semi-annual evaluations and advise the program director regarding each resident’s progress.5 

ACGME의 "임상 역량 위원회"는 다음과 같이 명시하고 있습니다: 프로그램을 위한 가이드북"은 [이해관계자 그룹("프로그램 자체, 프로그램 디렉터, 교수진, 프로그램 코디네이터, 레지던트 및 펠로우, 기관, ACGME")으로 구성된 41개의 세부 항목]을 CCC의 "목적"으로 설명하지만(표 1, 5-7페이지), "궁극적인 목적은 대중에게 의학교육자로서의 책임성을 입증하는 것, 즉 졸업생들이 수련 중에 환자에게 질 높고 안전한 치료를 제공할 것이며, 실제 진료에 들어가서도 그렇게 할 준비가 잘 되어 있음을 보여주는 것"24이라고 명시하고 있습니다.
The ACGME’s “Clinical Competency Committees: A Guidebook for Programs” delineates (Table 1, p 5–7) 41 granular items as “purposes” of the CCC, organized by stakeholder groups (“the program itself, program directors, faculty members, program coordinators, residents and fellows, the institution, and the ACGME”), but notes that “the ultimate purpose is to demonstrate accountability as medical educators to the public: that graduates will provide high quality, safe care to patients while in training, and be well prepared to do so once in practice.”24

프로그램들은 모든 레지던트에 대한 지속적인 평가와 CCC 고려에는 상당한 시간과 자원이 필요하다고 지적합니다.24 18-22 그러나 역량 격차에 대한 인식 지연과 같이 최적이 아닌 평가로 인한 부정적인 영향은 훨씬 더 많은 비용을 초래할 수 있습니다. 게다가 불투명하고 자원이 부족한 평가 시스템으로 인해, 개인의 잠재력을 극대화하지 못하고, 심지어 역량 미달의 수련생이 졸업하게 된다면, 그 후의 사회적 비용은 훨씬 더 커질 수 있습니다. 이러한 이유로 GME 프로그램은 모든 교육생에 대한 [발달 평가를 강화]하여 [현재의 교육을 개선]하고 미래 모델로서 [입증된 역량에 기반한 시간 가변형 졸업에 대비]해야 합니다.
Programs note that ongoing assessment and CCC consideration of every resident requires considerable time and resources.24 p 18-22 However, the negative impact of sub-optimal assessment, such as delayed recognition of competency gaps, can cost considerably more. Moreover, if an opaque, under-resourced assessment system results in failing to maximize individual potential, and perhaps even allows less-than-competent trainees to graduate, the downstream costs to society are far greater. For these reasons, it is essential that GME programs strengthen the developmental assessment of all trainees to improve education today and prepare us for time-variable graduation based on demonstrated competency as a model for the future.

우리는 CCC가 세 가지 핵심 목표를 가질 것을 제안합니다.
We propose that CCCs have three core goals.

첫째, CCC는 교육을 최적화하기 위해 각 레지던트의 발달 상태를 정기적으로 반복적으로 파악하고 설명해야 합니다. 이를 위해서는 [다양하고 충분한 양의 평가 자료]를 집계하고 해석해야 하며, [충분히 다양한 환경에서 도출]되고 [직접 관찰을 통해 정보를 얻은 다중 출처("360도") 평가]에 중점을 두어야 합니다.43,44 또한 [CCC 결과]는 [개별화된 교육 계획에 통합]되어야 하며, [총괄 평가]는 [각 훈련생과 공동으로 작성한 실행 계획에 통합]되어야 합니다.24
First, the CCC must regularly and iteratively discern and describe the developmental status of each resident for the purpose of optimizing their education. This requires aggregating and interpreting a variety and sufficient volume of evaluative material—with an emphasis on multi-source (“360-degree”) evaluations, drawn from a sufficient variety of settings and informed by direct observation.43,44 It also requires that CCC findings are incorporated in an individualized educational plan, where summative assessments are incorporated into an action plan co-produced with each trainee.24

CCC의 두 번째 목표는 [유능한 의사를 배출하여 대중을 보호해야 하는 GME 프로그램의 근본적인 책임]과 관련이 있습니다. 따라서 CCC는 졸업 결정을 서포트하기 위해 각 레지던트의 무감독 실습에 대한 준비 상태를 긍정적으로 판단해야 합니다. 이를 위해서는 일관되게 적용할 수 있는 [명시적인 진급 기준]이 필요합니다.
The CCCs’ second goal relates to GME programs’ fundamental responsibility to protect the public by graduating competent physicians. Thus, CCCs must affirmatively determine each resident’s readiness for unsupervised practice to support graduation decisions. This requires having explicit promotion criteria that can be applied consistently.

우리는 CCC의 세 번째 핵심 목표는 각 레지던트가 [지속적인 학습에 대해 책임을 질 수 있는 능력], 즉 자기 평가, 자기 모니터링, 학습의 자기 조절로 다양하게 알려진 기술의 집합을 육성하는 것이라고 주장합니다.1,2 자신의 술기, 지식, 판단 수준을 이해하는 것은 좋은 진료를 제공하기 위한 핵심입니다. CBME의 중요한 원칙은 학습 통제권을 교수진에서 레지던트에게로 전환하는 것입니다. 6,45,46 의사는 진료 제공에 있어 다음을 판단해야 한다.

  • 언제 도움을 구해야 하는지,
  • 언제 추가 교육, 수련 또는 실습(예: 시뮬레이션)을 추구해야 하는지,
  • 언제 자신의 진료 범위를 제한해야 하는지

이런 것들은 일반적으로 독립적인 진료에 대한 [외부의 사후 감독]에 의존하기보다는 [스스로 판단]해야 합니다. 실제로, 연구에 따르면 유능한 의사는 자신을 과소평가하는 반면, 유능하지 않은 의사는 자신을 과대평가하는 경향이 있는 것으로 나타났습니다.47 따라서 [정보에 입각한 자기평가]는 CCC 과정과 연계하여 수련 중에 배양하고 보장해야 할 관련 기술입니다.2,24 자기평가와 반성적 실천의 중요성은 최근 조화로운 ACGME 마일스톤 2.0 하위 역량인 "실습 기반 학습 및 개선-2"- "개인적 성장을 위한 반영적 실천 및 헌신"의 시행으로 강조되고 있습니다."1,48
We assert that a third key goal of CCCs is to foster each resident’s ability to take responsibility for their ongoing learning, the collection of skills variably known as self-assessment, self-monitoring, and self-regulation of learning.1,2 Understanding one’s own level of skill, knowledge, and judgment is central to providing good care. An important tenet of CBME is the shift of learning control from the faculty to the resident. 6,45,46 Physicians must discern

  • when to seek help in delivering care;
  • when to pursue additional education, training, or practice (e.g., simulation); or
  • when to limit their scope of practice—rather than relying on external, usually post hoc oversight of their independent practice.

The ability cannot be assumed to develop spontaneously; in fact, studies have demonstrated that highly competent physicians tend to under-rate themselves while the less competent overrate themselves.47 Thus, informed self-assessment is a relevant skill to cultivate and ensure during training, linked to the CCC process.2,24 The importance of self-assessment and reflective practice is underscored by the recent implementation of the harmonized ACGME Milestone 2.0 sub-competency, “Practice-based Learning and Improvement-2”—“Reflective Practice and Commitment to Personal Growth.”1,48

CCC는 이러한 목표를 달성하는 데 어떤 성과를 거뒀을까요?
How Do CCCs Fare in Fulfilling These Goals?

형성적 및 종합적 직무기반 평가는 CCC 결정에 영향을 미칩니다.
Formative and Summative Workplace-Based Assessments Inform CCC Decisions

ACGME 공통 프로그램 요구사항 및 CCC 가이드북은 [CCC를 위한 프레임워크]를 제공하지만, 일부 증거에 따르면 CCC가 교육생의 발달 궤적을 적절히 평가하는 데 있어 이러한 요구사항을 충족하지 못하고 있습니다.5,24,25,49,50,51,52,53 2001년 ACGME 성과 프로젝트가 시작되면서 6가지 핵심 역량이 확립되었고, 미국의 역량 기반 의학교육 운동이 활성화되어 GME 교육 성과에 대한 로드맵이 정의되었습니다.3 그 이후로 ACGME는 수련의를 평가하기 위해 [형성적 평가 방법][총괄적 평가 방법]을 모두 권장해 왔습니다.

  • [형성적 평가 방법]의 예로는
    • 역량 기반 다원 평가(예: 교수진, 동료, 환자, 다른 의료 전문가, 자기 평가에 의한 수련의 평가),
    • 피드백을 통한 직접 관찰,
    • 객관적인 구조화된 임상 시험,
    • 차트 리뷰 등이 있습니다.5,24,43
  • 이후 [2013년 '차기 인증제도'의 일환으로 전문과목별 마일스톤에 대한 연 2회 평가]가 시행되면서 수련의 [종합 평가]가 강화되었습니다.4
    • 소아과는 10년 이상 개별화된 학습 계획(ILP)을 사용해 왔으며, 최근 모든 전문과목의 수련의에게 프로그램 리더십과 함께 ILP를 공동 제작하는 것이 요구되고 있습니다.5,54,55

While the ACGME Common Program Requirements and CCC Guidebook provide a framework for CCCs, some evidence indicates that CCCs fall short of meeting these requirements in adequately evaluating the developmental trajectory of trainees.5,24,25,49,50,51,52,53 The inception of the ACGME Outcomes Project in 2001 established the six core competencies and stimulated the competency-based medical education movement in the USA, defining the roadmap for GME training outcomes.3 Since that time, the ACGME has recommended both formative and summative assessment methods to evaluate trainees.

  • Examples of formative assessment methods include
    • competency-based multi-source evaluation (e.g., evaluation of trainees by faculty, peers, patients, other healthcare professionals, and self-assessment),
    • direct observation with feedback,
    • objective structured clinical examinations, and
    • chart review.5,24,43 
  • Summative trainee assessment was then strengthened by the implementation of bi-annual evaluation on specialty-specific Milestones as part of the “Next Accreditation System” in 2013.4 Pediatrics has used individualized learning plans (ILPs) for more than a decade, and co-production of ILPs with program leadership is a recent requirement for trainees in all specialties.5,54,55 

[형성평가와 총괄평가 모두에 대한 요구사항]은 학습의 연속성 전반에 걸쳐 수련의를 평가할 수 있는 방법과 역량 기반 평가가 역량 기반 의학교육을 지원하는 방법을 이해하기 위한 학술 센터 간의 혁신과 협력을 이끌어냈습니다.7,56 ACGME 평가 요건은 [CCC가 [평가 과정과 시간표]를 명문화하고, [충분한 수의 평가를 수집]하며[충분한 평가 횟수는 주관적이지만], 레지던트와 직접 일한 경험이 있는 회원을 포함한 [다양한 관점을 통합]]하도록 자극했습니다.56,57,58 역량 기반 의학교육으로의 전환과 역량 기반 발전에 대한 고려와 함께, Kinnear 등은 실무 기반 평가와 CCC 과정이 역량 기반 발전을 지원할 수 있는 방법에 대한 타당성 논거를 설명했습니다.8,59
The requirement for both formative and summative assessment has led to innovation and collaboration among academic centers to understand how trainees can be assessed across the continuum of learning and how competency-based assessment supports competency-based medical education.7,56 ACGME assessment requirements have stimulated CCCs to codify a process and timetable for evaluations, to collect a sufficient number of evaluations [though what number of evaluations suffices remains subjective], and to incorporate multiple perspectives, including from members with first-hand experience working with residents.56,57,58 With the movement to competency-based medical education and consideration of competency-based advancement, Kinnear and others have described a validity argument for how workplace-based assessment and the CCC process can support competency-based advancement.8,59

그러나 동시에 여러 가지 면에서 CCC는 명시된 세 가지 목표를 지원하지 못하거나 때로는 뚜렷하게 약화시키고 있습니다.51,53,60 표 1은 세 가지 CCC 목표 달성에 대한 [현재의 장애물과 주요 조력자]를 요약한 것입니다. 이러한 장애물을 살펴보고 제안된 목표를 달성하고 역량 기반 평가 결정을 개선하기 위해 CCC에 권장되는 세 가지 "중점 영역"을 강조합니다.
At the same time, however, in several ways, CCCs are failing to support—and sometimes distinctly undermining—the three stated goals.51,53,60 Table 1 outlines current obstacles and key enablers to achieving the three CCC goals. We will explore these obstacles and highlight three recommended “focus areas” for CCCs as they aim to meet the proposed goals and enhance competency-based assessment decisions.

 

CCC 목표 달성을 위한 주요 장애물 및 권장 집중 영역
Key Obstacles and Recommended Areas of Focus to Achieve CCC Goals

중점 영역 #1: 평가 및 역량 기반 발전의 공유 모델을 통해 우수자뿐만 아니라 모든 교육생의 역량 개발을 평가하고 촉진합니다.50,56
Focus Area #1:
 Assess and promote the development of competency in all trainees, not just outliers, through a shared model of assessment and competency-based advancement 50,56

CCC는 역량 달성을 향한 각 교육생의 발달 궤적을 알려주는 모든 평가를 검토하고 종합하여 이 정보를 교육생에게 제공해야 합니다. 그런 다음 교육생은 CCC의 결정과 피드백을 사용하여 2년에 한 번씩 열리는 회의에서 프로그램 리더십과 함께 개별화된 학습 계획을 공동 작성할 수 있으며, 코치의 참여가 필요할 수도 있습니다. 24 p. 44-45,50
The CCC should review and synthesize all assessments that inform each trainees’ developmental trajectory towards achievement of competency and provide this information to trainees.
 Trainees can then use determinations and feedback from the CCC to co-produce an individualized learning plan with program leadership during bi-annual meetings, potentially with participation of a coach. 24 p. 44-45,50

특히 레지던트 수가 많은 많은 CCC는 주로 어려움을 겪고 있는 소수의 레지던트인 아웃라이어에 초점을 맞추고 있습니다. Hauer와 동료들은 캘리포니아에 있는 5개 공공 기관의 34개 레지던트 프로그램에서 CCC의 구조와 기능을 평가했습니다.60 프로그램 디렉터와의 반구조화된 인터뷰를 통해 대부분의 CCC가 모든 수련의의 개별적인 요구를 해결하기 위해 [발달적 접근 방식]을 사용하기보다는, 주로 어려움을 겪는 수련의에게 초점을 맞추는 [이상치 접근 방식]을 취하고 있음을 발견했습니다.60 슈마허와 동료들은 [어려움을 겪는 소아과 훈련생]을 식별하는 구조를 개발했지만 [반대쪽 극단, 즉 예외적으로 뛰어난 훈련생]을 식별하는 프로세스도 개발할 필요가 있다고 지적했습니다.36 이러한 접근 방식은 CCC가 고려하는 더 많은 훈련생을 포함할 수 있지만, [각 개인에 대한 철저한 평가]를 통해 [상대적 강점 또는 약점]에 대한 [세분화된 주제별 피드백을 제공]하여 [진행중인 수련에 정보를 주거나 자기 평가 능력을 개선]하기에는 여전히 부족한 부분이 있습니다.
Many CCCs, especially those with large numbers of residents, focus primarily on outliers, those few residents who are struggling. Hauer and colleagues evaluated the structure and function of CCCs in 34 residency programs at 5 public institutions in California.60 Using semi-structured interviews with program directors, they found the majority of the CCCs had an outlier approach, focusing primarily on struggling trainees rather than using a developmental approach to address the individual needs of all trainees.60 Schumacher and colleagues developed a structure for identification of the struggling pediatric trainee but noted the need to also develop a process to identify outliers at the other extreme—the exceptional trainee.36 While this approach would include more trainees under the CCC’s consideration, it still falls short of a thorough assessment of each individual to provide granular, thematic feedback about their areas of relative strength or weakness to inform ongoing training or refine the self-assessment capabilities.

모든 교육생 평가를 개별화하지 못하면 입증된 역량을 고려하지 않고, [모든 교육생에게 동일한 마일스톤 하위 역량 점수를 부여하는 "한줄긋기 채점"]으로 이어져 마일스톤 평가 프로세스가 약화되는 경우도 있습니다.52,61 이는 CCC가 [CCC 프로세스 및 기능에 대한 공유 모델이 부족]할 때 [더욱 악화]되며, 이러한 이상치 식별 및 한줄긋기 채점 규범이 확립되면 깨뜨리기 어렵습니다.50 [교육을 최적화하려는 목적 하에, 각 전공의의 발달 상태를 파악하고 설명하기 위해], CCC는 먼저 각 전공의를 검토하고 수련생이 프로그램 리더십과 함께 ILP를 공동 제작하는 데 사용할 수 있는 [총괄적 피드백]을 제공하기 위한 [공유 모델과 약속을 수립]해야 합니다.5,24,50,55,56,58,60,62 성별, 인종, 민족 및 기타 형태의 인지적 편견에 관한 편견을 포함하여 CCC 평가에 잠재적으로 영향을 미칠 수 있는 편견을 완화하기 위해서는 CCC 멤버들을 위한 교수진 개발이 필수적입니다.53,63,64 CCC는 멤버들의 다양성에 대해 신중하게 생각하고 공정하고 편견 없는 위원회 토론과 결정을 보장하기 위해 효과적인 그룹 과정의 과학을 통합하도록 권장됩니다.25,26
The failure to individualize all trainee assessments has in some cases led to “straight line scoring,” where all trainees are assigned the same milestone sub-competency score, rather than considering demonstrated competency, undermining the milestone evaluation process.52,61 This is compounded when CCCs lack a shared model on CCC process and function; these norms of outlier identification and straight-line scoring become established, and then are hard to break.50 In order to discern and describe the developmental status of each resident for the purpose of optimizing their education, the CCC must first establish a shared model and commitment to reviewing each individual resident and providing summative feedback that can be used by trainees to co-produce an ILP with program leadership.5,24,50,55,56,58,60,62 Faculty development for CCC members is essential to mitigate biases that could potentially influence CCC ratings, including bias regarding gender, race, ethnicity, and other forms of cognitive bias.53,63,64 CCCs are encouraged to think deliberately about the diversity of their membership and incorporate the science of effective group processes to ensure fair, unbiased committee discussions and decisions.25,26

중점 영역 #2: 수련의의 독립 수련 준비 상태 판단(및 촉진)을 위한 CCC 평가 및 코칭 프로세스 강화.
Focus Area #2:
 Strengthen CCC assessment and coaching processes for the determination (and promotion) of trainee readiness for independent practice

CCC는 [직접 관찰, 다양한 출처의 평가 및 피드백, 역량 코칭, 전문분야별 마일스톤에 대한 총괄 평가]를 통해 수집된 [작업장 기반 형성 평가]와 함께 [형성 평가와 총괄 평가 사이의 유용한 긴장]을 명시적으로 통합하도록 구성되어야 합니다.39,65,66 [코칭]은 [학습자 옹호자 역할]을 하는 사람이 [지원과 지도를 제공]하는 것입니다.67,68 코칭은 연수생을 직접 관찰하고 역량 영역에서 구체적인 피드백을 제공하여 연수생이 역량과 독립 준비를 향한 마일스톤 궤적을 따라 움직일 수 있는 기회를 제공합니다. 
The CCC should be structured to explicitly incorporate the useful tension between formative and summative assessment, with workplace-based formative assessment gathered through direct observation, multi-source evaluation and feedback, competency coaching, and summative assessment on the specialty-specific Milestones.39,65,66 Coaching is the provision of support and instruction by someone acting as a learner advocate.67,68 Coaching provides the opportunity to directly observe trainees and provide specific feedback in an area(s) of competency, moving trainees along the Milestones trajectory towards competence and readiness for independence.

학부 및 대학원 의학교육에서 대부분의 코칭 프로그램은 [학생 및 수련의 경력 개발과 건강]에 중점을 두는 반면, [임상 술기 향상과 임상 역량 달성]을 목표로 하는 방법을 활용하는 코칭을 제공하는 프로그램은 거의 없습니다.30,67,68,69,70 또한 [형성적 코칭]과 [총괄 평가]의 [잠재적 상호보완성]에 대한 관심이 충분하지 않다고 가정합니다.69,71 R2C2[관계 구축, 반응 탐색, 내용 탐색, 변화 코칭] 모델은 여러 전문과목에서 검증되었으며 환자 치료, 임상 술기, 역량 성취에 초점을 맞춘 [종단적 코칭과 "순간적" 코칭] 모두에 대한 구체적인 전략을 제공합니다.67,69,71,72 R2C2 모델과 같은 코칭 모델은 코치와 레지던트 간의 개인적인 관계 형성과 [긍정적인 상호작용]을 강조함으로써 [한편으로는 코칭과 다른 한편으로는 평가의 필요성 사이의 긴장]을 관리하기 위해 노력합니다.24,30,67,68,73,74 코치가 [CCC에서 평가자와 코치의 이중 역할]을 수행할 때, 이는 신뢰와 코치로서의 후속 능력을 약화시킵니다.65,75 설계에 근거한 것이 아니라 임상 환경의 개별 수련의와의 우연한 교차점에 근거하여 동일한 CCC 구성원이 코치와 평가자의 관점을 모두 제공하는 경우가 종종 있습니다; 우리는 이 두 가지 역할이 뚜렷하고 개별화된 관점을 제공할 수 있는 다른 사람이 수행하도록 옹호합니다.30,65,75 "보타이 프레임워크"는 CCC 과정에서 레지던트, 역량 코치, 평가자의 역할과 책임을 설명합니다(그림 1). 
The majority of coaching programs in both undergraduate and graduate medical education focus on student and trainee career development and wellness while few programs offer coaching that utilizes methods aimed to enhance clinical skills and achieve clinical competence.30,67,68,69,70 Further, we postulate that insufficient attention is paid to the potential complementarity of formative coaching and summative assessment.69,71 The R2C2 [build relationships, explore reactions, explore content, and coach for change] model has been validated across specialties and offers specific strategies for both longitudinal and “in-the-moment” coaching focused on patient care, clinical skills, and competency achievement.67,69,71,72 Coaching models such as the R2C2 model strive to manage the tension between coaching on the one hand and the need for evaluation on the other, by emphasizing creation of a personal relationship and positive interactions between the coach and resident.24,30,67,68,73,74 When coaches serve a dual role of both evaluator and coach on the CCC, this undermines trust and their subsequent ability to serve as a coach.65,75 Frequently, the same CCC member provides both a coach and evaluator perspective, not based on design but on coincidental intersection with individual trainees in the clinical environment; we advocate for these roles to be served by different persons who can provide distinct and individualized perspectives.30,65,75 The “Bow Tie Framework” delineates the roles and responsibilities of the resident, competency coach, and evaluator in the CCC process (Fig. 1).

초점 영역 #3: 학습 요구 사항을 파악하기 위해 각 교육생이 정보에 입각한 자가 평가를 장려합니다.
Focus Area #3:
 Promote informed self-assessment by each trainee to identify learning needs

훈련생들의 [정보에 기반한 자기평가]는 CCC 과정의 중요한 구성 요소가 되어야 합니다.
Resident-informed self-assessment should be a celebrated component of the CCC process.

자기 성찰의 중요성에 대한 인식이 높아지고 있음에도 불구하고, CCC 구조는 [레지던트의 자기 평가 기술 개발]과 [각 전문과목에서 정한 인정 기준] 사이의 [변증법dialectic을 축하하고 장려하는 메커니즘]이 제대로 개발되지 않은 경우가 많습니다.28,29,76,77 자기 조절 학습과 전문적 책임감은 모두 우수한 치료를 제공하기 위해 추가 지식, 향상된 기술 또는 직접적인 도움이 필요한 시점을 인식하는 데 달려 있습니다. 따라서 독립적 의료행위의 핵심 전제조건은 경험과 입증된 기술의 집합뿐만 아니라 특히 지속적으로 진화하는 전문직 표준과 관련하여 격차와 기회를 인식하는 능력입니다.27,31,78,79,80,81 [자기평가]와 [성찰적 실천]은 프로그램의 문화에 장려되고 통합될 수 있는 실천 기술이라는 인식이 증가하고 있습니다.1,2,28,29,31,33,78,81,82 예를 들어, [메타인지][적응적 전문성]을 강조해야 한다는 요구는 [정보에 입각한 자기평가][자기 모니터링]의 중요성을 명시적으로 지적합니다.1,83,84,85,86,87 자신의 한계를 판단하는 능력인 [분별력]은 [신뢰성의 핵심 요소]이며, 현대 보건전문직 평가 프레임워크에서 강조되고 있는 또 다른 핵심 요소입니다.32,88,89
Despite the growing appreciation for the importance of self-reflection, CCC structures often have under-developed mechanisms for celebrating and encouraging a dialectic between the resident’s developing skill of self-assessment and the recognized standards set forth by each specialty.28,29,76,77 Self-regulated learning and professional accountability both depend on recognizing when one needs additional knowledge, enhanced skill, or direct assistance in order to deliver excellent care. Thus, a key prerequisite for independent practice is not only a collection of experience and demonstrated skills but also the ability to recognize gaps and opportunities, especially in regard to continually evolving professional standards.27,31,78,79,80,81 There is increasing recognition that self-assessment and reflective practice are practiced skills that can be encouraged and incorporated into a program’s culture.1,2,28,29,31,33,78,81,82 For example, calls for an increased emphasis on meta-cognition and adaptive expertise explicitly point to the importance of informed self-assessment as well as self-monitoring.1,83,84,85,86,87 Discernment, the ability to judge one’s limits, is a key component of entrustability, another increasing emphasis in modern health professions assessment frameworks.32,88,89

우리는 CCC가 레지던트가 스스로 결정한 마일스톤 등급을 CCC 사후 회의의 등급과 비교하는 대신, [레지던트의 마일스톤 자기 평가]를 [CCC 심의의 일부로 통합]하는 [표준 프로세스]를 채택할 것을 제안합니다.77 이는 연수생의 관점을 CCC에 통합하고 연수생이 자신이 선택한 전문분야의 역량 발전 궤적을 인지하도록 하는 역할을 합니다.76,77 CCC는 [현저한 불일치를 해결하기 위한 메커니즘]을 마련해야 하며, 이는 [연 2회 프로그램 디렉터-연수생 회의][연수생의 ILP 공동 제작 과정]에서 논의될 수 있고 논의되어야 합니다.24,62
We suggest that CCCs adopt a standard process of incorporating resident Milestone self-evaluation as part of the CCC deliberations instead of having trainees compare their self-determined Milestone ratings to those of the CCC post meeting.77 This serves to incorporate the trainee perspective into the CCC and ensures the trainee is aware of the trajectory of competence progression in their chosen specialty.76,77 CCCs will need to have a mechanism in place to address marked discrepancies, which can and should be discussed during the bi-annual program director-trainee meeting and during the process of co-producing the trainee’s ILP.24,62

또한, [개별화된 학습 계획ILP]은 수련의와 프로그램 교수진에게 역량을 향한 [미래 지향적 관점] 또는 로드맵을 통해 [단기 및 장기 목표]를 모두 정의하는 과정을 제공합니다.24,54,62 Li와 동료들의 연구에 따르면 소아과 전공의의 실행 가능한 목표 작성 능력이 레지던트 수련 과정에서 크게 향상되었습니다.31 추가 연구는 코칭과 ILP에 해당하는 학습 변화 계획의 사용에 중점을 두었습니다.90

  • [이상치 식별 모델]에서 CCC 데이터는 소수의 이상치만을 식별하고 맞춤화하는 데 사용됩니다.60 이 전공의에게 문제가 확인되었나요? 그렇지 않다면 표준화된 프로그램을 계속 진행할 수 있습니다. 문제가 확인된 경우에만 평가 및 교육 계획에 대한 개별화된 접근 방식이 취해집니다.
  • [미래지향적인 ILP 관점]에서는 데이터를 사용하여 문제를 식별할 뿐만 아니라, 각 레지던트가 각 역량 또는 이정표를 달성할 수 있는 시기와 방법을 매핑하여 ["앞서가는" 학습자]를 포함하여 각 학습자의 개발을 최적화하기 위한 최선의 경로를 계획하는 데 도움을 줍니다.36 그런 다음 CCC의 의견을 바탕으로 모든 레지던트가 ILP를 공동 제작하여 이 목표를 실현하는 데 사용됩니다.24,54,62,90

Further, individualized learning plans offer trainees and program faculty a process to define both short- and long-term goals through a forward-looking lens or roadmap towards competence.24,54,62 A study by Li and colleagues found that pediatric residents’ ability to write actionable goals significantly improved over the course of residency training.31 Additional studies have focused on coaching and the use of learning change plans, an ILP equivalent.90 

  • Under an outlier identification model, CCC data is used to identify and customize the learning plans of only a small number of outliers.60 Have problems with this resident been identified? If not, then they can carry on in a standardized program. An individualized approach to assessment and educational planning is taken only if problems are identified.
  • Under a forward-looking, ILP perspective, data are used not only to identify problems, but to map when and how each competency or milestone can be achieved by each resident, helping to chart the best path forward to optimize each learner’s development, including those “ahead of the curve.”36 Co-production of an ILP by every resident, based on the input of the CCC, is then used to actualize this objective.24,54,62,90

[ILP 프로세스]는 종단적 학습 궤적에 중점을 두는 등 레지던트의 남은 예정된 활동에 비추어 기존 데이터를 세밀하게 검토하게 합니다. [역량 기반 진급]을 활용하거나 [CB-TV GME 졸업]을 시범적으로 준비하는 프로그램의 경우, 각 레지던트의 [적절한 졸업 날짜를 결정하는 것]은 레지던트와 프로그램 모두에게 위험과 기회를 수반합니다.7,16,21,22,23,91,92,93 이러한 역동성은 [데이터 수집과 해석이 투명하고 완전히 명문화되도록 보장]하는 데 긍정적인 힘이 될 수 있습니다. 각 개별 전공의의 ILP에는 [관련 데이터 기반 예측]이 포함되어야 하며, [단기 및 장기 실행 가능한 목표]를 모두 만들어야 합니다. 이러한 데이터 기반 ILP 프로세스는 시간 가변 졸업 날짜 시범 운영 여부와 관계없이 모든 프로그램에 도움이 된다고 확신합니다.
The ILP process leads to finer-grained examination of the existing data in the light of the resident’s remaining scheduled activities, including an emphasis on longitudinal learning trajectories. For programs utilizing competency-based advancement or preparing to pilot CB-TV GME graduation, determining each resident’s appropriate graduation date involves risk and opportunity for both the resident and the program.7,16,21,22,23,91,92,93 This dynamic can be a positive force for ensuring that data collection and interpretation is transparent and fully codified. Each individual resident’s ILP should include relevant data-driven predictions, creating both short- and long-term actionable goals. We assert that this data-driven ILP process is beneficial to all programs regardless of whether they are piloting a time-variable graduation date.

목표 연결: 모든 이해관계자의 역량 강화 기술로서의 데이터 관리
Connecting the Goals: Data Management as an Enabling Skill of All Stakeholders

목표를 달성하기 위해 CCC는 효과적인 메커니즘을 활용하여 광범위한 데이터를 수집하고, 데이터의 품질과 충분성을 모두 분석하며, 강력한 보고 메커니즘을 개발해야 합니다. ACGME CCC 가이드북에는 관리 업무를 관리하기 위한 권장 사항이 포함되어 있으며 CCC의 각 구성원에 대한 역할과 책임을 정의합니다. 24 p14-16;18-22 모든 GME 프로그램은 강력한 평가를 활용해야 하지만, 입증된 역량을 기반으로 근거에 기반한 졸업 결정을 내려야 하는 필요성을 고려할 때 시간 가변 교육은 평가를 강화하는 데 더 시급한 자극을 제공합니다. 21,22,56,93
To accomplish its goals, the CCC must utilize effective mechanisms to collect a wide range of data, analyze both its quality and sufficiency, and develop robust reporting mechanisms. The ACGME CCC Guidebook includes recommendations to manage administrative tasks and defines the roles and responsibilities for each member of the CCC.
 24 p14-16;18-22 While all GME programs must utilize robust assessment, time-variable training provides a more urgent stimulus to strengthen assessment, given the necessity of making evidence-based graduation decisions based on demonstrated competency. 21,22,56,93

다음은 [CCC 프로세스를 강화하기 위한 권장 사항]입니다:
The following are recommendations to strengthen the CCC process:

a)데이터 과부하를 피하기 위해 회의를 충분히 자주 개최합니다. 회의를 더 자주 개최하면 순환 기반 평가가 수개월의 지연 없이 완료되고 적시에 우려 사항을 해결하는 데 도움이 될 뿐만 아니라 학습과 일치하는 시간 척도에 따라 발달 요구 사항이 해결되도록 보장하는 데 도움이 될 수 있습니다.
a)
Hold meetings frequently enough to avoid data overload. More frequent meetings should also help to ensure that rotation-based assessments are completed without many months of delay and can help address concerns in a timely fashion, as well as ensuring that developmental needs are addressed on a timescale consistent with the learning.

b) CCC 구성원에게 [데이터를 검토하고 보고할 관리 가능한 [전공의 하위 집합]을 할당하거나, 모든 전공의 데이터를 검토하는 [역량 하위 집합]을 할당하여] 업무량을 분산합니다. 이 두 가지 관점은 상호 보완적입니다.
b)
Parse the workload by assigning CCC members a manageable subset of residents whose data they review and report on—or, alternatively a subset of competencies for which they review all resident data. These two perspectives are complementary.

c)형성적 평가와 종합적 평가를 통합하는 다중 소스 데이터를 활용하고, 가능한 경우 임상 결과 데이터를 통합합니다.
c)
Utilize multi-source data that incorporate formative and summative assessments, incorporating clinical outcomes data when available.

d)데이터 시각화를 사용하여 개인 또는 프로그램 추세를 강조합니다.94,95 [CCC가 어느 정도로 레지던트 프로그램 책임자의 내부 지식 없이도 업무를 수행할 수 있는지]는 프로그램의 일상적인 기능을 보완적으로 점검하는 역할을 할 수 있는 능력을 측정하는 척도입니다. CCC 운영을 지원하는 [이상적인 정보 시스템]에는 개별 관찰부터 개별 레지던트 성취도 요약, 프로그램 수준의 통합 디스플레이에 이르기까지 모든 영역을 실행할 수 있는 데이터 포트폴리오가 포함됩니다. 
d)
Use data visualizations to highlight individual or programmatic trends.94,95 The degree to which a CCC can carry out its work without the inside knowledge of the residency program director is a measure of its ability to serve as a complementary check on the day-to-day functioning of the program. An ideal information system to support CCC operation includes a data portfolio that can run the gamut from individual observations, through summations of individual resident achievement, to integrative displays at the program level.

그림 2에 표시된 히트 맵은 앞서 설명한 각 CCC 목표에 대한 관점을 제공할 수 있습니다.

  • 각 열은 한 명의 레지던트를 나타내므로 비주얼리제이션에 프로그램의 모든 레지던트를 표시할 수 있습니다.
  • 각 행은 단일 마일스톤 하위 역량(또는 EPA)을 나타내므로 열을 합치면 해당 전문과목의 역량 모델 전체를 나타냅니다.
  • 각 셀은 개별 레지던트가 해당 역량에서 어떤 성과를 거두고 있는지를 나타내며, 색상의 온도는 5점 척도의 종단적 성취도를 나타냅니다.

따라서 이 표현은 레지던트를 수련 단계별로 정렬한 경우 레지던트 간 변동성을 한 눈에 파악할 수 있도록 프로그램의 현재 상태를 요약하여 보여줍니다. 역량 요소 간의 가변성은 각기 다른 성취율과 함께 표시됩니다. 분명히 어떤 역량은 다른 역량보다 개발하기 쉽습니다. 분명히 어떤 레지던트는 다른 레지던트보다 역량 개발이 더 진척된 상태입니다. 이 시각화는 모든 거주자 및 전체 역량 모델에 걸쳐 CCC의 광범위한 사명과 일치합니다. 한 가지 더 보완할 수 있는 것은 입주자의 자가 평가 데이터를 동일한 그리드에 표시하는 것입니다.
Consider the heat map shown in Figure 2 which can provide a perspective on each of the CCC goals we have described.

  • Each column represents a single resident, and so, the visualization can show all residents in the program.
  • Each row represents a single Milestone sub-competency (or EPA) so that the columns taken together represent the entirety of the competency model for the specialty.
  • Each cell represents how that individual resident is doing on that individual competency, with the temperature of the color suggesting a five-point scale of longitudinal achievement.

As such, the representation provides a summary of the current state of the program, with the between-resident variability manifest at a glance, especially if the residents are ordered by stage of training. The variability between competency elements is also on display with their differing rate of achievement. Clearly, some competencies are easier to develop than others. Clearly, some residents are further along in their development than are others. The visualization is consistent with the breadth of the CCC’s mission, across all residents and across the entire competency model. A further embellishment would be to represent resident self-assessment data on the same grid.

 

이 예는 정적 시각화입니다. 이상적으로는 구성원들이 데이터에 대한 여러 보기를 고려하고 필요한 경우 마일스톤 진행 상황의 현재 추정치를 결정하는 세부 데이터까지 드릴다운할 수 있는 [동적 대시보드]가 CCC를 지원합니다.94,95,96 여기서 중요한 점은 CCC가 사용 가능한 [평가 데이터의 충분성]을 평가할 수 있다는 것입니다.

  • 어떤 데이터가 누락되었나요?
  • 누락된 이유는 무엇인가요?
  • 프로그램 수준의 질 개선(QI)에 시사점이 있습니까?
  • 아니면 해당 레지던트에 대한 구체적인 시사점이 있나요?

평가에 대한 통제권이 자율적인 레지던트 학습자에게 기울어져 있기 때문에 학습자가 필요한 성취 증거를 수집하는 측면에서 프로그램 기대치를 충족할 수 있는 정도는 자체 데이터 포인트가 될 수 있습니다. CCC 데이터 시각화는 전체 프로그램 수준의 맵을 제공하고 [개별 데이터 포인트 수준]까지 드릴다운할 수 있도록 CCC 회의 내에서 [동적으로 액세스]할 수 있도록 설계되어야 합니다.
Our example is a static visualization. Ideally, CCCs are supported by dynamic dashboards which allow the members to consider multiple views on the data, drilling down when necessary, to the granular data that determine the current estimate of milestone progression.94,95,96 An important point here is that the CCC can assess the sufficiency of the evaluation data available to it.

  • What data is missing?
  • Why is it missing?
  • Are there program-level quality improvement (QI) implications?
  • Or specific implications for this resident?

As the locus of control for assessment is tilted towards a self-regulated resident learner, the degree to which the learner is able to meet the program expectations in terms of collecting the necessary evidence of achievement may be its own datapoint. CCC data visualizations should be engineered to allow dynamic access within the CCC meeting to provide both an overall program-level map, and to drill down to the individual data point level.

 

결론
Conclusion

이 글에서는 [모든 레지던트]에게 정기적으로 적용되어야 하는 세 가지 핵심 CCC 목표를 제안했습니다.

  • (1) 교육을 최적화하기 위한 발달 상태 파악 및 설명,
  • (2) 무감독 실습 준비 상태 판단,
  • (3) 자기 평가 능력 배양

이러한 목표를 실현하기 위해 CCC 프로세스를 개선하기 위한 중점 영역으로 다음과 같은 사항을 권장했습니다.

  • 공유된 평가 및 역량 기반 발전 모델을 통해 우수자뿐만 아니라 모든 연수생의 역량 개발을 평가하고 촉진하며,
  • 연수생의 독립적 의료행위 준비 상태를 판단하기 위해 CCC 평가 프로세스를 강화하고,
  • 각 연수생의 학습 요구에 대한 정보에 입각한 자기 평가를 장려합니다.

In this article, we have proposed three core CCC goals that must be regularly applied to every resident:

  • (1) discern and describe developmental status to optimize education,
  • (2) determine readiness for unsupervised practice, and
  • (3) foster self-assessment ability.

We have recommended areas of focus to enhance the CCC process to actualize these goals including the following:

  • assess and promote the development of competency in all trainees, not just outliers, through a shared model of assessment and competency-based advancement;
  • strengthen CCC assessment processes to determine trainee readiness for independent practice; and
  • promote informed self-assessment of each trainees’ learning needs.

우리는 [코칭]을 통한 [형성적 피드백 제공]을 강조했으며, 강력한 [직장 기반 다중 소스 평가]를 통해 [개별화된 학습 계획]의 [공동 제작]과 연결된 [각 연수생의 발달 궤도에 대한 CCC의 결정]에 정보를 제공하는 것이 중요하다는 점을 강조해왔습니다. 또한 각 교육생의 역량 궤적에 대한 포괄적인 개요를 제공하여 강점과 성장 영역을 모두 파악할 수 있는 데이터 시각화의 중요성을 강조합니다.
We have emphasized the importance of providing formative feedback through coaching and robust workplace-based multi-source assessments to inform the CCC’s determination of the developmental trajectory of each trainee coupled with co-production of an individualized learning plan. Further, we emphasize the importance of data visualizations to provide a comprehensive overview of each trainee’s competency trajectory, noting areas of both strength and growth.

[교육기관과 프로그램]은 교육생 평가가 [중요critical]하고 [리소스 집약적인 과정]임을 인식하고, 그에 따라 우선순위를 정하고 자금을 지원해야 합니다. 참여하는 교수진은 적절한 교육을 받고 노력에 대한 보상을 받아야 합니다.64 또한 평가 참여는 [교수진의 학술적 발전에 기여]할 수 있으며, 또 다른 중요한 인센티브를 제공할 수 있습니다(그리고 그래야 합니다). [효과적인 평가를 지원하기 위한 성공적인 전략이 전파]되어야 합니다. 역량 기반 의학교육은 개별화된 진로를 촉진하며, 프로그램의 시간 가변적 진급 계획 여부에 관계없이 유연한 교육 시스템을 필요로 합니다.6,97
Institutions and programs must recognize that trainee assessment is a critical and resource-intensive process and must prioritize and fund it accordingly. Participating faculty should be appropriately trained and compensated for their effort.64 In addition, engagement in assessment may (and should) contribute to the academic advancement of faculty, providing another important incentive. Successful strategies to support effective assessment should be disseminated. Competency-based medical education promotes individualized pathways and requires flexible educational systems regardless of whether programs plan for time-variable advancement.6,97

전반적으로, 우리는 역량 기반 진급을 위해 "지금까지 어떻게 해왔습니까?"가 아니라 "우리가 당신에 대해 알고 있는 것을 고려할 때, 앞으로의 궤도를 최적화하는 데 어떻게 도움을 줄 수 있습니까?"라는 미래 지향적인 사고방식을 장려하고 있습니다. ACGME는 CCC가 이러한 목표를 실현할 수 있는 구조와 프레임워크를 제공했지만, 개별 프로그램은 역량 기반 의학교육 및 발전에서 CCC의 역할을 수행하기 위해 도구를 개념화하고 강화하며 프레임워크를 맞춤화해야만 잠재력을 실현할 수 있습니다.
Overall, we are promoting a forward-looking mindset in service of competency-based advancement, one where the question is not “how have you done until now?” but rather “given what we know about you, how can we help optimize your forward trajectory?”. The ACGME has provided the structure and framework for CCCs to actualize these goals, yet individual programs must conceptualize and strengthen the tools and personalize the framework to realize the potential of the CCC in fulfilling its role in competency-based medical education and advancement.

 

 


J Gen Intern Med. 2022 Jul;37(9):2280-2290. doi: 10.1007/s11606-022-07515-3. Epub 2022 Apr 20.
 
Reimagining the Clinical Competency Committee to Enhance Education and Prepare for Competency-Based Time-Variable Advancement
Affiliations collapse

1Massachusetts General Hospital, Boston, MA, 02114, USA. mgoldhamer@mgh.harvard.edu.

2Mass General Brigham, Boston, MA, USA. mgoldhamer@mgh.harvard.edu.

3Harvard Medical School, Boston, MA, USA. mgoldhamer@mgh.harvard.edu.

4Massachusetts General Hospital, Boston, MA, 02114, USA.

5Harvard Medical School, Boston, MA, USA.

6Boston Children's Hospital, Boston, MA, USA.

7Mass General Brigham, Boston, MA, USA.

8University of Michigan Medical School, Ann Arbor, MI, USA.

9Michigan Medicine, Ann Arbor, MI, USA.

PMID: 35445932

PMCID: PMC9021365

DOI: 10.1007/s11606-022-07515-3

Free PMC article

Abstract

Assessing residents and clinical fellows is a high-stakes activity. Effective assessment is important throughout training so that identified areas of strength and weakness can guide educational planning to optimize outcomes. Assessment has historically been underemphasized although medical education oversight organizations have strengthened requirements in recent years. Growing acceptance of competency-based medical education and its logical extension to competency-based time-variable (CB-TV) graduate medical education (GME) further highlights the importance of implementing effective evidence-based approaches to assessment. The Clinical Competency Committee (CCC) has emerged as a key programmatic structure in graduate medical education. In the context of launching a multi-specialty pilot of CB-TV GME in our health system, we have examined several program's CCC processes and reviewed the relevant literature to propose enhancements to CCCs. We recommend that all CCCs fulfill three core goals, regularly applied to every GME trainee: (1) discern and describe the resident's developmental status to individualize education, (2) determine readiness for unsupervised practice, and (3) foster self-assessment ability. We integrate the literature and observations from GME program CCCs in our institutions to evaluate how current CCC processes support or undermine these goals. Obstacles and key enablers are identified. Finally, we recommend ways to achieve the stated goals, including the following: (1) assess and promote the development of competency in all trainees, not just outliers, through a shared model of assessment and competency-based advancement; (2) strengthen CCC assessment processes to determine trainee readiness for independent practice; and (3) promote trainee reflection and informed self-assessment. The importance of coaching for competency, robust workplace-based assessments, feedback, and co-production of individualized learning plans are emphasized. Individual programs and their CCCs must strengthen assessment tools and frameworks to realize the potential of competency-oriented education.

Keywords: COVID-19; Milestones; clinical competency committee; competency-based advancement; competency-based medical education; individualized learning plan; time-variable graduate medical education.

가정의학 전공의교육 및 CPD에서 역량중심의학교육 용어의 개념화: 스코핑 리뷰(Acad Med, 2020)
Conceptualization of Competency-Based Medical Education Terminology in Family Medicine Postgraduate Medical Education and Continuing Professional Development: A Scoping Review
Heather Lochnan, MD, FRCPC, Simon Kitto, PhD, Natalia Danilovich, MD, MSc, PhD, Gary Viner, MD, Allyn Walsh, MD, CCFP, Ivy F. Oandasan, MD, CCFP, MHSc, and Paul Hendry, MD, MSc, FRCSC 

 

역량 기반 의학교육(CBME)은 교육 프로그램의 설계, 실행 및 평가에 역량 기반 접근 방식을 취하는 성과 기반 교육입니다. CBME는 체계적인 역량 프레임워크를 사용하므로 환자를 더 잘 치료할 수 있을 것으로 기대됩니다.1 CBME의 장점과 캐나다 가정의학회(CFPC) 및 의학전문대학원 인증위원회(ACGME)와 같은 학술 인증 기관의 노력에도 불구하고 이 접근 방식을 촉진하기 위한 장벽은 여전히 남아 있습니다. 한 가지 장벽은 규제기관, 교육자 및 기타 의학교육 관계자들이 사용하는 [CBME 언어의 불일치]입니다.2-5 많은 저자들은 CBME 시행자가 사용하는 용어가 매우 다양하여 혼란을 야기하고 이로 인해 협력과 보건 전문직 교육의 발전이 제한된다고 지적했습니다.6 -8 서로 다른 언어는 CBME에 대한 공유된 정신 모델과 "전문가" 의사가 되기 위한 궤적을 형성하는 데 방해가 됩니다.9 일부 저자는 역량, 역량, 역량 프레임워크에 대한 의미론이 연구 의제 개발1,10 과 평가 관행 개선의 주요 장애물 중 하나라고 제안했습니다.2,11 
Competency-based medical education (CBME) is outcomes-based training that takes a competency-based approach to the design, implementation, and evaluation of an educational program. CBME uses an organized framework of competencies, which is expected to lead to better care for patients.1 Despite the advantages of CBME and efforts by academic accreditation agencies, such as the College of Family Physicians of Canada (CFPC) and the Accreditation Council for Graduate Medical Education (ACGME), to promote this approach, barriers to its adoption and evaluation remain. One barrier is inconsistency in the language of CBME used by regulators, educators, and others in medical education.2–5 Many authors have noted that the widely varying terminology used by CBME implementors leads to some confusion and thereby limits both collaboration and the advancement of health professions education.6–8 The divergent language prevents formation of a shared mental model of CBME and the trajectory to becoming an “expert” physician.9 Some authors have suggested that semantics around competence, competencies, and competency frameworks may be one of the main obstacles to developing a research agenda1,10 and to improving assessment practices.2,11


의사의 지식, 기술, 태도, 행동의 평생 향상을 통해 의료의 질과 환자 안전을 개선하기 위한 이상적인 접근법으로 학부 의학교육(UME), 대학원 의학교육(PGME), 지속적인 전문성 개발(CPD)에 걸쳐 CBME 연속체를 구현하는 것이 제안되어 왔습니다.1,7,12 그러나 CBME의 성공적인 도입을 위해서는 [CBME와 관련된 어휘 사용의 일관성]을 확보해야 합니다.5,9,13 의학교육 문헌에서 CBME 용어가 광범위하게 사용되고 있음에도 불구하고 일관된 정의가 부족합니다. 
Implementing a CBME continuum throughout undergraduate medical education (UME), postgraduate medical education (PGME), and continuing professional development (CPD) has been proposed as the ideal approach to improve health care quality and patient safety via lifelong enhancement of physicians’ knowledge, skills, attitudes, and behaviors.1,7,12 Yet to ensure successful adoption of CBME, consistency needs to be fostered in the use of the vocabulary associated with CBME.5,9,13 Despite the extensive use of CBME terminology in the medical education literature, consistent definitions are lacking.

이 검토의 목적상, 우리는 주로 가정의학 CPD에서 CBME 용어의 사용에 관심이 있었습니다. 그러나 해당 연구는 상당히 제한적이기 때문에,14 CPD에 관련성이 있고 이전 가능한 지식을 식별할 수 있는 가능성을 바탕으로 가정의학 PGME를 포함하도록 초점을 넓혔습니다. 이러한 접근 방식을 선택한 이유는 향후 연구에서 모든 전문과목의 PGME 및 CPD 프로그램에 적용할 수 있는 광범위한 추론을 도출하는 데 도움이 되기 때문입니다. 
For the purpose of this review, we were interested primarily in the use of CBME terms in family medicine CPD. However, as that body of research is quite limited,14 we widened our focus to include family medicine PGME based on the possibility of identifying pertinent and transferable knowledge to CPD. We selected this approach to help us draw broad inferences that, in future research, may be applicable to PGME and CPD programs across all specialties.

캐나다와 미국에서 가정의학이 CBME를 가장 먼저 채택한 전문과목 중 하나이며15-19, 인구의 효과적인 치료에 있어 이 전문과목의 중요성이 점점 커지고 있다는 점을 고려할 때,20 이 범위 검토는 CBME가 더욱 광범위하게 발전함에 따라 의학교육 문헌에 시의적절하게 추가되었습니다. 우리는 CBME를 시행하고 연구하는 사람들이 CBME와 관련된 용어가 어떻게 정의되고 적용되는지 이해하는 것이 필수적이라고 믿습니다. 따라서 이 검토에서는 가정의학 PGME 및 CPD에서 CBME 시행과 관련된 문헌에 초점을 맞추기로 결정했습니다. 
Given that family medicine was one of the earliest adopters of CBME in Canada and the United States15–19 and the specialty is of increasing importance to the effective care of populations,20 this scoping review represents a timely addition to the medical education literature as CBME is being advanced more broadly. We believe that it is essential for those implementing and studying CBME to understand how terms associated with CBME are defined and applied. In this review, therefore, we decided to focus on the literature pertaining to CBME implementation in family medicine PGME and CPD.

또한, 모든 이해관계자 간의 의사소통을 개선하기 위해 가정의학에서 CBME와 관련된 어휘의 추가 발전(또는 일반적으로 사용되는 CBME 용어의 재정의)에 대한 합의가 필요합니다.6,7,21 본 검토의 목적은 미국과 캐나다 문헌에서 가정의학 PGME 및 CPD에서 CBME 시행과 관련된 주요 용어가 어떻게 사용되었는지 설명하기 위한 것이었습니다. 범위 검토 방법론을 사용하여 CBME 용어 사용에 있어 논문 간에 불일치 및/또는 유사점이 있는지 조사했습니다. 첫 번째 목표는 가정의학 관련 PGME 및 CDP 문헌에서 CBME 용어 사용의 정도, 범위, 성격, 즉 CBME 관련 용어의 개념화/의미를 조사하는 것이었습니다. 두 번째 목표는 이러한 CBME 용어의 정의에 사용된 주요 주제를 분석하는 것이었습니다. 
In addition, a need for consensus on further advancement in the vocabulary associated with CBME in family medicine (or redefinition of commonly used CBME terms) is required to improve communication among all stakeholders.6,7,21 The purpose of our review was to describe how key terms associated with CBME implementation in family medicine PGME and CPD have been used in the U.S. and Canadian literature. Using a scoping review methodology, we explored whether there were inconsistencies and/or similarities across articles in the use of CBME terminology. Our first objective was to examine the extent, range, and nature of the use of CBME terminology—that is, the conceptualization/meaning of CBME-related terms—in the PGME and CDP literature specific to family medicine. Our second objective was to analyze the dominant themes used in the definitions of these CBME terms.

방법
Method

범위 검토는 심도 있게 검토되지 않았거나 복잡한 주제에 대한 기존 문헌을 "매핑"하는 기법입니다.22-26 이 범위 검토의 방법론은 Arksey와 O'Malley22 가 제안한 프레임워크와 Tricco와 동료들이 제안한 후속 권고사항을 기반으로 했습니다.24 우리의 범위 검토에는 연구 질문 식별, 관련 연구 식별, 연구 선정, 데이터 차트 작성, 결과 대조, 요약 및 보고, 자문(선택적 단계) 등 6 단계가 포함되었습니다. 방법론적 엄격성을 높이기 위해 검토에 몇 가지 개선 사항을 도입했으며, 특히 자문을 첫 번째 단계이자 지속적인 단계로 추가했습니다. 

The scoping review is a technique to “map” existing literature on a topic that has not been reviewed in depth or that is complex in nature.22–26 The methodology for this scoping review was based on the framework suggested by Arksey and O’Malley22 and the subsequent recommendations proposed by Tricco and colleagues.24 Our scoping review included 6 stages: identifying the research questions; identifying relevant studies; study selection; charting the data; collating, summarizing, and reporting results; and consultation (an optional stage). To increase methodological rigor, we introduced some improvements in our review, most notably making consultation the first, and an ongoing, step.

1단계 지속적인 협의
Stage 1: Ongoing consultation

범위 검토 프로토콜 초안은 2017년 9월에 배포되어 전문가 패널(H.L., G.V., A.W., I.F.O.)의 피드백을 받고 필요에 따라 수정되었습니다. 이 저자들은 (1) 방법론 수립, (2) 검색 결과가 포괄적인지 평가, (3) 포함된 연구 검토 및 데이터 추출, (4) 새로운 주제 및 격차 논의, (5) 원고 초안 검토 등 5가지 중요한 지점에서 전문가로서 공식적으로 참여했습니다. 전문가 패널에 대한 추가 세부 정보는 다음과 같습니다.  
The scoping review protocol draft was circulated in September 2017 for feedback from our expert panel (H.L., G.V., A.W., I.F.O.) and modified, as necessary. These authors were formally engaged as experts at 5 critical points: (1) working out a methodology, (2) assessing search results to ensure they were comprehensive, (3) reviewing the included studies and extracting the data, (4) discussing emerging themes and gaps, and (5) reviewing manuscript drafts. Additional details about the expert panel are provided in Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/A798.

2단계: 연구 질문 파악
Stage 2: Identifying the research questions

우리의 범위 검토는 검색 전략의 선택을 결정한 두 가지 질문에 답하는 데 중점을 두었습니다22-24: 
Our scoping review focused on answering 2 questions, which determined our choice of search strategies22–24:

  1. 미국과 캐나다의 가정의학 PGME 및 CPD 프로그램에 대한 학술 연구에서 CBME 실행 용어가 개념화되고 논의되는 정도, 범위, 성격은 어떤가? 
  2. CBME 용어, 특히 역량 기반 의학교육, 역량 및 역량을 정의하는 데 사용되는 주요 요소/주제는 무엇인가요? 
  3. What is the extent, range, and nature of how CBME implementation terms are conceptualized and discussed in scholarly research on family medicine PGME and CPD programs in the United States and Canada?
  4. What are the dominant elements/themes used to define CBME terms, specifically competency-based medical education, competence, and competency?

3단계: 관련 연구 식별
Stage 3: Identifying relevant studies

검색 전략은 오타와 대학교 보건과학 사서와 협력하여 개발되었으며, 다양한 출처(전자 데이터베이스, 참고 문헌, 주요 학술지, 기관 웹사이트, 전문가 추천서)를 통해 근거를 검색했습니다.22 검색은 2000년 1월 1일(ACGME 결과 프로젝트가 1999년 시작)부터 2017년 4월 30일(검색일)까지 캐나다 또는 미국에서 출판된 영어 논문으로 제한되었습니다. 원본 연구, 리뷰, 사설, 논평 및 규제 관련 논문이 포함될 수 있었습니다. 
Our search strategy was developed in collaboration with the University of Ottawa health sciences librarian and involved searching for evidence via different sources (electronic databases, bibliographies, key journals, organization websites, and experts’ recommendations).22 The search was limited to English-language articles published from January 1, 2000 (as the ACGME Outcome Project started in 1999), to April 30, 2017 (the search date), and from Canada or the United States. Original research, reviews, editorials, commentaries, and regulatory articles were eligible for inclusion.

5개의 전자 데이터베이스인 Medline(OVID), ERIC(OVID), PsycINFO, Embase, Education Source(EBSCO)에서 CBME, 가정의학, 레지던트/PGME, CPD의 핵심 주제 영역에 대한 특정 검색어를 사용하여 검색했습니다. 2017년 3월 8일, 이 주제에 대한 논문을 찾고 출판된 문헌의 양을 파악하기 위해 PubMed에서 초기 검색을 실시했습니다. 초기 검색을 통해 관련 논문을 찾아냈으며, 이를 바탕으로 문헌 검색 전략에 포함할 의학 주제 제목(MeSH) 용어와 키워드를 조사했습니다. 이후 사서 및 전문가 패널과 협의하여 키워드를 수정하여 2017년 4월 검색에 사용했습니다. 검색 전략에는 주요 학술지(Academic Medicine, Canadian Family Physician, 가정의학, 보건 전문직 평생교육 저널)의 수동 검색과 식별된 논문의 서지 검색, 관련 국가 및 지역 기관의 웹사이트 검색도 포함되었습니다. 전체 검색 전략은 부록 디지털 부록 1에 제공됩니다. 
Five electronic databases—Medline (OVID), ERIC (OVID), PsycINFO, Embase, and Education Source (EBSCO)—were searched using specific search terms for the core topic areas of CBME, family medicine, residency/PGME, and CPD. On March 8, 2017, we conducted an initial search of PubMed to locate articles on this topic and to develop an understanding of the quantity of published literature. Our initial search identified relevant articles, which were examined for Medical Subject Headings (MeSH) terms and keywords for inclusion in our literature search strategies. The keywords were later revised in consultation with the librarian and the expert panel for use in the April 2017 searches. The search strategy also included manual searches of key journals (Academic Medicine, Canadian Family Physician, Family Medicine, Journal of Continuing Education in the Health Professions) and the bibliographies of identified articles, as well as searches of websites of relevant national and local organizations. The full search strategy is provided in Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/A798.

4단계: 연구 선택
Stage 4: Study selection

포함/제외 기준.
Inclusion/exclusion criteria.

연구 선택에 관한 의사 결정의 일관성을 보장하기 위해,22 6가지 주요 포함/제외 기준을 사용하여 관련 논문을 식별했습니다: 
To ensure consistency in decision making regarding the selection of studies,22 6 major inclusion/exclusion criteria were used to identify relevant articles:

  1. 논문은 가정의학과 수련의 및/또는 의사, 가정의학과 PGME 및/또는 CPD 프로그램에만 초점을 맞춰야 합니다. UME에 대해 논의하는 논문은 제외해야 합니다. 
  2. 논문은 CBME 시행에 대해 논의해야 합니다. 
  3. 논문은 캐나다 또는 미국에서 작성된 것이어야 합니다. 
  4. 논문은 영어로 제공되어야 합니다. 
  5. 문서의 전체 텍스트 버전을 사용할 수 있어야 합니다. 
  6. 논문은 연구, 리뷰, 논평/반성, 편집 의견 또는 규제 논문으로 분류되어야 합니다. 
  7. The article must focus exclusively on family medicine trainees and/or physicians and on family medicine PGME and/or CPD programs. An article must be excluded if it discusses UME.
  8. The article must discuss CBME implementation.
  9. The article must be from Canada or the United States.
  10. The article must be available in English.
  11. The full-text version of the article must be available.
  12. The article must be classified as a research, review, commentary/reflective, editorial opinion, or regulatory article.

포괄성과 실현 가능성의 균형을 맞추기 위해 세 가지 포함 기준(캐나다 또는 미국의 PGME 또는 CPD에서 가정의학에만 초점을 맞출 것, 영어로 제공될 것)이 선택되었습니다.26,27 다양한 학문 분야에 걸쳐 CBME를 다루는 방대한 연구 문헌을 고려하여 한 학문 분야(가정의학)와 한 지역(미국 및 캐나다) 내에서 범위 검토를 위한 프로토콜을 설계했습니다. 이전에 보고된 바와 같이, 범위 검토 팀이 직면하는 중요한 과제 중 하나는 검토에 포함된 문헌의 이질성과 방대한 양으로 인해 효과적이고 의미 있는 정보 종합 또는 질 평가를 수행하기 어려울 수 있다는 점입니다.23,26,28 또한, 가정의학 교육 환경은 국제적 맥락에서 다양하기 때문에 미국-캐나다 맥락으로 검토를 제한했습니다.29 따라서 전문가 패널(H.L., G.V., A.W., I.F.O.), 프로젝트 팀(S.K., N.D., P.H.), 학술 사서를 포함한 연구팀은 검색 범위를 캐나다와 미국으로 제한하기로 결정했습니다. 
Three of the inclusion criteria (exclusive focus on family medicine in PGME or CPD, from Canada or the United States, and available in English) were selected to balance comprehensiveness with feasibility.26,27 Given the large corpus of research literature covering CBME across a wide variety of academic disciplines, we designed our protocol for a scoping review situated within one academic discipline (family medicine) and one geographical region (the United States and Canada). As has been reported previously, one of the important challenges scoping review teams face is the heterogeneity and the volume of the literature included in reviews, which can make it difficult to carry out effective and meaningful information synthesis or quality assessment.23,26,28 Also, we limited our review to the U.S.–Canadian context because family medicine education settings vary in international contexts.29 Therefore, our research team—including the expert panel (H.L., G.V., A.W., I.F.O.), the project team (S.K., N.D., P.H.), and an academic librarian—decided to limit the search to Canada and the United States.

연구 선정 과정에는 (1) 제목과 초록으로 논문을 선별하고, (2) 선별된 논문을 전문을 읽는 두 가지 단계의 심사가 포함되었습니다. 리브스 등의 접근 방식30을 따르되, 약간의 수정을 가하기도 했습니다. 이 전략은 수많은 범위 검토를 완료한 범위 설정 방법론자(S.K.)의 경험을 바탕으로 했습니다.31-34
The study selection process involved 2 levels of screening: (1) articles were screened by title and abstract and (2) selected papers were read in full. We were guided by Reeves et al’s30 approach, with occasional slight modifications. This strategy drew on the experience of a scoping methodologist (S.K.) who had completed numerous scoping reviews.31–34

레벨 1: 논문은 제목과 초록을 기준으로 선별되었습니다.
Level 1: Articles were screened by title and abstract.

문헌 검색을 통해 470개의 고유한 기록(중복 제거 후)이 도출된 후, 프로젝트 팀원(N.D.)이 모든 제목과 초록을 선별하여 포함 여부를 검토했습니다. 모호한 부분이 있는 경우, 동일한 포함 기준을 사용하여 전체 텍스트 검토를 수행했습니다. 절차적 엄격성을 보장하기 위해 모든 논문의 포함 또는 제외 결정은 기록되었습니다. 일관성을 보장하고 연구 질문에 적절한 초점을 맞추기 위해 의학교육 전문가인 연구 책임자(S.K.)와 여러 차례 상의했습니다.
Following the literature search, which yielded 470 unique records (after removing duplicates), a member of the project team (N.D.) screened all titles and abstracts for inclusion. In case of any ambiguities, a full-text review was conducted using the same inclusion criteria. The decision to include or exclude any article was recorded to ensure procedural rigor. N.D. consulted with the principal investigator (S.K.), a medical education expert, several times to ensure consistency and to keep an appropriate focus on the research questions.

레벨 2: 선별된 논문을 전체적으로 읽었습니다.
Level 2: Selected articles were read in full.

470개 논문의 제목 및 초록 선별을 완료한 후 114개(24%)의 관련 논문이 확인되었습니다. 각 논문은 프로젝트 팀원(N.D.)의 full-text 검토를 거쳤습니다. 두 번째 프로젝트 팀 검토자(S.K.)는 지정된 비율(예: 15%)을 확인했습니다. 그런 다음 S.K.와 N.D.는 확인된 불일치에 대해 논의했습니다. 의견 불일치는 합의 프로세스를 통해 해결되었습니다. 전체 텍스트 검토를 거친 114개 논문 중 34개(30%)는 다음 이유 중 하나로 제외되었습니다:
After completion of the title and abstract screening of the 470 articles, 114 relevant articles (24%) were identified. Each of these underwent full-text review by a project team member (N.D.). A second project team reviewer (S.K.) checked a specified percentage (i.e., 15%). S.K. and N.D. then discussed any discrepancies that were identified. Any disagreements were resolved using a consensus process. Of the 114 articles that underwent full-text review, 34 (30%) were excluded for one of the following reasons:

  • 사용된 CBME 개념에 대한 증거가 없음(n = 6)
  • 가정의학 분야와 관련이 없음(n = 17)
  • UME(n = 5)
  • 캐나다 또는 미국 논문이 아님(n = 5)
  • 전체 텍스트를 사용할 수 없음(n = 1)
  • No evidence of the CBME concept used (n = 6)
  • Irrelevant to family medicine field (n = 17)
  • UME (n = 5)
  • Not a Canadian or U.S. article (n = 5)
  • Full text not available (n = 1)

80개의 논문이 포함 기준을 충족하여 검토의 최종 데이터 세트에 포함되었습니다.
Eighty articles met the inclusion criteria and were included in the review’s final dataset.

5단계: 데이터 차트화
Stage 5: Charting the data

포함된 80개의 논문에서 데이터를 추출하기 위해 코딩 매뉴얼을 작성하고 Microsoft Excel 스프레드시트(Mac용 Microsoft Excel, 버전 15.30, 워싱턴주 레드몬드에 있는 Microsoft Corp.)를 사용하여 표준화된 데이터 추출 양식(데이터 차트 양식)을 개발했습니다. 프로세스의 엄격성과 조사 결과의 신뢰성을 보장하기 위해 2인 이상의 독립적인 검토자가 제3자의 품질 점검을 받는 Reeves 등의 프로토콜30을 따랐습니다. (전문가 패널의 추출 양식 시범 사용을 포함하여 이 단계에 대한 자세한 설명은 부록 디지털 부록 1에 나와 있습니다). 코딩 매뉴얼은 코딩 과정에서 전문가 패널의 의견과 구체적인 코딩 결정에 따라 수정되었습니다. 코딩 매뉴얼은 부록 디지털 부록 2에 제공됩니다. 
To extract data from the 80 included articles, a coding manual was created and a standardized data extraction form (a data charting form) was developed using a Microsoft Excel spreadsheet (Microsoft Excel for Mac, version 15.30; Microsoft Corp., Redmond, Washington). To ensure the rigor of the process and the credibility of the findings, we followed Reeves et al’s protocol30 for 2 or more independent reviewers with quality checks from a third party. (A detailed description of this step, including piloting the use of the extraction form by the expert panel, is provided in Supplemental Digital Appendix 1). The coding manual was revised during the coding process based on input from the expert panel and specific coding decisions. The coding manual is provided in Supplemental Digital Appendix 2. (Both of these supplemental digital appendixes are available at https://links.lww.com/ACADMED/A798).

최종 데이터 차트 양식은 두 부분으로 구성되었습니다.

  • 첫 번째 부분에서는 저자명, 출판 연도, 제목, 논문 출처, 연구 수행 국가, 출판 유형(논평/반박 논문, 편집 의견, 규제, 연구 논문, 리뷰), 연구 패러다임(예: 질적, 양적, 혼합 방법), 대상 집단(교육 대상 수준) 등 논문 인구통계학적 정보를 수집했습니다.
  • 두 번째 부분에는 코딩할 개념(CBME, 역량, 역량), 정의 유무(예, 아니오), 주요 CBME 용어의 정의(역량 기반 의학교육, 역량, 역량), 정의 출처 등의 코딩 범주가 포함되었습니다.

이러한 각 코딩 범주에 대한 정의는 부록 디지털 부록 2에 제공됩니다. 데이터 차트 양식은 부록 디지털 부록 3에 제공됩니다.

The final data charting form consisted of 2 parts. The first part gathered article demographic information, such as author name(s), year of publication, title, article source, country where research was conducted, publication type (commentary/reflective paper, editorial opinion, regulatory, research article, review), research paradigm (e.g., qualitative, quantitative, mixed methods), and target population (level of training targeted). The second part included the following coding categories: concepts to be coded (CBME, competence, competency), presence of definition (yes, no), definition of key CBME terms (competency-based medical education, competence, competency), and definition source. The definitions for each of these coding categories are provided in Supplemental Digital Appendix 2 at https://links.lww.com/ACADMED/A798. The data charting form is provided in Supplemental Digital Appendix 3 at https://links.lww.com/ACADMED/A799.

이 데이터 추출 도구를 사용하여 전문가 패널의 각 구성원(H.L., G.V., A.W., I.F.O.)은 검토에 포함된 80개의 논문 중 20개를 독립적으로 읽고 위에서 설명한 4단계와 5단계의 원칙에 따라 관련 데이터를 추출했습니다. 애매한 항목이 있는 경우, 연구 책임자(S.K.)가 논문을 검토하여 최종 결정을 내렸습니다. 결과는 프로젝트 팀원 2명(S.K., N.D.)이 품질 보증 및 일관성을 위해 확인했습니다. 프로젝트 팀에서 제안한 모든 변경 사항은 전문가 패널과 논의하고 합의 과정을 거쳐 해결했습니다. 
Using this data extraction tool, each member of the expert panel (H.L., G.V, A.W., I.F.O.) independently read 20 of the 80 articles included in the review and extracted the relevant data in accordance with the principles outlined above for stages 4 and 5. If there were any ambiguous items, the article was reviewed by the principal investigator (S.K.), who made the final decision. The results were checked by the 2 members of the project team (S.K. and N.D.) for quality assurance and consistency. Any changes suggested by the project team were discussed with the expert panel and resolved using a consensus process.

6단계: 6단계: 결과 집계, 요약 및 보고
Stage 6: Collating, summarizing, and reporting results

방법론의 이 단계는 세 가지 단계로 나누어 진행되었습니다: (1) 데이터 분석, (2) 결과 보고, (3) 이전 가능성.
This stage of the methodology was divided into 3 separate steps: (1) analyzing the data, (2) reporting results, and (3) transferability.

1단계: 데이터 분석.
Step 1: Analyzing the data.

데이터 분석에는 다우트(Daudt) 등이 권고한 대로 문헌 내에서 CBME 용어가 어떻게 개념화/정의되는지 심층적으로 이해하기 위해 정량적 빈도 분석과 정성적 주제 분석 등의 [혼합 방법]이 사용되었습니다.27 Fereday와 Muir-Cochrane이 제안한 주제 분석을 위한 코딩 프로세스에 따라,35 추출된 모든 CBME 용어의 정의를 QSR International의 NVivo 10 소프트웨어에 입력했습니다. QSR NVivo의 코딩 프로세스에 따라 정의에서 지배적인 주제가 식별되었습니다. Hsieh와 Shannon이 설명한 기존의 [내용 분석] 방법36 을 사용하여 역량 기반 의학교육, 역량, 역량이라는 용어의 참조된 정의의 출처에서 직접 핵심 주제를 도출하기 위해 [주제별 분석]을 수행했습니다. 그런 다음 [합산 방법]31 을 사용하여 세 용어의 정의 사이에서 지배적인 주제를 계산하고 비교했습니다. 주제는 일관성과 정확성을 보장하기 위해 S.K.와 N.D.가 검토했습니다.
Data analysis involved mixed methods, such as quantitative frequency analysis and qualitative thematic analysis, to gain in-depth understanding of how CBME terms are conceptualized/defined within the literature, as recommended by Daudt et al.27 Based on the coding process for thematic analysis proposed by Fereday and Muir-Cochrane,35 all the extracted definitions of CBME terms were entered into QSR International’s NVivo 10 software (Doncaster, Victoria, Australia). Following the coding process in QSR NVivo, dominant themes in the definitions were identified. Using the conventional content analysis method described by Hsieh and Shannon,36 a thematic analysis was performed to derive the key themes directly from the sources of the referenced definitions of the terms competency-based medical education, competence, and competency. Then, the summative method31 was used to count and compare the dominant themes between the definitions of the 3 terms. The themes were examined by S.K. and N.D. to ensure consistency and accuracy.

2단계: 결과 보고.
Step 2: Reporting results.

조사 결과는 표와 내러티브 형식으로 요약되었습니다. 보고 전략의 명확성을 유지하기 위해 결과 보고에 일관된 접근 방식을 적용했습니다.22-24
Findings were summarized in tabular and narrative forms. To preserve clarity of the reporting strategy, a consistent approach to reporting the findings was applied.22–24

3단계: 이전 가능성.
Step 3: Transferability.

범위 검토 방법론을 발전시키고 엄격성을 강화하기 위해 이 검토에서는 검토 프레임워크의 마지막 단계를 결과의 의미 적용26에서 [이전 가능성]으로 변경했습니다.37

  • [개념적 일반화 가능성] 및 [이전 가능성]은 연구 결과가 원래 연구가 수행된 맥락과 다른 보건의료 맥락에 얼마나 잘 정보를 제공하는지를 나타냅니다.38
  • 링컨과 구바39 및 키토 등40에 따르면 [전이가능성]은 [외적 타당성]에 해당하는 [자연주의적 개념]으로,
    • 연구 결과의 다른 유사한 맥락에 대한 적용 가능성
    • 연구 결과의 지식, 정책, 실무 및 연구와의 관련성(유용성)이라는 두 가지 주요 측면이 있습니다.


To advance the scoping review methodology and enhance its rigor, in this review the final step of the review framework was changed from applying meaning of the results26 to transferability.37

  • Conceptual generalizability and transferability refer to how well a study’s findings inform health care contexts that differ from the context in which the original study was undertaken.38 
  • According to Lincoln and Guba39 and Kitto et al,40transferability is the naturalistic equivalent of external validity and has 2 major aspects:
    • applicability of the findings to other similar contexts and
    • the relevance (utility) of the findings to knowledge, policy, practice, and research.

이는 두 가지 모두의 측면에서 전반적인 접근 방식의 주요 전제였습니다.

  • 사용된 방법론(가정의학 PGME 프로그램을 포함시켜 해당 영역의 CBME 실행에서 CPD로 이전할 수 있는 것을 확인)과
  • 결과(향후 다른 전문과목에 대한 CBME 설계 및 역량 기반 CPD 개입에 정보를 제공할 수 있는 검토 결과) 

This was the main premise within our overall approach, both in terms of

  • the methodology used (inclusion of family medicine PGME programs to see what might be transferable from CBME implementation in that domain to CPD) and
  • results (outcomes of the review that may inform future design of CBME across other specialties and of competency-based CPD interventions). 

결과
Results

논문 검색 및 선택
Search and selection of articles

2017년 4월에 수행된 검색에서 881건의 인용이 이루어졌습니다. 중복을 제거한 후 470편의 논문 제목과 초록을 대상으로 관련성을 선별했으며, 이 중 114편(24%)이 적격성 기준을 충족하여 전문 검토를 위해 확보되었습니다. 114편의 논문에 대한 전문 심사 과정을 거쳐 80편(17%)이 분석에 남았습니다.16,41-119 논문 식별부터 최종 포함까지의 흐름은 그림 1에 나와 있습니다.
The searches conducted in April 2017 yielded 881 citations. After duplicates were removed, the titles and abstracts of 470 articles were screened for relevance, of which 114 (24%) met the eligibility criteria and were procured for full-text review. After a full-text screening process of the 114 articles, 80 articles (17%) were retained in the analysis.16,41–119 The flow of the articles from identification to final inclusion is represented in Figure 1.

포함된 논문의 일반적 특징
General characteristics of included articles

이 검토에 포함된 80개 논문의 일반적인 특성은 표 1에 나와 있습니다.16,41-119 포함된 모든 논문은 2000년 1월부터 2017년 4월 사이에 출판되었으며, 61%(n = 49)가 2011년 이후에 출판되었습니다(그림 2). 포함된 논문의 3분의 2 이상(n = 53, 66%)이 캐나다에서 발표되었습니다. 연구 논문(n = 37, 46%)과 논평/반성 논문(n = 26, 33%)이 리뷰에 포함된 대부분의 논문을 구성했습니다. 규제(n = 11, 14%), 검토(n = 5, 6%) 또는 편집자 의견(n = 1, 1%)으로 분류된 논문은 거의 없었습니다. 37개의 연구 논문 중 절반 이상(n = 21개, 57%)이 질적 접근법을 사용했고, 약 1/3(n = 12개, 32%)이 정량적 접근법을 사용했으며, 나머지(n = 4개, 11%)는 혼합 방법을 사용했습니다. 
The general characteristics of the 80 articles included in this review are reported in Table 1.16,41–119 All included articles were published between January 2000 and April 2017, with 61% (n = 49) published after 2011 (Figure 2). Over two-thirds (n = 53, 66%) of the included articles were from Canada. Research articles (n = 37, 46%) and commentary/reflective papers (n = 26, 33%) comprised most articles included in the review. Few articles were characterized as regulatory (n = 11, 14%), review (n = 5, 6%), or editorial opinion (n = 1, 1%). Of the 37 research articles, more than half (n = 21, 57%) used a qualitative approach, approximately one-third (n = 12, 32%) used a quantitative approach, and the rest (n = 4, 11%) used mixed methods.

대부분의 논문(n = 67, 84%)은 출판된 문헌에서 확인되었습니다. 나머지(n = 13, 16%)는 인증 기관 웹사이트(예: CFPC)와 같은 회색 문헌에서 발견되었습니다. 논문은 17개 저널에 게재되었지만 절반 이상(n = 45, 56%)이 캐나다 가정의학 저널 26개(32%), 가정의학 저널 13개(16%), 학술 의학 저널 6개(8%)의 3개 저널에 집중되어 있었습니다. 논문 전체에서 총 96개의 대상 집단이 보고되었으며, 이 중 약 3분의 2(62/96, 65%)가 레지던트였고, 교수진(21/96, 22%)과 가정의학과 전문의(13/96, 13%)가 그 뒤를 이었습니다. 
Most articles (n = 67, 84%) were identified in the published literature. The rest (n = 13, 16%) were found in the gray literature, such as accrediting organization websites (e.g., CFPC). The articles were published in 17 journals, but more than half (n = 45, 56%) were concentrated in 3 journals: 26 (32%) in Canadian Family Physician, 13 (16%) in Family Medicine, and 6 (8%) in Academic Medicine. Across articles, a total of 96 target populations were reported, of which approximately two-thirds (62/96, 65%) were residents, followed by faculty (21/96, 22%) and family physicians (13/96, 13%).

CBME 용어의 정의
Definitions of CBME terms

이 검토는 가정의학 PGME 및 CPD 문헌에서 역량 기반 의학교육, 역량, 역량이라는 용어의 정의를 파악하는 것을 목표로 했습니다. 80편의 논문 모두 이 용어 중 하나 이상을 사용했으며, 전체 논문에서 이 용어는 112회 코딩되었습니다(표 1). 역량에 대한 코딩 빈도(용어가 코딩된 횟수)가 가장 높았고(57/112, 51%), 역량 기반 의학교육(30/112, 27%)과 역량(25/112, 22%)은 그보다 덜 자주 코딩되었습니다. 일반적으로 저자는 이전 연구를 참조하지 않고 용어를 정의했습니다. 
This review aimed to identify definitions of the terms competency-based medical education, competence, and competency in the family medicine PGME and CPD literature. All 80 articles used at least one of these terms; across the articles, the terms were coded 112 times (Table 1). The coding frequency (the number of times the term was coded) for competency was the highest (57/112, 51%); competency-based medical education (30/112, 27%) and competence (25/112, 22%) were coded less frequently. Typically, authors defined terms without reference to previous work.

데이터 세트의 80개 논문 중 12개(15%)만이 하나 이상의 CBME 용어에 대한 참조 정의를 제공했습니다. "참조된 정의"로 간주되려면 포함된 논문의 역량 기반 의학교육, 역량 또는 역량에 대한 정의가 [학술 논문 또는 인증 기관 출처(예: 캐나다 왕립 의사 및 외과의사 대학)를 참조]해야 했습니다. 전체적으로 [19개의 참조 정의]가 이 연구에서 발견되었습니다: 역량(n = 12, 63%), 역량 기반 의학교육(n = 4, 21%), 역량(n = 3, 16%) (표 1). 
Of the 80 articles in the dataset, only 12 (15%) provided a referenced definition of one or more of the CBME terms. To be considered a “referenced definition,” the definition of competency-based medical education, competency, or competence in the included article had to refer to a scholarly article or an accrediting organization source (e.g., the Royal College of Physicians and Surgeons of Canada). Overall, 19 referenced definitions were found in these studies: 

  • competence (n = 12, 63%), 
  • competency-based medical education (n = 4, 21%), and 
  • competency (n = 3, 16%) (Table 1).

부록 1에는 검토에서 확인된 역량 기반 의학교육, 역량, 역량에 대한 19개의 참조 정의가 제시되어 있습니다. 이러한 참조 정의는 학술지(n = 12, 63%)와 캐나다 가정의학과 레지던트 프로그램 인증 기관인 CFPC 웹사이트(n = 7, 37%)에서 추출한 것입니다. 참조된 정의가 포함된 12편의 논문은 5개의 저널에 분산되어 있었으며, Canadian Family Physician에서 8편(42%), Academic Medicine, Assessment and Evaluation in Higher Education, Medical Education, Canadian Geriatrics Journal에서 각각 1편의 논문이 게재되었습니다. 19개의 참조된 정의에서 중복된 정의를 제거했습니다. 전체적으로 12개의 고유한 참조 정의가 주제 분석에 포함되었으며, 구체적으로 역량에 대한 정의 8개, 역량에 대한 정의 3개, 역량 기반 의학교육에 대한 정의 1개가 포함되었습니다. 
Appendix 1 presents the 19 referenced definitions of competency-based medical education, competence, and competency as identified in the review. These referenced definitions were extracted from academic journals (n = 12, 63%) and the website of the CFPC (n = 7, 37%), the accrediting body for family medicine residency programs in Canada. The 12 articles with referenced definitions were distributed across 5 journals, with Canadian Family Physician publishing 8 articles (42%) and Academic Medicine, Assessment and Evaluation in Higher Education, Medical Education, and Canadian Geriatrics Journal each publishing 1 article. From the 19 referenced definitions, we removed duplicate definitions. Overall, 12 unique referenced definitions were included in the thematic analysis, specifically, 8 definitions of competence, 3 definitions of competency, and 1 definition of competency-based medical education.

지배적인 주제 식별
Identifying dominant themes

우리는 Fereday와 Muir-Cochrane의 접근법에 따라 엄격하고 철저한 주제 분석 프로세스를 따랐습니다.35 CBME 용어에 대한 12개의 고유한 참조 정의 중에서 10개의 참조 정의 출처에서 직접 도출된 15개의 지배적인 주제를 식별했습니다.1,6,120 -

  • 가장 일반적인 주제는 다양한 술기 구성요소를 포괄하는 다차원적이고 역동적인 개념이었으며(5번 코딩),
  • 그 다음으로는 의사소통, 지식, 기술, 임상적 추론, 판단력, 감정, 태도, 개인적 가치, 성찰을 실무에서 사용할 수 있는 능력(4번 코딩)이었습니다.

competence and competency의 정의는 유사하고 중복되는 4개의 주제를 공유했습니다. 표 2에는 10개의 정의 소스에서 코딩 빈도와 함께 주제에 대한 요약이 나와 있습니다. 

We followed a rigorous and thorough process of thematic analysis based on the approach of Fereday and Muir-Cochrane.35 Within the 12 unique referenced definitions of CBME terms, we identified 15 dominant themes that directly derived from the 10 sources of the referenced definitions.1,6,120–127 The most common theme was

  • a multidimensional and dynamic concept that encompasses a variety of skill components (coded 5 times) followed by
  • being able to use communication, knowledge, technical skills, clinical reasoning, judgment, emotions, attitudes, personal values, and reflection in practice (coded 4 times).

The definitions of competence and competency shared 4 similar and overlapping themes. Table 2 presents a summary of the themes along with the coding frequencies across the 10 definition sources.

토론
Discussion

의학교육 커뮤니티는 오랫동안 CBME 용어에 대한 공통된 정의에 대해 고심해 왔으며,2,5-9,120 이 용어에 대한 일관성은 CBME를 실행하는 데 있어 주요 과제로 남아 있습니다. 이 범위 검토의 목적은 가정의학 PGME 및 CPD 문헌에서 CBME 용어가 사용되는 범위, 범위, 성격을 파악하는 것이었습니다. 가정의학 문헌에서 CBME 시행에 관한 논문이 증가하고 있지만(포함된 논문의 61%가 2011년 이후에 출판되었습니다), 이 검토는 CBME 개념과 용어를 정의하는 데 더 많은 주의를 기울여야 한다는 증거를 제공합니다. 
The medical education community has long been struggling with common definitions for the terminology of CBME,2,5–9,120 and inconsistency around this language remains a major challenge in implementing CBME. The purpose of this scoping review was to identify the range, extent, and nature of how CBME terms are used in the family medicine PGME and CPD literature. Even though the family medicine literature shows a rise in articles on CBME implementation—61% of the included articles were published after 2011—this review provides evidence that more attention should be paid to defining CBME concepts and terms.

18년 동안 가정의학 PGME 및 CPD 문헌에 게재된 캐나다와 미국의 80개 논문을 분석한 결과, CBME 용어에 대한 매우 다양한 정의가 19개 참조되었습니다(부록 1). 특히, 12개의 참조된 역량 정의 중 8개의 고유한 정의는 Frank 등,1 Kane,121 Harden 등,122 Sibert 등,123 Epstein과 Hundert,124 Tardif,125 Govaerts,126 및 Sauier 등.127 또한 2011,61 2012,95 및 2014114 년에 발표된 논문에서 제공되는 3개의 참조된 역량 정의는 각각 Albanese 등,120 Frank 등,1 및 Sauier 등,127 의 다른 출처에서 나왔습니다. 이는 흥미로운데, 2010년에 국제 CBME 협력자1와 Frank 외6의 CBME 용어에 대한 체계적 검토에서 CBME와 관련된 주요 표준 정의를 제안했기 때문입니다. 이 두 논문은 의학교육에 종사하는 사람들이 일관된 언어와 용어를 사용하고 주요 용어의 유사점과 차이점을 명확히 하여 CBME의 발전과 보건 전문직 교육의 발전을 보장할 것을 권장했습니다. 반면, 우리의 검토 결과 [역량 기반 의학교육]의 개념화에는 변화variation가 없는 것으로 나타났는데, 이는 문헌에서 일관된 정의가 부족하다는 것을 보여준 초기 연구6,8와 모순되는 것으로 보입니다. 
Our analysis of 80 articles from Canada and the United States published over a period of 18 years in the family medicine PGME and CPD literature resulted in 19 highly variable referenced definitions of CBME terms (Appendix 1). Specifically, among the 12 referenced definitions of competence, there were 8 unique definitions that referred to articles by Frank et al,1 Kane,121 Harden et al,122 Sibert et al,123 Epstein and Hundert,124 Tardif,125 Govaerts,126 and Saucier et al.127 Furthermore, the 3 referenced definitions of competency provided in the articles published in 2011,61 2012,95 and 2014114 came from different sources—Albanese et al,120 Frank et al,1 and Saucier et al,127 respectively. This is interesting because in 2010, the International CBME Collaborators1 and a systematic review of CBME terms by Frank et al6 proposed key standard definitions relevant to CBME. Those 2 articles also encouraged individuals engaged in medical education to use consistent language and terminology and to delineate the similarities and differences in the key terms to ensure CBME progression and, thereby, the advancement of health professions education. On the other hand, our review revealed no variation in the conceptualization of competency-based medical education, which seems to contradict earlier studies6,8 that demonstrated a lack of consistent definitions in the literature.

가장 눈에 띄는 발견은 검토한 대부분의 연구에서 CBME 개념을 논의했지만 사용된 CBME 용어에 대한 참조 정의를 제공하지 않았다는 점입니다. 논문의 15%만이 일반적으로 논문 시작 부분에 참조 정의를 제공했습니다. 다른 논문에서는 저자가 용어 정의를 시도할 때 자체 정의를 제시하거나 참조 없이 정의를 제공했기 때문에 독자의 혼란을 가중시킬 수 있습니다. 참조 없이 저자가 제안한 고유한 정의의 발견은 이전에 보고된 바 있습니다.128
Our most striking finding was that most of the reviewed studies did not provide referenced definitions of the CBME terms used although they discussed CBME concepts. Only 15% of the articles provided referenced definitions, typically at the start of the article. In the other articles, when authors attempted to define terms, they either offered their own definitions or provided definitions with no references, which likely adds to the confusion for readers. The finding of unique author-proposed definitions without referencing was reported previously.128

그러나 CBME 용어에 대한 참조 정의를 제공하는 것은 독자에게 매우 중요합니다. 일부 연구자들은 독자가 사용된 개념을 이해하기 위해서는 저자가 기존 정의를 명확하게 인용해야 한다고 강조했습니다.10 이 단계는 전문가인 독자에게는 덜 중요할 수 있지만, 배경 정보는 모든 독자에게 영향을 미칠 수 있습니다. 글에 사용된 용어를 정의하면 다른 많은 이점이 있습니다. 예를 들어, 용어의 선택과 명료성은 연구 대상자6 와 보건 서비스 관리자 또는 정책 입안자에게 중요합니다.10 또한, 현대 CBME 어휘를 수시로 업데이트하려면 저자가 중요한 용어에 대해 어떤 정의를 사용하고 있는지 명시하는 것이 중요합니다.1,10 저자는 독자가 CBME 용어에 익숙하고 받아들일 것이라고 가정할 수 있지만, 이 검토에서 확인된 CBME 용어의 의미의 다양성을 고려하여 참조 정의를 제공할 것을 권장합니다. 
The provision of referenced definitions for CBME terms is very important to readers, however. Some researchers have highlighted that for readers to understand the concepts used, the authors must clearly cite existing definitions.10 This step may be less relevant for readers who are experts; yet, background information may influence all readers. There are many other benefits in defining the terms as used in the article. For example, the selection and intelligibility of the terms is important for a research audience6 and for health service managers or policymakers.10 Additionally, to update contemporary CBME vocabulary from time to time, it is important to state which definitions the author is using for important terms.1,10 While authors may assume that readers will be familiar with and accepting of CBME terminology, we suggest that authors offer referenced definitions given the variability in the meanings of CBME terms identified in this review.

기존의 콘텐츠 분석36을 사용한 주제별 분석 프로세스를 12개의 고유한 CBME 용어 참조 정의에 적용한 결과 15개의 주요 주제가 도출되었습니다(표 2). 많은 저자는 Competence가 Competency와 다르다는 점을 분명히 하고 있지만, 역량과 역량의 정의가 4개의 유사하고 중복되는 주제를 공유하고 있다는 점은 두 용어가 종종 같은 의미로 사용된다는 것을 시사합니다. 이 결과는 2007년에 10명의 Cate와 Scheele129이 보고한 결과와 2008년에 Govaerts가 보고한 결과와 일치합니다.126 
The thematic analysis process using conventional content analysis36 that was applied to the 12 unique referenced definitions of CBME terms elicited 15 dominant themes (Table 2). While it is clear to many authors1,2,4,6,8,120 that competence is different from competency, our finding that the definitions of competence and competency share 4 similar and overlapping themes suggests that the 2 terms are often used interchangeably. This finding is in line with findings reported in 2007 by ten Cate and Scheele129 and in 2008 by Govaerts.126

또한 (1) 다양한 술기 구성요소를 포괄하는 다차원적이고 역동적인 개념, (2) 의사소통, 지식, 기술, 임상적 추론, 판단, 감정, 태도, 개인적 가치, 성찰을 실무에 사용할 수 있다는 두 가지 주제가 모든 정의에서 가장 공통적으로 사용된다는 것을 발견했습니다. 이러한 결과는 이전 연구 결과와 일치하며,1,2,6 의사 역량은 지식, 기술, 가치 및 태도와 같은 학습의 작은 특정 요소(역량으로 알려진)의 집합으로 볼 수 있음을 나타냅니다. 역량은 의료 전문가의 관찰 가능한 능력이므로, 역량 달성을 보장하기 위해 측정 및 평가할 수 있습니다.6
We also found that 2 themes were the most common across the definitions—(1) a multidimensional and dynamic concept that encompasses a variety of skill components and (2) being able to use communication, knowledge, technical skills, clinical reasoning, judgment, emotions, attitudes, personal values, and reflection in practice. These results, in agreement with results of previous studies,1,2,6 indicate that physician competence can be viewed as an assembly of smaller specific elements of learning (known as competencies), such as knowledge, skills, values, and attitudes. Since competency is an observable ability of a health professional, it can be measured and assessed to ensure its attainment.6

역량과 역량이 개념화되는 방식의 차이는 암묵적으로 또는 명시적으로 의학교육의 연속선상에서 다양한 지역사회, 상황, 전문과목 내에서 성공적인 진료에 대한 기대치의 차이를 반영할 수 있다는 점을 언급하는 것이 중요합니다.2,120 Frank와 동료들1 은 Competence"특정 맥락에서 의사 수행의 여러 영역 또는 측면에 걸친 능력의 배열"로 정의합니다.1(p641) 이 정의는 역량이 정적인 개념이 아니라 [역동적이고 지속적으로 변화한다]는 것을 의미합니다.1,6,7 이는 특히 CPD에 해당합니다. 
It is important to mention that differences in how competence and competencies are conceptualized may, implicitly or explicitly, reflect differences in expectations for successful practice within different communities, contexts, and specialties along the continuum of medical education.2,120 Frank and colleagues1 define competence as “the array of abilities across multiple domains or aspects of physician performance in a certain context.”1(p641) This definition implies that competence is not a static concept but rather dynamic and continually changing.1,6,7 This is especially true for CPD.

[역량 기반 CPD 모델]은 모든 전공의가 [PGME를 마칠 때 역량을 입증]해야 할 뿐만 아니라, [시간이 지남에 따라 진료 현장에서 새로운 지식과 기술을 습득해야 한다]는 전제에서 출발합니다.7 역량은 환자 진료 맥락을 벗어난 독립적인 능력으로 존재하지 않기 때문에,11 [의사의 진료]와 [그들이 봉사하는 지역사회 또는 인구에 특화된 역량]이 필요할 수 있습니다. 또한 CPD의 맥락에서 competence and competency 의 개념은 해당 역량이 활용되고 강화되는 빈도를 포함하는 것으로 보입니다. competence은 [영구적인 속성이 아니라, 시간이 지남에 따라 상황, 노출, 기회 경험에 따라 변화]하기 때문에 역량 개념에는 [자기 성찰적 요소], 즉 [역량의 변동]에 대한 인식이 필요합니다. 따라서 CPD에서 역량을 사용할 때는 가르치고, 배우고, 평가할 내용에 영향을 미칠 수 있도록 맥락과 시간에 따라 역량을 정의해야 합니다.2
A competency-based model of CPD begins with the premise that all residents must not only demonstrate competence at the end of PGME but also acquire new knowledge and skills over time in practice.7 Since competencies do not exist as independent abilities outside the patient care context,11 there may be a need for competencies specific to physicians’ practice and to the community or populations they serve. Additionally, in the context of CPD, the notions of competence and competency seem to include the frequency with which that competency is employed and reinforced. The notion of competence demands a self-reflective component—that is, awareness of fluctuations in competence—since competence is anything but a permanent attribute; rather, it changes over time and across context, exposure, and opportunistic experience. Therefore, when competence is used in CPD, it must be defined according to context and time, to influence what is to be taught, learned, and assessed.2

가정의학에서 CBME를 실행할 때 표준화된 언어를 만들고 사용하면 커리큘럼을 구성하고 학습 결과를 평가해야 하는 방식에 대한 공유된 이해를 이끌어낼 수 있습니다. 우리는 의학 전문 분야와 학습 연속체 전반에 걸쳐 의학 교육을 변화시키기 위한 작업이 진행됨에 따라 [투명성, 입증 가능성, 책임성 및 이전 가능성]을 보장하기 위해 CBME 용어를 일관되게 개념화하는 것이 중요하다고 주장합니다. 가정의학에서는 CBME 접근법을 성공적으로 구현하기 위해 일관된 정의를 사용하는 것이 중요합니다. 또한, competency and competence은 [시간과 상황에 따라 다르다]는 점을 인식하여 가정의학 CPD에서 CBME 접근법을 구현할 때 이 점에 주의를 기울일 것을 권장합니다. 요컨대, 전문 분야와 학습 연속체 전반에 걸쳐 CBME에 참여하는 사람들은 연구, 교육 및 평가 내에서 CBME 개념과 정의를 명확히 하는 것을 목표로 해야 합니다. 
The creation and use of standardized language in CBME implementation in family medicine may lead to a shared understanding of the ways curricula should be structured and learning outcomes should be assessed. We argue that as the work toward changing medical education across medical specialties and across the learning continuum moves forward, it is important to have a consistent conceptualization of CBME terminology to ensure its transparency, demonstrability, accountability, and transferability. In family medicine, using consistent definitions is important for successful implementation of CBME approaches. Furthermore, recognizing that competency and competence are time- and context-specific, we recommend paying close attention to this when implementing CBME approaches in family medicine CPD. In short, those engaged in CBME, across specialties and across the learning continuum, should aim to make CBME concepts and definitions explicit within research, education, and assessment.

강점과 한계
Strengths and limitations

우리가 아는 한, 이 문헌고찰은 CBME 시행이 선진적인 것으로 알려진 학문 분야인 가정의학 관련 의학교육 문헌에서 CBME 용어가 어떻게 정의되고 개념화되어 있는지를 조사한 최초의 범위 검토입니다. 또한 다양한 배경을 가진 내용 및 방법론적 전문성을 갖춘 연구팀 구성이 본 범위 검토의 강점입니다.23,26,27 우리가 사용한 전략은 이전 범위 검토를 완료한 연구팀원의 경험을 기반으로 했기 때문에 논문 선정 과정이 신뢰할 수 있었다고 생각합니다. 
To the best of our knowledge, this is the first scoping review to examine how CBME terms are defined and conceptualized in the medical education literature specific to family medicine, an academic discipline known for advanced CBME implementation. Strengths of our scoping review also include the assembly of our team, with content and methodological expertise from diverse backgrounds.23,26,27 We believe that our article selection process was reliable because the strategy we used was based on the experience of our research team members who had completed prior scoping reviews.

이 검토의 몇 가지 한계점을 인정해야 합니다. 문헌 데이터베이스뿐만 아니라 회색문헌까지 검색하여 최대한 철저하게 검토하려고 노력했지만, 검색 범위는 캐나다 또는 미국에서 영어로 발표된 논문으로 제한되었습니다. 따라서 호주와 영국과 같이 동등한 의학교육 시스템을 갖춘 다른 국가에서 고려 중인 CBME 용어의 정의를 일부 놓쳤을 가능성이 있습니다.6 그럼에도 불구하고, 범위 검토 방법론을 엄격하게 적용함으로써 연구 질문에 대한 방어 가능한 답변을 얻을 수 있었으며, 이는 중요한 인용을 놓칠 위험을 보완할 수 있을 것으로 생각됩니다. 우리는 우리가 확인한 주요 주제와 다양한 정의가 세부 사항(학문 분야 및 국가)이 다르더라도 다른 학문 분야와 맥락에도 적용될 수 있을 것으로 예상합니다. 
Several limitations of this review should be acknowledged. Although we sought to be as thorough as possible by searching not only literature databases but also the gray literature, the scope of our search was limited to articles available in English from Canada or the United States. Thus, it is possible that we missed some definitions of CBME terms being considered in other countries with an equivalent system of medical education, such as Australia and the United Kingdom.6 Nevertheless, we believe that our rigorous application of scoping review methodology yielded defensible answers to our research questions, perhaps compensating for the risk of missing critical citations. We anticipate that the dominant themes and variations in definitions we have identified will translate to other disciplines and contexts, even if the specifics (academic discipline and country) differ.

적용 가능성 및 이전 가능성
Applicability and transferability

타당성에 근거한 [일반화 가능성]을 높이기 위해,130 핀프겔드-코넷이 설명한 [삼각측량 전략]을 사용했습니다.131 예를 들어, [여러 연구자]가 [여러 문헌 검색 전략](전자 데이터베이스 검색, 주요 저널 및 참고 문헌의 수작업 검색, 관련 기관 웹사이트 검색, 전문가 추천)을 사용하여 데이터 수집 및 분석에 참여하여 [다양한 출처](즉, 출판 및 회색문헌)의 데이터를 포함했습니다.131 이러한 전략은 우연한 연관성과 체계적 편견의 가능성을 줄이고 결과에 대한 신뢰도를 높여줍니다.39
To enhance generalizability, which is grounded in validity,130 we used triangulation strategies described by Finfgeld-Connett.131 For example, multiple researchers were involved in the data collection and analysis using several literature search strategies (electronic database searches, hand searches of key journals and bibliographies, searches of websites of relevant organizations, experts’ recommendations), resulting in the inclusion of data from a variety of sources (i.e., published and gray literature).131 These strategies reduce the possibility of chance associations and systematic biases and lead to increased confidence about the findings.39

이 검토의 궁극적인 목표는 그 결과가 [다른 의료 환경에 일반화할 수 있는 CBME 개념을 만들어 향후 PGME 및 CPD에서 CBME 개입 설계에 정보를 제공하는 것]입니다. 다시 말해, 이 범위 검토에서는 "가정의학에서의 PGME 및 CPD"를 수단으로 삼아 CBME 용어의 전반적인 개념화를 탐색했습니다. 이러한 방법론적 접근은 가정의학과 레지던트 교육 및 CPD에 대한 범위 검토 결과에서 [향후 연구에서 모든 PGME 및 CPD 프로그램에 적용될 수 있는 광범위한 추론]을 도출하는 데 도움이 되었다고 생각합니다. 이러한 의미에서, 우리는 본 검토 결과가 [가정의학 수련에서 실무로의 연속성]뿐만 아니라 [의학 전반에 걸친 PGME-CPD 전환]에도 즉시 적용될 수 있을 것으로 기대합니다. 우리는 가정의학과에서 유사한 PGME 프로그램을 운영하는 미국과 캐나다의 2개 국가29 의 문헌만을 검토하였기 때문에 본 연구 결과의 일반화 가능성에 한계가 있음을 인정합니다. 그럼에도 불구하고, 우리는 이 범위 검토에서 제기된 광범위한 문제(즉, 가정의학에서 CBME 용어의 개념화와 관련된 광범위한 주제)가 다른 분야, 교육적 맥락 및 국가로 이전 가능하고 유용하다고 믿습니다.34
Our eventual goal for this review is that its results will help create CBME concepts that are generalizable to other medical settings to inform future design of CBME interventions in PGME and CPD. In other words, in this scoping review, we used “PGME and CPD in family medicine” as a vehicle to explore overall conceptualization of CBME terms. We believe that this methodological approach helped us draw broad inferences from our scoping review results on residency training and CPD in family medicine that, in future research, will be applicable across all PGME and CPD programs. In this sense, we anticipate that the results of the present review will be immediately relevant for the continuum of training-to-practice in family medicine as well as to PGME-to-CPD transitions across medicine more generally. We acknowledge that the generalizability of our results is limited as we only reviewed literature from 2 countries, the United States and Canada,29 which have similar PGME programs in family medicine. Nevertheless, we believe that the broad issues (i.e., the broader themes pertaining to the conceptualization of CBME terms in family medicine) raised in this scoping review are transferable and useful to other disciplines, educational contexts, and countries.34

결론
Conclusions

CBME 용어에 대한 공유된 정의의 구축과 보급은 CBME의 성공적인 실행에 필수적입니다. 그럼에도 불구하고 미국과 캐나다의 학술 문헌과 회색문헌에서는 PGME와 CPD 모두에서 가정의학에서 CBME 용어의 개념화가 일관되지 않습니다. 이 검토에서는 가정의학 PGME와 CPD에서 CBME 용어가 어떻게 개념화되고 논의되는지 그 범위, 범위, 성격을 조사하기 시작했습니다. 이 범위 검토를 통해

  • (1) CBME 개념에 대한 참조 정의의 제한적 사용,
  • (2) 정의에 대한 특정 전문 분야(가정의학) 내에서 합의 부족,
  • (3) 향후 가정의학 내에서 사용하기 위해 합의 정의를 만들 수 있는 공통 주제를 발견했습니다.

The construction and dissemination of shared definitions of CBME terms is essential to CBME’s successful implementation. Despite this, the conceptualization of CBME terminology in family medicine, both in PGME and CPD, is not consistent in U.S. and Canadian academic literature and gray literature. In this review, we set out to examine the range, extent, and nature of how CBME terminology is conceptualized and discussed in family medicine PGME and CPD. This scoping review revealed

  • (1) limited use of referenced definitions of CBME concepts,
  • (2) a lack of consensus on such definitions within a specific specialty discipline (family medicine), and
  • (3) common themes from which consensus definitions may be created for future use within family medicine.

참조된 정의의 수가 적고 이러한 정의에 대한 합의가 부족하다는 것은 [개념적 엄격성에 더 많은 주의를 기울일 필요가 있음]을 시사합니다. 본 연구의 범위 검토를 바탕으로, 본 연구에서 확인된 가정의학과 관련된 주요 주제는 본 연구팀이 이전에 개발한 델파이-커피 하이브리드 방법론에 따른 합의 형성 프로세스를 사용하여 추가로 탐구할 수 있습니다.132 본 범위 검토에서 나온 최상의 증거와 함께 전문가 의견을 수렴하면 연구 목적의 표준화된 CBME 용어 정의 개발을 촉진할 수 있습니다. 가정의학 교육에 종사하는 사람들이 이 작업에 착수하고 여러 전문과목의 동료들과 협력하여 공통의 분류체계에 도달할 것을 권장합니다. 이번 검토 결과가 CBME의 개발 및 시행과 보건 전문직 교육 발전에 관련된 사람들의 지속적인 공동 작업에 도움이 되기를 바랍니다. 
The low number of referenced definitions and lack of consensus on such definitions suggest more attention needs to be paid to conceptual rigor. Drawing on our scoping review, the dominant themes identified in this study, specific to family medicine, could be explored further using a consensus-building process guided by the Delphi–Chaffee hybrid methodology previously developed by our team.132 The convergence of experts’ opinions along with best evidence from this scoping review could facilitate the development of standardized definitions of CBME terms for research purposes. We recommend that those involved in family medicine education embark upon this and work with colleagues across medical specialties to reach a common taxonomy for use. We hope that the results of our review can be a valuable addition to the ongoing collective work of those involved in the development and implementation of CBME and the advancement of health professions education.

 


 

Acad Med. 2020 Jul;95(7):1106-1119. doi: 10.1097/ACM.0000000000003178.

Conceptualization of Competency-Based Medical Education Terminology in Family Medicine Postgraduate Medical Education and Continuing Professional Development: A Scoping Review

Affiliations collapse

1H. Lochnan is assistant dean of continuing professional development, Education Programming, Faculty of Medicine, an endocrinologist, and professor, Department of Medicine, University of Ottawa, Ottawa, Ontario, Canada. S. Kitto is director of research, Office of Continuing Professional Development, and professor, Department of Innovation in Medical Education, University of Ottawa, Ottawa, Ontario, Canada. N. Danilovich is a research associate, Office of Continuing Professional Development, Department of Innovation in Medical Education, University of Ottawa, Ottawa, Ontario, Canada. G. Viner is director of evaluation in postgraduate program and associate professor, Department of Family Medicine, University of Ottawa, Ottawa, Ontario, Canada. A. Walsh is professor emeritus, Department of Family Medicine, McMaster University, Hamilton, Ontario, Canada. I.F. Oandasan is director, Education/directrice, Éducation, College of Family Physicians of Canada, Mississauga, Ontario, Canada. P. Hendry is vice dean of continuing professional development and professor of surgery, Faculty of Medicine, University of Ottawa, and a cardiac surgeon, University of Ottawa Heart Institute, Ottawa, Ontario, Canada.

PMID: 31996559

DOI: 10.1097/ACM.0000000000003178

Abstract

Purpose: To examine the extent, range, and nature of how competency-based medical education (CBME) implementation terminology is used (i.e., the conceptualization of CBME-related terms) within the family medicine postgraduate medical education (PGME) and continuing professional development (CPD) literature.

Method: This scoping review's methodology was based on Arksey and O'Malley's framework and subsequent recommendations by Tricco and colleagues. The authors searched 5 databases and the gray literature for U.S. and Canadian publications between January 2000 and April 2017. Full-text English-language articles on CBME implementation that focused exclusively on family medicine PGME and/or CPD programs were eligible for inclusion. A standardized data extraction form was used to collect article demographic data and coding concepts data. Data analysis used mixed methods, including quantitative frequency analysis and qualitative thematic analysis.

Results: Of 470 unique articles identified, 80 (17%) met the inclusion criteria and were selected for inclusion in the review. Only 12 (15%) of the 80 articles provided a referenced definition of the coding concepts (i.e., referred to an article/organization as the definition's source), resulting in 19 highly variable-and 12 unique- referenced definitions of key terms used in CBME implementation (competence, competency, competency-based medical education). Thematic analysis of the referenced definitions identified 15 dominant themes, among which the most common were (1) a multidimensional and dynamic concept that encompasses a variety of skill components and (2) being able to use communication, knowledge, technical skills, clinical reasoning, judgment, emotions, attitudes, personal values, and reflection in practice.

Conclusions: The construction and dissemination of shared definitions is essential to CBME's successful implementation. The low number of referenced definitions and lack of consensus on such definitions suggest more attention needs to be paid to conceptual rigor. The authors recommend those involved in family medicine education work with colleagues across medical specialties to develop a common taxonomy.

역량바탕의학교육 문헌의 대화를 이해하기: 스코핑 리뷰(BEME Guide No. 78)
Making sense of competency-based medical education (CBME) literary conversations: A BEME scoping review: BEME Guide No. 78 
Deena M. Hamzaa, Karen E. Hauerb , Anna Oswalda,c , Elaine van Melled, Zeenat Ladake, Ines Zunaf, Mekdes E. Assefag, Gabrielle N. Pelletierh, Meghan Sebastianskii, Diana Keto-Lamberti and Shelley Rossj 

 

 

배경
Background

역량 기반 의학교육(CBME)은 1970년대에 처음 제안되었으며(McGaghie 외. 1978), 급변하는 의료 환경에서 의사의 준비성과 환자 안전에 대한 우려를 해결하기 위한 방법으로 2000년대 초에 교육자, 임상의, 정책 입안자 사이에서 CBME에 대한 관심이 다시 높아졌습니다(McGaghie 외. 1978; Carraccio 외. 2002; Frank, Snell 외. 2010). CBME는 교육과정과 평가를 역량에 대한 대리인으로서 [시간 기반]에서 특정 [역량의 입증]에 초점을 맞춘 접근 방식으로 전환합니다(퍼거슨 외. 2017). 또한 CBME는 주로 의학 지식에서 벗어나 [환자 중심 진료, 의사소통, 전문성, 비판적 사고, 팀워크, 옹호, 제한된 자원의 적절한 사용]을 강조하는 의사 교육을 구상하고 있습니다(McGaghie et al. 1978; Donabedian 2000; Carraccio 외. 2002; Frank, Mungroo 외. 2010; Frank, Snell 외. 2010; Frenk 외. 2010; Starmer 외. 2014; Gaffney 외. 2016; Horsley 외. 2016; Makary and Daniel 2016; Ferguson 외. 2017; Holmboe 외. 2017; Santos 외. 2017). 이 범위 검토의 목적과 출판된 문헌에 근거하여 21세기 CBME의 정의는 다음과 같습니다: 
Competency-based medical education (CBME) was initially proposed in the 1970s (McGaghie et al. 1978), and interest in CBME saw a revival in the early 2000s among educators, clinicians, and policy makers as a way to address concerns about physician preparedness and patient safety in a rapidly changing healthcare environment (McGaghie et al. 1978; Carraccio et al. 2002; Frank, Snell, et al. 2010). CBME shifts curriculum and assessment from time-based, as a proxy for competence, to an approach that focuses on the demonstration of specific competencies (Ferguson et al. 2017). CBME also shifts focus away from primarily medical knowledge to envision physician training that also emphasizes patient-centered care, communication, professionalism, critical thinking, teamwork, advocacy, and appropriate use of limited resources (McGaghie et al. 1978; Donabedian 2000; Carraccio et al. 2002; Frank, Mungroo, et al. 2010; Frank, Snell, et al. 2010; Frenk et al. 2010; Starmer et al. 2014; Gaffney et al. 2016; Horsley et al. 2016; Makary and Daniel 2016; Ferguson et al. 2017; Holmboe et al. 2017; Santos et al. 2017). For the purpose of this scoping review and based on published literature, the definition of CBME in the twenty first century is:

근본적으로 졸업 성과 능력을 지향하고, 사회 및 환자 요구 분석에서 도출된 역량을 중심으로 구성된, 의사의 진료 준비에 대한 접근 방식입니다. 시간 기반 교육을 강조하지 않고 더 큰 책임감, 유연성, 학습자 중심성을 약속합니다. (Frank, Mungroo 외. 2010)
An approach to preparing physicians for practice that is fundamentally oriented to graduate outcome abilities and organized around competencies derived from an analysis of societal and patient needs. It de-emphasizes time-based training and promises greater accountability, flexibility, and learner-centeredness. (Frank, Mungroo, et al. 2010)

CBME의 의도된 긍정적인 영향에도 불구하고 비판이 없는 것은 아닙니다(Holmboe 외. 2017). 주요 비판 중 하나는 CBME가 [더 나은 의사를 배출한다는 증거가 부족]하다는 것입니다(Whitehead C 2012a, 2012b; Whitehead CR 외. 2013; Holmboe 외. 2017). 이러한 우려는 종종 효과에 대한 [증거를 포착하는 방법]에 뿌리를 두고 있습니다. 지금까지의 문헌적 논의(CBME의 철학, 설계, 실행 및/또는 실제 또는 예상 결과에 대한 서면 기록 또는 토론)는 [정량적 접근]을 통해 [인과 관계에 대한 정보]를 제공하는, [객관적이고 무작위적이며 통제된 방법론의 정보]를 중시하는 [실증주의/포스트 실증주의 패러다임]의 영향을 많이 받았습니다(Park et al. 2020). 그러나 이러한 유형의 방법론은 커리큘럼 혁신의 활동과 실천에 필요한 [사회-정치적 환경 및 사회적 상호작용과 같은 맥락의 영향]을 충분히 다루지 못합니다(Tavakol and Sandars 2014; Farrell et al. 2015).
Despite the intended positive impact of CBME, it is not without criticism (Holmboe et al. 2017). One of the main criticisms is that there is a lack of evidence that CBME produces better physicians (Whitehead C 2012a, 2012b; Whitehead CR et al. 2013; Holmboe et al. 2017). These concerns are often rooted in how evidence of effectiveness is captured. Literary conversations (written accounts or discussions about the philosophy, design, implementation, and/or real or anticipated outcomes of CBME) to date are strongly influenced by the positivist/post-positivist paradigm, which values information from objective, randomized, and controlled methodologies that provide information about causal relationships through quantitative approaches (Park et al. 2020). However, these types of methodologies insufficiently address the influence of context, such as socio-political environments and social interactions that are required to enact the activities and practices of curricular innovations (Tavakol and Sandars 2014; Farrell et al. 2015).

1978년(McGaghie 외. 1978)에 시작된 CBME가 현재 다시 부각된 것은 일반적으로 2002년에 Carraccio와 동료들이 발표한 논문(Carraccio 외. 2002)에 의해 촉발된 것으로 간주되지만, 가장 최근의 관심은 1993년 영국의학위원회(GMC)에서 개발한 Tomorrow's Doctors에서 시작된 CBME라고 주장할 수 있습니다.

  • [내일의 의사들]은 [성과 중심의 커리큘럼을 설계]하고 [역량을 향한 학습 궤적을 지원하는 방법]을 통해 [Trainee의 성과를 평가]하는 데 중점을 두었습니다(Bryant 1993; Madeley 1994; Christopher 외. 2002; Rubin and Franchi-Christopher 2002).
  • 1998년 미국에서는 의학전문대학원교육인증위원회(ACGME)가 환자 치료 결과를 개선하고 변화하는 의료 시스템에 적응할 수 있는 대학원 수련의의 역량을 향상시키기 위해 [아웃컴 프로젝트 이니셔티브]와 [차기 인증 시스템]을 개발했습니다(Swing 2007).
  • 캐나다에서는 가정의학 전문의 규제 기관인 캐나다 가정의학회(CFPC)2010년에 트리플 C 역량 기반 커리큘럼(Triple C)을 공식적으로 시행했습니다(오안다산 및 대학원 커리큘럼 실무 그룹 2011).
  • 다른 모든 전문과목의 규제 기관인 캐나다 왕립 의사 및 외과의사 대학(RCPSC)은 자체 버전의 CBME인 CBD(Competence by Design)를 개발하여 2017년에 커리큘럼 전환의 초기 실행 단계에 들어갔습니다. 

While the current re-emergence of CBME from 1978 (McGaghie et al. 1978) is generally considered to have been prompted by a publication by Carraccio and colleagues in 2002 (Carraccio et al. 2002), it can be argued that the most recent interest is CBME began in the United Kingdom with Tomorrow’s Doctors, developed by the General Medical Council (GMC) in 1993.

  • Tomorrow’s Doctors centered on designing curriculum around outcomes and appraising the performance of trainees through methods to support the learning trajectory toward competence (Bryant 1993; Madeley 1994; Christopher et al. 2002; Rubin and Franchi-Christopher 2002).
  • In the United States in 1998, the Accreditation Council for Graduate Medical Education (ACGME) developed its Outcomes Project initiative and Next Accreditation System to improve postgraduate trainees’ competence to improve patient care outcomes and adapt to changing healthcare systems (Swing 2007).
  • In Canada, the College of Family Physicians of Canada (CFPC), the regulatory body for family physicians, formally implemented the Triple C Competency-Based Curriculum (Triple C) in 2010 (Oandasan and Working Group on Postgraduate Curriculum 2011).
  • The Royal College of Physicians and Surgeons of Canada (RCPSC), the regulatory body for all other specialties, developed their own version of CBME, Competence by Design (CBD), and entered the early implementation stages of curriculum transformation in 2017 (https://www.royalcollege.ca/rcsite/cbd/competence-by-design-cbd-e).

지난 10년 동안 미국과 캐나다에서 전문과목 교육의 점진적인 커리큘럼 전환, 특히 실행 이니셔티브가 진행됨에 따라 [CBME의 영향을 지지하거나 비판하는 문헌적 논의]가 크게 증가했습니다. 이러한 문헌에 더하여 동남아시아 및 인도와 같은 다른 지역에서 CBME를 시행하고 시범 운영하려는 프로젝트가 진행되고 있습니다(Bansal 외. 2017; Shrivastava와 Shrivastava 2019).

The gradual curriculum shift in specialty training, particularly implementation initiatives in the US and Canada within the past 10 years, has substantially increased the literary conversations supporting and critiquing the impact of CBME. Further adding to this literature are prospective projects for the implementation and piloting of CBME in other parts of the world, such as Southeast Asia and India (Bansal et al. 2017; Shrivastava and Shrivastava 2019).

지난 10년 동안 CBME에 관한 문헌이 기하급수적으로 증가하면서 교육자, 연구자 또는 정책 입안자들이 CBME의 개념에 대한 최신 정보를 파악하는 것이 매우 어려워졌습니다. 그 결과 일부 문학적 대화가 더 지배적이 된 반면, 다른 대화는 더 넓은 CBME 커뮤니티 내에서 자리를 잡지 못했습니다. 또한, 매년 쏟아져 나오는 수많은 CBME 관련 출판물의 소음에 묻혀 CBME에 대한 진정으로 혁신적인 접근 방식이 주목을 받기 어려울 수도 있습니다. 초보자와 숙련된 교육자 및 연구자 모두가 CBME가 무엇이며 시간이 지남에 따라 개념이 어떻게 변화했는지 이해하는 데 도움이 되는 문헌의 종합이 절실히 필요합니다.
The near exponential proliferation of literature about CBME in the last decade has made it very challenging for educators, researchers, or policy makers to keep up to date on how CBME is conceptualized. As a result, some literary conversations have become more dominant, while others have failed to take hold within the wider CBME community. Further, truly innovative approaches to CBME may struggle to gain traction if they are lost in the noise of the massive numbers of publications related to CBME produced each year. There is a pressing need for a synthesis of the literature to help both novice and experienced educators and researchers to make sense of what CBME is and how conceptualizations have changed over time.

이 BEME 범위 검토의 목적은 기존의 CBME 문헌을 종합하여 이 복잡하고 빠르게 성장하는 문헌의 대화를 파악하는 것입니다. 이러한 문헌적 대화를 체계적으로 매핑함으로써 이러한 종합은 특히 시간이 지남에 따라 진화해 온 CBME의 개념화 및 실행을 둘러싼 다양한 관점에 대한 공유된 이해에 기여할 수 있습니다. 이러한 공유된 이해는 임상의 교육자와 의학교육 연구자가 CBME 문헌 전반에서 일어나고 있는 다양한 논의를 이해하는 데 필수적이며, 이를 통해 CBME의 기회와 위협에 대한 폭넓은 논의를 진전시키고 추가 연구를 위한 격차와 기회를 발견할 수 있습니다. 우리의 연구 결과는 두 가지 주요 결과, 즉 의사 교육에 대한 미래의 접근 방식에 대한 의사 결정이 환자 결과 개선과 사회적 책임이라는 CBME의 열망적 목표에 부합하도록 하고, 교육자와 연구자가 연구 및 프로그램 평가 질문과 방법을 개발하여 문헌의 격차를 해소하는 작업을 더 잘 수행할 수 있도록 하는 데 기여하기 위한 것입니다.
The aim of this BEME scoping review is to synthesize existing CBME literature to identify the conversations within this complex and rapidly growing body of literature. By mapping these literary conversations in a systematic way, this synthesis can contribute to a shared understanding of the various views surrounding the conceptualization and implementation of CBME, particularly as it has evolved over time. This shared understanding is essential to help clinician educators and medical education researchers make sense of the distinct conversations that are happening across the CBME literature, which should advance broader discussions of opportunities and threats of CBME, as well as uncover gaps and opportunities for further research. Our findings are intended to contribute to a shared understanding that is intended to have two main outcomes: to ensure that the decisions made about the future approaches to physician training are aligned with CBME’s aspirational goals of improved patient outcomes and social accountability, and to better position educators and researchers for the work of developing research and program evaluation questions and methods to address gaps in the literature.

방법
Methods

이 연구에서는 CBME에 대한 중요한 개념을 파악하고 현재의 격차와 향후 검토가 필요한 영역을 밝혀내는 등 연구 질문과 의도한 검토 결과를 일치시키기 위해 범위 검토 방법론을 선택했습니다(Grant and Booth 2009; Pham et al. 2014). 이 범위 검토의 개발은 다른 전문가들에 의해 이 프레임워크에 대한 개선과 함께 Arksey & O'Malley의 프레임워크에 따라 5단계로 구성되었습니다(Arksey & O'Malley 2005; Levac 외. 2010; Peters 외. 2015, 2017). 5단계는 (1) 연구 질문 파악 및 목표 조정, (2) 관련 연구 식별, (3) 연구 선정, (4) 데이터 추출 및 매핑, (5) 결과 종합 및 보고입니다. Levac 등(2010)이 제안한 여섯 번째 단계에는 소비자 및 이해관계자 참여가 포함됩니다. 
We selected a scoping review methodology for this study to align our research question and intended outputs of the review, including identifying important concepts about CBME and uncovering current gaps and areas for future examination (Grant and Booth 2009; Pham et al. 2014). The development of this scoping review was organized in five phases guided by Arksey & O’Malley’s framework along with enhancements to this framework by other experts (Arksey and O'Malley 2005; Levac et al. 2010; Peters et al. 2015, 2017). The five phases are

  • (1) identifying the research question and alignment of objectives;
  • (2) identifying relevant studies;
  • (3) study selection;
  • (4) extracting and mapping the data; and
  • (5) synthesizing and reporting the results.
  • A sixth step proposed by Levac et al. (2010) includes consumer and stakeholder involvement.

검토 저자 중 5명(DMH, SR, AO, KEH, EVM)은 국제 역량 기반 의학교육(ICBME) 협력자의 일원이며, ICBME 회의에서 이 BEME 검토에 대한 동료들의 피드백을 자주 권장했지만, 이는 비공식적으로 이루어졌기 때문에 검토 과정의 별도 단계로 포함되지는 않았습니다. 이 범위 검토에 대한 자세한 프로토콜은 근거 중심 의료 및 보건 전문가 교육 협력(bemecollaboration.org)에 등록되었습니다.

Five of the review authors (DMH, SR, AO, KEH, EVM) are members of the International Competency-Based Medical Education (ICBME) Collaborators and frequently encouraged feedback from colleagues during ICBME meetings about this BEME review; however, this was done informally and therefore not included as a distinct phase of the review process. A detailed protocol for this scoping review was registered with the Best Evidence Medical and Health Professional Education Collaboration (bemecollaboration.org).

1단계: 연구 질문 식별 및 목표 조정
Phase 1: Identifying the research question and alignment of objectives

이 범위 검토의 목적은 의학교육 커리큘럼을 CBME로 전환하는 것과 관련된 출판된 문헌의 문학적 대화를 탐색, 요약 및 체계적으로 매핑하는 것입니다. 이 검토에는 교육 연속체(학부, 대학원 및 평생 의학 교육)에 걸쳐 의사 교육에서 CBME를 구현하는 것에 관한 문헌적 논의가 포함됩니다.
The aim of this scoping review is to explore, summarize, and systematically map literary conversations in published literature surrounding medical education curriculum transformation to CBME. This review includes literary conversations about implementing CBME in physician training across the education continuum (undergraduate, postgraduate, and continuing medical education).

연구 질문: 의사 교육에 관한 출판된 문헌에서 CBME로의 전환을 둘러싼 문학적 논의는 무엇인가요?
Research question:
 What are the literary conversations surrounding the shift to CBME in published literature about physician training?

목표:
Objectives:

  1. 엄격한 방법론을 통해 출판된 문헌에서 CBME에 대한 다양한 견해를 요약합니다.
  2. CBME에 대한 다양한 관점의 의미 결정을 지원하기 위해 시간이 지남에 따라 이러한 문학적 대화와 견해의 진화를 설명합니다.
  3. 향후 프로그램 평가 및/또는 연구가 필요한 영역 발견
  4. Summarize, through rigorous methodology, the various views of CBME in published literature
  5. Illustrate the evolution of these literary conversations and views about CBME over time to support meaning making of the various perspectives about CBME
  6. Uncover areas requiring future program evaluation and/or research

2단계: 관련 연구 식별
Phase 2: Identifying relevant studies

이 범위 검토에서는 다양한 출판물과 기사 유형에서 발견되는 CBME에 대한 문학적 대화를 포착하고자 했습니다. 검색어를 사용하여 전 세계적으로 CBME의 철학, 변화의 원동력 및 후속 실행에 관한 출판물을 포착했습니다. 예비 포함 및 제외 기준을 사용하여 5명의 팀원(DMH, KEH, AO, EVM, SR)이 연구 선정을 위해 정보 과학자(RF)가 제공한 무작위로 선정된 40개의 논문을 검토했습니다. 이 과정은 합의를 도출하고 포함 및 제외 기준을 구체화하기 위한 반복적인 팀 프로세스였습니다. 이 접근 방식은 Levac 외(2010)가 제안한 범위 검토 프레임워크 개선 사항과 일치합니다. 표 1은 최종 포함/제외 기준과 검색 매개변수를 정의한 정보 과학자(RF, DKL)와 협력하여 식별한 후속 키워드 및 검색어를 보여줍니다. 검색 대상은 1978년 CBME가 도입된 이후부터 2020년까지의 출판물로 제한했습니다(McGaghie 외. 1978). 
This scoping review sought to capture literary conversations about CBME found in diverse publications and article types. Search terms were used to capture publications about the philosophy, impetus for the change, and subsequent implementation of CBME globally. Using the preliminary inclusion and exclusion criteria, five members of the team (DMH, KEH, AO, EVM, SR) examined 40 randomly selected articles provided by the information scientist (RF) for study selection. This was an iterative team process to establish consensus and refine the inclusion and exclusion criteria. This approach aligns with the scoping review framework enhancements proposed by Levac et al. (2010). Table 1 illustrates the final inclusion/exclusion criteria, and subsequent keywords and search terms identified in collaboration with information scientists (RF, DKL) that defined the parameters of the search. We limited our search of publications from the introduction of CBME in 1978 (McGaghie et al. 1978) to 2020.

다음 데이터베이스를 검색하여 CBME 문학적 대화에 관한 관련 문헌을 찾았습니다: MEDLINE(Ovid), ERIC(EBSCOhost), PsychINFO(Ovid), Embase(Ovid), Web of Science(Clarivate), ProQuest 뉴스 및 신문, ProQuest 논문 및 논문 글로벌, 캐나다 가정의학과 대학, 캐나다 왕립 의사 및 외과의사 대학, BEME 협업의 공식 웹사이트. 또한 관련 논문을 찾기 위해 참고 문헌 목록과 Google Scholar 결과의 첫 10페이지를 직접 검색했습니다. 주요 검색어는 다음과 같습니다: CBME; 설계에 의한 역량; 마일스톤 프로젝트; 트리플 C; 역량 기반 의학교육; 성과 기반 교육(잘라내기, 와일드카드, 'OR' 및 'AND' 부울 연산자 사용으로 키워드를 변형하여 검색)(검색 전략은 보충 부록 A 참조). 종합적인 문헌 검색은 2020년 4월 29일에 완료되었습니다. 
We searched the following databases to identify relevant literature about CBME literary conversations: MEDLINE (Ovid), ERIC (EBSCOhost), PsychINFO (Ovid), Embase (Ovid), Web of Science (Clarivate), ProQuest News and Newspapers, ProQuest Dissertations and Theses Global, the official websites of the College of Family Physicians of Canada, the Royal College of Physicians and Surgeons of Canada, and BEME Collaborations. We also hand searched reference lists and the first 10 pages of Google Scholar results to identify relevant articles. The key search terms included: CBME; Competence by Design; Milestones Project; Triple C; Competency-Based Medical Education; Outcome-Based Education with variations to keywords using truncation, wildcards, and use of ‘OR’ and ‘AND’ Boolean operators (see Supplementary Appendix A for search strategy). The comprehensive literature search was completed on 29 April 2020.

3단계: 연구 선정
Phase 3: Study selection

5명의 검토자(DMH, LB 시간 제한 기여, ZL, GNP, MEA)가 공유 엑셀 스프레드시트의 포함 양식 템플릿을 사용하여 식별된 모든 논문의 제목과 초록을 이중으로 선별하는 데 참여했습니다. CBME의 개념, 철학 및/또는 구현에 관한 내용을 제공하는 출판물도 포함했으며, 5명의 검토자 모두 해당 논문의 전문을 읽고 검토 대상에 포함되는지 확인했습니다. 불일치는 토론과 팀 합의를 통해 해결했습니다. 관련 연구를 선정하기 위해 설명된 절차는 체계적 문헌고찰 및 범위 검토를 위한 메타분석 확장(PRISMA-ScR)의 우선 보고 항목을 준수합니다(Tricco 외. 2018). 
Five reviewers (DMH, LB-time-limited contribution, ZL, GNP, MEA) participated in dual screening of titles and abstracts of all identified articles using an inclusion form template in shared Excel spreadsheets. We included publications that provided content about the concept, philosophy and/or implementation of CBME; all five reviewers read full text versions of these articles and confirmed inclusion in the review. Discrepancies were resolved through discussion and team consensus. The procedures described to select relevant studies adheres to the Preferred Reporting Items for Systematic Reviews and Meta-Analyses Extension for Scoping Reviews (PRISMA-ScR) (Tricco et al. 2018).

4단계: 데이터 추출 및 매핑
Phase 4: Extracting and mapping data

CBME에 대한 문헌적 대화를 포착하는 이 범위 검토의 목적을 달성하기 위해, 우리는 차트 작성 과정에서 인식된 장점, 인식된 단점, 인식된 도전/불확실성/회의론, CBME와 관련된 권고사항에 대한 정보를 수집했습니다. 검토자들은 개별 논문의 맥락과 저자가 어떻게 주장을 펼쳤는지에 따라 도전 과제와 인지된 단점 간의 차이에 대해 판단했습니다. 5명의 리뷰어(DMH, LB 시간 제한 기여, ZL, GNP, MEA) 모두 50개의 논문에서 관련 데이터를 중복 추출하여 데이터의 정확성을 확인한 후, 데이터를 독립적으로 추출하여 앞서 언급한 범주로 분류했습니다. DMH는 나머지 추출에 대해 무작위 감사를 실시하여 정확성을 확인했습니다. 또한 매핑에는 저자, 연도, 제1저자 국가, 학술지, 논문 유형, 문학 대화의 전반적인 입장(긍정, 부정, 혼합)도 포함되었습니다.  
To address the purpose of this scoping review to capture the literary conversations about CBME, we collated information in the charting process about perceived advantages, perceived disadvantages, perceived challenges/uncertainties/skepticism, and recommendations associated with CBME. Reviewers made a judgement regarding the differences between challenges and perceived disadvantages based on the context of the individual article and how the authors made their argument. All five reviewers (DMH, LB-time limited contribution, ZL, GNP, MEA) extracted relevant data from 50 articles in duplicate to confirm data accuracy followed by independent extraction and categorization of the data into the aforementioned categories. DMH conducted random audits of remaining extractions to confirm accuracy. Mapping also included the author, year, country of first author, journal, article type, and overall position (positive, negative, mixed) of the literary conversation.

이 검토의 방법은 행동과 개선을 촉진하기 위해 관련성 있고 유용한 정보를 제공하는 것을 목표로 구성주의/해석주의 및 실증주의 연구 전통과 방법을 모두 통합하는 실용주의의 철학적 전통에 뿌리를 두고 있습니다. 
The methods of this review are rooted in the philosophical tradition of pragmatism, which integrates both constructivist/interpretivist and positivist research traditions and methods with the aim of providing relevant and useful information to promote action and improvement.

387개의 기록에서 추출한 방대한 양의 데이터를 독자를 위한 실용적인 형태로 통합하기 위해 세 명의 검토자(DMH, ZL, IZ)는 주제별 분석(Braun and Clarke 2014, Kiger and Varpio 2020)을 사용하여 기술된 장점, 단점 및 권장 사항을 종합했습니다. 세 명의 검토자 모두 합의에 도달할 때까지 주제에 대해 여러 차례 반복적으로 논의했습니다. 도전 과제/불확실성/회의론은 이 리뷰의 토론 섹션에 10년별로 요약되어 있습니다. 
To consolidate the large amount of data extracted from 387 records into a practical form for readers, three reviewers (DMH, ZL, IZ) used thematic analysis (Braun and Clarke 2014; Kiger and Varpio 2020) to synthesize the described advantages, disadvantages, and recommendations. All three reviewers discussed multiple iterations of the themes until they reached consensus. The challenges/uncertainties/skepticisms are summarized by decade and in the discussion section of this review.

마지막으로, 세 명의 검토자(DMH, ZL, IZ)는 주제 분석에서 생성된 각 주제에 대해 추출된 뒷받침 사례에 대한 내용 분석(Hsieh and Shannon 2005)을 사용하여 시간에 따른 문학적 대화의 빈도를 나타내는 히트 맵을 만들었습니다. 
Finally, the three reviewers (DMH, ZL, IZ) used content analysis (Hsieh and Shannon 2005) of supporting examples extracted for each of the themes generated from the thematic analysis to create a heat map to depict the frequencies of literary conversations over time.

5단계: 결과 요약 및 보고
Phase 5: Summarizing and reporting findings

이 검토의 마지막 단계는 연구 질문과 전반적인 목표를 해결하기 위해 결과를 요약하고 보고하는 것입니다. 
The final phase of this review entailed summarizing and reporting the findings to address the research question and overall objectives.

결과
Findings

설명적 결과
Descriptive results

검색 전략을 통해 중복을 제외한 5757개의 논문이 검색되었습니다. 총 387개의 논문이 이 검토의 포함 기준을 충족했습니다(그림 1). 무작위로 선정된 368개의 데이터 추출 항목(5번째 항목마다) 중 올바른 추출 수를 기준으로 계산한 DMH, ZL, GNP, MEA의 평가자 간 신뢰도는 0.85~0.95 범위였습니다.  
The search strategy yielded 5757 articles, excluding duplicates. A total of 387 articles met the inclusion criteria for this review (Figure 1). Interrater reliability among DMH, ZL, GNP, and MEA ranged from 0.85 to 0.95 calculated by the number of correct extractions out of a random selection of 368 data extraction entries (every fifth entry).

연도별로는 1978년에서 1989년 사이에 1.0%(n = 4), 1990년에서 1999년 사이에 1.3%(n = 5), 2000년에서 2009년 사이에 16.3%(n = 63), 2010년에서 2019년 사이에 74.4%(n = 288), 2020년에서 2020년 4월 29일까지 7.0%(n = 27)가 출판되었습니다(2021년 출판 논문의 프리프린트 포함)(보충 부록 B). 포함된 출판물 중 72.1%(n = 279)는 북미, 17.1%(n = 66) 유럽, 7.0%(n = 27) 아시아, 2.6%(n = 10) 호주/오세아니아, 0.5%(n = 2) 아프리카의 저자가 주도했으며, 0.8%(n = 3)의 논문은 저자 국가가 표시되지 않았습니다(그림 2). 
By decade, 1.0% (n = 4) were published between 1978 and 1989, 1.3% (n = 5) between 1990 and 1999, 16.3% (n = 63) between 2000 and 2009, 74.4% (n = 288) between 2010 and 2019, and 7.0% (n = 27) in 2020 through 29th April 2020 (including preprints of articles published in 2021) (Supplementary Appendix B). Of the included publications, 72.1% (n = 279) were led by an author from North America, 17.1% (n = 66) from Europe, 7.0% (n = 27) from Asia, 2.6% (n = 10) from Australia/Oceania, 0.5% (n = 2) from Africa, and 0.8% (n = 3) of articles did not report the author’s country (Figure 2).

 

포함된 387건의 논문 중 67.7%(n = 262건)는 관점/논평 논문, 25.3%(n = 98건)는 평가 연구, 7.0%(n = 27건)는 프로그램 설명 논문이었습니다(보충 부록 B). 또한 78.3%(n = 303)는 CBME에 대한 여러 문학적 대화(즉, 긍정, 부정, 도전, 불확실성, 회의론의 조합)와 관련된 요소를 포함하고 있었고, 11.6%(n = 45)는 긍정적인 문학적 대화를, 9.0%(n = 35)는 부정적인 문학적 대화를, 1.0%(n = 4)는 입장을 나타내는 내용 없이 CBME에 대한 설명을 제공했습니다(보충 부록 B). 
Of the 387 included publications, 67.7% (n = 262) were perspective/commentary publications, 25.3% (n = 98) were evaluation studies, and 7.0% (n = 27) were program descriptions (Supplementary Appendix B). Additionally, 78.3% (n = 303) contained components relevant to multiple literary conversations about CBME (i.e. a combination of positive, negative, challenges, uncertainties, and skepticisms), 11.6% (n = 45) contained positive literary conversations, 9.0% (n = 35) contained negative literary conversations, and 1.0% (n = 4) provided a description of CBME without content indicating a position (Supplementary Appendix B).

출판물은 교육 연속체 중 어디에 중점을 두었는지에 따라 다양했습니다. 학부 수준에서는 5.4%(n = 21)의 출판물이 학습자, 0.5%(n = 2)의 출판물이 교수진, 4.1%(n = 16)의 출판물이 학습자와 교수진 모두에 초점을 맞추었습니다. 대학원 수준에서는 학습자에 초점을 맞춘 출판물이 16.8%(n = 65), 교수진에 초점을 맞춘 출판물이 4.9%(n = 19), 학습자와 교수진 모두에 초점을 맞춘 출판물이 26.6%(n = 103)를 차지했습니다. 평생 직업 교육 수준에 초점을 맞춘 출판물은 4.1%(n = 16)에 불과했습니다. 
The publications varied in where they focused on the educational continuum. At the undergraduate level, 5.4% (n = 21) of publications focused on learners, 0.5% (n = 2) on faculty, and 4.1% (n = 16) on both learners and faculty. At the postgraduate level, 16.8% (n = 65) of publications focused on learners, 4.9% (n = 19) on faculty, and 26.6% (n = 103) on both learners and faculty. Only 4.1% (n = 16) of publications specifically focused on the continuing professional education level.

여러 단계의 연속체에 걸쳐 초점을 맞추거나 한 단계에서 다음 단계로의 전환을 조사한 출판물도 있었습니다: 12.1%(n = 47)는 의과대학 학부에서 대학원 교육으로 이어지는 연속체에 있는 학습자에 초점을 맞추었고, 0.3%(n = 1)는 대학원 의학 교육에서 지속적인 전문성 개발로 이어지는 연속체에, 5.2%(n = 20)는 학부에서 지속적인 전문성 교육으로 이어지는 전체 연속체에 있는 학습자에 초점을 맞췄습니다. 마지막으로, 출판물의 19.9%(n = 77)는 특정 학습자 또는 교수진 집단을 보고하지 않았습니다(보충 부록 B).  
Several publications focused either across multiple levels of the continuum or examined transition from one level to the next: 12.1% (n = 47) focused on learners on the continuum from undergraduate medical school to postgraduate training, 0.3% (n = 1) on the continuum from postgraduate medical education to continuing professional development, and 5.2% (n = 20) on learners across the full continuum from undergraduate to continuing professional education. Finally, 19.9% (n = 77) of the publication did not report a specific population of learners or faculty (Supplementary Appendix B).

의미 도출을 촉진하기 위한 문학적 대화 매핑
Mapping the literary conversations to facilitate meaning making

주제별 분석 결과를 사용하여 문학적 대화를 10년 단위로 매핑하고, 각 10년의 글에 나타난 주제의 특징을 요약했습니다. 
We mapped the literary conversations decade by decade using findings from the thematic analysis, and summarized characteristics of themes in each decade’s articles.

문학 대화의 주제별 분석
Thematic analysis of literary conversations

세 명의 검토자(DMH, ZL, IZ)는 확인된 게시물의 콘텐츠에서 다음과 같이 인식된 장점, 인식된 단점 및 권장 사항과 같은 중요한 범주를 식별했습니다. 이러한 주제는 저자, 연도, 제1저자 국가, 학술지, 논문 유형, 문학 대화의 전반적인 입장(긍정적, 부정적, 혼합)을 포함하는 표에 제시되어 있습니다(부록 B). 또한 주제와 예시에 대한 개요 요약이 표 2에 나와 있습니다. CBME 문학 대화의 주제는 다음과 같습니다:
Three reviewers (DMH, ZL, IZ) identified overarching categories within the content of the identified publications as follows: perceived advantages, perceived disadvantages, and recommendations. The themes are presented in a table, which also includes the author, year, country of first author, journal, article type, and overall position (positive, negative, mixed) of the literary conversation (Supplementary Appendix B). Additionally, an overview summary of the themes and exemplars is presented in Table 2. Themes of CBME literary conversations include:

 

콘텐츠 분석을 통해 8가지 주제(신뢰성, 적용, 커뮤니티 영향, 학습자 영향, 평가, 교육 개발, 조직 구조, 사회적 영향)를 10년별, 입장별(예: 인지된 장점, 인지된 단점, 추천)로 문학적 대화를 표시하는 히트 맵으로 정리했습니다. 이 시각적 그림은 CBME에 대한 토론에서 주제를 정량화한 것으로, 음영 정도에 따라 빈도를 나타냅니다(즉, 음영이 진할수록 빈도가 높음을 나타냄)(그림 3). 포함된 기사의 콘텐츠 예시는 아래 섹션에 제시되어 있으며, 이 섹션에서는 문학적 대화에 대해 10년별로 논의합니다. 문학적 대화의 전체 목록은 부록 B에서 확인할 수 있으며, 10년별 문학적 대화의 세부 표는 부록 C에서 확인할 수 있습니다. 
Through content analysis, the eight themes (credibility, application, community influence, learner impact, assessment, educational developments, organizational structures, and societal impacts) were organized into a heat map displaying literary conversations by decade and by position (i.e. perceived advantage, perceived disadvantage, or recommendation). This visual illustration depicts the quantification of themes in the discussions about CBME and illustrates the frequency based on degree of shading (i.e. darker shading indicates higher frequency (Figure 3). Exemplars of the content from the included articles are presented in the sections further below, where we discuss the literary conversations by decade. A comprehensive listing of the literary conversations is found in Supplementary Appendix B, while detailed tables of the literary conversations by decade are in Supplementary Appendix C.

10년별 문학적 대화의 하이라이트는 아래에 제시되어 있습니다. 각 10년 동안의 주제별 분석 결과는 인식된 장점, 인식된 단점 및 권장 사항별로 정리되어 있습니다(그림 3). 각 10년의 문헌에서 나타난 도전 과제 및/또는 불확실성을 그룹으로 설명합니다. 
Highlights of the literary conversations by decade are presented below. Within each decade, findings from the thematic analysis are organized by perceived advantages, perceived disadvantages, and recommendations (Figure 3). We describe challenges and/or uncertainties from the literature in each decade as a group.

1978년부터 1989년까지의 CBME 문헌 대화(그림 3, 보충 부록 C, 표 1)
CBME literary conversations from 1978 to 1989 (Figure 3Supplementary Appendix C, Table 1)

1978년부터 1989년까지 CBME에 대해 인지된 장점(n = 21, 45.7%), 인지된 단점(n = 11, 23.9%), 권장 사항(n = 14, 30.4%)이라는 8가지 주제를 중심으로 총 46건의 토론을 확인했습니다. 1978년부터 1989년까지 발표된 논문에서 나타난 도전/불확실성/회의론은 주로 의학교육에 대한 새로운 접근 방식을 채택하는 데 있어 [변화 관리 문제]에 관한 것이었습니다.
We identified a total of 46 discussions around the eight identified themes about CBME from 1978 to 1989: perceived advantages (n = 21, 45.7%), perceived disadvantages (n = 11, 23.9%), and recommendations (n = 14, 30.4%). Challenges/uncertainties/skepticism in the publications from 1978 to 1989 were primarily about change management issues in adopting a new approach to medical education.

인식된 이점
Perceived advantages

1978년부터 1989년까지 문헌적 대화는 [주로 효율적이고 비용 효율적인 교육]과 같이 CBME를 시행함으로써 얻을 수 있는 교육 발전의 이점에 대한 인식에 초점을 맞추었습니다(n = 9, 42.9%). 모든 교육생이 숙달에 도달할 수 있다는 [경험적으로 검증된 원칙]과 같은 [신뢰성](n = 4, 19.0%)과 최종 결정에 앞서 어려움을 겪는 교육생을 식별하는 [형성 평가의 역할]과 같은 [평가](n = 4, 19.0%)가 두 가지 두드러진 추가 주제였습니다. 마지막으로 눈에 띄지는 않지만 테스트할 수 있는 CBME의 활동과 같은 [적용 주제](n = 2, 9.5%)와 투명한 기대치와 개인화된 학습으로 인해 교육생에게 CBME의 매력과 같은 [학습자 영향](n = 2, 9.5%)를 확인했습니다. 주목할 만한 점은 [커뮤니티 영향력, 조직 구조 또는 사회적 영향]과 관련하여 인지된 장점에 대한 주제를 담은 대화가 없었다는 점입니다.
From 1978 to 1989, literary conversations focused predominantly (n = 9, 42.9%) on the perceived advantages of educational developments that could result from implementing CBME, such as efficient and cost-effective training. Two prominent additional themes were credibility (n = 4, 19.0%), such as the empirically validated principle that all trainees are capable of reaching mastery, and assessment (n = 4, 19.0%), such as the role of formative assessment in identifying struggling trainees prior to summative decisions. Lastly, and less prominently, we identified themes of application (n = 2, 9.5%), such as the activities of CBME that could be tested, and learner impact (n = 2, 9.5%), such as the appeal of CBME to trainees because of personalized learning with transparent expectations. Notably, there were no literary conversations capturing themes of perceived advantages associated with community influence, organizational structures, or societal impacts.

인식된 단점
Perceived disadvantages

이 10년 동안 트위터에서는 문학적 대화에 나타난 CBME의 네 가지 주요 단점을 확인했습니다.

  • 첫 번째 단점으로 인식된 것은 교육적 발달(n = 4, 36.4%)로, CBME 교육 모델이 '역량'에 초점을 맞추기 때문에 우수성보다는 평범함을 키울 수 있다는 우려가 제기되었습니다.
  • CBME의 신뢰성(n = 4, 36.4%)에 대한 우려도 확인되었는데, CBME가 믿음, 근거 없는 의견, 제한된 개인 경험에 의해 주도된다는 인식이 표출되었습니다.
  • 역량이 어떻게 정의되는지 또는 어떤 역량이 필수적인지에 대한 [공유된 합의]가 없는 등 커뮤니티 영향력과 관련된 인식된 단점(n = 2, 18.2%)과
  • 의학교육 혁신 참여에 대한 [제한된 보상]과 같은 조직 구조(n = 1, 9.1%)도 이 기간 동안 포착되었습니다.
  • 그러나 적용 주제, 학습자 영향, 평가 및 사회적 영향과 관련된 단점은 다루지 않은 논문이 포함되었습니다.

During this decade, we identified four main perceived disadvantages of CBME that appeared in literary conversations.

  • The first perceived disadvantage focused on educational development (n = 4, 36.4%) where concerns were raised that the CBME training model would foster mediocrity rather than excellence (due to a focus on ‘competence’).
  • Concerns were also identified in the theme of credibility of CBME (n = 4, 36.4%), where perceptions were expressed of CBME being driven by faith, unsupported opinions, and limited personal experience.
  • Perceived disadvantages associated with
    • community influence (n = 2, 18.2%), such as no shared agreement about how competency is defined or which competencies are essential, and
    • organizational structures (n = 1, 9.1%), such as limited reward for engaging in medical education innovation were also captured during this time period.
  • However, included articles did not address disadvantages related to themes of application, learner impact, assessment, and societal impacts.

권장 사항
Recommendations

포함된 문서에 포함된 권장 사항은 이 기간 동안 6가지 주제를 다루었습니다.

  • 여기에는 변화를 주도하는 의과대학 리더의 책임과 같은 커뮤니티 영향력 강화(n = 4, 28.8%),
  • 커리큘럼 발전과 혁신을 주도하는 사람들을 인정하고 보상하는 등 조직 구조를 통한 CBME 지원 보장(n = 3, 21.4%)이 포함되었습니다.
  • 변화 이니셔티브에 대한 투자를 촉진하기 위한 교수진 개발의 필요성과 같은 적용(n = 2, 14.3%)과
  • 성장의 여지를 허용하고 부담을 줄이기 위해 평가 간격을 두는 것과 같은 평가(n = 2, 14.3%)가 확인된 기타 주제도 포함되었습니다.
  • 분석에서 확인된 최종 주제는 CBME로 전환하는 동안 연수생과 교수진의 심리적 필요를 지원하는 것과 같은 교육 개발(n = 2, 14.3%)과
  • 연수생 역량에 대한 명확한 그림을 포착하기 위해 다양한 출처에서 데이터를 수집해야 하는 것과 같은 신뢰성(n = 1, 7.1%)이었습니다.

Recommendations in the included articles addressed six themes during this time period. These included

  • enhancing community influence (n = 4, 28.8%), such as the responsibility of medical school leaders to drive the change, and
  • ensuring support for CBME through organizational structures (n = 3, 21.4%), including recognizing and rewarding those driving curricular advancement and innovation.
  • Other themes that were identified included
    • application (n = 2; 14.3%), such as the need for faculty development to foster investment in the change initiative, and
    • assessment (n = 2, 14.3%), such as spacing out assessments to allow room for growth and reducing burden.
  • The final themes identified in the analysis were
    • educational developments (n = 2, 14.3%), such as supporting the psychological needs of trainees and faculty during the transition to CBME, and
    • credibility (n = 1, 7.1%), such as the need to collect data from diverse sources to capture a clear picture of trainee competence.

도전 과제/불확실성/회의론
Challenges/uncertainties/skepticism

[변화 관리 문제]는 1978년부터 1989년까지 네 권의 출판물에서 모두 다루었던 주요 과제였습니다. 저자들은 학습자와 교육자가 맡아야 할 새로운 역할과 이러한 역할이 어떻게 전달되고 지원될 수 있는지를 파악했습니다. 특히 모든 저자들은 숙달, 형성 평가, 규범 기반 평가가 아닌 기준 사용과 같은 [CBME의 요소에 대한 교육자의 태도를 바꾸는 것이 어렵다]는 점에 대해 우려를 표명했습니다. 또한 적절한 지원(교수진 개발, 학습자 참여, 새로운 커리큘럼의 개선을 유도하기 위한 프로그램 평가 프로세스) 없이 [변화가 너무 빠르게 진행될 수 있다]는 잠재적 문제도 제기했습니다. 마지막 불확실성은 학습 목표가 명확하고 명시적인지 확인하는 것과는 반대로 [개별적인 개별 역량을 식별할 수 있는지 또는 식별해야 하는지]에 관한 것이었습니다.
Change management issues were the primary challenge addressed in all four included publications from 1978 to 1989. Authors identified the new roles that would need to assumed by learners and educators, and how these roles would be communicated and supported. In particular, all authors expressed concern about the difficulty in changing educators’ attitudes about such elements of CBME as mastery, formative assessment, and using criterion rather than norm-based assessments. A key challenge was the potential problem of change happening too fast, without adequate support (faculty development, engaging learners, program evaluation processes to guide refinement of new curriculum). The final uncertainty was about whether individual discrete competencies could or should be identified as opposed to ensuring that learning objectives were clear and explicit.

1990년부터 1999년까지 CBME 문학적 대화(그림 3, 보충 부록 C, 표 2)
CBME literary conversations from 1990 to 1999 (Figure 3Supplementary Appendix C, Table 2)

1990년부터 1999년까지 포함된 기사에서 8가지 주제에 대한 49개의 토론을 확인했습니다. 이러한 대화는 인지된 장점(n = 25, 51.0%), 인지된 단점(n = 5, 10.2%), 권장 사항(n = 19, 38.8%)에 분포되어 있었습니다. 이 10년간의 문헌에 포함된 과제/불확실성/회의론과 관련된 대화는 CBME의 [기본 가정]과 CBME를 [채택해야 하는지 여부]에 초점을 맞추었습니다.
In the included articles from the decade 1990–1999, we identified 49 discussions around the eight identified themes. These conversations were distributed among perceived advantages (n = 25, 51.0%), perceived disadvantages (n = 5, 10.2%), and recommendations (n = 19, 38.8%). Conversations related to challenges/uncertainties/skepticism in the included literature from this decade focused on the underlying assumptions of CBME, as well as whether CBME needed to be adopted.

인식된 이점
Perceived advantages

1990년부터 1999년까지 CBME의 인지된 장점에 초점을 맞춘 문헌은

  • 교수진과 연수생 간의 사명/공통 목표 공유에 대한 논의를 포함하여 학습자 영향(n = 7, 28.0%)과 관련된 내용이 주를 이루었습니다.
  • 교육적 발달(n = 6, 24.0%)에서는 암기식 학습 보다 직장 기반 평가의 진정성 등의 주제를 다룬 문학적 대화가 있었습니다.
  • 신뢰성(n = 4, 16.0%)에서는 교육적, 정치적, 직업적, 윤리적으로 CBME를 받아들이는 것에 대한 논의가 있었습니다.
  • 커뮤니티 영향력(n = 4, 16.0%)은 다양한 이해관계자(예: 커뮤니티, 환자, 고용주 및 기타 직업군)가 교육과정 개발에 참여하는 것에 대한 문학적 대화에서 확인되었습니다.
  • 이 기간 동안 문학적 대화에서 확인된 다른 주제는
    • 교육 결과에 초점을 맞추는 것과 같은 CBME 적용(n = 2, 8.0%),
    • 교육생 성과에 대한 어려운 대화를 역량에 도달하기 위한 성장 기회로 재구성하는 것과 같은 평가(n = 1, 4.0%),
    • CBME 관행 및 활동의 채택을 이끄는 제도적 가치와 같은 조직 구조(n = 1, 4.0%)였습니다.
  • 이 기간 동안 CBME의 사회적 영향에 대한 인식된 장점은 논의되지 않았습니다.

From 1990 to 1999,

  • predominant literary conversations focused on perceived advantages of CBME were associated with learner impact (n = 7, 28.0%), including discussions of shared mission/common goals between faculty and trainees.
  • For the Educational Developments theme (n = 6, 24.0%), literary conversations addressed topics like the authenticity of workplace-based assessments over rote learning.
  • Credibility theme (n = 4, 16.0%) discussions included the acceptance of CBME educationally, politically, professionally, and ethically.
  • The theme of Community Influence (n = 4, 16.0%) was identified in literary conversations about the engagement of diverse stakeholders (i.e. community, patients, employers, and other professions) in curriculum development.
  • Other themes identified in the literary conversations in this time period were
    • Application of CBME (n = 2, 8.0%), such as focusing on the outcomes of training,
    • Assessment (n = 1, 4.0%), such as reframing difficult conversations about trainee performance into growth opportunities to reach competence, and
    • Organizational Structures (n = 1, 4.0%), such as institutional values driving the adoption of CBME practices and activities.
  • No perceived advantages of CBME on Societal Impacts were discussed during this time period.

인식된 단점
Perceived disadvantages

이 10년 동안의 문헌적 대화에서는

  • 이전 10년 동안 확인된 교육 모델로서의 CBME의 신뢰성(n = 2, 40.0%)과 관련된 인식된 단점에 대한 논의가 계속되고 있음을 보여주었습니다. 특히, 미리 결정된 학습 결과가 학습자가 발견하고 자발적으로 탐구할 기회를 제한할 수 있다는 우려가 제기되었습니다.
  • 이 10년간의 개별 기사에는 다음 주제에 부합하는 CBME의 단점에 대한 논의가 포함되어 있습니다:
    • CBME 적용(n = 1, 20.0%): 식별된 역량의 수가 방대하여 비현실적으로 결과에 집중할 수 있다는 점,
    • 커뮤니티 영향력(n = 1, 20.0%): 각 전문 분야에 필요한 역량에 대한 합의에 도달하기 어려워 CBME를 시행하지 못한 과거의 노력,
    • 교육적 발달(n = 1, 20.0%): 미리 정해진 역량 개발을 통해 학습에 제약이 있다는 점 등입니다.
  • 특히 이 기간에 포함된 논문에서는 학습자 영향, 평가, 조직 구조 또는 사회적 영향과 관련하여 인지된 단점에 대해서는 논의하지 않았습니다.

Literary conversations during this decade demonstrated

  • a continuation of the discussion of perceived disadvantages associated with the Credibility of CBME as a training model (n = 2, 40.0%) that were identified for the preceding decade. Specifically, concerns were raised that pre-determined outcomes of learning may limit opportunities for learners to engage in discovery and spontaneous inquiry.
  • Individual articles in this decade included conversations about perceived disadvantages of CBME that aligned with the following themes:
    • Application of CBME (n = 1, 20.0%), such as the impractical focus on outcomes because of the vast number of competencies identified;
    • Community Influence (n = 1, 20.0%), such as past efforts failing to implement CBME because of difficulties reaching consensus on necessary competencies for each specialty, and;
    • Educational Developments (n = 1, 20.0%), such as the constrictions placed on learning through the development of pre-determined competencies.
  • Notably, the included articles in this time period did not discuss perceived disadvantages associated with learner impact, assessment, organizational structures, or societal impacts.

권장 사항
Recommendations

이 기간의 권장 사항은 [역량 개발 시 다양한 이해관계자 참여]와 같은 커뮤니티 영향력(n = 4, 21.1%)과 [기준 참조 시스템 채택]과 같은 평가(n = 4, 21.1%)에 중점을 두었습니다. 교육적 발달(n = 4, 21.1%) 주제에서는 [학습자 포트폴리오 개발, 교육에 대한 학습자 소유권 등]이 권장 사항으로 포함되었습니다. 추가 권장 사항으로는 커리큘럼 개발을 안내하는 교육 성과와 같은 적용(n = 3, 15.8%) 테마와 의사 결정을 지원하는 필수 역량에 대한 증거 기반 개발과 같은 신뢰성(n = 2, 10.5%) 테마에 대한 제안이 포함되었습니다. 마지막으로, 이번 10년간의 문학적 대화의 일부 권고사항은 학습자 영향(n = 2, 10.5%)이라는 주제와 일치하며, CBME가 성공하기 위해서는 프로그램과 학교가 교육생에게 적절한 자원을 제공해야 한다는 제안을 포함했습니다.
Recommendations for this time period centered on Community Influence (n = 4, 21.1%), such as engaging diverse stakeholders when developing competencies, and Assessment (n = 4, 21.1%), such as adopting criterion-referenced systems. For the theme of Educational Developments (n = 4, 21.1%), recommendations included development of a learner portfolio and learner ownership over training. Additional recommendations included suggestions in the themes of Application (n = 3, 15.8%), such as educational outcomes guiding curriculum developments, and Credibility (n = 2, 10.5%), such as developing an evidence-base about essential competencies to support decisions. Finally, some of the recommendations in the literary conversations of this decade aligned with the theme of Learner Impact (n = 2, 10.5%), and included the suggestion that programs and schools would need to provide adequate resources to trainees in order for CBME to be successful.

도전 과제/불확실성/회의론
Challenges/uncertainties/skepticism

이 10년간 포함된 5개의 출판물은 모두 CBME 자체에 대한 기본 가정과 관련된 불확실성에 대한 문학적 논의에 기여했습니다: CBME는 개념화하기는 쉽지만 정의하기는 어렵다고 여겨졌으며, 특히 이해관계자 그룹에 따라 정의된 성과 목표가 다를 때 더욱 그러했습니다. 또한 CBME 도입의 필요성에 대한 불확실성이 제기되어 기존 커리큘럼에서 변화가 필요하다는 주장에 이의를 제기했습니다. 또 다른 논의에서는 역량이나 결과에 초점을 맞추면 임상 및 과학 지식이 저평가되는 결과를 초래할 수 있는지에 대한 논의도 있었습니다. 마지막으로, 역량 프레임워크와 평가 시스템 및 접근법을 개발하기 위해 교수진이 여러 가지 작업을 수행해야 하는 부담이 CBME의 주요 과제로 지적되었습니다.
All five included publications for this decade contributed to literary conversations about uncertainties related to underlying assumptions about CBME itself: CBME was seen as easy to conceptualize, but difficult to define – especially when defined outcomes objectives differed by stakeholder groups. Uncertainty was also addressed about the need to adopt CBME, challenging the assertion that a change from the existing curriculum was needed. Another conversation addressed whether a focus on competencies or outcomes would result in the undervaluing of clinical and scientific knowledge. Finally, the burden on faculty in taking on multiple tasks to develop competency frameworks and assessment systems and approaches was expressed as a major challenge to CBME.

2000년부터 2009년까지의 CBME 관련 문헌(그림 3, 보충 부록 C, 표 3)
CBME literary conversations from 2000 to 2009 (Figure 3Supplementary Appendix C, Table 3)

2000년부터 2009년까지 포함된 논문을 분석한 결과, 인식된 장점(n = 53, 25.1%), 인식된 단점(n = 79, 37.4%), 권장 사항(n = 79, 37.4%)을 포함하여 8개의 식별된 주제에 대한 211건의 논의가 도출되었습니다. 이 10년간의 문헌적 논의에서 제기된 도전/불확실성/회의론은 CBME가 '효과가 있다'는 [증거의 필요성]과 CBME 실행의 [로지스틱스]에 초점을 맞추었습니다.
Analysis of the included articles from 2000 to 2009 yielded 211 discussions around the eight identified themes, including perceived advantages (n = 53, 25.1%), perceived disadvantages (n = 79, 37.4%), and recommendations (n = 79, 37.4%). Challenges/uncertainties/skepticism in the literary conversations for this decade focused on the need for evidence that CBME ‘works’ as well as the logistics of implementing CBME.

인식된 이점
Perceived advantages

이 기간 동안 인식된 장점은 8가지 주제 모두에 해당합니다.

  • 가장 눈에 띄는 주제는 교육적 발달(n = 13, 24.5%)로, 저자들이 CBME 모델의 교육 효율성에 대한 예비 정보를 논의한 논문이 포함되었습니다.
  • 저자들이 역량 평가에 다양한 의료 전문가가 참여하는 것에 대해 긍정적으로 언급한 평가(n = 8, 15.1%)와
  • CBME가 시간 및 정적 지식 기반 접근법을 넘어서는 논리적 단계로 자리매김한 신뢰성(n = 8, 15.1%) 주제에서도 인식된 이점이 확인되었습니다.
  • 이 시기에는 사회적 영향이라는 주제와 관련된 콘텐츠가 처음으로 등장했습니다(n = 8, 15.1%). 이 주제와 관련된 문학적 대화의 예로는 의료 교육은 대중에게 책임을 져야 하며, CBME는 이를 보장할 수 있는 수련의 역량 기록을 생성할 것이라는 제안이 있었습니다.
  • 이 10년간의 문학적 대화에서 추가로 확인된 주제는
    • 조직 구조(n = 6, 11.3%)로, 일반적으로 코칭을 위한 최적의 기회가 부족한 상황에서 CBME가 교수진의 관심을 확보하는 것으로 간주되었으며,
    • 의학교육의 질을 개선하기 위한 도구로서 CBME의 적용(n = 4, 7.5%) 및 결과에 대한 논의,
    • 하위 전문 교육 및 연구 경험의 기회를 통한 효율적인 교육 촉진 등 학습자 영향(n = 4, 7.5%)에 대한 논의가 있었습니다.
    • 마지막으로, 교육 이외의 전문 분야를 포함한 광범위하고 다양한 이해관계자 그룹의 참여와 같은 지역사회 영향력(n = 2, 3.8%)을 주제로 한 대화가 확인되었습니다.

Perceived advantages during this time period addressed all eight themes.

  • The most prominent theme was educational developments (n = 13, 24.5%) and included articles where authors discussed preliminary information about the efficiency of training in the CBME model.
  • Perceived advantages were also identified for the themes of
    • assessment (n = 8, 15.1%) where authors spoke positively of the involvement of diverse healthcare professionals in the assessment of competence, and
    • credibility (n = 8, 15.1%) where CBME was positioned as a logical step beyond time- and static knowledge-based approaches.
  • In this time period, content associated with the theme of societal impacts appeared for the first time (n = 8, 15.1%). An example of literary conversations in this theme was the proposition that medical training needed to be accountable to the public and CBME would produce a record of trainee competence that could provide those assurances.
  • Additional themes identified in the literary conversations in this decade were
    • organizational structures (n = 6, 11.3%), where CBME was seen as securing faculty attention within a context that is typically fraught with suboptimal opportunities for coaching;
    • discussions of application (n = 4, 7.5%) of CBME and outcomes as tools to improve the quality of medical education; and
    • learner impacts (n = 4, 7.5%), such as facilitating efficient training with opportunities for subspecialty training and research experience.
    • Finally, conversations were identified that addressed the theme of community influence (n = 2, 3.8%), such as engaging broad and diverse stakeholder groups, including those specializing in areas other than education.

인식된 단점
Perceived disadvantages

지난 수십 년 동안과 달리, 2000년부터 2009년까지 포함된 문헌의 문학적 대화에서는 CBME의 단점에 대한 인식이 지배적이었습니다.

  • 저자들은 변화의 원동력이 학습자 중심이 아니며, 협력적인 인력보다는 경쟁적인 인력을 만드는 데 초점을 맞추고 있다고 주장한 조직 구조(n = 17, 21.5%)와
  • CBME가 의사의 역량 부족 문제에 대한 해결책을 찾기 위한 결과라기보다는 직업 훈련의 발전으로 인한 결과라고 본 신뢰성(n = 15, 19.0%)이 문학 대화에서 두드러진 주제로 나타났습니다.
  • 또한 커뮤니티 영향력(n = 15, 19.0%)을 주제로 한 대화에서는 교수진이 교육과 함께 CBME 교육 모델에 대해 배워야 할 때 워크플로와 시스템의 혼란에 대해 논의했으며,
  • 교육 발전(n = 9, 11.4%)에서는 변화를 천천히 받아들이는 위계적인 의료 문화에 대한 도전에 대한 논의가 있었습니다.
  • 적용(n = 8, 10.1%)을 주제로 저자들은 CBME의 실제 실행과 그에 따른 결과에 대한 증거 부족에 대해 논의했습니다.
  • 또한 평가(n = 8, 10.1%)에 대한 대화에는 역량 체크리스트 사용이 학습 동기를 떨어뜨리고 교육생이 비판적으로 사고하고 뛰어난 능력을 발휘하는 데 방해가 될 수 있다는 우려가 포함되었습니다.
  • 학습자 영향(n = 6, 7.6%)에 대한 대화에서는 CBME가 수련의의 전문적 정체성 개발을 저해할 것이라는 우려와 같은 학습자 영향에 대한 새로운 우려와
  • CBME 활동(평가 및 피드백 등)에 필요한 시간이 직접적인 환자 진료에서 빼앗길 것이라는 우려와 같은 사회적 영향(n = 1, 1.3%)에 대한 대화가 나왔습니다.

In contrast to previous decades, perceived disadvantages of CBME were predominant in the literary conversations in the included articles from 2000 to 2009. Prominent themes identified in the literary conversations included

  • organizational structures (n = 17, 21.5%), where authors argued that the impetus for change was not learner-centered and focused instead on creating a competitive rather than collaborative workforce; and
  • credibility (n = 15, 19.0%), where CBME was seen as the result of advancements in vocational training rather than the result of identifying solutions to the problem of physician lack of competence.
  • Conversations also fell under the theme of
    • community influence (n = 15, 19.0%) where authors discussed the disruption of workflows and systems when faculty had to learn about the CBME model of education alongside teaching, and
    • educational developments (n = 9, 11.4%) which included discussions of the challenge of the hierarchal culture of medicine where change is embraced slowly.
  • Under the theme of application (n = 8, 10.1%), authors discussed the lack of evidence of real-world implementation of CBME and subsequent outcomes.
  • Further, conversations about assessment (n = 8, 10.1%) included concerns that the use of checklists of competencies was demotivating to learning and would prevent trainees from thinking critically and excelling.
  • New concerns arose in the literary conversation about
    • learner impact (n = 6, 7.6%), such as worries that CBME would hinder trainees’ development of professional identity, and
    • societal impacts (n = 1, 1.3%), such as the worry that the time required for the activities of CBME (i.e. assessment and feedback) would take away from direct patient care.

권장 사항
Recommendations

이 기간 동안 CBME에 관한 기사에서 몇 가지 권장 사항이 확인되었습니다.

  • 가장 두드러진 주제는 커뮤니티 영향력(n = 20, 36.7%)으로, 저자들은 다양한 이해관계자가 참여하는 자격 인증에 대한 합의의 필요성을 강조했습니다.
  • 또한 조직 구조(n = 17, 21.5%) 주제에서는 학습자 성과 추적 및 집계에 초점을 맞추던 기존의 방식에서 벗어나 학습자가 성장 마인드를 수용하도록 프로그램 정책을 조정할 필요성에 대한 논의가 포함되었습니다.
  • 교육적 발달(n = 16, 20.3%)의 대화에는 학부부터 지속적인 전문성 개발까지 CBME 연속체를 설계하기 위한 제안이 포함되었습니다.
  • 적용(n = 15, 19.0%)에서 수집된 권장 사항은 CBME 실행에 대한 교육생과 교수진의 피드백을 수집하고 통합할 수 있는 활동에 대한 중요한 필요성을 다루었습니다.
  • 평가 (n = 6, 7.6%)에서 저자들은 학습자 포트폴리오의 최적 설계 및 통합을 결정하는 것의 중요성에 대해 논의했습니다.
  • 마지막으로 신뢰성 주제(n = 4, 5.1%)에서는 저자들이 전통적인 교육 모델이 불충분하며 급진적인 변화가 필요하다는 증거를 논의했으며,
  • 사회적 영향 주제(n = 1, 1.3%)에서는 저자들이 필요한 것은 급진적인 커리큘럼 변화가 아니라 역량을 문서화하는 더 나은 시스템이라고 주장했습니다.
  • 포함된 논문 중 학습자 영향이라는 주제와 관련된 권장 사항을 설명한 논문은 없었습니다.

Several recommendations were identified in the articles about CBME during this time period.

  • Most prominent was the theme of community influence (n = 20, 36.7%) where authors stressed the need for consensus about credentialing involving diverse stakeholders.
  • Additionally, the theme of organizational structures (n = 17, 21.5%) included discussion of the need to ensure that program policies were aligned with the expectation that learners embrace a growth mindset rather than continuing a traditional focus on the tracking and tallying of learner performance.
  • For the educational developments theme (n = 16, 20.3%) conversations included suggestions for the design of a CBME continuum from undergraduate to continuing professional development.
  • Recommendations captured in the theme of application (n = 15, 19.0%) addressed the critical need for activities that could capture and integrate feedback from trainees and faculty about the implementation of CBME.
  • Under the assessment theme (n = 6, 7.6%), authors discussed the importance of determining optimal design and integration of learner portfolios.
  • Finally, related recommendations were identified under the theme of credibility (n = 4, 5.1%) where authors discussed evidence suggesting that traditional training models were insufficient and a radical change was needed,
  • and the theme of societal impacts (n = 1, 1.3%) where authors argued that what was needed was not radical curricular transformation, but rather a better system to document competence.
  • None of the included articles described recommendations specific to the theme learner impacts.

도전 과제/불확실성/회의론
Challenges/uncertainties/skepticism

이 10년 동안 CBME의 도전 과제 및/또는 불확실성에 대한 문학적 대화가 이전 10년과 비교하여 크게 증가했으며, 도전 과제 및 불확실성에 대한 다양한 문학적 대화에 기여한 출판물의 수와 다루어진 다양한 유형의 도전 과제 및/또는 불확실성 모두에서 증가세를 보였습니다. 교수진 개발, 전문성을 역량으로 추출하는 데 따르는 어려움, CBME의 개념 또는 이론과 실제 CBME 간의 차이에 대한 어려움 등 이전 수십 년 동안 문헌에서 확인된 도전 및/또는 불확실성이 이번 10년에도 계속 나타났습니다. 이전 10년 동안의 대화를 기반으로 한 이 10년 동안의 세 가지 주요 문학적 대화는 다음을 대상으로 했습니다.

  • (1) CBME가 양질의 교육을 제공했다는 [증거]의 필요성,
  • (2) CBME 설계, 실행 및 유지의 [물류]적 어려움,
  • (3) CBME [평가]에 대한 논쟁과 불확실성

This decade saw a large increase in literary conversations about challenges and/or uncertainties of CBME as compared to previous decades, both in the number of publications that contributed to different literary conversations around challenges and/or uncertainties, and in the different types of challenge and/or uncertainties addressed. Challenges and/or uncertainties identified in literature in earlier decades continued to appear in this decade, including faculty development, challenges in distilling a specialty into competencies, and challenges in the difference between concept or theory of CBME and CBME in practice. Three dominant literary conversations in this decade that built upon conversations from earlier decades targeted:

  • (1) the need for proof that CBME provided quality training;
  • (2) logistical challenges of designing, implementing and sustaining CBME; and
  • (3) debates and uncertainty about assessment in CBME.

이 세 가지 문학적 대화는 서로 연관되어 있지만 별개의 주제였습니다. 

  • CBME가 '효과가 있다'는 증거의 필요성에 대한 논의
    • [CBME 혁신에 대한 프로그램 평가를 계획하고 수행해야 할 필요성]과
    • [CBME가 전통적인 의학교육 접근 방식보다 개선되었다는 증거에 대한 다양한 이해관계자들의 요구]를 모두 포함했습니다.
  • CBME로의 전환을 정당화하기 위한 이러한 증거의 필요성은 CBME의 물류적 문제에 대한 문학적 논의와도 관련이 있습니다.
    • 이러한 물류상의 문제에는 CBME에 대한 보다 광범위한 기술 및 행정 지원의 필요성과 관련된 훨씬 더 높은 비용뿐만 아니라
    • 교수진과 교육자가 CBME 교육 및 평가의 여러 요소에 전념해야 하는 시간적 비용도 포함되었습니다.
    • 물류에 대한 대화에는 CBME에 대한 특정 접근 방식이 모든 사람에게 기대되는 것이 될 경우 [자원이 풍부한 프로그램과 자원이 부족한 프로그램 및 기관] 간에 발생할 수 있는 불평등에 대한 불확실성도 포함되었습니다.

These three literary conversations were inter-related, yet distinct.

  • The conversations about the need for proof that CBME ‘works’ encompassed both
    • the need to plan for and carry out program evaluation of CBME innovations, as well as
    • demands from a variety of stakeholders for proof that CBME was an improvement over traditional approaches to medical education.
  • This need for proof to justify transitioning to CBME was tied to the literary conversations about logistical challenges of CBME.
    • These logistical challenges included much higher costs related to the need for more extensive technological and administrative support for CBME,
    • as well as the costs in time that faculty and educators needed to dedicate to multiple elements of CBME training and assessment.
    • Incorporated into the conversations about logistics were uncertainties about inequities that could arise between well-resourced and under-resourced programs and institutions if a specific approach to CBME became an expectation of all.

CBME 프로그램의 평가에 대한 불확실성을 포함하는 문학적 대화는 때때로 물류에 대한 대화와 상호 연관되어 있었습니다. 그러나 뚜렷한 대화가 발생했습니다. 특히 평가에 대한 도전과 불확실성에는 다음과 같은 논쟁이 포함되었습니다:

  • (1) 역량competence을 별개의 역량competencies으로 평가할 수 있는지 아니면 기술과 지식의 종합으로 평가해야 하는지,
  • (2) 평가 정보를 어떻게 수집, 종합, 해석해야 하는지(그리고 누가),
  • (3) [결과와 역량에 지속적으로 초점을 맞추는 것]이 [모호성과 불확실성에 대한 편안함에] 어떤 영향을 미치는지,
  • (4) 교수진과 학습자에게 과도한 부담을 주지 않고 형성평가를 수행할 수 있는지, 총괄적 평가 결정에서 형성평가의 가치/역할은 무엇인지에 대한 논의가 있었습니다.

The literary conversations that included uncertainties about assessment in CBME programs were sometimes inter-related with conversations about logistics. However, distinct conversations arose. In particular, challenges and uncertainties about assessment included debates about:

  • (1) whether competence can be assessed as distinct competencies or should be assessed as a synthesis of skills and knowledge;
  • (2) how assessment information should be collected, synthesized, and interpreted (and by whom),
  • (3) what effect a persistent focus on outcomes and competencies would have on comfort with ambiguity and uncertainty, and;
  • (4) how can formative assessment be done without overburdening faculty and learners – and what is the value/role of formative assessments in making summative assessment decisions.

2010년부터 2019년까지의 CBME 문학적 대화(그림 3, 보충 부록 C, 표 4)
CBME literary conversations from 2010 to 2019 (Figure 3Supplementary Appendix C, Table 4)

2010년부터 2019년까지 CBME에 대해 확인된 8가지 주제에 대한 476건의 토론을 확인했습니다(N = 476). 이러한 논의는 인식된 장점(n = 116, 24.4%), 인식된 단점(n = 199, 41.8%), 권장 사항(n = 161, 33.8%)으로 정리되었습니다. 이번 10년 동안의 도전 과제/불확실성/회의론은 주로 이전 10년 동안에 확인된 대화의 연장선상에 있거나 이를 심화시킨 것이었습니다.
We identified 476 discussions around the eight identified themes about CBME from 2010 to 2019 (N = 476). These are organized into perceived advantages (n = 116, 24.4%), perceived disadvantages (n = 199, 41.8%), and recommendations (n = 161, 33.8%). Challenges/uncertainties/skepticism in this decade were primarily continuations of, and elaborations upon, the conversations identified in the previous decade.

인식된 장점
Perceived advantages

주제별로 분류된 CBME의 인식된 장점은

  • 첫째, 신뢰성(n = 8, 6.9%)으로, CBME는 1993년에 개발된 내일의 의사 권고안을 기반으로 설계되었습니다.
  • 적용에 관한 논문(n = 12, 10.3%)은 CBME가 학습자에게 직장에서 논리적으로 일련의 경험을 제공하는 방법을 다루고 있습니다.
  • 커뮤니티 영향(n = 14, 12.1%)은 위임가능 전문 활동을 핵심 역량과 연결하면 전문적 실천의 정의에 대한 집단적 성찰을 촉진한다는 아이디어를 정교하게 설명합니다.
  • 학습자 영향(n = 13, 11.2%) 기사는 교육 중 학습자와 교수진 간의 공동 책임에 대해 설명합니다.
  • 평가에 관한 글(n = 19, 16.4%)은 평가가 공정하고 편파적이지 않다는 인식을 설명합니다.
  • 교육 개발(n = 29, 25.0%)에 관한 글은 CBME를 통해 어려움에 처한 학습자를 조기에 식별할 수 있다는 증거를 제시합니다.
  • 조직 구조를 설명하는 기사(n = 11, 9.5%)는 재정적으로 어려운 의료 및 교육 시스템에서 효율성을 높이고 비용을 절감할 수 있는 잠재력이 있음을 보여줍니다.
  • 사회적 영향(n = 10, 8.6%): CBME가 의사 부족, 수련의 부채, 환자 대기 시간을 예방할 수 있는 교육 접근법의 잠재력을 보여줍니다.

Perceived advantages of CBME categorized by theme include

  • first credibility (n = 8, 6.9%), with CBME having been designed and based on the Tomorrow’s Doctors recommendations developed in 1993.
  • Articles on application (n = 12, 10.3%) address how CBME provides learners with a logical sequence of experiences situated in the workplace.
  • Community influence (n = 14, 12.1%) elaborates the idea that linking Entrustable Professional Activities with core competencies fosters collective reflection on the definition of professional practice.
  • Learner impact (n = 13, 11.2%) articles describe the shared responsibility between learners and faculty during training.
  • Articles on assessment (n = 19, 16.4%) describe the perception that assessments are fair and unbiased.
  • Educational developments (n = 29, 25.0%) provide evidence that CBME may enable the early identification of learners in difficulty.
  • Articles describing organizational structures (n = 11, 9.5%) show that these have the potential to increase efficiency and reduce costs in financially strained health care and education systems.
  • Societal impacts (n = 10, 8.6%): of CBME illustrate the potential of this training approach to prevent physician shortages, trainee debt, and patient wait times.

인식된 단점
Perceived disadvantages

CBME의 단점으로는

  • 판단력, 반성 등 고차원적인 인지 능력이 필요한 전문직을 위해 설계된 교육 모델이 아니기 때문에 신뢰성에 대한 위협(n = 30, 15.1%)이 꼽혔습니다.
  • 애플리케이션의 단점(n = 20, 10.1%)은 학습자 포트폴리오를 검토할 때 표준화가 부족하다는 점입니다.
  • 전문 기관, 정부, 교육자가 설계한 교육 개혁(예: CBME)에 대한 커뮤니티의 영향력(n = 37, 18.6%)은 시간이 지나도 지속될 가능성이 낮다고 인식했습니다.
  • 학습자 영향(n = 14, 7.0%)은 교육이 이루어지는 맥락이 역량을 정의하고 평가하는 방식에 미치는 영향에 대한 우려를 나타냈습니다.
  • 평가(n = 37, 18.6%)에 대한 우려는 평가가 인증에 의해 주도되고 역량은 정치적으로 주도되며, 어느 쪽도 교육생의 역량을 보장하지 못한다는 인식을 강조했습니다.
  • 교육적 발달(n = 36, 18.1%)에 대한 글에서는 환자 치료에 집중하는 데 방해가 되는 역량 해체(환원주의)를 지적했습니다.
  • 조직 구조에 관한 글(n = 20, 10.1%)은 조직 구조가 학습자에게 맞춤형 교육을 제공하기에 부적절할 수 있다는 점을 지적했습니다.
  • 사회적 영향(n = 8, 4.0%)에 대한 우려는 CBME 개입이 '치료의 예술'(즉, 환자의 취약성, 가족의 우려, 책임의 최종성)이 아닌 기계적 활동에 초점을 맞춘다는 점을 언급합니다.

Perceived disadvantages of CBME discussed include

  • threats to credibility (n = 30, 15.1%) because the training model was not designed for professions that require higher order cognitive skills, such as judgement and reflections.
  • Application disadvantages (n = 20, 10.1%) address the lack of standardization when reviewing learner portfolios.
  • Community influence (n = 37, 18.6%) on educational reform (such as CBME) designed by professional bodies, governments, and educationalists was perceived as not likely to be sustained over time.
  • Learner impact (n = 14, 7.0%) concerns identified the influence of the context in which training is experienced on how competence is defined and assessed.
  • Assessment (n = 37, 18.6%) concerns highlighted the perception that assessment was driven by accreditation and competencies were politically driven, neither of which assures the competence of trainees.
  • Educational developments (n = 36, 18.1%) pointed to deconstructing competencies (reductionism) as a distraction from the focus on patient care.
  • Articles on organizational structures (n = 20, 10.1%) articulate that structures may be inadequate for providing personalized training to learners.
  • Societal impacts (n = 8, 4.0%) concerns cite that CBME interventions center on the mechanics of activities and not the ‘art of doctoring’ (i.e. vulnerabilities of the patient, concerns of family, and finality of responsibility).

권고 사항
Recommendations

CBME를 개선하기 위한 권고사항은

  • CBME로의 전환이 필요한 이유에 대한 더 많은 증거를 제공함으로써 신뢰성 향상(n = 12, 7.5%)을 지지합니다.
  • 적용(n = 35, 21.7%) 및 교육적 발달(n = 33, 20.5%)은 첫인상이 수련의의 성과 평가에 미치는 영향에 대한 증거를 확보하거나 공식적인 평가 및 교정을 통해 임상 교육 교수진의 역량을 평가하는 것을 지지합니다.
  • 커뮤니티 영향(n = 40, 24.8%) 권장사항은 CBME를 시행하는 동안 교수진과 교육생이 겪는 어려움을 해결합니다.
  • 학습자 영향(n = 2, 1.2%)은 교육생이 성과에서 성장으로 사고방식을 전환할 수 있도록 지원함으로써 강화할 수 있습니다.
  • 평가(n = 15, 9.3%)에 대한 권고사항은 비임상의 또는 다른 전문 분야의 임상의를 CBME 평가에 통합하여 직접 관찰에 대한 제한을 완화하기 위해 연수생 수행 비디오 녹화와 같은 개입을 제안합니다.
  • 조직 구조(n = 22, 13.7%)는 교육에 대한 비전적 접근 방식에 따라 리더를 선정하여 강화할 수 있습니다.
  • 사회적 영향(n = 2, 1.2%)은 커리큘럼 개혁과 함께 감독 및 위탁에 필요한 변화를 통해 환자들이 안전하고 수준 높은 치료를 받을 수 있도록 보장해야 합니다.

Recommendations to improve CBME advocate for 

  • greater credibility (n = 12, 7.5%) by providing more evidence as to why the shift to CBME was required.
  • Application (n = 35, 21.7%) and Educational developments (n = 33, 20.5%) support capturing evidence of the influence of first impression on performance ratings of trainees or assessing the competence of clinical teaching faculty with formal assessments and remediation.
  • Community influence (n = 40, 24.8%) recommendations address the challenges experienced by faculty and trainees during CBME implementation.
  • Learner impacts (n = 2, 1.2%) can be strengthened by supporting trainees in shifting their mindset from performance to growth.
  • Assessment (n = 15, 9.3%) recommendations to integrate non-clinicians or clinicians from other specialties in the assessment needs of CBME suggest interventions such as video recordings of trainee performance to mitigate restrictions for direct observation.
  • Organizational structures (n = 22, 13.7%) can be strengthened with leaders selected based on their visionary approach to education.
  • Societal impacts (n = 2, 1.2%) necessitate ensuring that patients received safe, high-quality care amidst curricular reform with needed changes to supervision and entrustment.

도전 과제/불확실성/회의론
Challenges/uncertainties/skepticism

이 10년간의 문헌적 대화에는 교수진 개발의 어려움, CBME 시행 시 비용/물류에 대한 우려 및 불확실성, CBME의 효과에 대한 증거를 제공하기 위한 프로그램 평가의 필요성, 의사의 업무를 개별 역량으로 분석하는 것과 관련된 어려움 등 이전 10년간 확인된 도전 과제/불확실성/회의론이 포함되었으며, 이를 기반으로 더욱 발전했습니다. 이전에 확인된 문제/불확실성/회의론과 관련된 대화에는 이 10년간 만연했던 다음과 같은 내용이 포함되었습니다:

  • (1) 시간 가변 교육이 인력 계획에 미칠 수 있는 영향에 대한 우려와 불확실성,
  • (2) 비의료 전문가 역량, 특히 전문직업성에 대한 효과적인 평가의 어려움,
  • (3) 객관성과 표준화된 평가의 필요성과 학습자가 업무 현장에서 입증한 역량에 대한 진정한 평가의 가정 사이의 갈등이 있습니다;
  • (4) 벤치마크 및 이정표 설정개별화된 학습 경로 및 궤적에 대한 가정 사이의 갈등,
  • (5) 학습자 및 프로그램에 대한 영향 측면에서 훈련 및 재교육이 길어지는 것에 대한 불확실성,
  • (6) 의학교육의 연속성 전반에서 CBME를 어떻게 보아야 하는지에 대한 불확실성.

이 10년 동안 새롭게 등장한 주제 중 하나는 위탁 가능한 전문 활동(EPA)을 사용한 평가와 관련된 도전과 불확실성에 관한 대화였습니다.
The literary conversations in this decade included (and built further upon) challenges/uncertainties/skepticism identified in previous decades, such as challenges in faculty development, concerns and uncertainties about costs of/logistics in implementing CBME, the need for program evaluation to provide evidence for or against the efficacy of CBME, and challenges related to parsing the work of a physician into discrete competencies. Conversations related to previously identified challenges/uncertainties/skepticism that prevailed in this decade included:

  • (1) concerns and uncertainties about the impact that time variable training could have on workforce planning;
  • (2) challenges in effective assessment of non-medical expert competencies, especially professionalism;
  • (3) conflicts between the need for objectivity and standardized assessments, and the assumption of authentic assessment of learners’ demonstrated competence in the workplace;
  • (4) conflicts between establishing benchmarks and milestones, and assumptions of individualized learning pathways and trajectories;
  • (5) uncertainties about extension of training and remediation in terms of impacts on learners and on programs, and;
  • (6) uncertainties about how CBME should look across the continuum of medical education.

One emergent topic in this decade appeared in conversations around challenges and uncertainties related to assessment using entrustable professional activities (EPAs).

2020년(2020년 4월까지, 2021년 간행물의 사전 인쇄물 포함)의 CBME 문헌 대화(그림 3, 보충 부록 C, 표 5)
CBME literary conversations from 2020 (up to April 2020, including pre-prints of 2021 publications) (Figure 3Supplementary Appendix C, Table 5)

분석 결과, 2020년에 포함된 기사에서 식별된 8가지 주제에 대한 189건의 문학적 대화가 있었습니다. 아래에서는 인식된 장점(n = 58, 30.7%), 인식된 단점(n = 61, 32.3%), 권장 사항(n = 70, 37.0%)으로 정리한 대표적인 사례를 설명합니다. 도전 과제/불확실성/회의론과 관련된 문학적 대화는 이 10년 이전에 논의된 내용을 더욱 정교화했습니다. 이러한 정교화는 경우에 따라 거의 독립적인 CBME에 대한 문학적 대화가 되기도 했습니다. 예를 들어, 평가에 대한 일반적인 문학적 대화와는 별개로 논의되곤 했던 EPA에 대한 도전 및 우려의 확산을 들 수 있습니다. 한 가지 새로운 과제가 확인되었는데, 바로 [여러 프로그램에 걸친 CBME 설계의 획일성]과 [개별 프로그램에 맞는 상황에 적합한 CBME 설계의 필요성] 사이의 충돌에 대한 우려였습니다.
Our analysis resulted in 189 discussions around the eight identified themes literary conversations in the articles included for 2020: below we describe representative examples organized by perceived advantages (n = 58, 30.7%), perceived disadvantages (n = 61, 32.3%), and recommendations (n = 70, 37.0%). The literary conversations related to challenges/uncertainties/skepticism elaborated upon what was discussed prior to this decade. These elaborations, in some cases, have almost become stand-alone literary conversations about CBME. An example was the proliferation of challenges and/or concerns about EPAs, which were often discussed independent of the general literary conversations about assessment. One new challenge was identified: concerns about the conflict between uniformity of CBME design across programs versus the need to allow for context-appropriate CBME design to suit individual programs.

인식된 장점
Perceived advantages

CBME에 대해서

  • 전 세계 다른 지역에서도 유사한 모델이 시행되고 있기 때문에 CBME에 대한 신뢰성(n = 1, 1.7%)이 있다고 응답했습니다.
  • 적용에 대한 관심(n = 3, 5.2%)은 평가 데이터 수집과 CBME 참여 및 품질 개선에 대한 참여를 지원하는 결과의 통합으로 나타났습니다.
  • 커뮤니티 영향력(n = 6, 10.3%)은 다양한 이해관계자의 참여와 포용을 촉진하는 CBME로의 혁신적 변화를 통해 달성됩니다.
  • 학습자 영향(n = 14, 24.1%)은 새로운 커리큘럼 접근 방식이 학습자 중심적이고 시간을 자원으로 활용한다는 인식을 통해 입증되었습니다.
  • CBME는 진정한 직장 기반 활동에 중점을 둔 새로운 평가 철학을 통해 평가(n = 12, 20.7%)를 강조합니다.
  • CBME는 사례와 활동에 대한 포괄적인 노출을 제공하는 교육적 발달(n = 14, 24.1%)을 장려합니다.
  • CBME를 위한 조직 구조(n = 3, 5.2%)는 한정된 자금으로 교육의 효율성과 재정적 책임을 극대화할 수 있습니다.
  • 사회적 영향(n = 5, 8.6%)은 복잡하고 다양하며 끊임없이 변화하는 지역사회에 치료를 제공할 수 있는 능력과 유능한 의사를 양성함으로써 촉진됩니다.

CBME was discussed as

  • having credibility (n = 1, 1.7%) due to similar models being implemented in other regions across the globe.
  • Attention to application (n = 3, 5.2%) is shown with the collection of evaluation data and integration of findings that support engagement in CBME and participation in quality improvement.
  • Community influence (n = 6, 10.3%) is achieved with transformative change to CBME fostering participation and inclusion of diverse stakeholders.
  • Learner impact (n = 14, 24.1%) is demonstrated through the perception that the new curriculum approach was learner-centered and used time as a resource.
  • CBME highlights assessment (n = 12, 20.7%) with a renewed philosophy of assessment centered on authentic workplace-based activities.
  • CBME promotes Educational developments (n = 14, 24.1%) that provide comprehensive exposure to cases and activities.
  • Organizational structures (n = 3, 5.2%) for CBME can maximize efficiency of training and fiscal responsibility of limited funds.
  • Societal impacts (n = 5, 8.6%) are fostered through the development of physicians who would be capable and competent to provide care to complex, diverse, and ever-changing communities.

인식된 단점
Perceived disadvantages

이 기간 동안 논의된 CBME의 단점으로는 

  • CBME의 철학적 토대가 실행하기에는 비현실적인 활동으로 해석되어 신뢰성에 대한 문제(n = 10, 16.4%)가 있었습니다.
  • 비평가들은 CBME 실행의 바람직하지 않은/의도하지 않은 결과에 대한 정보가 제한적이거나 전혀 없기 때문에 CBME 적용에 의문을 제기합니다(n = 14, 23.0%).
  • 커뮤니티 영향(n = 6, 9.8%)은 평가자가 교육생에 대한 지속성 또는 장기적인 노출이 부족하다는 점을 강조합니다.
  • 학습자 영향(n = 7, 11.5%)은 학습자가 피드백이나 평가를 요청하는 입장에 놓이게 되어 불안을 유발할 수 있다는 의문을 제기합니다.
  • 평가(n = 12, 19.7%)는 역량을 입증하기 위한 최소한의 기준동기를 떨어뜨리고 숙달에 도달하려는 동기를 감소시킨다는 우려를 다룹니다.
  • 교육적 발달(n = 4, 6.6%)에 대한 논의에서는 잦은 피드백을 요청하고 받는 과정에서 환자 치료에 다시 주의를 돌리는 데 방해가 된다는 점을 지적했습니다.
  • 조직 구조(n = 7, 11.5%)에 대한 논의에서는 CBME 활동을 수행하기 위한 재정적 보상이 제한적이거나 전혀 없는 것시간 투자 사이의 상당한 불균형에 대한 우려가 제기되었습니다.
  • 사회적 영향(n = 1, 1.6%)은 임상 환경에서 드물게 발생하는 학습 기회(예: 드문 임상 프레젠테이션)와 관련된 환자에 대한 잠재적 위험에 대해 논의합니다.

CBME disadvantages discussed in this timeframe include

  • challenges to credibility (n = 10, 16.4%) due to the belief that the philosophical underpinnings of CBME were translated into impractical activities to execute.
  • Critics question CBME Application (n = 14, 23.0%) due to limited to no information about the undesirable/unintended outcomes of implementing CBME.
  • Community influence (n = 6, 9.8%) highlights the lack of continuity or longitudinal exposure of assessors to trainees.
  • Learner impact (n = 7, 11.5%) discussions question placing learners in the position of asking for feedback or assessments, which can be anxiety-provoking.
  • Assessment (n = 12, 19.7%) concerns address the idea that minimum standards to demonstrate competence are demotivating and reduce the drive to reach mastery.
  • Educational development (n = 4, 6.6%) discussions point to the disjointed and disruptive nature of requesting and receiving frequent feedback while redirecting attention back to patient care.
  • Organizational structures (n = 7, 11.5%) concerns address the significant disparity between limited or no financial compensation to perform the activities of CBME and time investment.
  • Societal impacts (n = 1, 1.6%) discuss the potential risks to patients associated with learning opportunities that were infrequently occurring in the clinical setting (i.e. rare clinical presentations).

권장 사항
Recommendations

가장 최근에 제시된 CBME에 대한 권고사항은

  • 모든 이해관계자 간의 의사소통을 개선하기 위해 어휘와 정의의 일관성을 통해 신뢰성(n = 5, 7.1%)을 강화할 것을 권장합니다.
  • 적용(n = 14, 20.0%) 권장사항은 교수진과 교육기관이 각자의 고유한 상황에 맞게 CBME를 적용하고 행동할 수 있는 자유와 자율성에 대한 필요성을 강조합니다.
  • 커뮤니티 영향(n = 24, 32.3%)은 CBME가 위치한 맥락적 요인에 대한 증거를 포착하는 것이 이해관계자들이 변화의 복잡성을 이해하는 데 도움이 될 것이라는 아이디어를 다루었습니다.
  • 학습자 영향(n = 4, 5.7%)은 새로운 커리큘럼을 설계할 때 교육생을 포함시켜야 한다는 내용을 포함합니다.
  • 평가(n = 9, 12.9%) 권장 사항에서는 실용적이고 사용자 중심의 평가 도구를 설계할 것을 제안합니다.
  • CBME를 위한 교육적 발달(n = 8, 11.4%)은 교육생이 실제 임상에서 자주 발생하지 않거나 드문 임상 활동을 경험할 수 있는 시뮬레이션 기회를 개발하는 것을 수반합니다.
  • 조직 구조(n = 6, 8.6%)는 지역 및 국가 보건 당국을 통해 CBME를 시행하는 데 필요한 자금을 제공해야 합니다.

Recommendations for CBME presented in this most recent time period recommend

  • strengthening Credibility (n = 5, 7.1%) via consistency in vocabulary and definitions to improve communication among all stakeholders.
  • Application (n = 14, 20.0%) recommendations highlight faculty’s and institutional needs for the freedom and agency to act and adapt CBME to their unique context.
  • Community influence (n = 24, 32.3%) addressed the idea that capturing evidence of the contextual factors in which CBME was situated would help stakeholders to understand the complexity of the change.
  • Learner impact (n = 4, 5.7%) includes the need to include trainees in the design of new curricula.
  • Assessment (n = 9, 12.9%) recommendations suggest designing practical and user-centered assessment tools.
  • Educational development (n = 8, 11.4%) for CBME entails developing simulation opportunities for trainees to gain experiences in clinical activities that are often infrequent or rare in the real-world.
  • Organizational structures (n = 6, 8.6%) should provide the funding required through local and national health authorities to implement CBME.

이 기간 동안의 문학적 대화 콘텐츠에는 사회적 영향 주제에 대한 권장 사항이 포함되지 않았습니다.
Literary conversations content for this time period did not include recommendations regarding the societal impacts theme.

도전 과제/불확실성/회의론
Challenges/uncertainties/skepticism

포함된 출판물 그룹에서 CBME와 관련된 도전 과제/불확실성/회의론을 다룬 문학적 대화는 주로 이전 수십 년 동안 확인된 대화에 대한 정교화였습니다. 두 가지 주요 대화는

  • 실행의 물류 문제(교수진 개발 필요성, 재정적 비용, 인적 인력 비용)와
  • CBME가 비용을 정당화할 만큼 충분히 우수한 졸업생을 배출했는지에 대한 증거의 필요성에 관한 것이었습니다.

The literary conversations addressing challenges/uncertainties/skepticism associated with CBME in the included group of publications were mainly elaborations upon the conversations identified in earlier decades. Two dominant conversations concerned

  • challenges of logistics of implementation (faculty development needs, financial costs, and human workforce costs) and
  • need for evidence about whether CBME resulted in sufficiently better graduates to justify costs.

그러나 도전 과제/불확실성/회의론과 관련된 문헌에서 가장 지배적인 대화는 평가에 관한 것이었습니다. 다음에 대한 대화가 확인되었습니다.

  • 평가의 질
  • 평가와 관련된 학습자와 교육자의 업무량 및 소진, 그리고 
  • 학습에 대한 형성 평가와 총괄 평가 사이의 경계가 모호해지는 것에 대한 새로운 우려
    (참고: 현재 언어의 변화에도 불구하고 이 리뷰에 포함된 출판물에 사용된 용어를 유지함) 

많은 평가 관련 대화에는 EPA 및 위임언어에 대한 여러 가지 문제가 포함되어 있었습니다. 앞서 보고한 바와 같이, 프로그램 전반에 걸쳐 [CBME의 설계 및 실행에 통일성이 있어야 한다는 기대][CBME가 획일적인 것이 아니라 개별 프로그램에 상황에 적합하도록 의도적으로 설계되어야 한다는 주장] 사이의 갈등에 대한 우려를 다루는 문헌적 대화의 증거를 추가로 확인했습니다.

The most dominant conversations in the literature related to challenges/uncertainties/skepticism, however, addressed assessment. Conversations were identified about:

  • quality of assessment;
  • workload and burnout of learners and educators associated with assessment, and; and
  • emergent concerns about blurring the line between formative assessment for and summative assessment of learning (Note: retaining terminology used in the publications included in this review despite current shifts in language).

Many assessment conversations included multiple challenges with EPAs and/or language of entrustment. As reported earlier, we saw further evidence of the literary conversation addressing concerns about the conflict between an

  • expectation that there should be uniformity in design and implementation of CBME across programs, and
  • the argument that CBME should be intentionally designed to be context-appropriate for individual programs rather than one-size-fits-all.

 

토론
Discussion

지난 수십 년 동안 CBME와 관련된 출판물이 놀라울 정도로 급증한 것은 이 주제에 대한 뜨거운 관심을 반영하며, 교육자와 연구자가 이 방대하고 복잡한 문헌을 이해하는 데 도움이 되는 자료가 필요하다는 점을 강조합니다. 비교적 엄격한 포함 및 제외 기준을 적용했음에도 불구하고 387개의 논문이 분석에 포함된 이번 범위 검토에서 알 수 있듯이, 급증하는 문헌을 따라잡는 것은 불가능에 가깝습니다. McGaghie(1978) 이후 문학적 대화의 개별 논문과 주제를 모두 매핑함으로써 교육자, 연구자, 학습자 및 이해관계자가 CBME 출판물에서 문학적 대화의 주요 측면에 대해 공유된 이해를 촉진하기 위해 노력했습니다. 이 범위 검토의 결과는 모든 이해관계자가 CBME의 장점, 단점, 권장 사항, 도전/불확실성/회의론에 대한 다양한 대화를 이해하고자 할 때 각자의 관점에서 참여할 수 있도록 CBME 문헌에 대한 투명하고 포괄적인 설명으로 사용될 수 있습니다(부록 B 및 C). 
The astonishing proliferation of publications related to CBME over the last few decades reflects the intense interest in this topic and highlights the need for a resource to support educators and researchers in making sense of this vast and complex literature. Keeping up with such a burgeoning literature is likely impossible, as evidenced by this scoping review which, even with relatively strict inclusion and exclusion criteria, resulted in 387 articles included for analyses. By mapping both individual articles and themes in the literary conversations since McGaghie (1978), we endeavoured to facilitate a shared understanding among educators, researchers, learners, and stakeholders about key aspects of the literary conversations in CBME publications. The findings from this scoping review can serve as a transparent and comprehensive description of the CBME literature for all stakeholders to engage with from their perspective as they seek to make sense of the various conversations about advantages, disadvantages, recommendations, and challenges/uncertainties/skepticism of (and to) CBME (Supplementary Appendixes B and C).

CBME에 대한 문학적 대화를 종합하고 매핑한 이 자료는 다양한 청중에게 유용한 자료가 될 것으로 생각하지만, 우리의 연구 결과는 또한 해결해야 할 문제를 조명하므로 향후 CBME 연구에 영향을 미칠 수 있습니다. 분석에 포함된 기사의 67.7%가 연구라기보다는 [관점이나 논평]이라는 점에서 향후 CBME 연구의 필요성을 알 수 있습니다. 10년별로 제시된 내용은 연구자들이 추가 연구의 격차와 기회를 파악하고, 새롭게 떠오르는 대화, '고약wicked'하거나 오래 지속될 것으로 보이는 대화, 중요하지만 소외된 대화, 아직 일어나지 않은 대화를 예측하는 데 자원과 노력을 집중하는 데 도움이 될 수 있습니다. 

While we feel that this synthesis and mapping of the literary conversations about CBME will serve as a useful resource for a variety of audiences, our findings also illuminate issues that must be addressed and thus have implications for future research in CBME. The need for future research in CBME is illustrated by the finding that 67.7% of the articles included for analysis were perspectives or commentaries, rather than research. The content presented by decade can help researchers to identify gaps and opportunities for further research, and direct resources and effort toward the conversations that are emerging, those that appear to be ‘wicked’ or long-lasting, those that are important but have been sidelined, and perhaps anticipate those conversations that are yet to occur.

이 연구 결과 중 이 목표에 가장 유용할 것으로 보이는 것은 시간이 지남에 따라 문학 대화에서 CBME에 대한 도전/불확실성/회의론을 식별하는 것입니다. 이는 다음과 같은 범주로 요약할 수 있습니다:

  • (1) CBME가 '효과가 있다'는 증거의 필요성,
  • (2) 비용(비용, 인력, 시간) 및 교수진 개발을 포함한 CBME의 물류,
  • (3) 역량 정의와 관련된 어려움,
  • (4) 역량 평가 방법에 대한 논쟁과 불확실성.

처음 세 가지 범주는 1978년에 시작된 문헌에서 처음 확인되었으며, 마지막 범주는 1990년에 처음 확인되었습니다. 

The findings from this study that are likely to be most useful for this aim are the identification of challenges/uncertainties/skepticism about CBME in literary conversations over time. These can be summarized into the following categories:

  • (1) the need for proof that CBME ‘works’;
  • (2) logistics of CBME, including costs (money, people, time) and faculty development;
  • (3) challenges associated with defining competencies; and,
  • (4) debates and uncertainty about how to assess competence.

The first three categories were initially identified in the included literature starting in 1978, while the final category was identified initially in 1990.

[CBME가 '효과가 있다'는 증거의 필요성]은 CBME의 재정적, 인적 비용을 정당화하기 위해 CBME의 성과에 대한 증거가 필요하다는 점에서 [CBME의 물류]와 관련이 있습니다. 이와 관련하여 CBME를 '작동'시키려면 돈, 사람, 시간, 교수진 개발이 필요한데, CBME의 바람직한 결과를 달성하기 위한 물류의 올바른 조합은 무엇일까요? 시간이 지남에 따라 평가 데이터를 포함하는 출판된 연구 수가 증가했지만, 이러한 평가 연구는 전체 논문의 25.3%에 불과했습니다. 향후에는 다음의 두 가지 모두에 대한 연구가 필요합니다. 

  • CBME 프로세스의 효과성(예:
    • 코칭과 발달 궤적에 초점을 맞춘 CBME가 학습자가 성장 마인드를 채택하는 결과를 가져왔는가?
    • 이러한 학습자가 효과적인 평생 학습 기술을 개발하는가?) 
  • CBME의 결과물(예:
    • CBME 프로그램 졸업생이 환자 중심 치료에서 향상된 기술을 보여주는가? 의사소통? 전문직업성?). 

The need for proof that CBME ‘works’ is related to the logistics of CBME, in that evidence of the outcomes of CBME is needed to justify the financial and human costs of CBME. Relatedly, making CBME ‘work’ requires money, people, time, and faculty development – but what is the right combination of logistics to achieve desired outcomes of CBME? While there was an observed increase over time in the number of published studies that included evaluation data, these evaluation studies only comprised 25.3% of the included articles. Future research is needed that examines both the effectiveness of

  • the process of training (e.g.
    • does the CBME focus on coaching and developmental trajectory result in learners who adopt a growth mindset?
    • Do these learners develop effective lifelong learning skills?) as well as
  • the products of CBME (e.g.
    • do graduates of CBME programs demonstrate improved skills in patient-centered care? Communication? Professionalism?).

[CBME가 '효과가 있다'는 것을 증명하는 하나의 연구]가 아니라, [단기 및 장기 결과와 결과물을 포함하여 CBME가 원하는 결과의 여러 측면에 대한 증거를 모아야 합니다]. 또한 CBME의 과정과 결과를 조사하는 [하나의 표준 방법은 존재하지 않을 것]입니다. 이미 학습 분석, 실행 과학, 학습자 민감 품질 측정과 같은 새로운 방법론과 접근법을 채택한 연구와 적절한 전통적 접근법을 사용한 새로운 연구 결과가 발표되기 시작하고 있습니다. 부록 B는 CBME를 탐구하는 방법을 보여 주며, 향후 CBME의 설계, 실행 및 평가를 연구하는 데 새로운 방법을 사용할 수 있습니다.

There will not be one study that proves that CBME ‘works’, but rather a collection of evidence about multiple facets of the desired results of CBME, including short term and long term outcomes and products. There will also not be one standard method to examine the process and outcomes of CBME. We are already beginning to see published research employing novel methodologies and approaches such as learning analytics, implementation science, and learner-sensitive quality measures, as well as new findings using appropriate traditional approaches. Supplementary Appendix B illustrates the methods by which CBME is explored, which may lead to using new methods to study the design, implementation, and evaluation of CBME in the future.

[역량 정의 내리기]와 관련된 과제는 시간이 지남에 따라 문헌에서 볼 수 있듯이 명백하면서도 미묘합니다. 이 과제의 명백한 측면은 [(모든) 전공과목을 개별 역량으로 추출하는 것이 가능한지, 그리고 그렇게 해야 하는지] 여부를 다루는 주요한 문헌적 대화 중 하나를 구성합니다. 이 대화는 주로 관점과 논평에 등장했습니다. 프로그램 설명에는 종종 전문 분야에서 사용하는 역량 프레임워크(또는 역량 목록)에 대한 언급이 포함되기도 했습니다. 그러나 이 문제는 적절한 연구 질문을 구성하는 것조차 거의 불가능할 정도로 연구하기 어려운 과제입니다. 
The challenges associated with defining competencies are both obvious and subtle, as seen in the literature over time. The obvious aspect of this challenge makes up one of the dominant literary conversations, which addressed whether it is possible to distill a (any) specialty into individual competencies – and whether it should be done. This conversation primarily appeared in perspectives and commentaries. Program descriptions often included some mention of the competency frameworks (or lists of competencies) being used by a specialty. However, this challenge is a difficult one to research – even framing an appropriate research question is nearly impossible.

향후 연구를 위한 이 범주의 더 풍부한 요소는 [역량 정의의 더 미묘한 측면]과 관련이 있으며, CBME의 유망한 담론에 도달합니다. 특히, 전문 분야에 대해 정의된 역량이 [사회적 책무성 렌즈]를 통해 결정되는지(그리고 어느 정도까지 그러한지) 조사하기 위해서는 향후 연구가 필요합니다.

  • 교육자들은 특정 전문 분야에 대한 역량 프레임워크를 개발하거나 수정할 때 현재 및 예상되는 커뮤니티의 요구를 고려합니까?
  • 사회적 책임은 역량 프레임워크에 어떻게 고려되거나 통합되며, 전문 분야별로 차이가 있나요?

이러한 질문은 이 범주에 대해 탐구해야 할 연구 질문 중 일부에 불과하지만, CBME에서 사회적 책임의 역할은 그 자체로 향후 연구가 필요한 영역입니다.

The richer element of this category for future research relates to the more subtle aspect of defining competencies – and gets to the promissory discourse of CBME. Specifically, future research is needed to examine whether (and to what extent) the competencies defined for a specialty are determined through a social accountability lens.

  • Do educators consider current and anticipated community needs in developing or revising competency frameworks for a given specialty?
  • How is social accountability considered or incorporated into competency frameworks – and does it differ by specialty?

These are only some of the research questions that need to be explored for this category, although the role of social accountability in CBME is an area of need for future research in and of itself.

[역량을 정의하는 데 따르는 어려움]은 [역량을 평가하는 방법에 대한 논쟁 및 불확실성]의 범주와도 겹치는데, 이는 무엇을 평가할 것인가가 평가 방법과 불가분의 관계에 있기 때문입니다. 역량을 평가하는 방법에 대한 질문은 아마도 CBME 문헌에서 [가장 두드러진 까다로운 문제]일 뿐만 아니라, 포함된 문헌에서 [가장 일관되고 지속적인 문학적 대화] 중 하나이기도 합니다. 평가 문제는 1990년에 문학적 대화에 나타나기 시작했지만, 2010년부터 주관적 평가와 객관적 평가, 학습에 대한 형성 평가와 총체적 평가 사이의 긴장, 평가에서 학습자의 역할에 대한 여러 가지 분기의 문학적 대화를 확인했습니다. 흥미롭게도 평가는 위에서 논의한 주제 분석에서도 확인된 주제 중 하나이지만, 평가의 어려움/불확실성/회의론에 대한 대화는 평가와 관련된 인식된 장점, 단점 및 권장 사항에 대한 대화와는 맥락적으로 매우 달랐습니다. 이처럼 개별적이지만 서로 연관된 많은 문학적 대화는 각각 향후 연구를 위한 풍부한 기회를 제공하지만, CBME에서 평가에 대한 문학적 논의가 널리 퍼지면서 똑같이 중요한 다른 문학적 대화가 소외되었을 수 있다는 점은 우려스러운 부분입니다.
Challenges in defining competencies also overlap with the category of debates and uncertainties about how to assess competence, because what to assess is inextricably entwined with how to assess. The question of how to assess competence is possibly the preeminent wicked problem in the CBME literature, as well as one of the most consistent and persistent literary conversations in the included literature. Although assessment challenges began to appear in literary conversations in 1990, we identified multiple branching literary conversations starting in 2010 about subjective versus objective assessment, the tension between formative assessment for and summative assessment of learning, and the learner role in assessment. Interestingly, the assessment was also one of themes identified in the thematic analysis discussed above; however, the conversations about the challenges/uncertainties/skepticism of assessment were contextually very different from conversations about perceived advantages, disadvantages, and recommendations related to assessment. While these many separate but related literary conversations each offer rich opportunities for future research, it is concerning that the prevalence of literary discussions of assessment in CBME may have sidelined some of the other literary conversations that are equally important.

평가에 대한 대화의 유행으로 인해 [소외되었을 수 있는 문학적 대화]의 한 가지 예는 [CBME와 사회적 책무에 대한 대화]입니다. CBME의 사회적 영향에 대한 문학적 대화는 2000년까지 등장하지 않았지만, CBME가 더 큰 선을 위한 것이라는 기본 가정을 다루고 있습니다. CBME의 핵심 목표 중 두 가지는 [환자 치료 결과 개선]과 [사회적 책무]이지만, 관련 결과를 조사한 연구는 아직 많이 발표되지 않았습니다. 환자 건강을 CBME의 결과로 바라보는 연구가 절실히 필요하지만, 개인의 건강이나 환자 결과에 기여하는 다면적이고 매우 복잡한 상호 관련 요인으로 인해 이러한 종류의 연구를 수행하는 데는 극복할 수 없는 어려움이 있을 수 있습니다. [CBME, 사회적 책임, 개선된 환자 치료 결과 사이의 연관성]에 대한 유망한 담론에서 CBME의 효과(또는 아마도 효능)는 파악하기 어렵습니다. 최근 몇 년 동안 출판된 문헌에서 이 분야가 증가하고 있는 것은 분명하지만, 프로그램 평가 연구와 CBME의 장기적 결과에 대한 연구는 CBME의 유망한 담론을 재검토하고 복잡한 비선형 다층 시스템(예: 교육 시스템 및 의료 시스템)의 더 큰 맥락에서 교육 혁신의 실현 가능한 결과와 성과를 확립하는 등 향후 연구의 핵심 영역입니다.
One example of a literary conversation that may have been sidelined by the prevalence of conversations about assessment is that of CBME and social accountability. While literary conversations about the societal impacts of CBME did not appear until 2000, they do address the underlying assumptions that CBME is for the greater good. Two of the core aspirational goals of CBME are improved patient outcomes and social accountability, yet there is a paucity of published studies examining related outcomes. Research is keenly needed that looks at patient health as an outcome of CBME, although there are perhaps insurmountable challenges in carrying out this kind of research due to the multi-faceted and highly complex inter-related factors that contribute to any individual health or patient outcome. In the promissory discourse about the link between [CBME, social accountability, and improved patient care outcomes], the effectiveness (or, perhaps, efficacy) of CBME is elusive. While this is certainly a growing area of the published literature in recent years, program evaluation studies and studies of long-term outcomes of CBME are a key area for future research, including revisiting the promissory discourse of CBME and establishing feasible outputs and outcomes of an education innovation housed within the greater context of complex non-linear multilayered systems (i.e. education system and healthcare system).

그림 1에서 볼 수 있듯이 CBME 문헌은 방대하기 때문에 한 번의 범위 검토로 모든 측면을 파악할 수는 없습니다. 저희는 시간이 지남에 따라 긍정적이든 부정적이든 서로 다른 문학적 대화를 이해하는 데 초점을 맞추기로 했습니다. 독자들은 8개의 핵심 주제와 히트 맵으로 정보를 통합한 것 외에도 문헌에 대한 종합적인 개요를 제공하는 두 개의 부록을 통해 최신 과학 현황을 파악할 수 있습니다. 이러한 리소스를 통해 독자는 정보를 직접 종합하고 변화의 생태학(함자와 레게르 2021)을 고려할 때 새로운 것을 맥락에서 구현할 때 스스로 판단할 수 있습니다.
As shown in Figure 1, the CBME literature is massive; one scoping review cannot capture all aspects. We chose to focus on making sense of the disparate literary conversations over time, both positive and negative. Readers can go beyond our consolidation of information into eight key themes and the heat map of frequencies: we have also created the two Supplementary Appendices, which serve as a state of the science comprehensive overview of the literature. These resources allow readers the opportunity to engage in their own synthesis of the information and form their own judgements when considering the ecology of change (Hamza and Regehr 2021) when implementing something new in a context.

제한 사항
Limitations

모든 연구와 마찬가지로 한계가 있습니다. 리소스 제약으로 인해 영어로만 작성된 논문만 포함하도록 검색을 제한했으며, 기존 연구에서는 이러한 제한이 전통적인 체계적 문헌고찰에 미치는 영향이 미미한 것으로 나타났지만(Morrison 외. 2012), CBME에 대한 모든 문헌적 대화를 포착하려는 범위 검토를 수행할 때는 이러한 제한이 더 중요한 한계가 될 수 있습니다. 향후 계획에는 CBME의 시행과 관련된 급속한 발전과 그에 따른 문학적 대화의 물결로 인해 이 범위 검토를 주기적으로 업데이트하는 것이 포함됩니다.
As with any research study, there are limitations. Due to resource constraints, we limited the search to include articles written in English only, and while prior work has shown minimal impact of this limitation in traditional systematic reviews (Morrison et al. 2012), this may be a more significant limitation when conducting a scoping review that attempts to ensure all literary conversation about CBME are captured. Future plans include updating this scoping review periodically because of the rapid advancements associated with the implementation of CBME and subsequent waves of literary conversations.

결론
Conclusion

지난 50년 동안 CBME에 대한 문학적 논의는 CBME의 철학적 토대와 장점을 강조하는 것에서 실제 단어 맥락에서 이 모델의 실제 적용을 논의하고 연구하는 것으로 변화해 왔습니다. 이 범위 검토는 문학적 대화의 지도를 제공하며 독자가 CBME 문헌의 다양한 대화를 이해하는 데 도움이 되는 초기 리소스 역할을 합니다. 또한 이 연구의 결과는 교육자와 학자가 필요한 연구 및 평가의 개발을 안내하기 위해 해결해야 할 격차를 식별하는 데 도움이 되는 리소스입니다.

Over the past five decades there has been a shift in the literary conversations of CBME from highlighting the philosophical underpinnings and advantages of CBME to discussing and studying practical application of this model in the real-word context. This scoping review provides a map of the literary conversations and serves as an initial resource to help readers to make sense of the different conversations in the CBME literature. Further, the findings from this study are a resource for educators and scholars to identify gaps that need to be addressed to help guide the development of needed research and evaluation.

 

 


 

Med Teach. 2023 Jan 20;1-14. doi: 10.1080/0142159X.2023.2168525. Online ahead of print.

Making sense of competency-based medical education (CBME) literary conversations: A BEME scoping review: BEME Guide No. 78

Affiliations collapse

1Postgraduate Medical Education, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

2Department of Medicine, University of California, San Francisco, CA, USA.

3Division of Rheumatology, Department of Medicine, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

4Royal College of Physicians and Surgeons of Canada, Ottawa, Canada.

5Department of Pediatrics, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

6Undergraduate Medical Education, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

7Global Health, School of Public Health, University of Alberta, Edmonton, Canada.

8Department of Educational Psychology, School and Clinical Child Psychology, University of Alberta, Edmonton, Canada.

9Alberta Strategy for Patient-Oriented Research (SPOR) SUPPORT Unit Knowledge Translation Platform, University of Alberta, Edmonton, Canada.

10Department of Family Medicine, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

PMID: 36668992

DOI: 10.1080/0142159X.2023.2168525

Abstract

Background: Competency-based medical education (CBME) received increased attention in the early 2000s by educators, clinicians, and policy makers as a way to address concerns about physician preparedness and patient safety in a rapidly changing healthcare environment. Opinions and perspectives around this shift in medical education vary and, to date, a systematic search and synthesis of the literature has yet to be undertaken. The aim of this scoping review is to present a comprehensive map of the literary conversations surrounding CBME.

Methods: Twelve different databases were searched from database inception up until 29 April 2020. Literary conversations were extracted into the following categories: perceived advantages, perceived disadvantages, challenges/uncertainties/skepticism, and recommendations related to CBME.

Results: Of the 5757 identified records, 387 were included in this review. Through thematic analysis, eight themes were identified in the literary conversations about CBME: credibility, application, community influence, learner impact, assessment, educational developments, organizational structures, and societal impacts of CBME. Content analysis supported the development of a heat map that provides a visual illustration of the frequency of these literary conversations over time.

Conclusions: This review serves two purposes for the medical education research community. First, this review acts as a comprehensive historical record of the shifting perceptions of CBME as the construct was introduced and adopted by many groups in the medical education global community over time. Second, this review consolidates the many literary conversations about CBME that followed the initial proposal for this approach. These findings can facilitate understanding of CBME for multiple audiences both within and outside of the medical education research community.

Keywords: Competency-based medical education; evaluation; implementation; medical education; scoping review.

 

대규모 의과대학 교육과정에서 프로그램 평가에 대한 학생들의 관점: 비판적 현실주의자 분석(Med Educ, 2022)
Student perspectives on programmatic assessment in a large medical programme: A critical realist analysis
Chris Roberts1 | Priya Khanna1 | Jane Bleasel1 | Stuart Lane1 | Annette Burgess1 | Kellie Charles1,2 | Rosa Howard1 | Deborah O'Mara1 | Inam Haq3 | Timothy Rutzou4 

 

 

1 서론
1 INTRODUCTION

[총괄적 고부담 의사결정]을 통해 [학습의 평가]를 강조하는 전통적인 평가 시스템은 의과대학 졸업생이 급변하는 의료 시스템에 진입하는 데 필요한 복잡한 역량에 대한 정보가 충분하지 않다는 비판을 받아왔습니다.1-6 이에 대한 대안으로 프로그램 평가는 프로그램 수준 학습 결과의 달성 및 평가를 강화하기 위해 [정보가 풍부하고 시기 적절하며 지속 가능한 프로세스]를 제공합니다. 이는 아래 평가의 세 가지 주요 기능에 대한 설계 원칙을 제공합니다.7

  • [학습 촉진(학습을 위한 평가)],
  • [학생 진도에 대한 의사 결정 강화(학습에 대한 평가)],
  • [교육과정과 평가 간의 연계성 보장] 등 

Traditional assessment systems that emphasise the assessment of learning though summative high-stakes decision making have been critiqued for providing insufficient information about the complex competencies medical graduates require for entering rapidly changing health systems.1-6 As an alternative, programmatic assessment provides an information rich, timely and sustainable process for strengthening the attainment and assessment of programme-level learning outcomes. It provides design principles around three key functions of assessment:

  • promoting learning (assessment for learning),
  • enhancing decision making about student progression (assessment of learning) and
  • quality assuring the linkage between curriculum and assessment.7 

[프로그램 평가] [의도적으로 선택한 여러 평가] [일정 기간 동안 결합]하여 [다양한 역량 결과 영역]에서 학습자의 [진도에 대한 삼각형 정보의 종적 흐름]을 생성함으로써 [학습을 위한 평가]를 지원합니다.8 이러한 데이터 포인트를 수집하고 대조하는 것은 교수진이 [학생의 진도에 대한 집단적 의사 결정을 내릴 수 있는 근거]를 제공할 뿐만 아니라(학습에 대한 평가) 학습자에게 개별화된 피드백의 풍부한 소스를 제공합니다(학습을 위한 평가).7 

Programmatic assessment supports assessment for learning by using purposefully selected multiple assessments combined over a period of time to create a longitudinal flow of triangulated information about a learner's progress in various competency outcome areas.8 Collecting and collating these data points not only provide a basis for collective decision making on student progress by faculty (assessment of learning) but provides a rich source of individualised feedback to learners (assessment for learning).7 

[프로그램 평가의 기본 이론과 원칙]은 문헌에 자세히 설명되어 있습니다.7-11 그럼에도 불구하고 복잡하고 역동적이며 다단계 시스템을 포함하는 다양한 맥락에서 취하는 실행 접근법에 대한 이해는 제한적입니다.12, 13 [프로그램식 평가]가 [어떻게, 누구를 위해, 어떤 맥락에서 작동하는지]에 대한 이론적 근거에 기반한 설명으로 뒷받침되는 경험적 데이터를 제공하는지에 대한 연구]는 거의 없습니다.14-16 이러한 실용적 접근 방식은 [비판적 현실주의 및 현실주의 평가]에서 사용되며,17 일반적으로 ["무엇이 효과가 있는가?"]라고 묻는 전통적인 평가 연구 접근 방식과 대조됩니다.18 따라서 연구자가 프로그램 평가와 같은 복잡한 교육 개입의 영향을 고려할 때 적절한 질문을 할 수 있도록 적절한 연구 방법론을 추가로 개발할 필요가 있습니다.19 경험적 데이터가 없으면 교육자가 전통적으로 평가 경험이 지배적인 프로그램 평가 도입에 대해 정보에 근거한 결정을 내리는 것이 어렵습니다. 

The underlying theory and principles of programmatic assessment have been described in detail in the literature.7-11 Notwithstanding, there is limited understanding of implementation approaches taken across different contexts that involve complex, dynamic and multilevel systems.12, 13 Few studies provide empirical data supported by theoretically informed explanations of how programmatic assessment is working, for whom and in what context?14-16 This pragmatic approach is used in critical realist and realist evaluation,17 contrasting with traditional approaches to assessment research that typically asks, “what works?”18 There is thus a need to further develop appropriate research methodologies to ensure researchers are asking the appropriate questions when considering the impact of a complex educational intervention such as programmatic assessment.19 Without empirical data, it is difficult for educators to make informed decisions about introducing programmatic assessment, where the prevailing experience of assessment is often traditionally based.

이 논문에서는 [비판적 현실주의(CR, 이하 CR) 이론 프레임워크]의 연구 결과가 프로그램 평가와 관련된 설계 및 구현 문제를 향후 반복에 최적화할 수 있는 방법에 대한 통찰력을 제공할 수 있다는 개념을 탐구함으로써 프로그램 평가에 대한 현재 연구를 확장합니다. 호주의 한 연구 집약적 대학에서 새로운 의학 대학원 커리큘럼의 첫해에 [학습을 위해 의도적으로 설계된 프로그램적 평가]가 시행되었을 때 이를 연구할 기회가 생겼습니다. 우리는 어떤 상황에서 어떤 프로그래밍 방식의 평가 요소가 학생들의 학습에 도움이 되는지, 왜 그렇게 생각하는지 탐구하고 싶었습니다. 이러한 맥락에서 연구 목표를 달성하기 위한 CR 접근 방식을 설명하기 위해, 우리는 연구 맥락에서 어떻게 작동하도록 의도되었는지에 대한 초기 이론을 강조하면서 전반적인 프로그램식 평가 설계를 설정했습니다. 그런 다음 이론에 기반한 방법론적 접근 방식을 설명하고 중요한 연구 목표와 연구 질문을 설정합니다.
In this paper, we extend current research on programmatic assessment by exploring the notion that findings from a critical realist (CR, hence forth) theoretical framework can provide insights into how design and implementation issues related to programmatic assessment can be optimised for future iterations. An opportunity to study this arose when a purposively designed programmatic assessment for and of learning was implemented in the first year of a new graduate medical curriculum at a research-intensive university in Australia. We wished to explore which elements of programmatic assessment seemed to be valuable for students' learning, under what circumstances, and why this was so. To explain our CR approach for meeting our research goals in this context, we set out our overall programmatic assessment design emphasising the initial theories of how it was intended to work in our research context. Then, we describe our theoretically driven methodological approach and set out our overarching study aims and research questions.

1.1 연구 맥락
1.1 Research context

2020년에 261명의 1학년 학생을 대상으로 하는 새로운 4년제 대학원 입학 MD 커리큘럼이 시작되었습니다. 이 커리큘럼에는 강화되고 다양한 임상 몰입도, 콘텐츠 전달에 대한 플립형 강의실 접근 방식, 커리큘럼 주제의 수평적 및 수직적 연계 등 이전 커리큘럼과 다른 몇 가지 변화가 포함되었습니다. [프로그램식 평가의 도입]은 여러 가지 형성 평가와 필기시험과 같은 주요 요약 평가, 임상 술기에 대한 객관적이고 구조화된 평가로 이루어진 기존의 평가 시스템에서 상당한 변화를 수반하는 복잡한 개입이었습니다. 이 프로그램 시스템은 [일련의 현지 워크숍]과 [네덜란드, 호주, 뉴질랜드의 주요 평가 전문가들과의 협의]를 통해 고안되었으며, [관련 문헌을 검토]했습니다. 그러나 코호트 규모, 이전 요약 평가 프레임워크에 대한 교수진의 경험, 현지 대학 평가 규정 및 요구 사항으로 인해 이론적 원칙을 상황에 맞게 실용적으로 조정할 필요가 있었습니다. 코로나19 팬데믹은 온라인 교수-학습 모드로의 전환이라는 측면에서 새로운 커리큘럼의 여러 측면을 구현하는 데 영향을 미쳤지만 커리큘럼 설계와 프로그램 평가를 뒷받침하는 프로그램 이론에는 큰 영향을 미치지 않았습니다.
A new 4-year graduate-entry MD curriculum commenced in 2020 for 261 Year 1 students. It involved several changes from the prior curriculum including enhanced and diverse clinical immersion, a flipped classroom approach to content delivery, and horizontal and vertical linkages of curricular themes. Introducing programmatic assessment was a complex intervention involving a significant shift from the previous system of assessment that was traditional in the sense of having several formative assessments and major summative assessments such as written tests and the objective structured assessments of clinical skills. The programmatic system was devised through a series of local workshops, consultations with leading assessment experts in the Netherlands, Australia and New Zealand, and was cognisant of the relevant literature. However, cohort size, faculty experience with previous summative assessment frameworks, and local university assessment regulations and requirements required several contextualised and pragmatic adaptations to the theoretical principles. The COVID-19 pandemic influenced the implementation of several aspects of the new curriculum in terms of a shift towards online teaching-learning modes but did not significantly impact the programme theories underpinning both the curriculum design and programmatic assessment.

1.2 시행된 프로그램 평가의 초기 프로그램 이론
1.2 Initial programme theories of implemented programmatic assessment

저희 버전의 프로그램적 평가는 [임상 역량에 대한 복잡성 일관된 관점]에 부합하도록 설계되었습니다. 전반적인 프로그램 설계에 대한 시스템 접근법을 고려할 때, 프로그램적 평가 접근법은 교육과정의 특징을 구성하는 몇 가지 필수 요소 중 하나를 제공했습니다.20 [프로그램적 평가]는 이전 평가 시스템의 학습 및 의사결정 기능을 모두 강화하기 위한 것이었습니다.8, 9 여기에는 다양한 신규 및 개정 평가 도구와 완성된 평가 제출에 대한 명확한 규칙 및 학생 행동에 대한 기대치를 가진 개선된 구조가 포함되었습니다. [평가 프로그램의 타당성에 대한 논거]는 전체 프로그램 내의 특정 목적에 따라 다양한 평가 도구를 신중하게 조합한 것에 근거했습니다.11 [공정성]은 모든 학습자가 동일한 수준의 평가를 받는다는 [형평성]의 관점에서 다루어졌습니다.21 학습자에 대한 정보는 맞춤형 e포트폴리오를 구성하는 학생 진도 기록(SPR) 내에서 [Collected(종단적)되고 Collated(삼각측량)]되었습니다. 이는 크게 [세 가지 요소], 즉 [기초 및 임상 과학 지식에 대한 학생의 이해, 임상 기술 역량, 전문성 관련 측면]으로 구성되었습니다. 평가 프로그램의 핵심 요소와 초기 프로그램 이론과의 관계에 대한 자세한 내용은 표 1에 나와 있습니다.

Our version of programmatic assessment was designed to align with complexity-consistent views of clinical competence. In considering a systems approach to overall programme design, a programmatic assessment approach provided one of several integral components that made up the features of the curriculum.20 The programmatic assessment was intended to strengthen both the learning and decision-making functions of the prior assessment system.8, 9 It included various new and revised assessment tools and improved structure with clear rules for submitting completed assessments and expectations of student behaviours. The argument for the validity of our programme of assessments was based on the carefully tailored combination of various assessment instruments depending on the specific purposes within the overall programme.11 Fairness was addressed from a perspective of equity, that is, all learners receiving the same quality of assessment.21 Information about learners was collected (longitudinally) and collated (triangulation) within a student progress record (SPR) that constituted a bespoke ePortfolio. This consisted of three broad elements: students' understanding of basic and clinical science knowledge, competence in clinical skills, and professionalism related aspects. The details of the key elements of the programme of assessment and their relation to the initial programme theory are given in Table 1.

1.3 CR 연구 프레임워크
1.3 CR research framework

프로그램식 평가를 [복잡한 사회 현상]으로 볼 때, 우리는 기본 설계, 프로그램식 평가의 맥락적 구현 및 학생 학습에 미치는 영향 사이의 복잡한 관계와 인과 메커니즘(작동 방식)을 풀고 이해하기 위해 [CR 관점]을 사용했습니다. 우리가 아는 한, CR은 의학 및 보건 과학 교육 내에서 [평가 시스템]을 고려하기 위해 경험적으로 적용된 적이 없습니다. 전통적인 [실증주의] 및 [해석주의] 입장에 더 익숙한 많은 보건 전문 교육자에게 CR은 비교적 새로운 패러다임일 수 있습니다. 세 가지 패러다임은 연구 현상의 실재가 어떻게 결정되는지에 대해 각각 뚜렷한 입장을 가지고 있습니다.35, 36

  • [실증주의와 사회 구성주의]는 실재를 '평면적'이고 인간의 해석으로 환원된다고 가정하여 연구 현상에 대한 제한된 관점을 제시합니다.
  • 반면에 [CR][현실이 계층화]되어 있고 [인과적 효능(효과나 결과를 유발하는 능력)이 있다]고 가정하며 [귀납보다 더 광범위한 추론 기법]을 통해 이해할 수 있습니다.35

In viewing programmatic assessment as a complex social phenomenon, we used a CR stance to unpack and understand the complex relationships and causal mechanisms (ways of working) between the underlying design, the contextual implementation of programmatic assessment and their impacts on student learning. To the best of our knowledge, CR has not been applied empirically to consider assessment systems within medical and health science education. CR might be a relatively new paradigm for many health professional educators more familiar with traditional positivist and interpretivist positions. Each of the three paradigms has a distinct position as to how the reality of any research phenomenon is determined.35, 36 

  • Positivism and social constructivism assume reality to be ‘flat’ and reduced to human interpretation and thus offering limited perspectives of the research phenomena.
  • CR, on the other hand, assumes reality to be stratified and causally efficacious (an ability to cause an effect or outcome) and can be understood through a broader range of inferential techniques than induction.35


본 연구의 연구 프레임워크는 CR 관점을 사용하여 두 가지 관점에서 도출된 프로그램 평가를 다루는 이전 연구18에서 형성되었습니다.

  • 첫째, 현실을 세 가지 영역(경험적, 실제적, 실재적)으로 계층화하는 바스커의 이론(그림 1 참조)과 
  • 둘째, 아처의 구조 및 대리인 이론37 

Our research framework in this study was shaped by our previous work,18 which used a CR perspective to address programmatic assessment derived from two perspectives:

  • first, Bhasker's stratification of reality into three domains (the empirical, the actual and the real) (see Figure 1); and
  • second, Archer's theory of structure and agency.37 

바스카의 계층화 개념을 통해 학생의 프로그램 평가 경험을 형성하는 [현실의 세 가지 교차 영역]으로 분리할 수 있었습니다.36, 38, 39 그림 1 참조.

  • 경험적(관찰 및 경험에서 수집한 데이터),
  • 현실적(학생이 평가 프로그램 내에서 보고하는 사건 또는 비사건),
  • 실재적(근본적인 인과 구조 및 메커니즘)

Bhaskar's concept of stratification allowed us to disentangle three intersecting domains of reality that shape the student experience of programmatic assessment:

  • the empirical (data gathered from observations and experiences),
  • the actual (events or non-events that students report within the assessment programme) and
  • the real (underlying causal structures and mechanisms).363839 See Figure 1.

임상 진단의 비유는 현실을 [세 가지 영역(경험적, 현실적, 실재적)으로 계층화]할 수 있는 방법을 설명하는 데 사용될 수 있습니다. 프로그램적 평가와 관련된 경험(즉, 개인 수준에서 기록된 실제 사건)은 환자가 의사에게 제시할 수 있는 증상 및 징후와 유사합니다.40

  • [경험적 수준]은 측정 가능하고 평가 가능한 데이터를 제공하는 병력 및 검사와 유사한 개인(환자)의 경험을 포착합니다.
  • [인과적 구조와 메커니즘]은 [실재적]이며, [현실적 수준]과 [경험적 수준] 모두에서 구별되고 잠재적으로 다르며, 환자의 근본적인 병리 및 진단과 유사합니다.

The analogy of clinical diagnosis can be used to illustrate how reality can be stratified into three domains (the empirical, the actual and the real). The experiences associated with programmatic assessment (i.e., actual events recorded at the individual level) are akin to the symptoms and signs that a patient might present to a doctor.40 

  • The empirical level captures the experiences of the person (patient) that are akin to a history and examination in providing measurable and assessable data.
  • Causal structures and mechanisms are real, distinct and potentially different from both the actual and the empirical and are akin to the underlying pathology and diagnosis of the patient.

[아처의 CR 관점]을 통해 [평가 관행의 변화에 기여하고 영향을 미칠 수 있는 [구조, 문화, 행위자성] 간의 복잡한 인과적 상호 작용]을 탐구할 수 있었습니다.37 이 연구 맥락에서

  • [구조]는 정책, 직위, 자원 및 관행을 설명하는 반면,
  • [문화]는 평가 시스템과 관련된 의미, 신념, 규범 및 아이디어의 체계를 설명합니다.

시간이 지남에 따라 [구조][문화]가 인간의 [행위자성]과 함께 복잡하게 상호작용하면41-43 필연적으로 

  • 아처가 '형태 형성'이라고 부르는 [주기적인 역동적 변화]가 발생하거나
  • '형태 정체'44라고 부르는 [동일성 유지]가 발생합니다(그림 2 참조).

Archer's CR perspective allowed us to explore the complex causal interplays between structure, culture and agency that might contribute to and impact the transformation of assessment practices.37 In our research context,

  • structure describes the policies, positions, resources and practices,
  • whilst culture describes the system of meanings, beliefs, norms and ideas associated with systems of assessment.

The complex interplay over time between structure and culture, together with human agency,41-43 inevitably results in

  • cyclical dynamic change referred to by Archer as ‘morphogenesis’, or
  • staying the same, referred to as ‘morphostasis’44 (see Figure 2).

1.4 연구 목표 및 연구 질문
1.4 Study aims and research questions

이 연구의 목적은 [CR 관점]에서 [프로그램적 평가의 어떤 요소가 학습에 영향을 미치는지, 그리고 그 이유는 무엇인지]에 대한 학생들의 인식을 탐구하는 것이었습니다.
The purpose of this study was to explore from a CR perspective, students' perceptions of which elements of programmatic assessment influenced their learning and why.

[구체적인 연구 질문]은 다음과 같습니다:
Our specific research questions were as follows:
  1. [새로운 평가 시스템의 특징feature]이 학생들의 학습 요구 사항을 지시하는 능력에 어느 정도 영향을 미쳤습니까?
  2. [평가 형식, 규칙 및 관행]을 탐색하는 데 있어 학생들의 경험은 어땠나요?
  3. 교수진 및 동료와 같은 새 커리큘럼 내의 [다양한 주체와의 상호 작용]이 학생들의 프로그램 참여에 어떤 영향을 미쳤습니까?
  4. [학생들의 인식과 경험에 대한 근본적인 설명]은 무엇이며 [프로그램 평가의 성장과 지속 가능성]에 어떤 영향을 미칠 수 있나요?
  5. To what extent did the features of the new assessment system influence students' ability to direct their learning needs?
  6. What were students' experiences in navigating assessment formats, rules and practices?
  7. How did the interactions with various entities within the new curriculum such as faculty and peers influence students' engagement with the programme?
  8. What were the underlying explanations of students' perceptions and experiences and how might they influence growth and sustainability of programmatic assessment?

이러한 질문은 실제로 무엇이 효과가 있는지, 어떻게 그리고 왜 효과가 있는지에 대한 풍부한 이론 기반 설명을 제공하여 평가 프로그램과 추가 반복에서 학생 경험을 최적화하는 데 중요하기 때문에 중요합니다.
These questions are important as they provide rich and theory-based explanations of what is really working, how and why it is working, to optimise the programme of assessment and the student experiences in further iterations.

2 방법
2 METHODS

2.1 연구 설계
2.1 Study design

우리는 비판적 현실주의에 기반한 질적 방법론을 사용하여 프로그램 평가의 다양한 측면에 대한 학생들의 인식에 미치는 영향을 탐구하여 연구 질문을 해결했습니다.
We addressed our research questions using a qualitative methodology drawing on critical realism to explore the influences on students' perceptions of various aspects of the programmatic assessment.

2.2 데이터 수집
2.2 Data collection

데이터는 프로그램 첫 해 동안 일주일에 하루씩 학생들이 근무하는 7개 교육 병원 중 6개 병원(병원당 15~52명 범위)의 10개 심층 포커스 그룹(총 n = 112/261, 학생 코호트의 43%)으로부터 수집했습니다. 코호트 인구 통계는 표 2에 나와 있습니다. 모집을 위해 학생들에게 연구에 대해 알리고 소속 임상학교에서 포커스 그룹에 참석하도록 초대했습니다. 초기 샘플링 전략은 적당히 이루어졌으며, 약 20명의 학생이 학습 도우미 시스템에 대해 보고할 수 있는 [충분한 정보력]45을 제공할 것으로 예상했습니다. 그러나 평가 변경에 대한 학생들의 의견을 듣고자 하는 학생들의 관심을 고려하여 추가 포커스 그룹을 마련했습니다.
Data were collected from 10 (labelled A–J) in-depth focus groups (total n = 112/261, 43% of student cohort) across six of the seven teaching hospitals in which students were based (in range 15–52 students per site) for 1 day a week during the first year of the programme. Cohort demographics are illustrated in the Table 2. For recruitment, students were made aware of the study and invited to attend a focus group at their home clinical school. The initial sampling strategy was modest and anticipated that around 20 students would have provided sufficient information power45 to report on the learning advisor system. However, additional focus groups were arranged to account for student interest in having their voices heard about the assessment changes.

동의를 받은 후 인터뷰는 각각 40분에서 60분 동안 진행되었으며 PK, CR, AB 및 SL이 진행했습니다. 초기 인터뷰 가이드는 문헌에서 얻은 통찰력, 사전 이론화18 및 저자들의 전년도 초기 학습 어드바이저 파일럿 평가 경험을 바탕으로 개발되었습니다. 인터뷰 일정에서 질문은 [학습 어드바이저가 평가로서, 또는 평가를 위해 학생의 학습을 지원하거나 도전하는 방식에 초점]을 맞춰 학생들의 [프로그램 평가 경험]을 이끌어내기 위해 고안되었습니다. 그러나 포커스 그룹을 진행하는 동안 학생들이 학습 조교 시스템뿐만 아니라 프로그램식 평가 시스템 전반에 대해 공유하고 싶은 중요한 통찰력을 가지고 있다는 것이 분명해졌습니다. 따라서 포커스 그룹은 학생들이 학생 역량에 대한 판단, 학습 활동과 평가의 적합성 등 프로그램식 평가 시스템에 대한 인식을 자세히 설명할 수 있는 [대화 형식]으로 진행되었습니다. 오디오 테이프는 비식별화되고 그대로 전사되어 대학 데이터 보호 시설에 보관되었습니다.
Having been consented, interviews lasted from 40 to 60 min each and were conducted by PK, CR, AB and SL. An initial interview guide was developed from insights from the literature, prior theorising18 and the authors' experience of an initial learning advisor pilot evaluation in the previous year. In the interview schedule, questions were designed to elicit students' experiences of programmatic assessment focussing on the ways in which learning advisors supported or challenged student learning as and for assessment. However, during focus groups, it became clear that students had significant insights they wished to share on not just the learning advisor system but with the programmatic assessment system as a whole. Accordingly, focus groups were conducted as a conversation allowing students to elaborate on their perceptions of the programmatic assessment system including judgements of student competence and the fit of assessment with learning activities. Audiotapes were deidentified, transcribed verbatim and stored on the university data protection facility.

2.3 데이터 분석
2.3 Data analysis

우리는 프로그래밍 방식의 평가에 대한 [학생의 경험을 형성하는 근본적인 인과 메커니즘]을 밝히고자 했습니다. CR 프레임워크에 따라 데이터 분석 및 종합은 [선형적이기보다는 동적]으로 이루어졌으며, [반복적으로 수행되는 세 단계의 추론]이 포함되었습니다. 전체 데이터에 대한 이해를 보장하기 위해 연구자 간 관점의 차이는 회의(대면, 화상 회의 및 이메일)와 연구 자료의 화이트보드를 통해 조정되었습니다. 데이터는 질적 데이터 분석 프로그램 NVivo(버전 12)(QSR International Pty Ltd. 2020)를 사용하여 관리되었습니다.
We wished to unpack the underlying causal mechanisms that shaped the student experience of programmatic assessment. In line with the CR framework, data analysis and synthesis were dynamic rather than linear and involved three phases of inference undertaken iteratively. To ensure understandings applied to the full data, differences in researcher perspectives were negotiated through meetings (face to face, video conference and email) and using whiteboarding of the research materials. Data were managed using the qualitative data analysis program NVivo (Version 12), (QSR International Pty Ltd. 2020).

2.3.1 1단계: 귀납법
2.3.1 Phase 1: Induction

반복적 귀납적 분석의 초기 초점은 [특정 이론에 얽매이지 않고 코호트의 프로그램 평가 경험과 관련 커리큘럼 요소를 풀고 설명]하는 데 있었습니다.35 우리(CR, PK, TR)는 원시 데이터를 검토하여 일반적이고 새로운 패턴, 연결성, 유사성 및 차이를 반복적으로 식별했습니다. 이 시점에서 우리는 [학생들의 학습 및 평가 경험의 기저에 있는 것으로 보이는 종종 상충되는 원인을 이해하는 데 있어 귀납법의 내적 한계]를 발견했습니다.35
The initial focus of our iterative inductive analysis was around unpacking and describing the cohorts' experience of programmatic assessment and its related curricular elements, without being tied to a specific theory.35 We (CR, PK and TR) reviewed the raw data to iteratively identity general and emergent patterns, connections, similarities and variances. At this point, we noticed the internal limitations of induction in understanding the often conflicting causes that appeared to underlie the students learning and assessment experiences.35

2.3.2 2단계: 가추법
2.3.2 Phase 2: Abduction

[가추법]은 [초기 패턴 인식]을 넘어 [데이터에서 연관성을 형성]하여 [새로운 패턴을 보다 포괄적으로 이해하는 수단]을 제공했습니다.35, 46 우리의 방법을 설명하기 위해 가추법은 특정 맥락(예: 교육 활동으로서의 팀 기반 학습[TBL])에서 이해되었을 수 있는 개념을 [재기술 또는 재맥락화를 통해 프로그래밍 평가(학습을 위한 평가로서의 TBL)의 새로운 맥락에 연결]했습니다. 데이터의 [초기 귀납적 코딩]은 가추를 통해 [재검토 및 재코딩]된 다음, [실제적이고 경험적이며 잠재적인 '실제 메커니즘'으로서 현실]의 [계층화된 영역]에 대한 [CR 기반 개념 맵]으로 [재구성 및 재맥락화]되었습니다.

  • 데이터는 관찰 여부에 관계없이 학생들이 보고한 ['현실적'(임상 증상과 유사)40로 코딩]되었다. 여기에는 학생들이 일상적인 [평가 활동을 인식하는 방식, 성취도, 그리고 그 활동으로 인해 느낀 감정] 등이 포함되었습니다.
  • '경험적'(임상 검사 및 조사와 유사) 코딩에는 [새로운 평가 시스템의 다양한 측면]에 대한 학생들의 관찰, 인식 및 반성이 포함되었습니다.
  • 이 단계에서 '실재적'(감별 진단과 유사)현실적 및 경험적 평가가 왜, 어떻게 이루어졌는지를 설명하는 잠재적 메커니즘으로만 코딩할 수 있었지만, 핵심 메커니즘은 코딩할 수 없었습니다.

Abduction provided a means of forming associations in the data that went beyond initial pattern recognition to give a more comprehensive understanding of the emergent patterns.35, 46 To illustrate our method, abduction linked concepts that might have been understood within a particular context (e.g., team-based learning [TBL] as a teaching activity) to the new context of programmatic assessment (TBL as an assessment for learning) through redescription or recontextualization. The initial inductive coding of the data was re-examined and recoded through abduction and then reorganised and recontextualised into a CR-based conceptual map of stratified domains of reality as actual, empirical and potential ‘real mechanisms’.

  • Data coded as ‘actual’ (akin to clinical symptoms)40 reported by the students whether observed or not. This included the way students perceived everyday assessment activities, their achievements and how it made them feel.
  • The coding for the ‘empirical’ (akin to clinical examination and investigations) included students' observations, perceptions and reflections of various aspects of the new assessment system.
  • At this stage, the ‘real’ (akin to a differential diagnosis) could only be coded as potential mechanisms that explain why and how the actual and empirical came to be, but not which were the key mechanisms.

2.3.3 3단계: 역행추론법
2.3.3 Phase 3: Retroduction

CR 방법론의 핵심 구성 요소인 [역행추론][현실적 또는 경험적 수준만으로는 설명할 수 없는 기본 조건, 구조 및 메커니즘을 풀기 위해 데이터의 인과적 설명]을 포함합니다.35 우리는 문화, 구조 및 기관 간의 상호 작용에 대한 Archer의 이론에 비추어 수렴 및 상충하는 잠재적 ['실재' 메커니즘]을 모두 다시 코딩했습니다.37, 41 (그림 2) 세 가지 추론 모드를 사용하여 프로그램 평가 실행의 맥락과 기본 프로그램 이론을 고려하여 결과에 대한 진화하는 설명은 [현실적, 경험적, 실재적 사이를 이동]했습니다.46, 47
Retroduction, a key component of CR methodology, involves causal explanation of the data to unpack the basic conditions, structures and mechanisms that cannot be explained at the actual or empirical levels alone.35 We re-coded both the converging and conflicting potential ‘real’ mechanisms in the light of Archer's theory of the interplay between culture, structure and agency.37, 41 (Figure 2) Using the three modes of inferences, the evolving explanation of findings moved between the actual, the empirical and the real, taking account of the context of our implementation of programmatic assessment and the underlying programme theories.46, 47

2.4 팀 반사성
2.4 Team reflexivity

우리 팀은 다학제적이고 경험이 풍부한 연구자, 임상의, 임상 과학자들로 구성되었으며, 이들은 프로그램 평가를 만들고 실행하는 데 공동으로 그리고 직접적으로 참여했습니다. 프로그램에 참여하지 않은 사회과학자가 데이터에 대한 다양한 통찰력을 제공함으로써 이 연구의 의미를 구성하는 데 도움을 주었습니다48. 저자 중 일부는 연구 전에 비판적 현실주의에 대해 잘 알고 있었습니다. 반성적 현실주의는 회의와 이메일을 통한 내부 대화 공유를 통해 촉진되었으며, 이를 통해 개인이 평가 관행 변화에 대한 데이터의 내용에 대한 우려를 해결하고 우선순위를 정하는 반성적 숙고를 거쳤습니다.37
Our team comprised multidisciplinary and experienced researchers, clinicians and clinical scientists, who were collectively and directly involved in creating and implementing the programmatic assessment. A social scientist, not involved in the programme, helped construct meanings in this research48 by providing differing insights into the data. Some of the authors were familiar with critical realism prior to the study. Reflexivity was promoted through meetings and via email sharing our internal conversations, the reflexive deliberations through which the individuals address and prioritise their concerns about what the data said about changing assessment practice.37

3 결과
3 RESULTS

연구 결과는 두 부분으로 나누어 제시합니다:

  • 첫째, 첫 번째 세 가지 연구 질문을 다루는 귀납과 가추를 사용한 '경험적인 것과 현실적인 것'에 대한 설명
  • 둘째, 네 번째 연구 질문을 다루는 가추와 역행추론을 사용하여 학생들을 위한 프로그램 평가의 '실재'를 풀어낸 설명입니다.

We present our findings in two parts:

  • First, an account of the ‘empirical and actual’ using induction and abduction that addresses the first three research questions;
  • second, an account of the unpacking of the ‘reality’ of programmatic assessment for the students using abduction and retroduction that addresses our fourth research question.

3.1 1부: '경험적이고 현실적인' 수준
3.1 Part 1: The ‘empirical and actual’

경험적이고 현실적인 실재의 수준에는 다음과 관련하여 학생들이 경험한 실제 사건에 대한 학생들의 개인적인 경험과 해석이 포함됩니다.

  • 첫째, 학습 및 교수 활동 또는 다양한 평가와 같은 커리큘럼 구성 요소; 그리고
  • 둘째, 프로그램 요구 사항과 관련된 의사소통, 신념 및 규범에 대한 회상에 반영된 학습 환경의 문화에 대한 인식.

The empirical and actual levels of reality included students' personal experience and interpretations of actual events they experienced in relation to

  • first, their curricular components such as learning and teaching activities, or various assessments; and
  • second, their perceptions of the culture of the learning environment, as reflected in their recall of communication, beliefs and norms in regard to programme requirements.

연구 질문을 고려하여 학생들의 프로그램 평가 경험과 관련하여 다음의 세 가지 주제를 개발했습니다.

  • (1) 학습 선택권 부여(주체성),
  • (2) 평가 시스템 탐색(구조),
  • (3) 문화 시스템 구축

Considering our research questions, we developed three themes in relation to student experiences of programmatic assessment:

  • (1) enacting learning choices (agency),
  • (2) navigating the assessment system (structure) and
  • (3) building a cultural system.

RQ 1: 새 평가 시스템의 기능이 학생의 [학습 요구 사항을 지시하는 능력]에 [어느 정도 영향]을 미쳤습니까?
RQ 1:To what extent did the features of the new assessment system influence students' ability to direct their learning needs?

3.1.1 학습 선택권 부여(주체)
3.1.1 Enacting learning choices (agency)

이 주제에서는 학생이 학습에서 [어떤 선택을 어떻게 할 수 있는지]에 대한 관점에서 [구조(행동을 가능하게 하거나 제약할 수 있는 평가 규칙, 관행 및 자원)와 주체성 간의 상호작용을 매개하는 요인]에 대해 설명합니다. ['선택']이란 학생이 자신의 학습 요구를 파악하고 그에 따라 학습을 주도할 수 있는 [인지된 자유의 정도]를 의미합니다.
This theme describes the factors that mediate the interplay between structure (the assessment rules, practices and resources that may enable or constrain action) and agency from the perspective of how and what choices students have in their learning. By ‘choices’, we mean the perceived degree of freedom that allowed students to identify their learning needs and direct their learning accordingly.

학생들은 의료 프로그램 내에서, 특히 프로그램 평가에서 다양한 영향을 받았으며, 이는 학생들이 무엇을 언제 어떻게 학습할지 선택할 수 있는 구조가 어느 정도인지에 영향을 미쳤다고 보고했습니다. 예를 들어, 학습 지도교수 시스템 내에서 학생의 주체성은 [교수진과의 오랜 관계]를 통해 표현되었으며, 학생에서 의사가 되기까지의 [전문성 개발 여정에서 전문적인 대화]가 건설적인 영향을 미쳤습니다. 대부분의 학생들은 [학습 어드바이저 제도]를 통해 학습의 강점과 약점을 분석하고 약점을 보완하기 위한 개인 학습 계획을 세움으로써 자기 효능감과 자기 조절력을 키울 수 있었습니다.
Students reported various influences within the medical programme, and the programmatic assessment specifically, that shaped the degree to which the structures in place gave them choice in what and how they learned and by when. For example, student agency within the learning adviser system was expressed through having a long-standing relation with teaching faculty, in which a professional conversation was a constructive influence on their professional development journey from being a student and becoming a doctor. For most students, the learning advisor system supported their own self-efficacy and self-regulation through analysing their strengths and weakness in their learning and devising a personal learning plan to work on those weaknesses.

 

저는 (개발) 계획을 세우는 것이 정말 마음에 들었습니다. 어떤 이야기를 하고 싶은지 설정할 수 있기 때문입니다. 그리고 마지막에 행동 계획을 세우고 회의에서 논의한 내용을 바탕으로 계획을 업데이트하는 것도 좋았는데, 회의가 끝난 후 스스로 행동 계획을 세우도록 강제하기 때문입니다. (C2)
I definitely liked having the idea of having the (development) plan going in, because it sets up what you want to talk about. And then I also liked having the actions at the end, and then having the update to the plan based on what you discussed in the meeting, because it really forced you to set actions for yourself after the meeting. (C2)

그러나 일부 학생의 경우 현재 형태의 [학습 어드바이저 구성 요소]는 프로그램 요구 사항의 일부로 완료해야 하는 [또 다른 평가로 인식]되었습니다. 따라서 "따라잡기, 확인, 몇 가지 질문"(C)을 위한 추가 미팅을 부과하는 것은 학습을 지원하기보다는 학습 어드바이저 프로세스에 대한 참여를 증명하기 위한 것입니다. 때때로 학생들은 [필수 출석 규칙]이 [전문성을 나타내는 지표라는 인식]과 같이, 평가 시스템의 [특정 구조가 학습을 지원하기보다는 학습에 불리하게 작용한다]고 인식했습니다.
However, for some students, the learning advisor component, in its current form, was perceived as another assessment to complete as part of programme requirements. Thus, imposing an additional meeting to “catch-up, check in, ask a few questions” (C) to evidence their engagement with the learning advisor process, rather than supporting their learning. At times, students perceived that certain structures of the assessment system worked against their learning rather than supporting it, such as a perception that mandatory attendance rules were a marker of professionalism.

출석을 강제하는 것이 아니라, 예를 들어 연초에 사람들이 QR(빠른 응답) 코드를 제대로 하고 있는지, 심지어 Zoom(화상 회의 소프트웨어)을 제대로 사용하고 있는지 믿지 못해서 무작위로 들어와서 누가 있는지 수작업으로 확인하는 것과 같은 답답한 일이 있었습니다. (H)
I find it frustrating not that they are forced to meet attendance, it's like, for example, at the start of the year, they came in and randomly did a manual check of who was in there because they did not trust that people were doing the QR (Quick Response) code properly or even in our Zooms (video conferencing software) at the start. (H)

학생들은 [완료된 평가가 학습 관리 시스템에 업로드되는 과정]과 [개인 및 팀 평가에 대한 피드백을 받는 데 지연]이 발생하는 등 [리소스 문제]로 인해 영향을 받는다고 생각하는 평가 시스템의 요소에 대해 이야기했습니다.
Students talked about elements of the assessment system, which they thought were impacted by resource issues, for example, the process by which completed assessments were uploaded in the learning management system and the delays they perceived in getting feedback on individual and team assessments.

이러한 마감일을 지키지 못하는 이유는 아마도 업무가 과중하고 인력이 부족하며 새로운 과정을 시작하면 더 많은 지원이 필요하기 때문일 것입니다. 우리가 들은 바에 따르면 이런 일이 발생했습니다. 그리고 그것은 우리의 학습에 영향을 미쳤습니다. 그것은 우리에게 영향을 미쳤고, 우리가 받고 있는 교육의 질에 확실히 변화를 가져왔습니다(J).
The reasons that they are not meeting these deadlines is probably because they are overworked, and understaffed, and starting a new course you need more support, not less. Which is kind of through the grapevine what we have heard has happened. And it has affected our learning. It has impacted on us, and it has definitely changed the quality of the education we are getting (J)

그럼에도 불구하고, 프로그램 평가 시스템은 [시간이 지남에 따라 발전할 가능성]이 있는 것으로 인식되었으며, 예를 들어 [학습 지도교수가 의학 프로그램을 통해 학생의 여정에서 멘토가 되는 개념]을 발전시켰습니다.
Notwithstanding, the programmatic assessment system was recognised as having the potential to develop over time, for example, developing the notion of a learning advisor being a mentor on the student journey through the medical programme.

저는 학습 지도교수를 커리큘럼 자체뿐만 아니라 일종의 커리어 코치로서도 활용합니다. 저는 이전에 다른 직종에서 일한 경험이 있고, 회사에서도 학생의 진로에 대해 멘토링을 해주고 적절한 리소스를 연결해줄 수 있는 커리어 코치를 원했기 때문에 학습 어드바이저의 역할이 매우 중요하다고 생각합니다. 하지만 그것은 학생들이 그런 종류의 도움을 요청할 수 있는 힘이 있다고 느낄 때만 가능합니다. (A)
I use my learning advisor not just for the curriculum itself, but also as a bit of career coach. So, I think there's a lot of value to be had there, and I did that because I come from a different profession previously, and my firm was quite keen on having a career coach that will suit – mentor you on the way, and connect you with the right resources, if you ask for it. But that's only possible when the students feel empowered to reach out for that kind of help. (A)

요약하면, 학생들은 자신의 행위자성을 주로 다음의 세 가지와 관련해서 이해했다.

  • 첫째, [학습 과정을 진행하는 데 도움이 된다고 느낀 학습 연습]을 통해 스스로 동기를 부여하고 자기 조절을 할 때,
  • 둘째, 학습 조언자인 임상의와의 전문적인 대화를 통해,
  • 셋째, 개인 또는 팀 평가에 대한 건설적이고 개별적인 피드백

학습자 에이전시는 다음으로 인해 어느 정도 제약을 받았습니다.

  • IT 시스템 탐색,
  • 교수진과의 부정적인 커뮤니케이션 경험,
  • 의도한 프로그램을 제공하기 위한 리소스 부족 

In summary, students made most sense of their agency related to three factors:

  • first, their own motivations and self-regulation from having a study practice that they felt helped them in progressing through the course;
  • second, with professional conversations with clinicians as learning advisors;
  • third, from constructive and individual feedback around individual or team assessments.

Learner agency, to some extent, was constrained by

  • navigating the IT systems,
  • negative communication experiences with faculty and
  • a perceived lack of resources to deliver the intended programme.

RQ 2: 학생들이 [평가 형식, 규칙 및 관행을 탐색]하는 데 있어 어떤 [경험]이 있었습니까?
RQ 2:What were students' experiences in navigating assessment formats, rules and practices?

3.1.2 평가 구조 탐색하기
3.1.2 Navigating assessment structures

이 주제에서는 프로그램 평가에 대한 [학생의 기대, 교수진의 의도된 구현 및 프로그램의 교육기관 제공 간의 역동적인 상호 작용]에 대해 설명합니다. 프로그램 기능의 중요한 구조는 학생 진도 보고서 내에서 완료된 평가 과제 모음에 대한 판단 및 의사 결정 과정, 특히 수정 과정 및 전문성 관련 문제에 대한 의견에서 발견되었습니다. 학생들은 의견을 표현할 때 기존의 평가 시스템에 대한 사전 적응으로 인해 [프로그램 평가에 대해 잘못된 오해]를 하는 모습을 보였습니다.
This theme describes the dynamic interplay between student expectations of the programmatic assessment, the faculty's intended implementation and the institutional delivery of the programme. Critical structures of programme functioning were found in their comments about the judgement and decision-making process on the completed collection of assessment tasks within the student progress report, especially the remediation process, and the professionalism-related issues. In expressing their opinions, students showed fallible misunderstandings about the programmatic assessment, shaped by their prior conditioning to traditional assessment systems.

예를 들어, '형성적'과 '총괄적'이라는 용어의 이해, '부담stake'의 해석, [학습을 위한 평가]와 [학습에 대한 평가] 등 프로그램식 평가에 대한 이야기를 둘러싸고 학습자와 교수자 모두 많은 긴장을 느꼈습니다.
There were a number of tensions in both learners and faculty around the narratives about programmatic assessment, for example, what was understood by the terms ‘formative’ and ‘summative’; interpretation of ‘stakes’; and assessment for and of learning.

형성 평가와 총괄 평가의 차이, 그리고 이 과정에서는 모든 것이 총괄 평가가 될 때까지 형성 평가라는 점은 이해합니다. 문제는 그것이 언제인지 말하지 않기 때문에 일년 내내 지나갔는지 알기 위해 사소한 일에 땀을 흘릴 수 있다는 것입니다. (G)
I get it; the difference between formative and summative, and that everything is formative in this course until it is summative. Problem is they do not say when that is so you could be sweating on a minor thing to know if you have passed the whole year. (G)


[부담 또는 가중치]는 [학생의 진급에 대한 교수진의 결정]이 [정보의 신뢰성에 비례하는 정도]를 나타냅니다. 학습자의 불완전하고 종종 오류가 있는 평가에 대한 인식 사이에서 특정 평가의 지분이 SPR에 포함된 다른 평가와 비교되는 것에 대해 많은 불확실성이 있었습니다.
The stakes or weightage describes the degree to which faculty decisions about student's progress are proportional to the credibility of information. There was much uncertainty amongst learners' incomplete and often fallible perceptions of assessment as to what the stakes of a particular assessment were compared with other assessments included in the SPR.

연초에 그들은 모든 평가의 가중치가 같거나 다른 평가보다 더 가중치가 높은 평가는 없다는 식의 말을 했습니다. 그래서 그 라인에서 그들은 적어도 그들이 진실하다고 생각하는 것을 얻으려고 노력하고 있다고 생각합니다. 그들은 우리에게 다른 가중치가 있음을 알려주지 않았습니다. 하지만 그것이 사실인지 아닌지는 모르겠습니다. 실제로는 [필기 시험]이 해부학 [실습 시험]보다 가중치가 더 높나요? (C)
I would say at the beginning of the year they did say everything is—they said something along the lines of everything is of equal weight, or nothing is weighted more than the other. So, I guess in that line, they are trying to get the—which I think they have at least held true to, they have not let us know anything is weighted differently. But if that's true or not, I do not know. Behind the scenes, is the [written test] weighted more than an Anatomy Spot Test? (C)

프로그램 평가의 개별 요소 중 대부분의 학생들은 [연속된 필기 시험]이 "우리를 평가하는 공정한 방법이었다"(J), "장벽이 있는 것보다 스트레스가 덜했다"(F)고 느꼈습니다. [점진적 평가]는 프로그램 첫해의 진행 상황을 알려주었고 학습에 도움이 되는 것 같았습니다.
Of the individual elements of the programmatic assessment, most students felt the continuous testing in the written assessments seemed to “have been a fair way to assess us” (J), as well as “less stressful than having a barrier” (F). The progressive assessments provided an indication of where they were in terms of progress in the first year of the programme and seemed to be supportive to their learning.

[작업 기반 평가]에서 코로나19는 [관찰 및 피드백을 위한 작업장의 어포던스에 영향]을 미쳤지만, 전반적으로 의도한 대로 작동하였고, 학생의 임상 기술 개발 진행 상황에 대한 유용한 피드백을 제공하는 동시에 즉각적인 피드백을 제공하는 것으로 간주되었습니다.
In the work-based assessment, COVID had impacted the affordances of the workplace for observation and feedback, but overall was regarded as working as intended and giving useful feedback on student progress in developing clinical skills, whilst providing immediate feedback.

채점 방식은 매우 일반화되어 있어 구체적이지 않다는 점에서 정말 좋았습니다. 올해에는 병력과 신체 검사를 통해 자신감을 키우는 것이 더 중요하다고 말했는데, 정말 자신감을 키우는 데 도움이 된 것 같아요. 호흡기 첫 번째 블록에서 신체검사를 할 때 규모가 아주 작았던 것도 정말 좋았습니다. 주변부 검사만 하다가 복부 전체 검사 같은 것까지 확장해 나갔어요. (C)
The marking scheme was really good in that it's quite generalised, so it's not very specific. So, I feel like they did say for this year it's more about building confidence by doing the history and physical exams, and I think that those really built up the confidence. I also really liked how in our first block in respiratory, for the physical exam it was quite small. It was kind of just doing peripheries, but then they just built up to something like maybe the whole abdominal exam. (C)

[TBL 세션에서 기계식 다이어그램을 공동으로 제작하는 것]은 TBL 프로세스의 유용한 학습 목표이자 프로그램 이론과 잘 어울리는 것으로 간주되었습니다. 그러나 [코로나19 적응]의 일환으로 팀 기반 평가로 재구성되었을 때 학생들은 이를 고난도 평가로 인식하여 전반적인 학습에 큰 지장을 주었습니다. 학생들은 주로 투자한 시간과 학습 성취도 사이의 불균형, 즉 불필요한 인지적 부하 때문이라고 설명했습니다.49 일부 그룹에서는 [전반적인 학습적 가치를 희생]하면서까지 [점수만 더 잘 얻는 데 집중]하는 방식으로 팀워크가 형성되었습니다. 이는 학생들이 [TBL 관련 점수를 해석하는 방법]과 [기대되는 표준이 무엇인지에 대한 불확실성]이 그 배경에 있었습니다.
The collaborative production of mechanistic diagrams in the TBL sessions was seen as a useful learning endpoint of the TBL process and a good match to programme theory. However, when recrafted as a team-based assessment, as part of COVID adaptations, the students perceived them as a high-stakes assessment, strongly detracting from overall learning. Students explained this was mainly because of an uneven balance between the time invested and their learning gains, a matter of extraneous cognitive load.49 For some groups, collaborative teamwork became focussed on achieving higher marks at the expense of the overall learning value. This was on a background of student uncertainty in how to interpret the TBL-related marks and what the standard expected might be.

우리가 기계식 다이어그램을 만들기 시작했을 때 수업 시간에 할 때는 매우 간단하다고 느꼈습니다. 그런데 막상 제출하고 마킹을 해야 하는 순간, 이 다이어그램에는 높은 수준의 복잡성과 많은 양의 세부 사항이 포함되어야 했기 때문에 당연히 시간이 더 걸리고, 더 많은 시간을 생각해야 했습니다. (B)
When we started doing the mechanistic diagrams, I feel like—when we are doing it in class, they are very simple. And then as soon as they had to be handed in and marked, we were expected to have a high level of complexity and large amounts of detail within this diagram, which of course adds more time, and you have to spend more time thinking about it. (B)

마찬가지로, TBL 세션의 일부인 [개별 준비도 확인 테스트(iRAT)]는 학습의 유용한 동기 부여로 여겨졌습니다. 그러나 학습 진도를 나타내는 지표로서 iRAT는 학습의 만족스러운 성취도를 측정하기보다는 TBL 전에 학습할 준비가 되었는지를 나타내기 위한 것이기 때문에 그 중요성이 지나치게 크다고 생각했습니다.
Similarly, the individual readiness assurance tests (iRATs) as part of the TBL sessions were seen as a useful motivator of learning. However, as indicators of progress in learning, iRATs were considered to have too much perceived importance, given they were intended to indicate readiness to learn before the TBL rather than a measure of satisfactory achievement of learning.

SPR에 과제를 늦게 제출한 것을 기록하는 등 [전문성을 평가하는 것]에 대한 [교수진의 집단적 견해]는 학생에게 문제가 되었습니다. 학생들은 [여러 평가 중 하나를 제출할 때 사소한 문제로 전문성 위반으로 판단될까 봐 이 과정이 징벌적이라고 느꼈다]고 우려했습니다. 또한 [사소한 위반 사항]이 [학생 기록]에 남아 [교수의 학생에 대한 인상을 편향적]으로 만들 수 있습니다. 학생들은 [전문직업성 위반]으로 간주하기보다는, 추가적인 지원과 노력을 통해 [개선해야 할 과실]로 간주하는 것이 더 편한 것으로 나타났습니다.
The collective faculty view on assessing professionalism including recording late submission of tasks in the SPR was problematic for students. They worried the process felt punitive as they feared being judged in breach of professionalism for a minor issue when submitting one of multiple assessments. Further, trivial breaches could remain in the student record and bias faculty impressions of them. Students appeared more comfortable with viewing unprofessionalism as a lapse to be worked on,25 with additional support and work, rather than being viewed as a professional breach.

전문성을 평가하는 것은 누군가를 프로페셔널하다고 평가하기보다는 잃어버릴 수 있는 무언가라고 생각합니다. 하지만 강의나 임상에서 어떤 사람이 행동하는 방식이 비전문적이라고 느껴질 때가 있는데, 그런 부분도 반영되어야 한다고 생각합니다. (A)
With assessing professionalism, I feel like it's sort of more something to be lost, rather than having to assess someone as being professional. But then like sometimes things might happen throughout the year, the way someone acts in lectures, or at clinical school, like, there's instances where I feel like they are displaying unprofessionalism, and that is sort of what should be reflected instead. (A)

[재교육 프로세스의 시행]은 [불확실성을 초래]했습니다. 이는 학생들이 의사 결정 및 진행 과정과 SPR의 연말 검토에서 포트폴리오 자문 그룹의 역할에 대한 지식이 부족하다는 주장으로 인해 증폭되었습니다.
The implementation of the remediation process led to uncertainty. This was amplified by the claimed lack of knowledge amongst the students about the decision-making and progression process and the role of the portfolio advisory group in the end of year review of the SPR.

(재교육을) 겪어보지 않고는 알기 어렵고, 얼마나 많은 정보가 공개되었는지 알기 어렵지만, 시험에 실패하면 어떤 결과가 초래되는지 이해하지 못한다는 점에서 투명하지 않은 것 같고, 처음에는 상당히 지원적인 과정이라는 인상을 받았고, 자원이 주어지고 개선 방법을 알려주어 한 해를 마무리하는 것을 목표로 할 수 있을 것이라고 생각했습니다. 하지만 꼭 그런 것만은 아닌 것 같습니다. (E)
It's hard to know, not going through it (remediation), it's hard to know how much was disclosed to the people that did, but it has not seemed all that transparent in terms of you do not understand, if you were to fail an exam, what the consequences are and I was under the impression to begin with that it was quite a supportive process, and that you'd be given the resources and told how to improve so that then you could, with the aim of completing the year. But it seems like that's not reality necessarily. (E)

요약하면, 평가 데이터의 수집과 대조 및 보고에 관한 프로그램 이론의 관점에서 볼 때, [기초 및 임상 과학의 점진적 테스트와 작업 기반 평가는 프로그램 이론이 예측한 대로 대체로 작동]했습니다.

  • [핵심 학습 방법으로서 TBL]의 [어포던스와 평가]라는 다른 맥락에서의 사용 사이의 차이로 인해 상당수의 학생들이 [SPR에 준비성 확인 시험을 포함하는 것의 가치]에 대해 이의를 제기했습니다.
  • [전문직업성 평가]는 단순하고 과제 제출 시간 지연에 국한된 것으로 인식되었습니다.
  • [의사 결정 및 진급 규칙이 운영되는 방식을 사회화하는 데 있어서의 문제]는 학생들이 [다양한 평가 형식의 부담]과 [교정 시스템의 유용성]에 대한 [불확실성]으로 나타났습니다. 이는 일부 학생에게 스트레스가 되었습니다.

In summary, in terms of programme theories around the collection and collation and the reporting of assessment data, the progressive testing of basic and clinical science and the work-based assessment had worked largely as the programme theories had predicted they would.

  • The difference between the affordances of TBL as a key learning method and its use in a different context, as an assessment, had a significant proportion of students challenging the value of including, for example, readiness assurance testing in the SPR.
  • The assessment of professionalism was perceived as simplistic and limited to the lateness of assignment submission.
  • Problems in socialising the way in which decision-making and progression rules operated were manifested in students' uncertainty of the stakes of differing assessment formats and the utility of the remediation system. That was stressful for some students.

RQ 3: 교수진 및 동료와 같은 새로운 커리큘럼 내의 다양한 주체와의 상호작용이 학생들의 프로그램 참여에 어떤 영향을 미쳤나요?
RQ 3:How did the interactions with various entities within the new curriculum such as faculty and peers influence students' engagement with the programme?

3.1.3 문화 시스템 구축
3.1.3 Building a cultural system

이 주제는 프로그램 내에서 널리 퍼져 있는 [문화 시스템, 학생과 교수진이 '함께 배우는 방법을 배우려는' 시도]를 설명합니다.50 [프로그램 평가]는 학생과 교수진 모두에게 새로운 경험이었습니다. 이 주제에는 학생들의 정서적 혼란, 비생산적인 작업이라는 개념, 학생들이 처한 학습 상황에서 '어려운 집단'이라는 인식도 포함됩니다. 학습 문화 시스템에 대한 학생들의 인식은 일부 학생들의 학습 평가에 여러 가지 방식으로 영향을 미쳤습니다.
This theme describes the system of culture prevailing within the programme, the sense of students and faculty attempting ‘to learn how to learn together’.50 Programmatic assessment was a new experience to both students and faculty. The theme also includes the contribution of the emotional turmoil of the students, the notion of unproductive work and the student perceptions of ‘being a difficult cohort’ in the learning contexts they found themselves in. Their sense of the learning cultural system impacted some students' assessment as learning in a number of ways.

심지어 사람들이 내 편이 되어야 할 때 내 편이 아닌 것처럼 느껴지면 동기를 유지하기가 어렵습니다. 그래서 약간 징징대는 것처럼 들리겠지만, 전반적으로 이 코호트의 분위기가 다운된 것 같아요. 그리고 제가 그렇게 말하는 것이 과장된 것 같지는 않습니다. (J)
And even—yeah, it's just hard to stay motivated when you feel like people aren't on your side, when they are supposed to be on your side. So, it sounds a bit whingy, I know, but I just think it's overall, like, brought down the mood of this cohort. And I do not think I'm exaggerating when I say that. (J)



일부 학생들에게는 부정적인 학습 문화 또는 심지어 '비난 문화'(J)에 대한 인식이 있었는데, 이 프로그램의 정신이 학교를 갓 졸업한 학부생에게 더 적합한 감시의 문화로 인식되었습니다. 학생들은 자신을 제외한 동료 학생들이 의학을 배우는 과정에서 변화에 저항하고 있다는 사실을 인식하고 있었습니다.
For some students, there was a perception of a negative learning culture or even a ‘blame culture’ (J) where the ethos of the programme was perceived as one of surveillance, more appropriate to undergraduate students straight from school. Students recognised that their fellow students, perhaps excluding themselves, were being resistant to change in the context of learning medicine.

그러나 그들은 또한 당신이 마치 미성년자인 것처럼 평가에서 징벌적으로 처벌하기를 원합니다. 이제 17세와 18세인 여러분은 고등 교육 시스템에서 어떻게 존재해야 하는지 배우기 위해 일종의 채찍질을 당해야 합니다. 좋아요. 사실 1학년 과목이 약간 징벌적이어도 괜찮아요. (B)
But then they also want to punish you punitively in assessments as if you are an under-grad. Now, if you are a 17- and 18-year-old, you need to be kind of whipped into shape to learn how to exist in a tertiary education system. Fine. I'm actually okay with first year subjects being a bit punitive. (B)

학생들이 교수진으로부터 [필요한 정보를 얻기 위해 해결 방법]으로 찾은 몇 가지 방법이 있었습니다. 이러한 방법 중 하나는 "학생 대표(학년 학생 대표)를 통해 Facebook(1학년 비공개 소셜 미디어) 그룹에 글을 올리는 것"(C)과 같이 학생 대표를 통하는 것이었습니다. 다른 학생들은 교수진과의 커뮤니케이션에 문제가 있다고 지적했습니다.
There were a few ways that the student found as workarounds to get the information they felt they required from faculty. One of these ways was through the student representatives, for example, “relying on student reps (year student representatives) to post up on the Facebook (private Year 1 social media) group” (C). Others noted that the faculty communications were problematic.

 

저는 학생 대표들이 놀라운 일을 하고 있다고 생각합니다. 하지만 당신들은 시험에 어떤 내용이 포함될지 저희에게 알려주면 안 됩니다. 그건 교수진에게 맡겨야 합니다. (J)
I think student reps are doing an amazing job. But you guys should not be responsible for telling us what's going to be on our assessment. That should be on the faculty (J)

학생들은 정서적 혼란을 겪으면서 평가 참여와 학습에 영향을 미치는 다양한 상황적 요인을 경험했습니다.51
Students had experienced a range of differing situational factors impacting their participation in assessment and learning through their emotional turmoil.51

개인적으로 저는 첫 번째 해부학 실기 시험에 정말 정말 스트레스를 많이 받았습니다. 그 시험 공부에 많은 시간을 할애했고, (필기 평가에서) 평가될 다른 내용을 위해 제 학습을 많이 희생했습니다. 그리고 그 후에 그 시험이 감독 시험이 아닌 이유는 비중이 충분하지 않기 때문이라는 것을 알게 되었습니다. (J)
Well, for me personally, I went into the first, for example, the anatomy spot test, being really, really stressed. Spent a lot of time dedicating to studying for it, and kind of sacrificed a lot of my learning for the other content that was going to be assessed in the (written assessment). And then I found out after that that the reason that it wasn't a proctored exam is because it does not weigh enough. (J)

그러나 몇몇 학생들은 동료들 중 일부가 익명성 뒤에 숨어 교수진에게 피드백에 대한 책임을 지지 않는 등 [비전문적으로 '무례하게' 행동한다]고 지적했습니다. 이에 대한 해결책은 교수진과 학생 간의 소통을 개선하고 다양한 커뮤니케이션 수단을 통해 명확한 기대치를 설정하는 것으로 나타났습니다.
However, several students noted that a proportion of their peers were being unprofessionally ‘rude’, hiding behind their anonymity, and not taking responsibility for their feedback to the faculty. The solution appeared to be better communications between faculty and students and setting clear expectations, through multiple means of communication.

연초에 이러한 기대치를 잘 설정하는 것만으로도 충분했습니다. 따라서 기초 세션에서 전문성, 참여도, 사람들이 참여해야 하는 학습 리소스에 대한 기대치를 설정하고 학생들이 이를 보완하기 위해 무엇을 해야 하는지에 대한 기대치를 평가하면 이러한 문제를 상당 부분 해결할 수 있습니다. (A)
Just setting those expectations well at the beginning of the year. So, in your—in the foundation sessions, setting the expectations around professionalism, around participation, around what learning resources people should be engaging with, and assessing expectations around what students need to be doing supplementary to that, solves a lot of these problems. (A)

요약하면, 데이터에 따르면 대부분의 학생이 [학습에 대한 새로운 사고 방식과 평가와의 관계에 대한 요구 사항을 수용]하고 있는 것으로 나타났습니다. 그러나 일부 학생들은 [교수진과의 일부 커뮤니케이션]에서 [개인의 행동을 규제하는 사회적 규범(규범 없음)의 붕괴], 즉 뒤르켐이 말한 아노미를 경험했습니다.52 이러한 현상은

  • 첫째, 학생들 사이에서, 그리고 학생 대표와의 대화에서 분명하게 드러났습니다.
  • 둘째, 이메일을 통한 교수진과의 소통, 학습 관리 시스템을 통한 공지, 학생 핸드북에 포함된 정보에 대한 설명을 통해 나타났습니다.

교수진과의 프로그램에 대한 학생들의 [사회적 상호 작용]에서 [교수진이 지지하는 문화적 목표]와 [이를 전달하기 위한 제도적 수단] 간의 [격차]로 인해 학습 문화에 대한 인식된 문제가 발생했을 수 있습니다.
In summary, our data suggested that most students embraced the requirements for new ways of thinking about learning and its relationship with assessment. However, some students did experience what Durkheim called anomie, a breaking down of social norms (normlessness) regulating individual conduct in some of the communications with the faculty.52 It was made manifest in the talk of students,

  • first with each other, and their student representatives.
  • Second, through their communications with faculty via email, announcements through the learning management system, and clarification of information contained in student handbooks.

In the students' social interactions about the programme with faculty, the perceived problems of the learning culture may have arisen because of the gap between the cultural goals espoused by faculty and the institutional means to deliver them.

3.2 파트 2: 실제 포장 풀기
3.2 Part 2: Unpacking the real

RQ 4: 학생들의 인식과 경험에 대한 근본적인 설명은 무엇이며, 그것이 프로그램적 평가의 성장과 지속 가능성에 어떤 영향을 미칠 수 있습니까?
RQ 4:What were the underlying explanations of students' perceptions and experiences, and how might they influence growth and sustainability of programmatic assessment?

CR 관점에서 프로그램식 평가가 학생들에게 어떻게, 왜, 어떤 특징이 효과가 있었는지를 설명하려면 [평가 시스템이 학습에 어떤 영향을 미쳤는지]에 대한 [학생들의 인식과 경험의 근본적인 메커니즘]을 풀어야 했습니다.36, 53

  • 아처의 [형태 발생 이론(앞서 소개)]44, 54은 프로그램식 평가를 실행하는 맥락에서 구조, 문화 및 기관 간의 3방향 상호 작용을 뒷받침하는 인과 관계(메커니즘)를 풀어내고 이해하는 데 더 깊은 통찰을 제공했습니다.
  • [형태 발생학적 접근 방식]은 구조, 문화 및 에이전트에 대한 계층화된 설명을 가능하게 하는데, 이는 각각이 프로그램식 평가에 대한 학생의 경험을 설명할 수 있는 새로운 속성 및 힘(즉, 인과적 메커니즘)을 가지고 있기 때문입니다.55
  • 이러한 메커니즘은 [프로그램식 평가로 변화]할 때 특정 조건(즉, 제약 및 어포던스)에서만 나타난다.
    • 더욱 정교화(형태 발생)하거나
    • 변화에 저항(Archer가 말하는 형태 형성54)하거나
  • 프로그램적 평가에서 주기적이고 지속적인 형태 형성 과정은 다음의 둘 사이의 최적의 긴장을 유지하는 데 달려 있습니다.
    • '조건화'(새로운 관행과 이전에 가지고 있던 신념의 합의 및 통합)
    • '정교화'(새로운 기능의 수용 및 적응성) 

Explanation of how, why and what features of the programmatic assessment worked for the students from a CR stance involved unpacking the underlying mechanisms behind students' perceptions and experiences of how the assessment system impacted their learning.36, 53 

  • Archer's theory of morphogenesis (introduced earlier)4454 provided us with deeper insights into disentangling and understanding causal linkages (mechanisms) underpinning the three-way interplay between structure, culture and agency in the context of implementing programmatic assessment.
  • The morphogenetic approach allows for a stratified account of structures, culture and agents, as each has emergent and irreducible properties and powers (i.e., causal mechanisms) that explain the student experiences of programmatic assessment.55 
  • These mechanisms only manifest themselves under specific conditions (i.e., constraints and affordances) when changing to programmatic assessment
    • to further elaborate (morphogenesis) or
    • to resist the change (what Archer calls morphostasis54).
  • The cyclical and ongoing process of morphogenesis in programmatic assessment depends on maintaining optimal tensions between
    • ‘conditioning’ (consensus and integration of new practices with previously held beliefs) and
    • ‘elaborations’ (acceptance and adaptability of the new features).

[경험적 및 현실적 수준]에서 연구 결과에서 '실재'를 역행추론 할 때, 프로그램적 평가와 관련된 구조 및 문화 시스템은 뚜렷하지만 서로 [연관된 인과적 힘]을 가지고 있습니다(그림 3 참조). 특히, 역행추론은 다음을 강조했다.

  • 첫째, 진정한 [프로그램적 의제]를 유지하는 데 있어 [학생 코호트의 반성적 숙고]가 중요하다는 점,
  • 둘째, [프로그램적 평가의 지속 가능성]에 필요한 형태 형성(형태 고정이 아닌)을 촉진하기 위해 평가를 둘러싼 지역 구조 및 문화 시스템의 (학생 주도) 변화에 주의를 기울이는 것이 중요하다는 점

In retroducing the ‘real’ from our findings at the empirical and actual level, the structure and culture systems associated with the programmatic assessment have distinct but related causal powers (see Figure 3). In particular, retroduction highlighted

  • first, the centrality of reflexive deliberation of the student cohort in maintaining a truly programmatic agenda;
  • second, the importance of attending to (student-led) changes in the local structures and cultural systems surrounding assessment to facilitate the morphogenesis (rather than morphostasis) required for the sustainability of programmatic assessment.


[평가 구조, 문화 시스템 및 학생 주체성 간의 상호 작용의 균형]을 맞추는 중요한 예는 임상의가 되기 위한 광범위한 측면에 대해 [학습 상담사와의 귀중한 전문적 대화]였습니다. 이는 대부분의 학생의 교육에 대한 주체성을 강화하는 역할을 했습니다. 동시에 학생들은 의학 지식에 대한 이해를 촉진하는 데만 초점을 맞춘 [평가 위주의 관계]보다는 [멘토링 유형의 관계]를 요구함으로써 프로그램 평가의 의도된 목적을 유지하고 더욱 정교화할 수 있는 조건도 갖추게 되었습니다.
An important example of balancing the interplay between assessment structures, the cultural system and student agency, was the valuable professional conversations with learning advisors concerning broader aspects of becoming a clinician. This functioned to enhance the agency of most students in their education. At the same time, the students were also conditioned to sustain and further elaborate the intended purpose of programmatic assessments, by calling for a more mentorship type relationship rather than a purely assessment focussed one that would only facilitate their understanding of medical knowledge.

반대로, [균형을 맞추지 않으면 학생의 주체성을 상실]하고, [전통적인 평가 구조와 문화로 되돌아]가면서, 시행된 평가 프로그램이 여전히 문제가 되는 [모포스타시스 상황]이 발생할 수 있습니다. 이는 많은 학생들에게 '아노미'52, 즉 규범이 없는 상태, 즉 의도된 목적과 실제 전달에서 [역기능과 비활성화로 이어지는 무규범normless 상태]로 이어질 수 있습니다. 그 결과 중 하나는 평가의 이상과 실제 사이의 불일치로 인해 프로그램 평가의 고유한 [모포제네시스]에 위협을 가하는 것입니다.
In contrast, getting the balance uneven potentially leads to situations of morphostasis where the implemented programme of assessments remains problematic due to the loss of student agency and the return of the traditional assessment structures and culture. This can lead to a sense of ‘anomie’52 for many of the students, that is, a normless state leading to dysfunctionality and inactivity in the intended purpose and actual delivery. One of the consequences is threats to the inherent morphogenesis of programmatic assessment due to a mismatch between assessment ideals and practices.

균형이 맞지 않는 예로는 [의도된 이론]과 [구현된 평가 구성 요소] 간의 [불일치]가 있으며, 이는 평가의 구조와 문화 모두에 영향을 미칩니다. 예를 들어,

  • [재교육의 지원적 목적과 징벌적 목적]에 대한 [학생의 인식]은 [학생의 자율성을 잠재적으로 제약하는 요인]으로 작용했습니다.
  • 마찬가지로, [전문직업성 평가에 대한 징벌적 인식]은 학생들이 e포트폴리오를 감시와 통제의 도구로 경험함으로써 수동성과 무력감, 수동적 비활동성(아노미)을 유발하여 반성성과 주체성을 강화하기보다는 오히려 감소시켰습니다.

Examples of uneven balance include the mismatch between the intended theory and the implemented version of assessment components, impacting both the structure and culture of assessment.

  • Student perceptions about the supportive versus punitive purpose of remediation, for example, served as potential constraints to students' agency.
  • Similarly, punitive perceptions of the assessment of professionalism, where the ePortfolio was experienced by students as a tool for surveillance and control, diminished rather than enhanced reflexivity and agency by creating a sense of passivity and a feeling of powerless and passive inactivity (anomie).

요약하면, 프로그램 평가를 개발하고 정교화할 때 [구조, 문화 및 주체성] 간의 [균형]을 유지하여 [모포제네시스]를 지속하려면 교수진과 학생 간의 [권력 역학 관계]와 [신뢰의 최적 분배]에 달려 있습니다. 이는 평가 프로그램 내에서 숨겨진 커리큘럼이라는 비생산적인 느낌으로 이어지는 균형 부족으로 인해 성공적인 변화를 구현하는 데 핵심적인 요소로 부상했습니다.In summary, providing balance between structure, culture and agency to sustain morphogenesis in developing and elaborating programmatic assessment relies on optimal distribution of power dynamics and trust between faculty and the student body. This emerged as central to implementing successful changes with a lack of balance leading to the counterproductive sense of a hidden curriculum within the programme of assessments.

4 토론
4 DISCUSSION

4.1 주요 결과 요약
4.1 Summary of key findings

우리는 새로 도입된 프로그램적 평가의 요소가 어떤 상황에서 왜 학습을 향상시키는 측면에서 학생들에게 어떻게 작용했는지 이해하고자 했습니다. 우리는 평가 실행의 [구조, 문화 시스템의 조건 및 학습자 주체성] 간의 복잡한 상호 작용을 풀기 위해 순환적 역동적 변화 모델(형태 형성)과 연계된 세 가지 현실 영역(경험적, 현실적, 실재적)에 기반한 CR 관점을 사용했습니다. 우리의 핵심 발견은 학생의 경험을 설명하고 향후 평가 프로그램의 반복을 최적화할 수 있는 방법을 암시하는 [근본적인 메커니즘]을 발견하는 것이었습니다. 이 연구에서 나온 모델은 그림 3에 나와 있으며, 인과적 메커니즘을 구조, 문화, 기관 간의 균형으로 시각화하는 방법입니다. [건설적인 균형의 예는 학습 어드바이저 시스템 운영]에서 발견되었습니다. [균형이 부족]하면 평가 프로그램 내에서 학생들에게 [숨겨진 커리큘럼이 있다는 느낌]을 주게 됩니다.
We sought to understand how elements of a newly introduced programmatic assessment worked for the students in terms of enhancing their learning under what circumstances and why. We used a CR stance based on three domains of reality (empirical, actual and real) allied to a cyclical dynamic model of change (morphogenesis) to unpack the complex interplay between the structures of assessment practice, the conditions of the culture system and learner agency. Our key finding was discovering underlying mechanisms that were both explanatory of student experiences and suggestive of ways in which future iterations of the programme of assessments could be optimised. The model that emerged from this study is given in Figure 3, which is a way of visualising the causal mechanism as one of balance between structure, culture, and agency. An example of a constructive balance was found in the operating of the Learning Advisor system. A lack of balance led to the sense of a hidden curriculum for students within the programme of assessments.

프로그램 평가를 [복잡한 사회적 변화]로 간주할 때,

  • [관련 구조와 문화]는
    [에이전트(학생 및 교수진 선택)의 행동]에 대한
    조건(제약과 활성화의 형태)과
    조건화(새로운 '비전통적' 평가 프로세스의 수용의 형태)를 제공했습니다.
  • 이러한 상호 작용을 통해 [전통적인 평가 관행이 프로그램 평가로 전환(정교화)]되었습니다.

Considering programmatic assessment as a complex social change, 

  • the associated structures and culture
    provided conditions (in the form of constraints and enablements) and
    conditioning (in the form of acceptance of new ‘non-traditional’ assessment processes)
    for the actions of agents (student and faculty choices).
  • These interactions resulted in traditional assessment practices being transformed (elaboration) towards programmatic assessment.

그러나 평가 관행이 어떻게 전통적인 방식으로 유지될 수 있는지에 대한 지적도 있었습니다. [형태 형성 및 형태 정체 과정]은 프로그램식 평가 내에서 지속적이고 지속적이면서도 [쉽게 원래의 특징으로 되돌아갈] 수 있는 [변화의 순환적 특성]에 대한 이해를 제공했습니다.54 프로그램식 평가의 다양한 요소의 근간이 되는 [의도된 프로그램 이론]과 [프로그램식 평가에 대한 학생들의 (종종) 잘못된 인식] 사이의 [불일치]는, 새로운 평가 관행을 유지하고 학생들의 학습 및 반성성을 최적화하는 데 위협이 될 수 있습니다. CR 접근법의 역동적 유연성은 프로그램식 평가의 다양한 요소(예: 평가 형식, 학습 어드바이저 시스템, 교정 및 진도 결정)가 어떻게 상호 연관되어 있는지, 즉 한 영역의 변화가 다른 영역의 변화에 영향을 미치는지 이해하는 데 도움이 되는 것으로 입증되었습니다.

However, there was also indication of how the assessment practice could remain traditional. The process of morphogenesis and morphostasis provided an understanding of the cyclic nature of changes within the programmatic assessment that are sustained, continued, and yet which can easily revert back to the original features.54 A mismatch between intended programme theories underlying various elements of programmatic assessment and the students (often) fallible perceptions in their experience of the programmatic assessment can be a threat to sustaining new assessment practices and optimising student learning and reflexivity. The dynamic flexibility of the CR approach proved helpful in understanding how the various elements of programmatic assessment (such as assessment formats, learning advisor system, remediation and progression decision making) were interrelated, such that change to one area impacted change in another.

4.2 기존 이론 및 문헌과의 비교
4.2 Comparison with existing theory and literature

우리의 연구 결과는 [프로그램 평가]를 실행하는 동안 학생들의 다양한 경험에 영향을 미치는 [중요하지만 종종 무시되는 인과 메커니즘]이 있음을 시사함으로써 보건 전문직 교육에서 프로그램 평가에 대한 기존 논쟁에 추가됩니다. 이는 복잡하고 역동적이며 다단계 시스템을 포함하는 실행 접근법에 관한 기존 문헌에 추가됩니다.12, 13 우리의 연구 결과는 프로그램 평가에 대한 학생의 경험을 설명할 수 있는 중요한 인과 메커니즘에 추가됩니다.12, 13, 56 우리의 연구는 또한 CR 입장을 사용하는 이전의 이론적 연구를 확장합니다.18 경험적 데이터를 제공하고 학생의 기관과 평가의 규칙 및 규정과 지역 문화 시스템 간의 미묘한 균형을 밝혀 설명할 수 있는 잠재적 메커니즘을 식별함으로써 그렇게합니다. 이 연구는 [평가 구조 및 학생 주체성과 연결된 문화 시스템]을 확인함으로써 보건 전문직 교육의 문화 및 문화 변화에 대한 현재의 사고를 확장합니다57, 58 이 연구는 학생 주체성에서 얻은 통찰력에 대한 현재의 이론적 사고를 확장합니다.59 비교 및 확장 이론을 개발하면서 그림 3에서 구조, 문화 및 주체성 간의 인과 메커니즘과 역동적인 상호 작용을 고려한 세 가지 영역에 대해 논의합니다.
Our findings add to the existing debates about programmatic assessment in health professions education by suggesting that there are important and often neglected causal mechanisms that impact the students varied experiences during the implementation of programmatic assessment. This adds to the existing literature on implementation approaches involving complex, dynamic and multilevel systems.12, 13 Our findings add to the overarching causal mechanisms that can explain student experiences of programmatic assessment.12, 13, 56 Our research also extends previous theoretical work in using a CR stance.18 It does so by providing empirical data and identifying potential mechanisms that are explanatory by revealing the delicate balances between students' agency and the rules and regulations of assessment and the local cultural system. It extends current thinking on culture and cultural change in health professional education57, 58 by identifying a culture system that is linked with structures of assessment and student agency.54 This research extends current theoretical thinking on insights gained from student agency.59 In developing the comparison and extending theory, we discuss three areas that take account of the causal mechanisms and the dynamic interplay between structure, culture and agency in Figure 3.

  1. 집단적 반성성을 통한 주체성 증진
  2. 평가 구조에 대한 통합적이고 유연한 접근 방식
  3. 사회 문화적 조건에 대처
  4. Promoting agency through collective reflexivity.
  5. Integrated and flexible approaches to assessment structures.
  6. Addressing socio-cultural conditioning.

4.3 집단적 반사성을 통한 주체성 증진
4.3 Promote agency through collective reflexivity

[반사성]은 아처의 CR 프레임워크에서 핵심 개념 중 하나입니다. 사람들의 '관심사'(관심 있는 것의 중요성)와 '맥락'(사회적 환경의 연속성 또는 불연속성) 간의 상호작용이 '반사성'의 방식을 형성합니다.37, 55 우리의 맥락에서 일부 프로그램 평가 관행은 학습 평가 이론에 확고하게 기반을 두고 있었습니다. 따라서 학습자가 주체성을 발휘할 수 있는 기회60 는 다소 제한적이었습니다. [교수자와 학생 간의 쌍방향 대화]는 [학습자가 평가 및 학습을 경험하는 동안 선택할 수 있는 능력]을 포함하여, [학습자의 주체성을 촉진]하여, [학습을 위한 그리고 학습으로서의 평가를 촉진]할 수 있습니다.61-63 다른 사람들은 학습자가 평가의 다양한 데이터 요소를 [고부담]으로 인식함으로써 주체성이 방해받을 수 있다고 지적하며, 교수자가 [안전하고 신뢰하는 평가 관계]에서 학습자의 주체성을 촉진할 수 있다고 제안했습니다.64 
Reflexivity is one of the central concepts in Archer's framework of CR. The interplay between people's ‘concerns’ (the importance of what they care about) and their ‘context’ (the continuity or discontinuity of their social environment) shapes their mode of ‘reflexivity’.37, 55 In our context, some of the programmatic assessment practices were firmly grounded in the theory of assessment of learning. Accordingly, opportunities for learners to be agentic60 were somewhat constricted. A two-way dialogue between faculty and students might promote learners' agency including their ability to make choices during their experience of assessment and learning, facilitating assessment for and as learning.61-63 Others have noted that agency may be hindered by learners' perceptions of various data points in the assessment as high stakes and suggested that faculty can promote learner agency in safe and trusting assessment relationships.64 

우리의 데이터는 [학습자의 주체성]을 촉진하려면 [일부 평가 구조와 통합 방식을 변경해야 한다]는 것을 시사합니다. 학생은 [자신의 주체성을 행사]하고, 학습을 촉진하기 위해 [직접 설계한 평가 과제에 참여]할 수 있는 [직접적인 책임]이 있습니다. [전통적인 평가 시스템]에서 [급진적인 프로그램식 평가 시스템]으로 대대적인 학습 전환을 겪는 학생들을 위한 [오리엔테이]션은 학생들의 준비 수준, 참여 및 학습 측면에서 학생의 주체성을 최적화하는 데 중요합니다.65 평가 구조를 조정하는 동시에 학생의 주체성을 촉진하는 메커니즘을 위해서는 특정 인과적 힘과 역량을 개발하는 데 더 많은 투자가 필요합니다.36 예를 들어, 평가 구조의 변화에 기여하고 학생의 반사성을 촉진하기 위해 교수진이 [학생 단체에 권한을 부여]할 수 있어야 합니다. [권한 부여의 정도]는 프로그램 제공의 지역적 맥락과 문화에 따라 달라질 수 있습니다.

Our data suggest that to promote learner agency, some of the assessment structures and the ways they integrate need to be changed. Students have direct responsibility in this regard to exercise their agency and engage with assessment tasks they had a hand in designing to facilitate their learning. The orientation for students undergoing a major learning transition from the traditional to a radical programmatic assessment system is important, so that students' level of preparedness, their agency in terms of engagement and learning is optimised.65 For any mechanism to promote student agency whilst simultaneously adapting assessment structures, there has to be further investment in developing certain causal powers and capacities.36 For example, there would need to be empowerment of the student body by faculty to contribute to a change in the assessment structures and promote student reflexivity. The degree of empowerment would depend on the local context and culture of programme delivery.

4.4 평가 구조에 대한 통합적이고 유연한 접근 방식
4.4 Integrate and flexible approaches to assessment structures

[여러 번의 필기 시험]과 [작업 기반 평가]와 같은 [프로그램 평가의 많은 요소]는 [의도한 대로 작동]했으며, 학생의 [진도를 나타내는 유용한 지표]로 인식되었습니다. 본 연구에서 프로그램 평가의 다양한 요소(예: 학습을 지원하기 위해 고안된 교정)의 근간이 되는 [의도된 프로그램 이론]과 [평가에 대한 학생들의 인식(예: 징벌로 인식되는 교정)] 간의 [불일치]는 [새로운 평가 관행을 유지하는 데 위협]이 되고, 이전의 [전통적인 관행으로 회귀할 위험이 있음]을 시사했습니다.
Many elements of the programmatic assessment worked as intended, such as multiple written tests and the work-based assessment, and were perceived as useful indicators of student progression. In our study, a mismatch between intended programme theories underlying various elements of programmatic assessment (such as remediation designed to support learning) and the students' perceptions of the assessment (such as remediation perceived as punitive) suggested a threat to sustaining new assessment practices and risk returning to previous traditional practices.

다른 사람들은 평가 과제가 이해되지 않거나 너무 복잡하여 학습자의 주체성에 도전하지 못할 수 있다고 지적했지만, 우리는 복잡성이 문제라기보다는 [일부 평가 과제(예: 팀 기반 학습)가 너무 큰 작업 부하]를 나타내며, [학습 진행에 부정적인 영향]을 미친다고 느꼈습니다.66 평가 요구 사항의 전반적인 [외부 인지 부하]는 특히 평가의 다른 요소와 교육과정의 다른 측면을 통합하는 데 있어 학습에 유리하도록 균형을 맞춰야 합니다.49, 1
Although others have noted that assessment tasks can fail to challenge learners' sense of agency by virtue of not being understood or too complex, we found that, rather than complexity being an issue, some assessment tasks (for example in the team based learning) were felt to represent too great a workload and had a negative impact on learning progress.66 The overall extraneous cognitive load of assessment requirements needs to be balanced in favour of learning, particularly in ensuring the integration of the different elements of the assessment as well as other aspects of curriculum.49, 1

개별 평가 형식의 [비례성 또는 부담에 관한 프로그램 이론의 불일치 문제]는 다른 연구 결과와 유사합니다. Schut 외.61 및 Heeneman 외.67은 [프로그램 설계자의 저부담 평가에 대한 의도]와 [이러한 평가를 총점 또는 높은 부담으로 인식하는 학생의 인식] 사이에 [불일치]가 있다고 보고했습니다. 평가에 '스테이크'가 부여되는 순간 학습자는 평가가 의도한 교육 효과를 방해하고 학생 학습의 본질을 변화시킬 수 있는 '총괄적'인 것으로 인식하게 됩니다.61, 67, 68 개별 평가에 대한 '스테이크'라는 용어는 SPR 전체에 대한 의사 결정 과정에 적용하는 것이 가장 적합하다고 생각합니다.18
The issues with mismatch of programme theory around proportionality or stakes of the individual assessment formats resonate with findings elsewhere. Schut et al.61 and Heeneman et al.67 reported a mismatch between programme designers' intentions underpinning low-stakes assessments and students' perceptions of these assessments as summative or high stakes. The moment ‘stakes’ are assigned to assessments; they are perceived as ‘summative’ by learners that may interfere with the intended educational effect and change the nature of student learning.61, 67, 68 In our view, the terms ‘stakes’ on individual assessment are best applied to the decision-making process on the whole of the SPR.18

[학습을 위한 그리고 학습으로서의 평가 문화]에 변화를 구현하려면 [평가 프로그램, 평가자 및 학생 간의 열린 상호작용]이 필요하며,9, 10, 69 [의도한 설계]와 [평가 결과 간의 관계]를 [개선]해야 합니다.7, 20 학습 상담사와 같은 학습자 기관을 지원하는 구조를 활성화하는 데 충분한 자원이 필요할 수 있습니다.61 대부분의 학생과 교직원은 전통적인 접근 방식으로 일한 경험이 있으므로 의사 결정 및 진행 규칙을 사회화하는 데 교수진 개발이 중요한 역할을 담당합니다.
Implementing change to the culture of assessment for and as learning requires open interactions between the assessment programme, the assessors and the students,9, 10, 69 creating an enhanced relationship between the intended design and assessment outcomes.7, 20 Sufficient resources are likely to be needed for enabling structures to support learner agency such as learning advisors.61 There is an important role for Faculty development in socialising the decision-making and progression rules as most student and staff have a history of working with traditional approaches.

4.5 사회문화적 조건 해결
4.5 Address sociocultural conditioning

아처의 [형태 형성] 개념에 따르면 학습, [문화의 변화 과정]은 [학생과 평가 프로그램의 구조]가 서로 맞물려 [시간적으로 복잡한 방식]으로 지속됩니다.44 학생들은 [새로운 규범, 새로운 동료 커뮤니티 및 권력 관계]를 습득합니다. 프로그램 평가에 참여하는 [학생의 구조적, 문화적 문제]를 해결하면 평가 설계를 정교화하고 개선할 수 있습니다. 이를 무시하면 문화가 기존 평가의 규범으로 되돌아갈 수 있습니다. 요컨대, 프로그램식 평가는 커리큘럼의 구조적 변화뿐만 아니라 문화적 변화도 동시에 요구합니다.
According to Archer's notion of morphogenesis, the processes of change in a learning culture are sustained for both the students and the structures of the assessment programme in interlocking and temporally complex ways.44 Students acquire new norms, new communities of peers and power relationships. Addressing the structural and cultural concerns of students in engaging with programmatic assessment will lead to elaboration and refinement of the design of assessments. Neglecting this may reset the culture back towards the norms of traditional assessment. In short, programmatic assessment requires not only structural changes to the curriculum but also a simultaneous cultural shift.

평가 개혁을 수행할 때 상당수의 학생이 [숨겨진 또는 의도하지 않은 커리큘럼]을 경험한다면 이는 항상 교수진의 관심사가 될 것입니다. 문헌에서 평가의 숨겨진 요소에 대한 논의가 있었습니다.70, 71 우리의 데이터에 따르면 프로그램에 대한 학생들의 '아노미'는 주로 [학습을 위한 평가]에 대한 기대에 부적합한 [위압적인 평가 구조를 경험]하는 학생들의 증상과 징후에 관한 것이었습니다. 이는 다음으로 인해 더욱 악화되었습니다.

  • 교수진과의 소통이 원활하지 않은 문화,
  • 학생 대표가 갈등이 있는 부분을 협상해야 한다는 불공정한 기대,
  • 평가가 신뢰에 기반한 것이 아니라 학생을 감시하는 관행이라는 느낌

It will always be a faculty concern if a significant proportion of students experience a hidden or unintended curriculum, when undertaking assessment reform. There has been discussion of the hidden element of assessment in the literature.70, 71 Our data suggest that the student ‘anomie’ with the programme was principally around the symptoms and signs of students experiencing an overbearing structure of assessment that was a misfit for their expectations of assessment for learning. This was exacerbated by

  • a perceived culture of suboptimal faculty communication,
  • an unfair expectation of student representatives to negotiate areas of perceived conflict and
  • a sense of feeling assessment was a practice of surveillance of students rather than trust based.

소수는 프로그램식 평가에 대한 경험을 파괴적으로 해석했지만, 대다수는 학생의 선택권과 주체성 표현을 확대하고 덜 경직된 평가 프로토콜, 즉 [구조의 문제로 문화가 변화할 수 있다]고 말했습니다. 학습 환경의 문화 변화는 동료 교수 및 지원 프로그램, 거버넌스 프로세스, 궁극적으로 평가 변화를 포함하는 [교육과정 변화에 대한 학생의 적극적인 참여를 위한 전략 개발]을 통해 가장 잘 관리됩니다.72, 73
Although a small minority were subversive in their interpretation of their experiences of the programmatic assessment, the majority spoke of potential culture changes towards more student choice and expression of agency, and less rigid assessment protocols, an issue of structure. Changing the culture of the learning environment is best managed through developing a strategy for active student engagement with curriculum change, covering peer teaching and support programmes, governance processes and ultimately assessment change.72, 73

4.6 방법론적 강점과 불확실성
4.6 Methodological strengths and uncertainties

본 연구는 연구 결과를 이해할 때 몇 가지 강점과 한계를 가지고 있습니다. 강점으로는, 이 연구는 프로그램적 평가의 실행에 대한 최초의 이론적으로 엄격한 설명 중 하나입니다. 이 연구는 학생의 경험을 보고하는 것을 넘어 학생들의 인식과 그것이 교육 및 사회 변화로서 프로그램식 평가의 성장과 지속 가능성에 어떤 영향을 미칠 수 있는지에 대한 훨씬 더 심층적인 설명을 제공하는 것을 목표로 합니다. [추론 도구]로서 비판적 현실주의와 가추 및 역행추론을 사용하는 것은35, 46 HPE 연구에서 비교적 새로운 방법입니다. 인터뷰 데이터를 존재론적 수준(실제, 경험적, 실제)에서 코딩하고 이분법적 귀납-연역 방식을 넘어서는 의미 있는 추론을 도출함으로써, 방법론적 엄밀성을 더할 뿐만 아니라 연구 결과에 대한 보다 의미 있는 설명을 제공할 수 있었습니다. 마지막으로, 14개 포커스 그룹에 걸쳐 112명의 학생의 관점과 경험을 수집함으로써 연구의 좁은 목표를 고려할 때 충분한 정보력을 갖춘 표본을 확보했다고 주장합니다.45
Our study has several strengths and limitations when making sense of the findings. As a strength, this is one of the first theoretically rigourous accounts of an implementation of programmatic assessment. It goes beyond reporting student experiences by aiming to provide a much deeper explanation of students' perceptions and how they might influence growth and sustainability of programmatic assessment as an educational and social change. The use of critical realism and abduction and retroduction as inferential tools35, 46 is relatively new to the health professional education research. Coding interview data at ontological levels (actual, empirical and real) and drawing meaningful inferences that go beyond dichotomous inductive–deductive modes not only added to methodological rigour but also provided more meaningful explanations of the findings. Lastly, by collecting the perspectives and experiences of 112 students across 14 focus groups, we claim a sample with sufficient information power given the narrow aims of our study.45

방법론적 과제로는 

  • 첫째, 귀납적, 연역적, 회귀적 분석 단계가 일부 중복되었고, 분석 과정이 선형적이기보다는 반복적이었다는 점입니다. 마찬가지로, 실제로는 연구자들 간에 경험적인 것과 실제적인 것에 대해 어느 정도 중복되는 부분이 있었지만, 무엇이 실제적인지에 대해서는 훨씬 더 큰 합의가 이루어졌습니다. 
  • 둘째, 구조, 문화 및 기관44 측면에서 데이터를 재개념화할 때 Staff의 행위자성을 고려하면 도움이 될 수 있었습니다. 이 연구의 초점은 학생의 설명이었지만, 프로그램의 구조와 문화가 학생의 행위자성에 미치는 영향에 대한 보다 풍부한 이해를 제공하기 위해서는 자체적인 대리성을 가진 교직원에 대한 인식도 고려할 필요가 있습니다.
  • 마지막으로, 우리는 우리의 분석과 이론화가 새로운 커리큘럼의 일부로 프로그램 평가가 도입된 특정 맥락을 기반으로 했다는 점을 인정합니다. 그럼에도 불구하고 우리는 우리의 연구 결과가 대규모 학생 집단을 대상으로 한 프로그램 평가의 실행을 이해하고자 하는 다양한 맥락의 다른 사람들에게 적용될 수 있다고 믿습니다.

In terms of methodological challenges, first, there was some overlap between inductive, abductive and retroductive phases of analysis with the process being more iterative than linear. Similarly, in practice, although there was some overlap between researchers as to what was considered empirical and actual, there was much greater agreement on what constituted the real; second, reconceptualising the data in terms of structure, culture and agency44 might have benefited from considering staff agency. Although the focus of this study was the students' account, perceptions of faculty, who have their own agency, need to be considered in providing a richer understanding of the influence of structure and culture of the programme on student agency. Finally, we acknowledge that our analysis and theorising was based on a specific context where programmatic assessment was introduced as part of a new curriculum. Nonetheless, we believe our findings to be adaptable to others in differing contexts seeking to understand the implementation of programmatic assessment with large cohorts of students.

4.7 실무 및 연구에 대한 시사점
4.7 Implications for practice and research

구조, 문화, 기관37, 44, 54 및 현실의 계층화된 영역36, 38, 39 간의 관계에 기반한 CR 접근법은 소홀히 다루어진 관심 영역을 강조함으로써 보건 전문직 교육에서 평가 실무를 연구하는 데 의미 있고 적응 가능한 방법론을 제공할 수 있습니다.

  • 교육자에게는 구조 문화 기관 프레임워크(그림 3)가 평가 및 교육과정을 (재)설계할 때 복잡한 교육 및 사회적 변화를 단순화할 수 있는 툴킷을 제공할 수 있습니다.
  • CR 접근법은 다양한 맥락에서 무엇이 효과가 있는지, 누구에게 효과가 있는지, 가장 중요한 것은 근본적인 메커니즘 측면에서 어떻게 작동하는지 설명하는 데 신뢰할 수 있는 분석을 제공할 수 있습니다.
  • 이 논문은 학생 경험에 초점을 맞추었지만 이러한 조사는 교수진의 관점을 이해하기 위해 확장될 수 있습니다.
  • CR 접근법은 의과대학 또는 대학 내의 다양한 주체(예: 교수진 리더십 그룹, 교수진)가 프로그램 평가의 번창에 영향을 미치는 인과적 힘을 개발하고 행사하는 방식을 설명하는 데 도움이 될 수 있습니다.
  • 또한 CR 관점에 기반한 연구 프로그램은 프로그램식 평가와 커리큘럼 간의 연결에 기반이 되는 기본 원칙에 대한 이해를 풍부하게 하여 현지의 질 개선과 다른 맥락에서 원칙의 더 나은 적용을 이끌어낼 수 있습니다.

A CR approach based on the relationship between structure, culture and agency37, 44, 54 and stratified domains of reality36, 38, 39 can provide a methodology that is meaningful and adaptable for researching assessment practice in health professional education by highlighting neglected areas of concern.

  • For educators, our structure culture agency framework (Figure 3) can provide a toolkit which promotes a simplification of the complex educational and social changes when (re)designing assessment and curriculum.
  • A CR approach can provide credible analysis for determining what might work across multiple contexts, what works for whom, and most importantly explaining how it works in terms of fundamental mechanisms.
  • In this paper, we have focussed on student experiences, but such investigations can be extended to understand faculty's perspectives.
  • A CR approach may help to explain how various entities within the medical school or university, for example, the faculty leadership groups, and teaching faculty develop and exercise causal powers that influence the flourishing of programmatic assessment.
  • Research programmes based on CR perspectives can also enrich understanding of the fundamental principles underlying the link between programmatic assessment and curriculum thereby leading to local quality improvement and better adaptations of the principles in other contexts.

평가 개혁을 연구하는 접근법의 레퍼토리를 확장함으로써 프로그램 평가와 같은 복잡한 교육 이니셔티브에 대한 평가를 CR이 제공하는 보다 근본적인 관점에서 풀고 이해할 수 있습니다. 향후 작업에서 CR을 사용하면 의도한 결과를 현지의 요구와 상황에 맞게 맞춤화하고 조정할 수 있습니다. 이를 통해 실용적인 실행과 프로그램 평가의 장기적인 지속 가능성을 보장할 수 있습니다.
By extending the repertoire of approaches to researching assessment reforms, evaluation of complex educational initiatives like programmatic assessment can be unpacked and understood from the more fundamental perspective that CR offers. In future work, using CR ensures that intended outcomes are customised and adapted to local needs and contexts. This would ensure pragmatic implementation and long-term sustainability of programmatic assessment.

4.8 결론
4.8 Conclusions

본 연구는 학습자 주체, 구조 및 문화 간의 균형을 달성하는 것이 평가 실행에서 지속적인 변화(정교화)를 뒷받침하는 전략을 어떻게 제시하는지를 강조함으로써 프로그램 평가에 대한 논의에 추가합니다. 여기에는 집단적 반성성과 주체성을 촉진하기 위한 교수진과 학생의 학습 개발, 이론과 실제의 통합을 강화하여 평가 구조를 최적화하는 것, 학습에 대한 평가와 학습에 대한 새로운 규범, 신념 및 행동과 관련된 수용과 신뢰를 얻기 위해 교수진과 학생 간의 기존 사회 구조를 개선하고 새로운 사회 구조를 개발함으로써 학습 문화를 변화시키는 것 등이 포함됩니다.
Our study adds to debates on programmatic assessment by emphasising how the achievement of balance between learner agency, structure and culture suggests strategies to underpin sustained changes (elaboration) in assessment practice. These include; faculty and student learning development to promote collective reflexivity and agency, optimising assessment structures by enhancing integration of theory with practice, and changing learning culture by both enhancing existing and developing new social structures between faculty and the student body to gain acceptance and trust related to the new norms, beliefs and behaviours in assessing for and of learning.


Med Educ. 2022 Sep;56(9):901-914. doi: 10.1111/medu.14807. Epub 2022 Apr 29.

Student perspectives on programmatic assessment in a large medical programme: A critical realist analysis

Affiliations collapse

1Faculty of Medicine and Health, Sydney Medical School, Education Office, The University of Sydney, Sydney, New South Wales.

2Faculty of Medicine and Health, Sydney Pharmacy School, Discipline of Pharmacology, The University of Sydney, Sydney, New South Wales, Australia.

3Faculty of Medicine and Health, The University of Sydney, Sydney, New South Wales, Australia.

4School of Medicine, The University of Notre Dame, Chippendale, New South Wales, Australia.

PMID: 35393668

PMCID: PMC9542097

DOI: 10.1111/medu.14807

Free PMC article

 

Background: Fundamental challenges exist in researching complex changes of assessment practice from traditional objective-focused 'assessments of learning' towards programmatic 'assessment for learning'. The latter emphasise both the subjective and social in collective judgements of student progress. Our context was a purposively designed programmatic assessment system implemented in the first year of a new graduate entry curriculum. We applied critical realist perspectives to unpack the underlying causes (mechanisms) that explained student experiences of programmatic assessment, to optimise assessment practice for future iterations.

Methods: Data came from 14 in-depth focus groups (N = 112/261 students). We applied a critical realist lens drawn from Bhasker's three domains of reality (the actual, empirical and real) and Archer's concept of structure and agency to understand the student experience of programmatic assessment. Analysis involved induction (pattern identification), abduction (theoretical interpretation) and retroduction (causal explanation).

Results: As a complex educational and social change, the assessment structures and culture systems within programmatic assessment provided conditions (constraints and enablements) and conditioning (acceptance or rejection of new 'non-traditional' assessment processes) for the actions of agents (students) to exercise their learning choices. The emergent underlying mechanism that most influenced students' experience of programmatic assessment was one of balancing the complex relationships between learner agency, assessment structures and the cultural system.

Conclusions: Our study adds to debates on programmatic assessment by emphasising how the achievement of balance between learner agency, structure and culture suggests strategies to underpin sustained changes (elaboration) in assessment practice. These include; faculty and student learning development to promote collective reflexivity and agency, optimising assessment structures by enhancing integration of theory with practice, and changing learning culture by both enhancing existing and developing new social structures between faculty and the student body to gain acceptance and trust related to the new norms, beliefs and behaviours in assessing for and of learning.

아너(Honors)를 위하여: 임상실습 평가와 성적에 관한 학생의 인식 다기관 연구(Acad Med, 2019)
In Pursuit of Honors: A Multi-Institutional Study of Students’ Perceptions of Clerkship Evaluation and Grading
Justin L. Bullock, MPH, Cindy J. Lai, MD, Tai Lockspeiser, MD, MHPE, Patricia S. O’Sullivan, EdD, Paul Aronowitz, MD, Deborah Dellmore, MD, Cha-Chi Fung, PhD, Christopher Knight, MD, and Karen E. Hauer, MD, PhD 

 

[임상 실습]을 준비하려면 학생들은 광범위하고 빠르게 확장되는 기술과 지식을 습득해야 합니다.1 동시에, 학생들은 특히 특정 전문과목에서 레지던트 자리를 차지하기 위한 경쟁이 치열해지고 있습니다.2,3 이러한 요구는 함께 [부담스러운 임상 학습 환경]을 조성하여 학습자에게 악영향을 미칠 수 있습니다.4 학생들의 스트레스를 유발하는 중요한 요인 중 하나는 [임상실습 성적]입니다.5,6 성적은 학생과 의과대학에 중요한 피드백을 제공하며, 레지던트 프로그램은 레지던트 선발 시 핵심 임상실습 성적에 의존합니다.7-9 성적 배정은 일반적으로 [시험 점수]와 [감독 교수 및 레지던트의 종합 평가]에 의해 결정됩니다. 그럼에도 불구하고 학생과 교육자 모두 성적의 공정성과 정확성에 의문을 제기합니다.4 "평가가 학습을 이끈다"는 교육자의 격언에 비추어 볼 때, 현재 평가 시스템에 대한 부정적인 인식은 학생의 동기 부여, 학습 행동, 성과에 부정적인 영향을 미칠 수 있습니다.10
Preparing for clinical practice requires students to acquire broad and rapidly expanding skills and knowledge.1 Simultaneously, students face increasing competition for residency positions, particularly in certain specialties.2,3 Together, these demands create a taxing clinical learning environment, which may adversely affect learners.4 One significant contributor to student stress is clerkship grading.5,6 Grades provide important feedback to students and medical schools, and residency programs rely on core clerkship grades in resident selection.7–9 Grade assignments are typically informed by examination scores and summative evaluations from supervising faculty and residents. Still, students and educators alike question the fairness and accuracy of grades.4 Drawing from the educator’s adage “assessment drives learning,” negative perceptions of the current assessment system may adversely affect students’ motivation, learning behaviors, and performance.10

임상실습 평가 및 채점에 대한 학생의 우려는 [다양한 요인]으로 인해 발생할 수 있습니다.

  • 감독자는 평가 척도를 다양하게 해석하고 최고 성과에 대한 [공유된 정신 모델이 부족]할 수 있습니다.11-13
  • 학생은 자신을 평가할 때 [감독자가 무엇을 중요하게 생각하는지 불확실]하게 느낄 수 있습니다.14
  • 공정한 평가 시스템은 학생이 학습하고 [학습을 입증할 수 있는 충분한 기회]가 필요하고 [평가 및 채점에 투명한 기준을 사용]하며 [공평]해야 합니다.15,16
    • 한 의과대학에서 실시한 한 연구에 따르면 학생의 38%만이 임상실습 평가가 공정하다고 생각하는 것으로 나타났습니다.17
  • 수퍼바이저가 [수련생을 직접 관찰하지 않고 역량을 평가]하기 때문에 학생들은 평가의 정확성을 의심할 수 있습니다.18,19
  • [편견] 또한 정확성을 위협하고 성적에 대한 회의론을 불러일으킵니다. 의학계에서 소외된 인종 또는 민족(UIM) 출신의 학생은 최고 성적을 받고 아너 소사이어티에 선발될 가능성이 낮습니다.20-22

Students’ concerns around clerkship evaluations and grading may arise from a variety of factors.

  • Supervisors variably interpret assessment scales and may lack a shared mental model of top performance.11–13 
  • Students can feel uncertain about what supervisors value when evaluating them.14 
  • A fair assessment system requires sufficient opportunities for students to learn and demonstrate learning, uses transparent criteria for evaluation and grading, and is equitable.15,16 
    • One study at a single medical school found that only 38% of students felt that clerkship evaluation was fair.17 
  • Students may doubt the accuracy of their evaluations because supervisors evaluate trainees on competencies despite infrequent direct observation of those trainees.18,19 
  • Bias also threatens accuracy and raises skepticism around grades. Students from racial or ethnic groups underrepresented in medicine (UIM) are less likely to earn top grades and honor society selection.20–22

모든 학생은 임상실습 환경이 학습에 미치는 영향에 취약할 수 있습니다.

  • [숙달 지향적 환경]은 학생들이 도전을 추구하고 장애물에 직면했을 때 성공하는 학습에 대한 적응적 접근 방식을 촉진합니다.23
  • 반대로 [성과 지향적 환경]에는
    • 학생들이 [겉으로 유능해 보일 수 있는 과제를 수행]하면 보상하는 "성과 접근 방식"과,
    • 학생들이 [무능해 보일 수 있는 도전적인 상황을 회피]하게 만드는 "성과 회피 방식"이 포함됩니다.
  • [숙달 중심]의 [합격/불합격 전임상 학습 환경]에서 [성과 중심]의 [단계별 채점 임상 학습 환경]으로 전환하면 학생이 숙달 중심의 행동을 경시하고 학습에 부정적인 영향을 미칠 수 있습니다.24
  • [성과 중심]의 학습 문화는 학생의 정보 유지력과 만족도를 떨어뜨리고 소진을 증가시킬 수 있습니다.23,25

All students can be susceptible to influences of the clerkship environment on their learning.

  • A mastery-oriented environment fosters adaptive approaches to learning in which students seek challenges and thrive when facing obstacles.23 
  • Conversely, performance-oriented environments include
    • “performance approach,” which rewards students for performing tasks that they know will make them appear competent,
    • and “performance avoid,” which encourages students to avoid challenging situations that could make them appear incompetent.
  • The transition from a more mastery-oriented pass/fail preclinical learning environment to a more performance-oriented tiered grading clinical learning environment may cause students to deemphasize mastery-oriented behaviors and negatively affect learning.24 
  • A performance-oriented learning culture can decrease students’ retention of information and satisfaction and increase burnout.23,25

[UIM 학생과 비 UIM 학생 간의 성적 격차]는 [평가자의 편견을 넘어 임상실습 학습 환경의 다른 요인에 대한 고려]를 촉구하며, 이는 UIM 학생의 성과 저하에 고유하게 기여할 수 있습니다.21,26 [낙인찍힌 집단]의 취약한 구성원(예: 일반적으로 UIM인 인종/민족 학생)이 [자신이 속한 집단에 대한 낮은 기대치에 부합할 것을 걱정]할 때 [고정관념 위협]을 경험하게 됩니다. [고정관념 위협]은 인지 부하를 증가시키고 습득한 기술과 역량을 발휘하지 못하게 함으로써 집단 간 성과 차이를 악화시킵니다.27-29 인종, 성별, 나이와 관련된 고정관념 위협은 널리 연구되어 왔지만, 의대생 사이에서 고정관념 위협의 영향을 조사한 문헌은 부족합니다.28-32
Grading disparities between UIM and non-UIM students prompt consideration of other forces in the clerkship learning environment, beyond evaluator bias, which may uniquely contribute to poorer UIM student performance.21,26 When vulnerable members of stigmatized groups (e.g., students from races/ethnicities typically UIM) worry that they will conform to lower expectations for their group, they experience stereotype threat. Stereotype threat exacerbates group differences in performance by increasing cognitive load and inhibiting the display of acquired skills and competencies.27–29 While stereotype threats relating to race, gender, and age have been widely explored, a dearth of literature examines effects of stereotype threat amongst medical students.28–32

본 연구는

  • (1) 임상실습 평가 및 채점의 공정성과 정확성에 대한 학생들의 인식을 조사하고,
  • (2) 임상실습 학습 환경에 대한 학생들의 인식을 조사하고,
  • (3) 이러한 인식과 학생의 성취도 사이의 관계를 평가하기 위해 설계되었습니다.

We designed this study to

  • (1) examine students’ perceptions of the fairness and accuracy of clerkship evaluation and grading,
  • (2) examine students’ perceptions of the clerkship learning environment, and
  • (3) assess the relationship between these perceptions and students’ achievement.

방법
Method

설계
Design

이 연구는 여러 기관을 대상으로 한 횡단면 설문조사 연구입니다.
This is a multi-institutional, cross-sectional survey study.

설정
Setting

연구 기관은 서부의 다양한 지리적 위치와 공립/사립 현황을 대표하는 서부 교육 문제 그룹에 속한 미국 학교 6곳을 편의 표본으로 선정했습니다(표 1). 초대받은 학교 중 참여를 거부한 학교는 없었습니다. 6개 기관 심의위원회 모두 이 연구를 승인했습니다. 모든 학교는 학생들에게 가정의학과, 내과, 산부인과, 소아과, 정신과, 외과 임상실습을 이수하도록 요구했습니다. 일부는 추가적으로 요구되는 임상실습이 있었습니다. 이 연구에서 "우등"은 각 학교에서 달성할 수 있는 가장 높은 서클러십 성적을 의미합니다. 전국 의과대학과 마찬가지로 학교마다 우등상을 받을 수 있는 학생 비율, 종단 통합 서클럭의 존재 여부, 성적 부여 방식이 다양했습니다.33
Study institutions were a convenience sample of 6 U.S. schools in the Western Group on Educational Affairs, representing diverse western geographical locations and public/private status (Table 1). No invited schools declined participation. All 6 institutional review boards approved the study. All schools required students to complete family medicine, internal medicine, obstetrics–gynecology, pediatrics, psychiatry, and surgery clerkships (see Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/A720). Some had additional required clerkships. In this study, “honors” refers to the highest clerkship grade achievable at each school. Consistent with medical schools nationally, schools varied in the percentage of students allowed to receive honors, presence of longitudinal integrated clerkships, and method of grade assignments.33

참여 학생
Participating students

참여 대상은 핵심 임상실습 연도가 끝나는 모든 의대생이었습니다. 5개 학교에서 학생들은 해당 학교의 수석 조사자가 서명한 전자 설문조사 플랫폼에 대한 개별 이메일 링크를 받았습니다. 학교별 규칙에 따라 이메일 초대는 여섯 번째 학교의 학급 목록 서버로 보내야 했습니다. 응답하지 않은 응답자에게는 매주 최대 3회의 리마인더가 전송되었습니다. 설문조사는 공개 후 30일 동안 활성화되었습니다. 설문조사가 완료되면 참가자는 외부 웹사이트를 통해 이메일 주소를 제출하여 10달러 전자 기프트 카드를 받을 수 있었습니다. 데이터 수집 후, 연구에 관여하지 않은 데이터 분석가가 개인 식별 정보를 제거하고 참가자에게 무작위 식별 번호를 할당했습니다. 학생이 인구 통계 섹션을 작성하지 않았거나 임상실습을 3개 미만으로 완료한 경우 설문조사에서 제외되었습니다.
Eligible participants were all medical students at the end of the core clerkship year. At 5 schools, students received an individualized email link to an electronic survey platform (www.qualtrics.com), signed by the lead investigator of that school. School-specific rules required that the email invitation go to the sixth school’s class listserv. Nonrespondents received up to 3 weekly reminders. The survey was active for 30 days after release. Upon completion, participants could submit their email address via an outside website to receive a $10 electronic gift card. After data collection, a data analyst not otherwise involved in the study removed identifying information and assigned participants random identification numbers. Surveys were excluded if the student did not complete the demographics section or completed fewer than 3 clerkships.

이론적 모델 및 설문조사 개발
Theoretical model and survey development

설문조사 개발 지침에 따라 설문조사를 개발했습니다.34 두 명의 저자(J.L.B., K.E.H.)가 문헌을 검토하여 학생들의 임상실습 성적에 대한 인식을 둘러싼 주요 이론, 증거 및 격차를 파악했습니다. 한 학교(캘리포니아대학교 샌프란시스코 캠퍼스[UCSF])에서는 의과대학 학장들과 함께 임상실습 채점에 관한 학생 타운홀을 개최했습니다. 문헌 검토와 타운홀 피드백을 바탕으로, 저희는 학생 평가의 공정성과 정확성, 학생의 동기 부여와 노력, 피드백에 대한 학생의 인식, 학생의 학습 환경, 학생의 성취 결과에 기여하는 요인에 대한 [학생의 인식에 대한 모델]을 개발했습니다(그림 1). 이 모델을 사용하여 2개의 연구 학교(UCSF, 콜로라도대학교 의과대학)에서 23명의 학생이 서면으로 또는 4개의 포커스 그룹 중 1개 그룹에서 피드백을 제공한 설문조사 항목을 개발하고 파일럿 테스트를 거쳤습니다. 최종 설문조사에는 적응 학습 척도(PALS) 및 고정관념 취약성 척도(SVS) 매뉴얼의 문항도 포함되었습니다.28,35 PALS 숙달, 수행 접근 방식, 수행 회피 교실 목표 구조 척도 및 SVS 고정관념 위협 항목을 "임상실습"을 참조하도록 수정했습니다. 파일럿 학생들에게 혼란을 줄 수 있는 이중 부정적 표현으로 인해 원래의 SVS 항목 3개를 제거했습니다. 
We developed a survey following guidelines for survey development.34 Two authors (J.L.B., K.E.H.) reviewed the literature to identify key theories, evidence, and gaps surrounding students’ perceptions of clerkship grading. One school (University of California, San Francisco [UCSF]) held a student town hall on clerkship grading with medical school deans. Based on the literature review and town hall feedback, we developed a model of students’ perceptions of the fairness and accuracy of clerkship assessment, student motivation and effort, perceptions of feedback, clerkship learning environment, and contributors to students’ achievement outcomes (Figure 1). Using this model, we developed and pilot-tested survey items at 2 study schools (UCSF, University of Colorado School of Medicine) with 23 students who provided feedback in writing or in 1 of 4 focus groups. The final survey also included adapted questions from the Manual for the Patterns of Adaptive Learning Scales (PALS) and the Stereotype Vulnerability Scale (SVS).28,35 We modified the PALS Mastery, Performance Approach, and Performance Avoid Classroom Goal Structure scales and SVS stereotype threat items to reference “clerkships.” We eliminated 3 original SVS items because of double-negative wording that confused pilot students.


[최종 106개의 설문조사 항목]은 참가자 인구통계, 자가 보고한 우등상 수상 횟수, 수강한 임상실습 횟수, 의도한 전공, 다양한 영역이 최종 성적에 미치는 영향에 대한 인식(0~10점), 채점에 대한 인식(공정성, 정확성) 및 임상실습 학습 환경(동기 부여, 고정관념 위협)이라는 가설 예측 변수에 관한 것이었습니다. 예측변인 질문은 5점 리커트 척도(매우 동의하지 않음[1] ~ 매우 동의함[5])를 사용했습니다. 개방형 질문 중 하나는 성적 향상을 위한 학생의 추천을 요청하는 질문이었습니다. 
The final 106 survey items addressed participant demographics, self-reported number of honors earned, number of clerkships taken, intended specialty, perceived impact of various domains on their final grade (scored 0–10), and our hypothesized predictors: perceptions of grading (fairness, accuracy) and clerkship learning environment (motivation, stereotype threat). Predictor questions used a 5-point Likert scale (strongly disagree [1] to strongly agree [5]). One open-ended question solicited students’ recommendations to improve grading (see Supplemental Digital Appendix 2 at https://links.lww.com/ACADMED/A720).

요인 분석
Factor analysis

데이터 축소를 위해 주성분 분석을 사용하여 채점 및 임상실습 학습 환경의 공정성과 정확성에 대한 인식에 대해 리커트 척도 질문을 1~5개의 연속 변수로 처리했습니다. 바리맥스 회전을 사용하여 고유값이 1 이상인 요인을 유지하고 수렴하기 전까지 최대 25회 반복했습니다. 누락된 데이터는 쌍별 삭제를 사용했습니다. 카이저-마이어-올킨 검정은 0.80 이상으로 항목 간에 충분한 상관관계가 있음을 나타냅니다. 항목은 가장 큰 로딩을 기준으로 요인에 할당되었습니다. PALS 동기 부여 척도와 SVS는 이전에 검증되었고 약간의 수정에도 여전히 높은 내적 일관성을 보였기 때문에 주성분 분석에 포함되지 않았습니다.28,35 모든 요인에 대해 크론바흐 알파 계수와 비가중 평균 점수를 계산하여 크론바흐 알파가 0.6 이상인 요인만 유지했습니다. 모든 요인 적재량이 양수가 되도록 필요에 따라 항목을 리버스 코딩했습니다. 유지된 각 요인에 대해 해당 요인을 구성하는 항목의 평균과 동일한 연속 변수로 취급하여 척도 점수를 계산했습니다. 척도 점수의 경우 3점 미만은 "동의하지 않음", 3점 이상은 "동의", = 3점은 "중립"으로 분류했습니다. SVS 점수가 3점 이상이면 고정관념 위협에 취약한 것으로 나타났습니다.
We used principal components analysis for data reduction, treating Likert scale questions as continuous 1–5 variables for perceptions of fairness and accuracy of grading and clerkship learning environment. We used varimax rotation, retaining factors with an eigenvalue ≥ 1 and a maximum of 25 iterations before convergence. We used pairwise deletion for missing data. The Kaiser–Meyer–Olkin test was > 0.80, indicating sufficient correlation amongst items. Items were assigned to factors based on their largest loading. Because the PALS motivation scales and SVS were previously validated and still had high internal consistency with our minor modifications, they were not included in the principal component analysis.28,35 For all factors, we calculated the Cronbach alpha coefficient and nonweighted mean score, retaining factors with Cronbach alpha > 0.6. Items were reverse-coded as needed so that all factor loadings were positive. For each retained factor, we calculated a scale score, treated as a continuous variable equal to the mean of the items comprising the factor. For scale scores, we categorized < 3 as “disagree,” > 3 as “agree,” and = 3 as “neutral.” An SVS score > 3 indicated vulnerability to stereotype threat.

통계 분석
Statistical analysis

인구 통계에 대한 기술 통계를 계산했습니다. t 검정으로 연령의 차이를 평가했습니다. 다른 모든 하위 그룹 비교에는 카이제곱 테스트를 사용했습니다. 첫 번째 목표를 조사하기 위해 공정성과 정확성에 대한 학생들의 인식과 임상실습 학습 환경에서의 학생 경험에 대한 기술 통계를 계산했습니다. 성별 및 UIM 상태별 인식의 하위 그룹 비교를 위해 카이제곱 검정을 사용했습니다. 
We calculated descriptive statistics for demographics. t Tests assessed differences in age. For all other subgroup comparisons, we used chi-square tests. To examine our first aim, we calculated descriptive statistics for students’ perceptions of fairness and accuracy and students’ experience in the clerkship learning environment. We used chi-square tests for subgroup comparisons of perceptions by gender and UIM status.

두 번째 목표인 학생 인구통계학적 특성과 인식 및 우등상 수상 간의 관계를 조사하기 위해 [다변량 회귀 분석]을 사용했습니다. 성적 정책의 학교 간 차이를 설명하기 위해 우등상 수상 비율, 해당 학생의 학교 우등상 수상 비율의 평균 및 표준 편차를 사용하여 z 점수를 계산하여 각 학생의 표준화된 우등상을 계산했습니다. 여기서 '우등상 획득'은 각 학생의 표준화된 우등상 값을 의미합니다. 예측 변수는 학생 인구 통계와 학생 인식(PCA 식별 요인, PALS, SVS)의 두 블록으로 입력했습니다. 인구통계학적 변수는 연속형인 나이를 제외하고 이분법으로 처리했습니다. 아프리카계 미국인, 라틴계 미국인, 라틴계 미국인, 히스패닉계 미국인, 아메리카 원주민, 알래스카 원주민, 하와이 원주민 또는 기타 태평양 섬 주민이라고 스스로 밝힌 UIM 학생들.36 2018년 전국 레지던트 매칭 프로그램 데이터를 사용하여 [경쟁이 심한 전문과목]은 매칭 확률 ≤ 90%, 매칭된 지원자의 1단계 점수 중간값 240 이상, 2단계 CK(임상 지식) 중간값 250의 3가지 기준 중 두 가지를 충족하는 것으로 정의했습니다(표 1). 회귀분석에서 16개의 비교를 설명하기 위해 Bonferroni 보정을 수행했으며, P값이 .003 이하인 경우 통계적으로 유의한 것으로 간주했습니다.41 분석에는 Windows용 IBM SPSS 통계 버전 23.0(IBM, Armonk, New York)을 사용했습니다.
We used multivariable regression analysis to explore our second aim, the relationship between student demographics and perceptions and honors earned. To account for interschool differences in grading policies, we computed each student’s standardized honors by calculating a z score using the fraction of clerkships honored, mean and standard deviation of the fraction of clerkships honored for that student’s school. Hereafter, “honors earned” refers to each student’s standardized honors value. We entered predictor variables in 2 blocks: student demographics and student perceptions (PCA-identified factors, PALS, SVS). We treated demographic variables as dichotomous except age, which was continuous. UIM students self-identified as African American, Latino, Latina, Hispanic, Native American, Alaskan Native, Native Hawaiian, or other Pacific Islander.36 Using 2018 National Resident Matching Program data, competitive specialties were defined as meeting 2 of 3 criteria: probability of matching ≤ 90%, median Step 1 score of matched applicants ≥ 240, and median Step 2 CK (Clinical Knowledge) ≥ 25037–40 (Table 1). We performed a Bonferroni correction to account for 16 comparisons in the regression, with a P value ≤ .003 deemed statistically significant.41 We used IBM SPSS Statistics Version 23.0 for Windows (IBM, Armonk, New York) for analyses.

정성적 분석
Qualitative analysis

세 명의 저자(J.L.B., C.J.L., T.L.)가 콘텐츠 분석을 사용하여 댓글을 분석했습니다. 각 저자는 무작위로 추출한 50개의 댓글에서 귀납적으로 [코드북을 개발]했습니다. 토론을 거쳐 [코드를 하나의 코드북으로 통합]한 후 코딩 과정을 통해 [반복적으로 수정]했습니다. 2명의 저자가 Microsoft Excel을 사용하여 각 댓글을 독립적으로 코딩한 후 토론을 통해 불일치하는 부분을 조정했습니다. 코딩에 대한 토론과 코드 간의 관계에 대한 관심을 통해 핵심 주제와 하위 주제가 도출되었습니다. 코딩자 중에는 의대생, 임상실습 책임교수, 평가위원회 책임자가 포함되어 있었기 때문에 코드 조정은 자연스럽게 반성적 사고를 촉진했습니다. 학생의 코멘트 중 어떤 부분이 주어진 코드에 적용되는 코멘트 비율을 계산했습니다.
Three authors (J.L.B., C.J.L., T.L.) analyzed comments using content analysis. Separately, each author inductively developed a codebook from a random sample of 50 comments. After discussion, we combined codes into a single codebook that we iteratively revised throughout the coding process. Using Microsoft Excel, 2 authors coded each comment independently and then reconciled discrepancies through discussion. Discussion of coding and attention to relationships among codes yielded key themes and subthemes. Code reconciliation naturally facilitated reflexivity as the coders included a senior medical student, clerkship director, and assessment committee director. We calculated the percentage of comments for which any portion of a student’s comment applied to a given code.

결과
Results

전체적으로 972명의 학생이 설문조사 초대를 받았고, 757명이 설문조사를 시작했으며, 701명이 설문조사를 완료했습니다. 35명의 학생이 제외 기준을 충족했습니다: 34명은 3개 미만의 임상실습을 이수했으며, 1명은 이수한 임상실습보다 더 많은 우등상을 받았다고 답했습니다. 최종 응답률은 666/937(71.1%)이었습니다. 참가자의 평균 연령(SD)은 27.5세(3.0)였으며, 54.8%가 여성, 16.4%가 UIM이었습니다(표 1). 이 비율은 2018년 전국 AAMC 의과대학 졸업생 설문조사 표본의 비율과 유사하며, 이 중 49.1%가 여성, 15.5%가 UIM이었습니다.42 응답자들은 평균 6.7회(1.1회)의 핵심 서클러십을 이수한 것으로 나타났습니다. 평균 연령, UIM 학생 비율, 경쟁이 치열한 전문 분야에 지원한 비율은 학교별로 통계적으로 유의미한 차이가 있었습니다(표 1).
Overall, 972 students received survey invitations, 757 began the survey, and 701 completed it. Thirty-five students met exclusion criteria: 34 had completed fewer than 3 clerkships, and 1 reported earning more honors than clerkships taken. The final response rate was 666/937 (71.1%). Participants’ mean age (SD) was 27.5 (3.0); 54.8% were women and 16.4% were UIM (Table 1). These percentages are similar to those in the national 2018 AAMC Medical School Graduate Questionnaire sample, among whom 49.1% were women and 15.5% were UIM.42 Respondents had completed a mean (SD) of 6.7 (1.1) core clerkships. There were small, statistically significant differences across schools for mean age, percentage of UIM students, and percentage applying into competitive specialties (Table 1).

최종 성적에 대한 영역의 중요성 인식
Perceived importance of domain on final grade

이 질문에 대한 응답입니다: 한 해 전체를 고려할 때, "귀하의 경험상 최종 임상실습 성적을 결정하는 데 다음 각 영역이 얼마나 중요합니까?"라는 질문에 대한 답변입니다. (보충 디지털 부록 3: https://links.lww.com/ACADMED/A720 참조), 학생들은 "호감도" 8.7/10점(SD = 1.7), "함께 일하는 특정 어텐딩" 8.7점(1.7), "함께 일하는 특정 레지던트" 8.5점(1.9)을 가장 높게 평가했습니다. '개선' 5.7점(2.7), '환자 및 가족과의 관계' 6.0점(2.7)을 가장 중요하지 않은 것으로 평가했습니다.
In response to the question: Considering the year as a whole, “in your experience, how important is each of the following in determining your final clerkship grade?” (see Supplemental Digital Appendix 3 at https://links.lww.com/ACADMED/A720),

students scored

  • “being liked” 8.7/10 (SD = 1.7),
  • “particular attendings you work with” 8.7 (1.7), and
  • “particular residents you work with” 8.5 (1.9) highest.

They rated

  • “improvement” 5.7 (2.7) and
  • “rapport with patients and families” 6.0 (2.7) as least important.

성적 평가에 대한 인식
Perceptions of grading

회전된 PCA 구성 요소 매트릭스는 데이터 세트의 총 분산 중 64.9%를 차지했으며 6개의 예측 요인을 산출했습니다(표 2). 요인들의 내적 일관성은 높았습니다(크론바흐 알파 = 0.73-0.88). 학생들은 채점의 공정성에 대해 낮은 신뢰를 보였으며, 44.4%의 학생만이 평가가 공정하다고 동의했습니다. 임상실습 평가가 정확하거나 받은 피드백이 유용하다고 생각하는 학생은 3분의 2 미만이었습니다(각각 60.8%, 61.7% 동의). 70.0%의 학생이 레지던트 평가 절차가 공정하다는 데 동의한 반면, 주치의 평가 절차가 공정하다는 데 동의한 학생은 41.7%에 불과했습니다.
Our rotated PCA component matrix accounted for 64.9% of the total variance in our dataset and yielded 6 predictor factors (Table 2). Factors had high internal consistency (Cronbach alpha = 0.73–0.88). Students had low confidence in the fairness of grading, with only 44.4% of students agreeing that assessment was fair. Less than two-thirds of students felt that clerkship assessment was accurate or that feedback received was useful (60.8% and 61.7% agreed, respectively). Whereas 70.0% of students agreed that resident evaluation procedures were fair, only 41.7% agreed that attending evaluation procedures were fair.

학생의 1/3(33.6%)이 채점이 편파적이라고 답했습니다. 여성이 남성보다 평가가 편파적이라고 인식하는 비율이 더 높았지만(64.4% vs 25.2%, P < .0005), 여성이 평가가 정확하다고 평가하는 비율도 더 높았습니다(69.2% vs 52.7%, P < .0005). 채점, 피드백의 공정성, 레지던트 및 참석 평가의 공정성에 대한 인식에는 성별 차이가 없었습니다. UIM 학생은 비 UIM 학생보다 평가가 편파적이라고 인식할 가능성이 더 높았습니다(48.1% vs 31.4%, P = .0001). 그 외에는 UIM 학생과 비 UIM 학생의 인식에 차이가 없었습니다. 
One-third of students (33.6%) endorsed grading as biased. While more women perceived bias in evaluations than men (64.4% vs 25.2%, P < .0005), women also more commonly rated evaluations as accurate (69.2% vs 52.7%, P < .0005). There were no gender differences in perceptions of fairness of grading, feedback, or fairness of resident and attending evaluations. UIM students were more likely than non-UIM students to perceive bias in evaluations (48.1% vs 31.4%, P = .0001). Otherwise, UIM and non-UIM students’ perceptions did not differ (see Supplemental Digital Appendix 4 at https://links.lww.com/ACADMED/A720).

임상실습 학습 환경에 대한 인식
Perceptions of the clerkship learning environment

학생들은 임상실습 학습 환경이 숙달 및 성과 지향적이라고 압도적으로 지지했습니다(각각 88.0% 및 85.6%)(표 2). 임상실습 학습 환경이 성과 지향적이라고 답한 학생은 약간 더 적었습니다(68.9%). 성별이나 UIM 여부에 따른 임상실습의 숙련도 또는 성과 지향성에 대한 인식에는 하위 그룹 간 차이가 없었습니다. 
Students overwhelmingly endorsed the clerkship learning environment to be both mastery- and performance-avoid-oriented (88.0% and 85.6%, respectively) (Table 2). Slightly fewer students endorsed clerkships as performance-approach-oriented (68.9%). There were no subgroup differences in perceptions of the mastery or performance orientation of clerkships by gender or UIM status.

전체적으로 학생 응답의 18.3%가 인종에 따른 고정관념 위협에 취약하다고 답했습니다. 여성과 남성은 고정관념의 위협을 비슷하게 인식했습니다. UIM 학생은 그렇지 않은 학생보다 고정관념 위협에 취약하다고 응답한 비율이 훨씬 높았습니다(55.7% 대 10.9%, P < .0005)(보충 디지털 부록 4: https://links.lww.com/ACADMED/A720 참조). 
Overall, 18.3% of student responses indicated vulnerability to stereotype threat based on race. Women and men perceived stereotype threat similarly. UIM students were much more likely than non-UIM students to indicate vulnerability to stereotype threat (55.7% vs 10.9%, P < .0005) (see Supplemental Digital Appendix 4 at https://links.lww.com/ACADMED/A720).

우등상 수상에 따른 다변량 회귀 분석
Honors earned multivariable regression analysis

우등상은 더 [경쟁이 치열한 전문과에 지원]하는 것(베타 = 0.18, P < .0005)과 [평가가 더 정확하다고 인식]하는 것(베타 = 0.29, P < .0005)과 정(+)의 상관관계가 있는 것으로 나타났습니다(표 3). 명예 획득은 [고정관념 위협과 음의 상관관계]가 있었습니다(베타 = -0.162, P < .0005). 획득한 우등과 채점의 공정성에 대한 인식, 참석 또는 레지던트 평가 절차, 임상실습의 숙련도 또는 수행 환경에 대한 인식 간에는 유의미한 연관성이 없었습니다.  
Honors earned was positively associated with applying into a more competitive specialty (beta = 0.18, P < .0005) and perceiving evaluations as more accurate (beta = 0.29, P < .0005) (Table 3). Honors earned was negatively associated with stereotype threat (beta = −0.162, P < .0005). There were no significant associations between honors earned and perception of grading fairness, attending or resident evaluation procedures, or perceptions of mastery or performance environment of clerkships.

정성적 분석
Qualitative analysis

학생들의 의견은 [성적 부여, 평가 과정, 차등 채점의 원인이 되는 편향성, 학습자의 경험] 등 4가지 주제에 대해 다루었습니다(표 4).

  • [성적 부여]의 경우, 많은 응답자가 최종 성적에 기여하는 요소에 [가중치를 부여]하거나, [합격/불합격 채점]을 사용할 것을 권장했습니다(의견의 29.3%). 역량 기반 평가를 도입하거나 위임가능 전문활동 시스템을 사용하자는 의견도 있었습니다.
  • [평가 과정]에서 학생들은 평가자의 평가 지식학생 평가에 사용되는 프레임워크[variability]을 지적했습니다. 이들은 적절한 평가 기법에 대한 평가자 교육(30.6%)을 권장했습니다.
  • [차등 채점의 원인이 되는 편견]을 해결하기 위해 암묵적 편견 교육 또는 평가자를 비교하는 제도적 시스템을 통해 평가자의 개인적 편견(19.2%)을 해결해야 한다는 의견도 있었습니다.
  • [학습자의 경험]을 개선하기 위해 학생들은 보다 정기적이고 실행 가능한 피드백을 통해 학습을 지원하고(14.4%), 시간이 지남에 따라 추적하여 개선 사항을 평가하고 최종 성적에 반영하는 평가(11.6%)를 원했습니다. 

Students’ comments addressed 4 themes: grade assignment, evaluation process, bias causing differential grading, and learners’ experience (Table 4).

  • For grade assignment, many respondents recommended either reweighting components contributing to final grades or using pass/fail grading (29.3% of comments). Some recommended instituting competency-based assessment or using an entrustable professional activities system.
  • In the evaluation process, students noted variability in assessors’ knowledge of assessment and frameworks used to evaluate students. They recommended training evaluators on proper evaluation techniques (30.6%).
  • To address biases causing differential grading, some advocated addressing evaluators’ personal biases (19.2%) with implicit bias training or institutional systems to compare evaluators.
  • To improve learners’ experience, students wanted assessment to support learning through more regular and actionable feedback (14.4%), tracked over time so that improvement was valued and incorporated into final grades (11.6%).

토론
Discussion

여러 기관이 참여한 이 연구에서 핵심 임상실습 평가 및 채점의 공정성에 대한 학생들의 신뢰도가 낮은 것으로 나타났습니다.

  • UIM 학생의 절반 이상이 [고정관념에 의한 위협에 취약]하다고 답했으며, 이는 비 UIM 학생의 5배가 넘는 수치입니다.
  • 당연히 현재 환경에서 [가장 성공한 학생들, 즉 더 많은 우등상을 받은 학생들]이 평가의 정확성을 더 높게 평가하고, 경쟁이 치열한 전문 분야에 지원할 계획이며, 고정관념 위협에 덜 취약하다고 답한 것은 당연한 결과입니다.

학생들의 서술형 의견은 평가 및 채점에 대한 변화에 대한 학생들의 열망을 뒷받침했습니다.
This multi-institutional study reveals low student confidence in the fairness of core clerkship evaluations and grading. More than half of UIM students endorsed stereotype threat vulnerability, a prevalence greater than 5 times that of non-UIM students. Perhaps unsurprisingly, students who were most successful in the current environment, defined by earning more honors, endorsed greater accuracy of evaluations, planned to apply in competitive specialties, and were less vulnerable to stereotype threat. Students’ narrative comments supported their desire for changes to evaluation and grading.


[Grading에 대한 학생들의 인식]은 학습에 중요한 영향을 미치므로 반드시 해결해야 합니다. 연구 결과에 따르면 학생들은 자신의 성적을 결정하는 가장 강력한 요인을 임상 역량과 별개로 인식하고 있습니다. [낮은 성적을 받은 학생]은 [불공정한 시스템]이나 [특정 팀원의 편차] 등 자신의 [외적 요인]으로 성적을 돌릴 수 있습니다.43,44 이러한 시나리오는 자기 효능감을 위협하고 학생의 노력, 행동 및 향후 학습에 부정적인 영향을 미칠 수 있습니다.25,43 이러한 문제를 해결하기 위해 참가자들은 [평가자 교육을 더 많이 받아야 한다]고 주장했습니다. 평가자 교육은 학생의 성과를 공정하고 정확하게 평가하는 데 필요하지만, [특정 환자를 마주하는 상황과 초점, 평가자 자체]에는 [변동성이 내재]되어 있습니다.13,45 평가자 간의 완벽한 신뢰성을 위해 노력하기보다는, 평가 프로그램에서 평가 데이터를 수집하고 종합하는 엄격한 방법을 개발하는 것이 더 적절한 목표입니다.46 그러나 적절한 직접 관찰은 강력한 평가의 필수 구성 요소이기도 합니다. 학생들이 [전공의의 평가]를 [주치의의 평가]보다 더 호의적으로 본다는 연구 결과는 [전공의]가 환자와 함께 일하는 학생들과 더 많이 직접 접촉하기 때문에 설명될 수 있습니다. 감독자, 특히 주치의의 관찰 횟수를 늘리고 주치의 평가자에 대한 학생의 경험을 개선하기 위한 다른 메커니즘을 모색하면 평가의 공정성에 대한 학생의 인식을 개선할 수 있습니다.
Students’ perceptions of grading have important implications for learning that should be addressed. Our results show that students perceive the strongest determinants of their grades as distinct from their clinical competence. Students who receive lower grades may attribute their grades to factors extrinsic to themselves such as an unfair system or variance of particular team members.43,44 This scenario threatens self-efficacy and can negatively affect students’ effort, behaviors, and future learning.25,43 To address these challenges, our participants advocated for more evaluator training. While rater education is necessary for fair and accurate assessment of students’ performance, there is inherent variability in the context and focus of particular patient encounters and evaluators themselves.13,45 Rather than striving for perfect reliability among raters, a more appropriate goal would be to develop rigorous methods of collecting and synthesizing assessment data in a program of assessment.46 However, adequate direct observation is also a necessary constituent of robust assessment. Our finding that students view residents’ evaluations more favorably than attendings’ may be explained by residents’ greater direct contact with students working with patients. Increasing the number of observations from supervisors, in particular attending physicians, and exploring other mechanisms to improve students’ experience with attending evaluators could improve students’ perceptions of the fairness of evaluations.

우리의 데이터는 현재의 평가 시스템이 학습 또는 성과를 촉진하는지에 대한 의문을 제기합니다.47 학생들은 [성과에 높은 가치]를 부여하는 반면, [개선에 대한 가치는 낮게 평가한다]고 느꼈습니다. '우등' 성적이라는 외재적 동기는 성과 중심의 학습 환경을 조장할 수 있습니다. 반면, "학습을 위한 평가"[관찰을 통해 학습 결과를 평가]하고, [시기적절하고 구체적인 피드백을 제공]하여, [평가를 학생의 학습으로 전환]할 때 발생합니다.9 이 시나리오는 장기적인 성과와 학습의 즐거움을 향상시키는 [숙달 지향적 학습자]를 양성합니다.23 참가자들은 [Grading 방식의 성적을 없애거나 역량 기반 접근 방식으로 변경]하여 [임상실습 평가 구조를 재설계]해야 [숙달 사고방식과 평생 학습을 촉진할 수 있다]고 권고했습니다.48,49 현재 [레지던트 배치에 성적이 중요한 것]은 이미 높은 압박감이 있는 임상실습 환경을 심화시키고 있습니다. 의과대학은 레지던트 선발에 활용되기 때문에 단계별 임상실습 성적을 없애는 것을 주저할 수 있습니다. 본 연구의 범위를 벗어나기는 하지만, 계층형 임상실습 성적이 레지던트 기간 동안의 성과를 효과적으로 예측한다는 사실을 뒷받침하는 자료는 별로 없다.50 [레지던트 프로그램의 총체적 검토 접근법]은 학생의 평가 및 채점 부담을 줄이고 레지던트 선발에 유용한 정보를 제공할 수 있는 가능성을 제공합니다.51
Our data raise questions about whether the current assessment system promotes learning or performance.47 Students felt that performance was highly valued, while improvement was minimally valued. The extrinsic motivation of an “honors” grade may promote a performance-oriented learning environment. In contrast, “assessment for learning” occurs when observations are used to both assess learning outcomes and provide timely, specific feedback, thereby transforming assessment into student learning.9 This scenario cultivates mastery-oriented learners with improved long-term performance and enjoyment of learning.23 Our participants’ recommendations to redesign the clerkship assessment structure by eliminating tiered grades or changing to a competency-based approach could better promote a mastery mindset and lifelong learning.48,49 Currently, the importance of grades for residency placement intensifies an already-high-pressure clerkship environment. Medical schools may hesitate to eliminate tiered clerkship grades because of their use during resident selection. While beyond the scope of our study, minimal data support that tiered clerkship grades effectively predict performance during residency.50 Holistic review approaches by residency programs offer promise to reduce evaluation and grading pressures for students and provide residencies useful information for selection.51

[고정관념 위협 취약성]은 성과에 대한 유의미한 부정적 예측 요인으로 나타났으며, 주로 UIM 학생들에게 영향을 미쳤습니다. 고정관념 위협 취약성을 통제한 후에도 UIM 상태는 성과에 대한 유의미한 예측 변수가 아니었습니다. 
Stereotype threat vulnerability emerged as a significant negative predictor of performance, predominately affecting UIM students. UIM status was not a significant predictor of performance after controlling for stereotype threat vulnerability.

UIM 학생들이 직면한 문서화된 성적 편견 외에도, 이번 연구 결과는 고정관념 위협이 UIM 학생들의 학업 성취도를 더욱 저해할 수 있음을 뒷받침합니다.22,27 이 현상은 다른 곳에서 잘 설명되었음에도 불구하고 의대생들 사이에서는 조사되지 않았습니다. 의학교육에서 고정관념 위협의 범위와 의미를 이해하고 이에 대응하기 위한 개입을 설계하기 위해서는 더 많은 연구가 필요합니다. 고정관념 위협의 영향을 완화하기 위한 구체적인 전략으로는

  • (1) 커뮤니티에 고정관념 위협의 개념을 도입하고,
  • (2) 모든 커뮤니티 이해관계자를 참여시켜 정체성 안전을 증진하며,
  • (3) 리더를 고정관념의 영향을 받는 그룹에 노출을 늘리는 것 등이 있습니다.52

In addition to the documented grading biases facing UIM students, our findings support that stereotype threat may further undermine UIM students’ academic achievement.22,27 Despite being well described elsewhere, this phenomenon has not been explored amongst medical students. More work is needed to understand the scope and implications of stereotype threat in medical education and to design interventions to counteract it. Concrete strategies to mitigate the effects of stereotype threat include

  • (1) introducing the concept of stereotype threat to the community,
  • (2) engaging all community stakeholders to promote identity safety, and
  • (3) increasing exposure to leaders of the stereotyped group.52

이 연구에는 한계가 있습니다. 본 조사 결과는 임상실습 성적에 대한 학생의 관점을 포착한 것이므로 교육자의 의견은 다를 수 있습니다. 이 횡단면 설문조사는 인과관계를 보여주지 않습니다. 측정되지 않은 다른 요인들이 학생의 성과에 영향을 미칠 수 있습니다. 연구 대상 학교는 미국 내 한 지역에 위치하고 있어 다른 학교로 일반화할 수 없지만, 연구 집단은 인구통계학적으로 전국 학생과 유사했습니다. 우리는 PALS 교실 목표 구조와 SVS를 약간 수정했으며, 원래 척도가 서로 다른 집단에서 타당성을 보인다는 가정 하에 타당성을 가정했습니다. 설문조사 응답과의 상관관계를 파악하기 위해 성과 데이터를 수집하지 않았으며, 학생들의 전공 선호도는 시간이 지남에 따라 바뀔 수 있습니다. 마지막으로, 질적 결과는 학생들이 더 많은 질문을 통해 드러날 수 있는 임상실습 성적에 대한 추가 권장 사항이 있을 수 있고 모든 학생이 의견을 작성한 것은 아니므로 신중하게 해석해야 합니다.53
This study has limitations. Our results capture students’ perspectives on clerkship grading; educators’ opinions might differ. This cross-sectional survey does not show causation. Other unmeasured factors may contribute to student performance. Study schools are located in 1 U.S. region and may not generalize to other schools, although our study population was similar demographically to students nationally. We made small modifications to the PALS Classroom Goal Structures and SVS and assumed validity based on the original scales’ validity in distinct populations. We did not collect performance data to correlate with survey responses, and students’ specialty preferences may change over time. Finally, our qualitative results must be interpreted cautiously because students may have additional recommendations for clerkship grading that could have emerged with more questions, and not all students wrote comments.53

연구 결과에 따르면 많은 의대생들이 핵심 임상실습 기간 동안의 평가와 채점을 공정하다고 생각하지 않으며, 개선에 대한 보상보다는 성과를 장려하는 환경을 지지하는 것으로 나타났습니다. 평가와 채점에 대한 부정적인 인식은 학업 성취도 저하와 관련이 있습니다. UIM 학생은 임상실습 환경에서 추가적인 불리한 압력에 직면할 수 있습니다. 공정한 평가 시스템에는 평등과 형평성을 증진하는 정책과 절차가 필요합니다.54 본 모델(그림 1)에서 가설로 설정한 많은 기여 요인들이 학생 성과와 연관성을 보이지 않았지만, 이러한 영역에서의 차별적 인식은 학습 행동의 변화 또는 학생 복지와 같은 다른 영향을 미칠 수 있습니다.55,56 이러한 결과는 강력한 평가를 촉진할 뿐만 아니라 모든 학생의 학습을 가능하게 하는 학습 환경을 조성하기 위해 핵심 임상실습의 평가 문화를 재정의할 필요가 있다는 것을 뒷받침합니다.
Our findings demonstrate that many medical students do not view evaluation and grading during core clerkships as fair, and they endorse an environment that encourages performance rather than rewards improvement. Negative perceptions of evaluation and grading are associated with decreased academic achievement. UIM students may face additional adverse pressures in the clerkship environment. A fair assessment system requires policies and procedures that promote equality and equity.54 While many of the contributors hypothesized in our model (Figure 1) did not show associations with student performance, differential perceptions in these domains may have other effects such as changes in learning behaviors or student well-being.55,56 These results support a need to redefine the culture of assessment on core clerkships to create learning environments that not only facilitate robust assessment but also enable learning for all students.


 

Acad Med. 2019 Nov;94(11S Association of American Medical Colleges Learn Serve Lead: Proceedings of the 58th Annual Research in Medical Education Sessions):S48-S56. doi: 10.1097/ACM.0000000000002905.

In Pursuit of Honors: A Multi-Institutional Study of Students' Perceptions of Clerkship Evaluation and Grading

Affiliations collapse

1J.L. Bullock is a first-year resident in internal medicine, Department of Medicine, University of California, San Francisco School of Medicine, San Francisco, California. The author was a fourth-year medical student at the time of writing. C.J. Lai is director of internal medicine clerkships and professor, Department of Medicine, University of California, San Francisco School of Medicine, San Francisco, California. T. Lockspeiser is director of the assessment/competency committee and associate professor, Department of Pediatrics, University of Colorado School of Medicine, Aurora, Colorado. P.S. O'Sullivan is director of research and development in medical education and professor, Department of Medicine and Department of Surgery, University of California, San Francisco School of Medicine, San Francisco, California. P. Aronowitz is clerkship director of internal medicine and professor, Department of Internal Medicine, University of California, Davis School of Medicine, Davis, California. D. Dellmore is director of medical student education and associate professor, Department of Psychiatry and Behavioral Sciences, University of New Mexico School of Medicine, Albuquerque, New Mexico. C.-C. Fung is assistant dean for medical education and associate professor, Keck School of Medicine of USC, Los Angeles, California. C. Knight is associate clerkship director and associate professor, Division of General Internal Medicine, University of Washington School of Medicine, Seattle, Washington. K.E. Hauer is associate dean for competency assessment and professional standards and professor, Department of Medicine, University of California, San Francisco School of Medicine, San Francisco, California.

PMID: 31365406

DOI: 10.1097/ACM.0000000000002905

Abstract

Purpose: To examine medical students' perceptions of the fairness and accuracy of core clerkship assessment, the clerkship learning environment, and contributors to students' achievement.

Method: Fourth-year medical students at 6 institutions completed a survey in 2018 assessing perceptions of the fairness and accuracy of clerkship evaluation and grading, the learning environment including clerkship goal structures (mastery- or performance-oriented), racial/ethnic stereotype threat, and student performance (honors earned). Factor analysis of 5-point Likert items (1 = strongly disagree, 5 = strongly agree) provided scale scores of perceptions. Using multivariable regression, investigators examined predictors of honors earned. Qualitative content analysis of responses to an open-ended question yielded students' recommendations to improve clerkship grading.

Results: Overall response rate was 71.1% (666/937). Students believed that being liked and particular supervisors most influenced final grades. Only 44.4% agreed that grading was fair. Students felt the clerkship learning environment promoted both mastery and performance avoidance behaviors (88.0% and 85.6%, respectively). Students from backgrounds underrepresented in medicine were more likely to experience stereotype threat vulnerability (55.7% vs 10.9%, P < .0005). Honors earned was positively associated with perceived accuracy of grading and interest in competitive specialties while negatively associated with stereotype threat. Students recommended strategies to improve clerkship grading: eliminating honors, training evaluators, and rewarding improvement on clerkships.

Conclusions: Participants had concerns around the fairness and accuracy of clerkship evaluation and grading and potential bias. Students expressed a need to redefine the culture of assessment on core clerkships to create more favorable learning environments for all students.

 

하나의 정답은 없다: 미세차별에 대한 이상적 수퍼바이저 반응에 대한 임상실습학생의 인식 질적연구(Acad Med, 2021)
No One Size Fits All: A Qualitative Study of Clerkship Medical Students’ Perceptions of Ideal Supervisor Responses to Microaggressions 
Justin L. Bullock, MD, MPH, Meghan T. O’Brien, MD, MBE, Prabhjot K. Minhas, Alicia Fernandez, MD, Katherine L. Lupton, MD, and Karen E. Hauer, MD, PhD 

 

다양성은 성공적인 기관의 필수적인 특성입니다. 1 의료 분야에서 다양성은 교육 경험을 향상시키고, 사회적 형평성을 증진하며, 환자 건강 결과를 개선합니다. 2-4 [다양성의 중요성을 잘 이해하고 있는 기관]은 [다양한 사회적 정체성 집단의 단순한 인구통계학적 대표성]을 넘어, [다양성을 기관 우수성의 기본으로 우선시하는 의미 있는 포용성]을 향해 기관 문화를 발전시킵니다. 1 그러나 의료기관은 다양한 개인을 포용하지 못하는 학습 환경으로 인해 이러한 이상에 미치지 못하고 있습니다. 특히 [유색인종 학생들]은 평가와 진학에서 [편견, 사회적 자본 감소, 인종 차별, 학습과 성과에 부정적인 영향을 미치는 미세한 공격] 등을 경험합니다. 5-8 의료계에서 빈번한 인종 및 성별 미세 공격의 해로운 결과에도 불구하고 임상 학습 환경을 개선하기 위해 미세 공격을 가장 잘 해결하는 방법에 대한 집단적 이해에는 여전히 격차가 있습니다. 9-11
Diversity is an essential characteristic of successful institutions. 1 In medicine, diversity enhances educational experiences in training, promotes social equity, and improves patient health outcomes. 2–4 Institutions with an advanced understanding of the importance of diversity move beyond mere demographic representation of multiple social identity groups to drive institutional culture toward meaningful inclusion where diversity is prioritized as fundamental to institutional excellence. 1 However, medical institutions fall short of these ideals, with learning environments that are not inclusive of diverse individuals. In particular, students of color experience biases in assessment and advancement, decreased social capital, racism, and microaggressions that negatively impact their learning and performance. 5–8 Despite harmful consequences of frequent racial and gender microaggressions in medicine, a gap remains in our collective understanding of how best to address microaggressions to improve the clinical learning environment. 9–11

[미세 공격]은 [의도적이든 의도적이지 않든] 대상의 [정체성]에 대한 [적대감이나 부정적 감정]을 전달하는 [언어적, 행동적 또는 환경적 모욕감]을 의미합니다. 12 환자, 제공자, 동료 및 학습 환경 자체는 모두 임상 학습 환경에 만연하여 학습자, 제공자 및 환자에게 해를 끼치는 미세 공격의 일반적인 원인입니다. 9,10,13-15 Sue와 동료들은 [미세 폭행, 미세 모욕, 미세 무효화]6,12의 [세 가지 대인 관계 미세 공격의 유형]을 특징지었습니다(표 1 참조).

  • 가장 심각한 형태인 [미세 폭행]대상에게 불쾌감을 주는 언어적 또는 비언어적 공격입니다(예: 인종으로 인해 소수인종 의료진의 진료를 거부하는 환자). 16
  • [미세 모욕]은 가해자가 의도하지 않았더라도 대상을 비하하는 미묘한 발언입니다(예: 여성 의사를 간호사로 부르는 것).
  • 마지막으로, [미시적 무효화]는 대상의 실제 경험을 부정하거나 무시하는 것입니다(예: 요즘 소수계 학생들은 미시적 공격에 너무 민감하다는 말).

Microaggressions are verbal, behavioral, or environmental indignities that communicate hostility or negativity—whether intentional or unintentional—toward a target’s identity(ies). 12 Patients, providers, peers, and the learning environment itself are all common sources of microaggressions, which pervade the clinical learning environment to the detriment of learners, providers, and patients. 9,10,13–15 Sue and colleagues characterized 3 types of interpersonal microaggressions: microassaults, microinsults, and microinvalidations 6,12 (see Table 1).

  • Microassaults, the most egregious form, are verbal or nonverbal attacks that offend the target (e.g., patient refusing care from minority providers due to race). 16 
  • Microinsults are subtle remarks which demean the target, even if unintended by the perpetrator (e.g., calling a female doctor a nurse).
  • Finally, microinvalidations negate or dismiss the target’s lived experience (e.g., saying that minority students these days are too sensitive to microaggressions).

미세 공격은 심리적, 생리적 고통을 유발할 수 있습니다. 미세 공격은 우울 증상, 불안, 알코올 사용과 관련이 있으며 일중 코티솔 분비를 변화시킬 수 있습니다. 17-19 의대생들은 미세 공격이 인종적/민족적 [고정관념 위협]을 유발하고 악화시키는데, 이는 [자신이 속한 집단에 대한 부정적인 고정관념을 충족하는 것에 대한 두려움으로 인해 수행 능력이 저하되는 과정]이라고 보고된다. 10,20,21 [고정관념 위협]은 부정적인 감정을 유발하고 학생들의 인지 부하를 증가시키며, 핵심 사무직 성적을 낮추는 것과 관련이 있습니다. 10,22
Microaggressions may cause both psychological and physiological distress. They are associated with depressive symptoms, anxiety, and alcohol use and may alter diurnal cortisol secretion. 17–19 Medical students report that microaggressions trigger and exacerbate racial/ethnic stereotype threat, a process in which fear of fulfilling negative stereotypes about one’s group results in lower performance. 10,20,21 Stereotype threat, in turn, triggers negative emotions and increases students’ cognitive load, and is associated with lower core clerkships grades. 10,22


우리는 '소스', '타겟', '방관자'라는 용어를 사용하여 각각 [미세 공격자, 미세 공격의 수신자, 미세 공격의 목격자]를 지칭합니다. 23 권력에 초점을 맞춘 [비판적 인종 이론(CRT)]은 미세 공격의 영향과 효과적인 방관자 대응을 탐구하는 데 중요한 이론적 렌즈를 제공합니다. 24,25 [비판적 인종 이론]

  • 미국 사회에서 인종 차별을 일반적인 것(norm)으로 강조하고,
  • 권력이 인종 차별적 상호작용을 매개하는 방식을 인식하며,
  • 사람들이 인종 차별(예: 성차별, 계급 차별)과 교차하고 복합적으로 작용하는 여러 소외된 정체성을 가질 수 있다는 점을 인정합니다. 24

We use the terms “source,” “target,” and “bystander” to refer to the microaggressor, recipient of the microaggression, and witness to a microaggression, respectively. 23 Critical race theory (CRT), with its focus on power, offers an important theoretical lens through which we explore the impact of microaggressions and effective bystander responses. 24,25 CRT

  • highlights racism as the norm in American society,
  • recognizes how power mediates racially charged interactions, and
  • acknowledges that people can have multiple marginalized identities that intersect and compound with racism (e.g., sexism, classism). 24 

때때로 미묘하고 상황에 따라 달라질 수 있는 [미시적 공격][개인에 따라 다양하게 해석]될 수 있습니다. 26 [방관자]는 동시에 [미세 공격의 목격자]이면서 [동시에 영향]을 받을 수 있습니다. 27 우리는 미세 공격으로 인해 피해를 입을 가능성이 가장 높은 대상의 관점과 해석을 우선시합니다. CRT는 학생들이 인종화된 교육 계층을 탐색하는 데 직면하는 [교차하는 어려움]을 인정합니다. [환자]가 [학생]에게 [미세 공격]을 가할 때, 학생은 [방관자인 감독자]에 비해 [교육적 지위가 낮고] 동시에 [미세 공격의 대상]이기 때문에 [교차하는 취약성]을 지니고 있으며, 학생은 또한 환자를 돌보는 사람으로서 팀원이 개입하지 않는 한 [계속 돌봐야 할 직업적 의무]를 느낄 수 있습니다.
Because of their sometimes subtle and context-dependent nature, microaggressions may be interpreted variably by different individuals. 26 Bystanders may simultaneously be witnesses to and impacted by a microaggression. 27 We prioritize the perspective and interpretation of the target as the person most likely harmed by the microaggression. CRT acknowledges the intersecting challenges students face navigating racialized educational hierarchies. When patients commit microaggressions against students, students hold intersecting vulnerabilities as they are simultaneously the microaggression target and low in educational status compared with bystander supervisors; students may also be caretaker for the patient and feel professionally obligated to continue caring unless a team member intervenes.

[의료 위계 구조의 최상위에 있는 교수진]은 [학생을 옹호할 수 있는 좋은 위치]에 있을 수 있지만, 학습자가 방관자 지원이 가장 필요할 때 [아무런 반응을 보이지 않음]으로써 미세 공격에 직면하는 경우가 많습니다. 9 많은 교수진은 편견과 차별에 대한 인식이 높아지면서 '살얼음판을 걷는 기분'이 들며, 잘못된 행동이나 말을 하다가 [학습자로부터 인종차별주의자나 성차별주의자로 낙인찍힐까 봐 불안감]이 커진다고 설명합니다. 28-30 안타깝게도 이러한 불편함과 두려움은 학습자의 요구를 충족시키지 못하고 포용적인 문화를 위한 노력을 방해하는 결과를 초래할 수 있습니다.
While faculty atop the medical hierarchy may be positioned well to advocate for students, they often meet microaggressions with inaction when learners most need bystander support. 9 Many faculty describe that their increasing awareness of bias and discrimination prompts feelings of “walking on eggshells,” with increased anxiety about doing or saying the wrong thing and being labeled as racist or sexist by learners. 28–30 Unfortunately, this discomfort and fear can result in failing to meet learners’ needs and thwart efforts toward inclusive culture.

[미세 공격에 대한 방관자의 개입]을 위한 다양한 기법이 제안되었는데, 여기에는 Sue의 미세 개입, Ackerman-Barger의 ARISE 프레임워크, Wheeler의 12가지 팁 등이 포함됩니다. 6,23,31-37 이러한 기법들은 일반적으로 [미세 공격을 인식하고, 대응할지 여부를 결정하고, 그 순간에 다양한 대응 기술을 사용하는 것]을 수반합니다. 23,32,37 이러한 접근법은 학습자를 대상으로 하는 미세 공격에 대응하기 위한 일반적인 지침을 제공하지만, 학습자를 위한 대응의 효과를 극대화하기 위해서는 대응의 영향에 대한 증거 기반 이해와 권장 사항이 필요합니다. 학습자에게 미치는 [미세 공격의 정서적, 인지적, 생리적 영향]과 [특정 미세 공격에 대한 대응 시기와 방법]을 결정할 때 고려해야 할 다각적인 요소는 [교육자가 최적의 방관자 개입에 대한 학습자의 관점을 이해하는 방법]에 대한 의문을 불러일으킵니다.
A variety of techniques for bystander interventions on microaggressions have been proposed, including Sue’s microinterventions, Ackerman-Barger’s ARISE framework, Wheeler’s 12-tips, and others. 6,23,31–37 These techniques generally entail recognizing a microaggression, deciding whether or not to respond, and employing various response techniques in the moment. 23,32,37 Though these approaches provide general guidance for responding to microaggressions targeting learners, there is a need for evidence-based understanding of the impact of responses and recommendations to maximize the effectiveness of responses for learners. The emotional, cognitive, and physiological impact of microaggressions on learners, as well as the multifactorial considerations underpinning a decision of when and how to respond to a given microaggression, prompt questions about how educators understand learners’ perspectives on optimal bystander interventions.

이 연구의 목적은 임상 실습에서 방관자 감독자가 미세 공격에 어떻게 대응해야 하는지에 대한 학생들의 관점을 탐구하는 것입니다. 연구 질문은 다음과 같습니다: 

  • (1) 학생을 대상으로 한 미세 공격에 대응하는 교수진의 주요 고려 사항에 대한 학생의 관점은 무엇인가?
  • (2) 미세 공격에 대한 이상적인 감독자 대응의 주요 특징은 무엇인가?
  • (3) 이상적인 대응은 미세 공격의 유형에 따라 어떻게 다른가?

The purpose of this study is to explore students’ perspectives on how bystander supervisors should respond to microaggressions on clinical clerkships. The research questions are:

  • (1) What are student perspectives on key considerations for a faculty member responding to a microaggression targeting a student?
  • (2) What are the key features of an ideal supervisor response to a microaggression? and
  • (3) How does the ideal response differ by type of microaggression?

방법
Method

디자인
Design

해석주의 패러다임에 기반한 이 질적 포커스 그룹 연구에서는 주제 분석의 프레임워크 방법을 사용하여 2020년 미국 내 임상실습생을 대상으로 [환자의 미세 공격에 대한 슈퍼바이저의 대응에 대한 의대생들의 인식]을 탐색했습니다. 38 올해는 인종적, 민족적 불평등으로 인한 국가적 사회 불안이 심각했던 해로, 이러한 맥락에서 데이터를 해석했습니다. 39,40
For this qualitative focus group study, based in an interpretivist paradigm, we employed the framework method of thematic analysis to explore medical students’ perceptions about supervisor responses to microaggressions from patients targeting clerkship students in the United States, 2020. 38 This year was notable for significant national social unrest because of racial and ethnic inequalities; our data are interpreted within this context. 39,40

연구팀에는 남아시아 의대생 1명, 흑인 레지던트 1명, 교수진 4명(백인 2명, 아메리카 원주민 및 백인 1명, 라티나 1명)이 참여했습니다. 모든 팀원은 샌프란시스코 캘리포니아 대학교(UCSF) 의과대학 출신으로 소수인종 학습자의 경험에 학문적 관심을 가지고 있었습니다. 모든 교수진은 의대생과 직접 협력합니다.
Our research team included 1 South Asian medical student, 1 Black resident, 4 faculty (2 White, 1 Native American and White, 1 Latina). All team members were from the University of California, San Francisco (UCSF) School of Medicine, with academic interests in the experience of minoritized learners. All faculty members work directly with medical students.

UCSF 기관윤리심의위원회는 이 연구를 면제 연구로 승인했습니다(IRB #20-29884).
The UCSF Institutional Review Board approved the study as exempt (IRB #20-29884).

환경 및 참가자
Setting and participants

연구 대상은 3개의 핵심 교육 시스템(4년제 대학 시스템, 공공 안전망 병원, 재향군인 의료 센터)과 여러 지역사회 기반 계열사를 보유한 주립 공공 기관인 UCSF였습니다. 2020년 3월에 재학 중인 모든 3학년 및 4학년(임상 실습 기간) 의대생이 참여할 수 있었습니다. 다양한 참여자를 확보하기 위해 의대생의 [다양성(의대생 중 소수자 33%, 여성 53%)을 고려하여 편의 표본 추출]을 사용했습니다. 2021학년과 2022학년 학급을 대상으로 매주 4회에 걸쳐 리스트서브 이메일을 통해 학생들을 모집했습니다. 이메일 초대는 관심 있는 학생들이 Qualtrics 웹 플랫폼으로 이동하여 인구 통계, 이메일 주소, 참석 가능 여부를 입력하도록 안내했습니다. 관심 있는 모든 학생을 포커스 그룹에 초대했습니다. 포커스 그룹 참가자에게는 20달러가 지급되었습니다.
The study site was UCSF, a state public institution with 3 core teaching systems (quaternary university system, public safety net hospital, and veterans’ affairs medical center) and multiple community-based affiliates. All third- and fourth-year (clerkship years) medical students during March 2020 were eligible to participate. We used convenience sampling, relying upon the diversity of the medical student body (33% underrepresented in medicine, 53% female) to ensure diverse participants. We recruited students through 4 weekly listserv emails to the classes of 2021 and 2022. The email invitation directed interested students to the Qualtrics web platform to enter their demographics, email address, and availability. We invited all interested students to a focus group. Focus group participants received $20.

데이터 수집
Data collection

반구조화된 포커스 그룹에서 참가자들은 [3가지 주요 대인관계 미세 공격 유형]을 대표하는 [4개의 미세 공격 시나리오]에 대해 논의했습니다(표 1 참조). 6,12 시나리오는 입원 환자 또는 응급실 환경에서 학생의 미세 공격 대상과 교직원의 방관자 상황을 묘사했습니다. 연구팀은 문헌 검토와 팀원들의 실제 경험을 바탕으로 시나리오를 설계했습니다. 미세 공격 유형 간의 일관성을 탐색하기 위해 [대상 학생의 신원을 조작하여 두 가지 유사한 미세 폭행 및 미세 모욕 시나리오]를 만들었습니다. 진행자(P.K.M.)는 모든 포커스 그룹을 시작하면서 [미세 공격의 정의]를 내리고, 학생들에게 미세 공격에 대응하는 방법에 대한 [교수진 교육을 만드는 것이 목적]임을 알렸습니다. 
During semistructured focus groups, participants discussed 4 microaggression scenarios representing the 3 major types of interpersonal microaggressions (see Table 1). 6,12 Scenarios depicted a student microaggression target and faculty bystander in an inpatient or emergency department setting. The research team designed scenarios based on literature review and team members’ lived experiences. To explore consistency across microaggression types, we created 2 similar microassault and microinsult scenarios by manipulating the targeted student identity. The moderator (P.K.M.) began all focus groups by defining microaggressions and informing students that the purpose was to create faculty trainings on how to respond to microaggressions.

진행자 및 공동 진행자(J.L.B.)는 참여 자격이 없는 UCSF 의대 레지던트 4명을 대상으로 [파일럿 포커스 그룹]을 진행하기 전에 퍼실리테이터 교육을 받았습니다. 그런 다음 저자들은 공식적인 데이터 수집을 시작하기 전에 명확성을 높이고 중복성을 줄이기 위해 포커스 그룹 가이드를 수정했습니다. 최종 가이드는 부록 디지털 부록 1입니다. [공동 진행자]는 포커스 그룹이 진행되는 동안 주요 아이디어와 참가자 간의 상호 작용을 기록한 메모를 작성했습니다. 마지막 3개의 포커스 그룹에서는 각 사례에 대한 토론의 균형을 맞추기 위해 시나리오 순서를 뒤집었습니다. 데이터 수집은 관심 있고 참여 가능한 모든 학생이 참여한 후에 종료되었습니다. 마지막 포커스 그룹까지 새로운 주요 아이디어나 대응 전략이 논의되지 않았으며, 이는 주제와 수집된 데이터가 충분함을 나타냅니다. 41 모든 그룹은 Zoom을 통해 진행 및 녹화되었고, 전문적으로 전사되었으며, 분석 전에 비식별화 과정을 거쳤습니다.

The moderator and co-facilitator (J.L.B.) underwent facilitator training before conducting a pilot focus group with 4 UCSF Medicine residents ineligible for participation. Authors then revised the focus group guide to improve clarity and reduce redundancy before formal data collection began. The final guide is Supplemental Digital Appendix 1, available at https://links.lww.com/ACADMED/B157. The co-facilitator took notes documenting key ideas and interparticipant interactions during focus groups. We inverted scenario order for the final 3 focus groups to balance discussion of each case. Data collection ended after all interested and available students participated. By the final focus group, no new major ideas or response strategies were discussed, indicating sufficiency of themes and data collected. 41 All groups were conducted and recorded over Zoom, professionally transcribed, and deidentified before analysis.

분석
Analysis

4명의 연구자(J.L.B., P.K.M., M.T.O., K.E.H.)가 독립적으로 3개의 트랜스크립트를 읽고 오픈 코딩을 수행했습니다. 그런 다음 연구팀은 회의를 통해 제안된 코드에 대해 논의하고 분석 프레임워크를 개발하여 하나의 코드북을 만들었습니다. 다음으로 5명의 연구자 중 2명(J.L.B., P.K.M., M.T.O., K.L.L., K.E.H.)이 각 트랜스크립트를 개별적으로 코딩하고 토론을 통해 불일치하는 부분을 조정했습니다. 인터뷰는 Dedoose 버전 8.0.35(캘리포니아주 로스앤젤레스)를 사용하여 코딩했습니다. 코딩된 발췌문을 미시적 공격 시나리오별로 분류한 후, 각 시나리오에 대한 코드별로 발췌문을 합성했습니다. Microsoft Excel 버전 16.44(워싱턴주 레드몬드)를 사용하여 각 합성을 코드별(열별)로 마이크로 공격 시나리오를 담은 최종 프레임워크 매트릭스에 도표로 작성했습니다. 모든 연구원이 데이터의 최종 해석 및 요약에 참여했습니다. 참가자의 인용문과 함께 참가자가 스스로 밝힌 인종/민족을 표시했습니다. 
Four researchers (J.L.B., P.K.M., M.T.O., K.E.H.) independently read and performed open coding of 3 transcripts. The research team then met to discuss their proposed codes, developed an analytic framework, and created a single codebook. Next, 2 of 5 researchers (J.L.B., P.K.M., M.T.O., K.L.L., K.E.H.) separately coded each transcript and reconciled discrepancies through discussion. Interviews were coded using Dedoose Version 8.0.35 (Los Angeles, California). After sorting coded excerpts by microaggression scenario, we synthesized excerpts by code for each scenario. We charted each synthesis into the final framework matrix which held microaggression scenario by code (column by row) using Microsoft Excel Version 16.44 (Redmond, Washington). All researchers participated in the final interpretation and summary of the data. We indicated participants’ self-identified race/ethnicity alongside their quotations.

반사성
Reflexivity

연구팀은 학생들의 응답에 대한 반성과 미세 공격에 대한 개인적인 경험이 참가자들의 응답과 어떻게 병치되는지에 대해 자주 논의했습니다. 이 프로젝트는 두 명의 팀원(J.L.B., M.T.O.)이 사무직 의대생에 대한 미세 공격 행위를 목격하고, 주치의(M.T.O.)가 미세 공격에 대응하고, 나중에 임상팀 전체가 이 경험을 디브리핑한 후 개념화되었습니다. 이 학생은 미세 공격 후 광범위한 반성은 도움이 되지 않는다는 피드백을 주었습니다.
The research team frequently discussed our reflections on students’ responses and how our personal experiences with microaggressions juxtaposed with participants’. This project was conceptualized after 2 team members (J.L.B., M.T.O.) witnessed a microaggression against a clerkship medical student; the attending (M.T.O.) responded to the microaggression, and the entire clinical team later debriefed the experience. The student gave feedback that extensive reflection after a microaggression was not helpful.

신뢰성
Credibility

분석이 끝난 후 모든 참가자에게 원고 결과 초안을 이메일로 보내 제시된 결과가 포커스 그룹 토론 및 임상 경험과 일치하는지에 대한 피드백을 요청했습니다. 10명의 참가자가 응답했으며, 모두 결과와 토론이 자신의 포커스 그룹을 정확하게 반영한다는 데 동의했습니다. [3명은 약간의 텍스트 수정을 제안했고, 한 참가자는 자신의 인용문과 인종/민족을 명확히 해 달라고 요청했습니다].
After the analysis, we emailed all participants a draft of the manuscript results and discussion for their feedback on whether the presented results felt consistent with their focus group discussions and clinical experiences. Ten participants responded: all agreed that the results and discussion accurately represented their focus groups. Three gave minor text edits, and one participant clarified her quotation and race/ethnicity.

결과
Results

설문조사 초대에 응답한 학생은 45명이었으며, 44명이 초대되었습니다(1명은 포커스 그룹 시간이 맞지 않아 참여하지 못함). [39명의 학생이 7개의 포커스 그룹에 참여했으며, 그룹당 5~7명의 학생이 참여했습니다]. 포커스 그룹은 평균 86분 동안 진행되었습니다(범위: 80-92분). 참가자들은 다양한 사회적 정체성을 가지고 있었습니다(표 2 참조). 15명(38%)의 참가자가 아시아계, 12명(31%)이 흑인, 5명(13%)이 라틴계, 17명(44%)이 백인, 1명(3%)이 아메리카 원주민, 1명(3%)이 중동계로 밝혀졌습니다. 13명(33%)의 참가자는 남성, 25명(64%)은 여성, 1명(3%)은 비이성애자, 15명(38%)은 성소수자로 밝혀졌습니다. 참가자들은 제공된 시나리오에 대해 토론하면서 임상 현장에서의 미세한 공격에 대한 자신의 경험에 대해서도 생각해 보았습니다. 아래 결과는 시나리오와 실제 경험을 바탕으로 한 학생들의 관점을 나타냅니다.
Forty-five students responded to our survey invitation; 44 were invited (1 was unavailable for any focus group times offered). Thirty-nine students participated in 7 focus groups, with 5 to 7 students per group. Focus groups lasted an average of 86 minutes (range: 80–92). Participants had a range of intersecting social identities (see Table 2). Fifteen (38%) participants identified as Asian, 12 (31%) Black, 5 (13%) Latinx, 17 (44%) White, 1 (3%) Native American, and 1 (3%) Middle Eastern. Thirteen (33%) participants identified as men, 25 (64%) women, and 1 (3%) nonbinary, and 15 (38%) as LGBTQ. As participants discussed the provided scenarios, they also reflected on their own experiences with microaggressions in the clinical workplace. Findings below represent students’ perspectives based on the scenarios and their lived experiences.

포커스 그룹 내에서 학생들은 미세 공격 사례의 대상이 된 정체성을 가진 사람들이 응답할 때까지 [논평을 미루는 것]으로 나타났습니다(성별에 기반한 미세 공격의 경우 남성은 여성에게, 인종에 기반한 시나리오의 경우 백인 학생은 유색인종 학생에게 미루었습니다). 참가자의 성적 지향에 따른 응답의 차이는 확인되지 않았지만, 이 주제를 다룬 시나리오는 없었습니다.
Within focus groups, students seemed to defer commenting until after those who self-identified with the identity targeted by the microaggression case responded (men deferred to women for gender-based microaggressions; White students deferred to students of color for race-based scenarios). We did not identify differences in responses based on participants’ sexual orientation, though none of the scenarios addressed this topic.

전반적으로 학생들은 [미세 공격이 발생하기 전에 감독자의 효과적인 대응이 시작되어야 한다]는 데 동의했습니다. 아래 결과는 두 가지 주제를 설명합니다:

  • 방관자 고려 사항에 대한 학생의 인식.
  • 감독자 조치

 

  • 첫 번째 주제에서는 학생들의 인식을 3개의 하위 주제로 분류했습니다. 학생들은 미세 공격에 대한 대응으로 수퍼바이저가 교수 수퍼바이저와의 [사전 토론("사전 브리핑")]을 통해 수집한 학생의 선호도, [환자의 상황], 진료실 내 다양한 [대인관계 역학 관계] 등을 고려해야 한다고 생각했습니다.
  • 두 번째 주제인 수퍼바이저의 행동에 대해 학생들은 미세 공격이 발생하는 동안 이상적인 수퍼바이저의 대응, 목격하는 것이 적절한 경우, 또는 방 밖으로 대응을 미루는 것이 적절한 경우, 마지막으로 미세 공격이 발생한 후 효과적인 대응에 대해 설명했습니다. 이러한 결과는 아래에 자세히 설명되어 있습니다. 인용문에는 참가자 번호, 본인 식별 인종/민족, 성별이 포함되어 있습니다.

Overall, students endorsed that effective supervisor responses began before microaggressions occurred. Results below describe 2 themes:

  • Student perceptions of bystander considerations and
  • supervisor action.

 

  • For the first theme, we capture students’ perceptions in 3 subthemes. In response to a microaggression, students felt that supervisors should consider the student’s preferences, which ideally were gathered through anticipatory discussions (“pre-brief”) with their faculty supervisors, the patient’s context, and the various interpersonal dynamics in the room.
  • For the second theme, supervisor action, students described ideal supervisor responses during the microaggression, when it was appropriate to bear witness, or defer response until outside the room, and, finally, effective responses after the microaggression. These results are detailed below. Quotations include participant number, self-identified race/ethnicity, and gender.

효과적인 대응을 위한 감독자의 고려 사항에 대한 학생의 관점
Student perspectives on supervisor considerations for an effective response

학생의 선호도: "사전 브리핑"을 통해 미세 공격에 대비하기.
Student preferences: Preparing for microaggressions through a “pre-brief.”

학생들은 각자의 정체성, 경험, 선호도를 가지고 왔기 때문에 [미세 공격에 대해 원하는 대응 방식이 달랐습니다](표 3 참조). 참가자들은 한 학생의 [선호도]를 다른 학생에게 적용하는 것에 대해 주의를 기울였습니다.
Because students brought their own identities, experiences, and preferences, their desired responses to microaggressions differed (see Table 3). Participants cautioned against extrapolating any one student’s preferences onto other students.

 

모든 학생에게 맞는 정답은 없습니다. 표준 운영 절차는 없습니다.... 어떤 개입이 상황에 가장 적합하거나 대상 학생의 피해를 최소화할 수 있는지 알 수 없다는 뜻이 아닙니다. 어떤 면에서는 겸손으로 표현할 수 있다고 생각합니다. (P37, 흑인/중동 여성)
There is no one size fits all. There is no standard operating procedure…. Doesn’t mean that we know what intervention would best suit the situation or minimize the harm to those that are targeted. I think in some ways it’s phrased as humility. (P37, Black/Middle Eastern woman)

포커스 그룹에서 반복적으로 제안된 이 문제에 대한 해결책 중 하나는 [사전 브리핑]이었습니다. 사전 브리핑은 함께 일하기 시작할 때 학습자와 감독자가 잠재적인 미세 공격에 대비할 수 있도록 토론하는 것을 의미합니다. 많은 학생이 효과적인 방관자 대응에 가장 중요한 요소는 [감독자가 사전 브리핑을 했는지 여부]라고 생각했습니다.
One solution to this concern proposed repeatedly across focus groups was to pre-brief. We use pre-brief to refer to discussion at the onset of working together which allowed the learner and supervisor to prepare for potential microaggressions. Many students believed that the most important contributor to an effective bystander response was whether the supervisor had pre-briefed.

감독자는 로테이션이 시작될 때 학생들과 미리 이러한 대화를 나누고, 자신이 인지한 미세 공격에 대처하는 방법에 대한 계획을 세워야 하며, 또한 자신이 인지하지 못한 미세 공격이 있는 경우 학생이 이를 전달할 수 있도록 [힘을 실어줄 수 있는 방법을 마련]해야 합니다. (P19, 흑인 남성)
Attendings should be having these conversations with their students in advance … at the beginning of a rotation and having a plan for how to address microaggressions that they recognize, but also … if there are microaggressions they don’t recognize, how the student can feel empowered to communicate that. (P19, Black man)

학생들은 [사전 브리핑]을 통해 감독자에게 [미세 공격에 대한 대응에 대한 선호도를 알리고], 실제로 자신을 지지하는 [방관자 대응을 장려]할 수 있다고 느꼈습니다. 수퍼바이저는 사전에 미세 공격에 대해 논의함으로써 학습자에게 학생의 [심리적 안전을 우선시한다는 신호]를 보냈습니다. 참가자들은 슈퍼바이저가 미세 공격의 표적이 될 가능성이 있어 보이는 학습자뿐만 아니라 [모든 학습자와 사전 브리핑을 해야 한다]고 강조했는데, 이는 학생들이 소외감을 느낄 수 있습니다. 사전 브리핑을 일대일로 해야 하는지, 임상 팀으로 해야 하는지, 이메일로 해야 하는지에 대한 합의가 이루어지지 않았습니다. 학생에게 선호도를 물어보는 것은 주치의에서 학생으로 권력을 이동시키고 학생이 자신의 필요를 가장 잘 알고 있다는 존중을 전달했습니다.
Students felt that pre-briefing allowed them to inform the supervisor of their preferences regarding responses to microaggressions and promoted bystander responses that were actually supportive for them. By discussing microaggressions in advance, supervisors signaled to learners that they prioritized students’ psychological safety. Participants emphasized that the supervisor should pre-brief with all learners, not simply those who appeared likely to be targeted with microaggressions, which might make students feel singled out. There was not consensus about whether the pre-brief should happen one-on-one, as a clinical team, or by email. Asking students for their preferences shifted power from the attending to the student and conveyed respect that the student knew what would best address their needs.

참가자들은 어텐딩이 팀의 의료 콘텐츠 전문가이기는 하지만, 미세 공격에 대응하는 데는 그에 상응하는 [전문성이 부족]할 수 있으며, [전문가에서 초보자로의 불편한 전환]이 [어텐딩의 비활동의 원인]이 될 수 있다고 지적했습니다. 또한 환자를 교육하는 데 필요한 [올바른 문화 용어에 익숙하지 않을 수]도 있습니다. 한 학생은 시크교의 관습적인 머리 장식인 다스타르를 언급하며 이렇게 말했습니다:
Participants noted that while attendings are content experts for medical care on the team, they may lack comparable expertise for responding to microaggressions, and that the uncomfortable shift from expert to novice might be a source of inaction for attendings. They may also be unfamiliar with the correct cultural terminology to educate patients. Referring to the dastaar, the customary Sikh headwear, one student said:

만약 그것이 내 문화가 아니라면 어텐딩으로서 '아, 이 학생에게 무슨 일이 일어나고 있는지 모든 사람에게 설명해야겠어'라고 말하는 것이 매우 이상하게 느껴질 수 있습니다. (P21, 백인 여성)
I would feel if that were not my own culture, I might as an attending have a hard time being like, “Oh, I’m going to explain what’s going on with this student for everyone,” because that would also feel very strange for me to do that. (P21, White woman)

이 경우, [사전 브리핑]은 주치의의 대응을 알리는 데 특히 중요하다고 느꼈습니다.
In this case, a pre-brief was felt to be especially important to inform attending response.

환자 컨텍스트.
Patient context.

학생들은 미세 공격에 대한 대응의 성격과 타이밍을 지시하기 위해 [임상적 맥락과 의학적 예민함]을 중요한 고려 사항으로 꼽았습니다. 예를 들어, 심하게 흥분한 환자를 설득하려고 시도하는 것은 미세 공격성을 완화할 가능성이 낮았습니다. 아프거나 혼란스러운 환자의 미세 공격은 관리자의 대응을 면제하는 것이 아니라 오히려 이상적인 대응의 타이밍과 특성을 바꾸어 놓았습니다.
Students identified clinical context and medical acuity as critical considerations to direct the nature and timing of a response to microaggressions. For instance, attempting to reason with an acutely agitated patient was unlikely to deescalate a microaggression. A microaggression from an ill or confused patient did not absolve the supervisor from responding, but rather, changed the timing and characteristics of the ideal response.

급성, 중환자인 경우.... 환자가 좀 더 안정될 때까지 이에 대한 언급을 보류하는 것이 개인적으로 더 괜찮을 것 같아요. (P12, 중국계 미국인 여성)
If they are acutely, critically ill…. I think it would be more okay with me personally to hold off on a comment about this for a time where they’re more stable. (P12, Chinese American woman)

학생들은 환자의 경과에 따라 [이상적인 대응 타이밍에 대해 신중하게 생각하기를 원했으며], 곧 퇴원할 예정이거나 향후 시술을 앞둔 환자에게 가혹한 대응을 하여 향후 치료를 받지 못하게 하고 싶지 않았습니다.
Students wanted to be thoughtful about the timing of an ideal response in the context of a patient’s course and did not want to deliver harsh responses to patients soon-to-be discharged or with upcoming procedures, so as not to dissuade them from seeking future care.

대인관계 역학.
Interpersonal dynamics.

[학생과 환자의 관계]는 감독자가 어떻게 대응해야 하는지 결정하는 데 있어 핵심적인 고려 사항이었습니다. 참가자들은 모든 환자가 학생(및 다른 팀원)의 정체성과 상호 작용하는 고유한 정체성, 경험, 선호도를 가지고 있다는 점을 인정했습니다. 학생들은 미세 공격의 유형에서 환자의 의도를 추론했습니다. 미세 폭행 시나리오는 주로 대상 학생에 대한 명백한 인종 차별 행위로 간주된 반면, 학생들은 미세 모욕과 미세 무효화에는 [맥락과 의도를 고려]했습니다. 예를 들어, 환자가 다른 팀원보다 한 팀원을 선호하는 경우, 일치하는 정체성을 가진 의료진이 환자에게 위안을 제공했다면 미세 공격으로 인식되지 않을 수 있습니다:
The student–patient relationship was a key consideration in deciding how supervisors should respond. Participants acknowledged that every patient comes with their own identities, experiences, and preferences that interact with students’ (and other team members’) identities. Students inferred patient intent from the type of microaggression. Microassault scenarios were largely viewed as an act of overt racism against the targeted student, whereas students considered context and intent for microinsults and microinvalidations. For instance, a patient’s preference for one team member over another may not be perceived as a microaggression if a provider of a concordant identity offered a source of comfort for a patient:

환자는 자신의 정체성과 일치하는 의료진에게 더 편안함을 느낄 것입니다..... 흑인 환자로서 팀에 흑인이 한 명 있다면 그 팀에 흑인 한 명이 있다고 생각할 수 있습니다.... 그 사람에게 질문을 하는 것이 더 편할 것 같습니다. (P31, 아프로라티나)
A patient’s going to be more comfortable with a practitioner that matches their identity…. I can think of, as a Black patient, if there’s a team and there’s a Black person there, one person in that team…. I’m going to feel more comfortable directing my questions to that person. (P31, Afrolatina)

일부 학생은 [환자 동맹을 우선시]하고, [대립이 학생과 환자 관계를 복잡하게 만들 수 있다]고 생각하여 [비대립적 대응을 선호]했습니다.
Some students preferred nonconfrontational responses because they prioritized their patient alliance and felt that confrontation could complicate the student–patient relationship.

감독자의 조치
Supervisor action

학생들은 [효과적인 감독자의 방관자적 대응]이 학생을 보호하고 검증할 수 있지만, 반드시 [환자의 신념을 바꾸는 것을 목표로 해서는 안 된다]고 주장했습니다. 효과적인 대응은 [미세 공격을 인정]하고, [안전한 학습 환경을 조성]하고, [동맹 관계를 제공]하고, [역할 모델링]을 보여주고, 필요한 경우 학생이 [유해한 상황에서 벗어날 수 있도록 하는 것]이었습니다(표 4 참조). 전부는 아니지만 많은 학생들이 즉각적인 대응을 원했습니다. 모든 학습자나 시나리오를 만족시키는 단일 반응은 없었기 때문에, 학생들은 "어텐딩이 매번 상황이 다르기 때문에 도구 상자에 다양한 각도가 있다는 것을 느끼는 것이 중요하다고 느꼈습니다."(P9, 백인 여성) 누군가를 이해하려면 때로는 여러 각도에서 여러 번 시도해야 할 때도 있습니다. 환자를 마주한 후, 학생들은 교직원과 일대일로 간단히 확인하여, [미세 공격성을 인정하고 학생이 추가적인 반성을 위한 시간을 원하는지], 또는 [전체 의료진에게 디브리핑을 원하는지] 물어본 후 둘 중 하나를 수행하는 것을 선호했습니다.
Students asserted that effective supervisor bystander responses would protect and validate the student but should not necessarily aim to change the patients’ beliefs. An effective response acknowledged the microaggression, promoted a safe learning environment, provided allyship, demonstrated role-modeling, and, when necessary, let students escape harmful situations (see Table 4). Many, but not all, students wanted a response in the moment. Because there was no single response that satisfied all learners or scenarios, students felt that it was important for “Attendings to feel that they have multiple angles in their toolbox, both because the context is different each time, but also it takes sort of multiple attempts at different angles sometimes to get through to someone” (P9, White woman). After the patient encounter, students preferred brief one-on-one check-ins with faculty to acknowledge the microaggression and ask whether the student wanted space for additional reflection, or to debrief with the entire medical team, before doing either.

미세 공격 중.
During the microaggression.

환자와 마주한 상태에서 효과적인 대응은 [짧고 직접적이며 환자를 공격하지 않는 것]이었습니다. 학생들이 제안한 순간적 대응의 예로는 학생의 임상적 가치 강조, 유머 사용, 환자 교육, 임상 치료에 집중하도록 방향 전환, 역할 명확화, 경계 설정 등이 있었습니다. 학생들은 환자에게 특정 방식으로 느끼는 이유를 설명해 달라고 요청하는 것이 효과적인지에 대해 토론했는데, 이 전략은 환자가 인종차별적 신념에 대해 설명하도록 유도할 위험이 있기 때문입니다.

  • 미세 폭행의 경우, 학생들은 즉각적인 대응을 원하거나 환자가 임상적으로 안정된 경우 만남을 일시 중지하고 방을 나가기를 원했습니다. 명백한 미세 공격에도 불구하고 임상적으로 안정되어 방을 나갈 수 없는 경우, 학생들은 감독자가 짧고 직접적인 대응을 하고 학생이 나갈 수 있도록 허용할 것을 권장했습니다.
  • 덜 심각하다고 인식되는 다른 미세 공격 유형의 경우, 일부 학생들은 아래에 설명된 대로 슈퍼바이저가 목격하는 것을 선호했으며, 팀이 그 자리를 떠날 때까지 적극적인 대응을 미뤘습니다. 다른 학생들은 당장의 대응 부족에 대해 경고했습니다.

Effective responses while still in the patient encounter were short, direct, and did not attack the patient. Examples of students’ proposed in-the-moment responses included: emphasizing the clinical value of the student, using humor, educating the patient, redirecting to focus on clinical care, clarifying roles, and setting boundaries. Students debated whether asking a patient to explain why they felt a certain way was effective, as this strategy risked prompting the patient to expound on racist beliefs.

  • For microassaults, students wanted an immediate response or to pause the encounter to leave the room if the patient was clinically stable. If unable to leave the room due to clinical acuity despite a flagrant microaggression, students recommended that supervisors say a short, direct response and allow the student to step out.
  • For other microaggression types perceived as less severe, some students preferred the supervisor to bear witness as described below, delaying active response until after the team left the encounter. Others cautioned against lack of response in the moment.

목격하기.
Bear witness.

우리는 "목격을 참아내다"라는 표현을 사용하여 [미세 공격을 파악하고 의도적으로 개입을 연기하는 것]을 의미합니다. 제공자는 의도적으로 교육생과 아는 표정을 주고받거나, 나중에 미세 공격에 대해 논의함으로써 방에서 목격할 수 있습니다. 그러나 학생이 명시적으로 이러한 선호를 밝히지 않는 한, 교육생은 미세 공격에 반응하지 않도록 주의해야 합니다.
We use the phrase “bear witness” to refer to identifying the microaggression and intentionally deferring intervention. A provider may bear witness in the room by intentionally exchanging a knowing look with the trainee or discussing the microaggression later. However, unless a student had explicitly stated this preference, students cautioned against not responding to microaggressions.

저에게 [반응하지 않는 것은] 일종의 문제처럼 들립니다. 우리는 피부가 거칠어도 괜찮고 사람들이 문제를 무시해도 괜찮습니다... 그냥 무시하고 넘어가자고 말하는 것과 같은 맥락으로 들립니다. 문제는 미세한 공격이 너무 자주 일어나서 결국에는 두꺼운 피부를 깨뜨리기 때문에 우리가 미세 공격에 대해 이야기하고 있다는 것입니다. (P26, 멕시코계 미국인 여성)
[Not responding] to me is kind of sounding like a problem. We’re okay with having tough skin and we’re okay with people ignoring the problem … sounds kind of like that’s the same, like let’s just ignore it and move on. The whole issue is that we’re talking about microaggressions because they happen so often that eventually they break your thick skin. (P26, Mexican American woman)

목격 후 학생들은 [만남 후 확인]이 매우 중요하다고 생각했습니다.
After bearing witness, students considered a postencounter check-in critically important.

미세 공격 후.
After the microaggression.

학생들은 환자와의 만남을 떠난 후 미세 공격성에 대한 감독자의 논의가 [학생과 개별적으로 이루어져야 하는지] 아니면 [팀으로 이루어져야 하는지]에 대해 숙고했습니다. 대부분의 학생은 추가적인 그룹 토론이 학생에게 치유가 될지 여부를 논의하기 위해 [짧은 개인 상담]을 선호했습니다. 일부는 [팀과 함께 감정을 확인하는 것]이 중요하다고 생각했지만, 많은 학생들은 그룹 토론이 [트라우마나 공연적인 느낌을 줄 수 있는 소모적인 대화]로 이어져, 다른 사람들이 자신의 감정을 표현하고 동조자로 보일 수 있지만, 실제로 학생에게 도움이 되지 않을 수 있다고 우려했습니다. 학생들은 주치의가 그 순간 처리하고 싶지 않은 스트레스가 많은 [사건을 강제로 재현하도록 강요하지 않는 것이 필수적]이라고 느꼈습니다. 환자로부터 미세 폭행을 당하거나 잦은 미세 공격을 받은 학생은 수퍼바이저가 해당 학생을 다른 환자에게 재배치할 수 있는 옵션을 제안해 주기를 원했습니다. 수퍼바이저는 [재배치가 실력을 반영하는 것이 아니며 학생 평가에 해가 되지 않는다는 점을 명확히 하는 것이 중요했습니다]. 마지막으로, 일부 학생은 환자가 더 이상 혼란스러워하거나 화를 내지 않았을 때 다시 돌아와서 감독자 및 환자와 미세 공격에 대해 논의한 긍정적인 경험을 이야기했습니다.
Students deliberated whether the supervisor’s discussion of the microaggression after leaving the patient encounter should happen individually with the student or as a team. Most students preferred a brief private check-in to discuss whether further group discussion would be healing for the student. While some felt that validating emotions with the team was important, many worried that group discussion might invite an exhausting dialogue that could feel retraumatizing or performative, allowing others to express their emotions and appear as allies but not actually helping the student. Students felt it was imperative that attendings avoid forcing them to relive a stressful event that they did not want to process at that moment. Students subjected to a microassault or frequent microaggressions from a patient wanted their supervisor to propose the option of reassigning the student to a different patient. It was important for supervisors to clarify that reassignment was not a reflection of skill and would not harm student evaluations. Finally, some students recounted positive experiences returning to discuss the microaggression with the supervisor and patient when the patient was no longer confused or angry.

토론
Discussion

이 연구는 의대생이 선호하는 의대생 대상 미세 공격에 대한 [지도 교수의 대응 방식과 경험]에 대해 설명합니다. 학생들은 [단순한 일률적인 대응을 거부]했습니다. 오히려 학생의 선호도, 미세 공격의 맥락 등 교수진이 대응할 때 고려해야 할 다양한 고려 사항을 확인했습니다. 이들이 선호하는 방관자 대응은 [의사 결정권을 대상 학생에게로 전환하는 전략]을 나타냅니다.
This study describes medical students’ preferences for and experiences with faculty supervisor responses to microaggressions targeting clerkship students. Students rejected a simple one-size-fits-all response. Rather, they identified a variety of considerations which they felt faculty members should weigh in responding, including student preferences and microaggression context. Their favored bystander responses represented strategies to shift decision-making power toward targeted students.

[방관자 미세 공격 개입 가이드(B-MIG, 그림 1)]는 연구 참여자의 관점에서 선호하는 방관자 대응을 시각적으로 표현한 것입니다. 참가자들은 수퍼바이저가 모든 의대생에게 [함께 일하기 시작할 때] 미세 공격에 대한 대응 방식을 선호하는지 묻고, 각 미세 공격이 [발생한 후 간단히 다시 한 번 확인]할 것을 권장했습니다. 학생들은 모든 교수 지도교수가 모든 미세 공격에 대해 [어느 시점에는 짧게라도 대응해야 한다]는 데 동의합니다. B-MIG는 미세 공격에 대응하기 위한 개인 또는 교수진 개발의 발판이 되는 대응 가이드로 사용할 수 있지만, 학생과 상황에 맞게 대응을 계속 조정해야 하므로 처방전이 될 수는 없습니다. 감독자는 미세 공격 발생 시 서로를 지원하는 방법에 대한 팀 토론에 참여하기 위한 지침으로 B-MIG를 사용하는 것을 고려할 수 있습니다.
The Bystander Microaggression Intervention Guide (B-MIG, Figure 1) is a visual representation of the preferred bystander response from the perspective of our study participants. Participants recommended that supervisors ask all medical students for their preferences for responding to microaggressions at the onset of working together and to check-in again briefly with them after each microaggression. Students agree that all faculty supervisors should respond, even if briefly, to all microaggressions at some point. The B-MIG can be used as a response guide to scaffold personal or faculty development for responding to microaggressions; it cannot be a prescription because of the ongoing need to adapt responses to student and context. Supervisors can consider using the B-MIG as a guide to engage in team discussions around how to support one another in the event of a microaggression.

[학생의 희망에 초점을 맞춘 방관자 대응]은 교육 안전 환경을 조성할 수 있습니다. Tsuei 등은 [교육적 안전]"학습자가 자신의 투사된 이미지를 스스로 모니터링할 필요 없이, 학습 과제에 진정으로 전적으로 집중할 수 있도록, 타인의 판단으로부터 자유로움을 느끼는 주관적인 상태"로 정의했습니다. 42 미세 공격에 대한 학생 중심의 효과적인 개입을 실행하면 고정관념 위협과 이와 관련된 인지적 및 정서적 부하를 줄일 수 있습니다. 10,21,22 감독자의 사전 브리핑을 통해 신뢰감과 편안함을 느꼈다는 여러 참가자의 의견을 반영하여, [사전 브리핑]은 모두에게 더 유리한 학습 환경을 조성하는 데 중요한 도구로 간주합니다. 학생마다 선호하는 방식이 다르기 때문에, 모든 미세 공격에 대응하는 단일 전략이 모든 학생을 최적으로 지원하지는 못할 가능성이 높습니다. 다른 방관자 대응 문헌을 바탕으로 사전 브리핑에 대한 권장 사항은 휠러 등의 연구, 특히 "개방성과 존중의 문화를 미리 확립하라"는 권장 사항을 가장 잘 설명합니다. 11,32 임상팀에서 사전 브리핑을 시행한 제한된 경험에 따르면 일부 학생은 [미세 공격 대응에 대한 선호도를 확신하지 못했습니다]. 이 토론을 다시 살펴보면 학생들은 미세 공격에 대한 경험을 되돌아보고 향후 미세 공격에 대한 선호도를 수정할 수 있습니다. 사전 브리핑의 언어, 타이밍, 구조를 최적화하려면 더 많은 작업이 필요합니다.

Bystander responses centered on students’ wishes can foster an environment of educational safety. Tsuei et al defined educational safety as “the subjective state of feeling freed from a sense of judgment by others such that learners can authentically and wholeheartedly concentrate on engaging with a learning task without a perceived need to self-monitor their projected image.” 42 Implementing effective student-centered interventions to microaggressions may reduce stereotype threat and its associated cognitive and affective load. 10,21,22 Reflecting on multiple participants who described a sense of trust and comfort from supervisor pre-briefs, we view the pre-brief as a critical tool to foster a more favorable learning environment for all. Because student preferences differ, a single strategy for responding to all microaggressions is unlikely to optimally support all students. Building on other bystander response literature, the recommendation to pre-brief best elaborates upon the work of Wheeler et al, specifically the recommendation to “establish a culture of openness and respect upfront.” 11,32 In our limited experience implementing the pre-brief on our clinical teams, some students are unsure of their preferences regarding microaggression responses. Revisiting this discussion allows students to reflect on experiences with microaggressions and revise their preferences for future microaggressions. More work is needed to optimize the language, timing, and structure of the pre-brief.

이상적인 슈퍼바이저의 반응에 대한 참가자들의 인식은 [권력의 중심]을 [슈퍼바이저에서 학습자 쪽으로 이동]시킵니다. 프렌치와 레이븐의 6가지 권력 기반(합법적, 전문적, 정보 제공적, 보상적, 강압적, 경건적)은 사회적 권력 이동을 조사하는 데 유용한 프레임워크로 구성됩니다. 43-45

  • 지도 어텐딩은 의대생에 대한 권한을 가진 [합법적인 권력]을 가지고 있습니다.
  • [전문적 권력]은 주치의가 알고 있는 것으로 추정되는 내용을 기반으로 하며, [정보적 권력]은 다른 사람과 공유하는 정보에서 비롯됩니다. 46
  • 미세 공격이 발생한 후 사전 브리핑을 한 후 학생의 의사를 집행하는 수퍼바이저는 학생을 미세 공격 경험에 대한 전문가로 취급하고 [합법적 권력과 전문적 권력]을 학생에게 효과적으로 이전한 것입니다. 학생이 선호하는 미세 공격 대응 방법을 감독자에게 알릴 때, 학생은 감독자가 조력자가 될 수 있도록 정보 권한을 이전합니다. 37,46
  • 학생의 환자 돌봄 중단 결정이 평가에 영향을 미치지 않는다는 것을 확인함으로써, 감독자는 [보상 권력과 강압적 권력]을 무력화할 수 있습니다.
  • 학생을 대상으로 한 [미세 공격에 대응하지 않는 감독자]는 학생들이 롤모델로서 감독자에 대한 믿음을 잃게 되어 [참조적 권력]을 잃을 수 있습니다. 교수진이 학생의 선호도를 물어봄으로써 학생에게 힘을 실어주자는 제안은 자기 평가와 자기 비판에 대한 평생의 노력으로 정의되는 "문화적 겸손"을 예시하며, 수련의-수퍼바이저 역학 관계의 권력 불균형을 바로잡고 상호 유익하고 가부장적이지 않은 임상 및 옹호 파트너십을 발전시키는 것입니다. 47

Our participants’ perceptions of ideal supervisor responses shift the bases of power from supervisors toward learners. French and Raven’s 6 bases of power (legitimate, expert, informational, reward, coercive, and reverent) constitute a useful framework to examine social power shifts. 43–45 

  • A supervising attending holds legitimate power with authority over the medical student.
  • Expert power is based upon what an attending is presumed to know,
  • while informational power comes from the information that one shares with others. 46 A supervisor who pre-briefs and then enacts a student’s wishes after a microaggression has treated the student as expert in their own experience of microaggressions and effectively transferred legitimate and expert power to the student. When students inform supervisors of their preferred microaggression response, they transfer informational power to facilitate supervisors’ ability to be allies. 37,46 
  • By confirming that a student’s decision to discontinue caring for a patient will not impact their assessment, supervisors can neutralize reward and coercive power.
  • Supervisors who do not respond to microaggressions targeting students may lose referent power as students lose faith in them as role models. The suggestion that faculty empower students by asking for their preferences exemplifies “cultural humility,” defined as lifelong commitment to self-evaluation and self-critique, redressing the power imbalances in the trainee–supervisor dynamic, and developing mutually beneficial and nonpaternalistic clinical and advocacy partnerships. 47

이 연구에는 한계가 있습니다. 이 단일 기관 연구 참여자의 결과가 모든 의대생의 생각이나 경험을 대변하는 것은 아닙니다. 가능한 모든 미세 공격에 대해 다루지 않았습니다. 다양한 사회적 정체성이 교차하는 학생들을 포함했지만, 소수로 결론을 도출하고 학생 기밀을 침해할 위험이 있으므로 학생 인구통계를 기반으로 한 별도의 분석은 수행하지 않았습니다. 마지막으로, 학생의 관점에서 바라본 이 연구는 감독자가 실제로 미세 공격에 대응하는 것에 대해 어떻게 생각하는지 알려주지 않습니다.
This study has limitations. Findings from participants in this single-institution study do not represent the thoughts or experience of all medical students. We did not address all possible microaggressions. We included students with a range of intersecting social identities but did not do separate analyses based on student demographics due to the risk of drawing conclusions with small numbers and violating student confidentiality. Finally, this study from the student perspective does not tell us how supervisors actually think about responding to microaggressions.

앞으로 저희 팀은 미세 공격에 대응하는 감독자의 관점을 조사하고 있습니다. 또한 교수진 개발에서 B-MIG의 역할을 연구하고 가이드를 더욱 개선하는 것도 중요할 것입니다.
Looking forward, our team is investigating supervisors’ perspectives on responding to microaggressions. It will also be important to study the role of the B-MIG in faculty development and further refine the guide.

결론
Conclusions

이상적인 방관자 대응은 학생의 선호도와 미세 공격의 맥락을 통합합니다. 학생의 선호도는 미세 공격에 대한 사전 간략한 토론을 통해 가장 잘 드러납니다. B-MIG는 학생들이 선호하는 미세 공격 대응을 시각적으로 표현한 것입니다. 효과적인 개입은 교육적 안전을 증진하고 학생 대상에게 유리한 방향으로 힘의 역학을 변화시킵니다.
An ideal bystander response incorporates students’ preferences and microaggression context. Student preferences are best revealed through a pre-brief discussion of microaggressions. The B-MIG is a visual representation of students’ preferred microaggression response. Effective interventions promote educational safety and shift power dynamics in favor of the student target.

 


Acad Med. 2021 Nov 1;96(11S):S71-S80. doi: 10.1097/ACM.0000000000004288.

No One Size Fits All: A Qualitative Study of Clerkship Medical Students' Perceptions of Ideal Supervisor Responses to Microaggressions

Affiliations collapse

1J.L. Bullock is a second-year resident, internal medicine, University of California, San Francisco School of Medicine, San Francisco, California.

2M.T. O'Brien is assistant professor, Department of Medicine, University of California, San Francisco, San Francisco, California.

3P.K. Minhas is a second-year medical student, University of California, San Francisco School of Medicine, San Francisco, California.

4A. Fernandez is associate dean for population health and health equity and professor, Department of Medicine, University of California, San Francisco, San Francisco, California.

5K.L. Lupton is associate professor, Department of Medicine, University of California, San Francisco, San Francisco, California.

6K.E. Hauer is associate dean for competency assessment and professional standards and professor, Department of Medicine, University of California, San Francisco School of Medicine, San Francisco, California.

PMID: 34348373

DOI: 10.1097/ACM.0000000000004288

Abstract

Purpose: This study explores medical students' perspectives on the key features of ideal supervisor responses to microaggressions targeting clerkship medical students.

Method: This single-institution, qualitative focus group study, based in an interpretivist paradigm, explored clerkship medical students' perceptions in the United States, 2020. During semistructured focus groups, participants discussed 4 microaggression scenarios. The authors employed the framework method of thematic analysis to identify considerations and characteristics of ideal supervisor responses and explored differences in ideal response across microaggression types.

Results: Thirty-nine students participated in 7 focus groups, lasting 80 to 92 minutes per group. Overall, students felt that supervisors' responsibility began before a microaggression occurred, through anticipatory discussions ("pre-brief") with all students to identify preferences. Students felt that effective bystander responses should acknowledge student preferences, patient context, interpersonal dynamics in the room, and the microaggression itself. Microassaults necessitated an immediate response. After a microaggression, students preferred a brief one-on-one check-in with the supervisor to discuss the most supportive next steps including whether further group discussion would be helpful.

Conclusions: Students described that an ideal supervisor bystander response incorporates both student preferences and the microaggression context, which are best revealed through advanced discussion. The authors created the Bystander Microaggression Intervention Guide as a visual representation of the preferred bystander microaggression response based on students' discussions. Effective interventions promote educational safety and shift power dynamics to empower the student target.

채점에서 학습을 위한 평가로: 핵심임상실습의 성적 제거 및 형성적 피드백 강화를 둘러싼 학생들의 인식(Teach Learn Med. 2021)
From Grading to Assessment for Learning: A Qualitative Study of Student Perceptions Surrounding Elimination of Core Clerkship Grades and Enhanced Formative Feedback
Lee Seligmana, Abdikarin Abdullahib, Arianne Teheranib,c, and Karen E. Hauerb,c

 

 

소개
Introduction

레지던트 지원 및 학업 성적1에 중요한 영향을 미치는 [의과대학의 임상실습 성적]은 학생들에게 상당한 우려를 불러일으킵니다. 핵심 임상 실습은 전통적으로 [총괄 평가]로 마무리되며,2 대다수의 미국 의과대학은 합격 성적을 세분화(예: "우등/합격/불합격")하는 [계층형 채점 시스템]을 채택하고 있습니다.3 학습자들은 종종 정확하고 객관적으로 보이지만 학생 성과를 완전히 또는 정확하게 나타내지 못할 수 있는 이러한 [성적의 공정성에 대해 의문]을 제기합니다.4 -7 학생들은 [감독자의 불충분한 직접 관찰]에 근거하여 성적이 매겨졌다고 느낄 수 있으며,4,8 환자를 자비롭게 돌보는 능력과 같은 다른 역량보다 [의학 지식에 과도한 가중치]를 부여합니다.9,10 또한 성적은 [의학 분야에서 소외되거나 의학에 대한 사전 노출이 적은 배경을 가진 학생에게 불이익]을 주는 불공평성에 기여합니다.6,11 
Clerkship grades during medical school – due to their importance for residency applications and academic awards1 – raise significant concerns for students. Core clinical clerkships traditionally culminate in summative assessment,2 with the large majority of US medical schools employing a tiered grading system, in which passing grades are subdivided (e.g. “honors/pass/fail”).3 Learners often question the fairness of these grades, which, despite their seeming precision and objectivity, may not fully or accurately represent student performance.4–7 Students may feel that they are graded based on inadequate direct supervisor observation,4,8 with excessive weight placed on medical knowledge above other competencies, such as the ability to provide compassionate patient care.9,10 Grading also contributes to inequity, disadvantaging students from backgrounds underrepresented in medicine or with less prior exposure to medicine.6,11

평가는 학생들이 학습하는 방법과 내용을 형성하는 데 중요한 역할을 합니다.12-17 [동기 부여 이론]은 평가가 학습에 미치는 영향을 설명합니다.

  • [목표 지향 이론]에 따르면 학생들은 서로 다른 성취 목표 또는 목적을 가지고 학습에 접근합니다.18,19
    • [성취 목표 지향]은 유능해 보이거나, 무능해 보이지 않으려 하거나, 실수를 피하려는 욕구가 특징입니다.
    • 반대로 [숙달 목표 지향]은 기술이나 지식을 습득하는 데 중점을 둡니다.
    • [숙달 목표 지향]은 더 깊은 개념 이해, 개선된 끈기, 더 큰 학습 즐거움으로 더 높은 수준의 학습을 촉진합니다.20,21 요약 평가는 성과 지향성을 장려하므로,12 요약 평가에서 형성 평가로 전환하는 것이 학습에 도움이 될 수 있습니다.
  • [자기 결정 이론]은 숙달 지향의 이점을 이해하기 위한 관련 프레임으로, 외재적 동기보다는 내재적 동기가 학습의 질을 최적화하고 웰빙을 향상시킨다고 가정합니다.22-24 내재적 동기는 자율성, 역량 및 관련성(후자는 사회적 연결성을 의미함)에 의해 촉진됩니다. 계층적 채점은 내재적 동기를 감소시킬 수 있는 외재적 동기 부여입니다.25,26

Assessment plays a major role in shaping how and what students learn.12–17 Theories of motivation elucidate the effects of assessment on learning.

  • According to goal orientation theory, students approach learning with different achievement goals or purposes.18,19 
    • A performance goal orientation is characterized by the desire to appear competent, avoid appearing incompetent, or avoid mistakes.
    • Conversely, mastery goal orientation places focus on gaining skills or knowledge.
    • A mastery orientation facilitates higher quality learning with deeper conceptual understanding, improved persistence, and greater enjoyment of learning.20,21 Summative assessment encourages performance orientation,12 and thus, a move from summative toward formative assessment may benefit learning.
  • Self-determination theory is a related frame for understanding the benefits of a mastery orientation, positing that intrinsic rather than extrinsic sources of motivation optimize learning quality and enhance wellbeing.22–24 Intrinsic motivation is promoted by feelings of autonomy, competence, and relatedness (the latter signifying social connectedness). Tiered grading is an extrinsic motivator that may diminish intrinsic motivation.25,26

의학 커리큘럼 등급 변경에 대한 연구는 합격/불합격이 상당한 이점을 부여하는 [임상실습 전 평가]에 중점을 두었습니다. [단계별 등급을 없애면], 임상 전 시험 성적의 저하 가능성을 제외하고는 1단계 면허 시험 점수를 비롯한 측정된 [교육 성과에 큰 영향을 미치지 않으면서 스트레스를 줄이고 웰빙과 그룹 결속력을 향상시킬 수 있습니다]. 대부분의 미국 의과대학은 [전임상 커리큘럼을 합격/불합격 채점 방식으로 전환]했습니다. 이러한 성공 사례는 핵심 교과목에서 단계별 등급을 제거하면 중요한 변화의 시기에 학생들의 학습 경험을 유사하게 개선할 수 있음을 시사합니다. 그러나 [실습 기간 동안 피드백에 중점을 둔 합격/불합격 채점으로의 변경]이 실제로 학생에게 어떤 영향을 미치고 학습 경험을 재조정할 수 있는지는 알려지지 않았습니다.
Studies of medical curricular grading changes have focused on pre-clerkship evaluation, where pass/fail has conferred significant benefits. Elimination of tiered grading decreases stress and improves wellbeing and group cohesion27–30 without significant detriment to measured educational outcomes, including Step 1 licensing examination scores,31,32 except for a possible decrease in preclinical exam performance.33 Most United States medical schools have transitioned their pre-clinical curricula to pass/fail grading.34 These successes suggest that removal of tiered grading from core clerkships could similarly improve student learning experiences during a critical and transformative period. However, how a change to pass/fail grading with increased focus on feedback during clerkships may affect students and reorient their learning experiences in practice is unknown.

임상 실습에서 [저부담 피드백]에 중점을 둔 [합격/불합격 채점]을 구현하려면 [총괄 평가 및 판단]에 중점을 두는 것에서 [형성 평가 및 피드백]에 중점을 두는 것으로 변화해야 합니다.35-37 이를 [학습에 대한 평가]에서 [학습을 위한 평가]로의 전환이라고 할 수 있습니다.38 [학습을 위한 평가]를 우선시하는 환경에서는 피드백을 강조합니다. 피드백은 학습을 안내하고, 학생 참여를 촉진하며, 학생이 학습 목표를 달성하기 위한 수단으로 피드백을 사용하게 동기를 부여한다. 예를 들어 평가에 대한 감독자의 태도는 학생의 학습 환경에 직접적인 영향을 미치거나 피드백을 통해 간접적으로 학생의 학습 경험에 영향을 미칠 수 있으므로 이러한 문화적 변화에는 모든 이해관계자의 동의가 필요합니다.39,40 이 질적 연구에서는 형성적 피드백에 중점을 두고 핵심 임상실습 단계별 채점을 없애는 것이 동기 부여, 임상실습 학습 경험 및 웰빙에 미치는 영향에 대한 학생의 관점을 탐색하고자 합니다.
Implementing pass/fail grading with greater emphasis on low-stakes feedback in clinical clerkships requires a change from emphasis on summative assessment and judgment to one on formative assessment and feedback.35–37 This may be called a move from assessment of learning to assessment for learning.38 An environment that prioritizes assessment for learning emphasizes feedback to guide learning, fostering student engagement, and motivating students to use feedback as a means to achieve learning goals. This cultural shift requires buy-in from all stakeholders, as supervisor attitudes toward assessment, for example, may directly affect the student’s learning environment or indirectly affect student learning experiences through feedback.39,40 In this qualitative study, we pursue an initial exploration of student perspectives on how elimination of tiered grading in core clerkships with increased focus on formative feedback affects motivation, clerkship learning experiences, and wellbeing.

 

연구 방법
Method

연구 설계
Study design

이 연구는 의대생 인터뷰 분석을 위해 동기 부여 이론과 관련된 개념42을 민감화하여 귀납적 주제 분석 접근법41을 사용한 질적 연구였습니다. 이 연구는 성적 변경 후 학생들의 [임상실습 경험]을 학생들 자신의 말로 탐구하는 [초기 연구]이므로 [질적 설계]를 선택했습니다. 저희는 개인의 주관적인 경험을 탐구하고자 [해석주의 패러다임]을 채택했습니다. 2019년 여름, 캘리포니아대학교 샌프란시스코 캠퍼스(UCSF)에서 핵심 클럭십을 수행하는 동안 의대생들을 인터뷰하여 Honor 채점을 없애고, 주 2회 관찰과 지도교수 피드백을 시작한 직후 1년간의 학습 경험에 대해 이야기했습니다. 평가 변경 및 개인 성과에 대한 강한 감정을 예상했기 때문에 학생들이 솔직하고 유연하게 말할 수 있도록 개별 반구조화 인터뷰를 사용했습니다. UCSF 기관윤리심의위원회는 이 연구를 면제로 간주했습니다(연구 번호 19-27805).
This was a qualitative study using an inductive thematic analysis approach41 with sensitizing concepts42 related to theories of motivation for analysis of interviews with medical students. We selected a qualitative design as this is an initial study exploring student clerkship experiences after a grading change, in the students’ own words. We employed an interpretivist paradigm, as we hoped to explore individuals’ subjective experiences of their clerkships. We interviewed medical students during their core clerkships at the University of California, San Francisco (UCSF) during summer 2019, addressing their learning experiences in the year immediately following elimination of honors grading and initiation of twice-weekly observation and feedback from supervisors. Because we anticipated strong feelings regarding the assessment change and personal performance, we used individual semi-structured interviews to allow students to speak candidly and flexibly. The UCSF Institutional Review Board deemed the study exempt (study # 19-27805).

컨텍스트
Context

UCSF 의대생들은 마취과, 내과, 신경과, 산부인과, 소아과, 정신과, 외과에서 각각 2~8주 동안 진행되는 [핵심 임상실습]과 [종단형 가정의학과 일일 클리닉]에 참여했습니다. 대부분의 학생들은 [블록 클리닉]에 등록했고, 소수의 학생들은 [종단 통합 클리닉(LIC)]에 등록했습니다.43

  • 블록 클리닉 팀에는 학생 1~2명, 어텐딩(교수진), 레지던트, 인턴 1~2명이 포함되었으며, 여러 학생이 한 사이트에서 다른 팀에 속해 근무했습니다.
  • LIC 학생들은 각 분야의 어텐딩과 함께 개별적으로 근무했습니다.

UCSF medical students participated in core clerkships lasting 2–8 weeks each in anesthesia, medicine, neurology, obstetrics/gynecology, pediatrics, psychiatry, and surgery, plus a longitudinal family medicine day-long clinic. Most students enrolled in block clerkships and a minority in longitudinal integrated clerkships (LICs).43 Block clerkship teams included 1–2 students, an attending (faculty member), resident, and 1–2 interns; multiple students work on different teams at a site. LIC students worked individually with an attending in each discipline.

[2018년 12월]까지 학생들은 [어텐딩, 레지던트, 인턴의 서술형 및 수치 평가]와 [임상실습 시험 점수]가 위원회에서 결정한 최종 성적에 반영되어 우등/합격/불합격 등급을 받았습니다.44 [2019년 1월], 학교는 핵심 임상실습에 대한 합격/불합격 등급으로 전환하여 다음에 따라 합격이 결정되도록 했습니다.

  • 어텐딩과 레지던트의 서술형 및 수치 평가에 대한 기대치 달성,
  • 임상실습 시험 합격,
  • 주 2회 형성 피드백 이벤트 제출(작업 기반 평가,45 내용보다는 완료도에만 등급이 매김)

Through December 2018, students received honors/pass/fail grades, with narrative and numerical evaluations from attendings, residents, and interns, along with clerkship examination scores, contributing to the final committee-determined grade.44 In January 2019, the school transitioned to pass/fail grading for core clerkships, with passing determined by

  • achievement of expectations on narrative and numerical evaluations from attendings and residents,
  • passing the clerkship examination, and
  • submission of twice-weekly formative feedback events (work-based assessments,45 graded only for completion rather than content).

2019년 1월부터 이러한 피드백 이벤트는 학생이 시작하고 참석 또는 레지던트 수퍼바이저가 [구두 및 온라인 피드백 양식]으로 작성하여 완료했습니다. 학생들은 합격/불합격 성적 외에 '탁월' 또는 '우수'와 같은 코드화된 요약 형용사 없이 [채점 위원회의 최종 서술형 평가]를 계속 받았습니다. [핵심 임상실습]에 이은 [서브 인턴십]은 대부분 우등상을 받을 수 있는 자격이 주어졌습니다.
Starting in January 2019, these feedback events were initiated by students and completed by attending or resident supervisors, both orally and written in an online feedback form. Students continued to receive a final narrative evaluation from a grading committee – without coded summary adjectives such as “outstanding” or “superior” – in addition to their pass/fail grade. Sub-internships following core clerkships continued to be largely honors-eligible.

참가자
Participants

저희는 임상실습 연도에 있는 학생들을 표본으로 삼았습니다. 또한 2019년 1월 이전에 임상실습을 시작하여 이전의 우등생 자격 및 새로운 합격/불합격 평가 시스템을 경험한 일부 학생을 의도적으로 표본으로 추출했습니다.46 이러한 학생들은 평가 시스템 간 경험을 직접 비교할 수 있었기 때문에 조사 대상에 포함했습니다. 인터뷰 당시 참가자들은 12개월 중 최소 5개월의 핵심 임상실습을 완료한 상태였습니다. 이 시기는 학생들이 다양한 임상실습 경험에 적응할 수 있는 충분한 시간을 확보할 수 있게 해주었고, 신입 임상실습 학생으로서 슈퍼바이저와 함께 배우고 일했던 경험을 쉽게 떠올릴 수 있게 해주었습니다. 우리는 학급 리스트서브에 단 한 번의 모집 이메일을 통해 대부분의 학생을 모집했습니다. 우리는 모든 인구통계학적 그룹의 학생들이 일반적으로 사무직 채점의 공정성과 정확성에 대해 우려한다는 이전 연구에 근거하여 편의 표본을 사용했습니다.4 경쟁이 치열한 전문과목에 대한 관심은 채점에 대한 의견과 연관될 수 있지만, 많은 학생들이 핵심 사무직을 수행하는 도중에 전문과목 선택을 결정하지 못한다는 우리 기관의 내부 데이터에 따라 표본 추출 계획을 수립했습니다.46 2019년 1월 이전에 임상실습을 시작한 학생들은 단일 리스트서브에 소속되지 않은 소수의 학생을 대표하므로 개별 이메일을 통해 모집했습니다. 모든 참가자에게는 $20 전자 기프트 카드가 제공되었습니다.

We sampled students in their clerkship year. Additionally, we purposively sampled a small subset of students who began their clerkships prior to January 2019, and who thus had experienced the prior honors-eligible and new pass/fail assessment system.46 We included these students as they were able to compare experiences across evaluation systems directly. At the time of the interviews, participants had completed at least five of the 12 months of core clerkships. This timing ensured that students had sufficient time to adjust to multiple different clerkship experiences and could easily recall their experiences as new clerkship students learning and working with supervisors. We recruited most students through a single recruitment email to the class listserv. We used a convenience sample based on our prior work showing that students from all demographic groups commonly have concerns with the fairness and accuracy of clerkship grading.4 While interest in a competitive specialty may be associated with opinions about grading, our sampling plan was informed by internal data at our institution showing that many students are undecided about specialty choice midway through their core clerkships.46 Students who began their clerkships prior to January 2019 were recruited through individual emails, as these represented a smaller number of students who did not belong to a single listserv. All participants received a $20 electronic gift card.

면접 가이드
Interview guide

세 명의 연구자(L.S., A.T., K.E.H.)가 [평가, 피드백, 동기 부여 이론에 관한 문헌을 활용하여 인터뷰 가이드를 개발]했습니다.8,12,14,18,20,22,31,47 (지원 정보 부록 1) 인터뷰 질문은 [학습 행동, 임상실습에서의 평가 변경 및 채점에 대한 태도, 동기 부여, 웰빙, 팀 역학, 피드백 및 평가에 대한 감독자의 태도에 대한 인식]을 다뤘습니다. 솔직한 답변을 유도하기 위해 참가자들은 모집 이메일과 인터뷰 직전에 녹취록이 비식별화될 것임을 다시 한 번 고지받았습니다. 각 인터뷰 후에는 학생의 인구통계학적 정보를 수집했습니다.
Three investigators (L.S., A.T., K.E.H.) developed the interview guide using literature on assessment, feedback, and motivation theory.8,12,14,18,20,22,31,47 (Supporting Information Appendix 1) Interview questions addressed learning behaviors, attitudes regarding the assessment change and grading in clerkships, motivation, wellbeing, team dynamics, feedback, and perceptions of supervisor attitudes regarding assessment. To facilitate candid responses, participants were informed both in the recruitment email and again immediately prior to the interview that transcripts would be deidentified. Following each interview, we collected student demographic information.

절차
Procedures

훈련받은 두 명의 조사원(L.S., A.A.)이 각각 두 번의 파일럿 인터뷰를 실시하고 다른 조사원(K.E.H.)으로부터 인터뷰 기법에 대한 피드백을 받았습니다. 인터뷰 질문에 대한 참가자의 구두 피드백을 수집하고 흐름과 명확성을 위해 인터뷰 가이드를 수정했습니다. 참가자가 핵심 임상실습 학생이었으며 인터뷰 기법이 양호했기 때문에 데이터 세트에 파일럿 인터뷰 1건을 포함시켰습니다. L.S.와 A.A.는 인터뷰를 동등하게 나누었습니다. 2019년 6월부터 8월까지 모든 인터뷰는 전화 또는 대면으로 진행하고 녹음했습니다. 분석 전에 전문적으로 녹취록을 전사하고 비식별화했습니다.
Two trained investigators (L.S., A.A.) each conducted two pilot interviews and received feedback from another investigator (K.E.H.) on interview technique. We collected participants’ verbal feedback on interview questions and revised the interview guide for flow and clarity. We included one pilot interview in the dataset, as the participant was a core clerkship student, and the interview technique was of good quality. L.S. and A.A. divided interviews equally. We conducted and recorded all interviews between June and August 2019 via telephone or in person. We professionally transcribed and deidentified transcripts before analysis.

분석
Analysis

녹취록을 읽고 동기부여 이론과 관련된 개념을 민감화하여 데이터 분석을 시작했습니다.18-20,22,23,42 이러한 개념을 통해 목표 지향 이론(예: "성과")과 자기결정 이론(예: "자율성", "역량")의 언어를 사용하여 코드를 식별하기 시작할 수 있었습니다. [귀납적으로 코드북을 개발]하기 위해 두 명의 연구자(L.S., K.E.H.)가 [두 개의 인터뷰 녹취록을 읽고 독립적으로 예비 코드를 작성]했으며, L.S.가 이를 [하나의 예비 코드북]으로 재조정했습니다. [세 명의 조사자가 예비 코드북을 사용하여 세 번째와 네 번째 녹취록을 코딩]하고, 매번 코드를 추가, 제거 또는 명확히 하여 코딩을 조정하여 [최종 작업 코드북]을 만들었습니다. 인터뷰가 진행됨에 따라 코드북을 계속해서 반복적으로 개선했습니다.
We began data analysis by reading transcripts and considering sensitizing concepts relating to motivation theory.18–20,22,23,42 These concepts allowed us to begin identifying codes using the language of goal-orientation theory (e.g. “performance”) and self-determination theory (e.g. “autonomy,” “competence”). To develop a codebook inductively,41 two investigators (L.S., K.E.H.) read two interview transcripts and independently created preliminary codes, which L.S. reconciled into a single preliminary codebook. Three investigators used the preliminary codebook to code a third and fourth transcript, each time reconciling coding by adding, removing, or clarifying codes, thereby yielding the final working codebook. We continued to refine our codebook iteratively as interviews progressed.

데이터 수집, 코딩, 분석을 동시에 진행했습니다. 11번의 인터뷰 끝에 새로운 코드를 만들거나 새로운 방식으로 코드를 적용하지 않아 [이론적으로 충분하다는 것]을 발견했습니다.48 [이후 7번의 인터뷰]에서는 우등생과 합격/불합격 서기직에 모두 경험이 있는 학생(총 5명)을 우선적으로 선발했습니다. 두 가지 평가 시스템을 모두 경험한 학생들은 비슷한 주제에 대해 논의했으며, 이들의 답변이 코드북에 큰 변화를 가져오지 않는 것을 관찰한 결과, 합격/불합격만 경험한 학생의 인터뷰와 함께 분석하는 것이 적절하다고 판단했습니다. 

We conducted data collection, coding, and analysis concurrently. After 11 interviews, we discovered that we were not creating new codes or applying codes in novel ways, indicating theoretical sufficiency.48 Within the subsequent seven interviews, we prioritized selecting students (five total) with experience in both honors-eligible and pass/fail clerkships. We observed that these students with experience in both assessment systems discussed similar themes; their responses did not lead to significant changes in the codebook, suggesting to us that it was appropriate to analyze their interviews alongside interviews with students who had experienced only pass/fail clerkships.

코딩이 완료된 후 참가자 인구 통계(표 1)를 검토한 결과, 남성과 여성 참가자가 모두 대표성을 띠고 있음을 확인할 수 있었습니다. 참가자의 인종과 절차적 전문 분야와 비절차적 전문 분야에 대한 관심은 수업 전체에 대한 대표성을 해석하기 어려웠는데, 전자의 경우 많은 학생이 자신의 인종을 "혼합"이라고 답하거나 응답하지 않았고, 후자의 경우 많은 학생이 선호하는 전문 분야를 결정하지 않은 채로 남아있었기 때문입니다. 학생 인구 통계에 따른 코드 적용의 차이는 미미했으며, 이는 이러한 하위 그룹에 대한 추가적인 의도적 샘플링이 필요하지 않음을 시사합니다

Following completion of coding, we reviewed participant demographics (Table 1) and noted that both male and female participants were represented. Participant race and interest in a procedural versus non-procedural specialty were difficult to interpret for representativeness with respect to the class as a whole,

  • 인종 as for the former, many students reported their race as “mixed” or chose not to respond,
  • 관심전공 and for the latter, many students remained undecided on their preferred specialty.

We observed only minimal differences in application of codes based on student demographics, suggesting that further purposive sampling among these subgroups was not necessary.

[코딩을 완료한 후, 두 명의 연구 조사자가 각 코드와 관련 발췌문을 검토]하여 [더 큰 주제와 코드와 주제 간의 관계를 파악]하기 시작했습니다. 팀 토론을 통해 더 큰 주제를 구체화했습니다. 코딩된 데이터를 정리하고 컴파일하기 위해 Dedoose를 사용했습니다(Dedoose, 버전 8.2.14, 사회문화 연구 컨설턴트, 캘리포니아주 로스앤젤레스). 6명의 학생에게 이메일을 통해 구성원 확인을 실시했습니다.49 학생들에게 연구의 주요 주제와 결론을 제공했으며, 학생들은 연구 결과가 자신의 경험과 일치한다고 느꼈습니다. 피드백을 바탕으로 연구 결과를 약간 수정했습니다.

After completing coding, two study investigators reviewed each code and its associated excerpts to begin to identify larger themes and relationships among codes and themes. We refined larger themes through team discussion. We used Dedoose to organize and compile coded data (DEDOOSE, version 8.2.14, SocioCultural Research Consultants, Los Angeles, California). We conducted member checking with six students via email.49 We provided students with major themes and conclusions from the study, and students felt that our results were consistent with their experiences. We made minor clarifications to our results based on feedback.

 
 

연구자 반사성
Researcher reflexivity

우리는 연구 전반에 걸쳐 반성적 사고를 고려하여 반성적 사고 일지에 생각을 기록하고 토론을 통해 공유했습니다.50,51 우리 연구팀은 두 명의 의대생(L.S., A.A.), 의학교육 연구원(A.T.), 학교 평가를 총괄하는 교육 리더(K.E.H.) 등 구성원들의 다양한 경험과 전문성을 활용할 수 있었습니다. 우리는 훈련된 학생 면접관(L.S., A.A.)을 활용하여 참가자들이 임상실습 경험을 둘러싼 솔직한 의견을 표현할 수 있도록 했습니다. 우리는 팀원들 간에 데이터와 분석에 대한 반응을 정기적으로 논의하여 서로의 가정에 도전하고 분석을 지속적으로 개선할 수 있었습니다.
We considered reflexivity throughout the study, recording thoughts in reflexivity journals and sharing through discussion.50,51 Our study team benefited from members’ diverse experiences and expertise: two medical students (L.S., A.A.), a medical education researcher (A.T.), and an educational leader who directs assessment for the school (K.E.H.). Our use of trained student interviewers (L.S., A.A.) allowed participants to express candid opinions surrounding clerkship experiences. We regularly discussed our reactions to the data and analysis among our team, allowing us to challenge one another’s assumptions and continuously refine our analyses.

결과
Results

이메일 초대를 받은 자격을 갖춘 168명의 클럭십 학생 중 18명이 응답했으며(모두 이메일 수신 후 5일 이내에 응답), 이 중 13명을 인터뷰에 초대했습니다. 우등 및 합격/불합격 클럭십에 모두 참여한 경험이 있는 학생은 8명이었으며, 이 8명 모두에게 개별 이메일을 보내고 5명의 응답자와 인터뷰를 진행했습니다. 표 1은 참가자의 인구통계학적 특성을 보여줍니다. 참가자들은 8가지 핵심 클럭십에 모두 경험이 있었으며, '상사의 반응' 및 '불확실한 미래' 하위 주제(아래)에서 언급된 것 외에 특정 전문 분야와 관련된 일관된 주제별 차이는 확인되지 않았습니다. 인터뷰는 평균 42분 동안 진행되었습니다(범위: 22-59분).
Of 168 eligible clerkship students who received email invitations, 18 responded (all within five days of receiving the email), and we invited the first 13 for interviews. There were eight students with experience in both honors-eligible and pass/fail clerkships; we sent individual emails to all eight and interviewed the five respondents. Table 1 shows participant demographics. Participants had experiences across all eight core clerkships, and we did not identify consistent thematic differences related to particular specialties aside from those noted in the “Supervisor reactions” and “Uncertain future” subthemes (below). Interviews lasted an average of 42 minutes (range: 22–59 minutes).

데이터에서 학생의 [임상실습 참여, 웰빙, 학습 맥락에 대한 인식]이라는 세 가지 주요 주제를 확인했습니다. 모든 참가자는 우등 학점을 받을 수 있는 다른 가능성에 대해 자주 생각한다고 답했으며, 우등 학점을 받은 경험이 없는 학생들도 자신의 경험을 설명할 때 직접 비교하는 언어를 자주 사용했습니다(예: "저는..."(7), "저는... 걱정하지 않습니다."(8)). 참가자 번호는 괄호 안에 표시되며, 우등생 자격을 갖춘 클럭십에 참여한 경험이 있는 학생은 별표(*)로 표시되어 있습니다.
We identified three major themes from the data: student engagement in clerkships, wellbeing, and recognition of the learning context. All participants reported thinking frequently about the alternative possibility of being graded in core clerkships, and even students without experience in honors-graded clerkships often used directly comparative language to describe their experiences (e.g. “I’m a lot more willing to…” (7), “I’m not as worried about…” (8)). Participant numbers are in parentheses; students with prior experiences in honors-eligible clerkships are indicated with an asterisk (*).

클럭십 참여
Engagement in clerkships

학생들은 성적 체계 변경으로 인해 [클럭십 학습에 대한 몰입도]가 높아졌다고 답했습니다. 이 주제에는 동기 부여, 주체성, 관계라는 하위 주제가 포함되어 있습니다.
Students reported that the grading change helped them feel highly engaged with their clerkship learning. This theme included subthemes of motivation, agency, and relationships.

동기 부여
Motivation

많은 학생들이 실습 기간 동안 동기의 주된 원천은 [좋은 의사가 되어 환자 치료와 의료팀에 기여하고 싶다는 열망]이라고 답했습니다. 학생들은 [우등 성적이 없는 상황]에서 ['배움을 위한' 학습에 대한 강한 동기]를 느꼈습니다(4, 13). 학생들은 이러한 동기를 유능한 임상의로 성장하고자 하는 열망 때문이라고 답했습니다: "내가 될 수 있는 최고의 의사가 되고 싶다는 생각은 ... 열심히 일하도록 동기를 부여합니다."(1).

Many students felt their primary sources of motivation during clerkships were their desire to learn and develop into a good doctor and contribute to patients’ care and the care team. Students felt strongly motivated in the absence of honors grades to learn “for the sake of learning” (4, 13). They attributed this drive to a desire to develop into a competent clinician: “wanting to be the best physician that I can be … motivates me to work hard” (1).

몇몇은 성적 체계 변경으로 인해 [시험 공부]에서 [환자 치료]로 우선순위가 바뀌었으며, 환자를 철저히 파악하고 팀에 기여하여 치료를 발전시키는 데 중점을 두게 되었다고 답했습니다. 한 학생은 합격/불합격 채점으로 인한 이러한 변화를 언급했습니다: "이것이 제가 여기 온 이유입니다. ... 이 복잡한 케이스에 대해 정말 깊이 생각하고 늦게까지 남아서 환자의 이야기를 배우기 위해서입니다."(11).
Several reported the grading change shifted their priorities from exam study toward patient care, with an emphasis on knowing patients thoroughly and contributing to the team in advancing care. One student noted this shift due to pass/fail grading: “this is why I'm here. … to really think really deeply about these complicated cases and stay late to learn about this patient's story” (11).

모든 학생은 성적 변경으로 인해 [상사에게 잘 보이기 위해 성과를 낼 필요성을 거의 느끼지 못한다]고 인식했습니다: "점수를 받지 못하면 누군가에게 잘 보이기 위해... 늦게까지 일하는 것이 아니라... 모든 일을 끝냈다는 만족감을 위해... 늦게까지 일하는 것 같다"(18*). 또한 대부분의 학생은 [성적을 위한 성과 압박이 학생의 동기 부여에 필요하다는 의견에 동의하지 않았습니다]. 한 학생은 이렇게 반박했습니다:
All students perceived that, due to the grading change, they felt little need to perform for the sake of impressing supervisors: “Without honors it becomes less of, are you staying late just … to impress someone, and more like … you’re staying late … for the satisfaction of making sure all your work is done” (18*). Further, most disagreed that the pressure to perform for a grade was necessary for student motivation. One student reflected:

"레지던트와 어텐딩에게 잘 보이려고 노력하는 대신 배움에 집중하기 때문에 훨씬 더 큰 기쁨을 느끼고 있습니다. ... 이러한 배움의 정신이 저를 좋은 성적을 받는 데 집중했을 때보다 더 나은 의대생으로 만들어주고 있습니다." (5*)
“I'm really finding a lot more joy because the focus is on my learning instead of me trying to impress my residents and attendings. … That spirit of learning is actually making me into a better med student than … if I were focused on getting a good grade.” (5*)

그러나 소수의 학생은 우등 성적을 받으려는 외적 동기는 느끼지 않았지만, [학습자가 계속 평가되고 관찰되기 때문에 성과에 대한 압박이 없는 것은 아니라]고 느꼈습니다.
However, a small number of students felt that, while they did not perceive an extrinsic motivation to earn an honors grade, performance pressure was not absent, as learners continue to be evaluated and observed.

전반적으로 [학습에 대한 열망]이 동기의 주요 원천이었지만, 학생들은 [임상 업무, 시험 공부, 개인적 웰빙 등 여러 가지 경쟁 동기] 사이에서 [절충점을 찾기 위해 일상적인 학습 결정]을 내리는 경우가 많았습니다. 소수의 학생들은 때때로 우등 성적이 있었다면 받아들였을 추가 과제를 맡지 않거나 임상 업무에서 노력을 다른 곳으로 옮겼다고 느꼈습니다. 한 학생은 "100%가 아닌 평균을 맞추는 것이 목표"라고 설명했습니다. "내 자신을 돌보는 데 시간을 보내고 싶었기 때문"입니다(10). 성적 변경을 통해 학생들은 [임상 책임]과 [개인 생활]이라는 [경쟁하는 욕구 사이에서 균형]을 잡을 수 있었고, 이를 통해 [전반적인 실습 참여와 웰빙을 촉진]할 수 있었습니다(아래 웰빙 테마 참조). 임상 업무에 대한 동기는 학생의 관심도에 따라 다소 차이가 있었습니다. 그럼에도 불구하고 많은 학생들이 "내가 이 일을 할 수 있는 것은 이번이 마지막이다"라고 생각하면서(17*) 자신이 원하지 않는 분야에서도 학습 동기를 느꼈습니다.
While the desire to learn was a major source of motivation overall, students frequently made day-to-day learning decisions that represented tradeoffs among multiple competing motivators, including clinical work, exam study, and personal wellbeing. A minority felt they occasionally shifted effort away from clinical work or chose not to assume extra tasks that they might have accepted had honors grades been present. One student described aiming to “meet average … not 100% … because I’d rather spend my time taking care of myself” (10). The grading change allowed students to balance the competing drives of clinical responsibility versus personal life, thereby facilitating overall clerkship engagement and wellbeing (see Wellbeing theme below). Some motivation toward clinical work varied by student interest in the clerkship. Even so, numerous students felt motivated to learn even in fields they did not intend to pursue, reasoning that “this is the last time I'll be able to do this” (17*).

주체성
Agency

성적 체계 변경을 통해 학생들은 [학습 우선순위에 대한 통제권]을 갖게 됨으로써, [학습에 대한 주체성]을 느낄 수 있었습니다(그림 1). 학생들은 [임상 시간의 우선순위를 정하는 방법]에는 차이가 있었지만, 환자 직접 접촉, 환자 프레젠테이션 또는 메모 작성, 의료 시스템 조사, 시험 공부, 일차 문헌 조사 등 [목표 역량을 선택함]으로써, [스스로 임상 기술을 개발할 수 있는 권한]을 부여받았다고 느꼈습니다. 한 학생은 "주어진 날에 무엇을 배우고 무엇을 해야 하는지 자유롭게 결정할 수 있었습니다."(11)라고 말합니다.
The grading change allowed students to feel agency in their learning by affording control over learning priorities (Figure 1). Students differed in how they prioritized their clinical time but felt empowered to develop their own clinical skills by choosing competencies to target: direct patient contact, patient presentations or writing notes, examining health systems, studying for the exam, or researching primary literature. Per one student, “I just felt very free to sort of decide in a given day what was important to me to learn about and what was important to me to do” (11).


학생들은 [학습을 주도할 수 있는 자유] 덕분에, [피드백을 구하고 비판적 성찰을 연습하고, 학습 위험을 감수하고, 감독자와 다른 의견을 제시]하는 등 [효과적인 학습 행동]을 활용할 수 있었습니다. 학생들은 [적극적으로 피드백을 구하고] [성장해야 할 부분에 대해 비판적으로 성찰함]으로써 [자신의 학습에 대한 책임감]을 갖게 되어 실습 기간 동안 피드백 빈도가 높은 것에 만족했습니다: "건설적인 피드백을 받아들이고 이를 개선에 활용하게 되어 기쁩니다."(16). 합격/불합격을 통해 많은 학생들이 질문을 하거나 새롭거나 도전적인 과제를 시도하는 등 [학습 위험을 감수해도 안전하다]고 느낄 수 있었습니다. 학생들은 지식 격차가 드러날까 봐 두려워하지 않고 "[자신이] 바보 같다고 생각하는 질문"(12*)을 할 수 있다고 느꼈으며, [유능해 보이고 낮은 평가를 피하기 위해 답을 몰래 찾아보거나 정교한 질문을 할 필요성을 느끼지 않았습니다]
Students’ freedom to direct their learning allowed them to utilize effective learning behaviors, such as seeking feedback and practicing critical reflection, taking learning risks, and voicing differing opinions with supervisors. Students were satisfied with the high frequency of feedback during clerkships, assuming responsibility for their learning by proactively seeking feedback and critically reflecting on areas for growth: “you take the constructive feedback and are excited to use it to improve” (16). Pass/fail allowed many students to feel safe taking learning risks such as asking questions or attempting new or challenging tasks. Students felt they could ask “questions that [they] thought … sounded dumb” (12*) without fear of revealing deleterious knowledge gaps, and they did not feel the need to look up answers furtively or ask elaborate questions to appear competent and avoid poor evaluations.

우등생들은 [우등 성적]이 [익숙하지 않은 과제를 처음 시도하는 것에 대해 평가받는 모순]을 야기한다고 인식한 반면, 몇몇 학생들은 [합격/불합격이 실수와 성장의 여지를 허용한다]고 언급했습니다: "저는 학습자로서의 역할을 받아들였습니다... 처음 무언가를 할 때 완벽하거나 대단해야 한다고 생각하지 않습니다... 그리고 그런 여유가 제 성과에도 도움이 됩니다."(7). 학생들은 [결점이 드러나는 것에 대해 거의 걱정하지 않고] [진심 어린 질문]을 하고, [부족한 기술을 개선할 기회를 모색]했습니다. 마지막으로, 학생들은 평가가 나빠지는 등의 [보복에 대한 두려움 없이 상사에게 반대 의견(예: 사소한 공격에 대한 형평성 옹호)]을 말할 수 있게 되었습니다.
Whereas students perceived that honors grades created a catch-22 in which students were evaluated on attempting unfamiliar tasks for the first time, several noted that pass/fail allowed room for mistakes and growth: “I’ve embraced my role as a learner … I don't feel like I have to be perfect or amazing the first time I do stuff … and then that relaxation also kind of helps my performance” (7). With little concern over revealing faults, students asked genuine questions and sought opportunities to improve weak skills. Finally, students felt able to voice disagreeing opinions with supervisors—for instance, advocating for equity after a microaggression—without fearing retaliation in the form of a poor evaluation.

관계
Relationships

우등 채점을 없애자 동료와의 [협력 관계] 및 상사와의 [동료 관계]가 촉진되었습니다. 많은 사람들이 우등 성적이 '미묘한 경쟁' 환경(15*)으로 이어진다고 인식했으며, 제한된 수의 우등 성적을 얻기 위한 경쟁으로 인해 [동료 간 협력이 방해]받고 있다고 답했습니다. 대부분의 학생들은 합격/불합격이 지원, 경험, 학습 전략의 공유를 촉진하여 이러한 경쟁을 최소화한다고 생각했습니다. 한 학생은 "우등생 이후를 제외하고 나머지 의대 3학년 내내 친구를 사귄 적이 없는 것 같다"(12*)고 말했습니다. 소수의 학생은 경쟁을 거의 느끼지 못했지만 또래와의 비교는 여전히 남아 있다고 느꼈습니다:
Eliminating honors grading facilitated collaborative relationships with peers and collegial relationships with supervisors. Many perceived honors grading as leading to a “subtly competitive” environment (15*), with peer collaboration hindered by perceived competition for a limited number of honors grades. Most felt that pass/fail minimized this competition by facilitating shared support, experiences, and study strategies. Per one student, “I don't think I made friends throughout the rest of med school third year except for post-honors” (12*). A minority felt that, despite sensing little competition, some comparison with peers remained:

"그들과 자신을 비교하지 않는 것은 여전히 어려울 수 있지만... 그런 생각은 최소화하고...[성적보다는] '내가 배워야 할 것을 배우고 있는가? 내가 해야 할 일을 제대로 하고 있는가?" (11)
“It can still be hard to not compare yourself against them … but that's minimized and …[is] less about the grade but more about ‘Am I learning what I should learn? Am I doing this as well as I should be?’” (11)

우등 성적 없이 [레지던트 및 어텐딩과의 편안함을 높임]으로써 [학습이 촉진되고 학생들이 진정한 팀원처럼 느낄 수 있었습니다]. 한 학생은 이러한 [수퍼바이저와의 관계가 위계적으로 느껴지지 않는다]고 언급했습니다."그 사람은 단독 평가자라기보다는 동료의 측면이 더 강하다"(16). 학생들은 호감을 얻기 위해 위선적이 되거나 자신의 전문성을 허위로 표현할 필요가 거의 없다고 느꼈습니다.

Increased comfort with residents and attendings without honors grades facilitated learning and allowed students to feel like true team members. One student noted that relationships with these supervisors did not feel hierarchical: “the person [is] less like a sole evaluator … there’s more of a colleague aspect to it” (16). Students felt there was little need to be sycophantic or misrepresent their intended specialty in order to be liked.

웰빙
Wellbeing

학생들은 합격/불합격 성적에 긍정적인 영향을 미친다고 답했으며, 면접관의 질문 없이도 이 주제를 언급하는 경우가 많았습니다. 학생들은 [낮은 스트레스, 팀원과의 진정성, 신체 건강을 우선시하는 능력, 개인 생활과 임상 업무의 균형] 등 다양한 차원의 [웰빙]에 대해 긍정적으로 평가했습니다(표 2).
Students widely attributed a positive sense of wellbeing to pass/fail grading, often citing this topic without interviewer prompting. Students spoke positively on multiple dimensions of wellbeing, including low stress, sense of authenticity with team members, ability to prioritize physical health, and balance of personal life with clinical duties (Table 2).

맥락에 대한 인식: 현재와 미래
Recognition of context: current and future

학생들은 자신의 학습이 [더 큰 맥락에 놓여 있다는 것]을 인식했습니다. 이 주제에는 학습 환경의 내재적 가변성, 성적 변경에 대한 감독자의 반응, 성적 변경의 향후 영향에 대한 우려라는 하위 주제가 포함되었습니다.
Students recognized that their learning was situated in a larger context. This theme included subthemes of inherent variability of the learning environment, supervisor reactions to the grading change, and concerns regarding the future implications of the grading change.

내재적 가변성
Inherent variability

학생들은 채점 변경으로 인해 [공정성에 대한 두려움이 완화되었다]고 느끼는 등 [핵심 임상실습 경험에 내재된 가변성]이 분명하게 드러났습니다. 많은 학생들이 서클러십을 시작하면서 현장, 감독자, 팀, 경험에 따라 "나는 이 사람, 그들은 저 사람, 우리는 완전히 다른 두 가지 경험을 했다"(7)는 사실을 알게 되었습니다. 학생들은 평가가 주관적이며, 실제 능력보다는 특정 상황에서 "[학생들이] 얼마나 잘 적응했는지, 얼마나 호감을 받았는지"를 반영한다고 지적했습니다(12*). 합격/불합격은 "과정을 정상화"(6)하여 이러한 [변수가 점수 차이로 나타나지 않도록 방지]했습니다.
Variability inherent to core clerkship experiences was clear to students, who felt the grading change alleviated fears relating to fairness. Many discovered upon starting clerkships that sites, supervisors, teams, and experiences differed widely: “I got this person, they got that person, we have two totally different experiences” (7). Students noted that evaluations were subjective and reflected “how well [students] fit in or how liked they were” in a particular context rather than true ability (12*). Pass/fail “normalized the process” (6), preventing this variability from manifesting as differential grading.

몇몇 학생은 [인종, 성 정체성, 성적 지향 또는 사회경제적 지위]와 관련된 [우등 성적의 형평성 문제]로 인해 합격/불합격을 지지했습니다. 학생들은 "성별이나 인종 문제로 인해 불공정한 성적을 받지 않아도 된다는 사실에 안도감을 느꼈습니다."(5*). 몇몇 학생은 성적 변경을 모든 학생에게 ['공평한 경쟁의 장']을 만들어 성적 불평등을 해결해야 하는 교육기관의 책임으로 인식했습니다(8).
Several students supported pass/fail due to equity concerns – surrounding race, gender identity, sexual orientation, or socioeconomic status – of honors grading. Students felt “some relief, knowing that we don’t have to [be] unfairly graded [due to] issues of gender or … race” (5*). Several students perceived the grading change as an institutional responsibility to address grading inequities by creating an “equal playing field” for all students (8).

감독자의 반응
Supervisor reactions

더 나은 학습 환경의 한 측면으로서, 학생들은 성적 변경에 대한 전공의들의 반응, 특히 [웰빙에 대해 대체로 긍정적인 반응과 공감]을 인식했습니다. 학생들은 성적이 부족했던 경험을 아쉬워하는 레지던트들의 말을 들었습니다: "너희들은 정말 운이 좋아서 이런... 일이 머리 위에 걸려 있지 않아서... 내가 겪을 때 그런 일이 있었으면 좋겠다."(3)학생들은 레지던트들이 의대생들의 스트레스 감소, 협동심 향상, 성과에 대한 욕구 감소, 채점의 주관성에 대한 해결책에 대해 칭찬하는 것을 듣고 기뻐했습니다. 한 학생이 "제가 도울 수 있는 다른 방법이 없나요?"라고 묻자 레지던트는 "아니요, 제 승인을 받기 위해 해야 하는 노래와 춤을 모두 멈추면 됩니다. ... 가식은 사라졌습니다. 당신은 ... 호의를 구할 필요가 없습니다."(2). 일부 학생들은 프로시져 분야의 [일부 레지던트들이 성적을 통해 우수한 학생에게 보상할 수 없는 것에 대해 아쉬움]을 표했다고 보고했습니다.
As one facet of their greater learning environment, students perceived generally positive reactions and empathy from residents about the grading change, particularly surrounding wellbeing. Students heard residents wishing they had experienced a lack of grades: “you guys are so lucky you don’t have this … thing hanging over your head … I wish I had that when I was going through” (3). Students were pleased to hear residents praise medical students’ decreased stress, greater cooperation, and decreased need to perform as well as a solution to the subjectivity of grading. When one student asked whether there was “anything else I can do to help,” the resident responded, “no, you can stop the whole song and dance that you need to do to get approval from me. … the pretense is gone. You don't need … to curry favor” (2). A few students reported that some residents from procedural fields expressed regret regarding the inability to reward excellent students through grades.

학생들은 [성적 체계 변경에 대한 주치의들의 반응이 엇갈렸다]고 보고했습니다. [긍정적인 의견]에는 교수진 스스로 이 시스템을 원한다는 내용은 없었지만, 학생들 간의 경쟁이 줄어들고 자유롭게 학습할 수 있다는 점이 언급되었습니다. 한 학생은 학생들이 여전히 학습 의욕이 높다는 사실에 놀라움을 표시하기도 했습니다: "성적에 연연하지 않고 더 나아지고자 하는 진정한 열망에 놀랐어요."(12*). 일부 참석자들은 [부정적인 반응]을 보인 것으로 알려졌습니다. 주로 학생들을 비교하고, 해당 분야에 가장 [관심이 많은 학생을 식별하거나, 우수자에게 보상하는 방법에 대한 불확실성]을 언급하였다. 학생들은 일부 주치의가 변화에 저항하거나 이해 부족을 보인 것에 대해 실망감을 표했으며, 이러한 주치의는 채점 체계 변경이 [이전 세대에 비해 노력 감소를 유발할 수 있다]고 말했습니다. 한 학생은 어텐딩들이 "매우 어려운 일을 겪었다는 것에 자부심이 있을 수 있고, 의과대학은 매우 어렵습니다... 우등생 제도로 인해 더 어려워진 것 같고, 따라서 그 모든 고통에서 조금 더 멀리 떨어져 있는 사람들은 자부심을 가지고 있다고 생각합니다."(4) 라고 설명했습니다. 학생들은 일반적으로 감독자의 행동(예: 교육, 피드백 제공)이 성적 변화에 큰 영향을 미쳤다고 생각하지 않았지만, 학생들은 일부 주치의는 [임상 학습에 대한 기대치가 낮은 것 같다]고 말하며 좌절감을 드러냈습니다: "어차피 합격/불합격이야. 너무 걱정할 필요는 없어."(13).

Students reported mixed reactions from attendings regarding the grading change. Positive comments did not include faculty’s wish for this system for themselves but did address the lack of competition among students and their ability to learn freely. One student noted some attendings’ astonishment that students were still highly motivated to learn: “They were just sort of surprised by the genuine desire to get better without a grade hanging over our head” (12*). Some attendings reportedly reacted negatively, citing uncertainty about how to compare students, identify students most interested in the field, or reward excellence. Students shared some disappointment that certain attendings resisted change or showed lack of understanding, as these attendings voiced that the grading change may prompt decreased effort compared with prior generations. One student explained that attendings may “see there's pride in going through something very difficult, and medical school is very difficult… I think it's made more difficult by an honors system and therefore, those that are a little bit further removed from the pain of it all, have pride in that” (4). While students generally did not attribute significant changes in supervisor behaviors (i.e. teaching, giving feedback) to the grading change, some students were frustrated when attendings seemed to voice low expectations for clinical learning, stating: “you're pass/fail. You don't have to worry about this too much” (13).

불확실한 미래
Uncertain future

성적 변경은 학생들의 [미래에 대한 우려]를 불러일으켰습니다. 레지던트 지원 시 [다른 지원자들과의 차별화]에 대한 질문이 제기되었습니다: "다른 지원자들이 지원서에 우등생이 많은 경우, [합격/불합격 학생]이 해당 전문 분야에서 눈에 띄는 것이 더 어려울 수 있습니다."(15*). 학생들은 [레지던트 위원회에서 합격/불합격 학생을 무시할 것인지]에 대해 의문을 제기했습니다. 이러한 우려는 [수술 관련 전문과목]에 관심이 있는 학생들 사이에서 더 두드러졌습니다. 많은 학생이 레지던트 지원에서 [임상실습 평가의 중요성에 대한 혼란]을 언급하거나 일부 [최종 서술형 임상실습 평가가 "개인적인 것이 없고" "비슷한 것을 찍어내는 것"처럼 느껴진다]고 한탄했습니다(17명*). 일부는 성적 변경이 [스텝 시험이나 서브 인턴십에 대한 스트레스를 "제거하기는커녕... 대체"하는 것이 아닌지 의문]을 제기했습니다(18*). 이러한 우려에도 불구하고 학생들은 전반적으로 성적 전환이 긍정적인 변화이며, 특히 웰빙과 관련하여 "여전히 단점보다 장점이 크다"(14)고 생각하는 것으로 나타났습니다.
The grading change prompted concern for students about their future. Questions about differentiating among peers for the purpose of residency applications arose: “Where other applicants have a lot of honors on their applications, it might be more difficult for [pass/fail students] to stand out in that specialty” (15*). Students questioned whether pass/fail students would be disregarded by residency committees. Concerns were more marked among students interested in procedural specialties. Many cited confusion regarding the importance of clerkship evaluations in residency applications or lamented that some final narrative clerkships evaluations felt “impersonal” and “cookie-cutter” (17*). Some wondered whether the grading change was “displacing … rather than removing” stress onto Step exams or sub-internships (18*). Despite these concerns, students largely felt that, overall, the grading transition represents a positive change and, particularly surrounding wellbeing, “the benefits still outweigh the cons” (14).

토론
Discussion

우리는 핵심 클럭십 기간 동안 학생의 [동기 부여와 클럭십 학습 경험]에 대한 [형성적 피드백에 중점을 두고 단계별 채점에서 합격/불합격 채점으로의 전환이 미치는 영향]을 조사했습니다. 평가 및 채점 방식 변경을 통해 학생들은 여러 측면의 웰빙을 촉진함으로써 [내재적 동기]를 느끼고 [임상 학습에 몰입]할 수 있었습니다. 이 개입에는 합격/불합격 채점 변경과 형성 피드백 강화가 모두 포함되었지만, 학생들은 [강화된 피드백]을 더 큰 평가 변화의 한 요소로 인식했으며, 대체로 긍정적인 의견은 두 가지 변화의 시너지 효과를 반영하는 것이었습니다. 학습 상황에 대한 학생들의 우려는 학습과 레지던트 선발 목표를 모두 충족하는 평가의 긴장을 강조합니다. 연구 결과에 따르면 핵심과목의 합격/불합격 채점이 학습을 촉진하는 긍정적인 학습 환경을 조성할 수 있다는 사실이 입증되었습니다.
We investigated the effects of a transition from tiered to pass/fail grading with greater emphasis on formative feedback on student motivation and clerkship learning experiences during core clerkships. The assessment and grading change allowed students to feel intrinsically motivated and engaged in clinical learning, in part by facilitating multiple aspects of wellbeing. While the intervention comprised both a change to pass/fail grading and increased formative feedback, students perceived the enhanced feedback as one element of the larger assessment change, and their generally positive opinions reflected a synergistic combination of both changes. Students’ concerns about their learning context highlight the tensions of assessment serving both learning and residency selection goals. Our findings demonstrated that pass/fail grading in core clerkships may create a positive learning environment that promotes learning.

설문조사 참가자들은 자신의 동기가 [슈퍼바이저에게 잘 보이려는 노력]보다는, [임상적으로 발전하고 환자와 팀에 기여하려는 열망]에서 비롯된 것이라고 설명했습니다. 이 결과는 다른 기관의 이전 경험과 일치하며, 형성적 피드백을 강조하는 임상실습 커리큘럼 재설계가 학생들에게 긍정적인 반응을 얻었으며, 학생들도 마찬가지로 임상실습 성공에 대한 생각을 [감독자에게 깊은 인상을 주는 것]에서 [학습과 환자 치료]로 전환했습니다.52 학생들은 [학습 가치를 지닌 활동에 집중]하는 방법을 선택하는 것이 중요하다고 강조하며, 이러한 [통제를 통해 학습을 향상시킬 수 있다]고 답했습니다. 자기 결정 이론은 학습의 측면에 대한 통제력이 학생들의 호기심과 주도성을 가능하게 한다는 해석을 뒷받침합니다.22,53 학생들이 [우등 성적을 위태롭게 하지 않고도, 편안하게 느끼는 건설적인 피드백을 받아들이고, 개선을 시도하는 능력]은 총괄 평가에 중점을 두지 않는 [이상적인 학습 환경의 특징]을 나타냅니다.47 학습 문화에 대한 한 선행 연구에서와 같이 학생들은 건설적인 피드백이 높은 수준의 평가와 분리될 때 유용하다고 생각했지만54 일부는 [Grade가 없는 것으로 인해 동료들 사이에서 자신을 구별하는 능력이 제한되는지 의문]을 표시했습니다. [집중의 우선순위]를 정하거나, [코칭을 구하는 것]에 대한 참가자들의 의사결정은 학습을 [효과적으로 자기 주도하고 자기 조절할 수 있는 적응형 학습자]의 행동을 특징짓는 요소입니다.55,56 추가 연구를 통해 이러한 행동이 향후 실무에 어떻게 적용될 수 있는지 살펴볼 수 있습니다.
Our participants described their motivation as stemming from their desire to improve clinically and contribute to patients and teams more than from trying to impress supervisors. This finding is consistent with previous experiences at another institution, which demonstrated that a clerkship year curriculum redesign emphasizing formative feedback was met positively by students, who similarly shifted their ideas of clerkship success away from impressing supervisors toward learning and patient care.52 Students highlighted the importance of choosing how they focused on activities that they perceived had learning value, using this control to enhance learning. Self-determination theory supports our students’ interpretation that controllability over aspects of their learning enabled their curiosity and initiative.22,53 The ability to welcome constructive feedback and attempt to improve, as our students felt comfortable doing without potentially jeopardizing an honors grade, signifies a feature of an ideal learning environment not likely with emphasis on summative assessment.47 As in one prior study of learning cultures, students found constructive feedback useful when separated from high-stakes assessment,54 but some questioned whether a lack of grades limited their ability to distinguish themselves among peers. Our participants’ decision-making about where to prioritize their focus or seek coaching characterize behaviors of the master adaptive learner, who is able to effectively self-direct and self-regulate learning.55,56 Further study could explore how they might carry these behaviors into their future practice.

[긍정적인 행복감]은 학생들 전반에 걸쳐 뚜렷하고 일관된 결과였습니다. 이 결과의 규모에 놀랐지만, [웰빙을 증진하는 내재적 동기의 알려진 효과]와 일치합니다.22 웰빙의 구성 요소는 아래와 같은 의사 웰빙의 여러 영역에 걸쳐 있습니다.57

  • 불안과 스트레스 감소(정신적 웰빙),
  • 임상 상호작용에서의 진정성(사회적 웰빙의 구성 요소),
  • 신체 건강을 우선시하는 능력(신체적 웰빙),
  • 개인 생활과 임상 업무의 균형(통합적 웰빙) 

이러한 요소는 학생들이 의료 교육을 통해 경험하는 수많은 개인 수준 및 시스템 수준의 스트레스 요인을 반영합니다.58 이러한 스트레스 요인을 해결하지 않을 경우, 임상실습 연도에 두드러지게 나타나는 이러한 스트레스 요인은 학생들을 우울증에 걸릴 위험이 높습니다.59,60 합격/불합격 채점 하에서 학생들은 자기 관리의 우선순위를 정할 수 있는 권한을 부여받아 회복력을 강화하고 소진 위험을 줄일 수 있다고 느꼈습니다.61,62 또한 학습을 주도하는 학생의 자율성은 웰빙을 더욱 지원하는 것으로 알려져 있습니다.63 따라서 [임상실습 성적 체계의 변경]은 [의과대학에서 스트레스의 여러 근본 원인을 해결하는 데 필요한 통합 교과 과정 노력]의 한 요소로 구성될 수 있습니다.64
A positive sense of wellbeing was a marked and consistent result across students. While we were surprised by the magnitude of this finding, it is consistent with known effects of intrinsic motivation in promoting wellbeing.22 Components of wellbeing spanned multiple recognized domains of physician wellness:

  • decreased anxiety and stress (mental wellbeing),
  • sense of authenticity in clinical interactions (a component of social wellbeing), and
  • increased abilities to prioritize physical health (physical wellbeing) and
  • balance personal life with clinical work (integrated wellbeing).57 

These components mirror the numerous individual-level and systems-level stressors that students experience through medical training.58 If unaddressed, these stressors – which manifest prominently in the clerkship year – place students at high risk for depression.59,60 Under pass/fail grading, students felt empowered to prioritize self-care, which can strengthen resiliency and decrease risk of burnout.61,62 In addition, students’ sense of autonomy to drive their learning is known to further support wellbeing.63 A change in clerkship grading can thus constitute one element of the integrated curricular effort necessary to address the multiple root causes of stress in medical school.64

학생들이 평가 및 채점에 대한 변화된 접근 방식에 대해 [임상 수퍼바이저로부터 들은 메시지]는 [학습을 위한 평가]와 [학습에 대한 평가] 사이의 알려진 긴장을 반영합니다.65

  • [레지던트들]이 성적을 없애고 피드백에 더 집중하는 것에 대해 [지지를 표명했다는 결과]는 학습자이자 수퍼바이저로서 레지던트의 [이중적 역할]을 보여줍니다. 레지던트를 대상으로 한 이전 연구와 일관되게, 성적 부여가 없는 경우에도 [성과에 대한 압박감은 줄어들기는 했지만 어느 정도 존재했습니다].66 이러한 관찰은 레지던트 연도의 학습 경험이 상급자에 대한 인상을 관리하는 능력과 밀접하게 연관되어 있다는 연구 결과와도 일치합니다.67
  • 레지던트들과는 대조적으로, 학생들은 [교수진이 평가에 관한 오랜 뿌리 깊은 신념을 반영하는 듯한 우려]를 표명하는 것을 들었습니다.54 이러한 의견은 높은 위험, 성과 및 완벽의 이미지를 중시하는 의학계의 뿌리 깊은 문화적 전통을 반영합니다.38

Messages that students heard from clinical supervisors about the changed approach to assessment and grading reflected known tensions between assessment for learning and assessment of learning.65 

  • Our finding that residents expressed support of the elimination of grades and enhanced focus on feedback showcases residents’ dual roles as learners and supervisors. Consistent with a prior study of residents, some pressure to perform, while reduced, existed even in the absence of grade assignments.66 This observation aligns with a study showing that students’ learning experiences in the clerkship year are closely tied to their ability to manage impressions made upon their supervisors.67 
  • In contrast to their residents, students heard faculty express concerns that seem to reflect longstanding, deep-seated beliefs regarding assessment.54 These comments reflect ingrained cultural traditions in medicine valuing high stakes, performance, and the image of perfection.38

학생들은 주치의가 [총괄 평가에 덜 중점을 두면 우수성이 평가 절하될 것을 우려]하는 것을 들었지만, 우수성이 어떻게 손상되는지에 대한 [구체적인 사례는 없었습니다]. 실제로 한 교육기관에서 [고부담 임상실습 시험을 없애도 2단계 CK 면허 시험의 평균 학생 성적에는 영향을 미치지 않았습니다].68 여러 직종의 학습 문화에 대한 연구에 따르면 [형성적 피드백이 풍부한 문화]가 [우수성을 더 잘 촉진]하는 것으로 나타났습니다.69,70 피드백과 개선을 촉진하는 학습 평가와 진급 및 선발을 위한 성과 정보 사용의 경쟁적 긴장 사이에서 균형을 찾는 것은 의학교육 커뮤니티의 과제로 남아 있습니다.38,65 이 성적 변경이 하위 인턴십 학습과 레지던트 배치에 미치는 영향을 더 명확히 밝혀내면 교육자들은 이 균형을 더 잘 조정할 수 있을 것입니다.
 Although students heard attendings fear devaluation of excellence with less emphasis on summative assessment, there were not specific examples of how excellence would be compromised. In fact, removal of high-stakes clerkship exams at one institution did not affect average student performance on the Step 2 CK licensing examination.68 Study of learning cultures across professions suggests that a culture replete with formative feedback better promotes excellence.69,70 Seeking balance between competing tensions of assessment for learning, which fosters feedback and improvement, alongside the use of performance information for advancement and selection remains a challenge for the medical education community.38,65 Further elucidating the effects of this grading change on sub-internship learning and residency placement – two areas of widespread concern for students – will allow educators to better calibrate this balance.

이 연구에는 한계가 있습니다. 데이터는 등급 체계가 전환되는 [과도기 동안 단일 기관]에서 수집한 것이므로 결과의 이전 가능성을 제한할 수 있습니다. 참가자 중 소수만이 우등 성적의 핵심 서기직을 경험한 적이 있었지만, 이러한 경험이 없는 학생들은 모두 성적 시스템 간의 유사점과 차이점에 대해 자발적으로 이야기했습니다. 많은 참가자들은 하나의 모집 이메일에 응답한 [편의 표본]으로 선정되었습니다. 이번 조사 결과는 학생들의 경험을 종합적으로 검토한 것이 아니라 의대생들의 초기 주제에 대한 탐색을 제시하지만,46 이후 응답자 또는 [모집 이메일에 응답하지 않은 학생]들은 평가 변화에 대해 덜 호의적인 인식을 포함하여 다른 인식을 갖고 있을 가능성이 있습니다. 연구 참여자의 인종 및 관심 전문과목 인구통계학적 특성은 더 큰 규모의 의과대학 학생 집단과 비교하기 어려웠지만, [인구통계학적 특성에 따른 학생들의 서술은 미미한 차이]를 보였습니다(유일하게 주목할 만한 차이점은 절차적 전문과목에 관심이 있는 학생들 사이에서 레지던트 선택과 관련하여 잠재적으로 더 큰 우려를 나타냈다는 점입니다). 이 연구는 평가 시스템의 변화를 평가한 것이므로 성적 변경과 피드백 변경의 효과를 완전히 파악할 수는 없었습니다. 마지막으로, 이 연구는 시험 점수나 레지던트 배치와 같은 결과 측정보다는 학생의 인식에 초점을 맞추었습니다. 이 연구의 강점으로는 신뢰성을 높이기 위한 심층 인터뷰와 구성원 확인, 반성적 사고에 대한 관심, 독자가 다른 상황으로의 전이 가능성을 평가할 수 있도록 맥락, 응답 및 주제에 대한 자세한 설명이 있습니다.71
This study has limitations. Data were from a single institution during a transitional period between grading systems, potentially limiting transferability of results. Only a minority of participants had experience in honors-graded core clerkships, though students without this experience all spontaneously spoke about perceived similarities and differences between grading systems. Many participants were a convenience sample of volunteers who responded to a single recruitment email. While our findings present an initial exploration of themes from medical students rather than a comprehensive review of student experiences,46 it is possible that later responders or students who did not respond to our recruitment email may hold different – including less favorable – perceptions of the assessment change. While the racial and specialty-of-interest demographics of our study participants were difficult to compare with those of the larger medical school class, we noted minimal differences in students’ narratives based on their demographics (the only notable difference being potentially greater concerns surrounding residency selection among students interested in procedural specialties). This study evaluated a change to the assessment system and as such effects of the grading change and feedback change could not be fully disentangled. Finally, this study focused on student perceptions rather than outcome measures, such as exam scores or residency placement. Strengths of the study include in-depth interviews and member checking to enhance credibility, attention to reflexivity, and detailed descriptions of the context, responses, and themes to enable readers to assess transferability to other contexts.71

우리의 연구는 핵심 임상술기에서 형성적 피드백을 강화한 합격/불합격 채점이 어떻게 학생의 임상술기 및 환자 치료에 대한 참여를 촉진할 수 있는지를 보여주었습니다. 학생들은 내재적 동기를 크게 느꼈으며 웰빙에 대한 채점 변경의 이점을 인지했습니다. 3년차 서클럭십 이후 핵심 서클럭십 채점이 학생 성과에 미치는 영향을 이해하려면 추가 연구가 필요합니다. 이번 연구 결과는 학부 의료기관이 학생의 학습 경험을 최적화하기 위해 어떤 방식으로 서클럭십 평가를 시행할지 결정하는 데 도움이 될 수 있습니다.
Our study illustrated how pass/fail grading with increased formative feedback in core clerkships can facilitate students’ engagement in clerkships and patient care. Students felt significant intrinsic motivation and perceived benefits of the grading change for wellbeing. Further study is needed to understand the effects of core clerkship grading on student performance following third-year clerkships. Our findings can inform how undergraduate medical institutions choose to implement clerkship assessment in order to optimize student learning experiences.

htlm_a_1847654_sm2409.pdf
0.29MB


Teach Learn Med. 2021 Jun-Jul;33(3):314-325. doi: 10.1080/10401334.2020.1847654. Epub 2020 Nov 24.

From Grading to Assessment for Learning: A Qualitative Study of Student Perceptions Surrounding Elimination of Core Clerkship Grades and Enhanced Formative Feedback

Affiliations collapse

1Internal Medicine, NewYork-Presbyterian Hospital, Columbia University Irving Medical Center, New York, New York, USA.

2University of California, San Francisco School of Medicine, San Francisco, California, USA.

3Department of Medicine, University of California, San Francisco, California, USA.

PMID: 33228392

DOI: 10.1080/10401334.2020.1847654

Abstract

Problem: Medical students perceive honors grading during core clerkships as unfair and inequitable, and negatively impacting their learning and wellbeing. Eliminating honors grading, a powerful extrinsic motivator, and emphasizing formative feedback may address these problems and promote intrinsic motivation and learning. However, it is unknown how transitioning from honors to pass/fail grading with enhanced formative feedback in the core clerkship year may affect student learning experiences, wellbeing, and perceptions of the learning environment. Intervention: Core clerkship grading was transitioned from honors/pass/fail to pass/fail at one US medical school. In addition, the requirement for students to obtain formative supervisor feedback was formalized to twice per week. Context: This qualitative study utilized semi-structured interviews to explore the perceptions among core clerkship students of learning and assessment. Interview questions addressed motivation, wellbeing, learning behaviors, team dynamics, feedback, and student and supervisor attitudes regarding assessment changes. The authors analyzed data inductively using thematic analysis informed by sensitizing concepts related to theories of motivation (goal orientation theory and self-determination theory). Impact: Eighteen students participated, including five with experience in both honors-eligible and pass/fail clerkships. The authors identified three major themes in students' descriptions of the change in approach to assessment: student engagement in clerkships, wellbeing, and recognition of learning context. Student engagement subthemes included intrinsic motivation for patient care rather than performing; sense of agency over learning, including ability to set learning priorities, seek and receive feedback, take learning risks, and disagree with supervisors, and collaborative relationships with peers and team members. Positive wellbeing was characterized by low stress, sense of authenticity with team members, prioritized physical health, and attention to personal life. Learning context subthemes included recognition of variability of clerkship contexts with pass/fail grading mitigating fairness and equity concerns, support of the grading change from residents and some attendings, and implications surrounding future stress and residency selection. Lessons Learned: Students perceive a transition from honors grading to pass/fail with increased feedback as supporting their engagement in learning, intrinsic motivation, and wellbeing. Drivers of wellbeing appear to include students' feelings of control, achieved through the ability to seek learning opportunities, teaching, and constructive feedback without the perceived need to focus on impressing others. Ongoing evaluation of the consequences of this shift in assessment is needed.

Keywords: Assessment; core clerkships; feedback; grading; motivation.

 

임상실습의 수월성: 재능 분류하기가 아닌 재능 개발하기 (Perspect Med Educ, 2021)
Excellence in medical training: developing talent—not sorting it
Gurpreet Dhaliwal · Karen E. Hauer

 

의과대학에서 성적 및 상에 대한 접근 방식을 변경함에 따라(특히, 임상실습[1, 2]과 우등 학회 선출[3]에서 우등 성적을 재검토하거나 없애는 등) 교수진이 우려를 제기하고 있습니다: 우수성을 어떻게 인정하고 보상할 것인가? 그리고 우리는 우수성을 중요하게 생각하지 않나요? 미국 의사 면허 시험 1단계 결과의 합격/불합격 보고로 변경하기로 한 결정은 이러한 우려를 더욱 부각시켰습니다[4]. 
As medical schools have changed approaches to grading and awards (most notably, reconsidering or eliminating honors grades in clerkships [1, 2] and election to honor societies [3]), faculty have raised concerns: How will we recognize and reward excellence? And don’t we care about excellence? The decision to change to pass/fail reporting of United States Medical Licensing Examination Step 1 results has further accentuated this concern [4].

학부 의학교육의 우수성은 오랫동안 [높은 학점, 최고 시험 점수, 아너 소사이어티 회원, 출판 기록]으로 정의되어 왔습니다. 동료와의 관계에서 더 많은 영예는 학교와 레지던트 프로그램에 신호와 분류 메커니즘을 제공했습니다. 우수성에 대한 이러한관점은 여러 세대의 의사들에게 익숙하지만, 학생들이 마땅히 누려야 할 교육적 경험이나 환자에게 필요한 치료와는 맞지 않습니다. 우리는 학습자 수월성에 대한 수정된 개념화를 제안하며, 재능을 분류하는 것이 아니라 재능을 개발하는 기술을 가진 강사가 주도하는 새로운 교사 수월성 모델이 필요합니다. 
Excellence in undergraduate medical education has long been defined by high grades, top test scores, honor society memberships, and publication records. More accolades in relationship to peers has provided a signaling and sorting mechanism for schools and residency programs. This view of excellence is familiar to generations of physicians but is out of sync with the educational experience students deserve and the care that patients need. We propose a revised conceptualization of learner excellence that requires a new model of teacher excellence driven by instructors whose skill is developing talent not sorting it.

"보면 알 수 있다"
“I know it when I see it”

교수자는 대화, 평가 및 추천서를 통해 학생의 성과를 전달합니다. 가장 유용한 내러티브는 직접 관찰한 기술을 예시와 함께 설명하여 독자가 역량의 차원을 인식할 수 있도록 하는 것입니다. 그러나 많은 커뮤니케이션은 세부 사항은 짧고 "내 경력에서 상위 10%" 또는 "역대 최고"와 같은 모호한 칭찬과 요약으로 이루어져 있으며, 이는 우수성을 분류하는 게슈탈트 접근 방식 또는 "보면 알 수 있다"는 표준을 반영합니다. 
Faculty convey students’ performance through conversations, evaluations, and letters of recommendation. The most useful narratives describe directly observed skills with examples allowing readers to recognize dimensions of competence. However, many communications are short on details yet feature vague statements of praise and summations such as “top 10% in my career” or “best ever” that reflect a gestalt approach to classifying excellence or an “I know it when I see it” standard.

학생의 업무 특성을 파악하는 이러한 패턴 인식 접근 방식은 질병을 진단하는 패턴 인식과 유사합니다. 신뢰할 수 있는 패턴 인식을 위한 전제 조건에는 임상 상황에 자주 노출되는 것, 진단 결정에 대한 정기적인 피드백, 질병에 대한 지식에 대한 지속적인 업데이트(임상 추론 용어로 "질병 스크립트")가 포함됩니다[5]. 학생을 자주 직접 관찰하지 않고, 학생의 향후 성과에 대한 피드백 없이, [낡은 역량 '각본']으로 학습자를 평가하면 패턴 인식의 타당성을 잃게 됩니다. 
This pattern recognition approach to characterizing student work parallels pattern recognition in diagnosing illness. Preconditions to trustworthy pattern recognition include frequent exposure to the clinical situation, regular feedback on diagnostic decisions, and continual updates to knowledge about the disease (“illness script” in clinical reasoning parlance) [5]. When learner assessments are made without frequent direct observations of students, without feedback about students’ future performance, and with an outdated “script” of competencies, pattern recognition loses validity.

[전통적 각본]은 최신 역량 프레임워크에서 포착하는 [다차원적 기술] 대신 [단일 차원(일반적으로 인지적 또는 기술적 능력)]에 따라 우수성을 구성하는 경우가 많습니다. 또한 "한 번 보면 안다"는 식의 접근 방식은 교수진이 보고 싶은 것만 보도록 유도하고 그 과정에서 편견을 불러일으킬 수 있습니다.
The traditional script frequently frames excellence along a single dimension (typically, cognitive or technical ability) instead of the multidimensional skills captured in modern competency frameworks. “I know it when I see it” also invites faculty to see what they want to see and invites bias along the way.

익숙한 것에 대한 편견
Biased by the familiar

인지적 편견이 임상적 의사 결정을 위태롭게 하는 것처럼[6], 암묵적 편견은 학습자에 대한 판단에 영향을 미치고 교사가 일부 학생을 다른 학생보다 선호하도록 만들 수 있습니다(전자 보충 자료의 표 S1 참조). 수십 년에 걸친 사회 심리학 연구에 따르면 인간은 아웃그룹을 희생시키면서 [자기 그룹(나와 비슷한 사람들)]을 긍정적으로 평가하거나 편애하는 [인그룹 편향]에 대한 강한 경향을 보입니다[7]. 교사는 학습자와의 [일치성(인구학적 또는 지적)]에 영향을 받기 쉽습니다[8]. 우리는 자신과 외모가 비슷하거나, 학문적 혈통이 같거나, 학창 시절에 중요하게 여겼던 분야(협업보다는 기술적 숙련도, 새로운 콘텐츠 학습 기술보다는 지식 암기력 등)에서 뛰어난 사람을 더 우수하게 볼 가능성이 높습니다. 채점 구조는 일반적으로 이러한 전통적인 우선순위와 가치를 반영합니다[9]. 
Just as cognitive bias jeopardizes clinical decision-making [6], implicit biases can influence our judgements about learners and predispose teachers to favor some students over others (see Table S1 of the Electronic Supplementary Material). Decades of social psychology research have demonstrated a strong human tendency toward in-group bias, where we positively evaluate or favor our own group (people who resemble us) at the expense of the out-group [7]. Teachers are susceptible to being influenced by concordance (demographic or intellectual) with their learners [8]. We are more likely to see excellence in people who look like us, share our academic pedigree, or excel in areas that we valued during our formative years, which may have been technical proficiency over collaboration or knowledge recitation over skills in learning new content. Grading structures typically reflect these traditional priorities and values [9].

[친숙한 프로필을 가진 학생]은 미묘하게 업그레이드된 평가를 통해 교사의 [친밀감으로부터 혜택]을 받을 수 있습니다[10]. 서술형 평가 또는 점수가 약간 더 관대하면 더 높은 등급이 지정되어 레지던트 프로그램 및 의료 전문 분야로의 문이 열립니다[11,12,13,14,15]. 학생들은 호의적인 평가나 더 나은 학습 기회를 얻기 위해 평가자와 같은 분야에 대한 관심을 표시해야 한다는 압박감을 느낄 수 있습니다[16]. [배경, 신념 또는 우선순위가 다른 학생들과 서로 맞지 않거나 인종, 민족 또는 성별이 같지 않은 경우][17,18,19], 이러한 연쇄 작용은 학생에게 불리하게 작용합니다. [오래되고 편향된 기준을 가지고 게슈탈트를 사용하는 분류]에 초점을 맞춘 시스템은 [모두를 위한 우수성]을 개발하는 대신 [소수를 '우수'로 지정하는 것을] 전제로 합니다.
Students with a familiar profile can benefit from teachers’ affinity through subtly upgraded evaluations [10]. Slightly more generous narrative evaluations or scores yield higher grade designations which then open doors to residency programs and medical specialties [11,12,13,14,15]. Students can feel pressure to indicate interest in the same field as their assessors in order to earn favorable evaluations or better learning opportunities [16]. When we are misaligned with students (different backgrounds, beliefs, or prioritized skills) or do not share the same race, ethnicity, or gender [17,18,19], this cascade works against them. A system focused on categorization that uses gestalt coupled with outdated and biased benchmarking preordains a designation of “excellent” to a few instead of developing excellence for all.

  Definition Example
Affinity Bias Tendency to connect with others who share similar backgrounds, beliefs, and interests A supervisor extends an extra learning opportunity to the student on the team who attended the same college as they did.
Confirmation Bias Tendency to select information that confirms or supports prior beliefs A supervisor has formed a positive impression of a student’s communication skills based on comments shared informally by a colleague who worked with the student on a previous rotation. When writing the student evaluation on the current rotation, the supervisor incorporates a nurse’s praise of the student’s bedside manner but omits a physical therapist’s concerns about the way the student conveyed bad news.
In-group Bias Tendency to be more helpful and positive towards members of our own group than to members of another group (“out-group”) A supervisor writes supportive evaluations about the advocacy skills of a student who shares the same political beliefs while expressing concerns about the “lack of commitment to patients” of another student with a different political viewpoint.
Performance Bias Tendency to assume that members of one group are better at certain tasks than members of other groups based on stereotypes (which leads to members of the dominant group being judged by expected potential while individuals in less dominant groups are judged by current accomplishments) A supervisor preferentially invites members of one gender to practice a difficult procedure and then writes evaluations praising those students who practiced and demonstrated skill. For other students who are not afforded those practice opportunities, the supervisor writes that they are “not engaged in nor appropriately developing” that skill.
Status Quo Bias Tendency to prefer the current state of affairs and perceive any change from that baseline as a loss A supervisor enthusiastically recommends a student who demonstrates advanced knowledge about clinical trials and has done biomedical research but is equivocal in their recommendation for a student who demonstrates advanced advocacy skills and is conducting research on health equity.

학생과 사회가 필요로 하는 교육적 우수성
The educational excellence students and society need

다른 학생과 비교하여 학생을 평가하는 데 시간을 소비하는 것은 교사의 능력을 제대로 활용하지 못하는 것입니다(예: '최고' 학생을 가려내는 것). 현대의 교사는 [학습자 개개인의 폭넓은 능력을 키우는 데 에너지를 쏟음]으로써 학생들에게 더 의미 있는 서비스를 제공합니다. 이를 위해 교사는 교육 과정에서 공식적으로 배우지 않은 주제에 대한 지식과 기술을 배양해야 합니다. 또한 점점 더 다양해지는 학생 및 환자 집단과 상호작용할 수 있는 자신의 능력을 점검해야 합니다.
Time spent assessing a student relative to other students (e.g., trying to identify the “best” students) is a poor use of teachers’ abilities. Modern teachers serve students more meaningfully by devoting their energy to fostering each learner’s broad skillset. To do this, teachers need to cultivate their knowledge and skills on topics they may not have formally learned in their training. They must also examine their own ability to interact with increasingly diverse student and patient populations.

예를 들어, 학생들은 다양한 환자 집단의 건강을 개선하는 데 자신의 전문성과 영향력을 기여함으로써 [건강 옹호]에 능숙해지기를 기대하며, 또 그렇게 될 것으로 기대하고 있습니다[20]. 이러한 역량에는 건강 불평등을 인식하고, 지역사회의 필요를 이해하고, 필요할 때 다른 사람을 대신하여 발언하고, 변화를 일으키기 위한 자원 동원을 지원하는 것이 포함됩니다[21]. 교사는 [적절한 수준의 옹호]에 대해 직관에 의존해서는 안 됩니다. 대신, 옹호의 의미를 배우고, 학생들이 이 역량을 발전시키면서 충족해야 하는 구체적인 이정표를 이해하고, 직접 관찰할 기회를 모색함으로써 [학생들에 대한 약속을 이행해야] 합니다[22]. 
For example, students are expected—and are expecting—to become skilled in health advocacy by contributing their expertise and influence to improve the health of different patient populations [20]. This competency includes recognizing health inequities, understanding the needs of communities, speaking on behalf of others when required, and supporting the mobilization of resources to effect change [21]. Teachers cannot rely on their intuition regarding appropriate levels of advocacy. Instead, they must fulfill their commitment to their students by learning what is meant by advocacy, understanding specific milestones that students must meet as they progress in this competency, and seeking opportunities for direct observation [22].

[옹호]는 교사에게 생소할 수 있지만 [학생의 옹호 기술을 평가하는 것]은 요추 천자 또는 가족 회의 진행 등 [학생의 다른 기술을 평가하는 것]과 유사합니다. 교사는 후자의 예를 보고 "의사소통을 잘하는 것 같다"고 평가할 수 없습니다. 이러한 패턴 인식 접근 방식을 사용하는 대신, 교수진은 측정 대상 구성 요소와 학생이 교육을 진행하면서 달성해야 하는 [특정 이정표 및 하위 기술]을 이해하는 데 전념해야 합니다[23].
Though advocacy may be new to teachers, assessing a student’s advocacy skills has parallels to assessing a student’s other skills such as doing a lumbar puncture or leading a family meeting. A teacher cannot assess the latter example by saying “I know good communication when I see it.” Instead of using this pattern recognition approach, faculty members must commit to understanding the construct being measured and the specific milestones and subskills that students must achieve as they progress through training [23].

[우수한 옹호 능력]을 키우려면 교수진은 [의사로서 기본이라고 생각하지 않았던 기술을 통합]할 수 있도록 [관점을 넓혀야 ]합니다[24]. 이 성장 과정에는 [과거에 한 번도 고민해보지 않았던] 다음과 같은 환자(및 학생)의 삶의 경험에 대한 관점 취하기와 개방성을 연습하는 것이 포함될 수 있습니다.

  • 진료를 받으러 오기 위해 여러 번 버스를 타는 경우
  • 개인 신원에 따라 액세스 또는 리소스가 거부되는 경우
  • 처방전을 작성할지 가족을 먹일지 결정해야 하는 상황 

Fostering excellence in advocacy requires faculty to broaden their perspective to incorporate a skillset they may have never considered fundamental to being a physician [24]. This growth process may include practicing perspective taking and openness to patient (and student) life experiences that they never contended with, such as

  • taking multiple buses to an appointment,
  • being denied access or resources based on personal identity, or
  • having to decide between filling a prescription or feeding their family.

[옹호 또는 기타 역량]에 대해 학생을 지도할 때 교육자는 직접 관찰을 기반으로 평가를 내리는 데 전념해야 합니다. [위임 가능한 전문 활동]은 교사가 [학생들이 관련 업무 활동에서 여러 역량을 통합하는 것을 관찰할 수 있는 사전 지정된 업무](예: 충수 절제술 수행)를 말합니다[25]. 옹호를 촉진하고 평가하는 기술을 발전시키고자 하는 교사는 학생이 사회복지사와 협력하여 환자를 위한 여행 바우처를 마련하는 것과 같은 직장 활동을 관찰하는 것을 우선순위로 삼아야 합니다. 이러한 관찰을 통해 슈퍼바이저는 목표 교육 및 성장을 위한 영역을 식별할 수 있습니다(예: "다음번에는 환자가 선호하는 진료 시간대에 대해 먼저 환자에게 확인"). 각 데이터 포인트를 통해 교육자는 [학습에 대한 평가(성적, 상, 레지던트 등 외부 제도를 위해 학생을 분류하기 위한 평가)]가 아니라 [학습을 위한 평가(성장을 촉진하기 위한 평가)]를 하는 데 능숙해져야 합니다[26].
When coaching students in advocacy or any other competency, educators must commit to making assessments based on direct observation. Entrustable professional activities are pre-specified workplace tasks (e.g., performing an appendectomy) which allow teachers to observe students integrate multiple competencies in a relevant workplace activity [25]. Teachers who wish to advance their skills in promoting and assessing advocacy would need to prioritize observing a workplace activity such as their student collaborating with a social worker to arrange travel vouchers for a patient. These observations allow the supervisor to identify areas for targeted teaching and growth (e.g., “next time, check with the patient first regarding her preferred time of day for her appointments”). With each data point, the educator must become skilled at making an assessment for learning (to drive growth), not an assessment of learning (to classify students for an external scheme such as a grade, award, or residency) [26].

우리 교수들 대부분은 [사회의 요구와 일치하는 환경]에서 훈련받지 않았기 때문에 "우리가 볼 때 그것을 알지 못한다"는 것입니다. 새로운 의료 커리큘럼은 이제 환자 옹호뿐만 아니라 공동 의사 결정, 전문가 간 협업, 건강의 사회적 결정 요인, 고가치 치료를 강조합니다. COVID-19 팬데믹은 새로운 건강 위협에 적응하고 학습하며 수련 기간 동안 존재하지 않았던 지식과 기술을 사용하여 대응할 준비가 된 미래의 의료인을 양성하기 위해 적응 전문성을 갖춘 교사의 필요성을 강조합니다[27, 28]. 의학교육의 목표는 이러한 영역에 걸쳐 우수한 학생을 양성하는 것이며, 이를 위해서는 교수진의 새로운 사고방식이 필요합니다.
Most of us do not “know it when we see it” because we were not trained in an environment when “it” matched the needs of society. New medical curricula now emphasize not only patient advocacy, but also shared decision-making, interprofessional collaboration, social determinants of health, and high-value care. The COVID-19 pandemic highlights the need for teachers with adaptive expertise to train future providers who will be prepared to adapt and learn about emerging health threats and respond using knowledge and skills that may not have existed during their training [27, 28]. The goal of medical education is to develop students who are excellent across these domains, and it will take a new faculty mindset to do that.

성장 마인드로 전환
Shifting to a growth mindset

우수성을 분류하는 대신 육성하려면 교사가 학습자에게 권장하는 것과 동일한 태도, 즉 고정 사고방식("나는 학생의 우수성을 보면 안다")에서 성장 사고방식("나는 익숙하지 않은 영역에서 학생의 기술 개발을 평가하고 촉진하는 새로운 방법을 배울 수 있다")으로 전환하는 것이 필요합니다[29]. 학교는 교직원을 코칭 업무로, 그리고 채점 업무에서 벗어나도록 안내하기 위해 여러 단계를 수행해야 합니다[30, 31].
Fostering excellence instead of classifying it entails teachers adopting the same attitude we encourage in learners: shifting from a fixed mindset (“I know excellence in a student when I see it”) to a growth mindset (“I can learn new ways to assess and promote student skill development in unfamiliar domains”) [29]. Schools must undertake several steps to guide faculty into the coaching business and out of the classifying business [30, 31].

  • 우등 학년 지정 및 학생 등급을 없애는 등의 정책 변경을 통해 교직원은 [고부담 및 총합 평가]가 아닌 [저부담 및 형성 평가]를 수행 할 수 있습니다 [32].
  • 교수진 개발은 [평가자 교육(모든 사람이 일관되게 평가하도록 하는 것)]에 실패한 시도에 반복적으로 초점을 맞추는 대신 [피드백 교육(모든 사람이 일관되게 관찰, 기록 및 코칭하도록 하는 것)]에 중점을 두어야 합니다[33].
  • 또한 교육을 통해 교수진이 [자신의 오랜 가정과 편견을 검토]하도록 유도할 수도 있습니다[34].
  • [새로운 역할(예: 코칭)]과 [새로운 가치(예: 사회 정의)를 도입]하는 것은 단 한 번의 교육 세션으로 달성할 수 없습니다.

변화의 방향과 중요성을 분명하고 끈질기게 알리면서 점진적이고 꾸준히 변화를 이끌어내려면 [리더의 빈번한 커뮤니케이션, 다양한 전파 채널(예: 동영상, 이메일, 팟캐스트), 학생 및 교수진 내의 지지자]가 필요합니다.

  • Policy changes such as removing honors grade designations and student rankings allow faculty to conduct assessments that are low stakes and formative rather than high stakes and summative [32].
  • Instead of focusing repeatedly on ill-fated attempts at rater training (getting everyone to evaluate consistently), faculty development should emphasize feedback training (getting everyone to consistently observe, record, and coach) [33].
  • Training can also engage faculty in examining their own longstanding assumptions and biases [34].
  • Introducing a new value (e.g., social justice) along with a new role (e.g., coaching) cannot be accomplished through a single training session.

It requires frequent communication from leaders, multiple channels of dissemination (e.g., videos, emails, podcasts), and champions within the student body and faculty to effect change gradually and steadily while unequivocally and relentlessly signaling its direction and importance.

새로운 임상 교사를 선발할 때는 학습자의 과제를 직접 관찰하고 학습자를 피드백 토론에 참여시킬 수 있는 기술을 구축하겠다는 의지를 강조해야 합니다[35]. 프로그램은 [약점이 있는 학생의 식별]을 두려워하기보다는 [환영하는 교사 마인드]를 추구하고 육성해야 합니다. 훌륭한 교사는 ['우수한' 학습자를 더 높은 곳에 도달하게 하는 능력]으로 구별되는 것이 아니라, ['아직 부족한' 학습자를 역량을 향한 발달 궤도에 올려놓는 능력]으로 구별됩니다. 또한 조직의 목표는 '최고의' 졸업생을 모집하고 배출한다는 명성을 유지하는 것에서 모든 개인과 기관 자체에 개선과 성장 마인드를 기대하는 문화로 전환해야 합니다[36].
Selection of new clinical teachers should emphasize their commitment to directly observing learners’ work and building their own skills to engage learners in feedback discussions [35]. Programs should seek and foster a teacher mindset that welcomes rather than dreads identification of students with weaknesses. Great teachers are not distinguished by their ability to make “top” learners reach even greater heights, but rather by their ability to bring the “not yet” learner onto a developmental trajectory toward competence. The organizational goals must also shift from upholding a reputation for recruiting and producing the “best” graduates toward a culture where improvement and a growth mindset is expected for all individuals and the institution itself [36].

역량 기반 평가: 유망하지만 만병통치약은 아니다
Competency-based assessment: promising but not a panacea

특정 이정표, 발달 궤적, 직접 관찰을 포함한 역량 기반 평가의 프레임워크는 교사의 전문적 발전을 안내할 수 있습니다. 그러나 역량 기반 평가로의 전환이 평가 프로그램의 오랜 과제를 제거하거나 해결하지는 못합니다.
The framework of competency-based assessment—including specified milestones, developmental trajectories, and direct observation—can guide teachers in their professional evolution. However, the shift to competency-based assessment does not eliminate or solve many long-standing challenges in assessment programs.

앞서 설명한 바와 같이 인지적 지름길과 패턴 인식을 포함하여 [성과에 대한 총체적 판단]에 영향을 미치는 [평가자의 편견]은 평가자가 학습자, 특히 자신과 다른 학습자를 직접 관찰할 때 보고 추론하는 내용에 영향을 미칠 수 있습니다. 따라서 [채점자]에서 [코치]로 전환하는 교사는 이러한 [인지적 경향]에 대해 스스로 교육하고 가능한 경우 대응책을 모색해야 합니다[37]. 개별 교수진의 이러한 관찰은 여전히 판단이지만[38], 최근의 문헌에 따르면 학습자와 학습자의 업무에 대한 직접적인 관찰을 기반으로 한 여러 주관적 평가를 종합하면 직장에서의 교육생의 역량에 대해 점점 더 정확한 그림을 그릴 수 있다고 합니다[39]. 학교는 많은 평가자가 [(인상이 아닌) 상세한 관찰을 바탕으로 의견을 제공]하는 시스템을 구축하고, 다양한 배경을 가진 구성원이 [우수성에 대한 공유된 정신 모델]을 개발하고 사용하여 [데이터를 종합하여 역량 평가]를 내리는 [채점 또는 역량 위원회]와 같은 [그룹 의사 결정]을 제도화함으로써 편향의 위험을 완화할 수 있습니다[40,41,42].The same rater biases outlined earlier that affect summative judgements of performance, including cognitive shortcuts and pattern recognition, can influence what evaluators see and infer in direct observations of learners, particularly those who differ from them. Therefore, teachers who shift from graders to coaches must still educate themselves about these cognitive tendencies and whenever possible, seek countermeasures [37]. While these observations by individual faculty are still judgements [38], emerging literature suggests that the synthesis of multiple subjective assessments, grounded in direct observation of the learner and their work, paints an increasingly accurate picture of a trainee’s competency in the workplace [39]. Schools can mitigate the risks of bias by establishing systems where many evaluators provide input based on detailed observations (not impressions) and by instituting group decision-making—such as a grading or competency committee—where members with diverse backgrounds develop and use a shared mental model of excellence to synthesize data to make a competency assessment [40,41,42].

레지던트 프로그램에서는 의과대학을 졸업한 학습자들이 준비가 덜 되어 있다는 문제가 계속 보고되고 있습니다[43]. 역량 기반 평가는 직접 관찰의 토대가 개선 및 재평가 계획과 긴밀하게 결합되지 않는 한 이 문제를 해결하지 못합니다. 교사는 학생을 코칭하거나, 다음 감독자가 그렇게 하도록 하거나, 의과대학의 적절한 자원에 학생을 소개하는 등의 추가 단계를 통해 높은 수준의 술기 관찰에 전념해야 합니다. 교사는 [학습자와의 제한된 시간(예: 클리닉 또는 병원에서 단 하루)을 바탕으로 편견을 전파할 가능성]을 염두에 두어야 하며, 학생이 [종적 궤적]을 따라 발전할 수 있도록 [다음 감독자를 위해 학습자 인수인계를 공식화]하는 데 숙련되어야 합니다[44]. 학교는 진전이 이루어지고 있는지 확인할 수 있는 [중앙 집중식 보고 시스템]을 구축해야 합니다. 또한 [학습자-감독자 간 불연속성]으로 인해 성장이 방해받는 학생의 경우, 학교는 [코칭과 멘토링을 할 수 있는 종단적 임상 경험]을 위한 교수 시간 및 기술 개발을 지원해야 합니다.
Residency programs continue to report challenges with underprepared learners who graduate from medical school [43]. Competency-based assessment will not solve this problem unless the foundation of direct observation is tightly coupled with a plan for improvement and re-assessment. Teachers must commit to making high-quality observations of skills and to an additional step: coaching the student, ensuring that the next supervisor does so, or referring the student to the appropriate resources in the medical school. Teachers must be mindful of the potential to propagate bias based on limited time with a learner (e.g., only one day in clinic or the hospital) and must become skilled at formulating a learner handover for the next supervisor to help the student make progress along their longitudinal trajectory [44]. Schools must establish a centralized reporting system that ensures progress is being made. And for students whose growth is hampered by learner-supervisor discontinuity [45,46,47], schools must support faculty time and skill development for longitudinal clinical experiences that enable them to coach and mentor.

또한 교사는 역량 기반 평가 시스템에서 전통적으로 "성취도가 높은" 또는 "성과가 높은" 학생에 대한 접근 방식을 수정해야 합니다. 모든 역량을 이정표 지향적인 방식으로 평가하겠다는 확고한 의지가 없다면 교사는 [후광 효과의 희생양]이 될 수 있습니다[48]. 학습자가 한 영역(예: 시험 점수로 판단되는 지식)에서 우수한 것으로 확인되면, 교사는 다른 영역에서 학습자의 성과를 과소평가하거나 과장할 수 있습니다. 이러한 문제가 있는 일반화는 다른 영역(예: 옹호 또는 의사소통)이 간과되거나 과대평가되는 결과를 초래할 수 있습니다.
Teachers must also modify their approach to the traditionally “high achieving” or “high performing” student in a competency-based assessment system. Without a firm commitment to examine all competencies in a milestone-directed way, teachers may fall prey to the halo effect [48]. Once the learner is identified as excellent in one domain (e.g., knowledge as determined by a test score), a teacher may underappreciate or exaggerate the learner’s performance in other domains. These problematic generalizations can lead to other areas (e.g., advocacy or communication) being overlooked or overrated.

교사가 여러 영역을 관찰하고 평가하는 능력을 키우기 위해 노력할 때, 학교는 학생과 교직원에게 [모든 영역에 걸친 역량]이 [우수성의 기초]이며 [환자 집단의 건강과 복지를 개선하는 것]이 이러한 노력의 목표라는 점을 알려야 합니다. 또한 교사와 학교는 환자 치료 결과와 연결된 데이터를 기반으로 역량 평가 및 코칭 계획을 수립할 준비를 시작해야 합니다. 환자 치료의 질과 관련된 성과 측정(예: 레지던트 민감성 품질 측정[49])을 활용하면 환자에 대한 서비스의 우수성을 정의하는 교육자의 역량을 강화할 수 있습니다.
As teachers commit to growing their skills in observation and assessing multiple domains, schools must signal to students and faculty that competence across all domains is the foundation of excellence and that improved patient population health and well-being is the objective of these efforts. Teachers and schools must also start preparing themselves to make competency assessments and coaching plans based on data that are connected to patient outcomes. Utilizing measures of performance linked to quality of patient care—e.g., resident-sensitive quality measures [49]—can strengthen educators’ ability to define excellence in service to patients.

우수성 코드의 일부인 "개선"
“Improvement” as part of the excellence code

교수진은 학생들이 관련 영역에서 [역량을 갖추도록 보장해야 할 사회적 의무]가 있습니다. 그러나 [일단 역량의 문턱을 넘으면], 교수진의 관심은 [성취 정도]에서 [개선 속도]로 전환되어야 합니다. 즉, 학생의 지식이 '우수'인지 '탁월'한지에 대해 걱정하지 말고, 대신 [각 학생이 사용하는 개선 방법을 검토]하는 데 에너지를 쏟아야 합니다. 개선을 위해 노력하는 학습자는 연습, 성찰 및 피드백의 통합에 엄격해야 합니다[50]. 새로운 도전에 관심이 적은 학생은 자신의 안전 지대를 벗어나 임상 사례를 찾는 학생보다 더 큰 관심을 가져야 합니다. 우수성은 학습자의 현재 숙련도뿐만 아니라 학습자의 성장률에 따라 정의될 수 있습니다.
Faculty have a societal obligation to ensure students achieve competence in relevant domains. However, once the threshold of competence is crossed, faculty attention should shift from the degree of accomplishment to the rate of improvement. This means not worrying about whether a student’s knowledge is “excellent” versus “outstanding,” and instead devoting energy to examining the method of improvement each student employs. Learners working to improve must be rigorous in their practice, reflection, and incorporation of feedback [50]. Students who exhibit limited interest in new challenges should warrant greater concern than students who seek clinical cases at the edge of their comfort zone. Excellence can be defined by the learner’s rate of growth, not just their current level of proficiency.

평생 학습을 우수성의 지표로 통합하는 것은 '개선'을 설명하는 내러티브가 나쁜 성과를 나타내는 코드인 현재의 수사와 상충됩니다[51]. 새로운 패러다임에서는 [학생의 개선]과 [개인적 성장에 대한 헌신]에 대한 평가가 필수이며, 개선에 대한 언급이 없다는 것은 놀라운 일이 아닐 수 없습니다.
Integrating lifelong learning as a marker of excellence is at odds with current rhetoric where narratives describing “improvement” are code for bad performance [51]. In the new paradigm, assessment of the student’s improvement and commitment to personal growth is a must-have—and the absence of a mention of improvement would be alarming.

모든 환자에게는 우수한 의사가 필요합니다
All patients need excellent physicians

분류되지 않은 데이터가 풍부한 시스템에서 뇌는 항상 복잡성을 처리하기 위해 [단순화된 추상화]를 찾게 됩니다. 기존의 평가 시스템은 어드바이저, 수상 위원회, 레지던트 프로그램을 위해 이러한 역할을 수행하며, [사회]가 아닌 [교수의사]의 가치에 기반하여 환원주의적인 방식으로 평가합니다.
In systems with abundant uncategorized data, the brain will always seek simplified abstractions to deal with complexity. Traditional assessment systems fulfill this role for advisors, award committees, and residency programs, and do so in a reductionistic manner based on what academic physicians—not society—value.

의과대학의 임무는 [레지던트 과정을 위해 학생들을 분류하는 것]이 아니라 [환자와 사회의 요구를 충족시킬 수 있는 의사를 양성하는 것]입니다[52]. 레지던트는 동일한 목표를 가지고 있으며 펠로우십과 임상 실습을 위해 분류하는 사업에 종사 할 필요가 없습니다. 전임자의 발자취를 좁게 따라가는 수련의를 평가하고 그에 따라 레지던트와 전문과목 간에 학생들을 분류하는 지표를 사용하여 우수성을 정의하는 현재의 시스템을 용인하는 한 우리는 이 목표에 도달하지 못할 것입니다.The job of medical school is not to sort students for residency, but to develop doctors to meet patients’ and society’s needs [52]. Residencies have the same goal and need not be in the business of sorting for fellowships and clinical practices. We will fall short of this goal as long as we condone the current system that defines excellence using metrics that value trainees who follow narrowly in their predecessors’ footsteps and triage students among residencies and specialties accordingly.

시험, 성적, 형용사별로 분류하지 않으면 레지던트 프로그램에 지원할 학생을 선발하는 데 큰 어려움이 있을 것으로 교육자들은 예상하고 있습니다. 이러한 우려는 전통적으로 '우수한' 학생이 '우수한' 프로그램에 입학하는, 우리가 항상 해왔던 레지던트 선발의 어려움을 반영합니다. 이러한 분류 시스템이 사회적 수요에 맞게 인력을 최적화했다거나 개선할 수 없다고 믿을 이유는 없습니다. 총체적인 검토 프로세스는 여러 영역에서 우수성을 평가하고 집중 분야, 역량, 학습 접근 방식, 가치관이 프로그램과 사회의 요구와 일치하는 후보자를 선발하는 학교와 레지던시의 역량을 반영합니다[53,54,55].

Without categorization by tests, grades, and adjectives, educators anticipate immense difficulty in selecting students for residency programs. This worry reflects the difficulty in selecting residents as we have always done, in which traditionally “excellent” students gain entry into “excellent” programs. There is no reason to believe that this sorting system has optimized our workforce to meet societal demands or that it could not be improved upon. Holistic review processes reflect the capacity of schools and residencies to assess excellence across multiple domains and select candidates whose areas of focus, capabilities, approaches to learning, and values match those of the program and society [53,54,55].

["내가 보면 안다"는 식의 평가]는 [시대에 뒤떨어지고 부정확하며 배타적인 정적 버전의 우수성]을 지지하는 것입니다. [사회가 필요로 하는 학습자의 우수성]은 여러 영역에서 지도하고 평가하는 능력을 지속적으로 성장시키는 [교사의 산물]입니다. 모든 환자에게는 우수한 의사가 필요합니다. 그들을 개발하는 것이 우리의 일입니다.
When we employ “I know it when I see it”, we endorse a static version of excellence that is outdated, inaccurate, and exclusionary. The excellence in learners that society needs is a product of teachers who continually grow in their ability to coach and assess across multiple domains. All patients need excellent physicians. It’s our job to develop them.

 


Perspect Med Educ. 2021 Dec;10(6):356-361.doi: 10.1007/s40037-021-00678-5. Epub 2021 Aug 20.

Excellence in medical training: developing talent-not sorting it

Affiliations collapse

1Department of Medicine, University of California San Francisco School of Medicine, San Francisco, CA, USA. gurpreet.dhaliwal@ucsf.edu.

2Medical Service, San Francisco VA Medical Center, San Francisco, CA, USA. gurpreet.dhaliwal@ucsf.edu.

3Department of Medicine, University of California San Francisco School of Medicine, San Francisco, CA, USA.

PMID: 34415554

PMCID: PMC8377327

DOI: 10.1007/s40037-021-00678-5

Free PMC article

 

Abstract

Many medical schools have reconsidered or eliminated clerkship grades and honor society memberships. National testing organizations announced plans to eliminate numerical scoring for the United States Medical Licensing Examination Step 1 in favor of pass/fail results. These changes have led some faculty to wonder: "How will we recognize and reward excellence?" Excellence in undergraduate medical education has long been defined by high grades, top test scores, honor society memberships, and publication records. However, this model of learner excellence is misaligned with how students learn or what society values. This accolade-driven view of excellence is perpetuated by assessments that are based on gestalt impressions influenced by similarity between evaluators and students, and assessments that are often restricted to a limited number of traditional skill domains. To achieve a new model of learner excellence that values the trainee's achievement, growth, and responsiveness to feedback across multiple domains, we must envision a new model of teacher excellence. Such teachers would have a growth mindset toward assessing competencies and learning new competencies. Actualizing true learner excellence will require teachers to change from evaluators who conduct assessments of learning to coaches who do assessment for learning. Schools will also need to establish policies and structures that foster a culture that supports this change. In this new paradigm, a teacher's core duty is to develop talent rather than sort it.

Keywords: Competency-based education; Medical faculty; Undergraduate medical education.

 

임상추론의 생태학적 설명(Acad Med, 2022)
An Ecological Account of Clinical Reasoning
Bjorn K. Watsjold, MD, MPH, Jonathan S. Ilgen, MD, PhD, and Glenn Regehr, PhD

 

보건 전문직 교육에서 임상 추론을 구성하고 더 잘 이해하기 위해 수많은 구조가 사용되었습니다. 이러한 문헌에서 임상 추론은 일반적으로 [일반적인 기술] 또는 [특정 지식의 적용]이라는 두 가지 방식 중 하나로 개념화됩니다. 1

  • 임상 추론을 [일반적인 기술]로 정의한 사람들은 임상 추론을 일반적인 문제 해결 과정으로 설명하거나,2,3 메타인지,4 이중 과정 이론,5-8 또는 휴리스틱과 편견과 같은 [광범위한 인지 과정의 관점]에서 설명했습니다. 9-12 이러한 연구는 잠재의식과 의식적 사고가 추론 능력을 형성하는 방식(일반적으로 종이 기반 임상 사례에서 정확도로 측정됨)을 정교화했으며, [잠재적으로 사고 오류를 완화할 수 있는 접근법]을 제안했습니다.
  • 이와는 대조적으로, 다른 저자들은 임상 추론에서 일반화 가능한 프로세스보다 [특정 지식의 적용]이 더 중요할 수 있다고 제안했습니다. 추론을 일반적인 접근 방식이 아닌 지식 구조의 정교화와 적용으로 보는 프레임워크13에서는 질병 스크립트,14 스키마,15 및 예시 1,16와 같은 고급 개념을 사용하여 숙련된 임상의가 이러한 임상 경험을 초심자와 중요하게 구별되는 방식으로 처리하는 이유를 설명합니다.

Numerous constructs have been used to frame and better understand clinical reasoning in health professions education. Across this literature, clinical reasoning is generally conceptualized in 1 of 2 ways: as a general skill or as the application of specific knowledge. 1 

  • Those who have framed clinical reasoning as a general skill have described it either as a process of general problem solving 2,3 or in terms of broad cognitive processes such as metacognition, 4 dual process theory, 5–8 or heuristics and biases9–12 This body of work has elaborated the ways in which subconscious and conscious thinking shape reasoning performance—typically measured as accuracy on paper-based clinical cases—and has suggested approaches that could potentially mitigate errors in thinking.
  • In contrast, other authors have suggested that the application of specific knowledge may be more important than generalizable processes in clinical reasoning. Framing reasoning as the elaboration and application of knowledge structures rather than general approaches, 13 this work has advanced concepts such as illness scripts, 14 schemas, 15 and exemplars 1,16 as a means of explaining why experienced clinicians seem to work through these clinical experiences in importantly distinct ways from novices.

이 두 가지 프레임워크의 차이점에도 불구하고, 두 프레임워크의 핵심은 개인이 업무 현장에서 임상 문제를 해결하는 방법을 이해하는 수단으로 널리 알려진 [인지주의적 정보 처리(IP) 이론 패러다임]과 일치합니다. 이 IP 패러다임에서는 추론을 정보를 받아들이고, 고려하고, 행동을 선택하는 데 사용하는 과정으로 [개인 내부에 위치]합니다. 이처럼 [개인의 주체성에 중점]을 두기 때문에 이 과정에서 [컨텍스트는 기껏해야 부차적인 고려 사항]으로 취급됩니다. 즉, 맥락은 근본적인(탈맥락화된) 인지 과정을 밝히기 위해 [평균을 내야 하는 잡음]으로 간주되거나, [추론에 영향을 미치는 특정 외부 요인](예: 시간 압박, 빨리 또는 천천히 일하라는 특정 지시, 방해, 환자의 복잡성을 모방한 다양한 조건)으로 구성됩니다. 5,19-23 이러한 의미에서 맥락은 추론 과정(그리고 이를 연구하는 우리의 능력)에 영향을 미치는 복잡한 요소로 간주되지만 추론 과정 자체에 필수적인 요소로 간주되지는 않습니다.
Despite the differences in these 2 framings, at their core, both align with the prevailing cognitivist paradigm of information processing (IP) theory as the means for understanding how individuals tackle clinical problems in their workplace. This IP paradigm locates reasoning within the individual as a process in which information is received, considered, and used to select actions. Because of this heavy focus on individual agency, context is given, at most, secondary consideration in the process. That is, context is framed either as noise that must be averaged across to uncover the underlying (decontextualized) cognitive process or as a set of specific external factors that have influences on reasoning, 17,18 such as time pressure, specific instructions to work quickly or slowly, interruptions, and a variety of conditions that mimic patient complexity. 5,19–23 In this sense, context is seen as a complicating factor that affects the reasoning process (and our ability to study it), but is not seen as integral to the reasoning process itself.

[피할 수 없는 맥락의 영향]이 점점 더 분명해지면서, IP 패러다임의 연구자들은 전문 지식의 복잡성에 대한 맥락의 잠재적 기여를 이해하고 임상의가 맥락에 따라 다르게 보이는 이유를 설명하기 위해, [추론 과정에 대한 맥락의 영향]을 보다 명확하게 다루기 시작했습니다.

  • 임상 추론 평가는 처음에는 단일 사례의 변형인 항목 간의 제한된 수행 상관관계를 이해하기 위한 수단으로 [사례 특이성]이라는 좁게 정의된 문제로 어려움을 겪었습니다. 25
  • 이 정의는 후속 연구에서 [개별 문제 해결의 성공은 특정 내용 지식과 상관관계가 있지만, 동일한 내용 지식을 대상으로 하는 다른 질문에 대한 답의 성공은 상관관계가 낮다]는 사실이 밝혀짐에 따라 [내용 특이성]으로 확장되었습니다. 3,13,26
  • 이러한 결과는 [임상의가 정보를 저장하고 검색하는 방식]을 보여주는 것으로 해석되었으며, 이는 [문제와 관련이 없어 보이는 외부 요인(맥락)이 저장 및 검색에 어떤 영향을 미칠 수 있는지에 대한 가설]을 불러일으켰습니다. 그 결과 이 분야는 [맥락 특이성]에 초점을 맞추게 되었습니다. 25,27,28
  • 그러나 IP 추론 모델에 통합해야 하는 수많은 [고유한 맥락적 요인이 본질적으로 무한하다는 것]이 인식되면서 이러한 접근 방식은 부담스러워졌습니다. 29 따라서 어떤 맥락의 특징을 [신호와 잡음]으로 구분해야 하는지,28 그리고 이러한 요소가 진료 환경에서 다양한 인적 및 물적 자원과 씨름하는 임상의의 사고 과정에 어떤 영향을 미칠 수 있는지 판단하는 것이 어려워졌습니다.

As the unavoidable influence of context became increasingly apparent, 24 researchers in the IP paradigm began to more explicitly address the effect of context on the reasoning process, both to understand its potential contributions to the complexity of expert knowledge and to explain why clinicians seemed to perform differently in different contexts.

  • The assessment of clinical reasoning initially grappled with a narrowly defined problem of case specificity, as a means to understand the limited correlations of performance between items that were variants of a single case. 25 
  • This definition expanded to content specificity as subsequent studies showed that success in solving individual problems correlated with specific content knowledge, but that success in answering different questions targeting the same content knowledge correlated poorly. 3,13,26 
  • These findings were interpreted as a manifestation of how clinicians stored and retrieved information, and this prompted hypotheses as to how external factors seemingly unrelated to the problem—the context—might influence storage and retrieval. This, in turn, shifted the field toward a focus on context specificity25,27,28 
  • However, the approach became overwhelming as the multitude of idiosyncratic contextual factors that would have to be incorporated into IP models of reasoning were recognized to be essentially limitless. 29 It thus became difficult to determine which features of context should be signal versus noise 28 and how these factors might influence the thought processes of clinicians as they grapple with variations of human and material resources in their practice settings.

따라서 최근 의료 전문직 교육 분야의 많은 저자들은 임상 추론에서 맥락의 역할을 더 잘 설명하려면 임상의와 환경이 서로 상호 작용하고 형성하는 방식을 더 잘 설명하기 위해 이러한 [프로세스에 대한 개념화의 전환]이 필요하다고 제안했습니다. 21-30 [개인, 맥락, 당면한 목적 또는 과제 간의 역동적인 상호작용과 적합성을 문제화]하는 추론에 대한 [생태학적 설명]은 보건 전문직 교육자와 연구자가 이러한 현상을 이해하고 탐구하는 방법에 대한 새로운 언어를 제공할 수 있습니다. 따라서 이 비판적 검토에서는 생태심리학의 렌즈를 통해 임상적 추론을 재구상하고, 이러한 개념적 전환이 임상 수행의 맥락별 발현을 이해하는 새로운 방법과 개인과 환경이 상호 작용하는 양방향 방식을 어떻게 가능하게 하는지를 다루는 것을 목표로 합니다.
Thus, recently, many authors in health professions education have suggested that to better account for the role of context in clinical reasoning requires a shift in our conceptualizations of these processes to better account for the ways in which clinicians and their environments interact and shape one another. 21–30 Ecological descriptions of reasoning that problematize the dynamic interactions and fit between an individual, their context, and the purpose or task at hand may provide a new language for how health professions educators and researchers can understand and explore these phenomena. Therefore, this critical review aims to reimagine clinical reasoning through the lens of ecological psychology, addressing how this conceptual shift enables new ways of understanding context-specific manifestations of clinical performance, and the bidirectional ways in which individuals and their environments interact.

방법
Method

이 비판적 검토31,32에서는 생태 심리학 분야의 기초 및 최신 문헌을 바탕으로 보건 전문직 교육 문헌에 제시된 임상적 추론과 맥락의 개념을 탐구합니다. 우리는 맥락 특이성과 임상적 추론의 개념이 [전통적인 인지주의 또는 IP 패러다임]이 아닌 [다른 인지 이론]에서 어떻게 이해될 수 있는지 탐구하고자 했습니다. 현재 이론에 대한 논의가 진행 중인 경우, 현재 이해를 종합하고 생물학 및 인류학에서 임상 대상자를 위한 사례를 번역했습니다. Google Scholar, PsychInfo, PubMed, ERIC 등의 데이터베이스 검색과 생태학 및 인지 심리학 분야의 저자들의 텍스트를 참고했습니다. 또한 소셜 미디어를 통해 해당 분야 전문가들과의 활발한 토론을 통해 종합적인 정보를 얻었습니다. 이 검색 전략은 본질적으로 재현할 수 없으며, 임상적 추론이나 생태 심리학에 대한 체계적 또는 광범위한 검토32를 제시하려는 의도가 아닙니다.
This critical review 31,32 draws upon foundational and current literature from the field of ecological psychology to explore the concepts of clinical reasoning and context as presented in the health professions education literature. We sought to explore how the concepts of context specificity and clinical reasoning might be understood from cognitive theories other than the traditional cognitivist or IP paradigms. Where theories are currently being debated, we have synthesized current understanding and translated examples from biology and anthropology for a clinical audience. Our sources included database searches such as Google Scholar, PsychInfo, PubMed, and ERIC, and texts by authors in the fields of ecological and cognitive psychology. Our syntheses have also been informed by active discussion with experts in the field using social media. This search strategy is inherently not reproducible, and our intent is not to present a systematic or scoping review 32 of clinical reasoning or ecological psychology.

저자들은 도시, 학계, 응급실에서 근무하는 응급의학과 의사 2명(B.K.W., J.S.I.)과 인지 심리학자 1명(G.R.)이며, 임상 추론 분야에서 광범위한 선행 연구를 수행했습니다(J.S.I., G.R.). 이를 통해 임상의사 저자들이 가장 경험이 많은 임상 추론의 적용 사례와 임상 추론의 기본 구성에 대한 정보를 제공하며, 임상의사와 임상 환경 간의 상호 작용을 이해하는 새로운 접근법을 제안합니다. 윤리적 승인은 해당되지 않는 것으로 보고되었습니다. 
The authors are 2 emergency physicians practicing in an urban, academic, emergency department (B.K.W., J.S.I.) and a cognitive psychologist (G.R.), and have undertaken extensive prior research in the field of clinical reasoning (J.S.I., G.R.). This informs the clinical practice examples, the application of clinical reasoning with which the clinician authors are most experienced, and the foundational constructs of clinical reasoning that have been used propose new approaches to understanding the interactions between clinicians and their clinical environments. Ethical approval was reported as not applicable.

결과
Results

상황성, 사회물질성, 및 "4E" 그룹(내재화, 구체화, 확장(분산), 제정된 인지)을 포함하여 맥락에서 인지를 설명하기 위해 보건 전문직 교육 문헌에서 다양한 이론이 발전해 왔습니다. 30,33,35,40 이러한 이론은 사소한 상호작용부터 인지가 맥락과 불가분의 관계에 있거나 심지어 맥락에서 나온다는 전제에 이르기까지, [인지가 맥락에 의해 영향을 받는 다양한 방식]을 반영합니다. 이러한 [주장들 사이의 차이점]은 이론가들이 [사고는 임상의의 머리(또는 마음)에서 감각적 입력이 이해와 행동적 출력으로 변환되는 것]이라고 주장하는 [IP의 기본 교리]를 얼마나 밀접하게 고수하는지에 있습니다. 4,30,41,42 이 [IP 패러다임]에서 [추론]은 일반적인 기술이든 지식 구조이든, [개인의 내부 역량, 기술 또는 정보]를 반영하며, 이는 [머리(또는 마음) 안에 있지만 임상의 외부 요인(예: 환경적 단서)에 의해 영향]을 받을 수 있습니다. 그러나 [[인지의 '내부' 과정]과 [환경의 '외부' 영향]을 분리함]으로써 맥락적 추론에 대한 이러한 IP 중심의 개념화는 관찰할 수 없는 인지 현상과 임상적 맥락의 수많은 특징을 조화시키려 할 때 어려움을 겪게 됩니다. 
A variety of theories have been advanced in the health professions education literature to describe cognition in context, including situativity, 33–36 sociomateriality, 37–39 and the “4E” group—embedded, embodied, extended (distributed), and enacted cognition. 30,33,35,40 These theories reflect a spectrum of ways in which cognition is influenced by context, from minor interactions to the premise that cognition is inextricably entangled with, or even emergent from, context. The differences between these claims lie in how closely theorists hold to the fundamental tenets of IP, which maintains that thinking is the transformation of sensory inputs into understandings and behavioral outputs within a clinician’s head (or mind). 4,30,41,42 Within this IP paradigm, reasoning—whether as a general skill or as knowledge structures—reflects an individual’s internal capacities, skills or information, which are housed within their head (or mind), but that can be influenced by factors (such as environmental cues) external to the clinician. Yet by separating the “inside” processes of cognition from the “outside” influences of an environment, this IP-centric conceptualization of contextualized reasoning presents challenges when we try to reconcile the unobservable phenomena of cognition with the innumerable features of clinical context.

[생태 심리학의 렌즈]를 통해 이러한 맥락적 문제를 바라보면, [유기체가 환경과의 상호 작용과 적응을 통해 생존하는 방식]을 고려함으로써 새로운 통찰력을 얻을 수 있습니다. 이 모델에서 [인지]는 일반적으로 [개인이 환경을 탐색하고 환경에 관여하는 과정에서 나타나는 자연스러운 현상]으로 간주되며, [개인의 머릿속에만 존재하는 것]이 아니라 [개인과 환경 사이의 연결 속에서 존재]합니다. 43,44 실제로 임상의에게 적용한다면, [추론에 대한 생태학적 관점]은 [추론을 가능하게 하거나 제약하는 영향]이 [임상의의 환경에 대한 적응]과 [임상의가 추론 과제를 수행하는 데 사용할 수 있는 환경 자원]의 함수라고 전제할 수 있습니다. 45 이 접근법은 임상에서 추론을 이해하고, 지원하고, 평가하는 방법에 대한 새로운 사고 방식을 제공합니다.
Viewing these contextual challenges through the lens of ecological psychology offers novel insights by considering how organisms survive through their interaction with, and adaptation to, their environment. In this model, cognition is generally considered an emergent phenomenon of individuals exploring and engaging with their environments, and it exists in the connections between individual and environment, not wholly within the individual’s head. 43,44 If applied to clinicians in practice, an ecological view of reasoning would presuppose that the enabling and constraining influences on reasoning are a function of the clinician’s adaptation to their environment and the environmental resources available to the clinician for accomplishing a reasoning task. 45 This approach offers new ways of thinking about how one might understand, support, and assess reasoning in clinical practice.

생태 심리학의 기원과 교리
The origins and tenets of ecological psychology

[생태 심리학]은 실용주의, 급진적 경험주의, 게슈탈트 심리학, 현상학 등 다양한 이론을 바탕으로 심리학자와 철학자가 지각과 행동을 이해하는 방법과 [유기체와 환경이 상호 작용하여 행동을 형성하는 방법]에 정보를 제공해준다. 46 이를 통해 어포던스, 효과성, 환경, 니치 등 [개인과 맥락 간의 상호작용을 설명하는 새로운 언어]를 제공합니다. 이 백서에서는 의료 전문가와 임상 환경과의 상호작용에 초점을 맞추기 때문에 일반적인 원칙을 설명할 때는 '개인'이라는 용어를, 사례를 설명할 때는 생태 심리학 문헌에서 흔히 볼 수 있는 '행위자' 또는 '유기체'라는 용어 대신 '임상의'라는 용어를 사용하기로 결정했습니다.
Ecological psychology draws upon multiple theories, including pragmatism, radical empiricism, Gestalt psychology, and phenomenology to inform how psychological scientists and philosophers understand perception and action, and how organisms and the environment interact to shape behavior. 46 In doing so, it provides a new language for describing interactions between an individual and their context, including affordance,effectivity,environment, andniche. As our focus in this paper is centered on health professionals’ interactions with their clinical environments, we have chosen to use the term “individual” when describing general principles and “clinician” when illustrating examples, rather than “agent” or “organism” as is commonly found in ecological psychology literature.

[의료 전문직의 임상 추론에 대한 초기 설명]에 따르면, 개인은 훈련과 사전 경험을 통해 얻은 기술과 지식을 상황에 적용합니다. 정보를 숙고할 때 개인은 자신의 지식이나 능력에 대한 제한에 의해 제약을 받습니다. 이러한 관점에서는 지식과 기술에 대해 상대적으로 [탈맥락화된 관점]을 가정하므로, 원칙적으로 [심부전에 대한 임상의의 이해]가 [다양한 환자에게 똑같이 유효해야 한다]거나 임상의가 [환자의 위치, 질병의 중증도 또는 장비의 변화에 관계없이 중심정맥관 삽입을 똑같이 능숙하게 할 수 있어야 한다]고 예측할 수 있습니다. 
In early accounts of clinical reasoning in the health professions, an individual brings skills and knowledge to an encounter that they have gained from training and prior experience. As they deliberate over information, the individual is constrained by limits on their knowledge or abilities. This perspective assumes a relatively decontextualized view of knowledge and skill, such that, in principle, it might predict that a clinician’s understanding of heart failure should be equally valid across a variety of patients, or that a clinician should be equally facile at placing a central line independent of changes in patient positioning, illness severity, or equipment.

생태심리학은 [특정 상황에서 개인이 수행할 수 있는 행동]을 나타내는 [이펙티비티]이라는 개념을 통해 이러한 탈맥락적 관점에 도전합니다. 47 [이펙티비티]는 개인의 기술이나 능력 그 이상으로, 개인이 적절한 상황에서 자신의 기술을 적용하여 할 수 있는 일을 설명합니다. 48

  • [이펙티비티]는 특정 기구를 잡을 수 있는 적절한 크기의 손과 같은 개인의 신체적 형태와 홍반이나 염색된 조직학 슬라이드를 정확하게 구별할 수 있는 색각과 같은 [신체적 능력]에 따라 달라집니다. 예를 들어, 색각의 불일치로 인해 일부 개인은 피부 검사를 통한 황달 진단과 같은 일부 효과를 얻지 못할 수 있습니다. 49
  • 그러나 [이펙티비티]는 [학습한 자료]에 따라서도 달라질 수 있습니다.
    • 즉 생리학, 약리학 또는 해부학에 대한 전임상 지식과 같은 [추상적 지식 구조]
    • 신체 검사, 병력 청취 또는 수술 기법 수행 방법과 같은 [절차적 지식]
  • 또한 [신체적 특성]과 [훈련]이 [상호 작용]하여 고유한 효과의 가능성을 창출합니다.
    • 예를 들어 색맹인 병리학자는 붉은 색이 아닌 세포의 구조나 염색의 밀도로 세포 유형을 구별하는 방법을 배울 수 있습니다. 49,50 마찬가지로 왼손이 우세한 사람은 우세한 손으로 오른손 가위를 사용하는 법을 배우거나 비우세한 손으로 가위를 사용하는 법을 배울 수 있으며, 두 경우 모두 오른손이 우세한 사람과 다르게 가위로 절단하는 효과를 학습하게 됩니다. 결과적으로 왼손잡이인 외과 수련의는 오른손잡이인 동료보다 양손잡이라고 보고할 가능성이 더 높지만, 이러한 기능적 양손잡이는 사실 수련의의 타고난 특성이라기보다는 외과 훈련의 산물일 수 있습니다. 51-54 

Ecological psychology challenges this decontextualized perspective through the notion of effectivities, which represent the actions an individual is able to perform in a specific context. 47 Effectivities are more than skills or abilities of the individual; they describe the things an individual can do by applying their skills under appropriate circumstances. 48 

  • Effectivities depend on the individual’s physical form, such as having hands appropriately sized to hold certain instruments, and physical capabilities, such as possessing color vision to accurately discriminate erythema or stained histology slides. Discrepancies in color vision, for example, may prevent some individuals from acquiring some effectivities, such as diagnosing jaundice by examination of the skin. 49 
  • However, effectivities also depend on learned material:
    • abstract knowledge structures such as preclinical knowledge of physiology, pharmacology, or anatomy, and
    • procedural knowledge such as how to conduct a physical examination, take a medical history, or perform a surgical technique.
  • Moreover, physical attributes and training will interact to create the possibility of unique effectivities.
    • For example, color-blind pathologists may learn to discriminate cell types by their structure or the density of staining rather than red color. 49,50 Similarly, a left-hand-dominant individual may learn to use right-handed scissors with their dominant hand, or learn to use scissors with their nondominant hand; in either case, these individuals learn the effectivity of cutting with scissors differently than right-hand-dominant individuals. As a result, surgical trainees who are left-dominant are more likely to report being ambidextrous than their right-handed colleagues, but this functional ambidexterity in context may, in fact, be a product of surgical training rather than an inherent trait of the trainee. 51–54

기술과 지식의 전문화된 하위 영역이 존재한다고 추측하여 위의 예를 IP 프레임워크 내에서 설명할 수도 있지만, 생태심리학은 더 나아갑니다. [이펙티비티]는 임상의에게 존재하는 [다양한 역량과 지식 구조]가 아니라, 임상의가 [특정 환경에 있을 때만 효과가 나타나는 것]으로 개념화되었습니다. 생태심리학 프레임워크에서 '환경'이라는 용어는 보통 [인공물, 구조물, 사람, 사회적 조건] 등 임상의의 주변 환경을 설명하지만, 임상의료행위를 가능하게 하는 [사람, 사물, 조건]을 구체적으로 설명할 때 임상 환경이 됩니다.

One could potentially account for the examples above within the IP framework by speculating the presence of specialized subdomains of skills and knowledge, but ecological psychology goes further. Rather than being an array of capabilities and knowledge structures present in the clinician, effectivities have been conceptualized as emerging only when the clinician is in a specific environment. The term “environment” in the ecological psychology framing describes the clinician’s surroundings, including artifacts, structures, people, and social conditions, but becomes the clinical environment when it specifically describes the people, objects, and conditions in place that enable clinical practice.

개인이 지식이나 능력을 가지고 있더라도, 이를 [상황에 맞게 적용하는 것]은 [특정 상황에서 가치 있는 효과로 나타나는 정도]를 결정하는 것은 [기회]이다. 이를 위해서는 [환경이 "동물에게 좋은 것이든 나쁜 것이든 동물에게 제공하거나 제공하는 것"]으로 정의되는 환경의 상호 보완적인 [어포던스]가 있어야 합니다. 55(p119) [어포던스]는 환경에 존재한다는 점에서 [이펙티비티]와 상호 보완적이지만, 환경이 적절한 [이펙티비티] 가진 개인과 함께 고려될 때만 가능합니다. [어포던스]는 [물체가 가진 크기, 무게, 강성]이 아니라, [적절한 이펙티비티를 가진 개체]가 [물체]와 함께 있을 때 가능해지는 '-able'한 특성(들어 올릴 수 있는, 흔들릴 수 있는)을 말합니다.

  • 예를 들어 [벽돌]을 건축 자재, 지렛대, 문고리 또는 에머리판으로 사용할 수 있는 방법을 생각해 보십시오.
  • 오브젝트 자체는 동일하지만, 각 용도에 따라 벽돌의 어포던스는 달라지며, 이는 개인이 벽돌을 각각의 고유한 용도에 맞게 사용할 수 있는 능력을 보유하고 있는지에 따라 달라집니다.
  • 한 걸음 더 나아가 벽돌을 주변 환경으로 확장하면, 대부분의 성인 인간에게는 위의 어포던스가 존재하는 반면, 그 아래 개미집의 경우 벽돌은 개미를 보호하고 안전하게 벌집을 드나들 수 있도록 해줍니다.

따라서 [어포던스]는 고유한 환경(이러한 조건에서 이 개인이 들어 올릴 수 있는)에서 개인의 [이펙티비티]를 반영하며, 환경 내에서 [특정 이펙티비티]를 가진 개인과 [특정 어포던스]의 결합으로 컨텍스트를 보다 정교하게 파악할 수 있습니다.
While an individual may have knowledge or abilities, it is the opportunity to apply these in context that determine the extent to which they manifest as valuable effectivities for a specific situation. For this to happen, there must be complementary affordances in the environment, defined as what the environment “offers the animal, what it provides or furnishes, either for good or ill.” 55(p119) Affordances are complementary to effectivities in that they are in the environment, but only available when the environment is considered alongside an individual with appropriate effectivities. An affordance is not the dimensions, weight, or rigidity of an object, but the “-able” quality (liftable, swingable) that is possible when an individual with appropriate effectivities is in conjunction with the object.

  • For example, consider the ways in which one might use a brick: as a building material, a cudgel, a doorstop, or an emery board.
  • While the object itself remains the same, each use represents a different affordance of the brick that is dependent on whether an individual possesses effectivities to use the brick for each unique purpose.
  • Extending this a step further, the brick must be considered in its environment: the above affordances are present for most adult humans, whereas for an ant colony beneath it, the brick affords protection and safe entry and egress from its hive.

Affordances thus reflect the effectivities of individuals in their unique environments (liftable by this individual under these conditions) and provide a more elaborated view of context as the conjunction of an individual with certain effectivities within an environment with certain affordances.

[임상 환경]은, 전자의무기록이 임상의가 정보에 액세스하는 방식부터 기기나 진단 테스트가 임상의의 문제 접근 방식을 형성하는 방식에 이르기까지, [다양한 형태]로 [잠재적 어포던스]를 제공합니다. 그러나 환경은 잠재적으로 상호 보완적인 이펙티비티를 가진 개인에게도 어포던스의 적절한 발현을 방해하는 장벽이 될 수 있습니다.

  • 예를 들어, 시끄러운 임상 환경은 미묘한 심장음이나 폐음을 청진하지 못하게 하거나, 임상의가 통역사를 통해 환자로부터 이야기를 이끌어낼 때 병력 청취와 관련된 효과를 구현하는 데 어려움을 겪을 수 있습니다.

생태학적 프레임워크에서 이러한 [맥락적 요인]은 관련 정보에 대한 임상의의 인식을 흐리는 [문자 그대로의 노이즈]와 임상의의 업무 수행 능력을 저해하는 [주관적 노이즈]를 모두 나타냅니다. 중요한 점은 어포던스가 환경에 따라 다르게 나타날 수 있으며, 벽돌의 스타일이 다른 것처럼 지혈기의 모양, 임상 소프트웨어의 변형 또는 다양한 진료 환경에서 접할 수 있는 알고리즘의 스펙트럼이 다를 수 있다는 점입니다. [새로운 환경에 발을 들여놓은 임상의]는 [익숙하지 않은 어포던스]를 인식하는 법을 배울 수 있으며, [적응적 전문성 프레임워크]를 통해 볼 때 새로운 맥락에 동화되고 행동 체계를 학습하는 데 점점 더 능숙해질 수 있습니다. 생태심리학은 임상적 추론이 시행되는 특정 환경에서 [어포던스]에 대한 [이펙티비티]의 적용을 제한하는 제약을 탐구하는 수단을 제공합니다. 따라서 베이츠와 엘러웨이가 제안한 바와 같이, 생태심리학에서의 '전이'

  • [다양한 상황에 기술을 적용하기 위한 학습을 가져오는 문제]라기보다는,
  • [자신의 잠재적 이펙티비티와 환경의 잠재적 어포던스를 일치시킬 수 있는 기회를 인식하는 문제]라고 정의할 수 있습니다. 29,58,59

The clinical environment offers potential affordances in many forms, from the ways that electronic medical records influence how clinicians access information to the ways that instruments or diagnostic tests shape clinicians’ approaches to problems. However, the environment may present barriers that prevent the appropriate manifestation of an affordance even for an individual with potentially complementary effectivities.

  • A noisy clinical environment may, for example, preclude auscultation of subtle heart or lung sounds, or a clinician may have difficulty enacting their effectivities pertaining to history taking when eliciting narratives from a patient via an interpreter.

In an ecological framework, these contextual factors represent both literal noise that obscures the clinician’s perception of relevant information and subjective noise that impairs their ability to accomplish the task. Importantly, affordances may also have different appearances in different environments, and just as there are different styles of brick, there may be different shapes of hemostats, variations in clinical software, or a spectrum of algorithms that one could encounter across various practice environments. A clinician who steps into a new environment may learn to recognize unfamiliar affordances, and when viewed through an adaptive expertise framework, 56,57 become increasingly adept at assimilating into new contexts and learning systems of action. Ecological psychology provides a means of exploring the constraints that limit the application of effectivities to affordances in a particular environment where clinical reasoning is being enacted. Thus, as suggested by Bates and Ellaway, ecological psychology would frame “transfer”

  • less a matter of bringing learning to apply one’s skills to a variety of situations, and
  • more a matter of recognizing the opportunities for matching one’s potential effectivities with potential affordances in the environment. 29,58,59

 

실천의 체계: 시간이 지남에 따라 컨텍스트가 발전하는 방식
Systems of practice: How context develops over time


[생태 심리학]의 패러다임 내에서 맥락을 구성하면 시간이 지남에 따라 전문 지식의 진화와 제정에 대한 우리의 이해도 달라집니다. [생태학적 프레임워크]는 [개인과 환경 간의 상호작용이 끊임없이 변화하고 서로에게 양방향 변화를 일으킨다]는 것을 시사합니다. 개인은 [환경의 잠재적 어포던스]에 [자신의 이펙티비티]를 적응시킬 뿐만 아니라, [잠재적 이펙티비티]에 맞게 [환경을 형성]하기도 합니다. 동시에 환경은 [환경에 포함된 어포던스]에 따라 [어떤 개인을 다른 개인보다 더 많이 초대하고 지원]합니다. 깁슨은 이러한 [특화된 개인-환경 시스템]을 개인이 환경에 서식하는 방식을 포괄하는 구조인 [니치niche]라고 불렀습니다. 진화론적 자연 선택 이론을 차용하고 이를 정교화함으로써, [니치 구성]시간이 지남에 따라 [니치가 발전하는 과정]을 설명합니다. 예를 들어, [동물의 가축화]는 [제약 조건에 대한 적응]이 아니라 [초기 인류가 새로운 자원과 어포던스에 접근할 수 있는 기회]로 활용되었습니다. 이러한 혁신으로 인해 초기 사회의 성격이 바뀌었고, 인간은 [새롭게 이용 가능한 어포던스]를 활용하기 위해 환경을 계속 변화시켰습니다. 65 인간은 [인공물과 구조물을 만들거나 풍경을 리모델링]함으로써, [새롭거나 더 써먹기 쉬운 어포던스를 형성]하고 [부정적인 어포던스나 위험 요소]를 제거했습니다. 이러한 변화는 ['엔지니어링된 세계']를 만들어냈고, 64 미래의 개인에게 [환경에 서식하는 특정 방법]을 가능하게 하는 [물리적 구조와 문화적 관행]을 물려주었습니다. [현재 우리가 의존하는 어포던스]는 [수천 년에 걸친 문화 발전의 산물]로, 우리 각자가 사는 니치 환경은 ['자연적' 환경으로부터 한 층, 한 층 제거]해오고 있습니다. [니치 구성]의 개념을 임상 실무로 확장하면 임상의와 진료 환경이 시간이 지남에 따라 임상의-환경 시스템의 제약에 상호 적응하는 영향을 인식할 수 있다는 점에서 [니치 구성]의 사례로 [전문화]와 [지역화]를 살펴볼 수 있습니다.
The construction of context within the paradigm of ecological psychology also shifts our understanding of the evolution and enactment of expertise over time. The ecological framing would suggest the interactions between individuals and the environment are constantly changing and causing bidirectional change in each other. Individuals not only adapt their effectivities to the potential affordances of their environments but also shape those environments to their potential effectivities. At the same time, environments invite and support some individuals over others by the affordances they contain. Gibson called this specialized individual–environment system a niche, a construct that encompasses how individuals inhabit an environment. 55(pp120–121),60(p35) Borrowing from and elaborating upon evolutionary theories of natural selection, 61–64niche construction describes the development of a niche over time. As an example, animal domestication was not an adaptation to a constraint, but instead was used by early humans as an opportunity to access new resources and affordances. The nature of these early societies was changed by this innovation, and humans in turn continued to alter their environments to exploit newly available affordances. 65 By building artifacts and structures, or remodeling the landscape, humans shaped new or more easily grasped affordances and removed negative affordances or hazards. These changes created an “engineered world,” 64 providing future individuals with an inheritance of physical structures and cultural practices that enable specific ways to inhabit their environments. The affordances we rely upon are the products of millennia of cultural development, such that we are layers and layers removed from the “natural” environment in our respective niches. Extending the notion of niche construction to clinical practice enables one to explore specialization and regionalization as instances of niche construction, in that we may recognize the influences of clinicians and practice environments mutually adapting over time to constraints in the clinician–environment system.

[전문화]는 [문화적 분화]의 한 형태로, [특정 이펙티비티에 대한 잠재력을 훈련]하고, 진료 니치 시장의 발달에 따라 [다양한 어포던스]에 주의를 기울입니다. [전문화]는 [특정 전문의에게 필요한 이펙티비티]를 훈련하는 데 [필요한 지식과 실습의 범위]와 [어포던스의 범위]를 좁혀 의사 [교육과 실습의 효율성]을 높일 수 있습니다. [전문 분야]는 해당 전문 분야에 가장 적합한 임상 문제, 이러한 임상 문제에 대한 접근 방식, 이러한 접근 방식을 개선하고 새로운 치료 방식을 제공하기 위한 연구, 그리고 많은 경우 [진료를 최적화하기 위한 특정 도구와 건축 구조]를 자체적으로 개발하는 [진료 니치]로 간주될 수 있습니다. [니치]라는 개념을 통해 [전문 분야의 이펙티비티]를 [그룹화]하고, 넓은 의미에서 [임상 치료의 다양한 어포던스]가 환자를 돌볼 때 [서로 다른 도구]뿐만 아니라 [서로 다른 우선순위]를 제공하는 방법을 이해할 수 있습니다. 
Specialization is a form of cultural differentiation, training the potential for specific effectivities and attending to different affordances based on the development of practice niches. It allows for efficiencies in physician training and practice by narrowing the array of affordances, and the knowledge and practice needed to train necessary effectivities, for any given specialist. A specialty can be considered a practice niche, which will develop its own panel of clinical problems to which the specialty is best suited, approaches to these clinical problems, research to refine these approaches and provide new modalities of treatment, and in many cases, specific tools and architectural structures to optimize practice. The concept of a niche allows us to group the specialty’s effectivities, and in broad terms understand how the various affordances in clinical care will not only provide different tools, but different priorities when caring for patients.

[체액 과부하]는 신장 전문의, 심장 전문의, 호흡기 전문의에게 [각기 다른 임상적 실체]이며, 각 전문의는 [이뇨제]와 같은 일부 [도구를 공유]하지만, 선택한 장기 시스템에 문제가 생겼을 때 투석, 기계식 풍선 펌프, 양압 인공호흡기와 같은 [고유한 도구를 사용]합니다. 극단적으로는 "망치만 있으면 모든 것이 못처럼 보인다"는 매슬로우의 망치 법칙("도구의 법칙")으로 요약할 수 있습니다. 특정 이펙티비티를 가능하게 하는 도구의 사용을 포함하여, [특정 이펙티비티에 대해 훈련받은 전문가]는, 다른 사람보다 더 쉽게 인식하고 파악하도록 훈련받은 특성으로 인해, [특정 어포던스에 편향]되어 있습니다. 임상의 환경 시스템 내에서 임상의의 [전문 분야]는 임상의가 [특정 임상 문제에 접근하고 해결하려고 시도하는 방식]을 형성하는 [고유한 이펙티비티]를 나타냅니다. 환자의 임상 문제와 그에 따른 어포던스를 완전히 파악할 수 없는 경우 적절한 전문가에게 환자를 의뢰하거나 상담을 통해 치료를 지원함으로써 이러한 초점을 장려하고 강화할 수 있습니다.

Fluid overload is a different clinical entity for a nephrologist, cardiologist, and pulmonologist, each of whom shares some tools, such as diuretics, and yet brings unique tools, such as dialysis, mechanical balloon pumps, and positive pressure ventilation, when their chosen organ system fails. At the extreme, this is encapsulated in Maslow’s Hammer (“the law of the instrument”), “If all you have is a hammer, everything looks like a nail.” Specialists trained with certain effectivities, including the use of tools that enable specific effectivities, are biased toward certain affordances by the nature of having been trained to perceive and grasp them more readily than others. Within the clinician–environment system, a clinician’s specialty will present a unique array of effectivities that will shape how that clinician approaches and is likely to try to solve a specific clinical problem. This focus is encouraged and reinforced by referring patients to or consulting appropriate specialists to assist in care when the patient’s clinical problem and the affordances it presents aren’t fully within our grasp.

[지역화]는 [환경적 차이로 인해 진료 패턴이 차별화되는 것]으로, [동일한 전문 분야]의 [두 니치 시장]이 [유사한 임상 문제]를 해결하기 위해 [서로 다른 이펙티비티와 어포던스에 의존]할 수 있습니다. [지역화]는 [지역적 요인]으로 인해 [지역 특이적 압력]이 발생하여, [진료 니치 시장을 차별화]할 때 발전합니다. 66 전문직 협회, 면허 위원회 및 법적 환경은 진료 표준을 유지하려고 노력하지만, [서로 다른 진료 니치 시장]에서 전문의마다 [소속되었던 기관]에서 [받은 교육이 다양하고, 이용가능한 자원과 기술이 다양]하기 때문에, 전문 분야의 [이펙티비티를 적용]하는 데 제약이 있습니다. 이로 인해 임상 문제에 대한 [접근 방식이 지역화]되어, 같은 전문 분야 내에서도 [환경마다 다른 솔루션의 우선순위가 달라질] 수 있습니다.

  • 고도로 도시화된 전문 치료 센터의 경우, 심근경색과 뇌졸중 치료는 하위 전문 분야 교육을 받은 임상의의 가용성뿐만 아니라 혈관 내 치료를 위한 추가 도구를 통해 지원됩니다.
  • 원격 시설의 임상의는 이러한 환자를 치료하는 데 있어 다양한 어포던스에 직면하게 되며, 적절한 임상적 결정은 전문 치료 센터에서 내린 결정과 상당히 다를 수 있습니다.
  • 또한 지역 및 지역 의료 시스템의 결정에 따라 [자원]을 [고비용 검사 및 치료 방식에 차별적으로 배정]함으로써 치료에 영향을 미칠 수 있으며, 이는 다시 지역별로 최적의 치료가 무엇인지에 영향을 미칩니다.

[특정 지역의 니치 시장]에서 훈련받거나 경험이 풍부한 임상의는 [환자 요인]뿐만 아니라 [클리닉, 병원, 의료 시스템, 규제 요인]에 따라 진료에 사용할 수 있는 [어포던스]가 달라지므로, [새로운 니치 시장]으로 이동하는 데 상당한 조정이 필요할 수 있습니다.

Regionalization is a differentiation of practice patterns due to environmental differences, such that 2 niches of the same specialty may rely upon different effectivities and affordances to solve similar clinical problems. Regionalization evolves when local factors produce idiosyncratic pressures that lead to differentiation of practice niches. 66 While specialty professional associations, licensing boards, and legal landscapes try to maintain standards of care, specialists in separate practice niches bring variations in training from home institutions and have access to varying resources and technology that constrain how they can apply the specialty’s effectivities. This leads to localization of approaches to clinical problems such that different environments may prioritize different solutions even within the same specialty.

  • In highly urbanized specialized care centers, care of myocardial infarction and stroke are supported not only by the availability of subspecialty trained clinicians but also with additional tools for endovascular care.
  • The clinician in a remote facility faces a different array of affordances to care for these patients, and appropriate clinical decisions may appear quite different from those made at the specialized care center.
  • Local and regional health system decisions may also influence care by directing resources differentially toward or away from high-cost testing and treatment modalities, again affecting what qualifies as optimal care by region.

Clinicians trained or experienced in one regional niche may require significant adjustment moving into a new niche, as the affordances available to direct their care depend not only on patient factors but also on clinic, hospital, health system, and regulatory factors.

[전문화]와 [지역화]는 특정 임상의의 이펙티비티를 형성하여, [진료 니치 시장]을 정의하는 데 상호 작용하여 [진료 방법과 대상에 대한 제약]을 만들어낸다. 이러한 의미에서 [맥락]은 [즉각적인 상황]뿐만 아니라, 개인과 환경을 형성한 [문화적, 역사적 과정]도 반영합니다. 동시에, [기존의 니치 시장]에 [새로운 임상의]가 도입되면, [(기존의) 표준 관행을 파괴]하고 집단적 제공자-환경 니치 시장을 발전시키는 방식으로 [맥락을 재구성할 수 있는 기회]를 제공합니다.
Specialization and regionalization interact in defining practice niches by molding the effectivities of a given clinician, introducing constraints regarding how and to whom they provide care. In this sense, context reflects not only the immediate picture but also the cultural and historical processes that shaped both that individual and environment. At the same time, the introduction of a new clinician to an established niche offers opportunities to disrupt standard practices and reshape the context in ways that evolve the collective provider–environment niche.

토론
Discussion

보건 전문직 교육에서 임상 성과에 대한 이해에서 [맥락의 위치를 재고해야 한다]는 요구와 노력이 증가하고 있습니다. 그러나 이러한 노력 중 상당수는 [개인]과 [그 개인이 행동하는 맥락]을 [이분법적]으로 구분해 왔습니다. 생태심리학은 임상 성과를 이해하기 위한 기본 분석 단위로 통합된 개인-환경 시스템을 가정함으로써 이 문제에 대한 새로운 관점을 제시합니다. 이러한 관점은 [맥락 특이성]을 [인간 인지를 이해하는 데 있어 복잡하게 만드는 요소]가 아니라, [관심의 중심 현상]으로 재배치하고, 이를 이해할 뿐만 아니라 [탐색하고 관리할 수 있는 개념적 도구]를 제공합니다. [니치 구성]이라는 개념을 통해 [맥락 특이성]이 [전문가가 극복해야 하는 한계]가 아니라 [전문가가 내재되어 있고, 환경 속에서 전문가가 성과를 낼 수 있는 기반]이라는 점을 이해할 수 있습니다. 전문가들은 잠재적 효과를 지역적, 역사적 어포던스에 맞게 조정하고 환경의 어포던스를 재구성하여 자신의 업무를 최적화합니다.
In health professions education, there have been growing calls and efforts to reconsider the place of context in our understanding of clinical performance. 18,29,30,33 Yet many of these efforts have continued to dichotomize the individual and the context in which that individual is acting. Ecological psychology offers a new perspective on this challenge by postulating an integrated individual–environment system as a basic unit of analysis for understanding clinical performance. This perspective repositions context specificity not as a complicating factor in understanding human cognition, but rather as the central phenomenon of interest, and gives us conceptual tools not only to understand it but also to explore and manage it. The concept of niche construction allows us to appreciate how context specificity is not a limitation that experts try to overcome, but a firmament in which experts are embedded and which enables their performance in an environment. Experts attune potential effectivities to local, historical affordances and reshape the environment’s affordances to optimize their practice.

[니치 구성]을 [이펙티비티 및 맥락적으로 고유한 환경 어포던스]를 [체계적으로 활용하고 적응하는 종단적 프로세스]로 정의하면 [재현 가능하고 이전 가능한 임상 문제에 대한 전문가 솔루션이 있다]는 [HPE의 일반적인 가정]에 도전할 수 있습니다. 문헌의 풍부한 데이터는 전문가들이 실제로 진료에 대한 [획일적인 전문가 접근 방식으로 수렴하는 경향이 없음]을 시사합니다. [임상적]으로 수술실에서는 외과의의 선호도와 접근 방식에 [특이한 변동성]이 있다는 증거가 있습니다. 67 

  • 전문 외과의가 영상에서 유사한 특징을 발견하더라도 [동일한 수술 계획이나 관리 전략에 도달하지는 않습니다]. 68
  • 전문 피부과 의사는 다른 전문 피부과 의사가 어떤 오류를 범할지 예측할 수 없기 때문에 [공통된 진단 프로세스에 대한 통합]이나 [잘못될 수 있는 방법에 대한 이해]가 거의 이루어지지 않습니다. 69
  • 좀 더 개념적으로, 폐 생리와 같은 영역에 대한 전문 임상의의 인지적 표현을 탐구하려는 노력에서 "연구자와 응답자 [모두 도출된 개념적 네트워크의 특이한 특성]에 놀라움을 금치 못했습니다." 70(78쪽)

Framing niche construction as a longitudinal process of systematically leveraging and adapting effectivities and contextually unique environmental affordances also allows us to challenge the common assumption in HPE that there are expert solutions to clinical problems that are both reproducible and transferrable. Ample data in the literature suggests that experts do not, in fact, tend to converge on a uniform expert approach to practice. Clinically, there is evidence of idiosyncratic variability in surgeon preferences and approaches in the operating room. 67 

  • Even when expert surgeons see similar features on imaging, they do not land on the same operative plan or management strategy. 68 
  • Expert dermatologists can’t predict what errors other expert dermatologists are likely to make, suggesting little convergence on a common diagnostic process or understanding of how it might go wrong. 69 
  • More conceptually, in efforts to explore the expert clinician’s cognitive representation of domains such as pulmonary physiology, “researchers and respondents alike were struck by the idiosyncratic qualities of the derived conceptual networks.” 70(p78) 

[교육적]으로도 전문 임상 교사의 학생 학습 진단 및 관리에서도 [비슷한 불일치]를 발견할 수 있습니다.

  • [평가자 간 오류가 수행 신호를 휩쓸고 있다]는 편재한 발견에서 볼 수 있듯이, [학습자의 임상 수행을 해석하고 채점하는 단일 전문 방법은 없는 것]으로 보입니다. 71
  • 전문 임상 교사들 역시 [학생의 부적당한 수행을 초래하는 특정 문제]에 대해 동의하지 않는 것으로 보입니다. 72
  • 교육 기업에 대한 [숙련된 교사들의 개념]조차도 다양성과 특이성으로 가득 차 있습니다. 73

Educationally, we see similar discrepancies in expert clinical teachers’ diagnosis and management of student learning.

  • There appears to be no single expert way to interpret and score learners’ clinical performances, as seen in the ubiquitous finding of inter-rater error swamping the performance signal. 71 
  • Nor do expert clinical teachers appear to agree on the particular problem that is leading to a student’s suboptimal performance. 72 
  • Even experienced teachers’ conceptions of what the teaching enterprise is about are rife with variability and idiosyncrasy. 73 

이러한 특수성을 인정하는 것은 임상 실습에서 [진단 및 관리 오류에 대한 우리의 기본 가정]에 영향을 미칠 수 있습니다.

  • 예를 들어, 의료 오류에 대한 사후 분석은 74 [임상의의 이펙티비티][특정 사례 및 진료 환경 내의 어포던스] 측면에서 진단 프로세스를 탐색하고 오류에 대해 [개인과 환경 모두의 고유한 기여]에 초점을 맞춰 근본적으로 재구성될 수 있습니다.
  • 또한 오류의 원인이 해당 사례가 발생한 개인-환경 시스템에만 국한된 것인지, 아니면 자원이 제한적이거나 자원이 풍부한 다른 유사한 상황에서는 오류로 분류되지 않았을 수도 있는지를 고려하여 임상 추론 과정과 결과에 대한 규범적 기준을 확장할 수 있습니다.

Acknowledging such idiosyncrasy could have implications for our underlying assumptions of diagnostic and management errors in clinical practice.

  • Post hoc analyses of a medical error, 74 for example, could be radically refashioned to explore the diagnostic process in terms of the clinician’s effectivities and the affordances within in the specific case and practice environment, focusing on the unique contributions to error on the part of both the individual and their environment.
  • We might also consider whether the attribution of error is specific to the individual–environment system in which the case occurred or might not have been labeled an error in other similar resource-constrained or resource-rich situations, thus potentially broadening normative standards around clinical reasoning processes and outcomes.

[[이펙티비티]와 [어포던스] 간의 상호작용]에 초점을 맞추면 [전문가 성과에 대한 정의]뿐만 아니라 [전문가 개발에 대한 이해]도 [맥락과 깊게 얽혀 있는 구조]로 바뀝니다. 생태학적 관점에서 우리는 개인의 지식과 기술이 진화하는 독특한 방식을 이전에 맥락에서 문제에 어떻게 적용되었는지를 반영하는 것으로 해석할 수 있습니다.

  • 생태심리학 관점에서의 과제 분석(45)은 임상 환경에서 "미시적 기술"75을 가르치는 것 이상으로 확장하여, 훈련의 목표로서 [총체적 행동]을 가능하게 하는 [이펙티비티와 어포던스]를 식별할 수 있게 해줄 수 있습니다.
  • [의도적 연습 모델]에서 제안하는 것처럼, 코치나 교사의 역할을 포함하도록 확장한다면, 슈퍼바이저는 학습자가 [자신의 이펙티비티를 환경 어포던스로 형성하려는 노력]을 지원해야 합니다.
  • 임상 수퍼바이저는 수련생이 [임상 환경에서 어포던스를 인식하고 파악하는 방법]을 어떻게 배우고 있는지에 초점을 맞춰 수련생을 모니터링할 것이며, 이상적으로는 수퍼바이저가 전문가인 임상 환경이 적합합니다.
  • 이는 학습자의 [잠재적 이펙티비티]뿐만 아니라 이러한 [이펙티비티를 개발해야 하는 실무 니치]도 인정합니다.

따라서 우리는 [학습자 중심 접근법]을 [학습자-환경 접근법]으로 확장하여 [단일 전문가의 의견이나 접근법, 76 또는 탈맥락화된 역량 목록 77,78]을 역량에 대한 참조 표준으로 사용하기보다는 교육생이 [실습 환경(또는 환경)에 적응habilitate할 수 있는 기능적 절차의 개발]에 초점을 맞출 수 있습니다.
The focus on the interaction between effectivities and affordances not only shifts our definition of expert performance but also our understanding of expert development toward a construction that is deeply intertwined with context. From an ecological perspective, we would interpret the idiosyncratic ways that individuals’ knowledge and skills evolve as a reflection of how they were previously applied to problems in context.

  • Task analysis 45 from the ecological psychology perspective may allow us to expand beyond teaching “micro skills” 75 in a clinical setting to identify effectivities and affordances that together enable summative behaviors as a goal for training.
  • If we extend this to include the role of a coach or teacher, as would be suggested within models of deliberate practice, a learner’s efforts to shape their effectivities to environmental affordances should be supported by supervisors.
  • The clinician supervisor would focus their monitoring of trainees on how they are learning to recognize and grasp the affordances in the clinical environment, ideally one in which the supervisor is expert.
  • This acknowledges not just the learner’s potential effectivities but also the practice niche in which those effectivities must be developed.

Thus, we might expand the learner-centered approach to the learner-in-environment approach, focusing on the development of functional procedures that habilitate the trainee to the practice environment (or environments) rather than using any single expert’s opinion or approach, 76 or decontextualized list of competencies 77,78 as a reference standard for competence.

또한, 우리는 수련의의 신체적 형태나 능력의 불일치로 인해 수련의가 적응하거나 재현할 수 없는 감독자나 교육자의 접근 방식을 반복하는 대신, [수련의의 어포던스 파악 및 임상 과제 수행 능력]을 [역량 표준]으로 삼아 학습 결과를 개발할 수 있습니다. 이런 의미에서 [왼손잡이 전공의]는 오른손잡이 대다수가 개발한 수술 접근법을 가르치기 위해 오른손잡이 기구를 사용하는 [오른손잡이 수퍼바이저 체제]에서는 '수련하기 어렵다'고 할 수밖에 없습니다. 이러한 의미에서 교육자와 수련의는 임상 치료를 가능하게 하는 [다양한 이펙티비티]를 탐구할 뿐만 아니라, [소위 장애를 가진 개인]은 [특정 어포던스에 접근하는 방법]에 대한 우리의 이해에 기여할 수 있는 [귀중한 관점을 가지고 있음]을 인정하고, 색이 아닌 질감으로 조직 병리학 슬라이드를 분류하는 것과 같은 대체 어포던스를 활용하여 교육 및 진단에 대한 접근 방식을 강화할 수 있는 49,50 [반장애주의적 입장]을 취하는 것이 도움이 될 수 있습니다.

Further, we might develop learning outcomes based on a trainee’s ability to grasp affordances and accomplish clinical tasks as a standard of competence rather than recapitulating a supervisor or educator’s approach, which may not be adaptable or reproducible by a trainee due to mismatches in the trainee’s physical form or capabilities. In this sense, a left-hand-dominant surgical resident is only “difficult to train” in a regime of right-hand-dominant supervisors who use right-handed instruments to teach operative approaches developed by the right-handed majority. In this sense, educators and trainees may benefit from an antiableist stance that explores not only a diversity of effectivities to enable clinical care but also acknowledges that individuals with so-called disabilities have valuable perspectives to contribute to our understanding of how to approach certain affordances, and may exploit alternative affordances, such as the categorization of histopathology slides by texture rather than color, 49,50 that augment our approaches to training and diagnosis.

마지막으로, [진료 니치]의 프레임을 통해 [진료의 변형]을 탐구하는 것은 임상 치료에서 최적의 솔루션(및 문제 정의)을 결정하는 데 있어 [장소의 중요한 역할]을 탐구할 수 있는 추가적인 개념적 도구를 제공할 수도 있습니다. 예를 들어, 농촌 지역에서 농촌 인구를 위한 교육을 개발하려는 노력은 [진료 니치]를 형성하는 중요한 맥락적 요소로서 [지역사회의 요구와 사회적 책무]를 참여시키고, 교육생이 지역 환경에 적응할 수 있도록 [교육의 모든 단계에서 지역 사회에 몰입]하는 데 중점을 두었습니다. 79 이와 대조적으로, [농촌 환경을 위한 원격 교육 모델]은 표준화에 중점을 두고 있으며, 어포던스를 표준화하기 위해 유사한 아키텍처와 기술을 조합하여 [로컬 캠퍼스]와 [위성 캠퍼스] 간에 '비교 가능한 경험'을 제공하려고 시도하고 있습니다. 80 [원격 학습자]가 주로 동료 중심 환경에 있거나 동료 및 강사로부터 고립되어 있을 때 어떻게 다르게 참여하는지, 학습자가 활용할 가능성이 있는 리소스를 포함하여 기관의 벽 밖에서 학습 활동을 계획하는 방법을 조사하여 이 모델을 확장할 수 있습니다. 81 또한 메인 캠퍼스로 표준화된 교육을 받는 원격 학습자에게 어떤 제한이 있는지 살펴볼 수 있습니다. [지역화된 이펙티비티]라는 개념은 표준화된 교육에서 ['대도시 중심적' 규범성]을 피할 수 있는 [지방 의료의 강점과 장점을 파악하는 수단]을 제공할 수 있습니다. 82,83
Finally, exploring variations in practice through the frame of practice niches may also offer us additional conceptual tools to explore the important role of place in determining optimal solutions (and even problem definitions) in clinical care. For example, efforts to develop training in rural areas, for rural populations, have focused on engaging community needs and social accountability as critical contextual factors in shaping the practice niche, and immersion in the community for all phases of training to ensure that trainees are attuned to their local environments. 79 By contrast, distance learning models of training for rural environments have focused on standardization, and attempt to provide a “comparable experience” between local and satellite campuses using a combination of similar architecture and technology to standardize affordances. 80 We could expand on this model by examining how remote learners necessarily engage differently when predominantly in peer-driven settings or isolated from both peers and lecturers, and how we might plan learning activities outside institutional walls, including what resources learners are likely to exploit. 81 Further, we might examine what limitations are placed on remote learners whose education is standardized to the main campus. The concept of regionalized effectivities may provide a means to identify strengths and advantages of rural practice that avoid the “metrocentric” normativity in standardized training. 82,83

결론
Conclusions

생태심리학은 임상의와 임상 환경이 시간이 지남에 따라 상호 작용하고 진화하는 방식을 이해하는 이론적 틀과 새로운 언어를 제공합니다. 맥락적 특수성을 임상적 추론의 기본으로 이해하면 환경에서의 복잡한 행동을 포용할 수 있으며, 전문 지식이나 전문가적 접근 방식에 대한 단일한 정의를 추구하지 않아도 됩니다.

Ecological psychology provides a theoretical framework and new language to understand the ways that clinicians and their clinical environments interact and evolve over time. Context specificity, when understood as fundamental to clinical reasoning, invites us to embrace the complexity of action in an environment and may absolve us from seeking singular definitions of expertise or expert approaches.


Acad Med. 2022 Nov 1;97(11S):S80-S86. doi: 10.1097/ACM.0000000000004899. Epub 2022 Aug 9.

An Ecological Account of Clinical Reasoning

Affiliations collapse

1B.K. Watsjold is assistant professor, Department of Emergency Medicine, University of Washington School of Medicine, Seattle, Washington; ORCID: https://orcid.org/0000-0003-4888-8857 .

2J.S. Ilgen is professor, Department of Emergency Medicine, University of Washington School of Medicine, Seattle, Washington; ORCID: https://orcid.org/0000-0003-4590-6570 .

3G. Regehr is professor, Department of Surgery, and senior scientist, Centre for Health Education Scholarship, University of British Columbia, Vancouver, British Columbia, Canada; ORCID: https://orcid.org/0000-0002-3144-331X .

PMID: 35947479

DOI: 10.1097/ACM.0000000000004899

Abstract

Purpose: The prevailing paradigms of clinical reasoning conceptualize context either as noise that masks, or as external factors that influence, the internal cognitive processes involved in reasoning. The authors reimagined clinical reasoning through the lens of ecological psychology to enable new ways of understanding context-specific manifestations of clinical performance and expertise, and the bidirectional ways in which individuals and their environments interact.

Method: The authors performed a critical review of foundational and current literature from the field of ecological psychology to explore the concepts of clinical reasoning and context as presented in the health professions education literature.

Results: Ecological psychology offers several concepts to explore the relationship between an individual and their context, including affordance, effectivity, environment, and niche. Clinical reasoning may be framed as an emergent phenomenon of the interactions between a clinician's effectivities and the affordances in the clinical environment. Practice niches are the outcomes of historical efforts to optimize practice and are both specialty-specific and geographically diverse.

Conclusions: In this framework, context specificity may be understood as fundamental to clinical reasoning. This changes the authors' understanding of expertise, expert decision making, and definition of clinical error, as they depend on both the expert's actions and the context in which they acted. Training models incorporating effectivities and affordances might allow for antiableist formulations of competence that apply learners' abilities to solving problems in context. This could offer both new means of training and improve access to training for learners of varying abilities. Rural training programs and distance education can leverage technology to provide comparable experience to remote audiences but may benefit from additional efforts to integrate learners into local practice niches.

관리추론: 보건전문직교육과 연구아젠다의 함의 (Acad Med, 2019)
Management Reasoning: Implications for Health Professions Educators and a Research Agenda
David A. Cook, MD, MHPE, Steven J. Durning, MD, PhD, Jonathan Sherbino, MD, MEd, and Larry D. Gruppen, PhD

 

[임상 추론](임상의가 임상 정보(병력, 검사 소견, 검사 결과), 선호도, 의학 지식, 맥락(상황) 요소를 통합하여 개별 환자의 치료에 대한 결정을 내리는 인지 과정)은 거의 모든 의료 전문가의 일상 활동의 핵심입니다.2 임상 추론의 작동 방식을 이해하는 것은 임상 진료에서 오류를 방지하고 이러한 과정의 개발을 지원하는 교육을 최적화하려는 노력에 필수적입니다.3,4
Clinical reasoning—the cognitive processes by which clinicians integrate clinical information (history, exam findings, and test results), preferences, medical knowledge, and contextual (situational) factors to make decisions about the care of an individual patient1—is central to the daily activities of nearly all health care professionals.2 Understanding how clinical reasoning works is essential to efforts to prevent errors in clinical practice and to optimize instruction that supports the development of these processes.3,4

수십 년에 걸친 상당한 연구를 통해 [진단에 도달하는 데 관련된 임상 추론 과정(진단 추론)]5-8을 밝히고 교육 및 지속적인 연구에 대한 시사점을 확인했습니다.9-12 치료, 추가 검사, 후속 방문, 제한된 자원의 할당 등 [환자 관리에 수반되는 임상 추론 과정(관리 추론)]에 대해서는 알려진 것이 훨씬 적습니다.1,10,13,14 그러나 개념적 틀과 실증 연구에서 진단 추론의 중요성에도 불구하고 환자를 돌볼 때 관리 추론보다 덜 중요할 수도 있습니다. [정확한 진단을 내리는 것]은 최종 목적, 즉 진단에 적합한 관리 계획의 실행을 위한 수단일 뿐입니다. 또한, 응급 의사가 통증의 정확한 원인을 모른 채 '비심장성 흉통'을 호소하는 환자를 집으로 돌려보내는 경우처럼 방어 가능한 관리 결정을 실행하기 위해 [완전히 정확한 진단이 필요하지 않은 경우]도 종종 있습니다.
Substantial research over several decades has helped illuminate the clinical reasoning processes involved in arriving at a diagnosis (diagnostic reasoning)5–8 and identified implications for teaching and ongoing research.9–12 Far less is known about the clinical reasoning processes entailed in patient management (management reasoning), including decision making about treatment, further testing, follow-up visits, and allocation of limited resources.1,10,13,14 Yet despite its prominence in conceptual frameworks and empiric research, diagnostic reasoning may be less important in caring for patients than management reasoning. Making the correct diagnosis is only a means to an end—namely, the implementation of a management plan appropriate for that diagnosis. Moreover, a fully correct diagnosis is often not required to implement a defensible management decision, as when an emergency physician sends home a patient with “noncardiac chest pain” without knowing the exact source of pain.

관리 추론에 대한 어떠한 리뷰도 확인할 수 없었으며, 관리 추론과 직접적으로 관련된 실증 연구도 거의 찾아볼 수 없었습니다.14-17 관리 추론의 개념을 명확히 하는 것은 이 분야의 향후 연구를 위한 발판을 마련하고 보건 전문직 교육에서의 잠재적 적용을 식별할 수 있을 것입니다. 이 글의 목적은 [관리 추론]을 [진단 추론]과 구별하여 설명하고, 잠재적으로 통찰력이 있는 이론적 렌즈를 고려하며, 교육적 시사점을 개괄하고, 필요한 연구 분야를 제안하는 것입니다.
We could not identify any reviews of management reasoning, and we found few empirical studies directly related to management reasoning.14–17 Clarification of the concept of management reasoning will set the stage for future research in this field and identify potential applications in health professions education. The purpose of this article is to describe management reasoning as distinct from diagnostic reasoning, consider potentially insightful theoretical lenses, outline educational implications, and propose areas of needed research.

관리 추론과 진단 추론의 대비
Contrasting Management and Diagnostic Reasoning

[진단]은 주로 임상의가 (진단 추론의 인지 과정을 통해) 증상, 징후, 검사 결과의 패턴에 라벨을 부여하는 [분류 활동]입니다.19 이러한 라벨(진단)은 질병에 대한 임상의의 이해를 반영하며 일반적으로 근본적인 원인 또는 병리를 나타냅니다. 라벨(진단)은 그 자체로 가치가 있는 것이 아니라, [문제에 대한 임상의의 이해와 접근 방식을 형성하고, 의료진 간의 의사소통을 촉진하며, 의료진이 환자를 바라보고 상호 작용하는 방식에 영향을 미침]으로써 의미 결정에 도움이 됩니다.20 특정 라벨(예: "섬유근육통")은 [임상의와 간병인 사이에서 매우 다른 의미(종종 의도하지 않게)]를 내포할 수 있습니다.
Diagnosis is primarily a classification activity18 in which clinicians (through the cognitive processes of diagnostic reasoning) assign labels to a pattern of symptoms, signs, and test results.19 These labels (diagnoses) reflect the clinician’s understanding of the illness and typically denote an underlying cause or pathology. Labels (diagnoses) do not have value in themselves; rather, they help with meaning making by shaping the clinician’s understanding of and approach to a problem, facilitating communication among members of the health care team, and influencing how the team views and interacts with the patient.20 A given label (e.g., “fibromyalgia”) may connote (often inadvertently) very different meanings to different clinicians and caregivers.

[진단]은 [라벨 또는 분류가 조치에 영향을 미치는 범위 내]에서만 유용합니다(예: "허혈성 심근병증"이라는 라벨은 병원 입원, 심장 도관 삽입 및 안지오텐신 전환 효소 억제제 처방을 유도할 수 있음). 많은 상황에서 [피상적, 잠정적 또는 비특이적 분류("비심장성 흉통" 또는 "상부 호흡기 감염")]가 [최종적인 관리에 적합]한 것으로 판명됩니다. 실제로 관리 결정은 일반적으로 필요한 진단 특이성 수준을 결정합니다.

  • 불충분하게 구체적인 라벨은 최적의 관리가 아닌 suboptimal한 관리로 이어질 수 있으며,
  • 일부 라벨은 불필요한 세부 사항을 반영하고 비효율적인 리소스 사용(예: 과잉 검사)을 암시할 수 있습니다.

예를 들어, 자기공명영상(MRI)은 '급성 요통'의 원인에 대한 자세한 정보를 제공하여 특정 진단 라벨을 쉽게 지정할 수 있지만, 이 정보가 [초기 관리를 변경하는 경우는 거의 없으므로] 일반적으로 이 검사는 낭비적인 것으로 간주됩니다.
A diagnosis is useful to the extent that the label or classification has implications for action (e.g., the label “ischemic cardiomyopathy” might prompt hospital admission, cardiac catheterization, and prescription of angiotensin-converting enzyme inhibitor). In many situations, a superficial, provisional, or nonspecific classification (“noncardiac chest pain” or “upper respiratory infection”) proves adequate for definitive management. Indeed, management decisions typically drive the level of diagnostic specificity required. An insufficiently specific label could lead to suboptimal management, but some labels reflect superfluous detail and suggest inefficient use of resources (i.e., overtesting). For example, although magnetic resonance imaging (MRI) can provide detailed information about the cause of “acute low back pain” and thereby facilitate a specific diagnostic label, this information rarely changes initial management, and hence the test is commonly considered wasteful.

진단과 달리 관리에는 행동 계획에 대한 협상과 해당 계획의 [지속적인 모니터링 및 조정]이 포함됩니다. [관리 추론]은 이러한 협상, 관찰 및 조정과 관련된 인지적 프로세스를 포함합니다. 아래에서는 관리 추론이 진단 추론과 다른 몇 가지 방식을 확인합니다(도표 1에 요약되어 있음).
Management, in contrast to diagnosis, involves negotiation of a plan of action and ongoing monitoring and adjustment of that plan. Management reasoning encompasses the cognitive processes associated with these negotiations, observations, and adjustments. Below, we identify several ways in which management reasoning differs from diagnostic reasoning (summarized in Chart 1).

하나의 올바른 계획은 없다
No single correct plan

주어진 진단은 일반적으로 정확하거나 부정확한 것으로 확정될 수 있습니다. 트위터에서는 진단의 맥락과 후속 사용 목적에 따라 동일한 상태(즉, 동일한 질병 또는 질환)에 다른 레이블을 지정할 수 있음을 인정합니다. 예를 들어, 라벨은 질병의 중증도("급성 질환"), 증상("흉통"), 질병("급성 관상동맥 증후군"), 해부학적 이상("폐색된 관상동맥") 또는 병리("심근 괴사")에 초점을 맞출 수 있습니다. 비록 동일한 의학적 상태에 여러 가지 라벨을 적절히 적용할 수 있지만, 적어도 이론적으로는, 각 진단이 옳거나 그른지에 대한 확실한 판단이 가능합니다. 우측 관상동맥은 폐색된 상태이거나 폐색되지 않은 상태이거나 둘 중 하나이다. 일부 대체 라벨은 똑같이 정확할 수 있지만("심근경색"), 다른 라벨은 부정확할 수 있습니다("심낭염"). 실용적인 관점에서 볼 때, [상호 교환적으로 정확]하려면 [모든 대안적 진단]이 [조치에 대해 동일한 의미]를 가져야 하며 [유사한 근본 원인을 제시]해야 합니다예를 들어, "상기도 감염"과 "급성 부비동염"의 진단은 모두 [유사한 근본 원인(바이러스 감염)과 관리 방법을 제시]하기 때문에 상호 교환 가능한 정답으로 해석될 수 있습니다.
A given diagnosis can usually be established as correct or incorrect. We acknowledge that different labels can be assigned to the same condition (i.e., the same illness or disease), depending on the context and the intended subsequent use of the diagnosis. For example, labels can focus on illness severity (“acutely ill”), symptom (“chest pain”), disease (“acute coronary syndrome”), anatomic abnormality (“occluded coronary artery”), or pathology (“myocardial necrosis”). Nonetheless, although multiple labels can appropriately be applied to the same medical condition, each diagnosis can—at least in theory—be judged as correct or incorrect in absolute terms. A patient either does or does not have an occluded right coronary artery. Some alternate labels may be equally correct (“myocardial infarction”), but others would be incorrect (“pericarditis”). From a practical standpoint, to be interchangeably correct, all alternate diagnoses should have the same implications for action and should suggest a similar underlying cause. For example, the diagnoses of “upper respiratory infection” and “acute sinusitis” could be construed as interchangeably correct, because both suggest a similar underlying cause (viral infection) and management approach.

이와는 대조적으로, 일반적으로 진단 검사, 환자 교육, 치료 및 후속 조치의 다양한 조합으로 구성된 [다수의 합리적인 관리 접근 방식]이 있습니다. "상황에 따라 다르다"는 말은 관리에서 흔히 사용됩니다.

  • [환자 선호도, 물류 제약, 문화적 규범, 자원 가용성 등]이 모두 [관리 결정]에 영향을 미치며,
  • [불확실성 및 위험에 대한 내성]과 같은 [임상의학적 요인]도 영향을 미칩니다.21,22
  • [특정 치료 옵션의 잠재적 위험과 이득]도 상황에 따라 다릅니다: 한 클리닉의 외과의사는 한 접근법에 더 숙련된 반면, 다른 클리닉의 외과의사는 다른 접근법에 더 숙련될 수 있습니다.

요컨대, 일반적으로 성공적인 결과에 이르는 길은 여러 가지가 있으며, 여러 상황에서 수용 가능한 결과도 여러 가지가 있을 수 있습니다.23,24 따라서 하나의 "올바른" 또는 "최선의" 관리 계획을 말하기는 어렵고(이상적이거나 이론적인 상태에서도), 오히려 어느 정도 "합리적인" 또는 "방어 가능한" 계획을 말해야 합니다.
By contrast, there are usually multiple reasonable management approaches, comprising varying combinations of diagnostic testing, patient education, treatment, and follow-up. “It depends” is common in management.

  • Patient preferences, logistical constraints, cultural norms, and resource availability all influence management decisions,
  • as do clinician factors such as tolerance for uncertainty and risk.21,22 
  • Even the potential risks and benefits of specific treatment options vary across situations: Surgeons in one clinic may be more skilled in one approach, while surgeons in another clinic may be more skilled in another.

In short, there are usually multiple paths to a successful outcome, and there will even be multiple acceptable outcomes in many situations.23,24 Thus, it is difficult to speak of a single “correct” or “best” management plan (even in an idealized or theoretical state); rather, we must speak of more or less “reasonable” or “defensible” plans.

선호도 및 사회적 맥락
Preferences and social context

환자 선호도, 임상의 태도, 임상 환경, 물류 제약이 진단에 영향을 미쳐서는 안 됩니다. 폐렴 환자는 환자의 선호도나 사회적 맥락에 관계없이 폐렴에 걸린 것입니다. 섬유근육통 또는 역형성 갑상선암 진단은 환자가 해당 진단을 원하는지 또는 필요한 치료를 받을 수 있는지에 따라 달라지지 않습니다.
Patient preferences, clinician attitudes, clinical settings, and logistical constraints should not influence a diagnosis. A patient with pneumonia has pneumonia regardless of the patient’s preferences or social context. A diagnosis of fibromyalgia or anaplastic thyroid cancer does not depend on whether the patient wants that diagnosis or can access needed treatments.

이와는 대조적으로 관리 결정은 거의 항상 경쟁적인 선호도, 가치, 그리고 잠재적 이익, 잠재적 위험, 자원 가용성, 재정적 비용과 같은 상황별 제약 조건 사이에서 우선순위를 정해야 합니다.25 환자가 "해당 검사(또는 해당 약물 복용, 후속 방문)를 원하지 않거나 감당할 수 없습니다"라고 말하면 관리 계획이 변경됩니다. [관리 계획과 관련된 가치와 제약]에는 [환자]뿐만 아니라 [임상의, 의료진의 다른 구성원, 관리자, 보험사, 다른 환자, 사회 전반의 가치와 제약]도 포함됩니다. 진단 추론의 일부 측면에는 환자 또는 임상의가 원하는 진단의 구체성 및 확실성 수준(즉, 라벨의 충분성)과 같은 선호도가 포함될 수 있지만, 이는 명백히 경영진의 결정입니다.
Management decisions, in contrast, almost always involve prioritization among competing preferences, values, and situation-specific constraints such as probable benefits, potential risks, resource availability, and financial costs.25 If a patient says, “I don’t want (or cannot afford) to get that test (or take that medication, or return for that follow-up visit),” the management plan will change. Relevant values and constraints include not only those of the patient but also those of the clinician, other members of the health care team, administrators, insurers, other patients, and society in general. Some aspects of diagnostic reasoning may involve preferences, such as the patient’s or the clinician’s desired level of specificity and certainty in the diagnosis (i.e., the sufficiency of the label), but these are arguably management decisions.

예를 들어, 

  • 어떤 환자는 병력과 이학적 검사에 근거한 '기계적 요통'이라는 진단에 만족할 수 있지만, 다른 환자는 통증의 근본적인 원인에 대한 보다 자세한 설명을 얻기 위해 MRI를 기대할 수 있습니다. 
  • 한 임상의/의료진은 "폐렴"이라는 진단에 만족할 수 있지만, 다른 임상의/의료진은 해부학적 위치("우하엽 폐렴") 또는 원인 병원체("폐렴구균 폐렴")를 명시하는 것을 선호할 수 있습니다. 
  • 임상의는 상기도 감염을 인플루엔자로 경험적으로 치료할지, 아니면 진단을 확인하기 위해 검사를 받을지 결정할 때 검사 수행의 이득(정보), 비용, 위험(불편함)에 대해 [가치 판단]을 내립니다

이러한 예에서 [진단을 더욱 명확히 하기 위해 추가 정보가 필요하다는 것을 인식하는 것]은 [진단 추론]이지만, [실제로 해당 정보를 얻을지 여부를 결정하는 것]은 [관리 추론(즉, 선호도 및 상황 고려)]을 수반합니다.

For example,

  • one patient might be happy with a diagnosis of “mechanical back pain” based on history and exam, while another might expect an MRI in hope of obtaining a more detailed explanation of the underlying cause of pain.
  • One clinician/care team might be satisfied with a diagnosis of “pneumonia,” while another might prefer to specify the anatomic location (“right lower lobe pneumonia”) or causative pathogen (“pneumococcal pneumonia”).
  • A clinician deciding whether to empirically treat an upper respiratory infection as influenza, or to obtain a test to confirm that diagnosis, makes value judgments regarding the benefits (information), costs, and risks (discomfort) of performing the test.

In these examples, recognizing that additional information is needed to further clarify a diagnosis is diagnostic reasoning, but deciding whether to actually obtain that information entails management reasoning (i.e., consideration of preferences and context).

공유된 의사 결정
Shared decision making

[진단 분류]에 환자와의 직접적인 논의나 상호 작용이 반드시 필요한 것은 아닙니다. 다른 임상의나 환자 차트와 같은 다른 출처에서 얻은 병력, 검사 및 검사 결과에 대한 정보를 해석하고 진단을 내릴 수 있습니다. 실제로 이는 임상의가 모든 임상 교육 단계에서 흔히 연습하는 '진단 미상' 사례를 해결할 때 기대할 수 있는 것입니다.
Diagnostic classifications do not necessarily require direct discussion or interaction with the patient. Information about history, exam, and test results obtained from another source, such as another clinician or the patient chart, can be interpreted and a diagnosis rendered. Indeed, this is the expectation when clinicians solve a “diagnostic unknown” case, a common exercise in all stages of clinical training.

이와는 대조적으로 [관리 우선순위화]에는 커뮤니케이션과 협상이 필요합니다. 수용 가능한 옵션이 다양하고 다양한 가치를 통합해야 하기 때문에 임상의는 환자와 다른 이해관계자를 의사 결정 과정에 참여시켜야 하며, 즉 공동 의사 결정에 참여해야 합니다. 관리 결정은 본질적으로 임상의, 환자, 의료진 및 다른 사람들 간의 사회적 상호 작용입니다.
By contrast, management prioritizations require communication and negotiation. The multiplicity of acceptable options and the need to integrate various values require that clinicians engage the patient and other stakeholders in the decision process—that is, engage in shared decision making. Management decisions are inherently social interactions between the clinician, patient, care team, and others.

시간에 따른 변화
Change over time


진단은 시간적으로 고정되어 있습니다: 특정 시점에 적절한 정보가 있으면 일반적으로 명확한 레이블을 지정할 수 있습니다. 진단은 시간이 지남에 따라 변경될 수 있지만, 변경이 반드시 원래의 진단명이 틀렸다는 것을 의미하지는 않습니다.

  • 첫째, 많은 의학적 상태는 시간이 지남에 따라 호전되거나 악화되는 등 진화합니다. '상기도 감염이 해결됨', '암이 진행 중' 또는 '경색 후 심실 빈맥'과 같은 표현을 사용할 수 있지만, 이러한 변화는 원래 분류가 잘못되었다기보다는 질병 자체의 변화를 반영하는 것이며, 종종 새로운 진단을 내리는 경우가 많습니다.
  • 둘째, 사례가 발전하고 더 많은 정보(추가 병력, 검사 결과, 질병의 진행 경과 또는 치료에 대한 반응)가 확보됨에 따라 진단이 더 구체화되는 경우가 많습니다. 예를 들어, 흉부 엑스레이에서 매우 미세한 침윤이 있는 폐렴이 의심되는 경우 48시간 후 반복된 흉부 엑스레이에서 조밀한 우하엽 침윤이 확인되거나, 환자에게 균혈증이 발생하면 미생물학적 원인이 명확해질 수 있습니다. 폐렴의 초기 진단은 여전히 정확하지만, 이제 추가적이고 잠재적으로 유용한 세부 정보를 통해 폐렴을 지정할 수 있습니다. (물론 새로운 정보나 수정된 해석으로 인해 초기 진단이 잘못되었다는 것을 인정하는 경우도 있습니다.)
  • 마지막으로, 레이블은 지역과 문화(예: 사회 및 인종 그룹, 의료 전문 분야)에 따라 다른 의미를 가질 수 있습니다. 환자가 한 상황에서 다른 상황으로 전환함에 따라 선호하는 라벨도 그에 따라 바뀔 수 있습니다.

Diagnoses are temporally fixed: At a given moment in time, and with adequate information, a definitive label can usually be assigned. A diagnosis can change over time, but changes do not necessarily mean that the original label was wrong.

  • First, many medical conditions evolve over time—that is, they get better or get worse. We might speak of a “resolving upper respiratory infection,” “progressing cancer,” or “postinfarction ventricular tachycardia”; yet such evolution reflects a change in the illness itself, and often a new diagnosis, rather than an incorrect original classification.
  • Second, the diagnosis often becomes more specific as the case evolves and more information becomes available (additional history, test results, evolution of illness, or response to treatment). For example, a suspected pneumonia with a very subtle infiltrate on a chest X-ray could be confirmed if a repeat chest X-ray 48 hours later shows a dense right lower lobe infiltrate, or the microbiological etiology could become apparent if the patient develops bacteremia. The initial diagnosis of pneumonia remains correct, but it can now be specified with additional, potentially useful detail. (Of course, sometimes new information or revised interpretations lead to the recognition that the initial diagnosis was incorrect.)
  • Finally, labels can take on different meanings in different regions and cultures (e.g., social and ethnic groups, medical specialties). As patients transition from one context to another, the preferred label may shift accordingly.

이와는 대조적으로, 관리 결정은 한 시점에 결정적으로 정의되는 경우가 거의 없으며, 오히려 진화하고 변화할 것을 예상하여 내려집니다숙련된 임상의는 "고혈압 치료를 위해 생활습관 개선부터 시작하고, 그래도 효과가 없으면 하이드로클로로티아지드나 리시노프릴을 추가한다"와 같이 향후 관리 결정을 예상할 수 있지만, 이는 단지 가능성일 뿐입니다. 일반적으로 관리 계획은 처음에는 잠정적인 용어로 구성한 다음 이후 환자가 발생할 때마다 재검토합니다. 예를 들어, 고혈압 약물 요법은 일반적으로 치료 반응, 부작용 및 변화하는 환자 선호도에 따라 치료 시작 후 조정됩니다. 이러한 변경이 반드시 원래의 관리 계획과 그 근거가 잘못되었다는 것을 의미하지는 않습니다. (이는 진단이 잘못되었거나 의도적으로 잠정적이지 않는 한 변경해서는 안 되는 진단 결정과는 대조적입니다.) 관리 계획을 언제, 어떻게 조정할지 모니터링하고 결정하는 작업은 관리 추론의 중요한 측면입니다. 항생제를 사용하여 폐침윤을 성공적으로 치료하면 폐렴 진단이 확정되는 것처럼 진단과 관리는 대개 동시에 이루어지며 서로 영향을 미치는 경우가 많습니다.

By contrast, management decisions are rarely defined conclusively at a single point in time but, rather, are made with the expectation that they will evolve and change. Experienced clinicians can often anticipate future management decisions—“Start with lifestyle measures to treat the hypertension, and if that doesn’t work, then add hydrochlorothiazide and then lisinopril”—but these are only possibilities. Typically, the management plan is initially framed in tentative terms and then revisited with each subsequent patient encounter. For example, drug therapy for hypertension is commonly adjusted after initiation of treatment based on therapeutic response, side effects, and evolving patient preferences. Such changes do not necessarily imply that the original management plan and the reasoning behind it were wrong. (This contrasts with diagnostic decisions, which should not change unless the diagnosis was wrong or purposely provisional.) The task of monitoring and deciding when and how to adjust a management plan is a critical aspect of management reasoning. We note that diagnosis and management usually occur concurrently and often influence one another, as when successful treatment of a pulmonary infiltrate using antibiotics affirms the diagnosis of pneumonia.

복잡하고 상황에 따라 다르며 불확실함
Complex, situation-specific, and uncertain

마지막으로, 진단과 관리 모두 임상적 결정은 [거의 항상 불완전한 정보]를 가지고 내려지며, 가능한 모든 진단 또는 관리 접근법을 고려하지는 않는다. 그러나 상호 작용하는 요인과 잠재적 해결책의 수와 복잡성은 [진단 추론]보다 [관리 추론]에서 더 큰 경우가 대부분입니다.
Finally, clinical decisions—both diagnostic and management—are almost always made with incomplete information and without considering all possible diagnoses or management approaches. However, the number and complexity of interacting factors and potential solutions are almost always greater in management than in diagnosis.

예를 들어 [폐렴 진단을 내릴 때] 고려해야 할 증상(기침, 발열, 불쾌감), 징후(발열, 빈호흡, 관상 호흡음), 검사실 소견(백혈구 증가, 신부전, 산증), 영상 검사 등에 수는 한정적으로 존재합니다. 진단은 쉽지 않지만 관리는 더 어려울 수 있습니다. 여기에는 다음과 관련한 선택이 필요하다.

  • 진단 검사(흉부 방사선 사진 또는 컴퓨터 단층 촬영),
  • 치료 장소(외래, 병동, 중환자실),
  • 항생제 선택,
  • 보조 약물(스테로이드, 기관지 확장제, 혈전색전증 예방제),
  • 지원 치료(간호, 호흡기 치료, 물리 치료, 정신 치료),
  • 동반 질환 관리에 대한 조정

For example, in establishing the diagnosis of pneumonia, there is a finite number of symptoms (cough, fever, malaise), signs (fever, tachypnea, tubular breath sounds), lab findings (leukocytosis, renal insufficiency, acidosis), and imaging studies to consider. While the diagnosis may not be easy, management is likely more challenging, with choices to be made regarding

  • diagnostic testing (chest radiograph or computed tomography),
  • treatment location (outpatient, hospital ward, intensive care),
  • antibiotic selection,
  • medication adjuncts (steroids, bronchodilators, thromboembolism prophylaxis), and
  • supportive care (nursing, respiratory therapy, physical therapy, spiritual therapy),
  • plus adjustments to the management of comorbid conditions.

이러한 모든 옵션은 [환자, 의료진, 보험사 등의 선호도 및 제약 조건]과 비교해가며 검토해야 하며, 치료 반응의 예측 불가능성(즉, 미래 예측)을 고려한 선택이 이루어져야 합니다.

  • 또한, [진단의 불확실성]은 '부분 회전근개 파열'이 아닌 '어깨 통증'과 같이 덜 구체적인 라벨을 사용함으로써 개선될 수 있는 경우가 많습니다.
  • 반면, [관리의 불확실성]은 일반적으로 여러 가지 가능한 질병에 대한 동시 치료, 부작용 또는 부작용 가능성에 대한 사전 관리, 더 빈번한 모니터링과 같이 더 광범위하고 복잡한 계획을 요구합니다.

All these options must be weighed against the preferences and constraints of the patient, care team, insurer, and others; and choices must anticipate the unpredictability of treatment response (i.e., foresee the future).

  • Moreover, uncertainties in diagnosis can often be ameliorated by using less specific labels (“shoulder pain” rather than “partial rotator cuff tear”).
  • By contrast, uncertainties in management usually mandate plans of greater scope and complexity, such as concurrent treatment of multiple possible illnesses, anticipatory management of possible side effects or adverse events, and more frequent monitoring.

이론적 렌즈
Theoretical Lenses

여러 이론과 개념적 틀은 진단 추론과 관리 추론에 대한 우리의 이해와 연구를 풍부하게 합니다.26 진단 추론과 관리 추론은 지식 조직, 문제 표현, 인지 처리의 기본 구성 요소를 포함하여 [많은 공통된 정신 현상을 공유]합니다.13 진단 또는 관리 작업에 직면했을 때 임상의는 의식적으로 또는 무의식적으로 자신의 생물 의학 및 임상 지식을 초기 환자 정보와 통합하여 문제에 대한 사례 표현을 형성합니다(예, 질병 스크립트), 이 문제 표현을 사용하여 추가 정보 획득을 안내하고, 새로운 정보를 기반으로 문제 표현을 수정하고, 최종 진단 및/또는 관리 조치를 지원하기에 충분하다고 인식될 때까지 정보 수집/표현 수정 주기를 반복합니다.11,18,28 -30 여기에는 비분석적 또는 "시스템 1" 추론 과정(자동, 신속, 패턴 인식에 의존)과 분석적 또는 "시스템 2" 추론 과정(신중, 노력, 느림)이 혼합되어 있을 가능성이 높습니다.11,28-31 (시스템 1 및 시스템 2 과정의 의미에 대해서는 아래 연구 우선순위에 대한 논의에서 자세히 설명합니다.)
Several theories and conceptual frameworks enrich our understanding and study of diagnostic reasoning and management reasoning.26 Diagnostic reasoning and management reasoning likely share many common mental phenomena, including fundamental components of knowledge organization, problem representation, and cognitive processing.13 When faced with a diagnostic or management task, the clinician consciously or subconsciously integrates his or her own biomedical and clinical knowledge with initial patient information to form a case representation of the problem (e.g., illness script27), uses this problem representation to guide the acquisition of additional information, revises the problem representation based on the new information, and repeats the information-gathering/representation revision cycle until the representation is perceived as sufficient to support a final diagnosis and/or management action.11,18,28–30 This likely involves a mixture of nonanalytical or “system 1” reasoning processes (automatic, fast, and reliant on pattern recognition) and analytical or “system 2” reasoning processes (deliberate, effortful, and slow).11,28–31 (We elaborate on implications of system 1 and system 2 processes in our discussion of research priorities, below.)

[위치 인지 이론]은 임상적 추론, 특히 관리 추론이 고립적으로 발생하는 것이 아니라 역동적인 생물심리사회적 맥락에서 "위치"한다는 점을 강조하면서 추가적인 통찰력을 제공합니다.23,24 이상적으로는 관리 결정은 다양한 요인(환자, 진단, 임상의, 치료팀, 치료 시스템 등)에 대한 개별적인 지식이 아니라, 이러한 요인 및 기타 환경적 특징 간의 상호 작용(협상)을 고려할 때 도출되는 것이 좋습니다.
Situated cognition theory32 offers further insights, emphasizing that clinical reasoning, and especially management reasoning, does not occur in isolation; rather, it is “situated” in a dynamic biopsychosocial context.23,24 Ideally, management decisions emerge not from knowledge of the various factors individually (patient, diagnosis, clinician, care team, care system, etc.) but through consideration of the interactions (negotiations) among these and other environmental features.

포커와 카시러가 제안한 [임계값 접근법]을 통해 임상의는 질병 발생 확률, 진단 검사의 부정확성, 위험성, 비용, 치료 혜택의 확률과 효용을 정량적으로 결합할 수 있습니다. 의사 결정 이론,34,35 게임 이론,36 전망 이론,37 자유주의적 가부장주의(넛지 이론)38-40과 같은 의사 결정 및 경제학 이론도 경영 추론과 관련이 있을 수 있습니다. 이러한 이론은 인간(이 경우 환자와 의료 서비스 제공자 모두)이 어떻게 이득과 손실(혜택과 위험)을 다르게 평가하는지, 프레임, 기본 옵션, 사회적 비교, 제한된 자원이 선택(관리 결정)에 어떤 영향을 미칠 수 있는지 설명하고 예측합니다.41

The threshold approach proposed by Pauker and Kassirer33 allows clinicians to quantitatively combine the probability of disease; the inaccuracy, risk, and cost of diagnostic tests; and the probability and utility of treatment benefits. Theories of decision making and economics—such as decision theory,34,35 game theory,36 prospect theory,37 and libertarian paternalism (nudge theory)38–40—may also have relevance to management reasoning. These theories explain and predict how humans (in this case, both patients and health care providers) differentially value gains and losses (benefits and risks) and how framing, default options, social comparisons, and constrained resources might influence choices (management decisions).41

보건 전문직 교육에 대한 경영 추론 패러다임의 시사점
Implications of a Management Reasoning Paradigm for Health Professions Education

[진단 추론]과 [관리 추론]의 차이점을 고려할 때, 임상의의 경력 전반에 걸쳐 이러한 활동의 개발과 유지를 최적으로 촉진하고 평가하기 위해서는 서로 다른 교육적 접근 방식이 필요할 것으로 추측됩니다.
Given the differences between diagnostic reasoning and management reasoning, we speculate that these activities may require different educational approaches to optimally promote and assess their development and maintenance throughout a clinician’s career.

교육
Teaching

임상 추론을 가르치고 평가하는 것에 대해 우리가 경험적으로 알고 있는 대부분의 내용은 진단 추론에 대한 경험과 연구를 기반으로 합니다. 그러나 관리 추론은 진단 추론과 구별되거나 진단 추론과는 다른 빈도로 요구되는 기술과 하위 과제에 중점을 둡니다. 이러한 [관리 추론 역량]에는 다음이 포함됩니다:
Most of what we know empirically about teaching and assessing clinical reasoning is based on experience and research in diagnostic reasoning. Yet management reasoning focuses on skills and subtasks that are likely distinct from, or required with different frequencies than, those of diagnostic reasoning. These management reasoning competencies include:

  • 의사 결정 과정에 환자 참여
  • 다양한 이해관계자의 잠재적으로 경쟁할 수 있는 우선순위와 선호도를 통합
  • 상황적 제약 고려
  • 다양한 지식 영역(치료 옵션, 위험/편익/비용, 지역 자원 및 제약)을 활용
  • 불확실성을 용인; 불완전한 정보를 바탕으로 결정을 내리되, 가능한 모든 대안을 충분히 고려하지 않는 것을 지양할 필요성(satisficing)
  • 수용 가능한 솔루션의 다양성을 수용
  • 시간 경과에 따른 치료 반응 모니터링
  • 치료 목표와의 편차를 인식
  • 복잡성 수용.
  • involving patients in the decision process;
  • integrating the potentially competing priorities and preferences of various stakeholders;
  • considering contextual constraints;
  • using distinct knowledge domains (treatment options, risks/benefits/costs, and local resources and constraints);
  • tolerating uncertainty, including the need to make decisions based on incomplete information and without exhaustively considering all possible alternatives (“satisficing”);
  • accepting the multiplicity of acceptable solutions;
  • monitoring treatment response over time;
  • recognizing deviations from therapeutic goals; and
  • accepting complexity.

[효과적인 관리]를 위해서는 [의사소통 기술, 검사 및 치료 비용에 대한 지식]과 같은 추가적인 역량이 필요합니다. 또한 관리 추론을 학습하려면 [학습자의 자율성과 핸즈온 연습(예: 환자 및 가족과의 토론 주도, 다양한 효율성의 관리 전략 시도, 시간 경과에 따른 치료 반응 모니터링)]을 강화해야 합니다. 그러나 오늘날의 효율성 중심적이고 안전을 중시하는 의료 환경에서는 이러한 기회가 점점 더 제한되고 있습니다.
Additional competencies, such as communication skills and knowledge of test and treatment costs, are required for effective management. We further suggest that learning management reasoning requires greater learner autonomy and hands-on practice (e.g., leading discussions with patient and family, trying out management strategies of varying efficiency, and monitoring treatment response over time). Yet such opportunities are increasingly constrained in today’s efficiency-focused, safety-conscious health care environment.

평가
Assessment

[관리 추론에 대한 평가]는 복잡성으로 가득 차 있습니다. 일반적으로 두 개 이상의 관리 계획이 방어 가능하기 때문에 관리 오류를 정의하는 것은 진단 오류를 정의하는 것보다 훨씬 더 어렵습니다. 정답이 하나도 없는 상황에서 어떻게 성과를 평가할 수 있을까요? 교육생이 [예상 답안은 아님에도 방어 가능한 관리 계획(즉, 추론은 옳지만 [정답으로 나열되지 않은] "틀린(정답 리스트에 없기 때문에" 행동)]을 제시하면 어떻게 해야 할까요? 시간이 지남에 따라 공동의 의사 결정과 치료 모니터링/조정을 평가해야 할 필요성은 더욱 어려움을 가중시킵니다.
Assessment of management reasoning is fraught with complexities. Since more than one management plan is typically defensible, defining a management error is even more difficult than defining a diagnostic error. How can performance be assessed in the absence of a single correct answer? What if a trainee comes up with an unanticipated yet defensible management plan (i.e., right reasoning but “wrong” [not listed as correct] action)? The need to assess shared decision making and monitoring/adjusting treatment over time adds further difficulty.

구술 시험, 사례 기반 차트 검토, 객관적인 구조화된 임상 검사와 같은 일부 평가는 복잡하고 독특한 관리 계획을 허용하기 위해 개발될 수 있지만, 이러한 모든 평가는 일반적으로 [정답을 가정하는 채점 체계]를 사용합니다. 스크립트 일치도 검사는 임상의의 접근 방식의 불확실성과 다양성을 수용하기 위해 점수를 조정하고자 하지만42, 점수의 타당성에 대한 우려가 제기되고 있습니다.43 많은 관리 기술의 복잡성을 모두 파악하기 위해서는 작업 기반 평가가 필요할 수 있습니다.44-47
Some assessments such as oral exams, case-based chart reviews, and objective structured clinical examinations can be developed to allow for complex and idiosyncratic management plans, but all of these typically employ a grading scheme that presumes a correct answer. The script concordance test aspires to adjust scoring to accommodate uncertainty and variation in clinicians’ approaches42; however, concerns have been raised regarding the validity of its scores.43 Work-based assessment may be required to capture the full complexity of many management skills.44–47

또한 잘못된 추론(예: 올바른 행동, 잘못된 이유)에 근거하여 [겉보기에 수용 가능한 계획]이 제안될 수 있습니다. 따라서 특정 관리 계획의 근간이 되는 인지 과정을 파악하고 평가하는 것은 계획 자체에 대한 평가를 보완할 수 있습니다. [개념 지도]48,49 및 학습자가 자신의 해석과 근거를 명확하게 표현하도록 조사하는 ["미시 분석" 기법]24,50 은 관리 추론에서 작용하는 인지 과정을 평가하는 데 도움이 될 수 있습니다.
Additionally, a seemingly acceptable plan could be proposed based on faulty reasoning (i.e., right action, wrong reason). Thus, identifying and assessing the cognitive processes that underlie a given management plan would complement an assessment of the plan itself. Concept maps48,49 and “microanalytic” techniques that probe learners to articulate their interpretations and rationale24,50 might help in the assessment of the cognitive processes at play in management reasoning.

마지막으로, 적절한 관리에는 종종 사례의 진전에 따라 계획을 모니터링하고 조정하는 것이 포함되므로, 시간 요소를 파악하는 것은 관리 추론을 평가하는 데 있어 특히 어려운 과제입니다. [종이 사례]와 [컴퓨터 기반 가상 환자]를 통해 [시간적 진화를 시뮬레이션]할 수 있지만, 이러한 접근 방식은 실제 관리 상황에서 [장기간에 걸쳐 발생하는 관찰과 숙고]를 반영하지 못할 수 있는 방식으로 시간 차원을 가속화합니다.
Finally, since appropriate management often involves monitoring and adjusting plans as the case evolves, capturing the time element represents a particular challenge in assessing management reasoning. Although paper cases and computer-based virtual patients can simulate temporal evolution, these approaches accelerate the time dimension in ways that may not reflect the prolonged observations and deliberations that occur in real-world management situations.

임상적 변화
Clinical variation

관리 추론에 대한 교육과 평가 모두 적절한 문제 스펙트럼을 제공하기에 충분한 환자 샘플과 상황적 특징이 필요합니다. 교육자는 종종 학습자가 [특정 진단을 받은 환자를 "충분히" 보고 있는지(즉, 환자 혼합)]에 대해 의문을 제기합니다51). 관리 패러다임은 이러한 문제를 [(충분히 다양한) 진단의 전체 스펙트럼]뿐만 아니라 ["충분한" 가치, 선호도, 커뮤니케이션 스타일, 상황적 변화, 시스템 제약 및 여러 솔루션]까지 포함하도록 확장합니다.
Both training in and assessment of management reasoning will require a sample of patients and situational features sufficient to provide an appropriate spectrum of problems. Educators often question whether learners are seeing “enough” patients with a given diagnosis (i.e., the patient mix51). The management paradigm extends this concern to include not only a full spectrum of diagnoses but also “enough” values, preferences, communication styles, contextual variations, system constraints, and multiple solutions.

필요한 연구 분야
Areas of Needed Research

지금까지 대부분의 임상 추론 연구는 진단 추론에 초점을 맞춰 왔으며, 현재 관리 추론에 대한 이해는 여전히 제한적입니다. 특히 우선순위가 높은 연구 분야는 다음 6가지입니다(목록 1).
Most clinical reasoning research to date has focused on diagnostic reasoning, and our current understanding of management reasoning remains limited. We identify the following 6 research areas as particularly high priority (List 1).

첫째, 진단 추론을 연구하는 데 이미 사용된 방법의 이점을 활용할 수 있지만, 관리 추론에 대한 많은 시급한 질문에 답하려면 상당히 새로운 연구 패러다임과 기법이 필요하다고 생각합니다. 연구는 [환자 선호도를 통합]하고, [환자 상태의 시간적 변화]를 고려할 수 있어야 하며, 이는 [전통적인(정적) 비네트, 컴퓨터 가상 환자, 표준화된 환자, 실제 환자의 조합]을 사용하여 달성할 수 있습니다.52-55 관리 추론 결과와 근본적인 인지 과정을 측정하려면 관리 결정의 수용 가능성, 공유 의사 결정의 효과, 계획이 시간에 따라 어떻게 모니터링되고 조정되는지(즉, 종적 치료) 조사하는 새로운 접근 방식이 필요할 것입니다. 정량적 실험 방법은 질적 방법, 비선형 정량적 접근법(복잡성 과학56) 및 기타 새로운 연구 패러다임으로 보완되어야 할 것입니다. 관리 추론 기술의 유지와 실제 진료에서의 적용이 핵심적인 결과가 될 것이지만, 현재까지 관리 추론의 임상적 영향을 입증하는 증거는 거의 없습니다. 환자 결과는 진단 결정보다 관리 조치에 더 직접적인 영향을 받기 때문에 관리 추론에 대한 조사는 임상 결과를 사용하는 교육 연구에 공통적인 몇 가지 한계를 극복할 수 있습니다.57
First, although research will benefit from methods already used to study diagnostic reasoning, we believe that answering many of the pressing questions about management reasoning will necessitate substantially new research paradigms and techniques. Research must allow for integration of patient preferences and for the temporal evolution of the patient’s condition; this might be accomplished using combinations of traditional (static) vignettes, computerized virtual patients, standardized patients, and real patients.52–55 Measurement of management reasoning outcomes and underlying cognitive processes will require novel approaches that examine the acceptability of management decisions, the effectiveness of shared decision making, and how plans are monitored and adjusted over time (i.e., longitudinal care). Quantitative experimental methods will need to be complemented by qualitative methods, nonlinear quantitative approaches (complexity science56), and other emerging research paradigms. Retention of management reasoning skills, and application in real-life practice, will be key outcomes; to date, there is little evidence documenting the clinical impact of management reasoning. Since patient outcomes are more directly influenced by management actions than by diagnostic decisions, investigations of management reasoning might overcome some of the limitations common to education research that uses clinical outcomes.57

둘째, 관리 추론은 비분석적 과정(자동, 시스템 1)과 분석적 과정(의도적, 노력적, 시스템 2)의 균형을 반영한다고 가정하지만, 상대적 기여도는 아직 알려지지 않았습니다. [진단 추론]에 대한 연구에 따르면 [초보 수련의]는 분석적 추론에 더 많이 의존하는 반면, [전문가]는 일반적으로 비분석적 추론을 더 많이 사용합니다.5,9,11 그러나 관리 추론이 본질적으로 진단적 추론보다 더 분석적(의도적, 계획적, 체계적)일 수 있다는 것은 그럴듯해 보입니다. 치료 비용과 혜택에 대한 명시적인 고려, 관리 결정을 안내하는 루브릭 사용, 사려 깊은 공유 의사 결정은 모두 느리고 신중한 프로세스를 시사합니다. 또한 각 환자의 고유한 상황과 선호도로 인해 진단보다 관리에서 패턴을 쉽게 식별하고 정리하기 어려울 수 있습니다. 현대의 관리 추론은 종종 인간과 컴퓨터(예: 현장 진료 지식 리소스 및 의사 결정 지원 시스템58-60) 간의 상호 작용을 포함하며, 이는 복잡성을 더욱 가중시킵니다. 이러한 가정이 어느 정도 사실인지, 그리고 이러한 효과가 임상 상황에 따라 어떻게 달라지고 임상의의 선호도, 무의식적 편견, 전문성 수준에 따라 어떻게 영향을 받는지는 더 연구해 볼 필요가 있습니다. 
Second, we presume that management reasoning reflects a balance of nonanalytical processes (automatic; system 1) and analytical processes (deliberate, effortful; system 2), yet the relative contributions remain unknown. Research in diagnostic reasoning suggests that novice trainees rely more on analytical reasoning, whereas experts typically use more nonanalytical reasoning.5,9,11 However, it seems plausible that management reasoning may be inherently more analytic (deliberate, planned, and systematic) than diagnostic reasoning. Explicit consideration of treatment costs and benefits, use of rubrics to guide management decisions, and thoughtful shared decision making all suggest a slow, deliberate process. Moreover, each patient’s unique circumstances and preferences may make patterns less readily discerned and compiled in management than in diagnosis. Modern management reasoning often involves interactions between humans and computers (e.g., point-of-care knowledge resources and decision support systems58–60), which add further layers of complexity. The extent to which these suppositions are true, and how these effects vary across clinical contexts and are influenced by clinicians’ preferences, unconscious biases, and levels of expertise, merits further exploration.

셋째, 특정 분야의 진단 추론은 해당 영역에 대한 지식과 밀접하게 연결되어 있으며, 즉 [진단 능력]은 [일반적인 기술]이라기보다는 [내용 및 맥락에 따라 달라집니다]. 이는 [관리 추론]에서도 크게 다르지 않을 것으로 추정됩니다. 그러나 관리 작업의 일부 측면이 콘텐츠 영역(임상 문제 및 환경)에 걸쳐 일반화될 수 있습니다. 여기에는 공유된 의사 결정, 비용을 고려한 치료, 후속 조치 모니터링, 불확실성 수용 및 "충분히 좋은" 진단과 계획에 대한 일반적인 접근 방식이 포함될 수 있습니다. 물론 좋은 진단과 좋은 관리에는 모두 좋은 정보가 필요합니다. 근거 기반 의학 분야는 환자 중심 치료에서 경험적 증거를 식별, 평가 및 적용하는 접근 방식을 명확히 해왔습니다. 관리 추론의 개념화는 처음 두 단계(식별 및 평가)의 성취를 전제로 하며 마지막 단계(적용)를 자세히 설명합니다.
Third, diagnostic reasoning in a given field is tightly linked with knowledge of that domain; that is, diagnostic ability is content- and context-specific rather than a general skill. We presume that this is largely true for management reasoning as well. However, it is possible that some aspects of the management task generalize across content domains (clinical problems and settings). These might include general approaches to shared decision making, cost-conscious care, monitoring of follow-up, and accepting uncertainty and a “good enough” diagnosis and plan. Of course, good diagnosis and good management both require good information. The field of evidence-based medicine has clarified approaches to identifying, appraising, and applying empirical evidence in patient-centered care. Our conceptualization of management reasoning presumes achievement of the first 2 steps (identifying and appraising) and elaborates upon the last (applying).

넷째, 공유 의사결정은 임상 의학61-63 및 의학교육64-66 분야에서 활발히 연구되고 있는 분야이며, 이러한 연구를 통해 얻은 통찰력을 통해 경영 추론에 대한 이해가 더욱 풍부해질 것입니다. 임상의의 개인적 선호도도 중요하지만,67-69 이러한 선호도를 파악하고 적절히 수용하는 방법은 아직 불완전하게 이해되고 있습니다.70-72 의료 기관과 사회의 가치와 우선순위를 수용하는 것도 마찬가지입니다. 
Fourth, shared decision making is an area of active research in both clinical medicine61–63 and medical education,64–66 and our understanding of management reasoning will be enriched by the insights that emerge from such studies. The personal preferences of the clinician are also important,67–69 yet how to identify and appropriately accommodate such preferences remains incompletely understood.70–72 The same is true for accommodating the values and priorities of the health care institution and of society.

다섯째, 우리는 관리 추론을 최적으로 가르치거나 평가하는 방법을 모릅니다. 교육에는 공유된 의사 결정, 이해관계자 선호도 통합, 치료 반응 모니터링, 복잡성 수용, 불완전한 정보에 따른 행동과 같은 기술에 대한 더 많은 관심이 수반될 수 있습니다. 교육 연속체 내에서 교육 전략과 교육 시기는 모두 신중하게 고려하고 연구해야 합니다. 위에서 제안한 바와 같이, 관리 추론의 평가에는 여러 방어 가능한 솔루션을 수용하고 공유된 의사 결정과 시간 경과에 따른 치료 모니터링 및 조정 능력을 평가하는 혁신적인 접근 방식이 필요합니다. 최근 임상적 추론의 평가 방법에 대한 검토에서 확인된 옵션이 유용할 수 있습니다.73 
Fifth, we do not know how to optimally teach or assess management reasoning. Training might entail increased attention to skills such as shared decision making, integrating stakeholder preferences, monitoring treatment response, accepting complexity, and acting on incomplete information. Both instructional strategies and timing of instruction within the training continuum will need to be thoughtfully considered and studied. As we suggested above, assessment of management reasoning will require innovative approaches that accommodate multiple defensible solutions and that assess shared decision making and the ability to monitor and adjust treatment over time. Options identified in a recent review of methods for assessment of clinical reasoning may prove useful.73

마지막으로, 임상 진료에서 효과적이고 효율적인 관리 추론을 지원하는 방법에 대한 우리의 이해는 불완전합니다. 관리가 실제로 진단보다 더 분석적이고 인지 패턴의 발달이 느리다면, 많은 [관리 작업의 인지 부하]가 최적의 성과를 위한 수준을 초과할 가능성이 높습니다. [인지 과부하]는 결국 비효율성(느린 성능), 인지적 지름길 및 오류, 그리고/또는 임상의와 환자 모두에게 불만을 초래할 수 있습니다. 임상 분야의 연구와 혁신은 이미 임상 추론을 실제로 지원하는 방법의 문제점과 잠재적 해결책을 모두 확인했습니다.4,74-76 [진단 추론] 및 [관리 추론]이라는 서로 다른 렌즈를 통해 이러한 문제를 바라보면 추가적인 통찰력을 얻을 수 있습니다. 
Finally, our understanding is incomplete regarding how to support effective, efficient management reasoning in clinical practice. If management is indeed more analytic than diagnosis, and if cognitive patterns are slow to develop, then the cognitive load of many management tasks likely exceeds the level for optimal performance. Cognitive overload, in turn, may result in inefficiency (slow performance), cognitive shortcuts and errors, and/or frustration for both clinicians and patients. Research and innovations in clinical practice have already identified both problems and potential solutions in how to support clinical reasoning in practice.4,74–76 Viewing these issues through the distinct lenses of diagnostic and management reasoning may facilitate additional insights.


 

 

Acad Med. 2019 Sep;94(9):1310-1316. doi: 10.1097/ACM.0000000000002768.

 

Management Reasoning: Implications for Health Professions Educators and a Research Agenda

Affiliations collapse

1D.A. Cook is professor of medicine and medical education, director of education science, Office of Applied Scholarship and Education Science, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine and Science, Rochester, Minnesota; ORCID: http://orcid.org/0000-0003-2383-4633. S.J. Durning is professor of medicine and director, Division of Health Professions Education, Uniformed Services University of the Health Sciences, Bethesda, Maryland. J. Sherbino is assistant dean, Health Professions Education Research, Faculty of Health Sciences, and professor, Department of Medicine, McMaster University, Hamilton, Ontario, Canada. L.D. Gruppen is professor, Department of Learning Health Sciences, and director, Master of Health Professions Education Program, University of Michigan Medical School, Ann Arbor, Michigan.

PMID: 31460922

DOI: 10.1097/ACM.0000000000002768

Abstract

Substantial research has illuminated the clinical reasoning processes involved in diagnosis (diagnostic reasoning). Far less is known about the processes entailed in patient management (management reasoning), including decisions about treatment, further testing, follow-up visits, and allocation of limited resources. The authors' purpose is to articulate key differences between diagnostic and management reasoning, implications for health professions education, and areas of needed research.Diagnostic reasoning focuses primarily on classification (i.e., assigning meaningful labels to a pattern of symptoms, signs, and test results). Management reasoning involves negotiation of a plan and ongoing monitoring/adjustment of that plan. A diagnosis can usually be established as correct or incorrect, whereas there are typically multiple reasonable management approaches. Patient preferences, clinician attitudes, clinical contexts, and logistical constraints should not influence diagnosis, whereas management nearly always involves prioritization among such factors. Diagnostic classifications do not necessarily require direct patient interaction, whereas management prioritizations require communication and negotiation. Diagnoses can be defined at a single time point (given enough information), whereas management decisions are expected to evolve over time. Finally, management is typically more complex than diagnosis.Management reasoning may require educational approaches distinct from those used for diagnostic reasoning, including teaching distinct skills (e.g., negotiating with patients, tolerating uncertainty, and monitoring treatment) and developing assessments that account for underlying reasoning processes and multiple acceptable solutions.Areas of needed research include if and how cognitive processes differ for management and diagnostic reasoning, how and when management reasoning abilities develop, and how to support management reasoning in clinical practice.

학부의학교육에서 임상추론 교육과정 내용에 대한 합의문(Med Teach, 2021)
Consensus statement on the content of clinical reasoning curricula in undergraduate medical education
Nicola Coopera , Maggie Bartlettb , Simon Gayc , Anna Hammondd, Mark Lillicrape, Joanna Matthanf , Mini Singhg On behalf of the UK Clinical Reasoning in Medical Education (CReME) consensus statement group

 

 

소개
Introduction

임상 추론은 '임상의가 환자를 진단하고 치료하기 위해 데이터를 [관찰, 수집, 해석]하는 [기술, 과정 또는 결과]로 정의할 수 있습니다. 임상 추론은 [환자의 고유한 상황과 선호도, 진료 환경의 특성]과 같은 [맥락적 요인]과 상호작용하는 [의식적 및 무의식적 인지 작용]을 수반합니다'(Daniel 외. 2019).
Clinical reasoning can be defined as, A skill, process, or outcome wherein clinicians observe, collect and interpret data to diagnose and treat patients. Clinical reasoning entails both conscious and unconscious cognitive operations interacting with contextual factors such as the patient’s unique circumstances and preferences and the characteristics of the practice environment (Daniel et al. 2019).


임상 추론은 특히 [진단 오류]와 관련하여 임상 실습에서 중요하기 때문에 교육자들이 관심을 갖는 주제입니다. 진단 오류는 흔한 질병에서 발생하는 경향이 있으며(Gunderson 외. 2020), 전 세계적으로 환자에게 예방 가능한 피해를 입히는 중요한 원인입니다(Tehrani 외. 2013; 세계보건기구 2016). [사용 가능한 모든 정보를 올바르게 종합하지 못하거나 신체 검사 결과 또는 검사 결과를 적절하게 사용하지 못하는] 등의 [인지적 실패]가 대부분의 [진단 오류]에 기여하는 것으로 밝혀졌습니다(Graber 외. 2005). 미국 의학 아카데미의 중요한 보고서인 '의료 진단의 개선'(2015)에 따르면 의료의 질과 안전을 개선하기 위한 노력에서 진단 및 진단 오류가 크게 인식되지 않고 있다고 합니다. 이 보고서는 학습 과학의 증거에 부합하는 교육적 접근 방식을 사용하여 진단 과정에서의 교육을 명시적으로 다루는 커리큘럼을 요구했습니다.
Clinical reasoning is of interest to educators because of its importance in clinical practice, particularly in relation to diagnostic error. Diagnostic errors tend to occur in common diseases (Gunderson et al. 2020) and are a significant cause of preventable harm to patients worldwide (Tehrani et al. 2013; World Health Organization 2016). Cognitive failures, such as failure to synthesise all the available information correctly or failure to use the physical examination findings or test results appropriately, have been found to contribute to the majority of diagnostic errors (Graber et al. 2005). The National Academy of Medicine’s seminal report Improving Diagnosis in Health Care (2015) found that diagnosis and diagnostic errors have been largely unappreciated in efforts to improve the quality and safety of healthcare. It called for curricula to explicitly address teaching in the diagnostic process using educational approaches that are aligned with evidence from the learning sciences.

학부 의학 커리큘럼은 병력 청취, 신체 검사, 감별 진단 등 [진단 과정의 기본 요소]에 대한 교육을 제공합니다. 그러나 학생과 대학원 수련생은 효과적인 임상 추론에 필요한 지식, 기술 및 행동을 경험과 견습을 통해 [암묵적으로 습득]하는 경우가 많습니다(Graber 외. 2018). 정확한 진단을 위해서는 역학, 기초 과학 및 임상의학에 대한 지식이 필요하지만, 임상 추론의 몇 가지 구성 요소가 설명되어 있습니다. 각 구성 요소에는 특정 지식, 기술 및 행동이 필요하지만 일부 커리큘럼에서는 명시적으로 강조되지 않을 수 있습니다. 예를 들면, 다음이 있습니다.

  • 진단 검사 결과의 정확한 해석(Whiting 외. 2015),
  • 진단 정확도와 상관관계가 있는 문제 표현 생성(Bordage 1994),
  • 환자의 결과를 개선하는 공유된 의사 결정(미국 과학, 공학 및 의학 아카데미 2015) 

미국 의과대학을 대상으로 실시한 한 설문조사에서 내과 임상실습 책임자의 84%는 학생들이 주요 임상 추론 개념에 대한 지식이 부족하거나 기껏해야 보통 정도 수준으로 임상실습에 들어갔으며, 대부분의 교육기관에서 이러한 주제에 대한 세션이 부족하다고 답했으며, 그 이유로 [시간과 교수진의 전문성 부족]을 꼽았습니다(Rencic 외. 2017). 진단과 관련된 교육에 관한 출판된 문헌을 검토한 Graber 등(2018)은 기존 교육 프로그램이 진단 안전에 관한 적절한 교육을 제공하지 못할 수 있음을 발견했습니다.
Undergraduate medical curricula provide instruction in the basic elements of the diagnostic process, for example taking a history, performing a physical examination, and generating a differential diagnosis. However, students and postgraduate trainees largely learn the knowledge, skills and behaviours required for effective clinical reasoning implicitly, through experience and apprenticeship (Graber et al. 2018). While accurate diagnosis requires knowledge of epidemiology, basic sciences and clinical medicine, several components of clinical reasoning have been described. They each require specific knowledge, skills and behaviours but may not be explicitly emphasised in some curricula. Examples include:

  • accurate interpretation of diagnostic test results, which has been shown to be poor (Whiting et al. 2015);
  • generating a problem representation, which correlates with diagnostic accuracy (Bordage 1994); and
  • shared decision making, which improves outcomes for patients (National Academies of Sciences, Engineering, and Medicine 2015).

In one survey of US medical schools, 84% of internal medicine clerkship directors indicated that students entered clinical clerkships with poor, or at best fair, knowledge of key clinical reasoning concepts and most institutions lacked sessions dedicated to these topics, citing lack of both time and faculty expertise (Rencic et al. 2017). In reviewing the published literature on education related to diagnosis, Graber et al. (2018) found that existing training programmes may not provide adequate education regarding diagnostic safety.

의과대학 및 대학원 수련 프로그램에서 임상 추론을 현재의 근거에 부합하는 [체계적인 접근 방식]을 채택하여 프로그램의 [각 학년별 과정에 명시적으로 통합된 방식으로 가르쳐야 한다]는 공감대가 확산되고 있습니다(Trowbridge 외. 2015). 그러나 임상 추론 문헌은 '단편적'으로 기술되어 있어(Young 등. 2018) 의학교육자가 접근하고 채택하기 어려울 수 있습니다. 전문가 합의와 최신 근거에 대한 검토를 바탕으로 무엇을 어떻게 가르쳐야 하는지를 모두 다루는 임상 추론 커리큘럼은 거의 존재하지 않습니다. 따라서 이 백서의 목적은 의학 교사, 커리큘럼 기획자 및 정책 입안자에게 학부 의학교육에서 임상 추론 커리큘럼의 내용에 대한 실질적인 권장 사항을 제공하는 것입니다. 이러한 권장 사항은 향후 연구를 위한 프레임워크도 제공할 수 있습니다. 임상 추론 평가 방법에 대한 실용적인 권장 사항은 다른 곳에서 발표되었습니다(Daniel 외. 2019).
There is a growing consensus that medical schools and postgraduate training programmes should teach clinical reasoning in a way that is explicitly integrated into courses throughout each year of the programme, adopting a systematic approach consistent with current evidence (Trowbridge et al. 2015). However, the clinical reasoning literature has been described as ‘fragmented’ (Young et al. 2018) and consequently can be difficult for medical educators to access and adopt. Few published clinical reasoning curricula exist covering both what should be taught and how it should be taught, based on expert consensus and a review of current evidence. The purpose of this paper is therefore to provide medical teachers, curriculum planners and policy makers with practical recommendations on the content of clinical reasoning curricula in undergraduate medical education. These recommendations may also provide a framework for future research. Practical recommendations for clinical reasoning assessment methods have been published elsewhere (Daniel et al. 2019).

방법
Methods

이 백서의 권장사항은 영국 임상 추론 의학교육 그룹(CReME)의 회원들이 12개월에 걸친 일련의 회의를 통해 개발했습니다. CReME는 영국 의과대학의 절반 이상을 대표하는 사람들로 구성되어 있으며, 이들 중 다수는 학부 의학 커리큘럼과 임상 추론 교육에 대한 구체적인 책임도 가지고 있습니다. 권고안을 개발하기 위해 3단계 접근 방식이 사용되었습니다. 첫 번째 단계에서는 12개 의과대학의 20명이 하루 종일 회의에 참석하여 의과대학에서 제공해야 할 임상 추론 관련 교육 목록(무엇을 가르쳐야 할 것인가)을 파악했습니다. 제출된 모든 아이디어를 공유하고 토론하여 중복되는 내용을 제거하고, 토론 내용을 바탕으로 필요한 경우 추가 내용을 추가했습니다. 이 과정을 거쳐 30개의 아이디어가 기록되었습니다. 이러한 아이디어는 임상 추론 교육의 5가지 영역으로 분류한 다음 영국 일반 의학 교육 과정과 매핑했습니다. 
The recommendations in this paper were developed by members of the UK Clinical Reasoning in Medical Education group (CReME) in a series of meetings over a twelve-month period. CReME consists of representatives from over half of UK medical schools, many of whom also have specific responsibility for undergraduate medical curricula and clinical reasoning education. A three-stage approach was used to develop the recommendations. In the first stage, 20 members from 12 medical schools attended a whole-day meeting to identify a list of clinical reasoning-specific teaching that should be delivered by medical schools (what to teach). All the submitted ideas were shared and discussed, duplicates removed, and further content added if required, based on the discussions. Following this process, 30 ideas were recorded. These were grouped into five domains of clinical reasoning education and then mapped against the UK General Medical Council’s ‘Outcomes for Graduates’ (General Medical Council 2018) to allow educators to see how they might fit into a curriculum mapping process.

두 번째 단계에서는 의대생의 임상 추론 능력 향상에 효과적인 교수 전략(교수법)을 파악하기 위해 문헌 고찰을 실시하였습니다. 문헌 고찰은 '임상 추론', '임상 의사결정', '진단 추론', '진단 의사결정', '의대생', '교육', '커리큘럼' 등의 용어를 사용하여 전자 데이터베이스 MEDLINE, PsycINFO, CINAHL, EMBASE, ERIC 및 Google Scholar를 통해 최근 30년 이내에 발표된 영어 논문을 대상으로 수행되었습니다. 의대생의 임상 추론 능력을 향상시키기 위해 고안된 교육 중재를 설명하고 경험적 결과를 기술한 영어 논문도 포함되었습니다. 학생/교수 평가 유무에 관계없이 임상 추론 교육에 대한 특정 접근법을 설명하는 논문은 제외되었습니다. 이러한 포함 및 제외 기준에 따라 27개의 적격 논문이 선정되었습니다. 포함된 연구들은 다양한 연구 설계를 사용하여 광범위한 전략을 설명했기 때문에 합의문을 알리기 위한 목적으로 연구 결과를 분류하고 설명하는 것 외에 체계적으로 정리하려는 시도는 하지 않았습니다. PRISMA 도표는 보충 파일 2에 나와 있습니다. 포함 기준을 충족하지 못했지만 인용된 근거(예: 리뷰 논문)도 권고안을 알리는 데 사용되었습니다. 
In the second stage, a literature review was conducted to identify teaching strategies that are successful in improving the clinical reasoning ability of medical students (how to teach). The literature review was conducted of English language papers published within the last 30 years through the electronic databases MEDLINE, PsycINFO, CINAHL, EMBASE, ERIC and Google Scholar using the terms ‘clinical reasoning’ OR ‘clinical decision making’ OR ‘diagnostic reasoning’ OR ‘diagnostic decision making’ AND ‘medical students’ OR ‘teaching’ OR ‘curriculum’. English language articles that described a teaching intervention designed to improve clinical reasoning ability among medical students, which also described empirical findings, were included. Articles that merely described a particular approach to teaching clinical reasoning, with or without student/faculty evaluation, were excluded. These inclusion and exclusion criteria resulted in 27 eligible articles. The included studies described a wide range of strategies, using variable study designs, so no attempt was made to systematically organise the findings other than to categorise and describe them with the purpose of informing the consensus statement. A PRISMA diagram is shown in Supplementary File 2. Articles that did not meet the inclusion criteria but cited evidence (e.g., review articles) were also used to inform the recommendations.


마지막 단계에서는 이러한 연구 결과를 바탕으로 학부 임상 추론 커리큘럼의 내용에 대한 실질적인 권고안을 합의문 형태로 작성하여 합의문 그룹의 모든 구성원에게 배포하여 의견을 구했습니다. 이 최종 반복 과정은 이메일 토론을 통해 진행되었습니다. 그런 다음 최종 성명서를 작성하고 저자들이 승인했습니다. 
In the final stage, practical recommendations for the content of undergraduate clinical reasoning curricula were made based on these findings in the form of a consensus statement and the text was circulated to all the members of the consensus statement group for comments. This final iterative process was undertaken through e-mail discussions. The final statement was then written and approved by the authors.

결과
Results

임상 추론 교육의 영역(무엇을 가르칠 것인가)
Domains of clinical reasoning education (what to teach)

합의된 의견은 임상 추론 교육의 다섯 가지 영역으로 분류되었습니다:
The agreed consensus ideas were grouped in to five domains of clinical reasoning education:

  1. 임상 추론 개념
  2. 병력 및 신체 검사
  3. 진단 검사 선택 및 해석
  4. 문제 식별 및 관리
  5. 공유된 의사 결정.
  6. Clinical reasoning concepts
  7. History and physical examination
  8. Choosing and interpreting diagnostic tests
  9. Problem identification and management
  10. Shared decision making.

이러한 영역은 표 1과 아래 텍스트에서 자세히 설명합니다. 부록 파일 1에는 영국 일반의협의회의 '졸업생 성과'(일반의협의회 2018)에 매핑된 개별 합의 아이디어가 나열되어 있으며, 5년 프로그램 동안 언제 교육해야 하는지에 대한 제안도 포함되어 있습니다.
These domains are expanded on in Table 1 and in the text below. Supplementary File 1 lists the individual consensus ideas, mapped against the UK General Medical Council’s ‘Outcomes for Graduates’ (General Medical Council 2018), and also includes suggestions for when to teach during a 5 year programme.

임상 추론 개념
Clinical reasoning concepts

의미 있는 토론과 학습을 촉진하기 위해서는 교사와 학습자 모두 [임상 추론에 대한 정의, 어휘 및 개념]을 공유하는 것이 중요합니다(Wu 2018). 주요 이론(예: 스크립트, 이중 과정), 임상 추론 능력의 발달 과정, 진단 오류의 문제, 환자를 위한 안전하고 효과적인 치료에서 임상 추론의 역할, 인지 오류 및 임상 추론 과정 또는 결과를 손상시킬 수 있는 기타 요인은 의과대학에서 가르쳐야 하며 프로그램 전반에 걸쳐 과정에 통합되어 있어야 합니다.

It is important for both teachers and learners to have a shared definition, vocabulary and concepts for clinical reasoning in order to facilitate meaningful discussion and learning (Wu 2018). Key theories (e.g., script, dual process), how clinical reasoning ability develops, the problem of diagnostic error, the role of clinical reasoning in safe and effective care for patients, cognitive errors and other factors that may impair the clinical reasoning process or outcome should be taught in medical schools and integrated into courses throughout the programme.

병력 및 신체 검사
History and physical examination

[효과적인 의사소통 기술]은 환자, 친척 또는 보호자로부터 정보를 이끌어내고 신뢰를 얻는 데 필수적입니다. 학부 의학교육의 의사소통 커리큘럼 내용에 대한 영국 합의 성명서(Noble 외. 2018)는 의사소통 기술 개발을 위한 프레임워크를 제시하고 핵심 내용을 권장합니다. 또한 졸업 시점에 학습자는 환자의 병력이 환자 이외의 출처(예: 친척, 간병인, 구급차 시트, 의료 기록)에서도 나올 수 있다는 점을 인식해야 합니다. 학습자는 [의도적으로 정보를 수집]하고 [가설 중심의 질문]을 통해 환자의 증상을 탐색할 수 있어야 합니다(Hasnain 외. 2001). 이는 가설을 확인하거나 반박하기 위해 [신체 검사 결과를 예상]하고, 실제 진단에 도달하거나 새로운 가설을 생성하기 위해 결과를 도출하고 해석하는 [신체 검사 기동을 수행해야 하는 신체 검사로 확장]됩니다(Yudkowsky 외. 2009).
Effective communication skills are vital in eliciting information and gaining trust from a patient, relative or carer. The UK consensus statement on the content of communication curricula in undergraduate medical education (Noble et al. 2018) presents a framework and recommends key content for the development of communication skills. In addition, by graduation, learners should appreciate that a patient’s history may also come from sources other than the patient (e.g., relatives, carers, ambulance sheet, medical records). They should be able to purposefully gather information and explore patients’ symptoms through hypothesis-driven enquiry (Hasnain et al. 2001). This extends to the physical examination which should involve anticipating physical examination findings to confirm or refute hypotheses and performing physical examination manoeuvres to elicit and interpret findings in order to reach a working diagnosis or generate new hypotheses (Yudkowsky et al. 2009).

학습자는 역학에 대한 지식, 특정 질병에서 특정 증상 및 징후가 나타날 확률(상자 1의 예시 참조) 및 해당되는 경우 가능성 비율을 사용하여 [병력 및 신체검사의 데이터를 정확하게 종합]하여 [질병의 임상적 확률을 판단]할 수 있어야 합니다. 초기에는 질병에 대한 일반적인 설명과 간단한 특징 목록을 가르칠 수 있지만, 졸업할 때까지 학습자는 현지 상황과 관련하여 [많은 환자가 교과서에 설명된 질병의 전형적인 특징을 나타내지 않는다]는 것을 명확하게 이해해야 합니다(Manzoor 및 Redelmeier 2019). 학습자는 정상 결과와 부수적인 소견을 포함한 진단 검사 결과를 정확하게 해석하기 위해 질병의 임상적 확률을 추정할 수 있어야 합니다. 
Learners should be able to accurately synthesise data from the history and physical examination to judge the clinical probability of disease using their knowledge of epidemiology, the probability of the presence of particular symptoms and signs in specific diseases (see example in Box 1) and likelihood ratios, where relevant. While typical presentations of diseases and simple lists of features may be taught in the early years, by graduation learners should have a clear understanding, relevant to their local context, that many patients do not present with the classical features of diseases as described in textbooks (Manzoor and Redelmeier 2019). Learners need to be able to estimate the clinical probability of disease in order to be able to accurately interpret diagnostic test results, including normal results and incidental findings.

 

진단 검사 선택 및 해석
Choosing and interpreting diagnostic tests

졸업 시 학습자는 [임상(검사 전) 확률, 민감도 및 특이도, 검사 후 확률, 질병 유병률, 예측값, 검사 결과에 영향을 미치는 질병 이외의 요인, 현지 상황과 관련된 일반적으로 사용되는 검사의 중요한 특징] 등의 개념에 대한 실질적인 이해를 입증할 수 있어야 합니다. 학습자는 많은 검사 결과가 임상 소견에 비추어 [해석이 필요하다는 것]을 알고 임상 추론 과정에서 이 지식을 적용할 수 있어야 합니다. 학습자는 특정 검사가 어떤 질문에 답할 수 있는지에 대한 지식을 바탕으로 조사를 제안할 수 있어야 하며, 적절한 조사에 관한 결정을 돕기 위해 근거 기반 지침 및 의사 결정 보조 도구를 사용할 수 있어야 합니다.
By graduation, learners should be able to demonstrate a practical understanding of concepts such as clinical (pre-test) probability, sensitivity and specificity, post-test probability, prevalence of disease, predictive values, factors other than disease that influence test results and important characteristics of commonly used tests relevant to their local context. Learners should know that many test results require interpretation in the light of clinical findings and they should be able to apply this knowledge during the clinical reasoning process. They should be able to suggest investigations based on knowledge of what question a particular test can answer, and be able to use evidence-based guidelines and decision aids to assist in their decisions regarding appropriate investigations.

문제 식별 및 관리
Problem identification and management

졸업 시 학습자는 [문제 표현을 정확하게 공식화]하고, 이를 바탕으로 ['반드시 놓치지 말아야 할' 진단을 포함하여 우선순위를 정하여 감별 진단을 구성]할 수 있어야 합니다. 때로는 [두 가지 이상의 문제]가 있을 수 있으며, 이러한 상황에서 학습자는 문제 목록을 구성할 수 있어야 합니다. 잠재적 진단을 생각하기 전에 [의미적 한정어와 정확한 의학 용어를 사용하여 문제를 명확하게 '캡슐화'하는 능력]은 사례와 관련된 장기 기억에서 지식을 구성하고 검색하는 데 도움이 되는 중요한 기술이며, 특히 복잡한 사례에서 진단 정확도를 높이는 것과 관련이 있습니다(Bordage 1994).
By graduation, learners should be able to accurately formulate a problem representation and, based on this, construct a prioritised differential diagnosis, including relevant ‘must-not-miss’ diagnoses. Sometimes there is more than one problem, and in these situations learners need to be able to construct a problem list. The ability to ‘encapsulate’ a problem clearly, using semantic qualifiers and precise medical terms, before thinking through potential diagnoses, is an important skill that helps to organise and retrieve knowledge from long term memory relevant to the case and is associated with higher diagnostic accuracy, particularly in complex cases (Bordage 1994).

때로는 진단을 내릴 수 없는 경우도 있으므로 학습자는 [진단의 불확실성을 관리하는 방법]을 배워야 합니다(Ilgen 외. 2019; Gheihman 외. 2020). 학습자는 졸업 시점에 이 환자에게 [가장 가능성이 높은 진단이 무엇인지, 안전하게 배제할 수 있는 진단은 무엇인지, 드물지만 반드시 배제해야 하는 심각한 진단은 없는지] 결정할 수 있어야 합니다(Murtagh 1990). 이러한 상황에서는 '이 환자의 상태가 얼마나 좋은가, 좋지 않은가' 또는 '선배 동료를 참여시켜야 하는가, 얼마나 긴급한가'와 같은 결정이 내려질 수 있으며, 고급 학습자에게는 이러한 상황에서 감독하에 결정을 내릴 수 있는 기회가 제공되어야 합니다. 
Sometimes, it is not possible to make a diagnosis and learners must learn to manage diagnostic uncertainty (Ilgen et al. 2019; Gheihman et al. 2020). By graduation, learners should be able to decide what is the most likely diagnosis for this patient at this point in time, what can be safely excluded and whether there are any rare but serious diagnoses that must be excluded (Murtagh 1990). At such times the decision may be, ‘How well or unwell is this patient?’ or ‘Should I involve a senior colleague and how urgently?’ and advanced learners need to be provided with opportunities to make supervised decisions in these situations.

임상 추론 문헌에서는 결과가 진단으로 간주되는 경우가 많지만, 임상에서는 그렇지 않은 경우가 많습니다(Ilgen 외. 2016; Cook 외. 2018). 적절한 관리 계획의 개발은 때때로 문제 목록이나 감별 진단보다 더 복잡할 수 있습니다. [진단]은 환자의 증상과 징후 또는 진단 검사에 의해 결정되며, 여기에는 식별 가능한 문제, 해결책 및 상호 작용하는 요인의 범위가 한정되어 있습니다. 그러나 특정 진단에 대해 [다양한 잠재적 관리 옵션]이 있을 수 있으며, 모든 옵션이 적절할 수 있지만 환자 선호도, 동반 질환, 자원, 비용 효율성 및 지역 정책을 포함한 여러 요인에 따라 달라질 수 있습니다. 학습자는 관리 계획을 수립하는 과정에서 이러한 요소를 고려할 수 있어야 합니다(Cook 외. 2018).
In the clinical reasoning literature, the outcome is often considered to be the diagnosis, but this is often not the case in clinical practice (Ilgen et al. 2016; Cook et al. 2018). The development of an appropriate management plan may sometimes be more complex than that of a problem list or differential diagnosis. Diagnoses are determined by a patient’s symptoms and signs or diagnostic tests, in which there is a finite range of identifiable problems, solutions and interacting factors. However, for any given diagnosis, there may be numerous potential management options, all of which may be appropriate but dependent on a number of factors including patient preferences, co-morbidities, resources, cost-effectiveness and local policies. The learner needs to be able to take these factors into account in the process of formulating a management plan (Cook et al. 2018).

또한 학습자는 [메타인지적 지식과 비판적 사고]를 사용하여 성과를 개선할 수 있어야 합니다(Krathwohl 2002; Olson, Rencic 등, 2019). 영국에서는 시스템과 인적 요인에 중점을 둔 환자안전 교육이 학부 및 대학원 의학교육에서 확립되고 있지만(General Medical Council 2015), 효과적인 임상 추론을 위해서는 인지 전략에도 중점을 두어야 합니다. 가이드 반영은 진단 성과를 개선하고 임상 지식의 학습을 촉진하는 것으로 나타났으며(Chamberland 외. 2015; Prakash 외. 2019), 이 과정은 교육자가 촉진해야 합니다.  
Learners should also be able to use metacognitive knowledge and critical thinking to improve their performance (Krathwohl 2002; Olson, Rencic, et al. 2019). In the UK, patient safety training, with a focus on systems and human factors, is becoming established in undergraduate and postgraduate medical education (General Medical Council 2015), but effective clinical reasoning also requires a focus on cognitive strategies. Guided reflection has been shown to improve diagnostic performance and foster the learning of clinical knowledge (Chamberland et al. 2015; Prakash et al. 2019) and this process should be facilitated by educators.

공유된 의사 결정
Shared decision making

학습자는 졸업할 때까지 [공동 의사 결정]에 필요한 기술을 개발해야 합니다. 공동 의사결정을 위해서는 [효과적인 의사소통과 타인의 가치를 파악하고 이해하는 능력]이 필요합니다(Elwyn 외. 2012; Fulford 외. 2012). [관리 의사결정]은 종종 환자 및 보호자와 공동으로 이루어지지만, [공유 의사결정은 팀, 근거 기반 지침, 기술, 점수 및 의사결정 보조 도구도 의미합니다]. 학습자는 실제 상황에서 지식은 '머릿속에 있는 것'이 아니라 사람, 컴퓨터, 책, 기타 도구 또는 도구를 통해 환경 전체에 분산되어 있다는 것을 이해해야 합니다(Artino 2013).
By graduation, learners need to develop the skills required for shared decision making. Shared decision making requires effective communication and the ability to identify and understand others’ values (Elwyn et al. 2012; Fulford et al. 2012). Management decisions are often co-produced with patients and carers, but shared decision making also refers to teams, evidence-based guidelines, technology, scores and decision aids. Learners should understand that in real world situations, knowledge is not something that is ‘all in your head’ but is distributed throughout the environment in people, computers, books, and other tools or instruments (Artino 2013).

또한 학습자는 팀워크, 다른 사람의 기여도 평가, 예의, 경청, 도움 요청, 명확한 의사소통(특히 환자 치료 인계 시), 진단 및 관리 과정에 환자 및 보호자 참여 등 의사 결정을 지원하는 전문적인 가치와 행동을 보여줄 수 있어야 합니다(미국 과학, 공학 및 의학 아카데미 2015).
Learners should also be able to demonstrate professional values and behaviours that support decision making, including teamwork, valuing the contributions of others, civility, listening, asking for help, clear communication (especially when handing over care of a patient), and involving the patient and/or carers in the diagnostic and management process (National Academies of Sciences, Engineering, and Medicine 2015).

 

교육 전략(교육 방법)
Teaching strategies (how to teach)

의대생의 임상적 추론 능력을 향상시키기 위해 고안된 교육 개입을 설명하고 경험적 결과를 포함하는 27개의 연구가 확인되었습니다. 스키마/질병 스크립트를 가르치는 연구는 2건, 임상 의사 결정의 원리를 가르치는 연구는 3건, 소리 내어 생각하기, 브레인스토밍 또는 인지 매핑을 사용하는 전략은 4건, '인지적 강제 전략'(이 중 5건은 구조화된 반성을 사용)을 가르치는 연구는 7건, 피드백이 포함된 실습 사례는 11건이었다. 모두 단기적인 개입이었으며 장기적인 커리큘럼 접근법을 설명하는 사례는 없었습니다.

  • 의대생에게 의사 결정의 원칙을 가르친다고 해서 성과가 개선되지는 않았습니다.
  • 인지적 편향으로 인한 오류를 줄이기 위해 고안된 인지적 강제 전략을 가르치는 것 역시 성과를 개선하지 못했습니다.
  • 그러나 질병 스크립트 교육, 소리 내어 생각하기/브레인스토밍 전략 사용, 구조화된 성찰, 피드백을 통한 사례 연습은 성과를 개선했습니다.

문헌 검토 결과에 대한 자세한 설명은 보충 파일 2에서 확인할 수 있습니다.
Twenty-seven studies were identified that included empirical findings and described a teaching intervention designed to improve the clinical reasoning ability of medical students. Two studies involved teaching schemas/illness scripts; three involved teaching the principles of clinical decision making; four used strategies that employed thinking aloud, brainstorming or cognitive mapping; seven taught ‘cognitive forcing strategies’ (five of which used structured reflection); and eleven used practice cases with feedback. All were short term interventions with none describing a long term curriculum approach.

  • Teaching the principles of decision making to medical students did not improve performance.
  • Teaching cognitive forcing strategies designed to reduce error from cognitive biases also did not improve performance.
  • However, teaching illness scripts, using thinking aloud/brainstorming strategies, structured reflection, and practicing cases with feedback did improve performance.

A detailed description of the results of the literature review can be found in Supplementary File 2.


임상 추론 교육에 관한 광범위한 문헌에서 효과적인 임상 추론 능력 개발을 위해서는 [의학에 대한 공식적 지식과 경험적 지식이 핵심]이라는 데 동의하고 있습니다(Norman 외. 2006, 2017). 현재까지 사고 자체에 대한 교육(예: 이중 과정 이론, 인지적 편향 제거 전략 교육)이 그 자체로 진단 성과를 향상시킨다는 증거는 거의 없습니다(Sherbino 외. 2014; Smith and Slack 2015). 임상 추론 교육에 관한 문헌을 검토한 Schmidt와 Mamede(2015)는 임상 의사 결정에 관련된 [일반적인 사고 과정을 가르치는 교육적 접근 방식]은 [대체로 효과가 없는] 반면, [지식과 이해를 쌓는 것을 목표로 하는 교육 전략]은 [개선 효과를 가져온다]는 사실을 발견했습니다. 그러나 현재 진행 중인 연구 분야 중 하나는 반성적 전략의 사용입니다. 진단적 의사 결정 시 성찰이 단순히 기존 지식을 동원하는 수단인지, 아니면 이중 과정 이론(즉, 우리가 생각하는 방식)의 광범위한 틀 안에서 이해될 수 있는지는 현재 진행 중인 논쟁의 문제입니다(Norman 외. 2017; Prakash 외. 2019; Stanovich 2009).

In the wider published literature on teaching clinical reasoning, there is agreement that formal and experiential knowledge of medicine is central for the development of effective clinical reasoning ability (Norman et al. 2006, 2017). To date, there is little evidence to demonstrate that teaching about thinking itself (e.g., teaching dual process theory, cognitive de-biasing strategies) by itself improves diagnostic performance (Sherbino et al. 2014; Smith and Slack 2015). In a review of the literature on teaching clinical reasoning, Schmidt and Mamede (2015) found that educational approaches aimed at teaching the general thinking processes involved in clinical decision making were largely ineffective, whereas teaching strategies aimed at building knowledge and understanding led to improvements. However, one area of ongoing research is in the use of reflective strategies. Whether reflection during diagnostic decision making is simply a means of mobilising existing knowledge, or can also be understood within a broad framework of dual process theory (i.e. how we think), is a matter of ongoing debate (Norman et al. 2017; Prakash et al. 2019; Stanovich 2009).

의대생의 임상 추론 능력을 향상시키는 데 효과적인 것으로 입증된 교수 전략의 예는 표 2에 나열되어 있으며 아래에 자세히 설명되어 있습니다.
Examples of teaching strategies that have been demonstrated to be effective in improving the clinical reasoning ability of medical students are listed in Table 2 and expanded on below.

이해도를 높이는 전략
Strategies that build understanding

[의미 있는 정보]는 더 쉽게 기억하고 기억할 수 있습니다. [자기 설명/상술하기]는 의대생의 진단 능력을 향상시키고 학습자가 지식을 통합하는 데 도움이 되는 것으로 나타났습니다(Chamberland 외. 2011, 2015). [자기 설명]은 학습자가 사용하는 인지 과정, 즉 사전 지식과 새로운 지식의 고유한 매칭을 포함하기 때문에 [교수자의 설명]보다 성능이 뛰어납니다(Bisra 외. 2018). Woods 등(2005)은 증상 및 징후에 대한 기초 과학 메커니즘을 이해하면 의대생들의 진단 성과도 향상된다는 것을 보여주었습니다. 교사는 이해와 회상을 촉진하는 전략을 사용해야 합니다.
Meaningful information is easier to retain and recall. Self-explanation/elaboration has been shown to improve diagnostic performance in medical students and helps learners consolidate their knowledge (Chamberland et al. 2011, 2015). Self-explanation outperforms explanation by the instructor because of the cognitive processes learners use, which include their idiosyncratic matching of prior knowledge to new knowledge (Bisra et al. 2018). Woods et al. (2005) showed that understanding the basic science mechanisms for symptoms and signs also improved diagnostic performance among medical students. Teachers should use strategies that promote understanding as well as recall.

구조화된 반성을 사용하는 전략
Strategies that employ structured reflection

[구조화된 성찰] 또는 [안내에 따른 성찰]은 의대생의 진단 능력을 향상시키는 것으로 나타났습니다(Lambe 외. 2016; Prakash 외. 2019). 학습자에 비해 케이스가 더 복잡할 때 그 영향이 가장 큽니다(Norman et al. 2017). 구조화된 성찰의 예로는 '이것에 대한 증거는 무엇인가', '다른 것은 무엇일 수 있는가'와 같은 질문을 학생 스스로에게 하도록 유도하거나(Chew et al. 2016), 각 감별 진단과 양립하거나 양립할 수 없는 소견을 나열하도록 요청하는 것(Myung et al. 2013) 등이 있습니다. Mamede 등(2012, 2014)은 구조적 반성에 관한 두 가지 연구를 수행했는데, 두 연구 모두 임상 증례 진단을 연습하는 동안 [구조적 성찰]을 사용한 학생들이 일주일 후 같은 질병의 새로운 증례를 진단할 때 대조군보다 더 나은 성과를 보였다는 사실을 발견했습니다. 저자들은 '[증례로 연습하는 동안의 구조화된 성찰]이 임상 지식의 학습을 촉진하는 것으로 보인다'고 결론지었습니다. 
Structured or guided reflection has been shown to improve diagnostic performance in medical students (Lambe et al. 2016; Prakash et al. 2019). The impact is greatest when the case is more complex relative to the learner (Norman et al. 2017). Examples of structured reflection include encouraging students to ask themselves questions like, ‘What’s the evidence for this?’ and ‘What else could it be?’ (Chew et al. 2016), or asking students to list findings that are compatible or not compatible with each differential diagnosis (Myung et al. 2013). Mamede et al. (2012, 2014) performed two studies on structured reflection, both of which found that students who used it while practicing diagnosing clinical cases outperformed controls in diagnosing new examples of the same diseases a week later. The authors concluded that, ‘Structured reflection while practicing with cases appears to foster the learning of clinical knowledge.’

증례를 통한 연습과 수정 피드백
Practice with cases and corrective feedback

가능한 한 다양한 상황에서 [가능한 한 다양한 사례로 연습]하는 것이 학습에 매우 중요합니다(Eva 외. 1998). 그러나 연습만으로는 충분하지 않으며, 전문성을 개발하기 위해서는 수정 피드백, 노력, 코칭도 필요합니다(Ericsson 2004). 이를 위해서는 실수에 대한 토론이 장려되고 불확실성을 인정할 수 있는 안전한 학습 환경이 제공되어야 합니다(Eva 2009). 규칙적인 연습은 학습자가 질병 스크립트를 개발하는 데 도움이 되며(Schmidt 외. 1990), 이는 [일반적인 지식이 아닌 지식 조직화가 효과적인 임상 추론 능력의 핵심]이기 때문에 중요합니다(Lubarsky 외. 2015). 또한 사례를 단계적으로 드러내는 것보다 전체 사례 접근 방식('직렬 단서' 접근 방식)이 특히 초보자에게는 작업 기억에 대한 인지 부하를 줄이기 때문에 교육할 때 더 효과적이라는 증거가 있습니다(Schmidt and Mamede 2015).
Practice with as many different cases as possible in as many different contexts as possible is critical for learning (Eva et al. 1998). However, practice alone is insufficient; corrective feedback, effort and coaching are also required to develop expertise (Ericsson 2004). This requires the provision of a safe learning environment where discussion of mistakes is encouraged and where there is recognition of uncertainty (Eva 2009). Regular practice helps learners develop illness scripts (Schmidt et al. 1990), which is important because knowledge organisation rather than generic knowledge is key to effective clinical reasoning ability (Lubarsky et al. 2015). There is also evidence that a whole case approach, rather than revealing a case in stages (the ‘serial-cue’ approach) is more effective when teaching, especially for novices, because it decreases cognitive load on working memory (Schmidt and Mamede 2015).

문제 특이적 개념을 중심으로 지식을 구조화하는 전략
Strategies that structure knowledge around problem-specific concepts

성과가 높은 학습자는 비슷한 수준의 지식에도 불구하고 성과가 낮은 학습자와는 질적으로 다른 방식으로 지식을 구성합니다(Coderre 외. 2009). [문제 특이적 개념을 중심으로 지식을 구조화하는 것]은 [자발적인 유추적 전이], 즉 한 문제의 정보를 다른 맥락에서 다른 문제를 해결하는 데 사용하는 것을 촉진하는 것으로 나타났습니다(Needham and Begg 1991; Eva 외. 1998). 교육자는 졸업할 때까지 학습자가 다양한 일반적인 임상 프레젠테이션에 대해 조직화된 문제-특이적 지식(관련 지식 및 증거에 기반한 개념도 또는 의사결정 트리와 유사)을 습득할 수 있도록 지원해야 합니다.
High-performing learners organise their knowledge in a qualitatively different way to low-performing ones, despite similar levels of knowledge (Coderre et al. 2009). Structuring knowledge around problem-specific concepts has been shown to promote spontaneous analogical transfer – that is, the use of information from one problem to solve another problem in a different context (Needham and Begg 1991; Eva et al. 1998). By graduation, educators should facilitate learners in gaining organised problem-specific knowledge (akin to a concept map or decision tree, underpinned by relevant knowledge and evidence) for a range of common clinical presentations.

검색 연습을 활용하는 전략
Strategies that employ retrieval practice

여러 연구에 따르면 [정보의 장기 보존과 회상을 촉진하는 전략]이 성과를 향상시키는 것으로 나타났습니다(Eva 2009, Weinstein 및 Sumeracki 2019). 교수 및 학습 중에 정보를 열심히 기억하도록 촉진하는 전략은 진단 성과의 향상으로 이어집니다. 여기에는 구조화된 반성(Norman 외. 2017; Prakash 외. 2019), 저부담 퀴즈(Green 외. 2018; Larsen 외. 2009), 간격 연습(Kerfoot 외. 2007), 대조 학습(Ark 외. 2007) 등이 포함됩니다. 교육 및 학습 습관의 작은 변화만으로도 정보 유지 및 회상, 고차원적 사고 측면에서 상당한 이점을 얻을 수 있습니다(Dobson 외. 2018). 
Several studies have shown that strategies that promote long term retention and recall of information improve performance (Eva 2009; Weinstein and Sumeracki 2019). Strategies that promote effortful recall of information during teaching and learning lead to improvements in diagnostic performance. These include structured reflection (Norman et al. 2017; Prakash et al. 2019), low stakes quizzing (Green et al. 2018; Larsen et al. 2009), spaced practice (Kerfoot et al. 2007) and contrastive learning (Ark et al. 2007). Small changes in instruction and study habits can yield significant benefits in terms of retention and recall of information and higher order thinking (Dobson et al. 2018).

학습 단계에 따라 달라지는 전략
Strategies that differ according to stage of learning

위의 모든 전략은 학습 단계에 따라 적절하게 조정되어야 하며 '나선형 커리큘럼' 내에서 개발되어야 합니다(Harden and Stamper 1999). 의학에서 의미 있는 학습을 하려면 상당한 인지적 처리가 필요하므로 학습자가 특정 과제를 다룰 때 [작업 기억에 사용되는 노력]을 고려하는 방식으로 교육을 구성해야 합니다(Van Merrienboer 및 Sweller 2010). 학습해야 할 각 역량에 대해 교육은 [복잡성이 낮고 충실도가 낮은 과제에 대한 높은 교육적 지원]에서 [충실도가 높고 복잡한 과제에 대한 최소한의 지원]으로 이동해야 합니다(Leppink and Duvivier 2016). 졸업이 가까워지면 학습자의 임상 추론 능력은 임상 팀의 일원으로 일하고 실제 임상 환경에서 감독을 받으며 의사 결정을 내리는 데 도움이 됩니다(Lefroy 외. 2017). 이러한 후기 교육 단계의 학습자는 [구조화된 디브리핑]을 통해 필터링되지 않은 사례에 노출되어야 합니다. 커리큘럼 설계와 평가 프로그램은 이러한 전환을 보장해야 합니다. 
All of the above need to be tailored appropriately to different stages of learning and developed within a ‘spiral curriculum’ (Harden and Stamper 1999). Meaningful learning in medicine requires substantial cognitive processing, so instruction should be structured in a manner that takes into account the effort being used in working memory when learners are dealing with particular tasks (Van Merrienboer and Sweller 2010). For each competency to be learned, instruction should move from high instructional support on low complexity, low fidelity tasks through to minimal support on high fidelity, high complexity tasks (Leppink and Duvivier 2016). Approaching graduation, learners’ clinical reasoning abilities benefit from working as part of a clinical team and making decisions in a real but supervised clinical environment (Lefroy et al. 2017). Learners in these later stages of training should be exposed to unfiltered cases with structured debriefing. Curriculum design and its assessment programme must ensure this transition.

결론
Conclusion

임상 추론 교육은 의학교육, 인지 심리학, 진단 오류 및 의료 시스템 문헌에서 그 기원을 찾을 수 있습니다(Olson, Singhal 외. 2019). 다양한 분야의 여러 이론이 임상 추론에 대한 연구에 영향을 미치며(Ratcliffe 외. 2015), 무엇을 어떻게 가르쳐야 하는지에 대해 밝혀줍니다. 그러나 이러한 단편적인 문헌은 의학교육자가 접근하기 어렵고 일상적인 진료에 의미 있게 적용하기 어려울 수 있습니다. 이 백서의 목적은 모든 의과대학에 유용하고 각기 다른 지역 상황에 맞게 적용할 수 있는 실용적인 권장 사항을 제공하는 것입니다.

Clinical reasoning education has origins in the medical education, cognitive psychology, diagnostic error and health systems literature (Olson, Singhal, et al. 2019). A number of theories from diverse fields inform research on clinical reasoning (Ratcliffe et al. 2015), shedding light on what should be taught and how. However, this fragmented literature can be difficult for medical educators to access and adopt meaningfully into their daily practice. The purpose of this paper is to provide practical recommendations that will be of use to all medical schools and can be adapted to different local contexts.

모든 의과대학에서 지식, 기술 및 행동을 가르치지만, 목적에 맞는 커리큘럼 설계를 통해 가르치는 내용, 가르치는 방법, 가르치는 시기에 세심한 주의를 기울이면 임상적 추론 발달을 보다 효과적으로 촉진할 수 있다는 좋은 증거가 있습니다. 그렇다고 해서 반드시 추가 교육 시간이 필요한 것은 아닙니다. 대신, 교육에 대한 구체적인 접근 방식을 구상하고 권장하며, 이를 위해서는 교수진 개발 프로그램이 필요할 수 있습니다. 임상 추론 기술을 가르치기 위해 고안된 독립형 모듈은 성공할 가능성이 낮습니다. 임상 추론은 학부 및 대학원 의학 교육 과정 전반에 걸쳐 수평적, 수직적으로 명시적으로 통합되어 발달적 방식으로 진행되어야 합니다.
While all medical schools teach knowledge, skills and behaviours, there is good evidence that careful attention to what is taught, how it is taught, and when it is taught can facilitate clinical reasoning development more effectively, through purposeful curriculum design. This does not necessarily require additional teaching time. Instead, a specific approach to teaching is envisaged and recommended, and this is likely to require a programme of faculty development. Stand-alone modules designed to teach clinical reasoning skills are unlikely to be successful. Clinical reasoning should be explicitly integrated, both horizontally and vertically, into courses throughout undergraduate and postgraduate medical training in a developmental fashion.

 

Supplementary File 1: What to teach consensus ideas with duplicates removed, organised in to broad CR areas, and mapped against the GMCs ‘Outcomes for Graduates’.

Suggestions for when to teach during a 5 year programme are in the right hand columns.

 

Supplementary File 1.docx
0.04MB


 

Med Teach. 2021 Feb;43(2):152-159. doi: 10.1080/0142159X.2020.1842343. Epub 2020 Nov 18.

Consensus statement on the content of clinical reasoning curricula in undergraduate medical education

Affiliations collapse

1Medical Education Centre, University of Nottingham, Nottingham, UK.

2School of Medicine, University of Dundee, Dundee, UK.

3School of Medicine, University of Leicester, Leicester, UK.

4Hull York Medical School, Hull, UK.

5School of Clinical Medicine, University of Cambridge, Cambridge, UK.

6School of Dental Sciences, Newcastle University, Newcastle, UK.

7Division of Medical Education, University of Manchester, Manchester, UK.

PMID: 33205693

DOI: 10.1080/0142159X.2020.1842343

Abstract

Introduction: Effective clinical reasoning is required for safe patient care. Students and postgraduate trainees largely learn the knowledge, skills and behaviours required for effective clinical reasoning implicitly, through experience and apprenticeship. There is a growing consensus that medical schools should teach clinical reasoning in a way that is explicitly integrated into courses throughout each year, adopting a systematic approach consistent with current evidence. However, the clinical reasoning literature is 'fragmented' and can be difficult for medical educators to access. The purpose of this paper is to provide practical recommendations that will be of use to all medical schools.

Methods: Members of the UK Clinical Reasoning in Medical Education group (CReME) met to discuss what clinical reasoning-specific teaching should be delivered by medical schools (what to teach). A literature review was conducted to identify what teaching strategies are successful in improving clinical reasoning ability among medical students (how to teach). A consensus statement was then produced based on the agreed ideas and the literature review, discussed by members of the consensus statement group, then edited and agreed by the authors.

Results: The group identified 30 consensus ideas that were grouped into five domains: (1) clinical reasoning concepts, (2) history and physical examination, (3) choosing and interpreting diagnostic tests, (4) problem identification and management, and (5) shared decision making. The literature review demonstrated a lack of effectiveness for teaching the general thinking processes involved in clinical reasoning, whereas specific teaching strategies aimed at building knowledge and understanding led to improvements. These strategies are synthesised and described.

Conclusion: What is taught, how it is taught, and when it is taught can facilitate clinical reasoning development more effectively through purposeful curriculum design and medical schools should consider implementing a formal clinical reasoning curriculum that is horizontally and vertically integrated throughout the programme.

Keywords: Consensus; clinical reasoning; curriculum; medical education; undergraduate.

질환 스크립트의 30년: 이론적 기원과 실제적 적용(Med Teach, 2015)
Thirty years of illness scripts: Theoretical origins and practical applications
EUGE` NE J. F. M. CUSTERS
University Medical Center Utrecht, The Netherlands

 

 

서론
Introduction

바틀렛(1932/1954)은 인간이 실제 세계의 지식, 예를 들어 이야기를 기억하는 것이 아니라 그들의 요지에 의해 기억하고, [처음보다 더 짧고 일관성 있게 만드는 경향]이 있다는 것을 실험적으로 증명한 이후로, "schema"의 개념은 사람들이 이러한 기스트를 기억하기 위해 사용하는 기본 단위를 나타내는 데 사용되어 왔다. [일반화된 사건을 단위로 표현하는 지식 구조]로서 [보다 구체적인 형태의 스키마]인 [스크립트]가 제안되었다. 샹크와 아벨슨(1977)의 작품이 출판된 후 몇 년 동안, 몇몇 연구자들은 대본의 표현적 특성과 행동적 측면을 조사했다.

Since Bartlett (1932/1954) experimentally demonstrated that humans do not literally remember real-world knowledge, such as stories, but recollect them by their gist and are inclined to make them shorter and more coherent than they initially were, the concept of a “schema” has been used to represent the basic units people use to remember these gists (Bobrow & Norman 1975; Brewer & Treyens 1981; Mandler 1984; Schmidt & Sherman 1984). A more specific type of schema, a script, has been proposed as the knowledge structure that represents generalized events as a unit (Abelson 1975; Schank & Abelson 1977). In the years following the publication of the Schank and Abelson (1977) work, several researchers have investigated the representational characteristics and behavioral aspects of scripts (Graesser et al. 1979; Bellezza & Bower 1981; Smith & Graesser 1981; Walker & Yekovich 1984; Abbott et al. 1985; Yekovich & Walker 1986; Maki 1990; Davidson 1994).

스크립트의 세부 사항에 대한 완전한 합의는 부족하지만, 다음과 같은 7가지 측면이 공통 분모로 간주될 수 있다: 스크립트는

  • (1) 사전 컴파일된 높은 수준의 개념적 지식 구조이다, 
  • (2) 장기 메모리에 저장됩니다, 
  • 이는 (3) 일반적인 (고정관념화된) 사건 시퀀스를 나타낸다, 
  • 이 시퀀스는 (4) 개별 사건이 시간적, 인과적, 계층적 관계에 의해 상호 연결되며,
  • (5) 적절한 맥락에서 일체형 전체integral whole로 활성화될 수 있다, 
  • (6) 실제 상황에 존재하는 정보로 채워질 수 있는 변수와 슬롯을 포함하고, 메모리에서 검색되거나 맥락을 통해 추론될 수 있다 
  • (7) 일상적으로 수행되는 활동의 결과 또는 수행되는 그러한 활동을 보는 것의 결과로 발전한다. 즉, 직접적 또는 대리적 경험을 통해 만들어진다.

Although full agreement concerning the details of scripts is lacking, the following seven aspects can be considered a common denominator: Scripts are

  • (1) high-level, pre-compiled, conceptual knowledge structures,
  • which are (2) stored in long-term memory,
  • which (3) represent general (stereotyped) event sequences,
  • in which (4) the individual events are interconnected by temporal and often also causal or hierarchical relationships,
  • that (5) can be activated as integral wholes in appropriate contexts,
  • that (6) contain variables and slots that can be filled with information present in the actual situation, retrieved from memory, or inferred from the context,
  • and that (7) develop as a consequence of routinely performed activities or viewing such activities being performed; in other words, through direct or vicarious experience (Abelson 1975; Schank & Abelson 1977; Haberlandt & Bingham 1984; Pryor & Merluzzi 1985).

스크립트는 다음과 같은 중요한 기능을 제공합니다:

  • (1) 그들은 행동적 시퀀스를 이해하는 데 필요한 구조화된 지식을 제공한다, 
  • (2) 그것들은 개인들이 새로운 정보를 기존의 지식과 통합할 수 있게 한다, 
  • (3) 기억 검색을 유도하고, 
  • (4) 그들은 가까운 미래에 일어날 일에 대한 예측을 가능하게 한다, 
  • (5) 그들은 실제 행동을 안내한다 
  • (6) 일반적으로 특정 작업 또는 작업 순서가 발생했거나 발생할 수 있는 이유를 설명하는 데 사용할 수 있는 지식을 포함합니다.

Some important functions are served by scripts:

  • (1) they provide structured knowledge necessary for understanding behavioral sequences,
  • (2) they enable individuals to integrate new incoming information with existing knowledge,
  • (3) they guide memory retrieval,
  • (4) they enable predictions about what will happen in the near future,
  • (5) they guide actual behavior, and
  • (6) they usually contain knowledge that can be used to explain why a specific action or sequence of actions has occurred or might occur.

대부분의 경우, 스크립트는 개인이 적절한 컨텍스트에 있거나 이 컨텍스트가 언급되거나 생각되는 경우 활성화됩니다. 전형적인 예는 "레스토랑 대본"이다. 레스토랑에 들어가거나 레스토랑을 생각하면 레스토랑 스크립트가 활성화되고 개인은 이 스크립트를 사용하여 무슨 일이 일어났는지 이해하고 다음에 무슨 일이 일어날지 예측합니다. 스크립트는 중앙 또는 핵심 정보를 포함합니다, 예를 들어, 그 음식은 돈의 대가로 제공되는 반면, 다른 측면들은 더 가변적이거나 주변적일 수 있다. 예를 들어, 웨이터가 있는지 아니면 음식이 카운터에서 손님에 의해 가져가는지, 그리고 에피타이저가 제공되는지 여부. 
Most of the times, scripts are activated if the individual is in the appropriate context or if this context is being mentioned or thought of. The classic example is the “restaurant script.” Upon entering a restaurant, or thinking about a restaurant, the restaurant script is activated and the individual uses it to understand what happened and predict what will happen next. The script contains central or core information, e.g., that food is being served in exchange for money, whereas other aspects may be more variable or peripheral, for example, whether there will be a waiter or the food will be taken by the customer from a counter, and whether an appetizer will be served or not.

[스크립트가 활성화]되면 [중심적인 측면]은 [고정된 방식]으로 사용할 수 있는 반면, [덜 중심적인 측면] 그 상황에서 사용 가능한 실제 정보(예: 웨이터가 젊은 여성임) 또는 자동적by default으로(예: 고객이 메뉴에서 항목을 선택할 수 있음)를 사용하여 채워질 수 있는 [변수 또는 슬롯의 형태]를 가질 수 있다. 기본적으로 모든 슬롯 정보나 변수 값이 추론되는 것은 아니며, 일부는 [단순히 지정되지 않은 상태로 유지]되지만, 스크립트가 완료되는 동안(예: 에피타이저가 제공되는지 여부) 어느 시점에 채워질 수 있도록 열려 있습니다. [컨텍스트에서의 실제 정보, 메모리에서 검색된 정보로, 자동적]으로 [변수에 값을 할당하고 슬롯을 채우는 프로세스]를 [스크립트 인스턴스화]라고 합니다. 

If a script is activated, its central aspects will become available in a fixed manner, while less central aspects will have the form of variables or slots that might be filled in using actual information available in the context (e.g., that the waiter is a young woman) or by default (e.g., that the customer can choose entries from a menu). Not all slot information or variable values will be inferred by default; some will simply be left unspecified but open to be filled-in at some point during the completion of the script (e.g., whether an appetizer is offered). The process of assigning values to variables and filling slots with actual information from the context, information retrieved from memory, or by default, is called the script instantiation.

[인스턴스화된 스크립트][일반 스크립트]에 의해 제공되는 표현에 대한 지식의 일부와, 현장에서 실제로 존재하거나 추론될 수 있는 [상황 특이적 정보]를 가진 구체적인 사건의 표현으로 볼 수 있다. 인스턴스화된 스크립트에서 이러한 [상황 특이적 정보]는 [일반 스크립트]에 "태그"되며, [인스턴스화된 스크립트]가 장기 메모리에 저장되면 태그는 개인이 나중에 실제로 발생한 특정 이벤트로 기억할 수 있게 한다. 그러나 일반적인 스크립트와 달리 [태그된 지식]은 시간이 지남에 따라 점차 쇠퇴합니다; 따라서, 시간이 지남에 따라, [특정 사건 기억]는 메모리에서 훨씬 더 안정적인 표현인 [일반 스크립트에 대한 지식]에 의해 점점 더 지배될 것이다. 따라서 오랜 시간이 지난 후 이러한 기억을 다시 불러올 경우, [인스턴스화된 스크립트]의 [대부분의 세부 사항]은 [매우 두드러지거나 스크립트의 진행을 방해하지 않는 한] 더 이상 기억하지 못할 수 있습니다(예: 연기가 실내를 가득 메워 저녁 식사를 마치기 전에 식당을 떠나야 했던 시간 - 수년이 지난 후에도 기억할 수 있는 상황).

An instantiated script can be seen as the representation of a concrete event, with part of the knowledge in the representation supplied by the generic script, and part by situation-specific information, which may be actually present or inferred at the spot. In instantiated scripts, this situation-specific information is “tagged” to the generic script (Schank & Abelson 1977; Graesser et al. 1980; Bellezza & Bower 1981; Schmidt & Sherman 1984; Maki 1990; Davidson 1994), and if the instantiated script is stored in long-term memory, the tags enable the individual to remember it later as a specific event that actually took place. However, unlike the generic script, tagged knowledge will gradually decay over time; hence, with the passing of time, specific event memories will be increasingly dominated by knowledge of the generic script, which is a much more stable representation in memory. Thus, if we retrieve such memories after a long time, we might no longer be able to remember most details of the instantiated script, unless they were very salient or interrupted the script’s progress (e.g., the time when we had to leave the restaurant before finishing dinner because smoke filled the room – something we may remember even after many years).

대본의 심리적 타당성
The psychological validity of scripts


많은 연구들이 [스크립트 개념]의 [심리적 타당성]에 대한 증거를 제공했다. 우선 사람들이 [익숙한 사건]을 개별 사건과 장면 사이의 [인과적 또는 시간적 연결]과 함께 [계층적 구조]로 구성한다는 증거는 충분하다. 또한, [어떤 동작]이 스크립트에 속하는지 뿐만 아니라, 이러한 [동작의 순서, 중심성 및 고유성]에 대해서도 동의가 발견되었다. 게다가, 스크립트를 구성하는 이벤트는 [시간적으로 단서를 제공]한다. 즉, 일반적으로 일련의 사건들을 역순으로 말하는 것보다 순순으로 말하는 것이 훨씬 더 쉽다.
A large number of studies have provided evidence for the psychological validity of the script concept. To begin with, there is ample evidence that people organize familiar events in a hierarchical structure with causal or temporal connections between individual events and scenes (Rosch 1978; Bower & Clark-Meyers 1980). In addition, agreement has been found not only with respect to which actions belong to a script (e.g., Bower et al., 1979; Graesser 1981), but with respect to sequence, centrality, and distinctiveness of these actions as well. Moreover, the events that compose a script are temporally cued, i.e., it is generally much easier to tell a sequence of events in forward order than in reverse order (Haberlandt & Bingham 1984; Barsalou & Sewell 1985).

또한, 실험실 실험에서 스크립트 이론은 다음과 같이 차등적 메모리 성능을 구체적으로 예측한다 

  • (a) 다양한 유형의 정보(즉, 전형적 대 비정형), 
  • (b) 정보의 차별적 관련성(즉, 중요한 대 중요하지 않은), 
  • (c) 서로 다른 검색 작업(즉, 리콜 대 인식) 및 
  • (d) 서로 다른 검색 지연(즉, 즉각적인 메모리 테스트와 지연된 메모리 테스트). 

In addition, in laboratory experiments, script theory specifically predicts differential memory performance for

  • (a) different types of information (i.e., typical versus atypical),
  • (b) differential relevance of information (i.e., important versus unimportant),
  • (c) different retrieval tasks (i.e., recall versus recognition), and
  • (d) different delays of retrieval (i.e., immediate versus delayed memory test) (Sulin & Dooling 1974; Tzeng 1975; Bellezza & Bower 1981; Smith & Graesser 1981; Yekovich & Walker 1986).

예를 들어, 회상 연구에 따르면 [즉각적인 테스트]에서는 비정형적인 스크립트 동작, 사물 또는 사건을 매우 잘 회상하는 반면, [지연된 테스트]에서는 비정형적인 정보에 대한 기억이 희미해지는 것으로 나타났는데, 특히 이러한 정보가 덜 두드러지거나 덜 관련성이 있거나 덜 생생한 경우 더욱 그렇습니다. 반면, 스크립트 [일반 정보에 대한 기억]은 회상 침입, 즉 [인스턴스화된 스크립트에 존재하지 않더라도 이 정보를 "회상"하는 것]이 특징입니다. 인식 기억 연구에서 (의도적으로 생략한) 스크립트의 [전형적인 정보에 대한 오경보 현상][보편적으로 발견]되는 현상입니다. 반면 [비정형 정보에 대한 오경보율]은 특히 이러한 정보가 스크립트에 주변적인 정보인 경우 [훨씬 낮습니다].

For example, recall studies have shown that at immediate testing, atypical script actions, objects, or events are recalled quite well, while at delayed testing, memory for atypical information appears to have faded, particularly if this information is less salient, relevant, or vivid (Bower et al. 1979; Graesser et al. 1980; Graesser 1981; Smith & Graesser 1981; Schmidt & Sherman 1984; Davidson 1994). Memory for script typical information, in contrast, is featured by recall intrusions, that is, this information is “recalled” even if it was not present in the instantiated script (Brewer & Treyer 1981; Schmidt & Sherman 1984). In recognition memory studies, the corresponding phenomenon of false alarms to (deliberately omitted) script typical information is an ubiquitous finding (Sulin & Dooling 1974; Bower et al. 1979; Graesser et al. 1979, 1980; Bellezza & Bower 1981; Brewer & Treyens 1981; Walker & Yekovich 1984; Nakamura & Graesser 1985; Nakamura et al. 1985; Yekovich & Walker 1986; Maki 1990; Davidson 1994). False alarm rates to atypical information, in contrast, are much lower, in particular, if this information is peripheral to the script (Nakamura & Graesser 1985; Yekovich & Walker 1986).

[스크립트 이론]은 인식 메모리 성능 외에도 [정보 처리 및 결정 속도에 대한 예측]을 수행하며, 읽기 속도 또는 결정 반응 시간(RT)으로 표현됩니다. 가장 일반적인 형태로, 이것의 배후에 있는 추론은 꽤 간단하다: 스크립트에 의해 암시되거나 스크립트에서 쉽게 추론될 수 있기 때문에, 개인이 [기대할 새로운 정보]는 [예상치 못한 정보]보다 더 빠르게 처리될 것이다. 따라서 식당 스크립트가 활성화된 경우, "웨이터가 점잖았다"는 문구는 "수리공이 점잖았다"는 문구보다 더 빠르게 처리될 것이다. 이 문구들을 고립적으로 처리하면 유사한 처리 시간을 보여줄 것이다.  
In addition to recognition memory performance, script theory also makes predictions about information processing and decision speed, expressed as reading speed or decision reaction times (RTs). In its most general form, the reasoning behind this is quite simple: new information that an individual will expect, because it is implied by the script or can easily be inferred from the script, will be processed faster than unexpected information. Thus, if a restaurant script is activated, the statement “The waiter was gentle” will be processed faster than “The repairman was gentle,” even although in isolation these statements will show similar processing times.

그러나 특정 스크립트 인스턴스화의 경우 처리 시간에 대한 예측은 조금 더 복잡합니다. 식당 스크립트의 특정 인스턴스화에서 수리공이 있었다면(예: 우리가 식사하는 동안 수리 작업을 하고 있었다면), 나중에 웨이터보다 수리공에 대한 기억이 더 생생할 수 있는데, 이는 식당 스크립트의 여러 인스턴스화에서 모두 웨이터가 있었지만 그 중 하나만 수리공이 있었다는 것을 구분하는 데 어려움을 겪을 수 있기 때문입니다. 일반적으로 스크립트의 일반적인 정보는 쉽고 빠르게 유추할 수 있지만, 특히 일반적인 정보이기는 하지만 스크립트에 꼭 필요한 정보가 아닌 경우 시간이 지나면 기억하기 어렵습니다. 따라서 시간이 지나면 "애피타이저를 먹었나요?"와 같은 질문은 "수리공이 있었나요?"라는 질문보다 더 긴 RT로 알 수 있듯이 대답하기가 더 어려울 것입니다. 실험실 연구에 따르면 실제로 특정 인스턴스화에서 스크립트의 전형적인 특징이 실제로 존재하는지 여부를 판단하는 데 비정형적인 특징의 유무보다 더 많은 시간이 걸리는 것으로 나타났습니다. 

In the case of a specific script instantiation, however, predictions about processing times are a bit more complex. If, in a particular instantiation of the restaurant script, a repairman was present (e.g., doing repair work while we were eating), we may later have more vivid memories of this repairman than of the waiter, because we may have trouble discriminating between different instantiations of the restaurant script – in all of which a waiter was present, but in only one of these a repairman. More generally, script typical information will be easily and quickly inferred, but hard to recollect after some time, in particular, if the information is typical, but not absolutely necessary for the script. Thus, after a while, a question, such as “did you have an appetizer?” will be harder to answer – as evidenced by a longer RT – than the question “was there a repairman?” Laboratory studies have shown that indeed it takes more time to decide on the actual presence of typical features of a script in a particular instantiation than on the presence or absence of atypical features (Nakamura & Graesser 1985; Yekovich & Walker 1986).

질병 스크립트
Illness scripts

표면적인 수준에서 '실제 생활' 스크립트와 '질병' 스크립트의 비유는 분명합니다. 모든 질병은 아니지만 대부분의 질병은 [환자에게 발생하는 일련의 사건]으로 해석할 수 있습니다. 스크립트 또는 일반적인 이벤트 시퀀스는 질병의 일반적인 임상상에 매핑되는 반면, 각 개별 환자는 특정 순서로 나타나는 전형적인(중심) 또는 비정형적인(말초) 특징을 모두 갖춘 인스턴스화된 질병 스크립트로 간주할 수 있습니다. 이 비유를 설명하기 위해 표 1은 실제 스크립트(레스토랑 스크립트, Graesser 외. 1979에서 각색)와 질병 스크립트(신장 산통 환자)를 대조한 것입니다. 더 깊은 수준에서 보면, 실생활 스크립트와 질병 스크립트 모두의 중심 주제는 지식의 암묵적 인과적 일관성을 표현하는 형식을 제공하는 것입니다(Schank 1975; Schank & Abelson 1977). 

At a superficial level, the analogy between “real life” scripts and “illness” scripts is obvious: most, if not all, diseases can be construed as a sequence of events occurring in a patient. The script, or generic event sequence, maps onto the general clinical picture of a disease, whereas each individual patient can be considered an instantiated illness script, with both typical (central) or atypical (peripheral) features, which appear in a certain order. To illustrate the analogy, Table 1 contrasts a real life script (the restaurant script; adapted from Graesser et al. 1979) with an illness script (a patient with a renal colic). At a deeper level, the central theme of both real life scripts and illness scripts is to provide a format to represent implicit causal coherence of knowledge (Schank 1975; Schank & Abelson 1977).

"스크립트"라는 개념은 심리학 문헌에서 일반적인 스크립트 개념이 등장한 지 불과 몇 년 후인 1983년에 Clancey(1983)에 의해 의학 문헌에 소개되었습니다. 그는 "감염에는 여러 가지 특성이 있지만 세균 감염은 유기체의 체내 유입, 감염 부위로의 유기체 이동, 유기체의 번식, 관찰 가능한 증상 유발이라는 동일한 스크립트을 따르는 경향이 있다"고 설명했습니다(230페이지). 실제 사건과 명백한 유사점 외에도, 의학 영역의 대본 개념은 의학 진단에 대한 기존의 [두 관점 사이의 격차]를 잘 메우는 것처럼 보였다, 

  • 추론 과정(즉, 환자의 불만, 증상 및 기타 소견을 설명하기 위한 생물 의학적 지식의 사용)이라는 것을 강조하는 것
  • 신속한 분류 프로세스(즉, 불만 및 증상 패턴을 진단 범주에 직접 매핑)로 진단을 개념화하는 것

The concept of “script” was introduced in the medical literature by Clancey (1983) only a few years after the general script concept emerged in the psychological literature. “There are many kinds of infections, which have different characteristics, but bacterial infections tend to follow the same script: entry of an organism into the body, passage of the organism to the site of infection, reproduction of the organism, and causing of observable symptoms” he explained (p. 230). In addition to the obvious parallel with real life events, the script concept in the medical domain also appeared to nicely fill the gap between two existing views of medical diagnosis,

  • one which emphasizes that diagnosis is basically a reasoning process (i.e., the use of biomedical knowledge to explain complaints, symptoms, and other findings in a patient), and
  • one which conceives of diagnosis as a quick categorization process (i.e., the direct mapping of patterns of complaints and symptoms to diagnostic categories).

사실, 펠토비치와 바로우스(1984)가 고안한 "질병 대본"은 두 가지 접근법을 연결하기 위해 특별히 고안되었다. 그들은 세 가지 주요 구성 요소를 구분하여 질병 스크립트를 지정했습니다,

  • 활성화 조건, 즉, 연령, 성별, 직업, 위험 행동 및 유전적 요인과 같은 질병에 걸릴 확률에 영향을 미치는 환자 및 상황적 요인 
  • 결함, 즉 기초적인 병리생리학적 과정
  • 결과, 즉 결함이 야기하는 불만, 징후 및 증상.

In fact, the “illness script” as conceived by Feltovich and Barrows (1984) was particularly designed to connect the two approaches. They specified the illness script by distinguishing three main components,

  • the Enabling Conditions, – i.e., the patient and contextual factors that influence the probability that someone gets a disease, such as age, sex, occupation, risk behavior, and hereditary factors, –
  • the Fault, i.e., the underlying pathophysiological process, – and
  • the Consequences, i.e., the complaints, signs, and symptoms the Fault gives rise to (Feltovich & Barrows 1984; Custers et al. 19961998; Hobus et al. 19871989).


특히 진단 상황에서 [활성화 조건]은 중요한 역할을 하는데, 경험이 많은 의사들이 진단 과정에서 아주 초기에 정확한 진단에 도달하는 경우가 많다는 것이 입증되었으며, [활성화 조건]은 일반적으로 가장 이른 가용 데이터이다. 그러나 환자 불만은 분명히 [결과]이며, 질병 스크립트 활성화에도 중요한 역할을 합니다. 심리학적 관점에서, 진단 과정에서의 [조기 가용성]은 질병 과정에서의 특징의 역할보다 더 중요하다. 이것은 자발적 금연이 폐암의 초기 징후가 될 수 있다고 보고한 최근의 연구에서와 같이 예상치 못한 형태를 취할 수 있으며, 따라서 진단적 관점에서 "활성화 조건"으로 볼 수 있지만, 금연이 폐암의 발병을 가능하게 한다는 것을 지지하는 사람은 거의 없다. 일반적으로, 사례를 진단하도록 요청받았을 때, 경험이 풍부한 진단자들은 [사건의 인과 사슬 속의 위치에 관계없이] [주어진 순간에 이용 가능한 모든 정보]를 사용할 것이다.

Especially in diagnostic situations, the Enabling Conditions play an important role, for it has been demonstrated that experienced physicians often arrive at the correct diagnosis quite early in the diagnostic process, on basis of only a few findings (Elstein et al. 1978; Hobus et al. 1987), and Enabling Conditions are usually the earliest available data. However, the patient complaint, which is obviously a Consequence, also plays an important role in illness script activation (Hobus et al. 1987). From a psychological point of view, early availability in the diagnostic process is more critical than a feature’s role in the disease process. This can take unexpected forms, as in a recent study which reports that spontaneous smoking cessation can be an early sign of lung cancer, and could hence be viewed as an “Enabling Condition” from a diagnostic point of view, although few would endorse that smoking cessation enables the development of lung cancer, let alone causes it (Campling et al. 2011). In general, when asked to diagnose a case, experienced diagnosticians will use all the information available at a given moment, irrespective of its actual place is in the causal chain of events.

[스크립트]가 [미리 컴파일된 지식 구조라]는 개념은 질병 스크립트 개념으로도 쉽게 전달된다. 즉, 초보자(예: 의대생)는 질병을 이해하고 환자를 진단하는 데 있어 [근본적인 병태 생리학적 메커니즘]인 [결함에 대한 지식]에 더 의존할 것이다. 경험이 증가함에 따라, 추론 체인의 단계가 컴파일됨에 따라, 사례를 통해 추론하는 이러한 형태는 빠르게 불필요해진다. 따라서 특히 일상적인 사례를 진단하는 전문가의 경우 [결함에 대한 지식]은 사소한 역할만 합니다. 이 점에서 질병 스크립트는 "실생활real life" 스크립트와 크게 다르지 않다: 사람들은 [기본적인 지식]을 사용하여 특정 사건이나 사건의 순서를 설명할 수 있지만, 기본적으로 이러한 지식 없이, [경험만 가지고도 스크립트를 배울 수 있다] (기본 지식 없이 학습된 스크립트의 예는 An et al 1992 참조). 그러나 [전문가들의 전문적인 활동]은 – 어느 영역에서든 – 단순하고 일상적인 진단을 포함할 뿐만 아니라, [실제적인 맥락에서 해석, 설명 및 판단]을 제공하기 때문에, 기본적인 도메인 지식 없이 "맨발" 스크립트만 보유하는 것은 "진정한" 전문가들에게 충분하지 않을 것이다.
The notion that scripts are precompiled knowledge structures is also easily transferred to the illness script concept (Charlin et al. 2000, 2007). That is, novices (e.g., medical students) will rely more on their knowledge of the Fault, the underlying pathophysiological mechanism, in understanding disease and in diagnosing patients (Custers et al. 1998). With increasing experience, this form of “reasoning through” a case quickly becomes superfluous, as the steps in the reasoning chains become compiled. Thus, particularly in experts diagnosing routine cases, knowledge of the Fault only plays a minor role (Clancey 1983; Patel & Groen 1986; Boshuizen et al. 1988; Hobus et al. 1989; Norman et al. 1989; Boshuizen & Schmidt 1992). In this respect, illness scripts do not differ much from “real life” scripts: people can use underlying knowledge to explain a particular event or sequence of events, but they can basically learn the script without this knowledge, on the basis of experience alone (see Ahn et al. 1992, for examples of scripts that are learned without underlying knowledge). However, as experts’ professional activities – in any domain – not only include straightforward and routine diagnosis but also, for instance, providing interpretations, explanations, and judgments in a practical context, the possession of only “barefoot” scripts without underlying domain knowledge would not be sufficient for “true” expertise.

아직까지는 [일상적인 스크립트에서 발견되는 기억 현상]이 질병 스크립트에도 적용된다는 몇 가지 증거가 있습니다. 예를 들어, Arkes와 Harkness(1980)는 진단에서 쉽게 유추할 수 있지만 사례 설명에 제시되지 않은 증상(즉, 전형적인 증상)은 진단자가 잘못 인식하는 경우가 많다는 사실을 발견했습니다. 또한 소아과 의사의 이전 환자 장기 기억력을 조사한 연구에서 Hassebrock과 Prietula(1990)는 참가자들이 '실제' 증상을 기억하는 데 어려움을 겪는 대신 질병에 대한 지식을 사용하여 환자에게 있을 것으로 추정되는 임상 소견을 유추하는 것을 관찰했습니다. 대본에서 벗어났지만 당시에는 진단을 내리거나 치료법을 적용하는 데 중요했던 사례의 특징은 더 잘 기억했습니다. 따라서 스크립트 측면에서 볼 때, 이 의사들은 ['태그가 지정된' 비정형 지식]을 기억했지만, 스크립트 지식을 사용하여 [질병과 일치하는 결과를 추론]했습니다. 마지막으로 질병 스크립트의 처리 특성과 관련하여 Custers 등(1996)은 [질병 스크립트가 활성화된 후(질병을 발표함으로써)] [전형적인 사례 정보]가 [비정형 사례 정보]보다 일관되게 더 빠르게 처리된다는 사실을 발견했으며, 이는 Gagnon 등(2006)에 의해 복제된 결과이며 질병 스크립트의 [기본값 개념]을 뒷받침합니다. 질병 스크립트가 활성화되면 [스크립트 슬롯에 쉽게 들어맞는 정보]가 [비정형 정보]보다 [더 빠르게 처리]될 수 있는 것으로 보입니다. 

As yet, there is some evidence that memory phenomena found for everyday scripts also apply to illness scripts. For example, Arkes and Harkness (1980) found that symptoms that can be easily inferred from a diagnosis (i.e., typical symptoms), but are not presented in the case description, are often falsely recognized by diagnosticians. Furthermore, in a study investigating pediatricians’ long-term retention of previous patients, Hassebrock and Prietula (1990) observed that participants had trouble remembering “actual” symptoms, but instead used knowledge of the disease to infer the clinical findings that presumably were present in the patient. Case features that deviated from the script, but had been, at the time, critical in establishing a diagnosis or installing a treatment, were better remembered. Thus, in script terms, these physicians remembered “tagged” atypical knowledge, but used the script knowledge to infer disease-consistent findings. Finally, concerning the processing characteristics of illness scripts, Custers et al. (1996) found that after an illness script was activated (by announcing the disease), prototypical case information was consistently processed faster than atypical case information, a finding that was replicated by Gagnon et al. (2006) and supports the notion of default values in illness scripts. Apparently, once an illness script has been activated, information that easily fits into the script slots can be processed faster than atypical information.

질병 스크립트 및 의료 전문 지식 개발
Illness scripts and the development of medical expertise

전문성 발달에 대한 명백한 설명은 [전문가]가 [비전문가보다 더 많은 스키마 또는 스크립트 레퍼토리]를 가지고 있다고 생각하는 것입니다(Rumelhart & Norman 1978; Glaser 1986; VanLehn 1989; Gilhooly 1990). 이를 의료 영역에 적용하면 전문 의사가 경험이 적은 의사보다 [질병에 대한 더 많은 레퍼토리]를 가지고 있다는 것을 의미합니다. 그러나 이것은 이야기의 일부일 뿐이며, [개별 질병 스크립트의 구조와 구성]도 전문성과 관련된 발전을 보여줄 것입니다. 예를 들어, Custers 등(1998)의 연구에 따르면 [임상 전 학생들]은 질병의 임상적 상황이나 전형적인 질병 환자를 설명하라는 요청을 받았을 때 레지던트나 숙련된 의사보다 결함 관련 지식(즉, 질병의 병태생리 측면)을 더 많이 언급하고 활성화 조건(환자 배경 정보)을 더 많이 언급하는 것으로 나타났습니다. 의대생은 기본적으로 관련 지식을 갖추고 있지만 스크립트가 정교하게 구성되어 있지 않고 실제 상황에서 사용할 수 있도록 아직 조정되지 않았습니다. 전문가는 스크립트 구조가 제공하는 통합성과 일관성을 통해 실제(진단 및 치료) 및 후향적(즉, 회상)으로 사용하기 위한 지식에 접근할 때 이점을 얻을 수 있습니다. 실제로 연구에 따르면 일반적으로 도메인 관련 정보, 관련성 있는 정보 또는 중요한 정보에 대한 전문가들의 기억력이 뛰어난 것으로 나타났습니다(Spilich 외. 1979; Coughlin & Patel 1987; Hassebrock 외. 1993). 반면, 적절한 순차적 '스크립트' 순서가 아닌 임의의 순서로 정보를 제시하는 등 [스크립트 구조가 파괴된 경우], 이는 초보자보다 전문가의 수행에 훨씬 더 큰 영향을 미치며 심지어 전문가가 더 이상 전문 지식의 혜택을 받지 못할 정도까지 영향을 미칩니다(McKeithen 외. 1981; Coughlin & Patel 1987; Norman 외. 1989).

An obvious account of expertise development is to conceive it as experts having a larger repertory of schemas or scripts than non-experts (Rumelhart & Norman 1978; Glaser 1986; VanLehn 1989; Gilhooly 1990). Applied to the medical domain, this would imply that expert physicians have a larger repertory of illness scripts than less experienced physicians. But this is only part of the story; the structure and composition of individual illness scripts will also show expertise-related development. For example, Custers et al. (1998) showed that preclinical students, when asked to describe either the clinical picture of a disease or a typical patient with this disease, came up with more Fault-related knowledge (i.e., aspects of the pathophysiology of the disease) than residents and experienced physicians, who mentioned more Enabling Conditions (patient background information). Although medical students may basically have the relevant knowledge, their scripts will be less elaborately structured and not yet tuned toward use in practical situations. Experts are supposed to benefit from the integration and coherence script structures provide, in accessing knowledge for use in practice (diagnosis and treatment) as well as retrospectively (i.e., in recall). Indeed, studies have generally shown superior recall in experts for domain-related, relevant, or critical information (Spilich et al. 1979; Coughlin & Patel 1987; Hassebrock et al. 1993). In contrast, if the script structure is destroyed, e.g., by presenting information in a random, rather than in the appropriate sequential “script” order, this affects experts’ performance much more than novices’ – even to the point where experts no longer benefit from their expertise (McKeithen et al. 1981; Coughlin & Patel 1987; Norman et al. 1989).

질병 스크립트 개념의 실제 적용
Practical applications of the illness script concept

이론적 고려 사항과 실제 연구 결과를 종합해 보면 슈미트 외(1990)가 제안한 스크립트 개발에 대한 이전 설명은 업데이트가 필요하다는 것을 알 수 있습니다. 이러한 관점에서 [스크립트 개발의 초기 단계]는 대부분 [생물 의학 지식의 응용]으로 구성됩니다. 그러나 생의학 지식이 거의 없는 것으로 추정되는 [일반인조차도 질병 스크립트와 매우 유사한 구조로 구성된 일반적인 질병에 대한 지식]을 가지고 있습니다(Lau & Hartman 1983; Bishop & Converse 1986; Bishop 외. 1987; Becker 외. 2008).

  • [초보적인 질병 스크립트]는 뇌졸중을 인식하는 방법을 알려주는 건강 캠페인과 같이 일반 청중을 대상으로 하는 매우 제한된 정보를 기반으로 등장할 수 있습니다.
  • [의대 과정 초기]에 학생들은 임상 교과서를 공부하면서 다양한 질병 스크립트에 대한 지식을 쌓습니다.
  • [임상 실습]에 들어가면 이러한 질병 스크립트는 [점차 실무에 맞게 조정]되어, [실제 임상 상황에서 사용할 수 있는 제한된 정보를 바탕으로 활성화]될 수 있습니다. 여기에는 진단 과정 초기에 이용할 수 있는 [지각 정보에 민감해지는 것]이 포함됩니다.

Taken together, theoretical considerations and practical research results suggest that a previous account of script development proposed by Schmidt et al. (1990) is in need of an update. In this view, the early stages of script development consist to a large extent of application of biomedical knowledge. Yet, even laypeople – who presumably have little biomedical knowledge – have knowledge of common diseases that is organized in structures that closely resemble illness scripts (Lau & Hartman 1983; Bishop & Converse 1986; Bishop et al. 1987; Becker et al. 2008).

  • Rudimentary illness scripts can emerge on basis of very limited information addressed at a lay audience, like in health campaigns telling people how to recognize a stroke.
  • During the early years of the medical course, by studying clinical textbooks students accumulate knowledge in a large number of different illness scripts.
  • When they enter clinical practice in the clerkships, these illness scripts become gradually tuned to practice, i.e., they can be activated on basis of limited information available in a practical clinical context. This includes becoming sensitive to perceptual information that is available early in the diagnostic process.

질병 스크립트 조정은 이러한 유형의 지식, 즉 [활성화 조건]과 [초기에 이용 가능한 결과]에 크게 의존합니다. "한번 생각하면 진단이 쉬웠다"는 말은 이미 수십 년 전에 진부한 표현이었으며(Wilkins 1970), 이 단계의 질병 스크립트 개발은 다양한 질병을 가진 많은 환자를 보는 데서 가장 큰 이점을 얻을 수 있음을 시사합니다. 복잡하거나 "흥미로운" 사례에 대한 정교한 토론은 유용한 교육 형식이 될 수 있지만(필연적으로 의사는 때때로 질병 스크립트 중 하나에 "맞지 않는" 환자를 마주하게 될 것입니다), 학생들의 질병 스크립트 개발을 촉진하는 데는 크게 기여하지 못할 것입니다. 마찬가지로 [근본적인 병리 생리학적 메커니즘에 대한 지식]의 역할은 주로 질병을 더 깊은 수준에서 이해하고, 때로는 [질병의 경과나 예상 증상 및 실험실 수치를 예측하는 데에만 국한되는 것]으로 보입니다. 또한 이러한 기초 과학 지식은 전문가들이 의학적 문제에 대해 의견이 일치하지 않을 때 중요한 역할을 할 수 있습니다. 

Illness script tuning depends to a large extent on this type of knowledge, i.e., the Enabling Conditions and the early available Consequences. “Once thought of, diagnosis was easy” was already a cliché quite a few decades ago (Wilkins 1970) and it suggests illness script development in this stage will benefit most from seeing a large number of patients with different diseases. Elaborate discussion of complex or “interesting” cases may be a useful instructional format – inevitably, practitioners will occasionally be confronted with patients who do not “fit” one of their illness scripts – but it will not contribute much to fostering illness script development in students. Similarly, role of knowledge of underlying pathophysiological mechanisms appears to be largely limited to understanding diseases at a deeper level, and occasionally to enable predictions about a disease’s course or expected symptoms and laboratory values. Besides, this basic science knowledge will play an important role when experts disagree about a medical problem.

몇몇 연구는 질병 스크립트의 교육적 의미보다는 [실제적인 효과]를 조사했습니다. Van Schaik 등(2005)은 질병 스크립트 측면이 의사의 특성과 상호 작용하여 의사의 의뢰 결정에 미치는 영향을 조사했으며, Monajemi 등(2012)은 질병 스크립트와 관리 계획 간의 관계를 조사했습니다. 또한 질병 스크립트 개념은 일반 의학 문헌에서도 발판을 마련했습니다(Sanders, 2009, 28쪽).

A few studies have investigated the practical effects of illness scripts, rather than its educational implications. Van Schaik et al. (2005) investigated the influence of illness scripts aspects, in interaction with physician characteristics, on physician referral decisions, whereas Monajemi et al. (2012) investigated the relationship between illness scripts and management plans. Besides, the illness script concept has also acquired a foothold in the general medical literature (Sanders, 2009, p. 28).

마지막으로, 질병 스크립트 이론은 [스크립트 일치도 검사]라는 평가 도구도 개발했습니다(Charlin 외., 2000). 이 테스트는 개별 항목에서 새로운 정보(예: 새로운 발견)가 주어진 대본의 가능성에 어떤 영향을 미치는지 물어봄으로써, 학생의 대본이 전문가 패널의 대본과 어느 정도 일치하는지 측정합니다. 따라서 이 테스트는 검사자가 진단을 '추측'하는 것이 아니라 새로 들어오는 정보를 신중하게 평가하도록 합니다. 다양한 임상 영역에서 점점 더 많이 사용되고 있는 이 검사는 정의되지 않은 상황에서 특히 유용하며 타당성이 입증되었습니다(Lubarsky et al., 2011).
Finally, illness script theory has also brought forth an assessment tool, the Script Concordance Test (Charlin et al., 2000). This test measures to what extent a student’s script matches that of a panel of experts by asking, in individual items, what the effect of a new piece of information (e.g., a new finding) would be on the likelihood of a given script. Thus, this test forces the examinee to carefully assess new incoming information, rather than “guessing” a diagnosis. This test, which is increasingly used in diverse clinical domains, appears to be particularly useful in ill-defined situations and has shown validity (Lubarsky et al., 2011).

 


Med Teach. 2015 May;37(5):457-62. doi: 10.3109/0142159X.2014.956052. Epub 2014 Sep 2.

Thirty years of illness scripts: Theoretical origins and practical applications

Affiliations collapse

Affiliation

1University Medical Center Utrecht , The Netherlands.

PMID: 25180878

DOI: 10.3109/0142159X.2014.956052

Abstract

Aim: This study describes the introduction and spread of the concept of "illness script" in the medical education literature.

Method: First, I will concisely discuss the development of the "script" concept in the general psychological literature and the results of the studies performed to provide it with the necessary empirical basis. Next, I will sketch how "scripts" entered the medical domain via efforts to develop diagnostic systems in the field of artificial intelligence. Subsequently, I will describe how the illness script concept was elaborated and specified by medical educators and educational researchers.

Results and discussion: The illness script concept has solid underpinnings and can be used to elucidate aspects of medical expertise development. It can also be used to formulate recommendations for clinical teaching and has yielded a specific test, the Script Concordance Test.

의과대학생의 전문직정체성 형성: 위계적, 집단적 문화에서의 혼합연구(BMC Med Educ, 2022)
Professional identity formation of medical students: A mixed‑methods study in a hierarchical and collectivist culture
Ardi Findyartini1,2*, Nadia Greviana1,2, Estivana Felaza1,2, Muhammad Faruqi2,3, Taris Zahratul Afifah2,3 and Mutiara Auliya Firdausy2,3

 

서론
Introduction

의료 전문직업성은 시간이 지남에 따라 변할 수 있는 여러 행동을 포함한다[1]. 전문가들은 스스로를 우수하고 윤리적이며 이타적인 환자 치료를 제공할 수 있는 의료 전문가의 구성원으로 생각해야 한다[2]. 그것은 윤리적 원칙 준수, 환자 및 가족과의 효과적 상호작용, 의료 시스템과의 효과적 상호작용, 자신, 타인 및 시스템의 개선을 위한 헌신뿐만 아니라 우수성, 책임성, 이타주의 및 휴머니즘[3]과 같은 기본 원칙을 기반으로 한다. 의학에서 미덕 기반과 행동 기반의 전문성이 개인적이고 전문적인 정체성 형성에 의해 강화되어야 한다는 것이 추가로 강조되었다[5]. 
Medical professionalism encompasses multiple behaviors that may change over time [1] and requires the professionals to picture themselves as the member of the medical professions who are able to provide excellent, ethical and altruistic patient care [2]. It stands on basic principles such as excellence, accountability, altruism, and humanism [3], as well as adherence to ethical principles, effective interactions with patients and their family members, effective interactions with the healthcare system, and commitment towards improvement for self, others and the system [4]. It has been further emphasized that virtue-based and behavior-based professionalism in medicine should be strengthen by personal and professional identity formation [5].

전문직업성 개발을 정착시키는 한 가지 방법은 학생들이 자신의 [전문적 정체성 형성]을 인식하도록 하는 것입니다 [2, 5]. 이 형성은 그들이 의대생이 되었을 때 시작되어 졸업 후에도 계속된다. 교사, 동료, 선배 동료 및 광범위한 의학/의료 커뮤니티와의 광범위한 상호작용은 PIF의 핵심인 [사회화 과정][6]에 의대생을 몰입시킨다. 따라서 의대생들이 [전문적 태도를 내면화]하기 위해서는 [지지적 실천 공동체]와 [양육적 학습 환경]이 중요하다[8]. 임상 환경에서 전문가 정체성은 의료 전문가들이 [실무 경계를 정의]하고, [팀워크에서 역할 혼란을 줄이는 데] 도움이 됩니다[9]. 따라서 실무자[10]와 교육자[11] 모두에게 전문적인 의견의 옹호를 용이하게 한다. 의대생들 사이의 PIF에 대한 범위 검토는 그것이 [개인적, 관계적, 사회적 정체성]의 [지속적인 구축과 해체]를 수반하는 [다요인 현상]임을 강조한다. 이러한 동적 특성은 개인의 가치와 신념 및 의대생의 임상 및 비임상 경험을 포함한 환경 요인과의 상호작용에 의해 영향을 받을 수 있다[12].
One way to anchor professional development is to have students recognize their own professional identity formation [2, 5]. This formation begins when they become medical students and continues after their graduation. A wide range of interactions with teachers, peers, senior colleagues, and the broader medicine/healthcare community immerses medical students in the socialization process [6], which is central to PIF [7]. Consequently, a supportive community of practice and a nurturing learning environment are important for medical students to internalize professional attitudes [8]. In a clinical setting, professional identity helps healthcare professionals define practice boundaries and reduce role confusion in teamwork [9]. Thus, it facilitates the advocacy of professional opinions for both practitioners [10] and educators [11]. A scoping review on PIF among medical students highlights that it is a multifactorial phenomenon which involves a continuous construction and deconstruction of individual, relational and societal identities. This dynamic nature can be influenced by individual values and beliefs and their interactions with environmental factors including clinical and non-clinical experiences of medical students [12].

의학 교육에서, [Kegan의 모델]은 의대생들의 PIF 과정을 깊이 분석하는 것으로 연구자들에 의해 인정받고 있다. 이 모델을 기반으로 PIF를 통합, 충동, 제국, 대인관계, 제도적, 개인간의 6단계로 분류한다. 학생들은 의학 교육 중에 [2-4단계]를 거치는 것으로 여겨진다[7].

  • 2단계(제국 단계)에서 의대생들은 [적절한 자기반성 없이 전문적인 규칙을 인식하고 따를 것]으로 기대된다.
  • PIF가 4단계(제도적 단계)로 발전함에 따라 의대생들은 [서로 다른 가치와 기대의 관점에서 관계를 이해하도록 발전]한다. 결국, 그들은 [더 성찰적이 되고, 전문적이고 제도적인 가치를 내재화]할 수 있다[7].

Kegan의 모델[13, 14]에 기초한 설문지를 사용하여 의대생의 PIF 단계를 식별하기 위한 측정이 개발되었다.
In medical education, Kegan’s model is acknowledged by researchers as deeply analyzing the PIF process in medical students. Based on this model, we categorize PIF into 6 stages: the incorporation, impulsion, imperial, interpersonal, institutional, and inter-individual stages. It is believed that students undergo stages 2–4 during medical education [7].

  • In stage 2 (the imperial stage), medical students are expected to recognize and follow professional rules without adequate self-reflection.
  • As PIF advances in stage 4 (the institutional stage), medical students develop to understand relationships in terms of different values and expectations. Eventually, they become more reflective and can internalize professional and institutional values [7].

Measurements have been developed to identify the PIF stages of medical students, using questionnaires based on Kegan’s model [13, 14].

학생들의 성찰[8, 15]과 [타당화된 설문지]를 포함하여 다양한 방법으로 전문적인 정체성 개발을 평가할 수 있다. 후자는 시간이 지남에 따라 사용될 수 있으며, 이는 동적 개발을 이해하는 데 중요하다. 의대생들의 PIF에 대한 연구는 일반적으로 관련 주제에 대한 포커스 그룹 토론을 사용하여 주어진 맥락에서 이러한 현상을 탐구함으로써 수행된다[16]. PIF를 연구하는 또 다른 방법은 여러 프롬프트에 대한 응답으로 채워진 전문가 정체성 에세이(PIE)를 통해 학생들의 발달을 측정하는 것이다[17].
Numerous methods can assess professional identity development, including students’ reflections [8, 15] and a validated questionnaire. The latter can be used over time, which is critical for understanding dynamic development (e.g., Tagawa M, 2019 [13], Tagawa M, 2020 [14]). Studies on PIF among medical students are usually conducted by exploring this phenomenon in a given context, using focus group discussions on related topics [16]. Another way to study PIF is to measure students’ development through a professional identity essay (PIE) filled with responses to several prompts [17].

이러한 접근법은 학생들이 자신의 [직업적 정체성 발달]을 의식적으로 고려하도록 장려한다[15, 18]. 예를 들어, [개인적인 서술적 성찰]은 학생들이 [학생으로서의 현재의 존재]를 느끼도록 격려한다. 이를 통해 [정체성 불일치]에 대한 경험을 되돌아보고 의료 전문가로서의 미래의 포부를 설명할 수 있습니다[7, 19]. 또한 [잠재의식 수준에서 전문적 정체성의 발달을 드러내는 것]은 동료, 선임 동료 및 의학 교사들과 멘토로서 추가적인 논의를 불러일으킨다[7, 13]. 결국, 그것은 학생들이 그들의 직업적 정체성을 바꾸고 협상하는 것을 도울 수 있다.
These approaches encourage students to consciously consider their professional identity development [15, 18]. For instance, personal narrative reflection encourages students to sense their current being as a student. This helps them reflect on any experience of identity dissonance and to narrate their future aspirations as healthcare professionals [7, 19]. Additionally, revealing the development of professional identity from the subconscious level generates further discussions with peers, senior colleagues, and medical teachers as mentors [7, 13]. Eventually, it can help students reshape and negotiate their professional identity.

연구에 따르면 의학 교육의 부정행위를 포함하여 의대생과 전공의의 [전문직업적 발달]은 실제 [미래의 비전문적인 행동을 예측]할 수 있다[20, 21]. 추가적인 연구는 또한 의대생들의 [비전문적인 행동]이 그들의 [반사성과 적응성]의 어려움에 의해 야기된다는 것을 강조했다. 이러한 행동에는 근본적인 문제의 추가적인 식별, 교정 및 상황에 따라서는 제적까지도 필요하다[22]. 또한 [계층적이고 집단주의적인 문화]에 대한 연구는 전문적 딜레마에 직면했을 때 임상 연도 학생들의 반응에 대한 [문화의 강력한 영향력]을 강조하며, 전문직업성과 전문적 정체성 형성은 항상 맥락적이며 사회 문화적 배경을 고려해야 한다는 것을 보여준다[24].
Studies show that the professional development of medical students and residents, including misconduct in medical education, may predict future unprofessional behavior in practice [20, 21]. Further studies also highlighted unprofessional behaviors among medical students as caused by challenges in their reflectiveness and adaptability. Those behaviors require further identification of underlying problems, remediation and even case dismissal if necessary [22]. Furthermore, a study in a hierarchical and collectivist culture underscores the strong influence of the culture towards clinical year students’ responses when they encounter professional dilemma [23], showing that professionalism and professional identity formation are always contextual and should consider sociocultural backgrounds [24].

따라서 의대생의 전문적 정체성 형성에 대한 연구가 서구적 맥락에서 광범위하게 수행되었기 때문에(예: 1-10) [인도네시아 의대생의 PIF]를 탐색하고자 한다. 인도네시아는 사회가 권력의 불평등(불평등과 종속)을 받아들이고 연결성을 우선시하는 계층적이고 집단주의적인 문화적 배경을 가진 국가이다[25, 26]. 이 환경에서 의학 교사의 PIF에 대한 연구는 PIF에 종교적 가치, 가족 영향 및 사회적 인식이 강력하게 통합되었음을 시사한다[27]. 그러나 이러한 문화적 환경에서 의대생에 대한 PIF 연구는 다소 제한적이다.
Therefore, as studies about professional identity formation of medical students have been extensively conducted in western contexts [e.g. 1–10], we would like to explore the PIF of medical students in Indonesia—a country with hierarchical and collectivist cultural backgrounds, in which the society accept inequality in power (superiority and subordinary) and prioritize on connectedness [25, 26]. Studies on PIF of medical teachers in this setting suggests the strong incorporation of religious values, family influences and societal recognition in their PIF [27]. PIF studies on medical students in this cultural setting, on the other hand, is rather limited.

따라서 우리의 연구는 의대생의 PIF에서 개인과 기관의 역할과 관련하여 이러한 특정 맥락에서 더 많은 정보를 제공할 것으로 기대된다. 또한 정량적 도구를 사용하여 PIF를 측정하고 정성적 접근법을 사용하여 PIF를 탐색하는 것을 목표로 하는 연구는 일반적으로 별도로 수행된다. 따라서 의과대학의 역할과 의대생을 위한 PIF의 중요성을 고려하여 다양한 의학연수 단계에서 PIF를 측정하고 PIF에 대한 학생들의 인식과 그 기여/억제 요인을 순차적으로 탐색하고자 한다. 우리의 연구 질문은 세 가지입니다: 

  • a. 인도네시아 맥락에서 적응된 PIF 설문지의 타당성은 무엇인가?; 
  • b. 의학 교육의 다양한 단계에서 학생들의 PIF의 척도는 무엇인가?; 
  • c. 학생들은 PIF와 PIF의 기여/억제 요인을 어떻게 인식하는가? 

Our study therefore is expected to yield further information in this specific context regarding the roles of individuals and institutions in PIF of medical students. In addition, studies aiming to measure PIF using a quantitative tool and to explore it using qualitative approaches are usually conducted separately. Therefore, considering the role of medical schools and the importance of PIF for medical students, we would like to measure PIF at various stages of medical training and explore students’ perceptions of PIF and its contributing/inhibiting factors sequentially. Our research questions are three-folds:

  • a. What is the validity of an adapted PIF questionnaire in Indonesia context?;
  • b. What are the measures of PIF of students at various stages of medical education?;
  • c. How do students perceive PIF and its contributing/inhibiting factors?

PIF를 측정하기 위한 도구의 검증 및 사용은 '현재 위치'의 식별을 통해 의대생의 전문적인 발전을 더욱 지원할 수 있으며 기여/억제 요인의 탐구는 PIF를 지원하고 육성하기 위해 의대에 추가로 정보를 제공할 것으로 기대된다.
The validation and use of instruments to measure PIF can further support professional development in medical students through the identification of ‘where they are at’ and the exploration of contributing/inhibiting factors are expected to further inform medical schools to support and nurture the PIF contextually.

방법
Method

맥락
Context

이 연구는 40개 이상의 학부와 대학원 의학 프로그램이 있는 의과대학인 [인도네시아 의과대학]에서 수행되었다. 학부 과정은 다른 프로그램 중에서 학생 수가 가장 많다. 본 연구와 관련된 학부과정과 대학원과정의 학생들은 각각의 프로그램에서 역량기반의 의학교육과정에 등록하였다.
The study was conducted at Faculty of Medicine Universitas Indonesia, a medical school that is home to more than 40 undergraduate and postgraduate medical programs. The undergraduate program has the largest numbers of students among other programs. Students of the undergraduate and postgraduate programs involved in this study were enrolled in a competency-based medical curriculum in their respective programs.

설계.
Design

이것은 [순차적 설명 접근법]을 사용한 혼합 방법 연구이다[28]. PIF는 [PIF 단계와 역동적 프로세스]에 대한 [심층적이고 성찰적인 이해]가 필요한 [복잡한 현상]이기 때문에 [체계적인 정량 및 정성 측정]을 사용하여 의대생과 전공의 사이에서 [PIF에 대한 포괄적인 이해]를 얻기 위해 이 접근 방식을 선택했다[17]. 본 연구에서 [혼합 방법 접근법을 사용한 목적]은 [정량적 단계의 결과]에 대해 더 자세히 설명하기 위해 보다 [철저한 질적 설명]을 제공하는 것이었다[29]. 본 연구에서 [타당화된 설문지]를 사용하여 PIF를 정량적으로 측정한 목적은 연구 연도에 걸쳐 의대생의 PIF 프로파일을 제공하는 것이었지만, [FGD를 통한 추가 탐]색은 PIF의 동적 과정을 제공하기 위한 것이었다.
This is a mixed-methods study using a sequential explanatory approach [28]. We selected this approach to gain a comprehensive understanding of PIF among medical students and residents, using systematic quantitative and qualitative measures, as PIF is a complex phenomenon that requires a deep and reflective understanding of its stage and dynamic processes [17]. The purpose of using mixed methods approach in this study was to provide a more thorough qualitative description to explain further about the findings from the quantitative stage [29]. While the quantitative measurement of PIF using validated questionnaire in this study was aimed to provide the PIF profiles of medical students across study years, further exploration through FGDs was intended to provide the dynamic processes of the PIF.

응답자
Respondents

연구는 학부 의대생(2, 4, 6학년)과 대학원 의대생 또는 전공의(각 프로그램의 2-3학년)를 대상으로 했다. 이러한 수준에서 그들의 참여는 다양한 학년 수준의 학생들 사이에서 PIF 설문지 점수의 차이를 관찰하는 연구 목표를 용이하게 할 것으로 기대되었다.
The study involved undergraduate medical students (years 2, 4, and 6) and postgraduate medical students or residents (years 2–3 of each program). Their involvement at these levels was expected to facilitate the study aim of observing differences in PIF questionnaire scores to better understand PIF among students at different year levels.

정량단계
Quantitative stage

a. 도구.
a. Instrument.

본 연구의 설문지는 Tagawa가 개발한 설문지에서 수정되었다[13, 14]. 설문지의 사용은 Kegan의 모델을 기반으로 의대생들의 PIF 단계와 일치하는 설문지의 구성 타당성과 양호한 신뢰성에 의해 뒷받침되었다. 본 연구에서는 설문지를 이용하여 PIF의 다양한 수준을 파악할 수 있는 기회가 매우 중요했다. 이는 영어에서 인도네시아어로 번역되었으며 의미 비교 가능성과 내용 타당성을 보장하기 위해 역번역되었다(표 1 참조). 번역은 전문 번역가가 완료하고 의학교육에 전문성을 갖고 의학교육에서 PIF를 연구해온 저자(AF, EF, NG)가 큐레이팅했다. 번역에 이어 설문지를 활용해 FMUI의 현재 [학부 의대생인 저자 3명(TZA, MAF, MF)]과 설문조사에 참여하지 않은 다른 학생 5명이 참여한 [인지면접]을 완료했다. 인도네시아어 번역문에 대한 후속 수정은 명확성을 개선하고 적절한 대응을 용이하게 하기 위해 관련 항목에 대해 이루어졌다. 각각의 개정은 역번역 수정과 원래 항목과의 의미 비교 가능성 확인을 포함했다.

The questionnaire in this study was adapted from a questionnaire developed by Tagawa [13, 14]. The use of the questionnaire was supported by the construct validity and good reliability of the questionnaire which is aligned with the PIF stages of medical students based on Kegan’s model. The opportunity to capture the different levels of PIF using the questionnaire was critical in this study. This was translated from English into Indonesian and back-translated to assure meaning comparability and content validity (see Table 1). The translations were completed by a professional translator and curated by the authors (AF, EF, NG), who have expertise in medical education and have been studying PIF in medical education. Following translation, we used the questionnaire to complete a cognitive interview involving three authors (TZA, MAF, and MF), who are current undergraduate medical students at FMUI, as well as 5 other students who did not participate in the survey. Subsequent amendments to the Indonesian translation were made to relevant items to improve clarity and facilitate appropriate responses. Each revision involved a back-translation amendment and check of the meaning comparability with the original items.

b. 데이터 수집
b. Data collection

연구의 첫 단계에서, 우리는 Tagawa[13, 14]가 개발한 번역된 PIF 설문지를 2학년, 4학년, 6학년 학부생과 2학년 전공의에게 시행했다. 우리는 PIF 과정을 보다 포괄적으로 탐구할 수 있도록 2년차 거주자들을 이 연구에 참여시켰다. 우리는 각 응답자 그룹의 60-70%의 목표 응답률을 가진 총 표본 추출 접근법을 사용했다. 모든 잠재적 응답자는 그룹 리더와 연구 프로그램 코디네이터를 통해 온라인 방송을 통해 초대되었다. 잠재적 응답자들에게 그들의 참여는 자발적이며 그들의 진행 중인 연구와 평가에 영향을 미치지 않을 것이라고 강조되었다. 2020년 8월부터 9월까지 데이터 수집이 완료되었으며, 응답률을 높이기 위해 몇 가지 주의사항이 발송되었다.
In the first stage of the study, we administered the translated PIF questionnaires developed by Tagawa [13, 14] to undergraduate medical students year two, four, and six and residents year two. We involved residents year two in this study as they resembled groups of practicing doctors so that we could explore the PIF process more comprehensively. We employed a total sampling approach, with a target response rate of 60–70% of each group of respondents. All potential respondents were invited through an online broadcast via the group leaders and study program coordinators. It was emphasized to the potential respondents that their participation was voluntary and would not affect their ongoing study and evaluation. Data collection was completed from August–September 2020, and several reminders were sent out to increase the response rate.

설문지를 관리한 후 SPSS IBM 27을 사용하여 탐색적 요인 분석(EFA)을 완료하여 강한 상관관계가 있는 항목으로 구성된 요인 또는 차원을 개발하여 설문지의 잠재 변수를 식별했다[30]. 우리는 분석에서 확인된 요인을 원래 설문지[13, 14]의 요인과 비교하는 것을 목표로 했다. 우리는 PIF 설문지의 구인타당도을 지원하기 위해 주요 축 요인(PAF)[31, 32]과 함께 EFA를 수행했다. 
After administering the questionnaire, using SPSS IBM 27 we completed exploratory factor analysis (EFA) to identify latent variables in the questionnaire by developing factors or dimensions constructed by strongly correlated items [30]. We aimed to compare the factors identified in our analysis to those in the original questionnaire [13, 14]. We conducted an EFA with Principal Axis Factoring (PAF) [31, 32] to support the construct validity of our PIF questionnaire.

설문도구 타당화에 이어 응답자 4개 [그룹 간 PIF 점수 비교 및 대조]를 위한 추가 데이터 분석이 수행되었다. 데이터의 비정상적인 분포를 고려하여, 쿠르스칼-월리스는 4개 그룹의 중위수 차이를 분석하기 위해 완료되었고, 뒤이어 사후 분석으로서 Mann-Whitney가 완료되었다.
Following the instrument validation, further data analysis was conducted to compare and contrast the scores of PIF among the four groups of respondents. Given the abnormal distribution of the data, non-parametric tests, Kurskall-Wallis were completed to analyze the median difference of the four groups, followed by Mann–Whitney as a post-hoc analysis).

질적 단계
Qualitative stage

정량적 단계의 데이터 분석에 이어, 특히 PIF 과정에 대한 인식과 이를 기여하고 억제하는 요인을 탐구하기 위해 포커스 그룹 토론이 수행되었다. 포커스 그룹 질문은 [사회화 이론과 통합된 PIF의 개념]과 [Kegan의 모델[7]]을 기반으로 개발되었다(부록 2).
Following the data analysis of the quantitative phase, focus group discussions were conducted to further explore the findings, particularly to explore the perceptions in regards to the PIF process and the factors that contribute and inhibit it. Focus group questions were developed based on a concept of PIF integrated with socialization theory, as well as Kegan’s model [7] (Appendix 2).

PIF에 대한 의견을 가장 잘 표현하기 위해, 포커스 그룹(FG) 참가자는 설문지를 작성하고 포커스 그룹 세션에 초대되는 데 동의한 사람들의 [최대 다양성 샘플링] 접근방식을 사용하여 [의도적으로 선택]되었다[29]. 성별과 (주민을 위한) 연구 프로그램에 대한 대표성을 고려하여 FG 참가자를 선정하기 위해 [최대 다양성 표본 추출 접근법]을 사용했다. 학부 프로그램의 각 클래스 그룹(2년, 4년, 6년)에 대해 2개의 FG가 수행되었고, 외과 및 내과 프로그램 모두에서 전공의를 대상으로 다른 2개의 FG가 수행되었다.
In order to best represent views on PIF, focus group (FG) participants were purposively selected using maximum variety sampling approach from those who filled out the questionnaires and agreed to be invited to a focus group session [29]. The maximum variety sampling approach was used to select the FG participants, accounting for representativeness regarding gender and study program (for residents). Two FGs were conducted for each class group (years 2, 4, and 6) of undergraduate program; two other FGs were conducted for residents in both surgical and nonsurgical study programs.

모든 FG는 [FG에 참여하는 학생이나 전공의의 평가 과정에 관여하지 않는, 해당 기관의 의학 교육자인 핵심 연구팀]에 의해 모더레이션되었다. 모든 FG는 현재 진행 중인 COVID-19 팬데믹으로 인해 화상 회의 플랫폼을 사용하여 온라인으로 진행되었다. 추가 분석을 위해 플랫폼에 포커스 그룹을 기록했다.
All FGs were moderated by the core research teams who were medical educationalists in the institution with no involvement in the assessment process of students or residents participating in the FGs. All FGs were conducted online using video conference platforms due to the COVID-19 pandemic ongoing at time. Focus groups were recorded in the platform for further analysis.

얻어진 정성적 데이터는 코드화 및 이론화 단계(SCAT) 방법을 사용하여 PIF의 관련 이론에 따라 귀납적 및 연역적 접근법을 사용하여 [주제 분석]을 사용하여 전사되고 분석되었다[33]. 핵심 주제와 하위 주제를 식별하기 위한 초기 토론에 이은 초기 주제 분석은 모든 대화록의 추가 분석에 앞서 FG 중재자인 두 명의 저자가 두 개의 대화록에 대해 독립적으로 수행했다. 이 연구는 인도네시아 의과대학 연구윤리위원회(번호: KET-497/UN2.F1/ETIK/PPM.00.02/2020)의 승인을 받았다.

The qualitative data obtained were transcribed verbatim and analyzed using a thematic analysis using inductive and deductive approach according to the related theory of PIF using the Steps for Coding and Theorisation (SCAT) method [33]. The initial thematic analysis followed by initial discussion to identify the core themes and subthemes was conducted on two transcripts independently by two authors who were also the FG moderators [AF and NG] prior to further analysis of all transcripts. The study was approved by the Research Ethical Committee of the Faculty of Medicine Universitas Indonesia (Number: KET-497/UN2.F1/ETIK/PPM.00.02/2020).

결과.
Results

설문지 타당화
Questionnaire validation

우리는 비스듬한 회전으로 PAF를 사용하여 EFA를 수행했다. EFA에는 몇 가지 단계가 포함되어 있습니다.

  • 첫째, 카이저-마이어-올킨(KMO)과 바틀렛의 구형도 검정(KMO = 0.831, 바틀렛의 구형도 검정 = X2 1.357(105), p 0.000)을 사용한 분석 결과 데이터가 EFA의 초기 기준을 충족하는 것으로 나타났다.
  • 둘째, 설문항목의 상관관계를 분석하고 요인을 추출하여 사선회전을 실시하였다. 고유값과 화면도를 사용하여 보존 요인의 수를 확인했습니다(부록 1).

We performed EFA using PAF with oblique rotation. The EFA contains several steps.

  • First, our analysis using the Kaiser–Meyer–Olkin (KMO) and Bartlett’s Test of Sphericity showed that the data fulfilled the initial criteria of the EFA (KMO = 0.831 and Bartlett’s Test of Sphericity = X2 1.357 (105), p 0.000).
  • Second, the questionnaire items were correlated, factors were extracted, and oblique rotation was conducted. The eigenvalue and scree plot were used to determine the number of retained factors (Appendix 1).

모든 항목이 특히 한 요인에서 강하게 적재되었습니다(> 0.4). 교차 적재가 없었고 각 요인은 최소 3개의 항목으로 구성되어 구성된 요인에 대한 적절한 지원이 이루어졌다[31, 32](표 1). 구성요인의 개념적 의미 해석은 4가지 요인/하위 척도로 나타났다 

  • 전문적 역할 인식 및 내재화(항목 8, 9, 12, 14),
  • 전문직업적 행동의 자기통제(항목 3, 6, 7, 15),
  • 전문직업성에 대한 성찰(항목 10, 11, 13),
  • 의료/보건 전문직으로서의 사고과정(항목 1, 2, 4, 5). 

All items were loaded strongly (> 0,4), especially in one factor. There were no cross-loadings and each factor consisted of at least 3 items, leading to adequate support for the constructed factors [31, 32] (Table 1). The interpretation of conceptual meaning of the constructed factors resulted in 4 factors/subscales:

  • recognition and internalization of professional roles (items 8, 9, 12, 14);
  • self-control in professional behavior (items 3, 6, 7, 15);
  • reflections on professionalism (items 10, 11, 13); and
  • thought processes as a medical/health professional (items 1, 2, 4, 5).

설문지의 내부 일관성을 평가하기 위해 전체 척도와 각 부분 판매에 대한 크론바흐의 알파를 계산했다. 전체 척도의 신뢰도는 0.776인 반면, 하위척도 1-4의 신뢰도는 각각 0.662, 0.661, 0.627, 0.522였습니다. 하위척도 4[34]를 제외하면 이는 상당히 만족스러운 결과입니다.
The Cronbach’s alphas of the overall scale and each subscale were calculated to assess the internal consistency of the questionnaire. The reliability of the overall scale was 0.776, while that of subscales 1–4 were 0.662, 0. 661, 0.627, and 0.522, respectively; these are quite satisfactory results, with the exception of subscale 4 [34].

정량단계
Quantitative stage

조사단계에는 총 443명의 응답자가 참여했으며, 2년차, 4년차, 6년차 또는 2단계(전공의)에는 각각 106명(23.9%), 110명(24.8%), 108명(24.4%), 119명(26.9%)이 참여했다. 각 수준별 응답률은 그룹별 전체 응답자의 46~71% 수준이었다. 설문지의 일변량 분석은 표 2에 설명되어 있다.
A total of 443 respondents participated in the survey stage, with 106 (23.9%), 110 (24.8%), 108 (24.4%), and 119 (26.9%) participants in year 2, year 4, year 6, or stage 2 (residents), respectively. The response rate at each level was 46–71% of total respondents in each group. Univariate analysis of the questionnaire is described in Table 2.

 

표 3은 2, 4, 6학년 의대생과 2단계 전공의의 점수 비교에 대한 추가 분석을 제공한다.
Table 3 presents further analyses of the score comparisons for undergraduate medical students in years 2, 4, and 6, as well as stage 2 residents.

표 3은 4개 그룹의 총 PIF 점수 차이를 보여주며, 통계적으로 유의하지는 않지만 6학년 학생과 2단계 전공의의 점수가 다른 2개 그룹보다 높았다. '전문적 역할의 인식과 내재화', '전문적 행동에 대한 자기 통제'와 관련하여 각각 하위척도 1과 2에서 유의미한 하위척도 점수 차이가 관찰된다. Mann-Whitney 시험 결과를 사용한 사후 분석은 수정된 Bonferronip [35]을 사용하여 다음과 같이 설명된다:
Table 3 shows a total PIF score difference among the 4 groups and indicates that year 6 students and stage 2 residents had higher scores than the other two groups, although these differences are not statistically significant. The significant subscale score differences are observed in subscales 1 and 2 regarding “Recognition and internalization of professional roles” and “Self-control towards professional behaviors”, respectively. The post-hoc analysis using the Mann–Whitney test results is described as follows, with the use of adjusted Bonferroni p [35]:

  • a. 하위척도 1의 사후 분석.
    • 4학년과 6학년 학생; X29.296, 수정본페로니 0.014
    • 6학년 학생과 2단계 거주자, X27.630, 조정된 Bonferroni p 0.034
    • 4학년 학생 및 2단계 거주자, X230.689, 조정된 본페로니 0.000
    • 2년차 및 2단계 거주자, X2 12.689, 조정된 Bonferroni p 0.002
  • b. 하위척도 2의 사후 분석
    • 2학년 학생 및 2단계 거주자, X271.768, 조정 본페로니 0.000
    • 4학년 학생 및 2단계 거주자, X260.964, 조정 본페로니 0.000
    • 6학년 학생과 2단계 거주자, X2 15.753, 조정된 본페로니 0.000
    • 4학년과 6학년 학생, X27.010, 수정본페로니 0.049
    • 2학년과 6학년 학생; X223.696, 조정된 본페로니 0.000
  • a. Post-hoc analysis of subscale 1.
    • Year 4 and year 6 students; X2 9.296, adjusted Bonferroni p 0.014
    • Year 6 students and stage 2 residents; X2 7.630, adjusted Bonferroni p 0.034
    • Year 4 students and stage 2 residents; X2 30.689, adjusted Bonferroni p 0.000
    • Year 2 and stage 2 residents; X2 12.689, adjusted Bonferroni p 0.002
  • b. Post-hoc analysis of subscale 2.
    • Year 2 students and stage 2 residents; X2 71.768, adjusted Bonferroni p 0.000
    • Year 4 students and stage 2 residents; X2 60.964, adjusted Bonferroni p 0.000
    • Year 6 students and stage 2 residents; X2 15.753, adjusted Bonferroni p 0.000
    • Year 4 and year 6 students; X2 7.010, adjusted Bonferroni p 0.049
    • Year 2 and year 6 students; X2 23.696, adjusted Bonferroni p 0.000

질적 단계
Qualitative Stage

우리는 총 69명의 참가자가 참여하는 8개의 포커스 그룹 토론을 진행했다. 표 4는 각 포커스 그룹의 참가자 수를 보여줍니다.
We conducted eight focus group discussions involving a total of 69 participants. Table 4 shows the number of participants in each focus group.

두 가지 주제가 포커스 그룹에서 나타나 의대생의 PIF 과정과 이에 영향을 미치는 요인을 묘사한다. 주제들과 하위 주제들의 관계는 도 1에 설명되어 있다.
Two themes emerge from the focus groups, depicting the process of PIF in medical students and the factors that affect it. The relationships of the themes and subthemes are described in Fig. 1.

 

1. 의대생의 PIF 과정
1.Process of PIF in medical students

어떻게 시작되었는가: 의사가 되고 싶은 동기
How it started: motivation to become a doctor

내재적 동기 부여
Intrinsic Motivation

학생들은 의사가 되기 위한 내적 동기와 외적 동기를 모두 보고했다. 그들이 약을 선택한 이유는 다양했다. 가장 일반적인 동기는 [다른 사람들을 돕고 싶은 욕구]였다:
The students reported both intrinsic and extrinsic motivations for becoming doctors. Their reasons for choosing medicine varied. The most common motivation was a desire to help others:

"저는 항상 제 존재의 목적이 다른 사람들을 돕는 것이라고 느껴왔습니다. 그렇게 하는 방법은 의사가 되는 것입니다. 처음에는 엔지니어가 되고 싶었지만 나중에는 의사가 다른 사람들의 삶에 미칠 수 있는 영향이 더 심하다는 것을 깨달았습니다." -R, 2학년.
“I have always felt that the purpose of my existence is to help others. And the way to do that is by becoming a doctor. At first, I wanted to be an engineer, but later I realized that the impact that doctors can have on other people’s lives is more profound.” -R, second-year student.

의사들이 사람들을 돕는 것에 대한 이러한 인식은 [가족이나 가까운 사회 집단에서의 개인적인 경험]에서 비롯된다:
This realization about doctors helping people stems from personal experience in the family or close social circles:

"중등학교 때부터, 저는 저에게 경제적으로 제공할 뿐만 아니라 다른 사람들을 도울 수 있는 직업을 갖기로 결심했습니다. 그리고 저는 나중에 그 보상을 받을 것입니다." -D, 비수술 레지던트.
“Since I was in secondary school, I have decided that I want a profession that will not just provide for me financially, but that will also let me help other people, and I will get the reward later in the afterlife.” -D, non-surgical resident.

일부 학생들은 [학창 시절에 의학과 관련된 과목(대부분 생물학)]에 대한 관심을 언급했다. 그들은 이러한 과목들에 대해 호기심이 많았고 대학에서 더 많은 것을 배우기를 원했다:
Some students mentioned their interest in medicine-related subjects (mostly biology) during their school years. They were curious about these subjects and wished to learn more in college:

"저는 생물학을 정말 좋아합니다. 나는 약과 관련된 정보를 찾곤 했는데, 그것이 나를 더욱 궁금하게 만들었다. 나는 인간의 몸이 어떻게 움직이는지 알고 싶다." -P, 2학년
“I really like biology. I used to look for medicine-related information, which made me even more curious. I want to know how the human body works.” -P, second-year student

외인적 동기부여
Extrinsic Motivation

그들의 [삶에서 역할 모델의 존재]는 학생들이 그들의 길로 의학을 선택하도록 영향을 미치는 것처럼 보였다. 이러한 역할 모델은 [일반적으로 가족 구성원 또는 가족이 의료 서비스를 필요로 할 때 상호 작용하는 의사]였다.
The presence of role models in their lives seemed to influence students to choose medicine as their path. These role models were typically family members or a doctor with whom they interacted when they or their family required medical care.

"우리 부모님은 의사이기 때문에, 저는 어렸을 때 그들의 직업을 소개받았습니다. 나는 정말 아빠를 존경하고 아빠처럼 되고 싶어. 밤에 퇴근해서 집에 돌아오면, 그는 자신이 겪은 사건들에 대한 이야기를 나누곤 했는데, 저는 그 사건들이 매우 흥미로웠습니다." -R, 2학년 학생.
“My parents are doctors, so I was introduced to their field of work when I was little. I really look up to my dad and I want to be like him. When he came home from work at night, he used to share his stories about the cases he had, and I found them very interesting.” -R, second-year student.

의사가 되는 것은 [지식이 풍부한 것]으로 보여지고 [지역 사회에서 중요한 위치를 차지하는 것]과 같은 이점을 동반한다; 이것들은 또한 학생들이 이 직업을 추구하도록 동기를 부여하는 역할을 한다.
Being a doctor comes with advantages, such as being seen as knowledgeable and having an important position in the community; these also play a role in motivating students to pursue this career.

"저는 작은 마을에서 왔고, 저희는 소아과 의사가 한 명밖에 없습니다. 나는 이 의사가 얼마나 국민들에게 존경 받고 잘 알려져 있는지 알 수 있다.. 그가 그곳의 지역사회 지도자인 것처럼 보였고, 나는 그것 때문에 의사가 되고 싶다고 생각한다." -나, 최종 학년 학생.
“I come from a small town, and we only have one pediatrician. I can see how this doctor is highly respected and well-known by the people.. it really looked like he is the community leader there, and I think I want to be a doctor because of that.” -I, final-year student.

[많은 부모들은 그들의 자녀들이 의사가 되기를 원하는데], 이것은 또 다른 중요한 동기를 구성한다:
Many parents want their children to be doctors, which constitutes another important motive:

"저는 처음에는 의사가 되는 것에 별로 관심이 없었지만, 엄마는 정말로 아들이 의사가 되기를 원하십니다. 그래서 제 동기는 엄마를 행복하게 해드리는 거예요." -2학년 A군
“I was not really interested in being a doctor at first, but my mom really wants her son to be a doctor. So my motivation is to make my mom happy.” -A, second-year student

여정: 가치가 처리되고 내재화된 방식
The journey: how the values were processed and internalized

PIF는 [형성]과 [내재화] 과정으로 구성된다. 학생들은 교육 기간 내내 PIF를 경험했다고 보고했다. 이 과정은 그들이 진행함에 따라 점진적으로 발생했는데, 그들은 그들이 되고 싶은 의사들의 [이상적인 모습과 현재의 자신을 비교해보라고 요청받았을 때의 대답]에 반영되었다:
PIF consists of formation and internalization processes. Students reported experiencing PIF throughout their education. This process occurred gradually as they progressed, as reflected in their answers when they were asked to compare their current selves to the ideal picture of the doctors they wanted to become:

"제가 처음으로 역량과 7성급 의사에 대해 읽었을 때, 저는 그것이 성취하기에 매우 높은 기준이라는 것을 알았습니다. 지금 나는 아직도 그것과는 거리가 멀다고 느낀다. 하지만 나는 우리 모두가 '진행 중인 일'이라고 믿는다; 우리는 평생 학습을 연습할 필요가 있다. 우리가 여전히 부족하다는 것을 인정하는 것은 우리가 더 많이 배우도록 유도하기 위해 필요하다. 이것이 의학을 독특하고 끊임없이 진화하는 직업으로 만드는 것이다." -E, 6학년 학생.
“When I first read about the competencies and 7-star doctors, I knew that it was a very high standard to achieve. Now I feel that I am still very far from that. But I believe that we are all a ‘work in progress’; we need to practice lifelong learning. Admitting that we are still lacking is necessary to drive us to learn more. This is what makes medicine a unique and ever-evolving profession.” -E, sixth-year student.

PIF는 다양한 요인이 PIF를 지원하고 억제하는 지속적이고 동적인 과정이다. 학생들이 더 많이 참여함에 따라, 그들은 과정의 복잡성을 인식하게 되었다.
PIF is a continuous and dynamic process, with various factors supporting and inhibiting it. As students became further involved, they grew to recognize the complexity of the process.

"저는 지금 제가 겪고 있는 과정이 학습의 일부라는 것을 깨달았습니다. 우리는 최선을 다하고 일을 끝내지 않으면 우리가 무엇이 될지 절대 알 수 없다. 힘들 때도 있지만, 어쨌든 해보세요." -R, 4학년.
“I realize that the process that I am going through now is part of the learning. We can never tell what we might become unless we put forth our best effort and just finish the task. Even though it can be hard at times, just try to do it anyway.” -R, fourth-year student.

[PIF 과정에서 학생들의 웰빙]은 또 다른 중요한 요소이다. 사실, 학생들은 웰빙을 이상적인 의사의 필수적인 자질로 인식했다:
During the PIF process, students’ wellbeing is another important factor. In fact, students perceived wellbeing as an essential quality of the ideal doctor:

"좋은 의사는 자신의 삶을 관리할 수 있어야 하고 그들의 직업과 그들의 가정 생활 사이에서 균형을 찾을 수 있어야 한다." -D, 비수술 레지던트
“A good doctor should be able to manage their life and find balance between their profession and their family life.” -D, non-surgical resident

"저는 저 자신을 돌보는 것의 중요성을 깨닫게 되었습니다. 스스로 실천하지 않으면 어떻게 사람들이 건강한 삶을 살도록 격려할 수 있을지 반성하기 시작했습니다." -D, 4학년
“I have come to realize the importance of taking care of myself. I started reflecting on how I could encourage people to live a healthy life if I myself did not practice it.” -D, fourth-year student

 

2. 의대생들의 PIF에 영향을 미치는 요인
2.Factors affecting PIF among medical students

내부 요인
Internal factors

우리는 의대생들 사이에서 PIF에 영향을 미칠 수 있는 세 가지 내부 요인, 즉 가치, 능력 및 특성, 개인적인 환경을 식별한다. 
We identify three internal factors that may affect PIF among medical students: values, abilities and traits, and personal circumstances.

가치
Values

[가치관]은 의대생의 PIF를 촉진하는 내적 요인을 구성한다. 예를 들어 PIF를 지원하는 것으로 무결성과 책임이 언급되었다:
Values constitute an internal factor that promotes PIF in medical students. For example, integrity and responsibility were mentioned as supporting PIF:

"내 생각에, [좋은 의사가 되기 위해서는] 이 세 가지를 갖는 것이 중요하다: 1. 충성심 - 우리가 하고 있는 일에 전념하는 것, 2. 우리가 말하고 행동하는 것에 대한 책임감, 3. 신뢰성." -H, 2학년생.
“In my opinion, [to be a good doctor], it is important to have these three things: 1. Loyalty—being committed to what we are doing; 2. responsibility for what we say and do; and 3. dependability.” -H, second-year student.

또한, 7성급 의사들의 내적 가치(예: 공감적인 치료 제공자이자 건강한 라이프스타일을 지속적으로 실천하고 모델링하는 평생 학습자)는 PIF 과정을 장려한다.
Additionally, the internal values of 7-star doctors—such as being an empathetic care provider and lifelong learner who continuously practices and models a healthy lifestyle—encourage the PIF process.

능력과 특성
Ability and Traits

학생들은 [전문직업적 발달에 중요한 몇 가지 능력(일반적이거나 임상 기술에 특화된)을 언급했다. [임상 기술 및 의료 역량]과 관련된 기술은 임상 학생과 거주자가 더 자주 언급한 반면, [일반적인 능력]은 여러 학년에 걸쳐 언급되었다:
Students mentioned several abilities (general or specific to clinical skills) as important for professional development. Clinical skills and those related to medical competencies were mentioned more frequently by clinical students and residents, while generic abilities were mentioned by participants across year groups:

"이상적으로, 의사로서, 우리는 계속해서 배워야 하고 현재의 성과에 쉽게 만족하지 말아야 한다. 그리고 우리는 결코 다른 의사들을 무시해서는 안 된다." - Sk, 레지던트
“Ideally, as medical doctors, we have to keep learning and not be easily satisfied with our current performance. And we should never look down on other doctors.” -Sk, resident

이러한 [일반적인 능력]에는 협업, 도전에 대처, 감정 조절, 비판적 사고, 질문, 적응, 일과 삶의 균형 유지 등의 능력이 포함된다. 참가자들은 또한 학습을 조절하고 전문적인 개발에 대한 피드백을 구하는 능력의 중요성에 주목했다:
These general abilities include the ability to collaborate, cope with challenges, regulate emotions, think critically, ask questions, adapt, and maintain a work–life balance. Participants also noted the importance of ability to regulate learning and seeking feedback towards professional development:

"우리는 나중에 비슷한 질문을 하는 환자들을 볼 수 있기 때문에 수업 중에 질문을 할 필요성이 중요합니다; 우리는 (전문가로서) 질병의 진행 상황을 어떻게 설명해야 하는지 이해해야 합니다." - 2학년 학생.
“The need to ask questions in class is important because we might later see patients who ask similar questions; [as professionals], we should understand how [to explain] the progress of the disease.” -At, second-year student.

개인 사정
Personal Circumstances

학생이 [소진이나 정서적 피로]에 직면해 있는지와 같은 [개인적인 상황]은 전문적인 발달 과정에 영향을 미친다. [자기 기대]와 [역량감]과 같은 다른 개인적인 자질들도 전문적인 발전에 중요하다:
Personal circumstances, such as whether a student is facing burnout or emotional exhaustion, affect the professional development process. Other personal qualities, such as self-expectations and a sense of competence, are also critical in professional development:

"많은 전공의들이 업무량과 과제 때문에 소진에 직면해 있습니다. 그럴 때면 우리는 그저 자신을 위해 무언가를 하고 다른 사람들은 신경 쓰지 않기를 바랄 뿐이다." -R, 레지던트
“Many residents face burnout because of the workload and assignments. At those times, we just want to do something for ourselves and care less about others.” -R, resident

"마침내 수년간 배운 것을 환자에게 적용할 수 있다는 것이 축복받고 자랑스럽습니다. 비록 단순한 경우에만 적용할 수 있다고 생각합니다. 하지만 적어도 내가 [환자의 문제]를 처리할 수 있고 내가 지금까지 배운 것이 쓸모없는 것이 아니라는 것을 아는 것만으로도 충분했다." -S, 최종 학년 학생.
“I feel blessed and proud that—finally—what I’ve learned for years can be applied to patients, although only for simple cases. But it was enough, at least to know that I can handle [the patient’s problems] and know that what I’ve learned this entire time was not useless.” -S, final-year student.

외부요인
External factors

PIF에 영향을 미치는 외부 요인으로는 교육과정, 교육시스템, 학습환경, 직장기반학습, 외부기대 등이 있다.
Some of the external factors affecting PIF are the curriculum, education system, learning environment, workplace-based learning, and external expectations.

커리큘럼
Curriculum

참가자들은 교육과정이 PIF에서 중요한 역할을 한다고 밝혔다. [부담스러운 과제와 과제, 일방통행식 강의, 단조로운 교수학습 방식]은 특히 의학교육의 학습기간이 오래 길어지는 전문성 발달을 저해하고 평생학습 욕구를 위축시킬 수 있다. 이것은 전이 단계, 즉 [임상 전 단계의 뒷부분]에서 더 자주 발생한다. [성적 지향적 패러다임]은 또한 학생들의 성실성을 해칠 수 있기 때문에 전문적인 발전의 저해 요인으로 언급되었다:
Participants revealed that curriculum plays an important role in PIF. Burdensome tasks and assignments, one-way lectures, and monotonous teaching and learning methods can hinder professional development and dampen the desire for lifelong learning, particularly due to the protracted study period in medical education. This occurs more frequently during the transition stage, at the end of the preclinical stage. The score-oriented paradigm was also mentioned as an inhibiting factor in professional development, because it could damage students’ integrity:

"저는 1학년 때 매우 열심히 배우곤 했습니다. 시간이 지남에 따라 학습 자료가 합산되지만 [교수/학습] 접근 방식은 매우 유사합니다. 반복되는 패턴처럼 느껴지는데, 지금 내가 주로 하는 일은 시험에 합격하고 교정을 피하기 위해 공부하는 것뿐이다." -C, 4학년.

“I used to learn very diligently when I was in the first year. As time goes by, the learning materials are added up but the [teaching/learning] approaches are very similar. It feels like a repeating pattern, and what I usually do now is study only to pass the exam and avoid remedials.” -C, fourth-year student.

의대생들도 [명시적 교수/학습 활동의 중요성]을 강조하며 [전문직업성 평가가 교육과정에 통합될 것]을 요구했다. 학생들은 또한 학생들이 [가르치는 것]과 [일상적인 실천에서 관찰되는 것] 사이에 [불일치]가 있다고 느꼈기 때문에 표준화된 직업적이고 비전문적인 행동과 모든 이해관계자들 사이의 일관된 관행에 대한 행동 강령을 요구했다.
Medical students also highlighted the importance of explicit teaching/learning activities and called for professionalism assessments to be integrated into the curriculum. Students also demanded a code of conduct regarding standardized professional and unprofessional behaviors and consistent practices among all stakeholders, as students felt that there was a discrepancy between what is taught and what is observed in daily practice.

"의대를 거치면서 가르치는 규칙과 사람들의 행동 사이에 더 많은 차이가 생기고, 청렴도가 떨어지는 것을 보게 된다." -Q, 최종 학년 학생.
“As I progress through medical school, I see more differences between the rules being taught and the behavior of people, showing decreased levels of integrity.” -Q, final-year student.

임상 기술이 중요하게 여겨지기 때문에 학생들은 임상 전 단계에서 [조기 임상 노출을 제공하는 커리큘럼]을 중요하게 생각한다. 그러나 임상 학생들은 부서별로 수행된 임상 회전이 그들의 전문적인 발달을 다소 저해한다고 보고했다:
Because clinical skills are considered important, students value a curriculum that provides early clinical exposure during the preclinical stages. However, clinical students reported that clinical rotations conducted departmentally somewhat inhibited their professional development:

"제가 생각하기에 전문적인 의사가 되는 것에 대한 생각을 이해하는 것을 어렵게 만드는 것은, 어떤 임상 회전에서, 우리는 특정 분야에 대해 구체적으로 배우고 기본적인 임상 기술과 임상 경험[즉, 특정 분야와 관련이 없는 다른 환자 측면]에 덜 주의를 기울인다는 것입니다." -H, f학년제의.
“What I think makes it difficult to grasp the idea of being a professional medical doctor is that, in some clinical rotations, we only learn specifically about a particular discipline and pay less attention to the basic clinical skills and the clinical experiences [i.e., other patient aspects that are unrelated to the particular discipline].” -H, final-year student.

학생들은 COVID-19 팬데믹(본 연구 당시 진행 중)으로 인한 커리큘럼 적응이 역량에 도달하기 위한 노력에 불안감을 조성했다고 보고했다.
Students reported that curriculum adaptations due to the COVID-19 pandemic (ongoing at the time of this study) created anxiety in their efforts to reach competency.

학습 환경
Learning Environment

학습환경 측면에서 학생들은 배운 대로 정확히 이루어지지 않는 상황(숨겨진 교육과정)을 경험했다. 실제로, 이상적인 접근법을 취하는 것을 방해하는 많은 요인들이 있다:
In terms of the learning environment, students experienced situations in which things were not done exactly as they had been taught (hidden curriculum). In practice, numerous factors may preclude taking an ideal approach:

"우리는 학습이 전적으로 주제를 아는 것이 아니라는 것을 깨달았습니다. 환자 치료에 참여하게 되면 그 이상의 것이 필요하다는 것을 알게 됩니다. 그리고 때때로 우리가 배우는 것이 실제 현실과 맞지 않는다." -E, 최종 학년 학생.
“We realize that learning is not entirely about knowing the subject matter. As you become involved in patient care, you see that you need more than that. And sometimes what we are taught does not align with the reality in practice.” -E, final-year student.

의대생과 전공의들은 학습환경의 복잡성에 대처하기 위해 전문직업성 발달에 있어 교사의 역할을 강조하였다. 그들은 교사들을 좋은 [역할 모델]로서, [피드백을 제공]하고, 학생들을 육성하는 더 권위 있는 인물로 평가한다:
To deal with the complexity in the learning environment, medical students and residents emphasized the roles of teachers in their professional development. They value teachers as more authoritative figures who serve as good role models, provide feedback, and nurture students:

"환자를 진찰하면서 침대 옆에서 가르치는 것을 통해, 우리는 어텐딩이 환자들과 의사소통하고 치료하는 방법을 관찰하고, 그것을 채택할 수 있다. 또한, 어텐딩들이 우리를 관찰하고 피드백을 제공할 때, 전문가가 되는 방법을 배우는 데 정말 도움이 됩니다." -Ft, 레지던트.
“Through bedside teaching while examining patients, we observe how attendings communicate and treat patients, and we can adopt it. Also, when attendings observe us [and provide feedback], it really helps us to learn how to be professional.” -Ft, resident.

응답자들은 또한 [학습 프로그램 관리자, 동료 및 가족의 지원 시스템]의 중요성을 강조했다. 그들은 또한 [과외 활동과 학생 단체를 통한 상호작용]을 인정했다:
Respondents also highlighted the importance of support systems from study program administrators, peers, and family. They also credited interactions through extracurricular activities and student organizations:

"학생 단체와 조직은 우리가 시간을 관리하고 많은 다른 종류의 사람들과 교류하는 데 익숙해지도록 도와주기 때문에 정말 중요합니다. 그것은 또한 우리가 강한 헌신을 하고 책임감과 전문성을 갖도록 도와줍니다."-쉬, 2학년.
“The student body and organizations are really important because they help us get used to managing time and interacting with many different kinds of people. It also helps us make a strong commitment and be responsible and professional.”-Sh, second-year student.

의료 교육의 위계적 특성은 종종 [부정적인 역할 모델링 관행과 따돌림]를 초래한다. 의견제출자들은 이 문제가 자신의 전문적인 개발과정을 저해한다고 설명하였다:
The hierarchical nature of medical education often results in negative role modeling practices and bullying. The respondents described this issue as inhibiting their professional development process:

"선후배 전공의 간의 교류가 항상 원활한 것은 아닙니다. [선배들의 입장]이 되어 보니, 그들이 왜 그런 짓을 했는지 이제야 알 것 같다. 하지만 저는 다르게 하기로 선택했습니다." - 이, 레지던트.
“Interaction between senior and junior residents is not always smooth. Now that I am in [my seniors’ position], I finally understand the reason why they did what they did. But for me, I choose to do it differently.” -Yi, resident.

직장 기반 학습
Workplace-Based Learning

[전임상 학생들]은 교사들과 [섀도잉을 하는 시간] 동안 전문가가 되는 것에 대해 많은 것을 배웠다고 말했다. 쉐도우잉 세션은 학생들이 임상교사를 의료행위에 그림자를 드리울 수 있는 기회를 제공함으로써 의사로서의 미래 직업을 시각화하는 모듈로 진행되었다. [표준화된 환자와 상호 작용하는 것]은 또한 그들이 전문적인 정체성을 개발하는 데 도움이 되었다:
Preclinical students stated that they learned a lot about being professional during their shadowing sessions with teachers. Shadowing sessions were conducted in a module in which students were given an opportunity to shadow their clinical teachers in medical practice, thus visualizing their future occupation as medical doctors. Interacting with standardized patients also helped them develop their professional identity:

"개인적으로 쉐도우잉 세션은 정말 의사들이 어떤 이상적이고 전문적인지, 어떻게 행동하는지에 대한 인식을 만들어냈다." -K, 4학년
“For me personally, the shadowing session really created a perception on what ideal and professional doctors were, and how they act.” -K, fourth-year student

임상 학생들은 [임상 실습을 수행하는 동안 환자와 상호 작용하는 것]의 중요성을 언급했다. 다양한 병원 및 의료 시설에서 학습한 경험은 의사로서의 역할뿐만 아니라 직장에서 일반적으로 직면하는 과제를 파악하는 데 도움이 되었습니다:
Clinical students mentioned the importance of interacting with patients during their clinical clerkship. The experience of learning in various hospitals and healthcare facilities helped them grasp not only their roles as medical doctors, but also the challenges commonly faced in the workplace:

"일차의료 환경에서 주니어 의사로 일하는 것은 의대 시절에 가르쳐졌던 이론과는 정말로 달랐다. 그리고 현장의 상황과 한계에 상관없이 항상 전문적일 수 있도록 우리가 이런 상황에 노출되어 있다는 것을 더 명확하게 보여줍니다." -Y, 최종 학년 학생.
“Working as junior doctors in the primary health setting was really different from the theory being taught during these medical school years. And it gives me a clearer view that we are exposed to this situation so that we can always be professional regardless of the situation and limitations in the field.” -Y, final-year student.

전공의의 경우, [일반 개업의]로 일한 경험이 그들의 직업적 정체성을 개발하는 데 도움이 되었다:
For residents, prior experience in working as general practitioners also helped them develop their professional identity:

"저는 전공의를 계속하기로 결정하기까지 몇 년이 걸렸습니다. 저는 교외 지역에서 1년간 인턴으로 있었고, 그 다음에는 군 병원에서 1년 더 일했고, 그 다음에는 도시로 옮겨 4년 동안 개인 병원에서 일했습니다. 그리고 나서 저는 레지던트 과정을 계속하기로 결심했습니다." - F, 레지던트.
“It took me several years before finally deciding to continue with residency; I was an intern in a suburb area for one year, followed by working in a military hospital for another year, and then I moved to the city and worked in a private hospital for four years. Then I decided to continue with the residency program.” -F, resident.

주변환경에 대한 기대
Expectations of Surroundings

학생들은 전문성을 내재화하는 과정에서 [교사]뿐만 아니라 [지역사회 의대생들의 예상되는 행동]에 주목했다:
In the process of internalizing professionalism, students paid attention to the expected behaviors of medical students from the community, as well as from their teachers:

"저는 우리가 배우는 방법 중 하나가 선생님들의 기대를 따르는 것이라는 것을 인정해야 합니다. 어떤 때는 이상적인 의사를 닮아서 좋았지만, 어떤 때는 지식 자체를 이해하려고 하지 않고 선생님의 비위를 맞추려고만 합니다." -H, 최종 학년 학생.
“I have to admit that one of the ways we learn is to follow our teachers’ expectations. Sometimes it was good because it resembles the ideal doctor, but sometimes we only try to please the teacher, not to understand the knowledge itself.” -H, final-year student.

 

논의
Discussion

의대생들 사이의 PIF에 대한 우리의 연구는 다양한 의학 교육 단계에서 PIF의 발전을 측정하기 위해 혼합 방법(순차 설명) 접근법을 사용한다. 우리는 PIF에 대한 학생들의 인식과 PIF의 기여 및 억제 요인을 탐구한다. PIF를 측정하기 위해, 우리는 Tagawa(2019, 2020)의 검증된 설문지를 채택했고, 내용에 대한 증거를 제공하고 타당성과 신뢰성을 구성하기 위해 체계적으로 분석했다. 따라서, 이 환경에서 설문지를 사용하는 것은 정당화되었고, 강력한 설문도구 준비에 의해 지원되었습니다 [13, 14]. EFA에서 확인된 네 가지 요소는 PIF 개념 프레임워크와 일치합니다[7, 8]. 

  • 전문적 역할의 인식과 내재화,
  • 전문적 행동의 자기 통제,
  • 전문성에 대한 성찰,
  • 의료/보건 전문가로서의 사고 프로세스

Our research on PIF among medical students utilizes a mixed-methods (sequential explanatory) approach to measure the development of PIF at various stages of medical education. We explore students’ perceptions of PIF, along with its contributing and inhibiting factors. To measure PIF, we have adapted a validated questionnaire by Tagawa (2019, 2020) and further analyzed it systematically to provide evidence for its content and construct validity and reliability. Thus, our use of the questionnaire in this setting was justified and supported by robust instrument preparation [13, 14]. The four factors identified from the EFA

  • recognition and internalization of professional roles,
  • self-control in professional behavior,
  • reflections on professionalism, and
  • thought processes as a medical/health professional

—align with the PIF conceptual frameworks [7, 8].

[타가와의 원래 설문지]는  5가지 요소로 분류된 15개 항목으로 구성되어 있다[13, 14]. 

  • 전문가로서의 자기통제, 
  • 의사로서의 자각, 
  • 의사로서의 성찰, 
  • 사회적 책임의 실행
  • 내외부적 자기조화 등

이러한 요소는 일부 범주화 차이에도 불구하고 EFA 결과 및 PIF 개념과 일치한다. 본 연구에서

  • [전문적 역할의 인식과 내재화(요인 1)]는 학생들이 의사가 되기 위한 일환으로 전문성을 내재화하는 방법에 대해 직접적인 의미를 갖는 항목을 포괄한다.
  • 두 번째 요인인 [직업적 행동에서의 자기 통제]는 의대생들이 직업적 행동에 영향을 미치는 잠재적인 감정적 또는 비지지적 조건을 마주쳤을 때 어떻게 자신을 통제하는지에 대한 예를 포함한다. 이 요인과 항목은 타가와의 설문지와 유사하다.
  • 우리가 확인하는 세 번째 요인[(전문성에 대한 성찰)]은 타가와의 세 번째 요인(의사로서의 성찰)과 유사하다. 두 요인 모두 장기적 효과와 개인적 가치 등 자기평가에 영향을 미치는 측면과 관련된 항목을 포함한다. 본 연구의 세 번째 요인은 타가와의 설문지와 달리 13번 항목도 포함되어 전문성에 대한 성찰에서 개인적 가치를 더욱 강조하였다. 한편, Tagawa의 세 번째 요인에 포함된 항목 9는 본 연구의 첫 번째 요인(전문적 역할의 인식 및 내재화)의 일부로 확인되었다.
  • 본 연구에서 "의료/보건 전문가로서의 사고 과정"(요인 4)의 일부로 확인된 항목은 타가와 연구에서 "전문가로서의 자기 통제"라는 요인에 포함되었다.

Tagawa’s original questionnaire (Tagawa 2019, Tagawa 2020) consists of 15 items categorized into 5 factors:

  • self-control as a professional,
  • awareness of being a medical doctor,
  • reflection as a medical doctor,
  • execution of social responsibility, and
  • external and internal self-harmonization [1314].

These factors align with our EFA results and with the PIF concept, despite some categorization differences.

  • In our study, recognition and internalization of professional roles (Factor 1) encompasses items that carry direct meaning for how students internalize professionalism as part of becoming medical doctors.
  • The second factor, self-control in professional behavior, includes examples of how medical students control themselves upon encountering potential emotional or non-supportive conditions influencing their professional behavior. This factor and its items are similar to those in Tagawa's questionnaire.
  • The third factor we identify (reflections on professionalism) is similar to Tagawa’s third factor (reflection as a medical doctor). Both factors include items related to aspects that affect self-evaluation, such as long-term effects and personal values. Unlike Tagawa’s questionnaire, the third factor in our study also included item 13, which further highlights personal values in reflections on professionalism. Meanwhile, item 9, which is included in Tagawa’s third factor, was identified as part of the first factor in our study (recognition and internalization of professional roles).
  • Items identified as part of “thought process as a medical/health professional” (Factor 4) in this study were included under the factor “self-control as a professional” in Tagawa’s study.

정량적 데이터를 추가로 분석한 결과, 2, 4, 6, 2단계 거주자의 학부 의대생들 사이에서 [하위척도 1(전문적 역할의 인식과 내재화)과 하위척도 2(전문적 행동의 자기 통제)의 차이]가 나타났으며, 더 높은 점수를 받은 그룹은 더 높은 점수를 보였다. 의료 교육과 의료 분야에서 [더 많은 경험]과 [더 나은 사회화 과정]이 [더 발전된 전문적 정체성]을 산출할 것으로 예상되기 때문에, 이 연구는 PIF 설문지의 사용이 이러한 구성을 지원하고 기관이 탐구하고 연구하기 전에 의대생의 PIF 단계를 초기에 평가할 수 있음을 보여준다 다양한 전략[7, 8]을 통해 더욱 발전시킵니다. 사회화 이론[6]에 따르면,

  • 낮은 PIF 설문지 점수는 의사로서 실습 커뮤니티에서 학생들의 [합법적인 주변부 위치]를 반영할 수 있다. 학생들은 여전히 그들의 개인적 정체성, 동기, 그리고 가족/친구들의 영향력을 가져온다. 점수가
  • 높을수록 학생들은 전문가처럼 '생각하고 행동'할 수 있는 능력이 향상된 것을 강조하는 [완전한 참여]를 위해 [실천 공동체]로 이행한다.

Further analysis of the quantitative data reveals differences in subscale 1 (recognition and internalization of professional roles) and subscale 2 (self-control in professional behavior) among undergraduate medical students in years 2, 4, 6 and stage 2 residents; more advanced groups exhibited higher scores. Since it is expected that more experience and a better socialization process in medical education and healthcare would yield a more developed professional identity, this study demonstrates that the use of the PIF questionnaire supports this construct and may enable institutions to initially assess medical students’ PIF stage, before exploring and nurturing it further through various strategies [7, 8].

  • According to socialization theory [6], lower PIF questionnaire scores may reflect legitimate peripheral positions of the students in the community of practice as medical doctors. Students still bring in their personal identity, motivation, and family/friends’ influences.
  • The higher the score, the more students transition into the community of practice towards full participation which highlights their increased capacity to ‘think and act’ like professionals.

[의과대학]은 의대생의 PIF 양성에 있어 중요한 역할을 담당하고 있는데, 이는 사회화 과정이 다음을 통해 촉진될 수 있기 때문이다.

  • 전임상 및 임상 시기의 유의미한 학습 경험
  • 역할 모델과 멘토의 가용성,
  • 전문성 개발을 위한 명시적 커리큘럼과 평가,
  • 학생의 자기 성찰 능력과 긍정적인 학습 환경

Medical schools have critical roles in nurturing the PIF of medical students since the socialization process can be facilitated through

  • meaningful learning experience both in preclinical and clinical years,
  • the availability of role models and mentors,
  • explicit curriculum and assessment for professional development,
  • students’ self-reflection skills and positive learning environment [7].

위의 논의와 함께 본 연구는 [의대생의 PIF 과정]과 [PIF에 영향을 미치는 요인]이라는 두 가지 주요 주제를 보여주는 현재 환경에서 드러난 질적 자료로부터 추가 설명을 제공한다. 첫째, 의대생의 PIF 과정은 학생들이 [의사가 되려는 동기]에 의해 시작된다. 이 연구는 학생의 동기가 본질적으로 또는 외적으로 발생할 수 있으며, 이는 학생들이 자신과 주변을 어떻게 보고, 여러 요인의 상호작용이 목표와 성과에 어떻게 기여하는지에 더 영향을 미친다는 것을 보여준다. 자기결정(SDT) 이론에 자세히 설명된 세 가지 핵심 요소인 자율성, 관련성 및 역량[36]은 동기가 PIF 프로세스의 중심이 되는 방법을 더 자세히 설명합니다. 더 강한 내재적 동기는 공감 발달 개선과 같은 PIF에 긍정적인 영향을 미친다 [37, 38].
Aligned with the above discussion, the current study provides further explanation from the qualitative data revealed in the current setting, which depicts two primary themes: the process of PIF in medical students and the factors affecting PIF. First, the PIF process in medical students is initiated by students’ motivation to become medical doctors. This study reveals that a student's motivation can originate intrinsically or extrinsically, which further influences how students see themselves and their surroundings and how the interactions of multiple factors contribute to their goals and performances. The three key components elaborated in the Self-Determination (SDT) Theory—autonomy, relatedness, and competence [36]—further explain how motivations are central to the PIF process. Stronger intrinsic motivations have positive impacts on PIF, such as improved empathy development [37, 38].

게다가, 이 연구의 학생들은 PIF가 여정journey이라는 것을 알고 있었고, 그들은 전문직 의사로서 [그들이 미래에 상상하는 것을 향해 나아가고 있다]고 보았다. 본 연구에서 확인된 [다양한 동기]에도 불구하고, 다양한 학년의 학생들과 전공의들은 전문직 의사의 속성에 대한 [공통된 비전]을 제시하였다. 그들의 비전은 필요한 지식과 기술, 평생 학습자가 될 필요성, 개인 복지의 중심성, 그리고 의사소통, 팀워크, 공감, 그리고 자기 인식과 같은 사람들의 기술의 중요성에 걸쳐 있었다. 내재적 동기에 의해 뒷받침되는 그들이 무엇이 되고 있는지에 대한 이러한 구상은 그들의 PIF의 진행을 나타낸다[8].
Furthermore, the students in this study were aware that PIF is a journey; they saw themselves as progressing towards what they envision as their future selves as professional medical doctors. Despite the array of motivations identified in this study, students from various year levels and residents articulated a common vision of the attributes of professional medical doctors. Their visions spanned the necessary knowledge and skills, the need to become lifelong learners, the centrality of personal wellbeing, and the importance of people skills such as communication, teamwork, empathy, and self-awareness. This envisioning of what they are becoming, supported by intrinsic motivations, indicates the progression of their PIF [8].

또한, 우리는 [외부 요인]이 PIF 과정에서 중요한 역할을 한다는 것을 밝힌다. 이러한 요인은 의대생의 내부 요인과 상호 작용하여 그들의 전문적인 발전을 초래하여 [심리사회적 전환]을 보여준다[39]. 학생들은 PIF가 의도적인 과정이며 현재 전환 단계에 있다는 인식을 보여주었기 때문에 학생들이 성공적으로 적응할 수 있도록 지원되어야 한다. 이러한 노력은 학생들의 개인적인 상황, 지원 시스템 및 학습 전략을 고려해야 한다[39]. 이것은 위계적이고 집단주의적인 문화를 강조하는 현재의 연구에서 특히 강조된다[25].
In addition, we reveal that external factors play critical roles in the PIF process; these factors intercalate with internal factors in medical students, resulting in their professional development, showing a psychosocial transition [39]. Because students demonstrated awareness that PIF is a deliberate process and that they were currently in the transition stage, students should be supported so they can adapt successfully; these efforts should account for students’ personal circumstances, support systems, and learning strategies [39]. This is particularly emphasized in the current study which highlights the hierarchical and collectivist culture [25].

본 연구에서는 학부 의대생들의 PIF에 대한 범위 검토 결과[12]에 따라 학생들은 [PIF 과정에 영향을 미치는 외부 요인]으로 [교육과정(숨겨진 교육과정 포함), 학습환경, 직장기반학습, 주변의 기대행동] 등을 언급하였다. 이러한 외부 요인은 전환이 발생하는 상황에 영향을 미칩니다 [39]. 역할 모델을 가지고, 환자와 상호 작용하고, 피드백을 받을 수 있는 기회는 PIF 과정에서 지원적인 것으로 설명되었다. 그러나 계속되는 전염병뿐만 아니라 잠재적 커리큘럼의 실천은 이 과정에서 불확실성을 만든다. PIF의 핵심은 변화를 받아들이고 적응하는 것이었기 때문에, 이 불확실성을 논의하는 성찰적 상호작용은 PIF 프로세스에 매우 중요해졌다[40, 41]. 부정적인 역할 모델링을 통해서도 학습을 촉진하고 전문적인 개발을 위해 활용할 수 있는 능력이 있기 때문에 학생들의 이러한 성찰적 질문을 장려할 필요가 있다[42]. [불확실성이 매우 회피되는 경향이 있는 문화]에서 진행된 본 연구는, 학생들에게 [명확한 가이드와 가이드라인을 제공]하여, [학생들이 성찰적 연습을 수행하고, 멘토로부터 피드백을 구하게 하는], 보다 [교사 중심적이고 구조적이며 종단적인 접근 방식]의 중요성을 강조한다[12, 23]. 
In this study, in line with the results of scoping review on undergraduate medical students’ PIF [12], students mentioned the curriculum (including the hidden curriculum), the learning environment, workplace-based learning, and expected behaviors from the surroundings as external factors affecting their PIF processes. These external factors affect the context in which the transition occurs [39]. Opportunities to have role models, interact with patients, and receive feedback were described as supportive in the PIF process. However, the practice of a hidden curriculum, as well as the ongoing pandemic, create uncertainty in this process. As the heart of PIF was to accept and adapt with changes, reflective interactions discussing this uncertainty have become crucial for the PIF process [40, 41]. Encouragement of such reflective inquiries by students is necessary as it would facilitate their learning and their ability to take advantage for their professional development, even from the negative role modelling [42]. Coming from a culture where uncertainty tends to be highly avoided, this study underscores the importance of a more teacher-driven, structured, longitudinal approach, providing clear guidance and guidelines for students, to conduct reflective practice and in seeking feedback from their mentors [12, 23].

이상적으로, 이러한 [외부 요인]은 [이행 시기 전반에 걸쳐 지원(예를 들어 학생을 위한 기관 지원 네트워크의 가용성, 품질 및 관련성을 보장함으로써)]을 통해 해결될 수 있다[39]. 우리의 연구 결과는 이러한 외부 요인 중 일부가 과정을 지원하는 것 이상으로 방해한다는 것을 보여준다. 예를 들어, 본 연구의 정보제공자들은 [고학년 학생들 간의 상호작용과 교사와 학생들 간의 상호작용이 그들의 역할과 전문성 발달에 대한 이해를 위해 항상 건설적이지는 않을 수 있다]고 제안한다. 정체성이 역동적이고 의대생들 사이의 PIF가 다른 직업의 구성원들과의 비공식적인 교실 밖 상호작용에 의해 큰 영향을 받는다는 점을 고려하여, 교육기관은 다양한 학습 환경에서 보다 일상적인 상호작용을 통해 PIF에 대한 적절한 네트워크와 제도적 지원을 제공해야 한다성공적인 변환 [43, 44].

Ideally, these external factors can be addressed with support throughout the transition, for example, by ensuring the availability, quality, and relevance of an institutional support network for students [39]. The results of our study show that some of these external factors hinder more than support the process. For example, the informants in this study suggest that the interaction between senior-junior students and between teacher and students can be very hierarchical and not always constructive towards their understanding of their roles and professional development. Considering that identity is dynamic and that PIF among medical students is highly influenced by informal out-of-classroom interactions with other members of the professions, educational institutions should provide adequate network and institutional support for PIF through more casual interactions in various learning settings, in order to foster successful transformations [43, 44].

이 연구는 특히 집단주의적이고 위계적인 환경에서 의대생과 레지던트의 전문적인 발전과 의학교육에 대한 몇 가지 시사점을 가지고 있다. 

  • 첫째, PIF는 능동적이고 종적인 과정으로, 자신의 내적, 외적 요인의 대화를 통제하기 위한 동기 부여가 필요하다. 따라서 의대에서 동기부여와 긍정적 PIF 과정을 양성하기 위해서는 [성찰과 멘토링이 풍부한 학생 중심의 개인화된 학습기회]가 필요하다. 우리의 연구는 PIF에 중요한 의료 교육 노력에서 학생들의 [회복탄력성]에 [동기 부여]와 [(대처 메커니즘과 같은) 기타 개인적 요인]의 중요성을 보여준다[45, 46]. 
  • 둘째로, 의대생들은 [그들이 무엇이 되고 있는지] 그리고 [이 과정에서 그들이 어디에 있는지] 고려해야 한다. 따라서 본 연구에서 적용한 설문지를 이용한 PIF 측정은 의대생의 PIF 평가에 유용한 지표가 될 수 있다. 물론 이 접근법은 학생들이 PIF 과정에 대한 의미 있는 이해를 얻을 수 있도록 추가적인 성찰적 토론과 함께 구현되어야 한다. 
  • 셋째, [외부 요인의 역할]을 고려할 때, 우리는 또한 적절한 상황에서 [PIF를 지원하기 위해 커리큘럼을 수정하고 최적화할 필요성]을 강조한다. 예를 들어,
    • 보다 상호작용적인 교수/학습 세션,
    • 통합되고 관련된 임상 순환,
    • 긍정적인 역할 인식,
    • 초기 직장 기반 학습,
    • 전임상 및 임상 단계에서의 피드백 및 멘토링을 통합한다..

This study has several implications for medical education and the professional development of medical students and residents, in particular in the collectivist and hierarchical setting.

  • First, PIF is an active and longitudinal process that requires motivation to control the dialogue of internal and external factors within oneself. Therefore, student-centered and personalized learning opportunities enriched with reflection and mentoring are necessary in medical schools to nurture motivation and a positive PIF process. Our study shows the importance of motivation and other personal factors, such as coping mechanisms, in students’ resilience in their medical education endeavor, which is instrumental for PIF [4546].
  • Second, medical students must consider what they are becoming and where they are in this process. Consequently, measurements of PIF using a questionnaire, as applied in this study, can be a useful metric for assessing PIF among medical students. Of course, this approach should be implemented alongside further reflective discussions to help students gain a meaningful understanding of their PIF process.
  • Third, given the role of external factors, we also highlight the need to modify and optimize curricula to support PIF where appropriate, such as by incorporating more interactive teaching/learning sessions, integrated and relevant clinical rotations, positive role-modeling, early workplace-based learning, and feedback and mentoring in the preclinical and clinical stages.

우리는 이 연구의 한계를 인정한다. 그것은 단일 기관에서 수행되었으며, 일부 상황적 요인을 고려할 때 일반화 가능성이 제한될 수 있다. 우리는 다양한 학년의 의대생들을 참여시켰고 의대생들의 PIF 프로필을 설명하고 그 성격과 기여 요인에 대한 심층 분석을 수행하기 위해 혼합 방법 접근법을 채택했다. 우리는 우리의 발견이 다른 환경에서 관련이 있음이 증명되기를 바란다. 또한 본 연구의 1단계에서는 단면적 접근법을 사용하였다. 따라서 본 연구에서는 PIF 하위척도(고수준 학생의 경우 더 높은 점수)에서 유의한 차이를 발견하였지만, 실제 PIF 개발에 대해서는 구체적으로 설명할 수 없었다. 추가 연구는 시간 경과에 따른 PIF를 평가하고 각 수준에서 PIF의 내러티브를 문서화하기 위해 설문지를 종적으로 활용해야 한다.
We acknowledge the limitations of this study. It was conducted in a single institution, which may limit its generalizability, given some contextual factors. We involved medical students from different year levels and adopted a mixed-methods approach to elucidate the PIF profiles of medical students and perform in-depth analysis of its nature and contributing factors; we hope that our findings will prove relevant in other settings. In addition, the first stage of this study employed a cross-sectional approach. Therefore, although this study found some significant differences in PIF subscales (with higher scores for higher-level students), it could not elaborate the actual PIF development. Further studies should utilize the questionnaire longitudinally to assess PIF over time and document the narratives of PIF at the respective levels.

결론
Conclusion

이 연구는 의료/보건 전문가로서의 전문적 역할 인식 및 내재화, 직업 행동에 대한 자기 통제, 전문성에 대한 성찰 및 사고 과정의 네 가지 하위척도가 수정된 Tagawa PIF 척도의 [문화 간 타당성]을 입증한다. 적응된 PIF 척도를 사용하여 위계적이고 집단주의적인 문화의 다양한 단계에 있는 의대생들 사이의 PIF를 평가하는 본 연구는, 내부 요인(학생의 가치, 능력 및 특성, 개인적 환경)과 외부 요인(교육과정, 학습 환경, 직장 기반 학습 및 주변의 기대)의 영향을 받는 교육 단계 전반에 걸친 PIF 전환을 보여준다. 따라서 학생들이 PIF 과정에서 [외부 학습 기회]뿐만 아니라, [내부 잠재력]을 최적화할 수 있도록, 교육 단계 전반에 걸쳐 PIF를 지원하는 [교육과정의 통합적 접근]이 중요하다. 이 연구는 또한 다양한 단계에서 의대생들을 위한 의식적인 PIF 과정의 중요성을 강조하고 PIF에 대한 종단적 지원을 보장하기 위해 의대의 추가 조치가 필요하다는 것을 보여준다.

This study demonstrates a cross-cultural validity of the Tagawa PIF scales with modified four subscales: recognition and internalization of professional roles, self-control in professional behavior, reflections on professionalism and thought processes as a medical/health professional. Assessing PIF among medical students at different stages in a hierarchical and collectivist culture using the adapted PIF scales, our study demonstrates the PIF transition across educational stages, affected by internal factors (students’ values, abilities and traits, and personal circumstances) and external factors (curriculum, learning environment, workplace-based learning, and surroundings’ expectations). Therefore, an integrative approach in the curriculum to support PIF across educational stages is important so that students can optimize their inner potentials as well as their external learning opportunities during the PIF process. This study also highlights the importance of a conscious PIF process for medical students at different stages and reveals the need for further action from medical schools to assure longitudinal support for PIF.


BMC Med Educ. 2022 Jun 8;22(1):443. doi: 10.1186/s12909-022-03393-9.

Professional identity formation of medical students: A mixed-methods study in a hierarchical and collectivist culture

Affiliations collapse

1Medical Education Center, Faculty of Medicine, Indonesia Medical Education and Research Institute, Universitas Indonesia, Jakarta, Indonesia. ardi.findyartini@ui.ac.id.

2Department of Medical Education, Faculty of Medicine Universitas Indonesia, Jakarta, Indonesia. ardi.findyartini@ui.ac.id.

3Medical Education Center, Faculty of Medicine, Indonesia Medical Education and Research Institute, Universitas Indonesia, Jakarta, Indonesia.

4Department of Medical Education, Faculty of Medicine Universitas Indonesia, Jakarta, Indonesia.

5Undergraduate Medical Program, Faculty of Medicine, Universitas Indonesia, Jakarta, Indonesia.

PMID: 35676696

PMCID: PMC9175156

DOI: 10.1186/s12909-022-03393-9

Free PMC article

 

Abstract

Background: Professional identity formation (PIF) has been recognized as an integral part of professional development in medical education. PIF is dynamic: it occurs longitudinally and requires immersion in the socialization process. Consequently, in the medical education context, it is vital to foster a nurturing learning environment that facilitates PIF.

Aim: This study assesses PIF among medical students in various stages of study and explores their perceptions of PIF, with its contributing and inhibiting factors.

Method: This mixed-methods study uses a sequential explanatory approach with undergraduate (years 2, 4, and 6) and postgraduate medical students in Indonesia. We examine the subjects by administering an adapted questionnaire on PIF. We completed a series of FGDs following questionnaire administration. Quantitative and thematic analyses were conducted sequentially.

Results & discussion: A total of 433 respondents completed the questionnaire. There were statistically significant differences among subjects on the subscales "Recognition and internalization of professional roles" and "Self-control in professional behavior"; the more senior students had higher scores. We conducted 6 FGDs in total. The results characterize PIF as a complex, dynamic, and longitudinal journey to becoming a medical doctor that is closely related to a student's motivation. The FGDs also highlight the importance of both internal factors (students' values, attributes, and personal circumstances) and external factors (curriculum, the learning environment, workplace-based learning, and external expectations) for PIF in medical education.

Conclusion: Higher-level students show higher scores in some aspects of PIF, which further validates the potential use of the questionnaire to monitor PIF, a dynamic process influenced by internal and external factors. Generating awareness among medical students and encouraging reflection on their PIF stage may be crucial for PIF processes.

Keywords: Medical students; Mixed-methods study; Professional identity formation.

어떻게 전문직 정체성을 기를 것인가?: 의학교육분야의 철학적 정원 가꾸기(Persepctives on Medical Education, 2023)
How to Grow a Professional Identity: Philosophical Gardening in the Field of Medical Education

MARIO VEEN 
ANNE DE LA CROIX

 

서론
Introduction

학생들은 어떻게 의학 교육 분야의 전문가로 성장하는가? 이것은 현재 우리 분야의 핵심 질문 중 하나일 수 있습니다 [1]. 이 질문에 대한 답을 고려하기 위해, 우리는 [성장]이라는 개념에 대한 [철학적 정원 가꾸기]를 할 때 여러분이 우리와 함께 깊이 파고들도록 초대합니다. 본 논문에서, 우리는 의대생들과 그들의 의사로의 발전과 관련하여 의학 교육 전문가로서의 우리의 위치를 탐구한다. 
How do students grow into professionals in the field of medical education? This might currently be one of the key questions in our field [1]. To consider answers to this question, we invite you to dig deep with us as we do some philosophical gardening around the idea of growth. In this paper, we explore our position as medical education professionals in relation to medical students and their development into doctors.

[정원 가꾸기]와 [의학 교육]은 둘 다 [성장과 발달]의 과정을 수반한다는 공통점이 있다. 정원사는 그들의 정원을 돌보고, 농작물을 재배하며, 씨앗을 심는 것부터 익히고 수확하는 것까지 모든 과정을 감독한다. 의학 교육자는 학생들을 돌보고, 커리큘럼을 개발하며, 학생들이 후배 의사로 변하는 전 과정을 감독한다. 정원 가꾸기와 의학 교육 모두 [돌봄의 형태]로 볼 수 있다[2]. 
Gardening and medical education have in common that they both involve processes of growth and development. A gardener tends to their garden, cultivates crops, and oversees the whole process from planting seeds to ripening and harvest. A medical educator cares for their students, develops a curriculum and oversees the whole process of students turning into junior doctors. Both gardening and medical education can, as such, be seen as forms of care [2].

우리 자신이 조사하고자 하는 역학의 일부이기 때문에 이 탐구는 철학적이다[3]. [철학]을 정의하는 방법은 여러 가지가 있지만, [사고방식, 존재방식, 행동방식, 일상적 실천방식 사이에 직접적인 연관성을 만드는 것]으로 볼 수 있다.

  • 당연히, 대부분의 의료 교육 연구는 유능한 의료 전문가가 되기 위한 과정에서 의료 훈련생을 가르치고, 지도하고, 평가하기 위한 [교육 방법의 효율성]에 초점을 맞추고 있다. 이것은 어떤 농사 기술, 어떤 비료, 어떤 토양 조건이 특정 작물을 재배하는 데 가장 효과적인지를 조사하는 것과 유사할 수 있다.
  • 대신, 우리는 이러한 농업 기술을 적용하고, 비료를 관리하고, 토양 상태를 최적화하는 [사람]에 초점을 맞춥니다. 연수생들이 의료 교육 분야에서 성장하고 발전할 수 있으려면, 우리는 어떤 [돌봄 관계]를 가져야 할까요?

This exploration is philosophical because we ourselves are part of the dynamic we intend to investigate [3]. There are many ways to define philosophy, but it can be seen as making a direct connection between ways of thinking, being, doing and everyday practice.

  • Understandably, most medical education research focuses on efficiency of educational methods for teaching, guiding and assessing medical trainees in their journey towards becoming competent health care professionals. This could be likened to examining which farming techniques, which fertilizers and which soil conditions are most effective for growing a certain crop.
  • Instead, we focus on the one who applies these farming techniques, administers these fertilizers and optimizing these soil conditions. Which type of care relationship should we have to our trainees so that they grow and develop in the field of medical education?

본 논문에서는 하이데거의 연구를 활용하여 의료교육 전문가인 우리가 전문적 성장과 정체성 형성 과정을 향해 취할 수 있는 태도를 탐색한다. 우리는 과도하게 이론화되었지만 실제로 자극될 수 있는 자연스러운 과정과 관련된 개념의 예로 전문적인 정체성 형성을 제안한다. 우리는 의학 교육 문헌에서 각각 환원적인 방식으로 정체성을 개념화하는 세 가지 이론적 접근법을 구별한다. 정체성에 대한 성찰 후, 우리는 전문적 정체성 형성에 대한 우리의 관점과 일치하는 기존의 교육 관행을 지적한다.
In this paper, we use Heidegger’s work to explore the attitude that we, medical education professionals, might assume towards the process of professional growth and identity formation. We propose professional identity formation as an example of a concept that is over-theorized but pertains to a natural process that can be stimulated in practice. We distinguish three theoretical approaches in medical education literature that each conceptualize identity in a reductive way. After a reflection on identity, we point to existing educational practices that align with our view of professional identity formation.

두 정원사의 이야기
A tale of two gardeners

자신의 정원을 돌보는 스타일이 다른 이 두 명의 선의의 정원사들을 고려해주세요. 

  • 첫 번째는 씨앗을 땅에 맡기고 그것을 자라게 하는 힘, 즉 햇빛과 비, 지구의 질이 그들이 통제할 수 없는 많은 부분을 차지한다는 것을 알고 있는 [구식 농부]이다. 이 접근법의 핵심 단어는 배양, 자극, 신뢰이다. 
  • 두 번째는 [현대화된 농업]의 접근법을 취한다. 이 농부는 씨앗을 땅에 맡기는 대신 최대한의 효율을 추구한다. 이 최적화를 위해서는 씨앗이 자라는 맥락의 모든 측면과 전체 성장 과정의 예측 가능성, 즉 지구의 화학적 구성, 공기 습도 등을 제어해야 한다. 이 접근법의 키워드는 제어, 신뢰성 및 효율성입니다.

Please consider these two well-intentioned gardeners (See Figure 1 and video essay https://www.youtube.com/watch?v=g7jZigyfKHI) with different styles of caring for their garden.

  • The first is an old-fashioned farmer who entrusts their seeds to the earth and watches over them, aware that the forces that make it grow – sunshine and rain, the quality of the earth – are for a large part beyond their control. Key words to this approach are cultivation, stimulation, and trust.
  • The second takes on the approach of the modernized farming industry. Instead of entrusting the seeds to the earth, this farmer aims for maximum efficiency. This optimization requires control of every aspect of the context in which the seed grows, and predictability of the entire growing process: the chemical composition of the earth, air humidity, etc. Key words to this approach are control, reliability, and efficiency.
 
Figure 1 

두 명의 선의의 정원사.
Two well-intentioned gardeners.

하이데거는 '기술 이후의 질문'에서 인간이 발달을 자극하는 두 가지 방식을 비교한다:
In The Question After Technology, Heidegger contrasts these two ways in which humans stimulate development:

'정리하다'가 여전히 '챙기다'와 '유지하다'를 의미할 때, 농부가 이전에 경작하고 순서를 정했던 밭은 그것과 다르게 나타난다 
 농부의 일은 밭의 흙에 도전하지 않는다. 그는 곡식을 파종할 때에, 그 씨앗을 자라게 하는 세력에게 맡기고, 그것이 번성하는 것을 지켜본다. 그러나 오늘날, 밭을 경작하는 것조차도 자연을 '포섭'하는 또 다른 종류의 경작의 지배하에 놓이게 되었다. 그것은 그것에 도전하는 의미에서 그것을 시작한다.
“The field that the peasant formerly cultivated and set in order appears differently than it did when ‘to set in order’ still meant ‘to take care of’ and ‘to maintain’. The work of the peasant does not challenge the soil of the field. In the sowing of the grain he entrusts the seed to the forces that make it grow and watches over its thriving. But today, even the cultivation of the field has come under the grip of another kind of cultivation, which ‘enframes’ nature. It sets upon it in the sense of challenging it forth [4].”


하이데거는 기술적인 사고와 행동 방식을 특징짓기 위해 이 예를 사용한다. 우리는 '위치 맞추기' 또는 '순서 맞추기'를 의미하는 ['엔프레이밍enframing']의 개념에 대해 계속 생각하고 싶다. Enframing[성능과 효율성에 중점]을 둔 현대의 필수 사항을 설명하며, 이는 다시 [프로세스를 제어하고 예측]할 수 있어야 한다. 하이데거는 독일어 스텔렌stellen을 사용하는데, 이는 군대에서 'standing reville'에서와 같이 'brining into position' 또는 'standing'으로 번역될 수 있다. 우리가 비행기에 탑승하기 전에 줄을 서라는 요청을 받는 방식과 유사하게, [스텔렌]의 본질은 [군인이나 승객들]이 [기술적인 업무(인원수를 세는 것; 비행기에 효율적으로 탑승하는 것)를 가능한 한 효율적으로 수행]할 수 있는 방식으로 그들 자신을 배치하는 것이다. 스텔렌은 'presenting as'로 번역할 수 있습니다: 군인들과 승객들은 [그들 자신을 무언가로 나타내야] 한다.
Heidegger uses this example to characterize technological ways of thinking and acting. We would like to linger on the concept of ‘enframing’ which means ‘positioning’ or ‘putting in order’. Enframing describes an imperative of our modern age in which there is an emphasis on performance and efficiency, which in turn requires processes to be controllable and predictable. Heidegger uses the German word stellen, which can be translated as ‘bringing into position’ or ‘standing’ as in ‘standing reveille’ in the military. Similar to the way we are called upon to stand in line before boarding an airplane, the essence of stellen is that the soldiers or passengers position themselves in a way that makes the technical task (doing a headcount; boarding the plane efficiently) able to be performed as efficiently as possible. We can translate stellen as ‘presenting as’: the soldiers and passengers have to present themselves as something.

[Enframing 자체]는 긍정적이거나 부정적인 것이 아니라, 하이데거가 "세계 그림의 시대"라고 부르는 우리 시대에, 우리를 둘러싼 세계에 대한 근본적인 관계에 대한 진단일 뿐이다[5]. 의료 교육에서, 우리는 메트릭스[6]를 통해 학습에 접근한다. 이는 모든 것을 '그림 속'으로 얻고자 하는 과정이다. 예를 들어, 훈련생이 기술을 수행하는 데 얼마나 유능한지, 또는 얼마나 전문적이거나 위탁할 수 있는지 등이 있다. 하이데거는 이 은유를 사용하여 [모든 것을 수행의 관점에서 다루려는 경향performance]을 가리키는데, 이는 농작물이든, 사람이든, 의학 수련생이든 간에 [관리 대상이 보여지기be seen(be represented) 위해서는, 특정한 방식으로 나타나도록show up 요구하는 태도]이다.
Enframing itself is not positive or negative, but simply a diagnosis of our fundamental relationship to the world around us in our age, which Heidegger calls “the age of the world picture” [5]. In medical education, we approach learning through metrics [6]. as a process in which we want to get everything ‘in the picture’: how competent a trainee is at performing a skill, or how professional or entrustable they are, for example. Heidegger uses this metaphor to point to the tendency to treat everything in terms of performance, an attitude that requires the subjects of care – whether crops, people or medical trainees – to ‘show up’ in a certain way in order to be seen (be represented) at all.

우리는 의학 교육을 지배하고 의학 교육의 어떤 문제에 대한 우리의 기본적인 접근 방식을 형성하는 것이 이 대표적인 모델이라고 느낀다. [표현주의representationalism]의 단점은 [자신이 누구인지를 보여주기 위해서]는 [특정한 방식]으로 [자신을 제시]해야 한다는 것인데이는 정의상 [자신이 아닌 것]이다(즉, 기술적인 의미에서의 비진실성inauthenticity [7]). 이 발표와 원하는 자질의 징후를 보여주는 초점은 훈련생들을 [이중적인 곤경]에 빠뜨린다. 그 핵심은 의료교육의 사회적 계약을 사회와 함께 이행할 의지와 능력이 있는 유능한 전문가로 성장할 수 있도록 하는 것을 목적으로 [의사라는 씨앗을 '미발달 상태로in the bud'에 뿌리는 분야]다.
We feel that it is in this representational model that dominates medical education and shapes our basic approach to any issue in medical education that the problem lies. The catch-22 in representationalism is that in order to be seen as who you are, you are required to present yourself in a certain way, which by definition is something you are not (i.e., inauthenticity in the technical sense [7]). This presenting as and the focus of showing signs of desired qualities places trainees in a double bind. At its core, medical education is a field in which we sow seeds of physicians ‘in the bud’, with the purpose of letting them grow into competent professionals that are willing and able to fulfill medical education’s social contract with society.

하이데거의 [구식 농부]와 유사한 의학 교육의 오래된 [견습 모델]은 [땅과 가까운 것]이 특징이었다. 이러한 보살핌의 방식은 [새로운 기술적인 농업 방식]에 의해 제거 되었다. 하지만 우리는 [결코 향수를 느끼고 싶지 않다]. 새로운 농업 방식이 [더 효율적이고 책임감 있는 훈련 방법(의사의 역할이 역량 프레임워크에서 '골라진' 것, 즉 견습 모델이 제공할 수 없었던 것)]을 제공하기 때문이다. 하지만 우리는 의료 전문가들을 훈련시키기 위한 지속 가능한 윤리를 지원하는 연수생들과의 관계에서, 이 [두 가지 관리 방식을 어떻게 결합할 것]인지 자문해 볼 수 있습니다.
The old apprenticeship model of medical education, analogous to Heidegger’s old-fashioned farmer, was characterized by a closeness to the land. This way of caring has been made sterile by newer technological ways of farming. By no means do we wish to be nostalgic though, as the newer ways of farming offer more efficient and accountable ways of training – in which the role of the doctor is ‘enframed’ in a competency framework, something that the apprenticeship model was unable to offer. But we can ask ourselves how to combine these two modes of care in a relationship to our trainees that supports a sustainable ethic for training medical professionals.

정체성 문제: 우리는 무엇을 성장시키고 있는가?
Identity issues: what are we growing?

[의사가 되는 것]"의사의 "일을 하는" 것뿐만 아니라 "존재"에 대한 강조를 향한 의학 교육의 변화를 포함하는 "역량을 넘어선 여정"으로 간주된다[8]. 그러나 ['존재'와 '존재됨']의 문제는 수천 년 동안 인류의 탐구 주제였다. 플라톤은 이미 존재가 되는 것becoming이 새로운 것으로 성장하는 과정인지, 아니면 당신이 진정으로 누구인지에 대한 기억인지 궁금해했다. 의학 교육에서, 의사가 되는 것becoming은 일반적으로 "비전문가에서 의사로 변화하는 동안 경험하는 근본적인 과정"을 의미하는 '전문직 정체성 형성'이라는 이름 하에 논의된다. 이것은 "전문적 가치, 행동 및 포부의 개발을 포함하며 의학 교육의 중심"이다. 이 용어를 사용하는 것은, 우리가 의학 교육 분야에 복잡한 개념인 [정체성]을 도입했다는 것을 의미한다.
Becoming a physician is considered a “journey beyond competence” [8] that involves a “shift in medical education toward emphasis on the “being” as well as “doing the work” of a physician” [9]. But the question of ‘being’ and ‘becoming’ has been a topic of human inquiry for millennia. Plato already wondered if becoming is a process of growing into something new, or a remembrance of who you truly are. In medical education, becoming is usually discussed under the header of professional identity formation, “the foundational process one experiences during the transformation from lay person to physician” [10], which “involves the development of professional values, actions and aspirations and is central to medical education [11].” Using this term means we have introduced a complex concept into the field of medical education: identity.

아이덴티티라는 용어의 보편적인 사용은 우리가 아이덴티티가 무엇인지, 아이덴티티를 전문적으로 만드는 것이 무엇인지, 아이덴티티가 어떻게 형성되는지, 그리고 그 형성을 지원하기 위해 우리가 무엇을 할 수 있는지 알고 있다고 믿게 할 수 있다. 그러나 철학적인 관점에서 우리는 이것이 사실이라고 믿지 않는다. 정체성은 전혀 잘 이해된 개념이 아니다. 사실, 정체성은 [정의와 측정]을 거부하며, [답answer]이라기 보다 [열린 질문]으로 보아야 한다. 우리의 정체성 개념은 인종차별, 성별 다양성, 그리고 일반적으로 어떤 정체성 유형이 중요하고 그렇지 않은 사회 문화적 문제와 관련이 있다 [12, 13, 14, 15]. 정체성은 단지 [농작물]에만 관한 것이 아니며, 심지어는 단지 [농부와 농작물 사이의 관계]에만 관한 것도 아니고, 그들이 [자라는 토양]의 질, 즉 [사회 문화적 맥락]에 관한 것이기도 하다.
The ubiquitous use of the term identity may lead us to believe that we know what identity is, what makes an identity professional, how identities form and what we can do to support their formation. From a philosophical perspective, however, we do not believe this to be the case. Identity is not a well-understood concept at all. In fact, it resists definition, measurement and should be seen as an open question rather than an answer. Our conception of identity is bound up with sociocultural issues of racism, gender diversity, and in general which types of identities matter and which do not [12, 13, 14, 15]. Identity is not just about the crops, or even about the relationship between the farmer and the crops, but also about the quality of the soil – the sociocultural context – in which they grow.

먼저 우리가 '정체성'을 어떻게 개념화하고 그것을 어떻게 성장시키는지 살펴봄으로써 한 걸음 물러설 것이다. 의학 교육에서, 우리는 정체성을 개념화하는 세 가지 상호 연관된 방법을 인식한다:

  • 개인의 심리적 특성,
  • 행동의 집합, 그리고
  • 개인이 전문적인 공동체와 관계를 맺는 방법.

이러한 각각의 개념화는 나름대로 문제가 있지만, 모두 정체성의 표현 모델의 사례이다. 
Let us take a step back by first looking at how we conceptualize ‘identity’ and how we grow it. In medical education, we recognise three interrelated ways to conceptualize identity:

  • as an individual psychological trait,
  • as a set of behaviors, and
  • as the way in which an individual relates to the professional community.

Each of these conceptualisations is problematic in its own way, but they are all instances of the representational model of identity.

개인 특성으로서의 정체성
Identity as individual trait

[전문직 정체성]에 대한 한 가지 견해는 그것을 [개인의 특성]으로 보는 것이다. 정체성은 훈련생 [내부에 위치한 것]으로 보이며, 훈련생은 [식별 가능한 행동]으로 정체성을 표현할 수 있다. [여러분이 누구인지는 여러분 안의 '진실']이며, [교육자가 직면한 도전은 정체성을 채굴하거나 발굴하는 것]입니다. [타인의 내면세계]에 [직접적으로 접근하는 것]은 근본적으로 불가능하기 때문에, 개인의 [공적 수행(다른 사람들이 관찰할 수 있는 부분)]은 그들의 내면적 정체성을 나타내는 것으로 [간주]된다. 즉, [전문적 정체성이 발달한 사람]은 [전문적으로 보이는 행동을 한다]는 것이다. 전문적 정체성은 [시간을 엄수]하고, [특정한 방식으로 말]하고, [특정한 태도를 투영]하는 것과 같은 ["행동 목록"으로 환원]되며, 이는 ['개발된' 정체성의 존재를 "지시indicative"하는 것]으로 간주된다:

  • 한편으로 정체성은 사람이 말하고 행동하는 것을 넘어서는 것으로 보여지지만,
  • 다른 한편으로 사람이 말하고 행동하는 것은 이 정체성의 표현으로 보여진다. 

One view of professional identity is to see it as an individual trait. Identity is seen as located inside the trainee and that can express itself in identifiable behavior. Who you are is a ‘truth’ inside you and our challenge as educators is to mine or excavate it. Since it is fundamentally impossible to directly access another’s inner world, an individual’s public performance (the part of them that others can observe) is seen as a representation of their inner identity. Someone who has a developed professional identity acts out the behavior that is seen as professional. Professional identity is reduced to a “list of behaviors”, such as being punctual, speaking in a certain way, and projecting a certain attitude, which are taken to be “indicative” of the presence of a ‘developed’ identity:

  • on the one hand, identity is seen as something beyond what a person says and does,
  • but on the other hand, what a person says and does is seen as an expression of this identity.

"행동은 […] 전문직 정체성의 유무를 나타내며, 결과적으로 대리인으로 사용될 수 있다[16]." 즉, [농작물의 상태]는 [생김새]에 따라 평가되는데, 이는 [얼마나 영양가가 높은지]를 나타내는 표시로 받아들여진다.

“Behaviors are […] indicative of the presence or absence of a professional identity and consequently can be used as surrogates [16].” In other words, the state of the crops is assessed by how they look, and this is taken as a sign of how nutritious they are.

행동으로서의 정체성
Identity as behavior

본질주의적인 문제를 다루는 한 가지 방법은 [정체성을 일련의 행동으로 환원하는 것]이다. 이러한 [행동주의적 접근법]에서, [행동]은 [당신이 누구인지에 대한 표현]이 아니라(개개의 특성이 아니다), [당신이 누구인지]는 [당신이 어떻게 행동하는지에 불과]하다. 예를 들어, 성찰의 경우, 행동에 지나치게 집중하는 것은 '성찰 좀비("실제로 반성하지 않고 반성의 모든 외부적 특성을 보여주는 사람들[17].")'로 이어질 수 있다. [성찰 좀비]는 행동이 요구되는 자질에 맞는다고 판단하는 평가 기준의 관점에서 [실제로 성찰하는 학생]과 [구별할 수 없다]. [바람직하고 '좋은' 성찰(보통 측정 가능한 행동으로 표현,되며, 정의되고, 조작화된다)]에 초점을 맞추면 학생들은 [실제로 배우거나 성찰하지 않고], [해당 행동만 보여줄 수] 있다. One way in which this essentialist problem is dealt with, is to reduce identity to a set of behaviors. In this behaviorist approach, behavior is not an expression of who you are (not an individual trait), but who you are is nothing but how you behave. For instance, in the case of reflection an overfocus on behavior can lead to ‘reflective zombies’: “someone who displays all the outer traits of reflection, without having actually reflected [17].” A reflective zombie is indistinguishable from a student that actually reflects from the perspective of assessment criteria that determine behavior fits the required quality. A focus on desired, ‘good’ reflection (which is represented, defined and operationalised in measurable behaviors) will lead students to show only that behavior, possibly without actually learning or reflecting.

만약 우리가 [행동]을 [내적 자질의 표현]으로 보고, 이러한 [내적 자질]을 [행동]으로 환원한다면, 우리는 학생들에게 [특정한 행동]을 요구한다. 이것은 [시스템 게임game the system]으로 학생을 초대한다. "평가되는 바로 그 순간에만 행동을 바꾸는 것"이다. 전문직업성도 마찬가지이다. 전문직업성을 계량화하는 것은 '전공의 과정의 또 다른 장애물'로 만든다. 공감도 마찬가지이다. 학생들이 그 당시에 실제로 느끼지 못하는 행동을 묘사해야 할 때 '공감적 불협화음'을 경험한다. 시스템 게임은 엔프레이밍Enframing의 완벽한 예이다: [시스템 게임]은 [학생들의 나쁜 의도의 결과]가 아니라, [행동에 초점을 둠]으로써 [행동이 원래 대표해야 하는 것]보다 [기대되는 행동 그 자체의 모방]에 집중하는 것이 더 보람을 느끼게 하기 때문이다. 간단히 말해서, [표현]이 중요한 상황이라면, [표준에 맞춰서 행동하는 것]이 더 합리적입니다. 그러나, 그것은 단지 행동[17]을 모방하고, 내적 동기[19]를 약화시키고, 학생들로 하여금 압박감과 단절감을 느끼게 할 수 있다[21].

If we see behavior as a representation of inner qualities, and then reduce these inner qualities to behavior, we require a certain behavior of students. This invites students to game the system, meaning “changing behavior the moment it is assessed” [18]. This is also the case for professionalism, where quantifying professionalism make it into “just another hurdle to residency” [19], or empathy where students experience “empathic dissonance” [20] when they are required to portray behavior they do not actually feel at that time. Gaming the system is a perfect illustration of enframing: it is not a result of students’ bad intentions, but due to the focus on behavior making it more rewarding to focus on emulating the behavior that is expected rather than what it is supposed to represent. In short, it simply makes more sense to perform according to the standards, because the representation is all that matters. However, it can lead to just emulating the behavior [17], sapping internal motivation [19] and making students feel pressured and disconnected [21].

[행동주의적 접근]은, [정체성]을 [행동을 통해 표현되는 애초의 본질]로 취급하지 않고, 오히려 [행동을 정체성과 동일시]하는 방식으로 [접근성access의 문제]를 해결하는 것으로 보인다. 그러나 전문적 정체성 형성과 관련된 내적 경험의 관련성을 부정하는 것은 [메뉴]를 [음식]으로 착각하는 것이고, 이는 다른 문제로 이어지는데, 이는 [정체성이 단지 퍼포먼스로 간주된다는 것]이다.
The behaviorist approach appears to solve the problem of access because it does not treat identity as a pre-existing essence that is expressed through behavior, but rather equates the behavior with identity. But denying the relevance of an inner experience related to professional identity formation mistakes the menu for the food and leads to the next problem, which is that identity is seen as just a performance.

사회화 과정으로서의 정체성
Identity as a socialization process

정체성은 또한 [사회화의 과정]으로 볼 수 있다: 당신이 누구인지는 당신이 공동체에서 어떻게 위치하는가이다. [전문직 정체성 형성]은 [내적 자질에 관한 것]이 아니라, [직업 문화에 사회화되는 과정]이다. 이것은 학생들이 미래의 직업 문화가 ['바람직한 실천']이라고 생각하는 방식으로 행동하는 것을 배운다는 것을 의미한다. 사회화를 위한 널리 받아들여지는 모델은 [실천공동체 모델]로, 특정 분야의 초보자들은 [합법적인 주변부 참여]에서 "주로 사회적 상호작용을 통한 [완전한 참여]"로 이동한다. 많은 경우, [전문직 정체성 형성]은 [개인의 정체성을 형성한 정도]가 정확히 [언제 지역사회의 규범과 지침에서 벗어나야 하는지 판단할 수 있는 정도]인 [해방적emancipatory 과정]으로 간주된다. 이것의 주요 측면은 정체성이 아니라 [순응conformance]인 것처럼 보인다. 이러한 관점에서 정체성은 [내적 특질]이나 [객관적인 행동의 집합]으로 보지 않고, 오히려 [사회적 역할]로 본다. 여기서 정체성은 [배우가 연극에서 역할을 수행한다]는 의미에서 [공연performance]이 된다. 연극에 따라, 정체성은 바뀔 수 있고, 의상과 관습의 변화 이상의 것을 요구하지 않는다.

Identity can also be seen as a process of socialization: who you are is how you are positioned in the community. Professional identity formation is then not about an inner quality, but a process of socializing into the professional culture. This means that students learn to act in the way that their future professional culture considers ‘good practice’. A widely accepted model for socialization is the Communities of Practice model, in which novices to a field move from legitimate peripheral participation to “full participation, primarily through social interaction [21, 22].” In many cases, professional identity formation is seen as an emancipatory process in which the degree to which one has formed an individual identity is precisely the degree to which one can judge when to divert from the norms and guidelines of the community. The main aspect of this does not seem to be identity, but conformance. In this perspective, identity is not seen as an inner quality or an objectifiable set of behavior, but rather as a social role. Here, identity becomes a performance in the sense that an actor performs a role in theatre. Depending on the play, identity can change and requires little more than a change of costume and custom.

훈련생이 현 상황status quo에 적응할 수 있을까요? 그들은 우리가 가지고 있는 의사의 이미지로 자신을 표현할 수 있을까요? 연습생이 그 분야의 지배적인 규범과 문화에 맞게 말하는 방식을 형성할 수 있는가? 실천공동체 모델에서, [적응하고 순응해야 할 필요성]이 [진정성에 대한 감각]을 완전히 대체하는 것처럼 보인다: 당신이 당신의 [역할을 진정으로 수행하는지 아닌지]는 중요하지 않다. 직업 정체성에 대한 이러한 관점은 학생들이 [그들만의 방식으로 발전하도록 허용한다]는 생각과 상충되며, 학생들이 [진정한 학생이 될 수 없도록] 할 수도 있다[23, 24]. 일부 연구자들[25]은 심지어 이것이 [소수 민족 학생들]이 [임상실습에서 낮은 점수를 받는 이유]라고 제안했다. (이 관점에서) 소수집단 학생들은 실천 공동체의 기존 규범에 맞지 않기 때문이다. 교육과정의 탈식민지화[26]와 의학교육에서 '백인'[12]이 어떻게 표준이 되었는지에 대한 질문에 대한 현재의 논쟁은, [공동체가 정한 기준]이 결코 중립적이지 않다는 것을 고통스럽게 보여준다. 이런 의미에서 [전문직 정체성 형성]은 단순히 [사회화]에 관한 것이 아니라, ['전문적 주체화'와 '진정성']에 관한 것이다. 
Can a trainee adapt to the status quo? Can they present themselves as the image we have of a doctor? Can the trainee shape their way of talking and being to fit the dominant norms and culture of the field? In the Communities of Practice model, the need to adapt and conform seems to supersede any sense of authenticity: it does not matter if you act out your role authentically or not. This view of professional identity clashes with the idea of letting students develop in their own way, and might disallow students to be authentic [23, 24]. Some researchers [25] have even suggested that this is why students with an ethnic minority get lower grades in their clinical clerkships: they do not fit the existing norm of the community of practice. Current debates about decolonizing the curriculum [26] and questioning how ‘whiteness’ [12] has been the norm in medical education painfully illustrates that the standard that the community sets is never neutral. In this sense, professional identity formation is not just about socialization, but just as much about “professional subjectification” [23] and “authenticity” [7].

근본적인 문제: 표현주의
The underlying issue: representationalism

이 세 가지 이론적 방향을 [각각의 결점]이 있는 분야를 수정하는 서로 다른 방법으로 보고, 모든 장점과 단점을 포함하지 않는 [네 번째 이론]인 더 나은 비료를 마련할 필요가 있다고 결론내리는 것은 유혹적이다. 그러나 그 문제는 더 근본적인, 즉 철학적인 것이다. 이 모든 경우에, 정체성은 [표현의 렌즈]를 통해 보여진다:

  • [내부 세계의 표현]으로서의 퍼포먼스,
  • [이상적인 행동 세트의 표현]으로서의 퍼포먼스
  • [공동체 기준의 표현]으로서의 퍼포먼스

It is tempting to see these three theoretical orientations as different ways of fertilizing the field that each have their flaws, and to conclude that we need to come up with a better fertilizer, a fourth theory that includes all the benefits and none of the shortcomings. But the issue is more fundamental, that is, philosophical. In all these cases, identity is seen through the lens of representation:

  • performance
    • as representation of an inner world,
    • as representation of an ideal set of behaviors, or
    • as representation of the community standard.

각각의 이론적 접근은 정체성의 다른 측면을 희생시키면서 특정 측면을 강조한다. 그러나, 그렇게 함으로써, 그것은 또한 [그 유형의 현상]으로 정체성을 환원시킨다 [27]. [이론]은 [우리가 세상을 보는 렌즈]입니다. [심리적 상태]로서의 정체성, [행동의 집합]으로서의 정체성, [사회적 역할]로서의 정체성. 문제는 '~로서의as'를 '~이다is'라고 말할 때 생긴다. 예를 들면, '정체성은 심리적 상태이다(다른 것은 아무것도 아니다)'라고 말하는 것이다. 이것이 문제가 되는 이유는, [정체성이 심리적, 행동적, 사회적 과정으로 환원]된다면, [그러한 유형의 연구가 정체성에 대해 알아야 할 모든 것을 '그림 속'에 가질 수 있다는 착각]만들기 때문이다. 이것은 우리가 [전문직 정체성 형성에 대한 이론]이 [무엇을 하는지] 생각할 때 문자 그대로가 된다: 그것들은 모델, [즉 '정체성이 어떻게 작동하는지'에 대한 그림], 을 제시한다.
Each theoretical approach emphasizes certain aspects of identity at the expense of others. However, in doing so it also reduces identity to that type of phenomenon [27]. A theory is a lens through which we can look at the world: identity as psychological state, as set of behaviors, as social role. The problem arises when as becomes is: when we say, identity is a psychological state (and nothing else) [28]. This is problematic because if identity is reduced to a psychological, behavioral or social process, the illusion arises that this type of research can have everything there is to know about identity ‘in the picture’. This becomes literal when we think of what theories on professional identity formation do: they present models, i.e., pictures of ‘how identity works’.

이러한 [환원주의적 접근]과는 대조적으로, 우리는 [전문직 정체성 형성]이 ['전문직이 된다는 것은 어떤 것인가'라는 현상학적 경험과 관련이 있다]고 반박한다. 그래서 정체성과 관련된 ['내면의 경험']이 있다. 하지만 [누군가가 전문직인지 아닌지]는 [단지 개인의 선택이나 경험이 아니다]. 왜냐하면 그들은 [숙련된 실무자들의 공동체 안]에서 전문가이기 때문이다. [전문직 정체성 형성]은 이 과정에 관한 아주 좋은 이름이다. 그러나, 여러분(연수생)이 의사가 되는 것과 관련하여, 우리(의료 교육 전문가)는 스스로에게 다음과 같이 물어봐야 합니다:
In contrast with this reductionist approach, we counter that professional identity formation has to do with the phenomenological experience of ‘what it is like’ to be a professional. So, there is an ‘inner experience’ that is relevant to identity. But whether someone is a professional or not is not just an individual choice or experience, because they are a professional in a community of skilled practitioners. Professional identity formation is a great name for this process. However, in relation to becoming the doctor that you (the trainee) are, we (the medical education professional) should ask ourselves:

  • 우리(의학교육전문가)가 의사로서 [당신의 진짜 정체]를 알 수 있을까요?
  • 우리(의학교육전문가)가 여러분에게 [어떻게 여러분이 될 수 있는지]에 대한 모델이나 길을 보여줄 수 있을까요?
  • [지금의 당신이 되는 과정]에서 우리(의학교육전문가)가 당신을 지원할 수 있을까요?
  • – Can we ever claim to know who you really are, as a (trainee) doctor?
  • – Can we show you a model or a pathway for how to become who you are?
  • – Can we support you in the process of becoming who you are?

생태다양성
Ecological diversity

[정체성에 대한 이론적 접근]은 우리가 정체성이 무엇인지 알고 있고 심지어 그것을 '관리'할 수 있다는 편안한 느낌을 줄 수 있다. 그러나 우리는 [지속 가능한 농업 접근법의 통합]과 [현대적 접근법의 효율성과 성과]로부터 무언가를 배울 수 있다.
Theoretical approaches to identity can give us the comforting feeling that we know what identity is and that we can even ‘manage’ it. But we can learn something from the integration of sustainable farming approaches and the efficiency and performance of modern approaches.

[균일성, 예측가능성, 적합성]은 [생물다양성의 상실]로 이어지는 반면, [생태적으로 다양한 성장]은 토양을 가꾸면서 [생물다양성을 증가]시킨다. 모든 접근 방식에 적합한 하나의 방법이 있다보다는, 한 가지 접근 방식에 순응할 필요 없이, [서로 교차 수정하는 소규모 실험]을 자극해야 한다. 이것은 또한 [상세한 계획을 제시한 후 실행하는 것]이 아니라, 프로세스에서 [무엇이 작동하는지를 즉흥적으로 파악하는 것]을 의미한다.
Uniformity, predictability and conformity lead to loss of biodiversity, while ecologically diverse growing increases biodiversity while taking care of the soil. Rather than a one size fits all approach, we should stimulate small-scale experiments that cross-fertilize each other without having to conform to one approach. This also means improvising and figuring out what works in the process, rather than presenting a detailed plan and then executing it (which is a requirement from the perspective of enframing).

[두 번째 교훈]은 [내부 동기의 상실, 진정한 성찰 또는 연결감을 해결하기 위해 우리가 '할 수 있는' 것이 무엇인지]를 묻는 대신, 최근의 연구가 시사하는 바와 같이, 열대림은 내버려 둘 때 가장 효과적으로 재생될 수 있다는 것이다[29]이것은 우리가 반드시 [정체성, 전문성, 반성, 공감 등을 무시해야 한다는 것]을 의미하지는 않는다. 오히려, 우리는 연습생들에게 [자신의 경험과 관점을 성찰할 시간과 다른 관점을 탐구할 기회]를 위해 [더 많은 공간을 줄 수 있는 방법]을 생각해 보아야 한다.

The second lesson is that instead asking what we can ‘do’ to remedy loss of internal motivation, authentic reflection or the feeling of connection, is that as a recent study suggests, tropical forests may regrow most effectively when left alone [29]. This does not necessarily mean that we should ignore identity, professionalism, reflection, empathy and so on. Rather, we can consider how we can give trainees more space with time to reflect on their own experience and perspective, and opportunity to explore other perspectives. 

우리도 명확한 답을 가지고 있는 것은 아니나, 우리는 [PIF를 지속 가능한 방식으로 커리큘럼의 일부로 만들기 위해 필요한 몇 가지 요소들]이 있을 수 있다고 생각한다.

  • 첫 번째는 [학생의 자율성을 존중하는 것]입니다. 학생들은 다를 수 있고, 복잡한 개념이 그들에게 무엇을 의미하는지 생각하도록 초대받는다. 그들은 그들 자신의 선택에 책임이 있고, 개인으로 보여진다.
  • 두 번째 요소는 [학생들을 기존의 방식에서 벗어나게 하는 것]이다. 종종 말 그대로 다른 장소로 데려가는 것을 의미한다. 완전히 다른 토양으로 데려가는 것이다. 이것은 쿠마가이 & 위어가 '낯설게 만들기'(핵심 철학적 실천)라고 부르는 것의 대표적인 예로, '자신의 가정, 관점 및 행동 방식을 파괴하고 방해하도록 만들어서, 자신, 타인, 세상을 새롭게 보는' 것을 의미한다[32]. '낯설게 만들기' 이니셔티브의 다른 예로는 학생들이 [공감에 대한 사랑과 이별 편지를 쓰게 하는 것], [공감에 대해 배우기 위해 해리포터 이야기를 사용하는 것], 그리고 [극장에 의해 권한을 부여받는 의학 교육(MEET)]은 관객(즉, 학생)이 등장인물의 태도, 행동 또는 성격을 조절할 수 있는 [연극을 사용하는 것] 등이 있다. 
  • 세 번째 요소는 [의료 훈련에서 인간 접촉을 조직하는 것]이다. 결국, 개인적인 성장과 발전은 개인적인 접근을 필요로 한다. [멘토링]은 교육자와 학생의 접촉에 관한 한 좋은 예이다: 멘토가 학생들을 정말로 알아가야 한다. 또 다른 하나는 학생들에게 "환자의 표현" 대신에 의학 교육과정에서 환자들과 초기에 상호작용할 수 있는 기회를 제공하는 것이다.

While we do not have definite answers – if we did, we would ourselves cotradict our proposed approach – we do feel that there might be some necessary ingredients to make PIF part of the curriculum in a sustainable way.

  • The first is respecting autonomy of the student. Students are allowed to be different, and are invited to think about what complex concepts mean to them. They are held responsible for their own choices, and are seen as individuals.
  • The second ingredient is to take step away from the modus operandi– sometimes literally taking students to a different location – and show them different feeding ground. This is a prime example of what Kumagai & Wear call ‘making strange’ [30] (a core philosophical practice [31]), to help disrupting and disturbing ‘one’s assumptions, perspectives, and ways of acting so that one sees the self, others, and the world anew’ [32]. Other examples of ‘making strange’ initiatives are letting students write love and break up letters to empathy [33], using Harry Potter stories to learn about empathy [34], and Medical Education Empowered by Theatre (MEET) uses theatre in which the audience (i.e. the students) can modulate the characters’ attitudes, behaviors, or personalities [35].
  • The third ingredient of best practice initiatives is organizing human contact in medical training. After all, personal growth and development require a personal approach. Mentoring is a good example when it comes to educator-student contact: it requires the mentor to really get to know students. Another one is to provide students with opportunities to interact with patients early on in the medical curriculum, instead of “representations of patients” [3236].

이러한 모든 모범 사례의 가장 중요한 결과는 [의미 있는 경험을 설계하고, 학습의 가이드과 촉진을 맞춤화하는 데 시간을 투자한다는 것]입니다. 위의 바람직한 실천에서는 학생들을 시험하고 점수를 매기는 것에 덜 집중한다 - 그것들은 표현주의 정신을 불러일으키는 경향이 있는 활동들이다. 그들은 [측정하는 것]보다 [성장을 자극하는 것]을 우선시한다.
An overarching result from all these good practices is that they invest time in the design of meaningful experiences, and in tailoring guidance and facilitation of learning. They focus less (or not at all) on testing and grading students – which are activities prone to evoke a spirit of representationalism. They prioritize stimulating growth over measuring it.

우리 분야의 성장
Growing our field

우리는 연습생들과의 관계에 대해 철학적인 접근을 시도해 왔다. 우리는 훈련생의 정체성을 개념화하는 방법이 훈련생과의 관계를 형성하기 때문에 [전문직 정체성 형성]을 중점적으로 선택했다. 그러나 [전문직 정체성 형성 현상]은 우리와 너무 가깝기 때문에 [임계 거리critical distance]에서 설명할 수 없다. 결국, 우리는 또한 의료 교육 공동체의 일원으로서, 교사 훈련과 이와 같은 저널에서 우리의 직업적 정체성을 연구하고 있다. 우리는 [어떤 시점에서도 전문적인 성장으로 이해되는 것을 결정하는 문화적, 역사적, 직업적 맥락의 바깥]에서 [중립적이거나 객관적인 유리한 지점을 차지할 수 없다]. 전문적 성장에 대한 이론적 설명은 우리가 이론화하고자 하는 현상의 속성보다는 우리 자신의 접근 방식의 거울인 우리 자신의 가치의 수행으로 볼 수 있다. 
We have attempted to take a philosophical approach to our relationship to our trainees. We chose professional identity formation as a focus because how we conceptualize the identity of our trainees shapes our relationship to them. But we cannot describe the phenomenon of professional identity formation from a critical distance because it is too close to us. After all, we are also working on our professional identity as members of the medical education community, in teacher training and in journals such as this one. We cannot occupy a neutral or objective vantage point outside of the cultural, historical and professional context that determines what is understood by professional growth at any given time. Any theoretical description of professional growth might be seen as a performance of our own values which, as we know, are a mirror of our own approach rather than a property of the phenomenon we aim to theorize.

하이데거의 'enframing'에 대한 에세이에서,

  • [구식 농부]는 (작물에게) 매 순간 그들이 필요로 하는 것을 제공하고, 그들의 완전한 잠재력으로 성장하는 장벽을 제거하는 데 초점을 맞추고 있다.
  • [현대 농부]작물이 [일단 자라면 어떤 모습이어야 하는지에 대한 모델(사진)]에 따라 작물을 어떻게 행동하게 만드는지에 초점을 맞춘다.

어느 것이 더 나을까요? 현실은, 우리에게 선택권이 없다는 것이다. 우리는 견습 모델로 돌아갈 수 없으며(그리고 다시 돌아가고 싶지 않아야 한다), 우리는 우리의 현대적인 접근 방식의 이점을 유지하고 싶다.

  • The old-fashioned farmer in Heidegger’s essay about ‘enframing’ [4] focuses on providing them with what they require at every moment, and taking away barriers to growing into their full potential.
  • The modern farmer, instead, focuses on how to make the crops behave according to a model (picture) of what the crops should look like once they are grown.

Which is better? The reality is, we do not have this choice. We cannot (and should not want to) return to the apprenticeship model, and we want to maintain the benefits of our modern approach.

기후 위기의 맥락에서 농사를 짓는 것과 마찬가지로, 우리는 성장과 효율성에 초점을 맞추는 것이 지속 가능하지 않다는 것을 깨닫지만, 동시에 세계 인구를 먹여 살리기 위해서는(또는 의료 전문가를 전 세계에 제공하려면), 과거의 농사 방식으로는 현대 사회의 요구를 충족시킬 수 없음을 안다. 그래서, 우리는 성장이 필요하지만, 그 의미는 달라야 한다. [전문적 정체성 형성에 대한 현재의 개념]은 더 이상 [현대 의학 교육의 요구]를 충족시키지 못한다.
Just like farming in the context of the climate crisis, we realize that a focus on growth and efficiency is not sustainable, but at the same time to feed the world’s population (or provide it with health care professionals), the old ways of farming are unable to provide what contemporary society requires. So, we do need growth, but in another sense. Current concepts of professional identity formation no longer meet the needs of contemporary medical education.

본 논문에서는 [연습생과의 관계를 형성하는 핵심개념]으로서의 정체성에 초점을 맞추었다. 그러나 의학 교육은 최근 우리가 매일 사용하는 다른 복잡한 개념을 근본적으로 심문하는 계획을 목격했다: 성찰[37], 전문성[38][15], 돌봄[2], 과학[39], 기술[40] 및 숙련도[41]. 이러한 개념 중 많은 것은 측정 기준과 기술적 사고가 적절한 위치를 차지하는 우리 분야와 [의식적인 관계를 만드는 방법]이다. 니먼은 이 딜레마를 "[의사의 휴머니즘 의식을 유지하려는 열망]과 [의학적 전문성의 기술화technification를 촉진하는 우리의 교육 과정] 사이의 긴장"으로 표현했다. 니먼이 말한 '기술화'라는 개념은 '표현주의representationalism'의 한 측면으로 보인다: "환자에 대한 데이터를 수집하고 환자의 어떤 측면에서 치료가 필요한지 결정하기 위해 설계된 [절차적 또는 진단적 기술로 기능]하기 위해 [인간 사회 활동의 용도를 변경하는 것]". 하지만 우리 스스로가 [의학 교육을 기술화]한다면, 어떻게 학생들과 수련생들이 [의료 행위의 인간적인 측면의 기술화에 저항할 것]이라고 기대할 수 있을까?
In this paper, we have focused on identity as a core concept that shapes our relationship with trainees. But medical education has recently seen initiatives that fundamentally interrogate other complex concepts that that we use every day: reflection [37], professionalism [38][15], care [2], science [39], technology [40], and skillification [41]. Many of these concepts are ways to create a conscious relationship to our field, within which metrics and technical thinking have their proper place. Nimmon formulated this dilemma as “the tension between our desire to maintain a sense of humanism among our practitioners and our teaching processes that promote the technification of medical expertise” [42]. Her concept of technification can be seen as an aspect of representationalism: “the repurposing of human social activity to function as a procedural or diagnostic skill designed to gather data about the patient and determine what aspect of the patient requires curing.” [42] But how can we expect students and trainees to resist technification of the humane side of medical practice if we ourselves technify medical education?


우리는 연습생과의 관계를 형성하기 위해 사용하는 개념을 발전시키는 의미에서 성장이 필요합니다. 이 개념들은 너무 경직되지 않고 정확해야 한다. 이를 위한 방법은 교실과 거주지의 현실에 의해 지속적으로 날카로워질 수 있는 실천과의 대화를 유지하는 동시에 설계 방법에 대한 안내와 함께 교육적 실천을 제공하는 것이다. 실천, 이론, 그리고 개념들 사이의 이러한 상호작용은 우리가 철학적 정원 가꾸기라고 부르는 것입니다. 생각하면서 일하고, 일하면서 생각하는 것.
We need growth in the sense of the development of the concepts that we use to shape our relationship to our trainees. These concepts need to be precise, without being too rigid. The way to do this is to keep them in a dialogue with practice, in which they can continue to be sharpened by the reality of the classroom and residency, while also providing educational practice with guidance on how to design it. This interplay between practice, theory and concepts is what we call philosophical gardening: working while thinking, thinking while working.


Abstract

In this philosophical reflection, we – following the philosopher Heidegger - introduce two farmers who represent different ways in which one can develop growth (see https://www.youtube.com/watch?v=g7jZigyfKHI for instructional video). One is a traditional farmer who entrusts the seeds to the soil and cultivates them with care and trust. The other is a modern farmer who takes an industrialized approach and positions the seeds and ‘challenges-forth’ the crops to show themselves in a certain way. We use these farmers as an analogy for the ways in which we as medical educators can and should relate to those we ‘care’ for: medical students and trainees.

Taking a philosophical stance, and accounting for our own positionality and involvement in the analysis, we focus on ‘Professional Identity Formation’ and its operationalization in the field of medical education. We identify three main approaches medical education has taken to identity: as an individual trait, as a set of behaviors, and as a socialization process. All these approaches have at their root a similar assumption, namely that all inner processes can be made visible. We challenge this representational paradigm and use ‘philosophical gardening’ to raise awareness of what can and cannot be measured and controlled.

Finally, we suggest educational approaches that leave space for diversity in students’ experiences, learning approaches, and growth. We share good practices of brave teachers and curriculum designers whose interventions are characterized by less control and fewer measurements of personal growth, but more trust and free spaces for authentic learning.

 

보건의료에서 목소리 높히기의 최신지견 문헌고찰(Adv Health Sci Educ Theory Pract. 2022)
A state‑of‑the‑art review of speaking up in healthcare
Efrem Violato1

서론
Introduction

교육을 포함한 의료 분야에서는 [목소리를 높이는 것]을 지원하고 사람들이 [목소리를 높이는 데] 참여하도록 훈련할 책임과 필요가 있다. [목소리를 높이는 것]은 [다른 사람들이 환자 관리 및 안전과 관련된 우려를 인식하도록 하기 위한 우려 또는 다른 의견을 말하는 것]입니다. 현재 의료 시스템 전반에 걸쳐 [많은 실무자]에게 [환자 안전, 관리 및 위험에 대한 우려를 제기하는 방법]에 대한 인식된 능력(지식과 기술과 함께)은 충분하지 못하다. 목소리를 낼 수 없거나 목소리를 낼 수 없는 것은 환자의 안전, 교육, 전문성 발달 및 전문적 정체성에 부정적인 영향을 미칠 수 있다. 개인적, 대인적, 전문적, 그리고 조직적인 요인을 포함하여, 말을 하는 것을 어렵게 하고 심지어 직업적으로 그리고 개인적으로 위험하게 만드는 수많은 도전들이 존재한다. 일레인 브로밀리는 그러한 요인들의 합체 때문에 죽었다. 여러 자격을 갖춘 전문가들이 방안에 모여 '삽관이 산소를 공급할 수 없는' 상황을 겪은 후 [건강한 사람이 사망한 것]은 [사람들이 목소리를 내지 않거나 내지 못할 때 일어날 수 있는 일]을 상징적으로 보여준다. 대조적으로 팀이 약물과 전달 방법을 선택하도록 유도하는 것과 같이 직접적이고 지속적으로 목소리를 높이는 것은 잠재적으로 치명적인 오류를 피할 수 있다. 
In healthcare, including education, there is a responsibility and need to support speaking up and train people to engage in speaking up (Milligan et al., 2017). Speaking up is voicing concern or a differing opinion to make others aware of a concern related to patient care and safety (Okuyama et al., 2014). Currently, for many practitioners across healthcare systems the perceived ability along with knowledge and skills of how to raise concern about patient safety, care, and risk is suboptimal (Jones et al., 2021; Kim et al., 2020; Milligan et al., 2017; Morrow et al., 2016). The absence of, or inability to, speak up can negatively impact patient safety, education, professional development, and professional identity (Bickhoff et al., 2017). Numerous challenges exist that make speaking up difficult and even professionally and personally risky including individual, interpersonal, professional, and organizational factors (Jones et al., 2021; Kim et al., 2020). Elaine Bromiley died because of the confluence of such factors. The death of a healthy person after a ‘can’t intubate can’t oxygenate’ situation with multiple qualified professionals in the room is emblematic of what can happen when people do not or can not speak up (Harmer, 2005). In contrast, directly and persistently speaking up, such as by questioning a team leads choice of drug and delivery method, can avoid potentially fatal errors (Calhoun et al., 2014).

한동안 존재했지만, [목소리를 높이는 것]에 대한 세계적으로 인정된 도전이 지난 10년 동안 표면화되었다. 문제에 대한 접근 방식은 다양한 관점을 통합했으며 그 결과 지식을 수집하고 문헌을 요약하는 다양한 형식의 리뷰 기사가 있었다. 
While extant for some time, the globally recognized challenge of speaking up has come to the fore in the last ten years (Jones et al., 2021; Peadon et al., 2020). Approaches to the problem have incorporated different perspectives (Holmes et al., 2014; Kohn et al., 1999) and as a result there have been multiple review articles of different formats compiling knowledge and summarizing the literature.

리뷰 기사의 발표로, 말하기에 대한 문헌과 지식의 요약은 분류되고 다른 지식 흐름에 걸쳐 확산될 수 있다. 이미 목소리를 높이는 연구는 기존 증거에 대한 연속성과 연관성이 부족하며 새로운 연구는 이전의 결함을 수정하거나 이전의 발견을 기반으로 하지 않는다. 의료 분야에서 목소리를 높이는 연구는 비교적 초기 단계이기 때문에, 발전을 촉진하고 확산을 방지하기 위해 기존의 지식을 하나의 포괄적인 소스로 통합하는 것이 필수적이다. 이 기사는 목소리를 높이는 연구를 계획하는 연구자, 목소리를 높이는 방법에 대한 정책 입안자, 목소리를 높이는 교육자를 돕기 위해 현재의 "최첨단"을 대표하는 통일된 진술서를 만들고자 한다. 이 목적을 해결하기 위해 다음과 같은 유도 연구 질문이 개발되었다: 
With the promulgation of review articles, summations of the literature and knowledge about speaking up may become fractionated and diffuse across different knowledge streams. Already, research on speaking up lacks continuity and connection to existing evidence and new research does not correct prior flaws or build on previous findings (Jones et al., 2021). Research on speaking up in healthcare is relatively nascent so it is imperative to bring together existing knowledge in a single comprehensive source to promote forward development and prevent diffusion. The present article seeks to create a unified statement representing the current "State of the Art" for speaking up to assist researchers planning studies on speaking up, policymakers deciding on how to improve speaking up, and educators developing curriculum and course material for speaking up. To address this purpose, a guiding research question was developed:

말을 하는 것에 관한 문헌 전반에 걸쳐 공통적인 발견을 식별하고 합성하여, 의료 분야에서 [목소리를 높이는 것]에 대한 연구와 지식의 현재 상태를 통일적으로 이해할 수 있는가?
Can common findings across the literature on speaking up be identified and synthesized to produce a unified understanding of the current state of research and knowledge about speaking up in healthcare?

방법들
Methods

최신 리뷰를 통합하여 향후 조사를 위한 현재 지식과 우선순위에 대한 종합적인 앤솔로지anthology를 효율적으로 구축하는 방식으로 최첨단 검토를 수행하였다. 최첨단 리뷰는 일차 연구의 공식적인 품질 평가를 포함하지 않고 더 높은 수준의 합성을 통해 지식을 병합하기 위한 리뷰를 수집하는 데 초점을 맞춘다. 검토 형식의 다양성은 이차 수준의 공식 평가의 가능성을 배제한다.
A State-of-the-Art review was conducted by amalgamating recent reviews to efficiently create a comprehensive anthology of the current knowledge and priorities for future investigation (Grant & Booth, 2009). A State-of-the-Art review does not include formal quality assessment of primary research but focuses on collating reviews to merge knowledge through higher-level synthesis. The diversity of review formats precludes the possibility of secondary level formal assessment (Fusar-Poli & Radua, 2018; Grant & Booth, 2009).

검색 전략
Search strategy

문헌은 MEDLINE, CINHAL, Scopus, Google Scholar, PsycINFO, ERIC를 사용하여 소스되었다. 수색은 2020년 10월에 처음 실시되었고 2021년 2월과 9월에 다시 실시되었다. 표 1은 검색어와 결과를 보여줍니다. 말하기 및 기타 출판물에 대한 연구를 위한 참조 목록을 손으로 검색했습니다. 
Literature was sourced using MEDLINE, CINHAL, Scopus, Google Scholar, PsycINFO, and ERIC. The search was initially conducted in October 2020 and again in February and September 2021, with no year limits. Table 1 shows search terms and results. Reference lists for studies on speaking up and other publications were hand-searched (e.g., Mannion et al., 2018).

추출.
Extraction

검색 및 검토 프로세스는 체계적 검토 및 메타 분석(PRSMA)을 위한 선호 보고 항목 형식을 따랐다(그림 1). 중복제거 후 주 조사관이 보다 면밀하게 검토할 수 있도록 제목과 요약을 포함하도록 선별했다.

  • 포함 기준: 목소리를 높이고, 안전한 목소리를 내고, 권위에 도전하는 것에 관한 기사를 검토한다; 모든 검토 유형 및 방법.
  • 제외 기준 : 비검토 기사, 예를 들어, 1차 소스 연구, 내부 고발에 대한 문헌, 일반적인 환자 옹호 및 환자 안전과 관련 없는 측면.

추가 기록은 전문가 간 교육 및 협업을 위한 자료와 팀 커뮤니케이션과 같은 다른 출처의 직접 검색을 통해 확인되었다. 

The search and review process followed the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) format (Fig. 1) (Moher et al., 2009). After de-duplication, titles and abstracts were screened for inclusion for closer review by the principal investigator. 

  • Inclusion criteria: review articles on speaking up, safety voice, and challenging authority; all review types and methods. 
  • Exclusion criteria: non-review articles, e.g., primary source research, literature on whistleblowing, patient advocacy in general, and unrelated aspects of patient safety.

Additional records were identified through a hand search of other sources such as resources for interprofessional education and collaboration and team communication.

분석.
Analysis

연구 질문, 결과, 한계 및 결론과 같은 공통점을 식별하는 데 초점을 맞춘 상수 비교 분석(American Psychological Association, n.d.)의 반복 과정을 사용하였다. PI는 모든 기사를 읽고 요약하여 내용에 대한 개요와 일반적인 이해를 발전시켰다. 그런 다음 기사를 다시 읽고 각 검토의 결과를 추출했다. 연구 결과가 나오자 최종 합성이 가능할 때까지 모든 논문을 검토하여 새로운 연구 결과와의 일치성을 확인했다.  
An iterative process of constant comparative analysis (American Psychological Association, n.d.), focused on identifying commonalities such as research questions, outcomes, limitations, and conclusions was used. All articles were read and summarized by the PI to develop a compendium and general understanding of the content. Articles were then re-read, and the findings of each review were extracted. As findings emerged, all articles were reviewed to determine concordance with the emergent findings until a final synthesis was possible.

결과.
Results

14개의 리뷰 기사를 분석하였다(표 2). 14개의 리뷰는 양적, 질적, 혼합적 방법 연구, 논평, 이론 논문 등 335개의 기사를 다루었다. 335개의 기사 중 51개는 150개의 복제 기사와 236개의 고유 기사에 대한 다중 리뷰를 포함했다(모든 기사에 대해서는 보충 자료 참조). 가장 자주 검토된 논문은 Pian-Smith 외 연구진(2009)(검토 8배), Raemer 외 연구진(2016)(검토 7배), Schwapach and Gerrick(2014)(검토 6배), Johnson and Kimsey(2012)(검토 6배), Sayre 외 연구진(2012)(검토 6배), Barzo Salazar et al(2014)(검토 5배)이다. 이 기사 세트는 반복적으로 인용되는 기사의 29%를 차지했다. 
Fourteen review articles were analyzed (Table 2). The 14 reviews covered 335 articles, including quantitative, qualitative, mixed methods research, commentaries, and theoretical papers. Fifty-one of the 335 articles included multiple reviews, for 150 replications and 236 unique articles (for all articles, see the supplemental material). The articles most frequently reviewed were: Pian-Smith et al (2009) (reviewed 8×), Raemer et al (2016) (reviewed 7×), Schwappach and Gehrig (2014) (reviewed 6×), Johnson and Kimsey (2012) (reviewed 6×), O’Connor et al. (2013) (reviewed 6×), Sayre et al (2012) (reviewed 6×), Barzallo Salazar et al. (2014) (reviewed 5×). This set of articles accounted for 29% of repeatedly cited articles.

주요 소스는 여러 글로벌 지역의 데이터를 나타냅니다: 아시아(홍콩, 일본, 한국, 네팔, 대만), 아프리카(동아프리카, 케냐), 유럽(불가리아, 키프로스, 핀란드, 아일랜드, 이탈리아, 스웨덴, 스위스), 중동(이란, 이스라엘)이다. 가장 빈번하게 제공된 기사는 호주와 뉴질랜드, 캐나다, 미국, 영국에서 왔다. 대부분의 문헌은 학생들을 포함한 의사와 간호사들에 초점을 맞추었다. 소수의 문헌은 연합된 보건 전문가, 행정, 약사, 환자를 조사했다(보조 자료 참조). 
The primary sources represented data from multiple global regions: Asia (Hong Kong, Japan, Korea, Nepal, Taiwan), Africa (East Africa, Kenya), Europe (Bulgaria, Cyprus, Finland, Ireland, Italy, Sweden, Switzerland), and the Middle East (Iran, Israel). The articles most frequently sourced were from Australia and New Zealand, Canada, the United States, and the United Kingdom. Most of the literature focused on physicians and nurses, including students. A minority of the literature examined allied health professionals, administration, pharmacists, and patients (see supplemental material).

현상의 정의
Definition of the phenomena

모든 기사들은 [목소리를 높이는 것]을 정의했다. Okuyama 외 연구진(2014)은 Leonard 외 연구진(2004)과 Lyndon 외 연구진(2012)에서 파생된 간결하고 포괄적인 정의를 제공했다: "목소리 높이기"는 병원 환경에서 [의료 팀 내의 다른 사람들의 위험하거나 부족한 행동]을 인식하거나 인지할 때, 환자 안전과 의료 품질의 이점에 대한 의료 전문가들의 [우려를 제기]하는 것으로 정의된다
All articles defined speaking up similarly. Okuyama et al. (2014) provided a concise and comprehensive definition, derived from Leonard et al. (2004) and Lyndon et al. (2012), that encompassed the definitions used by all the reviews: “Speaking up' is defined as the raising of concerns by healthcare professionals for the benefit of patient safety and care quality upon recognising or becoming aware of the risky or deficient actions of others within healthcare teams in a hospital environment.”

14개 리뷰에 걸쳐 목소리를 높이기 위한 세 가지 맥락이 조사되었다: 

  • (1) 훈련을 포함한 팀 상황; 
  • (2) 의료 계층 내의 일반적인 맥락 
  • (3) 주로 간호학과 학생들에 초점을 맞춘 전문 그룹들 사이의 차이. 

모리슨의 '직원 목소리' 모델을 변형한 위험한 상황에서 목소리를 높이는 행위인 '안전 목소리'는 대중적인 해석 프레임워크였다.

  • [직원 목소리]더 높은 조직 위치에 있는 누군가에게 관심, 제안, 정보 또는 업무 관련 의견을 자발적으로 전달하는 것입니다.
  • [안전 목소리]은 개념적으로 직원 목소리와 유사하지만, 내용과 메시지가 안전에 초점을 맞추고, 맥락이 안전-중시 조직과 관련되어 있으며, 조치가 법적으로 요구될 수 있으며, 조치가 조직(예: 내부 고발)을 넘어 확장될 수 있다는 점에서 다르다.

Across the 14 reviews, three contexts for speaking up were examined:

  • (1) team situations, including training;
  • (2) general contexts within the hierarchies of healthcare; and
  • (3) differences amongst professional groups, focused primarily on nursing and students.

Safety voice’, the act of speaking up in hazardous situations adapted from Morrison's model of ‘employee voice’ (Morrison, 2011; Noort et al., 2019) was a popular interpretive framework.

  • Employee voice is voluntary communication of concerns, suggestions, information, or work-related opinions to someone in a higher organizational position (Morrison, 2014).
  • Safety voice is conceptually similar to employee voice though differs in that the content and message are focused on safety, the context relates to safety–critical organizations, action may be legally required, and the action can extend beyond the organization e.g., whistleblowing (Noort et al., 2019).

용어 및 언어
Terms and language

도전적인 권위를 정의하고 논의하기 위한 공통 언어는 다음을 포함한다: "Speaking Up", "Hierarchies", "Psychological Safety", "Safety Voice", "Challengeing Authority", "Communication"  
Common language to define and discuss challenging authority, included:

  • "Speaking Up,"
  • "Hierarchies,"
  • "Psychological Safety,"
  • "Safety Voice,"
  • "Challenging Authority," and
  • "Communication." 

'엘리트에 의한 불경', '돌봄 전문가의 춤', '순환 위계', '불도덕성', '청렴의 의무', '수평적 폭력', '불건전한 순종' 등 다양한 용어가 등장했다
Variable language and unique terms arose including

  • "Incivility by Elites” (Morrow et al., 2016),
  • "Dance of Caring Professionals (Morrow et al., 2016),"
  • "Circular Hierarchy (Morrow et al., 2016),"
  • "Immorality (Okuyama et al., 2014),"
  • "Duty of Candor (Milligan et al., 2017),"
  • "Lateral [Horizontal] Violence (Milligan et al., 2017)," and
  • "Unwholesome Submissiveness (Peadon et al., 2020)."

 

연구 질문 및 검토 결과
Research questions and findings of the reviews

각각의 리뷰는 독특한 연구 질문으로 문헌에 대한 독특한 조사를 제안했다. 모든 검토에서 조사 결과를 정리할 수 있는 5가지 공통 질문이 존재했다: 

  • (1) 어떤 개입/훈련이 사용되었으며 얼마나 효과적입니까?; 
  • (2) 어떤 메커니즘이 목소리를 높이는 데 영향을 미칩니까? ; 
  • (3) 목소리를 높이는 것에 대한 사람들의 인식과 경험은 무엇인가? ; 
  • (4) 사람들은 어떻게 말합니까?; 
  • (5) 목소리를 높이는 것이 얼마나 효과적인가?

Each review proposed to be a unique investigation of the literature with unique research questions. Across all reviews five common questions existed under which findings can be organized:

  • (1) what interventions/training have been used and how effective are they? (Jones et al., 2021; Kim et al., 2020; Milligan et al., 2017; Nacioglu, 2016; O’Donovan & McAuliffe, 2020; Okuyama et al., 2014; Omura et al., 2017);
  • (2) what mechanisms (inhibitors/enablers) influence speaking up? (Bickhoff et al., 2017; Nacioglu, 2016; Okuyama et al., 2014; Peadon et al., 2020);
  • (3) what are people's perceptions and experiences of speaking up? (Fagan et al., 2016; Morrow et al., 2016; Noort et al., 2019; Pattni et al., 2019);
  • (4) how do people speak up? (Bickhoff et al., 2017; Morrow et al., 2016; Pattni et al., 2019; Rutherford et al., 2012);
  • (5) how effective is speaking up? (Milligan et al., 2017; Nacioglu, 2016; Okuyama et al., 2014).

어떤 개입/훈련이 사용되었으며, 얼마나 효과적입니까?
What interventions/training have been used, and how effective are they?

[목소리 높이기]는 보건 전문가 교육의 필수적인 부분으로 간주되지만 말하기/주장 훈련/갈등 훈련에 대한 커리큘럼과 체계적인 훈련이 부족하여 교육 격차가 존재한다. 5가지 형태가 확인되었다.

  • 교육 및 시뮬레이션,
  • 교육 및 리더십 비디오,
  • 교육 및 사례 연구,
  • 교육 워크샵
  • 비교육적 개입 (포럼 놀이, 전체론적 촉진 및 행동 연구 회의로 구성)


Speaking up is considered an essential part of health professionals' education, yet an educational gap exists with a lack of curriculum and systematic training on speaking up/assertiveness training/conflict training (O’Donovan & McAuliffe, 2020; Omura et al., 2017; Pattni et al., 2019). Five forms of intervention have been identified:

  • education and simulation,
  • education and leadership videos,
  • education and case studies,
  • educational workshops, and
  • non-educational interventions, comprising forum play, holistic facilitation, and action research meetings (Jones et al., 2021; Kim et al., 2020; O’Donovan & McAuliffe, 2020; Okuyama et al., 2014; Omura et al., 2017).

목소리를 높이기 위한 훈련과 개입에 대한 연구는 비교적 새로운 것으로 [효능 증거는 제한적이다]. 일반적으로, 목소리를 높이기 위한 교육적 개입은 [태도와 자신감]에 대한 짧은 지속적인 긍정적 영향을, [행동]에 대한 영향은 미미하거나 결여되어 있다. [팀 훈련]과 [적극적인 의사소통]에 대한 개입은 어느 정도 효과적이지만, [코칭 기반의 훈련]은 효과적이지 않은 것으로 보인다. 항공, 특히 [CRM(Crew/Crisis Resource Management)]에서 적용된 팀 기술 훈련 및 커뮤니케이션 기법이 긍정적으로 평가되었으며, 태도, 자신감 및 행동에 가장 강력한 긍정적 효과를 보였다. 개입의 구체적인 특징은 일관된 긍정적 효과를 보여주지 않는다.
Research on training and interventions for speaking up is relatively new with limited efficacy evidence. Generally, educational interventions for speaking up have weak short lasting positive effects on attitudes and confidence with effects on behaviour being minimal or absent. Interventions for team training and assertive communication are somewhat effective, coaching based training does not appear to be effective. Team skills training and communication techniques adapted from aviation, specifically Crew/Crisis Resource Management (CRM) were positively evaluated, and showed the strongest positive effects on attitudes, confidence, and behaviour (Fagan et al., 2016; Jones et al., 2021; Kim et al., 2020; Milligan et al., 2017; Nacioglu, 2016; O’Donovan & McAuliffe, 2020; Okuyama et al., 2014; Omura et al., 2017; Pattni et al., 2019; Peadon et al., 2020). No specific characteristics of interventions show consistent positive effects.

어떤 메커니즘(활성화/억제제)이 목소리를 높이는 데 영향을 미칩니까?
What mechanisms (enablers/inhibitors) influence speaking up?

많은 선행 사례들이 목소리를 높이는 것을 억제하거나 가능하게 하는 것으로 확인되었지만, [소수의 메커니즘]만이 억제, 가능 또는 둘 다로 일관되게 확인되었다.

Numerous antecedents have been identified as inhibiting or enabling speaking up, though only a few mechanisms were consistently identified as inhibitory, enabling, or both (Bickhoff et al., 2017; Fagan et al., 2016; Jones et al., 2021; Kim et al., 2020; Morrow et al., 2016; Noort et al., 2019; Omura et al., 2017; Pattni et al., 2019; Peadon et al., 2020).

목소리를 높이는 것을 방해하는 것
Inhibitors of speaking up

확인된 [주요 억제 메커니즘]은 [위계 구조]와 [권력 역학]이었지만, 실험 조건에서 위계 구조를 평탄화하는 것이 지속적으로 목소리 높이기를 개선하지는 않았다. [위계 구조]는 간호사와 학생 간호사 사이와 같은 [Intraprofessional]한 것과, 마취사와 호흡기 치료사 사이와 같은 [Interprofessional]한 것이 있다. [Inter 및 Intra professional한 위계]의 장벽과 수행자 직업 문화는 종종 [하위 계층, 특히 학생들에 의해 극복될 수 없는 것]으로 여겨지나, [고위 의사를 포함하여 더 상급 위치에 있는 사람들에게도 극복될 수 없는 것]으로 여겨졌다. 위계와 문화가 [극복할 수 없을 정도로 명백한 것]은 종종 목소리를 높이려고 노력하는 것조차 허무감을 만들어낸다.

  • [위계구조]와 [권력 역학]은 역할, 책임, 직업적 고정관념에 대한 기대감을 조성하고 뒷받침함으로써 목소리를 높이는 것을 제약하는 것으로 확인되었다.
  • [고정관념]은 목소리를 높이는 것에 대한 수용, 목소리를 높이는 인식 능력, 목소리를 높이는 것에 대한 책임감을 감소시키고 계층의 제약에 도전하는 것을 피하게 할 수 있다.

The primary inhibitory mechanism identified was hierarchies and power dynamics, though in experimental conditions flattening hierarchies does not consistently improve speaking up (Bould et al., 2015; Friedman et al., 2015; Sydor et al., 2013). Hierarchies are both

  • intraprofessional, such as between a charge nurse and a student nurse, and
  • interprofessional such as between an anesthetist and a respiratory therapist.

Inter and intra professional hierarchical barriers and attendant professional cultures are often seen to be insurmountable by those lower in hierarchies, in particular students, but also by those in more advanced positions including senior medical doctors (Peadon et al., 2020). The apparent insurmountably of hierarchy and culture often create a sense of futility in even trying to speak up (Morrow et al., 2016).

  • Hierarchies and power dynamics were identified as constraining speaking up by creating and supporting expectations about roles, responsibilities, and professional stereotypes.
  • Stereotypes can inhibit acceptance of speaking up, perceived ability to speak up, diminish responsibility for speaking up, and lead to avoidance of challenging the constraints of hierarchy.

 

  • [심리적 안전성]의 부족은, 인식이든 실제이든, [보복, 갈등, 괴롭힘, 괴롭힘 등 부정적인 결과에 대한 두려움] 및 [다른 사람들의 능력에 의문을 제기하는 것에 대한 우려]를 유발하여 목소리를 높이는 것을 억제한다.
  • [부정적인 결과에 대한 두려움]은 상황에 따라 달라질 수 있다;
    • 학생은 부정적인 평가를 두려워할 수 있는 반면,
    • 상급 전문가는 동료의 능력에 의문을 제기하는 것처럼 보임으로써 동료의 기분을 상하게 하고 싶지 않을 수 있다.
  • [일관성 없는 언어 및 훈련], 그리고 [목소리 높이기의 구성요소에 대한 이해의 불화]도 억제적이다.
  • A lack of psychological safety, perceived or actual, inhibits speaking up through fear of negative consequences, including reprisal, conflict, bullying and harassment, and concerns about questioning others' competency.
  • Fear of negative consequences can be context-dependent;
    • a student may fear a negative evaluation,
    • while a senior professional may not want to offend a colleague by appearing to question the colleague's competency.
  • Inconsistent language, training, and discordant understandings about what constitutes speaking up are inhibitory.
목소리를 높일 수 있는 원동력
Enablers of speaking up

["안전한 목소리"]를 갖는 것은 목소리를 높이는 것을 가능하게 한다; 그러나 안전 음성의 의미는 "분해되고 초기disintegrated and nascent"이다. 가장 일관성 있게 파악된 지지 요인은 [관리적 및 행정적 지원을 통한 조직적 지원]이었습니다.

  • [조직적 지원]에는 리더십 직책에 있는 사람들이 모델, 멘토링, 격려 및 목소리를 높이는 행동을 받아들이는 것이 포함됩니다.
  • [시스템 지원]은 주로 접근 가능한 보고 시스템과 "내부고발"에 대한 지원으로 식별되었다.

[서포트가 필요하다는 인식]은 [조직적 지원을 만들어내는 데] 필요하다. 이 때 [하향식 지원]을 동반함으로써, [목소리를 낼 수 있다고 느끼게 임파워링empowerng]하면서 [심리적으로 안전한 조직이나 환경]을 만들어낼 수 있다. 
Having "safety voice" is an enabler of speaking up; however, the meaning of safety voice is "disintegrated and nascent" (Noort et al., 2019). The most consistently identified enabler was organizational support through managerial and administrative support.

  • Organizational support includes those in leadership positions modeling, mentoring, encouraging, and accepting speaking up behaviour.
  • System supports were mainly identified as accessible reporting systems and support for “whistleblowing” (Fagan et al., 2016).

Awareness of the need to provide support is required to create organizational support, with top-down support necessary to create an empowering and psychologically safe organization or environment where a person feels it is possible to have a voice (Morrow et al., 2016; O’Donovan & McAuliffe, 2020).

  • [목소리를 높이는 것에 대한 지원]은 또한 환자 중심성, 환자 안전 및 전문적인 원칙 보호와 같은 [전문직업적 의무(예: 환자 옹호자가 되는 것)]로부터 온다.
  • [임상 및 안전 관련 경험과 지식]은 모두 도움이 됩니다.
  • 목소리를 높이는 부정적인 방향의 enabler는 "감정적 빌드업"이다; 사람들은 목소리를 내지 않는 것이 불가능하다는 것을 발견하는 "감정적 빌드업"의 수준에 도달하곤 한다.
  • Support for speaking up also comes from professional mandates such as patient-centeredness, patient safety, and safeguarding professional principles, e.g., being a patient advocate (Bickhoff et al., 2017).
  • Experience and knowledge, both clinical and safety-related, are supportive (Fagan et al., 2016; Okuyama et al., 2014).
  • A negatively oriented enabler of speaking up is “emotional buildup”; people reach a level of “emotional buildup” where they find it impossible not to speak up (Morrow et al., 2016).
목소리를 높이는 것을 억제하는 것/가능하게 하는 것
Inhibitor/enabler of speaking up
  • [위계 구조]는 주요 억제 메커니즘이지만, [상급 위치에 있는 사람들이 목소리를 높이고, 조언하고, 가능하게 하고, 받아들일 때], 목소리를 높이는 것을 긍정적으로 지원할 수 있는 의료의 필수적인 측면으로 간주된다;
    • 예를 들어, 개별 [간호사 관리자]들은 학생들이나 그들 이하의 다른 사람들이 목소리를 높이는지 여부에 긍정적 또는 부정적인 영향을 미칠 수 있다.
  • [상호 존중의 긍정적인 멘토-멘티 관계]의 경우, 너무 많은 존중이 의사소통을 방해하는 반면, 부정적인 관계는 의사소통을 방해할 수 있지만, 목소리를 높이는 것을 지지할 수 있다.
  • [개인적 요소](문화적, 세대적 배경, 태도, 성격, 성별, 경험, 자신감 등)도 억제하거나 가능하게 할 수 있다. 이러한 개별 특성이 어떻게 기능하는지는 상황에 따라 달라질 수 있습니다.
    • [학생]은 조직적인 지원, 임상 지식, 안전에 대한 헌신, 그리고 목소리를 낼 수 있는 자신감을 갖기 위한 [기술과 도구가] 필요할 수 있다.
    • 반면 [경험이 많은 동료]는 조직 지원이나 의견 표명을 위한 [도구의 필요성을 느끼지 못할 수도] 있습니다.
  • While being the primary inhibitory mechanism, hierarchy is also seen as a necessary aspect of healthcare that can positively support speaking up when those in advanced positions model, mentor, enable and accept speaking up; e.g., individual nurse managers can have a positive or negative effect on whether students or others below them speak up (Morrow et al., 2016).
  • A positive mentor–mentee relationship of mutual respect can support speaking up, though too much respect may prevent speaking up, while a negative relationship impedes communication.
  • Individual factors like cultural and generational background, attitudes, personality, sex, experience, and confidence could be inhibitory or enabling. How these individual characteristics function is developing and can vary based on context.
    • A student may need organizational support, clinical knowledge, a commitment to safety, and the skills and tools for speaking up to have the confidence to speak up.
    • Simultaneously, a more experienced colleague may not feel a need for organizational support or tools for speaking up.

관련성은 불분명하지만 [문화적 고려]가 중요하다.

  • [위계적 구배]가 의료 문화에 너무 깊이 뿌리박혀 있어서, 그 효과가 국가 문화적 영향을 대체할 수도 있지만,
  • 반대로 [국가 문화]가 너무 강해서 직업적 변화와 개입을 무시할 수도 있다.

Cultural considerations are important though the relevance is unclear (Jones et al., 2021).

  • Hierarchy gradients may be so ingrained in medical culture that the effects supersede national cultural influences (Kobayashi et al., 2006),
  • or alternatively, national culture is so strong it overrides professional changes and intervention (Roh et al., 2015).

목소리를 높이는 것에 대한 사람들의 인식과 경험은 무엇인가?
What are people's perceptions and experiences of speaking up?

전반적으로, [목소리 높이기]에 대한 인식과 경험은 부정적이며, 이것이 [목소리 높이기]를 억제하는 메커니즘이 될 수 있다. 개인과 조직은 종종 [목소리를 높이는 것]이 가치가 있지만, [적극적으로 장려되지는 않는다]고 말한다. 목소리를 높이고 공개적인 의사소통은 효과적이지 않고, 직업적으로 안전하지 않은 [고-위험, 저-보상 행동]으로 간주되며, 학대와 같은 다른 [부정적인 결과에 대한 두려움]을 수반한다. 게다가, 말하는 행동은 종종 [무시]되고, [언제 목소리를 높여야 하는지, 무엇에 대해 높여야 하는지가 불분명]한 경우가 많다. 사람들은 목소리를 높이는 것이 동료들과 [동료들에게 굴욕감을 줄 것]이라고 생각할지도 모른다. 부정적인 결과에 대한 학생들의 우려는 주로 [(자신에 대한) 부정적인 평가]와 [미래의 연습practice에 대한 영향]과 관련이 있다. 안전하지 않은 상황과 환자에 대한 우려를 개선하는 것이 목소리를 높이는 주된 이유입니다. 목소리를 높이는 것은 [감정적인 부담]을 수반할 수 있으며, 조직, 고위직 동료, 동료들의 지원과 함께 [용기가 필요]하다.
Overall, perceptions and experiences of speaking up are negative and can be inhibitory mechanisms on speaking up. Individuals and organizations frequently indicate speaking up is valued but is not actively encouraged. Speaking up and open communication is viewed as a high-risk, low reward behaviour that is ineffective and professionally unsafe, carrying a fear of abuse and other negative consequences. Further, speaking up behaviour is often ignored, and it is often unclear when to speak up and what speaking up entails. People may think speaking up will humiliate peers and colleagues. Student concerns over negative consequences primarily relate to negative assessment and impacts on future practice. Improving unsafe situations and concern for the patient is the primary reason for speaking up. Speaking up may carry an emotional burden, and courage along with support from organizations, colleagues of senior status, and peers is required (Bickhoff et al., 2017; Fagan et al., 2016; Milligan et al., 2017; Morrow et al., 2016; Nacioglu, 2016; Noort et al., 2019; Okuyama et al., 2014; Peadon et al., 2020).

사람들은 어떻게 목소리를 높일까요?
How do people speak up?

사람들이 실제로 어떻게 목소리를 높이는지에 대한 연구가 부족하다. 종종 사람들은

  • 질문이나 제안을 위한 [매니퓰레이팅 발화]같은 [간접적 방법]을 사용하거나
  • [행동을 피하고], [오더를 넣치 않는 것]과 같은 [하극상subversion]을 사용하는 [부정적이거나 침묵적인 방법]을 사용한다.
  • [긍정적인 방법]은 사실을 수집하고, 목소리를 높이려는 의도를 보여주고, 언제 어디서 목소리를 내야 하는지에 대한 구체적인 대상을 파악하는 것이다.

There is a paucity of research on how people speak up in practice (Bickhoff et al., 2017; Milligan et al., 2017; Morrow et al., 2016; Noort et al., 2019; Okuyama et al., 2014; Rutherford et al., 2012). Often people 

  • engage in indirect methods by manipulating speech to use questions or suggestions or
  • use negative or silent methods by avoiding action and using subversion, such as not filling an order.
  • Positive methods include collecting facts, showing an intent to speak up, and identifying specific targets for when and where to speak up.

[목소리 높이기 행동]에 대한 많은 증거는 학생에 관한 것이다. 학생들은 언제 누구에게 걱정을 보고해야 할지 모른다. 목소리를 높이는 것을 생각할 때, 사람들은 [결과에 대한 효용과 기대를 저울질하고 평가]한다. 전문가 간의 연구와 행동 등급 척도와 같은 객관적인 척도의 부재로 인해 목소리를 높이는 데 있어 전문적인 차이에 대한 경험적 증거가 부족하다.

Much of the evidence on speaking-up behaviour is for students, who often do not know when and to whom to report concerns. When considering speaking up people weigh and evaluate the utility and expectations about outcomes. Empirical evidence for professional differences in speaking up is lacking due to an absence of cross-professional research and objective measures like behavioural rating scales.

목소리를 높이는 것은 얼마나 효과적인가?
How effective is speaking up?

연구 부족으로 인해 실제로 목소리를 높이는 것의 효과는 알려져 있지 않다. 연구와 증거의 우세는 교육 개입과 훈련의 효과에 초점을 맞추고, 목소리를 높이면서 스스로 보고한 경험에 초점을 맞춘다. 환자의 목소리를 높이는 것이 환자의 목소리를 높이는 것이 잘 받아들여지지 않는다는 것을 발견한 연구는 거의 없다. 
In practice effectiveness of speaking up is unknown due to a lack of research. The preponderance of research and evidence focuses on the effectiveness of educational interventions and training and self-reported experiences with speaking up. Very few studies have investigated patient speaking up those that have found patient speaking up is not well received (Nacioglu, 2016).

시뮬레이션의 중요성
The importance of simulation

시뮬레이션은 교육 및 훈련을 조사하는 데 중요한 것으로 간주된다; 그러나 시뮬레이션 기반 연구는 부족하다. 14개 리뷰에 걸쳐 17개의 시뮬레이션 기반 연구가 명시적으로 식별되었다(추가 자료 참조). Patni 외 연구진(2019)은 시뮬레이션 연구와 대조적으로 자기 보고서 연구가 널리 퍼져 있다고 확인했다. 시뮬레이션 기반 연구의 [세 가지 유형]이 확인되었다: 

  • 교육 검증
  • 장벽의 효과(예: 엄격한 계층) 검증
  • 목소리를 높이기 위한 방법 검증(예: 2단계 규칙).

시뮬레이션 연구의 논의는 [효용, 과제, 개선]의 세 가지 영역에 초점을 맞추었다.
Simulation is considered important for investigating education and training; however, there is a dearth of simulation-based research. Across the fourteen reviews, seventeen simulation-based studies were explicitly identified (see supplemental material). Pattni et al. (2019) identified self-report studies were pervasive contra to simulation studies. Three types of simulation-based studies were identified:

  • testing education,
  • testing effects of barriers (e.g., strict hierarchy), and
  • testing methods to speak up (e.g., two-challenge rule).

The discussion of simulation research focused on three areas: utility, challenges, and improvement (Fagan et al., 2016; Kim et al., 2020; Morrow et al., 2016; Noort et al., 2019; O’Donovan & McAuliffe, 2020; Okuyama et al., 2014; Omura et al., 2017; Pattni et al., 2019; Peadon et al., 2020).

시뮬레이션의 효용
Utility of simulation

[시뮬레이션]은 [목소리 높이기와 관련된 교육, 훈련 및 개념을 검증]하기 위한 유망한 방법으로 간주된다. 주요 효용은 [성과와 행동의 객관적인 측정을 얻는 것]으로 간주된다. 또한 시뮬레이션은 개별 요인(예: 태도, 성격, 의사소통 능력) 및 수식자와 장벽(예: 평평한 팀 대 계층 구조 팀)의 영향을 측정하는 데 유용하다. 시뮬레이션은 또한 사람들이 기술을 연습하고 교훈적으로 전달된 지식을 통합할 수 있게 하며 시나리오 기반 학습에 대한 학생들의 욕구를 충족시키며 새로운 말하기 방법을 테스트하고 개발하는 환경으로 사용될 수 있다.
Simulation is viewed as a promising modality for education, training, and testing concepts related to speaking up (Fagan et al., 2016; Noort et al., 2019; O’Donovan & McAuliffe, 2020; Okuyama et al., 2014; Omura et al., 2017; Pattni et al., 2019; Peadon et al., 2020). The primary utility is seen as obtaining objective measurements of performance and behaviour. Additionally, simulation is useful in measuring the effects of individual factors (e.g., attitudes, personality, communication skills) and the impact of modifiers and barriers (e.g., flat vs. hierarchically structured teams). Simulation can also allow people to practice skills and incorporate knowledge delivered didactically and fulfills students' desire for scenario-based learning and  can be used as an environment to test and develop new speaking up methods.

시뮬레이션 과제
Challenges of simulation

[거의 모든 리뷰는 시뮬레이션을 비판]했으며, [시뮬레이션 기반 연구는 한계로 간주]되었다. [일차적인 비판]은 시뮬레이션이 임상 환경과 일치하지 않으며, 시뮬레이션에 의존하는 개입의 효과가 부족한 원인이 된다는 것이었다. 시뮬레이션 중에 참가자로부터 인식된 [책임과 긴급성이 결여]되어 있다고 가정한다. 흥미롭게도 [저 위험 설정]으로 간주되는 시뮬레이션 연구와 참가자들이 훈련을 받은 후에, 목소리를 높이는 [효과가 모든 곳에서 발생하지는 않았다]. 참가자에게 생소한 시나리오와 맥락, 시간 압축, 종단적 연구 부족 등 [시뮬레이션 방법에 초점을 맞춘 추가 비평]이 이어졌다. 시뮬레이션 동안 [사용된 평가의 신뢰성]은 부적절한 척도와 일관성 없는 관찰자/평가자 훈련으로 인해 제한된 것으로 간주되었다. 확인된 유일한 무작위 대조군 시험은 시뮬레이션 연구였지만, 전반적인 품질은 낮았다.
Nearly every review critiqued simulation, with simulation-based research being considered a limitation. The primary critique was that simulation does not match the clinical environment and the lack of verisimilitude is a cause of the lack of effectiveness of interventions that rely on simulation. It is assumed there is a lack of perceived responsibility and urgency from participants during simulation. Interestingly across simulation studies, which are considered low risk settings, and after participants received training, speaking up was not ubiquitous (O’Donovan & McAuliffe, 2020; Omura et al., 2017; Pattni et al., 2019; Peadon et al., 2020). Additional critique focused on simulation methods, including scenarios and contexts unfamiliar to participants, time compression, and lack of longitudinal study (Omura et al., 2017). The reliability of assessments used during simulation was considered limited due to inadequate measures and inconsistent observer/rater training. While the only Randomized Control Trials identified were simulation studies, the overall quality was low (Omura et al., 2017).

시뮬레이션 개선
Improvement to simulation

오무라 외 연구진(2017)에 따르면 한계에도 불구하고 시뮬레이션은 유리하고 중요하며 계속 사용되어야 한다. "…시뮬레이션을 사용한 관찰자 기반 결과 측정은 반응, 지식 및 태도뿐만 아니라 행동 변화도 평가할 수 있음이 분명하다." 
리뷰 전반에 걸쳐 [시뮬레이션 개선]은 다음과 같은 6가지 제안에 초점을 맞추고 있다: 

  • (1) 시뮬레이션에서 행동 결과를 자주 측정하고, 행동을 평가하는 더 나은 방법을 개발한다; 
  • (2) 실제 시나리오, 텍스트, 언어 및 대화를 사용하여 실제 관측에서 역방향으로 시뮬레이션을 설계함으로써 생태학적 대응성이 향상된 시뮬레이션을 설계; 
  • (3) 실험 방법과 사전 테스트 방법을 사용하여 [목소리 높이기의 원인 메커니즘과 장벽을 이해]한다; 
  • (4) 학습을 촉진하고 신뢰를 유지하기 위해 좋은 디브리핑 전략을 사용한다(특히 속임수를 사용할 때에
  • (5) 시뮬레이션에서 교육 및 훈련의 효과를 실무 결과와 연결하기 위해 종단 연구를 사용한다; 
  • (6) 시뮬레이션 교육을 위해 멀티미디어 및 확장 현실을 사용하여 탐색합니다.

Despite the limitations, simulation is viewed as advantageous, important and should continue to be used, according to Omura et al. (2017), "…it is evident that observer-based outcome measures with simulation can evaluate not only, reaction, knowledge and attitudes, but also behaviour change". Across the reviews, improvements to simulation focus on six suggestions (Fagan et al., 2016; Kim et al., 2020; Morrow et al., 2016; Noort et al., 2019; O’Donovan & McAuliffe, 2020; Okuyama et al., 2014; Omura et al., 2017; Pattni et al., 2019; Peadon et al., 2020):

  • (1) Frequently measure behavioural outcomes in simulation and develop better methods of assessing behaviour;
  • (2) Design simulations with better ecological correspondence by designing simulations backward from real-world observations using real scenarios, text, language, and conversation;
  • (3) Use experimental methods and pre-test measures to understand causative mechanisms and barriers of speaking up;
  • (4) Use good debriefing strategies to facilitate learning and maintain trust, especially when deception is used;
  • (5) Use longitudinal studies to connect the effects of education and training in simulation to practice outcomes;
  • (6) Explore using multi-media and extended reality for simulation training.

검토한 리뷰에서 의견을 제시하는 능력을 향상시키기 위한 권장 사항
Recommendations in the reviewed reviews to improve speaking up

다음과 같은 다섯 가지 공통 권고안이 제시되었다:

  • (1) 조직 지원 및 문화 변화; 
  • (2) 목소리를 높이는 연구를 개선 
  • (3) 원인 메커니즘에 대한 더 나은 이해 개발
  • (4) 교육 및 훈련 개선; 
  • (5) 외부 지식을 통합하는 것.

Five common recommendations arose:

  • (1) organizational support and culture change;
  • (2) improving the research on speaking up;
  • (3) developing a better understanding of causative mechanisms;
  • (4) improving education and training;
  • (5) incorporating outside knowledge.

조직 지원 및 문화 변화
Organizational support and culture change

[조직의 지원과 문화적 변화]는 심리적 안전, 시민의식, 그리고 모든 수준의 의료 전문가들에 걸친 파트너십을 통해 정당한 문화를 만들어낼 수 있다. 하향식 조직 및 문화 변화는 목소리를 낼 수 있는 [제도적 장벽과 요인]에 초점을 맞춰야 하고 이것은 대체로 바뀔 수 있다. 목소리를 높이는 것은 [경영진과 행정부를 포함]한 [모든 직원들의 지지]를 받아야 하며, 조직들은 [위계질서와 직업적 긴장]을 포함하여 기존의 불리한 직장 문화를 해결해야 한다. [지도적 위치]에 있는 사람들과 직업과 팀의 고위 구성원들은 모델링, 멘토링, 격려 및 말하기 행동을 수용함으로써 변화를 창출할 수 있다. 이러한 기술과 행동에 대한 [교육, 훈련, 격려 및 지원이 지도직에 제공]되어야 한다; 행동을 강요하는 것이 필요할지도 모른다. 또한 조직변화를 구현하고자 할 때는 구현장소에 고유한 국가문화, 사회경제적 맥락, 정치적 맥락 등을 고려할 필요가 있다.
Organizational support and cultural change can create just cultures through psychological safety, civility, and partnership across all levels of healthcare professionals. Top-down organizational and cultural change should focus on institutional barriers and enablers to speaking up that are mostly modifiable (Bickhoff et al., 2017; Fagan et al., 2016; Kim et al., 2020; Morrow et al., 2016; Noort et al., 2019; Omura et al., 2017; Pattni et al., 2019). Speaking up must be supported by all staff members, including management and administration, and organizations must address existing adverse workplace cultures, including hierarchy and professional tension. Those in leadership positions and senior members of professions and teams can create change through modeling, mentoring, encouraging, and accepting speaking-up behaviour. Education, training, encouragement, and support for these skills and behaviours should be provided to leadership positions; mandating the behaviours may be necessary. Additionally, when attempting to implement organizational change, it is necessary to consider national culture, socio-economic contexts, and political contexts endemic to the location of implementation.

목소리를 높이는 연구 개선
Improve research on speaking up

말하기가 어떻게 발생하는지 더 잘 이해하고 교육과 훈련을 개선하기 위해서는 더 엄격한 연구가 필요하다. 7가지 개선점이 확인되었다: 

  • (1) 교육 및 훈련 중 평가를 포함하여 보다 객관적인 측정 및 평가를 사용하여 말하기 평가 방법을 개선합니다; 
  • (2) 사람들이 목소리를 높이는 방법, 목소리를 높이는 결과 및 목소리를 높이는 방법에 대한 이해를 향상시키기 위해 생태학적 관찰이 필요하다; 
  • (3) 연구는 병원 밖, 의학과 간호 외의 직업, 다른 직장과 국가 문화, 그리고 문화적으로 다양한 팀에서 필요하다. 연구는 초국가적 및 국가적 정책의 효과를 이해하기 위해 지역적 이행을 넘어서야 한다; 
  • (4) 실험 방법 및 시뮬레이션을 사용하여 목소리 높이기의 원인 메커니즘, 활성화 요인 및 억제 요인을 테스트한다; 
  • (5) 교육에 보다 현실적인 시뮬레이션을 사용한다; 
  • (6) 시행 격차를 해소하고 교육 및 훈련의 장기적 효과와 개인 및 조직의 변화가 어떻게 발생하는지 이해하기 위해 다양한 맥락에서 종단적 연구를 수행한다; 
  • (7) 연구에 대한 이해관계자의 참여를 높이고 더 많은 자금 및 리소스를 포함하여 목소리를 높이는 데 연구의 우선순위를 지정합니다.

More rigorous research is required to better understand how speaking up occurs and to improve education and training (Bickhoff et al., 2017; Jones et al., 2021; Nacioglu, 2016; Omura et al., 2017; Rutherford et al., 2012). Seven improvements were identified:

  • (1) Improve how speaking up is measured by using more objective measures and assessments, including assessment during education and training;
  • (2) Ecological observation is required to improve understanding about how people speak up, outcomes of speaking up, and how speaking up is received;
  • (3) Research is needed in contexts outside of hospitals, with professions outside of medicine and nursing, in different workplace and national cultures, and with culturally diverse teams. Research should move beyond local implementation to understand the effects of transnational and national policies;
  • (4) Using experimental methods and simulation, to test causative mechanisms, enablers, and inhibitors of speaking up;
  • (5) Use more situationally realistic simulation for training;
  • (6) Conduct longitudinal research in multiple contexts to bridge the implementation gap and understand the long-term effects of education and training and how change occurs in individuals and organizations;
  • (7) Increase stakeholder involvement in research and prioritize research on speaking up, including more funding and resources.

원인 메커니즘에 대한 더 나은 이해 개발
Developing a better understanding of causative mechanisms

[원인 메커니즘에 대한 더 나은 이해]는 연구를 개선하는 것과 동시에 이루어진다. 특정 선행사례들은 업무량, 말하기 수용성, 말하기에 대한 인식된 가치, 환자에게 피해를 주지 않으려는 욕구, 협박, 괴롭힘, 괴롭힘과 같은 부정적 결과의 영향을 통해 말하기를 억제하는 것을 포함하여 적절한 양의 연구를 하는 것으로 확인되었다. 개인의 차이와 성격, 그리고 직장, 직업, 문화적 맥락의 영향을 포함하지 않고 사람들이 목소리를 높이도록 이끄는 사회적, 심리적 과정에 대한 더 많은 지식이 필요하다. 다양한 교육 모드의 효과와 조직 변화에 대한 적용된 시도가 목소리를 높이는 데 어떻게 영향을 미치는지에 대한 더 나은 이해가 필요하다. 
A better understanding of causative mechanism is concurrent with improving research (Jones et al., 2021; Kim et al., 2020; Milligan et al., 2017; Noort et al., 2019; Omura et al., 2017; Peadon et al., 2020). Certain antecedents were identified as having an adequate amount of research including workload, receptiveness to speaking up, perceived value in speaking up, the desire to avoid patient harm, and the inhibition of speaking up through the effect of negative consequences such as intimidation, bullying, and harassment. More knowledge is required about the social and psychological processes that lead people to speak up or not including individual differences and personality, and effects of workplace, professional, and cultural contexts. Better understanding of the effectiveness of different modes of training and how applied attempts at organizational change affect speaking up is necessary.

[목소리 높이기]는 일반적으로 [사회적으로 구성된 현상]으로 간주되어 왔으며, [목소리 높이기]가 왜 이뤄지지 않는지에 대한 가정, 추론, 의미의 속성이 만들어졌다. [일어나지 않은 일]을 평가하고 부재를 추리에 의해서 해석하는 것은 동일한 결과에 대해 반대되거나 상충되는 해석을 만들 수 있다. [목소리를 높이는 것]을 [본질적으로 의미 있고 사회적으로 내재된 현상]으로 보고 [경험적 접근법]을 사용하면 목소리를 높이는 것에 대한 보다 구체적인 이해로 이어질 수 있다.
Speaking up has typically been viewed as a socially constructed phenomenon, and assumptions, inferences, and attributions of meaning are made about the absence of speaking up. Assessing things that have not happened and interpreting absence inferentially can create opposing or conflicting interpretations of the same outcomes. Viewing speaking up as an inherently meaningful and socially embedded phenomenon and using an empirical approach can lead to a more concrete understanding of speaking up (Noort et al., 2019).

교육 및 훈련 개선
Improvement to education and training

모든 의료 수준에서 목소리를 높이는 것에 대한 [더 많은 교육과 훈련]이 필요하다. 학습자는 더 많은 교육과 훈련을 통해 목소리를 높일 수 있는 더 많은 지원을 원합니다. 교육과 훈련은 학부 수준에서 시작되어야 하며, 대학원 이후의 훈련과 지속적인 교육에서 계속되어야 한다. [목소리를 높이는 것]에 대한 교육과 훈련의 효과에 대한 의구심이 있으며, [개입의 맞춤형 및 이질적 특성]은 일관된 훈련 효과의 부족에 기여할 가능성이 있다. 목소리를 높이는 [도구와 기법에 대한 표준화된 훈련과 표준화된 평가 조치]는 개인의 경력 전반에 걸쳐 그리고 교육 및 훈련 자체에 대한 지속적인 개선 프로세스를 창출할 수 있다. 교육 및 훈련은 대면 및 기타 전달 방법을 사용하여 주로 [CRM과 같은 높은 효율성을 가진 방법]에 초점을 맞춰야 한다.
More and better education and training on speaking up is needed at all levels of healthcare (Fagan et al., 2016; Kim et al., 2020; Morrow et al., 2016; Noort et al., 2019; O’Donovan & McAuliffe, 2020; Okuyama et al., 2014; Omura et al., 2017; Pattni et al., 2019). Learners want more support for speaking up through more education and training. Education and training should begin at the undergraduate level and continue in post-graduate training and continuing education. Education and training on speaking up have questionable efficacy, with the bespoke and heterogenous nature of interventions likely contributing to the lack of consistent training effects. Standardized training for the tools and techniques of speaking up and standardized assessment measures can create continuous improvement processes for individuals throughout their career and for education and training itself. Education and training should focus on methods with high efficacy, primarily CRM, using face-to-face and other delivery methods.

다양한 직업의 특정 상황과 작업 환경에 맞춘 [시뮬레이션과 개입을 통한 경험적 시나리오 기반 학습]은 교육과 훈련을 개선할 수 있다. 학습자부터 고위 경영진까지 [모두가 참여하는 교육훈련] 설계 단계 중 [다층적 조직적 투입]이 필요하다. 교육 및 훈련 개선은 복잡하고 연구, 전략 계획 및 조직 변화를 통한 [하향식 노력의 얽힘]이 필요하다. 교육의 개선과 목소리를 높이기 위한 개입이 발생함에 따라 [새로운 세대]에게 더 나은 훈련이 제공될 수 있다. [목소리 높이기를 격려 및 수용하고, 행동을 모델링하고, 신입생들을 멘토링]하는 새로운 세대의 전문가들을 만들어 냄으로써 [광범위한 문화 변화]가 일어날 수 있다. [다양한 사고 방식과 실천 방식을 가진 새로운 전문가들]이 의료 시스템으로 이동하기 시작함에 따라, 기존 시스템과 실무자를 개선하기 위한 노력을 통해 발생하는 [하향식 조직 변화를 반영하는 상향식 변화가 발생]할 것이다.

Experiential scenario-based learning through simulation and interventions tailored to different professions' specific contexts and work environments may improve education and training. Multilevel organizational input during the design phase of education and training that includes everyone from learners to senior management is needed. Improving education and training is complex and requires the intertwining of top-down efforts through research, strategic planning, and organizational change. As improvements to education and interventions for speaking up occur better training can be provided to new generations. By creating a new generation of professionals who encourage and accept speaking up, model the behaviour, and mentor new students widespread culture change can occur. As new professionals with different ways of thinking and practicing begin moving into the healthcare system bottom-up change will occur to mirror the top-down organizational changes occurring through efforts to improve existing systems and practitioners.

외부 지식 통합
Incorporating outside knowledge

[의료 외 분야, 특히 의학 외 분야의 지식]은 교육과 훈련을 개선하고 말하기 이해에 대한 연구를 가속화함으로써 말하기 문제를 해결하는 데 도움이 될 수 있다. 가장 가치 있는 것으로 확인된 두 가지 주요 지식 분야는 [조직 행동 연구]를 포함하여 [심리학]과 [비즈니스]이다. [복잡성]과 [시스템 이론]도 도움이 될 수 있다. 의료 외의 관련 연구는 일반적으로 통합되지 않고 활용되지 않는다.
Knowledge from areas outside of healthcare, particularly outside of medicine, can help address the problem of speaking by improving education and training and accelerating research on understanding speaking up (Jones et al., 2021; Nacioglu, 2016; Noort et al., 2019; Peadon et al., 2020). The two main knowledge areas identified as being most valuable are psychology and business, including organizational behavioural research. Complexity and systems theories could also prove helpful. The large amounts of relevant research outside of healthcare are generally not incorporated and utilized.

목소리를 높이는 것에 대한 기존 지식의 종합
Synthesis of the existing knowledge on speaking up

[목소리를 높이는 것]은 주로 [위계 구조, 영향에 대한 두려움, 조직 지원의 부족]을 포함하는 [깊이 뿌리박힌 장벽] 때문에 효과적이지 못한 것으로 인식된다. [리더십과 선배 동료들의 지원, 환자에 대한 관심, 개인의 특성]이 목소리를 높이는 것을 지원한다. 목소리를 높이는 원인 메커니즘, 촉진자 및 억제자의 영향은 복잡한 상호작용에 존재한다. [원인 메커니즘]의 진정한 효과는 잘 이해되지 않으며, 그 효과를 명확하게 말할 수 없다. [목소리 높이기]를 더 잘 이해하기 위해서는 더 나은 평가, 실험, 종적 연구, 생태 관찰을 포함한 개선된 연구 방법이 필요하다. [상향식 조직 변화와 상향식 교육 및 훈련]은 원활한 목소리 내기에 필수적이다.  현재, 교육과 훈련은 충분히 자주 제공되지 않으며 일관적이거나 적절하게 효과적이지 않다; 개선이 필수적이다. 시뮬레이션은 교육, 훈련 및 연구에서 중요한 역할을 할 수 있지만 또한 개선이 필요하다. 현재 목소리를 높이는 것과 관련된 지식과 연구가 대두되고 있으며, 단점을 해결하고 질문을 명확히 하고 개선할 수 있는 방법을 찾을 수 있는 기회가 많다. 
Speaking up is perceived to be ineffective due to deeply ingrained barriers that primarily include hierarchy, fear of repercussions, and a lack of organizational support. Support from leadership and senior colleagues, concern for the patient, and individual characteristics support speaking up. The influence of causative mechanisms, facilitators and inhibitors of speaking up exist in complex interactions. Causative mechanisms' true effects are not well understood, and effects cannot be stated definitively. Improved research methods including better assessment, experiment, longitudinal study, and ecological observation are needed to better understand speaking up. Top-down organizational change and bottom-up education and training are essential to facilitate speaking up. Currently, education and training are not delivered frequently enough and are not consistently or adequately effective; improvement is essential. Simulation can have an important role in education, training, and research, but also requires improvement. Currently, knowledge and research related to speaking up is emergent, with many opportunities to address shortcomings, clarify questions, and identify avenues for improvement.

논의
Discussion

의료 분야에서 목소리를 높이는 것에 대한 지식의 현재 상태에 대한 통합된 이해를 개발하기 위해 14개의 리뷰를 합성했다. 목소리를 높이는 것은 전 세계적으로 관련된 의료 문제입니다. 국가와 의료 시스템 전반에 걸쳐 목소리를 높이는 것이 문제라는 공통된 이해가 있지만, 문제를 효과적으로 해결하는 방법에 대한 지식은 제한적이다. 
Fourteen reviews were synthesized to develop a unified understanding of the current state of knowledge on speaking up in healthcare. Improving speaking up is a globally relevant healthcare issue. Across countries and healthcare systems there is a shared understanding that difficulty in speaking up is a problem, however, knowledge about how to effectively address the problem is limited.

최신 검토를 기반으로 한 권장 사항
Recommendations based on the state-of-the-art review

언어의 일관된 사용
Consistent use of language

[목소리 높이기]를 조사하기 위해서는 일관된 언어가 필요하다. Okuyama 외 연구진(2014)은 모든 검토에 반영된 간결하고 구체적인 정의를 제공하며 적용 가능성을 확대하기 위해 "병원 환경"을 제거하는 경우 합의된 정의를 위해 충분히 일반적이다:

  • "말하기"는 의료 전문가들이 의료 팀 내 다른 사람들의 [위험하거나 부족한 행동을 인식하거나 인지]할 때, 환자의 안전과 의료 품질의 이점에 대한 우려를 제기하는 것으로 정의된다 

Consistent language is necessary to investigate speaking up. Okuyama et al (2014) provide a concise, concrete definition, reflected in all the reviews and sufficiently general for a consensus definition if "hospital environment" is removed to broaden applicability:

  • "Speaking up' is defined as the raising of concerns by healthcare professionals for the benefit of patient safety and care quality upon recognizing or becoming aware of the risky or deficient actions of others within healthcare teams."

'스피킹 업'은 '안전 보이스'보다 장점이 있는데, 이는 [안전 보이스]가 수동적이고 정의적으로 '분해되고 초기'이기 때문이다. 모리슨의 프레임워크 내에서 [안전 목소리]는 미래의 이해를 지원할 수 있지만, 지식은 창발적이고, 더 간단한 개념화가 권장된다.
'Speaking up'
is advantageous over 'safety voice' as speaking up is actionable and precise while safety voice is passive and definitionally "disintegrated and nascent" (Noort et al., 2019). Safety voice within Morrison's framework may support future understandings; however, knowledge is emergent, and a simpler conceptualization is recommended.

명확하고 객관적인 언어는 목소리를 높이고 토론하고 연구하는 데 사용되어야 한다. "엘리트의 무례함"과 "불건전한 복종" 등의 용어는 모호하고 비난적이다. [Value-laden terms]를 통해 [책임, 죄책감 및 보복의 필요성]을 명시적으로 할당하는 것은 [개방적 의사소통과 책임 없는 문화의 기본적인 환자 안전 원칙을 훼손]한다. 최적의 환자 치료를 제공하기 위해 목소리를 높이도록 장려하고 지원하는 대학 팀과 조직을 만드는 것은 개인이나 그룹을 권력 투쟁과 자연스러운 갈등 상태에 있다고 보는 데서 오는 것이 아니다.
Clear, objective language should be used for discussing and researching speaking up. Terms such as "incivility of elites” and "unwholesome submissiveness” etc., are ambiguous and accusatory. Explicitly assigning blame, guilt, and the need for reprisal through value-laden terms undermines fundamental patient safety principles of open communication and blame-free cultures (Helmreich et al., 1999; Kohn et al., 1999). Creating collegial teams and organizations that encourage and support speaking up to provide optimal patient care does not come from viewing individuals or groups as being in a power struggle and natural state of conflict.

연구 방향
Research directions

말하기를 이해하기 위한 [기본 질문]을 설정할 수 있습니다. 말하기에서 가장 큰 차이를 설명하는 변수와 공분산은 무엇입니까? 여기서 변수는 발화의 단일 행동 결과를 억제하거나 가능하게 하는 원인 메커니즘 또는 선행 요소로 정의될 수 있다. 단순화된 접근 방식은 목소리를 높이기 위한 변수의 복잡한 상호 작용에 대한 인과 관계 조사를 지원한다. 1차 활성화 또는 억제 변수에 대한 지식이 증가함에 따라, 데이터 수집은 구조 방정식 모델링(SEM)을 사용하여 경험에 기반한 말하기 모델을 개발하기 위해 더 효율적으로 초점을 맞출 수 있다. SEM을 활용한 초기 시도는 부분적으로 engagement에 의해 매개된 "음성"을 촉진하는 지원 및 제어의 이중 요인 모델을 확인했다. 단순화된 개념화와 경험적으로 파생된 모델은 연구, 행동 관찰 및 평가를 지원할 것이다.
A foundational question for understanding speaking up can be set: which variables account for the most variance in speaking up, and what are their covariance? Here variables can be defined as the causative mechanisms or antecedents that inhibit or enable the single behavioral outcome of speaking up. A simplified approach supports causal investigation of the complex interactions of the variables for speaking up. As knowledge about the primary enabling or inhibitory variables increases, data collection can be more efficiently focused to develop an empirically based model of speaking up using Structural Equation Modelling (SEM) (Kenny, 2019). An early attempt utilizing SEM identified a bifactorial model of support and control promoting “voice” that was partially mediated by engagement (Voogt et al., 2019). Simplified conceptualization and an empirically derived model would support research, behavioural observation, and assessment.

[심리학의 지식]을 연구와 교육, 특히 사회심리학의 준법, 권위에 대한 복종, 순응에 대한 방대한 연구와 함께 통합하면 분야를 가속화할 수 있다. 심리학은 치료의 대인 관계를 포함한 의료 제공의 많은 영역과 교차하는 과학이다. 맥락은 중요하지만, 인간 행동과 인지의 원칙은 일반적으로 보편적이며, 이미 알려진 것을 재발견할 필요는 없다.
Incorporating knowledge from psychology in research and education, specifically social psychology with its vast research on compliance, obedience to authority, and conformity (Cialdini & Griskevicius, 2010; Cialdini & Trost, 1998) can accelerate the field. Psychology is a science that intersects with many areas of healthcare delivery, including the interpersonal aspects of care. Context is important; however, the principles of human behaviour and cognition are generally universal (Ariely, 2008; Olsson-Collentine et al., 2020), and it is not necessary to rediscover what is already known (Avorn, 2018; Croskerry et al., 2017).

연구에서 도출된 추론을 개선하기 위해서는 수행되는 연구의 양과 질을 개선하는 것이 필요하다. 두 측면 모두에서 지속적인 개선은 말하기를 촉진하는 교육과 방법을 만들고 신뢰성과 타당성이 좋은 객관적 관찰 평가에 의해 안내되는 효과적인 표준화된 개입을 개발하는 데 도움이 될 수 있다. 
Improvements to the quantity as well as quality of research being conducted is necessary to improve the inferences drawn from the research (Vazire et al., 2022). Continuous improvement in both aspects can help create education and methods to promote speaking up and develop effective standardized interventions with long-lasting effects guided by objective observational assessments with good reliability and validity.

시뮬레이션 향상
Enhancement of simulation

연구와 교육을 위한 시뮬레이션에 대한 인식 전환이 필요하다. 시뮬레이션의 한계는 모달리티 자체에 내포되어 있습니다. 제한으로 간주되기보다는, 시뮬레이션을 목소리를 높이기 위한 훈련과 원인 메커니즘을 실험적으로 조사할 수 있는 풍부한 가능성을 제공하는 [생태학적/외부적 타당성이 높은 시험장]으로 보아야 한다. 임상 연구 및 관찰 시뮬레이션과 함께 이론 개발, 실험, 교육 및 평가를 위한 주요 이점이다. 예를 들어, [목소리 높이기] 예측 모델은 임상 및 조직 수준에서 조사로 이동하기 전에 시뮬레이션에서 평가할 수 있다. 임상 환경으로 발전하는 과정에서 시뮬레이션은 목소리를 높이는 기술을 연습하는 매개체가 될 수 있다. 구현 과학의 통합은 시뮬레이션에서 임상 공간에 이르는 학습을 전파하고 임상의, 교육자 및 행정부의 새로운 지식과 관행을 활용하는 데 도움이 될 수 있다.
A shift in the perception of simulation for research and education is necessary. Simulation’s limitations are implied in the modality itself. Rather than being seen as a limitation simulation should be viewed as a testing ground with high ecological/external validity that provides abundant possibilities to experimentally examine training and causative mechanisms for speaking up (Friedman et al., 2015). In conjunction with clinical research and observation simulation is a major boon for theory development, experimentation, education, and assessment. For example, predictive models of speaking up can be evaluated in simulation before moving to investigation at the clinical and organizational level. In the progression to the clinical environment, simulation can be an intermediary to practice the skill of speaking up. The incorporation of implementation science can help to disseminate the learnings from simulation to the clinical space and uptake of new knowledge and practices by clinicians, educators, and administration.

현재 검토의 한계
Limitations of the present review

  • (1) 관련 문헌이 누락되었을 가능성이 높다. 최근의 특정 기사와 관련 기사들은 어떤 리뷰에도 포함되지 않았다. 
  • (2) 현재 검토는 사용된 검토의 검색, 분석 및 보고에 따라 결정된다. 검토 방법론적 품질의 평가는 현재 방법론적 검토가 반드시 관련이 있는 것은 아니기 때문에 수행되지 않았다. 검색에서 메타 분석이 확인되지 않았으며, 이는 해당 분야가 개발 단계에 있음을 나타낸다. 많은 변수와 여러 검토 유형에 걸쳐 다양한 효과 크기가 분산되어 있기 때문에 현재 체계적인 평가가 불가능하다. 
  • (3) 본 검토는 환자 치료의 맥락에서 목소리를 높이는 데 초점을 맞췄다. 개인의 존엄성을 지지하기 위해 목소리를 높이는 것이 필요한 다른 교육적이고 전문적인 맥락이 존재하며 고려되어야 한다.
  • (1) Relevant literature was likely missed. Certain recent and relevant articles were not included in any of the reviews (Calhoun et al., 2014; Daly Guris et al., 2019; Fisher & Kiernan, 2019; Kaba et al., 2016; Kuo et al., 2020; Oner et al., 2018; Shanks et al., 2020).
  • (2) The present review is contingent on the search, analysis, and reporting of the reviews used. An assessment of the reviews methodological quality was not conducted as, at present, a methodological review is not necessarily relevant. No meta-analyses were identified in the search, indicating the field is in a developmental stage. With numerous effect sizes spread over many variables and multiple review types at this time systematic evaluation is not possible (Noort et al., 2019).
  • (3) The present review focused on speaking up in the context of patient care. Other educational and professional contexts exist, and should be considered, where speaking up is necessary to support individual dignity (Gianakos et al., 2022).

결론
Conclusion

환자 위해 문제가 지속되고 환자 안전을 발전시키고 지속적으로 개선할 필요가 있는 상황에서, 그 임무를 추진하기 위한 공동의 노력이 필요하다. 행동의 명백한 단순성에도 불구하고, 목소리를 높이는 것은 잘 이해되지 않고, 연구는 초기 단계에 있으며, 교육과 훈련에 대한 개선이 필요하며, 외부의 견해가 필요하다. 초기 분야의 리뷰는 중복성을 줄이고 현재 지식의 포괄적인 통합을 제공하기 위해 단일의 포괄적인 문서를 작성할 필요성을 뒷받침한다. 현재의 합성은 통일된 이해를 촉진하고, 기존의 지식을 명확하게 하며, 향후 연구의 공통된 출발점으로 기능하고자 한다.
With the persistent issue of patient harm and the need to advance and continuously improve patient safety, a concerted effort is needed to carry the mission forward (Cohen & Patel, 2020). Despite the apparent simplicity of the behaviour, speaking up is not well understood, research is in early stages, improvements to education and training are required, and outside views are needed. The plethora of reviews in an incipient field supports the need to create a single comprehensive document to reduce redundancy and provide a comprehensive synthesis of the current knowledge. The current synthesis intends to foster a unified understanding, clarify existing knowledge, and function as a common starting point for future research.

 


Adv Health Sci Educ Theory Pract. 2022 Oct;27(4):1177-1194. doi: 10.1007/s10459-022-10124-8. Epub 2022 Jun 6.

A state-of-the-art review of speaking up in healthcare

Affiliations collapse

1Center for Advanced Medical Simulation, Northern Alberta Institute of Technology, CAT 126, 11762 106 St NW, Edmonton, AB, T5G 2R1, Canada. efremv@nait.ca.

PMID: 35666354

DOI: 10.1007/s10459-022-10124-8

Abstract

Throughout healthcare, including education, the need for voicing of concern by speaking up is a globally recognized issue that has come to the fore in the last ten years. There has been a rapid growth in the number of review articles on the topic. To prevent diffusion of knowledge and support future research it is necessary to gather the existing knowledge in a single place. The purpose of the present article is to bring together the existing reviews on speaking up to create a source of unified knowledge representing the current "State of the Art" to advance future research and practice. A State-of-the-Art review was conducted to synthesize the existing knowledge on speaking up. Six databases were searched. Fourteen review articles spanning 2012 to 2021 were identified. Five main research questions have been investigated in the literature and five common recommendations for improvement are made, the knowledge across all reviews related to the research questions and recommendations was synthesized. Additionally, simulation-based research was frequently identified as an important though limited method. Further issues in the literature are identified and recommendations for improvement are made. A synthesis was successfully developed: knowledge about speaking up and research related to speaking up is in an emergent state with more shortcomings, questions, and avenues for improvement than certitude. The whys and how of speaking up remain open questions.

Keywords: Challenging authority; Healthcare professional; Healthcare student; Interprofessional; Patient safety; Safety voice; Speaking up.

비서구 지역에서 의학 교수자의 전문직정체성형성(Med Teach, 2021)
Professional identity formation of medical teachers in a non-Western setting
Mardiastuti H. Wahida , Ardi Findyartinia , Diantha Soemantria , Rita Mustikaa , Estivana Felazaa, Yvonne Steinertb, Dujeepa D. Samarasekerac,d , Nadia Grevianaa , Rachmadya Nur Hidayahe, Umatul Khoiriyahf and Daniel Ardian Soeselog 

 

서론
Introduction

의학 교사는 의학 교육에서 전문가, 학자, 연구자, 지도자, 행정가, 교육자 등 다양한 역할을 한다. 연구는 이러한 역할들이 교수진 개발을 통해 어떻게 배양될 수 있는지를 보여주었다. 그러나 의학 교사의 직업적 정체성(이러한 역할의 중심)이나 이러한 정체성이 어떻게 형성되는지에 대해서는 거의 알려져 있지 않다. 
Medical teachers play multiple roles in medical education: expert, scholar, researcher, leader, administrator, and educator (Steinert 2014). Research has shown how these roles can be cultivated through faculty development (Bilal et al. 2019; Steinert et al. 2019). However, little is known about medical teachers’ professional identity—which is central to these roles—or how this identity is formed (Cantillon et al. 2019).

의학교사의 [정체성]은 학문적 역할과 책임, 진로, 동기와 만족도, 전문성 개발 기회 등에 대한 선택에 강력한 영향력을 행사하기 때문에 중요하다. Hafferty(2016)는 전문성 개발을 위해서는 '무엇을 하는가'(행동)보다는 '자신이 누구인가'(정체성)에 대한 강한 근거가 필요하다고 보았다. 교직원들은 가르치는 것과 배우는 것에서 탁월함을 성취하기 위해서는 교사로서의 자신의 정체성을 포용하고 그렇게 하는 데 도움을 받아야 한다.  
Medical teachers’ identities are important because they exert a powerful influence on choices regarding academic roles and responsibilities, career trajectory, motivation and satisfaction, and professional development opportunities. Hafferty (2016) found that professional development requires a strong grounding in ‘who one is’ (identity) rather than ‘what one does’ (behavior). To achieve excellence in teaching and learning, faculty members must embrace their identities as teachers and be supported in doing so (Steinert et al. 2019).

[정체성 형성]은 [다른 사람들과 전반적인 세계와의 관계에서 자신을 이해하는 것]을 포함한다. 의료 전문가들의 교사로서의 정체성은 [여러 맥락]에서 연구되어 왔다.

  • Van Lankveld 외 연구진(2017)은 학부 의학 교육에서 가르치는 [초기 경력 교수진]이 다른 역할(예: 연구자 및/또는 의사)과 관련하여 교사로서의 역할을 인식하고, 역할을 통합하기 위해 동적 서술을 사용한다는 것을 발견했다.
  • Steinert와 MacDonald(2015)는 [임상교사]로 근무하는 의사들의 직업 정체성을 조사하면서 교수 동기가 개인적, 도덕적, 사회적 요인에 의해 영향을 받고 교사로서의 임상의 정체성이 의사 정체성에 통합될 수 있다고 제안했다.
  • 다른 연구들은 임상 교사들이 [자아 개념]으로서의 정체성과 [관계 개념]으로서의 관계적 개념 사이에서 일관된 ['협상']을 경험하며, 환자 치료와 연구는 종종 가르치는 것보다 더 높은 우선순위로 인식된다고 보고했다.

Identity formation involves understanding oneself in relation to others and the world at large (Beauchamp and Thomas 2009). Healthcare professionals’ identities as teachers have been studied in several contexts.

  • Van Lankveld et al. (2017) found that early-career faculty members teaching in undergraduate medical education perceived their roles as teachers in relation to their other roles (e.g. researcher and/or medical doctor), and they used dynamic narratives to integrate their roles.
  • Steinert and MacDonald (2015), examining professional identity among physicians serving as clinical teachers, suggested that motivations for teaching are influenced by personal, moral, and social factors, and that clinicians’ identities as teachers can be integrated into their physician identities.
  • Other studies reported that clinical teachers experience a consistent ‘negotiation’ between identity as a self-concept and a relational concept, and that patient care and research are often perceived as higher priorities than teaching (Cantillon et al. 2019).

의학 교사들 사이에서 PIF(Professional Identity Formation)에 대해 알려진 것의 대부분은 서구 국가들의 임상 교사들에 대한 연구에서 나왔다. 비서양 환경의 기초 과학 및 임상 교사들 사이에서 PIF에 대해 알려진 것은 거의 없다. 종교적 신념, 가족 가치, 사회적 인식, 집단주의 강조 등 [비서구 문화의 두드러진 특징]과 함께 비서구 문화에서 전문성 프레임워크(PIF의 기초가 되는 규범을 포함)가 어떻게 다른지에 대한 최근의 설명을 고려할 때, 의학 교사들 사이에서 PIF를 탐구하는 것이 중요하다서양이 아닌 곳에서. 우리는 다음과 같은 연구 질문을 다루었다:  서양이 아닌 환경에서 기초 과학과 임상 교사들 사이에서 직업적 정체성은 어떻게 형성되는가?
Most of what is known about professional identity formation (PIF) among medical teachers has emerged from research on clinical teachers in Western countries (e.g. Beauchamp and Thomas 2009; Steinert and MacDonald 2015; van Lankveld et al. 2017; Cantillon et al. 2019). Little is known about PIF among basic science and clinical teachers in non-Western settings. Given recent descriptions of how professionalism frameworks (which encompass the norms underlying PIF) differ in non-Western cultures (Al-Rumayyan et al. 2017; Nuttman-Schwartz 2017), along with salient characteristics of non-Western cultures, including religious beliefs (Al-Eraky et al. 2014), family values, societal recognition (Nishigori et al. 2014), and an emphasis on collectivism, it is important to explore PIF among medical teachers in a non-Western setting. We addressed the following research question: how does professional identity form among basic science and clinical teachers in a non-Western setting?

이 연구는 [한 사람이 그 가치와 규범을 내재화하여 특정 사회나 집단 내에서 기능을 배우는 방법]을 기술하는 [사회화 이론]에 의해 알려졌으며, Cruess et al(2015)에 의해 의학교육을 위해 도식적으로 표현되었다. 이 저자들은 여러 요소가 전문적 정체성 형성(PIF)에 영향을 미치며, 가장 강력한 요소에는 [역할 모델, 멘토, 경험적 학습]이 있다고 말했다. 그러나, 그들은 또한 [가족과 동료들의 영향력]을 강조했고, [개인 정체성]이 PIF에서 역할을 한다고 강조했다. 또한 이 과정에서 [개인적 변혁, 집단 가치와 규범의 전달, 집단 정체성의 발달]이 필수적이다. Cruess et al(2015)이 설명한 프레임워크가 학부 및 대학원 의학교육을 위해 구체적으로 제안되었지만, [이 과정의 포괄적인 성격]과 [의과대학이 전문직의 스탠다드를 배우고 모범적인 직업행동을 보여주는 장으로 기능한다는 관측]을 고려할 때 의학교사의 PIF에도 적용될 수 있을 것으로 본다.
This study was informed by socialization theory, which describes how a person learns to function within a particular society or group by internalizing its values and norms (Hafferty 2016) and has been represented schematically for medical education by Cruess et al. (2015). These authors stated that multiple factors influence professional identity formation (PIF), with the most powerful including role models, mentors, and experiential learning. However, they also highlighted the influence of family and peers, and stressed that personal identities play a role in PIF. In addition, personal transformation, the transmission of group values and norms, and the development of a group identity are essential to this process (Hafferty 2016). Although the framework described by Cruess et al. (2015) was proposed specifically for undergraduate and postgraduate medical education, we believe that it can apply to medical teachers’ PIF, given the comprehensive nature of this process and the observation that medical schools function as venues for learning the professions’ standards and exhibiting exemplary professional behaviors (Hafferty 2016).

방법들
Methods

맥락
Context

이 연구는 인도네시아에서 수행되었다. 세계에서 가장 많은 무슬림 인구를 가진 인도네시아는 광대한 지리적 지형과 다양한 사회 문화적 맥락에 걸쳐 2억 5천만 명 이상의 인구가 분포되어 있다. 인도네시아에는 93개의 공립 및 사립 의과대학이 있으며, 모두 인도네시아 보건 고등교육 인증 기관의 인가를 받았다. 
This study was conducted in Indonesia. With the world’s largest Muslim population, Indonesia has over 250 million people distributed across a vast geographical landscape and diverse sociocultural contexts. Indonesia has 93 public and private medical schools, all accredited by the Indonesian Accreditation Agency for Higher Education in Health.

설계 및 연구 참가자
Design and study participants

우리는 의학교사를 대상으로 PIF의 과정을 탐색하는 질적 서술 연구를 수행했다. A급 인증을 받은 의과대학이 선정되었는데, 이는 해당 학교가 자격을 갖춘 교직원을 보유한 교수병원을 설립했음을 의미하기 때문이다. 우리는 기금, 조직 구조 및 보상 시스템의 차이를 반영하기 위해 2개의 공립 의대(FMUI와 FMPHNUGM)와 2개의 사립 의대(FMUII와 FMUNIKA Atmajaya)를 의도적으로 선정했다. 
We conducted a qualitative descriptive study (Sandelowski 2000) exploring the process of PIF among medical teachers. Medical schools with A-level accreditation were selected, as this level indicates that the school has established teaching hospitals with qualified faculty members. We purposively selected two public medical schools (FMUI and FMPHNUGM) and two private medical schools (FMUII and FMUNIKA Atmajaya) to reflect differences in funding, organizational structures, and reward systems.

각 학교의 교직원은 성별, 학과, 교수경력(10년 이하 또는 10년 이상), 전문적 배경을 고려하여 최대 변동표본추출을 통해 선발되었다. 대부분의 기초과학 교사들은 의학박사 학위와 생물의학 석박사 학위를 가지고 있었다. 임상 교사에는 임상 과학 박사 학위를 보유한 전문가, 하위 전문가 및 개인이 포함되었습니다. 모든 참가자들은 정보에 입각한 동의를 했다.
Faculty members from each school were selected through maximum variation sampling, accounting for gender, departments, teaching experience (<10 years or ≥10 years), and professional backgrounds. Most basic science teachers had an MD and a master’s/doctorate degree in biomedical sciences. Clinical teachers included specialists, subspecialists, and individuals holding doctorates in clinical sciences. All participants gave informed consent.

데이터 수집
Data collection

각 의대에서 4개의 포커스 그룹 토론(FGD)을 수행했으며 FMUI에서 1개의 FGD를 추가했다. 포커스 그룹 질문은 Cruess 외 연구진(2015)이 요약한 사회화 과정을 통해 알려졌으며 의학 교사 간 PIF에 대한 이전 연구에서 수정되었다. FGD 질문(예: 다른 사람에게 자신을 어떻게 소개합니까?)? 다른 사람들이 당신을 어떻게 보는 것 같아요? 시간이 지남에 따라 자신에게 어떤 변화가 있다고 보십니까?)는 부록 1에 포함되어 있습니다. 우리는 각각의 토론을 조정하고, 기록하고, 기록했다.
We conducted four focus group discussions (FGDs) in each medical school, with one additional FGD at FMUI. Focus group questions were informed by the socialization process outlined by Cruess et al. (2015) and adapted from previous studies on PIF among medical teachers (e.g. Steinert and Macdonald 2015; van Lankveld et al. 2017). The FGD questions (e.g. How do you introduce yourself to others? How do you think others see you? What changes do you see in yourself over time?) are included in Appendix 1. We moderated, recorded, and transcribed each discussion.

Appendix 1. Professional identity formation of Indonesian medical teachers: focus groups questionsOpening questions:
  1. Can you tell us briefly about your career as a teacher?
    1. How did you start teaching?
    2. Who do you teach? Medical students? Residents?
    3. In what context do you teach?
    4. What type of teaching do you do?
  2. Why do you teach?
    1. What does teaching mean to you? Why is it important?
    2. What motivates you to teach?
    3. Why do you make time to teach?
    4. How did you learn to teach?
Main questions (professional identity formation)
  1. How do you introduce yourself to others?
    1. Personally and professionally?
    2. Do you introduce yourself as a teacher, researcher, or doctor?
    3. Why do you introduce yourself as mentioned?
    4. What is the proportion of all roles—teacher vs. researcher vs. doctor?
  2. What kind of activity/role/job/task makes you feel like a teacher?
  3. Thinking about your teaching career so far:
    1. Can you elaborate on the periods when you felt less confident? What factors contributed?
    2. Can you elaborate on the periods when you felt more confident? What factors contributed?
  4. How do you think others see you?
    1. How do you think others see your profession?
    2. How do you think others see teachers?
    3. How do others’ opinions impact you?
  5. What acknowledgements and opportunities do you get as a teacher?
    1. Do these acknowledgements and opportunities match your expectations?
  6. What changes do you see in yourself over time?
  7. Can you imagine yourself not being a teacher?
    1. What may cause you to leave teaching?
    2. Would you miss teaching?
  8. How do you think your experiences impact yourself as a teacher?
    1. Have you reflected on your role as a teacher so far? Do you mind sharing it?
  9. How do you think your surroundings impact your role as a teacher?
    1. Do your surroundings support you as a teacher? Why?
    2. Do your surroundings inhibit you as a teacher? Why?
    3. How do role models impact you?
    4. How do communities of practice impact you?
      1. When do you feel accepted as part of the teacher community?
      2. What makes you feel that way?
      3. Has anything happened otherwise?
    5. How does membership in a professional organization impact you?
    6. How do colleagues impact you?
    7. How do faculty development programs impact you?
    8. How does the working environment specifically impact you?
Closing questions
  1. Thinking of your career so far, is there anything you would like to change?
  2. How do you see yourself 5–10 years in the future?
  3. If you have to provide support for junior teachers, how would you advise them?

 

데이터 분석
Data analysis

우리는 새로운 주제와 하위 주제를 식별하기 위해 포커스 그룹 데이터에 대한 주제 분석을 수행했다. 각 포커스 그룹의 데이터는 해당 세션의 진행자 및/또는 스크립터에 의해 분석되었습니다. 4명의 저자(MW, AF, DS, EF)는 모든 저자가 조정한 FGD를 기반으로 다른 대본에 대한 주제 분석을 수행하기 전에 핵심 주제와 하위 주제를 식별하고 논의하기 위해 처음 두 대본에 대해 독립적인 주제 분석을 수행했다. 모든 데이터 수집 및 분석은 저자(4개 의과대학 소속 인도네시아 의학교육자)가 모든 저자와 광범위한 토론을 통해 종합적인 결과를 얻었다.
We performed thematic analysis (Clarke and Braun 2017) on the focus group data to identify emerging themes and subthemes. The data from each focus group were analyzed by the moderator and/or scribe for that session. Four authors (MW, AF, DS, EF) conducted independent thematic analysis on the first two transcripts to identify and discuss core themes and subthemes before all authors performed thematic analysis on the other transcripts based on the FGDs they had moderated. All data collection and analysis were conducted by the authors (Indonesian medical educators affiliated with the four medical schools) with extensive discussions with all authors to obtain comprehensive results.

결과.
Results

우리는 기초과학 60명과 임상교사 59명과 함께 17개의 FGD를 실시했다. 기초과학 교사의 68.3%(n=41), 임상 교사의 64.4%(n=38)로 여성이 가장 많았다. 대부분의 기초과학 교사들은 박사 학위 외에도 기초과학 석사 또는 박사 학위(각각 24/60(40%)와 23/60(38%)를 보유하고 있었다. 대부분의 임상 교사들은 전문가(29/59[49%]) 또는 하위 전문가(25/59[42%])를 보유하고 있었다. 주제분석을 바탕으로 내재가치와 외부영향 사이의 내적 대화, 초기 사회화를 통한 권한 부여, 경험적 직장학습, 미래 구상 등 4가지 주요 주제를 확인하였다. 각 테마에 제공된 인용문 뒤에는 임상/기초 과학 교사(CT/BST), 디코딩된 이니셜(M, TJ 등), 기관(1-4번) 등의 인용된 참가자에 대한 세부 정보를 참조하는 코드가 뒤따른다. 
We conducted 17 FGDs with 60 basic science and 59 clinical teachers. Most participants were female: 68.3% (n = 41) of basic science teachers and 64.4% (n = 38) of clinical teachers. Most basic science teachers held a Master’s or PhD degree in basic sciences—24/60 (40%) and 23/60 (38%), respectively—in addition to their MD. Most clinical teachers held specialist (29/59 [49%]) or subspecialist (25/59 [42%]) degrees. Based on the thematic analysis, we identified four major themes: an internal dialogue between intrinsic values and external influences; empowerment through early socialization; experiential workplace learning; and envisioning the future. The quotes provided in each theme are followed by codes which refer to details for the cited participant: clinical/basic science teacher (CT/BST), decoded initials (M, TJ, etc), and institution (number 1–4).

내재적 가치와 외부 영향 사이의 내부 대화
An internal dialogue between intrinsic values and external influences

의학 교사들 사이의 PIF는 내재적 가치, 직업 선호, 종교적 신념 및 기타 요인(예: 이전 교수 경험, 가족 배경 및 지원, 사회적 인식 및 기타 요인)에 대한 [역동적 내부 대화]에 의해 시작되었다.
PIF among medical teachers was initiated by a dynamic internal dialogue on intrinsic values, career preferences, religious beliefs, and other factors (e.g. prior teaching experiences, family background and support, societal recognition, and the influence of others).

일부 교사들은 [가르치는 것이 더 성취감이 있다]고 느꼈기 때문에 임상 실습보다 전일제 수업을 선호했다; 다른 사람들은 의대를 졸업할 때 '계획'이 부족했다고 보고했고, 그것이 그들에게 [초기 경력 단계에서 제시]되었을 때 가르치는 것을 고려했다: 

Some teachers preferred full-time teaching to clinical practice, as they felt that teaching was more fulfilling; others reported that they had lacked a ‘plan’ upon graduation from medical school and considered teaching when it was presented to them at an early career stage:

…전임 임상의가 되는 것은 지루할 것이라고 생각합니다. 의학 교사가 되는 것: 가르치고, 의학을 실천하고, 연구를 하는 것이 더 성취감을 줄 것이다… (CTM4)
…I think being a full-time clinician will be boring. Being a medical teacher: teaching, practicing medicine, and also doing research, will be more fulfilling… (CTM4)

참가자들은 또한 그들의 [종교를 실천하는 것]이 가르치는 데 동기부여가 되었다고 보고했다. [가르침은 종교적 실천의 한 형태]로 간주되었고 신으로부터 '보상'을 얻기 위한 헌신으로 여겨졌다:
Participants also reported that practising their religion was a motivation for teaching. Teaching was seen as a form of religious practice and devotion to obtaining ‘reward’ from God:

나에게 있어서 그것은 자선이다. 우리가 씨앗 하나를 심으면 그것은 자라고 70개의 열매를 맺을 것이다. 그것은 항상 우리의 선행으로 성장할 것입니다. (CTY3)
For me, it (teaching) is a charity. Like we plant one seed and it will grow and produce 70 fruits. It will always grow as our good deeds. (CTY3)
…우리는 내가 더 이상 가르치지 않을 때에도 계속 흐르는 하나님으로부터 '보상'을 받을 것이다. 임상의들은 환자들만 가르치지만, 우리는 교사로서 학생들을 가르치고, 만약 그들이 교사가 된다면, 그들은 다른 학생들을 가르칠 것이다… (BSTJ3)
…We will get the ‘reward’ from God, which will keep flowing even when I am not teaching anymore. Clinicians only teach patients, but as teachers we teach students, and if they become teachers, they will teach other students… (BSTJ3)

또 다른 동기는 [일과 삶의 균형]을 이루는 것이었는데, 특히 아내와 어머니로서의 역할의 균형을 추구하는 여성 교직원들에게 그러했다:

Another motivation was achieving a work-life balance, especially for female faculty members, who also sought to balance their roles as wives and mothers:

나는 선생님이라는 직업이 가족 친화적이라고 느꼈다. 그때쯤 아기를 낳았는데, 전문적인 공부를 하면 가족들에게 불공평할 거라고 상상했어요. (BSTN3)
I felt that the work as a teacher is family-friendly. By then I had a baby, and I imagined that if I took a specialist study, it would be unfair to my family. (BSTN3)

[이전의 교수 경험]과 [가족 또는 과거 교사에 의한 역할 모델링]은 [외부 영향]으로 확인되었다:
Prior teaching experiences and role-modelling by family or past teachers were identified as external influences:

외할머니, 외삼촌, 이모들은 선생님이었고 가족의 대다수는 선생님이었다. 어머니와 아버지도 한때 선생님이었다. 그래서 아마도 집안에서 물려받은 것 같다. (BSTDJ4)
Apparently my grandmother, my uncles and aunts, were teachers and the majority of my family were teachers…my mother and father were once teachers also… so perhaps it was inherited in the family … (BSTDJ4)

다른 외부적 영향에는 [다양한 보상과 인센티브]가 포함되었다: 돈과 사회적 인정 둘 다. 교사로서, 참가자들은 정부, 환자, 그리고 더 넓은 [사회에 의해 '신뢰받는' 전문적인 네트워크]에 포함된다고 느꼈다; 다른 방식으로, 그들은 [사회적으로 인정] 받는다고 느꼈다.
Other external influences included various rewards and incentives: both money and societal recognition. As teachers, participants felt included in a professional network ‘trusted’ by the government, patients, and broader society; in different ways, they felt socially recognized.

전문가 커뮤니티가 국가 차원의 규제]를 만들어야 할 때, 우리는 [교사로서] 의학에 대한 최신 증거를 가지고 더 지식이 풍부하고 최신의 것으로 가정한다. 우리는 국내 및 국제 수준에서 신뢰를 받고 있습니다(CTAFK1).
When the community of professionals needs to create regulations at the national level, we [as teachers] are assumed to be more knowledgeable and updated, with the latest evidence in medicine. We are trusted at the national and international levels (CTAFK1).

환자들은 제가 가르치는 것을 알면, 제가 더 지식이 있는 것처럼 저를 다르게 봅니다.(CTH4)
When patients know that I teach, they see me differently, as if I were more knowledgeable.(CTH4)

초기 사회화를 통한 권한 부여
Empowerment through early socialization

참가자들은 교사로서의 직업적 정체성의 [초기 발전]에 있어 동료, 학생, 교수진 개발 프로그램의 영향 등 몇 가지 요소를 언급했다. 그들은 [역할 모델과의 상호작용]에서 배우는 것을 보고했고, [선배 동료]들을 따라함으로써 교사의 역할에 대해 더 잘 이해할 수 있었다고 말했다. 게다가, 교사들은 그들의 정체성을 형성하는 데 있어 [교사 공동체]로부터의 수용의 중요성에 주목했다:
Participants mentioned several factors in the early development of their professional identities as teachers: the influence of peers, students, and faculty development programs. They reported learning from their interactions with role models, stating that they gained a better idea of teachers’ roles by shadowing senior colleagues. In addition, teachers noted the importance of acceptance from the teacher community in forming their identities:

내가 학과에 들어갔을 때, G박사는 나보다 훨씬 선배였지만, 그는 나를 따뜻하게 맞아주었다. 그는 후배와 선배 사이에 틈을 만들지 않았다. 바로 합격한 기분이었어요
When I joined the department, Dr. G was far more senior than me, but he welcomed me warmly. He was not creating any gaps between junior and senior [faculty members]. I felt accepted right away. (CTAL4)

[학생들과의 상호작용]은 또한 교사로서의 참가자들의 정체성을 강화시켰다:
Interactions with students also strengthened participants’ identities as teachers:

[학생들]을 촉진하고 평가하면서, 나는 [교사가 되는 것]을 매우 느낀다. 왜냐하면 상호작용과 지식의 공유가 있기 때문이다. (BSTH2)
Facilitating, assessing [students], I feel it [becoming a teacher] very much, because there is an interaction and sharing of knowledge. (BSTH2)

참가자들은 초기에 자신감을 쌓기 위해 [전문 지식을 얻는 것]을 우선시했다. 바이오메디컬/임상 콘텐츠 전문성에 초점을 맞춘 교수진 육성 프로그램과 교수 능력 향상이 교사로서 인정받는 느낌을 주는 데 도움이 됐다.
Participants prioritized gaining expertise to build confidence early on. Faculty development programs focused on biomedical/clinical content expertise and teaching skills enhancement helped them feel recognized as teachers.

성인 학습 개념에 대한 교육에서부터 교사를 위한 공개 연설 워크숍에 이르기까지, [대학이 우리에게 중요한 문제들을 준비시키기 위해 제공하는 워크숍들]이 있다. 의대 수준의 교수진 육성 프로그램도 있어 유능한 의대 교사가 될 수 있고, 개인적으로 상당히 유익하다고 생각한다. (BSTL3)
There are workshops that the university provides for teachers to equip us with important issues, from training about adult learning concepts to public speaking workshops for teachers. There are also faculty development programs at the medical school level, which helps us become competent medical teachers, and which I personally find quite beneficial. (BSTL3)

체험형 직장학습
Experiential workplace learning

참가자들은 교사로서의 다양한 역할(교사, 연구, 지역사회 서비스, 역할 모델링)에 '던져짐'이 교사로서의 정체성을 강화했다고 보고했습니다:
Participants reported that ‘being thrown into’ their multiple roles as teachers—teaching, research, community service, role modelling—strengthened their identities as teachers:

저는 처음부터 정식으로 부속병원 임상교사가 되었습니다. 나는 환자를 돌보고, 연구를 하고, 임상 학생들을 감독한다(CTP62)
Since the beginning, I was formally assigned to become a clinical teacher in the affiliated hospital. I take care of patients, doing research and supervising clinical students (CTP62)
고등학교 졸업생들을 학부 과정에서 가르치는 것은 저에게 정말 힘이 됩니다. 우리는 학생들의 기초적인 사고를 돕기 위해 내용을 가르치는 것 이상의 경험을 공유할 필요가 있다. (CTAM1)
Teaching high-school graduates in the undergraduate program is really encouraging for me. We need to share experiences more than only teach the content to help students with their foundational thinking. (CTAM1)

그러나 일부 참가자들은 여러 역할을 수행하는 과정에서 교사로서의 가치관이 낮아졌다고 보고했습니다. 동료들의 지원은 그들을 격려하고 교사로서의 정체성을 강화시켰다:
However, in performing multiple roles—and sometimes becoming frustrated in the work environment due to unmet expectations—some participants reported a lower sense of worth as teachers. Support from peers encouraged them and reinforced their identities as teachers:

…비공식적인 공유 세션이 있었습니다. 9개의 센터가 있었고, 우리는 모든 회원들과 수업의 문제점을 논의했습니다. 이는 우리가 무엇을 하고 있었는지 이해하는 데 큰 도움이 되었습니다(CTP12)
…There was an informal sharing session. There were 9 centers and we discussed problems in teaching with all members. It really helped us understand what we were doing (CTP12)

또한, [학생들에게 미치는 영향을 관찰하고, 지역사회와 학생들로부터 감사를 얻음]으로써 학생들의 자기효능감과 가치를 향상시켰다:
Furthermore, observing their impact on students and gaining appreciation from the community and the students enhanced their sense of self-efficacy and worth:

…졸업생들이 의료 활동에서 성공한다는 것을 아는 것은 보람 있는 일입니다. 이전 학생들로부터 환자 소개를 받을 때, 저는 감사함을 느낍니다. (CTS1)
…Knowing graduates succeed in their medical practice is rewarding. When I receive a patient referral from my former students, I feel appreciated… (CTS1)

미래를 상상하는 것
Envisioning the future

[미래를 그리는 것]은 개인적이고 전문적인 발전을 위한 계획과 차세대 의학 교사를 개발하는 것을 포함하는 정체성 형성의 필수적인 부분을 형성했다. 참가자들은 PIF에서 평생 학습에 통합된 [추가적인 전문적 개발을 위한 계획]을 중요한 요소로 고려했습니다. 경력 성장의 다른 측면(예: 학문적 홍보, 연구 수행, 보조금 확보, 교수 및 혁신)도 의학 교사로서의 정체성을 유지하는 데 중요한 것으로 언급되었다.
Envisoning the future formed an integral part of identity formation, encompassing planning for personal and professional development and for developing the next generation of medical teachers. Participants considered planning for further professional development—integrated within lifelong learning—to be a critical ingredient in PIF. Other aspects of career growth (e.g. academic promotions, conducting research, securing grants, teaching, and innovating) were also mentioned as important for sustaining their identities as medical teachers.

…저는 제 분야에서 더 많은 연구를 하기 시작했습니다. … 저는 박사 연구를 하기 위해 다가오는 학생들과 젊은 의학 선생님들을 위한 연구 보조금을 찾는 것이 제 역할이라고 생각합니다… (BSTN1)
…I started to do more research [in my field]. … I think it is my role to find research grants for the upcoming students and younger medical teachers to do doctoral research… (BSTN1)

참가자들은 그들의 진로를 계획하는 것 외에도, 그들의 웰빙을 유지하고 향상시킬 필요성을 언급했다. 그들은 가족과 더 많은 시간을 보내고, 시간 관리를 개선하고, 개인적이고 직업적인 삶에서 더 큰 안전을 달성하고, 의학 교사로 발전하는 동안 사회에 더 많이 기여하기를 원했다.
In addition to planning their careers, participants mentioned the need to maintain and enhance their wellbeing. They wanted to spend more time with family, improve time management, achieve greater security in their personal and professional lives, and contribute more to society while developing as medical teachers.

…저는 다른 학회에서 온 많은 환자들이 우리가 가지고 있지 않은 건강 보험 제도를 가지고 있는 것을 보았습니다. 임상 교사로서 우리의 웰빙에 대해서도 생각해 볼 필요가 있다고 생각합니다. (CTDH1)
…I saw many patients of mine from other academic communities have health insurance schemes, which we don’t have. I think that we as clinical teachers also need to think about our wellbeing… (CTDH1)

참가자들은 또한 그들의 학생들이 성공적으로 [의학 선생님이 되는 길을 따르는 것]을 보았을 때 의학 선생님으로서 가장 성취감을 표현했다.
Participants also expressed feeling most fulfilled as medical teachers when they witnessed their students successfully following their path to becoming medical teachers.

선생님이 되는 것의 가장 높은 성취는 [누군가가 선생님이 되고 싶고 우리의 길을 따르기를 원할 때]이다; 그것은 가장 높은 성취인 동기이다.(BSTJ3)

The highest achievement of being a teacher is when someone wants to be a teacher and follow our path; that is the highest achievement – the motivation. (BSTJ3)

논의
Discussion

우리는 의학 교사들 사이의 PIF가 네 가지 요소로 특징지어진다는 것을 발견했다:

  • 의학 교사들이 가르치도록 동기를 부여하는 내재적 가치와 외부 영향 사이의 내면적 대화,
  • 그들이 이 역할을 수행할 수 있도록 권한을 부여하는 초기 사회화 과정,
  • 그들의 선택을 강화하는 경험적 직장 학습,
  • 그들의 교사 커리어를 강화하기 위한 미래를 구상.

이러한 주제들은 서양 환경에서 의학 교사들 사이에서 PIF가 그렇듯이, 이러한 맥락에서 PIF는 지속적이고 역동적인 과정임을 시사한다. 그 과정은 기초과학과 임상 교사들에게도 유사하다. 우리의 연구는 문헌에서 [이전에 확인되지 않은 몇 가지 요인], 즉 [종교적 가치, 가족의 영향, 사회적 인식의 역할], 그리고 이러한 요인들이 의학 교사가 되기 위한 결정에 어떤 영향을 미치는지에 대해 기여한다. 미래를 상상하는 것은 또한 의학 교사들에게 PIF의 중요한 구성 요소이다. 또한, 우리는 FD 프로그램이 PIF를 해결하도록 장려하는 것에 대한 스타이너트 외 연구진(2019)의 몇 가지 제안을 뒷받침하는 경험적 증거를 제공한다.
We found that PIF among medical teachers was characterized by four factors:

  • an internal dialogue between intrinsic values and external influences that motivates medical teachers to teach;
  • a process of early socialization that empowers them to perform this role;
  • experiential workplace learning that reinforces their choice; and
  • envisioning their future to strengthen their teaching careers.

These themes suggest that PIF in this context is a continuous and dynamic process, as is PIF among medical teachers in Western settings (Steinert and MacDonald 2015; van Lankveld et al. 2017; Cantillon et al. 2019). The process is also similar for basic science and clinical teachers. Our study contributes several factors not previously identified in the literature: the role of religious values, family influences, and societal recognition, and how these factors influence the decision to become a medical teacher. Envisioning the future is also a critical component of PIF for medical teachers. In addition, we provide empirical evidence supporting several suggestions by Steinert et al. (2019) on encouraging FD programs to address PIF.

Hafferty(2016)가 설명하고 Cruess et al(2015)이 명시한 [사회화 과정]은 본 연구에 강하게 반영되어 있다. 예를 들어, 우리의 참가자들은 [기존의 정체성과 그들의 개인적 가치]가 PIF 프로세스를 시작한 그들의 [전문적 역할]과 어떻게 일치하는지에 대한 내부 대화를 강조했다(Cruess et al. 2015). 게다가, 그들의 동기는 [열정과 종교적 신념, 과거의 역할 모델, 그리고 이전의 교수 경험]에 의해 inform되었다. [미래 세대의 의료 전문가들을 가르치고 발전시키려는 열정]은 교직을 선택하는 데 중요한 요소로 보고되었다. 다른 연구와 마찬가지로, 우리는 또한 [이전의 교수 경험과 역할 모델에 대한 노출]을 잠재적으로 교수 동기를 향상시키는 중요한 요인으로 식별했다.
The socialization process, as described by Hafferty (2016) and articulated by Cruess et al. (2015), is strongly reflected in this study. For example, our participants highlighted existing identities and an internal dialogue about how their personal values might fit with their professional roles that initiated the PIF process (Cruess et al. 2015). Furthermore, their motivations were informed by passion and religious beliefs, past role models, and prior teaching experiences. A passion to teach and develop future generations of healthcare professionals has been reported as a critical factor in choosing a teaching profession (Steinert and Macdonald 2015). Similar to other studies, we also identified previous teaching experiences and exposure to role models as significant factors that potentially enhance teaching motivations (Coldron and Smith 1999).

우리는 [종교적인 믿음] 또한 이 과정에서 역할을 한다는 것을 발견했다; 가르치는 것은 매일 선행을 실천할 수 있는 기회로 인식되었다. 인도네시아처럼 무슬림이 다수인 아랍 국가에서는 종교적 가치와 하나님에 대한 믿음이 의료 전문성의 구성으로 보고되고 있다. [강력한 가족 관계]는 또한 집단주의 문화에서 개인이 내리는 결정의 근본적인 요소로 언급되어 왔다. 본 연구에서는 여의사이 진로선택 시 가족의 책임을 고려하였다. 또한, 가족 역할 모델(교사)은 참가자들이 의학 교사가 되도록 동기를 부여했다.
We found that religious beliefs also play a role in this process; teaching was perceived as an opportunity to practice good deeds daily. Religious values and faith in God have been reported as a construct of medical professionalism in Arab countries with Muslim majorities (Al Eraky et al. 2014), as in Indonesia. Strong family ties have also been cited as a fundamental factor in decisions made by individuals in a collectivist culture (Hofstede 2010). In this study, female medical teachers deliberately considered family responsibilities when choosing their career paths. In addition, family role models (also teachers) motivated participants to become medical teachers.

[사회화 과정]은 참가자들이 자신의 전문 분야에서 [선배 동료들을 따라다니며 교수 경력을 시작할 때]도 분명했다. 이러한 초기의 [합법적인 주변적 참여]는 그들에게 '그들이 누구인지'와 '그들이 무엇이 될 수 있는지'를 보여줌으로써, 그들의 직업적 정체성을 협상하는 데 도움을 주었다. 임상교사의 정체성 형성에 있어 근무환경의 역할도 두드러졌는데, 교수병원에서 근무하면 학생들과의 참여가 가능하고 지속적인 전문성 개발이 가능했기 때문이다.
The socialization process was also evident when participants began their teaching careers, shadowing senior colleagues, teaching and conducting research in their area of expertise. This early legitimate peripheral participation (Lave and Wenger 1991) helped them negotiate their professional identities by showing them ‘who they are’ and ‘what they can be’ (Cantillon et al. 2019). The role of the work environment in identity formation for clinical teachers was also notable, as working in teaching hospitals enabled engagement with students and continuing professional development.

[교수진 개발 참여]와 [학생 및 동료와의 교류]를 통해 교사의 정체성이 더욱 공고해졌다. 서로에게 배울 수 있는 기회를 갖는 것은 선생님들이 가르치는 것에 대한 진정한 소명을 상기시켰고 그들이 가르치는 공동체의 일부로서 발전할 수 있도록 해주었다. 우리의 참가자들은 가르치는 수입이 꽤 낮을 수 있다는 것을 알고 있었지만, 전문적으로 성장하고, 미래의 건강 전문가를 개발하고, 일과 삶의 균형을 이루는 것이 매우 귀중한 보상이라는 것에 동의했다. 우리의 참가자들은 또한 전문 단체, 정부, 환자들의 의학 선생님들에 대한 [사회적 인정]을 동기 부여 보상으로 강조했다. 이 발견은 이러한 환경에서 의학 교사들 사이의 PIF가 [집단주의적 가치]에 비해 [개인주의적 가치]에 더 강한 초점을 둔 서구 환경보다 더 강력한 [사회적 기반]을 가질 수 있음을 시사한다.
Teachers’ identities were further solidified through participating in faculty development and interacting with students and colleagues. Having opportunities to learn from each other reminded teachers of their true calling to teach and allowed them to develop as part of a teaching community (Wenger 1998; Buckley et al. 2019). While our participants knew that teaching incomes could be quite low, they agreed that growing professionally, developing future health professionals, and achieving a work-life balance constituted invaluable rewards. Our participants also underlined societal recognition of medical teachers from professional organizations, the government, and patients as motivating rewards. This finding suggests that PIF among medical teachers in this setting may have a stronger social basis than in Western settings with a stronger focus on individual values as compared to collectivist values (Helmich et al. 2017).

우리의 연구 결과는 [미래를 상상하는 것]이 PIF를 강화할 수 있다는 것을 보여주었다. 참가자들은 평생학습과 개인의 안녕이 그들의 미래 직업 발전과 진로의 불가분의 측면이라고 입을 모았다. 흥미롭게도, 이 발견은 초기 사회화 및 직장 학습과 관련된 것들과 함께 벵거-트레이너와 벵거-트레이너(2015)가 강조한 identification의 모드, 즉 [참여, 상상 및 정렬]과 일치한다. 이러한 세 가지 모드는 교수진 개발(FD) 프로그램의 설계 및 제공에서도 고려될 수 있다. 예를 들어, 초기에 FD는 [코칭 세션]을 포함하여 교사들이 [내부 대화를 탐색]하고, [커뮤니티에 참여]할 수 있도록 장려할 수 있습니다. 교수법에 대한 교육은 [직장 기반 학습, 역할 모델링 및 동료 멘토링]과 함께 [경험적 학습 과정]을 지원하여 [소속감을 강화]할 수 있다. 마지막으로, FD는 의사 선생님들이 그들의 [개인적이고 전문적인 미래를 성찰]하도록 장려할 수 있으며, 이것은 그들의 웰빙과 경력 개발을 향상시킬 수 있다.
Our findings demonstrated that envisioning the future can strengthen PIF. Participants agreed that lifelong learning and personal wellbeing were inseparable aspects of their future professional development and career trajectory. Interestingly, this finding, together with those related to early socialization and workplace learning, maps on to the modes of identification highlighted by Wenger-Trayner and Wenger-Trayner (2015): engagement, imagination, and alignment. These three modes could also be considered in the design and delivery of faculty development (FD) programs. For example, initially, FD could involve coaching sessions, encouraging teachers to explore their internal dialogue and help them engage in the community. Training on teaching methods could support experiential learning processes, along with workplace-based learning, role-modelling, and peer mentoring, to strengthen a sense of belonging. Finally, FD could encourage medical teachers to reflect on their personal and professional future, which might enhance their sense of well-being and career development (Douma et al. 2017; Huey and Palaganas 2020).

이 연구는 FD에 대한 추가적인 시사점을 가지고 있다. 

  • 첫째, [교수개발]은 의학 교사의 PIF에 영향을 미치는 [사회화 과정]의 일부로 보인다. 
  • 둘째, [직장학습]은 의사선생님들이 [자신의 역할을 실현]하고, 다른 선생님들과 [함께 참여]할 수 있도록 도와주기 때문에, FD에서 매우 중요하다.
  • 셋째, FD 프로세스의 [관계적 특성]을 고려할 때 [사회적 학습]을 강조하는 FD 모델을 고려해야 한다.

This study holds additional implications for FD.

  • First, FD appears to be part of the socialization process that influences PIF for medical teachers.
  • Second, workplace learning is critical in FD, as it helps medical teachers actualize their roles and engage with other teachers.
  • Third, given the relational nature of FD processes, models for FD that emphasize social learning should be considered.

이 연구에는 몇 가지 한계가 있다. 그것은 오직 한 나라의 특정 의대에서 PIF를 조사한다. 따라서, 우리의 발견은 맥락에 따라 다를 수 있다. 또한, 우리의 대부분이 여성인 표본은 의학 선생님이 되는 주된 이유가 가족 친화적인 것과 관련이 있다는 우리의 발견에 영향을 미쳤을 수도 있다. 본 연구는 또한 한 시점에서 포커스 그룹을 활용하였다. 시간이 지남에 따라 심층 인터뷰는 더 미묘한 결과를 산출했을 수 있다.
This study has several limitations. It examines PIF in specific medical schools in only one country. Thus, our findings might be context specific. As well, our mostly female sample may have influenced our finding that a primary reason for becoming a medical teacher related to it being more family-friendly. This study also utilized focus groups, at one point in time. In-depth interviews, over time, may have yielded more nuanced findings.

추가 연구는 다른 비서구적 환경에서 의학 교사의 PIF가 유사성 또는 차이점을 드러낼지 여부를 탐구해야 한다. 문화 전반에 걸쳐 그리고 시간이 지남에 따라 PIF에 대한 추가 이해를 강화하기 위한 복제 연구는 가치가 있을 것이다. 또한 FD 프로그램이 의학 교사의 PIF에 어떻게 영향을 미칠 수 있는지 탐구하기 위해 설계된 연구는 기초 과학 및 임상 교사를 위한 다양한 FD 전략을 체계화하는 데도 중요할 것이다.
Further research should explore whether the PIF of medical teachers in other non-Western settings would reveal similarities or differences. A replication study to enrich further understanding of PIF across cultures—and over time—would be worthwhile. Additionally, studies designed to explore how FD programs can influence medical teachers’ PIF would also be important to scaffold different FD strategies for basic science and clinical teachers.

결론들
Conclusions

본 연구는 비서구적 환경에서 진행된 의료교사의 PIF는 내적 가치와 외적 영향의 상호작용, 조기 사회화를 통한 권한 부여, 경험적 직장학습, 교사의 미래 구상 등에 영향을 받는다는 것을 시사한다. [종교적 가치, 가족적 요소, 사회적 인식]은 이전에 보고되지 않았던 추가적인 요소들이다. PIF 과정에 기여할 수 있는 FD 프로그램은 PIF를 강화하기 위해 필요한 지원을 제공하고 다양한 공식 및 비공식 활동을 제공함으로써 의학 교사에게 영감을 주고 동기를 부여해야 한다.
Conducted in a non-Western setting, this study suggests that PIF among medical teachers is influenced by an interplay between internal values and external influences, empowerment through early socialization, experiential workplace learning, and teachers’ envisioning their future. Religious values, family factors, and societal recognition are additional factors that have not been previously reported. FD programs, which may contribute to the PIF process, should inspire and motivate medical teachers by providing necessary support and offering various formal and informal activities to strengthen PIF.

 


 

 

Med Teach. 2021 Aug;43(8):868-873. doi: 10.1080/0142159X.2021.1922657. Epub 2021 May 14.

 

 

Professional identity formation of medical teachers in a non-Western setting

Affiliations collapse

1Department of Medical Education and Medical Education Center Indonesia Medical Education and Research Institute (IMERI), Faculty of Medicine, Universitas Indonesia, Jakarta, Indonesia.

2Institute of Health Sciences Education, Faculty of Medicine and Health Sciences, McGill University, Montreal, Canada.

3Center for Medical Education (CenMED), Yong Loo Lin School of Medicine, National University of Singapore, Singapore, Singapore.

4Centre for Development of Teaching and Learning, National University of Singapore, Singapore, Singapore.

5Department of Medical Education and Bioethics, Faculty of Medicine, Public Health, and Nursing, Universitas Gadjah Mada, Yogyakarta, Indonesia.

6Faculty of Medicine, Medical Education Unit, Universitas Islam Indonesia, Yogyakarta, Indonesia.

7Medical Education Unit, School of Medicine and Health Sciences, Universitas Katolik Atma Jaya, Jakarta, Indonesia.

PMID: 33989110

DOI: 10.1080/0142159X.2021.1922657

Abstract

Introduction: Understanding and supporting professional identity formation (PIF) among medical teachers has become increasingly important in faculty development programs. In this study, we explored medical teachers' PIF in Indonesia.

Methods: We conducted a qualitative descriptive study using focus group discussions (FGDs) at four medical schools in Indonesia. Basic science and clinical teachers from four different schools were selected to participate. Data were transcribed, coded, and analysed to develop themes and subthemes.

Results: Seventeen FGDs were completed, involving 60 basic science and 59 clinical teachers. Four major themes regarding the formation of medical teachers' professional identity emerged: an internal dialogue between intrinsic values and external influences, empowerment through early socialization, experiential workplace learning, and envisioning the future. The PIF process was similar for basic science and clinical teachers.

Conclusion: Our findings suggested that PIF among medical teachers in a non-Western setting is a continuous and dynamic process that is shaped by key socialization factors (e.g. role models, workplace learning, peer support), with significant influences from religious beliefs, family values, and societal recognition. Faculty development programs should consider the dynamic and continuous nature of PIF among medical teachers and encourage clinicians and basic scientists to explore their values and beliefs, realize their goals, and envision their future.

Keywords: Staff development; professionalism; roles of teacher.

 

보건의료전문직교육 박사과정학생의 기대: EPA 프레임의 국제적 수정 델파이 연구(Adv Health Sci Educ Theory Pract. 2022)
Expectations for PhDs in health professions education: an international EPA‑framed, modified Delphi study 
Roghayeh Gandomkar1,2 · Reza Zaeri2 · Olle ten Cate3

 

서론
Introduction

[의학연구소]가 추진하고 현재 [의학, 간호 및 기타 건강 영역의 교육]을 범위로 하는 용어로 확립한 개념화인 [보건의료 전문직 교육(HPE)]은 성숙했다. 이 성숙은 20세기 중반부터 시작되어, 21세기에 속도가 빨라져서, 전문 교육 학자들을 고용하고 생산하는 연구 분야로 발전했다. 많은 의과대학, 간호대학 및 기타 학교에서 교육 방법의 개발, 혁신 및 최적화, 보건 전문 인력의 평가 및 자격을 지원하기 위해 그러한 학자를 고용하고 고용합니다.
Health professions education (HPE), a conceptualization promoted by the Institute of Medicine (Knebel and Greiner, 2003) and now established terminology for the breadth of education in medicine, nursing and other health domains, has matured, from mid-20th century, with increased rapidity in the 21st century, into field of study that both employs and produces specialized educational scholars (Cleland et al., 2021; ten Cate, 2021). Many medical schools, schools of nursing and other schools hire and employ such scholars to support curriculum development, innovation and optimization of the methods of teaching, assessment and qualification of the health professional workforce.

동시에, HPE의 전문 분야에서 고급 학위, 석사 또는 박사 학위를 취득할 수 있는 가능성이 빠르게 확대되고 있습니다. 많은 "HPE 학술활동을 위한 부서"은 그러한 학위를 제공하며, 그 중 몇몇은 국경을 넘어 지원자들을 끌어들이고 먼 교육 방식을 사용한다. 전반적으로, 이것은 HPE에서 상당한 수의 MHPE 및 PhD 프로그램으로 이어졌다. HPE의 모든 박사 학위 중에서, 많은 수가 [교육 과학]과 같은 [일반 대학원 학위] 또는 [의학 전공 분야]와 같은 보건 직업의 졸업 경력을 가진 이 방향으로 석사 학위를 처음 취득했습니다. HPE의 주요 학술지에서, 많은 독창적인 연구 논문들은 현재 HPE에서 박사 학위를 가진 한 명 이상의 저자들을 보여주거나 HPE에서 박사 학위를 추구하는 주요 저자를 가지고 있거나, 논문의 장 역할을 하기도 한다. 
At the same time, the possibilities to obtain an advanced degree, a Master's or PhD degree in the specialized area of HPE are quickly expanding (Tekian, 2014; Tekian and Harris, 2012). Many "Units for HPE scholarship" (Varpio et al., 2017a, b; Humphrey-Murto et al., 2020) offer such degrees, several of which attract applicants across international borders and employ distant modes of education. All in all, this has led to a substantial number of MHPE and PhD programs in HPE. Of all PhDs in HPE, a large number have first obtained a Master's degree in this direction, either as a primary postgraduate degree, such as in educational sciences, or with a graduate background in a health profession, such as a medical specialty. In leading HPE journals, many original research papers now either show one or more authors with a PhD degree in HPE or have a lead author who pursues a PhD degree in HPE, having the paper also serve as a dissertation chapter, or both (Doja et al., 2014).

또한 HPE 박사(철학박사) 또는 EdD(교육박사) 또는 석사(HPE 또는 교육학 박사) 또는 이에 준하는 학위를 요구받거나 원하는 교육직에 대한 공석 신청에 대한 요구가 증가하고 있다. 4000명 이상의 가입자를 가진 DR-ED@list.msu.ed와 같은 목록 서비스는 정기적으로 이러한 빈 자리를 게시합니다. 우리는 2020년 10월과 2021년 10월 사이에 DR-ED와 의학 교육 연구 이사회(SDRME)의 목록 서비스에서 [구인 게시물]을 빠르게 검색했고, 매주 또는 그 이상의 빈도로 PhD/EdD 또는 MHPE가 필수 또는 매우 권장되는 자격으로 포함된 광고를 발견했다. 이러한 광고에 포함된 업무나 책임의 유형은 HPE의 [PhD에 대한 기대]가 무엇인지에 대한 인상을 제공합니다. 2021년 10월 1일에서 21일 사이에 게시된 7개의 광고 샘플은 책임으로서

  • 평가(전문가 상담, 절차 및 정책 설계, 심리 측정 분석),
  • 연구 및 학술활동,
  • 데이터베이스 관리(내부 및 외부 검토를 위한 성과 지표 분석),
  • 커리큘럼 및 교육 개발,
  • 프로그램 평가
  • 교수 개발 및 멘토링,
  • 일반적인 정책 개발.

일부 지원자들은 이러한 기대에 부응할 수 있고, 다른 지원자들은 그렇지 않을 수 있으며, 고용주들은 어떤 지원자들을 기대할 수 있는지 확신하지 못할 수 있다. 
Also increasing are calls for application for vacancies in education positions, for which a PhD (Doctor of Philosophy) in HPE, or EdD (Doctor of Education) or Master's degree (in HPE or in education) or equivalent is demanded or desired. Listservs such as DR-ED@list.msu.ed, with 4000+ subscribers, regularly post such vacancies. We did a quick search of job postings on the listservs of DR-ED and of the Society of Directors in Medical Education Research (SDRME) between October 2020 and October 2021 and found ads weekly or more often that included PhD/EdD or MHPE as a required or highly recommended qualification. The types of tasks or responsibilities included in these ads provide an impression of what expectations for PhDs in HPE are. A sample of 7 ads, posted between 1 and 21 October 2021, included as responsibilities

  • assessment (expert consultation, designing procedures and policies, psychometric analyses),
  • research and scholarship,
  • database management (analysis of performance metrics for internal and external review),
  • curriculum and instructional development,
  • program evaluation,
  • faculty development and mentoring, and
  • general policy development.

Some applicants may meet these expectations, others may not, and employers may be unsure what applicants they can expect.

박사 과정은 [특정한, 종종 좁은 연구 분야]에서 [논문을 완성하는 것]에 초점을 맞추어 다양할 수 있지만, 다른 프로그램은 박사 과정 학생들이 [다양한 연구 방법, 이론, 커리큘럼 개발 전략 및 정책에 익숙해질 것]을 요구한다. HPE의 박사 교육에 대한 국내, 국내 및 국제적 [접근 방식은 다양한 것]으로 보인다. 박사 학위 또는 EdD 학위가 가져오는 기대의 명확성은 개별 학자, 고용주, 야심찬 박사 학위 학생, 감독자 및 이러한 학위를 위한 교육 과정을 제공하는 기관에 유용할 수 있다. 
While doctoral programs can vary with a focus on just completing a dissertation in one specific, often narrow, area of research, other programs require doctoral students to become acquainted with a variety of research methods, theories, curriculum development strategies and policies. Local, national and international approaches to doctoral training in HPE appear to diverge (Pan and Lee, 2012; Leja and Wardley, 2002; Pugsley et al., 2008). Clarity in expectations a PhD or EdD degree brings along can be useful for individuals scholars, employers, aspiring doctoral students, supervisors, and institutions providing curricula to educate for these degrees.

이러한 전문가들이 무엇을 위해 고용될 수 있는지에 대한 일반적인 기대가 있을 수 있지만, 우리는 HPE의 박사 과정이 준비되어 있다고 기대할 수 있는 활동에 대한 어떤 합의도 알지 못한다. 현재 저자 중 한 명은 HPE에서 박사 학위 논문의 표준을 제공하는 프로젝트에 참여했지만, 그렇다고 해서 HPE에서 박사 학위를 받은 사람이 고용주에게 기대할 수 있는 활동을 반드시 조명하는 것은 아니다. 
While there may be general expectations of what these professionals can be hired for, we are not aware of any consensus about the activities that can be expected PhDs in HPE are ready to do. One of the current authors was involved in a project to provide standards for PhD dissertations in HPE (ten Cate, 2005), but that does not necessarily shed light on the activities that graduated PhDs in HPE can anticipate an employer will expect from them.

우리가 아는 한, HPE PhD 기대를 명확히 하기 위해 한 국가에서 단 하나의 국가적 합의 연구가 수행되었다. [HPE 박사학위 프로그램을 보유한 5개 학과가 있는 이란]에서는 HPE 박사 34명과 HPE-PhD 위원회 심사위원 9명을 대상으로 2019년 [전국 델파이 연구]가 이 질문으로 진행됐다. 이러한 기대를 개념화하기 위해 위탁 전문 활동(EPA)의 접근 방식이 사용되었다. EPA는 개인이 감독 없이 활동을 수행하는 데 필요한 역량을 보유하는 것을 입증하면 그들에게 맡길 수 있는 전문적인 관행의 단위이다. 이 개념은 의료 전문가를 위해 개발되었지만, 보건 전문 교육에서 박사의 작업 분야를 개념화하는 데 적합하다고 여겨졌다. 이란 연구는 HPE PhD 졸업생들을 위한 24개의 EPA에 대한 국민적 합의를 이끌어냈고, 다음과 같은 세 그룹으로 분류되었다: 교육 발전, 연구와 장학금, 그리고 교육 관리.
To our knowledge, only one national consensus study, in one country, has been conducted to clarify HPE PhD expectations. In Iran, a country that has five Departments with programs for a PhD degree in HPE, a national Delphi study among 34 PhDs in HPE and 9 HPE-PhD Board examiners was carried out in 2019 with this question. The approach of entrustable professional activities (EPAs) was used to conceptualize these expectations (Zaeri and Gandomkar, 2022). An EPA is a unit of professional practice that can be entrusted to an individual once they have demonstrated to possess the required competencies to carry the activity out unsupervised (ten Cate and Taylor, 2021). While developed for medical professionals, this concept was deemed suitable to conceptualize the work field of PhDs in health professions education. The Iran study led to national consensus about 24 EPAs for HPE PhD graduates, categorized in three groups: educational development, research and scholarship, and educational management.

이러한 EPA를 출발점으로 삼아, 현재의 국제 델파이 연구는 보다 [일반화된 타당성]과 [HPE의 PhD에 합리적으로 적합한 활동에 대한 광범위한 합의]를 추구하기 위해 고안되었다. 본 연구의 주요 목적은 HPE-PhD 훈련 프로그램에 반드시 포함되어야 하는 활동을 결정하는 것이 아니었지만, 본 연구의 결과는 이러한 프로그램뿐만 아니라 박사 학위를 취득하려는 개인과 HPE 박사 학위를 가진 학자를 고용하려는 고용주에게 정보를 제공할 수 있다. HPE의 박사과정 교육은 점점 더 국제적인 노력이 되고 있으며, 화상회의를 통한 원격 멘토링이 잘 받아들여지고 있기 때문에 HPE의 박사과정 졸업생을 위한 EPA에 대한 국제적 합의를 모색하는 것은 유용한 노력으로 여겨졌다. 
Using these EPAs as a starting point, the current international Delphi study was conceived to seek more generalized validity and a wider consensus of reasonably suitable activities for PhDs in HPE. While the primary purpose of our study was not to determine what activities should necessarily be incorporated in HPE-PhD training programs, the results of this study could inform such programs, as well as the individuals aspiring to obtain a PhD degree and employers, seeking to hire scholars with a PhD in HPE. PhD training in HPE is an increasingly international endeavor, and remote mentoring through video conferencing has become well accepted praxis, so seeking international consensus for EPAs for doctoral graduates in HPE was considered a useful endeavor.

방법들
Methods

설계.
Design

우리는 2020년 9월부터 2021년 5월 사이에 [3라운드 수정된 델파이 기법]을 사용했다. [델파이 기법]은 주제 전문가들을 대상으로 특정 주제에 대한 설문조사를 여러 번 반복하여 수행함으로써 합의를 추구하는 널리 사용되는 방법이다. 각 연속 라운드에 대해 전문가는 전문가 그룹의 이질성을 유지하기 위해 [다른 전문가의 영향을 받지 않고 독립적으로 입력을 제공]한다. 본 연구에서 각 라운드는 SurveyMonkey를 사용하여 디지털로 배포된 설문조사로 구성되었습니다. 테헤란 의과 대학 연구 윤리 위원회는 이 연구에 대한 윤리적 승인을 승인했다. 모든 참가자들은 온라인 설문지를 작성하기 전에 정보 서한을 받고 동의 성명서를 제공받았다. 
We used a three-round modified Delphi technique between September 2020 and May 2021. The Delphi technique is a widely used method of seeking consensus by administering multiple iterations of surveys on a specific topic to subject experts (Humphrey-Murto et al., 2017a). For each consecutive round, experts provide their input independently, without being influenced by other experts to maintain heterogeneity of the expert group (Humphrey-Murto et al., 2017b). In our study, each round consisted of a survey that was distributed digitally using SurveyMonkey (Survey Monkey Inc., San Mateo, California). The Tehran University of Medical Sciences Research Ethics Committee granted ethical approval for the study (ID: IR.TUMS.MEDICINE.REC.1399.178). All participants received an information letter and were provided consent statements before completing the online questionnaire.

참가자
Participants

첫 번째 단계로 SDRME 리스트 서비스를 사용하여 모든 회원을 대상으로 한 공개 초대를 통해 SDRME(Society of Research of Medical Education) 회원 중 [편의 샘플링]과 [targeted experts]를 활용하였다. SDRME에는 주로 북미인 회원이 있기 때문에, 우리는 그런 다음 서로 다른 지리적 영역에서 자체 네트워크를 사용하여 HPE 훈련에 참여하는 지식을 바탕으로 [목적적 샘플링]을 사용하여 전문가에게 접근했다. 총 148명의 잠재적인 전문가 패널에게 접근하여 연구 목적, 절차 및 예상 시간 투자에 대한 정보를 담은 초대 메일을 보냈습니다. 
As a first step, we used convenience sampling and targeted experts among the members of the Society of Directors of Research in Medical Education (SDRME), through an open invitation for all members, using the SDRME listserv. As the SDRME has predominantly North-American members, we then approached experts using purposive sampling, based on our knowledge of their involvement in HPE training from different geographical areas, using our own networks. In total, we approached 148 potential expert panel members and sent an invitation email with information about the purpose of the study, procedure, and the expected time investment.

절차.
Procedure

우리는 이란에서 HPE PhD 졸업생을 위해 개발된 EPA 프레임워크(24개의 EPA 타이틀과 그들의 설명)를 출발점으로 사용했다. 우리는 첫 번째 델파이 라운드(R1)(모든 EPA에 걸쳐 240개 질문)에 대해 각 EPA에 대해 동일한 10개 질문(리커트 유형 척도가 있는 5개 및 개방형 5개)으로 설문조사를 개발했다. 이러한 질문은 HPE PhD 졸업생에 대한

  • EPA의 관련성,
  • 제목의 명확성,
  • 규격의 포괄성 및
  • EPA의 고장 시 잠재적 위험 및
  • 한계의 적절성과 관련이 있다.

We used the in Iran developed EPAs framework for HPE PhD graduates (24 EPA titles and their descriptions) as a starting point (Zaeri and Gandomkar, 2022). We developed a survey with the same 10 questions (five with Likert type scale and five open-ended) for each EPA for the first Delphi round (R1) (240 questions across all EPAs). These questions concerned

  • relevance of the EPA for HPE PhD graduates,
  • clarity of the title,
  • comprehensiveness of the specifications and
  • the potential risks in case of failure in the EPA, and
  • appropriateness of the limitations (ten Cate and Taylor, 2021).

[후속 델파이 라운드]는 이전 라운드에서 [합의 기준을 충족하지 못한 항목에만 초점]을 맞추고 있는 경우가 많지만, 2차(R2)에서는 1차 델파이 라운드의 모든 분석을 기반으로 [EPA 제목과 내용이 크게 수정]되었다. [Full survey](그러나 EPA당 하나의 개방형 질문만 있음)는 R2의 모든 EPA에 대해 반복되었다. 설문조사의 의견과 조사자에게 보내는 직접 이메일의 몇 가지 추가 의견을 바탕으로 한 중요한 일반적인 관찰은 HPE-PhD 프로그램과 비교하여 HPE-PhD 졸업자와 관련된 EPA의 중요성에 대한 보다 명확한 설명이 필요하다는 것을 지적했다. 이로 인해 R2의 모든 EPA에 대해 세 가지 항목이 추가되었다:

  • (1) 나는 현재 대부분의 HPE 박사들이 감독 없이 이것을 할 수 있다고 믿는다.
  • (2) 대부분의 HPE 박사는 감독 없이 이를 수행할 수 있는 것이 바람직하다.
  • (3) 이 EPA가 HPE-PhD 교육에 포함되어야 하는가? 

그 조사는 R2의 162개 항목으로 구성되었다. 각 EPA 설명의 각 섹션에 대해 텍스트가 '변경'되었는지 '변경되지 않았는지'를 표시했다.

While often subsequent Delphi rounds are shorter and focus only on items that have not meet consensus criteria in a previous round, in our second round (R2), EPA titles and contents underwent major revisions based on all analyses of the first Delphi round. The full survey (but with only one open-ended question per EPA) was repeated for all EPAs in R2. An important general observation, based on comments in the survey and a few additional comments in direct emails to the investigators, pointed at a need for more clarity about the significance of the EPAs related to HPE-PhD graduates versus to HPE-PhD programs. This resulted in three additional items for all EPAs in R2:

  • (1) I believe that currently most PhDs in HPE can be trusted to do this without supervision,
  • (2) It is desirable that most PhDs in HPE can be trusted to do this without supervision, and
  • (3) Should this EPA be included in HPE-PhD training?

The survey consisted of 162 items in R2. For each section in each EPA description we indicated whether the text had been ‘changed’ or ‘not changed’.

[3차(R3)에서는 조사가 제한적]이었다. EPA 설명의 적절성에 대한 [EPA당 전반적 질문 1개, 의견을 위한 개방형 질문 1개], 2차에서 [0.80 미만]의 내용 유효성 지수(CVI) 지수(아래 참조)]를 보여준 EPA에 대한 추가 질문(45개 항목)만 포함했다.
In the third round (R3), the survey was limited. It contained one overall question per EPA on adequacy of the EPA description, one open-ended question for comments and only additional questions for EPAs that showed a content validity index (CVI) index (see below) less than 0.80 in the second round (45 items).

모든 질문(하나의 예/아니오 질문 유형 제외)은 각 EPA에 대한 의견을 위한 공간에 완전히 동의하지 않을 때까지 5점 리커트 척도로 답변해야 했다(전체 조사는 보충 디지털 부록 1 참조). 델파이 과정 내내 패널들의 익명성을 유지하면서 후속 라운드의 설문조사를 통해 전문가들에게 이전 라운드의 결과 요약을 제공했다. 설문조사와 함께, 그들은 이메일을 통해 개정에 대한 배경 정보와 함께 EPA 제목과 설명의 pdf 버전을 받았다. 각 단계에 대해, 조사는 이전 라운드에서 5개 이상의 EPA에 대해 조사를 완료한 참가자에게 전송되었다. 참가자들은 각 설문 조사 라운드에 응답하는 데 3주가 걸렸다.

All questions (except one yes/no question type) had to be answered on a 5-point Likert scale from fully agree to fully disagree with space for comments about each EPA (see Supplemental Digital Appendix 1 for the full survey). We provided a summary of results from the previous round to the experts with the survey of the subsequent round, while maintaining anonymity among the panelists throughout the Delphi process. Together with the survey, they received a pdf version of the EPA titles and descriptions with background information on the revisions through email. For each phase, the survey was sent to participants who had completed the survey about five or more EPAs in the previous round. Participants had three weeks to respond to each survey round.

10459_2022_10136_MOESM1_ESM.docx
0.03MB

 

데이터 분석
Data analysis


[기술 통계량]은 각 Delphi 라운드 후 Microsoft Excel 2016을 사용하여 계산되었으며, 빈도, 평균 및 표준 편차 및 해당하는 경우 [내용 유효성 지수(CVI)]를 포함했습니다. 계측기가 측정되는 구조에 대한 적절한 항목 표본을 갖는 정도인 CVI는 각 질문에 대해 '완전 동의' 또는 '동의'를 선택한 패널의 수를 패널의 총 수로 나눈 값으로 계산되었다. CVI 값의 범위는 0 ~ 1입니다. [컷오프 점수]로

  • [0.8 이상]을 선택하여 충분한 [내용 타당도]를 indicate하였습니다.
  • [0.50~0.79]의 CVI는 항목을 수정해야 한다는 것을 암시했다; [0.50 미만]의 [관련성]에 대한 CVI가 제거 이유가 되었다; [다른 조사 질문]의 경우 CVI가 0.8 미만일 경우 리비전 하였다.

Descriptive statistics were calculated using Microsoft Excel 2016 (Microsoft Corporation, Redmond, Washington) after each Delphi round, and included frequencies, means and standard deviations, and content validity indices (CVIs) where appropriate. The CVI, the degree to which an instrument has an appropriate sample of items for the construct being measured (Dalkey and Helmer, 1963), was computed as the number of panelists choosing 'fully agree' or 'agree' for each question, divided by the total number of panelists. CVI values can range from 0 to 1. As a cut-off score,

  • we chose 0.8 or higher to indicate sufficient content validity.
  • A CVI of 0.50–0.79 implied that the item required revision; a CVI for relevance below 0.50 constituted a reason for elimination; for other survey questions a CVI below 0.8 specified revision (Humphrey-Murto and de Wit, 2019; ten Cate, 2006).

3차는 적정성 문제에 대해 [사전설정 합의 비율]을 [80% 이상]으로 설정했다.
For the third round, a predetermined consensus percentage was set to 80% or higher for the adequacy question.

[정성적 논평]은 모든 저자에 의해 여러 차례 검토되었으며 EPA의 제목, 내용 및 구조의 수정을 위해 고려되었다. CVI가 적절하더라도, EPA의 제목이나 내용은 응답자들은 [관련 의견을 제안]했고, [연구자들 간의 합의 논의 후]에는 수정되기도 하였다. 
Qualitative comments were reviewed by all authors several times and were considered for modification of the title, content and structure of EPAs. Title or content of EPAs underwent changes even if the CVI was adequate but respondents proposed relevant comments, and only after consensus discussion among the researchers.

결과.
Results

18명의 국제 전문가들이 이 연구에 참여하기로 동의했다. 초기 EPA 개발에 관여하지 않은 저자 중 한 명(OtC)도 1차 델파이(R1) 라운드에 참여했다. 모든 참가자가 R1 설문 조사를 시작했습니다. R1에서 세 명의 응답자가 처음 몇 개의 EPA만 완료했다; 그들은 분석에 포함되지 않았다. 다른 4명의 참가자들은 (2-14세 사이의) 몇 가지 질문에 대답하지 않았다; 
그들은 분석에 포함되었다. 총 16명의 참가자의 답변이 R1에 포함되었다. 2차 델파이 라운드(R2)는 참가자 18명 중 16명이 참여해 15명이 전수조사를 마쳤다. 한 응답자는 5개의 EPA를 완료했으며 추가 분석에서 제외되었다. R2 참가자 15명 전원이 R3 설문 조사를 완료했습니다.  
Eighteen international experts agreed to participate in the study. One of the authors (OtC), not involved in the development of initial EPAs, participated in the first Delphi (R1) round as well. All participants started the R1 survey. In R1, three respondents completed only the first few EPAs; they were not included in the analysis. Another four participants did not answer several (between 2 and 14) questions; they were included in the analyses. It total, 16 participants' answers were included in R1. For the second Delphi round (R2), 16 out of 18 participants started and 15 completed the full survey. One respondent completed 5 EPAs and was excluded from further analysis. All 15 participants of R2 completed the R3 survey.

지리적으로 모든 델파이 지역에 참여한 15명의 전문가들은 미국(n = 8), 네덜란드(n = 2), 독일(n = 2), 호주, 남아프리카, 영국(각각 1명) 출신이었다. SDRME 회원은 8명(53.3%), 정교수는 9명(60.0%), 부교수는 5명(33.3%), 조교수는 1명으로 53.3%가 여성이었다. 
Fifteen experts who participated all Delphi round geographically, were from the United States (n = 8), the Netherlands (n = 2), Germany (n = 2), and Australia, South Africa and the United Kingdom (each with one participant). Eight (53.3%) participants were SDRME members, 9 (60.0%) were full professors, 5 (33.3%) were associate professors, and one was assistant professor. 53.3% of the participants were female.

1차 델파이 라운드
First Delphi round

표 1은 R1에 기초한 EPA의 관련성에 대한 EPA 제목과 CVI 및 수단(SD 포함)을 제공한다. 6개의 제안된 EPA는 관련성을 위해 0.8보다 큰 CVI를 보여주었고, 3개(EPA 21, 23, 24)는 HPE PhDs에 대한 필수적인 기대가 아닌 것으로 간주되는 활동을 다루었다(CVI < 0.5). 그들은 추가 분석에서 제외되었다. 대부분의 EPA는 조사의 모든 질문에 대해 0.5≤CVI < 0.8을 보였다(보조 디지털 부록 2 참조). 
Table 1 provides EPA titles and CVIs and means (with SDs) for relevance of EPAs based on R1. Six proposed EPAs showed CVIs larger than 0.8 for relevance, and three (EPAs 21, 23 and 24) addressed activities that were deemed not essential expectations for HPE PhDs (CVI < 0.5). They were removed from further analyses. Most EPAs showed 0.5 ≤ CVI < 0.8 for all questions in the survey (see Supplemental Digital Appendix 2).

10459_2022_10136_MOESM2_ESM.docx
0.03MB

 

우리는 모든 논평과 이것들의 요지에 대한 우리의 해석에 기초하여 [EPA 설명을 크게 다시 썼다]. 모든 EPA 설명은 (적어도 평균적으로) 짧아졌다. 우리는 또한 EPA 세트의 세 가지 구성요소를 두 개('연구 및 학술활동'과 '교육 개발')로 통합하고 교육 관리는 생략했다. 우리는 이 범주가 HPE PhD 졸업생에게 가장 적합한 섹션으로 인식되지 않는다고 느꼈다;  그리고 대부분의 EPA는 낮은 관련성 점수로 자격을 얻었다.
We significantly reworded EPA descriptions, based on all comments and our interpretations of the gist of these. All EPA descriptions became shorter (at least on average). We also merged three components of the set of EPAs into two ('Research and scholarship' and 'Educational development') and left out Educational management. We felt this category was least recognized as a suitable section for HPE PhD graduates; and the majority of its EPAs were qualified with low relevance scores.

[표 2]는 R2에 대한 개정된 EPA 구조와 명칭을 보여준다. 개별 EPA의 관점에서, 전문가들은 새로운 EPA 명칭을 제안하지 않았다. 어떤 경우에는, 중복되는 것으로 보이는 한두 개의 EPA가 제목과 내용의 일부 변경과 함께 하나의 원래 EPA로 [병합]되었다(즉, EPA 15, 1, 3 및 6). EPA 2(연구 수행 및 분석)와 3(연구팀 협업, 지시 및 감독)이 [결합]되어 [3개의 새로운 EPA로 형성]되었다: '질적 교육 연구 수행'(EPA 2), '양적 교육 연구 수행'(EPA 3), '혼합 방법 및 합의 교육 연구 수행'(EPA 4). 너무 광범위해 보이는 EPA가 여러 EPA로 [분할된 경우]도 있었다. 예를 들어, EPA 4: '과학 보고서 작성, 출판 및 커뮤니케이션'은 '경험적 연구 보고서 작성 및 출판'(EPA 5), '문헌 검토서 작성'(EPA 6), '회의 및 기타 회의에서의 발표'(EPA 7)로 구분되었다. 이를 통해 '연구 및 장학'에 8개, '교육 개발'에 10개 등 총 18개의 EPA가 생성되어 R2에 사용되었다.

Table 2 shows the revised EPA structure and titles for R2. In terms of individual EPAs, no new EPA titles were suggested by experts. In some cases, one or two EPAs that seemed to show much overlap were merged into one original EPA with some changes in the title and content (i.e. EPAs 15, 1, 3 and 6). EPAs 2 (Conducting and analyzing research) and 3 (Collaborating, directing and supervising research teams) were combined and shaped as three new EPAs: 'Conducting qualitative educational research' (EPA 2), 'Conducting quantitative educational research' (EPA 3) and 'Conducting mixed methods and consensus educational research' (EPA 4). In some other cases, EPAs that seemed too broad were split into several EPAs. For instance, EPA 4: 'Writing, publishing and communicating scientific reports' were divided in 'Writing and publishing empirical research reports' (EPA 5), 'Writing literature reviews' (EPA 6) and 'Presenting at conferences and other meetings' (EPA 7). This resulted in a total of 18 EPAs, 8 for 'Research and scholarship' and 10 for 'Educational development' and used for R2.

 

2차 델파이 라운드
Second Delphi round

표 2는 EPA 직함과 CVI, 수단(SD 포함) 및 R2에 대한 EPA 빈도를 제공한다. 전반적으로 모든 문항의 CVI 점수는 상당히 향상되었고 대부분 0.8점보다 높았다. 하나의 EPA "학생 지원 서비스의 설계, 구현 및 평가"는 여전히 HPE PhDs(CVI < 0.5)에 대해 충분히 관련성이 없는 기대로 간주되었고, R3에 대한 입력으로 제거되었다. 흥미롭게도, 4개 EPA의 경우, 응답자의 20% 미만이 현재 HPE의 대부분의 박사가 감독 없이 EPA를 수행할 수 있다는 데 동의하거나 전적으로 동의했지만, 전문가의 86.7%는 대부분의 박사가 '감독 없이 회의 및 기타 회의에서 발표'를 수행할 수 있다는 데 동의하거나 전적으로 동의했다(1987=4).20 ± 0.65). 
거의 모든 EPA(18개 중 16개)의 경우, 참가자의 50% 이상이 HPE의 대부분의 박사학위자가 감독 없이 이를 수행할 수 있다고 신뢰할 수 있는 것이 바람직하다는 데 동의하거나 전적으로 동의했다. 응답자의 50% 이상이 11개 EPA에 대해 '이 EPA는 PhD 교육의 핵심' 옵션을 선택했다. 우리는 통계와 논평, 그리고 보다 논리적인 순서에 기초하여 EPA를 위한 텍스트를 개선했다.
Table 2 provides EPA title and CVIs and means (with SDs), and frequencies for EPAs for R2. Overall, CVI scores in all questions improved considerably and were mostly higher than 0.8. One EPA “Designing, implementing and evaluating student support services” was still deemed not a sufficiently relevant expectation for HPE PhDs (CVI < 0.5) and was removed as input for R3. Interestingly, for four EPAs, less than 20% of respondents agreed or totally agreed that currently most PhDs in HPE can be trusted to do those EPAs without supervision, but 86.7% of experts agreed or totally agreed that most PhDs can be trusted to do 'Presenting at conferences and other meetings without supervision' (mean = 4.20 ± 0.65). For almost all EPAs (16 out of 18), more than 50% of participants agreed or totally agreed that it is desirable that most PhDs in HPE can be trusted to do this without supervision. More than 50% of respondents selected the option 'this EPA is core in PhD training' for 11 EPAs. We made improvements in texts for EPAs based on statistics and comments and a more logical order.

델파이 3차전
Third Delphi round

17개 EPA 모두가 적정성에 대해 80% 이상의 합의를 했다. [3개의 EPA] '교육 품질 보증 시스템의 설계, 적용 및 수정'(0.67), '개별 학생과 교직원에 대한 멘토링, 코칭 및 조언'(0.67), '교육 전략 프로젝트 및 정책 개발 선도'(0.60)의 관련성에 대해 CVI ≥ 0.80에 도달하지 못했다. 한 EPA는 항목 명확성에 대해 0.60의 CVI를 얻었다. 다른 질문들은 충분한 CVI ≥ 0.80에 도달했다. 우리는 제공된 의견을 바탕으로 EPA 프레임워크에 작은 변화를 주었다. 표 2에서 알 수 있듯이 EPA 1, 5, 6, 7, 8, 15는 [모든 PhD 졸업생에게 바람직하며 PhD 교육에서 핵심]으로 간주된다는 점에서 80% 일치 기준을 충족한다. 최종 EPA 프레임워크는 명칭, 정당성, 사양 및 한계, 고장 시의 위험과 함께 부록 3에 제시되어 있다. EPA 명칭은 표 3에서 확인할 수 있다. 
All 17 EPAs had agreements of 80% or higher for adequacy. Three EPAs did not reach CVI ≥ 0.80 for relevance: 'Designing, applying and revising educational quality assurance systems' (0.67), 'Mentoring, coaching, and advising individual students and faculty' (0.67), and 'Leading educational strategic projects and policy developments' (0.60). One EPA obtained a CVI of 0.60 for item clarity. Other questions reached the sufficient CVI ≥ 0.80. We made small changes in the EPA framework based on the supplied comments. As Table 2 shows, EPAs 1, 5, 6, 7, 8, and 15 meet the 80% agreement mark for both being desirable for all PhD graduates and to be regarded as core in PhD training. The final EPA framework, with their titles, a justification, specification and limitations, and risks in case of failure, is shown in the Supplemental Digital Appendix 3. The EPA titles can be found in Table 3.

10459_2022_10136_MOESM3_ESM.docx
0.04MB

논의
Discussion

HPE 장학금을 받은 15-16명의 국제 전문가들의 귀중한 도움으로, 우리는 HPE 박사 학위를 가진 교육자들의 기대에 틀림없이 속하는 17개의 EPA를 식별할 수 있었다. 17개의 EPA 중 8개는 연구와 장학의 영역과 관련이 있고, 9개는 교육 개발과 관련이 있다. 일부는 이러한 연구 결과를 박사 과정 학생이 훈련받는 가장 필수적인 작업인 저평가된 연구 및 장학 활동으로 비판할 수 있지만, 우리의 연구 결과는 대부분의 HPE 박사가 고용된 것으로 알려진 HPE 장학 부서의 작업 특성과 일치한다. 칼케와 바르피오는 [연구를 수행]하고 [교육 서비스(교육 설계 및 평가, 교수진 개발, 인증 지원 등)를 제공하는 것]을 캐나다 HPE 장학금 단위에서 수행되는 두 가지 주요 활동으로 꼽았다.  
With the valuable help of 15–16 international experts in HPE scholarship, we were able to identify 17 EPAs that arguably belong to the expectations of educators with a PhD degree in HPE. Of the 17 EPAs, 8 relate to the domain of research and scholarship, and 9 pertain to educational development. Some may critique these findings as undervaluing research and scholarship activities which are presumably the most essential tasks a PhD student is trained for, but our findings do concord with the nature of the HPE scholarship units’ works that most HPE PhDs reportedly are hired for. Kahlke and Varpio (2019) named conducting research and providing educational service (such as consults on instructional design and assessment, faculty development, accreditation support) the two dominant activities conducted in Canadian HPE scholarship units.

원래 이란 연구에서는 [교육 관리 작업]이 두드러졌지만, 델파이 응답자들은 최종 프레임워크에서 많은 활동을 제거하고 일부를 [교육 개발 영역]에 통합하도록 했다. 관리와 개발의 일부 중복 외에도 문화적 문제가 있을 수 있다. 이란에서는 최근 몇 년 동안 [관리 업무]를 이용할 수 있게 되었기 때문에 박사에게 더 쉽게 요청하는 반면, 다른 국가에서는 [지정된 이사와 보조자]를 고용할 수 있는 기회가 더 많을 수 있습니다. 즉, HPE 박사학위의 목적은 다르게 볼 수 있다. 즉, [교육 전문가 연구원]이 되는 것과 더 [광범위한 교육 전문가]가 되는 것. 우리의 델파이 샘플이 국제적이었지만, 이러한 불일치는 또한 우리의 연구 결과의 일반화 가능성에 한계를 둔다.

While educational management tasks were prominent in the original Iranian study, our Delphi respondents made us remove many of its activities from the final framework and integrate some in the educational development domain. Besides some overlap of management with development, there may also be a cultural issue. In Iran, managerial tasks are more readily asked from PhDs, as they have come available in recent years, while other countries may have more opportunities to employ designated directors and assistants. In other words, the purpose of the PhD degree in HPE can been viewed differently, i.e. to be an educational expert researcher, versus to be a broader educational professional. While our Delphi sample was international, this discrepancy also puts a limitation to the generalizability of our findings.

17개의 EPA 중 6개는 박사과정 교육의 핵심이자 모두에 대한 기대로 간주되었다. 그러나 단 하나의 EPA(회의 및 기타 회의에서 발표)만이 대부분의 현재 HPE Phds가 감독되지 않은 상태에서 이를 수행할 수 있다고 신뢰할 수 있다는 데 높은 동의를 얻은 반면, 12개 EPA의 경우 소수의 응답자(40% 미만)만이 일반적으로 감독되지 않은 상태에서 현재 HPE Phds를 수행할 수 있다는 데 동의했다. 즉, 델파이 패널 구성원들은 [HPE PhDs에 대한 그들의 기대가 많은 HPE PhDs의 현재 현실을 훨씬 능가한다]는 데 동의할 것이다. 몇몇 델파이 패널들이 박사과정 교육에 참여하고 있다는 점을 감안할 때, 우리는 이러한 은밀한 자기비판을 어떻게 이해해야 할까?
Of the 17 EPAs, 6 were considered both core to PhD training and desired expectations for all. However, only one EPA (presenting at conferences and other meetings) found high agreement that most current HPE PhDs can be trusted to do this unsupervised, whereas for 12 EPAs only a minority of the respondents (less than 40%) would agree that current HPE PhDs can generally be trusted to do these unsupervised. In other words, our Delphi panel members would agree that their expectations for HPE PhDs far exceed the current reality for many HPE PhDs. How must we understand this covert self-criticism, given that several Delphi panel members are involved in PhD training themselves?

[박사학위를 가진 학자]들에 대한 기대와 [박사과정 교육과정]에 대한 요구사항은 동일하지 않다. 우리의 조사 목적은 그러한 커리큘럼에 대한 (공유된) 처방에 도달한 것이 아니라 HPE의 박사 학위에 대한 [업무 기대]에 대한 통찰력이었다; 
우리는 우리 패널들이 이것을 잘 이해했다고 믿는다. 
Expectations for scholars with a PhD degree and requirements for a PhD training curriculum are not identical. The purpose of our investigation was not arrive at (shared) prescription for such curriculum, but at insights into work expectations for PhDs in HPE; we believe our panel members have understood this well.

이를 위해 델파이 절차를 수정하였습니다. 우리의 접근법은 

  • (1) 비판적 검토에 적합한 EPA의 기존 프레임워크로 시작한다, 
  • (2) 국제 버라이어티 분야의 독립적이고 잘 정의된 전문가들을 초대한다, 
  • (3) 반복적인 절차를 사용한다 
  • (4) 다양한 목적에 도움이 될 수 있는 개정된 프레임워크에 도달하기 위해. 

To this end, we modified the Delphi procedure. Our approach was

  • (1) to start with an existing framework of EPAs suitable for critical review,
  • (2) to invite independent, well defined experts in international variety,
  • (3) to use an iterative procedure, and
  • (4) to arrive at a revised framework that could serve multiple purposes.

우리는 상호 영향을 피하기 위해 패널들 사이의 익명성을 관찰했지만, 명확화를 위해 필요한 경우 응답자들과 직접 대화했다. 우리는 [박사 과정의 졸업 기준에 대한 결정]을 허용하는 ["타당한" 도구]로서 EPA 프레임워크에 도달하려고 하지 않았다. 목적은 박사 학위를 희망하는 학자들, 후보자들, 감독자들, 그리고 잠재적인 고용주들을 위한 방향이나 방향감을 만드는 것이었다. 이러한 기대를 모두 충족시키는 PhD 졸업생은 거의 없습니다. 많은 사람들이 어떤 EPA에서 우수할 가능성이 높지만 다른 EPA에서는 우수하지 않을 가능성이 있습니다.  [박사 학위]는 오히려 그들이 [이전에 마주치지 않았던 의무를 수행할 준비가 될 수 있는 배우고, 일하고, 발견하는 과정을 통해 성숙한 개인]으로 간주될 수 있다. 그러나 과학적 사고에 대한 경험, HPE 문헌에 대한 일반적인 지식, 특정 연구 접근법에 대한 경험, 그러나 다른 연구 방법에 대해서는 접선적으로만 익숙하기 때문에 대부분 해결할 수 있다. [박사 교육에서 깊게 다루지 않은 영역]에서도 졸업생들은 그 학문적인 일을 할 수 있는 [능력을 개발할 수 있다]고 신뢰할 수 있다. 

We observed anonymity among the panelists to avoid mutual influences, but we did interact with respondents directly if needed for clarification. We did not seek to arrive at an EPA framework as a “valid” instrument to allow for decisions about graduation standards in PhD programs. The purpose was to create a sense of direction or orientation for scholars aspiring to seek a PhD degree, for candidates, for supervisors and for potential employers. Clearly few, if any, PhD graduates will meet all these expectations; many are likely to excel in some EPAs and not in others. PhDs may rather be regarded as individuals who have matured through a process of learning, working and discovering that may make them ready to be tasked with obligations they have not encountered before but that they can tackle mostly because of their experience with scientific thinking, general acquaintance with the HPE literature, experience with particular research approaches, but only tangentially familiar with other research methods. Even in domains not deeply touched upon in PhD training, graduates may be trusted to develop the capability to do that scholarly work.

[EPA]는 원래 대학원 의학 교육을 위해 고안되었으며 다양한 다른 HPE 프로그램으로 확장되었다. 이 프로그램들은 모두 의료에서 행동할 수 있는 [능력, 권리, 의무]의 인정을 결합한 위탁 결정으로 특징지어진다. 

  • 'Right'는 라이센스를 받은 권한 또는 자격 증명('학습자를 위한 감독하에서')을 말합니다
  • '의무'는 환자의 치료('학습자를 위한 감독하에서')를 의미한다.

EPA의 명확한 특성화 및 사용은 다른 영역에서는 적합하지 않을 수 있다. 그러나 최근 몇 년 동안 연구는 윤리, 데이터 처리, 개인 정보 보호, 실험실 안전 및 기타 선행 과학 행위와 관련된 요소에 대한 절차 표준화 과정을 거쳤으며, 이는 잠재적인 위임가능성entrustability 문제를 동반할 수 있다. 교육 관행 또한 교육에서 더 표준화되었다. 이를 통해 번역 과학 훈련 및 교수 자격과 같은 다른 영역에 대해 EPA를 제안할 수 있다. 현재 우리의 기여는 이러한 확장에 기여하고 있으며, 이는 EPA 정의의 느슨한 사용의 위험이 있음을 인정한다. 그러나 우리는 EPA 설명의 타당성을 평가하기 위해 공식적인 방법을 적용하지는 않았지만, 우리는 설명의 성격을 지속적으로 인식하고 있으며 원래 개념에 가능한 한 가깝게 유지하고 있다. 그러나 우리는 예를 들어 이러한 EPA에 반영된 작업의 '감독'이 환자 치료와 다르다는 것을 인정한다. 우리는 HPE에서 PhD에 대한 EPA를 정의함에 있어 개념의 적용 가능성을 한계까지 확장했다고 믿는다.
EPAs were originally conceived for postgraduate medical education (ten Cate and Taylor, 2021; Shorey et al., 2019) and expanded to various other HPE programs (O’Dowd et al., 2019; Meyer et al., 2019; Bramley and McKenna, 2021; Goodell et al., 2019; ten Cate, 2016). These programs are all characterized by entrustment decisions that combine the recognition of ability, right and duty to act in health care (ten Cate, 2016).

  • 'Right' refers to licensed privileges or credentials ('under supervision' for learners) and
  • 'duty' refers to patient care ('under supervision' for leaners).

That clear characterization and use of EPAs may be less suitable in other areas. However, research, in recent years, has gone through a process of standardization of procedures regarding ethics, data processing, privacy, lab safety, and other factors related to good scientific conduct, which arguably come with potential entrustability issues as well. Teaching practices have also become more standardized in education. This allows EPAs to be proposed for other domains, such as translational science training (Weggemans et al., 2021), and teaching qualifications (van Bruggen et al., 2021). Our current contribution adds to this expansion, which, we acknowledge, risks a looser use of the EPA definition. However, while we did not apply formal methods to evaluate the validity of the EPA descriptions (Taylor et al., 2017; Post et al., 2016), we have continuously been aware of the nature of the descriptions and kept them as closely as possible to the original concept. But we acknowledge for example that 'supervision' of work reflected in these EPAs is different than in patient care. We believe that in defining EPAs for PhDs in HPE we have about stretched the applicability of the concept to its limits.

이 경우에는 이점이 있습니다. [제안된 EPA 프레임워크]는 [국가 간 HPE 훈련]을 진전시키고, [훈련생과 졸업생의 개인 개발 및 고용 결정]에 inform할 수 있는 잠재력을 가지고 있다. EPA 프레임워크는 훈련생에게 예상되는 활동의 범위와 깊이를 제공하고 전문적 역할에 대한 이해를 심화시킬 수 있다. PhD 프로그램 책임자는 이 프레임워크를 활용하여 본 연구에서 제안된 전문 활동, 특히 핵심 EPA에 기초한 교육을 제공하고 개별 학습 과정을 모니터링하며 관찰을 기반으로 의미 있는 피드백을 제공할 수 있다. 다음 단계는 HPE PhD 프로그램을 adapt하고 EPA 프레임워크 사용의 영향을 평가하는 것이다. 
In this case we do see benefits. The proposed EPA framework has the potential to advance HPE training across countries and to inform trainees' and graduates' personal development and employment decisions. The EPA framework can offer trainees the extent and depth of the expected activities and deepen their understanding of the professional role. PhD program directors may utilize the framework to provide training grounded in professional activities proposed in this study, specifically the core EPAs, monitoring the individual learning processes, and providing meaningful feedback based on observations. A next step would be to adapt HPE PhD programs and evaluate the impact of using the EPA framework.

우리의 응답률은 낮은 것으로 간주될 수 있습니다. 델파이 연구의 경우, 모든 반복을 완료한 15명의 패널리스트가 드물지는 않지만, 특히 이것이 상당한 노력을 반영하고 모든 패널이 적절한 전문가로서 자격을 얻을 수 있다면, 접근한 최초의 전문가 목록은 148명이었다. 포함된 6개국은 [서구권]을 대표하며, [비서구권 문화]와 다른 HPE PhDs의 예상 활동에 대한 의견을 가질 수 있다. 분명히 [관리 중심 EPA]는 이란 연구에서 덜 평가되었지만, 17개의 결과 EPA는 모두 리커트 척도에서 3.5보다 컸고, 13/17(76%)는 관련성에 대한 점수가 4.0을 넘었다. 우리는 규제의 틀을 만들 의도가 없었기 때문에, 우리는 참가자들의 편견이 어느 정도 중요성이 있었다고 생각하지 않는다. 
Our response rate may be considered low. While for a Delphi study, 15 panelists who completed all iterations is not unusual, particularly if this reflected significant effort and all can be qualified as suitable experts, the initial list of experts approached was 148. The six countries included represent the Western world and might have opinions on expected activities from HPE PhDs that differ from non-Western cultures. While clearly management-focus EPAs were less valued that in the Iranian study, all 17 resulting EPAs had a mean score for relevance larger than 3.5 on a Likert scale, and 13/17 (76%) larger than 4.0. As we had no intention to create a regulatory framework, we do not believe the bias of participants was present in any level of significance.

또 다른 한계는 이 연구가 24개 EPA의 기존 프레임워크와의 합의를 찾기 시작했다는 것이다. 우리는 새로운 EPA를 추가하기 위해 패널 구성원들을 의도적으로 초대하지 않았다. 이러한 목적으로 사용될 수 있는 각 EPA와 함께 풍부한 자유 텍스트 공간이 있었지만, 우리는 새로운 EPA에 대한 아이디어를 놓쳤을 수 있다. 
Another limitation is that the study set out to find agreement with an existing framework of 24 EPAs. We did not deliberately invite panel members to add new EPAs. While there was abundant free text space with each EPA which could have been used for this purpose, we may have missed ideas for new EPAs.

결론들
Conclusions

HPE PhD 프로그램의 수는 점진적으로 증가하고 있다. 동시에, 학술 기관의 교육 개발과 혁신을 지원하기 위해 HPE의 박사 학위 취득자를 고용하는 것에 대한 요구가 증가하고 있다. 국제 전문가 패널이 인정한 바와 같이, 우리는 HPE 박사 학위를 가진 교육자들의 합리적인 기대를 거의 반영하는 EPA 프레임워크를 제시했다. 그것은 국가 간 HPE 교육을 진전시키고 고용 결정을 알릴 수 있는 잠재력을 가지고 있다. 우리는 박사과정에 대해 규범적인prescriptive 척하지 않지만, 우리는 HPE PhD 프로그램이 [연구 기술] 외에도 [교육 이론과 개발]에 초점을 맞추고, 선택 사항으로 [관리 기술]을 가질 것을 추천할 것이다. 그러나 우리는 HPE보다 훨씬 더 많은 박사과정 교육이 [내용과 길이 면에서 개별화되어 있다]는 것을 깨달아야 한다. 이는 [핵심 EPA]와 [선택 EPA]의 구별을 더욱 유용하게 만든다. 
The number of HPE PhD programs is progressively expanding. At the same time, there are increasing demands in employing PhD graduates in HPE to support education development and innovation in academic institutions. We presented an EPA framework that, as acknowledged by a panel of international experts, arguably reflects reasonable expectations of educators with a PhD degree in HPE. It has the potential to advance HPE training across countries and inform employment decisions. While we do not pretend to be prescriptive for doctoral programs, we would recommend HPE PhD programs to focus, besides on research skills, also on educational theory and development, and have managerial skills as an option. We should however realize that, much more than in HPE, PhD education is individualized in content and length. That makes the distinction between core EPAs and elective EPAs even more useful.


Adv Health Sci Educ Theory Pract. 2022 Jul 14. doi: 10.1007/s10459-022-10136-4. Online ahead of print.

Expectations for PhDs in health professions education: an international EPA-framed, modified Delphi study

Affiliations collapse

1Health Professions Education Research Center, Tehran University of Medical Sciences, Tehran, Iran. rgandomkar@tums.ac.ir.

2Department of Medical Education, School of Medicine, Tehran University of Medical Sciences, No. 57, Hojjatdust Alley, Naderi St., Keshavarz Blvd., Tehran, Iran. rgandomkar@tums.ac.ir.

3Department of Medical Education, School of Medicine, Tehran University of Medical Sciences, No. 57, Hojjatdust Alley, Naderi St., Keshavarz Blvd., Tehran, Iran.

4Center for Research and Development of Education, University Medical Center Utrecht, Utrecht, The Netherlands.

PMID: 35836036

DOI: 10.1007/s10459-022-10136-4

Abstract

Health professions education (HPE) has matured into field of study that employs and produces specialized educational scholars. Many academic institutions employ such scholars to support development and innovation in education. Simultaneously, the possibilities to obtain a PhD degree in HPE are expanding. Clarity in the expectations that such a degree brings along can be useful for scholars, employers and institutions. Anticipating that the views of what a PhD in HPE is or should be can vary between institutions, cultures and countries, we conducted an international Delphi study to identify EPAs for HPE PhDs. We used a framework of 24 EPAs resulted from a national consensus study in Iran as input to seek more generalized validity and a wider consensus of reasonably suitable activities. A three-round modified Delphi study was conducted with participation of 15 international experts. Final framework consisted of 17 relevant EPAs with a justification, specifications and limitations, and risks in case of failure per EPA (all had overall CVI > 0.8 for adequacy of description). Eleven EPAs were considered by the majority to be core to PhD training, 16 to be desirable for HPE PhDs as a capability to carry out without supervision, but the majority would trust current HPE PhDs to carry out only 5 of the 17 without supervision. The EPAs identified in this study arguably reflect the expectations of educators with a PhD degree in HPE. The framework has the potential to advance HPE training across countries and to inform personal development and employment decisions.

Keywords: Delphi study; Entrustable professional activities; Health profession education; PhD.

+ Recent posts