CanMEDS 2025의 임상추론(Can Med Educ J. 2023)
Clinical Reasoning in CanMEDS 2025

소개
Introduction

임상 추론은 의학교육 연구의 초기 초석 중 하나였으며, 이러한 초기 연구 초점은 의학 교육에서 임상 추론의 중심적인 역할을 반영합니다.1 따라서 임상 추론이 CanMEDS 의사 역량 프레임워크에서 잘 알려지지 않은 개념으로 확인된 것은 놀라운 일이 아닐 수 없습니다.2,3 그러나 프레임워크를 자세히 살펴보면 임상 추론은 그 중심적인 중요성에도 불구하고 CanMEDS에서 명시적으로 언급되거나 통합된 적이 거의 없다는 것을 알 수 있습니다. 임상 추론의 일부 측면이 의료 전문가 역할에 역량으로 포함되어 있기는 하지만, 임상 추론에 대한 우리의 이해는 CanMEDS 2015에서 명시적으로 언급된 몇 가지를 넘어 확장되었습니다. 이 입문서에서는 임상 추론이 CanMEDS 2025의 핵심 개념인 이유, 임상 추론에 대한 우리의 이해가 어떻게 발전해 왔는지, CanMEDS 2015에서 임상 추론이 어떻게 표현되는지, 그리고 임상 추론과 관련된 역량을 보다 신중하고 포괄적으로 통합하기 위해 CanMEDS 2025를 개정할 수 있는 방법을 제안합니다. 
Clinical reasoning was one of the early cornerstones of medical education research, and this early research focus reflects its central role in medical training.1 Therefore, it may be surprising that clinical reasoning was identified as an underrepresented concept in the CanMEDS physician competency framework.2,3 However, a close examination of the framework demonstrates that clinical reasoning, despite its central importance, is rarely explicitly mentioned or integrated in CanMEDS. While some aspects of clinical reasoning are woven within the Medical Expert role as enabling competencies, our understanding of clinical reasoning has expanded beyond these few explicit mentions in CanMEDS 2015. This primer will orient readers to why clinical reasoning is a key concept for CanMEDS 2025, how our understanding of clinical reasoning has evolved, highlight how clinical reasoning is represented in CanMEDS 2015, and suggest ways that CanMEDS 2025 could be revised to more deliberately and comprehensively incorporate competencies related to clinical reasoning.

임상 추론이란 무엇이며 의사의 역량에 중요한 이유는 무엇인가요?
What is Clinical Reasoning and why is it important to physician competency?

임상적 추론은 환자 치료의 모든 측면에서 핵심적인 요소이기 때문에 의료 분야에서 전문적 진료의 핵심으로 묘사되어 왔습니다.1. 또한 추론 오류는 환자와 의료진에게 높은 비용을 초래하기 때문에 환자 안전을 위협하는 요인으로 지목되었습니다.4 이러한 핵심성과 중요성에도 불구하고,5 임상 추론을 정의하는 방법, 효과적인 추론을 개념화하는 방법, 교육, 평가 및 연구 목적으로 이를 운영하는 방법은 크게 나뉘지는 않았지만 여전히 다양합니다.5,6
Clinical reasoning has been described as the core of professional practice in healthcare,1 as it is a key component of all aspects of patient care. Additionally, errors in reasoning have been named as a threat to patient safety given the high cost of errors to patients and practitioners.4 Despite its centrality and importance,5 how we define clinical reasoning, how we conceptualize effective reasoning, and how we operationalize it for the purposes of teaching, assessment, and research remain varied if not deeply divided.5,6

효과적인 임상 추론의 개념은 의학교육 내 여러 커뮤니티에서 다양한 개념화 또는 추론의 요소를 교육 목표, 평가 대상 또는 집중 연구 영역으로 사용함에 따라 다양하게 설명되어 왔습니다. 임상 추론에 대한 이러한 각 사고 방식은 인간의 인지 구조에서 실천의 인식론에 이르기까지 서로 다른 학문, 영역 또는 이론적 기반에서 비롯되며, 이는 임상 추론 과정의 각기 다른 요소에 초점을 맞춘다는 것을 의미합니다. 임상 추론에 접근하는 이러한 다양한 방식은 중요한 면에서 차이가 있습니다.

  • 일부는 추론의 결과에 초점을 맞춥니다.
    • 의료 오류(추론의 불행한 결과7)에서 진단 정확도(바람직한 결과8)까지
  • 일부는 개별 활동으로서의 임상 추론에 초점을 맞춘다.
    • 의사 또는 학습자의 인지 과정
  • 다른 일부는 사회적으로 내재된 활동으로서의 임상 추론을 탐구합니다:
    • 팀의 진료 제공(추론을 상호작용 활동으로 배치9),
    • 상황별 의사 결정(상황 또는 구체화된 활동으로서의 추론10) 또는
    • 공유 의사 결정(파트너로서의 환자11) 등에 주목
  • 어떤 사람들은 의사의 임상 추론에서 발생가능한 한계에 관심을 집중하고 있습니다:
    • 인지적 부하 고려사항(임상 추론 및 작업 수행은 작업 기억 제약에 의해 제한됨12)
    • 편향의 위험성(예: 불평등 및 의료 서비스 격차13)
  • 마지막으로, 일부는 에러에 대한 인적 요인시스템 기여4 및 복잡한 맥락에 개인이 어떻게 적응하는지에 초점을 맞춥니다.16
    • 적응적 전문성,14 집단적 역량,15 복잡성 이론 등

The notions of effective clinical reasoning have been variously described by different communities within medical education—as different conceptualizations or elements of reasoning have been used as objectives for instruction, targets for assessment, or areas of focused research. Each of these ways of thinking about clinical reasoning draw from different disciplines, domains, or theoretical homes—from human cognitive architecture to epistemologies of practice; which means each of these ways of thinking about clinical reasoning focus on different elements of the clinical reasoning process. These numerous ways of approaching clinical reasoning vary in important ways.

  • Some focus on the outcomes of reasoning;
    • from medical error (an unfortunate outcome of reasoning7) to diagnostic accuracy (an aspired outcome8).
  • Some focus on clinical reasoning as an individual activity,
    • focused on the cognitive processes of the practitioner or learner;
  • while others explore clinical reasoning as a socially embedded activity, with attention paid to
    • team provision of care (placing reasoning as an interactional activity9),
    • decisions-in-context (reasoning as a situated or embodied activity10), or
    • shared decision-making (patient-as-partner11).
  • Still other members of the community have focused their attention on the limits of what is possible in a practitioners’ clinical reasoning—from
    • cognitive load considerations (clinical reasoning and task performance are limited by working memory constraints12), to the
    • dangers of bias (e.g. inequities and health care disparities13).
  • Finally, some focus on human factors and system contributions to error4 and how individuals adapt to complex contexts such as
    • adaptive expertise,14 
    • collective competence,15 and
    • complexity theory.16 

이러한 각 관점은 추론 과정의 서로 다른 구성 요소를 강조하고, 추론의 서로 다른 "결과"를 중요시하며, "효과적인" 추론을 만드는 요소에 대해 서로 다른 개념화를 가지고 있습니다. 이러한 가치 있는 구성 요소, 결과, 효과적인 추론에 대한 개념의 차이는 모두 매우 다른 집중 교육 영역, 다른 평가 목표, 다른 연구 접근 방식에 영향을 미칩니다.17
Each of these perspectives highlight different components of the reasoning process, value different “outcomes” of reasoning, and have different conceptualizations of what makes “effective” reasoning. These differences in valued components, outcomes, and notions of effective reasoning all feed into very different areas for focused teaching, different assessment targets, and different approaches to research.17

임상 추론과 같이 크고 복잡한 개념을 의학교육에서 가르치고, 평가하고, 연구할 수 있는 것으로 만들려면 각 상황이나 전문 분야에서 무엇이 효과적인 임상 추론을 구성하는지에 대한 결정이 내려져야 합니다. 효과적인 추론으로 판단되는 요소에 따라 임상 추론 과정의 다른 구성 요소, 다른 맥락적 변수 또는 임상 추론의 다른 결과가 우선시됩니다.18 예를 들어, 효과적인 추론은 다음으로 특징지을 수 있습니다.12

  • 속도,19
  • 정확성,20
  • 비용 영향,21
  • 환자 욕구와 임상적 권고(즉, 공유 의사 결정)의 균형,10
  • 과도한 검사와 (불)확실성에 대한 욕구의 균형,22
  • 맥락적 변수에 대한 인식 및 적응,23
  • 관리 계획의 효과적인 적응adaptation,24
  • 작업 기억 한계 내에서 인지 부하를 효과적으로 관리할 수 있는 것

이러한 효과적인 추론의 특성은 평가, 학습 및 교육의 대상이 되며, 이는 해당 집단의 전문성 수준, 전문 분야 맥락, 치료 맥락(예: 긴급 치료 대 지역사회 치료)에 따라 달라집니다. 
To render a large and complex concept such as clinical reasoning into something that can be taught, assessed, or researched in medical education, decisions about what constitutes effective clinical reasoning in each context or specialty must be made. Depending on what is determined to be effective reasoning, different components of the clinical reasoning process, different contextual variables, or different outcomes of clinical reasoning come to the forefront.18 For example, effective reasoning can be characterized by

  • speed,19 
  • accuracy,20 
  • cost implications,21 
  • balancing of patient desires with clinical recommendation (i.e. shared decision making),10 
  • balancing over-testing with a desire for certainty,22 
  • recognition of and adaptation to contextual variables,23 
  • effective adaptation of a management plan,24 and
  • effectively managing cognitive load within working memory limitations.12 

These characteristics of effective reasoning become the targets of assessment, learning, and teaching that vary depending on the expertise level of the population in question, specialty context, and care context (i.e., urgent care vs. community care).

임상 추론은 2015 CanMEDS 역량 프레임워크에서 어떻게 표현되어 있나요?
How is Clinical Reasoning represented in the 2015 CanMEDS competency framework?

CanMEDS 2015 프레임워크에서 임상 추론의 측면은 주로 의료 수출 역할(표 1A)의 역량으로 나타나며, 일부 요소는 다른 역할(표 1B)에 걸쳐 통합되어 있습니다. 임상 추론의 이론적 및 개념적 이해와 관련된 연구는 CanMEDS 2015 이후 성장해 왔습니다.3 최근의 연구는 개인 인지를 넘어 팀 기반 추론,9 진단적 의사결정에서 관리 추론에 대한 고려,23 그리고 개별 인지 과정에서 복잡한 맥락에 놓인 행동으로서의 임상 추론을 탐구하는 것으로 확장되었습니다.10 훌륭하고 건전한 임상 추론을 구성하는 요소에 대한 우리의 개념은 임상 추론에 대한 이론적 이해의 증가와 진료의 복잡성에 대한 인식의 확대에 따라 확장되어 왔습니다. 임상적 추론은 의료인이 된다는 것의 핵심으로 남아 있지만,1 임상적 추론이 어떤 모습이고 어떻게 교육, 학습 및 평가의 목표로 운영되는지는 확장되었습니다. 임상 추론의 개념은 CanMEDS 2015의 일부 필수 역량에 반영되어 있지만(전문 분야의 맥락에 따라 이러한 역량이 어떻게 구현되는지가 달라질 수 있음을 인식하고 있습니다), CanMEDS 2025에서는 임상 추론이 보다 명시적이고 포괄적으로 표현되어야 한다고 생각합니다.
In the CanMEDS 2015 framework, aspects of Clinical Reasoning are found primarily as enabling competencies within the Medical Export role (Table 1A) with some elements interwoven throughout other roles (Table 1B). Research related to the theoretical and conceptual understanding of clinical reasoning has grown since CanMEDS 2015.3 More recent work extends beyond individual cognition to include team-based reasoning;9 from diagnostic decision-making to consideration for management reasoning,23 and from individual cognitive processes to exploring clinical reasoning as a situated behaviour in complex contexts.10 Our notions of what constitutes good and sound clinical reasoning have broadened in lockstep with our growing theoretical understanding of clinical reasoning, and our growing acknowledgement of the complexity of care. While clinical reasoning remains at the core of what it means to be a healthcare provider,1 what that clinical reasoning looks like and how it is operationalized into targets of teaching, learning, and assessment have expanded. While the concept of clinical reasoning is reflected in some enabling competencies within CanMEDS 2015—recognizing that specialty context will shape how these competencies are enacted - we believe that clinical reasoning should be more explicitly and comprehensively represented within CanMEDS 2025.

 

임상 추론이 2025 CanMEDS 역량 프레임워크 내에서 어떻게 더 잘 표현될 수 있을까요?
How can Clinical Reasoning be better represented within the 2025 CanMEDS competency framework?

임상 추론에 대한 현재의 이해에 더 잘 부합하기 위해 2025 CanMEDS 역량 프레임워크는 양질의 임상 진료를 제공하는 데 기여하는 임상 추론의 여러 측면을 보다 의도적으로 통합할 수 있으며, 통합해야 합니다. 보다 세분화된 의미에서 임상 추론에는 필요한 기본 지식의 통합과 다양한 맥락에서 시기적절하고 효과적인 방식으로 치료를 제공하면서 해당 지식을 동원하는 능력이 포함됩니다. 효과적인 임상 추론의 일부 핵심 요소는 현재 의료 전문가 역할의 중요한 역량이지만, 임상 추론의 측면은 다른 CanMEDS 역할(예, 의사소통자, 협력자, 학자, 전문가; 표 1 참조).필수 지식의 범위, 진료 표준, "좋은" 추론의 기준, 임상 추론에 영향을 미치는 복잡한 맥락적 요인은 CanMEDS 2025에 더 잘 통합될 수 있고 통합되어야 합니다.3 CanMEDS 프레임워크 내에서 임상 추론을 더 잘 반영하기 위해, 우리는 기존의 몇 가지 지원enabling 역량을 조정할 것을 제안하며, CanMEDS 2025에서 중요한 고려 사항이라고 생각하는 역량을 명확히 설명합니다. 제안된 지원enabling 역량(표 1, 섹션 C)은 모호한 개념의 근거를 마련하고 임상 추론이 여러 역할의 맥락에서 관찰, 교육, 평가 및 연구될 수 있다는 개념을 반영합니다. 즉, 의료 서비스를 제공하려면 효과적인 임상 추론이 필요하고, 효과적인 임상 추론에 필요한 여러 가지 역량이 필요하며, 이러한 역량은 여러 CanMEDS 역할에 걸쳐 통합되어 있습니다. 임상적 추론은 효과적인 치료 제공을 위해 여러 CanMED 역할에 걸쳐 필요한 역량을 통합해야 하는 방법을 보여주는 훌륭한 예입니다. 
To better align with current understandings of clinical reasoning, the 2025 CanMEDS competency framework can, and should, more deliberately integrate the many aspects of clinical reasoning that contribute to providing high quality clinical care. In a more granular sense, clinical reasoning includes the integration of necessary fundamental knowledge, and the ability to mobilize that knowledge while delivering care in a variety of contexts in a timely and effective way. While some key components of effective clinical reasoning are important current enabling competencies for the Medical Expert Role, aspects of clinical reasoning are also woven throughout other CanMEDS roles (i.e., communicator, collaborator, scholar, and professional; see Table 1).The scope of requisite knowledge, standards of care, standards of “good” reasoning, and complex contextual factors that influence clinical reasoning could and should be better integrated into CanMEDS 2025.3 In order to better reflect clinical reasoning within the CanMEDS framework, we suggest adapting several existing enabling competencies, and articulate those that we believe are important considerations for CanMEDS 2025. The suggested enabling competencies (Table 1; section C) helps ground an already nebulous concept, and reflect the notion that clinical reasoning can be observed, taught, assessed, and studied in the context of several Roles. Meaning, the delivery of care necessitates effective clinical reasoning, several enabling competencies needed for effective clinical reasoning, and these enabling competencies are integrated across several CanMEDS roles. Clinical reasoning is an excellent example of how enabling competencies across multiple CanMEDs roles need to be integrated to effectively deliver care.

표 1C에서 제안하는 지원enabling 역량은 임상 환경에서 임상 추론이 어떻게 동원되는지에 대한 이해의 증가를 반영하며, 임상 추론 과정과 결과를 형성하는 치료 환경의 복잡성을 인식합니다. '좋은' 임상 추론이 여러 상황과 진료 환경에 걸쳐 어떤 모습인지에 대한 중요한 차이가 존재하기 때문에, 이러한 역량 제안은 각 의료 전문 분야 내에서 맥락화를 계속 요구할 것입니다. 임상 추론이 독립적인 역량으로 명명되어야 한다고 생각하지는 않지만,25 임상 추론의 복잡성은 CanMEDS 프레임워크 전반에 걸쳐 몇 가지 새로운 역량과 몇 가지 조정된 지원 역량에 더 잘 반영될 수 있다고 생각합니다.

The enabling competencies we propose in Table 1C reflect our growing understanding of how clinical reasoning is mobilized in the clinical environment and recognize the complexity of care environments that shape clinical reasoning processes and outcomes. These suggested enabling competencies will continue to require contextualization within each of our medical specialties, as important distinctions do exist regarding what “good” clinical reasoning looks like across contexts and care environments. While we do not believe clinical reasoning should be named as an independent competency,25 we believe the complexity of clinical reasoning can be better reflected in several new, and several adapted enabling competencies across the CanMEDS framework.


Can Med Educ J. 2023 Mar 21;14(1):58-62. doi: 10.36834/cmej.75843. eCollection 2023 Mar.

Clinical Reasoning in CanMEDS 2025

Affiliations 

1Institute of Health Sciences Education, McGill University, Quebec, Canada.

2Queen's University, Ontario, Canada.

3NOSM University, Ontario, Canada.

4University of Saskatchewan, Saskatchewan, Canada.

5McMaster University, Ontario, Canada.

PMID: 36998494

PMCID: PMC10042778

DOI: 10.36834/cmej.75843

CanMEDS 2025의 버추어 케어(Can Med Educ J. 2023)
Virtual Care in CanMEDS 2025

 

소개
Introduction

가상 진료(VC)는 잘 훈련된 의사의 손에 의해 효과적이고 안전합니다.1 그러나 대면 진료의 역량이 반드시 가상 진료의 역량과 동일하지는 않습니다.2 특정 VC 교육에 대한 여러 요구에도 불구하고,3-6 최근 문헌 검토에 따르면 이러한 개념은 2015 CanMEDS 의사 역량 프레임워크7에서 충분히 반영되지 않은 것으로 확인되었습니다.8 이러한 새로운 역량을 반영하여 오늘날의 의사가 환자와 사회의 진화하는 요구를 충족할 수 있도록 CanMEDS 2025를 업데이트해야 합니다. 이 입문서에서는 효과적인 원격 상담 및 환자 치료를 제공하기 위해 환자 및 동료와 가상으로 연결하는 데 필요한 기술에 초점을 맞춘 CanMEDS 역량에 대한 변경 사항을 제안합니다. 
Virtual care (VC) is effective and safe in the hands of well-trained physicians.1 However, competency in in-person care does not necessarily equate to competency in VC.2 Despite multiple calls for specific VC training,3-6 these concepts were identified as being underrepresented in the 2015 CanMEDS physician competency framework7 by a recent literature review.8 CanMEDS 2025 must be updated to reflect these novel competencies, ensuring that today’s physicians are able to meet their patients’ and societies’ evolving needs. For this primer, we propose changes to the CanMEDS competencies that focus on the skills necessary to connect virtually with patients and peers to deliver effective remote consultation and patient care.

가상 의료란 무엇이며 의사의 역량에 중요한 이유는 무엇인가요?
What is VC and why is it important to physician competency?

기술의 발전은 사람들이 관계를 맺고, 소통하고, 생활하는 방식을 바꾸고 있습니다. 의료 분야에서도 연구와 진료의 지형을 바꾸고 있습니다. 이 분야에는 때때로 중복되는 용어가 많이 있습니다(표 1의 정의 참조). 이 백서에서는 기술을 활용한 개별 환자 치료 제공에 초점을 맞추기 위해 가상 치료 Virtual Care 라는 용어를 사용합니다. 의료 정보학 및 데이터 분석과 같은 개념은 이 백서의 범위를 벗어나지만 실제로 중요하며 다른 곳에서 다루고 있습니다.9 
Technological advances are changing how people relate, communicate, and live. In healthcare, they are altering the landscape of research and practice. There are many, sometimes overlapping, terms in this field (see definitions in Table 1). This paper utilizes the term Virtual Care to focus on the provision of individual patient care using technology. Concepts such as health informatics and data analytics are out of the scope of this paper but are indeed important and are addressed elsewhere.9

Term 용어 정의
Definition
Chatbot 챗봇
"자연스러운 대화를 통해 의료 서비스를 제공하고...차례대로 진행되는 대화를 통해 온라인 의료 서비스를 더욱 사용자 친화적으로 만드는"10 전자 "대화형 시스템"입니다.

An electronic “conversational system” that “provides healthcare through natural conversation…making online healthcare more user-friendly…through a turn-taking dialog.”
10
Digital Health 디지털 건강
디지털 건강은 정보 기술 및 전자 통신 도구, 서비스 및 프로세스를 사용하여 의료 서비스를 제공하고 더 나은 건강을 촉진하는 것입니다.9 여기에는 "웨어러블 기기, 모바일 건강, 원격 의료, 건강 정보 기술, 원격 의료... 데이터 분석 및 인텔리전스, 예측 모델링... 의료 소셜 미디어", 전자 의료 기록 및 환자 커뮤니케이션 포털의 사용이 포함됩니다.11

Digital health is the use of information technology and electronic communication tools, services and processes to deliver health care services and facilitate better health.
9 It includes the use of, “wearable devices, mobile health, telehealth, health information technology, and telemedicine… data analytics and intelligence, predictive modelling…medical social media”, electronic medical records, and patient communication portals.11
eHealth e헬스
"의료 서비스, 건강 감시, 건강 문헌, 건강 교육, 지식 및 연구를 포함한 건강 및 건강 관련 분야를 지원하기 위해 정보통신 기술을 비용 효율적이고 안전하게 사용하는 것"12.

“The cost-effective and secure use of information and communications technologies in support of health and health-related fields, including health-care services, health surveillance, health literature, and health education, knowledge and research.”
12
Extended reality 확장 현실
컴퓨터를 사용하여 사용자 환경을 컴퓨터 생성 콘텐츠로 향상(예: 증강 현실[AR])하거나 대체(예: 가상 현실[VR])하는 것.13

Using computers to enhance (ie: augmented reality [AR]) or replace (ie: virtual reality [VR]) a user’s environment with computer generated content.
13
mHealth m헬스
원격 의료를 목적으로 스마트폰 및 웨어러블 디바이스와 같은 모바일 기술을 사용하는 것.5

The use of mobile technology such as smartphones and wearable devices for the purposes of telehealth.
5
Telehealth 원격 보건
"건강 관리 또는 의료 교육의 모든 구성 요소를 원거리에서 제공하는 것"5 여기에는 가상 진료와 의료 전문가 및 환자 교육이 모두 포함됩니다.5

“The delivery of any component of health care or medical education at a distance.”
5 It includes both virtual care and the education of both healthcare professionals and patients.5
Telemedicine 원격 의료
"정보통신 기술을 통해 원격으로 제공되는 의료 서비스"14로, 화상 또는 전화 상담 등이 이에 해당합니다.

A “medical service provided remotely via information and communication technology”
14 such as a video or telephone consultation.
Virtual Care 가상 진료
"환자 치료의 질을 촉진하거나 극대화할 목적으로 모든 형태의 통신 또는 정보 기술을 사용하여 원격으로 발생하는 환자 및/또는 환자 치료 서클 구성원 간의 모든 상호 작용"15 여기에는 원격 진료, mHealth, 원격 모니터링, 전자 의료 기록(EMR)을 통한 보안 메시징이 포함되지만 이에 국한되지는 않습니다.15

“Any interaction between patients and/or members of their circle of care, occurring remotely, using any form of communication or information technologies, with the aim of facilitating or maximizing the quality of patient care.”
15 This includes but is not limited to telemedicine, mHealth, remote monitoring, and secure messaging via electronic medical records (EMRs).15


VC는 고품질 의료 서비스에 대한 접근성을 제공하고 의료 서비스의 도달 범위, 형평성, 효율성, 잠재적 비용 효율성을 향상시킬 수 있는 기회를 제공합니다.1,3 최대 85%의 환자가 VC를 받는 데 관심이 있으며16 여러 의료 분야에서 그 효과가 입증되었습니다.1 명백한 바람직성에도 불구하고 대면 의료 역량이 가상 영역으로 자동 변환되지 않고2 의사가 현장에서 유능하게 진료하기 전에 이해해야 하는 VC의 기술적 및 사회 문화적(예: 정책 및 형평성) 한계가 있기 때문에 특정 교육이 필요합니다.17 실제로 캐나다 의사협회, 캐나다 가정의학회, 캐나다 왕립 의사 및 외과의사 대학은 "[VC] 교육을 의료 서비스 교육에 통합하여 의료 제공자와 관리자가 성숙한 [VC] 생태계에서 기능할 수 있도록 전적으로 준비되도록 해야 한다"고 권고했습니다.17
VC offers the opportunity to provide access to high-quality care and enhance the reach, equity, efficiency, and potentially cost-effectiveness of medical services.1,3 Up to 85% of patients are interested in receiving VC16 and multiple areas of medicine have demonstrated its effectiveness.1 Despite its apparent desirability, VC requires specific training because in-person medical competencies do not automatically translate to the virtual sphere2 and there are technological and sociocultural (eg: policy and equity) limitations to VC that need to be appreciated before a physician can practice competently in the field.17 Indeed, the Canadian Medical Association, College of Family Physicians of Canada, and The Royal College of Physicians and Surgeons of Canada have recommended that “[VC] training must be integrated into health service education so that providers and administrators are wholly prepared to function in a mature [VC] ecosystem.”17

2015 CanMEDS 역량 프레임워크에서 VC는 어떻게 표현되어 있나요?
How is VC represented in the 2015 CanMEDS competency framework?

레지던트3 및 의대생 수준에서 가상 의료에 대한 교육을 강화해야 한다는 요구가 오랫동안 있어 왔습니다.4 이러한 요구를 해결하기 위해 2015 CanMEDS 전자 의료 전문가 실무 그룹은 전자 의료 및 가상 의료 채택을 탐색하기 위한 특정 역량에 대한 권장 사항을 제시했지만,18 이 중 대부분은 최종 역량 프레임워크에 반영되지 않았습니다. 특히, "기술 기반 커뮤니케이션"은 2015 CanMEDS 지원 역량 중 하나에서 찾을 수 있지만(표 2 참조), 디지털 헬스, VC, eHealth 및 기타 관련 용어는 구체적으로 언급되지 않았습니다.7 
There have been long standing calls for increased training in VC at the residency3 and medical student level.4 To address these needs a CanMEDS 2015 expert working group on eHealth made recommendations on specific competencies for navigating eHealth and virtual health care adoption,18 though most of these were not reflected in the final competency framework. Notably, while “technology-enabled communication” can be found within one of the 2015 CanMEDS enabling competencies (see Table 2), digital health, VC, eHealth and other related terms are not specifically mentioned.7

그 이후로 가상 진료는 환자 치료에서 떼려야 뗄 수 없는 부분이 되었으며, 코로나19 팬데믹 기간 동안 공중 보건 조치로 인해 더욱 발전했습니다.16 의사와 의료 시스템이 이러한 전환에 충분히 준비되지 않았기 때문에 가상 진료로의 급격한 변화는 문제가 되었습니다. 곧 발표될 CanMEDS 2025 개정판은 가상 의료를 포함한 21세기 의학에서 요구되는 업무에 맞춰 의사의 역량을 조정할 수 있는 기회입니다.
Since then, VC has become an inextricable part of patient care, with advances precipitated by public health measures during COVID-19 pandemic.16 The rapid change to VC was problematic because physicians and the healthcare system were not fully prepared for this transition. The upcoming CanMEDS 2025 revision is an opportunity to align physician competencies with the tasks required in 21st century medicine including virtual care.

2025년 CanMEDS 역량 프레임워크 내에서 가상 의료가 어떻게 더 잘 표현될 수 있을까요?
How can VC be better represented within the 2025 CanMEDS competency framework?

가상 진료의 성장에 따라 의사는 가상 환경에서 진료하는 데 적응해야 합니다. 이를 위해서는 의사 역량 프레임워크의 상당한 수정이 필요합니다. 환자 중심의 팀 기반 치료를 최적화하기 위해 여러 의료 전문 분야의 질병 진단 및 치료와 P2P 커뮤니케이션에서 이러한 도구에 대한 의존도가 높아짐에 따라 이를 통합할 필요가 있습니다. 
With the growth of VC, physicians must adapt to performing in the virtual environment. This will require substantial modification of the physician competency framework. There is need to incorporate the greater dependence on these tools in the diagnosis and treatment of ailments across medical specialties and in peer-to-peer communication to optimize patient-centred team-based care.

모든 역량을 아우르는 VC를 더 잘 대표할 수 있도록 CanMEDS 의사 역량 프레임워크의 변경을 제안하며, 표 2에서 권장 사항과 그 근거를 CanMED 역할별로 세분화하여 설명합니다. 
We suggest changes to the CanMEDS Physician Competency Framework to better represent VC spanning all competencies and describe our recommendations and their rationale, broken down by CanMEDs role, in Table 2.

전반적으로 의료 전문가 역할에 대한 변화는 안전하고 포괄적인 환자 치료를 제공하기 위해 가상 도구를 사용하여 전문성을 개발하는 데 중점을 둡니다.

  • 커뮤니케이터 역할은 가상 환경에서는 의사소통 기술이 다르다는 점을 인식하고 의사가 기술 사용과 관계없이 훌륭한 커뮤니케이터가 되어야 한다는 점을 강조합니다.
  • 협력자 역할은 다학제 팀의 대면 및 가상 협업을 포함하도록 수정되었습니다.
  • 리더 역할은 의료 시스템이 가상 현실에 의해 어떻게 영향을 받는지, 그리고 가상 현실을 포함한 새로운 치료 모델이 현재의 의료 서비스 제공 방식을 어떻게 개선할 수 있는지를 강조합니다.
  • 건강 옹호자 역할은 VC에 대한 공평한 접근성, 디지털 헬스를 활용하여 지역사회의 필요를 파악하는 방법, 디지털 시대의 미디어 옹호에 대해 다룹니다.
  • 학자 역할은 기술을 최신 상태로 유지하고 사용하는 데 중점을 두며, 인터넷으로 인해 의료 문헌이 전통적인 저널 논문을 넘어 진화하고 있음을 인식합니다.
  • 마지막으로 전문가 역할은 가상 현실의 사용이 증가함에 따라 이제야 필요성이 대두된 기술과 보호 메커니즘을 포함합니다. 

Overall, changes to the Medical Expert role focus on developing expertise using virtual tools to provide safe, comprehensive patient care.

  • The Communicator role recognizes that communication skills are different in a virtual setting and emphasise that physicians need to be excellent communicators regardless of the use of technology.
  • The Collaborator role is modified to include in-person and virtual collaboration in multidisciplinary teams.
  • The Leader role highlights how the healthcare system is impacted by VC, and how new models of care (including VC) can improve upon current approaches to healthcare delivery.
  • The Health Advocate role focuses on equitable access to VC, how digital health can be leveraged to identify community needs, and touches on media advocacy in the digital age.
  • The Scholar role focuses on staying up to date with and using technology and recognizes that due to the internet, healthcare literature is evolving past the traditional journal article.
  • Finally, the Professional role includes the skills and safeguarding mechanisms that have only now become necessary, given the increase in the use of VC.

결론
Conclusion

코로나19 팬데믹으로 인해 VC는 갑작스럽게 환자 치료의 최전선에 서게 되었습니다. 이 기술은 2015년부터 사용되어 왔지만, 당시에는 이 새로운 치료 모델에 대한 역량이 상당히 부족했습니다. 의사들이 사회적 요구와 기대에 부응하는 진료에 진정으로 대비할 수 있도록 기술적으로 개선되었든 그렇지 않든 모든 환경과 관련된 역량을 반영하도록 CanMEDS 2025를 업데이트하는 것이 필수적입니다. 
The COVID-19 pandemic has abruptly forced VC to the forefront of patient care. Although it has been around since CanMEDS 2015, the competencies at the time focused substantially less on this new model of care. It is imperative that CanMEDS 2025 is updated to reflect competencies relevant to all environments, technologically enhanced or otherwise, so that physicians are truly prepared for practice relevant to societal needs and expectations.


Can Med Educ J. 2023 Mar 21;14(1):22-26. doi: 10.36834/cmej.75439. eCollection 2023 Mar.

Virtual Care in CanMEDS 2025

Affiliations collapse

1Department of Medicine, University of Toronto, Ontario, Canada.

2Department of Anesthesiology and Pain Medicine, University of Ottawa, Ontario, Canada.

3Office of Continuing Professional Development, Faculty of Health Sciences, McMaster University, Ontario, Canada.

4University of Saskatchewan, Saskatchewan, Canada.

5Department of Emergency Medicine, UBC Faculty of Medicine, British Columbia, Canada.

PMID: 36998491

PMCID: PMC10042775

DOI: 10.36834/cmej.75439

CanMEDS 2025에서 임상학습환경 (Can Med Educ J. 2023)
The Clinical Learning Environment in CanMEDS 2025

소개
Introduction

임상 학습 환경(CLE)은 현재 CanMEDS 의사 역량 프레임워크에서 잘 드러나지 않는 다면적 개념입니다.1 의료 환경은 사람 및 관계 중심 치료의 기본 원칙을 바탕으로 구축되며, 우리는 환자 치료 제공과 교육 프로그램 실행이라는 동시적 목표가 학습자와 교수진의 관심을 끌기 위해 어떻게 경쟁할 수 있는지에 대해 생각해 보아야 합니다. 이러한 긴장을 탐구하면 학습자를 포함한 환자, 가족, 지역사회, 의료진 등 학습 환경의 모든 구성원의 요구에 부응하는 개입을 설계하고 실행할 수 있습니다.
The Clinical Learning Environment (CLE) is a multi-faceted concept that is currently underrepresented in the CanMEDS physician competency framework.1 Healthcare environments are built on the foundational tenet of person and relationship-centered care, and we must reflect upon how the concurrent objectives of delivering patient care and implementing educational programs may compete for the attention of learners and faculty. Exploration of these tensions will enable the design and implementation of interventions that are responsive to the needs of all citizens in the learning environment including patients, families, communities, and the healthcare workforce, including learners.

위계와 권력 비대칭은 의료 시스템, 더 넓게는 CLE에 만연한 요소로, 더 많은 주의가 필요합니다2. 동전의 양면처럼, CLE 내에서 개입을 어떻게 설계하느냐에 따라 팀과 의료 서비스 제공이 기능적으로 또는 역기능적으로 발전할 수 있습니다. 포용적이고 심리적으로 안전한 의료 환경을 조성하면 환자 안전 및 경험 개선, 팀 역학 지원, 학습자 및 모든 팀원의 전문성 개발이 보장되며, CanMEDS는 이러한 목표를 반영해야 합니다.
Hierarchies and power asymmetries are pervasive elements of healthcare systems, and the CLE more broadly, that require further attention2. Like two sides of the same coin, how interventions are designed within the CLE, can foster functional or dysfunctional teams and healthcare delivery. Creating inclusive, psychologically safe healthcare environments ensures improved patient safety and experience, supportive team dynamics, and professional development for learners and all members of the team; CanMEDS must reflect these objectives.

임상 학습 환경이란 무엇이며 의사의 역량에 중요한 이유는 무엇인가요?
What is the Clinical Learning Environment and why is it important to physician competency?

임상 학습 환경은 "...참여자의 경험, 인식, 학습을 둘러싸고 형성하는 사회적 상호작용, 조직 문화 및 구조, 물리적 및 가상 공간"으로 정의되어 왔습니다.3 다른 정의에서는 "업무 환경과 교육적 맥락 사이의 중첩된 공간"을 언급하기도 합니다. "4

  • 이러한 정의는 학습자 연속체(학부, 대학원 및 평생 의학 교육)와 진료 맥락을 아우르며, 건축적 경계, 디지털 공간, 사회문화적 측면, 교육 커리큘럼, 다양성 및 포용성, 학습의 심리학적 이론, 실천 커뮤니티를 포함한 CLE의 모든 측면을 고려합니다.
  • 5 이러한 정의는 CLE를 복잡하고 중요한 구조, 즉 모든 CanMEDS 역량에 영향을 미치는 규범, 행동, 무언의 행동 강령에 영향을 미치는 구조로 파악합니다.
  • 대인관계는 시스템과 긴밀하게 연결되어 있습니다. 사람은 규범을 알리고 만들고, 시스템은 행동을 가능하게 하고 영향을 미칩니다.

The CLE has been defined as “…social interactions, organizational cultures and structures, and physical and virtual spaces that surround and shape participants’ experiences, perceptions, and learning.”3 Other definitions reference “the overlapping space between the work environment…and the educational context.”4 

  • These definitions span the learner continuum (undergraduate, postgraduate, and continuing medical education) as well as contexts of care, and consider all aspects of the CLE including
    • architectural boundaries, digital spaces, sociocultural aspects, educational curricula, diversity and inclusion, psychological theories of learning, and communities of practice.5 
  • These definitions cast the CLE as a complex overarching structure–one that influences the norms, behaviours, and unspoken codes of conduct that touch on all CanMEDS competencies.
  • The interpersonal is tightly linked with the systemic: people inform and create norms, while systems in turn, enable and influence behaviours.

따라서 개인이 의료 및 의료 교육 프로그램에 어떤 영향을 미칠 수 있는지, 그리고 이러한 프로그램이 의료 인력의 모든 구성원을 어떻게 형성하는지 이해하도록 하기 위해서는 모든 CanMEDS 2025 역량의 원동력으로서 CLE를 인정하는 것이 중요합니다. 
Therefore, acknowledging the CLE as an enabler of all CanMEDS 2025 competencies is critical to ensuring that individuals appreciate how they may influence healthcare and medical training programs, and how these programs, in turn, shape all members of the healthcare workforce.

환자안전, 학습자 경험, 대중의 신뢰 필요성, 의료 시스템(그리고 더 일반적으로는 사회 전반)에서의 책무성 강화 요구는 CLE에 대한 비판적이고 지속적인 검토의 원동력이 되고 있습니다. 환자안전 사고5와 그에 따른 대학원 의학 교육 환경 개선에 대한 옹호,6 지역 사회 기반의 운동은 의료 및 의학교육의 지속적인 불평등에 주목하고 있습니다.
Patient safety, learner experience, the need for public trust, and calls for increased accountability within the healthcare system (and across society, more generally) are the impetuses for a critical and ongoing examination of the CLE. Policy changes have resulted from patient safety incidents5 and subsequent advocacy for improvement in postgraduate medical training environments;6 community-based movements have put a spotlight on persisting inequities in healthcare and medical education.

여러 문헌에서는 의학 커리큘럼7,8,9을 통해 중첩된 억압 시스템이 어떻게 유지되고 있으며, 무례, 배제, 인종차별 및 학대를 허용하고 심지어 가능하게 하는 숨겨진 커리큘럼에 의해 지속되고 있는지에 대해 설명했습니다. 의학 교육의 본질적인 위계적 특성뿐만 아니라 사회적 억압의 축을 통해 학문적 의학에 존재하는 많은 권력 비대칭은 모든 학습자 상호 작용에 영향을 미칩니다. 의학 학습자와 교수진이 직면하는 협박, 차별, 괴롭힘의 높은 유병률11,12은 CLE가 대부분 사회적으로 구성되며, CLE를 형성하고 변화시키는 것은 우리의 도덕적, 신탁적 책임이라는 사실을 상기시켜 줍니다. 학습자와 교수진 모두는 긍정적인 변화의 주체가 될 수 있는 잠재력을 가지고 있으며 CLE에 의미 있는 기여를 할 수 있습니다.
The literature has described how overlapping systems of oppression are upheld directly through medical curricula7,8,9 and are perpetuated by a hidden curriculum that allows and even enables disrespect, exclusion, racism,10 and mistreatment. The many power asymmetries that exist in academic medicine, both through the inherently hierarchical nature of medical training but also through societal axes of oppression, influence every learner interaction. The high prevalence of intimidation, discrimination, and harassment faced by medical learners and faculty11,12 reminds us that the CLE is largely socially constructed, and it is our moral and fiduciary responsibility to shape and change it. Learners and faculty alike have the potential to be positive change agents and contribute meaningfully to the CLE.

CLE에 대한 다양한 증거 기반 척도가 발표되었습니다.4,13 

  • 의학전문대학원 교육 인증위원회에서는 이미 인증 절차에 CLE에 대한 공식적인 검토를 포함시켰는데, 임상 학습 환경 검토(CLER) 프로그램으로 알려진 검토 절차는 미국 인증 기관의 CLE 상태와 졸업생의 향후 진료 스타일에 대한 통찰력을 제공합니다4. 
  • 마찬가지로 캐나다 레지던트 인증 컨소시엄도 형평성, 다양성, 포용성 및 기타 학습 환경 고려 사항을 대학원 의학교육 인증 과정에 직접 인정하고 통합하는 것을 우선시하고 있습니다.14 

이는 CanMEDS 2025 내에서 CLE를 공식적으로 인정하여 의사 역량 프레임워크를 인증 표준과 일치시켜야 할 필요성을 시사하는 것입니다.
Various evidence-based measures of the CLE have been published.4,13 

  • The Accreditation Council for Graduate Medical Education has already incorporated formal review of the CLE into their accreditation processes–a review process, known as the Clinical Learning Environment Review (CLER) Program, provides insight into both the status of American accredited institutions’ CLEs and future practice styles of their graduates4.
  • Similarly, the Canadian Residency Accreditation Consortium has also prioritized acknowledging and integrating equity, diversity, inclusion, and other learning environment considerations directly into the postgraduate medical education accreditation process.14 

This speaks to the need for the CLE to be formally acknowledged within CanMEDS 2025, bringing the physician competency framework into alignment with accreditation standards.

임상 학습 환경은 2015 CanMEDS 역량 프레임워크에서 어떻게 표현됩니까?
How is the Clinical Learning Environment represented in the 2015 CanMEDS competency framework?

실무 그룹은 학자, 리더, 전문가 역할 내에서 CLE 관련 지원 역량을 확인했습니다(표 1A 및 및1B).1B). 2015년 CanMEDS 프레임워크 초안이 작성된 이후 캐나다 사회 전반에서 #미투, #흑인 생명도 소중하다, 진실과 화해 등의 지역사회 기반 운동과 관련된 책임에 대한 요구가 증가했습니다. 이러한 운동은 의료진, 특히 환자, 가족, 커뮤니티의 생생한 경험을 반영하기 때문에 의료와 직접적인 관련이 있습니다. 역사적으로 CLE의 사회적 차원에 대한 고려가 이루어졌지만, CLE를 구성하는 규범을 가능하게 하거나 방해하는 데 있어 권력, 특권, 사회적 위치가 어떤 역할을 하는지에 대한 더 많은 조사가 필요합니다. 의사와 기타 의료 서비스 제공자가 모든 행동(및 무행동)을 통해 CLE를 어떻게 형성하는지 이해하려면 여러 CanMEDS 역할에 걸쳐 역량을 업데이트해야 합니다. 
Our working group identified CLE-specific Enabling Competencies within the Scholar, Leader, and Professional Roles (Table 1A and and1B).1B). Since the 2015 CanMEDS framework was drafted, there have been increased calls for accountability across Canadian society related to community-based movements such as #MeToo, #BlackLivesMatter, and Truth and Reconciliation, among others. These movements have direct relevance to healthcare as they reflect lived experiences of healthcare teams and, importantly, patients, families, and communities. Historically, although consideration has been given to the social dimensions of the CLE, greater interrogation of the role that power, privilege, and social location play in enabling or disrupting the norms that comprise the CLE is required. Understanding the CLE, and how physicians and other health care providers shape it through their every action (and inaction), will require updates to competencies across multiple CanMEDS Roles.

 

임상 학습 환경이 2025 CanMEDS 역량 프레임워크 내에서 어떻게 더 잘 표현될 수 있을까요?
How can the Clinical Learning Environment be better represented within the 2025 CanMEDS competency framework?

다가오는 CanMEDS 2025 개정판(표 1C)에 CLE의 중심이 되는 개념을 보다 직접적으로 통합할 수 있는 여지가 있습니다. CLE는 전통적인 의미의 '기술'이 아니라는 점을 인정하지만, 심리적 안전, 문화적 겸손, 제도적 문화 변화에 대한 개념은 다른 CanMEDS 역량이 뒷받침할 수 있는 틀을 제공합니다. 
There is room to more directly incorporate concepts that are central to the CLE in the forthcoming CanMEDS 2025 revisions (Table 1C). While we acknowledge that the CLE is not a ‘skill’ in the traditional sense, it frames notions of psychological safety, cultural humility, and institutional culture change that other CanMEDS competencies would support.

심리적 안전은 "학습자가...자신의 업무 환경을 개인 내적 위험이 내재된 행동에 참여하는 데 도움이 되는 것으로 인식하는 정도"로 정의할 수 있습니다.15 심리적으로 안전한 학습 환경은 학습, 의사소통, 팀 결속, 협업, 환자 경험 및 결과에 긍정적인 영향을 미칩니다.16,17,18 심리적 안전을 증진하는 것에 대해 명시적으로 언급하는 것은 성장 마인드를 촉진하는 데 매우 중요합니다.8 역량 기반 교육에 필요한 특성이며19 의료계에 만연한 수치심 기반 교육 접근법과 대조되는 특성입니다.8
Psychological safety can be defined as “the degree to which learners…perceive their work environment as conducive to engaging in behaviours that have inherent intrapersonal risk.”15 Psychologically safe learning environments have positive impacts on learning, communication, team cohesion, collaboration, patient experiences, and outcomes.16,17,18 Being explicit about fostering psychological safety is critically important to promoting a growth mindset,8 a characteristic that is necessary in competency-based training19 and contrasts with the shame-based teaching approaches that remain pervasive in medicine.8

문화적 겸손은 자기 성찰과 비판에 대한 평생의 헌신을 반영합니다. 문화적 겸손에는 다음이 포함됩니다.20 

  • 자신의 사회적 위치에 대한 인식을 키우고, 
  • 타인의 경험을 완전히 이해하는 데 있어 자신의 한계를 인식하며, 
  • 타인을 자신의 경험에 대한 전문가로 바라보고
  • 신뢰에 기반한 관계를 조성하는 것

문화적 겸손에는 지속적인 학습과 탈학습에 대한 헌신과 함께 반인종주의 및 트라우마 정보에 기반한 접근법에 기반한 지식, 기술 및 태도를 개발하는 것이 포함됩니다.
Cultural humility reflects a lifelong commitment to self-reflection and critique. It involves

  • cultivating an awareness of one’s social location,
  • recognizing one’s limitations in fully understanding the experiences of others,
  • viewing others as experts of their own experiences, and
  • fostering trust-based relationships.20 

Cultural humility involves developing knowledge, skills, and attitudes grounded in anti-racism and trauma-informed approaches, with commitment to ongoing learning and unlearning.

마지막으로, 우리 모두는 다양한 인구의 요구를 대표하고 이에 대응할 수 있는 의료 인력을 양성하고 지원해야 할 공동의 책임이 있습니다. 이러한 목표를 달성하기 위해서는 모든 의료 서비스 제공자가 현재의 대표성 격차를 해소하고 모두가 소속감을 느낄 수 있는 환경을 조성하기 위한 제도적 문화 변화에 동참해야 합니다.
Finally, we all have a collective responsibility to be intentional about building and supporting a healthcare workforce that is representative of, and responsive to, the needs of our diverse population. This goal requires all healthcare providers to be part of creating institutional culture change to create environments in which the current representation gap is eliminated, and everyone feels like they belong.

CLE를 비정치적인 실체apolitical entity로 보는 경향은 오늘날 우리가 봉사하는 학습자, 교사, 환자, 가족 및 지역사회의 요구를 충족하는 학술 의학의 능력에 해를 끼쳤습니다. CanMEDS 2025는 모두에게 포용적이고 심리적으로 안전한 환경, 그리고 가장 중요한 것은 환자, 가족, 지역사회를 위한 최상의 경험과 결과를 보장하는 데 필요한 역량의 습득과 유지를 적극적으로 지원하는 방법과 CLE에 대해 우리가 생각하는 방식에 필요한 미묘한 차이를 가져올 수 있는 기회를 제공합니다. 광범위한 범위를 고려할 때, CLE는 자연스럽게 CanMEDS의 모든 역량을 다루게 될 것이며, 다른 실무 그룹과 권고 사항이 중복될 것으로 예상됩니다. 선택된 역량의 중요성은 해당 역량이 워킹그룹 활동 전반에서 어떻게 증폭되거나 수렴되는지 관찰함으로써 쉽게 파악할 수 있습니다.
The tendency to view the CLE as an apolitical entity has been to the detriment of academic medicine’s ability to meet the needs of the learners, teachers, patients, families, and communities that we serve today. CanMEDS 2025 offers us an opportunity to bring much needed nuance to how we think about the CLE and how we proactively support the acquisition and maintenance of the competencies needed to ensure inclusive and psychologically safe environments for all and most importantly, the best possible experiences and outcomes for our patients, families, and communities. Given its wide-reaching scope, the CLE will naturally touch on all the CanMEDS competencies, and we anticipate overlap in our recommendations with other working groups. The importance of select competencies will be readily identified by observing how they are amplified or converge across working group efforts.

자율 규제 전문직으로서, 우리는 학습자와 교수진 모두에게 CLE와 관련하여 재구상된 역량에 대한 책임을 부여해야 합니다. 이러한 책임을 다하기 위해서는 이러한 역량을 습득하고, 실행하고, 가르치는 방법을 설계, 구현 및 평가하기 위한 리소스가 필요합니다.
As a self-regulating profession, we must hold both learners and faculty accountable to these re-imagined competencies relating to the CLE. This accountability will require resources for designing, implementing, and evaluating how these competencies are acquired, practiced, and taught.

 

Can Med Educ J. 2023 Mar 21;14(1):41-45. doi: 10.36834/cmej.75537. eCollection 2023 Mar.

The Clinical Learning Environment in CanMEDS 2025

Affiliations

1University of Calgary, Alberta, Canada.

2University of Toronto, Ontario, Canada.

3University of Manitoba, Manitoba, Canada.

4McGill University, Quebec, Canada.

5University of Saskatchewan, Saskatchewan, Canada.

PMID: 36998502

PMCID: PMC10042790

DOI: 10.36834/cmej.75537

CanMEDS 2025에서 복잡-적응적 시스템(Can Med Educ J. 2023 )
Complex adaptive systems in CanMEDS 2025

소개
Introduction

복합적 적응 시스템은 CanMEDS 의사 역량 프레임워크에서 잘 알려지지 않은 개념입니다.1 복합적 적응 시스템환자와 인구를 위한 최적의 의료 결과를 제공하기 위해 복잡한 의료 시스템을 탐색하고 참여하는 것과 관련이 있으며,2 의료 팀이 복합적 적응 시스템으로 기능하는 방식부터 시작합니다.3 이 원고는 이 개념과 현재 및 향후 CanMEDS의 반복에 대한 연관성을 요약하는 것을 목표로 합니다. 
Complex Adaptive Systems are underrepresented in the CanMEDS physician competency framework.1 As a concept, it relates to navigating and engaging with our complex health system in service of optimal health care outcomes for patients and populations,2 starting with how healthcare teams function as complex adaptive systems.3 This manuscript aims to summarize the concept and its links to current and future iterations of CanMEDS.

복잡적 적응 시스템이란 무엇이며 의사의 역량에 중요한 이유는 무엇인가요?
What are Complex Adaptive Systems and why are they important to physician competency?

복잡성이란 사물이 예기치 못한 돌이킬 수 없는 방식으로 상호 작용하는 풍부한 상호 연결성을 말합니다. WHO에 따르면 "보건 시스템은 건강을 증진, 회복 및/또는 유지하는 것을 주된 목적으로 하는 조직, 사람, 행동과 같이 상호 작용하고 상호 의존하는 모든 구성 요소로 이루어져 있다."4 이는 복잡적 적응 시스템의 정의와 일치합니다:

  • 복잡적, 다양한 요소 사이에 수많은 비선형 연결이 있는 다양성을 의미하고,
  • 적응적, 변화하는 맥락 내에서 경험을 통해 학습하고 변화하는 역량을 시사하며,
  • 시스템, 상호 의존적으로 연결된 에이전트의 집합입니다.5,6

Complexity is about rich interconnectivity whereby things interact in unexpected and irreversible ways. According to the WHO, “The health system consists of all interacting and interdependent components, such as organizations, people, and actions, whose primary intent is to promote, restore, and/or maintain health.”4 That aligns with the definition of a complex adaptive system:

  • complex, implying diversity with a great number of non-linear connections between a wide variety of elements;
  • adaptive, suggesting the capacity to learn from experience and change within a changing context;
  • system, a set of interdependently connected agents.5,6

역사적으로 캐나다 의료 시스템은 병원 내 치료를 통한 급성 질환 치료에 중점을 두고 설계되었습니다.7 그 결과, 병원과 의사가 매개하는 치료가 우리 시스템의 조직과 자금에 대한 논의를 지배해 왔습니다. 레지던트 수련은 대부분 이러한 구조에 편입되어 그 틀에 맞춰져 왔습니다. 그러나 건강과 질병 관리의 결정 요인은 다층적이고 상호 의존적인 하위 시스템으로, 서로 지속적으로 상호작용하고 영향을 주고받습니다.8 이러한 시스템의 경계는 반투과적이다. 코로나19 팬데믹 기간 동안 생물학적 조건과 사회적 조건 및 상태가 상호 작용하여 개인의 건강 결과를 악화시키거나 해를 입힐 수 있는 취약성을 증가시킴으로써 이러한 시스템의 상호 연결성이 입증되었습니다.9 
As historically designed, the Canadian healthcare system focuses on curing acute disease with in-hospital care.7 As a result, hospitals and physician-mediated care have dominated the dialogue on our system’s organization and funding. Resident physician training has been largely embedded in and framed by these structures. However, the determinants of health and management of disease are multilayered and interdependent subsystems that continuously interact and influence each other.8 The boundaries of these systems are semipermeable. Their interconnectedness was demonstrated during the COVID syndemic as biologic and social conditions and states interacted to increase a person’s susceptibility to harm or worsen their health outcomes.9

각 의사가 보건 시스템의 모든 요소(예: 식량 안보, 주택, 교육, 기후 변화, 가정 간호, 아동 발달, 불평등 등)에 영향을 미칠 수는 없지만, 의사는 이 생태계를 이해하여 환자 및 이 시스템 내의 다른 에이전트와 어떻게 협력할지 선택할 수 있어야 합니다. 이를 위해서는

  • 시스템에 대한 기본적인 이해가 필요하며, 시스템이 조직 구조와 문화에 미치는 영향을 이해해야 한다
  • 관점의 다양성의 중요성을 강조하고,
  • 명확하고 공유된 목적의 범위 내에서 행동하며,
  • 지속적으로 적응할 수 있는 공간을 만들고,
  • 환경의 새로운 변화로부터 학습해야 한다.

While each physician may not be able to influence all elements of the health system (as for example, food security, housing, education, climate change, home care, child development, inequity, etc.), physicians need to understand this ecosystem in order to make choices about how they will engage with their patients and other agents within this system. This requires

  • a foundational understanding of systems and their influence on organizational structure and culture,
  • emphasizing the importance of diversity of perspective,
  • acting within the boundaries of a clear and shared purpose, and
  • creating spaces for continuous adaptation to, and
  • learning from emergent changes in the environment.10

이러한 이해를 바탕으로 의사는

  • 모든 이해관계자를 참여시키고,
  • 체계적으로 높은 레버리지(티핑 포인트)를 찾아서 트리거하며,
  • 의도하지 않은 결과 및 시스템 구조와 같은 개념을 인식할 수 있는 기술을 개발해야 합니다. 마지막으로, 의사는
  • 예측할 수 없는 급변하고 역설적이며 얽히고설킨 상황을 받아들이고 대처할 수 있는 태도와 기술을 갖추고, 자신의 행동과 건강을 신중하게 관리해야 합니다. 

Building on this understanding, physicians need to 

  • develop the skills to engage all stakeholders,
  • find and trigger systemic high leverage (tipping) points, and
  • be aware of concepts like unintended consequences and system structures. Finally, physicians need to
  • possess the attitudes and skills to accept and deal with rapid, unpredictable, paradoxical, and tangled situations and thoughtfully manage their behaviours, and own wellness.

2015 CanMEDS 역량 프레임워크에서 복합 적응 시스템은 어떻게 표현되나요?
How are Complex Adaptive Systems represented in the 2015 CanMEDS competency framework?

2015 CanMEDS 의사 역량 프레임워크의 주요 변경 사항 중 하나는 '관리자' 역할을 '리더' 역할로 변경한 것입니다.11 이러한 변경은 복잡한 의료 시스템 전반에서 질 향상과 자원 관리에 대한 의사의 역할에 더 초점을 맞추기 위해 이루어졌습니다. 리더 역할에 추가된 핵심 역량 중 두 가지(1, 3번)는 복잡한 시스템에서 기능하는 데 필요한 기술에 가장 큰 기여를 했습니다. 
One of the major changes in the 2015 CanMEDS Physician Competency Framework was the modification of the ‘Manager’ role to the ‘Leader’ role.11 This change was made to bring greater focus on physicians’ role in quality improvement and resource stewardship throughout complex health systems. Two of the key competencies added to the role of Leader (1 and 3) contributed most to the skills needed to function in complex systems.

두 번째 건강 옹호자 핵심 역량은 급성 의료 시스템의 요소를 1차 의료 및 예방 의료의 요소뿐만 아니라 건강과 웰빙에 영향을 미치고 옹호가 필요한 다른 요소와 연결하는 시스템적 사고11와도 관련이 있습니다. 마지막으로, 협력자의 역할에는 '치료의 전환' 및 '지역사회 제공자와의 협력'과 같은 개념을 포함하여 시스템적 사고와 연결되는 몇 가지 요소가 있습니다.11 
The second Health Advocate key competency also touches on systems thinking11 as it connects the elements of the acute healthcare system upstream, not only with those of primary and preventive care, but also with other factors that affect health and wellness and require advocacy. Finally, the role of Collaborator has a few elements that link with systems thinking, including concepts like “transitions of care” and “collaborations with community providers.”11

복잡한 적응형 시스템을 2025 CanMEDS 역량 프레임워크 내에서 어떻게 더 잘 표현할 수 있을까요?
How can Complex Adaptive Systems be better represented within the 2025 CanMEDS competency framework?

최근 CanMEDS 와 LEADS 리더십 프레임워크를 비교한 결과, CanMEDS 역량은 개별 환자 치료에 초점을 맞춘 일부 영역(자기 주도, 타인 참여, 결과 달성)에 상당한 관심을 기울이는 반면, 복합 적응 시스템과 관련된 광범위한 역량(연합 및 시스템 전환 개발)에는 덜 관심을 기울이는 것으로 나타났습니다.12 지난 몇 년 동안, 특히 COVID-19 팬데믹에 대응하여 발생한 빈번한 시스템 중단은 모든 의사가 복합 적응 시스템에 대한 이해를 높여야 할 필요성을 입증했습니다.13 이 분야의 역량은 의사들이 스스로를 의료 시스템 혁신의 적극적인 참여자로 인식하는 데 도움이 될 것이며, 이 개념이 CanMEDS 2025에서 더욱 구체화되어야 할 개념으로 식별되는 데 기여했을 수 있습니다.
A recent comparison of CanMEDS with the LEADS leadership framework found that CanMEDS competencies pay substantial attention to some of the domains focused on the care of individual patients (lead self, engage others, and achieve results), but less attention to broader competencies related to Complex Adaptive Systems (develop coalitions and systems transformation).12 The frequent systemic disruptions that have occurred over the past several years, particularly in response to the COVID-19 pandemic have demonstrated the need for a greater understanding of complex adaptive systems by all physicians.13 Competencies in this area will help physicians to see themselves as active participants in the transformation of the healthcare system and may have contributed to this concept being identified as one which needs to be fleshed out further in CanMEDS 2025.

CanMEDS 2025에 복합 적응형 시스템을 더 잘 통합하기 위해 제안하는 변경 사항은 표 1에 요약되어 있습니다.

  • 리더 역할에서 제안된 수정 사항은 환자별 결정과 시스템 전반의 결정 사이의 복잡한 상호작용에 대한 혁신, 출현 및 이해를 촉진하는 품질 개선과 함께 복잡성에 기반한 리더십 패러다임에 초점을 맞출 것입니다.14
  • 협력자에서는 복잡한 결정을 내릴 때 다양성과 관점의 차이에 대한 필요성을 보다 명확하게 인정하고 환자와 가족을 넘어 협력자의 개념을 확장할 것을 제안합니다.
  • '건강 옹호자'에서는 환자와 건강의 사회적 결정 요인 간의 복잡한 상호 작용을 인정하는 제안을 합니다. 마지막으로,
  • '학자'에서는 교육 활동의 설계 및 제공에 사회 학습 이론의 요소를 통합해야 하는 역량을 포함할 것을 제안합니다.

The changes that we propose to better incorporate Complex Adaptive Systems in CanMEDS 2025 are outlined in Table 1.

  • Within the Leader role, the proposed modifications would increase the focus on complexity-informed leadership paradigms alongside quality improvement that promote greater support for innovation, emergence and understanding of the complex interactions between patient-specific and system-wide decisions.14 
  • Under Collaborator, we propose more explicitly acknowledging the need for diversity and differences of perspective when making complex decisions as well as broadening the notion of who is a collaborator beyond the patient and family.
  • For Health Advocate, we make suggestions that would acknowledge the complex interactions between patients and the social determinants of health.
  • Lastly, under Scholar we suggest including competencies that require the incorporation of elements of social learning theory into the design and delivery of educational activities.

 


Can Med Educ J. 2023 Mar 21;14(1):50-53. doi: 10.36834/cmej.75538. eCollection 2023 Mar.

Complex adaptive systems in CanMEDS 2025

Affiliations

1University of Alberta, Alberta, Canada.

2Canadian Society of Physician Leaders, Ontario, Canada.

3University of Ottawa, Ontario, Canada.

4Royal College of Physicians and Surgeons of Canada, Canada.

5University of Toronto, Ontario, Canada.

6University of Saskatchewan, Saskatchewan, Canada.

PMID: 36998500

PMCID: PMC10042785

DOI: 10.36834/cmej.75538

CanMEDS 2025에서 데이터-기반 의학(Can Med Educ J. 2023 )
Data-Informed Medicine in CanMEDS 2025

 

소개
Introduction

건강 데이터 및 정보 사용에 대한 의사의 역량 강화의 필요성은 널리 인정받고 있습니다. 최근 검토1에 따르면 데이터 정보 의학은 CanMEDS 의사 역량 프레임워크2에서 충분히 반영되지 않은 개념으로 확인되었으며, 왕립대학의 "인공지능 및 신흥 디지털 기술에 관한 태스크포스 보고서"는 관련 역량을 CanMEDS에 통합할 것을 권고했습니다.3 데이터 기반 의학의사가 양질의 환자 의료 서비스를 제공하는 데 필요한 데이터 및 기타 디지털 정보의 수집, 사용, 공유에 필요한 역량과 관련이 있습니다. 이 입문서에서는 데이터 정보 의학의 개념과 이전 및 향후 버전의 CanMEDS와의 연관성을 요약합니다. 가상 진료의 관련 개념은 이번 호의 다른 기사에서 다룹니다.4
The need for enhanced physician competency in the use of health data and information is broadly acknowledged. A recent review1 Identified data-informed medicine as a concept that is underrepresented in the CanMEDS physician competency framework2 and the Royal College “Task Force Report on Artificial Intelligence and Emerging Digital Technologies” recommended incorporating related competencies into CanMEDS.3 Data-informed medicine relates to competencies required for the collection, use, and sharing of data and other digital information that is needed by physicians to deliver quality patient health service. This primer summarizes the concept of data-informed medicine and its links to former and future iterations of CanMEDS. The related concept of virtual care is addressed in another article in this issue.4

데이터 기반 의료란 무엇이며 의사의 역량에 중요한 이유는 무엇인가요?
What is Data-Informed Medicine and why is it important to physician competency?

현대 사회의 많은 부분에서 아날로그 정보 프로세스는 풍부한 데이터를 생성하는 디지털 워크플로우로 대체되었습니다. 이러한 변화는 여행, 상거래, 엔터테인먼트, 정치, 사회적 상호작용 등 대부분의 사회 분야에서 혁신을 가져왔습니다. 그러나 의료 분야에서는 이러한 가치 제안을 활용하는 속도가 느리고 디지털 의료 데이터가 기하급수적으로 증가하고 있음에도 불구하고 제대로 활용되지 않고 있습니다. 데이터 아키텍처를 의도적으로 설계하기보다는 거버넌스, 공공 정책 또는 신기술의 부산물로서 우연히 발생하는 경우가 많기 때문에 의료 데이터 구조가 무질서하게 구성되는 경우가 많습니다. 양질의 의료 서비스를 위한 증거 기반 데이터 아키텍처의 근본적인 중요성에 대한 이해가 널리 부족하다는 점이 이러한 접근 방식의 근간을 이루고 있습니다.  
In much of modern society, analogue information processes have been replaced by digital workflows that are generating an abundance of data. This has been transformative for most sectors of society including travel, commerce, entertainment, politics, and social interaction. However, the health sector has been slow to harness the value proposition, and digital health data are underutilized despite being collected at an exponentially increasing rate. Rather than being intentional in the design of data architecture, our health data construct is frequently disorganized and occurs by happenstance as a byproduct of governance, public policy, or new technologies. A widespread lack of literacy about the foundational importance of evidence-based data architecture to quality health service underlies this approach.

개인 및 인구 수준의 건강 데이터가 의학적 의사 결정 방식을 변화시키면서 의학은 진화하고 있습니다.5

  • 앞으로 의료계는 데이터의 힘을 활용하여 건강 데이터를 일상적으로 수집하고 분석하여 건강 결정 및 시스템 개선에 필요한 지식을 생성하는 학습 의료 시스템을 개발해야 합니다.6
  • 그 결과 환자 치료에 정보를 제공하고 공익을 증진하기 위해 건강 데이터의 수집, 교환, 집계 및 분석을 통합하는 데이터 기반 의학의 실천이 이루어질 것입니다.
  • 데이터 기반 의학은 인간의 인지능력을 대체하는 것이 아니라 의료 서비스 제공자가 의료 데이터를 전문적으로 활용하여 진료를 최적화하도록 요구할 것입니다. 

The practice of medicine is evolving as individual and population-level health data change how medical decisions are made.5 

  • Moving forward, the medical profession will need to harness the power of data to develop learning health systems that routinely collect and analyze health data to generate knowledge to inform health decisions and/or system improvements.6 
  • The result will be the practice of data-informed medicine that incorporates the collection, exchange, aggregation, and analysis of health data to inform patient care and promote public good.
  • Rather than replacing human cognition, data-informed medicine will require health providers to expertly leverage health data to optimize their practice.

'인간과 기계'의 데이터 협력이라는 새로운 패러다임을 뒷받침하기 위해서는 의료 데이터의 수집, 정리, 저장, 교환, 집계, 해석을 통해 양질의 환자 치료를 촉진하는 새로운 의사 역량이 필요합니다.7,8. 현재 의료 정보 시스템의 품질이 다양하고 의료 데이터 아키텍처, 의료 데이터 사용, 양질의 의료 서비스 제공 간의 관계를 보여주는 커리큘럼 콘텐츠가 부족하기 때문에 의사 수련생이 이러한 영역에서 역량을 갖추도록 하는 것은 어려운 일입니다.

  • 학부 의학교육에 보건 데이터 커리큘럼을 의미 있게 통합해야 한다는 요구에도 불구하고8 가시적인 변화는 거의 일어나지 않았으며, 기본적인 보건 데이터 역량이 부족하고 파편화된 디지털 기술 및 공공 정책 환경에서 활동할 것으로 예상되는 의료 전문가 집단이 계속 양성되고 있습니다.
  • 또한 데이터 리터러시 부족과 제대로 통합되지 않은 기술은 의사의 소진에 기여하고 있습니다.9

포괄적인 디지털 의료 데이터의 잠재력을 활용하여 환자 치료와 인구 건강을 개선하려면 의사에게 기초적인 의료 데이터 리터러시와 전문성을 갖추는 것이 필수적입니다.
To support this new paradigm of ‘human and machine’ data cooperation will require new physician competencies;7,8 the collection, organization, storage, exchange, aggregation, and interpretation of health data to facilitate high-quality patient care. Ensuring that physician trainees are competent in these areas is challenging due to current variability in quality of health information systems and a shortfall of curricular content demonstrating the relationship between health data architecture, health data use, and the provision of quality health services.

  • Despite calls for the meaningful integration of health data curriculum in undergraduate medical education8 little tangible change has occurred, and a cohort of medical professionals continues to be trained who lack basic health data competencies, and are expected to function in a fragmented digital technology and public policy environment.
  • Further, the lack of data literacy and poorly integrated technology is contributing to physician burnout.9 

Equipping physicians with foundational health data literacy and expertise is essential to harness the potential of comprehensive digital health data to improve patient care and population health.

여기에서는 의사가 데이터를 수집, 교환, 집계, 분석하여 올바른 데이터 기반 의학을 실천할 수 있도록 핵심 역량을 강화하기 위해 CanMEDS의 업데이트를 제안합니다(표 1).
Herein, we suggest updates to CanMEDS to promote core competencies that will enable physicians to collect, exchange, aggregate, and analyze data to practice sound data-informed medicine (Table 1).

 

데이터 기반 의학은 2015 CanMEDS 역량 프레임워크에서 어떻게 표현됩니까?
How is Data-Informed Medicine represented in the 2015 CanMEDS competency framework?

데이터 기반 의학은 2015 CanMEDS 역량 프레임워크에 포함된 용어가 아니었다.2 의료 정보학은 리더 역할(1.4)에 언급되어 있지만 구체적으로 정의되어 있지는 않습니다. 이러한 역량을 제안하기 위해 캐나다 의학위원회에서 채택한 정의를 활용하는데, 캐나다 의학위원회는 의료 정보학"의료 서비스에서 정보[및 데이터] 설계 및 사용에 대한 연구"로 정의합니다.10 의료 정보학에 대한 정의를 다음과 같이 제안합니다: "양질의 의료 서비스를 증진하기 위해 의사가 의료 정보학 지식을 적용하는 것." 2015년 프레임워크에서는 의료 전문가, 건강 옹호자, 학자의 역할에 따른 정보 활용에 대해 언급하고 있지만, 데이터 기반 의료를 최적화하는 데 필요한 여러 역량은 명시되어 있지 않습니다.
Data-informed medicine is not a term that is acknowledged in the 2015 CanMEDS competency framework.2 Health informatics is mentioned under the Leader role (1.4), but it is not specifically defined. For the purposes of these proposed competencies, we utilize a definition adapted from the Medical Council of Canada, who define health informatics as “the study of information [and data] design and use in health care.”10 In turn we propose the following definition of medical informatics: “the application of health informatics knowledge by physicians to promote quality health services.” While the 2015 framework does mention the use of information under the medical expert, health advocate, and scholar roles, the many competencies required to optimize data-informed medicine are not explicit.

2015 CanMEDS 의사 역량 프레임워크에 이러한 개념이 없다는 점을 고려할 때,2 최근 몇 년간 데이터 기반 의학의 중요성이 강조되면서 의료 정보 교환, 의료 데이터 형평성, 의료 데이터 상호운용성 및 데이터 분석에 대한 관심이 높아진 지난 10년 동안 이 분야에서 일어난 변화를 인식하는 것이 중요합니다.
When considering the absence of this concept within the 2015 CanMEDS physician competency framework,2 it is important to recognize the changes that have occurred in this field over the past decade, marked by an increased focus on health information exchange, health data equity, health data interoperability, and data analytics that have prompted an emphasis on the importance of data-informed medicine over recent years.

데이터 기반 의학이 2025년 CanMEDS 역량 프레임워크 내에서 어떻게 더 잘 표현될 수 있을까요?
How can Data-Informed Medicine be better represented within the 2025 CanMEDS competency framework?

왕립대학의 "인공지능 및 신흥 디지털 기술에 관한 태스크포스 보고서"는 데이터 정보 의학을 지원하기 위한 새로운 역량의 중요성을 강조하면서 '디지털 건강 리터러시'를 8번째 CanMEDS 역할로 추가할 것을 제안했습니다.3 그러나 우리는 이 개념과 관련된 역량(가상 진료에 관한 관련 기사4에서도 다루고 있음)이 기존의 CanMEDS 역할에 포함되어야 한다고 생각합니다. 따라서 고유한 역할을 신설하기보다는 데이터 기반 의료의 핵심 요소를 포함하도록 기존 지원 역량을 수정할 것을 제안합니다. 
Underscoring the importance of new competencies to support data-informed medicine, the Royal College “Task Force Report on Artificial Intelligence and Emerging Digital Technologies” suggested that ‘Digital Health Literacy’ should be added as an eighth CanMEDS role.3 However, we believe that competencies related to this concept (which are also addressed in a related article on virtual care4) should span existing CanMEDS roles. We therefore suggest modification of existing enabling competencies to include key elements of data-informed medicine, rather than the creation of a unique role.

2025 CanMEDS에 통합된 개념에는 다음 등이 포함됩니다. 

  • 의료 서비스에서 환자 데이터의 교환, 집계, 분석 및 활용을 촉진하기 위한 환자 데이터의 수집 및 저장, 
  • 개인 건강 정보에 대한 환자 접근성 개선, 
  • 개인 및 시스템 성과 개선을 위한 건강 데이터 사용 촉진 

Concepts that have been integrated include

  • the collection and storage of patient data to facilitate its exchange, aggregation, analysis, and utilization in medical service;
  • improving patient access to personal health information; and
  • promoting the use of health data for individual and system performance improvement.

이러한 역량을 효과적으로 통합하기 위해서는 의료 교육 및 의료 서비스에 대한 접근 방식에 체계적이고 문화적인 변화를 수용하는 디지털 시대의 의학교육을 체계적으로 재구상해야 합니다. 의사는 데이터 기반 의료 서비스를 제공하는 데 있어 필수적인 파트너입니다. 의사들이 진료 과정에서 생성하는 데이터는 임상 치료와 의료 시스템 계획, 혁신, 인구 건강 및 연구에 필수적입니다. 이 백서에 설명된 역량은 의료 데이터와 관련된 기회와 위험이 증가함에 따라 의사가 포괄적이고 조율된 환자 중심적인 방식으로 기여할 수 있는 역량을 보장하기 위한 것입니다. 
To effectively integrate these competencies, a systematic reimagination of digital-age medical education is required that embraces a systemic and cultural shift in our approach to medical training and health service. Physicians are essential partners in the delivery of data-informed care. The data that their practices generate are essential to clinical care and health system planning, innovation, population health, and research. The competencies described in this paper are intended to ensure the capacity of physicians to contribute in a comprehensive, coordinated and patient-centered way as the opportunities and risks associated with health data grow.


Can Med Educ J. 2023 Mar 21;14(1):54-57. doi: 10.36834/cmej.75440. eCollection 2023 Mar.

Data-Informed Medicine in CanMEDS 2025

Affiliations

1University of Saskatchewan, Saskatchewan, Canada.

2Royal College of Physicians and Surgeons of Canada, Ontario, Canada.

3University of Toronto, Ontario, Canada.

4University of Alberta, Alberta, Canada.

5Canadian VIGOUR Centre, Alberta, Canada.

6University of Ottawa, Ontario, Canada.

7College of Physicians & Surgeons of Alberta, Alberta, Canada.

PMID: 36998504

PMCID: PMC10042776

DOI: 10.36834/cmej.75440

CanMEDS 2025에서 의사 휴머니즘(Can Med Educ J. 2023)
Physician Humanism in CanMEDS 2025

 

 

소개
Introduction

캐나다 의사들은 과중한 의료 시스템에서 일하면서 취약성, 스트레스, 소진에 대한 인식이 부족합니다. 의료 인력 부족, 진료의 복잡성 증가, 코로나19 팬데믹은 이러한 문제를 더욱 심화시켜 환자 치료와 의사의 자기 관리에 영향을 미쳤습니다. 이러한 맥락에서 최근 한 검토에서 의사 휴머니즘이 CanMEDS 의사 역량 프레임워크에서 잘 알려지지 않은 개념으로 확인된 것은 놀라운 일이 아닙니다.1 의사 휴머니즘을 명시적으로 인정하고 존중하는 것은 건강하고 성실한 의사를 개발하고 유지하는 데 필요하며, 이는 환자에게 효과적인 인문학적 치료를 제공할 수 있는 의사의 능력을 뒷받침하는 것입니다.2
Canadian physicians experience underacknowledged vulnerability, stress, and burnout while working in an overburdened healthcare system. Health workforce deficits, increasing complexity of care, and the COVID-19 pandemic have magnified these challenges, impacting patient care and physician self-care. Within this context, it is no surprise that a recent review identified physician humanism as an underrepresented concept in the CanMEDS physician competency framework.1 Explicitly acknowledging and honouring physician humanity is necessary to develop and sustain healthy and wholehearted physicians, which also underpins physicians’ ability to provide effective humanistic care for patients.2

의사 인본주의란 무엇이며 의사의 역량에 중요한 이유는 무엇인가요?
What is Physician Humanism and why is it important to physician competency?

의사 휴머니즘내적 요소와 외적 요소를 모두 포함합니다.

  • 의사가 자신의 인간성을 경험하고 '자기 자신'과의 관계를 발전시키는 것
  • 환자를 인본적으로 돌보고 가족, 동료, 의료 시스템과 상호작용하는 데 기여하는 것

최근 문헌에서 주목받고 있는 주제인 의사의 웰니스는 의사 휴머니즘의 두 가지 측면에 대한 담론과 중요한 연관성을 가지고 있습니다. 역사적으로 의사들은 환자, 팀, 기관 등 타인의 필요를 자신의 필요보다 우선시하는 데 전념해 왔습니다. 의사 사회 계약에 대한 신뢰는 이러한 이타주의에 의해 촉진되며, 이타적인 의사 영웅의 패러다임은 종종 칭송받습니다. 그러나 의사도 개인적인 욕구, 한계, 취약성, 불완전성, 타락성, 사망률을 지닌 인간일 뿐입니다. 의사 휴머니즘의 개념은 의사의 신체적 필요(영양, 수면, 인지적 휴식), 사회적 필요(개인적 안전, 의미 있는 관계), 실존적 필요(가치, 의미)의 정당성과 함께 의사의 고유한 인간성과 인격성을 인정하는 것입니다. 
Physician humanism has both inward and outward facing components;

  • physician experiences of their own humanity and development of relationship with “self,” and
  • physician contributions towards humanistic care of patients and interactions with their families, colleagues, and the healthcare system.

Physician wellness, a prominent topic in the recent literature, has important links to discourse on both facets of physician humanism. Historically, physicians have committed to raise the needs of others—their patients, teams, and institutions - above their own. Trust in the physician social contract is facilitated by such altruism and the paradigm of the selfless physician hero is frequently celebrated. However, physicians are simply human with personal needs, limitations, vulnerabilities, imperfections, fallibility, and mortality. The concept of physician humanism recognizes the inherent humanity and personhood of physicians, along with the legitimacy of their physical needs (nutrition, sleep, cognitive rest), social needs (personal safety, meaningful connection), and existential needs (value, meaning).

실제로 의사가 자신의 인격과 자비로운 관계를 유지하는 것은 환자와 다른 관계에서 인문학적 치료를 확장하는 데 도움이 됩니다. 자기 돌봄은 인간성을 유지하는 데 중요한 기여를 하지만, 휴머니즘은 의사 개인의 필요를 넘어 가치와 관계, 자기와 '존재'가 세상과 타인과의 관계에서 표현되는 방식을 포함합니다.2 타인의 감정에 공감하는 능력인 공감은 의학 교육 과정에서 감소하는 것으로 나타났지만 예술과 인문학에서의 성찰과 경험을 통해 키울 수 있는 휴머니즘의 핵심 요소입니다. 의사가 자기 연민을 발휘하면서 자신의 감정을 파악하고 효과적으로 다룰 수 있는 능력을 유지하는 것은 휴머니즘적 진료의 기본입니다.

In fact, maintaining compassionate connection with their own personhood supports physicians in extending humanistic care to patients and in other relationships. While self-care is an important contributor to maintaining one’s humanity, humanism extends beyond the individual physician’s personal needs to include values and relationships, the ways in which self and “being” are expressed in the world and in relationship with others.2 Empathy, an ability to connect with the emotions of another, is a key element of humanism which has been shown to decline throughout medical training but can be nurtured through reflection and experiences in the arts and humanities. It is fundamental to humanistic care that physicians maintain the ability to identify and effectively navigate their own emotions, while employing self-compassion.

의사의 인간성에 대한 부정은 의사의 건강에 해로운 결과를 초래하며, 이는 의사의 건강 악화, 중독, 소진, 자살, 직업 이탈에 대한 통계에서 잘 드러납니다.3 의사와 환자의 인간성에 대한 무시는 현재 시스템에서 인문학적 치료가 부족하다는 피드백에 반영되어 있습니다.4 의료 및 의학교육 시스템은 과도한 업무량, 수면 부족, 부족한 자원, 경쟁 환경, 낙인, 정신건강을 위한 자원 부족 등 의사의 휴머니즘을 위협하는 수많은 요인이 존재합니다.5 의료 및 의학교육 시스템이 의사의 휴머니즘을 포용하고 육성하지 못하면 의사는 환자를 위한 양질의 인문학적 진료를 지속하는 데 어려움을 겪게 될 것입니다. 모든 리더와 이해관계자는 의사의 지속적인 자기 희생의 위험에 함께 맞서야 합니다. 막대한 개인적, 사회적 비용 없이 의사 휴머니즘을 계속 무시하는 것은 현실적이지 않습니다.4 
Denial of physician humanity has deleterious consequences for physician wellness that are underscored by statistics on physician ill-health, addiction, burnout, suicide, and exodus from the profession.3 Disregard for physician and patient humanity is reflected in feedback on the lack of humanistic care in the current system.4 Healthcare and medical education systems present countless threats to physician humanism including excessive workloads, sleep deprivation, insufficient resources, competitive environments, stigma and lack of resources for mental health.5 If healthcare and medical education systems fail to embrace and nurture physician humanism, physicians will continue to suffer as will their ability to sustain high-quality, humanistic care for patients. All leaders and stakeholders must together confront the dangers of continuous physician self-sacrifice; it is not realistic to perpetually disregard physician humanism without significant personal and societal cost.4

2015 CanMEDS 역량 프레임워크에서 의사 휴머니즘은 어떻게 표현되어 있나요?
How is Physician Humanism represented in the 2015 CanMEDS competency framework?

CanMEDS 의사 역량 프레임워크는 "역동적이고 점점 더 까다로워지는 의료 환경에서 사회적 요구"를 충족하기 위해 의사에게 요구되는 역량을 설명합니다.6 이 프레임워크는 "사람으로서의 의사" 역할에 의사 인본주의를 통합한 기초적인 온타리오 미래 의사 교육 프로젝트(EFPO)에서 파생되었습니다.7 이 역할의 일부 개념이 캔메즈 전문가, 의사소통자, 협력자, 리더 역할에 분산되어 있지만(표 1B), 의사의 사람됨은 CanMEDS 에 명확하게 포함되지 않았습니다. 의사의 인격은 인정된 현실이며 역량으로 정의할 수 있는 역할이 아니라고 주장할 수도 있지만, 우리는 의사의 인격이 의사 역량 프레임워크에서 중요한 위치를 차지할 가치가 있다고 생각합니다. 이에 비해 네덜란드에서 채택한 CanMEDS 프레임워크는 꽃의 줄기로서 ' Reflector' 역할을 우선시하며, 의사 수련과 역량에 대한 담론에서 의사 인본주의의 중요성을 강조합니다.8
The CanMEDS Physician Competency Framework describes the required competencies of physicians to meet “societal needs in a dynamic and increasingly demanding health care environment.”6 It derives from the foundational Educating Future Physicians of Ontario Project (EFPO), which notably incorporated physician humanism in a “Doctor as Person” role.7 While some concepts from this role were distributed among the CanMEDS Professional, Communicator, Collaborator, and Leader roles (Table 1B), physician personhood was not explicitly included in CanMEDS. While it could be argued that physician personhood is an acknowledged reality and not a role to be defined by competencies, we believe it warrants a prominent place in our physician competency framework. Comparatively, the Netherlands’ adaption of the CanMEDS framework prioritizes a “Reflector” role as the stem of the flower, asserting the importance of this aspect of physician humanism in discourse on physician training and competence.8

 

 

CanMEDS 2015의 의사 휴머니즘 관련 역량은 타인(환자, 동료, 기관)의 외형적 요구에만 초점을 맞추고 의사 자신의 인간성에 대한 충분한 관심을 소홀히 한다는 점에서 제한적이며 잠재적으로 해로울 수 있습니다. CanMEDS는 의사가 자신의 인간성을 효과적으로 탐구하고 육성하는 데 필요한 역량과 평생의 개인적, 직업적 정체성 형성을 통해 자아에 대한 인문학적 접근을 적절히 인정하지 않습니다.
The competencies related to physician humanism in CanMEDS 2015 are limited and potentially harmful in that they focus solely on the outward facing needs of others (patients, colleagues, and institutions), while neglecting sufficient attention to physicians’ own humanity. CanMEDS does not adequately acknowledge the competencies required by physicians to effectively explore and nurture their own humanity and a humanistic approach to self through lifelong personal and professional identity formation.

의사 인본주의가 2025 CanMEDS 역량 프레임워크 내에서 어떻게 더 잘 표현될 수 있을까요?
How can Physician Humanism be better represented within the 2025 CanMEDS competency framework?

2025 CanMEDS 프레임워크 업데이트는 의사 휴머니즘을 보다 명시적으로 인정하고 가치를 부여하여 의사, 환자, 의료 시스템의 복지에 필수적인 관련 역량을 강조할 수 있습니다.7-9 그러나 이는 쉽지 않을 것입니다. 복잡한 구조인 의사 휴머니즘은 쉽게 정의하거나 가르치거나 평가할 수 없습니다. 더 큰 문제는 이러한 구조와 관련된 역량을 정의하고 평가하는 것이 애초에 의사의 휴머니즘을 높이는 근본적인 가치와 목표를 훼손할 수 있다는 점입니다.9 예를 들어, 평가를 위해 휴머니즘적 행동을 정의하면 다음의 위험이 따릅니다.

  • 환원주의,
  • 성과 전시,
  • 교과과정에 투자할 가치가 있는 휴머니즘의 관찰 불가능한 측면(예: 감정, 가치) 무시,
  • 자기 관리 및 건강에 대한 개인적인 경험의 부적절한 평가,
  • 평생, 반성, 회복을 목적으로 하는 개발 측면에 대한 총평적 평가 스트레스

The 2025 CanMEDS framework update could more explicitly acknowledge and value physician humanism, underscoring its associated competencies as essential to the wellbeing of physicians, patients, and the healthcare system.7-9 However, this will be challenging. As a complex construct, physician humanism is not easily defined, taught, or assessed. Worse, defining and assessing competencies related to this construct may undermine the fundamental value and goals of elevating physician humanism in the first place.9 For example, defining humanistic behaviours for evaluation risks

  • reductionism,
  • performative display,
  • neglect of non-observable aspects of humanism worthy of curricular investment (i.e., emotions, values),
  • inappropriate evaluation of personal experiences of self-care and wellness, and
  • summative appraisal stress for an aspect of development intended to be lifelong, reflective, and restorative.

이러한 위험을 인식하고 14개의 새로운 핵심 역량을 제안하고 기존의 핵심 역량 1개를 조정하여 의사 휴머니즘이 나아갈 방향을 제시했습니다. 이러한 제안은 전문가 의견과 저자 그룹 간의 합의를 바탕으로 개발되었으며, 의사 휴머니즘을 CanMEDS 2025에 보다 직접적으로 통합할 수 있는 수단으로 제안되었습니다(표 1C). 이러한 역량의 평가로 인한 부정적인 영향을 방지하기 위해, 저자들은 이러한 역량을 평가의 목적으로 규정하지 않고 평생의 개인적 및 전문적 개발, 성찰적이고 협력적인 관행, 성장 마인드 증진을 위한 탐구와 육성을 목적으로 규정할 것을 제안합니다. 목표 설정, 등급별 경험, 건설적인 피드백, '실패'를 통한 학습을 통해 시간이 지남에 따라 자신과 자신의 능력을 개발할 수 있다는 믿음을 수용하는 성장 마인드를 보건 전문직 교육에 도입하면 학습 환경 개선, 학습자 복지, 어려움 속에서도 회복력 향상 등의 이점을 얻을 수 있습니다.10 
Acknowledging these risks, we have outlined a way forward for Physician Humanism by suggesting 14 new key competencies and adapting one existing key competency. These suggestions were developed based on expert opinion and consensus among our author group as a proposed means by which physician humanism could be more directly integrated into CanMEDS 2025 (Table 1C). To prevent adverse impacts from assessment of these competencies, the authors propose they are not delineated for assessment, but instead for exploration and nurturing of lifelong personal and professional development, reflective and collaborative practices, and promotion of a growth mindset. The benefits of employing a growth mindset in health professions education, whereby belief in the ability to develop oneself and one’s abilities over time through goal setting, graded experiences, constructive feedback, and learning through “failure” is embraced, include enhanced learning environments, learner well-being, and resiliency, even in the face of difficulty.10

이러한 역량을 정교화하는 '인간으로서의 의사' 역할에 우선순위를 두도록 CanMEDS를 확장하면 의사 휴머니즘의 중요성을 더욱 뚜렷하게 부각할 수 있습니다. 이 역할에는 전문성과 타인에 대한 개인적 책임을 넘어 의료 시스템의 어려운 제약 속에서 의사들이 자신에 대한 인문학적 접근 방식을 개발할 수 있도록 지원하는 역량이 포함될 것입니다. 의사 휴머니즘은 모든 역량 역할에 걸쳐 의사의 효과성에 영향을 미치므로, CanMEDS의 업데이트된 그림 표현은 '인격체로서의 의사' 역할을 꽃의 줄기, 잎, 뿌리와 같이 지지하고 양육하는 부분으로 상징할 수 있습니다.7,8
Preferably, expanding CanMEDS to prioritize a ‘Doctor as Person’ role in which these competencies are elaborated would more distinctly highlight the importance of physician humanism. This role would include competencies that extend beyond professionalism and personal responsibility to others, to support doctors in developing a humanistic approach towards themselves as well, within the challenging constraints of the healthcare system. As physician humanism influences the effectiveness of physicians across all competency roles, an updated pictorial representation of CanMEDS could symbolize the ‘Doctor as Person’ role as the supporting and nurturing parts of the flower: the stem, leaves and roots.7,8


Can Med Educ J. 2023 Mar 21;14(1):13-17. doi: 10.36834/cmej.75536. eCollection 2023 Mar.

Physician Humanism in CanMEDS 2025

Affiliations

1Department of Family Medicine, McMaster University, Ontario, Canada.

2Department of Medicine, University of Alberta, Alberta, Canada.

3Royal College of Physicians and Surgeons of Canada, Ontario, Canada.

4Department of Pediatrics, McGill University, Quebec, Canada.

5University of Saskatchewan, Saskatchewan, Canada.

6Department of Emergency Medicine, Queen's University, Ontario, Canada.

PMID: 36998505

PMCID: PMC10042789

DOI: 10.36834/cmej.75536

CanMEDS 의사 역량 프레임워크에서 새로 등장하는 개념들  (Can Med Educ J. 2023)
Emerging concepts in the CanMEDS physician competency framework (Can Med Educ J. 2023)

 

소개
Introduction

CanMEDS 역량 프레임워크는 1996년에 발표되어 2005년과 2015년에 업데이트되었습니다.3 캐나다4,5 및 국제적으로 의학교육에 큰 영향을 미쳤으며,6-8 커리큘럼 및 프로그램 설계를 변화시켜 과거에는 의학교육에서 충분히 다루지 않았던 역량에 초점을 맞추도록 했습니다. 캐나다 왕립 의사 및 외과의 대학에서 내부적으로 추적한 결과, 현재 전 세계 50개 이상의 관할 지역에서 최소 12개 전문 분야에서 CanMEDS를 사용하고 있으며 수백만 명의 수련생과 환자에게 영향을 미치고 있는 것으로 추산됩니다.
The CanMEDS competency framework was published in 19961 with updates in 20052 and 2015.3 It has had a major impact on medical education both in Canada4,5 and internationally,68 transforming curricular and program design to increase the focus on competencies that were historically not addressed adequately within medical education. Internal tracking by the Royal College of Physicians and Surgeons of Canada estimates that CanMEDS is now used in over 50 jurisdictions around the world by at least 12 professions, impacting millions of trainees and patients.

의학교육에서 의사의 역량 프레임워크가 수행하는 중심적인 역할을 고려할 때, 2025년에 계획된 개정판은 새로운 역량을 추가하고 오래된 역량을 제거함으로써 진화하는 사회적 요구에 부응해야 합니다. 이는 특히 코로나19 팬데믹으로 인해 의료 및 의학교육이 계속 차질을 빚고 있고,9-15 건강 및 행동 모니터링에 기술이 점점 더 많이 사용되고 있으며,16,17 식민주의,18 제도적 차별,19 성차별,20 인종차별,21 기후변화22가 건강에 미치는 영향이 점점 더 많이 인식되고 있는 현재 환경과 관련이 있습니다. 
Given the central role that the CanMEDS physician competency framework plays within medical education, the planned 2025 revision must respond to evolving societal needs through the addition of new competencies and the removal of outdated competencies. This is particularly relevant in the current environment as healthcare and medical education continue to be disrupted by the COVID-19 pandemic,915 technology is increasingly used to monitor health and behavior,16,17 and the impacts of colonialism,18 systemic discrimination,19 sexism,20 racism,21 and climate change22 on health are increasingly acknowledged.

2015년 개정된 CanMEDS 역량 프레임워크3는 저자 팀원(Van Melle)이 수행한 문헌 검색 및 주제별 분석을 통해 정보를 얻었습니다.23 이 분석은 7가지 새로운 개념(직업적 자아 정체성, 역량의 한 형태로서의 감정, 시스템 기반 실무/실무 기반 학습 및 개선, 인수인계, 글로벌 보건, 소셜 미디어, 의료 분야의 재정적 인센티브)을 확인하고 설명했습니다. 문헌에 초점을 맞추다 보면 발표되지 않은 개념을 놓칠 수 있지만,24 우리는 2025년 CanMEDS 역량 프레임워크의 개정을 위한 광범위한 환경 조사의 일환으로 이 작업을 복제하고 확장하고자 했습니다.  
The 2015 revision of the CanMEDS competency framework3 was informed by a literature scan and thematic analysis performed by a member of our authorship team (Van Melle).23 Their analysis identified and described seven emerging concepts (professional self-identity, emotion as a form of competence, systems-based practice/practice-based learning and improvement, handover, global health, social media, and financial incentives in health care). While focusing on the literature may miss concepts that have not been published,24 we sought to replicate and expand upon this work as part of a broader environmental scan that will inform the revision of the 2025 CanMEDS competency framework.

2015년 방법론을 기반으로,23 우리는 분석에 광범위한 이해관계자 그룹을 포함하여 방법론을 자세히 설명하고, 의학교육 커뮤니티의 검토와 논평을 위해 결과를 공개적으로 게시함으로써 검색 및 검토 프로세스의 엄격성, 포용성, 투명성을 높이는 것을 목표로 합니다. 
Using the 2015 methodology as a base,23 we aim to increase the rigor, inclusiveness, and transparency of the search and review process by outlining our methodology in detail, including a broad group of stakeholders in the analysis, and openly publishing our results for review and commentary from the medical education community.

 

방법론
Methodology

문헌 검색, 제목 및 초록 검토, 일반 주제별 분석25을 통해 문헌을 종합하여 CanMEDS 역할과 관련된 새로운 개념을 파악했습니다. CanMEDS 내에서 더 잘 표현되어야 할 개념을 식별하는 광범위한 작업 목표를 고려할 때, 일반적인 문헌 검토 전략으로는 우리의 목표를 달성할 수 없다는 사실을 발견했습니다. 그 대신 2015년 CanMEDS 개정 이전에 Van Melle 23에서 사용했던 실용적인 접근 방식을 기반으로 포함할 문헌을 결정하고 분석에 정보를 제공했습니다. 
We synthesized the literature using a literature scan, title and abstract review, and generic thematic analysis25 to identify emerging concepts related to the CanMEDS roles. Given the broad-based goal of our work to identify concepts that needed to be better represented within CanMEDS, we did not find that any common literature review strategies would meet our goals. Rather, we built upon the pragmatic approach previously used by Van Melle 23 prior to the 2015 CanMEDS revision to determine the literature to be included and inform its analysis.

2015년 신개념 검토는 한 명의 저자가 수행했지만,23 이 검토를 위해 2025년 CanMEDS 개정을 주도하는 기관/단체인 캐나다 왕립 의사 및 외과의사 대학, 캐나다 퀘벡 의과대학, 캐나다 가정의학과 대학, 캐나다 의학부 협회에서 회원 추천을 받아 실무 그룹을 구성했습니다. 검토의 목적상, 새로운 개념은 의사의 역할 및 역량과 관련된 동료 검토 문헌에서 논의된 아이디어 중 2015 CanMEDS 의사 역량 프레임워크에 없거나 과소 대표되는 개념으로 정의했습니다.3 
While the 2015 emerging concepts review was conducted by a single author,23 for this review we created a working group by soliciting nominations for members from the institutions/organizations steering the 2025 CanMEDS revisions: the Royal College of Physicians and Surgeons of Canada, Collège des Médecins du Québec, College of Family Physicians of Canada, and Association of Faculties of Medicine of Canada. For the purpose of our review, an emerging concept was defined as an idea discussed in the peer reviewed literature related to the role and competencies of physicians that is either absent or underrepresented in the 2015 CanMEDS physician competency framework.3

논문 포함 기준
Article inclusion criteria

Van Melle이 이전 검토에서 사용한 방법과 유사하게 우리는 CanMEDS와 관련된 새로운 개념을 논의할 가능성이 높은 의학 저널을 선택했습니다. 여기에는 저널 임팩트 팩터 기준 가장 영향력이 높은 의학교육 저널 3종(Academic Medicine, Medical Education, Medical Teacher)과 캐나다(Canadian Medical Education Journal) 및 대학원(Journal of Graduate Medical Education) 의학교육과 관련된 콘텐츠를 게재하는 저널이 포함되었습니다. 이러한 접근 방식은 영향력이 가장 높은 의학교육 저널을 중심으로 한 Van Melle의 연구와는 다소 차이가 있지만,23 캐나다 및 대학원 의학교육에 특별히 초점을 맞춘 저널을 포함시키는 것이 중요하다고 생각했습니다. 2018년 10월 1일부터 2021년 10월 1일 사이에 이러한 저널에 게재된 모든 논문이 포함 대상으로 고려되었습니다. 이 3년의 기간은 실현 가능한 범위 내에서 현재와 관련된 개념에 초점을 맞추기 위해 실용적으로 선택되었습니다.  
Paralleling the methods used by Van Melle in the prior review.23 we selected medical journals that would be likely to discuss emerging concepts related to CanMEDS. They included the three highest impact medical education journals by Journal Impact Factor (Academic Medicine, Medical Education, and Medical Teacher) and journals that publish content specifically related to Canadian (Canadian Medical Education Journal) and postgraduate (Journal of Graduate Medical Education) medical education. This approach differed somewhat from Van Melle’s work which was based specifically on the highest impact medical education journals,23 but we felt it was important to include journals focused specifically on Canadian and postgraduate medical education. All articles published within these journals between October 1st, 2018, and October 1st, 2021 were considered for inclusion. This three-year time period was pragmatically selected to focus on currently relevant concepts while still being feasible.

데이터 추출
Data extraction

제목과 초록 검토를 용이하게 하기 위해 선택한 저널에서 검토 기간 내에 출판된 모든 논문에 대해 저널 제목, 논문 제목, 인용 데이터를 포함한 메타데이터를 PubMed에서 추출했습니다. 이러한 데이터를 Zotero26으로 가져와서 각 논문의 초록을 포함한 추가 메타데이터를 추가했습니다. 그런 다음 확장된 메타데이터를 Zotero에서 Google 시트로 내보냈습니다. 토마는 예비 검토를 수행하여 새로운 개념에 초점을 맞추지 않을 것 같은 몇 가지 기사 유형을 제외했습니다. 이러한 기사에는 기관 보고서, 작가 성명서, 정정 및 정오표, 에세이 콘테스트 기사, 편집자에게 보내는 편지, 저널에 초점을 맞춘 사설, 다른 기사 목록을 요약한 기사, 심사자 및/또는 기획위원회 위원에게 감사를 표하는 기사 등이 포함되었습니다. 나머지 기사는 표준화된 형식으로 정리하여 개별 실무 그룹 구성원에게 검토를 맡겼습니다. 
To facilitate the title and abstract review, metadata including the journal title, article title, and citation data were extracted from PubMed for all articles published within the review period in the selected journals. These data were imported into Zotero26 which added additional metadata including each article’s abstract. The expanded metadata were then exported from Zotero into a Google Sheet. Thoma performed a preliminary review and excluded several article types because they were unlikely to focus on emerging concepts. These articles included institutional reports, artist’s statements, corrections and errata, essay contest articles, letters to the editor, editorials focused on the journal, articles summarizing lists of other articles, and articles focused specifically on thanking reviewers and/or planning committee members. The remaining articles were arranged in a standardized format and assigned for review to individual working group members.

논문 검토
Article review

15명의 리뷰어 각각은 2021년 10월 10일부터 2021년 11월 30일까지 검토할 기사를 배정받았습니다. 토마는 팀 또는 개별 가상 회의에서 각 리뷰어에게 방향을 제시했습니다. 각 검토자는 자신의 문서에 대해 다음 질문에 답변했습니다: 
Each of 15 reviewers was assigned articles for review between October 10, 2021 and November 30, 2021. Thoma oriented each reviewer in a team or individual virtual meeting. Each reviewer responded to the following questions for their articles:

  1. 이 기사가 CanMEDS 역할과 관련이 있습니까? (예/아니오/아마도)
  2. 이 문서가 위에서 정의한 새로운 개념을 설명하는가? (예/아니오/아마도)
  3. 예/아니요/아마도 해당한다면, 이 기사가 관련된 주요 역할은 무엇인가요? (의료 전문가, 커뮤니케이터, 협력자, 학자, 건강 옹호자, 리더, 전문가)
  4. 해당 역할과 관련된 추가적인 CanMEDS 역할이 있나요? (의료 전문가, 커뮤니케이터, 협력자, 학자, 건강 옹호자, 리더, 전문가)
  5. 새로운 개념을 간단한 제목으로 설명해 주세요. (자유 텍스트)
  6. 필요한 경우, 새로운 개념에 대한 간략한 설명을 제공하세요. (자유 텍스트)
  7. 이 개념은 2015년 버전의 CanMEDS에 (가) 없거나 (나) 과소 대표되는 개념인가요? (A 및 B 옵션이 있는 드롭다운)
  8. 이 글은 새로운 개념을 잘 요약한 예시적인 글인가요? (예, 아니오, 아마도)

 

  1. Does this article relate to the CanMEDS roles? (Yes/No/Maybe)
  2. Does this article describe an emerging concept as defined above? (Yes/No/Maybe)
  3. If yes/maybe, what is the primary role that it relates to? (Medical Expert, Communicator, Collaborator, Scholar, Health Advocate, Leader, Professional)
  4. Are there any additional CanMEDS roles that it relates to? (Medical Expert, Communicator, Collaborator, Scholar, Health Advocate, Leader, Professional)
  5. Please describe the emerging concept as a brief title. (free text)
  6. If necessary, provide a brief description of the emerging concept. (free text)
  7. Is this a concept (a) absent from or (b) underrepresented in the 2015 iteration of CanMEDS? (dropdown with A and B options)
  8. Is this an exemplar article that summarizes the emerging concept well? (Yes, No, Maybe)


질문 1 또는 2에 대한 답변이 '아니오'인 경우, 질문 3~8에 대한 답변이 없는 것으로 간주하여 추가 검토 대상에서 제외합니다. 검토자가 질문 1 또는 2에 대해 '아마도'로 표시한 기사는 두 번째 검토자(토마)가 검토한 후 응답에 따라 포함 또는 제외했습니다. 
If the response to questions 1 or 2 was ‘no,’ questions 3-8 were not answered and these articles were excluded from further review. Articles that the reviewer tagged as ‘maybe’ for question 1 or 2 were reviewed by a second reviewer (Thoma) and included or excluded based upon their responses.

주제별 분석
Thematic analysis

제목과 초록 검토가 완료된 후, 나머지 논문은 하나의 Google 스프레드시트에 통합되었습니다. 그런 다음 두 명의 저자(토마, 반 멜레)가 질문 5에 대한 검토자의 답변, 검토자가 파악한 새로운 개념, 필요한 경우 논문의 메타데이터를 바탕으로 주제별 분석25,27을 수행했습니다. 이 분석은 주제 분석의 단계를 따랐습니다.28

  • 예비 검토(숙지)를 거친 후 코드북을 개발하고 공동으로 다듬었습니다.
  • 그런 다음 필요한 경우 코드북을 수정하여 모든 기사를 코딩했습니다(코딩).
  • 모든 기사가 코딩된 후, 토마는 코드를 통합한 예비 주제 세트를 개발하고 정의했습니다(주제 검색).
  • 이렇게 만들어진 주제별 프레임워크는 Van Melle이 각 주제를 명확히 하고 정의하기 위해 수정하여 검토, 수정, 승인했습니다(주제 정의 및 이름 지정).
  • 그런 다음, 전체 워킹 그룹에게 피드백 및 수정을 위해 제시되어 구성원 점검(테마 검토)의 첫 번째 단계로 진행되었습니다.
  • 후속 조치로, 구성원 점검(테마 검토)의 두 번째 단계로 Google 설문조사를 통해 워킹그룹 구성원을 대상으로 설문조사를 실시했습니다. 이 설문조사에서는 각 테마에 대한 검토팀의 지지를 요청하고 테마를 어떻게 더 구체화할 수 있는지 물습니다. 이러한 제안은 분석에 반영되었습니다.


After the title and abstract reviews were completed, the remaining articles were amalgamated into a single Google Sheet. Two authors (Thoma and Van Melle) then conducted a thematic analysis25,27 of the reviewers’ responses to question 5, the emerging concept identified by the reviewing author and, when necessary, the article’s metadata. This analysis followed the phases of thematic analysis.28 

  • Following a preliminary review (familiarization), we developed and collaboratively refined a codebook.
  • We then coded all the articles with refinements to the codebook when necessary (coding).
  • Once all articles were coded, Thoma developed and defined a preliminary set of themes incorporating the codes (searching for themes).
  • The resulting thematic framework was reviewed, modified, and endorsed by Van Melle with modifications to clarify and define each theme (defining and naming themes).
  • It was then presented to the full working group for feedback and revision as the first part of the member check (reviewing themes).
  • In follow-up, a survey of the working group members was conducted via a Google Forms survey as the second part of the member check (reviewing themes). The survey requested endorsement for each of the themes from the review team and asked how the themes could be further refined. These suggestions were incorporated into the analysis.

분석 내내 토마스와 반 멜레는 각자의 위치를 고려했습니다. 토마는 응급 및 외상 전문 의사로, 기술 기반 의학교육(시뮬레이션, 온라인 교육 리소스, 학습 분석)에 중점을 둔 의학교육 연구를 수행하고 있습니다. Van Melle은 프로그램 평가 및 변화, 특히 역량 기반 의학교육 맥락에 대한 전문성을 갖춘 교육 과학 박사 학위자입니다. 두 사람 모두 캐나다 왕립 의사 및 외과의 대학과 계약을 맺고 캐나다 전역의 전문 의사 양성을 위한 교육 개발에 관한 자문을 제공하고 있습니다. 우리는 가상 회의와 다양한 의료 전문 분야 및 CanMEDS 이해관계자의 관점을 담은 저자 그룹과의 후속 설문조사를 통해 각자의 위치로 인한 편견을 완화하기 위해 노력했습니다.
Throughout the analysis, Thoma and Van Melle considered their positionality. Thoma is a practicing emergency and trauma physician who conducts medical education research with a focus on technology-enhanced medical education (simulation, online educational resources, and learning analytics). Van Melle is a PhD education scientist with expertise in program evaluation and change, particularly in competency-based medical education contexts. Both are contracted by the Royal College of Physicians and Surgeons of Canada to provide advice regarding educational developments in the training of specialty physicians across Canada. We attempted to mitigate the biases introduced by their positionality through member checks conducted both in a virtual meeting and a follow-up survey with an authorship group that contained perspectives from a range of medical specialties and CanMEDS stakeholders.

삼각측량
Triangulation

출판 지연과 의학 저널의 게이트키핑으로 인해 일부 새로운 개념이 문헌에 나타나지 않았을 수 있다는 점을 인식하고24, 문헌 검색과 병행하여 수행한 온라인 검색 및 주제별 분석의 결과와 결과를 상호 참조했습니다. 이 검색 및 분석의 전체 방법론과 결과는 보고되지 않았고 본 연구의 공식적인 부분은 아니었지만, 저자 중 한 명(Snell)은 새로운 개념을 식별하고 주제별로 분석하기 위해 여러 키워드로 Google 검색 엔진을 사용하여 회색문헌을 검색했습니다. 이 분석 결과를 자체 분석 결과와 상호 참조하여 검색에서 발견되지 않은 회색 문헌에서 떠오르는 개념을 식별함으로써 결과를 삼각측량했습니다.
Acknowledging that publication delays and the gatekeeping of medical journals could have prevented some emerging concepts from appearing in the literature24, we cross-referenced our results with the findings of an online search and thematic analysis that was conducted in parallel to our literature scan. While the full methodology and results of this search and analysis have not been reported and were not a formal part of our study, one of our authors (Snell) searched the grey literature using the Google search engine with multiple key words with the goal of identifying and thematically analyzing emerging concepts. We triangulated our results by cross-referencing the findings of this analysis with our own to identify emerging concepts from the grey literature that were not found in our scan.

전문가 검토
Expert review

앞서 설명한 분석이 완료된 후, 토마는 워킹 그룹 멤버와 캐나다 왕립 의사 및 외과의사 임상의사 교육자들에게 10가지 새로운 개념 각각에 대해 전문가를 추천해 달라고 요청했습니다. 이 원고의 저자 팀원과 설문조사에서 추천된 전문가를 결합하여 집필 그룹을 구성했습니다. 각 집필 그룹은 2022년 3월부터 2022년 7월까지 각 개념을 정의하는 간략한 원고를 작성하고, 2015 CanMEDS 의사 역량 프레임워크에서 어떻게 표현되는지 설명하고,3 CanMEDS 2025의 변경 사항을 제안하는 것을 목표로 2~4회 모임을 가졌습니다. 집필 그룹이 각 개념의 이름에 대해 제안한 변경 사항은 검토 및 승인을 위해 실무 그룹에 이메일로 전송되었습니다.
Following the completion of the described analysis, Thoma asked the working group members and the Royal College of Physicians and Surgeons of Canada Clinician Educators to nominate experts for each of the ten emerging concepts. Writing groups were formed, combining members of the authorship team for this manuscript and the experts that were nominated in the survey. Each writing group met 2-4 times from March 2022 through July 2022 with the goal of writing a brief manuscript defining each concept, outlining how it is represented in the 2015 CanMEDS physician competency framework,3 and proposing changes for CanMEDS 2025. The changes proposed by the writing groups to the name of each concept were emailed to the working group for review and approval.

결과
Results

그림 1에 요약된 바와 같이 관심 기간 동안 포함된 저널에 4973편의 논문이 게재되었습니다. 이 중 505개 논문은 기관 보고서, 저자의 성명서, 정정 또는 오타, 에세이 콘테스트 논문, 편집자에게 보내는 편지, 저널에 초점을 맞춘 사설, 논문 목록이 포함된 논문, 심사자에게 감사하는 논문, 위원회 위원에게 감사하는 논문으로 간주되어 예비 검토에서 제외되었습니다. 4468편의 논문이 제목 및 초록 심사를 받았습니다. 각 심사자는 142~385편의 논문을 검토했습니다(평균 = 298편). 두 차례의 검토를 거친 후 나머지 4468편의 논문 중 1017편(22.8%)이 주제별 분석에 포함되었습니다. 
As outlined in Figure 1, 4973 articles were published in the included journals during the period of interest. 505 of these articles were excluded in the preliminary review because they were deemed to be institutional reports, artist’s statements, corrections or errata, essay contest articles, letters to the editor, editorials focused on the journal, articles containing lists of articles, articles thanking reviewers, or articles thanking committee members. 4468 articles underwent title and abstract review. Each of the reviewers reviewed between 142 and 385 articles (mean = 298 articles). Following both rounds of review, 1017 of the remaining 4468 articles (22.8%) were included in the thematic analysis.

질적 분석에서는 81개의 코드를 9개의 예비 테마로 통합했습니다. 저자 검토자들과의 대규모 그룹 회의에서 나온 피드백을 바탕으로, 하나의 주제(형평성, 다양성, 포용성)를 두 개의 주제(1. 의사 형평성, 다양성, 포용성 및 2. 환자 접근성, 형평성, 포용성, 사회 정의)로 나눴다. 모든 워킹그룹 구성원이 구성원 점검 설문조사를 완료했습니다. 설문조사 피드백을 바탕으로 몇 가지 주제 제목의 문구를 수정했지만, 삭제되거나 통합된 주제는 없었습니다. 
Our qualitative analysis incorporated 81 codes into nine preliminary themes. Based upon feedback at the large group meeting with the author reviewers, one additional theme was created by splitting one of the themes (Equity, Diversity, and Inclusion) into two (1. Physician Equity, Diversity, Inclusion and 2. Patient Access, Equity, Inclusion, and Social Justice). All working group members completed the member check survey. Modifications in wording were made to several of the theme titles based upon survey feedback, but no themes were removed or amalgamated.


10명의 워킹 그룹 멤버와 9명의 임상 교육자가 설문조사를 완료하여 새로운 개념 각각에 대한 집필 그룹에 참여할 전문가를 추천했습니다. 각 개념에 대해 글쓰기 그룹을 구성하여 해당 개념이 CanMEDS에 보다 효과적으로 통합될 수 있는 방법을 설명하는 임무를 맡겼습니다. 환자와 의사의 형평성, 다양성, 포용성에 초점을 맞춘 두 개의 집필 그룹은 이 개념이 단일 원고를 작성하기에는 너무 광범위하다고 판단했습니다. 따라서 초기 분석에서처럼 환자와 의사 중심의 원고로 나누기보다는 반인종주의에 초점을 맞춘 원고와 형평성, 다양성, 포용성, 사회 정의에 초점을 맞춘 두 번째 원고로 나눌 것을 권장했습니다. 이 권고에 따라 집필 그룹은 수정되었고, 이후 집필팀의 승인을 받았습니다. 집필 그룹의 수정에 따른 주제별 분석 결과는 표 1에 제시되어 있습니다. 

Ten working group members and nine clinician educators completed the survey nominating experts to participate in a writing group on each of the emerging concepts. A writing group was formed for each concept and tasked with describing how it could be more effectively integrated into CanMEDS. The two writing groups focused on patient and physician equity, diversity, and inclusion determined that this concept was too broad for a single manuscript. However, rather than splitting it into patient and physician focused manuscripts as was done in the initial analysis, they recommended dividing it into one manuscript focused on anti-racism and a second manuscript focused on equity, diversity, inclusion, and social justice. The writing groups were modified in keeping with this recommendation which was subsequently endorsed by our authorship team. The results of the thematic analysis following modification by the writing groups are presented in Table 1.

 

표 1에는 각 주제에서 논의된 의사의 잠재적 역량에 대한 설명과 1차 구성원 점검 시 각 주제를 새로운 개념으로 지지한 실무 그룹 구성원의 비율도 포함되어 있습니다. 17명의 실무 그룹 구성원 중 최소 14명(82.4%)이 각 주제를 새로운 개념으로 지지했습니다. 주제를 지지하지 않은 이유에 대해서는 해당 주제가 참신하지 않다고 생각하거나, CanMEDS 역량과 어떻게 관련될 수 있는지 알지 못하거나, 주제를 분할하거나 확장하는 것을 선호하는 등 다양한 제안이 있었습니다. 회색 문헌 검색에서는 추가로 떠오르는 개념이 발견되지 않았습니다. 
Table 1 also includes a description of the potential physician competencies discussed within each theme and the proportion of working group members who endorsed each theme as an emerging concept during the first member check. At least fourteen (82.4%) of the 17 working group members endorsed each of the themes as an emerging concept. There were a variety of suggestions provided for why a member did not endorse a theme such as not identifying the theme as novel, not seeing how it could relate to a CanMEDS competency, or preferring themes be split or expanded. The grey literature search did not identify any additional emerging concepts.

10개 작성 그룹 중 6개 그룹은 개념을 더 정확하게 설명하기 위해 개념의 제목을 변경할 것을 제안했습니다. 새로운 개념의 이름과 정의에 대한 변경과 반인종주의 개념의 추가는 집필 그룹의 만장일치 동의로 승인되었습니다. 
Six of the 10 writing groups proposed changes to the title of their concept to describe it more accurately. The changes to the names and definitions of the emerging concepts, as well as the addition of the anti-racism concept, were approved by the authorship group with unanimous consent.

토론
Discussion

본 연구에서는 의학 문헌에서 CanMEDS 2025에 기술된 의사 역량에 통합될 수 있는 10가지 새로운 개념을 확인했습니다. 이러한 각 개념은 범위가 상당히 광범위하며, 대부분 현재 의학교육 문헌에서 논의되고 있는 여러 트렌드 또는 문제를 포괄하고 있습니다. 조사 결과 중 몇 가지 주제는 지난 3년간 광범위한 사회적, 경제적, 정치적, 환경적 담론에서 두드러진 현재 주제를 반영하고 있어 주목할 만합니다. 
Our study identified ten emerging concepts in the medical literature that could be incorporated into the physician competencies described by CanMEDS 2025.2938 Each of these concepts is quite broad in scope, with most encompassing several trends or issues currently being discussed in the medical education literature. Several themes within our results are notable as they mirror current themes of prominence in the broader social, economic, political, and environmental discourse over the past three years.

접근성, 형평성, 다양성, 포용성, 사회 정의, 반인종주의29,30와 관련된 주제가 분석에서 가장 많이 나타났습니다. 이 큰 주제는 궁극적으로 반인종주의에 초점을 맞춘 두 가지 주제로 분리되었습니다.30 의학 문헌에서 이러한 주제가 두드러진 것은 대중 담론에서 제도적 차별의 부정적인 영향에 대한 인식과 유사합니다.19 이 검토의 캐나다적 맥락, 캐나다 의료 시스템에서 원주민 건강의 중심적 중요성,39 그리고 캐나다 진실과 화해 위원회 최종 보고서에 발표된 건강 관련 7가지 행동 촉구를 고려할 때 원주민 건강에 초점을 맞춘 별도의 테마가 독립적으로 나타나지 않았다는 점이 주목할 만합니다. 이는 포함된 학술지들이 국제적인 초점(캐나다 의학교육 저널만이 캐나다 의학교육에 더 중점을 두었음)과 형평성, 다양성, 포용성, 사회 정의,29 및 반인종주의라는 주제 아래 많은 관련 구성 요소를 자주 코딩했기 때문인 것으로 생각됩니다.30 특히 원주민 건강과 관련된 제안 역량은 이러한 주제를 자세히 설명하는 두 원고의 중심입니다.29,30  
Themes relating to access, equity, diversity, inclusion, social justice, and anti-racism29,30 were prevalent in the analysis. This large theme was ultimately separated into two themes, with one focused specifically on anti-racism.30 The prominence of these themes in the medical literature parallels the acknowledgement of the negative impact of systemic discrimination in the public discourse.19 Given the Canadian context of this review, the central importance of Indigenous health in the Canadian healthcare system,39 and the seven calls to action related to health published in the final report of the Truth and Reconciliation Commission of Canada,40 it is notable that a separate theme focused on Indigenous health did not emerge independently. We suspect this is due to both the international focus of the included journals (only the Canadian Medical Education Journal focused more closely on Canadian medical education) as well as the frequent coding of many relevant constructs under the themes of equity, diversity, inclusion, social justice,29 and anti-racism.30 Notably, proposed competencies related to Indigenous health are central to both manuscripts further describing these themes.29,30

기후변화가 건강에 미치는 급격한 영향에 대한 과학적 공감대가 형성되고 있는 상황에서 '지구 보건' 주제38 의 존재는 놀라운 일이 아닙니다.22 특히 의사와 의료 수련생들은 기후변화가 인구의 건강과 복지에 미치는 영향에 관한 교육 및 옹호에서 두드러진 목소리를 내왔습니다.41-43 그러나 일부 저자는 개별 의사와 관련된 역량 틀 내에서 이러한 구조를 동원하는 것이 어려울 것이라는 우려를 표명했습니다.
The presence of the ‘Planetary Health’ theme38 is unsurprising given the scientific consensus building on the drastic impacts of climate change on health.22 Notably, physicians and medical trainees have had a prominent voice in education and advocacy relating to the impacts of climate change on the health and wellbeing of the population.4143 However, some authors were concerned that it would be challenging to mobilize this construct within a competency framework relevant to individual physicians.

데이터 및 기술 사용과 관련된 추가 역량의 필요성에 대해서는 폭넓은 공감대가 형성되었습니다.32,35 정밀 의학을 둘러싼 논의가 증가하는 가운데, '가상 진료' 및 '데이터 정보 의학' 테마로 통합된 이 코드는 신흥 기술의 보급16,17 과 개인 및 건강 데이터를 윤리적이고 안전하게 사용해야 할 필요성에 대한 사회적 인식의 증가와 병행합니다.44 
There was broad consensus regarding the need for additional competencies related to the use of data and technology.32,35 Beyond the growing dialogue surrounding precision medicine, the codes consolidated into the ‘Virtual Care’ and ‘Data-Informed Medicine’ themes parallel growing societal awareness of the pervasiveness of emerging technologies16,17 and the need for personal and health data to be used ethically and securely.44

코로나19 팬데믹의 영향은 여러 테마에서 확인할 수 있었습니다. 특히 '가상 치료' 주제35는 팬데믹 기간 동안 여행 및 모임 제한으로 인해 상당한 영향을 받은 개념인 가상 교육 및 가상 의료와 밀접한 관련이 있습니다.15,45 코로나19 팬데믹의 영향을 받은 다른 개념으로는 의료 시스템에 대한 복잡하고 지속적인 영향으로 인한 '복합 적응 시스템'33,46과 의사와 기타 의료 제공자에게 미치는 부담으로 인한 '의사 휴머니즘'31,47이 있습니다.
The influence of the COVID-19 pandemic was seen in numerous themes. In particular, the ‘Virtual Care’ theme35 relates strongly to virtual education and virtual healthcare, concepts that were substantially impacted by travel and gathering restrictions during the pandemic.15,45 Other concepts that were likely influenced by the COVID-19 pandemic included ‘Complex Adaptive Systems’33,46 due to its complex ongoing impacts on the healthcare system and ‘Physician Humanism’31,47 due to its strain on physicians and other healthcare providers.

'적응적 전문성'37 및 '임상적 추론'36 주제는 복잡한 임상 진료 영역에서 얼마나 빠른 변화가 일어나고 있는지를 인정합니다.48 의사가 이러한 과제를 해결하기 위해 진료 방식을 발전시킬 수 있는 역량이 있지만, 진화하는 의사의 역량을 적시에 CanMEDS에 통합하는 방법도 고려해야 합니다. 과거에는 약 10년에 한 번씩 개정을 실시하는 것이 CanMEDS에 도움이 되었지만, 이 원고의 발행과 CanMEDS 2025의 시행 사이에 새로운 역량이 등장할 것으로 예상할 수 있습니다. 정기적인 업데이트에서 지속적인 반복 프로세스로 전환하는 것을 고려해야 합니다. 이는 레지던트 수련 프로그램에서는 물류적으로 어려울 수 있지만, 미국심장협회와 같은 기관에서 지침을 지속적으로 업데이트하는 최신 프로세스에 부합하며, 더 작은 규모의 더 빈번한 업데이트가 가능할 수 있습니다.49 
The ‘Adaptive Expertise’37 and ‘Clinical Reasoning’36 themes acknowledge how rapidly changes are occurring within the complex realm of clinical practice.48 While there are competencies that enable physicians to evolve their practices to meet these challenges, it will also be important to consider how evolving physician competencies are integrated into CanMEDS in a timely manner. While performing revisions approximately once per decade has served CanMEDS well in the past, it is conceivable that new competencies will emerge between the publication of this manuscript and the implementation of CanMEDS 2025. Consideration should be given to transitioning CanMEDS from periodic updates to an ongoing iterative process. While this may be logistically challenging for residency training programs, it is in keeping with modern processes for the continuous updating of guidelines by organizations like the American Heart Association and could allow for smaller, more frequent updates.49

새롭게 등장한 각 개념이 CanMEDS 2025에 어떻게 통합될 수 있는지 설명하기 위한 추가 작업이 진행되었습니다. 집필 그룹은 각 개념을 정의하는 원고의 초안을 작성하고, CanMEDS 2015에 어떻게 표현되었는지 설명하고, CanMEDS 2025에 어떻게 통합할 수 있는지 제안했습니다.29-38 이 작업은 이 논문과 함께 캐나다 의학교육 저널 특별호에 게재되었으며, CanMEDS 2025 의사 역량 프레임워크 업데이트를 담당하는 전문가 실무 그룹에 정보를 제공할 것입니다. 이러한 새로운 개념이 공개됨으로써 캐나다 및 국제 의료계가 이 작업에 대해 논의하고 의견을 제시할 수 있는 기회가 될 것입니다.
Further work has been conducted to describe how each of the emerging concepts can be incorporated into CanMEDS 2025. Writing groups have drafted manuscripts that define each concept, outlined how it was represented in CanMEDS 2015, and proposed how it could be incorporated into CanMEDS 2025.2938 This work has been published along with this paper in this special issue of the Canadian Medical Education Journal and will inform the CanMEDS 2025 Expert Working Groups responsible for updating the CanMEDS physician competency framework. The open publication of these emerging concepts should provide Canadian and international medical communities with an opportunity to discuss and comment on this work.

강점과 한계
Strengths and limitations

이 검토의 강점은 상세하고 투명한 방법과 이해관계자 단체의 폭넓은 참여에 있습니다. CanMEDS 2015 개정 이전에 관련 문헌 검토가 수행되었지만,23 그 방법론이 자세히 설명되거나 동료 검토를 거치지 않았습니다. 저희는 상세한 방법론을 발표하고 동료 검토 과정을 거침으로써 이 작업을 개선했습니다. 또한 캐나다 왕립 의사 및 외과의사 대학, 퀘벡 의과대학, 캐나다 가정의학과 대학, 캐나다 의과대학 학부 협회의 대표를 포함한 광범위한 이해관계자 그룹에 의해 논문 검토가 수행되었습니다. 저자 팀의 다양성으로 인해 중요한 개념이 누락될 가능성이 줄어듭니다.
The strength of this review rests in the detailed, transparent methods and the broad engagement of stakeholder organizations. While a related literature review was conducted prior to the CanMEDS 2015 revision,23 its methodology was not described in detail or peer reviewed. We have improved on this work by publishing a detailed methodology and by putting our work through the peer review process. Additionally, the article review was conducted by a broader group oof stakeholders (including representatives from the Royal College of Physicians and Surgeons of Canada, Collège des Médecins du Québec, College of Family Physicians of Canada, and Association of Faculties of Medicine of Canada). The diversity of our authorship team decreases the chance that important concepts were missed.

이 리뷰에는 몇 가지 한계가 있었습니다. 

  • 첫째, 포함 기간을 3년으로, 출처를 5개 저널로, 특정 논문 유형을 제한하여 검토 범위를 제한했습니다. 이러한 제한은 새로운 개념을 파악하는 동시에 타당성을 유지하기 위해 내린 의도적이고 실용적인 결정이라고 생각합니다. 일부 주제를 놓쳤을 가능성에도 불구하고 회색 문헌 스캔을 통한 삼각 측량으로 추가 개념을 식별하지 못했다는 점은 안심할 수 있습니다.
  • 둘째, 수많은 리뷰어가 문헌 검색에 참여했기 때문에 새로운 개념 기준과 라벨링의 일관성을 보장하기 어려웠습니다. 또한, 대부분의 초록 검토는 추가 검토를 위한 플래그가 지정되지 않는 한 독립적으로 수행되었습니다. 멤버 점검을 통해 이러한 문제가 결과에 미치는 영향을 완화할 수 있을 것으로 기대합니다.
  • 마지막으로, 확인된 수많은 개념을 테마로 통합하는 것이 어려웠습니다. 우리의 분석은 일부 테마 내에서 광범위한 수의 코드를 집계했다는 비판을 받을 수 있습니다. 일부 워킹그룹 참가자들은 일부 테마가 새로운 개념이 아니거나 지나치게 광범위하다고 느꼈습니다. 이러한 도전은 연구 단계에 걸쳐 형평성, 다양성, 포용성과 관련된 주제가 진화하는 과정에서 잘 드러났습니다. 그럼에도 불구하고 대다수(실무 그룹 구성원의 82.4% 이상)는 각 주제가 더 깊이 탐구할 가치가 있는 중요한 새로운 개념이라고 생각했습니다.

This review had several limitations. First, we restricted the scope of our review by limiting the inclusion period to three years, the source to five journals, and specific article types. We see these limitations as intentional, pragmatic decisions that we made to maintain feasibility while identifying emerging concepts. Despite the potential to have missed some themes, it is reassuring that triangulation with the grey literature scan did not identify any additional concepts. Second, with numerous reviewers participating in the literature scan, it was difficult to ensure consistency in emerging concept criteria and labelling. Further, most abstract reviews were done independently unless flagged for additional review. We anticipate that the member checks mitigated the impact of this challenge on the results. Finally, consolidating the numerous identified concepts into themes was difficult. Our analysis could be criticized for aggregating a broad number of codes within some of the themes. Some of the working group participants felt that some themes were either not emerging concepts or were overly broad. This challenge is well-represented by the evolution of the themes related to equity, diversity, and inclusion throughout the phases of the study. This said, a large majority (≥82.4% of working group members) felt that each theme represented an important emerging concept that deserved further exploration.

결론
Conclusion

이 검토 및 분석을 통해 CanMEDS 2025의사 역량 프레임워크에 통합하기 위해 고려해야 할 10가지 새로운 개념이 확인되었습니다. 이 작업의 결과는 이번 특별호에 자세히 설명되어 있으며, 여기에는 각 개념에 대한 확장된 기사와 함께 CanMEDS 2025.29-38에 통합할 수 있는 방법에 대한 제안이 포함되어 있습니다. 이 작업의 공개를 통해 CanMEDS의 개정을 알리는 것 외에도, 개정 과정에 대한 투명성을 높이고 의사 역량에 관한 학술 문헌에서 조기 대화를 촉진할 수 있기를 바랍니다.
This review and analysis identified ten emerging concepts that should be considered for incorporation into the 2025 CanMEDS physician competency framework. The results of this work are elaborated upon in this special issue, which contains an expanded article on each concept along with suggestions for how it could be incorporated into CanMEDS 2025.2938. We hope that in addition to informing the revision of CanMEDS, the open publication of this work will create greater transparency around the revision process while facilitating an early dialogue in the academic literature on physician competence.

 


 

Can Med Educ J. 2023 Mar 21;14(1):4-12. doi: 10.36834/cmej.75591. eCollection 2023 Mar.

Emerging concepts in the CanMEDS physician competency framework

Affiliations collapse

1University of Saskatchewan, Saskatchewan, Canada.

2Royal College of Physicians and Surgeons of Canada, Ontario, Canada.

3University of Ottawa, Ontario, Canada.

4Association of Faculties of Medicine of Canada, Ontario, Canada.

5Université de Montréal, Quebec, Canada.

6Collège des médecins du Québec, Quebec, Canada.

7McMaster University, Ontario, Canada.

8University of Toronto, Ontario, Canada.

9McGill University, Quebec, Canada.

10College of Family Physicians of Canada, Ontario, Canada.

11NOSM University, Ontario, Canada.

12Queen's University, Ontario, Canada.

PMID: 36998506

PMCID: PMC10042782

DOI: 10.36834/cmej.75591

Free PMC article

Abstract 

Background: The CanMEDS physician competency framework will be updated in 2025. The revision occurs during a time of disruption and transformation to society, healthcare, and medical education caused by the COVID-19 pandemic and growing acknowledgement of the impacts of colonialism, systemic discrimination, climate change, and emerging technologies on healthcare and training. To inform this revision, we sought to identify emerging concepts in the literature related to physician competencies.

Methods: Emerging concepts were defined as ideas discussed in the literature related to the roles and competencies of physicians that are absent or underrepresented in the 2015 CanMEDS framework. We conducted a literature scan, title and abstract review, and thematic analysis to identify emerging concepts. Metadata for all articles published in five medical education journals between October 1, 2018 and October 1, 2021 were extracted. Fifteen authors performed a title and abstract review to identify and label underrepresented concepts. Two authors thematically analyzed the results to identify emerging concepts. A member check was conducted.

Results: 1017 of 4973 (20.5%) of the included articles discussed an emerging concept. The thematic analysis identified ten themes: Equity, Diversity, Inclusion, and Social Justice; Anti-racism; Physician Humanism; Data-Informed Medicine; Complex Adaptive Systems; Clinical Learning Environment; Virtual Care; Clinical Reasoning; Adaptive Expertise; and Planetary Health. All themes were endorsed by the authorship team as emerging concepts.

Conclusion: This literature scan identified ten emerging concepts to inform the 2025 revision of the CanMEDS physician competency framework. Open publication of this work will promote greater transparency in the revision process and support an ongoing dialogue on physician competence. Writing groups have been recruited to elaborate on each of the emerging concepts and how they could be further incorporated into CanMEDS 2025.

중국의 2021년 의료전문직 면허법 수정: 코멘터리(Health Syst Reform. 2022)
Amending the Law for Licensing Medical Practitioners of China in 2021: A Commentary
Chengxiang Tanga,b, Jiayi Jiangb,c, Yuanyuan Gua, and Gordon Liub

 

 

소개
Introduction

다양한 의료 서비스 제공자 중 의사는 의료 시장에서 가장 중요한 부분을 차지하고 있으며, 의사의 자질은 의료 시스템에서 결정적인 역할을 합니다. 의사 면허 시험은 의사의 질과 그에 따른 의료 서비스를 보장하는 데 매우 중요한 의미를 갖습니다. 1950년대 이후 중국 의료 시스템의 주요 임무는 절박한 의료 인력 부족 문제를 해결하고 증가하는 의료 수요를 충족하는 것이었습니다.1 이 문제를 해결하기 위해 중국은 의사를 양성하기 위해 다단계 의학교육 시스템을 도입했고, 그 결과 일부 현직 의사들은 3차 학위 중심의 의학교육을 받지 못했습니다.2  
Among the various health service providers, physicians are the most important part of the health care market, and their quality plays a determining role in the health system. The licensing examination for medical practitioners is of great significance to guarantee the quality of physicians and consequent health care services. Since the 1950s, the primary job of the health care system in China is to address a desperate shortage in the health workforce and satisfy the increasing demand for health care.1 To address this problem, China adopted a multi-tiered medical education system to train doctors, which resulted in a part of the practicing physicians receiving no tertiary degree-oriented medical education.2

의학교육 개혁의 발전과 함께 중국은 1999년에 처음으로 개업의에 관한 법률을 제정하여 중등직업학위(SVD)을 가진 '의대생'만이 의사 자격시험에 응시하여 개업의가 될 수 있도록 허용했습니다. 2002년 기준으로 중국에서는 개업 의사의 41%가 SVD만 가지고 있었습니다. 
With the development of medical education reform, China enacted its first Law for Practicing Medical Practitioners since 1999, which allowed “medical students” with only a secondary vocational diploma (SVD) to take the medical examination and therefore become practicing physicians. As of 2002, 41% of practicing physicians only had an SVD in China.

2021년 1월, 전국인민대표대회 상무위원회는 의사의 질과 의료 시장의 형평성을 개선하기 위해 1999년 시행 이후 처음으로 '의료인 면허법'을 개정했습니다. 주요 개정 내용은 다음과 같습니다: 

  • (1) 전문직 규제에 관한 다른 법률과의 일관성을 유지하기 위해 현행 "개업의사"라는 명칭을 "의사"로 단순 대체합니다.
  • (2) 개정안은 의사의 의무와 의무, 의사의 법적 권리 및 보수를 더욱 명확히 규정합니다. 개정안은 또한 의료 시설과 시장을 교란하는 행위에 대한 형사 책임을 규정하고 있습니다.
  • (3) 면허시험의 최소 학력 수준을 종전의 중등 전문학사 학위에서 개정안에서는 전문학사 또는 전문대졸 수준으로 재설정합니다. 또한 개정안은 시험 등록에 관한 사항을 개선합니다.
  • (4) 1차 의료 제공자, 특히 일반의에 대한 교육이 강화됩니다.
  • (5) 개정안에는 SARS-COV-19의 예방 및 통제 전략에 대한 교훈과 경험이 포함됩니다.

In January 2021, the Committee meeting of the National People’s Congress amended the “The Law for Licensing Medical Practitioner” for the first time since its implementation in 1999, aiming to improve the quality of physicians and equity in the health care market. The major amendments include:

  • (1) In order to be consistent with other legislations on professional regulation, the current title “Practicing Physician” is simply replaced by “Physician.”
  • (2) The amendments further clarify the physicians’ duties and obligations, as well as the legal rights and remuneration of physicians. The amendments also stipulate the criminal liability for disrupting health care facility and the market.
  • (3) The minimum education-level of the licensing examination is re-set to a vocational diploma or junior college level in the amendment, rather than a secondary vocational diploma previously. In addition, the amendments make improvements on the registration of the examination.
  • (4) The training of primary care providers, in particular the general practitioners, will be strengthened.
  • (5) The amendments include the lessons and experiences of the prevention and controlling strategy of SARS-COV-19.

우리는 의사 자격 면허 시험의 최소 교육 수준을 학사 학위로 설정해야한다고 생각하는 것을 제외하고는 이러한 개정안을지지합니다. 다음 섹션에서는 먼저 중국 보건통계연감의 데이터를 기반으로 중국 내 의사들의 교육 수준 구조와 분포를 제시합니다. 그런 다음 의사 자격 시험의 문턱을 학사 수준으로 설정해야 하는 여러 가지 이유를 설명합니다.3
We endorse these amendments except that we believe the minimum education-level of the licensing examination of physicians’ qualifications should be set to a bachelor degree. In the following sections, we first present the structure and distribution of practicing physicians’ educational level in China based on the data from the Health Statistical Yearbook of China. We then give a number of reasons to explain why the threshold for the physician qualification examination should be set at the bachelor level.3

의사 의학교육의 구조와 분포
The Structure and Distribution of Physicians’ Medical Education

다단계 의학교육 체계에서 비롯된 현재의 의학교육 의사 구성은 보건의료체계의 질적 발전을 저해할 것입니다. 그림 1은 2002년부터 2019년까지 중국 내 의사 교육 분포의 연도별 변화를 보여줍니다. 일반적으로 학사 학위 이상의 의사의 비율은 수년에 걸쳐 증가해 왔으며, 전문학사 및 SVD 이하의 의사의 비율은 감소했지만, 이러한 '부적절한' 의학교육 파이프라인은 여전히 교육 시스템에서 사소하다고 볼 수 없는 요소로 남아있었습니다. 2019년에도 전문대 졸업장 이하의 학력을 가진 개업 의사의 비율은 여전히 34%에 달했습니다. 
The current physician mix in medical education originating from a multi-tiered medical education system will inhibit quality development of a health care system. Figure 1 illustrates the annual changes of physicians’ educational distribution in China from 2002 to 2019. In general, the proportion of physicians with a bachelor degrees or above had been increasing over the years, and the share of physicians with vocational diploma and SVD or below has decreased, even though this “inappropriate” pipeline of medical education remained as a non-trivial component of the training system. There were still 34% of practicing physicians with vocational college diplomas or below in 2019.

중국에서는 의대 입학 경쟁이 치열하며, 의대 입학은 국가 대학입학자격시험(NCEE) 점수에 따라 결정됩니다. 중국 교육부는 의학 학사 프로그램의 입학 점수를 전문 의과대학의 전문학사 프로그램보다 훨씬 높게 책정하고 있습니다. 이 두 프로그램 간의 학업 성취도로 표시되는 입학 학생의 질은 크게 다릅니다. 2018년 학부 입학률은 43.3%로, 이는 단기 의과 대학에 입학한 학생들이 NCEE를 응시한 상위 43.3% 학생들보다 낮은 순위를 차지했음을 의미합니다.4 
Admission to medical school is highly competitive in China and is based on the students’ scores in the national college entrance examination (NCEE). The National Education Department sets the enrollment scores for medical bachelor programs much higher than vocational diploma programs at junior medical colleges. The quality of admitted students, indicated by their academic performance, between these two programs are significantly different. In 2018, the undergraduate admission rate was 43.3%, which implies that those students admitted into junior medical colleges were ranked below the top 43.3% students taking the NCEE.4

또한 두 의학 프로그램 간에는 교육의 질과 자원에 현저한 차이가 있습니다. 의과 대학 3학년 학생은 3년 동안만 공부해야 하며 실습은 매우 제한적입니다. 특히 이러한 학생들은 고등학교 과정을 통해 학문적 기초가 탄탄하지 않을 수 있다는 점을 고려할 때 의료 교육이 불충분할 수 있습니다. 반면, 의학 학사 프로그램의 학생은 일반적으로 실험실 및 임상 환경에서 보다 엄격한 교육을 포함하여 약 5년의 의학 교육을 받아야 하며, 학위 요건의 일부로 논문을 작성해야 합니다.
There are also remarkable differences in the teaching quality and resources between two streams of medical programs. A junior medical college student needs to take only 3 years of study, with very limited practical training. This may result in insufficient medical training, especially given the fact that these students may not have solid academic foundations through their high school study. By contrast, a student in a medical bachelor program usually needs to take around 5 years of medical training, including more rigorous training in laboratory and clinical settings, and needs to complete a thesis as the partial fulfillment of the requirements for the degree.

의대생들의 학력 이질성이 높기 때문에 중국 내 개업 의사의 질과 분포에 상당한 이질성이 존재합니다. 예를 들어, 중국에서는 개업 의사의 질과 양이 도시와 농촌 간에 불균등하게 분포되어 있으며,2,5,6 고급 의사(학사 학위 이상)는 도시 지역에 집중되어 있습니다. 표 1은 중국 도시와 농촌의 교육 수준과 의사의 직업 선택(보조 의사 포함) 간의 관계를 보여줍니다.

  • 도시 지역에서는 2019년 병원에서 근무하는 의사의 27%, 지역 보건소에서 근무하는 의사의 48.6%가 전문학사 이하의 학력을 가지고 있었습니다.
  • 농촌 지역에서는 향진 병원에서 근무하는 의사의 75.8%, 지역 보건 센터에서 근무하는 의사의 97%가 전문학사 이하의 학력을 가지고 있었습니다.

학사 학위 이상을 소지한 개원의는 도시 병원에 더 집중되어 있었습니다. 따라서 농촌 지역 주민들은 도시 지역 주민들과 동등하게 양질의 서비스를 제공받지 못할 수 있습니다. 
The high heterogeneity in educational background of medical students has led to significant heterogeneity in quality and distribution of practicing physicians in China. For example, the quality and quantity of practicing physicians are unequally distributed between urban and rural areas in China,2,5,6 and high-quality physicians (with a bachelor degree or above) are concentrated in urban areas. Table 1 shows the relationship between education levels and physicians’ job choices (including assistant physicians) between urban and rural areas in China.

  • In urban areas, 27% of the practicing physicians at hospitals and 48.6% at community health centers had vocational diplomas or below in 2019.
  • In rural areas, 75.8% of the practicing physicians at township hospitals and 97% at community health centers had vocational diplomas or below.

Practicing physicians with a bachelor degree or above were more concentrated in urban hospitals. Therefore, residents in rural areas may not have equal access to quality services as those in urban areas.

학사 수준의 일차 의료 교육 통합
Unifying Primary Medical Education at Bachelor-level

중국 전국인민대표대회 상무위원회는 의사 자격 시험 응시 자격을 중등 교육에서 비학사 고등 교육으로 상향 조정하는 의사법 개정안을 통과시켰습니다. 그러나 의료 기준 설정에 있어 이러한 점진적 접근 방식은 장기적으로 실수를 누적시키고 경제적, 보건적 비용을 증가시킬 뿐입니다. 현재 의료 서비스의 복잡성과 의학교육 및 기술의 급속한 발전을 고려할 때, 우리는 가능한 한 빨리 의학교육을 학사 수준으로 통합하는 것이 합리적이라고 강력히 주장합니다. 다음 섹션에서 그 이유를 설명합니다.
The review conference of China’s Congress amended the Law for Practicing Physicians to upgrade the eligibility for the examination of physician qualification from secondary education to non-bachelor tertiary education. However, this incremental approach in a medical standards setting will only accumulate long-term mistakes, and aggregate economic and health costs. Given the complexity of health care at present and rapid development in medical education and technology, we strongly argue that it is reasonable to unify medical education at a bachelor level as soon as possible. We present our reasons in the following sections.

전 세계 의사를 위한 입문 수준 기준
Entry-level Standards for Physicians around the World

국가마다 의학교육과 훈련에 큰 차이가 있지만, 초급 의학교육의 최소 기준은 학사 학위 교육을 요구합니다.

  • 호주, 필리핀, 미국 등 일부 국가에서는 의대생이 의학전문대학원 수준의 의학 프로그램에 입학해야 면허 시험에 응시할 수 있습니다.7
  • 미국의 경우 미국 의사 면허 시험(USMLE)에 응시하려면 학사 학위(4년)와 의과대학 4년 졸업 학위가 필요합니다.8 공인된 레지던트 프로그램(3~7년)을 마친 후 의료 행위가 허용됩니다. 따라서 미국에서 주치의가 되기 위해서는 약 11년, 외과의사가 되기 위해서는 13년 이상의 수련 기간이 소요됩니다.

Although there are large variations in medical education and training across countries, the minimum standards for entry-level medical education require bachelor-degree training.

  • Some countries, such as Australia, Philippines, and the USA, even require medical student to enter the graduate-level medical program before they can attend the licensing examinations.7 
  • In the US, in order to be eligible for the United States Medical Licensing Examination (USMLE), candidates require a bachelor degree (4 years), and a four-year graduate degree from medical schools.8 Medical practice is allowed after completing an accredited residency program (3–7 years). Therefore, it takes around 11 years of training to become a primary care physician and over 13 years to become a surgeon in the United States.

개발도상국인 태국의 경우 반세기 전에 학사 수준의 교육으로 입문 의학교육이 시작되었습니다.9

  • 태국의 학부 의학교육(입문 의학교육)은 6년이 걸리며 보통 1학년은 기초 교육, 2~3학년은 기초 의학 교육, 4~6학년은 임상 교육으로 3단계로 나뉩니다.9,10
  • 태국보다 선진국인 중국이 왜 이런 이상한 의학교육 시스템을 유지하면서 교육 기간과 재능이 다른 모든 졸업생을 의사가 될 수 있도록 하는지 의문이 들 수밖에 없습니다. 의료 인력 부족과 인구 건강 개선의 시급한 필요성이 이러한 의료 교육 및 훈련 시스템을 개발하게 된 초기 이유였지만, 오늘날 중국이 직면하고 있는 주요 문제는 더 이상 아닙니다.

In Thailand, a developing country, the entry-level medical education was set at bachelor-level training a half-century ago.9 

  • The Thai undergraduate medical program (entry-level medical education) takes 6 years to finish and is usually divided into three stages: the first year for basic education, the 2nd-3rd years for basic medical education, and the 4th-6th years for clinical training.9,10 
  • This raises a question why China, a country more developed than Thailand, would keep such an odd medical education system and allow all graduates with different training periods and different talents to become doctors. The shortage of health workforce and urgent need to improve population health were the initial reasons for developing this system of medical education and training, but they are no longer the main issues China is facing today.

의대생 공급 과잉
Oversupply of Medical Students

중국은 세계에서 가장 큰 규모의 의료 인력 교육 시스템을 갖추고 있습니다. 2014년부터 2018년까지 의과대학 통계에 따르면 중국의 의대 졸업생 수는 총 560만 명 증가했지만, 의료 인력 규모는 210만 명 증가에 그쳤습니다. 일정 비율의 인력 감소가 있더라도 전체 시장에서 의대 졸업생의 공급과 고용 사이의 큰 격차를 설명하기는 여전히 어렵습니다. 한 가지 가능한 설명은 일부 저학력 의대생이 보건 분야에 진출하지 않아 의대 졸업생 공급 과잉을 초래했다는 것입니다. 
China has the largest education system for health workforce in the world. According to the statistics of medical schools from 2014 to 2018, the number of medical graduates in China increased by 5.6 million in total, but the size of the health workforce increased by only 2.1 million. Even though there is a certain proportion of workforce attrition, it is still difficult to explain the huge gap of the whole market between supply and employment of medical graduates. One possible explanation is that some less-educated medical students did not enter into the health sector and created an oversupply of medical graduates.

또한, 매년 전문 의과대학 및 중등 의과대학에 등록하는 의대생 수는 의학 학사 이상 프로그램에 등록하는 학생 수보다 훨씬 더 많았습니다.

  • 예를 들어, 2018년에 고등 의과대학에 등록한 의대생 수는 85만 5,000명이었으며, 이 중 61만 1,000명이 전문대학 학사 학위 프로그램에 등록했습니다. 또한 전문학사 학위 프로그램에 등록한 학생은 39만 명에 달했습니다.

이러한 공급 패턴은 의학교육의 질에 영향을 미칠 뿐만 아니라 보건 인력 수급의 불균형을 심화시켰습니다.11 중등 직업 교육 및 직업 교육 졸업생의 과잉 공급은 전문과목 혼합의 왜곡(잘 훈련된 일차 진료 의사의 부족)과 의사 시장에서 의대 졸업생 간의 치열한 경쟁을 심화시키는 결과를 초래했습니다. 
Moreover, the number of medical students enrolled each year at junior medical colleges and secondary schools was much higher than that at medical bachelor programs or above.

  • For example, in 2018, the number of medical students enrolled in tertiary medical schools was 855,000, of which 611,000 were enrolled in vocational college diploma programs. In addition, there were 390,000 students enrolled in SVD programs.

This supply pattern not only affected the quality of medical education but also led to an increasing imbalance in the supply and demand of health workforce.11 The oversupply of graduates with secondary vocational education and vocational education further resulted in the distortion of specialty mix (inadequate numbers of well-trained primary care physicians) and increased intensive competition among medical graduates in physicians’ market.

같은 규모로 볼 때 중국의 개업 의사 수는 더 이상 다른 비교 대상 국가보다 적다고 볼 근거가 없습니다. 1인당 의료비 지출과 인구 10,000명당 의사 수 사이에는 양의 상관관계가 있는 것으로 알려져 있는데, 이는 의료비 지출이 의료 시스템에서 고용하는 직원 수와 관련이 있다는 사실을 반영하는 것입니다. WHO 데이터를 기반으로 국제 비교 관점에서 중국의 의사 수를 조사했습니다.12 그림 2에 따르면 중국의 의사 공급은 모든 국가 중에서 상대적으로 적절한 수준입니다. 
We have reasons to believe that, on the same scale, the stock of practicing physicians in China is no longer less than that in any other comparable countries. There is a known positive association between health expenditure per capita and the number of medical doctors per 10,000 people, which reflects the fact that how much you spend is related to how many employees the system hires. We examined the number of physicians in China from the perspective of international comparison based on the WHO data.12 Figure 2 suggests that the provision of practicing physician in China is relatively adequate among all nations.

다단계 의료 교육 시스템이 의료 시장에 미치는 장기적 비용
The Long-term Costs of Multi-tiered Medical Education System on Healthcare Market

2019년 Hsieh & Tang의 논문에 따르면, 의사들의 학력 차이가 현저한 의료 시장은 환자 입장에서 더 나은 서비스를 제공할 수 있는 양질의 의사를 찾는 데 추가적인 탐색 및 정보 비용을 부과합니다.2 학력이 높은 의사는 도시 지역에서 진료하는 경향이 있기 때문에 대형 병원에 고용될 가능성도 높습니다. 이로 인해 농촌 지역과 1차 의료 기관의 인적 자원이 악화되고 있습니다. 1970년대에 아켈로프가 개발한 모델에 따르면13 의사의 능력은 관찰할 수 없으며, 이는 의사의 보수가 그들이 제공하는 서비스의 질에 따라 달라지지 않는다는 것을 의미합니다. 규제 시장regulated market에서는 모든 의사에게 평균 수준의 임금을 지급하므로 우수한 의대생이 더 나은 보수를 기대하기 때문에 의료 시장에 진입할 동기가 부족합니다. 또한 의사들은 추가 의료 교육을 받거나 인적 자본에 투자할 인센티브가 적습니다. 장기적으로 다단계 의학교육 시스템은 의료 시장의 형평성과 효율성 측면에서 두 가지 해악을 초래할 것입니다. 
According to Hsieh & Tang’s paper in 2019, the health care market in which physicians have remarkable differences in their education, imposes additional searching and information costs to the seeking of quality doctors who can provide better services from patients’ perspective.2 As doctors with higher educational background tend to practice in urban areas, they are also more likely to be employed by larger hospitals. This has caused a deterioration of human resources in rural areas and at primary health care facilities. Based on the model developed by Akerlof in the 1970s,13 physicians’ ability cannot be observed, which means physicians’ remuneration does not depend on the quality of services they provide. The regulated market pays all the doctors an average level of wage, so there is a lack of motivation for high-quality medical students to enter the health care market since they would expect better payments. Doctors would also have less incentives to receive further medical education and to invest in their human capital. In the long run, a multi-tiered medical education system will contribute to twofold harms in both equity and efficiency of the health care market.

법 개정 및 시행의 어려움
Difficulties in Amending and Implementing the Law

일반적으로 법률과 사법 제도는 그 시행을 위해 비교적 안정적인 기대치를 필요로 합니다. 안정성을 유지하기 위해서는 일단 의사에 대한 법률이 시행된 후 사회적 상황이 크게 변화하기 전에 자의적으로 폐지하거나 개정할 수 없습니다. 따라서 법 개정은 법안 제출부터 법안 심사, 의결 및 채택, 공포 및 시행에 이르기까지 엄격한 절차를 거쳐야 하므로 시간이 걸립니다. 예를 들어, 중화인민공화국 의사 개업에 관한 법률은 1998년에 국회 위원회에서 통과되었지만 23년 후인 2021년에 첫 번째 개정이 이루어졌습니다. 이 기간 동안 중국의 경제 발전은 눈부신 성과를 거두어 지난 20년 동안 GDP가 7조 9,700억 위안에서 82조 7,122억 위안으로 약 937% 증가했으며,14 이에 따라 의료 수요와 의료 시장에도 큰 변화가 일어났습니다. 법 개정 과정이 더디더라도 의학교육 체계 정상화를 위한 법 개정이 시급한 상황입니다. 
Generally speaking, legislation and the judicial system require a relatively stable set of expectations of the law for its implementation. In order to maintain stability, it cannot be abrogated or amended discretionarily before the social contexts change significantly once the law for physicians goes into effect. Therefore, any amendment of the law must follow a rigorous procedure, from submission to the consideration of the draft law, then to the vote and adoption, and to the promulgation and implementation of the law, which will take time. For example, the law for practicing physicians of the People’s Republic of China was passed by the Committee of the Congress in 1998, while its first amendment came twenty-three years later in 2021. The economic development of China has made extraordinary achievements during this period, with its GDP growing from 7.97 trillion yuan to 82.7122 trillion yuan in the last two decades and an increase of about 937%,14 and thus significant changes have taken place in health demands and health care market. There is an urgency to amend the law to normalize the medical education system even though the process of amendment will be slow.

2021년 개정안 제정 및 시행을 위한 장애물도 존재합니다. 2019년 중국 보건 통계 연감의 데이터에 따르면15 현재 전문 학사 학위 대학에 재학 중인 의대생은 100만 명이 넘습니다. 이러한 의대생의 경력 개발과 전환, 교수진 및 관련 인력에 미치는 영향을 신중하게 고려해야 하며, 그렇지 않으면 모든 개혁이 그들의 이익에 대한 비용으로 간주되어 저항을 받게 될 것입니다. 
There are also obstacles for the enactment and implementation of the 2021 amendment. According to data from the Health Statistical Yearbook of China in 2019,15 there are over one million medical students currently enrolled in vocational diploma colleges. The career development and transition for these medical students and the impact on their faculties and related personnel need to be carefully considered, otherwise any reforms will be seen as costs of their interests and thus resisted.

결론
Conclusion

우리는 중국 의회가 오랜만에 마침내 최근 의사법 개정을 추진한 것을 기쁘게 생각합니다. 그러나 우리는 중국의 의사 자격 시험에 대한 교육 자격이 여전히 국제 표준에 훨씬 못 미친다고 주장합니다. 중앙은행이 과도한 유동성을 흡수할 수 있기 때문에 통화(자본) 완화는 쉬운 반면, 이미 의료 시장에서 형성된 의사들의 인적 자본을 되돌리기는 거의 불가능합니다. 따라서 우리는 중국이 최근 개정안과 같이 의사 자격 시험의 문턱을 전문대 수준이 아닌 학사 수준으로 설정하는 것을 의미하는 초급 의학교육 기준을 개선할 것을 강력히 권고합니다. 이는 의사의 자질을 향상시킬 뿐만 아니라 중국 의료 시장의 형평성과 효율성 문제를 해결하는 데 도움이 될 것입니다.

We are delighted to see that the Congress in China finally promoted the recent amendments on the Legislation of Practicing Physician after a long time. However, we argue that the educational eligibility for examination of the physicians’ qualification in China is still far below the international standard. It is easy to do monetary (capital) easing because the central bank can soak up excessive liquidity, while it is hardly possible to take back human capital of physicians already formed in a health care market. Therefore, we highly recommend that China improve the entry-level medical education standards, which implies setting the threshold at bachelor level for the examination of physician’s qualification, instead of junior college level as in the recent amendment. This will not only improve the quality of the physicians but also will help to address equity and efficiency issues in the health care market in China.


Health Syst Reform. 2022 Jan 1;8(1):e2048438. doi: 10.1080/23288604.2022.2048438.

Amending the Law for Licensing Medical Practitioners of China in 2021: A Commentary

Affiliations

1Macquarie University Centre for the Health Economy, Macquarie Business School, Macquarie University, NSW, Australia.

2Institute for Global Health and Development, Peking University, Beijing, Haidian, China.

3The Second Affiliated Hospital of Guangzhou Medical University, Guangzhou, Guangdong, China.

PMID: 35416752

DOI: 10.1080/23288604.2022.2048438

Abstract

The Law for Licensing Medical Practitioners of the People's Republic of China, enacted in 1999, was amended in 2021. This commentary reviews the key points of the amendment and raises doubts as to one of its points. Specifically, we argue that the minimum education level required to take the physicians' licensing examination should be set to completion of a bachelor degree, instead of a vocational diploma or junior college graduation as in the 2021 amendment. China adopted a system of multi-tiered medical education more than 70 years ago. This policy has resulted in a threshold of entry-level medical education far below the global standards. The highly heterogeneous education background of physicians in China has led to low standards of practicing physicians, which in turn have significantly negative impacts on the health care market. We illustrate changes over time in the educational distribution and regional distribution of practicing physicians in China, and present reasons to improve entry-level educational standards, by setting the physician licensing threshold at an appropriate level. This will not only improve the overall quality of physicians but will also help address equity and efficiency issues in the health care market.

Keywords: China; licensing; medical education; physician supply.

인도네시아의 의사국가면허시험: 학생, 교수, 대학의 관점(© 2018 The University of Leeds and Rachmadya Nur Hidayah)
Impact of the national medical licensing examination in Indonesia: perspectives from students, teachers, and medical schools. 
Rachmadya Nur Hidayah

3.3 국가 라이선스 시험의 역사
3.3 The history of national licensing examination

이 섹션에서는 북미에서 시작하여 유럽과 아시아로 확장된 NLE의 기원과 발전 과정을 설명합니다. 이 섹션은 인도네시아의 국가면허시험의 배경과 현재 논의 중인 분야를 포함하여 인도네시아의 국가면허시험의 역사를 소개하는 것으로 마무리합니다.
This section will describe the origins and development of the NLE started and developed; starting from North America and extending through Europe and Asia. The section concludes by presenting the history of NLE in Indonesia, including its background and areas of current debate.

북미의 국가 시험
National examination in North America

미국과 캐나다는 의대 졸업생을 대상으로 국가 시험을 최초로 시행한 국가 중 하나입니다. 미국 의사 면허 시험(USMLE)은 남북전쟁(1861~1865년) 이후 의료 종사자에 대한 규제에서 파생되었습니다. 이 시험은 의사들 간의 높은 역량 편차를 줄이기 위한 목적으로 수십 년 동안 시행되었습니다. 미국국립시험위원회(NBME®)는 1915년 미국에서 국가 시험 시스템을 관리하기 위해 설립되었습니다(Melnick et al., 2002). 시험의 구조는 그 이후로 발전해 왔습니다. 

  • 첫 번째 시험 형식(1916년)은 환자 사례, 구두(구술) 시험, 필기시험을 이용한 복잡한 병상 시험이었습니다.
  • 필기 시험은 1922년 주관식 문제로 시작하여 선택형 문제로 발전했으며, 이후 1980년대에는 객관식 문제(MCQ)로 형식이 변경되었습니다(Melnick et al., 2002).
  • NBME는 1999년에 임상 술기 시험을 승인하고 2004년에 2단계 임상 술기 평가(CSA)를 시행했습니다. 이러한 결정은 주로 장시간의 구술 시험이 신뢰성이 떨어진다는 비판을 받은 후 임상 술기 평가의 필요성에 의해 주도되었습니다.

The United States of America and Canada were among the first countries that conducted national examinations for their medical graduates. The United States Medical Licensing Examination (USMLE) was derived from regulatory entry for medical practitioners after the Civil War (1861-1865). It served the purpose of reducing the high variation of competence amongst practitioners and was implemented for several decades. The National Board of Medical Examiner (NBME®) was founded in 1915, to administer a national examination system in the United States of America (Melnick et al., 2002). The structure of the examination has evolved since then.

  • The first structure of the format (1916) was a complex bedside examination using patient cases, oral (viva) examinations, and written examinations.
  • Written examinations started with essay questions in 1922 and evolved to selected-response questions and later, in the 1980s, the format of USMLE was changed to multiple-choice questions (MCQ) (Melnick et al., 2002).
  • The NBME approved the clinical skills examination in 1999 and implemented the Step 2 Clinical Skills Assessment (CSA) in 2004. This decision was mainly driven by the need to assess clinical skills after the long case oral examination was criticised for poor reliability.

캐나다 의료 위원회(MCC)는 캐나다에서 의사가 진료할 수 있도록 면허를 부여하는 기관입니다. 자격을 갖춘 후보자를 결정할 때 MCC는 의대생의 학부 과정 중과 종료 시점에 평가 절차를 사용합니다. 

  • 1970년까지 MCC는 전통적인 에세이 및 구술 시험을 사용했습니다.
  • 1980년, MCC 면허증 개발 과정이 완료되자 이 시험은 캐나다의 모든 지역에 적용되었습니다(Dauphinee, 1981).
  • 몇 년 후, MCC는 면허 시험으로서의 목표를 검토한 결과 필기 시험으로는 평가할 수 없는 의대 졸업생의 필수 역량이 있다는 결론에 도달했습니다. 여기에는 병력 청취, 신체 검사, 의사소통 능력 등이 포함되었습니다.
  • 그 후 MCC는 1980년대 후반에 임상 기술 평가를 위한 파일럿 연구를 실시하기로 결정했습니다.
  • 1992년에는 객관적 구조화 임상시험(OSCE)이 면허 시험의 일부가 되었습니다(Reznick et al., 1993).

The Medical Council of Canada (MCC) acts as the authority to grant licentiate for physicians to practice in Canada. In determining eligible candidates, MCC uses assessment procedures during and at the end of medical students’ undergraduate programmes.

  • Until 1970, MCC used traditional essay and oral examinations.
  • In 1980, when the development process of MCC licentiate was finished, the examination was applied to all regions of Canada (Dauphinee, 1981).
  • After a few years of this assessment, MCC reviewed its objectives as a licensing examination and came to the conclusion that there were essential competences for medical graduates that could not be assessed using written examination. These included: history taking, physical examination, and communication skills.
  • MCC then decided to conduct a pilot study for clinical skills assessment in the late 1980s.
  • In 1992, the Objective Structured Clinical Examination (OSCE) became part of the licensing examination (Reznick et al., 1993).

USMLE와 MCCQE는 정기적인 평가와 연구를 바탕으로 잘 정립된 제도로 자리 잡을 수 있는 시간을 가졌습니다. 시험 관리자(NBME 및 MCC)가 수행한 연구는 대부분 시험의 심리측정 측면에 초점을 맞추었습니다. 그러나 지난 10년 동안 NLE가 대학원 학업, 임상 성과 및 환자 치료에 미치는 영향에 대한 연구가 더 많이 진행되었습니다. 이에 대해서는 이 장의 뒷부분에서 설명합니다. 
Both USMLE and MCCQE have had the time to become well-established systems based on regular evaluation and research. Studies conducted by test administrators (NBME and MCC) mostly focussed on the psychometric aspects of the test. However, in the last decade, there has been more research on the consequences of the NLE on postgraduate study, clinical performance, and patient care. This will be discussed later in this chapter.

유럽의 국가 시험
National examination in Europe

대서양 횡단 시험에 비해 유럽에서는 지난 10년 동안 국가 또는 유럽 면허 시험에 대해 더 많은 논쟁이 있었습니다. 영국을 포함한 유럽 국가들 사이에서는 국가 또는 대규모 시험 도입 문제에 대한 논의가 계속되고 있습니다. 유럽 국가들은 유럽연합 회원국의 의대 졸업생이 유럽연합(EU) 내에서 활동할 수 있도록 인정했기 때문에 표준화된 의료 교육 및 실습의 질을 확보해야 할 공동의 책임이 있었습니다(Gorsira, 2009). 이 글에서 Gorsira는 제안된 유럽 NLE에 대한 반대 의견을 국가 간 이해, 신뢰, 협력과 같은 주요 이슈와 함께 설명했습니다. 유럽 국가들은 의학교육 시스템이 다양하기 때문에 유럽에서 기대하는 의사 표준을 달성하는 것에 대한 우려가 있었습니다. 그러나 Gorsira(2009)가 지적했듯이, NLE의 잠재적 이점과 함정은 논쟁의 여지를 남겼습니다. 그녀는 유럽 NLE의 즉각적인 시행이 환자의 안전을 보장하지 못할 뿐만 아니라 의학교육에도 해를 끼칠 수 있다고 결론지었습니다(Gorsira, 2009). 의사를 위한 유럽 표준에 동의하는 것은 브렉시트가 시행되면 영국을 포함한 비유럽 졸업생들과 어떻게 조화를 이룰 것인지에 대한 문제를 부각시킵니다.
Compared to their transatlantic counterparts, there had been wider debate about the national or European licensing examination during the last decade. There is on-going discussion amongst European countries, including the United Kingdom, about the issue of establishing national or large-scale examinations. Since European countries recognised medical graduates from the European Union members to practice within the European Union (EU), there was a shared responsibility to have a standardised quality of medical education and practice (Gorsira, 2009). In her article, Gorsira described the opposing views in response to a proposed European NLE, with key issues such as understanding, trust, and collaboration between countries. European countries varied in their medical education system, thus there was concern about achieving the expected standard of doctors in Europe. However, as Gorsira (2009) pointed out, the potential benefits and pitfalls of the NLE left the debate open. She concluded that immediate implementation of an European NLE would not guarantee patient
safety and would also cause harm to medical education (Gorsira, 2009). Agreeing European standards for doctors highlights the issue of how they align with non-European graduates, which will include the UK when Brexit is implemented.

네덜란드와 같이 의학교육에 대한 엄격한 인증과 동질적인 커리큘럼을 갖춘 일부 유럽 국가에서는 국가시험을 우선순위로 여기지 않는다고 말한 van der Vleuten(2013)에 의해 이 논쟁은 더욱 복잡해졌습니다. 일부 학교에서는 이미 커리큘럼의 비교 가능성을 보장하기 위해 집단 진도 테스트를 시행하고 있었습니다(Schuwirth 외., 2010). GMC의 '내일의 의사'를 기반으로 의과대학의 커리큘럼 설계와 실행에 더 큰 자유가 있는 영국의 경우, 의대 졸업생의 역량 비교 가능성에 초점을 맞춰 국가시험이 논의되었습니다(McCrorie and Boursicot, 2009). 객관성, 일관성, 품질 보증, 환자 안전 등의 논거를 고려한 GMC는 최근 국가 면허 시험에 대한 지지를 발표했습니다. 국가 시험을 제안하는 또 다른 이유는 졸업후 교육에 입학하는 학생의 기준을 설정하기 위해서입니다. 졸업후 교육에서 투명한 정량적 선발 메커니즘을 개발해야 한다는 문제도 영국에서 국가 면허 시험의 필요성을 제기했습니다. 미국과 달리 영국의 대학원 교육 선발은 국가시험(예: USMLE)의 순위를 사용하지 않기 때문에 동일한 평가 프로그램에서 해외 의대 졸업생과 영국 졸업생을 비교할 수 없었습니다(Gorelov, 2010).
This debate was further complicated by van der Vleuten (2013), who stated that some European countries that had strict accreditation of medical education and homogenous curricula, e.g. the Netherlands, did not see a national examination as a priority. Some schools already had collective progress testing to ensure the comparability of their curriculum (Schuwirth et al., 2010). In the UK, where there is greater freedom to design and implement medical schools’ curriculum based on the GMC’s Tomorrow’s Doctors, the national examination had been discussed following the focus on comparability of medical graduates’ competences (McCrorie and Boursicot, 2009). Considering the arguments of objectivity, consistency, quality assurance, and patient safety, the GMC recently announced its support for a national licensing examination. Other reasons for proposing national examinations would be to set the standard for students entering postgraduate education. The concern to develop a transparent quantitative mechanism of selection in postgraduate training also raised the need for national licensing examinations in the UK. Unlike the US, postgraduate training selection in the UK does not use the ranks in a national examination (such as USMLE), therefore it could not compare international medical graduates and UK graduates in the same assessment programme (Gorelov, 2010).

다른 유럽 국가에서는 NLE에 대해 보다 긍정적인 접근 방식을 취했습니다. 스위스는 2013년에 국가 면허 시험을 도입했습니다. 연방 면허 시험(FLE)은 학부 의학교육이 끝날 때 지식과 기술을 평가하여 품질 보증을 위한 수단으로 개발되었습니다. 스위스는 자국의 의료 및 의학교육의 높은 수준을 유지하기 위해 FLE를 도입했습니다. 기대되는 질은 졸업생의 역량 수준으로 설명되었습니다. 2010/2011년에 파일럿 시험을 실시한 후, 중앙에서 관리하고 지방에서 시행하는 시험(MCQ 필기시험과 OSCE로 구성)이 실시되었습니다(Guttormsen 외., 2013). 국가 시험으로 OSCE를 도입한 목적은 응용 임상 지식과 실제 임상 기술을 평가하여 졸업생의 수준 높은 수준을 보장하기 위한 것이었습니다.
Other European countres took a more positive approach to NLEs. Switzerland introduced a national licensing examination in 2013. The federal licencing examination (FLE) was developed as a means of quality assurance by assessing knowledge and skills at the end of undergraduate medical education. The reason the FLE was introduced was that Switzerland wanted to maintain the high quality of health care and medical education in their country. The expected quality was described as the level of competence of graduates. After performing a pilot in 2010/2011, the examination (which is centrally-managed and locally administered) was conducted, comprising MCQ written examinations and OSCEs (Guttormsen et al., 2013). The aim of establishing an OSCE as a national examination was to assess applied clinical knowledge and practical clinical skills to ensure a high-quality standard of graduates.

앞서 언급했듯이 EU 국가 내에서 의료 전문가의 이동성은 장점이자 단점으로 여겨져 왔습니다. 예를 들어, 영국에서는 해외 졸업생들이 의사 부족 문제를 해결하는 데 도움이 되었지만 EU 국가 간 교육 격차로 인해 EU에서 교육받은 의사 수가 증가하면서 우려가 제기되었습니다. 2015년 GMC는 2022년까지 영국 내에서 진료하려는 국내, 유럽 및 해외 의사를 대상으로 NLE의 한 형태인 의료 면허 평가(MLA)를 구축하는 프로젝트를 시작했습니다(Gulland, 2015; Archer 외., 2016a; Archer 외., 2016b). MLA는 국제 졸업생을 대상으로 하는 현재의 전문 및 언어 평가 위원회(PLAB) 시험을 대체할 것입니다. PLAB 시험은 임상 실무에서 영어에 대한 이해와 맥락을 테스트합니다. 영국에서 MLA 시범 프로젝트가 아직 진행 중이지만, 다양성에 대한 의문과 NLE가 의과대학의 현재 평가에 잘 맞을지에 대한 의문은 여전히 남아 있습니다(Archer 외., 2016a; Archer 외., 2016b; Stephenson, 2016). NLE를 설계하고 전달하는 '방법'에 대한 이러한 문제는 NLE를 도입하는 국가에서 흔히 발견되며, 이를 자세히 고려하면 그 결과의 잠재적 이점과 단점을 강조할 수 있습니다.
As mentioned earlier, the mobility of healthcare professionals within the EU countries has been seen as both a benefit and drawback. For example, in the UK although international graduates have helped to address the shortage of doctors the difference in training across the EU countries raised concerns when the number of EU-trained doctors increased. In 2015 the GMC initiated a project to establish by 2022 a medical licensing assessment (MLA), a form of NLE, for home, Europe, and international doctors intending to practice within the UK (Gulland, 2015; Archer et al., 2016a; Archer et al., 2016b). The MLA will replace the current Professional and Linguistic Assessment Board (PLAB) examination which is aimed at international graduates. The PLAB examination tests the understanding and context of English in clinial practice. While the pilot project for the MLA in the UK is still ongoing, the questions about diversity and whether the NLE would sit well within medical schools’ current assessment remains (Archer et al., 2016a; Archer et al., 2016b; Stephenson, 2016). This problem of “how” in designing and determining the delivery of NLE is commonly found in countries introducing the NLE; considering this in detail highlights the potential benefits and drawbacks of its consequences.

중동 및 아시아의 국가 시험
National examinations in Middle East and Asia

많은 전문가들은 교육과정의 다양성이 높은 곳에서 NLE가 하나의 옵션이 될 수 있음을 인식하고 있습니다. Van der Vleuten(2013)은 한 국가 또는 지역의 교육 프로그램과 평생교육의 다양성이 NLE의 필요성을 강화한다고 제안했습니다. 대부분의 아시아 국가에서 의과대학은 여전히 커리큘럼과 함께 일하기 위한 '최선의 방법'을 개발하고 있습니다. 학교는 교육 전문가와 협력하여 프로그램과 교육 전략을 개발하여 혁신하고 있습니다. 그들은 평가 시스템과 함께 주기적으로 커리큘럼을 평가하고 변경하여 국가 또는 국제적 요구에 맞게 조정합니다(Telmesani 외., 2011; Lin 외., 2013). 
Many experts recognised that NLEs could be an option where there is a high diversity in curriculum implementation. Van der Vleuten (2013) suggested that the diversity of training programs and continuing education in a country or region strengthens the need for NLE. In most Asian countries, medical schools are still developing their ‘best way’ to work with the curriculum. Schools work with educational experts to innovate, developing their programme and educational strategies. They evaluated and changed their curriculum periodically, along with the assessment system, to suit national or international needs (Telmesani et al., 2011; Lin et al., 2013).

중동에서 사우디아라비아는 졸업생의 질을 보장하기 위해 역량 기반 커리큘럼과 NLE를 구축하려고 시도한 국가 중 하나입니다. 이러한 결정은 사우디 아라비아의 의학교육에 대한 변화로 인해 이루어졌습니다. 여기에는 다음이 포함됩니다: 

  • 1) 의과대학의 수 증가와 각 의과대학이 채택한 다양한 커리큘럼 및 평가 시스템,
  • 2) 사우디아라비아에서 진료하기를 원하는 다른 나라 졸업생의 증가,
  • 3) 해외에서 의학을 공부하는 사우디 원주민의 증가(Bajammal 외., 2008).

In the Middle East, Saudi Arabia was the one of the countries to attempt to establish a competence-based curriculum and NLEs to ensure the quality of their graduates. This decision was driven by changes to medical education in Saudi Arabia. These included:

  • 1) The increasing number of medical schools, and the different curricula and assessment systems they adopted;
  • 2) Increasing numbers of graduates from other countries who wanted to practice in Saudi Arabia; and
  • 3) The increasing number of Saudi natives who pursued their medical study abroad (Bajammal et al., 2008).

비슷한 이유로 아시아에서는 한국이 2008년에 NLE와 OSCE를 최초로 시범 운영한 국가 중 하나였으며, 대만과 인도네시아가 그 뒤를 이었습니다

  • 한국은 2008년부터 표준화된 환자를 대상으로 한 임상 술기 평가와 마네킹을 이용한 OSCE를 시작했습니다. 한국 국가 OSCE는 임상 교육을 개선하는 것을 목표로 했습니다. 2010년부터는 임상 술기 시험 센터에서 3개월에 걸쳐 12개 스테이션으로 구성된 OSCE를 시행하고 있습니다. OSCE는 표준화된 환자(SP) 평가자와의 환자 대면 상황을 기반으로 한 6개의 스테이션과 의료진 평가자와의 시술 술기를 기반으로 한 6개의 스테이션으로 구성됩니다(Park, 2008). SP 평가자를 활용하고 장기간에 걸쳐 시행되기 때문에 시험의 공정성 및 타당성, 시험 정보 공유/공개와 관련된 여러 가지 문제에 직면했습니다. 
  • 대만에서 NLE는 필기 시험으로 시작되었습니다. 2008년 말, 대만 당국은 필기 면허 시험의 전제 조건으로 국가 OSCE를 발표했습니다. 2011년과 2013년에 대규모 파일럿 OSCE가 실시되었고, 이후 본격적인 OSCE가 시행되었습니다(Lin et al., 2013). 
  • 일본과 같은 다른 국가에서는 의대 졸업반 학생을 대상으로 NLE에 대한 필기 평가만 계속 요구하고 있습니다(Kozu, 2006; Suzuki et al., 2008).

For similar reasons, in Asia, South Korea was one of the first countries to pilot their NLE and its OSCE in 2008, followed by Taiwan and Indonesia.

  • South Korea started clinical skills assessment in 2008, having a clinical performance examination with standardized patients and an OSCE using manikins. The South Korean national OSCE aimed to improve clinical education. Since 2010, it has been carried out as a 12-station OSCE and administered over the course of three months in clinical skill test centres. The OSCE consists of 6-stations based on a patient encounter with standardised patient (SP) raters and 6-stations based on procedural skills with medical faculty raters (Park, 2008). It faced several challenges related to test fairness and validity of the exam, since it used SP raters and was administered over a long period, which enabled information sharing/ disclosure of exam information.
  • In Taiwan, NLE started as a written examination. Later in 2008, Taiwanese authorities announced the national OSCE as a prerequisite for taking the written licencing examination. Large-scale pilot OSCEs were held in 2011 and 2013 before the high-stake OSCE was implemented (Lin et al., 2013).
  • Other countries, such as Japan, continue to require only written assessment for the NLE for final year medical students (Kozu, 2006; Suzuki et al., 2008).

동남아시아에서는 10개국 중 4개국만이 NLE를 시행하고 있으며, 각 국가마다 목적과 대상이 다릅니다.

  • 태국, 필리핀, 인도네시아, 말레이시아는 MCQ 또는 수정된 에세이 질문(MEQ) 형식을 사용하여 지식 평가를 실시합니다.
  • 말레이시아는 해외 졸업생만 평가하고 나머지 3개 국가는 국내 및 해외 졸업생을 평가합니다.
  • 필리핀을 제외한 나머지 3개 국가는 OSCE 형식을 사용하여 임상 기술을 평가합니다.
  • 베트남과 라오스는 NLE를 개발 중이며
  • 브루나이, 싱가포르, 캄보디아, 미얀마는 NLE가 없습니다.

동남아시아에서 NLE에 대한 논의는 이 지역의 다른 국가에서 의술을 펼칠 수 있도록 의료 전문가의 자유로운 이동을 장려하는 아세안1 경제 공동체(AEC)에도 과제를 안겨주고 있습니다(Kittrakulrat 외., 2014). 
In South East Asia, only four out of ten countries have implemented NLEs and each have different purposes/ targets.

  • Thailand, Phillipines, Indonesia, and Malaysia, have knowledge assessment using the MCQ or modified essay questions (MEQ) formats.
  • Malaysia assesses international graduates only, while the other three assess home and international graduates.
  • Aside from the Phillipines, the other three countries assess clinical skills using OSCE formats.
  • Vietnam and Lao are in the process of developing NLEs, while
  • Brunei, Singapore, Cambodia, and Myanmar do not have one.

The discussion of NLEs in South East Asia also brings challenges to the ASEAN1 Economic Community (AEC) which promotes for the free movement of medical professions to practice medicine in another country in this region (Kittrakulrat et al., 2014).

인도네시아 국가 시험
National examination in Indonesia

인도네시아에서 NLE의 발전은 21세기 초 고품질 의료 전문가에 대한 필요성 증가에 뿌리를 두고 있습니다. 2007년 보건부 보고서에 따르면, 지역사회의 의료 접근성은 향상되었지만 의료 서비스 결과는 약간만 개선되었습니다. 2010년 세계보건기구(WHO) 보고서에 따르면 인도네시아의 의사 밀도는 인구 1,000명당 0.15명으로 예상 표준 비율에 미치지 못했습니다. 또한 도시와 농촌 지역에 의료 전문가가 고르지 않게 분포되어 있었습니다. 2006년에 의사의 17%만이 의료 서비스가 부족한 지역에서 근무한 반면, 83%는 인구 밀도가 높은 지역에서 근무했습니다(WHOSEARO, 2011). WHO와 인도네시아 정부는 네 가지 전략을 강조하여 보건 인적 자원을 개발하고 역량을 강화하는 것을 목표로 삼았습니다: 1) 계획 강화, 2) 공급/생산 증가, 3) 관리(유통 및 활용) 개선, 4) 품질 감독 및 관리 강화입니다(WHOSEARO, 2011).
The development of the NLE in Indonesia was rooted in the increasing need for high quality health care professionals at the beginning of 21st century. According to the report from the Ministry of Health in 2007, whilst communities had better access to health care, there were only slight improvements in health care outcomes. According to a World Health Organisation (WHO) report in 2010, Indonesia had a physician density of 0.15 per 1,000 population, which was less than the expected standard ratio. Moreover, there was uneven distribution of healthcare professionals in urban and rural areas. In 2006, only 17% of physicians worked in underserved areas, while 83% worked in highly populated areas (WHOSEARO, 2011). WHO and the Indonesian Government aimed to develop and empower human resources for health by emphasizing four strategies: 1) strengthening planning, 2) increasing supply/ production, 3) improving management (distribution and utilization), and 4) strengthening supervision and control of quality (WHOSEARO, 2011).

이러한 틀 안에서 정부는 이러한 목표를 달성하기 위해 설계된 보건의료 및 보건 전문직 교육 정책을 지속적으로 시행했습니다. 몇 년 전부터 정부가 보건 전문직 교육 법안을 제정하면서 변화가 시작되었습니다: 2003년에는 국가 교육 시스템 법안, 2004년에는 의료 실무 법안이 제정되었습니다. 이 법안들은 2006년에 인도네시아 의료 위원회의 설립을 촉구했습니다. 이 법안은 또한 교육부가 학부 의학교육 커리큘럼을 개선하는 데 촉매제 역할을 했습니다. 역량 기반 커리큘럼이 시행되었고, 커리큘럼의 참고 자료로 인도네시아 의사 역량 표준(인도네시아 의사 역량 표준 - SKDI)이 만들어졌습니다. 
Within this framework, the Government continued to implement policies in health care and health professions education designed to achieve these aims. Changes had begun a few years before, when the government established health profession education bills: The National Education System Bill in 2003 and Medical Practice Bill in 2004. The Bills urged the establishment of the Indonesian Medical Council in 2006. The Bills also acted as a catalyst for the Ministry of Education to improve the undergraduate medical education curriculum. Competence-based curricula were implemented and the Standard of Competence for Indonesian Medical Doctors (Standar Kompetensi Dokter Indonesia – SKDI) created as a reference for curricula.

역량 기반 커리큘럼 구현은 세계은행이 후원하는 교육부의 보건 전문가 교육 품질 프로젝트의 감독하에 진행되었습니다. NLE 설립에 앞서 인도네시아 의과대학 간 벤치마킹 테스트가 진행되었습니다. 자바섬(본섬)과 수마트라섬(외딴 지역)의 공립대학을 대상으로 한 벤치마킹 테스트 결과, 인도네시아 의과대학의 질에 차이가 있는 것으로 나타났습니다(Agustian and Panigoro, 2005). 위원회가 각 학교를 지속적으로 방문한 결과, 의학교육의 질을 보장하기 위해 의과대학의 '역량과 능력'을 개선할 필요가 있다는 사실이 밝혀졌습니다. '역량과 역량'이라는 용어는 자원에만 국한된 것이 아니라 교육 기관 내부의 학습 과정도 포함했습니다. 
The competence-based curriculum implementation was conducted under the supervision of the Ministry of Education’s Health Professionals Education Quality project sponsored by the World Bank. Prior to the establishment of the NLE, a series of benchmarking tests among medical schools in Indonesia took place. A benchmarking test between a public university in Java (the main island) and in Sumatera (a more remote area) shows that there were gaps among medical schools’ quality in Indonesia (Agustian and Panigoro, 2005). A continuous visit to each school by the committee revealed the need to improve the ‘capacity and capability’ of medical schools to ensure the quality of medical education in the institution. The term ‘capacity and capability’ was not only limited to resources but also included the learning process inside the institution.

세계보건기구에 따르면 2008년 인도네시아 의과대학을 졸업한 의사는 4325명이었습니다(WHO, 2011). 2013년에는 이 숫자가 거의 두 배로 증가하여 7047명이 졸업했습니다. 2008년 이후 20개 이상의 의과대학이 새로 설립되어 인도네시아의 의대생 수가 크게 증가했습니다. 일부 신설 학교는 기존 학교보다 더 많은 학생을 수용하기도 했는데, 예를 들어 C-인증을 받은 한 신설 학교는 연간 400명의 신입생을 수용했습니다(HPEQ, 2013). 2013년 이전에는 의과대학에 대한 학생 정원 규제가 없었기 때문에 이런 일이 가능했습니다. 각 대학(사립 또는 공립)의 내부 정책에 따랐을 뿐입니다. 현재 인도네시아의 의과대학은 매년 약 7,000~8,000명의 졸업생을 배출하고 있습니다. 인도네시아의 의료 수요를 충족하기 위해 이 숫자는 앞으로 크게 증가할 수 있습니다. 이처럼 의사 수가 크게 증가함에 따라 의학교육의 질을 보장하는 데 어려움이 있습니다. 
According to WHO, in 2008, 4325 doctors graduated from medical schools in Indonesia (WHOSEARO, 2011). In 2013, this number almost doubled, with 7047 graduates. Since 2008 more than 20 new medical schools were established, which significantly increased the number of medical students in Indonesia. Some new schools even accepted more students than the established schools; for example a new and C-accredited school accepted 400 new students per year (HPEQ, 2013). This was possible because, before 2013, there was no regulation of student quota for medical schools. It was only based on each university’s (private or public) internal policy. Nowadays, medical schools in Indonesia produce roughly around 7,000-8,000 graduates per year. This number could increase in the future significantly to meet health care needs in Indonesia. Such a significant increase in the number of medical doctors creates a challenge in assuring the quality of their medical education.

이에 보건부는 인도네시아 의대 졸업생들이 SKDI의 역량을 기반으로 특정 기준을 충족할 수 있도록 NLE를 설립하여 그 질을 높이기로 결정했습니다. 이 시험은 의과대학 내 역량 강화 및 개선을 유도하기 위한 목적도 있었습니다. 인도네시아 보건부와 인도네시아 의사회가 공동 주관하는 위원회에서 관리하는 NLE는 2007년에 설립되었습니다. 시험은 MCQ를 이용한 지식 평가로 시작되었습니다. 임상 술기 역량에 대한 논의가 시작되기 전까지는 지식 평가로 졸업생의 임상 분야 역량을 평가하는 것으로 충분하다고 여겨졌습니다. 2011년, 의사면허시험을 주관하는 인도네시아 국가역량시험 공동위원회(Komite Bersama Uji Kompetensi Dokter Indonesia - KBUKDI)는 MCQ로 평가할 수 없는 임상 술기를 평가하기 위해 OSCE를 개발하기로 결정했습니다(의사면허시험 공동위원회, 2013a). OSCE 시행 준비 과정은 다음과 같이 구분되었습니다:

  • 1) 청사진 설계,
  • 2) 문항 은행 및 지침 개발,
  • 3) 시험 속성 구성(도구, 인쇄된 루브릭, 컴퓨터 기반 채점),
  • 4) 2011-2012년 연 4회 시범 실시,
  • 5) 시범 실시 평가,
  • 6) 2013년 시행, 처음에는 두 번의 시험 기간에 형성 평가로, 다음 시험 기간에 종합 평가로 실시. 

The MoHER then decided to lever the quality of Indonesian medical graduates to meet certain standards, based on competences in SKDI, by establishing a NLE. This examination was also intended to drive improvement or capacity building within medical schools. Managed by a committee coordinated by the MoHER and the Indonesian Medical Council, a NLE was established in 2007. The examination started with an assessment of knowledge using MCQ. Until the discussion of clinical skills competence came up, it was considered sufficient to assess graduate competence in the clinical area by assessing their knowledge. In 2011, the Joint Committee of Indonesia National Competency Examination (Komite Bersama Uji Kompetensi Dokter Indonesia – KBUKDI), who act as an executive for the licensure, decided to develop an OSCE to assess clinical skills which could not be assessed using MCQ (Joint Committee on Medical Doctor Licensing Examination, 2013a). The process of preparing OSCE implementation was divided into:

  • 1) Designing the blueprint;
  • 2) Developing an item bank and guidelines;
  • 3) Organizing exam attributes (tools, printed rubrics, computer-based scoring);
  • 4) Piloting four times a year within 2011-2012;
  • 5) Evaluation of pilots;
  • 6) Implementation in 2013, initially as a formative assessment in two examination periods and summative in the next ones.

OSCE는 15분 분량의 12개 스테이션으로 구성되었습니다12개 스테이션은 12개 신체 시스템을 대표하며, 2012년 SKDI를 청사진으로 삼았습니다. 각 스테이션에서는 외래 진료실, 응급실, 수술실, 수술실로 설정된 공간에서 시뮬레이션된 임상 시나리오를 사용했습니다. 표준화된 환자 발생 사례와 마네킹을 이용한 시뮬레이션이 있었습니다. 수험생들은 로테이션을 위해 부저 소리로 안내를 받았습니다. 시험관들은 루브릭으로 학생들을 평가하고, 해당 스테이션의 케이스에 대한 임상 정보에 대한 가이드라인을 제공했습니다.
The OSCE comprised of twelve 15-minute stations. The twelve stations represented 12 body systems, referring to the 2012 SKDI as the blueprint. The stations used simulated clinical scenarios in rooms set as outpatient clinics, emergency room, and operation/ surgical room. There were standardised patient encounter cases as well as simulation using manikins. Examinees were guided by buzzer sounds for the rotation. Examiners assessed students with rubrics; provided with guidelines for clinical information regarding the case in the particular station.

2011년 8월부터 6차례의 시범 운영이 실시되었으며, 초기에는 1개 의과대학이 참여하여 2012년 말에는 44개 의과대학이 참여했습니다. 시험 센터에서 2단계(임상술기 평가)를 실시하는 미국과 달리, 인도네시아에서는 각 의과대학이 해당 시험 기간에 의대 졸업생을 배출한 경우 시험 센터가 되어야 합니다. 즉, 의과대학은 시험에 필요한 시험관, 직원, 시설 및 자원을 갖추어야 합니다. 시험 시행에 필요한 자원은 졸업생 수에 맞게 충분해야 합니다. 
Six pilots were conducted from August 2011, involving one medical school at the beginning to 44 medical schools at the end of 2012. Unlike in the US where the Step 2 (the clinical skills assessment) is conducted in test centres; in Indonesia, each medical school must be a test centre if they had medical graduates in that current period of examination. This means that medical schools must have the examiners, staff, facilities, and resources needed for the examination. The resources needed to deliver the examination should be sufficient to suit the number of graduates.

NLE의 일부로 OSCE를 시행하는 것은 2013년 고등교육부 고등교육국장의 법령에 명시되어 있습니다. 이 법령에 따르면 NLE는 컴퓨터 기반 MCQ와 OSCE로 구성되며, NLE는 학부 교육이 끝날 때 졸업 시험의 역할을 합니다. 처음 두 차례(2013년 2월과 5월)에 걸쳐 실시된 OSCE는 교육적 목적의 평가였습니다. 2013년 8월부터 OSCE는 필기 시험과 함께 종합적인 목적으로 사용되었습니다. 의대생은 두 시험을 모두 통과해야 의과대학을 졸업할 수 있습니다. 시험에 합격한 학생은 인도네시아 의학위원회로부터 역량 인증서를 받고 의과대학을 졸업할 수 있습니다. 이 증명서는 인도네시아 보건부로부터 의사 면허를 취득하는 데 필요합니다. 시험에 불합격한 학생은 재시험에 응시해야 하며, 의과대학은 이들을 위한 재교육 프로그램을 제공해야 합니다. 2014년 1월부터 보건부 고등교육국장은 의과대학의 NLE 합격률과 인증을 규제하는 법령을 제정하여 다음 학년도 신입생 최대 정원을 결정했습니다. 이 법령은 전임상 및 임상 교육 단계의 교사와 학생 비율의 균형을 맞추기 위한 것이었습니다. 이 법령은 일부 의과대학의 행태로 인해 촉발되었습니다. 예를 들어, C-인증을 받은 한 학교는 교사가 100명 미만인데도 연간 400명의 학생을 수용했습니다(HPEQ, 2013).  
The implementation of the OSCE as part of the NLE was described in the 2013 decree by Higher Education General Director of the MoHER. It stated that the NLE consists of computer-based MCQ and an OSCE; and the NLE serves as an exit exam at the end of undergraduate education. In the first two periods of the OSCE as the NLE (February and May 2013), the assessment was for formative purposes. Starting in August 2013, the OSCE served summative purposes, alongside the written examination. Medical students must pass both
examinations before they can graduate from medical school. Students who pass the examination gain a certificate of competence from the Indonesian Medical Council and graduate from medical schools. This certificate is required for a licence of practice from the MoH. Students who fail the examination must retake the examination and medical schools must provide remediation programmes for them. Starting in January 2014, the Higher Education General Director under the MoHER established a decree that regulates the passing rate of medical schools in NLE and their accreditation to determine the maximum quota for new students in the next academic year. This decree was meant to balance the ratio of teachers and students in preclinical and clinical phases of education. This decree was precipitated by the behaviour of some medical schools. For example, a C-accredited school accepted 400 students per year when they had less than 100 teachers (HPEQ, 2013).

이로 인해 합격률이 낮고 인증 수준이 낮은 의과대학들 사이에서 우려의 목소리가 높았습니다. A 인증 의과대학은 NLE 합격률이 90% 이상인 경우 최대 250명의 학생을 수용할 수 있었습니다. 반면, C 인증 의과대학은 NLE 합격률이 90% 이상인 경우 100명, 50% 미만인 경우 50명의 학생만 수용할 수 있었습니다. 이 규칙을 위반하는 의과대학(또는 대학)에 대해서는 보건복지부가 제재를 가하고 있습니다. 학생들의 등록금이 주 수입원인 사립학교의 경우, 이는 심각한 문제를 야기할 수 있습니다. 
This caused worries among medical schools that had lower passing rates and low levels of accreditation. The A-accredited medical schools could have a maximum of 250 students if they had a 90%+ passing rate in the NLE. Meanwhile, the C-accredited schools could only accept 100 students if they had a 90%+ passing rate in the NLE, and 50 students if they had less than 50%. There are sanctions from the MoHER for medical schools (or universities) that violate this rule. For private schools, whose main income is student’s tuition fees, this might raise significant problems.

인도네시아에서 NLE를 도입하고 그 일환으로 OSCE를 시행하는 것은 NLE를 시행한 다른 국가들의 경우와 마찬가지로 의학교육에 상당한 영향을 미칠 것으로 보입니다.
In Indonesia, the introduction of the NLE and the implementation of the OSCE as part of it, are likely to generate a significant impact on medical education, as has been the case for other countries that have implemented the NLE.

3.4 NLE의 결과: 현재의 논쟁
3.4 The consequences of the NLE: current debate

Kane(2014)이 제안한 평가의 타당성에는 결과 영역이 포함됩니다. 즉, 시험 점수의 해석을 뒷받침하는 증거가 있어야 하며, 평가의 결과에 대한 증거가 있어야 합니다. 평가의 타당성 정도는 개입으로서의 영향에 대한 증거를 포함하여 증거가 얼마나 강력한지에 따라 달라집니다(Kane, 2014). 면허 시험은 실무에 필요한 지식, 기술, 판단력을 갖춘 응시자만이 시험에 합격할 수 있도록 함으로써 대중을 보호하는 역할을 합니다. 시험 점수가 향후 업무 수행 능력과 상관관계가 있다고 가정하면 시험 점수가 낮은 수험생이 공공에 위협이 될 수 있다고 생각할 수 있습니다. 그러나 시험 점수가 높다고 해서 반드시 좋은 실무자가 되는 것은 아닙니다. NLE의 타당성은 시험 점수에만 의존하는 것이 아니라 이해관계자에게 미치는 영향도 고려해야 합니다. 
The validity of assessment, as proposed by Kane (2014), includes the consequences domain: there should be evidence that supports the interpretation of test scores; meaning there must be evidence of the consequences of the assessment. The degree of any assessment’s validity depends on how strong is the evidence, including the evidence of its impact as an intervention (Kane, 2014). The licensing examination works as a protection to the public by ensuring that only candidates who have the necessary knowledge, skills, and judgement for practice, pass the test. It could be assumed that the test score correlates with future performance, so that students with low test scores could pose a threat to public. However, it does not necessarily mean that those who have higher test
scores will be good practitioners. The validity of the NLE does not solely rely on test scores, but also its consequences for stakeholders.

다우닝의 프레임워크를 사용하여 체계적 문헌고찰을 수행한 Archer 등(2016)이 설명한 바와 같이, NLE의 결과는 참가자, 의과대학, 규제기관, 정책 입안자 또는 더 넓은 사회에 미칠 수 있으며, 의도적이거나 의도하지 않았거나, 유익하거나 해로울 수 있습니다(Archer 등, 2016a). NLE의 영향은 의료 시스템에만 국한되지 않고 의학교육 시스템에도 영향을 미친다는 점에 유의하는 것이 중요합니다. NLE의 결과에 대한 몇 가지 연구가 있었지만 이 분야에 대한 지식은 제한적입니다. Archer 등이 GMC(2016)를 대상으로 실시한 체계적 문헌고찰에서는 수험생의 과거 및 미래 성과, 환자 결과 및 불만과의 관계, 국내 졸업생과 해외 졸업생 간의 성과 차이 등 세 가지 영역의 결과를 조사했습니다. 
As described by Archer, et al. (2016), who used Downing’s framework to conduct a systematic review, the consequences of NLEs may fall on participants, medical schools, regulators, policy makers, or wider society; and they can be intended or unintended, beneficial or harmful (Archer et al., 2016a). It is important to note that the impact of NLEs will not be limited to the healthcare system, but also to the medical education system. There have been some studies of the consequence of NLEs but knowledge in this area is limited. The systematic review conducted by Archer et al. for the GMC (2016) looked into three areas of consequences: prior and future performance by examinees, relationship to patient outcomes and complaints, and variation in performance between home and international graduates.

대부분의 연구에 따르면 학교 평가에서 우수한 학생은 NLE에서도 우수한 성적을 거둘 수 있으며(Hecker and Violato, 2008), NLE 결과는 대학원 평가에서 더 나은 성과를 예측하는 것으로 나타났습니다(Thundiyil 외., 2010; Miller 외., 2014; Yousem 외., 2016). 그러나 Archer 등이 지적했듯이 의과대학의 의학교육에 대한 다른 접근 방식이 결과에 영향을 미칠 수 있습니다(Archer 등, 2016a). 그의 검토에 따르면 NLE의 결과로 환자 예후가 개선되었다는 증거가 부족하다고 합니다. NLE의 개입이 더 나은 환자 치료로 이어질 수 있다는 명확한 증거는 없습니다. 연구에 따르면 NLE의 성과와 환자의 불만 비율 사이에는 상관관계가 있는 것으로 나타났습니다(Tamblyn 외., 2007). 이는 인과관계를 설명하는 것이 아니라 환자 치료에 대한 NLE의 예측 가치가 있음을 보여줄 뿐이었습니다. 그러나 Archer의 검토에서는 이러한 연구가 NLE를 지지하는 강력한 논거를 제공한다는 점을 인정했습니다(Archer et al., 2016a). 
Most of the studies found that students who excelled in schools’ assessment would do well in NLEs (Hecker and Violato, 2008) and the NLE results predicted better performance in postgraduate assessment (Thundiyil et al., 2010; Miller et al., 2014; Yousem et al., 2016). However, as Archer et al. pointed out, the different approach to medical education in the medical schools might affect the results (Archer et al., 2016a). His review also revealed that there is the lack of evidence for the improvement of patient outcome as an NLE consequence. There is no clear evidence that the intervention of NLEs could lead to better patient care. The studies showed there was a correlation between performance in the NLE and rate of complaints made by patients (Tamblyn et al., 2007). This did not explain the causation; it only showed that there is a predictive value of the NLE on patient care. However, it was acknowledged in Archer’s review that these studies provided a strong argument in favour of NLEs (Archer et al., 2016a).

NLE의 타당성에 기여하는 NLE의 영향은 환자 치료와 의사의 임상 성과 영역에만 국한되지 않습니다. NLE가 교육에 미치는 영향도 중요하지만, 이 영역에 대한 증거는 매우 제한적입니다. 대부분의 연구는 임상 술기 평가의 NLE 구성 요소로 인한 임상 술기 커리큘럼 및 평가의 변화를 설명했습니다. 미국에서는 USMLE의 2단계 CSA가 임상 술기 교육의 변화를 주도했습니다. 의학 커리큘럼, 특히 자체 임상 술기 평가에 미치는 영향은 많은 학교가 의학교육에서 임상 술기의 중요성을 바라보는 시각을 바꾼 것으로 나타났습니다(Hauer 외, 2005; Hauer 외, 2006). 대부분의 학교는 의사소통 능력에 중점을 두고 종합적인 임상 술기 평가를 실시합니다(Hauer et al., 2005). Archer 등(2016)은 미국과 캐나다와 같은 기존 시스템에서는 임상 술기의 중요성이 부각되면서 의과대학의 임상 술기 교육에 집중하여 전국적으로 덜 자주 가르치는 특정 술기에 대한 필요성을 해결하고 있다고 강조했습니다. 
The impact of the NLE, which contributes to its validity, is not limited to the area of patient care and clinical performance of a doctor. NLEs’ consequences on education are also important, however, the evidence in this area is very limited. Most of the studies described changes in clinical skills curricula and assessment as a result of the NLEs’ component of clinical skills assessment. In the US, the Step 2 CSA of USMLE drove changes in clinical skills education. The impact on medical curricula, especially in-house clinical skills assessments, showed that many schools changed how they viewed the importance of clinical skills in medical education (Hauer et al., 2005; Hauer et al., 2006). Most schools conduct comprehensive clinical skills assessment with an emphasis on communication skills (Hauer et al., 2005). Archer et al. (2016) highlighted that in the established system, like the USA and Canada, the emerging importance of clinical skills was used to focus medical schools’ clinical skills teaching to address the need for specific skills which were less frequently taught nationwide.

의학교육의 변화가 비교적 최근이고 OSCE가 비교적 새로운 아시아 국가에서는 NLE의 일부로 도입하는 것이 어려운 도전이 될 수 있습니다. 대만의 경우, Lin 등(2013)이 설명한 바와 같이 임상시험의 난이도가 높아지면서 임상술기 평가의 사용이 증가하고 병원 내 임상술기 교육 시설이 개선되었습니다. 이 연구진은 설문지를 통해 OSCE 프로그램이 활성화된 교육 병원을 조사하여 OSCE 시행과 그 구성 요소에 대한 정보를 얻었습니다. 그 결과 교육 및 시험실, 모의 환자(SP), 임상 술기 평가를 위한 케이스 개발 수가 모두 증가했다는 사실을 발견했습니다. 그러나 교육이나 평가에 사용되는 병원 공간, 직원, SP 등의 한계도 확인했으며, 시험 시행에 필요한 자원이 충분한지에 대한 우려도 제기했습니다. 이러한 문제에도 불구하고 이 연구는 의료 수련 기관에서 NLE에 대한 강력한 지지를 나타냈습니다(Lin et al., 2013). 마찬가지로 한국에서도 OSCE 도입으로 임상술기 교육 커리큘럼, 평가, 시설 등이 개선되었다는 연구 결과가 있었습니다(Kim, 2010; Park, 2012; Ahn, 2014). 
In Asian countries, where changes in medical education are more recent and the OSCE is relatively new, its introduction as part of the NLE can be a daunting challenge. For Taiwan, as explained by Lin et al. (2013), the high stakes clinical examination drove the increasing use of clinical skills assessments and the improvement of clinical skills teaching facilities in hospitals. They investigated teaching hospitals with active OSCE programs using questionnaires to gain information about OSCE implementation and its components. They found that the number of rooms for training and examination, simulated patients (SP), and case development for clinical skills assessment all increased. However, they also identified limitations: hospital spaces used for teaching or assessment, staff, and SPs, raising the concern of whether there were sufficient resources to establish the examination. Despite these issues, the study indicated strong support from medical training institutes toward a NLE (Lin et al., 2013). Similarly, studies in South Korea also indicated that the introduction of OSCE drove improvement in clinical skills teaching curricula, assessment, and facilities (Kim, 2010; Park, 2012; Ahn, 2014).

문헌에 나타난 NLE의 긍정적인 결과와 부정적인 결과로 요약되는 이러한 상반된 의견은 아래 표에 요약되어 있습니다: These contrasting opinions, summarised as positive and negative consequences of the NLE from the literature are summarised in the table below:

지난 10년 동안 추가 연구가 수행되었는데, 대부분 의학교육과 의료 시스템이 인도네시아와 같은 개발도상국과 다른 선진국에서 데이터를 가져왔습니다. Archer 등(2016)이 GMC에 대한 검토에서 언급했듯이, 곧 도입될 영국의 MLA는 영국과 유사한 특성을 공유하는 다른 국가의 NLE(인간개발지수가 높고 의학교육 및 보건의료 시스템이 유사한 선진국)와 비교할 수 있습니다. 이를 통해 NLE를 둘러싼 담론에서 개발도상국에서의 실행 및 영향과 관련된 격차가 있음을 확인할 수 있습니다. 
Further studies have been conducted in the last decade, most of which draw their data from developed countries, where both medical education and the health care system differs from those in developing countries such as Indonesia. As Archer, et al. (2016) stated in his review for the GMC, the upcoming MLA in the UK could be compared with NLEs in other countries sharing similar characteristics with the UK: highly developed countries with a high human development index, similar systems of medical education and health care. This confirms gaps in the discourse surrounding the NLE to do with its implementation and impact in developing countries.

인도네시아에서는 2007년부터 SKDI를 '표준'으로 도입하고 NLE를 통해 커리큘럼을 변화시켜 역량 기반 커리큘럼으로 이끌었습니다. 이러한 혁신에 대한 연구는 제한적이며 대부분의 문헌은 인도네시아 문화와 이해관계자의 고유한 특성을 다루지 않았습니다. 국가 위원회에서 수행한 연구는 시험의 타당도와 신뢰성 요소에 초점을 맞추었습니다.
In Indonesia, the introduction of SKDI as the “standard” and the NLE drove curriculum changes from 2007 leading to the competence-based curriculum. There is limited research on these innovations and most of the literature has not covered the unique characteristics of Indonesian culture and stakeholders. The studies carried out by the national committee focussed on the validity and reliability component of the examination.

인도네시아의 의학교육과 의료 시스템 이해당사자들에게 NLE가 미친 영향에 대해서는 알려진 바가 거의 없습니다. 소규모 연구에 따르면 NLE가 학생 학습의 질과 학생의 메타인지 조절에 영향을 미쳤다고 합니다(Firmansyah 외., 2015). 그러나 교사는 교육의 예상 결과를 학습 목표로 해석하여 학생들에게 전달해야 하므로 NLE는 교사의 수업과 평가를 수정할 수 있는 잠재력을 가지고 있습니다. 마찬가지로, 이는 학생들이 시험과 관련된 방식에 영향을 미치고 의과대학이 정책 및 교육 관행에 필요한 변화를 파악하도록 유도할 수 있습니다. 그러나 NLE를 경험한 사람들에게 이러한 영향이 구체적으로 어떤 영향을 미쳤는지에 대해서는 알려진 바가 거의 없습니다. 따라서 인도네시아의 매우 다양한 의과대학 시스템에서 NLE가 학생의 학습, 교사의 개발, 의과대학의 정책에 어떤 영향을 미쳤는지 이해하는 것이 중요합니다. 
Little is known about the consequences of the NLE on medical education in Indonesia and the stakeholders in the health care system. A small scale study proposed that the NLE affected the quality of student learning and students’ metacognitive regulation (Firmansyah et al., 2015). However, as teachers have to interpret the expected outcome of education into learning objectives and deliver it to students the NLE has the potential to modify their teaching and assessment. Similarly, this would affect how students relate to the examination and lead medical schools to identify changes needed in their policy and educational practice. However, very little is known about the details of this impact on those who experienced the NLE. It is, therefore, important to understand how the NLE affected students’ learning, teachers’ development, and medical schools’ policy in the very diverse system of medical schools in Indonesia.

  • 따라서 이 연구는 인도네시아의 문화와 이해관계자 및 그들의 특성이 NLE 시행의 결과에 어떤 영향을 미칠 수 있는지 인식하면서 인도네시아에서 NLE의 영향을 이해하는 데 중점을 두었습니다.
    Consequently, this study focussed on understanding the impact of the NLE in Indonesia, recognising how the culture and the stakeholders and their characteristics might affect the consequences of implementing the NLE.

 


 

모든 이해관계자를 위한 핵심 역량 평가 프로그램 만들기: 선박 설계와 건조에서 얻을 수 있는 것( Adv Health Sci Educ Theory Pract. 2020)
Building a core competency assessment program for all stakeholders: the design and building of sailing ships can inform core competency frameworks 
W. Dale Dauphinee1,2

유럽 산부인과학회 및 산부인과학대학(EBCOB)의 반 데르 아아(van der Aa) 등은 Advances 최신호에서 대학원 임상 교육에서 핵심 역량 기반 의학교육을 설계하는 데 필요한 대안 전략을 제시했습니다(반 데르 아아 등, 2019). 가장 중요한 것은 제목에서 알 수 있듯이 논리적이고 상향식 방식으로 진행되었다는 점입니다: 처방에서 지침까지: 일반 역량을 위한 유럽 프레임워크. 지난 20년 동안 의학교육 문헌에서 역량 교육에 대해 방대한 분량을 할애한 것을 감안할 때, 왜 처음부터 다시 시작했을까요? 그 이유는 역량 기반 교육(CBE) 및 평가(CBA)를 둘러싼 현장의 혼란스러운 상황에 대한 훌륭한 소개에 잘 설명되어 있습니다. 이는 특히 대학원 임상 교육에서 더욱 그렇습니다. 이에 대응하여 그들은 교육자를 전문 분야별로 안내하도록 설계된 단계별 경로를 개략적으로 설명했으며, 더 쉬운 학습과 더 많은 창의성을 위한 유연성을 거의 제공하지 않는 CBE 및 CBA의 경직된 목표를 사용하는 것을 피했습니다. 특히 산부인과(OB-GYN) 역량 기반 교육의 핵심 문제를 관리하고 구현하는 방법에 초점을 맞추기 위해 두 가지 주요 이니셔티브에 착수했습니다. 첫째, 의료 기관의 기본 운영 핵심 또는 기술 구조 내에서 일하는 의료 전문가들 사이에서 변화를 도입하고 확립하기 위한 모범 관리 사례를 검토하고 확인했습니다. 둘째, 다양한 일선 이해관계자와 대상 전문가들의 더 넓은 시각을 통해 산부인과에 필요한 일반적인 역량에 대한 보다 포괄적이고 새로운 초상을 포착하기 위해 액션 리서치 결과를 활용하여 새로운 프레임워크에 정보를 제공하고 채웠습니다. 두 가지 모두 축하드립니다.
In the current issue of Advances, van der Aa et al. from the European Board and College of Obstetrics and Gynaecology (EBCOB) have presented a needed and alternative strategy for designing core competency-based medical education in post-graduate clinical training (van der Aa et al. 2019). Most importantly, they have proceeded in a logical and bottom up manner, as clearly implied in the title: From Prescription to guidance: a European framework for generic competencies. Given the vast number of pages devoted to competency education in the medical education literature over the last two decades, why have they started from scratch? The reasons are well described in their excellent introduction on the muddled state of the field surrounding competency based education (CBE) and assessment (CBA). This is particularly true in graduate clinical training. In response, they have outlined a step-wise pathway designed to guide educators in a specialty specific manner and avoided using rigid objectives for CBE and CBA that offer little flexibility for easier learning and more creativity. Critically, they undertook two major initiatives in order to focus on how to manage and implement core issues in competency-based education in Obstetrics and Gynecology (OB-GYN). They reviewed and identified the best management practices for introducing and establishing change amongst health professionals working within the basic operative core or the technostructure of health care institutions. Secondly, they have looked through the wider lens of various front line stakeholders and targeted professionals to capture a more inclusive and refreshing portrait of the generic competencies needed in OB-GYN by utilization the results of action research to inform and populate a new framework. Congratulations on both counts.

그러나 제 의견을 공식화하고 뒷받침하는 데 도움이 되도록, 저는 예전에 목조 범선을 건조하고 장식하던 부모님의 가족으로부터 빌린 비유를 제시하고 싶습니다. 모든 이해관계자의 요구와 기대를 충족하기 위해 실제 일상 세계에서 작동해야 하는 제품이나 서비스를 만들려는 모든 이니셔티브와 마찬가지로, 목조 범선을 만드는 과정에는 여러 개별적이지만 서로 연결된 단계가 포함됩니다. 이러한 모든 단계는 성공적인 결과와 원하는 효과를 얻기 위해 필수적입니다.

  • 즉, 선박의 주요 목적을 가장 적절하게 달성할 수 있도록 설계 및 건조하고(속도를 내기 위해 좁거나 큰 하중을 싣기 위해 넓게),
  • 바람을 최적으로 포착하기 위한 '도구'로서 돛대, 리깅 및 돛을 설계 및 설치하며,
  • 마지막으로 각 설계 가정과 후속 실행의 신뢰성과 타당성을 모두 검증하기 위해 해상 시험을 실행하는 것입니다.
  • 궁극적인 목표는 설계자와 건조자가 이해관계자가 의도한 선박에 대한 비전과 열망을 충족했음을 입증하는 것입니다(Herreshoff 1974).

However, to help formulate and undergird my comments, I want to offer a metaphor borrowed from my parents’ families as builders and outfitters of wooden sailing ships in earlier times. Like any initiative in which one seeks to create a product or service that has to function in the real everyday world in order to meet all stakeholder’s needs and expectations, the creation of a wooden sailing ship involved several discrete but interconnected steps. All of these steps are essential for a successful outcome and the desired impact. They are:

  • design and build the ship to most appropriately achieve its primary purpose (narrow for speed or wide for large loads),
  • design and install the masts, rigging and sails as ‘instruments’ to optimally capture the wind; and
  • lastly execute the sea trials to validate both the reliability and validity of each of the design assumptions and their subsequent execution.
  • The ultimate goal is demonstrate that the designers and builders have met the stakeholders’ intended vision and aspirations for the ship (Herreshoff 1974).

선박 건조 프로세스에는 평가 프로세스 및 도구 구축에 직접적으로 영향을 미치는 특징이 있습니다. 새로운 설계는 일반적인 역량에 대한 이전의 시도에서 쉽게 드러나지 않았던 이슈와 문제를 정의하고 명확히 해야 합니다. 은유는 비교뿐만 아니라 중요한 통찰력도 제공합니다. 은유는 일련의 프로세스가 표현되는 방식에 관한 것입니다. 따라서 각 단계가 프로젝트의 전체 여정에 필수적인 아이디어나 품질을 상징하고 더 나은 결과와 더 큰 영향력을 얻기 위해 어떻게 진행하고자 하는지에 대한 스토리를 제공하기 위해 은유가 선택됩니다.
The ship building process has features that directly bear on the building of assessment processes and tools. A new design must define and clarify issues and problems that were not readily apparent in earlier attempts at generic competencies. The metaphor provides comparisons but also important insights. A metaphor is about how a set of processes is expressed. Thus, a metaphor is chosen to offer a story, within which each step symbolizes an idea or quality that is essential to the project’s overall journey and how they intent to proceed to a better outcome and greater impact.

저자의 접근 방식
The authors’ approach

반 데르 아아의 글은 이 새로운 전략을 성공적으로 마무리하기 위해 해결해야 할 일련의 개발 문제 중 첫 번째 단계에 대해 설명합니다. 아직 해야 할 일이 많이 남아 있습니다. 예를 들어, 핵심 역량을 파악하는 아이디어는 새로운 것이 아닙니다. 1999년에 미국의학전문위원회(ABMS)와 미국의학전문대학원교육인증위원회(ACGME)는 ABMS 역량 유지 프로그램 및 대학원 교육 수련 프로그램 인증의 기반이 될 6가지 핵심 일반 역량을 공동 승인하면서 이 개념을 장려했습니다. 6개의 광범위한 역량을 일련의 평가 요소로 분해한 다음 일련의 도구로 재구성해야 한다는 개념은 큰 도약이자 위험한 일이었습니다. 품질 개선을 지원하는 인프라를 구축하지 않으면 이러한 형식은 '제도화'는 되지만 '전문화'는 되지 않는 경향이 있습니다(Audet 외. 2005). 목록과 규칙만으로는 충분하지 않습니다. 
The van der Aa article describes the first step in a cascade of developmental issues that must be addressed in moving this new strategy to a successful conclusion. Much more remains to be done. For example, the idea of identifying core competences is not new. In 1999, the American Board of Medical Specialties (ABMS) and the Accreditation Council for Graduate Medical Education (ACGME) promoted the concept with their joint endorsement of six core general competencies to serve as the bases for the ABMS Maintenance of Competence program and for the accreditation of post-graduate education training program. The notion of six broad competencies having to be deconstructed into set of assessment elements and then reconstructed into a set of tools was a major leap and risky. Without the building of infrastructure to support quality improvement, such formats tend to be ‘institutionalized’ but not ‘professionalized’ (Audet et al. 2005). Lists and rules are not enough.

그러나 EBCOB 개발의 경우, 저자들은 행동 연구를 사용하여 일반적인 역량 프레임워크를 개발했습니다. 연구팀은 이해관계자 매핑을 활용하여 이해관계자 그룹과 협력하여 네 가지 영역을 식별했습니다.

  • 환자 중심 치료,
  • 팀워크,
  • 시스템 기반 진료,
  • 개인 및 전문성 개발

그러나 각 영역에서 '지침'을 제시하기보다는 이해관계자가 파악한 '요구사항'의 예를 설명하여 평가자가 '지침 표준'을 현지 상황에 적용할 때 더 나은 지침을 제공할 수 있도록 했습니다. 또한 평가자가 현장에서 재창조하고 창의적으로 적응할 수 있는 기회를 제공하기 위해 네 가지 영역을 일반적인 용어로 설명했습니다. 이 전략이 주는 시사점은 무엇인가요? 
However, in the case of EBCOB development, the authors used action research to develop a guiding generic competency framework. Utilizing stakeholder mapping, the research team worked with the stakeholder groups to identify four domains. They were

  • patient- centered care;
  • teamwork;
  • systems-based practice; and
  • personal and professional development.

However, under each domain, rather than offering ‘directives’, they described examples of the stakeholder’s identified ‘needs’ so as to offer better guidance to assessors when applying the ‘guiding standard’ to local contexts. Furthermore, the four domains were described in general terms so as to offer the evaluators the opportunities for re-invention and creative adaptation in the field. What are the implications arising from this strategy?

s10459-019-09910-8.pdf
0.90MB

 

세 가지 즉각적인 과제가 있습니다. 프레임워크가 프로그램 디렉터, 학습자 및 교수진을 위해 최적으로 작동하려면 표준 보고 형식, 데이터 시스템 및 성과 데이터 수집을 위한 대시보드 액세스(예: 표준화된 항해 차트와 항해 육분계 및 기압계 데이터)를 설계하고 구현하는 것이 필수적입니다. 교수진을 준비하고 교육하기 위한 교수진 개발 프로그램과 연계된 품질 관리 프레임워크가 분명히 필요할 것입니다. 또한 학회와 이사회는 교수진이 사용할 수 있는 용어집과 허용되는 시험 형식을 제공할 수 있도록 해야 합니다. 저와 제 동료들은 품질 관리의 중요성과 핵심 역량 기반 교육 이니셔티브의 변경 사항을 감독하는 책임 있는 기관의 필요성을 설명했습니다(도피니 외. 2019). 우리는 모든 평가 노력의 장기적인 지속 가능성을 보장하기 위해 더 나은 품질 관리를 가능하게 하는 경로와 프레임워크를 제공했습니다. 우리도 이러한 다음 개발과 현장 테스트('해상 시험')를 기대할 것입니다.
There are three immediate challenges. The design and implementation of standard reporting formats, data systems and access to dashboards for the collection of performance data (i.e. standardized navigation charts plus data from navigation sextants and barometers) is essential if the framework is to function optimally for the program directors, the learners and teaching staff. Clearly a quality control framework, in association with a faculty development program to prepare and train the faculty, will be needed. That will also require the Society and Board to ensure that a glossary of terms and acceptable testing formats will be available for the teaching faculty. My colleagues and I have described the importance of quality control and having a responsible authority overseeing any changes in core competency-based education initiatives (Dauphinee et al. 2019). We offered pathways and frameworks to enable better quality control to ensure long-term sustainability of any evaluation endeavour. We too will look forward to these next developments and their field testing (‘sea trials’).

고려해야 할 다른 과제
Other challenges that should be considered

그러나 최근 역량 모델에 고려되지 않은 또 다른 위협이 있습니다. 의사의 번아웃 문제는 대학원 교육과 개업 의사 커뮤니티에서 우려할 만한 문제가 되었습니다. 미국 의학 연구소(IOM)의 최근 보고서인 '임상의 소진에 대한 조치 취하기'를 참고하세요: 전문직의 웰빙을 위한 체계적인 접근법이라는 보고서는 전문직의 모든 분야에서 관심을 기울일 것을 요구합니다(미국 과학, 공학 및 의학 아카데미 2019). IOM 보고서의 저자들은 의사 소진의 증가를 20년 전 '인간은 실수할 수 있다' 및 '질적 격차' 보고서의 결과와 동일한 수준의 대중적 관심사 및 조치의 필요성에 놓았습니다. 이 문제는 미국에만 국한된 것이 아닙니다. 이 비극적인 상황과 가능한 전략을 다루는 데 있어 반 데어 아아 보고서와 직접적인 연관성이 있습니다. However, there is another recent threat to any competency model that has not been considered. The challenge of physician burnout has become a worrisome issue within post-graduate education and the practicing physician communities. The recent report of the Institute of Medicine (IOM), Taking Action Against Clinician Burnout: A Systematic Approach to Professional Well-Being, demands the attention from all sectors of the profession (National Academies of Sciences, Engineering, and Medicine 2019). The IOM report’s authors have placed the rise in physician burnout on the same level of public concern and need for action as the findings from the To Err is Human and the Quality Chasm reports of 20 years ago. The issue is not confined to the USA. In addressing this tragic development and possible strategies, there is a direct link to the van der Aa paper.

EBCOB의 프레임워크에 따르면 네 가지 일반 역량 중 하나는 '개인 및 전문성 개발'입니다. 기본 원칙 중 두 가지는 '일과 삶의 균형'과 '개인의 역량과 한계 인식'입니다. 이해관계자 및 기타 전문가를 대상으로 한 액션 리서치 조사를 통해 이 핵심 역량을 파악한 것은 1990년부터 1998년까지 제가 컨설팅 자문위원으로 참여했던 온타리오 의사의 미래 교육(EFPO) 프로젝트를 떠올리게 합니다. 이 보고서에서는 의료 전문가, 커뮤니케이터, 협력자, 건강 옹호자, 학습자, 관리자("게이트키퍼"), 학자, "인격체로서의 의사" 등 미래의 의사에게 필요한 8가지 핵심 역할을 확인했습니다(Neufeld 외. 1998). 이러한 역할은 문헌 검색, 이해관계자, 환자, 그리고 의사와 학생에 대한 구조화된 인터뷰를 기반으로 확인되었습니다. 25년 전의 인터뷰와 연구는 다른 사람을 돕고 치유하는 전문가로서의 의사의 역할 외에도 한 인간으로서의 의사의 역할이 중요하다는 것을 시사했습니다. 이는 주목해야 할 주요 관심사였습니다. 실제로 EFPO 보고서는 온타리오주 의과대학에 졸업생들이 인격체로서의 의사를 포함한 이러한 역할을 수행할 수 있도록 홍보하고 준비하도록 했습니다. 나중에 캐나다 왕립 의사 및 외과의사 대학에서 이러한 역할을 CanMEDS 역할에 맞게 조정할 때 원래 이해관계자의 의견에도 불구하고 인간로서의 의사는 삭제되었습니다. CanMDES 역할 프레임워크는 국제적으로 널리 채택되었지만, 현재 CanMDES 웹사이트의 '인격체로서의 의사'는 '전문가로서의 의사' 아래에 '환자 치료를 촉진하기 위해 의사와 건강 및 복지에 대한 헌신을 보여야 한다'는 작은 언급을 제외하고는 다시 나타나지 않고 있습니다. 

Under the EBCOB’s framework, one of the four generic competences is ‘personal and professional development’. Two of the underlying the guiding principles are ‘balance work and life’ and ‘recognize personal competencies and limits’. The identification of this core competency from the action research enquiry of stakeholders and other professionals is reminiscent of Future Education of Physicians for Ontario (EFPO) project, for which I was a consulting advisor from 1990 to 1998. The report identified eight (8) core roles for the physician of the future: medical expert, communicator, collaborator, health advocate, learner, manager (“gatekeeper”), scholar, and “physician as person” (Neufeld et al. 1998). Of interest, the identification of these roles was based on literature searches, structured interviews of stakeholders, patients, and of course, physicians and students. The interviews and research from 25 years ago suggested that the physician, as a person, was important, in addition to the physician roles as expert to help and heal others. It was a major concern in need of attention. In fact the EFPO report committed the faculties in Ontario to promote and prepare their graduates for these roles, including physician as a person. Later, when the these roles were adapted by the Royal College of Physicians and Surgeons of Canada for the CanMEDS roles, physician as person was dropped despite the original stakeholder input. The CanMEDS roles framework was widely adopted internationally, but its current version on the CanMEDS Web-site, ‘physician as person’, has not reappeared, except for a small reference under ‘physician as professional’ to ‘demonstrate a commitment to physician and health and well-being to foster patient care’.

의사의 소진이라는 주요 문제와 그에 따른 다른 사람들이 인격체로서의 의사에 대한 원래의 잘 연구된 EFPO 역할에 주의를 기울이지 않는 것을 고려할 때, EBCOB 팀은 일반적인 '개인 및 전문성 개발' 역량을 다시 검토할 수 있을 것입니다. 이 영역이 새로운 도전 과제인 의사 및 전공의의 소진과 중도 탈락 문제를 해결하는 데 어떻게 사용될 수 있는지 고려할 수 있는 기회가 될 것입니다. IOM 보고서는 임상의의 소진과 직업적 웰빙에 대한 시스템 모델을 제안하며, 이를 고려할 가치가 있습니다. 분명 시스템 문제도 중요하지만, 최근 유럽의 산업보건 문헌에서 직무-제작에 관한 Bakker와 동료들의 연구도 앞으로 고려할 가치가 있습니다(Tims 외. 2013). 직무 제작은 인사 고문이나 멘토가 직원이 자신의 업무나 책임 또는 직장 내 다른 사람들과의 상호 작용을 맞춤화할 수 있는 수단을 고려할 수 있는 접근 방식입니다. 조직은 보건 직종을 포함하여 직무의 의미를 높이고 성과를 개선하기 위해 직원들에게 직무 제작을 수행하는 방법을 교육할 수 있습니다. 따라서 보건 서비스에서 개인의 역할이나 업무를 재설계하는 것은 하향식 직위 재설계에 대한 좋은 대안이며 유연성과 창의성이 더 높은 EBCOB 전략에 잘 맞을 수 있습니다. 앞으로 더 많은 규제와 더 많은 책임이 요구되는 상황에서 더욱 중요해질 것으로 보입니다. 더욱 실망스러운 것은 현장 테스트가 제대로 이루어지지 않은 인공지능 '보조 장치'가 의사의 개인 임상 루틴에 점점 더 많이 침투하고 있다는 점입니다. EBCOB 핵심 역량을 새롭게 살펴보는 것은 수련의가 자신의 업무 환경을 재정의하고 더 잘 통제할 수 있는 능력을 강화할 수 있는 추가적인 학습 전략을 고려할 수 있는 기회입니다. 이러한 후자의 고려 사항은 미래의 유럽 의사들에게 흥미롭고 생산적인 기회가 될 수 있습니다.
Given the major issue of physician burnout, and the subsequent failure of others to heed the original, well studied EFPO role on physician as person, the EBCOB team may want to revisit the generic ‘personal and professional development’ competency. It would be an opportunity to consider how this domain might be used to address an emerging challenge—the physician and post- graduate trainee problems of burnout and drop-out. The IOM report proposes a systems model of clinician burnout and professional well-being that deserves consideration. Clearly systems issues are important, but the recent work of Bakker and colleagues on job-crafting in the occupational health literature in Europe also deserves consideration going forward (Tims et al. 2013). Job crafting is an approach wherein personnel advisors or mentors can consider the means by which an employee can customize their tasks or responsibilities or interactions with others at work. Organizations can train their staff on how to undertake job crafting to increase their meaning and improve their performance, including in the health professions. Thus, the redesign of an individual’s roles or tasks in the health services is a good alternative to top-down position redesign and could fit nicely within the EBCOB strategy more flexibility and creativity. It would seem to be even more important in the future with more regulations and more accountability demands. Even more frustrating is the increasing penetration of artificial intelligence ‘aids’, often inadequately field tested, into the physician’s personal clinical routines. A fresh look at the EBCOB core competencies is an opportunity to consider additional learning strategies to amplify trainees’ abilities to redefine and take more control of their work environment. These latter considerations could be exciting and productive for the future physicians of Europe

결론적으로 이 보고서는 지속적인 전략 개발의 첫 번째 단계이며, 이를 위해 훌륭한 출발점이라고 할 수 있습니다. 기기 개발('장비 및 돛')과 현장 테스트('해상 시험')를 통해 아직 더 많은 작업이 필요한 문제가 밝혀진 후에도 이 이니셔티브를 개선할 기회가 더 많이 있습니다. 모든 규제 기관의 모토는 대중을 보호하고, 남녀노소를 막론하고 전문직을 선도하는 것이어야 합니다.
As a concluding comment, this report is the first step in an on-going strategic development, and to that end, it is an excellent start. There are many more opportunities to improve the initiative after instrument development (‘rigging and sails’) and after field testing (‘sea trials’) reveal what issues still need more work. Their mantra should be that of all regulatory organizations: protect the public and guide the profession, young and old.

 


Adv Health Sci Educ Theory Pract. 2020 Mar;25(1):189-193. doi: 10.1007/s10459-020-09962-1. Epub 2020 Feb 6.

Building a core competency assessment program for all stakeholders: the design and building of sailing ships can inform core competency frameworks

Affiliations

1Clinical and Health Informatics Research Group, Division of Clinical Epidemiology, Department of Medicine, McGill University, 1140 Pine Avenue West, Montreal, QC, H3A 1A3, Canada. dale.dauphinee@mcgill.ca.

2Foundation for Advancement of International Medical Education and Research, Philadelphia, PA, USA. dale.dauphinee@mcgill.ca.

PMID: 32030572

DOI: 10.1007/s10459-020-09962-1

Abstract

When educators are developing an effective and workable assessment program in graduate medical education by employing action research and stakeholder mapping to identify core competency domains and directives, the multi-stage process can be guided and informed by utilizing the story of designing, building and sea-testing sailing ships as a metaphor. However, the current challenge of physician burnout demands additional attention when formulating medical training frameworks, assessment guidelines and mentoring programs in 2020. The possibility of job-crafting is raised for consideration by designers of core competency frameworks in the health professions.

Keywords: Action research; Change management; Competency-based assessment; Generic competencies; Implementation; Job-crafting; Physician burnout; Post-graduate medical education.

성공적으로 메디컬 인포그래픽을 만드는 열두 가지 팁(Med Teach, 2021)
Twelve tips to make successful medical infographics
Sergio Hernandez-Sancheza , Victor Moreno-Pereza, Jonatan Garcia-Camposb , Javier Marco-Lledob, Eva Maria Navarrete-Mu~noza and Carlos Lozano-Quijadaa 

 

소개
Introduction

인포그래픽은 데이터나 개념을 대상에게 명확하고 간결하게 전달하기 위해 시각적 요소를 사용하여 정보를 그래픽으로 묘사하는 시각적 커뮤니케이션 도구입니다(Lankow 외. 2012). 그래픽과 텍스트가 결합된 데이터 시각화는 정보를 이해하기 쉽게 만들고 복잡한 개념을 접근 가능하고 재미있는 방식으로 전달할 수 있는 훌륭한 방법이 되었습니다(McCrorie et al. 2016).  
Infographic is a visual communication tool for depicting information graphically by using visual elements to communicate data or concepts clearly and concisely to a targeted audience (Lankow et al. 2012). A data-visualisation combination of graphics and text makes information easy to understand and have become an excellent way to communicate complex concepts in an accessible and even entertaining manner (McCrorie et al. 2016).

인포그래픽은 다양한 주제(인구통계, 사회경제학 등)를 다루는 핵심 메시지를 전달하는 데 사용되며, 점점 더 의료와 관련된 많은 측면을 다루는 데 사용되고 있습니다(Matrix and Hodson 2014). 인포그래픽은 환자와 의료 전문가에게 건강 메시지를 전달할 수 있는 매력적인 전략으로 간주됩니다(Scott 외. 2016; Stonbraker 외. 2019). 
Infographics are used to communicate key messages covering a wide range of topics, (demographics, socioeconomics, etc.) and increasingly, many aspects related to health care (Matrix and Hodson 2014). These are considered an attractive strategy for conveying health messages to patients and healthcare professionals (Scott et al. 2016; Stonbraker et al. 2019).

인포그래픽은 과학 논문을 보완하고 가치를 더하기 위해 의학 교육과 연구 보급에서 적극적인 학습 전략으로 점점 더 많이 사용되고 있습니다(Ibrahim 외. 2017; Shanks 외. 2017). 교육 도구로서 인포그래픽은 학부 의대생에게 혁신적이고 동기를 부여하는 전략으로, 제작 시 능동적이고 심층적인 학습을 촉진하고 복잡한 정보를 요약하여 볼 때 인지 부하를 최소화할 수 있습니다(Matrix and Hodson 2014; Shanks 등. 2017). 
Infographics are increasingly being used as an active learning strategy in medical education and in research dissemination to complement and add value to scientific papers (Ibrahim et al. 2017; Shanks et al. 2017). As a teaching tool, infographics are an innovative and motivating strategy for undergraduate medical students, that is, to promote active and deep learning when created and to summarise complex information that minimises the cognitive load when viewed (Matrix and Hodson 2014; Shanks et al. 2017).

인포그래픽을 통해 얻은 정보는 텍스트만으로 얻은 정보보다 더 오래 기억될 가능성이 높으며(Murray, Murray, Wordie, Oliver, Murray 등 2017), 환자 교육에 활용하면 장기적으로 약물 요법 순응도를 높이는 데 효과적인 것으로 나타났습니다(Ebrahimabadi 외. 2019). 
Information from infographics is more likely to be retained than that from text alone (Murray, Murray, Wordie, Oliver, Murray, et al. 2017), and for patient education has shown to be effective in improving adherence to medication regimens in the long term (Ebrahimabadi et al. 2019)

인포그래픽은 연구 결과를 간결하고 시각적으로 매력적인 방식으로 보여줄 수 있습니다. 이를 통해 임상의들 사이에서 연구 결과에 대한 인식과 전파를 높일 수 있습니다(이브라힘 외. 2017; 마틴 외. 2019). 점점 더 많은 과학 저널에서 저자에게 원고의 그래픽 요약본을 제출하도록 요청하고 있습니다. 이러한 정보 제공 매체는 독자의 선호도가 높고 초록 검토 시 인지 부하가 적은 것과 관련이 있습니다(Martin 외. 2019). 또한 소셜 미디어에서 인포그래픽을 통해 홍보된 연구 논문은 '알트메트릭' 점수와 초록 조회 수가 증가한 것으로 나타났습니다(Huang et al. 2018). 영국의학저널과 같은 일부 저명한 출판사에는 이미 인포그래픽 섹션이 있습니다. 

Infographics can show research findings in a concise and visually appealing manner. By so doing, they also increase awareness and dissemination of the research findings among clinicians (Ibrahim et al. 2017; Martin et al. 2019). An increasing number of scientific journals request that authors submit graphic summaries of their manuscripts. This medium for presenting information has been associated with a higher reader preference and a lower cognitive load during an abstract review (Martin et al. 2019). Moreover, research papers promoted through infographics on social media have been associated with increased ‘Altmetric’ scores and the number of abstract views (Huang et al. 2018). Some prestigious publishers, such as the British Medical Journal, already have an infographics section (https://www-bmj-com-ssl.access.hanyang.ac.kr:8443/infographics).

현재 여러 기관과 보건 단체에서 웹사이트에 인포그래픽 섹션을 만들어 콘텐츠를 배포하고 있습니다. 세계 보건 기구, 미국 공중 보건 협회 또는 질병 통제 및 예방 센터 등이 대표적인 예입니다. 
Different institutions and health organizations currently have an infographics section on their websites to disseminate content. Some relevant examples are the World Health Organization (https://www.who.int/mediacentre/infographic/en), the American Public Health Association (https://www.apha.org/news-and-media/multimedia/infographics) or the Centers for Disease Control and Prevention (https://www.cdc.gov/globalhealth/infographics/default.html).

잘 만들어진 인포그래픽의 핵심 메시지를 포착하는 데는 몇 초밖에 걸리지 않습니다. 그러나 디자인 과정에는 훨씬 더 많은 시간과 노력이 필요합니다(Murray, Murray, Wordie, Oliver, Simpson 외. 2017). 그렇다면 무엇이 좋은 인포그래픽을 만들까요? 인포그래픽을 제작할 때 핵심 요소를 파악하는 것은 인포그래픽의 목적을 달성하고 성공적으로 배포하는 데 필수적입니다. 이러한 이유로 이 작업의 목적은 인포그래픽의 제작, 디자인 및 배포에 있어 기본적인 요소를 12가지 팁을 통해 보여주는 것입니다. 이 12가지 팁을 수행하기 위해 건강 또는 의료, 인포그래픽 또는 인포그래픽이라는 단어를 사용하여 Pubmed 데이터베이스에 포함된 논문 정보를 찾습니다. 또한 책과 블로그 등 다른 출처를 참고하고 이 문헌 검토와 경험을 바탕으로 12가지 팁을 제공합니다. 
Capturing the key message of a well-made infographic should take only a few seconds. However, the process of design takes much more time and effort (Murray, Murray, Wordie, Oliver, Simpson, et al. 2017). So, what makes a good infographic? Knowing the key elements in its preparation is essential for achieving the objective with which it is conceived and for disseminating it successfully. For this reason, the aim of this work is to show by 12 tips those fundamental elements in its creation, design, and dissemination. To perform these 12 tips we look for information of papers included in the Pubmed database using the words health or medical and infographics or infography. Besides, we consult other sources as book and blogs and we provide twelve tips based on this literature review and our experience.

팁 1 타겟 고객을 정의하세요: 그들의 선호도를 파악하고 영향력을 확보하세요
Tip 1

Define the target audience: Know their preferences, and gain impact

인포그래픽을 제안하기 위한 첫 번째 단계는 인포그래픽이 도달하고자 하는 대상을 명확히 하는 것입니다(Murray, Murray, Wordie, Oliver, Murray 외. 2017). 인포그래픽의 접근 방식은 대상 고객과 관련된 연령(어린이, 청소년, 성인 또는 노인), 역할(환자, 전문가, 간병인, 학생) 또는 교육 수준과 같은 요인에 따라 달라질 수 있습니다(Kibar and Akkoyunlu 2017). 
A first step towards proposing an infographic is to be clear whom it is intended to reach (Murray, Murray, Wordie, Oliver, Murray, et al. 2017). The approach of the infographic will vary, depending on factors, such as age (kids, young population, adult or elders), role (patients, professionals, caregivers, students), or educational level (Kibar and Akkoyunlu 2017) related to the target audience.

따라서 타겟 고객을 이해하는 것은 인포그래픽을 배포하기 위한 색상, 이미지, 공간 구성 또는 커뮤니케이션 채널과 같은 후속 디자인 요소를 선택하는 데 중요한 요소입니다(Arcia et al. 2016; Wansink and Robbins 2016). 따라서 디자인 초기부터 인포그래픽 최종 사용자의 의견을 고려하는 것이 바람직하며, 이는 추후 인포그래픽의 수용성을 높일 수 있기 때문입니다(Atenstaedt 2019). 
Therefore, understanding the target audience is a factor that is crucial for choosing the subsequent design elements, such as the colours, images, spatial organisation, or the communication channel to disseminate the infographics (Arcia et al. 2016; Wansink and Robbins 2016). For this reason, it would be desirable to take into account, from the beginning of the design, the opinion of the infographics end users as this can increase the subsequent receptivity of the infographics (Atenstaedt 2019).

또한 인포그래픽은 타겟 청중의 특정 선호도와 요구를 충족시켜야 합니다(Hamaguchi 외. 2020; Stonbraker 2020). 연구 결과를 발표할 때 Crick과 Hartling(2015)은 인포그래픽이 청중을 위해 과학적 결과를 요약하는 데는 미학적으로 매력적이지만, 비판적 평가 형식이 더 이해하기 쉬운 것으로 간주된다는 사실을 발견했습니다. 따라서 인포그래픽은 대상 집단에 호소력이 있으며, 인포그래픽이 누구를 위한 것인지 이해하는 것부터 시작해야 합니다(Harrison 외. 2015). 
In addition, infographics need to cater to specific preferences and needs of their target audiences (Hamaguchi et al. 2020; Stonbraker 2020). For the presentation of research results, Crick and Hartling (2015) found that infographics were considered aesthetically appealing for summarising scientific results for an audience, but critical appraisal formats were considered to be more comprehensible. Therefore, an infographic does appeal to the target population and begins with an understanding of who it is for (Harrison et al. 2015).

팁 2 인포그래픽의 목적 설정
Tip 2

Set the purpose of the infographics

성공적인 인포그래픽을 개발하려면 작성자가 전달하고자 하는 메시지가 무엇인지 명확해야 합니다(Murray, Murray, Wordie, Oliver, Murray 외. 2017). 하나의 명확한 학습 목표에 초점을 맞추는 것이 좋습니다(Dunlap and Lowenthal 2016). 목표에 따라 인포그래픽 유형은 내러티브형, 탐색형 또는 혼합형 중 하나를 고려해야 합니다(Lankow 2012).

  • 탐색형 인포그래픽교육 및 연구 목적으로 자주 사용되며 객관적인 정보를 명확하게 제공합니다. 데이터를 나타내는 요소만 사용한 미니멀한 디자인이 특징입니다.
  • 내러티브 인포그래픽정보를 제공하고 재미를 주는 매력적인 비주얼을 사용하거나 감정을 불러일으켜 시청자의 의견을 이끌어내려고 합니다. 

To develop a successful infographic, the author must be clear about what he or she wants to communicate (Murray, Murray, Wordie, Oliver, Murray, et al. 2017). It is recommended that the focus be a single clear learning objective (Dunlap and Lowenthal 2016). Depending on the objective, the type of infographic should be considered: narrative, explorative, or mixed (Lankow 2012). An explorative infographic is frequently used for educational and research purposes, clearly providing objective information. A minimalistic design with only elements that represent data is characteristic. Narrative infographic seeks to sway the opinion of the viewer by using engaging visuals that inform and entertain, and even by trying to evoke emotion.

예를 들어, 'how-to' 인포그래픽은 일반적으로 특정 절차를 수행하는 방법에 대한 정보를 검색하는 사용자에게 호평을 받습니다(Arcia 외. 2019). 연구 및 임상 환경에서는 특정 방법론, 기술 절차 또는 치료적 개입을 시각적인 방식으로 설명하고 공유하는 데 도움이 될 수 있습니다(Ibrahim 외. 2017; Hsiao 외. 2019).
For example, ‘how-to’ infographics are usually well received by users who are searching for information about how to perform some procedure (Arcia et al. 2019). In research and clinical settings, it may help explain and share specific methodologies, technical procedures, or therapeutic interventions in a visual way (Ibrahim et al. 2017; Hsiao et al. 2019).

팁 3 청중의 관심을 끌고 지속시킬 수 있는 매력적인 제목을 생각해 보세요.
Tip 3

Think of a compelling title to attract and sustain the audience’s attention

인포그래픽을 처음 보는 몇 초 동안은 청중의 관심을 끌기 위해 필수적입니다(Murray, Murray, Wordie, Oliver, Murray 외. 2017). 이 과정에서 독자의 시선을 사로잡는 한 가지 목적은 일반적으로 인포그래픽의 제목입니다(Majooni 외. 2018). 가장 강력한 회상 예측 변수 중 하나로 설명되는 액션 지향적 제목은 인포그래픽을 기억에 남고 설득력 있게 만드는 것으로 보입니다(Wansink and Robbins 2016). 청중의 관심을 빠르게 불러일으키기 위해 제목에 강력하고 영향력 있는 단어를 몇 개 사용하는 것이 좋습니다(Quispel 외. 2018). 목적을 설명하고 청중의 호기심을 자극하기 위해 더 암시적인 부제를 사용할 수 있으므로 정교한 제목을 가질 필요는 없습니다.  
The first few seconds of viewing an infographic are essential to attract the attention of the audience (Murray, Murray, Wordie, Oliver, Murray, et al. 2017). In this process, one objective of the reader’s gaze is usually the title of the infographic (Majooni et al. 2018). Action-oriented titles, described as one of the most robust predictors of recall, seem to make infographics memorable and compelling (Wansink and Robbins 2016). It is recommended that a few powerful and impactful words be used in the title to arouse the audience’s interest quickly (Quispel et al. 2018). It is not necessary to have an elaborate title because a more suggestive subtitle can be used to explain the objective and stimulate the audience’s curiosity.

예를 들어, 과학 연구에서 가장 영향력 있는 연구 결과 또는 실제 적용(Murray, Murray, Wordie, Oliver, Murray 등 2017; Balkac and Ergun 2018; Huang 등 2018) 또는 환자 교육, 질병 자가 관리 또는 예방 능력(Arcia 등 2019; Stonbraker 등 2019) 등이 이에 해당할 수 있습니다. 
In scientific research, for example, this could be the most impactful finding or practical application of the study (Murray, Murray, Wordie, Oliver, Murray, et al. 2017; Balkac and Ergun 2018; Huang et al. 2018) or of patient education, an ability to self-manage or prevent a disease (Arcia et al. 2019; Stonbraker et al. 2019).

팁 4 '요점을 바로 잡으세요': 투명성 확보
Tip 4

‘Get straight to the point’: Be transparent


인포그래픽은 복잡한 아이디어나 데이터를 간단한 그래픽 스토리로 변환하여 청중에게 정보를 제공하고 교육하는 것을 목표로 합니다(Martin 외. 2019). 따라서 단순하고 시각적으로 강력한 메시지를 사용하는 것이 필수적입니다. (Arcia 외. 2016). 콘텐츠 디자인에 있어 최소한의 접근 방식은 주의가 분산되는 것을 피하기 위해 선호됩니다(Quispel 외. 2018). 
An infographic aims to transform complex ideas or data into simple graphic stories to inform and educate the audience (Martin et al. 2019). For this reason, it is essential to use simple and visually powerful messages. (Arcia et al. 2016). A minimalistic approach in the design of the content is preferred to avoid scattered attention (Quispel et al. 2018).

명확하게 말하면, 인포그래픽은 적절한 언어를 사용하고, 짧은 문장을 활용하며, 긴 단락을 피해야 합니다(Royal and Erdmann 2018). 환자 교육용 인포그래픽에서 기술 및 의학 전문 용어는 일반 독자의 가독성 수준을 높이는 경향이 있으므로 피하는 것이 좋습니다(Oliffe 외. 2019). 
To be clear, infographics should include adapted language, utilise short sentences, and avoid long paragraphs (Royal and Erdmann 2018). It is advisable to avoid technical and medical jargon in the infographics for patient education because such language tends to raise the readability level out of the range of the average reader (Oliffe et al. 2019).

팁 5 스토리텔링이 핵심
Tip 5

Storytelling is key

인포그래픽 제작에는 단순한 이미지와 텍스트의 편집 이상의 것이 포함됩니다(McCrorie 외. 2016). 인포그래픽에 내러티브를 통합하여 미리 정의된 스크립트에 대한 독자의 관심을 유지하는 것이 중요합니다. 시작과 끝이 명확하면 독자가 작성자가 의도한 순서대로 정보를 처리할 수 있으므로 청중이 핵심 메시지를 이해하는 데 도움이 됩니다(Botsis 외. 2020). 연구 결과를 전달할 때 Murray, Murray, Wordie, Oliver, Murray 등(2017)은 정보, 선, 화살표 또는 기타 시각적 요소의 '노드'를 사용하여 청중을 인포그래픽으로 안내하고 연구 스토리의 다른 섹션을 연관시키는 것을 고려할 것을 권장했습니다. 
Making an infographic involves more than a mere compilation of images and text (McCrorie et al. 2016). It is important to incorporate a narrative into the infographics to sustain the reader’s attention on a predefined script. Having a clear start and end ensures that the reader processes the information in the order in which the author intends, thus helping the audience understand the key messages (Botsis et al. 2020). In the case of communicating research results, Murray, Murray, Wordie, Oliver, Murray, et al. (2017) recommended considering the use of ‘nodes’ of information, lines, arrows, or other visual elements to guide the audience through the infographic and to relate different sections in the research story.

환자를 위한 교육용 인포그래픽의 경우, 중심 스토리의 존재가 특히 중요한데, 이는 환자가 행동을 취하거나 건강 관련 행동을 바꾸도록 유도하는 데 도움이 되기 때문입니다(Arcia 외. 2019). 
In the case of educational infographics for patients, the existence of a central storyline is especially important since it facilitates inducing them to take action or even to change their health-related behaviour (Arcia et al. 2019).

마지막으로, 인포그래픽의 스토리와 메시지는 신뢰할 수 있어야 합니다. 따라서 사용 된 참조 및 리소스를 인용하는 것은 필수입니다 (Shanks et al. 2017). 청중은 제시된 데이터(텍스트, 차트 및 그림)의 출처를 알아야 하며, 이는 제시된 정보에 대한 신뢰도를 높이는 것과 관련이 있습니다(Wilkinson 외. 2016).
Finally, the story and messages behind the infographics must be credible. Therefore, citing the used references and resources is mandatory (Shanks et al. 2017). The audience must know the origin of the presented data (text, charts, and figures), which has been related to greater confinement to the information presented (Wilkinson et al. 2016).

 

팁 6 주요 아이디어를 강조할 수 있는 방법 찾기 
Tip 6

Find a way to highlight the main ideas

인포그래픽은 청중이 제시된 정보를 이해할 때 효과적입니다(Lankow 외. 2012). 따라서 인포그래픽의 관련 구성 요소의 크기를 늘리고, 눈에 띄는 색상을 사용하고, 앞서 언급한 대로 인포그래픽에 매력적인 제목을 붙이는 등 핵심 메시지를 강조해야 합니다(Murray, Murray, Wordie, Oliver, Murray 등, 2017; Wansink and Robbins 2016).
Infographic works if the audience understands the information presented (Lankow et al. 2012). Therefore, key messages must be emphasised, for example, by increasing the size of the relevant components of the infographics, by using striking colours and by giving the infographic a compelling title as mentioned before (Murray, Murray, Wordie, Oliver, Murray, et al. 2017; Wansink and Robbins 2016).

저자가 과학적 데이터를 배포하려는 경우, 인포그래픽은 전체 연구 논문을 담는 캔버스가 아니라 연구에 대한 시각적 요약을 제공하는 데 사용해야 합니다(Hsiao 외. 2019). 텍스트는 간결해야 하며 시각적으로 제시된 측면을 강화할 뿐만 아니라 명확성을 제공하는 역할을 해야 합니다(Balkac and Ergun 2018). 
When the author seeks to disseminate scientific data, infographics should be used to provide a visual summary of the research rather than as a canvas on which to dump the full research paper (Hsiao et al. 2019). The text should be brief and serve to provide clarity as well as to reinforce the aspects that are presented visually (Balkac and Ergun 2018).

핵심 메시지가 그래픽으로 제대로 표현되었는지 평가하는 한 가지 방법은 '텍스트 없음 테스트'를 적용하는 것입니다. 즉, 인포그래픽에서 텍스트를 제거하고 스토리를 이해했는지 평가하는 것입니다. 따라서 이 테스트는 시각적 요소의 관련성을 테스트하는 것입니다(Burgio and Moretti 2017). 
One way to assess whether the key messages are properly represented graphically is to apply the ‘no text test’, that is, remove the text from the infographic and assess whether the story is understood. It is, therefore, a test of the relevance of the visual elements (Burgio and Moretti 2017).

새로운 인포그래픽 디자인을 시작할 때 화가 한스 호프만의 '불필요한 것을 제거하여 필요한 것이 말할 수 있도록 하라'는 말을 기억하는 것이 유용합니다. 
When starting the design of a new infographic it is useful to remember the quotation from painter Hans Hoffman: ‘Eliminate the unnecessary so the necessary can speak’.

팁 7 인포그래픽 초안 작성
Tip 7

Draft the infographic

인포그래픽의 초안은 종이에 펜으로 작성하여 창의력을 발휘할 수 있도록 하는 것이 좋습니다(Khoury 외. 2019). 디지털 사본으로 작업하기 전에 다양한 디자인 구성, 개념 및 그 관계를 고려하고 시각적 요소(유형, 위치, 크기 등)의 사용을 계획할 수 있습니다(Shanks 외. 2017). 인포그래픽의 모든 항목은 의미 있는 정보를 전달해야 합니다(Stones and Gent 2015). 다른 성공적인 인포그래픽을 보면서 아이디어를 얻을 수 있습니다.  
It is recommended that a draft of the infographic be made with a pen on a sheet of paper, allowing creativity flow (Khoury et al. 2019). Different design configurations, concepts, and their relationships may be considered, and the use of visual elements (type, position, sizes, etc.) may be planned before working with a digital copy (Shanks et al. 2017). Every item on an infographic should convey meaningful information (Stones and Gent 2015). It is possible to get ideas by looking at other successful infographics.

초안을 작성하는 동안 모양은 중요하지 않습니다. 우선 순위는 아이디어를 개괄하고 제시 할 주제와 주제를 구성하는 것입니다. 그러나 '외형적인 장식은 근본적인 콘텐츠 부족을 결코 구제할 수 없다'고 강조한 Tufte(2006)의 말을 기억할 필요가 있습니다. '적은 것이 더 많다'는 개념은 모든 디자인을 공유 가능하게 만드는 데 이상적입니다. 작은 용기에 많은 양의 정보를 담으려면 대화 중 휴식을 나타내는 데 사용할 수 있으므로 전략적인 공백은 필수입니다(2018년 11월 15일 K Tombok이 Easy.ly에 게시한 글): 인포그래픽 디자인 및 데이터 시각화의 공백: 예, 아니오?). 
During the drafting, the appearance does not matter. The priority is to outline the ideas and organise the themes and topics that will be presented. However, it is worth remembering Tufte (2006) who emphasised that ‘cosmetic decoration will never salvage an underlying lack of content’. The ‘less is more’ concept is ideal for making any design shareable. For a large amount of information in a small container, strategic white spaces are mandatory since they can be used to represent breaks during a conversation (15 November 2018 posting by K Tombok to Easy.ly: White space in Infographics Design and Data Vizualization: Yay or Nay?).

팁 8 그래픽 디자인의 기본 원칙을 따르세요
Tip 8

Follow the basic principles of graphic design

인포그래픽을 디자인하는 것은 즐겁고 창의적인 과정이지만, 좋은 최종 결과를 얻으려면 몇 가지 기본 디자인 권장 사항을 따라야 합니다(Abilock and Williams 2014). 시각적 요소로 좋은 첫인상을 남기려면 청중의 시선을 사로잡고 유지하는 것이 필수적입니다(Harrison 외. 2015). 스톤스와 젠트(Stones and Gent, 2015)가 발간한 '공중 보건 인포그래픽 디자인 매뉴얼의 원칙'이라는 제목의 가이드를 읽어보는 것을 적극 권장합니다. 
Although designing an infographic is an enjoyable and creative process, some basic design recommendations should be followed to achieve a good final result (Abilock and Williams 2014). To achieve a good first impression with visuals is essential to catch and keep the attention of the audience (Harrison et al. 2015). We strongly recommend reading the guide titled ‘Principles of Public Health Infographic Design Manual’ published by Stones and Gent (2015).

인포그래픽 초안이 준비되면 사용자 친화적인 여러 온라인 도구(Piktochart, Canva, Vengage, Genial.ly, Easel.ly, Visual.ly 등)를 사용하여 공식적인 인포그래픽 템플릿으로 변환할 수 있습니다(Wright 2016). 결과를 최적화할 수 있는 전문 그래픽 디자이너와의 협업은 항상 고려해야 합니다(Burgio and Moretti 2017; Khoury et al. 2019). 다음은 인포그래픽을 디자인할 때 고려해야 할 몇 가지 기본적인 디자인 측면입니다: 

When the infographic draft is ready, there are available several user-friendly online tools (Piktochart, Canva, Venggage, Genial.ly, Easel.ly, Visual.ly, among others) that may be used to transform it into a formal infographic template (Wright 2016). The collaboration with a professional graphic designer who can optimize the result should always be considered (Burgio and Moretti 2017; Khoury et al. 2019). The following are some fundamental design aspects to consider when designing an infographic:

  • 글꼴. 두세 가지 이상의 서로 다른 유형의 글꼴을 사용하지 않는 것이 좋습니다(Kibar and Akkoyunlu 2017). 사용되는 배경색에 따라 글꼴 색상을 선택하고 디자인 전체에 일관성을 유지하세요.
    Fonts. It is recommended that not more than two or three different types of fonts be used (Kibar and Akkoyunlu 2017). Choose a font colour based on the background colour being used and be consistent throughout the design.
  • 그래픽 및 차트. 데시몬과 던컨(1995)은 사람들은 한 번에 시각 자료의 한 부분에만 주의를 기울일 수 있으며, 여러 요소가 있으면 주의 집중 시간이 상당히 줄어든다고 말했습니다. 전달하고자 하는 내용에 따라 그래픽을 신중하게 선택해야 합니다(스톤브레이커 외. 2020). 예를 들어, 사건의 시간 순서를 나타내는 타임라인, 그룹화 관계를 보여주는 클러스터(예: 벤 다이어그램), 비교와 대조가 작성자의 의도인 경우 막대형 차트 등이 있습니다. 스톤브레이커 등(2019)의 연구에 따르면 인포그래픽 형태의 건강 통계를 받은 환자가 자신의 질환 위험을 정확하게 예측하고 다음 단계에 대한 중요한 결정을 내릴 확률이 2.84배 높았습니다.
    Graphics and charts. Desimone and Duncan (1995) stated that people can only pay attention to one part of the visuals at a time, and having multiple elements considerably reduces the attention span. The graphics should be carefully chosen based on what is intended to be communicated (Stonbraker et al. 2020). For example, timeline for the chronological sequence of events; cluster (e.g. a Venn diagram) to show grouping relationships, or a bar chart when comparison and contrast is the author’s intention. Stonbraker et al. (2019) found that patients who received health statistics in infographic form were 2.84 times more likely to estimate the risk of their conditions accurately and make important decisions about their next steps.
  • 이미지 및 그림. 이미지는 인포그래픽의 기본 요소입니다(Khoury 외. 2019). 시각적 요소는 청중의 시선을 사로잡고 이해도와 암기력을 높일 수 있습니다(Brigham 2016).
    Images and figures. Images are a fundamental element of infographics (Khoury et al. 2019). Visual elements can grab an audience’s attention and even increase comprehension and memorisation (Brigham 2016).

시각적 초록과 관련된 과학 논문은 텍스트만 있는 초록으로 출판된 논문보다 열람 가능성이 3배 더 높으며, 심지어 해당 논문이 출판된 저널의 알트메트릭 점수 및 초록 조회수 증가와도 관련이 있다는 보고가 있습니다(Thoma et al. 2018). 모든 시각적 요소는 인포그래픽에 정보를 제공해야 합니다. 청중의 주의를 산만하게 하는 장식적인 시각적 요소는 피해야 합니다(Dunlap and Lowenthal 2016). 
It has been reported that scientific articles associated with a visual abstract are three times more likely to be viewed than are articles published with text-only abstracts, and have even been associated with increased Altmetric scores and abstract views of the journal in which they are published (Thoma et al. 2018). All visual elements must contribute information to the infographics. Decorative visuals that distract the audience should be avoided (Dunlap and Lowenthal 2016).

작성자가 소유하든 디지털 리포지토리(플리커, 픽사베이, 프리픽 등)에서 제공하든 모든 이미지는 인포그래픽에 가치를 더하기 위해 품질 및 해상도 표준을 충족해야 합니다. 가능한 한 조명 효과, 배경 및 어두운 영역의 수가 동일한 사진을 사용하는 것이 좋습니다(Burgio and Moretti 2017).
Whether owned by the author or by digital repositories (Flicker, Pixabay, Freepick, etc.), all images must meet quality and resolution standards to add value to the infographic. As far as possible, photos with the same lighting effects, backdrops, and the number of dark areas are recommended (Burgio and Moretti 2017).

인포그래픽에서 이미지의 위치와 관련하여 Mayer(2009)는 학생들이 해당 단어와 그림이 서로 멀리 떨어져 있는 것보다 서로 가까이 있을 때 더 잘 학습한다고 보고했습니다. Borgo 등(2012)은 '기억해야 할' 정보가 그 정보를 나타내는 이미지와 가까운 곳에 위치할 때 꾸밈이 장기기억에서 불러오는 정보의 속도와 정확성을 모두 향상시킨다는 사실을 발견했습니다. 
Regarding the location of images in the infographic, Mayer (2009) reported that students learn better when corresponding words and pictures are presented near each other rather than far from each other. In the same way, Borgo et al. (2012) found that embellishment aided both the speed and accuracy of information recalled from long-term memory when ‘to-be-remembered’ information was located closely to the image that represented it.

객체를 둘러싼 여백은 인포그래픽의 핵심 메시지를 강조하는 데 사용할 수 있다는 점을 기억하세요. 마지막으로 던랩과 로웬탈(2016)의 말을 빌리자면, 인포그래픽의 시각적 매력이 나쁜 콘텐츠를 보완할 수는 없다는 점을 기억하는 것이 중요합니다. 
Remember that blank space surrounding objects can be used to highlight the key message of the infographic. Finally, in the words of Dunlap and Lowenthal (2016) it is important to remember that the visual appeal of an infographic will not make up for bad content.

팁 9 적절한 색상 선택
Tip 9

Choose colours appropriately


인포그래픽에 적절한 색상을 사용하면 청중이 콘텐츠를 더 쉽게 기억할 수 있습니다(Quispel 외. 2018). 인포그래픽의 색상은 포함 된 메시지를 명확히하는 데 도움이됩니다 (Arslan and Toy 2015). 실제로 특정 색상은 감정을 자극할 수 있으며(빨간색은 긴박감, 녹색은 자연과의 연결, 파란색은 진정 효과), 메시지를 강화하는 데 사용될 수 있습니다(Elliot 2015). 
When appropriate colours are used in the infographics, the audience can remember the content more easily (Quispel et al. 2018). The colours of infographics help clarify the embedded messages (Arslan and Toy 2015). Indeed, certain colour schemes can stir up emotions (red evokes a sense of urgency; green, connection with nature; blue can be used for its calming effect) and can be used to reinforce messages (Elliot 2015).

색상과 시각적 복잡성은 인포그래픽에서 정보 평가의 강력한 예측 인자로 확인되었습니다(Park and Tang 2019). 이는 색상을 신중하게 선택해야 한다는 것을 의미합니다. 매력적인 인포그래픽을 만들기 위한 기존 권장 사항에는 색상 팔레트에서 3~5가지 보색을 사용하는 것이 포함됩니다(Stones and Gent 2015). 인포그래픽 디자인에 색상을 사용할 때 추가로 고려해야 할 사항은

  • (i) 60-30-10 규칙입니다: 인포그래픽 영역의 60%에는 기본 색상을 사용하고, 30%에는 보조 색상을, 나머지 10%에는 강조 색상을 선택합니다.
  • (ii) 배경에 둔하고 차분한 색상을 사용합니다. 칙칙한 색상은 인포그래픽의 여백 역할을 하여 밝은 색상의 텍스트 및 기타 시각적 요소가 돋보일 수 있도록 도와줍니다. 

Colour and visual complexity have been identified as strong predictors of information evaluation in infographics (Park and Tang 2019). This means that colours should be chosen carefully. Existing recommendations for creating engaging infographics include using three to five complementary colours on a colour palette (Stones and Gent 2015). Additional aspects when using colours in the infographic designs are

  • (i) the 60-30-10 rule: Use a primary colour for 60% of the area in the infographic; choose a secondary colour that covers 30% of the area, and finally, an accent colour, for the remaining 10%;
  • (ii) Use dull and muted colours in the background. Dull colours can serve as your infographic’s white space helping text and other visual elements in brighter colours stand out.

이 측면에 주의를 기울이는 것이 중요한 몇 가지 이유가 있습니다: 시각적 요소에 색상을 사용하면 독자의 집중력과 기억력이 82% 증가합니다(Chang and Xu 2019). 색상을 적절히 사용하면 올바른 데이터를 찾는 데 소요되는 시간이 70% 감소합니다(Dzulkifli and Mustafar 2013); 컬러를 사용한 메시지를 본 학습자는 같은 메시지를 흑백으로 읽은 학습자보다 메시지를 기억할 가능성이 39% 더 높았으며(Shankar and Amir 2020), 또한 독자의 55%는 흑백만 사용한 메시지에 비해 컬러를 사용한 메시지를 선호했습니다(Dzulkifli and Mustafar 2013). 임상 환경에서 Park과 Tang(2019)은 관련 색상과 적절한 시각적 복잡성으로 디자인된 인포그래픽이 피부암 예방을 홍보하는 데 효과적이라고 보고했습니다. 
Some reasons why it is important to pay attention to this aspect: There is an 82% increase in readers’ attention spans and recall through the use of colours in visuals (Chang and Xu 2019); 70% less time is spent finding the right data when colours are used properly (Dzulkifli and Mustafar 2013); learners who saw a message that utilised colours were 39% more likely to remember the message than those who read the same message in black and white (Shankar and Amir 2020), Also, 55% of readers preferred messaging that included the use of colours compared to messaging that used only black and white (Dzulkifli and Mustafar 2013). In a clinical setting, Park and Tang (2019) reported that infographics designed with relevant colours and appropriate visual complexity were effective in promoting skin cancer prevention.

팁 10 인포그래픽을 테스트하고 풍부하게 만들기
Tip 10

Test the infographics and try to enrich it

환자, 간병인 및 일반 대중과의 효과적인 건강 커뮤니케이션은 매우 중요합니다. 인포그래픽을 게시하기 전에 '인포그래픽의 영혼'이 타겟 고객에게 전달되는지 확인하려면, 의도한 대상의 사람들을 대상으로 파일럿 테스트를 하거나 평가하는 것이 좋습니다(Arcia 외. 2019; Stonbraker 외. 2019).
Effective health communication with patients, caregivers, and the general public is critical. To verify that ‘the soul of the infographic’ reaches the target audience before publishing it, a recommended strategy is to pilot or evaluate it on people from the intended audience (Arcia et al. 2019; Stonbraker et al. 2019).

시각적 자료는 많은 커뮤니케이션 가치를 제공할 수 있지만, 타겟 독자의 눈높이를 고려하지 않으면 인포그래픽의 효과에 부정적인 영향을 미칠 수 있습니다(Balkac and Ergun 2018). 환자의 경우, 건강 리터러시와 관련된 높은 변동성을 고려할 때, 미국 국립보건원과 미국의학협회는 문해력이 부족한 개인에게 불이익을 주지 않기 위해 문헌을 초등학교 4학년에서 6학년 수준(미국)으로 작성할 것을 권장합니다(Weiss 2003). 간혹 이 권장 사항을 크게 초과하는 환자 대상 인포그래픽이 있으므로 이 점을 염두에 두어야 합니다(Royal and Erdmann 2018). 현재 무료 온라인 계산기(예: Readabilityformulas.com)를 사용하여 간단한 가독성 분석을 수행할 수 있습니다. 
While visuals can offer a great deal of communicative value, failing to account for a well-targeted reading level can negatively impact the effectiveness of an infographic (Balkac and Ergun 2018). With respect to patients, given the high variability associated with health literacy, the National Institutes of Health and the American Medical Association recommend that the literature should be written between a fourth and sixth-grade level (US) to avoid disadvantaging individuals with inadequate literacy skills (Weiss 2003). This must be borne in mind as, occasionally, there are patient-target infographics that significantly exceed this recommendation (Royal and Erdmann 2018). Currently, a simple readability analysis can be performed using a free online calculator (i.e. Readabilityformulas.com).

인포그래픽을 보는 동안 사용자 상호 작용을 늘리는 것은 긍정적입니다(Balkac and Ergun 2018). 인포그래픽을 풍부하게 만드는 한 가지 전략은 데이터 시각화 중에 청중의 참여를 향상시키기 위해 대화형 요소 또는 추가 자료에 대한 링크를 도입하는 것입니다(Bellei et al. 2016). 예를 들어, 인쇄된 인포그래픽에 삽입된 빠른 응답(QR) 코드를 사용하면 시청각 자료나 웹사이트를 연결하여 청중이 추가 정보를 참조할 수 있도록 할 수 있습니다.  
Increasing user interaction while viewing infographic is positive (Balkac and Ergun 2018). One strategy to enrich an infographic is to introduce links to interactive elements or additional material to improve the engagement of the audience during data visualisation (Bellei et al. 2016). For example, the use of the Quick Response (QR) codes inserted in a printed infographic allows audiovisual material or website to be linked, allowing the audience to consult additional information.

팁 11 인포그래픽을 올바르게 검토하여 오탈자 및 오류 방지
Tip 11

Properly review the infographics to avoid misprints and errors

디자인 오류는 청중의 인식과 작성자의 신뢰도에 부정적인 영향을 미치기 때문에 인포그래픽 콘텐츠에 대한 철저한 검토 프로세스와 오류를 재확인하는 것은 필수입니다(Wansink and Robbins 2016). 여기에는 그림, 글꼴 및 텍스트에 대한 세심한 품질 관리 수행도 포함됩니다(Brigham 2016). 
A wholehearted review process of the infographic content and double-checking for errors are mandatory because design errors negatively affect audience perception and author credibility (Wansink and Robbins 2016). This also includes performing careful quality control of figures, fonts, and text (Brigham 2016).

다음은 인포그래픽에 나타날 수 있는 일반적인 실수입니다:

  • 문법, 철자 오류. 인포그래픽을 제작하는 동안 포함된 텍스트에 맞춤법이나 문법 오류가 발생했을 수 있습니다. 이를 확인하고 구조화되지 않은 긴 단락은 정보 과부하를 유발하므로 피해야 한다는 점을 기억하세요.
  • 산만한 요소. 인포그래픽의 시각적 요소는 흥미를 더하고 인포그래픽의 핵심 메시지를 강조해야 합니다. 따라서 '산만한' 요소는 포함하지 마세요.
  • 왜곡된 눈금. 왜곡되거나 픽셀화된 차트, 이미지 또는 기타 시각적 요소는 인포그래픽의 품질을 떨어뜨립니다.
  • 특별한 구성 및 계층 구조. 시각적 계층 구조는 인포그래픽에 제시된 정보를 통해 청중을 안내하는 데 중요합니다. 요소가 임의로 구성되면 인포그래픽의 메시지를 이해하기 어려울 수 있습니다.

The following are common mistakes that can appear in an infographic:

  • Grammar, spelling errata. It is possible that during the edition of the infographic, some spelling or grammar errors have been produced in the included text. Check it and remember that long, unstructured paragraphs create an overload of information and should be avoided
  • Distracting elements. The visuals of an infographic should add interest and emphasise the key messages of the infographic. Therefore, do not include ‘distracting’ elements.
  • Distorted scale. Charts, images, or other visuals that have been distorted or pixelated detract from the quality of the infographic.
  • Special organization and hierarchy. Visual hierarchy is important to guide the audience through presented information in an infographic. If elements are organised arbitrarily the message of the infographic can be difficult to understand.

팁 12 인포그래픽을 효율적으로 배포하고 공유하기
Tip 12

Disseminate and share the infographics efficiently

인포그래픽의 성공을 위한 마지막 필수 단계는 배포 계획을 수립하는 것입니다(Murray, Murray, Wordie, Oliver, Murray 외, 2017). 이를 위해서는 대상 청중과 소통할 수 있는 가장 적절한 커뮤니케이션 채널을 선택하는 것이 필수적입니다. 보건 교육에서 저자는 청중이 접근할 수 없는 매체나 여러 가지 이유로 사용할 수 없는 채널도 고려해야 합니다(Giustini 외. 2018). 
The last essential step to achieve the success of any infographic is to draw up a dissemination plan (Murray, Murray, Wordie, Oliver, Murray, et al. 2017). For this, it is essential to choose the most appropriate communication channel to connect with the target audience. In health education, the author should even consider the media to which the audience does not have access or what channels cannot be used for various reasons (Giustini et al. 2018).

대상 청중이 광범위한 사회적 스펙트럼을 포괄하거나 연령대가 매우 다른 사람들을 포함하는 경우 인쇄 매체와 같은 전통적인 채널을 사용하는 것이 좋습니다(McCrorie 외. 2016). 그러나 온라인 리소스, 특히 소셜 네트워크가 선호됩니다(Wang et al. 2012). 소셜 네트워크는 24세 이하 인구 4명 중 1명이 과학 정보에 접근하기 위해 선택한 미디어이며(Hargittai 외. 2018), 인포그래픽은 특히 이러한 플랫폼에 적합합니다. 이러한 맥락에서 인포그래픽의 범위를 극대화하기 위해서는 '입소문'을 내기 위한 노력이 필요합니다(Thoma 외. 2018). 인포그래픽은 이미지 형태로 온라인(웹사이트, 소셜 미디어, 블로그)에 쉽게 게시할 수 있으며, 가장 인기 있는 소셜 미디어 플랫폼(Facebook, Pinterest, Twitter, Instagram, Google+ 등)에서 공유할 수 있습니다. 인포그래픽은 텍스트만 있는 요약본에 비해 소셜 미디어에서 8배 더 많이 공유됩니다(Ibrahim 외. 2017). 반면에 인포그래픽이 첨부된 연구 논문은 첨부되지 않은 논문보다 더 자주 액세스됩니다(Murray, Murray, Wordie, Oliver, Murray 외. 2017).  
If the target audience covers a wide social spectrum or includes people of very different ages, the use of traditional channels, such as a printed press, is recommended (McCrorie et al. 2016). However, online resources, especially social networks, are preferred (Wang et al. 2012). These are the chosen media for gaining access to scientific information by one out of four people up to 24 years old, (Hargittai et al. 2018) and infographics are particularly suited to these platforms. In this context, to maximise the scope of the infographic, efforts must be made to make it go ‘viral’ (Thoma et al. 2018). In the form of an image, an infographic can easily be posted online (website, social media, and blog) and can be shared on the most popular social media platforms (Facebook, Pinterest, Twitter, Instagram, Google+, etc.). Infographics are shared eight times more on social media compared with text-only summaries (Ibrahim et al. 2017). On the other hand, research articles accompanied by an infographic are accessed more frequently than those that have none (Murray, Murray, Wordie, Oliver, Murray, et al. 2017).

따라서 '공유 가능성'은 가상 건강 커뮤니케이션의 핵심 요소가 되었습니다. 독자를 초대하여 인포그래픽을 공유하도록 하는 것은 소셜 네트워크의 잠재력을 최대한 활용하는 데 유용합니다(Ventola 2014). 또한 무료 크리에이티브 커먼즈 라이선스를 취득하면 제3자가 인포그래픽을 쉽게 배포하고 재사용할 수 있습니다(Hagedorn 외. 2011). 이를 통해 크리에이터는 저작권을 유지하면서 다른 사람들이 자신의 저작물을 복사, 배포 및 비상업적으로 일부 사용할 수 있도록 허용할 수 있습니다. 
Therefore, ‘shareability’ has become a key element in virtual health communication. Inviting readers to share your infographics is useful for making the most of the potential of social networks (Ventola 2014). Besides, obtaining a free Creative Commons licence can also facilitate the dissemination and reuse of infographics by third parties (Hagedorn et al. 2011). This, helps creators to maintain their copyright while allowing others to copy, distribute, and make some non-commercially uses of their work.

보건 전문가들 사이에서 신속하고 신뢰할 수 있는 고품질 정보의 가용성은 현재 코로나바이러스 감염증 2019(COVID-19) 팬데믹 상황에서 글로벌 의료 대응을 최적화하는 데 유용했습니다(하마구치 외. 2020). 인포그래픽이 과학계와 사용자 모두에게 큰 영향을 미친 사례는 여러 곳에서 찾아볼 수 있습니다. 한 가지 예로 Chan 등(2020)이 만든 코로나19 중증 환자의 기관 내 삽관에 관한 인포그래픽을 들 수 있습니다. 이 인포그래픽은 과학 커뮤니티에서 빠르게 공유되어 10일 만에 13개의 번역 버전이 만들어져 사용자들에게 제공되었습니다. 단 한 달 만에 트위터에서 63,440건의 노출 수를 기록했습니다. 보건 교육 분야에서 Go 등(2020)은 원격 의료와 인포그래픽을 결합하여 환자가 집에서 배액관을 제거하는 방법을 교육하고 안내함으로써 병원 입원 기간과 수술 후 외래 방문을 줄여 바이러스 확산 및 전염 가능성을 줄이는 데 기여할 수 있는 효과적이고 안전한 방법을 보여주었습니다. 
Among health professionals, the availability of rapid and reliable high-quality information has been valuable for optimising global medical response in the current coronavirus disease 2019 (COVID-19) pandemic (Hamaguchi et al. 2020). A number of examples where infographics have had a wide impact, both in the scientific community and in users, can be found. One instance is an infographic about endotracheal intubation in critical patients with COVID-19, which was created by Chan et al. (2020). It was quickly shared by the scientific community resulting in 13 translated versions that were available for users within a 10-day express period. In just one month, it had 63,440 impressions on Twitter. In health education, Go et al. (2020) demonstrated the effective and safe combination of telemedicine and an infographic to educate and guide patients on drain removal at home, which can reduce hospital length of stay and the outpatient visits to the hospital after a surgical intervention, thus, contributing to reducing the possibilities of virus spread and contagion.

마지막으로, 과학적 정보를 전파하는 데 소셜 네트워크를 사용하려면 책임감 있고 엄격한 사용이 필요합니다(Kind et al. 2014). 의료 정보를 자유롭게 공개하는 것의 효과에 대한 좋은 사례를 제공할 수 있는 FOAM(Free Open Access Medical Education) 네트워크의 원칙을 참고하는 것도 좋은 방법입니다. 
Finally, the use of social networks in the dissemination of scientific information requires responsible and rigorous use (Kind et al. 2014). An interesting recommendation is to consult the principles of Free Open Access Medical education (FOAM) networks, which can provide good examples of the effectiveness of making medical information freely available.

결론
Conclusions

이러한 실용적인 팁은 연구 내용을 전파하고, 환자에게 교육 자료를 제공하고, 보건학 학부생에게 실습을 통해 학습을 유도하려는 임상의와 의학교육자에게 유용할 것입니다. 이 글의 내용을 다양한 디자인으로 설명한 인포그래픽 두 가지 예시를 제공합니다(보충 자료, 온라인 버전). 
These practical tips will be useful to clinicians and medical educators looking to disseminate research contents, provide educational materials to the patients, and induce learning by doing in health science undergraduates. Two examples of infographics that illustrate the content of this article using different designs are provided (Supplementary Material, online version).

마지막으로, 좋은 인포그래픽을 디자인하는 것은 쉽지 않고 시간과 연습이 필요하며 그래픽 디자이너와의 협업을 적극 권장합니다. 그러나 동료, 환자 및 학생들과의 건강 커뮤니케이션에서 많은 이점을 얻을 수 있습니다.
Finally, it should be remembered that designing a good infographic is not easy and requires time and practice, and collaboration with graphic designers is highly recommended. However, many benefits can be obtained in health communication with peers, patients, and students.

알버트 아인슈타인은 복잡한 내용을 전달하는 데 따르는 어려움을 잘 알고 있었으며, '간단하게 설명할 수 없다면 충분히 이해하지 못한 것이다'라는 말을 남겼습니다. 현재 관리하고 있는 정보 중 청중과 소통하고 싶은 정보를 인포그래픽으로 제작하고, 그 과정을 통해 학습하는 것이 좋습니다.
Albert Einstein was aware of the difficulties involved in communicating complex content, and said: ‘If you can’t explain it simply, you don’t understand it well enough’. We encourage you to build an infographic with information that you are currently managing and are interested in communicating with an audience, through learning by doing the process.


Med Teach. 2021 Dec;43(12):1353-1359. doi: 10.1080/0142159X.2020.1855323. Epub 2020 Dec 20.

Twelve tips to make successful medical infographics

Affiliations collapse

Affiliations

1Traslational Research Centre of Physiotherapy, Department of Pathology and Surgery, Faculty of Medicine, Miguel Hernandez University, Alicante, Spain.

2Department of Behavioral Sciences and Health, Faculty of Medicine, Miguel Hernandez University, Alicante, Spain.

PMID: 33342338

DOI: 10.1080/0142159X.2020.1855323

Abstract

In the health sciences, professionals must keep up to date to conduct their evidence-based practise. Hence, there is a growing need to share medical knowledge efficiently among healthcare professionals, patients, and undergraduate health science students. Infographics (text and image) are a hybrid element that serves to represent information in an attractive and meaningful visual format. Actually, with the use of the Internet and social networks, infographics have become a popular format for sharing medical information around the world.On the basis of a published literature review, we provide 12 tips in this article to make a successfully health-related infographic with the aim of assisting clinicians, educators, and researchers in their task of communicating and transforming complex information into a visual, attractive, didactic and shareable format.By following these basic recommendations, it is possible to improve the dissemination of scientific and health-related knowledge to different audiences who can benefit from infographics.

Keywords: Teaching and learning; communication skills; student support.

왜 개방형 설문 질문이 강건한 질적 인사이트를 지지하기 어려운가(Acad Med, 2018)
Why Open-Ended Survey Questions Are Unlikely to Support Rigorous Qualitative Insights
Kori A. LaDonna, PhD, Taryn Taylor, MD, PhD, FRCPC, and Lorelei Lingard, PhD

보건 전문직 교육 연구자들은 이 분야의 복잡한 문제를 탐구하기 위해 양적 연구 방법과 질적 연구 방법의 조합에 점점 더 의존하고 있습니다. 이러한 발전은 중요하고 필요하지만, 새로운 방법론적 과제를 야기하고 있습니다. 연구자들은 하나의 접근 방식에 수반되는 엄격성의 원칙뿐만 아니라 여러 접근 방식의 상호 보완성 또는 비호환성을 고려해야 합니다.1 물론 혼합 방법 연구의 경우처럼 생산적인 효과를 위해 전략적으로 방법을 통합할 수도 있지만,2 연구 방법들이 무분별하게 결합될 경우 연구가 제공할 수 있는 인사이트의 질에 부정적인 영향을 미칠 수 있습니다. 
Health professions education researchers are increasingly relying on a combination of quantitative and qualitative research methods to explore complex questions in the field. Although this development is important and necessary, it has created new methodological challenges. Researchers must consider not only the principles of rigor attendant on one approach but also the complementarity or incompatibility of multiple approaches.1 Certainly, methods can be integrated strategically to productive effect, as in the case of mixed-methods research,2 but they can also be combined blithely, with negative implications for the quality of the insights the research can provide.

문제가 될 수 있는 연구 방법 결합의 일반적인 예로는 '정성적' 질문의 하위 집합을 포함하는 정량적 설문조사 또는 측정 도구가 있습니다. 이는 종종 폐쇄형(리커트형 또는 강제 선택형) 항목에 몇 개의 개방형 질문이 뒤따르는 형태이거나, 의학교육 평가에서 교사나 학습자의 성과에 대한 서술형 피드백을 위한 자유 텍스트 필드의 형태를 취합니다. 자유 텍스트 응답에 대한 분석은 종종 "질적" 연구로 제시됩니다. 이 초청 논평에서는 이러한 응답 분석이 엄격한 질적 연구의 기준을 충족하는 경우가 드문 이유를 설명합니다. 
One common example of combining research methods that can be problematic is the quantitative survey or measurement instrument that includes a subset of “qualitative” questions. Often this takes the form of closed-ended (Likert-type or forced-choice) items followed by a few open-ended questions or, in medical education assessment, free-text fields for narrative feedback to teachers or learners about their performance. Analysis of the free-text responses is frequently presented as “qualitative” research. In this Invited Commentary, we explain why the analysis of such responses rarely meets the bar for rigorous qualitative work.

엄격함의 기준은 무엇인가요?
What Is the Bar for Rigor?

질적 연구의 목적은 "사람들이 자신의 경험을 어떻게 해석하는지, 자신의 세계를 어떻게 구성하는지, 자신의 경험에 어떤 의미를 부여하는지"를 이해하는 것입니다.3 이를 위해 질적 연구자는 동료 디브리핑, 문헌 참조, '구성원 확인'4 또는 초기 분석 인사이트를 구체화하기 위한 추가 데이터 수집을 통해 여러 차례의 데이터 코딩을 수행하는 반복적이고 시간이 많이 소요되는 프로세스에 참여합니다.3,5,6 이 프로세스의 엄격성을 평가하는 방법은 여러 가지가 있지만,7-10 트레이시의 8가지 "빅 텐트" 기준11은 품질에 대한 우리의 가정을 구체화합니다: 즉, 질적 연구는 우수성의 기준을 충족하기 위해 다음을 갖추어야 한다.

  • (1) 가치 있는 주제를 탐구하고,
  • (2) 엄격함을 입증하고,
  • (3) 성실하고, (4) 신뢰할 수 있고, (5) 윤리적이어야 하며,
  • (6) 청중의 공감을 얻고,
  • (7) 중요한 공헌을 하고,
  • (8) 의미 있는 일관성을 달성한다.

이러한 기준을 충족하려면 연구 질문과 연구 결과가 모두 시의적절하고 관련성이 있어야 하며, 연구자가 연구 목적에 부합할 뿐만 아니라 풍부하고 적절한 데이터를 생성하는 절차를 선택하고, 반성성을 고려하며,12 "문헌, 연구 질문/초점, 연구 결과 및 해석을 서로 의미 있게 상호 연결"11해야 합니다.
The purpose of qualitative research is to understand “how people interpret their experiences, how they construct their worlds, and what meaning they attribute to their experiences.”3 To do this, qualitative researchers engage in an iterative, time-intensive process that involves multiple rounds of data coding punctuated by peer debriefing, consultation with the literature, and additional data collection either to “member check”4 or to flesh out early analytical insights.3,5,6 While there are multiple ways to assess the rigor of this process,7–10 Tracy’s eight “big tent” criteria11 shape our assumptions about quality: That is, to meet the bar for excellence, qualitative research must

  • (1) explore a worthy topic;
  • (2) demonstrate rigor;
  • be (3) sincere, (4) credible, and (5) ethical;
  • (6) resonate with an audience;
  • (7) make a significant contribution; and
  • (8) achieve meaningful coherence.

Meeting these criteria requires that both the research question and its findings be timely and relevant, and that researchers choose procedures that not only fit the research purpose but also produce rich and appropriate data, attend to reflexivity,12 and “meaningfully interconnect literature, research questions/foci, findings, and interpretations with each other.”11

자유 텍스트 응답에 대한 '정성적' 분석의 문제점은 무엇인가요?
What Is the Matter With a “Qualitative” Analysis of Free-Text Responses?

설문조사 또는 평가 항목에 대한 자유 텍스트 응답은 진정성, 신뢰성, 공감을 얻거나 실질적인 기여를 할 수 있을 만큼 풍부한 데이터를 생성하는 경우가 드뭅니다.11 데이터의 풍부함에는 아래의 것 등이 포함된다고 다양하게 설명되어 왔습니다.

  • 사회 세계의 특수성에 대한 설명6,
  • 참여자의 감정과 일반적으로 접근하기 어려운 생각의 공개5,
  • 맥락, 감정, 사회적 관계를 환기시키는 "무성한" 또는 "두꺼운" 설명13-15,
  • 소리, 제스처, 동영상 등 다양한 형식과 표현의 조합

16 요컨대, 데이터가 "풍부"하려면 맥락, 개인적인 의미, 정서적, 사회적 뉘앙스, 세부적인 층위를 갖추어야 합니다. 
Free-text responses to survey or assessment items rarely produce data rich enough either to achieve sincerity, credibility, and resonance or to make a substantial contribution.11 Data richness has been variously described as involving

  • descriptions of the particularities of the social world6;
  • disclosure of participants’ feelings and commonly inaccessible thoughts5;
  • “lush” or “thick” descriptions that evoke context, emotion, and social relationships13–15; and
  • various formats and combinations of representation such as sounds, gestures, or videos.16 

In short, for data to be “rich,” they must have context, personal meaning, emotional and social nuances, and layers of detail.

종이 설문조사 도구에서 자유 텍스트 응답을 위한 공간은 몇 인치 정도이며, 전자 또는 온라인 도구에서는 제한된 텍스트 필드인 경우가 많습니다. 경험상 보건 전문직 교사, 학생, 실무자는 일반적으로 할당된 공간에 충분한 서술형 피드백을 제공하지 않습니다. 따라서 몇 문장 이하로 구성된 데이터는 "문맥에 대한 주의와 ... 개념적 풍부함"이 부족한 경우가 많습니다.17 이러한 상황에서는 설문조사 완료 횟수와 무관하게 몇 문장으로 구성된 500개의 응답이 적절한 표본이 될 수 있지만, 특히 질문과 응답이 연구 목표에 대한 부가적인 추가 사항인 경우 반드시 그렇게 되지 않을 수도 있습니다. 따라서 자유 텍스트 응답을 분석하면 연구자가 사전 이해를 얻고 콘텐츠 영역을 스케치하는 데 도움이 될 수 있지만, 일반적으로 질적 연구의 핵심인 "어떻게?" 및 "왜?"라는 질문에는 도달할 수 없습니다. 
The space for free-text responses on paper survey instruments tends to be a few inches; on electronic or online instruments, it is often a restricted text field. In our experience, health professions teachers, students, and practitioners do not typically provide copious narrative feedback in the allotted space. In turn, data consisting of a few sentences (or less) often lack “attention to context and … conceptual richness.”17 In this situation, the number of surveys completed is irrelevant; 500 responses of a few phrases each can constitute an appropriate sample but may not necessarily do so, particularly if the questions—and responses—are tangential add-ons to the research aims. Therefore, while analysis of free-text responses can generate preliminary understanding and help researchers begin to sketch content areas, it usually cannot get at the “how?” and “why?” questions that are the core business of qualitative research.

또한 자유 텍스트 응답은 엄격한 질적 절차를 통해 분석되는 경우가 드뭅니다. 대신, 특히 키워드의 빈도에 중점을 두는 경우 분석이 정성적이기보다는 정량적으로 보일 수 있습니다. 그렇다고 반복되는 단어를 세는 것이 잘못되었다는 것이 아니라, 종종 불충분할 수 있다는 뜻입니다. 자유 텍스트 응답에 대한 강력한 질적 분석(내용,18,19 주제,20 또는 담론적 또는 언어적 절차21에 따른 분석)은 단순히 개수를 세는 것 이상의 역할을 해야 합니다. 그것은 탐구 중인 사회 현상에 대한 우리의 이해를 풍부하게 해야 합니다.  
Additionally, free-text responses are rarely analyzed using rigorous qualitative procedures. Instead, the analysis may appear more quantitative than qualitative, particularly if the primary focus is frequency of keywords. That is not to say that counting recurring words is wrong but, rather, that it will often be insufficient. A robust qualitative analysis of free-text responses—whether it follows content,18,19 thematic,20 or discursive or linguistic procedures21—must do more than count. It must enrich our understanding of the social phenomena being explored.

이러한 이유로, 자유 텍스트 질문에 대한 응답은 정성적 데이터에 요구되는 풍부함의 기준을 거의 충족하지 못하며, 따라서 이러한 응답에 대한 분석은 강력하고 해석 가능한 독립적인 인사이트를 생성하지 못할 위험이 있다고 주장합니다. 따라서 연구자들은 이러한 분석이 그 자체로 발표할 가치가 있는지에 대해 다시 한 번 생각해 볼 것을 권고합니다. 
For these reasons, we contend that responses to free-text questions will rarely meet the standard for richness required of qualitative data, and that the analysis of these responses, therefore, risks falling short of producing robust, interpretive, stand-alone insights. We caution researchers to think twice about whether these analyses are worthy of publication in their own right.

해결책은 무엇인가요?
What Is the Solution?

물론 예외도 있습니다. 즉, 자유 텍스트 응답 데이터가 "새롭거나 독특하거나 희귀"하고 특정 선험적 연구 질문에 답하기에 적합한 경우 가치 있는 기여를 할 수 있습니다.11 예를 들어, 의학교육 평가 도구의 자유 텍스트 응답을 기반으로 한 두 가지 연구가 엄격하고 독립적인 질적 연구의 기준을 충족한다고 생각됩니다.

  • Myers 등22 은 주제별 분석 및 일치도 소프트웨어를 사용하여 임상 교사에 대한 레지던트의 자유 텍스트 코멘트가 포함된 임상 교육 평가의 패턴을 설명했습니다. 연구 결과 중에는 교수진의 '개선 영역'에 대한 레지던트의 설명이 교수진의 교수 행동보다 레지던트의 학습 요구에 대해 더 많은 것을 말해줄 수 있다는 통찰이 있었습니다.
  • Ginsburg 등23은 레지던트 수련 평가 보고서에 대한 교수진의 서면 코멘트를 분석하여 코멘트의 주제를 설명하고 CanMEDS 역량 프레임워크와의 관계를 탐색했습니다. 그들은 교수진이 중요하게 생각하지만 CanMEDS 프레임워크에는 나타나지 않는 역량을 제안하는 세 가지 반복되는 주제를 서면 의견에서 발견했습니다. 

There are, of course, exceptions. That is, valuable contributions can be made if free-text response data are “new, unique, or rare” and appropriate for answering a specific, a priori research question.11 To illustrate, consider two studies based on free-text comments in medical education assessment instruments that we think meet the bar for rigorous, stand-alone qualitative research.

  • Myers et al22 used thematic analysis and concordance software to describe the patterns in clinical teaching assessments containing residents’ free-text comments about their clinical teachers. Among their findings was the insight that residents’ descriptions of “areas of improvement” for faculty may say more about resident learning needs than about faculty teaching behaviors.
  • Ginsburg et al23 analyzed written comments by faculty on resident in-training evaluation reports and both described themes in the comments and explored their relationship with the CanMEDS competency framework. They discovered three recurring themes in the written comments that suggested competencies valued by faculty but not represented in the CanMEDS framework.

중요한 점은 이 두 사례 모두에서 자유 텍스트 응답 분석이 대규모 정량적 프로젝트에 추가되는 것이 아니라 연구의 중심이었으며, 결과적으로 이러한 데이터는 연구 질문에 답하기 위해 의도적으로 선택되었다는 점입니다. 인터뷰나 참가자 관찰과 같은 추가 데이터가 있었더라면 저자들의 연구 결과를 개선할 수 있었겠지만, 자유 텍스트 응답이 연구 질문에 적절했습니다. 마지막으로, 두 저자 그룹 모두 기존 문헌 및 개념적 프레임워크와 함께 데이터를 분석하고 제시함으로써 엄밀성을 확보했습니다. 따라서 데이터 자체는 내러티브로서 '풍부'하지는 않았지만, 그럼에도 불구하고 분석은 의미 있는 질적 인사이트를 도출할 수 있었습니다.
Importantly, in both of these examples the analysis of the free-text responses was the central focus of the study, not an add-on to a larger, quantitative project; as a consequence, these data were purposefully selected to answer the research question. Although additional data, such as interviews or participant observations, might have enhanced the authors’ findings, the free-text responses were appropriate for their inquiries. Finally, both groups of authors ensured rigor by analyzing and presenting the data in tandem with existing literature and conceptual frameworks. Therefore, although the data themselves were not “rich” as narratives, the analysis nevertheless was capable of yielding meaningful qualitative insights.

연구자들이 개방형 설문조사 질문을 피해야 한다고 제안하는 것이 아니며, 그러한 질문이 제공하는 데이터를 무시해야 한다고 제안하는 것도 아닙니다. 오히려 설문조사 응답자의 서면 응답은 정량적 결과를 향상시키고, 설문조사 질문의 문제점을 부각시키며, 폐쇄형 질문에 대한 답변을 확증하고, 새로운 연구 방향을 제시할 수 있습니다.17 또한 평가 도구의 서술형 응답은 비록 축약되어 있지만 특정 맥락에서 서면 피드백의 본질과 의미에 대한 중요한 질문에 답할 수 있는 리소스를 제공할 수 있습니다. 
We are not suggesting that researchers should avoid open-ended survey questions, nor are we suggesting that researchers should ignore the data provided by such questions. On the contrary, survey respondents’ written responses can enhance quantitative findings, highlight problems with survey questions, corroborate answers to closed-ended questions, and inspire new avenues for research.17 And narrative responses on assessment instruments, albeit abbreviated, can provide a resource for answering important questions about the nature and meaning of written feedback in specific contexts.

그러나 Silverman24가 주장했듯이 "질적 연구는 단순히 주어진 연구 문제에 끼워 맞출 수 있는 일련의 기술이 아닙니다." 간단한 자유 텍스트 응답을 적절하게 처리하기 위해 세 가지 제안을 제공합니다.

  • 첫째, 개방형 질문이 몇 개 포함된 설문조사 도구의 경우, 연구자는 이러한 데이터와 그 분석을 사후에 독립적으로 수행되는 질적 연구의 일부가 아니라 1차 설문조사 연구의 보조 분석으로 선험적으로 개념화해야 합니다.
  • 둘째, 많은 평가 도구에서 볼 수 있는 것과 같이 자유 텍스트 항목에 대한 간단한 응답에 의도적으로 초점을 맞춘 연구의 경우, 연구자는 연구 질문이 집중적이고 적절한지 확인해야 하며 탐구 중인 사회 현상에 대한 강력한 통찰력을 제공하는 분석 절차에 참여해야 합니다.
  • 마지막으로, 엄밀성을 보장하기 위해 연구 설계를 지원하고 분석이 진행되는 동안 지침을 제공할 수 있는 숙련된 질적 연구자와 상담하는 것이 좋습니다. 

However, as Silverman24 has argued, “qualitative research is not simply a set of techniques to be slotted into any given research problem.” To treat brief free-text responses appropriately, we offer three suggestions. First, in the case of a survey instrument that includes a few open-ended questions, researchers should conceptualize these data and their analysis a priori as an adjunct analysis to the primary survey research, not as a post hoc stand-alone piece of qualitative scholarship. Second, in the case of a study focused purposefully on brief responses to free-text items such as those found in many assessment instruments, researchers should ensure that the research question is focused and appropriate, and they should engage in analytical procedures that offer robust insights into the social phenomena being explored. Finally, to help ensure rigor, we suggest consulting with an experienced qualitative researcher who can both assist with study design and provide guidance as the analysis unfolds.

 


Acad Med. 2018 Mar;93(3):347-349. doi: 10.1097/ACM.0000000000002088.

Why Open-Ended Survey Questions Are Unlikely to Support Rigorous Qualitative Insights

Affiliations collapse

Affiliation

1K.A. LaDonna is assistant professor, Department of Innovation in Medical Education and Department of Medicine, University of Ottawa, Ottawa, Ontario, Canada; ORCID: http://orcid.org/0000-0003-4738-0146. T. Taylor is assistant professor, Department of Obstetrics and Gynaecology, and scientist, Centre for Education Research and Innovation, Schulich School of Medicine and Dentistry, Western University, London, Ontario, Canada. L. Lingard is professor, Department of Medicine and Faculty of Education, and founding director and senior scientist, Centre for Education Research and Innovation, Schulich School of Medicine and Dentistry, Western University, London, Ontario, Canada.

PMID: 29215376

DOI: 10.1097/ACM.0000000000002088

Abstract

Health professions education researchers are increasingly relying on a combination of quantitative and qualitative research methods to explore complex questions in the field. This important and necessary development, however, creates new methodological challenges that can affect both the rigor of the research process and the quality of the findings. One example is "qualitatively" analyzing free-text responses to survey or assessment instrument questions. In this Invited Commentary, the authors explain why analysis of such responses rarely meets the bar for rigorous qualitative research. While the authors do not discount the potential for free-text responses to enhance quantitative findings or to inspire new research questions, they caution that these responses rarely produce data rich enough to generate robust, stand-alone insights. The authors consider exemplars from health professions education research and propose strategies for treating free-text responses appropriately.

정서적 학습과 정체성 발달: 대만과 네덜란드 의대생의 문화간 질적 비교 연구(Acad Med, 2017)
Emotional Learning and Identity Development in Medicine: A Cross-Cultural Qualitative Study Comparing Taiwanese and Dutch Medical Undergraduates
Esther Helmich, MD, PhD, Huei-Ming Yeh, MD, MPH, Chi-Chuan Yeh, MD, MEd, Joy de Vries, MSc,
Daniel Fu-Chang Tsai, MD, PhD, and Tim Dornan, MD, PhD

 

 

의사가 된다는 것은 새로운 직업적 정체성을 개발하는 것, 즉 의사로서 생각하고 행동하고 느끼는 법을 배우는 것을 의미합니다.1 직업적 정체성 형성이 의학교육의 궁극적 목표라는 인식이 증가하고 있지만,1 현재 이 과정에 대한 이해는 제한적입니다. 정체성 개발은 전문직업성 과실이 발생했을 때만 문제가 될 수 있습니다. 이러한 전문직업성 과실의 여파로, 학생들의 행동은 전문직 정체성에 기여하는 문화적으로 결정된 규범, 가치, 감정을 고려하지 않고 판단될 수 있습니다. 최근에 설명한 사례 중 하나는 네덜란드 의료 환경에서 시리아에서 수련받은 의사가 환자와의 공동 의사 결정에 적절히 참여하지 않은 경우입니다.2 의료 수련의의 정서적 경험과 특정 사회문화적 환경 내에서 이러한 경험과 정체성 발달 간의 상호 관련성을 더 잘 이해하면 멘토링이 보다 맞춤화되고 문화적으로 민감해져 특정 맥락에서 적절할 수도 있고 그렇지 않을 수도 있는 기본 가치를 구체적으로 다룰 수 있게 됩니다.3 또한 의료 전문가 정체성 형성의 문화 간 차이에 대한 더 많은 지식은 다른 국가와 문화에서 수련받은 의대생과 전문가에 대한 상호 이해를 개선하고, 세계화 시대에 이주하는 의사를 위한 재인증 절차에 정보를 제공할 수 있습니다.2 
Becoming a doctor means developing a new professional identity, or learning to think, act, and feel as a physician.1 Despite increasing recognition that professional identity formation is the ultimate goal of medical education,1 current understanding of this process is limited. Identity development may only become an issue when professionalism lapses arise. In the aftermath of such lapses, students’ behavior may be judged without taking into account the culturally determined norms, values, and emotions that contribute to professional identity. One such example, which we recently described,2 is the case of Syrian-trained physicians not adequately engaging in shared decision making with patients in the Dutch health care context.2 A better understanding of medical trainees’ emotional experiences and the interrelatedness between these experiences and identity development within specific sociocultural environments would allow mentoring to be more tailored and culturally sensitive, specifically addressing underlying values that may or may not be appropriate in a specific context.3 Moreover, more knowledge about cross-cultural differences in medical professional identity formation could improve mutual understanding of medical students and professionals trained in different countries and cultures, and may inform recertification procedures for migrating physicians in a globalizing world.2

정체성 형성에 영향을 미치는 가치와 감정을 탐구하기 위해, 우리는 근본적인 핵심 가치를 탐구함으로써 정체성 이론사회적 정체성 이론을 통합한 Hitlin4 이 제안한 개인 정체성 개념을 사용합니다. 이러한 핵심 가치는 개인적, 사회적, 문화적으로 동시에 강렬한 영향을 받습니다.4 무엇이 좋은 행동인지에 대한 핵심 가치와 개념은 도덕적 자아의 기초가 됩니다.4 따라서 개인적 또는 도덕적 정체성은 개인의 핵심이며, 따라서 매우 감정적일 수 있습니다. 첫 임상 경험을 하는 의대 1학년 학생을 대상으로 한 이전 경험적 연구에서 우리는 이미 정체성 발달과 감정 간의 상호작용을 탐구한 바 있습니다.5 
To explore the values and emotions that influence identity formation, we use the notion of personal identity as proposed by Hitlin,4 who brings together identity theory and social identity theory by exploring underlying core values. These core values are simultaneously intensely personal and socially and culturally influenced.4 Core values and conceptions of what is good behavior serve as a basis for the moral self.4 Thus, personal or moral identities are core to a person, and, therefore, can be highly emotional. In previous empirical work studying first-year medical students in their first clinical experiences, we have already explored this interplay between identity development and emotions.5

본 연구의 목적은 유럽과 아시아의 문화적 맥락에서 의과대학에서의 정서적 경험과 정체성 발달을 탐구하는 것이었습니다. 우리는 서양과 동양 문화의 도덕적, 사회적 힘이 의대생의 감정과 정체성 발달에 중요한 다른 방식으로 영향을 미친다고 제안했습니다.

  • 유대-기독교 전통에서 발전한 서구 생명윤리의 핵심 개념은 개인의 자율성입니다.6
  • 유교 사상에 기반한 동양 문화는 사회적 관계를 중시합니다.7,8

우리는 감정, 규범 및 가치의 경험과 표현에 있어 문화적 차이가 학생들이 의사가 되는 동안 다양하고 변화하는 정체성을 구성하는 방식에 영향을 미친다는 것을 발견할 수 있을 것으로 예상했습니다. 
The aim of the current study was to explore emotional experiences and identity development in medical school in European and Asian cultural contexts. We proposed that moral and social forces in Western and Eastern cultures affect medical students’ emotions and identity development in importantly different ways.

  • A central notion within Western bioethics, as developed in Judeo-Christian traditions, is autonomy of the individual.6 
  • Eastern cultures, which are built on Confucian thought, place a strong emphasis on social relationships.7,8 

We expected to find that cultural differences in the experience and expression of emotions, norms, and values affect how students construct their different and shifting identities while becoming a doctor.

방법
Method

윤리적 고려 사항
Ethical considerations

이 연구의 네덜란드 부분에 대해서는 네덜란드 의학교육협회의 윤리위원회에서 윤리적 검토를 받았습니다. 대만에서는 국립대만대학병원 윤리위원회로부터 윤리적 승인을 받았습니다. 
For the Dutch part of this study, ethical review was granted by the ethical board of the Dutch Association for Medical Education. In Taiwan, ethical approval was obtained from the ethical committee of National Taiwan University Hospital.

연구 패러다임
Study paradigm

이 연구의 주요 프레임워크는 사회문화적 프레임워크이며, 이는 정서적 경험을 사회적 실천에 내재된 것으로 개념화한다는 것을 의미합니다. 의학 학습은 임상 환경에서 사회적 행위자(환자, 간호사, 의사, 기타 학생 및 의료진), 인공물(준비물, 기구, 전자 환자 파일), 기호(언어)와의 상호작용을 통해 이루어지며, 이러한 사회적 관행은 역사적으로 형성됩니다.9,10 이러한 사회문화적 환경 속에서 학생들은 감정을 경험하고, 감정을 전달하고, 의미를 부여하는 방법을 배우게 됩니다. 감정은 개별적으로 느끼고 해석하지만, 의대생은 고유한 규범과 가치를 지닌 특정 의료 상황과 문화적 환경 내에서 어떤 감정을 경험하고 표현해야 하는지, 어느 정도까지 표현해야 하는지를 배우는 사회화된 사람입니다. 가치는 특정 상황과 관련이 있고 행동과 사건의 선택 또는 평가를 안내하기 때문에,4 이전 연구에서와 마찬가지로,5 학생들에게 감정적이라고 인식한 특정 경험에 대해 서술하고 반성하도록 요청했습니다. 
The main framework for this study is a sociocultural one, meaning that we conceptualize emotional experience as embedded in social practice. Learning medicine takes place in clinical settings during interaction with social agents (patients, nurses, doctors, and other students and health workers), artifacts (arrangements, instruments, electronic patient files), and symbols (language) over time; that is, these social practices are historically shaped.9,10 It is within these sociocultural environments that students experience emotions, learn to communicate them, and give meaning to them. While emotions are individually felt and interpreted, medical students are socialized persons who learn which emotions should be experienced and expressed, and to what extent, within specific medical contexts and cultural environments that have distinct norms and values. Because values pertain to specific situations and guide selection or evaluation of behavior and events,4 as in our previous study,5 we asked students to narrate and reflect on specific experiences that they perceived as being emotional.

참가자
Participants

현재 대만의 7년제 고등 의학 교육 프로그램에서는 5학년과 6학년에서 임상 실습이 이루어집니다. 대만에서는 5학년 학생들이 환자를 처음 경험하고 6학년 학생들은 환자와 더 깊이 접촉하게 됩니다. 7학년 학생들은 인턴십에 참여합니다. 네덜란드 학생들은 6년간의 수련 프로그램 중 4학년에 인턴십에 들어가며, 핵심적인 인턴십은 4학년과 5학년으로 예정되어 있습니다. 
In the present seven-year postsecondary medical education program in Taiwan, clerkships take place in Years 5 and 6. In Taiwan, Year 5 students have initial patient experiences and Year 6 students have deeper contacts with patients. Students in Year 7 are in internships. Dutch students enter clerkships in Year 4 of a six-year training program in which their core clerkships are scheduled in Years 4 and 5.

2014년 가을, 우리는 네덜란드와 대만 학생들 중 내과, 외과, 소아과, 안과, 가정의학과, 정신과 등 다양한 핵심 클락십에 등록한 학생들을 의도적으로 샘플링하여 현재와 이전의 다양한 직업 경험을 조사했습니다. 다양한 연령과 성별의 학생들이 참여하여 각 국가의 학생 코호트를 대표할 수 있도록 했습니다. 
In fall 2014, we purposively sampled Dutch and Taiwanese students who were enrolled in different core clerkships (i.e., internal medicine, surgery, pediatrics, ophthalmology, family medicine, and psychiatry), after having completed different clerkships in the months before, leading to a broad range of current and previous professional experiences. We included students across a range of age and gender, ensuring that the participants were representative of the student cohorts in the respective countries.

일반적으로 질적 연구, 특히 담론 분석에서 데이터의 양이 너무 많으면 분석의 질이 떨어질 수 있으므로, 한 번의 분석에 너무 많은 데이터가 포함될 수 있다는 점을 예상하면서도 최종 분석을 위해 데이터 세트를 줄이기 전에 각 국가에서 10~12명의 참가자가 충분하다고 선험적으로 결정했습니다. 
In qualitative research in general and discourse analysis in particular, a too-large amount of data may erode the quality of analysis, so we decided a priori that 10 to 12 participants from each country would be sufficient, anticipating that this would even lead to too much data for one analysis, but appreciating that this would offer a broad perspective to start with, before reducing the data set for final analysis.

데이터 수집
Data collection

데이터 수집의 주요 방법으로 오디오 일기를 사용했으며,11 학생들에게 다음 프롬프트를 사용하여 감정적 경험을 이야기하도록 요청했습니다: 무슨 일이 있었나요? 무엇을 느끼고/생각하고/행동했나요? 이것이 의사로서의 성장과 어떻게 상호작용하는가? 
We used audio diaries as the central method for data collection,11 asking students to narrate emotional experiences using the following prompts: What happened? What did you feel/think/do? How does this interplay with your development as a doctor?

오디오 일기는 대만 학생은 중국어로, 네덜란드 학생은 네덜란드어로 녹음했습니다. 대만 참가자들은 6학년 첫 4주(1~4주차) 동안 일주일에 최소 3번의 일기를 작성했습니다. 네덜란드 참가자들 역시 5학년 첫 4주 동안 매주 최소 3개의 오디오 일기 항목을 작성하도록 요청받았습니다. 두 그룹의 학생들을 대상으로 한 이 두 기간은 가장 직접적으로 비교할 수 있는 기간이었습니다. 
The audio diaries were recorded in Chinese by Taiwanese students and in Dutch by Dutch students. Taiwanese participants made at least three diary entries per week during the first four weeks (Weeks 1–4) of Year 6. Dutch participants were also asked to keep at least three audio diary entries per week in the first four weeks of Year 5. These two periods for the two groups of students were the most directly comparable.

오디오 일기 항목의 길이는 두 학생 샘플 간에 차이가 있었는데, 대만 학생들의 일기 항목이 네덜란드 학생들보다 훨씬 길어 네덜란드 학생들과 추가 인터뷰를 진행했습니다. 2014년 가을에 실시된 이 인터뷰는 40분에서 60분 정도 진행되었으며, 네덜란드 박사 과정 학생(J.d.V.)이 학생들에게 일기에 서술한 감정적 경험을 회상하고 그러한 감정과 사건에 대해 자세히 설명해 달라고 요청했습니다. 인터뷰에서 수집한 데이터는 일기에서 수집한 데이터와 다를 수 있지만, 후속 분석을 용이하게 하기 위해 대만 학생들에 비해 일기에 덜 반영된 것으로 보이는 네덜란드 학생들의 경험에 대한 이해를 풍부하게 하기 위해 의도적으로 이 추가 데이터 수집을 사용하기로 결정했습니다. 
The length of the audio diary entries differed between the two student samples, with Taiwanese diary entries being much longer than those of Dutch students, leading us to carry out additional interviews with Dutch students. These interviews, also conducted in fall 2014, lasted between 40 and 60 minutes and were carried out by a Dutch PhD student (J.d.V.), who asked students to recall the emotional experiences they narrated in their diaries and elaborate on those emotions and events. Although data collected in interviews may differ from those gathered in diaries, we deliberately chose to use this additional data collection to enrich our understanding of the experiences of the Dutch students, who appeared to be less reflective in their diaries than their Taiwanese colleagues, in order to facilitate subsequent analysis.

데이터 선택 및 번역
Selection and translation of data

앞서 언급한 바와 같이, 일반적으로 질적 연구와 담화 분석은 데이터가 너무 많으면 어려움을 겪을 수 있으므로 심층 분석을 위해 각 국가별로 5개의 일기만 포함하기로 결정했습니다. 양국의 연구팀은 먼저 각국의 10~12개 일기를 모두 원어로 녹음하고 녹취록을 읽으며 비판적으로 검토했습니다. 풍부하면서도 간결한 데이터 세트를 얻기 위해 각 지역 팀은 학생들이 정서적 경험과 정체성 발달과의 상호 작용을 가장 명확하게 서술하고 반영한 일기 5권을 선정했습니다. 이 일기들은 대만의 전문 번역 회사와 네덜란드의 의대생이 영어로 번역한 후 연구팀원들이 수정하거나 다듬었습니다. 참가자는 국가별(대만의 경우 "TW", 네덜란드의 경우 "NL")로 코딩되었고 번호가 부여되었습니다. 표 1은 참가자의 인구통계학적 세부 사항과 최종 데이터 세트에 대한 설명을 보여줍니다.  
As stated above, qualitative research in general and discourse analysis more specifically may suffer from too much data, so we decided that only 5 diaries for each country would be included for in-depth analysis. The research teams in both countries first critically reviewed all 10 or 12 diaries from each country in the original language, listening to recordings and reading through transcripts. To reach a rich but concise data set, each local team selected the 5 diaries in which students most explicitly narrated and reflected on emotional experiences and the interplay with identity development. These diaries were translated into English by a professional translation company in Taiwan and a medical student in the Netherlands and were corrected or refined by members of the research team. Participants were coded by country (“TW” for Taiwan or “NL” for the Netherlands) and a number. Table 1 shows demographic details of participants and a description of the final data set.

데이터 분석
Data analysis

우리는 이전 간행물에서 설명한 바 있는 바흐친의 담론 이론에 기원을 둔 비판적 담론 분석 유형을 사용했습니다.12 담론 방법론에는 다양한 스펙트럼이 있습니다. 대화 분석과 같은 미시 언어 분석13과 푸코주의 담화 분석으로 대표되는 거시 분석14은 스펙트럼의 반대편에 있다고 볼 수 있습니다. Gee15,16는 이러한 극단 사이에 위치한 일련의 담화 도구를 제공하여 문장과 단락 수준에서의 언어 선택전체 데이터 세트 내의 언어 사용 패턴이 어떻게 사회적 관행을 구성하는지에 주목했습니다. 이전 연구와 이번 연구에서는 사람들이 자신의 정체성을 구성하기 위해 사용할 수 있는 다양한 담론을 어떻게 사용하는지 조사하기 위해 피규어드 월드 이론17의 개념을 적용했습니다. 형상화된 세계는 규범, 가치, 언어, 감정, 관행과 관련하여 개인이 사회적 또는 "형상화된" 의학 세계 내에서 자신의 정체성을 어떻게 서술하고 구성하는지를 탐구하기 위해 이전에 의학교육에서 사용되었던 비판적 문화 이론입니다.12,18,19 이 이론을 의학교육에 적용할 때 정체성 형성은 네 가지 다른 "담론적 맥락"에서 이루어지며, 이는 사람들과 그들이 말하는 것이 정체성 형성의 가능성을 창출하는 방식으로 정의됩니다:

  • (1) 환자, 의료 서비스 제공자 및 기타 사람들에 의해 채워지는 '형상화된' 세계,
  • (2) 학생, 환자 및 기타 의학 세계의 '인물'에게 부여되는 위치 또는 지위,
  • (3) 사람들이 언어를 사용하여 '자기 저자화'하거나 스스로 특정 지위 또는 정체성을 만드는 방법,
  • (4) '세계 만들기' 또는 미래의 이상 세계를 상상하기 위해 언어를 사용하는 방법. 

We used a type of critical discourse analysis that has its origins in Bakhtin’s discourse theory as described in an earlier publication.12 There is a spectrum of discourse methodologies. Microlinguistic analysis, such as conversation analysis,13 and macroanalysis, typified by Foucauldian discourse analysis,14 can be regarded as opposite ends of the spectrum. Gee15,16 provided a set of discourse tools that sit between those extremes, directing attention to how choice of language at the level of sentences and paragraphs, and patterns of language usage within whole data sets, construct social practices. In our previous study, and in the current one, we applied concepts from Figured Worlds theory17 to investigate how people use different discourses available to them to construct their identities. Figured Worlds is a critical cultural theory, previously used within medical education to explore how individuals narrate and construct their identities within the social or “figured” world of medicine, relating to norms, values, language, emotions, and practices.12,18,19 Within this theory, as applied to medical education, identity formation takes place in four different “discursive contexts,” defined as how people and the things they say create possibilities for identity formation:

  • (1) a “figured” world, populated by patients, health care providers, and other people;
  • (2) positions, or status, granted to students, patients, and other “figures” in the world of medicine;
  • (3) how people use language to “self-author” or create specific positions or identities for themselves; and
  • (4) how they use language for “world making,” or imagining future ideal worlds.


분석 과정에는 감정적으로 두드러진 에피소드를 나타내는 텍스트 블록을 식별한 다음, 해당 텍스트를 에피소드 및 참여자별로 분석하여 개인 내 및 개인 간 반응 패턴을 탐색할 수 있도록 하는 작업이 수반되었습니다. 데이터 분석의 신뢰성과 공신력을 높이기 위해 네덜란드의 두 책임 연구원(E.H., J.d.V.)은 각 단계에서 내린 결정에 대해 수시로 논의했으며, 대만 팀이 별도로 검토하고 승인했습니다. 데이터 삼각 측량에 도달하기 위한 수단으로 각 팀은 정기적으로 원어로 된 전체 데이터 세트로 돌아갔습니다. 담화 분석은 참가자가 말하고자 하는 바를 이해하는 것이 아니라 경험에 대해 이야기하는 데 사용되는 언어를 연구하는 것이라는 전제에 따라, 참가자에게 다시 돌아가 구성원 확인을 하지 않았습니다. 데이터 분석 중에 내린 결정과 진화하는 해석은 숙련된 담화 분석가(T.D.)를 포함한 전체 팀원들과 Skype 회의에서 논의했습니다. 표 2와 도표 1은 데이터 분석의 단계와 사용된 템플릿을 보여줍니다. 

The analytical process entailed identifying blocks of text representing emotionally salient episodes, followed by analyzing those texts by episode and participant to allow the exploration of intraindividual as well as interindividual patterns of response. To enhance trustworthiness and credibility of data analysis, the two Dutch lead researchers (E.H., J.d.V.) frequently discussed the decisions made in each step of the process, which was then separately reviewed and approved by the Taiwanese team. As a means to reach data triangulation, each team regularly returned to the full data set, in the original language. Following the premise that discourse analysis is not about understanding what participants meant to say, but about studying the language used to talk about experiences, we did not return to participants for a member check. Decisions made during data analysis and the evolving interpretations were discussed in Skype meetings with the whole team, including an experienced discourse analyst (T.D.). Table 2 and Chart 1 show the steps of data analysis and the template used.

 

연구팀의 모든 구성원은 의료 전문가로서 교육을 받았으며, 두 명은 의학교육학 박사 학위를, 한 명은 유교 윤리학 박사 학위를 소지하고 있습니다. 대만인 팀원들은 모두 유럽이나 북미에서 일정 기간 동안 거주한 경험이 있습니다. 문화 간 이해를 돕기 위해 제1저자(E.H.)는 대만을 직접 방문하여 연구를 진행했습니다. 
All members of the research team have been trained as health care professionals; two members of the team hold PhDs in medical education (E.H., T.D.), and one is a professor in Confucian ethics (D.T.). The Taiwanese members of the team have all lived in Europe or North America for some amount of time. To further facilitate cross-cultural understanding, the first author (E.H.) made a study visit to Taiwan.

연구 결과
Results

상상의 세계
Figured worlds

양국의 참가자들은 피규어 세계에서의 많은 감정적 경험을 이야기했으며, 이는 직업적 정체성 형성에 큰 영향을 미쳤습니다.

  • 대만 참가자들은 다양한 의사, 간호사, 동료, 환자, 친척이 있는 생동감 넘치는 세계를 상상했습니다.
  • 반면 네덜란드 학생들은 한두 명의 지도 의사만 있는 학습 세계를 상상했습니다. 다른 의료 전문가, 환자, 친척은 네덜란드 학생들에게는 눈에 띄지 않는 인물이었습니다.
  • 대만 학생들의 이야기에는 저녁 식사 시간도 없이 열심히 일하고 헌신하는 의사, 학생들을 지원하고 감싸주는 간호사, 환자와 다투는 전문의 등 다양한 인물이 등장했으며, 일부 환자는 화를 내거나 무례하고 뻔뻔하며 귀찮고 불합리한 행동을 하는 반면, 다른 환자는 고마워하며 케이크를 선물로 가져오는 등 다양한 모습을 보여주었습니다.
  • 네덜란드 학생들은 주로 의사가 되기 위한 실질적인 측면을 이야기했으며, 특히 스킬 개발에 중점을 두었습니다. 직장에서 관찰한 것에 대한 이야기는 상대적으로 적었고, 의사가 되는 것이 어떤 것인지에 대한 성찰은 제한적이었습니다. 

Participants in both countries narrated many emotional experiences in the figured world of medicine, which strongly influenced their professional identity development.

  • Participants from Taiwan figured lively worlds with many different doctors, nurses, peers, patients, and relatives.
  • Dutch students, in contrast, figured learning worlds with only one or two supervising doctors. Other health professionals, patients, and relatives were less prominent figures for the Dutch students.
  • The rich variety of figures in the Taiwanese narratives included hard-working and dedicated doctors not having time for dinner, nurses supporting and covering for the students, and professionals quarreling with patients; some patients were angry or behaved in rude, shameless, troublesome, and unreasonable ways, while other patients were thankful and brought cakes as gifts.
  • Dutch students mostly narrated practical aspects of becoming a doctor, focusing particularly on skills development. They had relatively little to say about what they observed in workplaces, and provided only limited reflections on how it would be to be doctors themselves.

대만 학생들은 교사가 자신의 도덕적 발달에 어떤 영감을 주고 지원했는지 서술한 반면, 네덜란드 학생들은 의료 현장에서의 실제 경험과 의사가 구체적인 임상 역할을 어떻게 생각하는지에 대해 더 자주 서술했습니다:
Taiwanese students narrated how teachers inspired and supported their moral development, whereas Dutch students more often narrated their practical experiences in medical workplaces, and how doctors figured specific clinical roles:

학생으로서 다양한 선생님들로부터 자극을 받는다는 것은 놀라운 일입니다. 외부에서 오신 선생님들은 의료원 내 선생님들과는 전혀 다른 의견을 제시해 주십니다. 때로는 선생님들의 자극이 수업 내용을 뛰어넘을 때도 있습니다. (TW3)
As a student, it’s marvelous to receive some stimulation provided by different teachers. Teachers from outside will provide a completely different opinion from teachers in the medical center. Stimulation of the teachers surpasses the course content sometimes. (TW3)
일주일 내내 의사들이 그 작은 아이를 위해 당황하고 수백 가지를 시도하는 것을 보았습니다...... 그 아이를 위해 의사들이 쏟은 노력에 감명을 받았습니다. (NL2)
All week I had seen how the doctors puzzled and tried a hundred different things for that little child.… I was impressed by the effort the doctors put in [for] that child. (NL2)

포지션 정체성
Positional identities

두 나라의 참가자들은 임상 학생으로서 자신의 위치에 대해 어려움을 겪었으며, 환자 치료에 참여할 기회를 통해 장차 의사가 될 자신을 자리매김할 때 매우 행복하다고 느꼈습니다. 두 그룹 모두 자신을 가르치고 평가하는 임상 감독자와 관련된 자신의 위치에 대해 어려움을 토로했습니다.

  • 대만 참가자들은 네덜란드 참가자보다 임상 계층 구조에서 자신의 상대적 위치에 대해 더 많이 이야기했습니다. 대만 참가자들은 자신의 역할을 최소화하고 자신을 낮추며 작은 직책을 맡았습니다. 그들은 잘못을 저지르거나, 윗사람을 실망시키거나, 의료 실수를 하는 것을 두려워했습니다. 그들은 선생님을 높이 평가했으며, 선생님들이 자기 수양을 기르는 데 도움을 준 것에 대해 존경과 감사를 표했습니다.
  • 반면 네덜란드 참가자들은 자신을 낮은 위치에 두지 않았고 교육자에 대해 더 비판적이었습니다. 이들은 스스로를 양질의 교육을 받을 법적, 사회적 권리와 자율적으로 행동할 수 있는 충분한 기회를 가진 학습자로 인식했습니다. 그들은 병동에 있는 것에 대한 보상을 받을 자격이 있으며, 학습자이기 때문에 실수를 해도 괜찮다고 말했습니다.

Participants in both countries struggled with their positions as clinical students and felt extremely happy when opportunities to participate in patient care positioned them as doctors-to-be. Both groups described difficulties in their positions relative to clinical supervisors, who both taught and assessed them.

  • Taiwanese participants spoke more about their relative positions in the clinical hierarchy than did Dutch participants. Taiwanese participants minimized their roles, lowering themselves and constructing minor positions. They were afraid of doing things wrong, disappointing elders, and making medical errors. They held their teachers in high esteem, expressing respect and gratitude for how teachers helped them cultivate self-discipline.
  • Dutch participants, in contrast, constructed less lowly positions for themselves and were more critical toward their educators. They identified themselves as learners with legal and social rights to high-quality teaching and ample opportunities for autonomous action. They said they should be entitled to rewards for being on the wards and that being a learner made it acceptable to make mistakes.

대만과 네덜란드의 참가자들은 수술 중 리트랙터를 잡는 것과 같은 불리하고 비참여적인 직책에 대해 이야기했습니다. 반면에 이러한 사회적 위치가 때때로 학습 기회를 제공하기도 했습니다:
Participants in both Taiwan and the Netherlands talked about unfavorable, nonparticipatory, positional identities, such as holding retractors during surgery. On the other hand, such social positions sometimes afforded learning opportunities:

그 과정에서 제가 한 일은 리트랙터를 잡는 것이었습니다. 다행히도 저는 이 수술을 명확하게 볼 수 있었습니다. 선배는 수술 내내 설명을 해주었습니다. 전체 과정이 느리기 때문에 선배는 저를 가르칠 시간이 많았습니다. 다른 선배도 자세히 설명해 주셨어요. (TW1)
What I did in the process was hold a retractor. Fortunately, I had a clear view of this surgery. The senior explained throughout the surgery. Because she was slow in the whole process, she had a lot of time to teach me. Another senior also had a lot of time to tell me the details. (TW1)
팀 내에서 제가 맡은 역할이 전혀 없었고, 이미 역할이 분담되어 있었기 때문에 제가 할 필요가 없었기 때문에 소생술 중에 정확히 어떤 일이 일어나는지 침착하게 지켜볼 수 있었습니다. (NL2)
I absolutely fulfilled no role within the team, and I wasn’t necessary because the roles were already divided, so I could, uh, yes, pretty calmly watch what happens exactly during a resuscitation. (NL2)

직책의 정체성과 이에 대응하는 방식은 두 나라 모두 비슷했지만, 네덜란드 참가자의 직책에는 어느 정도 자율성이 부여되는 경우가 더 많았습니다:
Although the positional identities and the ways participants responded to these were comparable in the two countries, Dutch participants’ positions more often gave them a measure of autonomy:

가장 좋았던 점은 제가 뉴스를 전할 수 있다는 것이었습니다. (NL1)
What I considered the nicest part was that I was allowed to tell the news. (NL1)

네덜란드 참가자들은 환자를 의존적이고 도움이 필요한 존재로 포지셔닝하는 경향이 있었습니다. 환자의 자기 결정 능력에 대해서는 언급하지 않았습니다. 반면 대만 참가자들은 환자를 배울 것이 많은 능동적인 주체로 포지셔닝했습니다. 대만 참가자들은 환자에 대해 분노와 조급함을 드러내고 환자들의 행동에 좌절감을 느끼는 경우도 있었습니다. 그들은 환자들이 무례하고 학생, 사무원, 레지던트, 병원 관리자 등 지위가 낮은 사람들에게 비난을 퍼붓는 것에 대해 이야기했습니다. 
Dutch participants tended to position patients as dependent and needing help. They did not refer to patients’ capacity for self-determination. Taiwanese participants, in contrast, positioned patients as active agents from whom they had much to learn. On other occasions, Taiwanese participants displayed anger and impatience toward patients and felt frustrated by their behavior. They spoke of how patients were rude and placed blame on people with low status, such as students, clerks, residents, and hospital administrators.

자기 저작
Self-authoring

형상화된 정체성과 지위적 정체성은 주로 사회 구조와 다른 사람들의 대리인에 의해 결정되는 반면, 개인이 자율적인 사회적 행위자로서 주체성을 행사할 수 있는 것은 자기 저작을 통해서입니다. 대만과 네덜란드 참가자들이 자신의 정체성을 저작하는 방식에는 상당한 차이가 있었습니다. 이러한 차이는 자기 수양, 자율적 행동의 가능성, 의료 수련생으로서의 자기 결정에 대해 이야기하는 방식에서 분명하게 드러났습니다. 
Whereas figured and positional identities are largely determined by social structures and other people’s agency, it is by self-authoring that individuals are able to exercise agency as autonomous social actors. There were significant differences between how Taiwanese and Dutch participants authored their identities. These differences were apparent in how they spoke about self-cultivation, their possibilities for autonomous action, and their self-determination as medical trainees.

양국의 참가자들은 스스로를 환자에 대한 연민, 취약한 사람들을 돌보고자 하는 강한 의지, 강하고 유능한 직업적 정체성을 개발하는 사람으로 묘사했습니다. 

  • 대만 참가자들은 좋은 의사가 된다는 것이 무엇을 의미하는지에 대해 더 풍부한 언어를 사용하는 경향이 있었습니다. 
  • 네덜란드 참가자들은 성취와 경쟁에 초점을 맞춘 보다 제한된 정체성을 작성했습니다. 
  • 의사가 되는 과정에서 두 나라 참가자들은 서로 다른 유형의 자율성을 작성했습니다. 
    • 네덜란드 참가자들은 자율적인 행동과 '실제적인' 참여를 통해 자율성을 형성한 반면, 
    • 대만 참가자들은 자기 수양과 강력한 직업적 가치관 개발을 통해 자율성을 형성했습니다. 
    • 네덜란드 학생들은 교육 시스템이 제공하는 더 많은 참여적 위치에서 능동적이고 자기 통제적인 정체성을 스스로 만들어갈 가능성이 더 높았습니다:

Participants from both countries authored themselves as compassionate toward patients, having a strong wish to care for vulnerable people, and developing strong and competent professional identities. Taiwanese participants tended to use richer language to author what it means to be a good doctor. Dutch participants authored a more limited identity focused on achievement and compe tence. In the process of becoming a doctor, participants from the two countries authored different types of autonomy. Dutch participants authored autonomous action and “hands-on” participation, while Taiwanese participants authored autonomy through self-cultivation and developing strong professional values. From the more participatory position afforded by their education system, Dutch students were more likely to self-author an active and self-regulating identity:

"예스"라고 말할 수 있는 순간이었습니다. 제가 하는 일에 자신감이 생겼고, 일이 잘 풀렸고, 제 스스로 해냈어요. 인턴십 기간 동안 이런 일을 더 자주 처리하고 싶어요! 제가 직접 일을 책임지고 진행했기 때문에 무슨 일이 일어나고 있는지 통제할 수 있었어요. 정말 기분이 좋았어요! (NL5)
This was such a “yes” moment. I felt confident about what I was doing, and it went well, and I did it on my own. I want to handle it like this more often during my internships! I myself was responsible for what was happening, and therefore I did have the control about what was happening. It was a great feeling! (NL5)

대만 참가자들의 역량에 대한 자기 주도적 평가는 개인적인 성취보다는 환자에게 도움이 되는 방향으로 이루어졌습니다:
Taiwanese participants’ self-authoring of competence was less directed toward personal achievement and more toward benefiting patients:

제가 질문을 더 잘하는 것도 장점이기 때문에, 전임자들이 할 수 없었던 많은 것을 환자에게서 배울 수 있었습니다. 그러다 보니 자연스레 성취감도 커졌어요. 또한 제가 가진 지식으로 환자가 자신의 질병에 대해 더 잘 알 수 있도록 도울 수 있어서 기쁩니다. (TW4)
The fact that I’m better at asking questions is also a plus, so I was able to learn a lot of things from the patient that my predecessors weren’t able to. This gave me a great sense of fulfillment naturally. I’m also glad to be able to help the patient learn more about his own illness with my knowledge. (TW4)

세상 만들기
World making

문화적 가치이상적인 세계를 구성하는 담론, 특히 의사-환자 또는 학생-교사 관계에 관한 담론에서 가장 두드러졌습니다. 예를 들어, 의사가 나쁜 소식을 전할 때 매우 신중해야 하는 이유를 설명할 때 환자의 자기 결정권에 대한 명시적인 표현을 발견한 것은 대만 참가자들의 이야기에서만 발견할 수 있었습니다: 
Cultural values were most apparent in discourse that constructed ideal worlds, particularly regarding doctor–patient or student–teacher relationships. It was only in the narratives of the Taiwanese participants that we found explicit speech about self-determination of patients—for example, when they explained why doctors should be very careful in breaking bad news:

환자와 아버지는 이 말을 듣고도 의사에게 감정적으로 반응하지 않는 것 같았지만, 저는 놀랐습니다...... 앞으로 의사가 된다면 환자에게 나쁜 소식을 재치 있게 전해야겠습니다. 예를 들어 병명을 영어로 적어서 건네주면 "아, 이건 진행성 경화증이에요."라고 직접 말하지 않고 인터넷으로 확인할 수 있게 할 수 있을 것 같아요. 환자들이 상황을 알고 정신적으로 대비할 수 있도록 힌트를 줄 수 있는 방법이 있다고 말하고 싶습니다. (TW5) 
The patient and his father did not seem to respond to the doctor emotionally upon hearing these words, though I was astonished.… When I become a doctor in the future, I shall break bad news to my patients tactfully. For instance, I could write down the name of the disease in English and hand it to them, so that they would be able to check online instead of having me tell them directly, like, “Oh this is progressive sclerosing disease.” I would say there are possible ways to give hints to the patients, so that they would know the situation and be prepared mentally. (TW5)

저희는 전문적인 경험을 통해 환자의 자율성과 공동 의사 결정이 네덜란드 의료 담론에서 중요한 이상이라는 것을 알고 있지만, 네덜란드 참가자들의 이야기에는 이러한 내용이 표현되지 않았습니다.
Although we know from our own professional experience that patient autonomy and shared decision making are valued ideals in the discourse of Dutch health care, this was not expressed in the narratives of our Dutch participants.

양국의 참가자들은 환자와의 적절한 관계를 발전시키고 미래의 세계에서 좋은 의사와 교사가 되는 방법을 담론적으로 탐구했습니다: 
Participants in both countries discursively explored how to develop appropriate relationships with patients and become good doctors and teachers in future worlds:

환자가 아무리 사랑스러워 보여도 의사와 환자 사이에는 분명한 경계가 있어야 합니다. 정신과에서는 특히 이런 명확한 선을 유지하는 것이 중요합니다. 나는 의사요, 당신은 환자입니다. 이 점은 우리가 끊임없이 상기해야 하는 부분입니다. 우리는 항상 그 선의 존재를 기억하고 잘 그려야 합니다. 올바른 방식으로 선을 그릴 수 있다면 그것은 거의 예술이 될 것입니다. (TW4)
There needs to be a fine line between doctor and patient, no matter how lovely the patient may seem. Maintaining this kind of clear line is especially important in the Psychiatry Division. I’m a doctor, you’re a patient—this is something we constantly have to remind ourselves of. We must always remember the existence of the line, and draw it well. If you’re able to draw the line in just the right way, it almost becomes an art. (TW4)
오늘 배운 것은... 인턴을 감독할 때... 인턴도 사소한 실수를 할 수 있고 그것은 인턴에게 충분히 짜증나는 일이며 즉시 화를 내지 않으면 정말 편안하고 강인한 것이 좋다는 것입니다. (NL2)
What I’ve learned from today is when … I’m going to supervise interns … that even interns can make little mistakes and it’s annoying enough to them and it’s really comfortable if you don’t immediately get mad at them and it’s good to be strong. (NL2)
감명 깊게 읽었던 책이 생각나네요.... 이 얘기를 꺼낸 이유는 저도 저 스스로를 선한 사람이라고 생각하기 때문인데요, 더 정확히 말하면 누구도 차별받지 않고 정의롭고 공평하기를 바라는 사람입니다. (TW5)
I could recall a book that touched me very much.… The reason why I mentioned this is because I consider myself a beneficent person, too; or, to be more accurate, I am a person hoping for justice and fairness for everyone, and no one should be discriminated. (TW5)

대만과 네덜란드의 학생들은 거의 동일한 문제를 다루었지만 언어, 자료, 성찰 방식은 달랐습니다.
Students in both Taiwan and the Netherlands addressed largely the same issues but used different language, resources, and ways of reflecting.

토론
Discussion

의대생은 의사가 되는 과정에서 자신이 들어가게 될 세계, 타인에게 부여되고 허용되는 지위, 스스로 구상하는 정체성, 미래에 대해 상상하는 '이상적인' 세계에서 비롯된 많은 감정을 경험합니다. 문화마다 학생들은 서로 다른 세계와 서로 다른 미래의 정체성을 상상하며, 학생과 환자 모두의 자율성에 대한 서로 다른 문화적 구성을 반영하고 이에 반응합니다.  
In the process of becoming a doctor, medical students experience a lot of emotions originating from the figured worlds they are entering, the positions they are granted and allow to others, the identities they envision for themselves, and the “ideal” worlds they imagine for the future. In different cultures, students imagine different worlds and different future identities, reflecting and responding to different cultural constructs of both student and patient autonomy.

기본 가치
Underlying values

네덜란드가 서구 세계 전체나 북서유럽 전체를 대표할 수 없고, 대만이 아시아 또는 동아시아 전체를 대표할 수는 없겠지만, 우리의 연구 결과는 두 가지 주요 도덕 체계를 반영하는 몇 가지 기본 가치로 우리를 안내합니다: 서양의 생명윤리와 중국의 유교. 교육과 실습을 통해 학생들은 좋은 행동에 대한 다양한 가치와 개념을 배우고 관찰하며, 이를 통해 도덕적 자아를 발달시킬 수 있습니다. 
Although the Netherlands can by no means represent the whole Western world, or even the entirety of Northwest Europe, and Taiwan will never be able to represent the whole Asian or East Asian world, our findings lead us into some underlying values reflecting two different major moral systems: Western bioethics and Chinese Confucianism. During education and practical training, students learn about and observe different values and conceptions of what is good behavior, which will result in the development of a moral self.

자율성과 도덕적 발달.
Autonomy and moral development.

우리는 자율적인 사회적 행위자로서 참가자들이 두 가지 맥락에서 주체성을 행사하는 방식에서 상당한 차이를 발견했습니다.
We found significant differences in how participants, as autonomous social actors, exercised agency in the two contexts.

연구에 참여한 네덜란드 학생들은 성취와 역량에 중점을 두었습니다. 그들은 의료 전문가이자 유능한 커뮤니케이터로서 환자를 돌볼 수 있는 숙련된 의사가 되기 위해 필요한 자율적 행동 '실제' 실습 참여의 중요성을 강조했습니다. 그들은 스스로를 자율적이고 자기 조절적 학습자로 규정하고, 좋은 의사가 되기 위해 필요한 기술과 이를 추구하는 방법에 대한 명확한 아이디어를 가지고 있습니다. 경험적 증거에 따르면 실제 실습에서 네덜란드 학생들은 종종 자기조절 학습에 완전히 참여하지 못하는 경우가 많지만,20 학생들의 내러티브는 역량 또는 성과 기반 의료 교육21, 자기 주도적 또는 자기조절 학습22, 합리적이고 자의식적이며 자율적인 개인에 대한 (서구) 문화적 이상에 대한 현재의 지배적인 담론을 분명히 기반으로 하고 있습니다.6,23,24 
Dutch students in our study strongly focused on achievement and competence. They emphasized the importance of autonomous action and participation in “hands-on” practice, which is needed to become a skilled doctor who, as a medical expert and competent communicator, is able to care for patients. They authored themselves as autonomous, self-regulating learners, having clear ideas about the skills needed to be a good doctor and how to pursue those. Although empirical evidence shows that Dutch students in real practice are often not able to engage fully in self-regulated learning,20 the narratives of the students clearly build upon current dominant discourses around

  • competence or outcomes-based medical training21;
  • self-directed or self-regulated learning22; and
  • the (Western) cultural ideal of the rational, self-conscious, autonomous individual.6,23,24

대만 학생들은 교사가 제공하는 영감과 도덕 교육, 환자가 공유하는 삶의 경험과 지혜를 높이 평가하면서 반성적 관찰에 더 많이 참여하는 것으로 나타났습니다. 그들의 연설에는 좋은 사람, 좋은 의사가 되기 위한 근본적인 도덕적 가치를 반영하는 매우 풍부한 언어가 포함되어 있었으며, '선한 일'을 하고 사회에 기여하기 위해 명시적으로 노력했습니다. 언뜻 보기에는 의료 수련생으로서의 자기 결단이 잘 드러나지 않을 수 있지만, 실질적인 기술 교육보다는 도덕적 발달에 중점을 두는 것은 자율성을 표현하는 또 다른 방식이라고 할 수 있습니다. "최근 대만의 의학교육 개혁에서는 '좋은 의사가 되기 전에 좋은 사람이 되는 것'이 공통적으로 강조되고 있습니다. 대만 사회의 문화적 가치는 도덕적 자기 수양과 사회 정치적 복지 증진에 헌신하는 이타적 신사, 즉 '춘제'를 양성하는 것을 교육 목표로 삼는 유교 철학의 영향을 많이 받았습니다.24 고대 중국 의료 윤리의 대표적인 슬로건인 '전신전수'("인의예지, 인술")는 유교 윤리의 토대를 충분히 반영하고 있습니다. 스승을 공경하고 ''('바른 도리')를 준수하는 것 또한 어릴 때부터 일반적으로 가르치는 유교 속담입니다. 대만 학생들의 반성문에서 "착한 일 하기", "사회에 기여하기", "스승에 대한 감사"를 강조하는 이유도 이 때문일 수 있습니다. 유교 철학의 특징인 덕 윤리는 이러한 '좋은 의사' 양성에 대한 성찰에 당연히 기여합니다.
Taiwanese students were found to engage more in reflective observation, highly valuing the inspiration and moral education provided by teachers and the life experience and wisdom shared by patients. Their speech contained very rich language, reflecting underlying moral values related to becoming both a good person and a good doctor, explicitly striving for “doing good,” and contributing to society. Although their self-determination as medical trainees might be less visible at first sight, the emphasis on moral development rather than on practical skills training can be considered a different way of expressing autonomy. “Being a good person before becoming a good doctor” has been commonly emphasized in recent medical education reform in Taiwan. The cultural values of Taiwanese society are much influenced by the Confucian philosophy whose educational goal is to cultivate altruistic gentlemen, “chun-tze,” who are committed to both moral self-cultivation and social-political welfare promotion.24 A distinctive and representative slogan of ancient Chinese medical ethics, “jen-hsin-jen-shu” (“a heart of humaneness, the skill of humaneness”), reflects fully its foundation of Confucian ethics. Respecting teachers and adhering to the “dao” (“the righteous way”) is also a Confucian saying generally taught since childhood. This might explain partly why the reflective narratives of Taiwanese students so much emphasized “doing good,” “contributing to society,” and “appreciating teachers.” The virtue ethics characteristic of Confucian philosophy understandably contributes to such “good doctor” cultivation reflection.

자율성과 관련성.
Autonomy and relatedness.

의사와 환자의 자율성에 대한 참가자들의 서로 다른 문화적 구성은 자기 결정권을 다른 사람과의 관계에서 어느 정도 찾았습니다. 

  • 대만 학생들의 일기에는 다른 사람에 대한 언급이 많았고, '우리'에 대한 이야기가 많이 나왔습니다. 반면
  • 네덜란드 학생들은 '나'를 더 자주 언급하고 개인의 성취에 더 중점을 두는 것으로 나타났습니다.
  • 대만 학생들은 교사, 학교 선후배, 임상 감독자, 환자 등 다양한 사람들을 언급했습니다. 대만 학생들은 네덜란드 학생들보다 다른 사람의 역할, 특히 환자에 대한 자신의 역할에 대해 훨씬 더 많이 반영하고 있었습니다.

Participants’ different cultural constructs of physician and patient autonomy located self-determination to a greater or lesser extent in relationships with other people. In the Taiwanese diaries, there was a lot of reference to other people, and a lot of “we” talk. In contrast, Dutch students seemed to refer more often to “I,” and place more emphasis on their personal achievement. Taiwanese students included many different people, such as teachers, older schoolmates, clinical supervisors, and patients. They were reflecting much more about the role of other people, and in particular their role toward patients, than Dutch students did.

유교 윤리에는 이와 관련이 있을 수 있는 몇 가지 기본 가치가 있습니다. 타오25는 "중국인의 사고에서 개인은 결코 독립된 개체로 인식되지 않으며, 항상 다른 사람들과의 관계에서 각각 특정한 역할을 하는 네트워크의 일부로 간주된다"는 Liang의 관찰을 인용합니다. Tu26는 고전적 유교적 의미의 '자아'는 관계의 중심이자 영적 발전의 역동적 과정이라고 주장합니다. 차이24는 또한 유교적 인격 개념을 수직적 차원(자율적이고 자기 수양적인 인격)과 수평적 차원(관계적이고 이타적인 인격)의 두 가지 차원으로 해석합니다. 관계적 인격체 개념은 대만의 의사-환자 관계에서 중요한 역할을 합니다.24 따라서 대만 학생들은 네덜란드 학생들보다 성찰 일기에 다른 구성원을 더 많이 포함시켰으며, 그들의 정체성을 단순히 "나"가 아닌 "우리"의 사고에 더 많이 표현한 것으로 생각할 수 있습니다. 대인 관계는 대만 그룹에서 두드러진 특징이 되었습니다. 
There are certain underlying values in Confucian ethics that might be relevant here. Tao25 quotes Liang’s observation that “[i]n the Chinese thinking, individuals are never recognized as separate entities; they are always regarded as part of a network, each with a specific role in relation to others.” Tu26 argues that “self” in the classical Confucian sense is both the center of relationships and a dynamic process of spiritual development. Tsai24 also interprets the Confucian concept of persons as two-dimensional—the vertical dimension (the autonomous, self-cultivating one) and the horizontal dimension (the relational, altruistic one). The concept of relational personhood plays an important role in the Taiwanese doctor–patient relationship.24 Therefore, it is conceivable that Taiwanese students included other members in their reflective diaries more than their Dutch counterparts, and their identities expressed were more in the thinking of “we” rather than merely “I.” The person-in-relationship became a distinctive feature in the Taiwanese group.

이는 대만 학생들이 나쁜 소식을 전하는 것에 대해 이야기할 때 언급했던 것과도 관련이 있습니다.

  • 네덜란드에서는 환자의 자율성, 정직성, 공동 의사 결정과 같은 윤리적 또는 직업적 규범과 가치관이 바탕이 되어 매우 나쁜 진단이라도 환자에게 직접 솔직하게 공개할 수 있습니다.
  • 대만에서는 환자를 가족과 더 넓은 사회 집단의 일원 또는 관계에 있는 사람으로 간주하는 근본적인 가치관이 다르기 때문에 항상 '제3의 목격자'를 두고 가족을 통해 간접적으로 나쁜 소식을 전하게 됩니다

This also pertains to what Taiwanese students mentioned in their narratives about breaking bad news.

  • In the Netherlands, underlying ethical or professional norms and values, such as patient autonomy, honesty, and shared decision making, lead to a frank disclosure of even a very bad diagnosis directly to the patient as an individual.
  • The underlying values in Taiwan are different, pertaining to the patient as a member of their family and broader social group, or a person-in-relationship, which results in always having a “third witness” in the room, and breaking bad news indirectly—for example, via family members.

네덜란드 학생들은 인간관계에 대한 언급이 많지 않았고, 노골적인 도덕적 발언을 하지도 않았습니다. 그럼에도 불구하고, 특히 자아를 형성하고 세상을 만들어가는 과정에서 다른 사람을 돌보고 싶다는 강한 의지를 표명했으며, 이는 실제로 책임을 지는 데 필요한 역량을 개발해야 한다는 의미로 표현되었습니다.
Dutch students did not make much reference to relationships, nor did they make explicit moral statements. Nevertheless, in particular in their self-authoring and world making, they expressed a strong wish to care for other people, phrased as the need to develop the competence needed to actually take responsibility.

의학교육에 대한 시사점
Implications for medical education

학생들의 내러티브는 의학적 실천의 창으로 간주될 수 있습니다. 세계 여러 지역의 의학교육 시스템을 자세히 연구함으로써 우리는 다양한 윤리 시스템, 다양한 문화적 가치, 그리고 다른 사회에서 의사가 된다는 것 또는 훌륭한 의료 전문가가 된다는 것이 무엇을 의미하는지에 대해 많은 것을 배울 수 있습니다. 이러한 이해는 전 세계의 전문직에 대한 관념에 영향을 미치는 다양한 가치를 설명하고, 전문직 정체성 형성이 어떻게 작동하고 상황에 따라 어떻게 영향을 받는지에 대한 통찰력을 넓힘으로써 의학교육 분야를 발전시키는 데 도움이 될 수 있습니다. 이는 문화적 차이에 대한 인정과 인식을 향상시키고, 예를 들어 반성적 관찰과 능동적 참여의 어포던스를 고려할 때 문화에 특화된 개입의 개발을 촉진할 수 있는 잠재력을 가지고 있습니다. 본 연구는 특히 서로 다른 근본적인 문화적 가치와 관련된 두 가지 학습 방법의 가치를 명확하게 보여줍니다. 우리는 두 나라의 학생과 의학교육자 모두가 서로에게서 배울 수 있다고 제안하고 싶습니다. 네덜란드 학생들의 학습 과정은 중등학교나 의과대학에서 윤리 교육을 강화하고 좋은 의사가 된다는 것이 무엇을 의미하는지에 대한 토론을 유도함으로써 더욱 심화될 수 있습니다. 성찰에 쉽게 참여하고 자신의 생각과 가치를 표현하는 데 능숙하지만 임상 환경에서 주체성이 떨어지는 대만 학생의 경우, 경험 학습에 더 집중하면 학습 과정을 향상시킬 수 있습니다.
Student narratives can be considered a window to medical practice. By engaging in a detailed study of medical education systems in different parts of the world, we can learn a lot about different ethical systems, about different cultural values, and about what it means to become a doctor or to be a good medical professional in different societies. These understandings may help advance the medical education field by explicating the different values that inform notions about professionalism all around the world and by broadening our insight into how professional identity formation works and how it is influenced by context. This has the potential to enhance the recognition and appreciation of cultural differences and stimulate the development of culture-specific interventions—for example, in considering the affordances of reflective observation versus active participation. The present study clearly shows the value of both ways of learning, especially related to different underlying cultural values. We would like to suggest that both students and medical educators from the two countries can learn from each other. The learning process of students in the Netherlands might be deepened by providing more ethical education in secondary school or medical school, and by provoking discussion about what it means to be a good doctor. For Taiwanese students, who easily engage in reflection and are very good at expressing their thoughts and values, but who show less agency in the clinical environment, more focus on experiential learning might enhance their learning process.

향후 연구를 위한 제한점 및 제안
Limitations and suggestions for future research

직업 정체성 개발은 분명히 상황에 따라 다릅니다. 본 연구는 두 개의 다른 국가에서 이 과정과 그 기본 가치에 대한 자세한 연구를 제공합니다. 연구 결과는 이러한 유형의 담론 분석에서 흔히 볼 수 있는 다소 작은 데이터 세트를 기반으로 하지만, 심층적인 접근을 가능하게 합니다. 우리의 해석은 강력한 이론적 프레임워크의 사용과 연구팀원들의 격렬한 토론과 현장 방문을 통해 정보를 얻었습니다. 그러나 제1저자가 네덜란드인(E.H.)이므로 본 논문의 결과 발표는 부득이하게 서구의 관점에서 이루어질 수밖에 없습니다. 예를 들어, 저(E.H.)는 자율성에 대해 생각할 때 네덜란드의 의료 실무 및 의학교육에 대한 배경과 경험을 바탕으로 생각하며, 이러한 개인적인 이해를 참고 자료로 사용할 것입니다. 대만인 제1저자는 유교 철학을 설명하는 것으로 시작하여 이 도덕 체계의 핵심 개념 중 하나를 참조로 선택했을 수 있습니다. 따라서 다른 문화권의 정체성 발달에 대한 이해를 높이기 위해서는 다른 국가와 문화권, 다른 연구팀, 다른 제1저자와 함께 더 많은 연구를 수행할 필요가 있다고 생각합니다.2 
 
Professional identity development clearly is context-specific. Our research provides a detailed study of this process and its underlying values in two different countries. Our results are based on a rather small data set, which is typical for this type of discourse analysis, but allows for an in-depth approach. Our interpretations were informed by the use of a strong theoretical framework and by intense discussions and site visits by members of the research team. As the first author is Dutch (E.H.), however, the presentation of the results in this paper unavoidably will be from a Western perspective. When I (E.H.), for example, think about autonomy, I do so from my Dutch background and experience in medical practice and medical education, and will use this personal understanding as a point of reference. A Taiwanese first author might have started with describing Confucian philosophy, and might have chosen one of the core notions from this moral system for reference. Therefore, we suggest that more research needs to be done in different countries and cultures, with different research teams and with different first authors, to further increase our understanding of identity development in different cultures.2


Acad Med. 2017 Jun;92(6):853-859. doi: 10.1097/ACM.0000000000001658.

Emotional Learning and Identity Development in Medicine: A Cross-Cultural Qualitative Study Comparing Taiwanese and Dutch Medical Undergraduates

Affiliations collapse

1E. Helmich is senior researcher, Center for Education Development and Research in Health Professions, University Medical Center Groningen, University of Groningen, Groningen, the Netherlands.H.-M. Yeh is assistant professor, Department of Anesthesiology, National Taiwan University Hospital, Taipei, Taiwan.C.-C. Yeh is attending physician, Department of Medical Education/Department of Surgery, National Taiwan University Hospital, Taipei, Taiwan.J. de Vries is a PhD student, Center for Evidence-Based Education, Academic Medical Center/University of Amsterdam, Amsterdam, the Netherlands.D.F.-C. Tsai is professor, Research Institute of Medical Education & Bioethics, National Taiwan University College of Medicine, and attending physician, Department of Medical Research, National Taiwan University Hospital, Taipei, Taiwan.T. Dornan is professor, School of Medicine, Dentistry and Biomedical Sciences, Queen's University, Belfast, United Kingdom.

PMID: 28353499

DOI: 10.1097/ACM.0000000000001658

Abstract

Purpose: Current knowledge about the interplay between emotions and professional identity formation is limited and largely based on research in Western settings. This study aimed to broaden understandings of professional identity formation cross-culturally.

Method: In fall 2014, the authors purposively sampled 22 clinical students from Taiwan and the Netherlands and asked them to keep audio diaries, narrating emotional experiences during clerkships using three prompts: What happened? What did you feel/think/do? How does this interplay with your development as a doctor? Dutch audio diaries were supplemented with follow-up interviews. The authors analyzed participants' narratives using a critical discourse analysis informed by Figured Worlds theory and Bakhtin's concept of dialogism, according to which people's spoken words create identities in imagined future worlds.

Results: Participants talked vividly, but differently, about their experiences. Dutch participants' emotions related to individual achievement and competence. Taiwanese participants' rich, emotional language reflected on becoming both a good person and a good doctor. These discourses constructed doctors' and patients' autonomy in culturally specific ways. The Dutch construct centered on "hands-on" participation, which developed the identity of a technically skilled doctor, but did not address patients' self-determination. The Taiwanese construct located physicians' autonomy within moral values more than practical proficiency, and gave patients agency to influence doctor-patient relationships.

Conclusions: Participants' cultural constructs of physician and patient autonomy led them to construct different professional identities within different imagined worlds. The contrasting discourses show how medical students learn about different meanings of becoming doctors in culturally specific contexts.

임상환경에서 문화가 학습, 실천, 정체성 발달에 영향을 주는 방식에 대한 시야 넓히기(Med Educ, 2021)
Widening how we see the impact of culture on learning, practice and identity development in clinical environments
Dale Sheehan1 | Tim J. Wilkinson2

 

감각을 개발하고 특히 보는 법을 배우세요. 모든 것이 다른 모든 것과 연결되어 있다는 것을 깨달으십시오. (레오나르도 다빈치)
Develop your senses—especially learn how to see. Realize that everything connects to everything else. (Leonardo Da Vinci)

1 소개
1 INTRODUCTION

세기가 바뀌면서부터 보건 전문 교육 학자들은 임상 학습 환경에 점점 더 많은 관심을 갖게 되었고, 직장 환경에서 무엇이 학습에 도움이 되고 방해가 되는지 이해하기 위한 연구를 진행했습니다. 환경, 사회적, 물리적 측면, 감독자의 역할, 학습자의 주체성 등 직장이 제공하는 어포던스를 파악하는 데 중점을 두었습니다. 이 모든 것은 학습 환경이 제공하는 기회를 극대화하는 데 목적이 있습니다. 사회문화적 관점,1,2 직장 학습 이론,3-5 상황 학습6 및 상황성 이론7의 수용은 이러한 노력을 뒷받침해 왔습니다. 이번 자아, 사회 및 상황에 대한 과학 현황 시리즈의 일환으로, 우리는 상황을 보다 폭넓게 바라보는 방법과 문화가 이에 어떤 영향을 미칠 수 있는지에 초점을 맞춥니다.  
Since the turn of the century, health professional education scholars have become increasingly interested in the clinical learning environment, positioning research to understand what helps and hinders learning in workplace settings. The focus has included uncovering the affordances that the workplace offers: the environment, social and physical aspects; the role of the supervisor; and the agency of the learners. These are all aimed at maximising the opportunities the learning environment presents. The embracing of sociocultural perspectives,1, 2 workplace learning theory,3-5 situated learning6 and situativity theory7 have supported these endeavours. As part of this State of the Science series on Self, Society and Situation, we focus on how we might see the situation more broadly and how culture might influence this.

먼저 용어에 대한 몇 가지 설명을 드리겠습니다. '상황'이란 임상 학습 환경을 의미합니다. 임상 학습 환경 자체에 대한 정의는 쉽지 않지만, 저희의 목적상 학습이 이루어지는 모든 임상 업무 환경을 포함하며, 이러한 의도적으로 넓은 관점에는 실무자와 수련의에게 학습 경험을 제공하면서 주로 업무(의료 서비스 제공)에 중점을 두는 환경뿐만 아니라 업무에 중점을 두지 않는 환경도 포함될 수 있습니다. 여기에는 학부 및 대학원 교육뿐만 아니라 지속적인 실습 단계의 교육도 포함됩니다. 또한 모든 의료 전문직을 포함하는 것으로 보고 있습니다. 일부에서는 '일'과 '학습'을 분리하려고 하지만, 저희는 보다 통합적인 관점을 취합니다. 2019년이 되어서야 개인적 요소, 사회적 요소, 조직적 요소(조직 문화 포함), 물리적 공간, 가상 공간을 강조하는 학습 환경의 개념적 틀이 제안되었습니다.8 마찬가지로 문화도 정의에 저항해 왔습니다.9 역량과 마찬가지로 문화는 보건 전문가 교육에서 '신의 용어'가 될 수 있습니다.10 링가드는 '신 용어의 위험은 반복적인 사용과 친숙함을 통해 자연스럽고 보편적이며 필연적인 현실의 질서를 암시하게 된다는 점'이라고 경고합니다.10 이러한 용어를 구분하는 것은 낯설게 만들고, 이를 뒷받침하는 동기를 발굴하며, 적응적이고 유연한 담론을 위한 공간을 여는 작업입니다.10 그러나 이 백서 뒷부분에서 논의하는 최근 연구는 문화의 구성 요소를 명확히 하고 있습니다.
First, some clarification of terms are made. By ‘situation’, we refer to clinical learning environments. The clinical learning environment itself has resisted definition but for our purposes includes any clinical workplace where learning occurs—this deliberately wide view encapsulates environments that primarily focus on work as well as those that are focused on work (the delivery of health care services), while providing learning experiences for practitioners and trainees. It includes undergraduate and postgraduate training as well as ongoing practice stages of training. We also see this as including all health professions. Some try to separate ‘work’ from ‘learning’, but we take a more integrated view. It was not until 2019 that a conceptual framework of the learning environment was proposed, which highlighted a personal component, a social component, an organisational component (including the organisational culture), physical spaces and virtual spaces.8 Likewise, culture has resisted definition.9 Culture, like competence, may have become a ‘God term’ in health professional education.10 Lingard warns us that ‘the danger with God terms is that, through repeated use and familiarity, they become suggestive of a natural, universal and inevitable order of reality.10 Teasing them apart is an exercise in making them unfamiliar, excavating the motivations that underpin them, and opening space for an adaptive and flexible discourse’.10 However recent work, which we discuss later in this paper, has clarified components of culture.

보건 전문 교육자들이 보건 환경에서 일하는 동안 개인이 학습하는 방식에 대한 생각을 어떻게 발전시켜왔는지 요약합니다. 임상 작업장 환경에서의 학습에 관한 새로운 논의를 검토합니다. 최근에 우리는 문화와 학습 환경에 미치는 영향에 관한 다른 사람들의 연구에 경각심을 불러일으킨 관찰 연구를 자체 연구에 포함하기로 결정했습니다. 우리는 우리의 성찰을 공유하고 조직 문화와 문화의 더 넓은 측면이 자주 언급되지만 덜 자주 탐구되는 요소라는 결론을 내리는 예시적인 사례 연구를 제공합니다. 실무와 연구에 대한 시사점을 논의합니다. 
We summarise how health professional educators have evolved their thinking about how individuals learn while working in health environments. We review the emerging dialogue concerning learning in clinical workplace environments. Recently, we moved to include observational studies in our own work which has alerted us to the work of others around culture and its impact on learning environments. We share our reflections and offer illustrative case studies concluding that organisational culture and wider aspects of culture are factors that are often mentioned but less often explored. We discuss the implications for practice and research.

2 우리가 아는 것
2 WHAT WE KNOW

이제는 시대에 뒤떨어진 관점에서는 학습이 가르치는 내용에 의해 통제될 수 있다고 주장했습니다. 이후 학습자의 자율성과 신뢰를 반영하는 학습 성과로 초점이 옮겨졌습니다. 이후 직장에서의 학습이 처음 생각했던 것만큼 예측하기 어렵다는 사실을 깨닫고 감독자의 역할에 더 중점을 두게 되었습니다. 이로 인해 수퍼바이저는 학습 내용을 통제하거나 관리하는 데 도움을 줄 수 있으며, 학습자가 학습을 하지 않는다면 이는 학습자, 수퍼바이저 또는 dyad에게 문제가 있다는 견해로 이어졌습니다. 이후 직업 교육사회 학습 패러다임이라는 더 넓은 분야의 영향을 받은 연구에서는 학습 환경과 학습자의 학습 환경에 대한 경험에 주목했습니다. 예를 들어, 우리는 자체 연구와 Stephen Billett과의 협력을 통해 임상 환경에 대한 학습자의 경험과 학습의 필수 요소인 참여를 지원하기 위해 감독자가 할 수 있는 일을 조사했습니다.11 우리는 실무 커뮤니티 내에서 학습이 어떻게 발생하는지 고려하고6 직장이 학습자에게 무엇을 제공하고 이것이 워크플로와 물리적 환경에 의해 어떻게 영향을 받는지 이해하는 데 관심을 갖게 되었습니다.4, 11, 12 이 연구는 모든 역량을 포괄할 수 있도록 학습 결과를 업무 경험에 매핑하려는 시도와 대조적으로 진행됩니다. 당시의 개념은 학습 환경을 둘러싼 문화를 기껏해야 통제할 수 없는 것으로, 최악의 경우 무시해야 할 것으로 간주했습니다. '숨겨진 커리큘럼'이라는 용어는 학습 환경의 부정적 영향과 동의어로 여겨질 정도로 부정적으로 여겨지기도 했습니다.13 집단 따돌림은 이러한 부정적 영향 중 하나에 초점을 맞추었지만, 여기에서도 의대생 괴롭힘 문제를 해결하려면 의사에 초점을 맞춰야 하고, 간호대생 괴롭힘 문제를 해결하려면 간호사에 초점을 맞춰야 한다는 제한적이고 비전문적인 렌즈를 통해 바라보려는 경향을 보였습니다. 실제로 괴롭힘 문화는 환경 문화를 반영하는 것으로, 여러 분야에 걸쳐 발생하는 경우가 많습니다. 예를 들어 의대생은 의사보다 간호사에게 괴롭힘을 당할 가능성이 더 높거나 더 높습니다.14  
A now outmoded view contended that learning could be controlled by what is taught. The focus then moved to learning outcomes, reflecting greater agency and trust in the learner. Later developments followed the realisation that learning in workplaces is not as predictable as first thought so there was a greater focus on the role of the supervisor. This led to the view that the supervisor could help control or manage what is learnt and if the trainee was not learning, then somehow it was either a problem with the trainee, the supervisor or the dyad. Influenced by the wider field of vocational education and social learning paradigms, later research turned attention to the learning environment and learners' experiences of those environments. As an example, in our own research and working with Stephen Billett, we investigated learners' experiences of the clinical environment and what supervisors could do to support participation as an essential ingredient for learning.11 We considered how learning occurred within communities of practice6 and became interested in understanding what the workplace afforded learners and how this was influenced by workflows and the physical environment.4, 11, 12 This work contrasts with trying to map learning outcomes to work experiences to ensure that every competency is covered. Conceptualisations at that time came to view the culture surrounding the learning environment as, at best, out of control and, at worst, something to be ignored. It was often seen as negative—adapting the term the ‘hidden curriculum’, which came to be seen as synonymous with the adverse impacts of the learning environment.13 Bullying became a focus of one of these adverse impacts, but even here we tended to view this through a limited, uniprofessional, lens—to fix the bullying of medical students, we need to focus on the doctors; to fix the problems of bullying nursing students, we needed to focus on nurses. In fact, a bullying culture is more a reflection of the environmental culture and often occurs across disciplines—for example, medical students are just as, or more, likely to be bullied by a nurse than by a doctor.14

좋은 견습생, 좋은 감독자, 좋은 학습 환경을 만드는 요인을 탐구한 연구에서 몇 가지 핵심 메시지를 제시했습니다.15-17
As research explored what made a good apprentice, a good supervisor and a good learning, environment it offered some key messages.15-17

  • 학습자 참여가 핵심입니다.
  • 환경은 학습 기회를 제공함으로써 교육을 수행하지만, 이는 슈퍼바이저가 지원해야 합니다.
  • 학습자가 주체성과 발언권을 갖기 위해서는 업무 압박, 인적 요인 및 오류를 유발할 수 있는 기타 영향의 영향을 인정하면서 안전한 환경이 필요합니다.
  • 학습 환경을 직접 관찰하면 팀 커뮤니케이션을 이해하여 학습 이벤트가 발생하는 위치를 파악하고 전문가 간 협업이 이루어지는 방식과 장소를 탐색하는 데 도움이 됩니다.
  • Learner participation is the key.
  • The environment does the teaching by affording opportunities for learning, but this needs to be supported by the supervisor.
  • In order for learners to have agency and a voice, they need safe environments while acknowledging the impacts of work pressure, human factors and other influences that could lead to errors.
  • Direct observation of learning environments helps gain an understanding of team communication to see where learning events happen and to explore how and where interprofessional collaboration occurs.


이 논문은 사물이 서로 연결되어 있다는 것을 깨닫는 데 도움이 되는 감각을 개발해야 한다는 레오나르도 다빈치의 인용문에서 시작되었습니다. 우리는 더 넓은 기관의 요소를 포용하고, 환자 치료 및 임상 학습 모델에 영향을 미치는 조직의 가치와 문화를 인식하고 인정하여 이를 외면하거나 무시하지 않고 함께 일하며, 성찰과 관찰을 통해 암묵적인 것을 가시화하고 문화에 대한 다양한 관점을 포용할 필요가 있다고 제안합니다.
Our paper started with a quote from Leonardo Da Vinci who suggests we need to develop our senses to help us realise that things connect to each other. We suggest there is a need to embrace the wider institution factors, recognise and acknowledge an organisation's values and culture as they impact on models of patient care and clinical learning in order to work with these, not around them or ignore them, to make what may be tacit visible through reflection and observation and to embrace a range of perspectives on culture.

3 새로운 대화
3 THE EMERGENT DIALOGUE

학습 환경의 개념적 틀은 정책, 리더십 행동, 규제 기관 및 인증의 영향을 포함한 조직 문화의 역할을 강조했습니다.8 이와 함께 질 향상 분야의 저자들은 보건의료 조직 문화를 '의료 서비스 조직의 눈에 잘 띄지 않는 부드러운 측면과 이것이 진료 패턴에서 어떻게 나타나는지'에 대한 은유로 설명했습니다.18 이 연구는 학습 환경 작업의 범위를 넓혀 조직 문화가 보건의료 실무에 미치는 영향과 따라서 특정 학습 환경에서 제공되는 어포던스(또는 그렇지 않은)를 탐구해야 할 필요성을 강조합니다. 두 가지 관점 모두 특히 학습자가 자신의 전문적 정체성을 만들고 창조하기 위해 노력할 때 '문화'가 감독자와 학습자에게 미치는 영향을 상기시켜 줍니다.
A conceptual framework of the learning environment highlighted the role of organisational culture including the impact of policies, leadership actions, regulatory bodies and accreditation.8 Alongside this, authors in quality improvement have described health care organisation culture as a metaphor for ‘the softer less visible aspects of health service organisations and how these become manifest in patterns of care’.18 This work highlights the need to broaden the scope of learning environment work to explore the impact of organisational culture on health care practices and therefore the affordances (or not) offered in specific learning environments. Both perspectives remind us of the impact of ‘culture’ on the supervisor and learner, particularly as learners strive to create and create their professional identities.

이제 수련자와 슈퍼바이저가 속한 더 넓은 조직의 영향, 이것이 학습에 미치는 영향, 그리고 이것이 보건 서비스, 도시, 지역 및 국가에 따라 어떻게 달라지는지에 대한 관심이 떠오르고 있습니다. 이러한 제도적 요인을 탐구하는 과정에서 의학교육자들에게 '문화를 불러일으키기'를 권유한 Bearman 등의 비판적 검토는 시의적절합니다.19 이들의 연구에 따르면 의학교육자들은 문화에 대해 자주 언급하지만 대개 부정적이거나 중립적인 자세로 언급하는 것으로 나타났습니다. 이들은 '교육자, 학생, 행정가에게 권한을 부여하는 문화에 대한 개념이 현저히 부재'하지만 동시에 사회적 환경과 관행의 영향력을 인정하고 있음을 발견했습니다.19 
What is now emerging is an interest in the impact of the wider organisation in which a trainee and a supervisor are situated, how this impacts on learning and how this varies across health services, cities, regions and countries. As part of exploring these institutional factors, a critical review by Bearman et al. is timely in its invitation to medical educators to ‘invoke culture’.19 Their work revealed that medical educators comment on culture frequently but usually negatively or from a neutral stance. They found that there is a ‘notable absence around conceptualisations of culture that allow educators, students and administrators agency’ but at the same time acknowledge the influence of social settings and practices.19

Watling 등은 문화에 대한 세 가지 관점, 즉 조직, 정체성, 실천을 인정하는 프레임워크를 제시합니다.9

  • 조직 관점조직 내에서 개인을 묶는 공유된 가정과 가치를 강조합니다.9
  • 정체성 관점은 개인이 자신을 보는 방식을 형성하는 공동의 내러티브의 힘을 강조합니다.9
  • 실천 관점활동인적-물적 네트워크 또는 배열을 강조합니다.9 

Watling et al. offer a framework that recognises three perspectives on culture: organisational, identity and practice.9 

  • The organisational perspective highlights the shared assumptions and values that bind individuals within an organisation.9 
  • The identity perspective highlights the power of communal narratives to shape how individuals see themselves.9 T
  • The practice perspective highlights activity and human-material networks or arrangements.9

우리는 이러한 관점을 수용하거나 조정했으며, 세 가지 관점 모두에 공통점이 있음을 인식하면서 각각에 대해 예시적인 사례 연구와 잠재적인 탐구 프로그램을 제공합니다. 이러한 관점 내에서 그리고 이러한 관점을 넘나들며 작업하면 다른 연구를 보완하거나 다른 보건 연구자들과 파트너십을 맺고 학제 간 협력자와 함께 혼합 방법 접근법을 설계할 수 있는 기회를 제공할 가능성이 매우 높습니다. 그림 1은 학습 환경의 문화가 다층적이고 다요인적이라는 것을 보여주는 개념적 관점을 제공하는 것을 목표로 합니다. Watling 등의 관점에9 사회, 교육 제공자 및 직업 자체와 관련된 문화를 추가했습니다.
We have embraced or adapted these perspectives, and for each, we offer illustrative case studies and potential programmes of enquiry while recognising there is a common thread across all three. Working within and across these perspectives is very likely to complement other work and or provide opportunities for partnerships with other health researchers and to design mixed-methods approaches with interdisciplinary collaborators. Figure 1 aims to provide a conceptual view illustrating that the culture of a learning environment is multilayered and multifactorial. To Watling et al.'s perspectives,9 we have added the cultures associated with society, the education provider and the profession itself.

개인은 즉각적인 상황의 문화, 일반적으로 진료 배치, 특히 임상 팀의 문화를 가장 잘 알고 있지만 여기에는 물리적 배치, 작업 리듬, 작업 도구 또는 장비(인공물)도 포함됩니다.11 그러나 이러한 배치는 의료 서비스의 조직 문화와 사회 자체의 문화에 영향을 받습니다. 이러한 모든 요소와 상호 작용하는 것은 직업 및 교육 제공자의 문화입니다. 그러나 가장 중요한 것은 이러한 문화가 반드시 일치하는 것은 아니며,20 이러한 문화를 조정하는 것은 개인에게 긴장을 유발할 수 있다는 것입니다.
The individual will be most aware of the culture of the immediate situation, commonly the practice placement, particularly the clinical team, but this also includes the physical layout, the rhythms of work and work tools or equipment (artefacts).11 However such placements will, in turn, be influenced by the organisational culture of the health service and that of society itself. Interacting with all these factors are the cultures of the profession and the education provider. Most importantly however, these cultures will not necessarily be aligned,20 and reconciling such alignments can cause tension for individuals.

4 조직 문화
4 ORGANISATIONAL CULTURE

조직 문화사고 방식, 어떤 지식이 가치 있고 일반적으로 받아들여지는지, 지식이 어떻게 사용되는지,21 그리고 의료 환경 내에서 환자 치료가 어떻게 제공되는지에 대한 가정을 형성합니다. 조직의 문화는 비전, 사명, 가치, 리더십 모델, 자금 및 계획 모델, 직무 설계, 성과 관리, 팀워크, 혁신, 갈등 해결 방법, 슈퍼비전, 임상 리더십 및 관리 스타일에 의해 영향을 받습니다.22 베어만 등은 또한 '문화'라는 용어의 기본 개념이 움직일 수 없는 문화에서 사용 가능하고 유연한 문화까지 연속선을 따라 존재한다고 지적했습니다.19 우리는 학습에 있어 후자가 해당된다고 생각하여 조직과 협력하여 학습 문화를 발견, 개발 및 개선할 수 있기를 희망합니다. 
Organisational culture shapes assumptions about ways of thinking, what knowledge is worthwhile and commonly accepted, how knowledge will be used,21 and within health care settings, how patient care is delivered. An organisation's culture is influenced by its vision, mission, values, leadership models, funding and planning models, job design, performance management, teamwork, innovation, methods for conflict resolution, supervision, clinical leadership and managerial styles.22 Bearman et al. also noted that the underlying conceptions of the term ‘culture’ sit along a continuum: from culture as immoveable to culture as usable and malleable.19 We would like to think that the latter is true for learning so that we could partner with organisations to uncover, develop and improve its learning culture.

학부 및 대학원 프로그램에 소속된 임상 교육자만이 근로자의 주체성을 개발하기 위해 노력하는 것은 아닙니다. 교육에 주로 관여하지 않는 조직에서도 문화가 지식 공유 행동23 및 지식 관리와 밀접한 관련이 있다는 몇 가지 증거를 확인한 것은 고무적입니다.21, 24 조직은 안전한 환자 치료를 보장하고 신기술과 새로운 기술을 수용하기를 원합니다. 또한 역량과 역량을 위한 기술을 구축하고 전문가 간 이해를 발전시키기를 원합니다. 교육 기관과 의료 서비스 사이에 공생이 가능하다는 생각은 새로운 것은 아니지만,25 학습 환경에서 시너지 효과를 확인하고 숨겨진 커리큘럼에 반하는 것이 아니라 협력할 수 있는 미충족 기회가 있다는 것을 시사합니다. 이는 의료 서비스를 지식 개발의 파트너, 전문가 간 치료 및 협력 진료의 협력자, 모두를 위한 안전하고 건강한 환경을 보장하는 파트너, 환자 치료 결과를 개선하는 파트너로 포용하는 것입니다. 
Clinical educators attached to undergraduate and postgraduate programmes are not the only ones working to develop agency in workers. Here it is encouraging to see some evidence that, even for organisations not primarily involved in education, culture is strongly associated with knowledge-sharing behaviour23 and with knowledge management.21, 24 Organisations want to ensure safe patient care and to embrace new technology and new skills. They want to build skills for competence and capability and develop interprofessional understandings. The idea that there could be symbiosis between an education organisation and a health service is not new,25 but it does suggest there are unmet opportunities to identify synergies in learning environments; to work with and not against the hidden curriculum. This would embrace health services as partners in knowledge development, a collaborator for interprofessional care and collaborative practice, a partner in ensuring safe and healthy environments for all, and a partner to improve patient outcomes.

각 조직은 서로 다른 기회를 제공할 가능성이 높으며, 이러한 기회를 설명하고 이해하면 기회를 더 잘 활용할 수 있습니다. 예를 들어, 의료 서비스 기관은 스스로를 학습하는 조직이라고 설명하는 경우가 많으며 품질 개선 전문가, 전문 개발 직원, 웰빙 실무자 등 관련 팀을 보유하고 있습니다. 이러한 팀은 '공식적인' 교육의 목표에 부합하는 학습 및 업무 문화 목표를 구현하는 임무를 맡고 있습니다. 더 넓은 렌즈를 사용하여 사물이 서로 어떻게 연결되어 있는지 파악하는 것이 업무 환경 분석에서 포착되어야 합니다. 
Each organisation is likely to offer different opportunities; describing and understanding those opportunities could help us make better use of them. For example, health service organisations often describe themselves as learning organisations and have relevant teams, such as quality improvement specialists, professional development staff, and well-being practitioners. These teams are tasked with implementing goals for learning and work culture that align to those of ‘formal’ education. Using a wider lens and seeing how things connect to each other should be captured in our analyses of workplace environments.

조직 문화를 설명하는 사례 연구
Case study to illustrate the organisational culture

영국에서 파운데이션 수련의의 처방 오류 원인에 대한 심층 조사를 실시한 결과,26 뉴질랜드의 두 보건 서비스에서도 비슷한 문제를 인식했습니다. 약사가 처방 오류를 발견했지만 전문가 간 협업 문화가 없었기 때문에 의사-약사 협업을 통해 이러한 오류를 예방할 수 없었습니다. 두 의료 서비스의 교육 부서는 질 향상 약사와 협력하여 일상적인 상호작용에서 의사와 약사 간의 전문직 간 협업을 활용하여 효과적인 처방을 촉진하는 방법을 모색했습니다.27-29 약사는 질 향상 전문 지식을, 교육 부서는 직장 학습 및 전문직 간 교육에 대한 전문 지식을 가져와 문제를 해결했습니다. 서로 협력한 결과 오류 감소뿐만 아니라 협업 문화도 개선되었습니다.27-29 
In response to an in-depth investigation in the United Kingdom into causes of prescribing errors by foundation trainees,26 two health services in New Zealand recognised a similar problem. Prescribing errors were detected by pharmacists, but there was not a culture of interprofessional collaboration, so preempting such errors through doctor–pharmacist collaboration did not occur. The education units of both health services partnered with quality improvement pharmacists and explored ways to leverage the interprofessional collaboration between doctors and pharmacists in their everyday interactions to promote effective prescribing practice.27-29 The pharmacists brought their quality improvement expertise, and the education units brought expertise in workplace learning and interprofessional education to address the problem. They partnered with each other and found not only a reduction in errors but also an improvement in collaborative culture.27-29

한 사이트는 다른 사이트에 비해 더 큰 영향을 미쳤습니다.28 학습자와 교육자의 질적 인터뷰 데이터는 그 이유에 대한 통찰력을 제공하고 전수 가능성 및 조직 문화에 관한 귀중한 교훈을 제공했습니다. 효과가 가장 컸던 현장에는 시뮬레이션에 대한 높은 수준의 지원을 제공하는 시뮬레이션 유닛이 있었고, 병동 기반 전문가 간 코칭에 대한 사전 경험이 있었습니다. 공유된 임상 리더십과 의료 서비스 코드 설계 및 개선 학습에 대한 헌신은 조직의 목표였습니다. 따라서 두 서비스 간의 강력한 협업 문화와 함께 프로그램을 수행하기 위한 전제 조건이 있는 직장 환경과 문화를 갖추고 있었습니다. 다른 사이트는 그 효과가 적었고, 돌이켜보면 시행 전에 더 많은 교육과 브리핑이 필요하다는 것을 깨달았습니다. 
There was greater impact at one site compared with the other.28 The qualitative interview data from learners and educators provided insight into why and offered a valuable lesson regarding transferability and organisational culture. The site with the greatest effect had a simulation unit that provided a high level of support for the simulations, as well as prior experience of interprofessional ward-based coaching. Shared clinical leadership and a commitment to codesign of health services and improvement learning were espoused organisational goals. It therefore had a workplace environment and culture with prerequisites for undertaking the programme with a strong culture of collaboration between the two services. The other site had a lesser effect and retrospectively we realised that it needed to undertake more training and briefing prior to implementation.

이중 사이트 구현을 통해 업무 환경과 문화적 요인이 사이트마다 다를 수 있으며, 광범위하게 구현하려면 이를 예상해야 한다는 사실을 깨닫게 되었습니다. 모든 사이트에는 고유한 실행 강점과 과제가 있습니다. 
Dual-site implementation reminds us that workplace contextual and cultural factors will vary across sites and any widespread implementation needs to anticipate this. All sites have their own implementation strengths and challenges.

5 실천 문화
5 PRACTICE CULTURE

실천 문화는 종종 의료팀 수준에서 나타납니다. 한 팀에서 받아들일 수 있는 규범, 기대치, 일반적인 관행이 다른 팀에서는 받아들여지지 않을 수 있습니다.30 이는 때때로 '여기는 이렇게 한다'라는 문구로 요약됩니다. 이러한 문화는 대개 팀의 선임 간호사나 선임 의사와 같은 선임 멤버에 의해 설정됩니다. 각 팀마다 고유한 특성과 프로토콜이 있으며, 모든 프로토콜이 명시적이거나 팀원들이 명확히 알 수 있는 것은 아닙니다. 이러한 특수성을 이해하고 이를 명시하는 것이 효과적인 슈퍼비전의 중요한 전제 조건인 것으로 밝혀졌습니다.30 또한 이러한 특수성은 직장이 제공하는 어포던스, 즉 학습할 수 있는 내용을 형성합니다. 마찬가지로 물리적 배치, 사용 가능한 장비, 자연스러운 업무 리듬은 모두 학습에 영향을 미치지만 장소마다 상당히 다릅니다.11 이러한 차이가 존재하지 않는다고 가정하기보다는 이러한 차이를 더 명확하게 만들어서 어떻게 작용하는지 이해할 수 있는 방법을 찾아야 합니다. 이는 교육 프로그램을 확장하거나 다른 센터에 프로그램을 배포할 때 특히 중요합니다.
Practice culture is often manifest at the health care team level. Trainees often notice this—the norms, expectations and common practices that are acceptable in one team may be less acceptable in another.30 This is sometimes encapsulated in the phrase ‘this is how we do things here’. Such a culture is often set by a senior member of the team—a senior nurse or senior doctor. Each team has its idiosyncrasies and protocols—not all of which are explicit or even able to be enunciated by the team members. Understanding these idiosyncrasies and making them explicit has been found to be an important prerequisite to effective supervision.30 They also shape what affordances the workplace offers and therefore what can be learnt. Likewise the physical layout, the equipment that is available and the natural rhythm of workplace practices are all influential on learning yet vary considerably from place to place.11 Rather than pretend these variations do not exist, we need to find ways to make them more explicit so that we can then understand how they act. This is particularly important when scaling up an education programme or rolling out a programme to other centres.

실습 환경을 설명하는 사례 연구
Case studies to illustrate the practice environment

  1. 수퍼바이저 트레이너인 저자 중 한 명(박사)은 수퍼바이저 교육 과정 중 참가자들이 자신의 학습 환경을 감사하도록 요청받은 실습을 감독했습니다. 참가자들은 한 발 물러서서 학습 환경으로서 자신의 직장을 관찰하고 성찰하여 배치의 학습 기회를 파악하도록 요청받았습니다. 이는 직장 커리큘럼 매핑4의 개념에서 파생된 활동이었지만 보다 미시적인 수준에서 수행되었습니다. 교육에 참여한 감독자들은 익숙한 환경을 새로운 시각으로 바라보는 것의 가치를 높이 평가하면서 이 활동이 도움이 되고 눈을 뜨게 하는 활동이라고 보고했습니다. 수업 시간에는 장애물을 공유하고 해결책을 찾기 위해 노력했습니다.
    As a trainer of supervisors one of the authors (D. S.) oversaw an exercise within a supervisor training course where participants were asked to audit their learning environment. They were asked to step back, observe and reflect on their workplace as a learning environment to identify the learning opportunities of the placement. This was an activity drawn from the concept of mapping the workplace curriculum4 but undertaken at a more microlevel. Supervisors in training reported this as a helpful and an eye-opening activity, appreciating the value of looking at a familiar environment through a change of lens. In class they shared barriers and worked on solutions for workarounds.
  2. 학습 환경을 직접 관찰한 결과 학습은 종종 '한입 크기'(한 번에 1분 미만)로 이루어졌으며, 업무의 성격과 리듬으로 인해 특정 장소와 특정 시간에 발생할 가능성이 더 높았습니다.11
    Direct observation of a learning environment uncovered learning often occurred in ‘bite-sized’ pieces (<1 min at a time) and were more likely to occur in specified places and at particular times due to the nature and rhythm of work.11
  3. 조산사 배치 현장 두 곳의 경험 경로와 교육적 특성을 매핑하여 조산사 커리큘럼이 프로그램의 의도된 학습 결과를 실현하는 특정 교육적 관행에 의해 어떻게 주문되고 보강될 수 있는지 파악했습니다.12 두 가지 실습 기반 경험은 학생들에게 뚜렷한 학습 결과를 만들어 냈습니다.
    The pathways of experiences and pedagogic properties of two midwifery placement sites were mapped to identify how the midwifery curriculum could be ordered and augmented by particular pedagogic practices that realise the program's intended learning outcomes.12 The two different practice-based experiences generated distinct learning outcomes for the students.

수퍼바이저는 조직의 문화에 영향을 받기도 하고 기여하기도 하며, 종종 순환적이고 상호 의존적인 방식으로 영향을 주고받습니다. 수퍼바이저는 현지 문화에 몰입되어 있기 때문에 수퍼비전에 대한 암묵적 신념과 수퍼바이저로서의 정체성에 어떤 영향을 미치는지 인식하지 못할 수 있습니다.31, 32 칸틸롱 등은 교수진 개발이 수퍼바이저로서의 정체성, 신념 및 관행을 강화하는 환경적 요인에 대한 교사의 마음챙김을 증가시키도록 시도해야 한다고 제안합니다.32 이는 신규 수퍼바이저가 적절한 성향(예: '교수법'을 식별하는 동기 개발)을 갖는 것에서 적절한 성향(예: '교수법'을 실행하는 것)을 실행하는 것(예: 사회 및 문화적 맥락에 관여하고 대응하는 것)으로 이동할 수 있도록 지원할 필요성을 강조하는 수퍼바이저 교육에 시사점을 줍니다."32
Supervisors are both influenced by, and contributors to, their organisation's culture, often in a cyclical, interdependent way. Because of their immersion in the local culture, they may not be aware of how it is impacting on their tacit beliefs about supervision and their identity as a supervisor.31, 32 Cantillon et al. suggests faculty development should attempt to increase teacher's mindfulness of the environmental factors that sharpen their identities, beliefs and practices as supervisors.32 This has implications for supervisor training highlighting a need to assist new supervisors to move from having the appropriate disposition (e.g., developing the motivation to identify ‘teaching work arounds’) to enacting the appropriate disposition (e.g., implementing the ‘teaching work arounds'…. as they engage with and respond to social and cultural contexts.’32

수퍼바이저는 긍정적이든 부정적이든 조직의 문화적 힘에 관여하고 이에 대응할 때 자신의 가정(예: 위계 업무량 또는 교육 대 환자 치료의 긴장 관계에서 우선순위)에 대해 의도적으로 성찰할 기회를 제공받는 것이 도움이 될 수 있습니다. 수퍼바이저의 정체성, 역할에 대한 암묵적 신념과 이해는 조직 전체의 관점에 영향을 받을 가능성이 높습니다.
Supervisors may benefit from being provided with opportunities to deliberately reflect on their assumptions (e.g., about hierarchy workload or priorities in the teaching vs. patient care tension) as they engage with, and respond to, cultural forces in their organisation, both positive and negative. The identity of the supervisor, the tacit beliefs and understandings they have about the role are likely influenced by the organisation wide view.

6 정체성
6 IDENTITY

직업적 정체성을 개발하는 것은 독립적인 의료 전문가가 되기 위한 과제 중 하나입니다. 학습 환경과 문화도 정체성 형성에 영향을 미치며, 이는 다시 수련 단계에 따라 달라집니다.

  • 학부 수준에서 학습 환경은 임상 경험의 원천으로 여겨지는 경우가 가장 많습니다.33
  • 이후 신규 졸업생의 경우, 학습 환경은 직업적 정체성을 형성하고 진로 결정을 내리고 취업하는 장소로 여겨집니다.
  • 의료 전문가가 더 고위직이 되어 업무 환경에 완전히 몰입할 때 비로소 이러한 환경이 보다 일관되고 예측 가능하게 됩니다.

그러나 실무자가 환경 문화를 형성하는 데 있어 더 큰 권한을 갖는 것은 바로 이 고위급 수준에서입니다. 인턴십은 정체성 형성의 시기로 볼 수 있으며, '의사 되기'라는 자기 결정적 능동적 과정으로서 이 중요한 전환을 이해하려면 문화 또는 사회화 이론보다 더 넓은 관점이 필요합니다.34 예를 들어, 경영학 문헌의 모델을 사용하여 인턴 교육을 시간이 지남에 따라 자아의 전개와 변화라는 되기 과정으로 설명할 수 있습니다.34
Developing a professional identity is one of the tasks of becoming an independent health professional. The learning environment and its culture also impact on identity formation which, in turn, depends on the stage of training.

  • At an undergraduate level, the learning environment is most often seen as a source of clinical experiences.33 
  • Later, as new graduates, it is seen as a place to shape professional identity, to shape career decisions and to be employed.
  • It is only when health professionals become more senior and fully immersed in the work environment that such environments become more consistent and predictable.

It is at this more senior level however that practitioners have greater agency in shaping the environment culture. An internship can be viewed as a period of identity formation and, as a self-determined active process of ‘becoming a doctor’, requires a wider perspective than enculturation or socialisation theories to understand this significant transition.34 For example, a model from management literature could be used to describe intern education as a process of becoming: as an unfolding and as a transformation of the self over time.34

전문가 간 팀의 일원이 되는 법을 배우는 것은 전문가 정체성에 대한 또 다른 도전이며, 이는 관점의 균형을 맞추고 자신의 전문적 역할과 팀 역할의 균형을 맞춰야 합니다. 의료팀 과제와 같은 활동은 학생과 인턴이 서로의 직업과 역할에 대한 이해를 높이고 직장에서 서로를 인정하는 데 도움이 됩니다.35
Learning to be part of an interprofessional team is another challenge to professional identity that requires balancing perspectives and juggling one's own professional roles with team roles. Activities such as health care team challenges have increased students' and interns' understanding of each other's professions and roles and lead to recognition of each other in workplaces.35

신규 의사의 경우, 많은 경우 자신의 가치관이나 의료인으로서의 역할에 대한 인식과 상충되는 환경에서 일하고 전문직으로 전환하는 과정에서 정체성을 확립하는 데 많은 노력을 기울여야 합니다. 최근 의료계에서 원주민(마오리족)36 및 태평양계37 졸업생 의사가 크게 증가한 뉴질랜드에서 개인이 업무 환경에 적응하는 과정이 잘 드러납니다. 수상 경력에 빛나는 팟캐스트에서 마오리족 의사를 갓 졸업한 엠마 에스피너의 관점에서 바라본 다음 사례 연구는 비 마오리족이 주류를 이루는 의료 직장 문화와 마오리족의 불평등한 건강 결과와 관련된 의료 시스템 내에서 마오리족 의대생으로서 정체성을 관리하는 데 따르는 어려움을 보여줍니다.
For new practitioners, there is much identity work to undertake in the challenge of moving into a profession and working in an environment that for many is at odds with their values and perception of their role as a health professional. The enculturation of the individual into a work environment has been well illustrated recently in New Zealand where the medical workforce has seen a substantial increase in indigenous (Māori)36 and Pacific37 graduating doctors. The following case study taken from the perspective of Emma Espiner, a newly graduated Māori doctor, in an award winning podcast, demonstrates the challenges of managing identity as a Māori medical student within a health workplace culture that is predominantly non-Māori and within a health care system associated with unequal health outcomes for Maori.

개인 문화와 조직 문화의 조화를 보여주는 사례 연구
Case study illustrating reconciling personal culture with organisational culture

팟캐스트 시리즈에서 마오리족 의대생인 엠마 에스피너는 마오리족을 차별하는 의료 시스템에서 일하는 것이 어떤 것인지 설명합니다. '불평등한 결과란 마오리족인 경우 사망 확률이 높다는 뜻입니다."38 그녀는 의과대학에서 마오리족 건강 통계에 대해 배우는 것과 '실제 사람들, 즉 와나우(대가족)와 함께 실시간으로 플레이하는 것'이 어떻게 다른지에 대해 이야기합니다.38
In a podcast series, a Māori medical student Emma Espiner describes what it is it like working in a health system that discriminates against your people. ‘Unequal outcomes is jargon for a better chance of dying if you are Māori.’38 She discusses how it is one thing to learn about Māori health statistics at medical school and another to see this ‘Playing out in real time with real people, your whānau [extended family]’.38

그녀는 마오리 의료 서비스 제공자(키아 오라 응아티와이)의 의사로 일하는 한 일반의(GP)의 경험을 설명합니다38:
She describes the experience of a general practitioner (GP) working as a doctor for a Māori health provider (Ki A Ora Ngātiwai)38:

'한 번은 지역사회의 건강에 깊이 관여하고 있는 사람에게 제 깨달음을 설명한 적이 있습니다. 내가 웰빙(오라)의 개념에 대해 설명하기 시작하자 그녀는 코웃음을 치며 마오리족에게 오라는 개인의 웰빙이 아니라 집단주의에서 비롯된 웰빙이라고 말했다...... 지역사회 거버넌스와 소유권이 키아 오라 응아티와이의 특징이지만 그렇다고 해서 키아 오라 응아티와이가 서비스를 제공하는 지역사회에 대한 의료 제공을 통제할 수 있는 권한이 있다는 의미로 해석되지는 않는다. 모든 마오리족 의료 제공자와 마찬가지로 자금 조달 메커니즘, 계약 보고 요건 및 성공 척도는 마오리족이 아닌 세계를 반영하는 구조와 시스템에 의해 결정되고 이에 따라 정의됩니다. 이러한 환경은 마오리족 의료 서비스 제공자들을 더욱 구별 짓는 요소이며, 자결권을 위한 지속적인 정치적 투쟁이 바로 제가 일하는 세계입니다.
‘Once I described my epiphany to someone who was heavily involved with the health of her community. She snorted when I started to expound on my conceptualisation of wellness (ora) and [said] in not so many words, that for Māori ora is not individual wellness but is instead the wellness arising from collectivism.… While community governance and ownership are defining features of Ki A Ora Ngātiwai this does not translate into having control over the delivery of health care into the communities that Ki A Ora Ngātiwai services. Like all Māori health providers the funding mechanisms, contract reporting requirements and measures of success are dictated by, and defined by, structures and systems that reflect a non-Māori world. It is this environment that further distinguishes Māori health providers — the ongoing political struggle for self-determination — and it is in this world that I work.’

이 사례는 마오리족 의료 종사자들이 현재 시스템 내에서 최선을 다하면서 변화를 옹호해야 하는 어려움이 있음을 반영합니다. '새로운 세상을 설계하면서 반창고를 붙이는 동시에 동의하지 않는 사람들과 싸우고 있습니다.'38
This example reflects that the challenge for Māori health practitioners is that they are advocating for change while having to do their best within the current system. ‘You are putting on the band aid on while designing the new world and all the while fighting those who do not agree with you.’38

이 사례 연구는 사회 문화가 조직에 미치는 영향과 의료 서비스 제공 방식을 보여줍니다. 또한 지배적인 문화가 어떻게 불평등을 지속시킬 수 있는지도 보여줍니다. 또한 이러한 영향이 개인 수준에서 어떻게 나타날 수 있는지, 한 문화권의 의료진이 자신의 가치와 신념을 조직의 가치와 신념과 조화시키는 데 어려움을 겪을 수 있음을 보여줍니다. 또한 조직 문화에 맞추기 위해 항상 개인이 변화해야 하는 것은 아니며, 오히려 개인이 더 넓은 범위의 시스템적 변화를 옹호할 수 있음을 보여줍니다.
This case study illustrates the impact of society culture on an organisation and how health services are provided. It also illustrates how a dominant culture can perpetuate inequities. Furthermore, it shows how these effects can be manifest at the individual level where a practitioner from one culture may find it hard to reconcile their values and beliefs with those of the organisation. It further illustrates that it should not always be the individual who has to change to fit within the organisation's culture—rather individuals can advocate for wider systemic changes.

7 문화 드러내기
7 REVEALING CULTURE

문화의 이러한 영향을 더 잘 이해하려면 어떻게 인식해야 할까요? 문화는 그 문화에 몰입한 사람에게는 보이지 않는 경우가 많지만 규범과 가치에 주목하면 인식할 수 있습니다. 이러한 보이지 않는 규범을 발견하기 위한 몇 가지 질문은 다음과 같습니다.
If we are to understand better these effects of culture, how might we recognise them? Culture is often unseen by those immersed in it but can be recognised by noting norms and values. Some questions to uncover these unseen norms might be to ask

  • 우리는 서로의 관행을 관찰하고 있으며 이러한 관행은 어떻게 제정되었는가? 서로의 학습을 돕는 방식으로 간주되는가, 아니면 판단을 내리기 위한 것인가?
    Do we observe each other's practice and how is this enacted? Is it seen as a way of helping each learn or is it to make judgements?
  • 기관은 서로에게 어떻게 피드백을 제공하나요? 의료 서비스는 교육 기관에 어떻게 피드백하고, 교육 기관은 의료 서비스에 어떻게 피드백하나요? 피드백에 대한 응답으로 어떤 일이 일어나나요?
    How do institutions feedback to each other? How does the health service feed back to a training institution and how does a training institution feed back to a health service? What happens as a response to that feedback?
  • 오피니언 리더와 변화 옹호자들은 어떻게 인식하고 있으며 어떤 장벽과 조력자를 만나게 되나요?
    How are opinion leaders and change advocates perceived and what barriers and enablers do they encounter?
  • 직원들이 학습할 수 있는 시간을 어떻게 확보할 수 있을까요?
    How do we make time for our employees to learn?
  • 품질 개선을 위한 의견을 말하고 아이디어를 제안하는 것이 안전하다고 느끼나요? 누가 이런 일을 할 수 있는 권한을 가지고 있나요?
    Do we feel safe to speak up and offer ideas for quality improvement? Who has the power to do this?
  • 직원들이 만나는 중요한 시간과 장소는 어디이며 회의에서 논의되는 내용은 무엇인가요?
    What are the critical times and places that staff meet and what is discussed at those meetings?
  • 연습의 어떤 측면에 엄격한 프로토콜이 있으며 '여기서 하는 방식'으로 간주되는가?
    What aspects of practice have strict protocols and are seen as ‘how we do things here’?
  • 학습자가 하지 말아야 하는 활동에는 어떤 것이 있나요?
    What activities are learners discouraged from?
  • 여기서 배우기 쉬운 것은 무엇이고 어려운 것은 무엇인가요?
    What is easy to learn here and what is more difficult?
  • 전문가 간 견해가 의사 결정에 어떻게 통합되나요?
    How are interprofessional views integrated into decisions?
  • 다른 조직에서 온 신입 연수생에게 문화가 어떻게 고통을 줄 수 있나요?
    How might culture cause distress to a new trainee from another organisation?
  • 수련의가 직장에서 '인상적'이 되게 하는 원동력은 무엇이며, 어떤 행동이 '인상적'으로 여겨지는가39?
    What drives students to ‘impress’ in the workplace and what behaviours are seen as ‘impressive’39?
  • 어떤 임상 환경이 다른 임상 환경보다 다양성을 더 지지하는 것으로 여겨지는 이유는 무엇인가요?
    Why are some clinical environments seen as more supportive of diversity than others?
  • 형평성 문제는 어떻게 해결됩니까?
    How are issues of equity addressed?
  • 사람들은 형평성이나 직원 복지와 관련된 문제를 발견했을 때 안전하게 말할 수 있다고 느끼나요?
    Do people feel safe to speak up when they see problems with equity or staff wellbeing?

8 앞으로 나아갈 길
8 THE WAY FORWARD

보건 기관과 협력하여 실습 학습 문화를 파악하는 것이 유익한 출발점이 될 수 있다고 생각합니다. 조직에서 가장 많이 사용하는 두 가지 평가는 참여도 설문조사문화 설문조사입니다.21, 24 문화 설문조사를 더 많이 활용하는 것이 앞으로 나아갈 수 있는 방법일 것입니다. 보건 전문가 교육에서는 학습자의 배치 경험을 파악하기 위해 설문조사를 실시하는 것이 일반적입니다. 조직은 직원의 역할, 책임, 업무량, 관리자 및 동료와의 관계, 의사소통 및 협력, 직무 스트레스 등 직원의 개인적인 업무 경험을 파악하기 위해 참여도 설문조사를 실시합니다. 이 두 가지 모두 배치에 대한 학습자 평가와 마찬가지로 '나'의 관점을 다룹니다. 이와는 대조적으로 문화 설문조사 응답은 사람들이 적응하기 위해 필요하다고 생각하는 행동과 규범의 관점에서 직원들이 현재 문화를 어떻게 인식하고 있는지를 알려줍니다. 문화 설문조사는 '우리'의 관점을 다룹니다. 예를 들어, 한국의 한 연구에 따르면 씨족 문화와 옹호 문화는 조직 학습과 매우 긍정적인 관계가 있는 반면, 시장 문화와 위계 문화는 그러한 관계가 없는 것으로 나타났습니다.40 이러한 설문조사의 결과는 해석의 여지가 있고 그 유용성에 의문이 제기될 수 있지만, 그에 따른 토론과 대화는 유익한 정보를 제공할 수 있습니다.
One place we believe it can be fruitful to start is to partner with health organisations to unpack the practice learning culture. Two of the most popular assessments that organisations use are engagement surveys and culture surveys.21, 24 Perhaps making more use of culture surveys is a way forward. In health professional education, it is common to survey learners to understand their experience of a placement. Organisations undertake engagement surveys to understand the employees' personal experience of work: how they feel about their roles, responsibilities, workload, relationships with managers and colleagues, communication and cooperation, and job stress. Both of these address the ‘I’ perspective much as learner evaluations of placements do. In contrast, culture surveys responses tell us how the workforce perceives the current culture in terms of the behaviours and norms that people believe are required to fit within. Cultural surveys address the ‘we’ perspective. For example, a Korean study found that clan and advocacy cultures had strong positive relationships with organisational learning, while market and hierarchy cultures showed no such relationships.40 While the results of such surveys may be open to interpretation and their usefulness challenged, the discussion and conversations that ensue could be informative.

의료 전문가 학습자가 처한 상황을 완전히 이해하려면 이론적 접근 방식과 연구 방법의 폭을 넓혀야 할 수도 있습니다. 지금까지 유익한 정보를 제공한 연구는 종종 민족지학과 직접 관찰을 사용했는데,11 이는 암묵적인 지식과 관행뿐만 아니라 우리가 자란 사회, 인종, 성별에서 비롯된 뿌리 깊은 신념 등 당연한 것으로 받아들여지고 보이지 않는 것을 발견하는 데 도움이 될 수 있기 때문입니다. 이는 우리의 직업 문화, 교육 문화, 우리가 몸담고 있는 조직의 교차점을 탐구하는 데 도움이 될 수 있습니다. 우리는 교육, 민족지학, 질 개선 및 실행 과학 간의 연구 시너지를 창출하기 위해 수련생, 수퍼바이저, 환자라는 삼위일체를 넘어선 공동 연구를 모색해야 합니다. 베어먼은 '학습 문화와 문화적 반성성에 관한 다른 문헌들은 대부분 간과되는 영역, 즉 사람들이 사회가 가하는 강력한 힘을 인식하면서 어떻게 문화에 효과적으로 영향을 미칠 수 있는지 탐구하는 데 도움이 될 수 있다'고 제안합니다.19
If we are to understand fully the situation in which we place health professional learners, we may also need to broaden our theoretical approach and with it our research methods. Research to date that has been informative has often used ethnography and direct observation,11 possibly as it assists in uncovering that which is accepted, unseen taken for granted, not just our tacit knowledge and practice but our deeply ingrained beliefs taken from the society in which we grew up, our race, gender. It can help explore the intersection of our professional culture, our educational culture and the organisations we practice in. We should explore collaborative research that extends beyond the triad of trainee, supervisor and patient to create research synergies among education, ethnography, quality improvement and implementation science. Bearman suggests that ‘Other literature on learning cultures and cultural reflexivity may help explore a territory which is mostly overlooked: how people can effectively influence a culture whilst recognising the strong forces exerted by the social’.19

9 결론
9 CONCLUSIONS

우리는 관점을 재구성하고 학습 환경의 '지저분함'을 포용해야 할 구성 요소로 볼 필요가 있다고 제안합니다. 안전하고 효과적인 환자 치료라는 우리 모두가 열망하는 목표를 달성하기 위해 보건 및 환자 단체와 협력할 수 있는 기회를 제공하는 요소입니다. 환자 치료는 사회에 대한 우리의 의무이며, 이 과학의 상태 시리즈에서 자아, 상황, 사회라는 삼위일체를 완성합니다.
We suggest we need to reframe our views and see the ‘messiness’ of the learning environment as a component to be embraced. A component that provides opportunities for partnering with health and patient organisations to achieve the goal we all aspire to – safe and effective patient care. Patient care is our obligation to society and completes the triad within this State of the Science series of self, situation and society.

또한, 우리는 이제 막 학습 환경의 의미를 파악하기 시작했을 뿐이라고 생각합니다. 

  • 학습 환경은 수행해야 할 작업 그 이상이며 연수생과 감독자 관계 그 이상입니다.
  • 학습 환경은 전문가 간, 제도적, 물리적, 문화적, 일상화되고 체계적인 것입니다.
  • 학습은 수련의가 배우고자 하는 내용, 감독 방법, 수행해야 하는 업무뿐만 아니라 물리적 환경, 다른 의료 전문가들의 상호작용과 행동, 치료를 안내하기 위해 마련된 시스템에 의해 형성됩니다.
  • 마지막으로, 학습은 우리가 서로에게서 배울 수 있는지 여부, 일과 학습의 우선순위, 지식을 '보유'하는 주체를 중요하게 여기는 문화적 규범의 영향을 받습니다.
  • 우리는 보는 것을 넓혀야 할 뿐만 아니라 그것을 보는 (연구) 방법과 함께 일하는 협력자를 넓혀야 합니다.

Furthermore, we suggest that we have only just begun to see what we mean by the learning environment.

  • It is more than the work that needs to be done and it is more than the trainee-supervisor relationship.
  • It is interprofessional, institutional, physical, cultural, routinised and systemic.
  • Learning is shaped not only by what we intend trainees to learn, how we supervise and the work that has to be done, but is shaped by the physical environment, the interactions and behaviours of other health professionals and the systems in place to guide care.
  • Finally, learning is influenced by the cultural norms that value (or not) whether we can learn from each other, how work and learning are prioritised, and who ‘holds’ knowledge.
  • Not only do we need to broaden what we see, but we should broaden the (research) methods by which we see it and the collaborators with whom we work.

 


Med Educ. 2022 Jan;56(1):110-116. doi: 10.1111/medu.14630. Epub 2021 Sep 2.

Widening how we see the impact of culture on learning, practice and identity development in clinical environments

Affiliations collapse

1Otago Medical School, University of Otago, Dunedin, New Zealand.

2Education Unit, University of Otago, Christchurch, Ringgold standard institution, Christchurch, New Zealand.

PMID: 34433232

DOI: 10.1111/medu.14630

Abstract

As part of this State of the Science series on Self, Society and Situation, we focus on how we might see the situation of the workplace as a learning environment in the future. Research to date into how health professionals learn while working in clinical workplace environments has mostly focused on the supervisor-trainee relationship or on the interaction between the affordances of a workplace and the receptiveness of trainees. However, the wider environment has not received as much focus-though frequently mentioned, it is seldom investigated. We suggest there is a need to embrace the wider institution factors, recognise and acknowledge an organisation's values and culture as they impact on clinical learning in order to work with these, not around them or ignore them, to make what may be tacit visible through reflection and observation and to embrace a range of perspectives on culture.

작은 코호트 OSCE에서 방어가능한 합격선 설정하기: 언제 경계선 회귀방법이 효과적인지 이해하기(Med Teach, 2020)
Setting defensible standards in small cohort OSCEs: Understanding better when borderline regression can ‘work’
Matt Homera , Richard Fullerb, Jennifer Hallama and Godfrey Pella

 

 

소개
Introduction

특히 고부담 성과 평가에서 합격선 설정은 항상 어려운 과제입니다(Cusimano 1996; Ben-David 2000; Cizek 2012). 경계선 회귀법(BRM)은 표준 설정에 대한 수험자 중심의 접근 방식으로, 스테이션(또는 사례)에서의 응시자 성과는 글로벌 등급에 따라 전체적으로 채점하거나 체크리스트 또는 도메인 기반 채점 도구를 사용하여 두 가지 방식으로 채점됩니다(Kramer 외. 2003; Pell 외. 2010; McKinley and Norcini 2014). BRM에서는 글로벌 성적에 대해 후자의 점수를 회귀하고, 경계선 성적에 해당하는 회귀 모델 예측 점수를 사용하여 시험장 수준 표준을 사후에 설정합니다. 그런 다음 시험 수준 표준은 스테이션 수준 컷 점수의 합계를 기반으로 하며, 표준 측정 오차 사용과 같은 추가적인 결합 수준 표준을 사용할 수 있습니다(Hays 외. 2008). 
Standard setting, particularly in high stakes performance assessments, is always challenging (Cusimano 1996; Ben-David 2000; Cizek 2012). The borderline regression method (BRM) is an examinee-centred approach to setting standards (Livingston and Zieky 1982), where candidate performance in stations (or cases) is scored in two different ways: holistically by a global grade, and also with a checklist or domain-based scoring instrument (Kramer et al. 2003; Pell et al. 2010; McKinley and Norcini 2014). Under BRM, the latter score is regressed on the global grade, and the station-level standard is set post hoc using the regression model predicted score corresponding to the borderline grade. The exam-level standard is then based on the aggregate of the station level cut-scores, with the option to employ additional conjunctive level standards such as the use of the standard error of measurement (Hays et al. 2008).

광범위한 맥락에서 BRM은 이제 일반적으로 방어 가능한 표준을 제공하는 것으로 인정받고 있으며, 많은 고위험 성과 평가 맥락에서 기본 접근 방식이 되었습니다(Boursicot 외. 2007; McKinley와 Norcini 2014). BRM은 경계선 그룹이 아닌 평가자와 응시자 간의 모든 상호작용을 사용하여 커트라인 점수를 설정함으로써 다른 경계선 방법과 비교하여 추가적인 이점을 제공합니다. 예를 들어, 스테이션을 두 가지 방식으로 채점한다는 것은 BRM 하에서 평가 품질에 대한 자세한 통찰력을 제공하는 다양한 스테이션 및 시험 수준의 추가 지표가 있다는 것을 의미합니다(Pell 외. 2010). 또한 이러한 지표를 통해 평가 개선을 위한 개입의 영향을 종단적으로 측정할 수 있습니다(풀러 외. 2013). 
Across a broad set of contexts, BRM is now generally acknowledged as providing defensible standards and has become the default approach in many high stakes performance assessment contexts (Boursicot et al. 2007; McKinley and Norcini 2014). By using all interactions between assessors and candidates to set the cut-score rather than just the borderline group, BRM brings additional benefits in comparison to other borderline methods. For example, having stations scored in two different ways mean that under BRM there are a range of additional station- and exam-level metrics which give detailed insight into assessment quality (Pell et al. 2010). These metrics also allow for the impact of interventions aimed at improving assessments to be measured longitudinally (Fuller et al. 2013).

BRM 문헌의 대부분은 상대적으로 '대규모' 코호트(즉, n > 50)를 대상으로 한 평가에서 생성되며, 후보자 그룹은 일반적으로 높은 성과를 보이는 집단(예: 의과대학의 한 학년 그룹 또는 대학원 지원자 코호트)입니다. BRM이 효과적으로 작동하려면 체크리스트 점수 및 글로벌 성적의 범위가 커트라인 점수를 비교적 안정적으로 추정할 수 있을 정도로 충분해야 하므로, 상대적으로 큰 표본 크기는 코호트 전체의 성과가 높더라도 BRM 적용을 뒷받침할 수 있는 후보자 능력의 충분한 확산을 보장하는 데 도움이 됩니다.
The majority of the BRM literature is generated from assessments with relatively ‘large’ cohorts (i.e. n > 50) where the candidate group is typically high-performing (i.e. a single year group at medical school, or a cohort of post-graduate candidates). For BRM to function effectively, the range of checklist marks and global grades should be sufficient to provide a comparatively stable estimate of the cut-score, and so relatively large sample sizes help to ensure sufficient spread in candidate ability to support the application of BRM, despite the cohort as a whole being high-performing.

BRM을 검증하는 대부분의 문헌에서는 리샘플링 접근법 또는 회귀 기반 공식을 통해 다양한 경험적 접근법을 사용하여 산출된 컷 점수의 오차를 추정했습니다. 이 오차를 추정하는 것은 일반적으로 특정 표준 설정 접근법과 관련된 타당도 증거의 중요한 구성 요소로 간주됩니다(미국 교육 연구 협회 2014, 108페이지). 증거에 따르면 다른 표준 설정 접근법에 비해 BRM은 적당한 후보 표본 크기(n > 50)에서 오차가 더 낮습니다. 리샘플링 기반 연구에서는 더 큰 코호트의 데이터를 사용하여 더 작은 표본(n <50)에 대한 컷 점수 오차를 추정하려고 시도했으며, 50명 미만의 후보 코호트 규모에서는 컷 점수의 추정 오차가 상당히 커지는 것으로 나타났습니다(Homer et al. 2016). 
Most of the literature validating BRM has used a range of empirical approaches to estimate the error in the cut-score it produces – either through resampling approaches (Muijtjens et al. 2003; Homer et al. 2016) or via regression-based formulae (Kramer et al. 2003; Wood et al. 2006; Hejri et al. 2013). Estimating this error is generally considered as an important constituent of validity evidence linked to a particular standard setting approach (American Educational Research Association 2014, p. 108). The evidence suggests that in comparison with other standard setting approaches, BRM has lower error at modest candidate sample sizes (n > 50). The resampling-based work has also attempted to use data from larger cohorts to extrapolate cut-score error for smaller samples (n < 50), and indicates that the estimated error in the cut-score becomes quite large at cohort sizes below 50 candidates (Homer et al. 2016).

이러한 표준 설정 문제에 직면한 소규모 코호트를 보유한 기관은 일반적으로 전문가 그룹에 의해 체크리스트 항목 또는 더 일반적으로는 스테이션 수준의 난이도를 선험적으로 판단하는 앙고프형 방법과 같은 시험 중심 접근 방식에 의존해 왔습니다(McKinley and Norcini 2014). 이러한 방법은 시간과 자원이 많이 소요될 수 있으며, '합격'을 개념화한 다음 복잡한 OSCE 스테이션 내에서 상호 의존적인(그리고 관찰되지 않는) 일련의 활동에 대한 합격 기준을 명확히 하는 것이 어렵기 때문에 그 자체로 특별히 신뢰할 수 없을 수 있습니다(Boulet et al. 2003). 시험 중심의 표준 설정 방법의 문제점을 탐구하는 대부분의 증거는 지식 테스트의 맥락에서 개발되었습니다(Clauser 외. 2009; Margolis 외. 2016). 응시자가 당일에 실제로 어떻게 수행하는지, 즉 '현실 점검'이 아니라, 단순히 스테이션 내용에 대한 지식만을 바탕으로 OSCE 스테이션에서 최소한의 역량을 반영하는 점수를 판단할 때 유사한 문제가 발생하지 않을 것이라고 상상하기는 어렵습니다. 이 특정 지점에 대한 문헌에는 모순된 증거가 있는 것으로 보이며, 일부에서는 앙고프 유형의 접근 방식이 BRM보다 성과가 낮다는 데 동의합니다(Schoonheim-Klein 외. 2009). 그러나 최근의 연구 결과에 대한 해석은 동일한 시험에서 주니어 레지던트와 시니어 레지던트에 대해 두 가지 표준을 설정하려는 시도로 인해 복잡해졌지만, 앙고프형 접근법이 OSCE에서 어느 정도 효과가 있다고 주장합니다(Dwyer 등. 2016). 이러한 새로운 증거에도 불구하고, 앙고프의 자원 집약적 특성과 다양한 고위험 평가 형식에 사용될 때 그 효과에 대한 의구심은 여전히 남아 있습니다. 
Faced with these standard setting challenges, institutions with small cohorts have generally relied on test-centred approaches such as Angoff-type methods where checklist item or more commonly, station-level difficulty is judged a priori by a group of experts (McKinley and Norcini 2014). These methods can be time-consuming and resource intensive, and may not be particularly reliable in themselves – the difficulty of conceptualising the ‘just passing’ candidate, and then articulating a passing standard for a series of interdependent (and unobserved) activities within a complex OSCE station can prove difficult in practice (Boulet et al. 2003). Most of the evidence exploring the problems with test-centred standard setting methods have been developed in the context of knowledge testing (Clauser et al. 2009; Margolis et al. 2016). It is difficult to imagine that judging what scores would reflect the minimally competent performance in an OSCE station based merely on knowledge of the station content, rather than how candidates actually perform on the day – the ‘reality check’ (Livingston and Zieky 1982), would not encounter similar problems. There appears to be contradictory evidence in the literature on this specific point with some agreeing that Angoff-type approached performs less well than BRM (Schoonheim-Klein et al. 2009). However, more recent work argues that Angoff-type approaches can work to an extent in OSCEs (Dwyer et al. 2016) although interpretation of the findings in this particular paper is complicated by an attempt in it to set two standards, for junior and senior residents, in the same examination. Despite this newer evidence, the resource intensive nature of Angoff, and the doubts about its efficacy when employed in a range of high stakes assessment formats, remain.

소규모 코호트에서 적절하고 방어 가능한 표준 설정의 어려움에 대한 조사
Investigating the challenge of appropriate, defensible standard setting in small cohorts

이 백서에서는 훈련된 임상 평가자가 있는 소규모 코호트에서 BRM이 방어 가능한 표준을 제공할 수 있는 조건에 관한 보다 맥락화된 증거 기반을 개발하기 위해 다양한 소규모 코호트 맥락에서 BRM의 사용을 조사합니다. 특히 소규모 코호트에서 표준 설정에 이 접근법을 사용할 때 발생하는 문제(및 그 유병률)를 더 잘 이해하는 데 관심이 있습니다. 연구실 수준의 품질을 측정하는 주요 지표로, 글로벌 등급과 체크리스트 점수 사이의 선형적 연관성의 강도를 측정하는 R-제곱을 사용합니다(Pell 외. 2010). 공식적으로 이는 두 점수 간의 공유 분산 비율을 정량화하며, 높은 값(예: 0.8)은 강한 연관성을 나타내며 BRM에 따른 점수 및 표준 설정의 유효성에 대한 증거를 제공하는 반면, 낮은 값(예: 0.4 또는 0.5 미만)은 스테이션에 잠재적으로 문제가 있음을 나타냅니다((Pell et al. 2010). 또한 점수의 확산 정도를 평가하기 위해 분산 그래프를 육안으로 검사하며, 방법 섹션에서 접근 방식에 대한 자세한 내용을 제공합니다. 
In this paper we investigate the use of BRM in a range of different small cohort contexts in order to develop a more contextualized evidence-base regarding the conditions under which BRM in small cohorts with trained clinical assessors might provide defensible standards. We are particularly interested in better understanding the issues (and their prevalence) that arise when using this approach to standard setting in small cohorts. As our main metric of station-level quality, we use R-squared, the measure of the strength of linear association between the global grade and the checklist-score (Pell et al. 2010). Formally, this quantifies the proportion of shared variance between the two scores, with high values (e.g. 0.8) indicating a strong association and providing some evidence of validity in the scoring and standard setting under BRM, whereas low values (e.g. less than 0.4 or 0.5) potentially signify problems in the station ((Pell et al. 2010). We also employ visual inspection of scatter graphs to assess the degree of spread in scores – we give more details of our approach in methods section.

이 논문은 시험장 수준에서의 표준 설정에 초점을 맞추고 있으며, 시험 수준에서의 결합 표준 사용과 관련된 더 광범위한 시험 문제(예: 통과된 최소 시험장 또는 측정 표준 오차)는 다루지 않습니다(Cizek and Bunch 2007, 2장; Hays et al. 2008). 소규모 코호트 성능 테스트에서 이러한 결합 표준을 사용하는 것은 별도의 조사가 필요합니다.
This paper focuses on standard setting at station level and does not explore wider examination issues related to the use of conjunctive standards at the test level (e.g. minimum stations passed or standard errors of measurement) (Cizek and Bunch 2007, chap. 2; Hays et al. 2008). The use of these conjunctive standards in small cohort performance testing merits separate investigation.

소규모 코호트를 사용한 평가 상황
Assessment contexts with small cohorts

우리는 상당히 다른 세 가지 고부담 평가 맥락에서 BRM의 사용을 조사합니다: 
We investigate the use of BRM in three quite different high stakes assessment contexts:

영국에서 의사를 개업하기 위해 전문의 등록을 원하는 국제 의대 졸업생을 대상으로 하는 OSCE 시험
The OSCE for international medical graduates seeking professional registration to practice medicine in the UK

이 시험은 영국의 일반 의학 위원회(GMC)에서 시행하며, PLAB - 전문 및 언어 평가 위원회 시험(General Medical Council 2019)이라고 하는 일련의 지식 및 수행 능력 테스트의 일부입니다. OSCE 구성요소(PLAB2)는 영국에서 수련받은 의사가 의과대학을 졸업하고 대학원 수련의 첫 번째 파운데이션 연도를 마친 후 2년차 진료 첫날에 볼 수 있는 임상 진료의 모든 측면을 다루도록 설계되었습니다.

  • 시험은 18개의 스테이션으로 구성되며, 임상적으로 훈련된 평가자가 수행 능력을 종합적으로 판단하여 4점 만점(0 = 불만족, 1 = 경계선, 2 = 만족, 3 = 양호)으로 각각 점수를 매깁니다.
  • 또한 응시자는 세 가지 영역(데이터 수집, 기술 및 평가 기술, 임상 관리 기술, 대인관계 기술)에서 점수를 받습니다.
  • 각 영역은 4점 척도로 채점되며, 이 점수는 12점 만점의 총점으로 합산됩니다. 

This examination is administered by the General Medical Council (GMC) in the UK and is part of a sequence of knowledge and performance testing referred to as PLAB – Professional and Linguistic Assessment Board test (General Medical Council 2019). The OSCE component (PLAB2) is designed to cover all aspects of clinical practice a UK-trained doctor might expect see during their first day of their second year of medical practice following graduation from medical school and completion of the first Foundation Year of postgraduate training.

  • The examination consists of 18 stations which are each scored by clinically trained assessors via a holistic judgement of the performance in a four-point global grade (0 = unsatisfactory, 1 = borderline, 2 = satisfactory, 3 = good).
  • Candidates are also scored in three separate domains (Data gathering, technical and assessment skills, Clinical management skills, and Interpersonal skills).
  • Each domain is scored on a 4-point scale and these are aggregated to a total station score out of 12.

각 PLAB2 시험은 오전과 오후로 나누어 진행되며, 일반적으로 각 시험장에 동일한 평가자가 배치되고, 30-35명의 응시자에 대한 모든 평가 결과를 합산하여 당일의 BRM 표준 설정에 반영합니다. 즉, 각 시험은 표준 설정 측면에서 서로 독립적으로 취급되며, 해당 날짜의 데이터만 BRM에 따른 커트라인 점수를 계산하는 데 사용됩니다. PLAB2에 응시하려면 응시자는 PLAB1 응용 지식 시험을 통과해야 합니다. PLAB2는 연간 100회 정도 시행되며이 백서에 사용된 스테이션 레벨 데이터는 2016년 9월부터 2018년 10월까지 198회 시행된 시험으로 구성되어 있습니다. PLAB2를 대량으로 시행하려면 기본적으로 표준 설정이 수험자 중심으로 이루어져야 하며(즉, 사후에), 2016년부터 BRM이 사용되었습니다.

Each PLAB2 administration consists of a morning and afternoon circuit, usually with the same assessors in each station, with all assessment outcomes for the 30-35 candidates combined for the BRM standard setting for the day – in other words, each administration is treated independently of any other in terms of standard-setting, and only data from the day in question is used to calculate cut-scores under BRM. In order to sit PLAB2, candidates have to pass the PLAB1 applied knowledge test. There are of the order of 100 administrations of PLAB2 per year, and the station level-data used in this paper consists of 198 test administrations over September 2016 to October 2018. The large volume of PLAB2 administrations essentially necessitates standard setting to be examinee-centred (i.e. post hoc), and BRM has been used since 2016.

이 연구의 PLAB2 스테이션은 총 264개의 스테이션 뱅크에서 추출되었으며, 198개의 관리 각각에 대해 적절한 청사진 프로세스를 수행하여 시험에서 각 18개의 스테이션 세트를 선택했습니다. 그 결과, 개별 스테이션의 사용 빈도는 데이터에서 1에서 48까지 다양하며, 해당 기간 동안 평균은 11입니다. 스테이션 수준 데이터는 컷 점수, R-제곱, 스테이션 삭제시 신뢰도 계수(스테이션을 제거한 전체 시험의 신뢰도), 스테이션 '쉬움'(즉, 각 관리의 스테이션 합격률)과 같은 다양한 스테이션 및 시험 수준 지표(Pell et al. 2010)로 구성됩니다. 또한 각 시험의 각 스테이션에 대한 전체 영역 점수 대비 글로벌 성적의 분산 그래프도 시각적으로 확인할 수 있습니다.
PLAB2 stations in this study were drawn from a bank of 264 stations in total, and an appropriate blueprinting process was carried out for each of the 198 administrations to select each set of 18 stations in the exam. As a consequence, the frequency of use of any individual station varies in the data, ranging from 1 to 48 with a median of 11 over the period. Station-level data consists of a range of station and test-level metrics (Pell et al. 2010) such as the cut-score, R-squared, reliability coefficient-station-deleted (reliability of the overall exam with station removed), and station ‘facility’ (i.e. station pass rate for each administration). In addition, scatter graphs of global grades versus total domain scores for each station in each administration are also available for visual inspection.

영국 의과대학 학부생들을 위한 순차적 OSCE의 두 번째 파트
The second part of a sequential OSCE for undergraduate medical students in a UK medical school

평가에 대한 보다 혁신적인 접근 방식의 일환으로, 시험에 대한 적응형 접근 방식이 개발되면서 평가가 두 부분으로 나누어 실시되는 순차적 시험 모델이 도입되었습니다. 모든 응시자를 대상으로 하는 초기 선별 OSCE와 취약한 응시자를 위한 추가 시퀀스는 적응형 시험 형식과 전반적으로 향상된 의사 결정을 모두 제공합니다(Pell 외. 2013; Homer 외. 2018). 이 연구의 일부는 약 300명의 학생으로 구성된 전체 코호트가 초기 선별 시퀀스를 치르고 20-50명의 학생이 두 번째 시퀀스 OSCE를 치르기 위해 소환되는 4학년과 5학년(예선) OSCE의 연구를 기반으로 합니다. 이 소규모 응시자 집단에 대한 합격/불합격 결정은 두 시퀀스(4학년과 5학년에서 각각 총 26개, 25개 스테이션)에서의 성적을 기준으로 이루어집니다. 
As part of more innovative approaches to assessment, the development of adaptive approaches to testing has seen the introduction of sequential testing models, where assessment is delivered in two parts. An initial screening OSCE for all candidates, with a further sequence for weaker candidates provide both an adaptive test format and overall enhanced decision-making (Pell et al. 2013; Homer et al. 2018). This part of the study draws on work from Year 4 and Year 5 (qualifying) OSCEs, where the full cohort of approximately 300 students take the initial screening sequence, with 20-50 students being recalled to sit the second sequence OSCE. Pass/fail decisions for this smaller cohort of candidates are made based on performance across both sequences (26 and 25 stations in total in Years 4 and 5, respectively).

임상 평가자는 주요 특징 체크리스트(Farmer and Page 2005)와 5점 척도(0 = 불합격, 1 = 경계선, 2 = 합격, 3 = 양호 합격, 4 = 우수 합격)를 사용하여 스테이션에 점수를 매깁니다. 6번의 시퀀스 2 관리(2017~2019년 포함)의 후보자 수준 데이터를 고려합니다. 시퀀스 2에서 사용하도록 선택된 스테이션은 이전 시퀀스 1 투여에서 사용되었으므로 전체 코호트에서 BRM을 만족스럽게 사용하여 생성된 기존 합격 점수가 있는 스테이션입니다(즉, R-제곱과 같은 지표가 충분히 양호함).
Stations are scored by clinical assessors using key features checklist (Farmer and Page 2005) and a global grade on a five-point scale – 0 = fail, 1 = borderline, 2 = pass, 3 = good pass, 4 = excellent pass. We consider candidate-level data from six sequence 2 administrations (2017–2019 inclusive). Stations selected for use in sequence 2 are those that have been used in a previous sequence 1 administration, and so have pre-existing passing scores generated from the satisfactory use of BRM in the full cohort (i.e. with sufficiently good metrics such as R-squared).

어떤 이유로든 새 시행의 BRM 표준에 문제가 있는 경우 BRM 또는 이전 합격 점수로 대체하여 표준 설정이 수행됩니다. 우리 연구의 일부는 이러한 대체가 얼마나 자주 필요한지 정량화하는 것입니다.

  • 첫 번째 시퀀스의 경우 사후 분석을 통해 평가자 불균형 측정을 포함한 정교한 범위의 시험 및 시험장 수준 메트릭을 제공합니다(Pell 외. 2010, 2015).
  • 그러나 두 번째 시퀀스의 경우, 상대적으로 작은 응시자 하위 그룹의 비정형적인 특성을 고려할 때 이러한 분석은 필연적으로 제한적입니다.

이 2차 시퀀스 분석에서는 체크리스트 점수 및 관련 지표(예: R-제곱)에 대한 성적의 분산 그래프에 중점을 둡니다. 
Standard setting is undertaken by BRM or substitution with previous pass marks if there is a concern, for any reason, with the BRM standards in the new administration. Part of our research is to quantify how often this substitution might prove necessary.

  • For the first sequence, post-hoc analysis provides a sophisticated range of test- and station level metrics, including measures of assessor disparity (Pell et al. 2010, 2015).
  • However, for the second sequence, such analysis is necessarily limited, given the atypical nature of this relatively small sub-group of candidates.

The focus in this sequence 2 analysis is on scatter graphs of grades versus checklist scores and associated metrics (e.g. R-squared).

영국 의과대학의 의사 보조원을 위한 OSCE
OSCEs for physician associates in a UK medical school

의사 보조원(PA, 미국에서는 '의사 보조원')은 영국에서 비교적 최근에 등장한 의료 전문가입니다. 교육 프로그램은 일반적으로 2년제 대학 석사 수준의 자격을 제공하는 대학원 입학 프로그램으로 구성되며, 그 후 신입 PA는 정식 자격을 갖춘 의사와 함께 팀의 일원으로 실습을 하게 됩니다(Health Education England 2015). 리즈 대학교 PA 프로그램은 연말에 실시되는 고난도 OSCE를 포함하여 다양한 지식, 성과 및 전문성 평가를 통해 평가됩니다. 일반적으로 20~30명의 학생으로 구성된 코호트는 임상 평가자가 5점 만점 글로벌 등급과 주요 기능 체크리스트(상황 2에서와 같이)를 통해 스테이션을 채점하는 '전통적인 단일 시험 OSCE'를 사용하여 평가됩니다.  
A physician associate (PA, ‘physician assistant’ in the US) is a relatively new healthcare professional in the UK. The training programme typically consists of a graduate entry programme which provides a two-year university Masters-level qualification, following which new PAs practice as part of a team alongside fully qualified doctors (Health Education England 2015). The University of Leeds PA programme is assessed through a range of knowledge, performance and professional assessments, including end of year high stakes OSCEs. A cohort of typically 20–30 students are assessed using a ‘traditional single test OSCE’, where stations are scored by clinical assessors via a five-point global grade, and key features checklist (as in context 2).

이 연구에서는 4개 시험(2018년과 2019년의 Y1 및 Y2)의 PA 후보자 수준 데이터를 사용합니다. 표준은 일반적으로 시험장 수준에서 수정된 Angoff 방법을 사용하여 설정되며(McKinley and Norcini 2014), 본 연구의 일부는 BRM이 이러한 시험에서 표준 설정의 대체 또는 최소한 기본 접근법으로 사용될 수 있는 범위를 탐색합니다. 결과적으로 앙고프 표준 설정의 적용으로 인해 제한된 범위의 사후 분석 품질 데이터(예: 스테이션 수준 시설, R-제곱, 분산 그래프 검사)를 사용할 수 있습니다. 
In this study, we use PA candidate-level data from four administrations (Y1 and Y2 in 2018 and 2019). Standards are usually set using a modified Angoff method at the station level (McKinley and Norcini 2014), and part of our research explores the extent to which BRM can be used as a replacement or, at least, as the default approach to standard setting in these exams. Consequent to the application of Angoff standard setting, a limited range of post hoc analysis quality data is available (e.g. station level facility, R-squared, scatter graph inspection).

방법
Methods

세 가지 후보 상황 모두에서 공통적으로 사용되는 방법
Common methods across all three candidate contexts

위에서 설명한 대로 다양한 스테이션 수준 데이터를 사용하여 스테이션 및 테스트 수준 메트릭을 조사하고 스테이션의 글로벌 등급과 총 주요 기능/도메인 점수 간의 관계를 조사합니다(Pell 외. 2010). R-제곱 값이 '낮은'(예: 0.4 미만) 스테이션의 경우(Pell 외. 2010), 각 스테이션 내에서 등급과 점수가 충분한 변동을 보이는 정도도 평가합니다. 전반적인 접근 방식은 체크리스트/영역 점수와 글로벌 등급 간의 충분히 만족스러운 양의 관계와 각 스테이션 내 등급/점수의 적절한 분포를 기반으로 스테이션 수준에서 BRM이 '작동'하고 있다는 증거가 있는지 평가하는 것입니다. 
Using a range of station-level data as detailed above, we investigate station- and test-level metrics and examine the relationship between global grades and total key feature/domain scores in stations (Pell et al. 2010). For stations with ‘low’ R-Squared value (e.g. below 0.4) (Pell et al. 2010), we also assess the extent to which grades and scores show sufficient variation within each station. Our overall approach is to assess whether there is evidence that BRM is ‘working’ at the station level – based on a sufficiently satisfactory positive relationship between checklist/domain scores and global grades, and an adequate spread of grades/scores within each station.

PLAB2 시험에 특정한 방법
Methods specific to PLAB2 exams

PLAB2 데이터의 경우, 위에서 설명한 일반적인 분석 외에도 시험장 수준(n = 3645)에서 간단한 기술 및 상관 분석 방법을 사용하여 컷 점수, 시설(합격률) 및 R-제곱 값 간의 관계를 조사하고 여러 행정부에 걸쳐 동일한 시험장에서 컷 점수가 달라지는 정도를 측정합니다. 
For the PLAB2 data, in addition to the common analyses outlined above, we also use simple descriptive and correlational methods at the station level (n = 3645) to probe the relationships between cut-scores, facility (pass rate) and R-squared values, and to measure the extent to which cut scores vary for the same station across multiple administrations.

순차적 시험에 특화된 방법
Methods specific to sequential exams

순차적 시험의 경우, BRM에서 설정한 표준을 이전 시험의 주요 코호트에서 생성된 표준과 비교하여 상당히 다른 학생 코호트에서 표준의 일관성을 평가합니다. 이 논문에서 고려한 다른 두 가지 상황과 달리, 2차 시험에 응시한 학생들은 1차 시험에서 충분히 우수한 성적을 거두지 못했기 때문에 이것만으로는 '합격'할 수 없다는 점에서 전체 코호트를 대표하지 않는다는 점에서 '극단적인 하위 집단'이라고 정의할 수 있습니다. 이는 전통적인 '재시험 OSCE'와 같이 시험장 및 시험 품질을 보장하는 데 사용되는 일반적인 측정 항목의 적절한 해석에 영향을 미칩니다(Pell 외. 2010). 점수의 범위가 제한적이어서 점수 간 상관관계가 낮을 가능성이 높고(Bland and Altman 2011), 전체 코호트에서 사용할 때보다 스테이션 실패율이 높을 것으로 예상되기 때문에 일반적인 신뢰도 측정은 일반적으로 적절하지 않습니다. 
For the sequential context, we also compare the BRM-set standards with those generated from main cohorts in a previous administration in order to assess the consistency of the standards across these quite different cohorts of students. In contrast to the other two contexts considered in this paper, the students sitting the sequence two examinations are by definition an ‘extreme sub-group’ in the sense that they are not representative of the full cohort, having failed to perform sufficiently strongly in the first sequence to ‘pass’ based on this alone. This has implications for the appropriate interpretation of the usual range of metrics used for assuring station and exam quality, akin to a traditional ‘resit OSCE’ (Pell et al. 2010). Typical measures of reliability are not usually appropriate as scores are likely to have a limited range which lowers correlation between scores (Bland and Altman 2011), and station failure rates will be expected to be high compared to when used in the full cohort.

PA 시험에 특화된 방법
Methods specific to the PA exams

PA 시험의 경우, 현재 실제 표준을 제공하기 위해 사용되는 수정된 앙고프 접근법의 표준과 스테이션 수준 및 전체 BRM 표준도 비교합니다. 이러한 비교 작업을 통해 BRM이 설정한 표준에 대한 추가적인 타당성 증거를 제공할 수 있습니다. 다른 두 가지 컨텍스트인 PLAB2와 Sequential의 경우, 앙고프 판단을 사용할 수 없으므로 이러한 추가 분석이 불가능합니다. 또한 재샘플링 접근법을 사용하여 각 시험에서 전체 합격 점수의 표준 오차를 계산합니다(Homer et al. 2016).  
For the PA exam, we also compare station-level and overall BRM standards with those from the modified Angoff approach that is currently employed to provide the actual standard. This comparative work allows for the possibility of providing additional validity evidence for the BRM-set standards. Note that for the other two contexts, PLAB2 and Sequential, Angoff judgements are not available so this additional analysis is not possible. We also calculate the standard error of the overall pass mark in each exam using a resampling approach (Homer et al. 2016).

결과
Results

각 상황을 차례로 살펴보고 각 상황에서 수행한 주요 분석을 요약하여 BRM이 방어 가능한 표준을 제공하고 있다는 증거를 평가합니다. 먼저 시험의 전반적인 신뢰도를 살펴본 다음 BRM별 분석으로 넘어갑니다. 
We take each context in turn and summarise the key analyses we have carried out in each to assess the evidence that BRM is providing defensible standards. We first give the overall reliability of the exams and then move on to the BRM-specific analysis.

PLAB2 시험
PLAB2 exams

크론바흐 알파로 측정한 198개 18개 스테이션 시험의 신뢰도는 198개 알파 값 분포의 5번째, 50번째, 95번째 백분위수가 각각 0.64, 0.79, 0.87로 전반적으로 양호한 수준입니다. 
The reliability of these 198 18-station examinations, as measured by Cronbach’s alpha, is generally good with the 5th, 50th and 95th percentiles of the distribution of 198 alpha values being 0.64, 0.79, and 0.87, respectively.

글로벌 성적과 도메인 점수 간의 관계의 강도(R-제곱)
The strength of the relationship between global grades and domain scores (R-squared)

주요 분석을 위해 먼저 198개 시행의 R-제곱 값의 분포를 살펴봅니다. 분석 대상인 3,564개 시행의 평균 R-제곱 값은 0.75입니다(표준 편차 0.12, 5, 50 및 95번째 백분위수 = 각각 0.51, 0.77, 0.89). 이 데이터는 대부분의 시험장에서 글로벌 성적과 도메인 점수 간의 관계 강도가 매우 우수하다는 것을 나타내며, 이는 BRM이 일반적으로 이 시험에 대해 방어 가능한 표준을 제공하고 있음을 시사합니다(Pell 외. 2010). 
For our main analysis, we first look at the distribution of R-squared values across the 198 administrations. Across the 3,564 stations in the analysis, the mean value of R-squared is 0.75 (standard deviation 0.12; 5th, 50th and 95th percentiles = 0.51, 0.77, 0.89, respectively). This data indicates that in the vast majority of these stations the strength of the relationship between global grades and domain scores is very good – in turn suggesting that BRM is generally providing defensible standards for this examination (Pell et al. 2010).

R-제곱 값이 상대적으로 낮은 경우, 이는 도메인 점수가 서로 다른 글로벌 등급 간에 변별력이 크지 않다는 것을 의미합니다(Pell et al. 2010). 전체 데이터 세트에서 가장 극단적인 예(R-제곱 = 0.10)는 그림 1에 나와 있습니다(환자가 비뇨기 질환을 호소하는 스테이션):
Where the value of R-squared is relatively low, this implies that the domain scores are not discriminating strongly between different global grades (Pell et al. 2010). The most extreme example in the whole data set (R-squared = 0.10) is shown in Figure 1 (a station where a patient presents with a urinary problem):

이 스테이션의 단일 시험에 대한 이 스테이션 수준 도표는 글로벌 성적과 도메인 '점수' 간의 상관 관계를 강조합니다. 플롯의 각 '점'은 개별 평가자-응시자 관찰을 나타내며, 더 큰 '점'은 동일한 관찰/점수가 많음을 반영합니다. 그림 1에서는 대부분의 응시자가 전체 성적과 영역 점수 모두에서 상당히 높은 점수를 받고 있으며, 이 두 가지 측정치 모두에서 변별력이 상대적으로 부족합니다. 
This station level plot of a single administration of this station highlights the degree of correlation between a global grade and domain ‘score’. Each ‘dot’ on the plot represents an individual assessor-candidate observation, with bigger ‘dots’ reflecting a number of identical observation/scores. In Figure 1, there is a relative lack of discrimination in scores – most candidates are scoring quite highly in both global grades and domain scores, and there is a lack of spread in both of these measures.

이 중요한 지표의 값이 이처럼 낮다면, 표준 세트의 방어 가능성에 어떤 영향을 미칠까요? 일반적으로 전체 PLAB2 데이터 세트에서 스테이션의 R-제곱 값과 해당 스테이션 수준의 컷 점수 사이에는 약한 음의 상관관계가 있는 것으로 나타났습니다(r = -0.13, n = 3564, p < .001). 이는 R-제곱 값이 낮을수록 일반적으로 약간 높은 컷 점수와 연관되어 잠재적으로 더 높은 실패율을 초래할 수 있음을 시사합니다. 
For such poor values of this important metric, the key question is what the impact is on the defensibility of the standard set? In general, across the full PLAB2 dataset, we find there is a weak negative correlation between R-squared values in stations and corresponding station-level cut-scores (r = −0.13, n = 3564, p < .001). This suggests that low values of R-squared are typically associated with slightly higher cut-scores, potentially leading to higher failure rates.

비뇨기 스테이션(그림 1에 표시된 단일 투여)은 해당 기간 동안 22회 시행되었습니다. 흥미롭게도, 이들 시행의 R-제곱 중앙값은 0.70으로 이 스테이션에서 낮은 R-제곱이 일반적이지 않다는 것을 매우 강력하게 시사하며, 따라서 스테이션 설계의 근본적인 문제라기보다는 개별 평가자 문제이거나 이 특정 관리의 스테이션에서 점수가 분산되지 않은 문제일 가능성이 높습니다. 이 22개 행정 구역의 컷 점수는 표준 편차가 0.86점(척도의 7.2%에 해당)으로 약간의 편차를 보였으며, 그림 1에 표시된 것처럼 R-제곱 값이 가장 낮은 컷 점수가 이 스테이션의 모든 시행에서 가장 높은 컷 점수를 생성합니다. 그러나 데이터 세트 전체에서 R-제곱 값이 낮은 스테이션의 비율은 5% 정도로 낮다는 점을 강조합니다.
The urinary station (single administration shown in Figure 1) has been administered 22 times over the period concerned. Interestingly, the median R-squared across these administrations is 0.70 which very strongly suggests that the low R-squared is not typical for this station, and therefore is likely to be either an individual assessor issue, and/or a problem with lack of spread in the scores in the station in this particular administration, rather than an underlying problem with the station design. The cut-scores across these 22 administrations show some variation, with a standard deviation of 0.86 domain marks (equivalent to 7.2% of the scale) – and the cut-score with the lowest R-squared value (as shown in Figure 1) produces the highest cut-score across all administrations of this station. However, we emphasize that the prevalence of stations with poor R-squared values across the data set as a whole is low (e.g. 5%).

스테이션 수준 통과율
Station level pass rates

스테이션 수준에서의 통과율은 3564개 스테이션 시행의 중앙값이 74%입니다. 이는 일반적으로 상당수의 응시자가 스테이션에서 상대적으로 낮은 점수를 받고 있으며, 대부분의 코호트 내에서 능력의 범위가 상당히 넓다는 것을 나타냅니다. 즉, 각 코호트 내에는 잘하는 응시자 외에도 낮은 점수를 받는 응시자가 상당수 존재한다는 뜻입니다. 이러한 상황에서 BRM을 성공적으로 적용하기 위한 핵심 요건은 스테이션 내 후보자 성과 범위이며, 이 문제는 논의에서 다시 다룰 것입니다.
The pass rate at the station level has a median value of 74% across the 3564 station administrations. This indicates that typically a significant proportion of candidates are scoring relatively poorly in stations, and that there is a reasonably wide range of abilities within most cohorts – in other words, a significant number of candidates with each cohort are receiving low scores in addition to a number of candidates doing well. This range of candidate performances within stations is a key requirement for the successful application of BRM in these contexts, an issue we will return to in the Discussion.

스테이션 내 기준의 변화
Variation in the standard within stations

전체 데이터 세트에서 각 스테이션별 컷 점수의 변동은 (중앙값) 표준 편차가 5.6%로, 일반적으로 BRM에서 설정한 컷 점수가 여러 스테이션에 걸쳐 대체로 안정적이라는 것을 시사합니다. 
The variation in cut-scores for each station across the full dataset has a (median) standard deviation of 5.6% which suggests that generally the cut-scores set by BRM are broadly stable across administrations.

시퀀스 2 시험
Sequence 2 exams

이 하위 그룹은 정의상 전체 코호트보다 약하기 때문에 시퀀스 2에 대한 신뢰도 수치를 따로 계산하는 것은 적절하지 않습니다. 대신, 의사 결정 이론을 사용하여 시퀀스 1 점수만을 기반으로 전체 신뢰도를 추정합니다. (Pell 외. 2013). 이러한 맥락에서 전체 시퀀스에 대한 오메가-총계(Revelle and Zinbarg 2009)는 연구된 6개의 검사 각각에 대해 0.80(또는 그 이상)입니다.
It is not appropriate to calculate reliability figures for Sequence 2 in isolation as this sub-group, is by definition, weaker than the full cohort. Instead, we use decision theory to estimate overall reliability based on Sequence 1 scores alone. (Pell et al. 2013). In this context, omega-total (Revelle and Zinbarg 2009) for the full sequence is of the order of 0.80 (or greater) for each of the six examinations studied.

2017년부터 2019년까지 6번의 순차적 시험에서 BRM 지표와 점수 분포가 충분히 만족스러운 것으로 판단되어 해당 커트라인 점수를 두 번째 시험의 표준 설정에 자신 있게 사용할 수 있는 시험장의 수를 표 1에 제시했습니다. 그렇지 않은 경우, 전체 코호트 시행에서 도출된 해당 스테이션의 이전 컷 점수와 만족스러운 BRM 지표가 사용되었습니다. 
Across the six sequential examinations from 2017–2019, Table 1 gives the number of stations where BRM metrics and spread of marks were judged sufficiently satisfactory for the corresponding cut scores to be used with confidence in the standard setting for the second part of the sequence. Where this was not the case, the previous cut-score for the station, derived from administration in a full cohort and with satisfactory BRM metrics, was used.

표 1에 요약된 분석에 따르면 BRM은 대부분의 시험장(86%)에서 표준 설정에 대해 실현 가능하고 방어 가능한 접근 방식을 제공합니다. 경계선 회귀가 적용되지 않는 좋은 예가 그림 2에 나와 있는 무릎 시험장(2018년 5학년, 22명의 응시자)입니다. 여기서 문제는 전체 성적의 분산이 부족하여(5개의 가능한 성적 중 2개만 사용됨) R-제곱이 낮고(=0.14), 결과적으로 이 시험의 BRM 합격 점수의 정확성에 대한 우려로 이어진다는 점입니다. 

The analysis summarized in Table 1 suggests that BRM provides a feasible, and defensible approach to standard setting in these exams for a large percentage of stations (86%). A good example of where borderline regression is not doing so is shown in Figure 2, a knee examination station (Year 5, 2018, 22 candidates). The problem here is lack of spread in the global grades (only two of five possible grades employed), which leads to a low R-squared (=0.14) and subsequently to concern about the accuracy of the BRM pass mark for this administration.

이 스테이션의 경우, 지표가 양호한 전체 코호트에서 이전에 이 스테이션을 사용한 BRM 컷 점수가 선호됩니다. 
For this station, the BRM cut-score from a previous use of this station in a full cohort with good metrics is preferred.

주요 코호트 표준과의 비교
Comparison with main cohort standards

다음으로 BRM 소규모 코호트 전체 표준(4년차 및 5년차에 각각 10개 또는 12개의 시퀀스 2 스테이션에 대해)을 이전 전체 코호트 데이터에서 생성된 표준과 비교합니다. 고려 중인 6개의 관리 중 4개의 관리에서 BRM이 소규모 코호트에서 약간 더 높은 표준을 생성하는 경향(5% 정도)이 있는 것으로 보입니다. 이 문제는 분명히 추가 연구의 가치가 있습니다. 
We next compare the BRM small cohort overall standard (for the 10 or 12 sequence 2 stations in Year 4 and Year 5, respectively) with that for the standard generated from previous full cohort data. In four out of the six administrations under consideration, there appears to be a tendency for BRM to produce a slightly higher standard in small cohorts (of the order of 5%). This issue is clearly worthy of additional research.

PA 시험
PA exams

2018년의 네 가지 PA 시험 각각에 대해 크론바흐 알파로 계산한 전체 시험 수준의 신뢰도는 각 경우에서 최소 0.80입니다. 
Overall test level reliability as calculated by Cronbach’s alpha for each of the four PA examinations from 2018 is at least 0.80 in each case.

표 2에는 분산 그래프와 R-제곱 값을 육안으로 확인한 결과, 각 시험에서 BRM 지표가 만족스러운 것으로 판정된 스테이션 수가 자세히 나와 있습니다. 대부분의 스테이션(88%)에서 데이터에 따르면 BRM 표준을 방어할 수 있는 것으로 나타났습니다
Table 2 details the number of stations in each examination where BRM metrics were judged satisfactory based on visual inspection of scatter graphs and values of R-squared. We see that in the majority of stations (88%) the data suggest that BRM standards are defensible.

컷 점수의 표준 오차
Standard error of the cut-score

PA 시험에 대한 전체 BRM 합격 점수의 표준 오차는 재샘플링 방법을 사용하여 추정되었으며, 네 번의 시험에서 각각 1% 정도입니다. 이 값은 문헌에서 발견된 주요 시험에서 추정된 값(≈1.4%)보다 낮다는 점에서 허용 가능한 것으로 간주됩니다(Muijtjens 외. 2003; Homer 외. 2016). 
The standard errors of the overall BRM pass mark for the PA exams is estimated using resampling methods, and are of the order of 1% across each of the four examinations. These values are considered acceptable, in that they are lower than extrapolated values from main exams found in the literature (≈1.4%) (Muijtjens et al. 2003; Homer et al. 2016).

앙고프 판정과의 비교
Comparison with Angoff judgements

기존 관행의 일환으로, PA OSCE 팀은 각 스테이션에 대해 스테이션을 통과할 수 있는 최소한의 유능한 PA 후보자의 예상 비율을 기준으로 각 스테이션에 대한 앙고프형 판정을 내립니다. 이 접근 방식을 BRM에서 파생된 표준과 비교하는 데는 분명한 관심이 있습니다. 그림 3은 2018년 1차 시험의 산포 그래프로, BRM 기준(가로)과 앙고프 기준(세로)을 비교하여 총 스테이션 점수의 백분율로 계산한 것입니다. 파란색(점선)은 가장 잘 맞는 선(r = 0.68, n = 16, p = .004)이고 주황색(굵은선)은 y = x입니다(즉, 각 표준 설정 방법의 컷 점수가 각 스테이션에서 동일하다면 모두 이 선에 있을 것임): 

As part of established practice, the PA OSCE team produces an Angoff-type judgement of each station in terms of the expected proportion of minimally competent PA candidates who would pass the station. There is obvious interest in comparing this approach with a BRM derived standard. Figure 3 gives a scatter graph for the 2018 Year 1 examination comparing BRM standards (horizontally) with those from the Angoff (vertically) – both calculated as the percentage of the total station score. The blue (dashed) line is the line of best fit (r = 0.68, n = 16, p = .004), the orange (bold) line is y = x (i.e. if cut-scores for each standard setting method were the same in each station they would all be on this line):

그림 3은 2018년 1차 PA 시험에서 난이도가 높은 시험장(그래프의 왼쪽 하단)의 경우 Angoff가 BRM(굵은 선 위의 점)에 비해 더 높은 커트 점수를 부여하는 경향이 있고, 쉬운 시험장(오른쪽 상단)의 경우 더 낮은 커트 점수를 부여하는 경향이 있음을 보여줍니다(굵은 선 아래의 점). 이러한 차이로 인해 Angoff는 전체 커트라인 점수가 69% 대 66%로 더 높았으며, 이는 모든 스테이션에서 Angoff가 설정한 커트라인 점수에 해당하는 약 20명의 응시자 코호트에서 한 명의 추가 불합격이 발생한 것과 같습니다. 

Figure 3 shows that for more challenging stations (bottom left corner of graph), Angoff tends to give a higher cut-score compared to BRM (dots above the bold line) for the 2018 Year 1 PA exam, and for easier stations (top right) it tends to give a lower cut-score (dots below bold line). These differences result in Angoff giving a higher overall cut-score – 69 vs. 66% for BRM, and this corresponds to one additional failure for the cohort of approximately 20 candidates under an Angoff set cut-score across all stations.

스테이션 수준에서도 2018년 1차 PA 시험에서 앙고프에 따른 개별 스테이션 불합격이 더 많았습니다(78 대 52). 마지막으로, BRM은 합격 점수의 편차가 더 컸습니다. BRM은 스테이션 전체에서 39%의 더 넓은(수평) 범위의 커트라인을 가진 반면, 앵고프(수직) 범위는 19%에 불과했으며, 다른 PA 데이터에서도 비슷한 결과가 나타났습니다. 이러한 분석 결과를 합리적으로 해석하면 BRM은 보다 현실적인 범위의 컷 점수를 산출하는 반면, Angoff 점수는 보다 제한된 범위를 보여줍니다.
At the station level, there are also more individual station failures in the 2018 Year 1 PA exam under Angoff (78 vs. 52). Finally, BRM gives more variation in passing scores – BRM has a broader (horizontal) range of 39% in cut-scores across stations compared to a more constricted Angoff (vertical) range of 19% – with similar findings in the other PA data. A reasonable interpretation of these analyses suggest that BRM is producing a more realistic range of cut-scores, whereas Angoff scores show a more restricted range.

토론
Discussion

세 가지 서로 다른 다양한 소규모 코호트 OSCE 컨텍스트의 대규모 세트 스테이션에서 BRM은 대다수의 스테이션에서 효과적으로 작동하는 것으로 나타났습니다(각 컨텍스트에서 86% 이상). BRM이 만족스러운 스테이션 수준의 지표를 생성하는 경우, 우리는 이것이 높은 위험도 테스트 결과의 사용을 정당화하는 광범위한 유효성 논증에 중요한 증거를 제공한다고 주장합니다(Kane 2013). 
Across large set stations from three different and diverse small cohort OSCE contexts, BRM has been shown to function effectively in the vast majority of stations (over 86% in each context). Where BRM produces satisfactory station level metrics, we argue this contributes important evidence towards the wider validity argument in the justification of the use of high stakes test outcomes (Kane 2013).

표준 설정 방법으로서 BRM의 효과에 대한 기존의 가정은 긍정적으로 왜곡된 집단(Pell 외. 2010; McKinley와 Norcini 2014), 즉 대다수의 학생이 '유능-우수' 능력 범위에 속하는 대규모 응시자 코호트의 고위험도 데이터를 통해 정보를 얻는 경향이 있었습니다. 세 가지 상황 각각에서 우리는 BRM이 대부분의 스테이션에서 방어 가능한 표준을 제공할 수 있다는 증거를 제공했습니다. 그렇지 않은 경우, 이는 일반적으로 글로벌 성적과 체크리스트/도메인 점수 간의 관계가 좋지 않아 BRM 표준에 의문을 제기하기 때문입니다(Pell 외. 2010). 이 문제는 후보 점수가 충분히 분산되지 않아서 발생하는 경우가 많으며(예: 그림 1), 소규모 코호트의 경우 대규모 코호트에 비해 '제한된 범위'의 점수가 나올 위험이 분명히 더 큽니다. 이러한 가설에도 불구하고, 세 가지 상황 모두에서 이러한 위험의 유병률은 특별히 높지 않았으며, 이는 아마도 우수한 OSCE 시험장(및 채점) 설계와 응시자의 관찰된 성과에 대한 평가자의 글로벌 판단 능력(및 이에 대한 지원)의 상호작용을 반영하는 것일 수 있습니다.
Existing assumptions about the effectiveness of BRM as a standard setting method have tended to be informed by high stakes data from larger cohorts of candidates from a positively skewed population (Pell et al. 2010; McKinley and Norcini 2014) – namely, where the vast majority of students occupy a ‘competent-excellent’ range of ability. In each of our three contexts, we have provided evidence that BRM can deliver defensible standards in the majority of stations. Where this is not the case, this is usually because of a poor relationship between global grades and checklist/domain scores that brings into question the BRM standard (Pell et al. 2010). This problem is often brought about by a lack of sufficient spread in candidate scores (e.g. Figure 1), and for small cohorts, the risk of a ‘restricted range’ of scoring is obviously more likely compared to larger cohorts. Despite this hypothesis, the prevalence of this was not particularly high across any of the three contexts, perhaps reflecting the interplay of good OSCE station (and scoring) design and the ability of (and support for) assessors global judgments about observed performance of candidates.

이 시험은 상대적으로 높은 불합격률(일반적으로 스테이션 수준에서 26%)로 인해 코호트 내에서 점수가 더 가변적이라는 것을 나타내며, 이는 기술적 관점에서 BRM이 효과적으로 작동할 가능성이 더 높은 특성입니다(Draper and Smith 1998, 3장). 순차적 맥락에서 실패율은 일반적으로 더 낮으며(역의 실패율 중앙값은 18% 정도), PA 검사의 경우 이보다 더 낮습니다(≈12%). 우리의 분석은 실제로 이 가설을 부분적으로 확인시켜 주었으며, PLAB2 스테이션의 일부(≈5%)만이 BRM 적용에 문제가 있는 반면, 다른 두 컨텍스트에서는 BRM의 문제 유병률이 조금 더 높았습니다(시퀀스 2의 경우 14%, PA의 경우 12%). BRM에 따른 점수/등급(및 응시자 능력)의 확산 문제와 표준에 미치는 영향(및 이와 관련된 오류)은 더 많은 연구가 필요한 분야이지만, 우리의 연구에 따르면 BRM은 응시자 능력의 확산이 제한적인 일부 소규모 코호트 평가 형식 시험(예: 고도로 전문화된 대학원 시험)에는 여전히 적합하지 않을 수 있습니다. 
One might hypothesize that BRM standard setting should ‘work’ better in PLAB2 compared to the other contexts, since this exam has a relatively high failure rate (typically 26% at the station level) which indicates that scores are more variable within the cohort – a characteristic that, from a technical point of view, makes BRM more likely to function effectively (Draper and Smith 1998, chap. 3). The failure rates in the sequential context are generally lower (median failure rate in station of the order of 18%), and for the PA examinations are lower still (≈12%). Our analysis does indeed partially confirm this hypothesis, with only a small proportion (≈5%) of PLAB2 stations being problematic for the application of BRM, whereas the prevalence of issues with BRM is a little higher in the other two contexts (14% for sequence 2, and 12% for PA). The issue of spread of marks/grades (and candidate ability) and the impact on standards (and error associated with this) under BRM is an area that requires more research but our work might indicate that BRM remains unsuited to some small cohort assessment formats testing where there is a limited spread of candidate ability (e.g. highly specialized postgraduate examinations).

평가자 엄격성 및 평가 설계
Assessor stringency and assessment design

세 가지 상황과 대규모 코호트 시험의 중요한 차이점 중 하나는 전자의 경우 병렬 회로가 없다는 것입니다(Harden 외. 2015, 6장). 즉, 세 가지 상황에서는 각 스테이션에 해당하는 평가자가 (보통) 한 명인 반면, 대규모 의과대학의 경우 병렬 회로가 20개 이상일 수 있으므로 각 스테이션은 많은 수의 개별 평가자가 평가하게 됩니다. 어떤 의미에서는 한 명의 평가자가 모든 응시자를 시험 전반에 걸쳐 동일한 평가자가 관찰하기 때문에 스테이션 채점에 일관성을 가져올 가능성이 더 높습니다. 반면, 소규모 코호트에서는 단일 평가자가 스테이션과 혼동될 수 있으며 스테이션 수준에서 평가자의 엄격성을 직접 비교할 수 있는 쉬운 방법이 없습니다(Pell 외. 2010; Yeates 외. 2019). 또한, 여러 서킷에 걸쳐 여러 평가자가 아닌 스테이션당 한 명의 평가자가 존재할 경우 동일한 스테이션을 모두 심사하는 동료 그룹에 비해 보정이 부족할 수 있습니다. 이 문제와 관련하여 Crossley 외(2019)의 최근 연구에서는 평가자가 변화에 대한 개방성과 개인적 판단에 대한 충실성 사이에서 균형을 잡는 '경계된 호기심'(동료의 비교 판단), 정서적 편향, '적당한 보수주의'의 복잡한 균형에 대해 설명합니다. 

One important difference between our three contexts and larger cohort exams is the lack of parallel circuits in the former (Harden et al. 2015, chap. 6). In other words, there is (usually) a single assessor corresponding to each station in our three contexts, whereas in a large undergraduate medical school, for example, there might be of the order of 20 or more parallel circuits, so that each station is assessed by a large number of individual assessors. In one sense, having a single assessor is more likely to bring consistency to the marking of the station since all candidates will be observed by the same set of assessors across the exam. On the other hand, in small cohorts, single assessors are confounded with stations and there is no easy way to directly compare assessor stringency at the station level (Pell et al. 2010; Yeates et al. 2019). The presence of a single assessor per station (rather than multiple across circuits) may also contribute to a lack of calibration compared to a group of peers all examining the same station. Pertinent to this issue, recent work by Crossley et al. (2019) describes a complex balance of ‘guarded curiosity’ (of comparative judgments by peers), affective bias and ‘moderated conservatism’ where assessors balance openness to change alongside loyalty to personal judgments.

이 주제를 좀 더 자세히 살펴보면, 평가자의 점수 엄격성(즉, '매와 비둘기')이 소규모 코호트에서 BRM 표준에 미치는 영향이 더 클 수 있습니다(Yeates and Sebok-Syer 2017). '관대한' 채점을 사용하면 점수가 분산형 다이어그램의 오른쪽 상단 모서리에 위치하는 경향이 있으며(그림 1 참조), 이는 회귀선을 통해 경계선 등급으로 다시 추정할 때 '정확한' 컷 점수에 상당한 불확실성이 있다는 것을 의미합니다. 이 문제는 마커가 더 엄격하면 점수가 경계선 등급에 가까워지고 외삽의 정도, 따라서 '오차'가 상대적으로 작아질 가능성이 높기 때문에 덜 심각할 수 있습니다. 이와 관련이 있지만 직관적이지 않을 수 있는 점은 덜 엄격한 평가자가 실제로 BRM에서 컷 점수를 높일 수 있다는 점입니다. 그림 1에 표시된 비뇨기 스테이션의 투여는 데이터 세트에서 동일한 스테이션의 22개 투여 중 컷 점수가 가장 높지만 평가자는 상대적으로 높은 점수를 부여하고 있으며 평가자 엄격도 척도의 비둘기파 쪽에 속할 가능성이 높습니다. 이러한 문제는 분명 복잡하며, 소규모 코호트 시험에서 평가자 선정 및 교육과 관련하여 더 많은 사고를 도울 수 있는 통계적 시뮬레이션 방법(Currie and Cleland 2016; Homer 외. 2016)을 사용하여 추가 조사를 하는 것이 도움이 될 수 있습니다. 
Exploring this theme further, the impact of assessor scoring stringency (i.e. ‘hawks and doves’) (Yeates and Sebok-Syer 2017) is likely to be greater on BRM standards in small cohorts. With ‘generous’ markers, the scores will tend to be in the top right corner of the scatter diagram (see Figure 1) and this means that there is considerable uncertainty in the ‘correct’ cut-score when extrapolating back towards the borderline grade via the regression line. This issue is perhaps less acute with stricter markers as then the scores will be near the borderline grade and the degree of extrapolation, and hence the ‘error’, is, therefore, likely to be smaller in comparison. A related, but perhaps, counter-intuitive point is that less stringent assessors might actually raise the cut-score under BRM – the administration of the urinary station shown in Figure 1 has the highest cut-score out of the 22 administration of the same station in the dataset, and yet the assessor is giving relatively high scores and is likely to be on the dovish end of the assessor stringency scale. Clearly, these issues are complex and would benefit from further investigation, perhaps using statistical simulation methods (Currie and Cleland 2016; Homer et al. 2016), which could aid further thinking with regard to the selection and training of assessors in small cohort exams.

설계 문제에 관한 마지막 의견은 글로벌 성적에 대한 평가 척도의 성격과 관련이 있습니다. 예를 들어 상황에 따라 4점 또는 5점 척도가 더 적절한지, 소규모 코호트에서는 더 짧은 척도를 선호할 수 있는지를 조사하기 위해서는 더 많은 연구가 필요합니다. 한 가지 권장 사항은 응시자 풀의 능력 프로필을 광범위하게 반영하여 평가자가 실제로 모든 성적을 사용할 가능성을 높이는 것입니다. 교수진은 평가 척도를 작성하기 위해 '안전'의 양쪽에서 볼 수 있는 성과 범위를 개념화해야 하며, 이 과정을 정기적으로 검토할 수 있습니다. 세 가지 상황 모두에서 이 척도는 여러 개의 합격 등급과 하나의 불합격 등급으로 구성된 비대칭형입니다. 저희가 아는 한, BRM에 따라 다르게 구성된 글로벌 평가 척도의 효율성을 비교한 연구는 아직 발표되지 않았습니다.
A final comment concerning design issues relate to the nature of the rating scale for the global grade. More research is needed to investigate whether, for example, four or five-point scales are more appropriate depending on the context – and perhaps in small cohorts the evidence might favour a shorter scale. One thing we recommend is that the scale broadly reflects the ability profile of the candidate pool – thereby making it more likely that all grades are actually used by assessors. Faculty should conceptualize the range of performances that are seen, either side of just ‘safe’ to produce the rating scale, and this process can be reviewed regularly. In all three of our contexts the scale is asymmetric, with multiple passing grades and a single fail grade. To our knowledge, there is no published work comparing the efficacy of differently constructed global rating scales under BRM.

다른 표준 설정 접근 방식과의 비교
Comparisons with other standard setting approaches

일반적으로 저희는 스테이션 설계 요소, 현재 의료 관행, 평가자 교육 표준이 지속적으로 발전하고 있는 이전 시행의 데이터에서 파생된 표준보다는 실제 시험의 데이터를 사용하여 설정된 표준을 선호합니다. 이러한 모든 요소를 점수/등급 부여 패턴에 충분히 고려하고 그에 따라 기준을 설정할 수 있는 것은 현 행정부에서만 가능합니다. 그러나 6번의 순차적 시험 시행을 분석한 결과, 시험 대상인 소규모 코호트에서 직접 도출한 2단계 스테이션의 BRM 도출 표준과 대규모 코호트에서 도출한 동일한 스테이션의 표준(예: 1단계의 일부로 설계된 경우)에는 약간의 차이가 있는 것으로 나타났습니다. 이는 분명히 중요한 문제이며, 이러한 차이가 소규모 코호트와 대규모 코호트 간 평가자 행동의 실질적이고 체계적인 변화의 결과인지 더 잘 이해하기 위해 추가 조사가 필요합니다. 시퀀스 2 시험에서 학생들은 정의상 더 약한 하위 그룹에 속하며, 평가자가 어느 정도는 시퀀스 1 시험보다 더 높은 지분을 가진 것으로 인식할 수 있습니다. 이러한 지식이 평가자가 제공하는 채점에 영향을 미칠 수 있나요? 
As a general principle, we prefer standards set using data from the actual examination, rather than that derived from data from previous administrations – elements of station design, current medical practice, and standards of assessor training are constantly developing. It is only in the current administration that all these factors can be taken into account fully in the pattern of scores/grades awarded, and the standard thereby set. However, analysis of six sequential test administrations has shown small differences in the BRM derived standards of Sequence 2 stations when derived directly from the small cohort examined versus those from that same stations derived from larger cohorts (e.g. when blueprinted as part of Sequence 1). This is clearly an important issue and merits further investigation to better understand whether these differences are the result of substantive, systematic changes in assessor behaviour between small and large cohorts. In the sequence 2 examination, the students are by definition a weaker sub-group, and to an extent, the stakes may be perceived by assessors to be higher than they are in the sequence 1 examination. Might this knowledge influence the marking that assessors provide?

PA 시험에서 우리는 평가자가 앙고프 점수를 제공할 때 극단적인 점수를 피하는 경향이 있음을 보았습니다(BRM에서는 이 문제가 훨씬 덜함). 이는 평가자가 전체 척도를 사용하는 것을 꺼리는 작업장 기반 평가에서 잘 알려진 문제의 반향을 담고 있습니다(Crossley and Jolly 2012). 선험적 표준 설정 회의에서 이러한 꺼려하는 것으로 추정되는 사회적 이유도 있을 수 있지만(Fitzpatrick 1989), 현재 연구에는 이 문제에 대해 언급할 만한 데이터가 없습니다.
In the PA exam, we have seen that assessors tend to shy away from extremes when providing their Angoff scores (and that this is far less of a problem with BRM) – this carries an echo of the well-known issue in workplace-based assessment where there is a reluctance for assessors to use the full scale (Crossley and Jolly 2012). There may also be social reasons for this presumed reluctance in an a priori standard setting meeting (Fitzpatrick 1989) but the current study has no data to speak to this issue.

결론
Conclusions

이 연구는 기존의 가정에 도전하고 비교적 간단한 방법(예: 분산 그래프의 육안 검사 및 R-제곱 값 계산)을 사용하여 소규모 코호트의 맥락에서 BRM을 사용하는 것이 일반적으로 성공적일 수 있음을 보여주었습니다. 이 논문에서는 회귀 기반 접근법의 견고성을 판단하기 위한 보다 기술적 접근법(예: 견고한 회귀, 베이지안 방법 또는 보다 정교한 모델링 접근법)은 피했지만, 이러한 접근법은 향후에 추가로 적용할 가치가 있을 것입니다(Wilcox 2012, 10장; Tavakol 외. 2018). 정기적으로 사용되는 스테이션의 표준이 정확히 무엇을 의미하는지에 대한 철학적 문제도 있지만, 예를 들어 해당 날짜의 표준인지 아니면 이전 시행의 모든 데이터를 사용하여 표준을 도출해야 하는지에 대해서는 이 논문의 범위를 넘어서는 철학적 문제도 있습니다.
Challenging established assumptions, and using relatively simple methods (e.g. visual inspection of scatter graphs and calculation of R-squared values), this study has shown that the use of BRM in the context of the small cohorts can be generally successful. We have avoided in this paper more technical approaches to judging robustness of regression-based approaches (e.g. robust regression, Bayesian methods, or more sophisticated modelling approaches) but these might well merit further application in the future (Wilcox 2012, chap. 10; Tavakol et al. 2018). There are also philosophical issues that are worthy of further consideration, but beyond the scope of this paper, regarding what exactly we mean by the standard for a station that is used regularly – for example, is it the standard on the day in question, or should we use all data from previous administrations to derive the standard?

그러나 실용적인 관점에서 볼 때, 가급적이면 이전에 만족스러운 스테이션 성과를 기반으로 한 기존 컷 점수가 소규모 코호트 시험의 모든 스테이션에 이상적으로 제공되어야, BRM에 문제가 발생했을 때(예: 점수 확산 부족) 스테이션을 제거할 필요 없이 이 컷 점수가 대체할 수 있습니다. 저희는 지표가 좋지 않다는 것은 스테이션에 문제가 있다는 것을 의미할 수 있음을 잘 알고 있습니다(예: 설계 문제, 예상 성능 수준에 대한 이해 부족, 평가자 교육 문제). 간결성의 원칙과 청사진을 유지해야 할 필요성에 따라 점수가 명백히 잘못되지 않는 한 시험에서 해당 스테이션을 제거하지 않는 것이 좋습니다. 그러나 이러한 스테이션은 문제의 원인을 더 잘 이해하기 위해 시험 후 검토를 위해 플래그를 지정해야 합니다. 
However, from a practical point of view, extant cut-scores, preferably based on previous satisfactory station performance (Pell et al. 2010), should ideally be available for all stations in small cohort exams so that when problems with BRM do occur (e.g. a lack of spread of scores) these cut-scores can substitute without the need for the removal of the stations. We recognize that poor metrics might well indicate that there is a problem in the station (e.g. a design issue, or a lack of understanding of expected level of performance, or an assessor training issue). The principle of parsimony and the need to maintain the blueprint would suggest not removing the station from the exam unless scores are clearly erroneous. However, such stations should be flagged for post-examination review to better understand the causes of the problems.

사후 분석에 따라 BRM에 문제가 있는 것으로 판명되는 드문 경우를 대비하여 대규모 코호트에서는 '백업' 컷 점수가 어느 정도 필요하다고 주장할 수도 있지만, 그 자체가 청사진 작성 과정의 품질과 궁극적으로 평가의 타당성을 위협하는 저조한 스테이션을 제거하는 것에 만족하지 않는 한 그렇지 않습니다(Downing and Haladyna 2004). 
One could argue that the need for ‘backup’ cut-scores might also be true to an extent for larger cohorts for the rare occasions when BRM proves problematic based on post hoc analysis – unless one is happy with removing poorly performing stations which itself threatens the quality of blueprinting process and ultimately the validity of the assessment (Downing and Haladyna 2004).

모든 고품질 평가 도구의 개발 및 사용과 마찬가지로, 우리는 마지막으로 평가의 목적과 평가 결과에서 도출할 추론에 대한 명확한 표현을 기반으로 스테이션 수준 채점 도구(예: 글로벌 평가 척도, 주요 기능 체크리스트 또는 도메인 채점 척도)의 전반적인 설계에 항상 주의를 기울여야 한다는 점을 언급합니다(Kane 2013). BRM을 효과적으로 사용하려면 적절한 코호트 규모를 고려해야 하지만, 피검자의 이질성 정도, 양호한 시험장 설계, 만족스러운 평가자 교육 및 행동 등 다양한 다른 요인에 따라 달라질 수 있습니다.
As with all development and use of high quality assessment tools, we comment finally that care always needs to be taken in the overall design of station level scoring instruments (i.e. global rating scales, and key features checklists or domain scoring scales) based on clear articulation of the purpose(s) of the assessment and the inferences to be drawn from its outcomes (Kane 2013). Whilst the effective use of BRM should include consideration of adequate cohort size, it is also contingent on a range of other factors including the degree of examinee heterogeneity, good station design, and satisfactory assessor training and behaviour.

 


 

Med Teach. 2020 Mar;42(3):306-315. doi: 10.1080/0142159X.2019.1681388. Epub 2019 Oct 26.

Setting defensible standards in small cohort OSCEs: Understanding better when borderline regression can 'work'

Affiliations collapse

Affiliations

1Leeds Institute of Medical Education, School of Medicine, University of Leeds, Leeds, UK.

2School of Medicine, University of Liverpool, Liverpool, UK.

PMID: 31657266

DOI: 10.1080/0142159X.2019.1681388

Free article

 

Abstract

Introduction: Borderline regression (BRM) is considered problematic in small cohort OSCEs (e.g. n < 50), with institutions often relying on item-centred standard setting approaches which can be resource intensive and lack defensibility in performance tests.Methods: Through an analysis of post-hoc station- and test-level metrics, we investigate the application of BRM in three different small-cohort OSCE contexts: the exam for international medical graduates wanting to practice in the UK, senior sequential undergraduate exams, and Physician associates exams in a large UK medical school.Results: We find that BRM provides robust metrics and concomitantly defensible cut scores in the majority of stations (percentage of problematic stations 5, 14, and 12%, respectively across our three contexts). Where problems occur, this is generally due to an insufficiently strong relationship between global grades and checklist scores to be confident in the standard set by BRM in these stations.Conclusion: This work challenges previous assumptions about the application of BRM in small test cohorts. Where there is sufficient spread of ability, BRM will generally provide defensible standards, assuming careful design of station-level scoring instruments. However, extant station cut-scores are preferred as a substitute where BRM standard setting problems do occur.

OSCE를 위한 자원 효율적이고 신뢰할 수 있는 합격선 설정 방법: 표준화 환자를 단독 평가자로 하는 경계선 회귀 방법(Med Teach, 2022)
A resource efficient and reliable standard setting method for OSCEs: Borderline regression method using standardized patients as sole raters in clinical case encounters with medical students 
Felise B. Milana and Joseph H. Grochowalskib

 

소개
Introduction

의학교육이 학부(UME), 대학원(GME) 및 평생의학교육(CME) 프로그램 전반에 걸쳐 역량 기반 평가를 강조하는 방향으로 점점 더 이동함에 따라, 의학교육자가 이러한 평가와 그 결과의 질과 엄격성을 보장해야 할 필요성이 증가하고 있습니다(Pell 외. 2010). 마일스톤, EPA(위탁 가능한 전문 활동) 또는 역량에 관계없이 교육기관은 평가를 기반으로 내린 결정이 신뢰할 수 있고 방어할 수 있음을 모든 이해관계자에게 보장하는 데 필요한 지식과 기술을 습득해야 할 필요가 있습니다(Lockyer 외. 2017). 성취한 역량에 기반한 교육 시스템으로 전환해야 하는 상황에서 합격선 설정(역량을 입증하는 점수 결정으로 진급자 및/또는 재교육 대상자를 결정)이 더욱 중요해졌습니다. 그러나 교육 예산이 점점 더 타이트해지고 임상의 교수진의 임상 생산성 요구가 증가함에 따라 더 적은 리소스로 이 작업을 수행해야 하는 과제에 직면해 있습니다(Price 외. 2018). 
As medical education moves increasingly to emphasize competency-based assessments throughout the spectrum of undergraduate (UME), graduate (GME) and continuing medical education (CME) programs, there is an increased need for medical educators to ensure the quality and rigor of these assessments and their outcomes (Pell et al. 2010). Whether we are working with milestones, EPAs (Entrustable professional activities) or competencies, there is a need for institutions to acquire the knowledge and skills necessary to assure all stakeholders that the decisions made based on their assessments are reliable and defensible (Lockyer et al. 2017). With the imperative to move to an educational system based on competencies achieved, standard setting (determining the score that demonstrates competency to decide who moves forward and/or who must be remediated) becomes ever more crucial. However, as education budgets get tighter and as our clinician faculty have increasing clinical productivity demands, we are faced with the challenge of accomplishing this task with fewer resources (Price et al. 2018).

합격선 설정 결정은 복잡하며 교육기관의 문화, 정치적 분위기, 커리큘럼 프로그램, 리소스 등 다양한 변수에 따라 달라집니다(Downing and Yudkowsky 2009). 지난 20년 동안 성과 기반 평가를 위한 표준 설정 전략에 대한 지식이 엄청나게 성장했습니다(De Champlain 2018). 표준 설정 방법에는 일반적으로 두 가지 유형이 있습니다.

  • (1) 교수자가 예정된 시험과 무관하게 시험 자료를 검토할 수 있는 시험 자료 검토 방법(예: 앙고프 및 에벨 방법)
  • (2) 수험자의 수행을 검토하는 방법(예: 경계선, 경계선 회귀 및 대조군 방법)

영국과 캐나다에서는 보건의료 및 의학교육 시스템의 구조상 이를 허용하는 교수진이 평가자로 사용되는 경우가 많기 때문에 고부담 OSCE(관찰형 표준화 임상시험)에 사용되는 수험자 중심의 표준 설정 방법에 대한 많은 연구가 수행되었습니다(Price et al. 2018). 교수진은 각 스테이션에서 학습자를 관찰하고 체크리스트와 전체 평가 점수를 작성한 다음 경계선 방법을 사용하여 학습자의 점수와 합격 기준을 모두 결정하는 데 사용합니다. 교수 평가자를 사용하는 교육 환경에서 경계선 그룹 및 경계선 회귀 방법은 신뢰할 수 있고 실용적인 표준 설정 방법인 것으로 나타났습니다(Kilminster and Roberts 2004; Boursicot 외. 2006; Wood 외. 2006; Boursicot 외. 2007; Wilkinson 외. 2008; Hejri 외. 2013; Yousuf 외. 2015; Malau-Aduli 외. 2017). 
Standard setting decisions are complex and based on a multitude of variables that are specific to an institution’s culture, political climate, curricular program, and resources (Downing and Yudkowsky 2009). The past twenty years have seen an enormous growth of knowledge in standard setting strategies for performance-based assessments (De Champlain 2018). Standard setting methods are typically of two types;

  • (1) Those involving review of examination materials (e.g. Angoff and Ebel methods) where faculty can review these materials independent of scheduled testing, and
  • (2) Those involving review of examinee performance (e.g. Borderline, borderline regression and contrasting groups methods) (Kilminster and Roberts 2004; Pell et al. 2010).

Much of the work on the examinee-focused standard setting methods used for high stakes OSCEs (observed standardized clinical exam) has been done in the UK and Canada where faculty are used as raters, as the structure of their health care and medical education systems allow for this (Price et al. 2018). These faculty observe the learners at each station and complete checklists and global rating scores, which are then used to determine both the learners’ scores as well as the passing standard using the borderline method. In educational settings using faculty raters, the borderline group and borderline regression methods have been shown to be reliable and practical standard setting methods (Kilminster and Roberts 2004; Boursicot et al. 2006; Wood et al. 2006; Boursicot et al. 2007; Wilkinson et al. 2008; Hejri et al. 2013; Yousuf et al. 2015; Malau-Aduli et al. 2017).

현재 교수진이 평가에 참여하지 않는 OSCE에 사용되는 가장 신뢰할 수 있는 표준 설정 방법은 앙고프 방법과 그 파생 방법입니다(Kilminster and Roberts 2004). 그러나 경계선 방법과 달리 앙고프 표준 설정 방법은 합격 기준을 설정하는 소규모 전문가 그룹의 판단에 상당한 시간을 투자해야 합니다. 이 방법은 더 많은 비용으로 경계선 방법보다 덜 신뢰할 수 있는 표준을 생성하는 것으로 나타났습니다(도피니 외. 1997). 이러한 여러 가지 요인으로 인해 저희 학교를 포함한 미국의 많은 학교에서는 표준 설정에 규범 기반 기준을 사용해 왔습니다. 물론 이 방법은 역량 기반 평가를 실천하고자 하는 우리의 바람과는 상반됩니다.
Currently, the most reliable standard setting method used for OSCEs that does not involve the faculty being present for the assessment is the Angoff method and its derivations (Kilminster and Roberts 2004). However, in contrast to the borderline methods, the Angoff standard setting method requires significant investment of time from a small expert group of faculty whose judgments set the passing standards. The method has been shown to produce less reliable standards than the borderline methods at a greater cost (Dauphinee et al. 1997). Due to these many factors, many schools in the US, including ours, have used a norm-based criterion for standard setting. This method, of course, runs counter to our desire to practice competency-based assessment.

미국에서는 미국국립의학시험위원회(NBME)와 외국 의대 졸업생 교육위원회(ECFMG)는 물론 많은 의과대학에서 고도로 훈련된 표준화 환자(SP)를 사용하여 환자를 묘사하고 학생의 점수를 생성하는 체크리스트 또는 척도를 작성합니다(Zanten 외. 2007). 많은 교육기관에서 SP는 임상 술기에 대한 교육과 피드백을 제공하는 교육자로서도 중요한 역할을 합니다(Howley 2013; May et al. 2009). 표준화된 환자에 의한 학생의 임상 술기 평가가 신뢰할 수 있고 타당하다는 것을 보여주는 많은 문헌이 있습니다. SP 평가자가 교수 평가자만큼 신뢰할 수 있다는 일부 문헌도 있습니다: Han 등(2006)은 SP 평가자가 체크리스트 채점에서 의사 평가자와 동일한 신뢰도를 보였으며, 4학년 의대생 임상 술기 OSCE에서 전체 평가에서 의사보다 더 높은 신뢰도를 보였다고 밝혔습니다. 
In the U.S., both the National Board of Medical Examiners (NBME) and Educational Commission for Foreign Medical Graduates (ECFMG), as well as many medical schools, use highly trained standardized patients (SPs) to both portray the patients as well as complete the checklists or scales that create the students’ scores (Zanten et al. 2007). In many institutions SPs also play a key role as educators providing instruction and feedback on clinical skills (Howley 2013; May et al. 2009). There is a significant body of literature showing that the rating of students’ clinical skills by standardized patients is both reliable and valid (Boulet et al. 2002; Humphrey-Murto and Macfadyen 2002; Kilminster and Roberts 2004; Whelan et al. 2005; Han et al. 2006; McKinley and Norcini 2014). There is also some literature showing that SP raters may even be as reliable as faculty raters: Han et al. (2006) demonstrated SP raters had the same reliability as physician raters on checklist scoring and higher reliability than the physicians on global rating in a 4th year medical student clinical skills OSCE.

미국은 영국이나 캐나다와 같은 시스템보다 OSCE에 참석할 교수진의 시간이 더 제한되어 있으므로, 이 연구의 목표는 경계선 표준 설정 방법을 사용하는 데 필요한 글로벌 평가 점수를 작성하는 데 SP를 안정적으로 사용할 수 있는지 조사하는 것이었습니다. SP가 신뢰할 수 있는 점수를 제공할 수 있다면, 임상시험 OSCE에 교수진이 참석할 필요가 없어질 것입니다. 
Faculty time to be present for OSCEs is more limited in the USA than in systems such as the UK and Canada, so the goal of this study was to investigate whether SPs could reliably be used to complete the global rating score needed to use the borderline method of standard setting. If SPs could provide reliable scores, it would obviate the need for faculty to be present for the clinical encounter OSCE.

(의도된 목적에 따라) 신뢰할 수 있는 점수는 점수의 타당성을 뒷받침하는 데 필요한(충분하지는 않지만) 증거이며, 이는 지속적인 조사 과정입니다(Kane 2013). 부정확한 점수는 일관된 내용의 표현, 수험자 순위, 합격/불합격 결정, 예측 또는 기타 점수 활용을 뒷받침할 수 없습니다. 이 논문의 핵심 목표는 OSCE 설계 및 채점 결정을 기반으로 점수의 reliability과 dependability의 토대를 구축하는 것이었습니다. 물론 이 측정 방법을 개발하는 과정에서 내용 및 구성 타당도를 확립하기 위한 일반적인 접근 방식도 통합했으며, 이에 대해서는 방법에서 설명합니다. 
Reliable scores (for an intended purpose) is a necessary (but not sufficient) piece of evidence to have in support of score validity, which is an ongoing investigative process (Kane 2013). Imprecise scores cannot support representation of cohesive content, examinee ranking, pass/fail decisions, predictions, or other score uses in its absence. Our central goal in this paper was to establish the foundation of score reliability and dependability based on our OSCE design and scoring decisions. Of course, in our development of this method of measure, we also incorporated common approaches to establishing content and construct validity, which we describe in the methods.

방법
Methods

참가자
Participants

참가자는 우리 기관의 3학년 의대생 182명 전원을 포함했습니다. OSCE는 다양한 임상 시나리오를 제시하는 8개 스테이션으로 구성되었으며 필수 평가이므로 매년 100% 참여가 이루어졌습니다. 
Participants included all 182 third-year medical students at our institution. The OSCE had 8 stations presenting a variety of clinical scenarios and is a required assessment, so 100% participation was achieved yearly.

OSCE
The OSCE

학생들은 환자의 나이, 성별, 진료 장소(예: 응급실, 클리닉, 병동)가 주어지고 한 케이스당 15분 동안 3케이스에 대해서만 병력 청취를 하거나 5케이스에 대해 병력 및 신체검사를 하도록 지시받았습니다. 어떤 케이스에서도 절차적 술기를 평가하지 않았습니다.

  • 6개의 스테이션에서는 환자들이 해결해야 할 다양한 주요 불만 사항을 제시했습니다(5명은 직접 방문, 1명은 전화로). 이 스테이션은 집중적인 병력 청취, 집중적인 신체 진찰, 임상적으로 적절한 감별 진단에 기반한 적절한 관리 계획 수립 및 환자에게 해당 계획을 전달하는 학생의 능력을 평가하도록 설계되었습니다.
  • 다른 두 스테이션에서는 환자 상담이 주요 과제였습니다.

케이스는 핵심 임상 로테이션을 막 마친 학생에게 적합한 난이도로 설계되었습니다. 구성 및 내용 타당성을 확립하기 위해 전문가들은 OSCE 사례를 검토하여 의학, 정신과, 외과, 노인병, 신경과, 소아과 등 다양한 분야의 입원 및 외래 임상 문제를 다양하게 제공했는지 확인했습니다. 임상 술기 측정에 대한 포괄적이고 적절한 범위를 보장하기 위해 의사 교육자로 구성된 다학제적 위원회에서 사례를 작성했습니다. 임상 전문가들이 콘텐츠의 타당성과 임상적 정확성을 위해 사례를 검토했습니다. 
Students were given the patient’s age, gender and encounter location (i.e. ER, clinic, hospital ward) and instructed to do a history for only three cases or history and physical exam for five cases in the 15 minutes allotted per case. No procedural skills were assessed in any of the cases.

  • In six of the stations, patients presented (five in person, one by telephone) with chief complaints of varying acuity to be addressed. These stations were designed to assess the students’ ability to take a focused history, perform a focused physical, develop an appropriate management plan based on clinically appropriate differential diagnoses and communicate that plan to the patient.
  • In the other two stations, the primary task was patient counseling.

The cases were designed to have a difficulty level appropriate for a student who had just completed their core clinical rotations. To establish construct and content validity, experts reviewed the OSCE cases to ensure they offered a diverse array of both inpatient and outpatient clinical problems from varied disciplines including medicine, psychiatry, surgery, geriatrics, neurology and pediatrics. Cases were written by a multidisciplinary committee of physician educators to ensure comprehensive and adequate coverage of clinical skills measurement. Clinical specialists reviewed cases for content validity and clinical accuracy.

SP 교육
SP training

표준화된 환자(SP)가 술기 체크리스트(병력, 신체 검사 및 의사소통 기술)를 사용하여 (학생들이 진료 후 노트를 작성하는 10분 동안) 학생들의 수행을 평가했습니다. SP 그룹은 표준화 환자로 훈련받았으며 이 역할에 4~25년의 경력을 가진 전문 배우들이었습니다. 이들은 30년 동안 이 일을 해온 의사와 SP 트레이너가 각 사례에 맞게 모집하고 훈련했습니다. SP는 OSCE와 관련된 다분야 의사 그룹이 개발한 허용 가능한 신체 검사 기법 매뉴얼을 기반으로 신체 검사 기법 표준에 대해 의사로부터 광범위하게 교육을 받았습니다. 이들은 SP 트레이너로부터 표준화된 방식으로 사례를 묘사하고 학생들이 질문한 병력 항목을 안정적으로 보고할 수 있도록 사례에 대한 교육을 받았습니다. 글로벌 평가 항목(그림 1)에서는 SP에게 훈련받고 경험이 풍부한 SP로서의 관점과 해당 학습자의 환자가 되어본 느낌에 대해 글로벌 평가를 하도록 요구했지만, 교수 평가자에게 요청하는 것처럼 임상적 판단을 하도록 요구하지는 않았습니다. 
The students’ performances were evaluated by standardized patients (SPs) using skills checklists (history, physical exam and communication skills), during the 10 minutes that the students had to write their post-encounter note. The group of SPs were professional actors who had been trained as standardized patients and had from 4 to 25 years of experience in this role. They were recruited and trained for each case by a physician and SP trainer who had been doing this work for 30 years. The SPs were extensively trained by the physician on physical exam technique standards based on a manual of acceptable physical exam maneuvers that had been developed by a multi-disciplinary group of physicians involved with the OSCE. They were trained on the cases by the SP trainer to both portray the case in a standardized fashion as well as to reliably report which history items had been asked by the students. The global rating item (Figure 1) required the SPs to make a global rating from their perspective as a trained and experienced SP as well as what it was like to be this learner’s patient, but did not ask them to make a clinical judgment as would be asked of a faculty rater.

저자 중 한 명은 SP 트레이너와 협력하여 약 60분 동안 의사소통 기술 체크리스트 및 글로벌 평가 항목 사용에 대한 참조 프레임 평가자 교육(Holmboe and Hawkins 2008) 세션을 진행했습니다. 참조 프레임 훈련은 수행 차원 훈련의 연장선이며 평가자 간 신뢰도를 높이는 데 매우 효과적인 것으로 나타났습니다(Roch 외. 2012). 저희 교육에서는 SP에게 다양한 역량 수준에서 수행한 이전 학생들의 비디오 클립을 시청하게 하고, 평가할 동일한 사례를 묘사한 표준화 환자를 인터뷰한 후, SP가 의사소통 기술 체크리스트와 글로벌 평가 항목의 일부를 완료하도록 했습니다. 각 영상이 끝난 후 SP는 주어진 항목에 대한 자신의 등급을 보고하기 위해 손을 들어 응답했습니다. 의견이 일치하지 않는 경우 평가자는 자신이 선택한 이유를 설명했습니다. 평가자에게 행동 앵커를 참조하고, 행동을 적절한 차원으로 분류하고, 각 행동의 효과를 탐색하고, 행동이 역량 표준을 충족할 때 강화했습니다. 각 항목은 합의에 도달할 때까지 논의되었습니다. 
One of the authors worked with the SP trainer to administer a frame-of-reference rater training (Holmboe and Hawkins 2008) session on the use of the communication skills checklist and global rating item, lasting about 60 minutes. Frame of reference training is an extension of performance dimension training and has been shown to be very effective in increasing inter-rater reliability (Roch et al. 2012). In our training we had the SPs view video clips of previous students performing at various competency levels and interviewing the standardized patients portraying the same cases they would be rating, the SPs completed portions of the communication skills checklist and global rating item. After each clip, the SPs responded to a show of hands to report their rating on a given item. When there was disagreement, raters explained their reasons for their choices. We referred raters to the behavioral anchors, categorized behaviors into appropriate dimensions, explored the effectiveness of each behavior and reinforced when behaviors met competency standards. Each item was discussed until consensus was reached.

교수진 교육
Faculty training

교수진은 검토자로 프로그램에 참여하면 2시간의 교육을 받습니다. 여기에는 각 사례에 대한 수행 기준을 제공하는 병력 및 신체 검사 체크리스트와 의사소통 기술 체크리스트에 대한 행동 앵커에 대한 광범위한 논의가 포함됩니다. 또한 교수진이 모여 점수, 비디오 및 SP 코멘트를 논의하여 학생이 합격에 필요한 역량 기준을 충족하는지 여부를 결정하는 추가 회의가 있습니다. 
Faculty receive a 2-hour training when they enter the program as reviewers. This includes extensive discussion of the history and physical exam checklists and behavioral anchors for communication skills checklist which provide a performance standard for each case. In addition, there are additional meetings where faculty meet to discuss the scores, videos and SP comments to decide whether students meet the competency standard for passing.

도구: 역사, 신체 검사 및 커뮤니케이션 기술 체크리스트
Instruments: History, physical exam, and communication skills checklists

OSCE의 각 케이스에는 약 14개 항목으로 구성된 케이스별 병력 체크리스트가 있습니다. 신체검사가 포함된 사례의 경우 약 8개의 항목으로 구성된 케이스별 신체검사 체크리스트가 있었습니다(스테이션 사례 요약 및 체크리스트 항목 수는 표 1 참조). 이 두 가지 사례별 체크리스트의 항목은 여러 전문 분야로 구성된 임상 교수진 그룹이 해당 사례의 감별 진단을 결정하는 데 필수적인 항목으로 선정했습니다. 
Each case in the OSCE had a case-specific history checklist with approximately 14 items. For cases that included a physical exam, there was a case-specific physical exam checklist with approximately eight items (Table 1 for a breakdown of station case summaries and checklist item counts). The items on both of these case-specific checklists were chosen by a multi-specialty group of clinical faculty as items essential to the determination of the differential diagnoses for that case.


그런 다음 행동에 기반한 의사소통 기술 체크리스트를 모든 사례에 사용했습니다. 이 체크리스트는 2004년 3년차 OSCE를 위해 다른 기관과 협력하여 처음 개발되었으며, 2006년에 의료 커뮤니케이션 아카데미에서 개발하여 우리 기관에서 의사소통 기술을 교육하는 데 사용하는 3기능 모델파트너십, 공감, 사과, 존중, 정당화 및 지원(PEARLS) 라포 형성 모델(Cole and Bird 2013)과 보다 밀접하게 일치하도록 개정되었습니다. 이 체크리스트는 교수진과 표준화 환자의 피드백을 바탕으로 2010년에 현재 버전(부록 1)으로 한 번 더 개정되었습니다. 체크리스트는 정보 수집(4개 항목), 촉진(2개 항목), 영어 능력(1개 항목), 관계 형성(3개 항목), 환자 교육(2개 항목)의 기술 영역으로 구성되어 있습니다. 체크리스트는 일반화 가능성 이론을 사용하여 분석되었으며, 이번 3년차 OSCE에 사용하기에 Φ̂=0.79의 점수 신뢰도가 있는 것으로 나타났습니다.
The behaviorally anchored communication skills checklist was then used across all cases. The checklist was first developed in 2004 in collaboration with another institution for the 3rd year OSCE and was revised in 2006 to more closely align with the 3-function model and Partnership, Empathy, Apology, Respect, Legitimation, and Support (PEARLS) model of rapport building (Cole and Bird 2013), developed by the Academy of Communication in Healthcare and used for teaching communication skills at our institution. It was revised once more to its current version (Supplementary Appendix 1) in 2010 based on feedback from faculty and standardized patients. The checklist is organized into the following skill areas: information gathering (four items), facilitation (two items), English Language proficiency (one item), relationship building (three items), and patient education (two items). The checklist was analyzed using generalizability theory and found to produce score reliability of Φ̂=0.79  for use with this third year OSCE.

글로벌 평가 항목
The global rating item

위에서 설명한 체크리스트 외에도 학생의 정량 점수에 포함되지 않고 표준 설정에만 사용되는 5점 만점의 글로벌 평가 항목이 하나 있습니다(그림 1). 영국과 경계선 회귀에 관한 많은 문헌에서 사용된 글로벌 평가 항목의 저자(Boursicot 외. 2007, Homer and Pell 2009)는 저자와 이 항목을 공유했으며, SP의 글로벌 평가에 대해 수행한 일부 작업을 바탕으로 SP와 함께 사용할 수 있도록 개정하는 데 조언을 제공했습니다. SP 트레이너와 소수의 숙련된 SP로부터 SP로서의 관점에서 판단할 수 있다고 생각하는 항목에 대한 의견을 받았습니다. 이 작성자는 원래의 글로벌 평가 항목에서 5가지 핵심 영역을 파악하고 환자의 관점에 맞게 문구를 수정했습니다. 
In addition to the above checklists described, there is a single five-point global rating item (Figure 1) that does not count towards the students’ quantitative score but is used solely for standard setting. The authors of the global rating item used in the UK and in much of the literature on borderline regression (Boursicot et al. 2007; Homer and Pell 2009) shared the item with the authors and advised us in the revision of it for use with the SPs based on some work they had done with global rating from SPs. We received input from the SP trainer and a small group of experienced SPs as to what they felt they could make a judgment on from their perspective as an SP. This author identified five key domains in the original global rating item and revised the wording to match the patient perspective.

분석
Analyses

먼저 체크리스트와 경계선 방식을 사용할 필요가 있는지, 아니면 글로벌 평가 점수가 합격과 불합격을 결정할 수 있을 만큼 정확하고 신뢰할 수 있는지를 고려했습니다. 우리는 G 이론을 사용하여 글로벌 점수의 컷 점수 신뢰도(Brennan and Kane 1977)를 계산하여 컷 결정을 내릴 때 관찰된 점수의 정확성을 평가했습니다. 
We first considered whether it was necessary to use the checklist and borderline method at all, or whether the global rating scores were precise and reliable enough to make pass or fail decisions. We calculated the cut score dependability (Brennan and Kane 1977) of the global scores using G-theory, assessing the accuracy of observed scores for making cut decisions.

저희는 Homer와 Pell(2009)의 제안(보충 부록 2, A4)에 따라 OSCE 점수의 품질과 경계선 회귀 결과를 평가했으며, 글로벌 점수와 스테이션 점수에 대해 각각 무작위 효과 분산분석(random-effects ANOVA)을 실시했습니다. 이를 통해 스테이션/평가자 점수가 전반적으로 얼마나 다른지, 스테이션에서 개인별 점수가 얼마나 다른지, 학습자 능력과 사례/평가자에 의해 설명되지 않는 분산의 비율(글로벌 평가 일관성 포함)을 설명했습니다(보충 부록 2, A5). 
We evaluated the quality of OSCE scores and borderline regression results based on suggestions from Homer and Pell (2009) (Supplementary Appendix 2, A4) and we conducted random-effects ANOVAs for the global scores and station scores, separately. This explained the degree that station/rater scores differed overall, how much person scores at stations differed, and the proportion of variance unexplained by learner ability and cases/raters, including global rating consistency (Supplementary Appendix 2, A5).

마지막으로, 기존 방법의 대안으로 경계선 회귀법의 타당성을 평가하기 위해 경계선 회귀법을 사용하여 결정된 전체 OSCE 점수에 대한 합격률을 기존의 규범 기반 표준 설정 방법(합격 점수가 평균보다 2 표준편차 이상 낮을 경우 합격)과 비교했습니다. 
Finally, we went on to evaluate the feasibility of the borderline regression method as an alternative to our former method, and we compared the passing rate for the overall OSCE score determined by this new method, using borderline regression, to our previous norm-based standard setting method (in which passing score is >2 standard deviations below the mean).

합격 기준을 충족하지 못한 지원자의 OSCE 결과를 면밀히 검토하여 점수에 불만족스러운 성과가 반영되었는지 확인했습니다. 숙련된 교수진은 비디오, 체크리스트 점수, SP 의견 및 학생 메모를 검토하여 불합격 점수가 실제로 표준 이하의 성과를 반영하는지, 불합격 결정이 타당하지 않거나 부정확한 합격 점수로 인한 것이 아닌지 확인했습니다. 
The OSCE results for persons that did not meet passing standards were carefully reviewed to ensure that their scores reflected unsatisfactory performance. Trained faculty reviewed videos, checklist scores, SP comments and student notes to ensure that sub-passing scores truly reflected substandard performance, and that a fail decision was not an artifact of an invalid or imprecise passing score.

결과
Results

먼저 SP에 의한 평가의 안정성과 신뢰성을 평가했습니다. 학생들의 체크리스트 총점 평균은 0.96점(SD = 0.053점)이었으며, 글로벌 평가 점수는 평균 3.25점(SD = 0.44점)이었습니다. 글로벌 점수의 신뢰도는 0.44로, 그 자체만으로는 중요한 의사 결정 기준으로 신뢰하기에는 너무 낮았습니다. 체크리스트는 한 명의 평가자만 채점했기 때문에 평가자 효과와 스테이션 효과가 혼동되어 평가자 신뢰도를 직접 추정할 수 없었습니다. 그러나 체크리스트와 같은 사례 세부 사항이 아닌 보다 일반적인 평가이므로 글로벌 평가에 대한 평가자 신뢰도를 평가할 수 있었습니다. SP의 글로벌 등급(스테이션 난이도와 혼동)의 클래스 내 상관관계로서의 신뢰도는 ICC = 0.09/(0.09 + 0.81/8) = 0.47(이 값의 출처는 표 2 참조)로, '괜찮은' 일관성을 보였습니다(Cicchetti 1994). 글로벌 평가 점수가 중요한 결정을 내리기에는 충분히 정확하지 않고 스테이션에 중첩된 평가자의 일관성이 공정한 수준이라는 점을 감안하여 경계선 회귀법에서 함께 사용된 글로벌 및 스테이션 점수를 기준으로 결정의 품질을 평가했습니다. 

We first assessed the stability and reliability of ratings by SPs. Students had an average total score on the checklists of 0.96 (SD = 0.053), and they had average global rating scores of 3.25 (SD = 0.44). The dependability of the global scores was 0.44, which was too low to be reliably used as a high-stakes decision point by itself. The checklists were only scored by one rater, and so rater effects and station effects were confounded, and rater reliability could not be directly estimated. However, rater reliability could be assessed for the global rating, as this was a more general rating and not specific to case details like the checklists. The reliability as intraclass correlations (Shrout and Fleiss 1979) of the SPs global ratings (confounded with station difficulty) was ICC = 0.09/(0.09 + 0.81/8) = 0.47 (Table 2 for the source of these values), which is ‘fair’ consistency (Cicchetti 1994). Given that the global rating score was not precise enough for high-stakes decisions and the raters nested in stations had only fair consistency of consistency, we assessed the quality of decisions based on global and station scores as used together in the borderline regression method.

 

 
 
 
 

 

 

경계선 회귀 방법을 사용한 합격 점수는 시범 도입 및 사용 후 7년간 일관되게 높았지만 그 정도는 다양했습니다(표 4). 전체 합격 점수는 0.6~4.0% 포인트 더 높았으며, 평균 차이는 2.64% 포인트였습니다. 그 결과 해당 연도에 시험을 치른 전체 학생의 1.1%(N = 2명)에서 7.4%(N = 12명)까지, 총 161명에서 182명에 이르는 매우 작지만 꾸준히 불합격 학생이 증가했습니다. 

The passing score using the borderline regression method was consistently higher but to a varying degree in the seven years following the institution of its piloting and use (Table 4). The overall passing score ranged from 0.6 to 4.0 percentage points higher with a mean difference of 2.64 percentage points. This resulted in an increase in a very small-but-consistent increase in student failures ranging from 1.1% (N = 2) to 7.4% (N = 12) of the total students taking the exam in the year, which ranged from a total of 161 to 182 students.

표 2의 결과는 무작위 효과 공변량 분석에서 체크리스트 점수와 전체 점수의 변동성 정도를 나타냅니다. 체크리스트 사례/평가자 측면의 표준편차는 0.056으로 전체 평균인 0.96에 비해 상대적으로 작았습니다. 마찬가지로 전체 점수의 경우 사례/평가자 표준편차는 0.31로, 0~5점 사이의 등급 범위에 비해 스테이션 간 변동성이 훨씬 작았습니다. 이러한 결과는 등급과 점수의 변동성이 부분적으로 스테이션 간의 차이로 인한 것으로, 스테이션 간 점수가 비교적 균일하다는 것을 시사합니다. 
The results in Table 2 describe the degree of variability of checklist scores and global scores from the random effects ANOVA analysis. The checklist case/rater facet had a standard deviation of 0.056, which is relatively small, compared to the overall mean of 0.96. Similarly, the global scores had a case/rater standard deviation of 0.31, which is even smaller variability across stations relative to the rating range of 0 to 5. These results suggested that the variability in the ratings and scores was in small part due to differences between the stations, indicating relatively homogeneous scoring across stations.

토론
Discussion

경계선 회귀 표준 설정 방법을 사용하여 8개의 임상 사례 OSCE에서 신뢰할 수 있는 합격 기준을 생성할 수 있었으며, SP는 SP로서의 관점에서 글로벌 등급 항목을 사용하는 유일한 평가자였습니다. 개별 사례 점수만으로는 신뢰도 기준을 충족하지 못하지만, 8개 사례의 점수는 각각 신뢰도 > =0.70이었습니다. OSCE에서 글로벌 등급을 사용하면 타당한 점수를 산출한다는 연구 결과가 여러 차례 발표되었습니다(Solomon 외. 2000; Scheffer 외. 2008). 그러나 본 연구에서는 글로벌 등급 점수만으로는 합격/불합격 결정을 내릴 수 있는 신뢰도 기준을 충족하지 못했지만, 경계선 회귀 방법의 일부로 사용했을 때 수용 가능한 수준 이상의 신뢰도를 보여주었습니다. 또한 경계선 회귀법을 사용한 결과 불합격률이 상대적으로 적게 증가하여 우리 기관의 정치적, 재정적 관점에서 전적으로 수용 가능한 것으로 나타나 이러한 기준 설정 방법의 변경이 매우 실현 가능한 것으로 나타났습니다. 
We were able to produce reliable passing standards in an eight-case clinical encounter OSCE using the borderline regression standard setting methods with SPs as the only raters employing the global rating item from their perspective as an SP. Using any individual case score alone would not meet reliability standards, but scores from each of the 8 cases had dependability > =0.70. There have been several studies showing the use of global rating producing a valid score in OSCEs (Solomon et al. 2000; Scheffer et al. 2008). In our study, however, use of the global rating score alone would not meet reliability standards on which to make a pass/fail decision, but used as part of the borderline regression method it demonstrated more than acceptable dependability. In addition, our results showed that the relatively small increase in failure rate using the borderline regression method was entirely acceptable from both a political and financial perspective at our institution making this change in standard setting method to be very feasible.

경계선 회귀 방법은 교수 평가자를 사용하는 성과 기반 시험의 표준 설정에 매우 신뢰할 수 있는 방법이라는 것이 입증되었습니다. 또한 Homer와 Pell(2009)은 모의 환자의 평가를 포함시킴으로써 교수 평가에 비해 OSCE 평가의 신뢰도가 높아졌음을 보여줄 수 있었습니다. 또한, 경계선 회귀법은 (직접 비교 연구 시) 성과 기반 평가를 위한 유일한 근거 기반 표준 설정 방법인 Angoff 방법보다 더 신뢰할 수 있는 점수를 산출했습니다(Dauphinee 외. 1997; Kramer 외. 2003). 영국의 5개 학교에서 6개의 OSCE 사례에 대한 합격 기준을 설정하는 데 Angoff 방법을 사용했을 때, 이 학교들에서 설정된 기준에는 허용할 수 없는 변동성이 있었습니다(Boursicot 외. 2006). 경계선 그룹과 수정된 경계선 모두 OSCE의 표준 설정 방법으로 인정받고 있지만, 경계선 회귀 방법은 신뢰도가 높고 오류가 적으며 특히 소수의 학습자가 참여하는 OSCE에 유용한 것으로 나타났습니다(Wood et al. 2006). 최근 연구에서는 다른 표준 설정 방법과 경계선 회귀 방법을 비교하여 경계선 회귀 방법을 상대적 황금 표준으로 삼았습니다(Yousuf 외. 2015; Malau-Aduli 외. 2017). 경계선 그룹 방법의 사용은 경계선 회귀 방법을 사용하기 위한 통계적 지원이 없는 프로그램에서 고려할 수 있는 중요한 방법입니다. 
The borderline regression method has been shown to be a highly reliable method for standard setting for performance-based exams using faculty raters. In addition, Homer and Pell (2009) were able to show an increased level of reliability in their OSCE assessments over the faculty ratings by including the ratings of simulated patients. Furthermore, the borderline regression method, when studied in direct comparison, has produced more reliable scores than the Angoff method, which is the only other evidence based standard setting method for performance-based assessment (Dauphinee et al. 1997; Kramer et al. 2003). When the Angoff method was used to set passing standards for a set of 6 OSCE cases across five schools in the UK, there was unacceptable variability in the standards set across these schools (Boursicot et al. 2006). While both the borderline group (Kilminster and Roberts 2004) and modified borderline (Humphrey-Murto and Macfadyen 2002) are both accepted standard setting methods for OSCEs, the borderline regression method has been shown to have greater reliability, lower error and be particularly useful when the OSCE involves a small number of learners (Wood et al. 2006). Recent studies have compared other standard setting methods to the borderline regression method as the relative gold standard (Yousuf et al. 2015; Malau-Aduli et al. 2017). Use of the borderline group method is an important method to consider for programs without the statistical support to use the borderline regression method.

비의사 평가자(SP)가 임상 술기 OSCE의 맥락에서 신뢰할 수 있는 글로벌 평가 점수를 산출할 수 있는지에 대한 질문과 관련하여, 우리의 결과는 비의사를 포함한 비전문가도 글로벌 평가를 사용할 때 신뢰할 수 있는 평가자 역할을 할 수 있다는 최근의 문헌과 일치합니다. 외과 분야에서는 콘텐츠 전문성 수준이 평가 점수의 신뢰도 향상과 관련이 없으며(Patnaik 외. 2020), 의대생 OSCE를 포함하여 훈련된 비전문가도 신뢰할 수 있고 타당한 성과 기반 평가를 제공할 수 있다는 연구(Mahmood 외. 2018; Pradarelli 외. 2021)가 여러 차례 발표되었습니다(Donohoe 외. 2020). 본 연구 결과는 본 연구와 더 밀접한 관련이 있는 연구와 일치합니다. Berger 등(2012)과 최근 Yudkowsky 등(2019)은 비임상 평가자가 상세한 채점 루브릭을 제공받았을 때 교수 평가자만큼 신뢰성 있게 OSCE 환자 기록을 채점하고 임상 추론을 평가할 수 있음을 보여 주었기 때문입니다. 마지막으로 Han 등(2006)은 일반화 가능성 분석을 통해 의대 4학년 학생을 대상으로 의사소통 기술 태도와 전반적인 수행을 평가하는 5점 만점 항목 3개를 사용할 때 SP 평가자가 교수 평가자보다 더 신뢰할 수 있는 점수를 산출할 수 있음을 입증할 수 있었습니다. 이 결과는 'SP 기반 기본 임상술기 시험에 전문가가 필요한가'라는 질문에 대한 답이기도 합니다(한 외, 2006, 308쪽). 이 의문을 해결하기 위해 다음 프로젝트에서는 교수진에게 동일한 체크리스트를 사용하게 하고, 비디오로 촬영한 학생의 모습에 대한 SP와 교수진의 평가를 직접 비교하는 연구를 진행할 예정입니다. 
Regarding the question of whether a non-physician rater (SP) can produce a reliable global rating score in the context of a clinical skills OSCE, our results are in alignment with the growing literature that non-experts, including non-physicians, can serve as reliable raters even when using global rating. In the field of surgery, there are several studies showing that level of content expertise is not associated with improved reliability in rating scores (Patnaik et al. 2020) and that trained non-experts can provide reliable and valid performance-based assessments (Mahmood et al. 2018; Pradarelli et al. 2021) including in a medical student OSCE (Donohoe et al. 2020). Our results are in accord with research more closely related to our study, as both Berger et al. (2012) and more recently Yudkowsky et al. (2019) showed that non-clinician raters, when provided with a detailed grading rubric were able to score OSCE patient notes and assess clinical reasoning as reliably as faculty raters. Lastly, Han et al. (2006) was able to demonstrate, using generalizability analysis, that when using three 5-point global items assessing communication skills attitude and overall performance, SP raters could produce more reliable scores than the faculty raters in a 4th year medical student. Our results also echo the question they raised, ‘whether experts are required for an SP based basic clinical skills exam’ (Han et al. 2006 p. 308). In order to further address this question, our next project will be to have faculty use the same checklists and to directly compare SP and faculty ratings of students’ videotaped encounters.

본 연구의 잠재적으로 중요한 한계 중 하나는 단일 기관에서 표준화된 단일 환자를 대상으로 수행되었다는 점입니다. 우리 SP는 경험이 풍부하고 수년에 걸쳐 누적적으로 매우 잘 훈련된 사람들입니다. 우리는 지속적으로 우리와 함께 일할 수 있는 미취업 배우가 많은 도시에 위치하고 있습니다. 새로운 SP 프로그램이나 아직 배우로 훈련받지 않은 사람들을 훈련시키는 프로그램을 운영하는 기관에서는 본 연구에서 발견한 수준의 신뢰도를 재현하지 못할 가능성이 높습니다. 또한, 본 연구의 일반화 가능성에 대한 또 다른 잠재적 한계는 본 연구가 임상 환자를 대상으로 임상 기술을 평가하는 OSCE였다는 점입니다. 보다 다양한 학생의 술기를 평가하는 OSCE에는 유용하지 않을 수 있습니다. 마지막으로, OSCE 설계의 효율적이고 비용 효율적인 특성으로 인해 평가자와 사례 효과를 분리하여 독립적으로 연구할 수 없기 때문에 SP, 체크리스트 항목 또는 사례 특징을 조정할 수 있는 진단 능력이 제한됩니다. 그러나 신뢰도 추정치는 이러한 제한의 영향을 받지 않습니다. 
One of the potentially significant limitations of our study is that it was done in a single institution using a single cadre of standardized patients. Our SPs are highly experienced and cumulatively over the years, very well trained. We are located in a city with a large number of underemployed actors who are consistently available to work with us. It is quite possible that institutions with newer SP programs or programs that train people not already trained as actors might not be able to reproduce the level of reliability found in our study. In addition, another potential limitation to the generalizability of these findings is that ours was an OSCE evaluating clinical skills with clinical patient encounters. It may not be as useful for OSCEs that assess a greater variety of student skills. Finally, because of the efficient and cost-effective nature of the OSCE design, it is not possible to disaggregate rater and case effects such that they can be studied independently, which limits our diagnostic ability to adjust SPs, checklist items, or case features. However, the estimates of dependability are unaffected by this limitation.

요약하면, 우리의 결과는 글로벌 등급을 제공하는 데 있어 SP의 역할을 뒷받침하는 새로운 연구 및 문헌을 더욱 확인시켜 주며(Homer and Pell 2009), 경계선 방법이 매우 신뢰할 수 있는 합격 기준 점수를 생성할 수 있다는 과거의 연구 결과와도 일치합니다(Dauphinee 외. 1997; Kramer 외. 2003). 신뢰도 높은 전체(및 스테이션) 커트라인 점수에 대한 증거는 이 방법에 대한 신뢰도 증가에 추가적인 신뢰를 제공합니다(Yousuf 외. 2015; Malau-Aduli 외. 2017). 임상의가 아닌 SP가 신뢰할 수 있고 유효한 성과 기반 평가를 생성할 수 있고(Mahmood 외. 2018; Patnaik 외. 2020; Donohoe 외. 2020; Pradarelli 외. 2021), 잘 훈련된 SP가 교수진과의 신뢰도에 상응하는 평가를 생성할 수 있다는 다른 연구 결과(Berger 외. 2012; Yudkowsky 외. 2019)에 따라, 단독 SP를 평가자로 사용하는 경계선 방법이 매우 신뢰할 수 있는 기준 점수를 생성한다는 것을 발견했습니다. 이상적으로는 타당도 프로세스의 다음 단계는 합격 또는 불합격 결정의 기준 및 예측 타당도를 탐색하는 것이지만, 전문적인 효능 및 결과 데이터의 가용성이 부족하기 때문에 수집하기 매우 어려운 증거입니다. 
In summary, our results further confirm the emerging research and literature that supports the role of SPs in providing global ratings (Homer and Pell 2009), and our results are also consistent past findings that the borderline method can produce highly dependable pass criterion scores (Dauphinee et al. 1997; Kramer et al. 2003). Our evidence of highly reliable overall (and station) cut scores gives additional credence to the increasing confidence in the method (Yousuf et al. 2015; Malau-Aduli et al. 2017). In line with other research finding that non-clinician SPs can produce reliable and valid performance-based assessments (Mahmood et al. 2018; Patnaik et al. 2020; Donohoe et al. 2020; Pradarelli et al. 2021), and that well-trained SPs can produce ratings commensurate in reliability with faculty (Berger et al. 2012; Yudkowsky et al. 2019), we found that the borderline method using sole SPs as raters produced a highly reliable criterion score. Ideally, a next step in our validity process would be to explore criterion and predictive validity of our pass or fail decisions, which is very difficult evidence to collect, given the scant availability of professional efficacy and outcomes data.

결론
Conclusion

결론적으로, 우리가 사용한 표준 설정 방법은 평가자가 OSCE 동안 한 가지 추가 항목(글로벌 평가)만 완료하면 됩니다. 성과 기반 평가에서 SP 평가자를 사용하는 기관은 환자의 관점에 기반한 글로벌 평가 항목 사용에 대해 SP에게 짧은 교육(본 연구에서는 1시간)만 받으면 이 표준 설정 방법을 활용할 수 있습니다. 요약하면, 본 연구는 경계선 회귀 방법을 SP만 평가자로 사용하여 임상 진료 OSCE에서 신뢰할 수 있는 합격 점수를 생성하는 데 사용할 수 있음을 보여줍니다. 
In conclusion, the standard setting method we used requires only that the raters complete one additional item (global rating) during the OSCE. Institutions using SP raters in a performance-based assessment can utilize this standard setting method with a short training (one hour in our study) of their SPs on the use of the global rating item based on their perspective as the patient. In summary, our study demonstrates that the borderline regression method can be used with only SPs as raters to create reliable passing scores in a clinical encounter OSCE.

 

 


Med Teach. 2022 Aug;44(8):878-885. doi: 10.1080/0142159X.2022.2041586. Epub 2022 Mar 2.

A resource efficient and reliable standard setting method for OSCEs: Borderline regression method using standardized patients as sole raters in clinical case encounters with medical students

Affiliations collapse

Affiliations

1Clinical Skills Center, Albert Einstein College of Medicine, Bronx, NY, USA.

2Psychometrics and Quantitative Psychology, Fordham University, Bronx, NY, USA.

PMID: 35234562

DOI: 10.1080/0142159X.2022.2041586

Abstract

Finding a reliable, practical and low-cost criterion-referenced standard setting method for performance-based assessments has proved challenging. The borderline regression method of standard setting for OSCEs has been shown to estimate reliable scores in studies using faculty as raters. Standardized patients (SPs) have been shown to be reliable OSCE raters but have not been evaluated as raters using this standard setting method. Our study sought to find whether SPs could be reliably used as sole raters in an OSCE of clinical encounters using the borderline regression standard setting method.SPs were trained for on a five-point global rating scale. In an OSCE for medical students, SPs completed skills checklists and the global rating scale. The borderline regression method was used to create case passing scores. We estimated the dependability of the final pass or fail decisions and the absolute dependability coefficients for global ratings, checklist scores, and case pass-score decisions using generalizability theory.The overall dependability estimate is 0.92 for pass or fail decisions for the complete OSCE. Dependability coefficients (0.70-0.86) of individual case passing scores range demonstrated high dependability.Based on our findings, the borderline regression method of standard setting can be used with SPs as sole raters in a medical student OSCE to produce a dependable passing score. For those already using SPs as raters, this can provide a practical criterion-referenced standard setting method for no additional cost or faculty time.

Keywords: OSCE; Standard-setting; borderline-regression; generalizability theory; global-rating; standardized patients (SPs).

OSCE에서 경계선 집단 방법과 경계선 회귀 방법을 기준-기반 합격선 설정과 비교(J Educ Eval Health Prof. 2021)
Comparing the cut score for the borderline group method and borderline regression method with norm-referenced standard setting in an objective structured clinical examination in medical school in Korea 
Song Yi Park1,2, Sang-Hwa Lee2*, Min-Jeong Kim3, Ki-Hwan Ji4, Ji Ho Ryu5

 

소개
Introduction

배경/근거
Background/rationale

합격선 설정은 인간의 판단을 합리적이고 방어 가능한 방식으로 종합하여 점수 척도를 카테고리로 분류하는 과정입니다[1]. 실제 시험에서 커트라인 점수를 설정하는 것과 관련하여 '골드 스탠다드'는 없지만, 이 활동은 보건 전문직에서 매우 중요합니다[2]. 이는 의료 행위의 허용 여부를 평가하기 위해 의료 행위의 성과에 대한 최소한의 판단입니다. 
Standard setting is a process by which human judgment can be synthesized in a rational and defensible way to classify score scales into categories [1]. Although there is no ‘gold standard’ in regard to setting the cut score in real examinations, this activity is critical in health professions [2]. This is the minimum judgment on the performance of medical practice to assess whether it is acceptable or unacceptable.

합격선에는 규범 참조형(상대적)과 기준 참조형(절대적)의 두 가지 유형이 있습니다. 의학교육 시험의 경우 일반적으로 기준 참조형 표준이 선호됩니다. 기준 참조 표준은 개별 수험생에 대한 정보가 거의 없기 때문에 수험생 그룹의 역량 수준에 따라 커트라인 점수가 달라집니다. 기준 참조 표준 설정 방법에는 시험 중심과 수험자 중심의 두 가지 유형이 있습니다. 전자는 객관식 시험과 같은 지식 평가에서 커트라인 점수를 설정하는 데 적합하고, 후자는 객관적 구조화 임상시험(OSCE)과 같은 수행 평가에 적합합니다[3]. 수험자 중심의 표준 설정으로 잘 알려진 것은 대조군 방법과 경계선 그룹 방법(BGM)입니다. 
There are 2 types of standards: norm-referenced (relative) and criterion-referenced (absolute). For medical education examinations, a criterion-referenced standard is generally preferred. Because the norm-referenced standard tells little about the individual examinee, the cut score varies according to the competency level of the examinee group. Criterion-referenced standard setting methods are of 2 types: test-centered and examinee-centered. The former is appealing for setting a cut score on knowledge assessment, such as multiple-choice examination, and the latter is well suited for performance assessment, such as objective structured clinical examination (OSCE) [3]. Well-known examinee-centered standard settings are the contrasting groups method and the borderline group method (BGM).

BGM에서는 시험관이 양호, 경계선, 불합격과 같은 글로벌 등급 척도로 수험생의 성적을 평가합니다. 컷 점수는 경계선 등급을 받은 수험생의 중간 점수입니다. BGM은 시간 효율적이고 구현이 간단합니다. 하지만 경계선 그룹에 대한 합의 도출이 어렵고, 경계선 수험생 수가 적을 경우 컷 점수의 타당도가 낮을 수 있다는 점에서 한계가 있습니다[4]. 이러한 BGM의 한계를 인식하여 모든 OSCE 체크리스트 점수를 사용하여 선형 회귀를 통해 컷 점수를 개발하는 경계선 회귀법(BRM)이 개발되었습니다. 글로벌 등급 점수를 OSCE 총점으로 회귀하면 선형 방정식이 산출됩니다. 경계선 그룹의 예상 커트라인 점수는 경계선 등급 값을 회귀 방정식에 대입하여 결정됩니다. 
In the BGM, examiners evaluate students’ performance on a global rating scale such as good, borderline, and fail. The cut scores are the median scores of examinees with borderline ratings. The BGM is time efficient and straightforward to implement. However, it has some limitations in that achieving consensus on the borderline group is difficult, and when the number of borderline examinees is small, the cut score may have low validity [4]. Recognizing the limitations of the BGM, the borderline regression method (BRM) was developed, which uses all OSCE checklist scores to develop a cut score using linear regression. Regression of global rating scores to OSCE total scores yields a linear equation. The predicted cut score of the borderline group is determined by substituting the borderline rating values into the regression equation.

그러나 수험생 중심의 기준 설정 방법이 수행 평가의 커트라인 점수 설정에 항상 적용되는 것은 아닌 것으로 보입니다. 어떤 경우에는 의료 전문가 교육자들이 의사의 역량을 평가하기 위해 적절한 방법이 아니더라도 사용 가능한 평가 방법을 사용하기도 합니다[5]. 규범 참조 기준 설정에 따른 컷 점수(보통 60 백분위수)도 성과 평가에 사용됩니다[6]. 이 표준 설정은 이해하고 적용하기 쉽습니다. 그러나 규범 참조 표준 설정은 스테이션의 난이도를 고려하지 않기 때문에 정당화하기 어렵습니다 [4]. 
However, it seems that examinee-centered standard-setting methods do not always apply to the setting of cut scores in performance assessments. In some instances, health care professional educators have used available assessment methods to assess a physician’s competencies even if the methods were not appropriate [5]. The cut score (usually 60 percentile) based on the norm-referenced standard setting is also used in the performance assessment [6]. This standard setting is easy to understand and apply. However, norm-referenced standard setting is difficult to justify because it does not consider the difficulty of the stations [4].

부적절한 표준 설정 방법은 바람직하지 않은 결과를 초래할 수 있습니다. 실력이 있는데도 불합격하는 수험생과 실력이 없는데도 합격하는 수험생이 있을 수 있습니다. 이는 의학교육자뿐만 아니라 교육 행정가에게도 중요한 문제입니다. 그러나 표준 설정에 대한 연구는 거의 없으며, 국내 의학교육 및 간호교육에서 Angoff, Ebel과 같은 시험 중심의 표준 설정 방법을 비교한 연구가 대부분이었다[7-9]. 의료계에서 수행 평가는 매우 중요한 부분입니다. 따라서 수험자 중심의 기준 설정 방법도 중요하게 고려되어야 하지만, 국내에서는 이에 대한 연구가 전무한 실정이다. 
Inappropriate standard setting method can lead to undesirable result. There may be examinees who fail even though they are competent and examinees who pass even though they are not competent. This is an important issue for educational administrators as well as medical educators. However, there are few studies on standard setting and most of the studies have been about comparison of test-centered standard setting method such as Angoff, Ebel in medical and nursing educations in Korea [7-9]. Performance assessment is an important part of the medical profession. Therefore, examinee-centered standard setting method should also be considered as important, but there has been no research on this in Korea.

연구 목적
Objectives

본 연구의 연구문제는 의과대학입문자격시험에서 표준설정방식을 규준참조방식에서 BGM과 BRM으로 변경하였을 때 커트라인 점수가 어떻게 변화하는지에 대한 것이다. 본 연구의 목적은 의과대학 4학년 학생을 대상으로 한 OSCE에서 표준점수 설정 방식을 규범 참조 방식에서 BGM과 BRM으로 변경했을 때 커트라인 점수가 어떻게 달라지는지 비교하는 것이었습니다. 이 연구 결과는 수행평가를 담당하는 교육 관리자 및 의학교육자에게 실질적인 도움이 될 수 있습니다. 
The research question of this study was how the cut scores changed when the standard setting method was changed from a norm-referenced method to the BGM and BRM in an OSCE for medical students. The aim of this study was to compare the cut score when the standard setting is changed from the norm-referenced method to the BGM and BRM in an OSCE of fourth-year medical students. The results of this study can be of practical help to educational administrators and medical educators who are in charge of the performance assessment.

방법
Methods

윤리 선언문
Ethics statement

본 연구는 동아대학교 기관생명윤리심의위원회의 승인을 받았습니다(IRB 승인번호, 2-1040709-AB-N-01-202106-HR-047-02). 본 연구는 인간 대상 또는 인간 유래 물질을 대상으로 하지 않았으므로 피험자의 사전 동의를 받지 않았습니다. 
This study was approved by the Institutional Review Board of Dong-A University (IRB approval no., 2-1040709-AB-N-01-202106-HR-047-02). This study was not on human subjects or human-originated materials; thus, informed consent from subjects was not indicated.

연구 설계
Study design

이 연구는 컷 점수를 파악하고 분석하여 표준을 설정하기 위한 BGM 및 BRM의 구현을 모델링하기 위한 탐색적 연구였습니다[10]. 
This was an explorative study to model the implementation of BGM and BRM for setting the standard by identifying and analyzing the cut score [10].

설정
Setting

본 연구는 지난 7월 12일부터 15일까지 부산-경남 임상술기시험(BGCSE) 컨소시엄에서 시행한 부산-경남 임상술기시험 최종일 시험 결과에 적용되었습니다. 부산-경남 임상술기시험 컨소시엄은 부산-경남 지역 5개 의과대학 연합으로, 2014년부터 매년 3, 4학년 의대생을 대상으로 의사국가고시 공동 임상술기시험을 실시해 왔다[11]. 
This study was applied to the final day’s examination results of the Busan-Gyeongnam Clinical Skill Examination (BGCSE) conducted by the BGCSE consortium from July 12th to 15th, 2021. The consortium is an association of 5 medical schools in Busan-Gyeongnam region of South Korea that have annually conducted joint clinical skill examinations for the OSCE for third- and fourth-year medical students since 2014 [11].

시험은 학생들이 표준화 환자(SP)를 접하는 7개의 스테이션과 마네킹을 대상으로 시술 술기를 수행하는 1개의 스테이션으로 구성되었습니다. 각 스테이션의 주제는 다음과 같습니다:

  • 스테이션 1, 지난 한 달 동안 기침과 호흡곤란을 호소하는 60세 여성,
  • 스테이션 2, 오른쪽 눈이 붓고 멍이 든 41세 여성,
  • 스테이션 3, 일주일 전부터 오른쪽 무릎 통증이 있는 44세 남성,
  • 스테이션 4, 2개월 동안 가끔씩 질 출혈이 있는 40세 여성;
  • 스테이션 5, 오늘 아침 발작을 일으킨 26세 남성,
  • 스테이션 6 , 오늘 아침 기상 후 갑자기 어지럼증이 시작된 46세 여성,
  • 스테이션 7, 오른쪽 하복부 통증이 있는 21세 여성,
  • 스테이션 8, 병동 복도에서 갑자기 의식을 잃은 57세 남성이었습니다.

이 연구를 위해 새로 추가되거나 개발된 스테이션은 없었습니다. 
The examination was comprised of 7 stations where students encountered standardized patients (SPs) and 1 station where students performed procedural skills on a manikin. The topic of each station was as follows: station 1, a 60-year-old woman presented with cough and shortness of breath for the past month; station 2, a 41-year-old woman presented with swelling and bruising of her right eye; station 3, a 44-year-old man with a right knee pain from a week ago; station 4, a 40-year-old woman with occasional vaginal bleeding for 2 months; station 5, a 26-year-old man with seizure this morning; station 6, a 46-year-old woman with sudden onset of dizziness after waking up this morning; station 7, a 21-year-old woman with right lower abdominal pain; and station 8, a 57-year-old man suddenly lost consciousness in a ward hallway. There were no newly added or developed stations for this study.

검사관 교육은 평소와 동일한 방식으로 진행되었습니다. 총 32명의 의사 시험관이 4개 의과대학의 각 스테이션에서 체크리스트와 글로벌 평가 척도를 작성하여 수험자의 수행 능력을 평가했습니다. 글로벌 평가에서 기존 4점 숫자 척도의 숙련도 평가가 불합격, 경계선, 양호, 우수의 범주형 척도로 변경된 것이 유일한 변경 사항입니다. 각 스테이션의 컷 점수는 다음과 같이 결정되었습니다: (1) 평균과 표준편차(SD)를 계산하고, (2) 평균에서 1 SD를 뺀 다음, (3) 이 점수를 커트라인 점수로 설정합니다.
The examiners’ training proceeded in the same way as usual. A total of 32 physician examiners evaluated examinee performance at each station in 4 medical schools by completing the checklist and global rating scales. The only change was that the existing 4-point numeric scale for proficiency in global rating was changed to a categorical scale of fail, borderline, good, and excellent. The cut score of each station was determined as follows: (1) calculate the mean and standard deviation (SD); (2) subtract 1 SD from the mean; and (3) set this score as the cut score.

참가자
Participants

5개 의과대학에서 총 107명의 4학년 의대생이 4개 의과대학 술기 센터에서 열린 BGCSE 마지막 날에 참석했습니다. 
A total of 107 fourth-year medical students from 5 medical schools attended the last day of the BGCSE at 4 medical school skill centers.

변수
Variables

주요 결과는 각 스테이션의 규범 참조 방식, BGM, BRM에 의한 컷 점수로 정의했습니다.

  • 표준참조법의 컷 점수는 각 스테이션의 평균에서 1 SD를 빼는 방식으로 결정되었으며, 이는 BGCSE의 기존 방식입니다.
  • BGM의 컷 점수는 다음과 같은 단계로 수행되었습니다: (1) 경계선 그룹 수험자를 식별하고, (2) 체크리스트 점수를 수집하고, (3) 이 그룹의 중앙값을 컷 점수로 설정했습니다.
  • BRM의 컷 점수는 다음 단계에 따라 결정되었습니다: (1) 모든 수검자의 체크리스트 점수와 전체 평가 점수를 수집하고, (2) Microsoft Excel(Microsoft Corp., 미국 워싱턴주 레드몬드)을 사용하여 회귀 방정식(y=a+bx)을 만들고, (3) 경계선 그룹의 척도(본 연구에서는 x=2)를 방정식에 삽입하고, (4) 방정식에서 계산된 y를 컷 점수로 설정했습니다. 

The primary outcomes were defined as a cut score by the norm-referenced method, BGM, and BRM of each station.

  • The cut score of norm-referenced method was determined by subtracting 1 SD from the mean of each station, which is the conventional method in BGCSE.
  • The cut score of the BGM was performed by the following steps: (1) borderline group examinees were identified, (2) their checklist scores were collected, and (3) the median score for this group was set as the cut score.
  • The cut score of the BRM was determined as following steps: (1) checklist and global rating scores of all examinees at the station were collected, (2) a regression equation (y=a+bx) was produced using Microsoft Excel (Microsoft Corp., Redmond, WA, USA), (3) the scale of borderline group (in this study, x=2) was inserted into the equation, and (4) the calculated y of the equation was set as the cut score.

2차 결과는 각 표준 설정 방법에 따라 각 스테이션에서 불합격 학생의 수로 정의했습니다. 
The secondary outcome was defined as the number of failed students at each station according to each standard setting method.

데이터 소스/측정
Data sources/measurement

시험관들은 컴퓨터 프로그램을 사용하여 학생들의 성적을 채점했으며, 결과는 자동으로 처리되었습니다. 모든 변수는 엑셀 스프레드시트(Microsoft Corp.)에 기록했습니다.편향성연구 계획에서 편향성은 발견되지 않았습니다. 
The examiners scored the students’ performance using a computer program, and the results were automatically processed. All variables were recorded in an Excel spreadsheet (Microsoft Corp.).BiasNo bias was found in the study scheme.

연구 규모
Study size

이 연구는 효과를 결정하기 위한 것이 아니므로 표본 크기를 계산하지 않았습니다. 
This study was not intended to determine effect and was therefore not indicated to calculate sample size.

통계적 방법
Statistical methods

각 스테이션과 경계선 그룹의 평균과 SD를 포함한 기술적 통계가 사용되었습니다. 회귀 분석은 Microsoft Excel ver. 2105(Microsoft Corp.)를 사용하여 회귀 방정식을 생성했습니다. 회귀 방정식에 경계선 그룹의 척도(x=2)를 삽입하여 BRM의 컷 점수를 계산했습니다. 표준 참조 방식과 BGM, 그리고 표준 참조 방식과 BRM 간의 컷 점수 비교를 위해 쌍으로 된 t-검정을 실시했습니다. P-값이 0.05 미만이면 유의미한 것으로 간주했습니다. 
Descriptive statistics were used, including the mean and SD of each station and borderline group. Regression analysis was conducted to produce a regression equation using Microsoft Excel ver. 2105 (Microsoft Corp.). The scale of the borderline group (x=2) was inserted into the regression equation to calculate the cut score of the BRM. A paired t-test for the cut score comparison between the norm-referenced method and BGM, and between the norm-referenced method and BRM were conducted. The P-value <0.05 was considered significant.

결과
Results

참가자
Participants

총 107명의 학생이 시험을 완료했으며, 32명의 교수가 시험관으로 참여했습니다. 
A total of 107 students completed the examination, and 32 professors participated as examiners.

주요 결과
Main results

7개 SP 접점 스테이션과 1개 스킬 스테이션의 G-계수를 사용한 신뢰도는 각각 0.76, 0.73이었습니다(표 1, 2).
The reliability using the G-coefficient in 7 SP encounter stations and 1 skill station was 0.76 and 0.73, respectively (Tables 1, 2).

 

규범 참조 표준 설정 방법, BGM, BRM에 따른 각 스테이션의 예측 컷 점수
Predicted cut score of each station by the norm-referenced standard setting method, BGM, and BRM

표준 참조 방식과 각 스테이션의 BGM 및 BRM에 따른 평균, SD, 예측 컷 점수는 표 3과 데이터 세트 1에 나와 있습니다. 수험생들의 점수 히스토그램은 그림 1에 나와 있습니다. 각 스테이션에서 "경계선"으로 평가된 수험생의 비율은 그림 2에 나와 있습니다. 회귀 방정식, 결정 상관관계(R2), BRM에 의한 각 스테이션의 플롯은 표 4, 데이터 세트 1 및 그림 3에 나와 있습니다. 

The mean, SD, and predicted cut score by the norm-referenced method and the BGM and BRM of each station are shown in Table 3 and Dataset 1. The histogram of the examinees’ scores is shown in Fig. 1. The proportion of examinees rated as “borderline” at each station is shown in Fig. 2. The regression equation, correlation of determination (R2), and plot of each station by the BRM are shown in Table 4, Dataset 1, and Fig. 3.

표준 참조 방식의 컷 점수는 각 스테이션에서 BGM(P<0.01)과 BRM(P<0.02)보다 각각 낮았습니다. BGM과 BRM 간의 컷 점수는 유의미한 차이가 없었습니다(P=0.99)(표 3). SD가 가장 높은 스테이션 5와 '경계선' 판정을 받은 수검자 비율이 가장 높은 스테이션 6이 표준 설정 방법에 따른 컷 점수 차이가 가장 크게 나타났습니다(표 3). 각 스테이션의 판정 상관관계(R2)는 0.28~0.64 범위였습니다(표 4).  
The cut score of the norm-referenced method was lower than that of the BGM in each station (P<0.01) and BRM (P<0.02), respectively. There was no significant difference in the cut score between the BGM and BRM (P=0.99) (Table 3). Station 5, with the highest SD, and station 6, with the highest proportion of examinees rated as “borderline”, showed the largest cut score difference by standard setting methods (Table 3). The correlation of determination (R2) of each station ranged from 0.28 to 0.64 (Table 4).

표준점수 기준 설정 방식별 표준점수 미달 수험자 수, BGM 및 BRM
Number of examinees below standard by norm-referenced standard setting, BGM, and BRM

모든 스테이션에서 규범 참조 기준 설정 방식에 의한 불합격자 수보다 BGM과 BRM에 의한 불합격자 수가 더 많았습니다. 특히 3번, 5번, 6번 스테이션의 불합격자 수가 2배 가까이 증가했습니다(표 1). 
At all stations, there were more failed examinees by the BGM and BRM than by the norm-referenced standard setting method. In particular, the number of failed examinees at stations 3, 5, and 6 almost doubled (Table 1).

토론
Discussion

주요 결과
Key results

본 연구는 의과대학 4학년 학생을 대상으로 한 OSCE에서 표준 설정을 규범 참조 방식에서 BGM과 BRM으로 변경했을 때의 커트라인 점수를 비교하는 것을 목표로 했습니다. BGM과 BRM의 전체 커트라인 점수는 규범 참조 방식과 비슷하거나 더 높았기 때문에 불합격자 수가 더 많았습니다. 그러나 3번, 5번, 6번 문항은 표준점수 설정 방식에 따른 커트라인 점수 차이가 가장 크게 나타났습니다. 
This study aimed to compare the cut score when the standard setting was changed from the norm-referenced method to the BGM and BRM in an OSCE of fourth-year medical students. The overall cut scores of the BGM and BRM were similar or higher than those of the norm-referenced method; thus, the number of failed examinees was higher. However, stations 3, 5, and 6 showed the largest differences in the cut score according to each standard setting method.

해석
Interpretation

의사국가고시에서 표준점수 설정은 중요하지만, 실제 의대생들의 데이터를 다루고 다양한 표준점수 설정 방법의 결과를 비교한 실제 가이드라인은 거의 없습니다. 이러한 표준 설정 방법의 특성을 비교하는 것은 의과대학의 시험 관리자에게 유용할 것입니다. 이 연구에서는 두 가지 표준 설정 방법의 실제 시행 사례를 보고하고 제공했습니다. 
The standard setting for OSCEs is important; however, there are few practical guidelines that handle real medical students’ data and compare the outcomes of using different standard setting methods. Comparing the characteristics of these standard setting methods would be useful for examination administrators of medical schools. This study reported and provided a real example of the implementation of 2 standard setting methods for OSCEs.

스테이션 3과 스테이션 6은 히스토그램을 고려할 때 케이스 난이도가 높은 것으로 보입니다(그림 1). 스테이션이 어려우면 점수가 낮은 수험생이 많을 수 있습니다. 실제 수험생 성적을 기준으로 하는 BGM과 BRM에서는 불합격 수험생이 증가할 수 있습니다. 하지만 표준점수 기준 방식(보통 1등급 또는 백분위 60점 이하로 설정)은 문항의 난이도를 고려하지 않고, 단순히 1등급 이하를 불합격으로 정의합니다. 스테이션 3과 6의 표준 설정에 따른 컷 점수의 차이는 규범 참조 방식이 어려운 스테이션에서 잘 작동하지 않는다는 것을 보여줍니다. 
Stations 3 and 6 seemed to have a high level of case difficulty considering their histograms (Fig. 1). If the station is difficult, there may be many examinees with low scores. Under the BGM and BRM, which are based on actual examinee performance, failed examinees would increase. However, the norm-referenced method (usually set below 1 SD or 60 percentile) does not consider the difficulty of the station; it simply defines failed examinations as below 1 SD. The difference in cut scores according to standard settings at stations 3 and 6 shows that the norm-referenced method does not function well in difficult stations.

스테이션 5는 경계선(15.89%)으로 평가된 수험생의 비율이 가장 낮고 SD가 가장 높았습니다(14.27). 경계선으로 평가된 코호트가 충분하지 않은 경우, 상대적으로 적은 수의 수험자를 기준으로 컷 점수가 산출되어 컷 점수와 관련된 통계적 오차가 증가할 수 있습니다[12]. 점수 분포가 왼쪽으로 치우쳐 있고 경계선 그룹이 전체 점수 분포의 아래쪽 얇은 꼬리에 위치하기 때문에 평균 또는 중앙값이 높은 쪽으로 편향될 수 있습니다[13]. 이러한 편향성은 본 연구 결과에서도 확인할 수 있습니다. 경계선 그룹이 가장 큰 스테이션 6의 경우 BGM과 BRM의 컷 점수 차이는 0.20으로 스테이션 간 차이가 가장 작았지만, 경계선 그룹이 가장 작은 스테이션 5의 경우 2.86으로 스테이션 간 차이가 가장 컸습니다. 스테이션 5에서 BGM과 BRM의 컷 점수 차이가 큰 것은 이러한 편향 때문인 것으로 생각됩니다. 경계선 그룹의 코호트가 더 작으면 이 차이는 더 커질 것입니다. 그러나 선형 회귀는 그룹 내의 모든 점수를 사용하므로 이러한 편향을 피할 수 있습니다. 
Station 5 had the lowest proportion of examinees rated as borderline (15.89%) and the highest SD (14.27). If there are insufficient cohorts evaluated as borderline, cut scores may be calculated based on a relatively small number of examinees, which may increase the statistical error associated with the cut score [12]. As the score distribution is left-skewed and the borderline group is at the lower thin tail of the overall score distribution, the mean or median will be biased toward the high side [13]. This bias can also be confirmed in the results of this study. In station 6 with the largest borderline group, the difference in cut score between BGM and BRM was 0.20 (the smallest difference among stations), but at station 5 with the smallest borderline group, it was 2.86 (the largest difference among stations). At station 5, the difference in cut scores between the BGM and BRM is thought to be due to this bias. If the cohort of borderline group is smaller, this difference will be larger. However, linear regression uses all the scores within the group and therefore avoids this bias.

이전 연구와의 비교
Comparison with previous studies

본 연구 결과에서 알 수 있듯이, 규범 참조 방식은 시험관이 수험생이 수행 능력이 부족하다고 평가했음에도 불구하고 합격할 위험이 있었습니다. 이러한 유형의 표준 설정은 일반적으로 채용 지원자를 선발하거나 채용 가능한 자리가 제한되어 있는 교육 프로그램에서 사용됩니다[14]. 표준 설정은 시험의 목표에 따라 적용되어야 합니다. 의과대학에서 지원자 선발에 OSCE를 사용하는 경우가 아니라면, 규범 참조 방법은 적절하지 않습니다. 
As the results of this study show, the norm-referenced method had a risk of examinees passing the station even though the examiner evaluated the examinee as not competent on the performance. This type of standard setting is typically used when selecting applicants for employment or for educational programs where available positions are limited [14]. The setting of standards should be applied according to the goal of the examination. If the OSCE is not used for applicant selection in medical school, the norm-referenced method is not appropriate.

BGM의 장점은 통계적 절차가 필요하지 않고 컷 점수 계산이 쉽다는 것입니다. 그러나 본 연구의 5번 스테이션에서와 같이 경계선 그룹이 충분하지 않은 경우 BGM은 잠재적인 문제가 발생할 수 있습니다. Wood 등[13]의 연구에서도 동일한 문제가 발견되었습니다. 이 연구에서 경계선 그룹은 20%(수험생 12/59명)였으며, 합격률의 차이는 BGM에서 69%, BRM에서 92%였습니다. 세부적으로 살펴보면 12명의 수험생 모두 경계선 만족(열등, 미흡, 경계선 불만족, 경계선 만족, 양호, 우수의 6점 척도 사용)으로 BRM의 커트라인 점수가 수험생의 성적을 더 적절히 반영하고 있음을 알 수 있습니다. 
The advantages of the BGM are that no statistical procedure is required and the cut score calculation is easy. However, the BGM can have a potential problem when the borderline group is not sufficient, such as in station 5 of this study. The same problem was also found in the study of Wood et al. [13]. In their study, the borderline group was 20% (12/59 examinees), and the difference in the pass rate was 69% in the BGM and 92% in the BRM. When the station was reviewed in detail, all 12 examinees had borderline satisfactory scale (they used 6-point scales with inferior, poor, borderline unsatisfactory, borderline satisfactory, good, and excellent), indicating that the cut score of the BRM was a more appropriate reflection of the examinees’ performance.

BRM을 활용한 대부분의 연구는 졸업후의학교육 지원자와 같이 수험생 집단의 성적이 높은 비교적 큰 규모의 코호트(n>50)를 평가하는 데서 진행되었습니다. 이 연구 역시 107명의 수험생으로 구성된 대규모 코호트를 대상으로 진행되었습니다. 그러나 많은 의과대학의 OSCE는 1년 단위와 같은 소규모 코호트를 가지고 있을 수 있습니다. Homer 등[12]은 소규모 코호트에서 BRM을 사용하는 것이 일반적으로 성공적일 수 있음을 보여주었습니다. 그들은 다양한 고부담 평가 맥락에서 BRM의 사용을 조사한 결과 대부분의 스테이션에서 BRM이 효과적으로 작동한다는 것을 발견했습니다. 이들은 실용적인 관점에서 현존 컷 점수를 제안했습니다. 이전 스테이션 성과에 기반한 기존 컷 점수는 소규모 코호트에서 이상적으로 사용할 수 있습니다[12]. 
Most studies using the BRM have been conducted in the evaluation of relatively large cohorts (n>50) in which the examinee group is high performing, such as postgraduate candidates. This study was also conducted in a large cohort of 107 examinees. However, OSCEs in many medical schools may have small cohorts, such as a single-year group. Homer et al. [12] have shown that the use of the BRM in the context of small cohorts can be generally successful. They investigated the use of the BRM in different high stakes assessment contexts and found that the BRM functions effectively at most stations. They proposed an extant cut score from a practical point of view. Extant cut scores based on previous station performance would ideally be available in a small cohort [12].

BRM에서는 모델이 OSCE의 컷 점수를 얼마나 잘 예측하는지에 대한 회귀 모델의 적합성을 평가하기 위해 R2를 조사합니다. R2는 일반적으로 시험에서 획득한 점수의 백분율로 해석되며, 이는 시험 응시자의 임상 성과에 대한 글로벌 평가의 벤치마크 점수로 설명할 수 있습니다.

  • R2가 1.0이면 체크리스트의 모든 점수가 독립 변수인 시험자의 글로벌 등급 척도로 완전히 설명된다는 것을 의미합니다.
  • R2가 0.85에서 1.0 사이로 높으면 수험자의 임상 수행 체크리스트가 글로벌 등급 점수에 반영된 시험관의 평가와 일치한다는 것을 의미합니다.
  • R2가 0.5 이하로 낮으면 체크리스트 점수가 글로벌 등급 점수와 일치하지 않음을 나타냅니다[15].

그러나 많은 연구에서 R2의 값은 약 0.5로 본 연구와 크게 다르지 않은 합리적인 것으로 간주되었습니다 [16,17]. 
In the BRM, to assess the fitness of the regression model in terms of how well the model predicts the cut score of the OSCE, the R2 is examined. R2 is generally interpreted as a percentage of the score achieved in an examination that can be explained by a benchmark score of global rating on examinees’ clinical performance.

  • An R2 of 1.0 means that all scores of the checklist are completely explained by the global rating scale of the examiner as an independent variable.
  • A high R2, between 0.85 and 1.0, indicates that the checklist of examinees’ clinical performance is aligned with the examiner’s evaluation reflected in the global rating score.
  • A low R2 of 0.5 or less indicates that the checklist score is not aligned with the global rating score [15].

However, in many studies, the value of R2 was approximately 0.5 and was considered reasonable, which was not significantly different from this study [16,17].

 

한계점
Limitations

시험관들이 경계선 그룹의 학생을 평가하는 데 있어 합의는 BGM과 BRM에 중요합니다. 그러나 본 연구에서는 이 점을 다루지 않았습니다. 본 연구에서는 BGCSE에 참여한 시험관들이 다년간의 채점 경험을 바탕으로 충분한 합의가 이루어졌다고 가정했습니다. 이러한 합의를 유지하기 위해 시험관들이 수년 동안 익숙하게 사용해 온 4가지 범주형 척도를 수정하지 않고 글로벌 등급 척도로 사용했습니다. 그러나 이 가정이 항상 유효한 것은 아닙니다. 의과대학에 경험이 풍부한 시험관이 충분하지 않은 경우 경계선 학생 그룹을 식별하는 모델을 개발하는 것이 도움이 될 수 있습니다[18]. 
The consensus for rating borderline groups of students by examiners is important for the BGM and BRM. However, this study did not address this point. We assumed that the examiners who participated in the BGCSE had sufficient consensus based on their many years of scoring experience. In order to maintain this consensus, the 4 categorical scale, which examiners have been accustomed to using for many years, was used without modification as global rating scale. However, this assumption will not always be valid. If the medical school does not have enough experienced examiners, it may be helpful to develop a model to identify borderline groups of students [18].

일반화 가능성
Generalizability

본 연구의 결과를 고려할 때, BRM은 소규모 코호트에 적용할 수 있으며, 통계적 방법은 마이크로소프트사의 엑셀을 이용하여 수행할 수 있는 수준입니다. 
Considering the results of this study, the BRM can be applied to a small cohort, and its statistical methods are at a level that can be performed using Microsoft Excel (Microsoft Corp.).

제언
Suggestions

본 연구에서 사용된 글로벌 평가 척도는 실패, 경계선, 양호, 우수를 포함한 범주형 척도입니다. 그러나 이 척도가 5점 또는 6점으로 변경될 때 커트라인 점수가 어떻게 변하는지에 대해서는 추가 연구가 필요합니다. 본 연구의 OSCE에는 7개의 SP 만남 스테이션과 1개의 스킬 스테이션이 있었습니다. 또한 스테이션의 내용과 조합에 따라 컷 점수가 어떻게 변하는지에 대한 연구도 필요합니다. 
The global rating scale used in this study was a categorical scale including fail, borderline, good, and excellent. However, further study is needed to determine how the cut score changes when this scale changes to 5 or 6. In the OSCE of this study, there were 7 SP encounter stations and 1 skill station. It is also necessary to study how the cut score changes depending on the content and combination of the stations.

결론
Conclusions

규범 참조 방식의 컷 점수는 BGM과 BRM보다 낮았으며, BGM과 BRM 간 컷 점수에는 큰 차이가 없었습니다. 기존에 사용하던 기준 설정 방식을 변경하는 것은 쉽지 않을 것입니다. 그러나 문항 내용이나 수험생의 실력이 고려되지 않은 채 규범 참조 방식에 의한 컷 점수는 문항 난이도 및 내용에 따라 달라질 수 있어 기준 설정 결정의 적절성에 영향을 미칠 수 있습니다. OSCE의 커트라인 점수가 의료행위의 수행이 허용 가능한지 여부를 평가하는 최소한의 판단 기준이라면, 수험자 중심의 기준 설정 방식이 그 목적에 더 적합하다. 또한, 본 연구에서 제시된 바와 같이 BGM과 BRM 방식은 실무에 적용하기 어렵지 않다. 경계집단 기준에 대한 충분한 합의가 이루어진다면, BRM을 이용한 기준 설정은 보다 방어적인 방법으로 수검자의 커트라인 점수를 결정하는 데 적용될 수 있을 것입니다. 

The cut score of the norm-referenced method was lower than that of the BGM and BRM, and there was no significant difference in the cut score between the BGM and BRM. It will not be easy to change the previously used standard setting method. However, prefixed cut scores by the norm-referenced method, without considering station contents or examinee performance, can vary due to station difficulty and content, affecting the appropriateness of the standard setting decision. If the cut score of OSCE is the minimum judgement assessing whether the performance of medical practice is acceptable or not, examinee-centered standard setting method are more appropriate for that purpose. Moreover, as presented in this study, BGM and BRM methods are not difficult to apply in practice. If there is an adequate consensus on the borderline group criteria, standard setting with the BRM could be applied as more defensible method to determine the cut score of the OSCE stations.

 

 

 


J Educ Eval Health Prof. 2021;18:25. doi: 10.3352/jeehp.2021.18.25. Epub 2021 Sep 27.

Comparing the cut score for the borderline group method and borderline regression method with norm-referenced standard setting in an objective structured clinical examination in medical school in Korea

Affiliations collapse

Affiliations

1Department of Emergency Medicine, Dong-A University, College of Medicine, Busan, Korea.

2Department of Medical Education, Dong-A University, College of Medicine, Busan, Korea.

3Department of Medical Education and Neurology, Kosin University, College of Medicine, Busan, Korea.

4Department of Neurology, Busan Paik Hospital, Inje University, College of Medicine, Busan, Korea.

5Department of Emergency Medicine, Pusan National University, School of Medicine, Busan, Korea.

PMID: 34565121

PMCID: PMC8543078

DOI: 10.3352/jeehp.2021.18.25

Free PMC article

Abstract

Purpose: Setting standards is critical in health professions. However, appropriate standard setting methods do not always apply to the set cut score in performance assessment. The aim of this study was to compare the cut score when the standard setting is changed from the norm-referenced method to the borderline group method (BGM) and borderline regression method (BRM) in an objective structured clinical examination (OSCE) in medical school.

Methods: This was an explorative study to model of the BGM and BRM. A total of 107 fourth-year medical students attended the OSCE at seven stations with encountering standardized patients (SPs) and one station with performing skills on a manikin on 15 July 2021. Thirty-two physician examiners evaluated the performance by completing a checklist and global rating scales.

Results: The cut score of the norm-referenced method was lower than that of the BGM (p<0.01) and BRM (p<0.02). There was no significant difference in the cut score between the BGM and BRM (p=0.40). The station with the highest standard deviation and the highest proportion of the borderline group showed the largest cut score difference in standard setting methods.

Conclusion: Prefixed cut scores by the norm-referenced method without considering station contents or examinee performance can vary due to station difficulty and content, affecting the appropriateness of standard setting decisions. If there is an adequate consensus on the criteria for the borderline group, standard setting with the BRM could be applied as a practical and defensible method to determine the cut score for OSCE.

Keywords: Checklist; Educational measurement; Medical students; Objective structured clinical examination; Standard setting.

OSCE 합격선 설정: 세 가지 경계선 집단 방법(Medical Science Educator, 2022)
OSCE Standard Setting: Three Borderline Group Methods
Sydney Smee2 · Karen Coetzee1 · Ilona Bartman2 · Marguerite Roy3 · Sandra Monteiro4

 

소개
Introduction

표준 설정 시험에서 "경계선"으로 평가된 수험생은 전문 표준을 명확하게 충족한 수험생과 그렇지 않은 수험생을 구분하는 중요한 점수 범위를 나타내며, 어떤 "경계선" 수험생이 표준을 충족했는지를 파악하는 것이 과제입니다. 객관적 구조화 임상시험(OSCE)의 데이터로 커트라인 점수를 계산하기 위해 다양한 경계선 그룹 방법이 도입되었습니다[1,2,3,4,5,6]. 수정된 BGM은 사용 편의성을 최우선으로 고려했습니다[4]. 일반적으로 경계선으로만 평가된 수험자의 평균 점수가 각 스테이션에 대해 계산됩니다. 그런 다음 스테이션 평균 점수를 평균하여 최종 OSCE 컷 점수를 얻습니다. 최종 결정은 시험관의 판단을 최대한 반영하여 실제 수행을 관찰한 결과를 바탕으로 이루어집니다. 따라서 별도의 표준 설정 패널이 필요하지 않아 컷 점수 설정에 드는 노력과 비용을 크게 줄일 수 있다는 장점이 있습니다[7,8,9,10,11]. 그러나 이 방법의 유용성에 대한 초기 증거는 대규모 국가 OSCE의 맥락에서 나온 것입니다. 각 시험장마다 여러 명의 시험관이 있었고 각 시험장의 경계선 코호트 규모가 컸습니다[4]. 시험관 편차가 전체 등급에 미치는 영향과 경계선 그룹에 속한 이상치 응시자의 영향은 평균화하여 역별 컷 점수에 미치는 영향을 최소화하거나 전혀 영향을 미치지 않았습니다. 소규모 단일 기관 OSCE의 경우, 경계선 코호트에서 시험관 분산과 이상치 응시자, 또는 심지어 OSCE 스테이션에 경계선 응시자가 거의 또는 전혀 없는 경우에도 컷 점수에 상당한 부정적 영향을 미칠 수 있습니다. 
In standard-setting exercises, examinees rated as “borderline” represent a critical range of scores separating those that clearly met the professional standard and those that did not, the challenge being to determine which “borderline” examinees have also met the standard. A variety of borderline group methods have been introduced [1,2,3,4,5,6], for calculating cut scores with data from objective structured clinical exams (OSCE). The modified BGM places ease of use at the top of the list [4]. Typically the mean scores of examinees exclusively rated as borderline are calculated for each station. Then, the station mean scores are averaged to achieve a final OSCE cut score. The final decision is based on observations of actual performances, making the most of the judgment of the examiners. Consequently, another advantage is eliminating the need for a separate standard-setting panel, significantly reducing the effort and cost of setting a cut score [7,8,9,10,11]. However, early evidence of the method’s utility was in the context of a large-scale national OSCE. There were multiple examiners for each station and the borderline cohorts for each station were large [4]. The impact of examiner variance on the global ratings and the effect of outlier examinees in the borderline groups were averaged out with minimal to no impact on the station cut scores. For smaller, single institution OSCEs, examiner variance and outlier examinees in the borderline cohorts, or even having few to no borderline examinees identified for an OSCE station, can significantly and negatively impact the cut score.

본 연구는 수정된 BGM의 타당성을 유지하면서 소규모 코호트에서 수정된 BGM 사용의 위험을 완화할 수 있는 OSCE 컷 점수 설정 프로세스를 평가하기 위해 수행되었습니다. 이를 위해 이 연구에서는 회귀 기반 수정과 라쉬 기반 수정을 수정된 BGM과 비교하여 고려했습니다. 회귀 기반 경계선 그룹 방법(회귀 BGM) 라쉬 기반 경계선 그룹 방법(라쉬 BGM)의 강점을 아래에서 자세히 설명합니다. 
The present study was conducted to assess a process for setting an OSCE cut score that would mitigate the risks of using modified BGM with smaller cohorts while retaining the feasibility of modified BGM. To this end, this study considered a regression-based modification and Rasch-based modification in comparison to modified BGM. We expand on the strengths of both a regression-based borderline group method (regression BGM) and Rasch-based borderline group method (Rasch BGM) below.


회귀 BGM수정 BGM에서와 같이 경계선 수험생의 데이터뿐만 아니라 모든 수험생의 점수 데이터를 회귀 방정식에 사용하여 스테이션별 편차를 처리합니다. 회귀 BGM 표준 설정에서 각 시험장에 대한 선형 방정식은 각 수험생의 글로벌 등급을 독립 변수로, 관련 총 시험장 점수를 종속 변수로 사용하여 계산됩니다[5,6,7]. 그런 다음 경계선 표준을 나타내는 글로벌 등급(예: 5점 척도 3점)을 방정식에 삽입하여 스테이션별 컷 점수를 나타내는 해당 스테이션 점수를 예측합니다[5,6,7]. 데이터 그래프를 검토하고 회귀선에서 글로벌 점수와 스테이션 점수 사이의 교차점을 식별하여 이 작업을 수행할 수도 있습니다. 그런 다음 예측된 스테이션 컷 점수를 평균화하여 최종 OSCE 컷 점수를 결정합니다. 이 통계 분석은 일반적인 통계 소프트웨어 또는 스프레드시트를 사용하여 선형 회귀 분석을 스테이션 데이터에 적용하기만 하면 되기 때문에 매력적입니다 [5,6,7]. 회귀 BGM은 보건 교육에서 OSCE를 위한 최적의 선택으로 설명되어 왔으며[12], 여러 연구에서 OSCE 표준 설정 접근법에 대한 신뢰성이 입증되었습니다[13, 14]. 또한 회귀 BGM은 수정 BGM의 모든 장점을 포함하고 있습니다 [5]. 회귀 BGM은 경계선 등급 데이터뿐만 아니라 전체 등급의 모든 데이터를 사용함으로써 경계선 등급을 받은 수험생이 없더라도 스테이션 컷 점수를 설정할 수 있습니다. 그러나 수정된 BGM과 마찬가지로, 이 계산은 특히 스테이션당 시험관 수가 적은 경우 극단적인 시험관 평가에 여전히 취약합니다.  

The regression BGM addresses variance from a station by using all the examinee score data in the regression equation, not just data from the borderline examinees, as is done in modified BGM. In a regression BGM standard setting, a linear equation for each station is calculated using the global rating for each examinee as the independent variable and the associated total station scores as the dependent variable [5,6,7]. The global rating that represents the borderline standard (e.g. three on a 5-point scale) is then inserted into the equation to predict a corresponding station score that represents the station-specific cut score [5,6,7]. This can also be accomplished by examining a graph of the data and identifying the point of intersection on the regression line, between the global and station scores. The predicted station cut scores are then averaged to determine the final OSCE cut score. This statistical analysis is appealing as regression BGM only requires the application of a linear regression analysis to the station data, using common statistical software or spreadsheets [5,6,7]. The regression BGM has been described as an optimal choice for OSCEs in health education [12] and its reliability for OSCE standard-setting approach has been upheld in several studies [13, 14]. Furthermore, regression BGM includes all the advantages of modified BGM [5]. By using all the data from the global rating, not just the borderline rating data, regression BGM is able to set station cut scores even if no examinees are rated as borderline. However, as with modified BGM, the calculations are still vulnerable to extreme examiner ratings, especially when the number of examiners per station is small.

라쉬 BGM수정 BGM과 회귀 BGM의 동일한 장점과 시험자 편차의 영향을 완화할 수 있는 가능성을 제공합니다. 특히 Stone 등[15]은 수험자, 시험관, 시험장 및 전체 글로벌 성과 점수를 포함하는 4면체 라쉬 모델 분석을 Facets 소프트웨어에서 개발했습니다. Stone 등[15]은 라쉬 BGM이 평가 대상에 대한 잘못 정의된 구성에 대한 수정된 BGM의 의존도를 바로잡는다고 주장합니다. 라쉬 BGM의 뛰어난 특징은 정성적 전문가 판단을 평가 대상의 구성을 정의하는 정량적 단일 선형 척도로 변환한다는 것입니다[16, 17]. 이 표준화된 척도를 사용하면 콘텐츠 난이도와 응시자 능력 간의 직접적인 점수 비교가 가능하며, 이 척도를 따라 컷 점수를 점수로 표시할 수 있습니다. 커트라인 점수는 능력 수준이 충분하다고 판단되고 필수 지식 또는 역량을 습득한 것으로 간주되는 지점을 척도 상에 표시합니다. 다면 라쉬 측정 모델은 수험자의 점수에 영향을 줄 수 있는 시험 요소, 즉 OSCE와 같은 수행 평가에서 시험관의 채점 행동과 같은 요소를 포함할 수 있습니다. 여러 측면을 포함하면 이러한 측면과 관련된 분산을 추정할 수 있으며 시험관 매개 평가를 위한 객관적인 표준 설정 방법의 개발이 가능해집니다. 시험관을 포함함으로써 모델은 엄격하거나 관대한 채점과 관련된 분산을 설명할 수 있었습니다. 글로벌 등급 패싯은 경계선 수험생과 관련 역 점수 간의 직접 점수 비교를 위한 추정치를 계산하는 데 사용되었습니다. Stone 등[15]은 라쉬 기반 컷 점수가 패널 기반 표준 설정 패널의 결과와 매우 유사한 결과를 산출하여 라쉬 BGM이 검사자 매개 평가를 위한 유효하고 자원 집약적이지 않은 표준 설정 대안임을 입증했다고 밝혔습니다. 
The Rasch BGM offers the same advantages of both modified BGM and regression BGM, and the possibility of mitigating the impact of examiner variance. Specifically, Stone et al. [15] developed a four-facet Rasch model analysis in Facets software, which included examinees, examiners, stations, and the overall global performance score. Stone et al. [15] argue the Rasch BGM rectifies modified BGM’s reliance on a poorly defined construct of what is being assessed. The outstanding feature of Rasch BGM is the translation of qualitative expert judgments onto a quantitative single linear scale that defines the construct being assessed [16, 17]. Using this standardized scale, it is possible to make direct score comparisons between content difficulty and test-taker ability and to represent the cut score as a point along this scale. The cut score marks the point on the scale where ability level is judged sufficient and essential knowledge or competence is deemed to be mastered. The many-facet Rasch measurement model allows for the inclusion of test facets that may influence examinee scores; facets such as examiner scoring behaviour in performance assessments like an OSCE. The inclusion of multiple facets allows the variance associated with these facets to be estimated and makes the development of an objective standard-setting method for examiner-mediated assessments possible. Including examiners allowed the model to account for variance associated with stringent or lenient scoring. The global rating facet was used to calculate estimates for direct score comparisons between borderline examinees and their associated station scores. Stone et al. [15] found that the Rasch-based cut score produced results that were very similar to results from a panel-based standard-setting panel, thereby demonstrating that Rasch BGM was a valid and less resource-intensive standard-setting alternative for examiner-mediated assessments.

세 가지 경계선 그룹 방법의 공통적인 장점은 위에 언급된 연구에 열거되어 있습니다:

  • (1) 기준 참조 컷 점수는 임상 전문가가 여러 번의 실제 수행을 직접 관찰하여 (비디오로 촬영된 소량의 샘플이나 가상 수행에 근거한 판단이 아니라) 달성되며,
  • (2) 이미 OSCE에 참여하고 있는 시험관에게 의존함으로써 실현 가능성이 크게 향상되고,
  • (3) 기본 소프트웨어를 사용하여 각 시행 후 컷 점수 계산이 신속하게 완료되며,
  • (4) 비용, 시간 또는 노력 측면에서 컷 점수 설정과 관련된 자원이 적다는 점 등이 있습니다. 

The common advantages of all three borderline group methods are enumerated in the studies referenced above:

  • (1) a criterion-referenced cut score is achieved based on direct observation of multiple actual performances by clinical experts (rather than judgments based on a small sample of videotaped or hypothetical performances),
  • (2) feasibility is significantly enhanced by reliance on examiners who are already part of the OSCE,
  • (3) calculating the cut score is completed quickly after each administration using basic software, and
  • (4) resources associated with setting the cut score are small, whether measured in terms of money, time, or effort.

저희의 의도는 시험관 및 기타 원치 않는 변수의 영향을 최소화하여 OSCE 표준 설정 결정에 더 나은 정보를 제공할 수 있는 가능성을 고려하여 더 일반적으로 사용되는 수정된 BGM회귀 BGM과 비교하여 라쉬 BGM의 정확성을 설명하는 것이었습니다. 각 방법은 캐나다에서 실무 경험을 쌓고자 하는 국제적으로 훈련된 간호사를 평가하는 고난도 12개 스테이션 OSCE의 커트라인 점수를 설정하는 데 채택되었습니다.  
Our intent was to describe the accuracy of the Rasch BGM, compared to the more commonly used modified BGM and the regression BGM, given its potential to minimize the impact of examiner and other unwanted variance with the goal of better informing OSCE standard-setting decisions. Each method was adopted to set the cut score for a high-stakes 12-station OSCE assessing internationally trained nurses seeking entry to practice in Canada.

자료 및 방법
Materials and Method

이 연구의 데이터는 캐나다 내 주정부 등록 절차의 일환으로 평가 프로그램을 이수한 112명의 국제 교육을 받은 간호사를 평가한 2016년 OSCE에서 얻었습니다. OSCE는 다양한 환자 인구 통계에 걸쳐 공통적이고 중요한 환자 프레젠테이션을 샘플링하는 12개 스테이션으로 구성되었습니다. 응시자는 각 스테이션을 11분 이내에 완료해야 했습니다. 
Data for this study came from a 2016 OSCE that assessed 112 internationally educated nurses who completed an assessment program as part of a provincial registration process within Canada. The OSCE consisted of 12 stations that sampled common and important patient presentations across various patient demographics. Examinees were required to complete each station within 11 min.

모든 응시자는 연구 및 품질 관리 목적으로 데이터를 사용하는 데 동의했으며, 모든 보고서는 모든 개인 식별자를 제거한 집계 데이터만 사용한다는 데 동의했습니다. 맥마스터 대학교의 해밀턴 통합 연구위원회는 이 동의서에 따라 수행된 OSCE 연구(보고 포함)는 추가적인 윤리 검토가 면제되는 것으로 간주했습니다. 
All the examinees consented to the use of their data for research and quality control purposes with the agreement that any reports would only use aggregate data with all personal identifiers removed. The Hamilton Integrated Research Board of McMaster University deemed OSCE research done under this consent agreement, including reporting, exempt from further ethics review.

성과는 주 간호대학에서 정의한 입문-실무 역량과 관련된 14개의 사전 정의된 역량을 사용하여 채점되었습니다.

  • 지식 기반 실무에는 (1) 병력 및 데이터 수집, (2) 신체 사정, (3) 결과 분석 및 해석, (4) 우선순위 결정, (5) 간호 전략 실행, (6) 의사소통, (7) 고객과의 협력, (8) 의료팀과의 협력, (9) 간호 계획 개발, (10) 간호 평가 및 모니터링 등 10가지 역량이 포함되었습니다.
  • 윤리적 실천의 경우 (1) 책임과 성실성, (2) 안전, (3) 옹호, (4) 법적 의무의 네 가지 역량이 있었습니다.

각 스테이션에서 이 중 10~12개의 역량을 평가했습니다. 수험생들은 4개의 트랙 중 하나에 배정되었으며, 같은 날 모두 세 개의 세션 중 하나에 배정되었습니다. 각 스테이션당 4명의 시험관이 배치되었으며, 각 시험관은 28개의 수행을 관찰하여 총 48명의 시험관이 참여했습니다.  
Performance was scored using 14 predefined competencies related to entry-to-practice competencies defined by the provincial college of nurses.

  • For knowledge-based practice, there were 10 competencies: (1) health history and data collection, (2) physical assessment, (3) analysis and interpretation of findings, (4) prioritization, (5) implementation of care strategies, (6) communication, (7) collaboration with the client, (8) collaboration with the health care team, (9) nursing care plan development, and (10) evaluation and monitoring of care.
  • For ethical practice, there were four competencies: (1) responsibility and integrity, (2) safety, (3) advocacy, and (4) legal obligations.

Ten to 12 of these competencies were assessed in each station. The examinees were allocated to one of four tracks, as well as one of three sessions all conducted on the same day. There were four examiners per station, with each one observing 28 performances, for a total of 48 examiners.

시험관들은 현재 주 내에서 근무 중인 간호사들로 구성되었습니다. 이들은 OSCE에 대한 정보(기본 사항, 평가 대상 역량, 평가 지침 등)로 시작하여 태블릿 채점 및 시험 당일 물류에 대한 지침으로 구성된 공식 교육을 받았습니다. 또한 필기 내용에 대한 이해도를 보정하고 표준화하기 위한 소그룹 작업도 있었습니다. 마지막으로, 화상 회의와 후속 토론을 통해 대그룹 채점 연습이 진행되었습니다. 총 교육 시간은 이틀에 걸쳐 12시간이었습니다. 
Examiners were registered nurses currently practicing within the province. They received formal training that began with information about the OSCE (i.e. fundamentals, competencies being assessed, and rating guidelines), followed by instructions on tablet scoring and exam day logistics. There was also small group work to calibrate and standardize their understanding of the written content. Finally, there was a large group scoring exercise using videotaped encounters and follow-up discussions. Total training time was 12 h spread over 2 days.

시험관들은 각 역량에 대해 동일한 5점 만점 평가 척도를 사용하여 배정된 스테이션 내에서 수험생의 수행을 채점했습니다. 평가 척도는 녹색(탁월한 성과), 파란색, 노란색, 주황색, 빨간색(긴급한 성과)의 색상으로 고정되었습니다. 시험관이 피시험자의 성과에 범주형 라벨을 부여하도록 장려하기 위해 숫자 대신 색상을 성과 수준을 나타내는 지표로 사용했습니다. 터치스톤 연구소에서 실시한 내부 품질 보증 조사에 따르면, 시험관들은 숫자 등급이 암시하는 정확성이나 등급이 수험생의 합격 또는 불합격 여부에 영향을 미치는 것과는 달리, 색상 등급이 성능에 더 집중하는 데 도움이 된다고 생각하여 색상 등급을 선호한다고 답했습니다. 이 척도에서 파란색은 앵커 점수 또는 시험 표준을 나타내며, 이는 수험생이 최근 캐나다 간호 프로그램을 졸업한 사람에게 기대되는 실무 진입 표준과 동등한 수준의 수행을 하고 있음을 의미합니다. 시험관은 이 표준에 약간 미달하는 점수에는 노란색을, 이보다 더 낮은 점수를 받은 수험생에게는 주황색을 할당하도록 훈련받았습니다. 이러한 색상 수준은 사후에 5(녹색)에서 1(빨간색)까지의 수치 점수로 변환되었습니다. 각 스테이션의 등급 척도 점수의 평균이 해당 스테이션에 대한 수험자의 점수입니다. 각 스테이션 점수의 평균은 각 수험자의 총 OSCE 점수입니다. 
During the OSCE, examiners scored examinee performances within their assigned stations using the same 5-point global rating scale for each competency. The rating scales were anchored by colours ranging from green (exceptional performance), blue, yellow, orange, to red (emergent performance). Colours were used as indicators of performance level, instead of numbers, to encourage examiners to assign a categorical label to the examinee’s performance. Internal quality assurance inquiries conducted at Touchstone Institute indicated that examiners preferred a colour scale as they felt it helped them focus more on the performance, as opposed to the precision implied by a number rating, or whether their rating would be responsible for passing or failing the examinee. On this scale, blue represents the anchor score or test standard, meaning an examinee is performing at a level equivalent to the Entry to Practice Standard expected of a recent graduate of a Canadian nursing program. Examiners are trained to allocate yellow to a performance slightly below this standard and orange to an examinee who performs even further below this. These colour levels were converted to numerical scores ranging from 5 (green) to 1 (red) post hoc. The mean of the rating scale scores for each station was the examinee’s score for that station. The mean of the station scores was each examinee’s total OSCE score.

합격 기준은 해당 주 내에서 최근 간호사를 졸업한 사람들이 수용할 수 있는 성적을 획득하는 것으로 정의되었습니다. 각 스테이션에 대해 시험관들은 위에서 설명한 역량에 점수를 매기는 데 사용한 것과 동일한 5점 척도를 사용하여 각 수험자의 성과를 전반적으로 평가했습니다. 다음과 같은 지침이 제공되었습니다. "이 스테이션의 전반적인 성과에 근거하여, 최근 주 학사 간호 프로그램을 졸업한 졸업생과 비교한 수험생의 현재 역량 수준은 -입니다."입니다. 5점 만점에 3점(노란색)을 받으면 "경계선"에 해당하는 수행을 확인할 수 있습니다. 수정된 BGM과 회귀 BGM의 경우 스테이션 점수가 사용되었습니다. 라쉬 BGM의 경우, 스테이션 점수를 먼저 백분율로 변환했습니다. 모든 OSCE 컷 점수는 가장 가까운 정수로 반올림했습니다.  
The standard for passing was defined as attaining a performance acceptable for recent nurse graduates within the province. For each station, examiners rated each examinee’s performance globally, using the same 5-point rating scale as used to score the competencies described above. The following guideline was provided, “Based on the overall performance for this station, the examinee’s current level of competence as compared to a recent graduate from a provincial baccalaureate nursing program is–”. A global rating of 3 (yellow) out of 5 identified performances that were “borderline”. For modified BGM and regression BGM, stations scores were used. For Rasch BGM, station scores were first converted to a percent. All the OSCE cut scores were rounded to the nearest whole number.

  • 수정된 BGM의 경우, 경계선 수행능력의 평균 점수가 해당 스테이션의 컷 점수가 되고, 스테이션 컷 점수의 평균이 OSCE 컷 점수가 되었습니다. 계산은 스프레드시트에서 수행되었습니다.
    For modified BGM, the mean score of the borderline performances became the cut score for the station and the average of the station cut scores became the OSCE cut score. The calculations were done in a spreadsheet.
  • 회귀 BGM의 경우, 각 수험생의 글로벌 등급을 독립변수로, 해당 스테이션 점수를 종속변수로 사용하여 12개 스테이션 각각에 대한 선형 방정식을 계산했습니다. 이러한 계산은 스프레드시트에서도 수행되었습니다. 각 방정식에서는 3등급의 경계선 등급을 사용하여 스테이션별 예상 컷 점수를 계산했습니다. 스테이션별 컷 점수의 평균을 계산하여 OSCE 컷 점수를 생성했습니다.
    For regression BGM, a linear equation for each of the 12 stations was calculated using the global rating for each examinee as the independent variable and the corresponding station score as the dependent variable. These calculations were done in a spreadsheet as well. The borderline rating of three was used in each equation to calculate the predicted station-specific cut scores. The station cut scores were averaged to generate the OSCE cut score.
  • 라쉬 BGM의 경우, 백분율로 표시되는 점수[18,19,20,21]에 유용한 4면 B100 라쉬 모델을 Facets 소프트웨어[22] 내에서 생성하여 각 스테이션에 개별적으로 적용했습니다. 패싯 1은 수험생, 패싯 2는 시험관, 패싯 3은 스테이션의 전체 글로벌 성능 점수(1~5로 코딩), 패싯 4는 수험생의 스테이션 점수로 구성되었습니다.
    For Rasch BGM, a four-facet B100 Rasch model, useful for scores expressed as percentages [18,19,20,21], was created within Facets software [22] and applied to each station separately. Facet One was examinees, Facet Two was examiner, Facet Three was the overall global performance score for the station, coded as 1 to 5, and Facet Four was examinees’ station scores.

단절되거나 분리된 하위 집합을 처리하기 위해 패싯 1(수험생)을 0에 고정하고 중심이 아닌 패싯 4(스테이션 점수)를 고정했습니다. 따라서 패싯 1은 각 수험자를 수험자 표준 셀의 대표로 취급하는 더미 변수로 나타났습니다[18]. 데이터가 Rasch 모델 사양에 어느 정도 부합하는지, 따라서 이 분석에 적합한지 확인하기 위해 소프트웨어 출력의 일부로 생성된 적합 평균 제곱(MnSq) 통계를 조사했습니다. 적합도 또는 정보 가중치 통계는 개인을 대상으로 하는 항목에 대한 응답 패턴에 더 민감하며 그 반대의 경우도 마찬가지이므로 일반적으로 모델 적합도 데이터를 결정할 때 적합도보다 더 유용한 것으로 간주됩니다[19]. 그 범위에 대해서는 종종 논란이 있지만, 우리는 0.50에서 1.50 사이의 인핏 MnSq 값을 "측정에 생산적"으로, 0.50 미만과 1.50에서 2.0 사이는 생산성은 떨어지지만 저하되지는 않는 것으로, 2.0 이상은 측정 시스템을 왜곡하는 것으로 채택했습니다[19, 20]. 또한 출력의 일부로 생성된 분리 신뢰도 지수 통계는 각 패싯에 포함된 요소 간의 분산 또는 이질성 수준을 나타냅니다. 이 통계는 0에서 1 사이의 범위를 사용하며, 1에 가까운 값은 요소 간의 분산 수준이 높음을 나타냅니다[21]. 
To deal with disconnected or disjointed subsets, we anchored Facet One (examinees) at 0 and non-centred Facet Four (station score). Facet One therefore represented a dummy variable which treated each examinee as a representative of their examiner-standard cell [18]. To determine the extent to which the data fit the Rasch model specifications and therefore its suitability for this analysis, we investigated the infit mean square (MnSq) fit statistics generated as part of the software output. Infit or information-weighted statistics are more sensitive to the pattern of responses to items targeted on the person and vice versa; they are therefore generally considered more useful than outfit in determining data to model fit [19]. Although the range is often disputed, we adopted infit MnSq values between 0.50 and 1.50 as “productive for measurement”, less than 0.50 and between 1.50 and 2.0 as less productive but not degrading, and greater than 2.0 as distorting the measurement system [19, 20]. The Reliability of Separation Index statistic, also generated as part of the output, provided an indication of the level of variance or heterogeneity between the elements included within each facet. This statistic adopts a range from 0 to 1, with values closer to 1 representing higher levels of variance between elements [21].


경계선 수험생의 공정 평균 점수는 각 스테이션의 커트라인 점수가 되었습니다. 각 측면의 공정 평균 점수는 원래 점수 지표를 사용하여 계산되었으며, 시험관 배정과 관련된 분산과 같은 맥락[18,19,20,21]을 고려한 관찰된 평균을 나타냅니다. 그런 다음 스테이션 컷 점수를 평균화하여 최종 Rasch BGM 컷 점수를 생성했습니다. 
The fair averagescore for borderline examinees became the cut score for each station. The fair average score for each facet was calculated using the original score metric and represents the observed average, accounting for context [18,19,20,21], for instance, the variance associated with examiner assignment. The station cut scores were then averaged to generate the final Rasch BGM cut score.

알파 계수와 함께 OSCE에 대한 기술 통계가 계산되었습니다. 컷 점수와 합격률, 결정 정확도 및 일관성 지수도 BB-CLASS 소프트웨어[23,24,25]를 사용하여 계산했습니다. 항목별 총 상관관계 및 컷 점수와 함께 스테이션 수준의 설명 통계도 분석에 포함되었습니다. 회귀 분석의 스테이션 수준 결과도 제공됩니다. 
Descriptive statistics for the OSCE, along with the alpha coefficient, were calculated. The cut scores and pass rates were also calculated, along with decision accuracy and consistency indices, which were generated using BB-CLASS software [23,24,25]. Station-level descriptive statistics along with item-total correlations and cut scores were included in the analysis. Station-level results from the regression analyses are also provided.

결과
Results

OSCE는 큰 문제 없이 시행되었습니다. 평균 점수는 64%, 표준 편차는 7.7%, 알파 계수는 0.85였습니다. 스테이션별 기술통계 결과는 평균 점수의 범위가 54.8~73.3%로 스테이션별 난이도의 범위를 보여줍니다. 모든 스테이션의 항목-총상관계수(ITC)는 0.20 이상으로 12개 스테이션에서 적절한 수준의 내부 일관성이 있음을 나타냅니다[24]. 스테이션에 대한 설명적 결과는 표 1에 나와 있습니다. 
The OSCE was administered without any significant issues. The mean score was 64% with a standard deviation of 7.7% and an alpha coefficient of 0.85. Station-level descriptive results show a range in mean scores from 54.8 to 73.3%, illustrating a range in station difficulty. All stations had item-total correlations (ITC) greater than 0.20, indicating an adequate degree of internal consistency across the 12 stations [24]. The descriptive results for the stations are provided in Table 1.

전반적으로 데이터는 인핏 MnSq 통계에 의해 결정된 모델 사양에 충분히 부합했습니다. 구체적으로,

  • 패싯 2(검사자)는 12개 스테이션에서 평균 1.34(범위: 0.94~1.93)의 인핏 MnSq 값을 달성했고,
  • 패싯 3(글로벌 성능 점수)은 평균 1.28(범위: 0.55~2.11)을 달성했습니다. 패싯 3의 경우, 스테이션 8의 한 스테이션만이 측정 시스템을 왜곡하는 것으로 간주되는 값(2.11)을 달성하여 평가 품질 보증을 위해 추가 조사가 필요했으며, 본 연구 내에서 스테이션 8에 대한 조정은 이루어지지 않았습니다.
  • 마지막으로, 패싯 4(스테이션 점수)는 1.31(범위: 0.95~1.79)의 평균 적합도 MnSq 값을 달성했습니다.
  • 이 패싯은 더미 변수로 모델에 포함되었기 때문에 패싯 1(수험자)에 대한 적합도 통계는 생성되지 않았습니다. 

Overall, the data achieved sufficient fit to model specifications as determined by infit MnSq statistics. Specifically,

  • Facet Two (examiners) achieved a mean infit MnSq value of 1.34 (range: 0.94 to 1.93) across the 12 stations,
  • Facet Three (global performance score) achieved a mean of 1.28 (range: 0.55 to 2.11). For Facet Three, only one station, namely Station 8, achieved a value considered distorting to the measurement system (2.11) and warranted further investigation for assessment quality assurance purposes; no adjustments were made to Station 8 within this study.
  • Lastly, Facet Four (station score) achieved a mean infit MnSq value of 1.31 (range: 0.95 to 1.79).
  • Note, fit statistics were not generated for Facet One (examinees), as this facet was included in the model as a dummy variable.


패싯 2와 패싯 3에 각각 표시된 수험자 및 글로벌 성과 점수 요소에 걸쳐, 결과는 수험자 간에는 중간에서 높은 수준의 분산이, 글로벌 성과 점수 간에는 높은 수준의 분산이 나타났습니다. 특히 시험관의 경우, 평균 분리 신뢰도 지수는 0.64(범위: 0.18~0.94)로, 일부 시험소의 경우 시험관의 채점 행동에 상당한 차이가 있음을 나타냅니다. 전체 수행 점수 간의 차이 측면에서, 3번 영역의 분리 신뢰도는 12개 스테이션에서 평균 0.96(범위: 0.88~0.99)을 기록했으며, 이는 시험관이 이 점수를 사용하여 각 스테이션에서 응시자 간의 전반적인 수행 수준을 적절하게 식별했음을 나타냅니다. 
Across the examiner and global performance score elements represented in Facet Two and Facet Three, respectively, results showed moderate to high levels of variance across examiners, and high levels of variance across global performance scores. Specifically for examiners, a mean Reliability of Separation Index of 0.64 (range: 0.18 to 0.94) was achieved, indicating that for some stations, examiners displayed significant differences in their scoring behaviour. In terms of differences between global performance scores, Reliability of Separation for Facet Three achieved a mean of 0.96 (range 0.88 to 0.99) across the 12 stations, indicating that examiners used these scores to appropriately identify distinct overall levels of performance between examinees in each station.

세 가지 방법으로 생성된 컷 점수는 거의 비슷했으며(범위 64-65%), 회귀 BGM과 라쉬 BGM 컷 점수는 동일한 값(65%)으로 반올림되었습니다. BB-CLASS 분석[23, 24]에서는 의사 결정 일관성과 의사 결정 정확도 지표를 제공했습니다. 결정 일관성은 반복 테스트에서 동일한 합격/불합격 결정을 내릴 가능성이 얼마나 되는지를 나타내며, 결정 정확성은 다른 측정치와 비교하여 동일한 결과를 얻을 가능성이 얼마나 되는지를 나타냅니다[24]. 세 가지 컷 점수는 모두 0.82 이상의 지수로 허용 가능한 일관성과 정확성을 보였으며, 이는 의사 결정에 대한 위양성과 위음성의 위험을 충분히 최소화한다는 것을 의미합니다. 표 2에는 세 가지 컷 점수에 대한 결과가 요약되어 있습니다. 
The cut scores generated by the three methods were close (range 64–65%), with regression BGM and Rasch BGM cut scores rounding to the same value (65%). A BB-CLASS analysis [23, 24] provided decision consistency and decision accuracy indices. Decision consistency indicates how likely the same pass/fail decisions would be achieved on repeat testing while decision accuracy indicates how likely the same results would be achieved relative to other measures [24]. All three cut scores were acceptably consistent and accurate with indices ≥ 0.82, meaning they sufficiently minimized the risk of false positives and false negatives for decision-making. Table 2 summarizes the results for the three cut scores.

컷 점수의 작은 차이가 합격률에 영향을 미칠 수 있습니다. 표 2에서 볼 수 있듯이, 가장 높은 합격률(즉, 56%)은 수정된 BGM 컷 점수 64%에서 발생했습니다. 기준 설정 방식에 따라 합격률은 4%의 변동이 있었습니다.
Small differences in cut scores may impact pass rates. As shown in Table 2, the highest passing rate (i.e. 56%) was generated by the modified BGM cut score of 64%. Depending on the standard-setting method, the pass rate fluctuated by 4%.

표 3은 각 스테이션의 경계선 그룹 크기와 각 방법 내 관련 컷 점수를 설명합니다. 각 스테이션별 경계선 그룹의 크기는 다양했지만 n = 31(코호트의 27.7%)에서 n = 67(59.8%)까지 모두 컸으며, 경계선 그룹이 n = 40(35.7%) 이하로 떨어진 경우는 단 3곳에 불과했습니다. 회귀 BGM과 라쉬 BGM 방법 모두 시험관의 경계선 판단을 사용하여 컷 점수를 설정했지만 전체 코호트의 점수와 함께 사용했습니다.  

Table 3 describes the size of the borderline group in each station and the relevant cut score within each method. The size of the borderline group for each station varied but all were large, ranging from n = 31 (27.7% of the cohort) to n = 67 (59.8%), with only three borderline groups falling below n = 40 (35.7%). Both the regression BGM and Rasch BGM methods used the examiners’ borderline judgments to set the cut score but worked with the scores for the total cohort.

 

토론
Discussion

표준 설정은 궁극적으로 표준 설정 방법이 모범 사례를 반영하고 일관되게 따를 때 가장 방어할 수 있는 정책 결정입니다. 경계선 그룹 방법은 수험자 기반 및 기준 참조 방식이며 OSCE 형식과 잘 부합합니다. 이러한 방법에 대한 연구에 따르면 이러한 방법은 중대한 의사 결정을 지원하기에 충분히 타당하고 신뢰할 수 있는 것으로 입증되었습니다[5, 26, 27]. 또한 극단적인 시험관의 판단, 경계선에 있는 수험생 코호트가 작거나 존재하지 않는 경우, 시험장당 시험관이 소수이고 수험생 코호트가 작은 경우, 극단적인 수험생의 성적으로 인해 공정한 커트라인 점수를 설정할 때 발생할 수 있는 위험성을 강조한 연구도 있습니다[28]. 
Standard setting is ultimately a policy decision that is most defensible when the standard-setting method reflects best practice and is followed consistently. Borderline group methods are examinee-based and criterion-referenced and align well with the OSCE format. Studies of these methods have demonstrated that they are sufficiently valid and reliable to support high-stakes decision-making [5, 26, 27]. Studies have also highlighted the risks posed to setting a fair cut score introduced by the judgments of extreme examiners, small or non-existent cohorts of borderline examinees, and extreme examinee performances when there are only a few examiners per station and examinee cohorts are smaller [28].

이 연구 결과가 경계선 그룹 방법 중 한 가지를 다른 방법보다 명확하게 선호하지는 않았지만, 연구 결과에 따르면 수정된 BGM이 경계선 그룹 내 낮은 점수의 영향을 가장 많이 받아 가장 낮은 커트 점수로 이어지며, 이는 회귀 BGM 또는 라쉬 BGM 접근법 중 하나를 사용해야 한다는 주장을 뒷받침하는 약점이었습니다.
While the results of this study did not clearly favour one borderline group method over another, the findings did suggest that the modified BGM was the most influenced by lower scores within the borderline group, leading to the lowest cut score, a weakness that supports the arguments for using either of the regression BGM or Rasch BGM approaches.

스테이션 수준에서 모든 방법은 동일한 스테이션 5를 제외하고 스테이션 간에 서로 다른 컷 점수를 생성했습니다. 스테이션 간 차이는 평균을 내어 거의 동일한 총 컷 점수를 산출했으며, 라쉬 BGM회귀 BGM의 경우 동일한 값으로 반올림했습니다. 이 두 가지 방법이 이 코호트에서 거의 동일한 컷 점수를 생성했다는 사실은 놀라운 일이 아닙니다. 라쉬 BGM 방식은 기본적으로 시험자 편차를 고려한 후 회귀 BGM 방식입니다. 시험관 간 편차가 크면 각자의 컷 점수에 더 큰 차이가 있을 것입니다. OSCE 또는 기타 수행 평가를 위한 시험관 교육은 특히 수행을 평가하는 기준에 대한 공통된 이해를 증진하는 데 중요합니다. 시험관 선발 및 교육과 함께 트랙 차이를 최소화하기 위한 다른 전략이 효과적이라면 Rasch BGM에서 공정 평균을 계산할 때 조정이 최소화됩니다. 이 경우 조정이 적었기 때문에 컷 점수가 비슷했습니다. 그러나 OSCE 시험관 교육에 투입되는 시간과 노력은 잘 보고되지 않았으며 기관마다 크게 다릅니다. 개별 학교나 소규모 기관은 대규모 시험 설계 센터에서 실시하는 면허 시험 준비의 일상적인 부분인 시험관 교육에 투자할 충분한 자원이 없을 수 있습니다. 회귀 BGM보다 Rasch BGM을 사용하는 것의 가치는 문제가 되는 분산을 설명할 수 있다는 점입니다. 또한 두 방법 모두 모든 수험생 데이터를 사용했고 이 경우 시험장 점수 분포가 넓었기 때문에(표준편차 범위: 8.2~16.9%) 회귀선에 대한 극단적인 점수의 영향이 최소화되었고 데이터는 Rasch BGM에서 사용되는 공정 평균을 계산하는 데 좋은 근거를 제공했습니다. 
At the station level, all methods generated different cut scores across stations, except for Station 5 which was identical. Differences between stations were averaged out to almost the same total cut score and rounded to the same value for Rasch BGM and regression BGM. The fact that these two methods generated almost the same cut score for this cohort is not surprising. The Rasch BGM method is basically the regression BGM method after taking into account examiner variance. With more variance between examiners, there would be a greater difference between their respective cut scores. Training examiners for an OSCE or any other performance assessment is important; in particular, to promote a common understanding of the standard against which performance is being judged. If examiner selection and training along with other strategies to minimize track differences are effective then the adjustments made when calculating the fair average in Rasch BGM are minimized. In this case, the adjustments were small and therefore cut scores were similar. However, the time and effort given to training OSCE examiners is not well reported and varies greatly across organizations. Individual schools or smaller institutions may not have sufficient resources to invest in examiner training, which is a routine part of OSCE preparation for licensing exams conducted by larger test design centres. The value of using Rasch BGM over regression BGM is its capacity to account for problematic variance. Furthermore, since both methods used all the examinee data and in this instance the station score distributions were broad (range of standard deviation: 8.2 to 16.9%), the impact of extreme scores on the regression line was minimized and the data provided a good basis for calculating the fair average used in Rasch BGM.

수정 BGM은 몇 가지 간단한 계산을 기반으로 가장 쉬운 방법이며, 커트라인 점수(64%)가 회귀 BGM 및 라쉬 BGM 방법(65%)과 거의 동일하지만, 수험자와 시험관 수가 적은 경우 여전히 가장 취약한 방법임에 틀림없습니다. 이번 OSCE에서는 12개 스테이션 모두에서 경계선 등급을 받은 수험생이 많았는데, 이는 적어도 부분적으로는 코호트의 이질성에 기인한 것으로 보입니다. 수험생들은 서로 다른 나라에서 훈련을 받았고 서로 다른 실무 배경을 가지고 있었습니다. 단일 간호 학교의 비슷한 규모의 코호트라면 훨씬 더 동질적일 것이며 경계선 그룹이 작거나 존재하지 않을 위험이 더 높을 것입니다. 
While modified BGM remains the easiest based on a few simple calculations and despite a cut score (64%) almost identical to the regression BGM and Rasch BGM methods (65%), it is still arguably the most vulnerable method when examinee and examiner numbers are small. This OSCE had a good number of examinees rated as borderline for all 12 stations, which is at least partially attributable to the heterogeneity of the cohort. The examinees trained in different countries and came from different practice backgrounds. A similar-sized cohort from a single nursing school would be significantly more homogeneous and the risk of small or non-existent borderline groups would be higher.

회귀 BGM과 라쉬 BGM 모두 모든 수험자 데이터를 사용하여 경계선 그룹 내 극단적인 점수로 인한 편차를 상쇄했습니다. 회귀 BGM은 익숙한 방법인 단순 선형 회귀에 의존하고 계산도 쉽기 때문에 더 널리 사용되고 보고되었습니다. 
Both regression BGM and Rasch BGM methods used all the examinee data to offset variance due to extreme scores within the borderline groups. Regression BGM has been more widely used and reported, likely because it relies on simple linear regression, a familiar method, and is also easily calculated.

4면 라쉬 모델은 공정 평균을 사용하여 스테이션 컷 점수를 설정함으로써 원치 않는 분산을 더 잘 분리하기 때문에, 라쉬 BGM이 더 방어력이 높다고 할 수 있습니다. 콘텐츠 난이도 대비 임상 능력을 정의하는 선형 척도를 따라 커트라인 점수를 배치하면 극단적인 점수, 시험관 편견 또는 경계선으로 평가되는 소수의 응시자의 영향에 덜 취약한 커트라인 점수를 얻을 수 있습니다. 하지만 이 방법을 적용하려면 어느 정도의 측정 전문 지식과 Facets 소프트웨어가 필요했습니다.
The Rasch BGM is arguably more defensible as the four-facet Rasch model better separates out unwanted variance by using the fair average to set station cut scores. Placing the cut score along a linear scale that defined clinical ability relative to content difficulty resulted in a cut score less vulnerable to the influence of extreme scores, examiner biases, or a small number of examinees being rated as borderline. However, some degree of measurement expertise and Facets software were required to apply this method.

Wood 등[4], Homer 등[29], Stone[15]이 주장한 바와 같이, 수정된 BGM은 여전히 학교 규모의 OSCE에서 가장 위험하며 소규모 OSCE의 경우 위험도가 증가합니다. 회귀 BGM과 라쉬 BGM은 모두 OSCE의 커트라인 점수를 설정하는 데 실행 가능하고 방어 가능한 옵션입니다. Stone 등[15]이 판사 매개 성능 평가에 라쉬 BGM을 사용했다고 보고한 것 외에는, 라쉬 BGM은 BGM과 회귀 BGM의 취약성을 모두 완화할 수 있는 잠재력에도 불구하고 OSCE에 사용하기 위해 검토되지 않았습니다. 표준 설정 방법은 퍼포먼스를 구분하지 않는 점수를 "고정"할 수는 없지만, 효율적인 BG 표준 설정 방법을 사용하면 채점 도구를 설계할 때 충분한 주의를 기울이는 데 사용할 수 있는 리소스를 확보할 수 있다는 이점이 있습니다.
The modified BGM is still the riskiest for school-sized OSCEs and the risk increases for smaller OSCEs, as argued by Wood et al. [4], Homer et al. [29], and Stone [15]. Both regression BGM and Rasch BGM are feasible and defensible options for setting a cut score for an OSCE. Aside from Stone et al. [15] reporting on the use of Rasch BGM for judge-mediated performance assessment, Rasch BGM has not been explored for use with OSCEs, despite its potential to mitigate the vulnerabilities of both BGM and regression BGM. Standard-setting methods cannot “fix” scores that do not differentiate between performances, but the benefit of using an efficient BG standard-setting method is that it frees up resources that can be used to ensure sufficient care is taken in designing the scoring instruments.

연구의 한계
Limitations of the Study

이 연구는 알파 계수가 높은 하나의 OSCE를 12개 스테이션에서 한 번 시행하고 모두 등급 척도로 채점하여 세 가지 방법을 경험적으로 비교한 것입니다. 이 OSCE의 높은 내적 일관성은 적어도 부분적으로는 평가 척도[30]의 사용과 수험자 코호트의 이질성 때문이라고 할 수 있습니다. 다양한 OSCE 설계(예: 체크리스트/평정 척도 조합을 사용한 채점), 보다 동질적인 수험자 코호트, 소규모 응시자 코호트를 통한 추가 탐색이 필요합니다. 하위 집합 간의 연결성은 수험자를 더미 변수로 포함시킴으로써 달성할 수 있습니다. 이상적으로 이러한 연결은 두 명 이상의 시험관이 동일한 성과에 대해 수험생을 채점하는 데이터 설계를 통해 달성할 수 있습니다. 
This was an empirical comparison of three methods based on one administration of one OSCE with a high alpha coefficient, 12 stations, all scored with rating scales. The high internal consistency of this OSCE is due, at least in part, to the use of rating scales [30] and to the heterogeneity of the examinee cohort. Further exploration with different OSCE designs (e.g. scoring with checklist/rating scale combinations), more homogeneous examinee cohorts, and smaller candidate cohorts is needed. The connectedness between subsets was achieved by including the examinees as a dummy variable. Ideally this connection is achieved through a data design where examinees are scored by more than one examiner on the same performance.

결론
Conclusion

각 시험 양식마다 특정 사례의 난이도를 반영할 수 있도록 커트라인 점수를 설정해야 하며, 이는 실현 가능한 OSCE 표준 설정에 대한 주요 도전 과제입니다. 한 번의 시행에 사용되는 사례 집합인 각 OSCE 시험 양식은 사례가 다르다는 사실 외에는 다른 이유가 없다면 동일한 사례 은행에서 동일한 목적으로 만들어진 다른 시험 양식과 난이도 및 점수 분포가 다를 수 있습니다. 
Cut scores need to be set for each test form to ensure that they reflect the difficulty of a specific set of cases, and therein lies a major challenge to feasible OSCE standard setting. Each OSCE test form, the set of cases used for one administration, will vary in its difficulty and in its score distribution from other test forms created for the same purpose from the same bank of cases, if for no other reason than the fact that cases are different.

시험 양식 간의 난이도 차이는 시험 양식을 동일하게 하거나 최소한 연결하여[31] 점수를 비슷한 분포로 변환함으로써 완화할 수 있습니다. 연계하면 연결된 시험 양식에 하나의 커트라인 점수를 적용할 수 있으며, 표준 설정 패널을 소집하는 데 드는 비용을 여러 번의 OSCE 시행에 걸쳐 분할 상각할 수 있습니다. 그러나 여러 시험 양식에 걸쳐 공통된 내용과 관련된 필수 가정을 충족하고 결과가 타당하고 신뢰할 수 있는지 확인하기 위한 심리측정 전문 지식을 갖추려면 리소스 집약적인 노력이 필요하며 대규모 사례 은행과 대규모 데이터 세트에서 가장 잘 작동할 수 있습니다. 
Differences in difficulty across test forms can be mitigated with equating or at least linking test forms [31] which allows scores to be transformed to comparable distributions. With linking, one cut score can be applied across the linked test forms and the cost of convening standard-setting panels can be amortized over multiple OSCE administrations. However, meeting the necessary assumptions related to common content across test forms and having the psychometric expertise to ensure that the outcomes are valid and reliable are resource-intensive efforts and most workable with large case banks and large data sets.

연결하지 않는다면, 방어 가능한 커트라인 점수가 필요하기 때문에 각 시험 양식에 커트라인 점수를 설정하여 해당 사례 집합의 난이도를 고려해야 하며, 이 점에서 본 연구에서 검토한 표준 설정 방법의 근거가 있습니다. 단순히 정책적 결정으로 커트라인 점수를 설정하는 대안은 쉽고 비용이 저렴하지만 방어할 수 없습니다. 정책적으로 설정된 커트라인 점수는 시험 유형에 따른 난이도 차이를 고려하지 못하기 때문에 수험생에게 본질적으로 불공정한 결과를 초래합니다. 
Without linking, the need for a defensible cut score requires that a cut score be set for each test form so that the difficulty of that set of cases is taken into account, and therein lies the rationale for the standard-setting methods examined in this study. The alternative of simply setting a cut score with a policy decision, while easy and inexpensive, is not defensible. Policy-set cut scores fail to account for the differences in difficulty across test forms, creating an inherent unfairness for examinees.

세 가지 경계선 그룹 방법의 목표는 모두 패널 기반 표준 설정에 대한 실현 가능한 대안이면서도 방어 가능한 커트라인 점수를 제공하는 것이었습니다. 이 연구 결과는 이전 연구 결과와 일치하며, 회귀 BGM이 매우 큰 편차와 매우 작은 편차 사이에 있는 OSCE의 경우 실현 가능하고 방어 가능한 표준 설정 방법이며, 특히 시험자 편차가 크게 문제가 될 수 있는 OSCE에서 고려할 만한 옵션으로 Rasch BGM을 추가한다는 추가적인 증거를 제공했습니다.
The goal of all three borderline group methods was a feasible alternative to panel-based standard setting that would still provide a defensible cut score. The results of this study were congruent with the findings of earlier studies and provided further evidence that for OSCEs that fall between being very large and very small, regression BGM is a feasible and defensible standard-setting method and adds Rasch BGM as an option worth considering, especially in OSCEs where examiner variance may be significantly problematic.

 


Med Sci Educ. 2022 Nov 16;32(6):1439-1445. doi: 10.1007/s40670-022-01667-x. eCollection 2022 Dec.

OSCE Standard Setting: Three Borderline Group Methods

Affiliations collapse

Affiliations

1Medical Council of Canada, Ottawa, Canada.

2Touchstone Institute, Toronto, Canada.

3Department of Innovation in Medical Education, University of Ottawa, Ottawa, Canada.

4Department of Medicine, Division of Education, and Innovation, McMaster University, Hamilton, Canada.

PMID: 36532388

PMCID: PMC9755382 (available on 2023-12-01)

DOI: 10.1007/s40670-022-01667-x

Abstract

High-stakes assessments must discriminate between examinees who are sufficiently competent to practice in the health professions and examinees who are not. In these settings, criterion-referenced standard-setting methods are strongly preferred over norm referenced methods. While there are many criterion-referenced options, few are feasible or cost effective for objective structured clinical examinations (OSCEs). The human and financial resources required to organize OSCEs alone are often significant, leaving little in an institution's budget for additional resource-intensive standard-setting methods. The modified borderline group method introduced by Dauphinee et al. for a large-scale, multi-site OSCE is a very feasible option but is not as defensible for smaller scale OSCEs. This study compared the modified borderline group method to two adaptations that address its limitations for smaller scale OSCEs while retaining its benefits, namely feasibility. We evaluated decision accuracy and consistency of calculated cut scores derived from (1) modified, (2) regression-based, and (3) 4-facet Rasch model borderline group methods. Data were from a 12-station OSCE that assessed 112 nurses for entry to practice in a Canadian context. The three cut scores (64-65%) all met acceptable standards of accuracy and consistency; however, the modified borderline group method was the most influenced by lower scores within the borderline group, leading to the lowest cut score. The two adaptations may be more defensible than modified BGM in the context of a smaller (n < 100-150) OSCE.

Keywords: Borderline group; OSCE; Standard setting; Validity.

OSCE의 타당도 근거 평가하기: 신설 의과대학으로부터의 결과(BMC Med Educ, 2018)
Evaluating the validity evidence of an OSCE: results from a new medical school
Vanda Yazbeck Karam1* , Yoon Soo Park2, Ara Tekian2 and Nazih Youssef1

 

배경
Background

기존 임상 평가의 문제점을 방지하기 위해 Harden은 보다 타당하고 신뢰할 수 있는 평가 도구로 "객관적 구조화 임상 검사(OSCE)"를 제시했습니다[1]. 그러나 고품질의 효과적인 OSCE를 보장하기 위한 필수 조건은 점수의 타당성을 뒷받침하는 증거를 확보하는 것입니다[2]. 
To prevent the problems of traditional clinical evaluation, the “Objective Structured Clinical Examination (OSCE)” was presented by Harden as a more valid and reliable assessment instrument [1]. However, an essential condition to guarantee a high-quality and effective OSCE is the assurance of evidence to support the validity of its scores [2].

검사의 타당도는 해당 검사가 측정하고자 하는 것을 얼마나 잘 측정하는지를 의미하며, 따라서 검사의 타당도는 여러 증거를 수집하여 축적되어야 합니다[3]. 1989년 Messick은 현대적인 타당도 프레임워크[4]를 제안했으며, 이는 1999년[5]과 2014년[6]에도 실무 표준으로 간주되었습니다. Messick의 구성 타당도 이론에는 테스트 개발을 뒷받침하는 증거와 결과의 결과가 포함됩니다[4]. Messick의 프레임워크에 따르면, 평가 도구에서 생성된 점수를 수락하거나 반박하기 위해서는 다섯 가지 타당도의 원천을 고려해야 합니다[4]. 다섯 가지 원천은 다음과 같다.

  • 내용(시험 문항이 관심 구성의 특징),
  • 응답 과정(데이터 일관성의 증거),
  • 내부 구조(시험의 심리 측정적 특성),
  • 다른 변수와의 관계(동일한 주제를 측정하는 유사하거나 다른 도구와의 결과 일치) 및
  • 결과(학습자, 교수자 및 커리큘럼에 미치는 영향)

The validity of a test is the degree to which this test measures what is intended to measure and hence the validity of a test should be accumulated by collecting several sources of evidence [3]. In 1989, Messick proposed a modern validity framework [4] that was considered a standard of practice in 1999 [5] and also in 2014 [6]. The theory behind Messick’s construct validity includes the evidence supporting the test development and the consequences of the results [4]. According to Messick’s framework, five sources of validity should be considered in order to accept or refute the scores generated by any assessment tool [4]. The five sources are:

  • content (test items are characteristic of the construct of interest),
  • response process (evidence of data coherence),
  • internal structure (psychometric properties of the exam),
  • relations with other variables (alignment of results with similar or different tools measuring the same subject) and
  • consequences (impact on learners, instructors, and curriculum) [4].

OSCE에서 생성된 점수의 타당성은 측정할 영역을 적절하게 표본화할 수 있는 능력에 따라 달라집니다[7]. 궁극적으로 효과적인 OSCE는 인지, 정신 운동 및 정서 능력을 테스트해야 합니다. 그러나 OSCE는 주로 밀러 피라미드의 'shows how' 수준을 평가하는 데 사용됩니다[8]. 우리의 목적은 Messick의 이론을 개념적 프레임워크로 사용하여 레바논 아메리칸 대학교 - 의과 대학(LAU-SOM)에서 시행한 OSCE의 구성 타당성을 조사하는 것입니다. 내부 구조와 결과 타당도를 뒷받침하는 데 중점을 두고 다양한 증거 자료를 수집하려고 시도했습니다. 다른 검증 연구와 달리, 본 조사는 점수 추론의 타당성이 표준 설정 기법의 적절한 적용에 크게 좌우되는 OSCE의 총합적 적용을 기반으로 했습니다. 연구의 또 다른 목적은 합격/불합격 커트라인 점수를 결정하기 위한 합격선 설정 방법으로 경계선 회귀법(BRM)을 사용하고, 이를 기존의 결과 계산 방법과 비교하는 것이었습니다. 
The validity of the scores generated by any OSCE depends on its capability to appropriately sample the domain to be measured [7]. Ultimately, an effective OSCE should test cognitive, psychomotor, and affective skills. However, the OSCE is principally used for the assessment of the ‘shows how’ level of Miller’s pyramid [8]. Our purpose is to examine, using Messick’s theory as a conceptual framework, the construct validity of an OSCE we administered at the Lebanese American University – School of Medicine (LAU-SOM). We attempted to gather multiple sources of evidence with an emphasis on supporting internal structure and consequential validity. Unlike other validation studies, our investigation was based on a summative application of an OSCE where the validity of the score inferences is dependent, to a great extent, on the proper application of standard setting techniques. The other objective of the study was the use of the Borderline Regression Method (BRM) as a method for standard setting to determine the pass/fail cut scores and its comparison to our traditional method of computing the results.

연구 방법
Methods

연구 참가자
Study participants

이 연구는 학사 학위 후 4년의 통합 커리큘럼을 따르는 LAU-SOM에서 실시되었습니다. 평가 배터리에는 OSCE를 포함한 총괄 및 형성 도구가 포함되어 있습니다. LAU의 OSCE 팀은 표준화 환자(SP)를 모집하고 교육하는 연극 교사 1명과 사례를 작성하고 체크리스트를 개발하는 의사 2명으로 구성되어 있습니다. 53명의 1학년 의대생이 혈액학 및 내분비학 모듈을 평가하는 총괄적 OSCE에 참여했습니다. LAU 기관윤리심의위원회에서 윤리 승인을 받았습니다. 학생들은 두 개의 동시 트랙과 세 번의 연속 시험 기간을 사용하여 같은 날에 평가를 받았습니다. 각 트랙에는 임상 시뮬레이션 센터의 다른 방에 위치한 동일한 스테이션이 포함되었습니다. 각 트랙은 7개의 OSCE 스테이션으로 구성되었습니다. 5개 스테이션은 시험관, SP 또는 시험실에 있는 마네킹과 환자가 마주치는 상황으로 구성되었습니다. 나머지 두 스테이션은 병리학 및 미생물학 스테이션이었기 때문에 분석에서 제외되었습니다. 
This study was conducted at the LAU-SOM, where a 4-year integrated curriculum is followed after a Bachelor’s degree. The assessment battery includes summative and formative tools, including OSCEs. The OSCE team at LAU comprises one drama teacher who recruits and trains standardized patients (SPs) and two physicians who write cases and develop checklists. Fifty-three first year medical students took part in a summative OSCE evaluating the hematology and endocrinology modules. Ethics approval was granted by the LAU Institutional Review Board. Using two simultaneous tracks and three consecutive testing periods, students were assessed on the same day. Each track included the same stations located in different rooms of the clinical simulation center. Each track comprised seven OSCE stations. Five stations consisted of patient encounters with an examiner and an SP or a manikin present in the room. The other two stations were pathology and microbiology and therefore were excluded from our analysis.

콘텐츠
Content

내용 증거는 평가 대상 구조가 시험에서 정확하고 완벽하게 표현되었는지를 확인하는 것을 의미합니다[9].

  • OSCE 스테이션에는 혈액학 및 내분비학 모듈과 관련된 다양한 임상 술기가 포함되었습니다: 1-발 검사, 2-목 검사, 3-커플 스테이션: 피로가 있는 환자의 병력 청취 및 기록, 4- 지중해빈혈 상담, 5-유방 검사. 각 스테이션은 30분 동안 진행된 3번 스테이션을 제외하고 10분씩 진행되었습니다.
  • 다양한 콘텐츠 전문가들이 파일럿 테스트에 앞서 사례를 작성하고 검토했습니다. 또한 모든 체크리스트는 콘텐츠 전문가들의 자문을 거쳐 평가 결과에 따라 사전에 개발되었습니다.
  • 의사 시험관(PE)은 학생들의 수행을 직접 관찰하고 체크리스트 성적과 글로벌 등급 성적을 모두 제공했습니다. 또한, 병력 청취 및 의사소통 능력을 평가하는 스테이션의 경우 SP가 채점한 체크리스트가 사용되었으며, 체크리스트 성적에 10%의 가중치를 부여하여 성적을 합산했습니다(추가 파일 1).
  • OSCE가 끝나면 완성된 체크리스트의 정확성을 점검했습니다. 

Content evidence refers to ensuring that the construct being assessed is accurately and completely represented on a test [9].

  • The OSCE stations included various clinical skills related to the hematology and endocrinology modules: 1-ft exam, 2-neck exam, 3-couplet station: history taking patient with fatigue and write-up, 4-counseling for thalassemia, and 5-breast exam. Each station was 10 min except station three that lasted 30 min.
  • Different content experts wrote and reviewed the cases that were pilot-tested prior to their implementation. Moreover, All checklists were developed in advance, following consultation with the content experts and in line with outcomes being assessed.
  • The physician examiners (PEs) directly observed students’ performance and provided both grades; the checklist grades and the global rating grades. In addition, for stations assessing history taking and communication skills, a checklist scored by the SP was used and its grade added to the checklist grade with a weight of 10% (Additional file 1).
  • At the end of the OSCE, the completed checklists were checked for their accurateness.

응답 프로세스
Response process

응답 프로세스체크리스트에 의해 수집된 데이터의 정확성과 무결성을 보장하여 편향 가능성을 줄입니다[6]. 최종 점수의 타당성은 평가자가 제공한 성적의 정확성과 직접적으로 관련이 있습니다.

  • 의사 시험관(PE)은 의과대학에서 교육을 받은 교수진으로 구성되었습니다. 이들은 2시간 동안 체크리스트 항목, 채점 과정, 예상되는 학생의 행동에 익숙해지도록 적절한 지침을 제공받았습니다. OSCE 당일에는 채점 시스템에 대한 지침을 강화했습니다.
  • 체크리스트에는 각 스테이션별로 10~35개 항목이 포함되어 있습니다(추가 파일 2). 각 항목은 과제 완료도와 상관관계가 있는 3점 척도를 사용하여 채점되었습니다.
  • 글로벌 평가 점수는 학생의 전반적인 성과와 관련된 5점 척도로 구성되었으며, 체크리스트 항목별 점수가 아닌 스테이션의 글로벌 인상을 기반으로 했습니다. 글로벌 평가 기술서의 하드 카피는 시험관 파일(추가 파일 3)의 각 스테이션에 보관되었습니다.
  • SP는 각 2시간씩 세 차례에 걸쳐 자신의 역할에 대한 적절한 교육을 받았습니다. 이들에게는 각자의 역할, 학생들이 질문할 수 있는 잠재적 질문, 각 질문에 대한 적절한 답변을 포함한 사례 세부 정보가 제공되었습니다.
  • OSCE를 진행하는 동안 전담 직원이 각 학생의 라운드가 끝난 후 체크리스트 항목의 완성도와 글로벌 등급을 모니터링했습니다.

Response process ensures the correctness and the integrity of the data collected by the checklists to reduce any possible bias [6]. The validity of the final scores relates directly to the accuracy of the grades provided by the assessors.

  • Physician examiners (PEs) were trained faculty from the School of Medicine. For this OSCE, they were provided with the appropriate instructions during a 2-h session in order to get familiar with the checklists’ items, the marking process, and the expected students’ behavior. Updating on the OSCE day reinforced the guidelines about the marking system.
  • Checklists included 10–35 items for each station (Additional file 2). Each item was scored using a 3-point scale correlated to the task completion.
  • The global rating score consisted of a 5-point scale associated with the overall performance of the student and based on the PEs’ global impression and not on the items’ scores. A hard copy of the global rating descriptors was kept in each station in the examiner file (Additional file 3).
  • SPs were properly trained for their roles over three sessions, 2 h each. They were provided with the case details including their roles, any potential questions students may ask, and the appropriate answer for each question.
  • During OSCE administration, the completeness of the checklist items and the global rating was monitored by dedicated staff after each round of students.

결과 타당도
Consequences

결과 타당도시험 점수가 수험생에게 미치는 실제 및 잠재적 영향을 탐구합니다. 합격률 또는 커트라인 점수는 결과 타당도의 출처와 밀접한 관련이 있습니다[10]. 합격 점수는 허용 가능한 성능을 입증하고 시험에 합격하는 데 필요한 최소 점수입니다. 합격선은 무작위적인 결정을 통해 설정될 수 있지만, 합격선 설정은 논리적이고 정당한 방식으로 신뢰할 수 있고 수용 가능한 합격 또는 커트라인 점수를 도출하는 프로세스입니다[11].

  • OSCE에서는 BRM을 적용하여 합격 기준을 설정했습니다[12,13,14]. 체크리스트와 글로벌 등급 점수는 각 스테이션에 대해 별도로 보고되었습니다. 글로벌 등급은 표준 설정 계산에만 사용했습니다.
  • 각 스테이션에 대해 체크리스트를 종속변수로, 글로벌 등급을 독립변수로 고려한 선형 회귀 모델을 사용했습니다. 회귀선을 사용하여 글로벌 등급의 커트라인 '2'(경계선)에 해당하는 체크리스트 점수를 계산하여 스테이션별 BR 합격/불합격 기준을 구했습니다.
  • 스테이션 1에 대한 기준 설정 계산 예는 그림 1에 나와 있습니다. 경계선 그룹에 해당하는 글로벌 등급 척도의 2점을 삽입하면 그에 해당하는 예상 체크리스트 점수가 결정될 수 있습니다. 이 예측 점수 72점이 이 스테이션의 합격/불합격 기준이 되었습니다. 총 시험 점수는 스테이션 체크리스트 점수를 평균하여 계산되었습니다.
  • 5개 스테이션에 대한 해당 합격/불합격 기준은 스테이션 커트라인 점수의 평균으로 정의되었으며, 30분간 지속된 커플링 스테이션이므로 4번 스테이션에 가중치 2를 부여한 것을 제외한 모든 스테이션에 가중치 1을 부여했습니다. 경계선 회귀법(방법 2)을 사용한 OSCE의 합격/불합격 결과는 75%의 가중치가 부여된 체크리스트 성적에 25%의 가중치가 부여된 글로벌 등급 성적을 합산하는 현재의 결과 산출 방법(방법 1)과 비교했습니다.

Consequential validity explores the real and latent impact of any test scores on examinees. Passing rates or cut-off scores are closely linked to the sources of consequential validity [10]. The passing score is the minimum score needed to demonstrate acceptable performance and pass the test. While standards may be set using random decisions, standard setting is a process that results in a credible and acceptable passing or cut-off scores in a logical and justifiable manner [11].

  • In our OSCE, the BRM was applied to establish a passing standard [12,13,14]. Checklists and global rating scores were reported separately for each station. We used the global rating solely for the calculation of standard setting.
  • For each station, a linear regression model was utilized, with the consideration of the checklist as dependent variable and the global rating as independent variable. The BR pass/fail standard per station was obtained by using the regression line to calculate the checklist score corresponding with the cut-off point ‘2’ (borderline) of the global rating.
  • An example for the calculation of the standard setting for station one is shown in Fig. 1. By inserting the point 2 of the global rating scale corresponding to the borderline group, a corresponding predicted checklist score could be determined. This predicted score 72 became the pass/fail standard for this station. The total test score was calculated by averaging the station checklist scores.
  • The corresponding pass-fail standard for the five stations was defined as the average of the stations cut-scores, giving all stations a weight of one except station four with a weight of two since this is a couplet station that lasted 30 min. The pass/fail results of the OSCE using the borderline regression method (Method 2) were compared to our current method of computing the results (Method 1) that consists of ading the checklist grades with a weight of 75% to the global rating grades with a weight of 25%.

 

내부 구조
Internal structure

내부 구조 타당도 증거는 문항 간 상관관계, 시험 난이도 및 점수 신뢰도를 포함하는 시험의 심리측정 측정과 관련이 있습니다. 신뢰도는 다음 지표를 사용하여 평가했습니다: 

  • 1- 크론바흐 알파는 내적 일관성을 측정하는 것으로, 효과적인 시험에서는 우수한 학생이 모든 문항에서 비슷한 성적을 보여야 합니다. SP가 사용되는 OSCE에서 허용되는 알파 값은 0.7 이상입니다. 그러나 더 낮은 등급의 시험에서는 이보다 낮은 값의 크론바흐 알파가 허용됩니다.
  • 2- R2 계수총점 점수와 체크리스트 점수 간의 제곱 선형 상관관계입니다. 두 점수는 양의 상관관계가 있을 것으로 예상됩니다. R2 = 0.5는 적절한 것으로 간주되며,
  • 3- 등급 간 변별력은 총체적 평가에서 등급이 한 단계 올라갈 때마다 체크리스트 점수가 평균적으로 증가하는 것을 의미합니다. 적절한 변별력은 체크리스트에 의해 생성될 수 있는 최대 점수의 10분의 1,
  • 4- 불합격자 수는 특정 과목에 대한 교육의 질과 변화의 필요성을 검토하는 데 사용,
  • 5- 집단 간 변동는 수험생의 수행보다는 환경과 평가자의 태도가 점수에 미치는 영향과 관련이 있습니다. 이상적인 평가 과정에서는 모든 차이가 학생의 성과로 인한 것이어야 하므로 그룹 간 편차는 30% 미만이어야 하며,
  • 6- 체크리스트 성적에 [10%의 가중치를 부여한 표준화 환자 등급]은 이러한 데이터를 통합하는 강력한 방법으로 평가의 신뢰도를 향상시키는 것으로 보입니다(Homer et al. 2009). SP 등급이 정상보다 높은 실패율과 결합된 경우, 이는 해당 주제에 대한 부적절한 교육의 결과일 수 있습니다.

The internal structure validity evidence correlates to the psychometric measures of the test encompassing inter-item correlations, exam difficulty and score reliability. Reliability was evaluated using the following metrics:

  • 1- Cronbach’s alpha measures the internal consistency whereby in an effective test, better students should perform similarly well in all stations. Acceptable alpha value in OSCEs where SPs are used is 0.7 or above. However, in lower stakes exam, a Cronbach’s alpha of a lesser value is acceptable;
  • 2- R2 coefficient is the squared linear correlation between the holistic rating score and the checklist score. It is expected that the two scores be positively correlated. An R2 = 0.5 is considered reasonable;
  • 3- inter-grade discrimination is the average increase in scores of the checklist for each grade increase on the holistic rating. An adequate discrimination index should be the tenth of the maximum score that could be generated by the checklist;
  • 4- number of failures is used to review the quality of teaching and the need for change on a particular subject;
  • 5- between group variation relates to the effect of the environment and assessor attitude on the scores rather than the performance of examinees. To note that in an ideal assessment process, all differences should be only due to student performance therefore between group variation should be under 30%,
  • 6- standardized patient rating that is added to the checklist grade with a weight of 10% appears to be a robust way of incorporating such data, leading to the improved reliability of the assessment (Homer et al. 2009). If the SP rating is coupled with a higher than normal failure rate, this could be the result of inadequate teaching of the topic.

통계 분석
Statistical analysis

데이터는 Microsoft Excel, 2010을 사용하여 분석되었습니다. 연구 집단의 특성은 서술적 통계를 사용하여 평가했습니다. 데이터는 범주형 변수의 경우 숫자와 백분율로, 연속형 변수의 경우 평균 ± SD로 표현했습니다. 두 그룹 간의 평균을 비교하기 위해 독립적인 t 검정을 사용했습니다. p < 0.05의 값은 유의미한 것으로 간주했습니다. 리스케일링은 두 방법의 합격 점수가 동일(60%)하고 보고에 대한 학교 정책을 준수하기 위해 사용되었습니다. 
Data were analyzed using Microsoft Excel, 2010. Characteristics of the study population were evaluated using descriptive statistics. Data were expressed as numbers and percentages for categorical variables and as means ± SD for continuous variables. Independent t tests were used for comparing means between the two groups. A value of p < 0.05 was considered significant. Rescaling was used to have the same passing score for both methods (60%) and to comply with the school policy for reporting.

결과
Results

남학생 27명, 여학생 26명, 총 53명의 학생이 이번 OSCE에 참여했습니다.
Fifty-three students, 27 males and 26 females participated in this OSCE.

시험 내용
Content

OSCE 블루프린트는 혈액학-내분비학 모듈의 주요 목표 중 5가지로 구성되었습니다(추가 파일 4). 채점 도구에는 전문가가 개발한 스테이션별 분석 채점 또는 체크리스트, 전공의가 작성한 총점 또는 5점 만점 글로벌 평가 척도, SP가 작성한 커뮤니케이션 기술 체크리스트가 포함되었습니다.
The OSCE blueprint represented five of the major objectives of the hematology-endocrinology module (Additional file 4). The scoring instruments included a station-specific analytical scoring or checklist developed by experts, a holistic score or five-point global rating scale, both filled by the PEs and a communication skills checklist filled by the SP.

대응 프로세스
Response process

저희의 PE와 SP는 다양한 체크리스트 사용에 대한 교육 세션을 받았습니다. OSCE 이후 진행된 디브리핑 세션에서 모두 체크리스트 사용에 익숙해졌다고 답했습니다.
Our PEs and SPs underwent training sessions about the use of the different checklists. During the debriefing session following the OSCE, all reported being comfortable with its use.

결과
Consequences

5개 스테이션의 커트라인 점수는 (72 × 1) + (60 × 1) + (53 × 1) + (70 × 2) + (67 × 1) = 65.16%였습니다. 이 컷 점수를 사용하면 합격률은 100%입니다. 

  • 표 1은 스테이션의 길이, 평균 및 표준편차, 최소 및 최대 등급, 커트라인 점수, 합격률 및 불합격자 수를 보여줍니다. 
  • 표 2는 BRM(방법 2)과 실제 결과 산출 방법(방법 1)을 비교한 결과를 나타냅니다. 

BRM 방식이 학생들의 평균 성적(75.63점 대 79.23점)은 낮고 커트라인 점수(65.16점 대 60점)는 높았지만, 모든 스테이션 간 점수에서 통계적으로 유의미한 차이는 발견되지 않았습니다. 그러나 학교 정책에 따라 커트라인 점수인 60점으로 점수를 재조정했을 때, 전체 성적과 스테이션 2를 제외한 모든 스테이션에서 두 방법 간의 점수에서 통계적으로 유의미한 차이가 나타났습니다. 전체 시험에 대한 보상형 표준을 제공하기 위해 모든 사례에 대한 점수를 합산하기 때문에 두 가지 방법 모두 합격률은 100%였습니다.
The cut score for the 5 stations was: (72 × 1) + (60 × 1) + (53 × 1) + (70 × 2) + (67 × 1) = 65.16%. Using this cut score, the passing rate was 100%.

  • Table 1 shows stations’ length, means and standard deviation, minimum and maximum grades, cut score as well as the percentage of pass rate and number of failures.
  • Table 2 represents the compared results of the BRM (Method 2) to our actual method of computing the results (Method 1).

Although the BRM method showed a lower students’ average grades (75.63 vs 79.23) and a higher cut score (65.16 vs 60), no statistical significance in scores between all stations was noted. However, when scores were rescaled to the cut score of 60%, as per our School policy, a statistical difference in the scores between the two methods for the overall grade and for all stations except for station 2 was noted. The passing rate was 100% for both methods because scores are aggregated across cases to provide a compensatory-type standard for the whole test.

 

내부 구조
Internal structure

스테이션 전체에서 OSCE의 크론바흐 알파는 0.43이었습니다. 다양한 지표를 분석한 결과, 스테이션 4의 R2 값은 0.160, 스테이션 3의 등급 간 판별 지수는 13.55, 실패 횟수는 스테이션 3에서 7회(13.2%), 스테이션 4에서 10회(18.86%)로 나타났습니다. 그룹 간 편차는 30% 미만이었고 불합격 건수는 5건(9.43%)이었습니다. 각 스테이션의 메트릭은 표 3에 나와 있습니다.
Across stations, Cronbach’s alpha in our OSCE was 0.43. The analysis of the different metrics showed an R2 value of 0.160 in station four, an inter-grade discrimination index of 13.55 in station three, the number of failures of 7 in station three (13.2%) and 10 in station four (18.86%). Between group variation was less than 30% and the number of failures was five (9.43%). The metrics of the different stations are shown in Table 3.

토론
Discussion

OSCE의 품질을 확립하려면 점수의 타당성을 검증할 수 있는 증거가 필요합니다. 또한 점수 기반 추론의 타당성을 위협할 수 있는 요인도 해결해야 합니다.
To establish the quality of an OSCE, evidence is needed to verify the validity of the scores. Moreover, one must also address possible threats to the validity of score-based inferences.

타당도의 결과적 근거는 시험 성적 분석 및 사용을 의미합니다. 시험의 사용은 사회적 결과와 교육생, 교사 및 전체 교육과정에 미치는 영향을 고려해야 하는 반면, 시험 결과의 해석은 수행될 수 있는 유리한 결정과 불리한 결정 사이의 관계를 고려해야 합니다[4]. 표준 설정을 사용하여 방어 가능한 합격 점수를 선택하는 것은 교육자들에게 지속적인 도전 과제이지만 결과적 타당성의 근거를 보장하기 위한 핵심 문제입니다[15,16,17]. 오늘날 많은 교육 기관에서는 몇 가지 장점이 있는 경계선 방식을 선호합니다[18].

  • 첫째, 체크리스트 점수가 아닌 수련의의 전반적인 수행 능력에 따라 달라지며, 시험 중에 전체 등급이 채점되기 때문에 임상의의 시간을 절약할 수 있습니다.
  • 또한, 글로벌 등급은 불합격, 경계선, 합격의 세 가지 점수만 필요하고 경계선 학생들의 평균 분석 점수가 시험의 합격 점수가 되므로 간단한 통계적 절차만 거치면 됩니다.

The consequential basis of validity implicates test grade analysis and use. Whereas the use of tests should consider the social consequences and their impact on trainees, teachers, and the whole curriculum, the interpretation of the tests’ results should consider the relationships between the favorable and unfavorable decisions that could be undertaken [4]. Choosing a defensible passing score by employing standard settings represents a persistent challenge to educators yet it is a key issue for ensuring the consequential basis of validity [15,16,17]. Nowadays, many institutions favor the borderline method that has several benefits [18].

  • First, it depends on the overall performance of trainees rather than the checklist markings and saves the clinicians’ time since the global rating is scored during the exam.
  • Also, only three marks are required for global ratings (fail, borderline, pass) and the mean analytic scores of borderline students is the passing score of the exam, therefore it requires a simple statistical procedure.

그러나 우리와 같이 수험생 수가 한정된 소규모 OSCE의 경우, 경계선 범위에 있는 수험생이 소수에 불과할 경우 의도하지 않은 편향이 발생할 수 있습니다. Pell 등은 2005년에 Wood가 처음 설명한 BRM을 사용할 것을 권고했습니다[12, 19]. BRM은 소규모 OSCE에 이상적입니다. 이 방법은 선형 회귀 접근법을 통합하여 일부 하위 집합이 아닌 모든 수험자의 점수를 사용하여 커트라인 점수를 설정할 수 있도록 함으로써 글로벌 성적과 체크리스트 점수 간의 관계를 나타냅니다[14]. 이 방법을 사용하려면 5개의 글로벌 등급(예: 불합격, 경계선, 합격, 매우 우수 합격, 구별)을 사용해야 하며 계산에 더 많은 전문 지식이 필요합니다. 그러나 더 다양한 품질 보증 메트릭에 액세스할 수 있습니다[13]. 저희 OSCE에서는 표준 설정 도입으로 학생들의 평균 성적은 낮아지고 커트라인 점수는 높아졌습니다. 

However, for the small-scale OSCE such as ours having a limited number of examinees, the presence of an only few examinees in the borderline range could introduce an unintentional bias. Pell et al. advised the use of the BRM that was initially described by Wood in 2005 [12, 19]. BRM is ideal in a small scale OSCE. It gives an indication of the relationship between global grade and checklist score by incorporating a linear regression approach allowing the cut score to be set using the scores from all examinees and not from a subset [14]. This method requires the use of five global ratings (e.g. fail, borderline, pass, very good pass, distinction) and more expertise for computation. However, it gives access to a wider variety of quality assurance metrics [13]. In our OSCE, the introduction of standard setting resulted in lower students’ average grades and a higher cut score.

내부 구조 타당도 증거는 OSCE의 다양한 심리측정 특성을 분석하는 것입니다[20]. 신뢰도 검사 점수는 일반화 가능성, 평가자 간 신뢰도, 평가자 일관성과 같은 다양한 지표를 사용하여 평가할 수 있으며, 일관성을 평가하는 맥락에 따라 계수 알파 또는 크론바흐 알파로 평가할 수 있습니다[21]. 

  • 전체 스테이션에서 크론바흐 알파는 0.43으로 낮은 것으로 나타났습니다. 이는 스테이션 수가 적기 때문으로 설명할 수 있습니다. 스테이션 수를 늘리면 신뢰도가 높아질 수 있습니다[7, 22]. 이는 각 설정의 타당성과 균형을 맞춰야 합니다. 
  • R2 값이 낮았던 스테이션 4와 같이 특정 스테이션에서 체크리스트와 전체 등급이 불일치하는 경우, 이는 일부 학생이 '과정'에 대한 분석 체크리스트에서 많은 점수를 획득했지만 전반적인 성과가 시험관에게 깊은 인상을 주지 못했음을 나타내며 체크리스트가 능력에 대한 잘못된 지표가 될 수 있음을 시사합니다. 따라서 학생 수준과 기준을 일치시키는 데 초점을 맞춰 재설계하고, 평가자 체크리스트에 중간 등급 설명자를 포함시키고, 체크리스트 기준에 적절한 경우 앵커가 2개가 아닌 3개가 되도록 하여 평가자가 변별력을 높일 수 있도록 해야 합니다. 
  • 특정 시험장에서 높은 불합격률이 발생하면 커리큘럼의 특정 부분에 대한 교육을 재검토해야 합니다. OSCE에서는 스테이션 3과 4의 높은 불합격률로 인해 지중해빈혈 환자 상담과 피로 및 어지럼증에 대한 병력 청취에 대한 교육 문제가 부각되었습니다.

The internal structure validity evidence involves the analysis of the different psychometric properties of the OSCE [20]. The reliability test scores can be evaluated using various indicators such as Generalizability, inter-rater reliability, rater consistency, and by the Coefficient alpha or Cronbach’s alpha, depending on the context of consistency evaluated [21].

  • Across stations, Cronbach’s alpha in our OSCE was 0.43 and is considered low. This could be explained by the low number of stations. Increasing the number of stations would result in greater reliability [7, 22]. This will have to be balanced against the feasibility in each setting.
  • When a mismatch between the checklist and the global rating in a specific station is revealed, such in station four where the R2 value was low, this indicates that some students have acquired many of the marks from the analytic checklist for ‘process’, but their overall performance did not impress in parallel the examiner, suggesting that the checklists can be a poor marker of ability. Consequently, a redesign of the station should be made while focusing on matching criteria with the student level, inclusion of intermediate grade descriptors on the assessor checklists and ensuring that checklist criteria have three instead of two anchors where appropriate, thereby allowing greater discrimination by examiners.
  • The presence of high failure rates at particular stations should lead to revisiting the teaching of a specific parts of the curriculum. In our OSCE, the high number of failures in station three and four highlighted teaching problems about counseling patients with thalassemia and conducting a history taking about fatigue and dizziness.

평가의 타당성에 대한 위협을 피하기 위해 OSCE의 계획 단계부터 신중하게 고려해야 합니다. 타당도에 대한 두 가지 주요 위협은 구인 과소 대표성(CU)과 구성과 무관 분산(CIV)입니다[23]. 

  • CU는 불충분한 수의 사례 사용으로 인해 콘텐츠 영역의 샘플링이 부족한 경우와 블루프린트가 시험 스테이션을 교육과정 내용 및 목표에 매핑하지 않을 때 샘플링이 부적절한 경우를 말합니다. OSCE의 청사진에는 콘텐츠 하위 영역, 평가 대상 역량 및 환자 특성이 포함되어 있었습니다.
  • CIV는 측정 대상과 무관한 변수에 의해 평가 데이터에 도입된 체계적 오류입니다. CIV의 예로는 결함이 있는 사례/체크리스트/평가 척도, 사례의 부적절한 난이도, 제대로 훈련되지 않은 표준화 환자 또는 평가자 오류 등이 있습니다. CIV의 주요 위협은 체계적인 평가자 오류로 인한 것입니다. 실제로 평가자는 평가자 심각도 또는 관용 오류, 중심 경향 오류, 후광 평가자 효과와 같은 측정 오류의 주요 원인입니다. 따라서 평가자의 평가 능력을 균일화하기 위해서는 평가자 간 합의도를 높이기 위한 교육 방법을 개선하는 것이 필수적입니다. 또한, 평가에 앞서 평가자 및 SP를 대상으로 상세한 지원 자료 제공 및 브리핑을 체계적으로 실시해야 합니다. 

Threats to the validity of any assessment should be well-thought-out since the planning phase of an OSCE in order to avoid them. Two major threats to the validity are construct underrepresentation (CU) and construct-irrelevant variance (CIV) [23].

  • CU refers to the under sampling of the content domain by the use of insufficient number of cases, and to the inadequate sampling when the blueprint does not map the exam stations to the curriculum content and objectives. The blueprint of our OSCE included the content subdomains, the competencies to be assessed and patients’ characteristics.
  • CIV is a systematic error introduced into the assessment data by variables unrelated to the construct being measured. CIV examples include flawed cases/checklists/rating scales, inappropriate difficulty level of the case, poorly trained standardized patients, or rater errors. The major CIV threat is due to systematic rater error. In fact, raters are a major source of measurement error, such as rater severity or leniency errors, central tendency error and halo rater effect. Therefore, upgrading training methods to improve between examiners’ agreement is essential in order to homogenize raters’ assessing skills. In addition, the provision of a detailed support material and briefings the examiners’ and SPs prior to the assessment should be systematically implemented. 

이번 OSCE에서는 콘텐츠 전문가들이 세심하게 문항을 구성한 체크리스트를 만들었고, 심사관들은 숙련된 교수진으로 구성되었습니다. 또한 적절한 체크리스트/평가 척도를 사용하는 것이 중요합니다[24]. 현재 증거에 따르면 숙련된 의사가 총체적 채점 또는 글로벌 평가 척도를 사용하면 체크리스트에 비해 검사소 간 신뢰도, 구성 타당도, 동시 타당도가 더 높은 것으로 나타났습니다[25]. 글로벌 평가 척도는 판단력, 공감, 지식의 조직화, 테크니컬 스킬과 같은 영역을 평가할 때 한 가지 측면만 특별히 보는 평가 척도에 비해 검사자가 전체 과정을 평가할 수 있게 해줍니다[26, 27]. 표준 설정을 위해 BRM을 사용하는 OSCE의 경우 두 가지 유형의 체크리스트 사용은 필수입니다.

In this OSCE, content experts designed the checklists with carefully worded items and our examiners were trained faculty. Furthermore, the use of appropriate checklists/rating scales is critical [24]. Current evidence suggests that the use of holistic scoring or global rating scales by an experienced physician shows greater inter-station reliability, better construct validity, and better concurrent validity compared to checklists [25]. Global rating scales allow the examiner to rate the whole process compared to rating scales looking at one aspect alone specially when assessing areas such as judgment, empathy, organization of knowledge and technical skills [26, 27]. For OSCEs which use the BRM for establishing a standard setting, the use of the two types of checklists is mandatory.

평가를 사용하는 사람들이 결과를 신뢰할 수 있어야 하기 때문에 교육 평가에 대한 엄격한 검증은 매우 중요합니다[28]. 많은 학교에서 OSCE 시험에 미리 정해진 커트라인 점수를 사용합니다. 그러나 객관적인 방식으로 학생의 성취도에 대한 방어 가능한 기준을 설정하는 것은 특히 OSCE가 총점제인 경우 매우 중요합니다[29]. 본 연구에서는 표준 설정 방법을 도입하여 학교 정책에 따라 미리 설정된 커트라인 점수와 비교했습니다. 또한 개별 스테이션 수준과 전체 임상 평가에서 여러 심리 측정 측정을 사용하여 내부 구조 타당성 증거를 분석하여 OSCE 점수의 품질에 대한 강점과 약점을 식별할 수 있었습니다.
Rigorous validation of educational assessments is critically important because those using an assessment must be able to trust the results [28]. Many schools use a predetermined cut scores for OSCE exams. However, setting defensible standards for student performance in an objective manner is critical, in particular when the OSCE is summative [29]. In this study, we have introduced a standard setting method and compared it to the preset cut score as per our school policy. We also analyzed the internal structure validity evidence by the use of multiple psychometric measures both at the individual station level and across the complete clinical assessment which allowed us to identify strengths and weaknesses of the quality of our OSCE scores.

본 연구의 한계는 학생의 표본 크기와 OSCE 스테이션의 수입니다. 또 다른 한계는 연구 결과의 일반화 가능성입니다. 저희는 학교의 한 학습자 그룹을 대상으로 시행한 OSCE의 특정 인스턴스화의 유효성을 뒷받침하는 증거를 제공했습니다. 당연히 표본 규모가 더 크고 학교 대표성이 더 넓어지면 연구 결과에 다양한 영향을 미칠 수 있으며 추가 조사가 필요합니다. 그러나 본 연구는 점수 추론의 타당성이 다양한 품질 보증 및 표준 설정 기법의 적절한 적용에 크게 좌우되는 OSCE의 총체적 적용을 기반으로 한 몇 안 되는 연구 중 하나입니다.
A limitation to our study is the sample size of students as well as the number of OSCE stations. Another limitation is the generalizability of our results. We provided the evidence supporting the validity of a particular instantiation of an OSCE administered for one group of learners at our school. Understandably, larger sample sizes and wider school representation may have a varied impact on our results and warrants further investigation. However, our study is one of the few that was based on a summative application of an OSCE where the validity of the score inferences is largely dependent on the proper application of various quality assurance and standard setting techniques.

결론
Conclusion

OSCE는 복잡한 과정 내에서 기준 기반 평가 원칙을 사용하며 많은 학교의 평가 시스템에서 필수적인 부분을 구성합니다. OSCE 결과에 대한 심리측정 분석을 일상적으로 수행하면 시험에 대한 전반적인 관점을 확보하고 일반적인 함정을 식별하고 피할 수 있습니다.
OSCEs use criterion-based assessment principles within a complex process and constitute an integral part of the assessment system at many schools. The routine performance of a psychometric analysis on the OSCE results helps gaining an all-round view of the exam and prompts the identification and avoidance of common pitfalls.

여러 지표를 통해 결과적 및 내부 구조적 타당성 증거를 수집하는 것은 특히 요약 목적으로 사용될 때 OSCE의 품질에 대한 지지 또는 반대를 제공합니다. 이러한 분석은 주어진 테스트의 로컬 반복에 대해 정기적으로 수행되어야 하며, 그 결과는 평가의 품질을 향상시키는 데 사용됩니다.
Gathering consequential and internal structure validity evidence by multiple metrics provides support for or against the quality of an OSCE, in particular when used for a summative purpose. It is critical that this analysis be performed routinely on local iterations of given tests, and the results used to enhance the quality of assessment.

 


BMC Med Educ. 2018 Dec 20;18(1):313. doi: 10.1186/s12909-018-1421-x.

Evaluating the validity evidence of an OSCE: results from a new medical school

Affiliations collapse

Affiliations

1Lebanese American University-School of Medicine, P.O. Box: 113288, Zahar Street, Beirut, Lebanon. vanda.abiraad@lau.edu.lb.

2Department of Medical Education, University of Illinois, Chicago, USA.

3Lebanese American University-School of Medicine, P.O. Box: 113288, Zahar Street, Beirut, Lebanon.

PMID: 30572876

PMCID: PMC6302424

DOI: 10.1186/s12909-018-1421-x

Free PMC article

Abstract

Background: To prevent the problems of traditional clinical evaluation, the "Objective Structured Clinical Examination (OSCE)" was presented by Harden as a more valid and reliable assessment instrument. However, an essential condition to guarantee a high-quality and effective OSCE is the assurance of evidence to support the validity of its scores. This study examines the psychometric properties of OSCE scores, with an emphasis on consequential and internal structure validity evidence.

Methods: Fifty-three first year medical students took part in a summative OSCE at the Lebanese American University-School of Medicine. Evidence to support consequential validity was gathered by using criterion-based standard setting methods. Internal structure validity evidence was gathered by examining various psychometric measures both at the station level and across the complete OSCE.

Results: Compared to our actual method of computing results, the introduction of standard setting resulted in lower students' average grades and a higher cut score. Across stations, Cronbach's alpha was moderately low.

Conclusion: Gathering consequential and internal structure validity evidence by multiple metrics provides support for or against the quality of an OSCE. It is critical that this analysis be performed routinely on local iterations of given tests, and the results used to enhance the quality of assessment.

Keywords: Objective structured clinical examination; Quality assurance; Validity evidence.

 

자연어처리와 전공의 피드백 퀄리티의 질 평가 (J Surg Educ. 2021)
Natural Language Processing and Assessment of Resident Feedback Quality
Quintin P. Solano, BS,* Laura Hayward, BS,† Zoey Chopra, BA,‡ Kathryn Quanstrom, BA,x Daniel Kendrick, MD,k Kenneth L. Abbott, MD, MS,{ Marcus Kunzmann, AB,# Samantha Ahle, MD, MHS,** Mary Schuller, MSEd,†† Erkin €Otle¸s, MSE,‡‡ and Brian C. George, MD, MAEdxx 

 

소개
INTRODUCTION

효과적인 학습을 위해서는 성과 피드백이 필요합니다. 외과에서 피드백은 기술적 술기와 비기술적 술기의 개발을 모두 지원합니다.1, 2, 3, 4, 5, 6 이러한 이유로 레지던트에게 성과 피드백을 제공하는 것은 미국의학전문대학원교육인증위원회(ACGME)의 핵심 프로그램 요건입니다.7 이러한 요구를 해결하기 위해 새로운 작업장 기반 평가 도구는 교수진이 수련의에게 지시된dictated 피드백을 제공할 수 있는 메커니즘을 제공합니다.8, 9, 10 이로 인해 외과 수련의에게 제공되는 피드백의 양이 더 많아졌습니다.8,11 학습에는 피드백의 양도 중요하지만 피드백의 질이 가장 중요합니다.12, 13, 14 이러한 맥락에서 교육 프로그램은 교수진이 이러한 새로운 도구를 사용하여 수련의에게 필요한 고품질 피드백을 제공하도록 보장해야 합니다. 그러나 수행 피드백의 품질을 특성화하는 현재의 접근 방식은 노동력과 리소스 집약적이며, 평가자가 데이터 세트의 각 피드백을 개별적으로 평가해야 하는 경우가 많습니다.10,15 
Performance feedback is necessary for effective learning. In surgery, feedback supports the development of both technical and non-technical skills.1, 2, 3, 4, 5, 6 For this reason, providing residents with performance feedback is an Accreditation Council for Graduate Medical Education (ACGME) core program requirement.7 To address this need, new workplace-based assessment tools provide a mechanism for faculty to provide trainees with dictated feedback.8, 9, 10 This in turn has led to greater volume of feedback provided to surgical trainees.8,11 While the quantity of feedback is important for learning, it is the quality of feedback matters most.12, 13, 14 Within that context, training programs must ensure that faculty use these new tools to provide the high-quality feedback that trainees need. However, current approaches to characterizing the quality of performance feedback are labor and resource intensive, often requiring raters to individually evaluate each piece of feedback in a dataset.10,15

일련의 기계 학습 방법인 자연어 처리(NLP)는 이 문제에 대한 자동화된 솔루션을 제공할 수 있습니다. 이전의 파일럿 연구에서는 SIMPL(Society for Improving Medical Professional Learning) 스마트폰 애플리케이션(매사추세츠주 보스턴)의 내러티브 데이터에 적용된 다양한 NLP 모델을 비교했습니다.8 이 연구에서는 소량의 수술 수련생 피드백 샘플의 피드백 기록 품질을 가장 정확하게 분류하는 NLP 모델 유형을 확인했습니다.16 초기 결과는 유망했지만 데이터 세트의 크기로 인해 성능 평가가 제한적이었습니다. 따라서 NLP 도구를 사용하여 피드백 품질을 자동으로 평가할 때 기대할 수 있는 성능은 알 수 없습니다. 
Natural language processing (NLP), a set of machine learning methods, may offer an automated solution to this problem. A previous pilot study compared different NLP models applied to narrative data from the Society for Improving Medical Professional Learning (SIMPL) smartphone application (Boston, MA).8 That study identified which type of NLP model most accurately classified the quality of feedback transcripts of a small sample of surgical trainee feedback.16 While the initial results were promising, performance assessment was limited by the size of the dataset. Therefore, the expected performance of utilizing NLP tools to automatically assess feedback quality is unknown.

이 연구의 주요 목표는 수술 수련생에게 제공되는 피드백의 품질을 특성화하기 위해 NLP 모델의 성능을 평가하는 것이었습니다. 이를 위해 훨씬 더 큰 데이터 세트를 사용했습니다. 코딩된 트랜스크립트 세트를 사용하여 NLP 모델을 학습시킨 후 테스트를 거쳐 성능을 분석했습니다. 
The primary aim of this study was to assess the performance of an NLP model to characterize the quality of feedback provided to surgical trainees. To do this we use a much larger dataset. The NLP model was trained using a set of coded transcripts, subsequently tested, and then analyzed for performance.

자료 및 방법
MATERIALS AND METHODS

연구 모집단
Study Population

2019년 8월에 기록된 단일 학술 외과 레지던트 프로그램에서 수술 성과 피드백을 받아쓰기한 간단한 성적표를 수집했습니다. 미시간대학교 기관윤리심의위원회는 이 연구가 심의 면제 대상이라고 판단했습니다. 
We collected SIMPL transcripts of dictated operative performance feedback from a single academic surgical residency program, all recorded in August 2019. The University of Michigan institutional review board deemed this study exempt from review.

데이터 수집
Data Collection

외과 레지던트의 수술 중 성과에 대한 수술 후 평가를 용이하게 하기 위해 개발된 SIMPL 스마트폰 앱을 사용하여 받아쓰기 피드백을 수집했습니다. 피드백은 구글 클라우드 음성-텍스트 변환기(캘리포니아주 마운틴뷰)를 통해 전사하고 연구 코디네이터가 비식별화한 다음 품질을 위해 코딩했습니다. 
Dictated feedback was collected using the SIMPL smartphone app, which was developed to facilitate post-operative evaluation of surgical residents’ intra-operative performance. Feedback was transcribed via Google Cloud Speech-to-Text (Mountain View, CA), de-identified by a study coordinator, and then coded for quality.

품질 평가
Quality Assessment

모든 성적표는 각각 2명의 코더로 구성된 두 개의 별도 팀에서 평가했습니다. 코더들은 이전 연구에서 외과의가 코딩한 '워밍업 성적표' 세트에 대한 교육을 받은 의대생이었습니다.15 코더들의 코딩을 전문가 평가와 비교하고 불일치하는 부분을 논의하여 평가자의 정확성을 개선했습니다. 성적표는 500단계로 평가되었습니다. 모든 단계가 끝나고 다음 단계가 시작되기 전에 코딩 불일치를 확인하고 각 코더 팀이 모여 코딩 결정을 논의하고 다음 단계의 코딩 스키마를 개선했습니다. 훈련 및 연구 데이터 세트를 코딩하는 동안 성적표의 텍스트 의미에 대한 의문이 생기면 저자 DK와 BG에게 문의하여 명확히 설명했습니다. 불일치하는 코드가 있을 때마다 각 팀은 각 녹취록에 대해 단일 품질 코드에 합의했습니다. 그런 다음 이 최종 코드를 사용하여 NLP 모델을 훈련했습니다. 
All transcripts were evaluated by two separate teams with 2 coders each. The coders were medical students who were trained on a set of “warm-up transcripts” coded by surgeons in a previous study.15 Their codes were then compared to expert ratings and discrepancies were discussed to improve rater accuracy. Transcripts were assessed in phases of 500. After every phase and prior to initiation of any subsequent phase, coding discrepancies were identified, and each coder team met to discuss their coding decisions and refine coding schema for subsequent phases. During coding of the training and study data sets, authors DK and BG were consulted for clarification when questions arose about the meaning of text in the transcripts. For each discordant code, each team reached consensus on a single quality code for each transcript. These final codes were then used to train the NLP model.

코더들은 Ahle 외15가 설명한 방법에 따라 피드백을 분류했으며, 처음에는 녹취록을 '관련성' 여부로 분류했습니다. 녹취록이 "관련성"으로 코딩된 경우, 후속 코딩에서는 해당 녹취록을 "구체적", "교정적", 둘 다 또는 둘 다 아닌 것으로 할당했습니다. 이러한 이진 속성은 훈련된 각 평가자가 평가했습니다. 각 성적표에 대한 코딩은 문장 수준에서 이루어졌으며, 성적표 내의 어떤 문장이 '관련성', '구체적' 및/또는 '교정적'에 해당하면 전체 성적표가 그렇게 코딩됩니다. 
Coders classified the feedback following the methods described by Ahle et al15, with an initial classification of the transcripts as “relevant” or not. If a transcript was coded as “relevant”, subsequent coding would assign the transcript as being “specific”, “corrective”, both, or neither. These binary attributes were assessed by each trained rater. Coding for each transcript occurred at the sentence level; if any sentence within a transcript qualified as “relevant”, “specific”, and/or “corrective”, the entire transcript would be coded as such.

  • '구체적'과 '교정적'으로 모두 평가된 성적표는 효과적(E)으로,
  • 구체적이거나 교정적이지만 둘 다는 아닌 성적표는 보통(M)으로,
  • 관련성이 있지만 구체적이지도 교정적이지도 않은 성적표는 비효과적(I)으로 분류했습니다.
  • 관련성이 없는 것으로 평가된 성적표는 기타(O)로 분류되었습니다.

이러한 코드는 특정 분석을 위해 다시 이분화되어 E 또는 M으로 평가된 성적표는 높은 품질로, I 또는 O로 평가된 성적표는 낮은 품질로 분류되었습니다(표 1).

  • Transcripts rated as both “specific” and “corrective” were classified as effective (E);
  • transcripts rated as specific or corrective but not both were classified as mediocre (M);
  • transcripts rated as relevant but neither specific nor corrective were classified as ineffective (I).
  • Transcripts not rated as relevant were classified as other (O).

These codes were further dichotomized for specific analyses, with transcripts rated as E or M classified as high quality, and transcripts rated as I or O classified as low quality (Table 1).

 

통계 분석
Statistical Analysis

NLP 모델은 Python17 프로그래밍 언어와 SKLearn18, Pandas19, Numpy20 프레임워크의 도움을 받아 구축되었습니다. 트랜스크립트는 길이 1에서 5까지 다양한 n-그램 크기의 백 오브 워드 벡터21로 사전 처리되었습니다. 데이터는 훈련 세트와 테스트 세트로 무작위로 분할(75%/25%)되었습니다. 
NLP models were constructed using the Python17 programming language with the aid of the SKLearn18, Pandas19, and Numpy20 frameworks. Transcripts were pre-processed into bag-of-word vectors21 with varying n-gram sizes, ranging from length 1 to 5. The data was randomly split (75%/25%) into a training set and a testing set.

로지스틱 회귀 모델은 파일럿 연구 결과를 바탕으로 선택되었습니다.17 모델 하이퍼파라미터와 파이프라인 파라미터(예: n-그램 크기)는 훈련 세트에서 5배 교차 검증 그리드 검색을 사용하여 평가되었습니다. 최적의 파라미터가 발견되면 전체 훈련 세트에서 모델을 훈련하고 테스트 세트에서 평가했습니다. 
Logistic regression models were chosen based on results from a pilot study.17 Model hyperparameters and pipeline parameters (e.g. n-gram size) were assessed using a 5-fold cross-validation grid search on the training set. Once the best parameters were found, the models were trained on the full training set and evaluated on the testing set.

주요 결과는 개별 및 이분화된 코딩 시스템 모두의 예측 정확도였습니다. 개별 클래스(E, M, I, O) 성능 등급은 클래스 가중치 메트릭(즉, 마이크로 가중치)을 사용하여 계산되었습니다. 2차 결과는 민감도, 특이도, 부정 및 양성 예측값, NLP 모델의 수신기 작동 특성 곡선(AUROC) 아래 영역이었습니다. 신뢰 구간은 부트스트랩 샘플링을 사용하여 추정했습니다. 테스트 데이터 세트는 성능 메트릭의 부트스트랩 샘플을 생성하기 위해 1,000회 교체하여 다시 샘플링되었습니다. 이 부트스트랩 분석을 통해 성적표 품질 레이블의 분포와 관련하여 예측 모델의 정확도 변화와 다른 성능 측정값을 추정할 수 있었습니다. 
The primary outcomes were the predictive accuracies of both the individual, and dichotomized coding systems. The individual class (E, M, I, O) performance ratings were calculated using class weighted metrics (i.e., micro weighting). Secondary outcomes were sensitivity, specificity, and negative and positive predictive values, and area under the receiver operating characteristic curve (AUROC) of the NLP model. Confidence intervals were estimated using bootstrap sampling. The test dataset was resampled with replacement 1,000 times to generate bootstrap samples of the performance metrics. This bootstrap analysis enabled estimation of the predictive model's variation in accuracy, and the other performance measures, in relation to the distribution of transcript quality labels.

결과
RESULTS

총 2,416개의 트랜스크립트가 품질 코딩되었으며 표 2에 설명되어 있습니다. 전체적으로 1,014개(42%)가 효과적(E)으로 코딩되었고 1,811개(75%)의 성적표가 높은 품질(E, M)로 코딩되었습니다. 고품질 및 저품질 피드백의 예는 표 3에 나와 있습니다. 

A total of 2,416 transcripts were coded for quality and are described in Table 2. Overall, 1,014 (42%) were coded as Effective (E) and 1,811 (75%) of the transcripts were high quality (E, M). Examples of high quality and low-quality feedback are shown in Table 3.

 

 

개별 피드백을 E, M, I 또는 O로 평가할 때 모델의 정확도는 0.65(95% 신뢰 구간: 0.61, 0.65)였으며, 민감도는 0.46(0.43, 0.49), 특이도는 0.87(0.86, 0.89), 양성 예측값은 0.50(0.48, 0.53), 음성 예측값은 0.87(0.86-0.89)로 나타났습니다. 개별 클래스 성능 지표는 부록 표 1에 나와 있습니다.

The accuracy of the model when rating individual pieces of feedback as E, M, I, or O was 0.65 (95% confidence interval: 0.61, 0.65), with sensitivity of 0.46 (0.43, 0.49), specificity of 0.87 (0.86, 0.89), positive predictive value of 0.50 (0.48, 0.53), and negative predictive value of 0.87 (0.86-0.89). Individual class performance metrics are presented in Appendix Table 1.

등급을 이분화했을 때(높은 품질과 낮은 품질), 낮은 품질의 피드백을 분류하는 모델 정확도는 0.83(0.80, 0.86), 민감도 0.37(0.33, 0.45), 특이도 0.97(0. 96, 0.98), 양의 예측값 0.80(0.74, 0.85), 음의 예측값 0.83(0.80, 0.85), 수신기 작동 특성 곡선 아래 면적 0.86(0.83, 0.87, 그림 1)으로 나타났습니다. 

When ratings were dichotomized (high vs. low quality), the model accuracy for classifying low quality feedback was 0.83 (0.80, 0.86), with sensitivity of 0.37 (0.33, 0.45), specificity of 0.97 (0.96, 0.98), positive predictive value of 0.80 (0.74, 0.85), negative predictive value of 0.83 (0.80, 0.85), and area under the receiver operating characteristic curve of 0.86 (0.83, 0.87; Fig. 1).

토론
DISCUSSION

우리는 수술 수련생에게 제공되는 피드백의 품질을 특성화하는 임무를 맡은 NLP 모델의 성능 특성을 조사했습니다. NLP 모델은 높은 정확도와 특이도로 피드백 품질을 분류할 수 있습니다. 그러나 민감도는 훨씬 낮았는데, 이는 알고리즘이 낮은 품질의 피드백을 가장 안정적으로 식별할 수 있음을 나타냅니다. 이 보고서에서 설명한 NLP 모델은 수술 훈련 프로그램에서 피드백 개입의 효과를 측정하는 데 유용할 수 있습니다. 
We investigated the performance characteristics of NLP models tasked with characterizing the quality of feedback provided to surgical trainees. NLP models can classify feedback quality with high accuracy and specificity. However, sensitivity was much lower, indicating that the algorithm can most reliably identify low quality feedback. The NLP model described in this report may be useful for measuring the effects of feedback interventions in surgical training programs.

이 연구는 NLP의 기능을 조사한 이전 파일럿 연구의 결과를 검증하지만, 이 연구에서는 이 기술이 더 큰 규모로 사용될 수 있기를 바라며 분류 성능을 더욱 개선하기 위해 더 큰 표본 크기를 활용했습니다.16 이 연구의 모델 지표는 의과 교육 환경 밖의 NLP 연구에서 나온 지표와 비슷합니다.22, 23, 24 라마찬드란 등은 NLP를 활용하여 연구 검토의 품질을 자동으로 평가하고 0.32-0.67의 정확도를 보고했습니다.22 우리 모델은 비교적 높은 정확도를 달성했으며, 이는 의학교육 맥락에서 향후 피드백 품질 개선을 위한 NLP의 잠재력을 강조합니다. 
This study validates the results of a previous pilot study examining the capabilities of NLP, however, in this study we utilized a larger sample size to further improve classification performance in the hope that this technology might be used on a larger scale.16 Model metrics from this study are comparable to those from studies of NLP outside medical education settings.22, 23, 24 Ramachandran et al. utilized NLP to automatically assess the quality of research reviews and reported accuracies of 0.32-0.67.22 Our model achieved relatively high accuracy, and this highlights the potential of NLP for future feedback quality improvement in a medical education context.

NLP 모델은 피드백을 측정하고 개선하는 데 도움이 되는 새로운 도구가 될 수 있습니다. 효과적인 고품질 피드백 제공의 중요성은 분명하지만 피드백 품질을 측정하는 데는 리소스 집약적입니다.15,25 NLP 모델은 거의 실시간으로 피드백 품질을 자동으로 특성화하여 이러한 부담을 줄일 수 있습니다. 외과 레지던트 프로그램은 자동화된 피드백 품질 특성화를 사용하여 레지던트들이 받는 피드백을 개선할 수 있습니다. 예를 들어, 지속적으로 낮은 품질의 피드백을 제공하는 교수진에게는 추가적인 교수진 개발 리소스를 제공할 수 있습니다. 또한, 자동화된 피드백 분류는 피드백 개선을 위한 새로운 아이디어를 개발 및 테스트하고 피드백 품질 개선을 위한 기존 방법 구현의 영향을 평가하는 데 사용될 수 있습니다.9,26,27 
NLP models may be a novel tool to both measure and help improve feedback. The importance of providing effective, high quality feedback is clear, yet the measurement of feedback quality is resource intensive.15,25 NLP models can reduce this burden by automatically characterizing feedback quality in near real time. Surgical residency programs could use automated characterizations of feedback quality to improve the feedback their residents receive. For example, faculty who consistently provide low quality feedback might be provided with additional faculty development resources. Furthermore, automated feedback classification might be used to develop and test new ideas for improving feedback, and to assess the impact of implementing existing methods for improving feedback quality.9,26,27

본 접근법은 일반외과 레지던트 프로그램 내에서 시범적으로 시행되었지만 다른 수술 전문과목에도 일반화할 수 있을 것으로 보입니다. 비수술 전문과목의 수련의에게 제공되는 피드백은 용어와 어휘가 다를 수 있지만, 이러한 환경에서 사용할 수 있는 NLP 모델을 개발하는 데 본 방법을 사용할 수 있습니다. 
Our approach, while piloted within a general surgery residency program, is likely generalizable to other procedural specialties. Although, the feedback provided to trainees in non-procedural specialties likely features different terminology and verbiage, our methods could be used to develop NLP models for use in such settings.

이 연구에는 한계가 있습니다.

  • 첫째, 우리가 분석한 모든 피드백은 단일 교육 기관에서 SIMPL을 통해 수집한 것으로, 다른 환경이나 다른 도구로 전달된 피드백을 대표하지 못할 수 있습니다.
  • 둘째, 피드백 품질을 평가한 의대생은 제한된 경험으로 인해 일부 기록을 잘못 코딩했을 수 있지만, 이전에 코딩된 기록에 대한 교육과 실습 외과의와의 빈번한 상담을 통해 이를 완화하려고 노력했습니다. 일부 모범적이고 어려운 대본은 실습 외과의와 논의했지만, 코딩된 대본의 대부분은 외과의의 감수를 거치지 않았습니다.
  • 셋째, 오디오 피드백의 대본에는 때때로 의미와 관련하여 합리적 추측을 필요로 하는 전사 오류가 포함되어 있으며, 이러한 추측 중 일부는 잘못된 것일 수 있습니다.
  • 마지막으로 나이, 인종, 성별, 억양과 같은 요인이 전사 품질과 내용에 영향을 미칠 수 있으므로 이러한 모델을 구현할 때는 NLP 모델 출력에서 관련 편견의 위험성을 염두에 두어야 합니다.

이러한 한계에도 불구하고 이 보고서는 잠재적 유용성을 강조하고 의학교육에서 NLP 연구를 위한 벤치마크를 제공합니다. 
This study has limitations.

  • First, all the feedback we analyzed was collected via SIMPL at a single academic institution and may not be representative of feedback delivered in other settings or with other tools.
  • Second, the raters of feedback quality were medical students who, due to limited experience, may have miscoded some transcripts, though we attempted to mitigate this via training with previously coded transcripts and frequent consultations with practicing surgeons. Although some exemplar and difficult transcripts were discussed with the practicing surgeons, the majority of the coded transcripts were not audited by them.
  • Third, transcripts of audio feedback sometimes contained transcription errors requiring reasoned guesses concerning meaning, and some of these guesses may have been incorrect.
  • Finally, factors like age, race, gender, and accents may impact transcription quality and content, when moving to implement these models we must be mindful of the risk of related biases in NLP model output.

Notwithstanding these limitations, this report highlights the potential utility and provides a benchmark for the study of NLP in medical education.

결론
CONCLUSIONS

NLP 모델은 높은 정확도와 특이도, 적당한 민감도로 수술 성과 피드백 품질을 분류할 수 있습니다. NLP는 피드백 품질을 자동으로 분류하는 데 효과적인 접근 방식이 될 수 있습니다. 이러한 정보는 궁극적으로 피드백을 개선하고 수술 수련의의 학습을 가속화하는 데 사용될 수 있습니다. 
An NLP model is able to classify operative performance feedback quality with high accuracy and specificity and modest sensitivity. NLP could serve as effective approach for automated classification of feedback quality. That information can ultimately be used to improve feedback and in turn accelerate learning for surgical trainees.

 


J Surg Educ. 2021 Nov-Dec;78(6):e72-e77. doi: 10.1016/j.jsurg.2021.05.012. Epub 2021 Jun 21.

Natural Language Processing and Assessment of Resident Feedback Quality

Affiliations collapse

1University of Michigan Medical School, Ann Arbor, Michigan. Electronic address: qsolano@med.umich.edu.

2University of Michigan Medical School, Ann Arbor, Michigan.

3Department of Surgery, University of Minnesota Medical School, Minneapolis, Minnesota.

4Washington University School of Medicine in St. Louis, St Louis, Missouri.

5Department of Surgery, Yale School of Medicine, New Haven, Connecticut.

6Department of Surgery, Michigan Medicine, Ann Arbor, Michigan.

7Department of Industrial and Operations Engineering , University of Michigan Medical School, University of Michigan, Ann Arbor, Michigan.

8Center for Surgical Training and Research, Michigan Medicine, Ann Arbor, Michigan.

PMID: 34167908

DOI: 10.1016/j.jsurg.2021.05.012

Abstract

Objective: To validate the performance of a natural language processing (NLP) model in characterizing the quality of feedback provided to surgical trainees.

Design: Narrative surgical resident feedback transcripts were collected from a large academic institution and classified for quality by trained coders. 75% of classified transcripts were used to train a logistic regression NLP model and 25% were used for testing the model. The NLP model was trained by uploading classified transcripts and tested using unclassified transcripts. The model then classified those transcripts into dichotomized high- and low- quality ratings. Model performance was primarily assessed in terms of accuracy and secondary performance measures including sensitivity, specificity, and area under the receiver operating characteristic curve (AUROC).

Setting: A surgical residency program based in a large academic medical center.

Participants: All surgical residents who received feedback via the Society for Improving Medical Professional Learning smartphone application (SIMPL, Boston, MA) in August 2019.

Results: The model classified the quality (high vs. low) of 2,416 narrative feedback transcripts with an accuracy of 0.83 (95% confidence interval: 0.80, 0.86), sensitivity of 0.37 (0.33, 0.45), specificity of 0.97 (0.96, 0.98), and an area under the receiver operating characteristic curve of 0.86 (0.83, 0.87).

Conclusions: The NLP model classified the quality of operative performance feedback with high accuracy and specificity. NLP offers residency programs the opportunity to efficiently measure feedback quality. This information can be used for feedback improvement efforts and ultimately, the education of surgical trainees.

Keywords: Medical Knowledge; Practice-Based Learning and Improvement; feedback; machine learning; medical education; natural language processing.

키워드 특이적 알고리듬으로 발전 문제가 있는 전공의 찾아내기 (J Grad Med Educ. 2019)
Detection of Residents With Progress Issues Using a Keyword–Specific Algorithm
Gaby Tremblay, MSc Pierre-Hugues Carmichael, MSc Jean Maziade, MD, FCMF, CCMF, MSc Mireille Gre´goire, MDCM, FRCPSC

 

 

소개
Introduction

전공의 수련 과정에 등록한 레지던트 중 학습에 어려움을 겪는 레지던트를 조기에 발견하는 것은 지속적인 과제입니다. 여러 연구에서 레지던트의 4.3%에서 9.1%가 수련 중 어려움을 겪는 것으로 나타났습니다.1,2 레지던트의 학습 어려움은 수련 후반에 확인되는 경우가 많으며,3 평가자가 수련 중 평가 보고서(ITER)에 "어려움" 또는 "실패"를 표시하거나 다른 로테이션 종료 평가 양식에 "실패"를 지정하는 것을 꺼리는 경우가 많기 때문입니다.4,5  그러나 ITER와 같은 순환 평가에서 서술의 길이와 모호하거나 부정적인 의견의 비율은 레지던트 교정의 잠재적 필요성을 나타냅니다.3,6 수련생 평가에서 서술적 의견은 가치가 있는 것으로 나타났으며,7,8 학습자의 역량 달성을 향한 진행 상황을 판단할 때 고려해야 합니다.9-11  
Early identification of a resident with progress difficulties who is enrolled in postgraduate medical training is an ongoing challenge. In various studies, between 4.3% and 9.1% of residents show evidence of struggling during training.1,2  The learning difficulties of residents are frequently identified late in their training,3  as assessors are often reluctant to mark “in difficulty” or “failure” on in-training evaluation reports (ITERs), or to designate “fail” on other end-of-rotation assessment forms.4,5  However, the length of narratives and percentage of ambiguous or negative comments on rotation assessments, such as ITERs, indicate a potential need for resident remediation.3,6  Narrative comments in assessing trainees have been shown to be valuable,7,8  and must be taken into account when determining learners' progress toward achieving competencies.911 

언어 분석 도구가 교육에 적용되고 있지만, 의학교육에서의 언어 분석에 관한 논문은 거의 발표되지 않았으며, 학부생에 초점을 맞춘 경향이 있다.12 역량 기반 의학교육의 일환으로 제공되는 모든 서술 정보를 처리하기 위해, 우리는 특정 키워드를 기반으로 진도에 문제가 있는 전공의를 감지할 수 있는 알고리즘으로 구성된 새로운 컴퓨터 의미 분석을 개발하고자 했다. 
Although the tools of language analytics have been applied in education, very few articles concerning language analytics in medical education have been published, and those that have tend to focus on undergraduate students.12  In order to handle all the narrative information becoming available as part of competency-based medical education, we sought to develop a novel computerized semantic analysis, which consists of an algorithm that is able to detect residents with progress issues, based on certain keywords.

방법
Methods

2001년부터 2013년까지 라발대학의 공인 프로그램에서 수련을 받은 모든 레지던트의 모든 ITER(사전 설정된 목표 달성 여부, 해당 서술, 전체 점수[합격/불합격] 및 일반적 의견을 나타내는 양식)가 포함된 데이터베이스를 추출하고 익명화하여 기록에 대한 기밀성을 보장했습니다. 이 연구에서 다루는 기간 동안 가정의학과에서 사용된 ITER 형식이 다른 레지던트 프로그램과 크게 달랐기 때문에 ITER는 가정의학과 또는 캐나다 왕립 의사 및 외과의 대학(RCPSC) 프로그램(온라인 보충 자료로 제공됨)으로 구분되었습니다. 데이터베이스에는 프로그램 이름, 레지던트 레벨, 로테이션 블록 번호, 레지던트 시작일과 종료일, 레지던트 근무지, CanMEDS 역할 평가(등급 및 코멘트), 전체 로테이션 평가(코멘트), 수련 기간 중 결근 일수 등이 포함되었습니다. 일반적으로 ITER는 로테이션 완료 후 30일 이내에 참석 교수진에 의해 완료되었습니다. 
A database containing all ITERs (forms indicating whether preset objectives are met, corresponding narratives, overall score [pass/in difficulty/fail], and general comments) from all residents training in accredited programs at Université Laval between 2001 and 2013 was extracted and anonymized to ensure confidentiality of their track records. The ITERs were split into either family medicine or Royal College of Physicians and Surgeons of Canada (RCPSC) programs (provided as online supplemental material), as the ITER format used in family medicine for the period covered in this study differed significantly from that of other residency programs. The databases included

  • the name of the program,
  • residency level,
  • rotation block number,
  • residency beginning and end dates,
  • residency site,
  • CanMEDS13  role assessments (ratings and comments),
  • overall rotation evaluation (comments), and
  • number of days of absence during the training period.

In general, ITERs were completed by attending faculty within 30 days of rotation completion.

각 데이터베이스에 대해 "어려움"(즉, 고군분투 중) 또는 "실패" 등급을 받은 것으로 정의되는 진도 문제가 있는 레지던트를 식별했습니다. 연구 목적을 위해 특정 레지던트의 모든 ITER는 "실패" 또는 "어려움 중"이라는 언급이 있는 양식이 나타날 때까지 보관되었습니다. 진행 문제가 확인된 ITER 이후의 모든 ITER는 폐기되었습니다.
For each database we identified residents with progress issues, defined as having an ITER either rated “in difficulty” (ie, struggling) or “fail.” For the purposes of the study, all ITERs from a given resident were kept until a form with the mention “failure” or “in difficulty” appeared. All ITERs following an ITER with identified progress issues were discarded.

교육 설계자는 프랑스어로 작성된 모든 ITER를 검토하고 긍정적 피드백 및 성능 저하와 관련된 용어를 제안했습니다. 용어는 전반적 퍼포먼스 설명 섹션에 입력된 133,216개의 단어와 ITER의 각 CanMEDS 역할에 대한 서술 섹션에 입력된 84,365개의 단어에서 결정되었습니다. 데이터베이스의 전반부는 긍정 및 부정 키워드 목록을 만드는 데 사용되었으며, 이 목록은 데이터베이스의 후반부와 일관성을 확인했습니다. 이중 의미(긍정 또는 부정)를 가질 수 있는 프랑스어 단어와 접속사는 삭제되었습니다. 이 목록의 실질적인 중요성은 의학전문대학원 부학장과 비의료인인 의학부 구성원이 확인했습니다. 이러한 키워드 목록과 영어 번역본은 온라인 보충 자료로 제공됩니다. 
An instructional designer reviewed all ITERs written in French and proposed terms associated with positive feedback and underperformance. Terms were determined from 133 216 words entered in the overall performance comments section and 84 365 words entered in the narrative section of each CanMEDS role of the ITERs. The first half of the database was used to make a list of positive and negative keywords that was checked for consistency against the second half of the database. French words that could have a dual meaning (either positive or negative) and conjunctions were discarded. The practical significance of this list was confirmed by the associate dean of postgraduate medical education and by a nonmedical member of the faculty of medicine. The list of these keywords with an English translation is provided as online supplemental material.

이러한 키워드를 기반으로 한 분류 규칙은 분류 및 회귀 트리 방법을 사용하여 재귀적 분할을 통해 구성되었습니다.14 이 방법론은 변수와 컷오프 값을 자동으로 선택할 수 있는 유연성과 비교적 간단한 분류 규칙을 생성할 수 있는 능력 때문에 선호되었습니다. 기술적 방법론에 대한 자세한 내용은 온라인 보충 자료로 제공됩니다. 분류 및 회귀 트리 알고리즘은 가정의학과 및 전문 프로그램 데이터 세트에 독립적으로 적용되었으며, 100%에 가까운 민감도(실제 양성으로 정확하게 식별되는 비율)와 최대 특이도(실제 음성으로 정확하게 식별되는 비율)를 가진 규칙을 얻는 것을 목표로 조정되었습니다. 도출된 각 분류 규칙에 대해 민감도, 특이도, 양성 및 음성 예측값(각각 실제 양성 및 실제 음성 비율)을 계산했습니다. 알고리즘은 키워드와 동시에 또는 그 이후 언제든지 "실패" 또는 "어려움"이라는 엄격한 기준과 전체 점수를 비교했습니다. 각 데이터 세트에 대해 얻은 최종 규칙의 데이터만 제시합니다. 어려움을 겪는 전공의의 유병률이 낮았기 때문에 성능 변동성이 증가하지 않도록 데이터 세트를 훈련 세트와 테스트 세트로 나누지 않았습니다.15   

A classification rule based on these keywords was constructed by recursive partitioning using classification and regression tree methods.14  This methodology was preferred due to its flexibility in automatically selecting variables and cutoff values and its ability to produce relatively simple classification rules. Technical methodologic details are presented as online supplemental material. The classification and regression tree algorithm was applied independently to the family medicine and specialized programs data sets and tuned with the aim of obtaining rules with near 100% sensitivity (proportion of actual positives correctly identified as such) and maximal specificity (proportion of actual negatives correctly identified as such). Sensitivity, specificity, and positive and negative predictive values (proportion of true positives and true negatives, respectively) were computed for each derived classification rule. The algorithm was compared to the stringent standard of “fail” or “in difficulty” overall score, either concurrent to the keyword or anytime thereafter. We present only data of the final rules obtained for each data set. Due to the low prevalence of struggling residents, data sets were not split into training and testing sets to avoid increasing performance variability.15 

라발 대학교 윤리위원회는 이 프로젝트의 심의를 면제했습니다. 
The Université Laval Ethics Board exempted this project from review.

통계 분석은 R 3.2.3(오스트리아 비엔나, 비엔나 통계 컴퓨팅 재단)을 사용하여 수행되었습니다. 
Statistical analyses were carried out with R 3.2.3 (R Foundation for Statistical Computing, Vienna, Austria).

결과
Results

등록된 3292명의 전공의에 대한 총 4만1618개의 ITER가 있었습니다. RCPSC 데이터베이스에는 2002년 5월부터 2013년 11월까지 라발대학의 36개 공인 프로그램에서 수련을 받은 2163명(여성 60%)의 ITER 3073건이 포함되어 있습니다. 가정의학 데이터베이스는 2001년 8월부터 2013년 9월까지 1129명의 레지던트(여성 73%)가 수련한 11,545명의 ITER로 구성되었습니다. 현재 50개의 농촌 및 도시, 대학 기반 공인 수련 프로그램에 910명의 레지던트가 등록되어 있습니다.

There was a total of 41 618 ITERs for the 3292 registered residents. The RCPSC database contained 30 073 ITERs from 2163 residents (60% female) training in 36 accredited programs at Université Laval between May 2002 and November 2013. The family medicine database was composed of 11 545 ITERs from 1129 residents (73% female) training between August 2001 and September 2013. There are currently 910 residents registered in the 50 rural and urban, university-based accredited training programs.

표 1은 RCPSC 레지던트 프로그램에 등록한 레지던트를 분류할 때 선택한 규칙의 성능을 보여줍니다. 이 분류 규칙은 100%의 민감도를 달성하는 동시에 87.7%의 특이도를 최대화합니다. 이 특정 그룹에서는 2163명의 레지던트 중 78명(4%)에서 진행 문제가 확인되었습니다. 분류 트리는 이러한 전공의를 진행 문제가 있는 것으로 정확하게 분류했습니다. 그러나 분류 트리는 난이도 또는 실패를 나타내는 전체 점수는 없었지만, 256명의 전공의를 진행 문제가 있는 것으로 식별하여 23.4%의 양의 예측값을 얻었습니다.

Table 1 presents the performance of the chosen rule when classifying residents enrolled in an RCPSC residency program. This classification rule achieves 100% sensitivity while maximizing specificity at 87.7%. In this particular group, progress issues were identified in 78 of the 2163 residents (4%). The classification tree correctly classified these residents as having progress issues. However, the classification tree identified 256 residents as having progress issues, although they did not have an overall score indicating difficulty or failure, resulting in a positive predictive value of 23.4%.

표 2는 가정의학과 프로그램에 등록한 레지던트를 분류할 때 선택한 분류 규칙의 성능을 보여줍니다. 이 분류 규칙은 민감도 100%를 달성하는 동시에 특이도는 79.2%로 최대화했습니다. 이 그룹에서는 1129명의 레지던트 중 67명(6%)에서 진행 문제가 확인되었습니다. 분류 규칙은 이러한 레지던트를 정확하게 식별했지만, 난이도 또는 실패를 나타내는 전체 점수는 없었지만 221명의 레지던트를 진행 문제가 있는 것으로 식별하여 23.3%의 양의 예측값을 얻었습니다.

Table 2 presents the performance of the chosen classification rule when classifying residents enrolled in the family medicine program. The classification rule achieves 100% sensitivity while maximizing specificity at 79.2%. In this group, progress issues were identified in 67 of 1129 residents (6%). The classification rule identifies these residents correctly, but it identified 221 residents as having progress issues, although they did not have an overall score indicating difficulty or failure, resulting in a positive predictive value of 23.3%.

그림 1과 그림 2는 각각 RCPSC와 가정의학과 레지던트에 대해 선택한 분류 규칙을 분류 트리 형태로 보여줍니다. 트리의 각 노드는 키워드와 해당 빈도를 모두 포함하는 간단한 이진 기준을 나타내며, 기준이 충족되면 트리에서 왼쪽으로 이동합니다.

Figures 1 and 2, respectively, present the chosen classification rules for RCPSC and family medicine residents in classification tree form. Each node of the tree represents a simple binary criterion, which includes both a keyword and its frequency, with movement down the tree going to the left when the criterion is met.

참고: 트리의 각 노드는 명확한 키워드와 해당 빈도를 모두 포함하는 간단한 이진 기준을 나타내며, 기준이 충족되면 트리에서 왼쪽으로 이동합니다. 레지던트의 모든 수련 중 평가 보고서(ITER)에 "우수excellent" 키워드가 9회 이상 포함된 경우, 시스템은 일반 코멘트 섹션에서 "지연lag" 키워드를 찾습니다. 이 키워드가 없는 경우(지연 = 0), 해당 레지던트는 진도 문제가 없는 것으로 분류됩니다(검은색 화살표로 표시된 왼쪽의 "0" 분기). 757:0은 이 알고리즘에 따라 757명의 레지던트에게 문제가 발생하지 않았음을 나타냅니다. 모든 ITER에서 "지연"이 한 번 이상 발생하면("지연" ≠ 0), 해당 레지던트는 진행에 문제가 있는 것으로 분류됩니다(회색 화살표로 표시된 "1" 분기점). 6:1은 6명에게는 문제가 없었고 1명에게는 문제가 있었음을 나타냅니다. 괄호 안의 단어는 해당 키워드가 검색된 ITER의 특정 섹션을 나타냅니다. "일반"은 ITER의 전체 성능 섹션을 나타냅니다. 발생 빈도에 괄호 사이의 단어가 나타나지 않으면 시스템은 ITER의 모든 섹션을 검색합니다.

Note: Each node of the tree represents a simple binary criterion, which includes both a definite keyword and its frequency, with movement down the tree going to the left when the criterion is met. When a resident has 9 or more occurrences of the keyword “excellent” in all of his or her in-training evaluation reports (ITERs), the system then looks for the keyword “lag” in the general comment section. If it is absent (lag = 0), then the resident is classified as having no progress issues (in the “0” branch to the left as shown by the black arrow). 757:0 indicates that 757 residents were not in difficulty and none had issues following this algorithm. If “lag” occurs at least once in all ITERs (“lag” ≠ 0), the resident is classified as having progress issues (in the “1” branch as shown by the gray arrow). 6:1 indicates that 6 residents did not have issues and 1 did. Words between parentheses indicate the specific section of the ITER where the keyword is searched. “General” indicates the overall performance section of the ITER. When no words between parentheses appear under the frequency of occurrences, the system searches all sections of the ITER.

참고: 코멘트 1은 가정의학과 수련 평가 보고서(ITER)의 의료 전문가 섹션, 코멘트 2는 의사소통 능력 및 전문성, 코멘트 3은 협업 및 관리, 일반은 전반적인 성과 섹션을 의미합니다. 괄호 안의 단어는 해당 키워드가 검색된 ITER의 특정 섹션을 나타냅니다. 괄호 사이의 단어가 발생 빈도 아래에 나타나지 않으면 시스템은 ITER의 모든 섹션을 검색합니다.

Note: Comment 1 refers to the medical expert section of the family medicine in-training evaluation report (ITER), comment 2 to communication skills and professionalism, comment 3 to collaboration and management, and general to the overall performance section. Words between parentheses indicate the specific section of the ITER where the keyword is searched. When no words between parentheses appear under the frequency of occurrences, the system searches all sections of the ITER.

트리의 각 노드는 명확한 키워드와 그 빈도를 모두 포함하는 간단한 이진 기준을 나타내며, 기준이 충족되면 트리에서 왼쪽으로 이동합니다. 레지던트가 모든 ITER의 의료 전문가 섹션에서 "독립independent" 키워드가 1회 이상 발생하면 시스템은 커뮤니케이션 및 전문성 섹션에서 "작업 중work on" 키워드를 찾습니다. 이 키워드가 존재하면("작업 중" ≠ 0), 시스템은 ITER의 모든 섹션에서 "관심interested"을 찾습니다. 2개 미만인 경우, 해당 레지던트는 진행 문제가 없는 것으로 분류됩니다(검은색 화살표로 표시된 왼쪽의 "0" 지점). 30:0은 이 알고리즘에 따라 30명의 레지던트가 어려움을 겪지 않았고 문제가 없었음을 나타냅니다. 모든 ITER에서 "관심"이 두 번 이상 발생하면(관심 < 2 아님), 해당 레지던트는 진행 문제가 있는 것으로 분류됩니다(회색 화살표로 표시된 "1" 분기). 13:3은 실제로 13명의 레지던트에게 문제가 없었고 3명에게 문제가 있음을 나타냅니다.
Each node of the tree represents a simple binary criterion, which includes both a definite keyword and its frequency, with movement down the tree going to the left when the criterion is met. When a resident has more than 1 occurrence of the keyword “independent” in the medical expert section of all ITERs, the system then looks for the keyword “work on” in the communication and professionalism section. If it is present (“work on” ≠ 0), the system looks for “interested” in all sections of the ITER. If there are fewer than 2 occurrences, the resident is classified as having no progress issues (in the “0” branch to the left as shown by the black arrow). 30:0 indicates that 30 residents were not in difficulty and none had issues following this algorithm. If “interested” occurs at least twice in all ITERs (interested not < 2), the resident is classified as having progress issues (in the “1” branch as shown by the gray arrow). 13:3 indicates that 13 residents in fact did not have issues and 3 did.

토론
Discussion

이 후향적 연구에서 우리는 성과가 미흡한 레지던트와 관련된 키워드를 기반으로 한 알고리즘이 프로그램 디렉터가 어려움을 겪고 있는 레지던트를 식별하는 데 도움이 된다는 것을 입증할 수 있었습니다. 이 알고리즘은 100%의 민감도와 100%의 음의 예측값에서 알 수 있듯이 진행에 어려움을 겪고 있는 모든 레지던트의 순위를 정확하게 매겼습니다. 
In this retrospective study, we were able to demonstrate that an algorithm based on keywords associated with a suboptimal performance would help a program director identify a struggling resident. The algorithm correctly ranked all residents who had difficulty progressing, as evidenced by the 100% sensitivity and 100% negative predictive value.

진행에 문제가 있는 모든 전공의를 감지하는 알고리즘의 이러한 능력은 알고리즘 설계에 내재되어 있습니다. 이러한 절충안이 더 낮은 양의 예측 값을 제공한다는 것을 알기 때문에 특이성을 극대화했습니다. 저희의 의견으로는, 성과가 좋은 레지던트의 파일을 검토하는 것보다 어려움에 처한 레지던트의 탐지가 지연되는 결과가 훨씬 더 중요하다고 생각합니다. RCPSC 데이터 세트에서 총 334명의 레지던트가 진도 문제가 있는 것으로 확인되었습니다(그림 1). 그러나 이 데이터베이스에는 36개 프로그램의 평가 양식이 포함되어 있으며 12년 동안의 기간이 포함되어 있습니다. 따라서 매년 평균적으로 프로그램 디렉터가 검토해야 하는 레지던트 파일은 알고리즘에 의해 어려움에 처한 것으로 잘못 식별된 1건 미만이었습니다. 가정의학과에서는 그림 2에 제시된 알고리즘이 어려움에 처한 레지던트를 감지하는 데 가장 효과적인 것으로 입증되었습니다(민감도 100%, 음의 예측값). 가정의학과 프로그램의 규모가 크다는 점을 고려할 때, 12년 동안 221건의 오탐지false positives 은 교육 현장 책임자에게 이미 잘 알려진 레지던트 그룹에서 교육 현장당 1년에 1~2건에 불과합니다. 이 연구의 목적상 알고리즘을 테스트한 기준은 전체 글로벌 점수입니다. 일부 오탐false positives은 수퍼바이저의 피드백에 따라 성과가 개선되어 이후 성과가 좋은 코호트에 합류한 고군분투하는 레지던트를 나타낼 가능성이 높습니다. 또는 수퍼바이저가 "어려움" 또는 "실패"에 해당하는 전체 점수를 부여하지 않고 내러티브에서 저성과를 설명할 수도 있습니다.4,5 따라서 일부 오탐에는 실제 고군분투하는 레지던트가 포함될 수 있습니다. 
This ability of the algorithm to detect all residents with progress issues is embedded in its design. Specificity was maximized, knowing that this compromise would give a lower positive predictive value. In our opinion, the consequences of delaying the detection of a resident in difficulty are much more important than reviewing the file of an otherwise well-performing resident. A total of 334 residents were identified as having progress issues in the RCPSC data set (figure 1). However, this database includes assessment forms from 36 programs and covers a period of 12 years. Therefore, each year, on average, a program director would have to review less than 1 resident file that was falsely identified by the algorithm as being in difficulty. As for family medicine, the algorithm presented in figure 2 proved to be the most effective in detecting residents in difficulty (100% sensitivity and negative predictive value). Considering the large size of the family medicine program, the 221 false positives over the 12-year period represent only 1 or 2 cases per year per teaching site, among a group of residents already well known to the teaching site director. For the purpose of this study, the standard against which the algorithm was tested is the overall global score. It is likely that some of the false positives represent struggling residents who improved their performance following feedback from their supervisors, and joined the well-performing cohort thereafter. Alternatively, supervisors could describe underperformance in the narratives without assigning the corresponding overall score “in difficulty” or “fail.”4,5  Therefore, some false positives may include true strugglers.

그림 1과 2의 알고리즘은 어려움을 겪는 전공의를 감지하는 데 필요한 키워드의 시리즈와 빈도를 강조합니다. 또한 평가자의 평가 관행에 대한 통찰력도 제공합니다. 

  • 예를 들어, "양호good"의 빈도가 높다는 것은 이 단어가 대부분의 ITER에서 일반적으로 사용되며 심지어 어려움을 겪는 전공의를 묘사하는 데에도 사용되기 때문에 평가자가 일반적으로 이 단어를 남용하고 있음을 시사합니다. 
  • "지연lag"이라는 키워드는 "우수excellent"라는 키워드와 여러 번 일치했습니다(그림 1). 
  • 마찬가지로 그림 2에서 볼 수 있듯이 '관심interested'과 같은 일부 긍정적인 키워드는 부정적인 성과와 연관되어 있었습니다. 이는 고군분투하는 전공의의 ITER에서 특정 격려 문구가 우선적으로 사용될 수 있음을 시사할 수 있습니다.

The algorithms in figures 1 and 2 highlight a series and frequency of keywords needed to detect struggling residents. They also provide some insight into the evaluation practices of assessors.

  • For example, the high frequency of “good” suggests that this word is generally overused by assessors, as it is commonly used in most ITERs, even to describe struggling residents.
  • The keyword “lag” has coincided with several occurrences of the keyword “excellent” (figure 1).
  • Likewise, some positive keywords, such as “interested,” were associated with negative performance, as indicated in figure 2. This might suggest that specific encouragement wording may be preferentially used in ITERs of struggling residents.

이 연구의 결과는 블라인드 교수진이 34명의 내과 레지던트의 ITER를 개별적으로 검토한 이전 연구에서 발견한 결과와 유사하며, 이 연구에서 댓글 섹션의 단어 수와 부정적이거나 모호한 댓글이 있는 ITER의 비율은 심각한 진도 문제와 관련이 있었습니다.6 유사한 디자인을 사용하여 일반 외과 레지던트를 대상으로 한 후향적 연구에서는 수련 첫 해에 84%의 어려움을 겪는 레지던트를 식별할 수 있음을 보여주었습니다.16 
The results of this study parallel the findings found in a previous study of 34 internal medicine residents' ITERs, reviewed individually by blinded faculty members, in which the number of words in the comment section and the percentage of ITERs with negative or ambiguous comments were associated with serious progress issues.6  Using a similar design, a retrospective study of general surgical residents demonstrated that 84% of struggling residents could be identified in their first year of training.16 

캐나다 의사 위원회 시험의 첫 번째 파트에 대한 자동화된 에세이 채점이 신뢰할 수 있는 것으로 입증되었다는 점을 고려할 때,17 자동화된 컴퓨터 의미 분석을 사용하면 프로그램 디렉터와 대학원 의학교육 사무실의 업무를 용이하게 할 수 있습니다. 어려움에 처한 레지던트의 유병률이 낮다는 점을 고려할 때, 키워드 접근법은 레지던트 코호트가 많은 프로그램 디렉터와 경험이 적은 프로그램 디렉터, 그리고 대학원 부학장에게 유용한 플래깅 도구가 될 수 있습니다. 각 프로그램별로 ITER를 하위 분석하는 것도 흥미로운 추가 기능이었지만, 진행에 어려움을 겪은 전공의의 비율이 낮고 데이터 기밀성 문제로 인해 불가능했습니다.
Considering that automated essay scoring of the first part of the Canadian Medical Council examinations has been shown to be reliable,17  the use of an automated computer semantic analysis could facilitate the work of program directors and the office of postgraduate medical education. Given the low prevalence of residents in difficulty, a keyword approach would be a valuable flagging tool for program directors with large resident cohorts and those with little experience, as well as for the postgraduate associate dean. A subanalysis of ITERs for each program would have been an interesting addition, but the low rate of residents who experienced progress difficulties and data confidentiality concerns made this impossible.

이 알고리즘을 통해 데이터베이스에서 진행에 문제가 있는 전공의을 정확하게 식별할 수 있었지만, 부정적 키워드의 첫 사용과 "어려움" 또는 "실패"라는 글로벌 ITER 등급 사이의 리드 타임은 확인할 수 없었습니다. 또한 컴퓨터 알고리즘은 훈련생을 평가할 때 때때로 사용되는 외교적 언어의 미묘한 차이를 이해하지 못합니다.11 부정적 예측 값과 민감도는 데이터 세트에 따라 달라질 수 있습니다. 또 다른 한계는 연구 당시 가정의학과 전공의에 대한 별도의 데이터 세트를 사용했다는 점인데, 이는 이 프로그램이 RCPSC 전문과목과 상당히 다른 ITER 양식을 사용했기 때문입니다. 또한 모든 데이터는 단일 대학에서 수집되었습니다. 따라서 일부 언어 패턴은 보다 광범위한 기관 문화의 결과일 수 있으며, 일반화 가능성을 제한할 수 있습니다. 교육생의 성별18 또는 인종적 배경에 따라 언어가 다르게 사용되어 편견을 유발할 수 있습니다. 이러한 알고리즘이 부적절하게 사용될 경우, 전공의를 어려움에 처한 사람으로 잘못 분류할 수 있습니다. 마지막으로, 출판을 위해 이 글에 제시된 알고리즘의 키워드는 영어로 번역되었지만 통계 분석은 프랑스어로 작성된 ITER를 사용하여 수행되었습니다. 프랑스어 이외의 언어로 이 알고리즘을 사용하려면 키워드에 대한 문화 간 검증이 필요합니다. 
While this algorithm made it possible to accurately identify residents in the database who have shown progress issues, it remains unable to determine the lead time between the first use of the negative keywords and the global ITER rating of “in difficulty” or “fail.” Moreover, a computerized algorithm does not understand the subtleties in the diplomatic language sometimes used in assessing trainees.11  The negative predictive value and sensitivity could also vary with a different data set. Another limitation was the separate data set for family medicine residents, since at the time of the study this program used an ITER form that was significantly different from the RCPSC specialties. Moreover, all data were collected at a single university. Thus, some of the linguistic patterns could be a result of a broader institutional culture, potentially limiting its generalizability. Language could be used differently according to the gender18  or ethnic background of trainees, inducing a bias. If used inappropriately, such an algorithm could lead to false labeling of residents as strugglers. Finally, for publishing purposes, the keywords of the algorithms presented in this article were translated into English, but the statistical analysis was done using ITERs written in French. Using this algorithm in a language other than French would require transcultural validation of the keywords.

현재 코호트에서 알고리즘의 키워드 사용에 대한 유효성 증거를 제공하려면 추가적인 전향적 분석이 필요합니다. 성과가 저조한 훈련생을 조기에 발견하는 알고리즘의 효율성을 평가하고 하나의 키워드 세트를 모든 프로그램에 사용할 수 있는지 여부를 결정하기 위한 추가 연구는 모든 ITER가 동일한 구조를 공유하는 지금 중요한 다음 단계입니다. 
Additional prospective analyses are required to provide validity evidence for the use of the keywords of the algorithm in current cohorts. Further study to assess the algorithm's efficacy for earlier detection of underperforming trainees and to determine whether one set of keywords could be used for all programs are key next steps now that all ITERs share the same structure.

결론
Conclusions

회귀 트리를 사용한 분류에서 도출된 알고리즘을 사용하여 전향적 컴퓨터 의미 분석을 통해 레지던트의 진행 상황을 체계적으로 모니터링하는 것은 특히 역량 기반 의학교육의 일환으로 점점 더 많은 서술형 평가를 분석해야 할 필요성을 고려할 때 어려움에 처한 레지던트를 식별하는 효과적인 방법이 될 수 있습니다.
Systematic monitoring of resident progress through a prospective computerized semantic analysis using an algorithm derived from a classification with regression trees may be an effective way to identify residents in difficulty, especially given the need to analyze increasing numbers of narrative evaluations as part of competency-based medical education.


J Grad Med Educ. 2019 Dec;11(6):656-662. doi: 10.4300/JGME-D-19-00386.1.

Detection of Residents With Progress Issues Using a Keyword-Specific Algorithm

PMID: 31871565

PMCID: PMC6919172

DOI: 10.4300/JGME-D-19-00386.1

Free PMC article

Background: The literature suggests that specific keywords included in summative rotation assessments might be an early indicator of abnormal progress or failure.

Objective: This study aims to determine the possible relationship between specific keywords on in-training evaluation reports (ITERs) and subsequent abnormal progress or failure. The goal is to create a functional algorithm to identify residents at risk of failure.

Methods: A database of all ITERs from all residents training in accredited programs at Université Laval between 2001 and 2013 was created. An instructional designer reviewed all ITERs and proposed terms associated with reinforcing and underperformance feedback. An algorithm based on these keywords was constructed by recursive partitioning using classification and regression tree methods. The developed algorithm was tuned to achieve 100% sensitivity while maximizing specificity.

Results: There were 41 618 ITERs for 3292 registered residents. Residents with failure to progress were detected for family medicine (6%, 67 of 1129) and 36 other specialties (4%, 78 of 2163), while the positive predictive values were 23.3% and 23.4%, respectively. The low positive predictive value may be a reflection of residents improving their performance after receiving feedback or a reluctance by supervisors to ascribe a "fail" or "in difficulty" score on the ITERs.

Conclusions: Classification and regression trees may be helpful to identify pertinent keywords and create an algorithm, which may be implemented in an electronic assessment system to detect future residents at risk of poor performance.

질적연구 실용 가이드: Part 5: 일차의료 연구에서 공동-생성적 질적 접근: 경험-기반 공동 설계, 사용자-중심적 설계, 공동체-기반 참여적 연구 (Eur J Gen Pract. 2022)
Series: Practical guidance to qualitative research. Part 5: Co-creative qualitative approaches for emerging themes in primary care research: Experience-based co-design, user-centred design and community-based participatory research
Albine Mosera,b and Irene Korstjensc

 

 

소개
Introduction

수년에 걸쳐 저희는 감독 업무를 수행하면서 질적 연구가 많은 질문과 도전을 불러일으키는 경향이 있다는 사실을 발견했습니다. 질적 연구에 대한 실용적인 지침을 제공하기 위한 시리즈[1-4]의 다섯 번째 글인 이 글에서는 일차 진료 연구에서 새롭게 떠오르는 주제를 다루기 위한 세 가지 공동 창조적(그리고 대부분) 질적 접근 방식, 즉 진료의 질을 개선하기 위한 경험 기반 공동 설계, eHealth 리소스 개발 및 평가를 위한 사용자 중심 설계, 지역 건강을 협력적으로 개선하기 위한 지역사회 기반 참여 연구를 소개합니다. 
Over the years, in our supervisory work, we have noticed that qualitative research tends to evoke many questions and challenges. This article, the fifth in a series aiming to provide practical guidance for qualitative research [1–4], introduces three co-creative (and mostly) qualitative approaches for addressing emerging themes in primary care research:

  • experience-based co-design to improve the quality of care,
  • user-centred design to develop and evaluate eHealth resources and
  • community-based participatory research to improve local health collaboratively.

변화하는 1차 의료
A changing primary care

일차 의료는 만성 치료 및 노인 치료 제공 증가, 공동 의사 결정 및 사전 치료 계획, e- 및 mHealth, 예방 및 커뮤니티 케어, 간호사, 구급대원 및 관련 서비스와의 전문가 간 협업 등 변화하는 상황에 직면해 있습니다[5-8]. 이러한 변화는 일차 진료 연구에 영향을 미칩니다. 일반의는 본질적으로 환자 및 다른 전문가와 협력하여 일상 진료에서 복잡한 건강 문제에 대한 해결책을 모색하는 공동 창작자입니다. 그러나 공동 창작에 대한 '명시적' 개념은 국가 정책 맥락에 따라 일반의에게 익숙하지 않을 수 있습니다[9]. 
Primary care faces a changing context, including the increasing provision of chronic care and elderly care, shared decision-making and proactive care planning, e- and mHealth, preventive and community care, and interprofessional collaboration with nurses, paramedics and relevant services [5–8]. These changes have consequences for primary care research. By nature, general practitioners are co-creators in working with their patients and other professionals on seeking solutions for complex health issues in daily practice. However, the ‘explicit’ idea of co-creation may not be very familiar to general practitioners, depending on their national policy context [9].

공동 창조적 접근 방식
Co-creative approaches

연구에서 공동 창작은 연구 연속체 전반에 걸친 반복적이고 비선형적인 프로세스와 이해관계자와 함께 일하는 학자들의 협력적인 지식 창출을 의미합니다[10]. 우리는 공동 창조적 질적 접근법이라는 용어를 포괄적인 개념으로 사용합니다. 세 가지 공동 창조적 접근법은 기원, 핵심 원칙, 목표, 이해관계자가 다르지만(상자 1) 공통점을 공유합니다.

  • 이 접근법은 현실의 문제를 해결하는 데서 출발하여, 이해관계자의 참여와 이해관계자 간의 동등한 파트너십을 지원하고, 취약한 사람/지역사회에 권한을 부여하며, 실천과 연구 간의 격차를 해소합니다.
  • 이들은 일반의 및 기타 1차 진료 전문가의 과학적 지식과 전문성을 보완합니다.
  • 이들은 다양한 관점에서 요구, 경험, 열망, 이해관계 및 변화에 대한 인사이트를 제공합니다.

공동 창조적 접근 방식은 일차 진료에서는 비교적 생소하지만 병원, 정신과 치료 또는 사회 복지와 같은 다른 환경과 간호, 사회학 또는 발달 연구와 같은 학문 분야에서는 다소 친숙한 접근 방식입니다. 
In research, co-creation means an iterative and non-linear process throughout the research continuum and the collaborative generation of knowledge by academics working alongside stakeholders [10]. We use the term co-creative qualitative approaches as an umbrella concept. The three co-creative approaches have different origins, core principles, goals and stakeholders (Box 1) but they share common ground.

  • They start from solving a problem in practice, supporting stakeholder involvement and equal partnerships among the stakeholders, empowering vulnerable people/communities and bridging the gap between practice and research.
  • They complement the scientific knowledge and expertise of general practitioners and other primary care professionals.
  • They provide insights into needs, experiences, aspirations, stakes and changes from a multi-perspective.

Co-creative approaches are relatively novel to primary care but they are rather familiar in other settings such as hospitals, psychiatric care or social care and to disciplines such as nursing, sociology or developmental research.


공동 창작이 궁극적으로 효율성과 결과를 개선하고, 환자 만족도와 신뢰도를 높이며, 연구 역량을 강화할 수 있음을 시사하는 문헌이 점점 더 많아지고 있습니다[11]. 이는 일반의와 일차 진료 전문가가 제공하는 의료 서비스와 국민 건강을 개선하기 위한 상향식 접근 방식입니다[12]. 과학 문헌에서는 공동 설계, 공동 제작, 파트너십 접근법, 이해관계자 참여, 환자 및 대중 참여, 참여 연구 등 공동 창조라는 개념에 맞는 다양한 용어가 사용되고 있음을 알고 있습니다[13]. 
A growing body of literature suggests that co-creation can ultimately result in improved efficiencies and outcomes, increased patient satisfaction and trust and greater capacity for research [11]. It is a bottom-up approach to improve health services and the population’s health that general practitioners and primary care professionals serve [12]. We are aware that in scientific literature many different terms are used that fit our notion of co-creation such as co-design, co-production, partnership approaches, stakeholder engagement, patient and public involvement, and participatory research [13].

이해관계자
Stakeholders

공동 창조는 이해관계가 있는 사람들과의 파트너십을 통해 (연구) 문제를 정의하고, 중재를 개발 및 실행하며, (연구 및 실천) 결과를 평가 및 정의하는 것을 목표로 합니다. 

  • 이 글에서는 [이해관계자]특정 진료, 과정, 결정 및 건강 결과와 이를 뒷받침하는 근거에 명시적인 이해관계가 있는 사람으로 정의합니다. 
  • 일차 진료 연구의 일반적인 이해관계자는 환자, 가족 간병인, 연구자, 의료 전문가(관리자 포함), 옹호 단체 및 기타 관련 이해관계자(예: 지역 정책 입안자, 보험 회사)입니다. 

그러나 공동 창작을 사용하는 모든 연구 프로젝트는 연구 문제를 정의하는 단계에서 [이해관계자 분석]이 필요합니다. 초기 프로젝트 멤버들은 가능한 모든 이해관계자에 대한 브레인스토밍으로 시작한 다음, 문제와 프로젝트에 대한 이해관계자의 권한, 영향력, 관심도에 따라 우선순위를 정합니다. 그리고 그들의 동기, 관심사, 입장, 기대치, 기대 이익을 탐색합니다[14].
Co-creation aims to define the (research) problem, develop and implement interventions and evaluate and define (research and practice) outcomes in a partnership with those who have a stake.

  • For this article, we define stakeholders as those who have an explicit interest in a particular practice, process, decision and/or health outcome and the supporting evidence.
  • Common stakeholders in primary care research are patients, family carers, researchers, care professionals (including managers), advocacy organisations and other relevant stakeholders (e.g. local policymakers, insurance companies).

However, every research project using co-creation requires a stakeholder analysis at the stage of defining the research problem. The initial project members start with a brainstorm of all possible stakeholders and then prioritise them according to their power over, influence on, and their interest in the problem and the project. They explore their motivations, interests, positions, expectations and expected benefits [14].

이 문서의 대상 독자 및 내용
Target audience and content of this article

이 논문은 이러한 공동 창작 디자인을 사용하고자 하는 연구자들과 이 방법론을 사용한 논문을 점점 더 많이 읽게 될 일반 실무자들에게 적합합니다. 그들은 우리의 소개를 '첫 데이트'라고 생각할 수 있습니다. 우리는 이러한 접근법의 맥락과 무엇을, 왜, 언제, 어떻게, 그리고 주요 실무적, 방법론적 과제에 대한 가능한 질문을 다룹니다. 1차 의료 및 기타 의료 영역에서 발표된 경험적 연구 사례와 추가 자료를 제공합니다.  
This paper is relevant for researchers who want to use these co-creative designs and general practitioners who will increasingly read articles using this methodology. They might consider our introduction a ‘first date’. We address possible questions about the context and the what, why, when, and how of these approaches and their main practical and methodological challenges. We provide examples of published empirical studies in primary care and other health care domains and sources for further reading.

치료의 질을 개선하기 위한 경험 기반 공동 설계
Experience-based co-design to improve the quality of care

맥락
Context

고품질의 의료 서비스를 제공하는 것은 모든 1차 의료 전문가의 목표입니다. 치료의 질을 개선하는 고전적인 방법은 생의학적 및 심리사회적 결과, 기능 및 비용 효율성을 평가하는 것입니다[15]. 최근에는 의료 서비스 설계 과정에 환자, 가족 간병인, 대중을 적극적으로 참여시켜 환자 경험을 기반으로 의료의 질을 개선하는 방향으로 전환하고 있습니다. 의료 서비스의 질을 개선하기 위한 혁신적인 접근 방식 중 하나가 경험 기반 공동 설계입니다[16]. 이 접근법을 사용하여 발표된 경험적 연구에는 다음이 포함됩니다:
Providing high-quality care services is the goal of every primary care professional. Classic ways for improving quality of care are based on evaluating biomedical and psychosocial outcomes, functioning and cost-effectiveness [15]. In recent years, there has been a shift towards quality of care improvement based on patient experiences by actively involving patients, family carers and the public in the design process of health services. An innovative approach to improving the quality of care services is experience-based co-design [16]. Published empirical studies using this approach include:

  • 사람들이 일차 진료에서 안전에 대해 발언할 수 있도록 지원: 공동 설계를 사용하여 복합 이환 환자를 위한 새로운 개입을 개발하는 데 환자와 전문가를 참여시킵니다[17].
  • 경험 기반 공동 설계를 사용하여 환자 중심 암 치료 경로에서 대장암 및 유방암 고령자의 경험 개선 [18].
  • 가보지 않은 길: 경험 기반 공동 설계를 사용하여 화상 부상 후 어린이와 가족의 정서적 여정을 매핑하고 서비스 개선 사항을 파악합니다[19].
  • Empowering people to help speak up about safety in primary care: using co-design to involve patients and professionals in developing new interventions for patients with multimorbidity [17].
  • Improving the experience of older people with colorectal and breast cancer in patient-centred cancer care pathways using experience-based co-design [18].
  • A road less travelled: using experience-based co-design to map children’s and families’ emotional journey following burn injury and identify service improvements [19].

무엇?
What?

경험 기반 공동 설계의 목표는 환자, 가족 보호자, 전문가가 치료의 질을 개선한다는 공통의 목표를 향해 협력하는 것을 촉진하는 것입니다. 이 접근 방식은 사람들이 프로세스 또는 서비스를 경험하는 방식을 포착하고 이해하고자 하는 행동 연구의 한 형태입니다[16]. 경험 기반 공동 설계 접근 방식은 환자, 가족 간병인, 일반인, 전문가의 주관적이고 개인적인 감정을 의도적으로 끌어내어, (개인의 전반적인 경험을 형성하는 핵심 순간인) 터치포인트를 식별합니다. 경험 기반 공동 설계를 통해 환자, 가족 간병인, 일반인, 전문가가 파트너로서 서비스 또는 치료 경로를 공동 설계하여 경험을 바탕으로 치료의 질을 개선할 수 있습니다.
The goal of experience-based co-design is to facilitate collaborative work between patients, family carers and professionals towards a common goal – to improve the quality of care. This approach is a form of action research that seeks to capture and understand how people experience a process or service [16]. An experience-based co-design approach deliberately draws out the subjective, personal feelings of patients, family carers, the public and professionals to identify touchpoints – key moments that shape a person’s overall experience. Experience-based co-design enables patients, family carers, the public and professionals – as partners – to co-design services or care pathways to improve the quality of care based on experiences.

왜 그리고 언제?
Why and when?

의료 전문가는 종종 자신이 치료 프로세스를 개선하고 환자를 위한 가치를 창출할 수 있는 고유한 전문 지식을 가지고 있다고 생각합니다[16]. Berwick [20]은 전문가 우위에서 벗어나 공동 창조에 더 중점을 둘 것을 제안했습니다. 환자와 대중의 참여에 대한 관심이 증가하고 있으며, 이는 종종 보건 정책 이니셔티브와 의료 서비스 전반에 걸친 가치 공동 창출에 대한 지원으로 촉발됩니다. 
Health care professionals often think they have the unique expert knowledge to improve care processes and create value for patients [16]. Berwick [20] proposed shifting away from professional dominance to a greater focus on co-creation. There is a growing interest in patient and public involvement, often triggered by health policy initiatives and support for co-creating value across health care.

환자 및 대중 참여는 의료 서비스의 계획, 제공 및 평가에 환자, 가족 간병인 및 대중의 적극적인 참여를 수반합니다. 여기에는 환자 및 서비스 사용자 시작, 호혜적 관계 구축, 공동 학습, 재평가 및 피드백의 지속적인 프로세스가 포함됩니다[21]. 환자 참여는 개별 치료 및 치료에 대한 결정에 있어 개인 수준에서, 그리고 의료 서비스 제공에 대한 결정에 있어 집단 수준에서 이루어질 수 있습니다[22]. 
Patient and public involvement entail the active participation of patients, family carers and the public in planning, delivering and evaluating health care services. It involves the ongoing process of patient and service user initiation, building reciprocal relationships, co-learning and re-assessment and feedback [21]. Involving patients can happen at the individual level – in decisions about individual care and treatment – and at the collective level – in decisions about the delivery of care services [22].

Arnstein[23]의 참여 사다리를 변형한 버전에 따라 정보, 상담, 자문, 파트너십, 시민 통제 등 다섯 가지 수준의 참여를 구분합니다(상자 2). 일차 진료 맥락에서 환자, 가족 간병인, 대중, 전문가가 적극적으로 참여함으로써 공동 설계는 이해관계자의 지식을 연결하여 진료의 질 우선순위 문제를 해결합니다.
Based on an adapted version of Arnstein’s [23] participation ladder, we distinguish five levels of involvement: information, consultation, advising, partnership and citizen control (Box 2). In the primary care context, by the active involvement of patients, family carers, the public and professionals, co-design connects the knowledge of stakeholders to address quality of care priority concerns.

어떻게?
How?

치료의 질을 개선하기 위한 경험 기반 공동 설계 프로젝트는 일반적으로 12개월 동안 진행되며[24], 이 프로세스에는 발견 및 공동 설계 단계가 포함됩니다[25](그림 1). 프로젝트의 시작은 프로젝트를 실행할 핵심 그룹을 구성하고 연구자를 모집하는 것입니다. 
Experience-based co-design projects to improve the quality of care typically last 12 months [24], and the process contains discovery and co-design phases [25] (Figure 1). The start involves setting up a core group that runs the project and recruiting a researcher.

 

발견 단계

  • 개선할 서비스가 어떻게 작동하는지에 대한 귀중한 인사이트를 제공하는 [연구자의 관찰]로 시작됩니다. 이러한 인사이트는 연구자가 후속 인터뷰를 위해 민감하게 반응하는 데 도움이 됩니다.
  • 발견 단계에서는 질병이 환자와 가족 간병인의 일상 생활에 미치는 영향을 탐색하고 학습하는 것을 목표로 하는 [발견 인터뷰]가 진행됩니다. 발견 인터뷰는 환자, 가족 간병인 및 전문가와 함께 의료 서비스 경험에 대해 실시하여 치료, 회복 및 복지에 중대한 영향을 미칠 수 있는 요구 사항에 대한 지식을 생성합니다.
  • [접점]은 참여자의 경험을 바탕으로 파악됩니다. 인터뷰를 촬영하여 환자, 가족 보호자, 전문가 간의 대화를 유도하는 비디오를 제작합니다. 

The discovery phase

  • begins with observations by the researcher that provide valuable insights into how the service to be improved works. These insights are helpful to sensitise researchers for the subsequent interviews.
  • The discovery phase proceeds with discovery interviews, which aim to explore and learn from the impact of illness on patients’ and family carers’ everyday lives. Discovery interviews – conducted with patients, family carers and professionals about their experiences with a health service – produce knowledge about needs that may significantly impact care, recovery and wellbeing.
  • The touchpoints are identified based on the experiences of participants. Interviews are filmed to develop a video to trigger a dialogue between patients, family carers and professionals.

연구자들은 영상을 편집할 때 진단, 치료, 후속 조치 등 특정 연대기 순서에 따라 품질 개선이 필요한 부분을 파악합니다. 환자 경험의 시각화는 비슷한 경험과 이야기를 가진 사람들을 (재)연결하는 데 도움이 되고 공동 설계 프로세스의 정서적, 인지적으로 강력한 출발점을 제공하기 때문에 비디오는 공동 설계 프로세스에서 중요한 촉매제 역할을 합니다[26]. 
In editing the video, researchers identify areas for quality improvement, often following a certain chronology, for example, diagnosis, treatment and follow-up. The video is an important catalyst in the co-design process as the visualisation of patient experiences helps (re)connect people with similar experiences and stories and offers an emotionally and cognitively powerful starting point for the co-design process [26].

다음으로, 공동 디자인 팀에서는 각 그룹(주로 환자, 가족 보호자, 전문가)별로 개별적으로 개선해야 할 다양한 영역의 우선순위를 정한 다음, 모든 그룹이 함께 모여 개선 방향을 논의합니다. 각 회의는 이전 단계에서 비디오로 촬영한 인용문을 통해 다양한 개선 영역을 발표하는 것으로 시작됩니다. 그런 다음 참가자들은 공동으로 3~4개 영역을 품질 개선의 핵심 우선순위로 선택합니다.
Next, the various areas for improvements are prioritised in the co-design team: separately within each group (mostly patients, family carers and professionals) and then with all the groups together. Each meeting starts with presenting the various areas for improvement, illustrated by videotaped quotes from the previous phase. Then, the participants jointly choose three or four areas as the key priority for quality improvement.

공동 설계 단계에서는 환자, 가족 보호자, 전문가로 구성된 소규모 실무 그룹인 공동 설계 품질 개선 그룹이 공동 설계 회의에서 강조된 핵심 우선순위 문제를 목표로 품질 개선 활동을 설계하고 실행합니다.
In the co-design phase, co-design quality improvement groups – small working groups of patients, family carers and professionals – design and implement quality improvement activities to target the key priority issues highlighted at the co-design meetings.

마지막으로 마무리 행사에서 개선 사항을 평가하고 공동 디자인 팀이 개선 사항을 공유하고 축하합니다. 경험 기반 공동 설계는 의료 서비스를 개선하고 변경 프로세스에 대한 과학적 인사이트를 제공하는 변경 접근 방식 및 프로세스입니다.
Finally, the improvements are evaluated in a closing event, and the gains are communicated and celebrated by the co-design team. Experience-based co-design is a change approach and process that improves health care and scientific insights into change processes.

사용자 중심 설계를 통한 eHealth 리소스 개발 및 평가
User-centred design to develop and evaluate eHealth resources

컨텍스트
Context

e헬스(디지털) 정보통신기술(ICT), 특히 인터넷 기술을 사용하여 건강 및 의료 서비스를 지원하거나 개선하는 것을 말합니다[27]. 이는 1차 진료의 질을 높이고 품질 보증, 교육 및 연구를 위한 고품질 데이터를 제공할 수 있는 포괄적인 가능성을 제공합니다[27]. 혁신적이면서도 타당한 연구 방법론은 eHealth의 지속적인 성공과 지속 가능성을 위한 전제 조건입니다[28]. 최종 사용자는 공동 제작 프로세스를 통해 전자 의료의 개발 및 구현에 참여해야 하며, 취약 계층과 전자 의료 문맹을 염두에 두고 설계해야 합니다. 적절한 접근 방식은 사용자 중심 디자인입니다.
eHealth is the use of (digital) information and communication technology (ICT), in particular internet technology, to support or improve health and health care [27]. It offers a comprehensive promise for a better quality of primary care and high-quality data for quality assurance, education and research [27]. Innovative but valid research methodology is a prerequisite for the ongoing success and sustainability of eHealth [28]. End-users need to be involved in the development and implementation of eHealth via co-creation processes, and design should be mindful of vulnerable groups and eHealth illiteracy. An appropriate approach is user-centred design.

이 접근 방식을 사용하여 발표된 경험적 연구에는 다음이 포함됩니다:
Published empirical studies using this approach include:

  • 복잡한 환자를 위한 태블릿 대기실 도구를 사용자 중심으로 설계하여 1차 진료 방문 시 논의 주제의 우선순위를 정합니다[29].
  • 향후 우울증 중증도를 예측하고 1차 진료에서 치료를 안내하기 위한 모바일 임상 예측 도구 개발: 사용자 중심 설계 [30].
  • 생리적 출산의 보호자 양성: 네덜란드의 학생 조산사를 위한 교육 이니셔티브 개발 [31].
  • User-centred design of a tablet waiting room tool for complex patients to prioritise discussion topics for primary care visits [29].
  • Development of a mobile clinical prediction tool to estimate future depression severity and guide treatment in primary care: user-centred design [30].
  • Creating guardians of physiologic birth: the development of an educational initiative for student midwives in the Netherlands [31].

무엇?
What?

사회 및 기술 디자인 과학에서 비롯된 사용자 중심 설계의 목표는 사용성이 매우 높은 eHealth 기술을 개발하는 것입니다. 이는 기술 및 조직 시스템을 평가, 설계 및 개발하는 방법으로, 설계 및 의사 결정 과정에 최종 사용자를 참여시킵니다[32]. 이 방법의 주요 특징은

  • 문제 식별 및 솔루션 생성의 빠른 주기,
  • 최종 사용자 특성에 대한 심층적 이해,
  • 설계가 구체화되는 방식에 대한 최종 사용자의 영향,
  • 전체 개발 프로세스 동안의 반복적 평가,
  • 처음부터 구현 조건을 고려한다는 점입니다[33].

이상적으로 사용자 중심 설계는 환자, 가족 간병인, 전문가 및 직원, ICT 설계자, 의료 시스템 담당자, 기술 콘텐츠를 담당하는 연구자 등 모든 잠재적 이해관계자를 고려합니다. 그러나 최종 사용자는 대부분 환자, 가족 간병인, 전문가 및 직원입니다. 
The goal of user-centred design, stemming from social and technological design sciences, is to develop eHealth technologies with very high usability. It is a method to assess, design and develop technological and organisational systems, which involves end-users in design and decision-making processes [32]. Its key features are

  • rapid cycles of problem identification and solution creation,
  • in-depth understanding of end-user characteristics,
  • the influence of end-users on how a design takes shape,
  • iterative evaluation during the entire development process, and
  • accounting for the implementation conditions from the beginning [33].

Ideally, the user-centred design considers all potential stakeholders, for example, patients, family carers, professionals and staff, ICT designers, representatives of the health care system and researchers responsible for the content of the technology. However, the end-users are mostly patients, family carers, professionals and staff.

왜 그리고 언제?
Why and when?

e헬스 개발은 복잡한 건강 문제를 겪고 있는 사용자를 위해 새로운 기술과 서비스를 사용하는 경우가 많습니다. 사용자 중심 설계는 문제를 동시에 반복적으로 이해하고 해결함으로써 eHealth 개발을 지원합니다[33]. 최종 사용자가 직접 개입을 만들고 구현하는 데 참여하면 개입에 미묘한 요소가 통합되고 최종 사용자에게 영향을 미치는 건강의 사회적, 구조적, 환경적 결정 요인을 고려할 수 있습니다. 이러한 입력이 없었다면 이러한 요소는 연구자나 전문가에게 분명하게 드러나지 않았을 것입니다[33]. 사용자 중심 디자인으로 개발된 앱은 사용자 수용성, 안면 타당도, 사용자 친화성 및 활용도가 개선된 것으로 보고되었습니다[30]. eHealth의 채택과 지속적인 사용을 위해서는 사용자 친화적이고 최종 사용자의 동기, 가치, 요구 및 능력을 충족하며 의료 조직에 적합해야 합니다
Developing eHealth often uses new technologies and services for users experiencing complex health problems. User-centred design supports developing eHealth by understanding and solving the problem simultaneously and iteratively [33]. If end users are engaged to create and implement interventions themselves, the interventions will incorporate nuanced factors and consider social, structural and environmental determinants of health that affect the end-users. Without this input, these elements would not have been evident to researchers or professionals [33]. Apps developed with user-centred design have reported improved user acceptance, face validity, user-friendliness and uptake [30]. Critical for eHealth’s uptake and continuous use is that it is user-friendly, meets end users’ motives, values, needs and abilities and fits into the organisation of care.

어떻게?
How?

사용자 중심 설계는 대부분 질적 또는 혼합 방법을 사용합니다[33].

  • 문제 개발 주기에는 사용자 및 기타 출처에서 데이터를 수집하고 분석하여 문제와 요구 사항을 정의하는 과정이 포함됩니다.
  • 솔루션 개발 주기에는 최종 사용자와 함께 프로토타입을 제작하고 테스트하기 위한 아이디어 창출이 포함됩니다.

이러한 주기 사이에는 반복적인 피드백 루프가 있습니다. 연구자와 개발자는 최종 사용자의 주요 요구 사항을 충족하는 e헬스 솔루션을 최종 확정하고 배포합니다.
User-centred design uses mostly qualitative or mixed methods [33].

  • The problem development cycle involves gathering and analysing data from users and other sources to define problems and needs.
  • The solution development cycle involves the generation of ideas to build and test prototypes with end-users.

Within and between these cycles, there are iterative feedback loops. Researchers and developers finalise and deploy an eHealth solution when it meets the end users’ key requirements.

사용자 중심 설계의 특정 유형은 교육(e-러닝) 프로그램 개발에 자주 사용되는 래피드 프로토타이핑입니다[34]. 여기에는 구현 및 평가를 위한 최종 프로토타입에 도달하기 위해 후속 프로토타입을 설계할 때 요구 사항 평가, 주요 이해관계자의 의견 및 피드백 단계가 중복적으로 포함됩니다.
A specific type of user-centred design is rapid prototyping, which is often used for developing educational (e-learning) programmes [34]. It involves overlapping stages of needs assessment, input and feedback from key stakeholders in designing subsequent prototypes to reach a final prototype for implementation and evaluation.

사용자 중심 설계 프로세스의 각 문제 및 솔루션 개발 주기 내 단계에 대한 다양한 설명이 존재하는데, 예를 들어 5단계 프로세스는 개념, 설계, 테스트 및 시험, 생산 및 배포 단계로 구성되며 최종 사용자는 생산을 제외한 모든 단계에 참여합니다[33,35](박스 3). 최종 사용자의 참여에 가장 많이 사용되는 방법은 사용성 테스트, 인터뷰 및 설문조사입니다. 다양한 단계에서 최종 사용자의 관점을 파악하는 것은 적용되는 방법에 따라 달라지므로 적절한 방법을 선택하는 것이 중요합니다[36]. 또한 모든 사용자와 그들의 활동, 실제 일상 환경, 기능적 한계, 무수한 정보 및 기술을 심도 있게 고려해야 합니다[35]. 예를 들어 조산사의 업무량이 많다는 점을 고려하여 연구자들은 포커스 그룹이 아닌 개별 인터뷰와 서면 피드백을 선택했습니다[31].
Various descriptions exist of the stages within each of the problem and solution development cycles in the user-centred design process, for example, a five-stage process consists of concept, design, testing and trials, production and deployment stages with end-users participating in all stages, except production [33,35] (Box 3). The methods most used for involving end-users are usability tests, interviews and questionnaire surveys. Since capturing end users’ perspectives at various stages depends on the method applied, selecting an appropriate method is important [36]. This also requires in-depth consideration of all users and their activities, their actual daily environment and their functional limitations, innumeracy and skills [35]. For example, considering midwives’ high workloads, researchers chose individual interviews and written feedback rather than focus groups [31].

고령자, 장애인 또는 특별한 도움이 필요한 사람을 포함하여 사용 가능한 최종 사용자의 경우 '사용자 대리인'이라고 하는 대리인이 개입할 수 있습니다[35]. 사용자 대리인이란 다른 사용자를 대신하여 작업을 수행할 수 있는 지식이나 권한을 가진 사용자를 말합니다. 사용자 대리자는 사용자에 대해 알고 있는 내용을 보고하거나 사용자가 어떻게 행동할지 역할극을 통해 보고합니다.
For less available end-users, including elderly people and people with disabilities and/or special needs, substitutes called ‘user surrogates’ might be involved [35]. A user surrogate is a user who has the knowledge or authority to perform tasks on behalf of another user. User surrogates report on what they know about the user or by role-playing how the user would behave.

지역 보건을 공동으로 개선하기 위한 커뮤니티 기반 참여 연구
Community-based participatory research to improve local health collaboratively

컨텍스트
Context

일차 진료 전문가는 종종 문화적 소수자나 빈곤한 지역사회와 같은 취약 계층을 대상으로 진료를 제공합니다. 이들은 라이프스타일 선택, 전기, 인생사, 교육 수준, 사회경제적 상황, 사회 및 물리적 환경의 영향을 받는 건강 문제로 어려움을 겪는 환자를 돌봅니다. 건강 격차를 해결하기 위한 연구 접근 방식은 커뮤니티 기반 참여 연구입니다. 이 방법은 접근하기 어렵거나 매우 취약한 지역사회에 주로 사용되어 왔습니다. 우리는 커뮤니티를 공유된 가치, 문화, 관습 또는 정체성과 같은 공통의 관심사를 가진 사람들의 그룹 또는 이웃, 지구 또는 지역과 같은 특정 지리적 영역에 거주하는 모든 사람들 또는 지리적 영역에 거주하는 공통의 관심사를 가진 사람들의 그룹으로 정의합니다.
Primary care professionals often provide care to vulnerable groups, such as cultural minorities and deprived communities. They care for patients who struggle with health problems affected by their lifestyle choices, biography, life events, educational level, socioeconomic situation and social and physical environment. A research approach to address health disparities is community-based participatory research. It has often been used for hard-to-reach or very vulnerable communities. We define community as a group of people with common interests – such as shared values, culture, customs or identity or as all people living in a particular geographical area – such as a neighbourhood, district or local area, or as groups of people with a common interest living in a geographical area.

이 접근법을 사용하여 발표된 경험적 연구에는 다음이 포함됩니다:
Published empirical studies using this approach include:

  • 마카시 개입의 참여형 개발 및 파일럿 테스트: 프랑스에서 사하라 사막 이남 및 카리브해 이민자의 성 건강 역량 강화를 위한 지역사회 기반 아웃리치 개입 [37].
  • 벨기에의 동유럽 및 터키 커뮤니티에서 약물 사용 및 서비스 이용에 대한 연구에서 커뮤니티 기반 참여 연구 실시 [38].
  • 네덜란드에서 건강과 사회의 통합을 개선하기 위한 커뮤니티 기반 참여 연구 [39].
  • Participatory development and pilot testing of the Makasi intervention: a community-based outreach intervention to improve sub-Saharan and Caribbean immigrants’ empowerment in sexual health in France [37].
  • Implementing community-based participatory research in the study of substance use and service utilisation in Eastern European and Turkish communities in Belgium [38].
  • A community-based participatory research on improving the integration of health and social in the Netherlands [39].

무엇?
What?

지역사회 기반 참여 연구의 목표는 교육, 실천 개선 또는 사회 변화를 가져오는 것입니다. 이는 지역적으로 관련된 건강 문제를 해결하고자 하는 연구에 대한 협력적 접근 방식입니다[40]. 커뮤니티 기반 참여 연구의 독특한 점은 다양한 커뮤니티 파트너가 참여하고 동등한 참여와 소유권, 호혜성, 공동 학습 및 변화를 위해 노력하는 데 중점을 둔다는 점입니다[41]. 이 접근 방식은 연구자와 커뮤니티 구성원을 요구 사항 평가 및 의제 설정, 의사 결정, 역량 구축, 지식 생성, 연구 결과의 실행 및 전파 등 연구 과정의 모든 측면에 참여시킵니다[42,43]. 지역사회 참여에 중점을 두기 때문에 지역사회 기반 참여 연구는 지역사회 파트너가 학술 파트너와 협력하여 지역사회에 영향을 미치는 건강 문제를 파악하고 해결할 수 있습니다(상자 4). 이는 변화로 이어질 수 있는 사회적 연결을 촉진하고 행동으로 이어질 수 있는 지식을 생산합니다[44].

The goal of community-based participatory research is to educate, improve practice or bring about social change. It is a collaborative approach to research, which seeks to address a locally relevant health issue [40]. What is unique to community-based participatory research is its emphasis on the diverse community partners involved and on striving for equal participation and ownership, reciprocity, co-learning and change [41]. This approach engages researchers and community members in all aspects of the research process, including needs assessment and agenda-setting, decision-making, capacity building, knowledge generation and the implementation and dissemination of findings [42,43]. Because of its focus on community engagement, community-based participatory research allows community partners working with academic partners to identify and address health problems affecting their communities (Box 4). It fosters social connections that can lead to change and produces knowledge that can lead to action [44].

왜 그리고 언제?
Why and when?

일차 진료에 대한 지역사회 참여는 1978년 알마-아타 선언[45]에서 시작되었으며, 이 선언은 사람들이 자신의 건강 관리 계획과 실행에 개별적으로나 집단적으로 참여할 권리와 의무가 있음을 명시했습니다. 연구 주제가 지역사회가 파악한 주요 이슈를 반영하도록 보장하고, 지역사회의 지혜를 활용하여 연구의 질, 타당성, 민감성을 개선함으로써 지역사회와 연구자 간의 신뢰를 증진하고, 연구 결과를 정책 및 실천으로 전환하는 과정을 개선하고, 지역사회 구성원의 연구 결과 활용도를 높이는 등의 이점이 있습니다[42]. 연구자들은 지역 사회와 함께 '상아탑' 연구라는 잘 설명된 문제를 해결하고 '현실 세계'에서 사회적 영향을 미칠 수 있습니다[46].
Community participation in primary care has its origins in the Alma-Ata Declaration of 1978 [45], which stated that people have the right and duty to participate individually and collectively in the planning and implementation of their health care. The benefits include the following: ensuring that the research topic reflects a major issue identified by the community; improving the quality, validity and sensitivity of the research by drawing upon community wisdom, thus promoting trust between communities and researchers; improving the translation of research findings into policy and practice; and enhancing uptake of the research findings by community members [42]. Researchers together with the local community might help address the well-described issue of ‘ivory tower’ research and have a social impact in the ‘real world’ [46].

어떻게?
How?

커뮤니티 기반 참여 연구는 질적 사례 연구, 환경 평가, 혼합 방법 연구, 무작위 대조 시험 등 다양한 방법론, 연구 설계 및 데이터 수집 방법을 사용할 수 있습니다. 일반적으로 7가지 단계가 있습니다[44](그림 2). 연구자와 지역 사회는 파트너로서 함께 일합니다. 
Community-based participatory research can employ diverse methodologies, study designs and data collection methods, for example, qualitative case studies, environmental assessments, mixed methods research and randomised controlled trials. In general, there are seven phases [44] (Figure 2). Researchers and the local community work together as partners.

첫 번째 단계는 잠재적인 비학계 파트너를 발굴하는 활동을 포함하여 지역사회 기반 행동 연구 파트너십을 형성하는 것입니다. 파트너에는 환자, 가족, 멘토, 친구 등 대인관계 지원 네트워크, 환자는 아니지만 이 문제를 지지하거나 믿는 일반 대중, 의사, 보건 전문가, 행정가 등 환자 및/또는 환자의 대인관계 네트워크와 직접 교류하는 사람, 서비스 제공자, 정책 입안자 등 기타가 포함될 수 있습니다. 이 활동은 신뢰와 관계를 구축하고, 운영 규범과 지역사회 기반 행동 연구 원칙을 수립하여 형평성과 권력 공유를 보장하고, 연구 인프라를 구축하는 것을 목표로 합니다[43].
The first phase is forming a community-based action research partnership involving activities to identify potential non-academic partners. Partners might include the following: patients; interpersonal support networks, including family members, mentors and friends; members of the general public who are not patients but who support or believe in the issue; those who interface directly with patients and/or patients’ interpersonal networks, including practitioners, health professionals and administrators; and others, such as service providers and policymakers. The activities aim to build trust and relationships, establish operating norms and community-based action research principles to ensure equity and power-sharing and create an infrastructure for the research [43].

두 번째 단계는 커뮤니티의 강점과 역학을 평가하는 것입니다. 여기에는 다음을 발견하고 평가하는 것이 포함됩니다[45].

  • 커뮤니티의 강점과 자원,
  • 주요 문화 및 역사적 차원,
  • 영향력 있는 조직,
  • 커뮤니티의 권력 관계,
  • 커뮤니티의 목소리를 듣기 위해 참여할 파트너

The second phase entails assessing community strengths and dynamics. This involves activities such as discovering and assessing

  • the strengths and resources in the community,
  • key cultural and historical dimensions,
  • influential organisations,
  • power relationships in the community and
  • partners to be involved to ensure that the community voice is heard [45].

세 번째 단계는 우선순위 지역 보건 문제와 연구 질문을 파악하는 것입니다. 주요 활동은 지역사회 파트너가 지역사회에 영향을 미치는 것으로 경험하고 해결해야 할 주요 건강 문제를 식별하고 건강 문제와 그 기여 요인의 우선순위를 정하는 것입니다. 마지막으로 연구자와 커뮤니티 파트너는 연구의 주요 연구 질문을 공식화합니다.
The third phase is identifying priority local health concerns and research questions. Key activities are to identify the major health problems that community partners experience as affecting the community and that need to be addressed and prioritise health concerns and their contributing factors. Finally, the researchers and community partners formulate the key research questions for the study.

네 번째 단계는 공동으로 개입 및 정책 연구를 설계하고 수행하는 것입니다. 여기에는 연구 질문과 목표의 우선순위를 정하고, 연구 설계와 데이터 수집 방법을 선택하고, 가장 적절한 개입을 결정하는 것이 포함됩니다. 또한 연구 설계와 선택한 개입을 수행하는 방법을 결정하고, 마지막으로 평가에 동의하는 단계가 포함됩니다.
The fourth phase involves collaboratively designing and conducting interventions and/or policy research. This involves prioritising the research questions and goal, selecting the research design and data collection methods and deciding the most appropriate intervention. In addition, it involves determining how to carry out the research design and the intervention selected and, finally, agreeing on the evaluation.

다섯 번째 단계는 커뮤니티 내에서 결과를 피드백하고 해석하는 단계입니다. 여기에는 설문조사, 심층 인터뷰, 포커스 그룹 토론 등을 통해 얻은 (예비) 결과를 공유하고 커뮤니티 파트너가 결과를 이해할 수 있도록 참여시키는 등 데이터 분석이 포함됩니다.
The fifth phase is feeding back and interpreting the findings within the community. This involves data analysis: sharing (preliminary) findings from surveys, in-depth interviews, focus group discussions, etc. and engaging the community partners to make sense of the findings.

여섯 번째 단계는 연구 결과를 배포하고 번역하는 것입니다. 여기에는 커뮤니티와 공유하기 위해 가장 중요한 연구 결과를 파악하고, 연구 결과를 전달하고 번역하는 데 있어 커뮤니티의 역할을 파악하고, 연구 결과를 광범위한 개입과 정책 변화로 확산하고, 연구 결과를 발표하는 것이 포함됩니다. 이는 커뮤니티 기반 행동 연구 파트너십의 형성으로 이어질 수 있습니다.
The sixth phase is disseminating and translating the research findings. This involves identifying the most important findings for sharing with the community, the community’s role in communicating and translating the findings, disseminating the findings into broader interventions and policy changes and publishing the research results. This might lead to the formation of a community-based action research partnership.

모든 단계는 커뮤니티 파트너십을 유지, 지속 및 평가하는 지속적인 프로세스를 기본으로 공유합니다. 연구자와 커뮤니티 파트너는 협력 관계에 대해 성찰하고 장기적인 목표와 역량을 공유합니다. 이러한 모든 접근 방식은 파일럿 테스트 또는 개념 증명과 같은 일부 혼합 방법 연구를 통합할 수 있습니다[47].
All phases share an underlying continuous process of maintaining, sustaining and evaluating the community partnerships. The researchers and community partners are reflective about their working relationships and shared long-term goals and capacities. All these approaches might integrate some mixed-methods research such as pilot testing or proof-of-concept [47].

공동 창작 접근법을 적용할 때의 도전 과제
Challenges in applying co-creative approaches

공동 창작 연구 프로젝트에 대한 경험과 참고한 방법론 및 경험적 논문을 바탕으로 이러한 연구 프로젝트가 직면할 수 있는 실용적 및 방법론적 과제에 대한 간략한 개요를 제공합니다.
Drawing on our experience with co-creative research projects and based on the methodological and empirical papers we referenced, we provide a brief overview of practical and methodological challenges that such research projects may face.

실질적인 과제
Practical challenges

불명확한 목적과 기대치
Unclear purpose and expectation

이해관계자와 연구자는 프로젝트의 목표가 무엇이며 공동 창작 과정이 왜 필수적인지 이해해야 합니다[40,46]. 이는 공동 창작 접근 방식의 각 단계에서 단계별로 작업하고 공유된 출발점을 설정하는 데 도움이 됩니다. 이때 연구자, 특히 연구책임자는 프로젝트의 범위와 예상 결과를 추적해야 합니다[44]. 
Stakeholders and researchers need to understand what the project goal is and why the process of co-creation is essential [40,46]. It helps to work step-by-step and establish a shared starting point in each phase of the co-creative approach. At the time, researchers, especially the principal investigator, need to keep track of the scope and expected outcomes of the project [44].

기술, 역량 및 재정 자원
SKILLS, CAPACITIES AND FINANCIAL RESOURCES

일부 이해관계자는 자신의 개인적 이해관계를 넘어서는 관점을 채택할 기술이 부족할 수 있습니다[18]. 연구자는 다양한 프로젝트 단계 또는 연구 활동에서 다양한 이해관계자의 역량을 최적으로 활용해야 합니다. 일부 이해관계자, 특히 환자와 취약한 지역사회 구성원은 회의에 참여할 수 있는 자원이 부족할 수 있습니다[43,48], 예를 들어 대중교통이나 발언에 대한 자신감이 부족할 수 있습니다. 연구자, 특히 연구책임자는 공동 작성에 선호하는 참여 방식, 이해관계자에게 의미 있는 활동, 사용 가능한 시간, 조치, 시간 요구, 재정 자원의 균형을 맞춰야 합니다[44]. 연구책임자는 연구 프로젝트에 이해관계자 참여를 위한 예산을 적절히 책정하는 것이 중요합니다. 연구비 신청 시 이해관계자 참여, 특히 환자 및 대중 참여에 대한 예산을 명시적으로 책정해야 합니다(상자 5). 자금 지원자들은 종종 의미 있는 참여를 촉진하기 위해 예산이 신중하게 배분되었는지 확인합니다. 
Some stakeholders might lack the skills to adopt a view beyond their personal stakes [18]. Researchers need to make optimal use of the various stakeholders’ capacities in different project phases or research activities. Some stakeholders, especially patients and vulnerable community members, might lack the resources to participate in meetings [43,48], for example, affording public transport or self-confidence to speak up. Researchers, especially principal investigators, need to balance preferred ways of engagement in co-creation, meaningful activities to stakeholders and the available time, enabling measures, time demands and financial resources [44]. It is important for principal investigators to budget for stakeholder involvement in their research projects adequately. When applying for research grants, stakeholder involvement, especially patient and public involvement should be explicitly budgeted (Box 5). Funders often check to ensure budgets have been thoughtfully allocated to promote meaningful participation.

다양한 관점과 갈등
MULTIPLE PERSPECTIVES AND CONFLICTS

심층 인터뷰, 포커스 그룹 토론, 워크숍 등을 통해 환자, 전문가, 관리자 등 다양한 출처에서 다양한 유형의 데이터를 수집합니다. 이러한 인식과 우려를 통합하고 우선순위를 정하는 것은 이해관계자와 연구자에게 어려운 과제입니다[49]. 서로 다른 의사결정 스타일, 가치, 우선순위, 언어 사용, 참여 이력, 인지된 권력 불균형, 경쟁 또는 이해관계자의 의견에 대한 피드백 부족으로 인해 갈등이 발생할 수 있습니다[40]. 연구자들은 민주적인 대화 과정, 공동 책임, 긍정적인 관계를 조성해야 합니다[38,39,41,46].
Various data types are collected during in-depth interviews, focus-group discussions, workshops etc., from different sources, for example, patients, professionals, and managers. The integration and prioritisation of these perceptions and concerns are challenges for stakeholders and researchers [49]. Conflicts may occur due to different decision-making styles, values, priorities, use of language, engagement history, perceived power imbalance, competition or lack of feedback on stakeholders’ input [40]. Researchers need to foster a democratic process of dialogue, shared responsibility and positive relationships [38,39,41,46].

방법론적 과제
Methodological challenges

방법론적 품질
Methodological quality

대부분의 이해관계자는 주로 프로젝트가 자신이 인지하는 건강 문제를 어떻게 해결할 것인지에 관심이 있는 반면, 연구자는 유효한 과학적 지식을 창출하기 위해 노력합니다. 연구자는 모든 연구 단계에서 실용적 관련성, 방법론적 품질, 타이밍의 균형을 맞추기 위해 유연성을 발휘해야 합니다[40,44,49].
Most stakeholders are primarily interested in how the project will address their perceived health issues, whereas researchers also strive for generating valid scientific knowledge. Researchers need to be flexible in all research steps in balancing practical relevance, methodological quality, and timing [40,44,49].

연구팀
RESEARCH TEAM

공동 창작을 위해서는 연구팀에 다양한 역량이 필요합니다. 일반적으로 다학제 연구팀의 개별 연구자는 특정 연구 단계 또는 단계에서 자신의 전문성을 발휘합니다. 연구자들은 다양한 보건 분야 방법론적 역량, 사회적 역량을 통합하여 모든 이해관계자를 공동창출 과정으로 안내하는 연구팀을 구성해야 합니다[41,49]. 유연하고 시간이 많이 걸리며 때로는 예상치 못한 공동 창작의 특성으로 인해 시간 압박이 발생할 수 있습니다[43]. 연구자는 일을 완수하는 것과 연구 과정, 방법론적 품질, 이해관계자 관계 및 자신의 역할에 대한 성찰 사이의 균형을 유지해야 합니다[18]. 
Co-creation requires various competencies in the research team. Usually, individual researchers in multidisciplinary teams bring in their specific expertise in certain research phases or steps. Researchers need to compose a research team that integrates competencies from different health disciplines, methodological competencies and social competencies in guiding all stakeholders through the co-creation process [41,49]. The flexible, time-consuming and sometimes unexpected nature of co-creation might cause time pressure [43]. Researchers need to balance getting things done and reflecting on the research process, methodological quality, stakeholder relationships and their own role [18].

디지털 연구
DIGITAL RESEARCH

넷노그래피[50], 다양한 공식 및 비공식 온라인 데이터 소스 사용, 디지털 데이터 수집 방법 및 대화형 디지털 도구와 같은 다른 질적 접근 방식이 본격적으로 개발되고 있습니다. 디지털 연구는 효율적인 데이터 수집과 관리를 지원할 수 있지만, 디지털 기술이 부족한 사람을 배제하는 등 불평등의 위험을 초래할 수도 있습니다[51]. 연구자들은 질적 연구에서 디지털화가 공동 창조적 접근 방식에서 유망한 방법이 될 수 있으므로 윤리적, 방법론적 문제를 고려해야 합니다.
Other qualitative approaches, such as netnography [50], use of various formal and informal online data sources, digital data collection methods and interactive digital tools are fully in development. Digital research might support efficient data collection and management but might also bring inequality risk, for example, exclusion of people lacking digital skills [51]. Researchers need to consider ethical and methodological issues in digitalisation in qualitative research because it might be a promising way forward in co-creative approaches.

 

Box 5. Sources for further reading on stakeholder analysis and management, patient and public involvement and three co-creative qualitative approaches.
Web sources on stakeholder analysis and management
Web sources on patient and public involvement
Web sources on budgeting involvement
Experience-based co-design
User-centred design
  • Neuhauser L. Integrating participatory design and health literacy to improve research and interventions. Inf Serv Use. 2017;37(2):153–76.
  • Shah SGS, Robinson I. User involvement in healthcare technology development and assessment: structured literature review. Int J Health Care Qual Assur. 2006;19(6):498–513.
  • Tripp SD, Bichelmeyer B. Rapid prototyping: an alternative instructional design strategy. Educ Technol Res Dev. 1990;38(1):31–44.
Community-based participatory research
  • Cargo M, Mercer SL. The value and challenges of participatory research: strengthening its practice. Annu Rev Public Health. 2008;29(1):325–50.
  • Israel BA, Eng E, Schulz AJ, et al. Methods for community-based participatory research for health. 2nd ed. San Francisco (CA): Jossey-Bass; 2012.
  • Viswanathan M, Ammerman A, Eng E, et al. Community-based participatory research. Evidence Based Practice Centre Contract No. 290 – 02 – 0016, Agency for Healthcare Research and Quality; 2004. Available from: http://www.ahrq.gov/clinic/epcsums/cbprsum.htm.
  • Wallerstein N, Duran B, Oetzel J-G, et al. Community-based participatory action research for health. San Francisco (CA): John Wiley; 2018.

Eur J Gen Pract. 2022 Dec;28(1):1-12. doi: 10.1080/13814788.2021.2010700.

Series: Practical guidance to qualitative research. Part 5: Co-creative qualitative approaches for emerging themes in primary care research: Experience-based co-design, user-centred design and community-based participatory research

1Research Centre Autonomy and Participation of Chronically Ill People, Zuyd University of Applied Sciences, Heerlen, The Netherlands.

2Department of Family Medicine, Maastricht University, Maastricht, The Netherlands.

3Research Centre for Midwifery Science, Zuyd University of Applied Sciences, Maastricht, The Netherlands.

PMID: 35037811

PMCID: PMC8765256

DOI: 10.1080/13814788.2021.2010700

Free PMC article

Abstract

This article, the fifth in a series aiming to provide practical guidance for qualitative research in primary care, introduces three qualitative approaches with co-creative characteristics for addressing emerging themes in primary care research: experience-based co-design, user-centred design and community-based participatory research. Co-creation aims to define the (research) problem, develop and implement interventions and evaluate and define (research and practice) outcomes in partnership with patients, family carers, researchers, care professionals and other relevant stakeholders. Experience-based co-design seeks to understand how people experience a health care process or service. User-centred design is an approach to assess, design and develop technological and organisational systems, for example, eHealth, involving end-users in the design and decision-making processes. Community-based participatory research is a collaborative approach addressing a locally relevant health issue. It is often directed at hard-to-reach and vulnerable people. We address the context, what, why, when and how of these co-creative approaches, and their main practical and methodological challenges. We provide examples of empirical studies using these approaches and sources for further reading.

Keywords: Primary care; co-creation; eHealth; patient and public involvement; qualitative research.

테크놀로지는 환자돌봄에 필요한 결정적 인간적 기술을 (대체가 아니라) 증강한다 (Acad Med, 2021)
Technology Can Augment, but Not Replace, Critical Human Skills Needed for Patient Care 
James Alrassi, MD, Peter J. Katsufrakis, MD, MBA, and Latha Chandran, MD, MPH

 

 

기술은 의료 분야에서 놀라운 발전을 이루었지만 때로는 바람직하지 않은 영향을 미치기도 합니다. 특히 인공지능(AI) 영역에서 기술 혁신의 엄청난 가치를 인정하면서도, 우리는 의료진 및 의료진들이 일하는 시스템이 진화하는 데 있어 인간적 특성과 행동, 즉 인간의 핵심적인 기술이 중요하다는 점을 강조합니다. 
Technology has enabled astonishing advances in medical practice, sometimes with associated undesirable effects. While acknowledging the immense value of technological innovation in medical practice, particularly in the realm of artificial intelligence (AI), we highlight the importance of humanistic characteristics and behaviors—critical human skills—for practitioners and the systems in which they work evolve.

의료 행위의 현재 상태
Current State of Medical Practice

최근 수십 년 동안 의료 관행의 변화는 많은 개선을 가져왔지만, 그 대가가 없는 것은 아닙니다. 의료 관행에 영향을 미치는 사회적 변화도 마찬가지입니다. 먼저 몇 가지 변화와 그에 따른 과제를 검토하여 이후 논의의 맥락을 설정합니다. 
Changes to the practice of medicine in recent decades have yielded many improvements, but not without costs. The same can be said for societal changes that impinge on medical practice. To begin, we review some of the changes and resulting challenges to set the context for the subsequent discussion.

미국에서 전자 의료 기록(EMR)이 도입되면서 장점과 함께 단점도 생겨났습니다. EMR은 의료 문서화와 의료 서비스 제공에 큰 변화를 가져왔지만, 의료비 청구에 최적화된 시스템은 국민 건강을 관리하거나 중요한 의사 결정을 지원하는 데 있어 약속한 잠재력을 달성하지 못했습니다.1 EMR의 이질성으로 인해 대량의 환자 데이터를 분석하는 것은 기술적으로 어려운 일입니다. 그럼에도 불구하고 EMR 데이터베이스에서 의료 서비스 결과가 수집되고 있습니다. 이러한 품질 지표는 환급과 연계되어 가치 기반 지불로의 진화를 뒷받침하고 있습니다.2 그러나 EMR은 의사의 번아웃 증가와도 관련이 있습니다. 의사들은 종종 저녁에 집에서 몇 시간 동안 하루 동안 입력한 내용을 완료하기 위해 고군분투합니다. 가정의학과 의사들을 대상으로 이벤트 로깅 기록의 데이터를 분석한 3년간의 연구에 따르면 참가자들은 하루의 절반 이상을 EMR 작업에 소비했으며, 이 작업의 거의 4분의 1이 근무 시간 이후에 발생했습니다.3 4개의 다른 전문과를 대상으로 한 또 다른 연구에 따르면 의사들은 매일 밤 1~2시간을 EMR 관련 업무에 소비합니다.4 EMR 및 사무 업무에 대한 의료진의 불만은 높은 번아웃 및 우울증 비율과 관련이 있습니다.5 번아웃은 의료진에게 부정적인 영향 외에도 환자에게 해로울 수 있는 잠재력이 있습니다.6  
The introduction of the electronic medical record (EMR) in the United States has engendered benefits as well as drawbacks. EMRs have vastly changed health care documentation and delivery, but systems optimized to bill for sick care have not achieved the promised potential to manage population health or assist in critical decision making.1 The heterogeneity of EMRs makes analyzing large amounts of patient data technically challenging. Nonetheless, health care outcomes are being collected from EMR databases. These quality metrics are being tied to reimbursements, supporting the evolution toward value-based payments.2 However, the EMR has also been linked to growing physician burnout. Physicians often struggle for hours in the evening at home to complete the day’s entries. A 3-year study of family physicians that entailed the analysis of data from event-logging records showed that participants spent more than half of their days working on an EMR and almost a quarter of this work occurred after office hours.3 Another study involving 4 different specialties indicated that doctors spend 1 to 2 hours nightly on EMR-related tasks.4 Health care provider dissatisfaction with the EMR and clerical tasks correlate with high rates of burnout and depression.5 In addition to the adverse effects on health care practitioners, burnout has the potential to harm patients.6

다른 시스템 변화도 여러 가지 이점과 비용을 가져왔습니다. 수직적으로 통합된 의료 시스템이 점점 더 보편화되고 있으며, 영리 기업에서만 볼 수 있었던 인수합병이 이제는 의료계에서도 일상적으로 이루어지고 있습니다.7,8 의사의 역할은 의료 행위와 함께 빠르게 진화하고 있습니다. 환자 치료는 과거 환자 정보의 유일한 저장소였던 의사 한 명보다는 여러 의료 서비스 제공자가 팀을 이루어 관리할 가능성이 높아졌습니다.9 '미니 클리닉'의 부상과 현재 의료 서비스 제공에서 전문간호사, 의사 보조원, 약사의 역할이 커지는 것은 의료 서비스의 게이트키퍼로서 전통적인 주치의의 시대가 끝났음을 알리는 신입니다.10 항공 산업은 직급을 허물면 더 안전한 결과를 얻을 수 있다는 것을 보여주었습니다.11 임상 의학에서 직급을 허물면 임상 의사 결정이 간호사, 약사 등으로 옮겨갈 수 있습니다.12 이러한 변화 중 일부는 환자 치료에 도움이 되지만 다른 일부는 대가를 치를 수 있습니다. 교대 근무에 따른 의료 행위는 핸드오프 횟수를 증가시켜 의료 오류의 가능성을 증가시킴으로써 진료를 세분화할 수 있습니다.13 
Other system changes have also brought a mix of benefits and costs. Vertically integrated health systems are becoming more common, and mergers and acquisitions once found only in for-profit environments are now routine in health care.7,8 The role of the physician is rapidly evolving along with the practice of medicine. Patient care is more likely to be managed by a team of health care providers rather than a single physician who was previously the sole repository of patient information.9 The rise of “minute clinics” and the greater role that nurse practitioners, physician assistants, and pharmacists currently play in health delivery signal the end of the traditional primary care physician as gatekeeper to health care.10 The airline industry has shown how breaking down hierarchies can result in safer outcomes.11 In clinical medicine, breaking down professional hierarchies may shift clinical decision making to the nurse, pharmacist, and others.12 Some of these changes benefit patient care; others may come at a cost. Shift-based medical practice can fragment care by increasing the number of handoffs, thereby increasing the likelihood of medical errors.13

소셜 미디어와 인터넷의 광범위한 사용으로 인한 정보의 민주화는 의료 행위에도 영향을 미쳤습니다. 의사는 온라인에서 찾은 정보를 임상 의사 결정에 활용할 수 있는 중요한 정보원이 되었습니다.14 인터넷은 의사와 기타 의료 서비스 제공자를 도울 뿐 아니라 환자와 일반 대중에게 여과되지 않은 정보를 제공합니다. 전체 인터넷 사용자의 약 80%가 웹에서 건강 관련 주제를 검색하고 약 3분의 2가 특정 질병을 검색하지만, 이들 중 1/4만이 정보 출처의 신뢰성을 평가합니다.15 많은 웹사이트가 잘못된 정보를 제공하기 때문에 출처를 확인하고 정보의 정확성을 검증하는 것은 매우 중요합니다. 한 예로, 웹상의 수면 안전 정보에 관한 한 연구에서 평가 대상 1,300개 웹사이트 중 절반 미만이 정확한 권장 사항을 제공했습니다.16 
The democratization of information made possible by social media and the widespread use of the Internet has also had an effect on the practice of medicine. Google has become an important source for physicians, who may use the information they find online to inform their clinical decision making.14 In addition to helping physicians and other care providers, the Internet provides unfiltered information to patients and the lay public. Almost 80% of all Internet users search the web for health-related topics and almost two-thirds search for a specific disease, yet only a quarter of these users evaluate the reliability of the information source.15 Checking the source and verifying the accuracy of information is vital as many websites provide misinformation. To illustrate, in a study regarding sleep safety information on the web, less than half of the 1,300 websites evaluated had accurate recommendations.16

의사는 인터넷 기반 건강 정보에 액세스하는 환자를 "혼란스럽다" 또는 "괴롭다"고 인식합니다.17 일반 대중이 의심스러운 정보에 의존하는 것은 환자와 의사 관계 및 환자 치료에 부정적인 영향을 미칠 수 있습니다. 한 가지 예로 백신 조작을 둘러싼 캠페인이 있습니다.18 위에서 언급한 문제들은 현재와 미래의 의료 시스템에 반영된 사회적, 기술적 변화의 축소판을 나타냅니다. 하지만 이러한 도전 속에는 기회의 씨앗도 숨어 있습니다. 

  • EMR의 사무적 요구,
  • 의사의 소진,
  • 파편화된 진료 시스템과 팀,
  • 의료진의 자율성에 대한 위협,
  • 의심스러운 정보의 광범위한 이용

Physicians perceive their patients who access Internet-based health information as “confused” or “distressed.”17 The general public’s reliance on questionable information can adversely influence the patient–physician relationship and patient care. One example is the campaign surrounding antivaccine fabrications.18 Collectively, the issues cited above—

  • the clerical demands of the EMR,
  • physician burnout,
  • fragmented care systems and teams,
  • threats to provider autonomy, and
  • the wide availability of questionable information

—represent a microcosm of the societal and technological changes reflected in current and future health care systems. However, within these challenges lie also the seeds of opportunities.

이 글에서는 기술의 발전이 환자 치료의 핵심이자 토대를 이루는 핵심적인 인간 기술을 대체하는 것이 아니라 보완해야 한다고 가정합니다. 먼저 눈부신 기술 발전을 요약한 다음, 이러한 기술 기반 미래에서 의사의 역할에 대해 논의합니다. 다음으로, 우리는 교육 시스템과 미래의 의사를 준비하는 사람들에게 필요한 변화를 살펴보고, 의사가 인문학적 중환자 치료 기술을 연마하고 발전시킬 수 있는 변화와 기술을 옹호합니다. 마지막으로, 우리는 공감적이고 인본주의적인 의사가 기술로 보강된 치료를 제공하는 시스템을 강조하면서 의료의 미래를 상상합니다.
In this article, we posit that technological advances must complement—not eclipse—the critical human skills that form the core and foundation of patient care. First, we summarize truly remarkable technical advances, and then we discuss the role for the physician in this technology-enabled future. Next, we explore the corresponding changes needed by the educational system and by those who prepare practitioners of the future, advocating changes and technology that allow practitioners to sharpen and advance their humanistic critical care skills. Finally, we envision the future of health care, emphasizing a system in which empathetic, humanistic physicians provide care augmented by technology.

의료 분야의 기술 현황
Current State of Technology in Health Care

AI의 발전은 놀라운 속도로 의료 서비스를 변화시키고 있습니다. 목록 1은 인간 전문가와 동등하거나 더 우수한 것으로 밝혀진 AI 도구 및 애플리케이션의 예를 보여줍니다. AI가 큰 성공을 거둔 특정 영역으로는 시각 및 방사선 이미지 해석, 진단 및 치료 보조 도구 제공 등이 있습니다.19-35 AI 소프트웨어는 환자와의 직접적인 상호 작용, 진료 문서화, 인구 건강 관리를 개선할 수 있는 잠재력을 보여줍니다.36-40 또한 기술은 원격 의료를 가능하게 하며, 이는 특히 시골 지역과 의사 및/또는 전문 지식에 대한 접근성이 제한된 기타 지역에서 유용한 옵션이 될 수 있습니다.41 -43 원격 의료가 시골 의사를 교육하고 환자 치료 결과를 개선하는 데 성공한 대표적인 사례는 일차 진료 의사가 C형 간염 환자에게 효과적인 전문의 지원 치료를 제공한 프로젝트 ECHO입니다.44 2015년에는 많은 환자와 장기간에 걸쳐 가상이지만 정기적으로 개별화된 상호작용을 통해 환자 관리를 제공하는 최초의 가상 병원이 미국에서 문을 열었습니다. 이 가상 병원 모델은 "비접촉식 따뜻함"이라는 개념을 장려합니다.45 오프라인 병원에서는 이제 로봇 도우미가 환자에게 음식과 약을 배달합니다.46 
The advances made in AI are transforming medical care at a remarkable speed. List 1 provides examples of AI tools and applications that have been found to be equal or superior to human experts. Specific domains where AI is highly successful include visual and radiological image interpretation and the provision of diagnostic and therapeutic aids.19–35 AI software demonstrates the potential to improve direct interactions with patients, care documentation, and population health management.36–40 Technology also enables the practice of telemedicine, a particularly valuable option in rural communities and in other areas with limited access to practitioners and/or specialty expertise.41–43 A classic example of the success of telemedicine in training rural physicians and improving patient care outcomes is Project ECHO, through which primary care physicians have provided effective specialist supported care to patients with Hepatitis C.44 In 2015, the first virtual hospital, wherein patient management is provided through virtual but regular individualized interactions with many patients longitudinally over long periods of time, opened in the United States. The virtual hospital model promotes the concept of “touchless warmth.”45 In brick and mortar hospitals, robotic helpers now deliver food and medications for patients.46

이러한 최근의 발전은 미래에 어떤 의미가 있을까요? 이러한 혁신과 기타 혁신에 대한 우려로 인해 ACGME는 "대안적 미래" 시나리오 기반 계획을 개발했습니다.47 그 결과 의료 서비스 전달의 복잡성 증가와 의료 서비스의 "상품화" 가속화를 포함한 통찰력을 얻었습니다. 여기서 상품화라는 용어는 기존 공급업체를 대체할 수 있는 저비용 적시 공급업체의 성장과 지속적으로 모니터링되는 환자 센서의 사용 가속화를 의미합니다.47 이러한 풍부한 데이터 소스는 환자의 병력, 신체 검사 및 검사 결과에 대한 기존 의존도를 높일 수 있습니다. 현재 시범 운영 중인 모델은 다중 도메인 데이터 세트에서 도출된 인사이트를 통해 환자의 질병 진행 및 향후 질병을 성공적으로 예측했습니다.48 이러한 모델은 진단 코드, 시술 코드, 검사 결과, 약물 복용 등 EMR에 일반적으로 코딩된 정보를 사용하여 최대 10년 후의 미래 질병 진단까지 예측할 수 있었습니다.48  
What do these recent advances mean for the future? Concerns about these and other innovations prompted the Accreditation Council for Graduate Medical Education (ACGME) to develop “alternative futures” scenario-based planning.47 Resulting insights include enhanced complexity in health care delivery and accelerated “commoditization” of health care services. In this context, the term commoditization refers to the growth of lower-cost, just-in-time alternatives to traditional providers, and the accelerated use of continuously monitored patient sensors.47 These rich data sources would augment traditional reliance upon a patient’s history, physical examination, and test results. Models currently undergoing piloting have successfully predicted disease progression and future diseases in patients via insights derived from multidomain datasets.48 These models were able to predict future disease diagnoses, sometimes as far as 10 years in the future, using commonly coded information in EMRs, such as diagnostic codes, procedural codes, lab results, and medications.48

다른 기술도 환자 센서로 인한 개선 사항을 보완할 수 있습니다. 자연어 처리(NLP)의 발전으로 EMR 분석이 자동화될 수 있습니다.49 스마트폰은 개인 맞춤형 의료를 개발하고 배포하는 데 중요한 도구가 될 것입니다.50 Google 지도가 거리 수준에서 대륙까지 지구의 공간적 표현을 생성하는 것처럼, 인간에 대해 수집된 대량의 데이터는 DNA 서열에서 장기 시스템에 이르기까지 인간의 공간적 표현을 생성할 수 있습니다.51 개인의 건강과 관련된 이 '개인 지리 정보 시스템'은 치료 탐색을 의사에서 환자로 전환할 수 있습니다.51 
Other technologies may augment the improvements made possible by patient sensors. Advances in Natural Language Processing (NLP) may automate EMR analysis.49 Smartphones will become important tools to develop and deploy personalized medicine.50 Just as Google Maps creates a spatial representation of Earth from the level of street to continent, the large volume of data collected on humans will allow for the creation of a spatial representation of humans from DNA sequence to organ system.51 This “personal geographic information system” pertaining to a person’s health may shift care navigation from physician to patient.51

미래 의료 종사자의 역할
The Role of the Future Practitioner of Medicine

기술 발전으로 인한 근본적인 변화로 인해 우리는 "기술 기반 미래에서 의사의 역할은 무엇인가?"라는 질문을 던지고 답을 찾으려고 합니다. 의사는 인간의 통찰력과 이해가 필요한 활동을 포기하지 않으면서도 인간의 능력을 향상시키는 기술을 수용, 적응 및 포용할 수 있도록 진화해야 합니다. 환자는 의심할 여지 없이 의료진으로부터 신뢰, 존중, 보살핌과 연결, 공감, 적극적인 경청을 포함한 효과적인 커뮤니케이션을 계속 원할 것입니다.52 효과적인 치료는 정확한 진단, 필요한 절차의 능숙한 수행, 적절한 치료법 처방에 달려 있습니다. 인간의 고통을 덜어주는 것은 공감과 연민으로 소통하고 인간의 감정과 우려를 안전하게 표현할 수 있도록 허용하는 데 달려 있습니다. 
The fundamental changes enabled by advancing technology cause us to ask, and attempt to answer, the question What is the role for the physician in this technology-enabled future? Practitioners must evolve to accept, adapt, and/or embrace the technologies that enhance human capabilities while not relinquishing those activities that require human insight and understanding. Patients will undoubtedly continue to want trust, respect, care and connection, empathy, and effective communication, including active listening, from their care providers.52 Effective care depends on accurate diagnosing, skillfully performing necessary procedures, and prescribing appropriate therapy. Relieving human suffering depends on communicating empathically and compassionately and allowing for the safe expression of human emotions and concerns.

'핵심적인 인간 기술'이란 환자 및 동료와의 의사소통, 환자의 안전한 이송, 전문가 간 팀워크, 상황 판단력 등 가까운 미래에 기술로 쉽게 대체할 수 없다고 판단되는 기술을 말합니다. 또한 공감, 겸손, 연민, 감성 지능, 지속적인 학습에 대한 열정 등의 개인적 특성도 중요한 인간 기술입니다. 자신의 감정에 대한 인식 및 환자의 감정에 관여하는 방법과 관련된 정서 지능은 특히 팀 기반 치료에서 미래의 의사에게 중요한 기술로 남을 것입니다.53 마찬가지로, 권고 사항 준수 및 환자의 전반적인 스트레스 감소와 같은 임상적으로 의미 있는 결과의 개선과 분명히 연관된 공감 능력54은 계속해서 의사의 필수 역량이 될 것입니다. 

“Critical human skills” are ones that we believe cannot be easily replaced by technology in the foreseeable future, such as communication with patients and peers, safe hand-offs of patients, interprofessional teamwork, and situational judgment. Moreover, the personal characteristics of empathy, humility, compassion, emotional intelligence, and passion for continued learning are also critical human skills. Emotional intelligence, as it relates to awareness of one’s own emotions and how to engage with patients’ emotions, will remain a vital skill for future practitioners, especially in team-based care.53 Likewise, empathy, which is clearly associated with improvements in clinically meaningful outcomes such as adherence to recommendations and overall stress reduction among patients,54 will continue to be a required physician competency.

의학을 지식 관리가 아닌 돌봄의 기술로서 바라보는 클레이본 존스턴 박사는 학술 의학 초청 논평에서 "돌봄의 기술은 환자 치료 결과 개선과도 관련이 있다"고 말합니다.55 의사는 공감하고, 방해하지 않고 경청하며, 효과적인 의사소통을 보장하기 위해 시간이 필요하다는 점을 적절히 지적하고 있습니다. AI는 현재 의사에게 필요한 업무를 자동화하거나 더 효율적으로 만들어줌으로써 의사와 환자에게 시간이라는 선물을 줄 수 있는 잠재력을 가지고 있습니다. 한 연구에 따르면 의사가 환자와 더 많은 시간을 보낼수록 재입원 위험이 8% 감소했습니다.56 방문 시간이 길어지면 의사소통이 원활해지고 신뢰가 높아지며, 무엇보다도 환자와 의료진 간의 치료 협력 관계가 개선되어 치료 결과가 향상됩니다.57
In an Invited Commentary in Academic Medicine, Dr. Claiborne Johnston, focusing on medicine as the art of caring rather than as knowledge management, states that “the skills of caring are also associated with improved patient outcomes.”55 Practitioners appropriately note that time is required to connect empathically, listen without interrupting, and ensure effective communication. By automating or making more efficient the current tasks required of a physician, AI has the potential to give practitioners and their patients the gift of time. In one study, for every extra minute that the doctor spent with the patient, the readmission risk fell by 8%.56 A longer visit promotes better communication, increased trust, and importantly, improved outcomes due to a better therapeutic alliance between the patient and the care provider.57

의학교육자는 기술과 휴머니즘을 다뤄야 합니다
Medical Educators Must Address Technology and Humanism

미래의 의료인이 변화해야 하는 것처럼, 교육 시스템과 미래의 의료인을 양성하는 교육자 모두에게 그에 상응하는 변화가 필요합니다. 인지적 기술이 효과적이고 효율적으로 테크놀로지에 위임됨에 따라, 의학교육자는 학습자가 환자와 관계를 맺고 환자의 고통을 덜어주는 데 필요한 비인지적, 핵심적인 인간 기술에 대한 교육을 강화해야 합니다. 의학교육자는 적절한 커리큘럼 요소와 교수법뿐만 아니라 미래의 의료 현장에서 성공하는 데 필요한 핵심적인 인간 기술을 평가할 수 있는 정확하고 신뢰할 수 있으며 유효한 수단을 개발하는 데 집중해야 합니다. 이 영역의 발전은 의료 서비스 제공의 발전과 함께 진행되어야 하며, 이용 가능한 기술 발전을 반영해야 합니다. 다른 사람들이 지적했듯이 미래에 대한 예측은 오류로 가득 차 있지만 종종 혁신을 촉진하기도 합니다.58 기술 발전은 때때로 고르지 않은 커리큘럼 혁신을 낳지만,59,60 의학교육을 완전히 발전시켜야 할 필요성은 부인할 수 없는 사실입니다. 
Just as future practitioners must change, corresponding changes are needed both in the educational system and in those who prepare practitioners of the future. As cognitive skills are effectively and efficiently delegated to technology, medical educators must enhance their training of the noncognitive, critical human skills that learners will need to relate to patients and relieve their suffering. Medical educators must focus on developing not only appropriate curricular elements and pedagogy but also accurate, reliable, and valid means to assess the critical human skills needed for success in the future practice of medicine. Progress in this realm must march alongside progress in health care delivery and reflect available technological advances. As others have noted, predictions about the future are fraught with error, yet they often stimulate innovation.58 Technological advances sometimes yield uneven curricular innovations,59,60 but the need to wholly evolve medical education is undeniable.

심층 신경망과 그 도구는 의료의 여러 측면에서 AI 알고리즘의 활용도를 높이는 데 큰 잠재력을 가지고 있지만61, 적절하게 사용되어야 합니다. 기술로 증강된 의료 서비스를 제공하려면 의사는 임상적 의사 결정과 환자 치료를 지원하기 위해 적절한 현장 진료 도구를 능숙하게 적용해야 합니다. 워트먼과 콤스는 다양한 출처에서 얻은 "정보의 효과적인 통합 및 활용"과 관련된 교육 기술을 강조합니다.62 이들은 미래의 의사들이 의사 결정 지원 소프트웨어를 사용하고 병원, 가정, 심지어 환자의 체내에서 센서와 로봇을 관리할 수 있도록 교육하는 의학교육의 재부팅을 주장하고 있습니다. 의과대학의 커리큘럼도 진화해야 합니다. 
Deep neural networks and the tools they engender hold great potential in increasing the use of AI algorithms in many aspects of medical care61—but only if used appropriately. Technology-augmented medical practice will require physicians to be adept at applying appropriate point-of-care tools to aid in clinical decision making and patient care. Wartman and Combs emphasize teaching skills related to the “effective integration and utilization of information” from a variety of sources.62 They advocate a reboot of medical education, training future doctors to use decision support software and to manage sensors and robots in hospitals, in homes, or even within patients’ bodies. The curriculum of medical schools must evolve.

임상 치료에서 뛰어난 AI 지원을 받더라도 의사는 환자를 돌보는 데 AI 지시 관리를 적용해야 할 때와 AI 알고리즘에서 벗어나야 할 때를 구분할 수 있어야 합니다. AI 시스템이 완전히 신뢰할 수 있게 될 때까지 의사는 독립적으로 정보를 찾고, 평가하고, 사용할 수 있는 기술이 필요합니다.

  • 가까운 미래에도 의사에게는 일차 연구 문헌을 언제, 어떻게 검색해야 하는지 아는 기술이 필요할 것이므로 학생은 근거 기반 지식을 찾고 적용하는 데 있어 명시적인 교육을 받는 것이 도움이 될 수 있습니다.63 최근 문헌 검토에 따르면 대부분의 보건과학 학생은 인터넷에서 찾은 건강 정보를 찾고, 평가하고, 효과적으로 사용하는 기술이 제한적인 것으로 나타났습니다.64
  • 비판적 연구 기술에 대한 교육은 여전히 발전하고 있지만 단일 기관에 국한된 경우가 많으며, 보고서는 다른 사람들이 개입을 완전히 평가하거나 복제할 수 있도록 충분한 정보를 제공하지 않습니다.65
  • 학습자의 기술 보유도 제한적입니다. 예를 들어, 초급 의사를 대상으로 한 한 연구에 따르면 대다수가 높은 수준의 검색 기술을 보유하지 못했으며 최상의 근거를 식별하고 적용하는 기술이 부족했습니다.66  

Even with excellent AI support in clinical care, physicians must be able to discern when to apply AI-directed management to care for a patient and when to deviate from the AI algorithm. Until AI systems become fully reliable, physicians will require the skills to seek, evaluate, and use information independently. For the foreseeable future, physicians will likely still need the skills to know when and how to search primary research literature, thus students may benefit from explicit instruction in seeking and applying evidence-based knowledge.63 A recent literature review has revealed that the majority of health sciences students have limited skills in locating, evaluating, and effectively using the health information they find on the Internet.64 Pedagogy in critical research skills is still developing, but is often limited to a single institution, and reports provide insufficient information to enable others to fully evaluate or replicate the intervention.65 Learners’ skills retention is also limited; to illustrate, one study of entry-level physicians has shown that the majority had not retained high-level search skills and lacked skills in identifying and applying the best evidence.66

위에서 언급한 핵심적인 인간 기술은 의료 실무에서 여전히 필수적입니다. 2019년 아카데믹 메디슨의 초청 논평에서 "의학의 인본주의: 그것은 무엇을 의미하며 왜 그 어느 때보다 중요한가?"라는 제목의 초청 논평에서 조지 티볼트는 "인간 상호 작용을 대체하는 기술에 대한 의존도가 높아지면서 ... 환자와 전문가의 만족도가 전반적으로 하락하고 있다."67 의학교육자는 학습자의 전체 의학교육 여정에서 의도적인 실습, 피드백, 코스 수정 기회를 통해 미래의 의사에게 인문학적 기술을 배양하여 향후 성공적인 진료에 대비하도록 노력해야 한다고 말합니다. 
The critical human skills cited above will remain essential to medical practice. In a 2019 Invited Commentary in Academic Medicine entitled “Humanism in Medicine: What does it mean and why is it more important than ever?”, George Thibault laments that “the increasing reliance on technology as a substitute for human interaction … [leads] to a general decline in patient and professional satisfaction.”67 Medical educators must strive to cultivate humanistic skills in future physicians through opportunities for deliberate practice, feedback, and course correction throughout a learner’s whole medical education journey to prepare them for successful practice in the future.

위탁 전문 활동(EPA)은 수련생이 여러 번의 만남을 통해 자신의 술기 발전을 추적할 수 있는 프레임워크를 제공하여 발달 경로를 따라 학습과 개선을 촉진합니다. 수련의는 자신이 무엇을 평가받고 있는지, 자신의 진척도가 예상되는 학습 궤적과 어떻게 일치하는지 알 수 있습니다.68 기술 증강 의료 행위의 시대에는 모든 의료 수련의에게 추가적인 EPA가 요구될 수 있습니다.

  • 빅데이터 쿼리 능력,
  • 생물정보학의 힘에 대한 명확한 인식,
  • AI 알고리즘의 강점과 한계에 대한 지식,
  • 환자 유래 생체 데이터 평가 능력,
  • 기본 컴퓨터 프로그래밍 기술 등

현재 EPA의 개발이 의학 및 교육 분야의 전문성을 갖춘 개인에게 의존하는 것처럼, 새로운 EPA의 개발은 AI 및 정보 과학 분야의 전문가에게 의존할 가능성이 높습니다. 
Entrustable professional activities (EPAs) provide a framework for trainees to track their skill progression over multiple encounters, thereby driving learning and improvement along a developmental path. Trainees know what they are being assessed on and how their progress aligns with the expected trajectory of learning.68 In the era of technology-augmented medical practice, additional EPAs may be required of all medical trainees:

  • the ability to query big data,
  • a clear awareness of the power of bioinformatics,
  • knowledge of the strengths and limitations of AI algorithms,
  • ability to evaluate patient-derived biometric data, and
  • skills in basic computer programming.

Just as the development of current EPAs relies on individuals with expertise in medicine and education, the development of new EPAs will likely rely on experts in AI and information science.

기술 증강 의료 행위가 임상적 의사 결정의 내용과 이유를 가능하게 하고 기술이 점점 더 많은 작업에서 인간의 두뇌를 능가함에 따라, 알려진 사실과 임상 의사 결정 기술에 초점을 맞춘 현재의 평가 전략도 진화해야 합니다. 교육생에 대한 평가는 기술 사용 및 빅데이터 쿼리 능력을 측정해야 합니다. 평가 전문가는 중요한 인간 기술의 다양한 측면을 측정할 수 있는 새롭고 유효한 방법을 개발해야 하며, 의학 이외의 분야에서도 유용한 지침을 제공할 수 있습니다.69 
As technology-augmented medical practice enables the what and why of clinical decisions, and as technology outperforms the human brain for an increasing number of tasks, current assessment strategies that focus on known facts and clinical decision-making skills must also evolve. Assessment of trainees must measure their ability to use technology and query big data. Assessment experts need to develop new and valid methods to measure various aspects of critical human skills; fields outside of medicine may provide useful guidance.69

또한 AI는 평가 대상뿐만 아니라 학습자를 평가하는 방법도 변화시킬 것입니다. 자연어 처리 기술은 이미 의료 면허 시험 채점에도 활용될 준비가 되어 있습니다.70 평가는 의료 임상 실무에 완전히 통합된 원활하고 장기적이며 지속적인 프로세스가 되어야 합니다. 비정기적, 총괄적, 적시 평가는 학습자의 발달에 초점을 맞추고 안내하기 위해 유효한 지속적인 피드백으로 보완되어야 합니다. 의료 기록을 해석하여 환자 치료를 안내하는 데 사용하는 것과 동일한 기술을 의료진 평가에 사용할 수 있습니다. 시간이 지남에 따라 모든 임상 상황에서 수집된 여러 데이터 포인트를 통해 신규 의료진의 기술적 능력과 중요한 인적 기술을 모두 명확하게 파악할 수 있습니다. 자연어 처리 기술은 EMR 문서를 통해 매일의 임상 활동을 자동으로 추적하는 옵션을 제공합니다. 따라서 수련의는 실제 업무 문서를 통해 특정 기술과 역량을 추적하고 평가할 수 있습니다. 
AI also promises to transform not only what is assessed but also how learners are assessed. NLP is already poised to guide scoring of medical licensing examinations.70 Assessment must become a seamless, longitudinal, and continuous process that is fully integrated into the clinical practice of medicine. Occasional, summative, point-in-time assessments must be supplemented by valid ongoing feedback to focus and guide learners’ development. The same technologies that enable interpretation of the medical record to guide patient care can be employed to assess practitioners. Multiple data points, collected at every clinical encounter over time, can create a clear picture of both the technical and the critical human skills of an emerging practitioner. NLP technology offers an option to automatically track daily clinical activities via EMR documentation. Thus, trainees can be tracked and assessed for specific skills and competencies through their authentic workplace documentation.

AI는 전임상 교육 및 평가에도 잠재력을 가지고 있습니다. 학습자의 행동에 반응하여 부족한 부분을 강화하기 위해 가중치가 부여된 콘텐츠를 간격을 두고 반복하여 제공하는 초보적인 AI 시스템이 이미 존재합니다.71 휴대폰의 마이크를 사용하여 일상적인 임상 및 교육 상호작용을 눈에 띄지 않게 캡처하고 분석할 수 있는 NLP 지원 앱을 상상해 볼 수 있습니다. 음성 언어를 수동적으로 캡처하고 분석하는 NLP 지원 앱은 사례 기반 문제에 대해 동료와 함께 작업하는 학생이나 환자 및 기타 의료 팀원과 상호 작용하는 의사 등 상호 작용에서 개인의 수행 품질에 대한 개별화된 피드백을 제공할 수 있습니다. 이러한 앱은 상호 작용 내용의 명확성과 정확성뿐만 아니라 잠재적으로 감정적인 어조까지 평가할 수 있습니다.
AI also holds promise for preclinical teaching and assessment. Rudimentary AI systems already exist that respond to the learner’s actions by providing spaced repetition of content weighted to strengthen demonstrated areas of deficit.71 One might imagine an NLP-enabled app that, through use of a phone’s microphone, could unobtrusively capture and analyze routine clinical and educational interactions. An NLP-enabled app that passively captures and analyzes spoken language could provide individualized feedback about the quality of a person’s performance in their interactions—whether a student working with peers on a case-based problem or a doctor interacting with patients and other members of the health care team. Such an app may be able to assess not just the clarity and accuracy of the content of the interaction, but even, potentially, the emotional tone.

의학교육계는 의료 서비스에서 중요한 인간 기술의 중요성을 인식하고 학생, 레지던트, 교수진의 명확한 의사소통, 공감, 팀워크와 같은 기술 역량을 평가할 수 있는 유효하고 신뢰할 수 있는 수단을 마련하기 위해 노력해 왔습니다. 의대생의 휴머니즘 평가에 대한 방법론적 검토(155개 논문에서 보고된 202개의 다양한 평가 포함)에 따르면 휴머니즘 평가는 종종 제한적이며 단일 정량적 측정에 의존하는 것으로 나타났습니다.72 마찬가지로 감성 지능 및 공감 테스트는 아직 예비 단계에 머물러 있습니다.73,74
Recognizing the primacy of critical human skills in medical care, the medical education community has worked to establish valid and reliable means to assess students’, residents’, and faculty members’ competence in skills such as clear communication, empathy, and teamwork. A methodological review of the assessment of humanism in medical students (that involved 202 different assessments reported in 155 articles) indicated that assessing humanism is often limited and reliant on a single quantitative measure.72 Likewise, the testing of emotional intelligence and empathy is still in its preliminary stages.73,74

미국국립시험위원회(NBME)와 협력자들은 소아과 전공의의 전문성 및 기타 중요한 기술을 평가하기 위해 검증된 평가 도구를 개발했습니다.75 NBME는 미국소아과학회 및 소아과 프로그램 디렉터 협회와 협력하여 소아과 마일스톤 평가 협력체(PMAC)를 구성했습니다. 이 협력체의 구성원들은 레지던트에 대한 관찰을 수집하기 위해 테크놀로지 기반 다중 소스 평가 시스템을 개발했으며, 이를 통해 ACGME 마일스톤 달성에 대한 판단을 내릴 수 있습니다. PMAC는 여러 비인지적 기술에 대한 효과적인 종단 평가의 초기 증거를 보여주었으며, 수집된 데이터는 일부 레지던트 프로그램의 임상 역량 위원회에서 교육을 안내하는 데 사용되었습니다.76 다른 많은 레지던트 평가와 달리 PMAC 시스템은 평가자의 응답을 사용하여 실시간으로 평가를 맞춤화하고 평가자에게 제공된 데이터를 기반으로 다양한 질문을 전달하여 신뢰도를 높이고 행정 부담을 줄입니다. 이 작업을 통해 개발된 원칙과 프로세스는 다른 전문 분야와 교육/훈련/실습 연속체의 다른 단계로 일반화할 수 있습니다.
The National Board of Medical Examiners (NBME) and collaborators have developed validated assessment tools to assess professionalism and other critical skills of pediatric residents.75 The NBME partnered with the American Board of Pediatrics and the Association of Pediatric Program Directors to form the Pediatric Milestones Assessment Collaborative (PMAC). The members of the collaborative have developed a system of technology-enabled multisource assessment to collect observations of residents, which, in turn, inform judgments about their achievement of ACGME milestones. PMAC has shown early evidence of effective longitudinal assessment of several noncognitive skills, and data collected have been used by the clinical competence committees of some residency programs to guide education.76 Different from many other residency assessments, the PMAC system uses the assessor’s responses to tailor assessment in real time, delivering different queries based on data provided to the assessor, thus improving reliability and reducing administrative burden. The principles and processes developed during this work may generalize to other specialties and to other stages along the education/training/practice continuum.

미래를 위한 도전 과제
Challenges for the Future

성공이 보장되는 것은 아니지만, 위에서 설명한 발전과 기회는 환자 치료 결과와 환자와 의료진의 치료 경험 모두에서 극적인 개선을 이룰 수 있는 잠재력을 창출합니다. 이 마지막 섹션에서는 미래에 발생할 수 있는 몇 가지 시나리오를 살펴봅니다.  
While success is not guaranteed, the advances and opportunities described above create the potential for dramatic improvements both in patient outcomes and in patients’ and providers’ experience of care delivered. This final section explores some possible scenarios for the future.

기계가 인간을 대체할지에 대한 우려는 여전히 남아 있습니다. 미래 의료에 대한 디스토피아적 관점에서는 환자가 의료 기기와 직접 상호 작용하여 자신의 증상을 NLP 인터페이스에 설명하고, 바이오센서를 통해 객관적인 정보를 제공하며, 진단과 치료를 개발할 알고리즘에 정보를 제공하기 위해 필요에 따라 검체 채취에 동의하는 세상을 상상합니다. 재정적 자원은 이용 가능한 치료의 범위와 개인이 서비스를 쉽게 이용할 수 있는 정도를 모두 결정할 수 있습니다. 
Concerns over whether the machine will replace the human remain. A dystopian view of future medical care envisions a world where patients interact directly with health care appliances, describing their symptoms to an NLP interface, providing objective information via biosensors, and submitting to specimen collection as needed to inform the algorithms that will develop their diagnosis and treatment. Financial resources may determine both the range of available treatments and the ease with which individuals can access services.

이것이 우리의 미래가 될 필요는 없으며, 그렇게 되어서도 안 됩니다. AI 초강대국들에서: 중국, 실리콘밸리, 그리고 새로운 세계 질서에서 카이푸 리는 AI가 "매우 불평등한 사회 전반에 걸쳐 세계적 수준의 의료 지식을 동등하게 보급하고, 모든 의사와 간호사가 기계가 할 수 없는 인간적인 일, 즉 환자를 돌보고 있다고 느끼게 하고 진단이 밝지 않을 때 환자를 위로하는 일에 집중할 수 있게 한다."77 리는 이상적인 미래의 의료 행위는 기계가 최적의 중요한 결정을 내리고 인간은 환자에게 동정, 존중, 경청, 정서적 지원을 제공하는 보다 통합적인 치료 제공으로 구현될 것으로 가정하고 있습니다.의사의 진료 방식은 환자와 환자의 결과55, 그리고 의사와 환자의 웰빙에 중요한 영향을 미칩니다. 기존의 커리큘럼과 평가 프레임워크를 지금 수정하면 환자나 환자의 결과에 대한 진정한 배려 없이 기계적으로 기술에 의존하는 의료 서비스를 제공하는 불만과 불만을 가진 미래의 의사 인력이 늘어나는 것을 방지하는 데 도움이 될 것입니다. 
This need not—and should not—be our future. In AI Super Powers: China, Silicon Valley and the New World Order, Kai-Fu Lee writes that AI “disseminates world class medical knowledge equally throughout highly unequal societies, and lets all doctors and nurses focus on the human tasks that no machine can do: making patients feel cared for and consoling them when the diagnosis isn’t bright.”77 We posit that ideal future medical practice will embody more integrated delivery of care, with the machine enabling optimal critical decision making while the human provides compassion, respect, listening, and emotional support to patients. How physicians care matters to patients and their outcomes55—and to physicians and their well-being. Modifying existing curricular and assessment frameworks now will help prevent the growth of a future workforce of disgruntled, dissatisfied physicians who provide technology-dependent health care mechanically without truly caring for their patients or about their outcomes.

기술 증강 치료와 의학 지식의 평준화 시대에 의과대학 교수진은 지금까지 뛰어난 두뇌와 인지능력을 기준으로 학생들을 입학시켜 왔지만, 이제는 공감 능력, 의사소통 능력, 감성 지능이 뛰어나 인류의 고통을 덜어줄 수 있는 최고의 치료자로 성장할 가능성이 높은 학생들을 선발하고 교육해야 할 것입니다. 의대 교육자와 규제 기관의 과제는 여러 데이터 소스를 활용하여 개인에 대한 풍부하고 다각적인 그림을 그리는 평가 모자이크를 개발하는 것입니다. 이 모자이크는 기술이 통합된 시스템에서도 환자 치료에서 계속 중요한 역할을 하게 될 핵심적인 인간 기술에서 학습자의 역량을 입학 시와 수련 기간 내내 파악할 수 있는 데이터를 안정적으로 제공할 수 있습니다. 실제 환자 치료 환경에 기반하고 실제 환자 치료 환경에 포함된 실제적이고 종단적인 다중 소스 평가는 현재의 시뮬레이션 평가 환경을 보강하고 잠재적으로 대체할 수 있어야 합니다. 
In the era of technology-augmented care and the leveling of medical knowledge, medical school faculty—having so far admitted students based on their brilliance and cognitive abilities—will now need to select and train students with high empathy, communication skills, and emotional intelligence who are likely to blossom into the best healers capable of alleviating human suffering. The challenge for medical educators and regulatory bodies will be to draw from multiple data sources to develop an assessment mosaic: a rich, multifaceted picture of the individual. This mosaic could reliably provide data to discern the competence of learners—upon matriculation and throughout their training—in the critical human skills that will continue to play an important role in patient care, even in a technology-integrated system. Authentic, longitudinal, multisource assessments that are workplace-based and embedded in real patient care encounters will have to augment, and potentially replace, current simulated environments of assessment.

의료계가 AI의 잠재력을 성공적으로 활용하는 동시에 돌보는 의사의 인문학적 발전을 촉진할 수 있다면, 위에서 설명한 디스토피아와는 확연히 다른 미래를 만들 수 있을 것입니다. 밝은 미래에는 환자가 의료 시설이나 자신의 집 등 편안하고 보살핌을 받는 환경에서 의사의 진료를 받고, 진단과 치료 결정은 고화질의 원격 프레젠테이션 기술을 통해 이루어집니다. 의사나 환자는 진료 중 언제든지 AI 아바타의 참여를 요청하여 환자의 전체 건강 기록과 최신 의학 문헌에 대한 지식에 기반한 정보, 조언 또는 의견을 요청할 수 있습니다. 아바타는 대화에 초대받지 않거나 금기 치료 처방과 같이 환자와 의사의 대화에서 개입이 필요한 상황이 발생하지 않는 한 침묵을 유지합니다. AI 시스템은 먼저 진료 중에 교환된 주관적 및 객관적 정보를 의사와 환자가 함께 검토할 수 있도록 서면 기록으로 자동 정리한 다음 의사의 검토 및 승인을 위해 진단 및 치료 초안을 작성합니다. 
If medicine can successfully harness the potential of AI while simultaneously fostering the humanistic development of caring physicians, we will create a future that differs dramatically from the dystopia described above. In our bright future, patients are attended by a physician in a comfortable, nurturing environment that may be a health care facility or their own home; diagnosis and treatment decisions are facilitated by high-fidelity tele-present technology. Either the physician or the patient can invoke the participation of an AI avatar at any point during the encounter to solicit information, advice, or an opinion that is guided and informed by knowledge of both the patient’s full health record and current medical literature. The avatar remains silent unless invited into the interaction, or unless anything in the patient–doctor interaction—such as prescribing a contraindicated treatment—triggers a need for intervention. The AI system, first, automatically organizes the subjective and objective information exchanged during the visit into a written record for shared review by both the physician and the patient, and then drafts diagnoses and treatments for the physician’s review and approval.

의료 면허 당국은 이미 원격 의료 및 면허 규정과 같은 기술로 인한 의료 행위의 변화와 씨름하고 있습니다.78 기술이 통합된 새로운 의료 행위의 시대에 최소한의 진료 역량에 대한 기준의 진화를 고민해야 할 것입니다. 환자와 의료진이 하이테크 하이터치 진료로 전환할 수 있도록 지원하고 가능하게 하는 기술은 의료진과 환자 모두에게 환영받을 것입니다. 인문학적 소양을 갖춘 기술 교육을 받은 의료진이 시행하는 기술 강화 의료를 통해 환자는 양질의 자비로운 치료를 받을 수 있고, 의료진은 본질적으로 인간적인 의료 활동에서 의미와 기쁨을 찾으며 번창할 수 있습니다.
Medical licensing authorities are already grappling with technology-enabled changes in the practice of medicine such as those related to telemedicine and licensure regulations.78 They will have to grapple with the evolution of standards of minimal competence to practice in the new era of technology-integrated medical practice. Technology that enables and supports patients and providers to move to high-tech, high-touch care would be welcomed by health care providers and patients alike. Technology-enhanced medicine practiced by humanistic, technology-trained providers will enable patients to receive high-quality compassionate care while allowing the provider to flourish by finding meaning and joy in this essentially human activity of medical care.


Acad Med. 2021 Jan 1;96(1):37-43. doi: 10.1097/ACM.0000000000003733.

Technology Can Augment, but Not Replace, Critical Human Skills Needed for Patient Care

1J. Alrassi is resident physician, Department of Otolaryngology-Head and Neck Surgery, State University of New York Downstate Health Sciences University, Brooklyn, New York; ORCID: https://orcid.org/0000-0003-4851-1697.

2P.J. Katsufrakis is president and chief executive officer, National Board of Medical Examiners, Philadelphia, Pennsylvania; ORCID: https://orcid.org/0000-0001-9077-9190.

3L. Chandran is executive dean and founding chair, Department of Medical Education, University of Miami Miller School of Medicine, Miami, Florida; ORCID: https://orcid.org/0000-0002-7538-4331.

PMID: 32910005

DOI: 10.1097/ACM.0000000000003733

Abstract

The practice of medicine is changing rapidly as a consequence of electronic health record adoption, new technologies for patient care, disruptive innovations that breakdown professional hierarchies, and evolving societal norms. Collectively, these have resulted in the modification of the physician's role as the gatekeeper for health care, increased shift-based care, and amplified interprofessional team-based care. Technological innovations present opportunities as well as challenges. Artificial intelligence, which has great potential, has already transformed some tasks, particularly those involving image interpretation. Ubiquitous access to information via the Internet by physicians and patients alike presents benefits as well as drawbacks: patients and providers have ready access to virtually all of human knowledge, but some websites are contaminated with misinformation and many people have difficulty differentiating between solid, evidence-based data and untruths. The role of the future physician will shift as complexity in health care increases and as artificial intelligence and other technologies advance. These technological advances demand new skills of physicians; memory and knowledge accumulation will diminish in importance while information management skills will become more important. In parallel, medical educators must enhance their teaching and assessment of critical human skills (e.g., clear communication, empathy) in the delivery of patient care. The authors emphasize the enduring role of critical human skills in safe and effective patient care even as medical practice is increasingly guided by artificial intelligence and related technology, and they suggest new and longitudinal ways of assessing essential noncognitive skills to meet the demands of the future. The authors envision practical and achievable benefits accruing to patients and providers if practitioners leverage technological advancements to facilitate the development of their critical human skills.

인공지능이 의학교육에 갖는 함의 (Lancet Digit Health. 2020)
Implications of artificial intelligence for medical education

Vanessa Rampton 1, Michael Mittelman 2, Jörg Goldhahn 3

 

디지털 헬스1는 의학에 큰 변화를 가져왔지만, 이로 인해 야기되는 문제는 아직 의학교육 전반에 걸쳐 교육과 학습에 통합되지 않았습니다. 이 문제는 의료 디지털화의 구체적인 사례로 논의되는 인공지능(AI) 시스템의 부상이 교육의 근본적인 패러다임 변화와 연관되어 있다는 점에서 더욱 시급한 문제입니다. 20세기 의학교육 모델은 실험 결과가 공인된 표준으로 발전하여 교과서 교육에 영향을 미치는 것에 의존했지만, 오늘날에는 더 이상 이러한 순서가 적용되지 않습니다. 새로운 의료 AI 기술이 개발되고, 임상에 도입되고, 환자들이 사용하는 속도가 빨라지면서 의사들은 아직 일반적으로 받아들여지는 지식의 일부가 되지 않은 실험 기법을 적절히 다룰 수 있는 역량을 갖춰야 합니다. 어떤 치료법이 환자에게 가장 큰 혜택을 줄 수 있는지에 대한 민첩한 교육과 교육받은 추측이 의사들이 [단순히 기술에 반응하지 않고 이러한 기술의 도입을 주도할 수 있도록] 하는 데 매우 중요합니다.  
Although digital health1 has occasioned huge changes for medicine, the issues it provokes have yet to be integrated into teaching and learning across the medical education continuum. This question is all the more pressing given that the rise of artificial intelligence (AI) systems, discussed here as a specific example of healthcare's digitalisation, are associated with a fundamental paradigm shift in teaching. Whereas 20th-century medical education models relied on experimental results evolving into a recognised standard that then informed textbook teaching, today this sequencing no longer holds. The speed at which new health AI technologies are developing, being introduced into clinical practice, and being used by patients requires equipping doctors to deal appropriately with experimental techniques that have not yet become part of a generally accepted body of knowledge. Agile teaching and educated guesswork about which treatments will benefit patients the most are crucial for enabling physicians to lead the introduction of such technologies without simply being forced to react to them. 

당면 과제 중 하나는 기존의 교육 프레임워크를 21세기 현실을 고려하여 현실적으로 업데이트할 수 있는 방법을 모색하는 것입니다. 일반적으로 의학교육자들은 역량 프레임워크를 사용하는데, 이 프레임워크에는 여러 가지 경쟁 모델이 존재하며, 이 중 한 가지 역량은 여러 전문적 역할을 적절히 수행할 수 있는 것으로 간주될 수 있습니다. 엘러웨이에 따르면 이러한 프레임워크는 "이상을 집합적으로 정의하는 일련의 명제와 관계"를 설명하는 이론으로 간주하므로 지속적으로 테스트하고 도전해야 한다고 생각합니다.2 오늘날 의사가 환자의 의료 요구를 적절히 충족하는 데 필요한 다양한 능력은 모두 AI 지원 시스템의 영향을 받습니다.3 
Part of the task at hand is to ask how existing educational frameworks can be realistically updated to take into account 21st-century realities. As a rule, medical educators work with competency frameworks, of which several competing models exist, whereby a competence can be considered the suitable performance of several professional roles. Following Ellaway, we view such frameworks as theories outlining “a series of propositions and relationships that collectively define an ideal”, and therefore consider that they must be continuously tested and challenged.2 Today, the various abilities that physicians require to adequately meet patients' health-care needs are all affected by AI-enabled systems.3 

기술이 앞으로 어떻게 발전할지는 아무도 예측할 수 없지만, 의학은 환자의 웰빙을 증진하고 모든 사람이 적절한 의료 서비스를 이용할 수 있도록 하는 등 [인류 공통의 요구]에 부응합니다.4 한편, 우리는 환자가 자신의 치료와 관련하여 무엇을 원하고 필요로 하는지, 그리고 환자의 선호도가 의학 교육에 어떻게 더 잘 통합될 수 있는지 잘 파악하고 있습니다. 일부 환자 옹호자들이 쓴 것처럼, 여기에는 의학교육자가 환자를 완전한 가치의 파트너로 간주하는 것뿐만 아니라 "의사가 환자가 겪고 있는 일에 진정으로 관심을 갖고 진정으로 돕고 싶어 한다는 것을 느끼는 것"과 "환자의 가치, 희망, 선호도를 완전히 맥락화하고 이해할 수 있는 능력"이 포함됩니다. 5 치료가 환자와 그 가족이 치료에 중요한 역할을 하는 파트너십으로 진화함에 따라 의사는 환자와 협력하여 환자와의 관계를 발전시키고 이해해야 하며, 이는 매우 다양할 수 있는 AI 및 빅 데이터와의 관계를 발전시켜야 합니다. 또한 다양한 배경을 가진 환자와 협력하여 사회 정의 문제와 전문가 시스템 중심의 솔루션에 대한 민감성을 개발해야 합니다.  
No one can predict the future ways in which technology will develop, but medicine serves common human needs, such as promoting patient well-being and making adequate health care available to all.4 Meanwhile, we have a good picture of what patients want and need with regard to their own care, and how their preferences could be better integrated into medical education. As some patient advocates have written, this includes being considered full-value partners by medical educators, as well as “sensing that your doctor truly cares about what you are going through, and really does want to help”, and has the ability to “fully contextualise and appreciate the patient's values, wishes, and preferences”.5 As care has evolved to become more of a partnership, in which patients and their families have a key role to play in their treatment, physicians ought to collaborate with patients to develop and understand the patient's own relationship with AI and big data, which can vary dramatically. Moreover, they must work with patients from different backgrounds to develop sensitivities to problems of social justice and expert systems-driven solutions. 

존경받고 널리 사용되는 도구 중 하나인 캐나다 전문의 의학교육 지침(CanMEDS) 의사 역량 프레임워크는 변화를 위한 실용적이고 효과적인 지렛대라는 장점이 있습니다.6 또한, CanMEDS에 묘사된 많은 역할이 미국의 의학전문대학원 교육 인증위원회(ACGME)와 같은 다른 프레임워크에서 재현되고 있어 우리가 관찰하는 것이 더 중요하다는 것을 강조합니다. 또한 의사소통자, 협력자, 리더, 건강 옹호자, 학자, 전문가, 의료 전문가 등 의사의 역할은 정의상 비기술적non-technical이며, 합리적이거나 객관적인 기준으로 환원할 수 없기not reducible to rational or objective criteria 때문에 [기계에 의해 (완전히) 대체될 위험이 없다는 점]에서 CanMEDS는 매력적인 이론적 프레임워크입니다. 이 중 6개는 개념적으로 사회과학과 인문학에 기반을 두고 있으며, 의료 전문가의 역할은 나머지 6개, 즉 연결성과 함께 속한 것에 대한 지식을 통합하는 것으로, 기계는 부분적으로만 수행할 가능성이 높습니다.7 
By way of illustration, take one respected and widely used instrument, the Canadian Medical Education Directives for Specialists (CanMEDS) Physician Competency Framework, which has the advantage of being a practical and effective lever for change.6 Moreover, many of the roles depicted in CanMEDS are reproduced in other frameworks, such as the Accreditation Council for Graduate Medical Education (ACGME) in the USA, which underscores the broader importance of our observations. CanMEDS is also an appealing theoretical framework because none of the physician roles it describes—communicator, collaborator, leader, health advocate, scholar, professional, and medical expert—are at risk of being (entirely) replaced by machines, because they are non-technical by definition, and not reducible to rational or objective criteria. Of the roles, six are conceptually based in the social sciences and humanities, and the role of medical expert is to integrate the remaining six, that is to have knowledge of connectedness and what belongs together, something machines are likely to accomplish only partially.7 

동시에 AI가 가져온 변화는 모든 의사의 역할에 영향을 미칩니다.8 
At the same time, changes brought about by AI affect all physicians' roles.8

의사 소통자의 역할과 전통적인 의사와 환자의 만남이 "컴퓨터를 진료실에 도입함으로써 삼자 관계로 바뀌었다"는 사실을 고려하십시오.9 의사는 개인 정보 보호에 대한 우려, 권한 박탈, 모든 것을 알고 싶은 욕구 부족을 포함하여 빅 데이터 및 AI 지원 대상에 대한 환자의 다양한 반응을 인정해야 합니다.  
Take the role of communicator, and the fact that the traditional physician–patient encounter has “been altered into a triadic relationship by introducing the computer into the examination room”.9 Physicians need to acknowledge the large variety of patients' responses to big data and AI-supported objects, including concerns regarding privacy, disempowerment, and a lack of desire to know everything 

협력자로서 의사는 의료 AI 기술과 지식의 폭넓은 접근성이 다른 의료 전문직(예: 심리학자, 물리치료사, 간호사)은 물론 환자들에게도 힘을 실어준다empowers는 사실을 받아들이고 이를 바탕으로 배타적 지식 보유자로서의 의사의 기존 지위에 의문을 제기하도록 교육받아야 합니다
As a collaborator, physicians should be taught to accept and build on the fact that health AI technology and the wider accessibility of knowledge empowers some other health professions (eg, psychologists, physiotherapists, and nurses), as well as patients themselves, questioning physicians' previous status as holders of exclusive knowledge. 

리더로서 의사는 환자와 협력하여 AI 기술을 투명하고 책임감 있게 구현하고, 디지털 기술을 개발하고 옹호하는 것에 대해 상업적 및 기타 이해관계를 명확히 하는 문화에 기여해야 합니다. 
As a leader, physicians must work with patients to make the implementation of AI technologies transparent and accountable, contributing to a culture that makes explicit the commercial and other interests of those developing and advocating for digital technologies. 

건강 옹호자로서 의사는 환자 및 취약 계층과 협력하여 로봇 간병인과 같은 전문가 시스템의 사용이 권한이 부여된 선택인지 아니면 더 광범위한 사회경제적 접근 문제와 관련이 있는지를 확인할 수 있습니다. 이러한 환경에서 보다 다양한 팀을 옹호함으로써 교육과 임상 실습을 개선해야 하며, 이러한 팀은 AI 솔루션이 더 큰 시스템적 문제를 가리는 사례를 더 잘 식별할 수 있기 때문입니다.  
As a health advocate, physicians can work with patients and disadvantaged groups to establish whether the use of expert systems—such as robot carers—is an empowered choice or rather related to broader socioeconomic access problems. They ought to improve education and clinical practice by advocating for more diverse teams in those settings, as these are better able to identify instances in which AI solutions mask larger systemic problems. 

학자로서 의사는 디지털 리터러시 향상과 AI, 수학적 모델링, 의사 결정 이론 등에 대한 지속적인 학습을 통해 이점을 얻을 수 있습니다. 이는 데이터의 편향성에 대한 인식, 그리고 이러한 편향성이 AI 모델이 객관적이고 중립적인 결과를 도출할 수 있다는 주장을 어떻게 약화시키는지에 대한 인식과 관련이 있습니다. 의사는 질병의 주관적인 측면을 포함하여 다양한 현실과 지식의 종류를 더 잘 이해하기 위해 환자 학자들의 연구를 활용해야 합니다.  
As a scholar, physicians will benefit from improved digital literacy and continuous learning about AI, mathematical modelling, decision theory, and so on. This is linked to an awareness of biases in data, and how these undermine any claims about how AI models are able to produce objective, neutral results. They should draw on the work of patient scholars to understand better different realities and kinds of knowledge, including the subjective aspect of illness. 

전문직으로서 의사는 공학, 데이터 및 정보 과학의 도구를 자신의 기술에 통합해야 하는 직업 정체성의 근본적인 변화를 받아들여야 합니다. 한편, 의사는 e헬스 진료가 환자에게 도움이 되는지 여부에 대한 최종 결정권은 환자에게 있으며, 의사는 환자의 결정을 지원하는 데 필요한 지침과 조언을 제공할 책임이 있다는 점도 인정해야 합니다. 
As a professional, physicians should accept a fundamental change in professional identity which requires them to incorporate tools from engineering, data, and information sciences into their skill sets. Meanwhile, physicians should also acknowledge that patients have the final say in whether an eHealth practice benefits them, whereas physicians have a responsibility to provide the necessary guidance and advice to support patients' decisions. 

의료 전문가로서 의사는 환자와 협력하여 통합 지식의 중요성, 즉 함께 속한 것, 사회적 관계, 질병이 환자의 삶과 어떻게 관련되어 있는지에 대한 (기계가 접근할 수 없는) 지식을 창출하고 해석할 수 있어야 합니다.10 
As medical experts, physicians must be able to work together with patients to create and translate the importance of integrated knowledge, that is knowledge of what belongs together, social relationships, and how illness relates to a patient's life, something that is inaccessible to machines.10 

AI 의료 기술의 급증으로 가장 큰 혜택을 받는 것은 환자임을 확인하는 것은 앞으로 몇 년 동안 핵심 과제로 남을 것이며, 의사의 디지털 리터러시를 개선하고 환자의 관점을 더 잘 통합하는 의학교육의 새로운 접근 방식이 중요해질 것입니다. AI 기반 혁신에는 일반적으로 느리고 점진적으로 임상 진료에 대한 근거 기반의 표준을 생성하는 기존 모델을 뛰어넘는 것이 포함되기 때문에 이러한 접근 방식이 더욱 필요합니다. 즉, 환자의 희망사항은 AI 기술이 환자의 건강과 웰빙에 어떻게 기여할지 예측하는 데 중요한 척도가 됩니다. 
Making sure that it is patients who benefit the most from the surge of AI health technology will remain a key challenge in years to come, and new approaches in medical education that improve the digital literacy of physicians and better integrate patients' views will be crucial. This is all the more necessary since AI-driven transformations involve going beyond previously accepted models of the usually slow and gradual process of generating evidence-based gold standards for clinical practice. In turn, this means that patients' wishes are a crucial measure for anticipating how AI technologies contribute to their health and well-being. 


Lancet Digit Health. 2020 Mar;2(3):e111-e112. doi: 10.1016/S2589-7500(20)30023-6.

 

 

Implications of artificial intelligence for medical education

Affiliations collapse

1McGill University, Institute for Health and Social Policy & Department of Philosophy, Montreal, Quebec H3A 1A3, Canada. Electronic address: vanessa.rampton@mcgill.ca.

2American Living Organ Donor Fund, Philadelphia, PA 19103, USA.

3Institute for Translational Medicine, ETH Zurich, Switzerland.

PMID: 33328081

DOI: 10.1016/S2589-7500(20)30023-6

 

 

의학교육은 정보시대에서 인공지능시대로 옮겨가야 한다(Acad Med, 2018)
Medical Education Must Move From the Information Age to the Age of Artificial Intelligence
Steven A. Wartman, MD, PhD, and C. Donald Combs, PhD

 

 

윌리엄 오슬러는 의학은 불확실성의 과학이자 확률의 예술이라고 말한 것으로 알려져 있습니다. 하지만 오늘날 이 오랜 관점은 도전받지는 않더라도 개선되고 있습니다. 의료계의 변화하는 모습과 의사들이 현대 의료 현장에 보다 효과적으로 진입할 수 있도록 하는 의학교육 개혁은 백서와 뉴스 기사에서 자주 등장하는 주제입니다. 일반적인 개혁 주제에는 커뮤니케이션, 팀워크, 위험 관리 및 환자 안전에 대한 새로운 강조가 포함됩니다. 이러한 개혁은 중요하지만 충분하지 않다고 생각합니다. 가장 근본적인 변화, 즉 정보화 시대에서 인공지능 시대로 빠르게 전환되고 있는 의료계의 현실을 해결하는 데 더 많은 관심을 기울여야 합니다. 이러한 변화의 결과는 심대하며 학부 의학교육 프로그램의 개혁을 요구합니다. 이러한 개편의 기본 원칙은 학생들이 "정보"와 "인공 지능"의 차이를 이해하고 관리해야 한다는 것입니다. 
William Osler is reported to have said that medicine is a science of uncertainty and an art of probability. Yet today, this time-honored perspective is being refined, if not challenged. The changing state of the medical profession and the medical education reforms that will enable physicians to more effectively enter contemporary practice are frequent topics of white papers and news stories. Common reform themes include a renewed emphasis on communication, teamwork, risk management, and patient safety. We believe that these reforms are important but insufficient. More attention needs to be given to addressing the most fundamental change of all—the practice of medicine is rapidly transitioning from the information age to the age of artificial intelligence. The consequences of this transition are profound and demand the reformulation of undergraduate medical education programs. A fundamental principle of this reformulation is that students must understand and manage the difference between “information” and “artificial intelligence.”

정보 대 인공 지능
Information Versus Artificial Intelligence

정보 시대(대략 1970년대부터 2010년대 기계 학습 도구가 등장하기 전까지)에는 정확하고 시의적절하며, 목적에 맞게 구체적이고 체계적으로 정리되고, 의미와 관련성을 부여하는 맥락 내에서 제시된 데이터를 사용하여 이해도를 높이고 불확실성을 줄이는 것이 특징이었습니다.1 이 시기 의사의 주요 과제는 [유효성을 판단]하고, [사용 가능한 정보를 효과적으로 사용하는 방법을 찾는 것]이었습니다. 
The information age (roughly from the 1970s to the emergence of machine learning tools during the 2010s) featured the use of data that were accurate and timely, specific and organized for a purpose, and presented within a context that gave them meaning and relevance, as well as led to an increase in understanding and decrease in uncertainty.1 The primary challenges for physicians during this time were determining validity and how to effectively use the available information.

인공 지능(또는 컴퓨터가 인간의 인지를 모방하는 것)은 한때 미래적인 비전으로만 여겨졌습니다. 이제 컴퓨터나 컴퓨터로 제어되는 로봇이 지능적인 존재와 관련된 작업을 수행하는 능력은 널리 받아들여지고 있습니다. 더 중요한 것은 "인공 지능"이라는 용어가 [추론, 의미 발견, 일반화 및 경험으로부터 학습하는 능력]과 같은 인간의 특징적인 지적 과정을 부여받은 시스템의 개발에 적용된다는 점입니다.2 인공 지능의 응용 프로그램을 사용한 데이터 조작은 의학교육에 중요한 영향을 미칩니다. 암기 위주의 현행 커리큘럼은 점점 더 다양한 출처의 정보를 효과적으로 통합하고 활용할 수 있는 역량을 가르치는 커리큘럼으로 전환해야 합니다.
Artificial intelligence—or the mimicking of human cognition by computers—was once only a futuristic vision. Now, the ability of a computer or a computer-controlled robot to perform tasks commonly associated with intelligent beings is widely accepted. More important, the term “artificial intelligence” applies to the development of systems that are endowed with the intellectual processes characteristic of humans, such as the ability to reason, discover meaning, generalize, and/or learn from experience.2 The manipulation of data using applications of artificial intelligence has significant implications for medical education. The current, largely memorization-based curriculum must transition to one that teaches competence in the effective integration and utilization of information from a growing array of sources.

예를 들어, 인체 안팎에서 사용 가능한 센서의 수와 유형이 기하급수적으로 증가하고 개인 및 조직 정보 인프라에 연결되는 것을 관리하는 것은 인공지능 시대에 떠오르는 과제 중 하나에 불과합니다. 의사와 환자 모두가 이용할 수 있는 대규모 데이터 모음, 점점 더 정교해지는 머신러닝(예: 왓슨 및 알파고) 사용, 의사와 환자 간의 지식 격차 축소 등 빅 데이터 사용의 의미는 현재의 의료 교육 모델에도 상당한 도전 과제를 안겨주고 있습니다. 의사가 신뢰할 수 있는 인공지능 기반의 의사결정 지원 소프트웨어를 사용하든, (병원, 환자 가정 또는 인체 내에) 배치된 로봇을 관리하든, 의사는 이 새로운 패러다임에 대한 교육을 받아야 할 것입니다. 
For example, managing the exponential growth in the number and type of available sensors, both within and outside the human body, and their connectivity to personal and organizational information infrastructures, is just one of the challenges emerging in the age of artificial intelligence. The implications of using big data, including large compilations of data that are available to both physicians and their patients, increasingly sophisticated uses of machine learning (e.g., Watson and Alpha Go), and the narrowing of the knowledge differential between physicians and patients, also pose substantial challenges to the current medical education model. Whether physicians use decision support software based on reliable artificial intelligence or manage robots deployed in hospitals, patients’ homes, or within the human body, they will need to be educated in this new paradigm.

20세기에 주로 집중된 의학교육 개혁
Medical Education Reform Has Largely Focused on the 20th Century

재단과 정부 기관이 자금을 지원하는 국가 보고서의 연구 결과를 바탕으로 의학교육을 개혁하려는 노력은 1910년 아브라함 플렉스너의 보고서 이후 일상화되어 몇 년마다 발표되고 있습니다. 미국의사협회는 2000년부터 2015년까지 의학교육 개혁을 촉구하는 국가 보고서가 15건 발표되었다고 언급했습니다.3 이러한 개혁안은 만성 질환 관리 및 진료 조정, 시스템 기반 진료, 진료 기반 개선, 효과적인 커뮤니케이션 등 이전에 확인된 개혁 분야와 많은 부분이 일치합니다. 전통, 인증 문제, 변화에 대한 교수진의 저항, 학생들이 국가 시험에서 좋은 성적을 거둘 수 있도록 준비시켜야 할 필요성 등이 일반적으로 필요한 개혁을 방해하는 주요 요인으로 간주됩니다. 미국의학협회의 수잔 스코첼락은 다음과 같이 주장합니다:

  • "[이러한 개혁에서] 빠진 것은 의료 서비스 전달의 과학입니다. 만성 질환을 어떻게 관리할까요? 예방과 건강에 어떻게 집중하나요? 어떻게 팀으로 일할 것인가?"3 

Efforts to reform medical education, largely based on the findings in national reports funded by foundations and government agencies, have become routine and have been rolled out every few years since Abraham Flexner’s 1910 report. The American Medical Association noted that from 2000 to 2015 there were 15 national reports calling for medical education reform.3 These proposed reforms paralleled many of the previously identified areas for reform, including the management of chronic conditions and care coordination, systems-based practice, practice-based improvement, and effective communication. Tradition, accreditation concerns, faculty resistance to change, and the need to prepare students to perform well on national board exams are generally considered the major factors impeding needed reform. Susan Skochelak of the American Medical Association argued:

  • “What’s been missing [from these reforms] is the science of health-care delivery. How do you manage chronic disease? How do you focus on prevention and wellness? How do you work in a team?”3

2016년 강연에서 워트먼은 의학교육의 "재부팅"을 주장하면서 현재 확인된 많은 개혁이 21세기 의학교육에 필요하지만 충분하지 않다고 지적했습니다.4 그는 또한 의학교육 개혁의 실적을 보면 의미 있는 변화를 받아들이는 데 더딘 산업을 묘사한다고 지적했습니다. 21세기형 의료 기술을 습득하기 위해서는 의학교육의 보다 근본적인 변화가 필요하다고 생각합니다. "한 번 보고, 한 번 하고, 한 번 가르친다"는 격언이 과거 의사의 임상 술기 학습 방식을 특징지었을지 모르지만, 이제 교육이 효과적이려면 모든 수준의 학습자가 자신의 성과를 표준과 비교하고 역량을 갖출 때까지 계속 연습할 기회를 가져야 한다는 것이 분명해졌습니다.5 의료의 질 저하와 지속 불가능한 비용 증가로 고민하는 리더, 외부 이해관계자, 대중의 압박으로, 의사들은 학습 목표를 보다 나은 치료 제공 및 책무성 강화 조치와 더욱 긴밀하게 연계하는 이니셔티브를 설계하는 데 더 엄격한 과제에 직면해 있습니다.6
In a 2016 lecture, Wartman advocated a “reboot” of medical education, noting that many of the current reforms that have been identified are necessary but not sufficient for 21st-century medical education.4 He also noted that the track record of medical education reform depicts an industry that is slow to adopt meaningful change. The acquisition of 21st-century skills for medical practice requires, in our opinion, a more radical transformation of medical education. Although the dictum “see one, do one, teach one” may have characterized the way physicians learned clinical skills in the past, it is now clear that, for training to be effective, learners at all levels must have the opportunity to compare their performance against a standard and to continue to practice until competence is achieved.5 Pressed by their leaders, external stakeholders, and a public troubled by lapses in quality of care and unsustainable cost increases, physicians are facing stiffer challenges in designing initiatives that more closely link the goals of learning with both the delivery of better care and measures of greater accountability.6

고용주들은 학부, 대학원 및 평생 의학 교육을 더욱 긴밀하게 통합해야 한다는 설득력 있는 주장을 펼치고 있습니다. 이들은 면허를 취득한 후 다른 의료 팀원들과 함께 일하고, 의료 전문직과 치료 연속체를 아우르는 지식을 갖추고, 스마트폰, 소셜 미디어 및 기타 장치를 사용하여 데이터 플랫폼을 활용하고, 고객 서비스를 포함한 결과 분석과 성과 개선에 집중하는 의사를 필요로 합니다.7 
Employers are making a compelling case for a tighter integration of undergraduate, graduate, and continuing medical education. They need physicians who work at the top of their license with other members of the health care team; have knowledge that spans the breadth of the health professions and care continuum; leverage data platforms by using smartphones, social media, and other devices; and focus on analyzing outcomes and improving performance, including customer service.7

의학교육의 의미 있는 변화에 대해 아브라함 플렉스너만큼 큰 소리로 환호하는 사람은 없을 것입니다. 변화에 대한 유연성과 자유, 그리고 변화의 의무는 그의 메시지의 일부였습니다. 그는 의심할 여지없이 오늘날 필요한 의학교육의 근본적인 구조조정을 지지할 것입니다. 그렇다면 문제는 다음과 같습니다:

  • 20세기의 지배적인 모델에서 21세기의 새로운 과제, 특히 빅데이터와 인공 지능의 전문 진료 분야 적용 증가에 대응할 수 있는 의학교육으로 어떻게 개혁할 수 있을까요? 

No one would cheer more loudly for meaningful change in medical education than Abraham Flexner. The flexibility and freedom to change—indeed, the mandate to do so—were part of his message. He would undoubtedly support the fundamental restructuring of medical education that is needed today. So, the question becomes:

  • How do we reform medical education from the dominant 20th-century model into one that can address the emerging challenges of the 21st century, especially the increasing application of big data and artificial intelligence in professional practice?

21세기를 위한 의학교육 리부트
A Medical Education Reboot for the 21st Century

우리는 의학교육 재부팅의 토대는 미래의 의료 행위가 [의사, 다른 의료 전문가, 기계(소프트웨어와 하드웨어 모두 포함), 환자] 간의 명백한 파트너십이 될 것이라는 공동체의 인식에 있다고 믿습니다. 미래의 의료 행위는 의사의 기본 규칙을 변화시키는 네 가지 특징을 갖게 될 것입니다.
We believe that the foundation for a medical education reboot lies in the community’s recognition that future medical practice will be an explicit partnership among physicians, other health care professionals, machines (which includes both software and hardware), and patients. Future medical practice will have four characteristics that change the ground rules for physicians.

첫째, 다양한 장소에서 진료가 제공될 것입니다. 기술은 환자와 함께, 그리고 환자 내부로 이동하며 지속적인 데이터 흐름을 제공할 것입니다. 대용량 데이터 저장 및 처리 인프라에 실시간으로 더 쉽게 액세스할 수 있게 될 것입니다. 환자, 보험사, 규제 당국은 편의성과 입증 가능한 결과를 요구할 것입니다.
First, care will be provided in many locations. Technology will move with and inside patients, providing a continuous flow of data. Large data storing and processing infrastructures will become more readily accessible in real time. Patients, insurers, and regulators will insist on convenience and demonstrable results.

둘째, 의료 서비스는 새롭게 구성된 의료팀에 의해 제공될 것입니다. [신성하게 여겨져왔던 일대일 의사-환자 관계]는 환자와 여러 의료 제공자(예: 간호사, 사회복지사, 물리 및 작업 치료사, 케어 매니저, 가정 건강 보조원, 사회적 지원 그룹, 가족, 아직 정의되지 않은 새로운 종류의 의료 제공자)와의 관계로 대체될 것이며, 환자의 거주지와는 무관하게 이루어집니다. 의사나 팀 리더 역할을 하는 다른 사람들은 팀 치료에서 최대한의 가치를 얻는 방법을 배워야 합니다. 이를 위해서는 새로운 진료 방식에 맞춰 팀원들의 진료 범위를 신중하게 재설계해야 할 것입니다. 그 결과 현재의 면허 제약에 대한 도전과 수정이 이루어질 것으로 예상됩니다.
Second, care will be provided by newly constituted health care teams. The sacrosanct one-to-one doctor–patient relationship will be replaced by patient relationships with multiple health providers (e.g., nurses, social workers, physical and occupational therapists, care managers, home health aides, social support groups, family members, and new kinds of health care providers yet to be defined, without regard to where patients live). Physicians or others who serve as team leaders will need to learn how to gain the most value from team care. Such practice will necessitate the careful redesign of the scopes of practice of team members to align with new practice modalities. As a result, we believe that current licensure constraints will be challenged and modified.

셋째, 다양한 출처의 데이터, 접근 가능한 대규모 데이터 세트, 인공 지능을 기반으로 진료가 제공될 것입니다. 방대한 메타 데이터 세트에 대한 기계 기반 분석의 통합이 환자 치료의 표준이 되어 각 환자를 지속적으로 모니터링할 수 있게 될 것입니다. 데이터를 관리하고 방대한 양의 정보에 대한 유효한 평가를 제공하기 위해 새로운 해석 및 기능적 진료 인프라가 시간이 지남에 따라 개발될 것입니다. 의사는 환자와 그 가족, 기계, 점점 더 다양해지는 의료 전문가들의 복잡한 교차점 속에서 의사결정이 이루어지는 환경에서 진료를 하게 될 것입니다.
Third, care will be delivered based on a growing array of data from multiple sources, accessible large data sets, and artificial intelligence. The incorporation of machine-based analysis of huge meta-data sets will become standard for patient care, leading to continuous monitoring of each patient. A new interpretive and functional practice infrastructure will be developed over time both to manage the data and to provide valid assessments of the expanding volume of information. Physicians will practice in an environment where decision making takes place within the complex intersection of patients and their families, machines, and an expanding variety of health professionals.

넷째, 마지막으로 의학과 기계 간의 인터페이스를 능숙하게 관리해야 할 것입니다. 기계는 많은 분야에서 더 많은 것을 알게 되고 전통적으로 의사가 수행하던 더 많은 작업을 수행할 수 있게 될 것입니다. 따라서 돌봄제공자는 기계가 점점 더 인지적, 육체적으로 인간을 능가할 것이라는 사실을 받아들여야 합니다.
Fourth, and finally, the interface between medicine and machines will need to be skillfully managed. Machines will know more in many areas and be able to perform more tasks that traditionally have been performed by physicians. Thus, caregivers will need to come to terms with the fact that devices increasingly will outperform humans, both cognitively and physically.

미래 실무에 필요한 기술
Necessary Skills for Future Practice

인지 심리학의 연구 결과를 더 잘 활용하고, 교육에서 인간과 기계를 더 긴밀하게 연계하며, 치료 전달에 기계를 통합하고 환자를 치료의 적극적인 협력자로 보는 데 초점을 맞춘 시뮬레이션을 강화하는 등 인공지능 시대로 이동함에 따라 새로운 기술과 전문성이 요구될 것입니다.
New skills and expertise will be required as we move to an age of artificial intelligence, including better use of the findings of cognitive psychology, closer alignment of humans and machines in education, and enhanced use of simulations focused on the integration of machines in care delivery and on patients as active collaborators in their care.

인지 심리학은 사실과 개념이 사용될 맥락에서 가르치고, 연습하고, 평가할 때 가장 잘 기억되고 활용된다는 사실을 입증했습니다. 임상 전문 지식에 대한 수십 년간의 연구를 통해 징후와 증상을 평가하고, 진단 검사를 선택 및 해석하고, 데이터를 종합하여 임상 평가 및 치료 계획을 개발하는 의사의 사고가 밝혀졌습니다.8 한 관찰자는 "기술이 변화하고 데이터 안개가 짙어짐에 따라 교육 표준을 새로 고치고, 개선하고, 개선해야 합니다."9 
Cognitive psychology has demonstrated that facts and concepts are best recalled and put into service when they are taught, practiced, and assessed in the context in which they will be used. Several decades of research on clinical expertise have elucidated the thinking of physicians as they evaluate signs and symptoms, select and interpret diagnostic tests, and synthesize data to develop clinical assessments and care plans.8 As noted by one observer, “Educational standards need to be refreshed, refined and improved as technology changes and the data fog thickens.”9

생물의학에 대한 근본적인 이해와 임상 지식 및 실무 전문 지식과의 상호 연결성이 의학교육의 중심이 되어야 한다는 데에는 이견이 없습니다. 그러나 21세기 커리큘럼에는 인공지능이 지원하는 풍부한 데이터 환경에서 의사가 보다 정밀하게 진료할 수 있는 역량을 강화하는 요소도 포함되어야 합니다. 한 가지 예로, 학습자는 의사 결정의 맥락에서 빅 데이터에 노출되어야 합니다. 학습자는 빅데이터의 네 가지 V에 대한 확실한 이해를 키워야 합니다.

  • 볼륨(과거의 데이터 양에 비해 오늘날의 데이터 양은 방대함),
  • 다양성(데이터는 다양한 유효성을 가진 다양한 소스에서 제공됨),
  • 속도(데이터는 매우 빠르게 생성되고 있으며 그 속도가 증가하고 있음),
  • 진실성(생성되는 데이터의 품질을 평가해야 함)

There is no disagreement that a fundamental understanding of the biomedical sciences and their interconnectedness with clinical knowledge and expertise in practice should remain central to medical education. However, the 21st-century curriculum also should include components to strengthen physicians’ capacity to practice with more precision in a data-rich environment supported by artificial intelligence. As one example, learners must be exposed to big data in the context of decision making. They must develop a solid understanding of the four Vs of big data:

  • volume (the amount of data today is vast compared with the amount in the past);
  • variety (data come from many different sources of varying validity);
  • velocity (data are being generated very fast, and momentum is increasing); and
  • veracity (the quality of the data being generated needs to be assessed).

또한 학습자는 인공 지능 애플리케이션을 통해 의료 서비스 제공에서 데이터가 어떻게 집계, 분석되고 궁극적으로 개인화되는지에 대한 기본적인 이해를 개발해야 합니다. 또한 의사 결정 지원 소프트웨어, 로봇 또는 보다 정교한 소셜 미디어 애플리케이션에 구현된 다양한 애플리케이션을 관리하는 방법에 대해 폭넓게 생각할 수 있어야 합니다. 양과 벨트리10는 "가장 중요한 과제는 의료 데이터를 정밀 의학, 예방 의학, 예측 모델링을 위한 부가 가치로 변환하는 방법입니다."라고 지적했습니다. 
Learners also will need to develop a basic understanding of how data are being aggregated, analyzed, and ultimately personalized in health care delivery through artificial intelligence applications. They will need to be able to think broadly about how to manage the variety of applications, whether embodied in decision support software, robots, or more sophisticated social media applications. As Yang and Veltri10 noted, “The most critical challenge is how we can transform the health care data into additional values for precision medicine, preventive medicine, and predictive modeling.”

결론
Conclusion

의대생들이 인공지능 애플리케이션으로 변화된 의료 환경에서 성공적으로 실습할 수 있도록 가르치는 방법은 오늘날 커리큘럼 개혁의 중심이 되어야 합니다. 이를 위해서는 인증 기관의 전폭적인 지원이 필요합니다.

  • 혁신과 실험에 기꺼이 개방적이고, 
  • 학생들의 미래 진료와 무관한 사실 기반 암기와 임상 실습에 중점을 두는 기존 모델을 훨씬 뛰어넘을 수 있도록

미래의 의대 졸업생들이 면허를 취득하고 가치 기반 재정 시스템에 적응하려면 새로운 방식의 평생 교육에 참여해야 합니다. 이들은 다음을 강화해야 할 것입니다.

  • 진료 연속체 전반에 걸쳐 의료 전문가의 역량에 대한 확실한 이해를 통합
  • 전문 진료에서 팀워크를 강화
  • 정보 플랫폼 및 인텔리전스 도구에 대한 편안한 지식을 보유
  • 고객 서비스 기술을 강화
  • 성과와 결과를 개선하기 위해 정보 및 인텔리전스의 효과적인 사용

이러한 전문적 특성의 토대는 학부 의학교육 커리큘럼에 포함되어야 합니다.
How to teach medical students to practice successfully in a health care environment transformed by artificial intelligence applications should be a central focus of curricular reform today. It requires the whole-hearted support of accreditors who are

  • willing to be more open to innovation and experimentation and
  • able to move far beyond the old model with its emphasis on fact-based memorization and clinical clerkships that are often unrelated to students’ future practice.

Future medical school graduates will need to participate in new modalities of lifelong education if they are to perform at the top of their license and adapt to a value-based financing system. They will need to

  • incorporate a solid understanding of the capabilities of health professionals across the care continuum,
  • enhance teamwork in their professional practice,
  • possess a comfortable knowledge of information platforms and intelligence tools,
  • strengthen their customer service skills, and
  • reinforce the effective use of information and intelligence to improve performance and outcomes.

The foundation for these professional attributes must be embedded in undergraduate medical education curricula.

또한 커리큘럼 전반에 걸쳐 두 가지 추가 기술(새로운 기술, 기존 기술)을 강조하고 전달해야 합니다. 

  • 첫 번째는 의사가 데이터 플랫폼에서 생성된 확률의 의를 인간 특유의 복잡성에 직면한 환자에게 전달할 수 있는 능력을 향상시키는 통계적 전문 지식을 습득하는 것입니다.
  • 두 번째는 진정으로 자비로운 의료인이 되기 위한 지속적인 교육과 평가이며, 이는 의학이 점점 더 첨단화되는 상황에서 간과해서는 안 되는 부분입니다.

Two additional skills, one new, one old, also must be emphasized and carried throughout the curriculum.

  • The first is the mastering of statistical expertise that enhances the ability of the physician to communicate the meaning of the probabilities generated by data platforms to patients in the face of their uniquely human complexity.
  • The second involves constant training and evaluation toward being a truly compassionate provider, something that must not be overlooked as medicine becomes increasingly high tech.

즉, 의학교육은 기초적인 생의학 및 임상 과학을 넘어 새로운 진단 및 치료 트렌드에 대한 최신 정보를 제공해야 합니다. 다양한 의료 전문가들 간의 전문적 노력의 조직화, 기계 학습 및 로봇과 같은 정보 및 인텔리전스 도구의 사용, 성과 및 결과 개선에 대한 끊임없는 집중, 환자와의 자비로운 소통의 숙달을 보장하는 체계적인 커리큘럼으로 발전해야 합니다.
In other words, medical education will need to move beyond the foundational biomedical and clinical sciences and updates on emerging diagnostic and therapeutic trends. It will need to evolve to include systematic curricular attention to the organization of professional effort among a variety of health professionals, the use of information and intelligence tools such as machine learning and robots, a relentless focus on improving performance and outcomes, and ensuring the mastery of compassionate communication with patients.


 

Acad Med. 2018 Aug;93(8):1107-1109. doi: 10.1097/ACM.0000000000002044.

Medical Education Must Move From the Information Age to the Age of Artificial Intelligence

1S.A. Wartman is president and CEO, Association of Academic Health Centers, Washington, DC. C.D. Combs is vice president and dean, School of Health Professions, Eastern Virginia Medical School, Norfolk, Virginia.

PMID: 29095704

DOI: 10.1097/ACM.0000000000002044

Abstract

Noteworthy changes coming to the practice of medicine require significant medical education reforms. While proposals for such reforms abound, they are insufficient because they do not adequately address the most fundamental change-the practice of medicine is rapidly transitioning from the information age to the age of artificial intelligence. Increasingly, future medical practice will be characterized by: the delivery of care wherever the patient happens to be; the provision of care by newly constituted health care teams; the use of a growing array of data from multiple sources and artificial intelligence applications; and the skillful management of the interface between medicine and machines. To be effective in this environment, physicians must work at the top of their license, have knowledge spanning the health professions and care continuum, effectively leverage data platforms, focus on analyzing outcomes and improving performance, and communicate the meaning of the probabilities generated by massive amounts of data to patients, given their unique human complexities. The authors believe that a "reboot" of medical education is required that makes better use of the findings of cognitive psychology and pays more attention to the alignment of humans and machines in education and practice. Medical education needs to move beyond the foundational biomedical and clinical sciences. Systematic curricular attention must focus on the organization of professional effort among health professionals, the use of intelligence tools involving large data sets, and machine learning and robots, all the while assuring the mastery of compassionate care.

가능성과 불가피성: AI-관련 임상역량의 격차와 그것을 채울 필요성(Med Sci Educ. 2021)
The Potential and the Imperative: the Gap in AI‑Related Clinical Competencies and the Need to Close It
Kim V. Garvey1 · Kelly Jean Thomas Craig2 · Regina G. Russell3 · Laurie Novak4 · Don Moore5 · Anita M. Preininger6 · Gretchen P. Jackson2,6 · Bonnie M. Miller7 

 

 

우리 삶에서 인공지능(AI)의 존재감이 커지면서 인간 상호 작용과 능력에 대한 이해가 활발히 변화하고 있습니다. AI가 강화된 디바이스의 도움으로 생활하고 일하는 방식은 우리가 세상을 경험하는 방식, 환경을 처리하고 상품을 소비하는 방식, 심지어 국가가 국가 안보 프로토콜과 지정학적 경계를 설정하는 방식까지 바꾸고 있습니다[1, 2].  
The growing presence of artificial intelligence (AI) in our lives is actively transforming our understanding of human interaction and capability. Living and working with the aid of AI-enhanced devices are altering the way we experience our worlds, the way we process environments and consume goods, and even the way countries establish their national security protocols and geo-political boundaries [1, 2]. 

의료 분야에서는 전문가마다 AI를 구성하는 요소에 대해 의견이 다를 수 있습니다. 명확하게 하기 위해 우리는 AI를 의료진과 환자의 임상적 결정, 행동, 환경을 보강하기 위한 기술로 정의합니다. 이러한 기술은 예측 분석, 머신 러닝(ML), 자연어 처리(NLP) 등의 계산 수단을 통해 구현되며, 전자 의료 기록, 로봇과 같은 신기술 또는 개인 디바이스에서 구현될 수 있습니다. 예를 들면 위험 점수, 챗봇, 이미지 분석 등이 있습니다.  
Within healthcare, experts may differ as to what constitutes AI. For purposes of clarity, we define AI as technologies that are intended to augment the clinical decisions, actions, and environments of healthcare workers and patients. These technologies are enabled by computational means such as predictive analytics, machine learning (ML), and natural language processing (NLP), and could be implemented in electronic health records, in new technologies such as robots, or in personal devices. Examples include risk scoring, chatbots, and image analysis. 

특정 형태의 의료 AI는 수십 년 동안 사용되어 왔으며, 전문가 시스템 및 임상 의사 결정 지원 도구와 같은 애플리케이션은 1970년대 초에 개발되었습니다. [3, 4] 최근에는 정보 및 컴퓨팅 기술의 발전과 함께 대규모 데이터 및 컴퓨팅 리소스에 대한 액세스가 가능해지면서 혁신적인 잠재력을 지닌 강력한 세대의 AI를 개발할 수 있게 되었습니다. 토폴은 포괄적인 리뷰를 통해 이러한 차세대 AI 도구가 다양한 전문 분야에 걸쳐 환자, 의료 시스템, 임상의에게 어떤 영향을 미칠지 개괄적으로 설명했습니다[5]. 요컨대, 임상의는 자동화 및 로봇공학의 증가, ML 및 NLP에 대한 의존도 증가, 의료 IT 시스템, 개별 환자 및 인구집단에서 도출된 AI 인사이트의 통합을 포함하는 미래를 예상해야 합니다.  
Certain forms of healthcare AI have been employed for decades; applications such as expert systems and clinical decision support tools were developed as early as the 1970s. [3, 4] More recently, advances in information and computing technologies, together with access to large-scale data and computational resources, have enabled the development of a powerful generation of AI forms with transformative potential. In his comprehensive review, Topol outlined the ways in which this new generation of AI tools will impact patients, health systems, and clinicians across a range of specialties [5]. In short, clinicians should anticipate a future that includes an increased presence of automation and robotics, more reliance on ML and NLP, and incorporation of AI-derived insights from health IT systems, individual patients, and populations. 

잠재력, 의무, 그리고 격차
The Potential, the Imperative, and the Gap

의료 실무에서 AI 사용이 증가함에 따라 교육자, 의료 시스템 및 전문 조직은

  • (1) 안전하고 환자 중심적인 사용에 필요한 역량 범위를 정의하고
  • (2) 교육 연속체의 모든 단계에서 학습자를 위한 커리큘럼에 이러한 역량을 신중하게 통합해야 할 의무가 생겼습니다. 

The increasing use of AI in healthcare practice creates an imperative for educators, health systems, and professional organizations to

  • (1) define the range of competencies needed for safe and patient-centered use and
  • (2) thoughtfully integrate these into curricula for learners across all phases of the educational continuum.

이미 많은 저자들이 의료 전문직 학습자에게 AI 기반 세계에서 실습에 대해 교육하기 위한 구조화된 접근 방식을 요구했습니다[6,7,8,9,10,11].

  • 체계적 문헌고찰에서 Sapci와 Sapci는 의학교육자들이 AI 기술의 교육적 함의를 비판적으로 검토하기 시작했음을 보여주었습니다[9].
  • Paranjape는 의료 전문직 학습자를 위해 시행된 다양한 이니셔티브를 설명하고 의학교육 연속체 전반에 걸쳐 프로그램에 포함되어야 하는 주제에 대한 권장 사항을 제시했습니다[12].
  • James와 다른 사람들은 조정된 학습 접근법의 부재에 대한 우려를 공유하며 근거 기반 의학 커리큘럼을 모방할 모델로 사용할 것을 제안했습니다[13].
  • 또한 윌저는 조직 리더가 이러한 신기술의 가능성과 위험성을 완전히 이해하고 새로운 평가 및 감독 역량을 개발하여 기술을 현명하게 도입하고 신중하게 모니터링할 수 있도록 해야 한다고 강조했습니다[14]. 

Numerous authors have already called for a structured approach to educating health professions learners about practicing in an AI-powered world [6,7,8,9,10,11]. In their systematic review, Sapci and Sapci showed that medical educators have begun to critically examine the educational implications of AI technologies [9]. Paranjape described a variety of initiatives that have been implemented for health professions learners and offered recommendations for topics that should be included in programs across the medical education continuum [12]. James and others shared concerns about the lack of coordinated learning approaches and suggested using evidence-based medicine curricula as a model to emulate [13]. In addition, Wiljer emphasized the need for organizational leaders to fully understand both the promise and the peril of these emerging technologies and to develop new evaluative and oversight capabilities so that technologies can be wisely introduced and carefully monitored [14].

6. Hodges BD. Ones and zeros: medical education and theory in the age of intelligent machines. Med Educ. 2020;54(8):691–3. https:// doi. org/ 10. 1111/ medu. 14149. 
7. Masters K. Artificial intelligence in medical education. Med Teach. 2019;41(9):976–80. https:// doi. org/ 10. 1080/ 01421 59X. 2019. 15955 57.
8. Wartman S, Combs D. Medical Education must move from the information age to the age of artificial intelligence Acad Med 2018;93(8):1107-1109. https:// doi. org/ 10. 1097/ ACM. 00000 00000 002044
9. Sapci AH, Sapci HA. Artificial intelligence education and tools for medical and health informatics students: systematic review. JMIR Med Educ. 30 Jun 2020;6(1):e19285. https:// doi. org/ 10. 2196/ 19285
10. Alrassi J, Katsufrakis PJ, Chandran L. Technology can augment, but not replace, critical human skills needed for patient care. Acad Med. 2021;96(1):37–43. https:// doi. org/ 10. 1097/ ACM. 00000 00000 003733.
11. Harish V, Morgado F, Stern AD, Das S. Artificial intelligence and clinical decision making: the new nature of medical uncertainty. Acad Med. 2021;96(1):31–6. https:// doi. org/ 10. 1097/ ACM. 00000 00000 003707.
12. Paranjape K, Schinkel M, Nannan Panday R, Car J, Nanayakkara P. Introducing artificial intelligence training in medical education. JMIR Med Educ. 3 Dec 2019;5(2):e16048. https://d oi. org/10. 2196/ 16048
13. James CA, Wheelock KM, Woolliscroft JO. Machine learning: the next paradigm shift in medical education. Acad Med. 2021;96(7):954–7. https:// doi. org/ 10. 1097/ ACM. 00000 00000 003943.

사고 리더들에게는 분명 시급하지만, 실제 실무 환경에서는 체계적인 학습 접근법의 필요성이 쉽게 드러나지 않을 수 있는데, 이는 부분적으로는 우리 생활에 스마트 기기가 어디에나 존재하고 이러한 시스템이 어떻게 작동하는지에 대한 이해가 거의 없음에도 불구하고 이러한 시스템에 참여하는 위험한 경향이 있기 때문입니다. 예를 들어, 자동차는 본질적으로 바퀴 달린 복잡한 컴퓨터로, 대부분의 주말 수리공이 이해할 수 있는 수준을 훨씬 뛰어넘지만 우리는 운전을 합니다. 우리는 사회적 규범이나 규제 환경에 대한 암묵적 신뢰 때문에 난해한 기술을 무비판적으로 받아들이는 데 익숙해져 있습니다. 
While undeniably urgent to thought leaders, the need for a systematic learning approach may not be as readily apparent in actual practice settings, in part because of the ubiquitous presence of smart devices in our lives and the perilous tendency to engage with these systems despite little understanding of how they work. For example, our cars are essentially complex computers on wheels, well beyond the comprehension of most weekend tinkerers, and yet we drive. We have become accustomed to uncritical acceptance of arcane technologies, perhaps because of social norms or tacit trust in a regulatory environment.

이러한 무비판적 수용 경향은 의료 환경으로 옮겨질 경우 위험할 수 있습니다.

  • 우선, AI 도구와 같은 복잡한 시스템이 기존의 복잡한 의료 시스템에 도입되고 있는데, 각 시스템이 서로 다르기 때문에 의도하지 않은 결과가 발생할 가능성이 높아집니다.
  • 또한 특정 AI 도구에 대한 암묵적인 신뢰는 시기상조일 수 있습니다. 미국 식품의약국(FDA)은 거의 모든 새로운 의료 기기에 대해 엄격한 승인 절차를 거치지만, 의료 기기로서의 AI/ML 기반 소프트웨어는 아직 공식화 중인 다른 위험 등급별 규제 프로세스를 필요로 합니다[15].
  • 마지막으로, AI는 이전 세대의 의료 기술과는 다른 특징을 가지고 있습니다. AI는 인간과 유사한 지능을 제공하도록 설계될 수 있기 때문에 도구라기보다는 사고의 동반자로 여겨지며, 따라서 헌신적이고 지속적인 훈련의 필요성이 훨씬 덜 분명해집니다. 

This tendency towards uncritical adoption could be dangerous if transferred into healthcare settings.

  • For one, complex systems, such as AI tools, are being introduced into the enormous pre-existing complexity of healthcare systems, each one different from the others, increasing the potential for idiosyncratic unintended consequences.
  • In addition, tacit trust in any specific AI tool may be premature. Although the US Food & Drug Administration puts nearly all new medical devices through a rigorous approval process, AI/ML-based Software as a Medical Device will require a different set of risk-stratified regulatory processes that are still being formulated [15].
  • Finally, AI presents differently than prior generations of healthcare technologies. Because it can be designed to offer human-like intelligence, AI appears to be less of a tool and more of a thinking companion, making the need for dedicated and ongoing training even less apparent.

이러한 우려의 맥락에서, 저희는 임상 환경에서 AI를 사용하는 데 필요한 의료진의 역량에 관한 출판된 연구를 확인하기 위해 범위 검토를 실시했습니다. 2009년 1월 1일부터 2020년 5월 1일 사이에 MEDLINE, CINAHL, Cochrane Library 데이터베이스에서 발표된 문헌은 의료 전문가(예: 의료, 간호, 약학) 및 모든 교육 단계에서의 전문성 개발, 모든 임상 진료 환경에서의 AI 기반 도구, 전문 교육 역량 영역 또는 성과 측정(예: 의학전문대학원교육인증위원회[ACGME] 핵심 역량) 관련 용어 검색 쿼리를 사용하여 선별되었습니다. 영어, 사람을 대상으로 한 연구, 초록 유무, 미국(미국) 환경에 대한 제한이 있었습니다. 
In the context of these concerns, we conducted a scoping review to identify published research on provider competencies needed for use of AI in clinical settings. Literature published between January 1, 2009, and May 1, 2020, from MEDLINE, CINAHL, and the Cochrane Library databases was curated using search queries for terms related to healthcare professionals (e.g., medical, nursing, and pharmacy) and their professional development in all phases of education; AI-based tools in all settings of clinical practice; and professional education competency domains or performance measures (e.g., Accreditation Council for Graduate Medical Education [ACGME] core competencies). Limits were provided for English language, studies in humans, presence of abstracts, and United States (US) settings.

문헌 검색 결과 3,476건의 고유 인용이 이루어졌으며, 이 중 109건의 논문이 전체 텍스트 심사 대상에 포함되었습니다. 전체 텍스트 심사 결과, 새로운 AI 시스템을 구현할 때 입증된 임상의 역량에 대해 보고한 연구는 4편에 불과했습니다.[16,17,18,19] 관찰된 역량은 ACGME 환자 치료 및 대인관계 및 의사소통 기술 영역에 속했습니다[20]. 이들 논문 중 임상의가 필요로 할 수 있는 새로운 AI 관련 역량을 설명한 논문은 없었으며, 구현 전 교육에 대해 언급한 논문은 단 한 편에 불과했습니다. 임상의가 개입의 성격, 개발 방법, 기존 워크플로우에 어떻게 통합해야 하는지에 대해 설명한 연구는 하나도 없었습니다. 검토를 위해 처음에 확인된 연구의 양은 의료 분야에서 AI의 성장에 대한 예측을 확인시켜 주며, 새롭거나 향상된 전문 역량을 설명하는 기사의 부족은 효과적인 사용에 필요한 역량에 대한 지식의 현재 격차에 대한 우려를 확인시켜 줍니다.  
Literature searches yielded 3,476 unique citations, of which 109 articles were eligible for full-text screening. Upon full-text screening, only four studies reported on clinician competencies demonstrated in implementing the new AI systems.[16,17,18,19] The observed competencies fell within the ACGME Patient Care and Interpersonal and Communication Skills domains [20]. None of these articles described any new AI-specific competencies clinicians might need and only one mentioned any form of pre-implementation training. None of the studies indicated what clinicians were told about the nature of the interventions, how they were developed, or how they should be incorporated into pre-existing workflows. The volume of studies initially identified for review confirms predictions about the growth of AI in healthcare, and the paucity of articles describing new or enhanced professional competencies affirms concerns about the current gap in knowledge about the competencies required for their effective use.

주의 사례
Cautionary Tales

필요한 역량을 부여하기 위한 체계적인 접근 방식 없이 새로운 기술을 도입할 때 발생할 수 있는 피해를 보여주는 임상 의학의 몇 가지 역사적 사례를 소개합니다. 이러한 시나리오는 AI 도구의 사용과 직관적으로 유사하지는 않지만 일반화할 수 있는 시사점을 담고 있습니다.
We offer several historical examples from clinical medicine that illustrate the harm that can result when new technologies are introduced without structured approaches to imparting the required competencies. While not intuitively analogous to the use of AI tools, these scenarios have generalizable implications.

전기 수술
Electrosurgery

한 세기가 넘는 기간 동안 외과의들은 수술 중 출혈을 보다 신속하고 완벽하게 제어하기 위해 전기 수술 장치를 사용해 왔습니다. 수련 중인 외과의사들은 일상적인 상황에서 이러한 기기를 사용하는 방법을 보편적으로 배웠지만, 기기의 기본 물리학이나 비정상적이거나 예상치 못한 상황이 발생할 때 발생할 수 있는 위험을 설명하는 공식적인 커리큘럼은 없었습니다. 디바이스 제조업체는 적절한 사용법을 설명하는 정보를 제공했지만, 이러한 리소스에 대한 접근이 거의 이루어지지 않았고 다양한 환경과 디바이스가 사용되는 전체 시스템의 복잡성을 고려하지 않았습니다. 이로 인한 지식 부족은 20세기 후반까지 심각한 환자 화상과 심지어 수술실 화재의 원인이 되었습니다[21]. 2012년 말, 미국 위장관 내시경 외과의사 협회(SAGES)-수술 에너지의 기본적 사용(FUSE) 위원회는 "외과의사들이 수술 시 에너지의 안전한 사용에 대해 무엇을 모르는지 모른다"고 말했습니다[22].
For over a century, surgeons have used electrosurgical devices to more rapidly and completely control intra-operative bleeding. While surgeons-in-training universally learned how to use these devices in routine situations, there were no formal curricula that explained the basic physics of the devices, or the risks that can emerge when unusual or unexpected circumstances arise. Device manufacturers provided information describing appropriate use, but these resources were rarely accessed and did not account for the variety of environments and the complexity of the overall systems in which these devices were employed. The resulting knowledge deficit contributed to serious patient burns and even operating room fires well into the latter decades of the twentieth century [21]. As late as 2012, the Society of American Gastrointestinal Endoscopic Surgeons (SAGES)-Fundamental Use of Surgical Energy (FUSE) Committee stated that “surgeons don’t know what they don’t know about the safe use of energy in surgery” [22].

복강경 담낭 절제술
Laparoscopic Cholecystectomy

복강경 담낭절제술은 1980년대 후반에 일반 외과계에 도입되었으며, 환자 선호도가 높았기 때문에 대규모 연구를 통해 결과와 위험성이 결정되고 새로운 기술에 대한 최적의 교육 과정이 개발되기 전에 빠르게 자리를 잡았습니다. 경험이 축적되면서 일반적인 담관 손상이 크게 증가하는 것으로 나타났습니다. 이 심각한 합병증의 위험은 상대적으로 낮았지만 미국에서만 매년 약 75만 건의 담낭절제술이 시행되었지만 절대적인 영향은 놀라웠고, 결국 외과계는 포괄적인 교육과 지속적인 절차 개선의 필요성을 인식하게 되었습니다[23]. 
Laparoscopic cholecystectomy was introduced to the general surgery community in the late 1980s, and because of strong patient preference, the procedure rapidly took hold before large-scale studies determined outcomes and risks, and before optimal training processes for the new technical skills were developed. As experience accumulated, a significant increase in common bile duct injuries was noted. Even though the risk of this serious complication remained relatively low, with nearly 750,000 cholecystectomies performed annually in the US alone, the absolute impact was alarming, and the surgical community eventually recognized the need for comprehensive training and ongoing refinement of the procedure [23].

소화성 궤양 질환
Peptic Ulcer Disease

1984년 워렌과 마샬은 소화성 궤양이 위산 분비의 일차적 변화가 아니라 헬리코박터 파일로리(H. pylori) 박테리아에 의해 발생한다는 강력한 증거를 제시했습니다[24]. 그럼에도 불구하고 임상의들이 치료용 항생제 치료를 일관되게 권장하기까지 거의 20년이 지났지만, 이를 뒷받침하는 연구가 증가하고 수많은 가이드라인과 권고안이 발표되었습니다[25]. 임상의들은 질병 개념의 근본적인 변화를 정당화하기 위해 추가적인 증거가 필요하다고 주장하는 것은 당연한 일이었지만, 이러한 장기간의 지연은 정서적 역량에 대한 보다 일반적인 결핍을 반영하는 것이기도 했습니다. 새로운 질병 패러다임은 의사의 자율성, 신념, 진료 습관, 전문 분야 문화, 경우에 따라서는 금전적 이해관계 등 새로운 기술의 도입을 방해할 수 있는 모든 강력한 태도적 요인에 도전했습니다. 그 결과 많은 환자들이 예방 가능한 궤양 재발, 불필요한 수술 및 기타 합병증으로 인해 피해를 입었습니다.
In 1984, Warren and Marshall provided strong evidence that peptic ulcers are caused by the bacterium Helicobacter pylori (H. pylori) and not primary alterations in gastric acid secretion [24]. Nonetheless, nearly two decades passed before clinicians consistently recommended treatment with curative antibiotics, despite a growing body of supportive research and the publication of numerous guidelines and recommendations [25]. While clinicians were within reason to insist that additional evidence was needed to justify such a profound change in disease conceptualization, this prolonged delay also reflected a more general deficiency in affective competencies. The new disease paradigm challenged physician autonomy, beliefs, practice habits, specialty cultures, and, in some cases, financial interests, all strong attitudinal factors that can impede the adoption of new technologies. As a result, many patients suffered harm from preventable ulcer recurrences, unnecessary operations, and other complications.

AI 도구와 임상 기술은 서로 다른 것처럼 보일 수 있지만, 체계적인 분석과 훈련이 없는 상태에서 강력한 새 기능을 도입할 때의 위험은 비슷합니다. 또한 한 번에 한 명의 환자에게 부상이 발생하는 외과 수술과는 달리, AI 도구의 뛰어난 확장성은 위험의 복합화로 이어집니다[5, 26]. 
While AI tools and clinical technologies may seem dissimilar, the risks of introducing powerful new capabilities in the absence of systematic analysis and training are analogous. And as opposed to surgical operations where the injury occurs one patient at a time, the great scalability of AI tools also leads to the compounding of risk [5, 26].

전기 수술의 경우와 마찬가지로 임상의는 AI 도구를 사용하기 전에 해당 도구가 적절한 환자 집단에 의도한 목적에 맞게 구현되고 채택되었는지 확인하기 위해 AI 도구에 대해 "알아야 할 사항"을 파악해야 합니다[27]. 예를 들어, 만성 질환 결과를 개선하기 위해 개인 맞춤형 치료의 혜택을 받을 수 있는 환자를 예측하기 위해 미국에서 널리 사용되는 위험 점수 알고리즘은 체계적으로 흑인 환자에게 백인 환자보다 낮은 점수를 할당했습니다. 분석 결과, 이 도구는 질병의 중증도를 나타내는 지표로 의료비 지출을 사용했으며, 과거 비용을 통해 미래 비용을 예측할 수는 있었지만 구조적 불평등으로 인해 흑인 환자의 의료 서비스 이용률이 낮은 것은 고려하지 않았습니다. 그 결과, 흑인 환자들은 실제 질병 상태보다 낮은 비율로 만성 질환 관리 프로그램에 등록되었습니다[28].   
Just as in the case of electrosurgery, clinicians need to “know what they need to know” about AI tools before using them to ensure that they are being implemented and adopted for the intended purpose on an appropriate patient population [27]. For example, a risk scoring algorithm widely used in the US to predict which patients would benefit from personalized care to improve chronic illness outcomes systematically assigned Black patients lower scores than White patients. Analysis showed that the tool used healthcare expenditures as a proxy for severity of illness, and while past costs did predict future costs, the tool did not account for lower utilization of healthcare services by Black patients as the result of structural inequalities. Subsequently, Black patients were enrolled in these chronic disease management programs at lower rates than indicated by their actual disease status [28].

복강경 담낭 절제술의 경험과 유사하게, AI 기반 의사 결정 지원 시스템의 초기 경험은 이를 사용하는 의료 시스템이 비용, 구현 과제 및 한계를 완전히 인식하지 못할 경우 발생할 수 있는 잠재적 피해를 보여주었습니다[5, 29, 30]. 예를 들어, 유방조영술 판독을 위한 컴퓨터 보조 진단(CAD) 도구는 2000년대 초반에 환자, 인구, 의료 시스템에 대한 이점과 위험이 분석에 의해 입증되기 전에 빠르게 채택되었습니다. 이러한 분석 결과, CAD는 위양성 판독을 증가시키는 반면 특이도와 전반적인 진단 정확도는 감소시키는 것으로 밝혀졌습니다. 저자들은 환자의 불안, 불편, 피해에 대한 영향 외에도 추가 영상 검사 및 생검의 증가로 인해 연간 55만 달러(미화)의 초과 비용이 발생할 수 있다고 추정했습니다[31]. 최신 세대의 CAD 도구는 입력과 결과가 발생함에 따라 학습하고 적응할 수 있지만, 이점이 위험을 능가하는지 확인하기 위해서는 면밀한 모니터링이 여전히 필수적입니다[15, 27]. 
Similar to the experience with laparoscopic cholecystectomy, early experience with AI-based decision support systems demonstrated the potential harms that can result if health systems using them are not fully aware of the costs, implementation challenges, and limitations [5, 29, 30]. For example, computer-assisted diagnosis (CAD) tools for interpretation of mammography were quickly adopted in the early 2000s before analysis demonstrated their benefits and risks for patients, populations, and health systems. When such analysis was performed, CAD was found to increase false positive readings while decreasing specificity and overall diagnostic accuracy. In addition to the impact on patient anxiety, inconvenience and harm, the authors estimated that the increase in additional imaging studies and biopsies could lead to excess costs of $550,000 (US dollars) per year [31]. Newer generations of CAD tools have the ability to learn and adapt as inputs and outcomes accrue, but close monitoring remains essential to ensure that benefits outweigh the risks [15, 27].

헬리코박터 파일로리의 사례와 유사하게, 전문가들은 검증된 AI 도구의 도입이 늦어지면 환자, 임상의, 의료 시스템이 잠재적 혜택을 누리지 못할 것이라고 우려하고 있습니다. 이러한 주저는 기반 과학에 대한 유사한 회의론과 전문가의 자율성, 진료 패턴 및 재정적 영향에 대한 유사한 우려에서 비롯될 수 있습니다[32]. 
Similar to the experience with H. pylori, experts are concerned that slow adoption of validated AI tools will prevent patients, clinicians, and health systems from reaping their potential benefits. Hesitation may stem from similar skepticism about the underlying science and similar concerns about professional autonomy, practice patterns and financial impacts [32].

반성
Reflections

이러한 역사적 사례는 발생할 수 있는 문제의 유형뿐만 아니라 이를 해결하고 예방하는 데 있어 구조화된 학습 접근법의 가치를 조명합니다. 
These historical examples shed light not only on the types of problems that can arise but also on the value of structured learning approaches in addressing and preventing them.

복강경 담낭절제술의 경우 담관 손상 위험은 집도의의 경험과 관련이 있다는 연구 결과가 발표되었습니다. 이에 따라 SAGES의 지도자들은 전문가 위원회를 구성하여 복강경 수술 접근법의 안전한 사용에 필요한 역량을 포괄하는 포괄적인 교육 프로그램을 개발하도록 했습니다. 복강경 수술의 기초(FLS) 위원회는 처음에 내용을 정의하고, 더 광범위한 SAGES 커뮤니티 내에서 검토한 다음, 커리큘럼을 만들기 위해 내용을 다듬었습니다. 심리측정학자들은 지식과 기술을 모두 포괄하는 시험을 설계하고 평가하는 데 도움을 주었으며, FLS 커리큘럼과 시험은 이제 미국 외과학회의 인증에 필수입니다[33]. 시술에 대한 이해도가 높아지고 새로운 역량을 심어주는 공식적인 교육 접근 방식이 도입되면서 담관 손상 발생률이 감소했지만, 기존의 개복 시술에서 볼 수 있는 낮은 수준까지는 아니며, 이는 위험의 일부가 경험 이외의 요인에 기인한다는 것을 의미합니다[23]. 이제 환자들은 동의 절차의 일부로 이러한 위험에 대해 일상적으로 고지받지만, 빠른 회복, 통증 감소, 입원 기간 단축으로 인해 이점이 위험보다 훨씬 더 큽니다. 
In the case of laparoscopic cholecystectomy, studies demonstrated that risk of bile duct injury was associated with a surgeon’s experience. In response, the leaders of SAGES assembled an expert committee and charged it with developing a comprehensive educational program covering the competencies needed for the safe use of laparoscopic surgical approaches. The Fundamentals of Laparoscopic Surgery (FLS) committee initially defined the content, vetted it within the broader SAGES community, and then refined it to create the curriculum. Psychometricians helped design and evaluate an examination covering both knowledge and technical skills, and the FLS curriculum and examination are now required for certification by the American Board of Surgery [33]. With better understanding of the procedure and formal training approaches that instilled the new competencies, the incidence of bile duct injuries has diminished, although not to the lower levels seen with traditional open procedures, meaning that some part of the risk is attributable to factors other than experience [23]. Patients are now routinely informed of this risk as part of the consent process, but because of the rapid recovery, diminished pain, and shorter hospitalization, the benefits far outweigh the risk.

마찬가지로 전기 수술 사용에 대한 부적절한 교육으로 인한 피해를 해결하기 위해 SAGES는 외과 의사, 마취과 의사, 간호사, 엔지니어로 구성된 다분야 전문가 그룹을 구성하여 전기 수술 기기의 안전한 사용을 위한 역량을 정의했습니다. 초기 역량 목록은 SAGES의 리더들이 검토했으며, 심리측정 전문가들이 타당하고 신뢰할 수 있는 시험 개발을 도왔습니다. 그 결과, 사용자가 다양한 실제 조건에서 전기수술 기기를 안전하게 작동하는 데 필요한 지식과 기술을 갖출 수 있도록 하는 수술 에너지의 기본적 사용(FUSE) 커리큘럼이 개발되었습니다[34]. 
Similarly, to address the harms resulting from inadequate training in the use of electrosurgery, SAGES assembled a multidisciplinary group of surgeons, anesthesiologists, nurses, and engineers, who defined the competencies for safe use of electrosurgical devices. The initial list of competencies was reviewed by the leaders of SAGES and psychometricians helped develop a valid and reliable examination. The resulting Fundamental Use of Surgical Energy (FUSE) curriculum ensures that users have the requisite knowledge and skills for safe operation of electrosurgical devices under a variety of real-world conditions [34].

인공지능 도구의 채택이 지연되는 기저에 있는 정서적(사회적, 문화적) 요인은 최적의 사용을 촉진하는 인지적, 기술적 요인보다 구조화된 커리큘럼으로 해결하기 어려울 수 있습니다. 헬리코박터 파일로리의 경우, 미국 질병통제예방센터와 국립보건원은 결국 환자뿐만 아니라 임상의를 대상으로 한 교육 및 마케팅 자료를 만들어 변화를 이끌어냈습니다[25]. 일반적으로 지식과 기술이 계속해서 빠른 속도로 성장하고 발전함에 따라 임상의는 진료 패턴을 위협하거나 방해할 수 있는 새로운 역량이 개발될 것이라는 사실을 자신의 직업적 정체성의 일부로 통합해야 하며, 심지어 정체성 자체의 측면까지도 통합해야 합니다. 과학적 회의론은 결코 사라져서는 안 되지만, 부정과 저항보다는 호기심과 학습으로 전환해야 합니다. 
The affective (social and cultural) factors underlying delayed adoption of Ai tools may be more difficult to address with structured curricula than the cognitive and technical factors that will promote optimal use. In the case of H. pylori, the US Centers for Disease Control and Prevention and the National Institutes of Health eventually created educational and marketing materials aimed at patients as well as clinicians to help bring about a shift [25]. In general, as knowledge and technology continue to grow and evolve at accelerated rates, clinicians should incorporate as part of their professional identity the fact that new capabilities will be developed over the course of their careers that might threaten or disrupt practice patterns and even aspects of that identity itself. While scientific skepticism should never go away, it should be channeled into curiosity and learning rather than denial and resistance.

향후 방향
Future Directions

모든 유형의 의료 전문가는 진화하는 AI-증강 기술과 임상 치료의 인터페이스 내에서 성공하기 위한 역량을 명확히 하고, 측정하고, 반복해야 하는 교육적 의무가 있습니다. 새로운 기술이 도입될 때와 마찬가지로, 이러한 역량은 임상의사에게나 가장 주니어 학습자에게나 똑같이 관련성이 있을 것입니다. 필요한 AI 기술 중 상당수는 사용 중인 개입에 따라 달라질 것이며, 도구가 도입됨에 따라 적시 교육이 필요할 것입니다. 그러나 한 가지 AI 도구나 지능형 지원 유형만을 사용하는 데 필요한 기술보다 훨씬 더 광범위한 역량에 대한 질문이 있으며[35], 모든 의료 전문가는 새로운 테크놀로지가 구현될 때 알아야 할 사항을 학습하기 위한 일반적인 접근 방식을 개발해야 합니다. 
Healthcare professionals of all types have the educational imperative to articulate, measure, and iterate competencies for thriving within this evolving interface of AI-augmented technology and clinical care. As is the case when any new class of technology is implemented, these competencies will be just as relevant to practicing clinicians as they will be to the most junior learners. Many of the required AI skills will be specific for the intervention being employed and will necessitate just-in-time training as tools are introduced. However, there are questions of competence much broader that the skills needed for use of any one AI tool or type of intelligent support alone [35], and all health professionals should develop a general approach for learning what they need to know about new technologies as they are being implemented.

임상 AI 도입에는 새로운 종류의 윤리적 문제가 수반되며, 임상의 역량 목록에는 이러한 문제를 예측하고 해결하기 위한 전략이 포함되어야 합니다. 예를 들어, 

  • 어떤 상황에서 환자가 의사 대신 AI 기반 로봇으로부터 진단을 받는 것이 적절할까요?
  • 사전 동의는 언제 필요하며 어떤 정보를 포함해야 할까요?
  • 기계 학습과 인간 학습 프로세스 간에 제한된 리소스를 어떻게 할당해야 하며, AI는 비용과 고급 인프라의 필요성 때문에 리소스가 풍부한 환경과 리소스가 부족한 환경 간의 격차를 확대할 것인가요?
  • AI 도구가 편향된 데이터 세트로부터 학습하도록 허용되어야 할까요?
  • 임상 데이터의 잠재적 편향성과 그에 따른 추천은 어떻게 평가하고 관리할 것인가?
  • 개인정보 보호의 필요성과 투명성의 필요성은 어떻게 균형을 이룰 수 있을까요? [5, 36].

A new class of ethical challenges accompanies the introduction of clinical AI and any list of clinician competencies should include strategies for anticipating and addressing them. For example,

  • in what circumstances will it be appropriate for a patient to receive a diagnosis from an AI-powered robot instead of a physician?
  • When will informed consent be necessary and what information should be included?
  • How should limited resources be allocated between machine learning and human learning processes, and will AI widen the gap between resource-rich and resource-poor settings because of its expense and the need for advanced infrastructure?
  • Should AI tools be permitted to learn from biased datasets?
  • How will potential biases in clinical data and resulting recommendations be evaluated and managed?
  • How will the need for privacy be balanced with the need for transparency? [536].

임상 환경에서 AI 사용을 연구하는 연구자가 [도구를 효과적으로 사용하는 데 필요한 교육], 특히 모든 연구 설계 및 보고서에서 [역량에 대해 설명하는 것]은 큰 이점을 창출할 수 있는 또 다른 간단한 단계입니다. 새로운 AI 도구의 구현 매트릭스에 전문 학습을 의도적으로 포함시키는 것은 도구 배포에서 최적의 결과를 달성하는 데 필수적입니다. 이는 보건 전문직 교육자와 이러한 도구를 개발, 테스트 및 구현하는 사람들 간의 새로운 파트너십을 의미합니다.
Another simple step that could generate great benefit would be for researchers who study the use of AI in clinical settings to describe the education necessary for effective use of the tool, specifically addressing competencies in all study designs and reports. Deliberately including professional learning in the implementation matrix for new AI tools will be essential for achieving optimal outcomes in their deployment. This will mean new partnerships between health professions educators and those who develop, test, and implement these tools.

AI 도구[30, 37] 사용을 위한 권장 전문 역량 개발의 필요성을 해결하기 위해, 우리는 보건 전문직 교육 및 AI 분야의 사고 리더들과 구조화된 인터뷰를 실시하여 시뮬레이션 및 실제 업무 환경 모두에서 테스트하고 개선할 수 있는 역량 프레임워크를 개발할 것입니다. 이러한 리더는 출판된 저술과 두 분야의 전문가 추천을 통해 선정됩니다. 이 프레임워크는 ACGME 핵심 역량 프레임워크에 기반할 수 있으며, 다음 등을 포함할 수 있습니다.

  • AI 유형에 대한 기본 지식,
  • 환자별 정보에 비추어 인구 기반 추정치를 변경하기 위해 베이지 정리를 사용하는 능력,
  • 환자와 동료에게 확률을 명확하게 전달하는 능력,
  • 특정 환경에 적합한 AI 도구를 결정하고 이에 액세스하는 방법,
  • 환자의 목표와 가치가 AI 기반 추천을 어떻게 수정해야 하는지 공감적으로 식별하는 능력 

이상적으로, 이러한 역량은 임상의와 임상 치료에 대한 연민, 인간성, 신뢰를 유지하거나 강화하는 [공유 의사결정 모델]에서 AI의 신중한 사용을 촉진해야 합니다[10, 38]. 그러나 이러한 이상을 달성하기 위해서는 의료 시스템과 개인 모두의 의도적인 노력이 필요합니다. 우연히 이루어지지 않을 것입니다. 
To help address the need for the development of recommended professional competencies for the use of AI tools [30, 37], we will conduct structured interviews with thought leaders in health professions education and in AI to develop a competency framework that subsequently can be tested and refined within both simulated and authentic workplace experiences. These leaders will be identified through their published writings and by recommendation of experts in both fields. The framework could be based on the ACGME core competency framework and might include

  • basic knowledge about the types of AI;
  • the use of Bayes’ theorem to alter population-based estimates in light of patient-specific information;
  • the ability to clearly communicate probabilities to patients and colleagues;
  • the ability to determine which AI tools are relevant in specific settings and then how to access them; and
  • the ability to empathically discern how patient goals and values should modify AI-driven recommendations.

Ideally, these competencies should promote the thoughtful use of AI in shared decision-making models that sustain or even enhance compassion, humanity, and trust in clinicians and clinical care [10, 38]. However, intentional effort on the part of both health systems and individuals will be required to achieve this ideal. It will not happen by chance.

궁극적으로 시스템적 사고, 비판적 사고, 실용적 지혜와 같은 [통합적 역량]이 AI 활용에 필요할 수 있습니다. 이러한 기술은 환자 중심의 인본주의적 치료의 기본이며 전문 임상의가 수년간의 교육과 감독을 통해 개발합니다. 한 사고 리더는 "AI는 인공적이지도, 지능적이지도 않으며"[39] 현명하거나 비판적인 사고 능력을 보여주지 않는다고 주장합니다. 판단력과 분별력은 여전히 인간에게서 나와야 합니다. 두려움과 대중의 통념과는 달리, AI는 인간의 사고를 대체할 가능성이 높지 않으며, 오히려 이를 보강하는 데 사용될 가능성이 높습니다. AI의 힘과 잠재력을 활용하려면 AI가 없을 때와 마찬가지로, 어쩌면 훨씬 더 잘 생각해야 할 것입니다. 그렇지 않으면 기계와 인간이 "함께 더 똑똑해지고 멍청해질 수 있다"는 노먼의 두려움이 현실화될 위험이 있습니다(그림 1 [40]).

Ultimately, there may be integrative competencies for the use of AI; for example, systems thinking, critical thinking, and practical wisdom. These skills are foundational to patient-centered, humanistic care and are developed by professional clinicians over years of training and supervised practice. One thought leader argues that “AI is neither artificial, nor intelligent”[39] and it certainly does not exhibit wise or critical thinking capacities. Judgement and discernment will still need to come from humans. Contrary to fears and popular mythology, AI is not likely to supplant human thinking, but more likely will be used to augment it. This will require that we think just as much—and perhaps much better—than we do without AI, if we are to reach its power and potential. If not, we run the risk of realizing Norman’s fear that machines and humans may become “smarter and dumber together” Fig. 1 [40].

 


Med Sci Educ. 2021 Sep 9;31(6):2055-2060. doi: 10.1007/s40670-021-01377-w. eCollection 2021 Dec.

The Potential and the Imperative: the Gap in AI-Related Clinical Competencies and the Need to Close It

Affiliations collapse

1Center for Advanced Mobile Healthcare Learning, Vanderbilt University Medical Center, Nashville, TN USA.

2AI Research and Evaluation, IBM Watson Health, Cambridge, MA USA.

3Office of Undergraduate Medical Education, Vanderbilt University School of Medicine, Nashville, TN USA.

4Center of Excellence in Applied Artificial Intelligence, Department of Bioinformatics, Vanderbilt University Medical Center, Nashville, TN USA.

5Vanderbilt University School of Medicine, Nashville, TN USA.

6IBM Watson Health, Cambridge, MA USA.

7Office of Health Sciences Education, Vanderbilt University Medical Center, 2525 West End Avenue, Office 1586, TN Nashville, USA.

PMID: 34956712

PMCID: PMC8651813

DOI: 10.1007/s40670-021-01377-w

Free PMC article

 

No abstract available

의과대학생이 인공지능에 대해서 실제로 알아야 하는 것은? (NPJ Digit Med. 2020)
What do medical students actually need to know about artificial intelligence?
Liam G. McCoy 1,2 , Sujay Nagaraj 1,3, Felipe Morgado 1,4, Vinyas Harish 1,2, Sunit Das1,5 and Leo Anthony Celi 6,7,8

 

소개
Introduction

인공지능(AI)의 새로운 혁신이 의료 현장에 큰 영향을 미칠 것으로 예상됨에 따라 현재 및 미래의 의사를 대상으로 AI에 대한 교육에 대한 관심이 높아지고 있습니다1. 이러한 관심과 함께 의대생이 정확히 무엇을 배워야 하는지에 대한 질문도 제기되고 있습니다2. AI의 임상적 사용을 위한 역량은 의학 분야의 다른 신기술과 대체로 유사하지만, 설명 가능성, 의료 형평성, 데이터 보안과 관련하여 매우 중요한 질적 차이가 있습니다3,4,5. 우리는 이 분야에서 리더십을 배양하기 위해 기본 커리큘럼과 과외 프로그램에 강력한 학습자 중심의 AI를 추가하는 두 가지 접근 방식을 옹호합니다.
With emerging innovations in artificial intelligence (AI) poised to substantially impact medical practice, interest in training current and future physicians about AI is growing1. Alongside this interest comes the question of what, precisely, medical students should learn2. While competencies for the clinical usage of AI are broadly similar to those for any other novel technology in medicine, there are qualitative differences of critical importance to concerns regarding explainability, health equity, and data security3,4,5. We advocate for a dual-focused approach: combining robust, learner-centered AI additions to baseline curricula and extracurricular programs to cultivate leadership in this space.

의사가 임상 맥락에서 AI에 대해 이해해야 할 사항은 무엇인가요?
What do physicians need to understand about AI in the clinical context?

가장 직접적으로, 의사는 임상 의사 결정에 영향을 미치는 모든 기술을 이해하는 것과 같은 방식으로 AI를 이해해야 합니다. 예를 들어 MRI를 사용하는 의사는 T1과 T2 가중 스캔을 구분하는 입자 스핀 물리학을 이해할 필요는 없지만, 이해는 할 수 있어야 합니다
Most directly, physicians need to understand AI in the same way that they need to understand any technology impacting clinical decision-making. A physician utilizing MRI, for example, does not need to understand the particle spin physics differentiating T1 and T2 weighted scans, but they do need to be able to:

  1. (i)사용 - 해당 기술이 주어진 임상 상황에 적합한 경우와 의미 있는 결과를 얻기 위해 어떤 입력이 필요한지 식별합니다.
    (i)
    Use it—identify when the technology is appropriate for a given clinical context, and what inputs are required to receive meaningful results.
  2. (ii)해석하기 - 오류, 편향 또는 임상적 부적합성에 대한 인식을 포함하여 합리적인 수준의 정확도로 결과를 이해하고 해석합니다.
    (ii)
    Interpret it—understand and interpret the results with a reasonable degree of accuracy, including awareness of sources of error, bias, or clinical inapplicability.
  3. (iii)설명하기 - 다른 사람(예: 관련 의료 전문가 및 환자)이 이해할 수 있는 방식으로 결과와 그 근간이 되는 과정을 전달할 수 있어야 합니다.
    (iii)
    Explain it—be able to communicate the results and the processes underlying them in a way that others (e.g. allied health professionals and patients) can understand.

이러한 기술은 AI의 맥락에서 특별한 뉘앙스를 띠게 됩니다. (i)와 (ii)의 경우, 의사는 AI의 고도로 맥락에 따른 특성과 제한된 단일 맥락에서의 성과가 항상 이전 가능하지 않을 수 있다는 사실을 이해하는 것이 중요합니다. 또한 특정 환자 그룹에 대한 알고리즘의 성능을 저하시킬 수 있는 요인을 인식하는 것도 중요합니다3.
These skills take on particular nuances in the context of AI. For (i) and (ii), it is critical for physicians to appreciate the highly context-specific nature of AI, and the fact that performance in a single restricted context may not always be transferable. It is also important to be aware of factors which may decrease the performance of algorithms for specific patient groups3.

AI는 일반적으로 '블랙박스' 효과, 즉 모델이 어떤 결정에 도달하는 메커니즘을 해독할 수 없다는 비판을 받아왔습니다1. 그러나 이러한 기술적 '설명 가능성'이 부족하다고 해서 (iii)의 의무가 면제되는 것은 아닙니다. 정보에 입각한 동의 및 임상 협력 요건을 충족하기 위해 의사는 알고리즘 결과의 출처, 특성 및 정당성에 대한 이해를 환자, 가족 및 동료에게 전달해야 할 수 있습니다. 
AI has been commonly criticized for the “black box” effect—that is, the mechanism by which a model arrives at a decision may be indecipherable1. This lack of technical “explainability”, however, does not discharge the obligations of (iii). To satisfy requirements of informed consent and clinical collaboration, a physician may be called upon to communicate their understanding of the origin, nature, and justification of an algorithm’s results to patients, families, and colleagues.

의사는 보다 광범위한 전문적 맥락에서 AI에 대해 무엇을 이해해야 할까요?
What do physicians need to understand about AI in the broader professional context?

의사의 전문적 의무는 임상적 역할을 넘어 리더십과 건강 옹호까지 확장됩니다. 의료 분야에서 AI의 파괴적인 전망은 의사들이 환자 복지를 위해 공동으로 참여할 준비가 되어 있어야 하는 중대한 윤리적, 운영적 과제를 제기합니다.
The professional obligations of physicians extend beyond the clinical role into leadership and health advocacy. The disruptive prospects of AI in healthcare raise significant ethical and operational challenges which physicians must collectively be prepared to engage with for the sake of ensuring patient welfare.

소수 집단을 대표하지 않는 데이터 세트 사용3, 알고리즘이 기존의 편견을 학습하고 영속화할 가능성4 등의 요인으로 인해 알고리즘적 임상 의사 결정 지원이 건강 형평성에 미치는 영향에 대해 상당한 우려가 존재합니다. 데이터 보안 및 개인정보 보호와 관련된 위험도 빠르게 드러나고 있습니다5. 그러나 AI 자체가 편견과 불공정성에 대한 의학의 기존 문제를 일부 완화할 수 있는 잠재력도 있습니다6. 의사는 두 가지 가능성을 모두 인식하고 윤리적이고 공평한 시스템의 개발과 배포를 지지할 준비가 되어 있어야 합니다. 마지막으로, 의사는 환자 데이터에 대한 책임 있는 관리자로서 의료진과 환자 간의 기본적인 신뢰가 침해되지 않도록 행동해야 합니다. 
Substantial concerns exist regarding the impact of algorithmic clinical decision support on health equity, due to factors such as the use of datasets lacking representation from minority populations3, and the possibility for algorithms to learn from and perpetuate existing biases4. Risks around data security and privacy are also becoming rapidly apparent5. There is also, however, the potential for AI itself to alleviate some of medicine’s existing problems with bias and unfairness6. Physicians should be aware of both possibilities and be equipped to advocate for the development and deployment of ethical and equitable systems. Finally, physicians must act as responsible stewards for patient data to ensure that the foundational trust between provider and patient is not violated.

의대생이 배워야 할 내용을 어떻게 배울 수 있을까요?
How might medical students learn what they need to learn?

AI와 의학에 모두 능통한 의사 리더를 양성하기 위한 공동의 노력을 기울여야 합니다. 의학에서 임상적으로 관련성이 있고 계산적으로 실현 가능한 AI 대상을 선택하는 것은 간단한 일이 아니기 때문에 이러한 이중 역량이 중요합니다. 사일로화된 접근 방식은 명확한 임상 목표가 눈에 띄지 않게 되고 기술적인 '문제 해결을 위한 솔루션'의 생산이 악화될 수 있습니다7. 학습에 대한 다학제적이고 통합적인 접근 방식은 이러한 목표를 달성하는 데 도움이 될 것입니다. 
Concerted efforts should be taken to cultivate physician-leaders who are fluent in both AI and medicine. Such dual competence is important, as it is no simple task to select clinically relevant and computationally feasible targets for AI in medicine. A siloed approach may lead to clear clinical targets going unnoticed and worsen the production of technical “solutions in search of problems”7. A multidisciplinary, integrated approach to learning will serve to facilitate this goal.

이러한 복잡한 주제에 접근할 때는 모든 의사가 일상적인 진료를 위해 반드시 알아야 하는 것과 일부 의사가 혁신을 추진하기 위해 알아야 하는 것을 구분하는 것이 중요합니다. 커리큘럼 구성 요소는 전자를 다루기 위한 것이어야 하며, 강력한 과외 프로그램은 후자를 목표로 삼을 수 있습니다. 두 가지 요소 모두 AI와 의학의 융합이 현재 의사의 정체성에 어떤 영향을 미치고 있고 앞으로도 계속 영향을 미칠지에 대한 논의를 촉진하는 역할을 합니다. 이는 핵심 지식의 틀을 확립하는 동시에 특정 주제 영역에 대해 심층적으로 탐구하고자 하는 학생들을 지원하는 '재구상된 의과대학'의 개념과도 일치합니다8.
When approaching such a complex topic, it is critical to distinguish between that which all physicians must know for everyday practice, and that which some physicians should know to drive innovation. Curricular components should be targeted to address the former, while robust extracurricular programs can be targeted toward the latter. Both components serve to promote discussions on how the convergence between AI and medicine is currently impacting and will continue to impact the physician’s identity. This aligns with the concept of the “reimagined medical school”, which establishes a framework of core knowledge while supporting students who seek deep dives into specific subject areas8.

이 접근 방식은 토론토 대학교(UofT) 의과대학에서 시범 운영되었으며, 학부의 전략 계획의 중요한 부분으로 행정부에서 채택했습니다8.

  • 전임상 커리큘럼의 강의는 모든 학생에게 이러한 개념을 소개하며,
  • 2년 과정의 '의학용 컴퓨팅' 자격증 프로그램은 특히 관심 있는 학생들에게 실용적인 프로그래밍 기술과 임상 데이터 과학 프로젝트에 대한 몰입을 제공합니다9.
  • 또한, "의학 분야의 AI" 학생 관심 그룹은 이 주제에 대한 과외 세미나를 주최하고 의대생과 도시 내 광범위한 AI 생태계(학계 및 산업계) 간의 연결을 촉진하는 데 도움을 줍니다(지난 2년간 제공된 의학 분야의 AI 목록은 부록 표 1 참조). 

This approach has been piloted at the University of Toronto (UofT) Faculty of Medicine and has been embraced by administration as an important part of the Faculty’s strategic plan8.

  • Lectures in the preclinical curriculum introduce all students to these concepts, and
  • the 2-year-long “Computing for Medicine” certificate program provides particularly interested students with practical programming skills and immersion into clinical data science projects9.
  • Additionally, an “AI in Medicine” student interest group hosts extracurricular seminars on the subject and helps to facilitate connections between medical students and a city’s broader AI ecosystem (in academia and industry) (see Supplementary Table 1 for a list of AI in Medicine offerings in the last two years).

하버드 의대도 비슷한 접근 방식을 채택하여 의대생에게 임상 정보학 교육을 선택 과목으로 제공하고 있습니다10. 이 선택 과목에서 학생들은 관심 분야의 교수진 멘토와 짝을 이루어 교훈적인 학습과 실습을 혼합하여 정보학이 의료 시스템에 어떻게 내장되는지 탐구합니다. 또한 MIT 크리티컬 데이터 그룹과 협력하여 의학 분야의 데이터 과학에 대한 프로젝트 기반 과정을 제공하고 있습니다11. 과외 활동으로 MIT 크리티컬 데이터 그룹은 '데이터톤'(컴퓨터 과학자와 임상의가 협력하여 임상 문제를 해결하기 위해 데이터를 사용하는 짧은 경연 대회)12을 통해 AI에 대한 관심을 촉진하기 위해 노력해 왔습니다. 이러한 협업은 의대생 교육을 강화하기 위해 비의대 학부와의 협업 가능성을 보여주는 상징적인 사례입니다.
Harvard Medical School has engaged in a similar approach, offering clinical informatics training as an elective for medical students10. During this elective, students are paired with faculty mentors in their area of interest and engage in a mix of didactic and hands-on learning to explore how informatics is embedded into health systems. The School has also collaborated with the MIT Critical Data group to offer a project-based course on data science in medicine11. Extracurricularly, the MIT Critical Data Group has worked to spur interest in AI through “datathons” (brief competitions wherein computer scientists and clinicians work together to use data to solve clinical problems)12. These collaborations are emblematic of the possibilities for collaboration with non-medical faculties to enrich the education of medical students.

이러한 경험에서 얻은 인사이트를 바탕으로 우리는 커리큘럼 및 과외 활동 영역에서 일련의 중요한 기회를 발견했습니다(표 1에 요약되어 있음). 학습 목표와 학습 목표 전달 간의 시너지 효과를 찾고, 수동적인 지식 전달이 아닌 학생 참여에 중점을 둔 학습자 중심의 정신을 유지하는 것이 중요하다는 점을 강조하고자 합니다. AI를 효과적으로 활용하는 데 필요한 역량은 옹호, 리더십, 커뮤니케이션 등 의사 역할의 다른 핵심 측면을 수행하는 데 필요한 역량과 겹치는 경우가 많으므로 이러한 개념은 적절한 경우 커리큘럼의 다른 측면(예: 윤리적 임상 의사 결정에 대한 워크숍에 AI 사례 연구 포함)과 통합되어야 합니다. 의과대학은 학생들의 학습을 도울 뿐만 아니라 학문적 관심을 키우고 미래 리더십의 씨앗을 뿌리는 데에도 중요한 역할을 담당하고 있습니다. 이러한 권장 사항은 각 의과대학, 파트너십 및 학생 단체의 상황과 강점에 맞게 조정될 수 있으며 조정되어야 합니다.
With insight from these experiences, we identify a series of important opportunities in both the curricular and extracurricular realms (outlined in Table 1). We wish to emphasize the importance of finding synergy between the learning objectives and their delivery, and of maintaining a learner-centered ethos with a focus upon student engagement rather than passive knowledge transfer. These concepts should be integrated with other aspects of the curriculum wherever appropriate (such as the inclusion of an AI case study in a workshop about ethical clinical decision-making), as the competencies required to effectively work with AI will often overlap with those required to fulfil other core aspects of the physician role such as advocacy, leadership, and communication. Medical schools have a critical role to play not only in helping their students learn but also in nurturing their academic interests and sowing the seeds of future leadership. These recommendations can and should be tailored to the context and strengths of each medical school, its partnerships, and its student body.

의과대학 졸업 후에는 어떻게 되나요?
What about after medical school?

의학전문대학원 교육(PGME)과 평생 의학 교육(CME)에 대한 자세한 논의는 이 연구의 범위를 벗어나지만, 의학 교육은 평생 추구해야 하는 것으로 간주되며 이후 경력 단계에 있는 학습자에게도 관심을 기울여야 한다는 점을 고려하는 것이 중요합니다13. AI 관련 역량은 기존 연구 또는 품질 개선(QI) 블록의 PGME 커리큘럼에 통합될 수 있습니다. 의학 또는 외과 수련의를 위한 연구 교육은 데이터 과학이나 생의학 공학과 같은 기술 분야뿐만 아니라 윤리, 의료 서비스 연구, 의학교육 분야에서도 이루어질 수 있습니다. QI는 검증된 혁신을 진료에 적용하고 평가하는 데 중점을 둡니다. 온라인 또는 대면 워크숍을 통한 CME 제공은 임상의가 경력을 쌓는 동안 자신의 역량을 새롭게 할 수 있을 뿐만 아니라 기존 의료진도 이 분야를 따라잡을 수 있는 기술과 지식을 갖출 수 있도록 지원합니다14. 표 1의 다양한 커리큘럼 측면은 경력 단계에 따라 학습자에게 적합하도록 수정할 수 있습니다.
While detailed discussion on postgraduate medical education (PGME) and continuing medical education (CME) is outside the scope of this work, it is important to consider that medical education is viewed as a life-long pursuit and attention needs to be provided to learners at later career stages13. Competencies around AI could be integrated in PGME curricula in existing research or Quality Improvement (QI) blocks. Research training, for medical or surgical trainees, could be in technical areas such as data science or biomedical engineering but also in ethics, health services research, and medical education. QI would focus on translating and evaluating proven innovations into care. CME offerings through online or in-person workshops can not only allow clinicians to refresh their competencies over the course of their career but also empower established practitioners with the skills and knowledge to keep up with this field14. The various curricular aspects in Table 1 can be modified to suit learners at different stages in their careers.

결론
Conclusion

궁극적으로 의과대학은 인공지능이 중요한 역할을 하게 될 미래에 대비하여 의사를 양성해야 하는 과제를 안고 있습니다. 이 과제를 성공적으로 완수하기 위해서는 학생들이 인공지능 도구의 임상적 사용, 기술적 한계, 윤리적 의미에 대해 교과과정 및 과외 학습 기회를 갖는 것이 필수적입니다. 이 기술의 중요성과 잠재적 영향을 고려할 때, 우리는 의사들 전반의 인공지능 이해력 기반을 확보하고 이 분야에서 혁신을 주도할 미래 리더들의 기술과 관심을 육성하기 위해 행동해야 합니다.
Ultimately, medical schools are tasked with training physicians for a future in which artificial intelligence is poised to play a significant role. In order to succeed at this task, it will be essential for students to have curricular and extracurricular learning opportunities around the clinical usage, technical limitations, and ethical implications of the tools at their disposal. Given the importance and potential impact of this technology, we must act both to ensure a base of artificial intelligence literacy among physicians at-large and to nurture the skills and interests of the future leaders who will drive innovation in this space.


NPJ Digit Med. 2020 Jun 19;3:86. doi: 10.1038/s41746-020-0294-7. eCollection 2020.

What do medical students actually need to know about artificial intelligence?

1Faculty of Medicine, University of Toronto, Medical Sciences Building, 1 King's College Cir, Toronto, ON M5S 1A8 Canada.

2Institute of Health Policy, Management and Evaluation, Dalla Lana School of Public Health, University of Toronto, 155 College St 4th Floor, Toronto, ON M5T 3M6 Canada.

3Department of Computer Science, University of Toronto, 40 St. George Street, Room 4283, Toronto, ON M5S 2E4 Canada.

4Department of Medical Biophysics, University of Toronto, 101 College St, Suite 15-701, Toronto, ON M5G 1L7 Canada.

5Centre for Ethics, University of Toronto, 15 Devonshire Pl, Toronto, ON M5S 1H8 Canada.

6Institute for Medical Engineering and Science, Massachusetts Institute of Technology, 77 Massachusetts Avenue, E25-505, Cambridge, MA 02139 USA.

7Division of Pulmonary, Critical Care and Sleep Medicine, Beth Israel Deaconess Medical Center, 330 Brookline Avenue, Boston, MA 02215 USA.

8Department of Biostatistics, Harvard T.H. Chan School of Public Health, 677 Huntington Avenue, Boston, MA 02115 USA.

PMID: 32577533

PMCID: PMC7305136

DOI: 10.1038/s41746-020-0294-7

Free PMC article

Abstract

With emerging innovations in artificial intelligence (AI) poised to substantially impact medical practice, interest in training current and future physicians about the technology is growing. Alongside comes the question of what, precisely, should medical students be taught. While competencies for the clinical usage of AI are broadly similar to those for any other novel technology, there are qualitative differences of critical importance to concerns regarding explainability, health equity, and data security. Drawing on experiences at the University of Toronto Faculty of Medicine and MIT Critical Data's "datathons", the authors advocate for a dual-focused approach: combining robust data science-focused additions to baseline health research curricula and extracurricular programs to cultivate leadership in this space.

Keywords: Health care; Medical ethics.

생성형 인공지능의 시대에 평가를 다시 생각하기 (Med Educ, 2023)
Rethinking assessment in response to generative artificial intelligence
Jacob Pearce | Neville Chiavaroli

 

시험에서 전자 감별 진단과 같은 평가 중 의사 결정 지원 도구의 사용은1 현재 기술이 평가 관행을 어떻게 변화시키고 있는지에 관해서는 빙산의 일각에 불과합니다. 이렇게 말하는 이유는 인공 지능(AI) 개발이 혁신적 단계에 도달한 것으로 보이기 때문입니다. 이른바 제너레이티브 AI가 여기에 있습니다. OpenAI의 ChatGPT가 등장했고, 다른 도구들도 속속 등장하고 있습니다. ChatGPT-3는 다양한 프롬프트와 질문에 대한 자연어 응답을 처리하고 생성하도록 설계된 언어 모델입니다. 이 모델은 약 45테라바이트의 텍스트 또는 수천억 개의 단어에 해당하는 방대한 양의 데이터로 학습되었습니다. 적어도 우리가 물었을 때 ChatGPT는 이렇게 대답했습니다. 그리고 우리 모두가 이 모든 것이 교육과 평가에 미치는 영향을 이해하려고 노력하고 있을 때, 이미지를 '보고' 처리할 수 있는 멀티모달 ChatGPT-4가 출시되어 이 기술이 얼마나 빠르게 발전하고 있는지를 보여주고 있습니다. 
The use of decision-making support tools during assessments, such as electronic differential diagnosis in examinations,1 is just the tip of the iceberg when it comes to how technology is currently changing assessment practice. We say this, because it appears we have reached a transformative stage in the development of artificial intelligence (AI). So-called generative AI is here. OpenAI's ChatGPT has burst onto the scene, and other tools are coming. ChatGPT-3 is a language model designed to process and generate natural language responses to a wide range of prompts and questions. It was trained on a massive amount data, corresponding to approximately 45 terabytes of text, or hundreds of billions of words. At least this is what ChatGPT told us when we asked. And just as we are all trying to understand the ramifications of all this for education and assessment, the multimodal ChatGPT-4 has been released that can ‘see’ and process images, highlighting just how fast this technology is advancing.

제너레이티브 AI는 학생과 연수생을 평가하는 방식에 잠재적으로 급진적이고 중요한 영향을 미칠 수 있습니다. 한 AI 도구는 이미 미국 의사 면허 시험에 합격한 것으로 나타났습니다.2,3 또 다른 도구는 방사선 사진 판독과 관련된 왕립 방사선사 대학 시험에서 상당히 우수한 성적을 거두었습니다.4 더욱 중요한 것은 출시 당시 ChatGPT-4가 잘 알려진 다양한 고난도 시험에서 상위 10%에 드는 성적을 거둔 것으로 나타났습니다. 이러한 최신 세대의 AI가 평가 과제에 설득력 있게 응답하는 능력은 인상적입니다. 따라서 우리는 더 이상 학생의 학습과 역량을 입증하기 위해 감독 없는 평가와 제출된 '인공물'에 의존할 수 없게 되었습니다. 이로 인해 교육자, 코스 코디네이터 및 커리큘럼 설계자에게 장기적으로 많은 요구가 제기되고 있으며, 평가 접근 방식에 대해 다시 생각해야 합니다. 이는 분명 지필 평가 과제의 역할과 위치에 의문을 제기하며, 지필 평가가 어떤 가치를 제공하고 있으며 앞으로도 계속 제공할 것인지 재고하게 만듭니다. 
Generative AI has potentially radical and significant implications for the way we assess our students and trainees. One AI tool has already shown to be capable of passing the US Medical Licensing Exam.2, 3 Another tool has performed reasonably well in a Royal College of Radiologists examination, involving the interpretation of radiographs.4 Even more significantly, at its launch, ChatGPT-4 was shown to have performed in the top 10% on a range of well-known high-stakes examinations. The ability of these latest generations of AI to respond convincingly to assessment tasks is impressive. Consequently, we can no longer rely on non-invigilated assessments and submitted ‘artefacts’ to demonstrate student learning and competence. This is bringing many long-term demands on educators, course coordinators and curriculum designers, forcing us to rethink assessment approaches. It certainly calls into question the role and place of written assessment tasks and makes us reconsider what value they offer or will continue to offer.

Generative AI has potentially radical and significant implications for the way we assess our students and trainees.



앞으로 우리는 '지원형' 평가와 '비지원형' 평가 사이에 중요한 차이가 있음을 알게 되었습니다. 

  • 전자는 응시자가 교과서, 인터넷, 의사 결정 지원 도구1, 그리고 이제는 실제 임상 실습을 대표하는 제너레이티브 AI 모델 등 다양한 도구와 리소스를 활용할 수 있는 평가입니다.
  • 반면에 비보조 평가는 임상 지식과 추론의 독립적인(그리고 검증 가능한) 시연이 관련 역량의 필수 요소인 인증 또는 요약 맥락에서 이러한 리소스에 대한 접근 없이 학생과 연수생의 지식과 이해를 평가하고자 할 때를 말합니다.

Going forward, we see an important distinction between ‘assisted’ assessments and ‘unassisted’ assessments.

  • The former is assessment that allows the candidate to draw on tools and resources, including textbooks, the Internet, decision-making support tools1 and now, generative AI models—in many ways, representative of real-life clinical practice.
  • Unassisted assessment, on the other hand, refers to times when we may wish to assess our students' and trainees' knowledge and understanding without access to such resources, such as for certification or summative contexts when the independent (and verifiable) demonstration of clinical knowledge and reasoning is a necessary element of the relevant competencies.

We see an important distinction between ‘assisted’ assessments and ‘unassisted’ assessments.

 

인증 시험에서 인공지능의 성과는 인공지능의 놀라운 합격 능력만큼이나 해당 평가의 성격에 대해 많은 것을 말해줍니다. 우리는 평가에서 어떤 종류의 성과를 이끌어내고자 하는지에 대해 신중하게 생각해야 합니다. 시발드 등의 연구에서 알 수 있듯이, 전자 진단 소프트웨어를 사용하여 시험 수행을 '보조'한다고 해서 시험의 심리 측정적 특성이 반드시 훼손되는 것은 아닙니다.1 하지만 이러한 보조 수행을 통해 진정한 이해와 '노하우'(밀러의 용어로)5를 유추할 수 있을까요? 아마도 아닐 수도 있습니다. 보조 기술을 즉시 사용할 수 없는 경우를 상상할 수 있을 뿐만 아니라(그러나 여전히 감별 진단이 필요하기 때문에), 교육자들은 이해가 여전히 교수, 학습 및 평가의 중요한 요소임을 계속 상기시키기 때문입니다.6 진정한 이해는 사실을 암기하거나 데이터를 입력하거나 알고리즘을 따르는 것과는 달리 사고와 지식 적용에 어느 정도의 자율성을 필요로 합니다. 
The performance of AI on certification tests says as much about the nature of those assessments as it does about the remarkable capacity of AI to pass them. We need to think carefully about the kind of performance we want our assessments to elicit. As Sibbald et al's study shows, the use of electronic diagnosis software to ‘assist’ performance on exams does not necessarily undermine their psychometric properties.1 But can we infer genuine understanding and ‘knows how’ (in Miller's terms)5 from such assisted performance? Perhaps not. This is where there remains value in assessing learners' understanding through unassisted means, not just because we might envisage times when assistive technology is not immediately available (and yet differential diagnoses are still required), but because educators keep reminding us that understanding remains a crucial element of teaching, learning and assessment.6 Genuine understanding requires some degree of autonomy in thinking and application of knowledge, as opposed to reciting facts, entering data or following algorithms.

비보조 평가 상황에서는 구술 평가와 같은 구두 평가 방법이 중요한 역할을 할 수 있으며 이러한 높은 수준의 인지에 접근할 수 있는 강력한 수단을 제공할 수 있다고 주장합니다. 구술 평가 방법은 낮은 신뢰도, 표준화 부족, 평가자 편향 가능성 등의 이유로 한동안 많은 평가계에서 저평가되어 왔습니다.7 그러나 많은 평가 학자들이 지적했듯이 평가 형식의 가치 또는 '유용성'은 여러 가지 상반된 요소에 따라 달라집니다.8 특정 상황에서는 구술 평가의 본질적인 특성, 특히 직접적인 의사소통, 상호 작용 및 유연성 모드가 부각되어 비보조 평가에 특히 적합한 선택이 될 수 있습니다. 학습자의 이해도와 역량에 대한 직접적이고 검증 가능한 증거가 필요한 경우, 구두 평가 형식은 비교적 간단하고 매우 유용한 방법입니다. 
For unassisted assessment contexts, we argue that oral assessment methods such as the viva can play an important role and offer a powerful avenue for accessing such higher levels of cognition. Oral assessment methods have been undervalued in many assessment circles for some time, in part due to their perceived poor reliability, lack of standardisation and potential for assessor bias.7 But as many assessment scholars have pointed out, the value or ‘utility’ of an assessment format depends on many different and competing factors.8 In certain circumstances, the intrinsic characteristics of oral assessment—in particular its mode of direct communication, interactivity and flexibility—come to the fore and make it a particularly apt choice for unassisted assessment. For those occasions when we need direct and verifiable evidence of our learners' understanding and competence, the oral assessment format is a relatively straightforward and highly useful method.

For unassisted assessment contexts, we argue that oral assessment methods such as the viva can play an important role and offer a powerful avenue for accessing such higher levels of cognition.

최근 편리한 온라인 플랫폼을 통한 가상 평가의 증가와 활성화, 그리고 AI가 제기하는 비구술 평가 형식에 대한 새로운 도전에 따라, 우리는 구술 형식이 의학교육에서 매우 가치 있고 독특한 평가 형식으로서 '재활'되고 재수용될 때가 왔다고 생각합니다. 다른 평가 형식과 마찬가지로, 평가 설계자와 실무자는 구두 평가를 계획하고 설계할 때 다양한 유형의 프롬프트 관행을 명확히 하고 모든 이해관계자에게 이러한 형태의 평가를 가장 잘 운영하는 방법에 대해 교육하는 등 사려 깊은 태도를 보여야 합니다. 한 가지 주요 이점은 응시자의 답변을 실시간으로 확인할 수 있기 때문에 진정한 이해와 고차원적 사고에 대한 심층적인 조사가 가능하다는 점입니다. 이러한 시험관의 상호작용은 사려 깊은 설계와 적절한 교육을 통해 효과적으로 표준화할 수 있습니다.9, 10 최근 보다 명확한 가이드라인이 등장하면서 의학교육 평가에서 구두 형식의 보다 유효한 적용에 대한 지원이 이루어지고 있습니다.11, 12
With the recent increase and facilitation of virtual assessment through convenient online platforms, and the new challenge to non-invigilated assessment formats posed by AI, we think the time has come for the ‘rehabilitation’ and re-acceptance of the oral format as a highly valuable and unique form of assessment in medical education. As with any assessment format, this requires that assessment designers and practitioners be thoughtful in planning and designing oral assessments, including clarifying the different types of prompting practices and educating all stakeholders on how to best operationalise this form of assessment. One major benefit is that since candidate responses can be clarified in real time, deep probing of genuine understanding and higher-order thinking is possible. Such examiner interaction can be standardised effectively with thoughtful design and appropriate training.9, 10 The recent emergence of clearer guidelines provides support for more valid application of the oral format in medical education assessment.11, 12

Think the time has come for the ‘rehabilitation’ and re-acceptance of the oral format.


생성형 AI가 형성적 또는 총괄적 맥락에서 평가의 유효성이나 신뢰성을 위협할 필요는 없습니다. 오히려 보조 평가에 충실도와 뉘앙스를 더하는 동시에 비보조 평가에 더 큰 집중력과 목적의식을 부여할 수 있습니다. 보조 평가 내에서 생성형 AI의 역할과 가치는 더 자세히 살펴봐야 합니다. 이러한 도구의 유용성은 빠르게 분명해지고 있으며, 많은 사람들이 AI를 사용하여 학습을 비계화하는 방법을 올바르게 고려하고 있습니다. 보조 평가 작업에 AI를 활용하면 학습을 발전시키고, 오해와 감독을 식별하고, 문제 해결의 길을 제시하는 데 도움이 될 수 있습니다. 예를 들어, 의사가 일상적으로 휴대폰을 사용하여 임상 진료 지침을 참조하거나 문서 템플릿을 사용하여 보고서를 표준화하는 방식과 유사하게 AI를 확인 리소스 또는 텍스트 생성 도구로 사용할 수 있습니다. 보조 평가에 AI를 전략적으로 포함시키는 것의 다른 측면은 비보조 평가를 통해 판단, 평가 및 비판적 추론과 같은 전형적인 인간 기술의 평가에 더 중점을 둘 수 있는 기회입니다.13 
Generative AI need not threaten the validity or trustworthiness of our assessments in either formative or summative contexts. Rather, it can add fidelity and nuance to assisted assessment while facilitating a greater focus and purposefulness to unassisted assessment. The role and value of generative AI within assisted assessments should be further explored. The usefulness of these tools is quickly becoming apparent, with many rightly considering how to use AI to scaffold learning. Building the use of AI into our assisted assessment tasks may advance learning, help identify misconceptions and oversight and suggest avenues for solutions to problems. For example, AI can be used as a confirmatory resource or text generation tool, akin to the way doctors routinely use their phones to consult clinical practice guidelines or standardise reports through the use of document templates. The other side of such strategic inclusion of AI in assisted assessment is the opportunity to place greater emphasis on the assessment of quintessential human skills, such as judgement, evaluation and critical reasoning through unassisted assessments.13

Generative AI need not threaten the validity or trustworthiness of our assessments in either formative or summative contexts. Rather, it can add fidelity and nuance to assisted assessment while facilitating a greater focus and purposefulness to unassisted assessment.

제너레이티브 AI가 기존의 평가 관행을 즉각적으로 해체할 필요는 없지만, 맥락에서 평가의 목적에 더욱 집중하여 현재 우리가 시행하고 있는 평가에 대해 다시 생각해 볼 필요가 있습니다. 우선, 구술 평가 형식은 비보조 상황에서 평가의 인증 기능을 충족하는 데 중요한 역할을 할 수 있으므로 '재생reclaim'해야 한다고 제안합니다. 또한, 보조 작업이 합당한 평가 맥락에서 AI에 대한 접근도 포괄적인 평가 시스템의 일부로 수용해야 합니다.
Although generative AI does not warrant a reactive dissolution of established assessment practices, it does call for a rethinking of assessment as we currently practice it, with a sharpening focus on its purpose in context. Initially, we propose that the oral assessment format should be ‘reclaimed’ as it can play an important role in meeting the certification function of assessment in unassisted contexts. Further, access to AI in assessment contexts where assisted tasks make sense will also need to be embraced as part of a comprehensive assessment system.


 
Med Educ. 2023 Apr 12. doi: 10.1111/medu.15092. Online ahead of print.

Rethinking assessment in response to generative artificial intelligence

Affiliations collapse

Affiliation

1Tertiary Education, Australian Council for Educational Research, Camberwell, Victoria, Australia.

PMID: 37042389

DOI: 10.1111/medu.15092

No abstract available

ChatGPT의 등장: 의학교육에서 잠재력 탐색 (Anat Sci Educ. 2023)
The rise of ChatGPT: Exploring its potential in medical education
Hyunsu Lee

 

소개
INTRODUCTION

의학교육에 기술을 통합하는 것은 지속적인 과정이었으며, 최근 인공지능(AI)과 머신러닝(ML)의 발전은 교육 혁신을 위한 흥미롭고 새로운 기회를 제시하고 있습니다. 이러한 AI 기반 도구 중 가장 주목할 만한 것은 OpenAI에서 개발한 GPT(Generative Pretrained Transformer) 언어 모델1과 그 변형인 ChatGPT입니다.1 최근 ChatGPT는 사람과 유사한 텍스트를 생성하고 사용자가 대화형 대화에 참여할 수 있는 기능으로 인해 단기간에 100만 명의 사용자를 확보하는 등 상당한 주목을 받고 있습니다(그림 1). 자연어 처리 기능과 고급 알고리즘을 갖춘 ChatGPT는 연구 및 의학 문헌 요약 및 평가와 같이 시간 집약적인 작업을 효율적으로 자동화할 수 있습니다. 의학교육 분야에서 ChatGPT는 학생들에게 상세하고 관련성 높은 정보를 제공할 수 있는 잠재력을 가지고 있으며, 다른 기술과 결합하여 대화형 시뮬레이션을 개발할 수도 있습니다. 
The integration of technology into medical education has been an ongoing process, with recent advancements in artificial intelligence (AI) and machine learning (ML) presenting exciting new opportunities for educational innovation. Among the most notable of these AI-based tools is the Generative Pretrained Transformer (GPT) language model
1 developed by OpenAI, and its variant, ChatGPT.1 Recently, ChatGPT has received considerable attention due to its ability to generate human-like text and engage users in interactive conversations, resulting in the acquisition of 1 million users in a short time (Figure 1). With its natural language processing capabilities and advanced algorithms, ChatGPT can efficiently automate time-intensive tasks, such as summarizing and evaluating research and medical literature. Within medical education, ChatGPT has the potential to provide students with detailed and relevant information and could be paired with other technologies to develop interactive simulations.

 

의학교육은 인공지능과 머신러닝의 발전으로 큰 혜택을 받을 수 있는 잠재력을 가지고 있습니다.6-9 해부학을 포함한 기초 과학 교육은 임상과 관련된 인체의 구조와 기능을 이해하기 위한 기초 토대를 마련합니다.10 이러한 학습 목표를 달성하려면 관련성 있고 상세한 정보, 매력적인 교육 리소스, 대화형 시뮬레이션의 기회가 필요합니다. 그러나 학생들은 방대한 양의 복잡한 정보를 이해하고 암기하는 데 어려움을 겪는 경우가 많습니다.11,12 따라서 의학교육에서 ChatGPT를 사용하면 학생들이 생물의학을 학습하는 방식에 혁신을 가져올 수 있습니다. 가상 조교 역할을 하는 ChatGPT는 학생들에게 실시간으로 개인화된 피드백을 제공하는 데 활용될 수 있습니다.13 의료 실습과 관련된 고도의 대화형 가상 실험실 시뮬레이션을 생성하기 위해 다른 기술(예: 게임 산업)과의 통합이 모색되고 있습니다. 
Medical education has the potential to greatly benefit from AI and ML advancements.
69 Basic science education, including the anatomical sciences, lays the foundational groundwork for understanding clinically relevant structures and functions of the human body.10 Achieving this learning goal requires relevant and detailed information, engaging educational resources, and opportunities for interactive simulations. However, students often find it difficult to comprehend and memorize vast amounts of complex information.11,12 Thus, the use of ChatGPT in medical education has the potential to revolutionize how students learn biomedical sciences. By serving as a virtual teaching assistant, ChatGPT could be leveraged to provide students with real-time and personalized feedback.13 The integration of ChatGPT with other technologies (e.g., the gaming industry) is being explored to generate highly interactive virtual laboratory simulations relevant to medical practice.

이 글에서는 의학교육에서 ChatGPT의 장점, 한계, 윤리적 고려사항에 대한 분석을 제공하며, 특히 의생명과학 교육에 중점을 두고 있습니다. 또한 커리큘럼 설계에 대한 ChatGPT의 함의를 살펴보고 이 기술의 잠재력을 극대화하기 위한 향후 연구 개발 방향에 대해 논의합니다. 
This article provides an analysis of the advantages, limitations, and ethical considerations of ChatGPT in medical education, with special emphasis on biomedical sciences education. In addition, this commentary explores ChatGPT's implications for curriculum design and discusses future research and development directions for maximizing this technology's potential. 

의학교육에서 ChatGPT의 잠재적 활용 및 이점
POTENTIAL APPLICATIONS AND BENEFITS OF CHATGPT IN MEDICAL EDUCATION

ChatGPT는 다음과 같은 잠재적 활용을 통해 의학교육을 향상시킬 수 있습니다:
ChatGPT can enhance medical education through the following potential applications:

ChatGPT는 가상 조교로 배포될 수 있습니다. 다양한 의학 주제에 대한 정보를 신속하게 제공할 수 있는 ChatGPT는 학생들에게 필요한 시점에 유용한 리소스가 될 수 있습니다.14,15 즉각적인 피드백과 연중무휴 정보 액세스를 제공합니다.2 해부학, 조직학 및 기타 의학 주제와 관련된 질문에 답변하고 쉽게 접근하고 이해할 수 있는 방식으로 설명을 제공할 수 있습니다. 추가 학습을 위한 추가 리소스도 제안할 수 있습니다. 학생들 사이에서 ChatGPT를 더 많이 사용하면 의도치 않게 교사의 업무량(예: 근무 시간 동안 학생이 없는 경우)이 줄어들어 실습 및 실습 교육과 같은 다른 커리큘럼 측면에 시간과 노력을 다시 집중할 수 있습니다. ChatGPT 사용의 또 다른 이점은 개인 맞춤형 교육을 제공할 수 있다는 점입니다.16-19 대화의 맥락에 따라 ChatGPT는 최종 사용자에게 적절한 수준으로 응답할 수 있으며, 아직 개발되지는 않았지만 학생의 진도를 추적하고 교육 스타일을 조정할 수 있는 잠재력을 가지고 있을 수 있습니다. 어려움을 겪고 있는 학생은 어렵고 복잡한 개념을 자신의 수준에 맞는 방식으로 설명함으로써 도움을 받을 수 있습니다.20 예를 들어, 학생은 "[무언가]를 초등학생 수준으로 설명해 주세요"와 같은 프롬프트를 사용하여 챗봇과 대화를 시작할 수 있습니다.
ChatGPT could be deployed as a virtual teaching assistant. With its ability to quickly return information on various medical topics, ChatGPT could be a valuable point-of- need resource for students.14,15 ChatGPT provides instant feedback and 24/7 access to information.2 It can answer questions and provide explanations related to anatomy, histology, and other medical subjects in a way that is easily accessible and understandable. It can even suggest additional resources for further learning. Greater use of ChatGPT among students may inadvertently reduce teachers' workloads (e.g., having no students during office hours), allowing them to refocus their time and efforts on other curricular aspects, such as practical skills and hands-on training. Another benefit of using ChatGPT is the personalized education it has the potential to offer.1619 Based on the context of a conversation, ChatGPT can respond to end-users at an appropriate level and may have the potential to track students' progress and adjust its teaching style, though this feature is not yet developed. Struggling students may benefit by having difficult and complex concepts explained in a way that adapts to their level.20 For example, a student could initiate a conversation with the chatbot using a prompt like, “Explain [something] at an elementary level.”

ChatGPT와 대화형 가상 실험실 시뮬레이션의 결합은 향후 연구를 위한 비옥한 토양이 될 것입니다. ChatGPT는 곧 텍스트 기반 응답을 넘어 대화형 학습 경험을 촉진할 수 있을 것입니다. 예를 들어, 게임 업계에서는 비플레이어 캐릭터와의 대화에 ChatGPT를 사용하는 방안을 모색하고 있습니다. 마찬가지로 의대생들은 가상 조직학 슬라이드 프로그램과 함께 ChatGPT를 사용하여 교육을 용이하게 할 수 있습니다. 학생들은 각 슬라이드를 검토할 때 관찰된 세포와 조직 구성 요소에 대한 정보를 제공하도록 ChatGPT에 요청하여 실시간으로 주제에 대한 이해도를 높일 수 있습니다. 이러한 기술을 교육 환경에 통합하면 학생들에게 몰입도 높은 학습 경험을 제공할 수 있습니다.12 ChatGPT는 이미 정답 설명이 포함된 자가 점검 퀴즈(예: 표 1, 프롬프트 및 응답 참조)를 생성할 수 있습니다. 
The combined use of ChatGPT with interactive virtual laboratory simulations is fertile ground for future investigations. ChatGPT may soon be able to facilitate an interactive learning experience beyond text-based responses. The gaming industry, for example, is exploring the use of ChatGPT for non-player character conversations. Likewise, medical students may be able to use ChatGPT in conjunction with a virtual histology slide program to facilitate their education. As students review each slide, they can prompt ChatGPT to provide information about the observed cells and tissue components, enhancing their comprehension of the topic in real time. Integrating such technologies into educational settings could offer students an immersive learning experience.
12 ChatGPT is already capable of generating self-check quizzes (see Table 1, e.g., prompts and responses) with answer explanations.

전반적으로 ChatGPT는 학생의 학습 경험을 향상시키고 학습자가 의료 및 헬스케어 분야에서 경력을 쌓을 수 있도록 더 잘 준비시킬 수 있는 잠재력을 가지고 있습니다. 실제로 ChatGPT의 효과는 아직 검증되지 않았지만, Klutka 외.21가 요약하고 표 2에 요약한 바와 같이 의학 교육에서 유용하게 사용될 경우 다양한 이점을 얻을 수 있을 것으로 예상됩니다. 
Overall, ChatGPT has the potential to augment the student learning experience and better equip learners for careers in the medical and health-care fields. While the efficacy of ChatGPT remains to be seen in practice, its usefulness in medical education is expected to yield various benefits, as outlined by Klutka et al.
21 and summarized in Table 2.

커리큘럼 설계를 위한 ChatGPT 사용
USING CHATGPT FOR CURRICULUM DESIGN

ChatGPT는 현장에서 커리큘럼 설계, 평가 전략 및 교육 방법에 큰 영향을 미칠 수 있는 잠재력을 가지고 있습니다. 의학교육에서 기술의 역할이 점점 더 중요해짐에 따라 교육자는 변화하는 환경에 적응해야 합니다.   
ChatGPT has the potential to significantly impact curriculum design, assessment strategies, and teaching methods in the field. As technology continues to play an increasingly prominent role in medical education, educators must adapt to the changing landscape.  

학생들이 첨단 기술을 효과적으로 활용하고 미래의 진료에 통합하는 데 필요한 디지털 리터러시와 역량을 갖출 수 있도록 하는 것이 중요합니다. 이러한 목표를 달성하기 위해 의학교육자는 기술 기반 교육 및 학습 방법을 커리큘럼에 통합하기 위해 교육 접근 방식을 수정해야 할 수 있습니다. ChatGPT는 학생들이 미래의 의료 실무에 필요한 기술과 역량을 습득하도록 돕는 데 이상적일 수 있습니다.22 의료의 미래에는 온라인 플랫폼, 앱, 전자 건강 기록과 같은 디지털 도구가 보편화될 것이며, 의료용 대형 언어 모델(예: 방사선학 보고서)의 출력물에 대한 의존도가 점점 더 높아질 수 있습니다. 따라서 학생들은 언젠가 동료 및 환자와 소통할 때 언어 모델 결과물을 해석하고 적용해야 할 수도 있으므로 이러한 기술을 효과적으로 사용하는 데 필요한 역량을 습득하는 것이 중요합니다. 
It is crucial to ensure that students are equipped with the necessary digital literacy and competencies to effectively utilize and integrate advanced technologies into their future practices. To achieve this goal, medical educators may need to modify their teaching approaches to incorporate technology-based teaching and learning methods into their curricula. ChatGPT may be ideally suited for helping students to acquire the skills and competencies required for future medical practice.
22 In the future of health care, digital tools such as online platforms, apps, and electronic health records will be ubiquitous, and the outputs of large language models for medical uses (e.g., radiology reports) could become increasingly relied upon. As such, it would behoove students to acquire the competencies necessary to effectively use these technologies, as they may 1 day need to interpret and apply language model outputs when communicating with colleagues and patients.

ChatGPT와 같은 AI 도구의 통합은 평가 전략에 대한 재고와 재설계를 불러일으킬 수도 있습니다. 필기 시험과 같은 전통적인 방법으로는 디지털 및 기술 리터러시 능력을 평가하는 데 적합하지 않을 수 있습니다. 또한, 학업 부정행위에 ChatGPT를 사용하면 보고서나 에세이 작성과 같은 전통적인 평가 방법의 유효성에 의문이 제기될 수 있습니다. AI가 학습 과정과 임상 실습을 변화시킨다면 기술 중심 의료 산업의 진화하는 수요를 충족하기 위해 새롭고 다양한 평가 전략이 필요할 수 있습니다. 
The integration of AI tools, like ChatGPT, might also provoke a rethinking and redesign of assessment strategies. Traditional methods, such as written exams, may not be well equipped to assess digital and technology literacy skills. Moreover, the use of ChatGPT for academic misconduct calls into question the validity of traditional assessment methods, like report or essay writing. If AI transforms learning processes and clinical practice, new and different assessment strategies may be needed to meet the evolving demands of the technology-driven health-care industry.

ChatGPT는 교육 계획과 교육 방법에도 영향을 미칠 수 있습니다. 현재 상태에서는 교육자가 수업 계획 초안을 작성하고 브레인스토밍하는 데 ChatGPT가 도움이 될 수 있습니다.19 AI 기술과 그 피상적인 교육 능력의 출현으로 전통적인 강의와 시연은 더 이상 정보 전달이나 학생 학습을 촉진하는 데 효과적이지 않을 수 있습니다. 따라서 의학교육자는 기술 향상 학습에 가장 적합한 교수법을 탐구하고 구현하는 데 부지런하고 능동적으로 임해야 합니다.23 
ChatGPT might also impact educational planning and teaching methods. In its current state, ChatGPT can help educators draft and brainstorm lesson plans.19 With the advent of AI technology and its cursory ability to teach, traditional lectures and demonstrations may no longer be as effective for delivering information or facilitating student learning. Hence, medical educators must be diligent and proactive in exploring and implementing teaching methods best suited for technology-enhanced learning.23

ChatGPT의 한계 및 우려 사항
CHATGPT'S LIMITATIONS AND CONCERNS

ChatGPT의 기존 장점과 미래 잠재력에도 불구하고 가장 큰 주요 과제는 AI 시스템에서 제공하는 정보의 정확성과 신뢰성을 보장하는 것입니다. 의학교육은 작은 오류도 환자 안전에 중대한 결과를 초래할 수 있기 때문에 높은 수준의 정밀도와 정확성이 필요합니다. 학생들이 부정확하거나 오해의 소지가 있는 정보를 받을 위험은 실제로 존재합니다. ChatGPT는 대량의 데이터를 기반으로 훈련하지만, 훈련 과정에서 오류나 간과가 발생할 가능성이 항상 존재하며, 훈련 데이터 자체에 부정확한 정보가 포함될 수 있습니다. 배경 지식이 부족한 학생은 이러한 오류를 식별하기 어렵습니다. 예를 들어, 사람의 심장에 대한 질문을 받았을 때 ChatGPT는 마치 사람의 심장에 심실이 두 개만 있는 것처럼 응답합니다(표 3). 후속 확인 질문에 대한 정답을 제공하더라도 이러한 결과는 학습자에게 혼란을 줄 수 있습니다. ChatGPT는 지식 기반이 아니라 입력 문자열에 대해 작동하여 가능한 응답을 예측하는 언어 모델입니다. ChatGPT를 학습시키는 데 사용되는 데이터는 신뢰할 수 있는 것으로 추정되지만, 이것이 ChatGPT의 생성된 응답이 일관되게 신뢰할 수 있거나 인코딩된 지식을 전제로 한다는 것을 필연적으로 의미하지는 않는다는 점을 인식하는 것이 중요합니다. 따라서 ChatGPT의 응답의 정확성은 가설적인 것이며 절대적인 것이 아닙니다. 이는 학생들의 생물의학에 대한 이해에 심각한 결과를 초래할 수 있습니다. 의학교육 내에서 ChatGPT의 정확성을 보장하기 위해서는 책임 있는 당사자(예: 의학교육 기관, 기술 회사, 규제 기관)가 명확한 가이드라인과 검증 메커니즘을 개발하고 광범위하게 테스트해야 합니다. 
Despite ChatGPT's existing benefits and future potential, the greatest primary challenge is ensuring the accuracy and reliability of the information provided by the AI system. Medical education requires a high degree of precision and accuracy, as even small errors can have significant consequences for patient safety. The risks of students receiving incorrect or misleading information are real. Although ChatGPT is trained on large amounts of data, there is always the possibility of errors or oversights in its training process, and the training data itself may contain inaccurate information. It is difficult for students with limited background knowledge to identify such errors. For instance, when asked about the human heart, ChatGPT responds as if the human heart only has two chambers (
Table 3). Despite providing the correct response to the subsequent verification question, these results can be confusing for learners. ChatGPT is not a knowledge base, but rather a language model that operates on input strings to predict probable responses. While the data used to train ChatGPT is presumed to be authentic, it is vital to acknowledge that this does not inevitably signify that ChatGPT's generated responses are consistently reliable or premised on encoded knowledge. The accuracy of ChatGPT's responses is, therefore, hypothetical, and not absolute. This could have serious consequences for students' understanding of the biomedical sciences. To ensure ChatGPT's accuracy within medical education, clear guidelines and verification mechanisms should be developed and extensively tested by responsible parties (e.g., medical education institutions, technology companies, and regulatory bodies).

교육자들이 우려하는 또 다른 문제는 학생들이 AI 모델을 주요 정보 출처로 의존하게 될 수 있다는 점입니다. 이는 결국 학생들의 비판적 사고와 문제 해결 능력 발달에 부정적인 영향을 미칠 수 있습니다. 특히 학생들이 ChatGPT를 사용하는 방법이나 반환되는 정보를 평가하는 방법에 대해 제대로 교육받지 않은 경우 더욱 그렇습니다. 학생들이 자료를 제대로 이해하지 못한 채 ChatGPT에 의존하게 되면 생물의학에 대한 전반적인 지식이 저하될 수 있습니다.
Another concern among educators is that students may come to rely on the AI model as their primary source of information. This, in turn, could negatively impact the development of students' critical thinking and problem-solving skills. This is especially true if students are not properly trained on how to use ChatGPT or how to evaluate the information it returns. The potential for students to rely on ChatGPT without truly understanding the material could lead to a reduction in their overall knowledge of biomedical sciences.

언어 모델에 대한 학생의 의존성은 학업적 부정직 또는 "부정 행위"를 조장할 수도 있습니다. 예를 들어, 학생이 자료를 완전히 이해하지 못하거나 필요한 노력을 기울이지 않고 에세이나 기타 서면 과제를 완료하기 위해 ChatGPT를 사용할 수 있습니다. 교육자는 과제에 대한 명확한 지침과 기대치를 제시하고 학업 부정행위의 결과를 전달함으로써 이러한 가능성을 줄일 수 있습니다. 또한 언어 모델로는 쉽게 완료할 수 없는 비판적 사고, 창의성 및 정보 종합이 필요한 평가를 통합할 수도 있습니다. 최신 표절 탐지 기술(예: Originality.ai, GPTZero, Plagibot)도 ChatGPT의 의도하지 않은 결과에 대응하는 데 사용될 수 있습니다.
Student dependency on the language model may also propagate academic dishonesty or “cheating.” For example, a student might use ChatGPT to complete an essay or other written assignment without fully understanding the material or putting in the required effort. Educators can reduce the likelihood of this by providing clear guidelines and expectations for assignments and communicating the consequences of academic dishonesty. They can also incorporate assessments that require critical thinking, creativity, and the synthesis of information that cannot be easily completed with language models. Newer plagiarism detection technologies (e.g., Originality.ai, GPTZero, and Plagibot) can also be used to counter this unintended consequence of ChatGPT.

의학교육에서 인공지능과 머신러닝 모델을 사용하는 것은 몇 가지 윤리적 문제를 제기합니다. 주요 윤리적 문제 중 하나는 이러한 모델이 편견과 차별을 지속시킬 수 있다는 점입니다.24 이는 모델 훈련에 사용된 데이터가 편향되어 있거나 알고리즘 자체가 본질적으로 편향된 방식으로 설계된 경우 발생할 수 있습니다. 예를 들어, 언어 모델이 성별 및 인종적 편견을 재생산하고 증폭시킬 수 있다는 연구 결과가 있습니다.25 의학교육의 맥락에서, 이는 학생들이 부정확하거나 차별적인 정보를 받아 다양한 관점과 경험을 대표하지 못하는 결과를 초래할 수 있습니다. 이는 학습과 환자 치료에 심각한 결과를 초래할 수 있습니다.
The use of artificial intelligence and machine learning models in medical education raises several ethical concerns. One primary ethical issues is the potential for these models to perpetuate biases and discrimination.
24 This could occur if the data used to train the models are biased or if the algorithms themselves have been designed in a way that are inherently biased. For example, studies have shown that language models can reproduce and amplify gender and racial biases in their outputs.25 In the context of medical education, this could result in students receiving inaccurate or discriminatory information, leading to a lack of representation of diverse perspectives and experiences. This could have serious consequences for their learning and patient care.

또한 ChatGPT는 개인정보 보호 및 기밀 유지와 관련된 몇 가지 윤리적, 법적 문제를 제기합니다.26 의료 교육에는 종종 학생, 교사, 의료 전문가 간에 환자 데이터와 같은 민감한 정보를 공유해야 하는 경우가 있습니다. 의학교육에서 ChatGPT 또는 기타 AI 도구를 사용하는 것이 민감한 정보의 개인정보 보호 및 보안에 어떤 영향을 미칠 수 있는지 고려하는 것이 중요합니다. 이러한 데이터를 보호하기 위한 적절한 조치가 마련되어 있을 수 있지만, 잠재적인 위험을 신중하게 평가하고 적절한 안전장치가 마련되어 있는지 확인하는 것이 중요합니다. 의학교육에서 AI 도구를 사용하는 것이 갖는 의미와 잠재적 위험을 완화하는 최선의 방법을 완전히 이해하려면 추가적인 연구와 분석이 필요할 수 있습니다. 
ChatGPT also raises some ethical and legal concerns related to privacy and confidentiality.
26 Medical education often involves the sharing of sensitive information, such as patient data, between students, teachers, and medical professionals. It is important to consider how the use of ChatGPT or other AI tools in medical education could impact the privacy and security of sensitive information. While appropriate measures may be in place to protect such data, it is still important to carefully evaluate the potential risks and ensure that adequate safeguards are in place. Further research and analysis may be needed to fully understand the implications of using AI tools in medical education and how best to mitigate potential risks.

일부에서는 ChatGPT 및 기타 유사한 AI 시스템이 결국 인간 교육자의 특정 역할을 대체할 수 있다는 의견도 있습니다.27 이러한 모델은 학생들에게 신속하고 관련성 있는 정보를 제공하지만, 인간 상호 작용의 양과 질을 감소시키고 학생들이 받는 개인적인 관심과 피드백의 양을 감소시킬 수도 있습니다. 이는 학생들의 학습과 전반적인 교육 경험에 해를 끼칠 수 있습니다. 또한 인간 교사에 대한 수요 감소로 인한 실업은 경제적으로도 영향을 미칠 수 있습니다. AI가 발전함에 따라 의료 교육자를 지원하기 위한 정책과 이니셔티브를 개발하고 고용 시장에 미치는 악영향을 사전에 완화하기 위한 조치를 취해야 할 수도 있습니다. 
Some are of the opinion that ChatGPT and other similar AI systems could eventually replace certain roles of human educators.27 While these models provide students with quick and relevant information, they may also lead to a reduction in the quantity and quality of human interactions and a decrease in the amount of personal attention and feedback students receive. This could harm students' learning and their overall educational experience. Furthermore, unemployment resulting from a decreased demand for human teachers could have economic consequences. As AI advances, steps may need to be taken to develop policies and initiatives to support health-care educators, and proactively mitigate any adverse effects on the job market.

마지막으로, 의학교육에서 AI를 사용하는 데 있어 책임과 투명성 문제는 현재 해결되지 않은 문제입니다. AI 시스템의 실수 및 오류(예: 부정적 결과를 초래하는 잘못된 정보)가 발생할 경우 기술 및 개발자의 책임에 대한 윤리적 의문이 제기됩니다.28 AI 모델이 의사 결정 과정을 투명하게 하고, 추천 및 정보 제공 방식을 명확하게 이해하는 것이 중요합니다.24 
Finally, issues of accountability and transparency in the use of AI in medical education are currently unresolved. Ethical questions about the responsibility of the technology and its creators are raised in cases of AI system mistakes and errors (e.g., incorrect information that results in a negative outcome).
28 It is important to ensure AI models are transparent in their decision-making processes and that there is a clear understanding of how they are making recommendations and providing information.24

결론
CONCLUSIONS

AI의 빠른 발전과 진보를 고려할 때 ChatGPT 및 기타 AI 기반 학습 도구는 시간이 지남에 따라 계속 진화하고 개선될 것으로 예상됩니다. 따라서 의학교육에서 AI 시스템을 최적으로 통합하고 근거에 기반하여 사용하기 위해서는 지속적인 연구와 평가가 필요합니다. 이러한 도구가 지식 유지, 문제 해결 능력, 비판적 사고력 등 학생의 학습 성과에 미치는 영향을 평가하는 강력한 평가가 필요합니다. 인공지능 기반 학습 도구의 윤리적, 사회적 영향에 관한 조사도 이 분야에 도움이 될 것입니다.
Give AI's rapid progress and advancements, it is expected that ChatGPT and other AI-based learning tools will continue to evolve and improve over time. As such, continued research and evaluation are needed to ensure optimal integration and evidence-based uses of AI systems in medical education. Robust evaluations assessing the
impact of these tools on student learning outcomes, such as knowledge retention, problem-solving abilities, and critical thinking skills are warranted. Investigations concerning the ethical and societal effects of AI-powered learning tools would also benefit the field.

결론적으로, 의학교육에 ChatGPT를 적용하면 학생들의 학습 경험을 향상시키고 보다 인터랙티브하고 매력적인 교육 환경을 조성할 수 있는 상당한 잠재력을 가지고 있습니다. 상세한 정보를 제공하는 능력, 대화형 시뮬레이션의 잠재력, 교육 리소스로서의 유용성 등 ChatGPT는 다양한 교육 분야에 활용될 수 있는 가능성을 지니고 있습니다. 이 기술을 전통적인 교육 방법과 함께 사용하면 학생과 교사 모두에게 도움이 될 수 있습니다. 
In conclusion, the application of ChatGPT in medical education holds significant potential for enhancing students' learning experiences and creating a more interactive and engaging educational environment. With its ability to provide detailed information, the potential for interactive simulations, and its utility as an educational resource, ChatGPT holds promise for many educational applications. Using this technology, in conjunction with traditional teaching methods, could benefit both students and teachers alike.


Anat Sci Educ. 2023 Mar 14. doi: 10.1002/ase.2270. Online ahead of print.

The rise of ChatGPT: Exploring its potential in medical education

Affiliations collapse

Affiliation

1Department of Medical Informatics, School of Medicine, Keimyung University, #223, 1095, Dalgubeoldae-ro, Dalseo-gu, Daegu, Republic of Korea.

PMID: 36916887

DOI: 10.1002/ase.2270

Abstract

The integration of artificial intelligence (AI) into medical education has the potential to revolutionize the way students learn about biomedical sciences. Large language models, such as ChatGPT, can serve as virtual teaching assistants, providing students with detailed and relevant information and perhaps eventually interactive simulations. ChatGPT has the potential to increase student engagement and enhance student learning, though research is needed to confirm this. The challenges and limitations of ChatGPT must also be considered, including ethical issues and potentially harmful effects. It is crucial for medical educators to keep pace with technology's rapidly changing landscape and consider the implications for curriculum design, assessment strategies, and teaching methods. Continued research and evaluation are necessary to ensure the optimal integration of AI-based learning tools into medical education.

Keywords: ChatGPT; artificial intelligence; medical education; natural language processing; virtual teaching assistant.

크리스마스 2022: 과학자: 크리스마스 12일째날, 통계학자가 보내주었죠(BMJ, 2022)
CHRISTMAS 2022: THE SCIENTIST
On the 12th Day of Christmas, a Statistician Sent to Me . . .
Richard D Riley, 1 Tim J Cole, 2 Jon Deeks, 1 Jamie J Kirkham, 3 Julie Morris, 4 Rafael Perera, 5 Angie Wade, 6 Gary S Collins7 

 

 

크리스마스까지 이어지는 몇 주는 의학 연구를 위한 마법의 시간이다. 임박한 휴가철은 연구원들이 시간을 내어 통계 분석을 끝내고 원고를 작성하고 검토자들의 의견에 응답하는 등 생산성에 극적인 상승을 일으킨다. 이러한 활동은 12월에 The BMJ와 같은 학술지에 대한 투고가 쇄도하여 연구자들이 학업 성취감을 가지고 한 해를 마무리하고 사랑하는 사람들과 함께 축제를 즐길 수 있도록 한다. 사실, 연구원들은 심지어 크리스마스의 12일이 끝나는 1월 초까지 그들의 논문이 받아들여질 것으로 예상할 수도 있다. 
The weeks leading up to Christmas are a magical time for medical research. The impending holiday season creates a dramatic upsurge in productivity, with researchers finding time to finish off statistical analyses, draft manuscripts, and respond to reviewers’ comments. This activity leads to a plethora of submissions to journals such as The BMJ in December, so that researchers can finish the year with a sense of academic achievement and enjoy the festivities with their loved ones. Indeed, with optimism fuelled by mulled wine and mince pies, researchers may even anticipate their article’s acceptance by early January, at the end of the 12 days of Christmas.

그러나 집단은 이 출판 호의와 환호의 계절에 반대한다. 즉, 세부적인 것에 대해 매우 빛나는 코를 가진 작지만 영향력 있는 통계학자 그룹은 "모든 것이 밝다" 보다는 "모든 것이 옳다"를 추구하고 호, 호, 호, 호보다는 "아니오"를 강조한다. 통계학자들의 핵심 신념은 연구 기사가 크리스마스뿐만 아니라 평생을 위한 것이며, 높은 기준의 방법론적 엄격성과 투명성을 촉진하는 통계적 리뷰를 제공한다는 것이다. 그래서 당신은 그들이 크리스마스 기간 동안 얼마나 바쁜지 상상할 수 있을 것이다 - 그들이 먹고 마시고 즐거워하기도 전에, 이 사람들은 공개된 불에서 구워져야 하는 잘못된 분석 방법, 노란 눈처럼 순수한 의심스러운 통계적 해석, 그리고 반b로 제출물을 감지하기 위해 지칠 줄 모르고 일하고 있다편안함과 즐거움을 전혀 가져다 주지 않는 연구 세부 사항에 대한 케잌 보고. 허튼소리! 
A collective, however, works against this season of publication goodwill and cheer—a small but influential group of statisticians with very shiny noses for detail, seeking “all is right” rather than “all is bright” and emphasising no, no, no rather than ho, ho, ho. The statisticians’ core belief is that a research article is for life, not just for Christmas, and they deliver statistical reviews that promote high standards of methodological rigour and transparency. So you can imagine how busy they are during the Christmas period with its influx of submissions—even before they can eat, drink, and be merry, these individuals are working tirelessly to detect submissions with erroneous analysis methods that should be roasting on an open fire, dubious statistical interpretations as pure as yellow snow, and half-baked reporting of study details that bring zero comfort and joy. Bah humbug!

매년 BMJ의 통계 편집자들은 500개 이상의 기사를 검토한다. 약 30년 동안, 통계팀은 마틴 가드너와 더그 알트먼이 이끌었는데, 둘 다 통계학자와 크리스마스 별 사이의 유사성을 보았고, 통계학자들은 연구 무결성의 길을 밝히고, 측정 기준에 대한 방법론을 홍보하며, "과학과 세계를 구하기 위한" 통계 원칙을 장려했다.5 
Each year The BMJ’s statistical editors review more than 500 articles. For about 30 years, the statistical team was led by Martin Gardner and Doug Altman,12 both of whom saw similarities between statisticians and the Christmas star, with the statisticians lighting a path of research integrity, promoting methodology over metrics,34 and encouraging statistical principles to “save science and the world.”5

통계 동료 검토 중에 발생하는 가장 일반적인 문제를 도출하기 위해 BMJ의 통계 편집자에게 내부 조사를 실시하였다. 12개 항목이 확인되었으며, 각 항목은 여기에 설명되어 있습니다. 12월 25일부터 1월 5일까지 통계학자들이 그린치의 사고방식으로 리뷰를 진행하는 기간인 크리스마스의 12일마다 하나의 항목이 있지만 34번가의 미라클 온의 친절한 마음을 가지고 있다. 
To elicit the most common issues encountered during statistical peer review, an internal survey was administered to The BMJ’s statistical editors. Twelve items were identified, and each are described here. There is one item for each of the 12 days of Christmas, the period between 25 December and 5 January when the statisticians conduct their reviews in the mindset of the Grinch,6 but with the kind heart of Miracle On 34th Street.

재림절
Advent

매년 12월 BMJ의 통계 편집자들은 BMJ의 크리스마스 파티에서 휴식을 취하기 전에 공통적인 통계적 우려, 문제가 있는 제출물(인터넷을 통해 미끄러진 제출물, 소위 신빈 기사 포함), 검토 과정을 개선하는 방법에 대해 논의할 때 하루 동안 만난다. 2019년 12월 18일 회의에서 통계학자들은 공통된 통계 문제를 보여주는 기사가 향후 기사 제출 저자에게 도움이 될 것이라는 데 동의했고, 초기 항목 세트가 논의되었다. 2020년 12월 17일과 2021년 12월 16일의 후속 크리스마스 회의에서 이 기사에 대해 상기시키자, 통계학자들은 아이러니하게도 BMJ 시스템에서 우선순위를 두어야 할 통계 검토의 수 때문에 진행이 지연되고 있다고 설명했다. 
Every December The BMJ’s statistical editors meet for a day, when they discuss common statistical concerns, problematic submissions (including those that slipped through the net, the so-called sin bin articles), and how to improve the review process, before unwinding at The BMJ’s Christmas party. At the meeting on 18 December 2019, the statisticians agreed that an article showcasing common statistical issues would be helpful for authors of future article submissions, and an initial set of items was discussed. When reminded about this article at subsequent Christmas meetings on 17 December 2020 and 16 December 2021, the statisticians explained that progress was being delayed, ironically because of the number of statistical reviews that needed to be prioritised in The BMJ’s system.

추가 연기 후, 2022년 6월 28일, 잠재적인 항목 목록이 이메일을 통해 통계 편집자들 사이에 공유되었고, 모든 사람들은 통계 검토 중에 정기적으로 마주치는 추가 문제를 포함하도록 요청받았다. 조사 결과는 (이메일을 통해) 수집되고 논의되었으며, 더 광범위한 보급을 위해 합의된 가장 중요한 항목의 최종 목록이 작성되었다. 잘 알려진 곡의 크리스마스 일수에 맞춰 12개의 아이템이 선정되었다(이에 따라 BMJ의 크리스마스 호에 게재될 기회가 증가한다). 얕은 학습 접근법과 딥 러닝 접근법을 포함한 민감도 분석 결과, 동일한 12개 항목이 선택되었다. 자동화된 인공지능 알고리즘은 모든 통계 편집자들이 그들 자신의 연구 기사 중 일부에서 유사한 통계적 오류를 범했다는 것을 빠르게 확인했다. 
After further procrastination, on 28 June 2022 a potential list of items was shared among the statistical editors by email, and everyone was asked to include any further issues they regularly encountered during statistical review. The findings were collated and discussed (by email) and a final list of the most important items agreed for wider dissemination. Twelve items were selected, to match the number of days of Christmas in the well known song (and thereby increase the chance of publication in The BMJ’s Christmas issue). Sensitivity analyses, including shallow and deep learning approaches, led to the same 12 items being selected. An automated artificial intelligence algorithm quickly identified that all the statistical editors were guilty of similar statistical faux pas in some of their own research articles, and so are not whiter than snow.

12일간의 통계 검토
The 12 days of statistical review

크리스마스에 그들을 집으로 데려다 주는 것을 돕기 위해, 12개의 식별된 물건들이 간략하게 설명되어 있다. BMJ 독자이자 미래의 작가인 당신을 위한 스타킹 필러로 생각하세요. 상당한 양의 크리스마스 식사를 허용하면서, 12월 25일과 1월 5일 사이에 매일 한 가지 항목을 소화하고 지침을 따르는 새해 결심을 하세요. 
To help drive them home for Christmas, the 12 identified items are briefly explained. Consider them as stocking fillers for you, The BMJ reader and potential future author. Allowing for sizeable Christmas meals, digest one item each day between 25 December and 5 January and make a New Year’s resolution to follow the guidance.

On the first day of Christmas, a statistician sent to me:

연구 질문을 명확히 합니다
Clarify the research question

크리스마스는 삶의 의미와 미래의 기대에 대한 성찰의 시간이다. 마찬가지로, 통계학자들은 종종 리뷰에서 저자들이 연구 질문을 반성하고 그들의 목표를 명확히 하도록 권장한다. 예를 들어,

  • 관찰 연구에서 저자는 자신의 연구가 기술적이거나 인과적이거나, 예측 인자 식별 또는 예측 모델 개발 또는 탐색적이거나 확인적인 범위를 명확히 할 필요가 있을 수 있다.
  • 인과관계 연구의 경우 저자들에게 기본 전제(원인 경로 또는 모델)를 예를 들어 지시된 비순환 그래프로 표현하도록 요청할 수 있다.
  • 개입 연구의 체계적인 검토에서 저자는 PICO 구조인 모집단, 개입, 비교 및 결과 시스템을 사용하여 연구 질문을 진술해야 할 수 있다.

Christmas is a time for reflection on the meaning of life and future expectations. Similarly, in their reviews, statisticians will often encourage authors to reflect on their research question and clarify their objectives. As an example,

  • in an observational study, the authors may need to clarify the extent to which their research is descriptive or causal, prognostic factor identification or prediction model development, or exploratory or confirmatory.
  • For causal research, authors may be asked to express the underlying premise (causal pathway or model), for example, in terms of a directed acyclic graph.
  • In systematic reviews of intervention studies, authors might need to state their research question using the Population, Intervention, Comparison, and Outcome system—the PICO structure.

관련된 요청은 추정을 위한 연구의 목표 측도인 추정량을 명확히 하는 것이다. 예를 들어 

  • 무작위 시험에서 [추정치][치료 효과]이지만 통계학자는 모집단, 비교 중인 치료, 결과, 요약 측정(예: 위험 비율 또는 위험 차이, 조건부 또는 한계 효과) 및 기타 특징에 대한 더 나은 정의를 요청할 수 있다. 
  • 마찬가지로 무작위 시험의 메타 분석에서 [추정량]은 [연구 특성의 잠재적 이질성의 맥락]에서 정의되어야 한다. 예를 들어, 추적 관찰 기간이 다른 고혈압 임상시험의 메타 분석에서, 추정치가 혈압에 대한 치료 효과인 경우, 이것이 한 시점(예: 1년), 여러 시점(예: 1년과 5년), 또는 특정 시점 범위(예: 6개월에서 2년)에 걸친 평균과 관련이 있는지에 대한 명확성이 필요하다.

A related request would be to clarify the estimandthe study’s target measure for estimation.7 

  • In a randomised trial, for example, the estimand is a treatment effect, but a statistician might request better definitions for the population, treatments being compared, outcomes, summary measure (eg, risk ratio or risk difference, conditional or marginal effect), and other features.78 
  • Similarly, in a meta-analysis of randomised trials the estimand must be defined in the context of potential heterogeneity of study characteristics. In a meta-analysis of hypertension trials with different lengths of follow-up, for example, if the estimand is a treatment effect on blood pressure, clarity is needed about whether this relates to one time point (eg, one year), each of multiple time points (eg, one year and five years), or some average across a range of time points (eg, six months to two years).

 

On the second day of Christmas, a statistician sent to me:

추정치, 신뢰 구간 및 임상 관련성에 초점을 맞춥니다
Focus on estimates, confidence intervals, and clinical relevance

덜 익은 칠면조를 돌려보내는 것과 마찬가지로, 발견이 중요한지 여부를 결정하기 위해 P 값과 "통계적 중요성"에만 초점을 맞춘 기사도 마찬가지일 것이다. 추정치(예: 크리스마스 첫날부터 지정된 추정치에 해당하는 평균 차이, 위험 비율 또는 위험 비율), 해당 95% 신뢰 구간 및 발견의 잠재적 임상적 관련성을 고려하는 것이 중요하다. 통계적 유의성은 종종 임상적 유의성과 동일하지 않다

  • 예를 들어 대규모 시행에서 위험 비율을 0.97로 추정하고 95% 신뢰 구간을 0.95-0.99로 추정하는 경우 P 값이 0.05보다 훨씬 작더라도 치료 효과는 잠재적으로 작습니다. 

반대로 [증거가 없음]이 [없음의 증거]는 아니다

  • 예를 들어, 소규모 시행에서 위험 비율을 0.70으로 추정하고 95% 신뢰 구간을 0.40-1.10으로 추정하는 경우 P 값이 0.05보다 크더라도 효과의 크기는 여전히 잠재적으로 큽니다. 

따라서 통계 편집자는 저자에게 "유의한 발견"과 같은 문구를 명확히 하고, 신뢰 구간이 넓을 때 덜 명확하게 하며, 임상적 관련성이나 영향의 맥락에서 결과를 고려하도록 요청할 것이다. 베이지안 접근법은 확률론적 진술을 표현하는 데 유용할 수 있다(예: 위험 비율이 <0.9일 확률은 0.85이다).
Just as with under-cooked turkeys being sent back so will articles that focus solely on P values and “statistical significance” to determine whether a finding is crucial. It is important to consider the estimates (eg, mean differences, risk ratios, or hazard ratios corresponding to the specified estimands from the first day of Christmas), corresponding 95% confidence intervals, and potential clinical relevance of findings. Statistical significance often does not equate to clinical significance—

  • if, as an example, a large trial estimates a risk ratio of 0.97 and a 95% confidence interval of 0.95 to 0.99, then the treatment effect is potentially small, even though the P value is much less than 0.05.

Conversely, absence of evidence does not mean evidence of absence9

  • here’s an example; if a small trial estimates a risk ratio of 0.70 and a 95% confidence interval of 0.40 to 1.10, then the magnitude of effect is still potentially large, even though the P value is greater than 0.05.

Hence, the statistical editors will ask authors to clarify phrases such as “significant finding,” be less definitive when confidence intervals are wide, and consider results in the context of clinical relevance or impact. A bayesian approach may be helpful,10 to express probabilistic statements (eg, there is a probability of 0.85 that the risk ratio is <0.9).

On the third day of Christmas, a statistician sent to me:

누락된 데이터를 주의 깊게 설명합니다
Carefully account for missing data

결측값은 공변량과 결과 모두에서 모든 유형의 의학 연구에서 발생한다. 저자들은 데이터의 완전성을 인정할 뿐만 아니라 누락된 데이터의 양을 정량화하고 보고해야 하며 이러한 데이터가 분석에서 어떻게 처리되었는지 설명해야 한다. 과거, 현재, 미래의 크리스마스 기사의 유령인 이 일을 하지 못하는 제출이 얼마나 많은지는 섬뜩하다. 
Missing values occur in all types of medical research,11 both for covariates and for outcomes. Authors need to not only acknowledge the completeness of their data but also to quantify and report the amount of missing data and explain how such data were handled in analyses. It is spooky how many submissions fail to do this—the ghost of Christmas articles past, present, and future.

누락된 데이터를 가진 참가자가 단순히 제외된 경우(즉, 전체 사례 분석이 수행된 경우), 저자는 누락된 값을 귀속시키기 위한 적절한 접근방식을 사용하여 참가자를 포함하여 분석을 수정하도록 요청받을 수 있다. [환자를 폐기하는 것]은 일반적으로 관계를 추정하기 위한 통계적 힘과 정밀도를 감소시키고 편향된 추정치를 초래할 수 있기 때문에 특히 관찰 연구에서 [완전한 사례만 분석하는 것]은 거의 권장되지 않는다. 귀속을 위한 최선의 접근법은 상황에 따라 다르며 여기서 상세한 심문을 하기에는 너무 미묘한 것이다. 예를 들어, 무작위 시험에서 누락된 기준선 값을 처리하기 위한 전략에는 다음이 가능하다.

  • 평균 값으로 대체하는 것(연속 변수의 경우),
  • 누락된 값의 존재를 나타내기 위해 범주형 예측 변수의 별도 범주를 만드는 것(즉, 누락된 지표 방법)
  • 또는 무작위 그룹에 의해 개별적으로 수행된 다중 귀속. 

If it transpires participants with missing data were simply excluded (ie, a complete case analysis was carried out), then authors may be asked to revise their analyses by including those participants, using an appropriate approach for imputing the missing values. A complete case analysis is rarely recommended, especially in observational research, as discarding patients usually reduces statistical power and precision to estimate relationships and may also lead to biased estimates.12 The best approach for imputation is context specific and too nuanced for detailed interrogation here. For example, strategies for handling missing baseline values in randomised trials might include

  • replacing with the mean value (for continuous variables),
  • creating a separate category of a categorical predictor to indicate the presence of a missing value (ie, the missing indicator method), or
  • multiple imputation performed separately by randomised group.1314 

연관성을 조사하는 관찰 연구의 경우 [평균 귀책] 및 [누락 지표 접근법]이 편향된 결과를 초래할 수 있으므로 [다중 귀책 접근법]이 항상은 아니지만 종종 선호된다. 임의의 결측 가정 하에서, 이것은 다른 연구 변수의 관측된 값에 조건부로 (결측의 불확실성을 반영하기 위해 여러 번에 걸쳐) 귀속되는 결측값을 포함한다. [다중 귀책]을 사용하는 경우, 이를 수행하는 데 사용되는 방법은 귀책 프로세스에 사용되는 변수 집합을 포함하여 설명되어야 한다. 다중 귀책에 대한 소개는 다른 곳에서 제공되며, 누락된 데이터에 대한 전용 교재가 있습니다.

For observational studies examining associations, mean imputation and missing indicator approaches can lead to biased results,15 and so a multiple imputation approach is often (though not always16) preferred. Under a missing at random assumption, this involves missing values being imputed (on multiple occasions to reflect the uncertainty in the imputation) conditional on the observed values of other study variables.17 When using multiple imputation, the methods used to do this need to be described, including the set of variables used in the imputation process. An introduction to multiple imputation is provided elsewhere,12 and there are textbooks dedicated to missing data.18

On the fourth day of Christmas, a statistician sent to me:

연속형 변수를 이분화하지 않음
Do not dichotomise continuous variables

산타는 이분법을 좋아하지만, 저자들이 나이와 혈압과 같은 연속 변수를 수축기 혈압 130 mm Hg와 같은 임의의 절단점 위와 아래에 있는 두 그룹으로 나누어 이분법을 선택한다면 통계학자들은 깜짝 놀랄 것이다. 이분법화는 정보를 낭비하고 연속적인 척도로 연속 변수를 분석하는 것과 비교할 때 정당화되는 경우가 거의 없기 때문에 피해야 한다(크리스마스 5일째의 스타킹 필러 참조). 절단점 바로 아래의 값(이 경우 129 mm Hg)을 가진 개인이 바로 위의 값(131 mm Hg)을 가진 개인과 완전히 다른 것으로 간주해야 하는 이유는 무엇입니까? 반대로, 동일한 그룹 내의 두 개체에 대한 값은 크게 다를 수 있으며(131 mm Hg와 220 mm Hg), 왜 동일하게 간주되어야 하는가? 이러한 맥락에서, 이분법화는 비윤리적인 것으로 간주될 수 있다. 연구 참가자들은 적절하게 사용되는 단서에 대한 연구를 위해 자신의 데이터를 제공하는 것에 동의한다. 공변량 값을 이분화하여 정보를 폐기하는 것은 이 동의를 위반한다. 
Santa likes dichotomisation (you are either naughty or nice), but statisticians would be appalled if authors chose to dichotomise continuous variables, such as age and blood pressure, by splitting them into two groups defined by being above and below some arbitrary cut point, such as a systolic blood pressure of 130 mm Hg. Dichotomisation should be avoided,1920 as it wastes information and is rarely justifiable compared with analysing continuous variables on their continuous scale (see the stocking filler for the fifth day of Christmas). Why should an individual with a value just below the cut point (in this instance 129 mm Hg) be considered completely different from an individual with a value just above it (131 mm Hg)? Conversely, the values for two individuals within the same group may differ greatly (let us say 131 mm Hg and 220 mm Hg) and so why should they be considered the same? In this context, dichotomisation might be considered unethical. Study participants agree to contribute their data for research on the proviso it is used appropriately; discarding information by dichotomising covariate values violates this agreement.

이분화는 또한 연속 공변량과 결과 사이의 연관성을 감지하는 통계적 힘을 감소시키고 예측 모델의 예측 성능을 약화시킨다. 한 예에서, 중위수 값에서 이분법화는 데이터의 3분의 1을 폐기하는 것과 유사한 전력 감소를 초래한 반면, 다른 예에서는 연속 척도를 유지하는 것이 중위수에서 이분법화하는 것보다 31% 더 많은 결과 변동성을 설명했다. 절단점은 또한 데이터 준설과 통계적 중요성을 극대화하기 위한 "최적" 절단점의 선택으로 이어진다. 이는 새로운 데이터에서 편향과 복제 부족으로 이어지고 연구마다 다른 컷 포인트를 채택하기 때문에 메타 분석을 방해한다. 연속적인 결과의 이분법화는 또한 power을 감소시키고 잘못된 결론을 초래할 수 있다. 좋은 예는 결과(Beck score)가 이분법 분석에서 연속 척도 분석으로 변경된 후 [필요한 표본 크기]가 800에서 88로 감소한 무작위 시험이다.  
Dichotomisation also reduces statistical power to detect associations between a continuous covariate and the outcome,192021 and it attenuates the predictive performance of prognostic models.22 In one example, dichotomising at the median value led to a reduction in power akin to discarding a third of the data,23 whereas in another example, retaining the continuous scale explained 31% more outcome variability than dichotomising at the median.20 Cut points also lead to data dredging and the selection of “optimal” cut points to maximise statistical significance.21 This leads to bias and lack of replication in new data and hinders meta-analysis because different studies adopt different cut points. Dichotomisation of continuous outcomes also reduces power and may result in misleading conclusions.2425 A good example is a randomised trial in which the required sample size was reduced from 800 to 88 after the outcome (Beck score) changed from being analysed as dichotomised to being analysed on its continuous scale.26

On the fifth day of Christmas, a statistician sent to me:

비선형 관계 고려
Consider non-linear relationships

크리스마스 저녁 식사에서, 어떤 가족 관계들은 다루기 쉬운 반면, 다른 가족 관계들은 더 복잡하고 더 많은 보살핌을 필요로 한다. 마찬가지로, 일부 연속 공변량은 결과(자연 로그 변환과 같은 데이터의 일부 변환 후)와 단순한 선형 관계를 갖는 반면, 다른 것들은 더 [복잡한 비선형 관계]를 갖는다. 선형 관계(연관)는 공변량의 단위 증가가 공변량 값의 전체 범위에서 결과에 동일한 영향을 미친다고 가정합니다. 예를 들어, 30세에서 31세까지의 연령 변화의 영향은 90세에서 91세까지의 연령 변화와 동일하다고 가정한다. 반대로, 비선형 연관성을 사용하면 연속 공변량의 1 단위 증가의 영향이 예측 변수 값의 스펙트럼에 따라 달라질 수 있습니다. 예를 들어, 30세에서 31세로의 연령 변화는 위험에 거의 영향을 미치지 않는 반면, 90세에서 91세로의 연령 변화는 중요할 수 있다. 비선형 모델링에 대한 가장 일반적인 두 가지 접근법은 입방체 스플라인과 분수 다항식이다.  
At Christmas dinner, some family relationships are simple to handle, whereas others are more complex and require greater care. Similarly, some continuous covariates have a simple linear relationship with an outcome (perhaps after some transformation of the data, such as a natural log transformation), whereas others have a more complex non-linear relationship. A linear relationship (association) assumes that a 1 unit increase in the covariate has the same effect on the outcome across the entire range of the covariate’s values. The assumption being, for example, that the impact of a change in age from 30 to 31 years is the same as a change in age from 90 to 91 years. In contrast, a non-linear association allows the impact of a 1 unit increase in the continuous covariate to vary across the spectrum of predictor values. For example, a change in age from 30 to 31 years may have little impact on risk, whereas a change in age from 90 to 91 years may be important. The two most common approaches to non-linear modelling are cubic splines and fractional polynomials.272829303132

분류를 제외하고, BMJ에 제출하는 대부분의 경우 선형 관계만 고려합니다. 따라서 통계 검토자는 중요한 연관성이 완전히 포착되지 않거나 누락되지 않도록 비선형 관계를 고려하도록 연구자에게 요청할 수 있다. 요하네스와 동료들의 연구는 비선형 관계를 조사하는 한 예이다. 저자들은 제한된 입방 스플라인을 사용하여 저밀도 지질단백질 콜레스테롤 수치와 모든 원인 사망 위험 사이의 연관성이 U자형이며, 덴마크의 일반 인구에서 모든 원인 사망 위험 증가와 관련된 낮고 높은 수준이라는 것을 보여주었다. 그림 1은 전체 모집단과 지질 저하 치료를 사용하여 정의된 하위 그룹에 대한 결과를 보여주고, 치료를 받지 않은 집단에서 가장 강한 관계를 보여준다.
Aside from categorisation, most submissions to The BMJ only consider linear relationships. The statistical reviewers therefore may ask the researchers to consider non-linear relationships, to avoid important associations not being fully captured or even missed.33 The study by Johannesen and colleagues is an example of non-linear relationships being examined.34 The authors used restricted cubic splines to show that the association between low density lipoprotein cholesterol levels and the risk of all cause mortality is U-shaped, with low and high levels associated with an increased risk of all cause mortality in the general population of Denmark. Figure 1 illustrates the findings for the overall population, and for subgroups defined by use of lipid lowering treatment, with the relationship strongest in those not receiving treatment.

그림 1. 코펜하겐 일반 인구 연구의 제한된 입방 스플라인을 사용하여 도출된 비선형 연관성은 요하네스 외 연구진으로부터 평균 9.4년 동안 이어졌다. 모든 원인 사망률에 대한 다변량 조정 위험 비율은 연속 척도의 저밀도 지질단백질 콜레스테롤(LDL-C) 수준에 따라 표시된다. 95% 신뢰 구간은 3노트의 제한된 입방 스플라인 회귀에서 도출된다. 연관성이 없는 기준선은 위험 비율 1.0으로 표시된다. 화살표는 모든 원인 사망률의 가장 낮은 위험과 관련된 LDL-C 농도를 나타낸다. 분석은 기준 연령, 성별, 현재 흡연, 담뱃갑 누적 연수, 수축기 혈압, 지질 저하 치료, 당뇨병, 심혈관 질환, 암 및 만성 폐쇄성 폐질환에 대해 조정되었다 
Fig 1. Non-linear association derived using restricted cubic splines of individuals from the Copenhagen General Population Study followed for a mean 9.4 years, from Johannesen et al.34 Multivariable adjusted hazard ratios for all cause mortality are shown according to levels of low density lipoprotein cholesterol (LDL-C) on a continuous scale. 95% confidence intervals are derived from restricted cubic spline regressions with three knots. Reference lines for no association are shown at a hazard ratio of 1.0. Arrows indicate concentration of LDL-C associated with the lowest risk of all cause mortality. Analyses were adjusted for baseline age, sex, current smoking, cumulative number of cigarette pack years, systolic blood pressure, lipid lowering treatment, diabetes, cardiovascular disease, cancer, and chronic obstructive pulmonary disease

On the sixth day of Christmas, a statistician sent to me:

부분군 결과의 차이를 정량화
Quantify differences in subgroup results

제출된 많은 기사에는 성별이나 성별로 정의된 하위 그룹에 대한 결과 또는 브뤼셀 새싹을 먹는 사람과 먹지 않는 사람에 대한 결과가 포함되어 있습니다. 일반적인 실수는 실제로 차이를 정량화하지 않고 한 부분군의 결과가 다른 부분군의 결과와 다르다는 결론을 내리는 것입니다. Altman과 Bland는 이를 웅변적으로 고려하여 두 개의 하위 그룹에 대한 치료 효과 결과를 보여주었는데, 첫 번째 그룹은 통계적으로 유의한(위험비 0.67, 95% 신뢰 구간 0.46~0.98, P=0.03) 반면 두 번째 그룹은 그렇지 않았다(0.88, 0.71~1.08, P=0.2). 순진한 해석은 처리가 첫 번째 부분군에는 유익하지만 두 번째 부분군에는 유익하지 않다는 결론을 내리는 것입니다. 그러나 실제로 두 부분군 사이의 결과를 비교하면 넓은 신뢰 구간(위험 비율 0.76, 95% 신뢰 구간 0.49~1.17; P=0.2)이 나타나므로 부분군 효과를 결론짓기 전에 추가 연구가 필요함을 시사한다. 이와 관련된 실수는 부분군이 서로 다른 95% 신뢰 구간이 겹치는지 여부만을 기준으로 서로 다른지에 대한 결론을 내리는 것이다.36 따라서 연구자가 연구에서 부분군을 조사하면, 통계 편집자는 부분군 결과의 차이에 대한 정량화를 확인하고, 그렇지 않은 경우에는 이를 해결하도록 요청할 것이다. 하위 그룹 간에 진정한 차이가 존재하더라도 각 하위 그룹에 대해 (처리) 효과가 여전히 중요할 수 있으므로 연구 결론에서 이를 인식해야 한다. 
Many submitted articles include results for subgroups, such as defined by sex or gender, or those who do and do not eat Brussels sprouts. A common mistake is to conclude that the results for one subgroup are different from the results of another subgroup, without actually quantifying the difference. Altman and Bland considered this eloquently,35 showing treatment effect results for two subgroups, the first of which was statistically significant (risk ratio 0.67, 95% confidence interval 0.46 to 0.98; P=0.03), whereas the second was not (0.88, 0.71 to 1.08; P=0.2). A naïve interpretation is to conclude that the treatment is beneficial for the first subgroup but not for the second subgroup. However, actually comparing the results between the two subgroups reveals a wide confidence interval (ratio of risk ratios 0.76, 95% confidence interval 0.49 to 1.17; P=0.2), which suggests further research is needed before concluding a subgroup effect. A related mistake is to make conclusions about whether subgroups differ based solely on if their separate 95% confidence intervals overlap or not.36 Hence, if researchers examine subgroups in their study, the statistical editors will check for quantification of differences in subgroup results, and, if not done, ask for this to be addressed. Even when genuine differences exist between subgroups, the (treatment) effect may still be important for each subgroup, and therefore this should be recognised in study conclusions.

부분군 간의 차이를 조사하는 것은 복잡하며, 더 넓은 주제는 [(치료) 효과와 공변량 사이의 교호작용의 모형화]입니다. 문제에는 효과 측정에 사용되는 척도(예: 위험 비율 또는 승산 비율), 연속 공변량을 이분법화하여 하위 그룹이 임의로 정의되지 않도록 보장, 잠재적으로 비선형 관계를 허용한다(크리스마스 4일째와 5일째의 스타킹 충전재 참조).  
Examining differences between subgroups is complex, and a broader topic is the modelling of interactions between (treatment) effects and covariates.37 Problems include the scale used to measure the effect (eg, risk ratio or odds ratio),38 ensuring subgroups are not arbitrarily defined by dichotomising a continuous covariate,39 and allowing for potentially non-linear relationships (see our stocking fillers for the fourth day and fifth day of Christmas).40

On the seventh day of Christmas, a statistician sent to me:

클러스터링에 대한 회계 고려
Consider accounting for clustering

BMJ의 크리스마스 파티에서, 통계 편집자들은 거절된 작업에 대한 사후 조사를 요청받을 것을 두려워하여 가능할 때마다 비통계학자들과의 상호 작용과 눈 접촉을 피하면서 구석에 모여드는 경향이 있다. 마찬가지로, 연구 연구에는 여러 병원 또는 진료소의 전자 건강 기록을 사용하는 관찰 연구, 클러스터 또는 다중 센터 무작위 시험 및 여러 연구의 개별 참가자 데이터의 메타 분석을 포함한 [여러 클러스터]의 데이터가 포함될 수 있다. 때로는 분석이 이 군집화를 설명하지 않아 결과가 편향되거나 신뢰 구간을 잘못 이끌 수 있습니다. 클러스터링을 무시하면 서로 다른 클러스터 내의 개인에 대한 결과가 서로 유사하다는 강력한 가정(예: 결과 위험 측면에서)을 만든다. 병원이나 연구와 같은 클러스터가 서로 다른 임상의, 절차 및 환자 사례 혼합을 가질 때 정당화하기 어려울 수 있다.
At The BMJ’s Christmas party, the statistical editors tend to cluster in a corner, avoiding interaction and eye contact with non-statisticians whenever possible for fear of being asked to conduct a postmortem examination of rejected work. Similarly, a research study may contain data from multiple clusters, including observational studies that use e-health records from multiple hospitals or practices, cluster or multicentre randomised trials,414243444546 and meta-analyses of individual participant data from multiple studies.47 Sometimes the analysis does not account for this clustering, which can lead to biased results or misleading confidence intervals.48495051 Ignoring clustering makes a strong assumption that outcomes for individuals within different clusters are similar to each other (eg, in terms of the outcome risk), which may be difficult to justify when clusters such as hospitals or studies have different clinicians, procedures, and patient case mix.

따라서 데이터 분석에서 제출된 논문이 캡처하거나 고려해야 하는 명백한 클러스터링을 무시하는 경우, 통계 편집자는 관심 추정에 적합한 접근법을 사용하여 클러스터링의 정당성 또는 재분석 회계처리를 요청할 것이다(크리스마스 첫날의 스타킹 필러 참조). 예를 들어, 다단계 또는 혼합 효과 모델이 권장될 수 있다. 이는 클러스터별 기준 위험을 설명하고 관심 효과에서 클러스터 이질성 사이를 조사할 수 있기 때문이다.
Thus, if, in the data analysis, a submitted article ignores obvious clustering that needs to be captured or considered, the statistical editors will ask for justification of this or for a reanalysis accounting for clustering using an approach suitable for the estimand of interest (see our stocking filler for the first day of Christmas).525354 A multilevel or mixed effects model might be recommended, for example, as this allows cluster specific baseline risks to be accounted for and enables between cluster heterogeneity in the effect of interest to be examined.

On the eighth day of Christmas, a statistician sent to me:

I2 및 메타 회귀 분석을 적절하게 해석합니다
Interpret I2 and meta-regression appropriately

체계적인 검토와 메타 분석은 BMJ에 대한 인기 있는 제출물이다. 대부분 I2 통계를 포함하지만 잘못 해석하여 통계학자들에게 크리스마스 전후로 반복되는 악몽을 준다. I2는 우연이 아닌 연구 이질성 간에 기인하는 (처리) 효과 추정치의 변동성 백분율을 설명합니다. 요약치료효과 추정치에 대한 연구간 이질성의 영향은 I2가 0%에 가까우면 작고, I2가 100%에 가까우면 크다. 일반적인 실수는 저자들이 I2를 [절대적인 이질성의 양의 척도]로 해석하고(즉, 실제 효과의 연구 분산 간의 추정치로 간주한다), 무작위 효과 메타 분석 모델을 사용할지 여부를 결정하기 위해 이를 잘못 사용하는 것이다. I2는 [상대적인 측도]이며, 실제 효과의 연구 간 분산(또는 σ2)의 크기뿐만 아니라, 효과 추정치의 연구 내 분산의 크기에 따라 달라지기 때문에 이는 현명하지 않습니다. 예를 들어, 포함된 모든 연구가 작기 때문에 연구 내 효과 추정치의 분산이 크면 연구 간 분산이 크고 중요한 경우에도 I2가 0%에 가까울 수 있습니다.  반대로, 연구 간 분산이 작고 중요하지 않은 경우에도 I2가 클 수 있습니다. 통계 검토는 저자에게 I2의 오용을 시정하고 연구 분산 간의 추정치를 직접 제시할 것을 요청할 것이다.
Systematic reviews and meta-analyses are popular submissions to The BMJ. Most of them include the I2 statistic55 but interpret it incorrectly, which gives the statisticians a recurring nightmare before (and after) Christmas. I2 describes the percentage of variability in (treatment) effect estimates that is due to between study heterogeneity rather than chance. The impact of between study heterogeneity on the summary treatment effect estimate is small if I2 is close to 0%, and it is large if I2 is close to 100%. A common mistake is for authors to interpret I2 as a measure of the absolute amount of heterogeneity (ie, to consider I2 as an estimate of the between study variance in true effects), and to erroneously use it to decide whether to use a random effects meta-analysis model. This is unwise, as I2 is a relative measure and depends on the size of the within study variances of effect estimates, not just the size of the between study variance of true effects (also known as τ2). For example, if all the included studies are small, and thus within study variances of effect estimates are large, I2 can be close to 0% even when the between study variance is large and important.56 Conversely, I2 may be large even when the between study variance is small and unimportant. Statistical reviews will ask authors to correct any misuse of I2, and to also present the estimate of between study variance directly.

메타 회귀 분석은 종종 연구 수준 공변량(예: 평균 연령, 치료 선량, 편향 위험 등급)이 연구 이질성 사이에서 설명하는 범위를 조사하는 데 사용되지만, 일반적으로 통계 편집자는 저자에게 메타 회귀 분석 결과를 조심스럽게 해석할 것을 요청한다.

  • 첫째, 시행 횟수가 적은 경우가 많고, 그 다음 메타 회귀는 시행에서 전체 치료 효과의 변화와 진정으로 관련된 연구 수준 특성을 감지하기 위한 low power의 영향을 받는다.
  • 둘째로, 시험 전반에 걸쳐 교란 요인이 발생할 가능성이 있으므로 시험 수준 공변량의 영향에 대한 인과 관계 진술을 하는 것이 가장 좋다. 예를 들어 편향 위험이 높은 시험은 최고 선량을 갖거나 특정 국가에서 수행될 수 있으므로 편향 위험의 영향을 dose과 country의 영향에서 분리하기 어렵다.
  • 셋째, 전체 치료 효과와 함께 집계된 참가자 수준 공변량(예: 평균 연령, 비율 남성)의 시험 수준 연관성을 사용하여 참가자 수준 공변량의 값(예: 연령, 성별, 바이오마커 값)이 치료 효과와 어떻게 상호 작용하는지 추론해서는 안 된다. 집계 편향은 그림 2와 같이 실험 수준에서 관찰된 관계와 참가자 수준에서 관찰된 관계의 극적인 차이를 초래할 수 있다.

Meta-regression is often used to examine the extent to which study level covariates (eg, mean age, dose of treatment, risk of bias rating) explain between study heterogeneity, but generally the statistical editors will ask authors to interpret meta-regression results cautiously.57 

  • Firstly, the number of trials are often small, and then meta-regression is affected by low power to detect study level characteristics that are genuinely associated with changes in the overall treatment effect in a trial.
  • Secondly, confounding across trials is likely, and so making causal statements about the impact of trial level covariates is best avoided. For example, those trials with a higher risk of bias might also have the highest dose or be conducted in particular countries, thus making it hard to disentangle the effect of risk of bias from the effect of dose and country.
  • Thirdly, the trial level association of aggregated participant level covariates (eg, mean age, proportion men) with the overall treatment effect should not be used to make inferences about how values of participant level covariates (eg, age, sex, biomarker values) interact with treatment effect. Aggregation bias may lead to dramatic differences in observed relationships at the trial level from those at the participant level,5859 as shown in figure 2.

그림 2. 치료-공변량 상호작용의 개별 참가자 데이터 메타분석이 아닌 연구 수준 결과의 메타회귀를 사용할 때의 [집계 편향]. 연구 질문은 [혈압을 낮추는 치료]가 [남성보다 여성들 사이에서 더 효과적인지]에 대한 것이었다. 10번의 고혈압 치료 실험의 메타 분석을 통해 증거를 보여주며, 치료 효과와 비율 남성(실선)의 임상적 연관성을 비교한다. 이는 가파르고 통계적으로 중요하다. 각 실험(점선)에서 성별과 치료 효과의 참가자 수준 상호작용을 비교한다. 통계적으로 중요하지 않습니다. 이 사례 연구는 이전 작업을 기반으로 합니다. 각 블럭은 시행 크기에 비례하는 블럭 크기를 사용하여 하나의 시행을 나타냅니다. 시험 간 연관성은 남성 비율에 대한 시험 치료 효과의 메타 회귀에서 파생된 실선의 기울기로 표시되며, 이는 남성에 비해 여성만을 대상으로 한 시험에서 15mm Hg(95% 신뢰 구간 8.8~21mm Hg) 더 큰 수축기 혈압 감소 효과를 시사한다. 그러나 참가자 수준 데이터에 기초한 치료-성 상호작용은 각 시험 내에서 파선의 기울기로 표시되며, 평균적으로 이는 임상적으로나 통계적으로 유의하지 않은 남성보다 여성의 치료 효과가 0.8mm Hg(-0.5~2.1mm Hg) 더 클 뿐이다 
Fig 2. Aggregation bias when using meta-regression of study level results rather than individual participant data meta-analysis of treatment-covariate interactions. The research question was whether blood pressure lowering treatment is more effective among women than men. Evidence is shown from a meta-analysis of 10 trials of antihypertensive treatment,

  • comparing the across trial association of treatment effect and proportion men (solid line)—which is steep and statistically significant—
  • with participant level interactions of sex and treatment effect in each trial (dashed lines) —which are flat and neither clinically nor statistically important.

This case study is based on previous work.475860 Each block represents one trial, with block size proportional to trial size. Across trial association is denoted by gradient of solid line, derived from a meta-regression of the trial treatment effects against proportion of men, which suggests a large effect of a 15 mm Hg (95% confidence interval 8.8 to 21 mm Hg) greater reduction in systolic blood pressure in trials with only women compared with only men. However, the treatment-sex interaction based on participant level data is denoted by gradient of dashed lines within each trial, and on average these suggest only a 0.8 mm Hg (−0.5 to 2.1 mm Hg) greater treatment effect for women than for men, which is neither clinically nor statistically significant

On the ninth day of Christmas, a statistician sent to me:

모형 예측의 보정calibration 평가
Assess calibration of model predictions

임상 예측 모델은 개인의 진단과 예후를 알리기 위해 (연속적인 결과에 대한) 결과 값 또는 (이진 또는 사건 발생까지의 시간 결과에 대한) 결과 위험을 추정한다. 예측 모델을 개발하거나 검증하는 기사는 모델 성능을 완전히 평가하지 못하는 경우가 많은데, 부정확한 예측은 잘못된 확신이나 희망을 주는 것과 같이 환자에게 잘못된 결정과 해로운 의사소통을 초래할 수 있기 때문에 중요한 결과를 초래할 수 있다. 결과 위험을 추정하는 모델의 경우 다른 곳에서 설명한 바와 같이 예측 성능을 식별, 교정 및 임상적 유용성 측면에서 평가해야 한다.  

Clinical prediction models estimate outcome values (for continuous outcomes) or outcome risks (for binary or time-to-event outcomes) to inform diagnosis and prognosis in individuals. Articles developing or validating prediction models often fail to fully evaluate model performance, which can have important consequences because inaccurate predictions can lead to incorrect decisions and harmful communication to patients, such as giving false reassurance or hope. For models that estimate outcome risk, predictive performance should be evaluated in terms of discrimination, calibration, and clinical utility, as described elsewhere.616263

그러나 대부분의 제출물은 (예를 들어 C 통계량 또는 곡선 아래 영역으로 정량화된) 모형 판별에만 초점을 맞추고 있다. 그림 3은 0.81의 유망한 C 통계량을 가진 예측 모델에 대한 게시된 교정 그림을 보여주고 있지만 0.05와 0.2.64 사이의 예측 위험 범위에서 예측 위험에 대한 명백한 (아마도 작은) 오교정이 있다. 이러한 오교정은 특히 치료제와 같은 결정이 있을 경우 모델의 임상적 유용성에 영향을 미칠 수 있다토르 모니터링 전략은 의사결정 곡선 분석에서 조사할 수 있는 예측 위험의 범위에서 위험 임계값에 의해 결정된다. 반대로 오보정은 오보정의 크기와 의사결정 임계값과 관련하여 발생하는 시기에 따라 다르므로 모델에 임상적 유용성이 없다고 반드시 표시하는 것은 아니다.
However, the majority of submissions focus only on model discrimination (as quantified by, for example, the C statistic or area under the curve28)—when this is done, an incomplete impression is created, just as with that unfinished 1000 piece jigsaw from last Christmas. Figure 3 shows a published calibration plot for a prediction model with a promising C statistic of 0.81, but there is clear (albeit perhaps small) miscalibration of predicted risks in the range of predicted risks between 0.05 and 0.2.64 This miscalibration may impact the clinical utility of the model, especially if decisions, such as about treatment or monitoring strategies, are dictated by risk thresholds in that range of predicted risks, which can be investigated in a decision curve analysis.65 Conversely, miscalibration does not necessarily indicate the model has no clinical utility, as it depends on the magnitude of miscalibration and when it occurs in relation to decision thresholds.

그림 3. 예측 모델에서 관찰된 위험과 추정된(예측된) 위험 사이의 일치를 조사하기 위한 교정 그림의 예. 이 연구는 파열된 두개내 동맥류로 인한 지주막하 출혈을 경험한 사람들의 사망 위험을 추정하기 위한 예측 모델을 개발했다. 원은 추정 위험의 10분의 1로 그룹화된 추정 및 관찰 위험이며, 노란색 점선은 추정 위험 범위에 걸친 일치를 포착하기 위해 황토색이 더 부드럽다. AUROC=수신 사업자 특성상 영역 
Fig 3. Example of a calibration plot to examine agreement between observed risks and estimated (predicted) risks from a prediction model.64 The study developed prediction models to estimate the risk of mortality in individuals who experienced subarachnoid haemorrhage from ruptured intracranial aneurysm. Circles are estimated and observed risks grouped by 10ths of estimated risks, and the yellow dashed line is a loess smoother to capture agreement across the range of estimated risks. AUROC=area under the receiving operator characteristic


통계 편집자들은 또한 모델 개발 연구의 연구자들이 과적합 가능성을 줄이고 새로운 데이터의 예측 교정을 개선하는 데 도움이 되는 페널티화 또는 수축 방법(예: 능선 회귀, 라소, 탄성 그물)을 사용하여 재분석을 수행할 것을 제안할 수 있다. 퍼스 보정과 같은 처벌 방법은 데이터가 희박한 비예측 상황(예: 치료 효과를 추정하는 무작위 시험)에서도 중요할 수 있는데, 이 상황에서 표준 방법(로지스틱 회귀 분석과 같은)이 편향된 효과 추정치를 제공할 수 있기 때문이다. 
Statistical editors may also suggest that researchers of model development studies undertake a reanalysis using penalisation or shrinkage methods (eg, ridge regression, lasso, elastic net), which reduce the potential for overfitting and help improve calibration of predictions in new data.6667 Penalisation methods, such as Firth’s correction,68 can also be important in non-prediction situations (eg, randomised trials estimating treatment effects) with sparse data, as standard methods (such as logistic regression) may give biased effect estimates in this situation.69

On the 10th day of Christmas, a statistician sent to me:

변수 선택 접근 방식을 신중하게 고려합니다
Carefully consider the variable selection approach

통계 검토에서 비판의 일반적인 영역은 변수 선택 방법(예: 효과의 통계적 유의성에 기초한 공변량 선택)의 사용이다. 이러한 방법을 사용하면 통계 편집자는 저자에게 정당성을 요청할 것이다. 연구에 따라, 통계 편집자들은 새해 첫날에 마지막으로 남은 칠면조 샌드위치처럼 저자들에게 이러한 접근법을 완전히 피하라고 제안할 수도 있다. 예를 들어, 일반적인 목표는 특정 요인이 [다른 (확립된) 예측 요인]에 비해 [예측 값을 추가하는 방법]에 대한 [편견 없는 추정치]를 제공하는 것이기 때문에 예측 요인 연구에서 변수 선택 방법을 가장 잘 피한다. 따라서 기존의 예측요인의 영향을 고려한 후 새로운 요인의 예측효과를 검토하기 위해서는 기존의 모든 요인에 강제적인 회귀모형이 필요하다. 마찬가지로, 관찰 데이터에 기초한 인과 연구에서 조정 요인으로 포함할 교란 요인의 선택은 인과 경로에 기초하여 선택되어야 한다  —예를 들어, 자동화된 선택 방법에 기초한 통계적 중요성이 아닌 (공변량과 결과 사이의 잠재적 매개자를 고려하여) 지시된 비순환 그래프를 사용하여 표현된다. 
A common area of criticism in statistical reviews is the use of variable selection methods (eg, selection of covariates based on the statistical significance of their effects).70 If these methods are used, statistical editors will ask authors for justification. Depending on the study, statistical editors might even suggest authors avoid these approaches entirely, just as you would that last remaining turkey sandwich on New Year’s Day. For example, variable selection methods are best avoided in prognostic factor studies, as the typical aim is to provide an unbiased estimate of how a particular factor adds prognostic value over and above other (established) prognostic factors.71 Therefore, a regression model forcing in all the existing factors is needed to examine the prognostic effect of the new factor after accounting for the effect of existing prognostic factors. Similarly, in causal research based on observational data, the choice of confounding factors to include as adjustment factors should be selected based on the causal pathway—for example, as expressed using directed acyclic graphs (with consideration of potential mediators between covariates and outcome72), not statistical significance based on automated selection methods.

임상 예측 모델의 개발에서 잠재적 포함을 위한 모든 후보 예측 변수를 포함하는 전체 모델로 시작하는 라소 또는 탄성 네트와 같은 방법을 사용하여 변수 선택(수축을 통한)을 통합할 수 있다. 일반적이지만 부적절한 접근법은 예측 변수 포함에 대한 결정이 관측된 비조정 효과 추정치에 대한 P 값에 기초할 때 일변량 선별을 사용하는 것이다. 이것은 다른 예측 변수에 대한 조정 후 예측 변수의 효과이기 때문에 합리적인 전략이 아니다. 왜냐하면 실제로 관련 예측 변수는 (의료 전문가와 환자에 의해) 조합으로 사용되기 때문이다. 예를 들어, 재발 정맥 혈전 색전증의 위험에 대한 예후 모델을 개발하고 있을 때, 연구자들은 연령의 조정되지 않은 예후 효과가 일변량 분석에서 통계적으로 유의하지 않고 조정된 효과가 유의하며 다변량 분석과 반대 방향이라는 것을 발견했다. 
In the development of clinical prediction models, variable selection (through shrinkage) may be incorporated using methods such as lasso or elastic net, which start with a full model including all candidate predictors for potential inclusion. A common, but inappropriate approach is to use univariable screening, when decisions for predictor inclusion are based on P values for observed unadjusted effect estimates. This is not a sensible strategy,73 as what matters is the effect of a predictor after adjustment for other predictors, because in practice the relevant predictors are used (by healthcare professionals and patients) in combination. When, for example, a prognostic model was being developed for risk of recurrent venous thromboembolism, the researchers found that the unadjusted prognostic effect of age was not statistically significant from univariable analysis but that the adjusted effect was significant and in the opposite direction from multivariable analysis.74

On the 11th day of Christmas, a statistician sent to me:

가정의 영향 평가
Assess the impact of any assumptions

모든 사람들은 그것이 크리스마스 영화라는 것에 동의하지만, 이것이 다이하드에 적용되는지는 논란의 여지가 있다. 마찬가지로 통계 편집자는 저자의 완고한 분석 가정에 대해 토론하고 가정이 변경될 경우 결과가 변경되는지 여부를 검토하도록 요청할 수 있다(감도 분석). 예를 들어, 재발까지의 시간이나 사망 시간과 같은 사건 발생 시간 데이터가 있는 제출된 시험에서는 위험 비율이 전체 추적 기간에 걸쳐 일정하다고 가정하여 보고하는 것이 일반적이다. 이 가정이 기사에서 정당화되지 않는 경우, 예를 들어 시간에 따라 위험 비율이 어떻게 변화하는지 그래픽으로 제시함으로써 저자들에게 이 문제를 해결하도록 요청할 수 있다. (아마도 관심 공변량과 (로그) 시간 사이의 상호작용을 포함하는 생존 모델에 기초한다.). 또 다른 예는 베이지안 분석을 사용한 제출물에서, 이전 분포는 "모호한" 또는 "비정보적"으로 분류되지만 여전히 영향력이 있을 수 있다. 이러한 상황에서 저자들은 다른 그럴듯한 사전 분포를 선택할 때 결과가 어떻게 변하는지 보여달라고 요청받을 수 있다.
Everyone agrees that It’s A Wonderful Life is a Christmas movie, but whether this applies to Die Hard is debatable. Similarly, statistical editors might debate authors’ die-hard analysis assumptions, and even ask them to examine whether results change if the assumptions change (a sensitivity analysis). For example, in submitted trials with time-to-event data, such as time to recurrence or death, it is common to report the hazard ratio, assuming it is a constant over the whole follow-up period. If this assumption is not justified in an article, authors may be asked to address this—for example, by graphically presenting how the hazard ratio changes over time (perhaps based on a survival model that includes an interaction between the covariate of interest and (log) time).75 Another example is in submissions with bayesian analyses, where prior distributions are labelled as “vague” or “non-informative” but may still be influential. In this situation, authors may be asked to demonstrate how results change when other plausible prior distributions are chosen.

On the 12th day of Christmas, a statistician sent to me:

보고 지침 사용 및 과도한 해석 방지
Use reporting guidelines and avoid overinterpretation

알트먼은 "독자들은 무엇이 행해졌는지 추론할 필요가 없어야 한다, 그것이 명확하게 말해져야 한다. 적절한 방법론이 사용되어야 하며 사용된 것으로 간주되어야 합니다." 불완전하게 보고된 연구는 변명의 여지가 없으며 크리스마스 트리 아래에 있는 라벨이 없는 선물과 마찬가지로 혼란을 일으킨다. 독자들은 보고된 연구의 근거와 목적, 연구 설계, 사용된 방법, 참가자 특성, 결과, 증거의 확실성, 연구 결과 등을 알아야 한다. 이러한 요소 중 하나라도 누락된 경우 저자는 이를 명확히 해야 합니다.
Altman once said, “Readers should not have to infer what was probably done, they should be told explicitly. Proper methodology should be used and be seen to have been used.”76 Incompletely reported research is indefensible and creates confusion, just as with those unlabelled presents under the Christmas tree. Readers need to know the rationale and objectives of a reported study, the study design, methods used, participant characteristics, results, certainty of evidence, research implications, and so forth. If any of these elements are missing, authors will be asked to clarify them.

보고 지침을 활용합니다. 그들은 보고할 항목의 체크리스트를 제공한다(산타는 이것을 두 번 확인할 것을 제안한다). 이 체크리스트는 독자(통계 편집자 포함)가 연구를 이해하고 그 결과를 비판적으로 평가할 수 있도록 하는데 필요한 최소한의 세부사항을 나타낸다. 보고 지침은 건강 연구 보고와 관련된 지침 및 기타 자료의 포괄적인 모음을 유지하는 EQUATOR 네트워크 웹 사이트에 나열되어 있습니다. 표 1은 무작위 시험을 위한 CONSTORT 문과 예측 모델 연구를 위한 TRIPOD 지침을 포함한 예를 보여준다. BMJ는 저자들에게 각 항목이 제출된 원고의 어느 페이지에 보고되었는지를 나타내는 관련 지침 내에 체크리스트를 작성하고 제출과 함께 포함할 것을 요구한다. 
Make use of reporting guidelines. They provide a checklist of items to be reported (Santa suggests checking this twice), which represent the minimum detail required to enable readers (including statistical editors) to understand the research and critically appraise its findings. Reporting guidelines are listed on The EQUATOR Network website, which maintains a comprehensive collection of guidelines and other materials related to health research reporting.77Table 1 shows examples, including the CONSORT statement for randomised trials79 and the TRIPOD guideline for prediction model studies.8081The BMJ requires authors to complete the checklist within the relevant guideline (and include it with a submission), indicating on which page of the submitted manuscript each item has been reported.

보고와 관련된 통계 편집자 검토 과정의 또 다른 공통적인 부분은 인과관계, 결과의 일반화 가능성 또는 임상 실무에 대한 즉각적인 영향과 같은 결과의 해석을 지나치게 질의하는 것이다. 특히 다중 공변량(변수)이 있는 회귀 모델을 참조하기 위해 다변량(다변수가 아닌)을 오용하고, 그룹을 생성하는 데 사용되는 절단점이 아닌 그룹을 참조하기 위해 분위수를 오용하는 것(예: 십진법은 10개의 동일한 크기의 그룹을 생성하는 데 사용되는 9개의 절단점)을 오용한다업(10번째라고 함). 
Another common part of the statistical editors review process, related to reporting, is to query overinterpretation of findings—and even spin,82 such as unjustified claims of causality, generalisability of results, or immediate implications for clinical practice. Incorrect terminology is another bugbear—in particular the misuse of multivariate (rather than multivariable) to refer to a regression model with multiple covariates (variables), and the misuse of quantiles to refer to groups rather than the cut points used to create the groups (eg, deciles are the nine cut points used to create 10 equal sized groups called 10ths).83

에피파니
Epiphany

BMJ에 제출된 기사의 동료 검토 중에 일상적으로 마주치는 12개의 통계 문제 목록은 향후 제출된 문서 작성자에게 도움이 될 것으로 기대된다. 지난 크리스마스 통계 편집자들은 이 목록을 트위터에 올렸지만, 어쨌든 그들은 다음날 제출이 저조했다. 올해, 그들을 눈물로부터 구하기 위해, 그들은 특별한 누군가를 위해 그것을 만들었습니다. 당신, BMJ 독자.

This list of 12 statistical issues routinely encountered during peer review of articles submitted to The BMJ will hopefully help authors of future submissions. Last Christmas statistical editors tweeted this list, but the very next day they got poor submissions anyway. This year, to save them from tears, they’ve tailored it for someone special—you, The BMJ reader.

저자들은 통계 검토 기간을 줄이고 통계 편집자들이 축제 기간 동안 중요한 (네, 말장난 의도로) 다른 사람들과 더 많은 시간을 보낼 수 있도록 함으로써 세상에 기쁨을 주기 위해 내년 크리스마스에 서둘러 논문을 제출하기 전에 이 목록을 다루어야 한다. 만약 저자들이 이 지침을 고수한다면, "크리스마스의 12번째 날에" 노래는 행복한 통계학자의 피드백을 반영한 가사와 함께 매우 긍정적인 "크리스마스 리뷰의 12번째 날에"로 바뀔 것이다(아마도 그림 4의 노래 시트 사용에 참여할 것이다).
Authors should address this list before rushing to submit papers to The BMJ next Christmas, in order to bring joy to the world by reducing the length of statistical reviews and allowing the statistical editors to spend more time with their significant (yes, pun intended) others over the festive period. If authors did adhere to this guidance, the “On the 12th Day of Christmas” song would change to the very positive “On the 12th Day of Christmas Review” with lyrics reflecting feedback from a happy statistician (perhaps join in using the song sheet in figure 4).

 
 

그림 4. "크리스마스 리뷰 12일째 되는 날, 행복한 통계학자가 나에게 보낸..."의 노래 시트
Fig 4. Song sheet for “On the 12th Day of Christmas Review, a Happy Statistician sent to me . . .”


궁극적으로, BMJ는 곰팡이가 아닌 금, 말도 안 되는 유향, 그리고 몰약을 출판하기를 원한다. 많은 다른 주제들이 언급될 수 있었고, 독자들은 더그 앨트먼과 마틴 블랜드가 작성한 BMJ Statistics Notes 시리즈, BMJ의 연구 방법 및 보고 섹션, 그리고 일반적인 통계 오류에 대한 다른 개요를 참조한다.

Ultimately, The BMJ wants to publish the gold not the mould, the frankincense not the makes-no-sense, and the myrrh not the urrgghh. Many other topics could have been mentioned, and for further guidance readers are directed to the BMJ Statistics Notes series (written mainly by Doug Altman and Martin Bland), the Research Methods and Reporting section of The BMJ,84 and other overviews of common statistical mistakes.8586


 

 

BMJ. 2022 Dec 20;379:e072883. doi: 10.1136/bmj-2022-072883.

 

 

On the 12th Day of Christmas, a Statistician Sent to Me .

Affiliations collapse

1Institute of Applied Health Research, College of Medical and Dental Sciences, University of Birmingham, Birmingham, UK r.d.riley@bham.ac.uk.

2UCL Great Ormond Street Institute of Child Health, London, UK.

3Institute of Applied Health Research, College of Medical and Dental Sciences, University of Birmingham, Birmingham, UK.

4Centre for Biostatistics, University of Manchester, Manchester Academic Health Science Centre, Manchester, UK.

5University of Manchester, Manchester, UK.

6Nuffield Department of Primary Care Health Sciences, University of Oxford, Oxford, UK.

7Centre for Statistics in Medicine, Nuffield Department of Orthopaedics, Rheumatology and Musculoskeletal Sciences, University of Oxford, Oxford, UK.

PMID: 36593578

DOI: 10.1136/bmj-2022-072883

+ Recent posts