졸업후교육에서 프로페셔널리즘 교육: 체계적 문헌고찰 (Acad Med, 2020)
Teaching Professionalism in Postgraduate Medical Education: A Systematic Review
Arielle S. Berger, MD, Elizabeth Niedra, MD, Stephanie G. Brooks, Waleed S. Ahmed, MD, and Shiphra Ginsburg, MD, PhD

 

 

1990년대 후반부터 의학의 전문직업성에 관한 많은 글이 쓰여졌습니다. 초기 연구는 의사 헌장(2002년에 발표된)에 요약된 기본 원칙과 약속을 시작으로 의료 전문직업성에 대한 [표준 정의]와 수련 중인 의사의 개발에 있어 그 중요성을 확립하는 데 중점을 두었습니다.1 이후 연구에서는 이 정의를 [입증 가능한 행동]으로 조작화하여 전문직업성을 타고난 성격 특성에서 학습하고 개선할 수 있는 기술로 이해하도록 안내했습니다.2 동시에 교육자들은 종종 '숨겨진 커리큘럼'이라고 불리는 직장 문화와 학습 환경이 전문직업성에 영향을 미치며 기관 수준에서 변화가 필요하다는 사실을 이해하기 시작했습니다.3 주요 의학교육 기관은 전문직업성을 핵심 역량으로 인식하고 미국의과대학협회 의과대학 목표 프로젝트, 의학전문대학원교육인증위원회(ACGME) 핵심 역량, 캐나다왕립의과대학(RCPSC) CanMEDS 프레임워크에 명시된 대로 학부 및 대학원 환경에서 전문직업성을 가르치고 평가할 것을 요구했습니다.4,5,6(p20),7 
Much has been written about professionalism in medicine since the late 1990s. Early work focused on establishing a standard definition of medical professionalism and its importance in the development of physicians-in-training, starting with the fundamental principles and commitments outlined in the Physician Charter (published in 2002).1 Later work operationalized this definition into demonstrable behaviors, guiding the understanding of professionalism away from an innate personality trait to a skill that can be learned and improved.2 At the same time, educators began to understand that workplace culture and learning environments, often referred to as the “hidden curriculum,” have effects on professionalism that require changes at the institutional level.3 Major medical education organizations have recognized professionalism as a core competency and require that it be taught and evaluated in both the undergraduate and postgraduate settings, as laid out in the Association of American Medical Colleges Medical School Objectives Project, the Accreditation Council for Graduate Medical Education (ACGME) core competencies, and the Royal College of Physicians and Surgeons of Canada (RCPSC) CanMEDS framework.4,5,6(p20),7

이러한 배경을 바탕으로 학부 의학교육(UME)에서 전문직업성 교육은 엄청나게 성장했습니다. Birden과 동료들은8 UME 환경에서의 전문직업성 교육을 개괄하는 수준 높은 체계적 문헌고찰에서 학생들이 전문직업성 학습을 위한 가장 효과적인 전략으로 [역할 모델링]과 [성찰의 기회]를 꼽았다고 밝혔습니다. 그러나 교육 개입의 효과에 대한 고품질의 결과 증거는 드물었습니다. 
Building on that background, professionalism education has grown tremendously in undergraduate medical education (UME). Birden and colleagues,8 in a high-quality systematic review outlining professionalism teaching in the UME setting, found that students rated role modeling and opportunities for reflection as the most effective strategies for learning professionalism. High-quality outcome evidence on the effectiveness of educational interventions, however, was sparse.

대학원 의학교육(PGME) 학습 환경은 UME 환경과 크게 다릅니다. 수련의는 훨씬 더 많은 수의 환자에게 노출되며, 복잡성이 높아지고 책임도 점점 더 커집니다. 이로 인해 전문직업적 행동에 대한 부담이 점점 더 커지고 있습니다.4(pp17-36) 직장 기반 학습 이론은 학습을 촉진하는 데 있어 맥락, 커뮤니티, 경험의 중요성을 인정합니다.9 따라서 PGME에서 전문직업성을 가르치는 데 무엇이 효과적인지에 대한 증거는 해당 환경에서 수행된 연구에 기반해야 합니다. ACGME, 미국외과학회, RCPSC, 유럽의학교육협회10-13 등 전 세계의 여러 의학교육 기관에서 PGME에서 전문직업성을 가르치기 위한 리소스를 개발했지만, 이러한 리소스가 어떻게 사용되었고 수련의에게 어떤 영향을 미쳤는지는 알려지지 않았습니다. PGME에서 효과적인 전문직업성 커리큘럼에 대한 증거를 요약한 단일 리소스가 필요합니다.
The postgraduate medical education (PGME) learning environment differs substantially from the UME setting. Trainees are exposed to significantly higher volumes of patients, with higher complexity and ever-increasing responsibilities. This opens the door to ever-increasing strains on professional behavior.4(pp17–36) Workplace-based learning theory recognizes the importance of context, community, and experience in facilitating learning.9 Thus, evidence for what works in teaching professionalism in PGME needs to be based on research done in that setting. Although a number of medical education organizations across the globe have developed resources for teaching professionalism in PGME—including the ACGME, the American College of Surgeons, the RCPSC, and the Association for Medical Education in Europe10–13—it is not known how these resources have been used and what their effects have been on trainees. A single resource summarizing the evidence for effective professionalism curricula in PGME is needed.

이 검토에는 두 가지 주요 목표가 있습니다.

  • 첫째, 문헌을 체계적으로 검토하여 PGME에서 발표된 전문직업성 커리큘럼을 설명 및 요약하고, 모범 사례를 강조하며, 지식의 격차를 파악하는 것입니다.
  • 둘째, 각자의 교육기관에서 PGME의 증거 기반 전문직업성 커리큘럼을 구현하고자 하는 교육자에게 리소스를 제공하고자 합니다.

This review has 2 primary goals.

  • First, through systematically reviewing the literature, we aim to describe and summarize the published professionalism curricula in PGME, to highlight best practices, and to identify gaps in knowledge.
  • Second, we hope to provide a resource for educators wishing to implement evidence-based professionalism curricula in PGME at their own institutions.

방법
Method

문헌 검색 전략
Literature search strategy

검색 전략은 이전에 발표된 전문직업성  교육에 대한 체계적 문헌고찰8,14 에 기술된 전략을 기반으로 하였으며, 대학원 수련생에 초점을 맞추도록 수정하였습니다. 1980년 1월 1일부터 검색일인 2017년 9월 7일까지 출판된 논문에 대해 3개의 주요 전자 데이터베이스인 MEDLINE, Embase, ERIC을 검색했습니다. MEDLINE과 Embase에서는 전문직업성, 의학전문대학원 수련의, 교육적 개입이라는 3가지 핵심 개념과 관련 의학 주제 제목(MeSH) 용어 및 키워드를 검색했습니다. ERIC에서는 전문직업성(또는 동의어) 및 의학(또는 동의어) 및 레지던트(또는 동의어)를 검색했습니다. 또한 관련 리뷰 논문과 전문 분석에 포함된 논문의 참고문헌 목록도 직접 검색했습니다. 
Our search strategy was based on strategies described in previously published systematic reviews of professionalism education8,14 and modified to focus on postgraduate trainees. We searched 3 major electronic databases—MEDLINE, Embase, and ERIC—for articles published from January 1, 1980, through our search date of September 7, 2017. In MEDLINE and Embase, we searched for 3 core concepts and their associated Medical Subject Headings (MeSH) terms and keywords: professionalism, postgraduate medical trainees, and educational interventions. (Search strategies for these databases are provided in Supplemental Digital Appendixes 1 and 2 at https://links.lww.com/ACADMED/A746.) In ERIC, we searched for professionalism (OR synonyms) AND medicine (OR synonyms) AND resident (OR synonyms). We also hand searched the reference lists of relevant review articles and articles included in our full-text analysis.

기사 선정 및 자격 기준
Article selection and eligibility criteria

논문은 다음 3가지 기준을 충족하는 경우에 포함될 수 있습니다:

  • (1) CanMEDS 2015 의사 역량 프레임워크7에 따라 정의된 전문성의 적어도 한 가지 측면을 다루는 교육적 개입을 명확하게 기술한 논문,
  • (2) 연구 그룹에 대학원 의학 수련생이 포함된 논문,
  • (3) 교육 결과에서 전문직업성의 일부 측면을 측정한 논문입니다.

영어가 아닌 다른 언어로 작성되었거나 전문가가 아닌 CanMEDS 역할에 주로 초점을 맞춘 논문은 제외되었습니다. 예를 들어, 대리 의사 결정이나 사전 치료 계획에 초점을 맞춘 연구는 커뮤니케이터 및 협력자 역할에 더 가깝기 때문에 제외했습니다. 전문직업성의 하위 구성 요소를 매우 좁게 다루어 교육적 개입과 결과를 전문성 커리큘럼에 더 광범위하게 적용할 수 없는 논문도 제외되었습니다. 이러한 주제는 일반적으로 이전에 발표된 전문직업성 관련 리뷰 논문에는 포함되지 않았으므로 질 향상 또는 과실 커리큘럼에 대한 연구도 포함되었습니다.8 교육 개입 또는 수행된 구체적인 결과 평가에 대한 충분한 설명이 없는 출판물은 분석을 위한 충분한 세부 정보가 포함되어 있지 않으므로 제외되었습니다.  
Articles were eligible for inclusion if they met the following 3 criteria:

  • (1) the article clearly described an educational intervention addressing at least one aspect of professionalism, as defined according to the CanMEDS 2015 Physician Competency Framework7;
  • (2) the study group included postgraduate medical trainees; and
  • (3) the educational outcomes measured some aspect of professionalism.

Articles were excluded if they were written in any language other than English or if they primarily focused on CanMEDS roles other than Professional. For example, we excluded studies focused on substitute decision making or advance care planning as these topics fit more closely with the Communicator and Collaborator roles. Articles that addressed a very narrow subcomponent of professionalism, such that their educational interventions and outcomes could not be applied to professionalism curricula more broadly, were also excluded. Examples included studies of quality improvement or malpractice curricula as these topics have generally not been included in previously published review articles on professionalism.8 Publications without sufficient description of the educational intervention or the specific outcome assessments performed were excluded as these did not contain sufficient detail for analysis.

한 명의 검토자(S.G.B. 또는 E.N.)가 모든 제목과 초록을 선별했습니다. 두 명의 주 심사자 간에 명확한 프로토콜을 수립하고 심사 과정을 표준화하기 위해 A.S.B.가 200개의 논문 제목과 초록을 중복하여 심사했습니다. 불확실한 논문은 2명의 심사위원이 중복 검토한 후 합의를 통해 결정했습니다. 제목과 초록만으로는 포함 여부를 결정할 수 없는 경우, 전문을 검토하여 결정했습니다.
One reviewer (S.G.B. or E.N.) screened all titles and abstracts. A.S.B. screened a duplicate set of 200 articles’ titles and abstracts to help establish clear protocols and standardize the screening process between the 2 main reviewers. Any articles for which there was uncertainty were reviewed in duplicate by 2 reviewers and decided upon by consensus. If eligibility could not be decided based on the title and abstract, the full text was reviewed to make a decision about inclusion.

데이터 추출
Data extraction

두 명의 검토자(S.G.B. 및 A.S.B.)가 포함 기준을 충족하는 모든 논문의 전문을 읽고 표준 데이터 추출 양식을 사용하여 각 논문에서 데이터를 추출했습니다. 두 심사자 간의 의견 불일치는 논의하여 합의를 통해 해결했습니다. 데이터 추출 양식에는 출판 세부 정보, 연구 모집단, 연구 설계, 커리큘럼 설계(중재 유형/양식 및 빈도/기간 포함), 다루어진 전문직업성 주제, 결과 설명, 연구의 질 등의 변수가 포함되었습니다. 결과는 환자의 결과를 가장 높은 수준(4단계)으로 간주하고, 그 다음으로 행동의 변화(3단계), 지식의 변화(2단계), 마지막으로 행동, 만족도, 태도, 가치관의 자기보고 변화(1단계)로 간주하는 오리지널 Kirkpatrick 모델에 따라 기술되었습니다.15 저자가 주장하는 1차 결과를 기반으로 하거나, 없는 경우 측정된 가장 높은 수준의 Kirkpatrick 결과를 식별하여 1차 결과를 확인했습니다. 일부 연구에서는 커뮤니케이션 기술 및 전문직업성과 같은 여러 역량과 관련된 결과를 평가했습니다. 주요 결과가 전문직업성과 관련이 없는 경우, 가장 높은 수준의 전문직업성 관련 결과를 분석의 주요 결과로 사용했습니다. 
Two reviewers (S.G.B. and A.S.B.) read the full text of all articles meeting inclusion criteria and extracted data from each article using a standard data extraction form. Discrepancies between the 2 reviewers were discussed and resolved by consensus. The data extraction form included the following variables: publication details, study population, study design, curriculum design (including intervention type/modality and frequency/duration), professionalism topics addressed, description of outcomes, and quality of the study. Outcomes were described according to the original Kirkpatrick model, whereby patient outcomes were considered highest quality (level 4), followed by changes in behavior (level 3), then changes in knowledge (level 2), and finally self-reported changes in behavior, satisfaction, attitudes, and values (level 1).15 We identified the primary outcome based on the authors’ assertion of their primary outcome or, when absent, by identifying the highest-level Kirkpatrick outcome measured. Some studies assessed outcomes related to multiple competencies, such as communication skills and professionalism. When the primary outcome did not relate to professionalism, we used the highest-level professionalism-specific outcome as the primary outcome for our analysis.

효과성
Effectiveness

전문직업성을 가르치는 모범 사례를 파악하기 위해 커리큘럼이 효과적인지 여부를 평가했습니다. 효과적이라는 것은 [주요 교육 결과가 통계적으로 유의미하게 개선된 것]으로 정의했습니다. 정의에 따라 이 분석에는 대조군 설계 또는 사전 및 사후 테스트가 포함된 단일 그룹 설계의 정량적 연구만 포함될 수 있습니다.
To identify best practices for teaching professionalism, we evaluated whether curricula were effective. We defined effective as a statistically significant improvement on the primary educational outcome. By definition, this analysis could only include quantitative studies with a control group design or a single-group design with pre- and posttests.

품질 평가
Quality assessment

두 명의 검토자(S.G.B. 및 A.S.B.)가 양적 교육 연구를 평가하기 위해 고안된 도구인 의학교육 연구 질 도구(MERSQI)를 사용하여 연구의 질을 평가했습니다.16 MERSQI는 연구 설계, 표본 추출, 데이터 유형, 타당성 근거, 데이터 분석, 결과 유형 등 6개 영역에 대해 연구를 평가합니다. 각 영역의 최대 점수는 3점, 총점은 18점이며, 점수가 높을수록 연구의 질이 높음을 나타냅니다. 여러 연구에서 이 도구의 전반적인 신뢰도는 양호한 것으로 보고되었으며, 신뢰도 카파 계수 점수는 0.72~0.99에 달합니다.16,17 
Two reviewers (S.G.B. and A.S.B.) assessed study quality using the Medical Education Research Study Quality Instrument (MERSQI), a tool designed to evaluate quantitative education research studies.16 The MERSQI evaluates studies on 6 domains: study design, sampling, type of data, validity evidence, data analysis, and type of outcomes. The maximum score in each domain is 3 points, for a maximum total score of 18, with higher scores indicating higher quality. Overall reliability of the tool has been reported as good in multiple studies, with reliability kappa coefficient scores ranging from 0.72 to 0.99.16,17

MERSQI는 [내용, 내부 구조, 다른 변수와의 관계] 등 3가지 유형의 타당성 증거를 검토합니다. 각 유형의 타당성 근거에 대해 1점씩 최대 3점까지 부여됩니다. 분석에서는 논문이 연구 결과 평가 도구의 타당성 근거를 명시적으로 설명한 경우에만 이 점수를 부여했습니다. 논문이 이전 연구를 인용했지만 타당성 근거를 설명하지 않은 경우에는 점수가 부여되지 않았습니다.
The MERSQI looks at 3 types of validity evidence: content, internal structure, and relationship with other variables. One point is awarded for each type of validity evidence to a maximum of 3 points. In our analysis, these points were given only if the article explicitly described the validity evidence of the study’s outcome assessment tool. If the article cited previous studies but did not describe the validity evidence, no points were given.

이 분석은 정량적 데이터가 있는 연구로 제한되었습니다. 검토에 포함된 소수의 질적 연구에는 점수를 매길 수 있는 명확한 지침이 없었기 때문에 질적 분석은 수행하지 않았습니다. 
This analysis was restricted to studies with quantitative data. Quality analysis was not performed on the small subset of qualitative studies included in the review as there were no clearly established guidelines to score them.

검색 결과
Results

검색 결과, 중복을 제거한 후 3,383개의 연구가 검색되었습니다. 3,383개 논문의 제목과 초록을 검토한 결과, 전체 텍스트 검토를 위해 96개의 논문을 확인했으며, 이 중 56개는 제외했습니다. 또한 나머지 40편의 논문과 관련 리뷰 논문 40편의 참고문헌 목록을 모두 검토하여 14편의 논문을 추가로 포함할 수 있었습니다. 총 50개의 고유한 커리큘럼을 설명하는 54개의 논문이 체계적 문헌고찰의 포함 기준에 부합하는 것으로 확인되었습니다. 동일한 커리큘럼을 기술한 논문이 두 편 이상인 경우, 가장 높은 수준의 근거를 보고한 논문만 최종 검토에 포함되어 총 50편의 연구가 포함되었습니다.18-67그림 1은 우리의 검토 과정을 도식화한 것입니다. 각 논문에서 추출한 데이터 요약은 부록 디지털 부록 3 https://links.lww.com/ACADMED/A746 에 포함되어 있습니다. 
Our search yielded 3,383 studies after duplicates were removed. After screening the titles and abstracts of all 3,383 articles, we identified 96 for full-text review, of which we excluded 56. We also reviewed the reference lists of all 40 remaining articles as well as 40 relevant review articles, which led to identification of 14 additional articles for inclusion. In total, we identified 54 articles, describing 50 unique curricula, that met inclusion criteria for our systematic review. When more than one article described the same curriculum, only the article reporting on the highest-quality evidence was included in our final review, for a total of 50 included studies.18–67Figure 1 diagrams our review process. A summary of the data extracted for each article is included in Supplemental Digital Appendix 3 https://links.lww.com/ACADMED/A746.

 

50개 연구 중 대다수가 미국에서 수행되었습니다(n = 41, 82%). 대부분(n = 42, 84%)이 한 기관 내에서 이루어졌습니다. 참가자는 대부분 수련 초기의 내과 또는 외과 레지던트였습니다. 표본 규모는 9명에서 387명(평균 = 62명)까지 매우 다양했습니다. 11개 연구(22%)에는 대조군이 포함되었고, 3개 연구(6%)는 무작위 대조 시험이었습니다. 사전 및 사후 테스트를 통해 결과를 측정한 단일 그룹 연구가 가장 많았습니다(n = 24, 48%)(표 1). 
The majority of the 50 studies occurred in the United States (n = 41, 82%). Most (n = 42, 84%) occurred within one institution. Participants were most often internal medicine or surgery residents early in their training. Sample size varied greatly, ranging from 9 to 387 participants (mean = 62). Eleven studies (22%) included control groups; 3 studies (6%) were randomized controlled trials. Single-group studies measuring outcomes with pre- and posttests were the most common (n = 24, 48%) (Table 1).

대부분의 커리큘럼은 소그룹 토론 기반 교육 전략(n = 28, 56%)을 사용했지만, 수업didactics, 성찰 연습, 시뮬레이션 등 다양한 교육 방법이 사용되었습니다. 절반은 여러 교수법을 사용했습니다(n = 25, 50%). 대부분은 한 학년도 내에 여러 세션에 걸쳐 진행되었습니다(표 2). 두 연구에서는 Balint 교육 그룹을 도입했고,18,29 두 연구에서는 미국 외과학회에서 개발한 커리큘럼 도구를 사용했습니다.42,61 다른 모든 연구에서는 새로 개발된 커리큘럼을 평가했습니다.

Most curricula used small-group, discussion-based teaching strategies (n = 28, 56%), although a variety of other teaching methods were employed, including didactics, reflection exercises, and simulations. Half used multiple teaching modalities (n = 25, 50%). Most occurred over multiple sessions within one academic year (Table 2). Two studies instituted Balint training groups,18,29 and 2 studies used curricular tools developed by the American College of Surgeons.42,61 All other studies evaluated newly developed curricula.

우리는 커리큘럼 주제를 환자, 사회, 전문직, 자기 자신(특히 자기 인식과 웰빙)에 대한 헌신을 보여주는 것으로 설명되는 CanMEDS 2015 전문직업성 핵심 역량에 매핑했습니다.7 가장 많이 다루어진 역량은 환자에 대한 헌신(n = 42, 84%), 특히 정직, 존중, 기밀유지를 포함한 적절한 직업적 가치와 행동을 보여주는 것이었습니다. 거의 절반에 가까운 커리큘럼(n = 23, 46%)이 자기 자신(의사의 건강 및 웰빙)에 대한 헌신 입증에 대해 다루었습니다(표 3). 

We mapped curriculum topics onto the CanMEDS 2015 Professionalism key competencies, in which professionalism is described as demonstrating a commitment to patients, society, the profession, and self (specifically, self-awareness and well-being).7 The most common competency addressed was demonstrating a commitment to patients (n = 42, 84%), specifically demonstrating appropriate professional values and behavior including honesty, respect, and confidentiality. Nearly half of the curricula (n = 23, 46%) addressed demonstrating commitment to self (physician health and well-being) (Table 3).

위에서 설명한 Kirkpatrick 근거 수준에 따르면, 대부분의 연구(n = 27, 54%)는 태도 및 행동의 자가 보고 변화를 포함한 1단계 결과만을 조사했습니다. 12개 연구(24%)는 지식을, 8개 연구(16%)는 임상 또는 시뮬레이션 환경에서 관찰된 행동을, 3개 연구(6%)는 레지던트가 제공한 진료를 환자가 평가한 환자 결과를 평가했습니다(표 2). 이전에 검증된 많은 결과 평가 도구가 사용되었지만(표 4), 연구 간에 일관성이 거의 없었습니다. 3개의 연구(6%)에서는 제퍼슨 의사 공감 척도(Jefferson Scale of Physician Empathy)를 사용했고,18,29,35 2개의 연구(4%)에서는 마슬라흐 번아웃 인벤토리를 사용했습니다.47,56 다른 모든 연구에서는 이전에 검증된 다른 도구 또는 연구를 위해 개발된 평가 도구를 사용했습니다.
According to Kirkpatrick levels of evidence, as outlined above, most studies (n = 27, 54%) looked only at level 1 outcomes, including self-reported changes in attitudes and behavior. Twelve studies (24%) evaluated knowledge, 8 studies (16%) evaluated behavior observed in either clinical or simulated settings, and 3 studies (6%) evaluated patient outcomes, with patients rating the care provided by residents (Table 2). Many previously validated outcome assessment tools were used (Table 4); however, there was little consistency between studies. Three studies (6%) used the Jefferson Scale of Physician Empathy,18,29,35 and 2 studies (4%) used the Maslach Burnout Inventory.47,56 All others used other previously validated tools or assessment tools developed for the study.

 

4건을 제외한 모든 연구29,30,48,59의 저자는 연구 집단에 대한 개입이 긍정적인 영향을 미쳤다고 주장했습니다(표 2). 45개의 정량적 연구 중 35개(70%)가 통계적 수단을 사용하여 효과를 평가했습니다. 이 35개 연구 중 20개(57%)는 1차 결과에 통계적으로 유의미한 긍정적 효과가 있었다고 보고했습니다. 효과와 개입의 기간, 강도 또는 복잡성 사이에는 명확한 관계가 없었습니다(표 2). 예를 들어, 단일 양식 커리큘럼의 64%(n = 9/14)가 효과적이었던 반면 다중 양식 커리큘럼의 52%(n = 11/21)가 효과적이었고, 단일 세션 커리큘럼의 60%(n = 6/10)가 효과적이었던 반면 종단형 커리큘럼의 56%(n = 14/25)가 효과적이었습니다. 지식 개선을 목표로 한 개입이 가장 효과적이었던 반면(n = 8/12, 67%), 행동 및 환자 결과를 목표로 한 개입은 가장 효과적이지 않았습니다(각각 n = 2/6, 33%, n = 1/3, 33%).
The authors of all but 4 studies29,30,48,59 claimed positive effects of their interventions on the study population (Table 2). Of the 45 quantitative studies, 35 (70%) used statistical means to evaluate effectiveness. Of those 35 studies, 20 (57%) reported statistically significant positive effects on their primary outcome. There was no clear relationship between effectiveness and duration, intensity, or complexity of the intervention (Table 2). For example, 64% (n = 9/14) of the single-modality curricula were effective versus 52% (n = 11/21) of the multimodality curricula; 60% (n = 6/10) of the single-session curricula were effective versus 56% (n = 14/25) of the longitudinal curricula. Interventions targeting improvements in knowledge were most often effective (n = 8/12, 67%), while those targeting behavior and patient outcomes were least often effective (n = 2/6, 33%, and n = 1/3, 33%, respectively).

45건의 정량적 연구는 중간 정도의 수준이었으며, MERSQI 점수는 421~1627점(평균 = 10.3점)으로 18점 만점 중 4점부터 16점까지 다양했습니다. 대부분의 연구는 결과 평가 도구의 타당성 근거를 설명하지 않았고(따라서 최대 3점까지 감점), 대조군을 사용하지 않았으며, 자가 보고된 결과만을 평가했습니다. 15개 연구(33%)는 일반적으로 좋은 점수로 간주되는 12점 이상을 획득했습니다. 질이 높은 연구일수록 효과적인 개입이 더 자주 보고되었습니다. MERSQI 점수가 12점 이상인 15개 연구 중 11개 연구(73%)에서 교육 결과가 크게 개선된 것으로 보고된 반면, 12점 미만인 30개 연구 중 9개 연구(30%)에서는 교육 결과가 개선되지 않았습니다.
The 45 quantitative studies were of moderate quality, with MERSQI scores ranging from 421 to 1627 (mean = 10.3) of a possible 18. Most studies did not describe the validity evidence of their outcome assessment tools (and therefore lost up to 3 points), did not use control groups, and evaluated only self-reported outcomes. Fifteen studies (33%) achieved a score of 12 or higher, which is generally considered a good score. The higher-quality studies more often reported interventions that were effective: 11 of the 15 studies (73%) with MERSQI scores greater than or equal to 12 reported significant improvements in educational outcomes versus 9 of the 30 studies (30%) with MERSQI scores less than 12.

특정 범주의 연구 수가 적고 연구 설계, 커리큘럼 디자인, 다루는 전문직업성 주제, 주요 결과의 유형이 이질적이기 때문에 커리큘럼을 직접 비교하여 어떤 개입이 더 효과적이거나 덜 효과적인지 판단할 수는 없었습니다. 효과성에 대한 해석은 신중해야 합니다.
Due to the small number of studies in certain categories and the heterogeneity of study design, curriculum design, professionalism topics addressed, and type of primary outcome, it was not possible to directly compare curricula to determine which interventions were more or less effective. Interpretations regarding effectiveness should be cautious.

토론
Discussion

문헌에 대한 체계적인 검토를 통해 PGME의 전문직업성 커리큘럼을 평가하는 50개의 연구를 확인했습니다. 이 연구의 목표 중 하나는 PGME에서 전문성을 가르치는 모범 사례를 파악하는 것이었지만, 두 가지 이유로 인해 어려움이 있었습니다.

  • 첫째, 개별 연구에서 평가된 결과의 유형에 큰 이질성이 있었습니다. [지식 습득을 목표로 하는 중재]의 결과는 [환자 결과를 목표로 하는 중재의 결과](더 많은 시간이 소요되고 복잡한 결과 평가가 필요함)에 비해 측정 및 효과 입증(예: 사전/사후 객관식 시험 설계 사용)이 훨씬 쉬울 수 있지만, 후자가 더 중요한 결과일 가능성이 높습니다.
  • 둘째, 이와 관련하여 교육 방식에서 상당한 이질성을 발견했습니다. 예를 들어 공감을 가르치는 데 효과적인 교수법은 윤리를 가르치는 데 효과적인 교수법과 매우 다를 가능성이 높지만, 둘 다 전문성이라는 범주에 속하기 때문에 이는 놀라운 일이 아닙니다. 이는 전문성과 같은 광범위한 개념을 연구하는 데 있어 본질적인 과제입니다. 

In our systematic review of the literature, we identified 50 studies evaluating professionalism curricula in PGME. Although one of our goals for this study was to identify best practices in teaching professionalism in PGME, this proved difficult for 2 reasons.

  • First, there was great heterogeneity in the types of outcomes assessed in individual studies. The outcome of an intervention targeting knowledge acquisition would be much easier to measure and prove effective (e.g., by using a pre/post multiple-choice test design) compared with an intervention targeting a patient outcome (which would require more time-consuming and involved outcome assessment), although the latter is likely a more important outcome. Second, on a related note, we found significant heterogeneity in teaching modalities. This was not surprising, as what works for teaching empathy is likely very different from what works for teaching ethics, for example, although both fall under the rubric of professionalism. This is an intrinsic challenge of studying a broad concept like professionalism.

이러한 이유로 결과를 종합하여 '전문직업성을 가르치는 가장 좋은 방법'을 파악하는 것은 불가능한 것으로 판명되었습니다.
For these reasons, synthesizing the results to identify “the best way to teach professionalism” proved impossible.

이러한 한계에도 불구하고 여기에서는 PGME에서 전문직업성을 가르치는 데 효과적인 방법에 대한 몇 가지 흥미로운 결과를 강조합니다. 연구 결과에 따르면 교육적 개입을 통해 지식 성과가 가장 크게 개선될 가능성이 높고, 그 다음이 태도, 그 다음이 행동이라는 것을 알 수 있습니다. 이는 몇 가지 이유로 이해할 수 있습니다.

  • 첫째, 의료 수련생은 수년간의 학교 교육과 시험을 통해 새로운 지식을 찾고 습득할 준비가 되어 있습니다.
  • 둘째, 위에서 언급했듯이 지식은 간단한 테스트 전략을 사용하여 그룹 간 또는 시간 경과에 따른 차이를 측정하고 보여주기 가장 쉬운 교육 결과 중 하나입니다.
  • 셋째, 행동 변화는 행동 심리학에서 잘 정립된 '생각하고, 느끼고, 행동한다'는 패턴을 따르는 경향이 있으므로 이러한 커리큘럼이 전문적인 행동을 개선하기 위해 노력할 때 가장 먼저 관찰 가능한 결과는 지식 향상일 수 있습니다.

Despite these limitations, we highlight here a few interesting findings about what works in teaching professionalism in PGME. Our results suggest that knowledge outcomes are the most likely to be significantly improved by educational interventions, followed by attitudes and then behavior. This is understandable for a few reasons.

  • First, medical trainees are primed after years of schooling and testing to seek out and acquire new knowledge.
  • Second, as noted above, knowledge is one of the easiest educational outcomes to measure and show differences between groups or over time using simple testing strategies.
  • Third, behavior change tends to follow the pattern of “think, feel, do,” which has been well established in behavioral psychology68; therefore as these curricula work toward improving professional behavior, the first observable outcome may be knowledge enhancement.

가장 놀라운 발견은 커리큘럼 기간과 효과 사이의 연관성에 관한 것입니다: 커리큘럼 기간은 효과와 관련이 없었습니다. 데이터에 따르면 단일 세션 중재는 종단적 커리큘럼만큼이나 효과적이었습니다(표 2). 이는 포함된 연구 중 하나에서 직접 조사되었습니다: Packer48는 윤리 강의 수강 횟수(최대 8회)가 정의적 문제 테스트(Defining Issues Test)로 측정한 도덕적 추론 능력 향상과 상관관계가 없다는 사실을 발견했는데,69 이는 더 긴 개입이 반드시 전문직업성에 대한 더 큰 효과와 상관관계가 없다는 우리의 발견을 뒷받침합니다. 이는 학습에 대한 일반적인 믿음과 모순될 뿐만 아니라 반복적인 노출, 특히 시간이 지남에 따라 분산된 경우("분산 학습") 더 강력한 학습 효과를 가져온다는 최근의 학습 과학 연구와도 상반됩니다.70 다양한 길이의 전문직업성 교육과정을 직접 비교한 연구는 교육 시간 측면에서 더 많은 것이 더 나은지에 대한 질문에 답하는 데 도움이 될 것입니다.
Our most surprising finding relates to the association between curriculum duration and effectiveness: Curriculum duration was not associated with effectiveness. Our data show that single-session interventions were effective as often as longitudinal curricula (Table 2). This was examined directly in one of the included studies: Packer48 found that the number of ethics lectures attended (of a maximum of 8) did not correlate with improvement in moral reasoning, as measured by the Defining Issues Test,69 which supports our finding that longer interventions do not necessarily correlate with more significant effects on professionalism. This contradicts generally held beliefs about learning, as well as recent research in learning science suggesting that repeated exposure, especially if distributed over time (“distributed learning”), results in stronger learning.70 Studies directly comparing professionalism curricula of various lengths would be helpful in answering the question of whether more, in terms of teaching time, is better.

유의미한 개별 연구
Significant individual studies

본 리뷰에 포함된 최고 수준의 정량적 연구는 Brinkman 등의27 소아과 레지던트 성과에 대한 부모와 간호사의 평가에 대한 다중 출처 피드백 평가로, MERSQI에서 18점 만점 중 16점을 기록했습니다. 레지던트들은 무작위로 배정되어 [멀티소스 피드백과 30분간의 일대일 코칭 세션]을 통해 [자신의 평가를 검토]하거나, 일반적인 [교대 근무 종료 후 직원으로부터 평가]를 받도록 했습니다. 5개월 후, [다중 소스 피드백 그룹]은 부모와 간호사로부터 친절성, 존중성, 책임감에서 훨씬 더 높은 평가를 받았습니다. 이 연구는 교육 시간을 거의 들이지 않고도 간단한 개입으로 환자 수준의 결과에 상당한 영향을 미칠 수 있다는 점을 강조한다는 점에서 주목할 만합니다. 다중 소스 피드백은 의사의 전문직업성 수준에 직접적인 영향을 받는 개인이 평가를 완료하기 때문에 전문직업성, 특히 환자에 대한 헌신 입증과 관련된 역량을 평가하는 이상적인 방법입니다. 
The highest-quality quantitative study included in our review was Brinkman et al’s27 assessment of multisource feedback on parents’ and nurses’ ratings of pediatric residents’ performance, which scored 16 of a possible 18 on the MERSQI. Residents were randomized either

  • to receive multisource feedback and a single 30-minute one-on-one coaching session to review their evaluations or
  • to receive usual end-of-rotation evaluations by staff.

Five months later, the multisource feedback group was rated significantly higher on friendliness, respectfulness, and accountability by parents and nurses. This study is noteworthy as it highlights that a simple intervention using little educational time can have a significant impact on patient-level outcomes. Multisource feedback is an ideal method of evaluating professionalism, particularly the competencies related to demonstrating commitment to patients, as the individuals directly affected by a physician’s level of professionalism complete the evaluations.

웰빙의 장애는 제공되는 의료 서비스의 질과 의사의 정신 건강 모두에 광범위한 영향을 미칠 수 있기 때문에 의사의 웰빙에 초점을 맞춘 많은 연구를 보게 되어 기뻤습니다. 이 문헌고찰에 포함된 두 연구는 발린트 그룹을 교육 전략으로 사용했습니다.18,29 발린트 그룹은 약 70년 동안 환자-의사 관계를 발전시키고 의사의 자기 성찰 능력을 향상시키는 데 사용되어 왔습니다. Adams와 동료들18은 산부인과 레지던트를 대상으로 격월로 Balint 그룹과 일반 교육에 등록한 무작위 대조 임상시험을 설명했습니다. 6개월 후, 두 연구 그룹 모두 360° 전문성 평가 도구에서 개선되었습니다. 두 그룹 간에 유의미한 차이는 없었지만, 이 연구는 전문성 커리큘럼에 대한 잘 설계된 교육 연구의 또 다른 예라고 강조합니다. 
We were pleased to see many studies focusing on physician well-being, as impairments in well-being can have wide-ranging implications for both quality of medical care provided and physician mental health. Two studies in this review used Balint groups as their teaching strategy.18,29 Balint groups have been used for about 70 years to develop the patient–physician relationship and improve physicians’ capacity for self-reflection. Adams and colleagues18 described a randomized controlled trial of obstetrics residents enrolled in bimonthly Balint groups versus usual education. At 6 months, both study groups improved on a 360° professionalism evaluation tool. Although there was no significant difference between the groups, we highlight this as another example of a well-designed educational research study of a professionalism curriculum.

다른 많은 연구에서는 의사의 심리사회적 과제에 초점을 맞춘 소그룹 세션을 사용했습니다. 예를 들어 Slavin과 동료들56은 소아과 1년차 레지던트를 위한 월별 사례 기반 토론 그룹으로 구성된 1년간의 커리큘럼을 설명하면서 스트레스 관리와 환자와 의사가 흔히 마주치는 어려운 상황에 초점을 맞췄습니다. 참가자들을 과거 대조군 그룹과 비교한 결과, 검증된 도구로 측정한 결과 번아웃, 우울증, 불안의 비율이 크게 개선된 것으로 나타났습니다. 수련의의 웰빙을 면밀히 살펴보고자 하는 레지던트 프로그램은 이 연구의 개입 및 평가 도구를 검토하여 커리큘럼 개발을 안내하는 데 도움이 되기를 바랍니다. 
Many other studies used small-group sessions focused on the psychosocial challenges of doctoring. For example, Slavin and colleagues56 described a 1-year curriculum of monthly case-based discussion groups for first-year pediatrics residents focusing on managing stress and common challenging patient–physician encounters. Comparing participants with a group of historical controls, they found significant improvement in rates of burnout, depression, and anxiety, as measured with validated tools. We encourage residency programs taking a closer look at the well-being of their trainees to review this study’s interventions and assessment tools to help guide their curriculum development.

강점 및 한계
Strengths and limitations

이 리뷰에는 여러 가지 한계가 있습니다. 첫 번째는 검색 및 포함된 논문의 포괄성과 관련이 있습니다. 리소스 제한으로 인해 3개의 데이터베이스를 검색했기 때문에 중요하고 관련성 있는 연구가 모두 포함되지 않았을 수 있습니다. 그러나 이전에 발표된 2건의 고품질 리뷰 논문8,14에서 사용된 전략을 기반으로 검색 전략을 모델링하고 검색어를 크게 확장했습니다.
There are a number of limitations of this review. The first relates to the comprehensiveness of the search and included articles. Due to resource limitations, we searched 3 databases; therefore, it is possible that not all important, relevant studies were captured. However, we modeled our search strategy on the strategies used in 2 previously published high-quality review articles8,14 and greatly expanded the search terms.

이와 관련하여 포함할 논문을 선택하는 데는 몇 가지 주관적인 결정이 필요했습니다. 특히 교육적 개입과 결과가 다른 관련 역량과 달리 진정으로 전문직업성을 나타내는지 여부를 결정하는 것이 어려웠습니다. 전문직업성에 대한 포괄적이고 구체적인 정의인 CanMEDS 2015를 사용했지만,7 다른 역량과 중복되는 경우가 많았기 때문에 연구를 포함할지 여부를 판단해야 했습니다. 이는 제목 및 초록 심사 과정에서 특히 문제가 되었을 수 있는데, 그 단계에서 대부분의 결정이 한 명의 심사자에 의해 이루어졌기 때문입니다.
On a related note, selecting articles to include involved several subjective decisions. It was particularly challenging to decide whether educational interventions and outcomes truly represented professionalism as opposed to other related competencies. Although we used the CanMEDS 2015 comprehensive and specific definition of professionalism,7 there was often overlap with other competencies that required a judgment about whether to include a study. This may have been particularly problematic in the title and abstract screening process as the majority of decisions at that stage were made by one reviewer.

두 번째 한계는 이 연구의 품질 구성과 관련이 있습니다. MERSQI는 자기 보고 결과(태도/인식/의견 1점, 지식 1.5점)보다 환자 결과(3점)에 더 많은 점수를 부여합니다.16 이 모델을 사용하면 소진, 우울, 불안을 측정하는 데 사용되는 도구가 자기 보고에 의존하기 때문에 결과 영역에서 의사 웰빙과 관련된 결과의 점수가 낮게 나옵니다. 그러나 의사의 정신 건강은 그 자체로 심각하고 중요한 결과이므로 이 계층 구조는 전문성에 적용할 때 최적이 아닐 수 있다고 생각합니다. 또한 의사의 웰빙이 동료와 환자에 대한 행동에 광범위한 영향을 미칠 수 있다는 증거가 늘어나고 있습니다. 예를 들어, 2008년 소아과 레지던트를 대상으로 한 연구에 따르면 우울증에 걸린 레지던트는 그렇지 않은 레지던트에 비해 투약 오류를 6배 더 많이 범하는 것으로 나타났습니다.71 의학교육자로서 우리는 환자뿐만 아니라 우리가 돌보는 수련의에 대한 의무가 있습니다. 수련의의 웰빙에 초점을 맞추는 것부터 시작하는 것이 전문성을 향한 교육을 시작할 때 가장 좋은 출발점이 될 수 있습니다.
The second limitation relates to our construct of quality in this study. The MERSQI awards more points for patient outcomes (3 points) than for self-reported outcomes (1 point for attitudes/perceptions/opinions, 1.5 points for knowledge).16 Using this model, the outcomes related to physician well-being scored poorly in the outcome domain as the tools used to measure burnout, depression, and anxiety rely upon self-report. However, we believe this hierarchy may not be optimal when applied to professionalism, as physician mental health is a serious and important outcome on its own. As well, increasing evidence suggests that physician well-being can have wide-reaching implications for behavior toward colleagues and patients. For example, a 2008 study of pediatric residents showed that depressed residents made 6 times more medication errors compared with nondepressed residents.71 As medical educators, we have an obligation to the trainees in our care as well as to our patients. Beginning with a focus on trainee well-being may well be the best place to start when teaching toward professionalism.

결론
Conclusions

이 체계적 문헌고찰에서는 PGME의 전문성 커리큘럼과 수련의 전문직업성 결과에 미치는 영향에 대한 50개의 연구를 확인했습니다. 이러한 교육적 개입에서 다루는 주제와 사용된 교육 및 평가 양식의 유형에서 매우 다양한 다양성을 발견했습니다. 이러한 이질성으로 인해 전문직업성 교육에 대한 모범 사례를 식별하는 것이 불가능했습니다. 그러나 이 검토는 공식적이고 구조화된 교육이 의료 수련의의 전문직업성을 향상시킬 수 있다는 추가적인 증거를 제공합니다. 이번 연구 결과는 간단하고 짧은 교육 세션도 전문성에 영향을 미칠 수 있음을 시사합니다. 전문직업성 교육 분야에 양질의 증거를 추가하기 위해 학자들은 커리큘럼의 효과를 보다 정확하게 평가하기 위해 실제 결과를 평가하는 연구를 개발할 것을 제안합니다. 또한 교육자들은 이전에 테스트를 거친 커리큘럼 및 평가 도구를 사용하고 적용하여 전문직업성 교육 도구의 품질과 유효성을 개선할 것을 제안합니다.
In this systematic review, we identified 50 studies of professionalism curricula in PGME and their effects on trainee professionalism outcomes. We found great diversity in the topics addressed by these educational interventions and in the types of teaching and assessment modalities used. The heterogeneity made it impossible to identify best practices for teaching professionalism. However, this review provides further evidence that formal, structured teaching likely can improve professionalism in medical trainees. Our findings suggest that even simple, short teaching sessions can affect professionalism. To add high-quality evidence to the field of professionalism education, we suggest that scholars develop studies that assess real-life outcomes to evaluate the effects of their curricula more accurately. We also suggest that educators use and adapt previously tested curricular and assessment tools, which will improve the quality and validity of professionalism teaching tools.

 


Acad Med. 2020 Jun;95(6):938-946. doi: 10.1097/ACM.0000000000002987.

Teaching Professionalism in Postgraduate Medical Education: A Systematic Review

Affiliations collapse

Affiliation

1A.S. Berger is a lecturer, Internal Medicine (Geriatrics), Department of Medicine, University of Toronto, Toronto, Ontario, Canada; ORCID: http://orcid.org/0000-0002-7896-3638. E. Niedra is a physician, Baycrest Health Sciences, Toronto, Ontario, Canada. S.G. Brooks is a first-year medical student, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada. W.S. Ahmed is a second-year resident, Internal Medicine, University of Toronto, Toronto, Ontario, Canada. S. Ginsburg is professor, Internal Medicine (Respirology), and scientist, Wilson Centre, University of Toronto, Toronto, Ontario, Canada.

PMID: 31517687

DOI: 10.1097/ACM.0000000000002987

Abstract

Purpose: This systematic review sought to summarize published professionalism curricula in postgraduate medical education (PGME) and identify best practices for teaching professionalism.

Method: Three databases (MEDLINE, Embase, ERIC) were searched for articles published from 1980 through September 7, 2017. English-language articles were included if they (1) described an educational intervention addressing professionalism, (2) included postgraduate medical trainees, and (3) evaluated professionalism outcomes.

Results: Of 3,383 articles identified, 50 were included in the review. The majority evaluated pre- and posttests for a single group (24, 48%). Three (6%) were randomized controlled trials. The most common teaching modality was small-group discussions (28, 56%); other methods included didactics, reflection, and simulations. Half (25, 50%) used multiple modalities. The professionalism topics most commonly addressed were professional values/behavior (42, 84%) and physician well-being (23, 46%). Most studies measured self-reported outcomes (attitude and behavior change) (27, 54%). Eight (16%) evaluated observed behavior and 3 (6%) evaluated patient outcomes. Of 35 studies that evaluated statistical significance, 20 (57%) reported statistically significant positive effects. Interventions targeting improvements in knowledge were most often effective (8/12, 67%). Curriculum duration was not associated with effectiveness. The 45 quantitative studies were of moderate quality (Medical Education Research Study Quality Instrument mean score = 10.3).

Conclusions: Many published curricula addressing professionalism in PGME are effective. Significant heterogeneity in curricular design and outcomes assessed made it difficult to synthesize results to identify best practices. Future work should build upon these curricula to improve the quality and validity of professionalism teaching tools.

+ Recent posts