의학 전문직업성의 짧은 역사 - 그리고 왜 전문직업성이 중요한가 (CONTEMP PEDIATR, 2006)
A brief history of medical professionalism—and why professionalism matters
BY GARRICK APPLEBEE, MD

 

최근 몇 년 동안 의료 전문직업성에 관한 많은 글이 쓰여졌습니다. 그 정의는 끊임없이 진화하는 것처럼 보이지만, 끊임없이 변화하는 의료 환경 속에서 그 중요성은 점점 더 분명해지고 있습니다. 이 리뷰에서는 현재 의료 전문직업성의 역사적 토대를 추적하고 의학의 지속적인 활력을 위해 전문직업성의 필요성을 재차 강조합니다.  
Much has been written in recent years about medical professionalism. Its definition seems to evolve constantly, but its importance in an ever-changing medical climate becomes more and more apparent. This review traces the historical underpinnings of current medical professionalism and reasserts its necessity for the continued vitality of medicine.

초기 의학의 이상
Early medical ideals

의료 전문직업성에 관한 최초의 글은 '의학의 아버지'로 불리는 히포크라테스(기원전 460~377년)가 남긴 것입니다. 히포크라테스 등이 저술한 책 모음인 히포크라테스 코퍼스에 포함된 '히포크라테스 선서'(54페이지 참조)에는 오늘날에도 여전히 중요하게 여겨지는 다양한 직업적 기준이 요약되어 있습니다. 
Some of the earliest writings about medical professionalism come from Hippocrates, the "father of medicine" (460-377 BC). The Hippocratic Oath' (see page 54)—included in the Hippocratic Corpus, a collection of books written by Hippocrates and others—outlines a variety of professional standards still valued today.

고대 히포크라테스 선서
The ancient Hippocratic Oath


나는 아폴로 의사와 아스클레피오스, 히게이아, 파나시아, 그리고 모든 신과 여신들을 증인으로 삼아 나의 능력과 판단에 따라 이 맹세와 이 언약을 이행할 것을 맹세합니다:

- 나에게 이 기술을 가르쳐 준 자를 내 부모와 동등하게 여기고 그와 동등한 삶을 살며, 그가 돈이 필요하면 내 몫을 그에게 주고, 그의 자손을 남성 혈통의 내 형제들과 동등하게 여기고 그들이 이 기술을 배우기를 원한다면 비용이나 언약 없이 가르칠 것입니다; 내 아들들과 나를 가르친 자의 아들들, 그리고 의료법에 따라 언약에 서명하고 선서한 제자들에게만 교훈과 구두 교육 및 기타 모든 배움을 나누고 다른 누구에게도 나누지 않겠다. 


- 나는 나의 능력과 판단에 따라 병자를 위해 식이요법을 적용하고 그들을 해와 불의로부터 보호할 것입니다.

- 나는 치명적인 약을 요청한 사람에게 약을 주지 않으며, 이런 취지의 제안을 하지 않습니다. 마찬가지로 1은 여성에게 낙태 치료제를 주지 않을 것입니다. 순결과 거룩함으로 나의 삶과 예술을 지킬 것이다.

- 나는 돌로 고통받는 사람들에게도 칼을 사용하지 않을 것이지만이 일에 종사하는 사람들을 위해 물러날 것입니다,

- 내가 어떤 집을 방문하든, 나는 모든 의도적 인 불의, 특히 자유인이든 노예이든 여성과 남성 모두와의 성관계에 대한 모든 장난으로부터 자유 로워지고 병자를 위해 올 것입니다.

- 치료 과정에서 또는 치료 밖에서 남성의 삶과 관련하여 보거나 들을 수 있는 것은 어떠한 이유로도 외부로 퍼뜨려서는 안 되며, 그러한 것은 말하기 부끄러운 것으로 여기고 혼자서만 간직할 것입니다.

- 내가이 맹세를 이행하고 위반하지 않으면, 앞으로 모든 사람들 사이에서 명성을 얻으며 희열과 예술을 즐기는 것이 나에게 허락되기를 바라며, 만약 그것을 위반하고 거짓 맹세를한다면,이 모든 것의 반대가 내 운명이 될 것입니다.

I swear by Apollo Physician and Asclepius and Hygieia and Panaceia and all the gods and goddesses, making them my witness, that I will fulfill according to my ability and judgment this oath and this covenant:


• To hold him who has taught me this art as equal to my parents, and to live my life in partnership with him, and if he is in need of money to give him a share of mine, and to regard his offspring as equal to my brothers in male lineage and teach them this art—if they desire to learn it—
without fee or covenant; to give a share of precepts and oral instruction and all the other learning to my sons and to the sons of him who has instructed me and to pupils who have signed the covenant and have taken an oath according to the medical law, but to no one else. 

• I will apply dietetic measures for the benefit of the sick according to my ability and judgment; I will keep them from harm and injustice.


• I will neither give a deadly drug to anybody who asked for it, nor will I make a suggestion to this effect. Similarly 1 will not give to a woman an abortive remedy. In purity and holiness 1 will guard my life and my art.


• I will not use the knife, not even for sufferers from stone, but will withdraw in favor of such men as are engaged in this work,


• Whatever houses I may visit, 1 will come for the benefit of the sick, remaining free of all intentional injustice, of all mischief in particular of sexual relations with both female and male persons, be they free or slaves.


• What 1 may see or hear in the course of the treatment or even outside of the treatment in regard to the life of men, which on no account one must spread abroad, 1 will keep to myself, holding such things shameful to be spoken about.


• If I fulfill this oath and do not violate it, may it be granted to me to enjoy hfe and art, being honored with fame among all men for time to come; if 1 transgress it and swear falsely, may the opposite of all this be my lot.


이 선서에는 학문, 이타주의, 기밀 유지, 그리고 '해를 끼치지 않는다'는 원칙의 중요성이 명확하게 담겨 있습니다: 첫째, 해를 끼치지 않는다. 또한 의사와 환자 관계에서 의사가 자신의 고유한 권한을 남용하지 않도록 경고합니다. 이 원칙이 작성될 당시 얼마나 중요하게 여겨졌는지는 알 수 없지만, 약 500년 후 로마의 의사 스크리보니우스 라구스가 그 중요성을 확인했습니다. 의학에 내재된 신성한 책임과 히포크라테스 선서에 명시된 신념을 굳게 믿었던 라구스는 로마 군대와 함께 제국 전역을 여행하면서 이러한 원칙을 가르쳤습니다^.
The oath speaks clearly of the importance of scholarship, altruism, confidentiality, and the principle of primum non nocere: First, do no harm. It also warns physicians against abusing their inherent power in the physician-patient relationship. It is not known how valued these ideas were at the time they were written, hut the Roman physician Scribonius Largus affirmed their importance about 500 years later. A firm believer in the fiduciary responsibility inherent in medicine and outlined in the Hippocratic Oath, Largus taught these principles as he traveled with the Roman army throughout the empire.^

이러한 이상은 서양에만 국한된 것이 아닙니다.

  • 고대 인도의 행동 강령인 차라카 삼히타에는 "돈이나 변덕이 아니라 생명체에 대한 연민으로 의술을 행하는 사람이 의사 중 최고"라고 명시되어 있습니다.
  • 마찬가지로 중국의 윤리학자 손시미아오는 7세기에 쓴 글에서 의사에게 연민, 경건함, 환자에 대한 평등한 대우, 탐욕의 배제를 강조했습니다. 

These ideals were not unique to the Western world.

  • The Charaka Samhita, an ancient Indian code of conduct, states that "he who practices not for money nor caprice but out of compassion for living beings, is the best among physicians."
  • Similarly, the Chinese ethicist Sun Simiao, writing in the seventh century, stressed compassion, piety, equal treatment of patients, and the avoidance of greed among physicians.'

개인적 선서에서 직업적 표준까지
From personal oath to professional standards

중세 시대에는 종교가 의료 행위를 지배했지만, 르네상스와 함께 고전 문헌, 특히 히포크라테스 코퍼스에 대한 관심이 다시 높아졌습니다. 히포크라테스 선서(기독교 신념에 따라 변경됨)는 신사적인 명예 규범과 함께 유럽 의과대학에서 정기적으로 증명하는 것이 되었습니다. 이러한 명예 규범은 도덕적 청렴성과 직업적 행동을 보장하는 기준이었지만, 직업 전체가 아닌 개인을 기준으로 한 것이었습니다. 여기에는 1700년대 후반 맨체스터에서 드러난 약점이 내재되어 있었습니다. 영국.
During the Middle Ages, religion dominated medical practice, hut with the Renaissance came renewed interest in classical writings, particularly the Hippocratic Corpus. The Hippocratic Oath (changed to accord with Christian beliefs) became a regular attestation in European medical schools in combination with gentlemanly codes of honor. These codes of honor were the standards that guaranteed moral integrity and professional conduct; they were, hy definition, based on the individual and not the profession as a whole. Therein lay their inherent weakness— one that came to light in the late 1700s in Manchester. England. 

1792년 맨체스터에서 장티푸스가 창궐하자 병원 관리자들은 밀려드는 환자를 감당하기 위해 의사를 추가로 고용해야 했습니다. 이에 수많은 환자를 치료하는 데 자신의 노력이 충분하지 않다고 느낀 직원 의사들은 불쾌감을 느껴 파업에 나섰습니다. 더욱 심각한 상황에 처한 관리자들은 영국의 외과의사이자 작가, 노예제 반대 운동가였던 토마스 퍼시벌에게 개입을 요청했습니다. 퍼시벌은 1803년에 출간된 '의사와 외과의의 직업적 행동에 적응한 의료 윤리; 또는 의사와 외과의의 직업적 행동에 적응한 제도와 교훈의 강령'을 저술함으로써 이에 응답했습니다. 
In 1792, an epidemic of typhoid broke out in Manchester, prompting hospital administrators to hire additional physicians to deal with the great influx of patients. This offended the staff physicians (who felt slighted that their efforts were not considered adequate to treat the numerous sick) to such an extent that they went on strike. Finding themselves in even more dire straights, the administrators appealed to Thomas Percival, an English surgeon, author, and antislavery activist, to intervene. He responded by writing Medical Ethics.; Or, A Code of Institutes and Precepts, Adapted to the Professional Conduct of Physicians and Surgeons, published in 1803,'

의료 윤리는 개인의 청렴성이 아닌 직업 자체의 청렴성에 기반한 직업적 행동 기준을 만들었다는 점에서 혁명적이었다. 퍼시벌은 선서라는 주관적인 표현을 행동의 표준으로 대체하고, 이를 의무로 명시했습니다. 이러한 의무는 환자를 돌보는 의료계의 집단적 책임에 의해 정당화되었으며, 에티켓부터 기본적인 병원 절차에 이르기까지 모든 것을 포괄했습니다. 퍼시벌은 의사들에게 "공부도 해야 한다." 즉, 부드러움과 꾸준함, 겸손과 권위를 결합하여 환자의 마음을 감사와 존경, 자신감으로 고무시킬 수 있도록 해야 한다고 촉구했습니다. "-*
Medical Ethics was revolutionary' in that it created a standard for professional conduct based not on individual integrity but the integrity of the profession itself. It replaced the subjective language of oath with standards of conduct, which Percival outlined as duties. These duties were justified by the medical profession's collective responsibility to care for the sick and encompassed everything from etiquette to basic hospital procedure. Percival urged physicians to "study also. in their deportment, so to unite tenderness with steadiness, and condescension with authority, as to inspire the minds of their patients with gratitude, respect, and confidence. "•*

퍼시벌의 강령은 조용한 방식으로 개인의 청렴성보다 직업적 도덕성을 우선시하는 새로운 표준이 되었습니다. 퍼시벌은 의료 관리자와 의사 모두에게 어필할 수 있도록 문서를 구성하는 데 능숙했습니다. 그는 퍼시벌의 의료 윤리 원본 표지(Leake CD에서 발췌/ 버몬트대학교 벌링턴 캠퍼스 다나 의학 도서관 의학사 컬렉션 제공)를 통해 의료 서비스를 공식적으로 기대하는 동시에 의사가 의학의 이해와 실천에 관한 고유한 지위 덕분에 독립성과 도덕적 권위를 주장할 수 있음을 암시했습니다.

In essence, Percival's code set professional morality above personal integrity in a quiet way that became the new standard. Percival was savvy in that he constructed the document to appeal to both health-care administrators and physicians. He created formal expectations of Original cover of Percival's Medical Ethics (from Leake CD/ courtesy of the Dana Medical Library Medical History Collection, University of Vermont, Burlington). health care while also intimating that physicians could claim the rights of independence and moral authority by virtue of their unique position with regard to understanding and practicing medicine.

 

AMA 윤리 강령
The AMA code of ethics

의료 윤리는 광범위한 영향을 미쳤으며 의료 전문직업성과 관련된 새로운 아이디어와 개념의 기초가 되었습니다. 히포크라테스 선서와 마찬가지로 이 강령은 발표 당시 영국에서는 널리 알려지지 않았지만, 그 이상은 젊은 미국에서 널리 퍼져 꽃을 피웠습니다. 미국에서 벤자민 러쉬와 다른 사람들이 의료 전문직업성에 대한 새로운 사상을 전파했고, 지역 의사회는 자체 행동 강령을 채택하기 시작했습니다.^ 이러한 지역 강령은 의료 윤리 및 전문직업주의에 대한 최초의 국가 강령인 미국의사협회(AMA) 의료 윤리 강령으로 정점을 찍었습니다
Medical Ethics had wide-reaching effects and served as the basis for new ideas and concepts related to medical professionalism. Like the Hippocratic Oath, it was not widely regarded in England at the time of its publication, but its ideals spread and blossomed in the young United States. Here, Benjamin Rush and others preached the new ideas of medical professionalism, and local medical societies began to adopt their own codes of conduct.^ These local codes culminated in the first national code of medical ethics and professionalism, the American Medical Association (AMA) Code of Medical Ethics.

AMA는 1846년 당시 각기 다른 의료 규범을 표준화하기 위해 설립되었습니다. 동종 요법 의학을 원형으로 삼은 AMA는 미국 내 의료 교육과 행위를 공식화하기 위해 노력했습니다. 1847년 존 벨과 아이작 헤이즈가 작성한 윤리 강령은 상당 부분 퍼시벌의 의료 윤리 원칙에 기반을 두고 있었습니다. 이 강령 역시 의사가 환자와 사회에 대해 갖는 신탁적 책임을 강조했습니다. AMA 윤리 강령에는 세 가지 주요 의무가 명시되어 있습니다:

  • 환자에 대한 의사의 의무(및 환자의 의사에 대한 의무)
  • 의사의 서로에 대한 의무와 직업 전반에 대한 의무
  • 대중에 대한 직업의 의무 (및 직업에 대한 대중의 의무)^.

The AMA was founded in 1846 largely to standardize the disparate medical codes of the time. Focusing on allopathic medicine as the prototype, the AMA strove to formalize medical training and conduct in the US. Its Code of Ethics, written in 1847 by John Bell and Isaac Hayes, was based in large part on the tenets of Percival's Medical Ethics.'' It, too, stressed the fiduciary responsibility that physicians hold to patients and society. The AMA Code of Ethics outlines three main duties:

  • duties of physicians to their patients (and obligations of patients to their physicians)
  • duties of physicians to each other and the profession at large
  • duties of the profession to the public (and obligations of the public to the profession).^

전임자들과 마찬가지로 AMA가 제시 한 강령과 권위는 반대를 불러 일으켰습니다. 경쟁 의학회는 전문직에 대한 평등주의적 관점을 덜 취하면서 의료계로 선택되려면 여전히 내재된 성실성과 명예를 요구해야 한다고 주장했습니다. 그럼에도 불구하고 AMA의 의무 목록은 곧 미국 의학의 미래 제자들에게 기본적인 진리가 되었습니다. 
As with its predecessors, the code and the authority with which it was presented by the AMA drew opposition. Competing medical societies took a less egalitarian view of professionalism, advocating that selection into the medical profession should still require inherent integrity and honor. Nevertheless, the AMA's list of duties soon became basic truths to the future disciples of American medicine.

플렉스너 보고서
The Flexner Report

아브라함 플렉스너는 1910년 플렉스너 보고서를 발표하여 AMA의 권위와 윤리적 기준을 강화했습니다. AMA와 카네기 재단이 공동으로 의뢰한 이 보고서AMA의 의료 윤리관을 확립하는 데 도움이 되었으며, 의료계가 회원을 보호하고 의학 지식의 획득 및 유지 기준을 규제할 수 있는 특권과 책임이 있다는 생각을 강화하여 의료 자율 규제를 지지했습니다. 플렉스너 보고서는 의학교육의 질에 대한 혹독한 비판으로 인해 미국과 캐나다의 많은 의과대학이 문을 닫아야 했습니다. 
Abraham Flexner advanced the authority of the AMA and its ethical standards with the publication of the Flexner Report in 1910. Commissioned jointly by the AMA and the Carnegie Foundation, the report helped to establish the views of medical ethics held by the AMA and supported medical self-regulation—reinforcing the Idea that the medical profession has the privilege and responsibility of policing its members and regulating the standards for obtaining and maintaining medical knowledge. The Flexner Report forced many medical schools in the US and Canada to close because of its harsh criticism of the quality of medical education they provided.''^

1900년대 초, 사회학자 Talcott Parsons는 개별 환자와 사회 전체와 관련된 의료 전문직업성에 대한 개념을 더욱 탐구했습니다. 그의 기능주의 이론은 사회 제도가 특정 사회적 기능에 의해 정의된다고 주장했습니다. 그는 의사가 개인과 사회 사이의 독특한 중재자이며, 의료 전문직업성이 의사의 일상적인 사적 이익과 공적 이익의 균형에 영향을 미친다고 믿었습니다^. 
In the early 1900s, the sociologist Talcott Parsons further explored the idea of medical professionalism as it related to the individual patient and to society as a whole. His theory of functionalism asserted that social institutions were defined by their specific social functions. He believed that the physician was a unique mediator between the individual and society and that medical professionalism influenced the physician's daily balancing of private and public good.^

의사를 전문가로 사회화하고 플렉스너가 발전시킨 자율 규제를 유지하기 위해서는 학교와 의사회와 같은 의학 내 전문 기관이 필수적이었습니다. 파슨스는 또한 의사 개인의 윤리적 행동과 이해 상충 및 권한 오용을 신중하게 피하는 것이 의료 전문직에 필수적이라고 주장하여 1900년대 후반에 이어질 의료 전문직업성에 대한 공격을 예고했습니다.
Professional institutions within medicine (such as schools and medical societies) were essential to socializing physicians as professionals and maintaining the self-regulation advanced by Flexner. Parsons also behaved that the ethical behavior of the individual physician and the careful avoidance of conflict of interest and misuse of authority were essential to the medical profession, foreshadowing the assault on medical
professionalism that was to follow in the late 1900s.

 

소아과와 전문직업성
Pediatrics and professionalism

소아과는 미국 의학이 스스로를 전문적으로 정의하려고 시도하던 초기 단계에 있었습니다. 미국 소아과의 아버지라 불리는 잡 루이스 스미스와 아브라함 자코비는 모두 당시 의료 혜택을 받지 못했던 어린이들에게 의료 서비스를 제공하는 데 헌신했습니다. 이들은 동시대의 공중 보건 운동과 함께 어린이들의 상태를 개선하기 위해 끊임없이 노력했으며, 급성 질환 치료만큼이나 환자 옹호에도 관심을 기울이는 전문직의 토대를 마련했습니다. 1887년에는 미국 최초의 의학 전문 학회인 미국 소아과학회 설립을 도왔습니다. 자코비는 특히 소아과를 뚜렷한 근거와 치료법 측면에서 정의하기 위해 노력했습니다. 
Pediatrics was in its infancy when American medicine was attempting to define itself professionally Job Lewis Smith and Abraham Jacobi, the fathers of American pediatrics, were both dedicated to distributing health care to the underrep resented children of the age. They worked tirelessly, in conjunction with the concurrent public health movement, to improve conditions for children and laid the groundwork for a profession interested as much in patient advocacy as acute care of disease. In 1887, they helped found the American Pediatric Society, the first medical specialty society in the US.^'^ Jacobi especially strove to define pediatrics in terms of distinct rationales and therapeutics.

황금기에서 혼란기로
From golden age to turmoil

1900년대 중반은 의사들이 일반 대중으로부터 존경과 자율성, 인정을 받았던 의학의 황금기라고도 불립니다. 그러나 1960년대와 1970년대에 들어서면서 의료계에 대한 의구심이 커지면서 여론이 바뀌었습니다. 일부 의사와 단체의 무분별한 의료 행위가 권위주의적 인물에 대한 사회적 불신과 결합하여 전문직에 대한 믿음의 위기를 초래했습니다. 의사의 전문직업성은 더 이상 당연시되지 않았고 의료 윤리와 전문직업성은 공개적으로 비판을 받았습니다. 또한 이 시기에 연방거래위원회는 의과대학에 대한 조사에 착수했습니다." 위원회는 50년 전 플렉스너가 했던 것처럼 의료 기준을 검토했지만, 정부 기관이라는 지위는 의료계가 스스로를 규제할 수 있는 자율성을 위협했습니다. 
The mid-1900s are often referred to as the golden age of medicine because physicians enjoyed respect, autonomy, and appreciation from the general public. Opinion shifted in the 1960s and 1970s, however, as doubt was cast on the medical profession.'"^ Isolated unscnipulous medical practices by some physicians and groups combined with increasing social distrust of authoritarian figures to create a crisis of professional faith. The professionalism of physicians was no longer assumed, and medical ethics and professionalism were publicly criticized. Also during this time, the Federal Trade Commission undertook an investigation of medical schools." The commission reviewed the standards of medical [raining much as Flexner had done 50 years earlier, but its status as a government institution threatened the autonomy of the profession to regulate itself.

더 많은 변화와 도전
More change and challenge

1970년대에는 의료 전문직업성과 밀접한 관련이 있는 새로운 학문 분야, 즉 생명윤리가 등장했습니다. 의사의 의무에 더 초점을 맞춘 의료 전문직 윤리와 달리 생명윤리는 환자의 권리에 초점을 맞췄습니다. 환자에 대한 이론적(그리고 실현된) 이타주의는 의료가 개별 환자와 집단에 미치는 영향과 효과를 반드시 측정하지는 않았습니다. 생명윤리는 기술, 과학, 윤리의 새로운 문제와 씨름했으며, 현대 의학의 정책, 구조, 기능에 계속해서 지대한 영향을 미치고 있습니다. 
A new field of study closely related to medical professionalism emerged during the 1970s—bioethics. Unlike medical professional ethics, which focused more on the duties of physicians, bioethics focused on the rights of patients.'' Theoretical (and realized) altruism toward patients did not necessarily measure the impact and effectiveness of medical care on individual patients and groups. Bioethics wrestled with emerging issues of technology, science, and ethics; it continues to have a profound effect on the policy, structure, and function of modem medicine.

1980년대에는 의료 분야의 전문화가 진행되면서 의사 개개인의 고립과 자율성이 강화되었습니다. 공적인 영역에서 의사에 대한 비방이 계속되었고 재정적, 법적 압박이 커지면서 직업적 행동의 경계가 모호해졌습니다. 1990년대 클린턴 의료 계획의 실패로 인해 관리 의료로 급속히 이동하면서 의료 전문가들에게 더 많은 잠재적 함정이 생겼습니다.
The 1980s brought increasing specialization to the medical field, increasing the isolation and autonomy of the individual physician. Vilification of physicians continued in the public arena, and growing financial and legal pressures blurred the line of professional conduct. The failure of the Clinton health plan in the 1990s resulted in a rapid drive to managed care, which created even more potential pitfalls for medical professionals.^^'^^

역사적으로 의사는 자신의 서비스에 대한 적절한 환급을 위한 가이드라인을 설정할 책임이 있었습니다. 매니지드 케어의 도입으로 이러한 책임이 바뀌면서 경제학이 의료 서비스에 더 많은 영향을 미칠 수 있게 되었습니다. 
Historically physicians had responsibility of setting guidelines lor appropriate reimbursement for their services. The introduction of managed care shifted this responsibility, giving economics more opportunity to influence health care.

의사의 전문적 책임을 신봉하는 위니아와 동료들은 의료의 전문직업성과 그것이 제공하는 자율성 및 자기 규제가 기업(시장 중심의 의료)이나 정부에 의한 의료 통제를 막는 유일한 장벽 중 하나라고 지적했습니다. 그들은 전문직업성을 재화의 분배와 도덕적 관계에 따라 고유하게 정의되는 사회적 재화의 공정한 배분을 모두 포함하는 활동으로 정의합니다.
Wynia and colleagues, believers in the professional responsibility of physicians, have pointed out that medical professionalism, with the autonomy and self-policing it affords, is one of the only barriers against control of health care by business (market-driven medicine) or government. They define professionalism as an activity that involves both the distribution of a commodity and the fair allocation of a social good hut that is uniquely defined according to moral relationships."'^^

궁극적으로 "전문직업성은 사회를 구조적으로 안정시키고 도덕적으로 보호하는 힘"입니다. 의사는 의료에 대한 고유한 이해와 전문적 책임감이 결합되어 자신과 사회 모두를 옹호할 수 있습니다.
Ultimately, "professionalism is a structurally stabilizing, morally protective force in society'"''' Physicians have a unique understanding of health care that, combined with professional responsibility, enables them to advocate for both themselves and society.

ABIM 헌장
The ABIM charter

의료 전문직업성에 대한 많은 도전으로 인해 현대 의학에서 전문직업성을 정의하고 적용하는 데 대한 관심이 다시 높아졌습니다. 2002년, 미국 내과학회(ABIM)는 의료 전문직업주의의 기본 원칙과 특정 직업적 책임을 지키기 위한 도전에 대한 성명서인 의사 헌장 초안을 작성했습니다. 
The many challenges to medical professionalism have led to a rebirth of interest in defining and applying professionalism in modem medicine. In 2002, the American Board of Internal Medicine (ABIM) drafted a Physician Charter—a statement of fundamental principles of medical professionalism and a challenge to uphold certain professional responsibilities.

Annals of Intermal Medicine의 편집자인 해롤드 C. 삭스 박사는 헌장 서문에서 "산업화된 세계 각국의 의료 전달 시스템의 변화가 전문직업성의 가치를 위협하고 있다"며 "...의료 행위의 조건이 의사들로 하여금 환자 복지의 우선순위에 대한 헌신을 포기하도록 유혹하고 있다"고 인식하고 있습니다. 그는 의사 개개인에게 "...진료 환경이 의료계가 수천 년 동안 소중히 여겨온 가치를 고수하는 데 위협이 되고 있는지 결정해야 한다"고 촉구합니다. 

Harold C. Sox, MD, the editor of Annals of Intermal Medicine, in his introduction to the charter, recognizes that “changes in the health-care delivery systems in countries throughout the industrialized world threaten the values of professionalism,” and that “...conditions of medical practice are tempting physicians to abandon their commitment to the primacy of patient welfare.” He calls on the individual physician to “...decide if the circumstances of practice are threatening his or her adherence to the values that the medical profession has held dear for many millennia,”

ABIM 헌장에 명시된 기본 원칙은 다음과 같습니다:

  • 환자 복지의 우선성(이타주의는 의사-환자 관계의 핵심인 신뢰에 기여)
  • 환자 자율성(의사는 환자에게 정직해야 하며 환자가 치료에 대해 정보에 입각한 결정을 내릴 수 있도록 권한을 부여해야 함)
  • 사회 정의(의료계는 의료 자원의 공정한 분배를 포함하여 의료 시스템의 정의를 증진해야 하며, 의사는 의료 서비스에서 차별을 없애기 위해 적극적으로 노력해야 한다)'"*

Fundamental principles outlined in the ABIM charter include:

  • primacy of patient welfare (altruism contributes to the trust that is central to the physician-patient relationship)
  • patient autonomy (physicians must be honest with their patients and empower them to make informed decisions about their treatment)
  • social Justice (the medical profession must promote justice in the health-care system, including the fair distribution of health-care resources; physicians should work actively to eliminate discrimination in health care).'"*

이러한 원칙은 직업적 책임에 대한 약속을 통해 지켜집니다:

  • 환자 기밀 유지
  • 환자와의 적절한 관계 유지
  • 전문적 역량
  • 과학적 지식
  • 치료의 질 향상
  • 직업적 책임
  • 유한한 자원의 공정한 분배
  • 이해 상충을 관리하여 신뢰 유지
  • 치료 접근성 개선
  • 환자에 대한 정직성.

These principles are upheld by commitments to professional responsibilities:

  • patient confidentiality
  • maintaining appropriate relations with patients
  • professional competence
  • scientific knowledge
  • improving quality of care
  • professional responsibilities
  • just distribution of finite resources
  • maintaining trust by managing conflicts of interest
  • improving access to care
  • honesty with patients.

이러한 이상은 대부분 새로운 것이 아닙니다

  • 히포크라테스는 기밀 유지, 환자와의 적절한 관계, 역량에 대한 헌신에 대해 이야기했습니다. 
  • 퍼시벌과 플렉스너는 전문적 역량, 과학적 지식, 치료의 질 향상에 전념했습니다. 
  • 파슨스는 직업적 책임과 이해 상충을 피하는 것이 중요하다는 것을 이해했습니다. 

치료 접근성을 개선하고 환자에게 정직하게 대하겠다는 약속은 생명윤리 운동과 의료 분야의 공공 자율성에서 부분적으로 지지하는 환영할 만한 추가 사항입니다. 이러한 원칙을 강화함으로써 ABIM 헌장은 의료 전문직업성에 대한 중요한 현대적 벤치마크 역할을 해왔습니다.
Most of these ideals are not new.

  • Hippocrates spoke of confidentiality, appropriate relations with patients, and commitment to competence.
  • Percival and Flexner were dedicated to professional competence, scientific knowledge, and improving quality of care.
  • Parsons understood the importance of professional responsibilities and avoiding conflicts of interest.

Improving access to care and commitment to honesty with patients are welcome additions advocated in part by the bioethics movement and public autonomy in health care. By reinforcing these principles, the ABIM charter has served as an important modern benchmark for medical professionalism.

 

의료 전문직업성 교육
Teaching medical professionalism

미국의학전문대학원교육인증위원회(ACGME)가 제시하고 미국소아과학회가 지지하는 레지던트 수련 가이드라인에서도 전문직업성의 중요성을 강조합니다. 소아과 레지던트는 ABIM 헌장에 명시된 것과 유사하게 정의된 전문직업성 역량을 갖추어야 합니다.
Guidelines for resident training outlined by the Accreditation Council for Graduate Medical Education (ACGME) and supported by the American Board of Pediatrics also stress the importance of professionalism. Pediatric residents are expected to obtain competency in professionalism, which is defined similarly to what is found in the ABIM charter.

오늘날의 과제는 전문직업성을 적절히 평가하고 의대생과 레지던트의 전문직업성 부족을 회복하는 것입니다. 그럼에도 불구하고 유능한 의사를 종합적으로 양성하는 데 있어 의료 전문직업성을 가르치는 것이 의학 지식과 환자 치료만큼 중요하다는 데는 보편적으로 동의합니다^'"' 
The challenge today lies in assessing professionalism adequately and rehabilitating professional inadequacies among medical students and residents. Nevertheless, it is universally agreed that teaching medical professionalism is as important as medical knowledge and patient care in the comprehensive training of competent physicians.^'"'

지속적이고 풍성한 논의
An ongoing, enriching discussion

올해 초 뉴잉글랜드 의학 저널에 게재된 의대생의 관점("웃음이 좋은 의술을 만드는가?")은 최근 의료 전문직업성의 가장 중요한 측면 중 하나인 '우리가 집단으로 그것에 대해 이야기하고 있다는 점'을 강조합니다. 의학과 사회가 변화함에 따라 의료 전문직업성의 기준도 변화할 가능성이 높지만, 소아과 및 일반 의료계의 논의는 우리의 직업적 삶과 환자 치료를 계속 풍요롭게 할 것으로 기대됩니다. 전문직업성은 멀지 않은 미래에 변화했지만 여전히 친근한 의학의 얼굴을 인식할 수 있는 도구가 될 수 있습니다. - 
A medical students perspective published earlier this year in the New England journal of Medicine, ("Does laughter make good medicine?") highlights one of the most important aspects of recent medical professionalism— that we are, as a group, talking about it.'' As medicine and society change, the standards of medical professionalism are also likely to change, but the discussion in the pediatric and general medical community will, it's to be hoped, continue to enrich our professional lives and the care of our patients. Professionalism may just be the tool that allows us to recognize the altered but still friendly face of medicine somewhere in the not-too-distant future. •

ABIM 의사 헌장의 전문직업성에 대한 약속
Commitments to professionalism from the ABIM physician charter

- 환자 기밀 유지
- 환자와의 적절한 관계 유지
- 전문적 역량
- 과학적 지식
- 치료의 질 향상
- 직업적 책임
- 유한한 자원의 공정한 분배
- 이해 상충을 관리하여 신뢰 유지
- 치료 접근성 개선
- 환자에 대한 정직성

• Patient confidentiality

• Maintaining appropriate relations with patients
• Professional competence
• Scientific knowledge
• Improving quality of care
• Professional responsibilities
• Just distribution of finite resources
• Maintaining trust by managing conflicts of interest
• Improving access to care
• Honesty with patients
Source: ABIM Foundation, American Board of Internal Medicine, et al

 

 


저자:Applebee G
소속기관:1Medicine fellow, Vermont Children's Hospital, Burlington
제공처:Contemporary Pediatrics (CONTEMP PEDIATR), Oct2006; 23(10): 53-62. (6p)
출판물 유형:Journal Article - pictorial
초록:As the medical profession evolves, the issues and challenges change, but the ongoing discussion continues to enrich professional practice.

전문직업성: 역사적 계약 ( CMAJ. 2012)
Professionalism: the historical contract
Roger Collier

죽음과 세금만이 인생의 유일한 보장일 수 있지만, 고통 또한 안전한 보장입니다. 병에 걸리거나 부상을 당하거나 어떤 종류의 고통을 견뎌보지 않은 사람이 있을까요? 따라서 다른 사람의 고통을 덜어주는 사람들이 역사적으로 지역사회에서 높은 지위를 누려온 것은 놀라운 일이 아닙니다.
Death and taxes may be life’s only guarantees, but suffering is also a safe bet. Who hasn’t fallen ill or ached from injury or endured pain of some sort? It should come as no surprise, then, that people who relieve others’ misery have held high standing in their communities throughout history.

부러진 뼈를 세우고, 찢어진 상처를 꿰매고, 약을 투여하는 치료사의 역할은 지구상의 모든 사회에서 소중하게 여겨집니다. 일반적으로 이 역할을 맡은 사람들은 신뢰와 존경, 자율성, 사회적 지위, 금전적 보상을 받습니다. 하지만 이러한 좋은 점에는 대가가 따릅니다. 
The role of the healer — tasked with setting broken bones, stitching open wounds and administering medicine — is valued by every society on earth. In general, those who take on this role receive trust, respect, autonomy, social status and financial reward. But these good things come at a cost.

사회는 항상 시민의 건강을 책임지는 사람들에게 많은 것을 기대해 왔습니다. 치료자는 이타적이고, 도덕적이며, 객관적이고, 유능하고, 책임감 있고, 접근하기 쉬워야 합니다. 환자가 의사에게 기대하는 것과 그 반대의 경우도 마찬가지인 이러한 사회 계약은 시간이 지남에 따라 변화하지만 항상 의료계의 핵심이었습니다.
Society has always expected much of those put in charge of citizens’ health. Healers are to be altruistic, moral, objective, competent, accountable and accessible. This social contract — what patients expect from doctors and vice versa — changes over time but has always been central to the medical profession.

퀘벡주 몬트리올에 위치한 맥길대학교 의학교육센터의 외과 교수인 리차드 크루스 박사는 "전문직업성의 본질은 사회와 의학 간의 거래"라고 말합니다. 
“The essence of professionalism is a bargain between society and medicine,” says Dr. Richard Cruess, a professor of surgery at McGill University’s Centre for Medical Education in Montréal, Quebec.

서양에서 치료사의 뿌리는 그리스 그리스와 히포크라테스 선서로 거슬러 올라갑니다. 그 후 수 세기 동안 의료라는 직업은 존재하지 않았고, 개인이 독립적으로 병자를 돌보는 역할만 수행했습니다. "치료사의 역할은 상당히 일정하게 유지되어 왔지만, 전문직업성의 개념은 사회적 및 직업적 요구에 따라 변화해 왔습니다."라고 Cruess와 동료들은 제안했습니다(Lancet 2000;356:156-9).  
In the Western world, the roots of the the healer date to Hellenic Greece and the Hippocratic Oath. For centuries after, there was no medical profession to speak of, but rather individuals who independently tended to the sick. “The role of the healer has remained fairly constant, but the concept of professionalism has changed in response to societal and professional needs,” Cruess and colleagues have suggested (Lancet 2000;356:156-9).

의학이 더욱 복잡해지고 사회의 요구가 더욱 강해짐에 따라 구조와 조직에 대한 필요성이 커졌습니다. 이는 전문직이라는 개념에 따라 의료 서비스를 제공함으로써 달성되었습니다. 복잡한 서비스를 제공하기 위해 전문직을 설립하는 아이디어는 중세 유럽으로 거슬러 올라갑니다. 19세기 중반에 이르러 이 개념은 중세의 길드 개념을 훨씬 뛰어넘는 개념으로 발전했습니다. 크루스와 동료들은 "현대적 전문직은 19세기 중반에 면허를 규율하는 법률이 진료에 대한 독점권을 부여하면서 전문직이 이타적이고 도덕적이며 사회의 문제를 해결할 것이라는 명확한 이해를 바탕으로 설립되었습니다."라고 지적했습니다(J Bone Joint Surg 2000;82:1189-94). 
As medicine became more complex and demands from society more intense, there grew a need for structure and organization. This was accomplished by delivering health services according to the concept of a profession. The idea of establishing professions to deliver complex services dates to medieval Europe. By the mid-nineteenth century, the concept had morphed well beyond the medieval notion of a guild. “The modern professions were established in the mid-nineteenth century, when laws governing licensure granted a monopoly over practice, with a clear understanding that professions would be altruistic and moral and would address society’s concerns,” Cruess and colleagues have noted (J Bone Joint Surg 2000;82:1189-94).

의사가 이타주의에 의해 동기를 부여받은 선한 사마리아인이라는 개념에 대해 회의적인 시각을 가진 사람들도 있습니다.
The notion that doctors are primarily good Samaritans motivated by altruism is viewed by some with increasing skepticism.

© 2012 Thinkstock 이미지 제공 Image courtesy of © 2012 Thinkstock

의사라는 전문직에 대해 널리 받아들여지는 몇 가지 신조가 있습니다. 그 중 하나는 전문 지식을 습득하기 위해 오랜 기간 집중적으로 공부해야 한다는 것입니다. 따라서 전문직은 그 지식을 사용하고 가르치는 방법에 대한 독점권을 부여받습니다. 이러한 지식은 일반인이 접근하기 어려운 경우가 많기 때문에 전문직은 표준을 정하고, 비전문적인 행동을 스스로 규제하고 징계할 수 있는 자율성도 부여받습니다. 이러한 특권의 조건은 전문직이 이타적인 방식으로 대중에게 봉사해야 한다는 것입니다.
There are several widely accepted tenets of a profession. One is that members require specialized knowledge that takes long periods of intense study to acquire. As such, a profession is granted monopoly over how that knowledge is used and taught. Because the knowledge is largely inaccessible to laymen, a profession is also granted autonomy to set standards, self-regulate and discipline unprofessional behaviour. The condition for these privileges: professions must serve the public in an altruistic manner.

사회학자들은 한 세기가 넘도록 다양한 전문직을 연구해 왔습니다. 특히 의료 직업에 대한 관심은 1930년대에 증가했습니다. 모든 인간과 마찬가지로 의사도 이기심에서 자유롭지 않다는 것이 인식되었지만, 학자들은 의사라는 직업이 높은 평가를 받고 있다는 사실을 발견했습니다. 크루스와 그의 동료들은 "초기 문헌은 대체로 호의적이었습니다."라고 썼습니다. "이기심과 이타주의 사이의 긴장이 확인되기는 했지만 전문가의 미덕, 도덕성, 봉사 헌신에 대한 믿음이 있었습니다." 
Sociologists have been studying various professions for more than a century. Interest in the medical profession, specifically, increased in the 1930s. Though it was recognized that, like all humans, doctors aren’t above selfishness, academics found that the profession was held in high regard. “The early literature was largely favourable,” wrote Cruess and his colleagues. “There was faith in the virtue, morality, and service commitment of professionals, although the tension between self-interest and altruism was identified.”

그러나 1960년대에 들어서면서 의사에 대한 태도가 변하기 시작했습니다. 의학은 점점 더 복잡해지고 있었습니다. 새로운 전문 분야와 기술, 재정 모델이 등장했습니다. 대중은 이 분야를 너무 혼란스럽게 여겼습니다. 인류학자이자 사회학자인 머레이 왁스는 의료 비용 상승, 환자의 정서적 삶에 대한 의사들의 관심 감소, 의사들이 환자보다 실험실에서 시간을 보내는 데 몰두하는 것에 대한 긴장감도 생겨났다고 말했습니다(J Health Hum Behav 1962;3:152-6). 
By the 1960s, however, attitudes about doctors had begun to sour. Medicine was becoming increasingly complex. There were new specialties and technologies and financial models. The public found the field too confusing. Tension had also arisen over the rising cost of health care, the decrease in interest among doctors about their patients’ emotional lives and the preoccupation of physicians to spend time in laboratories rather than with patients, anthropologist and sociologist Murray Wax suggested (J Health Hum Behav 1962;3:152-6).

10년 만에 사회는 해체기에 접어들었습니다. 사람들은 더 냉소적이었고 권위와 전문직업성에 의문을 제기했습니다. 모든 직업에 대한 존경심이 급격히 떨어졌습니다. 의사가 이타적이라는 개념은 회의적인 시각으로 바라보았고, 의사의 전문직업성은 더 이상 당연시되지 않았습니다. 
Within a decade, society entered a period of deconstruction. People were more cynical and questioned authority and expertise. Respect for all professions took a dive. The notion that doctors were altruistic was viewed with increased skepticism, and their professionalism was no longer assumed.

하지만 불만이 커졌음에도 불구하고 의학계의 일반적인 태도는 전문직업성은 의학교육의 부산물에 불과하며 저절로 따라온다는 것이었습니다. "학위(M.D.)가 모든 것을 정의하고 확립했습니다. 결국 '양심적인 태도'로 임상을 수행한다는 것은 전문적인 방식으로 의술을 행하고 있다는 것을 입증하는 것이었습니다. ... 의사들은 전문직업성을 '고마운' 대중에게 빚진 것으로 여기기 시작했습니다."라고 미네소타주 로체스터에 있는 메이요 클리닉의 의학교육 교수이자 전문직업성 및 윤리 프로그램 부책임자인 프레데릭 해퍼티와 동료들은 "두 가지 문화"에서 썼습니다: 두 개의 배: 현대 의학에서 전문주의 운동의 부상과 의료 사회학이 전문직업성 논쟁에서 사라지다"라는 제목의 건강, 질병 및 치유 사회학 핸드북 11장에 실린 글에서 이렇게 말합니다.
Still, despite growing discontent, the general attitude within medicine was that professionalism came automatically — a mere byproduct of medical education. “The degree (M.D.) defined and established everything. In turn, carrying out one’s clinical work in a ‘conscientious manner’ established that one was practicing medicine in a professional manner. … physicians began to treat professionalism as something they were owed by a ‘grateful’ public,” Frederic Hafferty, professor of medical education and associate director of the program in professionalism and ethics at the Mayo Clinic in Rochester, Minnesota, and colleagues wrote in “Two Cultures: Two Ships: The Rise of a Professionalism Movement Within Modern Medicine and Medical Sociology’s Disappearance from the Professionalism Debate,” chapter 11 of the Handbook of the Sociology of Health, Illness, and Healing (www.springerlink.com/content/q831w4579306163j).

그러나 이러한 태도는 1980년대 초에 바뀌었고, 이는 거의 20년 동안 지속된 강세장의 시작을 알렸습니다. 갑자기 제약 회사, 의료 기기 제조업체 및 기타 의료 분야에 수십억 달러가 쏟아지면서 의료 산업이 대기업이자 경제의 주요한 부분으로 변모했습니다. 
But that attitude changed in the early 1980s, which marked the beginning of a bull market that stretched for nearly two decades. Suddenly, billions of dollars were being poured into pharmaceutical companies, medical device manufacturers and other areas of health care, transforming it into big business and a major part of the economy.

"제가 처음 시작했을 때는 영리 병원이 없었습니다. 민간 영리 의료 보험도 없었고요. 아무도 의료를 산업이라고 부르지 않았습니다."라고 매사추세츠주 보스턴에 있는 하버드 의과대학의 의학 및 사회 의학 명예 교수이자 1946년 의과대학을 졸업하고 뉴잉글랜드 의학 저널의 편집장을 역임한 아놀드 릴만(Arnold Relman) 박사는 말합니다.
“When I started out, there were no for-profit hospitals. There was no private, for-profit health insurance. Nobody referred to medicine as an industry,” says Dr. Arnold Relman, professor emeritus of medicine and social medicine at Harvard Medical School in Boston, Massachusetts, and former editor in chief of the New England Journal of Medicine, who graduated from medical school in 1946.

미국에서 의학은 기업의 시대로 접어들었습니다. 의사들은 더 많은 돈을 벌기 시작했습니다. 일부 의사들은 기업가가 되어 수익이 전문직업성보다 우선한다는 우려를 제기했습니다. 다른 사람들은 전문직업성을 위협하는 가장 큰 요인은 매니지드 케어 운영자가 의사들의 자율성을 빼앗는 것이라고 우려했습니다. 온타리오주 서드버리에 있는 로렌시안 대학교의 철학 교수인 마이클 여는 "매니지드 케어는 의사들에게 매니지드 케어 운영자가 의사들을 세세하게 관리한다는 점에서 문제를 제기했습니다."라고 말합니다. "환자와의 관계는 의사의 어깨 너머에서 지켜보는 제3자로 가득 차게 되었습니다."
In the United States, medicine entered a corporate era. Doctors were making more money. Some became entrepreneurs, raising concerns that profits were trumping professionalism. Others worried that professionalism’s greatest threat was managed-care operators robbing their autonomy. “Managed care presented issues for doctors in so far as they found that managed-care operations were micromanaging them,” says Michael Yeo, a philosophy professor at Laurentian University in Sudbury, Ontario. “Their relationships with patients became filled with this third party looking over the doctors’ shoulders.”

관리형 의료 기관의 영향력에 대항하기 위해 새로운 전문직업성 운동이 일어났습니다. 의사들은 자신들이 단순한 피고용자가 아니라 전문직라는 점을 강조함으로써 자신이 할 수 있는 일과 강요받을 수 없는 일에 대한 규칙을 만들 수 있었습니다. "직업 윤리에 위배된다고 말할 수 있다면 그것은 도덕에 위배된다고 말하는 것보다 더 강력한 사례입니다."라고 여 대표는 말합니다. "직원이 되는 것과 전문직의 일원이 되는 것에는 차이가 있습니다. 융통성이 떨어지죠." 
A new professionalism movement arose to counter the influence of managed-care organizations. By stressing they were professionals, not mere employees, physicians could create rules about what they could and could not be forced to do. “If you can say it’s against my professional ethics, that is a stronger case than saying it’s against my morals,” says Yeo. “There is a difference between being an employee and being a member of a profession. You are less malleable.”

20년이 지난 지금도 여전히 건재한 전문직에 대한 열정은 의학계에 많은 변화를 가져왔습니다.

  • 이제 의과대학은 학생들에게 전문직업성을 가르칩니다.
  • 학계 의사들은 이 주제에 관한 논문을 연이어 발표하고 있습니다.
  • 의료 기관들은 수 세기 동안 인정은 했지만 문서화되지 않았던 의학과 사회 간의 사회 계약을 말로 공식화하려고 시도했습니다.

이러한 노력의 대부분은 기업과 정부가 의학을 장악하기 전, 많은 의사들이 의학의 황금기라고 여겼던 시대로 돌아가고자 하는 열망에서 비롯되었습니다.
This rekindled passion for professionalism, now two decades old and still going strong, has led to many changes in medicine.

  • Medical schools now teach professionalism to students.
  • Academic physicians write paper after paper on the topic.
  • Health care organizations have attempted to formalize in words the social contract between medicine and society that for centuries had been acknowledged but unwritten.

Much of this effort was fueled by a longing to return to what many doctors viewed as the golden age of medicine, before corporations and governments took over.

해퍼티는 "의학이 문제를 정의하는 방식이 향수를 불러일으켰습니다."라고 말합니다. "문제를 어떻게 해결할까요? 전통적인 가치에 다시 헌신하는 것입니다. 의학계는 이를 제도화하기 위해 다양한 방법을 고안해 냈습니다. 강령과 헌장, 역량과 커리큘럼, 이 모든 'C'자 단어들을 만들었습니다."
“The nostalgia part was fuelled by how medicine chose to define the problem,” says Hafferty. “How do we solve the problem? By recommitting ourselves to those traditional values. Medicine came up with a variety of ways of institutionalizing this. They created codes and charters and competencies and curriculum — all these ‘c’ words.”

의료 전문직업성에 대한 논의는 앞으로 어디로 나아갈까요? 최근 소셜 미디어에서 의사의 직업적 행동에 대한 관심이 높아지고 있습니다. 앞으로도 이 주제는 여전히 관심의 대상이 될까요? 물론 아무도 알 수 없습니다. 의사들이 청진기를 수정 구슬과 바꾸기 시작하기 전까지는 전문직업성의 미래 트렌드에 대한 합의가 이루어지지 않을 것입니다.
Where will discussions of medical professionalism go from here? Of late, there has been much interest in the professional behaviour of physicians on social media. Will that still be a topic of interest in the future? No one knows that, of course. Until doctors start trading in their stethoscopes for crystal balls, there will be no consensus on future trends in professionalism.

"5년 후에는 어떻게 될까요?"라고 해퍼티는 묻습니다. "중요한 것은 그것이 근무 시간이든 Facebook이든 다른 것이든 무엇이든 중요한 질문에 참여할 수 있는 기회가 될 것이라는 점입니다: 좋은 의사가 된다는 것은 무엇을 의미할까요?"
“What’s it going to be in five years?” says Hafferty. “The point is, whatever it is — whether it’s duty hours or Facebook or something else — it’s going to be an opportunity to engage in the critical question: What does it mean to be a good doctor?”

 


CMAJ. 2012 Aug 7;184(11):1233-4. doi: 10.1503/cmaj.109-4230. Epub 2012 Jun 18.

Professionalism: the historical contract

PMID: 22711736

PMCID: PMC3414594

DOI: 10.1503/cmaj.109-4230

전문직업성의 짧은 역사와 허약한 미래: 의료의 사회계약의 침식( Perspect Biol Med. 2008)
The Short History and Tenuous Future of Medical Professionalism: the erosion of medicine’s social contract

Matthew K. Wynia

전문직으로서 의학의 정확한 탄생일은 모호하며 " 전문직 "에 대한 정의에 따라 달라집니다. 하지만, 의료 전문직에 대한 정의, 즉 통일된 교육과 진료 표준을 공유하고 이를 타인을 위해 사용하겠다고 공개적으로 '공언'하는 집단이라는 정의를 받아들인다면 대략적으로 의료 전문직의 탄생 연대를 추정할 수 있습니다. 그리고 그것은 많은 사람들이 상상하는 것보다 훨씬 더 젊고, 어쩌면 더 취약할 수도 있습니다.
The exact birth date of medicine as a profession is murky and depends on one’s definition of “profession.” But if one accepts a bare-bones definition —a group that publicly “professes” to share uniform training and standards of practice, which they promise to use in service to others—it is possible, roughly, to date the birth of medical professionalism. And it is much younger, and perhaps more fragile, than many might imagine it to be.

어떤 이들은 의료 전문직의 기원을 히포크라테스 시대로 거슬러 올라가기도 합니다. 마가렛 미드는 히포크라테스가 처음으로 치료사와 마법사의 역할을 분리했다고 지적했습니다(Bulger and Barbato 2000). 그들은 행동 기준을 공언하는 선서를 한 것으로 유명하며, 경험적 관찰을 의료 행위의 기초로 장려했습니다. 그럼에도 불구하고 저명한 역사학자 루드비히 에델슈타인(1943)이 주장했듯이, 히포크라테스는 모든 그리스 의사를 위한 통일된 진료 및 행동 표준을 만드는 데 성공하지 못한 소수 종파였습니다.

  • 일부 히포크라테스 강령에 위배되는 그리스 의사들은 낙태를 시행하고 자살을 도왔습니다(Baker 1993).
  • 부자와 권력자들은 그리스 의사를 의료 청부업자로 고용하기도 했습니다.
  • 로마 역사가 타키투스에 따르면 황제의 아내 아그리피나는 그리스 궁정 의사 가이우스 스테르티니우스 제노폰(기원전 10~54년경)을 고용하여 남편인 클라우디우스 황제를 독살했습니다(연대기, 제14권 1-16장).

Some would date medical professionalism to the Hippocratic era. Margaret Mead has noted that Hippocratics first separated the roles of healer and sorcerer (Bulger and Barbato 2000). They famously swore an oath professing standards of conduct, and they promoted empirical observation as the basis of medical practice. Nonetheless, as the eminent historian Ludwig Edelstein (1943) has argued, the Hippocratics were a minority sect, who did not succeed in creating uniform standards of practice and behavior for all Greek physicians.

  • Contravening some Hippocratic dicta, Greek physicians performed abortions and assisted in suicides (Baker 1993).
  • The rich and the powerful could even hire Greek physicians as medical hit men.
  • According to the Roman historian Tacitus, the emperor’s wife, Agrippina, hired a Greek court physician, Gaius Stertinius Xenophon (ca. 10 BCE–54 CE), to poison her husband, the Emperor Claudius (The Annals, Book XIV, 1–16).

이 기록에 대한 대중적인 수용은 환자를 해치는 것을 금지하는 히포크라테스의 금지 규정이 그리스 의사들에게 일률적으로 적용되지 않았음을 시사합니다. 그 대신 당시 대부분의 의사는 화학 물질과 식물을 사용하는 전문가였을 뿐, 통일된 행동 강령이나 진료 표준에 얽매이지 않았습니다. 의학 역사가 앨버트 존슨(2000)이 말했듯이 히포크라테스 시대에는 "의료 전문직과 같은 것은 없었던 것으로 보인다"(9쪽)고 합니다.
Popular acceptance of this account suggests that the Hippocratic prohibition against harming patients was not uniformly practiced by Greek physicians. Instead, most physicians of the time were simply specialists in the uses of chemicals and botanicals, unbound by a uniform code of conduct or standards of practice. As the medical historian Albert Jonsen (2000) put it, in Hippocratic times “there does not appear to have been anything like a medical profession” (p. 9).

의과대학의 표준 커리큘럼, 새로운 공중 보건 노력, 마을에서 '전염병 의사'를 고용하여 의사가 수행해야 할 사회적 의무를 명확히 하기 시작한 중세 또는 르네상스 시대까지 의료 전문직의 시기를 거슬러 올라가는 사람들도 있습니다. 예를 들어, 1666년 런던의 약사였던 윌리엄 보허스트는 전염병이 유행할 때 의사가 환자를 치료할 의무가 있다고 주장했습니다. 그러나 이러한 의무와 사회적 역할은 명확하게 표현되거나 널리 받아들여지지 않았고, 실제로 이 시대에 전염병에 직면한 의사들은 자신과 부유한 환자 모두에게 '빨리 가라, 멀리 가라, 너무 빨리 돌아오지 마라'라는 표준 조언을 내렸습니다. 전염병이 창궐하는 동안 마을에서 특정 의사를 고용하여 환자를 돌봐야 했다는 사실은 지속적인 진료에 대한 헌신이 의사의 역할의 일부로 인정되지 않았음을 시사합니다.
Others might date medical professionalism to the Middle Ages or to the Renaissance, when standard curricula in medical schools, novel public-health efforts, and the hiring of “plague doctors” by towns began to clarify some of the social obligations that medical doctors should take on. For instance, in 1666 William Boghurst, a London apothecary, asserted that physicians were obliged to treat patients during epidemics. Yet these obligations and social roles were neither clearly articulated nor widely accepted—indeed, the standard advice of physicians facing the plague in this era, both for themselves and their wealthy patients, was cito, longe, tarde: go quickly, go far, and don’t come back too soon. The fact that towns had to hire specific doctors to stay and care for patients during epidemics suggests that a commitment to continue providing care was not acknowledged as part of the physician’s role.

의료 윤리와 현대적 의미의 전문직이라는 용어는 19세기 초 영국의 의사인 맨체스터의 토마스 퍼시벌 박사가 그의 저서 『의료 윤리』(1803)에서 처음 사용했습니다. 퍼시벌(1803)은 모든 의사의 구체적인 사회적 역할을 명확하게 제시했으며, 이러한 역할이 널리 채택되기를 바랐습니다. 따라서 의료 전문직의 탄생 시점을 1803년으로 보고 싶은 유혹이 있지만, 모든 의사를 위한 윤리 기준을 문서화하여 영국 의료계가 동의하도록 하려는 퍼시벌의 노력은 안타깝게도 크게 거부당했습니다. 당시 영국에서는 신사들은 이미 어떻게 행동해야 하는지 잘 알고 있기 때문에 문서화된 윤리 기준이 필요하지 않다는 분위기가 팽배했습니다. 실제로 Baker 외(1999)가 말했듯이 윤리 강령은 "품격이 부족한 사람이 품격이 있는 척하고 싶어 하는 사람에게만 유용"하기 때문에 "바람직하지 않은" 것으로 간주되었습니다. 
The term medical ethics and the modern use of profession first appeared in the early 19th century, when an English physician, Dr. Thomas Percival of Manchester, introduced them in his book, Medical Ethics (1803). Percival (1803) clearly articulated specific social roles for all physicians and hoped to see these widely adopted. While it is tempting, therefore, to date the birth of medical professionalism to 1803, Percival’s efforts to get the British medical profession to agree to a written set of ethical standards for all physicians were, unfortunately, [End Page 566] sharply rebuffed. The sentiment in England at the time was that proper gentlemen didn’t need written ethical standards, because they already knew how to behave. In fact, as Baker et al. (1999) put it, codes of ethics were considered “undesirable” because they were “useful only to persons who, lacking decent character, wish to pretend that they had one.”

결국 19세기 중반, 미국 의료계가 최초로 국가 차원의 윤리 및 진료 표준을 만들었습니다. 결국 비슷한 기준이 거의 보편적으로 받아들여지면서 현대 의료 직업의 개념이 만들어졌습니다. 미국 의사들은 여러 가지 이유로 본격적인 전문직을 창출할 준비가 되어 있었습니다. 아마도 가장 중요한 이유는 프랑스, 영국, 스코틀랜드 계몽주의 사상가들에 의해 고안되었지만 비합법적 계급주의에 반대하는 반란군이 만든 신생 미국 공화국에서 가장 완벽하게 구현된 사회 계약이라는 개념에 미국인들이 매력을 느꼈기 때문일 것입니다. 미국에서는 사람들이 평등하게 관계를 맺어야 했습니다. 사회적 관계는 노블레스 오블리주나 신사적 예의와 같은 모호한 개념이 아니라 의지가 있는 당사자 간의 어느 정도 명시적인 계약에 기반해야 했습니다. 이러한 사고 방식은 사회적 관계의 조건을 구체화하려는 욕구로 이어졌습니다. 의학에서 이러한 구체화는 서면 윤리 강령의 형태를 띠게 됩니다.
In the end, it was the American medical profession that, in the mid-19th century, created the first national set of ethical and practice standards. Eventually, similar standards were almost universally accepted, thereby creating the modern concept of the medical profession. American physicians were primed for the task of creating a full-fledged profession for several reasons. Perhaps most important was the Americans’ attraction to the notion of a social contract—a notion conceived by French, English, and Scottish Enlightenment thinkers, but implemented most fully in the young American republic, created by rebels against inegalitarian classism. In the United States, people were to relate as equals. Social relations were to be built upon more-or-less explicit contracts between willing parties, not such nebulous notions as noblesse oblige or gentlemanly honor. This way of thinking led to the desire to specify the terms of social relations. In medicine, this specification would take the form of a written code of ethics.

1847년 미국 의학은 혼란에 빠져 있었습니다. 의학 교육, 의료 행위, 의료 윤리에 대한 통일된 기준이 없었습니다. 

  • 대부분의 의료 서비스는 효과가 없었고 종종 생명을 위협할 정도로 위험했습니다. 
  • 매수자 부담 원칙( Caveat emptor )이 의료계를 지배했습니다. 
  • 자유 시장으로 인해 교육을 받지 못한 다양한 비전문 의료인이 난립했습니다. 
  • 과학적 의학은 나중에 기적적인 치료법을 만들어내기는커녕 제대로 태어나기도 전에 사라질 위험에 처해 있었습니다. 

이러한 환경에서 '정통orthodox' 의사들이 모여 초기 과학 의학이라는 '전문직'을 정의하고 방어할 수 있는 일련의 교육 및 윤리적 기준을 마련했습니다. 이들이 만든 문서인 1847년 미국의사협회(AMA)의 의료 윤리 강령은 모든 전문직에 대한 최초의 국가 윤리 강령이었습니다.
In 1847, American medicine was in disarray. There were no uniform standards for medical education, medical practice, or medical ethics.

  • Most medical care was ineffective and often life-threateningly dangerous.
  • Caveat emptor ruled the field.
  • The free market was leading to the rampant production of a wide variety of uneducated and unorthodox practitioners.
  • The survival of scientific medicine was under threat—at risk of dying before it had been fully born, let alone produced any of the miraculous cures it would later deliver.

In this environment, a group of “orthodox” practitioners met to draw up a set of educational and ethical standards, by which they might define—and defend—the nascent “profession” of scientific medicine. The document they produced, the 1847 Code of Medical Ethics of the American Medical Association (AMA), was the first national code of ethics for any profession.

당시 미국 독립선언서만큼이나 혁명적이라는 찬사를 받았던 이 윤리 강령은 퍼시벌, 히포크라테스 등의 연구에서 파생된 것이 분명합니다(Baker 외. 1999). 그러나 그것은 또한 전형적으로 미국적이기도 했습니다. 의사와 환자, 의사와 다른 의사, 의사와 지역사회 간의 상호 의무를 명시한 세 부분으로 구성된 사회 계약이 제시되었습니다. 대부분의 경우 이러한 의무는 중요하고 구체적이었습니다. 강령의 세 장은 이러한 상호 의무를 따라 작성되었습니다. 예를 들어,

  • 지역 사회와 의사의 의무와 관련하여 의사는 "지역 사회의 이익을 위해 자신의 건강과 생명을 노출해야 하며, 그 대가로 모든 구성원에 대해 집단적으로나 개별적으로 자신의 조치를 수행하는 데 도움을 요청할 정당한 청구권이 있다"고 규정하고 있습니다.
  • 개별 환자와의 관계에서 의사는 "병자의 부름에 항상 순종할 준비가 되어 있어야 하며", "비밀과 섬세함"을 "엄격하게 준수"해야 하는 등의 의무를 지녀야 했습니다.
  • 그러나 그 대가로 환자는 적절한 훈련을 받은 의사만을 선택해야 하고 "자신의 질병의 원인을 의사에게 충실하고 가감 없이 전달"해야 했으며(그러나 환자는 "지루한 세부 사항"으로 의사를 "지치게 해서는 안 된다!"), 물론 "의사의 처방에 대한 환자의 순종은 신속하고 암묵적으로 이루어져야 한다"(Baker 외, 1999, 부록 B 및 C)고 했습니다.

This code of ethics, which was hailed at the time for being as revolutionary as the Declaration of Independence (Baker et al. 1999), was clearly derived from the work of Percival, the Hippocratics, and others. Yet it was also quintessentially American. It laid out a three-part social contract, with reciprocal obligations spelled out between physicians and patients, physicians and other physicians, and physicians and their communities. In many cases these obligations were significant and specific. The three chapters of the code were drawn along the lines of these reciprocal obligations.

  • With regard to community-physician obligations, for example, a physician is “required to expose his health and life for the benefit of the community, [and] he has a just claim, in return, on all its members, collectively and individually, for aid to carry out his measures.”
  • In relations with individual patients, physicians were to “be ever ready to obey the calls of the sick,” “secrecy and delicacy” should be “strictly observed,” and so on.
  • But in return, patients were to select only properly trained physicians and to “faithfully and unreservedly communicate to their physician the supposed cause of their disease” (yet a patient should not “weary” the physician with “tedious detail”!), and, of course, “the obedience of a patient to the prescriptions of his physician should be prompt and implicit” (Baker et al. 1999, appendix B and C).

이러한 상호 의무는 의사의 개인적 미덕에 의존하지 않았지만, 고결한 개인이 직업에 참여하기를 확실히 희망했습니다. 대신 의료 전문가의 의무를 명시적으로 서면으로 규정하여 환자, 지역사회, 의사 모두가 이러한 기준을 인지할 수 있도록 했습니다. 의료계는 대중의 신뢰와 공중 보건 개선의 기초가 될 의사의 자질에 대해 일관된 주장을 하는 것을 목표로 삼았습니다(우연은 아니지만 자율 규제와 독점권 확립의 기초가 되었습니다). 
These reciprocal obligations did not depend on the personal virtue of the practitioner, though it was certainly hoped that virtuous individuals would join the profession. Instead, the obligations of medical professionals were laid out, explicitly and in writing, so that patients, the community, and physicians all would be aware of these standards. The profession aimed to make uniform claims about the quality of its practitioners, which would be the basis of public trust and improved public health (and—not coincidentally—the foundation for the establishment of self-regulation and monopoly power).

이러한 상호 의무가 어느 정도 실천되었는지, 특히 의사들이 강령에 명시된 이상에 어느 정도 부응했는지에 대해서는 분명 논쟁의 여지가 있습니다. 또한 환자가 이 새로운 계약의 기꺼이 당사자로 참여한 정도에 대해서도 의문을 제기할 수 있습니다. 그럼에도 불구하고 모든 의사에게는 구체적이고 고유한 의무가 있으며 사회에서 특별하고 특권적인 역할이 있다는 일반적인 개념은 이 새로운 전문가 집단이 (1) 이러한 문제를 문서화하고 (2) 새로운 강령 준수를 장려하기 위해 자율 규제 메커니즘을 개발하려는 의지를 보인 후에야 널리 받아들여졌습니다(Wynia 2006). 실제로 의사의 사회적 지위는 이타주의, 시민 의식, 과학적 이상에 대한 헌신, 자율 규제를 통한 역량 및 품질 보증 약속을 요구하는 이러한 명시적인 사회 계약에 따라 결국 성층권에 가까운 수준으로 높아졌습니다.  
One can certainly argue about the extent to which these reciprocal sets of obligations were lived out, and the degree to which physicians, in particular, lived up to the ideals they espoused in the code. One can also raise questions about the extent to which patients were a willing party to this new contract. Nonetheless, the general notion that all physicians have specific and unique obligations, and a special, privileged role in society, became widely accepted only after this new group of professionals was willing to (1) put these matters in writing and (2) develop mechanisms for self-regulation to encourage adherence to its new code (Wynia 2006). Indeed, the social status of physicians was eventually raised to near-stratospheric heights, based in part on this explicit social contract that demanded altruism, civic-mindedness, devotion to scientific ideals, and a promise of competence and quality assurance through self-regulation.

전문직 협회의 역할
The Role of Professional Associations

전문직은 집단 기반의 사회적 실체이기 때문에 공동체의 일원이 되는 것은 전문직의 필수적인 특징입니다. 특히, 전문직이 서면으로 작성된 사회 계약, 즉 윤리 강령을 기반으로 하는 경우 윤리 강령을 작성하는 단체의 역할이 매우 중요해집니다. 전문직 종사자가 사회 계약에 영향을 미치고 싶다면 전문직 협회를 통해 할 수 있습니다. 의료계가 사회적으로 인정받고 성공을 거두면서, 즉 사회 계약이 진행되면서 지역, 주, 전국 전문직 협회에 참여하는 것은 다른 여러 가지 이유로 중요해졌습니다.
Since professions are group-based social entities, being part of a collegial community is an essential feature of professionalism. In particular, when a profession is based on a written social contract—a code of ethics—the organization that writes this code becomes very important. If a practitioner wants to affect the social contract, the way to do so is through the professional association. And participation in local, state, and national professional associations became important for many other reasons as the medical profession became socially recognized and successful—that is, as the social contract played out.

초기 AMA의 일부 활동은 길드 형태의 활동으로, 은행 대출과 의료 과실 보험이 종종 AMA 회원 자격에 따라 조건부로 제공되었다는 사실과 같은 것이었습니다. "전염병이 만연할 때" 의사는 자신의 건강에 대한 위험에도 불구하고, 심지어 (1912년 이후에는) 보수와 "무관하게" 환자를 계속 돌봐야 한다는 AMA 강령에 명시된 의무와 같이 공익을 더 명확하게 증진하거나 명백히 이타적이었던 활동과 기준도 있었습니다(Huber와 Wynia 2004). 
Some activities of the early AMA were guild-type activities, such as the fact that bank loans and malpractice insurance were often contingent upon AMA membership. Other activities and standards more clearly promoted the public good, or were plainly altruistic—such as the obligation specified in the AMA Code that “when pestilence prevails,” physicians must continue to care for patients despite the risk to their own health and even (after 1912) “without regard” to remuneration (Huber and Wynia 2004). [End Page 568]

전문 협회의 회원이 되는 것은 진화하는 의학 과학에 대한 최신 정보를 얻는 방법이기도 했는데, 이는 미국에서 멀리 떨어진 개인 개업의에게 특별한 도전이었습니다. 예를 들어 수술 중 의뢰와 도움을 받는 데 필요한 동료 관계를 구축하는 방법이기도 했습니다. 유명한 의사 윌리엄 오슬러 경은 전문가가 성장할 수 있는 비옥한 토양으로서 전문 학회의 중요성을 다음과 같이 거듭 언급했습니다."어느 곳에서든 전문직 동료와 떨어져 지낼 여유가 없습니다. 그들의 협회에 가입하고, 그들의 모임에 어울리고, 여기 모이고 저기 흩어지되, 어디에서나 여러분이 가르침을 받는 만큼 기꺼이 가르치는 충실한 학생임을 보여주어야 합니다."(Bryan 1997, 51쪽). 
Being a member of one’s professional association was also how one kept upto-date on the evolving science of medicine, a special challenge to far-flung solo practitioners in the United States. It was how one forged collegial relations— needed for referrals and assistance during surgery, for example. The famous physician Sir William Osler repeatedly noted the importance of professional societies as the fertile ground in which professionals grew: “You cannot afford to stand aloof from your professional colleagues in any place. Join their associations, mingle in their meetings, gathering here, scattering there; but everywhere showing that you are faithful students, as willing to teach as be taught” (Bryan 1997, p. 51).

이 인용문에서 알 수 있듯이 전문가 협회는 초기 의학의 비금전적 보상 시스템을 개발하는 데 중요한 역할을 했습니다. 초기 의료계 사회학자에 따르면, 의료계에 입문하는 사람들에게 의외로  금전적 보상은 드문 동기 부여였습니다. 예를 들어 Talcott Parsons는 의사가 된 사람들이 돈에 이끌리기보다는 동료들 앞에서 잘 보이고 싶은 욕구에 이끌려 의사가 되는 경향이 있다고 제안했습니다(Latham 2002). 이것이 사실이라면, 동료 그룹에게 자신의 연구를 발표하는 것은 과학뿐만 아니라 응집력 있는 동료 전문가 커뮤니티의 발전에도 중요했습니다.
As this quote suggests, professional associations played an important role in developing the non-monetary reward system of early medicine. According to early sociologists of the medical profession, monetary rewards were scant and a surprisingly rare motivator for those entering the medical profession. Talcott Parsons, for example, suggested that people who became doctors tended to be driven less by money than by a desire to look good in front of their peers (Latham 2002). Insofar as this was true, presenting work to one’s peer group was important not only to science, but to the development of a cohesive, collegial professional community.

전문가 협회에 참여하는 것은 윤리적 의무이기도 했습니다. 특히 의료계 지도자들에게는 전문직의 미래를 위한 이타적 의무의 핵심으로 여겨졌습니다. 오슬러에 따르면, "어떤 의사도 자신을 자신의 소유물로 여길 권리는 없지만, 각자가 전문직의 일부라는 점에서 모두 자신을 전문직에 속한 것으로 간주해야 한다"(Bryan 1997, 50쪽). 한 번은 오슬러가 한 의대생으로부터 지역 의사회 회의에 참석해야 하는지 여부를 묻는 질문을 받았는데, 그 학생은 회의에서 무엇을 얻을 수 있을지 확신할 수 없었기 때문에 오슬러는 "내가 거기에서 얻을 수 있는get out of 것을 위해 갈까요, 아니면 내가 거기에 넣을 수 있는put into 것을 위해 갈까요?"라고 대답했습니다. (브라이언 1997, 49쪽).
Participation in professional associations was also an ethical obligation. For medical leaders in particular, participation was seen as a core altruistic obligation to the future of the profession. Again, according to Osler: “no physician has a right to consider himself as belonging to himself; but all ought to regard themselves as belonging to the profession, inasmuch as each is a part of the profession” (Bryan 1997, p. 50). Once, when Osler was asked by a medical student whether he (the student) should attend a local medical society meeting, because he wasn’t sure what he would get out of it, Osler responded, “Do you think I go for what I can get out of it, or what I can put into it?” (Bryan 1997, p. 49).

과학의 발전, 겸손의 상실
Advances in Science, Loss of Humility

세기가 바뀌면서 과학적 의학은 그 가능성을 보이기 시작했습니다. 이전 세대의 의사들은 병자에게 의학적 혜택을 줄 수 있는 무언가가 있다고 믿었지만, 공중 위생과 예방 접종을 이해한 의사 세대는 실제로 생명을 구했고, 극적으로도 그렇게 했습니다.

  • 1900년부터 1920년 사이에 장티푸스, 디프테리아, 위염으로 인한 사망자가 절반 이상 줄었고 결핵으로 인한 사망자는 3분의 1로 감소했습니다.
  • 1940년대에는 페니실린과 스트렙토마이신이 도입되면서 인플루엔자 사망자가 급감하고 결핵 사망자가 급격히 감소하여 결핵이 퇴치될 것이라는 기대가 널리 퍼져나갔고, 1940년대에 이르러서는 결핵 사망자가 급격히 감소했습니다.
  • 드크루이프의 『미생물 사냥꾼』(1926)과 같은 책에서 전염병 퇴치를 위한 의사들의 자기 희생과 성공에 대해 언급하자 많은 미국인이 의사를 영웅으로 여기게 되었습니다.

By the turn of the century, scientific medicine was beginning to show its promise. While previous generations of doctors had believed, often falsely, that they had something of medical benefit to offer the ill, the generation of doctors that understood public hygiene and inoculation actually did save lives, and dramatically so.

  • Between 1900 and 1920, deaths from typhoid, diphtheria, and gastritis were cut by more than half, and tuberculosis deaths dropped by one-third.
  • By the 1940s, with the introduction of penicillin and streptomycin, influenza deaths plummeted, and tuberculosis deaths were falling so rapidly that the disease was widely expected to be eliminated.
  • When books like DeKruif ’s The Microbe Hunters (1926) noted both the self-sacrifice and success of physicians in combating infectious diseases, many Americans came to see physicians as heroes.

안타깝게도 영웅적 지위를 얻게 된 결과 중 하나는 의사들이 히포크라테스의 뿌리에 남아 있을지도 모르는 겸손의 잔재를 잃게 된 것입니다. 흥미롭게도 히포크라테스가 겸손을 강조한 것은 인간의 생명에 대한 신의 힘에 대한 경외심과 의사가 신의 계획에 반하는 개입을 하면 오만함의 죄를 짓는다는 믿음에 근거한 것이었습니다. 이후 세대의 의사들은 인체를 기계적이고 조작과 측정이 가능하며 과학적 조사와 학습의 대상으로 보았습니다. 의사들은 과학적 의문에 대한 믿음에서 겸손을 배웠어야 했고, 일부는 실제로 겸손을 배웠습니다. 과학적 지식은 항상 미약하며 더 개선될 수 있다는 점을 인정한 것이다.(Wynia and Kurlander 2007). 예를 들어,

  • 존 그레고리(1724-1773)는 이러한 과학적 겸손을 "자신감diffidence"이라고 부르며 "(신념에 열려 있고, 자신의 실수를 인정하고 수정할 준비가 되어 있는) 솔직함"이 의사의 도덕적 의무라고 주장하면서 진료의 오류를 의료 행위를 연구하고 개선하는 데 사용해야 한다고 촉구했습니다(Gregory 1772, 209-10페이지).
  • 컬럼비아 의과대학의 설립자인 사무엘 바드는 1769년 졸업하는 의대생들에게 다음과 같이 말했습니다: "너희가 실패할 정도로 불행할 때마다, 그것을 구제하려는 노력에서, 특정한 불행을 일반적으로 축복으로 바꾸는 것이 너희의 끊임없는 목표가 되도록 하라. 죽은 자의 시신을 주의 깊게 검사하고 질병의 원인을 탐구하며, 그로부터 너희 자신의 지식을 향상시키고 더 유용한 발견을 함으로써." (13-14페이지).

Sadly, one effect of gaining heroic status was the loss of any remnants of [End Page 569] humility that doctors might have retained from their Hippocratic roots. Interestingly, the Hippocratics’ emphasis on humility had been based on an awe of the gods’ powers over human life and a belief that physicians would be guilty of hubris if they intervened contrary to the gods’ plans. Later generations of physicians saw the human body as mechanistic, amenable to manipulation and measurement, and the subject of scientific scrutiny and learning. They should have (and some had) derived humility from their belief in scientific questioning—recognizing that scientific knowledge is always tenuous and subject to further refinement (Wynia and Kurlander 2007).

  • John Gregory (1724–1773), for instance, called such scientific humility “diffidence” and held that “candor, which makes him open to conviction, and ready to acknowledge and rectify his mistakes,” is a moral duty for physicians, urging that errors in care be used to study and improve medical practice (Gregory 1772, pp. 209–10).
  • Samuel Bard, founder of the Columbia College of Physicians and Surgeons, told graduating medical students in 1769:“Whenever you shall be so unhappy as to fail, in your Endeavors to relieve; let it be your constant Aim to convert, particular Misfortunes into generaly Blessings, by carefully inspecting the Bodies of the Dead, inquiring into the Causes of their Diseases, and thence improving your own Knowledge, and making further useful Discoveries” (pp. 13–14).

과학적 겸손은 과학적 탐구와 새로운 치료법 개발을 촉진하는 한에서 엄청난 성공을 거두었습니다. 그러나 예상대로 과학이 발전하고 의학이 더 큰 성공을 거두면서 의사들이 겸손함을 유지하기가 더 어려워졌습니다. 리처드 캐봇(1868~1939)이나 어니스트 코드먼(1869~1940) 같은 용감한 의료 질 개선의 선구자처럼 오류를 통해 교훈을 얻으려 했던 의사들은 종종 다른 의사들로부터 비방을 받기도 했습니다. 
Scientific humility, insofar as it drove scientific inquiry and the development of new treatments, was tremendously successful. But, perhaps predictably, as science made advances and medicine had greater success, it became harder for physicians to remain humble. Those physicians who sought out errors to learn from them, brave pioneers of quality improvement like Richard Cabot (1868–1939) and Ernest Codman (1869–1940), were often vilified by other practitioners.

이러한 비방 중 일부는 오류를 인정하거나 자신의 실수가 노출되는 것을 꺼리는 인간의 기본적인 본성을 반영한 것이었습니다. 그러나 그것은 또한 의학의 과학과 예술(교양) 사이의 지속적인 분열, 즉 연구자들은 과학에 더 관심이 많았던 반면, 임상의들은 예술에 더 헌신적이었던 직업 발전 초기의 모습을 반영한 것일 수도 있습니다. 과학에 관심을 두지 않고 의술을 행하는 것은 어리석은 일이고, 예술에 관심을 두지 않고 인간을 돌보는 것은 잔인한 일이기 때문에 많은 사람들은 이러한 구분이 인위적인 것이라고 생각하지만, 둘 다 훌륭한 의료 행위를 위해 필요합니다. 그러나 실제로 이러한 논쟁에서 예술이라는 용어는 개별 의사가 최신 과학에 대한 정보도 없고, 동료나 다른 사람의 의미 있는 감독도 받지 않은 채, 자신의 최선의 판단에 따라 진료할 수 있어야 한다는 개념을 나타내는 코드였습니다.
Some of this vilification reflected basic human nature—the reluctance to admit error or have one’s errors exposed. But it might also have reflected an ongoing divide early in the development of the profession, between the science and art of medicine: researchers were more interested in science, while clinicians were more devoted to art. To be sure, many believe that this divide was, and remains, largely artificial, since practicing medicine without attention to science would be foolish, and caring for human beings without attention to art would be cruel: both are necessary to good medical practice. In effect, however, in some of these debates the term art was code for the notion that individual practitioners should be allowed to practice according to their own best judgment, often uninformed by the latest science and without meaningful oversight from colleagues or anyone else.

전문가 자율성 정의
Defining Professional Autonomy

어떤 의미에서 과학 대 예술에 대한 초기의 싸움은 지금 우리가 "전문직업적 자율성"이라고 부르는 것의 정의에 관한 것이었습니다. 적어도 AMA가 창립된 이후 의사들 사이에서는 다음과 같은 질문에 대한 고민이 있었습니다:

  • 전문직 자율성이란 국가나 시장을 통해 표준을 제정하는 것이 아니라 전문직이 집단으로서 표준을 제정하고 모든 구성원이 이에 따르도록 하는 것을 의미할까요?
  • 아니면 자격을 갖춘 것으로 판명된 개별 전문가가 자신만의 업무 패턴을 정할 수 있도록 허용하는 것을 의미할까요? 

In a way, this early fight about science versus art was about the definition of something we would now call “professional autonomy.” At least since the founding [End Page 570] of the AMA, there had been an undercurrent of concern amongst practitioners over the following question:

  • would professional autonomy mean that the profession, as a group, was to establish standards (rather than having them established by the state or through the marketplace) and ensure that all members lived up to them?
  • Or would it mean that each individual professional, once found to be qualified, would be allowed to establish their own patterns of practice?

이 질문은 잠시 후에 다시 다루겠지만, 프로그레시브 시대(약 1890~1913년) 초기에는 전문가 집단이 자율 규제의 기준과 메커니즘을 확립하는 방향으로 논쟁이 해결되고 있는 것처럼 보였습니다(Burrow 1977). 예를 들어,

  • AMA는 창립 1년 만에 의학교육, 의과학, 실용의학, 수술, 산부인과, 의학 문헌 및 출판물에 대한 표준을 설정하는 위원회를 설립했습니다.
  • 곧이어 해부학, 생리학, 의학 재료, 화학, 법의학, 생체 통계, 위생 및 위생 조치에 관한 위원회가 뒤를 이었습니다(Haller 1981).

제안된 계약은 명확했습니다. 개별 개업의는 AMA가 제공하는 직업적 사회적 특권의 혜택을 받지만, 그 대가로 AMA 위원회가 정한 전문직의 지시를 따라야 한다는 것이었습니다. 

We’ll return to this question momentarily, but early on—certainly throughout the Progressive Era (ca. 1890–1913)—it appeared that the debate was being resolved in favor of professionals, as a group, establishing standards and mechanisms of self-regulation (Burrow 1977). For example,

  • within a year of its founding, the AMA established committees to set standards on medical education, medical sciences, practical medicine, surgery, obstetrics, and medical literature and publications.
  • Committees on anatomy, physiology, materia medica, chemistry, forensic medicine, vital statistics, hygiene, and sanitary measures soon followed (Haller 1981).

The proposed arrangement was clear: individual practitioners would benefit from professional social privileges garnered by the AMA, but in return they were expected to follow the dictates of the profession, as set by AMA committees.

과학이 발전함에 따라 임상의와 과학자 사이의 격차는 좁혀지는 듯 보였습니다. 청진기, 다양한 혈액 검사, 현미경과 같은 새로운 과학적 측정 도구가 의료 무기의 일부가 되었습니다. 과학적 진료보다는 예술적 진료에 대한 임상의들의 선호도는 점점 줄어들고 있는 것처럼 보였습니다. 1904년 AMA 회장인 존 H. 머서 박사는 "과학적 정밀성이 들어오면서 소위 예술이 사라지고 있습니다. 직관에 의한 진단, 부주의한 '경험칙'에 의한 진단은. . 사하라 사막의 모래가 움직이는 것만큼이나 신뢰할 수 없다"(King 1983, 2478쪽)고 말했습니다. 
As science advanced, the divide between clinicians and scientists seemed to narrow. New scientific measurement tools, such as the stethoscope, various blood tests, and microscopy, became part of the medical care armamentarium. The clinicians’ preference for artful rather than scientific practice looked to be on the wane. Dr. John H. Musser, President of the AMA in 1904, remarked, “With the incoming of scientific precision there is the outgoing of so-called art. Diagnosis by intuition, by careless ‘rule of thumb’. . . is as little trustworthy as the shifting sand of the Sahara” (King 1983, p. 2478).

과학적 성공과 권위의 다른 위험
Other Perils of Scientific Success and Authority

진료와 과학의 연결은 환자 치료와 공중 보건에 큰 발전을 가져왔습니다. 그러나 안타깝게도 과학과 연계된 성공의 단점도 상당했습니다. 의사들은 '예술'에 대한 겸손과 존중을 잃었을 뿐만 아니라 고객 서비스 지향성도 잃게 되었습니다. 의학은 점점 더 복잡해지고 미시적인 현상을 설명하기가 쉽지 않았습니다. 더 중요한 것은 인체에 대한 기계적인 이해는 환자가 예방 접종과 같이 이러한 혜택이 어떻게 발생하는지 이해하거나 믿지 않더라도 의학이 엄청난 혜택을 제공할 수 있다는 것을 의미했습니다. 그래서 의사들은 인구 수준에서 공중 보건 의무를 추진했고, 개인 수준에서는 환자에 대해 매우 가부장적인 태도를 취했습니다.
Linking practice to science led to great advances in patient care and public health. Sadly, however, the downsides of this success-linked-to-science were substantial: physicians not only came to lose humility and respect for “the art,” but their customer service orientation as well. Medicine became increasingly complex, and microscopic phenomena weren’t always easy to explain. Perhaps more important, a mechanistic understanding of the human body meant that medicine could provide tremendous benefits whether or not the patient understood or believed in how these benefits came about (such as with inoculations). So physicians pushed for public-health mandates at the population level and adopted a highly paternalistic attitude towards patients at the individual level.

그러나 슬프게도 의사의 사회적 권위의 원천인 과학적 역량에 대한 이러한 집중이 가져온 부정적인 결과는 교만, 가부장주의, 예술과 고객 서비스의 상실뿐이 아니었습니다. 다른 하나는 의사의 시민적 의무가 결국 당연한 것으로 여겨지거나 중요하지 않다고 여겨지거나 잘못 해석되어 많은 사람들이 거의 포기하게 되었다는 것입니다. 
But pride, paternalism, and the loss of art and customer service were, sadly, not the only negative consequence of this focus on scientific competence as the source of physicians’ social authority. Another was that physicians’ civic obligations eventually came to be taken for granted, seen as unimportant, or misconstrued; and many were nearly abandoned.

  • 첫째, 백신, 항생제, 심장 수술, 장기 이식 및 기타 기적이 일어나면서 과학적 역량을 넘어서는 전문적 의무가 더 이상 필요하지 않게 되었습니다. 생명을 구하는 것만으로도 높은 수준의 대중적 존경을 받기에 충분했기 때문입니다.
  • 둘째, 전염병이 유행하는 동안 환자를 계속 돌봐야 하는 직업적 의무와 같은 일부 시민의 의무는 과학적 의학의 성과로 인해 결국 '시대착오적'인 것으로 여겨졌습니다. 1970년 미국 외과의사 장관이 말했듯이, "전염병의 시대는 끝나가고 있다"(Huber and Wynia 2004)고 했습니다. 이 정도의 오만함을 가진 전문직이 윤리 규정의 필요성을 거의 느끼지 않는다고 상상하는 것은 어렵지 않습니다. 결국 질병을 없애는 것보다 더 윤리적인 일이 있을 수 있을까요? 

First, in the wake of vaccination, antibiotics, cardiac surgery, organ transplantation, and other miracles, any professional obligations beyond scientific competence no longer seemed necessary. Saving lives was sufficient to garner high levels of public respect. Second, some civic obligations, such as the professional duty to continue caring for patients during epidemics, were eventually seen as “anachronistic,” because the achievements of scientific medicine had made them so. As the U.S. Surgeon General put it in 1970, “the era of infectious diseases is coming to an end” (Huber and Wynia 2004). It’s not hard to imagine a profession with this level of hubris feeling little need for any ethical regulations—after all, what could be more ethical than eliminating disease?

  • 세 번째이자 더 복잡한 문제는 우리가 더 이상 자율 규제를 해야 한다는 데 의문의 여지가 없을 정도로 높은 신뢰를 얻게 되었다는 점입니다. 언뜻 보기에는 이러한 발전이 자율 규제의 시민적 의무를 촉진하는 것처럼 보일 수 있지만, 의심의 여지가 없는 자율 규제 능력을 확보하는 것은 불행한 반발을 불러일으켰습니다. 설립 당시부터 AMA의 목표는 국가의 지원을 받아 의사에 대한 신뢰도를 높여 전문직 독점, 즉 '전문직 폐쇄'를 만드는 것이었습니다. 즉, 전문직이 정한 기준에 따라 자격을 갖추지 못한 의사는 주정부에 의해 업무에서 배제되는 것입니다. 전문직 폐쇄에 성공하면 부도덕하고 비과학적인 의사로부터 대중을 보호할 수 있습니다. 또한 자격을 갖춘 의사들의 지위와 급여도 높아질 것입니다. (제 생각에 이렇게 이타적 동기와 이기적 동기를 완전히 분리하는 것은 불가능합니다.) 의사들이 의료 서비스를 개선하겠다는 약속을 지키고, 이를 위해 자신의 목숨까지 걸면서, 의사들은 규제 철폐를 주장하는 데 큰 성공을 거두었습니다. 실제로 의료계는 이러한 측면에서 매우 성공적이었기 때문에 의료 면허, 인증 기관, 기타 전문직에서 파생된 다양한 구조 및 프로세스와 같은 많은 자율 규제 메커니즘이 법적 구속력이 있는 것으로 받아들여져 국가와 전문직 간의 경계가 모호해졌습니다. 많은 의사들은 이러한 다양한 규제 구조를 더 이상 직업적 자율 규제의 일부이자 장기적으로 사회적 신뢰를 유지하는 데 필요한 것으로 인식하지 않고, 국가가 의사를 감시하고 진료를 방해하기 위해 파견한 간섭적인 외부 기관으로 인식하게 되었습니다.

Third—and more complex—is that the profession accrued so much credibility there was no longer any question that it should be self-regulatory. At first blush, this development might seem to promote the civic obligation of self-regulation, but gaining the unquestioned capacity to self-regulate created an unfortunate backlash. From the time of its founding, a goal of the AMA had been to develop a heavy mantle of credibility around physicians that would create a professional monopoly, or “professional closure,” with the assistance of the state. That is, those who were not qualified, according to standards established by the profession, would be closed out of practice by the state. If successful, professional closure would protect the public from unscrupulous and unscientific practitioners. It would also raise the status, and presumably the pay, of qualified practitioners. (It is, in my view, impossible to fully disentangle these altruistic and self-serving motivations.) As physicians delivered on their promises to improve medical care, and risked their own lives in doing so, the profession became extremely successful in arguing for regulatory closure. In fact, medicine was so successful in this regard that many of our self-regulatory mechanisms, such as medical licensure, accreditation bodies, and various other professionally derived structures and processes, were accepted as legally binding—which blurred the lines between the state and the profession. Victims of our own success, many physicians no longer recognized these various regulatory structures as a part of professional self-regulation and necessary to maintaining our social credibility over the long term; instead, they came to be perceived as meddlesome outside bodies, sent in by the state to scrutinize us and disrupt our practice.

마지막으로, 인정하기 싫지만 의료 윤리 분야의 급성장도 의사들이 전문성에 시민적 책임이 수반된다는 의식을 상실하는 데 기여했습니다. 위에서 언급한 바와 같이 가부장주의에서부터 사회에 대한 의무를 가장한 의사의 나치 반인도 범죄 가담에 이르기까지 정당한 우려에 대응하는 초기 생명윤리학은 생명윤리의 원칙으로서 자율성의 중요성을 강력히 강조하고, 의사의 시민적 의무를 경시하거나 심지어 폄하했습니다. 일부는 의사에게 시민적 고려를 완전히 무시하고 환자 개개인의 복지만 생각하라고 촉구했습니다. 예를 들어, 1984년 노먼 레빈스키는 뉴잉글랜드 의학 저널에 "의사는 비용이나 기타 사회적 고려 사항을 고려하지 않고 각 환자에게 도움이 된다고 생각되는 모든 것을 해야 한다"고 썼습니다(1573페이지). 이러한 진술은 개인의 자율성에 대한 존중이 의료 윤리를 지배하고 있음을 반영하는 것이기도 하지만, 의사의 전문성을 뒷받침하는 사회 계약의 핵심적인 측면, 의사가 사적 이익과 공동체 이익 사이의 중재자 역할을 해야 한다는 사회학자 Talcott Parsons가 설명했던 의무가 상실되었음을 보여줍니다(Latham 2002; Wynia 외. 1999 ).
Finally, though it pains me to admit it, the burgeoning field of medical ethics also contributed to the loss of physicians’ sense that professionalism entails civic responsibilities. Early bioethics, responding to legitimate concerns—ranging from paternalism, as noted above, to physician participation in Nazi crimes against humanity under the guise of obligations to society—strongly stressed the importance of autonomy as a principle of biomedical ethics and deemphasized [End Page 572] or even denigrated physicians’ civic duties. Some urged physicians to ignore civic considerations altogether and think only of the welfare of the individual patient before them. For instance, in 1984 Norman Levinsky wrote in the New England Journal of Medicine that “physicians are required to do everything that they believe may benefit each patient, without regard to costs or other societal considerations” (p. 1573). Such a statement reflects the domination of medical ethics by respect for individual autonomy, but it also illustrates the loss of a cardinal facet of the social contract that had grounded physician professionalism, and which the sociologist Talcott Parsons had described: the obligation of physicians to serve as mediators between private and community interests (Latham 2002 ; Wynia et al. 1999 ).

요약하자면, 20세기 후반에는 진료실에 앉아있는 환자에게만 관심을 가져야 한다는 개념으로 대표되는 매우 다른 전문직업의식이 발전했습니다. 단순하고 일차원적인 윤리로서 엄격한 개인 옹호라는 개념은 환자의 눈앞의 이익에 호소력이 있었으며 의사에게는 쉬워 보였습니다. 하지만 이는 의사, 환자, 지역사회 간의 복잡한 상호 의무로 구성된 전문직업성에 대한 초기의 이해와 크게 다르지 않습니다. 
In sum, in the late 20th century there developed a very different sense of professionalism, epitomized by the notion that one should care only about the patient sitting in the exam room. As a simple, one-dimensional ethics, this notion of strict individual advocacy appealed to patients’ immediate interests, and it seemed easy for doctors. But it could hardly be more different from the initial understanding of professionalism as comprising a complex set of reciprocal obligations between physicians, patients, and the community.

 

수탁자로서의 의사
The Physician as Trustee

의료계에 대한 원래의 사회 계약에 따라 의사는 환자에 대한 의무뿐만 아니라 지역사회에 대한 의무도 가지고 있었으며, 이러한 의무가 충돌할 수 있다는 것을 인식했습니다. 의료보험이 도입되기 전인 초기에는 공유 재정 자원에 대한 청지기적 책임이 분명한 문제는 아니었지만, 환자의 요구와 욕구, 그리고 환자가 생산적인 사회 구성원이 되기를 바라는 지역 사회의 희망을 둘러싸고 갈등이 발생했습니다. 이러한 책임이 상충할 때 훌륭한 전문가는 중재자 역할을 수행하여 모든 관계자를 위해 가능한 한 최선을 다했습니다. 
Under the original social contract for the medical profession, doctors had obligations to patients but also obligations to the community—and it was recognized that these could come into conflict. While stewardship of shared financial resources was not an obvious issue early on (before health insurance came into existence), conflicts arose around patient wants and desires, and the hope of the community for those patients to be productive members of society. When these responsibilities conflicted, a good professional would serve as a mediator, seeking to do the best possible for all concerned.

다른 전문직보다도 의사의 중재자 역할은 사회 계약에서 중요한 부분을 차지했습니다. 오늘날의 계약은 간단하고 실용적인 용어로 다음과 같이 요약할 수 있습니다. 즉, 의사는 병자를 생산적인 삶으로 복귀시키기 위해 노력함으로써 사회를 돕겠다는 집단적 약속의 대가로 병자를 보호할 수 있는 특정 사회적 특권(예: 병자에게 휴직을 허가함)을 부여받습니다. 따라서 윤리적으로, 의사는 건강한 사람들을 대상으로 하는 시장있을지라도, 건강한 사람들의 결근을 핑계로 진단서를 판매할 수 없습니다. 
Even more than for other professions, this mediator role was an important part of the social contract for physicians. In simple, practical terms today, the agreement is the following: physicians are given certain social privileges to protect the ill (such as by allowing time off work) in exchange for a collective promise to help society by working to return the ill to productive life. So, ethically, physicians cannot sell notes to excuse otherwise healthy people from work, despite the fact that there might be a ready market for them.

이는 1847년 의료 윤리 강령에서 의사의 기술이 "공공의 이익을 위해 신뢰받는 자질"이라고 명시한 데서도 잘 드러납니다. 그리고 더 큰 공익을 위해 봉사하겠다는 약속은 19세기에 의학이 처음으로 달성한 직업적 지위에 결정적인 역할을 했습니다."19세기의 법적 조치는 처음으로 의학에 개인적 및 집단적 자율성과 함께 의료에 대한 광범위한 독점권을 부여했으며, 그 대가로 의학은 자신이 봉사하는 사회의 건강 문제에 관심을 갖고 자신보다 사회의 복지를  우선시할 것이라는 명확한 이해와 함께"(943쪽) 의학에 대한 독점권을 부여했습니다.
This was recognized in the 1847 Code of Medical Ethics, which noted that a physician’s skills “are qualities which he holds in trust for the general good.” And our commitment to serving the larger public good played a crucial part in the professional standing that medicine first achieved during the 19th century.As Cruess and Cruess (1997) put it:“[19th-century] legal measures for the first time granted medicine a broad monopoly over health care—along with both individual [End Page 573] and collective autonomy—with the clear understanding that in return medicine would concern itself with the health problems of the society it served and would place the welfare of society above its own” (p. 943).

일차원적 사회 계약의 문제점
Problems with a One-Dimensional Social Contract

그러나 단순화된 자율성 중심적 관점에서는 의사 윤리가 변호사 윤리와 비슷한 모습을 띠게 되었습니다. 즉, 의뢰인을 열성적으로 옹호하는 것이 의사의 주된 의무가 되었습니다. 그러나 이러한 단순한 입장에 대한 실질적이고 개념적인 문제는 상당하며(Sage 1999), 오늘날에도 계속되고 있습니다. 
Under a simplified, autonomy-centric view, however, physician ethics came to look something like lawyerly ethics. Namely, zealous advocacy for one’s client became the primary, if not only, duty of the physician. But the practical and conceptual problems with such a simplistic stance are substantial (Sage 1999), and they are playing out today.

가장 큰 문제는 열성적인 옹호자가 상대 변호사와 판사 역할을 동시에 할 수 없다는 것입니다. 그러나 의학에서는 법률 시스템과 달리 상대편 변호인이 없습니다. 설령 있다고 하더라도 의사의 주장과 더 큰 공동체를 위한 가상의 옹호자의 주장을 비교 검토할 공정한 판사도 없습니다. 열성적인 옹호가 의사의 유일한 윤리적 책임으로 작동하고 개인과 공동체의 요구가 충돌할 때 공정한 결과를 도출하려면 의사가 항소해야 하고 의사가 최종 결정권을 갖지 않는 시스템이 마련되어야 할 것입니다
The main problem is that a zealous advocate cannot also serve as the opposing counsel and the judge. But in medicine, unlike in the legal system, there is no opposing counsel. And even if there were, there is no impartial judge to weigh the physician’s arguments against those of this hypothetical advocate for the larger community. To make zealous advocacy work as the physician’s sole ethical responsibility, and to produce just outcomes when the needs of individuals and communities came into conflict, there would need to be a system in place to which the physician would have to plea—and in which the physician would not have the final word.

이 시나리오는 대부분의 의사에게 그다지 매력적이지 않습니다. 적대적 의료 시스템은 환자와 의사 모두에게 매우 비효율적이고 불만스러울 것입니다. 하지만 의사들이 일차원적인 옹호 역할만을 고집한다면 반드시 진화해야 합니다. 실제로 오늘날 우리는 의료 결정에 대한 통제권을 의료 보험사와 구매자에게 넘기고, 의사와 환자는 이에 항의해야 하는 그런 시스템을 개발하고 있습니다. 
This scenario is not very appealing to most physicians. An adversarial medical care system would be profoundly inefficient and frustrating for patient and doctors alike. Yet it is what must evolve if physicians insist on adopting a one-dimensional advocacy role. And indeed, we are developing just such a system today, with control over medical decisions devolving to health plans and purchasers, to which physicians and their patients must plea.

간단한 계약, 복잡한 문제
Simple Contract, Complex Problems

환자 개개인에 대한 옹호만을 기반으로 하는 이 새로운 사회 계약은 다른 파급 효과도 있습니다. 예를 들어, 전문직 폐쇄성이 약화됩니다. 기존의 전문직 표준에 따라 자격을 갖추지 못했지만 자율성 중심의 사회 계약이 장려하는 시장의 지시에 따라 자유롭게 진료할 수 있는 새로운 의사 그룹이 생겨납니다. 아직 거기까지는 이르지 못했지만, 누구나 간판을 걸고 자신을 "의사"라고 부를 수 있었던 1847년 이전의 시대로 서서히 회귀하고 있습니다. 
This new social contract, based only on advocacy for individual patients, has other ramifications as well. For instance, professional closure weakens. New groups of practitioners arise, unqualified according to the old professional standards but free to practice according to the dictates of the market that an autonomy-centric social contract promotes. We are not there yet, but we are experiencing a slow reversion towards the days before 1847, when anyone could hang a shingle and call themselves a “doctor.”

또한 직업적 자율성이 무엇을 의미하는지에 대한 장기적인 논쟁에서 단순화된 사회 계약 직업적 자율성을 진료 기준을 설정하고 시행함으로써 집단이 자율적으로 규제할 수 있는 권리가 아니라 개별 의사가 개인의 선호에 따라 환자를 치료할 수 있는 권리로 재정의하려는 사람들에게 결정적으로 유리하게 작용할 수 있습니다. 
Also, in the long-running dispute over what professional autonomy means, a simplified social contract decisively tilts the playing field towards those who would redefine professional autonomy to mean the right of individual doctors to treat patients according to individual preference, rather than the right of the group to self-regulate by setting and enforcing practice standards. [End Page 574]

계약의 주체가 집단에서 개인으로 바뀌면서 윤리 강령에서 벗어나 개인 덕목의 윤리로 회귀하고 있습니다. 덧붙여 말하자면, 미덕은 오랜 기간에 걸쳐 규칙을 주의 깊게 준수하여 뿌리내릴 때까지 습관화되는 것이라고 믿었던 아리스토텔레스의 '미덕'과 혼동해서는 안 됩니다. 오늘날 의과대학의 윤리 과목은 의사가 공유된 행동 표준에 구속되어 있으며, 학생들이 이러한 행동 표준이 습관화될 때까지 수용해야 한다는 점을 강조하기보다는, 학생들이 스스로 생각할 수 있도록 훈련하는 데 중점을 두는 경향이 있습니다. 물론 이는 칭찬할 만한 일이며 전문가 집단 사고에 제동을 거는 데 필요한 일이지만, 각 개인의 분석에 전적으로 의존해야 한다고 생각하기는 어렵습니다. 이러한 의존은 일부 의사들이 정당화할 수 있다고 믿는 잘못된 행동을 취하도록 이끌고, 다른 의사들은 허용 가능한 행동에 대해 매우 다른 이해를 가지고 시작하게 될 것입니다. 구어체로 표현하자면, 윤리적 분석을 가르친 다음 전문직업성을 유지하기 위해 '레드 페이스 테스트'에 의존하는 것의 문제점은 어떤 사람들은 쉽게 부끄러워하지 않는다는 것입니다. 때로는 명확한 규칙과 이를 준수해야 한다는 의미 있는 의무를 부여하는 것이 더 나을 수도 있습니다. 
As the contract devolves away from groups and towards individuals, there has been a reversion away from codes of ethics and back towards an ethics of individual virtue. Incidentally, this is not to be confused with “the virtues” à la Aristotle, who believed virtue to be habitual and based upon carefully following rules over a long period of time, until they become ingrained. Rather than emphasizing that physicians are bound by a shared set of behavioral standards, which students should embrace until they become second nature, ethics courses in medical schools today tend to focus on training students to think things through for themselves. This, of course, is laudable and a necessary brake against professional group-think, but it’s hard to believe we should depend completely on each individual’s analysis. Such reliance will predictably lead some physicians to take wrong actions that they believe they can justify, and others will start out with a very different understanding of acceptable actions. To put this in colloquial terms: the problem with teaching ethical analysis and then relying on the “red-face test” to maintain professionalism is that some people don’t embarrass easily. Sometimes, we’d be better off with clear rules and a meaningful obligation to follow them.

마지막으로, 1차원적이고 개인에 초점을 맞춘 계약으로 인해 미묘하고 집단 지향적인 기존의 사회적 계약을 작성하고 시행했던 AMA와 같은 조직에 대한 필요성이 덜 인식되고 있습니다. 이것이 AMA 회원 문제의 유일한 원인은 아니지만, 부정적인 회원 이탈의 핵심적인 부분입니다. 아이러니하게도 개업 의사들로 구성된 AMA 회원들은 대부분 단순화된 사회 계약에 동의했고, 이로 인해 협회 자체의 중요성이 줄어들었습니다. 의사들 사이에서 위상이 떨어지면서 회원 수와 사회적 명성이 떨어졌고, 의료 환경에 영향을 미칠 수 있는 능력도 감소했습니다. 더 많은 의사들이 협회의 제한된 역할에도 불구하고 협회가 비효율적이라고 생각하게 되면서 협회를 탈퇴하는 의사들이 늘어났습니다. 이러한 상황에 직면한 조직 리더는 절망에 빠지기 쉽고, 남은 구성원들을 만족시킬 방법을 찾게 됩니다. 이들을 만족시키기 위해 노력하다 보면 의료에 대한 사회적 계약을 작성하고 모든 의사가 이를 준수하도록 하는 AMA의 핵심 사명에서 더욱 멀어져 주변부에 있는 사람들을 더욱 소외시키기 쉽습니다. 
Finally, with a one-dimensional, individually focused contract, there is less perceived need for organizations like the AMA that wrote and enforced the old, more nuanced and group-oriented, social contract. This is hardly the only cause of the AMA’s membership woes, but it is a key part of a negative membership spiral. Ironically, AMA members—comprising practicing physicians—largely bought into the simplified social contract, in which the association itself became less important. With its loss of stature among physicians came losses in membership and social prestige, and a reduced ability to influence the environment of medical practice. Then, more doctors chose to abandon the organization, because it came to be seen as ineffectual even in its more limited role. Organizational leaders facing such a situation can easily become desperate, casting about for ways to please the remaining members. In their efforts to serve them, it is easy to further alienate those on the margins, by moving even further from the core mission around which the AMA was created: writing the social contract for medicine and ensuring that all physicians are living up to it.

전문과목 협회는 상대적으로 동질적인 회원을 위한 협상에 더 집중할 수 있기 때문에 AMA의 권한을 일부 물려받아 독자적인 사회 계약을 수립하려고 노력해 왔으며, 어느 정도 성공을 거두었습니다. 그러나 안타깝게도 이러한 노력은 종종 전문직의 분열을 심화시키고 내부 갈등을 빈번하게 발생시키는 결과를 초래합니다. 전문직 커뮤니티의 결속력이 약해지면 전문직의 사회적 자본, 회복력, 효율성도 떨어집니다. 
Specialty associations have tried to inherit some of the AMA’s power to establish their own, independent social contracts with some success, since they can better focus on negotiating for a relatively homogeneous membership. Sadly, however, these efforts often result in the increasing fragmentation of the profession and frequent episodes of internecine conflict. As cohesion in the professional community declines, so does professional social capital, resilience, and effectiveness. [End Page 575]

이제 어디로 가야 할까요?
Where to Go from Here?

최근의 역사와 현재의 추세를 고려할 때, AMA가 사라진다고 해서 눈물을 흘리는 의사는 상대적으로 적을 것으로 보이지만, 그 자리를 대신할 대체 조직이 제안되지 않고 있기 때문에 모든 의사를 위한 국가 협회가 없는 것이 대안이 될 수 있습니다. 우리 대부분은 직관적으로 '각자도생'이 직업을 유지하기 위한 확고한 기반이 될 수 없다는 것을 알고 있을 것입니다. "모든 전문 분야가 각자의 전문 분야"도 그다지 좋지 않습니다. 요컨대, 통합된 전문가 협회가 없다면 우리는 직업을 가질 수 없습니다. 
Given recent history and current trends, it seems that relatively few physicians might weep over the passing of the AMA, but since no alternative organization is being proposed to take its place, the alternative is to have no national association for all physicians. Most of us probably know, intuitively, that “every one for oneself ” is not a solid basis on which to maintain a profession. “Every specialty for itself ” isn’t much better. In short, without a unified professional association we cannot have a profession.

새로운 세기의 도전에 대응하기 위해 의학의 사회적 계약을 재건할 수 있을까요? 과학에 대한 우리의 헌신을 유지하면서 사회에 대한 봉사, 예술적 실천, 겸손, (원래의 의미에서) 직업적 자율성의 의무를 회복하고 강화하면서 의학의 새로운 진보적 시대를 만들 수 있을까요? 이 과제를 달성하는 데 도움이 되도록 AMA와 같은 오래된 기관을 재활할 수 있을까요? 
Can we rebuild medicine’s social contract to meet the challenges of the new century? Can we create a new progressive era for medicine, retaining our commitment to science while building back in and reinforcing our obligations of service to society, artful practice, humility, and professional autonomy (in its original sense)? Is it possible to rehabilitate old institutions, such as the AMA, to help accomplish this task?

오늘날 우리는 1847년과 같은 사회 계약을 원하지도, 필요로 하지도 않습니다현대의 사회 계약은 자원 분배, 품질 측정, 의료 시스템 내 다양한 주체들의 상호 작용에 훨씬 더 많은 관심을 기울여야 합니다. (더 이상 환자와 의사뿐만 아니라 구매자, 규제 당국, 기타 의료 종사자들도 계약에 참여해야 합니다.) 실제로 이러한 아이디어는 미국 의학협회(AMA)에서도 주목을 받고 있습니다(윤리적 힘 프로그램 2008).
We don’t want or need the same social contract today that we developed in 1847. A contemporary social contract should focus far more attention on matters of resource distribution, quality measurement, and the interactions of the various players in the health-care system. (It’s not just patients and doctors anymore: purchasers, regulators, and other practitioners must be brought into the contract.) And, in fact, these ideas are gaining traction within the AMA (Ethical Force Program 2008).

그러나 많은 진보적인 의사들은 AMA가 실제로 어떻게 작동하는지에 대해 거의 알지 못함에도 불구하고 AMA와 그 발전 가능성에 대한 희망을 잃었습니다. 제 생각에 AMA의 종말에 대한 소문은 시기상조입니다. 전문직 협회의 근본적인 역할은 전문직에 대한 사회적 계약을 작성하는 것입니다. 우리가 선택할 수 있는 방법은 여러 단체가 각 전문 분야별로 서로 다른 사회 계약을 통해 이 임무를 수행하도록 하거나, 또는 모든 의사를 위한 통일된 사회 계약을 맺는 것입니다. 후자를 선호하는 데에는 충분한 이유가 있습니다. 
Many progressive physicians, however, have lost hope for the AMA and its capacity for evolution, even though most know little of how the AMA actually works. In my view, rumors of the AMA’s demise are premature. The fundamental role of professional associations is to write the social contract for the profession. Our options are to have multiple organizations perform this task—with different social contracts for each specialty—or to have a uniform social contract for all physicians. There are good reasons to favor the latter.

둘째, AMA가 이 작업에 계속 참여하고 있으며, 불완전하지만 작동하는 프로세스가 전반적으로 상당히 견고하다는 점입니다. AMA는 모든 주요 전문 분야와 모든 주에서 대표를 선출하는 대의민주주의입니다. 당연히 민주적 구조는 관련된 사람들의 다수의 생각을 반영합니다. 따라서 의사라는 직업, 특히 AMA는 포고 문제에 직면해 있습니다. 즉, 우리는 적을 만났고 그 적은 바로 우리 자신입니다. 
Second, the AMA remains engaged in this task, and the process through which it works (though imperfect), is, on the whole, fairly solid. The AMA is a representative democracy, with representatives from all major specialties and every state. Naturally, democratic structures reflect the majority thinking of those who are involved. So the profession of medicine, and the AMA in particular, faces something of a Pogo problem: we have met the enemy . . . and he is us.

마지막으로, 미국 의학은 민주주의 사회 내에 존재합니다. 의사들은 사회 계약을 수립할 때 혼자서 하는 것이 아니라 다양한 커뮤니티와 끊임없이 협상합니다. 이러한 협상은 종종 민주적인 절차를 통해 이루어지며, 전문직 협회는 의료계의 목소리를 공공 정책 토론에 투영할 수 있는 수단입니다. 특정 의사가 미국 의학의 목소리나 내용이 마음에 들지 않는다고 해서 협회를 떠나는 것만으로는 충분하지 않습니다. 오슬러가 이해한 바와 같이, 참여하여 그 목소리가 말하는 내용이나 말하는 방식을 바꾸도록 도와야 할 직업적 의무가 있습니다

Finally, American medicine exists within a democratic society. Physicians are not alone in establishing our social contract, we do so in constant negotiation with various communities. Often, these negotiations take place through democratic processes, and our professional associations are the means we have of projecting the voice of medicine into public policy debates. If certain physicians don’t like the tenor or content of the voice of American medicine, it is not enough to leave. There is, as Osler understood, a professional obligation to be engaged and help change what the voice is saying or how it is being said. [End Page 576]

그럼에도 불구하고 우리 중 일부는 지난 40년 동안 정치적 양극화에 익숙해졌습니다. 어떤 사람들은 조직화된 의학이 기업의 이해관계에 너무 얽매여 있고, 정당에 너무 집착하며, 지나치게 반응적이라서 구원의 여지가 없다고 생각할 수도 있습니다. 그 결과, AMA는 조직화된 의학에 대해 너무 냉소적이어서 적어도 때때로 자신의 가치를 반영하고 전문직이 공공 서비스를 지향하는 데 도움이 될 수 있는 진화한 AMA를 상상할 수 없는 두 세대 이상의 의사 중 많은 부분을 잃었을 수 있습니다. 안타깝게도 제 경험상 많은 학계 의학 리더들이 - 비록 마음은 진보적이고 일반적으로 권한 부여에 대한 감각이 부족하지는 않지만 - 이런 입장에 처해 있습니다. 그들은 AMA와 그 변화의 능력, 또는 변화를 도울 수 있는 능력에 대해 뿌리 깊은 냉소주의를 가지고 있습니다. 
Nevertheless, some of us have become inured to political polarization over the last 40 years. Some might see all of organized medicine as beyond redemption —too much in hock to corporate interest, too attached to a political party, too reactive. As a result, the AMA might have lost large segments of two or more generations of physicians, who are so cynical about organized medicine that they cannot imagine an evolved AMA, one that might (at least sometimes) reflect their values and help orient the profession towards public service. Sadly, in my experience many leaders of academic medicine—though progressive at heart and generally not lacking a sense of empowerment—are in this position. They hold a deep-seated cynicism about the AMA and its ability to change—or their ability to help change it.

이러한 리더들을 포기해서는 안 됩니다. 그들의 기술과 지식은 매우 귀중할 수 있기 때문입니다. 하지만 동시에 아직 냉소적인 태도를 취하지 않은 젊은 전문가들을 직접 참여시켜야 합니다. 젊은 의사들 사이에서 활동주의가 증가하고 있으며, AMA 회원 가입률도 증가하고 있지만, 시니어 의사들 사이에서 활동주의는 계속 감소하고 있습니다. 작년에 40세 미만 의사의 AMA 회원 수는 2.2% 증가한 반면, 40세 이상 의사의 회원 수는 2.8% 감소했습니다(Julie Gill, AMA 회원 및 마케팅, 개인 커뮤니케이션, 2008년 5월 15일). 아마도 우리가 일부 의료계 지도자들에게 기대할 수 있는 최선은 당황한 침묵일 것이며, 그 밑에 있는 젊은 진보주의자들은 의료계의 사회적 계약에 활력을 불어넣기 위해 전문직 협회를 활용하는 방법을 배울 것입니다. 

We should not give up on these leaders: their skills and knowledge can be invaluable. At the same time, though, we need to directly engage young professionals who haven’t yet adopted this cynical attitude. Activism among young physicians is rising, as is AMA membership, even while it continues to fall among more senior members of the profession. In the last year, membership in the AMA among physicians under 40 rose 2.2%, while membership among those older than 40 fell 2.8% (Julie Gill, AMA Membership and Marketing, personal communication, May 15, 2008). Perhaps the best we can hope for from some medical leaders will be a bemused silence, as the young progressives under them learn how to use our professional association to reinvigorate the social contract of the medical profession.

 


Perspect Biol Med. 2008 Autumn;51(4):565-78. doi: 10.1353/pbm.0.0051.

The short history and tenuous future of medical professionalism: the erosion of medicine's social contract

Affiliation

1The Institute for Ethics, American Medical Association, 515 North State Street, Chicago, IL 60610, USA. matthew.wynia@ama-assn.org

PMID: 18997359

DOI: 10.1353/pbm.0.0051

Abstract

The profession of medicine is based on a shared set of tacit and explicit agreements about what patients, doctors, and society at large should be able to expect from each other, a social contract that defines the profession. Historically, the development of this set of agreements depended upon the creation of social organizations that could speak for the entire profession. Over the last several decades, however, the perceived need for these organizations, and especially the umbrella organization for the profession, the American Medical Association, has waned. The reasons for this are complex, but the consequences are significant: an eroding social contract, fragmentation, lack of cohesion and integrity, and loss of the public's confidence. The present social contract is one-dimensional, overly simplistic, and failing to sustain the public's trust. To address these problems, a renewed social contract is necessary. Although this renewed contract should be based on foundations similar to the original, it must directly confront such contemporary challenges as resource allocation and conflicts of interest. Equally as important, to reinvigorate our social contract more physicians will need to come to grips with a basic truth: to sustain professionalism we need a strong, unified professional association.

의료 윤리학을 가르치기 위한 임상 사례활용의 열두가지 팁(Med Teach, 2018)
Twelve tips for using clinical cases to teach medical ethics
Hongmei Dong, Renslow Sherer, Jon Lio, Ivy Jiang and Brian Cooper

소개
Introduction

의과대학의 의료윤리 커리큘럼은 학생들에게 윤리의 원칙윤리적 분석 및 추론에 대한 접근법을 모두 가르쳐야 합니다(Manson 2008; Alfandre and Rhodes 2009). 교육 방법과 관련해서는 주로 대그룹 강의와 임상 사례에 대한 소그룹 토론을 결합한 방법을 사용해야 한다는 데 의견이 일치하고 있습니다(Eckles 외. 2005). 일반적으로 강의와 독서가 이론적 내용을 가르치는 데 효율적인 방법이지만, 윤리적 사고와 의사 결정에 대한 접근 방식은 학생들이 반복적으로 실습할 수 있는 임상 사례 토론을 통해 더 잘 습득할 수 있습니다(Gillon 1996). 
A medical ethics curriculum in medical schools should teach students both principles of ethics and approaches to ethical analyses and reasoning (Manson 2008; Alfandre and Rhodes 2009). Regarding teaching methods, the consensus is to use the combination of methods, mainly large group lecture and small-group discussions of clinical cases (Eckles et al. 2005). While lectures and readings are generally efficient ways of teaching theoretical content, approaches to ethical thinking and decision making are better acquired through clinical case discussions that allow students repeated opportunities to practice (Gillon 1996).

사례는 의대생이 윤리에 주의를 기울여 임상적 사고를 연습할 수 있는 실제 임상 상황을 제시합니다. 사례 분석은 의학의 도덕적 측면에 대한 민감성을 가르치고, 원칙을 의료행위에 적용하는 방법을 보여주며, 의사가 책임감 있는 도덕적 주체로서 행동하는 모습을 보여줍니다(Goldie 2000). 이전 연구에 따르면 사례 기반 윤리 교육은 윤리적으로 복잡한 사례를 분석하고 관리하는 학습자의 능력을 크게 향상시킬 뿐만 아니라(Tolchin 외. 2015), 의료 직업에 대한 학생들의 규범적 동일시를 개발하는 데 강의보다 더 효과적이라는 것이 입증되었습니다(Goldie 외. 2001). 그룹 학습 맥락에서 사례 토론은 임상 및 기타 전문 지식을 갖춘 진행자의 지원을 받을 때 학생들이 사례의 윤리적 딜레마를 해결하는 데 참여하게 합니다(Tysinger 외. 1997). 
Cases present authentic clinical contexts where medical students practice clinical thinking with attention to ethics. Case analysis teaches sensitivity to the moral aspects of medicine, illustrates the application of principles to medical practice and shows doctors acting as responsible moral agents (Goldie 2000). Previous studies have demonstrated that case-based ethics teaching not only significantly improves learners’ ability to analyze and manage ethically complex cases (Tolchin et al. 2015) but also has proven to be more effective than lecture in developing students’ normative identification with the medical profession (Goldie et al. 2001). In the group learning context, case discussion engages students in resolving the cases’ ethical dilemmas when supported by facilitators with clinical and other expertise (Tysinger et al. 1997).

이 글에서는 소그룹 사례 토론 접근법을 사용하여 학생들에게 의료 윤리를 가르치는 방법에 대한 12가지 팁을 설명합니다. 의과대학 커리큘럼에서 의료 윤리를 설계한 경험과 의료 윤리의 교육 및 적용과 관련된 문헌을 바탕으로 이러한 아이디어를 도출했습니다. 
In this article, we describe 12 tips on how to use the small-group case discussion approach to teach students medical ethics. We have drawn on our experience in designing medical ethics in a medical school curriculum and on literature related to the teaching and application of medical ethics to produce these ideas.

팁 1
Tip 1

사례 토론을 코스 목표에 맞추기
Align case discussions with course objectives

사례 개발은 윤리 코스에서 다루는 주제와 연계되어야 하며, 사례는 코스 목표를 다루어야 합니다. 사례 토론은 강의, 읽기, 과제 및 기타 형태의 교수법을 사용하는 윤리 코스의 구성 요소이며, 이 모든 것이 코스의 명시된 목표에 맞게 조율되고 조정되어야 합니다. 또한 각 사례에는 관련 코스 목표에서 파생되고 긴밀하게 연결되어 있어야 하는 명확한 학습 목표가 있어야 합니다(Azer 외. 2012). 사례 토론은 관련 강의와 관련 읽기 과제를 완료한 후에 진행되며, 강의와 읽기는 소그룹 토론의 배경이 됩니다. 사례 연구에는 하나 이상의 목표가 있을 수 있으며, 종종 사례가 전개됨에 따라 일련의 목표를 다룰 수 있습니다. 
Case development must be tied to the topics covered by the ethics course, as cases should address the course objectives. Case discussions are a component of the ethics course that also uses lectures, readings, assignments and other forms of teaching methods, all of which should be orchestrated and aligned with the stated objectives of the course. Each case should also have clear learning objectives that must be derived from and tightly connected to the relevant course objectives (Azer et al. 2012). Case discussion follows the relevant lectures and the completion of relevant reading assignments, with lectures and readings serving as background for the small group discussions. A case study can have more than one objective, and often a series of objectives can be addressed as the case unfolds.

소그룹 학습의 주요 목표는 개념 이해 증진, 비판적 사고 및 문제 해결력 개발, 자기 주도적 및 협력적 학습 촉진, 커뮤니케이션 기술 향상입니다. 토론 세션을 설계할 때는 학생들이 독립적으로 또는 동료들과 함께 참여할 수 있는 좋은 사례와 학습 활동을 선정하여 이러한 목표를 달성하는 것을 목표로 해야 합니다. 
The chief goals of small-group learning are to promote conceptual understanding, develop critical thinking and problem solving, foster self-directed and collaborative learning, and enhance communication skills. When designing discussion sessions, one should aim at accomplishing these goals by selecting good cases and learning activities to be engaged in by students independently and with peers.

팁 2 양질의 사례 선정 및 작성
Tip 2

Select and write up quality cases

좋은 사례의 가장 본질적인 특징은 학생들이 실제 상황에서 참여자의 역할을 맡게 하는 현실의 표현이라는 점입니다. 따라서 사례는 실제 상황이어야 하며 의사의 일상 업무의 맥락에서 설정되어야 합니다(Arras 1991; Siegler 2002). 교사가 구성한 가상 사례는 하나 또는 몇 가지 요점을 설명하기 위해 고안된 경우가 많으며 실제 사례의 복잡성이 부족할 수 있는 반면, 실제 사례는 상황과 실제 제약이 이론적 개념을 임상 상황에 적용하는 데 어떤 영향을 미치는지 보여줍니다(Miles 외. 1989). 실제 사례를 사용하는 것은 윤리적 딜레마를 관리하는 기술을 습관화하는 데에도 도움이 됩니다(Campbell 외. 2007).  
The most essential characteristic of good cases is that they are representations of reality that put students in the role of participants in authentic contexts. Thus, cases should be real and set in a context of the physician’s daily work (Arras 1991; Siegler 2002). Hypothetical cases constructed by teachers are often designed to illustrate one or a few points and may lack the complexity of actual cases, while real cases show how circumstances and practical constraint affect the application of theoretical concepts to clinical situations (Miles et al. 1989). Using actual cases also helps in the habituation of the skills for managing ethical dilemmas (Campbell et al. 2007).

좋은 사례에는 다음과 같은 주요 특징이 있습니다.

  • 첫째, 가르치는 윤리 원칙과 논의되는 사례 사이에 연결성이 있어야 윤리 원칙과 개념의 제시가 임상 사례를 조명하여 원칙의 실제적 의미를 보여줄 수 있습니다(Miles 외. 1989).
  • 둘째, 사례는 의사의 환자 진료 업무와 관련이 있어야 하며, 자주 접하는 문제와 관련되어야 합니다(Sherer 외. 2017). 흔한 문제에 대한 일상적인 사례는 드문 사례보다 의사의 업무와 관련성이 더 높기 때문에 선호됩니다. 교수진은 핵심 쟁점을 강조하고 법, 윤리, 사회학 및 다학제적 전문성의 기본 개념을 전달하기 위해 체계적으로 사례를 선택할 수 있습니다(Miles et al. 1989).
  • 셋째, 사례는 학생의 사전 지식과 교육 수준에 맞게 적절한 수준의 복잡성과 난해함을 지닌 사건을 제시해야 합니다. 적절하게 도전적인 사례는 더 높은 인지 수준에서 학생들의 토론을 자극하여 풍부한 교육적 경험을 제공합니다(Azer 외. 2012). 복잡한 뉘앙스가 제거된 사례는 윤리적 원칙을 설명하거나 좁은 요점을 제시할 수 있지만, 학생들이 환자 치료의 상황적 특성을 다룰 수 있는 능력을 갖추지 못할 수 있습니다(Miles 등, 1989).
  • 넷째, 임상 윤리를 강조하면서 인간 행동, 기초 과학, 임상의학도 사례에 포함시켜야 합니다(Tysinger 등, 1997). 실제로 윤리적 문제는 환자 치료의 다양한 측면에 내재되어 있고 얽혀 있기 때문에 의사는 다양한 종류의 문제를 동시에 해결해야 합니다. 

Good cases also have the following key characteristics.

  • First, there need to be connections between the ethics principles taught and the cases discussed, so that the presentation of ethics principles and concepts can illuminate clinical cases which in turn illustrate practical import of the principles (Miles et al. 1989).
  • Second, cases should be relevant to physicians’ work in patient care, involving often-encountered issues (Sherer et al. 2017). Routine cases on common problems are preferable to rare cases, because the former have more relevance to doctors’ work. Faculty can systematically select cases to highlight core issues and to convey fundamental concepts of law, ethics, sociology, and multidisciplinary professionalism (Miles et al. 1989).
  • Third, cases should present events with an appropriate level of complexity and perplexity that is adjusted to students’ prior knowledge and level of training. Appropriately challenging cases provide a rich educational experience by stimulating students’ discussion at a higher cognitive level (Azer et al. 2012). Cases that have been stripped of complicating nuances can illustrate ethical principles or make a narrow point but may not equip students to deal with the circumstantiality of patient care (Miles et al. 1989).
  • Fourth, while emphasizing clinical ethics, the cases need also to include human behavior, basic science, and clinical medicine (Tysinger et al. 1997). In practice, ethical issues are embedded in and entangled with various aspects of patient care, requiring the physician to solve problems of various kinds simultaneously.

팁 3 다양한 사례 사용
Tip 3

Use a variety of cases

학생들이 숙지해야 할 중요한 주제를 광범위하게 다루는 다양한 사례를 충분히 사용하는 것이 중요합니다. 그러나 주제 유형 외에도 사례를 다른 방식으로 분류할 수 있습니다. 예를 들어,

  • 어떤 사례는 일반적인 합의가 있는 윤리적 딜레마를 포함하는 반면, 어떤 사례는 논란의 여지가 있는 갈등을 포함합니다(Goldie 외. 2002).
  • 학생들이 합의가 존재하는 부분을 인식하고 정당하고 전문직의 합의에 부합하는 관리 계획을 개발하는 방법을 배우는 것이 중요합니다.
  • 동시에, "합의가 없는 문제"는 학생들에게 모든 윤리적 문제에 대해 전문직이 만장일치로 선호하거나 전문직 표준에 의해 지지되는 행동 방침이 있는 것은 아니라는 것을 보여줍니다(Goldie 외. 2002).
  • 후자의 경우, 학생들은 상충되는 원칙을 비교하고 우선순위를 부여하여 특정 행동 방침에 대해 합리적이고 윤리적으로 정당화할 수 있는 주장을 하는 방법을 배워야 합니다(Fasser 외. 2007). 

It is crucial to use a sufficient variety of cases that cover a broad range of topics that are important for students to be familiar with. In addition to topic types, however, cases can be categorized in other ways. For example,

  • some cases involve ethical dilemmas about which there is general consensus, while others involve conflicts that are controversial (Goldie et al. 2002).
  • It is important for students to be aware where consensus exists and learn how to develop a management plan that is justifiable and consistent with the consensus of the profession.
  • At the same time, the “no consensus problems” demonstrate to students that not all ethical problems will have a course of action unanimously favored by the profession or supported by professional standards (Goldie et al. 2002).
  • In this latter case, students ought to learn how to make a well-reasoned, ethically justified argument for a particular course of action by weighing and assigning priority to conflicting principles (Fasser et al. 2007).

교사가 생성한 사례와 학습자가 생성한 사례가 있습니다. 학생들이 병동에서 경험한 사례는 개인적으로 관련이 있으며 학생들에게 교사의 행동을 비판할 수 있는 기회를 제공합니다(Alyousefi 외. 2016). Carrese 등(2011)의 연구에 따르면 후배 의사들은 다양한 일반적인 윤리 문제를 자주 접하지만 교수진은 이러한 문제를 잘 파악하지 못하여 많은 교육 기회를 놓치고 있다고 합니다. Carrese 등(2011)은 학습자가 접한 사례를 교육에 사용해야 한다고 주장합니다. 그렇지 않으면 학습자는 윤리적 문제가 자신의 경험이 아닌 다른 사람의 경험이라는 인상을 가질 수 있기 때문입니다. 그러나 학생이 사례를 선택하고 발표하도록 하는 것은 사례 선택의 폭이 좁아질 위험도 있습니다(Miles 외. 1989). 따라서 교사는 사례와 개념의 적절한 폭을 보장하기 위해 교수자가 생성한 사례와 학습자가 생성한 사례를 모두 사용해야 합니다(Kon 2006). 또한 소규모 그룹으로 구성된 학생에게 자신이 경험한 사례를 분석하는 과제를 부여할 수도 있습니다. 이러한 연습은 일상적인 임상 업무에서 윤리적 문제에 대한 학생의 인식을 높이는 데 도움이 될 수 있습니다. 임상 환경에서 교수자의 행동을 조사할 수 있는 기회는 숨겨진 커리큘럼의 영향에 대한 해독제 역할을 할 수 있습니다. 
There are teacher-generated cases and learner-generated cases. Cases that students have experienced on the wards are personally relevant and give students opportunities to critique behaviors of their teachers (Alyousefi et al. 2016). Carrese et al. (2011) have found that a variety of common ethics issues are frequently encountered by junior doctors but that faculty members infrequently identify these issues and thus miss many teaching opportunities. Carrese et al. (2011) argue that learner-encountered cases should be used for teaching, for otherwise learners may have the impression that ethical issues are some other people’s experience but not theirs. However, having students select and present cases also presents the risk of narrow case selection (Miles et al. 1989). Thus teachers should employ both instructor-generated and learner-generated cases in order to ensure adequate breadth of cases and concepts (Kon 2006). Additionally, students can be given assignments where small groups of students analyze cases they have experienced. Such exercises may help increase students’ awareness of ethical issues in everyday clinical work. The opportunity of examining faculty behavior in the clinical setting can serve as an antidote to the impact of hidden curriculum.

현재 또는 최근 대중 매체에서 강조된 윤리적 딜레마도 귀중한 교육 자료가 될 수 있습니다. 이러한 사례를 활용할 때의 장점은 학생들의 높은 관심도, 다양한 의견에 대한 정보의 가용성, 윤리적 딜레마가 매우 복잡하고 논란의 여지가 있을 수 있다는 점을 인식할 수 있다는 점입니다. 예를 들어, 2016~2017년 찰리 가드 사건(Dyer 2017)은 무엇보다도 자율적이지 않은 자녀를 위해 결정을 내릴 부모의 권리와 아동의 최선의 이익에 대한 의료진의 전문적인 의견, 법원의 개입 및 공공 자원의 사용 사이의 갈등을 보여줍니다.
Current or recent ethical dilemmas highlighted in the public media are valuable teaching materials, too. Advantages in using such cases are the high level of interest on the part of students, the availability of information on differing opinions, and the awareness that ethical dilemmas can be very complex and controversial. For example, the 2016–2017 Charlie Gard case (Dyer 2017) illustrates, among other things, the conflict between the right of parents to make decisions for their non-autonomous child and the medical team’s professional opinion of the best interest of the child, the court’s involvement and the use of public resources.

팁 4 규범을 정하고 토론을 위한 가이드라인을 제공하세요.

Tip 4

Establish norms and provide guidelines for discussion

그룹 규범을 정하고 학생들에게 기대치를 명확히 제시해야 합니다. 토론 세션에 오기 전에 준비하기, 적극적으로 참여하기, 비판적으로 사고하기, 학습과 소통을 위한 긍정적인 분위기 유지하기 등의 기대치가 포함될 수 있습니다. 학생들은 그룹에서 그룹 키퍼(주제에 대한 토론을 유지하고 참여를 독려하는 등), 노트 필기 및 발표자(전체 학급에 그룹 결과를 발표하는 등) 등 다양한 역할을 번갈아 가며 수행할 수 있습니다. 
Group norms should be established and expectations made clear to students. Expectations can include:

  • be prepared before coming to discussion sessions,
  • actively participate,
  • be a critical thinker and
  • maintain a positive atmosphere for learning and communicating.

Students can take turns performing different roles in their groups, such as Group Keeper (who keeps discussion on topic, encourages participation, etc.), Note Taker and Presenter (who presents group results to the whole class).

토론 세션 며칠 전에 학생들이 준비할 수 있도록 관련 유인물을 제공해야 합니다. 유인물에는 환자의 주요 불만 사항과 간략한 배경, 병력 및 실험실 소견과 같은 기타 관련 정보를 포함하는 점진적 공개 스타일로 사례 정보를 제시해야 합니다. 학습 질문, 세션 목표, 필수 및 권장 읽을거리도 학생에게 제공해야 합니다. 다음은 학생들이 개별적으로 또는 동료들과 함께 준비할 수 있는 몇 가지 예입니다:
A number of days before a discussion session, students should receive relevant handouts so that they can prepare. The handouts should present the case information in a progressive disclosure style, covering the patient’s chief complaint and a brief background, as well as other relevant information such as history and laboratory findings. Study questions, session objectives, required and recommended readings should be given to students, too. The following are some examples of how students can prepare individually or with peers:

  • 사례를 읽고 다음과 같은 질문에 답해 보세요: 
    • 사례의 내용은 무엇인가? 
    • 사건을 해결하기 위해 어떤 정보가 제공되나요? 
    • 어떤 질문이 있는가? 
    • 상황이 제시하는 문제는 무엇인가? 
    • 의학적 문제는 무엇인가요? 
    • 윤리적 문제가 있나요? 
    • 윤리적 문제는 무엇인가요? 
    • 다른 어떤 관련 정보를 찾아야 하나요?
  • 코스에서 배운 분석 프레임워크를 사용하여 문제를 분석합니다.
  • 가능한 해결책을 제안합니다. 각 대안을 원칙에 따라 분석합니다. 가장 정당한 해결책을 선택합니다.
  • 분석의 개요를 작성하고 수업에 가져옵니다. 혼란스러웠던 것도 포함하세요.
  • Read the case and answer questions like these:
    • What is the case about?
    • What information is given to me to solve the case?
    • What questions do I have?
    • What are the issues presented by the situation?
    • What are the medical issues?
    • Are there ethical issues?
    • What are the ethical issues?
    • What other relevant information do I need to find?
  • Use the analytical framework that you have learned in the course to analyze the issues.
  • Propose possible solutions. Analyze each alternative solution against principles. Choose the best justifiable solution.
  • Write an outline of your analyses and bring to class. Include your puzzlements.

학생용 가이드에 제시된 자료가 포함된 진행자 가이드에는 세 가지 유형의 정보가 포함될 수 있습니다(Azer 외. 2012). 

  • 첫째, 사례의 초점(즉, 학습 문제)에 대한 배경 정보와 설명 노트가 있어야 합니다. 또한 이 분야의 비전문가인 퍼실리테이터에게 중요하므로 문제의 임상적 요소와 과학적 근거에 대한 설명이 있어야 합니다.
  • 둘째, 퍼실리테이터가 토론을 안내하는 데 도움이 되는 샘플 퍼실리테이션 질문이 제공될 수 있습니다. 이러한 질문은 다루어야 할 영역에 대한 가이드를 제공합니다.
  • 마지막으로, 퍼실리테이터가 사례 토론을 돕기 위해 필요한 과학 및 임상 정보를 모두 찾을 수 있도록 주요 읽을거리를 나열할 수 있습니다.

The facilitator guide, which contains materials presented in the students’ guide, can include three types of information (Azer et al. 2012).

  • First, there need be background information and explanatory notes on the focus (i.e. the learning issues) of the case. There also need to be explanations of the clinical elements and scientific basis of the problem as this will be important for non-expert facilitators in this discipline.
  • Second, sample facilitating questions can be given to help the facilitator guide discussions. These questions provide a guide as to the areas that should be addressed.
  • Finally, key readings can be listed so that facilitators can seek out both the science and clinical information that they may need in preparation for aiding the case discussion.

팁 5 다분야 퍼실리테이터 팀 구성하기
Tip 5

Build a multidisciplinary facilitator team

의료 윤리는 다학제적 분야이며 윤리 교육의 사회적, 법적, 임상적, 의사소통적 측면을 고려할 때 다양한 의료 및 비의료 전문가로 구성된 다학제적 교수진이 필요합니다(Eckles 외. 2005). 학자들은 오랫동안 윤리학자-철학자-의사로 구성된 다학제적 팀이 의료 윤리를 가르쳐야 한다고 주장해 왔으며(Siegler 1978; Walker 외. 1989), 학생들은 윤리학자와 임상의가 윤리 과목을 공동으로 가르치는 것을 선호하는 것으로 나타났습니다(Howe 1987). 다학제적 토론 촉진자 팀은 의사, 철학자, 환자, 가족, 간호사, 심리학자, 정책을 다루는 행정가, 변호사 및 기타 전문가 등 다양한 전문 지식을 학생들에게 제공하여 윤리 교육이 다양한 관점과 실제 적용을 결합할 수 있도록 할 수 있습니다.

Medical ethics is a multidisciplinary field, and the social, legal, clinical, and communicative aspects of ethics education require a multidisciplinary faculty consisting of a variety of medical and non-medical professionals (Eckles et al. 2005). Scholars have long argued that a multidisciplinary team of ethicist–philosophers and physicians should teach medical ethics (Siegler 1978; Walker et al. 1989), and students have been found to prefer having both ethicists and clinicians co-teach their ethics course (Howe 1987). A multidisciplinary team of discussion facilitators can provide students with varied sources of expertise – those of the physicians, philosophers, patients, families, nurses, psychologists, administrators dealing with policies, lawyers, and other professionals – to ensure that ethics education combines multiple perspectives with practical application.

특히 중요한 것은 전문직 가이드라인과 의료법에 대한 학생들의 인식입니다. 윤리적 행동에 대한 가이드라인은 미국의사협회(Snyder 2012) 및 영국의사협회(BMA 2017)와 같은 의사 전문 협회에서 제정합니다. 윤리의 많은 주제에는 법적 의미도 포함되어 있습니다(Jonsen 외. 2015). 따라서 윤리 사례 토론에서 임상의, 윤리학자 및 변호사는 학생들이 임상 딜레마의 윤리적 및 법적 변수를 모두 고려하도록 안내해야 합니다. 예를 들어, 장애가 있는 의사와 관련된 사례에 대해 토론할 때 학생들은 장애가 있는 동료를 적절한 기관에 신고해야 하는 의사의 윤리적 의무(Snyder 2012)와 이에 대한 법적 책임에 대해 알게 될 수 있습니다. 
Of particular importance is students’ awareness of professional guidelines and medical law. Guidelines of ethical behavior are established by physicians’ professional associations such as The American College of Physicians (Snyder 2012) and The British Medical Association (BMA 2017). Many topics in ethics have legal implications as well (Jonsen et al. 2015). Hence, in ethics case discussions, clinicians, ethicists and lawyers should guide students to consider both the ethical and the legal parameters of a clinical dilemma. For example, when discussing a case involving an impaired physician, students can become aware of a doctor’s ethical duty to report the impaired colleague to an appropriate authority (Snyder 2012) as well as his or her legal responsibility to do so.

팁 6 사례 분석을 위한 프레임워크 교육
Tip 6

Teach frameworks for case analysis

윤리적 의사 결정에는 체계적인 접근 방식이 필요합니다. 임상 환경의 윤리적 문제는 복잡하고 축소하기 어렵지만, 우리는 학생들에게 윤리적 분석을 위한 구조화된 방법인 지침의 틀을 제공할 수 있습니다(Enck 2014). 구조화된 접근법을 사용한 추론은 학생들이 다음의 능력을 습득하는 데 도움이 됩니다.

  • 윤리적 문제를 식별하고, 
  • 어떤 윤리적 원칙이 관련성이 있는지, 충돌하는 부분이 있는지 판단하고, 
  • 임상적 결정에 도달하고, 
  • 결정을 정당화하는

연구에 따르면 윤리 워크업을 위한 프레임워크는 사례 분석에 유용한 도구가 될 수 있습니다(Fasser 외. 2007). 그들의 연구 결과를 바탕으로 Alfandre와 Rhodes(2009)는 알고리즘을 사용하면 학생들의 사고를 자극하고 평가에 필요한 모든 세부 사항을 고려할 가능성이 높아지며, 사고 과정에 대한 구조가 있으면 의사의 행동 이유가 투명하고 명확해져 환자 및 동료와 더 명확하게 소통하고 의료 기록에 더 명확하게 기록할 수 있다고 주장했습니다.
Ethical decision making requires a systematic approach. Although ethical issues in clinical settings are complex and resistant to reduction, we can provide students with a framework for guidance, a structured method for ethical analysis (Enck 2014). Reasoning using a structured approach helps students acquire the ability to

  • identify ethical issues,
  • determine which ethical principles are relevant and where they clash,
  • arrive at clinical decisions and
  • justify their decisions.

Studies indicated that frameworks for ethics workup can be a helpful tool for analyzing cases (Fasser et al. 2007). Based on their study’s findings, Alfandre and Rhodes (2009) argued that using an algorithm prompts students’ thinking and increases the likelihood that they will consider all the necessary details in the evaluation and that having a structure for the thought process ensures that the physician’s reasons for acting are transparent and explicit, which is likely to result in clearer communication with patients and colleagues and clearer documentation in medical records.

칼지안 외(2005)는 윤리적 분석에 대한 체계적인 전략은 초기 문제의 진술, 데이터 수집, 감별 진단, 정당한 계획의 명료화 등 임상적 추론 과정과 궤를 같이하기 때문에 윤리를 임상적 추론의 패러다임 안에 위치시킨다고 제안합니다. 또한, 이 전략은 윤리적 문제가 미리 진단되는 것이 아니라 평가 과정을 통해 드러난다는 점을 인식한다고 주장합니다.  
Kaldjian et al. (2005) suggest that a systematic strategy to ethical analysis situates ethics within the paradigm of clinical reasoning, because the trajectory of the strategy parallels the clinical reasoning process: a statement of the initial problem, gathering of data, a differential diagnosis, and articulation of a justified plan. Furthermore, they argue, this strategy recognizes that ethical problems do not arrive pre-diagnosed but emerge through a process of assessment.

윤리적 의사결정 모델의 몇 가지 예는 다음과 같습니다: 마이서 외(1995), 칼지안 외(2005), 알판드레와 로즈(2009), 엔크(2014), 존슨 외(2015). 윤리 원칙을 실제 문제에 적용하는 방법을 제공하며 윤리적 사례뿐만 아니라 모든 임상 사례에 사용할 수 있는 Jonsen 등(2015)의 "4가지 주제" 접근법을 적극 권장합니다. 각 임상 사례에 대한 정보는 네 가지 주제로 구성됩니다:

  • (1) 의학적 적응증(진단, 예후, 치료, 치료 목표, 환자에게 이익이 될 가능성),
  • (2) 환자 선호도(환자의 가치관에 따른 목표와 혜택 및 부담에 대한 평가),
  • (3) 삶의 질,
  • (4) 맥락적 특징(사례가 발생하는 사회적, 경제적, 법적, 제도적 맥락).

모든 사례에서 동일한 순서를 따라야 합니다. 이 프레임워크는 윤리적 문제를 식별하고 분석하는 체계적인 방법을 제공하며, 사건을 통해 합리적인 해결책을 찾을 수 있도록 안내합니다. 
Some examples of ethical decision-making models are described by the following: Myser et al. (1995), Kaldjian et al. (2005), Alfandre and Rhodes (2009), Enck (2014) and Jonsen et al. (2015). We highly recommend the very popular “four topics” approach by Jonsen et al. (2015) that provides a way for applying ethics principles to practical issues and can be used not only for ethical cases but also for any clinical encounter. For each clinical case, information is organized into four topics:

  • (1) medical indications (diagnosis, prognosis, treatment, goals of care, possibilities of benefiting the patient);
  • (2) patient preferences (the patient’s goals based on his or her values and assessment of benefits and burdens);
  • (3) quality of life; and
  • (4) contextual features (the social, economic, legal, and institutional contexts where the case occurs).

The same order should be followed in all cases. This framework provides a systematic method of identifying and analyzing ethical problems and guides thinking through the case to a reasonable resolution.

팁 7 "패러다임적 사례" 강조하기
Tip 7

Emphasize some “paradigmatic cases”


패러다임적 사례의료 윤리 원칙의 핵심 요소를 드러내는 실제 이전 사례입니다. 이러한 사례는 새로운 상황에 직면했을 때 '유추에 의한 추론'을 위해 의지하는 인지적 닻 역할을 할 수 있습니다. 칼지안 외(2005)는 이렇게 썼습니다,
Paradigmatic cases are actual, previous cases that reveal key elements of the principles of medical ethics. Such cases can serve as cognitive anchors that we turn to for “reasoning by analogy” when we are faced with a new situation. Kaldjian et al. (2005) wrote,

비교 가능한 사례를 참조할 때 우리는 유추를 통해 추론합니다. 이러한 종류의 사례 기반 추론은 임상 의학에서 일상적이며, 미지의 사례를 이전에 접한 사례와 비교하는 의사의 습관을 반영합니다. 윤리학에서 우리는 현재 사례를 비교하는 패러다임적 사례를 알고 있을 수 있습니다. 추론은 더 명확한 사례의 상황과 결론에서 덜 확실한 사례의 상황으로 진행됩니다. (p.309)
When referring to comparable cases, we reason by analogy. This kind of case-based reasoning is routine in clinical medicine and reflects the physician’s habit of comparing an unknown case to cases previously encountered. In ethics, we may be aware of paradigmatic cases … against which we compare a present case. Reasoning proceeds from the circumstances and conclusions of a clearer case to the circumstances of a less certain one. (p.309)

임상윤리학(Jonsen 외, 2015)에서는 4가지 임상 사례가 책 전체에 걸쳐 주요 사례로 등장하여 다양한 상황에서 치료의 목표가 달성되는 방식을 설명합니다. 본문이 진행됨에 따라 다양한 요점을 설명하기 위해 네 가지 사례의 세부 사항이 때때로 변경됩니다. 이 책에는 다른 많은 사례들이 포함되어 있지만, 특히 이 네 가지 사례는 정교하게 활용되어 학생들에게 깊은 인상을 남기며, 향후 실무에서 '패러다임'을 제시할 수 있기 때문에 특히 중추적인 역할을 할 수 있습니다. 마찬가지로, 윤리 강의에서는 학생들이 윤리적 원칙의 핵심 요소를 드러내는 몇 가지 주요 사례를 채택하여 학생들이 그 사례와 예시된 개념에 익숙해질 때까지 반복적이고 심도 있는 토론을 진행할 수 있습니다. 
In Clinical Ethics (Jonsen et al. 2015), four clinical cases reappear throughout the book as major examples to illustrate the ways in which the goals of care are achieved in different circumstances. As the text proceeds, details of the four cases are occasionally changed to illustrate various points. Although the book contains many other case examples, these four may be especially pivotal as their elaborated use leaves a deep impression on students, who may find these cases “paradigmatic” in their future practice. In the same way, an ethics course can adopt several major cases that reveal key elements of ethical principles for repeated and in-depth discussion until students are familiar with them and with the concepts illustrated.

팁 8 학생들의 실무 능력과 비판적 사고력 개발에 집중하기
Tip 8

Focus on students’ development of practical skills and critical thinking ability

사례 토론은 의료 윤리에 대한 학생의 개념적 이해를 높이는 것 외에도 다음과 같은 의사로서 필요한 일련의 실용적 기술을 개발하는 것을 목표로 해야 합니다:

  • (1) 윤리적 상황에 대한 민감성,
  • (2) 사례와 관련된 윤리적 문제 또는 쟁점 파악하기,
  • (3) 주어진 정보의 유용성과 중요성 인식하기,
  • (4) 필요한 정보가 누락된 것을 판단하기,
  • (5) 추가 정보를 찾는 방법 알기,
  • (6) 분석 틀을 사용하여 복잡한 상황을 사고하기,
  • (7) 정당한 행동 계획 수립 및 대안 파악하기,
  • (8) 윤리적 상황을 해결하는 행동 방침 선택하기,
  • (9) 환자 및 동료와 의사소통하기,
  • (10) 자기 성찰하기 

In addition to enhancing students’ conceptual understanding of medical ethics, case discussions should aim at students’ development of a set of practical skills that they will need as physicians, including:

  • (1) a sensitivity to ethical situations,
  • (2) identifying the ethical issue or issues involved in the case,
  • (3) recognizing the usefulness and significance of given information,
  • (4) determining what necessary information is missing,
  • (5) knowing how to find additional information,
  • (6) using analysis framework to think through complex situations,
  • (7) devising justifiable action plans and identifying alternatives,
  • (8) selecting a course of action that resolves the ethical situation,
  • (9) communicating with patients and peers and
  • (10) being self-reflective.

위의 행동 기술은 비판적 사고 기술입니다윤리적 사고는 의사가 윤리적 문제에 직면했을 때 수행하는 비판적 사고입니다. 97명의 의사-교육자가 의학에서 "비판적 사고"를 정의한 연구(Krupat 외. 2011)에 따르면, 비판적 사고는 다음 다섯 가지 범주의 행동으로 나타나는 능력으로 개념화되었습니다.

  • 데이터 수집에 관여
  • 정보의 조직화, 종합 및 활용, 
  • 환자와의 의사소통, 
  • 의사 결정 및 행동, 
  • 자기 성찰적인 방식으로 행동

윤리적 사고 과정은 일반적인 임상 문제 해결과 관련된 일련의 행동으로 구성되지만, 이 둘 사이의 유사점은 분명합니다. 따라서 학생들은 윤리 과목에서 특정한 초점과 목적을 가지고 비판적으로 사고하는 방법을 배워야 합니다.
The above action skills are critical thinking skills. Ethical thinking is critical thinking engaged in by physicians when faced with ethical issues. In a study of 97 doctor–educators’ definitions of “critical thinking” in medicine (Krupat et al. 2011), it was found that critical thinking was conceived of as an ability manifested by five categories of actions:

  • engaging in data gathering;
  • organizing, synthesizing and utilizing information;
  • communicating with patients;
  • making decisions and taking action; and
  • acting in ways that are self-reflective.

Although the ethical thinking process consists of a set of actions that are distinct from those involved in solving general clinical problems, the parallels between the two are obvious. Thus, students must learn how to think critically with a particular focus and purpose in the ethics course.

팁 9 교수자는 토론 전, 토론 중, 토론 후에 학생에게 방향을 제시해야 합니다.
Tips 9

Instructors must provide direction to students before, during and after discussion

교수자 및 기타 진행자의 역할은 토론 구조를 제공하고 그룹 프로세스를 촉진하는 것입니다. 교수자는 가이드라인을 제시하고, 토론 진행 상황을 평가하고, 조사하고, 코치하고, 학생들에게 적시에 방향과 피드백을 제공합니다. 세션이 끝나면 주요 주제를 정리하고, 주제 간의 연관성을 강조하고, 학생의 아이디어를 평가하고, 토론에서 발생한 문제를 파악하고, 추가 학습이 필요한 영역을 식별하여 토론 결과를 요약해야 합니다(Steinert 1996). 학생에게 토론 내용을 요약하도록 요청할 수 있지만, 교수자는 마무리로 최종적인 종합을 제공해야 합니다. 
Instructors’ and other facilitators’ role is to provide a discussion structure and facilitate group processes. They give guidelines, assess the discussion in process, probe, coach and give students timely directions and feedback. At the end of the session, they must summarize the discussion outcomes by pulling together the main themes, highlighting the links between topics, evaluating students’ ideas, identifying problems which have arisen from the discussion, and identifying areas for further study (Steinert 1996). Students can be asked to summarize the discussion, but the instructor must provide the final synthesis as closure.

소그룹 학습의 목표는 교사가 필요한 방향과 지원을 제공할 때만 달성할 수 있습니다. 고등 교육 분야의 연구에 따르면 학생에게 어느 정도의 지시를 제공해야 하는지에 대한 개념이 혼란스러운 경우가 많으며, 자기 주도적 학습을 강조하는 코스에서는 최소한의 교수법 접근 방식이 채택되는 경우가 많습니다(Miflin 외. 2000). 일부 교사가 채택하는 "핸즈오프" 접근 방식은 부적절하며 학생 학습 과정의 안내에 중점을 두는 접근 방식보다 생산성이 떨어질 수 있다는 증거가 있습니다(Miflin 외. 2000; Kirschner 외. 2006). 즉, 비지도식 학습 접근법이 인기가 있지만 지도식 교육이 더 생산적입니다. 의학교육에서 알바니즈와 미첼(1993)과 콜리버(2000)는 문헌을 검토한 결과 PBL이 지식과 임상 성과를 향상시킨다는 설득력 있는 증거를 찾을 수 없었다고 결론지었습니다. Kirschner 등(2006)은 이러한 차이의 부재를 교사가 학생에게 제공하는 지침이 부족하기 때문이라고 설명했습니다. 사례 토론 중에 학습이 이루어질 수 있도록 교사가 모니터링과 방향을 제시하는 것이 중요합니다. 
The goals of small-group learning can be achieved only when necessary direction and support are provided by the teacher. Studies in higher education show that there is often confusion surrounding the notion of how much direction to provide for students and that the minimalist approach to teaching is often adopted in courses that emphasize self-directed learning (Miflin et al. 2000). There is evidence that the “hands-off” approach adopted by some teachers is inappropriate and may be less productive than approaches that place an emphasis on guidance of the student learning process (Miflin et al. 2000; Kirschner et al. 2006). In other words, although unguided learning approaches are popular, guided instruction is more productive. In medical education, Albanese and Mitchell (1993) and Colliver (2000) concluded that a review of the literature revealed no convincing evidence that PBL improves knowledge and clinical performance. Kirschner et al. (2006) attributed this lack of difference to the lack of direction provided by teachers to students. It is crucial for teachers to provide monitoring and direction in order for learning to occur during case discussions.

팁 10 사례 토론에 충분한 시간 할당
Tip 10

Allocate sufficient time to case discussions

소그룹 교육이 의대생의 도덕적 추론 능력을 크게 향상시킨다는 경험적 증거가 있지만, 이러한 효과는 학생들이 20시간 이상의 소그룹 교육에 노출된 경우에만 발생합니다(Self 외. 1998). 
There is empirical evidence to suggest that while small-group teaching significantly increases moral reasoning skills in medical students, this effect only occurs where students are exposed to 20 or more hours of small-group teaching (Self et al. 1998).

필요에 따라 수업 시간을 보충하기 위해 학생에게 개별적으로 또는 또래 그룹으로 윤리적 추론과 문제 해결을 연습해야 하는 과제를 부여할 수 있습니다. 교사는 학생에게 사례를 할당할 수 있지만, 학생은 임상 학습 경험 중에 사례를 식별하거나 수집할 수도 있습니다. 수업 중 토론과 마찬가지로 사례 기반 과제에서도 교사 또는 조교가 지도와 지원을 제공해야 합니다. 
To supplement in-class time as needed, students can be given assignments that require them to work individually or in peer groups to practice ethical reasoning and problem-solving. Teachers can assign cases to students, but students can also identify cases or collect them during their clinical learning experience. Like in-class discussions, case-based assignments also require that teachers or teaching assistants provide guidance and support.

팁 11 사례 방식에 지나치게 의존하지 않기
Tip 11

Avoid over-reliance on the case method

사례 방법의 장점에도 불구하고 사례 방법만이 유일한 교육 접근 방식이 되어서는 안 됩니다. 사례 토론은 원리와 기술의 적용을 학습하는 데 효과적인 장치이지만, 학생들에게 개념과 분석 방법을 가르치는 최선의 방법은 아닙니다. 사례 토론을 주된 교수법으로 사용하면 윤리적 또는 법적 지식의 기초를 소홀히 할 수 있으며 학생들이 이론적 개념에 대한 노출을 감소시킬 수 있습니다(Menzel 2009). 강의, 모의 또는 실제 환자, 독서, 세미나, 소그룹 사례 토론, 의사 또는 윤리학자와의 회진, 개인 또는 그룹 프로젝트 등 다양한 교육 도구를 혼합하여 원하는 이론과 일반적인 윤리적 문제를 체계적으로 다룰 수 있도록 해야 합니다. Shatzer(1998)가 주장한 바와 같이, 코스 내에서 여러 가지 방법을 사용하는 것이 바람직하며 코스 간에 여러 가지 방법을 사용하는 것도 바람직합니다.

In spite of its strengths, case method should not be the only teaching approach. Case discussion is an effective device for learning the application of principles and skills, but it is not the best way of teaching concepts and analytic methods to students. Using case discussion as the staple method of teaching may lead to the neglecting of the foundations of ethical or legal knowledge and diminish students’ exposure to theoretical concepts (Menzel 2009). A mix of teaching tools should be used, including lectures, simulated or real patients, readings, seminars, small-group case discussion, rounds with physicians or ethicists, individual or group projects, and so on, to systematically cover the desired breadth of theory and common ethical problems. As Shatzer (1998) has argued, multiple methods within courses are desirable, as are multiple methods across courses.

팁 12 교육과 학생 평가의 연계
Tip 12

Link teaching and assessment of students

학습 효과를 극대화하기 위해서는 교수 과정과 학생의 학습 평가가 일치해야 합니다. 평가와 교육을 연계함으로써 교사는 윤리적 분석과 추론이 필수 기술이라는 점을 강조할 수 있습니다. 학생들이 평가에 임상 사례에 대한 윤리적 추론의 적용이 포함된다는 것을 알면 이러한 기술을 습득하기 위해 학습을 구조화할 가능성이 높아집니다(Myser 외. 1995). 사례에 기반한 윤리적 추론이 평가에 포함되는 경우 학생은 사례 토론을 진지하게 받아들이고 사례 토론을 통해 가장 잘 발달되는 사고 기술을 습득하기 위해 노력할 가능성이 높습니다. 사례 기반 평가의 경우 학생은 사례 분석 능력을 입증하는 논문 또는 보고서를 작성할 수 있습니다. 학생들은 관련된 윤리적 문제와 원칙을 파악하고, 사례에서 제시된 문제에 대한 분석과 가능한 해결책을 제시하고, 향후 이러한 딜레마를 피하기 위해 무엇을 할 수 있는지 제안해야 할 수 있습니다(Alyousefi 외. 2016). 윤리 OSCE와 같은 행동 지향적 평가 도구도 사용할 수 있습니다(Mitchell 외. 1993). 학생 평가의 방법과 기준은 코스 오리엔테이션에 포함되어 학생에게 명확하게 전달되어야 합니다. 
The teaching process and the assessment of students’ learning must align in order to maximize the learning gain. By linking assessment and teaching, teachers reinforce the centrality of ethical analysis and reasoning as essential skills. When students know that their assessment will involve the application of ethical reasoning to clinical cases, they are more likely to structure their learning to acquire those skills (Myser et al. 1995). When assessment involves ethical reasoning based on cases, students are more likely to take the case discussions seriously and to strive to acquire the thinking skills that are best developed through case discussions. For case-based assessments, students can write papers or reports demonstrating their case analysis ability. They can be required to identify the ethical issues and principles involved, provide an analysis and possible solutions to the issues presented by the cases and propose what could be done to avoid such a dilemma in the future (Alyousefi et al. 2016). Action-oriented assessment tools such as the ethics OSCE can also be used (Mitchell et al. 1993). The methods and criteria for student assessment should be included in the course orientation and made clear to students.

결론
Conclusions

연구에 따르면 전문가는 레지던트나 학생보다 윤리적 결정에 도달하는 과정에서 더 많은 관련 변수를 고려하며, 윤리적 문제 해결에 대한 전문성은 이러한 결정을 내리는 데 사용된 추론에 따라 차별화될 수 있습니다(Tsai 외. 2009). 또한 의료 윤리를 가르치면 학생들의 추론 능력이 향상될 수 있으며, 이러한 능력 향상은 강의만 하는 것보다 소그룹 사례 토론에 노출될 때 더 많이 나타나고, 학생들은 의학교육 기간 내내 이러한 능력을 유지한다는 사실도 밝혀졌습니다(Self et al. 1989; Self and Olivarez 1996). 이러한 연구 결과는 의료 윤리를 가르칠 때 사례를 사용하는 것이 중요하다는 것을 강조합니다. 이 글에서 제공하는 팁이 의학교육자에게 실질적인 통찰력을 제공할 수 있기를 바랍니다.

Research has found that experts consider more relevant variables in the process of arriving at ethical decisions than do residents or students and that expertise in solving ethical problems can be differentiated according to the reasoning used to make those decisions (Tsai et al. 2009). It has also been found that teaching medical ethics can increase students’ reasoning skills, that these increases come more from exposure to small-group case discussions than from lectures alone and that students retain these skills throughout their entire years of medical education (Self et al. 1989; Self and Olivarez 1996). These findings highlight the importance of using cases to teach medical ethics. We hope that the tips provided in this article can offer some practical insight to medical educators.

 

 


 

 

Med Teach. 2018 Jun;40(6):633-638. doi: 10.1080/0142159X.2017.1390218. Epub 2017 Oct 23.

 

 

Twelve tips for using clinical cases to teach medical ethics

Affiliations collapse

1a Department of Medicine , University of Chicago , Chicago , IL , USA.

PMID: 29058565

DOI: 10.1080/0142159X.2017.1390218

Abstract

The essential role of clinical case discussions in the teaching of medical ethics is well recognized. Based upon published literature and the authors' curricular development experience, the following 12 tips cover all major aspects of the case method for teaching clinical ethics and offer practical suggestions for designing and conducting case discussions.

성공적으로 메디컬 인포그래픽을 만드는 열두 가지 팁(Med Teach, 2021)
Twelve tips to make successful medical infographics
Sergio Hernandez-Sancheza , Victor Moreno-Pereza, Jonatan Garcia-Camposb , Javier Marco-Lledob, Eva Maria Navarrete-Mu~noza and Carlos Lozano-Quijadaa 

 

소개
Introduction

인포그래픽은 데이터나 개념을 대상에게 명확하고 간결하게 전달하기 위해 시각적 요소를 사용하여 정보를 그래픽으로 묘사하는 시각적 커뮤니케이션 도구입니다(Lankow 외. 2012). 그래픽과 텍스트가 결합된 데이터 시각화는 정보를 이해하기 쉽게 만들고 복잡한 개념을 접근 가능하고 재미있는 방식으로 전달할 수 있는 훌륭한 방법이 되었습니다(McCrorie et al. 2016).  
Infographic is a visual communication tool for depicting information graphically by using visual elements to communicate data or concepts clearly and concisely to a targeted audience (Lankow et al. 2012). A data-visualisation combination of graphics and text makes information easy to understand and have become an excellent way to communicate complex concepts in an accessible and even entertaining manner (McCrorie et al. 2016).

인포그래픽은 다양한 주제(인구통계, 사회경제학 등)를 다루는 핵심 메시지를 전달하는 데 사용되며, 점점 더 의료와 관련된 많은 측면을 다루는 데 사용되고 있습니다(Matrix and Hodson 2014). 인포그래픽은 환자와 의료 전문가에게 건강 메시지를 전달할 수 있는 매력적인 전략으로 간주됩니다(Scott 외. 2016; Stonbraker 외. 2019). 
Infographics are used to communicate key messages covering a wide range of topics, (demographics, socioeconomics, etc.) and increasingly, many aspects related to health care (Matrix and Hodson 2014). These are considered an attractive strategy for conveying health messages to patients and healthcare professionals (Scott et al. 2016; Stonbraker et al. 2019).

인포그래픽은 과학 논문을 보완하고 가치를 더하기 위해 의학 교육과 연구 보급에서 적극적인 학습 전략으로 점점 더 많이 사용되고 있습니다(Ibrahim 외. 2017; Shanks 외. 2017). 교육 도구로서 인포그래픽은 학부 의대생에게 혁신적이고 동기를 부여하는 전략으로, 제작 시 능동적이고 심층적인 학습을 촉진하고 복잡한 정보를 요약하여 볼 때 인지 부하를 최소화할 수 있습니다(Matrix and Hodson 2014; Shanks 등. 2017). 
Infographics are increasingly being used as an active learning strategy in medical education and in research dissemination to complement and add value to scientific papers (Ibrahim et al. 2017; Shanks et al. 2017). As a teaching tool, infographics are an innovative and motivating strategy for undergraduate medical students, that is, to promote active and deep learning when created and to summarise complex information that minimises the cognitive load when viewed (Matrix and Hodson 2014; Shanks et al. 2017).

인포그래픽을 통해 얻은 정보는 텍스트만으로 얻은 정보보다 더 오래 기억될 가능성이 높으며(Murray, Murray, Wordie, Oliver, Murray 등 2017), 환자 교육에 활용하면 장기적으로 약물 요법 순응도를 높이는 데 효과적인 것으로 나타났습니다(Ebrahimabadi 외. 2019). 
Information from infographics is more likely to be retained than that from text alone (Murray, Murray, Wordie, Oliver, Murray, et al. 2017), and for patient education has shown to be effective in improving adherence to medication regimens in the long term (Ebrahimabadi et al. 2019)

인포그래픽은 연구 결과를 간결하고 시각적으로 매력적인 방식으로 보여줄 수 있습니다. 이를 통해 임상의들 사이에서 연구 결과에 대한 인식과 전파를 높일 수 있습니다(이브라힘 외. 2017; 마틴 외. 2019). 점점 더 많은 과학 저널에서 저자에게 원고의 그래픽 요약본을 제출하도록 요청하고 있습니다. 이러한 정보 제공 매체는 독자의 선호도가 높고 초록 검토 시 인지 부하가 적은 것과 관련이 있습니다(Martin 외. 2019). 또한 소셜 미디어에서 인포그래픽을 통해 홍보된 연구 논문은 '알트메트릭' 점수와 초록 조회 수가 증가한 것으로 나타났습니다(Huang et al. 2018). 영국의학저널과 같은 일부 저명한 출판사에는 이미 인포그래픽 섹션이 있습니다. 

Infographics can show research findings in a concise and visually appealing manner. By so doing, they also increase awareness and dissemination of the research findings among clinicians (Ibrahim et al. 2017; Martin et al. 2019). An increasing number of scientific journals request that authors submit graphic summaries of their manuscripts. This medium for presenting information has been associated with a higher reader preference and a lower cognitive load during an abstract review (Martin et al. 2019). Moreover, research papers promoted through infographics on social media have been associated with increased ‘Altmetric’ scores and the number of abstract views (Huang et al. 2018). Some prestigious publishers, such as the British Medical Journal, already have an infographics section (https://www-bmj-com-ssl.access.hanyang.ac.kr:8443/infographics).

현재 여러 기관과 보건 단체에서 웹사이트에 인포그래픽 섹션을 만들어 콘텐츠를 배포하고 있습니다. 세계 보건 기구, 미국 공중 보건 협회 또는 질병 통제 및 예방 센터 등이 대표적인 예입니다. 
Different institutions and health organizations currently have an infographics section on their websites to disseminate content. Some relevant examples are the World Health Organization (https://www.who.int/mediacentre/infographic/en), the American Public Health Association (https://www.apha.org/news-and-media/multimedia/infographics) or the Centers for Disease Control and Prevention (https://www.cdc.gov/globalhealth/infographics/default.html).

잘 만들어진 인포그래픽의 핵심 메시지를 포착하는 데는 몇 초밖에 걸리지 않습니다. 그러나 디자인 과정에는 훨씬 더 많은 시간과 노력이 필요합니다(Murray, Murray, Wordie, Oliver, Simpson 외. 2017). 그렇다면 무엇이 좋은 인포그래픽을 만들까요? 인포그래픽을 제작할 때 핵심 요소를 파악하는 것은 인포그래픽의 목적을 달성하고 성공적으로 배포하는 데 필수적입니다. 이러한 이유로 이 작업의 목적은 인포그래픽의 제작, 디자인 및 배포에 있어 기본적인 요소를 12가지 팁을 통해 보여주는 것입니다. 이 12가지 팁을 수행하기 위해 건강 또는 의료, 인포그래픽 또는 인포그래픽이라는 단어를 사용하여 Pubmed 데이터베이스에 포함된 논문 정보를 찾습니다. 또한 책과 블로그 등 다른 출처를 참고하고 이 문헌 검토와 경험을 바탕으로 12가지 팁을 제공합니다. 
Capturing the key message of a well-made infographic should take only a few seconds. However, the process of design takes much more time and effort (Murray, Murray, Wordie, Oliver, Simpson, et al. 2017). So, what makes a good infographic? Knowing the key elements in its preparation is essential for achieving the objective with which it is conceived and for disseminating it successfully. For this reason, the aim of this work is to show by 12 tips those fundamental elements in its creation, design, and dissemination. To perform these 12 tips we look for information of papers included in the Pubmed database using the words health or medical and infographics or infography. Besides, we consult other sources as book and blogs and we provide twelve tips based on this literature review and our experience.

팁 1 타겟 고객을 정의하세요: 그들의 선호도를 파악하고 영향력을 확보하세요
Tip 1

Define the target audience: Know their preferences, and gain impact

인포그래픽을 제안하기 위한 첫 번째 단계는 인포그래픽이 도달하고자 하는 대상을 명확히 하는 것입니다(Murray, Murray, Wordie, Oliver, Murray 외. 2017). 인포그래픽의 접근 방식은 대상 고객과 관련된 연령(어린이, 청소년, 성인 또는 노인), 역할(환자, 전문가, 간병인, 학생) 또는 교육 수준과 같은 요인에 따라 달라질 수 있습니다(Kibar and Akkoyunlu 2017). 
A first step towards proposing an infographic is to be clear whom it is intended to reach (Murray, Murray, Wordie, Oliver, Murray, et al. 2017). The approach of the infographic will vary, depending on factors, such as age (kids, young population, adult or elders), role (patients, professionals, caregivers, students), or educational level (Kibar and Akkoyunlu 2017) related to the target audience.

따라서 타겟 고객을 이해하는 것은 인포그래픽을 배포하기 위한 색상, 이미지, 공간 구성 또는 커뮤니케이션 채널과 같은 후속 디자인 요소를 선택하는 데 중요한 요소입니다(Arcia et al. 2016; Wansink and Robbins 2016). 따라서 디자인 초기부터 인포그래픽 최종 사용자의 의견을 고려하는 것이 바람직하며, 이는 추후 인포그래픽의 수용성을 높일 수 있기 때문입니다(Atenstaedt 2019). 
Therefore, understanding the target audience is a factor that is crucial for choosing the subsequent design elements, such as the colours, images, spatial organisation, or the communication channel to disseminate the infographics (Arcia et al. 2016; Wansink and Robbins 2016). For this reason, it would be desirable to take into account, from the beginning of the design, the opinion of the infographics end users as this can increase the subsequent receptivity of the infographics (Atenstaedt 2019).

또한 인포그래픽은 타겟 청중의 특정 선호도와 요구를 충족시켜야 합니다(Hamaguchi 외. 2020; Stonbraker 2020). 연구 결과를 발표할 때 Crick과 Hartling(2015)은 인포그래픽이 청중을 위해 과학적 결과를 요약하는 데는 미학적으로 매력적이지만, 비판적 평가 형식이 더 이해하기 쉬운 것으로 간주된다는 사실을 발견했습니다. 따라서 인포그래픽은 대상 집단에 호소력이 있으며, 인포그래픽이 누구를 위한 것인지 이해하는 것부터 시작해야 합니다(Harrison 외. 2015). 
In addition, infographics need to cater to specific preferences and needs of their target audiences (Hamaguchi et al. 2020; Stonbraker 2020). For the presentation of research results, Crick and Hartling (2015) found that infographics were considered aesthetically appealing for summarising scientific results for an audience, but critical appraisal formats were considered to be more comprehensible. Therefore, an infographic does appeal to the target population and begins with an understanding of who it is for (Harrison et al. 2015).

팁 2 인포그래픽의 목적 설정
Tip 2

Set the purpose of the infographics

성공적인 인포그래픽을 개발하려면 작성자가 전달하고자 하는 메시지가 무엇인지 명확해야 합니다(Murray, Murray, Wordie, Oliver, Murray 외. 2017). 하나의 명확한 학습 목표에 초점을 맞추는 것이 좋습니다(Dunlap and Lowenthal 2016). 목표에 따라 인포그래픽 유형은 내러티브형, 탐색형 또는 혼합형 중 하나를 고려해야 합니다(Lankow 2012).

  • 탐색형 인포그래픽교육 및 연구 목적으로 자주 사용되며 객관적인 정보를 명확하게 제공합니다. 데이터를 나타내는 요소만 사용한 미니멀한 디자인이 특징입니다.
  • 내러티브 인포그래픽정보를 제공하고 재미를 주는 매력적인 비주얼을 사용하거나 감정을 불러일으켜 시청자의 의견을 이끌어내려고 합니다. 

To develop a successful infographic, the author must be clear about what he or she wants to communicate (Murray, Murray, Wordie, Oliver, Murray, et al. 2017). It is recommended that the focus be a single clear learning objective (Dunlap and Lowenthal 2016). Depending on the objective, the type of infographic should be considered: narrative, explorative, or mixed (Lankow 2012). An explorative infographic is frequently used for educational and research purposes, clearly providing objective information. A minimalistic design with only elements that represent data is characteristic. Narrative infographic seeks to sway the opinion of the viewer by using engaging visuals that inform and entertain, and even by trying to evoke emotion.

예를 들어, 'how-to' 인포그래픽은 일반적으로 특정 절차를 수행하는 방법에 대한 정보를 검색하는 사용자에게 호평을 받습니다(Arcia 외. 2019). 연구 및 임상 환경에서는 특정 방법론, 기술 절차 또는 치료적 개입을 시각적인 방식으로 설명하고 공유하는 데 도움이 될 수 있습니다(Ibrahim 외. 2017; Hsiao 외. 2019).
For example, ‘how-to’ infographics are usually well received by users who are searching for information about how to perform some procedure (Arcia et al. 2019). In research and clinical settings, it may help explain and share specific methodologies, technical procedures, or therapeutic interventions in a visual way (Ibrahim et al. 2017; Hsiao et al. 2019).

팁 3 청중의 관심을 끌고 지속시킬 수 있는 매력적인 제목을 생각해 보세요.
Tip 3

Think of a compelling title to attract and sustain the audience’s attention

인포그래픽을 처음 보는 몇 초 동안은 청중의 관심을 끌기 위해 필수적입니다(Murray, Murray, Wordie, Oliver, Murray 외. 2017). 이 과정에서 독자의 시선을 사로잡는 한 가지 목적은 일반적으로 인포그래픽의 제목입니다(Majooni 외. 2018). 가장 강력한 회상 예측 변수 중 하나로 설명되는 액션 지향적 제목은 인포그래픽을 기억에 남고 설득력 있게 만드는 것으로 보입니다(Wansink and Robbins 2016). 청중의 관심을 빠르게 불러일으키기 위해 제목에 강력하고 영향력 있는 단어를 몇 개 사용하는 것이 좋습니다(Quispel 외. 2018). 목적을 설명하고 청중의 호기심을 자극하기 위해 더 암시적인 부제를 사용할 수 있으므로 정교한 제목을 가질 필요는 없습니다.  
The first few seconds of viewing an infographic are essential to attract the attention of the audience (Murray, Murray, Wordie, Oliver, Murray, et al. 2017). In this process, one objective of the reader’s gaze is usually the title of the infographic (Majooni et al. 2018). Action-oriented titles, described as one of the most robust predictors of recall, seem to make infographics memorable and compelling (Wansink and Robbins 2016). It is recommended that a few powerful and impactful words be used in the title to arouse the audience’s interest quickly (Quispel et al. 2018). It is not necessary to have an elaborate title because a more suggestive subtitle can be used to explain the objective and stimulate the audience’s curiosity.

예를 들어, 과학 연구에서 가장 영향력 있는 연구 결과 또는 실제 적용(Murray, Murray, Wordie, Oliver, Murray 등 2017; Balkac and Ergun 2018; Huang 등 2018) 또는 환자 교육, 질병 자가 관리 또는 예방 능력(Arcia 등 2019; Stonbraker 등 2019) 등이 이에 해당할 수 있습니다. 
In scientific research, for example, this could be the most impactful finding or practical application of the study (Murray, Murray, Wordie, Oliver, Murray, et al. 2017; Balkac and Ergun 2018; Huang et al. 2018) or of patient education, an ability to self-manage or prevent a disease (Arcia et al. 2019; Stonbraker et al. 2019).

팁 4 '요점을 바로 잡으세요': 투명성 확보
Tip 4

‘Get straight to the point’: Be transparent


인포그래픽은 복잡한 아이디어나 데이터를 간단한 그래픽 스토리로 변환하여 청중에게 정보를 제공하고 교육하는 것을 목표로 합니다(Martin 외. 2019). 따라서 단순하고 시각적으로 강력한 메시지를 사용하는 것이 필수적입니다. (Arcia 외. 2016). 콘텐츠 디자인에 있어 최소한의 접근 방식은 주의가 분산되는 것을 피하기 위해 선호됩니다(Quispel 외. 2018). 
An infographic aims to transform complex ideas or data into simple graphic stories to inform and educate the audience (Martin et al. 2019). For this reason, it is essential to use simple and visually powerful messages. (Arcia et al. 2016). A minimalistic approach in the design of the content is preferred to avoid scattered attention (Quispel et al. 2018).

명확하게 말하면, 인포그래픽은 적절한 언어를 사용하고, 짧은 문장을 활용하며, 긴 단락을 피해야 합니다(Royal and Erdmann 2018). 환자 교육용 인포그래픽에서 기술 및 의학 전문 용어는 일반 독자의 가독성 수준을 높이는 경향이 있으므로 피하는 것이 좋습니다(Oliffe 외. 2019). 
To be clear, infographics should include adapted language, utilise short sentences, and avoid long paragraphs (Royal and Erdmann 2018). It is advisable to avoid technical and medical jargon in the infographics for patient education because such language tends to raise the readability level out of the range of the average reader (Oliffe et al. 2019).

팁 5 스토리텔링이 핵심
Tip 5

Storytelling is key

인포그래픽 제작에는 단순한 이미지와 텍스트의 편집 이상의 것이 포함됩니다(McCrorie 외. 2016). 인포그래픽에 내러티브를 통합하여 미리 정의된 스크립트에 대한 독자의 관심을 유지하는 것이 중요합니다. 시작과 끝이 명확하면 독자가 작성자가 의도한 순서대로 정보를 처리할 수 있으므로 청중이 핵심 메시지를 이해하는 데 도움이 됩니다(Botsis 외. 2020). 연구 결과를 전달할 때 Murray, Murray, Wordie, Oliver, Murray 등(2017)은 정보, 선, 화살표 또는 기타 시각적 요소의 '노드'를 사용하여 청중을 인포그래픽으로 안내하고 연구 스토리의 다른 섹션을 연관시키는 것을 고려할 것을 권장했습니다. 
Making an infographic involves more than a mere compilation of images and text (McCrorie et al. 2016). It is important to incorporate a narrative into the infographics to sustain the reader’s attention on a predefined script. Having a clear start and end ensures that the reader processes the information in the order in which the author intends, thus helping the audience understand the key messages (Botsis et al. 2020). In the case of communicating research results, Murray, Murray, Wordie, Oliver, Murray, et al. (2017) recommended considering the use of ‘nodes’ of information, lines, arrows, or other visual elements to guide the audience through the infographic and to relate different sections in the research story.

환자를 위한 교육용 인포그래픽의 경우, 중심 스토리의 존재가 특히 중요한데, 이는 환자가 행동을 취하거나 건강 관련 행동을 바꾸도록 유도하는 데 도움이 되기 때문입니다(Arcia 외. 2019). 
In the case of educational infographics for patients, the existence of a central storyline is especially important since it facilitates inducing them to take action or even to change their health-related behaviour (Arcia et al. 2019).

마지막으로, 인포그래픽의 스토리와 메시지는 신뢰할 수 있어야 합니다. 따라서 사용 된 참조 및 리소스를 인용하는 것은 필수입니다 (Shanks et al. 2017). 청중은 제시된 데이터(텍스트, 차트 및 그림)의 출처를 알아야 하며, 이는 제시된 정보에 대한 신뢰도를 높이는 것과 관련이 있습니다(Wilkinson 외. 2016).
Finally, the story and messages behind the infographics must be credible. Therefore, citing the used references and resources is mandatory (Shanks et al. 2017). The audience must know the origin of the presented data (text, charts, and figures), which has been related to greater confinement to the information presented (Wilkinson et al. 2016).

 

팁 6 주요 아이디어를 강조할 수 있는 방법 찾기 
Tip 6

Find a way to highlight the main ideas

인포그래픽은 청중이 제시된 정보를 이해할 때 효과적입니다(Lankow 외. 2012). 따라서 인포그래픽의 관련 구성 요소의 크기를 늘리고, 눈에 띄는 색상을 사용하고, 앞서 언급한 대로 인포그래픽에 매력적인 제목을 붙이는 등 핵심 메시지를 강조해야 합니다(Murray, Murray, Wordie, Oliver, Murray 등, 2017; Wansink and Robbins 2016).
Infographic works if the audience understands the information presented (Lankow et al. 2012). Therefore, key messages must be emphasised, for example, by increasing the size of the relevant components of the infographics, by using striking colours and by giving the infographic a compelling title as mentioned before (Murray, Murray, Wordie, Oliver, Murray, et al. 2017; Wansink and Robbins 2016).

저자가 과학적 데이터를 배포하려는 경우, 인포그래픽은 전체 연구 논문을 담는 캔버스가 아니라 연구에 대한 시각적 요약을 제공하는 데 사용해야 합니다(Hsiao 외. 2019). 텍스트는 간결해야 하며 시각적으로 제시된 측면을 강화할 뿐만 아니라 명확성을 제공하는 역할을 해야 합니다(Balkac and Ergun 2018). 
When the author seeks to disseminate scientific data, infographics should be used to provide a visual summary of the research rather than as a canvas on which to dump the full research paper (Hsiao et al. 2019). The text should be brief and serve to provide clarity as well as to reinforce the aspects that are presented visually (Balkac and Ergun 2018).

핵심 메시지가 그래픽으로 제대로 표현되었는지 평가하는 한 가지 방법은 '텍스트 없음 테스트'를 적용하는 것입니다. 즉, 인포그래픽에서 텍스트를 제거하고 스토리를 이해했는지 평가하는 것입니다. 따라서 이 테스트는 시각적 요소의 관련성을 테스트하는 것입니다(Burgio and Moretti 2017). 
One way to assess whether the key messages are properly represented graphically is to apply the ‘no text test’, that is, remove the text from the infographic and assess whether the story is understood. It is, therefore, a test of the relevance of the visual elements (Burgio and Moretti 2017).

새로운 인포그래픽 디자인을 시작할 때 화가 한스 호프만의 '불필요한 것을 제거하여 필요한 것이 말할 수 있도록 하라'는 말을 기억하는 것이 유용합니다. 
When starting the design of a new infographic it is useful to remember the quotation from painter Hans Hoffman: ‘Eliminate the unnecessary so the necessary can speak’.

팁 7 인포그래픽 초안 작성
Tip 7

Draft the infographic

인포그래픽의 초안은 종이에 펜으로 작성하여 창의력을 발휘할 수 있도록 하는 것이 좋습니다(Khoury 외. 2019). 디지털 사본으로 작업하기 전에 다양한 디자인 구성, 개념 및 그 관계를 고려하고 시각적 요소(유형, 위치, 크기 등)의 사용을 계획할 수 있습니다(Shanks 외. 2017). 인포그래픽의 모든 항목은 의미 있는 정보를 전달해야 합니다(Stones and Gent 2015). 다른 성공적인 인포그래픽을 보면서 아이디어를 얻을 수 있습니다.  
It is recommended that a draft of the infographic be made with a pen on a sheet of paper, allowing creativity flow (Khoury et al. 2019). Different design configurations, concepts, and their relationships may be considered, and the use of visual elements (type, position, sizes, etc.) may be planned before working with a digital copy (Shanks et al. 2017). Every item on an infographic should convey meaningful information (Stones and Gent 2015). It is possible to get ideas by looking at other successful infographics.

초안을 작성하는 동안 모양은 중요하지 않습니다. 우선 순위는 아이디어를 개괄하고 제시 할 주제와 주제를 구성하는 것입니다. 그러나 '외형적인 장식은 근본적인 콘텐츠 부족을 결코 구제할 수 없다'고 강조한 Tufte(2006)의 말을 기억할 필요가 있습니다. '적은 것이 더 많다'는 개념은 모든 디자인을 공유 가능하게 만드는 데 이상적입니다. 작은 용기에 많은 양의 정보를 담으려면 대화 중 휴식을 나타내는 데 사용할 수 있으므로 전략적인 공백은 필수입니다(2018년 11월 15일 K Tombok이 Easy.ly에 게시한 글): 인포그래픽 디자인 및 데이터 시각화의 공백: 예, 아니오?). 
During the drafting, the appearance does not matter. The priority is to outline the ideas and organise the themes and topics that will be presented. However, it is worth remembering Tufte (2006) who emphasised that ‘cosmetic decoration will never salvage an underlying lack of content’. The ‘less is more’ concept is ideal for making any design shareable. For a large amount of information in a small container, strategic white spaces are mandatory since they can be used to represent breaks during a conversation (15 November 2018 posting by K Tombok to Easy.ly: White space in Infographics Design and Data Vizualization: Yay or Nay?).

팁 8 그래픽 디자인의 기본 원칙을 따르세요
Tip 8

Follow the basic principles of graphic design

인포그래픽을 디자인하는 것은 즐겁고 창의적인 과정이지만, 좋은 최종 결과를 얻으려면 몇 가지 기본 디자인 권장 사항을 따라야 합니다(Abilock and Williams 2014). 시각적 요소로 좋은 첫인상을 남기려면 청중의 시선을 사로잡고 유지하는 것이 필수적입니다(Harrison 외. 2015). 스톤스와 젠트(Stones and Gent, 2015)가 발간한 '공중 보건 인포그래픽 디자인 매뉴얼의 원칙'이라는 제목의 가이드를 읽어보는 것을 적극 권장합니다. 
Although designing an infographic is an enjoyable and creative process, some basic design recommendations should be followed to achieve a good final result (Abilock and Williams 2014). To achieve a good first impression with visuals is essential to catch and keep the attention of the audience (Harrison et al. 2015). We strongly recommend reading the guide titled ‘Principles of Public Health Infographic Design Manual’ published by Stones and Gent (2015).

인포그래픽 초안이 준비되면 사용자 친화적인 여러 온라인 도구(Piktochart, Canva, Vengage, Genial.ly, Easel.ly, Visual.ly 등)를 사용하여 공식적인 인포그래픽 템플릿으로 변환할 수 있습니다(Wright 2016). 결과를 최적화할 수 있는 전문 그래픽 디자이너와의 협업은 항상 고려해야 합니다(Burgio and Moretti 2017; Khoury et al. 2019). 다음은 인포그래픽을 디자인할 때 고려해야 할 몇 가지 기본적인 디자인 측면입니다: 

When the infographic draft is ready, there are available several user-friendly online tools (Piktochart, Canva, Venggage, Genial.ly, Easel.ly, Visual.ly, among others) that may be used to transform it into a formal infographic template (Wright 2016). The collaboration with a professional graphic designer who can optimize the result should always be considered (Burgio and Moretti 2017; Khoury et al. 2019). The following are some fundamental design aspects to consider when designing an infographic:

  • 글꼴. 두세 가지 이상의 서로 다른 유형의 글꼴을 사용하지 않는 것이 좋습니다(Kibar and Akkoyunlu 2017). 사용되는 배경색에 따라 글꼴 색상을 선택하고 디자인 전체에 일관성을 유지하세요.
    Fonts. It is recommended that not more than two or three different types of fonts be used (Kibar and Akkoyunlu 2017). Choose a font colour based on the background colour being used and be consistent throughout the design.
  • 그래픽 및 차트. 데시몬과 던컨(1995)은 사람들은 한 번에 시각 자료의 한 부분에만 주의를 기울일 수 있으며, 여러 요소가 있으면 주의 집중 시간이 상당히 줄어든다고 말했습니다. 전달하고자 하는 내용에 따라 그래픽을 신중하게 선택해야 합니다(스톤브레이커 외. 2020). 예를 들어, 사건의 시간 순서를 나타내는 타임라인, 그룹화 관계를 보여주는 클러스터(예: 벤 다이어그램), 비교와 대조가 작성자의 의도인 경우 막대형 차트 등이 있습니다. 스톤브레이커 등(2019)의 연구에 따르면 인포그래픽 형태의 건강 통계를 받은 환자가 자신의 질환 위험을 정확하게 예측하고 다음 단계에 대한 중요한 결정을 내릴 확률이 2.84배 높았습니다.
    Graphics and charts. Desimone and Duncan (1995) stated that people can only pay attention to one part of the visuals at a time, and having multiple elements considerably reduces the attention span. The graphics should be carefully chosen based on what is intended to be communicated (Stonbraker et al. 2020). For example, timeline for the chronological sequence of events; cluster (e.g. a Venn diagram) to show grouping relationships, or a bar chart when comparison and contrast is the author’s intention. Stonbraker et al. (2019) found that patients who received health statistics in infographic form were 2.84 times more likely to estimate the risk of their conditions accurately and make important decisions about their next steps.
  • 이미지 및 그림. 이미지는 인포그래픽의 기본 요소입니다(Khoury 외. 2019). 시각적 요소는 청중의 시선을 사로잡고 이해도와 암기력을 높일 수 있습니다(Brigham 2016).
    Images and figures. Images are a fundamental element of infographics (Khoury et al. 2019). Visual elements can grab an audience’s attention and even increase comprehension and memorisation (Brigham 2016).

시각적 초록과 관련된 과학 논문은 텍스트만 있는 초록으로 출판된 논문보다 열람 가능성이 3배 더 높으며, 심지어 해당 논문이 출판된 저널의 알트메트릭 점수 및 초록 조회수 증가와도 관련이 있다는 보고가 있습니다(Thoma et al. 2018). 모든 시각적 요소는 인포그래픽에 정보를 제공해야 합니다. 청중의 주의를 산만하게 하는 장식적인 시각적 요소는 피해야 합니다(Dunlap and Lowenthal 2016). 
It has been reported that scientific articles associated with a visual abstract are three times more likely to be viewed than are articles published with text-only abstracts, and have even been associated with increased Altmetric scores and abstract views of the journal in which they are published (Thoma et al. 2018). All visual elements must contribute information to the infographics. Decorative visuals that distract the audience should be avoided (Dunlap and Lowenthal 2016).

작성자가 소유하든 디지털 리포지토리(플리커, 픽사베이, 프리픽 등)에서 제공하든 모든 이미지는 인포그래픽에 가치를 더하기 위해 품질 및 해상도 표준을 충족해야 합니다. 가능한 한 조명 효과, 배경 및 어두운 영역의 수가 동일한 사진을 사용하는 것이 좋습니다(Burgio and Moretti 2017).
Whether owned by the author or by digital repositories (Flicker, Pixabay, Freepick, etc.), all images must meet quality and resolution standards to add value to the infographic. As far as possible, photos with the same lighting effects, backdrops, and the number of dark areas are recommended (Burgio and Moretti 2017).

인포그래픽에서 이미지의 위치와 관련하여 Mayer(2009)는 학생들이 해당 단어와 그림이 서로 멀리 떨어져 있는 것보다 서로 가까이 있을 때 더 잘 학습한다고 보고했습니다. Borgo 등(2012)은 '기억해야 할' 정보가 그 정보를 나타내는 이미지와 가까운 곳에 위치할 때 꾸밈이 장기기억에서 불러오는 정보의 속도와 정확성을 모두 향상시킨다는 사실을 발견했습니다. 
Regarding the location of images in the infographic, Mayer (2009) reported that students learn better when corresponding words and pictures are presented near each other rather than far from each other. In the same way, Borgo et al. (2012) found that embellishment aided both the speed and accuracy of information recalled from long-term memory when ‘to-be-remembered’ information was located closely to the image that represented it.

객체를 둘러싼 여백은 인포그래픽의 핵심 메시지를 강조하는 데 사용할 수 있다는 점을 기억하세요. 마지막으로 던랩과 로웬탈(2016)의 말을 빌리자면, 인포그래픽의 시각적 매력이 나쁜 콘텐츠를 보완할 수는 없다는 점을 기억하는 것이 중요합니다. 
Remember that blank space surrounding objects can be used to highlight the key message of the infographic. Finally, in the words of Dunlap and Lowenthal (2016) it is important to remember that the visual appeal of an infographic will not make up for bad content.

팁 9 적절한 색상 선택
Tip 9

Choose colours appropriately


인포그래픽에 적절한 색상을 사용하면 청중이 콘텐츠를 더 쉽게 기억할 수 있습니다(Quispel 외. 2018). 인포그래픽의 색상은 포함 된 메시지를 명확히하는 데 도움이됩니다 (Arslan and Toy 2015). 실제로 특정 색상은 감정을 자극할 수 있으며(빨간색은 긴박감, 녹색은 자연과의 연결, 파란색은 진정 효과), 메시지를 강화하는 데 사용될 수 있습니다(Elliot 2015). 
When appropriate colours are used in the infographics, the audience can remember the content more easily (Quispel et al. 2018). The colours of infographics help clarify the embedded messages (Arslan and Toy 2015). Indeed, certain colour schemes can stir up emotions (red evokes a sense of urgency; green, connection with nature; blue can be used for its calming effect) and can be used to reinforce messages (Elliot 2015).

색상과 시각적 복잡성은 인포그래픽에서 정보 평가의 강력한 예측 인자로 확인되었습니다(Park and Tang 2019). 이는 색상을 신중하게 선택해야 한다는 것을 의미합니다. 매력적인 인포그래픽을 만들기 위한 기존 권장 사항에는 색상 팔레트에서 3~5가지 보색을 사용하는 것이 포함됩니다(Stones and Gent 2015). 인포그래픽 디자인에 색상을 사용할 때 추가로 고려해야 할 사항은

  • (i) 60-30-10 규칙입니다: 인포그래픽 영역의 60%에는 기본 색상을 사용하고, 30%에는 보조 색상을, 나머지 10%에는 강조 색상을 선택합니다.
  • (ii) 배경에 둔하고 차분한 색상을 사용합니다. 칙칙한 색상은 인포그래픽의 여백 역할을 하여 밝은 색상의 텍스트 및 기타 시각적 요소가 돋보일 수 있도록 도와줍니다. 

Colour and visual complexity have been identified as strong predictors of information evaluation in infographics (Park and Tang 2019). This means that colours should be chosen carefully. Existing recommendations for creating engaging infographics include using three to five complementary colours on a colour palette (Stones and Gent 2015). Additional aspects when using colours in the infographic designs are

  • (i) the 60-30-10 rule: Use a primary colour for 60% of the area in the infographic; choose a secondary colour that covers 30% of the area, and finally, an accent colour, for the remaining 10%;
  • (ii) Use dull and muted colours in the background. Dull colours can serve as your infographic’s white space helping text and other visual elements in brighter colours stand out.

이 측면에 주의를 기울이는 것이 중요한 몇 가지 이유가 있습니다: 시각적 요소에 색상을 사용하면 독자의 집중력과 기억력이 82% 증가합니다(Chang and Xu 2019). 색상을 적절히 사용하면 올바른 데이터를 찾는 데 소요되는 시간이 70% 감소합니다(Dzulkifli and Mustafar 2013); 컬러를 사용한 메시지를 본 학습자는 같은 메시지를 흑백으로 읽은 학습자보다 메시지를 기억할 가능성이 39% 더 높았으며(Shankar and Amir 2020), 또한 독자의 55%는 흑백만 사용한 메시지에 비해 컬러를 사용한 메시지를 선호했습니다(Dzulkifli and Mustafar 2013). 임상 환경에서 Park과 Tang(2019)은 관련 색상과 적절한 시각적 복잡성으로 디자인된 인포그래픽이 피부암 예방을 홍보하는 데 효과적이라고 보고했습니다. 
Some reasons why it is important to pay attention to this aspect: There is an 82% increase in readers’ attention spans and recall through the use of colours in visuals (Chang and Xu 2019); 70% less time is spent finding the right data when colours are used properly (Dzulkifli and Mustafar 2013); learners who saw a message that utilised colours were 39% more likely to remember the message than those who read the same message in black and white (Shankar and Amir 2020), Also, 55% of readers preferred messaging that included the use of colours compared to messaging that used only black and white (Dzulkifli and Mustafar 2013). In a clinical setting, Park and Tang (2019) reported that infographics designed with relevant colours and appropriate visual complexity were effective in promoting skin cancer prevention.

팁 10 인포그래픽을 테스트하고 풍부하게 만들기
Tip 10

Test the infographics and try to enrich it

환자, 간병인 및 일반 대중과의 효과적인 건강 커뮤니케이션은 매우 중요합니다. 인포그래픽을 게시하기 전에 '인포그래픽의 영혼'이 타겟 고객에게 전달되는지 확인하려면, 의도한 대상의 사람들을 대상으로 파일럿 테스트를 하거나 평가하는 것이 좋습니다(Arcia 외. 2019; Stonbraker 외. 2019).
Effective health communication with patients, caregivers, and the general public is critical. To verify that ‘the soul of the infographic’ reaches the target audience before publishing it, a recommended strategy is to pilot or evaluate it on people from the intended audience (Arcia et al. 2019; Stonbraker et al. 2019).

시각적 자료는 많은 커뮤니케이션 가치를 제공할 수 있지만, 타겟 독자의 눈높이를 고려하지 않으면 인포그래픽의 효과에 부정적인 영향을 미칠 수 있습니다(Balkac and Ergun 2018). 환자의 경우, 건강 리터러시와 관련된 높은 변동성을 고려할 때, 미국 국립보건원과 미국의학협회는 문해력이 부족한 개인에게 불이익을 주지 않기 위해 문헌을 초등학교 4학년에서 6학년 수준(미국)으로 작성할 것을 권장합니다(Weiss 2003). 간혹 이 권장 사항을 크게 초과하는 환자 대상 인포그래픽이 있으므로 이 점을 염두에 두어야 합니다(Royal and Erdmann 2018). 현재 무료 온라인 계산기(예: Readabilityformulas.com)를 사용하여 간단한 가독성 분석을 수행할 수 있습니다. 
While visuals can offer a great deal of communicative value, failing to account for a well-targeted reading level can negatively impact the effectiveness of an infographic (Balkac and Ergun 2018). With respect to patients, given the high variability associated with health literacy, the National Institutes of Health and the American Medical Association recommend that the literature should be written between a fourth and sixth-grade level (US) to avoid disadvantaging individuals with inadequate literacy skills (Weiss 2003). This must be borne in mind as, occasionally, there are patient-target infographics that significantly exceed this recommendation (Royal and Erdmann 2018). Currently, a simple readability analysis can be performed using a free online calculator (i.e. Readabilityformulas.com).

인포그래픽을 보는 동안 사용자 상호 작용을 늘리는 것은 긍정적입니다(Balkac and Ergun 2018). 인포그래픽을 풍부하게 만드는 한 가지 전략은 데이터 시각화 중에 청중의 참여를 향상시키기 위해 대화형 요소 또는 추가 자료에 대한 링크를 도입하는 것입니다(Bellei et al. 2016). 예를 들어, 인쇄된 인포그래픽에 삽입된 빠른 응답(QR) 코드를 사용하면 시청각 자료나 웹사이트를 연결하여 청중이 추가 정보를 참조할 수 있도록 할 수 있습니다.  
Increasing user interaction while viewing infographic is positive (Balkac and Ergun 2018). One strategy to enrich an infographic is to introduce links to interactive elements or additional material to improve the engagement of the audience during data visualisation (Bellei et al. 2016). For example, the use of the Quick Response (QR) codes inserted in a printed infographic allows audiovisual material or website to be linked, allowing the audience to consult additional information.

팁 11 인포그래픽을 올바르게 검토하여 오탈자 및 오류 방지
Tip 11

Properly review the infographics to avoid misprints and errors

디자인 오류는 청중의 인식과 작성자의 신뢰도에 부정적인 영향을 미치기 때문에 인포그래픽 콘텐츠에 대한 철저한 검토 프로세스와 오류를 재확인하는 것은 필수입니다(Wansink and Robbins 2016). 여기에는 그림, 글꼴 및 텍스트에 대한 세심한 품질 관리 수행도 포함됩니다(Brigham 2016). 
A wholehearted review process of the infographic content and double-checking for errors are mandatory because design errors negatively affect audience perception and author credibility (Wansink and Robbins 2016). This also includes performing careful quality control of figures, fonts, and text (Brigham 2016).

다음은 인포그래픽에 나타날 수 있는 일반적인 실수입니다:

  • 문법, 철자 오류. 인포그래픽을 제작하는 동안 포함된 텍스트에 맞춤법이나 문법 오류가 발생했을 수 있습니다. 이를 확인하고 구조화되지 않은 긴 단락은 정보 과부하를 유발하므로 피해야 한다는 점을 기억하세요.
  • 산만한 요소. 인포그래픽의 시각적 요소는 흥미를 더하고 인포그래픽의 핵심 메시지를 강조해야 합니다. 따라서 '산만한' 요소는 포함하지 마세요.
  • 왜곡된 눈금. 왜곡되거나 픽셀화된 차트, 이미지 또는 기타 시각적 요소는 인포그래픽의 품질을 떨어뜨립니다.
  • 특별한 구성 및 계층 구조. 시각적 계층 구조는 인포그래픽에 제시된 정보를 통해 청중을 안내하는 데 중요합니다. 요소가 임의로 구성되면 인포그래픽의 메시지를 이해하기 어려울 수 있습니다.

The following are common mistakes that can appear in an infographic:

  • Grammar, spelling errata. It is possible that during the edition of the infographic, some spelling or grammar errors have been produced in the included text. Check it and remember that long, unstructured paragraphs create an overload of information and should be avoided
  • Distracting elements. The visuals of an infographic should add interest and emphasise the key messages of the infographic. Therefore, do not include ‘distracting’ elements.
  • Distorted scale. Charts, images, or other visuals that have been distorted or pixelated detract from the quality of the infographic.
  • Special organization and hierarchy. Visual hierarchy is important to guide the audience through presented information in an infographic. If elements are organised arbitrarily the message of the infographic can be difficult to understand.

팁 12 인포그래픽을 효율적으로 배포하고 공유하기
Tip 12

Disseminate and share the infographics efficiently

인포그래픽의 성공을 위한 마지막 필수 단계는 배포 계획을 수립하는 것입니다(Murray, Murray, Wordie, Oliver, Murray 외, 2017). 이를 위해서는 대상 청중과 소통할 수 있는 가장 적절한 커뮤니케이션 채널을 선택하는 것이 필수적입니다. 보건 교육에서 저자는 청중이 접근할 수 없는 매체나 여러 가지 이유로 사용할 수 없는 채널도 고려해야 합니다(Giustini 외. 2018). 
The last essential step to achieve the success of any infographic is to draw up a dissemination plan (Murray, Murray, Wordie, Oliver, Murray, et al. 2017). For this, it is essential to choose the most appropriate communication channel to connect with the target audience. In health education, the author should even consider the media to which the audience does not have access or what channels cannot be used for various reasons (Giustini et al. 2018).

대상 청중이 광범위한 사회적 스펙트럼을 포괄하거나 연령대가 매우 다른 사람들을 포함하는 경우 인쇄 매체와 같은 전통적인 채널을 사용하는 것이 좋습니다(McCrorie 외. 2016). 그러나 온라인 리소스, 특히 소셜 네트워크가 선호됩니다(Wang et al. 2012). 소셜 네트워크는 24세 이하 인구 4명 중 1명이 과학 정보에 접근하기 위해 선택한 미디어이며(Hargittai 외. 2018), 인포그래픽은 특히 이러한 플랫폼에 적합합니다. 이러한 맥락에서 인포그래픽의 범위를 극대화하기 위해서는 '입소문'을 내기 위한 노력이 필요합니다(Thoma 외. 2018). 인포그래픽은 이미지 형태로 온라인(웹사이트, 소셜 미디어, 블로그)에 쉽게 게시할 수 있으며, 가장 인기 있는 소셜 미디어 플랫폼(Facebook, Pinterest, Twitter, Instagram, Google+ 등)에서 공유할 수 있습니다. 인포그래픽은 텍스트만 있는 요약본에 비해 소셜 미디어에서 8배 더 많이 공유됩니다(Ibrahim 외. 2017). 반면에 인포그래픽이 첨부된 연구 논문은 첨부되지 않은 논문보다 더 자주 액세스됩니다(Murray, Murray, Wordie, Oliver, Murray 외. 2017).  
If the target audience covers a wide social spectrum or includes people of very different ages, the use of traditional channels, such as a printed press, is recommended (McCrorie et al. 2016). However, online resources, especially social networks, are preferred (Wang et al. 2012). These are the chosen media for gaining access to scientific information by one out of four people up to 24 years old, (Hargittai et al. 2018) and infographics are particularly suited to these platforms. In this context, to maximise the scope of the infographic, efforts must be made to make it go ‘viral’ (Thoma et al. 2018). In the form of an image, an infographic can easily be posted online (website, social media, and blog) and can be shared on the most popular social media platforms (Facebook, Pinterest, Twitter, Instagram, Google+, etc.). Infographics are shared eight times more on social media compared with text-only summaries (Ibrahim et al. 2017). On the other hand, research articles accompanied by an infographic are accessed more frequently than those that have none (Murray, Murray, Wordie, Oliver, Murray, et al. 2017).

따라서 '공유 가능성'은 가상 건강 커뮤니케이션의 핵심 요소가 되었습니다. 독자를 초대하여 인포그래픽을 공유하도록 하는 것은 소셜 네트워크의 잠재력을 최대한 활용하는 데 유용합니다(Ventola 2014). 또한 무료 크리에이티브 커먼즈 라이선스를 취득하면 제3자가 인포그래픽을 쉽게 배포하고 재사용할 수 있습니다(Hagedorn 외. 2011). 이를 통해 크리에이터는 저작권을 유지하면서 다른 사람들이 자신의 저작물을 복사, 배포 및 비상업적으로 일부 사용할 수 있도록 허용할 수 있습니다. 
Therefore, ‘shareability’ has become a key element in virtual health communication. Inviting readers to share your infographics is useful for making the most of the potential of social networks (Ventola 2014). Besides, obtaining a free Creative Commons licence can also facilitate the dissemination and reuse of infographics by third parties (Hagedorn et al. 2011). This, helps creators to maintain their copyright while allowing others to copy, distribute, and make some non-commercially uses of their work.

보건 전문가들 사이에서 신속하고 신뢰할 수 있는 고품질 정보의 가용성은 현재 코로나바이러스 감염증 2019(COVID-19) 팬데믹 상황에서 글로벌 의료 대응을 최적화하는 데 유용했습니다(하마구치 외. 2020). 인포그래픽이 과학계와 사용자 모두에게 큰 영향을 미친 사례는 여러 곳에서 찾아볼 수 있습니다. 한 가지 예로 Chan 등(2020)이 만든 코로나19 중증 환자의 기관 내 삽관에 관한 인포그래픽을 들 수 있습니다. 이 인포그래픽은 과학 커뮤니티에서 빠르게 공유되어 10일 만에 13개의 번역 버전이 만들어져 사용자들에게 제공되었습니다. 단 한 달 만에 트위터에서 63,440건의 노출 수를 기록했습니다. 보건 교육 분야에서 Go 등(2020)은 원격 의료와 인포그래픽을 결합하여 환자가 집에서 배액관을 제거하는 방법을 교육하고 안내함으로써 병원 입원 기간과 수술 후 외래 방문을 줄여 바이러스 확산 및 전염 가능성을 줄이는 데 기여할 수 있는 효과적이고 안전한 방법을 보여주었습니다. 
Among health professionals, the availability of rapid and reliable high-quality information has been valuable for optimising global medical response in the current coronavirus disease 2019 (COVID-19) pandemic (Hamaguchi et al. 2020). A number of examples where infographics have had a wide impact, both in the scientific community and in users, can be found. One instance is an infographic about endotracheal intubation in critical patients with COVID-19, which was created by Chan et al. (2020). It was quickly shared by the scientific community resulting in 13 translated versions that were available for users within a 10-day express period. In just one month, it had 63,440 impressions on Twitter. In health education, Go et al. (2020) demonstrated the effective and safe combination of telemedicine and an infographic to educate and guide patients on drain removal at home, which can reduce hospital length of stay and the outpatient visits to the hospital after a surgical intervention, thus, contributing to reducing the possibilities of virus spread and contagion.

마지막으로, 과학적 정보를 전파하는 데 소셜 네트워크를 사용하려면 책임감 있고 엄격한 사용이 필요합니다(Kind et al. 2014). 의료 정보를 자유롭게 공개하는 것의 효과에 대한 좋은 사례를 제공할 수 있는 FOAM(Free Open Access Medical Education) 네트워크의 원칙을 참고하는 것도 좋은 방법입니다. 
Finally, the use of social networks in the dissemination of scientific information requires responsible and rigorous use (Kind et al. 2014). An interesting recommendation is to consult the principles of Free Open Access Medical education (FOAM) networks, which can provide good examples of the effectiveness of making medical information freely available.

결론
Conclusions

이러한 실용적인 팁은 연구 내용을 전파하고, 환자에게 교육 자료를 제공하고, 보건학 학부생에게 실습을 통해 학습을 유도하려는 임상의와 의학교육자에게 유용할 것입니다. 이 글의 내용을 다양한 디자인으로 설명한 인포그래픽 두 가지 예시를 제공합니다(보충 자료, 온라인 버전). 
These practical tips will be useful to clinicians and medical educators looking to disseminate research contents, provide educational materials to the patients, and induce learning by doing in health science undergraduates. Two examples of infographics that illustrate the content of this article using different designs are provided (Supplementary Material, online version).

마지막으로, 좋은 인포그래픽을 디자인하는 것은 쉽지 않고 시간과 연습이 필요하며 그래픽 디자이너와의 협업을 적극 권장합니다. 그러나 동료, 환자 및 학생들과의 건강 커뮤니케이션에서 많은 이점을 얻을 수 있습니다.
Finally, it should be remembered that designing a good infographic is not easy and requires time and practice, and collaboration with graphic designers is highly recommended. However, many benefits can be obtained in health communication with peers, patients, and students.

알버트 아인슈타인은 복잡한 내용을 전달하는 데 따르는 어려움을 잘 알고 있었으며, '간단하게 설명할 수 없다면 충분히 이해하지 못한 것이다'라는 말을 남겼습니다. 현재 관리하고 있는 정보 중 청중과 소통하고 싶은 정보를 인포그래픽으로 제작하고, 그 과정을 통해 학습하는 것이 좋습니다.
Albert Einstein was aware of the difficulties involved in communicating complex content, and said: ‘If you can’t explain it simply, you don’t understand it well enough’. We encourage you to build an infographic with information that you are currently managing and are interested in communicating with an audience, through learning by doing the process.


Med Teach. 2021 Dec;43(12):1353-1359. doi: 10.1080/0142159X.2020.1855323. Epub 2020 Dec 20.

Twelve tips to make successful medical infographics

Affiliations collapse

Affiliations

1Traslational Research Centre of Physiotherapy, Department of Pathology and Surgery, Faculty of Medicine, Miguel Hernandez University, Alicante, Spain.

2Department of Behavioral Sciences and Health, Faculty of Medicine, Miguel Hernandez University, Alicante, Spain.

PMID: 33342338

DOI: 10.1080/0142159X.2020.1855323

Abstract

In the health sciences, professionals must keep up to date to conduct their evidence-based practise. Hence, there is a growing need to share medical knowledge efficiently among healthcare professionals, patients, and undergraduate health science students. Infographics (text and image) are a hybrid element that serves to represent information in an attractive and meaningful visual format. Actually, with the use of the Internet and social networks, infographics have become a popular format for sharing medical information around the world.On the basis of a published literature review, we provide 12 tips in this article to make a successfully health-related infographic with the aim of assisting clinicians, educators, and researchers in their task of communicating and transforming complex information into a visual, attractive, didactic and shareable format.By following these basic recommendations, it is possible to improve the dissemination of scientific and health-related knowledge to different audiences who can benefit from infographics.

Keywords: Teaching and learning; communication skills; student support.

행복은 무엇인가? 의학교육을 위한 비판적 내러티브 리뷰(Perspect Med Educ. 2023)
What about Happiness? A Critical Narrative Review with Implications for Medical Education
FABIENNE SCHWITZ, JACQUELINE TORTI, LORELEI LINGARD

소개
Introduction

30년이 넘는 기간 동안 우리는 직장에서의 의사 웰빙 문제에 대해 논의해 왔습니다. 의사 웰빙과 삶의 만족도 및 웰빙과 같은 관련 개념에 대한 학계에서는 소진의 원인 및 영향 분석[1, 2, 3], 의사들의 건강 문제 및 잠재적 해결책 파악[1, 4, 5], 웰빙과 균형 추구[6, 7, 8], 의사들의 회복력 향상을 위한 개입[9, 10, 11, 12] 등을 수행해왔습니다. 이 연구들은 의학교육과 의학에서 웰빙을 개선하기 위한 운동에 영향을 미쳤습니다[13, 14]. 이 운동의 주요 차원은 조직 전략의 변화[1, 12], 교수진 개발을 통한 수련 중인 의사의 복지 증진[13, 15], 개인 요인의 체계적 강화[1, 12, 15] 등입니다. 
For more than 30 years, we have been discussing the issue of physician wellbeing at work. Scholarship on physician wellbeing and related concepts such as life satisfaction and wellness has: analysed contributors and impacts of burnout [1, 2, 3], identified health problems among physicians and potential solutions [1, 4, 5], explored wellness and the pursuit of balance [6, 7, 8], and implemented interventions to improve resilience among physicians [9, 10, 11, 12]. This scholarship has informed a movement to improve wellbeing in medical education and medicine [13, 14]. Main dimensions of this movement are: changing of organizational strategies [1, 12], promoting the wellbeing of physicians in training through faculty development [13, 15] and systematic strengthening of individual factors [1, 12, 15].

이러한 풍부한 연구와 개선 이니셔티브에도 불구하고 의사 복지 문제는 거의 개선되지 않은 것으로 보입니다[15]. 2016년부터 2019년까지 미국 의과대학 졸업 설문조사 및 2학년 설문조사 데이터에 따르면 의대생들은 목표한 노력에도 불구하고 개선의 조짐이 보이지 않습니다[16, 17]. 의학전문대학원 교육인증위원회에서도 매년 레지던트와 교수진을 대상으로 설문조사를 실시하고 있지만, 설문지 구조의 변화와 팬데믹의 발병으로 인해 최근 몇 년간의 웰빙 변화를 분석하기는 어렵습니다. 분명한 것은 의사들의 정신 질환과 자살이 증가했다는 점이며[18], 이는 의사들의 정신 건강 증상 비율이 높다는 데이터[19]에 의해 뒷받침됩니다. 게다가 코로나19 팬데믹은 상황을 더욱 악화시킨 것으로 보입니다. 의료 종사자의 정신 건강에 미치는 잠재적 영향이 연구되었으며[20], 의료 전문가들 사이에서 스트레스, 불안 및 우울 증상에 대한 일관된 보고가 있었습니다[21]. 따라서 의사의 웰빙을 위한 노력이 왜 실패하는지에 대한 질문은 특히 시급합니다. 
Despite this wealth of scholarship and improvement initiatives, the problem of physician wellbeing seems to have improved very little [15]. Data from the Association of American Medical Colleges Graduation Questionnaire and Year 2 Questionnaire from 2016 to 2019 show no sign of improvements among medical students despite targeted efforts [16, 17]. The Accreditation Council for Graduate Medical Education also surveys residents and faculty annually, but changes to wellbeing in recent years are challenging to analyze due to a change in the structure of the questionnaire and the onset of the pandemic. What is clear is that mental illness and suicide among doctors has increased [18], supported by data highlighting high rates of mental health symptoms among physicians [19]. Furthermore, the COVID-19 pandemic appears to have worsened the situation. Its potential impact on the mental wellbeing of health workers has been studied [20], with consistent reports of stress, anxiety and depressive symptoms among healthcare professionals [21]. Thus, the question of why physician wellbeing efforts are unsuccessful is particularly pressing.

한 가지 이유는 개념적인 문제일 수 있습니다. 의사 웰빙을 중심으로 형성된 일련의 개념들 중에서 '행복'이라는 개념은 크게 부각되지 않습니다. 행복은 다른 영역에서 풍부하게 이론화된 개념입니다. 행복은 여러 가지 다른 구성에 사용되며[22, 23], 정서적 웰빙과 유다이모니아 또는 유다이모닉 웰빙(삶의 의미와 목적)을 구분하는 것은 고대부터 인식되어 왔습니다[22]. 웰빙과 행복이라는 두 가지 조건은 문헌에서 서로 연관되어 있거나 심지어 혼용되기도 하지만, 그 관계는 명확하지 않습니다. 이 검토는 '행복'이라는 용어가 의학교육에서 의사의 웰빙에 대한 논의에 영향을 미칠 수 있는 추가적인 고유한 의미를 내포할 수 있다는 가정에서 출발했습니다. 다른 학자들도 비슷한 생각을 가지고 있습니다. 예를 들어, 앨런 피터킨은 '우리의 수련과 업무에서는 즐거움과 행복pleasure and happiness이 소홀히 다루어지고 있다'고 지적했습니다[24]. 따라서 저희는 두 가지 질문에 따라 비판적 내러티브 검토를 진행했습니다: '의사의 웰빙에 관한 의학교육 문헌에서 행복은 어떻게 등장하고 있는가?' 그리고 '의학 밖에서 행복은 어떻게 개념화되고 있는가?'입니다. 우리는 의학교육에서 행복의 특징이 있는지 여부와 그 방식, 다른 선택된 영역에서 행복의 구성이 어떻게 이해되는지, 그리고 앞으로 의사 웰빙에 대한 학문을 풍부하게 하기 위해 다른 영역의 이해를 어떻게 채택할 수 있는지 설명하는 것을 목표로 합니다. 
One reason might be conceptual. Amid the suite of concepts around which physician wellbeing work has formed, the notion of ‘happiness’ does not strongly feature. Happiness is a richly theorized construct in other domains. It is used for a number of different constructs [22, 23], and a distinction between affective wellbeing and eudaimonia or eudaimonic wellbeing (meaning and purpose of life) has been recognised since antiquity [22]. While the two conditions, wellbeing and happiness, are related (or even perhaps conflated) in the literature, their relationship is not clear. This review arises from our assumption that the term ‘happiness’ may carry additional, distinctive meanings that could influence the conversation about physician wellbeing in medical education. Other scholars have had similar ideas: e.g., Alan Peterkin has noted that ‘pleasure and happiness are neglected in our training and in our work’ [24]. Thus, we conducted a critical narrative review guided by two questions: ‘How does happiness feature in the medical education literature on physician wellbeing?’ and ‘How is happiness conceptualized outside medicine?’ We aim to describe whether and how happiness features in medical education, how the construct of happiness is understood in other select domains, and how we might adopt understandings from other domains to enrich the scholarship of physician wellbeing at work going forward.

연구 방법
Methods

이 비판적 내러티브 리뷰는 내러티브 리뷰 논문 평가 척도(SANRA) 절차[25]를 따랐으며 칼케의 연구[26]에서도 정보를 얻었습니다. 우리의 목표는 광범위한 문헌을 탐색하고 내러티브 리뷰의 핵심적인 기여, 즉 학문적 대화를 발전시키는 심화된 이해를 달성할 수 있는 작품을 의도적으로 선별하여 강조하는 것이었습니다[27]. 
This critical narrative review followed the Scale for the Assessment of Narrative Review Articles (SANRA) procedure [25] and was also informed by Kahlke’s work [26]. Our goal has been to explore a wide-ranging literature and to be deliberately selective in highlighting works that allow us to achieve the key contribution of a narrative review: deepened understanding that advances the scholarly conversation [27].

우리의 검토는 '의사 웰빙에 관한 의학교육 문헌에서 행복은 어떻게 나타나는가'라는 질문에서 시작되었습니다. '행복'은 광범위하고 다면적인 개념으로, 단일 검토로는 포괄적으로 포착하기 어려우므로, 직장에서의 의사 행복에 대한 관심을 고려하여 "직장 행복workplace happiness"이라는 용어를 사용하여 조사에 초점을 맞췄습니다. 사서의 도움을 받아 의학 문헌에서 '직장 행복과 의사'에 대한 구조화된 문헌 검색을 PubMed, CINHAL, PsycINFO 데이터베이스에서 실시했습니다. 선별 과정에서 '행복'(또는 '행복한' 등의 파생어)이라는 용어가 정의나 개념화 없이 그대로 포함된 기록은 제외했습니다. 예를 들어, 한 논문에서는 병리학자의 52%가 자신의 직업에 '행복하다'고 언급했지만 행복이 어떻게 이해되는지 설명하지 않았습니다[28]. 
Our review began with the question ‘How does happiness feature in the medical education literature on physician wellbeing?’ ‘Happiness’ is a broad and multifaceted concept, one which a single review would struggle to comprehensively capture; given our interest in physician happiness at work, we used the term “workplace happiness” to focus our inquiry. We conducted a structured literature search in the medical literature for ‘workplace happiness AND physicians’ in the databases PubMed, CINHAL and PsycINFO with librarian assistance. In the screening process, we excluded records that contained the term ‘happiness’ (or derivatives such as ‘happy’) in passing, without definition or conceptualization. For example, one article mentioned that 52% of pathologists are ‘happy’ with their job but did not describe how happiness was understood [28].

의학교육에 대한 기록을 확인한 다음, 두 번째 질문인 '행복이라는 용어가 의학 밖에서는 어떻게 사용되는가'를 해결하기 위해 인문사회과학 문헌을 검색했습니다. Web of Science, Embase 및 Scopus에서 '직장 행복'과 '행복'의 의도적인 조합을 사용하여 검색했습니다. 회색 문헌에서 검색한 내용은 구글 스콜라에서 TED 강연에 이르기까지 광범위한 스펙트럼을 포괄했습니다. 심리학, 사회학, 철학, 여성학, 의학교육 분야의 전문가들과의 토론을 통해 관련 자료를 찾아냈습니다. 행복의 개념화를 완전히 탐구하는 것이 아니라 각 학문 분야에서 행복이라는 용어를 어떻게 사용하는지 이해하는 것이 목적이었기 때문에 검색에서 행복의 동의어는 사용하지 않았습니다. 
Having identified the records in medical education, our next step was a humanities and social sciences literature search to address the second question, ‘How is the term happiness used outside medicine?’ We searched using purposeful combinations of ‘workplace happiness’ and ‘happiness’ in Web of Science, Embase and Scopus. Searches in the grey literature covered a broad spectrum from Google Scholar to TED Talks. Discussion with experts from psychology, sociology, philosophy, women studies and medical education helped us identify relevant sources. We did not use synonyms for happiness in our search, as our intent was not a full exploration of the conceptualization of happiness but rather an understanding of how these disciplines use the term happiness.

저자들은 두 가지 수준에서 데이터베이스의 충분성을 판단했습니다.

  • 첫째, 행복이 이론화되는 다양한 학문을 대표하고자 했습니다. 구조화된 검색을 통해 사회학, 심리학, 경제학, 조직행동학에서 출처를 찾을 수 있었기 때문에 이러한 분야를 중심으로 결과를 도출했습니다. 비판적 내러티브 검토는 포괄적인 기록이 아닌 선별적인 기록을 수집하는 것이므로, 이 범위의 학문 분야는 향후 연구의 기초가 되는 유용한 통찰력을 제공하기에 충분하다고 판단했습니다.
  • 두 번째 충분성의 기준은 행복에 관한 주요 개념을 표현하기 위해 각 분야의 기록이 얼마나 많이, 그리고 어떤 기록이 필요한지와 관련이 있습니다. 저자들은 특정 수의 기록에 대한 임계값을 설정하는 대신, 기록이 개념을 충분히 강력하게 설명하는지 여부를 고려했습니다. 선별된 기록을 분석하면서 개념을 설명하고 추가 기록에서 중복을 인식할 수 있으면 충분하다고 판단했습니다. 이러한 판단을 내릴 수 없는 경우에는 추가 기록을 찾았습니다.

전반적으로, 우리는 의학교육에서 이 주제에 대한 우리의 생각을 발전시킬 수 있는 다양한 행복 개념에 대한 설명을 뒷받침할 수 있는 문헌의 능력을 기준으로 문헌 선택을 정당화했습니다. 이 과정은 비판적 내러티브 리뷰에서 엄격함의 본질입니다[26]. 
The authors judged the sufficiency of our database on two levels. First, we sought to represent a range of disciplines in which happiness is theorized. Because our structured search returned sources from sociology, psychology, economics and organizational behaviour, these became the focus of our results. Critical narrative review involves compiling a selective rather than comprehensive set of records; we judged this range of disciplines sufficient to provide useful insights on which to base future research. The second point of sufficiency relates to how many and which records from each discipline are necessary to represent key notions around happiness. Rather than setting a threshold for a specific number of records, the authors instead considered whether the records offered a sufficiently robust description of the concept. As we analysed selected records, we judged them sufficient once we could explain the concept and recognize redundancies in additional records. Where we could not make this judgment, we sought additional records. Overall, we justified the choice of literature based on its ability to support a description of different conceptualizations of happiness that could advance our thinking on the topic in medical education. This process is the essence of rigour in critical narrative reviews [26].

심사 및 선정은 연구팀 구성원의 성향에 따라 결정되었습니다. 우리 그룹에는 인문학에 학문적 뿌리를 둔 시니어 의학교육 연구자, 공중보건 및 건강 증진에 뿌리를 둔 초기 경력 의학교육 연구자, 의학교육 석사 과정을 마친 심장학 교육자 등이 포함되어 있습니다. 예를 들어, 우리 모두는 의학교육학에 익숙했지만 두 명은 사회과학, 심리학, 조직행동학 분야의 학문과 어휘에 익숙했지만 경제학 학문에 대해서는 전혀 알지 못했습니다. 이는 검색에서 검색된 특정 개념에 대한 우리의 통찰력과 열정에 항상 영향을 미쳤지만, 우리는 함께 검색된 모든 기록에 대해 동일한 관심을 가지고 다루려고 노력했으며 서로가 익숙하지 않은 부분을 해석하기 위해 서로를 지원했습니다. 
Screening and selection were shaped by the orientations of our research team members. Our group includes a senior medical education researcher with disciplinary roots in the humanities, an early career medical education researcher with roots in public health and health promotion, and a cardiology educator completing a masters in medical education. We brought to the review different degrees of familiarity and comfort with the disciplines we were searching: for instance, we were all familiar with medical education scholarship, but two of us were also familiar with scholarship and vocabulary from social sciences, psychology and organizational behaviour, while none of us were familiar with economics scholarship. This invariably influenced our insights and enthusiasms for particular concepts retrieved in our search, but together we endeavoured to address all retrieved records with the same attention and support each other to interpret those we were less familiar with.

의학교육에 초점을 맞춘 검색과 광범위한 다분야 검색을 위해 기록을 선별하고 선택한 후, 연구의 신뢰성을 높이기 위해 콘텐츠 분석을 수행했습니다. 내용 분석을 통해 행복의 정의와 개념화, 아이디어의 학문적 기원, 연관성 및 유사성, 차이점 또는 긴장감 등 다양한 범주로 데이터를 체계적으로 정리할 수 있는 방법을 제시했습니다. 개념 매핑을 통해 이러한 범주 간의 관계를 시각화할 수 있었고, 이러한 관계에 대한 해석에 정보를 제공했습니다. 
After screening and selection of records for both the focused medical education search and the broader, multi-discipline search, content analysis was done to enhance the trustworthiness of the study. Content analysis offered a way to arrange the data systematically into distinct categories, including definitions and conceptualizations of happiness, disciplinary origin of ideas, connections and similarities, and differences or tensions. Concept mapping enabled us to visualize the relationships among these categories, and informed our interpretation of these relationships.

결과
Results

검색 결과 401개의 레코드가 검색되었습니다. 초록 및 제목 스크리닝을 거쳐 28건이 전체 텍스트 검토 대상으로 선정되었고, 이 중 13건이 포함되었습니다. 여기에 수작업 검색과 회색 문헌에서 10건이 추가되어 총 23건이 포함되었습니다. 의학교육에 초점을 맞춘 검색에서 4개의 기록이 나왔습니다. 두 번째 광범위한 검색에서는 심리학(8건), 조직 행동(6건), 경제학(2건), 사회학(3건)의 기록이 나왔습니다. 이러한 학문적 범주는 필연적으로 단순화할 수밖에 없지만, 다음 섹션에서는 기록에서 행복을 특징짓는 방식에서 학문적 패턴을 강조하기 위한 조직 구조로 사용합니다(그림 1: 행복의 특징짓기에서의 학문적 패턴). 의학교육 기록을 분석한 결과, 이 장학금이 심리학적 개념만을 사용했음을 알 수 있었기 때문에 첫 번째 연구 질문에 해당하는 이러한 기록을 해당 섹션에 포함시켰습니다. 의학교육 기록의 수가 적기 때문에 연구 결과의 대부분은 두 번째 연구 질문에 관한 것입니다. 이 문헌에서는 용어가 다양하고 상호 교환적으로 사용되었지만(크롬비가 Frawley에서 인용)[29], 일관성을 위해 다른 용어를 사용하는 기록에서 인용하는 경우를 제외하고는 의도적으로 '행복'이라는 용어를 사용했습니다. 
Our searches retrieved 401 records. After abstract and title screening, 28 were selected for full-text review, of which 13 were included. An additional 10 were included from hand-searching and grey literature for a total of 23. Our focused medical education search yielded 4 records. Our second, broader search yielded records from psychology (8), organizational behavior (6), economics (2) and sociology (3). While such disciplinary categories are necessarily simplifications, we use them in the following sections as organizing structures to highlight disciplinary patterns in how the records characterize happiness (Figure 1: Disciplinary patterns in the characterization of happiness). Because our analysis of the medical education records showed that this scholarship exclusively employed psychological concepts, we have included these records (which address our first research question) in that section. Because of the small number of medical education records, the bulk of our results address our second research question. Terminologies vary and are used interchangeably in this literature (Cromby cited in Frawley) [29]; however, for consistency we deliberately use the term ‘happiness’ except when quoting from a record that uses another term.

심리적 개념으로서의 행복
Happiness as a psychological concept

행복에 대한 심리적 개념은 주로 개인적 접근이라는 공통점이 있습니다. 이 섹션에서는 의학교육에서 이미 다루어진 개념을 포함하여 직장에서의 의사 웰빙과 특히 관련성이 있는 네 가지 심리적 개념을 강조합니다. 
Psychological concepts of happiness have in common a predominantly individual approach. In this section, we highlight four psychological concepts that have particular relevance in the context of physician wellbeing at work, including those that have already been taken up in medical education.

첫 번째 개념은 플로우(몰입) 이론[30]으로, 행복하기 위해서는 도전과 능력 사이의 이상적인 균형 상태인 플로우 느낌이 필요하다는 것입니다. 플로우란 집중력, 황홀감, 내면의 명료함, 평온함을 느끼고, 어떤 활동이 가능하다는 것을 알고, 시간을 초월한 느낌과 내재적 동기를 느끼는 상태입니다[31]. 플로우는 여가 시간보다 직장에서 더 많이 발생하는 경향이 있습니다[32]: 예를 들어 음악가는 콘서트 중에 플로우 상태에 도달할 수 있습니다. 플로우라는 개념은 긍정 심리학에서 유래했습니다. 플로우 이론에 대한 심리학자 칙센트미하일리의 초기 연구에는 외과의사가 포함되었으며, 플로우 개념은 직업적 즐거움, 성과 및 직장 행복 증진에 관한 논문에서 의학교육에서 다루어졌습니다[33, 34]. 이 연구에서는 코칭, 심리 기술 훈련, 정신 기술 훈련 또는 스트레스 관리 훈련과 같은 개별 개입 훈련을 통해 플로우를 지원했습니다[33]. 의료 서비스에서 플로우를 지원하려면 환자 치료 시간을 늘리고, 행정 업무를 최소화하고, 건설적인 학습 환경을 조성하는 등 시스템 차원의 보완적인 개입이 필요한 것으로 인식되고 있지만, 시스템 차원의 연구는 흔하지 않습니다[33, 35].
The first concept is flow theory [30], which states that you need a flow feeling – a state of ideal balance between challenges and abilities—to be happy. Flow is a state of being focused; having a sense of ecstasy, inner clarity and serenity; knowing that an activity is doable; feeling timelessness and intrinsic motivation [31]. Flow tends to occur at work more than in leisure time [32]: e.g., a musician could reach a flow state during a concert. The concept of flow has its origin in positive psychology. The initial study about flow theory by psychologist Csíkszentmihályi included surgeons, and the concept of flow has been taken up in medical education in a paper about enhancing career enjoyment, performance and workplace happiness [33, 34]. This work supported flow through training in individual interventions such as coaching, psychological skills training, mental skills training or stress management training [33]. While supporting flow in health care is recognized to require supplementary system-level interventions, such as increasing time for patient care, minimizing administrative tasks, and promoting constructive learning environments, scholarship at the system level is less common [33, 35].

긍정 심리학의 두 번째 개념은 인위적synthetic 행복입니다. 이 용어는 다니엘 길버트가 2004년 TED 강연에서 만들었지만, 이후 그의 저서에서는 이 용어를 사용하지 않습니다. 원하는 것을 얻었을 때 느끼는 '자연적 행복'과는 대조적으로, '인위적 행복'은 원하는 것을 얻지 못했을 때 만들어지는 행복입니다[36]. 하버드 대학교 심리학자 다니엘 길버트가 만든 용어인 합성 행복은 심리적 면역 체계와 같은 역할을 하여 '상황에 대처할 수 있을 만큼 기분이 좋으면서도 무언가를 할 수 있을 만큼 나쁘지 않은 균형'을 유지합니다[36, 37]. 우리는 우리가 가진 것이 어차피 우리가 선택했을 것이라고 스스로 확신합니다. 예를 들어, 임상실습생들은 각 전문과목을 순환하면서 각 과목을 좋아하거나 싫어하는 점을 인정하지만, 레지던트 기간 동안에는 이미 선택이 이루어졌기 때문에 그 선택에 만족한다고 스스로를 설득할 가능성이 높습니다. 인위적인 행복은 우리가 가진 것을 좋아하는 방법을 찾는 데 도움이 됩니다. 그러나 인위적 행복은 '거짓'이 아니며, 길버트는 '인위적 행복은 자연적 행복만큼이나 현실적이고 지속적'이라고 주장하며[36], 불완전한 일터에서 행복해지는 데 시사점을 줄 수 있다고 말합니다.
The second concept from positive psychology is synthetic happiness. The term was coined by Daniel Gilbert in a 2004 TED Talk, although his subsequent writings do not use it. Contrasted with ‘natural happiness’ which is what we feel when we get what we want, ‘synthetic happiness is what we make when we do not get what we want’ [36]. A term coined by Harvard psychologist Daniel Gilbert, synthetic happiness acts like a psychological immune system, to ‘[strike] a balance that allows us to feel good enough to cope with our situation but bad enough to do something about it’ [36, 37]. We convince ourselves that we have is what we would have chosen anyway. For instance, clinical clerkship students acknowledge what they like or dislike about each specialty as they rotate through them, but during residency their choice is already made, so they are likely to convince themselves that they are happy with it. Synthetic happiness helps us to find a way to like what we have. However, synthetic is not ‘false’; Gilbert argues that ‘synthetic Happiness is as real and enduring as the natural happiness’ [36], suggesting it could have implications for being happy in an imperfect workplace.

마지막으로, 긍정 심리학의 두 가지 관련 개념인 번영과 마음챙김이 기록에 등장했습니다[38, 39]. 

  • 번영꽃의 성장에 비유한 것으로, 최적의 생활, 삶의 과제 숙달, 친절, 개인적 성장, 회복탄력성에 의해 결정되는 라이프스타일을 의미합니다. 긍정적 감정, 참여, 관계, 의미, 성취 등 다섯 가지 기둥이 필요합니다[40]. 이러한 요소는 깊은 성취감을 느끼는 삶을 위한 기본 전제 조건입니다.
  • 마음챙김자각에 집중함으로써 달성되는 정신 상태로 설명됩니다. 마음챙김은 번영과 특징을 공유하지만, 그 순간에 판단하지 않고 주의를 기울이는 연습입니다. 마음챙김을 '행복 증진'을 위한 일련의 개입의 일부로 사용한 사례는 단 한 건에 불과했으며4, 다른 연구에서는 행복 증진을 마음챙김의 명시적 목표로 제시하지 않았습니다.

Finally, two related concepts from positive psychology occurred in our records: flourishing and mindfulness [38, 39].

  • Flourishing draws on the metaphor of flower growth, and refers to a lifestyle determined by optimal living, mastering life’s tasks, kindness, personal growth, and resilience. Five pillars are required: positive emotion, engagement, relationships, meaning, and accomplishment [40]. These factors form the basic precondition for a life of profound fulfilment.
  • Mindfulness is described as a mental state achieved by focusing one’s awareness. While it shares features with flourishing, it is the practice of non-judgmental attention in the moment. Only one record used mindfulness as part of a suite of interventions to ‘increase happiness’4; the others did not articulate increased happiness as an explicit goal of mindfulness.

조직의 개념으로서의 행복
Happiness as an organizational concept

행복에 대한 조직적 접근 방식은 개인이 성인 생활의 대부분을 일하면서 보낸다는 전제에서 출발합니다. 따라서 직장에서의 행복은 삶의 전반적인 행복의 핵심 요소입니다. 이 섹션에서는 직무 만족도, 생산성, 직원 참여도 등 직장에서의 행복과 관련된 주요 개념을 강조합니다. 
Organizational approaches to happiness arise from the premise that individuals spend most of their adult lives working. As such, happiness in the workplace is a key component of overall happiness in life. In this section, we highlight key concepts in our records that were associated with happiness at work, including job satisfaction, productivity, and employee engagement.

행복에 관한 조직 문헌에서 흔히 볼 수 있는 개념은 '직무 만족도'입니다. 직원의 행복에 기여하는 직무 만족의 구성 요소에는 일시적, 개인(직원), 조직 또는 집단적 차원의 측면이 포함됩니다[41, 42]. 

  • 일시적 수준의 직장 행복 기여도에는 순간적 영향, 직장에서의 감정 및 흐름 상태가 포함됩니다 [43]. 
  • 직원 차원의 직장 행복에 대한 기여에는 고용 안정, 의미 있는 업무, 동료와의 긍정적인 관계, 인정, 자율성 및 참여가 포함됩니다[44].
  • 조직적 측면에서 직장 행복에 기여하는 것은 성장 기회, 보상, 업무 유연성, 긍정적인 업무 환경, 일과 삶의 균형, 조직 문화 등이 포함됩니다[44]. 

A common idea in the organizational literature about happiness is ‘job satisfaction’. Components of job satisfaction that contribute to employee happiness include aspects at the transient, individual (employee) and organizational or collective level [41, 42].

  • Transient-level contributions to workplace happiness include momentary affect, emotion at work and flow state [43].
  • Employee-level contributions to workplace happiness include job security, meaningful work, positive relationships with coworkers, recognition, autonomy and engagement [44].
  • The organizational aspects that contribute to workplace happiness include opportunities for growth, compensation, job flexibility, a positive work environment, work-life balance, and organizational culture [44].

고용주(리더)와 개인(팔로워) 모두 건설적인 의견 불일치dissensus를 통해 행복에 기여하는 조직적 측면을 형성하는 데 중요한 역할을 합니다[45]. 건설적인 의견 불일치란 신념과 가치를 공유하는 등 리더와 팔로워 간의 상호 이해를 통해 직장에서의 삶의 질을 향상시키는 것을 말합니다. 직장 내 행복을 개선하기 위한 개입은 다각도로 이루어져야 하며, 개인의 행복을 개선하는 것뿐만 아니라 직무 성과와 직원 유지율을 높이기 위한 조직적 측면에도 초점을 맞춰야 합니다[45].
Both the employer (leader) and the individual (follower) play a strong role in shaping organizational aspects that contribute to happiness through constructive dissensus [45]. Constructive dissensus refers to a mutual understanding between leaders and followers, including shared beliefs and values, leading to improved quality of life at work. Interventions aimed at improving workplace happiness should be multi-faceted and focus both on improving individual happiness as well as the organizational aspects to enhance job performance and employee retention [45].

행복-생산적 근로자 이론에 따르면, 모든 것이 동등할 때, 행복한 근로자가 행복하지 않은 근로자보다 더 나은 성과를 낸다고 합니다. 이 아이디어는 지난 20년간 경영 및 조직 심리학 연구의 성배로 여겨져 왔습니다. 긍정 심리학에 뿌리를 둔 행복-생산적 근로자 이론은 '직장에서의 행복의 결과로서의 생산성'에 명시적으로 초점을 맞추고 있습니다[46]. 이 논문에서 행복은 다양한 구성 요소(정동, 웰빙, 소진, 삶의 만족도, 성장 및 목적)에 의해 작동되었으며, 이는 일반적으로 행복한 사람들이 더 생산적이지만 직장에서 특별히 행복한 사람들이 반드시 그렇지는 않다는 경험적 문헌의 결정적이지 않은 특성을 설명할 수 있습니다.  
The happy-productive worker thesis states that all things being equal, happy workers perform better than those who are less happy. This idea has been the holy grail of management and organizational psychology research for two decades. With roots in positive psychology, the happy-productive worker thesis explicitly focuses on ‘productivity as a consequence of happiness at work’ [46]. Happiness in this thesis was operationalized by a diversity of constructs (affect, wellbeing, burnout, life satisfaction, growth and purpose), which may explain the inconclusive nature of the empirical literature, which finds that people who are happy in general are more productive, but people who are happy specifically at work are not necessarily so.

'몰입도Engagement'는 직장에서의 행복을 측정하는 중요한 차원이었습니다[47]. 직장 몰입직원들이 직장에서 신체적, 인지적, 정서적으로 자신을 표현하는 방식을 포함하는 지속적인 정서적 상태로 정의됩니다. 몰입의

  • 신체적 측면은 개인이 업무를 수행하기 위해 소비하는 에너지에 초점을 맞추고,
  • 인지적 측면은 조직에 대한 직원의 믿음에 초점을 맞추고,
  • 정서적 측면은 조직에 대한 직원의 느낌에 초점을 맞추고 있습니다 [48].

직장 내 행복Workplace happiness '조직 내 직원과 업무 관계에서부터 효율적인 생산과 고객 만족이라는 최종 결과에 이르기까지 다양한 상호 연계된 요소의 결과로 나타나는 직장에서의 긍정적인 결과'입니다[47]. 조직 행동 문헌은 몰입과 생산성을 연결합니다. 조직 몰입이 조직 성장, 운영 비용 절감, 결근율 감소, 이직 의도 감소와 같은 구성 요소와 긍정적인 상관관계가 있다고 설명하는 조직 문헌은 행복의 경제학을 설명하기 시작했으며, 이는 우리가 분석한 경제 기록에서 더욱 명확하게 드러납니다.
‘Engagement’ was a crucial dimension of measuring happiness at work [47]. Workplace engagement is defined as a persistent affective state that includes how employees express themselves physically, cognitively, and emotionally at work.

  • The physical aspect of engagement focuses on the energy expended by individuals to perform their job, while
  • the cognitive aspect focuses on employees’ beliefs about their organization and
  • the emotional aspect focuses on how employees feel towards the organization [48].

Workplace happiness is the ‘positive outcomes at the workplace which are a result of many interlinked factors ranging from employee-work relation within the organization to the end results of efficient production and customer satisfaction’ [47]. The organizational behavior literature connects engagement to productivity. Describing engagement as having a positive correlation with constructs like organization growth, lower operational costs, lower absenteeism, and decreased intentions to turnover [47], the organizational literature begins to articulate an economics of happiness which is even more explicit in the economic records we analyzed.

경제적 개념으로서의 행복
Happiness as an economic concept

행복에 대한 경제적 접근 방식은 행복한 근로자가 경제를 향상시킨다는 입장에서 비롯됩니다. 따라서 행복을 추구하는 것 또한 점점 더 많은 비즈니스가 되고 있습니다. 이 섹션에서는 '행복 산업'과 관련된 측면을 강조합니다.
Economic approaches to happiness arise from the position that happy workers improve the economy. Therefore, the search for happiness has also become more and more of a business. In this section, we highlight the aspects related to the ‘happiness industry’.

행복은 경제학의 핵심 개념입니다. 세계은행과 세계보건기구(WHO)와 같은 글로벌 기관들은 주관적 행복과 경제적 웰빙의 관계를 인정하고 있으며[29], 2012년부터는 세계행복보고서에서 경제적 건강의 지표로 국가의 행복을 추적하고 있습니다. '행복 경제학'은 행복을 객관적이고 측정 가능한 실체, 즉 '계산 가능한 단위로 환원할 수 있는 것'으로 간주합니다[29]. 행복을 국내총생산, 소비자 지출, 고용률과 같은 친숙한 종류의 경제적 자본으로 전환하는 것을 목표로 개인 및 그룹 수준에서 행복을 계산합니다.
Happiness is a central concept in economics. Global institutions such as the World Bank and the World Health Organization embrace the relationship between subjective happiness and economic wellbeing [29], and, since 2012, the World Happiness Report has tracked the happiness of countries as a marker of economic health. ‘Happiness economics’ conceives of happiness as an objective, measurable entity, something that can be ‘reduced to calculable units’ [29]. Happiness is calculated at individual and group levels, with the goal of converting happiness into familiar kinds of economic capital like gross domestic product, consumer spending, and employment rates.

행복 산업이 부상하면서 행복과 시장 간의 상호작용이 경제학의 핵심 관심사가 되었습니다. 마케팅 수단으로서 행복은 전략적입니다. 소비자 그룹은 제품이 행복을 가져다준다는 생각을 지속할 수 있을 만큼 충분히 행복하고, 더 많은 구매의 필요성을 느낄 만큼 충분히 불행한 '쾌락과 고통 사이'에 위치해야 합니다[49]. 그러나 경제 성장에 대한 강박은 소비자에게 선택의 고통에 직면하게 함으로써 행복에 부정적인 영향을 미칠 수 있습니다. 다양한 옵션은 옵션의 수가 여전히 관리 가능한 수준일 때만 행복에 기여할 수 있습니다. 특정 임계값에 도달하면 추가 옵션이 더 이상 행복을 가져다주지 않습니다. 그리고 구매력은 해결책이 아닙니다. 
With the rise of the happiness industry, the interaction between happiness and the markets becomes a central concern of economics. As a marketing device, happiness is strategic. Consumer groups must be poised ‘between pleasure and pain’: just happy enough to sustain the idea that products bring happiness and just unhappy enough to feel the need to buy more [49]. However, economic growth compulsion can have a negative impact on happiness, as consumers are confronted with the agony of choice. Multiple options can only contribute to happiness as long as the number of options is still manageable. Once a certain threshold is reached, additional options do not bring further happiness. And purchasing power is not the solution.

소득과 행복의 관계에 대한 연구에 따르면 경제 성장과 번영에도 불구하고 사람들이 더 행복해지지 않는다고 합니다. 그러나 동시에 비판적인 경제학자들은 가난할수록 더 행복하다고 추정하는 것에 대해 경고하며(Frawley에서 인용한 Pender)[29], 대중의 주관적인 감각에 대한 강조가 식량 부족과 같은 객관적인 현실에 대한 관심을 돌릴 수 있다는 우려를 제기합니다. 또한 돈과 행복의 관계는 복잡합니다. '지위 트레드밀' 개념은 행복으로 이어질 수 있는 소득은 절대적인 것이 아니라 상대적인 것이며, 상대적 소득이 동료보다 높을 때 더 행복하다는 개념을 담고 있습니다[50]. 직장에서의 의사 행복과 관련하여 이러한 경제적 개념은 의사 소득과 행복 사이의 복잡하고 비선형적인 관계를 시사합니다. 
Studies of the relationship between income and happiness suggest that, despite economic growth and increased prosperity, people are not happier. At the same time, however, critical economic scholars warn against extrapolating that poorer means happier (Pender cited in Frawley) [29], and raise concern that the emphasis on the subjective sensations of the populace can deflect attention from objective realities like insufficient food. Furthermore, the relationship between money and happiness is complex: the ‘status treadmill’ concept captures the notion that it is relative, not absolute, income that can lead to happiness, and we are happier when our relative income is higher than our peers [50]. In relation to physician happiness at work, these economic concepts suggest a complex, nonlinear relation between physician income and happiness.

사회적 개념으로서의 행복
Happiness as a social concept

행복에 대한 사회학적 접근은 행복에 대한 주로 심리학적 접근이 구조적 차원에서 존재하는 행복의 어포던스 및 장애물에 주목하지 못한다는 입장에서 비롯됩니다. 이 섹션에서는 만족의 위기강제로서의 행복이라는 두 가지 개념이 기록에서 발생했다는 점을 강조합니다.
Sociological approaches to happiness arise from the position that the predominantly psychological treatment of happiness fails to attend to the affordances and impediments to happiness that exist at a structural level. In this section, we highlight two concepts – the crisis of contentment and happiness as coercion – that arose in our records.

맥켄지는 <행복의 해체>라는 책에서 만족의 위기에 대해 설명합니다. 그들은 개인의 특성인 행복과 '자아보다 더 큰 무언가에 헌신하는 것'[51]에서 비롯되는 '집단적 사회적 프로젝트'[51]인 만족을 구별합니다. 만족은 사회적으로 정의되고 동기가 부여되며, 쾌락 중심의 일시적이고 개인적인 형태의 행복과는 대조적입니다. 이러한 구분을 통해 저자는 현재 현대 사회에서 우리는 행복이 아닌 '만족의 위기'를 경험하고 있다고 주장합니다. 우리의 삶은 '행복으로 이끄는 거의 끝없는 제품, 서비스, 자기계발서로 가득 차 있지만', '사람들은 행복해야 할 만큼 행복하지 않은 것 같다'[51] 왜냐하면 개인의 행복은 맥락 없이는 의미와 장기적인 만족을 제공할 수 없기 때문입니다. 사회 세계의 가치와 규범이 이러한 맥락을 제공합니다. 따라서 '개인이 사회적 가치와 규범에 대해 자신을 긍정적으로 자리매김할 수 있는 방법'[51]이 만족감의 기초가 됩니다.
In the book, Deconstructing Happiness, McKenzie describes a crisis of contentment. They distinguish happiness, which is an individual characteristic, from contentment, which is ‘a collective social project’ [51] arising from ‘committing to something greater than the self’ [51]. Contentment is socially defined and motivated, standing in contrast to pleasure-driven, temporary and individual forms of happiness. With this distinction, the author argues that we are currently experiencing a ‘crisis of contentment’ (not of happiness) in modern society. Our lives are ‘filled with an almost unending range of products, services and self-help books that will lead to happiness’ but ‘people do not seem to be as happy as they SHOULD be’ [51] because individual happiness cannot provide meaning and long-term satisfaction without context. The values and norms of the social world provide this context. Therefore, ‘how the individual is able to positively place him-or herself with regard to social values and norms’ [51] is the basis of contentment.

만족의 위기라는 개념은 개인의 행복이나 행복의 부족에 대한 우려에서 벗어나게 합니다. 대신 개인과 사회 간의 관계를 형성하는 사회적, 정치적, 경제적 요인에 관심을 가져야 합니다[51]. 특히 행복에 대한 우리의 기대치를 비판할 필요가 있습니다[29]. 일부 사회학자들은 행복이라는 개념이 현대사회에 만연한 '긍정의 폭정'의 일부이며, 개인에게 '문화적으로 승인된 행동과 성향의 이상에 부합하도록' 압력을 가한다고 주장합니다[51]. 점점 더 많은 연구가 '행복이 일종의 본질을 '가지고 있다'는 인식론적 오류'에 도전하고, 대신 행복의 개념은 사회 역사적 맥락과 그에 수반되는 사회적 규범으로부터 의미를 얻는 관계적 구성물이라고 주장합니다[51]. 이들은 행복은 중립적인 개념이 아니라고 주장합니다.
The concept of a crisis of contentment moves us away from concerns about the individual’s happiness or lack thereof. Instead, we must be concerned with the social, political and economic factors that shape the relationship between the individual and society [51]. In particular, we need to critique our expectations of happiness [29]. Some sociologists have argued that the idea of happiness is part of a widespread ‘tyranny of positivity’ in modernity, pressuring individuals ‘to conform to culturally sanctioned ideals of behavior and disposition’ [51]. A growing body of work challenges the ‘epistemological fallacy that happiness ‘has’ a kind of essence’ and argues instead that the concept of happiness is a relational construct, gaining meaning from socio-historical context and attendant social norms’ [51]. Happiness, they argue, is not a neutral concept.

강압으로서의 행복은 비판적 페미니스트 학계에서 주장하는 것처럼 중립성이 결여된 사례입니다. 예를 들어, 사라 아메드는 행복을 '세상을 만드는 장치'[52]로 간주합니다. 세상은 대부분 인정되지 않는 사회적 가치와 규범에 따라 적절한 '행복'이 무엇인지 규정함으로써 만들어집니다. 따라서 행복은 개인을 공동선을 향해 reorienting 시키는 도구입니다. 따라서 '일상 생활 속의 관념이나 열망'으로서 행복은 '한 사람의 행복이 ... 다른 사람들과 같은 것들에 의해 행복해지려는 의지에 의해 조건부'로 만들어지는 일종의 강제로 이어질 수 있습니다. 따라서 행복은 우리에게 요구를 합니다[50]. 행복이 무엇인지 규정해온 사회적 가치를 웃는 얼굴로 받아들일 것을 요구합니다. 1950년대 '행복한 주부'의 예를 들어, 그녀는 여성의 행복에 대한 이러한 개념이 '성별화된 노동 형태'를 강요하며 사회가 규정하는 방식으로 행복해지기를 거부할 수 있는 가능성을 고려하도록 장려한다고 주장합니다. 대신 '불행할 자유를 주장한다'는 것은 무엇을 의미할까요[52]?
Happiness as coercion is an instance of its lack of neutrality, as argued by critical feminist scholarship. For instance, Sara Ahmed considers happiness as a ‘world-making device’ [52]: the world is made by prescribing what is appropriate ‘happiness’ based on largely unacknowledged social values and norms. Happiness, then, is an instrument for reorienting the individual toward a common good. Thus, as ‘an idea or aspiration within everyday life’ happiness can lead to ‘forms of coercion …such that one person’s happiness is …made conditional on their willingness to be made happy by the same things as other people’. Happiness, therefore, makes demands on us [50]. It demands that we accept, with a smile, the social values that have dictated what happiness is. Using the example of ‘happy housewife’ of the 1950s, she argues that this notion of female happiness enforces ‘gendered forms of labour’ and encourages us to consider the possibility of refusing to be happy in the ways that society prescribes. What would it mean instead to ‘claim the freedom to be unhappy’ [52]?

토론
Discussion

이 비판적 내러티브 검토는 의학교육에서 의사의 웰빙에 접근하는 방식에 정보를 제공할 수 있는 행복에 대한 여러 가지 개념화를 명확히 했습니다. 이 섹션에서는 이러한 행복의 개념화에 대한 세 가지 주요 통찰을 제공하고, 직장에서의 의사 복지와 관련된 장학금 및 개선 노력에 대한 함의를 고려합니다. 
This critical narrative review has articulated multiple conceptualizations of happiness that could inform the way we approach physician wellbeing at work in medical education. In this section, we provide three main insights about these conceptualizations of happiness and consider their implications for scholarship and improvement efforts related to physician wellbeing in the workplace.

행복은 개인적일 뿐만 아니라 사회적입니다.
Happiness is not only individual: it is also social

직장에서의 의사 행복을 조사한 4개의 의학교육 논문은 모두 긍정심리학에 기반한 행복의 개념에 의존하고 있습니다. 의사의 업무 몰입flow과 마음챙김을 증진하기 위한 노력은 가치가 있지만, 이는 개인에 초점을 맞추기 때문에 현상에 대한 부분적인 관점을 나타냅니다. '의사 건강: 웰빙을 넘어 행복으로'라는 캐나다 의사협회 저널의 요청에서도 금욕주의와 완벽주의와 같은 개인적 속성에 중점을 두고 있습니다. 그러나 맥켄지가 주장했듯이 '행복에 대한 개인의 접근 방식은 불완전하고 본질적으로 결함이 있습니다'[51]. 우리는 개인의 심리만을 강조해서는 의사의 행복을 완전히 이해할 수 없다고 주장할 것입니다. 또한 사회적, 정치적, 경제적 요인에 주의를 기울여야 하는 만족감의 개념을 고려하여 개인과 사회의 관계를 다룰 필요가 있습니다. 맥켄지가 제안했듯이, 이러한 변화로 인해 '더 이상 행복을 찾으려는 개인의 시도를 지원하는 것이 아니라 의미 있는 사회적 내러티브 안에서 삶의 기복ups and downs을 경험하는 것'이 목표가 되었습니다[51]. 이러한 점을 고려할 때, 의사들이 업무의 기복을 경험하는 '의미 있는 사회적 내러티브'를 갖는다는 것은 무엇을 의미할까요? 
The four medical education papers we analysed that explored physician happiness at work all relied upon concepts of happiness based in positive psychology. And while efforts to promote physician flow and mindfulness at work are valuable, they represent a partial view of the phenomenon due to their focus on the individual. Even in the Canadian Medical Association Journal call to consider ‘Physician health: beyond wellness to happiness’, the emphasis is on personal attributes such as stoicism and perfectionism. However, as McKenzie argued, ‘the individual approach to happiness is both incomplete and inherently flawed’ [51]. We would argue that we’ll never fully understand physician happiness by exclusively emphasizing individual psychology. We need to also address the relationship between the individual and society by considering the concept of contentment, which requires paying attention to social, political and economic factors. As McKenzie has suggested, with this shift ‘the goal is no longer supporting individual attempts to find happiness, rather [it is] experiencing the ups and downs of life within a meaningful social narrative’ [51]. Given this, we might ask, what would it mean to have ‘a meaningful social narrative’ for physicians to experience the ups and downs of their work?

첫 번째 단계는 이러한 기복을 정상화하고, 이러한 의미 부여를 형성하는 사회적, 정치적, 경제적 요인에 주의를 기울이면서, 우리가 이를 어떻게 이해하는지 공개적으로 논의하는 것일 수 있습니다. 예를 들어, 경제학은 이러한 사회적 내러티브의 일부이지만 절대 소득은 상대 소득보다 덜 중요합니다[50]. 이러한 요인에 주의를 기울이면 직장 내 웰빙에서 의사 소득의 위치에 대한 논의가 복잡해지고, 전문직 간 및 전문직 내부에서 보건 전문직과 의료 전문직의 상대적 가치에 대한 질문에 관심을 기울일 수 있습니다. 의사 업무의 기복에 대한 의미 있는 사회적 내러티브에 중요한 다른 사회적 요인으로는 '번성하고 협력적인 집단 정체성'[49]이 있으며, 이 문헌은 건설적인 합의에 대한 약속과 연결됩니다. 이 약속을 더 탐구하기 위해 학계는 갈등의 순간에 공유된 의미를 협상하는 능력이 의사의 만족도에 어떤 영향을 미치는지 이해하기 위해 웰빙 대화를 팀워크에 대한 대화와 연결하기 시작할 수 있습니다.
A first step might be to normalize these ups and downs and openly discuss how we make sense of them, paying attention to the social, political and economic factors that shape this sense-making. Economics, for instance, is part of this social narrative, but absolute income is less important than relative income [50]. Attention to such factors might helpfully complicate discussions about the place of physician income in wellbeing at work and draw our attention to questions of the relative value of health professions and medical specialties in inter and intra professional workplaces. Other social factors that matter for a meaningful social narrative of the ups and downs of physician work include ‘a thriving and collaborative group identity’ [49] which this literature connects to the promise of constructive dissensus. To further explore this promise, scholarship might begin to connect the wellbeing conversation to the conversation about teamwork to understand how the ability to negotiate shared meaning in moments of conflict influences physician contentment.

개인의 행복은 객관적인 것이 아니라 주관적인 것입니다.
Individual happiness is not objective, it is subjective

행복의 정의는 다면적입니다. 용어는 다양하며 표준화된 정의는 아직 없습니다[29]. 그러나 대부분의 용어의 공통점은 행복을 객관적인 것, 즉 우리가 어느 정도 '얻을 수 있는' 것으로 접근한다는 것입니다. 그러나 연구 결과에 따르면 행복은 주관적인 것으로, 우리가 지각하는 것이며 심지어 심리적 면역 체계 덕분에 우리가 만들어내는 것이라는 데 동의합니다. 행복이 주관적이고 불안정하며, 심지어 합성적이라는 사실을 알면 행복을 측정해야 한다는 주장에 의문을 제기할 수 있습니다. 의학교육에서 나온 의사 행복에 관한 대부분의 기록은 측정에 초점을 맞춘 것이었습니다. 행복의 구성을 의학교육에 보다 완전하게 통합할 때 지나치게 단순화하지 않으려면 측정에 대한 우리의 끝없는 욕구와 개별 측정 자체에 대한 비판적 검토가 필요합니다. 행복을 측정할 수 있는지에 대한 의문에도 불구하고, 우리의 연구 결과는 행복을 이해하는 것이 행복의 경험보다 기대와 해석을 측정하는 것과 더 관련이 있을 수 있음을 시사합니다. 이러한 점을 고려할 때, 우리는 의료 수련생이 직업에 대해 갖는 기대와 해석이 무엇인지, 시간이 지남에 따라 어떻게 변화하는지, 이러한 변화가 직장에서의 행복에 어떤 영향을 미치는지 살펴볼 수 있습니다. 
The definition of happiness is multifaceted. Terminologies vary, and there remain no standardised definitions [29]. But what most terms have in common is that they approach happiness as an objective thing – something we can ‘get’ more or less of. However, our results suggest agreement that happiness is subjective: it is something we perceive and even something we manufacture thanks to our psychological immune system. Knowing that happiness is subjective, unstable, situated – even synthetic – calls into question our insistence on measuring it. Most of the records about physician happiness from medical education were measurement-focused. A critical examination of both our insatiable appetite to measure and the individual measures themselves is necessary if we are to avoid oversimplifying the construct of happiness as we integrate it more fully into medical education. Notwithstanding the question of whether happiness can be measured at all, our results suggest that understanding happiness may have more to do with measuring expectations and interpretations than experiencing happiness. Given this, we might explore the expectations and interpretations medical trainees bring to the profession, how they change over time, and how these changes influence happiness at work.

행복은 무조건 좋은 것이 아니며, 잠재적으로 강압적일 수도 있습니다.
Happiness is not straightforwardly good; it is also potentially coercive

행복에 대한 비판적 사회학적 접근 방식은 행복이 '기존의 질서를 영속화하기 위한 주관성 관리를 위한 중심적인 진정 수사이자 중요한 기술'로서의 역할에 주목합니다[29]. 행복에 대한 이러한 비판은 의사 개개인의 행복을 증진하기 위한 노력과 함께 비판적으로 성찰해야 한다는 점을 상기시켜 줍니다. 우리는 다음과 같은 질문을 던져야 합니다:

  • 누가 의사에게 '행복'을 정의하는가?
  • 그 정의는 어떤 사회적 규범과 권력 관계에 부합하는가?
  • 의사의 행복에 대한 우리의 개념화는 문화적 우발성을 인정하는가?

우리는 행복을 개선하려는 이니셔티브를 포기해야 한다고 제안하는 것이 아니라, 이러한 이니셔티브를 추구할 때 이러한 이니셔티브가 어떻게 '강압적'인 기존의 구조적, 정치적 질서를 영속시키고 인정되지 않는 권력 관계를 유지시키는지 자문해 보아야 합니다. 아메드의 용어를 빌리자면, 우리는 정해진 대로 행복하기를 거부함으로써 기존 질서를 영속화하기를 거부하는 의사들을 '킬조이'[52]로 규정하고 있을까요?

  • 우리는 의사들이 비극 앞에서 불행해지도록 지지할 것인가,
    아니면 그러한 감정을 억누르고 행복해지도록(또는 적어도 중립적이어야 한다고) 요구할 것인가? 

Critical sociological approaches to happiness draw our attention to the role of happiness as ‘a central pacifying rhetoric and important technolog[y] for the management of subjectivity to ensure … the perpetuation of the existing order of things’ [29]. Such critiques of happiness remind us that, amid our efforts to promote the happiness of individual physicians, we must also be critically reflexive. We need to ask questions such as:

  • Who defines ‘happiness’ for physicians?
  • What social norms and power relations does that definition serve?
  • Does our conceptualization of physician happiness acknowledge cultural contingencies?

We are not suggesting that we should abandon initiatives that seek to improve happiness; however, as we pursue them, we must also ask ourselves how these perpetuate an existing structural and political order that is ‘coercive’, sustaining unacknowledged power relations. To use Ahmed’s term, do we cast as ‘killjoys’ [52] physicians who refuse to perpetuate the existing order by refusing to be happy-as-prescribed?

  • Do we support physicians to be unhappy in the face of tragedy, or demand that they suppress that emotion and be happy (or at least neutral)?

행복에 대한 지배적인 이해 문화, 성별, 인종 또는 기타 소수 요인에 따라 일부 의사들의 권한을 박탈할 수 있다는 점을 인식하고, 우리는 행복에 대한 일반적인 개념화가 평등, 다양성, 포용, 탈식민화(EDI-D)를 고려하는지 여부와 그 방법을 고려해야 합니다. 슬라빈이 인정한 바와 같이, '웰빙 프로그램은 획일적인 접근 방식이었으며 우리 커뮤니티의 많은 사람들이 직면한 웰빙과 만족도에 대한 추가적인 위협을 적절히 인정하고 해결하지 못했습니다'[15]. 직장에서의 의사 행복에 대한 논의를 진전시키기 위해서는 의사 행복에 대한 기존의 정의가 특히 소수자나 형평성을 요구하는 집단에게 얼마나 강압적일 수 있는지 인식할 필요가 있습니다. 우리는 의사의 불행을 질병이 아닌 증상으로 보아야 하며, 심지어는 규정된 내러티브에 대한 저항의 한 형태로서 경계해야 합니다.
Recognizing that dominant understandings of happiness might disempower some physicians based on culture, gender, race or other minority factors, we should consider whether and how the prevalent conceptualization of happiness takes equality, diversity, inclusion and decolonisation (EDI-D) into account. As Slavin has recognized, ‘wellbeing programming has been a one-size-fits-all approach and has not adequately acknowledged and addressed the additional threats to wellbeing and satisfaction faced by many in our community’ [15]. To advance the conversation about physician happiness at work, we need to recognize how conventional definitions of physician happiness may be coercive, especially for minorities and equity deserving groups. We should be alert to physician unhappiness as a symptom not a disease – and even, perhaps, as a form of resistance to prescribed narratives.

한계
Limitations

행복에 대한 비판적 내러티브 검토는 설계상 철저하고 중립적이기보다는 선택적이고 포지셔닝된 것입니다[53]. 우리는 직장에서의 의사 행복에 초점을 맞춘 것과 관련된 행복의 분야와 개념을 강조하기로 선택했습니다. 따라서 본 연구에서는 의학교육에서 행복의 중요한 구성 요소 중 하나인 직장 내 행복의 개념을 검토했습니다. '직장 내 행복' 이외의 다른 행복의 측면도 관련성이 있을 수 있지만 본 연구에서는 다루지 않았습니다. 우리는 심리학, 사회학, 경제학, 조직행동학 등 일부 학문에 초점을 맞추었으며, 각 학문의 행복 개념에 대한 검토는 포괄적이기보다는 선택적이라는 점을 인정합니다. 이는 검색을 통해 얻은 기록을 반영한 것이며, 향후 자체적으로 구축한 연구를 통해 이러한 학문의 행복에 대한 다른 통찰력이 있을 수 있음을 인정합니다. 또한, 다른 학문 분야를 포함하면 이 연구에서 설명한 행복의 개념이 더욱 풍부해지고 확장될 수 있을 것입니다. 한 가지 아쉬운 점은 검색 과정에서 포착된 철학 관련 기록이 부족하다는 점입니다. 철학 학자의 자문을 구한 결과, 철학의 용어가 검색어와 크게 다르기 때문이라는 결론을 내렸습니다. 종교학이나 역사학과 같은 다른 학문 분야도 행복 구성 요소에 대한 용어의 차이로 인해 초기 검색 범위에서 벗어났을 가능성이 높습니다. 리뷰어는 원래 검색어에서 어디까지 범위를 넓혀야 할지, 어디까지 선을 그어야 할지 결정해야 하는 어려운 과제를 안고 있습니다. 직장에서의 의사 행복과 관련된 '행복'에 대한 이 첫 번째 내러티브 리뷰에서는 검색어에 일관성을 유지하기로 결정했으며, 따라서 우리의 결과가 모든 출판 문헌에서 이 개념을 포괄적으로 다룰 수 없음을 인정합니다. 마지막으로, 포함된 분야를 모두 검토한 것이 아니라 직장에서의 의사 행복을 이해하는 것과 관련된 행복에 대한 몇 가지 주요 개념화를 설명하기 위한 것이었습니다. 의심할 여지 없이 행복에 대한 각 분야의 접근 방식에 대한 역사와 미묘한 차이에 대해 더 많은 것을 배워야 할 것입니다. 
A critical narrative review of happiness is, by design, selective and positioned rather than exhaustive and neutral [53]. We have chosen to highlight disciplines and concepts of happiness specifically related to our focus on physician happiness in the workplace. Consequently, our review examines the concept of workplace happiness as one important component of happiness in medical education: other aspects of happiness beyond ‘workplace happiness’ are likely relevant but are not captured in this work. We have focused on a subset of disciplines (psychology, sociology, economics, organizational behavior), and we acknowledge that our review of concepts of happiness in each discipline is selective rather than comprehensive: it reflects the records our search returned and there may be other insights about happiness in these disciplines that future work building on our own could explore. Furthermore, the inclusion of additional disciplines would probably enrich and expand the conceptualizations of happiness we have described in this work. A particular gap is the lack of philosophy records captured in our search, which initially surprised us. After consulting with a philosophy scholar, we determined that this was because the terminology in philosophy differs significantly from our search terms. Likely other disciplines, such as religious studies or history, were also outside the scope of our initial search due to differences in terminology for the happiness construct. This is a challenge for any review: reviewers need to decide how far from their original search terms to venture and where to draw the line. For this first narrative review of ‘happiness’ as it relates to physician happiness at work, we decided to remain consistent in our search terms and we therefore acknowledge that our results cannot be comprehensive of all treatments of the concept in all published literature. Finally, our review of included disciplines was not intended to be exhaustive, but to describe some key conceptualizations of happiness as they relate to understanding physician happiness at work. Undoubtedly there is much more to be learned about the history and nuances of each of these fields’ approaches to happiness.

결론
Conclusion

이 비판적 내러티브 검토를 통해 의학교육에 직장에서의 행복이라는 개념이 거의 포함되지 않았으며, 포함되더라도 긍정심리학에만 의존하고 있음을 알 수 있었습니다. 이러한 학문적 강조는 행복을 개별적이고 객관적이며 반드시 좋은 것으로 취급하도록 유도합니다. 행복의 조직적, 경제적, 사회적 측면을 이해하면 행복은 사회적이며 주관적이고 잠재적으로 강압적일 수 있다는 통찰력을 포함하여 직장에서의 의사 복지에 대한 논의를 유용하게 확장할 수 있습니다. 이러한 인사이트를 통해 우리는 의사 복지라는 고질적인 문제에 대한 다양한 해결책을 상상할 수 있으며, 심지어 문제 자체를 재정의할 수도 있습니다.

This critical narrative review has revealed that medical education rarely incorporates the concept of happiness in the workplace and, when it does, it draws exclusively from positive psychology. This disciplinary emphasis orients us to treat happiness as individual, objective, and necessarily good. Understanding organizational, economic and social aspects of happiness can usefully expand the conversation about physician wellbeing at work to include the insights that happiness is also social, subjective, and potentially coercive. With such insights, we might imagine different solutions to the persistent problem of physician wellbeing – in fact, we might even redefine the problem itself.


 

Perspect Med Educ. 2023 Jun 6;12(1):208-217. doi: 10.5334/pme.856. eCollection 2023.

What about Happiness? A Critical Narrative Review with Implications for Medical Education

Affiliations collapse

1Cardiologist and medical educator, Department of Medicine, Schulich School of Medicine and Dentistry, Western University, Medical Sciences Building, Suit 102A, London, Canada.

2Department of Cardiology, Inselspital Bern University Hospital, University of Bern, CH 3010 Bern, Switzerland.

3Department of Medicine, Schulich School of Medicine and Dentistry, Western University, Medical Sciences Building, Suit 102A, London, Canada.

PMID: 37304335

PMCID: PMC10253238

DOI: 10.5334/pme.856

Free PMC article

Abstract

Introduction: Despite abundant scholarship and improvement initiatives, the problem of physician wellbeing persists. One reason might be conceptual: the idea of 'happiness' is rare in this work. To explore how it might influence the conversation about physician wellbeing in medical education, we conducted a critical narrative review asking: 'How does happiness feature in the medical education literature on physician wellbeing at work?' and 'How is happiness conceptualized outside medicine?'

Methods: Following current methodological standards for critical narrative review as well as the Scale for the Assessment of Narrative Review Articles, we conducted a structured search in health research, humanities and social sciences, a grey literature search, and consultation with experts. After screening and selection, content analysis was performed.

Results: Of 401 identified records, 23 were included. Concepts of happiness from the fields of psychology (flow, synthetic happiness, mindfulness, flourishing), organizational behaviour (job satisfaction, happy-productive worker thesis, engagement), economics (happiness industry, status treadmill), and sociology (contentment, tyranny of positivity, coercive happiness) were identified. The medical education records exclusively drew on psychological concepts of happiness.

Discussion and conclusion: This critical narrative review introduces a variety of conceptualizations of happiness from diverse disciplinary origins. Only four medical education papers were identified, all drawing from positive psychology which orients us to treat happiness as individual, objective, and necessarily good. This may constrain both our understanding of the problem of physician wellbeing and our imagined solutions. Organizational, economical and sociological conceptualizations of happiness can usefully expand the conversation about physician wellbeing at work.

 

혼합방법연구에서 데이터를 통합하는 세 가지 테크닉(BMJ. 2010)
Three techniques for integrating data in mixed methods studies
Alicia O’Cathain,1 Elizabeth Murphy,2 Jon Nicholl1

 

질적 연구와 정량적 연구 결과를 결합하도록 설계된 기법은 연구자에게 개별 분석보다 더 많은 지식을 제공할 수 있습니다. 
Techniques designed to combine the results of qualitative and quantitative studies can provide researchers with more knowledge than separate analysis

보건 연구자들은 점점 더 질적 방법과 정량적 방법을 결합한 설계를 사용하고 있으며, 이를 혼합 방법 연구라고 부르기도 합니다.1 연구의 질적 요소와 정량적 요소 간의 상호작용 또는 대화인 통합은 혼합 방법 연구의 중요한 측면이며, 실제로 일부 정의에 필수적입니다.2 그러나 보건 분야의 혼합 방법 연구에 대한 최근 경험적 연구에 따르면 구성 요소 간의 통합이 부족하여3 4 이러한 유형의 연구가 생성하는 지식의 양에 제한이 있는 것으로 나타났습니다. 통합이 없으면 "부분의 합보다 더 큰 전체"를 얻기보다는 질적 연구와 양적 연구를 독립적으로 수행했을 때와 동일한 수준의 지식이 산출됩니다.5 
Health researchers are increasingly using designs that combine qualitative and quantitative methods, and this is often called mixed methods research.1 Integration—the interaction or conversation between the qualitative and quantitative components of a study—is an important aspect of mixed methods research, and, indeed, is essential to some definitions.2 Recent empirical studies of mixed methods research in health show, however, a lack of integration between components,3 4 which limits the amount of knowledge that these types of studies generate. Without integration, the knowledge yield is equivalent to that from a qualitative study and a quantitative study undertaken independently, rather than achieving a “whole greater than the sum of the parts.”5

보건 및 사회 연구 모두에서 통합을 가로막는 장벽이 확인되었습니다.6 7 한 가지 장벽은 혼합 방법 연구에 대한 공식 교육이 없다는 것입니다. 다행히도 질적 방법과 양적 방법의 데이터와 연구 결과를 통합하는 방법에 대한 설명을 포함하여 이러한 교육 격차를 메우기 위한 문헌이 빠르게 확장되고 있습니다.8 9 이 글에서는 보건 연구자가 혼합 방법 연구에서 데이터 또는 연구 결과를 통합하는 데 도움이 될 수 있는 세 가지 기법을 설명하고 이러한 접근 방식에서 생성된 지식을 향상시킬 수 있는 방법을 보여줍니다. 
Barriers to integration have been identified in both health and social research.6 7 One barrier is the absence of formal education in mixed methods research. Fortunately, literature is rapidly expanding to fill this educational gap, including descriptions of how to integrate data and findings from qualitative and quantitative methods.8 9 In this article we outline three techniques that may help health researchers to integrate data or findings in their mixed methods studies and show how these might enhance knowledge generated from this approach.

삼각측량 프로토콜
Triangulation protocol

연구자는 종종 정성적 방법과 정량적 방법을 사용하여 전체 연구 질문의 다양한 측면을 조사합니다. 예를 들어, 무작위 대조 시험을 통해 의료 개입의 효과를 평가하고 환자 및 의료 전문가와의 반구조화된 인터뷰를 통해 실제 환경에서 개입이 사용된 방식을 고려할 수 있습니다. 또는 서비스 사용자에 대한 설문조사를 통해 서비스 만족도를 측정하고 포커스 그룹을 통해 치료에 대한 관점을 더 깊이 탐구할 수도 있습니다. 각 구성 요소에 대해 데이터를 개별적으로 수집하고 분석하여 두 가지 결과를 도출합니다. 그런 다음 연구자들은 이러한 결과를 결합하려고 시도하며, 이 과정을 삼각 측량이라고 부르기도 합니다. 삼각측량이라는 용어는 두 가지 의미가 있기 때문에 혼동될 수 있습니다.10 삼각측량은

  • 두 세트의 결과 사이의 확증(보강, corroboration)을 설명하거나
  • 보다 완전한 그림을 얻기 위해 다양한 방법을 사용하여 문제를 연구하는 과정

후자의 의미는 혼합 방법 연구에서 일반적으로 사용되며 여기서는 이 의미를 사용합니다. 
Researchers will often use qualitative and quantitative methods to examine different aspects of an overall research question. For example, they might use a randomised controlled trial to assess the effectiveness of a healthcare intervention and semistructured interviews with patients and health professionals to consider the way in which the intervention was used in the real world. Alternatively, they might use a survey of service users to measure satisfaction with a service and focus groups to explore views of care in more depth. Data are collected and analysed separately for each component to produce two sets of findings. Researchers will then attempt to combine these findings, sometimes calling this process triangulation. The term triangulation can be confusing because it has two meanings.10 It can be used

  • to describe corroboration between two sets of findings or
  • to describe a process of studying a problem using different methods to gain a more complete picture.

The latter meaning is commonly used in mixed methods research and is the meaning used here.

서로 다른 방법의 결과를 삼각 측량하는 과정은 두 데이터 세트가 개별적으로 분석되었을 때 연구의 해석 단계에서 이루어집니다(그림⇓). 연구 결과를 삼각 측량하기 위한 몇 가지 기법이 설명되어 있습니다. 연구자는 연구의 각 구성 요소에서 얻은 결과를 같은 페이지에 나열하고 다음을 고려해야 합니다

  • 각 방법의 결과가 일치하는 부분(수렴성),
  • 동일한 문제에 대해 보완적인 정보를 제공하는 부분(보완성),
  • 서로 모순되는 것처럼 보이는 부분(불일치 또는 부조화).11 12 13

다른 방법의 결과 간에 불일치를 명시적으로 찾는 것은 이 과정의 중요한 부분입니다. 의견 불일치는 연구에 문제가 있다는 신호가 아닙니다. 명백한 "방법 간 불일치"를 탐색하는 것은 연구 질문에 대한 더 나은 이해로 이어질 수 있으며,14 보건 서비스 연구에서 방법 간 불일치를 탐색하기 위해 다양한 접근법이 사용되었습니다.15 
The process of triangulating findings from different methods takes place at the interpretation stage of a study when both data sets have been analysed separately (figure). Several techniques have been described for triangulating findings. They require researchers to list the findings from each component of a study on the same page and consider where findings from each method agree (convergence), offer complementary information on the same issue (complementarity), or appear to contradict each other (discrepancy or dissonance).11 12 13 Explicitly looking for disagreements between findings from different methods is an important part of this process. Disagreement is not a sign that something is wrong with a study. Exploration of any apparent “inter-method discrepancy” may lead to a better understanding of the research question,14 and a range of approaches have been used within health services research to explore inter-method discrepancy.15

삼각측량 수행 방법에 대한 가장 자세한 설명은 삼각측량 프로토콜로,11 여러 질적 방법을 위해 개발되었지만 혼합 방법 연구와 관련이 있습니다. 이 기법에는 연구의 각 구성 요소에서 나온 결과를 같은 페이지에 표시하는 '융합 코딩 매트릭스'를 생성하는 것이 포함됩니다. 그 다음에는 서로 다른 구성 요소의 결과 사이에 일치, 부분 일치, 침묵 또는 불협화음이 있는 부분을 고려합니다. 이 삼각측량 기법은 주제나 결과가 한 데이터 세트에서 발생하지만 다른 데이터 세트에서는 발생하지 않는 침묵을 포함할 수 있는 유일한 기법입니다. 현상의 다양한 측면을 조사하는 다양한 방법의 강점 때문에 침묵이 예상될 수 있지만, 이해를 높이거나 추가 조사로 이어지는 데 도움이 되는 예상치 못한 침묵도 발생할 수 있습니다.
The most detailed description of how to carry out triangulation is the triangulation protocol,11 which although developed for multiple qualitative methods, is relevant to mixed methods studies. This technique involves producing a “convergence coding matrix” to display findings emerging from each component of a study on the same page. This is followed by consideration of where there is agreement, partial agreement, silence, or dissonance between findings from different components. This technique for triangulation is the only one to include silence—where a theme or finding arises from one data set and not another. Silence might be expected because of the strengths of different methods to examine different aspects of a phenomenon, but surprise silences might also arise that help to increase understanding or lead to further investigations.

삼각측량 프로토콜은 연구자들이 각 방법과 관련된 결과에 대한 생각에서 벗어나 다양한 방법의 결과를 가로지르는 메타테마라고 부르는 것으로 이동시킵니다.11 삼각측량 프로토콜의 작동 사례를 보여 주지만, 다른 출판된 사례는 찾을 수 없었습니다. 그러나 새로운 일차 혈관 성형술 서비스에 대한 환자와 보호자의 만족도를 파악하기 위한 반복적 혼합 방법 연구에서도 유사한 원칙이 사용되었습니다.16 

  • 연구자들은 16명의 사용자와 보호자를 대상으로 반구조화된 인터뷰를 실시하여 새로운 서비스에 대한 경험과 견해를 조사했습니다. 
  • 이를 바탕으로 새로운 서비스 또는 일반적인 치료를 받고 있는 595명의 환자(및 보호자 418명)를 대상으로 설문지를 개발했습니다. 
  • 마지막으로, 사후 관리 및 재활에 불만을 표명한 환자 중 17명을 대상으로 반구조화된 인터뷰를 통해 이에 대한 추가 조사를 실시했습니다. 

연구진은 메타주제로의 사고 전환을 통해 인터뷰, 설문조사, 후속 인터뷰의 결과를 순차적으로 보고하는 방식에서 벗어나 속도와 효율성, 치료의 편의성, 퇴원 및 사후 관리라는 메타주제를 고려했습니다. 설문조사 결과, 새로운 서비스를 이용하는 환자 보호자 중 병원 방문의 편의성이 기존 서비스를 이용하는 보호자보다 낮다고 평가한 비율이 더 높았습니다. 인터뷰는 새로운 서비스에 대한 이러한 우려를 뒷받침했지만, 보호자가 가족의 생명을 구할 수 있다는 맥락에서 이러한 우려에 부여하는 비중은 낮다는 사실도 확인했습니다.
The triangulation protocol moves researchers from thinking about the findings related to each method, to what Farmer and colleagues call meta-themes that cut across the findings from different methods.11 They show a worked example of triangulation protocol, but we could find no other published example. However, similar principles were used in an iterative mixed methods study to understand patient and carer satisfaction with a new primary angioplasty service.16 

  • Researchers conducted semistructured interviews with 16 users and carers to explore their experiences and views of the new service.
  • These were used to develop a questionnaire for a survey of 595 patients (and 418 of their carers) receiving either the new service or usual care.
  • Finally, 17 of the patients who expressed dissatisfaction with aftercare and rehabilitation were followed up to explore this further in semistructured interviews.

A shift of thinking to meta-themes led the researchers away from reporting the findings from the interviews, survey, and follow-up interviews sequentially to consider the meta-themes of speed and efficiency, convenience of care, and discharge and after care. The survey identified that a higher percentage of carers of patients using the new service rated the convenience of visiting the hospital as poor than those using usual care. The interviews supported this concern about the new service, but also identified that the weight carers gave to this concern was low in the context of their family member’s life being saved.

Morgan은 이러한 움직임이 질적 요소와 양적 요소를 분석한 후에 발생하기 때문에 "제3의 노력"이라고 설명합니다.17 연구 시간표에 계획해야 하는 시간과 에너지가 필요합니다. 통합 프로세스를 누가 수행할 것인지 고려하는 것도 유용합니다. 삼각 측량 시 두 명의 연구자가 함께 작업해야 하는데, 이는 혼합 방법 연구에서 서로 다른 연구자가 정성적 요소와 정량적 요소를 담당하는 경우 특히 중요할 수 있습니다.11 
Morgan describes this move as the “third effort” because it occurs after analysis of the qualitative and the quantitative components.17 It requires time and energy that must be planned into the study timetable. It is also useful to consider who will carry out the integration process. Farmer and colleagues require two researchers to work together during triangulation, which can be particularly important in mixed methods studies if different researchers take responsibility for the qualitative and quantitative components.11

스레드 따라가기
Following a thread

모란-엘리스와 동료들은 following a thread라는 연구의 질적 구성 요소와 양적 구성 요소의 결과를 통합하는 다른 기법을 설명합니다.18 이들은 이 기법이 연구 과정의 분석 단계에서 수행된다고 말합니다(그림⇑). 각 구성 요소에 대한 초기 분석으로 시작하여 주요 주제와 추가 탐구가 필요한 질문을 식별합니다. 그런 다음 연구자는 한 구성 요소에서 질문 또는 주제를 선택하고 다른 구성 요소에 걸쳐 이를 따라가는데, 이를 스레드라고 부릅니다. 저자들은 이 기법의 단계를 명시하지는 않았지만 데이터 집합 간 작업을 위한 시각적 모델을 제공합니다. 이와 유사한 접근 방식이 의료 서비스 연구에서도 수행되었지만, 연구자들은 이 기법이 문헌에서 자주 사용되지 않았기 때문에 이를 '스레드'라고 부르지 않았습니다(상자).
Moran-Ellis and colleagues describe a different technique for integrating the findings from the qualitative and quantitative components of a study, called following a thread.18 They state that this takes place at the analysis stage of the research process (figure). It begins with an initial analysis of each component to identify key themes and questions requiring further exploration. Then the researchers select a question or theme from one component and follow it across the other components—they call this the thread. The authors do not specify steps in this technique but offer a visual model for working between datasets. An approach similar to this has been undertaken in health services research, although the researchers did not label it as such, probably because the technique has not been used frequently in the literature (box)

스레드 팔로우의 예19
An example of following a thread19

아담슨과 동료들은 일반 진료소에 등록된 사람들을 대상으로 한 설문조사와 반구조화된 인터뷰를 통해 환자의 견해가 적절한 서비스 사용과 도움 요청에 미치는 영향을 조사했습니다. 정성적 요소(22건의 인터뷰)와 정량적 요소(911명의 응답자를 대상으로 한 설문조사)가 동시에 진행되었습니다.
Adamson and colleagues explored the effect of patient views on the appropriate use of services and help seeking using a survey of people registered at a general practice and semistructured interviews. The qualitative (22 interviews) and quantitative components (survey with 911 respondents) took place concurrently.

연구자들은 분석에 대한 반복적 또는 순환적 접근 방식이라고 설명합니다. 먼저, 인터뷰의 예비 조사 결과를 바탕으로 설문조사 데이터에서 테스트할 가설을 세웠습니다. 인터뷰의 핵심 주제는 부족한 의료 서비스를 책임감 있게 사용하는 방법으로서 서비스의 자가 배급에 관한 것이었습니다. 그런 다음 적절한 서비스 사용에 대한 사람들의 견해가 도움을 구하는 행동을 설명할 것이라는 가설을 테스트하여 설문조사 데이터에서 이 주제를 탐색했습니다. 그러나 의료 서비스가 부적절하게 사용되었다고 생각하는 설문 응답자의 절반은 서비스가 부적절하게 사용되지 않았다고 생각하는 응답자만큼이나 표준화된 그림에 제시된 일련의 증상에 대해 도움을 요청할 가능성이 높았기 때문에 정량적 분석에서는 이 가설을 뒷받침할 수 없었습니다. 그런 다음 연구자들은 이 결과를 해석하기 위해 인터뷰 데이터로 되돌아갔습니다.
The researchers describe what they call an iterative or cyclical approach to analysis. Firstly, the preliminary findings from the interviews generated a hypothesis for testing in the survey data. A key theme from the interviews concerned the self rationing of services as a responsible way of using scarce health care. This theme was then explored in the survey data by testing the hypothesis that people’s views of the appropriate use of services would explain their help seeking behaviour. However, there was no support for this hypothesis in the quantitative analysis because the half of survey respondents who felt that health services were used inappropriately were as likely to report help seeking for a series of symptoms presented in standardised vignettes as were respondents who thought that services were not used inappropriately. The researchers then followed the thread back to the interview data to help interpret this finding.

인터뷰 데이터를 추가로 분석한 결과, 연구진은 사람들이 자신의 도움보다는 다른 사람의 도움을 구하는 것을 부적절하다고 생각한다는 사실을 파악했습니다. 또한 증상에 대해 불안감을 느끼는 것이 치료를 받아야 하는 좋은 이유라고 생각한다는 사실에 주목했습니다. 연구진은 이 맥락을 따라 설문조사 데이터로 돌아가 표준화된 그림에 나타난 증상에 대한 불안 수준이 도움을 구하는 행동을 예측하는지 테스트했습니다. 이 두 번째 가설은 설문조사 데이터에 의해 뒷받침되었습니다. 연구진은 스레드를 따라가면서 사소해 보이는 문제로 의료 서비스를 찾는 환자들이 서비스를 부적절하게 이용하지 않는 것과 증상으로 인한 불안 사이의 균형에 대한 임계값을 초과했다는 결론을 내렸습니다.
After further analysis of the interview data the researchers understood that people considered the help seeking of other people to be inappropriate, rather than their own. They also noted that feeling anxious about symptoms was considered to be a good justification for seeking care. The researchers followed this thread back into the survey data and tested whether anxiety levels about the symptoms in the standardised vignettes predicted help seeking behaviour. This second hypothesis was supported by the survey data. Following a thread led the researchers to conclude that patients who seek health care for seemingly minor problems have exceeded their thresholds for the trade-off between not using services inappropriately and any anxiety caused by their symptoms.

혼합 방법 매트릭스
Mixed methods matrix

일부 혼합 방법 연구의 독특한 측면은 동일한 사례에 대해 정성적 데이터와 정량적 데이터를 모두 사용할 수 있다는 것입니다. 혼합 방법 연구의 분석 단계에서는 정성적 요소와 정량적 요소의 데이터를 통합할 수 있습니다(그림⇑). 예를 들어, 설문조사 응답자 표본을 대상으로 심층 인터뷰를 실시하여 완성된 설문지와 녹취록이 모두 있는 사례의 하위 집합을 생성할 수 있습니다. 사례는 개인, 그룹, 조직 또는 지역이 될 수 있습니다.9 단일 사례에 대해 수집된 모든 데이터를 함께 연구할 수 있으며, 연구 내에서 변수나 주제보다는 사례에 초점을 맞출 수 있습니다. 예를 들어 설문지에 대한 사람들의 응답을 인터뷰 기록과 비교하는 등 각 사례별로 데이터를 자세히 조사할 수 있습니다. 또는 마일즈와 허버만의 메타 매트릭스에 따라 각 사례의 데이터를 요약하여 매트릭스8 9 20에 표시할 수도 있습니다.21 혼합 방법 매트릭스에서 행은 정성적 데이터와 정량적 데이터가 모두 있는 사례를 나타내고 열은 각 사례에서 수집된 다른 데이터를 표시합니다. 이를 통해 연구자는 단일 사례에 대한 데이터 유형 간의 놀라움과 역설에 주의를 기울인 다음 질적 교차 사례 분석에서 모든 사례20에서 패턴을 찾을 수 있습니다.21 
A unique aspect of some mixed methods studies is the availability of both qualitative and quantitative data on the same cases. Data from the qualitative and quantitative components can be integrated at the analysis stage of a mixed methods study (figure). For example, in-depth interviews might be carried out with a sample of survey respondents, creating a subset of cases for which there is both a completed questionnaire and a transcript. Cases may be individuals, groups, organisations, or geographical areas.9 All the data collected on a single case can be studied together, focusing attention on cases, rather than variables or themes, within a study. The data can be examined in detail for each case—for example, comparing people’s responses to a questionnaire with their interview transcript. Alternatively, data on each case can be summarised and displayed in a matrix8 9 20 along the lines of Miles and Huberman’s meta-matrix.21 Within a mixed methods matrix, the rows represent the cases for which there is both qualitative and quantitative data, and the columns display different data collected on each case. This allows researchers to pay attention to surprises and paradoxes between types of data on a single case and then look for patterns across all cases20 in a qualitative cross case analysis.21

우리는 혼합 방법 매트릭스를 사용하여 보건 서비스 연구에서 팀 작업 유형과 혼합 방법 연구의 통합 정도 사이의 관계를 연구했습니다(표⇓).22 75개의 혼합 방법 연구의 제안서, 보고서 및 동료 검토 출판물에서 정량적 데이터를 추출하고, 이를 분석하여 혼합 방법 저널 논문과 같은 통합 결과물을 가진 연구의 비율을 설명했습니다. 정량적 요소의 두 가지 주요 변수는 해당 연구가 정성적 또는 정량적 데이터 또는 연구 결과를 통합하려고 시도한 것으로 평가되었는지 여부와 생산된 출판물의 유형이었습니다. 이러한 연구 중 일부에 참여한 20명의 연구자와의 질적 인터뷰를 통해 연구팀의 협력 방식 등 혼합 방법 연구가 어떻게 실행되었는지 살펴봤습니다. 
We used a mixed methods matrix to study the relation between types of team working and the extent of integration in mixed methods studies in health services research (table).22 Quantitative data were extracted from the proposals, reports, and peer reviewed publications of 75 mixed methods studies, and these were analysed to describe the proportion of studies with integrated outputs such as mixed methods journal articles. Two key variables in the quantitative component were whether the study was assessed as attempting to integrate qualitative or quantitative data or findings and the type of publications produced. We conducted qualitative interviews with 20 researchers who had worked on some of these studies to explore how mixed methods research was practised, including how the team worked together.

질적 구성 요소와 양적 구성 요소 간에 공유된 사례는 21개의 혼합 방법 연구였습니다(한 인터뷰 참여자가 양적 구성 요소에서 두 개의 연구에 참여했기 때문입니다). 21개의 연구 각각을 행으로 연결하여 매트릭스를 만들었습니다. 행렬의 첫 번째 열에는 연구 식별이, 두 번째 열에는 해당 프로젝트에서 통합이 이루어졌는지 여부가, 세 번째 열에는 연구에서 나온 출판물의 통합 점수가 표시되었습니다. 그런 다음 가장 많이 통합된 사례를 먼저 표시하도록 행의 순서를 정했습니다. 이러한 행 순서를 통해 여러 행에서 패턴을 파악하는 데 도움이 되었습니다. 
The shared cases between the qualitative and quantitative components were 21 mixed methods studies (because one interviewee had worked on two studies in the quantitative component). A matrix was formed with each of the 21 studies as a row. The first column of the matrix contained the study identification, the second column indicated whether integration had occurred in that project, and the third column the score for integration of publications emerging from the study. The rows were then ordered to show the most integrated cases first. This ordering of rows helped us to see patterns across rows.

다음 열은 해당 프로젝트의 연구자와의 질적 인터뷰를 통해 얻은 주제였습니다. 예를 들어, 첫 번째 주제는 팀 내 질적 연구에 대한 전문성과 인터뷰 대상자가 이를 연구에 적절하다고 보고했는지에 관한 것이었습니다. 그런 다음 질적 분석의 맥락에서 매트릭스를 사용하여 통합에 영향을 미치는 문제를 탐색했습니다. 특히 질적 분석에서 부정적인 사례(분석 대상자가 분석이 도출한 결론에 맞지 않는 경우)를 식별하여 이해를 돕는 데 도움이 되었습니다. 인터뷰 참여자들은 혼합 방법 연구에 숙련된 질적 연구자가 있어야 질적 요소가 잘 드러난다고 말했지만, 두 사례에서는 이것이 필요하지도 충분하지도 않다고 답했습니다. 이에 따라 혼합 방법 연구에서 결과물을 생성하고 통합된 결과물을 생성하는 데 도움이 되는 연구팀의 다른 요소를 탐색하게 되었습니다. 
The next columns were themes from the qualitative interview with a researcher from that project. For example, the first theme was about the expertise in qualitative research within the team and whether the interviewee reported this as adequate for the study. The matrix was then used in the context of the qualitative analysis to explore the issues that affected integration. In particular, it helped to identify negative cases (when someone in the analysis doesn’t fit with the conclusions the analysis is coming to) within the qualitative analysis to facilitate understanding. Interviewees reported the need for experienced qualitative researchers on mixed methods studies to ensure that the qualitative component was published, yet two cases showed that this was neither necessary nor sufficient. This pushed us to explore other factors in a research team that helped generate outputs, and integrated outputs, from a mixed methods study.

질적 연구의 주제는 정량적 데이터로 코딩할 수 있을 정도로 요약할 수 있습니다. 매트릭스(표⇑)에서 인터뷰 대상자의 팀 내 질적 전문성의 적절성에 대한 인식은 적절함=1 또는 적절하지 않음=2로 코딩될 수 있습니다. 이를 정성적 데이터의 '정량화'23라고 하며, 코딩된 데이터는 정량적 요소의 데이터로 분석할 수 있습니다. 이 기법은 무작위 대조 임상시험에서 정량적 측정을 통해 평가한 건강 개선도와 심층 인터뷰를 통해 평가한 건강 개선도 간의 차이를 파악하기 위해 의료 연구에서 매우 효과적으로 사용되었습니다.24 
Themes from a qualitative study can be summarised to the point where they are coded into quantitative data. In the matrix (table), the interviewee’s perception of the adequacy of qualitative expertise on the team could have been coded as adequate=1 or not=2. This is called “quantitising” of qualitative data23; coded data can then be analysed with data from the quantitative component. This technique has been used to great effect in healthcare research to identify the discrepancy between health improvement assessed using quantitative measures and with in-depth interviews in a randomised controlled trial.24

결론
Conclusion

연구자들이 연구의 질적 요소와 양적 요소의 데이터를 통합하여 무엇을 배울 수 있는지 탐구할 수 있기를 바라며 혼합 방법 연구에 통합할 수 있는 세 가지 기법을 제시했습니다. 이러한 기법을 사용하면 연구자가 "무언가를 만들어냈다"는 느낌을 갖지 않고 통합 과정에 신뢰성을 부여할 수 있습니다. 또한 연구자가 통합에 대한 접근 방식을 설명하도록 장려하여 투명성을 확보하고 이러한 기법을 개발, 비판 및 개선하는 데 도움이 될 수 있습니다. 가장 중요한 것은 연구자들이 연구를 통해 더 많은 이해를 이끌어내는 데 도움이 될 수 있다는 점입니다. 
We have presented three techniques for integration in mixed methods research in the hope that they will inspire researchers to explore what can be learnt from bringing together data from the qualitative and quantitative components of their studies. Using these techniques may give the process of integration credibility rather than leaving researchers feeling that they have “made things up.” It may also encourage researchers to describe their approaches to integration, allowing them to be transparent and helping them to develop, critique, and improve on these techniques. Most importantly, we believe it may help researchers to generate further understanding from their research.

통합이 문제가 없는 것처럼 제시했지만, 실제로는 그렇지 않습니다. 대규모 연구팀보다는 1인 연구자가 이러한 기법을 사용하는 것이 더 쉬울 수 있습니다. 대규모 팀은 누가 통합을 책임지고 누가 프로세스에 참여할 것인지 고려하면서 팀 역학 관계에 주의를 기울여야 합니다. 또한, 통합에 대한 접근 방식을 형성할 수 있는 다양한 철학적 신념에 주의를 기울이기보다는 기술적인 입장을 취했습니다. 이러한 기법은 일부 혼합 방법 연구자들이 채택하는 실용주의적 또는 미묘한 현실주의적 입장의 맥락에서 작동할 수 있다고 생각합니다.25 마지막으로, 이러한 기법은 통합을 위한 보조 수단이며 전문성과 함께 적용될 때만 유용하다는 점을 기억하는 것이 중요합니다. 
We have presented integration as unproblematic, but it is not. It may be easier for single researchers to use these techniques than a large research team. Large teams will need to pay attention to team dynamics, considering who will take responsibility for integration and who will be taking part in the process. In addition, we have taken a technical stance here rather than paying attention to different philosophical beliefs that may shape approaches to integration. We consider that these techniques would work in the context of a pragmatic or subtle realist stance adopted by some mixed methods researchers.25 Finally, it is important to remember that these techniques are aids to integration and are helpful only when applied with expertise.

 


BMJ. 2010 Sep 17;341:c4587. doi: 10.1136/bmj.c4587.

Three techniques for integrating data in mixed methods studies

Affiliations collapse

1Medical Care Research Unit, School of Health and Related Research, University of Sheffield, Sheffield S1 4DA, UK. a.ocathain@sheffield.ac.uk

PMID: 20851841

DOI: 10.1136/bmj.c4587

왜 개방형 설문 질문이 강건한 질적 인사이트를 지지하기 어려운가(Acad Med, 2018)
Why Open-Ended Survey Questions Are Unlikely to Support Rigorous Qualitative Insights
Kori A. LaDonna, PhD, Taryn Taylor, MD, PhD, FRCPC, and Lorelei Lingard, PhD

보건 전문직 교육 연구자들은 이 분야의 복잡한 문제를 탐구하기 위해 양적 연구 방법과 질적 연구 방법의 조합에 점점 더 의존하고 있습니다. 이러한 발전은 중요하고 필요하지만, 새로운 방법론적 과제를 야기하고 있습니다. 연구자들은 하나의 접근 방식에 수반되는 엄격성의 원칙뿐만 아니라 여러 접근 방식의 상호 보완성 또는 비호환성을 고려해야 합니다.1 물론 혼합 방법 연구의 경우처럼 생산적인 효과를 위해 전략적으로 방법을 통합할 수도 있지만,2 연구 방법들이 무분별하게 결합될 경우 연구가 제공할 수 있는 인사이트의 질에 부정적인 영향을 미칠 수 있습니다. 
Health professions education researchers are increasingly relying on a combination of quantitative and qualitative research methods to explore complex questions in the field. Although this development is important and necessary, it has created new methodological challenges. Researchers must consider not only the principles of rigor attendant on one approach but also the complementarity or incompatibility of multiple approaches.1 Certainly, methods can be integrated strategically to productive effect, as in the case of mixed-methods research,2 but they can also be combined blithely, with negative implications for the quality of the insights the research can provide.

문제가 될 수 있는 연구 방법 결합의 일반적인 예로는 '정성적' 질문의 하위 집합을 포함하는 정량적 설문조사 또는 측정 도구가 있습니다. 이는 종종 폐쇄형(리커트형 또는 강제 선택형) 항목에 몇 개의 개방형 질문이 뒤따르는 형태이거나, 의학교육 평가에서 교사나 학습자의 성과에 대한 서술형 피드백을 위한 자유 텍스트 필드의 형태를 취합니다. 자유 텍스트 응답에 대한 분석은 종종 "질적" 연구로 제시됩니다. 이 초청 논평에서는 이러한 응답 분석이 엄격한 질적 연구의 기준을 충족하는 경우가 드문 이유를 설명합니다. 
One common example of combining research methods that can be problematic is the quantitative survey or measurement instrument that includes a subset of “qualitative” questions. Often this takes the form of closed-ended (Likert-type or forced-choice) items followed by a few open-ended questions or, in medical education assessment, free-text fields for narrative feedback to teachers or learners about their performance. Analysis of the free-text responses is frequently presented as “qualitative” research. In this Invited Commentary, we explain why the analysis of such responses rarely meets the bar for rigorous qualitative work.

엄격함의 기준은 무엇인가요?
What Is the Bar for Rigor?

질적 연구의 목적은 "사람들이 자신의 경험을 어떻게 해석하는지, 자신의 세계를 어떻게 구성하는지, 자신의 경험에 어떤 의미를 부여하는지"를 이해하는 것입니다.3 이를 위해 질적 연구자는 동료 디브리핑, 문헌 참조, '구성원 확인'4 또는 초기 분석 인사이트를 구체화하기 위한 추가 데이터 수집을 통해 여러 차례의 데이터 코딩을 수행하는 반복적이고 시간이 많이 소요되는 프로세스에 참여합니다.3,5,6 이 프로세스의 엄격성을 평가하는 방법은 여러 가지가 있지만,7-10 트레이시의 8가지 "빅 텐트" 기준11은 품질에 대한 우리의 가정을 구체화합니다: 즉, 질적 연구는 우수성의 기준을 충족하기 위해 다음을 갖추어야 한다.

  • (1) 가치 있는 주제를 탐구하고,
  • (2) 엄격함을 입증하고,
  • (3) 성실하고, (4) 신뢰할 수 있고, (5) 윤리적이어야 하며,
  • (6) 청중의 공감을 얻고,
  • (7) 중요한 공헌을 하고,
  • (8) 의미 있는 일관성을 달성한다.

이러한 기준을 충족하려면 연구 질문과 연구 결과가 모두 시의적절하고 관련성이 있어야 하며, 연구자가 연구 목적에 부합할 뿐만 아니라 풍부하고 적절한 데이터를 생성하는 절차를 선택하고, 반성성을 고려하며,12 "문헌, 연구 질문/초점, 연구 결과 및 해석을 서로 의미 있게 상호 연결"11해야 합니다.
The purpose of qualitative research is to understand “how people interpret their experiences, how they construct their worlds, and what meaning they attribute to their experiences.”3 To do this, qualitative researchers engage in an iterative, time-intensive process that involves multiple rounds of data coding punctuated by peer debriefing, consultation with the literature, and additional data collection either to “member check”4 or to flesh out early analytical insights.3,5,6 While there are multiple ways to assess the rigor of this process,7–10 Tracy’s eight “big tent” criteria11 shape our assumptions about quality: That is, to meet the bar for excellence, qualitative research must

  • (1) explore a worthy topic;
  • (2) demonstrate rigor;
  • be (3) sincere, (4) credible, and (5) ethical;
  • (6) resonate with an audience;
  • (7) make a significant contribution; and
  • (8) achieve meaningful coherence.

Meeting these criteria requires that both the research question and its findings be timely and relevant, and that researchers choose procedures that not only fit the research purpose but also produce rich and appropriate data, attend to reflexivity,12 and “meaningfully interconnect literature, research questions/foci, findings, and interpretations with each other.”11

자유 텍스트 응답에 대한 '정성적' 분석의 문제점은 무엇인가요?
What Is the Matter With a “Qualitative” Analysis of Free-Text Responses?

설문조사 또는 평가 항목에 대한 자유 텍스트 응답은 진정성, 신뢰성, 공감을 얻거나 실질적인 기여를 할 수 있을 만큼 풍부한 데이터를 생성하는 경우가 드뭅니다.11 데이터의 풍부함에는 아래의 것 등이 포함된다고 다양하게 설명되어 왔습니다.

  • 사회 세계의 특수성에 대한 설명6,
  • 참여자의 감정과 일반적으로 접근하기 어려운 생각의 공개5,
  • 맥락, 감정, 사회적 관계를 환기시키는 "무성한" 또는 "두꺼운" 설명13-15,
  • 소리, 제스처, 동영상 등 다양한 형식과 표현의 조합

16 요컨대, 데이터가 "풍부"하려면 맥락, 개인적인 의미, 정서적, 사회적 뉘앙스, 세부적인 층위를 갖추어야 합니다. 
Free-text responses to survey or assessment items rarely produce data rich enough either to achieve sincerity, credibility, and resonance or to make a substantial contribution.11 Data richness has been variously described as involving

  • descriptions of the particularities of the social world6;
  • disclosure of participants’ feelings and commonly inaccessible thoughts5;
  • “lush” or “thick” descriptions that evoke context, emotion, and social relationships13–15; and
  • various formats and combinations of representation such as sounds, gestures, or videos.16 

In short, for data to be “rich,” they must have context, personal meaning, emotional and social nuances, and layers of detail.

종이 설문조사 도구에서 자유 텍스트 응답을 위한 공간은 몇 인치 정도이며, 전자 또는 온라인 도구에서는 제한된 텍스트 필드인 경우가 많습니다. 경험상 보건 전문직 교사, 학생, 실무자는 일반적으로 할당된 공간에 충분한 서술형 피드백을 제공하지 않습니다. 따라서 몇 문장 이하로 구성된 데이터는 "문맥에 대한 주의와 ... 개념적 풍부함"이 부족한 경우가 많습니다.17 이러한 상황에서는 설문조사 완료 횟수와 무관하게 몇 문장으로 구성된 500개의 응답이 적절한 표본이 될 수 있지만, 특히 질문과 응답이 연구 목표에 대한 부가적인 추가 사항인 경우 반드시 그렇게 되지 않을 수도 있습니다. 따라서 자유 텍스트 응답을 분석하면 연구자가 사전 이해를 얻고 콘텐츠 영역을 스케치하는 데 도움이 될 수 있지만, 일반적으로 질적 연구의 핵심인 "어떻게?" 및 "왜?"라는 질문에는 도달할 수 없습니다. 
The space for free-text responses on paper survey instruments tends to be a few inches; on electronic or online instruments, it is often a restricted text field. In our experience, health professions teachers, students, and practitioners do not typically provide copious narrative feedback in the allotted space. In turn, data consisting of a few sentences (or less) often lack “attention to context and … conceptual richness.”17 In this situation, the number of surveys completed is irrelevant; 500 responses of a few phrases each can constitute an appropriate sample but may not necessarily do so, particularly if the questions—and responses—are tangential add-ons to the research aims. Therefore, while analysis of free-text responses can generate preliminary understanding and help researchers begin to sketch content areas, it usually cannot get at the “how?” and “why?” questions that are the core business of qualitative research.

또한 자유 텍스트 응답은 엄격한 질적 절차를 통해 분석되는 경우가 드뭅니다. 대신, 특히 키워드의 빈도에 중점을 두는 경우 분석이 정성적이기보다는 정량적으로 보일 수 있습니다. 그렇다고 반복되는 단어를 세는 것이 잘못되었다는 것이 아니라, 종종 불충분할 수 있다는 뜻입니다. 자유 텍스트 응답에 대한 강력한 질적 분석(내용,18,19 주제,20 또는 담론적 또는 언어적 절차21에 따른 분석)은 단순히 개수를 세는 것 이상의 역할을 해야 합니다. 그것은 탐구 중인 사회 현상에 대한 우리의 이해를 풍부하게 해야 합니다.  
Additionally, free-text responses are rarely analyzed using rigorous qualitative procedures. Instead, the analysis may appear more quantitative than qualitative, particularly if the primary focus is frequency of keywords. That is not to say that counting recurring words is wrong but, rather, that it will often be insufficient. A robust qualitative analysis of free-text responses—whether it follows content,18,19 thematic,20 or discursive or linguistic procedures21—must do more than count. It must enrich our understanding of the social phenomena being explored.

이러한 이유로, 자유 텍스트 질문에 대한 응답은 정성적 데이터에 요구되는 풍부함의 기준을 거의 충족하지 못하며, 따라서 이러한 응답에 대한 분석은 강력하고 해석 가능한 독립적인 인사이트를 생성하지 못할 위험이 있다고 주장합니다. 따라서 연구자들은 이러한 분석이 그 자체로 발표할 가치가 있는지에 대해 다시 한 번 생각해 볼 것을 권고합니다. 
For these reasons, we contend that responses to free-text questions will rarely meet the standard for richness required of qualitative data, and that the analysis of these responses, therefore, risks falling short of producing robust, interpretive, stand-alone insights. We caution researchers to think twice about whether these analyses are worthy of publication in their own right.

해결책은 무엇인가요?
What Is the Solution?

물론 예외도 있습니다. 즉, 자유 텍스트 응답 데이터가 "새롭거나 독특하거나 희귀"하고 특정 선험적 연구 질문에 답하기에 적합한 경우 가치 있는 기여를 할 수 있습니다.11 예를 들어, 의학교육 평가 도구의 자유 텍스트 응답을 기반으로 한 두 가지 연구가 엄격하고 독립적인 질적 연구의 기준을 충족한다고 생각됩니다.

  • Myers 등22 은 주제별 분석 및 일치도 소프트웨어를 사용하여 임상 교사에 대한 레지던트의 자유 텍스트 코멘트가 포함된 임상 교육 평가의 패턴을 설명했습니다. 연구 결과 중에는 교수진의 '개선 영역'에 대한 레지던트의 설명이 교수진의 교수 행동보다 레지던트의 학습 요구에 대해 더 많은 것을 말해줄 수 있다는 통찰이 있었습니다.
  • Ginsburg 등23은 레지던트 수련 평가 보고서에 대한 교수진의 서면 코멘트를 분석하여 코멘트의 주제를 설명하고 CanMEDS 역량 프레임워크와의 관계를 탐색했습니다. 그들은 교수진이 중요하게 생각하지만 CanMEDS 프레임워크에는 나타나지 않는 역량을 제안하는 세 가지 반복되는 주제를 서면 의견에서 발견했습니다. 

There are, of course, exceptions. That is, valuable contributions can be made if free-text response data are “new, unique, or rare” and appropriate for answering a specific, a priori research question.11 To illustrate, consider two studies based on free-text comments in medical education assessment instruments that we think meet the bar for rigorous, stand-alone qualitative research.

  • Myers et al22 used thematic analysis and concordance software to describe the patterns in clinical teaching assessments containing residents’ free-text comments about their clinical teachers. Among their findings was the insight that residents’ descriptions of “areas of improvement” for faculty may say more about resident learning needs than about faculty teaching behaviors.
  • Ginsburg et al23 analyzed written comments by faculty on resident in-training evaluation reports and both described themes in the comments and explored their relationship with the CanMEDS competency framework. They discovered three recurring themes in the written comments that suggested competencies valued by faculty but not represented in the CanMEDS framework.

중요한 점은 이 두 사례 모두에서 자유 텍스트 응답 분석이 대규모 정량적 프로젝트에 추가되는 것이 아니라 연구의 중심이었으며, 결과적으로 이러한 데이터는 연구 질문에 답하기 위해 의도적으로 선택되었다는 점입니다. 인터뷰나 참가자 관찰과 같은 추가 데이터가 있었더라면 저자들의 연구 결과를 개선할 수 있었겠지만, 자유 텍스트 응답이 연구 질문에 적절했습니다. 마지막으로, 두 저자 그룹 모두 기존 문헌 및 개념적 프레임워크와 함께 데이터를 분석하고 제시함으로써 엄밀성을 확보했습니다. 따라서 데이터 자체는 내러티브로서 '풍부'하지는 않았지만, 그럼에도 불구하고 분석은 의미 있는 질적 인사이트를 도출할 수 있었습니다.
Importantly, in both of these examples the analysis of the free-text responses was the central focus of the study, not an add-on to a larger, quantitative project; as a consequence, these data were purposefully selected to answer the research question. Although additional data, such as interviews or participant observations, might have enhanced the authors’ findings, the free-text responses were appropriate for their inquiries. Finally, both groups of authors ensured rigor by analyzing and presenting the data in tandem with existing literature and conceptual frameworks. Therefore, although the data themselves were not “rich” as narratives, the analysis nevertheless was capable of yielding meaningful qualitative insights.

연구자들이 개방형 설문조사 질문을 피해야 한다고 제안하는 것이 아니며, 그러한 질문이 제공하는 데이터를 무시해야 한다고 제안하는 것도 아닙니다. 오히려 설문조사 응답자의 서면 응답은 정량적 결과를 향상시키고, 설문조사 질문의 문제점을 부각시키며, 폐쇄형 질문에 대한 답변을 확증하고, 새로운 연구 방향을 제시할 수 있습니다.17 또한 평가 도구의 서술형 응답은 비록 축약되어 있지만 특정 맥락에서 서면 피드백의 본질과 의미에 대한 중요한 질문에 답할 수 있는 리소스를 제공할 수 있습니다. 
We are not suggesting that researchers should avoid open-ended survey questions, nor are we suggesting that researchers should ignore the data provided by such questions. On the contrary, survey respondents’ written responses can enhance quantitative findings, highlight problems with survey questions, corroborate answers to closed-ended questions, and inspire new avenues for research.17 And narrative responses on assessment instruments, albeit abbreviated, can provide a resource for answering important questions about the nature and meaning of written feedback in specific contexts.

그러나 Silverman24가 주장했듯이 "질적 연구는 단순히 주어진 연구 문제에 끼워 맞출 수 있는 일련의 기술이 아닙니다." 간단한 자유 텍스트 응답을 적절하게 처리하기 위해 세 가지 제안을 제공합니다.

  • 첫째, 개방형 질문이 몇 개 포함된 설문조사 도구의 경우, 연구자는 이러한 데이터와 그 분석을 사후에 독립적으로 수행되는 질적 연구의 일부가 아니라 1차 설문조사 연구의 보조 분석으로 선험적으로 개념화해야 합니다.
  • 둘째, 많은 평가 도구에서 볼 수 있는 것과 같이 자유 텍스트 항목에 대한 간단한 응답에 의도적으로 초점을 맞춘 연구의 경우, 연구자는 연구 질문이 집중적이고 적절한지 확인해야 하며 탐구 중인 사회 현상에 대한 강력한 통찰력을 제공하는 분석 절차에 참여해야 합니다.
  • 마지막으로, 엄밀성을 보장하기 위해 연구 설계를 지원하고 분석이 진행되는 동안 지침을 제공할 수 있는 숙련된 질적 연구자와 상담하는 것이 좋습니다. 

However, as Silverman24 has argued, “qualitative research is not simply a set of techniques to be slotted into any given research problem.” To treat brief free-text responses appropriately, we offer three suggestions. First, in the case of a survey instrument that includes a few open-ended questions, researchers should conceptualize these data and their analysis a priori as an adjunct analysis to the primary survey research, not as a post hoc stand-alone piece of qualitative scholarship. Second, in the case of a study focused purposefully on brief responses to free-text items such as those found in many assessment instruments, researchers should ensure that the research question is focused and appropriate, and they should engage in analytical procedures that offer robust insights into the social phenomena being explored. Finally, to help ensure rigor, we suggest consulting with an experienced qualitative researcher who can both assist with study design and provide guidance as the analysis unfolds.

 


Acad Med. 2018 Mar;93(3):347-349. doi: 10.1097/ACM.0000000000002088.

Why Open-Ended Survey Questions Are Unlikely to Support Rigorous Qualitative Insights

Affiliations collapse

Affiliation

1K.A. LaDonna is assistant professor, Department of Innovation in Medical Education and Department of Medicine, University of Ottawa, Ottawa, Ontario, Canada; ORCID: http://orcid.org/0000-0003-4738-0146. T. Taylor is assistant professor, Department of Obstetrics and Gynaecology, and scientist, Centre for Education Research and Innovation, Schulich School of Medicine and Dentistry, Western University, London, Ontario, Canada. L. Lingard is professor, Department of Medicine and Faculty of Education, and founding director and senior scientist, Centre for Education Research and Innovation, Schulich School of Medicine and Dentistry, Western University, London, Ontario, Canada.

PMID: 29215376

DOI: 10.1097/ACM.0000000000002088

Abstract

Health professions education researchers are increasingly relying on a combination of quantitative and qualitative research methods to explore complex questions in the field. This important and necessary development, however, creates new methodological challenges that can affect both the rigor of the research process and the quality of the findings. One example is "qualitatively" analyzing free-text responses to survey or assessment instrument questions. In this Invited Commentary, the authors explain why analysis of such responses rarely meets the bar for rigorous qualitative research. While the authors do not discount the potential for free-text responses to enhance quantitative findings or to inspire new research questions, they caution that these responses rarely produce data rich enough to generate robust, stand-alone insights. The authors consider exemplars from health professions education research and propose strategies for treating free-text responses appropriately.

교육자의 블루프린트: 설문 시행의 how-to 가이드(AEM Educ Train. 2023)
Educator's blueprint: A how-to guide on survey administration
Kathleen Y. Ogle MD1 | Jeffery Hill MD, MEd2 | Sally A. Santen MD, PhD2,3 | Michael Gottlieb MD4 | Anthony R. Artino Jr. PhD1 

서론
INTRODUCTION

설문조사 기반 의학교육 연구의 복잡성을 고려할 때, 이 시리즈의 의도는 학술 응급의학 내에서 설문조사 연구를 수행하는 과정을 단순화하는 것이었습니다.1, 2 우리의 목표는 설문조사 방법론에 대한 접근 방식을 개선하는 것이었으며, 이에 따라 의학교육 연구자들을 위한 지침으로 일련의 모범 사례 기사를 개발하고자 했습니다. 다른 논문에서는 설문조사 관리에 대해 간략하게 다루었지만, 본 논문에서는 각 유형의 관리 옵션의 문제점과 이점을 자세히 살펴봄으로써 다른 접근 방식을 제시합니다.3, 4 추적, 개인화, 설문조사 기간, 인센티브 사용, 응답자 참여와 관련된 이점과 과제에 대해 자세히 논의합니다. 
Given the complexity of survey-based medical education research, our intention with this series was to simplify the process of conducting survey research within academic emergency medicine.1, 2 Our goal was to improve the approach to survey methodology; as such, we sought to develop a series of best practices articles as a guide for medical education researchers. While other papers have briefly touched on survey administration, our paper offers a different approach, delving further into the challenges and benefits of each type of administration option.3, 4 We further discuss the benefits and challenges with respect to tracking, personalization, survey length, use of incentives, and engaging with respondents.

대상 모집단 샘플링
SAMPLING THE TARGET POPULATION

설문조사 관리 및 전달 방법을 고려할 때 연구자는 먼저 대상 모집단과 샘플링 프레임을 식별해야 합니다.5

  • 대상 모집단은 연구자가 궁극적으로 기술하고 잠재적으로 추론하고자 하는 개인 그룹입니다.
  • 반면에 샘플링 프레임은 표본을 추출하는 그룹 또는 목록입니다.

완벽한 세계에서는 샘플링 프레임이 대상 모집단과 완벽하게 일치하지만 실제로는 거의 발생하지 않습니다. 예를 들어, 대상 모집단은 ACGME 인증 프로그램의 모든 응급의학 핵심 교수진일 수 있습니다. 이 대상 집단을 샘플링하기 위해 연구자는 응급의학과 레지던트 디렉터 협의회(CORD) 리스트서브를 사용할 수 있습니다. 모든 핵심 교수진이 리스트서브에 가입하지 않을 수 있으므로 이는 대상 집단에 대한 완벽한 근사치는 아니지만, 연구자는 리스트서브가 대상 집단에 근접한 근사치라고 합리적으로 주장할 수 있습니다. 
When considering survey administration and delivery methods, researchers must first identify their target population as well as their sampling frame.5 

  • The target population is the group of individuals the researcher ultimately aims to describe and potentially make inferences about.
  • The sampling frame, on the other hand, is the group or list from which the sample is drawn.

In a perfect world, the sampling frame would perfectly match the target population; but in practice, this seldom occurs. For example, the target population might be all the emergency medicine core faculty in ACGME-accredited programs. To sample this target population, the researcher might use the Council of Residency Directors in Emergency Medicine (CORD) listserv. This is not a perfect approximation of the target population, since all core faculty may not subscribe to the listserv; however, the researcher could make a reasoned argument that the listserv is a close approximation of the target population.

가장 적절한 대상 집단과 해당 샘플링 프레임을 결정하기 위해 연구자는 설문조사의 목적과 실용적인 문제를 모두 고려하여 대표성 있는 응답과 실현 가능성을 보장하기 위해 적절한 범위의 균형을 맞춰야 합니다. 또 다른 중요한 요소는 설문조사의 응답률입니다. 응답률은 잠재적 설문 응답자 중 완료된 설문조사에 응답한 비율 또는 백분율을 의미합니다. 다시 말해, 응답률은 설문조사에 응답한 개인 수를 전체 잠재 응답자 수로 나눈 비율입니다. 최종 응답률은 개방형 응답과 폐쇄형 응답의 수(즉, 응답자는 일반적으로 긴 개방형 항목을 작성하는 것을 좋아하지 않으므로 응답률이 떨어질 수 있음)를 비롯한 여러 가지 중요한 요소의 영향을 받을 수 있습니다.6, 7 응답률이 중요한 이유는 충분한 사람이 설문조사를 완료하지 않으면 해당 데이터가 전체 그룹의 태도, 의견, 신념 또는 행동을 대표하지 못할 수 있으므로(즉, 무응답 편향이 존재할 수 있음) 응답률이 중요해집니다. 따라서 대표성 있는 표본 추출은 의미 있는 추론을 할 수 있을 만큼 충분한 표본을 확보하는 데 달려 있으며, 응답률은 표본의 대표성을 파악하는 데 필요한 정보의 일부(전부는 아님)를 제공합니다. 
To determine the most appropriate target population and corresponding sampling frame, the researcher must consider both the objectives of the survey and practical issues to balance appropriate coverage to ensure representative responses and feasibility. Another important factor is the survey's response rate. Response rate refers to the fraction or percentage of potential survey respondents who return completed surveys. Stated another way, response rate is the ratio of the number of individuals who responded to a survey divided by the number of total potential respondents. The ultimate response rate can be affected by a number of important factors, including, among other things, the number of open-ended versus closed responses (i.e., respondents generally do not like completing long, open-ended items, and so response rates can suffer).6, 7 Response rates are important because if a survey is not completed by enough people, then that data may not be representative of the attitudes, opinions, beliefs, or behaviors of the entire group (i.e., nonresponse bias may exist). Therefore, representative sampling depends on having a large enough sample to make meaningful inferences, and the response rate provides some (but not all) of the information needed to know how representative the sample is likely to be.

일반적으로 연구자는 연구의 상황적 한계(예: 대상 인구의 전체 규모 및 연구의 재정적 제약)를 고려하여 가능한 한 가장 높은 응답률을 달성하는 것을 목표로 해야 합니다. 또한 일부 학술지에서는 최소 응답률을 요구한다는 사실을 알아두는 것이 중요합니다. 예를 들어, JAMA는 설문조사 연구에 "일반적으로 60% 이상의 충분한 응답률을 요구합니다."8 즉, 표본 규모에 관계없이(특히 응답률이 낮은 경우) 연구자는 웨이브 또는 후속 분석과 같은 기법을 사용하여 잠재적인 무응답 편향이 있는지 평가해야 합니다. 응답률과 무응답 편향에 대한 보다 자세한 설명은 AMEE 가이드 102번: 설문조사에서 응답률 향상 및 무응답 편향 평가.6을 참조하시기 바랍니다.
As a rule, researchers should aim to achieve the highest response rate possible, given their study's contextual limitations (e.g., the overall size of the target population and the study's financial constraints). In addition, it is important to know that some journals require a minimum response rate. For example, JAMA asks that survey studies “have sufficient response rates, generally ≥60%.”8 That said, regardless of the sample size (but especially when response rates are low), researchers should assess for potential nonresponse bias using techniques such as wave or follow-up analysis. For a more complete description of response rates and nonresponse bias, interested readers are directed to AMEE Guide No. 102: Improving Response Rates and Evaluating Nonresponse Bias in Surveys.6

설문조사 관리 매체
MEDIUM OF SURVEY ADMINISTRATION

대상 인구와 샘플링 프레임이 결정되면 연구자는 가능한 한 높은 응답률을 보장하기 위해 잠재적 응답자에게 설문조사를 시행하는 가장 좋은 방법을 고려해야 합니다. 이 결정에는 예산 제약과 기관의 자원도 고려해야 합니다. 설문조사를 관리하거나 배포하는 방법에는 대면 또는 우편을 통한 종이 설문조사, 이메일 또는 스마트폰(모바일 앱 또는 문자)을 통한 전자 설문조사, 대면 또는 가상 회의, 소셜 미디어 등 다양한 방법이 있습니다.5-7, 9, 10 궁극적으로 복합적인 접근 방식이 일반적으로 가장 높은 응답률을 제공합니다.11 이러한 다양한 관리 접근 방식의 장점, 문제점 및 기타 고려 사항은 아래에 설명되어 있습니다(이러한 요소에 대한 요약은 표 1 참조).

Once the target population and sampling frame have been determined, researchers should consider the best way or ways to administer the survey to potential respondents to ensure the highest possible response rate. This decision should also factor in budgetary constraints and institutional resources. There are multiple ways to administer or distribute a survey: paper surveys, in person or via postal mail; electronic surveys, by email or smartphone (mobile app or text); audience response systems, in-person or virtual meetings; and social media.5-7, 9, 10 Ultimately, a multimodal approach will typically yield the highest response rate.11 Some of the benefits, challenges, and other considerations with these various administration approaches are described below (see Table 1 for a summary of these components).

TABLE 1. Survey delivery tool.

Survey delivery mode Examples Benefits Drawbacks Potential solutions
Paper survey
In person In a classroom or conference 100% delivery to intended audience
Physical copy
Improved response rate if time allotted
Increased cost
Increased time investment
May not be delivered by PI (if there is a power differential)
Environmental impact
Query institutional resources earmarked for this purpose
Engage research assistants for survey delivery
Electronic survey
Web-based survey software Email delivery
QR code
Text message
Social media*
App based (respondents may need the app)
Low cost
Desktop, mobile device, or smartphone
Charts, images, graphs may be integrated
Allows for branching logic
Can be automated
May utilize listservs
Email fatigue
Possible technical issues for individuals who prefer paper
Easily missed
Include a prenotification
Personalize the invitation
Include survey in subject line of email
Audience response systems In a classroom or conference
In a live webinar
100% delivery to attendees Missed responses from those not in attendance Use a multimodal survey approach and send follow up survey to those not in attendance
  • Note: Adapted from Step 4: Survey Delivery.5

종이 설문조사
Hard-copy surveys

직접 대면하거나 우편으로 전달하는 종이 설문조사는 웹 기반 또는 다른 유형의 전자 설문조사에 비해 몇 가지 장점이 있습니다. 종이 설문조사는 응답자에게 촉각적 동기를 부여하여 응답률을 높일 수 있습니다.7 또한 대면 종이 설문조사를 통해 연구자는 비교적 단기간에 대규모 표본 프레임에 쉽게 도달할 수 있습니다(예: 교실에서 학생을 대상으로 대면 설문조사를 실시하는 경우). 또한 종이 설문조사는 응답자가 전화 설문조사에서 같은 질문을 받는 것과 달리 질문한 내용을 시각적으로 더 잘 검토할 수 있습니다. 
Paper surveys, administered in person or less commonly delivered by postal mail, have several advantages over web-based or other types of electronic surveys. Hard-copy surveys provide respondents with a tactile motivator, which may increase response rates.7 In-person paper surveys can also allow researchers to easily reach a large sampling frame in a relatively short period of time (e.g., an in-person survey delivered to a captive audience of students in a classroom). Moreover, a paper survey may allow respondents to better review a visual representation of queried content, as opposed to being asked such questions on a phone survey.

대면 또는 우편 종이 설문조사 사용 시 한 가지 문제점은 응답자가 기밀 유지에 대해 우려하여 민감한 질문에 응답하거나 정확한 답변을 제공하지 않을 수 있다는 것입니다.5 또한 대면 또는 우편 종이 설문조사는 설문지를 인쇄하고 우편으로 발송한 다음 통계 소프트웨어 또는 스프레드시트에 데이터를 입력하는 데 드는 간접 비용이 더 많이 들 수 있습니다. 스캔 가능한 양식과 함께 종이 설문조사를 사용하면 데이터 입력 비용을 줄일 수 있지만, 응답자 입장에서는 '버블 시트'에 응답하는 데 약간의 복잡성이 추가될 수 있습니다. 
One challenge with using in-person or mailed paper surveys is that respondents may be concerned about confidentiality and thus less likely to respond or provide accurate responses to sensitive questions.5 Further, in-person or mailed paper surveys can have higher overhead costs associated with printing the surveys, mailing them, and then entering the data into statistical software or a spreadsheet. Using paper surveys with scannable forms can reduce data entry expense but can also add a small layer of complexity in answering on a “bubble sheet” (from the respondent's perspective).

전자 설문조사
Electronic surveys

전자 설문조사 사용을 고려하는 경우, 연구자가 선택할 수 있는 설문조사 플랫폼은 다양합니다(예: SurveyMonkey, Google 설문조사, Qualtrics, REDCap). 연구자는 이러한 리소스를 사용하기 위해 독립적으로 자금을 투자하기 전에 기관이 후원하는 웹 기반 옵션을 탐색할 수 있습니다(구체적인 예는 표 2에서 확인할 수 있습니다). 전자적 관리 방식에는 플랫폼에 통합된 몇 가지 장점과 기능이 있습니다. 
If considering the use of electronic surveys, researchers have a multitude of survey platforms to choose from (e.g., SurveyMonkey, Google Forms, Qualtrics, REDCap). Researchers might explore institution-sponsored, web-based options before independently investing funds in the use of these resources (specific examples can be found in Table 2). Electronic modes of administration have several benefits and features incorporated into the platform.

TABLE 2. Digital survey platforms.

Service Benefits Drawbacks
Qualtrics
  • Flexible design options
  • Export to various statistic programs
  • May be available to faculty through institutional license
  • Generally needs an institutional license as the cost may be prohibitive for individuals
  • Cost is dependent on desired features
SurveyMonkey
  • May be available to faculty through institutional license
  • Free for surveys with <10 items
  • Visual display is limited
  • Paid subscription required to export data for analysis
  • For >10 survey items, packages variable
Google Forms
  • Free and easy to use
  • Survey output may not track column order in Google Sheets
  • Limited options for display and branching logic
LimeSurvey
  • Free
  • Need knowledge of computer programming
REDCap
  • May be available to faculty through institutional license
  • More complex to learn
  • Limited ability to format survey items
  • Note: Adapted from Step 4: Survey Delivery.5
 

이러한 각 도구에는 다양한 전달 옵션과 기타 고려 사항이 있습니다:

Each of these tools has various delivery options and other considerations:
  • 전자 설문조사는 이메일을 통해 각 잠재 응답자에게 직접 전송할 수 있습니다. 개별 이메일 주소로 설문조사를 보내면 연구자가 표본을 적절하게 타겟팅하고 응답률을 모니터링할 수 있습니다.5
    Electronic surveys can be sent to each potential respondent directly via email. Sending the survey to individual email addresses allows the researcher to appropriately target the sample and monitor response rate.5
  • 현재 설문조사 기반 연구에 사용되는 대부분의 플랫폼에는 일회용 링크가 생성될 수 있는 보안 옵션이 있습니다. 이렇게 하려면 개인화, 이메일을 포함한 연락처 목록 생성, 잠재적으로 식별 가능한 정보 또는 IP 주소 수집이 필요합니다. 플랫폼에 따라 다운로드한 설문조사 결과는 기밀 또는 익명일 수 있으므로, 예를 들어 약속된 '익명 설문조사'가 실제로 익명인지 확인하기 위해 선택한 플랫폼의 보안 기능을 검토하는 것이 중요합니다. 
    Most of the current platforms used for survey-based research have security options in which a single-use link may be generated. Doing so requires personalization, likely generation of a contact list including emails and collection of some potentially identifiable information or IP addresses. Depending on the platform, the downloaded survey results may be confidential or anonymous; therefore, it is important to review the security features of the chosen platform to ensure, for example, that a promised “anonymous survey” is in fact anonymous.
  • 전자 설문조사는 웹 세미나 채팅 또는 가상 미팅에 링크를 삽입하거나 슬라이드의 QR 코드로 전송할 수 있습니다. 그러나 가상 미팅이나 웹 세미나의 채팅 트래픽에 따라 설문조사 링크가 쉽게 놓치거나 무시될 수 있습니다. 또한 이 방식은 참석하지 않은 대상 집단에서 잠재적 응답자를 놓칠 수 있으며, 일부 잠재적 응답자는 QR코드 사용법에 어려움을 겪을 수 있습니다. 
    Electronic surveys can be sent as a link placed in a webinar chat or virtual meeting or presented as a QR code on a slide. Depending on the chat traffic in a virtual meeting or webinar, however, a survey link could be easily missed or ignored. This approach also misses potential respondents from the target population who are not in attendance, and some potential respondents may struggle with how to use a QR code.
  • 설문조사는 소셜 미디어나 여러 응답자에게 보내는 메시지의 하이퍼링크(예: 리스트서브)를 통해 광범위한 대상에게 배포할 수 있습니다.7, 9, 12 
    Surveys may be distributed to broad populations by social media or a hyperlink in a message to multiple respondents, i.e., via a listserv.7, 9, 12
  • 대면 또는 가상 강의실에서 사용되는 것과 같은 청중 응답 설문조사는 연구자가 고정된 청중으로부터 실시간 데이터를 얻을 수 있다는 이점이 있습니다. 또한 여러 시스템(예: PollEverywhere, Kahoot!, Socrative)을 통해 응답을 추적할 수 있으므로 연구자는 청중 개개인의 응답률을 실시간으로 정량화할 수 있습니다. 청중 응답 시스템은 방에 있는 사람(직접 또는 가상으로)만 참여할 수 있으므로 모집단을 부적절하게 제한할 수 있습니다. 
    Audience response surveys, like those used with in-person or virtual classrooms, have the benefit of allowing researchers to obtain real-time data from a captive audience. Several systems (e.g., PollEverywhere, Kahoot!, Socrative) can also track the responses, which can allow the researcher to quantify the response rate of the individuals present in the audience in real time. Audience response systems only allow those present in the room (either in person or virtually) to participate and may inappropriately limit the population.

전자 설문조사와 그 결과 보고에는 몇 가지 어려움과 특별한 고려사항이 있습니다.13 개별 이메일을 사용하는 경우, 연구자는 설문조사가 완전한 익명(즉, 개인화된 데이터가 수집되지 않음)이 아닌 기밀(즉, 비식별화) 설문조사인지 여부를 명시해야 합니다. Qualtrics, SurveyMonkey와 같은 대부분의 전자 설문조사 도구에는 다양한 유형의 기밀 또는 익명 데이터 수집을 허용하는 시스템 설정이 있습니다. 설문조사가 진정으로 익명인 경우(즉, 응답을 개인의 개인 정보와 연결할 방법이 없는 경우) 이를 명시적으로 명시해야 하기 때문에 이 구분이 중요합니다. 그러나 실제로는 설문조사 데이터를 다른 결과와 연결하기 위한 목적으로 개인 정보를 수집하는 경우가 많습니다(예: 의대생의 코스에 대한 의견을 코스 성적과 연결). 이러한 접근 방식은 응답하지 않은 응답자에게 다시 연락하거나 후속 조치를 취하는 데도 용이합니다.  
There are several challenges and special considerations with electronic surveys and in reporting of those results.13 If using individual emails, researchers should specify whether a survey is confidential (i.e., deidentified) as opposed to truly anonymous (i.e., no personalized data is collected). Most electronic survey tools, like Qualtrics and SurveyMonkey, have system settings that allow for various types of confidential or anonymous data collection. This distinction is key because if the survey is truly anonymous (i.e., there is no way to link responses to an individual's personal information), then this should be explicitly stated. In practice, however, personal information is often collected for the purpose of linking survey data to other outcomes (e.g., linking a medical student's opinions on a course to their course grades). Such an approach also facilitates recontact or follow-up for nonresponders.


소셜 미디어와 대규모 리스트서브를 통해 설문조사를 배포할 때 가장 큰 어려움 중 하나는 실제 표본 프레임이나 응답률을 추적할 수 없어 대표성이 제한되고 설문조사 결과를 게시하기 어려울 수 있다는 점입니다. 또한 이메일을 통해 배포되는 설문조사의 경우 분모가 불분명하기 때문에 응답률을 계산하기 어려울 수 있습니다. 어떤 연구자들은 이메일을 보낸 횟수를 계산하고, 어떤 연구자들은 이메일을 열어본 횟수를 계산하며, 또 다른 연구자들은 이메일에서 클릭한 링크 수를 분모로 계산합니다. 어떤 방법을 사용하든 연구자는 응답률과 설문조사 완료율을 계산한 방법을 정확히 설명하는 것이 중요합니다.14 
One of the major challenges of disseminating a survey by social media and large listservs is the inability to track the true sampling frame or response rate, which can limit representativeness and result in survey results that are difficult to publish. What is more, it can be difficult to calculate a response rate for surveys that are distributed via email because the denominator is sometimes unclear. Some researchers count emails sent, and others count emails opened, while still others count the number of links clicked in an email as the denominator. Regardless of the method used, it is important for researchers to describe exactly how they have calculated their response rate and surveys completed.14

또한 연구자는 샘플링 프레임에 속하지 않는 응답자의 응답을 샘플링하게 될 수도 있습니다. 따라서 이 매체가 특정 연구에 적합한 이유(예: 특수 집단에 대한 접근성)를 설명하고 응답자의 대표성을 적절히 확보하는 것이 중요합니다. 마찬가지로 리스트서버를 통해 이메일에 링크를 넣으면 특히 리스트서버가 오래된 주소로 채워진 경우 응답률을 파악하기 어렵습니다. 또한 리스트서브에는 의도한 표본에 포함되지 않은 개인이 포함될 수 있습니다(예: CORD 리스트서브에는 프로그램 디렉터만 있는 것이 아니라 그 이상의 사람들이 포함됨). 
Further, researchers may end up sampling responses from respondents who do not fall in their sampling frame. Therefore, it is important to demonstrate why this medium is appropriate for a specific study (e.g., access to special populations) and ensure adequate representativeness of the respondents. Similarly, placing a link in an email via listserv also makes it difficult to determine response rate, especially if the listserv is populated with outdated addresses. Additionally, the listserv may include individuals who are not part of the intended sample (e.g., the CORD listserv has more than just program directors).

참여자 참여에 영향을 미치는 요인
FACTORS IMPACTING PARTICIPANT ENGAGEMENT

위에서 설명한 바와 같이, 대부분의 연구자들은 무응답 편향을 줄이기 위해 높은 응답률을 얻기 위해 노력합니다. 따라서 연구자는 응답자의 동기를 부여하고 설문조사에 참여하도록 장려하는 전략을 사용할 수 있고 또 사용해야 합니다. 다음은 응답자의 동기를 강화하고 전반적인 응답률을 향상시키는 데 사용할 수 있는 몇 가지 전략입니다. 
As described above, most researchers strive to obtain a high response rate in an effort to reduce nonresponse bias. As such, researchers can and should use strategies to encourage respondent motivation and participation in the survey. The following are several strategies that can be used to bolster respondent motivation and improve overall response rates.

추적
Tracking

설문조사 전달 방법을 선택할 때 연구자는 수신 및 응답을 추적할 수 있는 기능을 고려해야 합니다. 이를 통해 연구팀은 응답하지 않은 참가자에게 리마인더를 보낼 수 있습니다. 대부분의 경우 설문조사 요청에 응답하는 대부분의 참가자는 참여 초대를 받은 후 처음 2주 이내에 응답한다는 점을 기억하는 것이 중요합니다.7, 9 
In selecting a survey delivery method, researchers should consider their ability to track receipt and responses. Doing so allows the research team to send reminders to nonresponding participants. It is important to remember that, in most cases, many participants who respond to a survey request will do so within the first 2 weeks of an invitation to participate.7, 9

개인화
Personalization

대화식 인사말을 사용하여 설문조사 초대를 개인화하면 응답자에게 긍정적인 동기 부여 효과를 줄 수 있으며, 특히 응답자가 아는 사람이 초대를 보낸 경우 더욱 그렇습니다. 경우에 따라서는 영향력이 있거나 기존 관계를 맺고 있는 사람이 수신 설문조사에 대한 사전 주석을 달면 긍정적인 영향을 미칠 수 있습니다. 설문조사가 연구에 사용되는 경우 이러한 접근 방식은 현지 기관 심의위원회의 검토가 필요합니다. 
Personalizing survey invitations using conversational salutations can have a positive motivational effect on respondents, particularly if the invitation also comes from an individual the respondent knows. In some cases, a prenotification of an incoming survey, delivered by a person who has either influence or an existing relationship, may have a positive impact. If the survey is being used for research, then such an approach will require review by the local institutional review board.

설문조사 길이
Survey length

설문조사 길이는 참여자의 참여를 결정하는 데 가장 큰 영향을 미치는 요소 중 하나입니다. 응답률을 높이는 방법에 대한 최근 메타분석에서 Edwards와 동료들은 짧은 설문조사를 사용할 때(긴 도구에 비해) 응답률이 거의 두 배나 높다는 사실을 발견했습니다.9 또한 설문조사 초대장에 "간단한" 또는 "짧은"과 같은 한정어를 제공하는 것이 설문조사에 질문 수를 명시하거나 설문조사 완료에 필요한 시간을 추정하는 것보다 더 도움이 될 수 있습니다.5-7, 17 
Survey length is one of the most influential factors in determining participant engagement. In a recent meta-analysis of methods to increase response rates, Edwards and colleagues found that responses were almost twice as likely to occur when shorter surveys were used (as compared to longer tools).9 In addition, providing a qualifier such as “brief” or “short” in the survey invitation may be more helpful than specifying the number of questions on the survey or estimating the amount of time required to complete the survey.5-7, 17

인센티브
Incentives

현금, 선물 또는 기프트 카드 형태의 인센티브는 연구자들에 의해 다양한 성공 사례와 함께 널리 사용되고 있습니다. 에드워즈 등은 메타분석을 통해 금전적 인센티브를 사용할 경우 응답 확률이 두 배 이상 증가했으며, 이러한 인센티브가 응답에 조건이 없는 경우 그 확률이 다시 두 배 가까이 증가한다는 사실을 발견했습니다.15, 16, 18 즉, 가장 효과적인 인센티브는 조건이나 조건 없이 미리 제공되는 인센티브입니다. 이러한 무조건적인 접근 방식은 연구자와 응답자 사이에 "사회적 계약"을 맺는 효과를 가져옵니다. 즉, 연구자가 잠재적 응답자에게 아무런 조건 없이 돈을 주었기 때문에 응답자는 설문을 완료할 필요가 없더라도 이에 보답하고 설문을 완료해야 할 의무를 느낍니다.18, 19 금전적 인센티브(특히 모든 사람에게 조건 없이 선지급하는 인센티브)를 제공하는 것이 설문조사 완료를 요구하는 인센티브나 추첨 기반 인센티브(예: "참여하면 추첨에 응모하여 경품을 드립니다")보다 훨씬 효과적인 접근 방식인 경향이 있습니다. 
Incentives in the form of cash, a gift, or a gift card are widely used by researchers with varying success. In their meta-analysis, Edwards et al. found that the odds of response were more than doubled when a monetary incentive was used, and those odds nearly doubled again when such incentives were not conditional on response.15, 16, 18 In other words, the most effective incentives are those that are given up front with no conditions or strings attached. This unconditional approach has the effect of creating a “social contract” between the researcher and the respondent. That is, the researcher has given the potential respondent money with no conditions attached, and so the respondent feels obligated to return the favor and complete the survey, even though completion is not required.18, 19 Providing monetary incentives (and especially up-front incentives for everyone, with no conditions) tends to be a much more efficacious approach than incentives that require survey completion or lottery-based incentives (e.g., “if you participate, you will be entered into a lottery to potentially win a prize”).

참여자의 관심도
Participant interest

흥미로운 설문조사는 흥미롭지 않은 설문조사보다 높은 응답률을 보입니다. 실제로 에드워즈와 동료들15은 참가자의 흥미를 염두에 두고 설계된 설문조사의 응답률이 두 배 이상 높다는 사실을 발견했습니다.9 연구자는 잠재적 응답자의 흥미를 끌 수 있는 고품질 설문조사 도구를 만들어 이 결과를 활용할 수 있습니다. 또한 연구자는 광범위한 연구 활동에서 설문조사의 중요성을 명시적으로 언급하고 응답자에게 이 작업이 관심 있는 주제 영역과 어떻게 연결될 수 있는지 설명할 수 있습니다. 반면에 민감한 질문을 하는 설문조사는 응답자 익명성을 약속하더라도 응답 편향이 발생하고 응답률이 훨씬 낮은 경향이 있습니다.9
Interesting surveys garner higher response rates than uninteresting surveys. In fact, Edwards and colleagues15 found that surveys designed with the participant's interest in mind were more than twice as likely to be returned.9 Researchers can use this finding to their advantage by creating high-quality survey tools that are interesting to potential respondents. Researchers can also explicitly address the importance of the survey to their broader research efforts and tell respondents how this work might link to topic areas of interest to them. On the other hand, surveys that ask sensitive questions tend to create response bias and have much lower response rates, even when respondent anonymity is promised.9

커뮤니케이션 및 재연락 프로세스
COMMUNICATION AND RECONTACT PROCESSES

설문조사 관리와 관련하여 응답자와 소통할 때는 신중한 생각과 고려가 필요합니다. 처음부터 설문조사 초대장에는 설문조사와 그 목적에 대한 일관되고 직관적인 설명이 포함되어야 합니다. 연구자는 설문조사와 개별 참가자와의 관련성을 명확하게 설명해야 합니다(위에서 설명한 대로 참가자의 관심을 끌기 위해). 모든 응답자에게 가장 효과적인 특정 초대 시기는 없지만, 초기 초대와 후속 초대 시기를 달리하면varying 응답률 향상에 도움이 될 수 있습니다. 또한, 문헌에 따르면 전체 응답률을 높이려면 최소 3번의 시도(또는 리마인더)를 해야 한다고 합니다.4, 15, 16 Willis 등.20 또한 잠재적 응답자에게 3번 이상의 요청을 보낸 후 응답률이 크게 개선되지 않는 것으로 나타났습니다.15, 20, 21 
Communicating with respondents surrounding survey administration requires careful thought and consideration. From the outset, the invitation must have a coherent and straightforward description of the survey and its purpose. Researchers should articulate the relevance of the survey study to the individual participant (in the hopes of piquing their interest as discussed above). Although there is no specific invitation timing that tends to work best for all respondents, varying the time of delivery of initial and follow-up invitations may help to improve response rates. Moreover, the literature suggests that a minimum of three attempts (or reminders) should be made to improve the overall response rate.4, 15, 16 Willis et al.20 also found no significant improvement in response rates after more than three requests are sent to potential respondents.15, 20, 21

결론
CONCLUSIONS

연구자는 설문조사 관리에 영향을 미치는 요소를 고려해야 합니다. 이러한 요소에는 연구자의 대상 모집단과 표본 추출 프레임, 각각의 장점과 문제점을 고려하여 선택한 관리 방식, 응답자 참여에 영향을 미치는 요소, 마지막으로 커뮤니케이션 및 후속 조치 방식이 포함됩니다. 연구자가 연구 결과를 대상 집단에 적용하려면 샘플링 프레임이 해당 집단을 대표할 수 있어야 합니다. 또한 참여도와 의미 있는 응답을 높이려면 연구가 대상 집단과 관련이 있고 흥미로운 것이면 도움이 됩니다. 선택한 관리 모드에 관계없이 멀티모달 접근 방식이 응답률이 가장 높은 경우가 많으므로 권장됩니다. 또한 개인화, 인센티브 사용, 잠재적 응답자와의 빈번한 고품질 커뮤니케이션도 응답률을 향상시킬 수 있습니다. 결국, 연구자는 대상 집단에 대한 대표 데이터를 수집하기 위해 의도적으로 노력해야 하며, 의도한 추론을 뒷받침하는 응답을 얻기 위해 신중한 선택을 해야 합니다.  

Researchers should consider factors that influence survey administration. These factors include the researcher's target population and sampling frame; their selected modality for administration, taking into account the respective benefits and challenges of each; factors that influence respondent participation; and finally, modes of communication and follow-up. For researchers to apply their results to the target population, the sampling frame should be representative of that group. Further, to enhance engagement and meaningful responses, it is helpful if the research is relevant and interesting to the target population. Regardless of the chosen administration mode, a multimodal approach is recommended, as it often results in the highest response rates. In addition, personalization, the use of incentives, and frequent, high-quality communication with potential respondents can also improve response rates. In the end, researchers should be intentional about collecting representative data about their target population and make deliberate choices when it comes to garnering responses in support of the inferences they intend to make.

 


Abstract

In this paper, we take the lessons learned from designing a survey and collecting validity evidence and prepare to administer the survey for research. We focus specifically on how researchers can reach individuals in the target population, methods of contact and engagement, evidence-informed factors that enhance participation, and recommendations for follow-up with nonrespondents. We also discuss the challenges of survey administration and provide guidance for navigating low response rates. Surveys are a common tool used to evaluate educational initiatives and collect data for all types of research. However, many clinician educators conducting survey-based evaluation and research may struggle to efficiently administer their survey. As a result, they often struggle to obtain appropriate response rates and thus may have difficulty publishing their survey results. Previous papers in this series focused on the initial steps of survey development and validation, but it is equally important to understand how best to administer your survey to obtain meaningful responses from a representative sample.

교육자의 블루프린트: 설문 설계의 how-to 가이드 (AEM Educ Train. 2022)
Educator's blueprint: A how-to guide for survey design
Jeffery Hill MD MEd1 | Kathleen Ogle MD2 | Sally A. Santen MD, PhD1,3 | Michael Gottlieb MD4 | Anthony R. Artino Jr PhD2 

설문조사 배경
BACKGROUND

현대 사회는 설문조사로 가득합니다. 휴대폰의 팝업("이 앱을 어떻게 즐기고 계십니까?")부터 의료 서비스 제공자 방문 후의 Press Ganey 설문조사 또는 연구 프로젝트의 일부로 사용되는 설문조사에 이르기까지, 설문조사에 참여하지 않는 날은 상상하기 어렵습니다. 다른 평가 도구와 마찬가지로 설문조사는 고부담 환경과 저부담 환경 모두에서 사용할 수 있습니다. 연구비 지원 연구와 같이 위험도가 높은 환경에서 설문조사를 사용할 경우, 연구자는 설문조사 점수와 그 용도에 대한 신뢰성과 타당성 증거를 수집해야 하는 부담이 더 큽니다. 이 백서 시리즈에서는 주로 연구 목적으로 사용되는 설문조사에 초점을 맞추어 설문조사 개발 및 시행의 모범 사례에 대해 논의할 것입니다. 
The modern world is replete with surveys. From a pop-up on our phone (“How are you enjoying this app?”) to a Press Ganey survey after a visit to a health care provider or a survey used as part of a research project, it is difficult to imagine a day passing when you are not asked to complete a survey. Like any other assessment tool, surveys can be used in both high-stakes and low-stakes settings. When used in higher-stakes environments, such as a grant-funded research study, there is a greater burden on the researcher to ensure they have collected reliability and validity evidence for the survey scores and their intended use. In this series of papers, we will discuss the best practices in survey development and implementation, focusing primarily on surveys used for research purposes.

설문조사는 의학 교육에서 일반적으로 사용되지만, 단일 설문조사 설계 표준은 없습니다. 대신 설문조사 설계자는 수십 년에 걸친 경험적 증거에 기반한 증거에 기반한 모범 사례를 사용하여 설문조사를 설계해야 합니다. 또한, 경험적 증거가 제한적이거나 상충되는 부분이 많은 경우, 설계자는 이론적 지침을 적용하여 설문조사 설계 노력을 안내해야 합니다. 이 첫 번째 논문에서는 다음 사항을 논의합니다:

  • (1) 측정 도구로서의 설문조사 선택,
  • (2) 콘텐츠 개발에 대한 의도적인 접근 방식,
  • (3) 질문 구성 및 형식에 대한 증거에 기반한 접근 방식

Although surveys are commonly employed in medical education, there is no single survey design standard. Instead, survey designers must use evidence-informed best practices, which are based on decades of empirical evidence, to guide their efforts. Furthermore, in the many places where the empirical evidence is limited or conflicting, designers should apply theoretical guidance to guide their survey design efforts. In this first paper, we discuss:

  • (1) the selection of a survey as a measurement tool,
  • (2) an intentional approach to content development, and
  • (3) an evidence-informed approach to question formulation and formatting.

향후 백서에서는 신뢰성 및 타당성 증거 수집, 설문조사 관리, 보고 모범 사례에 대해 다룰 예정입니다. 
Future papers will cover gathering reliability and validity evidence, survey administration, and best practices for reporting.

설문조사가 적합한 도구인가요?
IS A SURVEY THE RIGHT TOOL?

교육자, 연구자 또는 프로그램 평가자가 가장 먼저 해야 할 가장 중요한 질문은 다음과 같습니다: "설문조사가 내가 관심 있는 변수를 측정하고 질문에 답하는 데 적합한 도구인가?"입니다. 대부분의 경우 이 질문에 대한 답은 "아니오"이며, 설계자는 관심 있는 결과를 다른 방법으로 측정하는 것이 가장 좋다는 것을 알게 될 수 있습니다. 예를 들어,

  • 짧은 시간 내에 제공되는 프로시져 교육 비디오의 효과를 평가하는 연구는 프로시져 효과의 객관적인 측정을 통해 가장 잘 수행될 수 있습니다.1
  • 또는 시뮬레이션 임상 환경에서 다양한 유형의 스트레스 요인을 조사하는 연구에서는 스트레스 요인에 대한 객관적인 생리적 반응을 평가하기 위해 심박수 변동성을 사용하고, 스트레스에 대한 교육생의 주관적인 인식을 평가하기 위해 설문조사 도구를 사용할 수 있습니다.2
  • 또한 질적 방법론은 의사의 수치심과 같이 잘 이해되지 않거나 제대로 정의되지 않은 개념을 심층적으로 탐구하는 데 이상적인 경우가 많습니다.3

궁극적으로 예비 설문조사 설계자는 설문조사를 연구 도구로 사용할 때의 강점과 한계를 신중하게 고려해야 합니다.  
For the educator, researcher, or program evaluator, the first and often most important question to ask is the following: “Is a survey the right tool to measure my variables of interest and answer my question?” In many cases, the answer to this question is “no,” and the designer may find that their outcomes of interest are best measured in other ways. For example,

  • a study evaluating the effectiveness of a short, just-in-time procedural education video is likely best accomplished through objective measures of procedural effectiveness.1 
  • Alternatively, a study examining different types of stressors in a simulated clinical environment may use heart rate variability to assess objective physiologic response to stressors and a survey instrument to assess trainees' subjective perceptions of stress.2 
  • Additionally, qualitative methodologies are often ideally suited to deeply explore poorly understood or poorly defined concepts, such as physician shame.3 

Ultimately, the prospective survey designer should carefully consider the strengths and limitations of using a survey as a research tool.

설문조사는 질문을 사용하여 인구의 일부 측면에 대한 통계 정보를 수집하는 설명적 도구입니다.4 설문조사는 관찰할 수 없는 인간 현상에 대한 데이터를 수집하는 데 가장 적합합니다. 여기에는 태도, 신념, 의견뿐만 아니라 측정할 수 없거나 측정하기 매우 어려운 행동 및 행위에 대한 보고도 포함될 수 있습니다.5 교육 방법이 정의된 교육 목표와 논리적으로 일치해야 하는 교육과정 개발 과정과 유사하게, 설문조사 사용은 질문하는 기본 질문과 연구하는 변수 또는 결과에 논리적으로 일치해야 합니다.6 또한 연구자는 논문에서 이러한 측정의 근거와 설문조사의 후속 사용(또는 용도)을 명확하게 설명해야 합니다.4, 5
Surveys are descriptive tools that employ questions to collect statistical information on some facet of a population.4 Surveys are best suited for collecting data on nonobservable human phenomena. These include attitudes, beliefs, and opinions but can also include reports of behaviors and actions that are otherwise unmeasurable (or very hard to measure).5 Similar to the process of curriculum development, where methods of teaching should logically align with the defined educational objectives, the use of a survey should logically align with the underlying questions being asked and the variables or outcomes being studied.6 What is more, researchers should clearly describe in their articles the rationale for those measures and the subsequent use (or uses) of a survey.4, 5

콘텐츠 개발
CONTENT DEVELOPMENT

고품질 설문조사는 엄격하게 개발된 평가 도구로, 제안된 용도를 뒷받침하는 타당도 증거가 있습니다. 타당도 근거에는 다양한 구성 요소가 있으며, 이에 대해서는 후속 백서에서 자세히 다룰 예정입니다. 설문조사에 대한 콘텐츠 타당도(타당도 증거의 한 원천)를 확립하는 것은 콘텐츠 개발에 대한 의도적이고 엄격한 접근 방식에서 시작됩니다. 이 과정은 교육자가 먼저 커리큘럼의 중요한 목표를 정의한 다음, 그 목표를 성공적으로 달성하기 위해 구체적인 학습 목표를 작성하는 커리큘럼 개발과 유사합니다. 설문조사 개발에서 설계자는 먼저 연구 또는 설문조사의 전반적인 목표(즉, 어떤 질문을 다루고 있으며 설문조사를 통해 어떤 변수를 측정할 것인가?)를 설정해야 합니다. 그런 다음 연구자는 전체 목표에 따라 평가할 연구 변수 또는 결과를 가장 잘 나타내는 구체적인 구인construct을 정의합니다.7 
High-quality surveys are rigorously developed assessment tools that have validity evidence in support of their proposed uses. There are various components of validity evidence, which we will cover in more detail in a subsequent paper. Establishing content validity (one source of validity evidence) for a survey begins with an intentional and rigorous approach to content development. The process is again similar to curriculum development where an educator first defines the overarching goal of a curriculum and then writes specific learning objectives, which build to the successful achievement of that goal. In survey development, the designer should first establish the overall goal of the study or survey (i.e., what question is being addressed and what variables are being measured with the survey?). Following that overall goal, the researcher then defines specific constructs that best represent the study variables or outcomes being assessed.7

예를 들어 가상 강의가 레지던트 교육에 미치는 영향을 조사하는 연구를 예로 들어 보겠습니다. 이러한 연구의 경우 연구자는 먼저 설문조사의 전반적인 목표를 파악해야 합니다(예: "이 설문조사는 레지던트 교육의 학습 결과에 대한 화상 회의 소프트웨어의 인지된 효과를 측정할 것입니다"). 작업-기술 적합성, 인지 부하, 레지던트 건강(몇 가지 예만 들자면) 등 이러한 중요한 목표에 도움이 될 수 있는 여러 가지 구인이 있습니다. 이러한 구인construct은 예를 들어 화상 회의 소프트웨어의 특정 기능의 유용성, 가정 환경의 산만함, 거주자의 태도 등을 평가하는 데 사용되는 개별 설문조사 항목의 개발을 안내합니다. 
Take, for example, a study examining the impact of virtual didactics on resident education. For such a study, the researcher should first identify the overall goal for their survey (e.g., “This survey will measure the perceived effects of video conferencing software for didactic teaching on learning outcomes in resident education”). There are a number of constructs that could feed into that overarching goal, including task-technology fit, cognitive load, and resident wellness (to name just a few). These constructs then guide the development of individual survey items that are used to assess, for example, the utility of specific features of the video conferencing software, distractions in the home environment, and resident attitudes.

목표와 구인을 정의하는 것은 상세한 문헌 검토로 시작하여 이전 작업에서 유사하거나 관련된 변수를 평가하는 데 사용된 이전에 발표된 설문조사를 식별하는 반복적인 프로세스입니다. 연구 목적 또는 연구 질문의 요구사항과 완벽하게 일치하는 설문조사를 찾기란 쉽지 않지만, 이전 설문조사에서 연구의 일부 측면 및/또는 관심 있는 구성을 다뤘을 가능성이 있습니다. 연구자는 강력한 타당도 및 신뢰도 증거를 보고하는 출판된 도구를 찾는 것이 이상적이지만, 많은 출판된 설문조사 도구가 이러한 증거를 적절히 설명하지 못한다는 점을 이해해야 합니다.6 또한 연구자는 새로운 모집단을 대상으로 설문조사를 사용하는 등 기존 설문조사를 변경하면 타당도 논거와 도구가 여전히 (새로운) 용도에 적합한지 여부가 달라질 수 있음을 인지해야 합니다.8 이러한 문헌 검토 과정과 설문조사 목표와 목적에 대한 사려 깊은 고찰은 연구자에게 평가할 구성요소에 대한 철저한 이해와 설문문항 구성 방법에 대한 아이디어를 남겨 주어야 합니다.
Defining the objectives and constructs is an iterative process that starts with a detailed literature review to identify any previously published surveys used to assess similar or related variables in prior work. While identifying a survey that perfectly matches the needs of the study purpose or research question is unlikely, it is possible that previous surveys have addressed some aspects of the study and/or constructs of interest. Researchers should ideally seek out published instruments that report robust validity and reliability evidence, understanding, however, that many published survey instruments fail to adequately describe this evidence.6 Researchers should be aware, as well, that any alterations to existing surveys, to include using the survey in a new population, may change the validity argument and whether or not the instrument is still appropriate for its (new) intended use.8 This process of literature review and thoughtful reflection on the goals and objectives of the survey should leave the researcher with a thorough understanding of the constructs to be assessed and ideas on how to frame their survey questions.

문항 작성을 위한 모범 사례
BEST PRACTICES FOR ITEM WRITING

설문조사가 가장 적합한 측정 도구라고 판단되면 개별 설문조사 항목의 구성construction을 시작할 수 있습니다. 각 문항을 개발하는 방식은 신중한 고려가 필요하며 문헌을 통해 정보를 얻어야 합니다. 인지 심리학, 여론 조사 등 다양한 분야에서 언급했듯이, 모든 응답자가 동일한 방식으로(그리고 설문조사 설계자가 의도한 방식으로) 해석할 수 있는 고품질 설문조사 문항을 작성하는 까다로운 과정을 성공적으로 수행하기 위해서는 여러 단계가 필요할 수 있습니다. 따라서 문항 작성에 모범 사례를 사용하면 궁극적으로 설문조사 설계자가 의미 있는 데이터를 수집할 수 있는 능력을 향상시킬 수 있습니다. 여기에서는 설문조사 개발을 구성 요소로 세분화하여 고품질의 설문조사 기반 학술활동을 지원하기 위한 몇 가지 구조화된 지침을 제안합니다(각 모범 사례의 예는 표 1 참조).
Once it is determined that a survey is the best measurement tool, construction of individual survey items can begin. The manner in which each item is developed requires deliberate consideration and should be informed by the literature. As noted in many different fields, including cognitive psychology and public opinion polling, multiple steps may be required to successfully navigate the challenging process of writing high-quality survey items that all respondents will interpret in the same way (and in the way the survey designer intended). Therefore, the use of best practices in item writing will ultimately enhance the survey designer's ability to capture meaningful data. Herein, we propose some structured guidelines to breakdown survey development into its building blocks, thereby supporting high-quality survey-based scholarship (see Table 1 for examples of each best practice).

표 1. 샘플 질문 및 권장 문구
TABLE 1. Sample questions and recommended phrasing


Best practice
Problematic example Recommended improvement
Write positively worded questions How often are you unable to start class on time? How often do you start class on time?
Use questions and item-specific response options I enjoyed the lecture.
(response options: strongly disagree to strongly agree)
How much did you enjoy the lecture? (response option: not at all to a great amount)
Avoid double-barreled items How effective was the lecture and hands-on instruction? How effective was the lecture instruction?
How effective was the hands-on instruction?
Or, the item could be written at a higher level of abstraction:
How effective was the residency instruction?
Choose an appropriate number of response options Did you like the activity?


  • Yes
  • No

How much did you like the activity?


  • Not at all
  • A little
  • A moderate amount
  • Quite a bit
  • A lot

Attend to formatting and layout How satisfied were you with your residency training?


  • 1.Not at all satisfied
  • 2.
  • 3.
  • 4.
  • 5.Extremely satisfied

How satisfied were you with your residency training?


  • Not at all satisfied
  • Somewhat satisfied
  • Moderately satisfied
  • Quite satisfied
  • Extremely satisfied

Organize the survey items intentionally First question on the survey:
How often do you take illicit drugs?
First question on the survey:
What is your favorite extracurricular activity?

긍정적인 표현의 질문 작성
Write positively worded questions

개별 설문조사 문항은 일반적으로 긍정적인 표현을 사용해야 합니다. 긍정적인 표현의 문항을 사용하면 응답자가 이해하기 쉽기 때문에 응답 정확도가 향상됩니다. 반면, 부정적인 단어로 된 항목에서는 특히 응답자가 설문조사를 빨리 끝내려고 할 때(종종 그렇듯이) 실수로 '아닌', 'un-'과 같은 접두사나 단어를 놓치는 경우가 많습니다. 부정적으로 표현된 항목은 이해하는 데 더 많은 인지적 자원이 필요하므로 응답자가 쉽게 잘못 해석하여 부정확하거나 해석하기 어려운 데이터로 이어질 수 있습니다.9, 10
Framing of individual survey items should generally use positive language. The use of positively worded items enhances response accuracy because they are easier for respondents to comprehend. On the other hand, many respondents may inadvertently miss words and prefixes like “not” and “un-” in negatively worded items, particularly if respondents are trying to get through the survey quickly (which they often are). Negatively worded items require more cognitive resources to understand and, therefore, can be easily misinterpreted by respondents, leading to inaccurate or otherwise hard-to-interpret data.9, 10

동의/반대 옵션이 있는 문항보다는 질문과 항목별 응답 옵션을 사용합니다.
Use questions and item-specific response options rather than statements with agree/disagree options

설문조사는 여러 면에서 설문조사 설계자와 응답자 간의 대화와 같습니다. 동의/비동의 응답 옵션이 있는 문항을 사용하는 대신 질문을 하면 설문조사 대화가 보다 자연스럽게 흘러가 응답자의 이해도를 높이고 응답자가 질문하는 정보를 처리하는 데 도움이 될 수 있습니다.10 이 주제에 대한 최근의 종합적인 검토에 따르면 동의/비동의 응답 옵션이 있는 문항은 더 바람직하지 않은 결과(예: 묵인 및 해로운 응답 효과)와 관련이 있다고 합니다.11 부록 S1에 명시된 대로 저자들은 대부분의 목적에 동의/비동의 항목 대신 항목별 질문을 사용할 것을 설문조사 설계자에게 권장합니다. 
In many ways, a survey is like a conversation between the survey designer and their respondents. By asking questions rather than using statements with agree/disagree response options, a survey conversation can flow more naturally—which can enhance respondent comprehension and help respondents process the information being asked.10 A recent, comprehensive review of this topic reported that statements with agree/disagree response options are associated with more undesirable outcomes (e.g., acquiescence and deleterious response effects).11 The authors recommended that survey designers use item-specific questions instead of agree/disagree items for most purposes, as noted in Appendix S1.

이중 배럴 항목 피하기
Avoid double-barreled items

연구자들은 설문조사 길이를 줄이기 위해 여러 개의 질문을 하나로 합치려고 시도하는 경우가 많지만, 이러한 접근 방식은 종종 이중 배럴(또는 다중 배럴) 항목이 될 수 있다는 점에서 문제가 있습니다. 응답자는 특히 질문의 한 부분에 대해 한 가지 의견을 가지고 있고 다른 부분에 대해 다른 의견을 가지고 있는 경우 이중 배럴 항목에 응답하는 방법에 대해 혼란스러워할 수 있습니다. 응답자는 이 문제를 해결하기 위해 다양한 전략을 사용하지만, 중요한 점은 설문 설계자가 각 사람이 어떤 접근 방식을 취했는지 알 방법이 없어 개별 응답을 해석할 수 없게 된다는 것입니다. 이 문제에 직면했을 때 연구자는 세 가지 접근 방식을 취할 수 있습니다.9

  • (1) 두 가지 아이디어 중 어떤 것이 가장 중요한지 고려하여 그 하나만 묻거나,
  • (2) 두 개 이상의 개별 설문 항목을 만들거나,
  • (3) 응답자가 더 복잡한 아이디어로 추상화하도록 유도하는 방식으로 질문의 두 측면을 결합하거나 

Researchers often attempt to combine multiple questions into one in an effort to decrease the length of a survey; however, this approach is problematic in that it often results in a double-barreled (or multibarreled) item. Respondents may be confused about how to respond to double-barreled items, particularly if they have one opinion about one part of the question and another opinion about the other. Respondents will use various strategies to handle this challenge, but the critical point is that the survey designer has no way of knowing which approach each person took, thereby making individual responses uninterpretable. When met with this challenge, researchers can take three different approaches:

  • (1) consider which of the two ideas is most important and ask only that one,
  • (2) create two or more separate survey items, or
  • (3) combine the two facets of the question in a way that encourages respondents to abstract to a more complex idea.9 

예를 들어, 세 번째 접근방식의 경우 "환자의 다양한 의사소통 스타일을 식별하고 수용하는 데 얼마나 능숙합니까?"라는 이중 배럴 질문은 "환자의 다양한 의사소통 스타일에 적응하는 데 얼마나 능숙합니까?"라는 식으로 추상화할 수 있습니다. 이 세 가지 접근 방식 중 하나를 취함으로써 디자이너는 응답자가 서로 연결될 수도 있고 연결되지 않을 수도 있는 아이디어 모음보다는 개별 아이디어에 집중하고 더 쉽게 이해할 수 있도록 도울 수 있습니다. 
In the latter case, for example, the double-barreled question “How skilled are you at identifying and accommodating your patients' different communication styles?” could be abstracted to something like “How skilled are you at adapting to patients' different communication styles?” By taking one of these three approaches, designers can help their respondents focus on and more easily comprehend individual ideas, rather than collections of ideas which may or may not tie together.

적절한 수의 응답 옵션 선택
Choose an appropriate number of response options

주관식 설문조사 항목의 응답 옵션 수는 응답의 신뢰도에 영향을 미칠 수 있으므로 연구자는 선택한 옵션의 수를 신중하게 고려해야 합니다. 대부분의 경우, 5~7개의 응답 옵션이 폐쇄형 설문조사 항목에 적합한 경우가 많습니다.12

  • 단극적인 구성 요소(예: "전혀 없다"에서 "거의 항상"로 변하는 행동의 빈도와 같이 0에서 더 큰 숫자로 변하는 것)를 정량화하려는 항목의 경우, 응답 옵션이 5개이면 충분한 경우가 많습니다. 반면에
  • 양극성이 강한 구성 요소를 평가하려는 항목(예: 태도처럼 부정적인 양에서 긍정적인 양으로 변화하는 항목)의 경우 7개의 응답 옵션이 가장 이상적입니다. 7개 옵션부정적인 옵션 3개, 긍정적인 옵션 3개, 중간에 중립적인 옵션 1개를 허용합니다12(표 1의 몇 가지 예 참조).

일반적으로 응답 옵션이 5개 미만이면 설문조사 점수의 신뢰도가 떨어지고, 7개 이상이면 일반적으로 신뢰도가 향상되지 않으며 응답자에게 과도한 부담을 줄 수 있습니다.10 
Since the number of response options in a closed-ended survey item may impact the reliability of the responses, researchers should carefully consider the number of options selected. For most purposes, five to seven response options is often the sweet spot for closed-ended survey items.12 

  • For items which seek to quantify constructs that are unipolar (i.e., things that go from zero to a larger number, like the frequency of a behavior that goes from “never” to “almost all the time”), five response options is often adequate.
  • On the other hand, for items that seek to assess constructs that are more bipolar (i.e., things that go from a negative amount to a positive amount, like an attitude), seven response options is often ideal. Seven options allow for three negative options, three positive options, and one neutral option in the middle12 (see several examples in Table 1).

As a general rule, fewer than five response options is likely to decrease the reliability of survey scores and more than seven typically does not enhance reliability and may overburden respondents.10

또 다른 고려 사항은 홀수 또는 짝수 응답을 사용할지 여부입니다. 설문조사 설계자는 종종 이 결정에 대해 몇 시간 동안 고민하지만, 제한된 경험적 증거는 이 선택의 결과가 미미하다는 것을 시사합니다.9 즉, 

  • 설문조사 항목이 중립점을 갖는 것이 합리적이라면 응답 옵션의 수가 홀수인 것이 가장 합리적일 수 있습니다(즉, 응답자가 문제에 대해 중립적인 것이 합리적일 경우).
  • 반면에 자연스러운 중간점이 존재하지 않는다면 중간점이 없는 짝수 개의 응답 옵션을 사용하는 것이 합리적입니다.

Another consideration is whether to use an odd or even number of responses. Although survey designers often spend hours agonizing over this decision, the limited empirical evidence is equivocal, suggesting that the consequences of this choice are minor.9 That said,

  • if it makes sense for the survey item to have a neutral point, then an odd number of response options probably makes the most sense (i.e., if it is reasonable for a respondent to be neutral on an issue). On the other hand,
  • if no natural midpoint exists, then it is reasonable to instead use an even number of response options with no midpoint.

서식 및 레이아웃에 주의
Attend to formatting and layout

거의 모든 사람, 특히 의료계 전문가가 스마트폰을 가지고 있는 요즘, 대부분의 응답자가 모바일 기기를 사용하여 대부분의 웹 기반 설문조사를 완료한다는 점에 유의해야 합니다. 따라서 모바일 형식을 포함한 다양한 형식의 설문조사 레이아웃을 미리 보는 것이 중요합니다. 예를 들어, SurveyMonkey 또는 Qualtrics와 같은 웹 기반 설문조사 애플리케이션은 일반적으로 컴퓨터 화면에 표시되는 설문조사의 경우 응답 옵션을 페이지 전체에 가로로 정렬하지만, 모바일 사용자를 위해 동일한 옵션을 세로로 정렬하는 기능도 있습니다. 따라서 가독성을 보장하기 위해 두 가지 형식 모두에서 설문조사 항목의 모양을 신중하게 검토하고 사전 테스트하는 것이 중요하며, 특히 이러한 서로 다른 형식은 제공되는 설문조사 응답의 품질에 영향을 미칠 수 있으므로 더욱 그렇습니다.9
At a time when virtually everyone has a smartphone, especially professionals in healthcare, it is important to note that most respondents will use their mobile device to complete most web-based surveys. As such, it is essential to preview the survey layout in multiple formats, including the mobile format. For example, web-based survey applications like SurveyMonkey or Qualtrics typically align response options horizontally across the page for surveys presented on a computer screen, but they also have the capability to format the same options vertically for the mobile user. Thus, it is important that researchers carefully review (and even pretest) the appearance of their survey items in both formats to ensure readability, especially because these different formats can affect the quality of the survey responses provided.9

설문조사 설계자는 정확도를 높이기 위해 응답 옵션에 구두 라벨과 숫자를 모두 포함하려는 경향이 있을 수 있습니다. 그러나 놀랍게도 기존의 제한된 경험적 연구에 따르면 응답자는 이러한 응답 옵션을 다양하게 해석하는 경우가 많습니다(숫자의 의미와 구두 라벨의 의미가 때때로 일치하지 않을 수 있기 때문).13 이 결과는 구두 라벨과 숫자를 모두 포함하는 것이 비효율적인 접근 방식일 수 있음을 시사합니다. 따라서 숫자를 사용하지 않고 구두 레이블만 사용하고 모든 응답 옵션에 레이블을 지정하는 것이 가장 좋은 방법이며, 이렇게 하면 응답자의 인지적 부담이 완화되어 보다 정확한 답변을 유도할 수 있습니다.9 부록 S1에는 일반적으로 연구되는 주제에 대한 구두 레이블의 예가 나와 있습니다.
Survey designers may also be inclined to include both verbal labels and numbers on their response options, with the goal of enhancing precision. Surprisingly, however, the limited empirical research that exists suggests that respondents often variably interpret such response options (since the meaning of numbers and the meaning of verbal labels can sometimes be misaligned).13 This finding suggests that including both verbal labels and numbers may be an ineffective approach. As such, a best practice is to use verbal labels only (without numbers) and to label all response options (as opposed to just the end points); doing so eases respondents' cognitive burden, thereby encouraging more precise answers.9 Appendix S1 outlines a number of example verbal labels for commonly studied topics.

또 다른 중요한 서식 지정 문제는 응답 옵션 간격입니다. 응답 옵션의 간격이 고르지 않으면 특정 옵션이 다른 옵션보다 시각적으로 더 두드러질 수 있습니다. 이는 의도치 않게 응답자가 이러한 옵션에 주목하고 선택할 가능성을 높이는 효과를 가져올 수 있습니다. 설문조사원은 모든 응답 옵션의 간격이 균등하게 유지되도록 서식 지정에 세심한 주의를 기울여야 합니다.9
Another important formatting issue is response option spacing. Unevenly spaced response options can make certain options stand out visually more than others. This can have the inadvertent effect of making these options more likely to be noticed and selected by respondents. Researchers should be meticulous in their formatting efforts, ensuring that all response options are equally spaced.9

의도적으로 설문조사 항목 구성
Organize the survey items intentionally

연구자는 설문조사를 시작하고 궁극적으로 완료하려는 응답자의 동기를 고려할 때, 항목의 순서를 신중하게 고려하고 의도적으로 구성해야 합니다. 설문조사에서 명확하고 해석 가능한 정보를 얻으려면 정확한 데이터 수집이 전제되어야 하므로, 관심 있는 핵심 구인을 다루는 가장 중요한 질문은 설문조사 시작 부분에 배치해야 합니다.9 이렇게 하면 응답자가 설문조사 참여를 중단하더라도 최소한 유용한 데이터는 수집된 것으로 간주할 수 있습니다.
As researchers consider respondent motivation to begin and ultimately complete the survey, the order of the items should be carefully considered and intentional. Obtaining clear and interpretable information from a survey depends on accurate data collection and, as such, the most important questions addressing the central construct of interest should be situated near the beginning of the survey.9 That way, if respondents choose to stop taking the survey, at least some useful data have been collected.

또한 민감한 질문과 인구통계학적 항목(종종 민감한 것으로 간주되는)은 설문조사 마지막에 배치하는 것이 중요합니다. 특히 설문조사나 기타 평가의 초반에 포함된 인종과 민족에 관한 질문은 고정관념 위협이라는 효과를 유발하여 응답 품질과 응답자 동기에 부정적인 영향을 미칠 수 있는 것으로 나타났습니다. 이러한 효과만으로도 대부분의 설문조사 마지막에 인구통계학적 항목을 묻는 충분한 이유가 됩니다.14 마지막으로, 민감한 질문과 관련하여 '친밀감rapport'이라는 개념이 중요합니다. 설문조사 설계자가 설문조사 초기에 응답자와 어느 정도 친밀감을 형성하고 동의를 얻으면 보다 민감한 질문을 할 수 있습니다. 이러한 친밀감을 형성하는 접근 방식은 일상적인 대화와 마찬가지로 설문조사에도 적용됩니다.
Moreover, it is important to keep sensitive questions and demographic items (which are often considered sensitive) toward the end of the survey. In particular, questions about race and ethnicity that are included early in a survey or other assessments have been shown to induce an effect known as stereotype threat, which can negatively impact response quality and respondent motivation. This effect alone is reason enough to ask demographic items near the end of most surveys.14 Finally, with regard to sensitive questions, the notion of “rapport” is critical. Once the survey designer has built some rapport and buy-in with the respondents early in a survey, then more sensitive questions can be asked. This rapport-building approach applies as much for surveys as it does for everyday conversations.

또한 모든 설문조사 질문은 각 응답자와 관련성이 있어야 합니다. 관련성이 없는 질문은 참여자의 의욕을 떨어뜨리고 응답 품질에 부정적인 영향을 미칠 수 있습니다. 이를 염두에 두고 설계자는 분기 질문 사용을 고려해야 합니다.4 예를 들어, 대학 도서관 서비스의 품질에 대한 정보를 수집할 때 설계자는 먼저 "해당 기관의 도서관을 이용해 보셨습니까?"라고 질문한 다음 "예"라고 대답한 응답자에게만 도서관 서비스의 품질에 대해 질문할 수 있습니다. 전자적으로 관리되는 웹 기반 설문조사를 사용하면 디자이너가 이러한 유형의 분기 질문을 쉽게 만들 수 있으며, RedCap, Qualtrics, Google Forms, SurveyMonkey와 같은 많은 웹 기반 설문조사 제품에는 분기 로직으로 설문조사를 구성하는 방법에 대한 자습서가 있습니다. 
In addition, all survey questions should be relevant to each respondent. Irrelevant questions tend to demotivate participants and can negatively impact response quality. With this in mind, designers should consider using branching questions.4 For example, when gathering information about the quality of the university's library services, a designer might first ask: “Have you used the institution's library?” and then ask questions about the quality of the library services only to those who answer “yes.” Electronically administered, web-based surveys make it easy for designers to create this type of branching question, and many web-based survey products, such as RedCap, Qualtrics, Google Forms, and SurveyMonkey, have tutorials on how to construct a survey with branching logic.

결론
CONCLUSION

설문조사는 다른 방법으로는 답할 수 없는 질문에 답할 수 있는 강력한 방법이 될 수 있습니다. 설문조사 설계자는 설문조사 개발 프로세스 초기에 여기에 설명된 모범 사례(및 광범위한 설문조사 설계 문헌)를 사용하여 설문조사 도구가 고품질 의사 결정에 사용할 수 있는 신뢰할 수 있는 평가가 될 수 있도록 할 수 있습니다. 일련의 논문에서 제시하는 설문조사 설계에 대한 증거 기반 접근 방식에는 다음이 포함됩니다: 

  • (1) 엄격한 방식으로 콘텐츠 개발하기,
  • (2) 설문조사 항목을 명확하게 작성하고 형식화하기,
  • (3) 설문조사 결과의 타당성을 뒷받침하는 증거 수집하기,
  • (4) 응답률을 극대화하기 위해 설문조사 관리하기,
  • (5) 설문조사 결과를 의학 문헌에 명확하게 전달하기 등이 있습니다.

Surveys can be a powerful way to answer otherwise unanswerable questions. By using the best practices described here (and in the broader survey design literature)—early in the process of survey development—designers can help to ensure their survey tools are credible assessments that can be used for making high-quality decisions. The evidence-informed approach to survey design presented in our series of papers includes:

  • (1) developing content in a rigorous way,
  • (2) writing and formatting survey items with clarity,
  • (3) collecting evidence to support the validity of the survey results,
  • (4) administering the survey to maximize response rate, and
  • (5) clearly communicating the results of the survey in the medical literature.

이 첫 번째 백서에서는 이 프로세스의 처음 두 단계에 초점을 맞추었습니다. 먼저 설문조사의 목표와 조사 대상의 구인을 설명함으로써 설계자는 설문조사 항목의 내용을 결정할 수 있습니다. 다음으로, 설문조사 항목과 응답의 작성 및 서식 지정에 대한 근거에 기반한 가이드라인을 따르면 설계자는 설문조사 점수의 타당성과 의도된 용도를 뒷받침할 수 있습니다. 다음 백서에서는 설문조사 점수와 그 용도에 대한 신뢰성과 타당성 근거를 더욱 확립하기 위해 설문조사를 테스트하고 시범 운영할 때 중요한 측면에 대해 논의할 것입니다. 그 다음에는 설문조사를 관리하고 배포하는 접근 방식과 설문조사 설계 및 연구 노력을 보고하는 모범 사례에 대해 설명할 것입니다. 

In this first paper, we have focused on the first two steps of this process. By first explicating the goals of the survey and the constructs being investigated, designers can determine the content of survey items. Next, by following evidence-informed guidelines for writing and formatting survey items and responses, designers can support the validity of their survey scores and their intended use. In our next paper, we will discuss the critical aspects of testing and piloting surveys to further establish reliability and validity evidence for the survey scores and their proposed uses. Subsequently, we will describe approaches to administering and distributing surveys, as well as best practices for reporting survey design and research efforts.

 


Abstract

Surveys are ubiquitous in medical education. They can be valuable for assessment across a wide range of applications and are frequently used in medical education research. This Educator's Blueprint paper reviews the best practices in survey design with a focus on survey development. Key components of the survey design process include determining whether a survey is the right tool, using an intentional approach to content development, and following best practices in item writing and formatting. These processes are meant to help educators and researchers design better surveys for making better decisions.

역량있는 건강 애드보커시에 대한 환자와 의사의 관점 탐색(Med Educ, 2020)
Exploring patients’ and physicians’ perspectives about competent health advocacy
Kori A. LaDonna1 | Christopher J. Watling2,3 | Sayra M. Cristancho2,4 | Sarah Burm5

 

 

1 소개
1 INTRODUCTION

전 세계의 의학교육자들은 의사가 환자를 옹호해야 한다는 것을 인식하고 있습니다. 이를 인식하여 캐나다 왕립 의사 및 외과의사 대학은 수련의가 역량을 입증해야 하는 7가지 의사 역할 중 하나로 옹호를 명시적으로 지정했습니다.1 그러나 옹호 교육을 가로막는 무수한 도전 과제2-4, 즉 옹호의 의미가 무엇인지, 건강 옹호가 일상적인 진료 업무와 구별되는지에 대한 임상 교사의 불확실성5이 옹호 교육을 가로막고 있습니다, 6 임상 교사들은 옹호자로서 자신의 업무를 인식하거나 효과적인 교육으로 전환하기 위한 충분한 참조 프레임워크가 없기 때문에, 많은 프로그램에서 이 중요한 진료 측면을 위해 수련생들을 어떻게 준비시키는지 입증하는 데 어려움을 겪고 있습니다.  
Medical educators around the world recognise that physicians should advocate for their patients. Recognising this, the Royal College of Physicians and Surgeons of Canada has explicitly named advocacy as one of seven physician roles for which trainees must demonstrate competence.1 Myriad challenges roadblock advocacy training2-4 however, namely clinical teachers’ uncertainty about what it means to advocate, and whether health advocacy is distinct from the everyday work of good doctoring.5, 6 Because clinician teachers do not have a sufficient frame of reference for either recognising their own work as advocates, or for translating it into effective teaching, many programmes struggle to demonstrate how they prepare trainees for this critical aspect of care.

이 과제의 핵심은 '역량 문제'7 또는 비기술적 기술에 대한 '필수 지식, 기술, 태도 및 개인적 자질'8입니다. 각 교육 단계별로 역량에 대한 기대치가 보다 명확하게 규정되어 있는 의료 전문성과 같은 다른 역량과 달리, 건강 옹호는 광범위하고 다양하게 정의되어 있어5,19 유능한 옹호에 대한 기준이 불투명합니다. 역량은 또한 '변화하는 사회적 구성'이며,7 의료 전문성을 평가하는 데 적합한 심리측정 접근법은 맥락, 문화 및 사회적 요인이 의사의 성과 전개 방식과 판단 방식에 영향을 미치는 건강 옹호와 같은 비기술적 역량을 평가하는 데는 덜 유용할 수 있습니다.20 
Central to this challenge is the ‘question of competence’,7 or the ‘knowledge, skills, attitudes and personal qualities essential’8 for non-technical skills. Unlike other competencies such as medical expertise where expectations for competence are more clearly delineated for each stage of training, health advocacy is broadly and variably defined,5, 19 rendering criteria for competent advocacy opaque. Competence is also a ‘shifting social construction’,7 and the psychometric approaches appropriate for assessing medical expertise may be less useful for assessing non-technical competencies like health advocacy where context, culture and social factors influence both how a physician's performance unfolds and how it is judged.20

현재까지 건강 옹호자 역할을 명확히 하려는 시도는 주로 자문 의사와 수련의의 관점을 중심으로 이루어졌습니다.13, 16, 19, 21-26 의사들은 일반적으로 대리인과 활동가라는 두 가지 형태의 옹호에 참여한다고 보고합니다.27

  • 대리인 옹호를 하는 사람들은 정보와 교육을 제공하고, 환자가 시스템을 탐색하도록 돕고, 추가 건강 관련 지원을 적시에 의뢰할 수 있도록 촉진합니다.
  • 행동주의에 참여하는 사람들은 사회적 자본27을 활용하여 건강 불평등에 대한 인식을 높이고, 자원을 동원하고, 정책을 설계하고 실행합니다.
  • 예를 들어, 대리인 옹호 활동에는 환자가 필요한 의약품에 대한 재정적 혜택을 받을 수 있도록 양식을 작성하는 것이 포함될 수 있습니다.
  • 이와는 대조적으로 활동가 옹호에는 정부 위원회에 참여하여 의약품 보험 적용과 관련된 정책을 형성하는 것이 포함될 수 있습니다.

두 가지 유형의 옹호는 모두 환자, 지역사회 또는 집단과 공유하거나24 의사가 직접 수행할 수 있으며, 둘 다 개인 또는 시스템 수준에서 발생할 수 있습니다.28 다시 말해, 옹호는 환자의 필요에 대한 공유된 이해와 의사 결정에 대한 환자의 적극적인 참여를 전제로 하는 팀 스포츠10입니다.29 
To date, attempts at clarifying the Health Advocate role have largely centred around the perspectives of consultant physicians and trainees.13, 16, 19, 21-26 Physicians report that they typically engage in two forms of advocacy: agency and activism.27 

  • Those doing agentic advocacy provide information and education, help patients navigate the system, and facilitate timely referrals for additional health-related support.
  • Those engaging in activism use their social capital27 to raise awareness about health inequities, to mobilise resources, and to design and implement policy.
  • Agentic advocacy, for example, might involve completing forms to ensure that patients can access financial coverage for a medication they require.
  • Activist advocacy, in contrast, might involve joining a government committee and shaping policy related to drug coverage.

Both types of advocacy can be either shared with patients, communities or populations,24 or directed by physicians, and both can occur at either the individual or systemic level.28 In other words, advocacy is a team sport10 predicated on both a shared understanding of patients’ needs and on their active participation in decision-making.29

옹호는 공유 활동으로 개념화되지만, 건강 옹호를 정의하고 교육 및 평가를 위한 모범 사례 초안을 작성하는 연구 논의에서 환자는 대부분 소외된 것으로 보입니다. 환자의 관점이 없으면 수련생에게 환자의 필요와 목표에 맞지 않는 방식으로 옹호하도록 가르칠 위험이 있을 뿐만 아니라, 옹호를 집단적 노력이 아닌 개인적 활동으로 잘못 인식할 수도 있습니다. 옹호는 환자 중심 치료와 불가분의 관계에 있을 수 있으므로,30 우리는 건강 옹호에 대한 대화에 의사와 함께 환자를 참여시키면 보다 진정한 교육과 평가에 도움이 될 뿐만 아니라 의료 서비스에서 옹호의 역할에 대한 더 나은 이해를 얻을 수 있다고 제안합니다. 따라서 본 연구의 목적은 건강 옹호자 역할에 대한 역량의 의미에 대한 다양한 관점의 이해를 생성하여 이 작업의 출발점을 제공하는 것입니다. 
Although advocacy is conceptualised as a shared activity, patients appear to have been largely sidelined in research conversations about defining health advocacy and drafting best practices for its teaching and assessment. Without their perspectives, we not only risk teaching trainees to advocate in ways that may be misaligned with patients’ needs and goals, but we may also mistakenly position advocacy as an individual, rather than a collective effort. Since advocacy may be inextricable from patient-centred care,30 we propose that engaging patients alongside physicians in conversations about health advocacy may not only inform more authentic teaching and assessment but also generate a better understanding about the role of advocacy in health care. Therefore, the purpose of our research is to provide a starting point for this work by generating a multi-perspective understanding about the meaning of competence for the Health Advocate role.

2 연구 방법
2 METHODS

우리는 구성주의적 근거 이론(CGT)31을 사용하여 선험적 이론이 아닌 환자와 의사의 관점에 근거한 유능한 건강 옹호에 대한 이론적 이해를 도출했습니다. 이를 위해 기록, 주제 및 이론적 범주 내에서 데이터를 지속적으로 비교하여 데이터 세트 전반의 패턴을 식별하고 해석을 '확인'31하는 체계적인 프로세스인 지속적 비교 방법을 사용하여 반복적인 방식으로 데이터를 수집하고 분석했습니다. 
We used constructivist grounded theory (CGT)31 to generate a theoretical understanding about competent health advocacy that is grounded in patients’ and physicians’ perspective, not framed by an a priori theory. To do this, we collected and analysed data in an iterative fashion using the constant comparative method, a systematic process where we continuously compared data within and across transcripts, themes and theoretical categories to both identify patterns across the dataset and to ‘check’31 our interpretations.

2.1 데이터 수집
2.1 Data collection

우리는 환자와 의사 모두에게 건강 옹호의 의미에 대한 관점을 공유하고, 이 역할에 대한 역량을 정의하고, 교육 및 평가에 대한 도전과 기회를 파악하도록 초대했습니다. 충분한 이해를 돕기 위해 연구 참여는 건강 옹호 교육을 받을 수 있는 환경에서 진료를 받거나 제공하는 모든 환자와 의사에게 개방되었습니다. 캐나다의 한 중형 의과대학과 가장 규모가 큰 부속 병원 3곳에 모집 자료를 게시하고 해당 기관에서 근무하는 모든 교수진 의사에게 이메일 초대장을 보냈습니다. 채용 포스터를 보고 두 명의 레지던트가 관심을 표명했지만, 주로 HA 교육을 담당하고 있는 교수진 모집에 집중했습니다. 개인이 옹호자라고 밝히지 않아도 참여할 수 있었지만, 저희는 표본에 다양한 옹호 경험이 포함되도록 하는 것을 목표로 했습니다. 이를 위해 환자 옹호 단체의 도움을 받아 이러한 단체에 종사하는 환자와 의사를 모집했습니다. 24명(환자 10명, 교수진 12명, 레지던트 2명)이 참여에 동의했습니다(표 1).

We invited both patients and physicians to share their perspectives about what health advocacy means, to define competence for this role, and to identify challenges and opportunities for its teaching and assessment. To generate a fulsome understanding, study participation was open to all patients and physicians obtaining or providing care in settings where HA training presumably occurs. We posted recruitment materials at a medium-sized Canadian medical school and three of its largest affiliated hospitals, and we sent email invitations to all faculty physicians working at these institutions. Of note, while two residents expressed interest after seeing our recruitment poster, we focused on recruiting faculty because they are primarily responsible for training HA. Although individuals did not need to identify as advocates in order to participate, we aimed to ensure that our sample contained a breadth of advocacy experiences. To do this, we enlisted the help of patient advocacy groups to recruit patients and physicians engaged with these organisations. Twenty-four participants (n = 10 patients, n = 12 faculty physicians, n = 2 residents) consented to participate (Table 1).

반구조화된 인터뷰와 사진 도출32(참가자가 직접 촬영한 사진을 사용하여 개인의 관점을 이끌어냄으로써 데이터의 풍부함을 높이는 시각적 연구 방법)을 결합하여 두 차례의 연구 방문을 통해 데이터를 수집했습니다.

  • 첫 번째 연구 방문은 카메라 오리엔테이션 세션으로, SB는 참가자들에게 연구 목적을 설명하고 건강 옹호의 의미에 대한 짧은 인터뷰를 진행하며 사진 촬영의 윤리에 대해 논의했습니다.33
  • 그런 다음 SB는 참가자들에게 3~6주 동안 옹호에 대한 이해를 나타내는 사진을 찍도록 초대했습니다.
  • 참가자들은 두 번째 인터뷰를 위해 다시 돌아왔고, SB는 각 사진에 대해 설명하고 옹호자에게 필요한 기술에 대해 토론하고 유능한 옹호자가 된다는 것이 무엇을 의미하는지에 대한 인식을 공유하도록 요청했습니다. 

We collected data during two research visits using a combination of semi-structured interviews and photo elicitation32—a visual research method that enhances data richness by using participant-generated photographs to elicit individual perspectives.

  • The first research visit was a camera orientation session, where SB described for participants the purpose of the study, engaged participants in a short interview about the meaning of health advocacy, and discussed the ethics of picture taking.33 
  • SB then invited participants to take pictures over a 3-6 week period that represented their understanding about advocacy.
  • Participants returned for a second interview where SB asked them to describe each of their photographs, discuss the skills that advocates require, and share their perceptions about what it means to be a competent advocate.

2.2 데이터 분석
2.2 Data analysis

모든 인터뷰는 오디오 녹음하고 그대로 전사한 후 점진적으로 해석하는 초기, 초점, 이론 코딩의 세 단계를 거쳐 분석했습니다.31 초기 코딩에서는 각 참가자 그룹의 처음 두 녹취록을 한 줄씩 읽고 동명사('-ing'으로 끝나는 행동어) 또는 참가자 단어(생체 코드)를 사용하여 SB와 KL이 코딩하여 참가자들이 설명하는 의미와 행동을 포착했습니다. 그런 다음 가장 자주 발생하거나 설득력 있는 초기 코드잠정 코딩 체계로 통합하여 다음 3~4개의 트랜스크립트를 초점 코딩하여 관련성을 시험했습니다. 전체 연구팀은 정기적으로 만나 예비 조사 결과를 논의하고, 초점 코딩한 코드를 이론적 범주로 구체화한 다음 병합했습니다. 이러한 분석 단계를 완료한 후, 환자의 관점이 옹호에 대한 의사의 이해에 어떤 영향을 미치는지 이해하는 것뿐만 아니라 유능한 건강 옹호자가 되기 위해 학습자를 교육하는 데 따르는 과제를 더 풀어야 할 필요성을 확인했습니다. 1차 데이터 수집에 참여한 4명의 의사 참가자는 이러한 아이디어를 이론적으로 샘플링하기 위해 결과 회신 인터뷰에 참여하는 데 동의했습니다.
All interviews were audio-recorded, transcribed verbatim, and analysed during three progressively interpretive stages of initial, focused and theoretical coding.31 During initial coding, the first two transcripts from each participant group were read line-by-line and coded by SB and KL using gerunds (action words ending in ‘-ing’) or participants’ words (in vivo codes) to capture the meanings and actions described by participants. The most frequently occurring or compelling initial codes were then consolidated into a provisional coding scheme used to do focused coding of the next 3-4 transcripts to trial their relevance. The entire research team met regularly to both discuss preliminary findings, refine and then merge focused codes into theoretical categories. Once we completed these analytical stages, we identified the need to understand not only how patients’ perspectives impacted physicians’ understanding about advocacy, but also to further unpack the challenges of training learners to become competent health advocates. Four physician participants from the first round of data collection agreed to participate in return of findings interviews to theoretically sample these ideas.

SB는 이러한 이론적 범주를 사용하여 전체 데이터 집합을 코딩했습니다. 다음으로, 우리 팀은 범주 패턴을 조사하기 위해 다이어그램과 메모 초안을 작성하고, 범주를 서로 연결하여 유능한 HA에 대한 이론적 아이디어의 기초가 되는 추상적이고 분석적인 스토리라인을 구성했습니다. 이미지를 미학적으로 분석하지는 않았지만34 인터뷰 중에 공유한 사진에 대한 참가자들의 설명은 이론적 이해에 도움이 되었으며, 건강 옹호 및 유능한 HA 역할에 대한 이전의 개념에 도전하는 새로운 통찰력을 제공했습니다.1, 19 건강 옹호에 대한 참가자들의 관점을 설명하기 위해 몇 장의 사진을 포함했지만, 참가자들이 사진 유도 방법을 사용하여 건강 옹호에 대한 이해를 전달하는 방법에 대한 별도의 심층 분석은 다른 곳에서 보고될 예정입니다(원고 준비 중).
SB used these theoretical categories to code the entire dataset. Next, our team drafted diagrams and memos to examine categorical patterns, linking categories together to form abstract, analytical storylines foundational to our theoretical ideas about competent HA. While we did not aesthetically analyse34 the images, participants’ descriptions of their photographs shared during interviews were instrumental to our theoretical understanding, providing new insights that challenged previous conceptualisations about both health advocacy and competence for the HA role.1, 19 While we've included a few photographs to illustrate participants’ perspectives about health advocacy, a separate, in-depth analysis of how participants used the photo elicitation method to convey understanding about health advocacy will be reported elsewhere (manuscript in preparation).

우리는 이론적 충분성에 도달했다고 판단할 때까지, 즉 우리의 데이터가 탐색적 연구 질문에 대한 풍부한 이론적 통찰력을 제공하기에 적절한 개념적 깊이를 가지고 있다고 판단할 때까지 데이터를 수집했습니다.35 글쓰기는 CGT 분석 과정의 필수 요소이므로 본 원고를 완성할 때까지 이론화를 계속했습니다.31 웨스턴 대학교 연구윤리위원회는 모든 연구 절차를 승인했습니다. 
We collected data until we determined that we had reached theoretical sufficiency, or the point at which we determined that our data had appropriate conceptual depth for providing rich, theoretical insights about our exploratory research questions.35 Since writing is an integral component of the CGT analytical process, theorising continued until we completed the present manuscript.31 The Western University Research Ethics Board approved all research procedures.

2.3 반사성
2.3 Reflexivity

구성주의자로서 우리는 각 팀원의 경험, 관심사, 신념이 연구 과정에 영향을 미친다는 것을 잘 알고 있습니다. 우리 팀은 질적 연구(KL, SB, SC, CW) 및 시각적 방법(KL, SB, SC)에 대한 전문성을 갖춘 박사 학위 소지 의학교육 연구자들로 구성되어 있습니다. KL은 비영리 환자 옹호 단체에서 일한 경험에서 비롯된 건강 옹호에 대한 관심을 바탕으로 환자의 전문 지식이 의료 교육에 어떻게 의미 있는 정보를 제공할 수 있는지 탐구합니다. CW는 임상의 교육자이자 전직 대학원 학장으로서 여러 분야의 의사를 교육하고 평가하는 실질적인 과제에 몰두하고 있는 의사입니다. SC는 전문 임상의가 복잡성을 이해하고 탐색하는 방법을 연구하며, SB는 질적 방법론을 사용하여 개인의 소외 경험에 대한 심리사회적, 정서적, 학문적 영향을 더 잘 이해하는 숙련된 교육자입니다. 
As constructivists, we are cognisant that each team member's experiences, interests and beliefs influence the research process. Our team consists of PhD trained medical education researchers with expertise in qualitative research (KL, SB, SC and CW) and visual methods (KL, SB and SC). One stream of KL’s research explores how patients’ expertise may meaningfully inform medical training; her interest in health advocacy stems from her experiences working with non-profit patient advocacy groups. CW is a physician who, as both a clinician educator and a former postgraduate dean, is immersed in the practical challenges of training and assessing physicians across disciplines. SC studies how expert clinicians make sense of and navigate complexity, and SB is a trained educator who uses qualitative methodologies to better understand the psychosocial, emotional and academic impact on individuals’ lived experiences of marginalisation.

3 결과
3 RESULTS

환자와 의사 참여자 모두 유능하게 옹호 활동에 참여하는 것은 의료 및 시스템 전문성, 학습 및 실습 환경, 경험, 지위, 정치적 지식 등 개인적 및 직업적 특성의 조합에 달려 있는 것으로 나타났습니다. 환자 참가자들은 정기적으로 옹호 활동에 참여한다고 답한 반면, 의사 참가자들 중 자신이 의미 있는 활동을 하거나 유능한 건강 옹호자라고 인식하는 사람은 거의 없었습니다.

  • 결과적으로 의사들은 자신의 역량뿐만 아니라 프로그램 내에서 옹호 교육에 영향을 미치는 요인에 대한 인식이 낮아 학습자의 건강 옹호를 교육하거나 공정하게 평가할 수 있는지에 대한 의문을 제기했습니다.
  • PGME 역량 프레임워크와 학습 환경에 익숙하지 않은 환자들은 학습자의 역량에 대한 공식적인 평가에 대해 언급하는 데 한계가 있었지만, 환자들은 개인적인 경험을 바탕으로 훌륭한 의사 옹호자의 속성을 표현하고 그들의 수행능력에 대한 피드백을 생성했습니다.

이러한 각 결과에 대해 예시적인 인용문을 사용하여 자세히 설명하겠습니다. 인용문은 참가자 유형, 수, 인용문이 도출된 인터뷰에 따라 식별됩니다. 예를 들어, 첫 번째 인터뷰에 참여한 환자 6과 결과 회신 인터뷰에 참여한 의사 7의 인용문은 각각 P6, I1, MD7, I3으로 표시되어 있습니다. 
For both patients and physician participants, competently engaging in advocacy seemed to hinge on a combination of medical and systems expertise, a conducive learning and practice environment, and personal and professional characteristics including experience, status and political savvy. While patient participants described regularly engaging in advocacy, few physician participants perceived that they were either meaningfully engaged or competent health advocates.

  • In turn, physicians’ perceptions about not only their own competence but also the forces that impact advocacy training within their programmes raised questions about whether it was possible to train or to fairly assess learners’ health advocacy.
  • Although patients’ unfamiliarity with PGME competency frameworks and learning environments limited their ability to comment on formal assessments of learners’ competence, patients drew on their personal experiences to both articulate the attributes of good physician advocates, and to generate feedback about their performance.

We will expand on each of these findings using illustrative quotes. Quotes are identified by participant type, number and the interview from which the quote derived. For instance, a quote attributed to patient 6 during their first interview, and physician 7 in their return of findings interview, are labelled P6, I1 and MD7, I3, respectively.

3.1 유능한 건강 옹호의 구성 요소
3.1 Components of competent health advocacy

환자와 의사 참여자들은 유능한 건강 옹호의 의미에 대해 때때로 다른 관점을 가지고 있었지만, 두 사람 모두에게 건강 옹호는 일반적으로 '나 자신을 위해 일어서는 것'(P1, I1)과 '현상 유지에 만족하지 않고 개인과 지역사회 및 시스템 수준에서 사람들의 건강과 웰빙을 결정하는 요소를 지속적으로 개선하기 위해 노력하는 것'(MD10, I1)을 의미했습니다. 건강 옹호는 종종 더 잘 작동하는 시스템에서는 불필요한 체계적 또는 구조적 문제에 대한 반응 또는 이에 대한 방어로 개념화되었기 때문에 환자와 의사 참여자 모두 옹호자에게는 일련의 기술이 필요하다는 것을 인식했습니다. 특히, 옹호자는 의료 및 제도 관련 지식과 '환자의 이야기를 파는 것'(MD12, I1)하여 '가능한 한 빨리 상대방에게 내 환자의 진료가 필요하다는 것을 설득'(MD13, I1)할 수 있는 자신감, 단호함, 정치적 감각을 모두 갖추고 있어야 하는 것으로 나타났습니다.
While patient and physician participants sometimes had different perspectives about the meaning of competent HA, for both, advocacy generally meant having to ‘stand up for myself’ (P1, I1) and ‘pushing things forward - not being satisfied with the status quo and really looking at continuously improving at the individual and at the community and system level the factors that determine people's health and well-being’ (MD10, I1). Because health advocacy was often conceptualised as a reaction to, or a defence against, systemic or structural problems that would be unnecessary in a better functioning system, both patient and physician participants recognised that advocates require a constellation of skills. Specifically, advocacy seemed to rely on possessing both medical and systems-related knowledge, and the confidence, assertiveness and political savvy to ‘sell your patient's story’ (MD12, I1) in a way that ‘convinces the other person, as quickly as possible, that your patient needs to be seen’ (MD13, I1).

의사의 대인관계 및 의사소통 능력은 환자에게도 중요했으며, 환자에게 유능한 옹호는 환자 중심주의와 동의어처럼 보였습니다. 즉, 환자 중심의 의사 옹호자는 환자가 치료에 적극적으로 참여하도록 장려하고 의료 시스템의 격차나 한계를 완화하기 위해 다른 사람들과 기꺼이 협력하는 의사였습니다. 또한 '옹호의 큰 부분은 환자와 공감할 수 있는 것'(P7, I2)이기 때문에 환자 참여자들은 의사가 먼저 좋은 경청자가 되지 않으면 효과적으로 옹호할 수 없다고 생각했으며, '환자에게 진정으로 경청하는 의료진과 경청하는 것처럼 행동하는 의료진 사이에는 뚜렷한 차이가 있다'(P4, I1)고 인식했습니다. 참가자들은 이러한 세심한 경청을 드문 일로 인식했기 때문에 일반적으로 불만족스러운 의료 서비스 경험에 대한 이야기를 공유함으로써 좋은 옹호 또는 효과적인 옹호에 대한 인식의 틀을 잡았습니다: 

A physician's interpersonal and communication skills also mattered to patients, and for them, competent advocacy seemed synonymous with patient centredness. That is, a patient-centred physician advocate was one who encouraged patients to take an active role in their care and who willingly worked with others to mitigate gaps or limitations in the healthcare system. Additionally, since ‘a big part of advocacy is being able to empathize with a patient’ (P7, I2), patient participants felt that physicians could not advocate effectively without first being good listeners, and they discerned ‘a palpable difference for patients between providers who really listen and those who behave as though they are listening’ (P4, I1). Participants perceived such attentive listening as rare, thus they commonly framed their perceptions of good, or effective, advocacy by sharing stories of unsatisfactory health care encounters:

내가 의사에게 불만족스러울 때는 의사의 태도 때문입니다. 제가 사건의 연대기를 설명할 때 계속 헷갈려하고 제 말에 귀를 기울이지 않는 의사가 있었어요. 제게는 나쁜 의사였어요... 제 말을 한 마디도 듣지 않고 그냥 처방전만 써주고 나가 버렸어요... 그 사람들은 좋은 옹호자가 아니었어요. (P8, I1)
When I’m dissatisfied with a physician, it's because of their attitude. I had one that, I was explaining the chronology of events…They kept on getting it confused, they weren't paying attention to me. That, to me, is a bad physician… didn't listen to a word I said, and just wrote me a prescription, and walked out…those people were not good advocates. (P8, I1)


실제로 자원이 부족한 치료 시스템의 내재적 한계는 환자가 스스로를 옹호하는 것뿐만 아니라, 종종 위협적인 것으로 인식되는 의료 시스템을 탐색하는 데 도움을 줄 수 있는 옹호자 집단을 개발하는 것의 중요성을 강조했습니다: 
Indeed, the inherent limitations of a resource-strapped care system reinforced the importance for patients to not only advocate for themselves, but also to develop a circle of advocates who could help them navigate a health care system often perceived as threatening:

먼저 자신을 보호해야 합니다. 필요한 치료를 받고 가능한 한 빨리 병원을 빠져나가야 합니다. 안타깝게도 병원은 너무 바쁘고 혼잡합니다. 항상 누군가와 함께 있지 않으면 그 틈새를 비집고 들어갈 수 있습니다. (P3, I1)
You have to protect yourself first. Make sure that you get what you're going to need and get the hell out of there as fast as you can. Unfortunately, our hospitals are too busy and too over-crowded. If you don't have somebody there with you all the time, you'll drop through the cracks. (P3, I1)

3.2 유능한 건강 옹호 평가하기
3.2 Assessing competent health advocacy

환자들은 훌륭한 의사 옹호자의 특징에 주의를 기울일 뿐만 아니라 그에 대한 피드백을 작성할 준비가 되어 있는 것처럼 보였습니다. 예를 들어, 한 환자는 자신의 상태에 대해 수행한 연구를 공유하여 자신을 옹호한 후 의사로부터 받은 두 가지 대조적인 반응에 대한 예를 공유했습니다(그림 1). 한 의사는 환자의 연구를 완전히 무시한 반면, 다른 의사는 치료 계획을 수립하면서 환자의 연구를 고려했습니다. 의사에게 어떤 피드백을 제공할 수 있느냐는 질문에 환자 참여자 4는 효과적인 옹호를 위해서는 경청하는 것이 기본이라고 반복해서 답했습니다:  
Patients not only seemed attentive to the characteristics of good physician advocates, but they also seemed poised to craft feedback about them. For instance, one patient shared an example of two contrasting responses from her physicians after she'd advocated for herself by sharing research she'd conducted about her condition (Figure 1). One dismissed her research outright, while another considered the patient's research while developing a treatment plan. When asked what feedback she might provide to her physicians, patient participant 4 responded by reiterating that listening is fundamental for effective advocacy:

제 말을 잘 들어준다고 생각했던 한 의사에게는 사려 깊은 태도에 깊은 감명을 받았습니다... 저는 '제 말을 잘 들어주고, 제가 치료에 참여할 수 있는 방식에 대한 선택이 어떤 영향을 미칠지 생각해줘서 고맙다'고 말했을 것입니다. 그리고 다른 한 명에게는 '시간을 내어 환자를 단지 많은 인구의 일원이 아니라 미묘한 차이를 가진 개인으로 생각해야 할 필요성을 이해해 주셨으면 좋겠습니다'라고 말했을 것입니다. (P4, I1) 
For the one physician who I thought was really listening to me, I was just really impressed with her thoughtfulness…I would have said, ‘thank you for really making me feel like you are listening to me and thinking about the implications of the choices that we make for the way that I think about my ability to participate in my own care.’ And then, for the other, I would have said, ‘I hope you understand the need to take the time and really think about your patients as individuals with subtle differences, rather than just members of a larger population.’ (P4, I1)

환자 참가자들은 유능한 옹호자의 속성으로 인식하는 것을 쉽게 식별할 수 있는 것처럼 보였지만, 의사 참가자들은 옹호를 '약간 추상적인 것'(MD2, I2)이라고 설명했으며, 이 핵심 역량의 본질을 명확하게 표현하는 것이 어렵다고 생각했습니다: 
While patient participants seemed readily able to identify what they perceived as attributes of competent advocates, physician participants described advocacy as ‘a bit of an abstract thing’ (MD2, I2), and found it challenging to articulate the essence of this core competence:

'신경외과 전문의 자격증을 취득했다면 환자를 돌보기 위해 입증해야 하는 의학적 지식과 기술에 능숙하다는 것을 의미한다'고 말하는 것은 비교적 간단하지만, 이것이 건강 옹호에 정확히 무엇을 의미할까요? 어느 시점에서 이 사람이 더 이상 환자의 건강 옹호자로서의 책임을 다하지 못하고 있다고 말하겠습니까? (MD13, I1) 
It's relatively straightforward to say ‘if you are certified to be a neurosurgeon, this is what it means for you to be competent in the medical knowledge and skill that you have to demonstrate to take care of your patients’ … what exactly does that mean for health advocacy? At what point would you say that this person is no longer fulfilling their responsibilities as a health advocate for their patient? (MD13, I1)

이러한 질문과 씨름한 후, 의사 참가자들은 충분히 좋은 옹호자부터 효과적인 옹호자, 탁월한 옹호자에 이르기까지 다양한 역량을 제시했습니다. 의사 참가자에 따르면,

  • 충분히 유능한 옹호자는 건강 옹호에 대한 개념적 이해가 있고, '환자와 환자의 상태, 치료에 대한 매우 강력한 지식'(MD12, I1)을 바탕으로 행동할 기회를 식별할 수 있으며, 자원에 접근하는 방법을 알고 있습니다. 그러나 참가자들은 이러한 개념적 이해만으로는 충분 기준을 충족하기에 충분하지 않다고 지적했습니다.
  • 오히려 최소 기준을 충족하기 위해서는 옹호 활동이 결과를 창출할 만큼 효과적인지 여부와 관계없이 옹호 관련 활동에 기꺼이 참여하려는 의지에 의존해야 했습니다. MD11은 '옹호 활동은 결과를 얻는다는 의미가 아니라 옹호한다는 의미이며...[따라서] 노력하는 것만으로도 훌륭한 옹호자가 될 수 있다'고 말함으로써 이러한 개념을 명확히 했습니다(MD11, I3).
  • 스펙트럼의 맨 끝에는 '지속적으로 한계를 뛰어넘어 결과를 얻는'(MD11, I3) 드문 예외적인 옹호자가 있습니다.
  • 환자와 의사 참가자 모두 의사가 옹호 활동을 하거나 하지 않는다고 인식했지만, 의사 참가자의 경우 옹호 활동을 시도하는 것만으로도 충분히 좋은 것으로 인식했습니다. 

After wrestling with such questions, physician participants seemed to suggest a spectrum of competence ranging from good enough to effective to exceptional advocacy. According to physician participants, 

  • good enough advocates have a conceptual understanding about health advocacy, are able to identify opportunities to act based on ‘a very strong knowledge of the patient, and their conditions, and their treatment…’ (MD12, I1), and know how to access resources. Participants noted that having this conceptual understanding was insufficient for meeting the good enough threshold, however.
  • Rather, meeting the minimum bar relied on a willingness to engage in advocacy-related activities—regardless of whether their advocacy efforts were effective enough to generate results. MD11 clarified this notion by saying: ‘advocacy doesn't imply you get a result, it just means that you advocate…[therefore] you can still be a good advocate by just trying’ (MD11, I3).
  • At the far end of the spectrum are the rare exceptional advocates who consistently ‘go to bat and push the envelope…and get results’ (MD11, I3).
  • Both patient and physician participants perceived that doctors either did or did not advocate; for physician participants, however, any attempt at advocacy was perceived as good enough.

3.3 역량에 영향을 미치는 요인: 경험과 환경
3.3 Forces that impact competence: Experience and environment

환자와 의사 참가자 모두 교육생이 효과적으로 옹호 활동에 참여하는 데 방해가 될 수 있는 여러 가지 요인에 대해 설명하면서, 교육생이 최소한의 역량 기준을 충족하기를 기대하는 것이 가능한지 또는 합당한지에 대한 의문을 제기했습니다. 예를 들어, 의사 참가자들은 유능한 건강 옹호자가 되는 것은 경험에 의존하며, 옹호 활동은 수련생이 '성장'해야 할 일이라고 인식한다고 설명했습니다(MD5, I1). 따라서 수련생이 옹호 활동을 하기 위해서는 먼저 어느 정도의 '의학적 전문성을 개발해야 하며...그 다음에는 학습과 경험을 통해 건강 옹호 활동을 할 수 있다'고 의사 참가자들은 설명했습니다(MD14, I1). 따라서 옹호는 '조미료와 함께 제공된다'(MD3, I2). 그리고 '옹호자가 되려면 시간이 걸리기 때문에 무엇이 정상이고 무엇이 비정상인지 알 수 있을 만큼 충분히 오래 주변에 있어야 한다'(MD3, I2). 경력이 오래된 의사 참가자들도 '어떻게 해야 하는지 더 똑똑해졌지만'(MD11, I1), '옹호하는 방법을 더 잘 배우기 위해 끊임없이 노력하고 있다'(MD3, I1)고 설명했습니다. 
Both patient and physician participants described multiple forces that may impede trainees’ ability to effectively engage in advocacy, raising questions about whether it is possible—or perhaps even fair—to expect trainees to meet the minimum threshold for competence. For instance, physician participants described that becoming a competent health advocate relies on experience, perceiving that advocacy was something for trainees to ‘grow into’ (MD5, I1). Consequently, for trainees to be able to advocate, physician participants described that they first had to develop a certain degree of ‘medical expertise…And then the health advocacy comes with learning and experience’ (MD14, I1). Advocacy, therefore, ‘comes with seasoning’ (MD3, I2). And because ‘it takes a while to become an advocate you have to be around long enough to know what is normal and what's not’ (MD3, I2). Even physician participants at advanced stages in their career described that while they've ‘gotten smarter at how to do things’ (MD11, I1), they were ‘constantly learning how to advocate’ better (MD3, I1).

환자 참가자들은 효과적인 옹호 활동의 또 다른 장애물로 의사가 일상적인 질환illness 경험에 대해 충분히 이해하지 못한다는 점을 꼽았습니다. 이들은 이러한 정보가 옹호 활동에 참여하는 데 매우 중요하다고 인식했습니다. 의사 참여자들도 이에 동의하며 레지던트 교육이 수련의가 의료 제공의 '큰 그림'(MD4, I2)에서 옹호가 어디에 적합한지 파악하거나 건강 옹호 업무를 수행할 수 있는 기술을 개발할 기회를 제한적으로 제공한다고 설명했습니다. '레지던트는 양식 작성이나 장애와 같은 일에 관여하지 않습니다 .... 당신이 하는 일의 대부분은 병원에서 이루어지며 환자가 겪는 삶의 경제적 현실로부터 약간 차단됩니다'(MD6, I1). 
Patient participants identified another impediment to effective advocacy: physicians’ lack of sufficient understanding of their everyday illness experiences. They perceived this information as critical for engaging in advocacy. Physician participants seemed to agree, and described that residency training provided limited opportunities for trainees to begin to develop the skills to either see where advocacy fits into the ‘big picture’ (MD4, I2) of care provision or to do the work of health advocacy: ‘as a resident, you really don't get involved in the filling out of forms and disability things and that kind of stuff …. a lot of the work that you do is in hospital and you're a bit shielded from the economic realities of life that your patient has’ (MD6, I1).

광범위한 의료 환경 또한 개별 의사가 옹호 활동에 참여하기 어렵게 만드는 것으로 인식되었습니다. 한 환자 참여자는 '훌륭한 옹호자가 되지 못하는 것은 의사 개개인이 아니라 그들이 근무하는 시설에서 옹호 활동이 부족하다고 생각합니다."(P8, I1)라고 제안했습니다. 또한 의사들은 '건강 옹호자가 되도록 훈련받지 않았고'(MD7, I3), '옹호활동이 필요한 만큼 중요하게 여겨지지 않기 때문에'(MD9, I2), 의사 참여자들은 건강 옹호 커리큘럼에 엄격함과 전략적 방향이 모두 부족하여 수련생들이 불이익을 받는다고 우려했습니다. 
The broader health care environment was also perceived as making advocacy work challenging for individual physicians to engage in. As one patient participant suggested: ‘It's not so much the individual doctors that aren't good advocates, it's the facilities at which they work, where the advocacy, I think, lacks.’ (P8, I1). Additionally, because physicians are ‘not trained to be health advocates’ (MD7, I3) and because ‘advocacy is not valued as much as it should be’ (MD9, I2), physician participants worried that trainees were disadvantaged because health advocacy curricula lacked both rigor and a strategic direction.

3.4 역량에 영향을 미치는 요인: 권력과 지위
3.4 Forces that impact competence: Power and status

관료주의로 가득 찬 고장난 시스템에서 옹호 활동을 하려면 때때로 의사들은 윤리적으로 문제가 될 수 있는 방식으로 사회적 자본을 사용해야 했습니다. 예를 들어, 한 의사 참가자는 환자를 위한 자원이나 치료를 얻기 위해 규칙과 규정을 우회하여 '합리적인 도둑'이 되어야 하는 경우가 많다는 것을 배웠다고 회상했습니다: 
Advocating in a broken system laden with red tape sometimes required physicians to wield their social capital in ways that could be ethically fraught. For instance, one physician participant recalled learning that a good advocate often had to be a ‘reasonable thief’ by circumventing rules and regulations to obtain resources or treatments for their patients:

저는 레지던트 시절, 진단에 관해 저와 이야기를 나누던 교수진과 함께 일했던 아주 분명한 경험을 기억합니다. 그리고 그들은 '어떤 사람들은 제 의견에 동의하지 않을 수도 있지만, 저는 제가 내릴 수 있는 진단이 어린이에게 치료를 받을 수 있는 문을 열어준다면, 저는 어린이가 필요한 임상 치료를 받을 수 있도록 옹호하는 것이기 때문에 후회 없이 그 진단을 서류에 적을 것'이라고 말했습니다. (MD9, I3) 
I remember a very clear experience of being a resident, working with a faculty who was talking to me about diagnosis. And they said, ‘some people may disagree with me, but I am of a strong opinion that if a diagnosis that I have the power to give will open doors to access treatment for a child, that I will put that down on paper without any regrets, because I’m advocating for a child to get the clinical treatment that they need.’ (MD9, I3)

이러한 방식으로 옹호하는 경우 '레지던트가 곤경에 처할 위험'(MD9, I3)이 있을 수 있기 때문에, 대부분의 의사 참여자들은 경험과 함께 옹호에는 어느 정도의 권한과 특권이 필요하다는 데 동의했습니다. 결과적으로, 주치의는 특히 '공식적으로 인정받는 지위'(MD10, I2)를 가진 경우 연공서열과 지위 때문에 효과적이거나 예외적인 방식으로 더 잘 개입할 수 있다고 인식했습니다. 효과적인 옹호를 위한 지위의 중요성에 대해 MD10은 다음과 같이 말했습니다:
Since there may be ‘a danger of the resident getting in trouble’ (MD9, I3) for advocating in this way, most physician participants agreed that, along with experience, advocacy required a certain degree of power and privilege. Consequently, attending physicians were perceived to be better able to engage in effective or exceptional ways because of their seniority and status, particularly if they held ‘some sort of formally recognized position’ (MD10, I2). When reflecting on the importance of status for effective advocacy, MD10 said:

의학은 일반적으로 매우 위계적입니다... 저는 수련의였고, 펠로우였고, 누군가의 밑에 있었습니다. ...제 시스템도 아니고 제 환자도 아닙니다. 제 상사의 것이죠, 그렇죠? 졸업하고 교수로 임용된 후에야 비로소 이 시스템이 내 시스템이고, 내가 그 시스템의 일부이며, 변화를 원한다면 내가 그 변화의 일부가 되어야 하고, 그렇게 할 수 있는 권한과 특권이 있다는 것을 깨달았죠. 
Medicine typically is just so hierarchal… I was a trainee, I was a fellow, I was under somebody. …it's not really my system or it's not my patients. It's my supervisor's, right? And it was only until I graduated and was on faculty, that I realized, no, now this is my system, I’m part of the system, and if I want to see it change, I have to be part of that change, and I now have the power and privilege to do that.

권력과 지위가 옹호를 촉진하는 데 도움이 되는 것으로 널리 알려져 있지만, 일부 참가자는 권력과 지위가 필수적이라는 생각에 이의를 제기하는 사례를 제시했습니다:
While power and status were widely seen as helpful facilitators of advocacy, some participants offered examples that challenged the notion that power and status were essential:

저는 의대생들이 경이로운 일을 하는 것을 보았습니다. 예를 들어, 한 임상 실습생은 수술실에서 섬망 증상으로 제지당하는 환자를 보고 경악을 금치 못해 의료 윤리 전문가를 찾아갔고, 그 후 수술 스태프를 대상으로 섬망 교육을 실시했습니다. 그는 그저 의대생이었지만 이 모든 것을 움직이게 했습니다. 따라서 지위가 있으면 도움이 되지만 필수는 아닙니다. (MD4, I3) 
I’ve seen medical students do a phenomenal job. For example, one clinical clerk was absolutely appalled at how patients on a surgical floor were restrained with delirium and he actually went to the medical ethicist, which then instigated delirium education for the surgical staff. He was just a medical student that got this whole thing moving. So, it's helpful to have status, but it's not required. (MD4, I3)

지위나 권력보다 더 중요한 것은 옹호에 참여하는 데 필요한 시간을 할애하는 것뿐만 아니라 옹호에 내재된 위험을 헤쳐나가는 데 기꺼이 헌신하는 것이었습니다. 의사와 환자 참여자 모두 옹호 활동에 시간이 많이 걸린다고 답했으며(그림 2), 의사 참여자들은 여러 가지 경쟁적인 요구 사항을 처리하는 데 어려움을 겪는다고 설명하는 경우도 드물지 않았습니다. 
Perhaps more important than status or power was a willingness not only to devote the time necessary for engaging in advocacy, but also to navigating its inherent risks. Both physician and patient participants described advocacy as time intensive (Figure 2), and it was not uncommon for physician participants to describe the struggle they experienced juggling multiple competing demands.

옹호 활동은 또한 문제가 있는 제도적 문제에 반발하기 위한 파괴적이고 위험한 정치 활동으로 인식되었습니다: '당신은 역류하고 있으며 매우 위험합니다. 그리고 누군가의 감정을 상하게 하지 않고 역류하는 것은 어렵습니다. 현재의 기존 관행에 반대하는 사람처럼 보이지 않으면서 역류하는 것은 어렵습니다."(MD3, I1). 열정적이고 적극적인 옹호자라고 스스로 밝힌 두 명의 참가자 중 한 명은 소속 기관으로부터 옹호 활동에 대한 비난을 받았고, 다른 한 명은 목소리를 높이는 옹호자가 되면 동료들로부터 '잠김locked out'(MD3, I1)을 당할 수 있다고 인식하고 있었습니다. 또한 이러한 위험이 교육과 평가에 영향을 미칠 수 있다는 우려도 있었는데, '옹호 활동을 했다는 이유로 처벌을 받는다면, 이는 우리가 사람들이 보여주는 역량에 대해 평가, 평가, 강화 또는 처벌하는 방식에 영향을 미치고 형성할 것이기 때문'(MD9, I3)입니다. 
Advocacy was also perceived as a disruptive and risky political activity aimed at pushing back against problematic systemic issues: ‘You're running countercurrent and it's very dangerous. And it's hard to run countercurrent without hurting someone's feelings. It's hard to run countercurrent without looking like a naysayer of the current existing practices’ (MD3, I1). Of two participants who self-identified as passionate and engaged advocates, one was censured for advocacy activities by their institution, and the other recognised that being a vocal advocate can get you ‘locked out’ (MD3, I1) by colleagues. In turn, there were concerns that these risks impacted teaching and assessment because ‘when you're being punished for advocating, then that is going to influence and shape how we assess, evaluate, reinforce or punish people for the competence that they're demonstrating’ (MD9, I3).

3.5 유능한 옹호자 양성
3.5 Training competent advocates

따라서 참가자들에게 옹호 활동은 '약간의 열정과 약간의 화끈함'이 필요한 고위험 활동으로 간주되었습니다(MD3, I1). 환자와 의사 참가자 모두 옹호자에게는 경험, 전문성, 훌륭한 의사소통 기술 이상의 것이 필요하다고 인식했으며, 효과적이거나 뛰어난 옹호자가 되기 위해서는 위험을 감수하려는 의지뿐만 아니라 '타고난 인간의 도덕적 코드'(MD4, I1)에도 의존하는 것으로 보였습니다. 따라서 권력과 특권이 옹호 활동을 촉진할 수도 있지만, 개인의 인성이 옹호 활동을 주도하는 것으로 보입니다. 이 연구에 참여하기로 선택한 참가자들은 옹호자가 되는 것이 개인적, 직업적 정체성의 핵심 특징이라고 설명했습니다: '제가 이 일을 하는 것이 아니라 저라는 사람이 이 일을 하는 것입니다.'(MD3, I2). 결과적으로 의사 참여자들은 레지던트 교육이 수련생들에게 건강 옹호에 대한 표면적인 지식을 전달할 수는 있지만, 유능한 건강 옹호자로 양성하는 것은 달성할 수 없는 목표로 인식했습니다: '전략을 제공할 수는 있지만, 올바른 사람들을 위해 옳은 일을 하고자 하는 도덕적 실체가 있어야 한다'(MD4, I1). 
For participants, therefore, advocacy was considered a high-risk activity that required ‘a bit of passion and a bit of fire’ (MD3, I1). Both patient and physician participants perceived that advocates required more than experience, expertise and good communication skills; being an effective or exceptional advocate also seemed to rely on having not only a willingness to take risks, but also on ‘an innate human moral code’ (MD4, I1). Therefore, while power and privilege may facilitate advocacy, an individual's character seems to drive it. For those participants who chose to engage in this work, they described that being an advocate was a central feature of their personal and professional identities: ‘I don't even see myself doing it, it's who I am as a person.’ (MD3, I2). Consequently, physician participants perceived that while residency training may be able to impart surface level knowledge to trainees about health advocacy, molding them into competent health advocates was sometimes perceived as an unattainable goal: ‘I guess you could provide strategies but there still has to be some kind of moral substance in the person that wants to do the right thing for the right people’ (MD4, I1).

그럼에도 불구하고 의사 참가자들은 수련의를 유능한 건강 옹호자로 육성할 책임이 있다는 것을 인정했습니다. 필수적인 환자 경험에 대한 이해와 강력한 공식 커리큘럼이 모두 부재한 상황에서 의사 참가자들은 옹호 교육이 '모델링, 설명, 예시, 내가 이것에 대해 쓴 내용, 앞으로 다른 환자를 볼 수 있도록 읽어볼 수 있는 논문'을 통해 가장 잘 전달될 수 있다고 인식했습니다(MD5, I1). 그러나 대부분의 의사 참가자들은 자신이 옹호에 적합한 모델인지에 대해 의문을 제기하는 듯 보였으며, 학습자에게 옹호를 보여줄 만큼 규칙적으로 옹호에 참여하지 않았다고 인정하는 경우가 많았습니다. 의사 참가자들은 교육생의 건강 옹호를 신중하거나 엄격하게 평가할 수 없을 것이라고 우려했습니다: '그들(임상의사 선생님들)은 항상 건강 옹호자로 '기대에 부응'을 선택합니다, 항상... 건강 옹호자로서 기대에 부응하지 못한 사람을 본 적이 없습니다....'(MD8, I2). 
Regardless, physician participants acknowledged that they were responsible for developing their trainees into competent health advocates. In the absence of both an understanding about essential patient experiences and a strong formal curriculum, physician participants perceived that advocacy teaching was best conveyed by ‘modelling, by explaining, by giving examples, by saying, this is what I wrote about this, this is a paper that you can read about it so that you can see another patient in the future’ (MD5, I1). However, most physician participants seemed to question whether they were appropriate models for advocacy, often admitting that they did not engage in advocacy with enough regularity to demonstrate it to learners. In turn, physician participants worried that they would not be able to thoughtfully or rigorously assess a trainee's health advocacy: ‘They (clinician teachers) will always choose ‘meets expectations’ for health advocate, always… I have never had anybody not meet expectations as a health advocate….’ (MD8, I2).

환자 참여자들은 의사를 자신의 주 건강 옹호자로 지목한 적이 거의 없었습니다. 오히려 환자 참여자들은 '의사의 역할은 진단하고 회복 계획을 세우는 것이지, [환자가] 주변 도움을 받을 수 있는 모든 가능한 옵션을 설명하는 것은 의사의 일이 아니다'라고 인식하고 있었습니다. 그들은 그럴 시간이 없습니다'(P8, I2). 환자 참여자에게는 옹호를 다른 사람에게 미루는 것이 의사의 역량을 나타내는 한 가지 지표가 될 수 있으며, 이는 유능한 의사 옹호자는 자신의 한계를 알고 옹호를 다양한 형태의 전문 지식에 의존하는 파트너십으로 간주한다는 것을 시사합니다. 한 의사 참가자는 의사 옹호 활동의 필수 요소는 '의사가 가장 잘 아는 생물 의학 모델을 지속적으로 밀고 나가야 하며, 나 자신을 하나의 파트너로, 환자 치료의 한 전문가로, 나 자신을 전문가로, 환자 가족, 다른 분야를 전문가로 보는 것'이라고 지적하며 이러한 정서를 반영했습니다. (MD10, I2). 환자 참가자 7은 이에 동의하며 유능한 건강 옹호의 의미에 대해 생각한 후 다음과 같이 제안했습니다: '어쩌면 옹호의 일부분은 자신이 모든 것을 알고 있는 의사라는 환상을 제시하기보다는 자신이 그것을 알아낼 수 없으므로 다른 사람에게 이야기해야 한다는 것을 아는 것일지도 모른다'(P7, I2).  
Patient participants rarely, if ever, identified a physician as their primary health advocate. Rather, patient participants perceived that ‘the doctor's job is to diagnose and create a plan of recovery… it's not their job to explain every possible option that is out there, where [patients] can get peripheral help. They don't have time for that’ (P8, I2). For patient participants, deferring advocacy to others might be one indicator of a physician's competence, suggesting that competent physician advocates know their limits and view advocacy as a partnership dependent on multiple forms of expertise. One physician participant echoed this sentiment, noting that an essential component of the advocacy work of physicians is ‘having to continuously push back on the biomedical physician knows best model and see myself as one partner, one expert in their care, themselves as an expert, their families, other disciplines being experts.’ (MD10, I2). Patient participant 7 agreed and, after reflecting on the meaning of competent health advocacy, suggested that: ‘maybe part of advocacy is knowing that you can't figure it out so you have to talk to someone else about it, rather than trying to present the illusion that you're the all-knowing doctor’ (P7, I2).

4 토론
4 DISCUSSION

건강 옹호자 역할에 대한 역량을 갖추려면 수련의는 '임상 환경 안팎에서 환자와 함께 옹호함으로써 환자 개인의 건강 요구에 대응'하고, '사회적으로 책임 있는 방식으로 시스템 차원의 변화를 위해 환자와 함께 옹호함으로써 그들이 봉사하는 지역사회 또는 집단의 요구에 대응'할 수 있어야 합니다.1 그러나 건강 옹호를 교육하고 평가하는 데 있어 잘 알려진 어려움은2-4 건강 옹호의 대상과 방법, 또는 환자 개인과 시스템 차원의 요구에 효과적으로 대응하는 데 필요한 행동과 기술에 대한 합의가 부족한 데에 뿌리를 두고 있는 것으로 보입니다. 저희는 건강 옹호자 역할에 대한 역량에 대한 환자와 의사의 관점을 살펴봄으로써 이러한 기대가 실제로 무엇을 의미하는지 명확히 하고자 했습니다. 건강 옹호 활동을 공동의 활동으로 생각했지만, 새로운 커리큘럼 프레임워크와 달리1 참가자 중 매우 작은 숫자만이 건강 옹호를 의사의 기본 역할로 인식하고 있다는 사실(적어도 현재 정의된 것과는 다른)을 발견하고 놀랐습니다. 표면적으로는 이러한 연구 결과가 건강 옹호에 대한 대화를 명확하게 하기보다는 복잡하게 만드는 것처럼 보이지만, 이러한 복잡성을 풀면 건강 옹호 교육에 대한 보다 간소화되고 목표에 맞는 접근법을 찾는 데 유용할 수 있습니다. 
To achieve competence for the Health Advocate role, a trainee must be able to ‘respond to an individual patient's health needs by advocating with the patient within and beyond the clinical environment’ and ‘respond to the needs of the communities or populations they serve by advocating with them for system-level change in a socially accountable manner’.1 However, the well-known challenges of teaching and assessing health advocacy2-4 seem rooted in lack of consensus about the what and how of health advocacy, or the actions and skills required to mount an effective response to patients’ individual and systems-level needs. We set out to clarify what these expectations mean in practice by exploring patients’ and physicians’ perspectives about competence for the Health Advocate role. While we thought of it as a shared activity, we were surprised to discover that, contrary to new curricular frameworks,1 few of our participants perceived health advocacy as a fundamental physician role—at least not as it is currently defined. On the surface, our findings seem to complicate rather than clarify conversations about health advocacy; however, we suggest that unpacking these complications might usefully inform more streamlined and targeted approaches for health advocacy training.

4.1 건강 옹호 교육 및 평가의 어려움 미묘하게 조정하기
4.1 Nuancing the challenges of teaching and assessing health advocacy

HA와 달리, 다른 CanMEDS 역할은 역량에 대해 잘 정의되고 단계적으로 진행되거나,1 적어도 주관적일지라도 만족스러운 성과와 불만족스러운 성과를 합리적으로 명확하게 구분하는 것으로 보입니다. 즉, 수련의는 의학 지식과 기술 능력에서 역량을 입증하거나 그렇지 못할 수 있으며, 수련의가 문헌을 비판적으로 평가하거나 효과적으로 의사소통할 수 있는지 여부를 평가하는 것은 비교적 간단합니다. 참가자들은 역량에 대한 기준이 HA 역할에 비해 더 복잡하여 가변적이고 예측할 수 없는 기대치와 평가 기준을 만든다고 제안했습니다. 실제로 의사 참가자들은 의료 전문가 역할에 대해 옹호 시도만 있어도 '충분히 좋은 것'으로 인식되며, 이는 의료 전문가 역할에 고려되지 않거나 심지어 용인되지 않는 기준이라고 제안하는 것 같았습니다. 그리고 탁월한 옹호자로 평가받기 위한 기준, 즉 환자에게 최상의 치료를 제공하기 위해 일관되고 성실하게 일하는 것은 다른 역할에 대한 최소한의 기대치인 것 같습니다.
Unlike HA, other CanMEDS roles appear to have either a well-defined, staged progression for competence,1 or at least a reasonably clear, if subjective, distinction between a satisfactory or unsatisfactory performance. In other words, trainees either demonstrate competence in their medical knowledge and technical skill or they don't, and it is relatively straightforward to assess whether or not a trainee can critically appraise the literature or communicate effectively. Our participants suggested that the threshold for competence is more convoluted for the HA role, creating variable and unpredictable expectations and assessment standards. Indeed, physician participants seemed to suggest that any attempt at advocacy was perceived as ‘good enough’, a bar that would neither be considered—nor perhaps even tolerated—for the Medical Expert role. And the standards for being assessed as an exceptional advocate, namely working consistently and diligently to provide patients with the best possible care, seem to be the minimum expectation for other roles.

이러한 가변성과 예측 불가능성은 일반적으로 모호하거나 너무 넓은 정의에 기인합니다 .5,19 그러나 환자 참여자들이 설명한 바에 따르면 실제로는 HA에 대한 해석이 너무 좁을 수 있으며, 환자 경험을 향상시킬 수 있는 옹호 형태를 간과하고 있을 수 있다고 제안합니다. 환자와 의사 참여자 모두 시스템이 환자의 요구를 충족시키지 못하거나 환자가 스스로 치료를 지시하는 능력을 방해하는 등 문제가 발생했을 때 옹호가 필요한 경우가 많다고 암시했습니다. 따라서 옹호자들은 때때로 프로토콜을 '우회'36하거나 전문적 규범에 도전하는 방식으로 현상 유지를 방해해야 하는 경우가 많습니다. 의사 참가자들은 옹호 활동이 본질적으로 파괴적이고 위험하다고 설명하면서, 특히 정치적으로 현명한 방식으로 수행되지 않을 경우 옹호 활동에 참여하면 비난을 받거나 어려운 사람으로 낙인찍힐 수 있다고 답했습니다. 유능한 옹호자는 이러한 정치적 지뢰밭을 비교적 무사히 통과할 수 있어야 합니다. 
This variability and unpredictability is typically attributed to definitions of HA that are nebulous or too broad .5, 19 However, we suggest that interpretations of HA may in fact be too narrow, and from what our patient participants described, might be overlooking forms of advocacy that would enhance the patient experience. Both patient and physician participants implied that advocacy is often necessary when things go wrong—either when the system fails to meet patients’ needs or when it impedes their ability to direct their own care. Consequently, advocates often need to disrupt the status quo, sometimes in ways that ‘work around’ protocols36 or challenge professional norms. Our physician participants described advocacy as inherently disruptive and risky, suggesting that engaging in it—particularly when it is not done in a politically savvy way—can result in censure or being labelled as difficult. A capable advocate should be able to traverse these political minefields relatively unscathed.

그러나 옹호가 항상 파괴적인 것은 아닙니다. 환자 참여자들에 따르면, 자신의 전문성을 인정하고 치료 계획에 반영하며 공감하고 세심하게 경청하는 것 역시 건강 옹호의 한 형태라고 합니다. 즉, 의사 참여자들은 옹호가 진료에 어떻게 적용되는지 개념화하는 데 어려움을 표한 반면, 환자 참여자들은 임상 치료에서 옹호의 역할을 쉽게 파악할 수 있었으며, 이는 옹호가 환자 중심주의 철학과 밀접하게 연관되어 있다는 이전 연구를 뒷받침하는 것으로 보입니다.30 공감적 경청과 효과적인 의사소통 등 환자가 옹호라고 묘사한 많은 부분이 의사에게도 중요하다고 인식되고 있음을 알 수 있습니다. 그러나 의사들은 이러한 요소들을 건강 옹호의 '부수적인' 업무라기보다는 좋은 치료의 기본 구성 요소로 개념화하는 것으로 보입니다.30  
Advocacy isn't always disruptive, however. According to patient participants, acknowledging and incorporating their expertise into care plans, empathising, and listening attentively are also forms of health advocacy. In other words, while physician participants expressed difficulty conceptualising how advocacy fit within their practice, patient participants were readily able to see its role in clinical care, seemingly supporting our previous research suggesting that advocacy is closely linked with philosophies of patient centredness.30 We recognise that much of what patients described as advocacy—such as empathetic listening and effective communication—are also viewed as important by doctors. However, physicians seem to conceptualise these as fundamental components of good care rather than the ‘above and beyond’ work of health advocacy.30

모든 환자와 대부분의 의사 참가자들은 보다 파괴적인 형태의 옹호를 반드시 의사의 역할로 간주하지는 않는다는 점을 분명히 했습니다. 환자 참여자들에 따르면, 좋은 의술은 옹호이며, 이는 의사 참여자들과 다른 사람들이 진료에서 옹호의 역할을 파악하는 데 어려움을 겪는 이유를 설명하는 것으로 보입니다.5, 6 그러나 상호 존중, 투명성 및 공감의 환경을 조성하는 것이 기대되는 반면, 환자 참여자들은 자신의 진료가 열악하다고 인식하는 경우를 고려하여 유능한 건강 옹호를 정의할 수 있다는 점을 염두에 둘 필요가 있습니다.37 비록 개인이 의학교육 연속체를 따라 진행함에 따라 공감 능력이 감소한다는 연구가 뒷받침하지만 실망스러운 계시입니다.
All patients and most physician participants made clear that they do not necessarily view more disruptive forms of advocacy as the physician's role. According to patient participants, good doctoring is advocacy, which seems to explain why physician participants and others have a difficult time identifying its role in their practice.5, 6 We do, however, need to be mindful that while cultivating an environment of mutual respect, transparency and empathy should be the expectation, patient participants could only define competent health advocacy by considering instances where they perceived their care as poor—a disheartening revelation, albeit one supported by research suggesting that empathy declines as individuals progress along the medical education continuum.37

4.2 옹호 교육에 대한 재구상
4.2 Re-imagining advocacy training

현재의 프레임워크는 옹호를 파괴적이거나 정치적인 것으로 인식될 수 있는 행동4을 요구하는 것으로 간주합니다. 이러한 일반적인 관념은 환자와 달리 의사 참여자가 옹호자로 식별되는 경우가 드문 이유를 설명할 수 있습니다. 이는 건강 옹호가 도덕적 의무이자 소명이라는 이전 연구 결과와 일맥상통하며,38 옹호자가 되는 것이 훈련에 의존하는지, 개인의 인성에 의존하는지, 아니면 둘 다에 의존하는지에 대한 의문을 제기합니다. 옹호의 도덕적 차원은 의사가 직업적 정체성의 일부로 옹호에 동참하는 데 장애가 될 수 있습니다. 또한 이러한 도덕적 차원은 교육과 평가에 어려움을 야기합니다. 구성 요소로서의 역량에 대한 비판 중 하나는 역량을 평가할 때 수련의의 인성이나 개인적 자질을 거의 고려하지 않는다는 것이지만,39 도덕성이나 인성을 평가할 수 있고, 평가해야 할까요?  
Current frameworks see advocacy as requiring actions4 that might be perceived as disruptive or political. This prevailing notion might account for why our physician participants—unlike patients—rarely identified as advocates. This resonates with previous research suggesting health advocacy is both a moral imperative and a calling,38 raising questions about whether becoming an advocate relies on training, an individual's character, or both. Advocacy's moral dimension may be a barrier to physicians aligning with it as part of their professional identity. Further, this moral dimension creates challenges for teaching and assessment. While one of the critiques of competence as a construct is that we rarely consider trainees’ character or personal qualities when we assess competence,39 can we, and should we, be trying to assess morality or character?

또한 수련의는 현 상태를 파괴할 수 있을 만큼 충분한 임상 경험이나 지위를 갖지 못할 수도 있습니다. 따라서 현재와 같은 방식으로는 많은 학습자가 이 역할에 필요한 기본 역량이나 보조 역량을 갖추지 못할 수 있습니다. 옹호활동이 혼란과 행동주의에 관한 것이라는 잘못된 인식이 건강 옹호 문제의 근본 원인일 수 있으며, 이를 해결하기 위해서는 환자가 설명하는 사람 중심 요소를 포함하도록 건강 옹호의 정의를 확장하고 일반적으로 건강 옹호자 역할과 관련이 없는 학습자의 공감과 주의 깊은 경청을 강화하는 데 교육을 집중해야 할 수 있습니다. 
Trainees may also not have sufficient clinical experience or status to capably disrupt the status quo. Consequently, as currently framed, many learners may not be able to achieve either the primary or enabling competencies required for this role. Misperceptions that advocacy is only about disruption and activism may be the root cause of the health advocacy problem; solving it may rely on both expanding definitions of health advocacy to include the person-centred elements described by patients, and focusing training on bolstering learners’ empathy and attentive listening, a skillset not typically associated with the Health Advocate role.

많은 의사가 이미 파괴적이지 않은 형태의 대리인 옹호에 참여하고 있으며 학습자를 위한 역할 모델링을 하고 있을 가능성이 높습니다. 그러나 의사는 환자를 대신하여 다른 형태의 옹호 업무를 수행하도록 요청받을 수 있으므로, 건강 옹호사 교육은 복잡성, 긴장감, '그 이상'으로 나아가는 데 따른 잠재적 위험과 불편함에 대해 깊이 있게 다루어야 합니다. 일부 프로그램에서는 이미 두부 손상 예방 프레젠테이션을 개발하여 초등학교에서 강의한 후 그 경험에 대한 에세이를 작성하는 등 창의적인 옹호 활동에 전공의들을 참여시키고 있습니다.40, 41 이러한 종류의 멘토링, 실습 옹호 업무는 유용할 수 있습니다3, 42-44-양식 작성 및 신속한 의뢰와 같은 일상적인 임상 활동도 필수 옹호 업무로 인정하고 명시적으로 교육하는 한. 
Many physicians are likely already engaging in—and role modelling for learners—less disruptive forms of agentic advocacy. However, since physicians may be called on to do other forms of advocacy work on behalf of their patients, HA training should delve into the intricacies, tensions, and potential risks and discomfort of going ‘above and beyond’. Some programmes are already engaging residents in creative advocacy initiatives such as developing a head injury prevention presentation and delivering it in elementary schools, then writing an essay about the experience.40, 41 This kind of mentored, hands-on advocacy work may be useful3, 42-44—as long as everyday clinical activities such as completing forms and expediting referrals are also both acknowledged as essential advocacy work and explicitly trained.

의사 참여자들이 스스로 인정한 바에 따르면, 이들은 보다 파괴적인 형태의 HA를 가르치는 데 가장 적합하지 않을 수 있습니다. 의사 참여자들이 스스로 활동가라고 밝힌 경우에도, 그들 스스로가 인식한 한계 때문에 또는 시스템이 음성적 옹호를 가능하게 하도록 설계되지 않았기 때문에 모두가 자신이 효과적이라고 인식하지는 않았습니다. 이전 연구에서30 우리는 HA 교육 및 평가에 전문가 간 접근 방식이 필요하다고 제안했으며, 옹호 교육에 비의사를 더 많이 포함시킬 것을 촉구했습니다. 환자 참가자들은 옹호의 의미에 대해 더 폭넓게 이해하고 있었을 뿐만 아니라, 의사들이 어떤 점을 놓치고 있는지도 잘 알고 있는 것 같았습니다. 우리는 의료 교육에서 환자의 공식적인 역할이 제한되어 있는 것이 옹호를 정의하기 어렵고15 훈련하기 어려운 이유의 일부가 될 수 있다고 생각합니다.17 실현 가능성, 신뢰성 및 윤리에 대한 우려45-47 가 현재 환자의 참여를 제한하고 있지만, 많은 환자가 학습자 교육에 참여하고 싶어하며,48 옹호 교육을 더욱 견고하게 만들 잠재적으로 혁신적이고 의미 있는 기회를 창출할 수 있습니다. 
By our physician participants’ own admission, they may not best suited to teach the more disruptive forms of HA. Even when our physician participants identified as being activists, not all perceived that they were effective—either because of their own perceived limitations, or because the system is not designed to enable vocal advocacy. In previous work,30 we suggested that HA teaching and assessment demanded an interprofessional approach, and we called for greater inclusion of non-physicians in advocacy training. Patient participants not only had a more expansive understanding about what advocacy means, but they also seemed to be quite aware of when physicians were missing the mark. We suspect that patients’ limited formal role in medical education may be partly responsible for why advocacy is both difficult to define,15 and challenging to train.17 While concerns about feasibility, credibility and ethics45-47 currently limit their involvement, many patients are keen to participate in educating learners,48 creating a potentially innovative and meaningful opportunity to make advocacy training more robust.

5 제한 사항
5 LIMITATIONS

본 연구에는 의료진과 거의 동일한 수의 환자 참여자가 있었기 때문에 예상했던 것보다 환자들의 목소리가 결과에서 덜 두드러졌다는 점을 인정합니다. 이는 주로 환자들을 옹호에 대한 논의에 참여시키려는 노력이 의사의 역할에서 일관되게 멀어졌기 때문입니다. 이는 우리 연구의 한계이기는 하지만, 동시에 중요한 관찰 결과이기도 합니다. 이는 환자가 의사에게 기대하는 옹호는 적어도 의학 교육 프레임워크에서 일반적으로 설명하는 종류의 옹호가 아닐 수 있음을 시사합니다. 그러나 환자들이 기대하는 것은 공감, 숙련된 경청, 자비로운 의사소통이며, 우리는 이러한 좋은 의술의 기본적 특징이 아닌 다른 것을 만들기 위해 너무 열심히 노력한 것은 아닌지 고민하게 됩니다. 그럼에도 불구하고 소수의 레지던트만을 대상으로 했기 때문에 향후 연구에서는 특히 지위와 전문성, 그리고 그것이 개인의 옹호 의지에 어떤 영향을 미칠 수 있는지에 대한 우리의 주제가 학습자에게도 적용되는지 살펴봐야 합니다. 마지막으로, 이번 연구 결과를 일반화할 수는 없지만, 이전에 밝혀지지 않았던 옹호 교육에 대한 장애물을 밝혀내어 졸업후 의학 교육 전반의 교육 및 평가에 유용한 정보를 제공할 수 있습니다. 
We had a nearly equal number of patient participants as MDs; given that, we acknowledge their voices were less prominent in the results than might have been expected. This is primarily because efforts to engage them in discussions of advocacy consistently led away from the physician role. While this is a limitation of our work, it is also a telling observation. It suggests that advocacy may not be expected of physicians by patients—at least not the kind typically described in medical education frameworks. But what they do expect is empathy, skilled listening, and compassionate communication, leading us to wonder if we have perhaps tried too hard to make HA something other than these fundamental characteristics of good doctoring. Regardless, because we only spoke with a few residents, future research should explore whether our themes, particularly about status and expertise and how they may impact an individual's willingness to advocate, also hold true for learners. Finally, while our findings are not generalisable, they shed light on previously underexplored impediments to advocacy training which may usefully inform teaching and assessment across postgraduate medical education.

6 결론
6 CONCLUSION

참가자들이 설명한 의료 및 시스템 수준의 지식, 효과적인 의사소통 기술, 환자 중심주의와 같은 역량 요건은 이전 연구와 공명하지만,27 우리의 연구 결과는 유능한 건강 옹호자가 되는 것이 무엇을 의미하는지, 학습자가 레지던트 수련 기간 동안 건강 옹호 역량을 달성하는 것이 현실적인지, 심지어 가능한지에 대한 몇 가지 가정에 도전합니다. 그러나 옹호가 환자 중심주의와 밀접하게 연관되어 있다는 것이 옳다면, 옹호에 대한 정의를 재정의하거나 충분한 커리큘럼적 관심을 기울이지 않는 것은 환자에게 해가 될 뿐만 아니라 의학의 철학적 토대를 약화시키는 일입니다. 모든 형태의 옹호는 교육 중에 탐구되어야 하지만, 환자에게 가치 있는 것으로 설명된 비방해적 요소에 우선순위를 두는 것이 교육을 간소화할 뿐만 아니라 치료를 최적화할 수 있다고 제안합니다. 환자의 목소리가 옹호와 관련된 역량보다 더 중요한 역량은 없을 것입니다. 우리는 환자가 의료 교육에 의미 있게 참여하는 데 방해가 되는 장벽을 제거하여 의료진 교육을 위한 협력적 교수법을 구축할 수 있는 기회를 모색해야 합니다. 
While the requisites for competence such as medical and systems-level knowledge, effective communication skills, and patient centredness described by our participants resonate with previous work,27 our findings challenge several assumptions both about what being a competent health advocate means, and whether it is realistic—or even possible—for learners to achieve competence in health advocacy during their residency training. However, if we are correct that advocacy is closely linked with patient centredness, failing to re-define or devote sufficient curricular attention to advocacy is not only a disservice to patients, but it undermines the philosophical underpinnings upon which medicine is built. While all forms of advocacy should be explored during training, we suggest that prioritising the non-disruptive elements described as valuable to patients would not only streamline training but also optimise care. There may be no set of competencies where the patient voice is more critical than those around advocacy. We need to explore opportunities to build a collaborative pedagogy for training HA, removing barriers that prevent patients from participating meaningfully in medical education.


Med Educ. 2021 Apr;55(4):486-495. doi: 10.1111/medu.14408. Epub 2020 Dec 9.

Exploring patients' and physicians' perspectives about competent health advocacy

Affiliations

1Department of Innovation in Medical Education and Department of Medicine, University of Ottawa, Ottawa, ON, Canada.

2Centre for Education Research & Innovation, Schulich School of Medicine and Dentistry, Western University, London, ON, Canada.

3Department of Oncology, Schulich School of Medicine and Dentistry, Western University, London, ON, Canada.

4Department of Surgery, Schulich School of Medicine and Dentistry, Western University, London, ON, Canada.

5Division of Medical Education, Dalhousie University, Halifax, NS, Canada.

PMID: 33152148

DOI: 10.1111/medu.14408

Abstract

Introduction: Many residency programmes struggle to demonstrate how they prepare trainees to become competent health advocates. To meaningfully teach and assess it, we first need to understand what 'competent' health advocacy (HA) is and what competently enacting it requires. Attempts at clarifying HA have largely centred around the perspectives of consultant physicians and trainees. Without patients' perspectives, we risk training learners to advocate in ways that may be misaligned with patients' needs and goals. Therefore, the purpose of our research was to generate a multi-perspective understanding about the meaning of competence for the HA role.

Methods: We used constructivist grounded theory to explore patients' and physicians' perspectives about competent health advocacy. Data were collected using photo elicitation; patients (n = 10) and physicians (n = 14) took photographs depicting health advocacy that were used to inform semi-structured interviews. Themes were identified using constant comparative analysis.

Results: Physician participants associated HA with disruption or political activism, suggesting that competence hinged on medical and systems expertise, a conducive learning environment, and personal and professional characteristics including experience, status and political savvy. Patient participants, however, equated physician advocacy with patient centredness, perceiving that competent HAs are empathetic and attentive listeners. In contrast to patients, few physicians identified as advocates, raising questions about their ability to train or to thoughtfully assess learners' abilities.

Conclusion: Few participants perceived HA as a fundamental physician role-at least not as it is currently defined in curricular frameworks. Misperceptions that HA is primarily disruptive may be the root cause of the HA problem; solving it may rely on focusing training on bolstering skills like empathy and listening not typically associated with the HA role. Since there may be no competency where the patient voice is more critical, we need to explore opportunities for patients to facilitate learning for the HA role.

정서적 학습과 정체성 발달: 대만과 네덜란드 의대생의 문화간 질적 비교 연구(Acad Med, 2017)
Emotional Learning and Identity Development in Medicine: A Cross-Cultural Qualitative Study Comparing Taiwanese and Dutch Medical Undergraduates
Esther Helmich, MD, PhD, Huei-Ming Yeh, MD, MPH, Chi-Chuan Yeh, MD, MEd, Joy de Vries, MSc,
Daniel Fu-Chang Tsai, MD, PhD, and Tim Dornan, MD, PhD

 

 

의사가 된다는 것은 새로운 직업적 정체성을 개발하는 것, 즉 의사로서 생각하고 행동하고 느끼는 법을 배우는 것을 의미합니다.1 직업적 정체성 형성이 의학교육의 궁극적 목표라는 인식이 증가하고 있지만,1 현재 이 과정에 대한 이해는 제한적입니다. 정체성 개발은 전문직업성 과실이 발생했을 때만 문제가 될 수 있습니다. 이러한 전문직업성 과실의 여파로, 학생들의 행동은 전문직 정체성에 기여하는 문화적으로 결정된 규범, 가치, 감정을 고려하지 않고 판단될 수 있습니다. 최근에 설명한 사례 중 하나는 네덜란드 의료 환경에서 시리아에서 수련받은 의사가 환자와의 공동 의사 결정에 적절히 참여하지 않은 경우입니다.2 의료 수련의의 정서적 경험과 특정 사회문화적 환경 내에서 이러한 경험과 정체성 발달 간의 상호 관련성을 더 잘 이해하면 멘토링이 보다 맞춤화되고 문화적으로 민감해져 특정 맥락에서 적절할 수도 있고 그렇지 않을 수도 있는 기본 가치를 구체적으로 다룰 수 있게 됩니다.3 또한 의료 전문가 정체성 형성의 문화 간 차이에 대한 더 많은 지식은 다른 국가와 문화에서 수련받은 의대생과 전문가에 대한 상호 이해를 개선하고, 세계화 시대에 이주하는 의사를 위한 재인증 절차에 정보를 제공할 수 있습니다.2 
Becoming a doctor means developing a new professional identity, or learning to think, act, and feel as a physician.1 Despite increasing recognition that professional identity formation is the ultimate goal of medical education,1 current understanding of this process is limited. Identity development may only become an issue when professionalism lapses arise. In the aftermath of such lapses, students’ behavior may be judged without taking into account the culturally determined norms, values, and emotions that contribute to professional identity. One such example, which we recently described,2 is the case of Syrian-trained physicians not adequately engaging in shared decision making with patients in the Dutch health care context.2 A better understanding of medical trainees’ emotional experiences and the interrelatedness between these experiences and identity development within specific sociocultural environments would allow mentoring to be more tailored and culturally sensitive, specifically addressing underlying values that may or may not be appropriate in a specific context.3 Moreover, more knowledge about cross-cultural differences in medical professional identity formation could improve mutual understanding of medical students and professionals trained in different countries and cultures, and may inform recertification procedures for migrating physicians in a globalizing world.2

정체성 형성에 영향을 미치는 가치와 감정을 탐구하기 위해, 우리는 근본적인 핵심 가치를 탐구함으로써 정체성 이론사회적 정체성 이론을 통합한 Hitlin4 이 제안한 개인 정체성 개념을 사용합니다. 이러한 핵심 가치는 개인적, 사회적, 문화적으로 동시에 강렬한 영향을 받습니다.4 무엇이 좋은 행동인지에 대한 핵심 가치와 개념은 도덕적 자아의 기초가 됩니다.4 따라서 개인적 또는 도덕적 정체성은 개인의 핵심이며, 따라서 매우 감정적일 수 있습니다. 첫 임상 경험을 하는 의대 1학년 학생을 대상으로 한 이전 경험적 연구에서 우리는 이미 정체성 발달과 감정 간의 상호작용을 탐구한 바 있습니다.5 
To explore the values and emotions that influence identity formation, we use the notion of personal identity as proposed by Hitlin,4 who brings together identity theory and social identity theory by exploring underlying core values. These core values are simultaneously intensely personal and socially and culturally influenced.4 Core values and conceptions of what is good behavior serve as a basis for the moral self.4 Thus, personal or moral identities are core to a person, and, therefore, can be highly emotional. In previous empirical work studying first-year medical students in their first clinical experiences, we have already explored this interplay between identity development and emotions.5

본 연구의 목적은 유럽과 아시아의 문화적 맥락에서 의과대학에서의 정서적 경험과 정체성 발달을 탐구하는 것이었습니다. 우리는 서양과 동양 문화의 도덕적, 사회적 힘이 의대생의 감정과 정체성 발달에 중요한 다른 방식으로 영향을 미친다고 제안했습니다.

  • 유대-기독교 전통에서 발전한 서구 생명윤리의 핵심 개념은 개인의 자율성입니다.6
  • 유교 사상에 기반한 동양 문화는 사회적 관계를 중시합니다.7,8

우리는 감정, 규범 및 가치의 경험과 표현에 있어 문화적 차이가 학생들이 의사가 되는 동안 다양하고 변화하는 정체성을 구성하는 방식에 영향을 미친다는 것을 발견할 수 있을 것으로 예상했습니다. 
The aim of the current study was to explore emotional experiences and identity development in medical school in European and Asian cultural contexts. We proposed that moral and social forces in Western and Eastern cultures affect medical students’ emotions and identity development in importantly different ways.

  • A central notion within Western bioethics, as developed in Judeo-Christian traditions, is autonomy of the individual.6 
  • Eastern cultures, which are built on Confucian thought, place a strong emphasis on social relationships.7,8 

We expected to find that cultural differences in the experience and expression of emotions, norms, and values affect how students construct their different and shifting identities while becoming a doctor.

방법
Method

윤리적 고려 사항
Ethical considerations

이 연구의 네덜란드 부분에 대해서는 네덜란드 의학교육협회의 윤리위원회에서 윤리적 검토를 받았습니다. 대만에서는 국립대만대학병원 윤리위원회로부터 윤리적 승인을 받았습니다. 
For the Dutch part of this study, ethical review was granted by the ethical board of the Dutch Association for Medical Education. In Taiwan, ethical approval was obtained from the ethical committee of National Taiwan University Hospital.

연구 패러다임
Study paradigm

이 연구의 주요 프레임워크는 사회문화적 프레임워크이며, 이는 정서적 경험을 사회적 실천에 내재된 것으로 개념화한다는 것을 의미합니다. 의학 학습은 임상 환경에서 사회적 행위자(환자, 간호사, 의사, 기타 학생 및 의료진), 인공물(준비물, 기구, 전자 환자 파일), 기호(언어)와의 상호작용을 통해 이루어지며, 이러한 사회적 관행은 역사적으로 형성됩니다.9,10 이러한 사회문화적 환경 속에서 학생들은 감정을 경험하고, 감정을 전달하고, 의미를 부여하는 방법을 배우게 됩니다. 감정은 개별적으로 느끼고 해석하지만, 의대생은 고유한 규범과 가치를 지닌 특정 의료 상황과 문화적 환경 내에서 어떤 감정을 경험하고 표현해야 하는지, 어느 정도까지 표현해야 하는지를 배우는 사회화된 사람입니다. 가치는 특정 상황과 관련이 있고 행동과 사건의 선택 또는 평가를 안내하기 때문에,4 이전 연구에서와 마찬가지로,5 학생들에게 감정적이라고 인식한 특정 경험에 대해 서술하고 반성하도록 요청했습니다. 
The main framework for this study is a sociocultural one, meaning that we conceptualize emotional experience as embedded in social practice. Learning medicine takes place in clinical settings during interaction with social agents (patients, nurses, doctors, and other students and health workers), artifacts (arrangements, instruments, electronic patient files), and symbols (language) over time; that is, these social practices are historically shaped.9,10 It is within these sociocultural environments that students experience emotions, learn to communicate them, and give meaning to them. While emotions are individually felt and interpreted, medical students are socialized persons who learn which emotions should be experienced and expressed, and to what extent, within specific medical contexts and cultural environments that have distinct norms and values. Because values pertain to specific situations and guide selection or evaluation of behavior and events,4 as in our previous study,5 we asked students to narrate and reflect on specific experiences that they perceived as being emotional.

참가자
Participants

현재 대만의 7년제 고등 의학 교육 프로그램에서는 5학년과 6학년에서 임상 실습이 이루어집니다. 대만에서는 5학년 학생들이 환자를 처음 경험하고 6학년 학생들은 환자와 더 깊이 접촉하게 됩니다. 7학년 학생들은 인턴십에 참여합니다. 네덜란드 학생들은 6년간의 수련 프로그램 중 4학년에 인턴십에 들어가며, 핵심적인 인턴십은 4학년과 5학년으로 예정되어 있습니다. 
In the present seven-year postsecondary medical education program in Taiwan, clerkships take place in Years 5 and 6. In Taiwan, Year 5 students have initial patient experiences and Year 6 students have deeper contacts with patients. Students in Year 7 are in internships. Dutch students enter clerkships in Year 4 of a six-year training program in which their core clerkships are scheduled in Years 4 and 5.

2014년 가을, 우리는 네덜란드와 대만 학생들 중 내과, 외과, 소아과, 안과, 가정의학과, 정신과 등 다양한 핵심 클락십에 등록한 학생들을 의도적으로 샘플링하여 현재와 이전의 다양한 직업 경험을 조사했습니다. 다양한 연령과 성별의 학생들이 참여하여 각 국가의 학생 코호트를 대표할 수 있도록 했습니다. 
In fall 2014, we purposively sampled Dutch and Taiwanese students who were enrolled in different core clerkships (i.e., internal medicine, surgery, pediatrics, ophthalmology, family medicine, and psychiatry), after having completed different clerkships in the months before, leading to a broad range of current and previous professional experiences. We included students across a range of age and gender, ensuring that the participants were representative of the student cohorts in the respective countries.

일반적으로 질적 연구, 특히 담론 분석에서 데이터의 양이 너무 많으면 분석의 질이 떨어질 수 있으므로, 한 번의 분석에 너무 많은 데이터가 포함될 수 있다는 점을 예상하면서도 최종 분석을 위해 데이터 세트를 줄이기 전에 각 국가에서 10~12명의 참가자가 충분하다고 선험적으로 결정했습니다. 
In qualitative research in general and discourse analysis in particular, a too-large amount of data may erode the quality of analysis, so we decided a priori that 10 to 12 participants from each country would be sufficient, anticipating that this would even lead to too much data for one analysis, but appreciating that this would offer a broad perspective to start with, before reducing the data set for final analysis.

데이터 수집
Data collection

데이터 수집의 주요 방법으로 오디오 일기를 사용했으며,11 학생들에게 다음 프롬프트를 사용하여 감정적 경험을 이야기하도록 요청했습니다: 무슨 일이 있었나요? 무엇을 느끼고/생각하고/행동했나요? 이것이 의사로서의 성장과 어떻게 상호작용하는가? 
We used audio diaries as the central method for data collection,11 asking students to narrate emotional experiences using the following prompts: What happened? What did you feel/think/do? How does this interplay with your development as a doctor?

오디오 일기는 대만 학생은 중국어로, 네덜란드 학생은 네덜란드어로 녹음했습니다. 대만 참가자들은 6학년 첫 4주(1~4주차) 동안 일주일에 최소 3번의 일기를 작성했습니다. 네덜란드 참가자들 역시 5학년 첫 4주 동안 매주 최소 3개의 오디오 일기 항목을 작성하도록 요청받았습니다. 두 그룹의 학생들을 대상으로 한 이 두 기간은 가장 직접적으로 비교할 수 있는 기간이었습니다. 
The audio diaries were recorded in Chinese by Taiwanese students and in Dutch by Dutch students. Taiwanese participants made at least three diary entries per week during the first four weeks (Weeks 1–4) of Year 6. Dutch participants were also asked to keep at least three audio diary entries per week in the first four weeks of Year 5. These two periods for the two groups of students were the most directly comparable.

오디오 일기 항목의 길이는 두 학생 샘플 간에 차이가 있었는데, 대만 학생들의 일기 항목이 네덜란드 학생들보다 훨씬 길어 네덜란드 학생들과 추가 인터뷰를 진행했습니다. 2014년 가을에 실시된 이 인터뷰는 40분에서 60분 정도 진행되었으며, 네덜란드 박사 과정 학생(J.d.V.)이 학생들에게 일기에 서술한 감정적 경험을 회상하고 그러한 감정과 사건에 대해 자세히 설명해 달라고 요청했습니다. 인터뷰에서 수집한 데이터는 일기에서 수집한 데이터와 다를 수 있지만, 후속 분석을 용이하게 하기 위해 대만 학생들에 비해 일기에 덜 반영된 것으로 보이는 네덜란드 학생들의 경험에 대한 이해를 풍부하게 하기 위해 의도적으로 이 추가 데이터 수집을 사용하기로 결정했습니다. 
The length of the audio diary entries differed between the two student samples, with Taiwanese diary entries being much longer than those of Dutch students, leading us to carry out additional interviews with Dutch students. These interviews, also conducted in fall 2014, lasted between 40 and 60 minutes and were carried out by a Dutch PhD student (J.d.V.), who asked students to recall the emotional experiences they narrated in their diaries and elaborate on those emotions and events. Although data collected in interviews may differ from those gathered in diaries, we deliberately chose to use this additional data collection to enrich our understanding of the experiences of the Dutch students, who appeared to be less reflective in their diaries than their Taiwanese colleagues, in order to facilitate subsequent analysis.

데이터 선택 및 번역
Selection and translation of data

앞서 언급한 바와 같이, 일반적으로 질적 연구와 담화 분석은 데이터가 너무 많으면 어려움을 겪을 수 있으므로 심층 분석을 위해 각 국가별로 5개의 일기만 포함하기로 결정했습니다. 양국의 연구팀은 먼저 각국의 10~12개 일기를 모두 원어로 녹음하고 녹취록을 읽으며 비판적으로 검토했습니다. 풍부하면서도 간결한 데이터 세트를 얻기 위해 각 지역 팀은 학생들이 정서적 경험과 정체성 발달과의 상호 작용을 가장 명확하게 서술하고 반영한 일기 5권을 선정했습니다. 이 일기들은 대만의 전문 번역 회사와 네덜란드의 의대생이 영어로 번역한 후 연구팀원들이 수정하거나 다듬었습니다. 참가자는 국가별(대만의 경우 "TW", 네덜란드의 경우 "NL")로 코딩되었고 번호가 부여되었습니다. 표 1은 참가자의 인구통계학적 세부 사항과 최종 데이터 세트에 대한 설명을 보여줍니다.  
As stated above, qualitative research in general and discourse analysis more specifically may suffer from too much data, so we decided that only 5 diaries for each country would be included for in-depth analysis. The research teams in both countries first critically reviewed all 10 or 12 diaries from each country in the original language, listening to recordings and reading through transcripts. To reach a rich but concise data set, each local team selected the 5 diaries in which students most explicitly narrated and reflected on emotional experiences and the interplay with identity development. These diaries were translated into English by a professional translation company in Taiwan and a medical student in the Netherlands and were corrected or refined by members of the research team. Participants were coded by country (“TW” for Taiwan or “NL” for the Netherlands) and a number. Table 1 shows demographic details of participants and a description of the final data set.

데이터 분석
Data analysis

우리는 이전 간행물에서 설명한 바 있는 바흐친의 담론 이론에 기원을 둔 비판적 담론 분석 유형을 사용했습니다.12 담론 방법론에는 다양한 스펙트럼이 있습니다. 대화 분석과 같은 미시 언어 분석13과 푸코주의 담화 분석으로 대표되는 거시 분석14은 스펙트럼의 반대편에 있다고 볼 수 있습니다. Gee15,16는 이러한 극단 사이에 위치한 일련의 담화 도구를 제공하여 문장과 단락 수준에서의 언어 선택전체 데이터 세트 내의 언어 사용 패턴이 어떻게 사회적 관행을 구성하는지에 주목했습니다. 이전 연구와 이번 연구에서는 사람들이 자신의 정체성을 구성하기 위해 사용할 수 있는 다양한 담론을 어떻게 사용하는지 조사하기 위해 피규어드 월드 이론17의 개념을 적용했습니다. 형상화된 세계는 규범, 가치, 언어, 감정, 관행과 관련하여 개인이 사회적 또는 "형상화된" 의학 세계 내에서 자신의 정체성을 어떻게 서술하고 구성하는지를 탐구하기 위해 이전에 의학교육에서 사용되었던 비판적 문화 이론입니다.12,18,19 이 이론을 의학교육에 적용할 때 정체성 형성은 네 가지 다른 "담론적 맥락"에서 이루어지며, 이는 사람들과 그들이 말하는 것이 정체성 형성의 가능성을 창출하는 방식으로 정의됩니다:

  • (1) 환자, 의료 서비스 제공자 및 기타 사람들에 의해 채워지는 '형상화된' 세계,
  • (2) 학생, 환자 및 기타 의학 세계의 '인물'에게 부여되는 위치 또는 지위,
  • (3) 사람들이 언어를 사용하여 '자기 저자화'하거나 스스로 특정 지위 또는 정체성을 만드는 방법,
  • (4) '세계 만들기' 또는 미래의 이상 세계를 상상하기 위해 언어를 사용하는 방법. 

We used a type of critical discourse analysis that has its origins in Bakhtin’s discourse theory as described in an earlier publication.12 There is a spectrum of discourse methodologies. Microlinguistic analysis, such as conversation analysis,13 and macroanalysis, typified by Foucauldian discourse analysis,14 can be regarded as opposite ends of the spectrum. Gee15,16 provided a set of discourse tools that sit between those extremes, directing attention to how choice of language at the level of sentences and paragraphs, and patterns of language usage within whole data sets, construct social practices. In our previous study, and in the current one, we applied concepts from Figured Worlds theory17 to investigate how people use different discourses available to them to construct their identities. Figured Worlds is a critical cultural theory, previously used within medical education to explore how individuals narrate and construct their identities within the social or “figured” world of medicine, relating to norms, values, language, emotions, and practices.12,18,19 Within this theory, as applied to medical education, identity formation takes place in four different “discursive contexts,” defined as how people and the things they say create possibilities for identity formation:

  • (1) a “figured” world, populated by patients, health care providers, and other people;
  • (2) positions, or status, granted to students, patients, and other “figures” in the world of medicine;
  • (3) how people use language to “self-author” or create specific positions or identities for themselves; and
  • (4) how they use language for “world making,” or imagining future ideal worlds.


분석 과정에는 감정적으로 두드러진 에피소드를 나타내는 텍스트 블록을 식별한 다음, 해당 텍스트를 에피소드 및 참여자별로 분석하여 개인 내 및 개인 간 반응 패턴을 탐색할 수 있도록 하는 작업이 수반되었습니다. 데이터 분석의 신뢰성과 공신력을 높이기 위해 네덜란드의 두 책임 연구원(E.H., J.d.V.)은 각 단계에서 내린 결정에 대해 수시로 논의했으며, 대만 팀이 별도로 검토하고 승인했습니다. 데이터 삼각 측량에 도달하기 위한 수단으로 각 팀은 정기적으로 원어로 된 전체 데이터 세트로 돌아갔습니다. 담화 분석은 참가자가 말하고자 하는 바를 이해하는 것이 아니라 경험에 대해 이야기하는 데 사용되는 언어를 연구하는 것이라는 전제에 따라, 참가자에게 다시 돌아가 구성원 확인을 하지 않았습니다. 데이터 분석 중에 내린 결정과 진화하는 해석은 숙련된 담화 분석가(T.D.)를 포함한 전체 팀원들과 Skype 회의에서 논의했습니다. 표 2와 도표 1은 데이터 분석의 단계와 사용된 템플릿을 보여줍니다. 

The analytical process entailed identifying blocks of text representing emotionally salient episodes, followed by analyzing those texts by episode and participant to allow the exploration of intraindividual as well as interindividual patterns of response. To enhance trustworthiness and credibility of data analysis, the two Dutch lead researchers (E.H., J.d.V.) frequently discussed the decisions made in each step of the process, which was then separately reviewed and approved by the Taiwanese team. As a means to reach data triangulation, each team regularly returned to the full data set, in the original language. Following the premise that discourse analysis is not about understanding what participants meant to say, but about studying the language used to talk about experiences, we did not return to participants for a member check. Decisions made during data analysis and the evolving interpretations were discussed in Skype meetings with the whole team, including an experienced discourse analyst (T.D.). Table 2 and Chart 1 show the steps of data analysis and the template used.

 

연구팀의 모든 구성원은 의료 전문가로서 교육을 받았으며, 두 명은 의학교육학 박사 학위를, 한 명은 유교 윤리학 박사 학위를 소지하고 있습니다. 대만인 팀원들은 모두 유럽이나 북미에서 일정 기간 동안 거주한 경험이 있습니다. 문화 간 이해를 돕기 위해 제1저자(E.H.)는 대만을 직접 방문하여 연구를 진행했습니다. 
All members of the research team have been trained as health care professionals; two members of the team hold PhDs in medical education (E.H., T.D.), and one is a professor in Confucian ethics (D.T.). The Taiwanese members of the team have all lived in Europe or North America for some amount of time. To further facilitate cross-cultural understanding, the first author (E.H.) made a study visit to Taiwan.

연구 결과
Results

상상의 세계
Figured worlds

양국의 참가자들은 피규어 세계에서의 많은 감정적 경험을 이야기했으며, 이는 직업적 정체성 형성에 큰 영향을 미쳤습니다.

  • 대만 참가자들은 다양한 의사, 간호사, 동료, 환자, 친척이 있는 생동감 넘치는 세계를 상상했습니다.
  • 반면 네덜란드 학생들은 한두 명의 지도 의사만 있는 학습 세계를 상상했습니다. 다른 의료 전문가, 환자, 친척은 네덜란드 학생들에게는 눈에 띄지 않는 인물이었습니다.
  • 대만 학생들의 이야기에는 저녁 식사 시간도 없이 열심히 일하고 헌신하는 의사, 학생들을 지원하고 감싸주는 간호사, 환자와 다투는 전문의 등 다양한 인물이 등장했으며, 일부 환자는 화를 내거나 무례하고 뻔뻔하며 귀찮고 불합리한 행동을 하는 반면, 다른 환자는 고마워하며 케이크를 선물로 가져오는 등 다양한 모습을 보여주었습니다.
  • 네덜란드 학생들은 주로 의사가 되기 위한 실질적인 측면을 이야기했으며, 특히 스킬 개발에 중점을 두었습니다. 직장에서 관찰한 것에 대한 이야기는 상대적으로 적었고, 의사가 되는 것이 어떤 것인지에 대한 성찰은 제한적이었습니다. 

Participants in both countries narrated many emotional experiences in the figured world of medicine, which strongly influenced their professional identity development.

  • Participants from Taiwan figured lively worlds with many different doctors, nurses, peers, patients, and relatives.
  • Dutch students, in contrast, figured learning worlds with only one or two supervising doctors. Other health professionals, patients, and relatives were less prominent figures for the Dutch students.
  • The rich variety of figures in the Taiwanese narratives included hard-working and dedicated doctors not having time for dinner, nurses supporting and covering for the students, and professionals quarreling with patients; some patients were angry or behaved in rude, shameless, troublesome, and unreasonable ways, while other patients were thankful and brought cakes as gifts.
  • Dutch students mostly narrated practical aspects of becoming a doctor, focusing particularly on skills development. They had relatively little to say about what they observed in workplaces, and provided only limited reflections on how it would be to be doctors themselves.

대만 학생들은 교사가 자신의 도덕적 발달에 어떤 영감을 주고 지원했는지 서술한 반면, 네덜란드 학생들은 의료 현장에서의 실제 경험과 의사가 구체적인 임상 역할을 어떻게 생각하는지에 대해 더 자주 서술했습니다:
Taiwanese students narrated how teachers inspired and supported their moral development, whereas Dutch students more often narrated their practical experiences in medical workplaces, and how doctors figured specific clinical roles:

학생으로서 다양한 선생님들로부터 자극을 받는다는 것은 놀라운 일입니다. 외부에서 오신 선생님들은 의료원 내 선생님들과는 전혀 다른 의견을 제시해 주십니다. 때로는 선생님들의 자극이 수업 내용을 뛰어넘을 때도 있습니다. (TW3)
As a student, it’s marvelous to receive some stimulation provided by different teachers. Teachers from outside will provide a completely different opinion from teachers in the medical center. Stimulation of the teachers surpasses the course content sometimes. (TW3)
일주일 내내 의사들이 그 작은 아이를 위해 당황하고 수백 가지를 시도하는 것을 보았습니다...... 그 아이를 위해 의사들이 쏟은 노력에 감명을 받았습니다. (NL2)
All week I had seen how the doctors puzzled and tried a hundred different things for that little child.… I was impressed by the effort the doctors put in [for] that child. (NL2)

포지션 정체성
Positional identities

두 나라의 참가자들은 임상 학생으로서 자신의 위치에 대해 어려움을 겪었으며, 환자 치료에 참여할 기회를 통해 장차 의사가 될 자신을 자리매김할 때 매우 행복하다고 느꼈습니다. 두 그룹 모두 자신을 가르치고 평가하는 임상 감독자와 관련된 자신의 위치에 대해 어려움을 토로했습니다.

  • 대만 참가자들은 네덜란드 참가자보다 임상 계층 구조에서 자신의 상대적 위치에 대해 더 많이 이야기했습니다. 대만 참가자들은 자신의 역할을 최소화하고 자신을 낮추며 작은 직책을 맡았습니다. 그들은 잘못을 저지르거나, 윗사람을 실망시키거나, 의료 실수를 하는 것을 두려워했습니다. 그들은 선생님을 높이 평가했으며, 선생님들이 자기 수양을 기르는 데 도움을 준 것에 대해 존경과 감사를 표했습니다.
  • 반면 네덜란드 참가자들은 자신을 낮은 위치에 두지 않았고 교육자에 대해 더 비판적이었습니다. 이들은 스스로를 양질의 교육을 받을 법적, 사회적 권리와 자율적으로 행동할 수 있는 충분한 기회를 가진 학습자로 인식했습니다. 그들은 병동에 있는 것에 대한 보상을 받을 자격이 있으며, 학습자이기 때문에 실수를 해도 괜찮다고 말했습니다.

Participants in both countries struggled with their positions as clinical students and felt extremely happy when opportunities to participate in patient care positioned them as doctors-to-be. Both groups described difficulties in their positions relative to clinical supervisors, who both taught and assessed them.

  • Taiwanese participants spoke more about their relative positions in the clinical hierarchy than did Dutch participants. Taiwanese participants minimized their roles, lowering themselves and constructing minor positions. They were afraid of doing things wrong, disappointing elders, and making medical errors. They held their teachers in high esteem, expressing respect and gratitude for how teachers helped them cultivate self-discipline.
  • Dutch participants, in contrast, constructed less lowly positions for themselves and were more critical toward their educators. They identified themselves as learners with legal and social rights to high-quality teaching and ample opportunities for autonomous action. They said they should be entitled to rewards for being on the wards and that being a learner made it acceptable to make mistakes.

대만과 네덜란드의 참가자들은 수술 중 리트랙터를 잡는 것과 같은 불리하고 비참여적인 직책에 대해 이야기했습니다. 반면에 이러한 사회적 위치가 때때로 학습 기회를 제공하기도 했습니다:
Participants in both Taiwan and the Netherlands talked about unfavorable, nonparticipatory, positional identities, such as holding retractors during surgery. On the other hand, such social positions sometimes afforded learning opportunities:

그 과정에서 제가 한 일은 리트랙터를 잡는 것이었습니다. 다행히도 저는 이 수술을 명확하게 볼 수 있었습니다. 선배는 수술 내내 설명을 해주었습니다. 전체 과정이 느리기 때문에 선배는 저를 가르칠 시간이 많았습니다. 다른 선배도 자세히 설명해 주셨어요. (TW1)
What I did in the process was hold a retractor. Fortunately, I had a clear view of this surgery. The senior explained throughout the surgery. Because she was slow in the whole process, she had a lot of time to teach me. Another senior also had a lot of time to tell me the details. (TW1)
팀 내에서 제가 맡은 역할이 전혀 없었고, 이미 역할이 분담되어 있었기 때문에 제가 할 필요가 없었기 때문에 소생술 중에 정확히 어떤 일이 일어나는지 침착하게 지켜볼 수 있었습니다. (NL2)
I absolutely fulfilled no role within the team, and I wasn’t necessary because the roles were already divided, so I could, uh, yes, pretty calmly watch what happens exactly during a resuscitation. (NL2)

직책의 정체성과 이에 대응하는 방식은 두 나라 모두 비슷했지만, 네덜란드 참가자의 직책에는 어느 정도 자율성이 부여되는 경우가 더 많았습니다:
Although the positional identities and the ways participants responded to these were comparable in the two countries, Dutch participants’ positions more often gave them a measure of autonomy:

가장 좋았던 점은 제가 뉴스를 전할 수 있다는 것이었습니다. (NL1)
What I considered the nicest part was that I was allowed to tell the news. (NL1)

네덜란드 참가자들은 환자를 의존적이고 도움이 필요한 존재로 포지셔닝하는 경향이 있었습니다. 환자의 자기 결정 능력에 대해서는 언급하지 않았습니다. 반면 대만 참가자들은 환자를 배울 것이 많은 능동적인 주체로 포지셔닝했습니다. 대만 참가자들은 환자에 대해 분노와 조급함을 드러내고 환자들의 행동에 좌절감을 느끼는 경우도 있었습니다. 그들은 환자들이 무례하고 학생, 사무원, 레지던트, 병원 관리자 등 지위가 낮은 사람들에게 비난을 퍼붓는 것에 대해 이야기했습니다. 
Dutch participants tended to position patients as dependent and needing help. They did not refer to patients’ capacity for self-determination. Taiwanese participants, in contrast, positioned patients as active agents from whom they had much to learn. On other occasions, Taiwanese participants displayed anger and impatience toward patients and felt frustrated by their behavior. They spoke of how patients were rude and placed blame on people with low status, such as students, clerks, residents, and hospital administrators.

자기 저작
Self-authoring

형상화된 정체성과 지위적 정체성은 주로 사회 구조와 다른 사람들의 대리인에 의해 결정되는 반면, 개인이 자율적인 사회적 행위자로서 주체성을 행사할 수 있는 것은 자기 저작을 통해서입니다. 대만과 네덜란드 참가자들이 자신의 정체성을 저작하는 방식에는 상당한 차이가 있었습니다. 이러한 차이는 자기 수양, 자율적 행동의 가능성, 의료 수련생으로서의 자기 결정에 대해 이야기하는 방식에서 분명하게 드러났습니다. 
Whereas figured and positional identities are largely determined by social structures and other people’s agency, it is by self-authoring that individuals are able to exercise agency as autonomous social actors. There were significant differences between how Taiwanese and Dutch participants authored their identities. These differences were apparent in how they spoke about self-cultivation, their possibilities for autonomous action, and their self-determination as medical trainees.

양국의 참가자들은 스스로를 환자에 대한 연민, 취약한 사람들을 돌보고자 하는 강한 의지, 강하고 유능한 직업적 정체성을 개발하는 사람으로 묘사했습니다. 

  • 대만 참가자들은 좋은 의사가 된다는 것이 무엇을 의미하는지에 대해 더 풍부한 언어를 사용하는 경향이 있었습니다. 
  • 네덜란드 참가자들은 성취와 경쟁에 초점을 맞춘 보다 제한된 정체성을 작성했습니다. 
  • 의사가 되는 과정에서 두 나라 참가자들은 서로 다른 유형의 자율성을 작성했습니다. 
    • 네덜란드 참가자들은 자율적인 행동과 '실제적인' 참여를 통해 자율성을 형성한 반면, 
    • 대만 참가자들은 자기 수양과 강력한 직업적 가치관 개발을 통해 자율성을 형성했습니다. 
    • 네덜란드 학생들은 교육 시스템이 제공하는 더 많은 참여적 위치에서 능동적이고 자기 통제적인 정체성을 스스로 만들어갈 가능성이 더 높았습니다:

Participants from both countries authored themselves as compassionate toward patients, having a strong wish to care for vulnerable people, and developing strong and competent professional identities. Taiwanese participants tended to use richer language to author what it means to be a good doctor. Dutch participants authored a more limited identity focused on achievement and compe tence. In the process of becoming a doctor, participants from the two countries authored different types of autonomy. Dutch participants authored autonomous action and “hands-on” participation, while Taiwanese participants authored autonomy through self-cultivation and developing strong professional values. From the more participatory position afforded by their education system, Dutch students were more likely to self-author an active and self-regulating identity:

"예스"라고 말할 수 있는 순간이었습니다. 제가 하는 일에 자신감이 생겼고, 일이 잘 풀렸고, 제 스스로 해냈어요. 인턴십 기간 동안 이런 일을 더 자주 처리하고 싶어요! 제가 직접 일을 책임지고 진행했기 때문에 무슨 일이 일어나고 있는지 통제할 수 있었어요. 정말 기분이 좋았어요! (NL5)
This was such a “yes” moment. I felt confident about what I was doing, and it went well, and I did it on my own. I want to handle it like this more often during my internships! I myself was responsible for what was happening, and therefore I did have the control about what was happening. It was a great feeling! (NL5)

대만 참가자들의 역량에 대한 자기 주도적 평가는 개인적인 성취보다는 환자에게 도움이 되는 방향으로 이루어졌습니다:
Taiwanese participants’ self-authoring of competence was less directed toward personal achievement and more toward benefiting patients:

제가 질문을 더 잘하는 것도 장점이기 때문에, 전임자들이 할 수 없었던 많은 것을 환자에게서 배울 수 있었습니다. 그러다 보니 자연스레 성취감도 커졌어요. 또한 제가 가진 지식으로 환자가 자신의 질병에 대해 더 잘 알 수 있도록 도울 수 있어서 기쁩니다. (TW4)
The fact that I’m better at asking questions is also a plus, so I was able to learn a lot of things from the patient that my predecessors weren’t able to. This gave me a great sense of fulfillment naturally. I’m also glad to be able to help the patient learn more about his own illness with my knowledge. (TW4)

세상 만들기
World making

문화적 가치이상적인 세계를 구성하는 담론, 특히 의사-환자 또는 학생-교사 관계에 관한 담론에서 가장 두드러졌습니다. 예를 들어, 의사가 나쁜 소식을 전할 때 매우 신중해야 하는 이유를 설명할 때 환자의 자기 결정권에 대한 명시적인 표현을 발견한 것은 대만 참가자들의 이야기에서만 발견할 수 있었습니다: 
Cultural values were most apparent in discourse that constructed ideal worlds, particularly regarding doctor–patient or student–teacher relationships. It was only in the narratives of the Taiwanese participants that we found explicit speech about self-determination of patients—for example, when they explained why doctors should be very careful in breaking bad news:

환자와 아버지는 이 말을 듣고도 의사에게 감정적으로 반응하지 않는 것 같았지만, 저는 놀랐습니다...... 앞으로 의사가 된다면 환자에게 나쁜 소식을 재치 있게 전해야겠습니다. 예를 들어 병명을 영어로 적어서 건네주면 "아, 이건 진행성 경화증이에요."라고 직접 말하지 않고 인터넷으로 확인할 수 있게 할 수 있을 것 같아요. 환자들이 상황을 알고 정신적으로 대비할 수 있도록 힌트를 줄 수 있는 방법이 있다고 말하고 싶습니다. (TW5) 
The patient and his father did not seem to respond to the doctor emotionally upon hearing these words, though I was astonished.… When I become a doctor in the future, I shall break bad news to my patients tactfully. For instance, I could write down the name of the disease in English and hand it to them, so that they would be able to check online instead of having me tell them directly, like, “Oh this is progressive sclerosing disease.” I would say there are possible ways to give hints to the patients, so that they would know the situation and be prepared mentally. (TW5)

저희는 전문적인 경험을 통해 환자의 자율성과 공동 의사 결정이 네덜란드 의료 담론에서 중요한 이상이라는 것을 알고 있지만, 네덜란드 참가자들의 이야기에는 이러한 내용이 표현되지 않았습니다.
Although we know from our own professional experience that patient autonomy and shared decision making are valued ideals in the discourse of Dutch health care, this was not expressed in the narratives of our Dutch participants.

양국의 참가자들은 환자와의 적절한 관계를 발전시키고 미래의 세계에서 좋은 의사와 교사가 되는 방법을 담론적으로 탐구했습니다: 
Participants in both countries discursively explored how to develop appropriate relationships with patients and become good doctors and teachers in future worlds:

환자가 아무리 사랑스러워 보여도 의사와 환자 사이에는 분명한 경계가 있어야 합니다. 정신과에서는 특히 이런 명확한 선을 유지하는 것이 중요합니다. 나는 의사요, 당신은 환자입니다. 이 점은 우리가 끊임없이 상기해야 하는 부분입니다. 우리는 항상 그 선의 존재를 기억하고 잘 그려야 합니다. 올바른 방식으로 선을 그릴 수 있다면 그것은 거의 예술이 될 것입니다. (TW4)
There needs to be a fine line between doctor and patient, no matter how lovely the patient may seem. Maintaining this kind of clear line is especially important in the Psychiatry Division. I’m a doctor, you’re a patient—this is something we constantly have to remind ourselves of. We must always remember the existence of the line, and draw it well. If you’re able to draw the line in just the right way, it almost becomes an art. (TW4)
오늘 배운 것은... 인턴을 감독할 때... 인턴도 사소한 실수를 할 수 있고 그것은 인턴에게 충분히 짜증나는 일이며 즉시 화를 내지 않으면 정말 편안하고 강인한 것이 좋다는 것입니다. (NL2)
What I’ve learned from today is when … I’m going to supervise interns … that even interns can make little mistakes and it’s annoying enough to them and it’s really comfortable if you don’t immediately get mad at them and it’s good to be strong. (NL2)
감명 깊게 읽었던 책이 생각나네요.... 이 얘기를 꺼낸 이유는 저도 저 스스로를 선한 사람이라고 생각하기 때문인데요, 더 정확히 말하면 누구도 차별받지 않고 정의롭고 공평하기를 바라는 사람입니다. (TW5)
I could recall a book that touched me very much.… The reason why I mentioned this is because I consider myself a beneficent person, too; or, to be more accurate, I am a person hoping for justice and fairness for everyone, and no one should be discriminated. (TW5)

대만과 네덜란드의 학생들은 거의 동일한 문제를 다루었지만 언어, 자료, 성찰 방식은 달랐습니다.
Students in both Taiwan and the Netherlands addressed largely the same issues but used different language, resources, and ways of reflecting.

토론
Discussion

의대생은 의사가 되는 과정에서 자신이 들어가게 될 세계, 타인에게 부여되고 허용되는 지위, 스스로 구상하는 정체성, 미래에 대해 상상하는 '이상적인' 세계에서 비롯된 많은 감정을 경험합니다. 문화마다 학생들은 서로 다른 세계와 서로 다른 미래의 정체성을 상상하며, 학생과 환자 모두의 자율성에 대한 서로 다른 문화적 구성을 반영하고 이에 반응합니다.  
In the process of becoming a doctor, medical students experience a lot of emotions originating from the figured worlds they are entering, the positions they are granted and allow to others, the identities they envision for themselves, and the “ideal” worlds they imagine for the future. In different cultures, students imagine different worlds and different future identities, reflecting and responding to different cultural constructs of both student and patient autonomy.

기본 가치
Underlying values

네덜란드가 서구 세계 전체나 북서유럽 전체를 대표할 수 없고, 대만이 아시아 또는 동아시아 전체를 대표할 수는 없겠지만, 우리의 연구 결과는 두 가지 주요 도덕 체계를 반영하는 몇 가지 기본 가치로 우리를 안내합니다: 서양의 생명윤리와 중국의 유교. 교육과 실습을 통해 학생들은 좋은 행동에 대한 다양한 가치와 개념을 배우고 관찰하며, 이를 통해 도덕적 자아를 발달시킬 수 있습니다. 
Although the Netherlands can by no means represent the whole Western world, or even the entirety of Northwest Europe, and Taiwan will never be able to represent the whole Asian or East Asian world, our findings lead us into some underlying values reflecting two different major moral systems: Western bioethics and Chinese Confucianism. During education and practical training, students learn about and observe different values and conceptions of what is good behavior, which will result in the development of a moral self.

자율성과 도덕적 발달.
Autonomy and moral development.

우리는 자율적인 사회적 행위자로서 참가자들이 두 가지 맥락에서 주체성을 행사하는 방식에서 상당한 차이를 발견했습니다.
We found significant differences in how participants, as autonomous social actors, exercised agency in the two contexts.

연구에 참여한 네덜란드 학생들은 성취와 역량에 중점을 두었습니다. 그들은 의료 전문가이자 유능한 커뮤니케이터로서 환자를 돌볼 수 있는 숙련된 의사가 되기 위해 필요한 자율적 행동 '실제' 실습 참여의 중요성을 강조했습니다. 그들은 스스로를 자율적이고 자기 조절적 학습자로 규정하고, 좋은 의사가 되기 위해 필요한 기술과 이를 추구하는 방법에 대한 명확한 아이디어를 가지고 있습니다. 경험적 증거에 따르면 실제 실습에서 네덜란드 학생들은 종종 자기조절 학습에 완전히 참여하지 못하는 경우가 많지만,20 학생들의 내러티브는 역량 또는 성과 기반 의료 교육21, 자기 주도적 또는 자기조절 학습22, 합리적이고 자의식적이며 자율적인 개인에 대한 (서구) 문화적 이상에 대한 현재의 지배적인 담론을 분명히 기반으로 하고 있습니다.6,23,24 
Dutch students in our study strongly focused on achievement and competence. They emphasized the importance of autonomous action and participation in “hands-on” practice, which is needed to become a skilled doctor who, as a medical expert and competent communicator, is able to care for patients. They authored themselves as autonomous, self-regulating learners, having clear ideas about the skills needed to be a good doctor and how to pursue those. Although empirical evidence shows that Dutch students in real practice are often not able to engage fully in self-regulated learning,20 the narratives of the students clearly build upon current dominant discourses around

  • competence or outcomes-based medical training21;
  • self-directed or self-regulated learning22; and
  • the (Western) cultural ideal of the rational, self-conscious, autonomous individual.6,23,24

대만 학생들은 교사가 제공하는 영감과 도덕 교육, 환자가 공유하는 삶의 경험과 지혜를 높이 평가하면서 반성적 관찰에 더 많이 참여하는 것으로 나타났습니다. 그들의 연설에는 좋은 사람, 좋은 의사가 되기 위한 근본적인 도덕적 가치를 반영하는 매우 풍부한 언어가 포함되어 있었으며, '선한 일'을 하고 사회에 기여하기 위해 명시적으로 노력했습니다. 언뜻 보기에는 의료 수련생으로서의 자기 결단이 잘 드러나지 않을 수 있지만, 실질적인 기술 교육보다는 도덕적 발달에 중점을 두는 것은 자율성을 표현하는 또 다른 방식이라고 할 수 있습니다. "최근 대만의 의학교육 개혁에서는 '좋은 의사가 되기 전에 좋은 사람이 되는 것'이 공통적으로 강조되고 있습니다. 대만 사회의 문화적 가치는 도덕적 자기 수양과 사회 정치적 복지 증진에 헌신하는 이타적 신사, 즉 '춘제'를 양성하는 것을 교육 목표로 삼는 유교 철학의 영향을 많이 받았습니다.24 고대 중국 의료 윤리의 대표적인 슬로건인 '전신전수'("인의예지, 인술")는 유교 윤리의 토대를 충분히 반영하고 있습니다. 스승을 공경하고 ''('바른 도리')를 준수하는 것 또한 어릴 때부터 일반적으로 가르치는 유교 속담입니다. 대만 학생들의 반성문에서 "착한 일 하기", "사회에 기여하기", "스승에 대한 감사"를 강조하는 이유도 이 때문일 수 있습니다. 유교 철학의 특징인 덕 윤리는 이러한 '좋은 의사' 양성에 대한 성찰에 당연히 기여합니다.
Taiwanese students were found to engage more in reflective observation, highly valuing the inspiration and moral education provided by teachers and the life experience and wisdom shared by patients. Their speech contained very rich language, reflecting underlying moral values related to becoming both a good person and a good doctor, explicitly striving for “doing good,” and contributing to society. Although their self-determination as medical trainees might be less visible at first sight, the emphasis on moral development rather than on practical skills training can be considered a different way of expressing autonomy. “Being a good person before becoming a good doctor” has been commonly emphasized in recent medical education reform in Taiwan. The cultural values of Taiwanese society are much influenced by the Confucian philosophy whose educational goal is to cultivate altruistic gentlemen, “chun-tze,” who are committed to both moral self-cultivation and social-political welfare promotion.24 A distinctive and representative slogan of ancient Chinese medical ethics, “jen-hsin-jen-shu” (“a heart of humaneness, the skill of humaneness”), reflects fully its foundation of Confucian ethics. Respecting teachers and adhering to the “dao” (“the righteous way”) is also a Confucian saying generally taught since childhood. This might explain partly why the reflective narratives of Taiwanese students so much emphasized “doing good,” “contributing to society,” and “appreciating teachers.” The virtue ethics characteristic of Confucian philosophy understandably contributes to such “good doctor” cultivation reflection.

자율성과 관련성.
Autonomy and relatedness.

의사와 환자의 자율성에 대한 참가자들의 서로 다른 문화적 구성은 자기 결정권을 다른 사람과의 관계에서 어느 정도 찾았습니다. 

  • 대만 학생들의 일기에는 다른 사람에 대한 언급이 많았고, '우리'에 대한 이야기가 많이 나왔습니다. 반면
  • 네덜란드 학생들은 '나'를 더 자주 언급하고 개인의 성취에 더 중점을 두는 것으로 나타났습니다.
  • 대만 학생들은 교사, 학교 선후배, 임상 감독자, 환자 등 다양한 사람들을 언급했습니다. 대만 학생들은 네덜란드 학생들보다 다른 사람의 역할, 특히 환자에 대한 자신의 역할에 대해 훨씬 더 많이 반영하고 있었습니다.

Participants’ different cultural constructs of physician and patient autonomy located self-determination to a greater or lesser extent in relationships with other people. In the Taiwanese diaries, there was a lot of reference to other people, and a lot of “we” talk. In contrast, Dutch students seemed to refer more often to “I,” and place more emphasis on their personal achievement. Taiwanese students included many different people, such as teachers, older schoolmates, clinical supervisors, and patients. They were reflecting much more about the role of other people, and in particular their role toward patients, than Dutch students did.

유교 윤리에는 이와 관련이 있을 수 있는 몇 가지 기본 가치가 있습니다. 타오25는 "중국인의 사고에서 개인은 결코 독립된 개체로 인식되지 않으며, 항상 다른 사람들과의 관계에서 각각 특정한 역할을 하는 네트워크의 일부로 간주된다"는 Liang의 관찰을 인용합니다. Tu26는 고전적 유교적 의미의 '자아'는 관계의 중심이자 영적 발전의 역동적 과정이라고 주장합니다. 차이24는 또한 유교적 인격 개념을 수직적 차원(자율적이고 자기 수양적인 인격)과 수평적 차원(관계적이고 이타적인 인격)의 두 가지 차원으로 해석합니다. 관계적 인격체 개념은 대만의 의사-환자 관계에서 중요한 역할을 합니다.24 따라서 대만 학생들은 네덜란드 학생들보다 성찰 일기에 다른 구성원을 더 많이 포함시켰으며, 그들의 정체성을 단순히 "나"가 아닌 "우리"의 사고에 더 많이 표현한 것으로 생각할 수 있습니다. 대인 관계는 대만 그룹에서 두드러진 특징이 되었습니다. 
There are certain underlying values in Confucian ethics that might be relevant here. Tao25 quotes Liang’s observation that “[i]n the Chinese thinking, individuals are never recognized as separate entities; they are always regarded as part of a network, each with a specific role in relation to others.” Tu26 argues that “self” in the classical Confucian sense is both the center of relationships and a dynamic process of spiritual development. Tsai24 also interprets the Confucian concept of persons as two-dimensional—the vertical dimension (the autonomous, self-cultivating one) and the horizontal dimension (the relational, altruistic one). The concept of relational personhood plays an important role in the Taiwanese doctor–patient relationship.24 Therefore, it is conceivable that Taiwanese students included other members in their reflective diaries more than their Dutch counterparts, and their identities expressed were more in the thinking of “we” rather than merely “I.” The person-in-relationship became a distinctive feature in the Taiwanese group.

이는 대만 학생들이 나쁜 소식을 전하는 것에 대해 이야기할 때 언급했던 것과도 관련이 있습니다.

  • 네덜란드에서는 환자의 자율성, 정직성, 공동 의사 결정과 같은 윤리적 또는 직업적 규범과 가치관이 바탕이 되어 매우 나쁜 진단이라도 환자에게 직접 솔직하게 공개할 수 있습니다.
  • 대만에서는 환자를 가족과 더 넓은 사회 집단의 일원 또는 관계에 있는 사람으로 간주하는 근본적인 가치관이 다르기 때문에 항상 '제3의 목격자'를 두고 가족을 통해 간접적으로 나쁜 소식을 전하게 됩니다

This also pertains to what Taiwanese students mentioned in their narratives about breaking bad news.

  • In the Netherlands, underlying ethical or professional norms and values, such as patient autonomy, honesty, and shared decision making, lead to a frank disclosure of even a very bad diagnosis directly to the patient as an individual.
  • The underlying values in Taiwan are different, pertaining to the patient as a member of their family and broader social group, or a person-in-relationship, which results in always having a “third witness” in the room, and breaking bad news indirectly—for example, via family members.

네덜란드 학생들은 인간관계에 대한 언급이 많지 않았고, 노골적인 도덕적 발언을 하지도 않았습니다. 그럼에도 불구하고, 특히 자아를 형성하고 세상을 만들어가는 과정에서 다른 사람을 돌보고 싶다는 강한 의지를 표명했으며, 이는 실제로 책임을 지는 데 필요한 역량을 개발해야 한다는 의미로 표현되었습니다.
Dutch students did not make much reference to relationships, nor did they make explicit moral statements. Nevertheless, in particular in their self-authoring and world making, they expressed a strong wish to care for other people, phrased as the need to develop the competence needed to actually take responsibility.

의학교육에 대한 시사점
Implications for medical education

학생들의 내러티브는 의학적 실천의 창으로 간주될 수 있습니다. 세계 여러 지역의 의학교육 시스템을 자세히 연구함으로써 우리는 다양한 윤리 시스템, 다양한 문화적 가치, 그리고 다른 사회에서 의사가 된다는 것 또는 훌륭한 의료 전문가가 된다는 것이 무엇을 의미하는지에 대해 많은 것을 배울 수 있습니다. 이러한 이해는 전 세계의 전문직에 대한 관념에 영향을 미치는 다양한 가치를 설명하고, 전문직 정체성 형성이 어떻게 작동하고 상황에 따라 어떻게 영향을 받는지에 대한 통찰력을 넓힘으로써 의학교육 분야를 발전시키는 데 도움이 될 수 있습니다. 이는 문화적 차이에 대한 인정과 인식을 향상시키고, 예를 들어 반성적 관찰과 능동적 참여의 어포던스를 고려할 때 문화에 특화된 개입의 개발을 촉진할 수 있는 잠재력을 가지고 있습니다. 본 연구는 특히 서로 다른 근본적인 문화적 가치와 관련된 두 가지 학습 방법의 가치를 명확하게 보여줍니다. 우리는 두 나라의 학생과 의학교육자 모두가 서로에게서 배울 수 있다고 제안하고 싶습니다. 네덜란드 학생들의 학습 과정은 중등학교나 의과대학에서 윤리 교육을 강화하고 좋은 의사가 된다는 것이 무엇을 의미하는지에 대한 토론을 유도함으로써 더욱 심화될 수 있습니다. 성찰에 쉽게 참여하고 자신의 생각과 가치를 표현하는 데 능숙하지만 임상 환경에서 주체성이 떨어지는 대만 학생의 경우, 경험 학습에 더 집중하면 학습 과정을 향상시킬 수 있습니다.
Student narratives can be considered a window to medical practice. By engaging in a detailed study of medical education systems in different parts of the world, we can learn a lot about different ethical systems, about different cultural values, and about what it means to become a doctor or to be a good medical professional in different societies. These understandings may help advance the medical education field by explicating the different values that inform notions about professionalism all around the world and by broadening our insight into how professional identity formation works and how it is influenced by context. This has the potential to enhance the recognition and appreciation of cultural differences and stimulate the development of culture-specific interventions—for example, in considering the affordances of reflective observation versus active participation. The present study clearly shows the value of both ways of learning, especially related to different underlying cultural values. We would like to suggest that both students and medical educators from the two countries can learn from each other. The learning process of students in the Netherlands might be deepened by providing more ethical education in secondary school or medical school, and by provoking discussion about what it means to be a good doctor. For Taiwanese students, who easily engage in reflection and are very good at expressing their thoughts and values, but who show less agency in the clinical environment, more focus on experiential learning might enhance their learning process.

향후 연구를 위한 제한점 및 제안
Limitations and suggestions for future research

직업 정체성 개발은 분명히 상황에 따라 다릅니다. 본 연구는 두 개의 다른 국가에서 이 과정과 그 기본 가치에 대한 자세한 연구를 제공합니다. 연구 결과는 이러한 유형의 담론 분석에서 흔히 볼 수 있는 다소 작은 데이터 세트를 기반으로 하지만, 심층적인 접근을 가능하게 합니다. 우리의 해석은 강력한 이론적 프레임워크의 사용과 연구팀원들의 격렬한 토론과 현장 방문을 통해 정보를 얻었습니다. 그러나 제1저자가 네덜란드인(E.H.)이므로 본 논문의 결과 발표는 부득이하게 서구의 관점에서 이루어질 수밖에 없습니다. 예를 들어, 저(E.H.)는 자율성에 대해 생각할 때 네덜란드의 의료 실무 및 의학교육에 대한 배경과 경험을 바탕으로 생각하며, 이러한 개인적인 이해를 참고 자료로 사용할 것입니다. 대만인 제1저자는 유교 철학을 설명하는 것으로 시작하여 이 도덕 체계의 핵심 개념 중 하나를 참조로 선택했을 수 있습니다. 따라서 다른 문화권의 정체성 발달에 대한 이해를 높이기 위해서는 다른 국가와 문화권, 다른 연구팀, 다른 제1저자와 함께 더 많은 연구를 수행할 필요가 있다고 생각합니다.2 
 
Professional identity development clearly is context-specific. Our research provides a detailed study of this process and its underlying values in two different countries. Our results are based on a rather small data set, which is typical for this type of discourse analysis, but allows for an in-depth approach. Our interpretations were informed by the use of a strong theoretical framework and by intense discussions and site visits by members of the research team. As the first author is Dutch (E.H.), however, the presentation of the results in this paper unavoidably will be from a Western perspective. When I (E.H.), for example, think about autonomy, I do so from my Dutch background and experience in medical practice and medical education, and will use this personal understanding as a point of reference. A Taiwanese first author might have started with describing Confucian philosophy, and might have chosen one of the core notions from this moral system for reference. Therefore, we suggest that more research needs to be done in different countries and cultures, with different research teams and with different first authors, to further increase our understanding of identity development in different cultures.2


Acad Med. 2017 Jun;92(6):853-859. doi: 10.1097/ACM.0000000000001658.

Emotional Learning and Identity Development in Medicine: A Cross-Cultural Qualitative Study Comparing Taiwanese and Dutch Medical Undergraduates

Affiliations collapse

1E. Helmich is senior researcher, Center for Education Development and Research in Health Professions, University Medical Center Groningen, University of Groningen, Groningen, the Netherlands.H.-M. Yeh is assistant professor, Department of Anesthesiology, National Taiwan University Hospital, Taipei, Taiwan.C.-C. Yeh is attending physician, Department of Medical Education/Department of Surgery, National Taiwan University Hospital, Taipei, Taiwan.J. de Vries is a PhD student, Center for Evidence-Based Education, Academic Medical Center/University of Amsterdam, Amsterdam, the Netherlands.D.F.-C. Tsai is professor, Research Institute of Medical Education & Bioethics, National Taiwan University College of Medicine, and attending physician, Department of Medical Research, National Taiwan University Hospital, Taipei, Taiwan.T. Dornan is professor, School of Medicine, Dentistry and Biomedical Sciences, Queen's University, Belfast, United Kingdom.

PMID: 28353499

DOI: 10.1097/ACM.0000000000001658

Abstract

Purpose: Current knowledge about the interplay between emotions and professional identity formation is limited and largely based on research in Western settings. This study aimed to broaden understandings of professional identity formation cross-culturally.

Method: In fall 2014, the authors purposively sampled 22 clinical students from Taiwan and the Netherlands and asked them to keep audio diaries, narrating emotional experiences during clerkships using three prompts: What happened? What did you feel/think/do? How does this interplay with your development as a doctor? Dutch audio diaries were supplemented with follow-up interviews. The authors analyzed participants' narratives using a critical discourse analysis informed by Figured Worlds theory and Bakhtin's concept of dialogism, according to which people's spoken words create identities in imagined future worlds.

Results: Participants talked vividly, but differently, about their experiences. Dutch participants' emotions related to individual achievement and competence. Taiwanese participants' rich, emotional language reflected on becoming both a good person and a good doctor. These discourses constructed doctors' and patients' autonomy in culturally specific ways. The Dutch construct centered on "hands-on" participation, which developed the identity of a technically skilled doctor, but did not address patients' self-determination. The Taiwanese construct located physicians' autonomy within moral values more than practical proficiency, and gave patients agency to influence doctor-patient relationships.

Conclusions: Participants' cultural constructs of physician and patient autonomy led them to construct different professional identities within different imagined worlds. The contrasting discourses show how medical students learn about different meanings of becoming doctors in culturally specific contexts.

임상환경에서 문화가 학습, 실천, 정체성 발달에 영향을 주는 방식에 대한 시야 넓히기(Med Educ, 2021)
Widening how we see the impact of culture on learning, practice and identity development in clinical environments
Dale Sheehan1 | Tim J. Wilkinson2

 

감각을 개발하고 특히 보는 법을 배우세요. 모든 것이 다른 모든 것과 연결되어 있다는 것을 깨달으십시오. (레오나르도 다빈치)
Develop your senses—especially learn how to see. Realize that everything connects to everything else. (Leonardo Da Vinci)

1 소개
1 INTRODUCTION

세기가 바뀌면서부터 보건 전문 교육 학자들은 임상 학습 환경에 점점 더 많은 관심을 갖게 되었고, 직장 환경에서 무엇이 학습에 도움이 되고 방해가 되는지 이해하기 위한 연구를 진행했습니다. 환경, 사회적, 물리적 측면, 감독자의 역할, 학습자의 주체성 등 직장이 제공하는 어포던스를 파악하는 데 중점을 두었습니다. 이 모든 것은 학습 환경이 제공하는 기회를 극대화하는 데 목적이 있습니다. 사회문화적 관점,1,2 직장 학습 이론,3-5 상황 학습6 및 상황성 이론7의 수용은 이러한 노력을 뒷받침해 왔습니다. 이번 자아, 사회 및 상황에 대한 과학 현황 시리즈의 일환으로, 우리는 상황을 보다 폭넓게 바라보는 방법과 문화가 이에 어떤 영향을 미칠 수 있는지에 초점을 맞춥니다.  
Since the turn of the century, health professional education scholars have become increasingly interested in the clinical learning environment, positioning research to understand what helps and hinders learning in workplace settings. The focus has included uncovering the affordances that the workplace offers: the environment, social and physical aspects; the role of the supervisor; and the agency of the learners. These are all aimed at maximising the opportunities the learning environment presents. The embracing of sociocultural perspectives,1, 2 workplace learning theory,3-5 situated learning6 and situativity theory7 have supported these endeavours. As part of this State of the Science series on Self, Society and Situation, we focus on how we might see the situation more broadly and how culture might influence this.

먼저 용어에 대한 몇 가지 설명을 드리겠습니다. '상황'이란 임상 학습 환경을 의미합니다. 임상 학습 환경 자체에 대한 정의는 쉽지 않지만, 저희의 목적상 학습이 이루어지는 모든 임상 업무 환경을 포함하며, 이러한 의도적으로 넓은 관점에는 실무자와 수련의에게 학습 경험을 제공하면서 주로 업무(의료 서비스 제공)에 중점을 두는 환경뿐만 아니라 업무에 중점을 두지 않는 환경도 포함될 수 있습니다. 여기에는 학부 및 대학원 교육뿐만 아니라 지속적인 실습 단계의 교육도 포함됩니다. 또한 모든 의료 전문직을 포함하는 것으로 보고 있습니다. 일부에서는 '일'과 '학습'을 분리하려고 하지만, 저희는 보다 통합적인 관점을 취합니다. 2019년이 되어서야 개인적 요소, 사회적 요소, 조직적 요소(조직 문화 포함), 물리적 공간, 가상 공간을 강조하는 학습 환경의 개념적 틀이 제안되었습니다.8 마찬가지로 문화도 정의에 저항해 왔습니다.9 역량과 마찬가지로 문화는 보건 전문가 교육에서 '신의 용어'가 될 수 있습니다.10 링가드는 '신 용어의 위험은 반복적인 사용과 친숙함을 통해 자연스럽고 보편적이며 필연적인 현실의 질서를 암시하게 된다는 점'이라고 경고합니다.10 이러한 용어를 구분하는 것은 낯설게 만들고, 이를 뒷받침하는 동기를 발굴하며, 적응적이고 유연한 담론을 위한 공간을 여는 작업입니다.10 그러나 이 백서 뒷부분에서 논의하는 최근 연구는 문화의 구성 요소를 명확히 하고 있습니다.
First, some clarification of terms are made. By ‘situation’, we refer to clinical learning environments. The clinical learning environment itself has resisted definition but for our purposes includes any clinical workplace where learning occurs—this deliberately wide view encapsulates environments that primarily focus on work as well as those that are focused on work (the delivery of health care services), while providing learning experiences for practitioners and trainees. It includes undergraduate and postgraduate training as well as ongoing practice stages of training. We also see this as including all health professions. Some try to separate ‘work’ from ‘learning’, but we take a more integrated view. It was not until 2019 that a conceptual framework of the learning environment was proposed, which highlighted a personal component, a social component, an organisational component (including the organisational culture), physical spaces and virtual spaces.8 Likewise, culture has resisted definition.9 Culture, like competence, may have become a ‘God term’ in health professional education.10 Lingard warns us that ‘the danger with God terms is that, through repeated use and familiarity, they become suggestive of a natural, universal and inevitable order of reality.10 Teasing them apart is an exercise in making them unfamiliar, excavating the motivations that underpin them, and opening space for an adaptive and flexible discourse’.10 However recent work, which we discuss later in this paper, has clarified components of culture.

보건 전문 교육자들이 보건 환경에서 일하는 동안 개인이 학습하는 방식에 대한 생각을 어떻게 발전시켜왔는지 요약합니다. 임상 작업장 환경에서의 학습에 관한 새로운 논의를 검토합니다. 최근에 우리는 문화와 학습 환경에 미치는 영향에 관한 다른 사람들의 연구에 경각심을 불러일으킨 관찰 연구를 자체 연구에 포함하기로 결정했습니다. 우리는 우리의 성찰을 공유하고 조직 문화와 문화의 더 넓은 측면이 자주 언급되지만 덜 자주 탐구되는 요소라는 결론을 내리는 예시적인 사례 연구를 제공합니다. 실무와 연구에 대한 시사점을 논의합니다. 
We summarise how health professional educators have evolved their thinking about how individuals learn while working in health environments. We review the emerging dialogue concerning learning in clinical workplace environments. Recently, we moved to include observational studies in our own work which has alerted us to the work of others around culture and its impact on learning environments. We share our reflections and offer illustrative case studies concluding that organisational culture and wider aspects of culture are factors that are often mentioned but less often explored. We discuss the implications for practice and research.

2 우리가 아는 것
2 WHAT WE KNOW

이제는 시대에 뒤떨어진 관점에서는 학습이 가르치는 내용에 의해 통제될 수 있다고 주장했습니다. 이후 학습자의 자율성과 신뢰를 반영하는 학습 성과로 초점이 옮겨졌습니다. 이후 직장에서의 학습이 처음 생각했던 것만큼 예측하기 어렵다는 사실을 깨닫고 감독자의 역할에 더 중점을 두게 되었습니다. 이로 인해 수퍼바이저는 학습 내용을 통제하거나 관리하는 데 도움을 줄 수 있으며, 학습자가 학습을 하지 않는다면 이는 학습자, 수퍼바이저 또는 dyad에게 문제가 있다는 견해로 이어졌습니다. 이후 직업 교육사회 학습 패러다임이라는 더 넓은 분야의 영향을 받은 연구에서는 학습 환경과 학습자의 학습 환경에 대한 경험에 주목했습니다. 예를 들어, 우리는 자체 연구와 Stephen Billett과의 협력을 통해 임상 환경에 대한 학습자의 경험과 학습의 필수 요소인 참여를 지원하기 위해 감독자가 할 수 있는 일을 조사했습니다.11 우리는 실무 커뮤니티 내에서 학습이 어떻게 발생하는지 고려하고6 직장이 학습자에게 무엇을 제공하고 이것이 워크플로와 물리적 환경에 의해 어떻게 영향을 받는지 이해하는 데 관심을 갖게 되었습니다.4, 11, 12 이 연구는 모든 역량을 포괄할 수 있도록 학습 결과를 업무 경험에 매핑하려는 시도와 대조적으로 진행됩니다. 당시의 개념은 학습 환경을 둘러싼 문화를 기껏해야 통제할 수 없는 것으로, 최악의 경우 무시해야 할 것으로 간주했습니다. '숨겨진 커리큘럼'이라는 용어는 학습 환경의 부정적 영향과 동의어로 여겨질 정도로 부정적으로 여겨지기도 했습니다.13 집단 따돌림은 이러한 부정적 영향 중 하나에 초점을 맞추었지만, 여기에서도 의대생 괴롭힘 문제를 해결하려면 의사에 초점을 맞춰야 하고, 간호대생 괴롭힘 문제를 해결하려면 간호사에 초점을 맞춰야 한다는 제한적이고 비전문적인 렌즈를 통해 바라보려는 경향을 보였습니다. 실제로 괴롭힘 문화는 환경 문화를 반영하는 것으로, 여러 분야에 걸쳐 발생하는 경우가 많습니다. 예를 들어 의대생은 의사보다 간호사에게 괴롭힘을 당할 가능성이 더 높거나 더 높습니다.14  
A now outmoded view contended that learning could be controlled by what is taught. The focus then moved to learning outcomes, reflecting greater agency and trust in the learner. Later developments followed the realisation that learning in workplaces is not as predictable as first thought so there was a greater focus on the role of the supervisor. This led to the view that the supervisor could help control or manage what is learnt and if the trainee was not learning, then somehow it was either a problem with the trainee, the supervisor or the dyad. Influenced by the wider field of vocational education and social learning paradigms, later research turned attention to the learning environment and learners' experiences of those environments. As an example, in our own research and working with Stephen Billett, we investigated learners' experiences of the clinical environment and what supervisors could do to support participation as an essential ingredient for learning.11 We considered how learning occurred within communities of practice6 and became interested in understanding what the workplace afforded learners and how this was influenced by workflows and the physical environment.4, 11, 12 This work contrasts with trying to map learning outcomes to work experiences to ensure that every competency is covered. Conceptualisations at that time came to view the culture surrounding the learning environment as, at best, out of control and, at worst, something to be ignored. It was often seen as negative—adapting the term the ‘hidden curriculum’, which came to be seen as synonymous with the adverse impacts of the learning environment.13 Bullying became a focus of one of these adverse impacts, but even here we tended to view this through a limited, uniprofessional, lens—to fix the bullying of medical students, we need to focus on the doctors; to fix the problems of bullying nursing students, we needed to focus on nurses. In fact, a bullying culture is more a reflection of the environmental culture and often occurs across disciplines—for example, medical students are just as, or more, likely to be bullied by a nurse than by a doctor.14

좋은 견습생, 좋은 감독자, 좋은 학습 환경을 만드는 요인을 탐구한 연구에서 몇 가지 핵심 메시지를 제시했습니다.15-17
As research explored what made a good apprentice, a good supervisor and a good learning, environment it offered some key messages.15-17

  • 학습자 참여가 핵심입니다.
  • 환경은 학습 기회를 제공함으로써 교육을 수행하지만, 이는 슈퍼바이저가 지원해야 합니다.
  • 학습자가 주체성과 발언권을 갖기 위해서는 업무 압박, 인적 요인 및 오류를 유발할 수 있는 기타 영향의 영향을 인정하면서 안전한 환경이 필요합니다.
  • 학습 환경을 직접 관찰하면 팀 커뮤니케이션을 이해하여 학습 이벤트가 발생하는 위치를 파악하고 전문가 간 협업이 이루어지는 방식과 장소를 탐색하는 데 도움이 됩니다.
  • Learner participation is the key.
  • The environment does the teaching by affording opportunities for learning, but this needs to be supported by the supervisor.
  • In order for learners to have agency and a voice, they need safe environments while acknowledging the impacts of work pressure, human factors and other influences that could lead to errors.
  • Direct observation of learning environments helps gain an understanding of team communication to see where learning events happen and to explore how and where interprofessional collaboration occurs.


이 논문은 사물이 서로 연결되어 있다는 것을 깨닫는 데 도움이 되는 감각을 개발해야 한다는 레오나르도 다빈치의 인용문에서 시작되었습니다. 우리는 더 넓은 기관의 요소를 포용하고, 환자 치료 및 임상 학습 모델에 영향을 미치는 조직의 가치와 문화를 인식하고 인정하여 이를 외면하거나 무시하지 않고 함께 일하며, 성찰과 관찰을 통해 암묵적인 것을 가시화하고 문화에 대한 다양한 관점을 포용할 필요가 있다고 제안합니다.
Our paper started with a quote from Leonardo Da Vinci who suggests we need to develop our senses to help us realise that things connect to each other. We suggest there is a need to embrace the wider institution factors, recognise and acknowledge an organisation's values and culture as they impact on models of patient care and clinical learning in order to work with these, not around them or ignore them, to make what may be tacit visible through reflection and observation and to embrace a range of perspectives on culture.

3 새로운 대화
3 THE EMERGENT DIALOGUE

학습 환경의 개념적 틀은 정책, 리더십 행동, 규제 기관 및 인증의 영향을 포함한 조직 문화의 역할을 강조했습니다.8 이와 함께 질 향상 분야의 저자들은 보건의료 조직 문화를 '의료 서비스 조직의 눈에 잘 띄지 않는 부드러운 측면과 이것이 진료 패턴에서 어떻게 나타나는지'에 대한 은유로 설명했습니다.18 이 연구는 학습 환경 작업의 범위를 넓혀 조직 문화가 보건의료 실무에 미치는 영향과 따라서 특정 학습 환경에서 제공되는 어포던스(또는 그렇지 않은)를 탐구해야 할 필요성을 강조합니다. 두 가지 관점 모두 특히 학습자가 자신의 전문적 정체성을 만들고 창조하기 위해 노력할 때 '문화'가 감독자와 학습자에게 미치는 영향을 상기시켜 줍니다.
A conceptual framework of the learning environment highlighted the role of organisational culture including the impact of policies, leadership actions, regulatory bodies and accreditation.8 Alongside this, authors in quality improvement have described health care organisation culture as a metaphor for ‘the softer less visible aspects of health service organisations and how these become manifest in patterns of care’.18 This work highlights the need to broaden the scope of learning environment work to explore the impact of organisational culture on health care practices and therefore the affordances (or not) offered in specific learning environments. Both perspectives remind us of the impact of ‘culture’ on the supervisor and learner, particularly as learners strive to create and create their professional identities.

이제 수련자와 슈퍼바이저가 속한 더 넓은 조직의 영향, 이것이 학습에 미치는 영향, 그리고 이것이 보건 서비스, 도시, 지역 및 국가에 따라 어떻게 달라지는지에 대한 관심이 떠오르고 있습니다. 이러한 제도적 요인을 탐구하는 과정에서 의학교육자들에게 '문화를 불러일으키기'를 권유한 Bearman 등의 비판적 검토는 시의적절합니다.19 이들의 연구에 따르면 의학교육자들은 문화에 대해 자주 언급하지만 대개 부정적이거나 중립적인 자세로 언급하는 것으로 나타났습니다. 이들은 '교육자, 학생, 행정가에게 권한을 부여하는 문화에 대한 개념이 현저히 부재'하지만 동시에 사회적 환경과 관행의 영향력을 인정하고 있음을 발견했습니다.19 
What is now emerging is an interest in the impact of the wider organisation in which a trainee and a supervisor are situated, how this impacts on learning and how this varies across health services, cities, regions and countries. As part of exploring these institutional factors, a critical review by Bearman et al. is timely in its invitation to medical educators to ‘invoke culture’.19 Their work revealed that medical educators comment on culture frequently but usually negatively or from a neutral stance. They found that there is a ‘notable absence around conceptualisations of culture that allow educators, students and administrators agency’ but at the same time acknowledge the influence of social settings and practices.19

Watling 등은 문화에 대한 세 가지 관점, 즉 조직, 정체성, 실천을 인정하는 프레임워크를 제시합니다.9

  • 조직 관점조직 내에서 개인을 묶는 공유된 가정과 가치를 강조합니다.9
  • 정체성 관점은 개인이 자신을 보는 방식을 형성하는 공동의 내러티브의 힘을 강조합니다.9
  • 실천 관점활동인적-물적 네트워크 또는 배열을 강조합니다.9 

Watling et al. offer a framework that recognises three perspectives on culture: organisational, identity and practice.9 

  • The organisational perspective highlights the shared assumptions and values that bind individuals within an organisation.9 
  • The identity perspective highlights the power of communal narratives to shape how individuals see themselves.9 T
  • The practice perspective highlights activity and human-material networks or arrangements.9

우리는 이러한 관점을 수용하거나 조정했으며, 세 가지 관점 모두에 공통점이 있음을 인식하면서 각각에 대해 예시적인 사례 연구와 잠재적인 탐구 프로그램을 제공합니다. 이러한 관점 내에서 그리고 이러한 관점을 넘나들며 작업하면 다른 연구를 보완하거나 다른 보건 연구자들과 파트너십을 맺고 학제 간 협력자와 함께 혼합 방법 접근법을 설계할 수 있는 기회를 제공할 가능성이 매우 높습니다. 그림 1은 학습 환경의 문화가 다층적이고 다요인적이라는 것을 보여주는 개념적 관점을 제공하는 것을 목표로 합니다. Watling 등의 관점에9 사회, 교육 제공자 및 직업 자체와 관련된 문화를 추가했습니다.
We have embraced or adapted these perspectives, and for each, we offer illustrative case studies and potential programmes of enquiry while recognising there is a common thread across all three. Working within and across these perspectives is very likely to complement other work and or provide opportunities for partnerships with other health researchers and to design mixed-methods approaches with interdisciplinary collaborators. Figure 1 aims to provide a conceptual view illustrating that the culture of a learning environment is multilayered and multifactorial. To Watling et al.'s perspectives,9 we have added the cultures associated with society, the education provider and the profession itself.

개인은 즉각적인 상황의 문화, 일반적으로 진료 배치, 특히 임상 팀의 문화를 가장 잘 알고 있지만 여기에는 물리적 배치, 작업 리듬, 작업 도구 또는 장비(인공물)도 포함됩니다.11 그러나 이러한 배치는 의료 서비스의 조직 문화와 사회 자체의 문화에 영향을 받습니다. 이러한 모든 요소와 상호 작용하는 것은 직업 및 교육 제공자의 문화입니다. 그러나 가장 중요한 것은 이러한 문화가 반드시 일치하는 것은 아니며,20 이러한 문화를 조정하는 것은 개인에게 긴장을 유발할 수 있다는 것입니다.
The individual will be most aware of the culture of the immediate situation, commonly the practice placement, particularly the clinical team, but this also includes the physical layout, the rhythms of work and work tools or equipment (artefacts).11 However such placements will, in turn, be influenced by the organisational culture of the health service and that of society itself. Interacting with all these factors are the cultures of the profession and the education provider. Most importantly however, these cultures will not necessarily be aligned,20 and reconciling such alignments can cause tension for individuals.

4 조직 문화
4 ORGANISATIONAL CULTURE

조직 문화사고 방식, 어떤 지식이 가치 있고 일반적으로 받아들여지는지, 지식이 어떻게 사용되는지,21 그리고 의료 환경 내에서 환자 치료가 어떻게 제공되는지에 대한 가정을 형성합니다. 조직의 문화는 비전, 사명, 가치, 리더십 모델, 자금 및 계획 모델, 직무 설계, 성과 관리, 팀워크, 혁신, 갈등 해결 방법, 슈퍼비전, 임상 리더십 및 관리 스타일에 의해 영향을 받습니다.22 베어만 등은 또한 '문화'라는 용어의 기본 개념이 움직일 수 없는 문화에서 사용 가능하고 유연한 문화까지 연속선을 따라 존재한다고 지적했습니다.19 우리는 학습에 있어 후자가 해당된다고 생각하여 조직과 협력하여 학습 문화를 발견, 개발 및 개선할 수 있기를 희망합니다. 
Organisational culture shapes assumptions about ways of thinking, what knowledge is worthwhile and commonly accepted, how knowledge will be used,21 and within health care settings, how patient care is delivered. An organisation's culture is influenced by its vision, mission, values, leadership models, funding and planning models, job design, performance management, teamwork, innovation, methods for conflict resolution, supervision, clinical leadership and managerial styles.22 Bearman et al. also noted that the underlying conceptions of the term ‘culture’ sit along a continuum: from culture as immoveable to culture as usable and malleable.19 We would like to think that the latter is true for learning so that we could partner with organisations to uncover, develop and improve its learning culture.

학부 및 대학원 프로그램에 소속된 임상 교육자만이 근로자의 주체성을 개발하기 위해 노력하는 것은 아닙니다. 교육에 주로 관여하지 않는 조직에서도 문화가 지식 공유 행동23 및 지식 관리와 밀접한 관련이 있다는 몇 가지 증거를 확인한 것은 고무적입니다.21, 24 조직은 안전한 환자 치료를 보장하고 신기술과 새로운 기술을 수용하기를 원합니다. 또한 역량과 역량을 위한 기술을 구축하고 전문가 간 이해를 발전시키기를 원합니다. 교육 기관과 의료 서비스 사이에 공생이 가능하다는 생각은 새로운 것은 아니지만,25 학습 환경에서 시너지 효과를 확인하고 숨겨진 커리큘럼에 반하는 것이 아니라 협력할 수 있는 미충족 기회가 있다는 것을 시사합니다. 이는 의료 서비스를 지식 개발의 파트너, 전문가 간 치료 및 협력 진료의 협력자, 모두를 위한 안전하고 건강한 환경을 보장하는 파트너, 환자 치료 결과를 개선하는 파트너로 포용하는 것입니다. 
Clinical educators attached to undergraduate and postgraduate programmes are not the only ones working to develop agency in workers. Here it is encouraging to see some evidence that, even for organisations not primarily involved in education, culture is strongly associated with knowledge-sharing behaviour23 and with knowledge management.21, 24 Organisations want to ensure safe patient care and to embrace new technology and new skills. They want to build skills for competence and capability and develop interprofessional understandings. The idea that there could be symbiosis between an education organisation and a health service is not new,25 but it does suggest there are unmet opportunities to identify synergies in learning environments; to work with and not against the hidden curriculum. This would embrace health services as partners in knowledge development, a collaborator for interprofessional care and collaborative practice, a partner in ensuring safe and healthy environments for all, and a partner to improve patient outcomes.

각 조직은 서로 다른 기회를 제공할 가능성이 높으며, 이러한 기회를 설명하고 이해하면 기회를 더 잘 활용할 수 있습니다. 예를 들어, 의료 서비스 기관은 스스로를 학습하는 조직이라고 설명하는 경우가 많으며 품질 개선 전문가, 전문 개발 직원, 웰빙 실무자 등 관련 팀을 보유하고 있습니다. 이러한 팀은 '공식적인' 교육의 목표에 부합하는 학습 및 업무 문화 목표를 구현하는 임무를 맡고 있습니다. 더 넓은 렌즈를 사용하여 사물이 서로 어떻게 연결되어 있는지 파악하는 것이 업무 환경 분석에서 포착되어야 합니다. 
Each organisation is likely to offer different opportunities; describing and understanding those opportunities could help us make better use of them. For example, health service organisations often describe themselves as learning organisations and have relevant teams, such as quality improvement specialists, professional development staff, and well-being practitioners. These teams are tasked with implementing goals for learning and work culture that align to those of ‘formal’ education. Using a wider lens and seeing how things connect to each other should be captured in our analyses of workplace environments.

조직 문화를 설명하는 사례 연구
Case study to illustrate the organisational culture

영국에서 파운데이션 수련의의 처방 오류 원인에 대한 심층 조사를 실시한 결과,26 뉴질랜드의 두 보건 서비스에서도 비슷한 문제를 인식했습니다. 약사가 처방 오류를 발견했지만 전문가 간 협업 문화가 없었기 때문에 의사-약사 협업을 통해 이러한 오류를 예방할 수 없었습니다. 두 의료 서비스의 교육 부서는 질 향상 약사와 협력하여 일상적인 상호작용에서 의사와 약사 간의 전문직 간 협업을 활용하여 효과적인 처방을 촉진하는 방법을 모색했습니다.27-29 약사는 질 향상 전문 지식을, 교육 부서는 직장 학습 및 전문직 간 교육에 대한 전문 지식을 가져와 문제를 해결했습니다. 서로 협력한 결과 오류 감소뿐만 아니라 협업 문화도 개선되었습니다.27-29 
In response to an in-depth investigation in the United Kingdom into causes of prescribing errors by foundation trainees,26 two health services in New Zealand recognised a similar problem. Prescribing errors were detected by pharmacists, but there was not a culture of interprofessional collaboration, so preempting such errors through doctor–pharmacist collaboration did not occur. The education units of both health services partnered with quality improvement pharmacists and explored ways to leverage the interprofessional collaboration between doctors and pharmacists in their everyday interactions to promote effective prescribing practice.27-29 The pharmacists brought their quality improvement expertise, and the education units brought expertise in workplace learning and interprofessional education to address the problem. They partnered with each other and found not only a reduction in errors but also an improvement in collaborative culture.27-29

한 사이트는 다른 사이트에 비해 더 큰 영향을 미쳤습니다.28 학습자와 교육자의 질적 인터뷰 데이터는 그 이유에 대한 통찰력을 제공하고 전수 가능성 및 조직 문화에 관한 귀중한 교훈을 제공했습니다. 효과가 가장 컸던 현장에는 시뮬레이션에 대한 높은 수준의 지원을 제공하는 시뮬레이션 유닛이 있었고, 병동 기반 전문가 간 코칭에 대한 사전 경험이 있었습니다. 공유된 임상 리더십과 의료 서비스 코드 설계 및 개선 학습에 대한 헌신은 조직의 목표였습니다. 따라서 두 서비스 간의 강력한 협업 문화와 함께 프로그램을 수행하기 위한 전제 조건이 있는 직장 환경과 문화를 갖추고 있었습니다. 다른 사이트는 그 효과가 적었고, 돌이켜보면 시행 전에 더 많은 교육과 브리핑이 필요하다는 것을 깨달았습니다. 
There was greater impact at one site compared with the other.28 The qualitative interview data from learners and educators provided insight into why and offered a valuable lesson regarding transferability and organisational culture. The site with the greatest effect had a simulation unit that provided a high level of support for the simulations, as well as prior experience of interprofessional ward-based coaching. Shared clinical leadership and a commitment to codesign of health services and improvement learning were espoused organisational goals. It therefore had a workplace environment and culture with prerequisites for undertaking the programme with a strong culture of collaboration between the two services. The other site had a lesser effect and retrospectively we realised that it needed to undertake more training and briefing prior to implementation.

이중 사이트 구현을 통해 업무 환경과 문화적 요인이 사이트마다 다를 수 있으며, 광범위하게 구현하려면 이를 예상해야 한다는 사실을 깨닫게 되었습니다. 모든 사이트에는 고유한 실행 강점과 과제가 있습니다. 
Dual-site implementation reminds us that workplace contextual and cultural factors will vary across sites and any widespread implementation needs to anticipate this. All sites have their own implementation strengths and challenges.

5 실천 문화
5 PRACTICE CULTURE

실천 문화는 종종 의료팀 수준에서 나타납니다. 한 팀에서 받아들일 수 있는 규범, 기대치, 일반적인 관행이 다른 팀에서는 받아들여지지 않을 수 있습니다.30 이는 때때로 '여기는 이렇게 한다'라는 문구로 요약됩니다. 이러한 문화는 대개 팀의 선임 간호사나 선임 의사와 같은 선임 멤버에 의해 설정됩니다. 각 팀마다 고유한 특성과 프로토콜이 있으며, 모든 프로토콜이 명시적이거나 팀원들이 명확히 알 수 있는 것은 아닙니다. 이러한 특수성을 이해하고 이를 명시하는 것이 효과적인 슈퍼비전의 중요한 전제 조건인 것으로 밝혀졌습니다.30 또한 이러한 특수성은 직장이 제공하는 어포던스, 즉 학습할 수 있는 내용을 형성합니다. 마찬가지로 물리적 배치, 사용 가능한 장비, 자연스러운 업무 리듬은 모두 학습에 영향을 미치지만 장소마다 상당히 다릅니다.11 이러한 차이가 존재하지 않는다고 가정하기보다는 이러한 차이를 더 명확하게 만들어서 어떻게 작용하는지 이해할 수 있는 방법을 찾아야 합니다. 이는 교육 프로그램을 확장하거나 다른 센터에 프로그램을 배포할 때 특히 중요합니다.
Practice culture is often manifest at the health care team level. Trainees often notice this—the norms, expectations and common practices that are acceptable in one team may be less acceptable in another.30 This is sometimes encapsulated in the phrase ‘this is how we do things here’. Such a culture is often set by a senior member of the team—a senior nurse or senior doctor. Each team has its idiosyncrasies and protocols—not all of which are explicit or even able to be enunciated by the team members. Understanding these idiosyncrasies and making them explicit has been found to be an important prerequisite to effective supervision.30 They also shape what affordances the workplace offers and therefore what can be learnt. Likewise the physical layout, the equipment that is available and the natural rhythm of workplace practices are all influential on learning yet vary considerably from place to place.11 Rather than pretend these variations do not exist, we need to find ways to make them more explicit so that we can then understand how they act. This is particularly important when scaling up an education programme or rolling out a programme to other centres.

실습 환경을 설명하는 사례 연구
Case studies to illustrate the practice environment

  1. 수퍼바이저 트레이너인 저자 중 한 명(박사)은 수퍼바이저 교육 과정 중 참가자들이 자신의 학습 환경을 감사하도록 요청받은 실습을 감독했습니다. 참가자들은 한 발 물러서서 학습 환경으로서 자신의 직장을 관찰하고 성찰하여 배치의 학습 기회를 파악하도록 요청받았습니다. 이는 직장 커리큘럼 매핑4의 개념에서 파생된 활동이었지만 보다 미시적인 수준에서 수행되었습니다. 교육에 참여한 감독자들은 익숙한 환경을 새로운 시각으로 바라보는 것의 가치를 높이 평가하면서 이 활동이 도움이 되고 눈을 뜨게 하는 활동이라고 보고했습니다. 수업 시간에는 장애물을 공유하고 해결책을 찾기 위해 노력했습니다.
    As a trainer of supervisors one of the authors (D. S.) oversaw an exercise within a supervisor training course where participants were asked to audit their learning environment. They were asked to step back, observe and reflect on their workplace as a learning environment to identify the learning opportunities of the placement. This was an activity drawn from the concept of mapping the workplace curriculum4 but undertaken at a more microlevel. Supervisors in training reported this as a helpful and an eye-opening activity, appreciating the value of looking at a familiar environment through a change of lens. In class they shared barriers and worked on solutions for workarounds.
  2. 학습 환경을 직접 관찰한 결과 학습은 종종 '한입 크기'(한 번에 1분 미만)로 이루어졌으며, 업무의 성격과 리듬으로 인해 특정 장소와 특정 시간에 발생할 가능성이 더 높았습니다.11
    Direct observation of a learning environment uncovered learning often occurred in ‘bite-sized’ pieces (<1 min at a time) and were more likely to occur in specified places and at particular times due to the nature and rhythm of work.11
  3. 조산사 배치 현장 두 곳의 경험 경로와 교육적 특성을 매핑하여 조산사 커리큘럼이 프로그램의 의도된 학습 결과를 실현하는 특정 교육적 관행에 의해 어떻게 주문되고 보강될 수 있는지 파악했습니다.12 두 가지 실습 기반 경험은 학생들에게 뚜렷한 학습 결과를 만들어 냈습니다.
    The pathways of experiences and pedagogic properties of two midwifery placement sites were mapped to identify how the midwifery curriculum could be ordered and augmented by particular pedagogic practices that realise the program's intended learning outcomes.12 The two different practice-based experiences generated distinct learning outcomes for the students.

수퍼바이저는 조직의 문화에 영향을 받기도 하고 기여하기도 하며, 종종 순환적이고 상호 의존적인 방식으로 영향을 주고받습니다. 수퍼바이저는 현지 문화에 몰입되어 있기 때문에 수퍼비전에 대한 암묵적 신념과 수퍼바이저로서의 정체성에 어떤 영향을 미치는지 인식하지 못할 수 있습니다.31, 32 칸틸롱 등은 교수진 개발이 수퍼바이저로서의 정체성, 신념 및 관행을 강화하는 환경적 요인에 대한 교사의 마음챙김을 증가시키도록 시도해야 한다고 제안합니다.32 이는 신규 수퍼바이저가 적절한 성향(예: '교수법'을 식별하는 동기 개발)을 갖는 것에서 적절한 성향(예: '교수법'을 실행하는 것)을 실행하는 것(예: 사회 및 문화적 맥락에 관여하고 대응하는 것)으로 이동할 수 있도록 지원할 필요성을 강조하는 수퍼바이저 교육에 시사점을 줍니다."32
Supervisors are both influenced by, and contributors to, their organisation's culture, often in a cyclical, interdependent way. Because of their immersion in the local culture, they may not be aware of how it is impacting on their tacit beliefs about supervision and their identity as a supervisor.31, 32 Cantillon et al. suggests faculty development should attempt to increase teacher's mindfulness of the environmental factors that sharpen their identities, beliefs and practices as supervisors.32 This has implications for supervisor training highlighting a need to assist new supervisors to move from having the appropriate disposition (e.g., developing the motivation to identify ‘teaching work arounds’) to enacting the appropriate disposition (e.g., implementing the ‘teaching work arounds'…. as they engage with and respond to social and cultural contexts.’32

수퍼바이저는 긍정적이든 부정적이든 조직의 문화적 힘에 관여하고 이에 대응할 때 자신의 가정(예: 위계 업무량 또는 교육 대 환자 치료의 긴장 관계에서 우선순위)에 대해 의도적으로 성찰할 기회를 제공받는 것이 도움이 될 수 있습니다. 수퍼바이저의 정체성, 역할에 대한 암묵적 신념과 이해는 조직 전체의 관점에 영향을 받을 가능성이 높습니다.
Supervisors may benefit from being provided with opportunities to deliberately reflect on their assumptions (e.g., about hierarchy workload or priorities in the teaching vs. patient care tension) as they engage with, and respond to, cultural forces in their organisation, both positive and negative. The identity of the supervisor, the tacit beliefs and understandings they have about the role are likely influenced by the organisation wide view.

6 정체성
6 IDENTITY

직업적 정체성을 개발하는 것은 독립적인 의료 전문가가 되기 위한 과제 중 하나입니다. 학습 환경과 문화도 정체성 형성에 영향을 미치며, 이는 다시 수련 단계에 따라 달라집니다.

  • 학부 수준에서 학습 환경은 임상 경험의 원천으로 여겨지는 경우가 가장 많습니다.33
  • 이후 신규 졸업생의 경우, 학습 환경은 직업적 정체성을 형성하고 진로 결정을 내리고 취업하는 장소로 여겨집니다.
  • 의료 전문가가 더 고위직이 되어 업무 환경에 완전히 몰입할 때 비로소 이러한 환경이 보다 일관되고 예측 가능하게 됩니다.

그러나 실무자가 환경 문화를 형성하는 데 있어 더 큰 권한을 갖는 것은 바로 이 고위급 수준에서입니다. 인턴십은 정체성 형성의 시기로 볼 수 있으며, '의사 되기'라는 자기 결정적 능동적 과정으로서 이 중요한 전환을 이해하려면 문화 또는 사회화 이론보다 더 넓은 관점이 필요합니다.34 예를 들어, 경영학 문헌의 모델을 사용하여 인턴 교육을 시간이 지남에 따라 자아의 전개와 변화라는 되기 과정으로 설명할 수 있습니다.34
Developing a professional identity is one of the tasks of becoming an independent health professional. The learning environment and its culture also impact on identity formation which, in turn, depends on the stage of training.

  • At an undergraduate level, the learning environment is most often seen as a source of clinical experiences.33 
  • Later, as new graduates, it is seen as a place to shape professional identity, to shape career decisions and to be employed.
  • It is only when health professionals become more senior and fully immersed in the work environment that such environments become more consistent and predictable.

It is at this more senior level however that practitioners have greater agency in shaping the environment culture. An internship can be viewed as a period of identity formation and, as a self-determined active process of ‘becoming a doctor’, requires a wider perspective than enculturation or socialisation theories to understand this significant transition.34 For example, a model from management literature could be used to describe intern education as a process of becoming: as an unfolding and as a transformation of the self over time.34

전문가 간 팀의 일원이 되는 법을 배우는 것은 전문가 정체성에 대한 또 다른 도전이며, 이는 관점의 균형을 맞추고 자신의 전문적 역할과 팀 역할의 균형을 맞춰야 합니다. 의료팀 과제와 같은 활동은 학생과 인턴이 서로의 직업과 역할에 대한 이해를 높이고 직장에서 서로를 인정하는 데 도움이 됩니다.35
Learning to be part of an interprofessional team is another challenge to professional identity that requires balancing perspectives and juggling one's own professional roles with team roles. Activities such as health care team challenges have increased students' and interns' understanding of each other's professions and roles and lead to recognition of each other in workplaces.35

신규 의사의 경우, 많은 경우 자신의 가치관이나 의료인으로서의 역할에 대한 인식과 상충되는 환경에서 일하고 전문직으로 전환하는 과정에서 정체성을 확립하는 데 많은 노력을 기울여야 합니다. 최근 의료계에서 원주민(마오리족)36 및 태평양계37 졸업생 의사가 크게 증가한 뉴질랜드에서 개인이 업무 환경에 적응하는 과정이 잘 드러납니다. 수상 경력에 빛나는 팟캐스트에서 마오리족 의사를 갓 졸업한 엠마 에스피너의 관점에서 바라본 다음 사례 연구는 비 마오리족이 주류를 이루는 의료 직장 문화와 마오리족의 불평등한 건강 결과와 관련된 의료 시스템 내에서 마오리족 의대생으로서 정체성을 관리하는 데 따르는 어려움을 보여줍니다.
For new practitioners, there is much identity work to undertake in the challenge of moving into a profession and working in an environment that for many is at odds with their values and perception of their role as a health professional. The enculturation of the individual into a work environment has been well illustrated recently in New Zealand where the medical workforce has seen a substantial increase in indigenous (Māori)36 and Pacific37 graduating doctors. The following case study taken from the perspective of Emma Espiner, a newly graduated Māori doctor, in an award winning podcast, demonstrates the challenges of managing identity as a Māori medical student within a health workplace culture that is predominantly non-Māori and within a health care system associated with unequal health outcomes for Maori.

개인 문화와 조직 문화의 조화를 보여주는 사례 연구
Case study illustrating reconciling personal culture with organisational culture

팟캐스트 시리즈에서 마오리족 의대생인 엠마 에스피너는 마오리족을 차별하는 의료 시스템에서 일하는 것이 어떤 것인지 설명합니다. '불평등한 결과란 마오리족인 경우 사망 확률이 높다는 뜻입니다."38 그녀는 의과대학에서 마오리족 건강 통계에 대해 배우는 것과 '실제 사람들, 즉 와나우(대가족)와 함께 실시간으로 플레이하는 것'이 어떻게 다른지에 대해 이야기합니다.38
In a podcast series, a Māori medical student Emma Espiner describes what it is it like working in a health system that discriminates against your people. ‘Unequal outcomes is jargon for a better chance of dying if you are Māori.’38 She discusses how it is one thing to learn about Māori health statistics at medical school and another to see this ‘Playing out in real time with real people, your whānau [extended family]’.38

그녀는 마오리 의료 서비스 제공자(키아 오라 응아티와이)의 의사로 일하는 한 일반의(GP)의 경험을 설명합니다38:
She describes the experience of a general practitioner (GP) working as a doctor for a Māori health provider (Ki A Ora Ngātiwai)38:

'한 번은 지역사회의 건강에 깊이 관여하고 있는 사람에게 제 깨달음을 설명한 적이 있습니다. 내가 웰빙(오라)의 개념에 대해 설명하기 시작하자 그녀는 코웃음을 치며 마오리족에게 오라는 개인의 웰빙이 아니라 집단주의에서 비롯된 웰빙이라고 말했다...... 지역사회 거버넌스와 소유권이 키아 오라 응아티와이의 특징이지만 그렇다고 해서 키아 오라 응아티와이가 서비스를 제공하는 지역사회에 대한 의료 제공을 통제할 수 있는 권한이 있다는 의미로 해석되지는 않는다. 모든 마오리족 의료 제공자와 마찬가지로 자금 조달 메커니즘, 계약 보고 요건 및 성공 척도는 마오리족이 아닌 세계를 반영하는 구조와 시스템에 의해 결정되고 이에 따라 정의됩니다. 이러한 환경은 마오리족 의료 서비스 제공자들을 더욱 구별 짓는 요소이며, 자결권을 위한 지속적인 정치적 투쟁이 바로 제가 일하는 세계입니다.
‘Once I described my epiphany to someone who was heavily involved with the health of her community. She snorted when I started to expound on my conceptualisation of wellness (ora) and [said] in not so many words, that for Māori ora is not individual wellness but is instead the wellness arising from collectivism.… While community governance and ownership are defining features of Ki A Ora Ngātiwai this does not translate into having control over the delivery of health care into the communities that Ki A Ora Ngātiwai services. Like all Māori health providers the funding mechanisms, contract reporting requirements and measures of success are dictated by, and defined by, structures and systems that reflect a non-Māori world. It is this environment that further distinguishes Māori health providers — the ongoing political struggle for self-determination — and it is in this world that I work.’

이 사례는 마오리족 의료 종사자들이 현재 시스템 내에서 최선을 다하면서 변화를 옹호해야 하는 어려움이 있음을 반영합니다. '새로운 세상을 설계하면서 반창고를 붙이는 동시에 동의하지 않는 사람들과 싸우고 있습니다.'38
This example reflects that the challenge for Māori health practitioners is that they are advocating for change while having to do their best within the current system. ‘You are putting on the band aid on while designing the new world and all the while fighting those who do not agree with you.’38

이 사례 연구는 사회 문화가 조직에 미치는 영향과 의료 서비스 제공 방식을 보여줍니다. 또한 지배적인 문화가 어떻게 불평등을 지속시킬 수 있는지도 보여줍니다. 또한 이러한 영향이 개인 수준에서 어떻게 나타날 수 있는지, 한 문화권의 의료진이 자신의 가치와 신념을 조직의 가치와 신념과 조화시키는 데 어려움을 겪을 수 있음을 보여줍니다. 또한 조직 문화에 맞추기 위해 항상 개인이 변화해야 하는 것은 아니며, 오히려 개인이 더 넓은 범위의 시스템적 변화를 옹호할 수 있음을 보여줍니다.
This case study illustrates the impact of society culture on an organisation and how health services are provided. It also illustrates how a dominant culture can perpetuate inequities. Furthermore, it shows how these effects can be manifest at the individual level where a practitioner from one culture may find it hard to reconcile their values and beliefs with those of the organisation. It further illustrates that it should not always be the individual who has to change to fit within the organisation's culture—rather individuals can advocate for wider systemic changes.

7 문화 드러내기
7 REVEALING CULTURE

문화의 이러한 영향을 더 잘 이해하려면 어떻게 인식해야 할까요? 문화는 그 문화에 몰입한 사람에게는 보이지 않는 경우가 많지만 규범과 가치에 주목하면 인식할 수 있습니다. 이러한 보이지 않는 규범을 발견하기 위한 몇 가지 질문은 다음과 같습니다.
If we are to understand better these effects of culture, how might we recognise them? Culture is often unseen by those immersed in it but can be recognised by noting norms and values. Some questions to uncover these unseen norms might be to ask

  • 우리는 서로의 관행을 관찰하고 있으며 이러한 관행은 어떻게 제정되었는가? 서로의 학습을 돕는 방식으로 간주되는가, 아니면 판단을 내리기 위한 것인가?
    Do we observe each other's practice and how is this enacted? Is it seen as a way of helping each learn or is it to make judgements?
  • 기관은 서로에게 어떻게 피드백을 제공하나요? 의료 서비스는 교육 기관에 어떻게 피드백하고, 교육 기관은 의료 서비스에 어떻게 피드백하나요? 피드백에 대한 응답으로 어떤 일이 일어나나요?
    How do institutions feedback to each other? How does the health service feed back to a training institution and how does a training institution feed back to a health service? What happens as a response to that feedback?
  • 오피니언 리더와 변화 옹호자들은 어떻게 인식하고 있으며 어떤 장벽과 조력자를 만나게 되나요?
    How are opinion leaders and change advocates perceived and what barriers and enablers do they encounter?
  • 직원들이 학습할 수 있는 시간을 어떻게 확보할 수 있을까요?
    How do we make time for our employees to learn?
  • 품질 개선을 위한 의견을 말하고 아이디어를 제안하는 것이 안전하다고 느끼나요? 누가 이런 일을 할 수 있는 권한을 가지고 있나요?
    Do we feel safe to speak up and offer ideas for quality improvement? Who has the power to do this?
  • 직원들이 만나는 중요한 시간과 장소는 어디이며 회의에서 논의되는 내용은 무엇인가요?
    What are the critical times and places that staff meet and what is discussed at those meetings?
  • 연습의 어떤 측면에 엄격한 프로토콜이 있으며 '여기서 하는 방식'으로 간주되는가?
    What aspects of practice have strict protocols and are seen as ‘how we do things here’?
  • 학습자가 하지 말아야 하는 활동에는 어떤 것이 있나요?
    What activities are learners discouraged from?
  • 여기서 배우기 쉬운 것은 무엇이고 어려운 것은 무엇인가요?
    What is easy to learn here and what is more difficult?
  • 전문가 간 견해가 의사 결정에 어떻게 통합되나요?
    How are interprofessional views integrated into decisions?
  • 다른 조직에서 온 신입 연수생에게 문화가 어떻게 고통을 줄 수 있나요?
    How might culture cause distress to a new trainee from another organisation?
  • 수련의가 직장에서 '인상적'이 되게 하는 원동력은 무엇이며, 어떤 행동이 '인상적'으로 여겨지는가39?
    What drives students to ‘impress’ in the workplace and what behaviours are seen as ‘impressive’39?
  • 어떤 임상 환경이 다른 임상 환경보다 다양성을 더 지지하는 것으로 여겨지는 이유는 무엇인가요?
    Why are some clinical environments seen as more supportive of diversity than others?
  • 형평성 문제는 어떻게 해결됩니까?
    How are issues of equity addressed?
  • 사람들은 형평성이나 직원 복지와 관련된 문제를 발견했을 때 안전하게 말할 수 있다고 느끼나요?
    Do people feel safe to speak up when they see problems with equity or staff wellbeing?

8 앞으로 나아갈 길
8 THE WAY FORWARD

보건 기관과 협력하여 실습 학습 문화를 파악하는 것이 유익한 출발점이 될 수 있다고 생각합니다. 조직에서 가장 많이 사용하는 두 가지 평가는 참여도 설문조사문화 설문조사입니다.21, 24 문화 설문조사를 더 많이 활용하는 것이 앞으로 나아갈 수 있는 방법일 것입니다. 보건 전문가 교육에서는 학습자의 배치 경험을 파악하기 위해 설문조사를 실시하는 것이 일반적입니다. 조직은 직원의 역할, 책임, 업무량, 관리자 및 동료와의 관계, 의사소통 및 협력, 직무 스트레스 등 직원의 개인적인 업무 경험을 파악하기 위해 참여도 설문조사를 실시합니다. 이 두 가지 모두 배치에 대한 학습자 평가와 마찬가지로 '나'의 관점을 다룹니다. 이와는 대조적으로 문화 설문조사 응답은 사람들이 적응하기 위해 필요하다고 생각하는 행동과 규범의 관점에서 직원들이 현재 문화를 어떻게 인식하고 있는지를 알려줍니다. 문화 설문조사는 '우리'의 관점을 다룹니다. 예를 들어, 한국의 한 연구에 따르면 씨족 문화와 옹호 문화는 조직 학습과 매우 긍정적인 관계가 있는 반면, 시장 문화와 위계 문화는 그러한 관계가 없는 것으로 나타났습니다.40 이러한 설문조사의 결과는 해석의 여지가 있고 그 유용성에 의문이 제기될 수 있지만, 그에 따른 토론과 대화는 유익한 정보를 제공할 수 있습니다.
One place we believe it can be fruitful to start is to partner with health organisations to unpack the practice learning culture. Two of the most popular assessments that organisations use are engagement surveys and culture surveys.21, 24 Perhaps making more use of culture surveys is a way forward. In health professional education, it is common to survey learners to understand their experience of a placement. Organisations undertake engagement surveys to understand the employees' personal experience of work: how they feel about their roles, responsibilities, workload, relationships with managers and colleagues, communication and cooperation, and job stress. Both of these address the ‘I’ perspective much as learner evaluations of placements do. In contrast, culture surveys responses tell us how the workforce perceives the current culture in terms of the behaviours and norms that people believe are required to fit within. Cultural surveys address the ‘we’ perspective. For example, a Korean study found that clan and advocacy cultures had strong positive relationships with organisational learning, while market and hierarchy cultures showed no such relationships.40 While the results of such surveys may be open to interpretation and their usefulness challenged, the discussion and conversations that ensue could be informative.

의료 전문가 학습자가 처한 상황을 완전히 이해하려면 이론적 접근 방식과 연구 방법의 폭을 넓혀야 할 수도 있습니다. 지금까지 유익한 정보를 제공한 연구는 종종 민족지학과 직접 관찰을 사용했는데,11 이는 암묵적인 지식과 관행뿐만 아니라 우리가 자란 사회, 인종, 성별에서 비롯된 뿌리 깊은 신념 등 당연한 것으로 받아들여지고 보이지 않는 것을 발견하는 데 도움이 될 수 있기 때문입니다. 이는 우리의 직업 문화, 교육 문화, 우리가 몸담고 있는 조직의 교차점을 탐구하는 데 도움이 될 수 있습니다. 우리는 교육, 민족지학, 질 개선 및 실행 과학 간의 연구 시너지를 창출하기 위해 수련생, 수퍼바이저, 환자라는 삼위일체를 넘어선 공동 연구를 모색해야 합니다. 베어먼은 '학습 문화와 문화적 반성성에 관한 다른 문헌들은 대부분 간과되는 영역, 즉 사람들이 사회가 가하는 강력한 힘을 인식하면서 어떻게 문화에 효과적으로 영향을 미칠 수 있는지 탐구하는 데 도움이 될 수 있다'고 제안합니다.19
If we are to understand fully the situation in which we place health professional learners, we may also need to broaden our theoretical approach and with it our research methods. Research to date that has been informative has often used ethnography and direct observation,11 possibly as it assists in uncovering that which is accepted, unseen taken for granted, not just our tacit knowledge and practice but our deeply ingrained beliefs taken from the society in which we grew up, our race, gender. It can help explore the intersection of our professional culture, our educational culture and the organisations we practice in. We should explore collaborative research that extends beyond the triad of trainee, supervisor and patient to create research synergies among education, ethnography, quality improvement and implementation science. Bearman suggests that ‘Other literature on learning cultures and cultural reflexivity may help explore a territory which is mostly overlooked: how people can effectively influence a culture whilst recognising the strong forces exerted by the social’.19

9 결론
9 CONCLUSIONS

우리는 관점을 재구성하고 학습 환경의 '지저분함'을 포용해야 할 구성 요소로 볼 필요가 있다고 제안합니다. 안전하고 효과적인 환자 치료라는 우리 모두가 열망하는 목표를 달성하기 위해 보건 및 환자 단체와 협력할 수 있는 기회를 제공하는 요소입니다. 환자 치료는 사회에 대한 우리의 의무이며, 이 과학의 상태 시리즈에서 자아, 상황, 사회라는 삼위일체를 완성합니다.
We suggest we need to reframe our views and see the ‘messiness’ of the learning environment as a component to be embraced. A component that provides opportunities for partnering with health and patient organisations to achieve the goal we all aspire to – safe and effective patient care. Patient care is our obligation to society and completes the triad within this State of the Science series of self, situation and society.

또한, 우리는 이제 막 학습 환경의 의미를 파악하기 시작했을 뿐이라고 생각합니다. 

  • 학습 환경은 수행해야 할 작업 그 이상이며 연수생과 감독자 관계 그 이상입니다.
  • 학습 환경은 전문가 간, 제도적, 물리적, 문화적, 일상화되고 체계적인 것입니다.
  • 학습은 수련의가 배우고자 하는 내용, 감독 방법, 수행해야 하는 업무뿐만 아니라 물리적 환경, 다른 의료 전문가들의 상호작용과 행동, 치료를 안내하기 위해 마련된 시스템에 의해 형성됩니다.
  • 마지막으로, 학습은 우리가 서로에게서 배울 수 있는지 여부, 일과 학습의 우선순위, 지식을 '보유'하는 주체를 중요하게 여기는 문화적 규범의 영향을 받습니다.
  • 우리는 보는 것을 넓혀야 할 뿐만 아니라 그것을 보는 (연구) 방법과 함께 일하는 협력자를 넓혀야 합니다.

Furthermore, we suggest that we have only just begun to see what we mean by the learning environment.

  • It is more than the work that needs to be done and it is more than the trainee-supervisor relationship.
  • It is interprofessional, institutional, physical, cultural, routinised and systemic.
  • Learning is shaped not only by what we intend trainees to learn, how we supervise and the work that has to be done, but is shaped by the physical environment, the interactions and behaviours of other health professionals and the systems in place to guide care.
  • Finally, learning is influenced by the cultural norms that value (or not) whether we can learn from each other, how work and learning are prioritised, and who ‘holds’ knowledge.
  • Not only do we need to broaden what we see, but we should broaden the (research) methods by which we see it and the collaborators with whom we work.

 


Med Educ. 2022 Jan;56(1):110-116. doi: 10.1111/medu.14630. Epub 2021 Sep 2.

Widening how we see the impact of culture on learning, practice and identity development in clinical environments

Affiliations collapse

1Otago Medical School, University of Otago, Dunedin, New Zealand.

2Education Unit, University of Otago, Christchurch, Ringgold standard institution, Christchurch, New Zealand.

PMID: 34433232

DOI: 10.1111/medu.14630

Abstract

As part of this State of the Science series on Self, Society and Situation, we focus on how we might see the situation of the workplace as a learning environment in the future. Research to date into how health professionals learn while working in clinical workplace environments has mostly focused on the supervisor-trainee relationship or on the interaction between the affordances of a workplace and the receptiveness of trainees. However, the wider environment has not received as much focus-though frequently mentioned, it is seldom investigated. We suggest there is a need to embrace the wider institution factors, recognise and acknowledge an organisation's values and culture as they impact on clinical learning in order to work with these, not around them or ignore them, to make what may be tacit visible through reflection and observation and to embrace a range of perspectives on culture.

부정의 바로잡기: 어떻게 여자 의과대학생이 주체성을 발휘하는가 (Adv Health Sci Educ Theory Pract. 2023)
Redressing injustices: how women students enact agency in undergraduate medical education
A. Emiko Blalock1 · Dianey R. Leal2

 

 

소개
Introduction

의학교육이 여성의 소외를 지속시키는 방식에 대한 최근의 연구는 오늘날 여성이 남성과 동등하게, 때로는 더 많은 수의 의과대학에 입학함에 따라 훨씬 더 중요해졌습니다(Kelly-Blake et al., 2018; Pelley & Carnes, 2020). 안타깝게도 여성 의대생의 경우, 의과대학의 오랜 남성적 문화, 즉 백인, 유럽 중심 및/또는 북미의 이상에서 비롯된 문화가 의대생의 의학 학습 및 실습 방식에 오랜 그림자를 드리우고 있습니다(참조; Phelan 외., 2010; Sharma, 2019). 이러한 전통은 남성을 의학의 지배적인 지식 보유자로 자리매김하여 여성의 목소리, 경험, 지식의 방식을 부차적인 것으로 만들었습니다(Babaria 외., 2009, 2012; Bruce & Battista, 2015; Drinkwater 외., nd; Ludmerer, 2020). 예를 들어,

  • 의학교육의 학습 역학 및 숨겨진 커리큘럼은 종종 여학생에 대한 편향된 대우를 나타냅니다(Cheng & Yang, 2015; Dijkstra et al., 2008; Lempp & Seale, 2004).
  • 또한, 학계 의학 분야에서는 남성 의사가 여성 의사보다 더 빠른 속도로 승진하는 경우가 많으며(Borges 외, 2012; Howell 외, 2017; Murphy 외, 2021; Richter 외, 2020),
  • 여성이 가정을 꾸리기 시작하면 경력 발전에 불이익을 받기도 합니다(Butler 외, 2019; Winkel 외, 2021).
  • 성별화된 상징, 역사, 전통은 여성 의대생들이 의학에 속하지 않는다고 느끼도록 만들거나(Balmer 외, 2020; Blalock 외, 2022; Levine 외, 2013),
  • 남성이 지배하는 전문 분야를 여성이 지속하지 못하도록 막았습니다(Baptiste 외, 2017; Burgos & Josephson, 2014). 

이러한 관행의 정점은 의학계에서 여성을 합법적이고 타당한 지식 보유자로 인정하지 않는 데 기여하며, 이러한 관행을 인식론적 불공평이라고 합니다. 

Recent scholarship on the ways medical education perpetuates the marginalization of women has become vastly more important today as women enter medical school in equal and sometimes greater numbers to men (Kelly-Blake et al., 2018; Pelley & Carnes, 2020). Unfortunately, for women medical students their numbers alone do not change a long-standing masculine culture in medical school, a culture born from White, Eurocentric and/or North American ideals, casting a long shadow on how medical students learn and practice medicine (see; Phelan et al., 2010; Sharma, 2019). These traditions have positioned men as the dominant knowledge holders in medicine, rendering women’s voices, experiences, and ways of knowing as subaltern (Babaria et al., 2009, 2012; Bruce & Battista, 2015; Drinkwater et al., n.d.; Ludmerer, 2020). For example,

  • learning dynamics and hidden curriculum in medical education often exhibit biased treatment of women students (Cheng & Yang, 2015; Dijkstra et al., 2008; Lempp & Seale, 2004).
  • Moreover, the field of academic medicine frequently promotes men physicians at faster rates then women physicians (Borges et al., 2012; Howell et al., 2017; Murphy et al., 2021; Richter et al., 2020)
  • while penalizing women in career advancement when they begin having families (Butler et al., 2019; Winkel et al., 2021).
  • Gendered symbols, histories, and traditions have made women medical students feel they do not belong in medicine (Balmer et al., 2020; Blalock et al., 2022; Levine et al., 2013) or
  • discouraged women from persuing specialties dominated by men (Baptiste et al., 2017; Burgos & Josephson, 2014).

The culmination of these practices contributes to dismissing women in medicine as legitimate and valid knowledge holders, a practice known as epistemic injustice.

인식론적 부정의는 종종 사회적 정체성(예: 여성, 소수자, 학생 등)에 근거하여 특정인을 정당한 지식 보유자로 인정하지 않거나 무시하거나 의심하는 관행입니다(Dotson, 2012; Fricker, 2011). 또한 인식론적 불공정은 아는 것과 모르는 것에 대한 차별의 순간에만 국한되는 것이 아니라 다른 합법적인 앎의 방식에 대한 무시도 포함합니다. Dotson(2012)은 인식론적 불공정은 "해석학적으로 소외된 공동체 내부에 존재하는 대안적 인식론, 반신화, 숨겨진 기록 등을 고려해야 한다"(31쪽, 원문 강조)고 설명합니다. 본질적으로 인식론적 불공정은 사회적 정체성에 기반한 개인의 지식을 즉각적으로 불신하는 행위이자 다른 방식의 앎에 대한 가능성을 지속적으로 무시하는 행위입니다.
Epistemic injustice is the practice of discrediting, ignoring, or doubting people as legitimate knowers often based on their social identity (e.g., women, minority, student, etc.) (Dotson, 2012; Fricker, 2011). Furthermore, epistemic injustice is not only confined to moments of discrimination about what one knows or does not know; it also includes a disregard for other legitimate ways of knowing. Dotson (2012) explains epistemic injustice must “account for alternative epistemologies, countermythologies, and hidden transcripts that exist in hermeneutically marginalized communities among themselves (p. 31, emphasis in original). In essence, epistemic injustice is both the immediate discrediting of an individual’s knowledge based on their social identity and the act of persistently ignoring possibilities for other ways of knowing.

인식론적 부정의의 증거는 생명윤리 및 의학교육 학계에 잘 기록되어 있으며(Battalova 외., 2020; Blease 외., 2017; Carel & Kidd, 2014; Seidlein & Salloch, 2019), 의학계 여성에게 인식론적 부정의가부장적인 의학의 역사에서 기인한 형태로 만연해 있습니다. 이러한 남성 중심적 태도는 무의식적으로 이성과 합리성을 남성, 남성성, 남성다움에 부여하는 표현입니다(Lloyd, 1979; Samuriwo 외., 2020; Shaw 외., 2020). 남성을 이성적인("더 나은" 또는 "더 숙련된") 의사로 습관적으로 인식하는 것은 역사적으로 의학계에서 여성의 위치를 낮추고, 여성의 기여를 약화시키며, 여성의 전문직 진출을 선택적으로 제한해 온 이 분야에 광범위한 영향을 미칩니다(Roberts, 2020; Sharma, 2019). 이러한 관행을 종합하면 성별에 기반한 인식론적 불공정의 은밀하고 명백한 사례입니다(Tuana, 2017). 
Evidence of epistemic injustice is well-documented in bioethics and medical education scholarship (Battalova et al., 2020; Blease et al., 2017; Carel & Kidd, 2014; Seidlein & Salloch, 2019), and for women in medicine forms of epistemic injustice are rampant and stem from a patriarchal history in medicine. These androcentric attitudes are manifestations of sub-consciously assigning reason and rationality to men, masculinity, and maleness (Lloyd, 1979; Samuriwo et al., 2020; Shaw et al., 2020). Habitually recognizing men as reasoned (read “better” or “more skilled”) physicians has far-reaching implications for the field, one that has historically discounted the place of women in medicine, undermined their contributions, and selectively limited their advancement in the profession (Roberts, 2020; Sharma, 2019). Combined, these practices are discreet and obvious examples of epistemic injustice based on gender (Tuana, 2017).

인식론적 불공정이 발생하는 경우, 여성 의사의 지식은 종종 의학에 대한 "올바른" 또는 "정확한" 지식에 대한 획일적인 이해와 비교됩니다. 여성이 이러한 형태의 규범적 지식을 입증하면 인식적 불공정의 형태를 회피할 수 있습니다. 예를 들어, 여성 의사는 보다 "남성적"인 행동을 취하거나 채택하거나 의학에서 정당한 것으로 인정되는 특성에 더 기꺼이 자신을 맞출 수 있습니다. 그러나 그렇게 하기 위해 여성은 자신의 커뮤니티와 문화, 심지어 자신에게서 비롯된 지식의 형태를 숨기거나 보류해야 할 수도 있습니다(Dotson, 2012). 따라서 의학계 여성이 순응을 통해 인식론적 불의에 저항할 때, 여성으로서의 사회적 정체성과 자신의 젠더 경험, 인종과 민족, 자신을 키워준 공동체에서 비롯된 지식, 즉 "반-신화와 숨겨진 기록"을 소홀히 하게 됩니다. 여성이 의학 분야에 가져다주는 중요한 지식을 인정하지 않는다면, 백인 남성으로서의 의사의 존재를 지속적으로 재생산하는 동시에 이 분야에서 지식으로 간주되는 것에 대한 한계를 강화함으로써 의료 분야는 빈곤해질 것입니다. 
During events of epistemic injustice, women physicians’ knowledge is often compared to a monolithic understanding of a “correct” or “accurate” knowledge for medicine. If a woman demonstrates this form of normative knowledge, then they may evade forms of epistemic injustice. For example, women physicians may take on or adopt behaviors that are more “masculine” or align themselves more willingly to characteristics that are recognized as legitimate in medicine. However, to do so, women may be tasked with hiding or withholding the very forms of knowledge that arises from their communities and from their cultures, even themselves (Dotson, 2012). Thus, when women in medicine resist epistemic injustice through conformity, they neglect their social identity as women and the knowledge arising from their own gendered experiences, their race and ethnicity, and the communities that raised them—their “countermythologies and hidden transcripts” (Dotson, 2012, p. 31). Without acknowledging the important knowledges women bring to the field of medicine, the medical field will be impoverished by continually reproducing the presence of doctors as White men, while reinforcing limits on what counts as knowledge in the field.


인식론적 불공정의 프레임워크는 이러한 불공정을 바로잡을 수 있는 방법도 제공합니다. 이러한 불공정이 어떻게 발생하는지 분석하는 과정에는 인식적 불공정의 관행을 줄이고 궁극적으로 개혁할 수 있는 방안에 대한 가능성이 내재되어 있습니다(Dotson, 2012). 학생들의 의료 경험이 권력과 억압의 맥락에 놓여 있더라도(Chow 외, 2018; Vanstone & Grierson, 2021; Wyatt 외, 2021 참조) 인식론적 불공정을 시정할 수 있는 능력은 지식이 위치한 위치(예: 자신의 커뮤니티 내, 의료 분야 내, 학습 환경 내)와 밀접하게 연관되어 있습니다. 예를 들어, 유색인종 학생은 의과대학에서의 교육 경험에 자신의 지역사회와 배경에서 비롯된 관점이라는 혁신적인 관점을 가져옵니다(Solorzano & Delgado Bernal, 2001; Wyatt et al., 2018). 
In its entirety, the framework of epistemic injustice also offers avenues to redress such injustices. Embedded in analyzing how such injustices occur are possibilities for ways to reduce and eventually reform the practice of epistemic injustice (Dotson, 2012). Even as students’ medical experiences are situated within the context of power and oppression (see, Chow et al., 2018; Vanstone & Grierson, 2021; Wyatt et al., 2021) their ability to redress epistemic injustices are tightly coupled with where their knowledge is situated (e.g., within their own communities, within the medical field, within a learning environment). For example, students of Color bring with them transformative perspectives into their educative experiences in medical school, perspectives originating from their own communities and backgrounds (Solorzano & Delgado Bernal, 2001; Wyatt et al., 2018).

인식적 불공정의 형태에 맞서기 위해, 우리는 인식적 주체성의 개념을 활용하여 참가자의 행동을 해석합니다. 인식적 주체성이란 특정 커뮤니티 내에서 자신의 인식적 자원(예: 지식 체계, 학습, 관행 등)을 설득력 있게 활용하고 공유하는 개인의 능력을 말합니다(Dotson, 2012). 우리는 의학교육의 결핍된 내러티브에 대응하기 위해 의대생이 주체성을 발휘하는 순간에 초점을 맞췄습니다. 이러한 순간은 데이터 분석에 대한 우리의 접근 방식(페미니스트적, 주체적, Tuana, 2017 참조)과 인식론적 불공정의 개념적 틀을 전체적으로 사용하여 데이터를 제시하는 방법에 대한 의도적인 결정을 반영합니다(Dotson, 2012). 주체성은 참여자 경험에 대한 자산 기반 관점을 제공하며, 이는 의대생의 소진과 차별 경험에 대한 풍부한 문헌의 균형을 맞추는 데 도움이 됩니다(Daya & Hearn, 2018; Frajerman 외, 2019; Kilminster 외, 2007; Neumann 외, 2011; Orom 외, 2013). 의료 및 고등 교육 분야에서 도출한 기관의 역할은 (1) 관점 취하기(O'Meara, 2015), (2) 전략적 저항(Baez, 2000, 2011; Ellaway & Wyatt, 2021, 2022; Gonzales, 2018)으로 요약할 수 있습니다.

  • 관점 취하기는 의대생이 목표를 달성하는 데 도움이 되는 상황과 자신에 대한 반사적 숙고를 의미하며, 이러한 반사적 숙고는 더 큰 사회적 요인에 의해 형성되고 배양된 내적 대화 또는 자기 대화입니다(O'Meara, 2015). 반면
  • 전략적 저항의대생이 자신과 타인을 불법적인 지식인으로 만드는 제도적 구조에 저항하거나 이를 전복하려는 의도적인 전술을 말합니다(Baez, 2000, 2011; Ellaway & Wyatt, 2021; Gonzales, 2018). 

To combat forms of epistemic injustice, we leverage the concept of epistemic agency to interpret actions of participants. Epistemic agency refers to a person’s ability to persuasively utilize and share their epistemic resources (e.g., knowledge systems, learnings, practices, etc.) within a given community (Dotson, 2012). We focused on moments of agency in medical students to counter deficit-narratives in medical education. These moments reflect both our approach to data analysis (feminist and agentic, see Tuana, 2017) as well as an intentional decision in how to present the data using the conceptual framework of epistemic injustice in its entirety (Dotson, 2012). Agency provides an asset-based perspective on participant experiences, one that helps balance the plentiful literature on medical student experiences of burn-out and discrimination (Daya & Hearn, 2018; Frajerman et al., 2019; Kilminster et al., 2007; Neumann et al., 2011; Orom et al., 2013). Drawn from the fields of medical and higher education, we frame agency as (1) perspective-taking (O’Meara, 2015), and (2) strategic resistance (Baez, 2000, 2011; Ellaway & Wyatt, 2021, 2022; Gonzales, 2018).

  • Perspective-taking refers to medical students’ reflexive deliberations of a situation and of themselves that help them to advance goals—these reflexive deliberations are inner conversations or self-talk shaped and cultivated by larger societal factors (O’Meara, 2015).
  • Strategic resisting, by contrast, refers to medical students’ intentional tactics to resist or subvert institutional structures that render them and others as illegitimate knowers (Baez, 2000, 2011; Ellaway & Wyatt, 2021; Gonzales, 2018).

이를 위해 이 연구의 목적은 두 가지입니다. 

  • (1) 여의대생의 경험에서 인식론적 불공정이 어떻게 나타나는지 이해하고, 
  • (2) 종종 여의대생을 정당한 지식인으로서 불신, 침묵 또는 자격을 박탈하는 환경에서 학습하는 여의대생의 주체적 경험을 설명하는 것입니다. 

우리는 의료계에서 성평등과 성평등이 아직 완전히 실현되지 않았다는 점을 이해하면서 여의대생의 경험에 특히 초점을 맞춥니다(Butler et al., 2019; Dimant et al., 2019). 우리의 연구 결과는 여학생들이 불의에 맞서는 방식과 그들이 경험한 불의의 형태를 시정하기 위해 취하는 행동에 대한 설명을 제공합니다. 페미니스트 주체적 관점(Tuana, 2017)을 통해 우리는 지식이 다면적이고 개인과 공동체에 모두 존재하며, 가부장적 제도와 직업 내에서 여성의 존재가 여전히 인식되지 않는 경우가 많다는 점을 인식합니다(Sharma, 2019). 또한 지식이 정의되는 방식은 지식에 대한 규범적이거나 공유된 집단적 이해 또는 지배적인 집단이 지식으로 구독할 수 있는 내용보다 훨씬 더 큰 의미를 갖습니다. 따라서 이 백서에 대한 접근 방식의 핵심은 참여자가 누구인지, 어디에서 왔는지, 의대 경험에서 그 지식을 어떻게 구현하는지에 따라 파생된 지식을 인식하는 것입니다.
To this end, the purpose of this study is two fold:

  • (1) to understand how epistemic injustice appears in women medical students’ experiences and
  • (2) to describe the agentic experiences of women medical students who are learning in environments that are often discrediting, silencing, or disqualifying them as legitimate knowers.

We focus specifically on the experiences of women medical students while understanding that gender-equality and gender-equity in the health professions is yet to be fully realized (Butler et al., 2019; Dimant et al., 2019). Our results offer descriptions of the ways women students confront injustices and the actions they take to redress the forms of injustice they experienced. Through a feminist agentic lens (Tuana, 2017), we recognize knowledge as multifaceted and existing both within individuals and shared communities, and for women, often situated within a patriarchal system and a profession where their presence is still in large part, unrecognized (Sharma, 2019). Additionally, how knowledge is defined is much larger than a normative or shared collective understanding of knowledge, or what a dominant group may subscribe as knowledge. Thus, central to our approach to this paper is recognizing knowledges of our participants derived from who they are, where they come from, and how they enact that knowledge in the medical school experiences.

방법론적 설계
Methodological design

비판적 연구자로서(Denzin, 2015; Denzin & Lincoln, 1994), 우리는 모든 연구 질문을 사회의 더 큰 구조적 규범(예: 인종, 계급, 성별 등) 내에 위치시키고 더 큰 형평성을 추구하여 이러한 규범을 비판하고 변화시키려고 노력합니다. 방법론적으로, 이 연구는 참여자의 경험을 이야기함으로써 공유된 현상을 시간의 흐름에 따라 조사하는 내러티브 전통에 뿌리를 두고 있습니다(Clandinin, 2013; Clandinin & Connelly, 2000). 따라서 이 연구의 설계는 의과대학에 재학 중인 여성으로서 의사가 된 이야기를 들려주기 위해 동일한 공유 경험에 대해 질문하여 참가자들을 여러 번 참여시키는 것이었습니다. 
As critical researchers (Denzin, 2015; Denzin & Lincoln, 1994), we situate any research question within the larger structural norms of society (e.g., race, class, gender, etc.) and seek to critique and transform these norms pursuant of greater equity. Methodologically, this study is rooted in the narrative tradition, one where a shared phenomenon is examined in and over time by storying participants’ experience (Clandinin, 2013; Clandinin & Connelly, 2000). Hence, the design for this study was to engage the participants multiple times, asking about the same shared experience to tell their story of becoming a doctor as women in medical school.

클랜디닌과 코넬리(2000)는 "내러티브 질문은 항상 자서전적 요소가 강합니다. 우리의 연구 관심사는 우리 자신의 경험 이야기에서 비롯되며 내러티브 탐구 플롯을 형성합니다."(121쪽). 저희 둘 다 유색인종 여성이고, AEB는 아시아계/백인 혼혈 여성이며, DRL은 라틴계 여성입니다. 우리의 정체성, 경험, 역사에는 인식론적 불의에 대한 우리 자신의 경험, 그리고 이러한 경험을 검증하기 위해 우리 커뮤니티와 서로를 어떻게 바라보았는지에 대한 수많은 줄거리(Polkinghorne, 1988)가 포함되어 있습니다. 의학 분야에서 여성의 경험은 남성과 크게 다르다는 점을 계속 강조할 필요성을 감안하여(Sharma, 2019), 이 연구는 여성이라고 밝힌 학생들을 대상으로 설계되었습니다. 22명의 참가자는 모두 시스 여성으로 자신을 밝히고 발표했지만, 향후 의학계의 젠더에 관한 연구를 통해 젠더의 개념이 확장되기를 바랍니다. 이 연구는 성별 문제에 기반을 두고 있기 때문에 참가자와 동료를 식별하기 위해 '여성female' 또는 '남성male'이라는 용어 대신 '여성woman'과 '남성man'이라는 용어를 사용했습니다. 참가자가 '여성' 또는 '남성'을 사용했을 때 따옴표에서 그 표현을 바꾸지 않았습니다. 또한, 연구자들은 결핍에 초점을 맞춘 연구에 대응하기 위해 내러티브에 대응하기 위해 노력하면서 참가자들이 직면한 불의를 시정하기 위해 취한 구체적인 행동을 찾았으며, 이러한 행동이 인종주의, 계급주의, 성차별적 구조의 한계 내에서 수행되었음을 이해했습니다(Acker, 1990; Nguemeni Tiako 외., 2021; Ray, 2019). 

Clandinin and Connelly (2000) noted “narrative inquiries are always strongly autobiographical. Our research interests come out of our own narratives of experience and shape our narrative inquiry plotlines” (p. 121). For both of us, we are women of Color, AEB a biracial Asian/White woman and DRL a Latina woman. Our identities, experiences, and histories contain numerous plot-points (Polkinghorne, 1988) of our own experiences with epistemic injustices, and how we have looked to our own communities and one another to validate these experiences. Given the need to continue to emphasize that women’s experiences in medicine are vastly different from men (Sharma, 2019), this study was designed to look at students who identified as women. Although all 22 participants identified and presented as cis-women, we hope future work on topics of gender in medicine will expand the construct of gender. We use the term “woman” and “man” rather than “female” or “male” to identify participants and their peers since this study is grounded in issues of gender. When participants used “female” or “male,” we did not change their wording in their quotes. Further, as researchers committed to counter narratives to attend to deficit-focused research, we sought out specific actions participants took to redress the injustices they encountered, all the while understanding that these actions were performed within the confines of racist, classist, and sexist structures (Acker, 1990; Nguemeni Tiako et al., 2021; Ray, 2019).

이 연구는 2020년 10월부터 2021년 5월까지 8개월에 걸쳐 진행되었으며, 내러티브 연구자들의 요청에 따라 시간의 흐름에 따른 현상을 탐구하기 위해 진행되었습니다. 우리는 참가자들에게 "어떻게 의사가 되어가고 있나요?"라는 질문을 던졌고, 시간의 흐름에 따른 변화를 관찰할 수 있는 가능성을 탐구하기 위해 8개월 동안 이 질문을 계속 이어나갔습니다(Balmer et al., 2021; Gordon et al., 2017). 모든 참가자는 미국 중서부에 있는 대규모 연구 대학의 동종요법 인체 의학 학교 출신입니다. 또한 이 연구는 코로나19 팬데믹으로 인해 극도로 혼란스러운 시기에 진행되었습니다. 참가자들은 인터뷰와 성찰을 통해 팬데믹에 대해 언급했으며, 일부는 의대 재학 중 원격 학습으로 인한 혼란을 언급했습니다. 연구 수행을 위해 대학과 학교 차원의 위원회를 통해 IRB 승인을 받았습니다. 대학 전체 리스트서브를 사용하여 모든 1학년 학생에게 약 200개의 이메일을 보내 여성으로 확인된 학생에게 참여를 권유했습니다. 22명이 8개월 동안 계속 참여하기로 동의했습니다. 이 22명의 학생은 인종과 민족, 국적과 이민자 신분 등 다양한 여학생 그룹을 대표합니다(표 1 참조). 또한 몇몇 참가자는 가족 중 처음으로 대학에 진학했는데, 이러한 사회적 정체성이 의과대학에서의 경험과 학생들이 받은 잠재적인 경제적 또는 사회적 네트워크 지원에 영향을 미쳤을 수 있습니다(Brosnan 외., 2016). 22명의 참가자 중 3명은 의학계에서 과소 대표되는 것으로 간주됩니다(URiM). 데이터 수집이 끝날 때 각 참가자에게는 75달러의 아마존 기프트 카드가 제공되었습니다. 많은 참가자가 이 인센티브에 대해 잊고 있었으며, 첫해에 자신의 경험을 공유하는 것이 카타르시스를 느꼈다고 말했는데, 이는 연구 참여를 유지하기 위해 스스로 선택한 것일 수도 있습니다.   

This study took place over the course of eight months, from October 2020 to May 2021, to heed the call of narrative researchers to explore a phenomenon within and over time. Our phenomenon is the question we posed to our participants, “how are you becoming a doctor?” and we threaded that question throughout the eight-month period hoping to explore the possibilities of observing change throughout time (Balmer et al., 2021; Gordon et al., 2017). All participants are from a school for allopathic human medicine at a large research university in the Midwest United States. Additionally, this study took place during an extremely disruptive time due to the COVID-19 pandemic. Participants commented about the pandemic throughout interviews and reflections, and some noted the disturbance of remote learning during medical school. IRB approval was obtained through the university, as well as through the school level board for research conduct. Approximately 200 emails were sent to all first-year students using the college-wide listserv, inviting those who identified as women to participate. Twenty-two agreed to remain involved over the entirety of the eight months. These 22 students represent a diverse group of women students, in race and ethnicity, as well as nationality and immigrant status (See Table 1). Additionally, several participants were first in their family to attend college, a social identity that may have informed their experience of medical school and the potential economic or social network support these students received (Brosnan et al., 2016). Of the 22 participants, three are considered underrepresented in medicine (URiM). At the end of the data collection, each participant was offered a $75 Amazon Gift Card. Many participants had forgotten about this incentive and commented how sharing their experiences during their first year was cathartic, perhaps indicating some self-selection in maintaining engagement in the research study.

데이터 수집은 먼저 내러티브 전통(Clandinin & Connelly, 2000)을 사용하여 설계된 반구조화 인터뷰로 진행되었으며, 2020년 10월에 실시되었습니다. 내러티브 전통을 사용하여 인터뷰 질문을 만드는 것은 참여자의 이야기를 찾고 연구 조사 대상자에게 초점을 맞추는 것을 의미합니다. 따라서 내러티브 전통은 하나의 연구 질문에 답하기보다는 개인 및 가족 역사와 공유된 경험에 관심을 갖습니다(Clandinin & Connelly, 2000). 인터뷰는 AEB에서 수행했습니다. 인터뷰는 평균 45분 동안 진행되었습니다. 다음으로, 약 3주마다 참가자들에게 자신이 의사가 되는 과정을 중심으로 성찰문을 작성하도록 요청하고, 의사가 되는 과정에서 자신의 성별에 대해 더 깊이 성찰하도록 요청했습니다. (성찰 프롬프트 선택은 표 2 참조). 2020년 11월부터 2021년 4월까지 총 6차례에 걸쳐 반성문을 수집하여 총 105개의 반성문을 작성했습니다(참가자당 평균 4.7개). 모든 참가자는 최소 2개의 반성문을 제공했습니다. 2021년 5월에 각 참가자와의 최종 인터뷰가 진행되었으며, 인터뷰는 평균 45분간 진행되었습니다. 이 최종 인터뷰는 의과대학 1학년을 되돌아보고, 의사가 되기까지 자신의 지식과 정체성이 어떻게 영향을 미쳤는지에 대해 이야기하는 데 중점을 두었습니다. 

Data collection proceeded first with semi-structured interviews, designed using the narrative tradition (Clandinin & Connelly, 2000) and performed in October 2020. Crafting interview questions using a narrative tradition means seeking out the story of participants and focusing on the people in the research inquiry. Thus, the narrative tradition is interested in personal and familial histories and shared experiences rather than answering a single research question (Clandinin & Connelly, 2000). Interviews were conducted by AEB. These interviews lasted on average 45 min. Next, approximately every three weeks, participants were asked to provide reflections largely centered around how they felt they were becoming doctors as well as asked participants to reflect more deeply on their gender in how they were becoming doctors. (See Table 2 for selection of reflection prompts). Six rounds of reflections were gathered from November 2020 to April 2021, making a total of 105 number of reflections (on average 4.7 per participant). All participants provided at least 2 reflections. A final interview in May 2021 with each participant was performed and lasted on average 45 min. This final interview was focused on looking back at their first year of medical school, and about how they felt their own knowledge and their identities informed how they were becoming doctors.

내러티브 분석
Narrative analysis

이 연구에서는 참가자들이 의사가 되는 과정을 어떻게 생각하는지 반복적으로 질문하는 데 중점을 두었습니다. 성별, 학습, 의학에 대한 직업적 사회화에 대한 폭넓은 경험에 대한 조사도 포함했기 때문에 인터뷰와 성찰을 통해 참가자들이 직면한 어려움과 기회, 때로는 희망적인 가능성에 대한 이야기를 이끌어냈습니다. (Anderson & Kirkpatrick, 2015)에서 설명한 것처럼, 이야기로서의 내러티브 탐구는 "단순한 사건의 목록이 아니라 화자가 시간과 의미에서 사건을 연결하려는 시도"(632쪽)입니다. 연구자로서 우리의 위치, 연구자로서의 성찰, 의대 여학생들의 비판적 작업과 노력을 높이려는 우리 자신의 노력을 바탕으로, 우리는 이 이야기를 인식론적 불의를 바로잡는 이야기로 서술합니다.
For this study, we focused on repeatedly asking how the participants felt they were becoming doctors. Since we also included probes about gender, learning, and broad experiences with professional socialization into medicine, interviews and reflections also elicited stories about challenges participants faced as well as opportunities and sometimes possibilities where they were hopeful. As (Anderson & Kirkpatrick, 2015) explain, narrative inquiry as story “is not just a list of events, but an attempt by the narrator to link them both in time and meaning” (p. 632). Based on our positionalities, reflexivity as researchers, and our own efforts to uplift the critical work and efforts of women students in medical school—we narrate this story as one about redressing epistemic injustice.

참여자들의 유효한 지식과 역사적, 문화적, 사회적 기원과 함께 그들의 경험에서 인식론적 불공정의 명백한 존재를 염두에 두고, 우리는 분석에 전체론적 접근 방식을 사용했습니다(Clandinin, 2013; Clandinin & Connelly, 2000; Konopasky et al., 2021). 전체론적 접근 방식개인의 역사를 고려할 뿐만 아니라 "체계적인 전체를 구성하는 이야기, 사건 또는 일련의 이야기와 사건 내의 연결에 초점을 맞추는" 접근 방식입니다(Konopasky 외., 2021). 이 논문의 체계적인 전체는 의과 대학 1학년 동안 참가자들이 인식론적 불의와 주체성 집행의 순간이었습니다. 우리는 먼저 데이터를 반복적으로 읽고 참가자의 초기 생활과 의대 재학 기간 동안 인식적 불공정의 순간을 중심으로 메모를 독립적으로 작성하는 것으로 시작했습니다(Richardson, 1997; Richardson & St. Pierre, 2000). 다음으로, 이번에는 의대 시절의 사건에 초점을 맞추어 인식적 불공정의 사례와 참가자들이 이러한 불공정에 어떻게 대응했는지에 대한 더 큰 내러티브를 구축하기 위해 다시 녹취록을 읽기로 했습니다. 여러 참가자들의 이야기를 읽으면서 정확히 같은 이야기는 아니더라도 비슷한 이야기가 공유되고 있음을 발견했습니다. 이러한 이야기를 정리하고 인식론적 부정의와 인식론적 주체성을 모두 포함하는 내러티브 아크arc를 개발하기 위해 우리는 중간 텍스트를 작성하기 시작했습니다. 
Holding in mind the valid knowledge and historical, cultural, and social origins of our participants alongside the unmistakable presence of epistemic injustice in their experiences, we used a holistic approach to analysis (Clandinin, 2013; Clandinin & Connelly, 2000; Konopasky et al., 2021). A holistic approach considers personal histories, as well as “focuses on connections within a story, an event or even a series of stories and events that build a systematic whole” (Konopasky et al., 2021). The systemic whole for this paper were the moments of epistemic injustice and the enactment of agency on the part of the participants during their first year of medical school. We began by first performing repeated readings of the data and independently writing memos centered on moments of epistemic injustice during both the early lives of our participants and their time in medical school (Richardson, 1997; Richardson & St. Pierre, 2000). Next, we moved to reading transcripts again, this time focused on events during medical school to build the larger narrative of both instances of epistemic injustice and any connections to how participants responded to these injustices. Throughout readings we found similar if not the exact same story being shared by multiple participants. To organize these stories and develop a narrative arc including both epistemic injustice and epistemic agency, we moved to writing interim texts.

중간 텍스트는 연구 결과를 어떻게 정리할지, 어떤 이야기를 강조할지에 대한 가능성의 초안이었습니다(Clandinin & Connelly, 2000; St. Pierre & Jackson, 2014). 이 글들은 코딩과 코드 번들링의 첫 번째와 두 번째 단계(Saldaña, 2016)와 연구 결과의 최종 버전 사이의 텍스트, 즉 우리가 서로 협상하는 데 도움이 되는 글과 우리가 전한 이야기 사이의 텍스트 역할을 했습니다. 표 3 중간 텍스트 주제와 시간은 의료 환경에서의 인식론적 불공정에 대한 초기 경험, 의과대학에서의 인식론적 불공정의 순간, 불공정에 대응하는 인식론적 주체성의 사례를 정리한 최종 중간 텍스트의 한 예입니다. 각 열은 우리가 시간의 '플롯 포인트'라고 부르는 것을 나타냅니다. 각 행 안에는 불의 또는 기관에 따라 식별한 주제가 있습니다. 표에서 왼쪽에서 오른쪽으로 이동하면 이러한 불공정이 시간순으로 배치되고 참가자들이 불공정을 어떻게 시정했는지에 대한 예시가 표시됩니다. 각 행은 셀을 왼쪽에서 오른쪽으로 느슨하게 연결합니다. 조사 결과 발표에는 '초기 생애'의 구체적인 예가 포함되어 있지 않지만, 내러티브 분석을 위해 참가자의 생애 전체를 어떻게 끌어왔는지 설명하기 위해 이 부분을 열로 포함했습니다. 예를 들어, 간호사로 추정되거나 혼란스러웠던 경험은 일부 참가자가 의사 진료실에서 젊은 여성이라는 말을 듣지 못했던 초기 경험을 떠올리게 합니다. 마찬가지로, 참가자들이 추근대거나 수술복이 어떻게 보이는지 설명한 사례는 신체에 대한 초기 경험을 반영한 것입니다. 표 3은 연구 결과를 최종적으로 정리한 청사진입니다.  

Interim texts were drafts of possibilities for how we organized our findings, and what stories we would emphasize (Clandinin & Connelly, 2000; St. Pierre & Jackson, 2014). They served as texts between first and second phases of coding and code bundling (Saldaña, 2016) and final versions of findings; writings that helped us make negotiations with one another and the story we told. Table 3 Interim Text Themes and Time is an example of one of our final interim texts that organizes early experiences of epistemic injustice in healthcare settings, moments of epistemic injustice in medical school, and examples of epistemic agency in response to injustices. Each column represents what we call “plot-points” in time. Within each row are the themes we identified according to injustices or agency. Moving from left to right on the table places these injustices in time and examples of how participants redressed injustices. Each row loosely connects the cells from left to right. Although our presentation of findings does not include specific examples of “early life,” we included this as a column to illustrate how we pulled on the entirety of a participant’s life to inform our narrative analysis. For example, being assumed to be a nurse or feeling confused are reminiscent of early experiences some participants shared of not being heard as young women in a doctor’s office. Similarly, instances of being hit on, or when participants described ways their scrubs looked were reflections of earlier experiences of their physical bodies. Table 3 was a blueprint for how our findings were finally organized.

연구 결과
Findings

지배적인 지식에 대한 실제적인 차이와 대안을 설명하기 위해 인식론적 불공정의 틀을 짜는 것은 개인이 불공정의 경험을 통해 어떻게 작동하는지에 대한 더 깊은 인식을 유도합니다. 또한, 인식론적 불공정에 대한 접근 방식은 개인의 역사, 개인적 경험, 특히 커뮤니티 지식을 포함하여 불공정이 개인 전체에게 어떻게 발생하는지 인식합니다. 아래 연구 결과는 의과대학 8개월 동안의 인식론적 불공정의 타임라인을 설명합니다. 이 조사 결과에 사용된 인용문은 22명의 참가자 표본을 대표합니다. 질적 내러티브 연구자로서 우리는 이 연구에 참여한 사람들의 더 큰 이야기를 반영하는 발췌문을 제공하고 다양한 참여자의 인용문을 제시하기 위해 노력했습니다. 먼저 참가자들의 경험의 배경을 제공하기 위해 불공정한 사례를 소개합니다. 이러한 사례는 교수진, 다른 남학생, 커리큘럼과의 상호작용 중에 발생했습니다. 다음으로, 참가자들이 인식적 불공정을 시정하고 자신에게 가해진 피해에 어떻게 대응했는지에 대해 이야기하는 인식적 주체성의 순간을 제공합니다. 불의를 바로잡기 위한 세 가지 가능성, 즉 자신이 의학계에 속해 있음을 재확인하고, 목소리를 내고, 서로를 격려하는 방법이 제시되었습니다. 
Framing epistemic injustice to account for the very real differences and alternatives to dominant knowledges invites deeper recognition of how individuals are working through experiences of injustice. Additionally, our approach to epistemic injustice recognizes how injustices occur upon the whole person, inclusive of their history, personal experience, and especially their community knowledge. The findings below describe the timeline of epistemic injustice over an eight-month period of medical school. The quotes used in these findings are representative of the sample of 22 participants. As qualitative narrative researchers, we strive to provide excerpts that reflect the larger shared story of those in this study and ensure a variety of participant quotes were presented. We first introduce instances of injustice to provide a backdrop of the experiences of the participants. These instances occurred during interactions with faculty, other men students, and the curriculum. Next, we offer moments of epistemic agency, describing the ways the participants redressed epistemic injustice and talked about how they countered the harm they felt was being done to them. Three possibilities for redressing injustices are presented:

  • reaffirming they belong in medicine,
  • calling out and speaking up, and
  • uplifting one another.

의과대학 내 인식론적 불공정 사례
Epistemic injustice in medical school

인식론적 불공정의 사례는 종종 참가자들이 의학을 추구하는 목적에 의문을 품게 만들었고, 때로는 이 분야에서 자신의 존재에 의문을 품게 만들었습니다. 그러나 무시당한다는 느낌을 받은 모든 상호작용이 명백한 것은 아니었습니다. 많은 참가자들은 도슨(2012)이 "불평등을 만들고 유지하는 사회 인식론적 구조..."(30쪽)로 인해 신뢰를 잃었다고 느낀 미묘한 순간을 설명했습니다. 의과대학에서 이러한 사회 인식론적 구조는 역사에서 파생된 문화로, 여성이 의과대학에 속하지 않는다는 수사를 유지합니다(Kang & Kaplan, 2019). 예를 들어, 한 참가자는 소그룹 학습 중 자신의 상호작용을 설명하면서 "명시적으로 언급되지 않았거나 현실이 아닐 수도 있지만, 때때로 남학생과 여학생 사이에 차이가 있는 것 같고, 때로는 남학생이 과학적 개념을 더 쉽게 이해할 수 있다는 명시되지 않은 암시가 있는 것 같다"고 반성했습니다. 이 참가자의 관찰은 성별이 학습 그룹에서 비언어적 상호 작용 중에도 한 성별을 다른 성별보다 우대하는 방식을 어떻게 형성할 수 있는지를 설명합니다. 이 참가자의 관찰에서 주목할 만한 점은 남성이 과학을 더 잘한다는 교육적 역학 관계를 경험한 결과 자신과 남성인 반 친구들 사이에서 느낀 '분리divide'였습니다. 이 참가자가 느낀 인식론적 불공평은 주로 성별에 근거한 것이었습니다. 그런 다음 그녀는 자신의 관찰이 '현실'인지 의문을 제기하고, 자신과 남성인 학생들 사이의 다른 대우에 대한 자신의 감정이 실제로 사실인지 숙고하면서 의과대학에서 자신의 지식과 위치에 의문을 제기해야 했습니다.
Instances of epistemic injustice often left participants questioning their purpose for pursuing medicine, and sometimes their presence in the field. However, not all interactions that led to feelings of being overlooked were explicit. Many participants described subtle moments of feeling divested of credibility due to, what Dotson (2012) refers to as the “socioepistemic structures that create and sustain situated inequality…” (p. 30). These socioepistemic structures in medical school are the cultures, derived from history, that maintain the rhetoric that women do not belong in medical school (Kang & Kaplan, 2019). For example, when describing her interactions during small group learning, one participant reflected, “Sometimes, although it is never explicitly stated or may not be reality, it does seem like there is a divide between the men and women medical students, and sometimes there appears to be this unstated undertone that the men have an easier time of understanding the scientific concepts.” This participant’s observation describes how gender may shape the way a learning group can privilege one gender over another, even during non-verbal interactions. Notable to this participant’s observation is the “divide” she felt between herself and classmates who are men, a result of experiencing the larger educative dynamic that men are better at science. The epistemic injustice this participant felt was largely based on her gender. She then questioned whether her observations were “reality” and pondered if her feelings about different treatment between herself and the students who are men was in fact true, an exercise in having to question her own knowledge and place in medical school.

다른 참가자들도 인식적 불공정의 사례를 공유하면서 자신이 의과대학에 속하지 않았다는 느낌을 공통적으로 드러냈습니다. 
Other participants, when sharing instances of epistemic injustice, also disclosed the overarching sense that they did not belong in medical school.

항상 이곳에 속하지 않는다는 느낌이 들었습니다. 마치 우리가 여러분을 들여보낸 것처럼, 여러분은 본질적으로 이 공간에 속해 있는 것이 아니라 우리가 여러분을 들여보냈다는 것을 상기시켜줄 것입니다. 그리고 여러분 스스로도 그렇게 생각해야 합니다. 많은 남성, 특히 백인 남성은 자신이 이 공간에 속해 있다는 것을 상기시키기 위해 해야 하는 감정 노동을 이해하지 못한다고 생각합니다. 
There’s always this feeling of just, you don’t quite belong here. Like you’ve been let in and we’re going to remind you that we let you in versus you just intrinsically belong in this space. And you have to remind yourself that you do. And I think a lot of men, particularly White men, don’t understand the emotional labor you have to do to remind yourself that you belong in this space.

이 참가자의 말은 성별에 따라 의과대학에 가면 안 된다고 은근히 또는 노골적으로 느꼈던 다른 참가자들의 많은 경험을 떠올리게 합니다. 이러한 경험은 참가자들이 의학을 추구해서는 안 된다고 느끼도록 만드는 인식론적 불공정을 나타냅니다. 한 구체적인 상호작용은 참가자들이 의과대학에서 교수진으로부터 질문을 받을 때 자신의 지식과 씨름하는 동시에 성별을 떠올리게 되는 과정을 보여줍니다: 
This participant’s words recall many of the experiences of other participants, of feelings discreetly or overtly that they should not be in medical school largely based on their gender. These experiences are indicative of epistemic injustices, as participants would be made to feel they should not be pursuing medicine. One specific interaction demonstrates how participants grappled with their own knowledge in medical school when being questioned from faculty, while also being reminded of their gender:

저는 한 의사와 의사가 환자의 슬픔을 다루는 데 도움을 줄 수 있는 방법에 대한 아이디어를 논의하고 있었습니다. 저는 그분께 이 아이디어를 제시했고, 그분은 "계속 찾아보세요. 당신이 할 수 있는 일이 정말 많아요."라고 말해주었습니다. 나중에 제가 약리학의 기초 과학적 질문에 대한 아이디어를 제시했을 때 그가 한 말은 충격적이었습니다. 그는 저에게 "넌 똑똑한 애야. 네가 조사하기에 훨씬 더 좋은 질문이야."라고 말했죠. 저는 공중 보건과 사람들을 정서적으로 돌보는 것이 육체적으로 돌보는 것의 중요한 부분인 곳에서 왔습니다. 제 신념 체계 전체에 의문을 갖게 되었어요. 
I was discussing an idea that I had with a physician, something on the topic of how physicians can help patients handle grief. I presented this idea to him and he told me, “keep looking. There are so many things that you could do.” So then when I presented to him later with an idea about a basic science question in pharmacology, the thing that he told me was shocking. He told me “you’re a smart girl. This is a much better question for you to investigate.” I come from a place where public health and taking care of people emotionally is a major part of taking care of them physically. It just made me question my entire belief system.

이 참가자는 교수진과의 상호작용을 통해 자신의 가치와 신념에 의문을 갖게 되었습니다. 유색인종 여성으로서 그녀는 자신의 인종과 성별과 함께 자신이 알고 있는 '똑똑함'을 사실로 바로잡아야 하는 상황에 직면했습니다. 게다가 공중 보건에 대한 이전 교육이 유효한지 여부에 대해서도 의문을 품었습니다. 이 참가자를 가장 힘들게 한 것은 아마도 [사람들을 돌보겠다는 헌신]과 [더 많은 "과학적 질문"을 추구해야 한다는 압박] 사이의 긴장감일 것입니다. 이 참가자에게는 이 두 가지 추구가 서로 상충되는 것이었습니다.

This participant’s interaction with her faculty member made her question her own values and beliefs. As a woman of Color, she was also faced with having to rectify her “smartness” with what she knows to be true, alongside her race and gender. Moreover, she questioned whether or not her previous education in public health was valid. Perhaps most frustrating for this participant was the tension between her commitment to care for people and pressure to pursue more “science questions.” For this participant these two pursuits were at odds.

참가자와 남성인 다른 학생들 간의 상호작용에서도 인식론적 불공평이 드러났습니다. 별도의 성찰에서 많은 참가자가 학습에 영향을 미친 사건을 설명했습니다. 한 유색인종 참가자는 시나리오를 설명했습니다:
Interactions between participants and other students who were men also introduced epistemic injustices. In separate reflections, many participants described an event that impacted their learning. One participant of Color described the scenario:

3주 전, 저는 신체 검사를 담당할 SIM 남성 파트너를 배정받았습니다. 우리는 함께 환자를 면담해야 했습니다. 그런데 그 남학생은 저를 기다리지 않고 바로 정보를 수집하기 시작했습니다. 그는 도를 넘었고 문진 부분만 하겠다고 말했음에도 불구하고 제게 말할 기회를 주지 않았습니다. 마침내 환자에게 "이제 신체검사를 실시하겠습니다"라고 말했고, 제가 청진기를 꺼내는 동안 남성 파트너는 대담하게도 환자에게 달려가 재빨리 장비를 챙겨서 신체검사를 시작했습니다. 그는 제가 마치 그의 서기인 것처럼 작은 발견 사항 하나하나를 중얼거리며 메모해 주었습니다. 저는 매우 충격을 받았습니다. 
Three weeks ago, I was assigned a SIM male partner to perform a physical exam. We had to interview the patient together. But the male student did not wait for me, and he immediately began to gather information. He was overstepping and did not give me a chance to speak, even though he said that he will only do the history for the interview portion. I finally told the patient “I will now perform the physical exam” and as I was taking out my stethoscope my male partner had the audacity to run to the patient and quickly grab his equipment and begin performing the PE. He mumbled every little finding to me as though I was his scribe, just taking notes for him. I was very shook.

이 참가자는 옆으로 밀려나고 무시당하는 경험에 괴로움을 느꼈고, 동료 학생에게 심한 무례함을 느꼈습니다. 또한 이 참가자는 파트너와 환자 면담 진행 방식에 대해 합의한 후 환자와 면담실에 들어갔지만, 의대생으로서의 지식이 부족할 뿐만 아니라 도가 지나쳤다고 지적했습니다. 한 순간의 SIM 경험에서 인식론적 불공정은 성별에 따라 이 참가자의 의대생으로서의 자신감과 지식을 표적으로 삼았고, 그녀는 "흔들리는" 느낌을 받았습니다. 
The experience of being pushed aside and talked over were distressful for this participant, making her face acute disrespect from her fellow classmate. Additionally, this participant pointed out she and her partner had come to an agreement about how the patient interview would proceed, and once in the room with the patient she was not only overstepped, but also minimized in her knowledge as a medical student. In one swift SIM experience, epistemic injustice targeted this participant’s confidence and knowledge as a medical student based on her gender and she left feeling “shook.”

인식론적 불공정은 커리큘럼에서 분명하게 드러나는 다른 학습 경험에서도 존재했습니다. 한 백인 참가자는 여성 환자를 성적으로 묘사한 필수 독서에 대해 설명했습니다. 이 참가자는 불쾌감을 느꼈을 뿐만 아니라 교수진이 자신과 여성인 다른 학급 친구들에 대해 어떻게 생각할지 혼란스러웠다고 말했습니다. "우리 중 많은 여성들이 매우 불쾌했습니다. 어떻게 이게 괜찮을 수 있죠? 여성 환자를 성적 대상화하지 않고도 이 자료를 가르칠 수 있는 다른 강의는 세상에 없었을까요?" 이 경험은 참가자들에게 피해를 입혔고, 다른 세 명은 반성문을 통해 이 시나리오를 공유하고 부적절하다고 생각되는 내용이 어떻게 학습에서 중립적인 것으로 제시될 수 있는지에 대해 의문을 제기했습니다. 다른 학습 사례에서도 참가자들은 학습에서 여성의 신체가 얼마나 적게 표현되었는지를 깨닫고 혼란을 겪었습니다. 
Epistemic injustices were also present during other learning experiences, evident in curriculum. One White participant described required reading that portrayed a female patient in a sexualized manner. This participant shared how offended she felt, as well as confused about what faculty may think about her and her other classmates who were women. “A lot of us females were super offended, I mean, how is this okay? Is there no other article in the world that could have taught us the material without sexualizing a female patient?” This experience caused harm to participants and three others shared this scenario through their written reflections and questioned how something they believed inappropriate could be presented as neutral in learning. Other learning instances also stirred confusion for participants when they realized how little representation a woman’s body had in their learning.

저를 괴롭힌 몇 가지 사항이 있습니다. 예를 들어 신체검사를 해야 하는데 여성에게 신체검사를 하는 방법을 가르쳐주지 않았어요. 그리고 제 실습 파트너는 여자였어요. 그래서 다섯 번째 늑간 공간을 만질 때 말 그대로 가슴에 있는 그 부분을 만져야 하나요? 어떻게 해야 하나요? 브래지어를 들어 올려야 하나요? 브래지어 위로 해야 하나요?  사소한 질문이 너무 많아서 제대로 하고 있는지 확인하고 싶었어요. 하지만 가르쳐주지 않았어요. 그게 정말 중요하지 않나요? 그래서 제가 여성이라는 사실을 더 자각하게 되었죠. 
There are some things that kind of bothered me. Like we had to do our physical exam, but they didn’t teach us how to do it on a woman. And my practice partner was a girl. And so when we feel for the fifth intercostal space, that’s literally on your breasts, like, are we supposed to touch it? How are we supposed to do it? Was I supposed to lift the bra up? Are we supposed to do it over the bra?  There were so many little questions and we wanted to make sure we’re doing it right. But they didn’t teach us. And isn't that really important? So it made me more aware of being a woman.



백인 1세대 학생인 이 참가자는 신체 검사를 위해 여성의 몸을 어떻게 움직여야 하는지 모르는 것뿐만 아니라 학습 과정에서 여성의 신체에 대한 배려가 없는 것 같아 괴로웠습니다. 다른 방식의 앎과 학습에 대한 이러한 무시는 학생들의 의학 교육에서 여성을 신체적으로 "타자"로 젠더화하는 인식론적 불공정이 어떻게 나타날 수 있는지를 보여주는 예입니다. 이 경험을 통해 그녀는 자신의 성별에 대해 더 잘 인식하게 되었고, 자신의 신체가 의과대학에 속하지 않을 수 있으며, 더 나아가 의과대학에서 배울 만큼 중요한 신체로 간주되지 않을 수 있다는 생각을 증폭시켰습니다.
This participant, a White first-generation student, was troubled by both not knowing how to maneuver around a woman’s form for a physical exam, but also that there seemed not to be consideration for a woman’s body in her learning. This disregard for other ways of knowing (and learning) is an example of how epistemic injustice can appear in students’ medical training, gendering women physically as “other.” This experience made her more aware of her gender, amplifying how her body may not belong in medical school, and potentially worse, might not be considered a body important enough to learn about in medical school.

인식론적 주체성을 통한 인식론적 불공정의 시정
Redressing epistemic injustice through epistemic agency

참가자들은 의대 재학 중 인식론적 불공정을 겪었지만, 8개월이 지나면서 의대 재학 중 자신의 가치와 시스템 내에서 변화를 만드는 데 참여하는 것의 중요성을 인식하게 되었습니다. 참가자들은 남성인 다른 학생 및 교수진과 교류하고 정해진 커리큘럼을 배우는 과정에서 여성이라는 이유로 무시당하고 소외되는 느낌을 받았으며, 자신의 지식이 정당하지 않다고 느끼게 되었습니다. 또한 의사의 공감에 대해 연구하고 싶었던 참가자의 경우처럼 자신이 알고 있는 지식은 물론 새로운 지식조차도 가치가 없다고 느꼈습니다. 이러한 인식론적 불공정의 순간을 바로잡기 위해 참가자들은 

  • (1) 자신이 의과대학에 속한 이유를 되찾고, 
  • (2) 커리큘럼에서 배운 내용을 상기시키며, 
  • (3) 서로를 격려하기 위해 노력했습니다.

Although participants described encounters with epistemic injustice during medical school, over the course of eight months they came to recognize their own value in being in medical school as well as the importance of being a part of making change within the system. During interactions between themselves and other students and faculty who were men, and learning from prescribed curriculum, participants experienced feeling overlooked and marginalized because they are women; thus being made to feel their own knowledge was not legitimate. Furthermore, they described how their own way of knowing and even new ways of knowing (as in the case of the participant who hoped to research physician empathy) were not valuable. To redress these moments of epistemic injustice, participants worked to

  • (1) reclaim why they belong in medical school,
  • (2) call out their curricular materials, and
  • (3) uplift one another.

의과대학에 소속된 이유 되찾기
Reclaiming why they belong in medical school

소속감을 느끼는 동시에 소외감을 느끼는 불안정한 감정으로 인해 많은 참가자가 의대를 선택한 이유를 다시 확인했습니다. 또한 참가자들은 자신이 이 분야에 가져온 지식을 상기하기 위해 노력했습니다. 참가자들은 반성적 숙고를 통해 자신이 왜 의대를 선택했는지 스스로에게 상기시키는 시간을 가졌습니다. 컬러의 한 참가자는 "저는 정말 힘을 얻었고, 제 '이유'는 개인으로서 그리고 리더십으로서 성장하고 싶다는 것입니다."라고 말했습니다. 다른 참가자들은 자신의 성별과 여성으로서 의학계에서 자신이 어떻게 소속되어 있는지 재확인했습니다: 
The unsettled feeling between knowing they belong while also being marginalized led many participants to reaffirm why they chose to pursue medicine. Additionally, participants worked to remind themselves of the knowledge they brought to the field. Through reflexive deliberations, they shared how they spent time reminding themselves about why they pursued medical school. One participant of Color shared, “I feel really empowered… and my ‘why’ is I want to grow as an individual and in my leadership.” Others reaffirmed their gender and how they belong in medicine as women:

여성으로서의 경험과 제가 가지고 있는 모든 것이 환자와 대화하거나 학습하는 데 있어 가장 좋은 방법이 무엇인지 이해하는 데 도움이 될 수 있다고 생각합니다. 성장과 경험, 상호작용에 관한 모든 것. 
I feel that my experience as a female and everything I have to bring to the table can help me understand what’s the best way to approach interactions or talking to patients or learning. Anything regarding growth and experiences and interactions.

 

마찬가지로 한 참가자는 "제 성별 때문에 정서적 보호자가 되어야 한다는 사회적 기대가 생겼고, 이는 환자와 상호작용할 때 그대로 드러납니다. 하지만 정서적 교감이 환자와의 만남에서 가장 만족스러운 요소라고 생각합니다."라고 말했습니다. 참가자들은 자신의 성별뿐만 아니라 성별과 관련된 더 큰 사회적 규범에 대해서도 자각하고 있었습니다. 간병인 및 보호자가 되는 것에 대한 기대는 참가자들이 의과대학에서 자신의 소속감을 상기시키고 정서적 연결을 가져다주는 역할을 다시금 상기시키는 특성이었습니다.
Likewise, one participant reflected, “my gender has raised me with societal expectations of being the emotional caretaker, and that comes through when I’m interacting with patients. But I believe the emotional connection is the most satisfying component of the patient encounter.” Participants were self-aware of their gender, as well as the larger societal norms connected to their gender. Expectations of being caregivers and caretakers were attributes these participants reclaimed as reminders as to how they belonged in medical school; to bring emotional connections.

정서적 측면 외에도 많은 참가자가 의과대학에 소속된 이유에 대한 더 큰 그림에 대해 논의했습니다. 이러한 큰 그림은 종종 참가자들이 제도적 문제에 대한 인식과 이러한 문제를 해결하기 위한 각자의 역할을 지적하는 것이었습니다. 한 URiM 참가자는 "지치고 패배감을 느끼는 날에는 내가 어떻게 지역사회를 위해 봉사할 수 있을지 자주 생각하게 됩니다. 의사가 다른 사람들의 삶에 긍정적인 영향을 미칠 수 있는 놀라운 잠재력을 떠올리게 됩니다."라고 말했습니다. 마찬가지로 다른 참가자도 "우리는 환자를 옹호할 수 있고 정말 열심히 노력할 수 있습니다. 하지만 결국 중요한 것은 환자와 어떻게 상호 작용하고 무엇을 하고 있는지, 환자와 함께 무엇을 위해 기꺼이 싸울 것인지입니다."라고 말했습니다. 따라서 참가자들은 자신의 이야기와 역사가 학습 방법과 의과대학에 있는 이유에 어떻게 영향을 미치는지 알게 되었습니다: 
In addition to the emotional aspect, many other participants discussed the bigger picture of why they belonged in medical school. These bigger pictures often pointed to participants’ awareness of systemic challenges, and their individual roles in addressing these challenges. One URiM participant shared, “On days when I am feeling tired and defeated, I often think back to how I will serve as an advocate for my community. I am reminded of the incredible potential that a physician has to positively impact the lives of others.” Likewise, another participant shared, “We can advocate for our patients and we can try really hard. But at the end of the day, it is how we interact with our patients and what we're doing, what we're willing to fight for with them.” Thus, participants were aware of how their own stories and histories informed how they are learning, as well as why they are in medical school:

의과대학에서 우리를 형성하는 많은 배움은 학교 안에서만 일어나는 것이 아닙니다. 때로는 외부에서 경험하고 같은 반 친구들이 인생에서 겪은 일에 대해 이야기하는 것을 듣기도 합니다. 의사가 되기 전의 경험과 의료계에서 어떤 대우를 받았는지, 그리고 가족들이 어떤 대우를 받았는지가 의사로서 자신을 형성하는 데 많은 영향을 미친다고 생각합니다. 그리고 그것이 중요하다고 생각합니다. 
A lot of the learning that happen that shape us in medical school or the stuff doesn’t even happen within school itself. Sometimes it’s our outside experience and listening to classmates talk about what they've gone through in their life. I think a lot of what shapes you as a physician is your experience prior to med school and how you have been treated and how your family has been treated in medicine. And I think that is important.

참가자들은 의료계의 더 큰 인식적 불공정을 예리하게 인식하고, 학습 여정에서 자신의 역사, 지식, 경험을 인식했으며, 의대 재학 중과 졸업 후 환자와의 상호작용이 더 큰 불공정과 불균형을 시정할 수 있는 방법임을 재확인했습니다. 또한 참가자들은 반성적 숙고를 통해 여성으로서 자신의 관점이 어떤 가치가 있는지 스스로 되새겼습니다. 
Participants were acutely aware of the larger epistemic injustices in healthcare, recognized their own histories, knowledge, and experiences in their learning journeys, and reaffirmed ways that interactions they would have with patients during and after medical school would be the way could redress larger injustices and disparities. Furthermore, participants engaged in reflexive deliberations to remind themselves about ways their own perspectives as women were valuable.

커리큘럼 자료 불러내기
Calling out curricular materials

한 해 동안의 어려운 학습 경험은 학생들이 커리큘럼을 외쳐야 한다고 느끼는 방식을 강조했습니다. 학생들은 외치는 행위를 통해 전략적으로 저항하고, 자신의 권위를 주장하고, 자신이 직접 확인하고 경험한 인식론적 불의에 대응했습니다. 참가자들이 반성문과 최종 인터뷰에서 언급했던 문제가 되는 기사가 이러한 호소의 한 예입니다. 한 참가자는 "모욕적"이고 "여성 환자를 성적으로 묘사한" 동일한 기사를 다른 참가자는 용납할 수 없다고 지적했습니다: "남성 동료들이 여성 환자를 대하는 방법과 같은 허용 가능한 행동을 배운다고 생각하니 좋지 않다고 생각해요. 물론 그대로 두되, 이 글이 허용되지 않는 이유에 대해 소그룹과 대화를 나눈다는 내용을 넣으세요."라는 댓글이 달렸습니다.  
Troubling learning experiences throughout the year highlighted how students felt they needed to call out the curriculum. Through the act of calling out, students engaged in strategic resisting, asserting their authority and countering the epistemic injustices they identified and experienced directly. One such example of calling out is the troubling article participants commented on in their reflections and final interview. The same article one participant described as “offensive” and “sexualizing a female patient,” another participant indicated as impermissible: “the thought of my male colleagues learning that’s acceptable behavior, like a way to treat a female patient I don’t think this is good. Sure leave it up, but put something that says have a conversation with a small group about why this article is not acceptable.”

기사에 댓글을 단 참가자들은 교수진에게 다가가 해당 기사의 적절성에 대해 대화를 시작했습니다. 궁극적으로 이들의 행동은 최종 목표를 달성하는 데 성공했지만, 이러한 행동은 또한 자신과 특정 교수진 사이에 더욱 긍정적이고 존중하는 상호 작용을 촉진했습니다. 
Participants who commented on the article approached the faculty member, opening up a conversation about the appropriateness of the reading. Ultimately, their actions were successful towards their end-goals, but these actions also stewarded more positive and respectful interactions between themselves and this particular faculty member.

결국 그 글은 삭제되었습니다. 이 일을 계기로 저희는 정말 우리가 목소리를 낼 수 있다는 것을 느꼈습니다. 비록 우리는 의대생일 뿐이고 무엇을 해야 하고 무엇을 읽어야 하는지 지시를 받지만, 우리의 의견은 중요합니다. 그리고 목소리를 내기에 결코 늦지 않았습니다.
In the end, the article did get taken down. It really made us feel like we do have a voice. And even though we're just medical students and we're told what to do and what to read, our opinion does matter. And it's never too late to speak up.

참가자들은 자신의 가치와 지식으로 자신이 피해를 입었다고 느낀 부분을 바로잡을 수 있을 만큼 용감하고 신념이 있었습니다. 이를 통해 참가자들은 자신의 의견이 중요하고 자신의 지식이 정당하다는 것을 인식할 수 있었으며, 교수진이 경청하고 변화를 이끌어낼 수 있었습니다. 
Participants were both brave enough and convicted by their own values and knowledge to redress how they felt harmed. This allowed participants to recognize their “opinion does matter” and their knowledge were legitimate, enough so for a faculty member to listen and make a change.

커리큘럼 자료를 불러오는 다른 사례는 더 미묘했으며, 참가자들이 시뮬레이션에서 스크립트화된 상호작용을 하는 동안 환자 상호작용에 대한 자신의 지식과 직관을 어떻게 활용했는지를 보여주었습니다. 참가자들은 반성적 숙고를 통해 자신의 지식과 경험을 불러일으켰고, 환자 시뮬레이션 중에 이를 활용하여 때때로 긴장되는 학습 경험에서 자신을 편안하게 하고 시뮬레이션된 환자를 편안하게 했습니다. 한 유색인종 참가자는 "커리큘럼이 모든 것을 체크리스트로 제시하고 환자 상호 작용에서 감정을 분리하는 것 같습니다."라고 말했습니다. 또 다른 백인 참가자는 체크리스트에 대한 다른 견해를 제시했습니다. "우리는 체크리스트를 사용하고 정서적 상담에 더 깊이 파고드는 데 중점을 두었습니다. 환자를 위로하는 것이 중요하지만 모든 환자가 그런 식으로 마음을 여는 것을 좋아하는 것은 아닙니다." 몇몇 참가자는 체크리스트를 사용하여 공감이나 연민을 이끌어내거나 환자 면담을 더 잘 수행하는 방법을 배우는 데 도움이 되었다고 말했습니다. 그러나 참가자들은 대인 관계에 대한 자신의 지식을 활용하고 이러한 지식을 임상 및 시뮬레이션 경험에 삽입하는 방법도 배웠습니다. 한 참가자는 다음과 같이 말했습니다, 
Other instances of calling out curricular materials were more subtle and revealed how participants navigated their own knowledge and intuition about patient interactions during more scripted interactions in simulation. Through reflexive deliberations, they called upon their own sense of knowing and experience and used this during patient simulation to both put themselves at ease during sometimes nerve-racking learning experiences and put the simulated patient at ease. One participant of Color noted, “I feel a little like our curriculum presents everything as a checklist and detaches the emotion from our patient interactions.” Another White participant offered a different view of checklists, “A lot of our focus has been to use checklists and dig deeper into emotional counseling. While it is important to comfort patients, not all patients like to open up that way.” Several participants commented on using checklists to elicit empathy or compassion, or to help them learn how to better perform patient interviews. However, participants also learned how to draw on their own knowledge about interpersonal connections and insert this knowledge into their clinical and simulated experiences. One participant shared,

체크리스트는 분명히 환자와의 감정에 관한 것이고, 저는 실제로 환자와 교감하고 있습니다. 저는 환자와 소통하는 능력에 대해 보완을 받았고, 환자와의 만남에서 가장 만족스러운 요소는 정서적 연결이라고 생각하며, 이는 환자와 상호작용할 때 드러납니다."라고 말했습니다. 
Clearly the checklists are about emoting with the patient, and I actually connect with the patient. I have been complemented on my ability to connect with them…and I believe the emotional connection is the most satisfying component of the patient encounter and this comes through when I’m interacting with them.

마찬가지로 다른 참가자는 "환자마다 개성이 다르기 때문에 반드시 지켜야 하는 체크리스트를 따르는 것이 항상 병상 매너를 가르치는 올바른 방법은 아닙니다. 저는 환자가 방문의 흐름을 결정하고 적응하고 기어를 바꿀 수 있도록 내버려둘 수 있었습니다." 마지막으로 한 참가자는 "[환자 면담은] 항상 제게 제2의 천직이었으며, 많은 SP가 제 연민으로 인해 잠재적으로 무서운 의학적 문제를 겪고 있는 환자에게 보살핌과 위로를 받았다고 큰 피드백을 주었습니다."라고 설명했습니다. 
Similarly, another participant shared “Every patient is unique and following a checklist that we absolutely must stick to is not always the correct way to teach bedside manners. I’ve been able to let the patient decide the flow of a visit and adapt, and shift gears.” Finally, one participant explained, “[Patient interviewing] has always been second nature to me and many of the SPs have given me great feedback about how my compassion made them feel cared about and comforted them during a potentially scary medical problem.”

참가자들은 체크리스트를 읽거나 따라야 하는 학습 경험을 통해 자신의 지식과 경험을 쌓고, 그 지식과 경험을 행동으로 옮길 수 있었습니다. 다른 참가자들은 표준화 환자들로부터 격려적인 피드백을 받으면서 환자 면담을 수행하는 방법에 대한 자신의 개인적 지식을 재확인하여 환자로부터 주요 관심사를 이끌어내는 참가자들만의 방법을 지원받았습니다. 참가자들은 목소리를 내고 목소리를 높임으로써 받아들일 수 없는 커리큘럼 자료에 대해 전략적으로 저항하고 체크리스트와 기타 커리큘럼 자료를 환자 치료에 대한 접근 방식에 맞게 더 유연하게 만들 수 있는 방법을 고민하기도 했습니다. 
Participants were able to shore up their own knowledge and experience during learning experiences that required reading or following checklists and put that knowledge and experience into action. Other participants received encouraging feedback from standardized patients, reaffirming their own personal knowledge about how to perform a patient interview, thereby supporting participants’ own way of eliciting chief concerns from patients. By speaking up and calling out, participants deployed strategic resistance to unacceptable curricular material, and also deliberated how they could make checklists and other curricular material more flexible towards their approach to patient care.

서로 격려하기
Uplifting one another

공동체의 고양감을 갖는 것은 참가자들이 인식의 불공정을 바로잡는 데 중요한 역할을 했습니다. 참가자들의 커뮤니티 형성은 주로 의과대학에서 여성이라는 공통된 경험을 중심으로 이루어졌습니다. 또한 특정 사건을 계기로 함께 모이게 되었습니다. 예를 들어, 한 백인 참가자는 짝을 지어 환자를 검사하는 실습에서 다른 참가자들이 옆으로 밀려난 경험이 있다는 사실을 알게 된 후, 그 경험에 대해 디브리핑하고 행동 계획을 수립했습니다.
Having a sense of communal uplift was an important part in how participants redressed epistemic injustices. Forming community for participants was primarily around their shared experience of being women in medical school. Their coming together was also ignited after specific incidences. For example, after learning that several others had experienced being pushed aside during a paired patient exam exercise, a White participant described how many of them debriefed about the experience and developed a plan of action.

어느 날 SIM에서 짝을 이루어 프리셉터 없이 환자 병력과 신체검사를 해야 하는 과제를 받은 적이 있었습니다. 그런데 제 친구로부터 파트너가 그 상황을 완전히 장악하고 자신이 어떤 작업도 할 수 없도록 했다는 이야기를 들었습니다. 그때 저는 우리 모두가 남성과 여성으로 나뉘어 있다는 사실을 깨달았습니다. 그 후 다른 친구로부터 같은 이야기를 들었는데, 그 친구 역시 남자 파트너가 전체 만남을 장악하고 있었습니다. 그리고 또 들었어요! 그리고 또 들었습니다! 너무 많은 사람들이 이런 일을 겪었기 때문에 저희는 말 그대로 "SIM의 위대한 스팀롤링"이라는 이름을 붙였을 정도로 심각한 문제였습니다. 언젠가 적어도 8명의 다른 여성들과 함께 테이블에 둘러앉아 우리의 경험에 대해 이야기하던 때가 기억납니다. 그들 중 다수는 언젠가 남성 동료와 비슷한 상황을 겪은 적이 있었습니다. 우리는 이것이 학습 경험에 방해가 된다는 데 동의했습니다. 저는 그 테이블에 앉아 똑똑하고 강인하며 동정심이 많은 여성들을 둘러보았습니다. 저는 물었습니다... 이렇게 해도 괜찮을까요? 그냥 이런 일이 일어나게 놔둘까요? 저는 이 문제를 어떻게 해결할 수 있을지 생각했습니다. 이런 일이 일어났을 때 여성으로서 나서서 무언가를 말해야 한다는 부담감을 갖거나. 아니면 우리 코호트의 남성들에게 그들이 하는 행동이 해롭다는 것을 가르치고 성별과 특권이 그들의 행동에 어떤 영향을 미치는지 인식하도록 돕습니다. 그래서 저는 두 가지를 모두 하면 어떨까 생각했습니다. 
There was this one day in SIM where we were paired up and tasked to do a patient history and physical without a preceptor. And I heard from my friend that her partner had totally commandeered the encounter and didn’t allow her to do any of the tasks. It was then that I realized we were all broken into male-female pairs. I then heard this SAME story from another friend, whose male partner took over the entire encounter as well. And then I heard it again! And again! It was such a problem that we literally gave it a name, “The Great Steamrolling of SIM” because it had happened to so many of us. I remember one day, sitting around a table with at least 8 other women talking about our experiences. Many of them had a similar situation occur with a male colleague at some point or another. We agreed that this detracted from the learning experience. Sitting at that table, I looked around at this group of smart, strong, compassionate women. I asked… so are we okay with this? Do we just let this happen? I thought about how we could fix it. Either we put the burden on us as women to step up and say something when this is happening. OR we teach the males in our cohort that what they are doing is harmful and help them become aware of how their gender and privilege influence their behaviors. So I thought, what if we did both?

이 참가자는 많은 반 친구들이 감정적으로 힘들고 괴로운 경험을 겪은 후, 함께 모여 사건에 대해 공유했을 뿐만 아니라 이 사건을 해결하기 위한 계획을 세운 과정을 설명했습니다. 서로의 경험을 공유할 수 있는 커뮤니티를 형성함으로써 참가자들은 자신이 겪은 피해를 인식하는 동시에 자신의 지식과 정보를 검증할 수 있었습니다. 이 참가자는 같은 반 친구들을 똑똑하고 강인하며 자비로운 여성으로 묘사하면서 그들의 임계치와 공유된 경험이 남성 동료들에게 중요한 변화를 촉발할 수 있다는 것을 알았습니다. 또한 이 참가자는 이러한 성찰을 통해 유해한 상호 작용에 대한 자신의 지식이 어떻게 이용되어서는 안 되는지를 확인했습니다. 따라서 SIM의 위대한 스팀롤링을 경험한 참가자들은 존중하는 학습이 무엇인지에 대한 지식을 바탕으로 동료들을 교육함으로써 지속적인 문제를 해결할 방법을 함께 결정했습니다. 간단히 말해, 그들은 자신이 경험한 불공정을 바로잡기 위한 전략을 함께 세웠습니다. 
This participant described how after an emotionally charged and distressing experience for many of her classmates, they came together to not only share what had happened but also make a plan to address this incident. By forming a community together where shared experiences could be heard, the participants were able to recognize the harm they had experienced while also validating their own knowledge and intelligence. As this participant described her classmates as smart, strong, compassionate women she knew their critical mass and shared experience could catalyze important change with their men peers. Furthermore, in this reflection, this participant also identifies how her knowledge about the harmful interaction should not be taken advantage of; thus, the participants who experienced The Great Steamrolling of SIM drew from their knowledge about what respectful learning is, and together decided how to address an ongoing problem by educating their peers. Simply, they came together with a strategy to redress the injustice they had experienced.

서로를 고양하는 것은 대인관계와 관찰을 통한 상호작용에서도 나타났습니다. 한 백인 참가자는 자신이 수업 시간에 대답할 때 "이건 틀린 것 같지만..."이라는 말을 계속 사용하는 것을 알아차린 다른 학생으로부터 어떻게 지지를 받았는지 공유했습니다. 그녀는 이렇게 설명했습니다, 
Uplifting one another also came in more interpersonal and observational interactions. One White participant shared how she felt supported by another student who noticed her continued use of prefacing her class-time answers with “this is probably wrong but…” She described,

저는 제 자신을 보호하기 위해 답변 앞에 '이것이 옳은지 잘 모르겠습니다'와 같은 문구를 넣었습니다. 하지만 같은 반 친구는 자신도 비슷한 감정을 경험했으며 미래의 여성 의사로서 자신을 과소평가하지 말고 우리 자신과 잠재력을 의심하지 말아야 한다고 말했습니다. 저는 그 친구의 말에 전적으로 동의하며, 제 답변이나 설명에 자기 의심을 앞세우지 않으려고 노력하고 있습니다. 여의대생들도 비슷한 감정을 경험하는 것은 매우 흔한 일이라고 생각하지만, 우리는 이런 이야기를 자주 하지 않습니다. 우리는 자신이 부족해 보일까 봐 약해 보이거나 연약해 보이고 싶지 않아요. 
I preceded my answers with statements like ‘I’m not sure if this is right’ to shield myself. But my classmate shared that she had also experienced similar feelings, and that as future female physicians we need to stop selling ourselves short and stop doubting ourselves and our potential. I completely agree with her and I’ve been making an effort to stop prefacing my answers or explanations with self-doubt. I think it's very common for female medical school students to experience similar feelings, however we don't often talk about these things. We don't want to seem weak or vulnerable in fear of being seen as less than.

이 고양의 순간은 나약하고 연약하다는 느낌을 공유한 두 참가자 간의 간단한 대화에서 비롯되었으며, 한 참가자는 다른 참가자에게서 이를 발견했습니다. 두 사람은 함께 이러한 어려움을 극복하고 보다 적극적인 태도를 통해 변화를 일으키거나 보다 명확한 전략적 주체성과 저항을 구현하기 위해 노력했습니다. 
This moment of uplift came from a simple conversation between two participants, one who shared the same challenges of feeling weak and vulnerable, and noticing this in another. Together, they worked through these challenges and worked to make changes or enact clearer strategic agency and resistance by being more assertive.

토론
Discussion

이 연구는 여의대생들의 경험에서 인식론적 불공정에 대한 설명을 제시하고 이러한 불공정을 시정하기 위해 학생들이 어떻게 노력했는지에 대한 설명을 제공하는 것을 목표로 했습니다. 인식론적 불공정의 틀을 통해 참가자들이 배웠던 교육 공간과 상호 작용에 대한 배경을 제시하고, 참가자들이 종종 유효한 지식인valid knowers으로서 불신을 받는 과정을 설명했습니다. 참가자들이 이러한 불의에 대응하는 방식은 스스로의 관점을 취하거나 자기 대화를 통해, 그리고 보다 중요한 전략적 저항 행위를 통해 이루어졌습니다. 관점 취하기전략적 저항을 통해 학생들의 주체성이 확립되었지만, 이러한 인식론적 부당함과 학생들의 반응은 다층적입니다. 학생들의 주체적 행동은 의료계의 더 큰 거시적 부조리를 조명합니다. 예를 들어, 자신이 왜 의과대학에 속해 있는지 스스로에게 상기시키는 것은 참가자들이 자신의 영향력 영역에 대한 인식과 의과대학에서 경험하는 많은 어려움이 체계적이라는 것을 이해하는 것을 정확히 보여줍니다. 
This study aimed to present descriptions of epistemic injustice in the experiences of women medical students and provide accounts about how these students worked to redress these injustices. Through the framework of epistemic injustice, we offered a backdrop for the educative spaces and interactions the participants learned in, describing how participants were often discredited as valid knowers. The ways participants countered these injustices were through both their own perspective taking or self-talk, and more critical acts of strategic resistance. While their agency was enacted through perspective-taking as well as strategic resistance, these epistemic injustices and the students’ reactions are multi-layered. The agentic behavior of the students illuminates the larger macro-injustices of the medical profession. For example, reminding themselves why they belong in medical school pinpoints participants’ awareness of their sphere of influence and their understanding that many of the challenges they experience in medical school are systemic.

참가자들은 의대를 선택한 이유에 대한 자신의 신념을 되새기며 어떤 의사가 될 것인지, 누구를 위해 봉사할 것인지, 왜 의대에 왔는지에 대한 중요한 지식을 가지고 있음을 스스로에게 상기시켰습니다. 이러한 성찰은 의과대학의 지배적이고 남성 중심적인 문화에도 불구하고(또는 때로는 그럼에도 불구하고) 학생들이 자신의 목표를 향해 나아가는 데 도움이 되었습니다. 또한 참가자들은 자신이 의학에 속해 있다는 것을 어떻게 알았는지에 대해 열정적으로 이야기했지만, 미래의 의사로서 자신의 특별한 위치에 대해 순진하지 않았습니다. 참가자들은 또한 자신만의 노하우를 활용하여 처음에는 처방에 의존하던 환자 진료 방식을 조정하고 특정 상황에서는 개선하기도 했습니다. 참가자들은 환자 면담 체크리스트와 같은 암기식 학습 경험을 통해 자신과 환자 간의 관계를 형성하고 공감하며 궁극적으로 배려하는 의사소통을 이끌어내는 방법에 대한 직관에 귀를 기울였습니다. 다시 말하지만, 이러한 일상적인 학습 경험을 통해 참가자들이 나눈 내면의 대화는 그들의 인식론적 지식과 수완을 반영하는 것이었습니다. 그들은 스스로를 신뢰하며 일부 학습 상황에서 자신의 접근 방식이 유효하다는 점을 강조했습니다. 
Participants pulled on their own beliefs about why they pursued medicine, reminding themselves that they held important knowledge about what kind of doctor they would become, who they would serve, and why they came to medical school. These were reflexive deliberations and helped them advance in their goals, despite (or at times in spite of) the dominating androcentric culture of medical school. Moreover, while participants spoke passionately about how they knew they belonged in medicine, they were not naïve about their singular position as future physicians. Participants also used their own ways of knowing to tweak and in certain situations, improve a patient encounter that had initially been prescriptive. They used rote learning experiences such as checklists for patient interviews as opportunities to listen to their intuitions about how to relate, empathize, and eventually elicit caring communication between themselves and patients. Again, the inner conversations participants had during these more routine learning experiences were a reflection of their epistemic knowledge and their resourcefulness. They trusted themselves, reinforcing that their approaches in some learning situations were valid.

참가자들은 관점을 취하는 것 외에도 보다 전략적인 이니셔티브를 통해 인식의 불공정을 바로잡았습니다. 참가자들은 서로를 의지하여 공동의 소외를 인식하고 이러한 공동의 소외를 변화시키기 위해 집단적으로 행동할 수 있는 커뮤니티를 구축했습니다. '위대한 심 스팀롤링' 기간 동안 참가자들은 서로 협력하여 자신의 지성을 고양하고 이러한 사례가 종식될 수 있도록 행동했습니다. 마찬가지로, 몇몇 참가자는 부적절한 학문적 독서에 대해 의견을 제시하고 결국 교수진에게 접근하여 이 독서에 대해 논의했습니다. 이러한 행동은 참가자들이 자신을 불법적인 지식인으로 만드는 더 큰 구조에 저항하는 동시에, 특히 교수진이 경청할 뿐만 아니라 동일한 행동action in-kind으로 응답했을 때 합법적인 지식인이 될 수 있도록 하기 위해 사용한 구체적인 전술이었습니다. 인식론적 불공정의 영역에 놓일 때, 이러한 주체적 행동은 더 큰 시스템적 변화가 일어나야만 인식될 수 있습니다. Dotson(2012)은 인식론적 불공정을 해결하기 위해서는 "진정한 차이를 인식하기 위해 일종의 '세계 여행'이 필요하다"고 주장합니다(Dotson, 2012, 34-35쪽). 이러한 종류의 세계 여행은 "대화와 대화를 넘어서는 것"으로, 다른 앎의 방식을 소중히 여길 뿐만 아니라 상황에 따라 다른 앎의 방식이 더 적합할 때를 이해하고 인식하는 데 헌신해야 합니다. 
In addition to perspective taking, participants redressed epistemic injustices through more strategic initiatives. They drew on one another to build a community that could both recognize shared marginalization and collectively act to change this shared marginalization. During “The Great SIM Steamrolling” participants worked with one another, both uplifting their own intelligence and then acting to ensure instances such as this would end. Likewise, several participants commented on an inappropriate academic reading, and eventually approached the faculty member to discuss this reading. These actions were concrete tactics participants used to both resist the larger structure that rendered them as illegitimate knowers, while also enabling them as legitimate knowers, particularly when faculty not only listened but responded with action in-kind. When placed within the realm of epistemic injustice, these agentic behaviors may only be recognized once larger systemic change takes place. Dotson (2012) argues that addressing epistemic injustice “demands a kind of ‘world’-traveling…[where] we come to appreciate genuine differences” (Dotson, 2012, pp. 34–35). This kind of world-traveling “extends beyond conversation and dialogue;” it requires commitment to not only valuing other ways of knowing but also to understanding and recognizing when other ways of knowing (and coming to know) are a better fit given the context.


의학교육의 맥락에서 세계 여행의학계에서 여성이 다수를 차지한다고 해서 성 고정관념이 뿌리 깊게 박힌 문화가 바뀌지 않는다는 것을 이해하는 것을 의미할 수 있습니다.

  • 더 넓은 관점에서 세계 여행은 의과대학의 리더십 역할에서 성별 및 인종적 다양성을 추구하거나 캠퍼스 전체 행사에 더 다양한 초청 연사를 초청하기 위해 의도적으로 노력하는 것을 의미할 수 있습니다.
  • 보다 미시적인 관점에서 세계 여행은 학생들과 그들의 배경과 문화에 대해 배우는 시간을 갖거나 학생들이 소외되거나 차별받았던 경험을 이야기할 때 경청하는 것을 의미할 수 있습니다.

세계 여행은 학생들의 지식 구현을 지원하는 학습 환경을 구축하고 학생들이 중요한 지식의 형태를 활용하도록 장려하는 것을 의미할 수 있습니다(Rocha 외., 2022; Wyatt 외., 2018). 이러한 격려란 학생들에게 자신의 경험이 의과대학에서 학습하는 방식을 어떻게 형성하는지 묻거나, 의학에 대한 자신의 역사가 커리큘럼과 상호작용하는 방식에 어떤 영향을 미칠 수 있는지에 대해 생각해 보도록 유도하는 것을 의미합니다. 학생들의 이러한 중요한 지식을 인정하고 육성하는 것은 학생들 자신의 직업적 정체성 개발에 도움이 될 수 있으며, 의사가 되는 개인적, 공동체적 이유를 강화할 수 있습니다. 세계 여행은 의대생이 '백지 상태'가 아니라는 마음가짐으로 교육과 학습에 접근하는 것을 의미하며(퍼거스 외, 2018), 의사로서 자신의 정체성을 배우고 개발하는 방법을 알려주는 풍부한 경험을 가져올 수 있습니다. 교수법을 개선하고자 학생들과 상호작용하고 가르치는 사람들은 인식론적 불공정의 렌즈를 사용하여 의과대학의 보다 공식적인 교육 및 학습에 잠재되어 있거나 무언의 또는 숨겨진 형태의 커리큘럼이 어떻게 내재되어 있는지 조사하는 것을 고려할 수 있습니다(Milem 외., 2012; Nazar 외., 2015).  

In the context of medical education, world-traveling can mean understanding that a majority representation of women in medicine will not change a culture deeply embedded with gender stereotypes.

  • From a broader standpoint, world-traveling can mean pursuing more gender and racial diversity in leadership roles in medical colleges or making intentional efforts to invite more diverse guest speakers to all-campus events.
  • From a more micro-standpoint, world-traveling can mean taking time to learn about students and their backgrounds and cultures or listening when students bring up experiences of being marginalized or discriminated against.

World-traveling can mean establishing learning environments that support students’ embodiment of their knowledge and further encouraging students to draw on their important forms of knowledge (Rocha et al., 2022; Wyatt et al., 2018). This encouragement means asking students how their own experiences may be shaping how they learn material in medical school or inviting students to reflect on ways their history with medicine may be informing how they interact with curriculum. Acknowledging and fostering these important knowledges in students may aid in their own professional identity development and strengthen their personal and communal reasons for becoming doctors. World-traveling can mean approaching teaching and learning with the mindset that medical students are not “blank slates” (Fergus et al., 2018) and bring with them a wealth of experience that inform how they learn and develop their own identities as physicians. Those who interact and teach students seeking to improve their teaching practice might consider engaging the lens of epistemic injustice to examine ways latent and unspoken or hidden forms of curricula are embedded in more formal teaching and learning in medical school (Milem et al., 2012; Nazar et al., 2015).

이 연구에 참여한 여학생들이 보여준 에이전시는 공유된 경험을 해결하거나 개선하기 위해 함께 노력하는 지식인 커뮤니티를 반영합니다. 또한, 이들의 에이전시는 보다 긴밀한 소규모 그룹에 속해 학습 경험을 공유하던 첫 해에 공유되었습니다. 이와 같은 공동 대리인 관행은 수습 기간에는 불가능할 수도 있지만, 이 연구 참여자들의 집단적 대리인(Beier et al., 2016; Lockie, 2004)을 인식하면 커리큘럼의 내용과 설계뿐만 아니라 첫해와 향후 몇 년 동안 동시에 많은 학습자에게 영향을 미칠 수 있는 능력에 대한 관점을 전환하는 데 도움이 됩니다. 이러한 접근 방식은 인식론적 변화를 달성하기 위해서는 관련된 모든 사람의 의도적이고 공동의 노력과 다양한 형태의 인식론적 불공정을 가려낼 수 있는 능력이 필요하다는 Dotson(2012)의 주장에 귀를 기울이는 데 도움이 됩니다. 'the 올바른' 앎의 방식에서 'a 올바른' 앎의 방식으로 사고방식을 전환하는 것은 학생들의 개인적, 직업적 발전에 중요한 이점을 가져올 수 있습니다. 의대생들의 집단적 주체성은 향후 의과대학에서 교육과 학습을 위한 중요한 수단이 될 수 있을 뿐만 아니라, 공유된 공동의 경험 안에서 개인의 경험의 균형을 맞추는 데에도 도움이 될 수 있습니다. 또한, 권력을 가진 사람들이 인식적 불공정의 만연을 제한하기 위해 어떻게 더 큰 구조적 변화와 공동의 대리성을 지원할 수 있는지에 대한 추가적인 연구도 필요합니다. 이 연구에서 살펴본 참여자들의 주체성 사례와 그들의 주체성을 엿보는 것이 제도화될 가능성이 있는 더 큰 공평한 변화를 촉진하는 촉매제가 되기를 바랍니다(Carr et al., 2017; Sugarman & Martin, 2011). 

The agency the women students in this study demonstrated reflects a community of knowers working together to address/redress a shared experience. Furthermore, their agency was shared during their first year, a time when they were in more close-knit small groups and shared learning experiences. These same practices of communal agency may not be possible in clerkship years, but recognizing the collective agency (Beier et al., 2016; Lockie, 2004) of the participants in this study helps shift perspectives on ways curriculum is networked not just in its content and design, but also in its ability to impact a large group of learners simultaneously in their first-year and potentially in future years. This approach helps heed Dotson’s (2012) call that achieving epistemic change requires intentional and concerted efforts among all involved, and an ability to sift through multiple forms of epistemic injustice. Shifting mindsets from “the” correct way of knowing to a” correct way of knowing can have important benefits for students in their own personal and professional development. Collective agency on the part of medical students may be an important avenue for future work on teaching and learning in medical school, as well as balancing individual experiences within a shared communal experience. Additionally further work on understanding how those in power may support larger structural changes and communal agency to limit the pervasiveness of epistemic injustice is also needed. We hope the examples of agency on the part of our participants, and the glimpses of their agency in this study may also catalyze larger equitable change that has the possibility to become institutionalized (Carr et al., 2017; Sugarman & Martin, 2011).

 


Adv Health Sci Educ Theory Pract. 2023 Aug;28(3):741-758. doi: 10.1007/s10459-022-10183-x. Epub 2022 Nov 17.

 

Redressing injustices: how women students enact agency in undergraduate medical education

Affiliations collapse

1Office of Medical Education Research and Development, Michigan State University College of Human Medicine, 964 Wilson Road, Fee Hall A214, East Lansing, MI, 48824, USA. blalocka@msu.edu.

2Michigan State University College of Education, East Lansing, USA.

PMID: 36394683

PMCID: PMC9672615

DOI: 10.1007/s10459-022-10183-x

Free PMC article

 

 

Abstract

This study presents descriptions of epistemic injustice in the experiences of women medical students and provides accounts about how these students worked to redress these injustices. Epistemic injustice is both the immediate discrediting of an individual's knowledge based on their social identity and the act of persistently ignoring possibilities for other ways of knowing. Using critical narrative interviews and personal reflections over an eight-month period, 22 women students during their first year of medical school described instances when their knowledge and experience was discredited and ignored, then the ways they enacted agency to redress these injustices. Participants described three distinct ways they worked to redress injustices: reclaiming why they belong in medicine, speaking up and calling out the curriculum, and uplifting one another. This study has implications for recognizing medical students as whole individuals with lived histories and experiences and advocates for recognizing medical students' perspectives as valuable sources of knowledge.

Keywords: Agency; Epistemic injustice in medicine; Longitudinal qualitative research; Women medical students.

"정말 곤란하게 만들어요", 중국 전공의의 전문직업성 딜레마(Adv Health Sci Educ Theory Pract. 2023)
“It really puts me in a bind”, professionalism dilemmas reported by Chinese residents
Xinzhi Song1 · Nan Jiang1 · Ning Ding1 · Honghe Li1 · Chunyu Xin1 · Ruoyi Qu1 · Deliang Wen1

소개
Introduction

전문직업성은 시대와 문화에 따라 달라지는 복잡하고 다차원적이며 통합적인 구성 요소이며(Hodges et al., 2011), 사회에서 의사에게 기대하는 행동과 속성으로 볼 수 있습니다(Cruess et al., 2009). 전문직업성 연구 분야에서는 덕목 기반, 행동 기반, 정체성 형성 등 세 가지 주요 유형의 프레임워크가 발전해 왔습니다(Irby & Hamstra, 2016). 각 프레임워크는 서로를 보완하고 더 큰 전체에 기여하는 강점과 한계를 가지고 있습니다.

  • 미덕 기반 프레임워크는 인성을 강조하고 의사의 내적 습관, 도덕적 추론, 인문학적 자질에 중점을 둡니다.
  • 전문직 정체성 형성은 개인과 집단 모두를 포함하며, 정체성 개발과 실무 커뮤니티로의 사회화에 중점을 둡니다.
    • 두 가지 유형의 프레임워크 모두 학습자에게 동기를 부여하는 데 도움이 되지만, 덕성 기반 프레임워크의 경우 인성 및 도덕적 추론을 평가하기 어렵고, 전문직 정체성 형성을 설명, 해석 및 평가하기는 더욱 어렵습니다(Barnhoorn et al., 2019; Irby & Hamstra, 2016).
  • 위의 두 가지 프레임워크의 문제점에 비해 행동 기반 프레임워크는 행동이 내면의 정신 모델을 반영할 수 있다는 전제하에 관찰 가능한 행동의 측정을 강조합니다. 통합된 작업이나 활동의 여러 구성 요소를 개별 행동으로 분리할 수 있지만, 관찰 가능한 행동을 평가하는 것이 통일성과 객관성을 확보하는 데 가장 용이할 수 있습니다(Barnhoorn & van Mook, 2015). 실제로 이러한 행동은 종종 개별 전문가와 환자의 수준을 넘어 동료 및 의료 시스템과의 상호 작용을 포함합니다(Irby & Hamstra, 2016; Lesser et al., 2010). Lesser 등이 제안한 바와 같이 관찰 가능한 행동의 렌즈를 통해 전문직업성을 바라보는 것은 전문직업성이 다차원적이라는 개념을 강화하고 의사가 실제로 발휘해야 하는 판단과 기술의 범위를 지적합니다(Lesser 등, 2010).

Professionalism is a complex, multidimensional, and integrated construct that varies across time and culture (Hodges et al., 2011) and can be viewed as the behaviors and attributes expected of a doctor by society (Cruess et al., 2009). In the field of professionalism research, three dominant types of frameworks have evolved, namely virtue-based, behavior-based, and identity formation (Irby & Hamstra, 2016). Each framework has strengths and limitations that complement each other and contribute to the larger whole.

  • The virtue-based framework emphasizes character and focuses on the inner habits of the heart, moral reasoning, and humanistic qualities of the physician.
  • Professional identity formation involves both the person and the group, focusing on identity development and socialization into a community of practice.
    • While both these types of frameworks help to motivate learners, it is difficult to assess character and moral reasoning for the virtue-based framework, and it is even more difficult to describe, interpret, and assess professional identity formation (Barnhoorn et al., 2019; Irby & Hamstra, 2016).
  • Against the challenges of the above two frameworks, the behavior-based framework emphasizes measurement of observable behaviors, with the premise that behaviors may reflect inner mental models. Though it may separate different components of integrated tasks or activities into discrete behaviors, assessment of observable behaviors may be easiest to achieve uniformity and objectivity (Barnhoorn & van Mook, 2015). In fact, these behaviors often go beyond levels of the individual professional and the patient to include interactions with colleagues and with the health care system (Irby & Hamstra, 2016; Lesser et al., 2010). As proposed by Lesser et al., viewing professionalism through the lens of observable behaviors reinforces the notion that professionalism is multidimensional and points to the range of judgment and skills physicians need to exhibit in practice (Lesser et al., 2010).


전문직업성은 의사의 경력 전반에 걸쳐 배양되고 평가되어야 하며, 학부 및 대학원 환경에서 전문직업성 원칙을 확립하기 위해서는 조기 교육이 매우 중요합니다(O'Sullivan 외., 2012). 레지던트 기간은 의사가 수련과 경험을 통해 전문직업성 행동을 개발하는 중추적인 시기입니다. 이를 인식한 미국의학전문대학원교육인증위원회(ACGME)는 레지던트가 레지던트를 졸업하기 전에 갖춰야 할 6가지 일반 역량 중 하나로 '전문직업성'을 우선적으로 꼽았습니다(미국의학전문대학원교육인증위원회, 2021). 수련 중인 레지던트는 의대생과 달리 훨씬 더 많은 수의 환자에 노출되고 업무의 복잡성이 높으며 단순한 관찰이 아닌 환자 진료에 대한 감독 책임을 져야 합니다(Levinson et al., 2014). 그 결과, 전공의들은 임상 수련 과정에서 전문직업성과 관련하여 많은 어려움에 직면하게 됩니다(Kinoshita et al., 2015; McArthur & Moore, 1997). 예를 들어, 전공의는 제한된 시간 내에 임상 지식과 기술을 향상시켜야 한다는 압박감을 느낄 수 있으며, 이로 인해 전문직업성 문제보다는 생산성과 효율성에 더 많은 관심을 갖게 됩니다(Brainard & Brislen, 2007; Chang et al., 2017). 또한 비윤리적이거나 비전문직업적이라고 생각되는 임상 활동을 목격하거나 참여할 수도 있습니다(Christakis & Feudtner, 1993; Kinoshita et al., 2015). 그러나 병원 위계질서의 숨겨진 커리큘럼 하에서는 전공의가 선배 의사의 결정이나 명령에 반대하기 어렵기 때문에 침묵해야 할 의무를 느낄 수 있으며(Martinez et al., 2015), 이로 인해 전공의는 전문직업성 딜레마에 빠지게 됩니다(Monrouxe & Rees, 2012). 

Professionalism should be cultivated and assessed throughout the physician’s career, and early education is critical for establishing professionalism principles in both undergraduate and postgraduate settings (O’Sullivan et al., 2012). Residency is a pivotal period for physicians to develop their professionalism behaviors with training and experience. Recognizing this, the Accreditation Council for Graduate Medical Education (ACGME) has preferentially listed “professionalism” as one of the six general competencies that residents must possess before graduating from residency (Accreditation Council for Graduate Medical Education, 2021). Different from medical students, residents-in-training are exposed to a significantly increased number of patients, have higher work complexity, and need to take supervised responsibility for patient care instead of mere observation (Levinson et al., 2014). As a result, residents encounter many challenges with regard to professionalism in their clinical training (Kinoshita et al., 2015; McArthur & Moore, 1997). For example, they may feel pressured to improve clinical knowledge and skills within a limited time, which makes them more concerned about productivity and efficiency than about professionalism issues (Brainard & Brislen, 2007; Chang et al., 2017). They may also witness or participate in clinical activities which they believe to be unethical or unprofessional (Christakis & Feudtner, 1993; Kinoshita et al., 2015). However, under the hidden curriculum of hospital hierarchy, it is difficult for residents to stand against senior physicians’ decisions or orders, and so they might feel obligated to keep silent (Martinez et al., 2015), thus causing residents to fall into professionalism dilemmas (Monrouxe & Rees, 2012).

실제로 레지던트들은 종종 전문직업성 딜레마를 경험하는데, 이는 전문직업적으로 또는 전문직업성 기준에 따라 행동하는 방법을 알고 있지만 제도적, 위계적 또는 사회문화적 제약으로 인해 행동할 수 없거나 어렵다고 느끼는 갈등 상황을 말합니다(Cuban, 2001; Wiggleton 외., 2010). 윤리적 또는 전문직업적 행동을 반복적으로 수행하지 못할 때, 

  • 일부 레지던트는 시간이 지남에 따라 이러한 부정적인 사건을 경험하면서 괴로워하는 반면
  • 일부 레지던트는 임상 역할 모델의 규범적 행동과 태도를 집단적이고 수동적으로 흡수하고 채택하여 특정 비전문직업적 행동이 용인되고 "바뀌지 않음" 문화가 강화됩니다 

또한 전문직업성 딜레마는 전문직업적 태도, 행동 및 전문직업적 정체성 형성에 부정적인 영향을 미친다는 증거도 있습니다(Kushner & Thomasma, 2001). 오늘날의 레지던트들은 미래의 레지던트를 교육하는 사람들이 될 것입니다. 전문직업성 딜레마가 적시에 적절하게 해결되지 않으면 의사(예: 연민 피로 및 소진)와 의료 서비스 전체(예: 환자 치료의 질 저하, 심지어 환자 안전 위협)에 여러 가지 심각한 결과가 나타날 수 있습니다(Monrouxe et al., 2015).
Indeed, residents often experience professionalism dilemmas, which refer to conflictual situations when one knows how to behave professionally or in accordance with the standards of professionalism but instead feels unable or difficult to act due to institutional, hierarchical, or sociocultural constraints (Cuban, 2001; Wiggleton et al., 2010). When repeatedly failing to perform ethical or professional behaviors,

  • some residents become distressed when experiencing these negative events over time, while
  • others collectively and passively absorb and adopt normative behaviors and attitudes from their clinical role models, resulting in certain unprofessional behaviors becoming acceptable and reinforcing a “no change” culture (Caldicott & Faber-Langendoen, 2005; Kelly & Nisker, 2009).

Evidence also showed that professionalism dilemmas negatively impact the development of professional attitudes, behaviors, and professional identity formation (Kushner & Thomasma, 2001). Today’s residents will be the ones who train residents in the future. If professionalism dilemmas are not appropriately addressed in a timely manner, a number of serious consequences may emerge for both physicians (e.g., compassion fatigue and burnout) and the whole of healthcare (e.g., decreasing the quality of patient care, even threatening patient safety) (Monrouxe et al., 2015).

중국의 의료 및 의학 교육
Health care and medical education in China

중국은 전 세계 인구의 약 5분의 1(14억 명 이상)이 의료비를 부담하고 있으며, 복잡한 의료 및 건강보험 시스템을 갖추고 있습니다. 중국의 병원은 기능과 업무에 따라 1차, 2차, 3차 병원의 세 가지 계층으로 분류됩니다. 이 분류에 따라 각 계층에 속하는 병원은 다시 A, B, C 등급으로 세분화되며, 가장 전문화된 병원을 위한 특별 등급인 3AAA 병원이 추가로 지정됩니다. 따라서 중국 병원 분류 시스템을 3단계 10등급 시스템이라고 합니다(중화인민공화국 보건부, 1989).

  • 이 시스템 내에서 일차 병원은 서구의 진료소, 지역 병원 및 1차 진료 기관과 유사합니다. 일반적으로 병상 수가 100개 미만이며 예방 치료, 재활 치료 및 기타 기본적인 의료 서비스를 제공합니다.
  • 2차 병원은 서양의 지역 병원 또는 지방 병원과 유사하며 일반적으로 100~500개의 병상을 보유하고 종합적인 의료 서비스를 제공하며 지역 의료 연구 및 교육을 수행합니다.
  • 3차 병원은 서양의 진료 의뢰 병원과 동등한 수준으로 간주되며 시, 도 또는 국가 차원의 종합적인 대형 병원입니다. 3차 병원은 주변 지역의 의료 허브 역할을 하며 1, 2차 병원의 진료뿐만 아니라 전문 의료 서비스도 제공합니다. 따라서 3차 병원은 가장 많은 병상(500개 이상)을 보유하고 있으며 의학 교육과 과학 연구 분야에서 훨씬 더 큰 역할을 담당합니다. 

China bears the health burden of nearly one-fifth of the world’s population (more than 1.4 billion) and is home to a complex health care and health insurance system. Hospitals in China are classified by function and tasks into three tiers, namely primary, secondary, and tertiary hospitals. On top of this classification, hospitals within each tier are then sub-graded into A, B, and C levels, with an additional special level—the 3AAA hospital—reserved for the most specialized hospitals. Therefore, the Chinese hospital classification system is referred to as the 3-tier 10-level system (Ministry of Health of the People’s Republic of China, 1989).

  • Within this system, primary hospitals are similar to medical clinics, community hospitals, and primary care institutions in the West. They usually contain less than one hundred beds and fulfill preventive care, rehabilitative care, and other basic medical care needs.
  • Secondary hospitals, similar to Western regional or district hospitals, usually have between one hundred and five hundred beds, provide comprehensive health services, and conduct regional medical research and education.
  • Tertiary hospitals are regarded as equivalents to referral hospitals in the West and are comprehensive large-scale hospitals at the municipal, provincial, or national level. Tertiary hospitals act as medical hubs for their surrounding areas and provide both specialist health services as well as consultations for primary and secondary hospitals. As such, tertiary hospitals have the highest bed capacities (over five hundred) and play a much larger role in medical education and scientific research.

2020년 기준 중국 인구의 95% 이상이 최소 기본 의료 보험에 가입했습니다(중화인민공화국 국가의료보장국, 2021). 중국의 기본 의료 보험에는 도시 직장인 기본 의료 보험(UEBMI), 도시 전공의 기본 의료 보험(URBMI), 신농촌 협동 의료 제도(NRCMS) 등 세 가지 주요 유형이 있습니다. 대부분의 국가에서 기본 의료 보험이 제공되지만, 공공 의료 보험은 일반적으로 의료비의 절반 정도만 보장하며 만성 질환의 경우 보장 범위가 더 낮을 수 있습니다. 또한 보험 유형에 관계없이 병원 등급이 높아질수록 환급률이 감소한다는 사실도 있습니다(예: NRCMS의 환급률은 1차 병원에서 60%의 보장률을 유지하지만 3차 병원에서는 약 30%에 불과합니다). 환자들은 길고 지루한 진료 의뢰 절차를 거쳐 여러 기관을 거치는 것을 선택할 수도 있고, 환자가 하위 병원에 대한 신뢰가 부족한 경우처럼 직접 상위 병원으로 이동하는 것을 선택할 수도 있습니다(Wang, 2019). 2020 보건 통계 보고서에 따르면 병상 가동률은 1차 병원에서 54.7%, 2차 병원에서 81.6%인 반면 3차 병원에서는 97.5%였습니다(중화인민공화국 국가위생건강위원회, 2021a). 이처럼 3차 병원의 높은 점유율은 환자 대 의사 비율 증가, 의사-환자 관계의 긴장감 증가, 3차 병원의 의료 서비스 제공자 및 의료진의 과중한 업무 부담 등의 문제를 야기합니다(Wen et al., 2016). 
As of 2020, more than 95% of the Chinese population had at least basic health insurance coverage (National Healthcare Security Administration of the People’s Republic of China, 2021). China’s basic medical insurance scheme includes three main types: the Urban Employee Basic Medical Insurance (UEBMI), the Urban Residents Basic Medical Insurance (URBMI), and the New Rural Co-operative Medical Scheme (NRCMS). Despite most of the country having basic medical coverage, public health insurance usually only covers about half of medical expenses, and this coverage may be even lower for chronic illnesses. Additionally, regardless of the type of insurance, all come with the fact that reimbursement rates decrease as hospital ranking increases (e.g., the reimbursement rate of NRCMS maintains 60 percent coverage in primary hospitals but only about 30 percent in tertiary hospitals). Patients can choose to undergo the long and tedious referral process up the chain of institutions, or patients can choose to jump the line and personally go directly to higher-level hospitals, as is often the case when patients lack trust in lower-level hospitals (Wang, 2019). According to the 2020 Health Statistics Report, bed utilization rates were 54.7% in primary hospitals and 81.6% in secondary hospitals, while the rate was 97.5% in tertiary hospitals (National Health Commission of the People’s Republic of China 2021a). This marked higher occupancy in tertiary hospitals also brings about problems such as higher patient-physician ratios, increased tensions in physician–patient relationships, and overburdening of healthcare providers and medical staff at tertiary hospitals (Wen et al., 2016).

중국의 국가 표준 레지던트 교육 시스템은 2014년에 설립되었습니다(국가보건가족계획위원회, 2014). 레지던트 프로그램은 전공과목에 관계없이 3년으로 정해졌으며, 임상에서 일하고자 하는 모든 의대 졸업생은 먼저 표준화된 레지던트 교육을 이수해야 합니다. 다른 많은 국가(예: 일본, 브라질, 네덜란드, 영국)와 유사한 의료 수련 모델을 가지고 있음에도 불구하고(Wijnen-Meijer 외, 2013), 중국의 레지던트 수련 시스템은 모든 레지던트가 일반적으로 최고 수준의 병원 기관이자 가장 바쁜 3차 A급 병원에서 수련을 받도록 요구합니다(중화인민공화국 국가위생건강위원회 2021b). 이러한 수련 환경에서 중국인 전공의는 과도한 업무량, 긴 근무 시간, 수면 부족, 근무 시간 외의 지속적인 당직 등으로 고통받고 있습니다(Bai et al., 2021). 또한 중국 전공의들은 개인적인 이익보다 대인 관계와 사회적 조화를 중시하는 중국 집단주의 사회의 문화적 영향과 요구와 함께 숨겨진 커리큘럼의 어려움에도 직면합니다. 따라서 서구의 전형적인 일과 삶의 분리는 개인적 관계와 직업적 관계 사이에 명확한 이분법이 없는 중국 환경에서는 달성하기가 훨씬 더 어렵습니다(Bedford, 2022). 그러나 현재까지 중국 전공의가 직면할 수 있는 전문직업성 딜레마와 도전 과제에 대해 조명한 연구는 거의 없습니다.
A system for national standardized residency training in China was established in 2014 (National Health & Family Planning Commission, 2014). Residency programs were set at three years in duration regardless of specialty, and all medical graduates looking for work in a clinical capacity must first complete standardized residency training. Despite having similar models of medical training to many other countries (e.g., Japan, Brazil, Netherlands, UK) (Wijnen-Meijer et al., 2013), the resident training system in China requires all residents to be trained in tertiary A-grade hospitals, which are usually the highest-level hospital institution and also the busiest (National Health Commission of the People’s Republic of China 2021b). In this kind of training environment, Chinese residents suffer from an excessive workload, longer working hours, sleep deprivation, and consistently being on call outside of working hours (Bai et al., 2021). In addition, Chinese residents also face the challenges of the hidden curriculum, along with cultural influences and demands of China’s collectivist society, where interpersonal relationships and social harmony are valued above personal interests. As such, the typical work-life separation in the West is much harder to achieve in the Chinese setting, where there is not necessarily a clear dichotomy between personal and professional relations (Bedford, 2022). However, to date, few studies have shed light on some of the professionalism dilemmas and challenges that Chinese residents may face.

전문직업성 딜레마에 대한 포괄적인 목록은 병원 관리자와 의료 교육자 모두에게 많은 이점을 제공할 것입니다. 예를 들어, 병원은 이 목록을 체크리스트로 사용하여 기존의 전문직업성 문제를 평가하고 레지던트를 위한 목표 개선안을 마련할 수 있으며(Cullen et al., 2017), 병원 관리자는 이 종합 목록을 사용하여 제도적 변화를 구현할 수 있는지 평가할 수 있습니다. 임상 교수진과 레지던트 프로그램 디렉터는 이 체크리스트의 단일 또는 여러 딜레마를 기반으로 교육 사례를 설계할 수 있으며, 이 체크리스트를 사용하여 이러한 전문직업성 딜레마로 인해 심각한 문제를 겪고 있는 레지던트를 선별하고 체크리스트에 제시된 구체적이고 관찰 가능한 행동 관련 문제에 따라 교정을 시행할 수 있습니다(Cullen 등, 2017; Hawkins 등, 2009). 따라서 본 연구는 행동 기반 전문직업성 프레임워크에 기반한 전문직업성 딜레마 체크리스트를 개발하고, 중국 전공의가 듣거나 목격하거나 경험한 전문직업성 딜레마의 범위와 비율을 조사하고, 전문직업성 딜레마에 직면했을 때 전공의의 관점을 이해하는 것을 목표로 합니다. 
A comprehensive list of professionalism dilemmas would provide many benefits for both hospital administration as well as medical educators. For example, hospitals can use this as a checklist to assess existing professionalism challenges and to create targeted remediation for their residents (Cullen et al., 2017); on the institutional side, hospital administrators can also use this comprehensive list to assess whether institutional changes can be implemented. Clinical faculty and residency program directors can design teaching cases based on single or multiple dilemmas from this checklist and can also use this checklist to screen residents who may be deeply troubled by these professionalism dilemmas and implement remediation, guided by the specific, observable behavior-related challenges presented in the checklist (Cullen et al., 2017; Hawkins et al., 2009). Therefore, our research aims to develop a checklist of professionalism dilemmas based on a behavior-based professionalism framework, to examine the range and proportion of professionalism dilemmas heard of, witnessed, or experienced by Chinese residents, and to gain understanding of residents’ perspectives when faced with professionalism dilemmas.

연구 방법
Methods

연구 설계
Study design

본 연구는 정성적(문서 분석 및 포커스 그룹 인터뷰)과 정량적(소규모 설문조사) 데이터로 구성된 혼합 방법 연구였습니다. 문서 분석은 이전에 발표된 논문에서 전문직업성 딜레마 항목을 요약하여 후속 포커스 그룹 인터뷰를 위한 전체적인 개요와 가이드를 제공했습니다. 포커스 그룹 인터뷰에서는 전문직업성 딜레마 항목에 대한 참가자들의 경험과 인식을 탐색하고 이해하기 위해 내러티브 탐구(Monrouxe & Rees, 2012; Wang & Ho, 2020)를 사용했습니다. 질적 연구 결과를 보고할 때는 질적 연구 보고 기준(SQRQ)을 따랐습니다(O'Brien et al., 2014). 각 포커스 그룹에서 소규모 설문조사를 실시하여 참가자들이 들어본 적이 있거나 목격하거나 경험했다고 답한 전문직업성 딜레마 항목의 비율을 조사했습니다. 

Our study was a mixed methods study consisting of qualitative (document analysis and focus group interviews) and quantitative (a small-scale questionnaire survey) data. Document analysis summarized professionalism dilemma items from previously published papers, providing an overall outline and guide for subsequent focus group interviews. For focus group interviews, we used narrative inquiry (Monrouxe & Rees, 2012; Wang & Ho, 2020) to explore and make sense of participants’ experiences and perceptions of professionalism dilemma items. When reporting qualitative results, we followed the Standards for Reporting Qualitative Research (SQRQ) (O’Brien et al., 2014). A small-scale questionnaire survey was conducted during each focus group to investigate the proportion of professionalism dilemma items that participants reported to have heard of, witnessed, or experienced.

모집 및 샘플링
Recruitment and sampling

2021년 3월과 4월 사이에 랴오닝성 선양에 위치한 종합 3차 A급 병원의 대학원 수련부 공고를 통해 6개월 이상 수련을 받은 레지던트를 대상으로 의도적 표본 추출(Moser & Korstjens, 2018)을 실시했습니다. 이 레지던트들은 이미 임상 경험이 어느 정도 있고 연구에 충분하고 유용한 정보를 제공할 수 있기 때문에 선발되었습니다. 또한 성별, 수련 기간, 전공이 다른 레지던트들을 의도적 표본 추출에 포함시켜 참여자 특성의 다양성을 확대했습니다. 참가자들을 전문 분야에 따라 여러 포커스 그룹으로 분류했습니다. 그런 다음 각 포커스 그룹 인터뷰 라운드마다 각 전문화 그룹에 대한 인터뷰를 연속적으로 진행했으며 주제별 포화 상태에 도달하면 모집을 중단했습니다. 연구 참여는 자발적으로 이루어졌으며 모든 참가자는 서면 동의서에 서명했으며 어떠한 보상도 받지 않았습니다.  
Between March and April 2021, we conducted purposive sampling (Moser & Korstjens, 2018) of residents who have undergone at least 6 months of training through announcements made by the Postgraduate Training Department of a comprehensive tertiary A-grade hospital in Shenyang, Liaoning province. These residents were selected because they already have some clinical experience and can provide sufficient and useful information for our research. Also, residents of different sex, duration of training completed, and specialization were selected in the purposive sampling to expand the diversity of participant characteristics. We grouped the participants into different focus groups according to their specialization. Then, for each round of focus group interviews, we conducted interviews with each specialization group in consecutive order and stopped recruiting when we reached thematic saturation. Participation in the study was voluntary, and all participants signed written informed consent forms and did not receive any compensation.

데이터 수집
Data collection

먼저 검색 주제를 '전문직업성 딜레마', '전문직업성 도전', '전문직업성 과실'로 설정하고 검색 대상을 '의사', '레지던트', '의대생'으로 설정한 논문에 대해 Web of Science에서 문헌 검색을 실시했습니다. 논문은 특정 시나리오를 설명하거나 특정 행동을 나열한 경우 포함할 수 있었습니다. 자세한 검색 전략은 보충 정보 부록 A에서 확인할 수 있습니다. 등록된 모든 논문에 기술된 딜레마, 도전 과제 또는 비전문직업적 행동은 Monrouxe와 Rees(2012)가 구성한 전문직업성 딜레마 주제 목록을 참조하여 추출 및 요약하여 전문직업성 딜레마 항목 풀을 생성했습니다. 그런 다음 템플릿 분석(King, 1998)을 사용하여 모든 항목을 Li 등(Li, 2017)의 중국 의사를 위한 기존 행동 기반 전문직업성 프레임워크에 매핑하여 네 가지 영역으로 구성했습니다. 이 과정은 두 명의 연구자(XZS, NJ)가 개별적으로 수행했으며, 이견이 있는 문항은 다른 세 명의 저자(ND, HHL, RYQ)와 함께 그룹 토론을 통해 해결했습니다. 그 결과 체크리스트의 첫 번째 버전이 만들어졌고, 이 체크리스트는 포커스 그룹의 첫 번째 라운드에서 사용되었습니다. 
We first conducted a literature search on Web of Science for papers with retrieval themes focused on “professionalism dilemma”, “professionalism challenge”, and “professionalism lapse” and the retrieval population focused on “physician”, “resident”, and “medical student”. Papers were eligible for inclusion if they described specific scenarios or listed specific behaviors. The detailed search strategy can be found in Supplementary information Appendix A. We extracted and summarized the dilemmas, challenges, or unprofessional behaviors described in all the enrolled papers with reference to the list of professionalism dilemma themes constructed by Monrouxe and Rees (2012) and generated an item pool of professionalism dilemmas. Using template analysis (King, 1998), all items were then mapped to an existing behavior-based professionalism framework for Chinese physicians by Li et al., comprising four domains (Li, 2017). This process was performed individually by two researchers (XZS and NJ), and disputes were settled by group discussion with three other authors (ND, HHL, and RYQ). The result was the first version of the checklist, to be used in the initial round of focus groups.

그 후 포커스 그룹 인터뷰를 반복적으로 실시했습니다. 모든 인터뷰는 허가를 받아 오디오로 녹음하고 익명으로 처리했습니다.

  • 각 인터뷰 세션이 시작될 때 그룹 진행자(XZS)는 참가자들에게 전문직업성의 개념을 소개했습니다.
    • 의사 헌장(ABIM 재단, 2002)의 기본 원칙,
    • ACGME(의학전문대학원 교육 인증위원회, 2021)에서 제안한 전문직업성의 속성,
    • Li 등의 전문직업성 프레임워크(Li, 2017)
  • 그런 다음 참가자들에게 전문직업성 딜레마에 대한 첫 번째 버전 체크리스트를 가이드로 제공하고 첫 번째 하위 영역의 각 항목을 읽고 해당 항목에 대해 들어본 적이 있는지, 목격한 적이 있는지, 경험한 적이 있는지 선택하도록 요청했습니다(체크박스에 체크).
  • 모든 참가자가 하위 영역을 완료한 후, 그룹 진행자는 참가자들에게 차례로 자신이 들었거나 목격했거나 경험한 구체적인 시나리오를 구두로 설명하고 개인적인 태도와 느낌을 공유하도록 요청했습니다.
  • 첫 번째 하위 영역의 기존 항목에 대해 논의한 후, 그룹 진행자는 참가자들에게 하위 영역에 나열되지 않은 다른 시나리오를 경험한 적이 있는지 설명해 달라고 요청했습니다. 이후 각 하위 영역에서도 동일한 형식이 이어졌습니다.
  • 연구원들은 각 포커스 그룹 인터뷰의 데이터를 분석하여 체크리스트의 업데이트 버전을 작성했으며, 이 체크리스트는 첫 번째 라운드와 동일한 형식의 후속 포커스 그룹에서 사용되었습니다.
  • 새로운 항목이 보고되지 않으면 데이터 수집이 종료되었습니다. 

We then conducted iterative rounds of focus group interviews. All interviews were audio recorded with permission and anonymized.

  • At the beginning of each interview session, the group facilitator (XZS) introduced participants to the concept of professionalism, including
    • fundamental principles from the Physician Charter (ABIM Foundation, 2002),
    • attributes of professionalism proposed by the ACGME (Accreditation Council for Graduate Medical Education, 2021), and
    • Li et al.’s professionalism framework (Li, 2017).
  • Participants were then given the first version checklist on professionalism dilemmas as a guide and were asked to read each item in the first sub-domain and select (by checking the box) whether they had heard of, witnessed, or experienced the given item.
  • After everyone had completed a sub-domain, the group facilitator invited participants to, in turn, verbally describe the specific scenarios they had heard of, witnessed, or experienced and share some of their personal attitudes and feelings.
  • After discussing existing items in the first sub-domain, the group facilitator then asked participants to describe if they had experienced any other scenario not listed within the sub-domain. The same format continued for each subsequent sub-domain.
  • Researchers analyzed data from each round of focus group interviews to compile an updated version of the checklist, which was then used in the subsequent round of focus groups that followed the same format as the first round.
  • Data collection ended when no new items were reported.

데이터 분석
Data analysis

Li 등의 행동 기반 전문직업성 프레임워크는 연구자가 코드를 추가, 수정 또는 삭제하는 등 데이터를 해석하는 동안 조정할 수 있는 사전 정의된 템플릿을 제공했습니다(King, 2004). 강력하고 잘 정의된 선험적 템플릿을 사용하면 주제를 미리 설정할 수 있는 동시에 연구자에게 어느 정도 유연성을 제공할 수 있었습니다(Brooks et al., 2015). 포커스 그룹 인터뷰의 첫 번째 라운드가 끝난 후, 모든 인터뷰 오디오 파일을 전사하고 비식별화했습니다. 녹음된 인터뷰는 NVivo 12(QSR International Pty Ltd., Doncaster, VC, Australia)를 사용하여 코딩했습니다. 두 명의 연구자(XZS와 CYX)가 모든 참가자의 녹취록을 독립적으로 검토하여 각 항목과 관련된 인용문을 식별했습니다. 두 연구자가 이견이 있는 시나리오와 체크리스트의 각 하위 영역 끝에 새로 제안된 시나리오에 대해서는 5명의 연구자(XZS, NJ, HHL, ND, CYX)가 모여 전문직업성 딜레마로 분류할 수 있는지 논의하고, 분류할 수 있다면 체크리스트 하위 영역의 기존 항목에 속할지 아니면 새로운 항목으로 추가할지에 대해 협의했습니다. 참가자들의 이야기를 바탕으로 체크리스트 초판의 기존 항목의 문구를 수정하여 중국 전공의에게도 적용 가능하도록 수정했습니다. 
The behavior-based professionalism framework by Li et al. provided a predefined template from which researchers could make adjustments during interpretation of data, including adding, modifying, or deleting codes (King, 2004). Using a strong, well-defined a priori template allowed for themes to be established in advance while also providing some flexibility for researchers (Brooks et al., 2015). After the first round of focus group interviews, all interview audio files were transcribed and de-identified. We coded the recorded interviews using NVivo 12 (QSR International Pty Ltd., Doncaster, VC, Australia). Two researchers (XZS and CYX) independently reviewed all the participants’ transcripts to identify quotes related to each of the items. For any scenario where the two researchers had disputes on and for any newly proposed scenario at the end of each subdomain of the checklist, five researchers (XZS, NJ, HHL, ND, and CYX) met to discuss whether it can be classified as a professionalism dilemma and, if so, conferred on whether it belonged to an existing item in the checklist subdomain or to add this scenario as a new item. From participant narratives, we revised the wording of the original items in the first version of the checklist to make it applicable to Chinese residents.

각 포커스 그룹 인터뷰가 끝난 후 데이터 분석을 수행한 후 체크리스트의 업데이트 버전을 작성하여 다음 라운드에 사용했습니다. 연구자들은 새로운 코드가 나오지 않을 때 주제별 포화 상태가 충족되었다고 동의했고, 그 이후에는 새로운 포커스 그룹 인터뷰를 진행하지 않았습니다. 이 시점에서 모든 항목이 체크리스트의 최종 버전으로 확정되었고 각 항목과 관련된 모든 인용문이 확인되었습니다. 그런 다음 모든 연구원이 모여 질적 편집 분석 프로토콜(Miller & Crabtree, 1992)을 사용하여 각 항목을 가장 대표할 수 있는 인용문을 선정했습니다. 그런 다음 대표 인용문을 영어로 번역했습니다. 분석이 진행되는 동안 코딩이 진행됨에 따라 연구자의 성찰을 기록하기 위해 메모를 작성했습니다. 
Data analysis was performed after each round of focus group interviews, following which we compiled an updated version of the checklist and used it for the next round. Researchers agreed that thematic saturation had been met when no new codes emerged, following which no new rounds of focus group interviews were conducted. At this point, all the items were finalized into the final version of the checklist and all quotes related to each of the items were identified. Then, all researchers convened to select quotes that were most representative of each item using a qualitative editing analysis protocol (Miller & Crabtree, 1992). Representative quotes were then translated into English. Throughout the analysis, memos were created to serve as records of researchers’ reflections as the coding progressed.

두 차례의 포커스 그룹 인터뷰를 통해 50명의 참가자 전원이 작성한 체크리스트 설문지를 바탕으로 참가자들이 보고한 전문직업성 딜레마 항목의 비율을 해당 항목에 대해 들어본 적이 있는지, 목격한 적이 있는지, 경험한 적이 있는지에 따라 계층화하여 계산했습니다. 
Based on checklist questionnaires filled out by all 50 participants during two rounds of focus group interviews, we calculated the proportion of professionalism dilemma items as reported by participants, stratified by whether they had heard of, witnessed, or experienced the item.

반사성
Reflexivity

연구팀은 데이터 수집 및 분석 과정에서 각 구성원의 이전 경험, 역할, 동기가 데이터 해석에 영향을 미칠 수 있음을 이해했습니다. 따라서 정기적으로 회의를 통해 각자의 개인적인 관찰과 관점, 그리고 그것이 데이터 분석 및 결과 적용과 어느 정도 관련성이 있는지에 대해 논의함으로써 반성적 사고를 실천했습니다. 또한 데이터 분석 중에 메모를 작성하여 코딩하는 동안 연구자의 반성을 기록했습니다. 
Throughout the data collection and analysis, the research team understood that each member’s prior experiences, roles, and motivations may influence the interpretation of the data. Therefore, we practiced reflexivity by regularly meeting to discuss our personal observations and perspectives and the extent to which they may be relevant to the data analysis and to the application of our results. Memos were also created during data analysis to record researcher reflections during coding.

연구팀의 모든 구성원은 질적 연구 및 의료 전문직업성 연구에 대한 교육이나 배경 지식을 갖추고 있습니다. 또한 XZS와 HHL은 의료 정보학에 대한 배경 지식이 있습니다. NJ는 영어 원어민으로 MBBS 학위를 보유하고 있으며 중국에서 임상 교육 경험이 있습니다. XZS와 CYX는 데이터 수집 당시 의학교육학 박사 과정 중이었습니다. ND, HHL, RYQ는 학부 및 대학원 전문직업성 과정의 교수진 및 과정 개발자였으며, XZS는 조교였습니다. DLW는 소아과 과장을 역임했으며 현재는 의학교육과 교수로 재직 중입니다. 각자의 고유한 배경과 경험을 바탕으로 각 멤버는 그룹 토론에 풍부하고 건설적인 피드백을 더했습니다. 
All members of the research team have some training or background in qualitative research and in medical professionalism research. Additionally, XZS and HHL have backgrounds in medical informatics. NJ is a native English speaker who holds an MBBS degree and has clinical training experience in China. XZS and CYX were PhD candidates in medical education at the time of data collection. ND, HHL, and RYQ are teaching faculty and course developers for undergraduate and graduate professionalism courses; XZS is the teaching assistant. DLW was a chief of pediatrics and is now a professor of medical education. Based on their own unique backgrounds and experiences, each member added richness and constructive feedback to the group discussions.

결과
Results

검색 전략에 따라 1차 검색에서 총 613개의 출판물이 검색되었습니다. 적격성 기준에 따라 55개의 출판물이 최종 연구에 등록되었습니다. 그런 다음 등록된 출판물에서 전문직업성 딜레마에 관한 53개 항목을 수집, 분석, 요약하여 Li 등이 제시한 전문직업성 프레임워크의 10개 하위 영역에 매핑했습니다. 등록된 모든 출판물, 딜레마 또는 도전과 비전문직업적 행동에 대한 특정 시나리오, 문서 분석의 1차 버전 체크리스트는 부록 정보 부록 B에 나와 있습니다. 
Following our search strategy, a total of 613 publications were retrieved in the initial search. Based on eligibility criteria, 55 publications were enrolled in the final study. We then compiled, analyzed, and summarized 53 items on professionalism dilemmas from these enrolled publications and mapped them to the 10 sub-domains of the professionalism framework by Li et al. All enrolled publications, corresponding specific scenarios on dilemmas or challenges and unprofessional behaviors, and the first version checklist from document analysis are shown in Supplementary information Appendix B.

총 두 차례의 포커스 그룹 인터뷰(1라운드에서는 3개 그룹, 2라운드에서는 2개 그룹)를 진행했으며, 50명의 전공의가 참여했습니다. 표 1에는 참가자의 인구통계학적 특성이 요약되어 있습니다. 1차 포커스 그룹 인터뷰에서는 5개의 새로운 항목이 생성되었으며, 2차 인터뷰에서는 새로운 항목이 나타나지 않았습니다. 문서 분석과 두 차례의 포커스 그룹 인터뷰를 거쳐 최종 58개 항목의 전문직업성 딜레마 체크리스트(문서 분석에서 53개 항목, 포커스 그룹 인터뷰에서 5개 항목)가 생성되었습니다(표 2 참조). 58개 항목은 4개의 영역과 10개의 하위 영역으로 나뉘며, 각 영역의 명칭과 포함된 항목 수는 다음과 같다.

  • 연민(2),
  • 존중(6),
  • 의사소통(6),
  • 협업(7),
  • 성실성(9),
  • 의무(5),
  • 우수성 추구(8),
  • 의료 자원의 공정한 관리(4),
  • 환자 기밀성(4),
  • 사전 동의(7) .

각 전문직업성 딜레마 항목에 해당하는 발췌문은 보충 정보 부록 C에 나와 있습니다. 

In total, we conducted two rounds of focus group interviews—three groups in round one, and two groups in round two—involving 50 residents. Table 1 summarizes the demographic characteristics of the participants. Five new items were generated in the first round of focus group interviews, and no new items emerged in the second round. After document analysis and two rounds of focus group interviews, a final 58-item checklist of professionalism dilemmas was generated—53 items from document analysis and five items from focus group interviews (see Table 2). These 58 items were distributed in four domains and 10 sub-domains, whose names and the number of contained items were:

  • compassion (2),
  • respect (6),
  • communication (6),
  • collaboration (7),
  • integrity (9),
  • duty (5),
  • pursuit of excellence (8),
  • fair stewardship of health care resources (4),
  • patient confidentiality (4), and
  • informed consent (7).

Excerpts corresponding to each professionalism dilemma item are shown in Supplementary information Appendix C.

 

 

전문직업성 딜레마 테마
Professionalism dilemma themes

연민 딜레마
Compassion dilemmas

이 테마에는 환자에 대한 연민과 공감과 관련하여 레지던트들이 겪는 어려움을 반영하는 두 가지 딜레마 항목이 포함되어 있습니다. 가장 자주 보고된 딜레마 항목은 연민을 느끼지만 환자를 도울 힘이 없다고 느끼는 경우로, 레지던트의 38%가 경험한 적이 있으며, 이 항목에서 가장 자주 언급된 시나리오는 환자가 높은 의료비 때문에 치료를 포기해야 하는 경우였습니다. 한 참가자는 이러한 딜레마를 다음과 같이 설명했습니다: 
This theme contained two dilemma items, reflecting challenges that residents encountered relating to compassion and empathy for patients. The more frequently reported dilemma item was Showing compassion but feeling powerless to help patients, with 38% of residents having experienced it, and the most frequently mentioned scenario within this item was Patients were forced to give up treatment because of high medical expenses. One participant described this dilemma as follows:

가정 경제적인 이유로 치료를 포기하는 환자들이 많은데, 이는 매우 안타까운 일입니다. 솔직히 일부 환자들은 조기에 치료를 받으면 생명을 연장할 수 있는 가능성이 있지만, 가정 형편 때문에 포기하고 집에 가서 병의 자연스러운 진행을 기다려야 합니다. 그들을 도울 수 없다는 것이 안타깝습니다. (A6, 산부인과)
Due to family financial reasons, there are a lot of patients who give up treatment, which is very unfortunate. To be honest, some patients may have the possibility to prolong their lives if they are treated as early as possible, but they give up because of family conditions and have to go home to wait for the natural progression of the disease. It’s a pity that I am unable to help them. (A6, Obstetrics and Gynaecology)

이 항목에서 흔히 보고된 또 다른 시나리오는 기존의 의료 기술로 효과적인 치료를 제공하거나 환자의 고통을 완화할 수 없다는 것이었습니다:
Another common reported scenario within this item was Existing medical techniques cannot offer effective treatment or alleviate patient suffering, as described by one of the participants:

수술 병동에서 한 환자를 만난 적이 있습니다. 그는 나이가 많았고 장암이 재발한 상태였습니다. 수술이 금기인 데다 현재의 기술로는 통증을 해결할 수 없었기 때문에 치료를 포기하고 남은 여생을 집에서 보내기로 결정했습니다. 이런 환자를 만나면 어떻게 해야 할지 모르겠고 아무것도 도와줄 수 없는 것 같아 마음이 아픕니다. (E8, 외과)
I once met a patient in the surgery wards. He was up in age and his bowel cancer had recurred. Because he was contraindicated for surgery and the current technology was not able to resolve his pain, he gave up treatment and chose to spend the rest of his days at home. When I encounter this kind of patient, I feel like I don’t know what to do and can’t do anything to help. (E8, Surgery)

존중 딜레마
Respect dilemmas

이 주제는 환자, 선배 의사, 동료 및 기타 의료 전문가와의 상호존중에 대한 레지던트들의 어려움을 반영하여 6개의 딜레마 항목으로 구성되었습니다. 가장 흔하게 보고된 딜레마는 환자로부터의 직간접적인 언어적 또는 신체적 굴욕감으로, 레지던트의 44%가 이를 경험한 적이 있다고 답했습니다. 레지던트들은 환자로부터 모욕감을 당해도 별다른 조치를 취할 수 없었으며 최대한 참고 견디려고 노력했다고 설명했습니다.
This theme consisted of six dilemma items, reflecting residents’ challenges on mutual respect with patients, senior physicians, peers, and other health care professionals. The most common reported dilemma was Direct or indirect verbal or physical humiliation from patients, with 44% of residents having experienced it. Residents described they could not do much about being humiliated by their patients and tried to just endure and bear with it as much as possible.

환자로부터의 굴욕감은 흔한 일입니다. 예를 들어, 류마티스 질환과 함께 종양이 진행된 한 환자는 정신 건강이 매우 좋지 않았습니다. 그는 진통제를 많이 복용했는데, 류머티즘 약과 함께 "죽여버릴 거야"와 같은 말을 하며 언어적 공격성을 보이기도 했습니다. 무엇이 환자의 행동을 유발했는지는 모르겠지만 그는 우리의 생명을 언어적으로 위협하고 있었습니다. (B7, 내과)
Humiliation from patients is common. For example, a patient with advanced stage tumor combined with rheumatic disease displayed very poor mental health. He would take a lot of pain medication, which, along with the rheumatism medication, led to some verbal aggression, saying words like “I’m going to kill you”. I don’t know what drove the behavior of the patient, but he was verbally threatening our lives. (B7, Internal medicine)

또 다른 흔하게 보고된 딜레마는 선배 의사로부터의 부적절한 비판, 굴욕감 또는 처벌이었습니다. 전공의들은 선배 의사로부터 비판을 받거나 모욕을 당했을 때 선배 의사의 행동을 이해할 수 있지만, 선배 의사가 전공의의 감정을 배려해 환자 앞에서 심하게 말하지 않기를 바란다고 답했습니다.
Another common reported dilemma was Inappropriate criticisms, humiliation, or punishments from senior physicians. When criticized or even humiliated by senior physicians, residents said they could understand senior physicians’ behaviors, but hoped that senior physicians would consider their feelings and try not to speak harshly of them in front of patients.

첫 부서인 신생아 병동으로 로테이션을 갔을 때가 기억납니다. 주치의 선생님은 정말 엄격하셨어요. 처음 갔을 때 많은 사람들 앞에서 제가 잘못한 것을 지적하는 경우가 많았고, 거칠게 들리는 말을 하셔서 기분이 정말 불편했어요. (D6, 소아과)
I remembered when I rotated to my first department, which was the neonatal ward. The senior physician was so strict. When I first got there, she often pointed out what I did wrong in front of a lot of people, and she would say something that sounds harsh, which made me feel really uncomfortable. (D6, Pediatrics)

커뮤니케이션 딜레마
Communication dilemmas

이 주제는 전공의들이 환자와 소통하는 과정에서 겪는 어려움을 반영하여 총 6개의 딜레마 항목으로 구성되었습니다. 6개 딜레마 항목 중 4개 항목에 대해 레지던트의 50% 이상이 해당 항목과 관련된 경험을 보고했습니다. 가장 흔하게 보고된 딜레마는 환자가 개인 연락처 정보를 끈질기게 요구하는 경우로, 레지던트의 90%가 이 문제를 경험한 것으로 나타났습니다. WeChat은 중국에서 인스턴트 메시징, 소셜 미디어, 모바일 결제에 사용되는 주요 독립형 앱입니다. 많은 레지던트들이 개인 생활과 직장 생활 모두에서 이러한 환자들의 반복적인 방해를 경험한 후 더 이상 환자들과 위챗이나 개인 연락처 정보를 공유하지 않겠다고 밝혔습니다. 
This theme included six dilemma items, reflecting the challenges that residents encountered in the process of communicating with patients. For four of the six dilemma items, at least 50% of residents reported experiences related to the item. The most common reported dilemma was Patients being persistent for personal contact information, with 90% of residents having experienced it. WeChat is the major standalone app used for instant messaging, social media, and mobile payment in China. Many residents expressed that they would no longer share their WeChat or personal contact information with patients after they had experienced repeated interruptions by these patients in both their personal and work lives.

일반적으로 환자가 제 위챗을 요청하면 검사지를 보낼 수 있도록 알려줍니다. 하지만 환자가 제가 어떻게 대답해야 할지 모르거나 너무 바빠서 제 시간에 응답하지 못하면 환자는 저를 비난합니다. 개인 연락처를 알려줘야 할지 말아야 할지 고민할 때도 있어요. (B6, 내과)
Generally, when the patient asks for my WeChat, I will give him so that I can send him test sheets. But if the patient asks me something I don’t know how to answer or I am too busy to respond in time, he will blame me. Sometimes I struggle with whether or not I should give out my personal contact information. (B6, Internal medicine)

환자의 가족은 좋은 사람들이기 때문에 제가 할 수 있는 한 최선을 다해 도와야겠다고 생각하곤 합니다. 하지만 좋은 의도가 실제로 좋은 결과를 가져오는 것은 아니며, 가족들이 더 압박을 받는다는 것을 알게 될 때가 있어요. 그들은 온갖 종류의 질문을 하고 사소한 것까지 물어보곤 했죠. 지금은 환자 가족들에게 제 개인 위챗 정보를 제공하지 않습니다. 감당하기 너무 힘들거든요. 아무리 좋은 환자 가족이라도 나중에 이렇게 골칫거리가 될 수도 있어요. (D10, 소아과)
I may find that my patient’s family members are nice people, so I think to myself that I’d do as much as I can to help them out. But then sometimes I found out that good intentions don’t actually have good results, and the family members will become more pressing. They would ask all kinds of questions and ask about every little thing. I don’t give out my personal WeChat info to patient family members now. It’s too difficult to handle. The nicest family members of patients may still become this troublesome some ways down the road. (D10, Pediatrics)

치료에 협조하지 않는 환자나 가족, 의사소통 및 언어 장벽, 어리거나 경험이 없다고 무시하는 환자도 레지던트들이 흔히 겪는 딜레마였습니다. 레지던트들은 의사소통의 딜레마를 겪을 때 일반적으로 환자와 적극적으로 소통한다고 답했습니다. 그래도 효과가 없을 경우 일부 레지던트는 문제를 보고하고 상사에게 도움을 요청하기도 했습니다.

Patients or their families refusing to cooperate with treatment, Communication and language barriers, and Patients dismissing them as young or inexperienced were also dilemmas commonly reported by residents. Residents said when experiencing communication dilemmas, they would generally actively communicate with patients. If it remained ineffective, some of them would report the problem and turn to their superiors for help.

협업 딜레마
Collaboration dilemmas

이 주제에는 레지던트들이 동료, 선배 의사 및 기타 의료 전문가와 협력하는 과정에서 겪는 어려움을 반영하는 7가지 딜레마 항목이 포함되었습니다. 가장 많이 보고된 딜레마는 다른 의료 전문가와의 협력에 대한 어려움으로, 52%의 레지던트가 이를 경험한 적이 있다고 답했습니다. 한 레지던트는 전문가 간 협업에 대한 불만을 표하기도 했습니다. 
This theme included seven dilemma items, reflecting the challenges that residents encountered in the process of cooperating with peers, senior physicians, and other healthcare professionals. The most common reported dilemma was Difficulty in cooperating with other healthcare professionals, with 52% of residents having experienced it. One resident also expressed some displeasure in interprofessional collaboration.

요즘은 의사와 간호사가 동등하다고 하지만, 실제로는 간호사가 우리 레지던트보다 더 높은 지위를 가지고 있다고 느낍니다. 저희가 진료 지시를 내리면 실행은 간호사가 담당하는데, 가끔 급하게 대응해야 하는 경우가 있어서 간호사에게 서둘러 달라고 요청하곤 했어요. 하지만 간호사는 제가 서너 번을 요청할 때까지는 그렇게 하지 않았는데, 나중에 알고 보니 곧 점심시간이 되기 때문이었습니다. 전에도 이런 식으로 동료 전공의를 꾸짖고 울게 만드는 간호사를 본 적이 있습니다. (D1, 산부인과) 
Although it’s said that physicians and nurses are equal nowadays, I feel that nurses actually have a higher status than us residents. After we put in a medical order, nurses would be responsible for executing it, but sometimes the order would require an urgent response, so I would ask the nurse to rush it. But the nurse wouldn’t do it until I have asked three or four times, which I found out was because it was going to be her lunch break soon. I have witnessed nurses scolding my peer like this before and sending her crying. (D1, Obstetrics and Gynaecology)

또 다른 일반적인 딜레마는 책임과 업무를 다른 사람에게 미루는 것이었습니다. 한 참가자는 자신의 불만 경험을 이야기했습니다. 하지만 그 상황에서도 상대방의 기분을 상하게 하거나 갈등이나 불편을 초래하고 싶지 않아서인지, 그는 동료에게 자신이 해야 할 일을 계속해달라고 요청하지 않았습니다. 
Another common reported dilemma was Pushing responsibilities and work tasks off to others. One participant recounted his experience with grievance. However, even in his situation, possibly out of consideration for not wanting to offend or cause conflict or inconveniences, he did not reach out to ask his peer to continue the work she was supposed to do.

제 앞의 레지던트는 저에게 많은 일을 맡겼습니다. 저는 그런 분들을 만났습니다. 한 아이가 30일 이상 입원해 있었습니다. 단계별 요약과 사례 논의가 필요했습니다. 이 환자를 담당했던 제 동료는 아무것도 쓰지 않았습니다. 결국 저는 어느 날 밤 거의 5시간 동안 혼자서 모든 정보를 작성했습니다. 전화도 하지 않았어요. (D10, 소아과) 
The resident before me left a lot of work to me. I have met such kinds of people. A child had been hospitalized for more than 30 days. There needed to be a phased summary and case discussion. My peer, who was responsible for this patient, didn’t write anything. Finally, I spent nearly five hours one night and filled in all the information by myself. I didn’t call her either. (D10, Pediatrics)

무결성 딜레마
Integrity dilemmas

이 주제에는 금전적 이득, 의사와 환자 또는 의료 대리인 간의 관계 등 레지던트들이 정의 또는 정직에 대한 인식을 위반할 수 있는 어려움을 반영하는 9가지 딜레마 항목이 포함되었습니다. 가장 흔하게 보고된 딜레마는 환자로부터의 선물 수락이었으며, 60%의 레지던트가 이를 경험한 것으로 나타났습니다. 레지던트들은 과일과 꽃은 허용되는 선물이지만 빨간 봉투(현금 선물)와 기프트 카드는 반환해야 한다고 생각했으며, 직접 반환할 수 없는 경우 환자의 병원 계좌로 입금해야 한다고 답했습니다. 또한 전공의들은 환자가 방금 입원했는지, 퇴원했는지에 따라 선물의 의미를 다르게 인식했습니다. 퇴원을 앞둔 환자들은 환자 치료가 잘 안 될까 봐 의사의 비위를 맞추기 위해 억지로 선물을 주기보다는 레지던트들의 노고에 감사하는 마음에서 진심으로 선물을 준다고 인식하고 있었습니다. 
This theme included nine dilemma items, reflecting the challenges that residents encountered that may violate their perceptions of justice or honesty, including financial gains and relationships between physicians and patients or medical representatives. The most common reported dilemma was Accepting gifts from patients, with 60% of residents having experienced it. Residents thought that fruits and flowers were acceptable gifts, but red envelopes (cash gifts) and gift cards should be returned, including crediting the patient’s hospital account when the money could not be returned in person. Residents also viewed the meaning of gifts differently depending on whether patients were just admitted to hospital or after they had been discharged. Residents perceived that patients who are about to be discharged from hospital give gifts due to their appreciation of the residents’ work and from a place of real gratitude, rather than because they are forced to please the doctors for fear of poor patient care.

사실 선물은 아주 흔한 일이라고 생각합니다. 환자가 돈 대신 무언가를 줄 수 있다는 것은 의사에게 마음에서 우러나오는 감사의 표시이자, 의사와 환자 간의 화합을 도모할 수 있는 방법이기도 합니다. 과일뿐만 아니라 지역 특산품도 선물하는 환자분들을 많이 봤습니다. (C7, 외과) 
I think gift-giving is actually quite common. When a patient can give something instead of money, it shows that he is grateful to the physician from his heart, and it is also a way to promote harmony between doctors and patients. I see that patients not only give fruits but also local specialties. (C7, Surgery)

또 다른 공통된 딜레마는 가족이나 친구에게 연고주의를 보이는 것으로, 36%의 레지던트가 경험한 적이 있다고 답했습니다. 전공의들은 주로 사회적 관계 역학 관계에 따라 이러한 행동을 이해할 수 있다고 생각했습니다. 한 참가자는 자신의 진료 예약일 경우 친한 의사에게 도움을 요청하기 위해 줄을 서는 경우도 있다고 답했습니다. 

Another common reported dilemma was Showing nepotism for family and friends, with 36% residents having experienced it. Residents believed this kind of behavior to be understandable, mainly out of adherence to social relationship dynamics. One participant reported that he would even jump the queue to seek help from a familiar physician if it was his own medical appointment.

저는 제 진료를 위해 대기열을 건너뛰고 주치의가 여의치 않으면 무료 진찰을 해줄 수도 있습니다. 예를 들어, 동료의 가족이 입원해야 하는 경우, 주치의는 실제로 기꺼이 도움을 주고 외래 진료실이나 입원 병동을 배정하는 등 일반적으로 거절하지 않는 것을 보았습니다. (B2, 내과) 

I would jump the queue for my own medical treatment, then the senior physician may provide me with a free examination if convenient. I have seen that, for example, if a peer’s family members needed to be hospitalized, the senior physician would in fact be willing to provide help and would generally not refuse, such as arranging an outpatient clinic or inpatient ward for them. (B2, Internal medicine)

지각이나 결근 시 서명을 위조하거나 동료에게 대신 서명을 부탁하는 것도 흔한 딜레마로 보고되었습니다. 레지던트들은 임상 업무와 의학 강의 참석의 균형을 맞추는 것이 어렵다고 보고했습니다. 한 참가자는 다른 사람이 의학 강의에 로그인하는 것을 도와주는데 거절하는 방법을 모른다고 말했습니다. 
Forging signatures or asking peers to sign on one’s behalf when late or absent
 was also a common reported dilemma. Residents reported finding it difficult to balance clinical work with medical lecture attendance. One participant reported he would help others sign in for medical lectures and did not know how to refuse.

다른 사람을 위해 로그인했다가 행정 직원에게 발각되어 경고를 받았습니다. 동료가 저에게 대신 로그인해 달라고 요청하면 "강의는 들으러 가겠지만 대신 로그인해 줄 수 없습니다"라고 말할 수 없을 것 같습니다. (C10, 외과) 
I signed in for others and was found and warned by the administrative staff. If a peer asked me to sign in for him, I don’t think I could say something like “I will go to the lecture, but I cannot sign in for you”. (C10, Surgery)

의무 딜레마
Duty dilemmas

이 주제에는 전공의들이 직무를 수행하면서 직면하는 어려움을 반영하는 5가지 딜레마 항목이 포함되었습니다. 가장 많이 보고된 딜레마는 과도한 업무량으로 인한 일과 삶의 균형 부족으로, 70%의 전공의가 이를 경험한 적이 있다고 답했습니다. 레지던트들은 과중한 업무량으로 인해 휴일에도 초과 근무를 하는 것이 일반적이라고 생각했습니다. 특히 외과 전공의와 산부인과 전공의는 수술의 복잡성이나 양이 많아 밤늦게까지 일하는 경우가 많다고 답했습니다. 
This theme included five dilemma items, reflecting the challenges that residents faced in fulfilling their professional duties. The most common reported dilemma was Lack of work-life balance due to excessive workload, with 70% of residents having experienced it. Residents believed it to be common to work overtime due to heavy workloads, even during holidays. In particular, surgery residents and obstetrics and gynecology residents said that they often worked late at night because of the complexity or volume of operations.

외과에서 과중한 업무량은 매우 흔한 일이라고 생각합니다. 일과 삶의 균형을 맞추기 어려운 것은 어쩔 수 없는 일입니다. 그것은 우리가 감당할 수 있는 일이 아닙니다. 환자에게 수술이 필요하거나 수술이 매우 복잡합니다. 이런 상황에서는 어떻게 해야 할까요? (C1, 외과) 
I think the heavy workload in surgery is extremely common. It is inevitable that it is difficult to balance work and life. It’s not something that we can deal with. The patient needs an operation or the operation is very complex. What can anyone do in this situation? (C1, Surgery)

또 다른 일반적인 딜레마는 급여와 복리후생이 기존 업무량과 일치하지 않는 것으로, 67%의 레지던트가 이를 경험한 적이 있다고 답했습니다. 레지던트들은 의사와 마찬가지로 환자 중심의 자세를 가져야 하지만, 낮은 급여와 발생하는 특정 문제를 해결할 수 없는 현실에 괴로워하며 성과에 기반한 공정한 임금 분배를 요구했습니다. 
Another common reported dilemma was Salary and benefits do not match existing workload, with 67% of residents having experienced it. Residents should hold the same patient-centered attitude as physicians, but plagued by low salary and the inability to resolve certain problems that arise, they called for performance-based fair distribution of wages.

우리는 매우 바쁘고 거의 모든 일을 하고 있습니다. 우리 사이에는 "일할 때는 의사이지만 돈을 계산할 때는 학생이다"라는 속담이 있습니다. 모두가 잘 알고 있는 말입니다. (E7, 외과)
It’s obvious that we are very busy, and we do almost everything. There is a very popular saying between us, which is, “you are a doctor when you work, and you are a student when they count money”. Everyone knows this well. (E7, Surgery)

레지던트의 40%는 과중한 업무량과 낮은 급여의 어려움 외에도, 매우 피곤한 상황에서도 예정된 근무 시간이 끝난 후에도 선배 의사로부터 계속 일해달라는 요청을 받은 경험이 있다고 답했습니다. 레지던트들은 육체적, 정신적으로 피곤한 상태에서 환자를 수술하는 것이 환자 안전을 위협할 수 있다고 생각했지만 위계적인 구조 때문에 용기를 내어 거절하지 못했습니다. 
In addition to the challenges of heavy workload and low pay, 40% of residents experienced Being asked by a senior physician to continue working even after a scheduled shift time had ended, even when they were very tired. Residents thought that performing surgery on patients when they were physically and mentally fatigued would threaten patient safety, but due to the hierarchical structure, they were not brave enough to say no.

일이 너무 많다고 생각해요. 산부인과에서 야간 당직을 서고 있었는데, 밤새도록 일하다 보니 거의 하루 종일 쉬지 않고 밤낮으로 일했죠. 그런데 야간 근무를 마치고 퇴근할 때 선배 의사에게 수술이 있다고 연락이 왔어요. 그 당시 저는 이미 매우 졸려서 수술실에서 선배 의사에게 기계적으로 협조하고 있었어요. 저에게는 매우 고통스러웠고, 만약 문제가 생기면 환자에게 책임질 수 없다고 생각했습니다. (D3, 산부인과) 
I think it’s too much work. I was on a night shift in obstetrics, and I had been up all night, which was basically a day and a night without a break. However, when I was leaving the night shift, I was pulled in by the senior physician for a surgery. I was already very sleepy at that time, just mechanically cooperating with the senior physician in the OR. It was very excruciating for me, and I don’t think we were being responsible to the patient if something goes wrong. (D3, Obstetrics and Gynaecology)

우수성 딜레마
Excellence dilemmas

이 주제는 전공의들이 임상술기 향상이나 과학적 지식 습득 등 탁월함이나 자기계발을 추구하는 과정에서 겪는 어려움과 도전을 반영하여 총 8개의 딜레마 항목으로 구성되었습니다. 가장 많이 보고된 딜레마는 '과학 연구, 시험, 임상 업무의 압력 사이에서 균형을 맞추기 어려움'이었으며, 전공의의 58%가 이를 경험한 적이 있다고 답했습니다. 레지던트들은 연구 성과가 승진을 위한 필수 요건임에도 불구하고 퇴근 후를 제외하고는 낮에 과학 연구를 할 수 있는 시간이 매우 제한적이라고 언급했습니다. 심지어 시험이 있는 날에도 선배 의사들은 전공의들이 퇴근하는 것을 꺼려했습니다. 
This theme included eight dilemma items, reflecting the difficulties and challenges that residents encountered in the process of pursuing excellence or self-improvement, such as improving clinical skills or acquiring scientific knowledge. The most common reported dilemma was Difficulty balancing pressures from scientific research, examinations, and clinical work, with 58% of residents having experienced it. Residents mentioned that there was very limited time for scientific research during the day, except after work, despite research achievements being a requirement for promotion. Even in the face of exams, senior physicians were reluctant to let them off work.

예를 들어, 시험이 다가오는데 상사는 제가 교육을 받으러 왔다고 생각해서 계속 일해야 한다고 생각하죠. 시험 준비를 위한 휴가를 주지 않았고, 제가 휴가를 요청해도 승인하는 것을 매우 꺼려했습니다. (E3, 내과) 
For example, there would be an exam coming up, but the superior would think that I am here for training, so I have to work for him. He wouldn’t give me leave to prepare for my exams, and he would be very reluctant to approve any leave when I ask. (E3, Internal medicine)

레지던트들은 때때로 임상 진료 표준을 준수하지 않는 정상화 실패를 보고했습니다. 한 참가자는 전공의의 표준 이하의 의료 행위를 언급했고, 그 영향을 받아 레지던트도 같은 행동을 하기 시작했습니다.
Residents sometimes reported Normalizing failures to adhere to clinical practice standards. One participant mentioned substandard medical practices by the senior physician, and under his influence, the resident began to do the same.

제 선배 의사는 임상 능력이 뛰어납니다. 하지만 그는 항상 장갑 없이 드레싱을 갈아입고, 환자를 진찰할 때도 장갑을 사용하지 않습니다. 하지만 그는 매우 유능한 의사였고, 모든 사람들이 우리 부서장보다 훨씬 더 숙련되었다고 말했습니다. 그러다 보니 저도 익숙해져서 장갑을 끼지 않는 경우가 많아요. (C5, 외과) 
My senior physician has excellent clinical competence. However, he always changes dressings without gloves and also doesn’t use gloves when examining patients. But he is a very capable doctor, with everyone commenting that he is even more skilled than our department director. Then I got used to it as well, so I often don’t wear gloves either. (C5, Surgery)

또 다른 딜레마는 자신의 능력을 넘어서는 의료 업무를 독립적으로 완수하도록 부탁받는 것입니다. 레지던트의 10%만이 이러한 경험을 했다고 답했지만, 이러한 행동의 결과는 심각할 수 있으며 잠재적으로 환자 안전을 위협할 수 있습니다. 한 참가자는 자신이 겪은 위태로운 경험을 보고했지만 결과는 긍정적이었습니다.
Another dilemma was Being asked to independently complete medical tasks beyond one’s ability. Although only 10% of residents reported they experienced this, the consequences of this behavior can be serious and may potentially threaten patient safety. One participant reported a precarious experience he had, though the outcome was positive.

한 번은 선배 의사가 근무를 마치고 집으로 돌아갔고, 저도 퇴근 후 집에 가야 했는데 환자의 배액관이 떨어졌습니다. 이때 어떻게 해야 할지 몰라 선배 의사에게 전화를 걸어 상황을 사진으로 찍어 보내 어떻게 해야 할지 물어봤어요. 그는 저에게 혼자서 처리하라고 했습니다. 저는 망설였지만 시키는 대로 했습니다. 시술 도중에 환자가 고통스러워 비명을 지르기 시작했고, 저는 튜브가 복막에 닿았을지도 모른다고 생각했습니다. 저는 배액관을 빼서 소독하고 다시 시술을 진행했고, 두 번째 시술은 순조롭게 진행되었습니다. 수술 내내 침착해 보였지만 속으로는 많이 긴장했어요! (C1, 외과) 
Once my senior physician went home after his shift, and I was supposed to go home after work, but a patient’s drainage tube fell off. At this point, I did not know what to do, so I called my senior physician and sent photos of the situation to ask what to do. He told me to take care of it alone. I hesitated but did as he asked. Halfway through the procedure, the patient started to scream in pain, so I thought the tube might have touched his peritoneum. I withdrew the drain to sterilize and performed the procedure again, which worked out smoothly the second time. I looked calm the whole time, but I was very nervous inside! (C1, Surgery)

의료 자원의 공정한 관리에 대한 딜레마
Dilemmas on the fair stewardship of health care resources

이 주제에는 의료 자원의 불공정한 관리를 다룰 때 전공의들이 겪는 어려움을 반영하는 네 가지 딜레마 항목이 포함되었습니다. 가장 흔하게 보고된 딜레마는 불필요한 의료 서비스나 처방을 계속 요구하는 환자로, 66%의 전공의가 이를 경험한 적이 있다고 답했습니다. 병원에 입원한 일부 환자는 의료 보험이 입원 환자 검사에 대해서만 환급을 해준다는 이유로 질병과 관련 없는 추가 의료 검사를 요구한다고 언급했습니다. 또한 일부 환자는 기대만큼 효과가 없을지라도 회복을 앞당기기 위해 의사에게 더 높은 등급의 항생제나 더 비싼 약을 처방해달라고 요청했습니다. 
This theme included four dilemma items, reflecting the challenges that residents encountered when dealing with unfair stewardship of health care resources. The most common reported dilemma was Patients persisting to ask for unnecessary medical services or prescriptions, with 66% of residents having experienced it. Residents mentioned that some patients admitted to the hospital asked for additional medical tests not related to their disease because their medical insurance would only reimburse them for inpatient tests. Some patients also asked physicians to prescribe higher-grade antibiotics or more expensive drugs to accelerate their recovery, even if these drugs would not be as effective as they expect.

환자는 약간의 사소한 문제가 있었고 치질로 병원에 왔습니다. 그런 다음 그는 그것을 전체 검진으로 취급하고 모든 것을 확인하고 싶어했습니다. 저는 그에게 단순한 치질이라고 설명했지만 그는 제가 거짓말을한다고 생각했고 심지어 게으르다고 비난했습니다. 이런 환자에게 뭐라고 말해야 할지 모르겠어요. (C3, 외과) 
The patient had some minor problems and came to the hospital for hemorrhoids. Then he treated it as a full checkup and wanted to check everything. I explained that it was simple hemorrhoids to him, but he thought I was lying to him and even accused me of being lazy. I don’t know what to say to patients like this. (C3, Surgery)


전공의들은 선배 의사들의 과잉진료를 목격했다고 보고했습니다. 그러나 일부 전공의는 의학 지식이 부족해 선배 의사의 과잉진료 여부를 판단할 수 없었다고 답했다. 
Residents reported that they witnessed Overtreatment by senior physicians. However, some residents also expressed that their medical knowledge was limited, so they could not judge whether the senior physicians were indeed overtreating.

저는 과잉진료에 대해 듣고 목격한 적이 있습니다. 한 번은 주치의가 적응증과 가이드라인을 초과하는 약물과 용량을 조합하여 사용한 적이 있습니다. 그에게는 이유가 있었어요. 더 안전하고 원활하게 치료하고 싶었을 뿐이었죠. 그래서 주치의에게 물어봤고, 주치의는 괜찮다고 대답했지만 여전히 기존 임상 지침에 부합하지 않는다고 생각했습니다. (C10, 외과) 
I did hear about and witness excessive medical treatment. Once, my attending physician used drugs and dosages in combinations that exceeded the indications and guidelines. He had his reasons; he just wanted to make it safer and smoother. So, I asked him about it, he answered me, and I thought it was ok, but it still didn’t meet the existing clinical guidelines. (C10, Surgery)

환자 기밀 유지에 대한 딜레마
Dilemmas on patient confidentiality

이 주제는 전공의들이 환자 비밀을 지키는 데 겪는 어려움과 과제를 반영하여 4개의 딜레마 항목으로 구성되었습니다. 한 참가자는 동료 레지던트들이 환자의 개인정보나 신원과 관련된 정보를 소셜 미디어에 게시하는 것을 목격했다고 공유했습니다. 그녀는 이러한 행동이 비전문직업적이라고 생각했지만, 이에 대해 아무런 조치를 취하지 않았습니다.
This theme included four dilemma items, reflecting the difficulties and challenges that residents encountered in keeping patient confidentiality. One participant shared that her peers were involved in Posting information related to a patient’s privacy or identification on social media. Though she thought the behavior was unprofessional, she did not take any action on it.

다른 사람들이 정말 귀여운 아이들의 사진이나 동영상을 찍어 모자이크 없이 WeChat이나 웨이보에 게시하는 것을 본 적이 있습니다. 나쁜 의도는 없었다고 생각하지만 여전히 좋은 행동은 아닌 것 같아요. (D8, 소아과) 
I have seen others take photos or videos of really cute kids and then post them on WeChat or Weibo without mosaics. I don’t think they had any ill intentions, but it’s still not a very good thing to do. (D8, Pediatrics)

사전 동의에 관한 딜레마
Dilemmas on informed consent

이 주제에는 환자와 의사 모두 사전 동의 위반 시 레지던트들이 겪는 어려움을 반영하는 7가지 딜레마 항목이 포함되었습니다. 가장 흔하게 보고된 딜레마는 환자 가족의 요청이나 다른 이유로 환자에게 진실을 숨기는 것이었습니다. 레지던트들은 환자가 자신의 질병에 대해 알 권리가 있다고 믿지만, 문화적 전통과 부작용에 대한 두려움 때문에 환자의 상태를 가족에게 먼저 알리는 것을 우선순위로 삼았습니다. 
This theme included seven dilemma items, reflecting the challenges that residents encountered in violations of informed consent, for both patients and physicians. The most common reported dilemma was Concealing the truth from patients at the request of the patient’s family or for other reasons. Even though residents believed that patients had the right to know about their illness, due to cultural traditions and fear of adverse consequences, they still made it a priority to inform the family member first about the patient’s condition.

악성 종양에 걸린 환자가 있었는데 아들이 그 사실을 숨겼습니다. 제가 그 환자라면 저도 제 병에 대해 알 권리가 있다고 생각했습니다. 시간이 얼마 남지 않았더라도 앞으로 어떻게 해야 할지 알고 후회하지 않아야 한다고 생각했습니다. 하지만 환자가 정신적으로 무너지고 살 시간이 줄어들지 않도록 숨기는 것이 좋을 수도 있습니다. 하지만 그래도 환자에게 알려야 한다고 생각해요. (A1, 산부인과)
I had a patient who had a malignant tumor that she didn’t know about, and her son kept it from her. I thought if I was that patient, I should have the right to know my illness. Even if I don’t have much time left, I would want to know what I should do next and have no regrets. But maybe it’s good for him to keep it from her, lest she break down mentally and have less time to live. But I still think the patient should be told. (A1, Obstetrics and Gynaecology)

악성 종양을 가진 일부 환자의 경우 가족들이 의사에게 "아직 환자에게 말하지 말아주세요"라고 말합니다. 중국인의 눈에는 환자에게 말하면 환자가 소식을 견딜 수 없을 수도 있습니다. (B1, 내과) 
For some patients with malignant tumors, their families will say to the doctor, “Please don’t tell the patient yet.” In the eyes of Chinese people, if you tell the patient, he may not be able to bear the news. (B1, Internal medicine)

전공의들은 사전 동의를 받을 수 없는 상황에 대해 불만과 무력감을 표했습니다. 법과 정책에 따라 사전 동의서에 서명하지 않으면 환자는 수술이나 처방과 같은 특정 의료 서비스를 제공받을 수 없습니다.  
Residents expressed frustration and helplessness when it came to Inability to obtain informed consent. Due to laws and policies, without signing informed consent, patients cannot be provided certain medical services, such as surgeries or prescriptions.

저희 내과에서는 큰 수술은 하지 않지만 스텐트 삽입과 같은 최소 침습적 시술은 시행합니다. 동맥이 막혀 스텐트 삽입이 필요한 위독한 상태의 환자가 있었습니다. 하지만 가족들은 반대했습니다. 가족들은 특정 종교적 신념이 있는 것 같았고 동의서에 서명하기를 거부했습니다. 시술을 진행하기 위해 서명을 강요할 수 없었기 때문에 환자의 의료 기록에 무슨 일이 있었는지 기록할 수밖에 없었습니다. (E6, 내과) 
We don’t do major surgical procedures in our internal medicine department, but we do perform some minimally invasive procedures like stenting. I had a patient who was in a critical condition and had a blocked artery and needed stenting. But his family members disagreed. They seemed to have certain religious beliefs and refused to sign the consent form. Well, then we could only make a note of what happened in the patient’s medical record, because we couldn’t force them to sign anything for the procedure to go ahead. (E6, Internal medicine)

첫 번째 인터뷰 라운드에서 새로운 딜레마 항목이 등장했습니다: 환자나 그 가족이 오디오 녹음을 하거나 사진/비디오를 찍는 것이었습니다. 레지던트들은 이러한 행동이 의사의 사전 동의를 위반하는 것으로 인식했지만, 이를 막거나 그냥 넘어가는 등 서로 다른 반응을 보였습니다.
During the first round of interviews, a new dilemma item emerged: Patients or their families making audio recordings or taking photos/videos. Residents perceived such a behavior as a violation of informed consent for the physician but reacted differently toward it, either stopping it or letting it go.

토론
Discussion

문서 분석과 포커스 그룹 인터뷰를 통해 행동 기반 관점에서 전문직업성 딜레마 체크리스트를 개발했습니다. 체크리스트에는 4개 영역에 걸쳐 58개 항목과 10개 하위 영역이 포함되어 있습니다. 문서 분석은 수많은 기존 출판물을 바탕으로 이루어졌기 때문에 체크리스트에 포함된 대부분의 전문직업성 딜레마는 국제 사회에도 적용될 수 있습니다(보충 정보 부록 B 참조). 예를 들어, 레지던트가 전문직업성 결여와 문제를 목격하거나 직접적으로 관련된 선행 연구에서 보고된 것(예: 환자에 대한 차별적이고 무례한 대우, 환자 대상화 및 표준 이하의 진료, 자신의 능력 이상의 수행 요구, 환자에게 공개적으로 모욕당함)이 이에 해당합니다. 또한 중국 문화에 고유한 전문직업성 딜레마, 특히 문화 간 전문직업성 딜레마에 대해 Ho 등이 보고한 내용을 정리했으며(Ho 등, 2017), 이러한 딜레마의 각각의 근거를 지적하고 원칙, 의미, 영향 및 문화적 규범을 언급했습니다(Ho 등, 2012). 
Through document analysis and focus group interviews, we developed a checklist of professionalism dilemmas from a behavior-based perspective. The checklist included 58 items over four domains, with 10 sub-domains. Since document analysis drew from a plethora of existing publications, most of the professionalism dilemmas in our checklist would be applicable to the international community (see Supplementary information Appendix B), such as those reported by previous studies on residents observing or being directly involved in professionalism lapses and challenges (e.g., discriminatory and disrespectful treatment of patients, objectification of patients and substandard practice, being asked to perform beyond their capability, being openly humiliated by patients). We also collated some professionalism dilemmas that are unique to the Chinese culture, especially intercultural professionalism dilemmas reported by Ho et al. (Ho et al., 2017), who also pointed out these dilemmas’ respective rationales, referencing principles, implications, affects, and cultural norms (Ho et al., 2012).

본 연구에서 전문직업성 딜레마의 중요한 원인은 "거절하기 어려움"에 기인할 수 있습니다. 중국인과 미국인의 거절 전략에 대한 비교 연구에 따르면 미국인은 중국인보다 직접 거절을 훨씬 더 자주 사용하며(Cai, 2009), 중국인의 개인적 경계에 대한 내재적 장애물인 미안지(얼굴)를 발견했습니다. Mianzi는 중국인들은 체면을 잃는 것에 큰 불쾌감을 느끼며 체면이 손상되는 상황을 피하기 위해 항상 노력한다는 점에서 중국 문화에 깊이 뿌리내린 심리사회적 구조입니다. 레지던트가 상사에게 거절하는 것은 이미 전 세계적으로 공통적으로 발생하는 병원 위계질서와 의료 시스템의 숨겨진 커리큘럼으로 인해 어려운 일입니다(Chang et al., 2017; Komaromy et al., 1993). 이는 때때로 전공의가 자신의 능력을 넘어서는 의료 업무를 수행하도록 요구받거나(우수성-43) 과도한 육체적, 정신적 피로에도 불구하고 초과 근무를 해야 하는 경우(의무-33)와 같이 환자 안전을 위험에 빠뜨리기도 합니다. 특히 레지던트가 자신의 진료 수준을 저하시킬 수 있는 업무에 직면했을 때 자유롭게 의견을 말할 수 있도록 제도적 차원에서 보다 전문직업적인 업무 문화를 장려하기 위해 모든 노력을 기울여야 합니다.  
An important source of professionalism dilemmas in our study could be attributed to “difficulty saying no”. A comparative study of Chinese and American refusal strategies found that Americans use direct refusal far more frequently than the Chinese (Cai, 2009), with mianzi (face) being an inherent obstacle to personal boundaries for Chinese. The psychosocial construct of mianzi is deeply rooted in Chinese culture in that people take great offense at any loss of face, and efforts are always made to avoid face-risking situations. It is already difficult for residents to say no to their superiors owing to hospital hierarchy and the hidden curriculum of the health care system, which is a common occurrence throughout the world (Chang et al., 2017; Komaromy et al., 1993). This may sometimes even place patient safety at risk, such as when residents are required to perform medical tasks beyond their ability (Excellence-43) or when they are required to work overtime despite excessive physical and mental fatigue (Duty-33). Every effort should be made to encourage a more professional work culture, especially at a systemic level, so that residents can have the freedom to speak up when they are faced with tasks that may compromise their level of care.

친구나 동료와 같은 지인의 부탁을 거절하기는 어렵지만, 특히 중국인 전공의의 경우 더욱 그러할 것으로 보입니다. 전공의들은 친구가 우선 의료 예약을 요청하거나(청렴성-23) 동료를 위해 로그인해 달라는 요청(청렴성-24)과 같은 특정 행동이 연고주의이며 도덕적 청렴성의 기본 원칙에 위배된다는 것을 이해하지만, 대부분은 여전히 이러한 요청에 '예'라고 답합니다. 중국 문화에서 이러한 행동은 사회의 조화로운 균형에 중요한 역할을 하는 렌칭renqing의 교환(Chen, 2005; Wang & Pak, 2015)에 기인할 수 있습니다. 지인이 이러한 문제를 해결하도록 돕는 것은 전공의들에게 체면을 세워줄 수 있지만, 도움을 거부하면 지인의 관계적 기대에 위배될 뿐만 아니라 유교 윤리에 기반한 더 넓은 사회적 규범에 위배되어 양측 모두 체면을 잃게 되는 경우가 많습니다(Bedford, 2022). 신뢰의 감소는 지인 네트워크 내에서 화합이라는 가장 중요한 사회적 가치를 상쇄했다는 것을 의미할 수 있습니다.  
While it is difficult for residents to say no to their acquaintances, such as friends or peers, this seems to especially be the case for Chinese residents. Although residents understand that certain behaviors, such as when friends request priority medical bookings (Integrity-23) or when they are asked to sign-in for peers (Integrity-24), are nepotic and violate basic principles of moral integrity, most will still choose to say yes to these requests. In Chinese culture, this kind of behavior can be attributed to an exchange of renqing (Chen, 2005; Wang & Pak, 2015), which is crucial to the harmonious balance of society. Helping acquaintances resolve these troubles would add much face for the residents, but if they refuse to help, it would not only violate the relational expectations of the acquaintance, it would also violate a wider social norm grounded in Confucian ethics, often resulting in both parties losing face (Bedford, 2022). The reduction in trust may imply that you have offset the paramount social value of harmony within this network of acquaintances.

중국인들은 또한 일부 어려운 환자의 요청을 거절하는 데 어려움을 겪고 있다고 보고했습니다. 전공의의 나이가 젊어 보인다는 이유만으로 전공의가 잘 할 수 있는 시술을 더 높은 수준의 의사에게 의뢰하거나(의사소통-10, 12), 환자가 불필요하거나 과한 의료 서비스를 요구하는 경우(의료 자원의 공정한 관리-44) 등 불합리해 보이는 요청에도 환자의 고집에 타협하는 경우가 있다고 합니다. 이제 막 입사한 레지던트가 환자의 요청에 따라 개인 연락처를 알려주는 데 동의하는 현상도 있습니다(커뮤니케이션-9). 레지던트들은 학부 의학교육 과정에서 배운 이타주의의 강한 영향력을 "내가 할 수 있는 한 많이 도와야 한다"와 같은 말로 간접적으로 자주 언급했습니다. 이타주의는 조화로운 의사-환자 관계를 구축하려는 궁극적인 목표와 함께 강조되는 핵심 요소일 수 있습니다(Luo et al., 2017). 그러나 이러한 바람직한 결과를 달성하기 위해서는 좋은 이타적 의도와 적절한 전문직업성 교육 및 제도적 지원이 병행되어야 합니다. 중국에서는 위챗이 주요 커뮤니케이션 앱으로 성장했으며, 일부 중국 의사들은 지속적인 진료를 제공하기 위해 위챗에 자체 환자 그룹을 개설하기도 합니다(Zhang, 2017). 그러나 의사들은 WeChat 연락처를 가진 환자로부터 지속적으로 압박을 받거나 심지어 괴롭힘을 당한다고 보고했으며, 이로 인해 의사들은 환자에게 개인 연락처 정보를 제공할지 여부를 놓고 고민하고 있습니다. 이러한 상황이 만연해 있으므로 레지던트는 임상 로테이션을 시작하기 전에 사적인 채널을 통해 환자와 소통할 경우 어떤 결과가 초래될 수 있는지 알려야 합니다. 여기에는 일과 휴식 사이의 뚜렷한 이분법 부족, 비공식적인 상담으로 인한 잠재적 오진 및 위험 등이 포함될 수 있지만 이에 국한되지는 않습니다(Hu, 2020). 이 모든 것은 중국의 의료 교육에 개인정보 보호 및 정보 관리 교육이 포함되어야 함을 시사하며, 이는 현재 아직 개발 중입니다. 일부 중국 의료진이 사적인 채널을 통해 환자와 소통하는 이유에 대해서는 병원 내 공개 커뮤니케이션 채널의 활용도가 낮고(Liu, 2017) 미국, 영국, 호주 등 국가에서 이미 시행 중인 전문직업성에 대한 통일된 소셜 미디어 가이드라인이 없기 때문이며(DeJong, 2018), 중국 의료기관은 일반적인 권고 사항(예: 사적인 채널을 통해 진단이나 치료를 해서는 안 된다)만 제시하고 비공식 커뮤니케이션 채널에 대한 명확한 제한을 설정하지 않았기 때문이라고 설명합니다. 이와 같은 의사들의 딜레마를 해결하기 위해서는 전문직업성 교육이 무엇보다 중요하지만, 국가 차원에서 소셜 미디어 가이드라인을 마련하고, 병원은 공개 및 내부 커뮤니케이션 시스템을 강화하며, 지역사회 차원에서 이러한 주제에 대한 환자 교육을 실시할 것을 권장합니다. 

Chinese residents also reported difficulty saying no to the requests of some difficult patients. Even if requests seem unreasonable, the resident may compromise at the patient’s insistence, such as when patients request a higher-level physician for a procedure the resident can well take care of simply because the resident appears young in age (Communication-10 & 12) or when patients request unnecessary or over-the-top medical services (Fair stewardship of health care resources-44). A phenomenon is that some residents who are just entering the workplace would agree to give patients their personal contact information at the patient’s request (Communication-9). Residents have frequently, and sometimes indirectly, referenced the strong influence of altruism taught during their undergraduate medical education, with statements such as, “helping as much as I can”. Altruism may be a key factor here, emphasized with the ultimate goal to build a harmonious physician–patient relationship (Luo et al., 2017). However, to achieve this desired outcome, good altruistic intentions would need to be paired with appropriate professionalism training and institutional support. In China, WeChat has grown to become the primary communications app, and some Chinese physicians establish their own patient groups on WeChat to provide continuation of care (Zhang, 2017). However, residents have reported being constantly pressed or even harassed by patients who have their WeChat contact, which leaves residents struggling with whether to give patients their personal contact information. Given the pervasiveness of these situations, residents should be informed the consequences of communicating with patients through private channels prior to the start of their clinical rotations. These may include but are not limited to lack of a distinct dichotomy between work and rest and potential misdiagnoses and risks arising from informal consultations (Hu, 2020). All of this suggest that medical education in China should include privacy and information management training, which is currently still under development. As for why some Chinese medical staff continue to communicate with patients through private channels, it comes down to poorly utilized public communication channels in hospitals (Liu, 2017) and the lack of unified social media guidelines on professionalism, such as those already in effect in countries such as the US, UK, and Australia (DeJong, 2018), and Chinese medical institutions have only provided general recommendations (e.g., diagnoses or treatment should not be done via private channels) but have not established clear restrictions on unofficial communication channels. While professionalism education is paramount in the wake of this type of dilemma for residents, we also recommend that social media guidelines be set at a national level, hospitals strengthen their public and internal communication systems, and patient education on these topics be provided at the community level.

한 레지던트는 동료가 모자이크(프라이버시 보호를 위해 사진을 디지털 픽셀로 처리한 것) 처리 없이 소아 환자의 사진을 WeChat 모멘트에 게시하는 것을 목격했다고 언급했습니다(환자 기밀-50). 의사나 레지던트가 의도적이든 의도적이지 않든 위챗과 같은 소셜 미디어 앱에 환자 정보를 공개하는 경우가 있기 때문에, 이러한 사례는 비단 한 사람에게만 국한된 것은 아닙니다. WeChat은 이제 중국에서 없어서는 안 될 올인원 앱으로, 메시징 앱으로 기능하고, 공식 계정을 호스팅하고, 대화형 소셜 피드 플랫폼(WeChat 모멘트)을 지원하고, 디지털 결제 서비스(WeChat Pay)를 제공하고, 미니 프로그램이나 비디오 채널을 제공합니다(CMI 미디어 그룹, 2020). 의료 전문가들도 WeChat을 사용하여 앱 내에서 의료용 애플릿에 액세스하고 WeChat 모멘트에서 업무 및 생활 업데이트를 공유합니다(오슬로 대학교 인문학부, 2020). 이 레지던트는 환자 사진을 소셜 미디어에 공유하는 것이 비전문직업적이라고 생각했지만, 숨겨진 커리큘럼이나 사회 규범 위반에 대한 두려움 때문에 동료에게 이 문제를 제기하거나 상사에게 보고하지 않았습니다. 그럼에도 불구하고 중국 법률은 의사가 환자의 사생활을 공개하는 것을 명시적으로 금지하고 있으며, 이로 인한 부작용에 따라 경고, 벌금, 의사 면허 정지 또는 취소에 이르는 처벌이 부과될 수 있습니다(중화인민공화국 국무원, 2021). 그러나 현실적으로 의료기관이 직원들이 소셜 미디어에서 공유하는 모든 정보를 모니터링하기는 어렵기 때문에 의사와 레지던트에 대한 처벌은 환자 개인의 불만부터 병원 경영에 이르기까지 사안별로 발생할 가능성이 높습니다. 환자의 프라이버시와 의사의 전문직업성을 모두 보호한다는 관점에서, 의료 전문가에게 환자 프라이버시 침해로 간주되는 행동을 명확하게 알리는 프로그램과 가이드라인을 시행하는 것도 마찬가지로 중요합니다.  
One resident mentioned witnessing colleagues post photos of child patients without mosaic (digital pixelation of photos to protect privacy) on WeChat moments (Patient confidentiality-50). This may not be an isolated singular scenario, since at times, physicians or residents may intentionally or unintentionally disclose patient information on social media apps such as WeChat. WeChat is now an indispensable all-in-one app in China, functioning as a messaging app, hosting official accounts, supporting an interactive social feeds platform (WeChat Moments), providing digital payment services (WeChat Pay), and featuring mini programs or video channels (CMI Media Group, 2020). Health professionals also use WeChat to access medical applets within the app and to share work and life updates in WeChat Moments (Faculty of Humanities of University of Oslo, 2020). For this resident, even though she believed sharing photos of patients to social media was unprofessional, she did not confront her colleagues about this or report it to her superiors, possibly for fear of the hidden curriculum or violating social constructs. Nevertheless, Chinese law explicitly prohibits physicians from disclosing patients’ privacy, and punishments ranging from warnings, fines, suspension or even revocation of physicians’ licenses can be imposed depending on the adverse consequences caused (The State Council of the People’s Republic of China, 2021). However, in actuality, it may be difficult for medical institutions to monitor all information shared by its employees on social media, so consequences against physicians and residents are more likely to crop up on a per-case basis from patients’ individual complaints to hospital management. In view of protecting both patient privacy and physician professionalism, it is equally important to implement programs and guidelines to clearly inform health professionals of behaviors that are indicative of a breach of patient privacy.


환자의 가족은 임상적 의사 결정에 중요한 역할을 하는데(Weng et al., 2011), 이는 환자 가족의 요청에 따라 환자에게 진실을 숨기는 경우(사전 동의-53), 가족의 서명 거부로 사전 동의를 받을 수 없는 경우(사전 동의-55) 등의 딜레마가 발생하는 이유를 설명해 줍니다. 중국에서는 문화적, 사회적, 법적 요인이 환자에게 질병 상태를 완전히 공개하지 않는 데 근본적인 역할을 합니다. 예를 들어, 환자가 암 진단을 받으면 의사는 환자의 가족에게 먼저 알리고, 가족은 환자가 질병에 대해 어느 정도 알아야 하는지 결정합니다(Tang et al., 2006). 의사가 암 진단에 대한 정보를 가족에게 먼저 제공하도록 선택할 수 있다는 것은 중국 법률에 의해 뒷받침됩니다(중화인민공화국 국무원, 2021). 많은 중국인에게 죽음에 대한 논의는 금기시되기 때문에(Ho et al., 2017), 가족 구성원은 환자가 감당하기 힘들고 정서적 붕괴로 이어져 환자의 죽음을 앞당길 수 있다는 두려움 때문에 환자에게 진실을 밝히기 위해 숨기거나 점진적인 접근 방식을 취하는 경향이 있습니다(Weng et al., 2011). 또한 중국의 집단주의 문화에서는 환자를 별도의 개인으로 간주하지 않고 가족의 구성원으로 간주합니다(Ho et al., 2012). 따라서 자연스럽게 임상적 결정과 정서적 부담 모두 환자의 가족 전체가 공유합니다. Su 등은 암 진단을 통보받은 직후에는 환자에게 불안과 고통을 유발할 수 있지만, 암 진단을 완전히 공개하는 것이 장기적으로 환자에게 도움이 된다고 제안합니다(Su 등., 2020). 우리는 집단주의 문화권에서 가족의 역할은 환자에게 중대한 질병을 숨기는 것이 아니라 환자에게 알린 후 환자가 정서적 부담을 감당할 수 있도록 돕는 것으로 구체화되어야 한다고 믿습니다.  
Family members of patients play an important role in clinical decision-making (Weng et al., 2011), which explains why there are dilemmas such as Concealing the truth from patients at the request of the patient’s family (Informed consent-53) and Inability to obtain informed consent owing to the family’s refusal to sign (Informed consent-55). In China, cultural, social, and legal factors play a fundamental role in not fully revealing disease status to patients. For example, when a patient is diagnosed with cancer, the physician would often first inform the patient’s family members, who would then determine how much the patient should know about the condition (Tang et al., 2006). It is supported by Chinese law that physicians may choose to give information about cancer diagnoses to family members first (The State Council of the People’s Republic of China, 2021). For many Chinese, discussions of death are taboo (Ho et al., 2017), so family members tend to conceal or take more gradual approaches to disclose the truth to the patient because they fear it would be too much for the patient to bear and would lead to an emotional breakdown that would accelerate the patient’s death (Weng et al., 2011). Additionally, under the Chinese collectivist culture, the patient is not considered to be a separate individual but rather a component of the family (Ho et al., 2012). Therefore, naturally, both clinical decisions and emotional burdens are shared by the patient’s entire family. Su et al. suggest that although it may cause anxiety and distress in patients immediately after being informed of their diagnosis, the complete disclosure of cancer diagnoses benefits patients in the long term (Su et al., 2020). We believe that in collectivist cultures, the role of the family should be embodied in helping patients bear the emotional burden after informing patients rather than concealing critical illnesses from patients.

우리의 연구 결과는 집단주의와 관계주의가 중국인이 직면하는 전문직업성 딜레마를 분석하는 데 큰 설명력을 가지고 있음을 시사하는 것 같습니다.

  • 집단주의는 상호 의존적인 사회적 지향을 나타내며, 이는 자아를 중요한 관계를 포괄하는 상호 연결된 존재로 보는 관점과 관련이 있습니다(Grossmann & Na, 2014). 집단주의 사회는 조화, 관련성, 사회적 연결에 중점을 두는 경향이 있습니다(Oyserman & Lee, 2008). 또한 토착 심리학자들은 유교 문화의 영향을 강조하며 유교 사회에서 개인을 고립된 존재가 아닌 사회적 관계의 관점에서 이해할 것을 제안하며, 렌칭, 꽌시, 면지는 사회적 관계와 개인 행동을 이해하는 데 중요한 개념입니다(Wang & Pak, 2015). 이러한 관점에서 볼 때, 중국인들이 자기 자신에 대한 영향에 대해서는 덜 합리화하지만 자신의 행동이 가능한 모든 팀원과의 관계, 환자 및 가족과의 관계에 미치는 파급 효과에 대해서는 광범위하게 고려하는 것은 놀라운 일이 아닙니다(Ho et al., 2012). 이는 한국, 일본, 싱가포르와 같이 유교의 영향을 받은 사회에 문화적 뿌리를 둔 의사들을 만날 때 특히 주목해야 할 현상입니다.
  • 관계주의는 유교 사회에서 더 두드러지지만, 복종과 충성의 원칙을 인정하지 않는 등 개인주의가 더 뚜렷한 사회에서도 관계에 대한 관심이 없는 것은 아닙니다(Lingard et al., 2001). 아마도 전 세계의 레지던트들을 위해 의학교육자들은 현재 개인 수준에서 적용되는 원칙을 강조하는 것에서 나아가 임상 환경에서 관계의 균형을 잡을 수 있도록 명시적으로 도와야 할 것입니다. 

Our results seem to suggest that collectivism and relationalism have great explanatory power in the analyses of professionalism dilemmas encountered by Chinese residents.

  • Collectivism represents an interdependent social orientation, which is associated with a view of the self as interconnected, encompassing important relationships (Grossmann & Na, 2014). Collectivist societies tend to focus on harmony, relatedness, and social connection (Oyserman & Lee, 2008). Also, indigenous psychologists highlight the influence of Confucian culture and propose to understand the individual in Confucian societies not in isolation but in terms of social relationships, and renqingguanxi, and mianzi are important concepts in understanding social relationships and personal behaviors (Wang & Pak, 2015). From this perspective, it is not surprising that Chinese residents rationalised less frequently about implications for self but extensively considered the rippling effects of their behaviors on their relationships with all possible team members and with patients and their families (Ho et al., 2012). It is a phenomenon to which we should pay special attention when we encounter physicians with cultural roots in Confucius-influenced societies, such as those of Korea, Japan, and Singapore.
  • Although relationalism is more pronounced in Confucian societies, attention to relationships is not absent in societies in which individualism is more evident, such as in unavowed principles of obedience and allegiance (Lingard et al., 2001). Perhaps, for residents all over the world, medical educators should move beyond the current emphasis on principles that apply at the individual level and explicitly help them to balance relationships in clinical settings.


집단주의와 관계주의는 타인에 대한 친절, 이타심, 연대, 상호 도움, 신뢰, 지원, 개선을 옹호하며(Wang, 2006), 깊은 상호의존 관계, 사회적 조화와 안정, 사회의 균형을 가져다줍니다(Oyserman et al., 2002). 그러나 이러한 긍정적인 효과에도 불구하고, 본 연구 결과와 앞선 논의에서 살펴본 바와 같이 강한 집단주의 사회의 문화적 증상은 뚜렷한 개인적 경계가 없는 것과 같은 문제점을 야기하기도 합니다. 따라서 우리가 작성한 전문직업성 딜레마 체크리스트는 이러한 전문직업성 문제를 해결하기 위한 초기 도구로 사용될 수 있습니다. 체크리스트에 제시된 항목과 주제는 향후 사례 연구 및 평가 루브릭을 위한 기반을 마련하여 다양한 개입 또는 개선 접근법을 알려줄 수 있습니다. 이를 바탕으로 전문직업성 교육은 레지던트들이 전문직업적으로 행동하고 임상에서 전문직업성 딜레마와 도전에 대처하는 데 필요한 대처 기술을 연마하고 보건 시스템 및 병원 관리 원칙과 지침을 개선하는 데 도움이 될 것입니다. 이 연구 결과의 또 다른 이점은 체크리스트에서 제기된 사항을 바탕으로 의학 지식의 대중화, 의료진 존중, 의료 시스템 탐색 등 개선이 필요한 영역을 다룰 수 있는 환자 교육에서의 역할이 될 것입니다.  

Collectivism and relationalism advocate kindness to others, selflessness, solidarity, and mutual help, trust, support, and improvement (Wang, 2006) and bring about deeply interdependent relationships, social harmony and stability, and a balance to society (Oyserman et al., 2002). However, despite these positive effects, cultural symptoms of a strongly collectivist society also pose its own challenges, such as a lack of distinct personal boundaries, as demonstrated in the results of this study and in the previous discussion. As such, the checklist of professionalism dilemmas we have compiled may serve as an initial tool to begin tackling these professionalism challenges. The items and themes presented in the checklist would pave the way for future case studies and evaluation rubrics that could inform a variety of interventions or remedial approaches. Based on these, professionalism training would equip residents to conduct themselves professionally and also hone the necessary coping skills to deal with professionalism dilemmas and challenges in clinical practice and aid in improving health system and hospital management principles and guidelines. An added benefit of the results of this study would be its role in patient education, where areas that require improvement, such as popularizing medical knowledge, respect for healthcare providers, and navigating the health care system, can be addressed based on points raised within the checklist.

본 연구에는 몇 가지 한계가 있습니다. 이 연구에서 인터뷰 대상자를 의도적으로 샘플링했기 때문에 편향된 대표성을 나타낼 수 있습니다(Tongco, 2007). 포커스 그룹은 단일 병원에서 실시되었기 때문에 다른 기관에서 근무하는 레지던트의 경험과 관찰을 반영하지 못할 수 있으므로 연구 결과를 더 많은 집단에 일반화하는 데 한계가 있습니다. 또한 레지던트 수련 기간이 길수록 각 전문직업성 딜레마에 대해 듣고, 목격하고, 경험한 레지던트의 비율이 더 높을 가능성이 높았습니다. 이 연구에서는 수련 기간이 다른 레지던트들을 포함했지만, 모집된 참가자 중 52%가 수련 기간이 6개월밖에 되지 않은 레지던트였기 때문에 전문직업성 딜레마에 대한 전반적인 보고율이 낮을 수 있습니다. 향후 대규모 표본 추출을 통해 레지던트를 폭넓게 대표하는 정량적 연구에서는 잠재적 편향에 대한 우려를 최소화하기 위해 전공과, 경력 수준, 사회인구학적 배경에 따라 레지던트들이 보고한 전문직업성 딜레마의 범위를 비교해야 합니다. 이 버전의 전문직업성 딜레마 체크리스트가 완전한 것은 아니며 향후 임상 분야, 기관 및 지역 전반에 걸쳐 의견을 폭넓게 수렴하려는 노력이 필요하다는 점에 유의할 필요가 있습니다. 이 연구의 주요 목적은 전문직업성 딜레마 체크리스트를 구성하는 것이었지만, 이 체크리스트가 실행된다면 심리측정 특성에 대한 추가 테스트를 통해 이러한 전문직업성 딜레마가 레지던트의 복지 및 제공되는 의료 서비스의 질과 어떤 관련이 있는지 밝혀낼 수 있을 것입니다.  

Our study has several limitations. The purposive sampling of interviewees in this study could have led to a biased representation (Tongco, 2007). Focus groups were conducted at a single hospital and may not reflect the experiences and observations of residents at other institutions, so generalization of research findings to the larger population is limited. In addition, longer residency training was more likely to increase the proportion of residents who have heard of, witnessed, and experienced each of the professionalism dilemmas. In this study, although we included residents with different training years, 52% of the recruited participants were residents who had only been in training for 6 months, which may lower the overall reporting rates of professionalism dilemmas. Future quantitative studies of a wide representation of residents through large-scale sampling should compare the range of professionalism dilemmas reported by residents across specialties, experience levels, and sociodemographic backgrounds in order to minimize concern for potential bias. It is worth noting that this version of the professionalism dilemma checklist is not inexhaustible and would benefit from future efforts to broaden input across clinical disciplines, institutions, and regions. Although the main aim of this study was to construct a checklist of professionalism dilemmas, if this checklist is to be implemented, further testing of its psychometric properties would shed light on how these professionalism dilemmas relate to resident wellbeing and quality of health care provided.

 


Adv Health Sci Educ Theory Pract. 2023 Aug;28(3):939-966. doi: 10.1007/s10459-022-10198-4. Epub 2023 Jan 3.

"It really puts me in a bind", professionalism dilemmas reported by Chinese residents

Affiliations

1Institute for International Health Professions Education and Research, China Medical University, No. 77 Puhe Road, Shenyang, 110122, People's Republic of China.

2Institute for International Health Professions Education and Research, China Medical University, No. 77 Puhe Road, Shenyang, 110122, People's Republic of China. dlwen@cmu.edu.cn.

#Contributed equally.

PMID: 36595184

DOI: 10.1007/s10459-022-10198-4

Abstract

Residents play a pivotal role in the healthcare system. However, few tools have systematically revealed the dilemmas and challenges faced by residents. This study aimed to develop a checklist for professionalism dilemmas based on a behavior-based professionalism framework and to examine the range and proportion of professionalism dilemmas heard of, witnessed, or experienced by Chinese residents. Mixed methods were used, comprising qualitative (document analysis and focus group interviews) and quantitative (a small-scale questionnaire survey) data. Document analysis summarized professionalism dilemma items from previous publications. For focus group interviews, we used narrative inquiry to explore and make sense of residents' experiences and perceptions of professionalism dilemmas. A small-scale questionnaire survey was conducted during each focus group to investigate the proportion of professionalism dilemma items that residents reported to have heard of, witnessed, or experienced. Through document analysis and focus group interviews, we developed a checklist of professionalism dilemmas based on a behavior-based professionalism framework. The checklist included 58 items over four domains, with 10 sub-domains (compassion, respect, communication, collaboration, integrity, duty, pursuit of excellence, fair stewardship of health care resources, patient confidentiality, and informed consent). We also sought a preliminarily subjective impression by exploring the proportion of residents who have heard of, witnessed, and experienced each of the professionalism dilemma items and residents' perspectives when faced with professionalism dilemmas. Residents inevitably encounter or experience a diverse range of professionalism dilemmas. This checklist of professionalism dilemmas that was developed could prove to be a significant reference for targeted professionalism education, both for the resident as well as for faculty. It can also act as a helpful tool for improving hospital management guidelines and patient education.

Keywords: Document analysis; Narrative inquiry; Professionalism; Professionalism dilemma; Resident.

의학교육에서 증례-기반 학습: 존재론적 충실성을 위한 요구(Perspect Med Educ. 2023)
Case-Informed Learning in Medical Education: A Call for Ontological Fidelity

ANNA MACLEOD, VICTORIA LUONG, PAULA CAMERON, SARAH BURM, SIMON FIELD, OLGA KITS, STEPHEN MILLER, WENDY A. STEWART

 

학부 의학교육 커리큘럼에 대한 사례를 작성해 달라는 요청을 받았다고 상상해 보세요: "고혈압에 대한 증례를 작성해 주세요." 이 지시에 따라 일련의 활동을 진행해야 하는데, 질환, 임상 증상, 관련 징후, 치료 옵션 및 예후에 대해 설명할 수 있습니다. 포함된 정보가 정확하고 근거에 기반하며 최신 정보인지 확인하기 위해 문헌을 참고할 수도 있습니다. 
Imagine you’ve been asked to write a case for an undergraduate medical education curriculum with the direction: “Please write a case about hypertension.” That instruction sets into place a sequence of activity: you would likely go about describing the condition, its presenting clinical manifestations, relevant signs, treatment options, and prognosis. You might turn to the literature to ensure the information included is accurate, evidence-based, and up to date.

반대로 다음과 같은 지시를 받았다고 상상해 보세요: "고혈압 환자의 이야기를 담은 사례를 작성해 주세요."라는 지시를 받았다고 상상해 보세요. 미묘하지만 분명한 차이가 있습니다. 이 경우 질병과 진단에 대한 이야기를 쓸 때 질병의 본질 또는 생생한 경험을 전달하려는 시도가 다른 초점으로 부각됩니다. 이러한 다른 방향성은 미묘하지만 중요하다고 생각합니다. 
In contrast, imagine you received the direction: “Please write a case that tells the story of a person with hypertension.” The difference is subtle, but notable. The path you would take to write this case, in telling the story of an illness and diagnosis, brings to the fore a different focus: an attempt to convey the essence, or lived experience, of the illness. We believe this different orientation, though subtle, matters.

사실 텍스트 기반 사례는 의학 교육의 기본입니다. 사례 기반 학습(문제 기반, 사례 기반, 팀 기반 등 사례를 중심으로 한 다양한 학습 접근 방식을 포괄하는 포괄적인 용어로 사용함)이 이루어지는 주요 메커니즘입니다. 우리는 사례의 형식, 내용, 목적 등 우리가 사례를 작성하고 생각하는 방식이 의학에서 실제라고 보는 정보 유형(사실, 증거, 프로시져 등)에 대한 '사소하지 않은 단서'를 제공한다고 주장합니다. 
Text-based cases are, in fact, fundamental to medical education. They are the primary mechanism through which case-informed learning (which we will use as an umbrella term that includes the various approaches to learning with cases at their heart, including problem-based, case-based, team-based and others) occurs. We contend that the way we write and think about cases, including their format, content, and purpose, provides not-so-subtle clues about the types of information medicine takes to be real: fact, evidence, procedure.

교육적 장치로서의 사례는 의학교육 문헌에서 놀라울 정도로 덜 탐구되었지만, 존재하는 기여는 개인의 사회적 상호 작용과 정체성이 임상적 만남과 건강 결과에 영향을 미칠 수 있는 방식보다는 사실적인 의료 정보에 중점을 두었습니다 [1, 2, 3]. 이러한 경우 환자의 목소리가 거의 들리지 않는 것은 악의나 나쁜 의도의 산물이 아니라고 생각합니다. 오히려 학생이 다음 단계의 교육으로 넘어가는 데 필요한 정보, 즉 필수적인 내용을 사례에 가득 채우고자 하는 욕구에서 비롯된 것입니다. 여기에 어떤 정보가 실제로 사례에 포함해야 하는 필수 정보인지 어떻게 결정할 수 있을까요? 
While cases as an educational device remain surprisingly under-explored in the medical education literature, those contributions that do exist have noted an emphasis on the factual medical information rather than the way an individual’s social interactions and identity can affect a clinical encounter and health outcome [1, 2, 3]. This largely absent patient voice in cases, we believe, is not a product of ill-will or bad intention. On the contrary, it arises from a desire to ensure that cases are packed full of the essentials, meaning the information a student needs to move onto the next stage of their education. Herein lies the challenge: How do we determine what information is, in fact, essential to include in a case?

여기서 놓치고 있는 부분은 철학적 문제, 더 구체적으로는 존재론적 문제라고 주장합니다. 즉, 우리가 교육에 사용하는 사례는 현실의 본질에 대한 의심할 여지 없는 철학적 가정을 재생산합니다. 과학 철학에서는 의학교육을 포함한 모든 분야는 다음을 포함한 일련의 철학적 원칙을 통해 구성된다고 주장합니다[4].

  • 존재론(무엇이 실재하는가),
  • 인식론(우리가 무엇을 알 수 있는가),
  • 방법론(우리가 어떻게 알 수 있는가),
  • 공리론(우리가 무엇에 가치를 두는가)

가장 단순한 형태로 온톨로지는 존재의 과학으로 정의할 수 있습니다. 의학교육의 세계에서 바르피오와 맥레오드[4]는 온톨로지를 한 분야로서 우리가 실재한다고 가정하는 것으로 설명했습니다. 
The missing piece here, we contend, is a philosophical issue, and more specifically, an ontological one. In other words, the cases we use for education reproduce unquestioned philosophical assumptions about the nature of reality. The philosophy of science holds that all fields, including medical education, are constituted through a set of philosophical principles, including

  • ontology (what is real),
  • epistemology (what we can know),
  • methodology (how we can know), and
  • axiology (what we value) [4].

In its simplest form, ontology can be defined as the science of being. In the world of medical education, Varpio and MacLeod [4] described ontology as what we, as a field, assume to be real.

이 원고에서 우리는 증례는 교육적 인공물이며, 우리가 교육에 사용하는 증례의 목적, 구조 및 내용에는 의학의 존재론적 가정이 존재하거나 존재하지 않는다는 입장을 취합니다. 우리는 존재론적 충실성의 관점에서 증례를 만든다는 것은 무엇을 의미하며, 일상적인 의학 교육에서 이를 수행하는 방법에 대한 제안을 제공한다는 질문을 던집니다. 
In this manuscript, we take the position that cases are educational artefacts, and that the ontological assumptions of medicine are present (or not) in the purpose, structure, and content of the cases we use for teaching. We ask the question: what would it mean to create cases from a position of ontological fidelity and provide suggestions for how to do this in everyday medical education?

철학이 중요한 이유는 무엇일까요?
Why does philosophy matter?

의학교육은 모든 관련 분야와 마찬가지로 철학의 영향을 많이 받습니다. 그러나 철학적 탐구는 아직 의과대학의 일상적인 업무에 적용되지 못하고 있습니다. 의학의 철학과 의학교육 시리즈[5], 아카데믹 메디슨의 과학철학 시리즈[4], 최근 출간된 보건 전문직 교육을 위한 응용철학[6] 등 학문 영역에서 철학적 아이디어를 통합하는 데 대한 관심이 높아지고 있음에도 불구하고 말입니다. 물론 의학교육은 철학의 도구를 활용하여 새로운 관점을 통해 의학의 오랜 과제를 해결함으로써 이점을 얻을 수 있습니다[5]. 빈과 시안치올로[5]는 "철학은 복잡하고 불확실할 때 잠시 멈춰서 명백해 보이는 관행에 대해 기본적인 질문을 던져 새로운 방식으로 사물을 보고 행동할 수 있도록 하는 근본적인 접근 방식으로 볼 수 있다"고 말합니다[5 p337].  
Medical education, along with all related fields, is steeped in philosophy. Yet, philosophical inquiry has yet to find its way to the everyday practices of our medical schools. This is despite increasing interest in integrating philosophical ideas in the academic realm, notably within Teaching and Learning in Medicine’s Philosophy and Medical Education series [5], Academic Medicine’s Philosophy of Science series [4], and the recent book Applied Philosophy for Health Professions Education [6]. Certainly, medical education can benefit from turning to the tools of philosophy to address medicine’s long-standing challenges through a fresh perspective [5]. As Veen and Cianciolo [5] remind us, “philosophy can be seen as the fundamental approach to pausing at times of complexity and uncertainty to ask basic questions about seemingly obvious practices so that we can see (and do) things in new ways” [5 p337].


전통적으로 의학 및 의학교육은 합리성, 객관성, 중립성에 대한 실증주의적 이상을 수용해 왔습니다[7]. 근거 기반 의학 및 비판적 평가와 같이 불확실성을 최소화하기 위해 고안된 체계적인 관행은 역사적으로 의학 및 의학교육 내에서 특권의 지위를 유지해 왔습니다[8]. 그러나 객관성과 중립성이라는 개념은 복잡하고 모순적이며 종종 예측할 수 없는 인간 활동의 본질을 가리고 있습니다[9]. 연구 맥락에서, 의학교육의 세계는 지식이 발견을 기다리는 객관적인 '사실'로 존재하는 것이 아니라 사회적 산물이며 제작자의 주관성이 반영된 증거라는 구성주의적 관점의 혜택을 받았습니다[10, 11](그림 1 참조). 트위터는 학술적 작업에서 다양한 온톨로지를 위한 공간을 마련하고 있으며, 최근 우이 저널과 컨퍼런스에서 비판 지향적이고 이론적 정보를 바탕으로 한 사회과학적 관점의 기고문을 발표하고 있습니다[1, 12, 13]. 그러나 흥미롭게도 사례 기반 학습을 포함한 교육 관행에서 동일한 공간을 만드는 것은 그다지 성공적이지 않았습니다. 
Traditionally, medicine and medical education have embraced positivist ideals around rationality, objectivity, and neutrality [7]. Systematic practices designed to minimize uncertainty like evidence-based medicine and critical appraisal have historically maintained a position of privilege within medicine and medical education [8]. However, notions of objectivity and neutrality disguise the complex, contradictory, and often unpredictable nature of human activity [9]. In the context of research, the world of medical education has benefited from constructivist perspectives that knowledge does not exist as an objective “fact” awaiting discovery; rather, it is a social product, a testament to the subjectivities of its creators [10, 11] (See Figure 1). We make room for multiple ontologies in our scholarly work, with recent contributions of critically oriented, theoretically informed social science perspectives in our journals and conferences [1, 12, 13]. Interestingly, however, creating the same space in our educational practices, including case-informed learning, has not been quite as successful.

그림 1 사례 기반 학습에 대한 실증주의 및 구성주의 접근 방식.
Figure 1 Positivist and Constructivist Approaches to Case-Based Learning.

 

사례 기반 학습
Case-Informed Learning

사례 기반 학습은 학습자가 가장 먼저 접하게 되는 교육적 접근 방식 중 하나입니다. 이 접근 방식은 원래 1960년대 중반 Barrows와 Tamblyn에 의해 문제 기반 학습(PBL)으로 개념화되고 구현되었으며[14], 학생들이 교수진 또는 튜터와 함께 소그룹으로 작업하여 실제 임상 상황을 시뮬레이션하는 임상 '문제'(즉, 사례)를 해결하도록 합니다[15]. 목표는 "지식의 단편화와 무의미한 사실의 습득을 줄이고, 호기심과 팀워크를 촉진하며, 질병 모델이 아닌 환자를 제시하는 것"입니다[16 p868]. 즉, 학습자가 당면한 사례를 공동으로 조사하면서 정보를 찾고 문제를 해결하는 기술을 개발하여 추후 전문 실무에 적용할 수 있습니다[15]. 
Case-informed learning is one of the first pedagogical approaches learners will encounter. This approach, originally conceptualized and implemented as Problem-Based Learning (PBL) by Barrows and Tamblyn in the mid 1960s [14], involves students working in small groups with a faculty facilitator or tutor to solve a clinical “problem” (i.e., a case) that simulates a real-life clinical situation [15]. The goal is to “reduce fragmentation of knowledge and acquisition of meaningless facts, to promote curiosity and teamwork, and to present a patient rather than a disease model” [16 p868]. In other words, as learners collaboratively investigate the case at hand, they develop the skills to find information and solve problems they can subsequently apply to their professional practice [15].

사례 기반 학습 접근법은 사실 존재론적 인공물입니다. 이는 의견과 행동이 감정이나 감각적 경험보다는 이성과 지식(예: 수학적 지식)에 근거해야 한다는 합리주의 이론에서 그 기원을 찾을 수 있으며, 인지 심리학[17]과 듀이[18]의 독립적이고 경험적인 학습 장려[15]의 영향을 강하게 받습니다. 시뮬레이션된 사례 또는 문제에서 학습한다는 개념은 듀이가 '실제 생활'과 함께 맥락과 학습을 매우 중요하게 여겼기 때문에 그의 공로를 인정받을 수 있습니다.
Case-informed learning approaches are, in fact, ontological artefacts. They can be traced to theories of rationalism, which refer to the idea that opinions and action should be based on reason and knowledge (e.g., mathematical knowledge) rather than on emotions or sensory experience, and are strongly influenced by cognitive psychology [17] as well as Dewey’s [18] encouragement of independent and experiential learning [15]. The notion of learning from a simulated case, or problem, can also be credited to Dewey, as he considered context and learning in concert with “real life” critically important.

사례 기반 학습은 시간이 지남에 따라 사례 및 팀 기반 학습과 같은 변형이 인기를 얻으면서 발전해 왔지만, 질문의 중심이 되는 내러티브 사례 이야기는 일관되게 유지되고 있습니다. 텍스트 기반 커리큘럼 모델로서 사례 기반 접근 방식은 의료 현장의 이야기를 포용할 수 있는 잠재력을 가지고 있습니다. 그러나 실제로는 기술적, 과학적, 전문적인 접근 방식인 '의학의 목소리'가 질병 이야기를 지배해 왔으며, 환자의 '삶의 목소리', 즉 환자의 삶의 사건과 문제에 대한 생생한 경험은 희생되어 왔습니다[19, 20]. 따라서 실제로 우리가 더 자주 보게 되는 것은 Coulehan이 설명한 것과 같은 의료 중심의 '병원 이야기'입니다[21]: 
While case-informed learning has evolved over time, with variations like case- and team-based learning gaining popularity, the narrative case story at the heart of the inquiry remains consistent. As a text-based curricular model, case-informed approaches have the potential to embrace the stories of medical practice. In reality, however, the “voice of medicine”—a technical, scientific, and professional approach—has dominated illness stories, at the expense of the patient’s “voice-of-the-life-world”: the patient’s lived experiences of events and problems in their life [19, 20]. What we therefore see more often in practice are the medical-centric “hospital stories,” such as those described by Coulehan [21]:

병원 정신에 스며든 이야기에는 일반적으로 환자가 주인공으로 등장하지 않으며, 심지어 인간적인 역할을 하는 부수적인 인물로 등장하지 않는 경우가 많습니다. 오히려 환자는 이야기의 진행을 방해하는 장애물이나 도전과 같이 영리하거나 좌절감을 주는 플롯 장치로 등장하거나, 때로는 이야기의 성공적인 해결을 촉진하는 예상치 못한 선물과 같은 긍정적인 플롯 장치로 등장하기도 합니다[21 p109]. 
The stories that permeate the hospital ethos don’t usually have patients as their protagonists, and often not even as ancillary characters that play human roles. Rather, patients quite frequently serve as clever or frustrating plot devices—obstacles or challenges that impair the story’s progress; or sometimes they may serve as positive plot devices, unexpected gifts that facilitate the story’s successful resolution [21 p109].

Coulehan과 다른 내러티브 학자들[22]은 이야기를 통해 성취되는 작업에 주목할 것을 권장했습니다. 내러티브 의학[23, 24, 25]은 내러티브 역량을 키우기 위한 의미 있는 수단으로 번창했습니다: "질병에 대한 이야기를 인식하고, 흡수하고, 대사하고, 해석하고, 감동할 수 있는 능력"[23 p1265]. 의학교육 연구와 의학 인문학 커리큘럼에서 환자의 주관적인 질병 경험을 묘사함으로써 "(재)인간화 의학"[26 p113]을 통해 생생한 경험이 지식으로 정당화되고 환자가 자신의 이야기를 서술하는 화자로서 주체성을 갖게 됩니다[26]. 하지만 흥미롭게도 미래의 의사를 가르치는 데 사용하는 이야기에 대한 관심은 현저히 떨어집니다. 
Coulehan, and other scholars of narrative [22], have encouraged us to pay attention to the work that is accomplished through stories. Narrative medicine [23, 24, 25] has flourished as a meaningful avenue for fostering narrative competence: “the capacity to recognize, absorb, metabolize, interpret, and be moved by stories of illness” [23 p1265]. By “(re)humanizing medicine” through portrayals of patients’ subjective experience of illness in medical education research and medical humanities curriculum [26 p113], lived experience becomes legitimized as knowledge and provides patient agency as narrator of their own story [26]. Interestingly, though, the stories that we use for teaching future physicians have received significantly less attention.

사례는 어떻습니까?
What about the case?

다양한 사례 기반 학습 접근법을 다루는 수십 년간의 연구에도 불구하고, 놀랍게도 전통적인 사례 형식에 이의를 제기한 연구는 거의 없습니다[2, 27, 28, 29]. Kenny와 Beagan[30]은 전형적인 사례 구성은 "환자의 목소리를 배제하고 의사의 목소리에 궁극적인 권위를 부여한다"고 지적했습니다. 이는 의학적 관찰과 해석을 논쟁의 여지가 없는 사실로 구성하는 반면 환자의 관찰은 주관적이고 오류 가능성이 있는 것으로 평가 절하합니다."(30페이지 1073). 이러한 방식으로 학생들은 환자를 해결해야 할 문제로 여기고 스스로를 문제 해결자로 여기는 데 길들여질 수 있습니다[1].
Despite decades of research addressing various case-informed learning approaches, surprisingly few studies have contested the traditional format of cases [2, 27, 28, 29]. Kenny and Beagan [30] noted that the typical construction of cases “grants ultimate authority to the voice of the doctor, excluding the voice of the patient. It constructs medical observations and interpretations as incontestable facts while devaluing patient observations as subjective and fallible” (30 p1073). In this manner, students may be accultured to view patients as problems to be solved, and themselves as problem-solvers [1].

물론 사례는 학생들에게 특정 진단 이상의 것을 교육합니다. 증례를 통해 재조명되는 의학의 존재론적(그리고 이와 관련된 공리론적, 즉 우리가 중요하게 여기는 것) 토대는 학생들에게 

  • 주의해야 할 것과
  • 무시해도 되는 것에 대해 암묵적으로 가르칩니다. 이는 다시 학생들이 
  • 무엇을, 어떻게 생각해야 하는지뿐만 아니라 
  • 무엇을, 어떻게 느껴야 하는지, 그리고 이러한 영역에
  • 어떻게 중요성을 부여하고 우선순위를 정해야 하는지도 결정합니다.

Certainly, cases educate students about more than a particular diagnosis. The ontological (and relatedly, axiological, i.e., what we value) foundations of medicine, reinscribed through the case, implicitly teach students about

  • what they need to concern themselves with, and
  • what they can ignore. This, in turn, dictates not only
  • what and how they should think, but also
  • what and how they should feel, and
  • how they ascribe and prioritize importance to these areas.

의학교육 문헌에 일관되게 기술된 사례 기반 접근법의 주요 특징은 '실제 삶'을 시뮬레이션한다는 점입니다[3, 14, 17, 27, 31, 32, 33, 34]. 의학교육자로서 우리는 잠시 멈춰서 스스로에게 질문해야 합니다. 이 사례를 통해 어떤 유형의 진료를 시뮬레이션할 수 있기를 바라는가? 
A key feature of case informed approaches consistently described in the medical education literature is their simulation of “real life” [3, 14, 17, 27, 31, 32, 33, 34]. As medical educators, we must pause to ask ourselves: what type of practice do we hope this case will simulate?

사례, 시뮬레이션 및 온톨로지 충실도
Case, Simulation, and Ontological Fidelity

흥미롭게도 사례 기반 학습이 사실 시뮬레이션의 한 유형이라는 것을 알고 있지만, 우리 분야에서는 아직 사례와 충실도 개념을 명확하게 연결 짓지 못했습니다. 시뮬레이션 기반 의학 교육의 맥락에서 충실도우리가 기대하는 현실감의 정도 또는 시뮬레이션이 현실을 재현하는 정확성의 정도를 의미합니다[35, 36, 37]. 의료 교육자는 일반적으로 두 가지 유형의 충실도에 중점을 둡니다[35, 38].

  • 물리적(즉, 시뮬레이터의 모양과 느낌의 유사성)과
  • 기능적(즉, 시뮬레이터가 조작 또는 개입에 반응하는 방식의 유사성)이라는 

기본 철학적 가정으로 돌아가서, 이러한 충실도에 대한 접근 방식은 실증주의적 방향에 기반하며, 이러한 시뮬레이션이 "실제" 임상 실습과 일치하는 객관적이고 측정 가능한 방식에 관심을 기울입니다[37]. 
Interestingly, while we recognize that case-informed learning is, in fact, a type of simulation, our field has not yet made a clear connection between cases and the concept of fidelity. In the context of simulation-based medical education, fidelity refers to the degree of realism we should expect, or the degree of exactness with which the simulation reproduces reality [35, 36, 37]. Medical educators generally focus on two types of fidelity:

  • physical (i.e., similarity in the look and feel of the simulator) and
  • functional (i.e., similarity in how the simulator responds to manipulation or intervention) [3538].

Returning to our underlying philosophical assumptions, these approaches to fidelity draw on positivistic orientations, concerned with objective, measurable ways these simulations align with “real” clinical practice [37].

또 다른 연구에서는 신중하게 고려할 가치가 있는 추가적인 충실도 유형으로 존재론적 충실도 개념을 제시했습니다[12]. 이 연구에서 우리는 학습자가 마네킹이 아닌 카데바에서 프로시져를 연습할 때와 시체에서 프로시져를 연습할 때 매우 다르게 참여하는 것을 발견했습니다. 간단히 말해서 시체는 실제와 다름없기 때문입니다. 카데바는 사연과 역사가 있는 살아있는 사람이었고, 그 이전의 삶이 교육 세션에 스며들었습니다[12, 39]. 간단히 말해, 존재론적 충실도는 시뮬레이터가 실제 환자와 얼마나 일치하는지, 즉 실제 인간과 얼마나 일치하는지를 의미합니다. 카데바의 존재론적 충실도는 가장 큰 강점이며 매우 다른 유형의 실습에 영감을 주었습니다. 최선의 노력에도 불구하고 아무리 기술을 발전시켜도 그 리얼리티를 재현할 수는 없었습니다.
In another study, we brought forward the concept of ontological fidelity as an additional type of fidelity that merits our careful consideration [12]. In that work, we noticed that learners engaged very differently when they practiced procedures on a cadaver as opposed to a manikin because, to simplify, the cadaver was real—and unmistakably so. The cadaver had been a living person with a story and a history, and that former life permeated the teaching sessions [12, 39]. Stated simply, then, ontological fidelity refers to the degree to which a simulator matches what a patient is: a real, human person. The ontological fidelity of cadavers was their greatest strength and inspired a very different type of practice. Despite our best efforts, no amount of technological advancement could reproduce that realness.

존재론적 충실도의 개념을 사례 기반 학습으로 확장하여, 우리는 내러티브 실천으로서의 의학이 실제로 이야기를 통해 구성된다고 믿습니다. 물론 의학에는 설득력 있고 실제적인 사례를 만들 수 있는 실화가 충분히 많지만, 이는 우리가 내러티브 실천에 동의하고 사례에서 의학에 대한 인간적 경험을 위한 공간을 확보하는 경우에만 가능합니다. 
Extending the concept of ontological fidelity to case-informed learning, we believe that medicine, as a narrative practice, is in fact constructed through story. Certainly, there are enough true stories in medicine that we can create a compelling, and real, case—but only if we agree to engage in narrative practice, and only if we make space for the human experience of medicine in our cases.

사례 기반 학습으로 돌아가서, 우리는 일련의 철학적 질문에 직면하게 됩니다:

  • 무엇이 진짜인가?
  • 또는 더 정확하게는 사례를 통해 무엇을(그리고 누구의) 현실을 시뮬레이션하고자 하는가?
  • 실제처럼 느끼게 하는 사례의 필수 요소는 무엇일까요?
  • 사례 형식으로 재현하고자 하는 임상 스토리는 무엇인가요?

Returning to case-informed learning, we are faced with a set of philosophical questions:

  • What is real? Or, perhaps more accurately,
  • what (and whose) reality do we want to simulate through cases?
  • What are the essential elements of a case that make it feel real?
  • What is the clinical story we want to reproduce in case format?

 

사례 기반 학습에 온톨로지적 충실도 제공
Bringing Ontological Fidelity to Case-Informed Learning

현재 사례 기반 학습에 대해 우리가 알고 있는 것은 환자의 이야기, 감정, 경험보다는 객관적인 사실이 사례의 실체를 구성해야 한다는 실증주의적 존재론적 입장을 강화하는 방식으로 사례 자체가 계속 당연시되고 있다는 것입니다. 우리는 존재론적 충실성에 주의를 기울이면 더 의미 있는 사례로 이어질 것이라고 제안합니다. 이를 위해 교육자들은 잠시 멈춰서 무엇이 실제인지에 대한 가정과 이러한 가정이 사례의 세 가지 요소인 형식, 내용, 목적에 어떻게 적용되는지 신중하게 검토할 것을 권장합니다(표 1 참조). 

What we currently know about case-informed learning is that cases themselves continue to be taken-for-granted in ways that reinforce the positivist ontological position that objective fact, rather than patients’ stories, emotions, and experiences should constitute the substance of the case. We propose that attending to ontological fidelity will lead to more meaningful cases. To do that, we encourage educators to pause and deliberately examine their assumptions about what is real, and how those assumptions translate into three elements of cases: format, content, and purpose (See Table 1).

 

형식
Format

텍스트 기반 증례의 형식은 꾸준히 도전받지 않고 있습니다. 기관마다 차이가 있을 수 있지만, 일반적으로 사례는 간결하게 작성되고 사례의 임상적 초점을 강조하는 전통적인 구조를 따르는 것이 일반적입니다. 일반적으로 증상, 조사 및 치료법이 나열된 환자 시나리오에 대한 설명, 일련의 학습 목표 및 리소스, 몇 가지 안내 질문이 포함됩니다
The format of text-based cases remains consistently unchallenged. While there might be variation between institutions, we have generally come to expect cases that are written concisely, and offer a traditional structure that highlights the clinical focus of the case. They generally include a description of the patient scenario where symptoms, investigations, and treatments are listed; a set of learning objectives and resources; and some guiding questions.

각 사례마다 등장하는 환자의 이름과 상태는 다르지만 사례의 틀 자체는 몇 번이고 반복해서 재현됩니다. 학생들은 이를 다소 지루하게 느낄 수 있으며, 이는 "PBL 피로감"[40]의 원인이 될 수 있습니다. 또한 이러한 유사한 구조의 사례는 각 모의 임상 상황을 다소 '동일'하게 제시하여 각 환자의 고유성과 복잡성을 떨어뜨리고, 환자 및 동료와의 임상 상황(예: 구두 사례 인계 시)에서 경험할 수 있는 구술 방식에서 벗어날 수 있습니다. 또한 텍스트가 많은 문서는 난독증과 같은 학습 장애를 가진 학습자를 포함하여 다양한 학습 프로필을 가진 학습자의 접근성에 장벽이 될 수 있습니다.
Although each case is unique in terms of the names and conditions of the patients represented, the framework for the case, itself, is reproduced again and again. Students can begin to find this rather boring, contributing to what has been referred to as “PBL fatigue” [40]. Additionally, these similarly structured cases present each simulated clinical encounter as more or less “the same,” detracting from the uniqueness and complexity of each patient, and deviating from the ways that spoken speech may be experienced in clinical encounters with patients and colleagues (e.g., during oral case handovers). Further, text-dense documents may pose barriers to accessibility for learners with diverse learning profiles, including those with learning differences such as dyslexia.

표준화된 판례 형식을 재현하는 것은 오랜 관행으로 보입니다. 예를 들어, 1993년 굿과 굿은 "사례 구성 방식(사회적, 개인적 특성은 최소화되고, 생리적 세부 사항은 매우 많음)과 환자가 사례로 재구성되는 방식에 대해 명시적인 주의를 기울이지 않는다"고 관찰했습니다. [41 p94].
The reproduction of a standardized case format appears to be a long-standing practice. For example, in 1993, Good and Good observed, “No explicit attention is paid to how cases are constructed (with minimal social and personal characteristics and great physiological detail) and how sufferers are reconstructed as cases….” [41 p94].

존재론적 충실성을 고려하기 위해 사례 형식을 재구상한다면, 사례 구조화에 대한 규정된 접근 방식을 재고할 수 있습니다. 템플릿은 포함해야 하는 모든 세부 사항을 처리한다는 측면에서 의심할 여지 없이 유용하지만, 템플릿은 모든 사례가 동일하게 보이고, 따라서 동일한 방식으로 관리될 수 있다는 기대를 강화하는 역할을 하기도 합니다. 각 사례와 그 사례에서 영감을 얻거나 필요로 하는 관련 활동이 고유하도록 정보의 순서를 변경할 수 있습니다. 어떤 사례에는 환자의 이야기(글 또는 동영상)가 포함될 수 있고, 어떤 사례에는 의료진의 반성적 의견이 포함될 수도 있습니다. 유도 질문은 특정 정보를 이끌어내기 위해 고안된 것이 아니라 더 높은 수준의 토론, 비판적 사고 및 공감을 불러일으키기 위해 방향을 바꿀 수 있습니다.  
Were we to reimagine case format to attend to ontological fidelity, we might reconsider the prescribed approach to structuring cases. While templates are undoubtedly helpful in terms of attending to all the details that need to be included, templates also serve to reinforce the expectation that all cases look the same, and relatedly, can be managed in the same way. The order of information might be changed so that each case, and the related activities it inspires/requires, is unique. Sometimes cases may feature stories from patients (which could be written or video), and in others they might include reflective comments from practitioners. Guiding questions, rather than being designed to draw out specific bits of information, might be reoriented to inspire higher level discussion, critical thinking, and empathy.

콘텐츠
Content

사례 기반 접근법은 흔히 '환자 중심'의 교육적 접근법으로 설명됩니다[14, 16, 27, 42, 43, 44, 45, 46, 47]. 각 사례에는 환자가 등장하는데, 그 외에 다른 무엇이 있을 수 있을까요? 
Case-informed approaches are frequently described as a “patient-centred” pedagogical approach [14, 16, 27, 42, 43, 44, 45, 46, 47]. Each case features a patient—how could they be anything else?

그러나 우리는 단순히 각 사례에 이름이 지정된 환자가 있는 것만으로는 존재론적 충실성에 필요한 환자 관점을 제공하지 못한다고 생각합니다. 교육 사례에서 환자는 종종 내러티브 장치, 즉 생물의학 또는 임상 정보를 전달하는 2차원적인 수단으로 쓰입니다. 이러한 환자들은 이름과 직업이 부여된 증상 목록으로 제시됩니다. 

  • 환자의 목소리를 직접 듣는 경우는 거의 없습니다[2].
  • 해당 사례의 감정적 요소에 대해 배우거나 고려하는 경우는 거의 없습니다.
  • 개별 환자에게 진단이 얼마나 큰 영향을 미치는지, 진단을 받은 환자의 삶이 어떻게 변할지를 거의 다루지 않습니다. 특히 몇 주에서 몇 달에 걸친 긴 검사와 진료 예약을 거치는 동안의 삶은 서류상 한두 단락과 동일시할 수 없다.
  • 환자의 사회적 위치에 따라 질병이 다르게 경험된다는 진단의 사회적 현실을 다루는 사례는 거의 없습니다.

대신, 사례는 일반적으로 환자의 구체화된 경험, 주체성, 인간성의 윤곽이 결여되어, 평면적이고, 정돈되고, 질서정연합니다. 이러한 평면성은 어떤 악의적인 의도에서 비롯된 것은 아니지만, 그 결과는 심각합니다
We believe, however, that simply having a named patient in each case does not offer the patient perspectives necessary for ontological fidelity. The patient in an educational case is often written as a narrative device: a two-dimensional vehicle for relaying biomedical or clinical information.

  • They are presented as a list of symptoms assigned a name and, in some instances, a job.
  • Rarely do we hear from a patient in their own voice in cases [2].
  • Rarely do we learn about, or even consider, the emotional elements of the case in question.
  • Rarely do cases engage with the magnitude of the diagnosis for individual patients and what life will look like for those who have been diagnosed, particularly as they wade through lengthy weeks and months of testing and appointments, which does not equate to a paragraph or two on paper.
  • Rarely do cases address the social realities of a diagnosis: that an illness is experienced differently depending on social location of the patient.

Instead, cases are generally flat, tidy, and orderly—lacking the contours of a patient’s embodied experience, agency, and humanness. While this flatness does not arise from any ill intent, it is consequential.

존재론적 충실성을 고려하기 위해 사례 콘텐츠를 재구상한다는 것은 관련 임상 정보뿐만 아니라 임상적 만남의 다른 인간적 차원에도 주의를 기울이는 것을 의미할 수 있습니다. 환자는 종종 신뢰할 수 없는 정보 출처로 고정관념화되어 지식 생성에 기여할 수 있는 능력을 부정당하는 등 인식론적 불공평으로 인해 환자의 목소리는 역사적으로 배제되어 왔습니다[48]. 사례 작성 과정에서 실제 환자(뿐만 아니라 의사 및 기타 의료 서비스 제공자)를 초대하여 일상적인 임상 이야기를 공유함으로써 환자-의사 상호작용의 내러티브 특성을 더욱 부각시킬 수 있습니다. 
Reimagining case content to attend to ontological fidelity might mean attending not only to the relevant clinical information, but also to the other human dimensions of a clinical encounter. The patient voice has historically been excluded, in part, due to epistemic injustice: patients are often stereotyped as unreliable sources of information and are therefore denied the capacity to contribute to knowledge generation [48]. The narrative nature of any patient-physician interaction would be made more present by inviting real patients (as well as physicians and other health care providers) to share everyday clinical stories in the case writing process.

우리는 (임상의, 환자 및 당면한 시나리오와 관련된 다른 사람들의) 목소리를 들을 수 있습니다. 사용된 단어, 표현된 감정, 묘사된 반응은 진솔할 것이며, 이야기는 깔끔하거나 논리적인 타임라인을 따르지 않을 수도 있고, 심지어 약간 지저분할 수도 있습니다! 학습자가 커리큘럼을 진행하면서 기술, 지식 및 자신감을 얻게 되면 의료 행위를 포함한 인간 경험의 특징인 불확실성과 모호함에 대한 편안함을 키우기 위해 노력하면서 사례가 점차 더 지저분해질 여지가 있을 수도 있습니다. 
We would hear voices—of clinicians, of patients, and of others relevant to the scenario at hand. The words used, the feelings expressed, and the reactions described would be authentic, and the story might not follow a neat or logical timeline—it might even be a bit messy! There may even be room for cases to become progressively messier as learners move through the curriculum and gain skill, knowledge, and confidence, working toward fostering comfort with uncertainty and ambiguity that characterizes human experience, including medical practice.

목적
Purpose

풍부한 대화를 유도하고 깊은 사고를 불러일으키는 사례를 작성하기 위해 최선을 다하고 있지만, 일반적으로 커리큘럼을 구성하는 사례는 주로 필수 정보를 전달하는 것을 목표로 합니다. 따라서 사례는 일종의 체크리스트 역할을 하는 경우가 많습니다
Despite our best efforts to write cases that lead to rich conversation and inspire deep thinking, the cases that commonly structure our curriculum aim primarily to impart essential information. Consequently, cases often come to serve as a type of checklist.

사례의 의식화된 목적은 학생들이 기대하는 일련의 규정된 소그룹 학습 관행을 불러일으키며, 강렬하고 스트레스가 많은 업무량[49]으로 인해 '일단 해치우자'는 태도로 접근하는 경우가 많습니다[2]. 사례에 접근하는 방식을 사례에 대입하면, 사례는 종종 세부 사항이 제한되어 간결하게 작성되고[33], 복잡한 아이디어를 암기하기 쉬운 단계나 범주로 단순화하며, 다가오는 시험에서 평가될 수 있는 자료를 간소화하는 데 중점을 두는 경우가 많다는 것을 의미합니다.
The ritualized purpose of a case invokes a set of prescribed small-group learning practices that students have come to expect, and—motivated by a workload that is intense and stressful [49]—these are often approached with a ‘let’s get this done’ attitude [2]. Translated into how we approach cases, this means that they are often anticipated to be succinct with limited detail [33]; they simplify complex ideas into easy-to-memorize steps or categories; and they focus on streamlining material that might be assessed on an upcoming exam.

마찬가지로 사례는 일상적인 방식으로 전개될 것으로 예상됩니다. 부정적(예: 환자의 사망으로 끝나는 경우)이든 긍정적(예: 환자의 회복과 번영으로 끝나는 경우)이든 학습자는 일반적으로 사례가 구체적인 해결책으로 마무리될 것으로 기대합니다. 그러나 사례의 목적이 학생이 맥락에서 학습할 수 있는 메커니즘을 제공하는 것이라면 사례는 다층적이고 복잡한[14, 17, 30] 실제 의료 행위의 맥락을 시뮬레이션해야 합니다[50]. 반응과 풍부한 대화를 유도하기 위해 사례는 다소 복잡할 것이라고 예상할 수 있습니다.
Likewise, cases are expected to unfold in a routine way. Whether negative (ending with the patient’s death, perhaps) or positive (ending with the patient recovering and thriving, for example), learners generally expect the cases to conclude with a concrete resolution. However, if the purpose of cases is to provide a mechanism for students to learn in context, cases ought to simulate the context of real-life medical practice [14, 17, 30], which is multi-layered and complex [50]. One might expect that cases would be somewhat convoluted, in order to inspire reaction and rich conversation.

존재론적 충실도를 고려하기 위해 사례를 재구성한다면, 의료 행위를 구성하는 스토리를 위한 공간을 확보할 수 있도록 사례를 재구성할 수 있습니다. 사례는 복잡한 상황이나 일상에서 벗어나 쉽게 해결되지 않을 수 있는 상황을 제시할 수 있습니다. 이러한 사례는 의사들이 실제 진료에서 직면하게 될 문제 유형에 대해 더 깊은 사고와 성찰, 분석을 촉진할 수 있습니다. 
If we were to reimagine cases to attend to ontological fidelity, we might reorient cases so that they make space for the stories that constitute medical practice. Cases might present a complicated situation, or one that moves away from the routine and might not be easily resolved. This could foster deeper thinking, introspection, and analysis of the types of challenges they will face moving forward in practice.

 

"실제 생활"에서의 온톨로지 충실도
Ontological Fidelity in “Real Life”

의심할 여지 없이 증거에 기반한 과학적, 임상적 접근 방식이 치료에 반드시 존재해야 하지만, 이것만이 중요한 것은 아닙니다. 사례에 철학적 관점을 통합하는 것이 복잡해 보일 수 있지만, 실제로 사례는 이미 의학 분야에서 존재론적 지향의 인공물로서 존재합니다. 우리가 할 일은 단순히 우리가 실제적이고 중요한 것으로 표현하고자 하는 것을 반영하는 것입니다.
Without a doubt, evidence-based scientific and clinical approaches must be present in cases—but these are certainly not the only things that matter. While the integration of a philosophical perspective to cases may seem complicated, in reality, cases already exist as an artefact of our ontological orientation in the field of medicine. Our job is simply to reflect on what we want to represent as real and important.

우리는 미래의 실제 시나리오를 시뮬레이션하려는 모든 교육 전략과 마찬가지로 사례도 충실도의 문제를 고려해야 한다고 믿습니다. 그러나 물리적 또는 기능적 충실도보다는 모든 사례의 핵심은 존재론적 충실도입니다. 존재론적 충실도를 제공하는 가장 간단한 방법, 즉 학생들이 사례를 실제처럼 느낄 수 있도록 하는 방법은 실제 인물을 바탕으로 사례를 만들고 이를 학생들에게 전달하는 것입니다. 그러나 문학 작품을 읽거나 영화를 본 사람이라면 누구나 알 수 있듯이, 이야기가 사실적이어야만 현실감을 느낄 수 있는 것은 아닙니다. 사례를 신중하게 구성하면 현실에 깊이 뿌리박고 있는 보편적인 진리를 우리가 인식하는 방식으로 전달할 수 있습니다. 이러한 방식으로, 이전 연구에서 학생들이 현실감 때문에 마네킹에 비해 시체에 다르게 참여했던 것처럼[12], 사실적인 느낌의 사례를 만들면 학생들이 사례 기반 학습에 참여하는 방식이 달라질 수 있습니다. 
We believe that, like all education strategies that attempt to simulate future real-life scenarios, cases should attend to the question of fidelity. But, rather than physical or functional fidelity, it is ontological fidelity that lies at the heart of every case. Perhaps the simplest way to provide ontological fidelity—to make the cases feel real to students—is to base these cases on real people and communicate that to students. However, as any reader of literature or movie-goer can attest, we do not need stories to be true in order for them to feel real. When cases are thoughtfully constructed, they convey universal truths in ways that we recognize to be deeply rooted in reality. In this manner, just as the students in our previous study engaged differently with cadavers compared to manikins because of their realness [12], creating cases that feel authentic may change the way students engage with case-informed learning.

우리가 의학 교육에 사용하는 사례는 현실의 본질에 대한 의심할 여지 없는 철학적 가정을 재현합니다. 정해진 공식을 고수하는 사례는 튜토리얼과 사례가 어떤 모습이어야 하고 무엇을 할 수 있는지에 대한 협소한 구성을 강화하는 데 도움이 됩니다. 존재론적 충실성이라는 개념에 초점을 맞추면서 교육자가 사례의 가능성과 사례의 필수 요소에 대한 생각을 넓힐 것을 권장합니다. 이는 사례의 형식, 내용, 목적을 재검토하는 것을 의미할 뿐만 아니라 스토리, 환자의 목소리, 감정, 문화, 경험 등 '삶의 세계'를 진정성 있게 통합하려는 공동의 노력도 포함합니다. 교육 관리자와 사례 작성자는 현실의 본질과 관련된 존재론적 질문에 귀를 기울이면서 점진적이고 협력적으로 사례 작성에 접근함으로써 얻을 수 있는 것이 무엇인지 고려할 것을 권장합니다. 사례 작성 과정에서 실제 환자, 의사 및 기타 의료 서비스 제공자와 상담하거나 초대하여 일상적인 임상 사례를 공유하는 것도 좋은 방법이 될 수 있습니다.

The cases we use for medical education reproduce unquestioned philosophical assumptions about the nature of reality. Cases that stick to a prescribed formula help to reinforce a narrow construction of what tutorials and cases should look like and what they can do. As we focus on the idea of ontological fidelity, we encourage educators to broaden their ideas about what cases not only could be, but also what they should be. This means re-examining case format, content, and purpose, but also involves a concerted effort to authentically integrate the “lifeworld,” including story, patient voice, emotion, culture, and experience. We encourage educational administrators and case writers to consider what might be gained by approaching case writing progressively and collaboratively, while attuning to ontological questions relating to the nature of reality. Consulting with, and even inviting real patients, physicians, and other health care providers to share everyday clinical stories in the case writing process would be a good way forward.


Perspect Med Educ. 2023 Apr 12;2(1):120-128. doi: 10.5334/pme.47. eCollection 2023.

Case-Informed Learning in Medical Education: A Call for Ontological Fidelity

Affiliations collapse

1Department of Continuing Professional Development and Medical Education, Dalhousie University, Halifax, Nova Scotia, Canada.

2Department of Emergency Medicine, Dalhousie University, Halifax, Nova Scotia, Canada.

3Department of Pediatrics, Dalhousie University, Halifax, Nova Scotia, Canada.

PMID: 37063601

PMCID: PMC10103732

DOI: 10.5334/pme.47

Free PMC article

Abstract

Case-informed learning is an umbrella term we use to classify pedagogical approaches that use text-based cases for learning. Examples include Problem-Based, Case-Based, and Team-Based approaches, amongst others. We contend that the cases at the heart of case-informed learning are philosophical artefacts that reveal traditional positivist orientations of medical education and medicine, more broadly, through their centering scientific knowledge and objective fact. This positivist orientation, however, leads to an absence of the human experience of medicine in most cases. One of the rationales for using cases is that they allow for learning in context, representing aspects of real-life medical practice in controlled environments. Cases are, therefore, a form of simulation. Yet issues of fidelity, widely discussed in the broader simulation literature, have yet to enter discussions of case-informed learning. We propose the concept of ontological fidelity as a way to approach ontological questions (i.e., questions regarding what we assume to be real), so that they might centre narrative and experiential elements of medicine. Ontological fidelity can help medical educators grapple with what information should be included in a case by encouraging an exploration of the philosophical questions: What is real? Which (and whose) reality do we want to simulate through cases? What are the essential elements of a case that make it feel real? What is the clinical story we want to reproduce in case format? In this Eye-Opener, we explore what it would mean to create cases from a position of ontological fidelity and provide suggestions for how to do this in everyday medical education.

작은 코호트 OSCE에서 방어가능한 합격선 설정하기: 언제 경계선 회귀방법이 효과적인지 이해하기(Med Teach, 2020)
Setting defensible standards in small cohort OSCEs: Understanding better when borderline regression can ‘work’
Matt Homera , Richard Fullerb, Jennifer Hallama and Godfrey Pella

 

 

소개
Introduction

특히 고부담 성과 평가에서 합격선 설정은 항상 어려운 과제입니다(Cusimano 1996; Ben-David 2000; Cizek 2012). 경계선 회귀법(BRM)은 표준 설정에 대한 수험자 중심의 접근 방식으로, 스테이션(또는 사례)에서의 응시자 성과는 글로벌 등급에 따라 전체적으로 채점하거나 체크리스트 또는 도메인 기반 채점 도구를 사용하여 두 가지 방식으로 채점됩니다(Kramer 외. 2003; Pell 외. 2010; McKinley and Norcini 2014). BRM에서는 글로벌 성적에 대해 후자의 점수를 회귀하고, 경계선 성적에 해당하는 회귀 모델 예측 점수를 사용하여 시험장 수준 표준을 사후에 설정합니다. 그런 다음 시험 수준 표준은 스테이션 수준 컷 점수의 합계를 기반으로 하며, 표준 측정 오차 사용과 같은 추가적인 결합 수준 표준을 사용할 수 있습니다(Hays 외. 2008). 
Standard setting, particularly in high stakes performance assessments, is always challenging (Cusimano 1996; Ben-David 2000; Cizek 2012). The borderline regression method (BRM) is an examinee-centred approach to setting standards (Livingston and Zieky 1982), where candidate performance in stations (or cases) is scored in two different ways: holistically by a global grade, and also with a checklist or domain-based scoring instrument (Kramer et al. 2003; Pell et al. 2010; McKinley and Norcini 2014). Under BRM, the latter score is regressed on the global grade, and the station-level standard is set post hoc using the regression model predicted score corresponding to the borderline grade. The exam-level standard is then based on the aggregate of the station level cut-scores, with the option to employ additional conjunctive level standards such as the use of the standard error of measurement (Hays et al. 2008).

광범위한 맥락에서 BRM은 이제 일반적으로 방어 가능한 표준을 제공하는 것으로 인정받고 있으며, 많은 고위험 성과 평가 맥락에서 기본 접근 방식이 되었습니다(Boursicot 외. 2007; McKinley와 Norcini 2014). BRM은 경계선 그룹이 아닌 평가자와 응시자 간의 모든 상호작용을 사용하여 커트라인 점수를 설정함으로써 다른 경계선 방법과 비교하여 추가적인 이점을 제공합니다. 예를 들어, 스테이션을 두 가지 방식으로 채점한다는 것은 BRM 하에서 평가 품질에 대한 자세한 통찰력을 제공하는 다양한 스테이션 및 시험 수준의 추가 지표가 있다는 것을 의미합니다(Pell 외. 2010). 또한 이러한 지표를 통해 평가 개선을 위한 개입의 영향을 종단적으로 측정할 수 있습니다(풀러 외. 2013). 
Across a broad set of contexts, BRM is now generally acknowledged as providing defensible standards and has become the default approach in many high stakes performance assessment contexts (Boursicot et al. 2007; McKinley and Norcini 2014). By using all interactions between assessors and candidates to set the cut-score rather than just the borderline group, BRM brings additional benefits in comparison to other borderline methods. For example, having stations scored in two different ways mean that under BRM there are a range of additional station- and exam-level metrics which give detailed insight into assessment quality (Pell et al. 2010). These metrics also allow for the impact of interventions aimed at improving assessments to be measured longitudinally (Fuller et al. 2013).

BRM 문헌의 대부분은 상대적으로 '대규모' 코호트(즉, n > 50)를 대상으로 한 평가에서 생성되며, 후보자 그룹은 일반적으로 높은 성과를 보이는 집단(예: 의과대학의 한 학년 그룹 또는 대학원 지원자 코호트)입니다. BRM이 효과적으로 작동하려면 체크리스트 점수 및 글로벌 성적의 범위가 커트라인 점수를 비교적 안정적으로 추정할 수 있을 정도로 충분해야 하므로, 상대적으로 큰 표본 크기는 코호트 전체의 성과가 높더라도 BRM 적용을 뒷받침할 수 있는 후보자 능력의 충분한 확산을 보장하는 데 도움이 됩니다.
The majority of the BRM literature is generated from assessments with relatively ‘large’ cohorts (i.e. n > 50) where the candidate group is typically high-performing (i.e. a single year group at medical school, or a cohort of post-graduate candidates). For BRM to function effectively, the range of checklist marks and global grades should be sufficient to provide a comparatively stable estimate of the cut-score, and so relatively large sample sizes help to ensure sufficient spread in candidate ability to support the application of BRM, despite the cohort as a whole being high-performing.

BRM을 검증하는 대부분의 문헌에서는 리샘플링 접근법 또는 회귀 기반 공식을 통해 다양한 경험적 접근법을 사용하여 산출된 컷 점수의 오차를 추정했습니다. 이 오차를 추정하는 것은 일반적으로 특정 표준 설정 접근법과 관련된 타당도 증거의 중요한 구성 요소로 간주됩니다(미국 교육 연구 협회 2014, 108페이지). 증거에 따르면 다른 표준 설정 접근법에 비해 BRM은 적당한 후보 표본 크기(n > 50)에서 오차가 더 낮습니다. 리샘플링 기반 연구에서는 더 큰 코호트의 데이터를 사용하여 더 작은 표본(n <50)에 대한 컷 점수 오차를 추정하려고 시도했으며, 50명 미만의 후보 코호트 규모에서는 컷 점수의 추정 오차가 상당히 커지는 것으로 나타났습니다(Homer et al. 2016). 
Most of the literature validating BRM has used a range of empirical approaches to estimate the error in the cut-score it produces – either through resampling approaches (Muijtjens et al. 2003; Homer et al. 2016) or via regression-based formulae (Kramer et al. 2003; Wood et al. 2006; Hejri et al. 2013). Estimating this error is generally considered as an important constituent of validity evidence linked to a particular standard setting approach (American Educational Research Association 2014, p. 108). The evidence suggests that in comparison with other standard setting approaches, BRM has lower error at modest candidate sample sizes (n > 50). The resampling-based work has also attempted to use data from larger cohorts to extrapolate cut-score error for smaller samples (n < 50), and indicates that the estimated error in the cut-score becomes quite large at cohort sizes below 50 candidates (Homer et al. 2016).

이러한 표준 설정 문제에 직면한 소규모 코호트를 보유한 기관은 일반적으로 전문가 그룹에 의해 체크리스트 항목 또는 더 일반적으로는 스테이션 수준의 난이도를 선험적으로 판단하는 앙고프형 방법과 같은 시험 중심 접근 방식에 의존해 왔습니다(McKinley and Norcini 2014). 이러한 방법은 시간과 자원이 많이 소요될 수 있으며, '합격'을 개념화한 다음 복잡한 OSCE 스테이션 내에서 상호 의존적인(그리고 관찰되지 않는) 일련의 활동에 대한 합격 기준을 명확히 하는 것이 어렵기 때문에 그 자체로 특별히 신뢰할 수 없을 수 있습니다(Boulet et al. 2003). 시험 중심의 표준 설정 방법의 문제점을 탐구하는 대부분의 증거는 지식 테스트의 맥락에서 개발되었습니다(Clauser 외. 2009; Margolis 외. 2016). 응시자가 당일에 실제로 어떻게 수행하는지, 즉 '현실 점검'이 아니라, 단순히 스테이션 내용에 대한 지식만을 바탕으로 OSCE 스테이션에서 최소한의 역량을 반영하는 점수를 판단할 때 유사한 문제가 발생하지 않을 것이라고 상상하기는 어렵습니다. 이 특정 지점에 대한 문헌에는 모순된 증거가 있는 것으로 보이며, 일부에서는 앙고프 유형의 접근 방식이 BRM보다 성과가 낮다는 데 동의합니다(Schoonheim-Klein 외. 2009). 그러나 최근의 연구 결과에 대한 해석은 동일한 시험에서 주니어 레지던트와 시니어 레지던트에 대해 두 가지 표준을 설정하려는 시도로 인해 복잡해졌지만, 앙고프형 접근법이 OSCE에서 어느 정도 효과가 있다고 주장합니다(Dwyer 등. 2016). 이러한 새로운 증거에도 불구하고, 앙고프의 자원 집약적 특성과 다양한 고위험 평가 형식에 사용될 때 그 효과에 대한 의구심은 여전히 남아 있습니다. 
Faced with these standard setting challenges, institutions with small cohorts have generally relied on test-centred approaches such as Angoff-type methods where checklist item or more commonly, station-level difficulty is judged a priori by a group of experts (McKinley and Norcini 2014). These methods can be time-consuming and resource intensive, and may not be particularly reliable in themselves – the difficulty of conceptualising the ‘just passing’ candidate, and then articulating a passing standard for a series of interdependent (and unobserved) activities within a complex OSCE station can prove difficult in practice (Boulet et al. 2003). Most of the evidence exploring the problems with test-centred standard setting methods have been developed in the context of knowledge testing (Clauser et al. 2009; Margolis et al. 2016). It is difficult to imagine that judging what scores would reflect the minimally competent performance in an OSCE station based merely on knowledge of the station content, rather than how candidates actually perform on the day – the ‘reality check’ (Livingston and Zieky 1982), would not encounter similar problems. There appears to be contradictory evidence in the literature on this specific point with some agreeing that Angoff-type approached performs less well than BRM (Schoonheim-Klein et al. 2009). However, more recent work argues that Angoff-type approaches can work to an extent in OSCEs (Dwyer et al. 2016) although interpretation of the findings in this particular paper is complicated by an attempt in it to set two standards, for junior and senior residents, in the same examination. Despite this newer evidence, the resource intensive nature of Angoff, and the doubts about its efficacy when employed in a range of high stakes assessment formats, remain.

소규모 코호트에서 적절하고 방어 가능한 표준 설정의 어려움에 대한 조사
Investigating the challenge of appropriate, defensible standard setting in small cohorts

이 백서에서는 훈련된 임상 평가자가 있는 소규모 코호트에서 BRM이 방어 가능한 표준을 제공할 수 있는 조건에 관한 보다 맥락화된 증거 기반을 개발하기 위해 다양한 소규모 코호트 맥락에서 BRM의 사용을 조사합니다. 특히 소규모 코호트에서 표준 설정에 이 접근법을 사용할 때 발생하는 문제(및 그 유병률)를 더 잘 이해하는 데 관심이 있습니다. 연구실 수준의 품질을 측정하는 주요 지표로, 글로벌 등급과 체크리스트 점수 사이의 선형적 연관성의 강도를 측정하는 R-제곱을 사용합니다(Pell 외. 2010). 공식적으로 이는 두 점수 간의 공유 분산 비율을 정량화하며, 높은 값(예: 0.8)은 강한 연관성을 나타내며 BRM에 따른 점수 및 표준 설정의 유효성에 대한 증거를 제공하는 반면, 낮은 값(예: 0.4 또는 0.5 미만)은 스테이션에 잠재적으로 문제가 있음을 나타냅니다((Pell et al. 2010). 또한 점수의 확산 정도를 평가하기 위해 분산 그래프를 육안으로 검사하며, 방법 섹션에서 접근 방식에 대한 자세한 내용을 제공합니다. 
In this paper we investigate the use of BRM in a range of different small cohort contexts in order to develop a more contextualized evidence-base regarding the conditions under which BRM in small cohorts with trained clinical assessors might provide defensible standards. We are particularly interested in better understanding the issues (and their prevalence) that arise when using this approach to standard setting in small cohorts. As our main metric of station-level quality, we use R-squared, the measure of the strength of linear association between the global grade and the checklist-score (Pell et al. 2010). Formally, this quantifies the proportion of shared variance between the two scores, with high values (e.g. 0.8) indicating a strong association and providing some evidence of validity in the scoring and standard setting under BRM, whereas low values (e.g. less than 0.4 or 0.5) potentially signify problems in the station ((Pell et al. 2010). We also employ visual inspection of scatter graphs to assess the degree of spread in scores – we give more details of our approach in methods section.

이 논문은 시험장 수준에서의 표준 설정에 초점을 맞추고 있으며, 시험 수준에서의 결합 표준 사용과 관련된 더 광범위한 시험 문제(예: 통과된 최소 시험장 또는 측정 표준 오차)는 다루지 않습니다(Cizek and Bunch 2007, 2장; Hays et al. 2008). 소규모 코호트 성능 테스트에서 이러한 결합 표준을 사용하는 것은 별도의 조사가 필요합니다.
This paper focuses on standard setting at station level and does not explore wider examination issues related to the use of conjunctive standards at the test level (e.g. minimum stations passed or standard errors of measurement) (Cizek and Bunch 2007, chap. 2; Hays et al. 2008). The use of these conjunctive standards in small cohort performance testing merits separate investigation.

소규모 코호트를 사용한 평가 상황
Assessment contexts with small cohorts

우리는 상당히 다른 세 가지 고부담 평가 맥락에서 BRM의 사용을 조사합니다: 
We investigate the use of BRM in three quite different high stakes assessment contexts:

영국에서 의사를 개업하기 위해 전문의 등록을 원하는 국제 의대 졸업생을 대상으로 하는 OSCE 시험
The OSCE for international medical graduates seeking professional registration to practice medicine in the UK

이 시험은 영국의 일반 의학 위원회(GMC)에서 시행하며, PLAB - 전문 및 언어 평가 위원회 시험(General Medical Council 2019)이라고 하는 일련의 지식 및 수행 능력 테스트의 일부입니다. OSCE 구성요소(PLAB2)는 영국에서 수련받은 의사가 의과대학을 졸업하고 대학원 수련의 첫 번째 파운데이션 연도를 마친 후 2년차 진료 첫날에 볼 수 있는 임상 진료의 모든 측면을 다루도록 설계되었습니다.

  • 시험은 18개의 스테이션으로 구성되며, 임상적으로 훈련된 평가자가 수행 능력을 종합적으로 판단하여 4점 만점(0 = 불만족, 1 = 경계선, 2 = 만족, 3 = 양호)으로 각각 점수를 매깁니다.
  • 또한 응시자는 세 가지 영역(데이터 수집, 기술 및 평가 기술, 임상 관리 기술, 대인관계 기술)에서 점수를 받습니다.
  • 각 영역은 4점 척도로 채점되며, 이 점수는 12점 만점의 총점으로 합산됩니다. 

This examination is administered by the General Medical Council (GMC) in the UK and is part of a sequence of knowledge and performance testing referred to as PLAB – Professional and Linguistic Assessment Board test (General Medical Council 2019). The OSCE component (PLAB2) is designed to cover all aspects of clinical practice a UK-trained doctor might expect see during their first day of their second year of medical practice following graduation from medical school and completion of the first Foundation Year of postgraduate training.

  • The examination consists of 18 stations which are each scored by clinically trained assessors via a holistic judgement of the performance in a four-point global grade (0 = unsatisfactory, 1 = borderline, 2 = satisfactory, 3 = good).
  • Candidates are also scored in three separate domains (Data gathering, technical and assessment skills, Clinical management skills, and Interpersonal skills).
  • Each domain is scored on a 4-point scale and these are aggregated to a total station score out of 12.

각 PLAB2 시험은 오전과 오후로 나누어 진행되며, 일반적으로 각 시험장에 동일한 평가자가 배치되고, 30-35명의 응시자에 대한 모든 평가 결과를 합산하여 당일의 BRM 표준 설정에 반영합니다. 즉, 각 시험은 표준 설정 측면에서 서로 독립적으로 취급되며, 해당 날짜의 데이터만 BRM에 따른 커트라인 점수를 계산하는 데 사용됩니다. PLAB2에 응시하려면 응시자는 PLAB1 응용 지식 시험을 통과해야 합니다. PLAB2는 연간 100회 정도 시행되며이 백서에 사용된 스테이션 레벨 데이터는 2016년 9월부터 2018년 10월까지 198회 시행된 시험으로 구성되어 있습니다. PLAB2를 대량으로 시행하려면 기본적으로 표준 설정이 수험자 중심으로 이루어져야 하며(즉, 사후에), 2016년부터 BRM이 사용되었습니다.

Each PLAB2 administration consists of a morning and afternoon circuit, usually with the same assessors in each station, with all assessment outcomes for the 30-35 candidates combined for the BRM standard setting for the day – in other words, each administration is treated independently of any other in terms of standard-setting, and only data from the day in question is used to calculate cut-scores under BRM. In order to sit PLAB2, candidates have to pass the PLAB1 applied knowledge test. There are of the order of 100 administrations of PLAB2 per year, and the station level-data used in this paper consists of 198 test administrations over September 2016 to October 2018. The large volume of PLAB2 administrations essentially necessitates standard setting to be examinee-centred (i.e. post hoc), and BRM has been used since 2016.

이 연구의 PLAB2 스테이션은 총 264개의 스테이션 뱅크에서 추출되었으며, 198개의 관리 각각에 대해 적절한 청사진 프로세스를 수행하여 시험에서 각 18개의 스테이션 세트를 선택했습니다. 그 결과, 개별 스테이션의 사용 빈도는 데이터에서 1에서 48까지 다양하며, 해당 기간 동안 평균은 11입니다. 스테이션 수준 데이터는 컷 점수, R-제곱, 스테이션 삭제시 신뢰도 계수(스테이션을 제거한 전체 시험의 신뢰도), 스테이션 '쉬움'(즉, 각 관리의 스테이션 합격률)과 같은 다양한 스테이션 및 시험 수준 지표(Pell et al. 2010)로 구성됩니다. 또한 각 시험의 각 스테이션에 대한 전체 영역 점수 대비 글로벌 성적의 분산 그래프도 시각적으로 확인할 수 있습니다.
PLAB2 stations in this study were drawn from a bank of 264 stations in total, and an appropriate blueprinting process was carried out for each of the 198 administrations to select each set of 18 stations in the exam. As a consequence, the frequency of use of any individual station varies in the data, ranging from 1 to 48 with a median of 11 over the period. Station-level data consists of a range of station and test-level metrics (Pell et al. 2010) such as the cut-score, R-squared, reliability coefficient-station-deleted (reliability of the overall exam with station removed), and station ‘facility’ (i.e. station pass rate for each administration). In addition, scatter graphs of global grades versus total domain scores for each station in each administration are also available for visual inspection.

영국 의과대학 학부생들을 위한 순차적 OSCE의 두 번째 파트
The second part of a sequential OSCE for undergraduate medical students in a UK medical school

평가에 대한 보다 혁신적인 접근 방식의 일환으로, 시험에 대한 적응형 접근 방식이 개발되면서 평가가 두 부분으로 나누어 실시되는 순차적 시험 모델이 도입되었습니다. 모든 응시자를 대상으로 하는 초기 선별 OSCE와 취약한 응시자를 위한 추가 시퀀스는 적응형 시험 형식과 전반적으로 향상된 의사 결정을 모두 제공합니다(Pell 외. 2013; Homer 외. 2018). 이 연구의 일부는 약 300명의 학생으로 구성된 전체 코호트가 초기 선별 시퀀스를 치르고 20-50명의 학생이 두 번째 시퀀스 OSCE를 치르기 위해 소환되는 4학년과 5학년(예선) OSCE의 연구를 기반으로 합니다. 이 소규모 응시자 집단에 대한 합격/불합격 결정은 두 시퀀스(4학년과 5학년에서 각각 총 26개, 25개 스테이션)에서의 성적을 기준으로 이루어집니다. 
As part of more innovative approaches to assessment, the development of adaptive approaches to testing has seen the introduction of sequential testing models, where assessment is delivered in two parts. An initial screening OSCE for all candidates, with a further sequence for weaker candidates provide both an adaptive test format and overall enhanced decision-making (Pell et al. 2013; Homer et al. 2018). This part of the study draws on work from Year 4 and Year 5 (qualifying) OSCEs, where the full cohort of approximately 300 students take the initial screening sequence, with 20-50 students being recalled to sit the second sequence OSCE. Pass/fail decisions for this smaller cohort of candidates are made based on performance across both sequences (26 and 25 stations in total in Years 4 and 5, respectively).

임상 평가자는 주요 특징 체크리스트(Farmer and Page 2005)와 5점 척도(0 = 불합격, 1 = 경계선, 2 = 합격, 3 = 양호 합격, 4 = 우수 합격)를 사용하여 스테이션에 점수를 매깁니다. 6번의 시퀀스 2 관리(2017~2019년 포함)의 후보자 수준 데이터를 고려합니다. 시퀀스 2에서 사용하도록 선택된 스테이션은 이전 시퀀스 1 투여에서 사용되었으므로 전체 코호트에서 BRM을 만족스럽게 사용하여 생성된 기존 합격 점수가 있는 스테이션입니다(즉, R-제곱과 같은 지표가 충분히 양호함).
Stations are scored by clinical assessors using key features checklist (Farmer and Page 2005) and a global grade on a five-point scale – 0 = fail, 1 = borderline, 2 = pass, 3 = good pass, 4 = excellent pass. We consider candidate-level data from six sequence 2 administrations (2017–2019 inclusive). Stations selected for use in sequence 2 are those that have been used in a previous sequence 1 administration, and so have pre-existing passing scores generated from the satisfactory use of BRM in the full cohort (i.e. with sufficiently good metrics such as R-squared).

어떤 이유로든 새 시행의 BRM 표준에 문제가 있는 경우 BRM 또는 이전 합격 점수로 대체하여 표준 설정이 수행됩니다. 우리 연구의 일부는 이러한 대체가 얼마나 자주 필요한지 정량화하는 것입니다.

  • 첫 번째 시퀀스의 경우 사후 분석을 통해 평가자 불균형 측정을 포함한 정교한 범위의 시험 및 시험장 수준 메트릭을 제공합니다(Pell 외. 2010, 2015).
  • 그러나 두 번째 시퀀스의 경우, 상대적으로 작은 응시자 하위 그룹의 비정형적인 특성을 고려할 때 이러한 분석은 필연적으로 제한적입니다.

이 2차 시퀀스 분석에서는 체크리스트 점수 및 관련 지표(예: R-제곱)에 대한 성적의 분산 그래프에 중점을 둡니다. 
Standard setting is undertaken by BRM or substitution with previous pass marks if there is a concern, for any reason, with the BRM standards in the new administration. Part of our research is to quantify how often this substitution might prove necessary.

  • For the first sequence, post-hoc analysis provides a sophisticated range of test- and station level metrics, including measures of assessor disparity (Pell et al. 2010, 2015).
  • However, for the second sequence, such analysis is necessarily limited, given the atypical nature of this relatively small sub-group of candidates.

The focus in this sequence 2 analysis is on scatter graphs of grades versus checklist scores and associated metrics (e.g. R-squared).

영국 의과대학의 의사 보조원을 위한 OSCE
OSCEs for physician associates in a UK medical school

의사 보조원(PA, 미국에서는 '의사 보조원')은 영국에서 비교적 최근에 등장한 의료 전문가입니다. 교육 프로그램은 일반적으로 2년제 대학 석사 수준의 자격을 제공하는 대학원 입학 프로그램으로 구성되며, 그 후 신입 PA는 정식 자격을 갖춘 의사와 함께 팀의 일원으로 실습을 하게 됩니다(Health Education England 2015). 리즈 대학교 PA 프로그램은 연말에 실시되는 고난도 OSCE를 포함하여 다양한 지식, 성과 및 전문성 평가를 통해 평가됩니다. 일반적으로 20~30명의 학생으로 구성된 코호트는 임상 평가자가 5점 만점 글로벌 등급과 주요 기능 체크리스트(상황 2에서와 같이)를 통해 스테이션을 채점하는 '전통적인 단일 시험 OSCE'를 사용하여 평가됩니다.  
A physician associate (PA, ‘physician assistant’ in the US) is a relatively new healthcare professional in the UK. The training programme typically consists of a graduate entry programme which provides a two-year university Masters-level qualification, following which new PAs practice as part of a team alongside fully qualified doctors (Health Education England 2015). The University of Leeds PA programme is assessed through a range of knowledge, performance and professional assessments, including end of year high stakes OSCEs. A cohort of typically 20–30 students are assessed using a ‘traditional single test OSCE’, where stations are scored by clinical assessors via a five-point global grade, and key features checklist (as in context 2).

이 연구에서는 4개 시험(2018년과 2019년의 Y1 및 Y2)의 PA 후보자 수준 데이터를 사용합니다. 표준은 일반적으로 시험장 수준에서 수정된 Angoff 방법을 사용하여 설정되며(McKinley and Norcini 2014), 본 연구의 일부는 BRM이 이러한 시험에서 표준 설정의 대체 또는 최소한 기본 접근법으로 사용될 수 있는 범위를 탐색합니다. 결과적으로 앙고프 표준 설정의 적용으로 인해 제한된 범위의 사후 분석 품질 데이터(예: 스테이션 수준 시설, R-제곱, 분산 그래프 검사)를 사용할 수 있습니다. 
In this study, we use PA candidate-level data from four administrations (Y1 and Y2 in 2018 and 2019). Standards are usually set using a modified Angoff method at the station level (McKinley and Norcini 2014), and part of our research explores the extent to which BRM can be used as a replacement or, at least, as the default approach to standard setting in these exams. Consequent to the application of Angoff standard setting, a limited range of post hoc analysis quality data is available (e.g. station level facility, R-squared, scatter graph inspection).

방법
Methods

세 가지 후보 상황 모두에서 공통적으로 사용되는 방법
Common methods across all three candidate contexts

위에서 설명한 대로 다양한 스테이션 수준 데이터를 사용하여 스테이션 및 테스트 수준 메트릭을 조사하고 스테이션의 글로벌 등급과 총 주요 기능/도메인 점수 간의 관계를 조사합니다(Pell 외. 2010). R-제곱 값이 '낮은'(예: 0.4 미만) 스테이션의 경우(Pell 외. 2010), 각 스테이션 내에서 등급과 점수가 충분한 변동을 보이는 정도도 평가합니다. 전반적인 접근 방식은 체크리스트/영역 점수와 글로벌 등급 간의 충분히 만족스러운 양의 관계와 각 스테이션 내 등급/점수의 적절한 분포를 기반으로 스테이션 수준에서 BRM이 '작동'하고 있다는 증거가 있는지 평가하는 것입니다. 
Using a range of station-level data as detailed above, we investigate station- and test-level metrics and examine the relationship between global grades and total key feature/domain scores in stations (Pell et al. 2010). For stations with ‘low’ R-Squared value (e.g. below 0.4) (Pell et al. 2010), we also assess the extent to which grades and scores show sufficient variation within each station. Our overall approach is to assess whether there is evidence that BRM is ‘working’ at the station level – based on a sufficiently satisfactory positive relationship between checklist/domain scores and global grades, and an adequate spread of grades/scores within each station.

PLAB2 시험에 특정한 방법
Methods specific to PLAB2 exams

PLAB2 데이터의 경우, 위에서 설명한 일반적인 분석 외에도 시험장 수준(n = 3645)에서 간단한 기술 및 상관 분석 방법을 사용하여 컷 점수, 시설(합격률) 및 R-제곱 값 간의 관계를 조사하고 여러 행정부에 걸쳐 동일한 시험장에서 컷 점수가 달라지는 정도를 측정합니다. 
For the PLAB2 data, in addition to the common analyses outlined above, we also use simple descriptive and correlational methods at the station level (n = 3645) to probe the relationships between cut-scores, facility (pass rate) and R-squared values, and to measure the extent to which cut scores vary for the same station across multiple administrations.

순차적 시험에 특화된 방법
Methods specific to sequential exams

순차적 시험의 경우, BRM에서 설정한 표준을 이전 시험의 주요 코호트에서 생성된 표준과 비교하여 상당히 다른 학생 코호트에서 표준의 일관성을 평가합니다. 이 논문에서 고려한 다른 두 가지 상황과 달리, 2차 시험에 응시한 학생들은 1차 시험에서 충분히 우수한 성적을 거두지 못했기 때문에 이것만으로는 '합격'할 수 없다는 점에서 전체 코호트를 대표하지 않는다는 점에서 '극단적인 하위 집단'이라고 정의할 수 있습니다. 이는 전통적인 '재시험 OSCE'와 같이 시험장 및 시험 품질을 보장하는 데 사용되는 일반적인 측정 항목의 적절한 해석에 영향을 미칩니다(Pell 외. 2010). 점수의 범위가 제한적이어서 점수 간 상관관계가 낮을 가능성이 높고(Bland and Altman 2011), 전체 코호트에서 사용할 때보다 스테이션 실패율이 높을 것으로 예상되기 때문에 일반적인 신뢰도 측정은 일반적으로 적절하지 않습니다. 
For the sequential context, we also compare the BRM-set standards with those generated from main cohorts in a previous administration in order to assess the consistency of the standards across these quite different cohorts of students. In contrast to the other two contexts considered in this paper, the students sitting the sequence two examinations are by definition an ‘extreme sub-group’ in the sense that they are not representative of the full cohort, having failed to perform sufficiently strongly in the first sequence to ‘pass’ based on this alone. This has implications for the appropriate interpretation of the usual range of metrics used for assuring station and exam quality, akin to a traditional ‘resit OSCE’ (Pell et al. 2010). Typical measures of reliability are not usually appropriate as scores are likely to have a limited range which lowers correlation between scores (Bland and Altman 2011), and station failure rates will be expected to be high compared to when used in the full cohort.

PA 시험에 특화된 방법
Methods specific to the PA exams

PA 시험의 경우, 현재 실제 표준을 제공하기 위해 사용되는 수정된 앙고프 접근법의 표준과 스테이션 수준 및 전체 BRM 표준도 비교합니다. 이러한 비교 작업을 통해 BRM이 설정한 표준에 대한 추가적인 타당성 증거를 제공할 수 있습니다. 다른 두 가지 컨텍스트인 PLAB2와 Sequential의 경우, 앙고프 판단을 사용할 수 없으므로 이러한 추가 분석이 불가능합니다. 또한 재샘플링 접근법을 사용하여 각 시험에서 전체 합격 점수의 표준 오차를 계산합니다(Homer et al. 2016).  
For the PA exam, we also compare station-level and overall BRM standards with those from the modified Angoff approach that is currently employed to provide the actual standard. This comparative work allows for the possibility of providing additional validity evidence for the BRM-set standards. Note that for the other two contexts, PLAB2 and Sequential, Angoff judgements are not available so this additional analysis is not possible. We also calculate the standard error of the overall pass mark in each exam using a resampling approach (Homer et al. 2016).

결과
Results

각 상황을 차례로 살펴보고 각 상황에서 수행한 주요 분석을 요약하여 BRM이 방어 가능한 표준을 제공하고 있다는 증거를 평가합니다. 먼저 시험의 전반적인 신뢰도를 살펴본 다음 BRM별 분석으로 넘어갑니다. 
We take each context in turn and summarise the key analyses we have carried out in each to assess the evidence that BRM is providing defensible standards. We first give the overall reliability of the exams and then move on to the BRM-specific analysis.

PLAB2 시험
PLAB2 exams

크론바흐 알파로 측정한 198개 18개 스테이션 시험의 신뢰도는 198개 알파 값 분포의 5번째, 50번째, 95번째 백분위수가 각각 0.64, 0.79, 0.87로 전반적으로 양호한 수준입니다. 
The reliability of these 198 18-station examinations, as measured by Cronbach’s alpha, is generally good with the 5th, 50th and 95th percentiles of the distribution of 198 alpha values being 0.64, 0.79, and 0.87, respectively.

글로벌 성적과 도메인 점수 간의 관계의 강도(R-제곱)
The strength of the relationship between global grades and domain scores (R-squared)

주요 분석을 위해 먼저 198개 시행의 R-제곱 값의 분포를 살펴봅니다. 분석 대상인 3,564개 시행의 평균 R-제곱 값은 0.75입니다(표준 편차 0.12, 5, 50 및 95번째 백분위수 = 각각 0.51, 0.77, 0.89). 이 데이터는 대부분의 시험장에서 글로벌 성적과 도메인 점수 간의 관계 강도가 매우 우수하다는 것을 나타내며, 이는 BRM이 일반적으로 이 시험에 대해 방어 가능한 표준을 제공하고 있음을 시사합니다(Pell 외. 2010). 
For our main analysis, we first look at the distribution of R-squared values across the 198 administrations. Across the 3,564 stations in the analysis, the mean value of R-squared is 0.75 (standard deviation 0.12; 5th, 50th and 95th percentiles = 0.51, 0.77, 0.89, respectively). This data indicates that in the vast majority of these stations the strength of the relationship between global grades and domain scores is very good – in turn suggesting that BRM is generally providing defensible standards for this examination (Pell et al. 2010).

R-제곱 값이 상대적으로 낮은 경우, 이는 도메인 점수가 서로 다른 글로벌 등급 간에 변별력이 크지 않다는 것을 의미합니다(Pell et al. 2010). 전체 데이터 세트에서 가장 극단적인 예(R-제곱 = 0.10)는 그림 1에 나와 있습니다(환자가 비뇨기 질환을 호소하는 스테이션):
Where the value of R-squared is relatively low, this implies that the domain scores are not discriminating strongly between different global grades (Pell et al. 2010). The most extreme example in the whole data set (R-squared = 0.10) is shown in Figure 1 (a station where a patient presents with a urinary problem):

이 스테이션의 단일 시험에 대한 이 스테이션 수준 도표는 글로벌 성적과 도메인 '점수' 간의 상관 관계를 강조합니다. 플롯의 각 '점'은 개별 평가자-응시자 관찰을 나타내며, 더 큰 '점'은 동일한 관찰/점수가 많음을 반영합니다. 그림 1에서는 대부분의 응시자가 전체 성적과 영역 점수 모두에서 상당히 높은 점수를 받고 있으며, 이 두 가지 측정치 모두에서 변별력이 상대적으로 부족합니다. 
This station level plot of a single administration of this station highlights the degree of correlation between a global grade and domain ‘score’. Each ‘dot’ on the plot represents an individual assessor-candidate observation, with bigger ‘dots’ reflecting a number of identical observation/scores. In Figure 1, there is a relative lack of discrimination in scores – most candidates are scoring quite highly in both global grades and domain scores, and there is a lack of spread in both of these measures.

이 중요한 지표의 값이 이처럼 낮다면, 표준 세트의 방어 가능성에 어떤 영향을 미칠까요? 일반적으로 전체 PLAB2 데이터 세트에서 스테이션의 R-제곱 값과 해당 스테이션 수준의 컷 점수 사이에는 약한 음의 상관관계가 있는 것으로 나타났습니다(r = -0.13, n = 3564, p < .001). 이는 R-제곱 값이 낮을수록 일반적으로 약간 높은 컷 점수와 연관되어 잠재적으로 더 높은 실패율을 초래할 수 있음을 시사합니다. 
For such poor values of this important metric, the key question is what the impact is on the defensibility of the standard set? In general, across the full PLAB2 dataset, we find there is a weak negative correlation between R-squared values in stations and corresponding station-level cut-scores (r = −0.13, n = 3564, p < .001). This suggests that low values of R-squared are typically associated with slightly higher cut-scores, potentially leading to higher failure rates.

비뇨기 스테이션(그림 1에 표시된 단일 투여)은 해당 기간 동안 22회 시행되었습니다. 흥미롭게도, 이들 시행의 R-제곱 중앙값은 0.70으로 이 스테이션에서 낮은 R-제곱이 일반적이지 않다는 것을 매우 강력하게 시사하며, 따라서 스테이션 설계의 근본적인 문제라기보다는 개별 평가자 문제이거나 이 특정 관리의 스테이션에서 점수가 분산되지 않은 문제일 가능성이 높습니다. 이 22개 행정 구역의 컷 점수는 표준 편차가 0.86점(척도의 7.2%에 해당)으로 약간의 편차를 보였으며, 그림 1에 표시된 것처럼 R-제곱 값이 가장 낮은 컷 점수가 이 스테이션의 모든 시행에서 가장 높은 컷 점수를 생성합니다. 그러나 데이터 세트 전체에서 R-제곱 값이 낮은 스테이션의 비율은 5% 정도로 낮다는 점을 강조합니다.
The urinary station (single administration shown in Figure 1) has been administered 22 times over the period concerned. Interestingly, the median R-squared across these administrations is 0.70 which very strongly suggests that the low R-squared is not typical for this station, and therefore is likely to be either an individual assessor issue, and/or a problem with lack of spread in the scores in the station in this particular administration, rather than an underlying problem with the station design. The cut-scores across these 22 administrations show some variation, with a standard deviation of 0.86 domain marks (equivalent to 7.2% of the scale) – and the cut-score with the lowest R-squared value (as shown in Figure 1) produces the highest cut-score across all administrations of this station. However, we emphasize that the prevalence of stations with poor R-squared values across the data set as a whole is low (e.g. 5%).

스테이션 수준 통과율
Station level pass rates

스테이션 수준에서의 통과율은 3564개 스테이션 시행의 중앙값이 74%입니다. 이는 일반적으로 상당수의 응시자가 스테이션에서 상대적으로 낮은 점수를 받고 있으며, 대부분의 코호트 내에서 능력의 범위가 상당히 넓다는 것을 나타냅니다. 즉, 각 코호트 내에는 잘하는 응시자 외에도 낮은 점수를 받는 응시자가 상당수 존재한다는 뜻입니다. 이러한 상황에서 BRM을 성공적으로 적용하기 위한 핵심 요건은 스테이션 내 후보자 성과 범위이며, 이 문제는 논의에서 다시 다룰 것입니다.
The pass rate at the station level has a median value of 74% across the 3564 station administrations. This indicates that typically a significant proportion of candidates are scoring relatively poorly in stations, and that there is a reasonably wide range of abilities within most cohorts – in other words, a significant number of candidates with each cohort are receiving low scores in addition to a number of candidates doing well. This range of candidate performances within stations is a key requirement for the successful application of BRM in these contexts, an issue we will return to in the Discussion.

스테이션 내 기준의 변화
Variation in the standard within stations

전체 데이터 세트에서 각 스테이션별 컷 점수의 변동은 (중앙값) 표준 편차가 5.6%로, 일반적으로 BRM에서 설정한 컷 점수가 여러 스테이션에 걸쳐 대체로 안정적이라는 것을 시사합니다. 
The variation in cut-scores for each station across the full dataset has a (median) standard deviation of 5.6% which suggests that generally the cut-scores set by BRM are broadly stable across administrations.

시퀀스 2 시험
Sequence 2 exams

이 하위 그룹은 정의상 전체 코호트보다 약하기 때문에 시퀀스 2에 대한 신뢰도 수치를 따로 계산하는 것은 적절하지 않습니다. 대신, 의사 결정 이론을 사용하여 시퀀스 1 점수만을 기반으로 전체 신뢰도를 추정합니다. (Pell 외. 2013). 이러한 맥락에서 전체 시퀀스에 대한 오메가-총계(Revelle and Zinbarg 2009)는 연구된 6개의 검사 각각에 대해 0.80(또는 그 이상)입니다.
It is not appropriate to calculate reliability figures for Sequence 2 in isolation as this sub-group, is by definition, weaker than the full cohort. Instead, we use decision theory to estimate overall reliability based on Sequence 1 scores alone. (Pell et al. 2013). In this context, omega-total (Revelle and Zinbarg 2009) for the full sequence is of the order of 0.80 (or greater) for each of the six examinations studied.

2017년부터 2019년까지 6번의 순차적 시험에서 BRM 지표와 점수 분포가 충분히 만족스러운 것으로 판단되어 해당 커트라인 점수를 두 번째 시험의 표준 설정에 자신 있게 사용할 수 있는 시험장의 수를 표 1에 제시했습니다. 그렇지 않은 경우, 전체 코호트 시행에서 도출된 해당 스테이션의 이전 컷 점수와 만족스러운 BRM 지표가 사용되었습니다. 
Across the six sequential examinations from 2017–2019, Table 1 gives the number of stations where BRM metrics and spread of marks were judged sufficiently satisfactory for the corresponding cut scores to be used with confidence in the standard setting for the second part of the sequence. Where this was not the case, the previous cut-score for the station, derived from administration in a full cohort and with satisfactory BRM metrics, was used.

표 1에 요약된 분석에 따르면 BRM은 대부분의 시험장(86%)에서 표준 설정에 대해 실현 가능하고 방어 가능한 접근 방식을 제공합니다. 경계선 회귀가 적용되지 않는 좋은 예가 그림 2에 나와 있는 무릎 시험장(2018년 5학년, 22명의 응시자)입니다. 여기서 문제는 전체 성적의 분산이 부족하여(5개의 가능한 성적 중 2개만 사용됨) R-제곱이 낮고(=0.14), 결과적으로 이 시험의 BRM 합격 점수의 정확성에 대한 우려로 이어진다는 점입니다. 

The analysis summarized in Table 1 suggests that BRM provides a feasible, and defensible approach to standard setting in these exams for a large percentage of stations (86%). A good example of where borderline regression is not doing so is shown in Figure 2, a knee examination station (Year 5, 2018, 22 candidates). The problem here is lack of spread in the global grades (only two of five possible grades employed), which leads to a low R-squared (=0.14) and subsequently to concern about the accuracy of the BRM pass mark for this administration.

이 스테이션의 경우, 지표가 양호한 전체 코호트에서 이전에 이 스테이션을 사용한 BRM 컷 점수가 선호됩니다. 
For this station, the BRM cut-score from a previous use of this station in a full cohort with good metrics is preferred.

주요 코호트 표준과의 비교
Comparison with main cohort standards

다음으로 BRM 소규모 코호트 전체 표준(4년차 및 5년차에 각각 10개 또는 12개의 시퀀스 2 스테이션에 대해)을 이전 전체 코호트 데이터에서 생성된 표준과 비교합니다. 고려 중인 6개의 관리 중 4개의 관리에서 BRM이 소규모 코호트에서 약간 더 높은 표준을 생성하는 경향(5% 정도)이 있는 것으로 보입니다. 이 문제는 분명히 추가 연구의 가치가 있습니다. 
We next compare the BRM small cohort overall standard (for the 10 or 12 sequence 2 stations in Year 4 and Year 5, respectively) with that for the standard generated from previous full cohort data. In four out of the six administrations under consideration, there appears to be a tendency for BRM to produce a slightly higher standard in small cohorts (of the order of 5%). This issue is clearly worthy of additional research.

PA 시험
PA exams

2018년의 네 가지 PA 시험 각각에 대해 크론바흐 알파로 계산한 전체 시험 수준의 신뢰도는 각 경우에서 최소 0.80입니다. 
Overall test level reliability as calculated by Cronbach’s alpha for each of the four PA examinations from 2018 is at least 0.80 in each case.

표 2에는 분산 그래프와 R-제곱 값을 육안으로 확인한 결과, 각 시험에서 BRM 지표가 만족스러운 것으로 판정된 스테이션 수가 자세히 나와 있습니다. 대부분의 스테이션(88%)에서 데이터에 따르면 BRM 표준을 방어할 수 있는 것으로 나타났습니다
Table 2 details the number of stations in each examination where BRM metrics were judged satisfactory based on visual inspection of scatter graphs and values of R-squared. We see that in the majority of stations (88%) the data suggest that BRM standards are defensible.

컷 점수의 표준 오차
Standard error of the cut-score

PA 시험에 대한 전체 BRM 합격 점수의 표준 오차는 재샘플링 방법을 사용하여 추정되었으며, 네 번의 시험에서 각각 1% 정도입니다. 이 값은 문헌에서 발견된 주요 시험에서 추정된 값(≈1.4%)보다 낮다는 점에서 허용 가능한 것으로 간주됩니다(Muijtjens 외. 2003; Homer 외. 2016). 
The standard errors of the overall BRM pass mark for the PA exams is estimated using resampling methods, and are of the order of 1% across each of the four examinations. These values are considered acceptable, in that they are lower than extrapolated values from main exams found in the literature (≈1.4%) (Muijtjens et al. 2003; Homer et al. 2016).

앙고프 판정과의 비교
Comparison with Angoff judgements

기존 관행의 일환으로, PA OSCE 팀은 각 스테이션에 대해 스테이션을 통과할 수 있는 최소한의 유능한 PA 후보자의 예상 비율을 기준으로 각 스테이션에 대한 앙고프형 판정을 내립니다. 이 접근 방식을 BRM에서 파생된 표준과 비교하는 데는 분명한 관심이 있습니다. 그림 3은 2018년 1차 시험의 산포 그래프로, BRM 기준(가로)과 앙고프 기준(세로)을 비교하여 총 스테이션 점수의 백분율로 계산한 것입니다. 파란색(점선)은 가장 잘 맞는 선(r = 0.68, n = 16, p = .004)이고 주황색(굵은선)은 y = x입니다(즉, 각 표준 설정 방법의 컷 점수가 각 스테이션에서 동일하다면 모두 이 선에 있을 것임): 

As part of established practice, the PA OSCE team produces an Angoff-type judgement of each station in terms of the expected proportion of minimally competent PA candidates who would pass the station. There is obvious interest in comparing this approach with a BRM derived standard. Figure 3 gives a scatter graph for the 2018 Year 1 examination comparing BRM standards (horizontally) with those from the Angoff (vertically) – both calculated as the percentage of the total station score. The blue (dashed) line is the line of best fit (r = 0.68, n = 16, p = .004), the orange (bold) line is y = x (i.e. if cut-scores for each standard setting method were the same in each station they would all be on this line):

그림 3은 2018년 1차 PA 시험에서 난이도가 높은 시험장(그래프의 왼쪽 하단)의 경우 Angoff가 BRM(굵은 선 위의 점)에 비해 더 높은 커트 점수를 부여하는 경향이 있고, 쉬운 시험장(오른쪽 상단)의 경우 더 낮은 커트 점수를 부여하는 경향이 있음을 보여줍니다(굵은 선 아래의 점). 이러한 차이로 인해 Angoff는 전체 커트라인 점수가 69% 대 66%로 더 높았으며, 이는 모든 스테이션에서 Angoff가 설정한 커트라인 점수에 해당하는 약 20명의 응시자 코호트에서 한 명의 추가 불합격이 발생한 것과 같습니다. 

Figure 3 shows that for more challenging stations (bottom left corner of graph), Angoff tends to give a higher cut-score compared to BRM (dots above the bold line) for the 2018 Year 1 PA exam, and for easier stations (top right) it tends to give a lower cut-score (dots below bold line). These differences result in Angoff giving a higher overall cut-score – 69 vs. 66% for BRM, and this corresponds to one additional failure for the cohort of approximately 20 candidates under an Angoff set cut-score across all stations.

스테이션 수준에서도 2018년 1차 PA 시험에서 앙고프에 따른 개별 스테이션 불합격이 더 많았습니다(78 대 52). 마지막으로, BRM은 합격 점수의 편차가 더 컸습니다. BRM은 스테이션 전체에서 39%의 더 넓은(수평) 범위의 커트라인을 가진 반면, 앵고프(수직) 범위는 19%에 불과했으며, 다른 PA 데이터에서도 비슷한 결과가 나타났습니다. 이러한 분석 결과를 합리적으로 해석하면 BRM은 보다 현실적인 범위의 컷 점수를 산출하는 반면, Angoff 점수는 보다 제한된 범위를 보여줍니다.
At the station level, there are also more individual station failures in the 2018 Year 1 PA exam under Angoff (78 vs. 52). Finally, BRM gives more variation in passing scores – BRM has a broader (horizontal) range of 39% in cut-scores across stations compared to a more constricted Angoff (vertical) range of 19% – with similar findings in the other PA data. A reasonable interpretation of these analyses suggest that BRM is producing a more realistic range of cut-scores, whereas Angoff scores show a more restricted range.

토론
Discussion

세 가지 서로 다른 다양한 소규모 코호트 OSCE 컨텍스트의 대규모 세트 스테이션에서 BRM은 대다수의 스테이션에서 효과적으로 작동하는 것으로 나타났습니다(각 컨텍스트에서 86% 이상). BRM이 만족스러운 스테이션 수준의 지표를 생성하는 경우, 우리는 이것이 높은 위험도 테스트 결과의 사용을 정당화하는 광범위한 유효성 논증에 중요한 증거를 제공한다고 주장합니다(Kane 2013). 
Across large set stations from three different and diverse small cohort OSCE contexts, BRM has been shown to function effectively in the vast majority of stations (over 86% in each context). Where BRM produces satisfactory station level metrics, we argue this contributes important evidence towards the wider validity argument in the justification of the use of high stakes test outcomes (Kane 2013).

표준 설정 방법으로서 BRM의 효과에 대한 기존의 가정은 긍정적으로 왜곡된 집단(Pell 외. 2010; McKinley와 Norcini 2014), 즉 대다수의 학생이 '유능-우수' 능력 범위에 속하는 대규모 응시자 코호트의 고위험도 데이터를 통해 정보를 얻는 경향이 있었습니다. 세 가지 상황 각각에서 우리는 BRM이 대부분의 스테이션에서 방어 가능한 표준을 제공할 수 있다는 증거를 제공했습니다. 그렇지 않은 경우, 이는 일반적으로 글로벌 성적과 체크리스트/도메인 점수 간의 관계가 좋지 않아 BRM 표준에 의문을 제기하기 때문입니다(Pell 외. 2010). 이 문제는 후보 점수가 충분히 분산되지 않아서 발생하는 경우가 많으며(예: 그림 1), 소규모 코호트의 경우 대규모 코호트에 비해 '제한된 범위'의 점수가 나올 위험이 분명히 더 큽니다. 이러한 가설에도 불구하고, 세 가지 상황 모두에서 이러한 위험의 유병률은 특별히 높지 않았으며, 이는 아마도 우수한 OSCE 시험장(및 채점) 설계와 응시자의 관찰된 성과에 대한 평가자의 글로벌 판단 능력(및 이에 대한 지원)의 상호작용을 반영하는 것일 수 있습니다.
Existing assumptions about the effectiveness of BRM as a standard setting method have tended to be informed by high stakes data from larger cohorts of candidates from a positively skewed population (Pell et al. 2010; McKinley and Norcini 2014) – namely, where the vast majority of students occupy a ‘competent-excellent’ range of ability. In each of our three contexts, we have provided evidence that BRM can deliver defensible standards in the majority of stations. Where this is not the case, this is usually because of a poor relationship between global grades and checklist/domain scores that brings into question the BRM standard (Pell et al. 2010). This problem is often brought about by a lack of sufficient spread in candidate scores (e.g. Figure 1), and for small cohorts, the risk of a ‘restricted range’ of scoring is obviously more likely compared to larger cohorts. Despite this hypothesis, the prevalence of this was not particularly high across any of the three contexts, perhaps reflecting the interplay of good OSCE station (and scoring) design and the ability of (and support for) assessors global judgments about observed performance of candidates.

이 시험은 상대적으로 높은 불합격률(일반적으로 스테이션 수준에서 26%)로 인해 코호트 내에서 점수가 더 가변적이라는 것을 나타내며, 이는 기술적 관점에서 BRM이 효과적으로 작동할 가능성이 더 높은 특성입니다(Draper and Smith 1998, 3장). 순차적 맥락에서 실패율은 일반적으로 더 낮으며(역의 실패율 중앙값은 18% 정도), PA 검사의 경우 이보다 더 낮습니다(≈12%). 우리의 분석은 실제로 이 가설을 부분적으로 확인시켜 주었으며, PLAB2 스테이션의 일부(≈5%)만이 BRM 적용에 문제가 있는 반면, 다른 두 컨텍스트에서는 BRM의 문제 유병률이 조금 더 높았습니다(시퀀스 2의 경우 14%, PA의 경우 12%). BRM에 따른 점수/등급(및 응시자 능력)의 확산 문제와 표준에 미치는 영향(및 이와 관련된 오류)은 더 많은 연구가 필요한 분야이지만, 우리의 연구에 따르면 BRM은 응시자 능력의 확산이 제한적인 일부 소규모 코호트 평가 형식 시험(예: 고도로 전문화된 대학원 시험)에는 여전히 적합하지 않을 수 있습니다. 
One might hypothesize that BRM standard setting should ‘work’ better in PLAB2 compared to the other contexts, since this exam has a relatively high failure rate (typically 26% at the station level) which indicates that scores are more variable within the cohort – a characteristic that, from a technical point of view, makes BRM more likely to function effectively (Draper and Smith 1998, chap. 3). The failure rates in the sequential context are generally lower (median failure rate in station of the order of 18%), and for the PA examinations are lower still (≈12%). Our analysis does indeed partially confirm this hypothesis, with only a small proportion (≈5%) of PLAB2 stations being problematic for the application of BRM, whereas the prevalence of issues with BRM is a little higher in the other two contexts (14% for sequence 2, and 12% for PA). The issue of spread of marks/grades (and candidate ability) and the impact on standards (and error associated with this) under BRM is an area that requires more research but our work might indicate that BRM remains unsuited to some small cohort assessment formats testing where there is a limited spread of candidate ability (e.g. highly specialized postgraduate examinations).

평가자 엄격성 및 평가 설계
Assessor stringency and assessment design

세 가지 상황과 대규모 코호트 시험의 중요한 차이점 중 하나는 전자의 경우 병렬 회로가 없다는 것입니다(Harden 외. 2015, 6장). 즉, 세 가지 상황에서는 각 스테이션에 해당하는 평가자가 (보통) 한 명인 반면, 대규모 의과대학의 경우 병렬 회로가 20개 이상일 수 있으므로 각 스테이션은 많은 수의 개별 평가자가 평가하게 됩니다. 어떤 의미에서는 한 명의 평가자가 모든 응시자를 시험 전반에 걸쳐 동일한 평가자가 관찰하기 때문에 스테이션 채점에 일관성을 가져올 가능성이 더 높습니다. 반면, 소규모 코호트에서는 단일 평가자가 스테이션과 혼동될 수 있으며 스테이션 수준에서 평가자의 엄격성을 직접 비교할 수 있는 쉬운 방법이 없습니다(Pell 외. 2010; Yeates 외. 2019). 또한, 여러 서킷에 걸쳐 여러 평가자가 아닌 스테이션당 한 명의 평가자가 존재할 경우 동일한 스테이션을 모두 심사하는 동료 그룹에 비해 보정이 부족할 수 있습니다. 이 문제와 관련하여 Crossley 외(2019)의 최근 연구에서는 평가자가 변화에 대한 개방성과 개인적 판단에 대한 충실성 사이에서 균형을 잡는 '경계된 호기심'(동료의 비교 판단), 정서적 편향, '적당한 보수주의'의 복잡한 균형에 대해 설명합니다. 

One important difference between our three contexts and larger cohort exams is the lack of parallel circuits in the former (Harden et al. 2015, chap. 6). In other words, there is (usually) a single assessor corresponding to each station in our three contexts, whereas in a large undergraduate medical school, for example, there might be of the order of 20 or more parallel circuits, so that each station is assessed by a large number of individual assessors. In one sense, having a single assessor is more likely to bring consistency to the marking of the station since all candidates will be observed by the same set of assessors across the exam. On the other hand, in small cohorts, single assessors are confounded with stations and there is no easy way to directly compare assessor stringency at the station level (Pell et al. 2010; Yeates et al. 2019). The presence of a single assessor per station (rather than multiple across circuits) may also contribute to a lack of calibration compared to a group of peers all examining the same station. Pertinent to this issue, recent work by Crossley et al. (2019) describes a complex balance of ‘guarded curiosity’ (of comparative judgments by peers), affective bias and ‘moderated conservatism’ where assessors balance openness to change alongside loyalty to personal judgments.

이 주제를 좀 더 자세히 살펴보면, 평가자의 점수 엄격성(즉, '매와 비둘기')이 소규모 코호트에서 BRM 표준에 미치는 영향이 더 클 수 있습니다(Yeates and Sebok-Syer 2017). '관대한' 채점을 사용하면 점수가 분산형 다이어그램의 오른쪽 상단 모서리에 위치하는 경향이 있으며(그림 1 참조), 이는 회귀선을 통해 경계선 등급으로 다시 추정할 때 '정확한' 컷 점수에 상당한 불확실성이 있다는 것을 의미합니다. 이 문제는 마커가 더 엄격하면 점수가 경계선 등급에 가까워지고 외삽의 정도, 따라서 '오차'가 상대적으로 작아질 가능성이 높기 때문에 덜 심각할 수 있습니다. 이와 관련이 있지만 직관적이지 않을 수 있는 점은 덜 엄격한 평가자가 실제로 BRM에서 컷 점수를 높일 수 있다는 점입니다. 그림 1에 표시된 비뇨기 스테이션의 투여는 데이터 세트에서 동일한 스테이션의 22개 투여 중 컷 점수가 가장 높지만 평가자는 상대적으로 높은 점수를 부여하고 있으며 평가자 엄격도 척도의 비둘기파 쪽에 속할 가능성이 높습니다. 이러한 문제는 분명 복잡하며, 소규모 코호트 시험에서 평가자 선정 및 교육과 관련하여 더 많은 사고를 도울 수 있는 통계적 시뮬레이션 방법(Currie and Cleland 2016; Homer 외. 2016)을 사용하여 추가 조사를 하는 것이 도움이 될 수 있습니다. 
Exploring this theme further, the impact of assessor scoring stringency (i.e. ‘hawks and doves’) (Yeates and Sebok-Syer 2017) is likely to be greater on BRM standards in small cohorts. With ‘generous’ markers, the scores will tend to be in the top right corner of the scatter diagram (see Figure 1) and this means that there is considerable uncertainty in the ‘correct’ cut-score when extrapolating back towards the borderline grade via the regression line. This issue is perhaps less acute with stricter markers as then the scores will be near the borderline grade and the degree of extrapolation, and hence the ‘error’, is, therefore, likely to be smaller in comparison. A related, but perhaps, counter-intuitive point is that less stringent assessors might actually raise the cut-score under BRM – the administration of the urinary station shown in Figure 1 has the highest cut-score out of the 22 administration of the same station in the dataset, and yet the assessor is giving relatively high scores and is likely to be on the dovish end of the assessor stringency scale. Clearly, these issues are complex and would benefit from further investigation, perhaps using statistical simulation methods (Currie and Cleland 2016; Homer et al. 2016), which could aid further thinking with regard to the selection and training of assessors in small cohort exams.

설계 문제에 관한 마지막 의견은 글로벌 성적에 대한 평가 척도의 성격과 관련이 있습니다. 예를 들어 상황에 따라 4점 또는 5점 척도가 더 적절한지, 소규모 코호트에서는 더 짧은 척도를 선호할 수 있는지를 조사하기 위해서는 더 많은 연구가 필요합니다. 한 가지 권장 사항은 응시자 풀의 능력 프로필을 광범위하게 반영하여 평가자가 실제로 모든 성적을 사용할 가능성을 높이는 것입니다. 교수진은 평가 척도를 작성하기 위해 '안전'의 양쪽에서 볼 수 있는 성과 범위를 개념화해야 하며, 이 과정을 정기적으로 검토할 수 있습니다. 세 가지 상황 모두에서 이 척도는 여러 개의 합격 등급과 하나의 불합격 등급으로 구성된 비대칭형입니다. 저희가 아는 한, BRM에 따라 다르게 구성된 글로벌 평가 척도의 효율성을 비교한 연구는 아직 발표되지 않았습니다.
A final comment concerning design issues relate to the nature of the rating scale for the global grade. More research is needed to investigate whether, for example, four or five-point scales are more appropriate depending on the context – and perhaps in small cohorts the evidence might favour a shorter scale. One thing we recommend is that the scale broadly reflects the ability profile of the candidate pool – thereby making it more likely that all grades are actually used by assessors. Faculty should conceptualize the range of performances that are seen, either side of just ‘safe’ to produce the rating scale, and this process can be reviewed regularly. In all three of our contexts the scale is asymmetric, with multiple passing grades and a single fail grade. To our knowledge, there is no published work comparing the efficacy of differently constructed global rating scales under BRM.

다른 표준 설정 접근 방식과의 비교
Comparisons with other standard setting approaches

일반적으로 저희는 스테이션 설계 요소, 현재 의료 관행, 평가자 교육 표준이 지속적으로 발전하고 있는 이전 시행의 데이터에서 파생된 표준보다는 실제 시험의 데이터를 사용하여 설정된 표준을 선호합니다. 이러한 모든 요소를 점수/등급 부여 패턴에 충분히 고려하고 그에 따라 기준을 설정할 수 있는 것은 현 행정부에서만 가능합니다. 그러나 6번의 순차적 시험 시행을 분석한 결과, 시험 대상인 소규모 코호트에서 직접 도출한 2단계 스테이션의 BRM 도출 표준과 대규모 코호트에서 도출한 동일한 스테이션의 표준(예: 1단계의 일부로 설계된 경우)에는 약간의 차이가 있는 것으로 나타났습니다. 이는 분명히 중요한 문제이며, 이러한 차이가 소규모 코호트와 대규모 코호트 간 평가자 행동의 실질적이고 체계적인 변화의 결과인지 더 잘 이해하기 위해 추가 조사가 필요합니다. 시퀀스 2 시험에서 학생들은 정의상 더 약한 하위 그룹에 속하며, 평가자가 어느 정도는 시퀀스 1 시험보다 더 높은 지분을 가진 것으로 인식할 수 있습니다. 이러한 지식이 평가자가 제공하는 채점에 영향을 미칠 수 있나요? 
As a general principle, we prefer standards set using data from the actual examination, rather than that derived from data from previous administrations – elements of station design, current medical practice, and standards of assessor training are constantly developing. It is only in the current administration that all these factors can be taken into account fully in the pattern of scores/grades awarded, and the standard thereby set. However, analysis of six sequential test administrations has shown small differences in the BRM derived standards of Sequence 2 stations when derived directly from the small cohort examined versus those from that same stations derived from larger cohorts (e.g. when blueprinted as part of Sequence 1). This is clearly an important issue and merits further investigation to better understand whether these differences are the result of substantive, systematic changes in assessor behaviour between small and large cohorts. In the sequence 2 examination, the students are by definition a weaker sub-group, and to an extent, the stakes may be perceived by assessors to be higher than they are in the sequence 1 examination. Might this knowledge influence the marking that assessors provide?

PA 시험에서 우리는 평가자가 앙고프 점수를 제공할 때 극단적인 점수를 피하는 경향이 있음을 보았습니다(BRM에서는 이 문제가 훨씬 덜함). 이는 평가자가 전체 척도를 사용하는 것을 꺼리는 작업장 기반 평가에서 잘 알려진 문제의 반향을 담고 있습니다(Crossley and Jolly 2012). 선험적 표준 설정 회의에서 이러한 꺼려하는 것으로 추정되는 사회적 이유도 있을 수 있지만(Fitzpatrick 1989), 현재 연구에는 이 문제에 대해 언급할 만한 데이터가 없습니다.
In the PA exam, we have seen that assessors tend to shy away from extremes when providing their Angoff scores (and that this is far less of a problem with BRM) – this carries an echo of the well-known issue in workplace-based assessment where there is a reluctance for assessors to use the full scale (Crossley and Jolly 2012). There may also be social reasons for this presumed reluctance in an a priori standard setting meeting (Fitzpatrick 1989) but the current study has no data to speak to this issue.

결론
Conclusions

이 연구는 기존의 가정에 도전하고 비교적 간단한 방법(예: 분산 그래프의 육안 검사 및 R-제곱 값 계산)을 사용하여 소규모 코호트의 맥락에서 BRM을 사용하는 것이 일반적으로 성공적일 수 있음을 보여주었습니다. 이 논문에서는 회귀 기반 접근법의 견고성을 판단하기 위한 보다 기술적 접근법(예: 견고한 회귀, 베이지안 방법 또는 보다 정교한 모델링 접근법)은 피했지만, 이러한 접근법은 향후에 추가로 적용할 가치가 있을 것입니다(Wilcox 2012, 10장; Tavakol 외. 2018). 정기적으로 사용되는 스테이션의 표준이 정확히 무엇을 의미하는지에 대한 철학적 문제도 있지만, 예를 들어 해당 날짜의 표준인지 아니면 이전 시행의 모든 데이터를 사용하여 표준을 도출해야 하는지에 대해서는 이 논문의 범위를 넘어서는 철학적 문제도 있습니다.
Challenging established assumptions, and using relatively simple methods (e.g. visual inspection of scatter graphs and calculation of R-squared values), this study has shown that the use of BRM in the context of the small cohorts can be generally successful. We have avoided in this paper more technical approaches to judging robustness of regression-based approaches (e.g. robust regression, Bayesian methods, or more sophisticated modelling approaches) but these might well merit further application in the future (Wilcox 2012, chap. 10; Tavakol et al. 2018). There are also philosophical issues that are worthy of further consideration, but beyond the scope of this paper, regarding what exactly we mean by the standard for a station that is used regularly – for example, is it the standard on the day in question, or should we use all data from previous administrations to derive the standard?

그러나 실용적인 관점에서 볼 때, 가급적이면 이전에 만족스러운 스테이션 성과를 기반으로 한 기존 컷 점수가 소규모 코호트 시험의 모든 스테이션에 이상적으로 제공되어야, BRM에 문제가 발생했을 때(예: 점수 확산 부족) 스테이션을 제거할 필요 없이 이 컷 점수가 대체할 수 있습니다. 저희는 지표가 좋지 않다는 것은 스테이션에 문제가 있다는 것을 의미할 수 있음을 잘 알고 있습니다(예: 설계 문제, 예상 성능 수준에 대한 이해 부족, 평가자 교육 문제). 간결성의 원칙과 청사진을 유지해야 할 필요성에 따라 점수가 명백히 잘못되지 않는 한 시험에서 해당 스테이션을 제거하지 않는 것이 좋습니다. 그러나 이러한 스테이션은 문제의 원인을 더 잘 이해하기 위해 시험 후 검토를 위해 플래그를 지정해야 합니다. 
However, from a practical point of view, extant cut-scores, preferably based on previous satisfactory station performance (Pell et al. 2010), should ideally be available for all stations in small cohort exams so that when problems with BRM do occur (e.g. a lack of spread of scores) these cut-scores can substitute without the need for the removal of the stations. We recognize that poor metrics might well indicate that there is a problem in the station (e.g. a design issue, or a lack of understanding of expected level of performance, or an assessor training issue). The principle of parsimony and the need to maintain the blueprint would suggest not removing the station from the exam unless scores are clearly erroneous. However, such stations should be flagged for post-examination review to better understand the causes of the problems.

사후 분석에 따라 BRM에 문제가 있는 것으로 판명되는 드문 경우를 대비하여 대규모 코호트에서는 '백업' 컷 점수가 어느 정도 필요하다고 주장할 수도 있지만, 그 자체가 청사진 작성 과정의 품질과 궁극적으로 평가의 타당성을 위협하는 저조한 스테이션을 제거하는 것에 만족하지 않는 한 그렇지 않습니다(Downing and Haladyna 2004). 
One could argue that the need for ‘backup’ cut-scores might also be true to an extent for larger cohorts for the rare occasions when BRM proves problematic based on post hoc analysis – unless one is happy with removing poorly performing stations which itself threatens the quality of blueprinting process and ultimately the validity of the assessment (Downing and Haladyna 2004).

모든 고품질 평가 도구의 개발 및 사용과 마찬가지로, 우리는 마지막으로 평가의 목적과 평가 결과에서 도출할 추론에 대한 명확한 표현을 기반으로 스테이션 수준 채점 도구(예: 글로벌 평가 척도, 주요 기능 체크리스트 또는 도메인 채점 척도)의 전반적인 설계에 항상 주의를 기울여야 한다는 점을 언급합니다(Kane 2013). BRM을 효과적으로 사용하려면 적절한 코호트 규모를 고려해야 하지만, 피검자의 이질성 정도, 양호한 시험장 설계, 만족스러운 평가자 교육 및 행동 등 다양한 다른 요인에 따라 달라질 수 있습니다.
As with all development and use of high quality assessment tools, we comment finally that care always needs to be taken in the overall design of station level scoring instruments (i.e. global rating scales, and key features checklists or domain scoring scales) based on clear articulation of the purpose(s) of the assessment and the inferences to be drawn from its outcomes (Kane 2013). Whilst the effective use of BRM should include consideration of adequate cohort size, it is also contingent on a range of other factors including the degree of examinee heterogeneity, good station design, and satisfactory assessor training and behaviour.

 


 

Med Teach. 2020 Mar;42(3):306-315. doi: 10.1080/0142159X.2019.1681388. Epub 2019 Oct 26.

Setting defensible standards in small cohort OSCEs: Understanding better when borderline regression can 'work'

Affiliations collapse

Affiliations

1Leeds Institute of Medical Education, School of Medicine, University of Leeds, Leeds, UK.

2School of Medicine, University of Liverpool, Liverpool, UK.

PMID: 31657266

DOI: 10.1080/0142159X.2019.1681388

Free article

 

Abstract

Introduction: Borderline regression (BRM) is considered problematic in small cohort OSCEs (e.g. n < 50), with institutions often relying on item-centred standard setting approaches which can be resource intensive and lack defensibility in performance tests.Methods: Through an analysis of post-hoc station- and test-level metrics, we investigate the application of BRM in three different small-cohort OSCE contexts: the exam for international medical graduates wanting to practice in the UK, senior sequential undergraduate exams, and Physician associates exams in a large UK medical school.Results: We find that BRM provides robust metrics and concomitantly defensible cut scores in the majority of stations (percentage of problematic stations 5, 14, and 12%, respectively across our three contexts). Where problems occur, this is generally due to an insufficiently strong relationship between global grades and checklist scores to be confident in the standard set by BRM in these stations.Conclusion: This work challenges previous assumptions about the application of BRM in small test cohorts. Where there is sufficient spread of ability, BRM will generally provide defensible standards, assuming careful design of station-level scoring instruments. However, extant station cut-scores are preferred as a substitute where BRM standard setting problems do occur.

OSCE를 위한 자원 효율적이고 신뢰할 수 있는 합격선 설정 방법: 표준화 환자를 단독 평가자로 하는 경계선 회귀 방법(Med Teach, 2022)
A resource efficient and reliable standard setting method for OSCEs: Borderline regression method using standardized patients as sole raters in clinical case encounters with medical students 
Felise B. Milana and Joseph H. Grochowalskib

 

소개
Introduction

의학교육이 학부(UME), 대학원(GME) 및 평생의학교육(CME) 프로그램 전반에 걸쳐 역량 기반 평가를 강조하는 방향으로 점점 더 이동함에 따라, 의학교육자가 이러한 평가와 그 결과의 질과 엄격성을 보장해야 할 필요성이 증가하고 있습니다(Pell 외. 2010). 마일스톤, EPA(위탁 가능한 전문 활동) 또는 역량에 관계없이 교육기관은 평가를 기반으로 내린 결정이 신뢰할 수 있고 방어할 수 있음을 모든 이해관계자에게 보장하는 데 필요한 지식과 기술을 습득해야 할 필요가 있습니다(Lockyer 외. 2017). 성취한 역량에 기반한 교육 시스템으로 전환해야 하는 상황에서 합격선 설정(역량을 입증하는 점수 결정으로 진급자 및/또는 재교육 대상자를 결정)이 더욱 중요해졌습니다. 그러나 교육 예산이 점점 더 타이트해지고 임상의 교수진의 임상 생산성 요구가 증가함에 따라 더 적은 리소스로 이 작업을 수행해야 하는 과제에 직면해 있습니다(Price 외. 2018). 
As medical education moves increasingly to emphasize competency-based assessments throughout the spectrum of undergraduate (UME), graduate (GME) and continuing medical education (CME) programs, there is an increased need for medical educators to ensure the quality and rigor of these assessments and their outcomes (Pell et al. 2010). Whether we are working with milestones, EPAs (Entrustable professional activities) or competencies, there is a need for institutions to acquire the knowledge and skills necessary to assure all stakeholders that the decisions made based on their assessments are reliable and defensible (Lockyer et al. 2017). With the imperative to move to an educational system based on competencies achieved, standard setting (determining the score that demonstrates competency to decide who moves forward and/or who must be remediated) becomes ever more crucial. However, as education budgets get tighter and as our clinician faculty have increasing clinical productivity demands, we are faced with the challenge of accomplishing this task with fewer resources (Price et al. 2018).

합격선 설정 결정은 복잡하며 교육기관의 문화, 정치적 분위기, 커리큘럼 프로그램, 리소스 등 다양한 변수에 따라 달라집니다(Downing and Yudkowsky 2009). 지난 20년 동안 성과 기반 평가를 위한 표준 설정 전략에 대한 지식이 엄청나게 성장했습니다(De Champlain 2018). 표준 설정 방법에는 일반적으로 두 가지 유형이 있습니다.

  • (1) 교수자가 예정된 시험과 무관하게 시험 자료를 검토할 수 있는 시험 자료 검토 방법(예: 앙고프 및 에벨 방법)
  • (2) 수험자의 수행을 검토하는 방법(예: 경계선, 경계선 회귀 및 대조군 방법)

영국과 캐나다에서는 보건의료 및 의학교육 시스템의 구조상 이를 허용하는 교수진이 평가자로 사용되는 경우가 많기 때문에 고부담 OSCE(관찰형 표준화 임상시험)에 사용되는 수험자 중심의 표준 설정 방법에 대한 많은 연구가 수행되었습니다(Price et al. 2018). 교수진은 각 스테이션에서 학습자를 관찰하고 체크리스트와 전체 평가 점수를 작성한 다음 경계선 방법을 사용하여 학습자의 점수와 합격 기준을 모두 결정하는 데 사용합니다. 교수 평가자를 사용하는 교육 환경에서 경계선 그룹 및 경계선 회귀 방법은 신뢰할 수 있고 실용적인 표준 설정 방법인 것으로 나타났습니다(Kilminster and Roberts 2004; Boursicot 외. 2006; Wood 외. 2006; Boursicot 외. 2007; Wilkinson 외. 2008; Hejri 외. 2013; Yousuf 외. 2015; Malau-Aduli 외. 2017). 
Standard setting decisions are complex and based on a multitude of variables that are specific to an institution’s culture, political climate, curricular program, and resources (Downing and Yudkowsky 2009). The past twenty years have seen an enormous growth of knowledge in standard setting strategies for performance-based assessments (De Champlain 2018). Standard setting methods are typically of two types;

  • (1) Those involving review of examination materials (e.g. Angoff and Ebel methods) where faculty can review these materials independent of scheduled testing, and
  • (2) Those involving review of examinee performance (e.g. Borderline, borderline regression and contrasting groups methods) (Kilminster and Roberts 2004; Pell et al. 2010).

Much of the work on the examinee-focused standard setting methods used for high stakes OSCEs (observed standardized clinical exam) has been done in the UK and Canada where faculty are used as raters, as the structure of their health care and medical education systems allow for this (Price et al. 2018). These faculty observe the learners at each station and complete checklists and global rating scores, which are then used to determine both the learners’ scores as well as the passing standard using the borderline method. In educational settings using faculty raters, the borderline group and borderline regression methods have been shown to be reliable and practical standard setting methods (Kilminster and Roberts 2004; Boursicot et al. 2006; Wood et al. 2006; Boursicot et al. 2007; Wilkinson et al. 2008; Hejri et al. 2013; Yousuf et al. 2015; Malau-Aduli et al. 2017).

현재 교수진이 평가에 참여하지 않는 OSCE에 사용되는 가장 신뢰할 수 있는 표준 설정 방법은 앙고프 방법과 그 파생 방법입니다(Kilminster and Roberts 2004). 그러나 경계선 방법과 달리 앙고프 표준 설정 방법은 합격 기준을 설정하는 소규모 전문가 그룹의 판단에 상당한 시간을 투자해야 합니다. 이 방법은 더 많은 비용으로 경계선 방법보다 덜 신뢰할 수 있는 표준을 생성하는 것으로 나타났습니다(도피니 외. 1997). 이러한 여러 가지 요인으로 인해 저희 학교를 포함한 미국의 많은 학교에서는 표준 설정에 규범 기반 기준을 사용해 왔습니다. 물론 이 방법은 역량 기반 평가를 실천하고자 하는 우리의 바람과는 상반됩니다.
Currently, the most reliable standard setting method used for OSCEs that does not involve the faculty being present for the assessment is the Angoff method and its derivations (Kilminster and Roberts 2004). However, in contrast to the borderline methods, the Angoff standard setting method requires significant investment of time from a small expert group of faculty whose judgments set the passing standards. The method has been shown to produce less reliable standards than the borderline methods at a greater cost (Dauphinee et al. 1997). Due to these many factors, many schools in the US, including ours, have used a norm-based criterion for standard setting. This method, of course, runs counter to our desire to practice competency-based assessment.

미국에서는 미국국립의학시험위원회(NBME)와 외국 의대 졸업생 교육위원회(ECFMG)는 물론 많은 의과대학에서 고도로 훈련된 표준화 환자(SP)를 사용하여 환자를 묘사하고 학생의 점수를 생성하는 체크리스트 또는 척도를 작성합니다(Zanten 외. 2007). 많은 교육기관에서 SP는 임상 술기에 대한 교육과 피드백을 제공하는 교육자로서도 중요한 역할을 합니다(Howley 2013; May et al. 2009). 표준화된 환자에 의한 학생의 임상 술기 평가가 신뢰할 수 있고 타당하다는 것을 보여주는 많은 문헌이 있습니다. SP 평가자가 교수 평가자만큼 신뢰할 수 있다는 일부 문헌도 있습니다: Han 등(2006)은 SP 평가자가 체크리스트 채점에서 의사 평가자와 동일한 신뢰도를 보였으며, 4학년 의대생 임상 술기 OSCE에서 전체 평가에서 의사보다 더 높은 신뢰도를 보였다고 밝혔습니다. 
In the U.S., both the National Board of Medical Examiners (NBME) and Educational Commission for Foreign Medical Graduates (ECFMG), as well as many medical schools, use highly trained standardized patients (SPs) to both portray the patients as well as complete the checklists or scales that create the students’ scores (Zanten et al. 2007). In many institutions SPs also play a key role as educators providing instruction and feedback on clinical skills (Howley 2013; May et al. 2009). There is a significant body of literature showing that the rating of students’ clinical skills by standardized patients is both reliable and valid (Boulet et al. 2002; Humphrey-Murto and Macfadyen 2002; Kilminster and Roberts 2004; Whelan et al. 2005; Han et al. 2006; McKinley and Norcini 2014). There is also some literature showing that SP raters may even be as reliable as faculty raters: Han et al. (2006) demonstrated SP raters had the same reliability as physician raters on checklist scoring and higher reliability than the physicians on global rating in a 4th year medical student clinical skills OSCE.

미국은 영국이나 캐나다와 같은 시스템보다 OSCE에 참석할 교수진의 시간이 더 제한되어 있으므로, 이 연구의 목표는 경계선 표준 설정 방법을 사용하는 데 필요한 글로벌 평가 점수를 작성하는 데 SP를 안정적으로 사용할 수 있는지 조사하는 것이었습니다. SP가 신뢰할 수 있는 점수를 제공할 수 있다면, 임상시험 OSCE에 교수진이 참석할 필요가 없어질 것입니다. 
Faculty time to be present for OSCEs is more limited in the USA than in systems such as the UK and Canada, so the goal of this study was to investigate whether SPs could reliably be used to complete the global rating score needed to use the borderline method of standard setting. If SPs could provide reliable scores, it would obviate the need for faculty to be present for the clinical encounter OSCE.

(의도된 목적에 따라) 신뢰할 수 있는 점수는 점수의 타당성을 뒷받침하는 데 필요한(충분하지는 않지만) 증거이며, 이는 지속적인 조사 과정입니다(Kane 2013). 부정확한 점수는 일관된 내용의 표현, 수험자 순위, 합격/불합격 결정, 예측 또는 기타 점수 활용을 뒷받침할 수 없습니다. 이 논문의 핵심 목표는 OSCE 설계 및 채점 결정을 기반으로 점수의 reliability과 dependability의 토대를 구축하는 것이었습니다. 물론 이 측정 방법을 개발하는 과정에서 내용 및 구성 타당도를 확립하기 위한 일반적인 접근 방식도 통합했으며, 이에 대해서는 방법에서 설명합니다. 
Reliable scores (for an intended purpose) is a necessary (but not sufficient) piece of evidence to have in support of score validity, which is an ongoing investigative process (Kane 2013). Imprecise scores cannot support representation of cohesive content, examinee ranking, pass/fail decisions, predictions, or other score uses in its absence. Our central goal in this paper was to establish the foundation of score reliability and dependability based on our OSCE design and scoring decisions. Of course, in our development of this method of measure, we also incorporated common approaches to establishing content and construct validity, which we describe in the methods.

방법
Methods

참가자
Participants

참가자는 우리 기관의 3학년 의대생 182명 전원을 포함했습니다. OSCE는 다양한 임상 시나리오를 제시하는 8개 스테이션으로 구성되었으며 필수 평가이므로 매년 100% 참여가 이루어졌습니다. 
Participants included all 182 third-year medical students at our institution. The OSCE had 8 stations presenting a variety of clinical scenarios and is a required assessment, so 100% participation was achieved yearly.

OSCE
The OSCE

학생들은 환자의 나이, 성별, 진료 장소(예: 응급실, 클리닉, 병동)가 주어지고 한 케이스당 15분 동안 3케이스에 대해서만 병력 청취를 하거나 5케이스에 대해 병력 및 신체검사를 하도록 지시받았습니다. 어떤 케이스에서도 절차적 술기를 평가하지 않았습니다.

  • 6개의 스테이션에서는 환자들이 해결해야 할 다양한 주요 불만 사항을 제시했습니다(5명은 직접 방문, 1명은 전화로). 이 스테이션은 집중적인 병력 청취, 집중적인 신체 진찰, 임상적으로 적절한 감별 진단에 기반한 적절한 관리 계획 수립 및 환자에게 해당 계획을 전달하는 학생의 능력을 평가하도록 설계되었습니다.
  • 다른 두 스테이션에서는 환자 상담이 주요 과제였습니다.

케이스는 핵심 임상 로테이션을 막 마친 학생에게 적합한 난이도로 설계되었습니다. 구성 및 내용 타당성을 확립하기 위해 전문가들은 OSCE 사례를 검토하여 의학, 정신과, 외과, 노인병, 신경과, 소아과 등 다양한 분야의 입원 및 외래 임상 문제를 다양하게 제공했는지 확인했습니다. 임상 술기 측정에 대한 포괄적이고 적절한 범위를 보장하기 위해 의사 교육자로 구성된 다학제적 위원회에서 사례를 작성했습니다. 임상 전문가들이 콘텐츠의 타당성과 임상적 정확성을 위해 사례를 검토했습니다. 
Students were given the patient’s age, gender and encounter location (i.e. ER, clinic, hospital ward) and instructed to do a history for only three cases or history and physical exam for five cases in the 15 minutes allotted per case. No procedural skills were assessed in any of the cases.

  • In six of the stations, patients presented (five in person, one by telephone) with chief complaints of varying acuity to be addressed. These stations were designed to assess the students’ ability to take a focused history, perform a focused physical, develop an appropriate management plan based on clinically appropriate differential diagnoses and communicate that plan to the patient.
  • In the other two stations, the primary task was patient counseling.

The cases were designed to have a difficulty level appropriate for a student who had just completed their core clinical rotations. To establish construct and content validity, experts reviewed the OSCE cases to ensure they offered a diverse array of both inpatient and outpatient clinical problems from varied disciplines including medicine, psychiatry, surgery, geriatrics, neurology and pediatrics. Cases were written by a multidisciplinary committee of physician educators to ensure comprehensive and adequate coverage of clinical skills measurement. Clinical specialists reviewed cases for content validity and clinical accuracy.

SP 교육
SP training

표준화된 환자(SP)가 술기 체크리스트(병력, 신체 검사 및 의사소통 기술)를 사용하여 (학생들이 진료 후 노트를 작성하는 10분 동안) 학생들의 수행을 평가했습니다. SP 그룹은 표준화 환자로 훈련받았으며 이 역할에 4~25년의 경력을 가진 전문 배우들이었습니다. 이들은 30년 동안 이 일을 해온 의사와 SP 트레이너가 각 사례에 맞게 모집하고 훈련했습니다. SP는 OSCE와 관련된 다분야 의사 그룹이 개발한 허용 가능한 신체 검사 기법 매뉴얼을 기반으로 신체 검사 기법 표준에 대해 의사로부터 광범위하게 교육을 받았습니다. 이들은 SP 트레이너로부터 표준화된 방식으로 사례를 묘사하고 학생들이 질문한 병력 항목을 안정적으로 보고할 수 있도록 사례에 대한 교육을 받았습니다. 글로벌 평가 항목(그림 1)에서는 SP에게 훈련받고 경험이 풍부한 SP로서의 관점과 해당 학습자의 환자가 되어본 느낌에 대해 글로벌 평가를 하도록 요구했지만, 교수 평가자에게 요청하는 것처럼 임상적 판단을 하도록 요구하지는 않았습니다. 
The students’ performances were evaluated by standardized patients (SPs) using skills checklists (history, physical exam and communication skills), during the 10 minutes that the students had to write their post-encounter note. The group of SPs were professional actors who had been trained as standardized patients and had from 4 to 25 years of experience in this role. They were recruited and trained for each case by a physician and SP trainer who had been doing this work for 30 years. The SPs were extensively trained by the physician on physical exam technique standards based on a manual of acceptable physical exam maneuvers that had been developed by a multi-disciplinary group of physicians involved with the OSCE. They were trained on the cases by the SP trainer to both portray the case in a standardized fashion as well as to reliably report which history items had been asked by the students. The global rating item (Figure 1) required the SPs to make a global rating from their perspective as a trained and experienced SP as well as what it was like to be this learner’s patient, but did not ask them to make a clinical judgment as would be asked of a faculty rater.

저자 중 한 명은 SP 트레이너와 협력하여 약 60분 동안 의사소통 기술 체크리스트 및 글로벌 평가 항목 사용에 대한 참조 프레임 평가자 교육(Holmboe and Hawkins 2008) 세션을 진행했습니다. 참조 프레임 훈련은 수행 차원 훈련의 연장선이며 평가자 간 신뢰도를 높이는 데 매우 효과적인 것으로 나타났습니다(Roch 외. 2012). 저희 교육에서는 SP에게 다양한 역량 수준에서 수행한 이전 학생들의 비디오 클립을 시청하게 하고, 평가할 동일한 사례를 묘사한 표준화 환자를 인터뷰한 후, SP가 의사소통 기술 체크리스트와 글로벌 평가 항목의 일부를 완료하도록 했습니다. 각 영상이 끝난 후 SP는 주어진 항목에 대한 자신의 등급을 보고하기 위해 손을 들어 응답했습니다. 의견이 일치하지 않는 경우 평가자는 자신이 선택한 이유를 설명했습니다. 평가자에게 행동 앵커를 참조하고, 행동을 적절한 차원으로 분류하고, 각 행동의 효과를 탐색하고, 행동이 역량 표준을 충족할 때 강화했습니다. 각 항목은 합의에 도달할 때까지 논의되었습니다. 
One of the authors worked with the SP trainer to administer a frame-of-reference rater training (Holmboe and Hawkins 2008) session on the use of the communication skills checklist and global rating item, lasting about 60 minutes. Frame of reference training is an extension of performance dimension training and has been shown to be very effective in increasing inter-rater reliability (Roch et al. 2012). In our training we had the SPs view video clips of previous students performing at various competency levels and interviewing the standardized patients portraying the same cases they would be rating, the SPs completed portions of the communication skills checklist and global rating item. After each clip, the SPs responded to a show of hands to report their rating on a given item. When there was disagreement, raters explained their reasons for their choices. We referred raters to the behavioral anchors, categorized behaviors into appropriate dimensions, explored the effectiveness of each behavior and reinforced when behaviors met competency standards. Each item was discussed until consensus was reached.

교수진 교육
Faculty training

교수진은 검토자로 프로그램에 참여하면 2시간의 교육을 받습니다. 여기에는 각 사례에 대한 수행 기준을 제공하는 병력 및 신체 검사 체크리스트와 의사소통 기술 체크리스트에 대한 행동 앵커에 대한 광범위한 논의가 포함됩니다. 또한 교수진이 모여 점수, 비디오 및 SP 코멘트를 논의하여 학생이 합격에 필요한 역량 기준을 충족하는지 여부를 결정하는 추가 회의가 있습니다. 
Faculty receive a 2-hour training when they enter the program as reviewers. This includes extensive discussion of the history and physical exam checklists and behavioral anchors for communication skills checklist which provide a performance standard for each case. In addition, there are additional meetings where faculty meet to discuss the scores, videos and SP comments to decide whether students meet the competency standard for passing.

도구: 역사, 신체 검사 및 커뮤니케이션 기술 체크리스트
Instruments: History, physical exam, and communication skills checklists

OSCE의 각 케이스에는 약 14개 항목으로 구성된 케이스별 병력 체크리스트가 있습니다. 신체검사가 포함된 사례의 경우 약 8개의 항목으로 구성된 케이스별 신체검사 체크리스트가 있었습니다(스테이션 사례 요약 및 체크리스트 항목 수는 표 1 참조). 이 두 가지 사례별 체크리스트의 항목은 여러 전문 분야로 구성된 임상 교수진 그룹이 해당 사례의 감별 진단을 결정하는 데 필수적인 항목으로 선정했습니다. 
Each case in the OSCE had a case-specific history checklist with approximately 14 items. For cases that included a physical exam, there was a case-specific physical exam checklist with approximately eight items (Table 1 for a breakdown of station case summaries and checklist item counts). The items on both of these case-specific checklists were chosen by a multi-specialty group of clinical faculty as items essential to the determination of the differential diagnoses for that case.


그런 다음 행동에 기반한 의사소통 기술 체크리스트를 모든 사례에 사용했습니다. 이 체크리스트는 2004년 3년차 OSCE를 위해 다른 기관과 협력하여 처음 개발되었으며, 2006년에 의료 커뮤니케이션 아카데미에서 개발하여 우리 기관에서 의사소통 기술을 교육하는 데 사용하는 3기능 모델파트너십, 공감, 사과, 존중, 정당화 및 지원(PEARLS) 라포 형성 모델(Cole and Bird 2013)과 보다 밀접하게 일치하도록 개정되었습니다. 이 체크리스트는 교수진과 표준화 환자의 피드백을 바탕으로 2010년에 현재 버전(부록 1)으로 한 번 더 개정되었습니다. 체크리스트는 정보 수집(4개 항목), 촉진(2개 항목), 영어 능력(1개 항목), 관계 형성(3개 항목), 환자 교육(2개 항목)의 기술 영역으로 구성되어 있습니다. 체크리스트는 일반화 가능성 이론을 사용하여 분석되었으며, 이번 3년차 OSCE에 사용하기에 Φ̂=0.79의 점수 신뢰도가 있는 것으로 나타났습니다.
The behaviorally anchored communication skills checklist was then used across all cases. The checklist was first developed in 2004 in collaboration with another institution for the 3rd year OSCE and was revised in 2006 to more closely align with the 3-function model and Partnership, Empathy, Apology, Respect, Legitimation, and Support (PEARLS) model of rapport building (Cole and Bird 2013), developed by the Academy of Communication in Healthcare and used for teaching communication skills at our institution. It was revised once more to its current version (Supplementary Appendix 1) in 2010 based on feedback from faculty and standardized patients. The checklist is organized into the following skill areas: information gathering (four items), facilitation (two items), English Language proficiency (one item), relationship building (three items), and patient education (two items). The checklist was analyzed using generalizability theory and found to produce score reliability of Φ̂=0.79  for use with this third year OSCE.

글로벌 평가 항목
The global rating item

위에서 설명한 체크리스트 외에도 학생의 정량 점수에 포함되지 않고 표준 설정에만 사용되는 5점 만점의 글로벌 평가 항목이 하나 있습니다(그림 1). 영국과 경계선 회귀에 관한 많은 문헌에서 사용된 글로벌 평가 항목의 저자(Boursicot 외. 2007, Homer and Pell 2009)는 저자와 이 항목을 공유했으며, SP의 글로벌 평가에 대해 수행한 일부 작업을 바탕으로 SP와 함께 사용할 수 있도록 개정하는 데 조언을 제공했습니다. SP 트레이너와 소수의 숙련된 SP로부터 SP로서의 관점에서 판단할 수 있다고 생각하는 항목에 대한 의견을 받았습니다. 이 작성자는 원래의 글로벌 평가 항목에서 5가지 핵심 영역을 파악하고 환자의 관점에 맞게 문구를 수정했습니다. 
In addition to the above checklists described, there is a single five-point global rating item (Figure 1) that does not count towards the students’ quantitative score but is used solely for standard setting. The authors of the global rating item used in the UK and in much of the literature on borderline regression (Boursicot et al. 2007; Homer and Pell 2009) shared the item with the authors and advised us in the revision of it for use with the SPs based on some work they had done with global rating from SPs. We received input from the SP trainer and a small group of experienced SPs as to what they felt they could make a judgment on from their perspective as an SP. This author identified five key domains in the original global rating item and revised the wording to match the patient perspective.

분석
Analyses

먼저 체크리스트와 경계선 방식을 사용할 필요가 있는지, 아니면 글로벌 평가 점수가 합격과 불합격을 결정할 수 있을 만큼 정확하고 신뢰할 수 있는지를 고려했습니다. 우리는 G 이론을 사용하여 글로벌 점수의 컷 점수 신뢰도(Brennan and Kane 1977)를 계산하여 컷 결정을 내릴 때 관찰된 점수의 정확성을 평가했습니다. 
We first considered whether it was necessary to use the checklist and borderline method at all, or whether the global rating scores were precise and reliable enough to make pass or fail decisions. We calculated the cut score dependability (Brennan and Kane 1977) of the global scores using G-theory, assessing the accuracy of observed scores for making cut decisions.

저희는 Homer와 Pell(2009)의 제안(보충 부록 2, A4)에 따라 OSCE 점수의 품질과 경계선 회귀 결과를 평가했으며, 글로벌 점수와 스테이션 점수에 대해 각각 무작위 효과 분산분석(random-effects ANOVA)을 실시했습니다. 이를 통해 스테이션/평가자 점수가 전반적으로 얼마나 다른지, 스테이션에서 개인별 점수가 얼마나 다른지, 학습자 능력과 사례/평가자에 의해 설명되지 않는 분산의 비율(글로벌 평가 일관성 포함)을 설명했습니다(보충 부록 2, A5). 
We evaluated the quality of OSCE scores and borderline regression results based on suggestions from Homer and Pell (2009) (Supplementary Appendix 2, A4) and we conducted random-effects ANOVAs for the global scores and station scores, separately. This explained the degree that station/rater scores differed overall, how much person scores at stations differed, and the proportion of variance unexplained by learner ability and cases/raters, including global rating consistency (Supplementary Appendix 2, A5).

마지막으로, 기존 방법의 대안으로 경계선 회귀법의 타당성을 평가하기 위해 경계선 회귀법을 사용하여 결정된 전체 OSCE 점수에 대한 합격률을 기존의 규범 기반 표준 설정 방법(합격 점수가 평균보다 2 표준편차 이상 낮을 경우 합격)과 비교했습니다. 
Finally, we went on to evaluate the feasibility of the borderline regression method as an alternative to our former method, and we compared the passing rate for the overall OSCE score determined by this new method, using borderline regression, to our previous norm-based standard setting method (in which passing score is >2 standard deviations below the mean).

합격 기준을 충족하지 못한 지원자의 OSCE 결과를 면밀히 검토하여 점수에 불만족스러운 성과가 반영되었는지 확인했습니다. 숙련된 교수진은 비디오, 체크리스트 점수, SP 의견 및 학생 메모를 검토하여 불합격 점수가 실제로 표준 이하의 성과를 반영하는지, 불합격 결정이 타당하지 않거나 부정확한 합격 점수로 인한 것이 아닌지 확인했습니다. 
The OSCE results for persons that did not meet passing standards were carefully reviewed to ensure that their scores reflected unsatisfactory performance. Trained faculty reviewed videos, checklist scores, SP comments and student notes to ensure that sub-passing scores truly reflected substandard performance, and that a fail decision was not an artifact of an invalid or imprecise passing score.

결과
Results

먼저 SP에 의한 평가의 안정성과 신뢰성을 평가했습니다. 학생들의 체크리스트 총점 평균은 0.96점(SD = 0.053점)이었으며, 글로벌 평가 점수는 평균 3.25점(SD = 0.44점)이었습니다. 글로벌 점수의 신뢰도는 0.44로, 그 자체만으로는 중요한 의사 결정 기준으로 신뢰하기에는 너무 낮았습니다. 체크리스트는 한 명의 평가자만 채점했기 때문에 평가자 효과와 스테이션 효과가 혼동되어 평가자 신뢰도를 직접 추정할 수 없었습니다. 그러나 체크리스트와 같은 사례 세부 사항이 아닌 보다 일반적인 평가이므로 글로벌 평가에 대한 평가자 신뢰도를 평가할 수 있었습니다. SP의 글로벌 등급(스테이션 난이도와 혼동)의 클래스 내 상관관계로서의 신뢰도는 ICC = 0.09/(0.09 + 0.81/8) = 0.47(이 값의 출처는 표 2 참조)로, '괜찮은' 일관성을 보였습니다(Cicchetti 1994). 글로벌 평가 점수가 중요한 결정을 내리기에는 충분히 정확하지 않고 스테이션에 중첩된 평가자의 일관성이 공정한 수준이라는 점을 감안하여 경계선 회귀법에서 함께 사용된 글로벌 및 스테이션 점수를 기준으로 결정의 품질을 평가했습니다. 

We first assessed the stability and reliability of ratings by SPs. Students had an average total score on the checklists of 0.96 (SD = 0.053), and they had average global rating scores of 3.25 (SD = 0.44). The dependability of the global scores was 0.44, which was too low to be reliably used as a high-stakes decision point by itself. The checklists were only scored by one rater, and so rater effects and station effects were confounded, and rater reliability could not be directly estimated. However, rater reliability could be assessed for the global rating, as this was a more general rating and not specific to case details like the checklists. The reliability as intraclass correlations (Shrout and Fleiss 1979) of the SPs global ratings (confounded with station difficulty) was ICC = 0.09/(0.09 + 0.81/8) = 0.47 (Table 2 for the source of these values), which is ‘fair’ consistency (Cicchetti 1994). Given that the global rating score was not precise enough for high-stakes decisions and the raters nested in stations had only fair consistency of consistency, we assessed the quality of decisions based on global and station scores as used together in the borderline regression method.

 

 
 
 
 

 

 

경계선 회귀 방법을 사용한 합격 점수는 시범 도입 및 사용 후 7년간 일관되게 높았지만 그 정도는 다양했습니다(표 4). 전체 합격 점수는 0.6~4.0% 포인트 더 높았으며, 평균 차이는 2.64% 포인트였습니다. 그 결과 해당 연도에 시험을 치른 전체 학생의 1.1%(N = 2명)에서 7.4%(N = 12명)까지, 총 161명에서 182명에 이르는 매우 작지만 꾸준히 불합격 학생이 증가했습니다. 

The passing score using the borderline regression method was consistently higher but to a varying degree in the seven years following the institution of its piloting and use (Table 4). The overall passing score ranged from 0.6 to 4.0 percentage points higher with a mean difference of 2.64 percentage points. This resulted in an increase in a very small-but-consistent increase in student failures ranging from 1.1% (N = 2) to 7.4% (N = 12) of the total students taking the exam in the year, which ranged from a total of 161 to 182 students.

표 2의 결과는 무작위 효과 공변량 분석에서 체크리스트 점수와 전체 점수의 변동성 정도를 나타냅니다. 체크리스트 사례/평가자 측면의 표준편차는 0.056으로 전체 평균인 0.96에 비해 상대적으로 작았습니다. 마찬가지로 전체 점수의 경우 사례/평가자 표준편차는 0.31로, 0~5점 사이의 등급 범위에 비해 스테이션 간 변동성이 훨씬 작았습니다. 이러한 결과는 등급과 점수의 변동성이 부분적으로 스테이션 간의 차이로 인한 것으로, 스테이션 간 점수가 비교적 균일하다는 것을 시사합니다. 
The results in Table 2 describe the degree of variability of checklist scores and global scores from the random effects ANOVA analysis. The checklist case/rater facet had a standard deviation of 0.056, which is relatively small, compared to the overall mean of 0.96. Similarly, the global scores had a case/rater standard deviation of 0.31, which is even smaller variability across stations relative to the rating range of 0 to 5. These results suggested that the variability in the ratings and scores was in small part due to differences between the stations, indicating relatively homogeneous scoring across stations.

토론
Discussion

경계선 회귀 표준 설정 방법을 사용하여 8개의 임상 사례 OSCE에서 신뢰할 수 있는 합격 기준을 생성할 수 있었으며, SP는 SP로서의 관점에서 글로벌 등급 항목을 사용하는 유일한 평가자였습니다. 개별 사례 점수만으로는 신뢰도 기준을 충족하지 못하지만, 8개 사례의 점수는 각각 신뢰도 > =0.70이었습니다. OSCE에서 글로벌 등급을 사용하면 타당한 점수를 산출한다는 연구 결과가 여러 차례 발표되었습니다(Solomon 외. 2000; Scheffer 외. 2008). 그러나 본 연구에서는 글로벌 등급 점수만으로는 합격/불합격 결정을 내릴 수 있는 신뢰도 기준을 충족하지 못했지만, 경계선 회귀 방법의 일부로 사용했을 때 수용 가능한 수준 이상의 신뢰도를 보여주었습니다. 또한 경계선 회귀법을 사용한 결과 불합격률이 상대적으로 적게 증가하여 우리 기관의 정치적, 재정적 관점에서 전적으로 수용 가능한 것으로 나타나 이러한 기준 설정 방법의 변경이 매우 실현 가능한 것으로 나타났습니다. 
We were able to produce reliable passing standards in an eight-case clinical encounter OSCE using the borderline regression standard setting methods with SPs as the only raters employing the global rating item from their perspective as an SP. Using any individual case score alone would not meet reliability standards, but scores from each of the 8 cases had dependability > =0.70. There have been several studies showing the use of global rating producing a valid score in OSCEs (Solomon et al. 2000; Scheffer et al. 2008). In our study, however, use of the global rating score alone would not meet reliability standards on which to make a pass/fail decision, but used as part of the borderline regression method it demonstrated more than acceptable dependability. In addition, our results showed that the relatively small increase in failure rate using the borderline regression method was entirely acceptable from both a political and financial perspective at our institution making this change in standard setting method to be very feasible.

경계선 회귀 방법은 교수 평가자를 사용하는 성과 기반 시험의 표준 설정에 매우 신뢰할 수 있는 방법이라는 것이 입증되었습니다. 또한 Homer와 Pell(2009)은 모의 환자의 평가를 포함시킴으로써 교수 평가에 비해 OSCE 평가의 신뢰도가 높아졌음을 보여줄 수 있었습니다. 또한, 경계선 회귀법은 (직접 비교 연구 시) 성과 기반 평가를 위한 유일한 근거 기반 표준 설정 방법인 Angoff 방법보다 더 신뢰할 수 있는 점수를 산출했습니다(Dauphinee 외. 1997; Kramer 외. 2003). 영국의 5개 학교에서 6개의 OSCE 사례에 대한 합격 기준을 설정하는 데 Angoff 방법을 사용했을 때, 이 학교들에서 설정된 기준에는 허용할 수 없는 변동성이 있었습니다(Boursicot 외. 2006). 경계선 그룹과 수정된 경계선 모두 OSCE의 표준 설정 방법으로 인정받고 있지만, 경계선 회귀 방법은 신뢰도가 높고 오류가 적으며 특히 소수의 학습자가 참여하는 OSCE에 유용한 것으로 나타났습니다(Wood et al. 2006). 최근 연구에서는 다른 표준 설정 방법과 경계선 회귀 방법을 비교하여 경계선 회귀 방법을 상대적 황금 표준으로 삼았습니다(Yousuf 외. 2015; Malau-Aduli 외. 2017). 경계선 그룹 방법의 사용은 경계선 회귀 방법을 사용하기 위한 통계적 지원이 없는 프로그램에서 고려할 수 있는 중요한 방법입니다. 
The borderline regression method has been shown to be a highly reliable method for standard setting for performance-based exams using faculty raters. In addition, Homer and Pell (2009) were able to show an increased level of reliability in their OSCE assessments over the faculty ratings by including the ratings of simulated patients. Furthermore, the borderline regression method, when studied in direct comparison, has produced more reliable scores than the Angoff method, which is the only other evidence based standard setting method for performance-based assessment (Dauphinee et al. 1997; Kramer et al. 2003). When the Angoff method was used to set passing standards for a set of 6 OSCE cases across five schools in the UK, there was unacceptable variability in the standards set across these schools (Boursicot et al. 2006). While both the borderline group (Kilminster and Roberts 2004) and modified borderline (Humphrey-Murto and Macfadyen 2002) are both accepted standard setting methods for OSCEs, the borderline regression method has been shown to have greater reliability, lower error and be particularly useful when the OSCE involves a small number of learners (Wood et al. 2006). Recent studies have compared other standard setting methods to the borderline regression method as the relative gold standard (Yousuf et al. 2015; Malau-Aduli et al. 2017). Use of the borderline group method is an important method to consider for programs without the statistical support to use the borderline regression method.

비의사 평가자(SP)가 임상 술기 OSCE의 맥락에서 신뢰할 수 있는 글로벌 평가 점수를 산출할 수 있는지에 대한 질문과 관련하여, 우리의 결과는 비의사를 포함한 비전문가도 글로벌 평가를 사용할 때 신뢰할 수 있는 평가자 역할을 할 수 있다는 최근의 문헌과 일치합니다. 외과 분야에서는 콘텐츠 전문성 수준이 평가 점수의 신뢰도 향상과 관련이 없으며(Patnaik 외. 2020), 의대생 OSCE를 포함하여 훈련된 비전문가도 신뢰할 수 있고 타당한 성과 기반 평가를 제공할 수 있다는 연구(Mahmood 외. 2018; Pradarelli 외. 2021)가 여러 차례 발표되었습니다(Donohoe 외. 2020). 본 연구 결과는 본 연구와 더 밀접한 관련이 있는 연구와 일치합니다. Berger 등(2012)과 최근 Yudkowsky 등(2019)은 비임상 평가자가 상세한 채점 루브릭을 제공받았을 때 교수 평가자만큼 신뢰성 있게 OSCE 환자 기록을 채점하고 임상 추론을 평가할 수 있음을 보여 주었기 때문입니다. 마지막으로 Han 등(2006)은 일반화 가능성 분석을 통해 의대 4학년 학생을 대상으로 의사소통 기술 태도와 전반적인 수행을 평가하는 5점 만점 항목 3개를 사용할 때 SP 평가자가 교수 평가자보다 더 신뢰할 수 있는 점수를 산출할 수 있음을 입증할 수 있었습니다. 이 결과는 'SP 기반 기본 임상술기 시험에 전문가가 필요한가'라는 질문에 대한 답이기도 합니다(한 외, 2006, 308쪽). 이 의문을 해결하기 위해 다음 프로젝트에서는 교수진에게 동일한 체크리스트를 사용하게 하고, 비디오로 촬영한 학생의 모습에 대한 SP와 교수진의 평가를 직접 비교하는 연구를 진행할 예정입니다. 
Regarding the question of whether a non-physician rater (SP) can produce a reliable global rating score in the context of a clinical skills OSCE, our results are in alignment with the growing literature that non-experts, including non-physicians, can serve as reliable raters even when using global rating. In the field of surgery, there are several studies showing that level of content expertise is not associated with improved reliability in rating scores (Patnaik et al. 2020) and that trained non-experts can provide reliable and valid performance-based assessments (Mahmood et al. 2018; Pradarelli et al. 2021) including in a medical student OSCE (Donohoe et al. 2020). Our results are in accord with research more closely related to our study, as both Berger et al. (2012) and more recently Yudkowsky et al. (2019) showed that non-clinician raters, when provided with a detailed grading rubric were able to score OSCE patient notes and assess clinical reasoning as reliably as faculty raters. Lastly, Han et al. (2006) was able to demonstrate, using generalizability analysis, that when using three 5-point global items assessing communication skills attitude and overall performance, SP raters could produce more reliable scores than the faculty raters in a 4th year medical student. Our results also echo the question they raised, ‘whether experts are required for an SP based basic clinical skills exam’ (Han et al. 2006 p. 308). In order to further address this question, our next project will be to have faculty use the same checklists and to directly compare SP and faculty ratings of students’ videotaped encounters.

본 연구의 잠재적으로 중요한 한계 중 하나는 단일 기관에서 표준화된 단일 환자를 대상으로 수행되었다는 점입니다. 우리 SP는 경험이 풍부하고 수년에 걸쳐 누적적으로 매우 잘 훈련된 사람들입니다. 우리는 지속적으로 우리와 함께 일할 수 있는 미취업 배우가 많은 도시에 위치하고 있습니다. 새로운 SP 프로그램이나 아직 배우로 훈련받지 않은 사람들을 훈련시키는 프로그램을 운영하는 기관에서는 본 연구에서 발견한 수준의 신뢰도를 재현하지 못할 가능성이 높습니다. 또한, 본 연구의 일반화 가능성에 대한 또 다른 잠재적 한계는 본 연구가 임상 환자를 대상으로 임상 기술을 평가하는 OSCE였다는 점입니다. 보다 다양한 학생의 술기를 평가하는 OSCE에는 유용하지 않을 수 있습니다. 마지막으로, OSCE 설계의 효율적이고 비용 효율적인 특성으로 인해 평가자와 사례 효과를 분리하여 독립적으로 연구할 수 없기 때문에 SP, 체크리스트 항목 또는 사례 특징을 조정할 수 있는 진단 능력이 제한됩니다. 그러나 신뢰도 추정치는 이러한 제한의 영향을 받지 않습니다. 
One of the potentially significant limitations of our study is that it was done in a single institution using a single cadre of standardized patients. Our SPs are highly experienced and cumulatively over the years, very well trained. We are located in a city with a large number of underemployed actors who are consistently available to work with us. It is quite possible that institutions with newer SP programs or programs that train people not already trained as actors might not be able to reproduce the level of reliability found in our study. In addition, another potential limitation to the generalizability of these findings is that ours was an OSCE evaluating clinical skills with clinical patient encounters. It may not be as useful for OSCEs that assess a greater variety of student skills. Finally, because of the efficient and cost-effective nature of the OSCE design, it is not possible to disaggregate rater and case effects such that they can be studied independently, which limits our diagnostic ability to adjust SPs, checklist items, or case features. However, the estimates of dependability are unaffected by this limitation.

요약하면, 우리의 결과는 글로벌 등급을 제공하는 데 있어 SP의 역할을 뒷받침하는 새로운 연구 및 문헌을 더욱 확인시켜 주며(Homer and Pell 2009), 경계선 방법이 매우 신뢰할 수 있는 합격 기준 점수를 생성할 수 있다는 과거의 연구 결과와도 일치합니다(Dauphinee 외. 1997; Kramer 외. 2003). 신뢰도 높은 전체(및 스테이션) 커트라인 점수에 대한 증거는 이 방법에 대한 신뢰도 증가에 추가적인 신뢰를 제공합니다(Yousuf 외. 2015; Malau-Aduli 외. 2017). 임상의가 아닌 SP가 신뢰할 수 있고 유효한 성과 기반 평가를 생성할 수 있고(Mahmood 외. 2018; Patnaik 외. 2020; Donohoe 외. 2020; Pradarelli 외. 2021), 잘 훈련된 SP가 교수진과의 신뢰도에 상응하는 평가를 생성할 수 있다는 다른 연구 결과(Berger 외. 2012; Yudkowsky 외. 2019)에 따라, 단독 SP를 평가자로 사용하는 경계선 방법이 매우 신뢰할 수 있는 기준 점수를 생성한다는 것을 발견했습니다. 이상적으로는 타당도 프로세스의 다음 단계는 합격 또는 불합격 결정의 기준 및 예측 타당도를 탐색하는 것이지만, 전문적인 효능 및 결과 데이터의 가용성이 부족하기 때문에 수집하기 매우 어려운 증거입니다. 
In summary, our results further confirm the emerging research and literature that supports the role of SPs in providing global ratings (Homer and Pell 2009), and our results are also consistent past findings that the borderline method can produce highly dependable pass criterion scores (Dauphinee et al. 1997; Kramer et al. 2003). Our evidence of highly reliable overall (and station) cut scores gives additional credence to the increasing confidence in the method (Yousuf et al. 2015; Malau-Aduli et al. 2017). In line with other research finding that non-clinician SPs can produce reliable and valid performance-based assessments (Mahmood et al. 2018; Patnaik et al. 2020; Donohoe et al. 2020; Pradarelli et al. 2021), and that well-trained SPs can produce ratings commensurate in reliability with faculty (Berger et al. 2012; Yudkowsky et al. 2019), we found that the borderline method using sole SPs as raters produced a highly reliable criterion score. Ideally, a next step in our validity process would be to explore criterion and predictive validity of our pass or fail decisions, which is very difficult evidence to collect, given the scant availability of professional efficacy and outcomes data.

결론
Conclusion

결론적으로, 우리가 사용한 표준 설정 방법은 평가자가 OSCE 동안 한 가지 추가 항목(글로벌 평가)만 완료하면 됩니다. 성과 기반 평가에서 SP 평가자를 사용하는 기관은 환자의 관점에 기반한 글로벌 평가 항목 사용에 대해 SP에게 짧은 교육(본 연구에서는 1시간)만 받으면 이 표준 설정 방법을 활용할 수 있습니다. 요약하면, 본 연구는 경계선 회귀 방법을 SP만 평가자로 사용하여 임상 진료 OSCE에서 신뢰할 수 있는 합격 점수를 생성하는 데 사용할 수 있음을 보여줍니다. 
In conclusion, the standard setting method we used requires only that the raters complete one additional item (global rating) during the OSCE. Institutions using SP raters in a performance-based assessment can utilize this standard setting method with a short training (one hour in our study) of their SPs on the use of the global rating item based on their perspective as the patient. In summary, our study demonstrates that the borderline regression method can be used with only SPs as raters to create reliable passing scores in a clinical encounter OSCE.

 

 


Med Teach. 2022 Aug;44(8):878-885. doi: 10.1080/0142159X.2022.2041586. Epub 2022 Mar 2.

A resource efficient and reliable standard setting method for OSCEs: Borderline regression method using standardized patients as sole raters in clinical case encounters with medical students

Affiliations collapse

Affiliations

1Clinical Skills Center, Albert Einstein College of Medicine, Bronx, NY, USA.

2Psychometrics and Quantitative Psychology, Fordham University, Bronx, NY, USA.

PMID: 35234562

DOI: 10.1080/0142159X.2022.2041586

Abstract

Finding a reliable, practical and low-cost criterion-referenced standard setting method for performance-based assessments has proved challenging. The borderline regression method of standard setting for OSCEs has been shown to estimate reliable scores in studies using faculty as raters. Standardized patients (SPs) have been shown to be reliable OSCE raters but have not been evaluated as raters using this standard setting method. Our study sought to find whether SPs could be reliably used as sole raters in an OSCE of clinical encounters using the borderline regression standard setting method.SPs were trained for on a five-point global rating scale. In an OSCE for medical students, SPs completed skills checklists and the global rating scale. The borderline regression method was used to create case passing scores. We estimated the dependability of the final pass or fail decisions and the absolute dependability coefficients for global ratings, checklist scores, and case pass-score decisions using generalizability theory.The overall dependability estimate is 0.92 for pass or fail decisions for the complete OSCE. Dependability coefficients (0.70-0.86) of individual case passing scores range demonstrated high dependability.Based on our findings, the borderline regression method of standard setting can be used with SPs as sole raters in a medical student OSCE to produce a dependable passing score. For those already using SPs as raters, this can provide a practical criterion-referenced standard setting method for no additional cost or faculty time.

Keywords: OSCE; Standard-setting; borderline-regression; generalizability theory; global-rating; standardized patients (SPs).

OSCE에서 경계선 집단 방법과 경계선 회귀 방법을 기준-기반 합격선 설정과 비교(J Educ Eval Health Prof. 2021)
Comparing the cut score for the borderline group method and borderline regression method with norm-referenced standard setting in an objective structured clinical examination in medical school in Korea 
Song Yi Park1,2, Sang-Hwa Lee2*, Min-Jeong Kim3, Ki-Hwan Ji4, Ji Ho Ryu5

 

소개
Introduction

배경/근거
Background/rationale

합격선 설정은 인간의 판단을 합리적이고 방어 가능한 방식으로 종합하여 점수 척도를 카테고리로 분류하는 과정입니다[1]. 실제 시험에서 커트라인 점수를 설정하는 것과 관련하여 '골드 스탠다드'는 없지만, 이 활동은 보건 전문직에서 매우 중요합니다[2]. 이는 의료 행위의 허용 여부를 평가하기 위해 의료 행위의 성과에 대한 최소한의 판단입니다. 
Standard setting is a process by which human judgment can be synthesized in a rational and defensible way to classify score scales into categories [1]. Although there is no ‘gold standard’ in regard to setting the cut score in real examinations, this activity is critical in health professions [2]. This is the minimum judgment on the performance of medical practice to assess whether it is acceptable or unacceptable.

합격선에는 규범 참조형(상대적)과 기준 참조형(절대적)의 두 가지 유형이 있습니다. 의학교육 시험의 경우 일반적으로 기준 참조형 표준이 선호됩니다. 기준 참조 표준은 개별 수험생에 대한 정보가 거의 없기 때문에 수험생 그룹의 역량 수준에 따라 커트라인 점수가 달라집니다. 기준 참조 표준 설정 방법에는 시험 중심과 수험자 중심의 두 가지 유형이 있습니다. 전자는 객관식 시험과 같은 지식 평가에서 커트라인 점수를 설정하는 데 적합하고, 후자는 객관적 구조화 임상시험(OSCE)과 같은 수행 평가에 적합합니다[3]. 수험자 중심의 표준 설정으로 잘 알려진 것은 대조군 방법과 경계선 그룹 방법(BGM)입니다. 
There are 2 types of standards: norm-referenced (relative) and criterion-referenced (absolute). For medical education examinations, a criterion-referenced standard is generally preferred. Because the norm-referenced standard tells little about the individual examinee, the cut score varies according to the competency level of the examinee group. Criterion-referenced standard setting methods are of 2 types: test-centered and examinee-centered. The former is appealing for setting a cut score on knowledge assessment, such as multiple-choice examination, and the latter is well suited for performance assessment, such as objective structured clinical examination (OSCE) [3]. Well-known examinee-centered standard settings are the contrasting groups method and the borderline group method (BGM).

BGM에서는 시험관이 양호, 경계선, 불합격과 같은 글로벌 등급 척도로 수험생의 성적을 평가합니다. 컷 점수는 경계선 등급을 받은 수험생의 중간 점수입니다. BGM은 시간 효율적이고 구현이 간단합니다. 하지만 경계선 그룹에 대한 합의 도출이 어렵고, 경계선 수험생 수가 적을 경우 컷 점수의 타당도가 낮을 수 있다는 점에서 한계가 있습니다[4]. 이러한 BGM의 한계를 인식하여 모든 OSCE 체크리스트 점수를 사용하여 선형 회귀를 통해 컷 점수를 개발하는 경계선 회귀법(BRM)이 개발되었습니다. 글로벌 등급 점수를 OSCE 총점으로 회귀하면 선형 방정식이 산출됩니다. 경계선 그룹의 예상 커트라인 점수는 경계선 등급 값을 회귀 방정식에 대입하여 결정됩니다. 
In the BGM, examiners evaluate students’ performance on a global rating scale such as good, borderline, and fail. The cut scores are the median scores of examinees with borderline ratings. The BGM is time efficient and straightforward to implement. However, it has some limitations in that achieving consensus on the borderline group is difficult, and when the number of borderline examinees is small, the cut score may have low validity [4]. Recognizing the limitations of the BGM, the borderline regression method (BRM) was developed, which uses all OSCE checklist scores to develop a cut score using linear regression. Regression of global rating scores to OSCE total scores yields a linear equation. The predicted cut score of the borderline group is determined by substituting the borderline rating values into the regression equation.

그러나 수험생 중심의 기준 설정 방법이 수행 평가의 커트라인 점수 설정에 항상 적용되는 것은 아닌 것으로 보입니다. 어떤 경우에는 의료 전문가 교육자들이 의사의 역량을 평가하기 위해 적절한 방법이 아니더라도 사용 가능한 평가 방법을 사용하기도 합니다[5]. 규범 참조 기준 설정에 따른 컷 점수(보통 60 백분위수)도 성과 평가에 사용됩니다[6]. 이 표준 설정은 이해하고 적용하기 쉽습니다. 그러나 규범 참조 표준 설정은 스테이션의 난이도를 고려하지 않기 때문에 정당화하기 어렵습니다 [4]. 
However, it seems that examinee-centered standard-setting methods do not always apply to the setting of cut scores in performance assessments. In some instances, health care professional educators have used available assessment methods to assess a physician’s competencies even if the methods were not appropriate [5]. The cut score (usually 60 percentile) based on the norm-referenced standard setting is also used in the performance assessment [6]. This standard setting is easy to understand and apply. However, norm-referenced standard setting is difficult to justify because it does not consider the difficulty of the stations [4].

부적절한 표준 설정 방법은 바람직하지 않은 결과를 초래할 수 있습니다. 실력이 있는데도 불합격하는 수험생과 실력이 없는데도 합격하는 수험생이 있을 수 있습니다. 이는 의학교육자뿐만 아니라 교육 행정가에게도 중요한 문제입니다. 그러나 표준 설정에 대한 연구는 거의 없으며, 국내 의학교육 및 간호교육에서 Angoff, Ebel과 같은 시험 중심의 표준 설정 방법을 비교한 연구가 대부분이었다[7-9]. 의료계에서 수행 평가는 매우 중요한 부분입니다. 따라서 수험자 중심의 기준 설정 방법도 중요하게 고려되어야 하지만, 국내에서는 이에 대한 연구가 전무한 실정이다. 
Inappropriate standard setting method can lead to undesirable result. There may be examinees who fail even though they are competent and examinees who pass even though they are not competent. This is an important issue for educational administrators as well as medical educators. However, there are few studies on standard setting and most of the studies have been about comparison of test-centered standard setting method such as Angoff, Ebel in medical and nursing educations in Korea [7-9]. Performance assessment is an important part of the medical profession. Therefore, examinee-centered standard setting method should also be considered as important, but there has been no research on this in Korea.

연구 목적
Objectives

본 연구의 연구문제는 의과대학입문자격시험에서 표준설정방식을 규준참조방식에서 BGM과 BRM으로 변경하였을 때 커트라인 점수가 어떻게 변화하는지에 대한 것이다. 본 연구의 목적은 의과대학 4학년 학생을 대상으로 한 OSCE에서 표준점수 설정 방식을 규범 참조 방식에서 BGM과 BRM으로 변경했을 때 커트라인 점수가 어떻게 달라지는지 비교하는 것이었습니다. 이 연구 결과는 수행평가를 담당하는 교육 관리자 및 의학교육자에게 실질적인 도움이 될 수 있습니다. 
The research question of this study was how the cut scores changed when the standard setting method was changed from a norm-referenced method to the BGM and BRM in an OSCE for medical students. The aim of this study was to compare the cut score when the standard setting is changed from the norm-referenced method to the BGM and BRM in an OSCE of fourth-year medical students. The results of this study can be of practical help to educational administrators and medical educators who are in charge of the performance assessment.

방법
Methods

윤리 선언문
Ethics statement

본 연구는 동아대학교 기관생명윤리심의위원회의 승인을 받았습니다(IRB 승인번호, 2-1040709-AB-N-01-202106-HR-047-02). 본 연구는 인간 대상 또는 인간 유래 물질을 대상으로 하지 않았으므로 피험자의 사전 동의를 받지 않았습니다. 
This study was approved by the Institutional Review Board of Dong-A University (IRB approval no., 2-1040709-AB-N-01-202106-HR-047-02). This study was not on human subjects or human-originated materials; thus, informed consent from subjects was not indicated.

연구 설계
Study design

이 연구는 컷 점수를 파악하고 분석하여 표준을 설정하기 위한 BGM 및 BRM의 구현을 모델링하기 위한 탐색적 연구였습니다[10]. 
This was an explorative study to model the implementation of BGM and BRM for setting the standard by identifying and analyzing the cut score [10].

설정
Setting

본 연구는 지난 7월 12일부터 15일까지 부산-경남 임상술기시험(BGCSE) 컨소시엄에서 시행한 부산-경남 임상술기시험 최종일 시험 결과에 적용되었습니다. 부산-경남 임상술기시험 컨소시엄은 부산-경남 지역 5개 의과대학 연합으로, 2014년부터 매년 3, 4학년 의대생을 대상으로 의사국가고시 공동 임상술기시험을 실시해 왔다[11]. 
This study was applied to the final day’s examination results of the Busan-Gyeongnam Clinical Skill Examination (BGCSE) conducted by the BGCSE consortium from July 12th to 15th, 2021. The consortium is an association of 5 medical schools in Busan-Gyeongnam region of South Korea that have annually conducted joint clinical skill examinations for the OSCE for third- and fourth-year medical students since 2014 [11].

시험은 학생들이 표준화 환자(SP)를 접하는 7개의 스테이션과 마네킹을 대상으로 시술 술기를 수행하는 1개의 스테이션으로 구성되었습니다. 각 스테이션의 주제는 다음과 같습니다:

  • 스테이션 1, 지난 한 달 동안 기침과 호흡곤란을 호소하는 60세 여성,
  • 스테이션 2, 오른쪽 눈이 붓고 멍이 든 41세 여성,
  • 스테이션 3, 일주일 전부터 오른쪽 무릎 통증이 있는 44세 남성,
  • 스테이션 4, 2개월 동안 가끔씩 질 출혈이 있는 40세 여성;
  • 스테이션 5, 오늘 아침 발작을 일으킨 26세 남성,
  • 스테이션 6 , 오늘 아침 기상 후 갑자기 어지럼증이 시작된 46세 여성,
  • 스테이션 7, 오른쪽 하복부 통증이 있는 21세 여성,
  • 스테이션 8, 병동 복도에서 갑자기 의식을 잃은 57세 남성이었습니다.

이 연구를 위해 새로 추가되거나 개발된 스테이션은 없었습니다. 
The examination was comprised of 7 stations where students encountered standardized patients (SPs) and 1 station where students performed procedural skills on a manikin. The topic of each station was as follows: station 1, a 60-year-old woman presented with cough and shortness of breath for the past month; station 2, a 41-year-old woman presented with swelling and bruising of her right eye; station 3, a 44-year-old man with a right knee pain from a week ago; station 4, a 40-year-old woman with occasional vaginal bleeding for 2 months; station 5, a 26-year-old man with seizure this morning; station 6, a 46-year-old woman with sudden onset of dizziness after waking up this morning; station 7, a 21-year-old woman with right lower abdominal pain; and station 8, a 57-year-old man suddenly lost consciousness in a ward hallway. There were no newly added or developed stations for this study.

검사관 교육은 평소와 동일한 방식으로 진행되었습니다. 총 32명의 의사 시험관이 4개 의과대학의 각 스테이션에서 체크리스트와 글로벌 평가 척도를 작성하여 수험자의 수행 능력을 평가했습니다. 글로벌 평가에서 기존 4점 숫자 척도의 숙련도 평가가 불합격, 경계선, 양호, 우수의 범주형 척도로 변경된 것이 유일한 변경 사항입니다. 각 스테이션의 컷 점수는 다음과 같이 결정되었습니다: (1) 평균과 표준편차(SD)를 계산하고, (2) 평균에서 1 SD를 뺀 다음, (3) 이 점수를 커트라인 점수로 설정합니다.
The examiners’ training proceeded in the same way as usual. A total of 32 physician examiners evaluated examinee performance at each station in 4 medical schools by completing the checklist and global rating scales. The only change was that the existing 4-point numeric scale for proficiency in global rating was changed to a categorical scale of fail, borderline, good, and excellent. The cut score of each station was determined as follows: (1) calculate the mean and standard deviation (SD); (2) subtract 1 SD from the mean; and (3) set this score as the cut score.

참가자
Participants

5개 의과대학에서 총 107명의 4학년 의대생이 4개 의과대학 술기 센터에서 열린 BGCSE 마지막 날에 참석했습니다. 
A total of 107 fourth-year medical students from 5 medical schools attended the last day of the BGCSE at 4 medical school skill centers.

변수
Variables

주요 결과는 각 스테이션의 규범 참조 방식, BGM, BRM에 의한 컷 점수로 정의했습니다.

  • 표준참조법의 컷 점수는 각 스테이션의 평균에서 1 SD를 빼는 방식으로 결정되었으며, 이는 BGCSE의 기존 방식입니다.
  • BGM의 컷 점수는 다음과 같은 단계로 수행되었습니다: (1) 경계선 그룹 수험자를 식별하고, (2) 체크리스트 점수를 수집하고, (3) 이 그룹의 중앙값을 컷 점수로 설정했습니다.
  • BRM의 컷 점수는 다음 단계에 따라 결정되었습니다: (1) 모든 수검자의 체크리스트 점수와 전체 평가 점수를 수집하고, (2) Microsoft Excel(Microsoft Corp., 미국 워싱턴주 레드몬드)을 사용하여 회귀 방정식(y=a+bx)을 만들고, (3) 경계선 그룹의 척도(본 연구에서는 x=2)를 방정식에 삽입하고, (4) 방정식에서 계산된 y를 컷 점수로 설정했습니다. 

The primary outcomes were defined as a cut score by the norm-referenced method, BGM, and BRM of each station.

  • The cut score of norm-referenced method was determined by subtracting 1 SD from the mean of each station, which is the conventional method in BGCSE.
  • The cut score of the BGM was performed by the following steps: (1) borderline group examinees were identified, (2) their checklist scores were collected, and (3) the median score for this group was set as the cut score.
  • The cut score of the BRM was determined as following steps: (1) checklist and global rating scores of all examinees at the station were collected, (2) a regression equation (y=a+bx) was produced using Microsoft Excel (Microsoft Corp., Redmond, WA, USA), (3) the scale of borderline group (in this study, x=2) was inserted into the equation, and (4) the calculated y of the equation was set as the cut score.

2차 결과는 각 표준 설정 방법에 따라 각 스테이션에서 불합격 학생의 수로 정의했습니다. 
The secondary outcome was defined as the number of failed students at each station according to each standard setting method.

데이터 소스/측정
Data sources/measurement

시험관들은 컴퓨터 프로그램을 사용하여 학생들의 성적을 채점했으며, 결과는 자동으로 처리되었습니다. 모든 변수는 엑셀 스프레드시트(Microsoft Corp.)에 기록했습니다.편향성연구 계획에서 편향성은 발견되지 않았습니다. 
The examiners scored the students’ performance using a computer program, and the results were automatically processed. All variables were recorded in an Excel spreadsheet (Microsoft Corp.).BiasNo bias was found in the study scheme.

연구 규모
Study size

이 연구는 효과를 결정하기 위한 것이 아니므로 표본 크기를 계산하지 않았습니다. 
This study was not intended to determine effect and was therefore not indicated to calculate sample size.

통계적 방법
Statistical methods

각 스테이션과 경계선 그룹의 평균과 SD를 포함한 기술적 통계가 사용되었습니다. 회귀 분석은 Microsoft Excel ver. 2105(Microsoft Corp.)를 사용하여 회귀 방정식을 생성했습니다. 회귀 방정식에 경계선 그룹의 척도(x=2)를 삽입하여 BRM의 컷 점수를 계산했습니다. 표준 참조 방식과 BGM, 그리고 표준 참조 방식과 BRM 간의 컷 점수 비교를 위해 쌍으로 된 t-검정을 실시했습니다. P-값이 0.05 미만이면 유의미한 것으로 간주했습니다. 
Descriptive statistics were used, including the mean and SD of each station and borderline group. Regression analysis was conducted to produce a regression equation using Microsoft Excel ver. 2105 (Microsoft Corp.). The scale of the borderline group (x=2) was inserted into the regression equation to calculate the cut score of the BRM. A paired t-test for the cut score comparison between the norm-referenced method and BGM, and between the norm-referenced method and BRM were conducted. The P-value <0.05 was considered significant.

결과
Results

참가자
Participants

총 107명의 학생이 시험을 완료했으며, 32명의 교수가 시험관으로 참여했습니다. 
A total of 107 students completed the examination, and 32 professors participated as examiners.

주요 결과
Main results

7개 SP 접점 스테이션과 1개 스킬 스테이션의 G-계수를 사용한 신뢰도는 각각 0.76, 0.73이었습니다(표 1, 2).
The reliability using the G-coefficient in 7 SP encounter stations and 1 skill station was 0.76 and 0.73, respectively (Tables 1, 2).

 

규범 참조 표준 설정 방법, BGM, BRM에 따른 각 스테이션의 예측 컷 점수
Predicted cut score of each station by the norm-referenced standard setting method, BGM, and BRM

표준 참조 방식과 각 스테이션의 BGM 및 BRM에 따른 평균, SD, 예측 컷 점수는 표 3과 데이터 세트 1에 나와 있습니다. 수험생들의 점수 히스토그램은 그림 1에 나와 있습니다. 각 스테이션에서 "경계선"으로 평가된 수험생의 비율은 그림 2에 나와 있습니다. 회귀 방정식, 결정 상관관계(R2), BRM에 의한 각 스테이션의 플롯은 표 4, 데이터 세트 1 및 그림 3에 나와 있습니다. 

The mean, SD, and predicted cut score by the norm-referenced method and the BGM and BRM of each station are shown in Table 3 and Dataset 1. The histogram of the examinees’ scores is shown in Fig. 1. The proportion of examinees rated as “borderline” at each station is shown in Fig. 2. The regression equation, correlation of determination (R2), and plot of each station by the BRM are shown in Table 4, Dataset 1, and Fig. 3.

표준 참조 방식의 컷 점수는 각 스테이션에서 BGM(P<0.01)과 BRM(P<0.02)보다 각각 낮았습니다. BGM과 BRM 간의 컷 점수는 유의미한 차이가 없었습니다(P=0.99)(표 3). SD가 가장 높은 스테이션 5와 '경계선' 판정을 받은 수검자 비율이 가장 높은 스테이션 6이 표준 설정 방법에 따른 컷 점수 차이가 가장 크게 나타났습니다(표 3). 각 스테이션의 판정 상관관계(R2)는 0.28~0.64 범위였습니다(표 4).  
The cut score of the norm-referenced method was lower than that of the BGM in each station (P<0.01) and BRM (P<0.02), respectively. There was no significant difference in the cut score between the BGM and BRM (P=0.99) (Table 3). Station 5, with the highest SD, and station 6, with the highest proportion of examinees rated as “borderline”, showed the largest cut score difference by standard setting methods (Table 3). The correlation of determination (R2) of each station ranged from 0.28 to 0.64 (Table 4).

표준점수 기준 설정 방식별 표준점수 미달 수험자 수, BGM 및 BRM
Number of examinees below standard by norm-referenced standard setting, BGM, and BRM

모든 스테이션에서 규범 참조 기준 설정 방식에 의한 불합격자 수보다 BGM과 BRM에 의한 불합격자 수가 더 많았습니다. 특히 3번, 5번, 6번 스테이션의 불합격자 수가 2배 가까이 증가했습니다(표 1). 
At all stations, there were more failed examinees by the BGM and BRM than by the norm-referenced standard setting method. In particular, the number of failed examinees at stations 3, 5, and 6 almost doubled (Table 1).

토론
Discussion

주요 결과
Key results

본 연구는 의과대학 4학년 학생을 대상으로 한 OSCE에서 표준 설정을 규범 참조 방식에서 BGM과 BRM으로 변경했을 때의 커트라인 점수를 비교하는 것을 목표로 했습니다. BGM과 BRM의 전체 커트라인 점수는 규범 참조 방식과 비슷하거나 더 높았기 때문에 불합격자 수가 더 많았습니다. 그러나 3번, 5번, 6번 문항은 표준점수 설정 방식에 따른 커트라인 점수 차이가 가장 크게 나타났습니다. 
This study aimed to compare the cut score when the standard setting was changed from the norm-referenced method to the BGM and BRM in an OSCE of fourth-year medical students. The overall cut scores of the BGM and BRM were similar or higher than those of the norm-referenced method; thus, the number of failed examinees was higher. However, stations 3, 5, and 6 showed the largest differences in the cut score according to each standard setting method.

해석
Interpretation

의사국가고시에서 표준점수 설정은 중요하지만, 실제 의대생들의 데이터를 다루고 다양한 표준점수 설정 방법의 결과를 비교한 실제 가이드라인은 거의 없습니다. 이러한 표준 설정 방법의 특성을 비교하는 것은 의과대학의 시험 관리자에게 유용할 것입니다. 이 연구에서는 두 가지 표준 설정 방법의 실제 시행 사례를 보고하고 제공했습니다. 
The standard setting for OSCEs is important; however, there are few practical guidelines that handle real medical students’ data and compare the outcomes of using different standard setting methods. Comparing the characteristics of these standard setting methods would be useful for examination administrators of medical schools. This study reported and provided a real example of the implementation of 2 standard setting methods for OSCEs.

스테이션 3과 스테이션 6은 히스토그램을 고려할 때 케이스 난이도가 높은 것으로 보입니다(그림 1). 스테이션이 어려우면 점수가 낮은 수험생이 많을 수 있습니다. 실제 수험생 성적을 기준으로 하는 BGM과 BRM에서는 불합격 수험생이 증가할 수 있습니다. 하지만 표준점수 기준 방식(보통 1등급 또는 백분위 60점 이하로 설정)은 문항의 난이도를 고려하지 않고, 단순히 1등급 이하를 불합격으로 정의합니다. 스테이션 3과 6의 표준 설정에 따른 컷 점수의 차이는 규범 참조 방식이 어려운 스테이션에서 잘 작동하지 않는다는 것을 보여줍니다. 
Stations 3 and 6 seemed to have a high level of case difficulty considering their histograms (Fig. 1). If the station is difficult, there may be many examinees with low scores. Under the BGM and BRM, which are based on actual examinee performance, failed examinees would increase. However, the norm-referenced method (usually set below 1 SD or 60 percentile) does not consider the difficulty of the station; it simply defines failed examinations as below 1 SD. The difference in cut scores according to standard settings at stations 3 and 6 shows that the norm-referenced method does not function well in difficult stations.

스테이션 5는 경계선(15.89%)으로 평가된 수험생의 비율이 가장 낮고 SD가 가장 높았습니다(14.27). 경계선으로 평가된 코호트가 충분하지 않은 경우, 상대적으로 적은 수의 수험자를 기준으로 컷 점수가 산출되어 컷 점수와 관련된 통계적 오차가 증가할 수 있습니다[12]. 점수 분포가 왼쪽으로 치우쳐 있고 경계선 그룹이 전체 점수 분포의 아래쪽 얇은 꼬리에 위치하기 때문에 평균 또는 중앙값이 높은 쪽으로 편향될 수 있습니다[13]. 이러한 편향성은 본 연구 결과에서도 확인할 수 있습니다. 경계선 그룹이 가장 큰 스테이션 6의 경우 BGM과 BRM의 컷 점수 차이는 0.20으로 스테이션 간 차이가 가장 작았지만, 경계선 그룹이 가장 작은 스테이션 5의 경우 2.86으로 스테이션 간 차이가 가장 컸습니다. 스테이션 5에서 BGM과 BRM의 컷 점수 차이가 큰 것은 이러한 편향 때문인 것으로 생각됩니다. 경계선 그룹의 코호트가 더 작으면 이 차이는 더 커질 것입니다. 그러나 선형 회귀는 그룹 내의 모든 점수를 사용하므로 이러한 편향을 피할 수 있습니다. 
Station 5 had the lowest proportion of examinees rated as borderline (15.89%) and the highest SD (14.27). If there are insufficient cohorts evaluated as borderline, cut scores may be calculated based on a relatively small number of examinees, which may increase the statistical error associated with the cut score [12]. As the score distribution is left-skewed and the borderline group is at the lower thin tail of the overall score distribution, the mean or median will be biased toward the high side [13]. This bias can also be confirmed in the results of this study. In station 6 with the largest borderline group, the difference in cut score between BGM and BRM was 0.20 (the smallest difference among stations), but at station 5 with the smallest borderline group, it was 2.86 (the largest difference among stations). At station 5, the difference in cut scores between the BGM and BRM is thought to be due to this bias. If the cohort of borderline group is smaller, this difference will be larger. However, linear regression uses all the scores within the group and therefore avoids this bias.

이전 연구와의 비교
Comparison with previous studies

본 연구 결과에서 알 수 있듯이, 규범 참조 방식은 시험관이 수험생이 수행 능력이 부족하다고 평가했음에도 불구하고 합격할 위험이 있었습니다. 이러한 유형의 표준 설정은 일반적으로 채용 지원자를 선발하거나 채용 가능한 자리가 제한되어 있는 교육 프로그램에서 사용됩니다[14]. 표준 설정은 시험의 목표에 따라 적용되어야 합니다. 의과대학에서 지원자 선발에 OSCE를 사용하는 경우가 아니라면, 규범 참조 방법은 적절하지 않습니다. 
As the results of this study show, the norm-referenced method had a risk of examinees passing the station even though the examiner evaluated the examinee as not competent on the performance. This type of standard setting is typically used when selecting applicants for employment or for educational programs where available positions are limited [14]. The setting of standards should be applied according to the goal of the examination. If the OSCE is not used for applicant selection in medical school, the norm-referenced method is not appropriate.

BGM의 장점은 통계적 절차가 필요하지 않고 컷 점수 계산이 쉽다는 것입니다. 그러나 본 연구의 5번 스테이션에서와 같이 경계선 그룹이 충분하지 않은 경우 BGM은 잠재적인 문제가 발생할 수 있습니다. Wood 등[13]의 연구에서도 동일한 문제가 발견되었습니다. 이 연구에서 경계선 그룹은 20%(수험생 12/59명)였으며, 합격률의 차이는 BGM에서 69%, BRM에서 92%였습니다. 세부적으로 살펴보면 12명의 수험생 모두 경계선 만족(열등, 미흡, 경계선 불만족, 경계선 만족, 양호, 우수의 6점 척도 사용)으로 BRM의 커트라인 점수가 수험생의 성적을 더 적절히 반영하고 있음을 알 수 있습니다. 
The advantages of the BGM are that no statistical procedure is required and the cut score calculation is easy. However, the BGM can have a potential problem when the borderline group is not sufficient, such as in station 5 of this study. The same problem was also found in the study of Wood et al. [13]. In their study, the borderline group was 20% (12/59 examinees), and the difference in the pass rate was 69% in the BGM and 92% in the BRM. When the station was reviewed in detail, all 12 examinees had borderline satisfactory scale (they used 6-point scales with inferior, poor, borderline unsatisfactory, borderline satisfactory, good, and excellent), indicating that the cut score of the BRM was a more appropriate reflection of the examinees’ performance.

BRM을 활용한 대부분의 연구는 졸업후의학교육 지원자와 같이 수험생 집단의 성적이 높은 비교적 큰 규모의 코호트(n>50)를 평가하는 데서 진행되었습니다. 이 연구 역시 107명의 수험생으로 구성된 대규모 코호트를 대상으로 진행되었습니다. 그러나 많은 의과대학의 OSCE는 1년 단위와 같은 소규모 코호트를 가지고 있을 수 있습니다. Homer 등[12]은 소규모 코호트에서 BRM을 사용하는 것이 일반적으로 성공적일 수 있음을 보여주었습니다. 그들은 다양한 고부담 평가 맥락에서 BRM의 사용을 조사한 결과 대부분의 스테이션에서 BRM이 효과적으로 작동한다는 것을 발견했습니다. 이들은 실용적인 관점에서 현존 컷 점수를 제안했습니다. 이전 스테이션 성과에 기반한 기존 컷 점수는 소규모 코호트에서 이상적으로 사용할 수 있습니다[12]. 
Most studies using the BRM have been conducted in the evaluation of relatively large cohorts (n>50) in which the examinee group is high performing, such as postgraduate candidates. This study was also conducted in a large cohort of 107 examinees. However, OSCEs in many medical schools may have small cohorts, such as a single-year group. Homer et al. [12] have shown that the use of the BRM in the context of small cohorts can be generally successful. They investigated the use of the BRM in different high stakes assessment contexts and found that the BRM functions effectively at most stations. They proposed an extant cut score from a practical point of view. Extant cut scores based on previous station performance would ideally be available in a small cohort [12].

BRM에서는 모델이 OSCE의 컷 점수를 얼마나 잘 예측하는지에 대한 회귀 모델의 적합성을 평가하기 위해 R2를 조사합니다. R2는 일반적으로 시험에서 획득한 점수의 백분율로 해석되며, 이는 시험 응시자의 임상 성과에 대한 글로벌 평가의 벤치마크 점수로 설명할 수 있습니다.

  • R2가 1.0이면 체크리스트의 모든 점수가 독립 변수인 시험자의 글로벌 등급 척도로 완전히 설명된다는 것을 의미합니다.
  • R2가 0.85에서 1.0 사이로 높으면 수험자의 임상 수행 체크리스트가 글로벌 등급 점수에 반영된 시험관의 평가와 일치한다는 것을 의미합니다.
  • R2가 0.5 이하로 낮으면 체크리스트 점수가 글로벌 등급 점수와 일치하지 않음을 나타냅니다[15].

그러나 많은 연구에서 R2의 값은 약 0.5로 본 연구와 크게 다르지 않은 합리적인 것으로 간주되었습니다 [16,17]. 
In the BRM, to assess the fitness of the regression model in terms of how well the model predicts the cut score of the OSCE, the R2 is examined. R2 is generally interpreted as a percentage of the score achieved in an examination that can be explained by a benchmark score of global rating on examinees’ clinical performance.

  • An R2 of 1.0 means that all scores of the checklist are completely explained by the global rating scale of the examiner as an independent variable.
  • A high R2, between 0.85 and 1.0, indicates that the checklist of examinees’ clinical performance is aligned with the examiner’s evaluation reflected in the global rating score.
  • A low R2 of 0.5 or less indicates that the checklist score is not aligned with the global rating score [15].

However, in many studies, the value of R2 was approximately 0.5 and was considered reasonable, which was not significantly different from this study [16,17].

 

한계점
Limitations

시험관들이 경계선 그룹의 학생을 평가하는 데 있어 합의는 BGM과 BRM에 중요합니다. 그러나 본 연구에서는 이 점을 다루지 않았습니다. 본 연구에서는 BGCSE에 참여한 시험관들이 다년간의 채점 경험을 바탕으로 충분한 합의가 이루어졌다고 가정했습니다. 이러한 합의를 유지하기 위해 시험관들이 수년 동안 익숙하게 사용해 온 4가지 범주형 척도를 수정하지 않고 글로벌 등급 척도로 사용했습니다. 그러나 이 가정이 항상 유효한 것은 아닙니다. 의과대학에 경험이 풍부한 시험관이 충분하지 않은 경우 경계선 학생 그룹을 식별하는 모델을 개발하는 것이 도움이 될 수 있습니다[18]. 
The consensus for rating borderline groups of students by examiners is important for the BGM and BRM. However, this study did not address this point. We assumed that the examiners who participated in the BGCSE had sufficient consensus based on their many years of scoring experience. In order to maintain this consensus, the 4 categorical scale, which examiners have been accustomed to using for many years, was used without modification as global rating scale. However, this assumption will not always be valid. If the medical school does not have enough experienced examiners, it may be helpful to develop a model to identify borderline groups of students [18].

일반화 가능성
Generalizability

본 연구의 결과를 고려할 때, BRM은 소규모 코호트에 적용할 수 있으며, 통계적 방법은 마이크로소프트사의 엑셀을 이용하여 수행할 수 있는 수준입니다. 
Considering the results of this study, the BRM can be applied to a small cohort, and its statistical methods are at a level that can be performed using Microsoft Excel (Microsoft Corp.).

제언
Suggestions

본 연구에서 사용된 글로벌 평가 척도는 실패, 경계선, 양호, 우수를 포함한 범주형 척도입니다. 그러나 이 척도가 5점 또는 6점으로 변경될 때 커트라인 점수가 어떻게 변하는지에 대해서는 추가 연구가 필요합니다. 본 연구의 OSCE에는 7개의 SP 만남 스테이션과 1개의 스킬 스테이션이 있었습니다. 또한 스테이션의 내용과 조합에 따라 컷 점수가 어떻게 변하는지에 대한 연구도 필요합니다. 
The global rating scale used in this study was a categorical scale including fail, borderline, good, and excellent. However, further study is needed to determine how the cut score changes when this scale changes to 5 or 6. In the OSCE of this study, there were 7 SP encounter stations and 1 skill station. It is also necessary to study how the cut score changes depending on the content and combination of the stations.

결론
Conclusions

규범 참조 방식의 컷 점수는 BGM과 BRM보다 낮았으며, BGM과 BRM 간 컷 점수에는 큰 차이가 없었습니다. 기존에 사용하던 기준 설정 방식을 변경하는 것은 쉽지 않을 것입니다. 그러나 문항 내용이나 수험생의 실력이 고려되지 않은 채 규범 참조 방식에 의한 컷 점수는 문항 난이도 및 내용에 따라 달라질 수 있어 기준 설정 결정의 적절성에 영향을 미칠 수 있습니다. OSCE의 커트라인 점수가 의료행위의 수행이 허용 가능한지 여부를 평가하는 최소한의 판단 기준이라면, 수험자 중심의 기준 설정 방식이 그 목적에 더 적합하다. 또한, 본 연구에서 제시된 바와 같이 BGM과 BRM 방식은 실무에 적용하기 어렵지 않다. 경계집단 기준에 대한 충분한 합의가 이루어진다면, BRM을 이용한 기준 설정은 보다 방어적인 방법으로 수검자의 커트라인 점수를 결정하는 데 적용될 수 있을 것입니다. 

The cut score of the norm-referenced method was lower than that of the BGM and BRM, and there was no significant difference in the cut score between the BGM and BRM. It will not be easy to change the previously used standard setting method. However, prefixed cut scores by the norm-referenced method, without considering station contents or examinee performance, can vary due to station difficulty and content, affecting the appropriateness of the standard setting decision. If the cut score of OSCE is the minimum judgement assessing whether the performance of medical practice is acceptable or not, examinee-centered standard setting method are more appropriate for that purpose. Moreover, as presented in this study, BGM and BRM methods are not difficult to apply in practice. If there is an adequate consensus on the borderline group criteria, standard setting with the BRM could be applied as more defensible method to determine the cut score of the OSCE stations.

 

 

 


J Educ Eval Health Prof. 2021;18:25. doi: 10.3352/jeehp.2021.18.25. Epub 2021 Sep 27.

Comparing the cut score for the borderline group method and borderline regression method with norm-referenced standard setting in an objective structured clinical examination in medical school in Korea

Affiliations collapse

Affiliations

1Department of Emergency Medicine, Dong-A University, College of Medicine, Busan, Korea.

2Department of Medical Education, Dong-A University, College of Medicine, Busan, Korea.

3Department of Medical Education and Neurology, Kosin University, College of Medicine, Busan, Korea.

4Department of Neurology, Busan Paik Hospital, Inje University, College of Medicine, Busan, Korea.

5Department of Emergency Medicine, Pusan National University, School of Medicine, Busan, Korea.

PMID: 34565121

PMCID: PMC8543078

DOI: 10.3352/jeehp.2021.18.25

Free PMC article

Abstract

Purpose: Setting standards is critical in health professions. However, appropriate standard setting methods do not always apply to the set cut score in performance assessment. The aim of this study was to compare the cut score when the standard setting is changed from the norm-referenced method to the borderline group method (BGM) and borderline regression method (BRM) in an objective structured clinical examination (OSCE) in medical school.

Methods: This was an explorative study to model of the BGM and BRM. A total of 107 fourth-year medical students attended the OSCE at seven stations with encountering standardized patients (SPs) and one station with performing skills on a manikin on 15 July 2021. Thirty-two physician examiners evaluated the performance by completing a checklist and global rating scales.

Results: The cut score of the norm-referenced method was lower than that of the BGM (p<0.01) and BRM (p<0.02). There was no significant difference in the cut score between the BGM and BRM (p=0.40). The station with the highest standard deviation and the highest proportion of the borderline group showed the largest cut score difference in standard setting methods.

Conclusion: Prefixed cut scores by the norm-referenced method without considering station contents or examinee performance can vary due to station difficulty and content, affecting the appropriateness of standard setting decisions. If there is an adequate consensus on the criteria for the borderline group, standard setting with the BRM could be applied as a practical and defensible method to determine the cut score for OSCE.

Keywords: Checklist; Educational measurement; Medical students; Objective structured clinical examination; Standard setting.

OSCE 합격선 설정: 세 가지 경계선 집단 방법(Medical Science Educator, 2022)
OSCE Standard Setting: Three Borderline Group Methods
Sydney Smee2 · Karen Coetzee1 · Ilona Bartman2 · Marguerite Roy3 · Sandra Monteiro4

 

소개
Introduction

표준 설정 시험에서 "경계선"으로 평가된 수험생은 전문 표준을 명확하게 충족한 수험생과 그렇지 않은 수험생을 구분하는 중요한 점수 범위를 나타내며, 어떤 "경계선" 수험생이 표준을 충족했는지를 파악하는 것이 과제입니다. 객관적 구조화 임상시험(OSCE)의 데이터로 커트라인 점수를 계산하기 위해 다양한 경계선 그룹 방법이 도입되었습니다[1,2,3,4,5,6]. 수정된 BGM은 사용 편의성을 최우선으로 고려했습니다[4]. 일반적으로 경계선으로만 평가된 수험자의 평균 점수가 각 스테이션에 대해 계산됩니다. 그런 다음 스테이션 평균 점수를 평균하여 최종 OSCE 컷 점수를 얻습니다. 최종 결정은 시험관의 판단을 최대한 반영하여 실제 수행을 관찰한 결과를 바탕으로 이루어집니다. 따라서 별도의 표준 설정 패널이 필요하지 않아 컷 점수 설정에 드는 노력과 비용을 크게 줄일 수 있다는 장점이 있습니다[7,8,9,10,11]. 그러나 이 방법의 유용성에 대한 초기 증거는 대규모 국가 OSCE의 맥락에서 나온 것입니다. 각 시험장마다 여러 명의 시험관이 있었고 각 시험장의 경계선 코호트 규모가 컸습니다[4]. 시험관 편차가 전체 등급에 미치는 영향과 경계선 그룹에 속한 이상치 응시자의 영향은 평균화하여 역별 컷 점수에 미치는 영향을 최소화하거나 전혀 영향을 미치지 않았습니다. 소규모 단일 기관 OSCE의 경우, 경계선 코호트에서 시험관 분산과 이상치 응시자, 또는 심지어 OSCE 스테이션에 경계선 응시자가 거의 또는 전혀 없는 경우에도 컷 점수에 상당한 부정적 영향을 미칠 수 있습니다. 
In standard-setting exercises, examinees rated as “borderline” represent a critical range of scores separating those that clearly met the professional standard and those that did not, the challenge being to determine which “borderline” examinees have also met the standard. A variety of borderline group methods have been introduced [1,2,3,4,5,6], for calculating cut scores with data from objective structured clinical exams (OSCE). The modified BGM places ease of use at the top of the list [4]. Typically the mean scores of examinees exclusively rated as borderline are calculated for each station. Then, the station mean scores are averaged to achieve a final OSCE cut score. The final decision is based on observations of actual performances, making the most of the judgment of the examiners. Consequently, another advantage is eliminating the need for a separate standard-setting panel, significantly reducing the effort and cost of setting a cut score [7,8,9,10,11]. However, early evidence of the method’s utility was in the context of a large-scale national OSCE. There were multiple examiners for each station and the borderline cohorts for each station were large [4]. The impact of examiner variance on the global ratings and the effect of outlier examinees in the borderline groups were averaged out with minimal to no impact on the station cut scores. For smaller, single institution OSCEs, examiner variance and outlier examinees in the borderline cohorts, or even having few to no borderline examinees identified for an OSCE station, can significantly and negatively impact the cut score.

본 연구는 수정된 BGM의 타당성을 유지하면서 소규모 코호트에서 수정된 BGM 사용의 위험을 완화할 수 있는 OSCE 컷 점수 설정 프로세스를 평가하기 위해 수행되었습니다. 이를 위해 이 연구에서는 회귀 기반 수정과 라쉬 기반 수정을 수정된 BGM과 비교하여 고려했습니다. 회귀 기반 경계선 그룹 방법(회귀 BGM) 라쉬 기반 경계선 그룹 방법(라쉬 BGM)의 강점을 아래에서 자세히 설명합니다. 
The present study was conducted to assess a process for setting an OSCE cut score that would mitigate the risks of using modified BGM with smaller cohorts while retaining the feasibility of modified BGM. To this end, this study considered a regression-based modification and Rasch-based modification in comparison to modified BGM. We expand on the strengths of both a regression-based borderline group method (regression BGM) and Rasch-based borderline group method (Rasch BGM) below.


회귀 BGM수정 BGM에서와 같이 경계선 수험생의 데이터뿐만 아니라 모든 수험생의 점수 데이터를 회귀 방정식에 사용하여 스테이션별 편차를 처리합니다. 회귀 BGM 표준 설정에서 각 시험장에 대한 선형 방정식은 각 수험생의 글로벌 등급을 독립 변수로, 관련 총 시험장 점수를 종속 변수로 사용하여 계산됩니다[5,6,7]. 그런 다음 경계선 표준을 나타내는 글로벌 등급(예: 5점 척도 3점)을 방정식에 삽입하여 스테이션별 컷 점수를 나타내는 해당 스테이션 점수를 예측합니다[5,6,7]. 데이터 그래프를 검토하고 회귀선에서 글로벌 점수와 스테이션 점수 사이의 교차점을 식별하여 이 작업을 수행할 수도 있습니다. 그런 다음 예측된 스테이션 컷 점수를 평균화하여 최종 OSCE 컷 점수를 결정합니다. 이 통계 분석은 일반적인 통계 소프트웨어 또는 스프레드시트를 사용하여 선형 회귀 분석을 스테이션 데이터에 적용하기만 하면 되기 때문에 매력적입니다 [5,6,7]. 회귀 BGM은 보건 교육에서 OSCE를 위한 최적의 선택으로 설명되어 왔으며[12], 여러 연구에서 OSCE 표준 설정 접근법에 대한 신뢰성이 입증되었습니다[13, 14]. 또한 회귀 BGM은 수정 BGM의 모든 장점을 포함하고 있습니다 [5]. 회귀 BGM은 경계선 등급 데이터뿐만 아니라 전체 등급의 모든 데이터를 사용함으로써 경계선 등급을 받은 수험생이 없더라도 스테이션 컷 점수를 설정할 수 있습니다. 그러나 수정된 BGM과 마찬가지로, 이 계산은 특히 스테이션당 시험관 수가 적은 경우 극단적인 시험관 평가에 여전히 취약합니다.  

The regression BGM addresses variance from a station by using all the examinee score data in the regression equation, not just data from the borderline examinees, as is done in modified BGM. In a regression BGM standard setting, a linear equation for each station is calculated using the global rating for each examinee as the independent variable and the associated total station scores as the dependent variable [5,6,7]. The global rating that represents the borderline standard (e.g. three on a 5-point scale) is then inserted into the equation to predict a corresponding station score that represents the station-specific cut score [5,6,7]. This can also be accomplished by examining a graph of the data and identifying the point of intersection on the regression line, between the global and station scores. The predicted station cut scores are then averaged to determine the final OSCE cut score. This statistical analysis is appealing as regression BGM only requires the application of a linear regression analysis to the station data, using common statistical software or spreadsheets [5,6,7]. The regression BGM has been described as an optimal choice for OSCEs in health education [12] and its reliability for OSCE standard-setting approach has been upheld in several studies [13, 14]. Furthermore, regression BGM includes all the advantages of modified BGM [5]. By using all the data from the global rating, not just the borderline rating data, regression BGM is able to set station cut scores even if no examinees are rated as borderline. However, as with modified BGM, the calculations are still vulnerable to extreme examiner ratings, especially when the number of examiners per station is small.

라쉬 BGM수정 BGM과 회귀 BGM의 동일한 장점과 시험자 편차의 영향을 완화할 수 있는 가능성을 제공합니다. 특히 Stone 등[15]은 수험자, 시험관, 시험장 및 전체 글로벌 성과 점수를 포함하는 4면체 라쉬 모델 분석을 Facets 소프트웨어에서 개발했습니다. Stone 등[15]은 라쉬 BGM이 평가 대상에 대한 잘못 정의된 구성에 대한 수정된 BGM의 의존도를 바로잡는다고 주장합니다. 라쉬 BGM의 뛰어난 특징은 정성적 전문가 판단을 평가 대상의 구성을 정의하는 정량적 단일 선형 척도로 변환한다는 것입니다[16, 17]. 이 표준화된 척도를 사용하면 콘텐츠 난이도와 응시자 능력 간의 직접적인 점수 비교가 가능하며, 이 척도를 따라 컷 점수를 점수로 표시할 수 있습니다. 커트라인 점수는 능력 수준이 충분하다고 판단되고 필수 지식 또는 역량을 습득한 것으로 간주되는 지점을 척도 상에 표시합니다. 다면 라쉬 측정 모델은 수험자의 점수에 영향을 줄 수 있는 시험 요소, 즉 OSCE와 같은 수행 평가에서 시험관의 채점 행동과 같은 요소를 포함할 수 있습니다. 여러 측면을 포함하면 이러한 측면과 관련된 분산을 추정할 수 있으며 시험관 매개 평가를 위한 객관적인 표준 설정 방법의 개발이 가능해집니다. 시험관을 포함함으로써 모델은 엄격하거나 관대한 채점과 관련된 분산을 설명할 수 있었습니다. 글로벌 등급 패싯은 경계선 수험생과 관련 역 점수 간의 직접 점수 비교를 위한 추정치를 계산하는 데 사용되었습니다. Stone 등[15]은 라쉬 기반 컷 점수가 패널 기반 표준 설정 패널의 결과와 매우 유사한 결과를 산출하여 라쉬 BGM이 검사자 매개 평가를 위한 유효하고 자원 집약적이지 않은 표준 설정 대안임을 입증했다고 밝혔습니다. 
The Rasch BGM offers the same advantages of both modified BGM and regression BGM, and the possibility of mitigating the impact of examiner variance. Specifically, Stone et al. [15] developed a four-facet Rasch model analysis in Facets software, which included examinees, examiners, stations, and the overall global performance score. Stone et al. [15] argue the Rasch BGM rectifies modified BGM’s reliance on a poorly defined construct of what is being assessed. The outstanding feature of Rasch BGM is the translation of qualitative expert judgments onto a quantitative single linear scale that defines the construct being assessed [16, 17]. Using this standardized scale, it is possible to make direct score comparisons between content difficulty and test-taker ability and to represent the cut score as a point along this scale. The cut score marks the point on the scale where ability level is judged sufficient and essential knowledge or competence is deemed to be mastered. The many-facet Rasch measurement model allows for the inclusion of test facets that may influence examinee scores; facets such as examiner scoring behaviour in performance assessments like an OSCE. The inclusion of multiple facets allows the variance associated with these facets to be estimated and makes the development of an objective standard-setting method for examiner-mediated assessments possible. Including examiners allowed the model to account for variance associated with stringent or lenient scoring. The global rating facet was used to calculate estimates for direct score comparisons between borderline examinees and their associated station scores. Stone et al. [15] found that the Rasch-based cut score produced results that were very similar to results from a panel-based standard-setting panel, thereby demonstrating that Rasch BGM was a valid and less resource-intensive standard-setting alternative for examiner-mediated assessments.

세 가지 경계선 그룹 방법의 공통적인 장점은 위에 언급된 연구에 열거되어 있습니다:

  • (1) 기준 참조 컷 점수는 임상 전문가가 여러 번의 실제 수행을 직접 관찰하여 (비디오로 촬영된 소량의 샘플이나 가상 수행에 근거한 판단이 아니라) 달성되며,
  • (2) 이미 OSCE에 참여하고 있는 시험관에게 의존함으로써 실현 가능성이 크게 향상되고,
  • (3) 기본 소프트웨어를 사용하여 각 시행 후 컷 점수 계산이 신속하게 완료되며,
  • (4) 비용, 시간 또는 노력 측면에서 컷 점수 설정과 관련된 자원이 적다는 점 등이 있습니다. 

The common advantages of all three borderline group methods are enumerated in the studies referenced above:

  • (1) a criterion-referenced cut score is achieved based on direct observation of multiple actual performances by clinical experts (rather than judgments based on a small sample of videotaped or hypothetical performances),
  • (2) feasibility is significantly enhanced by reliance on examiners who are already part of the OSCE,
  • (3) calculating the cut score is completed quickly after each administration using basic software, and
  • (4) resources associated with setting the cut score are small, whether measured in terms of money, time, or effort.

저희의 의도는 시험관 및 기타 원치 않는 변수의 영향을 최소화하여 OSCE 표준 설정 결정에 더 나은 정보를 제공할 수 있는 가능성을 고려하여 더 일반적으로 사용되는 수정된 BGM회귀 BGM과 비교하여 라쉬 BGM의 정확성을 설명하는 것이었습니다. 각 방법은 캐나다에서 실무 경험을 쌓고자 하는 국제적으로 훈련된 간호사를 평가하는 고난도 12개 스테이션 OSCE의 커트라인 점수를 설정하는 데 채택되었습니다.  
Our intent was to describe the accuracy of the Rasch BGM, compared to the more commonly used modified BGM and the regression BGM, given its potential to minimize the impact of examiner and other unwanted variance with the goal of better informing OSCE standard-setting decisions. Each method was adopted to set the cut score for a high-stakes 12-station OSCE assessing internationally trained nurses seeking entry to practice in Canada.

자료 및 방법
Materials and Method

이 연구의 데이터는 캐나다 내 주정부 등록 절차의 일환으로 평가 프로그램을 이수한 112명의 국제 교육을 받은 간호사를 평가한 2016년 OSCE에서 얻었습니다. OSCE는 다양한 환자 인구 통계에 걸쳐 공통적이고 중요한 환자 프레젠테이션을 샘플링하는 12개 스테이션으로 구성되었습니다. 응시자는 각 스테이션을 11분 이내에 완료해야 했습니다. 
Data for this study came from a 2016 OSCE that assessed 112 internationally educated nurses who completed an assessment program as part of a provincial registration process within Canada. The OSCE consisted of 12 stations that sampled common and important patient presentations across various patient demographics. Examinees were required to complete each station within 11 min.

모든 응시자는 연구 및 품질 관리 목적으로 데이터를 사용하는 데 동의했으며, 모든 보고서는 모든 개인 식별자를 제거한 집계 데이터만 사용한다는 데 동의했습니다. 맥마스터 대학교의 해밀턴 통합 연구위원회는 이 동의서에 따라 수행된 OSCE 연구(보고 포함)는 추가적인 윤리 검토가 면제되는 것으로 간주했습니다. 
All the examinees consented to the use of their data for research and quality control purposes with the agreement that any reports would only use aggregate data with all personal identifiers removed. The Hamilton Integrated Research Board of McMaster University deemed OSCE research done under this consent agreement, including reporting, exempt from further ethics review.

성과는 주 간호대학에서 정의한 입문-실무 역량과 관련된 14개의 사전 정의된 역량을 사용하여 채점되었습니다.

  • 지식 기반 실무에는 (1) 병력 및 데이터 수집, (2) 신체 사정, (3) 결과 분석 및 해석, (4) 우선순위 결정, (5) 간호 전략 실행, (6) 의사소통, (7) 고객과의 협력, (8) 의료팀과의 협력, (9) 간호 계획 개발, (10) 간호 평가 및 모니터링 등 10가지 역량이 포함되었습니다.
  • 윤리적 실천의 경우 (1) 책임과 성실성, (2) 안전, (3) 옹호, (4) 법적 의무의 네 가지 역량이 있었습니다.

각 스테이션에서 이 중 10~12개의 역량을 평가했습니다. 수험생들은 4개의 트랙 중 하나에 배정되었으며, 같은 날 모두 세 개의 세션 중 하나에 배정되었습니다. 각 스테이션당 4명의 시험관이 배치되었으며, 각 시험관은 28개의 수행을 관찰하여 총 48명의 시험관이 참여했습니다.  
Performance was scored using 14 predefined competencies related to entry-to-practice competencies defined by the provincial college of nurses.

  • For knowledge-based practice, there were 10 competencies: (1) health history and data collection, (2) physical assessment, (3) analysis and interpretation of findings, (4) prioritization, (5) implementation of care strategies, (6) communication, (7) collaboration with the client, (8) collaboration with the health care team, (9) nursing care plan development, and (10) evaluation and monitoring of care.
  • For ethical practice, there were four competencies: (1) responsibility and integrity, (2) safety, (3) advocacy, and (4) legal obligations.

Ten to 12 of these competencies were assessed in each station. The examinees were allocated to one of four tracks, as well as one of three sessions all conducted on the same day. There were four examiners per station, with each one observing 28 performances, for a total of 48 examiners.

시험관들은 현재 주 내에서 근무 중인 간호사들로 구성되었습니다. 이들은 OSCE에 대한 정보(기본 사항, 평가 대상 역량, 평가 지침 등)로 시작하여 태블릿 채점 및 시험 당일 물류에 대한 지침으로 구성된 공식 교육을 받았습니다. 또한 필기 내용에 대한 이해도를 보정하고 표준화하기 위한 소그룹 작업도 있었습니다. 마지막으로, 화상 회의와 후속 토론을 통해 대그룹 채점 연습이 진행되었습니다. 총 교육 시간은 이틀에 걸쳐 12시간이었습니다. 
Examiners were registered nurses currently practicing within the province. They received formal training that began with information about the OSCE (i.e. fundamentals, competencies being assessed, and rating guidelines), followed by instructions on tablet scoring and exam day logistics. There was also small group work to calibrate and standardize their understanding of the written content. Finally, there was a large group scoring exercise using videotaped encounters and follow-up discussions. Total training time was 12 h spread over 2 days.

시험관들은 각 역량에 대해 동일한 5점 만점 평가 척도를 사용하여 배정된 스테이션 내에서 수험생의 수행을 채점했습니다. 평가 척도는 녹색(탁월한 성과), 파란색, 노란색, 주황색, 빨간색(긴급한 성과)의 색상으로 고정되었습니다. 시험관이 피시험자의 성과에 범주형 라벨을 부여하도록 장려하기 위해 숫자 대신 색상을 성과 수준을 나타내는 지표로 사용했습니다. 터치스톤 연구소에서 실시한 내부 품질 보증 조사에 따르면, 시험관들은 숫자 등급이 암시하는 정확성이나 등급이 수험생의 합격 또는 불합격 여부에 영향을 미치는 것과는 달리, 색상 등급이 성능에 더 집중하는 데 도움이 된다고 생각하여 색상 등급을 선호한다고 답했습니다. 이 척도에서 파란색은 앵커 점수 또는 시험 표준을 나타내며, 이는 수험생이 최근 캐나다 간호 프로그램을 졸업한 사람에게 기대되는 실무 진입 표준과 동등한 수준의 수행을 하고 있음을 의미합니다. 시험관은 이 표준에 약간 미달하는 점수에는 노란색을, 이보다 더 낮은 점수를 받은 수험생에게는 주황색을 할당하도록 훈련받았습니다. 이러한 색상 수준은 사후에 5(녹색)에서 1(빨간색)까지의 수치 점수로 변환되었습니다. 각 스테이션의 등급 척도 점수의 평균이 해당 스테이션에 대한 수험자의 점수입니다. 각 스테이션 점수의 평균은 각 수험자의 총 OSCE 점수입니다. 
During the OSCE, examiners scored examinee performances within their assigned stations using the same 5-point global rating scale for each competency. The rating scales were anchored by colours ranging from green (exceptional performance), blue, yellow, orange, to red (emergent performance). Colours were used as indicators of performance level, instead of numbers, to encourage examiners to assign a categorical label to the examinee’s performance. Internal quality assurance inquiries conducted at Touchstone Institute indicated that examiners preferred a colour scale as they felt it helped them focus more on the performance, as opposed to the precision implied by a number rating, or whether their rating would be responsible for passing or failing the examinee. On this scale, blue represents the anchor score or test standard, meaning an examinee is performing at a level equivalent to the Entry to Practice Standard expected of a recent graduate of a Canadian nursing program. Examiners are trained to allocate yellow to a performance slightly below this standard and orange to an examinee who performs even further below this. These colour levels were converted to numerical scores ranging from 5 (green) to 1 (red) post hoc. The mean of the rating scale scores for each station was the examinee’s score for that station. The mean of the station scores was each examinee’s total OSCE score.

합격 기준은 해당 주 내에서 최근 간호사를 졸업한 사람들이 수용할 수 있는 성적을 획득하는 것으로 정의되었습니다. 각 스테이션에 대해 시험관들은 위에서 설명한 역량에 점수를 매기는 데 사용한 것과 동일한 5점 척도를 사용하여 각 수험자의 성과를 전반적으로 평가했습니다. 다음과 같은 지침이 제공되었습니다. "이 스테이션의 전반적인 성과에 근거하여, 최근 주 학사 간호 프로그램을 졸업한 졸업생과 비교한 수험생의 현재 역량 수준은 -입니다."입니다. 5점 만점에 3점(노란색)을 받으면 "경계선"에 해당하는 수행을 확인할 수 있습니다. 수정된 BGM과 회귀 BGM의 경우 스테이션 점수가 사용되었습니다. 라쉬 BGM의 경우, 스테이션 점수를 먼저 백분율로 변환했습니다. 모든 OSCE 컷 점수는 가장 가까운 정수로 반올림했습니다.  
The standard for passing was defined as attaining a performance acceptable for recent nurse graduates within the province. For each station, examiners rated each examinee’s performance globally, using the same 5-point rating scale as used to score the competencies described above. The following guideline was provided, “Based on the overall performance for this station, the examinee’s current level of competence as compared to a recent graduate from a provincial baccalaureate nursing program is–”. A global rating of 3 (yellow) out of 5 identified performances that were “borderline”. For modified BGM and regression BGM, stations scores were used. For Rasch BGM, station scores were first converted to a percent. All the OSCE cut scores were rounded to the nearest whole number.

  • 수정된 BGM의 경우, 경계선 수행능력의 평균 점수가 해당 스테이션의 컷 점수가 되고, 스테이션 컷 점수의 평균이 OSCE 컷 점수가 되었습니다. 계산은 스프레드시트에서 수행되었습니다.
    For modified BGM, the mean score of the borderline performances became the cut score for the station and the average of the station cut scores became the OSCE cut score. The calculations were done in a spreadsheet.
  • 회귀 BGM의 경우, 각 수험생의 글로벌 등급을 독립변수로, 해당 스테이션 점수를 종속변수로 사용하여 12개 스테이션 각각에 대한 선형 방정식을 계산했습니다. 이러한 계산은 스프레드시트에서도 수행되었습니다. 각 방정식에서는 3등급의 경계선 등급을 사용하여 스테이션별 예상 컷 점수를 계산했습니다. 스테이션별 컷 점수의 평균을 계산하여 OSCE 컷 점수를 생성했습니다.
    For regression BGM, a linear equation for each of the 12 stations was calculated using the global rating for each examinee as the independent variable and the corresponding station score as the dependent variable. These calculations were done in a spreadsheet as well. The borderline rating of three was used in each equation to calculate the predicted station-specific cut scores. The station cut scores were averaged to generate the OSCE cut score.
  • 라쉬 BGM의 경우, 백분율로 표시되는 점수[18,19,20,21]에 유용한 4면 B100 라쉬 모델을 Facets 소프트웨어[22] 내에서 생성하여 각 스테이션에 개별적으로 적용했습니다. 패싯 1은 수험생, 패싯 2는 시험관, 패싯 3은 스테이션의 전체 글로벌 성능 점수(1~5로 코딩), 패싯 4는 수험생의 스테이션 점수로 구성되었습니다.
    For Rasch BGM, a four-facet B100 Rasch model, useful for scores expressed as percentages [18,19,20,21], was created within Facets software [22] and applied to each station separately. Facet One was examinees, Facet Two was examiner, Facet Three was the overall global performance score for the station, coded as 1 to 5, and Facet Four was examinees’ station scores.

단절되거나 분리된 하위 집합을 처리하기 위해 패싯 1(수험생)을 0에 고정하고 중심이 아닌 패싯 4(스테이션 점수)를 고정했습니다. 따라서 패싯 1은 각 수험자를 수험자 표준 셀의 대표로 취급하는 더미 변수로 나타났습니다[18]. 데이터가 Rasch 모델 사양에 어느 정도 부합하는지, 따라서 이 분석에 적합한지 확인하기 위해 소프트웨어 출력의 일부로 생성된 적합 평균 제곱(MnSq) 통계를 조사했습니다. 적합도 또는 정보 가중치 통계는 개인을 대상으로 하는 항목에 대한 응답 패턴에 더 민감하며 그 반대의 경우도 마찬가지이므로 일반적으로 모델 적합도 데이터를 결정할 때 적합도보다 더 유용한 것으로 간주됩니다[19]. 그 범위에 대해서는 종종 논란이 있지만, 우리는 0.50에서 1.50 사이의 인핏 MnSq 값을 "측정에 생산적"으로, 0.50 미만과 1.50에서 2.0 사이는 생산성은 떨어지지만 저하되지는 않는 것으로, 2.0 이상은 측정 시스템을 왜곡하는 것으로 채택했습니다[19, 20]. 또한 출력의 일부로 생성된 분리 신뢰도 지수 통계는 각 패싯에 포함된 요소 간의 분산 또는 이질성 수준을 나타냅니다. 이 통계는 0에서 1 사이의 범위를 사용하며, 1에 가까운 값은 요소 간의 분산 수준이 높음을 나타냅니다[21]. 
To deal with disconnected or disjointed subsets, we anchored Facet One (examinees) at 0 and non-centred Facet Four (station score). Facet One therefore represented a dummy variable which treated each examinee as a representative of their examiner-standard cell [18]. To determine the extent to which the data fit the Rasch model specifications and therefore its suitability for this analysis, we investigated the infit mean square (MnSq) fit statistics generated as part of the software output. Infit or information-weighted statistics are more sensitive to the pattern of responses to items targeted on the person and vice versa; they are therefore generally considered more useful than outfit in determining data to model fit [19]. Although the range is often disputed, we adopted infit MnSq values between 0.50 and 1.50 as “productive for measurement”, less than 0.50 and between 1.50 and 2.0 as less productive but not degrading, and greater than 2.0 as distorting the measurement system [19, 20]. The Reliability of Separation Index statistic, also generated as part of the output, provided an indication of the level of variance or heterogeneity between the elements included within each facet. This statistic adopts a range from 0 to 1, with values closer to 1 representing higher levels of variance between elements [21].


경계선 수험생의 공정 평균 점수는 각 스테이션의 커트라인 점수가 되었습니다. 각 측면의 공정 평균 점수는 원래 점수 지표를 사용하여 계산되었으며, 시험관 배정과 관련된 분산과 같은 맥락[18,19,20,21]을 고려한 관찰된 평균을 나타냅니다. 그런 다음 스테이션 컷 점수를 평균화하여 최종 Rasch BGM 컷 점수를 생성했습니다. 
The fair averagescore for borderline examinees became the cut score for each station. The fair average score for each facet was calculated using the original score metric and represents the observed average, accounting for context [18,19,20,21], for instance, the variance associated with examiner assignment. The station cut scores were then averaged to generate the final Rasch BGM cut score.

알파 계수와 함께 OSCE에 대한 기술 통계가 계산되었습니다. 컷 점수와 합격률, 결정 정확도 및 일관성 지수도 BB-CLASS 소프트웨어[23,24,25]를 사용하여 계산했습니다. 항목별 총 상관관계 및 컷 점수와 함께 스테이션 수준의 설명 통계도 분석에 포함되었습니다. 회귀 분석의 스테이션 수준 결과도 제공됩니다. 
Descriptive statistics for the OSCE, along with the alpha coefficient, were calculated. The cut scores and pass rates were also calculated, along with decision accuracy and consistency indices, which were generated using BB-CLASS software [23,24,25]. Station-level descriptive statistics along with item-total correlations and cut scores were included in the analysis. Station-level results from the regression analyses are also provided.

결과
Results

OSCE는 큰 문제 없이 시행되었습니다. 평균 점수는 64%, 표준 편차는 7.7%, 알파 계수는 0.85였습니다. 스테이션별 기술통계 결과는 평균 점수의 범위가 54.8~73.3%로 스테이션별 난이도의 범위를 보여줍니다. 모든 스테이션의 항목-총상관계수(ITC)는 0.20 이상으로 12개 스테이션에서 적절한 수준의 내부 일관성이 있음을 나타냅니다[24]. 스테이션에 대한 설명적 결과는 표 1에 나와 있습니다. 
The OSCE was administered without any significant issues. The mean score was 64% with a standard deviation of 7.7% and an alpha coefficient of 0.85. Station-level descriptive results show a range in mean scores from 54.8 to 73.3%, illustrating a range in station difficulty. All stations had item-total correlations (ITC) greater than 0.20, indicating an adequate degree of internal consistency across the 12 stations [24]. The descriptive results for the stations are provided in Table 1.

전반적으로 데이터는 인핏 MnSq 통계에 의해 결정된 모델 사양에 충분히 부합했습니다. 구체적으로,

  • 패싯 2(검사자)는 12개 스테이션에서 평균 1.34(범위: 0.94~1.93)의 인핏 MnSq 값을 달성했고,
  • 패싯 3(글로벌 성능 점수)은 평균 1.28(범위: 0.55~2.11)을 달성했습니다. 패싯 3의 경우, 스테이션 8의 한 스테이션만이 측정 시스템을 왜곡하는 것으로 간주되는 값(2.11)을 달성하여 평가 품질 보증을 위해 추가 조사가 필요했으며, 본 연구 내에서 스테이션 8에 대한 조정은 이루어지지 않았습니다.
  • 마지막으로, 패싯 4(스테이션 점수)는 1.31(범위: 0.95~1.79)의 평균 적합도 MnSq 값을 달성했습니다.
  • 이 패싯은 더미 변수로 모델에 포함되었기 때문에 패싯 1(수험자)에 대한 적합도 통계는 생성되지 않았습니다. 

Overall, the data achieved sufficient fit to model specifications as determined by infit MnSq statistics. Specifically,

  • Facet Two (examiners) achieved a mean infit MnSq value of 1.34 (range: 0.94 to 1.93) across the 12 stations,
  • Facet Three (global performance score) achieved a mean of 1.28 (range: 0.55 to 2.11). For Facet Three, only one station, namely Station 8, achieved a value considered distorting to the measurement system (2.11) and warranted further investigation for assessment quality assurance purposes; no adjustments were made to Station 8 within this study.
  • Lastly, Facet Four (station score) achieved a mean infit MnSq value of 1.31 (range: 0.95 to 1.79).
  • Note, fit statistics were not generated for Facet One (examinees), as this facet was included in the model as a dummy variable.


패싯 2와 패싯 3에 각각 표시된 수험자 및 글로벌 성과 점수 요소에 걸쳐, 결과는 수험자 간에는 중간에서 높은 수준의 분산이, 글로벌 성과 점수 간에는 높은 수준의 분산이 나타났습니다. 특히 시험관의 경우, 평균 분리 신뢰도 지수는 0.64(범위: 0.18~0.94)로, 일부 시험소의 경우 시험관의 채점 행동에 상당한 차이가 있음을 나타냅니다. 전체 수행 점수 간의 차이 측면에서, 3번 영역의 분리 신뢰도는 12개 스테이션에서 평균 0.96(범위: 0.88~0.99)을 기록했으며, 이는 시험관이 이 점수를 사용하여 각 스테이션에서 응시자 간의 전반적인 수행 수준을 적절하게 식별했음을 나타냅니다. 
Across the examiner and global performance score elements represented in Facet Two and Facet Three, respectively, results showed moderate to high levels of variance across examiners, and high levels of variance across global performance scores. Specifically for examiners, a mean Reliability of Separation Index of 0.64 (range: 0.18 to 0.94) was achieved, indicating that for some stations, examiners displayed significant differences in their scoring behaviour. In terms of differences between global performance scores, Reliability of Separation for Facet Three achieved a mean of 0.96 (range 0.88 to 0.99) across the 12 stations, indicating that examiners used these scores to appropriately identify distinct overall levels of performance between examinees in each station.

세 가지 방법으로 생성된 컷 점수는 거의 비슷했으며(범위 64-65%), 회귀 BGM과 라쉬 BGM 컷 점수는 동일한 값(65%)으로 반올림되었습니다. BB-CLASS 분석[23, 24]에서는 의사 결정 일관성과 의사 결정 정확도 지표를 제공했습니다. 결정 일관성은 반복 테스트에서 동일한 합격/불합격 결정을 내릴 가능성이 얼마나 되는지를 나타내며, 결정 정확성은 다른 측정치와 비교하여 동일한 결과를 얻을 가능성이 얼마나 되는지를 나타냅니다[24]. 세 가지 컷 점수는 모두 0.82 이상의 지수로 허용 가능한 일관성과 정확성을 보였으며, 이는 의사 결정에 대한 위양성과 위음성의 위험을 충분히 최소화한다는 것을 의미합니다. 표 2에는 세 가지 컷 점수에 대한 결과가 요약되어 있습니다. 
The cut scores generated by the three methods were close (range 64–65%), with regression BGM and Rasch BGM cut scores rounding to the same value (65%). A BB-CLASS analysis [23, 24] provided decision consistency and decision accuracy indices. Decision consistency indicates how likely the same pass/fail decisions would be achieved on repeat testing while decision accuracy indicates how likely the same results would be achieved relative to other measures [24]. All three cut scores were acceptably consistent and accurate with indices ≥ 0.82, meaning they sufficiently minimized the risk of false positives and false negatives for decision-making. Table 2 summarizes the results for the three cut scores.

컷 점수의 작은 차이가 합격률에 영향을 미칠 수 있습니다. 표 2에서 볼 수 있듯이, 가장 높은 합격률(즉, 56%)은 수정된 BGM 컷 점수 64%에서 발생했습니다. 기준 설정 방식에 따라 합격률은 4%의 변동이 있었습니다.
Small differences in cut scores may impact pass rates. As shown in Table 2, the highest passing rate (i.e. 56%) was generated by the modified BGM cut score of 64%. Depending on the standard-setting method, the pass rate fluctuated by 4%.

표 3은 각 스테이션의 경계선 그룹 크기와 각 방법 내 관련 컷 점수를 설명합니다. 각 스테이션별 경계선 그룹의 크기는 다양했지만 n = 31(코호트의 27.7%)에서 n = 67(59.8%)까지 모두 컸으며, 경계선 그룹이 n = 40(35.7%) 이하로 떨어진 경우는 단 3곳에 불과했습니다. 회귀 BGM과 라쉬 BGM 방법 모두 시험관의 경계선 판단을 사용하여 컷 점수를 설정했지만 전체 코호트의 점수와 함께 사용했습니다.  

Table 3 describes the size of the borderline group in each station and the relevant cut score within each method. The size of the borderline group for each station varied but all were large, ranging from n = 31 (27.7% of the cohort) to n = 67 (59.8%), with only three borderline groups falling below n = 40 (35.7%). Both the regression BGM and Rasch BGM methods used the examiners’ borderline judgments to set the cut score but worked with the scores for the total cohort.

 

토론
Discussion

표준 설정은 궁극적으로 표준 설정 방법이 모범 사례를 반영하고 일관되게 따를 때 가장 방어할 수 있는 정책 결정입니다. 경계선 그룹 방법은 수험자 기반 및 기준 참조 방식이며 OSCE 형식과 잘 부합합니다. 이러한 방법에 대한 연구에 따르면 이러한 방법은 중대한 의사 결정을 지원하기에 충분히 타당하고 신뢰할 수 있는 것으로 입증되었습니다[5, 26, 27]. 또한 극단적인 시험관의 판단, 경계선에 있는 수험생 코호트가 작거나 존재하지 않는 경우, 시험장당 시험관이 소수이고 수험생 코호트가 작은 경우, 극단적인 수험생의 성적으로 인해 공정한 커트라인 점수를 설정할 때 발생할 수 있는 위험성을 강조한 연구도 있습니다[28]. 
Standard setting is ultimately a policy decision that is most defensible when the standard-setting method reflects best practice and is followed consistently. Borderline group methods are examinee-based and criterion-referenced and align well with the OSCE format. Studies of these methods have demonstrated that they are sufficiently valid and reliable to support high-stakes decision-making [5, 26, 27]. Studies have also highlighted the risks posed to setting a fair cut score introduced by the judgments of extreme examiners, small or non-existent cohorts of borderline examinees, and extreme examinee performances when there are only a few examiners per station and examinee cohorts are smaller [28].

이 연구 결과가 경계선 그룹 방법 중 한 가지를 다른 방법보다 명확하게 선호하지는 않았지만, 연구 결과에 따르면 수정된 BGM이 경계선 그룹 내 낮은 점수의 영향을 가장 많이 받아 가장 낮은 커트 점수로 이어지며, 이는 회귀 BGM 또는 라쉬 BGM 접근법 중 하나를 사용해야 한다는 주장을 뒷받침하는 약점이었습니다.
While the results of this study did not clearly favour one borderline group method over another, the findings did suggest that the modified BGM was the most influenced by lower scores within the borderline group, leading to the lowest cut score, a weakness that supports the arguments for using either of the regression BGM or Rasch BGM approaches.

스테이션 수준에서 모든 방법은 동일한 스테이션 5를 제외하고 스테이션 간에 서로 다른 컷 점수를 생성했습니다. 스테이션 간 차이는 평균을 내어 거의 동일한 총 컷 점수를 산출했으며, 라쉬 BGM회귀 BGM의 경우 동일한 값으로 반올림했습니다. 이 두 가지 방법이 이 코호트에서 거의 동일한 컷 점수를 생성했다는 사실은 놀라운 일이 아닙니다. 라쉬 BGM 방식은 기본적으로 시험자 편차를 고려한 후 회귀 BGM 방식입니다. 시험관 간 편차가 크면 각자의 컷 점수에 더 큰 차이가 있을 것입니다. OSCE 또는 기타 수행 평가를 위한 시험관 교육은 특히 수행을 평가하는 기준에 대한 공통된 이해를 증진하는 데 중요합니다. 시험관 선발 및 교육과 함께 트랙 차이를 최소화하기 위한 다른 전략이 효과적이라면 Rasch BGM에서 공정 평균을 계산할 때 조정이 최소화됩니다. 이 경우 조정이 적었기 때문에 컷 점수가 비슷했습니다. 그러나 OSCE 시험관 교육에 투입되는 시간과 노력은 잘 보고되지 않았으며 기관마다 크게 다릅니다. 개별 학교나 소규모 기관은 대규모 시험 설계 센터에서 실시하는 면허 시험 준비의 일상적인 부분인 시험관 교육에 투자할 충분한 자원이 없을 수 있습니다. 회귀 BGM보다 Rasch BGM을 사용하는 것의 가치는 문제가 되는 분산을 설명할 수 있다는 점입니다. 또한 두 방법 모두 모든 수험생 데이터를 사용했고 이 경우 시험장 점수 분포가 넓었기 때문에(표준편차 범위: 8.2~16.9%) 회귀선에 대한 극단적인 점수의 영향이 최소화되었고 데이터는 Rasch BGM에서 사용되는 공정 평균을 계산하는 데 좋은 근거를 제공했습니다. 
At the station level, all methods generated different cut scores across stations, except for Station 5 which was identical. Differences between stations were averaged out to almost the same total cut score and rounded to the same value for Rasch BGM and regression BGM. The fact that these two methods generated almost the same cut score for this cohort is not surprising. The Rasch BGM method is basically the regression BGM method after taking into account examiner variance. With more variance between examiners, there would be a greater difference between their respective cut scores. Training examiners for an OSCE or any other performance assessment is important; in particular, to promote a common understanding of the standard against which performance is being judged. If examiner selection and training along with other strategies to minimize track differences are effective then the adjustments made when calculating the fair average in Rasch BGM are minimized. In this case, the adjustments were small and therefore cut scores were similar. However, the time and effort given to training OSCE examiners is not well reported and varies greatly across organizations. Individual schools or smaller institutions may not have sufficient resources to invest in examiner training, which is a routine part of OSCE preparation for licensing exams conducted by larger test design centres. The value of using Rasch BGM over regression BGM is its capacity to account for problematic variance. Furthermore, since both methods used all the examinee data and in this instance the station score distributions were broad (range of standard deviation: 8.2 to 16.9%), the impact of extreme scores on the regression line was minimized and the data provided a good basis for calculating the fair average used in Rasch BGM.

수정 BGM은 몇 가지 간단한 계산을 기반으로 가장 쉬운 방법이며, 커트라인 점수(64%)가 회귀 BGM 및 라쉬 BGM 방법(65%)과 거의 동일하지만, 수험자와 시험관 수가 적은 경우 여전히 가장 취약한 방법임에 틀림없습니다. 이번 OSCE에서는 12개 스테이션 모두에서 경계선 등급을 받은 수험생이 많았는데, 이는 적어도 부분적으로는 코호트의 이질성에 기인한 것으로 보입니다. 수험생들은 서로 다른 나라에서 훈련을 받았고 서로 다른 실무 배경을 가지고 있었습니다. 단일 간호 학교의 비슷한 규모의 코호트라면 훨씬 더 동질적일 것이며 경계선 그룹이 작거나 존재하지 않을 위험이 더 높을 것입니다. 
While modified BGM remains the easiest based on a few simple calculations and despite a cut score (64%) almost identical to the regression BGM and Rasch BGM methods (65%), it is still arguably the most vulnerable method when examinee and examiner numbers are small. This OSCE had a good number of examinees rated as borderline for all 12 stations, which is at least partially attributable to the heterogeneity of the cohort. The examinees trained in different countries and came from different practice backgrounds. A similar-sized cohort from a single nursing school would be significantly more homogeneous and the risk of small or non-existent borderline groups would be higher.

회귀 BGM과 라쉬 BGM 모두 모든 수험자 데이터를 사용하여 경계선 그룹 내 극단적인 점수로 인한 편차를 상쇄했습니다. 회귀 BGM은 익숙한 방법인 단순 선형 회귀에 의존하고 계산도 쉽기 때문에 더 널리 사용되고 보고되었습니다. 
Both regression BGM and Rasch BGM methods used all the examinee data to offset variance due to extreme scores within the borderline groups. Regression BGM has been more widely used and reported, likely because it relies on simple linear regression, a familiar method, and is also easily calculated.

4면 라쉬 모델은 공정 평균을 사용하여 스테이션 컷 점수를 설정함으로써 원치 않는 분산을 더 잘 분리하기 때문에, 라쉬 BGM이 더 방어력이 높다고 할 수 있습니다. 콘텐츠 난이도 대비 임상 능력을 정의하는 선형 척도를 따라 커트라인 점수를 배치하면 극단적인 점수, 시험관 편견 또는 경계선으로 평가되는 소수의 응시자의 영향에 덜 취약한 커트라인 점수를 얻을 수 있습니다. 하지만 이 방법을 적용하려면 어느 정도의 측정 전문 지식과 Facets 소프트웨어가 필요했습니다.
The Rasch BGM is arguably more defensible as the four-facet Rasch model better separates out unwanted variance by using the fair average to set station cut scores. Placing the cut score along a linear scale that defined clinical ability relative to content difficulty resulted in a cut score less vulnerable to the influence of extreme scores, examiner biases, or a small number of examinees being rated as borderline. However, some degree of measurement expertise and Facets software were required to apply this method.

Wood 등[4], Homer 등[29], Stone[15]이 주장한 바와 같이, 수정된 BGM은 여전히 학교 규모의 OSCE에서 가장 위험하며 소규모 OSCE의 경우 위험도가 증가합니다. 회귀 BGM과 라쉬 BGM은 모두 OSCE의 커트라인 점수를 설정하는 데 실행 가능하고 방어 가능한 옵션입니다. Stone 등[15]이 판사 매개 성능 평가에 라쉬 BGM을 사용했다고 보고한 것 외에는, 라쉬 BGM은 BGM과 회귀 BGM의 취약성을 모두 완화할 수 있는 잠재력에도 불구하고 OSCE에 사용하기 위해 검토되지 않았습니다. 표준 설정 방법은 퍼포먼스를 구분하지 않는 점수를 "고정"할 수는 없지만, 효율적인 BG 표준 설정 방법을 사용하면 채점 도구를 설계할 때 충분한 주의를 기울이는 데 사용할 수 있는 리소스를 확보할 수 있다는 이점이 있습니다.
The modified BGM is still the riskiest for school-sized OSCEs and the risk increases for smaller OSCEs, as argued by Wood et al. [4], Homer et al. [29], and Stone [15]. Both regression BGM and Rasch BGM are feasible and defensible options for setting a cut score for an OSCE. Aside from Stone et al. [15] reporting on the use of Rasch BGM for judge-mediated performance assessment, Rasch BGM has not been explored for use with OSCEs, despite its potential to mitigate the vulnerabilities of both BGM and regression BGM. Standard-setting methods cannot “fix” scores that do not differentiate between performances, but the benefit of using an efficient BG standard-setting method is that it frees up resources that can be used to ensure sufficient care is taken in designing the scoring instruments.

연구의 한계
Limitations of the Study

이 연구는 알파 계수가 높은 하나의 OSCE를 12개 스테이션에서 한 번 시행하고 모두 등급 척도로 채점하여 세 가지 방법을 경험적으로 비교한 것입니다. 이 OSCE의 높은 내적 일관성은 적어도 부분적으로는 평가 척도[30]의 사용과 수험자 코호트의 이질성 때문이라고 할 수 있습니다. 다양한 OSCE 설계(예: 체크리스트/평정 척도 조합을 사용한 채점), 보다 동질적인 수험자 코호트, 소규모 응시자 코호트를 통한 추가 탐색이 필요합니다. 하위 집합 간의 연결성은 수험자를 더미 변수로 포함시킴으로써 달성할 수 있습니다. 이상적으로 이러한 연결은 두 명 이상의 시험관이 동일한 성과에 대해 수험생을 채점하는 데이터 설계를 통해 달성할 수 있습니다. 
This was an empirical comparison of three methods based on one administration of one OSCE with a high alpha coefficient, 12 stations, all scored with rating scales. The high internal consistency of this OSCE is due, at least in part, to the use of rating scales [30] and to the heterogeneity of the examinee cohort. Further exploration with different OSCE designs (e.g. scoring with checklist/rating scale combinations), more homogeneous examinee cohorts, and smaller candidate cohorts is needed. The connectedness between subsets was achieved by including the examinees as a dummy variable. Ideally this connection is achieved through a data design where examinees are scored by more than one examiner on the same performance.

결론
Conclusion

각 시험 양식마다 특정 사례의 난이도를 반영할 수 있도록 커트라인 점수를 설정해야 하며, 이는 실현 가능한 OSCE 표준 설정에 대한 주요 도전 과제입니다. 한 번의 시행에 사용되는 사례 집합인 각 OSCE 시험 양식은 사례가 다르다는 사실 외에는 다른 이유가 없다면 동일한 사례 은행에서 동일한 목적으로 만들어진 다른 시험 양식과 난이도 및 점수 분포가 다를 수 있습니다. 
Cut scores need to be set for each test form to ensure that they reflect the difficulty of a specific set of cases, and therein lies a major challenge to feasible OSCE standard setting. Each OSCE test form, the set of cases used for one administration, will vary in its difficulty and in its score distribution from other test forms created for the same purpose from the same bank of cases, if for no other reason than the fact that cases are different.

시험 양식 간의 난이도 차이는 시험 양식을 동일하게 하거나 최소한 연결하여[31] 점수를 비슷한 분포로 변환함으로써 완화할 수 있습니다. 연계하면 연결된 시험 양식에 하나의 커트라인 점수를 적용할 수 있으며, 표준 설정 패널을 소집하는 데 드는 비용을 여러 번의 OSCE 시행에 걸쳐 분할 상각할 수 있습니다. 그러나 여러 시험 양식에 걸쳐 공통된 내용과 관련된 필수 가정을 충족하고 결과가 타당하고 신뢰할 수 있는지 확인하기 위한 심리측정 전문 지식을 갖추려면 리소스 집약적인 노력이 필요하며 대규모 사례 은행과 대규모 데이터 세트에서 가장 잘 작동할 수 있습니다. 
Differences in difficulty across test forms can be mitigated with equating or at least linking test forms [31] which allows scores to be transformed to comparable distributions. With linking, one cut score can be applied across the linked test forms and the cost of convening standard-setting panels can be amortized over multiple OSCE administrations. However, meeting the necessary assumptions related to common content across test forms and having the psychometric expertise to ensure that the outcomes are valid and reliable are resource-intensive efforts and most workable with large case banks and large data sets.

연결하지 않는다면, 방어 가능한 커트라인 점수가 필요하기 때문에 각 시험 양식에 커트라인 점수를 설정하여 해당 사례 집합의 난이도를 고려해야 하며, 이 점에서 본 연구에서 검토한 표준 설정 방법의 근거가 있습니다. 단순히 정책적 결정으로 커트라인 점수를 설정하는 대안은 쉽고 비용이 저렴하지만 방어할 수 없습니다. 정책적으로 설정된 커트라인 점수는 시험 유형에 따른 난이도 차이를 고려하지 못하기 때문에 수험생에게 본질적으로 불공정한 결과를 초래합니다. 
Without linking, the need for a defensible cut score requires that a cut score be set for each test form so that the difficulty of that set of cases is taken into account, and therein lies the rationale for the standard-setting methods examined in this study. The alternative of simply setting a cut score with a policy decision, while easy and inexpensive, is not defensible. Policy-set cut scores fail to account for the differences in difficulty across test forms, creating an inherent unfairness for examinees.

세 가지 경계선 그룹 방법의 목표는 모두 패널 기반 표준 설정에 대한 실현 가능한 대안이면서도 방어 가능한 커트라인 점수를 제공하는 것이었습니다. 이 연구 결과는 이전 연구 결과와 일치하며, 회귀 BGM이 매우 큰 편차와 매우 작은 편차 사이에 있는 OSCE의 경우 실현 가능하고 방어 가능한 표준 설정 방법이며, 특히 시험자 편차가 크게 문제가 될 수 있는 OSCE에서 고려할 만한 옵션으로 Rasch BGM을 추가한다는 추가적인 증거를 제공했습니다.
The goal of all three borderline group methods was a feasible alternative to panel-based standard setting that would still provide a defensible cut score. The results of this study were congruent with the findings of earlier studies and provided further evidence that for OSCEs that fall between being very large and very small, regression BGM is a feasible and defensible standard-setting method and adds Rasch BGM as an option worth considering, especially in OSCEs where examiner variance may be significantly problematic.

 


Med Sci Educ. 2022 Nov 16;32(6):1439-1445. doi: 10.1007/s40670-022-01667-x. eCollection 2022 Dec.

OSCE Standard Setting: Three Borderline Group Methods

Affiliations collapse

Affiliations

1Medical Council of Canada, Ottawa, Canada.

2Touchstone Institute, Toronto, Canada.

3Department of Innovation in Medical Education, University of Ottawa, Ottawa, Canada.

4Department of Medicine, Division of Education, and Innovation, McMaster University, Hamilton, Canada.

PMID: 36532388

PMCID: PMC9755382 (available on 2023-12-01)

DOI: 10.1007/s40670-022-01667-x

Abstract

High-stakes assessments must discriminate between examinees who are sufficiently competent to practice in the health professions and examinees who are not. In these settings, criterion-referenced standard-setting methods are strongly preferred over norm referenced methods. While there are many criterion-referenced options, few are feasible or cost effective for objective structured clinical examinations (OSCEs). The human and financial resources required to organize OSCEs alone are often significant, leaving little in an institution's budget for additional resource-intensive standard-setting methods. The modified borderline group method introduced by Dauphinee et al. for a large-scale, multi-site OSCE is a very feasible option but is not as defensible for smaller scale OSCEs. This study compared the modified borderline group method to two adaptations that address its limitations for smaller scale OSCEs while retaining its benefits, namely feasibility. We evaluated decision accuracy and consistency of calculated cut scores derived from (1) modified, (2) regression-based, and (3) 4-facet Rasch model borderline group methods. Data were from a 12-station OSCE that assessed 112 nurses for entry to practice in a Canadian context. The three cut scores (64-65%) all met acceptable standards of accuracy and consistency; however, the modified borderline group method was the most influenced by lower scores within the borderline group, leading to the lowest cut score. The two adaptations may be more defensible than modified BGM in the context of a smaller (n < 100-150) OSCE.

Keywords: Borderline group; OSCE; Standard setting; Validity.

OSCE의 타당도 근거 평가하기: 신설 의과대학으로부터의 결과(BMC Med Educ, 2018)
Evaluating the validity evidence of an OSCE: results from a new medical school
Vanda Yazbeck Karam1* , Yoon Soo Park2, Ara Tekian2 and Nazih Youssef1

 

배경
Background

기존 임상 평가의 문제점을 방지하기 위해 Harden은 보다 타당하고 신뢰할 수 있는 평가 도구로 "객관적 구조화 임상 검사(OSCE)"를 제시했습니다[1]. 그러나 고품질의 효과적인 OSCE를 보장하기 위한 필수 조건은 점수의 타당성을 뒷받침하는 증거를 확보하는 것입니다[2]. 
To prevent the problems of traditional clinical evaluation, the “Objective Structured Clinical Examination (OSCE)” was presented by Harden as a more valid and reliable assessment instrument [1]. However, an essential condition to guarantee a high-quality and effective OSCE is the assurance of evidence to support the validity of its scores [2].

검사의 타당도는 해당 검사가 측정하고자 하는 것을 얼마나 잘 측정하는지를 의미하며, 따라서 검사의 타당도는 여러 증거를 수집하여 축적되어야 합니다[3]. 1989년 Messick은 현대적인 타당도 프레임워크[4]를 제안했으며, 이는 1999년[5]과 2014년[6]에도 실무 표준으로 간주되었습니다. Messick의 구성 타당도 이론에는 테스트 개발을 뒷받침하는 증거와 결과의 결과가 포함됩니다[4]. Messick의 프레임워크에 따르면, 평가 도구에서 생성된 점수를 수락하거나 반박하기 위해서는 다섯 가지 타당도의 원천을 고려해야 합니다[4]. 다섯 가지 원천은 다음과 같다.

  • 내용(시험 문항이 관심 구성의 특징),
  • 응답 과정(데이터 일관성의 증거),
  • 내부 구조(시험의 심리 측정적 특성),
  • 다른 변수와의 관계(동일한 주제를 측정하는 유사하거나 다른 도구와의 결과 일치) 및
  • 결과(학습자, 교수자 및 커리큘럼에 미치는 영향)

The validity of a test is the degree to which this test measures what is intended to measure and hence the validity of a test should be accumulated by collecting several sources of evidence [3]. In 1989, Messick proposed a modern validity framework [4] that was considered a standard of practice in 1999 [5] and also in 2014 [6]. The theory behind Messick’s construct validity includes the evidence supporting the test development and the consequences of the results [4]. According to Messick’s framework, five sources of validity should be considered in order to accept or refute the scores generated by any assessment tool [4]. The five sources are:

  • content (test items are characteristic of the construct of interest),
  • response process (evidence of data coherence),
  • internal structure (psychometric properties of the exam),
  • relations with other variables (alignment of results with similar or different tools measuring the same subject) and
  • consequences (impact on learners, instructors, and curriculum) [4].

OSCE에서 생성된 점수의 타당성은 측정할 영역을 적절하게 표본화할 수 있는 능력에 따라 달라집니다[7]. 궁극적으로 효과적인 OSCE는 인지, 정신 운동 및 정서 능력을 테스트해야 합니다. 그러나 OSCE는 주로 밀러 피라미드의 'shows how' 수준을 평가하는 데 사용됩니다[8]. 우리의 목적은 Messick의 이론을 개념적 프레임워크로 사용하여 레바논 아메리칸 대학교 - 의과 대학(LAU-SOM)에서 시행한 OSCE의 구성 타당성을 조사하는 것입니다. 내부 구조와 결과 타당도를 뒷받침하는 데 중점을 두고 다양한 증거 자료를 수집하려고 시도했습니다. 다른 검증 연구와 달리, 본 조사는 점수 추론의 타당성이 표준 설정 기법의 적절한 적용에 크게 좌우되는 OSCE의 총합적 적용을 기반으로 했습니다. 연구의 또 다른 목적은 합격/불합격 커트라인 점수를 결정하기 위한 합격선 설정 방법으로 경계선 회귀법(BRM)을 사용하고, 이를 기존의 결과 계산 방법과 비교하는 것이었습니다. 
The validity of the scores generated by any OSCE depends on its capability to appropriately sample the domain to be measured [7]. Ultimately, an effective OSCE should test cognitive, psychomotor, and affective skills. However, the OSCE is principally used for the assessment of the ‘shows how’ level of Miller’s pyramid [8]. Our purpose is to examine, using Messick’s theory as a conceptual framework, the construct validity of an OSCE we administered at the Lebanese American University – School of Medicine (LAU-SOM). We attempted to gather multiple sources of evidence with an emphasis on supporting internal structure and consequential validity. Unlike other validation studies, our investigation was based on a summative application of an OSCE where the validity of the score inferences is dependent, to a great extent, on the proper application of standard setting techniques. The other objective of the study was the use of the Borderline Regression Method (BRM) as a method for standard setting to determine the pass/fail cut scores and its comparison to our traditional method of computing the results.

연구 방법
Methods

연구 참가자
Study participants

이 연구는 학사 학위 후 4년의 통합 커리큘럼을 따르는 LAU-SOM에서 실시되었습니다. 평가 배터리에는 OSCE를 포함한 총괄 및 형성 도구가 포함되어 있습니다. LAU의 OSCE 팀은 표준화 환자(SP)를 모집하고 교육하는 연극 교사 1명과 사례를 작성하고 체크리스트를 개발하는 의사 2명으로 구성되어 있습니다. 53명의 1학년 의대생이 혈액학 및 내분비학 모듈을 평가하는 총괄적 OSCE에 참여했습니다. LAU 기관윤리심의위원회에서 윤리 승인을 받았습니다. 학생들은 두 개의 동시 트랙과 세 번의 연속 시험 기간을 사용하여 같은 날에 평가를 받았습니다. 각 트랙에는 임상 시뮬레이션 센터의 다른 방에 위치한 동일한 스테이션이 포함되었습니다. 각 트랙은 7개의 OSCE 스테이션으로 구성되었습니다. 5개 스테이션은 시험관, SP 또는 시험실에 있는 마네킹과 환자가 마주치는 상황으로 구성되었습니다. 나머지 두 스테이션은 병리학 및 미생물학 스테이션이었기 때문에 분석에서 제외되었습니다. 
This study was conducted at the LAU-SOM, where a 4-year integrated curriculum is followed after a Bachelor’s degree. The assessment battery includes summative and formative tools, including OSCEs. The OSCE team at LAU comprises one drama teacher who recruits and trains standardized patients (SPs) and two physicians who write cases and develop checklists. Fifty-three first year medical students took part in a summative OSCE evaluating the hematology and endocrinology modules. Ethics approval was granted by the LAU Institutional Review Board. Using two simultaneous tracks and three consecutive testing periods, students were assessed on the same day. Each track included the same stations located in different rooms of the clinical simulation center. Each track comprised seven OSCE stations. Five stations consisted of patient encounters with an examiner and an SP or a manikin present in the room. The other two stations were pathology and microbiology and therefore were excluded from our analysis.

콘텐츠
Content

내용 증거는 평가 대상 구조가 시험에서 정확하고 완벽하게 표현되었는지를 확인하는 것을 의미합니다[9].

  • OSCE 스테이션에는 혈액학 및 내분비학 모듈과 관련된 다양한 임상 술기가 포함되었습니다: 1-발 검사, 2-목 검사, 3-커플 스테이션: 피로가 있는 환자의 병력 청취 및 기록, 4- 지중해빈혈 상담, 5-유방 검사. 각 스테이션은 30분 동안 진행된 3번 스테이션을 제외하고 10분씩 진행되었습니다.
  • 다양한 콘텐츠 전문가들이 파일럿 테스트에 앞서 사례를 작성하고 검토했습니다. 또한 모든 체크리스트는 콘텐츠 전문가들의 자문을 거쳐 평가 결과에 따라 사전에 개발되었습니다.
  • 의사 시험관(PE)은 학생들의 수행을 직접 관찰하고 체크리스트 성적과 글로벌 등급 성적을 모두 제공했습니다. 또한, 병력 청취 및 의사소통 능력을 평가하는 스테이션의 경우 SP가 채점한 체크리스트가 사용되었으며, 체크리스트 성적에 10%의 가중치를 부여하여 성적을 합산했습니다(추가 파일 1).
  • OSCE가 끝나면 완성된 체크리스트의 정확성을 점검했습니다. 

Content evidence refers to ensuring that the construct being assessed is accurately and completely represented on a test [9].

  • The OSCE stations included various clinical skills related to the hematology and endocrinology modules: 1-ft exam, 2-neck exam, 3-couplet station: history taking patient with fatigue and write-up, 4-counseling for thalassemia, and 5-breast exam. Each station was 10 min except station three that lasted 30 min.
  • Different content experts wrote and reviewed the cases that were pilot-tested prior to their implementation. Moreover, All checklists were developed in advance, following consultation with the content experts and in line with outcomes being assessed.
  • The physician examiners (PEs) directly observed students’ performance and provided both grades; the checklist grades and the global rating grades. In addition, for stations assessing history taking and communication skills, a checklist scored by the SP was used and its grade added to the checklist grade with a weight of 10% (Additional file 1).
  • At the end of the OSCE, the completed checklists were checked for their accurateness.

응답 프로세스
Response process

응답 프로세스체크리스트에 의해 수집된 데이터의 정확성과 무결성을 보장하여 편향 가능성을 줄입니다[6]. 최종 점수의 타당성은 평가자가 제공한 성적의 정확성과 직접적으로 관련이 있습니다.

  • 의사 시험관(PE)은 의과대학에서 교육을 받은 교수진으로 구성되었습니다. 이들은 2시간 동안 체크리스트 항목, 채점 과정, 예상되는 학생의 행동에 익숙해지도록 적절한 지침을 제공받았습니다. OSCE 당일에는 채점 시스템에 대한 지침을 강화했습니다.
  • 체크리스트에는 각 스테이션별로 10~35개 항목이 포함되어 있습니다(추가 파일 2). 각 항목은 과제 완료도와 상관관계가 있는 3점 척도를 사용하여 채점되었습니다.
  • 글로벌 평가 점수는 학생의 전반적인 성과와 관련된 5점 척도로 구성되었으며, 체크리스트 항목별 점수가 아닌 스테이션의 글로벌 인상을 기반으로 했습니다. 글로벌 평가 기술서의 하드 카피는 시험관 파일(추가 파일 3)의 각 스테이션에 보관되었습니다.
  • SP는 각 2시간씩 세 차례에 걸쳐 자신의 역할에 대한 적절한 교육을 받았습니다. 이들에게는 각자의 역할, 학생들이 질문할 수 있는 잠재적 질문, 각 질문에 대한 적절한 답변을 포함한 사례 세부 정보가 제공되었습니다.
  • OSCE를 진행하는 동안 전담 직원이 각 학생의 라운드가 끝난 후 체크리스트 항목의 완성도와 글로벌 등급을 모니터링했습니다.

Response process ensures the correctness and the integrity of the data collected by the checklists to reduce any possible bias [6]. The validity of the final scores relates directly to the accuracy of the grades provided by the assessors.

  • Physician examiners (PEs) were trained faculty from the School of Medicine. For this OSCE, they were provided with the appropriate instructions during a 2-h session in order to get familiar with the checklists’ items, the marking process, and the expected students’ behavior. Updating on the OSCE day reinforced the guidelines about the marking system.
  • Checklists included 10–35 items for each station (Additional file 2). Each item was scored using a 3-point scale correlated to the task completion.
  • The global rating score consisted of a 5-point scale associated with the overall performance of the student and based on the PEs’ global impression and not on the items’ scores. A hard copy of the global rating descriptors was kept in each station in the examiner file (Additional file 3).
  • SPs were properly trained for their roles over three sessions, 2 h each. They were provided with the case details including their roles, any potential questions students may ask, and the appropriate answer for each question.
  • During OSCE administration, the completeness of the checklist items and the global rating was monitored by dedicated staff after each round of students.

결과 타당도
Consequences

결과 타당도시험 점수가 수험생에게 미치는 실제 및 잠재적 영향을 탐구합니다. 합격률 또는 커트라인 점수는 결과 타당도의 출처와 밀접한 관련이 있습니다[10]. 합격 점수는 허용 가능한 성능을 입증하고 시험에 합격하는 데 필요한 최소 점수입니다. 합격선은 무작위적인 결정을 통해 설정될 수 있지만, 합격선 설정은 논리적이고 정당한 방식으로 신뢰할 수 있고 수용 가능한 합격 또는 커트라인 점수를 도출하는 프로세스입니다[11].

  • OSCE에서는 BRM을 적용하여 합격 기준을 설정했습니다[12,13,14]. 체크리스트와 글로벌 등급 점수는 각 스테이션에 대해 별도로 보고되었습니다. 글로벌 등급은 표준 설정 계산에만 사용했습니다.
  • 각 스테이션에 대해 체크리스트를 종속변수로, 글로벌 등급을 독립변수로 고려한 선형 회귀 모델을 사용했습니다. 회귀선을 사용하여 글로벌 등급의 커트라인 '2'(경계선)에 해당하는 체크리스트 점수를 계산하여 스테이션별 BR 합격/불합격 기준을 구했습니다.
  • 스테이션 1에 대한 기준 설정 계산 예는 그림 1에 나와 있습니다. 경계선 그룹에 해당하는 글로벌 등급 척도의 2점을 삽입하면 그에 해당하는 예상 체크리스트 점수가 결정될 수 있습니다. 이 예측 점수 72점이 이 스테이션의 합격/불합격 기준이 되었습니다. 총 시험 점수는 스테이션 체크리스트 점수를 평균하여 계산되었습니다.
  • 5개 스테이션에 대한 해당 합격/불합격 기준은 스테이션 커트라인 점수의 평균으로 정의되었으며, 30분간 지속된 커플링 스테이션이므로 4번 스테이션에 가중치 2를 부여한 것을 제외한 모든 스테이션에 가중치 1을 부여했습니다. 경계선 회귀법(방법 2)을 사용한 OSCE의 합격/불합격 결과는 75%의 가중치가 부여된 체크리스트 성적에 25%의 가중치가 부여된 글로벌 등급 성적을 합산하는 현재의 결과 산출 방법(방법 1)과 비교했습니다.

Consequential validity explores the real and latent impact of any test scores on examinees. Passing rates or cut-off scores are closely linked to the sources of consequential validity [10]. The passing score is the minimum score needed to demonstrate acceptable performance and pass the test. While standards may be set using random decisions, standard setting is a process that results in a credible and acceptable passing or cut-off scores in a logical and justifiable manner [11].

  • In our OSCE, the BRM was applied to establish a passing standard [12,13,14]. Checklists and global rating scores were reported separately for each station. We used the global rating solely for the calculation of standard setting.
  • For each station, a linear regression model was utilized, with the consideration of the checklist as dependent variable and the global rating as independent variable. The BR pass/fail standard per station was obtained by using the regression line to calculate the checklist score corresponding with the cut-off point ‘2’ (borderline) of the global rating.
  • An example for the calculation of the standard setting for station one is shown in Fig. 1. By inserting the point 2 of the global rating scale corresponding to the borderline group, a corresponding predicted checklist score could be determined. This predicted score 72 became the pass/fail standard for this station. The total test score was calculated by averaging the station checklist scores.
  • The corresponding pass-fail standard for the five stations was defined as the average of the stations cut-scores, giving all stations a weight of one except station four with a weight of two since this is a couplet station that lasted 30 min. The pass/fail results of the OSCE using the borderline regression method (Method 2) were compared to our current method of computing the results (Method 1) that consists of ading the checklist grades with a weight of 75% to the global rating grades with a weight of 25%.

 

내부 구조
Internal structure

내부 구조 타당도 증거는 문항 간 상관관계, 시험 난이도 및 점수 신뢰도를 포함하는 시험의 심리측정 측정과 관련이 있습니다. 신뢰도는 다음 지표를 사용하여 평가했습니다: 

  • 1- 크론바흐 알파는 내적 일관성을 측정하는 것으로, 효과적인 시험에서는 우수한 학생이 모든 문항에서 비슷한 성적을 보여야 합니다. SP가 사용되는 OSCE에서 허용되는 알파 값은 0.7 이상입니다. 그러나 더 낮은 등급의 시험에서는 이보다 낮은 값의 크론바흐 알파가 허용됩니다.
  • 2- R2 계수총점 점수와 체크리스트 점수 간의 제곱 선형 상관관계입니다. 두 점수는 양의 상관관계가 있을 것으로 예상됩니다. R2 = 0.5는 적절한 것으로 간주되며,
  • 3- 등급 간 변별력은 총체적 평가에서 등급이 한 단계 올라갈 때마다 체크리스트 점수가 평균적으로 증가하는 것을 의미합니다. 적절한 변별력은 체크리스트에 의해 생성될 수 있는 최대 점수의 10분의 1,
  • 4- 불합격자 수는 특정 과목에 대한 교육의 질과 변화의 필요성을 검토하는 데 사용,
  • 5- 집단 간 변동는 수험생의 수행보다는 환경과 평가자의 태도가 점수에 미치는 영향과 관련이 있습니다. 이상적인 평가 과정에서는 모든 차이가 학생의 성과로 인한 것이어야 하므로 그룹 간 편차는 30% 미만이어야 하며,
  • 6- 체크리스트 성적에 [10%의 가중치를 부여한 표준화 환자 등급]은 이러한 데이터를 통합하는 강력한 방법으로 평가의 신뢰도를 향상시키는 것으로 보입니다(Homer et al. 2009). SP 등급이 정상보다 높은 실패율과 결합된 경우, 이는 해당 주제에 대한 부적절한 교육의 결과일 수 있습니다.

The internal structure validity evidence correlates to the psychometric measures of the test encompassing inter-item correlations, exam difficulty and score reliability. Reliability was evaluated using the following metrics:

  • 1- Cronbach’s alpha measures the internal consistency whereby in an effective test, better students should perform similarly well in all stations. Acceptable alpha value in OSCEs where SPs are used is 0.7 or above. However, in lower stakes exam, a Cronbach’s alpha of a lesser value is acceptable;
  • 2- R2 coefficient is the squared linear correlation between the holistic rating score and the checklist score. It is expected that the two scores be positively correlated. An R2 = 0.5 is considered reasonable;
  • 3- inter-grade discrimination is the average increase in scores of the checklist for each grade increase on the holistic rating. An adequate discrimination index should be the tenth of the maximum score that could be generated by the checklist;
  • 4- number of failures is used to review the quality of teaching and the need for change on a particular subject;
  • 5- between group variation relates to the effect of the environment and assessor attitude on the scores rather than the performance of examinees. To note that in an ideal assessment process, all differences should be only due to student performance therefore between group variation should be under 30%,
  • 6- standardized patient rating that is added to the checklist grade with a weight of 10% appears to be a robust way of incorporating such data, leading to the improved reliability of the assessment (Homer et al. 2009). If the SP rating is coupled with a higher than normal failure rate, this could be the result of inadequate teaching of the topic.

통계 분석
Statistical analysis

데이터는 Microsoft Excel, 2010을 사용하여 분석되었습니다. 연구 집단의 특성은 서술적 통계를 사용하여 평가했습니다. 데이터는 범주형 변수의 경우 숫자와 백분율로, 연속형 변수의 경우 평균 ± SD로 표현했습니다. 두 그룹 간의 평균을 비교하기 위해 독립적인 t 검정을 사용했습니다. p < 0.05의 값은 유의미한 것으로 간주했습니다. 리스케일링은 두 방법의 합격 점수가 동일(60%)하고 보고에 대한 학교 정책을 준수하기 위해 사용되었습니다. 
Data were analyzed using Microsoft Excel, 2010. Characteristics of the study population were evaluated using descriptive statistics. Data were expressed as numbers and percentages for categorical variables and as means ± SD for continuous variables. Independent t tests were used for comparing means between the two groups. A value of p < 0.05 was considered significant. Rescaling was used to have the same passing score for both methods (60%) and to comply with the school policy for reporting.

결과
Results

남학생 27명, 여학생 26명, 총 53명의 학생이 이번 OSCE에 참여했습니다.
Fifty-three students, 27 males and 26 females participated in this OSCE.

시험 내용
Content

OSCE 블루프린트는 혈액학-내분비학 모듈의 주요 목표 중 5가지로 구성되었습니다(추가 파일 4). 채점 도구에는 전문가가 개발한 스테이션별 분석 채점 또는 체크리스트, 전공의가 작성한 총점 또는 5점 만점 글로벌 평가 척도, SP가 작성한 커뮤니케이션 기술 체크리스트가 포함되었습니다.
The OSCE blueprint represented five of the major objectives of the hematology-endocrinology module (Additional file 4). The scoring instruments included a station-specific analytical scoring or checklist developed by experts, a holistic score or five-point global rating scale, both filled by the PEs and a communication skills checklist filled by the SP.

대응 프로세스
Response process

저희의 PE와 SP는 다양한 체크리스트 사용에 대한 교육 세션을 받았습니다. OSCE 이후 진행된 디브리핑 세션에서 모두 체크리스트 사용에 익숙해졌다고 답했습니다.
Our PEs and SPs underwent training sessions about the use of the different checklists. During the debriefing session following the OSCE, all reported being comfortable with its use.

결과
Consequences

5개 스테이션의 커트라인 점수는 (72 × 1) + (60 × 1) + (53 × 1) + (70 × 2) + (67 × 1) = 65.16%였습니다. 이 컷 점수를 사용하면 합격률은 100%입니다. 

  • 표 1은 스테이션의 길이, 평균 및 표준편차, 최소 및 최대 등급, 커트라인 점수, 합격률 및 불합격자 수를 보여줍니다. 
  • 표 2는 BRM(방법 2)과 실제 결과 산출 방법(방법 1)을 비교한 결과를 나타냅니다. 

BRM 방식이 학생들의 평균 성적(75.63점 대 79.23점)은 낮고 커트라인 점수(65.16점 대 60점)는 높았지만, 모든 스테이션 간 점수에서 통계적으로 유의미한 차이는 발견되지 않았습니다. 그러나 학교 정책에 따라 커트라인 점수인 60점으로 점수를 재조정했을 때, 전체 성적과 스테이션 2를 제외한 모든 스테이션에서 두 방법 간의 점수에서 통계적으로 유의미한 차이가 나타났습니다. 전체 시험에 대한 보상형 표준을 제공하기 위해 모든 사례에 대한 점수를 합산하기 때문에 두 가지 방법 모두 합격률은 100%였습니다.
The cut score for the 5 stations was: (72 × 1) + (60 × 1) + (53 × 1) + (70 × 2) + (67 × 1) = 65.16%. Using this cut score, the passing rate was 100%.

  • Table 1 shows stations’ length, means and standard deviation, minimum and maximum grades, cut score as well as the percentage of pass rate and number of failures.
  • Table 2 represents the compared results of the BRM (Method 2) to our actual method of computing the results (Method 1).

Although the BRM method showed a lower students’ average grades (75.63 vs 79.23) and a higher cut score (65.16 vs 60), no statistical significance in scores between all stations was noted. However, when scores were rescaled to the cut score of 60%, as per our School policy, a statistical difference in the scores between the two methods for the overall grade and for all stations except for station 2 was noted. The passing rate was 100% for both methods because scores are aggregated across cases to provide a compensatory-type standard for the whole test.

 

내부 구조
Internal structure

스테이션 전체에서 OSCE의 크론바흐 알파는 0.43이었습니다. 다양한 지표를 분석한 결과, 스테이션 4의 R2 값은 0.160, 스테이션 3의 등급 간 판별 지수는 13.55, 실패 횟수는 스테이션 3에서 7회(13.2%), 스테이션 4에서 10회(18.86%)로 나타났습니다. 그룹 간 편차는 30% 미만이었고 불합격 건수는 5건(9.43%)이었습니다. 각 스테이션의 메트릭은 표 3에 나와 있습니다.
Across stations, Cronbach’s alpha in our OSCE was 0.43. The analysis of the different metrics showed an R2 value of 0.160 in station four, an inter-grade discrimination index of 13.55 in station three, the number of failures of 7 in station three (13.2%) and 10 in station four (18.86%). Between group variation was less than 30% and the number of failures was five (9.43%). The metrics of the different stations are shown in Table 3.

토론
Discussion

OSCE의 품질을 확립하려면 점수의 타당성을 검증할 수 있는 증거가 필요합니다. 또한 점수 기반 추론의 타당성을 위협할 수 있는 요인도 해결해야 합니다.
To establish the quality of an OSCE, evidence is needed to verify the validity of the scores. Moreover, one must also address possible threats to the validity of score-based inferences.

타당도의 결과적 근거는 시험 성적 분석 및 사용을 의미합니다. 시험의 사용은 사회적 결과와 교육생, 교사 및 전체 교육과정에 미치는 영향을 고려해야 하는 반면, 시험 결과의 해석은 수행될 수 있는 유리한 결정과 불리한 결정 사이의 관계를 고려해야 합니다[4]. 표준 설정을 사용하여 방어 가능한 합격 점수를 선택하는 것은 교육자들에게 지속적인 도전 과제이지만 결과적 타당성의 근거를 보장하기 위한 핵심 문제입니다[15,16,17]. 오늘날 많은 교육 기관에서는 몇 가지 장점이 있는 경계선 방식을 선호합니다[18].

  • 첫째, 체크리스트 점수가 아닌 수련의의 전반적인 수행 능력에 따라 달라지며, 시험 중에 전체 등급이 채점되기 때문에 임상의의 시간을 절약할 수 있습니다.
  • 또한, 글로벌 등급은 불합격, 경계선, 합격의 세 가지 점수만 필요하고 경계선 학생들의 평균 분석 점수가 시험의 합격 점수가 되므로 간단한 통계적 절차만 거치면 됩니다.

The consequential basis of validity implicates test grade analysis and use. Whereas the use of tests should consider the social consequences and their impact on trainees, teachers, and the whole curriculum, the interpretation of the tests’ results should consider the relationships between the favorable and unfavorable decisions that could be undertaken [4]. Choosing a defensible passing score by employing standard settings represents a persistent challenge to educators yet it is a key issue for ensuring the consequential basis of validity [15,16,17]. Nowadays, many institutions favor the borderline method that has several benefits [18].

  • First, it depends on the overall performance of trainees rather than the checklist markings and saves the clinicians’ time since the global rating is scored during the exam.
  • Also, only three marks are required for global ratings (fail, borderline, pass) and the mean analytic scores of borderline students is the passing score of the exam, therefore it requires a simple statistical procedure.

그러나 우리와 같이 수험생 수가 한정된 소규모 OSCE의 경우, 경계선 범위에 있는 수험생이 소수에 불과할 경우 의도하지 않은 편향이 발생할 수 있습니다. Pell 등은 2005년에 Wood가 처음 설명한 BRM을 사용할 것을 권고했습니다[12, 19]. BRM은 소규모 OSCE에 이상적입니다. 이 방법은 선형 회귀 접근법을 통합하여 일부 하위 집합이 아닌 모든 수험자의 점수를 사용하여 커트라인 점수를 설정할 수 있도록 함으로써 글로벌 성적과 체크리스트 점수 간의 관계를 나타냅니다[14]. 이 방법을 사용하려면 5개의 글로벌 등급(예: 불합격, 경계선, 합격, 매우 우수 합격, 구별)을 사용해야 하며 계산에 더 많은 전문 지식이 필요합니다. 그러나 더 다양한 품질 보증 메트릭에 액세스할 수 있습니다[13]. 저희 OSCE에서는 표준 설정 도입으로 학생들의 평균 성적은 낮아지고 커트라인 점수는 높아졌습니다. 

However, for the small-scale OSCE such as ours having a limited number of examinees, the presence of an only few examinees in the borderline range could introduce an unintentional bias. Pell et al. advised the use of the BRM that was initially described by Wood in 2005 [12, 19]. BRM is ideal in a small scale OSCE. It gives an indication of the relationship between global grade and checklist score by incorporating a linear regression approach allowing the cut score to be set using the scores from all examinees and not from a subset [14]. This method requires the use of five global ratings (e.g. fail, borderline, pass, very good pass, distinction) and more expertise for computation. However, it gives access to a wider variety of quality assurance metrics [13]. In our OSCE, the introduction of standard setting resulted in lower students’ average grades and a higher cut score.

내부 구조 타당도 증거는 OSCE의 다양한 심리측정 특성을 분석하는 것입니다[20]. 신뢰도 검사 점수는 일반화 가능성, 평가자 간 신뢰도, 평가자 일관성과 같은 다양한 지표를 사용하여 평가할 수 있으며, 일관성을 평가하는 맥락에 따라 계수 알파 또는 크론바흐 알파로 평가할 수 있습니다[21]. 

  • 전체 스테이션에서 크론바흐 알파는 0.43으로 낮은 것으로 나타났습니다. 이는 스테이션 수가 적기 때문으로 설명할 수 있습니다. 스테이션 수를 늘리면 신뢰도가 높아질 수 있습니다[7, 22]. 이는 각 설정의 타당성과 균형을 맞춰야 합니다. 
  • R2 값이 낮았던 스테이션 4와 같이 특정 스테이션에서 체크리스트와 전체 등급이 불일치하는 경우, 이는 일부 학생이 '과정'에 대한 분석 체크리스트에서 많은 점수를 획득했지만 전반적인 성과가 시험관에게 깊은 인상을 주지 못했음을 나타내며 체크리스트가 능력에 대한 잘못된 지표가 될 수 있음을 시사합니다. 따라서 학생 수준과 기준을 일치시키는 데 초점을 맞춰 재설계하고, 평가자 체크리스트에 중간 등급 설명자를 포함시키고, 체크리스트 기준에 적절한 경우 앵커가 2개가 아닌 3개가 되도록 하여 평가자가 변별력을 높일 수 있도록 해야 합니다. 
  • 특정 시험장에서 높은 불합격률이 발생하면 커리큘럼의 특정 부분에 대한 교육을 재검토해야 합니다. OSCE에서는 스테이션 3과 4의 높은 불합격률로 인해 지중해빈혈 환자 상담과 피로 및 어지럼증에 대한 병력 청취에 대한 교육 문제가 부각되었습니다.

The internal structure validity evidence involves the analysis of the different psychometric properties of the OSCE [20]. The reliability test scores can be evaluated using various indicators such as Generalizability, inter-rater reliability, rater consistency, and by the Coefficient alpha or Cronbach’s alpha, depending on the context of consistency evaluated [21].

  • Across stations, Cronbach’s alpha in our OSCE was 0.43 and is considered low. This could be explained by the low number of stations. Increasing the number of stations would result in greater reliability [7, 22]. This will have to be balanced against the feasibility in each setting.
  • When a mismatch between the checklist and the global rating in a specific station is revealed, such in station four where the R2 value was low, this indicates that some students have acquired many of the marks from the analytic checklist for ‘process’, but their overall performance did not impress in parallel the examiner, suggesting that the checklists can be a poor marker of ability. Consequently, a redesign of the station should be made while focusing on matching criteria with the student level, inclusion of intermediate grade descriptors on the assessor checklists and ensuring that checklist criteria have three instead of two anchors where appropriate, thereby allowing greater discrimination by examiners.
  • The presence of high failure rates at particular stations should lead to revisiting the teaching of a specific parts of the curriculum. In our OSCE, the high number of failures in station three and four highlighted teaching problems about counseling patients with thalassemia and conducting a history taking about fatigue and dizziness.

평가의 타당성에 대한 위협을 피하기 위해 OSCE의 계획 단계부터 신중하게 고려해야 합니다. 타당도에 대한 두 가지 주요 위협은 구인 과소 대표성(CU)과 구성과 무관 분산(CIV)입니다[23]. 

  • CU는 불충분한 수의 사례 사용으로 인해 콘텐츠 영역의 샘플링이 부족한 경우와 블루프린트가 시험 스테이션을 교육과정 내용 및 목표에 매핑하지 않을 때 샘플링이 부적절한 경우를 말합니다. OSCE의 청사진에는 콘텐츠 하위 영역, 평가 대상 역량 및 환자 특성이 포함되어 있었습니다.
  • CIV는 측정 대상과 무관한 변수에 의해 평가 데이터에 도입된 체계적 오류입니다. CIV의 예로는 결함이 있는 사례/체크리스트/평가 척도, 사례의 부적절한 난이도, 제대로 훈련되지 않은 표준화 환자 또는 평가자 오류 등이 있습니다. CIV의 주요 위협은 체계적인 평가자 오류로 인한 것입니다. 실제로 평가자는 평가자 심각도 또는 관용 오류, 중심 경향 오류, 후광 평가자 효과와 같은 측정 오류의 주요 원인입니다. 따라서 평가자의 평가 능력을 균일화하기 위해서는 평가자 간 합의도를 높이기 위한 교육 방법을 개선하는 것이 필수적입니다. 또한, 평가에 앞서 평가자 및 SP를 대상으로 상세한 지원 자료 제공 및 브리핑을 체계적으로 실시해야 합니다. 

Threats to the validity of any assessment should be well-thought-out since the planning phase of an OSCE in order to avoid them. Two major threats to the validity are construct underrepresentation (CU) and construct-irrelevant variance (CIV) [23].

  • CU refers to the under sampling of the content domain by the use of insufficient number of cases, and to the inadequate sampling when the blueprint does not map the exam stations to the curriculum content and objectives. The blueprint of our OSCE included the content subdomains, the competencies to be assessed and patients’ characteristics.
  • CIV is a systematic error introduced into the assessment data by variables unrelated to the construct being measured. CIV examples include flawed cases/checklists/rating scales, inappropriate difficulty level of the case, poorly trained standardized patients, or rater errors. The major CIV threat is due to systematic rater error. In fact, raters are a major source of measurement error, such as rater severity or leniency errors, central tendency error and halo rater effect. Therefore, upgrading training methods to improve between examiners’ agreement is essential in order to homogenize raters’ assessing skills. In addition, the provision of a detailed support material and briefings the examiners’ and SPs prior to the assessment should be systematically implemented. 

이번 OSCE에서는 콘텐츠 전문가들이 세심하게 문항을 구성한 체크리스트를 만들었고, 심사관들은 숙련된 교수진으로 구성되었습니다. 또한 적절한 체크리스트/평가 척도를 사용하는 것이 중요합니다[24]. 현재 증거에 따르면 숙련된 의사가 총체적 채점 또는 글로벌 평가 척도를 사용하면 체크리스트에 비해 검사소 간 신뢰도, 구성 타당도, 동시 타당도가 더 높은 것으로 나타났습니다[25]. 글로벌 평가 척도는 판단력, 공감, 지식의 조직화, 테크니컬 스킬과 같은 영역을 평가할 때 한 가지 측면만 특별히 보는 평가 척도에 비해 검사자가 전체 과정을 평가할 수 있게 해줍니다[26, 27]. 표준 설정을 위해 BRM을 사용하는 OSCE의 경우 두 가지 유형의 체크리스트 사용은 필수입니다.

In this OSCE, content experts designed the checklists with carefully worded items and our examiners were trained faculty. Furthermore, the use of appropriate checklists/rating scales is critical [24]. Current evidence suggests that the use of holistic scoring or global rating scales by an experienced physician shows greater inter-station reliability, better construct validity, and better concurrent validity compared to checklists [25]. Global rating scales allow the examiner to rate the whole process compared to rating scales looking at one aspect alone specially when assessing areas such as judgment, empathy, organization of knowledge and technical skills [26, 27]. For OSCEs which use the BRM for establishing a standard setting, the use of the two types of checklists is mandatory.

평가를 사용하는 사람들이 결과를 신뢰할 수 있어야 하기 때문에 교육 평가에 대한 엄격한 검증은 매우 중요합니다[28]. 많은 학교에서 OSCE 시험에 미리 정해진 커트라인 점수를 사용합니다. 그러나 객관적인 방식으로 학생의 성취도에 대한 방어 가능한 기준을 설정하는 것은 특히 OSCE가 총점제인 경우 매우 중요합니다[29]. 본 연구에서는 표준 설정 방법을 도입하여 학교 정책에 따라 미리 설정된 커트라인 점수와 비교했습니다. 또한 개별 스테이션 수준과 전체 임상 평가에서 여러 심리 측정 측정을 사용하여 내부 구조 타당성 증거를 분석하여 OSCE 점수의 품질에 대한 강점과 약점을 식별할 수 있었습니다.
Rigorous validation of educational assessments is critically important because those using an assessment must be able to trust the results [28]. Many schools use a predetermined cut scores for OSCE exams. However, setting defensible standards for student performance in an objective manner is critical, in particular when the OSCE is summative [29]. In this study, we have introduced a standard setting method and compared it to the preset cut score as per our school policy. We also analyzed the internal structure validity evidence by the use of multiple psychometric measures both at the individual station level and across the complete clinical assessment which allowed us to identify strengths and weaknesses of the quality of our OSCE scores.

본 연구의 한계는 학생의 표본 크기와 OSCE 스테이션의 수입니다. 또 다른 한계는 연구 결과의 일반화 가능성입니다. 저희는 학교의 한 학습자 그룹을 대상으로 시행한 OSCE의 특정 인스턴스화의 유효성을 뒷받침하는 증거를 제공했습니다. 당연히 표본 규모가 더 크고 학교 대표성이 더 넓어지면 연구 결과에 다양한 영향을 미칠 수 있으며 추가 조사가 필요합니다. 그러나 본 연구는 점수 추론의 타당성이 다양한 품질 보증 및 표준 설정 기법의 적절한 적용에 크게 좌우되는 OSCE의 총체적 적용을 기반으로 한 몇 안 되는 연구 중 하나입니다.
A limitation to our study is the sample size of students as well as the number of OSCE stations. Another limitation is the generalizability of our results. We provided the evidence supporting the validity of a particular instantiation of an OSCE administered for one group of learners at our school. Understandably, larger sample sizes and wider school representation may have a varied impact on our results and warrants further investigation. However, our study is one of the few that was based on a summative application of an OSCE where the validity of the score inferences is largely dependent on the proper application of various quality assurance and standard setting techniques.

결론
Conclusion

OSCE는 복잡한 과정 내에서 기준 기반 평가 원칙을 사용하며 많은 학교의 평가 시스템에서 필수적인 부분을 구성합니다. OSCE 결과에 대한 심리측정 분석을 일상적으로 수행하면 시험에 대한 전반적인 관점을 확보하고 일반적인 함정을 식별하고 피할 수 있습니다.
OSCEs use criterion-based assessment principles within a complex process and constitute an integral part of the assessment system at many schools. The routine performance of a psychometric analysis on the OSCE results helps gaining an all-round view of the exam and prompts the identification and avoidance of common pitfalls.

여러 지표를 통해 결과적 및 내부 구조적 타당성 증거를 수집하는 것은 특히 요약 목적으로 사용될 때 OSCE의 품질에 대한 지지 또는 반대를 제공합니다. 이러한 분석은 주어진 테스트의 로컬 반복에 대해 정기적으로 수행되어야 하며, 그 결과는 평가의 품질을 향상시키는 데 사용됩니다.
Gathering consequential and internal structure validity evidence by multiple metrics provides support for or against the quality of an OSCE, in particular when used for a summative purpose. It is critical that this analysis be performed routinely on local iterations of given tests, and the results used to enhance the quality of assessment.

 


BMC Med Educ. 2018 Dec 20;18(1):313. doi: 10.1186/s12909-018-1421-x.

Evaluating the validity evidence of an OSCE: results from a new medical school

Affiliations collapse

Affiliations

1Lebanese American University-School of Medicine, P.O. Box: 113288, Zahar Street, Beirut, Lebanon. vanda.abiraad@lau.edu.lb.

2Department of Medical Education, University of Illinois, Chicago, USA.

3Lebanese American University-School of Medicine, P.O. Box: 113288, Zahar Street, Beirut, Lebanon.

PMID: 30572876

PMCID: PMC6302424

DOI: 10.1186/s12909-018-1421-x

Free PMC article

Abstract

Background: To prevent the problems of traditional clinical evaluation, the "Objective Structured Clinical Examination (OSCE)" was presented by Harden as a more valid and reliable assessment instrument. However, an essential condition to guarantee a high-quality and effective OSCE is the assurance of evidence to support the validity of its scores. This study examines the psychometric properties of OSCE scores, with an emphasis on consequential and internal structure validity evidence.

Methods: Fifty-three first year medical students took part in a summative OSCE at the Lebanese American University-School of Medicine. Evidence to support consequential validity was gathered by using criterion-based standard setting methods. Internal structure validity evidence was gathered by examining various psychometric measures both at the station level and across the complete OSCE.

Results: Compared to our actual method of computing results, the introduction of standard setting resulted in lower students' average grades and a higher cut score. Across stations, Cronbach's alpha was moderately low.

Conclusion: Gathering consequential and internal structure validity evidence by multiple metrics provides support for or against the quality of an OSCE. It is critical that this analysis be performed routinely on local iterations of given tests, and the results used to enhance the quality of assessment.

Keywords: Objective structured clinical examination; Quality assurance; Validity evidence.

 

OSCE에서 합격선 설정: 경계선 접근법(Clin Teach. 2014)
Standard setting in OSCEs: a borderline approach
Kingston Rajiah , Sajesh Kalkandi Veettil and Suresh Kumar , Department of Pharmacy Practice , International Medical University , Kuala Lumpur , Malaysia 

 

 

소개
Introduction

임상 술기 및 역량 평가는 응시자에게 중대한 결과를 초래하는 중요한 과정입니다.1 따라서 타당하고 신뢰할 수 있는 객관적 구조화 임상시험(OSCE)을 유지하기 위해서는 합격 점수를 정당화할 수 있는 강력한 방법이 필수적입니다.2 그러나 합격 점수가 부적절하게 설정되면 이러한 성취는 거의 의미가 없습니다.3
The evaluation of clinical skills and competencies is a high-stakes process carrying significant consequences for the candidate.1 Hence, it is mandatory to have a robust method to justify the pass score in order to maintain a valid and reliable objective structured clinical examination (OSCE).2 These attainments are of little significance if the passing score is set inadequately, however.3

임상 시험에서 표준을 설정하는 방법은 여전히 어려운 과제입니다.1 표준 설정에는 여러 가지 방법이 있으며, 각 방법에는 장점과 단점이 있으며, 각 방법마다 합격 점수가 다릅니다.4 표준 설정 방법은 시험 항목 또는 응시자의 성과에 따라 설정되는 상대적 또는 절대적 방법(경계선 방법)이 있습니다.5 표준 설정의 두 가지 광범위한 접근 방식 중 임상 역량 테스트에는 절대적 방법이 선호되었습니다.6, 7 
The methods for setting standards in clinical examinations remain challenging.1 There are different methods for standard setting, each with benefits as well as drawbacks; each method gives a dissimilar pass mark.4 Standard-setting methods can be relative or absolute, established on either the test item or on the performance of the candidate (borderline methods).5 Of the two broad approaches in standard setting, the absolute method has been preferred for testing clinical competencies.6, 7

표준 설정에는 여러 가지 방법이 있으며, 각 방법에는 장점과 단점이 있습니다.
There are different methods for standard setting, each with benefits as well as drawbacks


현재 많은 기관에서 경계선 및 회귀 접근법을 선호하는데, 이는 글로벌 등급과 체크리스트 점수 간의 관계 및 학생 간의 변별 수준을 관찰할 수 있는 이점을 제공합니다.5 이 접근법은 시험관이 각 스테이션에서 경계선에 있는 학생을 식별하는 데 도움이 되며 경계선 점수의 평균을 반영하여 각 스테이션의 합격 점수로 설정할 수 있습니다.4, 8 OSCE의 합격 점수는 각 스테이션의 합격 점수에 1 표준 오차를 더한 값입니다.8 이 방법은 다른 기존 방식과 비교할 때 평가자의 시간을 절약할 수 있는 방법입니다. 따라서 OSCE의 표준 설정을 위해 두 가지 영역의 글로벌 평가 척도를 사용하여 경계선 접근법을 시험해 보는 것이 목표였습니다.  
Presently, many institutions favour borderline and regression approaches, which can offer the advantage of observing the relationship between global rating and checklist scores, and also the level of discrimination between the students.5 This approach helps examiners to identify the borderline students at each station and also reflects the mean of the borderline marks, which can be set as the pass mark for each station.4, 8 The pass mark for the OSCE is the sum of the pass marks for each station plus one standard error of measurement.8 Compared with the other established approaches, this method is a time saver for the assessors. Hence, the aim was to trial the borderline approach using a two-domain global rating scale for standard setting in the OSCE.

우리의 일반적인 목표는 작업 기반 체크리스트 점수와 글로벌 등급 간의 상관관계를 분석하는 것이었습니다. 
Our general objective was to analyse the correlation between the task-based checklist score and the global rating.

구체적인 목표는 경계선 방식에 따라 각 OSCE 스테이션에서 최소 합격 점수를 결정하는 것이었습니다. 
Our specific objective was to determine the minimum pass mark in each OSCE station according to the borderline method.

연구 방법
Methods

이 연구는 약학 학부 2학년 학생들을 대상으로 횡단면 연구를 수행했습니다. 2013년 학기 말에 실시된 OSCE가 본 연구의 연구 대상이었습니다. Raosoft 표본 크기 계산기를 사용하여 표본 크기 계산을 수행했습니다. 필요한 최소 표본 크기는 116명이었으며 오차 범위는 5%, 신뢰 수준은 95%였습니다. 표본을 수집하기 위해 편의 표본 추출 기법을 사용했습니다. 약대생 164명의 결과가 분석에 사용되었는데, 이는 계산된 필수 표본 크기보다 많았습니다. 
This was a cross-sectional study carried out with second-year undergraduate pharmacy students. The OSCE conducted at the end of the semester in 2013 was the research subject of this study. A sample size calculation was performed using the Raosoft sample size calculator. The minimum required sample size was 116 with a 5 per cent margin of error and 95 per cent confidence level. A convenience sampling technique was used to collect the sample. The results for 164 pharmacy students were used in the analysis, which was more than the required calculated sample size.

2학년 OSCE는 총 14개의 스테이션이 직렬로 연결된 회로로 구성되었습니다. 각 스테이션에 할당된 시간은 5분이었습니다. 스테이션은 활동, 준비, 휴식으로 분류되었습니다(표 1). 학생들은 스테이션의 회로를 돌며 각 활성 스테이션에서 과제를 수행했습니다.9 학생들이 활성 스테이션에 들어가기 전에 과제를 준비할 수 있도록 준비 스테이션이 포함되었습니다. 시험이 진행되는 15분마다 학생들을 위한 휴식 스테이션이 포함되었습니다. 시험관은 표준화된 과제 기반 체크리스트를 사용하여 각 활성 스테이션에서 표준화된 모의 환자에 대한 학생의 수행을 관찰하고 평가한 후 두 가지 영역의 글로벌 등급 척도를 사용하여 평가했습니다. 
The second-year OSCE had a circuit of 14 stations in total, which were connected in a series. The time allotted for each station was 5 minutes. The stations were categorised as active, preparatory and rest (Table 1). Students rotate around the circuit of stations, and perform the tasks at each active station.9 A preparatory station was included for the students to prepare for the task before entering into the active station. A rest station for the students was incorporated after every 15 minutes in the exam. The student's performance with a standardised simulated patient in each active station was observed and evaluated by an examiner using a standardised task-based checklist, followed by a two-domain global rating scale.

OSCE에 사용된 모든 시나리오는 새로운 스크립트였기 때문에 학생들이 이전에 접해본 적이 없었습니다. 체크리스트와 글로벌 평가 척도는 모두 시험관들 사이에서 검증되고 표준화된 후 OSCE에서 사용되었습니다. 다양한 분야의 표준화된 임상 교수진이 시험관으로 참여했습니다. 
All the scenarios used in the OSCE were new scripts, and therefore had not been encountered by the students previously. Both checklists and the global rating scales were validated and standardised among examiners before using them in the OSCE. Standardised clinical faculty members from a variety of disciplines served as examiners.


각 스테이션의 임상 시나리오와 과제 기반 체크리스트는 약학 실습 교수진이 모듈의 학습 결과와 학생의 학습 수준에 따라 구성했습니다. 시험 콘텐츠는 기본적인 '블루프린팅'를 통해 학습 목표에 맞게 계획되었습니다. 모듈 결과와 과제 기반 체크리스트를 기반으로 핵심 역량을 파악하여 체크리스트의 전반적인 기준을 나타내는 두 가지 영역글로벌 평가 척도로 개발했습니다. 각 영역에 대해 6점 척도 세트를 사용하여 높고 낮은 부분을 반영했습니다(5점, 우수 합격, 4점, 만족 합격, 3점, 합격' 2점, 경계 합격, 1점, 불합격, 0점, 명백한 불합격). 두 개별 영역의 점수를 합산하여 '합산된 글로벌 등급'을 만들었습니다. 개별 스테이션에 대한 작업 기반 체크리스트 점수는 14점 만점으로 채점되었습니다. 활성 스테이션이 5개였으므로 작업 기반 체크리스트의 총 점수는 70점이었습니다. 따라서 35점(70점의 50% 임의로)을 합격 점수로 유지했습니다(상자 1). SPSS 18을 사용하여 과제 기반 체크리스트 점수와 두 영역의 글로벌 평가 척도 간의 상관관계를 Pearson의 상관관계 테스트를 통해 분석했습니다. 유의 수준은 p <0.05로 설정했습니다. 각 스테이션의 체크리스트 점수와 글로벌 등급 간의 (선형) 상관관계를 결정하기 위해 R2 계수를 사용했으며, 일반적으로 전체 글로벌 등급이 높을수록 체크리스트 점수도 높을 것으로 예상했습니다. 이 R2 값으로부터 OSCE의 최소 합격 점수가 결정되었습니다. 경계선 등급은 시험관이 스테이션을 통과하기에는 성적이 부족하다고 생각하지만 명백하게 불합격하지는 않은 학생을 나타냅니다. 그런 다음 학생들의 체크리스트 점수와 글로벌 등급이 집계되었습니다. 그런 다음 시험관이 부여한 해당 글로벌 성적에 대해 스테이션 체크리스트 점수 집합을 회귀시켜 스테이션의 각 개별 합격 점수를 계산했습니다. 이 과정을 통해 합격 또는 불합격 점수가 도출되었습니다. 연구의 전체 절차는 그림 1에 흐름도로 나와 있습니다. 

Clinical scenarios and task-based checklists for each station were formulated by pharmacy practice faculty members, based on the learning outcomes of the module and the students’ level of learning. The test content was planned against the learning objectives through basic ‘blueprinting’. Based on the module outcomes and the task-based checklists, key competencies were identified and developed into a two-domain global rating scale, which generally represented the overall criteria in the checklists. For each domain a set of six-point scales were used to reflect high and low divisions (5, excellent pass; 4, satisfactory pass; 3, pass’ 2, borderline pass; 1, fail; 0, clear fail). Scores on the two individual domains were summed to create a ‘summed global rating’. Task-based checklist scores for individual stations were scored out of 14 marks. There were five active stations, and hence the total score of the task-based checklists was 70 marks. Therefore, a pass mark of 35 (arbitrarily 50% of 70) was kept as pass mark (Box 1). spss 18 was used to analyse the correlation between the task-based checklist scoring and the two-domain global rating scale by Pearson's correlation test. The level of significance was set at p < 0.05. The R2 coefficient was used to determine the degree of (linear) correlation between the checklist score and the global rating at each station, with the expectation that higher overall global ratings should generally correspond with higher checklist scores. From these R2 values the minimum pass mark for the OSCE was determined. The borderline grade represented students whose performances the examiner thought insufficient to pass the station, but equally who did not clearly fail. Following this, the students’ checklist scores and global ratings were gathered. Each individual pass mark for the station was then calculated by regressing the set of station checklist scores on the corresponding global grades given by the examiners. This process then derived the pass or fail score. The entire procedure of the study is given as a flow chart in Figure 1

 

 

다양한 분야의 교수진이 시험관으로 참여했습니다.
Faculty members from a variety of disciplines served as examiners

시험 결과
Results

총 164명의 응시자가 참여했으며, 이 중 126명이 여성, 38명이 남성이었습니다. 전체 글로벌 평가 점수의 신뢰도 계수(크론바흐 알파)는 모든 현역 스테이션에서 0.722~0.741로 체크리스트 점수(현역 스테이션의 항목별 0.601~0.686)보다 높은 값을 보였습니다. 과제 기반 체크리스트 점수와 두 가지 영역의 글로벌 평가 척도 간의 피어슨 상관관계는 중간 정도이며 유의미했습니다. 스테이션 7의 R2 계수가 0.479로 가장 높았고 스테이션 14의 계수가 0.241로 가장 낮았습니다(표 2). 총 14개 중 각각 5개의 활성 스테이션이 있었으므로 모든 활성 스테이션의 총 체크리스트 점수는 70점, 평균 점수는 52.5점이었습니다(표 3). 마찬가지로 전체 글로벌 등급의 평균 점수는 50점 만점에 29.7점이었습니다. 
There were 164 participating candidates, of which 126 were women and 38 were men. The reliability coefficient (Cronbach's alpha) for overall global rating scores showed a value ranging from 0.722 to 0.741 across all active stations, which was higher than the checklist scoring (0.601–0.686 across items for active stations). The Pearson's correlation between the task-based checklist scoring and the two-domain global rating scale were moderate and significant. A highest R2 coefficient of 0.479 was obtained for station 7, and the lowest value of 0.241 was obtained for station 14 (Table 2). There were total of five active stations, each marked out of 14, so the total possible checklist score for all active stations was 70, with the mean score of 52.5 (Table 3). Similarly, the mean score for the total global grade was 29.7 out of 50.

 

그림 2-6은 시험장 합격 점수에 대한 경계선 방법 계산을 개략적으로 보여 주며, 시험관의 체크리스트 점수를 시험관의 글로벌 등급 점수에 회귀시키는 선형 회귀 기법을 사용하여 각 활성 시험장의 합격 점수를 계산한 방법을 나타냅니다. 합격 점수는 경계선 평균에 1 표준 오차(0.67)를 더한 값의 합계였습니다: 44.9점 또는 64퍼센트. 
Figures 2-6 present the borderline method calculation for the station pass mark in schematic terms, indicating how the linear regression technique of the examiners’ checklist scores regressed on the examiners’ global rating scores was used to calculate the pass mark at each active station. The pass mark was the sum of the borderline means plus one standard error of measurement (0.67): 44.9 or 64 per cent.

두 척도 사이에는 유의미한 양의 상관관계가 있었습니다.
There was a significant positive correlation between the two scales

 

토론
Discussion

두 척도 간에는 유의미한 양의 상관관계가 있었지만, 7번 문항을 제외하고는 R2 값이 만족스럽지 않았습니다. 경계선 방식에 따른 OSCE의 합격 점수는 64%로 임의로 설정한 점수인 50%보다 높았습니다. 
There was a significant positive correlation between the two scales; however, the R2 value was not satisfactory, except for station 7. The pass mark for the OSCE according to the borderline method was 64 per cent, which is higher than the arbitrarily set mark of 50 per cent.

각 활성 스테이션의 합격 점수 차이는 작았지만, 14번 스테이션은 약물 상담 스테이션으로 합격 점수가 6.99/14에 불과하여 다른 활성 스테이션보다 낮았습니다(그림 2-6). 이는 종속 변수(체크리스트 점수)와 독립 변수(글로벌 등급) 사이에 반비례 관계가 있음을 분명히 나타냅니다.5
The variation in pass marks for each active station was small, except for station 14: it was a drug-counselling station, and the pass mark was only 6.99/14, which is lower than the other active stations (Figures 2-6). This clearly indicates an inverse proportionality between the dependent variable (checklist score) and the independent variable (global rating).5

일부 학생은 두 영역의 글로벌 등급에서 더 높은 점수를 받았지만 체크리스트 점수는 기대 수준에 미치지 못했습니다. 경계선 응시자의 점수가 이렇게 큰 차이를 보인다는 것은 시험관마다 체크리스트 또는 글로벌 등급 기준을 다르게 해석하고 있음을 시사하며, 시험관 표준화가 필요하다는 것을 나타냅니다. 체크리스트 점수와 글로벌 등급 사이의 불만족스러운 연관성은 대부분의 스테이션에서 볼 수 있으며, 이로 인해 어느 정도의 비선형성이 발생했습니다. 일부 스테이션에서는 경계선 이하로 평가된 학생 수가 더 많았으며, 이는 이러한 스테이션에 대한 평가가 필요하다는 것을 나타냅니다. 
Some students acquired higher marks from the two-domain global grade, but their checklist marks did not attain the expected level. This wide variation in marks for borderline candidates suggests that different examiners are interpreting the checklists or the global rating criteria differently, and indicates the need for examiner standardisation, which is challenging. This unsatisfactory association between checklist marks and global ratings can be seen in most of the stations, which has caused some degree of nonlinearity. Some stations had a greater number of students who were rated as borderline or below, which indicates that there is a need for an appraisal of these stations.

일부 스테이션의 R2 값이 낮았지만, 글로벌 평가 척도는 체크리스트의 전반적인 기준을 정확하게 나타내도록 설계되었습니다. 따라서 불만족스러운 상관관계는 심사자 간에 글로벌 등급 척도와 체크리스트의 표준화가 제대로 이루어지지 않았거나 글로벌 등급 시스템 사용법에 대한 이해가 부족하기 때문에 발생할 수 있습니다. 이 분석 과정을 통해 표준 설정에 대한 경계선 접근 방식이 실현 가능하고 평가 중에 사용할 수 있으며 다른 방법보다 훨씬 적은 시간이 필요하다는 것이 입증되었습니다. 그러나 여기서 확인된 문제점을 해결해야 하며, 스테이션 체크리스트의 표시 체계와 글로벌 등급 기준을 재평가해야 합니다. 향후 OSCE에서 표준 설정 절차를 구현하기 전에 이러한 문제를 해결하는 것이 중요합니다. 
Although the R2 value at some stations was low, the global rating scale was designed to represent the overall criteria of the checklists exactly. Hence, the unsatisfactory correlation may arise from the improper standardisation of the global scale and the checklist among examiners, or from a poor understanding of how to use the global rating system. The process of this analysis demonstrated that the borderline approach to standard setting is feasible and can be used during the assessment, thereby requiring much less time than the other methods. But the problems identified here must be addressed, and the marking schemes for the station checklists and criteria for the global rating should be reassessed. It is important to resolve these problems before implementing the standard setting procedure in future OSCEs.

여기서 확인된 문제점을 해결해야 합니다.
Problems identified here must be addressed

결론
Conclusions

글로벌 등급 척도를 사용하면 많은 이점이 있습니다. 글로벌 등급 척도는 체크리스트보다 다양한 수준의 숙련도를 더 잘 파악할 수 있고 시험관이 사용하기 쉽다는 증거가 있습니다. 이 연구는 두 영역의 글로벌 평가 척도가 OSCE의 틀에서 학생들의 능력을 평가하는 데 적합하다는 것을 확인시켜 줍니다. 두 영역 글로벌 평가 척도와 과제 기반 체크리스트 간의 강력한 관계는 두 영역 글로벌 평가 척도가 학생의 숙련도를 진정으로 평가하는 데 사용될 수 있다는 증거를 제공합니다.
The use of a global rating scale has numerous benefits. There is evidence that global rating scales capture diverse levels of proficiencies better than checklists, and are easy for examiners to use. This study confirms that the two-domain global rating scale is appropriate to assess the abilities of students in the framework of OSCEs. The strong relationship between the two-domain global rating scale and the task-based checklists provide evidence that the two-domain global rating scale can be used to genuinely assess students’ proficiencies.

두 영역 글로벌 평가 척도는 OSCE의 틀에서 학생의 능력을 평가하는 데 적합합니다.
The two-domain global rating scale is appropriate to assess the abilities of students in the framework of OSCEs

 


Clin Teach. 2014 Dec;11(7):551-6. doi: 10.1111/tct.12213.

Standard setting in OSCEs: a borderline approach

Affiliations collapse

Affiliation

1Department of Pharmacy Practice, International Medical University, Kuala Lumpur, Malaysia.

PMID: 25417986

DOI: 10.1111/tct.12213

Abstract

Background: The evaluation of clinical skills and competencies is a high-stakes process carrying significant consequences for the candidate. Hence, it is mandatory to have a robust method to justify the pass score in order to maintain a valid and reliable objective structured clinical examination (OSCE). The aim was to trial the borderline approach using the two-domain global rating scale for standard setting in the OSCE.

Methods: For each domain, a set of six-point (from 5 to 0) scales were used to reflect high and low divisions within the 'pass', 'borderline' and 'fail' categories. Scores on the two individual global scales were summed to create a 'summed global rating'. Similarly task-based checklists for individual stations were summed to get a total score. It is mandatory to have a robust method to justify the pass score in order to maintain a valid and reliable OSCE RESULTS: The Pearson's correlation between task-based checklist scoring and the two-domain global rating scale were moderate and significant. The highest R(2) coefficient of 0.479 was obtained for station 7, and the lowest R(2) value was 0.241 for station 14.

Discussion: There was a significant positive correlation between the two scales; however, the R(2) value was not satisfactory except for station 7. The pass mark for the OSCE according to the borderline method was 64 per cent, which is higher than the arbitrarily set pass mark of 50 per cent.

Conclusions: This study confirms that the two-domain global rating scale is appropriate to assess the abilities of students within the framework of an OSCE. The strong relationships between the two-domain global rating scale and task-based checklists provide evidence that the two-domain global rating scale can be used to genuinely assess students' proficiencies.

복잡한 수행능력 평가에서 인지적 영향: 의학과 심리학 사이의 상호작용으로부터의 교훈(Journal of Applied Research in Memory and Cognition, 2018)
Cognitive Influences on Complex Performance Assessment:Lessons from the Interplay between Medicine and Psychology 

Kevin W. Eva∗

 

의료 서비스의 효율성은 부분적으로 의료진의 역량에 의해 결정됩니다. 이러한 역량을 확보하기 위해 매년 수백만 달러가 사내 평가, 면허 및 인증 시험, 역량 프로그램의 개발 및 운영에 지출되고 있습니다. 이러한 관행의 대부분은 현대 의료 시스템에서 잘 기능하는 데 필요한 다양한 자질을 평가하기보다는 임상의가 알아야 할 내용을 알고 있는지 여부를 테스트하는 협소하게 초점을 맞추고 있습니다. 그러나 적절한 치료가 개별 의료진이 보유한 지식에만 의존하는 것이 아니라는 인식이 점점 더 확산되고 있습니다(Anderson, 2011). 효과적이고 안전하게 진료하려면 의료 전문가는 환자가 자신의 건강 문제를 해결하는 데 적극적으로 참여할 수 있는 다양한 기술에 능숙해야 하며, 다른 의료 전문가, 환자 가족 및 진화하는 기술 지원과의 협력을 촉진해야 합니다(Balogh, Miller, & Ball, 2015). 그러나 개인이 필요한 다양한 역량에 대한 역량을 개발했는지 여부를 판단하는 것은 쉬운 일이 아닙니다. 
The effectiveness of healthcare is determined, in part, by the competence of its practitioners. Assuring such competence results in millions of dollars being spent annually to develop and run intramural assessments, licensing and certification examinations, and maintenance of competence programs. The majority of these practices are narrowly focused, testing whether or not clinicians know what they should know rather than assessing the many qualities required to function well in modern healthcare systems. It is increasingly recognized, however, that adequate care is not solely dependent on the knowledge possessed by individual practitioners (Anderson, 2011). To work effectively and safely, health professionals must be proficient at a wide range of skills that enable patients to become active participants in solving their health concerns while also promoting collaboration with other health professionals, with patients’ families, and with evolving technological supports (Balogh, Miller, & Ball, 2015). Determining whether or not an individual has developed capacity for the various competencies required, however, is no easy matter.

이 점에서 의료계만 특별한 것은 아닙니다. 결과가 중요하고 부정적인 결과가 가혹하기 때문에 의사로 일할 수 있는 사람을 잘못 결정하면 어떤 영향을 미칠지 쉽게 상상할 수 있습니다. 하지만 누구와 친구가 되고 싶은지에 대한 사회적 판단에서부터 고용 제안을 연장하는 것, 국가의 지도자가 될 정치 후보를 선택하는 것까지, 모든 삶의 영역에서 우리는 누가 성공(어떻게 정의되든) 가능성을 최적화하고, 동시에 용납할 수 없는 부정적인 결과의 위험을 최소화할 수 있는 자질의 적절한 균형을 유지하는지에 대한 평가를 내립니다. 때로는 이러한 역량 평가가 옳을 때도 있지만 때로는 끔찍하게 잘못될 수도 있습니다. 이 주제 글에서는 의료 수련생과 전문가에 대한 평가를 예로 들어 복잡한 성과 평가에 대해 알려진 많은 내용과 이를 개선하는 방법을 요약해 보겠습니다. 의학은 이 분야에 대한 연구의 우선순위를 정해온 오랜 역사(Epstein, 2007)가 있을 정도로 그 중요성이 높기 때문에 대부분의 응용 분야에서 수행된 것보다 더 많은 경험적 연구를 산출할 수 있는 풍부한 영역입니다. 이러한 역사는 응용 분야와 학문 분야 간의 상호작용에 대한 흥미로운 사례 연구를 제공하는 방식으로 기초 심리학의 연구를 활용하려는 노력으로 가득 차 있습니다. 이러한 사례를 살펴보기 위해 보건 전문 교육자가 직면한 과제, 해결책을 도출하기 위해 인지 심리학을 적용하여 얻은 통찰력, 그리고 인지 기초 연구에 피드백될 수 있는 과학의 현재 상태와 지속적인 요구 사항에 대한 몇 가지 성찰을 제공할 것입니다. 
In this regard, medicine is not unique. It is easy to imagine the impact of poor decisions about who should be trusted to work as a physician because the outcomes matter and negative results are harsh. In any walk of life though, ranging from social judgments about who we want to befriend, through extending employment offers, to choosing between political candidates who will become our nations’ leaders, we make assessments about who maintains the right balance of qualities that will optimize the likelihood of success (however defined) and minimize the risk of unacceptably negative consequences. Sometimes these assessments of competence are right; sometimes they go horribly wrong. In this target article I will use the assessment of medical trainees and professionals as an example to summarize much of what is known about complex performance assessment and the ways in which it is being improved. Medicine is a rich domain for that purpose because the stakes are high enough that there is a long history of prioritizing research in this area (Epstein, 2007), yielding more empirical study than has been conducted in most applied contexts. That history is rife with efforts to draw upon studies from basic psychology in a way that provides an interesting case study for the interplay between an applied field and an academic discipline. To explore that case, I will provide an overview of the challenges facing health-professional educators, the insights that have been gained from the application of cognitive psychology toward deriving solutions, and some reflections on the current state of the science and ongoing needs that might be fed back into the fundamental study of cognition.

의학 분야의 복잡한 성과 평가
Complex Performance Assessment in Medicine

응급실 진료실에 들어선 레지던트(즉, 수련의)가 영어를 잘 못하는 히스테리에 가까운 엄마가 안고 있는 눈은 시커멓게 충혈되고 이마는 심하게 멍이 든 채 우는 아이를 만났다고 상상해 보세요. 분명히 상당히 효율적으로 해결해야 할 진단 문제가 있습니다: 뼈가 부러지지는 않았는가? 아이의 눈이 손상되었나요? 뇌진탕이나 내부 출혈이 있을 가능성이 있나요? 어떤 진단을 고려해야 하는지, 어떤 검사를 통해 중요한 임상 상태를 배제할 수 있는지, 환자를 치료하기 위해 취해야 할 주요 조치(근본적인 문제가 무엇이든)에 대한 임상의의 지식을 정확하게 평가하는 것은 비교적 간단합니다. 이 시나리오와 같이 매우 간단한 시나리오에서도 의사가 이해해야 할 내용이 많습니다(예: 해부학, 생리학, 위험도, 수행할 수 있는 검사의 예측 가치, 특정 조치를 취했을 때의 비용/편익 등). 그러나 잘 작성된 객관식 또는 단답형 시험은 지식 기반의 강점을 적절히 파악할 수 있습니다(Case & Swanson, 2002). 실제로 일부 상황에서는 의사가 환자를 진찰한 지 10년이 지난 후에도 심장 사망률(Ramsey et al., 1989) 및 기타 중요한 임상 지표(Wenghofer et al., 2009)를 포함한 실제 환자 결과를 예측할 수 있는 것으로 나타났습니다. 

Imagine the medical resident (i.e., senior trainee) who enters an examining room in the emergency department to meet a crying child with a blackened eye and badly bruised forehead who is being held by a nearly hysterical mother who speaks English poorly. Clearly there are diagnostic issues that need to be resolved fairly efficiently: Are any bones broken? Has the child's eye been damaged? Is he likely to be concussed or haemorrhaging internally? Accurately assessing the clinician's knowledge regarding what diagnoses need to be considered, what tests will help rule out important clinical conditions, and what key steps need to be taken to treat the patient (whatever the underlying problem happens to be) is relatively straightforward. There is a lot that needs to be understood by the physician even in a fairly simple scenario such as this one (e.g., anatomy, physiology, risk, the predictive value of tests that could be performed, and the costs/benefits of taking particular actions). Well-written multiple choice or short answer exams, however, can adequately capture the strength of one's knowledge base (Case & Swanson, 2002). In fact, in some circumstances they have been shown capable of predicting real patient outcomes including cardiac mortality rates (Ramsey et al., 1989) and other important clinical measures (Wenghofer et al., 2009) a decade after the physician is examined.

그러나 환아와 그 가족에게 긍정적인 결과를 가져다주는 것은 단순히 진단 라벨을 지정하여 현재 문제를 분류하는 방법을 아는 것의 문제가 아닙니다(Ilgen, Eva, & Regehr, 2016). 

  • 환자 및 어머니와 효과적으로 소통할 수 있는 능력을 포함한 대인관계 기술은 환자의 상태와 그 원인을 제대로 이해하는 것뿐만 아니라 어머니가 상황을 완화하여 아이가 필요한 지원을 받고 이해할 수 있도록 하는 데에도 필요합니다(Menichetti, Libreri, Lozza, & Graffigna, 2016). 
  • 팀 기반 접근 방식과 이를 실행하는 데 필요한 기술은 이 환자뿐만 아니라 클리닉에 계속 유입되는 다른 문제와 관련하여 이러한 상호 작용을 분류하는 데 필요한 다양한 작업 및 후속 조치 단계를 조정하는 데 필요합니다(Abu-Rish 외., 2012). 
  • 부상의 원인을 파악하고 다시 발생할 가능성을 줄이려면 특히 학대가 의심되는 경우 의사의 상당한 주의와 옹호가 필요할 수 있으며, 향후 문제 예방을 위한 조율된 노력을 이끌기 위한 조치를 다시 취해야 합니다(Hubinette, Dobson, & Regehr, 2015). 
  • 그리고 이 모든 과정은 모든 의료 전문가에게 기대되는 전문성을 정의하는 데 기여하는 이타주의, 정직성, 다양성에 대한 존중을 보여주면서 이루어져야 합니다(Kelly, Mullan, & Gruppen, 2016).

Enabling a positive outcome for this child and his family, however, is not simply a matter of knowing how to categorize the presenting problem by assigning a diagnostic label (Ilgen, Eva, & Regehr, 2016).

  • Interpersonal skills, including the capacity to communicate effectively with the patient and his mother, are required not only to gain a proper understanding of the patient's condition and its cause, but to defuse the situation so the mother can understand and get the child the support he needs (Menichetti, Libreri, Lozza, & Graffigna, 2016).
  • A team-based approach and the skills required to enact it are necessary to coordinate the various stages of work-up and follow-up needed not just by this patient, but also for triaging this interaction relative to the other problems that continue to flow into the clinic (Abu-Rish et al., 2012).
  • Determining the cause of the injury and reducing the likelihood that it will happen again may require considerable care and advocacy on the part of the physician, especially if abuse is suspected, again with steps taken to lead a coordinated effort toward prevention of future problems (Hubinette, Dobson, & Regehr, 2015).
  • And, all of this must be done while demonstrating the altruism, honesty, and respect for diversity that contribute to defining the professionalism expected of all healthcare professionals (Kelly, Mullan, & Gruppen, 2016).

캐나다 왕립 의사 및 외과의 대학에서 설계한 모델로 전 세계 여러 지역에서 의사 교육을 안내하는 데 사용되어 온 CanMEDS 프레임워크의 최신 버전에는 "의사가 의료 서비스를 제공하는 사람들의 의료 요구를 효과적으로 충족하는 데 필요한 능력을 설명"하는 7가지 역할이 나열되어 있습니다: 협력자, 커뮤니케이터, 리더, 건강 옹호자, 의료 전문가, 전문가, 학자(Frank, Snell, & Sherbino, 2015). 이러한 역할은 27개의 "핵심 역량"으로 요약되며, 이는 다시 93개의 "활성화 역량"으로 세분화됩니다. 대부분의 역량을 평가하려면 실제 시나리오에서 의도적인 관찰 노력이 필요하며(Wass, van der Vleuten, Shatzer, & Jones, 2001), 관찰된 행동이 원하는 역량을 어느 정도 대표할 수 있는지에 대한 상당한 추론이 필요합니다(Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2011). 
In the latest iteration of the CanMEDS framework, a model designed by the Royal College of Physicians and Surgeons of Canada that has been used to guide physician training in many parts of the world, 7 roles are listed that “describe the abilities physicians require to effectively meet the healthcare needs of the people they serve”: Collaborator, Communicator, Leader, Health Advocate, Medical Expert, Professional, and Scholar (Frank, Snell, & Sherbino, 2015). These roles encapsulate 27 “key competencies” that are further subdivided into 93 “enabling competencies.” Assessment of most of them requires deliberate efforts at observation in real-world scenarios (Wass, van der Vleuten, Shatzer, & Jones, 2001) with considerable need for inferences to be drawn regarding the extent to which the behaviour observed is representative of the skillset desired (Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2011).

대부분의 임상 상황에서는 긍정적인 결과에 이르는 여러 경로가 존재하고(Eva, 2005) 모든 사례에서 경로와 결과 간의 불완전한 상관관계가 존재하기 때문에 이러한 영역에서는 "지상 진실"과 같은 것은 존재하지 않습니다(Zwaan & Singh, 2015);

  • 맥락이 행동의 강력한 결정 요인으로 밝혀졌기 때문입니다(Eva, Neville, & Norman, 1998); 그리고
  • 역량이 나타내는 복잡한 개념을 "객관적으로" 식별 가능한 행동으로 원자화하려는 노력은 필연적으로 그 개념이 의미하는 본질을 나타내지 못하기 때문입니다(Eva and Hodges, 2012, Whitehead et al. , 2015).

예를 들어, 상대의 눈을 바라보는 것은 훌륭한 의사소통 기술의 구성 요소로 취급되어 왔지만, 그 적절성과 의미는 문화적으로 다양하며(Akechi et al., 2013), 서구 문화권 내에서도 상대방의 눈을 바라보는 방식(예: 공격성, 연민, 지루함 또는 이해)이 중요하며 사람마다 다르게 해석될 수 있습니다(Gingerich, Ramlo, van der Vleuten, Eva, & Regehr, 2017). 실제로 의학 분야의 전문가 성과는 알고리즘에 따른 일련의 행동을 엄격하고 의도적으로 준수하는 것이 특징이 아니라는 사실은 20년 동안 알려져 왔습니다(Norman & Brooks, 1997). 그 결과, 사전 정의된 작업의 완료를 문서화하는 데 사용되는 체크리스트 중심 전략과 비교할 때, 주관적인 성과 등급을 사용하여 의료진을 평가하려는 노력은 신뢰할 수 있으면서도 숙련된 전문가와 수련생을 더 잘 구별할 수 있는 경향이 있습니다(Hodges, Regehr, McNaughton, Tiberius, & Hanson, 1999).

There is no such thing as “ground truth” in such domains because there are multiple pathways to positive outcomes in most clinical situations (Eva, 2005) and an imperfect correlation between pathway and outcome in all cases (Zwaan & Singh, 2015);

  • because context has been shown to be a robust determinant of one's behaviour (Eva, Neville, & Norman, 1998); and,
  • because efforts to atomize the complex concepts represented by the competencies into “objectively” identifiable behaviours inevitably fail to represent the essence the concepts are meant to signify (Eva and Hodges, 2012Whitehead et al., 2015).

For example, while looking one in the eye has been treated as a component of good communication skill, the appropriateness and meaning of doing so is culturally variable (Akechi et al., 2013) and, even within Western cultures, the way in which one looks another in the eye (e.g., with aggression, with compassion, with boredom, or with understanding) matters and can be interpreted differently by different people (Gingerich, Ramlo, van der Vleuten, Eva, & Regehr, 2017). In fact, it has been known for two decades that expert performance in medicine is not characterized by strict and deliberate adherence to an algorithmic set of actions (Norman & Brooks, 1997). As a result, when compared to checklist-driven strategies used to document completion of pre-defined tasks, efforts to assess medical practitioners using subjective ratings of performance tend to be just as reliable, yet better able to differentiate trainees from experienced professionals (Hodges, Regehr, McNaughton, Tiberius, & Hanson, 1999).

이러한 모든 이유(무엇보다도)로 인해 의학 분야의 성과 평가는 개인의 판단에 크게 의존합니다(Kogan & Holmboe, 2013). 판단의 근거가 되는 관찰 자료는 시뮬레이션 환경이나 직장에서 수집할 수 있습니다. 실시간으로 수집하거나 평가 대상자에게 이전에 노출된 적이 있는 개인을 대상으로 한 설문조사를 기반으로 수집할 수도 있습니다. 임상 교육자, 실습 동료 또는 환자가 제공할 수도 있습니다. 그러나 모든 경우에서 개인의 역량을 표현하기 위해서는 개인이 인식한 것을 번역해야 합니다(Williams, Klamen, & McGaghie, 2003). 평가 과정의 적절성은 일반적으로 주장의 진실성을 검증하여 결정할 수 없기 때문에 의료계는 효용성utility의 구성에 기반하여 사례를 만드는 데 의존하고 있습니다(van der Vleuten & Schuwirth, 2005). 이 영역에서 효용성은 일반적으로 평가 과정의 실현 가능성, 수용 가능성, 신뢰성, 타당성 및 교육적 영향의 조합으로 해석되어 왔습니다. 예를 들어, 신뢰성의 향상은 일반적으로 타당성에 영향을 미치지 않으면서도 타당성의 저하를 동반하기 때문에 이러한 기능은 서로 상응하지 않는 경우가 많습니다(Eva, 2009). 이 백서에서는 이러한 실제적인 현실을 제쳐두고 이 문제에 인지적 렌즈를 적용하여 평가자 기반 평가를 개선하기 위한 노력에서 배운 내용에만 초점을 맞출 것입니다. 예를 들어, 사회문화 이론가들은 평가 대상, 방법, 이유에 대해 완전히 다른 인식론적 질문을 제기할 수 있다는 점을 고려할 때, 인지적 관점만이 이 문제와 관련된 유일한 관점은 아닙니다. 하지만 개인에게 복잡한 퍼포먼스의 강도에 대한 판단을 요구하는 데 내재된 인지적 문제 자체가 충분히 중요하고 흥미로우며 도전적이기 때문에 지금은 그러한 질문은 한쪽으로 치워두겠습니다.  
For all these reasons (among others) performance assessment in medicine is heavily dependent on the judgment of individuals (Kogan & Holmboe, 2013). Observations on which judgments are made might be collected in simulated settings or in the workplace. They might be collected in real time or based on surveys of individuals who have had previous exposure to the individual being assessed. They might be provided by clinical educators, practicing colleagues, or patients. In all instances, however, they require the translation of what one perceives into a representation of the individual's competence (Williams, Klamen, & McGaghie, 2003). Because the adequacy of the assessment process cannot commonly be determined by verifying the veracity of any claims made, the medical profession is reliant on making a case based on the construct of utility (van der Vleuten & Schuwirth, 2005). In this domain, utility has generally been interpreted as a combination of the feasibility, acceptability, reliability, validity, and educational impact of the assessment process. These features are not often commensurate with one another as improvements in reliability, for example, are generally accompanied by declines in feasibility without necessarily impacting upon validity (Eva, 2009). For the purpose of this paper, we will set aside such practical realities and focus exclusively on what has been learned in efforts to improve rater-based assessments by applying a cognitive lens to this problem. This is not the only lens that is relevant given that socio-cultural theorists, for example, would raise entirely different epistemological questions regarding what is being assessed, how, and why. For now though such questions will be set to the side because the cognitive issues inherent in asking individuals to offer judgment on the strength of complex performances are themselves sufficiently important, interesting, and challenging.

평가자 기반 평가의 가치에 의문을 제기하는 지속적인 문제는 신중하게 통제된 자극(예: 환자와의 의료적 상호작용을 비디오로 녹화한 것)조차도 동등한 자격과 훈련을 받은 개인으로부터 매우 다양한 평가를 이끌어내는 경향이 있다는 것입니다(Cook 외., 2010, Downing, 2005, Margolis 외., 2006). 실제로 똑같은 자극에 대한 평가가 9점 척도에서 6점 차이가 나는 것은 흔한 일이며, 그 결과 평가자에 따라 합격-불합격 결정이 일관되지 않게 내려집니다(Holmboe, Huot, Chung, Norcini, & Hawkins, 2003). 긍정적 왜곡, 후광 효과, 극단값 회피와 같은 평가 편향이 일반적이며, 성과가 해석될 수 있는 방식에 대한 내재적 모호성은 일반적으로 인식되지 않습니다(Haber and Avins, 1994, Herbers 등, 1989, Kalet 등, 1992, LaMantia 등, 1999, Lurie 등, 2009). 이러한 문제를 개선하려는 노력은 크게 두 가지 범주 중 하나로 나뉘는데, 두 가지 모두 평가자의 개인적인 경험과 인식에 대한 의존도를 제한하거나 줄이는 평가자 기반 평가 프로토콜을 구축하려는 의도적인 시도에 해당합니다. 즉, 모든 평가자가 인정하지 않는 의료진의 성과에 대한 객관적인 현실이 있다는 가정에서 출발합니다.
A persistent problem that calls into question the value of rater-based assessments is that even carefully controlled stimuli (e.g., video-recorded renditions of a medical interaction with a patient) tend to elicit highly variable ratings from equally qualified and trained individuals (Cook et al., 2010, Downing, 2005, Margolis et al., 2006). It is commonplace, in fact, for ratings of the exact same stimulus to reveal a 6-point variation on a 9-point scale, resulting in inconsistent pass–fail decisions that are highly dependent on the assessors consulted (Holmboe, Huot, Chung, Norcini, & Hawkins, 2003). Rating biases such as positive skew, halo effects, and end aversion are common and the inherent ambiguity regarding the ways in which a performance could be interpreted generally goes unrecognized (Haber and Avins, 1994, Herbers et al., 1989, Kalet et al., 1992, LaMantia et al., 1999, Lurie et al., 2009). Efforts to ameliorate these problems have broadly fallen into one of the two categories, both of which amount to deliberate attempts to build rater-based assessment protocols that constrain or reduce dependency on the personal experience and perceptions of the raters. That is, they derive from the assumption that there is an objective reality to the quality of a medical practitioner's performance that simply is not recognized by all raters.

이러한 노력의 첫 번째는 평가자를 교육하여 조직의 표준과 정의에 대한 이해를 높임으로써 관찰된 성과에 대한 자신의 해석을 극복할 수 있도록 노력하는 것입니다(Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2015). 이 전략은 대체로 성공적이지 못했습니다(Cook, Dupras, Beckman, Thomas, & Pankratz, 2009). 평가자 교육은 때때로 평가자의 엄격성을 증가시키지만, 일반적으로 평가자 간 신뢰도에는 뚜렷한 영향을 미치지 않습니다(Holmboe, Hawkins, & Huot, 2004). 또한, 평가자의 임상 경험이 많을수록 평가자로서의 수행이 잘 바뀌지 않는 경향이 있습니다(Eva, 2001). 평가자는 평가자와 같은 방식으로 과제를 수행하는 사람에게 더 높은 평가를 내리는 것으로 알려져 있는데(Kogan, Hess, Conforti, & Holmboe, 2010), 이는 앞서 언급했듯이 이러한 맥락에서 적절하고 의미 있는 많은 시나리오의 경우 단일 전략이 진정한 표준이 되지 않고 좋은 치료를 위한 여러 경로가 있기 때문에 문제가 될 수 있습니다. 
The first such effort involves training raters, striving to help them overcome their own interpretations of the performances observed by improving their understanding of the organization's standards and definitions (Kogan, Conforti, Bernabeo, Iobst, & Holmboe, 2015). This strategy has largely been unsuccessful (Cook, Dupras, Beckman, Thomas, & Pankratz, 2009). Rater training sometimes increases rater stringency, but does not typically have a discernible influence on inter-rater reliability (Holmboe, Hawkins, & Huot, 2004). Further, the more clinical experience a rater has the less malleable their performance as a rater tends to be (Eva, 2001). Raters are known to give higher ratings to others who engage with the observed task in the same way the rater would (Kogan, Hess, Conforti, & Holmboe, 2010), which is problematic because (as alluded to earlier) for many of the scenarios that are relevant and meaningful in this context there are multiple pathways to good care without any single strategy being a true gold standard.

두 번째 노력은 응답 옵션의 수를 줄이거나(예/아니오 체크리스트의 극단적인 경우) 평가자가 평가해야 하는 행동의 수와 구체성을 늘려 평가자가 사용하도록 요청하는 평가 척도를 조정하거나 확장하는 것입니다. 다시 말하지만, 이러한 전략의 궁극적인 목표는 평가자의 인식에 존재하는 특이성을 극복하는 것입니다. 다시 말하지만, 이러한 전략은 대체로 성공적이지 못했습니다(Cook and Beckman, 2009, Donato et al., 2008). 포괄적인comprehensive 평가 도구를 생성하려는 노력은 특정 질문과 관련된 샘플링 오류를 줄임으로써 수집된 평가의 내적 일관성을 높일 수 있습니다. 그러나 척도를 완성하는 것이 너무 부담스러워 평가자가 직접 관찰보다는 기억에 의존하는 경우가 많기 때문에 이러한 이점이 약화되는 경향이 있습니다(Eva et al., 2007). 또한, 이러한 척도는 행동의 개별적인 측면이 특정 평가자에게 특히 두드러지게 나타나는 특이성을 줄이는 데 아무런 도움이 되지 않으며(Yeates, O'Neill, Mann, & Eva, 2013), 동시에 과제의 인지적 난이도를 증가시킵니다(Tavares & Eva, 2013).
The second effort involves tweaking or expanding the rating scales that assessors are asked to use by reducing the number of response options (to the extreme of a yes/no checklist) or increasing the number and specificity of the behaviours raters are asked to assess. Again, the ultimate goal of such strategies is to overcome idiosyncrasies present in raters’ perceptions. Again, such strategies have largely been unsuccessful (Cook and Beckman, 2009, Donato et al., 2008). Efforts to generate comprehensive rating instruments can enable increasing degrees of internal consistency in the ratings collected by reducing the sampling error related to asking particular questions. That benefit tends to be undermined though because completion of the scale becomes so burdensome that raters increasingly depend on their memory (often over long periods) rather than direct observation (Eva et al., 2007). Further, such scales do nothing to reduce the idiosyncrasy with which individual aspects of behaviour appear particularly salient to particular raters (Yeates, O’Neill, Mann, & Eva, 2013) while simultaneously increasing the cognitive difficulty of the task (Tavares & Eva, 2013).

종합하면, 이 영역의 증거 기반은 복잡한 수행 평가에는 의사 또는 수련의의 기술을 측정하는 것이 [관찰 대상의 수행]보다 [평가자의 관점]에 대한 더 나은 통찰력을 제공할 수 있는 상당한 위험이 수반된다는 것을 시사합니다. 극단적인 사례로, 기존의 패널 기반 의과대학 입학 면접에서 부여된 점수 차이의 거의 60%가 면접관 간의 차이에 기인하는 것으로 밝혀졌습니다(Harasym, Woloschuk, Mandin, & Brundin-Mather, 1996). 즉, 지원자 자체의 기술이나 자질보다는 누가 특정 지원자를 면접하도록 배정되었는지에 따라 입학 여부가 결정되었는데, 이러한 상황은 고위험 상황에서는 명백히 비윤리적이라고 할 수 있습니다(Norman, 2004). 
Taken together, the evidence base in this domain suggests that complex performance assessment carries with it considerable risk that measurement of a physician's or trainee's skill provides better insight into the perspective of the rater than it does into the performance of the observed. In one extreme case, nearly 60% of the variance in scores assigned during traditional panel-based medical school admissions interviews was found to be attributable to differences between interviewers (Harasym, Woloschuk, Mandin, & Brundin-Mather, 1996). In other words, who gained entry to the school was driven by who happened to be assigned to interview a given candidate moreso than by the skill or qualities of the candidates themselves, a situation that is plainly unethical in high-stakes contexts (Norman, 2004).

다행히도 인지 심리학의 원리를 적용하여 의학 분야에서 평가자 기반 평가를 개선하는 방향으로 일부 진전이 이루어지고 있습니다. 의학은 이러한 원리를 적용할 수 있는 풍부한 영역을 제공하지만, 이러한 원리는 복잡한 성과 평가의 모든 영역에 적용될 수 있습니다. 따라서 다음과 같이 인지심리학의 적용을 통해 의학교육이 얻은 교훈을 요약한 이유는 JARMAC 독자들이 의료행위에 특별히 관심이 있다고 가정하기 때문이 아니라, 의사에 대한 평가가

  • (a) 다양한 맥락에서 복잡한 수행평가에 정보를 제공할 수 있는 사례 연구를 제공하고,
  • (b) 인지를 통해 다루면 좋을 미해결 문제에 대한 지침을 제공하며,
  • (c) 참가자가 제한된 실제 환경에서 심리적 과정을 조사하려고 할 때 양보해야 하는 점을 강조함으로써 수행의 어려움에 대한 통찰을 제공하기 때문입니다.

후자의 문제와 관련하여 원하는 모든 데이터에 액세스할 수 있는 경우는 거의 없습니다. 의학 교육 참가자는 그 수가 제한되어 있고 모집하는 데 많은 비용이 듭니다. 따라서 이러한 상황에서 이러한 문제를 현명하게 연구하려면 경험적 데이터, 이론, 논리, 삼각측량, 추론의 조합이 필요합니다. 이는 응용 현상을 이해하기 위해 인지심리학 같은 핵심 학문의 가치를 강조하는 동시에, 이러한 학문의 이론적, 실험실 기반 연구를 현실 세계와 관련이 있고 의미 있는 관찰과 사례에 근거하는 것의 가치를 강조하는 것이기도 합니다. 

Fortunately, some headway is being made toward improving rater-based assessment in medicine through the application of principles from cognitive psychology. While medicine provides a rich domain for such application, those principles are likely pertinent to any area of complex performance assessment. As such, we offer the following summary of the lessons learned by medical education from the application of cognitive psychology not because we assume readers of JARMAC care specifically about medical practice, but because the assessment of physicians offers a case study that can

  • (a) inform complex performance assessment in various contexts,
  • (b) provide guidance on unresolved challenges that would do well to be taken up by cognition, and
  • (c) offer insight into the challenges of doing that by highlighting the concessions that need to be made when trying to examine psychological processes in real-world environments with limited supplies of participants.

With respect to the latter issue, few and far between are the cases when one can have access to all the data one might desire. Participants in medical education are limited in number and expensive to recruit. As a result, sensibly studying these issues in these contexts requires a combination of reasoning from empirical data, theory, logic, triangulation, and parsimony. This simultaneously reinforces the value of having a core discipline like cognitive psychology on which to draw to understand applied phenomena and emphasizes the value of grounding theoretical, lab-based studies from such disciplines in observations and practices that are relevant in and meaningful to the real world.

의학교육과 심리학의 상호 작용에서 얻은 교훈
Lessons Derived from the Interplay Between Medical Education and Psychology

기본적으로 임상 환경에서 임상의의 성과에 대한 결정을 내리는 것은 여러 가지 속성을 고려해야 하는 다중 속성 선택 작업으로, 판단자는 매우 산만한 환경에서 불완전한 정보와 함께 항상 일치하지 않는 여러 측면의 역량을 고려해야 합니다. 즉, Simon(1956)이 제시한 만족satisficing의 개념에 따라 휴리스틱과 유사성 기반 추론에 의존하도록 유도하는 완벽한 레시피입니다. 평가자가 아무리 신중하고 성실하게 앞에 놓인 과제에 참여하려고 노력하더라도 합리적으로 추론하는 능력은 시간, 정신 능력 및 문제를 통제할 수 있는 정도에 의해 제한된다는 점에서 합리성은 불가피하게 "한계"를 가질 수밖에 없습니다(Gigerenzer & Selten, 2002). 
Fundamentally, making a decision about a clinician's performance in a clinical setting is a multi-attribute choice task, in which the judge has to consider many aspects of competence that do not always align, in a highly distracting environment, with incomplete information. In other words, it is a perfect recipe to induce reliance on heuristics and similarity-based reasoning as per Simon's (1956) notion of satisficing; regardless of how deliberately and conscientiously assessors strive to engage with the task before them, their rationality is inevitably “bounded” in that the capacity to reason rationally is limited by time, mental capacity, and the extent to which the problem can be controlled (Gigerenzer & Selten, 2002).

지난 섹션에서 시작했던 응급실에서 우는 아이의 시나리오와 관련하여 이러한 요소를 고려해 보세요. 그러나 이제 레지던트 앞에 놓인 임상 과제를 상상하는 대신, 레지던트의 성과를 관찰하고 문서화하며 개선을 촉진할 책임이 있는 감독 의사가 앞에 놓인 과제를 상상해 보십시오. 그녀는 환자의 치료를 궁극적으로 책임진다는 점에서 레지던트와 동일한 과제를 안고 있습니다(더 큰 시간 압박을 느낄 수도 있습니다). 그러나 레지던트가 해당 수련 단계의 레지던트에게 기대되는 모든 역량을 충족하고 있는지 여부도 고려해야 합니다. 보다 제약된(즉, 시뮬레이션된) 환경에서도 이 작업은 지각 능력, 주의력, 작업 기억에 상당한 스트레스를 주는 매우 까다로운 작업으로, 많은 정보를 사용할 수 있고 해석을 고려해야 한다는 단순한 사실 때문에(Byrne, Tweed, & Halligan, 2014), 지각 능력과 주의력, 작업 기억에 상당한 부담을 줍니다. 취급용이성tractability 측면에서 볼 때, 개별 임상의의 경험과 특이한 환자 시나리오가 상호 작용하여 행동을 결정하는 무수한 방식으로 인해, 임상의의 효과 판단을 [쉽게 통제할 수 있는 문제]로 의미 있게 취급하는 것은 불가능합니다. 
Consider these factors in relation to the scenario of a crying child in the emergency department that began the last section. Now, however, instead of imagining the clinical task put before the resident, imagine the task put before the supervising physician who is responsible for observing, documenting, and facilitating the improvement of the resident's performance. She has all the same challenges as the resident given that she is ultimately responsible for the patient's care (and may feel even greater time pressures). In addition, however, she also needs to consider whether the resident is meeting all of the competencies expected of someone at that level of training. Even in a more constrained (i.e., simulated) environment, this is an incredibly demanding task that places considerable stress on one's perceptual abilities, attentional capacity, and working memory (Byrne, Tweed, & Halligan, 2014) by virtue of the simple fact that there is a lot of information available and many interpretations to be weighed. In terms of tractability, the countless ways in which individual clinicians’ experiences and idiosyncratic patient scenarios interact to determine behaviour make it impossible to meaningfully treat the judgment of a clinician's effectiveness as an easily controlled problem.

따라서 평가자의 사고 과정에 대한 통찰력을 제공하기 위해 작성된 연구 논문에서 의학교육 연구자들이 평가자가 가용성 휴리스틱, 확증 편향, 프레이밍 효과 등에 매우 취약한 정보 처리 모델을 사용하여 평가자의 과제를 일상적으로 구성하도록 유도하는 것은 놀라운 일이 아닙니다(Gauthier, St-Onge, & Tavares, 2016). 이 섹션에서는 교육 설계자가 이러한 근본적인 인지 과정을 극복하기 위해 급류에 휩쓸리지 않고 이를 수용하려는 노력을 통해 수행 평가의 관행을 개선할 수 있는 방법에 대한 구체적인 통찰을 제공한 몇 가지 연구 사례를 소개합니다. 

As a result, it should come as no surprise that research articles written to offer insight into the thought processes of raters have led medical education researchers to routinely frame the rater's task using information processing models within which assessors are highly susceptible to availability heuristics, confirmation bias, framing effects, and so on (Gauthier, St-Onge, & Tavares, 2016). In this section we offer a few examples of research that has provided particular insights into how educational designers might improve the practice of performance assessment through efforts to accommodate such fundamental cognitive processes rather than swimming upstream with the goal of overcoming them.

평가에 인지를 맞추는 것이 아니라 인지에 평가를 맞추기
Matching Assessment to Cognition Rather than Cognition to Assessment

평가자 기반 평가를 제한적 합리성의 관점에서 생각하면 평가자 교육, 보다 포괄적인 평가 양식 개발, 객관성을 위한 노력 등을 통해 평가 관행을 개선하려는 노력이 왜 제한적인 이점을 가져올 수밖에 없는지(또는 아예 실패할 수밖에 없는지) 밝히는 데 도움이 됩니다. 우리는 다음과 같은 주장이 심리학의 기본 법칙에 가장 근접한 것이라고 생각합니다: 주의력은 유한하고, 지각은 기대의 영향을 받으며, 기억은 제한적이고, 판단은 상대적이다. 의학에서 성과 평가를 제공하기 위해 활용해야 하는 대규모 인구에서 이러한 원칙을 뒤집거나 극복하려는 것은 어리석은 일입니다. 의사 결정이 복잡할수록 이러한 법칙의 역할은 더욱 두드러질 것이며, 아무리 많은 평가자 교육을 받아도 다음의 사실은 변하지 않을 것입니다.

  • 의학 분야의 성과는 다면적이고
  • 역량은 다양한 방식으로 나타나며
  • 특정 행동의 근간이 되는 원동력에 대한 추론을 도출해야 한다 

[주의해야 할 행동의 목록을 더 객관적이고, 더 길고, 더 세밀하게 원자화하여 제시하는 것]은 위에서 언급한 심리 법칙을 그대로 두고 있을 뿐만 아니라, 주의력을 더 많이 분산시키고 기억을 압도하는 역효과를 초래할 수 있습니다.
Thinking of rater-based assessment in terms of bounded rationality helps shine light on why efforts to improve assessment practices through rater training, by developing more comprehensive rating forms, or by striving for objectivity are destined to produce limited benefits (or fail altogether). We consider the following claims to be as close as one can come to stating fundamental laws in psychology: Attention is finite, perception is influenced by expectations, memory is limited, and judgment is relative. Hoping to reverse or overcome such principles in the large population that must be drawn upon to provide performance assessment in medicine is a fool's task. The more complex the decision made the more prominent a role these laws will play, and no amount of rater training will change the fact

  • that performance in medicine is multifaceted,
  • that competence presents itself in many ways, and
  • that inferences regarding the driving forces underlying particular behaviours must be drawn.

Offering a more objective, longer, or more carefully atomized list of behaviours to watch for will not only leave the above-stated psychological laws untouched, but may be counterproductive by virtue of dividing attention and overwhelming memory to an even greater extent.

그렇다면 평가자의 인지에 대한 주의를 기울이는 것이 복잡한 성과 평가를 수행하는 능력을 향상시키는 데 어떻게 사용될 수 있는지 이해하는 데 있어 어떤 시사점을 얻을 수 있을까요? 인간 인지의 다른 영역에서와 마찬가지로, 성과 평가자에게도 타불라 라사가 존재하지 않는다는 점을 고려할 때, 이 영역의 혁신은 지각과 학습이 우리가 이미 알고 있는 것을 기반으로 구축된다는 점을 고려해야 합니다. 이러한 구성주의 모델을 효과적으로 적용하여 성과 평가를 개선하려면 해당 활동에 참여한 사람들의 생생한 경험을 고려해야 합니다. 즉, 평가자의 선입견과 일치하지 않는 세계관을 강요하기보다는, 평가자가 있는 곳에서 평가자를 만나면 평가 프로세스에 도움이 될 수 있습니다. 
Where does this leave us in terms of understanding how attention to raters’ cognition might be used to improve their capacity to provide complex performance assessments? Given that the tabula rasa does not exist for performance assessors any more than it does in other realms of human cognition, innovations in this domain must take into account that perceptions and learning are built upon what we already know. Effectively applying such a constructionist model to improve performance assessment demands that we consider the lived experience of those who have been involved in that activity. That is, our assessment processes stand to benefit if we meet assessors where they are rather than trying to force a worldview on them that is inconsistent with their preconceptions.

이를 위해 연구자들은 일련의 연구를 통해 수퍼바이저가 수련생 성과에 대한 인식의 핵심에 '신뢰성'이 있다는 설득력 있는 주장을 펼쳤다는 점에 주목할 필요가 있습니다(Hauer 외., 2015, ten Cate, 2006). 임상 수퍼바이저를 대상으로 열등, 평균, 우수 레지던트에게서 관찰한 특징에 대해 말하게 하기 위해 인터뷰를 진행한 긴스버그, 맥일로이, 울라노바, 에바, 레거(2010)는 언급된 많은 행동이나 활동이 공식적으로 확립된 역량 프레임워크와 상당히 잘 일치하지만, '역량'이라는 라벨을 붙이기는 어려운 요소의 영향이 강한 것으로 보인다는 결론을 내렸습니다. 예를 들어, 수퍼바이저들은 수련생이 독립성과 임상적 정교함을 보여준 정도와 수련생이 수퍼바이저의 업무를 더 쉽게 만든 정도에 대해 일상적으로 이야기했습니다. 또한, 각 행동의 해석이 다른 행동과의 관계에 어느 정도 영향을 받는다는 점을 고려할 때, 관찰된 긍정적 행동과 부정적 행동을 단순히 합산하는 것만으로는 능력에 대한 판단이 자연스럽게 도출되지 않음을 시사하는 미묘한 뉘앙스가 응답에 드러났습니다(Ginsburg, Regehr, Lingard, & Eva, 2015). 실제로 '강하다' 또는 '견고하다'와 같이 단순해 보이는 형용사가 어떻게 해석되는지는 표현되는 문맥에 따라 달라집니다(Ma, Min, Neville, & Eva, 2013). 
To this end, it is important to note that a series of studies have led researchers to make compelling claims that “entrustability” is at the heart of supervisors’ perceptions of trainee performance (Hauer et al., 2015, ten Cate, 2006). Interviewing clinical supervisors in an effort to get them to speak about the characteristics they observed in poor, average, or good medical residents led Ginsburg, McIlroy, Oulanova, Eva, and Regehr (2010) to conclude that, while a number of behaviours or activities that were mentioned aligned reasonably well with formally established competency frameworks, there appeared to be a strong influence of things that one would be hard pressed to force into a “competency” label. For example, supervisors spoke routinely of the extent to which the trainee demonstrated independence and clinical sophistication, as well as the degree to which the trainee made the supervisor's job easier. Further, their responses revealed a degree of nuance that suggested naturally generated judgments of ability did not derive simply from summing the positive and negative behaviours observed given that the interpretation of each behaviour was to some extent influenced by its relation to other behaviours (Ginsburg, Regehr, Lingard, & Eva, 2015). Indeed, how seemingly simple adjectives like “strong” or “solid” are interpreted is dependent on the context in which they are expressed (Ma, Min, Neville, & Eva, 2013).

이러한 관찰은 단순히 평가자 기반 평가가 오류 가능성이 있다는 또 다른 증거로 사용될 수 있지만, 특히 Crossley, Johnson, Booth, Wade(2011)는 보다 낙관적이고 발전적인 전망을 유지해야 하는 이유를 입증했습니다. 이들은 이 문헌을 사용하여 평가자가 고려하도록 요청받은 평가 척도를 교육생의 성과에 대한 인식을 나타낼 때 자연스럽게 생각하는 특성과 더 잘 일치시킴으로써 평가의 유용성을 개선할 수 있는지 여부에 대해 질문했습니다. 즉, 평가자에게 다른 구성 요소의 정의를 내면화하도록 요구하기보다는, 평가자가 중요하게 생각하는 구성 요소와 평가 척도를 일치시키기 위해 노력했습니다. 보다 구체적으로, 이들은 일련의 평가 척도에 제시된 형용사를 '기대 충족'과 같은 형식적이고 추상적인 역량 기반 서술어에서, 훈련생이 보여준 독립성과 정교함의 정도를 나타내는 구조에 부합하는 서술어로 수정했습니다. 이렇게 함으로써 여러 평가 전략에 걸쳐 신뢰도가 향상되었으며, 이러한 결과는 최근 프로그램 평가 영역에서도 재현되고 있습니다(Rusticus, Eva, & Peterson, 언론 발표). 물론 이러한 관찰은 의견의 특이성이 어디에서 비롯되는지에 대한 근본적인 의문을 여전히 남깁니다. 
While these observations could be used simply as another indication that rater-based assessment is fallible, Crossley, Johnson, Booth, and Wade (2011) in particular have demonstrated reasons to maintain a more optimistic and generative outlook. They used this literature to question whether or not the utility of ratings could be improved by better aligning the rating scales assessors were asked to consider with the characteristics they indicated naturally thinking about when indicating their perceptions of trainees’ performance. In other words, they made an effort to bring the rating scales in line with the constructs considered important to raters rather than asking raters to internalize the definitions of other constructs. More specifically, they modified the adjectives presented on a series of rating scales away from formal and abstract competency-based descriptors such as “meeting expectations” to construct-aligned descriptors that indicated the degree of independence and sophistication the trainee demonstrated. Doing so resulted, across a number of assessment strategies, in improved reliability, a finding that has recently been replicated in the realm of program evaluation (Rusticus, Eva, & Peterson, in press). These observations of course still leave alive the fundamental question of whence does idiosyncrasy of opinion derive?

과거 경험과 판단의 상대성이 평가자의 특이성을 만드는 방법
How Past Experience and the Relativity of Judgment Create Rater Idiosyncrasy

평가자가 자신의 평가에서 두드러진 특징이라고 주장하는 구조에 맞춰 평가 프로토콜을 구축하면 개선 효과가 있는 것처럼 보이지만, 평가자 간 신뢰도는 여전히 불완전합니다. 비디오로 녹화된 하나의 수행능력에에 주의를 기울였다고 주장하는 두 사람이 공연자가 환자와 눈을 마주치는 것과 같은 간단한 행동을 했는지 여부에 대해 근본적으로 다른 관점을 가질 수 있는 이유는 무엇일까요? 평가자의 특이성이 발생하는 다양한 메커니즘을 직접적으로 이해하기 위한 몇 안 되는 연구 중 하나인 Yeates 등(2013)은 평가자의 판단이 기본적인 인지적 힘과 개인의 이전 경험 간의 상호 작용에 의해 좌우된다는 것을 시사하는 데이터 패턴을 보고했습니다. 연구진은 후배 의사가 환자의 병력을 받는 임상 수행을 비디오로 녹화한 후, 평가자에게 각 의사의 역량에 대한 인상을 공식화하면서 큰 소리로 생각하도록 요청했습니다. 작성된 문장을 주제별로 분석한 결과, (이전 연구를 반복한) 평가의 다양성은 다음 때문에 발생하는 것으로 나타났습니다. 

  • (a) 평가자가 수행의 서로 다른 측면에 주목하고(차별적 중요도),
  • (b) 평가자가 수행을 판단하는 데 가장 중요한 기준에 대해 다른 인상을 가지고 있으며(기준 불확실성),
  • (c) 평가자가 이러한 독특한 관점을 사용하여 개인의 수행에 대한 전체적인 인상을 형성함(정보 통합) 

While building rating protocols to align with the constructs that assessors claim to be prominent in their assessments appears to offer improvement, inter-rater reliabilities remain imperfect. How is it possible that two people, who both claim and appear to be paying attention to a single video-recorded performance, come to fundamentally different perspectives on whether or not the performer did something as straightforward as making eye contact with the patient? In one of the few studies aimed directly at understanding the various mechanisms whereby rater idiosyncrasy arises, Yeates et al. (2013) reported patterns of data that suggest raters’ judgments are driven by the interaction between basic cognitive forces and personal previous experiences. Upon presenting video-recorded representations of clinical performances involving junior doctors taking a history from a patient, they asked assessors to think aloud as they formulated their impressions of each physician's competencies. Thematic analysis of the statements made suggested that the variability of ratings (which replicated previous work) arose due to

  • (a) assessors attending to different aspects of performance (differential salience),
  • (b) assessors having different impressions of the criteria that were most important for judging performance (criterion uncertainty), and
  • (c) assessors forming global impressions of the individual's performance using these unique perspectives (information integration).

즉, 평가자는 고려해야 할 성과에 대한 각 측면에 대해 쉽게 등급을 매기지만, 전체적인 인상은 관찰된 행동의 일부에 초점을 맞춘 독특한 관점에 의해 현저하게 좌우되는 것으로 보입니다. 중요한 것은 평가자의 다양한 인상을 좌우하는 관점의 특이성이 평가자와 그들이 관찰한 다른 수련의/의사 간의 이전 만남의 강도와 두드러짐의 차이에서 비롯되었다는 강력한 징후가 있었다는 점입니다. 이러한 결과를 종합하면, 관찰한 내용이 서로 다른 방식으로 의사의 성과에 대한 판단으로 변환되더라도 똑같이 정확할 수 있기 때문에 인상의 다양성이 반드시 일부 평가자의 '옳음'과 일부 평가자의 '틀림'에 기인한 것은 아니라는 점을 시사합니다(Gingerich et al., 2017).
In other words, while assessors readily provide ratings to each aspect of performance they are asked to consider, their overall impressions appear to be driven markedly by an idiosyncratically focused upon subset of the behaviours observed. Importantly, there were strong indications that the idiosyncrasies of perspective that drove raters’ variable impressions arose from differences in the strength and salience of previous encounters between the assessors and other trainees/physicians they had observed. Taken together, these findings suggest that the variability in impression was not necessarily driven by some raters being “right” and some being “wrong” because the observations made could be equally accurate even though they were translated into judgments of physician performance in different ways (Gingerich et al., 2017).

평가자는 일반적으로 다른 사람이 자신과 현저하게 다른 인상을 형성할 수 있다는 사실을 인식하지 못하기 때문에 복잡한 성과를 평가할 때 발생할 수 있는 측정의 어려움을 이해하기가 어렵습니다. 다시 말하지만, 이는 지식의 저주(타인이 우리와 동일한 배경 지식과 정보를 가지고 있다고 가정함으로써 파생되는 타인의 관점을 고려하는 데 내재된 어려움; Camerer, Loewenstein, & Weber, 1989)의 예를 제공하므로 광범위하게 적용할 수 있는 인지적 현상을 나타냅니다. 대부분의 임상의들은 (일화적으로) 관찰된 자극의 모호성 가능성을 인식할 수 있는 어떤 흔들림도 없이 어떤 훈련생이 문제가 될 가능성이 있는지 몇 분 안에 안다고 말할 것입니다. 이러한 맥락에서 판단이 필요한 영역에서 직관적 전문성을 발휘할 수 있는 조건으로 카네만과 클라인(2009)이 제시한 조건이 거의 충족되지 않는다는 점을 고려하면 이러한 인상이 착각일 수 있다는 점을 놓치기 쉽습니다. 직관적 판단이 진정으로 숙련되려면 다음과 같아야 한다고 주장합니다

  • 환경이 상황의 본질에 대해 적절하게 유효한 단서를 제공하고
  • 사람들이 관련 단서를 학습할 수 있는 기회를 가져야 한다

Assessors are not generally aware that others can form such markedly different impressions from the ones they possess, making it hard to understand the measurement difficulties that can arise when trying to assess complex performances. Again, this is indicative of a broadly applicable cognitive phenomenon as it offers an example of the curse of knowledge (the difficulty inherent in considering the perspective of others derived from presumptions they have the same background knowledge and information that we possess; Camerer, Loewenstein, & Weber, 1989). Most clinicians (anecdotally) will tell you that they know within minutes which trainees are likely to be problematic without any vacillation that would suggest recognition of the potential for ambiguity in the stimulus observed. It is easy in this context to miss that such impressions can be illusory given that the conditions outlined by Kahneman and Klein (2009) as enabling intuitive expertise in domains requiring judgment are rarely met. For intuitive judgment to be genuinely skilled, they argue,

  • the environment must provide adequately valid cues to the nature of the situation and
  • people must have the opportunity to learn the relevant cues.

규칙성이 너무 적은 복잡한 상황(예: 임상 교육 환경)에서는 첫 번째 요건을 위반하기 때문에 예측이 실패합니다. 임상의 평가자는 가장 눈에 띄는 단서가 가장 예측력이 높은 단서라기보다는, 자신의 개인적인 경험(예: 연습 방법 및 과거에 만났던 유사한 훈련생)과 가장 관련성이 높은 단서일 수 있다는 사실을 인식하지 못한 채 성과를 구별하는 데 도움이 되는 단서에 집중합니다. 
In complex situations in which there is too little regularity (e.g., clinical training environments), forecasting fails because the first requirement is violated. Clinician raters focus upon the cues that help them differentiate between performances without recognizing that the cues that are most noticed by them may be the ones that are most relevant to their personal experience (i.e., how they practice and similar trainees they have encountered in the past) rather than those that are most predictive.

자신의 결정의 정확성에 대한 피드백이 일상적으로 제공되지 않는 경우(예: 의학의 거의 모든 성과 평가 상황), 두 번째 요건도 위반됩니다. 평가는 관찰 대상자를 추적 관찰할 기회와 분리되는 경우가 많으며, 그렇지 않은 경우에도 임상의가 개별 학습자에 대한 인상을 통해 다른 인상을 가진 교육생과 다르게 상호작용하도록 유도함으로써 자기충족적 예언을 만들 수 있다는 것은 쉽게 상상할 수 있습니다(우리가 아는 한 문서화된 적은 없지만). 동시에, 인상이 바뀌는 경우 초기 인상이 잘못되었다고 결론 내리기보다는 관찰 대상자의 성장으로 인한 변화로 돌리는 것이 더 쉬울 수 있습니다.
When feedback regarding the accuracy of one's decision is not routinely available (e.g., nearly every performance assessment context in medicine), the second requirement is also violated. Assessments are often divorced from opportunities to follow up with the person being observed and, even when they are not, it is easy to imagine (although never documented to our knowledge) that clinicians’ impressions of individual learners would create self-fulfilling prophecies by leading them to interact differently with trainees about whom they have different impressions. At the same time, if one's impression does change it is likely easier to attribute such change to growth on the part of the person being observed rather than to conclude that one's initial impression was wrong.

예이츠와 그의 팀은 평가자에게 제시하는 순서를 조작(또는 기록)하는 일련의 연구를 통해 과거 경험이 현재 관찰 대상에 대한 인상에 미치는 영향을 실험적으로(그리고 관찰적으로) 확인했습니다. 대조 효과(자극 간의 차이를 지나치게 강조하는 현상; Stewart, Brown, & Chater, 2005)는 순차적으로 제시된 자극을 의도적으로 고려해야 하는 과제에서 발생하는 경향이 있다는 심리적 앵커링 문헌의 제안에 따라(Mussweiler, 2003, Tanner, 2008), 연구진은 동일한 수행을 관찰하기 전에 좋은 수행을 관찰했을 때보다 나쁜 수행을 관찰하기 전에 수행했을 때 응시자의 수행이 일상적으로 평균적으로 높게 평가되는 것을 발견했습니다. 이러한 패턴은 평가자가 신중하게 통제된 비디오에 부여한 평가(Yeates, O'Neill, Mann, & Eva, 2012), 실제의 고부담 평가 상황에서 부여된 평가를 조사한 연구(Yeates, Moreau, & Eva, 2015), 평가자가 수행을 관찰한 후 훈련생에게 제공하기로 선택한 내러티브 피드백(Yeates, Cardell, Byrne, & Eva, 2015)에서도 발견되었습니다. 이러한 판단의 상대성은 우리가 관찰 가능하고 잠재적으로 의미 있는 모든 정보를 고려하는 동시에 작업 기억에서 활성화되는 절대적 기준에 대한 정신적 접근(또는 보유 능력)의 한계로 인해 사용 가능한 정보의 일부에만 인상을 근거로 삼을 수밖에 없음을 시사합니다(Tavares & Eva, 2013).
Yeates and his team experimentally (and observationally) confirmed the influence of past experience on one's impressions of current observations across a series of studies in which they manipulated (or recorded) the order of presentation to raters. Consistent with the psychological anchoring literature's suggestion that contrast effects (an over-emphasis on differences between stimuli; Stewart, Brown, & Chater, 2005) tend to arise when tasks involve deliberate consideration of sequentially presented stimuli (Mussweiler, 2003, Tanner, 2008), they found that candidates’ performance was routinely rated higher on average when it was preceded by observation of a poor performance relative to when the same performance was preceded by observation of a good performance. This pattern was seen in the ratings assessors assigned to carefully controlled videos (Yeates, O’Neill, Mann, & Eva, 2012), in a study examining ratings assigned in a real life, high-stakes, assessment context (Yeates, Moreau, & Eva, 2015), and also in the narrative feedback assessors chose to provide to trainees after observing their performance (Yeates, Cardell, Byrne, & Eva, 2015). Such relativity of judgment suggests we are forced to base our impressions on only a sample of the information available due to limitations in our mental access to (or capacity to hold) absolute standards active in working memory while also considering all observable and potentially meaningful information (Tavares & Eva, 2013).

적은 것을 요구하여 더 많은 것을 얻기
Getting More by Asking for Less

평가자가 사용 가능한 정보의 일부에 크게 영향을 받는 작업 기억 제약에 대한 이러한 우려는 평가자에게 특정 시점에 더 적은 일을 요구함으로써 평가자의 특이성을 어느 정도 극복할 수 있다고 제안하는 Tavares의 실험 연구와 함께 고려할 때 더욱 강화됩니다. 그의 연구의 기본 설계는 평가자의 평가의 유용성이 어떻게 달라지는지를 확인하는 것이었습니다.

  • 평가자에게 표준 직장 기반 평가 과제(즉, 의료 전문가에게 기대되는 광범위한 역량을 반영하는 7개 차원에 대해 성과를 관찰하고 등급을 부여하는 과제)를 완료하도록 요청했을 때와
  • 평가자에게 7개 차원 중 2개만 포함된 수정된 버전의 동일한 평가 양식을 사용하여 동일한 성과를 검토하고 점수를 부여하도록 요청했을 때 

평가자가 작업 기억 과부하로 인해 부담을 느끼고 7가지 차원 버전에서는 주의가 너무 얇게 나뉜다는 가설을 세우고, (a) 두 그룹에 일관된 수행의 2개 차원에 해당하는 행동을 성공적으로 식별한 수를 고려하여 평가자 기반 평가의 유용성을 조사하고 (b) 해당 2개 차원에 할당된 점수의 평가자 간 신뢰도를 계산하여(Tavares and Eva, 2014, Tavares et al, 2016), (c) 평가자가 제공한 피드백의 양을 조사했습니다(Tavares et al., 2016). 
Such concerns about working memory constraints leading assessors to be heavily influenced by a subset of the information available become strengthened when considered in conjunction with experimental research conducted by Tavares that suggests rater idiosyncrasy can be overcome to some extent by asking them to do less at any given point in time. The basic design of his studies has been to determine what happens to the utility of assessors’ ratings

  • when they are asked to complete a standard workplace-based assessment task (i.e., observing a performance and assigning ratings to 7 dimensions that reflect the breadth of competencies expected of health professionals) compared to
  • when they are asked to review and score the same performance using a modified version of the same rating form that includes only 2 of the 7 dimensions.

Hypothesizing that raters are burdened by working memory overload and that their attention is divided too thinly in the 7 dimensional version, the utility of rater-based assessment has been examined by (a) considering the number of behaviours successfully identified that are specific to the 2 dimensions of performance consistent to both groups (Tavares & Eva, 2014), (b) calculating the inter-rater reliability of the scores assigned to those 2 dimensions (Tavares and Eva, 2014, Tavares et al., 2016), and (c) examining the amount of feedback provided by assessors (Tavares et al., 2016).

각각의 데이터는 평가자에게 관찰된 성과를 보다 포괄적으로 평가하도록 요청할 때 평가의 질이 저하되는 것을 시사했습니다. 또한, 과제 후 인터뷰의 주제별 분석에 따르면 평가자들은 적어도 사후에 평가 과제를 단순화하기 위한 조치를 취해야 한다는 사실을 인식하고 있었습니다(Tavares 외., 2016). 7가지 차원을 모두 평가해야 했던 평가자들은 의사의 행동과 관련된 모든 특징을 추적하는 것이 너무 어려웠기 때문에 일부 차원에 우선순위를 둠으로써 자발적으로 과제 요구 사항을 줄였다고 보고했습니다. 이 과정에서 평가자들은 "가장 쉬운", "부정적인" 또는 "가장 명백한" 항목에 집중했다고 주장합니다. 개별 평가자가 특정 행동에 일관되게 우선순위를 부여한다는 증거가 없기 때문에, 평가자가 스스로 판단하여 과제를 단순화하는 방법을 결정하도록 맡길 경우 해당 범주에 해당하는 차원 또는 행동은 평가를 수행하는 개인과 평가 대상자 간의 상호작용에 따라 달라지는 것으로 보입니다. 

In each case the data suggested a decline in the quality of assessments when assessors are asked to rate the performances observed more comprehensively. Further, thematic analysis of post-task interviews suggested that assessors were aware, at least after the fact, of taking steps to simplify the assigned rating task (Tavares et al., 2016). Those charged with assessing all seven dimensions reported feeling that they had spontaneously reduced the task demands by prioritizing a subset of the dimensions because they found it too difficult to track all relevant features of the physician's behaviour. In doing so, assessors claim to have focused on what they found “easiest,” “negative,” or “most obvious.” When left to their own devices to determine how to simplify the task before them, what dimensions or behaviours fit into those categories appears to be idiosyncratic to the interaction between the individual performing the assessment and the individual being assessed, as there has been no evidence that individual raters consistently prioritize particular behaviours.

이러한 발견은 다양한 역량의 개발과 평가를 장려하여 진료의 현대화를 위해 노력하는 의학교육자들에게 상당한 수수께끼를 안겨줍니다. 즉, 수행의 모든 중요한 측면을 한 시점에 개인이 평가할 수 없다는 사실을 인정하거나 평가의 질을 희생해야 한다는 것입니다. 즉, 평가 설계자는 평가자가 고려해야 할 사항을 제한함으로써 평가 프로세스의 유용성을 향상시킬 수 있지만, 역량 기반 의학교육이 극복하고자 했던 상황, 즉 지나치게 좁은 진료 범위에 대한 불균형적인 의존과 주의로 돌아갈 위험이 있습니다(Frank et al., 2015). 이러한 상충하는 힘의 조화는 모든 것을 평가해야 하지만 반드시 한꺼번에 평가할 필요는 없다는 생각에 있을 수 있습니다. 물론 평가 과제를 분산하면 실행 가능성에 대한 압박이 발생하지만, 최근 Tavares 등이 수행한 후속 연구에 따르면 평가자에게 6가지 역량 차원을 판단하도록 요청하는 것보다 각각 2가지 역량 차원을 평가하도록 요청받은 평가자의 판단을 합산하는 것이 평가의 신뢰도를 높이고 수행자에게 더 많은 피드백을 제공하는 것으로 나타났습니다. 

Such findings create a considerable puzzle for medical educators who strive to modernize practice by encouraging the development and assessment of varied competencies: either accept that not every important aspect of performance can be assessed by an individual at a point in time or sacrifice quality of the assessment. That is, while assessment designers can improve the utility of an assessment process by limiting what assessors are asked to consider, they risk doing so in a manner that returns to the situation that competency-based medical education was intended to overcome: unbalanced reliance on, and attention to, an overly narrow scope of practice (Frank et al., 2015). The reconciliation of these competing forces may lie in the idea that while everything needs to be assessed it need not necessarily be assessed all at once. Spreading out an assessment task of course creates feasibility pressures, but recent follow-up work conducted by Tavares et al. has indicated that, relative to asking assessors to judge 6 dimensions of competence, aggregating the judgments of raters who are each asked to evaluate two dimensions of competence increased the reliability of the ratings and resulted in more feedback to the performer.

군중의 지혜 활용하기
Taking Advantage of the Wisdom of Crowds

그렇다고 해서 성과 판단에 대한 책임을 분담한다고 해서 분담 규모에 비례하여 리소스의 필요성이 반드시 증가한다고 가정할 필요는 없을 것입니다. 작업을 더 단순하게 만들면 더 짧은 시간에 의미 있는 성과에 대한 인상을 형성할 수 있습니다. 지금까지 논의한 문헌과 일관되게, 직무 또는 교육 프로그램 면접에서 성과 평가를 조사한 연구에 따르면 성과에 대한 포괄적인 인상을 주기 위해 더 많은 시간을 투자하는 것은 환상에 불과하다고 합니다. Ambady 등은 면접에서 지원자의 성과를 판단해 달라는 요청을 받은 평가자가 몇 분 안에 대부분 인상을 형성한 다음, 대부분의 경우 지원자가 인상 관리 전략을 성공적으로 사용할 수 있는 더 큰 기회를 놓칠 위험을 감수하면서 면접의 나머지 시간을 초기 인상을 강화하는 데 보낸다고 보고합니다(Ambady and Rosenthal, 1992, Ambady 등, 2000, Ellis 등, 2002). Wood, Chan, Humphrey-Murto, Pugh, Touchie(2017)는 임상 수행 환경에서 평가자가 관찰 후 1분 이내에 형성하는 판단이 수행이 완료된 후 수집된 최종 평가를 강력하게 예측한다는 사실을 유사하게 보여주었습니다. 관찰에서 수집된 정보의 양보다 수행 평가의 신뢰성에 훨씬 더 중요한 것은 정보를 수집하는 관찰 횟수입니다. 일련의 짧은 만남에 대한 평가는 일반적으로 한 번의 만남에 장기간 노출되는 것보다 더 높은 신뢰성을 제공합니다(Axelson & Kreiter, 2009). 이는 필기 평가와 임상 수행 평가 모두에서 강력하게 입증되었으며, 샘플링은 오랜 시간 동안 평가 형식 전반에 걸쳐 주요 일관성을 유지하는 것으로 확인되었습니다(Eva, 2009). 
That said, it perhaps need not be assumed that divvying up responsibility for judging performance necessarily increases resource needs proportionate to the amount of division. If the task is made simpler, then one can potentially form a meaningful impression of performance in less time. Consistent with the literature discussed to this point, studies examining performance assessment in job or training program interviews suggest that the value of spending more time striving to generate a comprehensive impression of performance is illusory. Ambady and others report that assessors who are asked to judge the performance of job candidates during an interview have largely formed their impression within minutes and then, for the most part, spend the rest of the interview reinforcing that initial impression at the risk that candidates find greater opportunity to successfully engage impression management strategies (Ambady and Rosenthal, 1992, Ambady et al., 2000, Ellis et al., 2002). Wood, Chan, Humphrey-Murto, Pugh, and Touchie (2017) have similarly shown that in clinical performance settings, the judgments that assessors form within the first minute of observation are strongly predictive of their final rating collected after the performance is complete. Much more important to the reliability of a performance assessment than the amount of information collected from an observation is the number of observations from which information is collected. Assessment of a series of brief encounters generally offers greater reliability than prolonged exposure to a single encounter (Axelson & Kreiter, 2009). This has been demonstrated both in written assessments and clinical performance assessments so robustly that sampling has been identified as the main consistency across assessment formats that have stood the test of time (Eva, 2009).


학생 선발 문헌을 예로 들면, 지원자에 대한 짧은 노출을 많이 활용하는 혁신적인 면접 형식에 대한 10년 반의 연구를 통해 시험-재시험 신뢰도가 기존 면접 전략의 두 배에 달하고(Eva 외, 2009), 면접이 실시된 후 최대 4년까지 수행 결과를 예측할 수 있는 강력한 역량을 확보한 것으로 나타났습니다(Eva 외, 2009, Eva 외, 2012c, Reiter 외, 2007). 다중 미니 인터뷰(MMI)라고 불리는 이 형식은 지원자가 여러 면접관과의 긴 패널식 인터뷰에 참여하는 대신 단일 면접관과의 짧은(5~8분) 인터뷰 시리즈(n = 8~12)를 돌아가며 진행하도록 하는 사실상 '벨 러너(bell ringer)'입니다(Eva, Rosenfeld, Reiter, & Norman, 2004). 중요한 점은 이러한 연구에서 데이터를 제공한 평가자들이 특정 분야에 대해 고도로 훈련된 전통적인 의미의 '전문가'가 아니었다는 점입니다. 의대 지원자를 평가해 달라는 요청을 받은 사람들 중에는 의사가 포함되어 있었지만, 의대와 관련이 없는 의대생과 지역사회 구성원도 포함되었습니다. 사실, 의사가 환자 인구의 대부분을 차지하는 일반인과 얼마나 효과적으로 소통하는지를 판단하는 데는 의사보다 일반인이 더 나은 참고 집단이라는 점에서 이 맥락에서 어떤 형태의 '전문성expertise'이 특히 가치가 있는지는 명확하지 않습니다. 

Using the student selection literature as an example, a decade and a half of work on an innovative interview format that relies on many short exposures to candidates has revealed test–retest reliabilities double that of traditional interview strategies (Eva et al., 2009) and yielded stronger capacity to predict performance outcomes up to four years after the interviews take place (Eva et al., 2009, Eva et al., 2012c, Reiter et al., 2007). The format, called a Multiple Mini-Interview (MMI) is effectively a “bell ringer” in which applicants are asked to rotate through a series (n = 8–12) of brief (5–8 min) interviews with single examiners rather than participating in a long panel-style interview with multiple interviewers (Eva, Rosenfeld, Reiter, & Norman, 2004). Importantly, the raters who provided the data in these studies were not “experts” in the traditional sense of being highly trained in a particular area. Those asked to judge candidates to medical school included physicians, but they also included medical students and community members with no affiliation to the medical school. In fact, what form of “expertise” is particularly valuable in this context is not clear because arguably laypeople are a better reference group than physicians to determine how effectively physicians communicate with the laypeople who constitute the majority of the patient population.

어떤 경우에는 전문성이 도움이 될 수 있으며, 후보자 간에 일관된 초점이 유지되도록 면접을 신중하게 구조화함으로써 얻을 수 있는 유용성이 있는 것으로 보이지만(Axelson, Kreiter, Ferguson, Solow, & Huebner, 2010), 최근 발표된 실험 비교에 따르면 MMI 프로세스를 수행함으로써 얻을 수 있는 이점의 대부분은 여러 맥락에서 여러 평가자의 인상을 샘플링함으로써 생성되는 것으로 나타났습니다(Eva & Macala, 2014). 수로비에츠키(2004)의 저서 '군중의 지혜'에서 널리 알려진 이 원칙은 다음이 증가함에 따라 주관성의 가치가 증가한다는 것으로 요약할 수 있습니다. 

  • (a) 수집된 관찰의 수,
  • (b) 관찰의 독립성,
  • (c) 평가가 생성되는 관점의 다양성,
  • (d) 평가가 이루어지는 근거의 탈중앙화(즉, 평가자가 특정 알고리즘을 적용하여 판단하도록 장려하는 것이 아니라 자신의 경험과 전문성을 바탕으로 자신의 인상을 형성하도록 맡김)

Expertise might be beneficial in some instances, and there appears to be some utility derived from carefully structuring interviews such that a consistent focus is maintained across candidates (Axelson, Kreiter, Ferguson, Solow, & Huebner, 2010), but recently published experimental comparisons have indicated that the bulk of the benefit gained from undertaking the MMI process is generated by sampling the impressions of multiple assessors in multiple contexts (Eva & Macala, 2014). The principle, popularized in Surowiecki's (2004) book, The Wisdom of Crowds, is summarized by that author as the value of subjectivity increasing with

  • (a) the number of observations collected,
  • (b) the independence of those observations,
  • (c) the diversity of perspectives from which the assessments are generated, and
  • (d) decentralization of the basis from which the assessment is made (i.e., leaving the assessors to form their own impressions based on their experience and expertise rather than encouraging them to apply a particular algorithm to form their judgment).


의학의 많은 평가 상황에서 다양한 사람들을 많이 접할 수 없는 현실을 고려할 때, 크라우드 소싱의 이점이 다양한 사람들이 자신의 인상을 제공하는 것에 전적으로 의존하지 않는다는 증거가 있다는 사실을 아는 것은 매우 중요합니다. 오히려 개인이 여러 차례 독립적으로 관찰하는 동안 성능 평가를 제공함으로써 '군중의 지혜'가 생성될 수 있습니다. 벌과 파슬러(2008)는 개인의 판단이 그들이 인식하는 확률 분포의 표본을 나타낼 수 있으며, 이를 통해 한 개인의 여러 표본이 다양한 사람들의 관점에서 표본을 추출하는 것과 동일한 많은 이점을 복제할 수 있다고 제안합니다. 연구진은 일반 지식 질문을 사용하여 추측 사이에 지연이 개입되었는지 여부에 관계없이 여러 추측의 평균이 개별 추정치보다 더 정확하다는 사실을 발견했습니다. 마찬가지로 튜토리얼 기반 평가 관행과 관련된 신뢰도 지표에 좌절감을 느낀 저희는 앞서 언급한 노력과는 정반대로, 맥락과 관련된 성능의 측면을 의도적으로 많이 나열하여 "평가 척도를 개선"하려는 노력을 기울였습니다(Eva et al., 2007). 문헌의 여러 보고서에서는 튜토리얼 기반 평가자에게 더 많은 질문을 함으로써 평가 척도의 내적 일관성을 개선할 수 있다고 제안했습니다(Hebert and Bravo, 1996, Ladouceur et al., 2004). 안타깝게도 시험-재시험 신뢰도는 개선되지 않았으며, 이는 이러한 노력이 기껏해야 한 시점에만 학생의 성과에 대한 유효한 인상을 생성하는 반면 응답 부담은 더 커졌음을 시사합니다. 한 학기에 한두 번만 양식을 작성하면 평가자가 학기 말의 평가가 학생의 평균 성적을 반드시 대표하지 않는 최근 또는 특히 두드러진 관찰에 의해 주로 좌우될 가능성이 높다는 점에서 가용성 편향(Tversky & Kahneman, 1973)에 매우 취약해집니다. 기억력의 한계를 극복하기 위해 설문지를 길게 작성하는 대신 3개 문항으로만 단축하고(그룹 과정에 대한 기여도, 그룹 내용에 대한 기여도, 전문적 행동),  7개 과목의 튜터에게 각 튜터링이 끝난 후 학생을 위해 양식을 작성하도록 요청했습니다(Eva et al., 2007). 튜터의 직관과 달리 튜토리얼마다 부여된 평가는 매우 다양했으며, 이는 성과(또는 적어도 평가자의 성과에 대한 인상)가 우리가 일반적으로 인식하는 것처럼 관찰할 때마다 일관적이지 않다는 것을 나타냅니다. 그러나 각 튜토리얼에 부여된 등급을 집계한 결과, 테스트-재테스트 신뢰도가 완벽에 가까워짐에 따라 관찰된 성능을 정의하는 데 사용되는 점수가 안정화되었습니다. 즉, 메모리는 제한되어 있지만 평가자의 성과 평가를 보다 체계적으로 수집하려는 의도가 있다면 메모리에 의존할 필요가 없습니다. 한 시점에(즉, 지체 없이) 여러 개의 추정치를 취하면 오류가 줄어든다는 벌과 파슬러의 발견은 평가자에게 관찰된 각 수행 후에 특정 능력에 대한 여러 개의 추정치를 제공하도록 요청하는 또 다른 방법을 시사합니다. 

Given the practical reality that many assessment contexts in medicine do not allow access to a large number of varied people, it becomes valuable to know that evidence suggests that the benefits of crowd sourcing are not fully dependent on many different people providing their impressions. Rather, there may be a “wisdom of the crowd within” that can be generated by having individuals offer performance ratings during multiple independent occasions of observation. Vul and Pashler (2008) suggest that an individual's judgments may represent a sample of the probability distribution they perceive, which would enable multiple samples from within an individual to replicate many of the same benefits as sampling across the perspectives of various people. They found, using general knowledge questions, that the average of multiple guesses was more accurate than individual estimates whether or not a delay intervened between guesses. Similarly, frustrated by reliability metrics associated with tutorial-based assessment practices, we took a tack opposite to the efforts alluded to earlier that strive to “improve the rating scales” by deliberately listing as many aspects of performance as are relevant to the context (Eva et al., 2007). Multiple reports in the literature suggested that one could improve the internal consistency of rating scales by asking tutorial-based assessors a larger number of questions (Hebert and Bravo, 1996, Ladouceur et al., 2004). Unfortunately, test–retest reliability did not improve, suggesting that at best the effort generated a valid impression of student performance at only one point in time while resulting in greater response burden. Filling out the form only once or twice a term leaves raters highly susceptible to availability bias (Tversky & Kahneman, 1973) in that their ratings at the end of a term are likely to be predominantly driven by recent or particularly salient observations, neither of which are necessarily representative of the student's average performance. To try to overcome the limitations of memory, rather than lengthening the questionnaire, we shortened it to only 3 questions (contribution to group process, contribution to group content, and professional behaviour) and asked tutors in seven distinct courses to complete the form for their students after each tutorial (Eva et al., 2007). Contrary to tutors’ intuitions, the ratings assigned from one tutorial to the next were highly variable, indicating that performance (or at least assessors’ impressions of performance) was not as consistent from one observation to the next as we commonly perceive. However, aggregating across the ratings assigned to each tutorial resulted in stabilization of the scores used to define the performance observed as the test–retest reliability approached perfection. In other words, while memory is limited, we need not rely on it if we are deliberate about gathering raters’ assessments of performance more systematically. Vul and Pashler's finding that multiple estimates taken at a single time point (i.e., without delay) resulted in error reduction implies another way forward by asking raters to offer multiple estimates of a particular ability after each observed performance.

요약 및 지속적인 요구 사항
Summary and Ongoing Needs

복잡한 성과를 평가하기 위한 평가자 기반 평가 관행을 개발하려는 노력에서 나온 많은 문헌의 주제를 가장 일반적으로 표현하면, 평가자는 인간이라는 사실에 의해 방해를 받는다는 것입니다. 인간의 인지 능력은 여러 가지 면에서 제한적입니다.

  • 유한한 주의력,
  • 불완전한 정보로 자동적이고 빠르게 인상을 형성하는 경향,
  • 모든 관찰을 기억에 완벽하게 기록하지 못하는 점 등 

이러한 요인들은 단순히 다르게 생각하라고 말하는 것만으로는 바꿀 수 없는 방식으로 성과 평가에 영향을 미칩니다. 다행히도 효과적인 수행을 정의하는 광범위한 역량을 평가하려면 판단력이 필요하다는 점을 고려할 때, 평가자의 인지를 탐구하려는 최근의 노력(예: Gauthier 외, 2016, Gingerich 외, 2014)은 우리의 한계로 인해 발생하는 문제를 더 잘 인식한다면 우리의 단점을 수용하는 방식으로 평가 프로토콜을 설계하고 그 단점에 맞서 싸우지 않고 자연스러운 사고 방식을 활용할 수 있음을 시사합니다. 이 백서에 소개된 다양한 사례를 통해 주관적인 인상 형성을 통해 수집된 데이터의 유용성을 향상시킬 수 있는 방법을 설명했습니다. 이를 무술의 아이키 원리에 비유하자면, 상대방에게 직접적으로 대항하여 상당한 힘이나 노력을 기울이기보다는 상대방의 기세를 이용하여 상대방의 힘을 무력화하거나 방향을 전환하는 것입니다. 다시 말해, 우리는 적을 보았고, 그 적은 바로 우리 자신입니다.
Expressed most generally, the theme of much of the literature that has emerged from efforts to develop rater-based assessment practices for the evaluation of complex performances is that raters are hindered by the fact they are human. Human cognition is limited in many ways,

  • from our finite attentional capacity,
  • through our tendency to form impressions automatically and rapidly with incomplete information,
  • to an inability to retain a complete record of all observations in memory.

These factors influence performance assessment in ways that cannot be changed by simply telling people to think differently. Fortunately, given that assessing the breadth of competencies that define effective practice requires judgment, more recent efforts to explore rater cognition (e.g., Gauthier et al., 2016, Gingerich et al., 2014) suggest that if we are more aware of the challenges our limitations create, we can design assessment protocols in ways that accommodate our shortcomings and take advantage of our natural ways of thinking rather than fighting against them. In the variety of examples outlined in this paper we have illustrated ways in which doing so has improved the utility of data collected through subjective impression formation. We liken this to the martial arts principle of Aiki, which amounts to negating or redirecting the power of one's opponent by taking advantage of his momentum rather than exerting considerable force or effort by trying to directly oppose it. In other words, we have seen the enemy and it is us.

이러한 문헌의 증가에 따라 Crossley와 Jolly(2012)는 의학교육 분야에서 "올바른 사람에 대해 올바른 방식으로 올바른 질문을 하는 것"을 목표로 평가자 기반 평가에 대해 생각해 보도록 설득력 있게 도전했습니다. 아이키를 그 방법에 대한 은유로 사용하게 된 연구를 고려할 때, 우리는 어디에 서 있으며 인지 심리학은 이러한 각 요구와 관련하여 무엇을 더 제공할 수 있을까요?
As a result of this growing literature, Crossley and Jolly (2012) eloquently challenged the field of medical education to think about rater-based assessment with the goal to “ask the right questions, in the right way, about the right things, of the right people.” Given the research that prompted the use of Aiki as a metaphor for how to do so, where do we stand and what more can cognitive psychology provide with respect to each of these demands?

올바른 질문하기 ...
Ask the Right Questions …

인지적 한계로 인해 더 많은 질문을 할 때 내적 일관성을 보장하는 후광 효과와 혼 효과가 발생하기 때문에 점점 더 많은 수의 질문을 더 자세히 묻는 것은 평가 관행이 개선되었다는 착각만 불러일으킵니다(Eva 외., 2007). 이는 의료 전문가가 유지해야 하는 다양한 역량에 대한 변별력 있는 지침을 제공하려는 시도를 저해하는 요인으로 작용합니다(Lurie et al., 2009). 반대로, 평가 프로토콜을 성과 평가자가 성과 품질을 정의할 때 강조하는 구성에 맞게 조정하면 현재 관찰과 평가자가 상대적 판단을 내리는 경험의 토대 사이에 더 나은 일치를 만들어 평가의 유용성을 개선하는 데 도움이 됩니다(Crossley et al., 2011). 
Asking increasing numbers of questions in increasing detail creates only the illusion of improved assessment practices because cognitive limitations lead to halo and horn effects that ensure greater internal consistency when larger numbers of questions are asked (Eva et al., 2007). That acts to the detriment of attempts to offer discriminating guidance regarding the diverse competencies health professionals are expected to maintain (Lurie et al., 2009). In contrast, tailoring assessment protocols to the constructs of performance raters themselves highlight as defining performance quality helps improve the utility of the ratings by creating better alignment between current observations and the foundation of experience against which raters make relative judgments (Crossley et al., 2011).

가장 엄격한 평가 프로토콜에서도 불가피하게 가변적 인상이 발생할 때 이를 어떻게 처리해야 하는지는 아직 이해되지 않았습니다. 다양한 연구에 따르면 평가의 특이성은 평가자가 자신의 경험을 통해 수행의 특이적인 측면에 초점을 맞추도록 유도하기 때문에 발생한다는 사실이 밝혀졌다고 해서(Kogan 외., 2010), 점수의 변동에 기여한 사람이나 모든 사람이 틀렸다고 단정할 수는 없습니다(Gingerich, Regehr, & Eva, 2011). 학습자(즉, 우리 모두)는 부정적인 피드백을 무시하는 경향이 있지만(Eva 외., 2012a, Harrison 외., 2013), 관찰자마다 다른 인상을 형성했다고 해서 평가 정보를 무시하는 것은 너무 안일한 대응입니다. 임상의의 일반적인 경향을 의미 있게 표현하기 위해 많은 노력이 필요하다는 사실은 모든 삶의 영역에서와 마찬가지로, 의학에서도 특정 성과에 대한 다양한 관점을 가진 사람들을 계속 만나게 될 것임을 나타냅니다. 따라서 우리는 평가자와 평가 대상자 모두가 이러한 다양성과 씨름하는 방식을 더 잘 이해하여 평가의 정보적 가치를 반사적으로 디스카운트하지 않고 최적화할 수 있는 방법이 있는지 판단할 필요가 있습니다. 결국, 마음에 들지 않는 평가를 받으면 일부 사람들이 그러한 인상을 형성하는 것에 만족할지, 아니면 다른 '이상치'가 동일한 인상을 형성할 위험을 최소화하기 위해 어떤 식으로든 행동을 바꿔야 할지 결정해야 할 책임이 우리에게 있습니다.
Not yet understood is what to do with variable impressions when they inevitably arise, even in the most rigorous of assessment protocols. The fact that various studies have shown idiosyncrasy of assessment arises because assessors are prompted, through their own experiences (Kogan et al., 2010), to focus upon idiosyncratic aspects of performance (Yeates et al., 2013), does not necessitate that anyone or everyone who contributed to the variability in scores was wrong (Gingerich, Regehr, & Eva, 2011). While learners (i.e., all of us) have a tendency to discount feedback that is negative (Eva et al., 2012a, Harrison et al., 2013), ignoring assessment information just because different observers formed different impressions is too glib a response. The fact that so much effort is required to generate a meaningful representation of a clinician's general tendencies indicates that we will continue in medicine, as in all walks of life, to encounter people with variable perspectives on the strengths of any given performance. As such, we need to better understand how raters and ratees alike grapple with such variability to determine if there are ways to optimize the informational value of assessments rather than reflexively discounting them. When we receive an assessment that is less than comfortable, after all, the onus lies upon us to determine if we are content for some people to form that impression or if we need to change our behaviour in some way to minimize the risk of other “outliers” forming the same impression.

올바른 방법으로...
… in the Right Way …

평가자에게 현실을 표현하기 위해 질문에 숫자를 할당하도록 요청하는 것은 모든 목적에 충분하지 않은 정확성에 대한 환상만 불러일으킵니다(Regehr et al., 2012). 이는 품질 보증 요구(게이트키핑 역할)를 충족하는 것 외에도 질적 개선(평가의 정보적 가치를 활용하여 전문성 개발을 지속하는 것)을 위해 평가 관행을 사용하려는 시도를 저해하는 요인으로 작용합니다. 이와는 대조적으로, 심리학 및 의학교육 분야에서 평가 관행이 학습의 측정으로만 작용하기보다는 학습을 가능하게 할 수 있다는 연구가 급증하고 있지만(Roediger and Butler, 2011, Schuwirth and van der Vleuten, 2011), 보건 전문가에게 기대되는 광범위한 역량을 고려할 때, 의사소통 기술에서 4.3점을 받았다는 말만으로는 개선 방법에 대한 충분한 지침을 제공하지 못합니다. 이 원고 전체에 걸쳐 설명된 평가 프로토콜의 목적은 암묵적으로 측정 속성을 개선할 수 있는 방식으로 데이터를 수집하는 데 중점을 두었습니다. 성과 개선이 최우선 과제인 순간에는 수집된 평가의 심리측정 특성을 높이는 것이 그 목적을 달성하는 수단이 아닐 수 있습니다.
Asking raters to assign numbers to questions as a representation of reality creates only the illusion of precision that will not be sufficient for all purposes (Regehr et al., 2012). That acts to the detriment of attempts to use assessment practices for the sake of quality improvement (taking advantage of assessment's informational value to continue one's professional development) in addition to fulfilling quality assurance needs (their gatekeeping role). In contrast, while there is a burgeoning industry of research in both psychology and medical education indicating that assessment practices can enable learning rather than acting purely as measurement of learning (Roediger and Butler, 2011, Schuwirth and van der Vleuten, 2011), for the breadth of competencies expected of health professionals, being told that one achieved a rating of 4.3 for communication skills does not provide sufficient guidance regarding how to improve. Throughout this manuscript the purpose of the assessment protocols described has implicitly been focused on gathering data in ways that might improve their measurement properties. In moments when performance improvement is one's priority, increases in the psychometric properties of the ratings collected may not be the means through which that end is achieved.

복잡한 행동과 역량을 평가로 적절히 추출할 수 있다고 믿기보다는 내러티브나 다른 형태의 평가를 고려함으로써 더 많은 것을 얻을 수 있는 정도는 아직 이해되지 않았습니다. 한 영역에서 숙련되지 않은 사람들은 자신이 숙련되지 않았다는 사실을 인식하지 못할 것이며, 더 큰 문제는 숙련되기 위해 무엇을 해야 하는지 판단할 수 있는 능력이 부족할 것이라고 믿을 만한 충분한 이유가 있습니다(Kruger & Dunning, 1999). 여기에 설명된 모든 동일한 문제(의견의 다양성 등)가 수치적 피드백에 영향을 미치는 것만큼이나 서술형 피드백에도 쉽게 영향을 미칠 수 있고, 서술형 피드백에는 더 많은 리소스가 필요하다는 추가적인 문제가 있음에도 불구하고, 서술형 평가 형식이 이러한 수행의 복잡성을 적절히 포착하고 보다 건설적인 지침을 제공할 수 있는지 여부를 결정하기 위한 노력이 진행 중입니다. 평가자가 특정 의견을 할당하도록 유도하는 요인과 그러한 의견의 해석에 영향을 미치는 요인은 정성적 평가 데이터와 정량적 평가 데이터가 서로 함께 제시될 때 상호 작용의 영향과 마찬가지로 더 자세히 살펴볼 필요가 있습니다(Eva, Regehr, & Gruppen, 2012). 
Not yet understood is the extent to which more might be gained by considering narrative or other forms of assessment rather than trusting that complex behaviours and competence can be adequately distilled into ratings. There is good reason to believe that those who are unskilled in a domain will be unaware that they are unskilled and, more problematically, will be poorly positioned to determine what to do to become skilled (Kruger & Dunning, 1999). Efforts are underway to determine whether or not narrative forms of assessment can adequately capture that complexity of performance and provide more constructive guidance despite the fact that all the same challenges outlined here (variability of opinion, etc.) will impact narrative feedback as readily as they impact numerical feedback and that narrative has the added challenge of being more resource intensive. What prompts raters to assign particular comments and what factors influence interpretation of such comments needs to be further explored, as does the influence of the interplay between qualitative and quantitative assessment data when presented in conjunction with one another (Eva, Regehr, & Gruppen, 2012).

... 올바른 것들에 대해 ...
… About the Right Things …

평가자에게 특정 수행의 맥락에서 고려해야 할 중요하고 관련성이 있는 모든 역량을 파악하도록 요청하는 것은 주의력이 유한하고 모든 것을 하려고 하면 제대로 된 것이 없기 때문에 평가 관행이 개선되었다는 환상만 불러일으킵니다(Tavares & Eva, 2013). 이는 현대 의료 전문가에게 기대되는 많은 역할을 신뢰성 있게 반영하는 교육 및 품질 보증 시스템을 활성화하려는 노력에 해를 끼칩니다(Frank et al., 2015). 반면, 평가자가 의도적이고 전향적으로 성과 차원의 하위 집합에 우선순위를 두도록 하면 관련 행동을 식별하는 속도가 빨라지고 평가자 간 신뢰도가 높아지며 수행자에 대한 차원별 피드백이 더 많이 생성됩니다(Tavares et al., 2016).
Asking raters to capture the entire breadth of competencies that might be relevant and important to consider in the context of any given performance creates only the illusion of improved assessment practices because attention is finite and trying to do everything results in nothing being done well (Tavares & Eva, 2013). That acts to the detriment of efforts to enable a system of education and quality assurance that credibly reflects the many roles expected to be played of modern day health professionals (Frank et al., 2015). In contrast, having raters deliberately and prospectively prioritize attending to a subset of performance dimensions increases the rate at which relevant behaviours are identified, raises inter-rater reliability, and generates more dimension-specific feedback for performers (Tavares et al., 2016).

이러한 관찰로 인해 발생하는 타당성 문제를 극복하는 가장 좋은 방법은 아직 이해되지 않았습니다. 특정 평가 순간에 평가자의 집중력을 의도적으로 좁힌다고 해서 수행의 모든 측면을 고려해야 할 책임이 사라지는 것은 아닙니다. 많은 의료 교육 환경에서 소수의 임상 프리셉터와만 상호 작용할 수 있기 때문에 평가자를 추가하거나 관찰되는 환자 수를 늘리는 것이 항상 가능한 것은 아닙니다. 또한, 시간적 여유가 있는 프리셉터도 작업장 기반 평가를 의미 있게 만드는 데 필요한 직접 관찰 및 피드백 세션을 수행하는 데 우선순위를 정하기 어려운 경우가 많습니다. 여러 평가자를 참여시키기 위해 비디오 기반 성과 검토가 필요한지, 새로운 방식으로 평가 프로토콜을 운영하면 '군중 내 평가자의 지혜'를 활용할 수 있는지, 아니면 이러한 상황에서 평가자가 함께 일하는 수련의에 대한 첫인상을 극복할 수 없게 만드는 동화 효과가 이러한 노력을 방해하는지 여부는 아직 결정되지 않았습니다. 즉, 좁혀진 판단의 초점이 긍정적인 효과를 발휘할 수 있는 한계와 조건에 대해 더 잘 이해할 필요가 있습니다. 

Not yet understood is the best way to overcome the feasibility problems that these observations create. Deliberately narrowing assessors’ focus during particular assessment moments does not remove the onus of considering all dimensions of performance. Adding raters or increasing the number of patient encounters observed are not always options because many medical training environments allow interactions with only a few clinical preceptors. Further, those who are available often find it difficult to prioritize time to conduct the direct observations and feedback sessions required to make workplace-based assessment meaningful. Whether video-based review of performance is necessary to get multiple raters involved, whether operationalizing assessment protocols in novel ways allows one to take advantage of the “within rater wisdom of crowds,” or whether assimilation effects plague such efforts by making it impossible for raters in this context to overcome their initial impressions of trainees with whom they work remains to be determined. In other words, we need to better understand the limitations and conditions that allow narrowed focus of judgment to have positive effect.

... 적합한 인재의 평가
… of the Right People

특정 영역에 대한 전문성 수준에 관계없이 개인에게 훈련생의 수행 능력에 대한 의견을 제시하도록 요청하는 것은 해당 훈련생의 근본적인 성격이나 능력에 대해 알고 있다는 착각만 불러일으킵니다(Harasym 외., 1996). 이는 행동과 행동에 대한 인식이 현재 관찰과 이전 경험 간의 유사성을 비롯한 다양한 맥락적 요인에 의해 영향을 받는다는 점을 인식하는 데 방해가 됩니다(Norman & Brooks, 1997). 반대로 평가 프로토콜은 가능한 한 다양한 평가자 그룹에서 독립적으로 생성된 많은 인상을 우선적으로 취합하도록 설계되어야 합니다(Surowiecki, 2004). 

Asking an individual, any individual, regardless of her level of expertise in a domain, to offer an opinion on the proficiency of a trainee's performance creates only the illusion that one has an indication of the fundamental character or ability of that trainee (Harasym et al., 1996). That acts to the detriment of appreciating that both behaviour and perceptions of behaviour are influenced by various contextual factors including the similarity between current observations and previous experience (Norman & Brooks, 1997). In contrast, assessment protocols should be designed wherever possible to prioritize the aggregation of many independently generated impressions from diverse rater groups (Surowiecki, 2004).

일반적인 평가자 교육 워크숍에서 일반적으로 제시되는 추상적인 내용을 중심으로 교육하는 대신 사례의 강점과 약점을 비교하고 대조하는 노력을 기울인 사례 분포를 제시하는 것을 중심으로 평가자 교육을 의도적으로 구성하여 평가자 간의 공통된 이해를 촉진하는 교육 관행을 확립할 수 있는지 여부는 아직 이해되지 않았습니다. 고도로 기능하고 성공적인 평가 프로그램은 단순히 평가자의 인식에만 의존하는 것이 아니라 다양한 제도적, 문화적, 사회 문화적 영향에 따라 달라진다는 것은 말할 필요도 없습니다. 즉, 평가자의 인상이 모든 의료 시스템에서 중요한 역할을 하는 이유는 개인이 실습에 필요한 기술을 습득했는지 여부뿐만 아니라 기술을 향상시키는 데 필요한 바람직한 어려움을 경험할 수 있는 기회가 부여되는지 여부를 결정하기 때문입니다. 따라서 평가자의 인지에 대한 향상된 이해를 바탕으로 판단을 수집하는 노력을 더 잘 구현하면 복잡한 성과 평가의 세계에서 직면한 다른 과제를 극복하는 데 도움이 될 수 있는지 판단할 필요가 있습니다. 

Not yet understood is whether or not training practices can be established that would facilitate a greater degree of common understanding between assessors by deliberately structuring rater training around presentation of a distribution of cases with efforts to compare and contrast their strengths and weaknesses rather than training around the abstractions that are commonly presented during typical rater training workshops. It goes without saying that a highly functioning and successful assessment program is not simply reliant on the cognition of our raters, but rather it is dependent on various systemic, cultural, and socio-cultural influences. That said, raters’ impressions play a crucial role in any healthcare system because they determine not only whether or not individuals have amassed the skills necessary to practice, but also whether or not those same individuals are granted the opportunities to experience the desirable difficulties necessary to further their skill. As a result, it behooves us to determine if better implementation of efforts to collect judgments based on improved understanding of rater cognition might help facilitate the surmounting of other challenges faced by the world of complex performance assessment.


The assessment of healthcare professionals is a critical determinant of patient safety and healthcare quality, playing both a gatekeeping function and a path toward performance improvement. Given the complexity of physician–patient interactions and the inadequacy of self-assessment for judging one's own strengths and weaknesses, medicine exemplifies a domain in which adequate assessment is dependent on the perceptions and perspectives of observers. Such perspectives are susceptible to influences that range well beyond the performance itself, offering an opportunity to consider how cognitive psychology can guide improved practices and how examination of psychological processes in real-world environments can inform thinking about cognition. In this target article I will provide an overview of the challenges facing health professional educators, the insights that have been gained from the application of cognitive psychology toward deriving solutions, and some reflections on the current state of the science and ongoing needs. These efforts lead to the conclusion that performance assessment protocols stand a better chance of success when they are designed to accommodate limitations of attentional capacity, working memory, and the idiosyncratic influence of prior experience rather than striving to change these fundamental aspects of human cognition through rater training or response form alterations.

교사, 문지기, 혹은 팀원: 평가 프로그램에서 슈퍼바이저의 포지셔닝(Adv Health Sci Educ Theory Pract. 2023)
Teacher, Gatekeeper, or Team Member: supervisor positioning in programmatic assessment
Janica Jamieson1,2 · Simone Gibson1 · Margaret Hay1 · Claire Palermo1

 

소개
Introduction

프로그램식 평가는 이제 의학교육 내에서 역량 기반 평가에 대한 일반적인 접근법으로 확고히 자리 잡았으며(Pearce & Tavares, 2021), 다른 학문 분야에서도 주목받고 있습니다(Bok et al., 2018; Palermo et al., 2017). 프로그램적 평가는 학생의 학습(학습을 위한 평가)을 극대화하는 동시에 학습자에 대한 정보를 제공하여 신뢰할 수 있는 평가 결정을 내릴 수 있도록 노력합니다(Torre et al., 2021).

  • 이는 여러 이해관계자(학생, 감독자, 치료 수혜자, 교육자)로부터 시간이 지남에 따라 수집한 교육학적으로 정보에 입각한 저부담의 평가 순간을 사용하여, 학생에게 맞춤형의 의미 있는 피드백을 제공하고, 학습을 촉진하는 대화를 촉진함으로써 달성할 수 있습니다.
  • 이러한 저부담의 데이터 요소는 학습자에 대한 전체적인 그림을 제공하고, 고부담의 평가 결정에 정보를 제공하기 위해 의도적으로 집계됩니다.
  • 고부담 평가 결정은 전문가 집단의 합의 형성을 통해 이루어지며, 이는 신뢰성과 투명성을 향상시킵니다(Heeneman 외., 2021).

이러한 원칙은 고유한 상황적 요인에 대응하는 맞춤형 평가 시스템을 구축할 수 있는 토대를 제공합니다(Torre et al., 2022). 
Programmatic assessment is now firmly established as the prevailing approach to competency-based assessment within medical education (Pearce & Tavares, 2021) and is gaining traction in other disciplines (Bok et al., 2018; Palermo et al., 2017). Programmatic assessment strives to maximise student learning (assessment for learning) whilst simultaneously providing information about the learner to enable credible assessment decisions (Torre et al., 2021).

  • This is achieved using pedologically informed low-stakes assessment moments, collected over time from multiple stakeholders (student, supervisor, care recipient, educator), that provide tailored and meaningful feedback to the student and promotes a dialogue that drives learning.
  • These low-stakes data points are purposefully aggregated to give a holistic picture of the learner and inform high-stakes assessment decisions.
  • High-stakes assessment decisions are achieved through consensus building by a collection of experts which improves the credibility and transparency (Heeneman et al., 2021).

These principles provide the foundation on which to create a bespoke assessment system that is responsive to unique contextual factors (Torre et al., 2022).

프로그램식 평가는 역량 기반 평가를 운영할 때 직면하는 문제를 해결할 수 있는 잠재력을 가지고 있기 때문에 보건 전문가 교육 커뮤니티의 반향을 불러일으켰습니다. 최근 연구에 따르면 프로그래밍 방식 평가는 학생의 학습을 촉진하는 동시에 신뢰할 수 있는 고부담 평가 결정이라는 두 가지 목적을 달성할 수 있다고 합니다. 이는 특히 커뮤니케이션 및 전문성 영역에서 저조한 성과를 조기에 발견하고 교정할 수 있도록 지원하며, 학생의 학습 이해도에 대한 통찰력을 제공합니다(Schut 외., 2021). 감독자에게 부담을 주고, 시스템을 사소하게 만들고, 학생의 피드백 추구 행동을 무력화시키는 과도한 평가 경향이 있는 프로그램 평가에는 어려움이 있습니다. 평가 데이터의 양이 질보다 우선해서는 안 되며, 이는 신뢰할 수 있는 높은 수준의 평가 결정을 내리는 데 가장 중요한 요소입니다(Schut et al., 2021). 이러한 문제는 신중한 계획과 비판적 평가를 통해 극복할 수 있습니다. 
Programmatic assessment has resonated with the health professional education community as it has the potential to remedy challenges encountered with operationalising competency-based assessment. Emerging research indicates that programmatic assessment can achieve the dual purpose of credible high-stakes assessment decisions while also promoting student learning. It supports early detection and remediation of underperformance, notably in the areas of communication and professionalism, and gives insight into student comprehension of their own learning (Schut et al., 2021). There are challenges for programmatic assessment, with a tendency for over-assessment that burdens supervisors, threatens to trivialise the system, and negates feedback-seeking behaviours in students. The quantity of assessment data should not supersede quality, as this is paramount to credible high-stakes assessment decisions (Schut et al., 2021). These challenges are surmountable with careful planning and critical evaluation.

프로그램 평가의 시급한 문제는 실행 과정에서 이해관계자, 특히 감독자가 직면하는 변화에 대한 저항입니다(Schut et al., 2021; Torre et al., 2021). 이러한 저항은 복잡하고 종종 음성화되지 않은 이유로 패러다임 전환에서 흔히 발생하지만(Watling et al., 2020), 성공적인 교육 변화를 달성하기 위해서는 다양한 이해관계자를 통합해야 할 필요가 있습니다(Torre et al., 2021; van der Vleuten et al., 2015). 프로그램적 평가는 관련된 사람들의 동의와 믿음이 중요하며 성공은 모든 이해관계자의 검증에 달려 있다는 원칙에 기초합니다(Pearce & Tavares, 2021; van der Vleuten 외., 2012). 프로그램 평가에 대한 감독자의 인식된 입장과 반응을 이해하는 것은 실행을 지원하기 위해 필요합니다. 프로그램적 평가의 실행을 가능하게 하거나 저해하는 요인(Schut 외, 2021; Torre 외, 2021, 2022)과 시스템 내에서 활동하는 이해관계자가 평가 정보의 채택 및 사용에 어떤 영향을 미치는지 조명할 필요가 있습니다(Telio 외, 2016; Watling & Ginsburg, 2019). 

The exigent issue for programmatic assessment is resistance to change encountered from stakeholders, particularly supervisors, during implementation (Schut et al., 2021; Torre et al., 2021). Such resistance is commonplace in paradigm shifts for complex and often unvoiced reasons (Watling et al., 2020) and yet there is a need to unify the varied stakeholders to achieve successful educational change (Torre et al., 2021; van der Vleuten et al., 2015). Programmatic assessment was founded on the principle that buy-in, and belief by the people involved is crucial and that success is contingent on validation by all stakeholders (Pearce & Tavares, 2021; van der Vleuten et al., 2012). Understanding supervisors’ perceived positions and reactions to programmatic assessment is necessary to support implementation. There is a need to illuminate factors that enable or inhibit implementation of programmatic assessment (Schut et al., 2021; Torre et al., 2021, 2022) and how stakeholders operating within the system influence the adoption and use of assessment information (Telio et al., 2016; Watling & Ginsburg, 2019).

직장에서 이루어지는 평가는 평가 프로세스를 수행하고 철학을 구현하는 데 중요한 역할을 하는 직장 감독자로서 실무자의 참여에 의존합니다. 교사는 교육 전반에 걸쳐 학습자에게 강력한 영향을 미치며(Hattie, 2009; Stenfors-Hayes 외., 2010), 교사의 특성과 기술은 학생의 학습에 중요한 결정 요인입니다(Cantillon 외., 2019; Rees 외., 2020b). 안전한 학습 환경을 조성하기 위해 지지적인 학생-감독자 관계를 발전시킬 필요가 있기 때문에 학습을 위한 평가 맥락에서 감독자의 역할은 더욱 높아집니다(Konopasek 외., 2016). 보건 전문가 교육에서 이러한 관계는 단기간에 형성되며 업무 외적인 요구로 인해 복잡해집니다. 이전 연구에서는 프로그램 평가와 상호 작용하여 성공에 영향을 미치는 무언의, 그러나 영향력 있는 문화적 및 관계 역학이 밝혀졌습니다(Jamieson 외., 2021). 따라서 저희는 슈퍼바이저가 프로그래밍 방식의 평가를 어떻게 경험하는지 이해하고 실행에 미치는 잠재적 영향을 규명하고자 했습니다.  
Assessment that occurs in the workplace relies on the participation of practitioners, as workplace supervisors, who have a crucial role in undertaking assessment processes and embodying the philosophies. Teachers have a powerful influence on the learner that holds true across the educational spectrum (Hattie, 2009; Stenfors-Hayes et al., 2010) and their attributes and skills are critical determinants to student learning (Cantillon et al., 2019; Rees et al., 2020b). The role of a supervisor is further elevated within the assessment for learning context as there is a need to develop a supportive student-supervisor relationship to cultivate a safe learning environment (Konopasek et al., 2016). In health professional education, these relationships are forged over short durations and are complicated by extraneous workplace demands. Our previous research revealed unspoken, yet influential, cultural and relationship dynamics that interacted with programmatic assessment to influence success (Jamieson et al., 2021). We therefore sought to understand how supervisors experienced programmatic assessment and elucidate potential influences on implementation.

포지셔닝 이론
Positioning Theory

포지셔닝 이론은 사회심리학의 한 분야로, 사람과 집단이 사회적 상호작용에서 다른 사람과 비교하여 자신을 포지셔닝하기 위해 담화를 사용하는 방법을 탐구하고 설명하고자 합니다(Green et al., 2020). 사회 구성주의에 기반을 둔 이 접근법은 데이비스와 하레(1990)의 공동 연구에서 비롯되었으며, 언어 철학, 언어학 및 언어 행위 이론에 뿌리를 두고 있습니다(McVee et al., 2018). 포지션은 개인과 개인이 속한 환경 내에서 자신의 역할을 수행하는 방식에 따라 달라집니다. 사람들은 자신의 경험과 관련하여 내재적이지만 유동적인 포지션을 갖는 것으로 인식됩니다(McVee 외, 2018). 
Positioning Theory is a branch of social psychology which seeks to explore and explain how people and groups use discourse to situate themselves, relative to others, within social interactions (Green et al., 2020). The approach, grounded in social constructionism, arose from a collaboration between Davies and Harré (1990) and is rooted in the philosophy of language, and linguistics and speech act theory (McVee et al., 2018). Positions are responsive to the individual and how they enact their role within their environment. People are perceived as having inherent but fluid positions with reference to their own experience (McVee et al., 2018).

포지셔닝 이론은 포지션, 행동, 스토리라인이라는 삼각형으로 개념화된 상호 연관된 세 가지 기둥을 포함합니다.

  • 포지션개인에게 채택되거나 부여된 분쟁의 여지가 있는 권리와 의무의 집합입니다.
    • 의무는 권력을 가진 한 개인이나 집단이 내재적 취약성으로 인해 다른 개인이나 집단에 대해 져야 하는 의무입니다.
    • 권리는 다른 사람 또는 그룹이 보유한 권력에 대한 취약한 사람 또는 그룹의 자격입니다.
    • 포지셔닝(권리와 의무)타인에 의해 부여되거나 부과될 수 있고, 개인이 채택할 수도 있습니다(Harré & Moghaddam, 2003).
  • 행동개인이 자신의 지위와 관련하여 수행하는 관행과 내러티브입니다. 행동은 의미가 있으며 말, 움직임, 제스처로 나타날 수 있습니다. 행동은 사회적 에피소드와 개인에 따라 다르게 해석될 수 있습니다.
  • 스토리라인사회적 상호 작용을 뒷받침하고 지시하는 논리와 관습, 내러티브의 집합입니다(Davies & Harré, 1990; Harré, 2012). 한 개인이나 집단의 권리는 다른 사람의 의무를 선동할 수 있으며, 이는 스토리라인의 맥락에서 행동으로 표현됩니다.

이 세 가지 요소는 재귀적으로 상호 작용하여 사회적 상황 내에서 개인의 포지셔닝은 자신이 할 수 있고 기꺼이 할 수 있는 일과 특정 맥락 내에서 허용되는 일 사이의 역동적인 상호작용입니다(Bourgeois-Law 외., 2020). 

Positioning Theory encompasses three interrelated pillars, conceptualised as a triangle—positions, actions, and storylines. 

  • Positions are a group of disputable rights and duties either adopted or assigned to individuals.
    • A duty is an obligation owed by one person or group, who holds power, to another person or group due to their inherent vulnerability.
    • Rights are the entitlements of a vulnerable person or group with respect to the power held by another person or group.
    • Positioning (rights and duties) can be both granted or imposed to or by others and adopted by individuals (Harré & Moghaddam, 2003). 
  • Actions are the practices and narratives undertaken by individuals related to their position. They are meaningful and can manifest as speech, movement, and gestures. Actions can be interpreted differently dependent on the social episode and the individual. 
  • Storylines are logics and conventions, a collection of narratives, underpinning and dictating social interactions (Davies & Harré, 1990; Harré, 2012). The perceived rights of a person or group can incite the duties of another, which is expressed as actions within the context of a storyline.

The three pillars recursively interact so that one’s positioning within a social situation is a dynamic interplay between what they are capable and willing to do, and what they are permitted to do within the specific context (Bourgeois-Law et al., 2020).

포지셔닝 이론은 의료 전문직 교육에 적용되어 교육 이니셔티브(Møller & Malling, 2019), 동료 교정(Bourgeois-Law 외, 2020), 특정 의료 서비스 내에서의 실무자 포지셔닝(Andreassen & Christensen, 2018; Williams 외, 2015), 학생 정체성 형성(Monrouxe, 2010), 시뮬레이션 학습(Christensen 외, 2017; Sargeant 외, 2016), 피드백(Clarke & Molloy, 2005), 의료 교육자의 책임(Hu 외, 2019) 등을 탐구하는 데 활용되어 왔습니다. 우리가 아는 한 포지셔닝 이론은 아직 프로그램 평가에 적용되지 않았습니다. 포지셔닝 이론을 설명 도구로 사용하면 권력, 영향력, 제도적, 문화적, 사회적 규범, 가치, 내재적 및 부여된 지위에 대한 일상적인 사회적 에피소드를 조사할 수 있습니다. 이를 통해 사람들이 사회적 상황에 고유하게 반응하는 이유에 대한 통찰력을 얻을 수 있으며, 이를 통해 개입을 이해하고 갈등을 해결하여 긍정적인 변화에 영향을 미칠 수 있습니다(Green et al., 2020). 따라서 포지셔닝 이론은 직위와 책임, 개인의 가치와 문화적 관행의 영향에 대한 중요한 통찰력을 제공하므로 프로그램 평가를 탐구하는 데 매우 적합하고 참신한 렌즈입니다. 포지셔닝 이론을 바탕으로 최근 시행된 프로그램 평가에서 슈퍼바이저가 자신의 포지셔닝을 어떻게 경험하고 인식하는지 이해하고자 했습니다. 
Positioning Theory has been applied to health profession education to explore training initiatives (Møller & Malling, 2019), peer remediation (Bourgeois-Law et al., 2020), practitioner positioning within specific health services (Andreassen & Christensen, 2018; Williams et al., 2015), student identity formation (Monrouxe, 2010), simulation learning (Christensen et al., 2017; Sargeant et al., 2016), feedback (Clarke & Molloy, 2005), and medical educator responsibilities (Hu et al., 2019). To our knowledge, Positioning Theory has not yet been applied to programmatic assessment. When used as an explanatory tool, Positioning Theory allows examination of everyday social episodes for power, influence, institutional, cultural, and social norms, values, and inherent and granted status. This provides insight into why people uniquely respond to social situations which can then be used to understand interventions and address conflict, which in turn can be used to affect positive change (Green et al., 2020). As such, Positioning Theory is a well suited, and novel, lens to explore programmatic assessment as it provides critical insight into the positions and responsibility, and the influence of personal values and cultural practices. Informed by Positioning Theory, we sought to understand how supervisors experienced and perceived their positioning within recently implemented programmatic assessment.

연구 방법
Methods

연구 맥락
Research context

이 질적 연구는 이론에 기반한 귀납적 데이터 분석을 사용하여 연구 질문을 탐구하고자 했습니다. 이 접근 방식에서는 연구자가 데이터 수집 초기 단계 또는 수집 후에 이론을 적용하여 해석을 구체화합니다. 연구자는 현상에 대한 예비적 이해를 한 다음, 이론을 적용하여 데이터 탐색을 심화합니다(Varpio et al., 2020). 본 연구의 저자들은 감독자들 사이에서 저항을 드러낸 프로그램적 평가의 실행에 대한 이전 평가에 참여했습니다(Jamieson et al., 2021). 프로그램 평가 시행의 어려움에 관한 연구가 부족하다는 점을 고려할 때, 우리는 이 주제를 이론적 렌즈를 적용하여 데이터를 해명함으로써 더 비판적으로 탐구할 필요가 있다고 생각했습니다. 두 명의 저자(CP 및 SG)가 감독자를 포함한 프로그램 평가에 대한 별도의 평가에 참여했습니다(Dart et al., 2021). 이는 맥락과 참여자가 비슷한 두 데이터 세트를 결합하고 이론에 기반한 귀납적 접근 방식을 적용하여 더 큰 표본 크기를 사용하여 데이터를 비판적이고 엄격하게 탐색할 수 있는 특별한 기회를 제공했습니다.  

This qualitative study sought to explore the research question using theory-informing inductive data analysis. In this approach, researchers apply a theory in the early stages of, or after, data collection to shape interpretation. Researchers have a preliminary understanding of the phenomenon and then apply a theory to deepen the exploration of the data (Varpio et al., 2020). The authors of the present study were involved in a previous evaluation of the implementation of programmatic assessment which revealed resistance among supervisors (Jamieson et al., 2021). Given the paucity of research regarding the challenges of implementing programmatic assessment, we believed this theme warranted further critical exploration by applying a theoretical lens to elucidate the data. Two authors (CP and SG) were involved in a separate evaluation of a programmatic assessment which also included supervisors (Dart et al., 2021). This provided a unique opportunity to combine the two datasets, which had similar context and participants, and apply a theory-informing inductive approach to explore the data critically and rigorously using a larger sample size.

이 연구는 구성주의적 인식론에 기반을 두고 있습니다. 구성주의지식이 맥락의 영향을 받는 사회적 상호작용을 통해 가변적으로 형성되며, 이는 다양한 구성과 행동을 유발한다고 가정합니다(Rees et al., 2020a). 이러한 인식론에 따라 이 연구는 연구팀의 이전 연구에서 밝혀진 바와 같이 프로그래밍 방식의 평가 도입에 따른 입장의 변화를 더 깊이 이해하고자 하는 호기심에서 시작되었습니다. 참가자는 직장 슈퍼바이저로서의 역할에서 프로그램 평가에 대한 친밀한 경험을 바탕으로 선정되었습니다. 선택한 정성적 데이터 방법인 포커스 그룹과 인터뷰를 통해 대화, 경험, 감정, 책임에 대한 설명을 들을 수 있었습니다. 이론을 바탕으로 한 귀납적 데이터 분석 접근 방식에 따라 포지셔닝 이론을 데이터 분석에 적용하여 연구 질문에 따른 이해 패턴을 구성했습니다. 
This research is situated within a constructionist epistemology. Constructionism posits that knowledge is variably formed through social interactions, influenced by context, that give rise to different constructs and behaviours (Rees et al., 2020a). Aligning with this epistemology, this research began with a curiosity to further understand the changes in positions that occurred with the introduction of programmatic assessment, as revealed in earlier research by the team. Participants were selected based on their intimate experience of programmatic assessment in their role as workplace supervisors. The selected qualitative data methods, focus groups and interviews, allowed for conversations, recounts of experiences, emotions, and responsibilities to be elucidated. Positioning Theory was applied to data analysis, consistent with a theory-informing inductive data analysis approach, to construct a pattern of understanding in accordance with the research question.

설정
Setting

A 대학(에디스 코완 대학)과 B 대학(모나쉬 대학)은 호주에 있는 교육기관으로, 2년제 영양학 석사 과정에 100일간의 의무 배치 프로그램을 포함하여 학생들이 직장 감독자의 감독 하에 실제 학습 과제에 참여하도록 하고 있습니다. 두 과정 모두 주요 이해관계자가 참여하여 각자의 프로그램 평가 접근 방식을 점진적으로 설계하고 이후 실행에 옮겼습니다.
University A (Edith Cowan University) and University B (Monash University) are Australian institutions that have an accredited 2-year master dietetic course that included a mandatory 100-day placement program where students participated in authentic learning tasks under the supervision of workplace supervisors. Both courses engaged key stakeholders to progressively design their respective programmatic assessment approaches with subsequent implementation.

A 대학의 영양학 과정은 10년 전에 개설되어 매년 15~20명의 학생이 졸업하고 있습니다. 이 과정의 20주 배치 구성 요소에 대한 프로그램적 평가는 감독자와 교직원이 참여하는 참여형 행동 연구 접근법을 사용하여 개발되었습니다(Jamieson et al., 2021). 배치 기간 동안 학생들은 슈퍼바이저 평가, 사례 노트 및 보고서와 같은 학습 과제 결과물, 자기 성찰, 동료 피드백 및 고객 관점을 포함한 성과 증거를 수집해야 했습니다. 이러한 항목은 저부담 평가로 간주되어 학생이 대학 직원의 지원을 받아 포트폴리오로 작성했습니다. 이 포트폴리오는 대학 교직원 패널에 의해 결정되는 고부담 평가의 기초가 되었습니다. 프로그램 평가는 2016년에 시행되었으며 설명한 대로 실제로 계속 시행되고 있습니다. 
The dietetic course at University A was established 10 years ago and has 15–20 students graduate each year. Programmatic assessment was developed for the 20-week placement component of the course using a participatory action research approach which engaged supervisors and academic staff (Jamieson et al., 2021). During the placement, students were required to collect performance evidence which included supervisor appraisals, learning task artefacts such as case notes and reports, self-reflections, peer feedback, and client perspectives. These items were considered low-stakes assessments and were compiled by the student, with support from university staff, into a portfolio. The portfolio formed the basis for the high-stakes assessment which was determined by a panel of university staff. The programmatic assessment was implemented in 2016 and continues in practice as described.

B 대학은 데이터 수집 시점에 매년 55~65명의 영양학 전공 학생을 졸업시켰으며, 20년 동안 영양학 전공을 개설해 왔습니다. 프로그램 평가는 학습자, 대학 교수진 및 감독자가 참여하는 반복적이고 협의적인 접근 방식을 사용하여 22주 배치 과정을 포함한 2년 석사 과정 전체에 대해 개발되었습니다. 프로그램 평가는 2018년에 도입되었습니다(Dart et al., 2021). 프로그래밍 방식 평가는 40개의 개별 평가 과제로 구성되었으며, 개별적으로는 모두 총괄적 저부담을 차지하지만 다양한 순서로 결합하면 대학에서 학생의 진도를 판단하는 데 사용되었습니다. 두 과정 모두 시행 후 2년 이내에 각각의 프로그램 평가를 평가했습니다. 연구 및 B 대학 데이터를 사용한 2차 분석에 대한 승인은 두 기관 모두에서 획득했습니다(모나쉬 대학교 인간연구윤리위원회 승인 번호. 19967 및 에디스 코완 대학교 인간연구윤리위원회 승인 번호. 12549).
University B graduated 55–65 dietetic students each year at the time of data collection and has offered studies in dietetics for 20 years. The programmatic assessment was developed for the entirety of the 2-year masters, including the 22-week placement, using an iterative and consultative approach involving learners, university faculty, and supervisors. The programmatic assessment was introduced in 2018 (Dart et al., 2021). The programmatic assessment was comprised of 40 individual assessment tasks, all summative, low-stakes individually but when combined in various sequences were used by the university to judge student progression. Both courses evaluated their respective programmatic assessments within 2 years of implementation. Approval for the research, and the secondary analysis using University B data, was obtained at both institutions (Monash University Human Research Ethics Committee approval no. 19967 and Edith Cowan University Human Research Ethics Committee approval no. 12549).

데이터 수집
Data collection

A 대학의 참가자는 2016년 또는 2017년에 처음으로 프로그램 평가에 참여한 감독자였습니다. 참가자는 자격을 갖춘 개인에게 참여를 권유하는 이메일을 보내는 자기 선택 샘플링을 통해 모집되었습니다(n = 169). 포커스 그룹이 시작될 때 서면 동의와 인구통계학적 데이터를 확보했습니다. 반구조화된 포커스 그룹은 2016년과 2017년에 참가자의 직장에서 한 차례의 원격 회의와 수도권 외 지역에 거주하는 사람들을 위한 화상 회의 세션을 통해 진행되었습니다. 포커스 그룹 질문은 문헌(van der Vleuten 외., 2012), 워킹 그룹 우선순위(Jamieson 외., 2021), 동일한 감독자 코호트에서 작성한 설문지에서 도출되었습니다. 포커스 그룹은 30분에서 90분 정도 소요되었으며 제1저자가 진행했습니다. 모든 세션은 오디오로 녹음되었고 연구자는 메모를 작성했으며(Barbour & Flick, 2018), 이후 데이터는 그대로 전사되고 비식별화되었습니다. 
Participants from University A were supervisors who had engaged with the programmatic assessment for the first time in either 2016 or 2017. Participants were recruited using self-selection sampling whereby an email was sent inviting eligible individuals to participate (n = 169). Written consent and demographic data were obtained at the commencement of the focus group. Semi-structured focus groups were held in 2016 and 2017 at the participants place of employment with one teleconference and one videoconference session for those living outside the metropolitan area. Focus groups questions were derived from the literature (van der Vleuten et al., 2012), working group priorities (Jamieson et al., 2021), and a questionnaire completed by the same cohort of supervisors. Focus groups were between 30 and 90 min in length and conducted by the first author. All sessions were audio recorded and the researcher took notes (Barbour & Flick, 2018), data was subsequently transcribed verbatim and de-identified.

B 대학 평가는 같은 해에 프로그램 평가가 시행된 후 2019년에 실시되었으며 졸업생, 지도교수 및 대학 교직원을 대상으로 실시되었습니다. 본 연구에서는 연구 질문에 따라 수퍼바이저로부터 수집한 데이터만 포함했습니다. 22주 배치에서 프로그램 평가에 참여한 수퍼바이저를 모집하기 위해 다양한 환경과 수퍼비전 경험에서 최대 변동 샘플링을 사용했습니다. 수퍼바이저들은 이메일(n = 60)로 참여 초대를 받았으며 인터뷰에 동의한 후 참여에 동의했습니다. 연구팀(저자 SG 포함)은 인구통계학적 질문부터 시작하여 참가자의 프로그램 평가에 대한 이해와 경험을 탐색하는 일대일 전화 반구조화 인터뷰를 실시했습니다. 인터뷰는 오디오 녹음, 필사 및 분석을 위해 비식별화되었습니다. 부록 표 1에는 A 대학 포커스 그룹과 B 대학 인터뷰 질문을 연계한 질문 로직이 제시되어 있습니다. 
The University B evaluation occurred in 2019 after the implementation of the programmatic assessment in the same year and included graduates, supervisors, and university staff. For the purposes of the present study, only the data collected from supervisors was included in accordance with the research question. Maximal variation sampling was used to recruit supervisors who had engaged with the programmatic assessment in the 22-week placement from across settings and supervision experience. Supervisors were invited to participate by email (n = 60) and consented to participation upon agreeing to an interview. One-on-one telephone semi-structured interviews were conducted by the research team (which included author SG) commencing with demographic questions and then exploring participant understanding and experience of the programmatic assessment. The interviews were audio recorded, transcribed and de-identified for analysis. Supplementary Table 1 presents the inquiry logic aligning the University A focus group and University B interview questions.

데이터 분석
Data analysis

B 대학 인터뷰 기록은 NVivo™로 가져와서 한 명의 저자가 원래 연구의 A 대학 데이터에 적용된 것과 동일한 프레임워크를 사용하여 분석했습니다. 이 예비 분석을 통해 B 대학 데이터 세트에 권력, 권위, 저항 코드가 존재함을 확인하여 추가 분석이 필요함을 확인했습니다. 그런 다음 저자들은 적합한 이론을 찾기 위해 문헌 검색을 실시했습니다. 포지셔닝 이론은 프로그램 평가 이해관계자의 권리와 의무를 이해하는 설명 도구를 제공하고, 진실은 언어와 행동 안에 있으며 '개인 간의 대화적 거래'로 존재한다는 구성주의적 접근 방식과 일치하므로 적절한 선택으로 간주되었습니다(Rees et al., 2020a). 두 대학의 데이터는 프레임워크 분석 방법(Gale et al., 2013)을 사용하여 분석하기 위해 NVivo™로 가져왔고 포지셔닝 이론을 통해 정보를 얻었습니다.

  • 한 명의 저자가 귀납적으로 두 대학의 성적표를 포함한 5개의 성적표를 코딩하여 설명적 진술과 예시적 인용을 포함하는 초기 분석 프레임워크를 개발했습니다. 이를 위해 코드를 직위, 의무, 권리 및 책임과 관련된 범주로 그룹화했습니다.
  • 코딩과 프레임워크는 두 번째 저자가 검토하여 여러 하위 코드를 서로 통합하고, 다른 하위 코드는 설명과 더 잘 일치하도록 이름을 바꾸고, 4개의 새로운 하위 코드를 추가했습니다. 이러한 추가 코드에는 게이트키퍼, 문화와 차별, 권위와 통제, 평가자로서의 학생 등이 포함되었으며, 이는 결과적인 포지셔닝 이론에서 두드러지게 나타났습니다.
  • 최종 프레임워크에는 7개의 코드와 29개의 하위 코드가 포함되었습니다[부록 표 2].
  • 그런 다음 프레임워크를 NVivo™로 가져와서 한 명의 저자가 원래 코딩한 5개의 코드를 포함한 모든 녹취록에 적용했습니다. 각 녹취록에 코딩된 모든 텍스트가 포함된 프레임워크 매트릭스를 NVivo™를 사용하여 생성하고 Microsoft Excel로 내보냈습니다. 

The University B interview transcripts were imported into NVivo™ and analysed by one author using the same framework applied to the University A data in the original study. This preliminary analysis confirmed the presences of power, authority, and resistance codes within the University B dataset, warranting further analysis. The authors then conducted a search of the literature to identify a suitable theory. Positioning Theory was deemed an appropriate choice as it provided an explanatory tool to understand the rights and duties of programmatic assessment stakeholders and aligned with the underpinning constructionist approach that truth lies within language and actions and exists as a ‘dialogic transaction between individuals’ (Rees et al., 2020a). The data from both universities were imported into NVivo™ for analysis using the framework analysis method (Gale et al., 2013) and informed by Positioning Theory.

  • One author inductively open coded five transcripts, including those from both universities, to develop an initial analytical framework which included descriptive statements and illustrative quotations. This was achieved by grouping the codes into categories with reference to positions, duties, rights, and responsibilities.
  • This coding and framework were reviewed by a second author with several sub-codes collapsed into each other, others re-named to better align with the description, and the addition of four new sub-codes. These additional codes included gatekeeper, culture and discrimination, authority and control, and student as assessor, which were salient to the resultant positioning theory.
  • The final framework included seven codes and 29 sub-codes [Supplementary Table 2].
  • The framework was then imported into NVivo™ and applied to all transcripts, including the five originally coded, by one author. A framework matrix containing all coded text across each transcript was generated using NVivo™ and exported to Microsoft Excel.

한 명의 저자가 프레임워크 매트릭스를 한 줄씩 읽으면서 담화적 표식, 비언어적 행위, 분열적 언어, 감정을 식별했습니다. 이 단계에서는 대명사 마커의 사용에 특히 주의를 기울였습니다. 대명사에 초점을 맞추면서 참가자들이 자신과 다른 사람, 일반적으로 학생과 대학 교직원 사이에서 인식하는 힘의 균형을 조명하고자 했습니다. 대명사 사용의 전환은 권력에 대한 포지셔닝의 변화를 드러내기 때문에 주목하고 기록했습니다(Harré & Moghaddam, 2013; Loo et al., 2019).

  • 대명사 I와 me는 개인적인 신념과 생각, 자아에 대한 초점 또는 타인과의 거리를 나타내기 위해 사용되었고,
  • we와 us는 연대, 그룹 구성원 및 그룹 구성원을 대표하는 것으로 가정된 권위를 암시했으며,
  • you는 특정 사람, 상황 또는 아이디어로부터 배제하거나 거리를 두는 것을 제안했습니다(Loo et al., 2019).
  • 인터뷰와 포커스 그룹이 대학 교직원에 의해 수행되었기 때문에 you라는 사용은 연구자와 소속 대학을 지칭하기도 했습니다.

대명사에 주의를 기울임으로써 참가자들이 다른 사람들에 비해 자신을 어떻게 포지셔닝하는지, 그리고 다른 방법으로는 간과했을 수 있는 무언의 권력 역학 관계에 대한 귀중한 통찰력을 얻을 수 있었습니다. 관련성이 있는 경우, 참가자들이 대명사를 많이 사용한 부분은 결과 내에서 굵은 따옴표로 표시했습니다.

One author conducted a line-by-line reading of the framework matrix to identify discursive markers, illocutionary acts, divisive language, and emotions. Particular attention to the use of pronominal markers was given at this stage. Focusing on pronouns sought to illuminate the power balance as perceived by participants between themselves and others, with others commonly being students and the university staff. Switches in the use of pronouns were noted and recorded as these reveal changes to positioning relative to power (Harré & Moghaddam, 2013; Loo et al., 2019).

  • The pronouns I and me were taken to indicate personal beliefs and ideas, a focus on the self, or distancing from others; 
  • we and us implied solidarity, group membership and an assumed authority to represent group members; 
  • you suggested excluding or distancing from a person, situation, or idea (Loo et al., 2019).
  • The use of you also referred to the researcher and their affiliated university as interviews and focus groups were conducted by university staff.

The heeding of pronouns provided valuable insight into how participants positioning themselves relative to others and unspoken power dynamics which may have been otherwise overlooked. Where relevant, significant use of pronouns by participants has been indicated in bold in quotes within the results.

프레임워크 매트릭스를 반복적으로 읽고 원본 녹취록과 상호 참조하여 데이터를 감독자의 직위, 의무 및 책임으로 종합했습니다. 직위(1순위, 2순위 또는 3순위), 의도성(암묵적, 고의적 또는 강제적), 포지셔닝 주체(자기 또는 타인)에 주의를 기울였습니다(Dennen, 2011; Hu et al., 2019). 

  • 첫 번째 순서 포지셔닝에서 개인은 도전 없이 그 위치를 수락하거나 가정하고, 
  • 두 번째 순서 포지셔닝에서는 거부 또는 저항이 있으며 재포지셔닝이 발생할 수 있으며, 
  • 세 번째 순서 포지셔닝은 회고적 거부 또는 재포지셔닝이 포함될 수 있는 사회적 에피소드를 회상하는 것을 수반합니다. 

포지셔닝은

  • 암묵적으로 가정되거나(암묵적 의도),
  • 적극적으로 의도를 가지고 발생하거나(고의적 의도),
  • 다른 사람에 대한 반응으로 발생할 수 있습니다(강제적 의도). 

Through repeated readings of the framework matrix and cross-referencing with the original transcripts, the data was synthesised into positions, duties, and responsibilities of supervisors. Attention was paid to the position (first order, second order or third order), intentionality (tacit, deliberate or force), and positioner (self or others) (Dennen, 2011; Hu et al., 2019).

  • In first order positioning the individual accepts or assume the position without challenge;
  • in second order positioning there is rejection or resistance, and re-positioning may occur; and 
  • third order positioning involves the recall of social episodes which may involve retrospective rejection or re-positioning.

Positions can

  • implicitly be assumed (tacit intention), arise
  • actively and with intent (deliberate intention), or
  • occur in response to another (forceful intention).

결과 해석을 위해 각 참가자의 실습 환경과 소속 대학을 기록했습니다. 종합 결과는 두 번째 저자가 검토했으며, 두 저자가 함께 모여 최종 분석 및 이론에 대한 합의에 도달하기 위해 논의했습니다.
The practice setting and affiliated university for each participant was recorded for interpretation of the results. The synthesis was reviewed by a second author with both authors coming together in discussion to reach agreement on the final analysis and theory.

반사성
Reflexivity

제1저자(JJ)는 A 대학의 배치 코디네이터이자 강사였으며 다른 동료들과 함께 프로그램 평가의 개발을 담당했습니다. JJ는 자신의 경험에서 비롯된 평가를 변화시키고자 하는 동기를 가지고 A 대학의 프로그램 평가와 직업적, 개인적 관계를 맺고 있었습니다. CP와 SG는 B대학의 학자였으며 동료들과 함께 학업 및 업무 환경에서 프로그램 평가의 개발 및 실행을 주도했습니다. 이러한 성향은 연구 주제에 대한 본질적인 맥락적 이해를 제공합니다(Berger, 2015). 또한 열망과 이상, 미리 정해진 판단과 편견을 불러일으키기도 합니다. 연구자는 연구 과정에서 배제될excised 수 없으며, (우리의 신념에 따라) 배제되어서도 안 됩니다. 오히려 이러한 포지셔닝이 연구의 모든 측면에 미치는 영향을 인식하고 그 영향을 완화하기 위해 반사성을 채택해야 합니다(Soedirgo & Glas, 2020).

The first author (JJ) was a placement coordinator and lecturer at University A and was responsible, with other colleagues, for the development of the programmatic assessment. JJ had a professional and personal connection to the programmatic assessment at University A with the motivation to transform the assessment arising from her own experiences. CP and SG were academics at University B and, with their colleagues, led the development and implementation of programmatic assessment across the academic and work settings. This propinquity gives an intrinsic contextual understanding of the research topic (Berger, 2015). It also gives rise to aspirations and ideals, predetermined judgements, and biases. The person cannot, and (by our beliefs) should not, be excised from the research process. Rather the impact of this positioning on all aspects of the research should be recognised and reflexivity adopted to mitigate the impact (Soedirgo & Glas, 2020).

각 포커스 그룹과 인터뷰는 진실성을 추구하며 진행자/면접자는 대학 직원이 아니라 호기심 많은 연구자라는 성명서를 큰 소리로 읽는 것으로 시작되었습니다. 이 성명서의 의도는 두 가지였습니다.

  • 첫째, 모든 당사자 간에 연구자의 역할을 명확히 하려는 것이었습니다. 이 문장의 효과와 참가자들이 어떻게 해석했는지는 추론할 수 없습니다. 참가자들은 대학의 위치에 대해 논의할 때 '당신'이라는 대명사를 자주 사용했는데, 이는 진행자나 인터뷰어를 중립적인 당사자로 인식하지 않았음을 시사합니다.
  • 둘째, 가장 중요한 것은 이 문장이 진행자/면담자가 세션을 통해 자신의 판단과 편견을 인식하게 하는 역할을 했다는 점입니다. 저자들은 모두 질적 연구와 보건 전문가 교육에 대한 폭넓은 경험을 가지고 있었으며, 연구의 모든 단계에서 서로의 데이터 해석에 이의를 제기했습니다. 

 

Each focus group and interview commenced by reading aloud a statement that truthfulness was sought, and that the facilitator/ interviewer was, in that moment, not a university staff member but a curious researcher. The intent of this statement was two-fold.

  • Firstly, it sought to make explicit between all parties the role of the researcher. The effectiveness of this and how it was interpreted by participants cannot be deduced. Participants frequently used the pronoun you when discussing the positioning of the university which suggests that they did not identify the facilitator or interviewer as a neutral party.
  • Secondly, and most importantly, the statement served to bring awareness to the facilitator/ interviewer of their own judgements and biases through the session. As authors we all had extensive experience in qualitative research and health professional education and challenged each other’s interpretation of the data through all stages of the research.

연구 결과
Results

A 대학 수퍼바이저를 대상으로 9개의 포커스 그룹(참가자 수 32명)을, B 대학 수퍼바이저를 대상으로 12개의 인터뷰를 진행했습니다. 이를 통해 두 기관 모두에서 44명의 감독자 의견을 수집하여 데이터 분석에 활용했습니다. 참가자 특성은 표 1에 나와 있습니다. 참가자들은 대부분 병원(n = 34명) 또는 1차 예방 부문(예: 비영리, 공중보건)에 종사하는 숙련된 실무자 및 평가자였습니다(n = 10명). 여성화된 호주의 영양사 인력을 반영하듯 여성으로 확인된 참가자의 비율이 더 높았습니다(호주 보건 인력, 2014). 

Nine focus groups (n = 32 participants) were held with University A supervisors and 12 interviews for University B. This provided 44 supervisors voices across both institutions for data analysis. Participant characteristics are presented in Table 1. Participants were mostly experienced practitioners and assessors, employed in either the hospital (n = 34) or primary prevention sector (e.g., not-for-profit, public health) (n = 10). A greater proportion of participants identified as female reflecting the feminized Australian dietetic workforce (Health Workforce Australia, 2014).

프로그램 평가의 맥락에서 학생 감독에 대해 논의할 때 감독자는 세 가지 중 두 가지 방식으로 자신을 포지셔닝했습니다. 첫 번째, 교사는 모든 참가자가 설명했으며 핵심 권리와 의무를 반영했습니다. 또한 슈퍼바이저는 게이트키퍼 또는 팀원으로서 자신을 포지셔닝했는데, 이 두 가지 포지션은 서로 대립되는 상호 배타적인 입장이었습니다. 그림 1은 이 세 가지 입장을 보여줍니다.

When discussing student supervision, within the context of programmatic assessment, supervisors positioned themselves in two of three ways. The first, Teacher, was described by all participants and reflected the core rights and duties. Supervisors also positioned themselves as either a Gatekeeper or Team Member; two mutually exclusive positions which stood in opposition to one another. Figure 1 presents these three positions.

교사
Teacher

교사 직책은 병원 및 1차 예방 부문의 모든 참가자가 설명했으며 슈퍼바이저의 정체성에 내재되어 있었습니다. 이 직책에서 슈퍼바이저는 학생의 학습과 역량 개발을 지원해야 할 의무를 설명했습니다. 이는 전문 지식과 기술을 가르치고, 피드백을 제공하고, 성과를 평가하고, 학생을 위한 학습 기회를 조정하는 것으로 구체화되었습니다. 슈퍼바이저는 대학이 지시한 프로그램 평가 프로세스를 준수할 책임이 있습니다. 수퍼바이저는 대학이 수퍼바이저가 교사 포지셔닝을 시행할 수 있도록 지원할 의무가 있는 것으로 간주했습니다. 이는 대학이 공감대 형성을 위한 토론을 통해 수퍼바이저의 평가를 확인하고 지원하며, 학생과의 어려운 대화에 대한 책임을 지고, 전문 지식과 경험을 수퍼바이저와 공유하며, 성과가 저조한 학생을 위한 개선 계획을 개발하는 등의 다양한 조치를 통해 달성되었습니다. 대학을 전문적인 조언자이자 조력자로 포지셔닝함으로써 슈퍼바이저들은 자신의 교수직에 대한 자신감을 갖게 되었습니다. 대학은 이러한 포지셔닝을 수용하고 받아들이는 것으로 인식되었습니다. 
The Teacher positioning was described by all participants across both hospital and primary prevention sectors and was inherent to the identity of supervisors. In this position, supervisors described a duty to support student learning and competence development. This was enacted by teaching professional knowledge and skills, providing feedback, evaluating performance, and coordinating learning opportunities for students. Supervisors had a responsibility to abide by the programmatic assessment process as directed by the university. Supervisors positioned the university as having a duty to assist supervisors to enact their Teacher positioning. This was achieved in a range of actions including the university confirming and supporting supervisors in their evaluations through consensus building discussions, holding responsibility for difficult conversations with students, sharing their expertise and experience with supervisors, and developing a remediation plan for underperforming students. Positioning the university as an expert advisor and helper contributed to the confidence the supervisors experience in their own Teaching position. The university was perceived as being receptive and accepting of this positioning.

"저는 항상 여러분[대학]에게 문제를 제기하고, 제가 문제를 제기한다고 해서 그 학생이 퇴학당하는 것이 아니라는 것을 믿기 때문에 아주 편안하게 전화할 수 있습니다. 그냥 "제가 걱정해야 할까요... 무엇을 추천하시겠습니까?"라고 묻는 것일 뿐입니다. 저는 전문가가 아니기 때문에 당신[대학]과 당신[대학]이 추천하는 대로 따라야 한다는 입장입니다." (감독관 9, B 대학).
I always flag the issues with you guys [the university], and I feel perfectly comfortable calling…because I also trust you guys that if I flag something it doesn't mean the student's going to be booted out. It's just flagging…“Do I need to be concerned…what do you recommend?” I also kind of come from the position that I'm not the expert, I will be guided by you [the university] and what you [the university] recommend.” (Supervisor 9, University B).

학생들은 교사의 지위에 있는 슈퍼바이저가 제공하는 피드백을 수용하고 그에 따라 행동해야 할 의무가 있다고 생각했습니다. 학생들은 개인적인 속성에 따라 슈퍼바이저의 교사 지위를 수락하거나 거부하는 것으로 인식되었습니다. 학습에 적극적으로 참여하고 주도권을 가진 학생이 선호되었으며 이러한 포지셔닝을 받아들이는 것으로 나타났습니다.  
Students were positioned as having a duty to accept and act on the feedback provided by supervisors in their Teacher position. Students were perceived to either accept or reject the supervisor’s Teacher positioning based on personal attributes. Those students who were engaged and had initiative in their learning were preferred and seen to accept this positioning.

슈퍼바이저와 실습 부문에 걸쳐 교사 포지셔닝은 공통적으로 적용되었지만, 두 가지 방식으로 시행되었습니다. 첫 번째는 병원에 고용된 수퍼바이저에서만 관찰된 것으로, 위계적 접근 방식이었습니다. 이 슈퍼바이저 그룹은 자신의 의견을 학생에게 전달하는 일방적인 대화 방식을 취했습니다. 학생은 평가 피드백과 결정을 수동적으로 받는 입장이었습니다. 데이터 내에서 이러한 하위 입장은 학생에 대해 이야기할 때 미묘한 언어 사용과 명백한 진술에서 드러났습니다.
While the Teacher positioning was common across supervisors and practice sectors, it was enacted in two distinct ways. The first, observed only in hospital-employed supervisors, was a hierarchical approach. This group of supervisors describe a one-directional dialogue whereby they communicated their opinions to the student. Students were positioned as passive recipients of assessment feedback and decisions. Within the data, this sub-position was revealed in the subtle use of language when talking about students and in overt statements.

"저는 당신의 [학생의] 능력을 평가해야 하는데..."(감독자 1, B 대학)
I'm going to have to assess your [the student’s] ability…” (Supervisor 1, University B)

"제 학생 중 한 명이... 방금... "위임받았습니다." 그래서 저는 "아니, 그건 내년에 다 할 거야"라고 말했죠. "아니, 넌 아직 위임받은 게 아니야, 넌 하위권이야, 미안해."라고 말했죠. (감독자 4, B 대학)
“one of my students…just popped… “Entrusted.” And I’m like, “Well, no, that’s all next year.” Things like that they didn’t know… “No, you’re not entrusted, not yet; you’re at the bottom of the spectrum, sorry.” (Supervisors 4, University B)

"...[프로그램 평가]는 학생들에게 더 많은 권한을 부여합니다... 때로는 기분이 좋지만 때로는... 논쟁의 여지가 있습니다... 결국 우리[감독자]는 학생을 평가하는 것이고... 학생이 어떻게 하고 있는지에 대한 그들의 인식은 당신[감독자]의 인식과 상당히 다를 수 있기 때문입니다... 같은 페이지에 있도록 지속적으로 피드백을 주는 것이 중요하다고 생각합니다. 하지만 때때로 학생들은 그 피드백에도 불구하고 여전히 다른 인식을 가질 수 있습니다... 그래서 이런 종류의 모델[프로그램적 평가]에서 흥미로울 수 있습니다... 학생은 이전보다 조금 더 많은 권한을 갖습니다... 이전에는 조금 더 흑백이었는데... 이건 조금 더 회색으로 보입니다..."(포커스 그룹 2, A 대학)
“… [programmatic assessment] empowers the students more…which sometimes feels good but sometimes...is a…bone of a contention…because at the end of the day we [the supervisors] are assessing a student and…their perception of how they’re doing might be quite different to your [the supervisor’s] perception…I think it’s important that you continuously give them feedback so that you are on the same page. But sometimes students, even with that feedback, will still have a different perception…so that can be interesting in this kind of model [programmatic assessment] …the student has a little bit more power than they did before…it was a bit more black and white…and this one seems a little bit more grey…” (Focus group 2, University A)

감독관들은 학생을 제외한 동료들과 학생의 성과에 대해 논의하여 이 하위 포지션을 제정했습니다. 이러한 토론은 그들의 해석과 판단에 자신감을 가져다주었습니다. 이 감독관들은 학생의 성과를 파악해야 하는 의무에 초점을 맞추었고, 특히 성과 저조가 우려될 때 더욱 그러했습니다.
Supervisors enacted this sub-position by discussing student performance with their colleagues which excluded the student. These discussions brought confidence to their interpretations and judgements. For these supervisors, the focus was on their duty to identify student performance, and this became particularly true when underperformance was a concern.

"저는 항상 학생에게 그 문제[성과 문제]를 제기하여 중간 평가와 최종 평가 사이에 학생이 잘하지 못할 수 있다고 생각되는 영역에서 역량을 발휘해야 한다는 것을 그들이 알 수 있도록 했습니다." (감독관 9, B 대학)
“I'd always bring that [a performance issue] up with the student so that they can know that I've almost got them on notice and that they are to demonstrate competency in those areas that I think they might not be great at between that mid-assessment and the final assessment.” (Supervisor 9, University B)

소수의 병원 및 일차 예방 부문 감독자에서는 교사 포지셔닝에 대한 다른 접근 방식이 관찰되었습니다. 이 하위 포지셔닝은 양방향 대화로 뒷받침되는 역동적인 학생-감독자 관계와 관련된 협력적인 교사를 설명했습니다. 슈퍼바이저와 학생 모두 학습 과정에 참여할 공동의 의무를 가졌습니다. 학생은 평가의 리더로서 이러한 책임에 대한 권리가 있다는 입장이었습니다. 이러한 슈퍼바이저는 학생의 참여가 학생의 성과에 대한 통찰력을 제공한다는 점에서 학생의 참여에 가치를 두었습니다. 이는 교사가 학생의 학습 요구에 더 잘 대응할 수 있는 무언의 기대와 학생의 추론을 밝혀내어 감독자가 교사 포지셔닝을 제정하는 데 도움이 되었습니다.
A different approach to the Teacher positioning was observed in a smaller number of both hospital and primary prevention sector supervisors. This sub-positioning described a collaborative Teacher involving a dynamic student-supervisor relationship, underpinned by a two-way dialogue. Both the supervisor and the student held a shared duty to engage in the learning process. Students were positioned as being leaders in their assessment and having a right to this responsibility. These supervisors placed value on the participation of students as it provided them with insight into the student’s performance. This helped the supervisor enact their Teacher positioning as it revealed unspoken expectation and student reasoning which allowed the Teacher to better respond to student learning needs.

"...우리[슈퍼바이저]가 학생을 판단하기 위해 여기 있는 것이 아니라는 것을 그들(학생)에게 알립니다. 우리는 그들을 지원하고 육성하고 멘토링하기 위해 여기에 있으며... 더 많은 정보를 가질수록... 더 많이 이끌고 안내하고 발전하도록 도울 수 있습니다."(슈퍼바이저 3, B 대학)
“…letting them [the student] know that we're [the supervisors] not here to judge them. We're here to support them and nurture them and mentor and that…the more information you have…the more you are able to lead and guide and help them progress” (Supervisor 3, University B)

"...우리[슈퍼바이저]가 그들[학생]이 자신의 발전 영역을 파악하고 학습 목표를 개발하도록 도와주고, 그들이 계속 앞으로 나아갈 수 있도록 돕고, 그렇게 하기 위한 전략을 세우도록 도와주는 것이 도움이 됩니다..."(포커스 그룹 3, A 대학)
“…it helps us [supervisors] to help them [students] to identify their areas for development and develop learning goals and then try and help them to continue to move forward and help them put some strategies in place to do that...” (Focus group 3, University A)

게이트키퍼
Gatekeeper

수퍼바이저의 하위 그룹에서 게이트키퍼의 역할은 직업적 표준을 준수하고 직장에 들어오는 학생들이 안전하고 유능한 실무자가 되도록 보장해야 할 의무를 설명하는 것으로 강력하게 확인되었습니다. 이러한 입장은 특히 병원 부문에서 일하는 수퍼바이저들에게서 뚜렷하게 나타났습니다. 이러한 수퍼바이저들은 실패하면 대중에게 큰 위험을 초래할 수 있다고 인식했으며, 병원 부문을 역량에 대한 기준으로 여겼습니다.
A Gatekeeper position was strongly identified in a sub-group of supervisors who described a duty to uphold professional standards and ensure that students entering the workforce were safe and competent practitioners. This positioning was particularly evident for supervisors working in the hospital sector. These supervisors perceived that failure to fail carried a great risk to the public, with the hospital sector viewed as the benchmark for competence.

"임상에서 무언가를 잘하지 못하면 유능하지 않다고 생각합니다." (포커스 그룹 8, A 대학)
“if you're not competent at something in clinical, then I feel like you're not competent.” (Focus group 8, University A)

이러한 위치에서 수퍼바이저는 대중의 안전을 지켜야 할 의무가 있고 대중은 보호받을 권리가 있습니다. 감독관들은 성과가 저조한 것을 감지하는 데 경계를 늦추지 않음으로써 이러한 위치를 확보할 수 있었습니다. 이 감독자 그룹은 대학의 프로그램 평가 도입에 저항했습니다. 
In this position, the supervisors had a duty to keep the public safe and the public had a right to be protected. Supervisors achieved this positioning by being vigilant to the detection of underperformance. This group of supervisors resisted the introduction of programmatic assessment by the university.

"그들[수퍼바이저]은 대학에 대한 피드백이... 양방향 응답을 통해 검증되었다고 생각하지 않았습니다. 조직과 대학이 학생의 위치에 대해 서로 다른 페이지에 있다고 생각했기 때문입니다. 저는 그들이 [감독관들의] 피드백을 통해 자신들이 그 [높은 수준의] 평가를 내리는 사람이라는 책임이 주어지지 않는다는 사실에 약간 실망했다고 생각합니다... 결국, 그것은 그들의 평가로 귀결되지 않았습니다. 다른 방식으로 진행되었습니다." (감독자 2, B 대학)
“they [supervisors] didn’t necessarily feel like their feedback…to the university was validated by that two-way response, in that I think the organisation and the university were on different pages about where the student sat. I think their [the supervisors] feedback is that they are a bit disheartened that they are not being given that responsibility of…being the person who makes that [high-stakes] assessment…At the end of the day, it didn’t come down to their assessment. It went a different way.” (Supervisor 2, University B)


프로그램 평가는 고부담 평가 결정에 대한 책임을 감독자에서 대학으로 이전했습니다. 이러한 방식으로 대학은 스스로를 게이트키퍼로 포지셔닝하여 수퍼바이저의 권한을 박탈하고 권리를 박탈하여 불만을 불러 일으켰습니다. 이러한 변화는 수퍼바이저의 권위와 힘을 약화시키고 그들의 직업적 정체성을 위협했습니다. 이 슈퍼바이저 그룹은 대학의 이러한 입장을 거부하고 평가 결정에서 배제되었다고 느꼈을 때 실무 기준이 훼손되는 것에 대한 우려를 표명했습니다.
Programmatic assessment transferred the responsibility for high-stake assessment decisions from supervisors to the university. In this way, the university positioned themselves as the Gatekeeper which left supervisors disempowered and disenfranchised, invoking frustration. This change diminished their authority and power and threatened their professional identity. This group of supervisors rejected this positioning by the university and expressed concern for compromised practice standards when they felt excluded from the assessment decisions.

"당신[면접관]이 모델을 완전히 바꾸게 된 이유는 무엇인가요? 과거에는 우리가 의사 결정권자였기 때문입니다. 예전에는 우리가 피드백을 제공하고 대학 감독관과 협력했지만 지금은 완전히 그 반대입니다." (포커스 그룹 6, A 대학)
“what made you [the interviewer] change the model completely? Because before, in the past, we used to be the decision makers. We used to give our feedback, work with the uni [university] supervisors, but now it's totally the other way around.” (Focus group 6, University A)

이 슈퍼바이저들은 학생들이 졸업을 '강요'받아 대중에 대한 의무와 자신의 직업적 평판과 신뢰성을 위협받을 수 있다는 우려를 표명했습니다. 프로그램 평가의 도입으로 인한 권한과 권력의 변화와 그에 따른 위상 변화는 감독관과 대학 사이에 갈등의 불씨를 만들었습니다.
These supervisors expressed concern that students would be ‘pushed through’ to graduation which threated their duty to the public and their own professional reputation and credibility. This shift in authority and power, and subsequent positioning, with the introduction of programmatic assessment created a flashpoint between supervisors and the university.

"... 약간 불안하고 약간 밀리는 느낌이 듭니다. 영양학 분야에서 일할 수 있는 학위를 학생들에게 준다는 것이 조금은 부담스럽습니다. 그리고 그것은 꽤 높은 기준이어야한다고 생각합니다. 그리고 그 [평가] 옆에 제 이름이 붙는다는 것이 저를 조금 불편하게 만드는 것 같아요. 왜냐하면 저는 그런 평가가 저에게 다시 돌아오는 것을 원하지 않기 때문입니다." (슈퍼바이저 7, B 대학)
“…it just makes me feel a bit anxious and a little bit pushed. A little bit pushed that we’re giving …[students]…degrees to work in dietetics. And I think that that should be of quite a high standard. And I think having my name next to that [assessment] makes me feel a bit uncomfortable, because I don’t want that to come back on me at any point.” (Supervisor 7, University B)

수퍼바이저들은 평가를 '올바르게' 하기 위해 오류나 실수를 피하는 데 몰두하고 있다고 말했습니다. 감독자들은 평가 순간과 양식을 놓치거나 학생의 수행을 관찰한 내용을 충분히 자세히 기록하지 못할 것이라는 우려를 표명했습니다. 감독자들은 자신의 실수가 대학과 학생에게 중대한 영향을 미칠 것이라고 추측했습니다. 이러한 책임감은 일부 감독관에게 큰 부담으로 작용하여 학생들이 프로그램 평가 내에서 권한을 부여받는 데 방해 요인이 되었습니다.
The supervisors spoke of getting the assessment correct and were preoccupied with avoiding errors or mistakes as they sought to do assessment ‘right’. Supervisors expressed concern that they would miss assessment moments and forms or would not write sufficient detail on their observations of student performance. Supervisors speculated that their error would have significant ramifications for the university and student. This responsibility weighed heavily on some supervisors and was an inhibitory factor in allowing students to be empowered within programmatic assessment.

"옛날에는 우리 이름이 서명하는 것이었는데... 저는 학생에 대해 서명하는 것을 매우 꺼려했습니다. 안전하지 않을 것 같다는 생각이 들었고, 책임감도 있었으니까요..."(포커스 그룹 6, A 대학)
“Once upon a time it was our name signing off and…I was very reluctant to sign off on a student. I felt that it wouldn't be safe, and you have that sense of responsibility...” (Focus group 6, University A)

"집에 돌아가거나 저녁을 먹으면서 파트너와 이 문제에 대해 이야기하는 경우가 많았습니다. 파트너는 "그건 네 문제가 아니야"라고 말하죠. 하지만 전 이렇게 말하죠. "하지만 제 생각은 그래요. 저는 그들이 잘하기를 바라고 좋은 감독자가 되고 싶어요."라고 말하죠. 그래서 항상 신경이 쓰이죠." (슈퍼바이저 7, B 대학)
“Frequently I would be going home, or I would be eating dinner, talking to my partner about it. He’s like, “It’s not your problem.” But I’m like, “But I feel like it is. I want them to do good and I want to be a good supervisor.” So, it does play on your mind at all times.” (Supervisor 7, University B)

이 슈퍼바이저 그룹은 또한 학생이 졸업하고 직업에 진출할 준비가 되었는지를 판단하기 위해 취업 척도를 사용한다고 설명합니다.
This group of supervisors also describe using a measure of employment to determine if a student was ready to graduate and enter the profession.

팀원
Team Member

게이트키퍼와 달리 다른 감독자 그룹은 프로그램 평가의 도입으로 책임이 재분배되는 것을 받아들이고 스스로를 팀원으로 포지셔닝했습니다. 일부의 경우 이러한 포지셔닝이 즉시 이루어지지 않았습니다. 대신, 그들은 이러한 포지셔닝을 받아들이기 전에 프로그램적 평가에 익숙해지고 엄격함에 대한 확신을 가져야 했습니다. 
In contrast to the Gatekeeper, a different group of supervisors accepted the redistribution of responsibilities with the introduction of programmatic assessment and positioned themselves as Team Members. For some, this positioning did not occur immediately. Instead, they needed to become familiar with programmatic assessment and have confidence in the rigour before they accepted this positioning.

"사실 제가 한 발 물러서서 그들[학생들]이 주도권을 갖고 저에게 오도록 내버려 두었어야 했는데, 그냥 그런 변화 때문이라고 생각하죠? 학생들[학생들]이 주도권을 갖는 것에 익숙하지 않으니까...." (포커스 그룹 1, A 대학). 
“you do feel a little bit disempowered…when really I probably should have taken a step back and just let them [the students] have the initiative and come to me, but I think, yeah, just because it’s just that change, isn’t it? You’re just not used to them [the students] having control….” (Focus group 1, University A).

팀원들은 프로그램 평가의 원칙과 목적을 사용하여 학생의 성과와 역량에 대한 전체적인 그림을 구축하는 데 기여하는 팀의 중요한 부분으로 자신을 포지셔닝했습니다. 이러한 감독관은 고부담 평가 결정에 대한 권위를 포기하고, 권한을 대학에 이양하고 학생이 스스로 학습할 수 있는 권한을 갖도록 허용했습니다. 이러한 포지셔닝은 제공된 리소스를 사용하여 학생과 대학에 피드백을 제공하고, 대학과 선배 동료에게 문제를 에스컬레이션하고, 후배 감독자를 교육하고 지원하는 방식으로 이루어졌습니다.

Team Members used the principles and purpose of programmatic assessment to position themselves as an important part of a team which contributed to the construction of a holistic picture of a student’s performance and competence. These supervisors relinquished authority and deferred power for high-stakes assessment decisions to the university and allowed the student to become empowered in their own learning. This positioning was enacted by providing feedback to the student and the university using the provided resources, escalating issues to the university and senior colleagues, and teaching and supporting junior supervisors.

"우리[슈퍼바이저]가 그들[학생]이 유능하지 않다고 말했다고 해서 반드시 전체 과정에 불합격할 것이라는 의미는 아닙니다. 그것은 훨씬 더 많은 과정이며... 토론하고 전체 그림을 보는 것은 감독자의 부담을 덜어주기 때문에 이 특정 [성과가 저조한] 학생을 감독할 때 확실히 감사한 일이었습니다. 학생에게 "넌 전체 과정을 낙제했어"라고 말하는 것과는 다릅니다. "이 특정 섹션에서 당신은 역량을 충족하지 못했고, 전체 성과를 검토하는 것은 대학에 달려 있습니다."라고 말하는 것뿐입니다. (감독자 3, B 대학) 
“just because we [the supervisors] said they're [the student] not competent, doesn’t necessarily mean that they're going to fail the entire course. It’s a lot more of a process…and discussing and looking at the whole picture, which has definitely been something that I appreciated when I was supervising this particular [underperforming] student because it takes the pressure off the supervisor. It’s not like we’re saying to the student, “You've failed you [the] entire course”. It’s just saying, “In this particular section you haven't met competency and it’s up to the uni [university] then to review their entire performance.” (Supervisor 3, University B)

수퍼바이저들은 고부담 의사 결정에 기여할 권리가 있으며, 대학은 이들의 의견을 소중히 여기고 의사 결정에 반영할 의무가 있다고 설명했습니다. 
Supervisors described having a right to contribute to high-stake decisions and the university had a duty to value and include their opinions in decisions.

"... 슈퍼바이저로서 지원을 받는다는 느낌, 마지막 결정권을 갖고 있지 않다는 자신감이 생겼습니다... 마지막 결정권을 갖고 싶지는 않지만... 여러분[대학]과 함께 의견을 확인할 수 있습니다..."(슈퍼바이저 9, B 대학) 
“… it does boost my confidence that I just feel supported as a supervisor, that I don't have the last word…I don't want to have the last word but…I can have an opinion check it with you guys [the university] …” (Supervisor 9, University B)

이 수퍼바이저들은 권한과 권력의 변화로 인해 고부담 평가 결정과 관련된 부담과 스트레스가 줄어들고 지지적 교수 관계를 구축할 수 있게 되어 해방감을 느낀다고 설명했습니다. 고부담 평가 결정에 대한 책임은 이해관계의 충돌이며 학생과 감독자 관계를 손상시켜 학생을 가르치는 데 방해가 된다는 인식이 있었습니다. 이 감독자 그룹을 통해 학생은 평가 내에서 자신의 권리와 의무를 제정할 수 있었고, 대학은 고위험 평가 결정을 내릴 의무를 부여받았습니다.
These supervisors described the shift in authority and power as liberating as it reduced the burden and stress associated with high-stakes assessment decisions and enabled them to cultivate a supporting teaching relationship. There was recognition that responsibility for high-stakes assessment decisions was a conflict of interest and compromised the student-supervisor relationship, hindering their ability to teach students. This group of supervisors enabled students to enact their rights and duties within assessment and the university was given the duty to make high-stakes assessment decisions.

"이제 대학이 현장 감독자와 함께 [학생이] 충분한 증거를 제공했는지에 대한 최종 결정을 내리고 있기 때문에... 스트레스가 조금 완화되는 것 같아요..."(포커스 그룹 5, A 대학) 
“now that the university is making that final call on whether they’ve [the student] provided enough evidence, obviously in conjunction with site supervisors…I think it eases that stress a little bit...” (Focus group 5, University A)

토론
Discussion

우리는 슈퍼바이저들이 프로그램 평가에서 자신의 위치를 어떻게 경험하고 인식하는지 이해하기 위해 포지셔닝 이론의 비판적 렌즈를 적용했습니다. 수퍼바이저들은 다음 세 가지 중 두 가지 방식으로 자신을 포지셔닝했습니다: 교사, 게이트키퍼 또는 팀원.

  • 모든 수퍼바이저는 학생을 교육해야 하는 고유한 의무가 있다고 설명했으며, 이는 교사에 반영되었습니다.
    • 일부 슈퍼바이저는 협력적인 교육 관계를 설명하는 반면,
    • 다른 슈퍼바이저는 학생을 수동적인 피교육자로 간주하는 위계적 접근 방식을 채택하는 등 이분법적인 포지셔닝이 이루어졌습니다.
  • 게이트키퍼와 팀원이라는 상호 배타적인 두 가지 직책도 확인되었습니다.
    • 게이트키퍼 감독관은 더 넓은 커뮤니티를 보호해야 할 의무가 있으며 부적절한 학생의 성과를 감지하는 데 집중한다고 설명했습니다.
    • 반면, 팀원은 높은 수준의 성과에 기여할 권리가 있으며 평가에 대한 책임과 부담에서 자유롭다고 설명했습니다. 

We applied the critical lens of Positioning Theory to understand how supervisors experienced and perceived their positioning within programmatic assessment. Supervisors positioned themselves in two of three ways: Teacher, and either a Gatekeeper or Team Member. All supervisors described an inherent duty to educate students, reflected in Teacher. This positioning was enacted dichotomously with some supervisors describing a collaborative teaching relationship, while others adopted a hierarchical approach whereby students were disempowered passive recipients. Two alternative and mutually exclusive positions, the Gatekeeper and Team Member, were also identified. Gatekeeper supervisors described a duty to protect the wider community and focussed on the detection of inadequate student performance. In contrast, Team Members described a right to contribute to high-stakes outcomes and were liberated from the responsibility and burden of assessment.

우리의 연구는 프로그램식 평가에 저항하고 수용하는 사람들의 속성을 설명했습니다. 본 연구에서 대학 교직원들은 주요 이해관계자들과 함께 수퍼바이저의 업무가 교육 및 성과 평가로 재조정되어(1순위 포지셔닝) 고부담 평가 결정에 기여하지만 책임을 지지 않는 프로그램식 평가 전환을 주도했습니다. 일부 수퍼바이저의 경우 대학 측의 이러한 직위 부여를 거부하고(2순위 및 3순위 직위 부여) 스스로 게이트키퍼임을 드러냈습니다. 게이트키퍼대중과 자신의 직업적 평판을 보호해야 한다는 열렬한 의무에서 비롯된 학생의 저조한 성과를 경계할 권리가 프로그램 평가와 모순되는 측면이 있었습니다. 이러한 입장은 다른 사람들에 의해 설명되었으며(O'Connor 외., 2019), 객관성(종종 주관성을 희생시키면서), 표준화 및 환원주의에 중점을 둔 전통적인 심리측정 중심 접근 방식을 대표합니다(Hodges, 2013). 반대로, 프로그램 평가는 이러한 심리측정적 접근 방식과 상충될 수 있는 집단적이고 주관적인 구성주의적-해석주의적 인식론을 구현합니다(Govaerts et al., 2007; Hodges, 2013). 게이트키퍼 포지셔닝과 프로그램적 평가 사이에 관찰되는 긴장을 설명할 수 있는 것은 바로 이러한 이념적 불협화음입니다(Pearce & Tavares, 2021; Torre et al., 2022).

Our research expounded the attributes of those who both resist and accept programmatic assessment. In our study, university staff, coupled with key stakeholders, led the programmatic assessment transitions whereby the duties of supervisors were reoriented to teaching and performance appraisal (first order positioning) where they contributed, but did not hold responsibility, for high-stakes assessment decisions. For some supervisors, this positioning by the university was rejected (second order and third order positioning) and revealed itself as the Gatekeeper. The Gatekeepers right to be vigilant to poor student performance, derived from a fervent duty to protect the public and their professional reputation, was incongruent with programmatic assessment. Such positioning has been described by others (O’Connor et al., 2019) and typifies a traditional psychometric-focussed approach that centres on objectivity (oft at the expense of subjectivity), standardisation, and reductionism (Hodges, 2013). Conversely, programmatic assessment embodies a collective and subjective constructivist-interpretivist epistemology which can be at odds with this psychometric approach (Govaerts et al., 2007; Hodges, 2013). It is this ideological dissonance that may account for observed tensions between the Gatekeeper positioning and programmatic assessment (Pearce & Tavares, 2021; Torre et al., 2022).

이러한 긴장을 개선하기 위한 실용적인 전략으로는 모든 사용자의 참여와 권한 부여, 강력한 리더십과 비전, 인내와 인내심을 가지고 프로그램적 평가를 실행하는 것 등이 있습니다(Roberts et al., 2021; Schut et al., 2021; Torre et al., 2021; van der Vleuten et al., 2015). 이러한 전략은 대다수에게는 효과적이지만, 확고한 인식론적 차이를 극복하기에는 불충분할 수 있습니다. 대신 모든 이해관계자, 특히 반대하는 이해관계자의 견해와 신념에 대한 명시적인 인정과 담론이 필요합니다(Pearce & Tavares, 2021). 이는 암묵적 가정을 파악하고, 공통 언어를 개발하고, 공유된 이해를 구축함으로써 앞서 언급한 전략의 성공을 개선하는 데 도움이 될 수 있습니다(Tavares et al., 2021). Govaerts 외(2019)는 긴장을 인간 행동의 피할 수 없는 특성으로 간주하고, 갈등을 해결하려 하기보다는 차이를 활용하여 시스템을 최적화하는 폴라리티 씽킹™에서 유망한 접근법을 제시합니다. 연구 결과를 설명하기 위해 철학적 비교를 제시했지만, 현실은 사회적 맥락적 요인에 영향을 받는 미묘한 이념의 연속체이며(Pearce & Tavares, 2021; Schoenherr & Hamstra, 2015), 포지셔닝은 개인의 경험과 사회적 상황 사이의 역동적인 상호작용에 반응하는 고정된 것이 아니라 유동적인 구성요소라는 점을 인정합니다(McVee et al., 2018). 이는 현재와 진화하는 사회문화적 결정 요인이 모두 프로그램 평가 내에서 감독자의 포지셔닝에 영향을 미칠 수 있는 역량을 가지고 있음을 시사합니다. 프로그램 평가를 실행하려는 사람들은 자신의 세계관과 신념, 이해관계자의 세계관을 고려하고, 격차를 해소하고 교육 변화에 대한 공동의 지원을 창출하는 전략을 사용하는 것이 현명할 것입니다. 

Pragmatic strategies to ameliorate such tensions include involving and empowering all users, having strong leadership and vision, and patience and perseverance when implementing programmatic assessment (Roberts et al., 2021; Schut et al., 2021; Torre et al., 2021; van der Vleuten et al., 2015). While effective for the majority, such strategies may be insufficient to overcome staunch epistemological differences. Instead, explicit recognition and discourse of the views and beliefs held by all stakeholders, particularly those in opposition, is required (Pearce & Tavares, 2021). This may go some ways to improve the success of the aforementioned strategies through the identification of implicit assumptions, developing a common language, and building shared understanding (Tavares et al., 2021). Govaerts et al. (2019) presents a promising approach in Polarity Thinking™ which frames tensions as an inescapable trait of human behaviour and rather than trying to solve the conflict, differences are leveraged to optimise the system. While we have presented here a philosophical comparison to unpack our research findings, we acknowledge that reality is a nuanced continuum of ideologies influenced by socio-contextual factors (Pearce & Tavares, 2021; Schoenherr & Hamstra, 2015) and that positioning is a fluid construct, rather than fixed, responsive to the dynamic interplay between a person’s own experience and the social situation (McVee et al., 2018). This suggests that both current and evolving socio-cultural determinants have capacity to influence supervisor positioning within programmatic assessment. Those seeking to implement programmatic assessment would be wise to consider their own worldview and beliefs, and those of stakeholders, and employ strategies to bridge the gaps and create shared support for educational change.

우리의 연구에 따르면 임상 병원 부문에서 일하는 수퍼바이저는 위계적 교사 및 게이트키퍼 포지션을 설명하는 경향이 있는 것으로 나타났습니다. 특정 집단이 공유하는 고유한 이념과 가치로 정의되는 문화는 개인과 팀의 태도와 행동을 형성하기 때문에 의료 교육 변화의 실행 가능성에 중요한 기여를 합니다(Bearman 외., 2021; Govaerts 외., 2007; Pearce & Tavares, 2021; van der Vleuten 외., 2015; Watling 외., 2020). 문화는 보건 전문직 교육 내에서 복잡하고 종종 잘 이해되지 않는 현상입니다. 최근 Sheehan과 Wilkinson(2022)은 사회, 조직, 실무, 자아 및 정체성, 전문가 및 교육 제공자를 포괄하는 학습 환경 문화에 대한 다층적 개념화를 제시하여 우리의 이해를 넓혔습니다. 이 연구는 교육 기관과 의료 현장의 문화적 요구를 수용해야 하는 보건 전문직 교육 이니셔티브가 직면한 복잡성과 문화적 불일치 및 불협화음의 위험을 강조합니다(Govaerts et al., 2019; Sheehan & Wilkinson, 2022). 이러한 위험을 완화하려면 관찰된 문제에 대해 단순히 문화에 책임을 묻기보다는 특정 맥락에 존재하는 다양한 문화를 이해하고 포용하며 그 안에서 협력해야 합니다. 이는 문화와 문화를 구성하는 사람들 사이에 존재하는 상호적인 파트너십을 인정하는 것입니다(Bearman et al., 2021; Sheehan & Wilkinson, 2022). 문화적 외부인이 주도하는 단기적인 변화 시도는 제한적인 성공에 그칠 가능성이 높습니다. 오히려 성공적인 변화를 위한 맥락을 조성하기 위해서는 특정 문화를 구성하는 사람들의 지지와 리더십이 필요합니다(Pearce & Tavares, 2021; Torre et al., 2021; Watling et al., 2020). 또한 '문화적 반사성'도 필요한데, 이는 특정 문화의 뉘앙스를 이해하기 위해 시간이 지남에 따라 그 구조 내에서 사람들을 참여시켜 행동을 조절하는 조건을 드러내는 것입니다(Aronowitz et al., 2015). 우리의 연구 결과에 따르면 일부 직장에서 프로그램 평가에 대한 교육 기관의 우선순위와 신념이 기존의 사회적, 문화적 태도와 맞지 않아 긴장이 관찰되었을 수 있습니다. 이러한 문제는 다른 연구자들에 의해 관찰되었으며(Torre 외, 2021), 프로그램 평가를 시행할 때 '문화적 반성성'이 필요하다는 것을 보여줍니다. 최근 Torre 등(2022)은 프로그램적 평가의 실행을 촉진할 수 있는 복잡한 맥락적 요인을 탐색하고 이에 대응할 수 있는 '지식 브로커'에 대해 설명했습니다. 이러한 결과는 미묘한 문화적 요소를 수용하고 활용하여 성공적인 실행을 지원하기 위해 프로그래밍 방식의 평가의 유연한 원칙을 고유하게 구현할 수 있는 방법을 강조합니다. 

Our research revealed that supervisors working within the clinical hospital sector had a propensity to describe the hierarchical Teacher and the Gatekeeper positionings. Culture, defined as the shared and unique ideologies and values held by a particular group of people (Peterson & Spencer, 1990), is a significant contributor to the viability of medical educational change as it shapes the attitudes and behaviours of individuals and teams (Bearman et al., 2021; Govaerts et al., 2007; Pearce & Tavares, 2021; van der Vleuten et al., 2015; Watling et al., 2020). Culture is a complex and often poorly understood phenomenon within health professions education. Recently Sheehan and Wilkinson (2022) presented a multilayered conceptualisation of the learning environment culture which encompasses society, organisational, practice, self and identity, professional and education providers that broadens our understanding. This work highlights the complexities facing health professions education initiatives which need to accommodate cultural demands of both the educational institution and the health care workplace or risk cultural misalignment and discordance (Govaerts et al., 2019; Sheehan & Wilkinson, 2022). Mitigating against such risks involves understanding, embracing, and working within the spectrum of cultures that exist for a particular context rather than simply holding culture accountable for observed problems. This recognises the reciprocal partnership that exists between culture and the people that make up a culture (Bearman et al., 2021; Sheehan & Wilkinson, 2022). Short term attempts at change, led by cultural outsiders, will likely be met with limited success. Rather, advocacy and leadership from the people who constitute a particular culture are needed to create a context for successful change (Pearce & Tavares, 2021; Torre et al., 2021; Watling et al., 2020). ‘Cultural reflexivity’ is also required whereby we come to understand the nuances of a particular culture by engaging the people over time, within their structures, to reveal the conditions that moderate behaviours (Aronowitz et al., 2015). Our findings suggest that in some workplaces the educational institution priorities and beliefs about programmatic assessment may have been misaligned with established social and cultural attitudes leading to observed tensions. Such challenges have been observed by others (Torre et al., 2021) and illustrate the need for ‘cultural reflexivity’ when implementing programmatic assessment. Recently, Torre et al. (2022) described ‘knowledge brokers’ that could navigate, and be responsive to, complex contextual factors that enabled them to drive the implementation of programmatic assessment. These results highlight how the malleable principles of programmatic assessment can be uniquely implemented to accommodate and leverage nuanced cultural factors to support successful implementation.

최근 문헌 검토에서 Schut 등(2021)은 대부분의 경우 슈퍼바이저가 효과적인 학습 환경을 조성하고 역할 갈등을 해결하기 위해 프로그래밍 방식의 평가를 수용한다는 사실을 보여주었습니다.

  • 팀원 포지셔닝에서도 슈퍼바이저가 역할 갈등의 부담에서 해방감을 느끼고 시스템 내에서 가치를 인정받는다고 느끼는 비슷한 패턴을 발견했습니다. 이러한 포지셔닝은 안전하고 최적의 학습 환경을 조성하는 슈퍼바이저와 학생 간의 동맹을 가능하게 했으며, 이는 학습에 필수적인 것으로 관찰되었습니다(Telio 외., 2015).
  • 소수의 수퍼바이저인 게이트키퍼의 경우, 프로그램식 평가는 고부담 평가 결정에 대한 권한을 약화시키고 전문가로서의 정체성에 도전하여 좌절과 저항으로 이어졌습니다.

In a recent literature review, Schut et al. (2021) demonstrated that for the most part, supervisors embraced programmatic assessment as it created effective learning environments and resolved role conflicts.

  • In Team Members positioning, we also found a similar pattern whereby supervisors described a feeling of liberation from the burden of role conflict and felt valued within the system. This positioning enabled an alliance between supervisor and student that created a safe and optimal learning experience, which has been observed as a necessity for learning (Telio et al., 2015).
  • For a minority of supervisors, the Gatekeepers, programmatic assessment diminished their authority over high-stakes assessment decisions and challenged their professional identity, leading to frustration and resistance.

권력은 개인의 행동과 행동에 복합적으로 영향을 미치기 때문에 학생-감독자 관계를 형성하는 중요한 요소입니다(Janss 외., 2012; Rees 외., 2020b). 권력은 '다른 사람을 통제하거나 영향을 미칠 수 있는 개인의 상대적 능력'으로 광범위하게 정의됩니다(Janss 외, 2012). 학생들이 무력하고 상사의 권위를 묵인한다는 통념은 최근 학생들이 다양한 은밀하고 명백한 행동을 통해 권력을 행사(및 저항)하는 미묘한 역학 관계와 방식을 밝히는 연구로 인해 도전을 받고 있습니다(Rees et al., 2020b). 공유된 권력과 공동 구성 학습은 생산적인 학습 환경을 형성하는 가치 있는 대인 관계를 만들어냅니다. 공유된 권력학생의 자기 성찰, 피드백 대화, 자신의 성과에 대한 피드백을 잘 받아들이는 공감적 감독자(친근함, 취약성, 정직성 등의 속성을 가진)를 통해 달성됩니다(Castanelli 외, 2022; O'Connor 외, 2018; Rees 외, 2020b). 이러한 전략은 프로그래매틱 평가의 원칙에 반영되어 있습니다(Heeneman 외., 2021; Torre 외., 2020; van der Vleuten 외., 2012). 이를 바탕으로 우리는 다음의 이론을 세웠습니다(Cantillon 외, 2016; de Jonge 외, 2017; Meeuwissen 외, 2019; Torre 외, 2021).

  • 프로그램식 평가의 도입이 학생-감독자 관계에 만연한 '권력 비대칭성'을 파괴하고 권한과 책임의 재분배를 촉진하여 교육 결과를 최적화하는 학생의 주체성과 상호성을 선호한다

우리 연구와 다른 연구자들(복 외, 2013; 슈트 외, 2021)의 연구에 따르면 이러한 변화에 저항하는 감독자 중 일부인 게이트키퍼는 평가 시스템을 불신하고 프로그램적 평가에 지속적인 도전을 제시합니다(칸틸롱 외, 2016; 슈트 외, 2021). 프로그램 평가를 시행하는 사람들은 프로그램 평가에서 게이트키퍼의 역할(있는 경우)을 고려해야 할 수 있습니다. 

Power is a significant factor shaping the student-supervisor relationship through its complex influence on an individual’s behaviours and actions (Janss et al., 2012; Rees et al., 2020b). Power is broadly defined as the ‘relative ability of an individual to control or influence others’ (Janss et al., 2012). The prevailing belief that students are powerless and acquiesce their authority to supervisors has recently been challenged with research revealing the nuanced dynamics and ways by which students exert power (and resistance) using a range of covert and overt actions (Rees et al., 2020b). Shared power and co-constructed learning create valuable interpersonal relationships which form productive learning environments. Shared power is achieved through student self-reflection, feedback dialogue, empathetic supervisors (with attributes including friendliness, vulnerability, and honesty) who are receptive to receiving feedback on their own performance (Castanelli et al., 2022; O'Connor et al., 2018; Rees et al., 2020b). These strategies are reflected in the principles of programmatic assessment (Heeneman et al., 2021; Torre et al., 2020; van der Vleuten et al., 2012). On this basis, we theorise that

  • the introduction of programmatic assessment disrupted the prevailing ‘power asymmetry’ within the student-supervisor relationship and precipitated a redistribution of authority and responsibility, favouring student agency and mutuality which optimises educational outcomes (Cantillon et al., 2016; de Jonge et al., 2017; Meeuwissen et al., 2019; Torre et al., 2021).

Our research, and that of others (Bok et al., 2013; Schut et al., 2021) has revealed the subset of supervisors that resist this shift, the Gatekeepers, who mistrust the assessment system and present an ongoing challenge to programmatic assessment (Cantillon et al., 2016; Schut et al., 2021). Those implementing programmatic assessment may need to consider the role, if any, that Gatekeepers have in programmatic assessment.

우리가 아는 한, 포지셔닝 이론을 프로그램적 평가를 탐구하는 프레임워크로 사용한 연구는 이번이 처음입니다. 우리는 포지셔닝 이론을 보건 전문가 교육에 보다 광범위하게 활용하고 그 잠재력을 지지하는 제한적이지만 통찰력 있는 연구 풀에 기여해 왔습니다. 이 연구에 적용된 해석적 또는 이론에 기반한 귀납적 데이터 분석의 실용적 접근 방식은 데이터 분석에 이론적 렌즈를 적용하여 연구 결과에 깊이를 더할 수 있게 해주었습니다(Varpio 외., 2020). 우리는 이것이 연구 과정의 초기 단계에서 이론의 잠재적 영향력을 제한한다는 것을 인식했으며, 보건 교육에 이론을 채택하여 문제에 대한 더 큰 통찰력을 제공해야 한다는 요구를 반영합니다(Varprio et al., 2017). 한 국가에 있는 두 기관에서 참가자를 모집했기 때문에 연구의 표본 크기가 더 커졌지만 이전 가능성은 제한적이었습니다. 우리는 독자의 이해를 돕고 각자의 환경에 대한 적용 가능성을 높이기 위해 풍부한 설명을 제공했습니다. 배치 구조와 환경이 유사하고 이해관계자 기반 접근 방식을 활용하여 프로그램 평가를 설계한 두 교육 과정은 유사했지만, 다른 고유한 맥락적 요인이 조사 결과에 영향을 미쳤을 가능성이 있습니다. 이는 다양한 환경에서 프로그램 평가의 설계 및 채택에 대한 문화의 영향에 대한 추가 조사의 필요성을 강조합니다. 감독자의 포함은 프로그램적 평가에 대한 이야기의 일부에 불과합니다. 학생, 대학, 치료 수혜자 등 모든 이해관계자의 목소리를 포함하는 향후 연구를 통해 이해의 폭을 넓힐 수 있을 것입니다. 
To our knowledge, this is the first study that has used Positioning Theory as a framework to explore programmatic assessment. We have contributed to the limited, but insightful, pool of research that uses Positioning Theory more broadly within health professional education and advocate for its potential. The interpretive, or theory-informing inductive data analysis, pragmatic approach applied in this research enabled a theoretical lens at data analysis to give depth to the findings (Varpio et al., 2020). We recognised that this limits the potential influence of the theory on the earlier stages of the research process and we echo calls for theory to be adopted in health education to provide greater insight into challenges (Varprio et al., 2017). Transferability was limited as participants were derived from two institutions in one country, although this provided a larger sample size for the research. We have provided the reader with a rich description to assist understanding of the context and enhance transferability to their own settings. Although the courses were similar in placement structure and setting, and utilisation of a stakeholder-based approach to design the programmatic assessments, it is feasible that other unique contextual factors may have influenced the findings. This highlights a need for further exploration into the influence of culture on the design and adoption of programmatic assessment across different settings. Inclusion of supervisors tells only part of the programmatic assessment story. Future research that includes the voices of all stakeholders including students, university, and care recipients, will expand our understanding.

결론
Conclusion


포지셔닝 이론은 프로그램 평가가 전통적인 의학교육 구조와 이념에 도전하고 성공에 영향을 미치는 감독자의 권리와 의무를 어떻게 재조정했는지 밝혀냈습니다. 프로그램적 평가는 진공 상태에서 발생하지 않습니다. 오히려 다양한 신념과 가치관을 가진 이해관계자들이 서로 조화를 이루어야 성공할 수 있는 문화적으로 복잡한 공간에 존재합니다. 이해관계자는 개인적, 문화적 요인에 의해 형성되므로 시간이 지나고 저항에 직면하더라도 지속 가능한 프로그램 평가를 구현하기 위해서는 사려 깊고 유연하며 상황에 민감한 접근 방식이 필요합니다. 이 연구는 프로그램적 평가로 나아갈 때 감독자를 지원하고 참여시키는 방법에 대한 새로운 통찰력을 제공합니다. 

Positioning Theory revealed how programmatic assessment reorientated supervisor rights and duties which challenged traditional medical education structures and ideologies, and influenced success. Programmatic assessment does not occur in a vacuum. Rather, it inhabits a culturally complex space that requires a symphony of stakeholders, with differing beliefs and values, to succeed. Stakeholders are shaped by individual and cultural factors, warranting a considered, flexible, and context-sensitive approach to implementing programmatic assessment that is sustained over time and in the face of resistance. This research provides new insights into how to support and engage supervisors when moving towards programmatic assessment.

 

 


Adv Health Sci Educ Theory Pract. 2023 Aug;28(3):827-845. doi: 10.1007/s10459-022-10193-9. Epub 2022 Dec 5.

Teacher, Gatekeeper, or Team Member: supervisor positioning in programmatic assessment

Affiliations

1Monash University, Melbourne, Australia. j.jamieson@ecu.edu.au.

2School of Medical and Health Sciences, Edith Cowan University, 270 Joondalup Drive, Joondalup, WA, 6027, Australia. j.jamieson@ecu.edu.au.

3Monash University, Melbourne, Australia.

PMID: 36469231

DOI: 10.1007/s10459-022-10193-9

Abstract

Competency-based assessment is undergoing an evolution with the popularisation of programmatic assessment. Fundamental to programmatic assessment are the attributes and buy-in of the people participating in the system. Our previous research revealed unspoken, yet influential, cultural and relationship dynamics that interact with programmatic assessment to influence success. Pulling at this thread, we conducted secondary analysis of focus groups and interviews (n = 44 supervisors) using the critical lens of Positioning Theory to explore how workplace supervisors experienced and perceived their positioning within programmatic assessment. We found that supervisors positioned themselves in two of three ways. First, supervisors universally positioned themselves as a Teacher, describing an inherent duty to educate students. Enactment of this position was dichotomous, with some supervisors ascribing a passive and disempowered position onto students while others empowered students by cultivating an egalitarian teaching relationship. Second, two mutually exclusive positions were described-either Gatekeeper or Team Member. Supervisors positioning themselves as Gatekeepers had a duty to protect the community and were vigilant to the detection of inadequate student performance. Programmatic assessment challenged this positioning by reorientating supervisor rights and duties which diminished their perceived authority and led to frustration and resistance. In contrast, Team Members enacted a right to make a valuable contribution to programmatic assessment and felt liberated from the burden of assessment, enabling them to assent power shifts towards students and the university. Identifying supervisor positions revealed how programmatic assessment challenged traditional structures and ideologies, impeding success, and provides insights into supporting supervisors in programmatic assessment.

Keywords: Assessment; Competency-based assessment; Health education; Higher education; Learner educator partnership; Power; Programmatic assessment; Supervisors.

"내 평가는 편향되었어요!": 의학교육에서 평가의 공정성을 달성하기 위한 측정과 사회문화적 접근(Acad Med, 2023)
“My Assessments Are Biased!” Measurement and Sociocultural Approaches to Achieve Fairness in Assessment in Medical Education 
Karen E. Hauer, MD, PhD, Yoon Soo Park, PhD, Justin L. Bullock, MD, MPH, and Ara Tekian, PhD, MHPE 

 

학습자 평가의 편향성은 의학교육의 질에 대한 중요하고 지속적인 도전 과제입니다. 편견에 기반한 개인 또는 하위 그룹의 평가된 퍼포먼스에 대한 부당한 차이는 학습자의 발달을 저해할 수 있으며 일부 학습자는 의료계에서 계속 활동하지 못할 수도 있습니다. 임상 성과 평가는 편견을 도입하고 영속화할 위험이 특히 높습니다. 다양한 학습 경험, 평가자 또는 평가가 이루어지는 상황을 표준화할 수는 없습니다. "좋은" 퍼포먼스에 대한 허용 기준은 평가자 또는 환자 또는 간병인의 문화와 맥락, 기관의 규범과 문화에 따라 달라질 수 있으며, 이는 모두 필요한 환자 치료, 의사소통 기술 및 전문적 행동에 대한 기대치에 영향을 미칩니다. 이러한 다양성은 일부 학습자에게 불이익을 주는 유해한 편견의 발판을 마련합니다. 
Bias in learner assessment presents a critical, ongoing challenge to the quality of medical education. Unwarranted differences in assessed performance of individuals or subgroups rooted in bias can hinder learners’ developmental progress and may prevent some from continuing in the medical profession. Assessment of clinical performance raises particular risks for introducing and perpetuating bias. It is not possible to standardize the wide array of learning experiences, assessors, or contexts under which assessment occurs. Acceptable standards for “good” performance may vary based on the assessor’s—or patient’s or caregiver’s—culture and context and institutional norms and culture, which all influence expectations for what constitutes needed patient care, communication skills, and professional behavior. This variability sets the stage for harmful bias that disadvantages some learners.

의학교육에 관한 연구 결과, 의학 분야에서 소외된 배경을 가진 학생(UIM)에게 불리하게 작용하는 학습자 특성에 따른 평가 성과에 대한 체계적인 차이가 점점 더 많이 확인되고 있습니다.1-4 예를 들어, 의학 지식 시험은 일부 학습자 그룹에게 다른 학습자 그룹보다 문항 내용이 더 익숙하거나 사전 교육 경험으로 인해 일부 학습자 그룹이 다른 그룹보다 더 잘 준비할 수 있기 때문에 편향된 결과를 초래할 수 있습니다. 의과대학과 레지던트 수련 프로그램은 다양한 환자 집단을 대표하고 서비스를 제공하기 위해 학습자 집단을 다양화하는 것이 중요하므로, 학습자가 공평하게 학습하고 평가받고 후속 수련 및 취업 기회에 선발될 기회를 갖는 것이 중요합니다.5 유해한 편견을 이해하고 해결하는 것은 모든 학습자에게 공정하고 평등한 학습 환경과 평가 과정을 만드는 데 필수적입니다. 
Studies in medical education have increasingly identified systematic differences in assessed performance based on learner characteristics that disadvantage students from backgrounds underrepresented in medicine (UIM).1–4 For example, examinations of medical knowledge can generate biased results due to the content of items being more familiar to some learner groups than others, or prior educational experiences affording better preparation for some learner groups than others. As medical schools and residency training programs embrace the importance of diversifying their learner populations to represent and serve diverse patient populations, it is critical that learners have equitable opportunities to learn, be assessed, and be selected for subsequent training and job opportunities.5 Understanding and addressing harmful bias is essential to making the learning environment and assessment process fair and equitable for all learners.

이 원고에서는 임상 학습자에 초점을 맞춘 평가의 편향성에 대한 개요를 제공합니다. 평가에 대한 접근 방식의 역사적 맥락에 뿌리를 두고 편견을 정의하고, 평가에서 유해한 편견이 어떻게 도입되고 나타나는지 설명하며, 그 결과를 개괄적으로 설명합니다. 편견은 평가의 타당성과 공정성을 위협하며 학습자, 환자 및 간병인, 지역사회 및 의학 분야에 해를 끼칩니다. 메시크의 타당도 프레임워크의 관점에서 평가의 편향성을 살펴보고,6 의학교육에서 평가의 편향성을 해결하기 위해서는 공정성과 교육의 사회문화적 맥락에 대한 추가적인 고려가 필요하다는 점을 자세히 설명합니다. 편견을 극복하고 이상적인 평가 시스템을 구축하기 위한 권장 사항을 제시합니다. 
This manuscript provides an overview of bias in assessment with a focus on clinical learners. Rooted in the historical context of approaches to assessment, we define bias, describe how harmful bias is introduced and manifests in assessment, and outline its consequences. Bias threatens the validity and fairness of assessment, with harm to learners, patients and caregivers, communities, and the field of medicine. We examine bias in assessment from the perspective of Messick’s validity framework,6 elaborating how addressing bias in assessment in medical education requires additional consideration of fairness and the sociocultural context of training. We present recommendations to overcome bias and create an ideal assessment system.

평가의 편향성: 정의, 원인 및 결과
Bias in Assessment: Definition, Causes, and Consequences

옥스퍼드 고급 학습자 사전에서는 편향bias일반적으로 불공평하다고 여겨지는 방식으로 한 사물, 사람 또는 그룹을 다른 사물, 사람 또는 그룹과 비교하여 찬성하거나 반대하는 편견prejudice으로 정의합니다. 편향은 해석을 돕기 위해 정보를 분류하려는 인간의 타고난 경향에서 비롯됩니다. 예를 들어, 임상 의사 결정에서 임상의는 방대한 정보를 이해하고 패턴을 식별하여 진단을 용이하게 하는 휴리스틱 또는 인지적 지름길을 사용합니다. 편향은 긍정적일 수도 있고 부정적일 수도 있지만, 이 원고에서는 해로운 편견에 초점을 맞춥니다. 학습자 평가에서 학습자의 능력과 성과에 근거하지 않은 평가자의 범주화, 해석 및 가정에서 발생하는 편견은 구조적으로 억압받는 집단의 학습자에게 불균형적이고 부정적인 영향을 미칩니다. 
The Oxford Advanced Learner’s Dictionary defines bias as prejudice in favor of or against one thing, person, or group compared with another, usually in a way considered unfair. Bias arises from innate human tendencies to categorize information to aid interpretation. For example, in clinical decision making, clinicians employ heuristics, or cognitive shortcuts, that enable making sense of voluminous information and identifying patterns to facilitate diagnoses. While bias can be positive or negative, this manuscript focuses on harmful bias. In learner assessment, bias that arises from assessors’ categorizations, interpretations, and assumptions that are not based on learners’ ability and performance disproportionately and negatively affects learners from structurally oppressed groups.

의학 교육에서 편향이 평가에 영향을 미친다는 증거가 점점 더 많아지고 있습니다. 예를 들어, 인종적/민족적 배경이 소수인종인 학습자는 커리큘럼 자료와 일상적으로 접하는 고정관념 및 미시적 공격에서 해로운 인종주의, 차별, 편견에 직면합니다.7 여러 의과대학에서 소수인종 학생이 비 소수인종 학생보다 낮은 임상실습 성적을 받는 것으로 보이는 평가된 성과에서 소폭이지만 일관된 그룹 간 차이를 확인했습니다.1-3 이러한 차이는 향후 명예, 인정, 수상 및 기회에 있어 심각한 불공평을 초래합니다.1 레지던트 지원자를 분석한 결과, 다른 성과 척도를 통제한 후에도 인종, 성적 지향, 어린 시절 가정 소득을 기준으로 의학계에서 소외된 정체성을 가진 학생들은 경쟁이 치열한 레지던트 프로그램에 선발되는 데 도움이 되는 알파 오메가 알파 명예 의사회에 선발될 가능성이 동료들보다 낮았습니다.4,8 이러한 연구를 종합하면 의학교육 평가에 만연한 편향이 학습자와 미래의 의사 인력에 중요한 결과를 초래할 수 있음을 알 수 있습니다.
Growing evidence suggests bias plagues assessment in medical education. For example, learners from racial/ethnic backgrounds that are UIM face harmful racism, discrimination, and bias in curricular materials and in daily stereotypes and microaggressions they encounter.7 Multiple medical schools have identified modest but consistent group differences in assessed performance that appear to result in UIM students earning lower clerkship grades than non-UIM students.1–3 These differences create critical inequities in future honors, recognitions, awards, and opportunities for UIM learners.1 Analyses of residency candidates revealed that, after controlling for other measures of performance, students with identities marginalized in medicine based on race, sexual orientation, and childhood family income were less likely than their peers to be selected to the Alpha Omega Alpha Honor Medical Society, a coveted recognition that helps drive selection to competitive residency programs.4,8 Taken together, these studies demonstrate pervasive bias in medical education assessments with important consequences for learners and the future physician workforce.

여러 연구에서 여성보다 남성을 선호하는 성과 평가의 차이를 확인했지만 성별 편견에 관한 연구 결과는 엇갈렸습니다.9-12 응급의학과 레지던트 평가에서는 리더십 중심 역량에서 여성보다 남성이 더 높은 평가를 받았습니다.10 두 기관에서 최고 임상실습 성적을 받은 의대생의 서면 평가서를 분석한 결과,

  • 남성과 비 UIM 학습자를 설명하는 데 눈에 띄는 단어(예, "최상급")과 지식 및 역량과 관련된 단어가 더 많이 사용되었으며, 사용된 단어가 더 많은 반면,
  • 여성과 UIM 학생은 더 부드러운 언어(예: "좋은", "유능한")와 노력 및 협업과 관련된 단어로 설명되었습니다.13

여러 의과대학의 의대생 성과 평가에 포함된 언어를 텍스트 분석한 결과 성별과 인종에 따라 유사한 패턴이 나타났습니다.14 이러한 연구는 교차하는 의료 학습자 특성을 기반으로 평가된 성과에 편향이 있음을 시사합니다. 
Studies have revealed mixed findings regarding gender bias, although multiple studies have identified differences in ratings of performance favoring men over women.9–12 Evaluations in emergency medicine residency show higher ratings for men than women in leadership-oriented competencies.10 Analysis of written evaluations of medical students who earned top clerkship grades at 2 institutions revealed

  • more standout words (e.g., “superlative”) and more words relating to knowledge and competence used to describe men and non-UIM learners,
  • whereas women and UIM students were described with more muted language (e.g., “good,” “competent”) and words relating to effort and collaboration.13 

Textual analysis of language in Medical Student Performance Evaluations from multiple medical schools showed similar patterns based on gender and race.14 These studies suggest bias in assessed performance based on intersecting medical learner characteristics.

평가 편향은 다른 많은 학습자 특성과 관련해서도 발생합니다. 장애가 있는 학습자에게 적절한 편의를 제공하기 위한 정책과 절차의 부재는 편견에 뿌리를 두고 있을 수 있는 구조적 장벽을 나타내며 이러한 학습자가 평가에서 성공하는 데 방해가 됩니다.15 국제 의학 졸업생(IMG)의 경우, 시험의 평가 항목이나 임상 환경에서의 상호작용이 다른 문화권 출신에게 익숙하지 않은 시나리오나 언어를 제시하거나 다른 나라에서 교육받은 개인에게 익숙하지 않은 형식을 사용하는 경우 편향된 평가가 발생할 수 있습니다.16 레즈비언, 게이, 양성애자, 성전환자 또는 퀴어라고 밝힌 학습자는 최상의 수행 능력과 평가 능력을 방해할 수 있는 학대를 더 많이 경험합니다.17표 1은 위에서 언급한 범주에 대한 샘플 사례로 문제, 편견의 원인이 되는 요인, 대응을 안내하는 가치/원칙 및 잠재적 해결책을 강조합니다.
Assessment bias also arises related to many other learner characteristics. Lack of policies and procedures to implement appropriate accommodations for learners with disabilities represents a structural barrier that may be rooted in bias and inhibits these learners from achieving success in assessment.15 For international medical graduates (IMGs), biased assessment can arise if assessment items on an exam or interactions in the clinical setting present scenarios or language not familiar to someone from a different culture or use formats unfamiliar to individuals educated in a different country.16 Learners who identify as lesbian, gay, bisexual, transgender, or queer experience higher rates of mistreatment that can disrupt their ability to perform and be assessed at their best.17Table 1 presents sample cases for the categories mentioned above highlighting the problem, factors that contribute to biases, values/principles that guide response, and potential solutions.

편견에 대한 측정 및 사회문화적 관점
Measurement and Sociocultural Perspectives on Bias

평가의 편향성은 크게 두 가지 관점에서 고려할 수 있습니다.

  • 심리측정학적 측정 관점에서 볼 때, 평가의 문항이 인종, 성별, 사회경제적 지위 또는 종교와 같은 학습자의 특성으로 인해 학습자에게 불쾌감을 주거나 불공정한 불이익을 줄 때마다 평가 편향이 존재합니다.18 이러한 평가에서 도출된 추론은 특정 학습자에 대한 편향으로 인해 학습자의 성과를 부정확하게 반영하므로 타당하지 않습니다.
  • 평가에서 편견에 대한 관점을 넓히면 사회문화적 관점을 고려해야 하며, 이를 통해 유해한 편견이 교육에서 학습과 평가에 어떤 영향을 미치는지 살펴볼 수 있습니다. 예를 들어, UIM 그룹의 학습자는 고정관념의 위협과 미시적 공격으로 인해 학습 성과를 제약받습니다.19 교수자는 무의식적으로 학습자의 특성에 따라 학습 기회를 차별적으로 할당하여 불평등하고 유해한 학습 환경을 조성할 수 있습니다. 

Bias in assessment can be considered from 2 broad perspectives.

  • From a psychometric, measurement perspective, assessment bias exists whenever items on an assessment offend or unfairly penalize learners because of learner characteristics, such as race, gender, socioeconomic status, or religion.18 Inferences drawn from such assessments are invalid, reflecting learner performance inaccurately due to bias against certain learners.
  • Broadening views of bias in assessment invite consideration of sociocultural perspectives, which explore how harmful bias affects learning and assessment in training. For example, learners from UIM groups experience stereotype threat and microaggressions that, in turn, constrain their performance.19 Faculty may unknowingly assign learning opportunities differentially to learners based on their characteristics, creating inequitable and harmful learning environments.

측정 문제로서의 편향성
Bias as a measurement problem

통계학자들은 편향을 평가의 공정성과 정확성을 방해하는 측정 문제로 이해합니다. 평가의 편향은 특정 하위 그룹(예: 인종, 성별)에 대한 차별적 선호를 수반하며, 이는 선호 그룹의 구성원이 아닌 학습자에게 불쾌감을 주거나 불공정한 불이익을 줄 수 있습니다.18 편향의 결과에는 학습자의 성과를 저해하는 평가 콘텐츠를 접한 학습자 하위 그룹에 대한 의도하지 않은 불공정한 불이익이 포함됩니다. 교육 및 심리 검사 표준은 편향이 시험 구성의 두 가지 문제로 인해 공정성을 저해하는 방법을 설명합니다.20

  • 첫 번째는 구성 과소 대표성으로, 시험이 측정 대상인 구성을 너무 좁게 다룰 때 발생합니다.
  • 두 번째, 구성과 무관한 분산은 평가가 원하는 구성과 다른 것을 측정할 때 발생합니다.

표 2는 이러한 형태의 측정 편향이 검사 및 실제 임상 평가 환경에서 어떻게 발생하고 해를 끼치는지 설명합니다.
Statisticians understand bias as a measurement problem that interferes with the fairness and accuracy of assessments. Bias in assessment entails differential preference to a particular subgroup (e.g., race, gender) that can offend or unfairly penalize learners who are not members of the preferred group(s).18 Consequences of bias include unintended, unfair penalties for learner subgroups who encounter assessment content that inhibits their performance. The Standards for Educational and Psychological Testing explain how bias interferes with fairness due to 2 problems in test construction.20 

  • First is construct underrepresentation, which occurs when the test too narrowly addresses the construct being measured.
  • The second, construct-irrelevant variance, arises when assessments measure something different than the desired construct. 

Table 2 describes how these forms of measurement bias arise and cause harm in examination and real-world clinical assessment settings.


측정의 관점에서 볼 때, 특히 표본 추출 및 구조(평가 설계)와 관련하여 평가 개발 및 시행에서 해로운 편향이 발생할 수 있습니다.
From a measurement perspective, harmful bias may arise in assessment development and implementation, specifically regarding sampling and structure (assessment design).

평가에서의 샘플링.
Sampling in assessment.

평가에는 가능한 학습자 활동의 세계(사례 및 임상 문제)에서 지식, 기술 또는 행동의 대표 표본을 추출하는 작업이 수반됩니다. 학습에 대한 사전 결정된 기대치를 기반으로 표본을 추출하지 않으면 편견을 유발할 수 있는 잘못된 표본 추출 기법을 의미합니다. 필기 시험 또는 객관적이고 구조화된 임상 시험을 위한 계획된 샘플링은 시험 또는 평가 청사진을 통해 체계적으로 이루어집니다.21,22 평가할 내용과 요구되는 역량 수준에 대한 기대치가 모든 학습자에게 동일하게 명확하지 않으면 편향이 개입할 수 있습니다. 블루프린팅은 기대치와 평가를 일치시키고 구성 과소 대표성 및 구성과 무관한 분산으로 인해 발생하는 편향에 대한 해결책을 제공합니다. 
Assessment entails taking representative samples of knowledge, skills, or behaviors from a universe of possible learner activities—cases and clinical problems. Failure to sample based on predetermined expectations for learning represents poor sampling technique that can introduce bias. Planned sampling for a written examination or objective structured clinical examination is done systematically through test or assessment blueprints.21,22 Bias may interfere if expectations are not equally clear to all learners regarding what content will be assessed and what level of competence is required. Blueprinting aligns expectations and assessment and provides a solution to bias arising from construct underrepresentation and construct-irrelevant variance.

임상 환경에서는 평가의 편향성이 더 커질 위험이 있다. 교수진이 학습자의 임상 활동을 관찰하거나 어떤 환자가 병원이나 클리닉에 내원하는지에 따라 샘플링이 무작위로 이루어지기 때문이다. 

  • 편향의 위험을 해결하기 위한 첫 번째 해결책은 역량, 이정표 또는 행동 또는 활동 목록(목표 또는 위임 가능한 전문 활동)을 사용하여 기대치를 명확히 하여 감독자와 학습자가 기대치에 대한 공통된 이해를 안내하는 것입니다.
  • 직장 기반 평가(WBA)와 같이 학습자를 자주 관찰하도록 설계된 도구는 감독자(또는 동료, 환자 또는 기타 의료 전문가)가 병력 기록, 신체 검사 또는 임상 절차와 같은 특정 행동을 직접 관찰하고 문서화하는 빈번한 "샘플링"을 권장합니다.23,24
  • 세 번째 해결책은 학습자와 그들의 업무에 대한 많은 관찰이 역량과 발전에 대한 판단에 정보를 제공하도록 빈번한 샘플링입니다.25

In the clinical environment, sampling becomes more random—and bias in assessment more of a risk—based on what faculty members happen to observe learners doing clinically or which patients happen to present to the hospital or clinic.

  • A first solution to address the risk of bias is clarifying expectations using competencies, milestones, or a list of behaviors or activities (objectives or entrustable professional activities) to guide supervisors’ and learners’ common understanding of expectations.
  • A tool designed for frequent observation of learners, such as with workplace-based assessment (WBA), encourages frequent “sampling” as a supervisor (or peer, patient, or other health professional) directly observes and documents specific behaviors, such as history taking, physical exam, or clinical procedures.23,24 
  • A third solution is frequent sampling so that many observations of learners and their work inform judgments about competence and advancement.25

평가의 구조.
Structure in assessment.

모든 평가에서 구조structure는 구인construct과 무관한 분산과 평가 편향을 최소화하는 것을 목표로 하는 관리, 사례/항목 선택, 데이터 수집에 사용되는 도구 등의 표준화를 수반합니다. 평가 유형이나 형식에 따라 이러한 구조적 측면의 표준화는 다양한 스펙트럼으로 이루어질 수 있습니다. 일부 형태의 편향은 구조를 통해 완화될 수 있지만, 편향은 여전히 내용에서 발생하거나 평가자의 암묵적 편향에 의해 간섭을 받습니다. 임상 환경에서의 평가는 경험을 구조화하는 데 더 큰 어려움을 야기합니다. WBA와 임상 평가는 환자 상태, 팀 구성 및 관계, 평가 시기(종종 실제 수행 후 한참 지난 후), 맥락에 따라 가변성이 발생합니다. 미리 정해진 평가 도구로 구조를 도입하면 평가 데이터를 수집하고 측정하는 방법에 대한 지침을 얻을 수 있습니다. 그러나 완전한 표준화는 어렵고 아래 권장 사항에 자세히 설명된 대로 편견을 완화하기 위한 추가 전략이 필요합니다.
In any assessment, structure entails standardization—in administration, case/item selection, and instrument used to collect data—aimed toward minimizing construct irrelevant variance and assessment bias. A spectrum of standardization of these aspects of structure is possible, depending on assessment type or format. While some forms of bias may be mitigated through structure, bias still arises in content or interferes via rater implicit bias. Assessment in the clinical environment creates even greater challenges for structuring experiences. WBAs and clinical evaluations introduce variability in patient condition, team composition and relationships, timing of assessment (often long after actual performance), and context. Introducing structure with a predetermined assessment instrument provides guidance on how assessment data are collected and measured. However, full standardization becomes elusive and additional strategies to mitigate bias are needed, as elaborated in the recommendations below.

심리측정학자들은 이러한 표본 추출 및 구조의 문제를 인식하고 학습자의 성과(관심 구성)를 시험/문항 특성에서 분리하는 방법을 모색해 왔습니다. 차등 문항 기능(DIF)과 같은 기법은 비슷한 능력을 가지고 있지만 다른 특성(인종, 성별 등)을 가진 학습자가 다르게 수행하는 문항을 식별합니다.26 DIF와 같은 측정 솔루션은 편향을 감지할 수 있지만 의학 교육에서는 한계가 있습니다. 이러한 기법은 분석을 수행하기 위해 많은 수의 항목과 응시자가 필요합니다. 평가 내용이나 평가 정보가 사용되는 방식은 다루지 않습니다. 
Recognizing these problems with sampling and structure, psychometricians have sought ways to disentangle learner performance (the construct of interest) from test/item characteristics. Techniques such as differential item functioning (DIF) identify items on which learners of similar ability, but with different characteristics (race, gender, etc.), perform differently.26 While measurement solutions such as DIF can detect bias, they have limitations in medical education. These techniques require large numbers of items and test takers to conduct analyses. They do not address assessment content or how assessment information is used.

사회문화적 문제로서의 편향성
Bias as a sociocultural problem

실제 임상 환경에서 학습자 하위 그룹 간의 평가 성과 차이는 평가자의 접근 방식과 편견, 학습자의 배경, 경험 및 학습 준비, 각 학습자에게 주어진 학습 활동, 학습 환경 및 맥락에서 발생할 수 있습니다.27 이에 따라 해결책이 달라지고 편견을 완화하기 위한 포괄적인 접근 방식이 필요하므로 성과 차이의 원인을 이해하는 것이 필수적입니다(표 1). 사회문화적 관점에서 볼 때 평가 편향의 원인은 여러 가지가 있습니다. 
In the real-world clinical environment, differences in assessed performance between learner subgroups may arise from assessors’ approaches and biases; learners’ backgrounds, experiences, and preparation for learning; learning activities afforded each learner; and the environment and context of learning.27 Understanding causes of differential performance is essential because solutions will vary accordingly and a comprehensive approach to mitigating bias is needed (Table 1). From a sociocultural perspective, multiple sources of assessment bias exist.

평가자.
Assessors.

평가자 관행의 다양성은 편향된 평가로 나타날 수 있습니다. 일부 문제가 있는 평가자의 행동은 모든 학습자에게 영향을 미칩니다.

  • 관찰되지 않은 역량에 대해 학습자를 평가하거나,28
  • 지나치게 가혹하거나 관대한 평가를 제공하거나,29
  • 적시에 평가를 완료하지 않는 등 

실제 수행 능력과 무관한 이유로 임상 수행 능력이 낮게 평가될 수 있는 일부 학습자 그룹에는 추가적인 문제가 불균형적으로 영향을 미칩니다. 
Variability in assessor practices may manifest in biased assessment. Some problematic assessor behaviors affect all learners, such as

  • evaluating learners on competencies not observed,28 
  • providing overly harsh or lenient ratings, or
  • not completing timely assessments.

Additional problems disproportionately affect some learner groups whose assessed clinical performance may be lower for reasons unrelated to their actual performance.

암묵적 편견(개인 집단에 대한 부정적이고 해로운 사고 패턴)한 집단을 다른 집단보다 선호하는 휴리스틱을 수반합니다.29 휴리스틱은 인간이 정보를 덩어리로 묶고 가정을 세워 정보를 빠르게 처리하는 데 사용하는 인지적 지름길입니다.30 방대한 양의 데이터를 조작하고 처리하는 데 유용하지만, 인식하지 않으면 휴리스틱은 평가에서 편견을 조장할 수 있습니다. 예를 들어,

  • 평가자가 학습자가 속한 집단에 대한 고정관념에 근거하여 학습자의 숙련도에 대한 초기 결정을 내린 다음 더 이상 그 결정을 바꿀 수 있는 증거를 찾지 않을 때 평가에서 "조기 종결"이 발생합니다.
  • "후광 효과"는 개인에 대한 일반적인 인상(예: "훌륭한 사람!" 또는 "소심한 사람")이 여러 영역에 걸쳐 해당 학습자의 성과에 대한 인식에 영향을 미치면서 발생합니다.
  • 회상 편향은 평가자가 학습자를 관찰한 지 한참 후에 학습자에 대한 평가를 완료하여 학습자의 특성이나 문화에 대한 일반성에 고정된 평가를 내릴 때 발생할 수 있습니다.

종합적으로, 인지적 지름길은 편향된 평가에 기여할 수 있습니다. 이러한 위험을 인지한 학습자는 첫인상을 두려워하여 결과적으로 성적이 떨어질 수 있습니다. 
Implicit bias—negative, harmful patterns of thinking about groups of individuals—entails heuristics that favor one group over another.29 Heuristics are cognitive shortcuts that humans use to process information rapidly by chunking information and making assumptions.30 While useful to manipulate and process voluminous data, without awareness, heuristics may promote bias in assessment. For example,

  • “premature closure” in assessment arises when an assessor makes an initial determination about a learner’s proficiency, perhaps based on stereotypes about a group to which the learner belongs, and then no longer looks for evidence that could alter that determination.
  • The “halo effect” arises with a general impression of an individual (e.g., “great person!” or “timid person”) that influences perceptions of that learner’s performance across multiple domains.
  • Recall bias can arise when assessors complete assessments of learners long after observing them, precipitating anchoring on generalities around learner characteristics or culture.

Collectively, cognitive shortcuts can contribute to biased assessment. Learners who recognize this risk may fear the first impression they will make and consequently perform less well.

학습자.
Learners.

의료 학습자는 자신이 속한 집단에 대한 부정적인 고정관념을 충족하는 것을 두려워하는 심리적 현상고정관념 위협을 경험할 수 있습니다.19,31 인종/민족 고정관념 위협은 같은 인종/민족의 사람들이 평가 또는 기타 활동에서 성적이 떨어지는 경향이 있다는 내부 대화로 인해 궁극적으로 성과가 저하되는 개인에게 영향을 미칩니다. 의학에서 고정관념 위협은 학생의 인종/민족을 통제하더라도 핵심 임상실습에 대한 평가 성과와 반비례합니다.32 만성적인 고정관념 위협[개인이 시험의 타당성, 지식의 영역 또는 교수자의 역량을 무시하여, 노력을 덜 투자하고, 결과적으로 더 낮은 성과를 내는 현상]인 도메인 탈동일시를 생성합니다.33
Medical learners can experience stereotype threat, a psychological phenomenon in which individuals fear fulfilling negative stereotypes about groups to which they belong.19,31 Racial/ethnic stereotype threat affects individuals whose performance ultimately suffers because their internal dialogue tells them that people of their same race/ethnicity tend to perform less well on an assessment or other activity. In medicine, stereotype threat is inversely associated with assessed performance on core clerkships, even when controlling for a student’s race/ethnicity.32 Chronic stereotype threat generates domain disidentification: a phenomenon in which individuals may discount the validity of tests, domains of knowledge, or competence of an instructor and thereby invest less effort and subsequently perform more poorly.33

부록 디지털 부록 1(https://links.lww.com/ACADMED/B415 참조)에서는 성별, 인종/민족, 성적 지향, 능력 상태 및 IMG로서의 경험에 따라 일부 학습자의 성과 및 평가에 부정적인 영향을 미치는 위협의 전체 목록을 제공하지 않습니다.
In Supplemental Digital Appendix 1 (available at https://links.lww.com/ACADMED/B415), we provide a nonexhaustive list of examples of threats that negatively impact performance and assessment of some learners based on gender, race/ethnicity, sexual orientation, ability status, and experience as an IMG.

acadmed_2023_04_18_hauer_acadmed-d-23-00419_sdc1.pdf
0.17MB

학습 환경.
Learning environment.

학습 환경은 일부 학습자가 학습하고 자신의 역량을 입증하려고 할 때 불평등하게 불리하게 작용할 수 있습니다. 학습자와 평가자 간의 정체성 차이는 학습과 평가에 영향을 미치는 암묵적 편향을 촉발할 수 있습니다.34 편향은 학습 기간 동안 일부 학습자 또는 학습자 그룹이 자신의 기술을 연습하고 시연할 수 있는 기회가 차별적으로 주어질 때 발생합니다. 연습, 피드백 및 개선의 기회를 제공하는 학습 활동은 학습자 특성에 따라 다르게 할당될 수 있습니다. 일부 학습자가 이전의 개인적, 가족적 또는 직장 경험을 바탕으로 더 많은 이해를 가지고 참여하는 경우 학습자 그룹에 따라 성과 기대치의 명확성이 달라질 수 있습니다. 
The learning environment may unequally disadvantage some learners as they learn and attempt to demonstrate their competence. Differences in identities among learners and their assessors can precipitate implicit bias affecting learning and assessments.34 Bias arises during periods of learning when some learners or learner groups have differential opportunities to practice and demonstrate their skills. Learning activities, which drive opportunities for practice, feedback, and improvement, may be assigned differently based on learner characteristics. The clarity of performance expectations may vary for learner groups if some learners enter with greater understanding based on prior personal, family, or work experiences.

미세 공격[자신의 정체성에 대한 적대감을 나타내는 대인 관계 언어적 또는 행동적 거부감]으로35, 의학계에 만연해 있으며 의대생의 인종/민족적 고정관념 위협의 주요 유발 요인입니다.19 미세 공격은 대상자에게 심리적 및 생리적 고통을 유발하며, 미세 공격은 누적적으로 학습자의 소속감과 안전감에 타격을 줍니다.36 미세 공격은 학생 성과에 부정적인 영향을 미칠 수 있는 우울 및 불안 증상 등 부정적인 정신 건강 결과와 연관됩니다.37 
Microaggressions are interpersonal verbal or behavioral snubs that indicate hostility to one’s identity35; they are pervasive in medicine and a key trigger of racial/ethnic stereotype threat in medical students.19 Microaggressions cause psychological and physiological distress in targeted individuals; microaggressions cumulatively take a toll on learners’ feelings of belonging and safety.36 Microaggressions are associated with adverse mental health outcomes, including greater depressive and anxiety symptoms, conditions that may adversely affect student performance.37

타당성과 공정성 추구를 통한 편견 최소화
Minimizing Bias Through Pursuit of Validity and Fairness

타당도 프레임워크
Validity framework

모든 평가의 목표는 타당하고 공정한 결정을 내리는 것입니다. 교육자는 특정 상황에서 주어진 도구에 대한 타당도 증거의 출처를 고려해야 합니다. 그러면 타당도는 사용 가능한 증거에 의해 뒷받침되는 주장이 됩니다. Messick의 통합 타당도 프레임워크에는 5가지 타당도 근거 소스가 포함되어 있습니다(표 3).6 의학교육 환경의 복잡성과 평가되는 역량의 범위는 공정하고 편견을 최소화하는 타당도에 대한 전반적인 접근 방식을 채택해야 할 필요성을 높입니다. 
The goal with any assessment is to render valid and fair decisions. Educators must consider sources of validity evidence for a given tool in a particular context. Validity then becomes an argument supported by available evidence. Messick’s unified validity framework includes 5 sources of validity evidence (Table 3).6 The complexity of the medical education environment and range of assessed competence heightens the need to employ an overall approach to validity that is fair and minimizes bias.

공정성
Fairness

공정성은 타당성과 밀접하게 연관되어 있습니다. 좋은 평가 관행의 특징으로서 공정성에 대한 광범위한 지지에도 불구하고, 평가의 공정성에 대한 단일 정의는 없습니다. 공정한 평가는 학습자의 진정한 능력을 측정하고 보고합니다.20 따라서 공정성은 단순히 평가 절차나 결과의 평등이나 표준화가 아닙니다.38 The Standards에서는 공정성을 "개인의 특성과 시험의 맥락에 반응하여 점수가 의도한 사용자에게 타당한 해석을 산출하는 것"으로 정의합니다.20 공정성을 위해서는 평가가 의도한 구성과 무관한 특성으로 인해 일부 개인에게 불이익을 주어서는 안 됩니다.20 이 표준은 시험에 초점을 맞추고 있습니다.
Fairness is closely aligned with validity. Despite widespread endorsement of fairness as a hallmark of good assessment practice, fairness in assessment has no single definition. Fair assessment measures and reports learners’ true abilities.20 Therefore, fairness is not just equality or standardization of assessment procedures or outcomes.38 The Standards define fairness as “responsive to individual characteristics and testing contexts so that scores yield valid interpretations for intended users.20 To be fair, assessments should not disadvantage some individuals due to characteristics irrelevant to the intended construct.”20 These standards focus on testing.

이 백서에서는 특히 수많은 학습 경험과 환자 및 전문가 간 동료와의 상호작용이 있는 복잡한 임상 맥락에서 의료 학습자에 대한 모든 평가를 포함하도록 공정성에 대한 고려 사항을 넓혔습니다. [평가의 공정성을 정의하고 추구하는 것]은 편견을 해결하고 모든 학습자에게 도움이 되고 사회 개혁에 기여하는 이상적인 평가 접근법을 구상하는 데 매우 중요합니다.39 
In this paper, we broaden considerations of fairness to include all assessments of medical learners, particularly in the complex clinical context with myriad learning experiences and interactions with patients and interprofessional colleagues. Defining and pursuing fairness in assessment is critical to addressing bias and envisioning an ideal approach to assessment that serves all learners and contributes to social reform.39

공정성은 의학 및 사회에서 역사적으로 억압받아온 집단을 포함한 모든 학습자 집단에 대해 존재해야 합니다. 좋은 평가 관행은 의료 학습자 사이에서 증가하는 다양성을 인정하고 이를 충족시켜야 합니다.40 공정성은 모든 학습자와 환자, 지역사회, 교육 프로그램 리더(평가 데이터를 사용하여 프로그램의 질을 판단하거나 평가 데이터를 사용하여 학습자 또는 직원을 선발하는 사람)를 포함한 기타 의료 교육 이해관계자에게 중요합니다.
Fairness must exist for all learner groups, including groups historically oppressed in medicine and society. Good assessment practice must acknowledge and serve the increasing diversity among medical learners.40 Fairness matters to all learners and other medical education stakeholders, including patients, communities, and education program leaders (whose program quality may be judged using assessment data or who use assessment data to select learners or employees).

[타당도]평가가 측정하고자 하는 구조를 얼마나 잘 포착하는지를 다루는 반면, [공정성]개인의 특성, 배경, 평가 상황에 대한 반응성을 요구합니다.41 예를 들어, 특정 그룹의 학습자가 숙련도가 낮거나 참여도가 낮기 때문에 임상실습에서 유능하지 않다는 결론을 내리는 것은 해당 학습자에게 환자를 보거나 시술을 하거나 주치의에게 사례를 발표할 기회가 더 적게 주어진다면 불공정하고 편향된 결론이 될 수 있습니다. [공정성]은 모든 학습자가 측정 대상 구성에서 자신의 성취도를 입증할 수 있도록 하는 것을 포함합니다. 이러한 접근 방식에는 개인이 자신의 역량을 발휘할 수 있도록 표준화와 유연성이 모두 수반됩니다. 교육에서의 유니버설 디자인은 배경 특성과 능력에 관계없이 모든 학습자가 교육과 학습 환경에 접근하고 포용할 수 있도록 하는 철학적 접근 방식입니다.42 유니버설 디자인의 원칙에는 형평성, 유연성, 단순성, 오류 허용, 다양한 학생의 능력과 필요에 맞는 물리적 설계가 포함됩니다. 교육자는 접근 문제를 최소화하고 학습자가 필요한 편의를 요청할 수 있는 메커니즘을 만들어야 합니다. 학습 기회에 대한 접근성 보장평가의 공정성을 위한 발판을 마련합니다. 
Whereas validity addresses the degree to which an assessment captures the construct being measured, fairness also requires responsiveness to individual characteristics, backgrounds, and assessment contexts.41 For example, drawing conclusions that learners from a particular group are less skilled or less participatory and, therefore, less competent in a clerkship would be unfair and biased if those learners were afforded fewer opportunities to see patients, do procedures, or present cases to attendings. Fairness encompasses enabling all learners to demonstrate their achievement in the construct being measured. This approach entails both standardization and flexibility to ensure individuals can demonstrate their competence. Universal design in education is a philosophical approach to make education and the learning environment accessible and inclusive for all learners regardless of their background characteristics and abilities.42 Principles of universal design include equity, flexibility, simplicity, tolerance for error, and physical design amenable to a range of student abilities and needs. Educators must minimize access challenges and create mechanisms for learners to request needed accommodations. Assurance of access to learning opportunities sets the stage for fairness in assessment.

객관성과 주관성
Objectivity and subjectivity

객관성 또는 측정 정밀도에만 의존하는 것은 공정성과 동일시할 수 없으며 해로운 편견 문제를 해결할 수 없습니다.43 임상 수행 능력 평가에는 암묵적 편견에 취약한 개인적 의견을 포함하여 임상의의 주관적 판단이 필연적으로 포함될 수밖에 없습니다. 따라서 임상 수행 평가의 편향성은 단순히 객관성과 주관성의 문제로 이분화할 수 없습니다.43,44 평가의 객관성이라는 목표에 대한 집요한 의존은 의학교육의 맥락에서 그 명확성이 부족합니다.43,45 
Sole reliance on objectivity, or measurement precision, cannot equate to fairness and solve the problem of harmful bias.43 Clinical performance assessments inevitably incorporate clinicians’ subjective judgments, including personal opinions vulnerable to implicit bias. Hence, bias in clinical performance assessment cannot be simply dichotomized as an issue of objectivity and subjectivity.43,44 The tenacious reliance on the goal of objectivity in assessment falls short of its seeming clarity in the medical education context.43,45

평가에서 객관성과 주관성의 강점을 결합하는 것이 임상 평가에 더 적합합니다. 평가자 해석의 지속적인 차이는 의미 있는 정보를 나타낼 수 있습니다.46 평가자 교육은 평가자 간의 일관성을 개선하고 특이성의 함정을 인식하게 할 수 있지만, 교육이 인식과 접근 방식에서 개인의 다양성을 제거하지는 않습니다.47 교육자가 학습자의 성과를 명확하고 상세하게 설명하는 기술과 어휘를 갖추면 학습자와 프로그램에 유용하고 실행 가능한 정보가 생성됩니다.48 여러 활동과 평가자로부터 정보를 샘플링하고 수집하면 하나의 평가가 평가 결과에 불균형하게 영향을 미칠 위험을 완화할 수 있습니다. 평가 프로그램 설계에서 정당한(필요, 바람직한) 변수와 부당한 변수를 구분하고 평가 편향 등 부당한 변수를 해결하기 위해 지속적인 품질 개선을 위한 강력한 절차를 구축하는 것은 앞으로 나아갈 수 있는 단계를 제공합니다.49 
A combination of the strengths of both objectivity and subjectivity in assessment is better suited to clinical assessment. Persistent differences in raters’ interpretations may represent meaningful information.46 While rater training can improve consistency among raters and bring awareness to the pitfalls of idiosyncrasy, training does not eliminate individual variability in perceptions and approaches.47 Equipping educators with skills and vocabulary to describe learners’ performance in clear and detailed narratives produces useful, actionable information for learners and their programs.48 Sampling and collecting information from multiple activities and assessors mitigates the risk that any one assessment disproportionately influences assessment outcomes. Distinguishing warranted (necessary, desired) and unwarranted variation in assessment program design and building robust procedures for continuous quality improvement to address unwarranted variability, including bias in ratings, offer steps forward.49

권장 사항
Recommendations

유해한 편견을 피하는 이상적인 평가 시스템에 필수적인 5가지 영역과 12가지 구체적인 권장 사항을 제시합니다(표 4).
We present 5 domains essential to an ideal assessment system that avoids harmful bias, with 12 specific recommendations (Table 4).

평가를 안내하는 명확한 가치 표현
Articulate values to guide assessment

1. 평가 설계 및 실행을 환자와 학습자 중심의 가치와 일치시킵니다.
1. Align assessment design and practices with values centered on patients and learners.

해로운 편견을 피하고 평가의 공정성을 달성하려면 의료 학습자를 평가하는 접근 방식을 주도하는 가치를 명확히 해야 합니다(목록 1).50 모든 학습자 그룹이 최상의 학습과 수행을 할 수 있는 기회를 보장하는 것이 공정하고 공평한 평가의 특징입니다.38 루시와 동료들은 다음과 같이 썼습니다:

  • "평가의 공평성은 모든 학생이 의학 분야에서 미래의 성공을 예측할 수 있는 성취를 입증하여 학습, 평가, 코칭, 채점, 진급, 졸업 및 후속 기회에 선발될 수 있는 공정하고 공평한 기회를 가질 때 존재하며, 학습 경험이나 평가가 학습자 또는 평가자의 개인적 또는 사회적 특성과 관련된 구조적 또는 대인적 편견에 의해 부정적 영향을 받지 않을 때 나타납니다."5

현재 많은 교육 기관에서 다양성, 공평성 및 포용에 관한 가치를 명시하여 평가의 편향성에 대한 관점을 넓히고 사회 문화적 관점을 통합하는 것이 중요하다는 것을 강조하고 있습니다. UIM 학습자보다 비 UIM 학습자를 선호하는 평가 시스템을 설계하고, 평가 결과의 타당성에 의문을 제기하지 않고 평가 결과의 그룹 간 차이를 용인하는 것은 편견을 최소화하고 형평성을 증진하겠다는 명시된 약속에 모순됩니다. 평가 개선은 인종/민족에 따른 성취도 차이를 해결하고 의학교육의 결과에 대한 기관의 책임을 인정하기 위한 주요 전략입니다.51 
Avoiding harmful bias and achieving fairness in assessment entail articulating values that drive the approach to assessing medical learners (List 1).50 Ensuring all learner groups have opportunities to learn and perform at their best characterizes fair and equitable assessment.38 Lucey and colleagues write:

  • “Equity in assessment is present when all students have fair and impartial opportunities to learn, be evaluated, coached, graded, advanced, graduated, and selected for subsequent opportunities based on their demonstration of achievements that predict future success in the field of medicine, and that neither learning experiences nor assessments are negatively influenced by structural or interpersonal bias related to personal or social characteristics of learners or assessors.”5 

Many education institutions now articulate values around diversity, equity, and inclusion that emphasize the importance of broadening views on bias in assessment and incorporating sociocultural perspectives. Designing assessment systems that favor non-UIM learners over UIM learners, and condoning group differences in assessed outcomes without questioning the validity of those outcomes, contradict stated commitments to minimize bias and promote equity. Improving assessment is a primary strategy to address differential attainment based on race/ethnicity and acknowledge institutional accountability for outcomes in medical education.51


목록1. 편견을 완화하고 공정성과 형평성을 증진하기 위해 의료 학습자 평가 접근 방식을 주도하는 가치 
List 1 
Values That Drive the Approach to Assessing Medical Learners to Mitigate Bias and Promote Fairness and Equity

1. 평가는 공정하고 공평해야 합니다.
1. Assessment must be fair and equitable.

2. 의학교육에서의 평가는 모든 학습자가 공평하게 배우고 발전할 수 있는 기회를 제공하는 데 기여해야 합니다.
2. Assessment in medical education must contribute to equitable opportunities for all learners to learn and advance.

3. 의학교육은 환자와 인구가 필요로 하는 의료 서비스를 제공할 준비가 된 의사를 양성하는 데 목적이 있습니다.
3. Medical education serves the purpose of training physicians prepared to provide the health care that patients and populations need.

4. 평가는 사회 정의와 건강 형평성을 증진할 수 있는 학습자의 능력을 키워야 합니다.
4. Assessment should foster learners’ ability to promote social justice and health equity.

5. 적응형 학습자 기술 및 성장 마인드를 습득하여 의료 학습자가 의사 경력 전반에 걸쳐 적응하고 개선할 수 있도록 준비시킵니다.
5. Master Adaptive Learner skills and a growth mindset prepare medical learners to adapt and improve throughout their physician careers.


평가 시스템 설계 및 실행은 학습자의 발달적 성장에 가치를 두고 모든 학습자의 성공을 보장하기 위한 노력을 보여 주어야 합니다. 이러한 가치는 단일 평가 및 전체 평가 시스템의 공정성과 평가 결과가 의사 결정에 사용되는 방식에 대한 고려를 이끌어냅니다. 임상의와 환자의 다양한 관점과 경험을 초대하고 경청함으로써 포용성을 중시하는 것은 학습자와 교사의 행동 및 결과에 대한 중요한 결정을 내리는 데 도움이 됩니다. 이러한 가치는 편견을 최소화하고 공정성을 달성하기 위해 활용할 수 있는 총체적인 학습자 선택, 표준 설정 및 전문가 합의 모델과 공감을 불러일으킵니다.
Assessment system design and implementation should demonstrate value placed on learners’ developmental growth and commitment to ensuring all learners’ success. These values also drive consideration of fairness for single assessments and the entire assessment system, and how assessment results are used to make decisions. Valuing inclusivity by inviting and listening to diverse perspectives and experiences of clinicians and patients informs decisions about what learner and teacher behaviors and results are important. Such values resonate with practices of holistic learner selection, standard setting, and expert consensus models, which can be leveraged to minimize bias and achieve fairness.

2. 편견을 줄이고 형평성을 지원하기 위한 교육기관 및 프로그램 정책을 작성합니다.
2. Write institutional and program policies to reduce bias and support equity.

평가의 편견을 최소화하려면 평가의 공정성과 형평성을 명문화하는 기관 정책이 필요합니다. 정책은 학습 기회와 경험, 평가, 성적 및 진급 결정에서 형평성과 억압 방지를 안내하고 지원해야 합니다.18 예를 들어,

  • 성과 결과의 그룹 간 차이를 모니터링하고 식별하기 위해 데이터 검토 및 분석이 필요한 정책을 시행하는 것은 편견을 해결하고 구조적 불평등을 완화하는 데 중요한 단계입니다.
  • 평가에 관한 정책은 또한 성과 평가에서 시험 점수에 과도한 가중치를 부여하여 연수생의 경력 발전 기회에 부정적인 영향을 미칠 수 있는 것을 방지하는 데 도움이 될 수 있습니다.
  • 이동 및 조기 경력 개발을 위한 자금 제공을 포함하여 다양한 정체성을 가진 제공자를 모집하고 유지하기 위한 기관, 주 및 국가 정책을 옹호하면 더 많은 인구를 대표하는 인력 개발을 촉진할 수 있습니다. 

Minimizing bias in assessment requires institutional policies that codify fairness and equity in assessment. Policies should guide and support equity and antioppression in learning opportunities and experiences, assessment, and grading and advancement decisions.18 For example,

  • implementing policies that require data review and analysis to monitor for and identify group differences in performance outcomes is a crucial step in addressing bias and mitigating structural inequities.
  • Policies about assessment can also help avoid the overweighting of exam scores in performance assessment, which might otherwise negatively impact trainees’ opportunities for career advancement.
  • Advocacy for institutional, state, and national policies to recruit and retain providers of diverse identities, including provision of funding for moving and early career development, promotes development of a workforce representative of the larger population.

학습과 성과를 촉진하는 평가 설계
Design assessment to foster learning and outcomes

3. 평가를 시스템으로 구현합니다.
3. Implement assessment as a system.

임상 평가는 전반적인 평가 시스템 내에서 개념화되어야 하며, 여러 개별 평가 소스의 정보를 결합하고 역량 기반 의학교육(CBME)의 통합 구조와 프로그램 평가 원칙을 사용하여 종합해야 합니다.25 교육 결과를 정의하는 프레임워크인 CBME는 학습자와 평가자에게 학습자 성과에 대한 명확한 기대치를 제공합니다.52 평가 시스템은 기준 기반 표준(동료와의 규범적 비교가 아닌 사전 정의된 표준과 비교)과 기대치를 사용하여 CBME 프레임워크에 맞게 조정할 수 있습니다. CBME에서는 모든 학습자가 이정표를 따라 성장하고 있다는 가정을 통해 개발과 개선을 정상화하고 개별 역량에 도달할 수 있는 기회를 제공합니다.27 
Clinical assessments should be conceptualized within an overall assessment system, combining information from multiple sources of individual assessments and synthesized using a unifying structure of competency-based medical education (CBME) and principles of programmatic assessment.25 As a framework that defines the outcomes of training, CBME affords clearly articulated expectations for learner performance for learners and assessors.52 Assessment systems can be tailored to align with the CBME framework, using criterion-based standards (comparing with a predefined standard rather than normative comparison with peers) and expectations. With CBME, the assumption that all learners are growing along milestones normalizes development and improvement and invites opportunity for individual paths to competence.27

프로그램식 평가는 CBME를 운영하기 위한 접근 방식으로, 그룹 의사 결정을 통해 모든 평가 데이터를 수집하고 검토하는 엄격한 절차를 보장합니다.53 프로그램식 평가에서는 단일 인상이나 점수로 결론을 내리는 것이 아니라 많은 평가 데이터 포인트가 전반적인 성과에 대한 판단에 기여합니다. 샘플링은 평가자 또는 활동의 가변성의 한계를 광범위하게 극복하고 공정성을 높이고 편견을 최소화하는 학습자 성과에 대한 균형 잡힌 관점을 생성합니다. 
Programmatic assessment is an approach to operationalize CBME, ensuring rigorous procedures to collect and review all assessment data using group decision making.53 In programmatic assessment, many assessment data points contribute to judgments about overall performance, rather than single impressions or scores driving conclusions. Sampling broadly overcomes limitations of variability in assessors or activities and creates a well-rounded view of learner performance that advances fairness and minimizes bias.

4. 학습자를 형성적으로 평가할 수 있는 기회를 극대화합니다.
4. Maximize opportunities to assess learners formatively.

고품질의 형성적 평가에 대한 노력은 편견을 극복하고 학습 및 평가의 형평성을 증진하는 데 도움이 됩니다. 고부담의 평가 전에 저부담의 평가를 통해 피드백을 제공하면 학습자가 피드백을 통해 성장한 모습을 보여줄 수 있습니다.40 이러한 관행은 연습 기회가 없었던 학습자에게는 놀랍고 연습 기회가 있었던 학습자에게는 익숙한 총평 형식 또는 내용일 때 발생하는 편견을 방지합니다. 학습자와 교사 간의 파트너십을 구축하기 위해 고안된 형성 평가는 모든 학습자에게 연습하고 피드백을 받을 수 있는 기회를 제공합니다.54 형성 평가에서

학습자의 역할은

  • 관찰과 피드백을 구하고
  • 학습 활동을 다시 시도하여
  • 해결할 학습 격차를 파악하는 것을 수반합니다.

감독자의 역할

  • 학습 기대치를 명확히 하고,
  • 학습자가 문제를 해결하거나 과제를 수행하는 과정을 관찰하고,
  • 구체적인 피드백을 제공하고,
  • 학습자가 자신의 성과를 반성하도록 유도하는 것입니다.  

A commitment to high-quality formative assessment helps overcome bias and promote equity in learning and assessment. Providing feedback through low-stakes before high-stakes assessment offers learners opportunities to demonstrate growth from feedback.40 This practice avoids the bias that arises when summative assessment formats or content are a surprise to learners who didn’t have practice opportunities and familiar to those who did. Formative assessment designed to create partnerships between learners and their teachers affords all learners opportunities to practice and receive feedback.54 

  • The learner role in formative assessment entails
    • seeking observation and feedback and
    • identifying learning gaps to address
    • by reattempting a learning activity.
  • A supervisor’s role is to
    • clarify learning expectations,
    • observe the learner working on problems or doing tasks,
    • provide specific feedback, and
    • engage the learner in reflecting on their performance.

평가 절차 준수
Attend to assessment procedures

5. 평가 설계 전반에 걸쳐 편향성을 고려합니다.
5. Consider bias throughout assessment design.

블루프린트을 사용하여 평가를 설계하고 평가 항목의 내용을 검토하는 것은 잠재적인 편향을 식별하고 바람직한 교육 결과에 초점을 맞추는 데 매우 중요합니다. 억압과 차별적 평가 결과를 지속시키는 개인적 편견과 구조를 포함하여 임상 주제와 편견의 원인을 모두 이해하는 전문가 또는 전문가 패널을 참여시켜 문항과 평가 도구/접근법을 검토하면 고정관념이나 편견을 지속시키는 문제가 있는 문항을 제거하거나 수정할 수 있습니다.51 이러한 전문가 검토자는 평가가 CBME 프로그램에 정의된 결과 기대치를 전체적으로 어느 정도 반영하는지 질문해야 합니다. 구조적으로 억압받는 배경을 가진 학습자 및 기타 개인으로 구성된 자문 그룹은 교육자에게 평가에 대한 자신의 경험을 알리고 편견을 최소화할 수 있는 영역을 제안할 수 있습니다. 
Using blueprints to design assessments and reviewing the content of assessment items is critical to identifying potential bias and maintaining focus on desired outcomes of training. Engaging experts, or an expert panel, who understand both the clinical subject matter and sources of bias, including individual biases and structures that perpetuate oppression and differential assessment outcomes, to review items and assessment tools/approaches enables removal or revision of problematic items that perpetuate stereotypes or bias.51 These expert reviewers should ask the degree to which the assessment overall reflects the outcome expectations defined in the CBME program. An advisory group of learners and other individuals from structurally oppressed backgrounds can inform educators about their experiences with assessment and suggest areas to minimize bias.

6. 편견을 최소화하는 평가 절차를 사용합니다.
6. Use rating procedures that minimize bias.

루브릭(마일스톤이 이러한 목적에 부합할 수 있음)을 사용하여 수행 기대치 및 수행 수준을 정의하는 구조에 부합하는 평가 척도를 개발하면 기준이 명확하고 일관되게 설정됩니다.55 학습자와 루브릭을 공유하면 교수자와 학습자가 이러한 이해에 일치하게 됩니다. 학습자의 이름 또는 사진을 숨길 수 있는 경우, 이 전략은 학습자에 대한 다른 관찰에 기반한 확증 편향(즉, 교수자가 평가 데이터를 학습자에 대해 이미 생각한 바를 확인하는 것으로 간주하는 것)을 완화할 수 있습니다. 
Using rubrics (milestones can serve this purpose) to develop construct-aligned rating scales that define performance expectations and levels of performance makes criteria clear and consistent.55 Sharing rubrics with learners aligns faculty and learners in this understanding. In cases where concealing learner names and/or photos is possible, this strategy may mitigate confirmation bias based on other observations of the learner (i.e., faculty member views the assessment data as confirmation of what they already thought of the learner).

7. 내러티브 평가를 통합합니다.
7. Incorporate narrative assessment.

학습자 성과에 대한 설명은 평가자가 일반적인 인상을 바탕으로 숫자를 부여하는 것이 아니라 학습자와 학습자의 작업을 관찰해야 합니다. 따라서 평가자는 미리 정의된 기대치에 대해 자신의 평가와 인상을 정당화해야 합니다. 소수 배경을 가진 학습자는 내러티브가 공평하고 유익하다고 강조합니다.27 
Descriptions of learner performance require that assessors observe learners and their work, rather than just assign a number based on a general impression. Thus, assessors are prompted to justify their ratings and impressions against predefined expectations. Learners from minoritized backgrounds highlight narratives as equitable and beneficial.27

8. 의사 결정에 그룹 프로세스를 사용합니다.
8. Use group processes for decision making.

평가 설계는 교수진 패널 간의 공동 토론을 통해 학습자의 진도 및 진도에 대한 합의된 결정에 도달하여 편견을 완화하도록 최적화할 수 있습니다. 평가 및 채점 시 그룹 검토는 개인의 편견 위험을 줄이고 구성원이 서로의 해석에 의문을 제기하고 이의를 제기함으로써 교수개발의 한 형태가 될 수 있습니다.56 그룹에는 채점 위원회, 진도 위원회 및 임상 역량 위원회가 포함됩니다.57,58 다양한 배경 특성(성별, 연령, 인종/민족 포함) 및 경험을 가진 다양한 그룹 구성원을 모집하면 평가 대상 학습자 집단을 반영하는 등 관점을 넓히고 의사 결정을 강화할 수 있습니다. 그룹 구성원은 자신의 책임과 업무 수행 방법에 대한 공유된 사고 모델을 협상해야 합니다.59 공유된 사고 모델은 기대 학습자 성과에 대한 이해, 평가 데이터 해석 및 기대치와 비교한 학습자의 성과에 대한 그룹의 의사 결정에 대한 접근 방식을 가이드합니다. 학습자의 진도에 대한 의사 결정을 담당하는 그룹은 편견을 피하기 위한 노력을 공유하고 편견을 최소화하기 위한 절차를 통합해야 합니다.56 학습자의 성과 관찰에 기반한 구조화된 토론은 비구조화된 토론, 그룹 응집력에 대한 과도한 헌신, 학습자에 대한 일화적 증거에 대한 과도한 의존에서 나타나는 편견을 최소화합니다.56 
Assessment design can be optimized to mitigate bias using collaborative discussion among a panel of faculty to reach consensus decisions on learner promotion and progress. Group review in assessment and grading reduces the risk of individual bias and can serve as a form of faculty development as members question and challenge one another’s interpretations.56 Groups include grading committees, progress committees, and clinical competency committees.57,58 Recruiting diverse group members with a range of background characteristics (including gender, age, race/ethnicity) and experiences, including those that reflect the learner population being assessed, broadens perspectives and strengthens decisions. Group members should negotiate a shared mental model of their charge and how they will accomplish their work.59 Shared mental models guide understanding of expected learner performance, interpretation of assessment data, and approaches to the group’s decision making about learners’ performance compared with expectations. Groups charged with decision making about learners’ progress must share commitment to avoiding bias and incorporate procedures to minimize bias.56 Structured discussions based on observations of learners’ performance minimize biases that manifest with unstructured discussions, excessive commitment to group cohesion, and overreliance on anecdotal evidence about learners.56

품질 보증 촉진
Promote quality assurance

9. 평가 시스템 설계, 유지 관리 및 개선에 다양한 배경과 관점을 가진 개인을 포함시킵니다.
9. Include individuals with diverse backgrounds and perspectives in assessment system design, maintenance, and improvement.

평가 시스템 설계, 선택한 도구 및 문항 검토, 표본 추출 및 채점 절차, 결과 검토에 다양한 목소리를 참여시키면 불공정한 문항이나 절차를 유발하는 편견을 발견할 수 있습니다. 예를 들어, 학습자 또는 커뮤니티 구성원은 고정관념을 고착화하거나 학습자 하위 그룹에 장벽을 제시하는 평가 도구 또는 항목을 식별할 수 있습니다. 이러한 절차에 학습자를 참여시키는 것은 학습자가 자신의 개발에 참여하기 위한 전략으로서 공동 제작에 대한 권장 사항을 준수하는 것입니다.60  
Engaging diverse voices in assessment system design, review of selected tools and items, procedures for sampling and scoring, and review of outcomes can reveal biases that drive unfair items or procedures. For example, learners or community members could identify assessment tools or items that perpetuate stereotypes or present barriers for subgroups of learners. Involving learners in these procedures adheres to recommendations for co-production as a strategy for learner engagement in their own development.60

10. 평가 데이터 및 결과를 모니터링합니다.
10. Monitor assessment data and consequences.

평가 시스템 내에 존재할 수 있는 편견을 발견하기 위해서는 정기적인 데이터 검토가 필수적입니다. 편향의 신호가 될 수 있는 하위 그룹 성과 차이에 대한 평가 데이터의 지속적인 검토를 안내하는 품질 개선 절차를 개발하면 적시에 개입할 수 있습니다.61 교육 프로그램은 평가 사무소와 협력하여 DIF 분석과 같은 심리측정 방법을 사용하여 편향의 신호를 조사하여 학습자가 속한 UIM 그룹에 따라 다르게 능력을 측정할 수 있는 평가 항목을 식별해야 합니다. 평가 결과는 교육 리더, 교수진, 학습자와 공유하여 투명성을 높이고 다양한 이해관계자의 정보를 바탕으로 문제를 해결할 수 있도록 해야 합니다. 교육자는 평가 데이터를 기반으로 부적절하거나 불공정한 점수 해석을 사용하지 않도록 보호하고 불평등을 지속시키는 절차를 적시에 수정해야 합니다. 
Committing to regular data review is essential to uncovering bias that may exist within the assessment system. Developing quality improvement procedures to guide ongoing review of assessment data for subgroup performance differences that can signal bias enables timely intervention.61 Educational programs should collaborate with offices of assessment to examine signals for bias using psychometric methods, such as DIF analyses, to identify assessment items that may measure ability differently based on UIM groups to which the learner belongs. Results should be shared with education leaders, faculty, and learners to promote transparency and enable problem solving informed by diverse stakeholders. Educators must safeguard against using inappropriate or unfair score interpretations based on assessment data and make timely corrections to procedures that perpetuate inequity.

공평한 학습 및 평가 환경 조성
Foster an equitable learning and assessment environment

11. 학습의 맥락을 최적화합니다.
11. Optimize context of learning.

이 원고에서 다루지 않았지만, 모든 학습자가 연습하고, 피드백에 대해 토론하고, 최고의 성과에 따라 평가받을 수 있는 기회를 경험하려면 학습 환경에 대한 관심이 중요합니다. 모든 학습 환경에서 임상 팀 내에서 포용성을 배양하고 미세공격을 최소화하는 전략이 이러한 목표를 지원합니다.

  • 학습자가 차별이나 괴롭힘 사례를 보고할 수 있는 시스템을 구축하면 학습자에게 권한을 부여하고 문제가 있는 개인과 구조를 파악할 수 있습니다. 이 시스템은 필요한 경우 기관의 조사와 조치로 이어져야 합니다.
  • 구조적으로 억압받는 집단에서 교수진을 채용하면 모든 학습자의 학습 환경이 개선되고 평가에서 형평성을 추구하는 교수진의 역량이 강화됩니다.51
  • UIM 학습자를 위한 멘토십 프로그램은 소속감을 고취하고 교육 프로그램 전반에 걸쳐 지원을 제공할 수 있습니다.
  • 장애 자원 담당자가 주도하는 잘 홍보된 편의 제공 프로세스는 장애 학습자의 공정성을 촉진합니다. 

Though beyond the scope of this manuscript, attention to the learning environment is critical for all learners to experience opportunities to practice, discuss feedback, and be assessed based on their best performance. Strategies to cultivate inclusivity within clinical teams in all learning environments and minimize microaggressions support this aim.

  • Creating a system for learners to report instances of discrimination or harassment empowers them and identifies problematic individuals and structures. This system must lead to institutional investigation and action when appropriate.
  • Recruiting faculty from structurally oppressed groups improves the learning environment for all learners and strengthens the ability of the faculty at large to pursue equity in assessment.51 
  • Mentorship programs for UIM learners can promote feelings of belonging and offer support throughout the training program.
  • A well-advertised accommodations process led by disability resource personnel promotes fairness for learners with disabilities.

12. 평가의 편견과 공정성에 대한 교수진 개발을 제공합니다.
12. Provide faculty development on bias and fairness in assessment.

평가의 편향성은 교수자 개발을 통해 모든 수준에서 잠재적으로 완화될 수 있습니다. 학습자와 피드백을 논의하거나, 학습자의 성과에 대한 더 높은 수준의 평가에 참여하거나, 평가를 개발하고 해석하는 교수진은 편향성에 대한 교육이 필요합니다. 교육의 목표는

  • 첫째, 암묵적 편견의 가능성과 학습자 평가에 대한 자신의 편견에 대한 취약성을 인식하고
  • 둘째, 반성과 지속적인 학습을 촉진하는 것입니다.62

편견을 완전히 제거할 수는 없지만, 암묵적 편견을 식별하고 최소화하는 기술을 포함하여 편견을 해결하기 위한 전략을 교육할 수 있습니다. 사기꾼 증후군, 고정관념 위협, 미세 공격에 대처하는 심리적으로 안전한 학습 환경 조성에 관한 교육을 통해 교수진은 학습자가 최고의 학습과 성과를 달성할 수 있는 환경을 조성할 준비를 할 수 있습니다. 
Bias in assessment can potentially be mitigated at all levels through faculty development. Faculty who discuss feedback with learners, participate in higher-stakes assessment of learner performance, or develop and interpret assessments require training about bias. The goals of training are:

  • first, to bring awareness to the potential for implicit bias and for one’s own vulnerability to bias in ratings of learners, and
  • second, to promote reflection and continued learning.62 

While bias may not be fully eliminated, strategies to address bias can be trained, including skills to identify and minimize implicit bias. Training about creating psychologically safe learning environments that addresses imposter syndrome, stereotype threat, and microaggressions prepares faculty to foster environments that allow learners to achieve their best learning and performance.

평가의 질에 대한 교수진에 대한 피드백은 교육의 중요한 구성 요소입니다.63 워크숍에 참석하거나 자료를 검토한 교수진은 교육이 끝난 것이 아니라 임상의가 임상에서 계속 배우고 개선하는 것처럼, 교육은 교육자를 위한 지속적인 개선 과정입니다. 구조화된 도구를 사용하여 학습자의 임상 성과에 대한 교수자 평가 및 서술형 평가의 품질을 측정한 다음 해당 정보를 교수자 평가자에게 제공하면 후속 평가의 품질이 향상됩니다.64
Feedback to faculty on the quality of their assessments is an important component of training.63 Faculty who attended a workshop or reviewed materials are not done with their training; rather, training is an ongoing process of continuous improvement for educators, just as clinicians continue to learn and improve in their clinical practice. Using a structured tool to measure quality of faculty ratings and narrative assessments of learners’ clinical performance and then providing that information to faculty raters improves their subsequent assessment quality.64

결론
Conclusions

이 문서에서는 임상 학습자를 중심으로 평가에서 유해한 편견의 결과적 영향에 대한 개요를 제공합니다. 편견에 대한 정의를 제공하고 측정, 의학교육 및 사회문화 분야 전반에 걸친 문헌을 종합합니다. 유해한 편견을 입증하는 증거가 증가하고 있지만, 여전히 커뮤니티에서 더 많은 강조와 집단적 사고가 필요한 주제입니다. 이 가이드라인에서는 평가 편향을 완화하기 위한 권장 사항과 지침을 제시합니다. 

  • 평가 가치에 초점을 맞추고,
  • 평가 시스템 설계 및 평가 절차에 주의를 기울이고,
  • 그룹 심의 의사결정 과정학습자 홍보를 위한 모범 사례를 소개하고,
  • 형평성 관점에서 평가 시스템을 모니터링하고,
  • 평가 결과를 검토하고,
  • 공평한 학습 환경을 조성함으로써

이 가이드라인은 공정성 원칙과 타당성 증거에 부합하는 평가를 사용하여 학습자에게 학습 기회를 제공합니다. 우리는 방어 가능한 관련 절차 및 프로세스를 갖춘 강력한 평가 시스템을 개발하고, 학습자에게 공평한 방식으로 의미 있는 학습을 제공하며, 궁극적으로 환자 안전과 공중 보건을 보호하고자 합니다. 
This article provides an overview of consequential effects of harmful bias in assessments, focusing on clinical learners. We provide a definition of bias and synthesize literature across measurement, medical education, and sociocultural disciplines. While evidence documenting harmful bias is growing, it remains a topic that needs greater emphasis and collective thought from the community. We present recommendations and guidelines to mitigate assessment bias by

  • focusing on assessment values,
  • attending to assessment system design and assessment procedures,
  • introducing best practices for group deliberation decision-making processes and learner promotion,
  • monitoring the assessment system from an equity perspective,
  • reviewing assessment consequences, and
  • fostering an equitable learning environment.

These guidelines provide learning opportunities for learners through use of assessments that conform to principles of fairness and validity evidence. We aspire to develop robust assessment systems with associated procedures and processes that are defensible, provide meaningful learning to learners in an equitable manner, and ultimately protect patient safety and public health.


 

 

Acad Med. 2023 Apr 21. doi: 10.1097/ACM.0000000000005245. Online ahead of print.

 

 

"My Assessments Are Biased!" Measurement and Sociocultural Approaches to Achieve Fairness in Assessment in Medical Education

Affiliations collapse

Affiliations

1K.E. Hauer is associate dean for competency assessment and professional standards, and professor, Department of Medicine, University of California, San Francisco School of Medicine, San Francisco, California; ORCID: http://orcid.org/0000-0002-8812-4045.

2Y.S. Park is associate professor and associate head, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois; ORCID: http://orcid.org/0000-0001-8583-4335.

3J.L. Bullock is a fellow, Department of Medicine, Division of Nephrology, University of Washington School of Medicine, Seattle, Washington; ORCID: http://orcid.org/0000-0003-4240-9798.

4A. Tekian is professor and associate dean for international education, Department of Medical Education, University of Illinois at Chicago College of Medicine, Chicago, Illinois; ORCID: http://orcid.org/0000-0002-9252-1588.

PMID: 37094278

DOI: 10.1097/ACM.0000000000005245

Abstract

Assessing learners is foundational to their training and developmental growth throughout the medical education continuum. However, growing evidence shows the prevalence and impact of harmful bias in assessments in medical education, accelerating the urgency to identify solutions. Assessment bias presents a critical problem for all stages of learning and the broader educational system. Bias poses significant challenges to learners, disrupts the learning environment, and threatens the pipeline and transition of learners into health professionals. While the topic of assessment bias has been examined within the context of measurement literature, limited guidance and solutions exist for learners in medical education, particularly in the clinical environment. This article presents an overview of assessment bias, focusing on clinical learners. A definition of bias and its manifestations in assessments are presented. Consequences of assessment bias are discussed within the contexts of validity and fairness and their impact on learners, patients/caregivers, and the broader field of medicine. Messick's unified validity framework is used to contextualize assessment bias; in addition, perspectives from sociocultural contexts are incorporated into the discussion to elaborate the nuanced implications in the clinical training environment. Discussions of these topics are conceptualized within the literature and the interventions used to date. The article concludes with practical recommendations to overcome bias and to develop an ideal assessment system. Recommendations address articulating values to guide assessment, designing assessment to foster learning and outcomes, attending to assessment procedures, promoting continuous quality improvement of assessment, and fostering equitable learning and assessment environments.

보건의료전문직교육에서 학생의 학습동기와 성과에 평가가 미치는 영향: 검토와 실재주의자 통합(Acad Med, 2023)
The Effect of Assessments on Student Motivation for Learning and Its Outcomes in Health Professions Education: A Review and Realist Synthesis
Rashmi A. Kusurkar, MD, PhD, Cesar Orsini, MEd, DHPE, Sunia Somra, MSc, Anthony R. Artino Jr, PhD, Hester E.M. Daelmans, MD, PhD, Linda J. Schoonmade, and Cees van der Vleuten, PhD 

 

일반적으로 고등 교육, 특히 보건 전문직 교육(HPE)에서 저자들은 "평가가 학습을 주도한다", "학습을 위한/위한 평가", "학습으로서의 평가"와 같은 문구를 사용하여 평가가 학습에 미치는 영향에 대해 논의해 왔습니다.1-3 그러나 이러한 과학적 논의에서 평가가 학습 동기의 질과 그 결과에 미치는 영향은 대부분 소홀히 다루어져 왔습니다. 고부담 평가는 장기적으로 학생의 자율적 동기를 저해할 뿐만 아니라4 심리적 고통을 유발할 수 있기 때문에 이러한 격차는 중요합니다.5 따라서 고부담 평가가 동기 부여에 미치는 영향은 평가가 학습 및 심리적 안녕에 영향을 미치는 하나의 인과 메커니즘일 수 있습니다.6,7 이 검토에서는 평가가 학생의 학습 동기에 어떻게 영향을 미치고, 이는 다시 학습 및 심리적 안녕 결과에 영향을 미치는지에 대한 보건 전문직 교육자의 이해를 높이는 것을 목표로 하고 있습니다.  
In higher education, in general, and in health professions education (HPE), more specifically, authors have debated the effect of assessments on learning, with phrases like “assessment drives learning,” “assessment for/of learning,” and “assessment as learning” pervading the literature.1–3 However, the effect of assessments on the quality of student motivation for learning and its consequences have been largely neglected in this scientific dialogue. This gap is important as high-stakes assessments can not only hamper students’ autonomous motivation in the long term4 but also produce psychological distress.5 Thus, high-stakes assessment's effect on motivation could be one causal mechanism by which assessment influences learning and psychological well-being.6,7 In this review, we aim to improve health professions educators’ understanding of how assessments influence student motivation for learning, which in turn has an effect on learning and psychological well-being outcomes.

이 검토에서 심리적 안녕은 기분이 좋고 효과적으로 기능하는 것을 포함합니다.7 따라서 부정적인 심리적 안녕은 이 두 가지 중 하나 또는 둘 다 손상된 것으로 특징지어집니다.7 학습"연습 또는 다른 형태의 경험에서 비롯되는 행동의 지속적인 변화 또는 주어진 방식으로 행동할 수 있는 능력"을 의미합니다.8 
For this review, psychological well-being includes feeling good and functioning effectively.7 Thus, negative psychological well-being would be characterized as either or both of these being compromised.7 Learning denotes “an enduring change in behavior or the capacity to behave in a given fashion, which results from practice or other forms of experience.”8

교육자는 학생의 지식과 기술에 대한 총체적인 평가를 제공하는 것과 함께, 평가를 통해 학습을 이끌어내려는 의도를 가지고 있는 경우가 많습니다. 반면에 학생들은 학습보다는 '성과'에 초점을 맞추는 경우가 많습니다.9,10 이는 평가의 의도와 영향력 사이에 큰 차이가 있음을 나타냅니다. "2018 좋은 평가를 위한 합의 프레임워크"에서는 학생 동기와 관련된 교육적 효과와 촉매적 효과를 포함하여 평가에 대한 7가지 기준을 권장합니다.11

  • 교육적 효과는 학생이 교육적 혜택을 준비하고 생산하도록 동기를 부여하는 평가를 말하며,
  • 촉매적 효과는 교육을 창출, 개선 및 지원하는 이해 관계자에게 동기를 부여하는 결과와 피드백을 제공하는 평가를 말합니다.11

Along with providing summative evaluations of students’ knowledge and skills, educators often intend for assessments to produce learning. Students, on the contrary, often focus on “giving a performance” rather than on learning.9,10 This represents a major gap between the intention and impact of assessments. The “2018 consensus framework for good assessment” recommends 7 criteria for assessments, including that they have educational and catalytic effects that are concerned with student motivation.11 

  • Educational effects refer to assessments motivating students to prepare for and produce educational benefit, whereas
  • catalytic effects refer to assessments providing results and feedback that motivate stakeholders in creating, improving, and supporting education.11 

이 프레임워크에서는 교육적 혜택에 초점을 맞추기 때문에 동기 부여의 개념이 다소 제한적이며, 교육이 학생의 호기심을 불러일으키고 자극해야 한다는 동기 부여의 측면을 무시합니다.12,13 Lineberry는 학생 동기를 고려하고 교육에서 학습과 성과를 장려하는 주요 방법으로 평가를 사용할 것을 권장하는 "학습에 영향을 미치는 평가"의 개념을 제시합니다.9 그러나 이러한 접근 방식은 통제된 동기자율적 동기를 통해 학생의 학습을 촉진하는 것을 구분하거나 통제된 동기를 촉진하는 것이 자율적 동기에 해로운 영향을 미치는 문제를 다루지 않습니다.12,13 동기를 자율적 동기(진정한 관심 및/또는 개인적으로 지지하는 중요성)와 통제된 동기(내부 또는 외부 압력 또는 보상이나 제재에 따른 조건부)로 분류하는 동기 자기 결정 이론(SDT)은 통제된 동기보다는 자율적 동기를 촉진하기 위해 평가를 어떻게 개념화해야 하는지에 대한 지침을 제공할 수 있습니다.12,13 통제된 동기와 비교하여 자율적 동기는 심층 학습, 학업 성취도 향상, 창의성 및 심리적 안녕과 관련이 있습니다.12-14 자율적 동기를 자극하는 것은 자율성(학습에 대한 선택감), 유능감(학습 능력), 관련성(또래 집단에 대한 소속감)이라는 세 가지 기본 심리적 욕구의 충족에 달려 있습니다. 반대로 통제된 동기는 이러한 욕구의 좌절에 의해 자극됩니다.12-14 
In this framework, the concept of motivation is rather limited, as it focuses on the educational benefit, while ignoring the aspect of motivation suggesting education should inspire and stimulate student curiosity.12,13 Lineberry puts forward the concept of “assessment affecting learning,” which considers student motivation and recommends using assessment as the primary way of encouraging learning and performance in education.9 But, this approach does not differentiate between driving student learning through controlled and autonomous motivation or address the problem of how driving controlled motivation has a harmful effect on autonomous motivation.12,13 Self-determination theory (SDT) of motivation—which classifies motivation as autonomous (out of genuine interest and/or personally endorsed importance) and controlled (out of internal or external pressure or contingent on rewards or sanctions)—can provide guidance on how assessments should be conceptualized to foster autonomous rather than controlled motivation.12,13 Autonomous motivation as compared with controlled motivation is associated with deep learning, better academic performance, higher creativity, and psychological well-being.12–14 Stimulating autonomous motivation is contingent on the satisfaction of 3 basic psychological needs: autonomy (sense of choice in learning), competence (sense of capability for learning), and relatedness (sense of belonging to the peer group). In contrast, controlled motivation is stimulated by the frustration of these needs.12–14

SDT는 고부담의 평가가 학생들의 자율적인 학습 동기에 해로운 영향을 미치고 교육 관행을 부패시킬 수 있다고 가정합니다.4 교육자가 형성 평가총괄 평가를 구분한 후에도 학생들은 종종 형성 평가의 순간을 총괄 평가의 순간으로 인식하는 경우가 많습니다. 학생들은 형성 평가에서 최고의 성적을 거둔 순간을 선택하여 성적을 관리하려고 합니다.15 이는 평가가 미래의 교육 기회를 결정하는 데 도움이 되는 경우가 많다는 생각에 뿌리를 두고 있을 수 있습니다. 따라서 이러한 현상은 주로 학습을 위한 평가 기회로 설계된 프로그램 평가와 같은 정교한 평가 시스템이나 프로그램에서도 발생할 수 있습니다.16 프로그램 평가를 채택한 의과대학에서 학생들은 평가 결과에 대한 통제감을 느끼지 못할 때 형성 평가를 총괄 평가처럼 취급하는 것으로 나타났습니다.17 이는 특히 정답이 구조화된 지식 기반 평가의 경우, 교사와의 신뢰 관계가 부족하고 평가가 수행 능력 향상에 사용될 수 없는 경우 더욱 그렇습니다.17 또한 교사는 교육과정 개발자의 의도와 다르게 평가를 시행할 수 있습니다(예: 임상 감독자마다 역량 채점 기준을 다르게 적용하는 것으로 밝혀짐).3,18 이는 평가의 의도와 영향 사이의 격차를 확대할 수 있는 추가적인 요인입니다. 따라서 좋은 의도의 평가 시스템이나 프로그램이라도 잘못 시행하면 학생의 동기 부여에 역행할 수 있습니다.19 
SDT posits that high-stakes assessments have deleterious effects on students’ autonomous motivation for learning and can corrupt educational practices.4 Even after educators distinguish between formative and summative assessments in HPE, students often perceive formative moments as summative ones. They try to control their grades by choosing their best performance moments for their formative assessments.15 This may be rooted in the notion that assessments often help to determine future educational opportunities. This can, therefore, happen even in sophisticated assessment systems or programs, like programmatic assessment, which is primarily designed as an assessment for learning opportunity.16 In medical schools that have adopted programmatic assessment, students have been found to treat formative assessments like summative assessments when they do not feel a sense of control over the assessment outcome.17 This is especially true for knowledge-based assessments with structured answers, when there is a lack of a trusting relationship with teachers and when assessments cannot be used for improving performance.17 Moreover, teachers may implement assessments differently than intended by curriculum developers (e.g., different clinical supervisors have been found to apply standards for scoring competencies differently).3,18 This is an additional factor that can widen the gap between the intention and impact of assessments. Thus, even a well-intentioned assessment system or program may work against student motivation if implemented incorrectly.19

따라서 이 검토는 HPE 문헌에 보고된 바와 같이 평가가 동기에 미치는 영향과 그 결과를 조사하여 학생의 호기심과 자율적 동기를 자극하여 궁극적으로 학습과 장기적인 임상 성과 및 심리적 안녕을 촉진하는 평가를 설계하기 위한 과학적 근거를 제공하는 것을 목표로 합니다. 이 검토를 이끄는 연구 질문은 다음과 같습니다: HPE에서 평가는 학생의 학습 동기에 어떤 영향을 미치는가? 어떤 상황에서 어떤 결과를 가져오는가? 
Therefore, this review aims to examine the effect of assessments on motivation and its consequences, as reported in the HPE literature, thereby attempting to provide a scientific grounding for designing assessments that stimulate student curiosity and autonomous motivation which, in turn, should ultimately foster learning and long-term clinical performance and psychological well-being. The research questions guiding this review were: How do assessments affect student motivation for learning in HPE? What outcomes does this lead to in which contexts?

조사 방법
Method

체계적인 방식으로 검색을 수행했으며 데이터 분석을 위해 실재주의적 종합 방법을 사용했습니다. 방법론 논문과 함께 HPE에 게재된 현실주의적 검토를 인용하여 방법을 안내했습니다.20-24 
We conducted our search in a systematic manner and used realist synthesis method for data analysis. We used the cited realist reviews published in HPE along with methodology articles to guide our method.20–24

검색 전략
Search strategy

검색 전략은 정보 전문가(L.J.S.)와 함께 반복적으로 개발했으며, 실현 가능성을 고려하여 2010~2020년으로 제한했습니다.21 2020년 10월, 2010년 1월 1일부터 2020년 10월 29일까지의 논문을 포함하는 6개의 서지 데이터베이스(PubMed, Embase, APA PsycInfo, ERIC(교육자원정보센터), CINAHL, Web of Science Core Collection)에서 언어 제한 없이 종합적인 검색을 수행했습니다. 다음 용어는 색인어 또는 자유 텍스트 단어의 반복적으로 개발된 3개의 검색 문자열(동의어 및 밀접하게 관련된 단어 포함)에 사용되었습니다: "평가" 및 "동기 부여" 및 "보건 전문직 교육/학생"(보충 디지털 부록 1 참조). 중복 논문은 제외되었습니다. 더 관련성이 높은 논문을 찾기 위해 포함된 모든 논문의 참고문헌에 대해 눈덩이 검색을 실시했습니다. 
The search strategy was developed iteratively with an information specialist (L.J.S.) and was limited to 2010–2020 because of feasibility considerations.21 In October 2020, a comprehensive search was performed in 6 bibliographic databases—PubMed, Embase, APA PsycInfo, ERIC (Education Resources Information Center), CINAHL, and Web of Science Core Collection—that included articles from January 1, 2010, to October 29, 2020, with no language restrictions. The following terms were used in 3 iteratively developed search strings (including synonyms and closely related words) of index terms or free-text words: “assessments” AND “motivation” AND “health professions education/students” (see Supplemental Digital Appendix 1 at https://links.lww.com/ACADMED/B420 for the full search strategy). Duplicate articles were excluded. A snowball search was conducted on the references of all included articles to identify more relevant articles.

포함 기준
Inclusion criteria

HPE에서 평가(모든 유형)가 학생의 학습 동기에 미치는 영향을 조사하고, 경험적 논문 및 문헌 고찰이며, 양적, 질적 또는 혼합 방법을 사용한 논문이 포함되었습니다. 
Articles were included if they investigated the effect of assessments (all types) on student motivation for learning in HPE; were empirical papers and literature reviews; and used quantitative, qualitative, or mixed methods.

제외 기준
Exclusion criteria

HPE가 아닌 집단을 조사했거나, 평가와 동기를 다루지 않았거나, 비경험적 출판물(의견, 관점, 편지, 사설, 논평, 논문, 학회 초록)이거나, 동기가 결과 측정이 아니거나 측정 또는 평가되지 않은 경우 논문은 제외되었습니다. 
Articles were excluded if they examined a non-HPE population, were not on assessments and motivation, were nonempirical publications (opinions, perspectives, letters, editorials, commentaries, dissertations, conference abstracts), or if motivation was not an outcome measure or was not measured or evaluated.

엄격성 및 관련성
Rigor and relevance

포함된 논문의 엄격성과 관련성은 사실주의적 합성을 위한 RAMSES(Realist and Meta-narrative Evidence Syntheses: Evolving Standards) 출판 표준에 명시된 대로 평가되었습니다.20,21 엄격성은 결과를 생성하는 데 사용된 방법의 신뢰성과 신뢰성을 평가했습니다. 관련성은 연구 질문에 답하는 데 있어 논문의 중요성을 평가했습니다.20 
The rigor and relevance of included articles were evaluated as specified by the RAMSES (Realist and Meta-narrative Evidence Syntheses: Evolving Standards) standards of publication for a realist synthesis.20,21 Rigor evaluated the credibility and trustworthiness of the method used to generate the results. Relevance evaluated the importance of the article in answering our research questions.20

사실주의 합성을 선택한 이유
Rationale for choosing realist synthesis

저희는 복잡한 주제, 즉 평가가 동기 부여에 미치는 영향이 학습 및 심리적 웰빙 결과에 미치는 영향이라는 의도된 결과와 의도하지 않은 결과를 연구하고 싶었습니다. 현실주의적 종합은 "어떤 메커니즘이 어떤 맥락에서 어떤 결과를 초래하는지"(맥락-기제-결과)를 탐구하기 때문에 우리 분석에 가장 적합한 방법이라고 생각했습니다.20,21 즉, 우리의 의도는 즉시 실제적으로 적용할 수 있는 개입을 찾는 것이 아니었기 때문에 Carrieri와 동료들이 설명한 현실주의적 검토 방법을 따르지 않았습니다(예, 모든 단계에서 중요한 이해관계자를 참여시켜 의사와 의대생의 정신건강 문제를 해결하는 데 가장 적합한 개입을 결정하는 것).25 대신 동기 부여에 영향을 미쳐 학습 및 심리적 웰빙 결과를 산출하는 평가 기능(예: 평가 내용, 형식)의 맥락-기제-결과 구성을 연구하고자 했습니다. 따라서 HPE의 특정 변수에 영향을 미치는 요인을 연구한 다른 저자들이 따르는 현실주의적 방법이 우리의 목표에 더 적합했습니다.21-24 
We wanted to study the intended and unintended consequences of a complex topic—the effect of assessments on motivation and hence on, among others, learning and psychological well-being outcomes. Because realist synthesis explores “which mechanisms lead to what outcomes in which contexts” (context–mechanism–outcome), it seemed to be the most suitable method for our analysis.20,21 That said, we did not follow the realist review method described by Carrieri and colleagues because our intention was not to find an immediately practically applicable intervention (e.g., to determine which intervention is best for tackling doctors’ and medical students’ mental ill-health by involving important stakeholders at all stages).25 Our intention was instead to study the context–mechanism–outcome configurations of assessment features (e.g., assessment content, format) that influence motivation and hence produce, among others, learning and psychological well-being outcomes. Thus, the realist method followed by other authors, who also studied factors influencing certain variables in HPE, suited our objectives better.21–24

데이터 추출
Data extraction

R.A.K.와 C.O. 또는 S.S.는 먼저 모든 제목과 초록을 읽고 포함 또는 제외를 결정한 후 전문을 읽고 추가 포함 또는 제외를 결정했습니다. 의견 차이는 회의에서 논의하고 합의를 통해 해결했습니다. 그런 다음 R.A.K.와 C.O. 또는 S.S.가 독립적으로 기사에서 실제 데이터 문장 또는 구문을 추출하고(보충 디지털 부록 2 참조), 합의를 통해 최종 확정했습니다. 그런 다음 R.A.K는 문맥-메커니즘-결과 데이터(보충 디지털 부록 3 참조)를 추출하여 C.O.와 S.S.가 독립적으로 확인했습니다. 의견 차이는 합의를 통해 해결되었습니다. 
R.A.K. and C.O. or S.S. first read all titles and abstracts to make inclusion or exclusion decisions followed by reading full texts to make further inclusion or exclusion decisions. Differences of opinion were discussed in a meeting and resolved through consensus. R.A.K. and C.O. or S.S. then independently extracted actual data sentences or phrases from the articles (see Supplemental Digital Appendix 2 at https://links.lww.com/ACADMED/B420), which was finalized through consensus. R.A.K then extracted context–mechanism–outcome data (see Supplemental Digital Appendix 3 at https://links.lww.com/ACADMED/B420), which was independently checked by C.O. and S.S. Differences in opinion were resolved through consensus.

데이터 분석
Data analysis

분석의 모든 단계는 R.A.K.가 수행했습니다. 각 단계는 최고운영책임자(CO)와 수석연구원이 독립적으로 확인했습니다. A.R.A. Jr는 무작위로 선정된 6개 논문의 코딩된 데이터를 확인했습니다. 
R.A.K. conducted all steps of the analysis. C.O. and S.S. checked each step independently. A.R.A. Jr checked the coded data of 6 randomly chosen articles.

첫째, R.A.K.는 자율적 또는 통제적 동기의 자극을 식별하기 위해 MAXQDA(버전 2020, VERBI GmbH, 독일 베를린)를 사용하여 SDT로부터 민감화 개념을 사용하여 데이터의 내용 분석을 수행했습니다. 
First, R.A.K. used MAXQDA (version 2020, VERBI GmbH, Berlin, Germany) to conduct a content analysis of the data using sensitizing concepts from SDT to identify stimulation of autonomous or controlled motivation.

둘째, 내용 분석에서 나온 코드를 맥락, 메커니즘 또는 결과로 분류했습니다. 자율적 또는 통제적 동기에 영향을 미치는 조건이 맥락을 구성했습니다. 자율적 또는 통제적 동기가 자극되는 방식은 메커니즘을 구성했습니다. 결과는 학습 및 심리적 웰빙 결과(예: 영감 감소, 성과 문화 조성)로 구성되었습니다.  
Second, she classified the codes from the content analysis as a context, mechanism, or outcome. The conditions which led to effects on autonomous or controlled motivation constituted the context. How autonomous or controlled motivation was stimulated constituted the mechanism. Outcomes comprised learning and psychological well-being outcomes, among others (e.g., decreased inspiration, creation of a performance culture).

셋째, R.A.K.는 맥락-기제-결과 구성을 추출하여 평가 기능이 자율적 또는 통제적 동기를 자극하는 방식에 대한 중요한 프로그램 이론을 제안했습니다. 여기서 제안된 현실주의 프로그램 이론은 연구팀 전체의 합의를 통해 최종 확정되었습니다. 
Third, R.A.K. extracted context–mechanism–outcome configurations to propose overarching program theories on how assessment features stimulate autonomous or controlled motivation. The realist program theories proposed here were finalized through consensus among the whole research team.

결과
Results

포함 및 제외 기준을 적용한 결과 15,291개의 논문 중 24개의 논문이 포함되었습니다(그림 1 참조).26-49 각 논문의 엄격성과 관련성은 부록 디지털 부록 2에 보고되어 있습니다.  
After applying the inclusion and exclusion criteria, 24 out of 15,291 articles were included (see Figure 1).26–49 The rigor and relevance of each article is reported in Supplemental Digital Appendix 2 (at https://links.lww.com/ACADMED/B420).

의대생 또는 레지던트를 대상으로 한 연구는 10건, 간호학과 학생을 대상으로 한 연구는 4건, 의대생과 간호학과 학생을 대상으로 한 연구는 1건, 영양학과 학생을 대상으로 한 연구는 2건, 수의학, 물리치료, 보건학, 구강보건, 의사 보조, 약학, 치의학 학생을 대상으로 한 연구는 각각 1건씩이었습니다. 유럽에서 11건, 호주에서 4건, 아시아와 미국에서 각각 3건, 캐나다에서 2건, 중동에서 1건의 연구가 수행되었습니다. 현실주의적 종합 접근법을 사용했기 때문에 이 리뷰에서는 다양한 평가의 특징에 중점을 두었습니다. 따라서 구체적인 평가는 여기서는 다루지 않았지만 부록 디지털 부록 4에 나열되어 있습니다. 
Ten studies were conducted on medical students or residents; 4 on nursing students; 1 on medical and nursing students; 2 on nutrition students; and 1 each on veterinary medicine, physiotherapy, health sciences, oral health, physician assistant, pharmacy, and dental students. Eleven studies were conducted in Europe, 4 in Australia, 3 each in Asia and the United States, 2 in Canada, and 1 in the Middle East. As we used a realist synthesis approach, we focused on the features of the different assessments in this review. The specific assessments were, therefore, not relevant, but are listed in Supplemental Digital Appendix 4 (at https://links.lww.com/ACADMED/B420). 

분석에서는 SDT의 민감 개념을 사용하여 어떤 평가 기능이 자율적 동기와 통제적 동기를 자극하는지 파악했습니다. 아래에서 이 두 가지 범주 각각에 대한 맥락, 메커니즘 및 결과를 보고합니다(주요 결과의 개요는 차트 1 참조).
In our analysis, we used sensitizing concepts from SDT, to identify which assessment features stimulated autonomous versus controlled motivation. We report the contexts, mechanisms, and outcomes for each of these 2 broad categories below (see Chart 1 for an overview of the main findings).

 

통제된 동기 부여
Controlled motivation

결과.
Outcomes.

통제된 동기를 자극하는 평가의 결과로는 다음 등이 있습니다.33

  • 외부 압력에 의한 노력 증가26-30, 
  • 표면적 및 전략적 학습(흥미 또는 향후 연습을 위해 학습을 희생하면서 평가될 가능성이 있는 내용만 학습)26-28,31-34, 
  • 학생 참여 및 학습 저해34, 
  • 학습에 대한 압박감, 불안, 좌절, 스트레스26,27,33, 
  • 학습 및 개발을 희생한 '성과 문화' 조성33, 
  • 평가 프로그램의 학습 잠재력 저해 

평가에서 통제된 동기를 자극하는 평가는 영감과 동기를 감소시키고35 학생들의 자기 효능감을 감소시키며, 직장 기반 학습에 대한 학생들의 성찰에 색을 입힙니다.33 학습에 대한 압박, 불안, 좌절, 스트레스, 영감 감소, 낮은 자기 효능감은 모두 부정적인 심리적 안녕의 지표로 간주될 수 있습니다.7 
The outcomes of assessments stimulating controlled motivation included

  • higher effort driven by external pressure26–30;
  • surface and strategic learning (learning only what is likely to be assessed, which happened at the expense of learning out of interest or for future practice)26–28,31–34;
  • undermining of student engagement and learning34;
  • feelings of pressure to study, anxiety, frustration, and stress26,27,33;
  • creation of a “performance culture” at the expense of learning and development33; and
  • undermining of the learning potential of an assessment program.33 

With assessments that stimulate controlled motivation failure in assessments decreased inspiration and motivation,35 reduced students’ sense of self-efficacy, and colored their reflections of workplace-based learning.33 Pressure to study, anxiety, frustration, stress, decreased inspiration, and low perceived self-efficacy can all be considered indicators of negative psychological well-being.7

맥락.
Contexts.

통제된 동기 부여의 자극은 다양한 맥락에서 일어났습니다. 평가(형성형31,32 또는 총괄형26-28,36,37)가 있다는 것만으로도 학습 또는 평가 준비에 대한 외적 동기를 유발했으며,34,38 고부담의 평가(면허 시험36 등),26 사실적 지식에 대한 강한 초점도 마찬가지였습니다.27 통제된 동기를 자극하는 다른 맥락으로는 경쟁 요소의 존재26,31, 성과와 관련된 압력,27 시간,26-28,35 감정,27 외부 보상,27 내적 이유(감독자의 기대 충족 욕구)36, 지식 부족 또는 실패를 드러내는 것에 대한 두려움 등이 있었습니다.26,27 임상 전문직 준비와 최종 시험 통과 사이의 갈등26,38 및 평가와 결합된 결과도 통제된 동기를 자극했습니다.39 평가의 단계는 평가가 끝날수록 동기가 떨어지는 것처럼 보였기 때문에 중요한 역할을 하는 것으로 보였습니다.40
Stimulation of controlled motivation happened in different contexts. The mere presence of assessments (formative31,32 or summative26–28,36,37) was an external motivator for learning or preparing for the assessments, as were the presence of grades,34,38 high-stakes assessments (like licensure examinations36),26 and a strong focus on factual knowledge.27 Further contexts stimulating controlled motivation included the presence of a competitive element26,31; pressures related to performance,27 time,26–28,35 emotions,27 external rewards,27 and internal reasons (the desire to fulfill supervisor’s expectations)36; and fear of disclosing a lack of knowledge or failure.26,27 Conflict between preparing for the clinical profession and to pass the final examinations26,38 and consequences being coupled with assessments also stimulated controlled motivation.39 The phase of the assessment seemed to play a role as motivation seemed to dip toward the end of the assessment.40

메커니즘.
Mechanisms.

평가는 여러 가지 메커니즘을 통해 통제된 동기를 자극했습니다.

  • 실습practice에 중요한 내용을 배우기 위해 공부하거나28 평가를 통과하기 위해 공부하도록 가해지는 외부 압력은 통제된 동기를 자극했습니다.27,31
  • 시험은 틀을 제공하고 학생들이 필요한 지식을 습득하고 우선순위를 정하도록 강요했습니다.28
  • 외부 압력보상은 통제된 동기를 유발하는 트리거로 작용했습니다.27,29,31,38,41,42
  • 평가는 통제된 동기를 유발하여 학생들이 평가를 위해 공부하고 연습하게 했습니다.27
  • 일부 형성 평가는 학생들의 통제된 동기를 자극하여 성취도를 높였습니다.31 평가 채점은 학생들이 양질의 과제를 제출하도록 동기를 부여했습니다.43
  • 형성 평가에서 출제된 문제가 기말 시험에 중요하다고 인식되는 경우 더 많은 학습 노력을 기울였습니다.31
  • 평가는 학생들이 더 많이 공부해야 한다는 압박감을 느끼게 하지만, 과목에 대한 흥미를 자극할 수도 있습니다.27
  • 외부 규제 기관과 규정의 존재는 평생 학습을 자극했습니다.36
  • 평가 결과에 대한 위임에 초점을 맞추면 학습자가 지속적으로 평가를 받는다는 인식과 평가가 형성적이기보다는 총괄적인 것으로 인식되는 것으로 나타났습니다.33 이러한 효과는 신뢰와 심리적 안전에 기반한 평가 프로그램의 학습 잠재력을 약화시킬 수 있습니다.33
  • 자율성과 감독되지 않은 연습에 중점을 두기 때문에 위임 언어는 학습과 개발을 희생하는 성과 문화로 이어질 수 있습니다.33 평가는 또한 불안과 좌절감을 유발했습니다.26,27,40,41 

Assessments stimulated controlled motivation through several mechanisms.

  • External pressure exerted to study to learn material that was important for practice28 or to study to pass assessments stimulated controlled motivation.27,31 
  • Examinations provided a framework and forced students to acquire and prioritize the required knowledge.28 
  • External pressures and rewards functioned as triggers for controlled motivation.27,29,31,38,41,42 
  • Assessments triggered controlled motivation, which made students study and practice for assessments.27 
  • Some formative assessments stimulated students’ controlled motivation and hence achievement.31 
  • Grading of assessments motivated students to submit high-quality work.43 
  • Questions asked in a formative assessment garnered more study effort if they were perceived to be important for final examinations.31 
  • Although assessments made students feel pressure to study more, they could also stimulate an interest in the subject.27 
  • The existence of external regulating bodies and regulations stimulated lifelong learning.36 
  • Focus on entrustment as the assessment outcome seemed to enhance learner perceptions of being judged continuously and of assessments being perceived as summative rather than formative.33 This effect can undermine the learning potential of an assessment program, which is based on trust and psychological safety.33 
  • Because of its focus on autonomy and unsupervised practice, entrustment language can lead to a performance culture at the expense of learning and development.33 Assessments also led to anxiety and frustration.26,27,40,41

평가는 또한 경쟁 의식을 유발하거나, 실패 또는 성과 저하에 대한 두려움으로 인해 통제된 동기를 자극하기도 합니다. 동료 평가는 동료와의 비교를 유도하고,42 낮은 점수를 받는 것에 대한 두려움(기여하지 않은 경우)29 학습 동기를 부여했습니다. 동료들이 자신의 과제에 대해 어떻게 생각하는지 알고 싶어서 동료의 피드백에 비추어 자신의 과제를 다시 읽게 되었습니다.42 학생들은 추가 학점이라는 보상을 위해27 더 열심히 공부했고,26,29 성적이 낮아지거나,26,29 실패하거나,30 성적이 좋지 않을 것이라는 두려움 때문에 더 열심히 공부했습니다.26,31 학생들은 동료 학생들을 실망시키지 않기 위해 협력 시험을 위해 열심히 공부했고, 이는 자신감을 강화하고 뛰어난 성적을 거두게 만들었습니다.44
Assessments also stimulated controlled motivation through creating a sense of competition or out of fear of failure or poor performance. Peer assessment led to comparisons with peers,42 fear of receiving low marks (if they did not contribute),29 and motivated them to learn. Wanting to know what their peers thought of their work prompted them to reread their work in light of the peer feedback.42 Students studied harder for the reward of extra credits27 and out of fear of getting lower grades, failing,26,29 or performing poorly.30 Competition motivated students to prepare for assessments.26,31 Students studied hard for collaborative tests to avoid disappointing fellow students; this strengthened their confidence and made them excel.44

평가는 통제된 동기를 자극하여 표면적이고 전략적인 학습을 장려했습니다. 평가에서 사실적 지식에 초점을 맞추고 동기를 통제하면 표면적 학습이 이루어졌습니다.27 암기식으로 학습하여 시험 때에는 이해 없이 토해내는regurgitate 학생은 특정 평가에서 더 잘하는 경향이 있었습니다.26 전통적인 채점을 사용했을 때 학생들은 평가가 전체 성적에서 차지하는 비중을 기준으로 평가를 평가했습니다. 이는 주제와 학습 목표에 대한 참여도에 영향을 미쳤습니다.34 학습할 내용을 선택하는 것은 실무에 필수적인 지식보다는 이전 시험 문제를 기반으로 했습니다.28 학생들은 가능하면 더 좋은 성적을 받기 위해 더 쉬운 평가 활동을 선택하는 경향이 있었습니다.26 높은 비중의 평가는 표면적 학습 접근 방식을 장려하는 반면, 다른 평가 유형은 낮은 비중으로 인해 심층적 학습 접근 방식을 장려했습니다.26 특정 평가 유형(예: 위탁 전문 활동[EPA])의 비중을 높게 설정하면 학생들 사이에서 전략적 학습 행동을 유발할 수 있습니다.33 
Assessments stimulated controlled motivation resulting in encouragement of surface and strategic learning. Focus on factual knowledge in assessments and controlled motivation led to surface learning.27 Students who learned by rote memorization and regurgitated the material without understanding it during examinations tended to fare better on certain assessments.26 When traditional grading was employed, students valued the assessment on the basis of the weight it carried for the overall grade. This influenced their engagement with the topic and the learning objectives.34 Choosing what to study was based on previous examination questions rather than on the knowledge essential for practice.28 When possible, students were inclined to pick easier assessment activities to fare better.26 High-stakes assessments encouraged a surface learning approach, while other assessment types encouraged a deep learning approach owing to the lower stakes.26 Making certain assessment types (like entrustable professional activities [EPAs]) high stakes may give rise to strategic learning behavior among students.33

평가에 대한 개별적인 인식은 서로 다른 행동을 유발했습니다(예: 일부 학생은 능동적 학습 기반 평가에서 아이디어를 생성하는 것을 경쟁 과정으로 인식한 반면, 다른 학생은 이를 성찰의 기회로 인식했습니다40).
Individual perceptions about assessments gave rise to different behaviors (e.g., some students perceived generating ideas, in an active learning-based-assessment, as a competitive process, while others perceived it as an opportunity for reflection40).

자율적 동기 부여
Autonomous motivation

결과.
Outcomes.

자율적 동기를 자극하는 평가의 결과는 더 높은 창의성34; 기술 개발44; 자기 조절, 시간 관리 기술, 숙달 학습 및 자기 주도적 수정 행동의 육성30,34,41; 주제에 대한 관심27; 더 깊이 있는 학습 접근 방식26,43,45,46 더 높은 노력과 자료와의 더 나은 연결34,47 등이었습니다; 업무의 질 향상,29 역량, 자신감 및 성과26,40; 목표 설정 및 학습 참여도 향상33,44; 오류 식별 능력 향상 및 임상 술기 연습에 대한 노력 증가48; 환자와 더 많은 시간을 보내려는 동기 부여 증가38; 기술 및 전문성 개발 증가45; 학생의 업무 개선 독려. 42 자율적 동기를 자극하는 형성적 평가에도 불구하고 총합적 평가에 비해 형성적 평가에서 더 낮은 노력이 발견되었습니다.38 평가에 대한 성찰은 학생의 동기, 학습 및 복지를 향상시켰습니다.33  
The outcomes of assessments that stimulated autonomous motivation were higher creativity34; skill development44; fostering of self-regulation, time management skills, mastery learning, and self-directed corrective actions30,34,41; interest in the topic27; a deeper learning approach,26,43,45,46 higher effort and better connection with the material34,47; increased quality of work,29 competence, confidence, and performance26,40; improved goal setting and engagement in learning33,44; better error identification and higher effort on practicing clinical skills48; increased motivation to spend more time with patients38; increased skills and professionalism development45; and encouraging students to improve their work.42 Lower effort was found in formative compared with summative assessments in spite of formative assessments stimulating autonomous motivation.38 Reflection on assessments enhanced student motivation, learning, and well-being.33

맥락.
Contexts.

자율적 동기의 자극은 평가가

  • 재미있고 흥미로우며 도전적인26,27,36,40,45,
  • 혁신적이고 숙달에 기반하며 종단적으로 실시되는33,34,
  • 수업의 일부로 매끄럽게 도입되는46,
  • 학생 자율성의 측면이 포함된 맥락에서 발생했습니다 (예,
    • 교사가 미리 정한 숙달 기준에 따라 학생 스스로 채점,34
    • 합격/불합격 채점만 사용,34
    • 여러 번의 합격 시도 제공,26
    • 과제 선택,34
    • 관심 있는 주제에 대한 학습 선택,40,45
    • 평가 장소 및 시간 선택39). 

Stimulation of autonomous motivation happened in the context of the assessment being

  • fun, interesting, and challenging26,27,36,40,45;
  • innovative, mastery-based, and conducted longitudinally33,34;
  • introduced in a seamless manner as part of instruction46; and
  • embedded with facets of student autonomy (e.g.,
    • students graded themselves on mastery criteria predetermined by the teacher,34 
    • use of pass/fail grading only,34 
    • provision of multiple attempts to pass,26 
    • choices of assignments,34 
    • choices in learning about topics of interest to them,40,45 
    • choices in place and time of assessment39).

평가가 직접적으로 역량을 키울 수 있도록 준비되어 있고, 시기적절하고 외부적이며 다양한 피드백을 제공하는 능동적 학습 평가인 경우에도 자율적 동기를 자극하는 효과가 있었습니다.28,31,33,40,41,44,47,49) 다음과 같은 평가도 자율적 동기를 자극합니다.

  • 개별적40 또는 공유 목표 설정이 포함된 평가,41
  • 학습자의 성찰을 자극하고,33
  • 학습자와 교사가 공동으로 구성하고,45
  • 임상 실습과 진정성이 있고,26,28,35,37,38,49
  • 공유를 장려하거나 그룹 학습 및 책임을 공유하며,27,39,41,44
  • 학생에게 개인적인 가치를 부여하는 27,31,45

높은 기본 자율적 동기(학습에 대한) 수준,39 개인적 성취 또는 만족에 대한 동기, 학습에 대한 애정과 열정 등 특정 학생 특성도 자율적 동기 자극의 맥락을 형성합니다.26,40 평가 유형(예: 사실 회상 또는 심층 사고 테스트)에 따라 평가가 동기에 미치는 영향의 차이가 나타났습니다.26 
Stimulation of autonomous motivation also happened if the assessment was poised to directly build competence and was an embedded active learning assessment, with timely, external, and multiple sources of feedback.28,31,33,40,41,44,47,49 Assessments that 

  • included setting individual40 or shared goals,41 
  • stimulated learners to reflect,33 
  • were jointly constructed by learners and teachers,45 
  • had authenticity with clinical practice,26,28,35,37,38,49 
  • encouraged sharing or shared group learning and responsibility,27,39,41,44 and
  • held personal value for students also stimulated autonomous motivation.27,31,45 

Certain student characteristics also form the context for autonomous motivation stimulation, such as high baseline autonomous motivational (for learning) levels,39 having the motivation for personal achievement or satisfaction, or having a love of learning and passion for the topic.26,40 Variations in the effect of assessments on motivation were seen depending on the type of assessment (i.e., testing fact recall or deep thinking).26

메커니즘.
Mechanisms.

평가는 여러 가지 메커니즘을 통해 자율적 동기를 자극합니다. 재미있고 도전적인 평가는 자율적 동기를 유발하고, 그룹으로 수행하면 개별 학생이 혼자서 하기 어려운 전체적인 그림을 그릴 수 있습니다.27 학생들은 스스로 주제를 선택하고 학습 방식을 변경할 수 있을 때 개인적 동기에 의해 더 많이 움직였습니다.45 학생들은 자율적 동기에 의해 일정에 따라 학습했습니다.32 일부 학생은 좋은 의사가 되고 싶어서 성적이 나오지 않더라도 평가를 위해 공부했습니다.38 형성 평가는 학생들이 이미 알고 있는 내용과 공부해야 할 내용을 인식하게 함으로써 동기를 부여했습니다.27 특정 평가 유형은 루브릭을 통해 즉각적인 피드백을 제공하고 숙달 학습으로 초점을 전환함으로써 자율적 동기를 자극했습니다.34
Assessments stimulated autonomous motivation through several mechanisms. A fun and challenging assessment triggered autonomous motivation and doing it in a group provided a holistic picture, which would be difficult for individual students to do on their own.27 Students were more driven by personal motivation when they could choose their own topics and change their learning approach.45 Students worked to a schedule because they were autonomously motivated.32 Some students would study for the assessment even if they were not graded as they just wanted to be good doctors.38 Formative assessments motivated students by making them aware of what they already knew and what they needed to study.27 Certain assessment types stimulated autonomous motivation by providing instant feedback through rubrics and shifting the focus to mastery learning.34

학습의 자율성은 또한 자율적 동기를 자극했습니다. 포트폴리오를 사용하면 학생들이 개인적으로 더 많은 동기를 갖게 되어 학습을 강의 자료에만 의존하지 않게 되었습니다.45 평가에서 어느 정도의 선택권(예: 학습 주제 또는 포트폴리오에 추가할 내용)은 커리큘럼에 국한된 경계를 없애고 개인적인 탐색을 허용하며 학습 주제에 대한 학생들의 인정appreciation을 높였습니다.45 학생들이 계획 과정을 진행하고 더 독립적이 되면서 동기 부여가 증가했습니다.45 학습의 자율성은 학생들이 독립적으로 자신의 기술을 개발하고 동기를 증가시켰습니다.40 자신의 수행을 볼 수 있다는 것은 학생들이 기술을 연습하도록 동기를 부여했습니다.48 특정 평가 유형은 학생들이 더 많이 공부하고 중요한 개념에 집중하며 학습을 반성하도록 동기를 부여했습니다.31 일부 평가 유형은 즉각적인 피드백을 제공함으로써 동기를 높였습니다.41 평가에서 기대되는 것을 알고 이해하면 학생들이 향상하는 데 도움이 되었습니다.42
Autonomy in learning also stimulated autonomous motivation. Use of portfolio made students more personally motivated and so they did not rely only on lecture material for their study.45 Some amount of choice in assessments (e.g., of topics to study or what to add in the portfolio) removed boundaries (e.g., being confined to the curriculum), allowed for personal exploration, and increased students’ appreciation of the study topics.45 Students’ motivation increased as they progressed through the planning process and became more independent.45 Autonomy in learning made students independently develop their skills and increased their motivation.40 Being able to watch their own performance motivated students to practice their skills.48 Certain assessment types motivated students to study more, focus on important concepts, and reflect on their learning.31 Some assessment types increased motivation by giving immediate feedback.41 Knowing and understanding what was expected in the assessment helped students to improve.42

피드백을 받는 것은 여러 가지 방식으로 자율적 동기를 자극했습니다

  • 대면 피드백은 학생의 역량과 자신감을 향상시켰습니다.26 
  • 환자와 동료의 피드백은 학생이 역량을 향상하고 우수성을 추구하도록 동기를 부여했습니다.49 
  • 평가 직후 정답을 알게 되면 학생이 모든 문제에 더 집중하고 동기를 부여하도록 자극했습니다.31 
  • 평가 후 설명 피드백은 학습 과정을 개선하고 학생 동기를 지속했습니다.46 
  • 오류 감지는 학생이 자신의 지식 격차를 파악하는 데 도움이 되었습니다.47 
  • 공동 시험은 지속적인 동료 평가와 피드백을 통해 수행 격차를 줄이는 데 도움이 되었습니다.44 
  • 평가에 대해 성찰하면 학생의 발달에 대해 더 잘 파악하여 동기, 학습, 웰빙을 개선했습니다.33

Getting feedback stimulated autonomous motivation in several ways.

  • Face-to-face feedback improved students’ competence and confidence.26 
  • Feedback from patients and colleagues motivated students to improve their competence and pursue excellence.49 
  • Getting to know the correct answer immediately after the assessment stimulated students to focus more on all questions and their motivation.31 
  • Assessment followed by explanatory feedback enhanced the learning process and sustained student motivation.46 
  • Error detection helped students to identify their knowledge gaps.47 
  • Collaborative testing helped in closing a performance gap through constant peer evaluation and feedback.44 
  • By providing a better picture on their development, reflection on assessments improved students’ motivation, learning, and well-being.33

능동적 학습 평가는 자율적 동기를 자극했습니다. 능동적 학습 평가는 학습 여정의 각 단계를 완료한 후 기술, 자신감 및 동기 부여를 향상시켰습니다.40,47 능동적 학습 평가는 지식 구축을 지원할 뿐만 아니라 학생들에게 질문을 공식화할 기회를 제공함으로써 탐구심을 유발하여 인지적, 정서적으로도 학생들의 참여를 유도했습니다.42,45
Active learning assessments stimulated autonomous motivation. They led to increased skills, confidence, and motivation after the completion of each stage of the learning journey.40,47 Active learning assessments not only supported knowledge building but also engaged students cognitively and emotionally,42,45 as they generated enquiry by providing students with the opportunity to formulate questions.45

실습과 진정성이 있는 평가는 온전함을 제공하고, 임상 기술과 전문성을 키우고, 학생들의 관심을 끌고, 팀워크를 장려하기 때문에 학생들에게 본질적인 동기를 부여했습니다.27,38,41,44,45 포트폴리오에 포함할 내용을 선택할 수 있어 학생들은 자신의 개인적인 경험을 학습에 포함할 수 있었고 상당한 동기를 부여했습니다.45 의사의 직업적 책임은 학생들에게 평생 학습에 대한 동기를 부여했습니다.36
Assessments that had authenticity with practice motivated students intrinsically as they provided a sense of wholeness, fostered clinical skills and professionalism, captured students’ interest, and encouraged teamwork.27,38,41,44,45 Having choices in what to include in the portfolio allowed students to include their personal experiences into their study and significantly motivated them.45 The professional responsibility of physicians motivated students for lifelong learning.36

동료, 그룹 또는 공유 학습은 학생들이 자신의 지식 격차를 파악하고 건설적인 마찰을 일으키며 비고츠키의 근위 발달 영역(즉, 학생들이 충분히 도전하고 새로운 것을 배우고자 하는 동기가 있는 영역)으로 이동하여 학습을 향상시키는 데 도움이 되었습니다.41

  • 동료 평가는 개별 학생이 의미 있는 방식으로 그룹에 기여할 수 있는 추가적인 동기 부여 전략으로 기능하고 팀워크 경험을 제공했습니다.29,44
  • 동료 학습 형식은 상호 작용을 유도하여 참여와 동기를 부여했습니다.44
  • 동료 평가 과정은 학생들에게 권한을 부여하고 동기를 부여하며 학습에 대한 자신감과 참여도를 높였습니다.42
  • 그룹 평가는 학생들이 혼자서는 달성하기 어려웠을 주제에 대해 더 넓은 시각을 갖도록 도왔습니다.27
  • 상호 의존적인 목표를 공유하는 그룹에서 학습하면 학생들은 그룹 작업에 대한 개인적인 책임감을 느끼고 지식과 노력 측면에서 더 많은 기여를 하게 됩니다.41
  • 일부 학생들은 평가의 일부인 아이디어 창출을 경쟁 과정으로 인식한 반면, 다른 학생들은 자신의 아이디어를 반성하고 비교할 기회로 인식했습니다.40
  • 실패는 학생들이 더 열심히 공부하도록 이끌었습니다.33 위탁 평가를 통과하지 못한 학생들은 좌절감을 느낍니다.33 

Peer, group, or shared learning helped students to identify their knowledge gaps, created constructive friction, and moved them into Vygotsky’s Zone of Proximal Development (i.e., the zone in which students have enough challenge and are motivated to learn new things), enhancing their learning.41 

  • Peer assessment functioned as an extra motivational strategy for individual students to contribute to the group in a meaningful way and provided teamwork experience.29,44 
  • Peer learning formats led to interactions, resulting in engagement and motivation.44 
  • The peer assessment process empowered students, motivated them, and increased their confidence and engagement in learning.42 
  • Group assessment helped students to get a broader view of topics, which would have been hard to achieve on their own.27 
  • Learning in a group with a shared interdependent goal made students feel personal responsibility for the group work and contribute more in terms of knowledge and effort.41 
  • Some students perceived generating ideas as part of the assessment as a competitive process, while others perceived it as an opportunity to reflect on their ideas and make comparisons.40 
  • Failure led students to study harder.33 Not passing their entrustment assessment made students feel frustrated.33

맥락-기제-결과 조합에 기반한 새로운 프로그램 이론
Emergent program theories based on context–mechanism–outcome combinations

그림 2는 평가가 어떻게 통제된 동기를 향상시키고 부정적인 학습 및 심리적 웰빙 결과를 초래할 수 있는지 설명하는 신흥 현실주의 프로그램 이론을 보여줍니다. 부정적인 심리적 웰빙은 질적 데이터에서만 보고된 결과로 불안, 스트레스, 좌절과 같은 부정적인 감정이 특징입니다.26,27,33 평가가 어떻게 통제된 동기를 향상시킬 수 있는지에 대한 이해를 위해 평가 시스템 또는 프로그램 수준과 개별 학생 수준에서 자율성을 빼앗고 역량에 대한 부정적인 인식을 형성하는 맥락적 요인을 발견했습니다. 또한 평가 시스템 또는 프로그램 수준에서 통제된 동기를 자극하면 성과 문화가 형성되고 평가 시스템의 학습 잠재력이 약화된다는 사실도 발견했습니다.

Figure 2 depicts the emergent realist program theory that explains how assessments can enhance controlled motivation and lead to negative learning and psychological well-being outcomes. Negative psychological well-being was an outcome reported only in qualitative data and was characterized by negative emotions, such as anxiety, stress, and frustration.26,27,33 For an understanding on how assessments can enhance controlled motivation, we found contextual factors at an assessment system or program level as well as at an individual student level that work by taking away autonomy and creating negative perceptions of competence. We also found that at an assessment system or program level, stimulation of controlled motivation led to creation of a performance culture and undermining of the learning potential of the assessment system.

그림 3은 평가가 어떻게 자율적 동기를 강화하고 긍정적인 학습 결과로 이어질 수 있는지를 설명하는 새로운 현실주의 프로그램 이론을 보여줍니다. 평가가 어떻게 자율적 동기를 향상시킬 수 있는지에 대한 통찰력을 얻기 위해, 우리는 평가 기능의 맥락적 요인(즉, 평가 내용 및 형식과 개별 학생 수준에서)이 자율성, 역량 및 관련성이라는 기본적인 심리적 요구를 충족하고 개별 학생 수준에서 긍정적인 학습 결과를 생성하는 활동에 대한 가치를 창출함으로써 작용한다는 사실을 발견했습니다. 자율적 동기를 자극하는 평가에 대한 심리적 웰빙 결과를 찾지 못했습니다.

Figure 3 depicts the emergent realist program theory that explains how assessments can enhance autonomous motivation and lead to positive learning outcomes. For insights into how assessments can enhance autonomous motivation, we found that contextual factors in the assessment features (i.e., in the assessment content and format, as well as at an individual student level) work through satisfying the basic psychological needs of autonomy, competence, and relatedness as well as by creating value for the activity to produce positive learning outcomes at an individual student level. We did not find psychological well-being outcomes for assessments that stimulate autonomous motivation.

토론
Discussion

이 검토 및 현실주의적 종합에서 우리는 평가가 학생의 학습 및 심리적 웰빙 결과로 이어지는 동기에 어떻게 영향을 미치는지에 대한 맥락 메커니즘-결과 구성을 평가 시스템 또는 프로그램 수준뿐만 아니라 개인 수준에서도 설명함으로써 HPE 문헌에 추가하고자 했습니다.

  • 우리는 평가 시스템 또는 프로그램과 개별 학생 수준에서 평가가 자율성과 역량이라는 SDT 기반 심리적 요구를 좌절시킴으로써 통제된 동기를 강화하여 평가 시스템 또는 프로그램과 개별 학생 수준에서 부정적인 결과를 초래한다는 것을 발견했습니다.
  • 반면, 특정 평가와 학생 개개인의 특성은 자율성, 유능성, 관계성이라는 SDT 기반의 기본 심리적 욕구를 충족시켜 자율적 동기를 강화하고 학생 개인 수준에서만 성과를 창출하는 가치를 창출한다는 사실을 발견했습니다.

현재 HPE 문헌에서 자율적 동기 향상과 관련된 심리적 웰빙이나 평가 시스템 또는 프로그램 수준의 결과를 찾지 못했습니다. 

In this review and realist synthesis, we sought to add to the HPE literature by describing context–mechanism–outcome configurations for how assessments influence motivation leading to learning and psychological well-being outcomes among students at an individual level as well as at an assessment system or program level.

  • We found that assessments, at the assessment system or program as well as the individual student levels, enhance controlled motivation by frustrating the SDT-based psychological needs of autonomy and competence, leading to negative outcomes at the assessment system or program as well as the individual student levels.
  • In contrast, we found that certain assessment as well as individual student characteristics enhance autonomous motivation through satisfaction of the SDT-based basic psychological needs of autonomy, competence, and relatedness, along with creation of value to produce outcomes only at an individual student level.

We did not find any psychological well-being or assessment system- or program-level outcomes related to the enhancement of autonomous motivation in the current HPE literature.

조사 결과를 바탕으로, 표 2에서는 통제된 동기를 자극하는 평가를 자율적 동기를 자극할 수 있는 평가로 전환하기 위해 교육자가 사용할 수 있는 기능 변경 목록을 제공합니다. 통제된 동기를 자극하는 평가는 부정적인 심리적 웰빙 결과를 초래할 뿐만 아니라 자율적 학습 동기에 장기적으로 해로운 영향을 미칠 수 있기 때문에 이는 중요합니다.4
Based on our findings, in Chart 2, we provide a list of feature changes educators can use to convert assessments that stimulate controlled motivation into ones that can stimulate autonomous motivation. This is important because assessments that stimulate controlled motivation can not only produce negative psychological well-being outcomes but also have a long-term deleterious effect on autonomous motivation for learning.4

현재 HPE 실무에서 널리 시행되고 있는 두 가지 주요 평가 개념은 프로그램식 평가와 EPA입니다.50 프로그램식 평가가 학생 동기 부여에 미치는 영향에 대한 연구는 찾지 못했습니다. 이러한 연구는 문헌에 추가될 수 있는데,

  • 특히 프로그램식 평가에는 본 검토에서 자율적 동기를 자극하는 것으로 확인된 몇 가지 특징이 있기 때문입니다.51
  • EPA의 경우, EPA 기반 평가가 주로 통제 동기를 자극한다는 한 연구를 발견했습니다.33

이 발견은 본 검토에서 자율적 동기를 자극하는 것으로 확인된 몇 가지 특징(예, 임상 실습의 진정성과 학생의 자율성 제공).52 우리는 이러한 단절이 개별 EPA 평가의 설계와 평가 프로그램 또는 전반적인 평가 문화에 포함되는 방식 사이의 차이 때문일 수 있다고 가정하지만, 이에 대해서는 추가 조사가 필요합니다. 
In current HPE practice, the 2 major assessment concepts being implemented widely are programmatic assessment and EPAs.50 We did not find any research on the effect of programmatic assessment on student motivation. Such research would add to the literature, especially because programmatic assessment has some of the features identified in this review as ones that seem to stimulate autonomous motivation.51 In terms of EPAs, we found one study suggesting that EPA-based assessments mainly stimulated controlled motivation.33 This finding was somewhat surprising, given that EPA-based assessments have some of the features identified in this review as stimulating autonomous motivation (e.g., authenticity with clinical practice combined with providing students with autonomy).52 We hypothesize that this disconnect may be due to the gap between the design of individual EPA assessments and how they are embedded in an assessment program or an overall assessment culture, but this needs further investigation.

본 검토 결과 전반에 걸쳐 나타난 평가의 의도와 영향력 사이의 격차는 이전에 발표된 문헌과 일치합니다.3 서로 다른 평가 관행, 평가에 대한 시행자의 신념, 졸업 연수생의 질을 유지하고 보장해야 하는 요구사항 사이의 긴장이 이러한 격차를 설명할 수 있습니다.53 이 문제는 평가 설계 시 학생 동기 고려, 평가가 포함된 문화 변화, 의도대로 평가를 시행하도록 교직원 교육3, 평가 목표에 대한 교사와 학생 간의 공유 이해 구축을 포함하는 다각적인 전략으로 해결할 수 있습니다.54
The presence of a gap between the intention and impact of an assessment, which was seen throughout the results of this review, aligns with earlier published literature.3 Tensions between different assessment practices, the implementers’ beliefs about assessments, and the requirement to uphold and guarantee the quality of graduating trainees may account for this gap.53 This issue can be addressed by a multipronged strategy that includes considering student motivation when designing assessments, changing the culture within which assessments are embedded, training faculty to implement assessments as they are intended,3 and building a shared understanding between teachers and students on the goals of assessment.54

실천을 위한 시사점
Implications for practice

우리가 발견한 자율적 동기를 자극할 수 있는 평가 특징은 현재 평가를 재설계하거나 혁신적인 평가를 개발하는 데 사용할 수 있습니다. 표준 객관식 문제보다 환자의 문제와 근본적인 메커니즘을 설명하는 임상적 추론 연습 문제나 감별 및 근거를 제시하는 진단적 정당화 연습 문제를 더 많이 출제하는 등 학생들이 임상 실습에 보다 진정성 있게 대비할 수 있는 평가를 개발하는 것이 좋습니다. 우리는 학생들이 실제로 필요한 것을 희생하면서까지 평가에 출제될 것으로 예상되는 내용을 전략적으로 학습하는 경향을 발견했습니다. 이는 인센티브(예: 성적 및 자격)를 통한 통제된 동기의 자극이 자율적 동기에 장기적으로 해로운 영향을 미친다는 SDT의 주장에 비추어 볼 때 우려스러운 결과입니다.4,55 교육자가 평가를 통해 자율적 학습 동기를 자극하는 데 주의를 기울여야만 HPE 학생들에게 단순히 "양동이를 채우는" 대신 "학습의 불을 붙일 수 있을 것"입니다.13 
The assessment features we found that can stimulate autonomous motivation can be used by educators to redesign current assessments or develop innovative assessments. We recommend developing assessments that more authentically prepare students for clinical practice, such as having more clinical reasoning exercises, where students describe patient problems and the underlying mechanisms, or diagnostic justification exercises, where students suggest a differential and rationale, over the standard multiple-choice questions. We found a trend that suggests students strategically learned what was expected to appear in the assessments at the expense of what was needed in practice. This is alarming in light of SDT’s claim that stimulation of controlled motivation through incentives (i.e., grades and qualifications) has a long-term deleterious effect on autonomous motivation.4,55 Only if educators pay attention to stimulating autonomous motivation for learning through assessments, will they be able to “light the fire of learning” instead of just “filling the bucket” for HPE students.13

추가 연구를 위한 시사점
Implications for further research

이 검토 결과는 자율적 동기를 자극하는 혁신적인 평가 설계에 대한 연구 프로그램을 개발하고 설계 기반 연구를 통해 이러한 평가가 어떻게 작동하는지, 그리고 프로그램 및 EPA 기반 평가가 학생 동기 부여에 미치는 영향을 조사하는 데 과학적 근거를 제공합니다. 
The results of this review provide a scientific basis for developing a research program on designing innovative assessments stimulating autonomous motivation and investigating how they work through design-based research and the effects of programmatic and EPA-based assessments on student motivation.

제한 사항
Limitations

이 검토는 HPE 문헌에 국한되었습니다. 고등 교육에서 평가가 동기 부여에 미치는 영향에 대한 광범위한 검토가 도움이 될 수 있습니다. 검토에서 각 연구의 엄격성과 관련성을 평가했지만, 이 평가를 사용하여 논문을 제외하지는 않았습니다. 그러나 이 접근 방식은 현실주의적 종합 방법과 잘 맞으며,20,24 혁신적인 평가 방법에 기여하는 모든 아이디어를 포함할 수 있습니다. 
This review was limited to the HPE literature. A broader review of the effect of assessments on motivation in higher education may be beneficial. Although we evaluated the rigor and relevance of each study in the review, we did not use this evaluation to exclude articles. This approach, however, fits well with the realist synthesis method,20,24 allowing us to include all ideas that contribute to innovative assessment methods.

결론
Conclusions

통제된 동기를 자극하는 평가 기능은 심리적 안녕감 저하와 같은 부정적인 결과를 초래하는 것으로 나타났습니다. 자율적 동기를 자극하는 평가 기능은 더 높은 노력과 창의성과 같은 긍정적인 결과를 가져오는 것으로 보였습니다. 연구 결과에 따르면 학생들은 실제로 필요한 것을 희생하면서까지 평가에 출제될 것으로 예상되는 내용을 전략적으로 학습하는 것으로 나타났습니다. 이러한 접근 방식은 스트레스와 부정적인 심리적 웰빙으로 이어집니다. 따라서 보건 전문직 교육자들은 평가 철학과 관행을 재고하고 콘텐츠에 대한 호기심과 진정한 관심을 자극하고 전문직 실무와 관련 있는 평가를 도입해야 합니다. 
Assessment features stimulating controlled motivation seemed to lead to negative consequences like decreased psychological well-being. Assessment features stimulating autonomous motivation seemed to lead to positive outcomes such as higher effort and creativity. Our findings indicate that students strategically learn what is expected to appear in assessments at the expense of what is needed in practice. This approach leads to stress and negative psychological well-being. Therefore, health professions educators urgently need to rethink their assessment philosophy and practices and introduce assessments that stimulate curiosity and genuine interest in the content and that are relevant to professional practice.

 


 

 

 

Acad Med. 2023 May 4;98(9):1083-1092. doi: 10.1097/ACM.0000000000005263. Online ahead of print.

 

 

The Effect of Assessments on Student Motivation for Learning and Its Outcomes in Health Professions Education: A Review and Realist Synthesis

Affiliations

1R.A. Kusurkar is professor and research programme leader, Research in Education, Amsterdam University Medical Centers location Vrije Universiteit Amsterdam, professor and research programme leader, LEARN! Research Institute for Learning and Education, Faculty of Psychology and Education, VU University Amsterdam, and professor and research programme leader, Amsterdam Public Health, Quality of Care, Amsterdam, the Netherlands; ORCID: http://orcid.org/0000-0002-9382-0379.

2C. Orsini is associate professor in medical education, Norwich Medical School, University of East Anglia, Norwich, United Kingdom, and Researcher in Health Professions Education, Faculty of Dentistry, Universidad de Los Andes, Santiago, Chile; ORCID: http://orcid.org/0000-0002-5226-3625.

3S. Somra was research assistant, Research in Education, Amsterdam University Medical Centers location Vrije Universiteit Amsterdam, Amsterdam, the Netherlands, at the time of this study.

4A.R. Artino Jr. is professor and associate dean for evaluation and educational research, School of Medicine & Health Sciences, George Washington University, Washington, DC; ORCID: http://orcid.org/0000-0003-2661-7853.

5H.E.M. Daelmans is director of the master of medicine programme, Faculty of Medicine Vrije Universiteit Amsterdam, Amsterdam, the Netherlands.

6L.J. Schoonmade is information specialist at the medical library, Vrije Universiteit Amsterdam, Amsterdam, the Netherlands; ORCID: https://orcid.org/0000-0002-2407-5977.

7C. van der Vleuten is professor, School of Health Professions Education, University of Maastricht, Maastricht, the Netherlands; ORCID: http://orcid.org/0000-0001-6802-3119.

PMID: 37146237

PMCID: PMC10453393

DOI: 10.1097/ACM.0000000000005263

Free PMC article

 

Abstract

Purpose: In health professions education (HPE) the effect of assessments on student motivation for learning and its consequences have been largely neglected. This is problematic because assessments can hamper motivation and psychological well-being. The research questions guiding this review were: How do assessments affect student motivation for learning in HPE? What outcomes does this lead to in which contexts?

Method: In October 2020, the authors searched PubMed, Embase, APA PsycInfo, ERIC, CINAHL, and Web of Science Core Collection for "assessments" AND "motivation" AND "health professions education/students." Empirical papers or literature reviews investigating the effect of assessments on student motivation for learning in HPE using quantitative, qualitative, or mixed methods from January 1, 2010-October 29, 2020, were included. The authors chose the realist synthesis method for data analysis to study the intended and unintended consequences of this complex topic. Assessments were identified as stimulating autonomous or controlled motivation using sensitizing concepts from self-determination theory and data on context-mechanism-outcome were extracted.

Results: Twenty-four of 15,291 articles were ultimately included. Assessments stimulating controlled motivation seemed to have negative outcomes. An example of an assessment that stimulates controlled motivation is one that focuses on factual knowledge (context), which encourages studying only for the assessment (mechanism) and results in surface learning (outcome). Assessments stimulating autonomous motivation seemed to have positive outcomes. An example of an assessment that stimulates autonomous motivation is one that is fun (context), which through active learning (mechanism) leads to higher effort and better connection with the material (outcome).

Conclusions: These findings indicate that students strategically learned what was expected to appear in assessments at the expense of what was needed in practice. Therefore, health professions educators should rethink their assessment philosophy and practices and introduce assessments that are relevant to professional practice and stimulate genuine interest in the content.

미국 의과대학생의 장애, 프로그램 접근성, 공감, 번아웃: 전국단위 연구(Med Educ, 2022)
Disability, program access, empathy and burnout in US medical students: A national study
Lisa M. Meeks1 | Karina Pereira-Lima2 | Melissa Plegue3 | Neera R. Jain4 | Erene Stergiopoulos5 | Catherine Stauffer6 |
Zoie Sheets7 | Bonnelin K. Swenor8 | Nichole Taylor9 | Amy N. Addams10 | Christopher J. Moreland11

 

1 서론
1 INTRODUCTION

의학교육에서 장애에 대한 이해를 높여야 할 필요성은 전 세계 장애인이 겪는 의료 격차에 대한 글로벌 보건 데이터1와 여러 국가의 의사들이 장애 환자에게 양질의 진료를 제공할 수 있는 능력에 대해 우려를 표명하는 연구 결과를 통해 입증되었습니다.2-5 이러한 필요를 해결하는 한 가지 메커니즘은 장애에 대한 일반적인 고정관념을 줄이면서 의학을 더 잘 알릴 수 있는 장애 의대생을 포용하고 지원하는 것입니다.6, 7 실제로 점점 더 많은 연구가 다양한 의료 인력이 모든 의사, 수련의, 환자에게 혜택을 줄 수 있다고 제안합니다.8-10 그러나 의학교육에서 장애 수련의가 직면하는 잠재적 기여와 과제에 대한 연구는 아직 부족합니다.11 
The need for a greater understanding of disability in medical education is evidenced by global health data on health care disparities encountered by people with disabilities worldwide1 and by research showing that physicians from different countries report concerns about their ability to provide quality care for disabled patients.2-5 One mechanism of addressing this need is through the inclusion and support of medical students with disabilities, who may better inform medicine while reducing prevailing stereotypes of disability.6, 7 Indeed, a growing body of research suggests that a more diverse medical workforce can benefit all physicians, trainees and patients.8-10 However, research on potential contributions and challenges faced by disabled trainees in medical education is still scarce.11

장애 환자는 학대,1,12,13 차별14-19 및 의사소통의 어려움17,20-24을 경험하는 비율이 높으며, 이는 장애 환자가 직면한 건강 불평등의 잠재적 원인으로 의료진의 공감 능력 저하를 지적합니다. 반대로, 일화 보고와 질적 연구에 따르면 장애를 가진 의사와 의대생이 의료계에 기여하는 가치 있는 기여 중 하나는 환자 치료에 접근하는 고도의 공감 능력입니다.25-30 실제로 선행 연구에 따르면 장애를 가진 환자와 그렇지 않은 환자 모두 장애를 가진 의사가 더 공감 능력이 뛰어나다고 생각하는 것으로 나타났습니다.31, 32 
Patients with disabilities encounter high rates of mistreatment,1, 12, 13 discrimination14-19 and communication difficulties17, 20-24 that point to diminished provider empathy as a potential contributor to health inequities faced by this population. Conversely, anecdotal reports and qualitative research suggest that one of the valuable contributions that physicians and medical students with disabilities bring to the medical workforce is the highly empathic way they approach patient care.25-30 Indeed, prior studies have found that patients with and without disabilities report believing that disabled physicians are more empathic.31, 32

문헌에는 의사의 공감에 대한 다양한 정의가 있지만, 주로 환자의 관점을 이해하고 존중하는 인지적 역량으로 정의되는 경우가 많습니다.33-36 의사의 공감은 다른 문화권의 환자들에게 높은 평가를 받고 있으며37 환자의 불안 감소, 환자 만족도 및 치료 순응도 증가, 더 나은 환자 결과와 관련이 있습니다33, 35, 38 그러나 공감은 의과대학 과정에서 감소할 수 있으며39-41 번아웃 수준은 증가하는 것으로 나타납니다.42 공감은 환자 치료를 개선하는 것으로 알려져 있지만, 소진은 전문성 저하,43 환자 만족도 감소44, 45 및 의료 오류 증가와 관련이 있습니다.46, 47 또한 선행 연구에 따르면 공감과 소진은 서로 연결되어 있으며, 의대생의 높은 소진 수준은 낮은 공감 점수와 관련이 있습니다.48, 49  
While the literature contains multiple definitions of physician empathy, it is most often defined as a predominately cognitive competency of understanding and respecting the patient perspective.33-36 Physician empathy is highly valued by patients from different cultures37 and has been associated with decreased patient anxiety, increased patient satisfaction and adherence to treatment, and better patient outcomes33, 35, 38 However, empathy may decline over the course of medical school,39-41 whereas levels of burnout appear to increase.42 While empathy is known to improve patient care, burnout is associated with lower professionalism,43 diminished patient satisfaction44, 45 and increased medical errors.46, 47 In addition, prior studies suggest that empathy and burnout are connected, with higher levels of burnout associated with lower empathy scores in medical students.48, 49

스스로 장애가 있다고 식별한 경우, 수련 중 상당한 구조적 장벽26, 29, 50, 51이 소진을 증가시키고, 이는 다시 공감 능력 저하로 이어질 수 있습니다. 실제로 선행 연구에 따르면 장애를 가진 학생들은 의과대학에서 더 높은 수준의 고통을 경험하며52, 장애를 경험한 의사가 의학교육에 더 많이 참여해야 한다는 전 세계적인 지지에도 불구하고 장애 수련의들은 의학교육에 동등하게 접근하지 못하고 있습니다.1, 26, 53, 54 의과대학 중퇴에 대한 생각과의 연관성을 고려할 때,55 장애 의대생들의 소진은 이들을 더 높은 이탈 위험에 처하게 하여 의학 분야에서 중요하지만 대표되지 않는 이 그룹의 대표성을 떨어뜨릴 수 있습니다. 마찬가지로, 소진과 공감 사이의 반비례 관계로 인해,48,49 장애 의대생이 보여준 높은 가치의 공감 능력이 이 집단의 소진 수준 증가로 인해 위협을 받을 수 있습니다. 현재까지 장애 의대생의 번아웃 및 공감 능력 약화와 관련된 잠재적 요인을 조사한 연구는 없습니다. 효과적이고 합리적인 편의시설에 대한 접근성 부족이 그러한 요인 중 하나입니다.  
For those who self-identify with a disability, substantial structural barriers during training26, 29, 50, 51 may contribute to increased burnout, which may, in turn, lead to decreased empathy. Indeed, prior research suggests that students with disabilities experience higher levels of distress during medical school52 and that disabled trainees are denied equal access to medical education despite global endorsements about the benefits of a larger representation of physicians with lived experience of disability.1, 26, 53, 54 Given its associations with thoughts of dropping out of medical school,55 burnout among medical students with disabilities may place them at higher risk for attrition, reducing the representation of this valuable and underrepresented group in medicine. Similarly, due to the inverse associations between burnout and empathy,48, 49 it is possible that the highly valued empathy demonstrated by disabled medical students could be threatened by increased levels of burnout in this population. To our knowledge, no studies have investigated potential factors associated with the development of burnout and erosion of empathy among medical students with disabilities. Lack of access to effective reasonable accommodations presents one such factor.

장애가 있는 학습자의 경우, 프로그램 접근성(접근성 요구가 이미 충족된 환경으로 인해 편의를 제공받거나 편의가 필요하지 않은 경우로 정의)은 웰빙 및 성과 결과 개선과 긍정적인 관련이 있는 것으로 나타났습니다. 특히, 1년차 레지던트를 대상으로 한 연구에 따르면

  • [장애를 스스로 보고하고 프로그램 접근성이 부족한 레지던트]는 장애가 없는 동료보다 인턴 기간 동안 우울 증상이 나타날 위험이 더 높았으며, 장애가 없는 레지던트와 프로그램 접근성이 있는 장애인 레지던트 모두보다 의료 과실을 스스로 보고할 가능성이 더 높은 것으로 나타났습니다.
  • 반대로 [장애와 프로그램 접근성을 스스로 보고한 레지던트]는 우울 증상이나 의료 오류 보고의 증가 측면에서 장애를 스스로 보고하지 않은 레지던트와 차이가 없었습니다.56

의료 전문가 학생과 수련의를 대상으로 한 또 다른 연구에서는 편의 제공에 대한 만족도가 높을수록 우울증 위험에 대해 양성 판정을 받을 가능성이 낮아지고, 일부의 경우 취업 가능성이 높아지는 것과 관련이 있었습니다.57 필요한 합리적인 편의에 대한 접근성 부족은 장애 의대생의 표준화된 시험 점수 저하 및 학생 진급 지연과도 관련이 있습니다.58, 59 
For learners with disability, program access, defined as access to accommodations or not needing accommodations due to an environment where access needs are already met,56 has been positively associated with improved well-being and performance outcomes. Specifically, a study of first-year medical residents demonstrated that

  • residents with self-reported disability and lack of program access were at a higher risk for developing depressive symptoms during internship than their peers without disabilities and were more likely to self-report medical errors than both residents without disabilities and disabled residents with program access.
  • Conversely, residents who self-reported disability and program access did not differ from residents without self-reported disabilities in terms of increase in depressive symptoms or reports of medical errors.56 

In another study of health care professional students and trainees, higher satisfaction with accommodations was associated with lower likelihood of screening positive for the risk of depression and, for a subset, increased likelihood of obtaining employment.57 Lack of access to needed reasonable accommodations has also been associated with lower scores in standardised exams and delayed student progression among medical students with disabilities.58, 59

장애를 가진 의사는 건강 형평성 증진을 위한 다각적인 접근 방식에서 중요한 부분을 차지할 수 있지만, 장애를 가진 의대생의 공감 능력과 소진 정도를 조사하는 연구는 부족합니다. 이 데이터를 체계적으로 평가하면 장애 학생의 경험을 보다 미묘하게 이해하고 추가 지원의 잠재적 필요성을 발견할 수 있습니다. 또한 프로그램 접근성이 장애 수련의의 복지 및 성과와 밀접하게 연관되어 있다는 이전의 증거와56-59 국제 권고안에서 장애 접근성을 강조하는 점을 고려할 때,1, 26, 53, 54 [프로그램 접근성, 소진, 공감, 자가 보고 장애 사이의 연관성에 대한 연구]는 다양하고 소중한 인구의 복지와 성과를 더 잘 지원하기 위한 가능한 개입 대상을 식별할 수 있는 잠재력을 가지고 있습니다. 
While physicians with disabilities may be a critical part of a multifaceted approach to advancing health equity, there is a dearth of research that examines empathy and burnout measures for medical students with disabilities. Systematically assessing this data will allow for a more nuanced understanding of the experiences of students with disabilities and uncover the potential need for additional support. In addition, given prior evidence that program access is closely linked with the wellbeing and performance of disabled trainees,56-59 and the emphasis on disability access across international recommendations,1, 26, 53, 54 research on the associations between program access, burnout, empathy and self-reported disabilities has the potential to identify possible targets of intervention to better support the well-being and performance of this diverse and valued population.

이 연구는 [장애를 스스로 밝힌 의대생]과 [장애가 없는 의대생]의 소진 및 공감 지표를 비교하고, 미국 의대생의 두 국가 코호트에서 스스로 밝힌 장애와 보고된 프로그램 접근성 부족이 공감 및 소진 측정과 관련이 있는지 조사하여 장애 의대생의 웰빙과 공감에 관한 문헌의 격차를 해소하는 것을 목표로 했습니다. 
This study aimed to characterise indicators of burnout and empathy among medical students with self-disclosed disabilities, compared with those without disabilities, and to investigate whether self-disclosed disability and reported lack of program access are associated with measures of empathy and burnout in two national cohorts of US medical students, addressing the gap in literature about the well-being and empathy among medical students with disabilities.

2 연구 방법
2 METHODS

2.1 연구 환경 및 참여자
2.1 Study setting and participants

우리는 미국 의과대학협회(AAMC)의 2학년 설문조사(Y2Q)에 응답한 의과대학 2학년 학생 두 코호트(2019년과 2020년)로부터 비식별화된 데이터를 확보했습니다. Y2Q는 미국 동종요법 의과대학에 재학 중인 모든 2학년 의대생을 대상으로 매년 실시하는 익명의 온라인 설문조사입니다. 전체 데이터 세트에는 2개 연도 코호트의 의대생 27,009명(2019년 코호트의 경우 151개 의대 13,967명, 2020년 코호트의 경우 153개 의대 13,042명, 2019년[21,917명] 및 2020년[22,138명] 적격 의대생 수 기준 전체 응답률 61.3%)이 포함되었습니다. 이 중 2만 3,898명(88.5%)이 '귀하는 장애(예: ADHD, 학습, 심리, 만성 건강, 이동, 청각, 시각 등)가 있습니까'라는 질문에 예 또는 아니오로 응답하여 분석에 포함되었습니다(496명[1.8%]은 '모름'이라고 응답하여 제외됨). 최종 표본은 2019년과 2020년 미국 의대 2학년 학생의 54.2%를 차지합니다. 수집된 데이터에는 인구통계학적 특성(성별, 연령대, 성적 지향, 인종/민족, 코호트 연도 등), 장애 관련 질문과 함께 개인 관련 변수, 학습 환경, 소진 및 공감에 대한 측정이 포함되었습니다. 모든 데이터는 의대생이나 의과대학에 대한 식별 정보 없이 인구 수준에서 수집되었기 때문에 이 연구는 콜로라도대학교 의과대학 기관윤리심의위원회에서 면제된 것으로 간주되었으며, 역학 관찰 연구 보고 강화(STROBE) 보고 가이드라인을 따랐습니다.  
We obtained de-identified data from two cohorts (2019 and 2020) of second-year medical students who replied to the Association of American Medical Colleges (AAMC) Year 2 Questionnaires (Y2Q). The Y2Q is an anonymous online survey that is administered annually to all second-year medical students actively enrolled in US-allopathic medical schools. The complete dataset included 27 009 medical students from two yearly cohorts (13 967 from 151 medical schools for the 2019 cohort and 13 042 from 153 medical schools for the 2020 cohort; overall response rate of 61.3% based on the number of eligible second-year medical students in 2019 [21 917] and 2020 [22 138]). Of those, 23 898 (88.5%) provided a yes or no response to the question ‘Are you a person with a disability (e.g., ADHD, learning, psychological, chronic health, mobility, hearing, vision, etc.)?’ and were included in the analyses (496 [1.8%] replied ‘I don't know’ and were excluded). The final sample represents 54.2% of second-year US medical students in 2019 and 2020. Obtained data included demographic characteristics (i.e. sex, age group, sexual orientation, race/ethnicity and cohort year), disability-related questions, along with measures of personal-related variables, learning environment, burnout and empathy. Given that all data were obtained on a population-level without any identifying information about medical students or their medical schools, the study was deemed exempt by the University of Colorado Medical School Institutional Review Board and followed the Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) reporting guideline.

2.2 조치
2.2 Measures

2.2.1 장애 관련 질문
2.2.1 Disability-related questions

장애 상태 및 유형
Disability status and type

의대생의 장애 상태'장애(예: ADHD, 학습, 심리, 만성 건강, 이동성, 청각, 시각 등)가 있는 사람입니까?"라는 질문에 대한 응답을 통해 평가되었습니다. 장애 상태 질문에 대한 가능한 응답에는 '예', '아니오' 또는 '모르겠다'가 포함되었습니다. 장애 유형'다음 중 귀하의 장애를 가장 잘 설명하는 것은 무엇입니까?"라는 질문을 사용하여 결정되었습니다. 장애 유형이 두 가지 이상인 경우 해당되는 항목을 모두 선택하세요'. 이 질문에는 '주의력 결핍/과잉 행동 장애(ADHD)', '만성 건강 장애', '청각 장애 또는 난청', '학습 장애', '이동 장애', '심리적 장애', '시각 장애' 또는 '기타' 등의 응답이 가능했습니다. 
Medical students' disability status was assessed through their responses to the question ‘Are you a person with a disability (e.g., ADHD, learning, psychological, chronic health, mobility, hearing, vision, etc.)?’ Possible responses to the disability-status question included ‘yes’, ‘no’, or ‘I don't know’. Disability type was determined using the question ‘Which of the following best describes your disability? If you have more than one type, select all that apply’. Available responses to this question included ‘attention deficit/hyperactivity disorder (ADHD)’, ‘chronic health disability’, ‘deaf or hard of hearing’, ‘learning disability’, ‘mobility disability’, ‘psychological disability’, ‘visual disability’ or ‘other’.

프로그램 접근성
Program access

장애가 있는 학생에게 의과대학에서 장애에 대한 편의를 제공했는지 여부를 물었습니다(예/아니오). '아니오'라고 답한 응답자에게는 "다음 중 의과대학에서 편의를 제공하지 않았거나 제공하지 않은 이유를 가장 잘 설명하는 것은 무엇입니까?"라는 추가 질문이 주어졌습니다. 응답은 다음과 같습니다: '편의 요청이 거부됨', '편의 요청이 검토 중임', '편의가 필요하지 않다고 생각하여 편의 요청을 하지 않음', '기타 이유로 편의 요청을 하지 않음'. 이전 연구56, 60에 따라 프로그램 접근성을 코딩하여 편의를 제공받았거나 편의가 필요하지 않다고 응답한 학생을 포함했습니다. 그 외의 모든 응답은 프로그램 접근성 부족으로 코딩했습니다.
Students with disabilities were asked whether their medical school provided accommodations for their disabilities (yes/no). Those who replied ‘no’ were further asked the question ‘Which of the following best describes why your medical school did not or has not provided accommodations?’ Responses included: ‘my request for accommodations was denied’, ‘my request for accommodations is under review’, ‘I have not requested accommodations because I feel I do not need accommodations’ and ‘I have not requested accommodations for other reasons’. In keeping with previous studies,56, 60 we coded program access to include students reporting receiving accommodations or not needing accommodations. All other responses were coded as lack of program access.

2.2.2 번아웃
2.2.2 Burnout

번아웃 증상은 의대생용 올덴버그 번아웃 인벤토리(OLBI-MS)61,62 를 사용하여 측정하였는데, 이는 Oldenburg 번아웃 인벤토리(OLBI)를 수정 및 단축한 버전입니다.61 OLBI-MS는 번아웃의 두 가지 차원인 탈진(8개 항목, 본 연구 표본에서 크론바흐 알파 = 0.8)과 이완(8개 항목, 본 연구 표본에서 크론바흐 알파 = 0.8)을 측정하는 16개 항목으로 구성됩니다. Demerouti와 Bakker에 따르면,61 소진은 '격렬한 신체적, 정서적, 인지적 긴장의 결과, 즉 특정 직무 요구에 장기간 노출된 장기적인 결과'로 정의되며, OLBI의 disengagement 항목은 개인과 업무의 관계, 특히 '업무와의 동일시 및 같은 직업을 계속할 의지와 관련하여'61 개인과 업무의 관계에 관한 것입니다.62 OLBI의 의대생 버전(OLBI-MS)에서는 모든 항목에서 '업무'라는 단어를 '학습'로 대체합니다. 각 하위 척도는 0-3점 척도로 측정되는 각 항목의 합산으로 계산됩니다. 점수가 높을수록 번아웃 수준이 높음을 나타냅니다. 전체 의대생 인구의 번아웃 수준이 높고,42 심리측정 특성이 우수함에도 불구하고 OLBI가 번아웃에 대한 임상적 컷오프를 제공하지 않는다는 점을 감안하여,63 Y2Q에 응시한 전체 의대생 표본에 대한 특정 하위 그룹 점수 범위에 임상적 의미를 부여하기 위해 사분위수를 사용했습니다. 따라서 의료 전문가64 및 의대생의 소진을 평가하기 위해 OLBI 및 OLBI-MS를 사용한 선행 연구의 절차에 따라,65 각 OLBI-MS 하위 척도에서 학생들의 점수는 75번째 백분위수 이상에서 높은 것으로 분류되었습니다(즉, 전체 Y2Q 표본에서 높은 탈진 14 이상, 높은 몰입도 12 이상 [N = 27 009]). 
Burnout symptoms were measured using the Oldenburg Burnout Inventory for Medical Students (OLBI-MS),61, 62 which is a modified and shortened version of the Oldenburg Burnout Inventory (OLBI).61 The OLBI-MS consists of 16 items measuring two dimensions of burnout—exhaustion (8 items, Cronbach's alpha = 0.8 in the present study sample) and disengagement (8 items, Cronbach's alpha = 0.8 in the present study sample). According to Demerouti and Bakker,61 exhaustion is defined as ‘a consequence of intense physical, affective and cognitive strain, i.e. as a long-term consequence of prolonged exposure to certain job demands’, and the disengagement items from the OLBI concern the relationship of individuals with their work, ‘particularly with respect to identification with work and willingness to continue in the same occupation’.61 In the medical student version (OLBI-MS) of the OLBI, the word ‘work’ is substituted by ‘studies’ on every item.62 Each subscale is calculated by summing across its items, which are measured on a 0–3 point scale. Higher scores indicate higher levels of burnout. Given the high levels of burnout among the overall population of medical students,42 and that despite having good psychometric properties, the OLBI does not provide clinical cutoffs for burnout,63 quartiles were used to provide clinical meaning to the ranges of specific subgroup scores relative to the total sample of medical students who took the Y2Q. Therefore, following the procedures of prior studies that used the OLBI and OLBI-MS to assess burnout among health professionals64 and medical students,65 students' scores in each OLBI-MS subscale were categorised as high at the 75th percentile and above (i.e. high exhaustion ≥ 14 and high disengagement ≥ 12 in the complete Y2Q sample [N = 27 009]).

2.2.3 공감
2.2.3 Empathy

공감은 대인관계 반응성 지수(IRI)의 관점 취하기 및 공감적 관심 하위 척도에서 파생된 8개 항목을 사용하여 측정했습니다.66, 67 IRI 점수는 0-4점 척도로 측정되는 8개 항목의 합산으로 계산됩니다. 가능한 점수 범위는 0~32점이며, 점수가 높을수록 공감 수준이 높음을 나타냅니다. 본 연구에서 IRI의 크론바흐 알파는 0.8이었습니다. 공감 능력의 저하가 환자 치료 결과의 저하와 관련이 있다는 점을 감안하여, 의대생 전체 인구와 비교하여 자가 보고 장애가 낮은 공감 능력과 관련이 있는지 평가하기 위해 전체 Y2Q 표본에서 25번째 백분위수 이하의 IRI 점수(IRI ≤ 22)를 낮은 공감 능력으로 분류했습니다. 
Empathy was measured using eight items derived from the perspective taking and empathic concern subscales of the Interpersonal Reactivity Index (IRI).66, 67 The IRI scores are calculated by summing across the 8 items, which are measured on a 0–4 point scale. The possible range of scores is 0–32, with higher scores indicating higher levels of empathy. The Cronbach's alpha for the IRI in the present study was 0.8. Given that reduced empathy is associated with poorer patient care outcomes, IRI scores at the 25th percentile or below in the complete Y2Q sample (IRI ≤ 22) were categorised as low empathy in order to assess whether self-reported disability is associated with a higher or lower risk of presenting low empathy in relation to the overall population of medical students.

2.2.4 개인 관련 조치
2.2.4 Personal-related measures

모호성에 대한 내성은 7항목으로 구성된 모호성에 대한 내성 척도(TFA)를 사용하여 측정했습니다.68 TFA는 불확실한 상황에 대처하는 개인의 능력을 측정하기 위해 고안되었으며 1~6점 척도로 측정되는 7가지 항목으로 구성되어 있습니다. TFA 점수는 7개 항목의 점수를 모두 합산하여 계산되며, 총점 범위는 7-42점입니다. TFA 점수가 높을수록 모호성에 대한 내성이 높다는 것을 의미합니다. 본 연구 샘플의 TFA에 대한 크론바흐 알파는 0.8이었습니다.
Tolerance for ambiguity was measured using the 7-item Tolerance for Ambiguity Scale (TFA).68 The TFA is designed to measure the individual's ability to cope with situations of uncertainty and includes seven items measured on a 1–6 point scale. TFA scores are calculated by summing scores across all seven items, with a possible total score range of 7–42. Higher scores on the TFA indicate higher tolerance for ambiguity. The Cronbach's alpha for TFA in the present study sample was 0.8.

현재 인식하는 삶의 질에 대한 결과를 통제하기 위해 전반적인 삶의 질, 정신적, 육체적, 정서적, 사회적, 영적 웰빙 등 삶의 6가지 측면에 대한 응답자의 인식을 측정하는 6항목 선형 아날로그 자기 평가 척도(LASA-6)를 포함시켰습니다. LASA-6 점수는 0~10점 척도로 평가되는 각 항목의 점수를 합산하여 계산됩니다(본 연구 표본의 경우 크론바흐 알파 = 0.9). 총 점수의 가능한 범위는 0-60점이며, 점수가 높을수록 삶의 질이 높다는 것을 나타냅니다.
To control the results for current perceived quality of life, we included the 6-item Linear Analogue Self-Assessment Scale (LASA-6), which measures respondents' perceptions about the following six aspects of life: overall quality of life, mental, physical, emotional, social and spiritual well-being. LASA-6 scores are calculated by summing across its items, which are rated on a 0–10 point scale (Cronbach's alpha = 0.9 in the present study sample). The possible range of the total score is 0–60, with higher scores indicating higher perceived quality of life.

2.2.5 학습 환경 측정
2.2.5 Learning environment measures

학습 환경에 대한 학생들의 인식은 의과대학 학습 환경 설문조사(MSLES)를 통해 측정되었습니다.69 MSLES는 정서적 분위기(3개 항목), 교수 상호작용(4개 항목), 학생-학생 상호작용(4개 항목) 등 학습 환경의 세 가지 차원을 측정하는 11개 항목으로 구성되어 있습니다. 각 하위 척도는 0~5점 척도로 측정되는 개별 항목의 합산으로 계산됩니다. MSLES 하위 척도의 점수가 높을수록 학습 환경에 대해 더 긍정적으로 인식하고 있음을 나타냅니다. MSLES 하위 척도의 크론바흐 알파 값은 정서적 분위기에서 0.9, 교수진 상호작용에서 0.8, 학생-학생 상호작용에서 0.8이었습니다.
Students' perceptions regarding their learning environment were measured through the Medical School Learning Environment Survey (MSLES).69 The MSLES consists of 11 items measuring three dimensions of the learning environment: emotional climate (3 items), faculty interactions (4 items) and student–student interactions (4 items). Each subscale is calculated by summing across the individual items, which are measured on a 0–5 point scale. Higher scores on MSLES subscales indicate a more positive perception of the learning environment. Cronbach's alpha values for the MSLES subscales were 0.9 for emotional climate, 0.8 for faculty interactions and 0.8 for student–student interactions.

2.3 통계 분석
2.3 Statistical analyses

2.3.1 장애 상태, 공감 및 번아웃 간의 연관성
2.3.1 Associations between disability status, empathy and burnout

전체 샘플에 대한 기술 요약 통계를 계산하고 장애 상태(즉, 장애가 있는 학생과 없는 학생)에 따라 계층화했습니다. 장애 학생과 비장애 학생 간의 인구통계학적 특성의 차이는 카이제곱 테스트를 사용하여 평가했습니다. 성별, 성적 지향, 연령대, 인종/민족, 코호트 연도, TFA 점수, LASA-6 점수, MSLES 하위 척도 점수 등 인구통계학적, 개인 관련 및 학습 환경 공변수를 고려한 조정되지 않은 오즈비(OR)와 다변량 로지스틱 회귀 모델을 사용하여 장애 유무와 높은 소진, 높은 참여도 및 낮은 공감 지표 간의 연관성을 조사했습니다. 이전 연구에 따르면 높은 소진이 공감에 해롭다는 사실이 밝혀졌기 때문에,41, 48, 70, 71 낮은 공감에 대한 다변량 모델에는 높은 소진높은 참여도도 독립 공변량으로 포함되었습니다. 또한 장애 상태, 공감, 소진 사이의 관찰된 연관성에서 특정 장애 유형이 미치는 영향에 대한 통찰력을 얻기 위해 높은 소진, 높은 참여도, 낮은 공감의 다변량 모델에서 각 개별 장애 유형을 순차적으로 제외하여 민감도 분석을 수행했습니다. 
We calculated descriptive summary statistics for the overall sample and stratified by disability status (i.e. students with and without disabilities). Differences in demographic characteristics among students with and without disabilities were assessed using chi-squared tests. We examined for the associations between the presence of disabilities and indicators of high exhaustion, high disengagement and low empathy using unadjusted odds ratio (OR) and multivariable logistic regression models accounting for the following demographic, personal-related and learning environment covariates: sex, sexual orientation, age group, race/ethnicity, cohort year, TFA score, LASA-6 score and MSLES subscale scores. Because previous studies suggest that high burnout is detrimental to empathy,41, 48, 70, 71 multivariable models for low empathy also included high exhaustion and high disengagement as independent covariates. Additionally, to gain insight into the influence of specific types of disability in any observed associations between disability status, empathy and burnout, we performed sensitivity analyses by serially excluding each individual disability type from our multivariable models of high exhaustion, high disengagement, and low empathy.

2.3.2 프로그램 접근, 공감, 소진 사이의 연관성 분석
2.3.2 Associations between program access, empathy and burnout


의대생의 소진 및 공감 지표와 프로그램 접근성 간의 연관성을 확인하기 위해 2단계 2차 분석을 실시했습니다: 먼저, 조정되지 않은 OR을 사용하여 장애가 보고된 학생의 하위 집합 내에서 프로그램 접근성 부족과 높은 소진, 높은 참여도 및 낮은 공감 지표의 존재 사이의 연관성을 조사했습니다. 그 후, 인구통계학적, 개인 관련, 학습 환경 및 소진 측정을 고려하면서 높은 소진, 높은 참여도, 낮은 공감도 지표가 장애 상태 및 프로그램 접근과 관련이 있는지 여부를 조사하는 다변량 로지스틱 분석을 수행했습니다. 번아웃 측정치는 공감에 대한 다변량 모델에서 독립 공변량으로만 포함되었습니다. 
To identify possible associations of program access with indicators of burnout and empathy among medical students, we performed a two-step secondary analysis: First, we examined for associations between lack of program access with the presence of indicators of high exhaustion, high disengagement and low empathy within the subset of students with reported disabilities using unadjusted OR. Subsequently, we performed multivariable logistic analyses examining whether indicators of high exhaustion, high disengagement and low empathy associated with disability status and program access while accounting for demographic, personal-related, learning environment and burnout measures. Burnout measures were only included as independent covariates in multivariable models for empathy.

모든 통계 분석에서 양변량 p < .05는 통계적으로 유의미한 것으로 간주되었습니다. 모든 분석은 SPSS-21(IBM Corp)을 사용하여 수행되었습니다. 
A two-sided p < .05 was considered statistically significant for all statistical analyses. All analyses were conducted using SPSS–21 (IBM Corp).

3 결과
3 FINDINGS

본 연구에 포함된 2학년 의대생 2만 3,898명(2019년과 2020년 미국 의대생 2학년의 54.2%) 중 2438명(10.2%)이 장애가 있다고 스스로 밝혔습니다. 장애를 보고하지 않은 학생에 비해 장애가 있는 학생은 여성(χ2 = 8.1, df = 1, p = .004), 나이가 많거나(χ2 = 212.5, df = 1, p < . 0001), 레즈비언, 게이 또는 양성애자(χ2 = 353.9, p < .0001), 의학계에서 소외된 인종 및 민족 그룹(χ2 = 31.9, df = 1, p < .0001) 및 2020년 코호트(χ2 = 12.8, df = 1, p < .0001) 출신일 가능성이 높았습니다(표 1). 
Of the 23 898 second-year medical students included in the present study (54.2% of second-year US medical students in 2019 and 2020), 2438 (10.2%) self-identified as having a disability. Compared with students who did not report a disability, students with disabilities were more likely to be women (χ2 = 8.1, df = 1, p = .004), older (χ2 = 212.5, df = 1, p < .0001), lesbian, gay or bisexual (χ2 = 353.9, p < .0001), from racial and ethnical groups underrepresented in medicine (χ2 = 31.9, df = 1, p < .0001) and from the 2020 cohort (χ2 = 12.8, df = 1, p < .0001) (Table 1).

 

3.1 장애를 보고한 학생과 보고하지 않은 학생의 소진 및 공감 능력
3.1 Burnout and empathy among students with and without reported disabilities

장애를 보고한 학생은 장애가 없는 학생에 비해 높은 소진(1181명 [49.3%] 대 6433명 [30.6%], OR 2.21 [95% CI, 2.01-2.40])과 높은 이탈disengagement (979명 [40.7%] 대 6291명 [29.9%], OR 2.21 [95% CI, 2.01-2.40])를 보고할 가능성이 훨씬 더 높았습니다(장애가 없는 학생에 비해 장애를 보고한 학생의 소진 점수가 유의하게 높았음). 공감 점수의 경우, 장애가 없는 동료보다 장애가 있는 동료가 낮은 공감을 나타낼 가능성이 현저히 낮았습니다(608 [25.5%] 대 6531 [31.1%], OR 0.76, 95% CI [0.69-0.83]). 
Compared with students without disabilities, students who reported disabilities were significantly more likely to report high exhaustion (1181 [49.3%] vs. 6433 [30.6%], OR 2.21 [95% CI, 2.01–2.40]) and high disengagement (979 [40.7%] vs. 6291 [29.9%], OR 2.21 [95% CI, 2.01–2.40]). With respect to empathy scores, SWD were significantly less likely to present low empathy than their colleagues without disabilities (608 [25.5%] vs. 6531 [31.1%], OR 0.76, 95% CI [0.69–0.83]).


인구통계학적, 개인 관련 및 학습 환경 특성을 고려한 다변량 모델에서 스스로 보고한 장애의 존재는 높은 소진(OR 1.60 [95% CI, 1.43-1.79]) 및 높은 이탈(OR 1.11 [95% CI, 1.001-1.24])의 확률을 높이고, 낮은 공감(OR .74 [95% CI, 0.66-0.82]) 확률을 낮추는 것과 유의미한 연관성을 보였습니다(표 2). 다변량 모델에서 개별 장애 유형을 순차적으로 제외민감도 분석 결과, 장애 학생은 단일 장애 유형을 제거하더라도 높은 소진(1.42 [95% CI, 1.21-1.67] ~ 1.63 [95% CI, 1.44-1.83]) 확률이 유의하게 높았고 낮은 공감(.65 [95% CI 0.55-0.76] ~ 0.80 [95% CI, 0.71-0.90]) 확률은 유의하게 낮은 것으로 나타났습니다. 이와는 달리, 다변량 모델에서 만성 건강, 청각 또는 심리적 장애가 있는 학생을 제거했을 때 장애가 있는 학생의 높은 이탈disengagement 확률이 더 이상 높지 않았습니다(1.09 [95% CI, 0.97-1.23]에서 1.19 [95% CI, 1.02-1.40])(그림 S1). 

In multivariable models accounting for demographic, personal-related and learning environment characteristics, the presence of a self-reported disability was significantly associated with increased odds of high exhaustion (OR 1.60 [95% CI, 1.43–1.79]) and high disengagement (OR 1.11 [95% CI, 1.001–1.24]) and lower odds of presenting low empathy (OR .74 [95% CI, 0.66–0.82]) (Table 2). Sensitivity analyses serially excluding each individual disability type from multivariable models demonstrated that disabled students continued to present significantly higher odds for high exhaustion (from 1.42 [95% CI, 1.21–1.67] to 1.63 [95% CI, 1.44–1.83]) and significantly lower odds for low empathy (from .65 [95% CI 0.55–0.76] to 0.80 [95% CI, 0.71–0.90]) regardless the removal of any single disability type. Differently, students with disability were no longer more likely to present higher odds for high disengagement when either students with chronic health, hearing or psychological disabilities were removed from multivariable models (from 1.09 [95% CI, 0.97–1.23] to 1.19 [95% CI, 1.02–1.40]) (Figure S1).

 

3.2 프로그램 접근과 소진 및 공감 지표의 연관성
3.2 Associations of program access with indicators of burnout and empathy

프로그램 접근성이 있는 SWD와 비교했을 때, 프로그램 접근성이 없다고 답한 SWD는 높은 소진(229 [67.4%] 대 931 [46.4%], OR 2.39, 95% CI [1.87-3.04]) 및 높은 이탈(193 [56.4%] 대 771 [38.4%], OR 2.08, 95% CI [1.65-2.63])를 보일 가능성이 유의미하게 높았습니다. 반면, 낮은 공감과 프로그램 접근성 부족 사이에는 유의미한 연관성이 확인되지 않았습니다(93 [27.5%] 대 505 [25.3%], OR 1.12, 95% CI [0.86-1.45])(그림 1). 

Compared with SWD with program access, SWD who reported not having program access were significantly more likely to present high exhaustion (229 [67.4%] vs. 931 [46.4%], OR 2.39, 95% CI [1.87–3.04]) and high disengagement (193 [56.4%] vs. 771 [38.4%], OR 2.08, 95% CI [1.65–2.63]). In contrast, no significant associations were identified between low empathy and lack of program access among SWD (93 [27.5%] vs. 505 [25.3%], OR 1.12, 95% CI [0.86–1.45]) (Figure 1).

인구통계학적, 개인 관련 및 학습 환경 공변량을 고려한 다변량 모델에서 장애 학생은 프로그램 접근 여부에 관계없이 장애가 없는 학생보다 높은 소진 지표를 나타낼 가능성이 더 높았습니다(접근 요구 충족, OR 1.50 [95% CI, 1.34-1.69]; 접근 부족 OR 2.59 [95% CI, 1.93-3.49]). 또한, 프로그램 접근이 가능한 장애 학생은 프로그램 접근이 부족한 학생보다 높은 소진 증상을 보일 가능성이 낮았습니다(프로그램 접근이 가능한 장애 학생과 그렇지 않은 학생 비교, OR 0.58 [95% CI, 0.42-0.79]). 반면, 프로그램 접근성이 부족하다고 보고한 장애 학생은 비장애 학생보다 높은 소진 지표를 나타낼 가능성이 훨씬 더 높았지만(OR 1.43 [95% CI, 1.09-1.87]), 프로그램 접근성이 있는 SWD는 그렇지 않았습니다(OR 1.09 [95% CI, 0.97-1.22]). 유의하지는 않았지만, 프로그램 접근 권한이 있는 SWD는 프로그램 접근 권한이 없는 SWD보다 높은 참여도를 보일 가능성이 낮은 경향을 보였습니다(OR 0.76 [95% CI, 0.57-1.01]; p = .06). 공감과 관련하여, 두 그룹 모두 장애가 없는 또래보다 낮은 공감 지표를 나타낼 가능성이 낮았습니다(접근 요구 충족, OR 0.75 [95% CI, 0.67-0.85]; 접근 부족, OR 0.68 [95% CI, 0.52-0.90]). 프로그램 액세스가 있는 경우와 없는 경우의 낮은 공감 확률에 유의미한 차이가 없었기 때문에 프로그램 액세스는 공감에 영향을 미치지 않는 것으로 나타났습니다(OR 1.10 [95% CI, 0.82-1.48])(표 3).

In multivariable models accounting for demographic, personal-related and learning environment covariates, disabled students were more likely to present indicators of high exhaustion than students without disabilities regardless of program access (access needs met, OR 1.50 [95% CI, 1.34–1.69]; lack of access OR 2.59 [95% CI, 1.93–3.49]). Further, SWD with program access were less likely to present high exhaustion than their counterparts reporting lack of program access (SWD with program access vs. without, OR 0.58 [95% CI, 0.42–0.79]). In contrast, whereas students with disabilities reporting lack of program access were significantly more likely than students without disabilities to present indicators of high disengagement (OR 1.43 [95% CI, 1.09–1.87]), SWD with program access were not (OR 1.09 [95% CI, 0.97–1.22]). Although not significant, SWD with program access showed a tendency towards being less likely to present high disengagement than SWD without program access (OR 0.76 [95% CI, 0.57–1.01]; p = .06). With respect to empathy, both groups of SWD were less likely than their peers without disabilities to present indicators of low empathy (access needs met, OR 0.75 [95% CI, 0.67–0.85]; lack of access, OR 0.68 [95% CI, 0.52–0.90]). Program access did not seem to impact empathy as there was not a significant difference in low empathy odds between SWD with and without access (OR 1.10 [95% CI, 0.82–1.48]) (Table 3).

 

4 토론
4 DISCUSSION

저희가 아는 한, 의대생들의 공감 능력, 소진, 프로그램 접근성, 장애 사이의 연관성을 체계적으로 조사한 연구는 이번이 처음입니다. 미국 의대생의 전국 표본 데이터를 사용하여 장애 학생의 번아웃 증상 빈도가 높음에도 불구하고, 장애 학생이 비장애 학생에 비해 공감 능력이 낮을 가능성이 유의하게 낮다는 사실을 확인했습니다. 중요한 점은 프로그램 접근성을 고려한 후에도 [프로그램 접근성이 있는 장애 학생]은 [비장애 학생]과 높은 이탈 측면에서 차이가 없었으며, 프로그램 접근성과 관계없이 공감도가 낮다고 보고하지 않았다는 점입니다. 이러한 데이터는 이 집단이 공감 능력이 뛰어난 인력과의 관련성을 강조하고 장애 의대생의 복지와 유지를 위해 프로그램 접근성이 중요한 역할을 한다는 점을 강조합니다. 
To our knowledge, this is the first study to systematically investigate the association between empathy, burnout, program access and disability among medical students. With the use of data from a national sample of US medical students, we identified that despite the high frequency of burnout symptoms among disabled students, this population was significantly less likely to present low empathy than their peers without disabilities. Importantly, after accounting for program access, disabled students who had program access did not differ from students without disabilities in terms of high disengagement and did not report low empathy regardless of program access. These data highlight the relevance of this population to a more empathic workforce and underscore the critical role of program access to the well-being and retention of medical students with disabilities.

이전 연구에 따르면 공감 점수가 높을수록 인구통계학적 요인(예: 여성 성별,39, 72-74 고령,72, 73 소외된 인종/민족75 및 성적 소수자76), 모호성에 대한 높은 내성,77 더 나은 삶의 질,74 학습 환경에 대한 더 긍정적인 인식72 및 낮은 참여도72, 74, 78, 79 우리의 연구 결과는 장애와 높은 공감 사이의 연관성이 의대생의 공감과 관련된 이러한 잘 알려진 요인들을 고려한 후에도 지속된다는 사실을 입증함으로써 문헌에 추가되었습니다. 특히 프로그램 접근성을 고려한 다변량 모델에서는 프로그램 접근성이 있는 장애 학생과 없는 장애 학생 모두 비장애 학생에 비해 공감 능력이 낮을 가능성이 적었으며, 이는 프로그램 접근성이 제공되지 않는 상황에서도 공감 능력이 유지된다는 것을 시사합니다. 이러한 결과를 종합해 볼 때, 장애에 대한 생생한 경험이 장애 의대생의 공감 능력을 향상시키는 강력한 보호 요인이 될 수 있음을 시사합니다. 
Prior studies demonstrate that higher empathy scores are associated with demographic factors (e.g. female sex,39, 72-74 older age,72, 73 underrepresented race/ethnicity75 and sexual minorities76), higher tolerance for ambiguity,77 better quality of life,74 more positive perceptions of the learning environment72 and lower disengagement.72, 74, 78, 79 Our study results add to the literature by demonstrating that the associations between disability and higher empathy persisted even after accounting for these well-established factors associated with empathy among medical students. Notably, multivariable models accounting for program access identified that both disabled students with and without program access were less likely to present low empathy than their peers without disabilities, suggesting that even in situations where program access is not provided, empathy remains preserved. Taken together, these results suggest that lived experience of disability25, 26, 28 may be a robust protective factor, leading to increased empathy among medical students with disabilities.

수련 의사를 대상으로 한 최근 연구에 따르면 프로그램 접근성이 장애 학습자의 웰빙과 성과에 매우 중요하다고 합니다.56, 58 본 연구 결과는 프로그램 접근성이 장애 의대생의 낮은 소진 및 낮은 이탈과 관련이 있으며, 장애와 프로그램 접근성을 스스로 보고하는 학생과 비장애 동료의 이탈 지표가 다르지 않음을 보여줌으로써 이러한 지식을 뒷받침합니다. 소진exhaustion이 탈진burnout의 스트레스 요소로 이해되고 이탈disengagement이 학업에 대한 부정적인 태도와 같은 직업을 계속 유지하지 않으려는 태도와 관련이 있다는 점을 고려할 때,61,80 본 연구 결과는 장애 의대생의 복지와 유지에 있어 프로그램 접근성이 중요한 역할을 한다는 것을 시사합니다. 이는 의과대학별로 장애 접근성을 알리는 전문 지식의 수준이 다양하다는 일화 보고서에서 특히 주목할 만합니다.26 2021년 연구에 따르면 미국 의과대학의 35%가 AAMC 고려사항에 따라 장애 공개 시스템을 유지하지 않는 것으로 나타났습니다.50 이와 동시에 의과대학에 장애 전문 인력을 배치하여 장애 학생 집단을 위한 효과적인 편의를 개선하고 지원을 전달할 수 있는 이점이 있다는 여러 요구가 있었습니다.26, 51, 81 우리의 연구 결과는 이러한 권고사항과 장애 공개 및 편의 요청에 대한 구조적 장벽을 제거할 필요성을 뒷받침합니다.50, 82 일반적으로 보고된 구조적 장벽에는 장애 공개 과정에서의 이해 상충(예: 학생의 평가 또는 승진에 역할을 맡은 개인이 학생의 편의 요청 검토에 관여하는 경우),25, 29, 81 장애 자원 전문가들의 편의에 대한 전문 지식 및 지식 부족26, 50 모범 사례 및 관련 장애 및 판례법에 의해 알려지지 않은 장애 공개 시스템이 포함되나 이에 한정되지는 않습니다.81 

Recent studies with training physicians suggest that program access is critical to the well-being and performance of learners with disabilities.56, 58 Our results endorse this body of knowledge by demonstrating that program access was associated with lower exhaustion and disengagement among medical students with disabilities and that students self-reporting disabilities and program access did not differ from their colleagues without disabilities in terms of disengagement indicators. Given that exhaustion is understood as the stress component of burnout and disengagement is associated with negative attitudes toward one's studies and unwillingness to continue in the same profession,61, 80 our findings suggest a critical role of program access to the well-being and retention of medical students with disabilities. This is particularly noteworthy as anecdotal reports suggest varying levels of expertise informing disability access across medical schools.26 A 2021 study demonstrated that 35% of US medical schools did not maintain disability disclosure systems in alignment with AAMC considerations.50 In parallel, multiple calls support the benefit of having specialised disability personnel for the medical school to enhance effective accommodations and communicate support for the population of students with disabilities.26, 51, 81 Our findings support these recommendations and the need to remove structural barriers to disability disclosure and accommodation request.50, 82 Commonly reported structural barriers include, but are not limited to, conflicts of interest in the disability disclosure process (e.g. when individuals who hold a role in students' assessment or promotion are involved in the review of students' requests for accommodations),25, 29, 81 lack of expertise and knowledge about accommodations among disability resource professionals26, 50 and disability disclosure systems that are not informed by best practices and relevant disability and case law.81

이 연구에는 한계가 있습니다. 

  • 첫째, 횡단면 설계로 인해 인과관계나 확인된 연관성의 방향에 대한 명확한 결론을 내릴 수 없습니다.
  • 둘째, 표본 규모가 크고 응답률이 높지만 의대 2학년생에 초점을 맞춘 데이터이기 때문에 의대 교육 전반에 걸친 공감의 안정성에 대해 보고할 수 있는 능력이 제한됩니다.
  • 셋째, 본 연구 측정의 자기보고적 특성은 장애 및 정신 건강 공개에 대한 학생들의 기밀성 우려를 줄이는 데 중요하지만, 이러한 측정은 낙인, 편견 및 공식 평가에 대한 접근성에 영향을 받을 수 있는 학생들의 공개 결정에 의해 제한될 수 있습니다.26
  • 넷째, 우수한 심리측정 특성에도 불구하고61 OLBI는 선별 도구이며 번아웃에 대한 임상 평가가 아닙니다.
  • 다섯째, 본 분석에는 의대생의 소진 및 공감과 관련이 있을 수 있는 몇 가지 인구통계학적, 개인 관련 및 학습 환경 요인이 포함되었지만, 의료 시스템에 대한 개인적인 경험, 이전 학업 환경에서의 장애 공개 및 프로그램 이용과 같은 잠재적으로 관련성이 있는 다른 요인은 설문조사에 포함되지 않았습니다.
  • 여섯째, 민감도 분석 결과 단일 장애 유형이 스스로 공개한 장애와 소진 및 공감 지표 간의 연관성과 관련된 전반적인 결과에 큰 영향을 미치지 않는 것으로 나타났지만, 특정 유형의 장애를 보고한 학생 수가 적어 각 장애 유형에 따른 다변량 분석을 수행할 수 없었습니다.
  • 마지막으로, 본 연구에서는 필요한 경우 스스로 보고한 편의 제공 부족을 통해 프로그램 접근성 부족을 파악하고자 했지만, 장애 접근성은 편의 제공을 넘어 낙인찍는 태도와 편견 등 환경과 포용성을 형성하는 추가적인 장벽을 포함하는 다요인적 구조입니다.

This study has limitations.

  • First, its cross-sectional design does not allow definitive conclusions about causality or the direction of the identified associations.
  • Second, despite the large sample size and high response rate, the data focus on second-year medical students, reducing our ability to report on the stability of empathy across the medical education continuum.
  • Third, although the self-reported nature of our study measures is critical to reducing students' confidentiality concerns regarding disability and mental health disclosures, these measures may be limited by students' decision to disclose, which can be influenced by stigma, bias and access to formal evaluation.26 
  • Fourth, despite its good psychometric properties,61 the OLBI is a screening instrument and not a clinical assessment of burnout.
  • Fifth, although our analyses included several demographic, personal-related and learning environment factors that are likely relevant for burnout and empathy among medical students, the survey does not include other potentially relevant factors such as personal experiences with health care systems and with disability disclosure and program access in previous academic settings.
  • Sixth, while our sensitivity analyses suggest that no single type of disability played a large impact on the overall outcomes related to the associations between self-disclosed disability and indicators of burnout and empathy, the small number of students reporting certain types of disabilities did not allow us to perform multivariable analyses specific to each disability type.
  • Finally, although we aimed to capture the lack of program access through self-reported lack of accommodations when needed, disability access is a multifactorial construct that extends beyond accommodation and includes additional barriers, including stigmatising attitudes and biases that shape climate and inclusion.


이러한 한계에도 불구하고 이 연구는 대규모의 전국적인 학생 표본을 사용하여 연구 결과를 강화했습니다. 장애 학생의 소진과 공감을 유발하는 추가적인 잠재적 요인을 파악하기 위해서는 추가적인 연구가 필요합니다. 또한, 의대생들의 장애, 공감, 웰빙 사이의 연관성을 조사하는 종단 연구를 통해 확인된 연관성을 더 잘 이해하고 의대생들의 공감 능력이 의과대학 내내 유지되는지 여부를 파악할 필요가 있습니다. 미국 의대생의 장애, 프로그램 접근성, 공감 및 소진에 대한 이 대규모 전국 연구는 [장애가 없는 학생]에 비해 [장애 학생]이 프로그램 접근성이나 소진에 관계없이 공감 능력이 떨어질 위험이 낮으며, 프로그램 접근성이 이 집단의 소진과 이탈을 줄이는 데 중요한 요인이 될 수 있음을 시사합니다. 이러한 연구 결과는 의학 분야에서 장애 학생의 강점에 대한 이해를 더하고 다양한 학생 집단을 모집하고 지원하는 데 시사점을 제공합니다. 

Despite these limitations, this study uses a large, national sample of students, strengthening our findings. Further research is needed to identify additional potential drivers of burnout and empathy among students with disabilities. Moreover, longitudinal studies investigating the associations between disability, empathy and well-being among medical students are needed to better understand the identified associations and to determine whether empathy is maintained throughout medical school for this population. This large national study of disability, program access, empathy and burnout among US medical students suggests that, compared with students without disabilities, disabled students are at lower risk for low empathy regardless of program access or burnout and that program access may be a critical factor in reducing exhaustion and disengagement in this population. These findings also add to our understanding of the strengths of students with disabilities in medicine and have implications for recruiting and supporting this diverse population of students.


 

Med Educ. 2023 Jun;57(6):523-534. doi: 10.1111/medu.14995. Epub 2022 Dec 14.

Disability, program access, empathy and burnout in US medical students: A national study

Affiliations

1Department of Learning Health Sciences, University of Michigan Medical School, Ann Arbor, Michigan, USA.

2Department of Neurology, The University of Michigan Medical School, Ann Arbor, Michigan, USA.

3Department of Pediatrics, University of Michigan Medical School, Ann Arbor, Michigan, USA.

4Centre for Health Education Scholarship, University of British Columbia Faculty of Medicine, Vancouver, British Columbia, Canada.

5Department of Psychiatry, University of Toronto, Toronto, Ontario, Canada.

6Carle Illinois College of Medicine, University of Illinois at Urbana-Champaign, Champaign, Illinois, USA.

7University of Illinois College of Medicine at Chicago, Chicago, Illinois, USA.

8Johns Hopkins Disability Health Research Center, Johns Hopkins School of Nursing, Baltimore, Maryland, USA.

9Department of Anesthesiology, Wake Forest School of Medicine, Winston-Salem, North Carolina, USA.

10Association of American Medical Colleges, Washington DC, USA.

11Department of Internal Medicine, Dell Medical School at the University of Texas at Austin, Austin, Texas, USA.

PMID: 36456473

DOI: 10.1111/medu.14995

Abstract

Objective: The objective of this study is to investigate whether self-disclosed disability and self-reported program access are associated with measures of empathy and burnout in a national sample of US medical students.

Methods: The authors obtained data from students who responded to the Association of Medical Colleges (AAMC) Year 2 Questionnaire (Y2Q) in 2019 and 2020. Data included demographic characteristics, personal variables, learning environment indicators, measures of burnout (Oldenburg Burnout Inventory for Medical Students), empathy (Interpersonal Reactivity Index) and disability-related questions, including self-reported disability, disability category and program access. Associations between disability status, program access, empathy and burnout were assessed using multivariable logistic regression models accounting for YQ2 demographic, personal-related and learning environment measures.

Results: Overall, 23 898 (54.2%) provided disability data and were included. Of those, 2438 (10.2%) self-reported a disability. Most medical students with disabilities (SWD) self-reported having program access through accommodations (1215 [49.8%]) or that accommodations were not required for access (824 [33.8%]). Multivariable models identified that compared with students without disabilities, SWD with and without program access presented higher odds of high exhaustion (1.50 [95% CI, 1.34-1.69] and 2.59 [95% CI, 1.93-3.49], respectively) and lower odds of low empathy (0.75 [95% CI, 0.67-.85] and 0.68 [95% CI, 0.52-0.90], respectively). In contrast, multivariable models for disengagement identified that SWD reporting lack of program access presented higher odds of high disengagement compared to students without disabilities (1.43 [95% CI, 1.09-1.87], whereas SWD with program access did not (1.09 [95% CI, 0.97-1.22]).

Conclusions: Despite higher odds of high exhaustion, SWD were less likely to present low empathy regardless of program access, and SWD with program access did not differ from students without disabilities in terms of disengagement. These findings add to our understanding of the characteristics and experiences of SWD including their contributions as empathic future physicians.

'너의 모든 형태로서의 너 자신': 의과대학생의 정체성 안정에 대한 근거이론 탐색(Med Educ, 2023)
‘Yourself in all your forms’: A grounded theory exploration of identity safety in medical students
Justin L. Bullock1,2 | Javeed Sukhera3 | Amira del Pino-Jones4 | Timothy G. Dyster5 | Jonathan S. Ilgen6 | Tai M. Lockspeiser7 | Pim W. Teunissen2,8 | Karen E. Hauer9

 

 

1 서론
1 INTRODUCTION

정체성 위협[자신의 정체성에 대한 모든 형태의 내적, 대인관계적 또는 구조적 적대감]으로 정의되며 학습자의 인지적, 정서적 웰빙을 저해합니다.1 고정관념 위협, 미세 공격, 인종 차별, 성차별, 능력주의를 포함한 내외부 정체성 위협은 소수 배경을 가진 학습자에게 대다수의 학습자에 비해 불균형적으로 영향을 미칩니다.2-6 의료 분야에서 이러한 현상은 소진을 촉진하고 웰빙을 해치며 인지 부하를 증가시키고 학업 성취도 저하와 관련이 있습니다.2, 5, 7, 8 의료 기관은 모든 정체성을 가진 학습자를 위한 다양성, 형평성 및 포용 노력을 지원해야 할 필요성을 점점 더 인식하고 있지만9, 10 모든 학습자가 성공할 수 있는 환경을 조성하는 데는 여전히 부족한 실정입니다.11-14

Identity threat, defined as any form of internal, interpersonal or structural hostility toward one's identities, detracts from the cognitive and emotional wellbeing of learners.1 Internal and external identity threats including stereotype threat, microaggressions, racism, sexism and ableism disproportionately impact learners from minoritised backgrounds compared to their majority counterparts.2-6 In medicine, these phenomena promote burnout, harm well-being, increase cognitive load and are associated with poorer academic performance.2, 5, 7, 8 While medical institutions are increasingly cognizant of the need to support diversity, equity and inclusion efforts for learners of all identities,9, 10 they continue to fall short in creating environments that enable all learners to thrive.11-14

정체성과 정체성 개발은 복잡하고 다각적인 요인이 작용합니다. 정체성은 통합되기도 하고 분열되기도 합니다: 정체성 형성에는 정체성을 공유하는 '우리'와 그렇지 않은 '그들'이 내재되어 있습니다.15, 16 모든 사람은 자신의 삶의 경험과 세상에 대한 이해에 영향을 미치는 가시적, 비가시적 정체성을 가지고 있습니다.16, 17 학습자가 의사로 성장하면서 개인이 의료 전문가 커뮤니티에 합류하는 발달 및 사회화 과정인 전문직 정체성 형성(PIF) 과정을 탐색합니다.18 PIF를 통해 학습자의 개인 정체성은 새롭게 형성되는 전문직 정체성에 영향을 미칩니다.19 그러나 PIF를 통해 장려되는 암묵적 또는 명시적 규범은 일부 정체성 그룹의 문화적 경향을 다른 정체성 그룹보다 선호할 수 있습니다.20, 21 이는 사회화 과정에서 기존 정체성과 원하는 새로운 전문직 정체성을 협상하는 과정이 포함되기 때문에 일부 학습자는 의료 전문가로 인정받기 위해 기존 정체성의 일부를 포기해야 한다는 압박감을 느낄 수 있습니다.20, 22, 23 학습자는 개인 정체성과 전문직 정체성 사이의 부조화를 조정하는 데 어려움을 겪을 수 있으며, 이러한 부조화는 정체성 위협으로 나타날 수 있습니다.24
Identity and identity development are complex and multifactorial. Identities are both unifying and dividing: Inherent in identity formation is the creation of an ‘us’—those who share one's identity—and a ‘them’—those who do not.15, 16 Everyone holds visible and invisible identities that affect their lived experiences and understandings of the world.16, 17 As learners develop into physicians, they navigate the process of professional identity formation (PIF), a developmental and socialisation process by which individuals join the medical professional community.18 Throughout PIF, learners' personal identities influence their emerging professional identity.19 However, the implicit or overt norms encouraged through PIF may favour the cultural tendencies of some identity groups over others.20, 21 This occurs because socialisation involves negotiation of one's pre-existing identities with the desired new professional identity, leading some to feel compelled to abandon aspects of their existing identities to be accepted as medical professionals.20, 22, 23 Learners may struggle to reconcile this dissonance between their personal and professional identities, a dissonance that may manifest as identity threat.24

학습자가 정체성 위협의 경험을 탐색하도록 지원하려면 학습자가 안전을 어떻게 경험하는지에 대한 심층적인 이해가 필요합니다. 정체성 위협과 함께 안전의 구성은 의료 수련생이 임상 환경에서 학습하는 동안 다양한 정체성 속에서 성공할 수 있는 방법을 알려줄 수 있습니다. 앞서 안전의 몇 가지 형태에 대해 설명된 바 있다.

  • 심리적 안전권력 위계를 줄여, 오류에 대해 공개적으로 토론하고, 필요할 때 리더에게 도전하며, 숙달 마인드를 키우는 것을 강조합니다.25, 26
  • 관련 구성 요소인 교육적 안전학습자가 자신의 투사된 이미지를 스스로 모니터링할 필요 없이, 학습 과제에 집중할 수 있는 권한이 부여된empowered 상황을 말합니다.27

심리적 안전과 교육적 안전 모두 최적의 학습을 지원하지만 개별 학습자의 정체성을 명시적으로 설명하거나 수용하지는 못합니다. 교육자가 의도적으로 학습자의 정체성을 고려하지 않으면 학습자가 정체성 위협으로부터 해방되고 번창할 수 있도록 지원하는 정체성 안전 환경을 조성하는 데 실패할 수 있습니다.2 
Supporting learners to navigate experiences of identity threat requires a deeper understanding of how they experience safety. Juxtaposed with identity threat, the construct of safety may inform how medical trainees could thrive in their diverse identities while learning in the clinical environment. Some forms of safety have previously been described.

  • Psychological safety emphasises reducing power hierarchies to promote openly discussing errors, challenging leaders when necessary and fostering mastery mindsets.2526 
  • Educational safety, a related construct, refers to situations of empowered learners who can concentrate on a learning task without needing to self-monitor their projected image.27 

While psychological and educational safety support optimal learning, neither explicitly accounts for or accommodates individual learners' identities. Without intentionally engaging learners' identities, educators may fail to create identity-safe environments where learners are liberated from identity threats and supported to thrive.2

정체성 안전은 다양하게 정의되어 왔지만 아직 충분히 연구되지 않은 개념입니다. 일반적으로 정체성 안전은 정체성 위협이 대응되거나 제거된 상태로 정의됩니다.28-30 그러나 정체성 안전에 대한 다른 개념화도 존재합니다:

  • 가마렐 등31 은 레즈비언, 게이, 양성애자, 트랜스젠더, 퀴어 청소년의 정체성 안전을 '자신이 될 자유'로 정의했으며,
  • 스틸과 콘-바가스32 는 정체성 안전 초등학교 교실이 다양성을 활용하고 학습자 중심이며 교실 관계를 촉진하고 배려하는 환경을 조성한다고 설명했습니다.

이러한 개념은 개인이 자신의 정체성 안전감에 영향을 미치기 위해 환경과 어떻게 상호 작용할 수 있는지를 고려하지 않고 정체성 안전이 환경의 영향을 받는 것으로 설명합니다. 또한 이러한 개념화는 복잡하고 역동적인 사회 환경에서 환자 치료 제공을 강조하는 의학의 특성을 고려할 때 정체성 안전이 의학교육에서 어떻게 나타나는지에 대한 유용하지만 불완전한 통찰력을 제공합니다. 정체성 안전에 대한 이해는 모든 학습자를 위해 학습 환경을 최적화하는 방법에 대한 새로운 통찰력을 제공할 수 있는 잠재력을 가지고 있습니다.33 이 연구는 정체성 안전에 대한 이론을 설명하기 위해 의대생들의 정체성 관련 경험을 활용하는 것을 목표로 합니다.
Identity safety is an understudied construct which has been variably defined. Commonly, identity safety is defined as a state where identity threat has been countered or eliminated.28-30 However, other conceptualisations of identity safety exist:

  • Gamarael et al.31 defined identity safety among lesbian, gay, bisexual, transgender and queer youth as freedom to be oneself, whereas
  • Steele and Cohn-Vargas32 described that identity-safe elementary classrooms leverage diversity, are learner-centred, foster classroom relationships and create caring environments.

These conceptualisations describe identity safety as influenced by the environment, without considering how individuals may interact with their environment to influence their own sense of identity safety. Furthermore, these conceptualisations provide helpful but incomplete insights into how identity safety manifests in medical education, given medicine's emphasis on the provision of patient care in a complex and dynamic social environment. Understanding identity safety has the potential to provide novel insights for how to optimise the learning environment for all learners.33 This study aims to draw upon identity-salient experiences of medical students to describe a theory of identity safety.

2 방법
2 METHODS

2.1 설계
2.1 Design

이 다기관 질적 연구는 구성주의적 근거 이론34 과 비판적 교육학의 영향을 받았습니다.35-37 

  • 구성주의적 근거 이론은 기존 이론으로는 잘 설명되지 않는 복잡한 인지적, 사회적 과정을 탐구하며 역사적, 문화적, 사회적 맥락에 연구를 배치합니다. 
  • 비판적 인종 및 페미니즘 이론은 사회 규범이 역사적으로 지배적인 인종 및 성별 집단에 유리한 현재의 사회적 권력 체계를 어떻게 영속시키는지를 비판함으로써 이러한 접근 방식을 강화합니다.35, 38 

우리는 다양하고 풍부하며 교차하는 정체성을 가진 사람들의 경험을 중심에 두는 것의 중요성을 강조하는 크렌쇼와 훅스 같은 흑인 페미니스트 학자들의 연구를 활용합니다.36, 39
This multi-institutional qualitative study was informed by constructivist grounded theory34 and critical pedagogies.35-37 

  • Constructivist grounded theory explores complex cognitive and social processes not well explained by existing theory, situating the work in the historical, cultural and social context.
  • Critical race and feminist theories enhance this approach by critiquing how social norms perpetuate current societal power arrangements favouring historically dominant racial and gender groups.3538 

We draw upon Black feminist scholars such as Crenshaw and hooks who emphasise the importance of centring the experiences of those who hold multiple, rich, intersecting identities.36, 39

2.2 참가자 및 환경
2.2 Participants and setting

참가자는 미국 의과대학 3곳의 3학년 또는 4학년에 재학 중인 임상 의대생이었습니다: 미국 서부에 위치한 4년제 공립 대학원 의과대학인 캘리포니아대학교 샌프란시스코 캠퍼스(UCSF), 콜로라도대학교(CU), 워싱턴대학교(UW). 인터뷰는 2022년 2월부터 5월까지 진행되었습니다. 의사로서의 정체성 형성 단계는 비교적 이르지만 임상 경험을 쌓은 임상 의대생들의 관점에서 정체성 안전성을 이해하기 위해 임상 의대생을 대상으로 선정했습니다. 
Participants were clinical medical students in their 3rd or 4th year at three US medical schools: University of California, San Francisco (UCSF); University of Colorado (CU); and University of Washington (UW), all public 4-year postgraduate medical schools in the western United States. Interviews were conducted February through May of 2022. We chose clinical medical students to understand identity safety from the perspective of those relatively early in their identity formation as physicians but who had accrued clinical experiences.

2.3 연구팀과 반사성
2.3 Research team and reflexivity

우리 연구팀은 성별(여성 3명, 남성 5명), 인종(흑인 1명, 아프로라티나 1명, 남아시아 1명, 백인 5명), 능력 상태(정신질환자 2명), 종교, 국적, 직업적 역할, 가족 역할 등 다양한 정체성을 활용했습니다. 우리는 데이터 수집과 데이터 해석에 영향을 미친 다양한 정체성에 기반한 차별적 특권을 인정합니다. 주 연구자(JLB)는 흑인 게이 남성으로 의사이자 현재 대학원 수련생입니다: 인터뷰어로서 그의 외모와 개인적인 경험은 참가자들이 공유한 이야기와 공유하지 않은 이야기에 영향을 미쳤을 가능성이 높습니다. 우리 팀은 데이터에 대한 서로 다른 해석에 대해 논의하고, 인터뷰어와 공동 조사자의 정체성과 배경이 참가자가 인터뷰에서 공유하기로 선택한 내용과 데이터에 대한 해석에 어떤 영향을 미쳤을지 생각해보기 위해 모임을 가졌습니다. 
Our team leveraged our diverse identities including gender (three women and five men), race (one Black, one Afrolatina, one South Asian and five white individuals), ability status (two with mental illness), religion, nationality, professional roles and family roles, among others. We acknowledge our differential privileges based upon our diverse identities that influenced our data collection and data interpretation. The primary investigator (JLB) is a gay Black man, physician and current post-graduate trainee: As an interviewer, his external appearance and personal experiences likely influenced the stories shared and not shared by participants. Our team met to discuss differing interpretations of data and reflect on how the identities and backgrounds of the interviewer and co-investigators may have shaped what participants chose to share in the interview as well as our interpretations of the data.

2.4 절차
2.4 Procedures

저자들은 이메일 배포 목록(모든 학생과 학급 관리자 포함)을 통해 학생들에게 의과대학 정체성에 관한 연구에 참여하도록 초대했습니다. 이메일에는 연구자들이 다양한 배경을 가진 의대생들의 의견을 구한다고 명시되어 있었습니다. 표본 추출을 위해 관심 있는 학생들은 11개 항목으로 구성된 전자 Qualtrics 설문조사(부록 S1)를 완료했으며, 자신이 누구인지 가장 잘 정의한다고 생각하는 정체성에 대한 자유로운 텍스트 응답과 자신의 정체성 집단에 대한 부정적인 고정관념에 대한 인식을 측정하는 척도인 고정관념 취약성 척도(SVS)의 인종/민족 및 성별 버전에 대한 응답을 요청하는 문항이 있었습니다.40 각 5개의 항목은 5점 리커트 척도로 채점되며 총점은 5점부터 25.2점까지입니다.40,41 참가자들은 개별 인터뷰에 초대받기 위해 이메일을 제공하도록 요청받기도 했습니다. 인터뷰 참여자에게는 $25의 수당이 지급되었습니다. 
Authors invited students via an email distribution list (includes all students and class administrators) to participate in a study on identity in medical school. The email stated that the investigators sought the opinions of medical students from diverse backgrounds. For sampling purposes, interested students completed an 11-item electronic Qualtrics survey (Appendix S1) with a prompt soliciting a free text response of the identities they felt most defined who they are, and the racial/ethnic and gender versions of the Stereotype Vulnerability Scale (SVS), a scale that measures awareness of negative stereotypes about one's identity group.40 We previously used the SVS and published reliability data; each five-item scale is scored on a 5-point Likert scale with total score ranging from 5 to 25.2, 40, 41 Participants were also invited to provide their email to be invited to an individual interview. Interviewees received a $25 stipend.

설문조사에 대한 응답은 의도적이고 최대 변이 샘플링을 위해서만 사용되었습니다. 각 리스트서브의 정확한 학생 수를 파악할 수 없었기 때문에 평균 학급 규모를 기준으로 설문조사 응답률을 추정했습니다. 처음에는 흑인, 성전환자, 이민자 학습자, 고정관념 위협이 높은 학습자(SVS 15점 이상)를 우선으로 하여 소수 정체성을 가진 인터뷰 대상자를 의도적으로 샘플링했습니다.2 그 후 다양한 정체성과 SVS 점수를 가진 사람들을 반복적으로 샘플링하여 최대 변형 샘플링을 수행했으며,42 진화하는 이론을 풍부하게 하거나 도전할 수 있는 이야기를 가진 참가자를 의도적으로 찾으려고 노력했습니다.
Responses to the survey were used only for purposive and maximum variation sampling. We were unable to determine the exact number of students on each listserv and therefore estimate survey response rate based on average class size. Initially, the authors purposively sampled interviewees with minoritised identities, prioritising Black, trans and immigrant learners and those with high stereotype threat (SVS > 15).2 We subsequently performed maximum variation sampling by iteratively sampling those with a diversity of identities and SVS scores,42 deliberately seeking participants whose narratives might enrich or challenge our evolving theory.

숙련된 질적 연구자인 JLB는 모든 인터뷰를 Zoom을 통해 진행했습니다. 저자들은 문헌 검토와 정체성과 관련된 개인적 경험에 대한 토론을 통해 반구조화된 인터뷰 가이드(부록 S2)를 개발했으며, 구성주의적 근거 이론 접근법에 따라 연구를 진행하는 동안 가이드를 발전시켰습니다.2, 27, 32 인터뷰에서는 참가자들의 정체성에 대한 자의식, 자유, 안전감을 느낀 의료 분야에서의 정체성 관련 경험, 정체성이 미래 의사로서의 관점에 어떤 영향을 미쳤는지를 탐색했습니다. 각 참가자에게 인터뷰 전체를 고려하고 '정체성 안전'이라는 용어를 들었을 때 떠오르는 것을 공유하도록 요청하는 것으로 각 인터뷰를 마무리했습니다. 모든 녹취록은 전문적으로 필사되었으며, JLB에서 정확성을 검토하고 비식별화 작업을 거쳤습니다. 
JLB, an experienced qualitative researcher, conducted all interviews over Zoom. The authors developed a semi-structured interview guide (Appendix S2) through literature review and discussion of personal experiences relevant to identity; we evolved the guide over the study in line with our constructivist grounded theory approach.2, 27, 32 Interviews explored participants' identity-salient experiences in medicine, where they felt self-conscious, free or safe in their identities and how their identities influenced their perspectives as future physicians. We concluded each interview by asking each participant to consider their entire interview and share what came to mind when they heard the term ‘identity safety’. All transcripts were professionally transcribed, reviewed by JLB for accuracy and deidentified.

2.5 분석
2.5 Analysis

구성주의 근거 이론을 바탕으로 연구 과정을 통해 지속적인 비교를 통해 반복적으로 표본을 추출하고 코딩하고 이론을 발전시켰습니다.34 JLB, JSI, KEH는 세 개의 트랜스크립트에 대해 오픈 코딩을 수행했습니다. JLB는 코드를 하나의 코드북으로 통합했습니다. 각 녹취록은 JLB와 JS, AdPJ, JSI, KEH 또는 연구 조교가 두 번 코딩했습니다. 토론을 통해 코딩의 차이를 조정했습니다. 코딩 후, 팀은 발췌문을 종합하고 더 큰 범주를 개발했습니다. 토론, 글쓰기, 코드와 범주 간의 관계 고려를 통해 연구 결과를 하나의 이론으로 종합했습니다. 새로운 주요 개념이 발생하지 않고 추가 데이터 수집에도 불구하고 이론이 안정적으로 유지되는 범위, 복잡성, 증거의 뉘앙스가 충분한 개념적 깊이에 도달했다고 느낄 때까지 데이터 수집과 이론 수정을 계속했습니다.43
Drawing upon constructivist grounded theory, we iteratively sampled, coded and developed a theory using constant comparison through the research process.34 JLB, JSI and KEH performed open coding of three transcripts. JLB consolidated codes into a codebook. Each transcript was coded twice: by JLB and either JS, AdPJ, JSI, KEH or a research assistant. We reconciled coding differences through discussion. After coding, the team synthesised excerpts and developed larger categories. Through discussion, writing and considering relationships among codes and categories, we synthesised findings into a theory. We continued data collection and theory revision until we felt that we reached sufficient conceptual depth with range, complexity and nuance of evidence, where no new major concepts arose and our theory remained stable despite further data collection.43

참가자 확인을 위해 모든 참가자에게 결과 섹션의 초안을 이메일로 보내 결과가 인터뷰 내용을 적절히 반영했는지 여부를 물었습니다. 총 16명 중 10명이 답장을 보내왔습니다: 모두 결과가 인터뷰에 대한 자신의 경험과 인식과 일치한다고 답했습니다. 한 응답자는 자신의 기밀을 보호하기 위해 인용문 수정을 요청했습니다. 마지막으로 이론을 시각적으로 표현하는 모델을 만들었습니다(그림 1). 시각적 모델을 디자인하기 위해서는 JLB와 그래픽 디자이너이자 공동 연구자인 TGD가 데이터의 관계에 대해 반복적이고 통찰력 있는 심도 있는 논의를 거쳐야 했습니다.
To perform member checking, we emailed a draft of the results section to all participants to query whether the results appropriately reflected their interview. In total, 10 of 16 replied: All felt the results aligned with their experiences and perception of the interview. One respondent asked for a quote to be modified to protect their confidentiality. Finally, we created a model that serves as a visual representation of the theory (Figure 1). The design of our visual model required iterative, insightful and in-depth discussions of the relationships in the data between JLB and the graphic designer and co-researcher, TGD.


정체성 안전에 대한 이론적 모델: 정체성 안전은 세 가지 상호 연관된 구성 요소에서 비롯되었습니다.

  • 환자를 위해 자신의 정체성을 활용할 수 있는 행위자성agency을 인지하고,
  • 참가자의 인격감을 지지하는 다른 사람을 알아차리며,
  • 학습 환경에서 소속감을 경험한다.

정체성 안전은 일부 참가자를 정체성 위협으로부터 보호합니다. 위협 완화는 정체성 위협을 약화시키지만 정체성 위협을 제거하지는 못합니다.
Theoretical model of identity safety: identity safety arose from three interrelated components:

  • perceiving agency to leverage one's identities to serve patients,
  • noticing others who uphold participants' sense of personhood and
  • experiencing belonging in the learning environment.

Identity safety protected some participants from identity threats. Threat mitigation dampens identity threats but does not eliminate them.

3 결과
3 RESULTS

총 137명의 학습자가 설문조사에 응답했습니다(약 620명의 적격 학생 중 22%). 응답자 중에서 최대한 다양한 표본을 추출하여 다양한 인종/민족 및 성별 SVS 점수를 대표하는 16명의 다양한 개인을 의도적으로 인터뷰했습니다(여성 8명, 비바이너리 2명, 남성 6명, 인종적으로 소외된 집단 출신 5명, LGBQ 5명, 장애인 3명)(표 1). 참가자들은 종교와 희망 전공을 포함하여 의료계에서의 경험을 형성하는 데 영향을 미친 다른 여러 정체성을 설명했습니다. 
In total, 137 learners responded to the survey (22% of the approximately 620 eligible students). We implemented maximum variation sampling from the respondents to purposively interview 16 diverse individuals who represented a range of racial/ethnic and gender SVS scores: eight identified as women, two non-binary, six men, five from racially underrepresented groups, five LGBQ and three with a disability (Table 1). Participants described multiple other identities that shaped their experience in medicine, including religion and intended specialty.

참가자의 정체성은 임상실습 경험에 큰 영향을 미쳤습니다. 우리는 이러한 정체성 관련 경험을 정체성 위협, 위협 완화, 정체성 안전의 세 가지 상태로 인식했습니다. 이러한 이론을 시각적으로 표현한 모델을 개발하여 그림 1에 표시했습니다. 아래에서는 정체성 위협, 위협 완화, 정체성 안전에 대해 간략하게 설명합니다.
Participants' identities heavily influenced their clerkship experiences. We recognised these identity-salient experiences as three states: identity threat, threat mitigation and identity safety. We developed a model as a visual representation of our theory shown in Figure 1. Below, we briefly describe identity threat, threat mitigation and identity safety in more detail.

4 정체성 위협
4 IDENTITY THREAT

참가자들은 다양한 정체성 위협을 설명했으며, 이를 다음으로 정리했습니다.

  • 환영받지 못하는 학습 환경,
  • 적응하기 위해 행동을 바꿔야 한다는 압박감,
  • 광범위한 사회정치적 위협,
  • 정체성 안전이 결여된 상황

Participants described a variety of identity threats, which we organise into

  • unwelcoming learning environments,
  • feeling pressure to change one's behaviour to fit in,
  • broader sociopolitical threats and
  • instances lacking identity safety.

[환영받지 못하는 환경]다양한 정체성을 충분히 대변하지 못했고, 일부 참가자의 정체성을 토큰화했으며, 동맹 관계가 부족했습니다.

  • 불충분한 대표성은 일부 참가자들이 비슷한 정체성을 가진 롤모델을 갈망한다는 것을 의미했습니다: 한 무슬림 학습자는 자신의 신앙과 수술실의 가이드라인 내에서 존재하기 위해 고군분투했으며, 히잡을 쓰는 다른 의사를 만나 '수술실에서는 무엇을 입나요?"라고 물어본 적이 없었습니다. "외과의사인 히잡을 쓴 여성은 어떻게 수술하나요?"와 같은 질문을 해본 적이 없습니다. (P11).
  • 다른 참가자들은 이러한 정체성이 임상 업무에만 중요한데도 자신의 정체성이 토큰화되었다고 느꼈습니다. 스페인어를 사용하는 한 참가자는 '내가 토큰화된 사람처럼 느껴지는 순간은 환자를 위한 통역이 내게 주어진 유일한 업무일 때입니다'(P8)라고 반성했습니다.
  • 동맹의 순간을 놓치면 다른 정체성 위협이 가중됩니다. 한 논바이너리 참가자는 '의료 환경에서 사람들이 저에 대한 잘못된 발음이나 잘못된 성별을 바로잡는 데 참여하지 않을 때, 제게는 트랜스포비아를 수동적으로 받아들이거나 승인하는 것처럼 느껴집니다'(P6)라고 말했습니다. 

Unwelcoming environments had insufficient representation of diverse identities, tokenised some participants' identities and lacked allyship. Insufficient representation meant that some participants yearned for role models with similar identities: One Muslim learner struggled to exist within the guidelines of her faith and of the operating room, never having met another hijab-wearing physician to ask, ‘“What do you wear in the OR?” Like, “How do hijabi women who are surgeons do it?”’ (P11). Other participants felt their identities were tokenised when these identities were only important to the team for clinical tasks. One Spanish-speaking participant reflected, ‘The moments where I feel more like tokenized is when [interpreting for a patient is] the only task that I'm asked to do’ (P8). Missed moments of allyship compounded other identity threats. One non-binary participant remarked, ‘I feel when people don't participate in correcting mispronouning or misgendering of me in healthcare settings, it, to me, feels a passive acceptance or approval of transphobia’ (P6).

학습자들은 자신의 자연스러운 정체성 표현이 학습 환경에서 방해가 된다고 느낄 때 자신의 행동과 표현(머리 모양, 매너, 말투)을 조작했습니다. 평범해 보이는 과제조차도 의식적인 행동 조작이 필요했습니다,
When learners felt that their natural identity expression would hinder them in the learning environment, they manipulated their behaviours and presentation (hair, mannerisms and speech). Even seemingly mundane tasks required conscious manipulation of behaviour,

저는 일반적으로 매우 부드럽고 여성스러운 언어를 사용합니다. 그리고 전문적인 이메일에 관해서는 매우 거칠고 간결하고 짧아야 하며 매우 바쁘고 중요한 백인 남성이 쓰는 것처럼 느껴지는 방식으로 글을 써야 한다고 생각합니다. (P10)
I have a very fluffy, maybe girly language in general. And I think when it comes to professional emails, I feel like I have to be very coarse, and I have to be concise and short and write in a way that I feel like a very busy, important white man would write. (P10)

이러한 행동의 변화는 참가자들이 언젠가 의사가 되기를 희망하는 방식과 일치하지 않는 경우가 많았습니다. 예를 들어, 한 참가자는 임상실습 평가에서 자신의 성과를 최적화하기 위해 자신이 누구인지에 대해 솔직하지 못한 방식으로 의술을 펼친다고 설명했습니다, 
These changes of behaviour were often inconsistent with how participants hoped to 1 day practise medicine. For example, one participant described practising medicine in a way that felt disingenuous to who she was to optimise her performance on clerkship evaluations,

게임을 할게요. 몇 번의 임상실습 근무 동안은 필요한 성적을 받겠지만... 어느 순간부터 저는 이런 식으로 의술을 펼치고 싶지 않다는 생각이 들었습니다. 제 정체성과 일치하고 제 자신의 특정 부분을 숨겨야 한다고 느끼지 않고 제 자신에게 진실하다고 느끼는 방식으로 하고 싶어요. (P4)
I'll play the game. For a couple of clerkships, I'll get the grades that I need … But at a certain point I was like, this is not how I want to practice medicine. I want to do it in a way that feels true to myself and aligned with my identity and not feeling like I have to hide certain parts of myself. (P4)

병원 밖의 사회정치적 사건으로 인해 일부 정체성이 위협의 최전선에 서게 되었습니다. 정치적으로 보수적이라고 밝힌 한 백인 남성 참가자는 이렇게 말했습니다, 
Sociopolitical events outside the hospital thrust some identities to the forefront of threat. One White man participant who identified as politically conservative said,

로 대 웨이드 사건과 우리나라의 낙태법에 관한 모든 논의에서 저는 제가 무엇을 믿는지 알고 있었습니다. 다른 사람들이 말하는 것과는 반대되는 생각이라는 것을 알고 있었지만, '사실 저는 다르게 생각합니다'라고 표현하면 사람들이 저를 부정적으로 볼 것 같았습니다. (P16)
With all of the discussion around Roe versus Wade and the abortion laws in our country … I knew what I believed. I knew that it was contrary to what everyone else was saying and I guess I was assuming, but I felt like they would view me negatively if I were to express like, ‘Hey actually, I think differently’. (P16)

다른 참가자들은 병원 밖에서 반아시아 혐오나 흑인을 표적으로 한 경찰 폭력 사건에 대한 뉴스로 인해 병원 내 신변 안전에 대한 두려움을 느꼈다고 말했습니다. 
Other participants described a sense of fear for their physical safety in the hospital due to news about anti-Asian hate or Black-targeted police violence outside of the hospital.

정체성 위협은 때때로 교묘했습니다. 예를 들어, 한 학습자는 한 전문과목에서 일하는 동안 전반적으로 존중받는 경험을 했음에도 불구하고 '그들이 끔찍한 사람인 것처럼 행동하고 싶지는 않지만, 우리는 같지 않은 것 같았고... 나 자신이 될 수 없는 것 같았다'(P2)고 말했습니다. 이 참가자는 임상 업무가 즐거웠음에도 불구하고 소속감의 부족과 자신의 진정한 모습을 드러내는 것에 대한 불편함을 다른 전문 분야를 선택하게 된 주요 요인으로 꼽았습니다. 
Identity threat was at times insidious. For instance, despite an overall respectful experience while working in one specialty, one learner said, ‘I don't want to act as if they were terrible people or anything, but it was just like, we were not the same … And it just made me feel like I couldn't be myself’ (P2). Despite enjoying the clinical work, this participant cited her lack of belonging and her discomfort with sharing her true self as a major factor that pushed her to pursue a different specialty.

5 위협 완화
5 THREAT MITIGATION

참가자들은 정체성 위협을 관리하기 위해 사전 예방적 전략사후 대응 전략을 모두 활용한다고 설명했습니다. 이러한 전략은 스스로를 보호하는 '보호 전략'과 다른 사람을 보호하는 '동맹 전략'으로 나눌 수 있습니다. 사전 예방적 보호에는 다음 등의 조치가 포함되었습니다. 

  • 비슷한 정체성을 가진 멘토를 찾거나,
  • 로테이션 전에 임상실습 리더십과 소통하여 편의를 보장받거나,
  • 대명사 핀과 같이 정체성을 인정하는 눈에 띄는 상징을 착용하는 것

참가자들은 미세 공격과 같은 정체성 위협이 발생했을 때 어떻게 지원할지 적극적으로 의견을 구한 동료들에게 감사를 표했습니다.
Participants described utilising both proactive and reactive strategies to manage identity threats. Such strategies could be employed by the self, which we termed safeguarding, or by others, which we termed allyship. Proactive safeguarding included actions such as

  • seeking mentors with similar identities,
  • communicating with clerkship leadership to ensure accommodations before a rotation, or
  • wearing visible symbols of identity acceptance such as pronoun pins.

Participants appreciated allies who proactively sought their input on how to support them in the event of an identity threat such as a microaggression.

정체성 위협이 발생했을 때 참가자와 동맹은 그 영향을 최소화하기 위해 노력했습니다. 참가자들은 내부적으로 위협을 합리화하거나(예: 환자가 혼란스러워했다), 때로는 '환자에게 못되게 굴고 싶지는 않지만... 그냥 멍청하게 굴고 있는 거야'(P8)라며 위협을 가한 사람을 조용히 경멸했습니다. 동료들은 직접 개입하거나, 대립이 심한 환자의 병실에서 나가거나, 불편한 상황을 보고함으로써 신변 위협을 완화했습니다. 참가자들은 동맹군의 대응이 위협을 완화했지만 위협을 제거하지는 못했다고 지적했습니다: '안전하다고 생각하지는 않지만, [미시적 공격] 효과가 약해졌다'(P3). 표 2는 참가자들이 상황을 완화하는 데는 도움이 되었지만 진정으로 안전해지지는 않았다고 경험한 위협 완화 사례를 보여줍니다.

When identity threats occurred, participants and allies tried to minimise their impact. Participants internally rationalised threats (e.g., the patient was confused) or sometimes silently slighted the person committing the threat: ‘I don't want to be mean to the patient, but … he's just being an idiot’ (P8). Allies mitigated identity threat by directly intervening, exiting the rooms of highly confrontational patients or debriefing uncomfortable situations. Participants noted that ally responses mitigated but did not eliminate threats: ‘I don't think this is safe, but [the microaggression] had gotten dampened in effects’ (P3). Table 2 provides participants' examples of threat mitigation experienced as helping the situation but not making it truly safe.

6 정체성 안전
6 IDENTITY SAFETY

정체성 안전학습자가 자신의 정체성에 대한 타인의 인식에 대해 걱정하지 않고 진정한 자기 자신으로 존재할 수 있는 자유를 포함하는 별개의 개념으로 간주되었습니다. 정체성 안전은 세 가지 상호 연관된 구성 요소에서 비롯되었습니다.

  • 자신의 정체성을 활용하여 환자에게 서비스를 제공하는 행위자성을 인식
  • 자신의 인격감을 지지하는 타인과 상호작용
  • 학습 환경에서 소속감을 경험

표 3에는 참가자와 다른 사람들이 취한 안전 증진 조치의 예시적인 인용문이 나와 있습니다.

Identity safety was viewed as a distinct concept that involved a freedom to be oneself, where a learner existed as their authentic self without worrying about others' perceptions of their identities. Identity safety arose from three interrelated components:

  • perceiving agency to serve patients by leveraging one's identities,
  • interacting with others who upheld one's sense of personhood and
  • experiencing belonging in the learning environment.

Table 3 lists exemplar quotations of safety-promoting actions taken by participants and others.

[복무의 행위자성]참가자가 자신의 정체성을 활용하여 환자에게 봉사함으로써 자신의 정체성을 안전하게 보호하는 방법을 말합니다. 학습자들은 적절하다고 판단되는 대로 자신의 정체성을 신중하게 숨기거나 드러냈는데, 한 참가자는 이를 카드 패에 비유했습니다:

Agency to serve refers to the ways that participants engendered their own identity safety by leveraging their identities to serve patients. Learners judiciously concealed or revealed their identities as they deemed appropriate, likened by one participant to a hand of cards:

모든 사람은 여러 가지 정체성을 가지고 있습니다... 어떤 정체성은 바깥쪽을 향하고 있고, 방에 들어가면 모든 사람이 볼 수 있습니다. 다른 정체성은 더 숨겨져 있습니다... 그리고 이 카드들은 내가 유리하다고 느낄 때 사용할 수 있으며, 환자와의 관계, 환자 관리, 환자 신뢰도를 높일 수 있습니다. 하지만 적어도 저에게는 그 카드들 중 일부를 숨기고 사용하지 않을 수 있는 옵션도 있습니다. (P15)
Everybody has a hand of identities … some of them are facing outwards, everybody sees them when you walk into a room. Others are more hidden … And these cards, when I feel like it is to my advantage I can play them, and bring that increased patient connection, that patient care, that patient trust. But there's also the option, at least for me … I can hide some of those cards and not play them. (P15)

자신의 경험이 다른 사람들에게 어떻게 도움이 될 수 있는지 보는 것은 자기 성찰과 성장을 촉진했습니다:
Seeing how one's own experiences could help others promoted self-reflection and growth:

저는 아홉 살 때 미국으로 이주했습니다. 그리고 오랫동안 필리핀 사람이라는 정체성을 거부하기도 했어요. 그리고 의과대학에 입학하고 나서야 '아, 내가 가진 이 기술이 다른 사람들에게 매우 유익하구나'라는 것을 깨달았습니다. (P2)
I moved to the United States when I was like nine. And for a long time, I even rejected my Filipino identity. And it wasn't until medical school actually, where I realized like, ‘Oh, these skills that I have are actually very beneficial to other people’ is when I started to embrace it. (P2)

자신의 정체성을 활용하여 환자를 돕는 것은 이러한 정체성 보유의 가치를 강화했습니다. 이를 통해 참가자들은 자신과 환자를 위한 정체성 안전성을 키웠습니다. 1형 당뇨병을 앓고 있는 한 참가자는 한 환자를 어떻게 옹호했는지 공유했습니다: 
Leveraging one's identities to help patients reinforced the value of holding these identities. In doing so, participants fostered identity safety for themselves and for patients. One participant with type 1 diabetes shared how she advocated for a patient:

저는 제 펌프를 보여주었어요. 주치의는 '아, 잘 모르겠다. 그는 당뇨병이 잘 조절되지 않는 것 같았어요. 인슐린 펌프의 후보로 생각되는 사람은 아닌 것 같아요'고 말했거든요. 그래서 저는 '아니요, 이것이 치료의 표준입니다. 모든 사람이 이 치료를 받을 수 있어야 합니다'라고 옹호했어요. 그런 식으로 환자 치료를 발전시키는 데 도움을 줄 수 있다고 느꼈습니다. 그리고 주치의도 그런 측면에서 저에게 많은 것을 배웠다고 생각합니다. (P7) 
I got to show him my pump and kind of advocate to my attending because she was like, ‘Oh, I don't know. He doesn't seem like a very controlled diabetic. He's not really someone I think of as a candidate for an insulin pump’. And I kind of got to advocate like, ‘No. This is the standard of treatment. Everyone should be able to access this’. … I felt like I got to help advance patient care in that way. And my attending, I think appreciated kind of learning from me in that aspect. (P7)

참가자들은 또한 환자에게 봉사하기 위해 개인적인 부정적인 경험을 활용했습니다. 이전에 성폭력 대응 옹호자로 일했던 한 성폭력 생존자'저는 항상 사회력의 일부로 [폭행 이력]을 포함시킵니다... 그래서 임상에서 3년째 근무하는 동안 그런 것들을 파악하고 환자에게 자원을 연결해줄 수 있었던 적이 여러 번 있었습니다'(P13)라고 말했습니다. 여러 참가자가 자신의 정체성을 활용할 수 있는 기회가 전문 분야 선택에 생산적인 영향을 미쳤다고 말했습니다. 예를 들어, 이민자라는 정체성을 살려 위기에 처한 환자를 도운 한 참가자는 '정신과에 가기로 한 결정을 실제로 검증한 경험 중 하나'라고 말했습니다(P3). [복무의 행위자성]을 통해 참가자들은 자신의 정체성을 활용하여 환자에게 도움을 주었습니다. 
Participants also leveraged adverse personal experiences to serve patients. One survivor of sexual assault who had previously worked as a sexual assault response advocate said, ‘I always include [history of assault] as part of my social history … And so, I've had many times during my third year in clinical spaces, where I've kind of caught those things and then been able to connect patients with resources’ (P13). Multiple participants articulated that opportunities to leverage their identities productively influenced their specialty selection. For example, after drawing upon her identity as an immigrant to help a patient in crisis, a participant said, ‘it's one of the experiences that really, actually, validated my decision to go into psychiatry’ (P3). Through agency to serve, participants leveraged their identities to benefit their patients.

인격 존중학습자를 한 개인으로 알고자 하는 다른 사람들의 존중하는 노력을 의미합니다. 참가자들은 수퍼바이저가 임상 업무 중 휴식 시간이나 참가자가 수퍼바이저와 함께 사교 활동(예: 식사를 나누며 대화)을 할 기회를 가질 때 자신의 인격이 지켜졌다고 이야기했습니다. 인격적 대우를 받는다는 것은 참가자들이 다른 정체성을 가진 사람들에게도 자신을 인정받고, 긍정받고, 가치 있다고 느낀다는 것을 의미했습니다. 
Upholding personhood 
refers to others' respectful efforts to know a learner as an individual. Participants recounted that their personhood was upheld when supervisors invested in knowing them during breaks in clinical duties or when participants had the opportunity to engage in social activities with their supervisors (e.g., talk while sharing a meal). Upholding personhood meant that participants felt seen, affirmed and valued, even by those who held different identities.

[저의 주치의는 저를 데리고 커피를 마시며 인생에 대해 이야기했고, 결국 성에 대한 이야기로 이어졌습니다. '한 살짜리 아들이 있는데 어떻게 하면 성에 대해 즐겁게 탐구하도록 가르칠 수 있을까요?"라고 물으시는데, 정말 존중하고 배려하는 느낌이 들었어요. '트랜스젠더를 만나야겠다'는 식이 아니라요. (P9) 
[My attending] took me out for coffee and we talked about life, and it eventually led to gender stuff. She's like, ‘I have a one-year-old son, how can I teach him to enjoy exploring gender?’ … that felt really respectful and caring like, ‘I got to meet you’. Not like ‘I got to meet a trans person’. (P9)

소그룹 체크인을 통한 종단 실습과 같은 의과대학 커리큘럼 구조는 정체성에 대한 동료 간 토론을 촉진했습니다. 임상 환경과 함께 이러한 기회는 참가자들이 자신의 인격을 지지하는 동료와의 관계를 발전시키는 데 도움이 되었습니다.
Medical school curricular structures like longitudinal clerkships with small group check-ins facilitated peer-to-peer discussion about identity. These opportunities alongside the clinical environment helped participants develop relationships with their peers that upheld their personhood.

참가자들은 정체성이 일치하는 다른 사람들과 연결되어 있다고 느낄 때 학습 환경에 소속감을 느꼈습니다. 정체성의 일치로 인해 참가자들은 종종 자기 모니터링으로부터 자유로워졌습니다. 곱슬머리가 '민족적 또는 인종적'인 것으로 여겨졌다고 말한 한 학생은 "대부분의 로테이션에서 저는 곱슬머리를 가지고 있었고, [참석자들은] 실제로 제 곱슬머리를 매우 편안하게 느끼게 해주었습니다. 그녀도 곱슬머리를 가지고 있는데 큰 문제가 되지 않았어요'(P1). 또 다른 참가자는 다른 의과대학에서 로테이션을 할 때까지 자신이 소속감이 부족하다는 사실을 깨닫지 못했습니다: '세 명의 어텐딩이 모두 아시아 여성이거나 적어도 절반은 아시아 여성이었어요... 저는 그 공간에서 [고향 학교]에서는 결코 느끼지 못했던 방식으로 매우 힘을 얻고 받아들여진다고 느꼈어요'(P15). 이 경험 덕분에 레지던트 수련을 위해 해당 기관을 선택하게 되었습니다. 한 학습자는 소속감이 부족했던 환경에서의 경험을 다른 사람들과의 유대감을 느꼈던 환경과 비교했습니다. 전자의 경우, 그녀는 한 전문과목에서 수련을 받는 동안 자신이 좋아하는 보라색 머리띠('스크런치')를 1년 내내 착용하지 않았고 나중에 여성 의료진이 더 많은 다른 전문과목을 선택하기로 결정했습니다."오랫동안 제 정체성에 대한 모든 것을 상징하는 것이었어요. 그리고 '와우, 이제 스크런치처럼 정말 멍청하고 사소한 일에 대해 고민할 필요가 없겠구나'(P2)라는 생각이 들어서 행복했습니다. 많은 참가자가 소속감을 해방감이라고 표현했습니다소속감을 느끼면 자신의 정체성에 대해 생각하거나 억압해야 할 필요성을 덜 느꼈습니다. 눈에 보이는 정체성의 일치도 중요하지만, 눈에 잘 띄지 않는 정체성이 때때로 소속감을 키우기도 했습니다. 예를 들어, 한 칼데아 남학생은 인종, 성별, 종교가 다른 전공의와 함께 소속감을 느꼈던 순간을 회상했습니다:
Participants felt belonging in the learning environment when they felt connected to others with concordant identities. Identity concordance often liberated participants from self-monitoring. A student who shared that curly hair was viewed as more ‘ethnic or racial’ commented, ‘for most of that rotation, I had curly hair and [my attending] actually made me feel very comfortable with my curly hair. She has curly hair, too, and it wasn't a big deal’ (P1). Another participant did not realise he lacked belonging at his home institution until he rotated at another medical school: ‘All three attendings were Asian women or at least half Asian women … I felt very empowered and very accepted in that space in a way that I never did in [home school]’ (P15). This experience led him to choose that institution for his residency training. One learner compared her experience in an environment where she lacked this sense of belonging to one where she felt a sense of connection with others. In the former, she did not her wear her favourite purple hair tie (a ‘scrunchy’) for a full year while she did research in one specialty before later deciding to pursue a different specialty with more women providers: ‘It's very symbolic for everything else that I put away in my identity for a long time. And it made me happy because I was like, “Wow, I don't have to overthink really dumb, small things like a scrunchy now”’ (P2). Many participants described belonging as liberating: When they belonged, they felt less compelled to think about or suppress aspects of their identities. While visible identity concordance was important, less visible identities also sometimes fostered belonging. For example, one Chaldean male student reflected upon a moment of belonging with a resident of a different ethnic group, gender and religion:

대학 시절 비슷한 학생 단체에서 했던 일을 공유했고, 우리 둘 다 각자의 문화권에서 전통 무용을 하는 사람이었기 때문에 서로 영상을 보여줬는데, 정말 재미있었고 서로에게 배울 점이 많았어요. (P12)
We shared kind of what we did in our similar student organizations in college, and we both happened to be traditional style dancers of our own respective culture, and we were showing each other videos, and it was a lot of fun, and it was a learning point for both of us. (P12)

눈에 잘 띄지 않는 정체성을 드러내기 위해서는 외부적인 단서가 충분하지 않았습니다: 개인이 서로에게 더 가까이 다가가고 소속감을 공유하려면 개인을 공개하는 행위가 필요했습니다.
For less visible identities, external cues were insufficient: Acts of personal disclosure were necessary for individuals to move closer to each other and create a shared sense of belonging.

인터뷰 말미에 정체성이라는 단어를 들었을 때 무엇이 떠오르느냐는 질문에 참가자들은 온전한 자기 자신에 대해 반복해서 말했습니다. 한 참가자는 '특정 부분만 보여줄 수 있다고 느낄 필요는 없다'는 말로 집단 대화를 효과적으로 요약했습니다. 모든 모습에서 자신이 될 수 있다고 진정으로 느낄 때, 그것이 정체성 안전이라고 생각합니다'(P1).
At the end of an interview, when asked what came to mind when they heard the phrase identity, participants repeatedly spoke of being one's whole self. The collective dialogue was effectively summarised by one participant who said, ‘you don't have to feel like you can only show a certain part. When you truly feel like you can be yourself in all your forms, I think that means identity safety’ (P1).

7 토론
7 DISCUSSION

임상 의대생들을 대상으로 한 이 근거 이론 연구는 정체성 위협, 위협 완화, 정체성 안전으로 정체성 불안 경험을 정리했습니다. 참가자들의 이야기는 학습자, 감독자, 동료 및 학습 환경이 모두 정체성 위협, 위협 완화 및 정체성 안전에서 어떻게 적극적인 역할을 하는지를 보여줍니다. 정체성 안전은 참여자가 복무의 행위자성을 인식하고, 자신의 인격이 보호받고 있으며, 주변 사람들과 소속감을 느끼는 것을 기반으로 합니다. 아래에서는 정체성 안전이 어떻게 문화적으로 지속 가능한 교육법을 촉진할 수 있는지, 정체성 안전이 의료 교육에서 포용성 노력을 어떻게 알릴 수 있는지, 정체성 안전이 위협 완화와 어떻게 구별되고 보완적인지 논의합니다.
This grounded theory study with clinical medical students organises identity-salient experiences into identity threat, threat mitigation and identity safety. Our participants' narratives demonstrate how learners, supervisors, peers and the learning environment all play active roles in identity threat, threat mitigation and identity safety. Identity safety is built upon participants perceiving agency to serve, that their personhood is upheld and a sense of belonging with those around them. Below, we discuss how identity safety can promote a culturally sustaining pedagogy, how it can inform inclusion efforts in medical education and how identity safety is distinct and complementary to threat mitigation.

이러한 데이터를 비판적 렌즈를 통해 살펴보면, 정체성 안전을 촉진하는 것은 고유한 존재 방식을 적극적으로 육성하고 장려하며 단일 문화 학습자의 개발을 억제하는 반결핍 프레임워크인 문화적으로 지속 가능한 교육학(CSP)을 촉진한다고 주장합니다.44 비판적 교육학으로서 CSP는 학습자와 멘토가 양방향 학습 관계에 존재한다는 것을 인식합니다.35, 45 [복무의 행위자성]을 통해 강조된 바와 같이 학습자들은 환자를 돌보고 지원하기 위해 자신의 언어, 문화, 장애, 국적, 심지어 트라우마 병력을 생산적으로 사용하는 방식을 언급했습니다. 이러한 방식으로 학습자들은 일반적으로 정규 의료 교육에서 가르치지 않는 치유에 대한 기술과 지식을 가져왔습니다. CSP는 지속 가능한 교육의 목표를 '빼는 것이 아니라 더하는 것... 결핍을 대체하는 것이 아니라 강점을 강화하는 것'으로 보고 있습니다.45 학습자가 자신의 정체성을 활용하여 환자를 돕도록 지원하는 것은 문화적으로 지속 가능할 수 있지만, 연구 결과는 의료 교육에서 학습자의 토큰화에 대한 중요한 경고를 제공합니다: 학습자가 자신의 정체성 중 한 가지 측면(예: 언어 능력 및 인종적 일치)만으로 '환영받는다'고 느낄 때, 그들의 인격은 지켜지지upheld 않습니다. 교육자가 학습자에게 문화적 자산을 넘어 완전한 개인으로서 가치가 있다는 것을 어떻게 보여줄 수 있는지 이해하기 위해서는 더 많은 연구가 필요합니다.
Examining these data through a critical lens, we argue that fostering identity safety promotes a culturally sustaining pedagogy (CSP), an anti-deficit framework that actively nurtures and encourages unique ways of being and discourages the development of monocultural learners.44 As a critical pedagogy, CSP recognises that learners and mentors exist in a bidirectional learning relationship.35, 45 As highlighted through agency to serve, learners cited the ways that they productively used their languages, cultures, disabilities, nationalities and even trauma histories to care for and support their patients. In this way, learners brought skills and knowledge of healing that are not typically taught within formal medical training. CSP views the goal of a sustaining education ‘as additive rather than subtractive … critically enriching strengths rather than replacing deficits’.45 While it can be culturally sustaining to support learners to leverage their identities to help patients, our results provide an important caution against tokenisation of learners in medical education: When learners feel ‘welcomed’ because of only one aspect of their identity (e.g., language ability and racial concordance), their personhood is not upheld. More research is needed to understand how educators can demonstrate to learners that they are valued as complete individuals beyond their cultural assets.

정체성 안전은 의료 교육에서 포용성을 위한 노력에 도움이 될 수 있습니다. 중요한 것은 학습 환경의 모든 개인이 정체성 안전에 기여할 수 있다는 것입니다. 안전감을 형성하기 위해 타인에게 의존하는 심리적 및 교육적 안전과 달리, 우리의 연구 결과는 개인이 주체성을 발휘할 수 있으며, 따라서 스스로 정체성 안전감을 공동 구성하는 데 적극적인 역할을 할 수 있음을 보여줍니다.25, 27 스스로 만든 안전에 대한 이러한 설명은 커뮤니티 결핍 관점이 아닌 커뮤니티 강점 관점에서 안전의 원천을 재검토하는 중요한 반론을 제공합니다.46 다양한 팀원의 정체성을 활용하는 것은 심리적 안전의 유리한 결과로 설명되지만,47 우리는 이를 정체성 안전 형성의 기초로 묘사합니다. 정체성 일치대표성은 소수자 배경을 가진 참가자의 소속감을 촉진하며, 연구 결과에 따르면 정체성 차이를 넘어 인격을 존중함으로써 정체성 안전을 구축할 수 있다는 것을 보여줍니다. 이러한 방식으로 다수 집단에 속한 개인은 소수 집단에 속한 동료의 정체성 안전을 증진할 책임이 있습니다
Identity safety can inform inclusion efforts in medical education. Importantly, all individuals in the learning environment can contribute to identity safety. In contrast to psychological and educational safety that rely upon others to create a sense of safety, our results show that individuals can demonstrate agency and, thus, can play an active role in co-constructing a sense of identity safety for themselves.25, 27 This description of self-created safety provides a critical counternarrative, which re-examines the sources of safety from a community strengths lens as opposed to a community deficit lens.46 While leveraging the identities of diverse team members is described as a favourable outcome of psychological safety,47 we describe it as foundational to the creation of identity safety. Identity concordance and representation promote belonging for participants from minoritised backgrounds, and our results also illustrate that it is possible to bridge across identity differences and create identity safety by upholding personhood. In this way, individuals from majority groups are also responsible to promote identity safety for colleagues from minoritised groups.

정체성 안전정체성 위협 완화와는 구별되지만 상호 보완적인 개념입니다. 참가자들은 고립, 토큰화, 능력주의, 인종차별, 트랜스포비아, 외국인 혐오증 등 다양한 정체성 위협에 대해 설명했습니다. 역사적으로 안전한 환경 조성에 관한 이야기는 주로 정체성 위협을 예방하거나 이에 개입하는 것, 즉 위협 완화에 초점을 맞추었습니다.29, 48, 49 중요한 점은 여러 참가자가 위협 완화가 필요하지만 안전을 위해 충분하지 않다고 답했다는 것입니다. 학습자가 완전히 해방되고 정체성이 안전하다고 느끼기 위해서는 보호와 연대를 넘어선 추가적인 노력, 즉 주체성을 강조하고 학습자의 고유한 인격을 옹호하며 소속감 증진 등의 노력이 필요합니다. 정체성이 안전한 임상팀에서도 위협을 완화하는 기술은 여전히 중요합니다. 안타깝게도 팀, 직장 및 환자 치료 상호 작용 내에서 해로운 정체성 위협이 빈번하게 발생합니다.50 정체성 안전과 위협 완화는 학습 환경의 모든 개인을 지원하기 위해 시너지 효과를 발휘할 수 있는 잠재력을 가지고 있습니다.
Identity safety is distinct from but complementary to threat mitigation. Our participants described a variety of identity threats including isolation, tokenisation, ableism, racism, transphobia and xenophobia. Historically, the narrative around creating safe environments has focused primarily on preventing or intervening against identity threats, what we term threat mitigation.29, 48, 49 Importantly, multiple participants said threat mitigation was necessary but insufficient for safety. For learners to feel fully liberated and identity safe, additional efforts beyond safeguarding and allyship are needed—such as emphasising a sense of agency, upholding learners' unique personhoods and fostering a sense of belonging. Skills for threat mitigation remain important even on identity-safe clinical teams. Within teams, workplaces and patient care interactions, harmful identity threats are unfortunately frequent.50 Identity safety and threat mitigation have the potential to work synergistically to support all individuals in the learning environment.

이 연구에는 한계가 있습니다. 본 이론은 다양한 맥락에서 다양한 정체성 전반에 걸친 안전을 포괄하려고 시도했으며, 최대 변형 샘플링을 통해 얻은 광범위한 정체성 다양성으로 인해 정체성 안전에 대한 이해의 깊이와 뉘앙스를 잃었을 수 있습니다. 미국 서부 의과대학 3곳에서 표본을 추출했는데, 정체성은 주로 사회적으로 구성되기 때문에 지리적 또는 사회적 맥락에 따라 정체성 안전에 차이가 있을 수 있습니다. 
This study has limitations. Our theory attempts to encompass safety across many identities in diverse contexts; we may have lost depth and nuance into our understanding of identity safety due our breadth of identity diversity achieved through maximum variation sampling. We sampled from three western US medical schools; because identity is largely socially constructed, there may be differences in identity safety in differing geographical or social contexts.

8 결론
8 CONCLUSION

학습자는 여러 개의 정체성을 보유하고 있으며 정체성 위협, 위협 완화 및 정체성 안전을 경험할 수 있습니다. 정체성 안전은 개인이 자가 모니터링에서 벗어나 자신의 정체성을 환자 치료에 활용할 수 있도록 해줍니다. 정체성 안전과 위협 완화는 함께 작동하여 정체성 위협에 대처할 수 있습니다.
Learners hold multiple identities and may experience identity threat, threat mitigation and identity safety. Identity safety can liberate individuals from self-monitoring and enable them to leverage their identities for patient care. Identity safety and threat mitigation may work together to combat identity threats.

 


Med Educ. 2023 Jul 30. doi: 10.1111/medu.15174. Online ahead of print.

'Yourself in all your forms': A grounded theory exploration of identity safety in medical students

Affiliations collapse

1Division of Nephrology, University of Washington School of Medicine, Seattle, Washington, USA.

2School of Health Professions Education, Maastricht University, Maastricht, Netherlands.

3Department of Psychiatry at Hartford Hospital, Institute of Living, Hartford, Connecticut, USA.

4Department of Medicine, Division of Hospital Medicine, University of Colorado School of Medicine, Aurora, Colorado, USA.

5School of Medicine, Division of Pulmonary, and Critical Care Medicine, University of California, San Francisco, San Francisco, California, USA.

6Department of Emergency Medicine, University of Washington School of Medicine, Seattle, Washington, USA.

7Department of Pediatrics, University of Colorado School of Medicine, Aurora, Colorado, USA.

8Maastricht University Medical Centre, Maastricht, Netherlands.

9University of California, San Francisco, San Francisco, California, USA.

PMID: 37517809

DOI: 10.1111/medu.15174

Abstract

Introduction: Identity threats, such as stereotype threat and microaggressions, impair learning and erode well-being. In contrast to identity threat, less is known about how learners experience feelings of safety regarding their identity. This exploratory study aims to develop a theory of identity safety in the clinical learning environment.

Methods: This multi-institutional, qualitative interview study was informed by constructivist grounded theory and critical pedagogy. Participants were clinical students at three public medical schools in the United States in 2022. Investigators purposively sampled participants for interviews based on their responses to an 11-item survey with an open-ended question soliciting students' personal identities and responses to both the racial/ethnic and gender Stereotype Vulnerability Scales. The investigators interviewed, coded, constantly compared and continued sampling until the codes could be developed into categories, then concepts and finally into a theory. The team engaged in critical reflexivity throughout the analytic process to enrich data interpretations.

Results: Sixteen diverse students were interviewed. We organised their identity-salient experiences into identity threat, threat mitigation and identity safety. Participants experienced identity threat through unwelcoming learning environments, feeling compelled to change their behaviour in inauthentic ways or sociopolitical threat. Threat mitigation occurred when a participant or supervisor intervened against an identity threat, dampening but not eliminating the threat impact. Participants characterised identity safety as the ability to exist as their authentic selves without feeling the need to monitor how others perceive their identities. Identity safety manifested when participants demonstrated agency to leverage their identities for patient care, when others upheld their personhood and saw them as unique individuals and when they felt they belonged in the learning environment.

Discussion: Attending to identity safety may lead to educational practices that sustain and leverage team members' diverse identities. Identity safety and threat mitigation may work together to combat identity threats in the learning environment.

의학교육에서 장애 표용: 질향상 접근을 향하여 (Med Educ, 2022)
Disability inclusion in medical education: Towards a quality improvement approach
Satendra Singh1 | Lisa M. Meeks2

 

1 서론
1 INTRODUCTION

장애를 가진 의사를 포함한 보다 다양한 인력으로 초점을 전환하는 것은 국제적으로 상당한 주목을 받고 있습니다.1,2 실제로 장애 포용은 의학교육에서 르네상스를 경험하고 있습니다. 전 세계의 의학교육 협회, 규제 기관 및 프로그램은 장애 포용의 가치를 지지하며 자격을 갖춘 장애 수련의에 대한 제도적 장벽을 제거하고 포용적 관행을 강화하는 등 시스템 변화를 촉구하고 있습니다.3-7 
The shift in focus to a more diverse workforce that includes physicians with disabilities has gained considerable international traction.1, 2 Indeed, disability inclusion is experiencing a renaissance in medical education. Across the globe, medical education associations, regulating bodies and programmes espouse the value of disability inclusion and are calling for systems change, including removing systemic barriers to qualified trainees with disabilities and strengthening inclusive practices.3-7

2 의료 협회 지침
2 MEDICAL ASSOCIATION GUIDANCE

최근 몇 년 동안 5개 의학 협회는 다음과 같이 의학교육에서 직접적으로 행동을 촉구하는 중요한 지침 문서를 제공했습니다:

  • 의학교육에서의 접근성, 포용성 및 행동: 장애를 가진 학습자 및 의사의 생생한 경험(미국의과대학협회, 2018),3
  • 환영 및 가치 인정: 의학 교육 및 훈련에서 장애인 학습자 지원(영국의학위원회, 2018),4
  • 포용적 의학 교육: 장애가 있는 의대 프로그램 지원자 및 학생에 대한 지침(호주 및 뉴질랜드 의과대학 학장협회, 2021),5
  • 장애가 있는 수련의를 위한 의학교육 장벽 평가 연구(미국의사협회, 의학교육위원회, 2022)6 
  • 의료계에서의 장애(영국의사협회, 2020).7

이러한 간행물은 장애 포용성 강화를 촉구하는 동시에 의학교육 전반에 걸쳐 자격 있는 수련의가 직면한 글로벌 장벽과 지속적인 과제를 드러내기도 합니다.
In recent years, five medical associations have provided significant guiding documents that directly call for action in medical education including:

  • Accessibility, Inclusion, and Action in Medical Education: Lived Experiences of Learners and Physicians With Disabilities (Association of American Medical College, 2018),3 
  • Welcomed and Valued: Supporting disabled learners in medical education and training (General Medical Council, UK, 2018),4 
  • Inclusive Medical Education: Guidance on medical programme applicants and students with a disability (Medical Deans Australia and New Zealand Inc, 2021),5 
  • A Study to Evaluate Barriers to Medical Education for Trainees with Disabilities (American Medical Association, Council on Medical Education, 2022)6 and
  • Disability in the Medical Profession (British Medical Association, 2020).7 

While these publications call for greater disability inclusion, they also unveil global barriers and ongoing challenges for qualified trainees across the medical education continuum.

3 규제 부족
3 LACK OF REGULATION

알려진 장벽에도 불구하고 장애가 있는 수련의를 보호하기 위한 규제는 거의 존재하지 않습니다. 일반적으로 수련의 지원을 규제하는 인증 기관은 차별 금지 및 합리적 편의 제공에 대한 법적 요건 외에 장애 포용에 대한 지침을 거의 제공하지 않습니다.8 장애에 초점을 맞춘 규정은 없지만 일부 인증 기관은 학교가 질 개선(QI) 노력에 참여하도록 요구하고 있습니다.9, 10 
Despite known barriers, little regulation exists to protect trainees with disabilities. Accrediting bodies, which usually regulate trainee support, offer little guidance on disability inclusion beyond legal requirements for non-discrimination and reasonable accommodation.8 While disability-focused regulations are absent, some accreditation bodies do require schools to engage in Quality Improvement (QI) efforts.9, 10

의료 협회의 장애 포용에 대한 요구3-7와 규제의 부재를 고려할 때, 질 개선 모델은 장애 포용 및 서비스 노력을 유도하는 데 중요한 이점을 제공할 수 있습니다. 이 논평에서는 의학교육의 질 향상을 위한 고려사항을 제시하며, 이는 전 세계적으로 개정된 세계의학교육연맹(WFME)의 교육(기초의학교육, BME), 수련(의학전문대학원 교육, PME), 실무(지속적 전문성 개발, CPD)의 세 가지 수준 모두에서의 QI 표준 3부작을 다룹니다(표 1). 우리는 조직의 실천과 행동을 안내하기 위해 고안된 데밍의 질 관리를 위한 핵심 사항을 사용하여 시스템 기반의 장애 포용적이고 접근 가능하며 공평한 의학교육의 비전을 제안합니다.11 
Given the calls for disability inclusion by medical associations,3-7 coupled with the prevailing lack of regulation, models of quality improvement may hold material benefits for guiding disability inclusion and service efforts. In this commentary, we offer considerations for quality improvement in medical education that address the globally revised trilogy of World Federation for Medical Education (WFME) standards of QI at all three levels of education (Basic Medical Education, BME), training (Postgraduate Medical Education, PME) and practice (Continuing Professional Development, CPD) (Table 1). We propose a vision of systems-based disability-inclusive, accessible and equitable medical education using key points from Deming's Points for Quality Management, designed to guide organisational practice and behaviour.11

TABLE 1. Deming's points for quality management applied to disability inclusion

     
  W. Edwards Deming's 14 points Where applicable in medical education
1. Create constancy of purpose towards improvement BME/PME/CPD
  Recommendation: Build long-range disability inclusion QI into the institutional planning.
2. Adopt the new philosophy. BME/PME
  Recommendation: Adopt a new philosophy that disability diversity results in stronger, more capable and innovative systems and that physicians with disabilities add value to health care and should be celebrated.
3. Cease dependence on inspection to achieve quality. BME/PME
  Recommendation: Build quality into the system by removing barriers to access found in physical space, curriculum, policy, technical standards, disability service, licensure and accommodation request.
4. Move towards a single supplier for any one item. (Standards to minimise variation/interpretation) BME/PME
  Recommendation: Provide specialised disability resource providers to assist with disability inclusion and regulate the requirement for this position.
5. Improve constantly and forever every process for planning, production, and service BME/PME/CPD
  Recommendation: Develop a task force to consistently and quickly respond to new disability related barriers and to proactively recommend changes that improve access for all.
6. Institute training on the job. BME/PME/CPD
  Recommendation: Provide staff and faculty training on disability justice, disability competency and consciousness.
7. Adopt and institute leadership. BME/PME
  Recommendation: Leadership must communicate the commitment to disability inclusion and must create actionable steps to reach their goals.
8. Drive out fear. BME/PME
  Recommendation: Fear must be driven out through two mechanisms; creating a safe place for trainees to disclose and educating institutional stakeholders about the success of physicians with disabilities.
14. The transformation is everybody's job. BME/PME/CPD
  Recommendation: Communicate to the training community that access is an organisational commitment and that each stakeholder has a specific role.
  • Abbreviations: BME: Basic Medical Education; CPD: Continuing Professional Development; PME: Postgraduate Medical Education.

품질 관리를 위한 데밍의 포인트
4 DEMING'S POINTS FOR QUALITY MANAGEMENT

데밍의 모델은 처음에는 산업을 위해 고안되었지만 의학교육 분야에도 적용되었습니다.12, 13 데밍의 모델은 특히 장애 포용이라는 주제에 적용할 수 있습니다.

  • 첫째, 데밍의 개선 접근 방식은 개인이 아닌 시스템에 초점을 맞추고 있습니다. 역사적으로 장애 포용은 시스템에 대한 검토 없이 개인의 문제로 간주되어 왔으며,14 개인을 문제시해 왔습니다.
  • 둘째, 데밍의 모델은 결함이 있는 시스템을 계속 사용하면 기업의 성장이 저해된다는 점을 인식하고, 장애 포용에 초점을 맞춘 연구자들이 지지하는 접근 방식인 업무 수행 방식에 대한 역사적 이론을 버리고 조직이 근본적인 변화를 겪을 것을 촉구합니다.15
  • 다음으로, 데밍의 이론은 사람들이 서비스 품질 개선을 위한 새로운 통찰력과 아이디어를 창출할 수 있는 기회를 만들기 위해 조직적, 직업적 장벽을 허물어야 한다고 주장합니다.
  • 마지막으로 데밍은 리더에게 서비스 실행의 불확실성과 변동성을 최소화할 것을 요구하는데, 이는 문헌에서 지지하는 필요성입니다.3, 8, 16

여기서는 데밍의 14가지 품질 관리 이론 중 9가지를 적용하여 장애인을 의료 교육에 포함할 수 있도록 개선합니다. 
Although initially designed for industry, Deming's models have been applied to the field of medical education.12, 13 Deming's model is especially applicable to the subject of disability inclusion.

  • First, Deming's approach to improvement is specific to the system versus the individual. Disability inclusion has historically been viewed as an individual issue, problematizing the person,14 without review of the system.
  • Second, Deming's model recognises that the continued use of a flawed system will hinder a company's growth and calls for organisations to undergo fundamental change, throwing out historical theories of how work is accomplished, an approach supported by researchers focused on disability inclusion.15 
  • Next, Deming's theory calls for us to break down organisational and professional barriers as a necessary move for creating opportunities for people to generate new insights and ideas for improving service quality.
  • Finally, Deming calls on leaders to minimise uncertainty and variability in executing service, a need endorsed in the literature.3816 

Here, we apply 9 of Deming's 14-point quality management theory to improve the inclusion of individuals with disabilities in medical education.

장애 포용에 적용되는 데밍의 포인트
5 DEMING'S POINTS AS APPLIED TO DISABILITY INCLUSION

5.1 데밍의 포인트 1: 개선을 향한 목적의 일관성 만들기
5.1 Deming point 1: Create constancy of purpose towards improvement

알바니즈(1999)는 데밍의 요점 1을 사용하여 의학교육이 장애 포용의 핵심 아이디어인 학습 환경의 지속적인 개선에 중점을 두고 장기적인 관점을 통합하는 제도적 문화를 조성할 것을 촉구했습니다.13 실제로 의학교육에서 장애 포용 작업은 정책, 실무 및 커리큘럼에서 장애 포용을 옹호하는 한 두 명의 챔피언이 주도하는 학교별 작업인 경우가 많습니다. '챔피언' 모델을 고려할 때, 교수진이 바뀌면 장애 포용 업무가 축소되거나 완전히 없어질 수 있습니다. 또는 전체 의학교육 기업이 지속적인 개선 모델에 전념하는 경우, 교수진이나 리더십의 변화와 관계없이 장애 포용은 기업의 우선 순위로 유지됩니다. 
Using Deming's point 1, Albanese (1999) called for medical education to create an institutional culture that incorporates the long-range perspective with a focus on continual improvement of the learning environment—a key idea for disability inclusion.13 Indeed, disability inclusion work in medical education is often school specific, spearheaded by one or two champions who advocate for disability inclusion in policy, practice and curricula. Given the ‘champion’ model, a change in faculty may result in a reduction in—or complete elimination of—disability inclusion work. Alternatively, if the entire medical education enterprise commits to a continuous improvement model, then disability inclusion remains a priority of the enterprise, regardless of changes in faculty or leadership.

5.2 데밍 포인트 2: 새로운 철학의 채택
5.2 Deming point 2: Adopt the new philosophy

데밍은 품질 개선을 위해 새로운 철학을 채택할 것을 제안했습니다. 역사적으로 장애인 포용은 소송 위험을 완화하는 것을 주요 목표로 하는 규정 준수 문제로 간주되어 왔습니다. 교육 환경마다 장애 포용에 대한 접근 방식은 다양하지만, 모든 측면에서 다양성을 증진하려는 노력을 포함하는 사회 정의적 관점은 장애와 관련하여 종종 잊혀졌습니다. 장애 포용에 관한 연구에서 Jain은 장애를 인간 다양성의 정상적인 부분이자 가치 있는 사회적 정체성으로 간주하는 의도적 포용의 원칙에 따라 '변혁적' 접근 방식을 요구합니다.17 이러한 접근 방식에 따라 교육 환경은 모든 교육생을 포함하도록 의도적으로 설계되고 시스템에 보편적 설계유연성이 내장된 환경으로 전환됩니다.17, 18 변화는 모든 훈련생을 위한 환경을 개선하고 여러 가지 다양한 경로를 통해 역량을 달성하는 것을 목표로 하는 지속적인 과정(데밍 포인트 5 참조)입니다.17 따라서 새로운 철학은 장애 다양성이 더 강력하고 유능하며 혁신적인 시스템으로 이어진다고 말할 수 있습니다. 이 철학의 지배적인 사고방식은 장애가 있는 수련생은 의료서비스에 가치를 더하며, 따라서 축하받아야 한다는 것입니다. 
Deming suggested adopting a new philosophy for quality improvement. Historically, disability inclusion has been viewed as a compliance issue, with the primary goal of mitigating litigation risk. While training environments vary in their approach to disability inclusion, the social justice lens, which includes an avowed commitment to increasing diversity in all respects, is oft-forgotten when it comes to disability. In her work on disability inclusion, Jain calls for a ‘transformative’ approach, guided by the principles of intentional inclusion, where disability is viewed as a normal part of human variation and a valued social identity.17 Under this approach, the training environment shifts to one that is intentionally designed to include all trainees, with universal design and flexibility built into the system.17, 18 Change is an ongoing process (see Deming point 5), with the goal of improving the environment for all trainees and the achievement of competency through multiple and diverse pathways.17 Thus, a new philosophy would state that disability-diversity results in stronger, more capable and innovative systems. The prevailing mindset under this philosophy is that trainees with disabilities add value to health care and, therefore, should be celebrated.

5.3 데밍의 요점 3: 검사에 대한 의존을 중단하고 처음부터 제품에 품질을 구축하여 품질을 달성해야 합니다.
5.3 Deming's point 3: Cease dependence on inspection to achieve quality by building quality into the product in the first place

Albenese(1999)는 데밍의 3단계를 의학교육에 적용할 때, 평가는 양질의 교육과 조기 문제 발견에 중점을 두고 학생들이 개선해야 할 부분을 파악하여 교정이 적용될 수 있도록 돕기 위한 목적이어야 한다고 주장했습니다.13 그러나 장애가 있는 능력주의 환경에서는 양질의 수련생 평가가 이루어지지 않을 수 있습니다.15 
Albenese (1999) argued that in applying Deming's step 3 to medical education, assessment should be for the purpose of helping students identify where they need to improve with the focus on high-quality education and early problem detection so that remediation can be applied.13 However, high-quality trainee assessment may be absent when it occurs within a barrier-laden, ableist environment.15

의학교육 내에서 장애는 종종 시스템에 대한 위협으로 문제시됩니다.14 실제로 의료화medicalization, 즉 '의료기관이 [다양하고 비합치적non-conforming 인간의 상태와 행동]을 [생의학 지식의 영역에 들어오는 문제]로 취급하는 경향'은 자주 보고되는 문제입니다.19 장애 포용의 '상태'는 접근에 대한 시스템적 장벽으로 측정할 수 있으며, 이는 비장애 동료와 비교하여 장애인 수련생에게 불균등한 결과를 초래합니다.20 이러한 장벽은 다음을 포함한 여러 영역에 존재합니다.24, 25 

  • 입학,3, 21, 22 교육,18 과정,16 의학 교육 및 면허 시험에서의 편의 제공,23, 24 합리적이고 적절한 편의/조정에 관한 지식 부족3, 16 및 의사 면허를 위한 차별적 관행

Within medical education, disability is often problematized as a threat to the system.14 Indeed, medicalization, or the ‘tendency of a medical institution to deal with diverse, non-conforming human conditions and behaviors entering the realm of biomedical knowledge’ as problems to be cured, is an oft-report issue.19 The ‘State’ of disability inclusion can be measured by systemic barriers to access, which lead to disparate outcomes for trainees with disabilities compared to their non-disabled peers.20 These barriers are present in several domains, including:

  • admissions,32122 instruction,18 process,16 access to accommodation in medical training and licensure exams,2324 lack of knowledge regarding reasonable and appropriate accommodation/adjustments316 and discriminatory practices for physician licensure.2425 

능력주의적이고 역사적으로 적대적인 환경의 맥락에서, 장애를 스스로 확인해야 하는 상황은 또한 장애를 과소 보고하는 결과를 낳고, 수련생들은 묵묵히 고통받으며 프로그램을 충분히 이용하지 못하고 의료계에 소속감을 느끼는 혜택을 누리지 못합니다.25 미국에서는 수련생이 주도하는 공개 및 요청에 대한 정책 지원이 부분적으로 법에 근거하고 있습니다.26 이 경우 기관이나 단체가 장애인이라고 선제적으로pre-emptively 판단하고 편의를 제공하는 것을 금지하고 있습니다. 사전 문의pre-inquiry에 대한 법적 제한에도 불구하고, 기관은 유니버설 교수 설계Universal Design of Instruction의 메커니즘을 활용하여 가능한 한 모든 교육생을 위해 설계된 교수 학습 제품을 만들어 모든 학습자가 학습 환경에 접근할 수 있도록 하는 사전 접근proactive 방식을 취할 수 있고 또 취해야 합니다.18 현재까지 장애 포용에 대한 장벽을 제거하기 위한 시스템 전반의 요구 사항은 존재하지 않으므로 데밍의 포인트 4로 이어집니다. 
In the context of an ableist and historically hostile environment.15 The need to self-identify a disability will also result in an underreporting of disability and a cadre of trainees who are silently suffering, never truly having full access to our programmes and never reaping the benefits of feeling included in the medical community.25 The policy support for US-based trainee-driven disclosure and request is partially informed by the law.26 In this case, it prohibits institutions or organisations from pre-emptively determining that a person is disabled and offering accommodation. Despite legal restrictions on pre-inquiry, organisations can and should engage in proactive approaches to access by utilising mechanisms of Universal Design of Instruction, making the learning environment accessible to all learners through the creation of teaching and learning products that are designed for all trainees to the fullest extent possible.18 To date, no system-wide requirement to remove barriers to disability inclusion exist, leading us to Deming's point 4.

5.4 데밍 포인트 4: 하나의 품목에 대해 단일 공급자로 이동(변형/해석을 최소화하는 표준)
5.4 Deming point 4: Move towards a single supplier for any one item (standards to minimise variation/interpretation)

데밍은 제조업체가 단일 공급업체와의 관계를 발전시킬 것을 강력히 촉구합니다.11 원래 목표는 제조업체로 들어오는 재료의 품질을 높이고 변동성을 줄이는 것입니다. 의학교육에서는 장애를 공개한 후 수련의를 지원하는 일관된 프로세스가 없습니다.8 실제로 대부분의 수련의는 규제되지 않고 정보가 부족한 시스템에 들어가게 되며, 의사가 될 수 있는 능력에 대한 지속적인 믿음과 전문적 지원 부족으로 인한 과소 수용 또는 노골적인 거부에 취약해집니다.16 장애 포용 노력은 모범 사례나 규정 없이 개별 기관에 맡겨져 일관되지 않은 의사 결정과 매우 다양한 수련의 경험으로 이어지곤 합니다.16 편견을 줄이고, 이해 상충을 피하며, 과정에 대한 근접성과 전문성을 향상시키기 위해 설계된 '구조'가 존재하지만3 이러한 구조적 권장 사항은 규제되지 않습니다.16
Deming strongly urges manufacturers to develop a relationship with a single supplier.11 The original goal is to raise the quality and reduce the variability of the materials that come to the manufacturer. In medical education, there is no consistent process for supporting a trainee once a disability disclosure is made.8 Indeed, most will enter an unregulated, uninformed system leaving them vulnerable to persistent ableist beliefs about their ability to become physicians and under-accommodation or outright denial of accommodation due to lack of specialised support.16 Disability inclusion efforts are often left to the individual institutions, sans best practice or regulation, leading to inconsistent decision-making and highly varied trainee experiences.16 While suggested ‘structures’ exist3 and are designed to reduce bias, avoid conflicts of interest and enhance proximity and expertise to the process, these structural recommendations are not regulated.16 

문헌에는 [접근성access을 위한 전문가 접점expert touch point]으로서 [전문 장애 자원 전문가]를 갖출 것에 대한 요구가 다수 존재한다.3, 6, 8, 16 이 '단일 공급자' 접근법은 [장애 지원 제공자]를 한 명으로 하여 장애 수련의가 의료 교육에서 장애 포함 및 편의에 대한 전문 지식을 갖춘 비-평가적인 지도자에게 비밀리에 접근하는 모범 사례를 가리킵니다. 이러한 '단일 공급자'는 시스템 전반에 걸쳐 여러 번의 협상의 필요성을 줄이고, 민감한 장애 관련 문서를 보관할 수 있는 중앙 집중식 기밀 공간을 제공하며, 편의 제공에 대한 해석이 필요한 교수진이나 관리자를 지원합니다.16 또한 평가자가 장애에 기반한 편견을 인식하지 못할 때 발생할 수 있는 차별적 대우를 줄여줍니다. 규제 기관이 정신건강 서비스 제공자에게 요구하는 것과 유사하게 의과대학 전반에 걸쳐 이러한 역할을 요구한다면 의학교육이 데밍의 요점 4에 더 가까워지고 변형/해석을 최소화할 수 있을 것입니다.8 
The literature consists of multiple calls for a specialised disability resource professional as an expert touch point for access.3, 6, 8, 16 This single supplier approach points towards the best practice of having a single disability resource provider so that trainees with disabilities have access to a confidential, non-evaluative leader with expertise in disability inclusion and accommodation in medical training. This ‘single supplier’ reduces the need for multiple negotiations across the system, allows for a centralised and confidential space for holding sensitive disability documentation and provides support to faculty or administrators who require interpretation of an accommodation.16 It also reduces disparate treatment that can sometimes occur when evaluators are unaware of their disability-based biases. If regulating bodies were to require this role across medical schools, similar to how they require mental health providers, medical education would move closer to Deming's point 4 and minimise variation/interpretation.8

5.5 데밍의 요점 5: 계획, 생산 및 서비스를 위한 모든 프로세스를 지속적으로 그리고 영원히 개선해야 합니다.
5.5 Deming's point 5: Improve constantly and forever every process for planning, production and service

데밍은 증가하는 요구사항에 진정으로 대응하기 위해서는 조직이 지속적인 개선에 집중해야 한다고 강조했습니다. 더 많은 장애인 교육생이 시스템에 들어와 정보를 제공함에 따라 새로운 장벽이 식별되고 더 큰 포용의 기회가 발견될 것입니다. 지속적인 개선을 위한 노력은 시스템을 민첩하게 만들고, 장벽을 파악하고, 신속하게 대응할 수 있게 해주며, 유니버설 디자인, 커리큘럼 변경 또는 비표준 시간 내에 의학 학위를 이수할 수 있도록 시스템 내 유연성 강화를 통해 많은 교육생의 요구를 충족하도록 시스템을 발전시킬 수 있습니다.
Deming highlighted that to be truly responsive to growing needs, an organisation must focus on continuous improvement. As more trainees with disabilities enter and inform the system, new barriers will be identified and opportunities for greater inclusion uncovered. A constant commitment to improving allows the system to be nimble, identify barriers, and respond quickly, evolving the system to meet the needs of many trainees through universal design, curricular changes or enhanced flexibility within a system to allow for completion of a medical degree in non-standard time.

5.6 데밍의 요점 6: 직무에 대한 교육 실시
5.6 Deming's point 6: Institute training on the job

의학교육의 사회적 책무는 국가적, 세계적 차원에서 환자와 의료 시스템의 요구사항에 대응하기 위한 노력과 능력을 의미합니다.27 2006년 장애인 권리 협약과 2011년 세계 장애 보고서에서 인권 원칙에 기반한 장애 교육을 보장하기 위한 제도를 강조했음에도 불구하고, 원칙적으로 정착되지 않았습니다.28-31 
Medical education's social accountability implies a commitment and ability to respond to the requirements of patients and health care systems on a national and global scale.27 Despite the Convention on the Rights of Persons with Disabilities in 2006, and the World Report on Disability in 2011 emphasising institutions to ensure disability training based on human rights principles, it has not percolated down in principle.28-31

의사들이 장애는 사회적 구성물이며, 교육이나 진료에서 장애를 인권의 부정이나 제한을 위한 정당한 근거로 삼아서는 안 된다는 점을 인식해야 할 필요성이 커지고 있습니다. 이러한 이유로 연구자들은 정의와 자율성을 구현하기 위해 의료 환경 내에서 장애 문화적 역량을 구현할 것을 요구해 왔으며, 인증 기관에 서한을 보내 BME와 PME에 이를 의무적으로 포함하도록 요청해 왔습니다. 그러나 장애 역량이 의학교육의 필수적인 부분이 되도록 사법 운동을 통해 변화를 이끌어내는 것은 소수의 열정적인 장애 인권 운동가들에게 달려 있는 경우가 많습니다.32-37 데밍의 institute training on the job 철학을 실현하고 법적 의무를 이행하기 위해서는 장애 역량으로서 장애 권리에 대한 의학교육자의 의무적인 교육과 더불어 장애 의식을 가르치려는 열망,38 데밍의 포인트 5와 6을 바탕으로 맥락 내에서의 장애에 대한 이해를 일관되고 지속적으로 성장시키는 것을 목표로 삼아야 합니다. 또한 장애를 '극복'한 것으로 간주하는 장애 포용 철학에서 교육기관이 장애 교육생을 다양한 학습자 커뮤니티의 일원으로 예상하고 정상화하는 철학으로 조정되어야 합니다. 
There is a growing need for physicians to realise that disability is a social construct, and be it in teaching or practice, disabilities must not be taken as a legitimate ground for the denial or restriction of human rights. On this account, researchers have been calling for disability cultural competencies within health care settings to implement justice and autonomy and statutory bodies writing to accreditation bodies to mandatory include it in the BME and PME. Yet, more often than not, the onus lies on a few passionate disability rights activists to bring change through judicial activism to ensure disability competencies are a mandatory part of medical education.32-37 To realise Deming's philosophy of institute training on the job, and to fulfil legal obligations, there must be mandatory training of medical educators on disability rights as disability competencies as well as an aspiration to teach disability consciousness,38 which draws on Deming's Points 5 and 6; to consistently and continually aim to grow in our understanding of disability in context. In addition, the philosophy of disability inclusion must be adjusted from one where disabled trainees are viewed as having ‘overcome’ disability to one where institutions anticipate and normalise disabled trainees as part of the community of diverse learners.

5.7 데밍의 요점 7: 리더십 채택 및 제도화
5.7 Deming's point 7: Adopt and institute leadership

의학계 전반에 걸쳐 장애 포용에 대한 행동 촉구에도 불구하고, 이러한 요구를 실행 가능한 조치로 전환하고 장애인 인구의 성장을 환영하고 지원하며 촉진하는 환경을 조성하는 데 실패하고 있습니다. 실제로 교육 접근성에 대한 지속적인 보고는 앞서 언급한 가이드라인이 널리 채택되지 않았다는 증거입니다.39-41 
Despite calls to action on disability inclusion across medical associations, there exists a failure to translate these calls into actionable steps and to create environments that welcome, support and foster growth in the disabled population. Indeed, continued reports of inaccessibility in training stand as evidence that the aforementioned guidelines are not widely adopted.39-41

연구자들은 사명 선언문을 뛰어넘는 모범 사례를 제안했습니다.3, 42 장애 포용에 성공하려면 시스템의 모든 이해관계자, 특히 리더십이 목적에 전념해야 합니다. 데밍의 기관 리더십 철학은 기관이 조직 전반에 걸쳐 양질의 포용성을 수용하고 최고 수준의 리더십이 장애 커뮤니티의 정보를 바탕으로 측정 가능한 변화를 가져오는 데 전념할 때만 달성할 수 있습니다. 그들은 '우리 없이는 아무것도 없다'는 장애 포용의 모토에 따라 행동해야 하며, 대의에 대한 헌신과 목표 달성을 위한 실행 가능한 계획을 커뮤니티에 전달해야 합니다. 
Researchers have suggested best practices to move beyond mission statements.3, 42 If we are to excel at disability inclusion, all stakeholders in the system must be committed to the purpose, especially leadership. Deming's philosophy of institute leadership can only be achieved; however, if institutions embrace quality inclusion throughout the organisation and where the highest levels of leadership are committed to bringing about measurable change, informed by the disability community. They must act in line with the disability inclusion mantra, ‘nothing about us, without us’ and communicate to the community their commitment to the cause and an actionable plan to reach the goal.

5.8 데밍의 요점 8: 두려움을 몰아내세요
5.8 Deming's point 8: Drive out fear

의대 교육자 및 지도자, 학생에게 두려움은 장애 포용을 방해할 수 있습니다. 수련의 관점에서 볼 때 의과대학 입학 지원 절차는 좋은 지원자에 대한 제한적인 시각을 유지합니다. 수련생들은 의대 프로그램이 좋은 의사를 몸이 불편하지 않은 사람으로 간주한다고 보고합니다. 이상적인 의대 지원자이자 미래의 의대 수련의는 '엄격한 학업 요구와 적극적인 사회적 헌신을 병행하면서 우수한 평가를 유지하는 사람'입니다.41 의대 입학의 경쟁적 특성을 고려할 때, 많은 수련의는 공개에 대한 두려움에 시달리며 장애와 같이 결점으로 간주될 수 있는 정보를 공유하지 않도록 권장될 수 있습니다. 접근하기 어려운 지원서 양식, 의과대학 입학 시험에서 편의 제공 부족, 의사 섀도잉에 대한 불공평한 접근, 입학 위원회에 대한 반장애인주의 교육 부족 등 입학 절차 자체가 부담스러울 수 있습니다.15, 21, 22 
For medical educators and leaders, and students, fear may stall disability inclusion. From the trainee perspective, the application process for medical school entry retains restrictive views of a good applicant. Trainees report that their programmes view the good doctor as someone who is not unwell. The ideal medical applicant and future medical trainee is someone who ‘juggles rigorous academic demands with active social commitments while maintaining excellent evaluations’.41 Given the competitive nature of medical school admissions, many trainees are driven by fear of disclosure and may be encouraged not to share information that might be considered a deficit, like a disability. The admissions process itself may prove burdensome, with inaccessible formats for application, lack of access to accommodation on medical school entry examinations, inequitable access to physician shadowing and lack of anti-ableist training for admissions committees.15, 21, 22

반대로, 입학 위원회, 교수진 및 관리자는 미지의 영역에 대한 두려움으로 장애인이 의학 분야에 적합하지 않다고 잘못 판단할 수 있습니다. 장애 포용을 장려하기 위해서는 프로그램이 장애를 공개하고 편의를 요청할 수 있는 안전한 공간이라는 신뢰와 명확한 이해를 통해 학습자의 두려움을 없애야 합니다. 교육 프로그램에서 장애를 가진 의사의 실제 성공 사례를 공유하면 두려움을 없애는 데 직접적인 도움이 될 수 있습니다. 
Conversely, admissions committees, faculty and administrators may fear the unknown, and may falsely believe that individuals with disabilities are not well suited for a career in medicine. In order to encourage disability inclusion, fear must be driven out of learners through trust and a clear understanding that the programme is a safe space to disclose and request accommodations. For training programmes, sharing success stories of physicians with disabilities in practice can help directly drive out fear.

5.9 데밍의 요점 14: 변화는 모두의 일이다
5.9 Deming's point 14: The transformation is everybody's job

행동 촉구에도 불구하고 의학교육에 장애를 포용하고 의학교육 내 장애 커리큘럼에 대한 글로벌 지침이 부족합니다. 교육 기관의 모든 구성원은 장애 접근성에서 각자의 역할을 수행하며, 자신이 교육 기관의 장애 접근성이라는 큰 그림에 어떻게 부합하는지 이해해야 합니다. 장애 접근은 또한 장애 정보를 제공해야 합니다. 장애인 수련의에 대한 동등한 접근은 환자와 의료 제공자 모두에서 세계에서 가장 큰 소수인 장애인의 요구를 해결하지 않는 한 달성할 수 없습니다. 데밍에 따르면 이러한 결함[오류]은 학습의 기회로 보아야 합니다. 변화는 우리 모두의 일이므로, 최근 의학교육에서의 장애 포용을 위한 국제위원회43 가 출범하고 국제적으로 장애 편의시설을 마련하기 위해 노력하는 것은 환영할 만한 움직임이며, 지침이 없는 국가에 다가갈 수 있도록 WFME 지역 협회의 적극적인 참여가 필요합니다.1, 2, 44  
Despite calls to action, we lack global guidance on disability inclusion in medical education and disability curriculum within medical education. Each person in the institution plays a role in disability access and should understand how they fit into the larger picture of institutional access. Disability access must also be disability informed. Equal access for disabled trainees, will not be achieved until and unless we address the needs of the world's largest minority—people with disabilities—both as patients and providers. These deficiencies [errors] must be seen as learning opportunities, per Deming. As transformation is everyone's job, the recent launch of the International Council for Disability Inclusion in Medical Education43 and its work on producing disability accommodations internationally is a welcome move and needs active participation from the WFME regional associations to reach out to nations with no guidance.1, 2, 44

6 결론
6 CONCLUSION

WFME는 품질 개선을 위한 글로벌 표준 3부작을 제시했습니다. 우리는 장애 포용의 질을 개선하기 위해 QI 개입을 사용할 수 있는 여러 지점을 제공했습니다. 인권의 관점에서 장애를 바라보고, 합리적인 편의에 대한 표준화된 접근과 이해를 제공하고, 시스템의 모든 이해관계자에게 교육을 제공하면 장애 포용을 향한 문화와 분위기가 인간화될 수 있습니다. 보다 다양한 보건 전문 인력은 건강 결과를 개선하고, 건강 격차를 완화하며, 장애를 포용하고 접근 가능하며 공평한 보건 전문 교육, 훈련 및 실습으로 이어질 수 있습니다.
WFME has given the trilogy of Global Standards for Quality Improvement. We provided multiple points where QI intervention can be used to improve the quality of disability inclusion. Viewing disability from the human rights perspective, providing standardised access and understanding of reasonable accommodation and providing training to all stakeholders in the system may result in humanising the culture and climate towards disability inclusion. A more diverse health professional workforce can improve health outcomes, mitigate health disparities and lead to disability-inclusive, accessible and equitable health profession education, training and practice.

 


 

 

Med Educ. 2023 Jan;57(1):102-107. doi: 10.1111/medu.14878. Epub 2022 Jul 24.

 

 

Disability inclusion in medical education: Towards a quality improvement approach

Affiliations collapse

1University College of Medical Sciences, University of Delhi, Delhi, India.

2Departments of Learning Health Sciences and Family Medicine, University of Michigan Medical School, Ann Arbor, Michigan, USA.

PMID: 35837829

DOI: 10.1111/medu.14878

Abstract

The issue: The shift to a more diverse workforce that includes physicians with disabilities has gained considerable international traction. Indeed, disability inclusion is experiencing a renaissance in medical education. However, the philosophy of disability inclusion must be adjusted from one where disabled trainees are viewed as problematic and having to 'overcome' disability to one where institutions anticipate and welcome disabled trainees as a normative part of a diverse community.

Observations: Most trainees with disabilities will enter an unregulated, uninformed system leaving them vulnerable to under-accommodation, systems barriers and lack of informed support. Further, the perception of the super human good doctor creates disincentives for candidates to disclose their disability, creating structural barriers that the system needs to address. A less often discussed contributor to health care inequities is the inadequate training of health professional educators on disability rights and disability competencies. Indeed, the lack of education, coupled with minimal exposure to disability outside of the hierarchical patient-provider relationship, perpetuates to stereotypes and biases that impact clinical care.

Approach: Disability inclusion has not been reviewed through the lens of quality improvement. To close this gap, we examine the state of the science through the lens of disability inclusion and offer considerations for a quality improvement approach in medical education that addresses the global revised trilogy of World Federation for Medical Education standards of quality improvement at all three levels of education, training and practice.

Conclusion: We propose a vision of systems-based disability-inclusive, accessible and equitable medical education using 9 of Deming's 14 points as applicable to medical education.

의학교육에서 장애 역량 훈련(Med Educ Online. 2023)
Disability competency training in medical education (Med Educ Online. 2023)
Danbi Leea,b, Samantha W. Pollackb, Tracy Mroza,b, Bianca K. Frognerb and Susan M. Skillmanb

 

소개
Introduction

장애인은 건강 상태와 의료 서비스에서 지속적인 격차를 경험합니다. [1,2,3] 적절한 의료 서비스를 가로막는 다단계 장벽의 핵심은 장애인의 다양한 경험과 필요에 대한 의료 서비스 제공자의 인식과 교육 부족, 부정적인 태도와 가정입니다[4,5]. 장애인은 접근하기 어려운 공간 및 장비, 의사소통 부족, 치료 결정 시 기존 장애 또는 기능적 상태를 고려하지 않는 등 의료 제공자의 장애 친화적 진료 부족으로 인해 양질의 의료 서비스를 이용하는 데 어려움을 겪고 있습니다[6-8]. 의사를 포함한 25,000명 이상의 의료 서비스 제공자를 대상으로 한 최근 연구에 따르면 60% 이상이 장애인에 대한 자신의 암묵적인 편견을 인식하지 못하고 있는 것으로 나타났습니다[9]. 그러나 문헌에 따르면 의료 서비스 제공자들은 장애에 대한 부정적인 태도와 특정 임상 및 접근 요구 사항을 포함한 장애인의 광범위한 의료 요구 사항을 다루는 제한된 교육만 받고 있습니다[10-13]. 
People with disabilities experience persistent disparities in health status and health care. [1, 2,3] Central to the multilevel barriers to adequate health care are the lack of awareness and training among health care providers about the varied experiences and needs of individuals with disabilities, as well as negative attitudes and assumptions [4,5]. People with disabilities continue to experience challenges in accessing quality health care because of lack of disability-competent care by providers such as inaccessible space and equipment, poor communication, and not considering existing disability or functional status in making treatment decisions [6–8]. A recent study of over 25,000 health care providers, including physicians, found that more than 60% were unaware of their own implicit bias against people with disabilities [9]. Yet, literature shows that providers receive only limited training addressing negative attitudes towards disability and the wide range of health care needs of people with disabilities including specific clinical and access needs [10–13].

2017년에 발표된 미국 의과대학 장애 커리큘럼을 검토한 결과, 장애 역량을 통합하는 수준은 여전히 이질적이며 주로 노출에 기반한 것으로 나타났으며 종단적 모델을 제공하는 학교는 소수에 불과했습니다[12]. 여기에는 강의 및 단일 코스와 같은 교훈적인 방법부터 사무직 로테이션 중 표준화된 장애 환자 포함, 6주 통합 사무직 경험, 위의 모든 방식과 4년간의 장애 중심 선택적 사무직에 대한 옵션이 포함된 4년 통합 장애 커리큘럼에 이르기까지 다양합니다. 의학교육에서 장애에 대해 무엇을 가르쳐야 하는지에 대한 합의가 부족하기 때문에 장애 커리큘럼 제공의 다양성은 내용에도 영향을 미칩니다[14]. 
A review of published U.S. medical school disability curricula in 2017 found that the level of integrating disability competency remained to be heterogeneous and primarily exposure-based with only a few schools providing a longitudinal model [12]. These range from didactic methods like lectures and single courses, to the inclusion of standardized patients with disabilities during clerkship rotations; 6-week integrated clerkship experiences; and 4-year integrated disability curriculum that included all of the above modalities and the option of attending a 4th-year disability-focused elective clerkship. The variability in delivering disability curricula also extends to content as there has been lack of agreement on what to teach about disability in medical education [14].

이러한 격차를 인식하고 2019년에 보건의료 교육 장애 연합은 장애 관련 콘텐츠와 경험을 보건의료 교육 및 훈련 프로그램에 통합하는 것을 촉진하기 위해 보건의료 교육 장애에 관한 핵심 역량(핵심 역량)을 발표했습니다[15]. 다양한 보건의료 분야의 보건의료 교육자, 교수진 및 전문가로 구성된 연합 회원들은 역량 초안을 작성하고 140명의 장애 전문가 및 보건교육자로부터 두 차례에 걸친 반복적인 프로세스를 통해 피드백을 받았습니다. 2년에 걸친 이 과정을 통해 장애의 사회적, 환경적, 신체적 측면에 대한 보건의료 교육 표준을 제공하는 6개의 핵심 역량과 49개의 하위 역량(표 1)이 도출되었습니다[14,15]. 이러한 핵심 역량이 의학교육에서 다루어지고 있는지 여부와 그 방법을 조사한 연구는 아직 없습니다. 이 연구는 미국의 의학교육 프로그램에서 핵심역량이 어느 정도 다루어지고 있는지, 그리고 교과과정 통합을 확대하는 데 있어 촉진요인과 장벽이 무엇인지 살펴보는 것을 목표로 했습니다.  
Recognizing this gap, in 2019, the Alliance for Disability for Health Care Education published Core Competencies on Disability for Health Care Education (Core Competencies) to promote the integration of disability-related content and experiences into health care education and training programs [15]. Members of the alliance composed of health care educators, faculty and professionals across different health care disciplines drafted the competencies and received feedback through a two-wave iterative process from 140 disability experts and health educators. This two-year process resulted in six core competencies and 49 sub-competencies (Table 1) that provide health care education standards on social, environmental, and physical aspects of disability [14,15]. There has yet been a study that examined whether and how these Core Competencies are addressed in medical education. The study aimed to explore the extent the Core Competencies are addressed in medical education programs in the U.S. and the facilitators and barriers to expanding curricular integration.

ADHCE Core Competencies on Disability for Health Care Education post-consensus-Core-Competencies-on-Disability_8.5.19.pdf
0.26MB

https://www.adhce.org/Core-Competencies-on-Disability-for-Health-Care-Education

연구 방법
Methods

이 연구는 순차적 혼합 방법 설계를 사용하여 온라인 설문조사에 이어 정성적 인터뷰를 진행했습니다. 문제에 대한 보다 심층적이고 완전한 이해를 제공하기 위해 양적 및 질적 데이터를 모두 수집했습니다[16]. 이 연구는 워싱턴대학교 기관생명윤리심의위원회(IRB# MOD00007591)에서 면제를 결정했습니다. 
The study used a sequential mixed-methods design, where an online survey was followed by qualitative interviews. Both quantitative and qualitative data were collected to provide a more in-depth and complete understanding of the problem [16]. This study was determined to be exempt by the University of Washington Institutional Review Board (IRB# MOD00007591).

설문지
Questionnaire

23개 항목으로 구성된 설문지는 장애 연구(DL), 의료 서비스(TM, BF, SS, SP), 의료 인력(DL, TM, BF, SS, SP) 연구 분야의 전문가로 구성된 다학제 프로젝트 팀에 의해 개발되었습니다. 객관식 질문은 현재 커리큘럼에서 어떤 핵심 역량이 다루어지고 있는지, 학교에서 장애 콘텐츠를 커리큘럼에 통합하는 데 있어 어떤 촉진자와 장벽이 있는지, 장애인이 어떻게 참여하고 있는지 파악하기 위해 사용되었습니다. 핵심 역량에 매핑된 학습 활동의 세부 사항(예: 이름, 내용/주제, 형식, 필수/선택 사항, 활동 시기)을 수집하기 위해 개방형 질문이 사용되었습니다. 예비 설문조사 문항은 장애 교육에 전문성을 갖춘 의과대학 교수진과 장애인의 공평한 의료 서비스를 옹호하는 장애인 단체의 장애인 전문가 등 6명의 전문가로 구성된 자문 패널에 의해 파일럿 테스트 및 검토를 거쳤습니다. 이후 이들의 피드백을 바탕으로 설문지를 수정했습니다. 
A 23-item questionnaire was developed by a multidisciplinary project team of experts in the research areas of disability studies (DL), health services (TM, BF, SS, SP), and health workforce (DL, TM, BF, SS, SP). Multiple-choice questions were used to identify which Core Competencies are currently addressed in the curriculum; what facilitators and barriers schools experience in to incorporating disability content into the curriculum; and how people with disabilities are involved. Open-ended questions were used to gather details of learning activities mapped to the Core Competencies (i.e., name, content/topic, format, required/optional, and timing of the activity). Preliminary survey questions were pilot-tested and reviewed by an advisory panel of six experts including faculty from medical schools with expertise in disability education and experts with disabilities from disability organizations advocating for equitable health care of people with disabilities. The survey was then revised based on their feedback.

설문조사는 2019학년도 현재 예비 또는 잠정 인증 상태를 유지하고 있는 프로그램을 포함하여 미국의 모든 동종요법 및 정골요법 의과대학(n = 196개)에 배포되었습니다. 2020년 2월부터 6월 사이에 커리큘럼 학장, 학부 교육 학장, 프로그램 디렉터에게 이메일 초대장과 6차례의 리마인더를 보냈습니다. 설문조사 응답의 데이터 수집에는 REDCap(Research Electronic Data Capture)이 사용되었습니다[17]. 
The survey was distributed to all allopathic and osteopathic medical schools in the U.S. (n = 196), including programs with preliminary or provisional accreditation status as of the 2019 academic year. Email invitations and six reminders were sent to curriculum deans, deans of undergraduate education, and program directors between February and June 2020. Research Electronic Data Capture (REDCap) was used for data collection of survey responses [17].

질적 인터뷰
Qualitative interviews

질적 인터뷰 대상자는 설문조사 응답자 중에서 다양한 지역의 의과대학을 대표할 수 있도록 의도적으로 선정되었습니다. 제1저자와 제2저자는 반구조화된 인터뷰 가이드를 사용하여 Zoom을 통해 30~60분간 개별 인터뷰를 진행했습니다. 설문조사 결과를 바탕으로 설문조사에 기술된 학습 활동과 장벽 및 지원 사항을 더 잘 이해할 수 있도록 설계된 인터뷰 가이드(표 2)를 작성했습니다. 인터뷰 가이드는 동일한 다학제 프로젝트 팀에서 개발했습니다. 인터뷰에 앞서 참가자들은 연구 참여에 대한 사전 동의를 제공했습니다. 동의한 참가자에게는 장애 콘텐츠가 포함된 학습 활동과 그것이 학생에게 미치는 영향, 학습 활동을 시작하고 유지하는 데 도움이 되는 요소, 더 많은 통합을 가로막는 장벽에 대해 설명해 달라는 요청을 받았습니다. 인터뷰는 허가를 받아 녹음되었습니다. 
Qualitative interviewees were purposefully selected from survey respondents to represent medical schools from different regions. Thirty to sixty-minute individual interviews were conducted by the first and second authors via Zoom using a semi-structured interview guide. Informed by the survey findings, the interview guide that was designed to better understand the learning activities and barriers and supports described in the survey (Table 2). The interview guide was developed by the same multidisciplinary project team. Prior to the interview, participants provided informed consent to their research participation. Consented participants were asked to describe learning activities with disability content and their impact on students, facilitators to initiating and maintaining learning activities, and barriers to integrating more. Interviews were recorded with permission.

데이터 분석
Data analysis

O'Cathain 외[18]가 제안한 데이터 삼각측량 프로토콜에 따라 데이터를 먼저 개별적으로 분석한 다음 해석 단계에서 통합했습니다. 먼저, 의과대학에서 어떤 핵심역량을 얼마나 많이 다루고 있는지, 장애인이 어떻게 참여하고 있는지, 어떤 지원과 장벽이 존재하는지 파악하기 위해 서술적 통계를 사용하여 설문조사 데이터를 분석했습니다. 개방형 질문에 기술된 학습 활동의 세부 사항(예: 학습 활동의 유형, 초점, 길이, 빈도)을 코딩하고 정성적, 정량적으로 요약했습니다. 그런 다음 개별 인터뷰의 메모와 녹취록을 주제 분석을 사용하여 분석했습니다[19]. 주제는 연구팀과 논의했습니다. 코딩-재코딩, 데이터 삼각측량, 데이터의 두꺼운 기술, 반성성(장애인으로서의 입장에 대한 끊임없는 성찰과 토론)을 통해 신뢰성, 전달성, 확인성을 확보했습니다. 마지막으로 해석의 깊이를 더하기 위해 양적 데이터와 질적 데이터의 결과를 비교하고 수렴성, 상호보완성, 불일치성을 검토했습니다[18]. 

Following the data triangulation protocol suggested by O’Cathain et al. [18], data were first analyzed separately then integrated at the interpretation stage. First, survey data were analyzed using descriptive statistics to identify which and how many Core Competencies were addressed in medical schools, how people with disabilities are involved, and what supports and barriers exist. Details of the learning activities described in the open-ended questions were coded (e.g., types, focus, length, and frequency of the learning activities) and summarized qualitatively and quantitatively. Then, notes and transcripts from the individual interviews were analyzed using thematic analysis [19]. Themes were discussed with the research team. Credibility, transferability, and confirmability were ensured through coding-recoding, data triangulation, thick description of data, and reflexivity (i.e., constant reflection and discussion regarding positionality as persons without disabilities). Finally, to add depth to the interpretation, results from quantitative and qualitative data were compared and examined for convergence, complementarity, and discrepancy [18].

 

결과
Results

참가자
Participants

총 14개 프로그램에서 설문조사를 완료했습니다. 대부분의 응답자는 대규모 코호트를 보유한 동종요법 공립 의과대학이었습니다(표 3). 5명의 의과대학 대표가 질적 인터뷰에 참여했습니다. 여기에는 미국의 4개 인구조사 지역을 대표하는 사립 의과대학 1개와 공립 의과대학 4개가 포함되었습니다.
A total of 14 programs completed the survey. Most respondents were allopathic public medical schools with larger cohorts (Table 3). Five medical school representatives participated in the qualitative interview. This included one private and four public medical schools representing four U.S. census regions.

조사 결과
Findings

설문조사와 질적 인터뷰 결과를 통합하여 두 가지 주제 영역으로 분류했습니다:

  • 1) 핵심 역량을 다루는 장애 역량 교육 현황,
  • 2) 장애 역량 교육을 통합하는 데 있어 장벽과 촉진 요인.

특히 질적 데이터를 통해 다음에 대해 보다 심층적으로 이해할 수 있었습니다.

  • 1) 커리큘럼 구조와 시간이 핵심역량 통합에 미치는 영향,
  • 2) 자원과 챔피언의 중요한 역할

Integrated, the results from the survey and qualitative interviews were categorized into two topic areas: 1) status of disability competency training addressing the Core Competencies and 2) barriers and facilitators to integrating disability competency training. Qualitative data particularly provided more in-depth understanding on 1) the influence of curricular structure and time on integrating Core Competencies and 2) the crucial role of resources and champions.

핵심 역량을 다루는 장애 역량 교육 현황
Status of disability competency training addressing the Core Competencies

14개 학교 중 11개 학교가 교육과정에서 5~6개의 핵심 역량을 다루고 있다고 응답했습니다(표 4). 대부분의 학교(n=13)는 장애에 대한 맥락 및 개념적 프레임워크와 팀 및 시스템 기반 실무에 대해 다루고 있다고 답했습니다. 법적 의무와 책임에 관한 역량은 가장 적게 다루고 있었습니다(n = 6). 
Eleven out of 14 schools reported that their curriculum addresses five to six Core Competencies in their curriculum (Table 4). Most schools (n = 13) said that they address contextual and conceptual frameworks on disability and teams and systems-based practice. Competencies around legal obligations and responsibilities were least addressed (n = 6).

 

장애 역량 교육의 정도는 다양했습니다. 의과대학의 약 절반은 커리큘럼에 한두 가지 학습 활동이 있다고 답했고, 나머지 절반은 세 가지 이상의 학습 활동이 있다고 답했습니다. 대부분의 학습 활동은 일회성 환자 패널 또는 환자 시뮬레이션과 같이 45분~2시간의 단일 세션으로 제공되었습니다. 일부는 2년 이상의 통합 사례, 1년 이상의 주간 시뮬레이션, 4주간의 임상 로테이션 등 여러 과정과 장기간에 걸쳐 통합된 더 긴 학습 활동도 있었습니다. 고급 배치 또는 임상 로테이션과 같은 연장된 경험은 선택 사항이었지만 대부분의 학습 활동은 필수였습니다. 4학년의 임상 로테이션과 3학년의 몇 가지 환자 대면을 제외하고 보고된 모든 학습 활동은 의학교육의 첫 2년 동안 완료되었습니다. 
The extent of disability competency training varied. About half of the medical schools reported one or two learning activities within their curriculum; the other half described three or more learning activities. Most learning activities described were offered in single 45-minute to 2-hour sessions such as one-time patient panels or patient simulations. Some were longer and more integrated across different courses and extended time periods, including integrated cases over 2 years, weekly simulations over a year, and 4-week clinical rotations. The majority of learning activities were required although most of the extended experiences such as advanced placement or clinical rotations were optional. Except for the clinical rotations in year 4 and a few patient encounters in year 3, all learning activities reported were completed during the first two years of medical education.

학습 활동에는 강의, 사례 연구, 패널 토론, 소그룹 토론이 포함되었습니다. 많은 학교에서

  • 장애에 대한 인식을 높이기 위해 다양한 장애 모델, 능력주의, 암묵적 편견과 같은 주제를 논의하고,
  • 장애 에티켓과 임상 평가 또는 다학제 진료에서 장애인과 상호작용하는 방법을 다루었으며,
  • 환자 패널을 통해 장애인의 생생한 경험에 대해 배울 수 있는 기회를 제공했습니다.

일부 학교에서는 재활의 맥락에서 의학적 상태로서의 장애에 대해 배우거나(예: 재활 현장 방문, PM&R 임상 로테이션) 의학적 맥락에서 장애 관련 진단(예: 뇌성마비, 치매)을 이해하는 데 중점을 둔 활동을 보고했습니다. 장애인 또는 표준화된 환자와의 일회성 만남 및 시뮬레이션이 더 일반적이었으며, 장애 커뮤니티와의 현장 프로젝트 또는 장애인과의 장기 임상 경험과 같은 몰입형 체험 학습 기회를 제공하는 학교는 더 적었습니다. 핵심 역량과 연계된 학습 활동의 구체적인 예는 표 4에 나와 있습니다.  
The learning activities included lectures, case studies, panel discussions, and small group discussions. Many

  • discussed topics such as different disability models, ableism, and implicit bias to raise awareness of disability;
  • addressed disability etiquette and how to interact with people with disabilities in clinical assessments or in interdisciplinary care; and
  • provided opportunities to learn about the lived experiences of people with disabilities through patient panels.

Some schools reported activities focused on learning about disability as a medical condition within the context of rehabilitation (e.g., visiting rehabilitation sites, clinical rotation in PM&R) or understanding disability-related diagnoses (e.g., cerebral palsy, dementia) in a medical context. One-time encounters and simulations with people with disabilities or standardized patients were more common, and less schools offered immersive experiential learning opportunities such as a field project with disability communities or extended clinical experiences with people with disabilities. Specific examples of learning activities linked to the Core Competencies are listed in Table 4.

의과대학 커리큘럼에서 신체적 장애를 가장 많이 다루고 있었으며(n = 13), 감각 장애에 대한 논의는 가장 적었습니다(n = 9). 또한 설문조사 결과에 따르면 장애인은 패널(n = 9) 또는 환자(n = 7)로서 학습 활동에 참여하는 경우가 많았으며, 교육(n = 4) 또는 커리큘럼 활동 계획(n = 4)에 참여하는 역할은 적었습니다. 3개 학교는 장애인이 전혀 참여하지 않았다고 보고했습니다. (표 5 참조)
Most frequently, the medical school curricula addressed physical disability (n = 13) while sensory disabilities were least discussed (n = 9). The survey result also shows that people with disabilities were often engaged in learning activities as panelists (n = 9) or patients (n = 7) with less of a role in teaching (n = 4) or planning curricular activities (n = 4). Three schools reported no involvement of individuals with disabilities. (see Table 5)

설문조사 결과와 유사하게, 주요 정보 제공자들과의 질적 인터뷰에서는 패널과 함께하는 짧은 독립 세션, 시뮬레이션 또는 특정 주제를 다루는 토론과 관련된 학습 활동이 많이 논의되었습니다. 인터뷰 참여자들은 패널과 환자와의 만남이 종종 학생들이 좋아하고 긍정적인 영향을 미친다고 언급했습니다.
Similar to the survey results, in the qualitative interviews with key informants, many learning activities discussed involved short independent sessions with panels, simulations, or discussions that address particular topics. Interviewees noted that panels and patient encounters are often liked by students and have a positive impact.

... 학생들은 이러한 세션이 끝난 후 훨씬 더 자신감이 생겼다고 말했습니다... [장애] 환자와 함께 방에 들어가서 어떻게 행동해야 하는지 알고, 때로는 조금 어색할 수 있지만 괜찮습니다... 에티켓과 H&P(병력 및 신체 검사) 방법에 대해 염두에 두고 환자에게 물어보십시오. (CS1)
… students have voiced that they feel a lot more confident after these sessions … going into the room with a patient with [disabilities], knowing how to act, and kind of owning that sometimes, yeah, you’re going to feel a little awkward, that’s ok … be mindful of etiquette and how you go about an H&P [history and physical examination], you know, ask the patient. (CS1)

그러나 이러한 교육은 일반적으로 커리큘럼 전체에 걸쳐 한 번만 제공되기 때문에 많은 인터뷰 대상자가 충분하지 않다고 설명했습니다. 일부 인터뷰 참여자들은 4년 동안 여러 곳에서 장애에 대해 이야기하는 것이 중요하다고 강조했습니다. '커리큘럼에 장애를 더 많이 포함시키는 더 좋은 방법은 장애인 사례를 곳곳에 배치하는 것이라고 생각합니다...' 몇몇은 다양성 및 건강 격차 논의에 장애 내용을 엮는 방법에 대해 언급했습니다. 한 학교는 3학년과 4학년 가정의학과 및 내과 실습에 다양성 및 의료 격차 스레드의 일부로 장애 관련 학습 이벤트 두 개를 포함했습니다. 또 다른 인터뷰 참여자는 다음과 같이 말했습니다, 
However, because they were typically offered only once throughout the curriculum, many interviewees described those as not enough. Some interviewees stressed the importance of talking about disability in multiple places throughout the four years: ‘I think a better way to get more disability into the curriculum would be to put more examples of people with disabilities…peppered throughout…’ A few mentioned how they weave disability content into the diversity and health disparities discussion. One school included two disability-related learning events as part of their diversity and health care disparities thread in their 3rd and 4th year family medicine and internal medicine clerkships. Another interviewee shared,

우리는 ... 자폐증 패널과 모의 환자 만남을 ... 커리큘럼의 일부에서 집단 내 환자에 대해 이야기하고 있습니다 ... 저는 장애가 [건강의 사회적 결정 요인을 이해하는] 이 맥락에서 전적으로 적절하다는 사례를 만들 수 있었습니다... (CS2). 
We have … the autism panel and the simulated patient encounter … in a part of the curriculum where they’re talking about patients within populations … I was able to make the case that disability is totally appropriate in this context [of understanding social determinants of health] … (CS2)

처음 2년 동안만 학습 활동을 한 참가자들은 이후 임상에서 정보를 다시 연결시키는 반복적인 경험이 부족하다는 데 동의했습니다: '[T]3년차와 4년차에는 사람들이 반드시 모여서 첫 2년 동안 배운 내용을 되돌아볼 수 있는 기회가 없기 때문에... 완전히 적중하거나 놓치는 경우가 있습니다'(CS5). 또한 프로그램 구조가 장벽이 될 수 있다는 점을 인식했습니다. '[첫 18개월 이후에는] 학생들이 수백 개의 장소에 있기 때문에 교육 단계에서 지식을 쌓는 데 환자 경험을 활용할 수 없다고 생각합니다'(CS4). 하지만 이 참가자는 임상 실습 중에 장애 콘텐츠를 통합하기 위해 필수 온라인 강의를 사용할 수 있는 가능성을 제시했습니다. 
Participants who only had learning activities in their first two years agreed that an iterative experience tying back the information in later clinical years is missing: ‘[T]here’s nothing in the third and fourth year where people necessarily come together to think back on what they learned in the first two years … So it’s completely hit or miss what they get’ (CS5). They also recognized that program structure could be a barrier: ‘[after the first 18 months] I don’t think there is a capitalization on the patient experience to build their knowledge in their phases of training because [students] are in hundreds of locations’ (CS4). This participant yet expressed the potential of using required online lectures to integrate disability content during clerkships.

장애 역량 교육 통합의 장벽 및 촉진 요인
Barriers and facilitators to integrating disability competency training

표 6에서 볼 수 있듯이, 장애 역량 교육을 커리큘럼에 통합하는 데 가장 자주 확인된 촉진제는 교수진의 지지자(n = 11)였으며, 학술적 리더십의 지원(n = 8), 지역사회 기반 장애 단체와의 파트너십(n = 7)이 그 뒤를 이었습니다. 장애 학생, 교수진 또는 교직원이 프로그램에 참여하는 것도 장애 역량 교육의 통합에 긍정적인 영향을 미치는 것으로 보입니다. 가장 큰 장벽은 커리큘럼에 새로운 콘텐츠를 추가할 시간이 부족하다는 점(n = 10)이었으며, 리소스 부족(n = 5)이 그 뒤를 이었습니다. 일부 응답자는 촉진 요인(예: 교수진의 지지자, 장애인 단체와의 관계)의 부족도 장벽으로 보고했습니다. 
As seen in Table 6, the most frequently identified facilitator to incorporating disability competency training into curriculum was having a faculty champion (n = 11) followed by support of academic leadership (n = 8) and partnership with community-based disabilities organizations (n = 7). Having students, faculty, or staff with disabilities in the program also seems to positive affect the integration of disability competency training. An overwhelming barrier was lack oftime in the curriculum to add new content (n = 10), followed by inadequate resources (n = 5). Lack of factors identified as facilitators (e.g., faculty champion, relationship with disability organizations) was also reported as barriers by some respondents.

 
 

설문조사 결과와 일관되게, 모든 주요 정보 제공자들은 제한된 커리큘럼 시간을 확보하기 위한 경쟁이 더 많은 장애 역량 콘텐츠를 통합하는 데 가장 큰 어려움이라는 데 동의했습니다. 한 인터뷰 참여자는 '커리큘럼에서 발판을 마련하는 것이 정말 어렵습니다. 정말 어렵죠. 두 시간을 위해 싸워야 합니다. (CS5). 인터뷰에서는 장애 역량 교육을 커리큘럼에 통합하는 데 있어 교수진 또는 학생 챔피언이 있다는 점도 분명하게 드러났습니다. 챔피언은 대개 이 주제에 관심을 갖고 강의 자료를 개발하고 실행한 교수진이었습니다. 한 프로그램에서는 장애 형제가 있는 학생 챔피언이 학생들이 장애인 환자, 간병인 및 장애인과 함께 일하는 다른 의료 종사자들과 교류할 수 있는 선택 과목을 개설했습니다. 한 인터뷰 참여자는 휠체어를 사용하는 의사인 코스 디렉터가 의사로서 자신의 장애 경험에 대해 이야기해주기 때문에 '훌륭한 자산'이 되었다고 설명했습니다(CS1).
Consistent with the survey result, all key informants agreed that competition for limited curriculum time is the biggest challenge to integrating more disability competency content. One interviewee said, ‘finding a foothold in the curriculum is huge. It’s really hard. You fight for your two hours.’ (CS5). In the interviews, it was also clear that having a faculty or student champion has been a force in integrating disability competency training into the curriculum. The champions were usually faculty members who were invested in this topic and who developed and carried out course materials. In one program, a student champion who has a sibling with a disability initiated an elective course where students have chances to interact with patients with disabilities, their caregivers, and other health care workers that work with people with disabilities. One interviewee described that having a course director who is a physician using a wheelchair has been a ‘wonderful asset’ because he would talk about his own disability experience as a physician (CS1).

질적 인터뷰를 통해 이러한 챔피언에 대한 지나친 의존이 얼마나 취약한지를 알 수 있었습니다. 휠체어 사용자인 의사의 은퇴가 다가오면 학생들이 그와 교류하고 배울 기회를 잃게 될 것이기 때문에 인터뷰 대상자는 이를 우려했습니다(CS1). 다른 사람들도 이러한 의견을 제시했습니다. 한 사람은 '[교수 챔피언이] 떠났을 때 재활의학과에 있는 누구와도 연결이 되지 않았습니다. 연락이 끊겼어요. (CS4). 한 인터뷰 대상자는 챔피언이 촉진자로 여겨지는 반면, 장애 역량 교육의 약점이라고 지적했습니다: 장애인 역량 교육 접근 방식이 항상 챔피언에 의존해 왔다는 점이 이 노력의 큰 약점이라고 생각합니다. 저는 그들[챔피언]이 할 수 있는 일에 대해 존경심을 가지고 있습니다... 하지만 지속 가능하지도 않고 확장 가능하지도 않습니다... 챔피언이 은퇴하자마자 콘텐츠와 커리큘럼에 판매 기한이 정해져 있는 것과 같습니다. 커리큘럼에 대한 수요의 힘을 견딜 수 없습니다. (CS2) 
The qualitative interviews also revealed the fragility of too much reliance on these champions. The upcoming retirement of the physician who is a wheelchair user was a concern of the interviewee because students would lose the opportunity to interact with and learn from him (CS1). This sentiment was also presented by others. One person said, ‘When [the faculty champion] left, I didn’t have a connection with anyone in rehabilitation. I lost those contacts.’ (CS4). While having a champion was seen as a facilitator, one interviewee pointed out how that is a weakness of disability competency training: I think that’s a huge weakness in this effort, that the disability training approach has always relied on champions. I have so much respect for what they [champions] are able to do … But, it’s not sustainable, and it’s not scalable … [A]s soon as the champion retires, there’s like a sell-by date on the content and the curriculum. It just cannot withstand the forces of the demands on the curriculum. (CS2)

인터뷰 참여자들은 또한 커리큘럼에 장애 콘텐츠를 통합하는 데 있어 기관의 지원과 리소스가 중요한 역할을 한다고 지적했습니다. 그들은 어떤 특정 리소스를 이용할 수 있고 어떻게 활용했는지에 대한 자세한 정보를 제공했습니다. 이러한 자원에는 다음 등이 포함되었습니다.

  • 콘텐츠 개발을 위한 보호된 시간,
  • 패널 또는 환자와의 만남 세션을 조정할 전담 직원,
  • 패널 또는 표준화된 환자와 가족에게 지급할 자금,
  • 환자 자원봉사자 모집을 위한 장애인 단체와의 연결 

Interviewees also pointed to the critical role of institutional supports and resources in integrating disability content in the curriculum. They provided more information on what specific resources they had access to and how they utilized those. These resources included

  • protected time to develop content,
  • designated staff to coordinate panel or patient encounter sessions,
  • funds to pay panelists or standardized patients and families, and
  • connection to disability organizations to recruit patient volunteers.

환자와의 만남과 패널을 실행하는 데 필요한 리소스가 자주 지적되었습니다. 한 프로그램에서는 참가자의 접근성을 보장하기 위해 패널/시뮬레이션 세션을 지원하는 데 많은 직원이 참여했습니다(예: 자폐증 환자에게 적합한 환경, 시각 장애가 있는 환자 안내)(CS3). 일부의 경우, 리소스 부족으로 인해 모범 사례라고 생각했던 활동을 하지 못했습니다. '[문제 기반 학습]을 위해 퍼실리테이터를 위해 [장애인] 사람들을 모았는데...[제한된 리소스 때문에] 그 이후로 하지 못했습니다.'(CS5). (CS5). 
Resource needs for implementing patient encounters and panels have been frequently noted. One program had many of their staff involved in supporting the panel/simulation session to ensure accessibility of participants (e.g., appropriate environment for patients with autism, guiding patients with visual impairment) (CS3). For some, the lack of resources prevented activities they believed to be best practice: ‘I brought people [with disabilities] together for the facilitators for [problem-based learning]…[H]aven’t done it since because of limited resources.’ (CS5).

기대하는 효과에 적합한 패널리스트를 찾는 것은 때때로 어려운 일이었습니다. 일부 패널은 전달하고자 하는 다른 메시지(예: 총기 규제)를 가지고 있었기 때문에 한 참가자(CS4)는 '그들이 무슨 말을 할 지 모르겠다'고 말했습니다. 팬데믹으로 인해 패널 세션을 계획하는 데 시간을 내기가 어려워지자, 이 프로그램은 학생들이 장애인과 장애인 권리 운동의 생생한 경험을 접할 수 있는 방법으로 '크립 캠프' 다큐멘터리를 시청하고 성찰하는 것으로 대체했습니다. 인터뷰 대상자는 '잘 만들어진 영화가 메시지를 전달하는 데 더 효과적일 것 같다'고 말했습니다. 
Finding the right panelists for the hoped impact was sometimes a challenge. ‘I don’t know what they are going to say’ said one participant (CS4) as some panelists had other messages they wanted to communicate (e.g., gun control). When finding time for planning a panel session became a challenge due to the pandemic, this program replaced it with watching and reflecting on the ‘Crip Camp’ documentary, as a way to expose students to the lived experience of people with disabilities and the disability rights movement. The interviewee shared, ‘maybe a very well-done film will be more effective in bringing across the messages.’

일부 인터뷰 대상자는 장애인 단체 또는 다른 분야의 콘텐츠 전문가(예: 언어 병리학 및 물리 치료 교수진)와의 파트너십이 중요하다고 언급했는데, 이는 자신들이 이 주제에 대한 전문성을 갖추지 못했기 때문입니다. 그래서 그들[사무국장]은 그것[장애 콘텐츠]이 중요하다고 느꼈고... 아마도 [장애 단체]가 전문가이기 때문에 그들의 편에 서 있다는 것을 알고 훨씬 더 자신감을 느꼈을 것입니다. (CS1) 
Some interviewees mentioned the importance of having partnership with a disability organization or content experts from different disciplines (e.g., faculty from speech language pathology and physical therapy), as they did not have expertise in this topic. So they [clerkship directors] felt like it [disability content] was important and … probably felt a lot more confident knowing that [the disability organization] was in their corner, because they’re the experts. (CS1)

새로운 콘텐츠를 개발하기 위한 시간과 자원을 확보하기 위한 또 다른 방법으로 한 인터뷰 참여자는 외부 자금을 적극적으로 모색했습니다. 이 사람은 외부 지원금이 '첫 발을 내딛는 데' 도움이 된다고 말했습니다. 이 인터뷰 참여자는 콘텐츠가 개발되면 일반적으로 학생들에게 인기가 있고 보조금이 끝난 후에도 계속되는 경향이 있지만, 외부 자금이 없었다면 애초에 이러한 활동은 일어나지 않았을 것이라고 말했습니다: '큰 금액은 아니더라도 보조금을 제공하는 것은 의과대학의 협조를 구하는 측면과 실제로 콘텐츠를 개발하고 실행하는 측면에서 밤낮으로 힘든 일입니다.' (CS2) 
As another way to secure time and resources to develop new content, one interviewee actively sought external funding. This person reported that external grant helps ‘get a foot in the door.’ Once content is developed, those activities are typically popular with students and tend to continue after the grant ends, said this interviewee, but they would not happen in the first place without external funding: ‘Offering grants, even if it’s not a huge amount of money, is night and day in terms of getting cooperation from the medical school, and in terms of actually developing content and implementing.’ (CS2)

한 인터뷰 참여자는 핵심 역량을 의학교육 연락위원회(LCME) 인증 기준에 포함시키면 챔피언이나 자원이 없어도 장애 콘텐츠를 적극적으로 통합할 수 있다고 제안했습니다. 
One interviewee suggested that embedding the Core Competencies into the Liaison Committee on Medical Education (LCME) accreditation standards may lead to proactive integration of disability content even without a champion or resources.

토론
Discussion

이 연구에서는 의과대학이 커리큘럼에 핵심역량을 통합하는 정도와 통합을 방해하는 장벽 및 촉진 요인을 조사했습니다. 설문조사 응답에서 많은 학교가 대부분의 핵심 역량을 다루고 있다고 답했습니다. 장애 역량 교육의 정도는 의과대학 프로그램마다 차이가 있었으며, 대부분 장애에 대한 심도 있는 이해의 기회가 제한적인 것으로 나타났습니다. 대부분의 학교는 제한적이기는 하지만 장애인과 어느 정도 교류하고 있었습니다. 가장 빈번한 촉진자는 교수진이었으며, 더 많은 학습 활동을 통합하는 데 가장 큰 장벽은 커리큘럼 내 시간 부족이었습니다. 질적 인터뷰는 커리큘럼 구조와 시간의 영향, 교수진 챔피언과 자원의 중요성에 대한 더 많은 통찰력을 제공했습니다. 
The study explored the extent medical schools integrate the Core Competencies in their curriculum and the barriers and facilitators to the integration. In survey responses, many schools reported addressing most of the Core Competencies. The extent of disability competency training varied across medical programs with the majority showing limited opportunities for in-depth understanding of disability. Most schools had some, although limited, engagement with people with disabilities. Having faculty champions was the most frequent facilitator and lack of time in the curriculum was the most significant barrier to integrating more learning activities. Qualitative interviews provided more insight on the influence of the curricular structure and time and the importance of faculty champion and resources.

이전 문헌[11,12]과 일관되게, 의과대학에서 장애 역량 학습 활동의 형식과 기간은 다양했습니다. 이 연구에 참여한 대부분의 참가자들은 커리큘럼에서 여러 핵심 역량을 다루고 있다고 답했지만, 대부분의 역량이 한두 가지 학습 활동에서 다루어져 관련 주제에 대한 심도 있는 이해를 제공하지 못할 가능성이 높았습니다. 일회성 패널이나 환자와의 만남은 장애인과의 상호작용에 대한 학생의 자신감과 장애 경험에 대한 이해에 영향을 미칠 수 있지만, 이전 연구에 따르면 이러한 영향은 단기적이며[11,20] 장기적으로 장애인을 위한 임상 치료의 질 향상으로 이어지지는 않는 것으로 나타났습니다[16]. 특히 의료진의 암묵적인 편견이 장애인의 평등하고 질 높은 의료 서비스를 저해하는 요인이 될 수 있으므로 장애 문제에 대해 성찰하고 이를 접할 수 있는 기회를 자주 갖는 것이 중요합니다[9]. 또한 설문조사에 따르면 대부분의 활동이 첫 2년 동안 완료된 것으로 나타났습니다. 장애 관련 콘텐츠가 조기에 도입된 것은 긍정적이지만, 임상 진료와 관련된 역량은 학생들이 임상 상황에서 지식을 적용해야 하기 때문에 후반기에 주로 발생합니다. 
Consistent with previous literature [11,12], the format and length of disability competency learning activities in medical schools varied. Although most participants in this study reported that their curriculum addresses multiple Core Competencies, most competencies were addressed in one or two learning activities that is likely not providing an in-depth understanding of the related topics. While one-time panels or patient encounters can have an impact on student confidence in interacting with people with disabilities and their understanding of disability experiences, previous research found that this impact is short term [11,20] and does not translate into improved quality of clinical care for people with disabilities long term [16]. Especially, with health care provider’s implicit bias being a contributor to equal and quality healthcare for people with disabilities, frequent opportunities to reflect on and be exposed to disability issues are critical [9]. The survey also showed that most activities were completed in the first two years. It is positive that disability content was introduced early; however, competencies related to clinical care would require students to apply their knowledge in clinical context, which often occur in later years.

연구 참여자와 문헌에서 제안한 바와 같이, 오래 지속되는 혁신적 경험을 촉진하기 위해 의료 프로그램은 커리큘럼 전반에 걸쳐 종적, 반복적, 통합적 학습 활동을 고려해야 합니다[8,13,20]. 강의, 패널, 토론과 함께 몰입형 체험 학습 활동이 이상적입니다[8,21]. 그러나 제한된 자원과 시간 제약을 고려할 때, 기존 커리큘럼에 콘텐츠를 엮고 커리큘럼의 기존 사례를 수정하는 것이 장애 관련 내용을 전체적으로 통합하고 학생들의 장애 관련 임상 치료 역량을 촉진하는 데 더 현실적이고 효과적인 변화일 수 있습니다[20]. 사례 전반에 걸쳐 장애를 대표하고 다양성과 문화적 겸손의 맥락에서 장애에 대해 이야기하는 것을 일상화하면 미래의 의사들이 장애인과 함께 일할 때 명시적 및 암묵적 편견을 적극적으로 성찰하고 제거하는 데 도움이 될 수 있습니다[22]. 다양성 및 문화적 역량 논의에서 장애는 종종 누락됩니다[22]. 의학 프로그램이 장애 역량을 의학교육의 필수적인 부분으로 간주하고 커리큘럼 개선을 위한 투자를 하려면 LCME 표준에 장애를 문화적 역량의 일부로 명시적으로 포함하는 등 더 나은 제도화가 이루어져야 합니다[22]. 
As suggested by the study participants and literature, to promote long-lasting transformative experiences, medical programs should consider longitudinal, iterative, and integrated learning activities woven throughout the curriculum [8,13,20]. Along with lectures, panels, and discussions, immersive experiential learning activities would be ideal [8,21]. However, considering limited resources and time constraints, weaving content into existing curriculum and modifying existing cases in the curriculum may be more realistic and effective changes to make to integrate disability content throughout and to facilitate students’ competency in disability related clinical care [20]. Having disability representation throughout cases and normalizing talking about disability in context of diversity and cultural humility could help future physicians actively reflect on and work towards eliminating their explicit and implicit biases when working with people with disabilities [22]. Disability is often omitted from diversity and cultural competency discussions [22]. Better systemization, such as explicitly including disability as part the cultural competency in LCME standards, needs to be made for medical programs to view disability competency as an essential part of medical education and make the investment for improving curricular [22].

이 연구와 이전 출판물에서는 장애 역량 교육을 의학교육에 통합하기 위해 챔피언을 발굴해야 할 필요성을 강조했습니다[8,13]. 챔피언에 대한 의존도는 의과대학 전반에서 장애 교육의 다양성에 기여하는 요인으로 확인되었습니다[14]. 의과대학 전반에 걸쳐 장애학 전문 지식이나 실무 경험을 갖춘 교수진이 부족하다는 것은 강화된 LCME 표준이 적용되더라도 장애 역량을 가르치는 능력은 다양할 수 있기 때문에 문제가 됩니다. 비전문가도 쉽게 실행할 수 있는 수업 계획이나 리소스를 만들고 공유하는 데 더 많은 노력을 기울이면 이러한 다양성을 줄일 수 있습니다. 예를 들어, Borowsky 등은 능력주의, 장애의 사회적 모델, 장애의 역사와 문화, 건강 격차에 대해 논의하는 2시간짜리 참여형 수업 계획을 발표했습니다[23]. 필요한 모든 자료가 포함된 이 계획과 가이드는 지식이나 경험이 적은 사람들도 쉽게 실행할 수 있습니다. 그러나 가장 중요한 것은 장애 주제에 대한 대다수 교육자의 무능력과 옹호자의 부족은 장애인이 의료 교육과 진료에 더 쉽게 접근하고 포용할 수 있도록 인력을 다양화할 필요가 있음을 요구한다[22]. 
This study and previous publications have highlighted the need for identifying a champion to integrate disability competency training into medical education [8,13]. The dependency on champions has been identified as a contributor to variability in disability training across medical schools [14]. The lack of faculty with disability studies expertise or lived experiences across medical schools is problematic because even with a strengthened LCME standard, the ability to teach disability competency will vary. The variability may be reduced with more efforts in creating and sharing lesson plans or resources that can be easily implemented by non-experts. For example, Borowsky et al. published a participatory 2-hour lesson plan that discusses ableism, the social model of disability, disability history and culture, and health disparities [23]. With all materials needed, these plans and guides may be easy to implement for those with less knowledge or experience. Yet, most importantly, the incompetency of majority of educators in the topic of disability and lack of champions call for the critical need for diversifying the workforce by making medical education and practice more accessible and inclusive for individuals with disabilities [22].

이 연구에서 장애인은 주로 자문위원이나 강사가 아닌 패널리스트 또는 표준화 환자로 참여했습니다. 환자와의 만남은 표준화된 행위자보다 장애인과 그 가족을 통해 이루어지는 경우가 더 많았는데, 이는 장애인 커뮤니티에서 비판받는 접근 방식입니다[21]. 그러나 장애인 또는 장애인 커뮤니티의 참여에는 시간과 금전적, 인적 자원이 필요하기 때문에 종종 부담으로 인식되는 것으로 나타났습니다. 또한 지역 장애 커뮤니티와의 연결이 항상 챔피언 없이 구축되는 것은 아닙니다. 이 연구에 참여한 한 학교가 공유한 것처럼, 장애인의 직접적인 참여를 조정할 자원이 부족한 프로그램에서는 장애인 권리와 문화에 관한 다큐멘터리나 회고록을 활용하는 것이 좋은 대안이 될 수 있습니다[21]. 비전문가가 관계를 시작하는 데 관심이 있는 경우 장애 콘텐츠를 기획하고 가르치기 위해 지역 장애 단체를 찾고 참여하는 방법에 대한 자료도 출판되어 있습니다[24]. 
In this study, people with disabilities were primarily involved as panelists or standardized patients rather than advisory members or instructors. Patient encounters were more often completed with individuals with disabilities and their families than with standardized actors, an approach criticized by disability communities [21]. However, we found that engaging people with disabilities or the disability community requires time and monetary and human resources and thus is often perceived as burden. In addition, connections with local disability communities are not always established without a champion. Like one school in this study shared, using documentaries or memoirs about disability rights and culture could be good alternatives for programs lacking the resources to coordinate direct involvement of people with disabilities [21]. There are also published materials on how to find and engage with local disability organizations to plan and teach disability content if a non-expert is interested in initiating a relationship [24].

장애인이 자문위원이나 강사로 활동하는 학교는 소수에 불과했습니다. 전반적으로 교수진, 학생 및 자문위원의 장애 대표성을 개선하면 커리큘럼 결정에 장애인의 목소리가 반영될 수 있습니다[10]. 이는 의학계에서 장애를 가진 의사가 3.1%에 불과하고[25], 의대생의 4.5%만이 장애를 가지고 있다고 밝힌[26] 최근 연구 결과와도 일치합니다. 장애 역량 교육에 대한 많은 장벽과 필요성은 더 많은 학생, 교수진, 장애를 가진 의사가 현장에 투입되면 해결될 수 있습니다. 장애를 가진 사람들이 많아지면 더 많은 챔피언이 나올 것입니다. 또한 임상 환경에서 환자가 아닌 동료, 동료, 교사, 멘토로서 장애인을 대할 때 교수진과 학생은 장애가 아닌 그 사람을 바라보고 부정확한 가정과 불편함을 해소할 수 있습니다[27]. 이러한 변화는 의학교육의 정책과 관행에서 장벽을 제거하고 접근성과 포용성을 증진하려는 의도적인 노력을 통해서만 달성할 수 있습니다[22,28]. 
Only a few schools had a person with a disability serving as an advisory member or instructor. Overall, improving disability representation among faculty, students, and advisory members will ensure that curricular decisions reflect their voices [10]. This is consistent with recent studies that confirmed the underrepresentation of disability in Medicine as having only 3.1% of physicians [25] and 4.5% of medical students identify as disabled [26]. Many barriers and needs to disability competency training could be mended with more students, faculty, and physicians with disabilities in the field. With more individuals with disabilities, there will be more champions. In addition, the interaction with someone with a disability as a peer, colleague, teacher, and mentor, and not as a patient in a clinical setting, will allow faculty and students to see the person and not their disability and debunk inaccurate assumptions and discomfort [27]. These changes can only be achieved with intentional efforts to remove barriers and promote access and inclusion in policies and practices in medical education [22,28].

이 연구에는 몇 가지 한계가 있습니다. 모집 노력에도 불구하고 설문조사 응답률이 낮았던 것은 연구 기간 동안 의과대학과 의과대학장에게 영향을 미친 코로나19 팬데믹의 영향일 가능성이 높습니다. 이 주제에 더 많은 투자와 관심이 있는 학교일수록 설문조사에 응답할 가능성이 더 높았을 것입니다. 또한 이러한 역량을 직접적으로 다루지 않는 학교는 이러한 부족함을 드러내려고 하지 않았을 수도 있습니다. 따라서 이 연구 결과는 일반적으로 의과대학이 커리큘럼에서 장애 역량을 다루는 방식을 대표하지 않을 수 있습니다. 
This study has a few limitations. Despite efforts to recruit, the low response rate to the survey was likely influenced by the onset of the COVID-19 pandemic, which affected medical schools and directors during the study period. Schools who are more invested and interested in this topic may have been more likely to respond to the survey. In addition, schools that are not directly addressing these competencies may not have been as willing to reveal this deficit. Therefore, the study results may not represent how medical schools in general address disability competency in the curricula.


이러한 한계에도 불구하고 이번 연구 결과를 통해 시간이 제한된 의학교육 내에서 장애 역량 교육을 통합하기 위한 노력과 잠재력을 파악할 수 있었습니다. 또한 모든 의과대학에 이 연구에서 설명한 것과 같은 제도적 지원과 지지자가 있는 것은 아니라는 점도 중요합니다. 인터뷰 참여자 중 한 명이 권고한 바와 같이, 의과대학이 이 중요한 주제를 교육에 통합하도록 장려하기 위해 핵심역량을 LCME 인증 기준에 명시적으로 통합하는 것을 추가로 고려할 필요가 있으며, 이는 가능한 옹호자, 자원 및 지원과 관계없이 의과대학에 인센티브를 제공할 수 있습니다. 모든 의사가 장애인과 함께 일할 수 있도록 교육을 받도록 하는 것은 장애인의 건강 및 의료 서비스 격차를 줄이기 위한 중요한 단계가 될 것입니다. 

Despite these limitations, the findings allowed for an understanding of efforts made and the potential for integrating disability competency training within time-restricted medical education. It is also important to note that not all medical schools have the institutional support and champions that this study described. As recommended by one of the interviewees, further consideration of explicitly integrating the Core Competencies into LCME accreditation standards may be needed so medical schools are incentivized to integrate this important topic in their education regardless of available champions, resources, and supports. Ensuring that all physicians are trained to work with people with disabilities would be a critical step towards reducing disparities in health care for and the health of people with disabilities.


Med Educ Online. 2023 Dec;28(1):2207773. doi: 10.1080/10872981.2023.2207773.

Disability competency training in medical education

Affiliations collapse
1Department of Rehabilitation Medicine, University of Washington, Seattle, USA.

2Center for Health Workforce Studies, Department of Family Medicine, University of Washington, Seattle, USA.

PMID: 37148284

PMCID: PMC10167870

DOI: 10.1080/10872981.2023.2207773

Free PMC article

Abstract

Purpose: Lack of health care providers' knowledge about the experience and needs of individuals with disabilities contribute to health care disparities experienced by people with disabilities. Using the Core Competencies on Disability for Health Care Education, this mixed methods study aimed to explore the extent the Core Competencies are addressed in medical education programs and the facilitators and barriers to expanding curricular integration.

Method: Mixed-methods design with an online survey and individual qualitative interviews was used. An online survey was distributed to U.S. medical schools. Semi-structured qualitative interviews were conducted via Zoom with five key informants. Survey data were analyzed using descriptive statistics. Qualitative data were analyzed using thematic analysis.

Results: Fourteen medical schools responded to the survey. Many schools reported addressing most of the Core Competencies. The extent of disability competency training varied across medical programs with the majority showing limited opportunities for in depth understanding of disability. Most schools had some, although limited, engagement with people with disabilities. Having faculty champions was the most frequent facilitator and lack of time in the curriculum was the most significant barrier to integrating more learning activities. Qualitative interviews provided more insight on the influence of the curricular structure and time and the importance of faculty champion and resources.

Conclusions: Findings support the need for better integration of disability competency training woven throughout medical school curriculum to encourage in-depth understanding about disability. Formal inclusion of the Core Competencies into the Liaison Committee on Medical Education standards can help ensure that disability competency training does not rely on champions or resources.

Keywords: Disability competency; disability; diversity; health care education; medical education.

+ Recent posts