CARDA: 보건전문직교육 연구에서 문헌분석의 가이드
CARDA: Guiding document analyses in health professions education research
1 소개

'태초에 말씀이 계시니라'. 요한복음 1:1-3
‘In the beginning was the Word’. John 1:1–3

우리는 문서를 만들고, 문서를 사용하고, 문서를 보관하고, 문서를 주고받습니다. 집과 사무실에 있는 문서, 휴대하고 다니는 문서, 컴퓨터와 기타 디지털 기기에 있는 문서가 있습니다. 보내는 문서와 받는 문서가 있습니다. 현대 사회에 대한 우리의 지식과 현대 사회와의 상호 작용은 상당 부분 문서에 의해 매개됩니다. 정책 및 절차, 회의록, 보고서, 커리큘럼 맵, 시험지, OSCE 스테이션, 학습 사례 및 시뮬레이션 스크립트 등 수많은 문서를 생성하고 이를 통해 재인용되는 보건 전문직 교육(HPE)도 예외는 아닙니다. 문서는 HPE에 관련된 사람들의 일상적인 경험을 구조화하며, '어떤 것은 존재하게 하고 어떤 것은 부재하게 하며, 어떤 것은 보이게 하고 어떤 것은 보이지 않게 하는'(182페이지) 도구 역할을 합니다.1 
We make documents, we use documents, we keep documents and we exchange documents. There are documents in your home and in your office, documents you carry with you and documents on your computer and other digital devices. There are documents you send and documents you receive. Our knowledge of and interactions with contemporary society are substantially mediated by documents. Health professions education (HPE) is no outlier in this regard as it generates and is reinscribed through, its many documents, including policies and procedures, meeting notes, reports, curriculum maps, examination papers, OSCE stations, learning cases and simulation scripts. Documents structure the everyday experiences of those involved in HPE, and they serve as tools ‘through which some things are made present, and others absent, some things visible and others invisible’ (p. 182).1

문서는 연구 관점에서 풍부한 정보를 제공할 수 있습니다. 실제로 문서는 과거 사건을 이해하는 데 있어 가장 좋은, 때로는 유일한 데이터 소스인 경우가 많습니다(예: 2). 마찬가지로 현재에도 사람, 사건, 사회적 관계, 권력에 대한 지식의 대부분은 문서를 통해 간접적으로 얻게 됩니다. 스미스3는 이를 '이러한 형태의 사회를 통치, 관리 및 운영하는 관행의 기본이 되는'(257쪽) '문서적 실재'라고 설명했습니다.
Documents can provide a wealth of information from a research perspective. Indeed, documents are often the best, and sometimes the only, source of data for understanding past events (e.g.,2). Similarly, in the present, much of our knowledge of people, events, social relations and powers arises indirectly, through documents. Smith3 described this as ‘documentary reality’ that ‘is fundamental to the practices of governing, managing and administration of this form of society’ (p. 257).

문서가 우리 주변에 존재함에도 불구하고(그리고 부분적으로는 그 때문에) 문서가 무엇인지, 또는 문서가 되어야 하는지에 대한 하나의 표준적이거나 포괄적인 정의는 없으며, 오히려 문서가 무엇인지에 대한 다양한 담론이 존재합니다. 예를 들어, 문서는 물리적 물건으로 정의될 수도 있고,4 정보 소스5로 정의될 수도 있으며,6 탐구 행위를 통해 탄생할 수도 있습니다(상자 1 참조).
Despite their ambient presence (and perhaps in part because of it), there is no one canonical or overreaching definition of what documents are or should be; rather, there are different discourses of what documents can be. For instance, a document can be defined as a physical item,4 an informational source5 or brought into being by the act of inquiry6—see Box 1.

박스 1: 문서란 무엇인가요?
Box 1: What is a document?

문서가 무엇인지, 또는 문서가 되어야 하는지에 대한 표준적이고 포괄적인 정의는 없으며, 문서가 무엇일 수 있는지에 대한 다양한 담론이 존재합니다. 문서는 텍스트 본문일 수도 있고, 텍스트 내용 외에 연구자가 관심을 가질 만한 특성(예: 이미지, 주석 또는 상호 참조의 사용)이 있는 인공물일 수도 있습니다. 오리어리4는 문서를 다음과 같이 분류했습니다:
There is no one canonical or overreaching definition of what documents are or should be; rather, there are different discourses of what documents can be. They can be bodies of text or they can be artefacts with qualities of interest to researchers beyond their textual content (such as the use of images, annotations or cross-references). O'Leary4 classified documents as follows:

  • 공공 기록: 조직의 활동에 대한 공식적이고 지속적인 기록. HPE의 예로는 학생 성적표, 사명 선언문, 연례 보고서, 매뉴얼, 학생 핸드북, 전략 계획 및 강의 계획서 등이 있습니다.
  • 개인 문서: 개인의 행동, 경험 및 신념에 대한 1인칭 서술. 예를 들면 달력, 이메일, 스크랩북, 블로그, Facebook 게시물, 근무일지, 사건 보고서, 반성문/일기, 신문 등이 있습니다.
  • 물리적 증거: 연구 환경 내에서 발견된 물리적 물체. 예를 들면 전단지, 이메일, 포스터, 의제, 핸드북, 교육 자료 등이 있습니다.
  • Public Records: The official, ongoing records of an organisation's activities. Examples from HPE include student transcripts, mission statements, annual reports, manuals, student handbooks, strategic plans and syllabi.
  • Personal Documents: First-person accounts of an individual's actions, experiences and beliefs. Examples include calendars, e-mails, scrapbooks, blogs, Facebook posts, duty logs, incident reports, reflections/journals and newspapers.
  • Physical Evidence: Physical objects found within the study setting. Examples include flyers, emails, posters, agendas, handbooks and training materials.

HPE의 맥락에서는 다음으로 구분할 수 있습니다(Ellaway 외., 2019).

  • 교육 과정의 일부로 작성된 문서(예: 프로그램 평가, 강의 계획서 및 커리큘럼),
  • 교육 과정에서 작성되었지만 교육 목적이 아닌 문서(예: 개인 파일, 조직 정책 및 웹사이트),
  • 의학교육과 무관하게 작성된 문서(예: 소셜 미디어 게시물, TV 또는 영화 대본)

문서는 생성 방법과 목적, 보존 또는 큐레이션 방법, 캡처한 미디어, 생성 이후 복사, 필사, 편집 또는 수정 여부에 따라 다를 수 있습니다.
In the context of HPE, we might differentiate between

  • documents that were created as part of educational processes (e.g., program evaluations, syllabi and curricula),
  • documents created in education but not for educational purposes (e.g., personal files, organisational policies and websites), and
  • documents created outside of medical education altogether (e.g., social media posts, TV or film scripts) (Ellaway et al., 2019).

Documents can differ in how they were produced and for what purposes, as well as how they were preserved or curated, what media they were captured on and whether they have been copied, transcribed, edited or redacted since their creation.

문서는 중립적인 것이 아니라 사회적으로 구성된 것입니다.문서의 사회성에 주목하면 누가, 어떤 목적으로, 어떤 맥락/사회적 위치에서 문서를 만들었는지에 주목하게 됩니다. 다시 말해, 문서는 단순히 문서에 포함된 정보 그 이상이며, 문서가 무엇을 나타내는지, 그리고 문서가 해석되고 사용될 수 있는 무수한 방식에 관한 문제이기도 합니다. 
Documents are not neutral, they are socially constructed.7 Attending to the sociality of documents focuses attention on who created it, for what purposes and in what context/social situatedness. In other words, a document is more than the information it contains; it is also a matter of what it represents and the innumerable ways in which it might be interpreted and used.

연구자는 각 연구의 맥락에서 문서가 의미하는 바를 정의해야 합니다. Prior8는 ''문서'라는 단어는 어떤 종류의 물리적 또는 전자적 용기를 나타내는 명사로 사용되는 경향이 있지만... 어떤 대상을 문서로 표시하는 것은 그것이 담고 있는 내용이나 물리적 또는 전자적 형식이 아니라 정보의 전달자로서의 역할과 사용'이라고 주장했습니다(Briet9 및 Lund 참조).10 반면에 Ricoeur는 문서를 탐구 행위로 인해 생겨난다고 설명했습니다.6 이는 과학적 탐구에서 데이터의 정의와 더 일치하는데, 합법적인 출처의 독점 목록보다는 선택 및 분석 행위가 더 중요하다는 점입니다. 
Researchers need to define what they mean by documents in the context of each study. Prior8 argued that[T]he word “document” tends to be used as a noun to denote a physical or electronic container of some kind … however, what marks an object as a document is not what it contains nor its physical or electronic format, but its role and use as a conveyor of information—see also Briet9 and Lund.10 Ricoeur on the other hand described documents as brought into being by the act of inquiry.6 This is more consistent with a definition of data in scientific inquiry: acts of selection and analysis matter more than exclusive lists of legitimate sources.

문서 분석(DA)은 일반적으로 텍스트 및/또는 이미지가 포함된 인쇄 또는 전자 문서를 포함하는 체계적인 연구를 포괄하는 용어입니다.11 DA는 연구 참여자로부터 정보를 직접 도출하지 않으므로 참여자의 반응이나 행동 변화 가능성을 제거하므로 비교적 방해가 적습니다.12 DA는 [과거 사건에 대한 역사적 분석과 비판적 이론적 관점의 표현]에서 [정책 및 이론 개발]에 이르기까지 다양한 용도로 사용될 수 있습니다. 그러나 많은 연구에서 문서가 엄격하고 논리적인 DA 방법론을 따르기보다는 '상대적으로 조용히 '현장'에 들어왔다가 나가는'(417쪽) 경향이 있습니다.5 구어에 비해 문서 기반 데이터를 과소평가하거나 DA 연구의 수행이나 보고에 거의 관심을 기울이지 않는 연구자들에 대한 비판도 있었습니다.13-16
Document analysis (DA) is an umbrella term for systematic research involving printed or electronic documents, typically containing text and/or images.11 It is relatively unobtrusive as it does not involve the direct elicitation of information from research participants and thus removes the potential for reaction or changed behaviour from participants.12 There are many possible uses of DA, ranging from historical analyses and articulations of critical theoretical perspectives on past events to policy and theoretical development. However, rather than following rigorous and logical DA methodologies, documents in many studies have tended ‘to enter and to leave the ‘field’ in relative silence’ (p. 417).5 There has also been criticism of researchers who under-privilege document-based data compared to the spoken word or who pay little attention to the conduct or reporting of DA studies.13-16

보건 전문직 교육(HPE) 실무, 토론 및 문화의 문서화 현실에 의도적으로 조율하고 DA를 사용하는 것은 HPE 연구에서 아직 개발되지 않은 풍부한 잠재력을 가지고 있으며, 이는 다른 연구자들이 더 깊이 탐구하도록 남겨둘 문제입니다. 그러나 이 연구의 계기가 된 것은 DA가 HPE 연구에서 제대로 개발되지 않아 엄밀성과 명확성이 부족하다는 가설이었습니다. 이 가설을 탐구하기 위해 메타 연구 검토 프로세스를 채택하여17 결과보다는 방법에 비판적으로 집중할 수 있었습니다. 따라서 이 연구는 더 나은 방법을 개척하기 위한 연구를 수행하기 위한 것이었습니다.18, 19 
Deliberately attuning to the documentary reality of health professions education (HPE) practice, debate and culture and the use of DA holds a wealth of untapped potential in HPE research, a matter that we will leave others to explore in more depth. However, the trigger for this study was our hypothesis that DA has been underdeveloped in HPE research, with a resulting lack of rigour and clarity. To explore this hypothesis, we employed a meta-study review process,17 which allowed for a critical focus on methods rather than on outcomes. As such, this study was about conducting research on research to pioneer better methods.18, 19

방법론적 입장과 다양한 절차적 방법의 집합으로서 DA에 초점을 맞추기 위해 메타 방법 접근법을 채택했습니다.20 우리의 목표는 HPE 문헌에서 DA의 현재 상태를 설명하고, DA에 참여하는 연구자를 지원하는 방법을 파악하고, 우리 분야의 다른 방법과 비교할 수 있는 방법론적, 분석적, 보고의 엄격성 표준을 제안하는 것이었습니다. 이를 통해 HPE에서 문서 정보에 기반한 연구의 품질을 개선하는 데 기여하고자 했습니다. 
Given our focus on DA both as a methodological stance and as a set of various procedural methods, we adopted a meta-method approach.20 Our aims were to describe the current state of DA in the HPE literature, to identify ways to support researchers engaging in DA and to propose standards of methodological, analytical and reporting rigour comparable to other methods in our field. Collectively, we sought to contribute to improving the quality of document-informed research in HPE.

이를 위해 다음과 같은 검토 질문을 던졌습니다:
To that end, the review questions were as follows:
1. HPE 연구 논문에서 DA는 어떻게 접근해 왔습니까?
2. HPER(보건 전문직 교육 연구)에서 현재 DA 관행의 강점과 약점은 무엇인가?
3. HPER에서 DA 관행을 강화하려면 무엇이 필요한가?
4. DA를 통해 해결할 수 있는 지식의 격차는 무엇입니까?

  1. How has DA been approached in HPE research papers?
  2. What are the strengths and weaknesses of current DA practices in HPER (health professions education research)?
  3. What is needed to strengthen DA practices in HPER?
  4. What are the gaps in our knowledge that could be addressed through DA?

2 방법론

DA의 방법론적 입장과 절차적 방법에 초점을 맞추다 보니 범위 검토 접근 방식을 취하게 되었을 수 있습니다. 그러나 범위 검토Scoping review는 '연구 활동의 범위, 범위 및 성격을 검토'하고 '기존 문헌의 연구 공백을 파악'할 수 있지만,21 연구 과정을 명시적으로 고려하는 메타 연구의 초점과 구체성이 부족합니다. 따라서 우리의 연구 설계는 메타 연구에서 inform되었으며,17 '실질적 영역에서 연구의 이론, 방법 및 데이터 분석을 면밀히 조사하는 분석, 그리고 새로운 지식 창출에 적용하는 마무리로 종합'(2페이지)을 포함합니다.

  • 분석과 관련하여 우리의 목표는 연구 목적으로 사용된 문서가 식별, 기술, 관리 및 분석된 방식을 종합하고 해석하는 것이었습니다. 즉, 메타 연구는 사용된 DA 방법의 인식론적 건전성(지식의 원천으로서 문서의 표현과 문서에서 도출된 지식 또는 이를 기반으로 한 지식 사이의 일치와 일관성)과 방법론적 적절성에 초점을 맞추었습니다.
  • 종합 측면에서, 우리의 목표는 특히 강점과 한계, 문헌의 동향, 우리 분야에서 DA의 수행과 보고가 어떻게 개선될 수 있는지에 중점을 두고 HPER의 DA 연구에 대한 증거에 기반한 설명에 도달하는 것이었습니다. 

Our focus on methodological stance and procedural methods in DA might have led us to take a scoping review approach. However, while scoping reviews can both ‘examine the extent, range and nature of research activity’ and ‘identify research gaps in the existing literature’,21 they lack the focus and specificity of meta-study, which explicitly considers research processes. Our study design was therefore informed by meta-study,17 which involves analysis, the scrutiny of the theory, method, and data analysis of research in a substantive area, and culminates in synthesis, an application of that scrutiny to the generation of new knowledge’ (p. 2).

  • With respect to analysis, our goal was to synthesise and interpret the ways in which documents used for research purposes had been identified, described, managed and analysed. This meant that our meta-study focused on the apparent epistemological soundness (an alignment and coherence between the articulation of documents as sources of knowledge and the knowledge that was derived from them or based upon them) and methodological appropriateness of the DA methods used.
  • In terms of synthesis, our goal was to arrive at an evidence-informed description of DA research in HPER with a particular focus on its strengths and limitations, trends in the literature and how the conduct and reporting of DA in our field might be improved.


우리는 이 연구를 수행하면서 우리가 가져온 관점에 주목합니다. 이 연구는 HPER의 방법론과 이론에 대한 지속적인 논의를 바탕으로 개발되었으며, 처음에는 DA 연구를 수행한 저희의 경험을 바탕으로 했습니다.

  • 보다 구체적으로, JC는 연구의 일환으로 문서 분석을 수행한 경험이 있고(예: Cleland 외.22, Patterson 외.23), 연구 내에서 DA를 사용한 박사 과정 학생을 감독한 경험이 있습니다(예: Coyle 외.24, Hawick 외.25).
  • AM은 문제 기반 학습 연구(To 외.26 및 MacLeod 외1)와 리더십 직무 기술서 연구(Gorsky 외.27)에서 문서를 주요 소스로 사용하고 삼각 측량을 위해 DA를 사용한 초기 연구에서 DA를 주요 소스로 사용한 경험을 가지고 있습니다. 각각의 경우 문서 소싱, 관리 및 분석 방법과 관련하여 추가 설명의 기회가 있습니다.
  • RHE는 연구의 일환으로 문서 분석을 수행한 경험이 있었는데28-30, 편집자이자 멘토로서의 다른 관점을 이 문제에 적용했습니다. 우리 자신의 DA 경험과 이 분야의 다른 사람들의 DA 작업을 읽으면서 일반적으로 DA 관행의 깊이와 엄격함을 개선하기 위해 노력했습니다. 

We note the perspectives we brought to bear in undertaking this research. The study was developed from our ongoing discussions about methodology and theory in HPER and was based initially on our own experiences in conducting DA research.

  • More specifically, JC had experience in conducting document analyses as part of her research (e.g., Cleland et al.22, Patterson et al.23) and in supervising doctoral students who used DA within their research (e.g., Coyle et al.24 and Hawick et al.25).
  • AM had experience using DA as a primary source in earlier research where documents were used both as a primary source and to triangulate in studies of Problem Based Learning (To et al.26 and MacLeod et al1) and also as an object in studies of leadership job descriptions (Gorsky et al.27). In each case, there are opportunities for further explanation with respect to how documents were sourced, managed and analysed.
  • RHE had experience in conducting document analyses as part of her research28-30 she brought other perspectives from being an editor and mentor to bear on the issue. It was both our own DA experiences and our reading of the DA work of others in the field that led us to seek to improve the depth and rigour DA practices in general.


먼저 파일럿 검색을 실시하여 잠정 검색 전략을 테스트하고, 연구 질문을 구체화하며, 검토 범위를 계획하는 데 도움을 받았습니다. 2021년 7월 15일에 익명 모드에서 ['문서 연구' 및 '의학교육']이라는 용어로 Google Scholar를 사용하여 이 파일럿 검색을 실시했습니다. 그 결과 261개의 논문이 반환되었으며, 이 중 처음 50개의 관련성을 분석하여 6개의 논문(12%)을 식별했습니다. 이를 통해 학습한 후, 2021년 7월 16일에 PubMed와 ['문서 분석' 및 '의학 교육']을 사용하여 두 번째 파일럿 검색을 수행한 결과 53개의 논문이 반환되었습니다. 관련성을 검토한 결과, 14개의 논문은 HPE와 관련이 없는 것으로 제외되었고, 39개(74%)의 논문이 신뢰할 수 있는 것으로 나타났습니다. 이는 또한 대규모 메타 연구를 실행할 수 있을 만큼 충분한 HPE 연구에서 어떤 식으로든 DA를 사용했음을 시사합니다. 
We first conducted a pilot search to test our provisional search strategy, refine our research questions and help us plan the scope of the review. We conducted this pilot search using Google Scholar in anonymous mode with the terms [‘document research’ AND ‘medical education’] on 15 July 2021. This returned 261 articles, of which the first 50 were analysed for relevance, identifying six articles (12%). Learning from this, we then conducted a second pilot search using PubMed and [‘document analysis’ AND ‘medical education’] on 16 July 2021, which returned 53 articles. Screening for relevance, 14 articles were excluded as not being relevant to HPE, leaving 39 (74%) that seemed credible. This also suggested that sufficient HPE studies had used DA in some way to render a larger meta-study viable.

전체 검색을 위해 사서와 협력하여 검색 전략을 수립했습니다. 사서의 추천에 따라 범위를 '의학교육'에서 HPE에 대한 보다 광범위한 용어로 확장하고(부록 1a-1c 참조), MEDLINE, CINAHL, Scopus 및 ERIC을 포함하도록 검색을 확대했습니다. Google Scholar는 제외되었으며, 연구에 입력된 논문의 양과 일관성을 관리하기 위해 2000년 1월부터 2021년 10월까지 발표된 영어 논문으로 검색을 제한했습니다. 전체 검색 결과 1298개의 논문이 검색되었으며, 이 단계에서 285개의 중복 논문을 제거했습니다. 그런 다음 인용문을 Excel로 가져왔습니다. 
For our full search, we worked with a librarian to create a search strategy. On their recommendation, we expanded the scope from ‘medical education’ to a set of broader terms for HPE (see Supplementary Appendices 1a1c), and we expanded the search to include MEDLINE, CINAHL, Scopus and ERIC. Google Scholar was omitted, and we limited the searches to English-language papers published from January 2000 to October 2021 as a way of managing the quantities and coherence of the papers entered into the study. This full search resulted in 1298 articles; 285 duplications were removed at this stage. Citations were then imported into Excel.

그런 다음 각 저자는 전체 텍스트를 읽기 전에 논문 그룹을 필터링하고, 라벨을 붙이고, 제목과 초록을 선별하여 포함하거나 제외한 이유에 대한 의견을 작성했습니다. 이 단계에서 의학 교육에 관한 논문이 아닌 경우, DA를 포함하지 않는 방법론이 포함된 경우, 문서를 참조했지만 해당 문서를 분석하지 않은 경우(예: 논평), 인터뷰 녹취록만 분석한 경우, 영어로 된 논문이 아닌 경우 논문을 제외했습니다. 논평이나 오피니언 기사는 DA와 관련된 내용일 경우 포함했습니다. 
Each author then took a group of articles to filter, label and make comments on why she included or excluded them on title and abstract screening, before full-text reading. At this stage, we excluded articles if they were not on healthcare education, if they involved methodologies that did not include DA, if they referred to documents but did not analyse these documents (such as in commentaries), if the analysis was only of interview transcripts or if they were not in English. We included commentaries or opinion articles when they involved some sort of DA.

파일럿 검색을 통해 얻은 인사이트를 바탕으로 연구 질문 1과 2를 해결하기 위해 데이터 추출은 다음에 중점을 두었습니다.

  • DA가 사용된 정도,
  • DA의 목적,
  • 사용된 DA 방법과 DA 적용 및 보고의 엄격성,
  • 사용된 문서의 범위와 유형,
  • 연구 질문 해결에 있어 DA의 유용성

이러한 초기 연역적 주제에 매핑된 데이터 추출 도구를 반복적으로 개발했습니다. 또한 Siegner 등이 제시한 정성적 DA의 유형을 참고했습니다.

  • 맥락(문서가 연구 질문이나 문제에 대한 관련 배경을 제공함),
  • 삼각측량(문서가 다른 데이터를 확증하는 수단으로 사용됨),
  • 1차 출처(연구용 데이터),
  • 연구 대상(사회적 맥락에서 특정 문서의 역할과 기능)

Based on the insights gained from the pilot search and to address study questions 1 and 2, data extraction focused on

  • the extent to which DA had been employed,
  • the purpose of DA,
  • the DA methods used and the rigour with which DA was applied and reported;
  • the range and types of documents used; and
  • the utility of DA in addressing the research question.

We iteratively developed a data extraction tool mapped to these initial deductive themes. We also drew on Siegner et al’s31 typology of qualitative DA:

  • contextual (documents provide relevant background on the research question or problem),
  • triangulation (documents are used as a means of providing corroborating other data),
  • primary source (the data for a study) and
  • object of the research (the role and function of a specific document in its social context).

세 명의 저자가 처음 몇 개의 논문을 코딩하고 도구로 데이터를 추출한 후, 데이터 추출 도구의 흐름과 명확성을 위해 수정한 다음 선택한 모든 논문에 적용했습니다(보충 부록 2 참조). 이 도구는 추출 데이터의 추적 및 대조가 가능하도록 Qualtrics(유타주 프로보)를 사용하여 제공되었습니다. 
Following the coding of the first few articles and data extraction into the tool by all three authors, the data extraction tool was modified for flow and clarity and then applied to all selected articles (see Supplementary Appendix 2). The tool was delivered using Qualtrics (Provo, UT) to allow for tracking and collation of extraction data.

데이터 추출이 완료되면 Qualtrics에서 리뷰를 다운로드하고 구조화된 응답을 표로 만들고 구조화되지 않은 응답을 대조했습니다. 세 팀원 모두 비정형 응답을 읽고 주요 이슈와 우려 사항을 코딩했습니다. 이 단계는 귀납적이고 해석적이며 반사적인 방식으로 진행되었으며, DA 상태에 대한 초기(선입견) 믿음을 코딩의 출발점으로 삼아 이후 데이터와의 접촉, 회의 및 토론을 통해 이러한 믿음을 지속적으로 재구성했습니다.32 
Once the data extraction was complete, the reviews were downloaded from Qualtrics, the structured responses tabulated and the unstructured responses collated. All three team members read through the unstructured responses and coded for key issues and concerns. This step was inductive, interpretive and reflexive, using our initial (preconceived) beliefs about the state of DA as the starting point for coding and reconstructing these beliefs continuously through subsequent contact with the data, meetings and discussions.32

3 결과

검색을 통해 확인된 1013개의 논문 중 898개의 논문이 포함 기준을 충족하지 못했습니다. 그 결과 115개의 논문이 리뷰에 포함되었습니다(리뷰 코퍼스를 구성하는 논문 목록은 그림 1 및 부록 3 참조). 
Of the 1013 articles identified from the search, 898 did not meet our inclusion criteria. This left 115 articles for inclusion in the review—see Figure 1 and Supplementary Appendix 3 for the list of articles that made up the review corpus.


56편의 논문은 의학 교육(n = 20), 보건 과학 교육 발전(n = 9), 의료 교사(n = 9), 학술 의학(n = 6), 전문직 간 진료(n = 4), BMC 의학 교육(n = 5), 의학 교육에 대한 관점(n = 3, 이 저널은 2012년까지 영어로 출판되지 않음), 그리고 다양한 간호 저널에 20편의 논문이 추가로 실렸습니다. 몇몇 논문은 의학 전문 학술지(n = 10)에, 나머지는 다양한 기타 학술지에 게재되었습니다. 2000~2010년(n = 19)에 비해 2011~2021년(n = 96)에 DA 사용을 보고한 논문 수가 크게 증가했습니다. 63편의 논문은 단일 방법(DA만)이었고, 나머지는 혼합 방법 연구(MMR)였습니다. 이 중 22개는 DA와 인터뷰, 나머지 8개는 인터뷰와 포커스 그룹을 포함했습니다. 7건은 일반적으로 인터뷰와 함께 DA 및 설문조사 데이터를 포함했습니다(DA 및 설문조사 데이터만 사용한 논문은 1건뿐). 여러 연구에서 DA, 인터뷰(개별 또는 포커스 그룹), 관찰 등 다양한 데이터 소스를 사용했습니다. 저희가 확인한 연구 중 5건은 특정 정보를 찾기 위해 문서를 면밀히 검토한 후 설명적 또는 통계적 분석을 거친 정량적 연구였습니다. 
Fifty-six articles were in HPE journals including Medical Education (n = 20), Advances in Health Sciences Education (n = 9), Medical Teacher (n = 9), Academic Medicine (n = 6), The Journal of Interprofessional Care (n = 4), BMC Medical Education (n = 5) and Perspectives on Medical Education (n = 3, note this journal did not publish in English until 2012), plus an additional 20 articles in various nursing journals. Several articles were published in medical specialty journals (n = 10), and the remainder, in diverse other journals. There was a significant increase in the number of articles published reporting the use of DA in the period 2011–2021 (n = 96) compared to 2000–2010 (n = 19). Sixty-three articles were single method (DA only), and the others were mixed methods research (MMR). Of these, 22 involved DA and interviews, and a further eight involved interviews and focus groups. Seven included DA and survey data, usually along with interviews (only one paper used DA and survey data only). Several studies used many different sources of data, such as DA, interviews (individual or focus groups) and observations. Five of the studies we identified were quantitative, scrutinising documents for specific information, which was then subject to descriptive or statistical analysis.

문서 말뭉치, 연구 목적, 방법, 연구 결과, 문서 분석의 이론 및 메타학문 측면에서 메타 연구 내러티브 종합을 보고합니다.
We report our meta-study narrative synthesis in terms of the document corpus, purposes, methods, findings and theory and metascholarship in document analyses.

문서 코퍼스
Document corpus

먼저 DA에 입력된 문서, 즉 '문서 말뭉치'(보충 부록 3)부터 시작합니다. 연구 이전에 존재했던 문서(예: 회의록 및 정책 문서)와 연구의 일부로 생산된 문서(예: 현장 노트 및 일기 항목)를 분석하는 데 한 가지 차이점이 있습니다. Charmaz33은 전자의 경우 '현존하는 텍스트'라는 용어를, 후자의 경우 '도출된 텍스트'라는 용어를 사용했습니다. 저희가 검토한 논문 중 단 2개(<2%)만이 연구에서 도출된 데이터를 사용했습니다. Voogt 등34은 정책 문서와 함께 참여자 QI 프로젝트 자료를 분석했고, Ruiz-Lopez 등35은 참여자의 저널을 분석했습니다. 인터뷰 녹취록과 같이 연구에서 생성된 데이터는 포함하지 않았습니다. 
We start with the documents that were entered into the DA; the ‘document corpus’ (Supplementary Appendix 3). One distinction was between the analysis of documents that pre-existed the research (e.g., meeting minutes and policy documents) and documents that were produced as part of a study (e.g., field notes and diary entries). Charmaz33 used the term ‘extant text’ for the former and ‘elicited text’ for the latter. Only two (<2%) of the articles we reviewed used study-elicited data. Voogt et al.34 analysed participant QI project materials (alongside policy documents) and Ruiz-Lopez et al.35 analysed participants' journals. Note that we did not count study-generated data such as interview transcripts.

둘째, 문서 선정 방법, 포함된 문서 수, 분석된 문서의 특성에 대한 정보가 광범위하게 부족했습니다. 실제로 어떤 문서가 사용되었는지(또는 왜 포함되었는지 또는 어떻게 분석되었는지) 보고하지 않은 연구도 있었습니다(예: Brosnan36).

  • 다음은 이러한 세부 사항 부족의 대표적인 예입니다: '검토 대상인 전문 규제 측면과 관련된 정책 보고서 또는 논평에 해당하는 텍스트가 포함된 경우'(731쪽).37
  • 또 다른 예로, Wong38 은 다음과 같이 언급했습니다: '이용 가능한 모든 부서 및 프로그램 문서를 검토했다'(1211쪽)고 말했지만, 문서가 무엇인지, 문서 수가 얼마나 되는지, 그 밖의 다른 내용은 설명하지 않았습니다.
  • 마찬가지로 '핵심 문서'라는 문구가 문서 포함에 대한 유일한 정당화였습니다. 그러나 이러한 핵심 문서가 무엇이고 왜 핵심 문서인지에 대한 정보가 없으면 포함된 문서의 품질이나 적절성을 평가할 근거가 없습니다. 

Secondly, there was a broad deficit of information on how documents were selected, on how many documents were included and on the characteristics of the documents analysed. Indeed, some studies did not report what documents were used (or indeed why they were included or how they were analysed, e.g., Brosnan36).

  • The following typifies this lack of detail: ‘texts were included if they constituted policy reports or commentary concerned with those aspects of professional regulation of concern to the review’ (p. 731).37 
  • As another example, Wong38 stated: ‘all available departmental and programme documents were examined’ (p. 1211) but did not describe what they were, how many there were, or anything else about them.
  • Similarly, the phrase ‘key documents’ was the only justification for document inclusion. However, without information as to what these key documents were and why they were key, there are no grounds on which to assess the quality or appropriateness of the included documents.

DA 말뭉치의 구성에 대한 세부 정보가 부족하기 때문에, 우리가 말할 수 있는 것은 다음과 같은 대략적인 범주에 속하는 문서들이 포함되었다는 것입니다:
Given the lack of detail on the makeup of the DA corpus, the most we can say is that documents approximated to the following broad categories:

  1. 단일 교육기관 커리큘럼 문서예를 들어, Hawick 등은25 내부 보고서와 회의록을 분석하여 커리큘럼 개혁의 과정을 조사했습니다.
    Single institution curricular documents. For example, Hawick et al.25 analysed internal reports and meeting minutes to examine the processes of curricular reform.
  2. 다중 교육기관 커리큘럼 문서. 예를 들어 Steven 등39은 여러 영국 의과대학의 이비인후과 커리큘럼을 분석했습니다.
    Multi-institution curricular documents. For example, Steven et al.39 analysed the otolaryngology curricula from multiple UK medical schools.
  3. 정책 및 기타 공개 문서. 예를 들어, Razack 등40은 의과대학 선택에 대한 담론 분석을 위해 의과대학 웹사이트와 국가 규제 기관의 정책 문서를 조사했습니다. 프레데릭센41은 정해진 기간 내에 출판된 의사와 간호사를 위한 교과서를 분석했습니다(논문에서 교과서에 대한 세부 정보를 제공).
    Policy and other public-facing documents. For example, Razack et al.40 examined the medical school websites and the policy documents of national regulatory bodies in a discourse analysis of medical school selection. Frederiksen41 analysed textbooks for doctors and nurses published within a defined time period (providing details of the textbooks in her paper).
  4. 학생 또는 교수진 데이터(자기 성찰, 학습 로그, 온라인 토론 등). 예를 들어, Zaidi 등42은 온라인 토론의 텍스트를 분석하여 비판적 의식을 형성하는 데 있어 기존 다문화 토론의 강점과 한계를 정의했습니다.
    Student or faculty data (self-reflections, learning logs, online discussions etc.). For example, Zaidi et al.42 analysed text from online discussions to define the strengths and limitations of existing cross-cultural discussions in generating critical consciousness.


  • Siegner 등의 유형학을 사용하여 31개의 논문에서 삼각 측량 목적으로 DA를 사용한다고 명시적으로 설명했거나, 명시적으로 설명하지 않은 경우 전체 논문을 읽은 후 문서 사용을 그렇게 해석했습니다.
    • 예를 들어, Hawick 외.25는 다음과 같이 말했습니다: '문서 분석의 목적은 다양한 데이터 소스와 방법을 사용하여 수렴과 확증을 추구하는 것이었다'.
  • 20개의 기사에서 문서가 맥락적 목적으로 사용된 것으로 보였습니다.
  • 그보다 적은 수(n = 16)의 논문이 문서를 연구 대상으로 사용했으며, 이들은 담화 분석 연구인 경향이 있었습니다.
  • 나머지 논문(n = 48)에서는 사실 또는 맥락에 대한 주요 참고 자료로 문서가 사용되었습니다(우리가 알 수 있는 한).
    • 예를 들어 보그스트롬 등43은 포트폴리오 콘텐츠를 조사하여 직업적 가치에 대한 언급을 식별하고 분석했습니다.
    • 앤더슨과 갈리아르디44는 여성 건강 커리큘럼에 대한 내용 분석을 수행하여 관련 커리큘럼 내용을 파악했습니다.
    • Waterval 등45 은 다양한 문서의 내용을 사용하여 연구 질문에 대한 정보를 얻었습니다.
  • Using Siegner et al’s typology, 31 articles either explicitly described using DA for triangulation purposes or, where this was not made explicit, on reading the full article, we interpreted their use of documents as such.
    • For example, Hawick et al.25 stated: ‘The aim of document analysis was to seek convergence and corroboration through the use of different data sources and methods’.
  • In 20 articles, documents seemed to be used for contextual purposes.
  • Fewer (n = 16) used documents as the object of the research, and these tended to be discourse analysis studies.
  • In the other articles (n = 48), documents had been used (as far as we could tell) as primary reference sources on factual or contextual matters.
    • For example, Borgstrom et al.43 examined portfolio content to identify and analyse references to professional values.
    • Anderson and Gagliardi44 conducted a content analysis of women's health curricula to identify relevant curriculum content.
    • Waterval et al.45 used the content of various documents to inform their research questions.


문서에서 데이터를 추출하는 방법은 설명이 부족하고 모호한 경우가 많았습니다. 예를 들어, Sirili 등은46 탄자니아 교육 개혁의 정책 과정과 결과를 분석하는 데 사용한 문서를 명확하게 나열했습니다. 그러나 문서 데이터를 어떻게 관리하고 분석했는지에 대한 정보는 논문에서 찾아볼 수 없었습니다.

  • 35편(30%)의 논문이 내용 분석, 프레임워크 분석 또는 주제 분석을 사용했다고 보고했지만, 이는 주로 기본적인 사실이나 세부 사항을 추출하는 데 그쳤으며, 권위나 명료성에 거의 주의를 기울이지 않았고 이러한 분석 기법의 사용 간에 별다른 차이를 발견할 수 없었습니다.
  • 29개(25%) 논문은 어떤 종류의 담론 분석을 사용했다고 밝혔고, 24개(21%) 논문은 분석 접근법이나 방법론을 사용했다고 언급하지 않았습니다.

예를 들어, Fealy 외.37는 '검색된 모든 텍스트에 대해 문서 분석을 수행했다'(731페이지)고 명시했지만, 어떤 분석을 수행했는지에 대한 자세한 내용은 제공하지 않았습니다. 나머지 논문은 템플릿 분석(예: Chenot 및 Daniel47), 키워드 매칭(예: Wong 외.48) 등 다른 접근법을 사용했습니다.
How data were extracted from documents was often under-described and ambiguous. For example, Sirili et al.46 clearly listed the documents they used to analyse the policy process and outcomes of training reform in Tanzania. However, any information on how they managed and analysed the document data was lacking in the paper.

  • Thirty-five articles (30%) reported using content, framework or thematic analyses, although this was often limited to extracting basic facts or details with little attention to their authority or articulation, and we found little distinction between the use of these analytic techniques.
  • Twenty-nine (25%) articles stated that they used some kind of discourse analysis, while twenty-four (21%) did not mention having used any analysis approach or methodology.

For example, Fealy et al.37 stated ‘Documentary analysis performed on all retrieved texts’ (p. 731) but did not provide any detail of what was done. The remaining articles employed other approaches, including template analysis (e.g., Chenot and Daniel47) and keyword matching (e.g., Wong et al.48).

MMR 논문에서 대부분의 저자는 DA 사용에 대한 설명에 비해 그들이 사용한 다른 방법에 대해 훨씬 더 실질적인 설명을 제공했습니다. 예를 들어, 인터뷰와 문서를 데이터로 사용한 MMR 연구에서는 인터뷰 질문, 인터뷰 대상자, 인터뷰 횟수, 인터뷰 데이터 분석에 대해 명시적으로 설명한 반면, 문서에 대한 세부 사항(샘플링 방법 포함) 및 분석에 대한 설명은 부족했습니다. 예를 들어, 서덜랜드 등49 은 포커스 그룹의 수와 기간, 참가자 수, 포커스 그룹 데이터 분석에 대한 접근 방식을 명시했지만 문서의 수나 문서의 내용, 분석 방법에 대해서는 언급하지 않았습니다(질적 데이터 관리 소프트웨어에 문서를 입력했다고만 명시). 결과 섹션에는 문서 데이터가 제시되지 않았습니다. 다른 논문에서는 저자가 접근 방식을 구성하거나 수행한 방법을 설명하지 않고 단순히 문서 분석 접근 방식을 사용했다고 언급했습니다.
In the MMR articles, most authors provided much more substantive descriptions of the other methods they had used compared to their descriptions of using DA. For example, in MMR studies that used interviews and documents as data, the interview questions, who was interviewed, the number of interviews and interview data analysis were explicitly described, while parallel details about documents, including how they were sampled, and their analysis were lacking. To illustrate, Sutherland et al.49 specified the number and length of their focus groups, the number of participants and their approach to focus group data analysis but made no mention of the number of documents or what these were or how they were analysed (stating only that documents were entered into qualitative data management software). No document data were presented in the results section. In other articles, authors simply mentioned using a document analytic approach rather than describing how the approach was configured or conducted.

위에서 언급한 바와 같이, 29개 논문(25%)은 담화 분석 접근법을 사용했다고 명시적으로 언급했습니다. 그러나 전체 텍스트를 읽어보면 이러한 분석의 대부분은 내용 분석 또는 주제 분석으로 더 정확하게 설명할 수 있습니다. 비판적 담화 분석을 사용했다고 명시한 논문(n = 22) 중 19편이 푸코주의적 관점을 사용했으며, 이 중 16편은 같은 기관에 소속된 저자의 논문이었습니다. 담론 분석 논문에서는 대상 또는 객체와 다른 데이터와의 삼각 측량으로 처리된 문서를 검토했으며, 방법론적 지향이 명시되어 있어 엄밀성과 방법론적 일관성이 논의되고 분명했습니다.
As stated above, 29 articles (25%) explicitly stated that they took a discourse analysis approach. However, when we read the full texts, many of these analyses would be more accurately described as content or thematic analysis. Of those articles which were explicit about using critical discourse analysis (n = 22), 19 used a Foucauldian perspective and 16 of these were from authors associated with the same institution. In the discourse analysis articles, we reviewed documents that were treated as object or object plus triangulation with other data, and, as they had an explicit methodological orientation, rigour and methodological coherence was both discussed and apparent.

연구 결과 및 논의
Findings and discussions

검토한 논문 중 연구 결과의 맥락에서 문서나 그 내용을 명시적으로 설명한 논문은 거의 없었습니다. 오히려 제시된 증거는 고도로 일반화되었거나 MMR 연구의 경우 다양한 지식 주장을 설명 또는 방어하기 위해 다른 방법론적 흐름(예: 인터뷰 데이터)에서 주로 파생된 것이었습니다. 실제로 방법 섹션에서는 문헌을 언급했지만 결과나 논의에서는 명시적으로 언급하지 않은 경우도 있었습니다(예: 50). 유일한 예외는 문서가 유일한 데이터 소스인 담론 분석 기사였습니다. 고찰 섹션에서도 마찬가지로 문서의 품질, 중요성 또는 기타 특성이 연구 결과의 시사점, 추가 연구에 대한 시사점 또는 연구의 한계와 거의 고려되지 않았거나 연결되지 않았습니다. 이는 권위 있는 출처로서의 문서에 대한 신뢰도가 낮거나, 특히 MMR 연구에서 DA 스트림에 대한 연구자들의 일반적인 사각지대가 반영된 결과라고 볼 수 있습니다.
Very few of the articles we reviewed explicitly described their documents, or the content thereof, in the context of their findings. Rather, the evidence presented was either highly generalised or, in the case of MMR studies, largely derived from other methodological streams (e.g., interview data) to illustrate and/or defend their various knowledge claims. Indeed, at times documents were referred to in the methods section but not referred to explicitly in the results or discussion (e.g.,50). The only exceptions to this were the discourse analysis articles where documents were the lone data source. Similarly in discussion sections, the quality, significance or other characteristics of documents were rarely considered or linked to the implications of findings, implications for further research or limitations of the study. This suggests either a lower sense of confidence in documents as sources of authority or a further reflection of the common blind spots researchers have had regarding DA streams, particularly within MMR studies.

이론과 메타학술성
Theory and Metascholarship

대부분의 논문(담화 분석 제외)은 DA 이론이나 방법론적 문제에 대한 근거가 거의 또는 전혀 없었습니다. 대부분 DA 방법론은 이를 뒷받침하기 위해 방법론적 출처를 한두 번 인용하면서 언급되었는데, 가장 흔한 출처는 Bowen이었습니다.11 이러한 무성의함은 어떤 문서가 있는지, 문서와 관련된 연구자의 입장, DA 방법론의 도전과 논쟁 등에 대한 관심이 부족하다는 것을 반영합니다. 
Most articles (discourse analyses excepted) had little or no grounding in DA theory or methodological concerns. Mostly, DA methodology was stated with one or two citations to a methodological source to back it up, most commonly Bowen.11 This casualness reflected a lack of attention to what documents might be, the position of the researcher in relation to the documents, the challenges and debates in DA methods and so forth.

또한 담론 분석 방법을 사용하는 논문과 커리큘럼 개혁에 초점을 맞춘 논문 중 이론적 렌즈를 사용하여 분석한 논문은 소수에 불과했습니다. 예를 들어, 

  • Ellaway 등은 담화 분석을 위해 Gee의51 개념적 틀을 사용했고,
  • Razack 등은40 '푸코, 부르디외, 바흐친, 고프만의 성과 이론'을 활용했으며,
  • Hawick 등은25 데이터의 측면을 강조하기 위해 '사악한 문제' 프레임워크52 를 적용했습니다.

Moreover, only a few articles, typically but not always those employing discourse analysis methods and those focused on curriculum reform, used a theoretical lens in their analysis. For instance,

  • Ellaway et al. used Gee's51 conceptual framing for discourse analysis,
  • Razack et al.40 drew on ‘Foucault, Bourdieu and Bakhtin … and the performance theories of Goffman’, while
  • Hawick et al.25 applied the ‘wicked problem’ framework52 to highlight aspects of their data.

HPE 학자들은 학문적 연구에 더 많은 이론적 지향성을 요구해 왔으며,53 특히 그렇게 하지 않으면 연구 결과의 개념적 일반화 가능성이나 이전 가능성이 제한되기 때문입니다.54 일부 방법론이 이러한 요구에 부응했지만, 아직까지 DA에 실질적인 영향을 미치지는 않은 것으로 보입니다. 또한 DA 이론, DA 방법 또는 DA 과학 전체에 대한 기여에 대한 실질적인 고려는 거의 찾아볼 수 없었습니다. 
HPE scholars have called for more theoretical orientation to scholarly work,53 not least because not doing so limits the conceptual generalisability or transferability of findings.54 While some methodologies have responded to this call, it seems that this has not yet touched DA in any substantial way. We also note that we found almost no substantive consideration of contributions to DA theory, DA methods or DA science as a whole.


많은 누락에도 불구하고 DA를 수용하고 이를 잘 보도한 기사도 몇 개 발견했습니다. 그 중 눈에 띄는 논문은 Sundberg 등의 논문이었습니다.55 저자들이 사용한 문서뿐만 아니라 길이를 포함한 문서의 특성을 설명하는 방식에 감사했습니다. 또한 인터뷰와 문서 모두에 사용된 분석 접근 방식을 명시하고 분석의 각 측면에 대해 인터뷰 데이터와 문서 데이터를 모두 제시했습니다. 마지막으로, 연구진은 연구 질문과 관련된 소규모 문서 코퍼스의 한계에 대해 인정했습니다. 
Despite the litany of omissions, we found some articles that had embraced DA and reported it well. One example which stood out was a paper by Sundberg et al.55 We appreciated the way the authors specified not only the documents they used but also described the characteristics of the documents, including the length. They also specified the analysis approach used for both their interviews and the documents and presented both interview and document data for each aspect of their analysis. Finally, they acknowledged possible limitations of the small corpus of documents relevant to their research question.

4 토론

HPE 연구 논문에서 DA는 어떻게 접근했습니까?
How has DA been approached in HPE research articles?

DA 연구에 사용된 문서는 기본 데이터 소스가 아닌 맥락적 및 삼각 측량 목적으로 자주 사용되었습니다. 즉, 대부분의 논문에서 문서를 정적이고 '유순한' 지식의 저장소로 개념화하여

  • 문서가 '무엇을 하는가'보다는
  • 문서가 무엇을 '말하는가'(내용),
  • 문서가 어떻게 말하는가를 조사했습니다.8

We found that documents in DA studies were frequently used for contextual and triangulation purposes, not as a primary data source. This meant that most articles conceptualised documents as static and ‘docile’ containers of knowledge, examining

  • what documents ‘say’ (content) and
  • to a lesser extent how they say it,
  • rather than what documents ‘do’.8 

이러한 차이점에는 연구자가 문서에 관여하는 방식에 대한 암묵적인 변증법이 존재했습니다.

  • 한편으로, 문서는 실험적으로 도출된 데이터와 유사한 방식으로 수집, 처리 및 분석되는 1차 데이터로 접근할 수 있습니다.
  • 반면에 문서는 그 내용, 표현 방식, 권위에 대한 논란이 있을 수 있으므로, 덜 비판적이거나 직접적인 방식으로 접근할 수 있으며,
  • 엄격하게 데이터로 간주되기보다는, 데이터를 성찰하는 데 사용될 수 있습니다. 

There was an implied dialectic of researcher engagement with documents in these differences.

  • On the one hand, documents may be approached as primary data that are collected, treated and analysed in similar ways to experimentally derived data.
  • On the other hand, documents may be approached in a less critical or direct way such that their content, articulation and authority are moot, and they are used to reflect on data rather than being strictly considered as data.

문서의 내용을 조사하는 것도 분명 의미가 있지만, 문서의 의미나 중요성을 이해하는 데는 문서 작성, 생산 및 소비의 사회적, 물질적 현실이 매우 중요할 수 있다고 생각합니다. 이는 문서를 다음으로 취급해야 한다는 주장을 반영한 것입니다. 

  • 자원(독자에게 특정 환경, 조직, 사건 또는 사람에 대해 알려주는 의미, 정보원)으로서,
  • 독립적인 인공물로서,56 그리고
  • 잠재적으로 여러 온톨로지를 가진 '사회적 위치의 산물'(Scott57, 34쪽)

(문서의 위치성과 수사적 위치가 어느 정도는 채택된 방법론적 틀 안에 포함되곤 하는) 담론 분석 연구는 다소 예외였다. 예를 들어, Coyle 등24 은 데이터와의 관련성 측면에서 자신의 직업적, 개인적 배경을 밝히고, 서로 다른 삶의 과정, 교육 및 훈련이 문서에 대한 해석과 이 연구의 맥락 및 초점과 관련하여 자신의 입장을 어떻게 형성했는지에 대해 지속적으로 성찰했다고 언급했습니다.
While it is clearly meaningful to investigate the content of documents, we believe the social and material realities of document authorship, production and consumption can be of critical importance in understanding their meaning or significance. This reflects arguments that documents should be treated both

  • as resources (meaning, sources of information that tell a reader about a particular setting, organisation, event or person),
  • as stand-alone artefacts,56 and
  • as ‘socially situated products’ (Scott57, p. 34) with multiple potential ontologies.

The exception, to an extent, was discourse analysis studies where the positionality and rhetorical positioning of the documents were (to some degree) included albeit within the methodological frame adopted. For example, Coyle et al.24 stated their professional and personal backgrounds in terms of relevance to the data and stated that they were continuously reflective about how their differing life courses, education and training shaped their interpretations of the documents and their positioning with respect to the study context and focus of this study.

현재 HPER의 DA 관행의 강점과 약점은 무엇인가요?
What are the strengths and weaknesses of current DA practices in HPER?

서두에서 언급했듯이, 그리고 이번 연구 결과에서 확인했듯이, DA의 활용 가능성은 매우 다양하며, 문서와 그 분석이 학술적 탐구 행위에 가치를 부여할 수 있는 이론적, 실제적 방법도 많습니다. 따라서 우리는 DA의 더 나은 사용이나 더 강력한 사용, 더 나쁜 사용이나 더 약한 사용이 있다고 말할 수 없습니다. 그보다는 DA가 사용된 연구 맥락에서 각각을 명확히 파악하고 평가해야 합니다. 이번 연구 결과는 글로벌 방법론적 규범에 따라 판단하기보다는 연구 내 공통 관심사에 초점을 맞추었기 때문에 이를 반영합니다. 
As we mentioned in our opening and as our findings confirmed, there are many possible uses for DA and many theoretical and practical ways in which documents and analyses of them might lend value to acts of scholarly inquiry. We cannot say therefore that there are better or stronger uses or worse or weaker uses of DA. Rather, each should be articulated and appraised in the study context in which it was used. Our findings reflect this, as we focused on common concerns within studies rather than seeking to judge them against global methodological norms.

예를 들어, 연구를 시작하기 전부터 우려를 했음에도 불구하고(실제로 연구로 이어지기도 했습니다), 저희는 HPER에서 DA가 얼마나 제대로 보고되지 않는지에 놀랐습니다. 물론 예외도 있지만 전반적으로 다음을 보고하는 데에 있어 큰 허점이 있었습니다.

  • 문서를 사용한 이유,
  • 문서를 식별한 방법,
  • 저자가 수행한 작업,
  • 문서에서 발견한 내용에 대한 

이는 특히 다른 방법 및 방법론에 비해 일관되게 DA를 덜 엄격하고 세부적으로 다루었거나, 적어도 덜 엄격하고 세부적으로 기술되거나 보고된 MMR 연구에서 두드러지게 나타났습니다. 이로 인해 투명성과 재현성에 대한 근본적인 문제가 발생하고 연구 결과가 의심스러워졌습니다. 부실한 보고는 문서 데이터의 '신뢰성'(예: 신뢰성 및 확인 가능성)을 평가하는 것을 불가능하게 만든다는 것은 잘 알려진 사실입니다58). MMR 연구 내의 다른 데이터 스트림에 대한 보다 실질적인 보고에 비해 반복적으로 DA 보고가 부족하다는 것은 인터뷰 기록의 주제별 분석과 비교하여 DA 방법 사용에 대한 자신감이나 역량이 부족하다는 것을 반영할 수 있습니다. 그러나 역량보다는 주의력 부족을 나타낼 수도 있습니다. 우리가 검토한 모든 논문이 각 저널에 게재되기 전에 일종의 동료 검토 과정을 거쳤으며, 그 과정에서 DA에 대한 설명이 부족하다는 지적을 받거나 수정되지 않았다는 사실이 이를 뒷받침할 수 있습니다. 따라서 이는 저자의 역량이나 집중력 때문이라기보다는 DA 학술활동에 대한 체계적인 부주의를 나타내는 것으로 보입니다. 
For instance, although we had concerns leading into the study (indeed, they led to the study), we were still surprised at how poorly DA has been reported in HPER. Of course, there are exceptions, but, overall, there are major lacunae in terms of reporting on

  • why documents were used,
  • how documents were identified,
  • what the authors did and
  • what they found from the documents.

This was particularly apparent in MMR studies where DA was consistently treated with less rigour and attention to detail compared to other methods and methodologies (or at least it was described or reported with less rigour and detail). This created a fundamental problem of transparency and replicability and rendered findings suspect. It is well established that poor reporting makes it impossible to assess the ‘trustworthiness’ of the document data (e.g., credibility and confirmability58). The recurring paucity of DA reporting compared to the more substantive reporting of other data streams within MMR studies may reflect a lack of confidence or competence in using DA methods compared to, say, thematic analysis of interview transcripts. However, it may instead indicate a lack of attention rather than competence. This would be supported by the fact that all the articles we reviewed had passed some kind of peer review process before being published in their respective journals, during which the paucity of the description of DA had not apparently been challenged or corrected. This would seem therefore to indicate a systemic inattention to DA scholarship rather than one solely of author competence or focus.

HPER에서 DA 관행을 강화하기 위해 어떤 지침이나 표준이 필요하나요?
What guidelines or standards are needed to strengthen DA practices in HPER?

DA 보고에 대한 가이드라인과 기준이 필요합니다. 우리는 이 문제에 대해 오랫동안 논의한 끝에 일련의 지침과 검토 결과를 위한 출발점으로 PRISMA(체계적 문헌고찰 및 메타분석을 위한 우선 보고 항목) 프레임워크를 활용하기로 결정했습니다.59 PRISMA는 체계적 문헌고찰 보고를 안내하기 위해 개발되었고 DA와 SR 사이에는 많은 개념적, 절차적 차이가 있지만, 문헌 출처에서 자료를 식별, 선택, 추출, 분석 및 합성하는 것과 관련하여 명확성을 제공하는 원칙은 충분히 유사하여 그 사용을 보증하기에 충분했습니다. 말뭉치에서 일련의 기사를 평가하고 범주, 언어, 필수 및 선택적 요소를 해결하여 프레임워크의 초안을 작성하고 다시 작성했습니다. 수용 가능한 수준의 안정성(새로운 문제나 도전 과제가 발견되지 않음)과 기능성(검토 말뭉치의 샘플 기사에 쉽게 적용할 수 있음)을 달성한 후 검토 및 수정 프로세스를 종료했습니다. 
Guidelines and standards for reporting DA are needed. We discussed this at length and decided to draw on the PRISMA (preferred reporting items for systematic reviews and meta-analyses) framework as a starting point for a set of guidelines as well as on the findings from our review.59 Although PRISMA was developed to guide reporting of systematic reviews and there are many conceptual and procedural differences between DA and SR, the principles of providing clarity with respect to identifying, selecting, extracting, analysing and synthesising material from documentary sources were sufficiently similar to warrant its use. We drafted and redrafted the framework based on evaluating a series of articles from the corpus, resolving categories, language and mandatory and optional elements. We ended the review and revision process once we had achieved acceptable levels of stability (no new issues or challenges were identified) and functionality (we found it easy to apply to sample articles from the review corpus).

그 결과 도출된 프레임워크는 저자가 DA 보고를 안내하고 검토자가 DA 연구의 질을 평가할 수 있도록 체크리스트 형태로 표 1에 제시되어 있습니다. 이 체크리스트인 문서 분석 평가 및 보고 체크리스트(CARDA)(그림 60)는 엄격한 DA를 촉진하고 DA의 다양한 과정을 투명하고 완전하며 정확하게 보고하여 독자가 HPER 및 기타 주제 영역에서 문서 사용 및 분석 결과의 신뢰성을 평가하는 데 도움이 되도록 설계되었습니다.
The resulting framework is presented in Table 1, in the form of a checklist for authors to guide the reporting of DA and for reviewers to guide evaluations of the quality of DA studies. This checklist—the Checklist for Assessment and Reporting of Document Analysis (CARDA) (drawing on60) - is designed to facilitate rigorous DA and transparent, complete and accurate reporting of the various processes of DA, to help readers assess the trustworthiness of the findings from document use and analysis in HPER and other subject areas.

TABLE 1. Checklist for the use and reporting of document analysis in HPER (CARDA) (drawing on Tong et al.60)

Section and topic Checklist item
Title 문서 분석과 관련된 연구를 식별합니다.
Identify the study involved in document analysis.
Abstract 방법을 혼합(방법 나열) 또는 문서 분석 전용으로 식별합니다.
Identify the methods as mixed (listing the methods) or solely document analysis.
Rationale 연구에서 문서를 사용한 근거를 설명합니다.
Describe the rationale for the use of documents in the study.
Objectives 연구 목적 또는 연구 질문에 대한 명시적인 설명을 제공합니다.
Provide an explicit statement of the research objective(s) or question(s) of the study.
Eligibility criteria 이 특정 연구에서 데이터로 문서를 포함할 수 있는 자격 기준을 지정합니다.
Specify the eligibility criteria for including documents as data in this specific study.
Document corpus 말뭉치에 있는 문서의 성격을 지정합니다:
 - 얼마나 많은 문서가 있었는지.
 - 어떤 종류의 문서가 포함되었는지(예: 지역 커리큘럼 안내서, 국가 정책 문서).
 - 문서의 매체(인쇄물, 전자 문서 등).
 - 기존 문서가 사용된 문서의 원래 목적(예: 대상 고객, 누가, 언제, 왜 작성했는가?)

사용된 모든 문서에 대한 표 또는 이에 상응하는 문서(문서에 포함하거나 부록으로 포함)를 포함합니다.

Specify the nature of the documents in the corpus:
  • How many documents there were.
  • What kinds of documents were involved (e.g., local curriculum guides and national policy papers).
  • The documents' media (print, electronic etc.).
  • The original purposes of the document where existing documents were used (e.g., Target audience. Who produced them, when and why?)
Include a table or equivalent documentation of all the documents used (either in the paper or as a supplementary table).
Document provenance 해당 문서가 
 연구 전용 문서인지, 
 데이터 수집의 일환으로 작성된 문서(예: 현장 메모 및 일기 항목) 또는 
 기존(현존하는) 문서(예: 회의록, 안내서, 정책 또는 과거 문서)인지 명시합니다.

State whether the documents were
 study-specific or
 elicited (created as part of data collection, e.g., field notes and diary entries) or 
 existing (extant) documents (e.g., meeting minutes, prospectuses, policy or historical documents).

연구와 관련된 문서인 경우 구체적으로 명시합니다:
 - 문서가 어떻게 그리고 누구로부터 도출되었는지.
 - 연구자가 작성한 것인지 참여자가 작성한 것인지. 예를 들어, 일기나 반성적 글쓰기가 사용된 경우, 참여자 대상 그룹의 근거와 텍스트 작성과 관련하여 참여자에게 제공된 지침을 설명합니다.
 - 문서가 작성된 시기와 연구의 일부로 수집된 시기(예: 2020년 1월부터 2020년 12월 말까지)를 명시합니다.

Where documents were study-specific, specify:

  • How they were elicited and from whom.
  • Whether they were researcher- or participant-created. For example, where diary entries or reflective writing are used and explain why the rationale behind the target group of participants and the guidance given to participants in respect of producing texts.
  • When the documents were created and when they were collected as part of the study (e.g., January 2020 to the end of December 2020).
기존 문서가 사용된 경우 명시합니다:
 - 문서를 식별한 방법(예: 아카이브 또는 웹사이트 검색).
 - 적절한 경우, 사용된 필터 및 제한(예: 영어만, 특정 웹사이트만)을 포함하여 문서 식별을 위한 전체 검색 전략을 제시합니다.
 - 모든 검색의 데이터 제한과 이러한 데이터 제한의 근거를 제시합니다.

Where existing documents were used, specify:
  • How the documents were identified (e.g., archives or websites searched).
  • If appropriate, present the full search strategies for document identification, including any filters and limits used (e.g., English language only and particular websites only).
  • The data limits of any searches and the rationale for these data limits.

Document collection and management 문서 입수, 관리 방법 

사용된 문서 중 공개적으로 사용 가능한 문서가 있는지, 어디서 찾을 수 있는지 보고합니다.

How documents were obtained, managed etc.

Report if any of the documents used are publicly available and where they can be found.
Document quality 문서의 '품질'과 문서 품질과 연구 목표와의 관계를 고려합니다.

기존 문서의 경우:
 문서가 완전한가? 
 문서에 공백이 있는가? 문서가 수정되었나요?
 계획보다 더 많은 검색을 수행하거나 추가 문서에 의존해야 했습니까?11
 일부 문서를 사용할 수 없거나 액세스할 수 없었는가?

도출된 문서의 경우:

 참가자들이 의도한 대로 프로세스에 참여했습니까?
 데이터가 포괄적이었습니까, 아니면 드물었습니까?
 데이터를 도출하는 데 연구자의 노력이 얼마나 필요했으며, 연구자 개입(예: 잦은 알림)의 의미는 무엇인가요?

Consider the “quality” of the documents and the relation of document quality to the study objectives.

For existing documents:

  • Were they complete?
  • Were there gaps in the documents? Were they redacted?
  • Did you need to do more searching or rely on additional documents than planned?11
  • Were some documents not available or accessible?
For elicited documents:
  • Did participants engage in the process as intended?
  • Were the data comprehensive or sparse?
  • How much researcher effort was required to elicit the data, and what might be the implications of researcher interventions (e.g., frequent reminders)?

Reflexivity/positionality (may be placed in the methods or discussion section of your paper) 연구자의 역할과 경험, DA 및 포지셔닝에 대한 경험.

문서(#8로 다시 연결되는 링크)와 연구자(들) 모두에서 포지셔닝의 잠재적 존재를 고려합니다.

Role and experience of researchers, experience in DA and positionality.

Consider the potential presence of positionalities, both in a document (links back to #8) and of the researcher(s).
Preliminary data analysis 예비 또는 정리 데이터 분석에 대한 접근 방식문서에서 데이터를 수집하는 데 사용된 방법(예: 보웬의 "1차 문서 검토"[32페이지]11, 종종 주제별 또는 내용 분석의 변형 사용)을 명시합니다.

프로세스에 자동화 도구가 사용되었는지 명시합니다(예: AntConc 및 Wordsmith).

Specify the approach to preliminary or organising data analysis, the methods used to collect data from the documents (e.g., Bowen's “first-pass document review” [p. 32]11; often using variations on thematic or content analyses).

Specify if any automation tools were used in the process (e.g., AntConc and Wordsmith).
Document analysis 어떤 방법론 또는 방법이 사용되었는지 분석 단계를 간략하게 설명하세요.

분석이 콘텐츠, 잠재적 콘텐츠, 언어학 또는 기타 문서 콘텐츠 또는 특성에 중점을 두었는지 설명하세요.

분석가가 분석 대상 문서의 콘텐츠, 스타일, 하위 텍스트 및 기타 차원에 어느 정도, 어떤 방식으로 몰입하거나 조율했나요?

이전 가능성을 보장하기 위해 이론적 렌즈를 사용했나요?

결과를 도출하기 위해 어떤 방식으로 결과를 종합했나요?

Outline the analytical steps taken—what methodology or methods were involved?

Explain whether the analysis focused on content, latent content, linguistics or some other document content or characteristics.

To what extent and in what ways did analysts immerse or attune themselves to the content, style, subtexts and other dimensions of the documents they analysed?

Was a theoretical lens used to ensure transferability?

How were findings synthesised to arrive at findings?
Results directly relate to research questions or goals 일반: 제시된 내용이 논리적 순서로 정리되어 있고 연구 질문과 일치하는지 확인합니다.
General: ensure what is presented is set out in a logical order and aligns with the research question.
Findings directly relate to DA 문맥, 삼각측량, 주요 데이터 소스 또는 연구 접근 방식의 대상 등 문서 데이터가 결과/결과의 근거가 된 방법을 명확히 설명합니다.31

따옴표를 사용하는 경우, 출판물을 참조할 때와 마찬가지로 문서에 대한 링크(예: 문서 이름 및 페이지 번호)를 제공합니다.
Clarify how the document data informed the results/findings—including whether contextual, triangulation or as the primary data source or the object of the research approach.31

If using quotes, link back to the document as you would when referencing a publication (e.g., document name and page number).
Findings are balanced 사용된 DA의 형태와 말뭉치의 성격에 따라 결과와 균형이 맞아야 합니다.

MMR에서 DA 구성 요소는 연구 전체 내에서 가중치에 따라 결과에 표시되어야 합니다.
Results and balanced and proportional to the form of DA used and the nature of the corpus

In MMR, DA component should be represented in results according to its weighting within the study as a whole
Consequences for DA methods 문서 분석이 연구에 무엇을 추가했는지 명확하게 설명해야 합니다.

연구가 DA에 무엇을 추가했나요?

DA 사용의 강점과 한계를 고려합니다.

Be clear about what the document analysis added to the study.

What did the study add to DA?

Consider the strengths and limitations of the use of DA.
DA in context 다른 DA 연구의 맥락에서 결과에 대한 일반적인 해석을 제공하세요.
Provide a general interpretation of the results in the context of other DA studies.
제공된 세부 정보가 연구를 재현하기에 충분한가?
1. 연구를 재현할 수 있는가?
2. 연구의 모든 단계를 평가하는가?

Are the details provided sufficient to
  1. reproduce the study?
  2. evaluate every stage of the study?

체크리스트의 유용성을 개선하기 위해 파일럿 테스트를 진행했지만, 추가 테스트의 여지가 있다는 점을 잘 알고 있습니다. 분명한 다음 단계는 질적 HPE 학자 및 저널 편집자와 함께 델파이 프로세스를 통해 내용을 계속 평가하고 개선하는 것입니다. 또한 DA에 종사하는 분들을 초대하여 DA 또는 혼합 방법 연구에서 CARDA의 실제 사용을 테스트해 보시기 바랍니다. 또한 다른 방법론 보고를 위한 지침과 체크리스트가 시간이 지남에 따라 발전해 온 것과 마찬가지로, 이러한 피드백이 체크리스트를 더욱 발전시키는 데 사용될 수 있다는 관점에서 학자들이 어떻게 사용했는지에 대한 토론에 참여하도록 초대합니다. 
Although we pilot-tested the checklist to refine its usability, we appreciate that there is room for further testing. An obvious next step would be to continue to assess its content and refine it, perhaps via a Delphi process with qualitative HPE scholars and journal editors. We also invite those engaging in DA to test CARDA's use in practice in DA or mixed methods research. Moreover, we invite scholars to engage in discussion about how they used it, with the view that this feedback can be used to develop the checklist further—in the same way that guidelines and checklists for reporting other methodologies have evolved over time.

DA를 사용하면 어떤 지식의 격차를 해소할 수 있을까요?
What gaps in our knowledge could be addressed using DA?

마지막 연구 질문은 DA를 통해 해결할 수 있는 지식의 격차를 파악하는 것과 관련이 있습니다. 물리적이든 물질적이든, 문서를 수동적인 정보 보유자 이상으로 개념화하면 HPER에서 데이터로서 문서가 가진 엄청난 잠재력을 활용할 수 있습니다. 예를 들어, 다양한 유형, 크기, 형태를 가진 문서는 여러 사회적 세계에 존재하고 이러한 세계 간의 커뮤니케이션을 연결하고 중재하여 여러 세계 간에 지식과 관점의 교환을 촉진하는 경계 개체 역할을 할 수 있습니다(예: 62). 즉, 주어진 텍스트가 어떻게 사용 및/또는 해석될지는 예측할 수 없습니다. 따라서 동일한 경계 개체라도 그것이 서식하는 세계에 따라 다르게 해석될 수 있습니다.

  • 예를 들어, 일련의 인증 표준은 규정 준수를 입증해야 하는 사람들을 위한 거버넌스를 구성합니다.
    • 커뮤니케이션 표준과 올바른 모양과 느낌을 준수하기 위해 인증 표준을 브랜딩하는 일을 맡은 사람들에게 이 문서는 일련의 업무 관련 작업을 수행하는 원동력이 됩니다.
    • 수십 년 후 의료 기록 보관소에서 동일한 표준을 확인하는 사람들에게 이 문서는 한 시대의 우선순위를 나타내는 역사적 지표 역할을 합니다.

문서의 여러 복잡성을 파악하면 다양한 사회적, 물질적 행위자들이 원하는 프로젝트를 달성하기 위해 어떻게 협력하는지, 또는 서로 어떻게 충돌할 수 있는지 등 HPER의 지속적인 과제를 해결할 수 있는 새로운 관점을 발견할 수 있습니다. 예를 들어, 한 세기 전 플렉스너 개혁에 대한 슈레브의63 역사적 DA는 북미 의학교육의 발전에 있어 이 중요한 사건과 이전에는 연관되지 않았던 조작과 이념적 포지셔닝의 층위를 확인했습니다. 
Our final research question related to identifying the gaps in our knowledge that could be addressed through DA. Whether physical or material, when we conceptualise a document as more than a passive holder of information, we can begin to leverage the tremendous potential of documents as data in HPER. For example, documents, of various types, sizes, and forms, can serve as boundary objects61 as they exist in multiple social worlds and serve to connect and mediate communication between those worlds, facilitating the exchange of knowledge and perspectives across them (e.g.,62). In other words, the ways in which a given text will be used and/or interpreted cannot be predicted. The same boundary object can therefore be interpreted differently, depending on the world it inhabits.

  • A set of accreditation standards, for example, constitutes governance for those who must demonstrate compliance.
    • For those tasked with branding the accreditation standards to comply with communications standards and the right look and feel, the document serves as an impetus to engage in a set of work-related tasks.
    • For those who identify with the same set of standards decades later in a medical archive, the document serves as a historical indicator of the priorities of an era.

Attuning to the multiple complexities of documents can allow us to uncover new angles to address ongoing challenges of HPER, including how the various social and material actors involved cooperate to accomplish a desired project or how they may be in conflict with each other. For example, Schrewe's63 historical DA of the Flexner reforms of a century ago identified layers of manipulation and ideological positioning that have not previously been associated with this critical event in the development of medical education in North America.

이는 자연스럽게 디지털 문서에 대한 고려로 이어집니다. 의과대학 웹페이지를 분석한 몇몇 논문을 제외하고는 검토한 논문에서 디지털 문서에 대한 언급이 눈에 띄지 않는데, 디지털 문서가 제공하는 기회 때문에 많은 사람들이 디지털 문서를 다큐멘터리 연구의 미래로 칭송해 왔습니다. 그러나 디지털 문서는 '해석 과정에서 종종 보이지 않지만 중요한 역할을 하는 물질성을 지닌 고도로 매개된 대상'(1743쪽)입니다.64 디지털 문서가 인쇄 문서와 다르다는 점을 인식하면 '형태의 후과'(96쪽)에 대해 질문할 수 있습니다. 65 매체가 중요하다면 문서를 다루는 사람들은 '디지털 텍스트의 존재론적 지위... 디지털 텍스트가 제공하는 특정한 분석적 어포던스를 논의하는 미래의 작업의 근거가 될 것'(78쪽)을 고려해야 합니다.66 문서의 물성과 그 물성이 가능하게 하는 실천 사이의 관계에 대한 추가 고려는 디지털 인문학 분야에서 찾을 수 있습니다(예: Berry와 Fagerjord67 참조).
This leads naturally to the consideration of digital documents. Conspicuously absent in the articles reviewed—other than a few articles that analysed medical school webpages—digital documents have been extolled by many as the future of documentary research because of the opportunities they offer. However, digital documents ‘are highly mediated objects with a materiality that plays a significant, if often unseen contributory role in the interpretative process’ (p. 1743).64 Recognising that digital documents are different from print documents allows us to ask about the ‘consequences of form’ (p. 96).65 If the medium is important, those working with documents need to consider ‘the ontological status of digital text … that will ground future work discussing the specific analytical affordances offered by digital texts’ (p. 78).66 Further consideration of the relationships between the materiality of documents and the practices enabled by the materiality can be found in the field of digital humanities (see, for instance, Berry and Fagerjord67).

마지막으로, '역사가들은 필연적으로 현재에 배치된 설명을 통해 과거의 행동을 이해하려고 시도한다'(71쪽).68 HPE에 있는 수많은 문서와 문서는 과거 사건을 이해하는 주요 도구이지만, 보건 전문직 교육의 역사를 다룬 논문이 현저히 부족하다는 점에 주목했습니다. 단 9건(8% 미만)의 기사만이 일부 역사적 분석 요소를 포함하고 있었으며, 대부분 프로그램에 대한 단순한 설명에 그쳤습니다. 의학의 역사를 다룬 문헌은 중요하지만(실제로 의학의 역사에 초점을 맞춘 오랜 전통의 학술지[예: 의학 및 연합 과학사 및 의학사 저널]가 여러 개 있습니다), 보건 전문직 교육 분야의 역사적 뿌리와 시간의 흐름에 따른 발전에 주목하는 연구는 거의 없다는 점은 주목할 만합니다. 이 분야는 충분히 연구할 가치가 있는 분야입니다. 
Finally, ‘historians attempt to understand past action through descriptions that are, by necessity, laid out in the present’ (p.71).68 The plethora of documents in HPE and documents are our primary tool for understanding past events, but we noted a significant absence of articles that dealt with the history of health professions education. Only nine articles (<8%) involved some element of historical analysis, and for the most part, these were simple descriptions of programs. While the literature addressing the history of medicine is significant (indeed there are several long-established journals focusing specifically on the history of medicine [e.g., Journal of the History of Medicine and Allied Sciences and Medical History], it is noteworthy that so little work in the field of health professions education attends to its historical roots and development over time. This is an area ripe for investigation.

이전 연구와의 비교
Comparison with previous research

연구 목적으로 문서의 장점을 강조한 것은 저희가 처음이 아닙니다. 또한 이를 위한 지침을 제공한 최초의 연구도 아닙니다(예: O'Leary4 및 Bowen11). 그러나 우리가 아는 한, 특정 분야 내에서 방법론적 프레임으로서 DA의 상태를 평가한 것은 이번이 처음입니다. 메타 리뷰 접근법을 사용하여 우리는 DA가 HPER에서 개념화, 제정 및 보고되는 방식에서 주요 문제를 식별할 수 있었습니다. 엄격성과 명확성이 부족한 이유 중 하나는 기존의 DA 지침이 유용하기는 하지만 '방법'에 대한 세부 사항을 충분히 제공하지 않았기 때문이라고 잠정적으로 판단했습니다. 이와 대조적으로, 본 검토의 면밀한 조사, 해석 및 비판을 통해 이전 지침(예: 오리어리4)을 기반으로 HPER 분야 및 잠재적으로 더 광범위하게 적용되는 DA의 방법론적 및 분석적 엄격성에 대한 증거에 기반한 기준을 설명할 수 있었습니다. 
We are not the first to extol the virtues of documents for research purposes. Nor are we the first to offer guidance for doing so (e.g., O'Leary4 and Bowen11). However, to the best of our knowledge, this is the first evaluation of the state of DA as a methodological frame within a particular field. Using a meta-review approach, we were able to identify major issues in how DA has been conceptualised, enacted and reported in HPER. We tentatively suggest that part of the reason for the lack of rigour and clarity is that existing DA guidance, while useful, has not provided sufficient ‘how to’ detail. In contrast, the level of scrutiny, interpretation and critique in our review allowed us to build on previous guidance (e.g., O'Leary4), to delineate evidence-informed standards of methodological and analytical rigour for DA that apply to the field of HPER and potentially more broadly.

강점과 한계
Strengths and limitations

이 연구에 접근하는 우리의 입장이 이 연구의 과정과 보고에 영향을 미칠 수밖에 없었지만, 우리는 연구 방법과 결과, 그리고 연구에서 도출한 권고안을 개발하는 데 있어 투명성을 유지하기 위해 주의를 기울였습니다. 최근 Greenhalgh 등이 권고한 바와 같이,69 우리는 체계적 문헌고찰과 서술적 문헌고찰 방법을 상호보완적으로 사용했습니다. 특히, 검색 과정에 사서를 참여시켜 데이터베이스 선택과 적격 연구를 검색하기 위한 검색 전략 개발을 지원했습니다(예: 70). 검색, 선택, 관리 및 분석에 신중하고 엄격한 접근 방식을 사용했으며 검토 방법에 대한 감사 추적을 제공했습니다.71 '문서'와 '분석'은 연구 논문에서 일반적으로 사용되는 단어입니다. 최종 데이터 세트를 얻기 위해 포함 기준에 따라 식별된 논문을 면밀히 조사해야 했으며, 다른 사람들이 동의하지 않는 내용을 유지하거나 거부하는 결정을 내렸을 수도 있습니다. 그런 다음 이론적 이해를 증진하고 새로운 질문을 식별하기 위해 식별된 연구를 비판적으로 해석하여 DA가 어떻게 사용되었는지에 대한 통찰력을 수집하는 데 집중했습니다.72 이 후자의 과정은 검토된 논문에서 종종 제공되는 데이터가 부족하기 때문에 현실과 진실에 대한 우리 자신의 이해와 '문서 경험'(1118페이지)73에 상당 부분 의존했습니다. 
Although our positionality in approaching this work will have inevitably shaped the process and reporting of this study, we were careful to be transparent in our methods and findings and in the development of the recommendations we made from the study. As recently recommended by Greenhalgh et al.,69 we used systematic and narrative review methods in a complementary manner. Specifically, we involved a librarian in the search process, to help with the selection of databases and the development of a search strategy to retrieve eligible studies (e.g.,70). We used a deliberate and rigorous approach for searching, selection, management and analysis and provided an audit trail of our review methods.71 ‘Document’ and ‘analysis’ are commonly used words in research articles. Close scrutiny of identified articles against the inclusion criteria was required to obtain the final dataset, and we may have made some decisions as to what to keep and what to reject with which others would disagree. We then focused on critically interpreting the identified studies to gather insight into how DA has been used, for the purpose of advancing theoretical understanding and identifying new questions.72 This latter process depended to a great extent on our own understandings of reality and truth and ‘document experience’ (p. 1118)73 given the paucity of data often provided in the reviewed articles.

우리는 HPER의 DA에 초점을 맞추었지만, DA 실무자에 대한 비평과 지침의 일환으로 광범위한 이론 및 절차 문헌을 활용했습니다. 이 과정에서 HPER에서 확인한 많은 강점과 약점이 다른 많은 분야에서도 발견된다는 점에 주목했습니다(예: Coffey56 참조). 우리는 DA에 대한 접근 방식에서 모범적인 분야나 학문을 발견하지 못했으며, 오히려 서로에게서 배울 점이 많은 것으로 보입니다. 
Although our focus was on DA in HPER, we engaged broader theoretical and procedural literatures as part of our critique of and guidance to DA practitioners. In doing so, we noted that many of the strengths and weaknesses we identified in HPER are also to be found in many other disciplines (for instance, see Coffey56). We found no one field or discipline that was exemplary in their approaches to DA; rather, it would seem that there is much to be learned from each other.

5 결론

DA는 그 자체로 연구 도구로서, 그리고 HPER에서 혼합 방법 연구의 일부로서 많은 잠재력을 가지고 있습니다. 그러나 DA가 그 잠재력을 발휘하기 위해서는 엄격성과 보고 측면에서 개선되어야 합니다. 우리는 이를 위한 지침을 제공하고 해당 분야의 학자들이 DA를 어떻게 사용하는지에 대한 토론에 참여하도록 초대하며, 궁극적으로는 우리 분야에서 의미를 이해하고 구성하는 데 문서를 더 많이, 더 잘 사용하도록 보장하는 것을 목표로 합니다.
DA has much potential as a research tool in its own right and as part of mixed methods research in HPER. However, for it to fulfil its potential, DA must improve in terms of rigour and reporting. We offer guidance for doing so and invite scholars in the field to engage in discussions about how they use DA, with the ultimate aim of ensuring more and better use of documents for understanding and constructing meaning in our field.




Introduction: Documents, from policies and procedures to curriculum maps and examination papers, structure the everyday experiences of health professions education (HPE), and as such can provide a wealth of empirical information. Document analysis (DA) is an umbrella term for a range of systematic research procedures that use documents as data.

Methods: A meta-study review was conducted with the aims of describing the current state of DA in HPE, guiding researchers engaging in DA and improving methodological, analytical and reporting rigour. Structured searches were conducted, returns were filtered for inclusion and the 115 remaining articles were critically analysed for their use of DA methods and methodologies.

Results: There was a significant increase in the number of articles reporting the use of DA over time. Sixty-three articles were single method (DA only), while the others were mixed methods research (MMR). Overall, there were major lacunae in terms of why documents were used, how documents were identified, what the authors did and what they found from the documents. This was particularly apparent in MMR where DA reporting was typically poorer than the reporting of other methods in the same paper.

Discussion: Given these many lacunae, a framework for reporting on DA research was developed to facilitate rigorous DA research and transparent, complete and accurate reporting of the same, to help readers assess the trustworthiness of the findings from document use and analysis in HPE and, potentially, other domains. It was also noted that there are gaps in HPE knowledge that could be addressed through DA, particularly where documents are conceptualised as more than passive holders of information. Scholars are encouraged to reflect more deeply on the applications and practices of DA, with the ultimate aim of ensuring more substantive and more rigorous use of documents for understanding and constructing meaning in our field.

주제분석(TA)를 사용할 수 있나요? 그래야 하나요? 그러지 말아야 하나요? 성찰적 주제분석과 다른 패턴-기반 질적분석 접근
Can I use TA? Should I use TA? Should I not use TA? Comparing reflexive thematic analysis and other pattern-based qualitative analytic approaches
Virginia Braun | Victoria Clarke
Virginia Braun1 | Victoria Clarke2


1 서론

완벽한 질적 분석 접근법이 기다리고 있으며, 그것만 찾아낼 수 있다면 훌륭한 질적 연구를 할 수 있을 것이라고 상상하고 싶은 유혹이 있습니다. 우리는 이러한 사고를 '신성한 방법' 퀘스트라고 부릅니다. 이러한 사고에는 특정 연구 프로젝트에 이상적으로 적합한 분석 접근법이 하나 있으며, 상담 및 심리치료 및 기타 분야에서 연구자의 임무는 그 접근법을 찾아서 사용하거나, 다른 접근법을 사용하는 경우 왜 이상적인 방법을 사용하지 않았는지 정당화해야 한다는 것입니다. 상담 및 심리치료 학생들이 주제 분석(TA)을 사용해도 되는지에 대한 질문에서 이러한 사고가 분명하게 드러나는데, 이는 다른 접근법, 일반적으로 이론, 분석 방법 및 연구 설계의 (요소) 패키지를 미리 제공하는 레디메이드 또는 '기성' 방법론(Chamberlain, 2012)을 사용해야 한다는 말을 들었을 때 발생합니다. 이러한 기성 방법론의 예로는 다음이 있습니다. 

  • 근거 이론(GT; Birks & Mills, 2015 참조),
  • 해석적 현상학적 분석(IPA; Smith et al., 2009 참조),
  • 담화 분석(DA; Willig, 2013 참조) 등

It is tempting to imagine that there is a perfect qualitative analytic approach waiting, and if you can only identify it, you will do excellent qualitative research. We refer to such thinking as a ‘hallowed method’ quest. Within such thinking, there is one analytic approach ideally suited to a particular research project, and the mission of the researcher in counselling and psychotherapy, and other fields, is to identify and use that approach or, if using another approach, justify why they did not use the ideal method. We see such thinking as evident in queries we get about whether it is ‘okay’ to use thematic analysis (TA), when counselling and psychotherapy students have been told they should instead use another approach, usually a ready-made or ‘off-the-shelf’ methodology (Chamberlain, 2012), which provides a pre-prepared package of theory, analytic method and (elements of) research design. Examples of such off-the-shelf methodologies include

  • grounded theory (GT; see Birks & Mills, 2015),
  • interpretative phenomenological analysis (IPA; see Smith et al., 2009) and
  • discourse analysis (DA; see Willig, 2013).

이러한 방법론methodologies(이론에 근거한 연구 프레임워크)은 종종 TA와 같은 방법methods(이론적으로 독립적인 도구 및 기법, 프레이밍 이론은 별도로 결정됨)보다 우월한 것으로 인식됩니다. 이는 TA가 무이론적이기 때문에 분석력과 정교함이 부족하다는 잘못된 믿음에 근거한 것으로 보입니다(Braun & Clarke, 2020).

  • [방법론]이 본질적으로 [방법]보다 더 나은 것은 아닐 뿐만 아니라(Chamberlain, 2012 참조), 서로 다른 분석 방법과 방법론이 제공할 수 있는 내용에는 종종 상당한 중복이 있습니다.
  • 우리는 이전에 각 분석이 수행되는 방식에 따라 GT, IPA, 심지어 포스트구조주의 DA1과 (반사적) TA와 같은 패턴 기반/사례 간(Yeh & Inman, 2007) 방법론의 '결과물'이 매우 유사할 가능성이 있다고 주장한 바 있습니다(Braun & Clarke, 2013).

즉, 분석 접근법을 고려하고 결정하는 것은 과일을 먹을지, 케이크 한 조각을 먹을지, 햄버거를 먹을지 결정하는 것이 아니라, 어떤 종류의 과일(사과, 오렌지, 바나나?)을 먹을지 결정하는 것과 비슷합니다.  
Such methodologies (theoretically informed frameworks for research) are often perceived as superior to methods (theoretically independent tools and techniques; framing theory is determined seperately) such as TA. This seems to be based on the mistaken belief that TA is atheoretical and thus lacks analytic power and sophistication (Braun & Clarke, 2020).

  • Not only are methodologies not inherently better than methods (see Chamberlain, 2012), but there is also often considerable overlap in what different analytic methods and methodologies can deliver.
  • We have previously argued that there is potential for great similarity in ‘output’ from pattern-based/across-case (Yeh & Inman, 2007) methodologies like GT, IPA and even poststructuralist DA1, and (reflexive) TA, depending on how each analysis is conducted (Braun & Clarke, 2013).

This means in considering and deciding on an analytic approach it is more like deciding between which type of fruit you will choose to eat (apple, orange or banana?), than deciding whether to have fruit, a slice of cake, or a burger.

저희는 연구 프로젝트에 이상적인 방법 또는 방법론이 하나만 있는 경우는 거의 없다고 생각합니다. 특정 유형의 질적 연구와 관련하여 가장 잘 알려진 접근법이라고 해서 반드시 기성 방법론을 사용해야 할 필요는 없습니다. 연구자는 때로는 개념적, 때로는 실용적, 때로는 자신이나 연구 감독자, 멘토 또는 협력자에게 친숙하고 편안한 접근 방식이기 때문에 등 다양한 이유로 분석 접근 방식을 선택합니다. 패턴화된/사례 간 의미를 탐색하는 데 관심이 있는 경우처럼 분석을 한 가지 방법으로만 다룰 수 있는 경우가 아니라면, 거의 항상 다양한 옵션이 있습니다연구자들은 '신성한 방법'을 찾아 헤맬 필요가 없습니다. 중요한 것은 사용된 방법이 프로젝트의 목적에 '적합'하고, 이론적 가정, 연구 질문 및 방법이 일치하며, 전반적인 연구 설계가 일관성이 있어야 한다는 것입니다(Willig, 2013). 이는 설계 일관성 또는 '적합성'이라는 질적 연구 설계의 일반적인 원칙을 반영한 것입니다(Braun & Clarke, 2013). Levitt 등(2017)은 유사한 개념인 '방법론적 무결성'을 제안했습니다: 
We take the view that there is rarely one ideal method—or methodology—for a research project. There is no requirement to use an off-the-shelf methodology just because it is the most well-known approach associated with a particular type of qualitative research. Researchers select analytic approaches for all sorts of reasons, sometimes conceptual, sometimes pragmatic and sometimes because an approach is familiar and comfortable—to themselves or to their research supervisor, mentor or collaborator. Unless the analysis can only be tackled in one way—which is not the case for those interested in exploring patterned/across-case meaning—there is nearly always a range of options. Researchers do not need to go on a ‘hallowed method’ quest. What is important, is that the method used ‘fits’ the project's purpose, that theoretical assumptions, research question and methods are in alignment, and that the overall research design is coherent (Willig, 2013). This reflects a general principle for qualitative research design of design coherence or ‘fit’ (Braun & Clarke, 2013). Levitt et al. (2017) proposed a similar concept of ‘methodological integrity’ to capture when:

연구 설계와 절차(예: 자동 민족지, 담론 분석)가 
 연구 목표(예: 연구 문제/질문)를 지원하고, 
 연구자의 탐구 접근 방식(예: 세계관, 패러다임 또는 철학적/인식론적 가정으로 설명되기도 하는 연구 전통)을 존중하며, 
 주제와 연구자의 근본적인 특성에 맞게 조정된 경우(9-10페이지)를 포착할 수 있습니다.

research designs
 and procedures (e.g. autoethnography, discursive analysis)
 support the research goals (i.e. the research problems/questions);
 respect the researcher's approaches to inquiry (i.e. research traditions sometimes described as world views, paradigms or philosophical/epistemological assumptions);
 and are tailored for fundamental characteristics of the subject matter and the investigators (pp. 9–10).

반사적 주제 분석 또는 다른 패턴 기반 방법/논리를 언제, 왜 사용해야 하나요?
When and why to use reflexive thematic analysis or another pattern-based method/ology?

질적 분석 기법에서 성찰적 주제 분석이 어디에 위치하는지 이해하는 것은 분석 접근 방식에 대해 알고 반사적으로 선택하고, 그러한 선택이 무엇을 축소하고 가능하게 하는지 이해하는 데 유용합니다. 이 백서에서는 재귀적 TA와 다른 패턴 기반 접근법을 비교하여 유사점과 차이점을 강조합니다. 이 백서는 상담 및 심리치료 연구자들이 다른 방법/이론 대신 성찰적 TA를 선택한 이유를 정당화하거나 설명하는 데 유용한 자료를 제공할 것이며, 실제로 성찰적 TA 대신 다른 방법/이론을 선택한 경우도 있습니다. 각 접근법이 제공하는 이점을 최종적으로 검토하면서, 상담 및 심리치료 연구자들이 성찰적 TA를 사용하는 대신 이러한 접근법을 사용할 수 있는 시기를 고려했습니다. 성찰적 TA가 항상 출발점이 되어야 한다고 생각하기 때문이 아니라, 대조에 대한 앵커 포인트를 제공하기 때문입니다. 
Understanding where reflexive TA sits in the landscape of qualitative analytic techniques is useful for making knowing and reflexive choices about analytic approaches, and appreciating what those choices curtail and enable. In this paper, we compare reflexive TA with other patterned-based approaches, to highlight similarities and differences. This paper will provide a useful resource for counselling and psychotherapy researchers for justifying or explaining why reflexive TA was chosen over another method/ology, or, indeed, another method/ology over reflexive TA. In our final weighing up of what each approach offers, we consider when counselling and psychotherapy researchers might want to use these instead of using reflexive TA. Not because we think reflexive TA should always be the starting point, but because it gives an anchor point for the contrast.

비교의 초점은 질적 데이터 세트를 구성하는 데이터 항목 또는 사례 전반의 의미 패턴 분석에 중점을 둔 다른 질적 분석 접근 방식에 있습니다. 대화 분석(예: Madill 외, 2001) 및 담화 심리학(예: Wiggins, 2016)과 같이 말의 세분화된 또는 상호 작용적인 작업을 조사하는 방법들은 상당히 다른 초점을 가지고 있습니다. 내러티브 분석과 같이 전기, 이야기 또는 삶의 스토리에 초점을 맞추는 방법도 마찬가지입니다(예: Reissman, 2008). 여기서 고려하는 접근 방식은 질적 내용분석(QCA), IPA, GT 및 (패턴 기반) DA입니다. 이 중 (반사적) TA와 마찬가지로 QCA, IPA, GT는 상담 및 심리치료 연구에서 널리 사용됩니다. DA는 덜 널리 사용되지만 중요한 질적 연구 전통을 잘 보여줍니다. 
Our focus of comparison is on other qualitative analytic approaches centred on the analysis of patterns of meaning across the data items or cases that constitute a qualitative data set. Methods that examine the fine-grained or interactional work of speech—such as conversation analysis (e.g. Madill et al., 2001) and discursive psychology (e.g. Wiggins, 2016)—have a quite different focus. As do methods that focus on biography, stories or the storied nature of life such as narrative analysis (e.g. Reissman, 2008). The approaches we consider here are qualitative content analysis (QCA), IPA, GT and (pattern-based) DA. Three of these—QCA, IPA and GT, like (reflexive) TA—are widely used in counselling and psychotherapy research. DA is less widely used but importantly exemplifies the critical qualitative research tradition.

  • 성찰적 TA와 QCA와 같은 접근법은 주로 이론적 또는 이론적으로 유연한 도구와 기법을 제공하는 방법입니다. 이러한 방법들은 특정 연구에 적용될 때 이론적 가정이 주입됩니다. 일반적으로 QCA의 경우처럼 방법론 작성자가 명시적으로 요구하지 않더라도 품질 관행을 위해서는 이론을 명시적으로 제시할 필요가 있습니다.
  • IPA, GT, DA와 같은 접근법은 연구를 위한 이론적 근거가 있고 구분된 프레임워크로서 방법론으로 생각하는 것이 가장 좋습니다. 이러한 접근법은 단순한 기법이 아니므로 방법론적 기반에서 분리하는 것은 거의 의미가 없으며, 그렇게 하면 분석 실무와 결과물이 제대로 나오지 않는 경우가 많습니다. 


  • Approaches like reflexive TA and QCA are primarily methods, offering tools and techniques that are either atheoretical or theoretically flexible. They become infused with theoretical assumptions when enacted in a particular study. Theory needs to be made explicit, for quality practice, even if this is not mandated by methodological authors, as is typically the case with QCA.
  • Approaches like IPA, GT and DA are best thought of as methodologies, as theoretically informed and delimited frameworks for research. They are not just techniques, so detaching them from their methodological anchors rarely makes sense, and doing so often results in poor analytic practice and outputs.

우리는 성찰적 TA와 대조적으로 이러한 다른 접근법이 제공하는 것과 연구자가 특정 방법론적 선택을 할 때 헌신해야 할 것과 제약을 받아야 할 것을 강조합니다. 그러나 먼저 성찰적 TA에 대한 접근 방식의 특징과 그것이 속한 TA 방법군에 대해 논의함으로써 이러한 비교를 맥락화합니다. 
We highlight what these different approaches offer, in contrast to reflexive TA, and what researchers need to commit to, and be constrained by, in making a particular methodological choice. But first we contextualise these comparisons by discussing the characteristics of our approach to reflexive TA and the family of TA methods to which it belongs.

반사적 주제 분석과 주제 분석 방법군
Reflexive thematic analysis and the thematic analysis family of methods

TA는 상담 및 심리치료 연구와 그 밖의 다른 분야에서 한 가지 절차로 이루어진 단일 방법으로 오해되는 경우가 많습니다(Clarke & Braun, 2018). 그러나 TA는 몇 가지 공통점이 있지만 근본적인 연구 가치, 핵심 구성 요소의 개념화 및 분석 절차에서 상당한 차이가 있는 방법의 계열로 간주하는 것이 가장 좋습니다(Fugard & Potts, 2020). TA 접근법은 일반적으로

  • 코딩에 대한 귀납적(데이터 중심) 및 연역적(이론 중심) 방향의 가능성을 인정하며,
  • 의미론적(명시적 또는 명시적) 및 잠재적(암묵적, 잠재적, 반드시 무의식적일 필요는 없음) 의미를 잡아내고,
  • 코딩과 주제 개발 과정을 인정하며,
  • 연구를 구성하는 이론에 대한 유연성의 잠재력을 인정한다.

TA is frequently misunderstood in counselling and psychotherapy research, and elsewhere, as a singular method with one set of procedures (Clarke & Braun, 2018). However, it is best thought of as family of methods (Fugard & Potts, 2020), with some characteristics in common but also significant divergences in underlying research values, the conceptualisation of core constructs and analytic procedures. TA approaches typically acknowledge

  • the potential for inductive (data-driven) and deductive (theory-driven) orientations to coding,
  • capturing semantic (explicit or overt) and latent (implicit, underlying; not necessarily unconscious) meanings,
  • processes of coding and theme development, and
  • the potential for some flexibility around the theory that frames the research. 

우리는 TA 방법을 크게 세 가지 유형으로 분류했습니다(Braun et al., 2019): 
We have categorised TA methods into three broad types (Braun et al., 2019):

  1. 코딩 신뢰성 접근법(예: Boyatzis, 1998; Guest 외., 2012)은 초기 주제 개발을 포함하며 코딩을 주제에 대한 증거를 식별하는 과정으로 개념화합니다. 주제는 일반적으로 특정 주제 또는 데이터 수집 질문과 관련하여 참가자가 가장 빈번하게 언급한 내용을 요약 또는 개괄한 주제 요약으로 이해되며, 연구자의 분석 작업 이전에 데이터에 존재하는 실체로 이해됩니다. 코딩 신뢰성 접근법은 코딩 프레임 또는 코드북을 중심으로 구조화된 코딩 접근법을 사용하며, 일반적으로 여러 코더가 독립적으로 작업하여 코딩 프레임을 데이터에 적용해야 합니다. 연구자의 주관성은 코딩 신뢰성에 잠재적인 위협이 될 수 있는 '편향'으로 개념화됩니다. 이러한 위협은 여러 코더를 사용하여 코더 간의 '합의' 수준을 측정하고, 높은 수준의 합의가 신뢰할 수 있는 코딩과 같다는 가정 하에 합의를 통해 최종 코딩을 결정함으로써 관리할 수 있습니다. 
    Coding reliability approaches (e.g. Boyatzis, 1998; Guest et al., 2012) involve early theme development and conceptualise coding as a process of identifying evidence for themes. Themes are typically understood as topic summaries—summaries or overviews of the most frequent things participants said in relation to a particular topic or data collection question—and as entities that reside in data, pre-existing any analytic work on the part of the researcher. Coding reliability approaches use a structured approach to coding centred around a coding frame or codebook, and typically require multiple coders working independently to apply the coding frame to the data. Researcher subjectivity is conceptualised as ‘bias’, a potential threat to coding reliability. This threat is managed through the use of multiple coders, measuring the level of ‘agreement’ between coders, with the assumption that a high level of agreement equals reliable coding, and determining final coding through consensus.
  2. 성찰적 접근법(예: Braun & Clarke, 2006, 2019a; Hayes, 2000)은 테마는 코드에서 개발되고, 중심 조직 개념에 의해 뒷받침되는 공유된 의미의 패턴으로 개념화하여, 나중에 테마를 개발하는 방식을 포함합니다(Braun et al., 2014). 테마 개발에는 연구자의 상당한 분석 및 해석 작업이 필요합니다. 테마는 표면적으로 서로 다른 것처럼 보이는 데이터를 포함할 수 있지만, 이러한 테마는 암묵적 또는 잠재적 의미를 통합합니다. 테마는 연구자와 분리되어 존재할 수 없으며, 연구자가 이 과정에 가져오는 모든 것(예: 연구 가치, 기술, 경험 및 훈련)에 의해 매개되는 데이터 참여를 통해 연구자에 의해 생성됩니다. 코딩 프로세스는 비정형적이고 유기적이며, 연구자의 데이터에 대한 이해가 깊어짐에 따라 코드가 진화할 수 있는 잠재력을 가지고 있습니다. 코딩은 본질적으로 주관적인 과정으로 인식되며, 연구자는 자신의 가정과 이러한 가정이 어떻게 코딩을 형성하고 구분할 수 있는지에 대해 성찰하기 위해 노력하는 반성적 연구자가 필요합니다. Atlassian의 반성적 접근 방식에는 익숙해지기, 코딩하기, 초기 테마 생성하기, 테마 검토 및 개발하기, 테마 다듬기, 정의 및 이름 짓기, 작성하기의 6가지 재귀적 단계가 포함됩니다.
    Reflexive approaches (e.g. Braun & Clarke, 2006, 2019a; Hayes, 2000) involve later theme development, with themes developed from codes, and conceptualised as patterns of shared meaning underpinned by a central organising concept (Braun et al., 2014). Theme development requires considerable analytic and interpretative work on the part of the researcher. Although themes might encompass data that on the surface appears disparate, such themes unite implicit or latent meaning. Themes cannot exist separately from the researcher—they are generated by the researcher through data engagement mediated by all that they bring to this process (e.g. their research values, skills, experience and training). The coding process is unstructured and organic, with the potential for codes to evolve to capture the researcher's deepening understanding of the data. Coding is recognised as an inherently subjective process, one that requires a reflexive researcher—who strives to reflect on their assumptions and how these might shape and delimit their coding. Our reflexive approach involves six—recursive—phases of: familiarisation; coding; generating initial themes; reviewing and developing themes; refining, defining and naming themes; and writing up.
  3. 코드북 접근법(예: King & Brooks, 2018; Ritchie & Spencer, 1994)은 [성찰적 TA의 질적 연구 가치][코딩에 대한 보다 구조화된 접근법(초기 주제 개발 및 코딩 신뢰성 TA의 특징인 주제 요약으로서의 주제 개념화)]를 결합한 것입니다. 그러나 일반적으로 응용 연구에 사용하기 위해 개발된 코드북 접근법은 코딩의 신뢰성과 정확성을 결정하기 위한 목적이 아니라 발전하는 분석을 도표화하거나 매핑하기 위해 코드북을 사용합니다. 이는 팀원 각자가 데이터 세트의 서로 다른 부분을 코딩하여 팀워크를 촉진하고, 정해진 기한에 맞춰 분석을 효율적으로 전달하며, 미리 정해진 정보 요구를 충족하는 등 실용적인 이유에서 주로 사용됩니다.
    Codebook approaches (e.g. King & Brooks, 2018; Ritchie & Spencer, 1994) combine the qualitative research values of reflexive TA with the more structured approach to coding, early theme development and the conceptualisation of themes as topic summaries characteristic of coding reliability TA. However, codebook approaches—typically developed for use in applied research—use a codebook not for the purposes of determining the reliability and accuracy of coding but to chart or map the developing analysis. This is often for pragmatic reasons such as facilitating teamwork, with each member of the team coding different parts of the data set, efficient delivery of analysis to a fixed deadline and meeting predetermined information needs.

이 유형 외에도 쉬운 분류를 거부하고 여러 유형의 요소를 결합한 TA 접근법, 심리치료 과정 연구를 위해 특별히 개발된 '주제 분석' 버전 등 다양한 유형이 있습니다(예: 마이어 외., 2008). 
There is variation beyond this typology—with TA approaches that defy easy categorisation and combine elements from the different types; there are also versions of ‘theme analysis’ developed specifically for psychotherapy process research (e.g. Meier et al., 2008).

세 가지 유형의 TA는 코딩 신뢰성에서 반사적 접근에 이르기까지 하나의 연속체를 이루는 것으로 개념화할 수 있습니다.

  • 코딩 신뢰도 TA(포스트)실증주의2 연구 가치에 의해 뒷받침되는 질적 도구와 기법을 사용하는 '작은 q' 질적(Kidder & Fine, 1987)이라고 불리는 것을 예시합니다(Ponterotto, 2005 참조). 이러한 가치관은 일반적으로 정량적 연구를 뒷받침하는 가치관이며, 객관적이고 일반화 가능하며 신뢰할 수 있고 복제 가능한 지식을 이상적으로 강조합니다.
  • 반면, 성찰적 TA는 질적 연구를 단순히 도구와 기법으로 개념화하는 것이 아니라 질적 가치 프레임워크 내에서 이러한 도구와 기법의 사용을 포함하는 '빅 큐' 질적 연구(Kidder & Fine, 1987)를 예시합니다. 이러한 이유로 Big Q 질적 연구를 '완전 질적' 연구(즉, 기법과 가치 모두에서 질적인 연구)라고 부르기도 합니다. 질적 연구 가치는 쉽게 정의할 수 없지만, 일반적으로 연구자의 주관성을 연구 자원으로, 의미와 지식을 부분적, 위치적, 맥락적이라고 개념화하는 것을 포함합니다(Braun & Clarke, 2013). 

The three different types of TA can be conceptualised as occupying a continuum, from coding reliability to reflexive approaches.

  • Coding reliability TA exemplifies what has been dubbed ‘small q’ qualitative (Kidder & Fine, 1987)—the use of qualitative tools and techniques underpinned by (post)positivist2 research values (see Ponterotto, 2005). These are the values that typically underpin quantitative research and emphasise objective, generalisable, reliable and replicable knowledge as ideal.
  • Reflexive TA, by contrast, exemplifies ‘Big Q’ qualitative (Kidder & Fine, 1987)—where qualitative research is not merely conceptualised as tools and techniques but as involving the use of these within a qualitative values framework. For this reason, Big Q qualitative is sometimes termed ‘fully qualitative’ research (i.e. research that is qualitative both in techniques and values). Although qualitative research values are not easily defined, they typically include a conceptualisation of researcher subjectivity as a resource for research and of meaning and knowledge as partial, situated and contextual (Braun & Clarke, 2013).

TA는 상담 및 심리치료 연구에서 흔히 사용되는 현상학적 또는 경험적 질적 연구 전통에 속하는 것으로 이해되는 경우가 많습니다(Morrow, 2007). 이 전통은 참여자의 주관적 경험과 의미 만들기에 대한 탐구에 중점을 둡니다(Braun & Clarke, 2013; Willig, 2013). 많은 코딩 신뢰성 및 코드북 저자들은 이러한 전통에 따라 TA의 버전을 포지셔닝합니다(예: Guest et al., 2012).

TA is often understood as belonging to the phenomenological or experiential qualitative research tradition, common in counselling and psychotherapy research (Morrow, 2007). This tradition is centred on the exploration of participants’ subjective experiences and sense-making (Braun & Clarke, 2013; Willig, 2013). Many coding reliability and codebook authors position their versions of TA within this tradition (e.g. Guest et al., 2012). 

그러나 일부 성찰적 및 코드북 TA 저자(예: Clarke & Braun, 2014; King, 2012)는 또 다른 연구 전통, 즉 비판적 질적 연구의 전통을 인정합니다. 비판적 전통은 종종 사회적으로 내재된 의미 패턴과 그 함의 및 효과에 대한 의문에 초점을 맞춘 포스트구조주의(예: Gavey, 1989) 및 구성주의3(예: Gergen, 2015) 이론적 틀과 연관됩니다(Clarke & Braun, 2014 참조). 포스트구조주의와 구성주의(예: 내러티브 치료 및 연구, Lainson 등, 2019 참조)의 영향을 받은 연구와 실천이 일부 존재하지만, 상담 및 심리치료 연구에서는 비판적 질적 전통이 잘 확립되어 있지 않습니다(Ponterotto 등, 2017). 

However, some reflexive and codebook TA authors (e.g. Clarke & Braun, 2014; King, 2012) acknowledge another research tradition—that of critical qualitative research. The critical tradition is often associated with poststructuralist (e.g. Gavey, 1989) and constructionist3 (e.g. Gergen, 2015) theoretical frameworks, focusing on the interrogation of socially embedded patterns of meaning and the implications and effects of these (see Clarke & Braun, 2014). The critical qualitative tradition is less well established in counselling and psychotherapy research (Ponterotto et al., 2017), although there are pockets of research and practice informed by poststructuralism and constructionism (e.g. narrative therapy and research, see Lainson et al., 2019).

주제 분석과 질적 내용분석의 차이점은 무엇인가요?
What are the differences between thematic analysis and qualitative content analysis?

TA와 QCA는 종종 혼동되어 혼용되는 경우가 많은데, QCA는 아마도 TA와 가장 유사한 분석 접근 방식일 것입니다(Vaismoradi 외., 2013). 이 두 방법의 차이점은 부분적으로 TA와 QCA를 어떻게 정의하느냐에 따라 달라집니다. TA에 대한 접근 방식이 하나만 있는 것이 아니듯, QCA에 대한 접근 방식도 하나만 있는 것은 아닙니다. 또한 TA가 종종 (암묵적으로) 단일한 접근법으로 제시되는 것처럼(예: Vaismoradi 외., 2016; Vaismoradi & Snelgrove, 2019), QCA도 마찬가지입니다(예: Burla 외., 2008). '한 가족의 형제자매로서 다양한 유형의 TA'라는 비유를 확장하면(Fugard & Potts, 2020), TA와 QCA를 각각 많은 자녀를 둔 두 개의 관련 '핵가족'으로 상상하는 것이 유용합니다. 각 가족 내에는 많은 차이가 있으며, 두 가족 사이에는 많은 연결 지점과 약간의 차이가 있습니다. 
TA and QCA are often confused and conflated; QCA is probably the analytic approach most like TA (Vaismoradi et al., 2013). How these two methods differ in part depends on how both TA and QCA are defined. Just as there is no one approach to TA, there is no one approach to QCA. Moreover, just as TA is often (implicitly) presented as a singular approach (e.g. Vaismoradi et al., 2016; Vaismoradi & Snelgrove, 2019), so too is QCA (e.g. Burla et al., 2008). Extending the ‘different types of TA as siblings in a family’ analogy (Fugard & Potts, 2020), it is useful to imagine TA and QCA as two related ‘nuclear families’, each with lots of children. There is lots of variation within each family, and lots of points of connection, and some differences, between the two families.

QCA는 아마도 양적 버전에서 발전했을 것입니다.Mayring(2000; 그러나 Hseih & Shannon, 2005 참조)은 20세기 중반에 내용분석에 대한 질적 접근법의 발전을 설명했습니다(예: Kracauer, 1952). QCA는 종종 질적 데이터에서 주제를 식별하는 방법으로 설명되며(예: Cho & Lee, 2014; Hseih & Shannon, 2005; Vaismoradi 외., 2016), 일부 연구자들은 그들의 접근 방식을 '주제별 내용분석'이라고 부르기도 합니다(예: Brewster 외., 2014). QCA에 대한 일부 정의는 (일반적으로) TA와 유사한 방법을 설명합니다. 예를 들어, Hsieh와 Shannon(2005)은 TA에 대한 일반적인 정의를 작성했을 수 있습니다: 
QCA probably developed from quantitative versions4—Mayring (2000; but see Hseih & Shannon, 2005) described the development of qualitative approaches to content analysis in the middle of the twentieth century (e.g. Kracauer, 1952). QCA is often described as a method for identifying themes in qualitative data (e.g. Cho & Lee, 2014; Hseih & Shannon, 2005; Vaismoradi et al., 2016), and some researchers even label their approach ‘thematic content analysis’ (e.g. Brewster et al., 2014). Some definitions of QCA describe a method that is like TA (in general). For example, Hsieh and Shannon (2005) could have been writing a generic definition of TA:

질적 내용 분석은 단순히 단어 수를 세는 것을 넘어, 대량의 텍스트를 유사한 의미를 나타내는 효율적인 수의 범주로 분류하기 위해 언어를 집중적으로 조사하는 것입니다(Weber, 1990). 이러한 범주는 명시적 의사소통 또는 추론적 의사소통을 나타낼 수 있습니다 [...] 질적 내용 분석은 주제나 패턴을 코딩하고 식별하는 체계적인 분류 과정을 통해 텍스트 데이터의 내용을 주관적으로 해석하는 연구 방법이라고 정의됩니다(1,278쪽). 
Qualitative content analysis goes beyond merely counting words to examining language intensively for the purpose of classifying large amounts of text into an efficient number of categories that represent similar meanings (Weber, 1990). These categories can represent either explicit communication or inferred communication […] qualitative content analysis is defined as a research method for the subjective interpretation of the content of text data through the systematic classification process of coding and identifying themes or patterns (p. 1,278).

이 정의에는 코딩 및 주제 개발 과정(TA에서와 마찬가지로 QCA에서도 주제에 대한 널리 합의된 정의는 없지만), 명시적(의미론적) 의미와 추론적(잠재적) 의미, 연구자 주관성의 중심성 등이 포함됩니다. 연구자의 주관성을 강조하는 것을 제외하면, 이러한 특징들은 다양한 출처에서 QCA의 주요 특징입니다(예: Burla et al., 2008; Cho & Lee, 2014; Forman & Damschroder, 2008; Vaismoradi et al., 2013). 다른 일반적인 특징으로는 귀납적 접근법연역적 접근법(또는 일반적 접근법과 지시적 접근법) 또는 이 둘의 조합을 모두 사용할 수 있다는 점이 있습니다(예: Cho & Lee, 2014; Hseih & Shannon, 2005). 실제로 일부 QCA 저자들은 '주제 분석' 또는 TA가 QCA의 다른 이름일 뿐이라고 주장하기도 합니다(Schreier, 2012). 일반적인 수준에서 보면 TA와 QCA를 구분하는 것은 거의 없는 것 같습니다. 그러나 TA 접근 방식에 따른 차이는 QCA가 코드북 및 코딩 신뢰성 TA와 가장 많이 겹친다는 것을 의미합니다.

  • QCA에 대해 널리 합의된 절차는 없지만, 대부분의 저자는 코드북 또는 코딩 프레임의 사용을 강조하며(예: Burla et al., 2008; Forman & Damschroder, 2008; Schreier, 2012),
  • 일부는 여러 독립 코더 사용 및 코더 간 일치도 측정과 같은 코딩 신뢰성을 보장하고 입증하기 위한 관행을 논의합니다(예: Burla et al., 2008; Forman & Damschroder, 2008).

이와는 대조적으로, 성찰적 TA는 연구자에게 절차 및 기본 연구 가치 측면에서 완전히 질적인 접근 방식을 제공하는 것으로 보입니다. 
This definition includes reference to processes of coding and theme development (although, as in TA, there is no widely agreed on definition of a theme in QCA), explicit (semantic) and inferred (latent) meaning, and the centrality of researcher subjectivity. With perhaps the exception of an emphasis on researcher subjectivity, these are key features of QCA in many different sources (e.g. Burla et al., 2008; Cho & Lee, 2014; Forman & Damschroder, 2008; Vaismoradi et al., 2013). Other common features include the possibility of using both inductive and deductive (or conventional and directed) coding approaches, or a combination of the two (e.g. Cho & Lee, 2014; Hseih & Shannon, 2005). Indeed, some QCA authors argue that ‘theme analysis’ or TA is just another name for QCA (Schreier, 2012). At the general level, there does seem to be little that separates TA and QCA. However, the variation across TA approaches means QCA overlaps most with codebook and coding reliability TA.

  • Although there is no one widely agreed on set of procedures for QCA, most authors emphasise the use of a codebook or coding frame (e.g. Burla et al., 2008; Forman & Damschroder, 2008; Schreier, 2012) and
  • some discuss practices to ensure and demonstrate coding reliability such as using multiple independent coders and measuring inter-coder agreement (e.g. Burla et al., 2008; Forman & Damschroder, 2008).

In contrast, reflexive TA does seem to offer the researcher a distinct approach, one that is fully qualitative in terms of both its procedures and the underlying research values.

QCA는 일반적으로 방법론이라기보다는 하나의 방법으로 제시되지만(Cho & Lee, 2014), 이론적 토대는 거의 논의되거나 인정되지 않습니다. 실제로 QCA와 TA의 주요 차이점 중 하나는 QCA가 이론적으로 유연하기보다는 무이론적인 것으로 암묵적으로, 때로는 명시적으로 제시된다는 점입니다(Forman & Damschroder, 2008).

  • 이러한 포지셔닝에도 불구하고, (포스트)실증주의 이론적 가정은 연구자 주관을 최소화하고 코딩의 '정확성'을 극대화하기 위해 코더 간 일치도 계산과 같은 품질 측정을 사용하여 분석에 도입되는 경우가 많습니다.
  • 이론적 토대가 인정되는 경우, 일반적으로 (포스트)실증주의 또는 현실주의(또는 '사실주의') 유형에 속합니다(Vaismoradi 외., 2013).

QCA의 이러한 무이론적 위치 때문에 QCA는 설명적 분석만을 위한 방법으로 여겨지기도 하고(Cho & Lee, 2014; Vaismoradi 외., 2013), 따라서 질적 분석 접근법 중 (가장 해석적 접근법이라고 주장하는 GT나 해석적 현상학(예: Vaismoradi 외., 2013)에 비해) 가장 해석적이지 않은 것으로 여겨지기도 합니다. 이 때문에 QCA는 종종 질적 분석 초보자가 접근하기 쉽지만 상대적으로 정교하지 않은 '입문용' 방법(Vaismoradi 외., 2013)으로 인식되는 경우가 많습니다(TA도 종종 잘못 표현되는 것처럼). 
Although QCA is commonly presented as a method rather than a methodology (Cho & Lee, 2014), theoretical underpinnings are rarely discussed or acknowledged. Indeed, one major difference between QCA and TA seems to be that QCA is often implicitly and sometimes explicitly presented as atheoretical, rather than theoretically flexible (Forman & Damschroder, 2008).

  • Despite such positioning, (post)positivist theoretical assumptions are often imported into the analysis through the use of quality measures like calculating inter-coder agreement and a concern to minimise researcher subjectivity and maximise the ‘accuracy’ of coding.
  • If theoretical underpinnings are acknowledged, it is usually of the (post)positivist or realist (or ‘factist’) variety (Vaismoradi et al., 2013).

The atheoretical positioning of QCA is perhaps why it is often thought of as a method for only producing descriptive analyses (Cho & Lee, 2014; Vaismoradi et al., 2013) and—thus—as the least interpretive of the qualitative analytic approaches, compared to what some claim are the most interpretive approaches, such as GT or interpretive phenomenology (e.g. Vaismoradi et al., 2013). This is perhaps why QCA is often framed as a ‘starter’ method (Vaismoradi et al., 2013), accessible for qualitative beginners, but relatively unsophisticated (as TA is often also misrepresented as).

TA와 QCA는 정량적 내용분석에서 병렬적으로 발전한 것으로 보이며 버전에 따라 어느 정도 겹치는 부분이 있는데, 이를 별개의 방법으로 간주하는 것이 유용할까요? 서로 다른 용어를 사용하면 명확해지나요, 아니면 불필요하게 혼란스럽고 복잡해지나요? 저희의 견해는 후자 쪽에 가깝지만, 이 두 가지 방법이 모두 확고하게 자리 잡았기 때문에 어느 쪽도 사라지지는 않을 것입니다. 그렇다면 왜 TA 대신 QCA를 선택해야 할까요? 이는 아마도 각 방법이 더 많은 '신뢰도' 또는 수용성을 지니고 있으며 특정 상황에서 더 널리 사용되기 때문에 상황에 따라 크게 달라질 수 있습니다. 만약 여러분의 접근 방식이 (포스트)실증주의적/'작은 q'적이라면, 두 가지를 구분할 필요가 거의 없습니다. 하지만 - 이것은 중대한 '하지만'이다 - 우리는 질적 분석이 무이론적이라는 (암묵적인) 포지셔닝에 문제가 있습니다. 연구자의 목적이 무엇이든, 분석에는 항상 이론적 가정과 선택이 수반되기 때문에 질적 분석은 무이론적일 수 없습니다(Ponterotto et al., 2017). 일반적으로 TA 문헌에는 이론적 토대에 대한 논의가 있기 때문에(때때로 제한적이고 때로는 문제가 되기도 하지만), 우리는 어떤 형식을 사용하든 QCA보다 TA를 사용하고 분석의 이론적 근거에 대해 논의할 것을 옹호합니다. 이론적으로 유연한 TA의 프레임워크는 이론을 피할 수 없음을 의미합니다(이론적으로는! - Braun & Clarke, 2020 참조). 또한, 우리는 작업 대상인 '콘텐츠'보다는 '주제', 즉 무엇을 얻고자 하는지에 초점을 맞추는 것을 선호합니다. 전자(contents에 초점을 두는 것)는 데이터 분석에 대해 '진실은 거기에 있다'는 식의 추출적 성향을 불러일으킬 위험이 있습니다(Braun & Clarke, 2016).  
As TA and QCA seem to be parallel developments from quantitative content analysis, and more or less overlap (depending on the version), is it useful to consider them distinct methods? Does having different terms clarify, or does it just confuse and complexify, unnecessarily? Our view tends towards the latter, but as both branches of this family of methods are now firmly established, neither will disappear. So why might you choose QCA over TA? This probably largely depends on context, as each method carries more ‘cachet’ or acceptance and is more widely used in certain contexts. If your approach is more (post)positivist/small q, there is little to distinguish between the two. But—and this is a big but—we are troubled by the (implicit) positioning of QCA as atheoretical. Qualitative analysis cannot be atheoretical—no matter what a researcher's purpose, analysis always involves theoretical assumptions and choices (Ponterotto et al., 2017). Because there is usually some discussion of theoretical underpinnings within the TA literature (albeit at times limited, and sometimes problematic), we therefore advocate for using TA over QCA—whichever form you use, and for discussing the theoretical bases of the analysis. The framing of TA as theoretically flexible means theory cannot be avoided (in theory! - see Braun & Clarke, 2020). Furthermore, we prefer the focus on ‘themes’—what you're aiming to get to—rather than ‘content’—what you're working with. The latter risks evoking an extractive, ‘the truth is in there’ orientation to data analysis (Braun & Clarke, 2016).

주제별 분석과 해석적 현상학적 분석의 차이점은 무엇인가요?
What are the differences between thematic analysis and interpretative phenomenological analysis?

다양한 현상학적 접근법(예: Finlay, 2011; Paley, 2017)이 있으며, 특히 적어도 1980년대부터 현상학적 연구에 사용되어 온 TA(예: Dapkus, 1985)가 가장 대표적인 접근법입니다. 여기서 IPA에 초점을 맞추는 이유는 잘 발달된 방법론적 지침과 함께 상담 및 심리치료 연구에서 점점 더 널리 사용되고 있기 때문입니다(McLeod, 2011). 방법론으로서 IPA는 다음을 지정합니다:

  • (a) 지침이 되는 이론적 틀(현상학 - 이 버전에서는 인간이 세계를 경험하고 이해하는 방식을 이해하고 해석하는 데 광범위하게 관련됨),
  • (b) 특정 맥락에서의 개인적 경험과 의미 만들기에 초점을 맞춘 연구 질문,
  • (c) 작고 동질적인 목적 표본의 사용,
  • (d) 개인 경험에 대한 일인칭 설명을 수집하기 위한 인터뷰 사용(예: Smith et al., 2009; Smith & Osborn, 2007; Spiers & Riley, 2019).

There are a wide variety of phenomenological approaches (e.g. Finlay, 2011; Paley, 2017), not least TA, which has been used in phenomenological research since at least the 1980s (e.g. Dapkus, 1985). We focus on IPA here because it is increasingly widely used in counselling and psychotherapy research, with well-developed methodological guidance (McLeod, 2011). As a methodology, IPA specifies:

  • (a) a guiding theoretical framework (phenomenology—which in this version is broadly concerned with understanding and interpreting how human beings experience and make sense of the world);
  • (b) research questions focused on personal experience and meaning-making in a particular context;
  • (c) the use of small, homogenous purposive samples; and
  • (d) the use of interviews to collect first-person accounts of personal experience (e.g. Smith et al., 2009; Smith & Osborn, 2007; Spiers & Riley, 2019). 

그러나 1990년대에 처음 소개되었을 때와 달리 IPA가 발전함에 따라 데이터 수집 방법에 대한 다양성이 증가하고 있습니다(예: 포커스 그룹 데이터를 분석하는 데 IPA를 사용하는 것에 대한 논의가 있었습니다; Palmer et al., 2010). 성찰적 TA에서와 마찬가지로 연구자의 주관성은 IPA의 기본 자원입니다. 실제로 IPA 연구는 근본적인 인간의 행위로 묘사되어 왔습니다:

  • '인간이 하는 일을 하는 것일 뿐입니다. 좀 더 세밀하게 하고, 좀 더 꾸준히 하고 있지만, 그럼에도 불구하고 연구 과정에서 일어나는 본질적으로 인간적인 과정입니다'(Smith, 2019, 171쪽).

There is, however, increasing variation around data collection methods as IPA has evolved from when it was first outlined in the 1990s (e.g. there has been some discussion of using IPA to analyse focus group data; Palmer et al., 2010). As in reflexive TA, researcher subjectivity is a fundamental resource for IPA. Indeed, IPA research has been described as a fundamentally human practice, it is:

  • ‘merely doing what human beings do. OK, it's doing it in more detail, it's doing it more steadfastly, but nonetheless, it's an essentially human process that is happening in the research's endeavour’ (Smith, 2019, p. 171).

방법/방법론의 문제 외에도, 성찰적 TA와 IPA 사이에는 두 가지 중요한 차이점이 있습니다.

  • 첫 번째는 IPA는 [사례(참여자) 전반에 걸쳐 주제를 식별하는 주제적 방향]과 [각 사례의 구체적이고 고유한 세부 사항에 관심을 갖고 집중하는 개별 사례적 접근]이라는 이중 분석적 초점을 통합한다는 점입니다.
  • 둘째, 이러한 개별 사례적 초점과 부분적으로 관련이 있는데, IPA 절차는 TA 절차와는 다소 다릅니다:
    • IPA는 사례 전반에 걸쳐across 주제를 개발하기 전에 각each 사례의 분석에 세부적으로 초점을 맞추는 것을 포함합니다(Braun & Clarke, 2013).
    • 이는 전체 데이터 세트의 코딩한 다음, 코드에서 사례 전반의across 테마를 개발하는 재귀적 TA의 테마 개발과는 상당히 다릅니다.
    • IPA는 데이터 세트 전체에 걸쳐 주제를 개발하기 위해 전반적인 주제 방향을 잡기 전에 각 데이터 항목에 대해 훨씬 더 깊이 또는 더 깊이 분석합니다. 각 인터뷰 기록은 순차적으로 전체 분석되며, 분석 노트는 기록 자체에 이상적으로 기록되어 각 참가자 이야기의 고유한 특징에 대한 상세하고 면밀한 참여를 유도합니다.

Beyond the method/ology question, there are two important differences between reflexive TA and IPA.

  • The first is that IPA incorporates a dual analytic focus: both a thematic orientation—the identification of themes across cases (participants)—and an idiographic approach—interest in and focus on the particular and unique details of each case.
  • Second, related in part to this idiographic focus, IPA procedures are rather different from TA procedures:
    • IPA involves a detailed focus on the analysis of each case, before developing themes across cases (Braun & Clarke, 2013).
    • This is quite different from theme development in reflexive TA, where themes are developed across cases from codes, following the coding of the entire data set.
    • IPA goes analytically much deeper or further with each data item, before taking an overall thematic orientation to develop themes across the data set. Each interview transcript is analysed in full, sequentially, and analytic notes are ideally recorded on the transcripts themselves, encouraging detailed and close engagement with the unique features of each participant's account.

IPA 프로세스는 데이터에 상세한 노트를 작성하는 '초기 노팅'로 시작됩니다. 이러한 주석은 TA에서와 같이 설명적(의미론적)이며 참가자의 명시적 의미에 가깝거나, 개념적(잠재적)이며 연구자의 관점에서 참가자의 세계관에 대한 해석을 반영할 수 있습니다. IPA에서 초기 노팅의 또 다른 측면은 언어 사용에 초점을 맞추는 것입니다: Smith 등(2009)은 은유뿐만 아니라 '대명사 사용, 멈춤, 웃음, 언어의 기능적 측면, 반복, 어조, 유창성 정도(명료하거나 머뭇거림)'(88쪽)에도 주의를 기울일 것을 권장했습니다. 은유에 초점을 맞추면 연구자가 더 많은 개념적 의미를 파악하는 데 도움이 될 수 있습니다. IPA에서 언어는 사람들이 생각하고 느끼는 것을 반영하고 전달하는 것으로 가정하는데, 이는 DA 및 기타 비판적 질적 접근법에서 언어가 이론화되는 방식과 크게 다릅니다(Willig, 2013 참조). 이러한 초기 노트는 연구자가 성찰적 TA의 첫 번째 단계에서 작성하는 익숙화 메모와 유사하지만, 일반적으로 더 형식화되고 체계적이며 상세합니다.
The IPA process begins with ‘initial noting’: writing detailed notes on the data. These comments can, like in TA, be descriptive (semantic) and stay close to the participants’ overt meanings, or conceptual (latent) and reflect an interpretation of the participant's worldview from the standpoint of the researcher. An additional aspect of initial noting in IPA is a focus on language use: Smith et al. (2009) encouraged attention to ‘pronoun use, pauses, laughter, functional aspects of language, repetition, tone, degree of fluency (articulate or hesitant)’ (p. 88) as well as metaphor. A focus on metaphor may help the researcher to grasp more conceptual meanings. In IPA, language is assumed to reflect and communicate what people think and feel, which differs profoundly from how language is theorised in DA and other critical qualitative approaches (see Willig, 2013). These initial notes are similar to the familiarisation notes the researcher makes in the first phase of reflexive TA, but they are generally more formalised, systematic and detailed.

다음 단계는 동일한(한 명의) 참가자를 대상으로 '출현(또는 귀납적) 주제'를 개발하는 것입니다(이는 반사적 TA의 코드와 다소 유사합니다. Braun & Clarke, 2013 참조). 떠오르는 주제들 간의 연관성을 찾는 과정을 통해 해당 참가자와 관련된 '상위 주제'를 개발하게 되는데, 이는 재귀적 TA의 주제와 다소 유사하지만, 떠오르는 주제와 연결된 공통된 의미를 가진 주제 요약에 더 가깝다고 할 수 있습니다.
The next step involves the development of ‘emergent (or inductive) themes’ for the same participant (these are somewhat akin to codes in reflexive TA, see Braun & Clarke, 2013). A process of searching for connections across emergent themes leads to the development of ‘super-ordinate themes’ related to that participant—these are somewhat akin to themes in reflexive TA, but can be more like topic summaries, with shared meaning connected to emergent themes.

이 과정은 각 인터뷰마다 반복됩니다. 마지막으로 연구자는 모든 참가자를 위한 상위 주제 목록을 개발합니다. 이러한 '마스터 테마'는 일반적으로 분석의 구조와 조직을 제공하며, 세부적으로 보고되는 것은 출현 주제입니다. 출현 주제와 상위 주제와 관련하여 IPA에서 주제가 개념화되는 방식은 (TA처럼) 지저분messy합니다.

  • 때때로 제시된 테마는 '주제 요약'과 유사하며, 이는 특히 상위 종속 테마에서 분명해 보입니다.
  • 다른 경우에는 테마가 중심 개념을 중심으로 구성된 의미 기반 패턴을 보고하는 것처럼 보이기도 합니다.

This process is then repeated for each interview. Finally, the researcher seeks to develop a list of super-ordinate themes for all of the participants. These ‘master themes’ typically provide structure and organisation for the analysis; what is reported in detail are the emergent themes. The way themes are conceptualised in IPA, both in relation to emergent and super-ordinate themes is—like with TA—messy.

  • Sometimes, themes presented are akin to ‘topic summaries’—this seems particularly evident for super-ordinate themes.
  • Other times, themes appear to report meaning-based patterns organised around a central concept.

영국의 심리학자 스미스를 비롯한 주요 저자들의 IPA에 대한 간략한 요약과 방법론적 설명은 '교과서' 버전의 IPA라고 할 수 있으며, 이들의 경험적 연구(예: Eatough & Smith, 2010; Rhodes et al., 2019; Smith & Osborne, 2007)를 통해 그 예시를 확인할 수 있습니다. 이는 더 넓은 연구 커뮤니티에서 IPA를 제정하는 방식과는 다소 다를 수 있습니다(TA와 마찬가지로; Braun & Clarke, 2020 참조). IPA는 아주 작은 표본을 대상으로 TA를 수행하는 방법으로 자주 사용되며, 참가자의 의미 결정에 대한 더 넓은 사회적 맥락을 거의 고려하지 않는 다소 '가벼운' 설명적 분석을 생성하는 데 사용되는 것 같습니다. 이러한 사용은 TA와 IPA의 잠재력을 모두 충족시키지 못합니다. 이러한 평가는 비단 우리만의 생각은 아닙니다. IPA 방법론가들은 IPA가 자주 사용되는 방식에 대해 비판적이었으며(예: Brocki & Wearden, 2006; Larkin 외, 2006; Smith, 2011), 특히 'Personhood의 구성적 근거'로서 사회 세계를 무시하는 것에 대해 비판적이었습니다(예: Chamberlain, 2011; Parker, 2005). IPA의 이러한 (잘못된) 사용이 의미하는 바는 IPA의 '산출'이 현상학적 TA의 산출과 거의 같을 수 있지만, 일반적으로 표본이 더 작다는 것입니다. 그러나 이러한 접근 방식은 달라야 합니다. 
Our brief summary of IPA, and methodological descriptions by key authors, including British psychologist Smith, could be called the ‘textbook’ version of IPA and is exemplified by their empirical work (e.g. Eatough & Smith, 2010; Rhodes et al., 2019; Smith & Osborne, 2007). This can be rather different from how IPA is enacted by the wider research community (much like with TA; see Braun & Clarke, 2020). It seems to us that IPA is quite often used as a method for doing TA on very small samples, and to produce rather ‘light’ descriptive analyses that show little regard for the wider social context of participants’ sense-making. Such use fails the potential of both TA and IPA. We are not alone in this assessment. IPA methodologists have been critical of the way IPA is often used (e.g. Brocki & Wearden, 2006; Larkin et al., 2006; Smith, 2011), and particularly the neglect of the social world as the ‘constituent ground of personhood’ (Larkin et al., 2011, p. 324), as have those less sympathetic to IPA (e.g. Chamberlain, 2011; Parker, 2005). What this (mis)use of IPA means is that the ‘output’ of an IPA can be little different from the output of a phenomenological TA, but usually with a smaller sample. But these approaches should be different.

Spiers와 Riley (2019)는 성찰적 TA와 IPA를 모두 사용하여 47 명의 GP와 인터뷰 한 데이터 세트에서 서로 다른 분석을 생성하는 것을 반영하는 데있어 이례적입니다. TA는 전체 데이터 세트를 분석하는 데 사용되었습니다(비판적 현실주의6 이론적 틀 내에서, IPA의 철학적 토대에 부합하고 귀납적 방향과 의미론적 의미에 초점을 맞추기 위해). IPA는 '인구통계적으로 동질적인'(278페이지) 10개의 인터뷰 하위 집합을 대상으로 실시되었습니다. 저자들은 TA는 폭이 넓고 IPA는 깊이가 있다고 제안했지만, IPA의 경우 표본이 작아 각 인터뷰에 더 깊이 참여할 수 있었고(분석에 시간을 할애하는 것은 우리가 강조하는 부분입니다, Braun & Clarke, 2021), 잠재적 의미에 초점을 맞추면 TA 분석이 'IPA처럼 보이는'(284쪽) 결과를 낳았을 것이라는 점을 인정했습니다. 그들은 데이터를 읽고 해석하는 방식에서 분석 방향을 전환하는 데 어려움을 겪었지만, IPA와 TA가 '방법으로서 잘 작동한다'고 결론지었습니다(287쪽).  
Spiers and Riley (2019) are unusual in providing a reflection of using both reflexive TA5 and IPA to produce different analyses from one data set of interviews with 47 GPs living with distress. TA was used to analyse the full data set (within a critical realist6 theoretical framework, to align with the philosophical underpinnings of IPA and with an inductive orientation and focus on semantic meaning). An IPA was conducted on a ‘demographically homogenous’ (p. 278) subset of 10 interviews. The authors suggested their TA produced breadth, while the IPA produced depth, but acknowledged that the smaller sample for the IPA allowed for more in-depth engagement with each interview (taking time over analysis is something we emphasise, Braun & Clarke, 2021), and that a focus on latent meaning would have resulted in a TA analysis ‘that looked more like IPA’ (p. 284). They noted difficulty in shifting analytic orientation in terms of how they were reading and interpreting the data, but concluded that IPA and TA ‘work well together as methods’ (p. 287).

연구자가 한 가지 접근법만 사용하고 광범위한 경험적 또는 현상학적 연구를 수행한다고 가정할 때, 언제 IPA 대신 반사적 TA를 사용하는 것이 합리적일까요? IPA의 요구사항이나 초점이 연구에 잘 맞지 않을 때는 IPA 대신 TA를 사용하는 것이 좋습니다. 예를 들어 TA를 사용하는 경우는
Assuming a researcher is just using one approach, and conducting a broadly experiential or phenomenological study, when might it make sense to use reflexive TA instead of IPA? We recommend TA instead of IPA when the requirements or focus of IPA are not well met by a study. For instance:

  • [연구 질문]이 (단지) 개인적인 경험과 감각이 아닌 다른 것에 초점을 맞추고 있는 경우.
  • [데이터 소스]는 인터뷰 또는 개인적인 경험과 감각에 대한 심층적인 1인칭 설명을 수집하는 방법 이외의 다른 것입니다.
  • [샘플]상대적으로 크거나(즉, N = 10보다 큼), (다양성을 포착하는 것이 목적일 때와 같이) 이질적인 경우입니다(Fassinger, 2005).
  • [분석의 초점]은 개별 사례의 고유한 특징보다는 데이터 세트 전반의 주제를 식별하는 데에만 맞춰져 있습니다.
  • 연구에 실무에 대한 명확한 시사점이 있는 '실행 가능한 결과'가 필요하기 때문에(Sandelowski & Leeman, 2012), 분석을 '주제별 진술'(공유된 의미 기반 주제)로 구성해야 합니다.
  • [분석적 관심]은 개인적 경험이 더 넓은 사회문화적 맥락에서 어떻게 위치하는지에 있습니다.
  • The research question is focused on something other than (just) personal experience and sense-making.
  • The data source is something other than interviews or another method that gathers in-depth first-person accounts of personal experience and sense-making.
  • The sample is relatively large (i.e. larger than N = 10) and/or heterogeneous—such as when the aim is to capture diversity (Fassinger, 2005).
  • The analytic focus is solely on identifying themes across the data set, rather than also on the unique features of individual cases.
  • The need for the research to have ‘actionable outcomes’ with clear implications for practice (Sandelowski & Leeman, 2012) requires organising the analysis into ‘thematic statements’ (shared meaning-based themes).
  • The analytic interest is on how personal experiences are located within wider socio-cultural contexts.

주제별 분석과 근거 이론의 차이점은 무엇인가요?
What are the differences between thematic analysis and grounded theory?

GT는 원래 1960년대에 미국의 사회학자 Glaser와 Strauss에 의해 개발되었는데, 이 시기는 질적 연구가 지금처럼 다양한 방법으로 확립된 개념이 아니었던 시기였습니다(Charmaz & Thornberg, 2020). GT 개념과 관행은 질적 탐구 전반에 걸쳐 많은 아이디어에 영향을 미쳤으며, 때로는 암묵적으로(때로는 포화 개념처럼 정당화할 만한 근거 없이) 영향을 미치기도 했습니다(Braun & Clarke, 2019b). Glaser와 Strauss(1965, 1967)는 사회학 이론을 경험적 증거에 근거한 연구 접근법을 확립하는 것을 목표로 삼았습니다(Charmaz & Thornberg, 2020). 초기의 근거 이론은 오늘날 질적 연구를 위한 대규모 표본과 데이터 수집 및 분석의 동시 프로세스를 포함하는 광범위한 범위였습니다.

  • 예를 들어, 최소 9가지 유형의 병동 또는 서비스에 대해 2~4주 동안 관찰하는 등 6개 병원에서 실시한 집중적인 현장 연구, Glaser와 Strauss(1967, 289쪽)의 '간호학생의 죽음과의 만남에 대한 광범위한 인터뷰 데이터' 또는 Charmaz(1983)의 73개 인터뷰 등이 있습니다.

GT was originally developed by US sociologists Glaser and Strauss in the 1960s—at a time when qualitative research was not the established concept with a vast range of methods it has become (Charmaz & Thornberg, 2020). GT concepts and practices have gone on to influence many ideas across qualitative inquiry, often implicitly (and sometimes without good justification—such as in the pervasive concept of saturation; Braun & Clarke, 2019b). Glaser and Strauss (1965, 1967) aimed to establish an approach to research that grounded sociological theories in empirical evidence (Charmaz & Thornberg, 2020). Early grounded theories were broad in scope, involving what would now be regarded as large samples for qualitative research, and concurrent processes of data collection and analysis.

  • For instance, intensive fieldwork at six hospitals, including observations lasting two to four weeks on at least nine different types of wards or services, and ‘extensive interview data on nursing students’ encounters with death’ in Glaser and Strauss (1967, p. 289) or 73 interviews in Charmaz (1983).

초기 GT의 절차와 가정은 실증주의에 대한 글레이저의 헌신과 인간의 행동과 상호작용을 통한 의미와 사회 질서의 창조에 관한 사회학 이론인 상징적 상호작용주의에 대한 스트라우스의 관심을 모두 반영한 것으로 보입니다(Charmaz, 2014). 글레이저와 스트라우스는 지적으로 분열되어 각자의 GT 버전을 개발했습니다(예: 글레이저, 1992; 스트라우스 & 코빈, 1990). 그들의 박사 과정 학생들 중 일부, 특히 Charmaz(2014)도 자신만의 GT 버전을 개발했습니다. 심리치료 과정 연구를 포함한 특정 분야에서 사용하기 위해 개발된 변형도 있습니다(Rennie, 2006). 이처럼 다양한 버전의 GT가 존재하기 때문에 성찰적 TA와 GT의 차이점을 파악하는 것은 매우 복잡합니다.7  
The procedures and assumptions of early GT arguably reflected both Glaser's commitment to positivism and Strauss’ interests in symbolic interactionism, a sociological theory concerned with the creation of meaning and social order through human actions and interactions (Charmaz, 2014). Glaser and Strauss split intellectually and developed their own versions of GT (e.g. Glaser, 1992; Strauss & Corbin, 1990). Some of their PhD students, most notably Charmaz (2014), have also developed their own versions of GT. There are also variants developed for use within specific fields including psychotherapy process research (Rennie, 2006). Identifying the differences between reflexive TA and GT, then, is complex, because there are so many different versions of GT.7

많은 근거 이론가들은 GT가 사회적 과정과 같은 특정 유형의 연구 질문과 특정 현상에 영향을 미치고, 뒷받침하고, 형성하는 요인에 초점을 맞춰야 한다고 주장합니다(Charmaz, 2014). 그러나 연구자들은 훨씬 더 다양한 연구 질문을 다루기 위해 GT를 사용하는 경향이 있으며, 상담 및 심리치료 연구에서는 종종 실제 경험에 초점을 맞춘 질문이 이에 해당합니다(예: Lillie, 2006). 인터뷰는 데이터 수집의 일반적인 방법이지만 민족지학적 현장 작업/관찰 방법, 2차 자료(예: 정부 문서, 미디어 자료), 질적 조사, 일기, 사진 및 비디오 등 다양한 데이터 수집 기법을 사용할 수 있습니다(Charmaz, 2014 참조). 
Many grounded theorists argue that GT should be focused on particular types of research questions—such as social processes, and the factors that influence, underpin and shape particular phenomena (Charmaz, 2014). However, researchers tend to use GT to address a much wider variety of research questions—in counselling and psychotherapy research this is often questions focused on lived experience (e.g. Lillie, 2006). Interviewing has been the typical method of data collection, but a wider range of data collection techniques is possible, such as ethnographic field work/observational methods, secondary sources (e.g. Government documents, media items), qualitative surveys, solicited diaries, photographs and videos (see Charmaz, 2014).

Glaser(1992)의 실증주의적 반복에서 Charmaz(2014)의 구성주의적 재작업에 이르기까지 다양한 GT 버전은 서로 다른 이론적 토대를 가지고 있으며 분석 절차에서도 대부분 사소한 차이가 있습니다. 이러한 버전에 걸쳐 GT 분석 프로세스는 다양한 단계 또는 '수준'의 코딩을 포함합니다(Birks & Mills, 2015).

  • 일반적으로 초기 또는 '개방형'(줄 단위) 코딩에서
  • 보다 '선택적', '통합적' 또는 '집중형'(더 광범위하고, 더 높은 수준, 더 추상적이고, 해석적이거나 개념 지향적인) 코딩으로 이동한다.

Ranging from Glaser’s (1992) positivist iteration to Charmaz’s (2014) constructivist re-working, the various versions of GT have different theoretical underpinnings; there are also mostly minor divergences in analytic procedures. Across these versions, the GT analytic process generally involves different stages or ‘levels’ of coding—

  • moving from initial or ‘open’ (line-by-line) coding
  • to more ‘selective’, ‘integrative’ or ‘focused’ (broader, higher level, more abstract, interpretive or conceptually oriented) coding (Birks & Mills, 2015).

근거 이론가들은 코드, 개념, 범주를 구분하는데(이 용어들은 종종 혼용되어 사용되기도 함), '범주'는 성찰적 TA의 '주제'에 느슨하게 매핑됩니다. 일반적으로 GT의 결과물은 핵심 개념/카테고리 또는 때때로 계층적으로 관련된 개념/카테고리의 클러스터입니다. 코딩의 후반 단계, 특히 카테고리 개발을 목표로 하는 코딩은 재귀적 TA의 주제 개발 프로세스에 광범위하게 매핑됩니다. 그러나 GT는 TA처럼 두 가지 '수준'의 분석(코드/테마) 사이에 명확한 전환이 없는 것으로 보이는데, 이와 달리 성찰적 TA에서는 코드에서 테마가 개발되는 것이 명확하다. 
Grounded theorists distinguish between codes, concepts and categories (these terms are also often conflated in use)—categories loosely map onto themes in reflexive TA. Generally, the output of a GT is a core concept/category and/or cluster of sometimes hierarchically related concepts/categories. The later stages of coding, and particularly coding aimed at category development, broadly map onto theme development processes in reflexive TA. However, GT does not seem to have such a clear sense of transition between two ‘levels’ of analysis (codes/themes) as TA has—something particularly evident in reflexive TA where themes are developed from codes.

[라인별 코딩] 및 [지속적인 비교 분석]과 같은 근거 이론가들이 개발한 코딩 전략은 종종 TA에 기인하는 경우가 많으며, GT는 영향력이 있습니다(Charmaz & Thornberg, 2020). 우리는 때때로 성찰적 TA 내에서 이러한 전략의 옹호자로 묘사되지만, 우리는 그렇지 않습니다(Braun & Clarke, 2020). 이와는 대조적으로 Charmaz(2014)는 줄 단위 코딩을 사용하는 것이 GT를 '일반적인 주제 분석'과 구별하는 요소라고 지적했습니다(125쪽). 라인별 코딩은 세분화된 코딩부터 데이터의 모든 라인에 대한 코드 생성까지 다양한 의미를 가지며(Charmaz, 2014), 데이터를 청크로 분할하거나 구문 분석하기 전에 선행될 수 있습니다(Pidgeon & Henwood, 1996). 
GT is influential, with coding strategies developed by grounded theorists—such as line-by-line coding and constant comparative analysis—often attributed to TA (Charmaz & Thornberg, 2020). We are sometimes described as advocates of these strategies within reflexive TA, which we are not (Braun & Clarke, 2020). Charmaz (2014), in contrast, noted that the use of line-by-line coding is precisely what distinguishes GT from a ‘general thematic analysis’ (p. 125). Line-by-line coding has different meanings—from fine-grained coding to generating a code for every line of data (Charmaz, 2014)—and can be preceded by segmenting or parsing the data into chunks (Pidgeon & Henwood, 1996).

어떤 의미가 적용되든, 반사적 TA에서는 코딩이 다르게 접근됩니다. 

  • 분석을 위해 데이터를 세분화할 필요가 없고,
  • 모든 데이터(라인)에 코드를 적용할 필요는 없으며,
  • 연구의 목표와 목적에 따라 필요한 만큼 세밀하게 또는 거칠게 코딩할 수 있습니다.

'지속적인 비교 분석'은 데이터를 이해하고 효과적으로 코딩하고 분석하기 위해 [데이터 비트와 다른 데이터 비트, 코드와 코드, 범주와 범주]를 비교하는 전략을 효과적으로 일컫는 복잡한 이름입니다(Birks & Mills, 2015). 넓은 의미에서 모든 형태의 질적 데이터 분석은 예를 들어 데이터의 특정 부분이 이 코드 또는 저 코드로 가장 잘 코딩되는지, 또는 이 프로세스 또는 저 프로세스의 증거인지 등을 고려하는 것을 포함한다. 그렇기에 일반적으로 좋은 질적 분석에서는 지속적인 비교 분석으로 캡슐화된 '아이디어'가 핵심입니다. 그러나 명명되고 체계화된 기법으로서 지속적인 비교 분석은 특히 GT와 관련이 있습니다.
Whichever meaning applies, coding is approached differently in reflexive TA:

  • data do not need to be segmented for analysis,
  • not all data (lines) need to have codes applied, and
  • coding can be as fine grained or as coarse as is required to address the aims and purpose of the research.

‘Constant comparative analysis’ is a complex name for what is effectively a strategy of comparing bits of data with other bits of data, codes with codes and categories with categories, in order to make sense of the data, and code and analyse it effectively (Birks & Mills, 2015). In the broadest sense, all forms of qualitative data analysis involve consideration of whether a specific segment of data is, for example, best coded with this code or that code, or evidence of this or that process, and so on—making the ‘idea’ encapsulated by constant comparative analysis core in good qualitative practice generally. But as a named and systematised technique, constant comparative analysis is specifically associated with GT.

완전히 실현된 GT는 종종 GT 전체를 포괄하고 설명하는 핵심 범주와 핵심 범주와 관련된 다양한 하위 범주를 개발하는 데 중점을 둡니다(Birks & Mills, 2015). GT는 현재 'GT-lite'라는 축약된 형태로 자주 사용됩니다(Braun & Clarke, 2006, 2013).

  • 코딩 및 범주화, 메모 작성, 지속적인 비교 분석과 같은 GT의 필수 절차가 많이 사용되지만, 샘플은 종종 GT와 관련된 '최대 변동' 샘플보다는 더 작고 상대적으로 균질한 경향이 있습니다(Fassinger, 2005).
  • GT 라이트 버전에서는 데이터 수집과 분석이 반드시 동시에 이루어지는 것은 아닙니다.
    • Charmaz와 Thornberg(2020)는 최근 데이터 수집과 분석의 동시 진행이 GT의 특징이라고 강조했습니다(즉 '이론적 샘플링'의 활용을 통해 분석과 함께 샘플이 개발되는 것. 이 때 개발 중인 분석이 지속적인 참여자 선정에 정보를 제공하는 것).
  • GT의 샘플링 및 분석 개발과 관련된 핵심 개념인 포화(이론적 샘플링/데이터 수집이 중단되는 시점으로 광범위하게 정의됨)는 데이터 수집이 '새로운 인사이트를 생성하지 않는' 시점으로 축소되는 경우가 많습니다(Braun & Clarke, 2019b). '포화도'는 (세부적인 동시 데이터 분석보다는) 데이터 수집 중 연구자의 데이터에 대한 느낌에 따라 결정되는 경우가 많습니다.
    • 반면 초기 GT이론적 포화는 범주의 속성과 범주 간의 관계가 충분히 설명되어 근거 이론이 나올 수 있는 시점을 나타냅니다(Morse, 2015).
  • 마지막으로, 축약된 GT분석 결과범주 또는 테마의 집합과 이러한 범주 간의 관계에 대한 이해(때로는 모델 형태로 표현됨)입니다.

A fully realised GT often centres on the development of a core category that encompasses and explains the GT as a whole, alongside various subsidiary categories related to the core category (Birks & Mills, 2015). GT is now very often used in an abbreviated form we have sometimes referred to as ‘GT-lite’ (Braun & Clarke, 2006, 2013).

  • Although many of the essential procedures of GT, such coding and categorising, memo writing and constant comparative analysis, are used, samples tend to be smaller and relatively homogenous, rather than the ‘maximum variation’ samples often associated with GT (Fassinger, 2005).
  • In GT-lite versions, data collection and analysis is not necessarily concurrent.
    • Charmaz and Thornberg (2020) recently emphasised that concurrent data collection and analysis—samples developed in concert with analysis through the use of ‘theoretical sampling’, where the developing analysis informs the ongoing selection of participantsis a defining feature of GT.
  • Saturation, a key notion around sampling and analytic development for GT (broadly defined as the point at which theoretical sampling/data collection ceases), is often watered down to the point at which data collection is generating ‘no new insights’ (Braun & Clarke, 2019b). ‘Saturation’ is often determined by the researcher's impression of the data during data collection, rather than on detailed concurrent data analysis.
    • In contrast, theoretical saturation in early GT represented the point at which the properties of categories and the relationships between categories were fully explained so that a grounded theory could arise (Morse, 2015).
  • Finally, the analytic output from an abbreviated GT is a set of categories or themes and an understanding of the relationship between these categories (sometimes represented in the form of a model).

이렇듯, 축약된 GT를 사용하면 TA와 사실상 구분할 수 없는 분석 결과를 도출하는 경우가 많습니다. 
This abbreviated use of GT often produces an analysis that is, effectively, indistinguishable from that of TA.

유사한 분석의 가능성을 고려할 때, 언제 GT 대신 성찰적 TA를 사용해야 할까요? 이러한 답변은 'GT'를 단순히 주제를 식별하는 기법으로 개념화하는 것은 GT에 해를 끼칠 뿐만 아니라, 더 적합한 방법을 활용하지 못하는 것이다는 우리의 입장을 반영한 것입니다. 따라서 다음 중 하나 이상에 해당하는 경우 성찰적 TA를 사용하는 것이 좋습니다:
Given the potential for similar analysis, when might you use reflexive TA rather than GT? Our response reflects our position that conceptualising ‘GT’ simply as techniques for identifying themes both does disservice to GT, and fails to utilise a better-suited method. So, our advice is to use reflexive TA when one or more of the following apply:

  • 연구자가 질적 연구 여정을 시작할 때. TA는 GT보다 더 간단하고 절차가 적고 덜 복잡하며 명확한 경로가 있습니다.
  • [연구 질문]이 GT에 특별히 적합한 질문이 아닌 경우(가장 바람직한definitive GT 연구 질문은 사회적 프로세스에 중점을 둡니다).
  • [목표]는 데이터에서 패턴을 식별하고, 그 패턴을 설명 및 해석하거나, 이론적으로 근거가 있는 해석을 제공하는 것입니다.
  • 연구자는 데이터 세트와 분석을 통해 근거 이론을 개발하려는 [의도]가 없습니다.
  • 데이터는 분석 개발과 무관하게 수집됩니다(즉, 이론적으로 표본을 추출하려는 의도가 없음).
  • 질적 연구에서 흔히 볼 수 있는 '편의' 표본의 경우처럼 표본이 상대적으로 작거나 균질합니다(Braun & Clarke, 2013).
  • 특정하고 촉박한 마감일에 의해 시간이 제한됩니다. 반사적 TA는 빠르지는 않지만 '전체' GT 프로젝트보다는 빠를 수 있습니다.
  • When a researcher is beginning their qualitative research journey. TA is more straightforward than GT, the procedures are fewer and less complex, and there is a clearer pathway through them.
  • The research questions are not those particularly suited to GT (the definitive GT research question centres on social processes).
  • The goal is to identify patterns in data, to describe and interpret those patterns, and/or to provide a theoretically informed interpretation of them.
  • The researcher does not intend to develop a grounded theory from the data set and analysis.
  • Data are collected independent from the analytic development (i.e. there is no intention to sample theoretically).
  • The sample is relatively small and/or homogenous—as is often the case with samples of ‘convenience’ that are common in qualitative research (Braun & Clarke, 2013).
  • Time is limited by a particular and tight deadline. Reflexive TA, while not quick, can be faster than a ‘full’ GT project.


주제 분석과 (패턴 기반) 담화 분석의 차이점은 무엇인가요?
What are the differences between thematic analysis and (pattern-based) discourse analysis?

DA는 오랫동안 비판적 질적 연구를 정의하는 (유일한) 접근 방식이었습니다. 모든 형태의 DA는 언어를 단순히 참가자의 생각과 감정을 투명하게 반영하는 것이 아니라, (언어가) 활동적이고 수행적이며, 일을 하고, 현실을 이끌어내는 사회적 실천으로 보는 관점에 기반을 두고 있습니다. 따라서 DA는 언어 연습에 초점을 맞추는 것으로 이해할 수 있습니다(Braun & Clarke, 2013). 그러나 GT와 마찬가지로 DA에 대한 구체적인 접근 방식은 사회과학과 보건과학 내에서도 매우 다양합니다. 담화 심리학(Wiggins, 2016), 대화 분석에 기반한 접근법(Madill et al., 2001) 등 일부는 언어 사용의 미시적 세부 사항에 더 초점을 맞춥니다. 해석적 레퍼토리 분석(Wetherell & Potter, 1992)이나 포스트구조주의적 DA(Gavey, 1989)와 같은 다른 접근 방식은 보다 광범위한 담화 패턴이나 주제에 대해 이야기하는 방식에 더 중점을 둡니다. 더 많은 변형이 있습니다.
DA has long been the defining approach of critical qualitative research. All forms of DA are underpinned by a view of language as a social practice, something active and performative, doing things, and bringing forth realities, rather than merely transparently reflecting participants’ thoughts and feelings. Thus, DA can be understood as focusing on language practice (Braun & Clarke, 2013). But, as with GT, specific approaches to DA vary widely, even just within the social and health sciences. Some—such as discursive psychology (Wiggins, 2016), an approach informed by conversation analysis (Madill et al., 2001)—are more focused on the micro details of language practice. Others—such as interpretative repertoire analysis (Wetherell & Potter, 1992) and poststructuralist DA (Gavey, 1989)—focus more on broader discursive patterns or ways of talking about a topic. There are many more variations.

성찰적 TA는 일부 담화 분석 접근 방식이 제공하는 언어 사용의 세부적이고 세분화된 분석을 위한 도구를 제공하지 않습니다. 그러나 어떤 종류의 비판적 질적 이론적 틀(예: 구성주의[Gergen, 2015], 포스트구조주의[Gavey, 1989]) 내에서 구현될 때, 패턴 기반 담화 접근법(Braun & Clarke, 2013)과 유사한 것을 제공할 수 있습니다. 여기에는 앞서 언급한 해석적 레퍼토리 분석, 특히 포스트구조주의적 DA가 포함됩니다. 이러한 패턴 기반 DA는 언어 사용의 미시적인 세부 사항보다는 데이터에서 '담화' 또는 '해석적 레퍼토리'라고 불리는 보다 거시적인 의미 패턴에 분석의 초점을 맞추기 때문에 '패턴 기반 DA'라고 불렀습니다.

  • 예를 들어, 기독교 치료사와 함께 일하기로 선택한 기독교 상담 내담자와의 인터뷰에 대한 해석적 레퍼토리 분석에서 Greenidge와 Baker(2012)는 각각 두 가지 해석적 레퍼토리로 구성된 '내담자 담화'와 '기독교 담화'를 개발했습니다. 저자들은 이러한 레퍼토리(예: '상담은 비즈니스 거래', '상담사는 도움을 주도록 훈련받은 전문가')가 상담, 치료사, 치료 관계를 어떻게 구성하고 내담자를 어떻게 포지셔닝하는지를 탐구했습니다.

구성주의 또는 포스트구조주의에 기반한 동일한 데이터에 대한 성찰적 TA도 매우 유사한 분석을 도출할 수 있을 것으로 예상됩니다.
Reflexive TA does not provide tools for a detailed and fine-grained analysis of language practice that some discourse analytic approaches offer. But, when implemented within a critical qualitative theoretical framework of some kind (e.g. constructionism [Gergen, 2015], poststructuralism [Gavey, 1989]), it can offer something akin to what we have elsewhere described as pattern-based discursive approaches (Braun & Clarke, 2013). These include the aforementioned interpretative repertoire analysis and, particularly, poststructuralist DA. We dubbed these pattern-based DA because their overriding analytic focus is on more macro patterns of meaning—whether called ‘discourses’ or ‘interpretative repertoires’—in data, rather than on the more micro details of language practice.

  • For example, in an interpretative repertoire analysis of interviews with Christian counselling clients who chose to work with a Christian therapist, Greenidge and Baker (2012) developed a ‘client discourse’ and a ‘Christian discourse’, each constituted by two interpretative repertoires. The authors explored how these repertoires (e.g. ‘counselling is a business deal’ and ‘counsellors are professionals trained to help’) constructed counselling, therapists and the therapeutic relationships and positioned the clients.

We imagine that a reflexive TA of the same data, informed by constructionism or poststructuralism, could produce a very similar analysis.

패턴 기반 DA와 성찰적 TA의 이러한 유사성 외에도, 테리(2016)는 성찰적 TA의 이론적 유연성이 '[...] 다원적 분석 접근 방식에 이상적으로 적합하다'(104쪽)고 주장했습니다. 그는 담론적 접근 방식과 함께 TA를 사용하는 데 많은 가치를 인식했으며, 이러한 반사적 TA의 특정 표현을 '비판적 TA'라고 설명했습니다.
Beyond this similarity between pattern-based DA and reflexive TA, Terry (2016) argued the theoretical flexibility of reflexive TA ‘makes it ideally suited to […] a pluralistic analytic approach’ (p. 104). He perceived much value in using TA in combination with discursive approaches, describing this particular rendition of reflexive TA as ‘critical TA’.

주제적 분해와 주제적 DA를 포함하여 TA와 DA의 요소를 결합담론적 접근법도 확립되어 있습니다. 주제별 분해는 이 두 가지 접근법 중 더 널리 사용되는 접근법이며 영국의 비판 심리학자 Stenner(1993)와 가장 밀접한 관련이 있습니다. 이 접근 방식은 언어 및 기타 의미화 관행을 통해 의미가 사회적으로 구성되는 것으로 개념화되는 담론적 프레임워크 안에 위치합니다. 주제적 분해에는 TA에 대한 코드북 접근 방식과 유사하게 코딩과 주제 식별이 포함되며, 포스트구조주의 프레임워크 내에서 주제가 개발됩니다(Stenner 외., 2010). 포스트구조주의 담론적 접근법은 종종 [인격personhood의 담론적 생산]과 [담론이 특정 주체의 위치, 즉 '말하고 행동할 수 있는 담론적 위치'를 제공하는 방식]에 관심을 갖습니다(Willig, 2013, 132쪽). 주제 분해에 대한 포스트구조주의의 영향은 주제가 주관적 의미(예: Stenner 외, 2010), 주관성(예: Gurevich 외, 2007) 또는 주체 위치(예: Ussher 외, 2014)와 관련된다는 개념에서 분명하게 드러납니다.
There are also established discursive approaches that combine elements of TA and DA within their method, including thematic decomposition (Stenner, 1993; Stenner et al., 2010) and thematic DA (Singer & Hunter, 1999; Taylor & Ussher, 2001). Thematic decomposition is the more widely used of these two approaches and is most strongly associated with British critical psychologist Stenner (1993). The approach is situated within a discursive framework in which meanings are conceptualised as socially constituted through linguistic and other signifying practices. Thematic decomposition involves coding and the identification of themes, similar to codebook approaches to TA, with themes developed within a poststructuralist framework (Stenner et al., 2010). Poststructuralist discursive approaches are often concerned with the discursive production of personhood and the ways in which discourses make available particular subject positions, or ‘discursive locations from which to speak and act’ (Willig, 2013, p. 132). The influence of poststructuralism on thematic decomposition is apparent in the notion that themes relate to subjective meanings (e.g. Stenner et al., 2010), subjectivities (e.g. Gurevich et al., 2007) or subject positions (e.g. Ussher et al., 2014).

패턴 기반 DA를 활용하지 않고, 구성주의 또는 포스트구조주의 이론적 틀 내에서 성찰적 TA를 사용하거나, DA의 요소와 TA를 결합하는 경우는 언제, 왜인가요? 이러한 방법들이 제공할 수 있는 부분이 상당히 중복된다는 점을 고려할 때, 여기서는 주로 실용적인 이유를 반영하여 답변합니다. 트위터는 다음 중 하나 이상이 해당될 때 중요한 형태의 재귀적 TA가 더 유용하다고 생각합니다:
When and why would you use reflexive TA within a constructionist or poststructuralist theoretical framework, or combine TA with elements from DA, rather than utilise pattern-based DA? Given that there is considerable overlap in what these methods can provide, our response here reflects mainly pragmatic reasons. We feel that critical forms of reflexive TA are more useful when one or more of the following apply:

  • 연구자가 질적 연구를 처음 접하는 경우. 성찰적 TA는 실용적인 지침을 많이 제공하는 반면(예: Braun & Clarke, 2006, 2013; Braun et al., 2014, 2019), DA의 절차는 덜 구체적이고 지침보다는 개념, 아이디어 및 관행에 기반하는 경우가 많습니다. 지침이 제공되더라도(예: Willig, 2013), 이론적 및 방법론적 근거가 충분하지 않으면 여전히 다소 불투명하고 이해하기 어렵고 적용하기 어려울 수 있습니다. 이는 연구 과정에 불안을 가중시킬 수 있습니다. 
    When a researcher is fairly new to qualitative research. Reflexive TA offers much in the way of practical guidance (e.g. Braun & Clarke, 2006, 2013; Braun et al., 2014, 2019), whereas the procedures for DA are less concrete and often based in concepts, ideas and practices, rather than guidelines. When guidance is provided (e.g. by Willig, 2013), it can be still somewhat opaque and hard to grasp and apply without a good theoretical and methodological grounding. This can add anxiety to the process.
  • 연구자가 분석에서 완전한 담론 지향에 전념하고 있는지 확신하지 못하는 경우. 
    When a researcher is not certain they are committed to a full discourse orientation in their analysis.
  • 연구 질문과 관심사가 전적으로 또는 주로 언어의 효과(예: 피험자 위치)에만 맞춰져 있지 않은 경우. 
    The research questions and interests are not solely or primarily oriented to the effects of language (such as subject positions).

2 요약

이 백서는 상담 및 심리치료 연구자들이 여러 사례 분석 접근법 중 어떤 것이 자신의 연구에 적합한지 결정하는 데 도움을 주기 위한 도구로 고안되었습니다. TA 방법군을 소개하고, 성찰적 TA를 다른 네 가지 영향력 있는 질적 분석 방법 및 방법론(QCA, IPA, GT, DA)과 비교 및 대조했습니다. TA와 각 방법/론 사이의 철학적, 절차적 차이점과 유사점을 간략히 설명하고, 연구자가 다른 접근법보다 성찰적 TA를 선택할 수 있는 경우와 추론에 따라 다른 접근법을 사용하는 것이 더 나은 경우에 대한 평가를 제공했습니다. 우리는 이러한 [패턴 기반 접근법의 매핑과 비교 및 대조]를 중립적이라고 주장하지 않습니다(또는 완전하다고 주장하지도 않습니다8). TA 저자로서 우리는 중립적인 평가자가 아니며, 이 매핑은 심리학에 대한 우리의 훈련과 연구 가치를 반영하고 있습니다(예: Braun & Clarke, 2019a). 저희는 질적 연구, 특히 TA에서 무엇이 좋은 관행이고 나쁜 관행인지에 대한 명확한 생각을 가지고 있습니다(Braun & Clarke, 2013, 2020). 상담 및 심리치료 연구에서의 사례 간 접근에 대한 다른 설명(예: McLeod, 2011; Yeh & Inman, 2007)은 그 지형을 다소 다르게 매핑합니다. McLeod(2011)는 TA와 IPA를 GT의 변형으로 설명한 반면, 우리는 이러한 접근법이 GT보다 오래전부터 내려온 전통(각각 내용 분석과 현상학)에서 비롯된 것으로 보고 있습니다. 질적 분석을 수행할 때와 마찬가지로, 우리의 주관성은 질적 연구를 개념화하고 매핑하는 과정에 영향을 미칩니다. 
This paper is designed as a tool to help counselling and psychotherapy researchers decide which of several across-case analytic approaches suits their research. We introduced the TA family of methods, and compared and contrasted reflexive TA with four other influential qualitative analytic methods and methodologies: QCA; IPA; GT; and DA. We briefly outlined some of the philosophical and procedural differences and similarities between TA and each method/ology, and we offered our assessment of when a researcher might choose reflexive TA over the other approach—and, by inference, when the other approach might better be used. We do not claim this mapping of pattern-based approaches and compare and contrast exercise as neutral (nor as exhaustive8). As TA authors, we are not neutral evaluators; the mapping no doubt reflects our training in psychology and our research values (e.g. Braun & Clarke, 2019a). We have clear ideas about what constitutes good and bad practice in qualitative research, and specifically in TA (Braun & Clarke, 2013, 2020). Other accounts of across-case approaches in counselling and psychotherapy research (e.g. McLeod, 2011; Yeh & Inman, 2007) map the terrain rather differently. McLeod (2011) described TA and IPA as variants of GT, whereas we view these approaches as originating in traditions (content analysis and phenomenology, respectively) that long pre-dated GT. As in the doing of qualitative analysis, our subjectivity informs the process of conceptualising and mapping qualitative research.

여기서 우리가 시도한 것은 [사례 전반의 질적 분석을 위한 완벽한 분석 방법/논리가 항상 존재한다는 생각에 문제를 제기하는 것]입니다. 우리는 종종 두 가지 이상의 접근법이 유사한 결과를 제공하거나 연구자가 연구 질문을 해결할 수 있다는 것을 보여 주었으면 합니다. 이러한 접근법을 비교하고 '언제 TA를 해야 하는가'라는 질문을 다루면서, 우리는 무분별한 TA의 광범위한 수용이 아니라, '신성한 방법'에 대한 탐구를 피하고, 대신 분석 접근법을 선택하고 사용할 때 사려 깊고 신중한 연습을 포함하는 방법에 대한 사고 접근법을 장려하고자 합니다.
What we have attempted here is to problematise the idea that there is—always—one perfect analytic method/ology for across-case qualitative analysis. We hope we have shown that often more than one approach would deliver similar results, or allow a researcher to address their research question. In comparing these approaches, and addressing ‘when TA’ questions, we aim to encourage not widespread thoughtless uptake of TA, but an approach to thinking about method that avoids the ‘hallowed method’ quest, and instead involves thoughtful and deliberative practice in choosing and using analytic approaches.


  • 1 언어와 담론이 현실을 구성하고 사회의 생산적인 힘으로서 권력의 작동에 필수적이며 의미와 주관성을 생산한다고 보는 포스트구조주의 이론의 영향을 받은 담화 분석의 한 유형입니다. 포스트구조주의 DA는 권력과 지배적인 지식에 이의를 제기하고 도전하는 데 강한 관심을 갖는 경향이 있습니다. 또한 자아와 주관성을 단일하거나 일관된 것이 아니라 파편화되고 모순적이며 담론을 통해 생산되는 것으로 이해합니다(포스트구조주의 이론과 DA에 대한 접근 가능한 개요는 Gavey, 1989 참조). 
    A type of discourse analysis informed by poststructuralist theory—which views language and discourse as constitutive of reality and integral to the operation of power as a productive force in society, producing meaning and subjectivity. Poststructuralist DA tends to have a strong interest in power, and in contesting and challenging dominant—powerful—knowledge. It also understands the self and subjectivity as not unitary or coherent, but fragmented and contradictory, and produced through discourse (see Gavey, 1989, for an accessible overview of poststructuralist theory and DA). 
  • 2 포스트 실증주의는 연구 결과에 대한 연구자의 영향력을 인정하지만, 객관적 지식은 여전히 이상적이라는 실증주의의 개선된 개념입니다. '(포스트)실증주의'라는 용어는 이 두 가지 밀접하게 관련된 가치의 경계가 모호해지는 것을 포착합니다. 
    Post-positivism is a refinement of positivism—the influence of the researcher on research outcomes is recognised but objective knowledge remains the ideal. The term ‘(post)positivism’ captures the blurring of these two closely related sets of values. 
  • 3 구성주의(때로는 사회적 구성주의)는 단일한 현실과 진리라는 개념을 거부하고, 현실과 진리를 언어, 표상 및 기타 사회적 과정을 통해 생산(구성)되는 것으로 보는 이론적 전통입니다.
    • [세계를 이해하는 용어]는 [특정한 사회 정치적, 문화적, 역사적 맥락과 관련된 것]으로 간주되며,
    • [의미]는 현실의 본질에 대한 내재적 진리가 아니라, [사회적 상호 작용의 결과인 사회적 인공물]로 간주됩니다(Gergen, 2015 참조).
  • 3 Constructionism (sometimes social constructionism) is a theoretical tradition that views reality and truth—or realities and truths as it rejects the idea of a singular reality and truth—as produced (constructed) through language, representation and other social processes.
    • The terms in which the world is understood are seen as related to specific socio-political, cultural and historical contexts, and
    • meanings are seen as social artefacts, resulting from social interaction, rather than some inherent truth about the nature of reality (see Gergen, 2015). 
  • 4 TA도 마찬가지로 정량적 내용 분석에서 발전한 것으로 여겨집니다(Joffe, 2012). 
    TA is similarly thought to have evolved from quantitative content analysis (Joffe, 2012). 
  • 5 이들의 성찰적 TA의 사용과 설명은 우리가 설명한 방식과 다르며, 언어(예: 긴급 코드 및 주제), 주제 개념화(주제 요약) 및 분석 과정 설명('하위 코드'와 코드북 사용, 성적표별 분석 성적표)은 부분적으로 IPA의 영향을 반영합니다. 
    Their use and description of reflexive TA is not quite how we have described it, and the language (e.g. emergent codes and themes), conceptualisation of themes (topic summaries) and analytic process described (use of ‘subcodes’ and a codebook, analysis transcript by transcript) partly reflect an IPA influence. 
  • 비판적 리얼리즘은 질적 연구를 뒷받침하는 리얼리즘의 한 형태입니다. 연구를 통해 직접 관찰하거나 발견할 수 있는 단일한 현실을 가정하는 '단순' 또는 '순진한' 리얼리즘과 달리 비판적 리얼리즘은 우리가 현실을 경험하는 방식이 문화, 언어, 정치적 이해관계에 의해 형성된다는 가정을 전제로 합니다(Maxwell, 2012 참조). 
    Critical realism is a form of realism that frequently underpins qualitative research. Unlike ‘simple’ or ‘naïve’ realism, which assumes a singular reality that can be directly observed or discovered through research, critical realism is premised on the assumption that how we experience reality is shaped by culture, language and political interests (see Maxwell, 2012). 
  • 7 버크스와 밀스(2015)는 GT에 대해 읽을 수 있는 접근 가능한 출발점이라고 할 수 있습니다. 
    We find Birks and Mills (2015) an accessible starting point for reading about GT. 
  • 8 합의적 질적 연구(CQR; Hill et al., 1997)와 같은 다른 패턴 기반 방법론도 있는데, 여기에는 우리가 여기서 설명한 다양한 접근법의 요소가 있습니다(예: CQR의 경우, 코딩 신뢰도 TA와 구성주의적 GT); 그러나 CQR은 기본 연구 가치의 일관성을 옹호하지 않는다는 점에서 상대적으로 독특합니다. 
    There are other pattern-based methodologies—like consensual qualitative research (CQR; Hill et al., 1997)—that have elements of various different approaches we have described here (e.g. in the case of CQR, coding reliability TA and constructivist GT); CQR is relatively unique however in not advocating for coherence in underlying research values. 



전자 의료 기록(EHR)의 주요 역할은 우선순위에 따른 감별 진단을 포함한 환자의 임상 경과를 명확한 추론 설명과 함께 전달하는 것입니다.1 그러나 EHR의 등장 이후 문서화 품질이 저하되었습니다.2,3,4,5 노트는 임상적 추론(CR)의 효과적인 전달이 부족한 경향이 있으며, 수련의는 감독 교수진의 시간 제약CR 문서에 대한 공유된 멘탈 모델의 부재로 인해2,3,4,5 피드백을 자주 받지 못합니다.6,7,8,9,10 문서화 품질을 평가하기 위한 여러 노트 평가 도구가 존재하지만 평가자 교육과 노트의 수동 평가에 많은 시간이 소요됩니다.4,11,12,13,14,15 
A primary role of the electronic health record (EHR) is to communicate the patient’s clinical course including a prioritized differential diagnosis with clear explanation of reasoning.1 However, since the advent of EHRs, there has been a decline in documentation quality.2,3,4,5 Notes tend to lack effective communication of clinical reasoning (CR), and trainees infrequently receive feedback,2,3,4,5 owing to time constraints of supervising faculty and lack of a shared mental model of CR documentation.6,7,8,9,10 Several note-rating instruments exist to assess documentation quality, but require time-consuming rater training and manual rating of notes.4,11,12,13,14,15

머신러닝(ML)과 자연어 처리(NLP)는 CR 문서 평가를 자동화할 수 있는 잠재력을 제공합니다.16,17,18,19 인공 지능의 한 분야인 ML은 컴퓨터 시스템과 통계 알고리즘을 사용하여 대량의 데이터에서 패턴을 식별하여 자동화된 분류 모델을 생성합니다.20 NLP는 ML과 언어학의 결합으로 텍스트 데이터를 통해 자연어를 연구합니다.21 문서화 개선 및 감별 진단 생성을 위해 ML과 NLP를 사용하는 것이 제안되었지만, 이 영역에서 구현된 보고는 제한적입니다.17,18,19,21,22,23,24,25,26,27,28,29,30,31 
Machine learning (ML) and natural language processing (NLP) offer the potential to automate assessment of CR documentation.16,17,18,19 ML, a domain of artificial intelligence, uses computer systems and statistical algorithms to identify patterns in large amounts of data to create automated classification models.20 NLP is a combination of ML and linguistics for studying natural human language through text data.21 While use of ML and NLP to improve documentation and differential diagnosis generation have been suggested, there are limited reports of implementation in this domain.17,18,19,21,22,23,24,25,26,27,28,29,30,31

미국 의사 면허 시험 2단계 임상 기술 시험에서 메모를 평가하기 위해 의사 위원회가 미리 결정한 메모에서 필수 필수 개념의 존재를 감지하는 NLP 기반 평가가 개발되었습니다.22,23 유사하게, Cianciolo 등은 표준화된 환자 진료에 대한 의대생 메모에 점수를 매기기 위해 NLP 기반 ML 모델을 개발했습니다.31 감별 진단에 대한 피드백을 제공하기 위해 Khumrin 등은 문서화된 임상 관찰을 기반으로 진단 가능성을 예측하는 ML 모델을 개발했습니다.24,25 이 모델은 하나의 주요 관심사(복통)에 초점을 맞추고 5가지 진단 가능성을 예측했습니다. 표준화된 사례 또는 고정된 주요 관심사 집합에서 CR을 평가하기 위해 NLP와 ML을 적용하면, 진단적으로 다양한 임상 환경에서는 적용되지 않는 예상 언어를 미리 지정할 수 있습니다. 
To evaluate notes in the United States Medical Licensing Examination Step 2 Clinical Skills Exam, an NLP–based assessment was developed to detect presence of essential required concepts in notes pre-determined by a committee of physicians.22,23 Similarly, Cianciolo et al. developed an NLP–based ML model to score medical student notes for standardized patient encounters.31 To give feedback on differential diagnosis, Khumrin et al. developed a ML model that predicts the likelihood of a diagnosis on the basis of documented clinical observations.24,25 Their model focused on one chief concern (abdominal pain) and predicted the likelihood of five diagnoses. These applications of NLP and ML to assess CR in standardized cases or a fixed set of chief concerns permit a preset designation of expected language which would not be applicable in the diagnostically varied clinical environment.

우리가 아는 한, 임상 환경에서 CR 문서를 자동으로 분류한 연구는 없습니다. 이 연구에서는 레지던트 입원 기록에 저품질 또는 고품질 CR 문서가 있는지 분류하는 ML 모델을 개발하고 Kane의 타당성 프레임워크를 사용하여 초기 타당성 증거를 수집했습니다.32 
To our knowledge, no studies have described automated classification of CR documentation in the clinical environment. In this study, we developed a ML model that classifies whether a resident admission note has low- or high-quality CR documentation and collected initial validity evidence using Kane’s validity framework.32


설정 및 연구 모집단
Setting and Study Population

뉴욕시 소재 한 학술 의료 센터의 통합 EHR(에픽 시스템즈, 위스콘신주 베로나)에서 두 가지 노트 세트가 검색되었습니다. 

  • (1) 2014년 7월부터 2019년 6월까지 내과(IM) 레지던트 및 하위 전문과 펠로우의 입원 기록으로 구성된 ML 개발 데이터 세트
  • (2) 2019년 7월부터 2020년 3월까지 레지던트 입원 기록으로 구성된 인간 검증 및 후향적 데이터 분석 데이터 세트

이 연구는 뉴욕대학교 그로스만 의과대학 기관윤리심의위원회의 승인을 받았습니다. 
Two distinct note sets were retrieved from an integrated EHR (Epic Systems, Verona, WI) at one academic medical center in New York City:

  • (1) ML development dataset comprised of internal medicine (IM) residents’ and subspecialty fellows’ admission notes from July 2014 to June 2019 and
  • (2) human validation and retrospective data analysis dataset comprised of resident admission notes from July 2019 to March 2020.

The study was approved by the NYU Grossman School of Medicine institutional review board.

인간 평가(개정된 DEA 평가)
Human Rating (Revised-DEA Assessment)

지도 머신러닝 모델을 생성하려면 먼저 신뢰할 수 있는 골드 스탠다드에 따라 데이터에 레이블을 지정해야 합니다(그림 1).33 저희는 CR 문서 품질에 대한 골드 스탠다드로 Revised-IDEA 도구의 DEA 구성 요소(이하 Revised-DEA 도구)를 사용했습니다. Revised-IDEA 도구4개의 영역(해석적 요약, 감별 진단, 추론 설명, 대체 진단 설명)에 걸쳐 검증된 노트 평가 도구로, 총점 범위는 0~10점, Revised-DEA 하위 점수는 0~6점입니다.34 해석적 요약은 CR의 중요한 측면이지만, 고품질 해석적 요약을 만드는 구성 요소가 너무 복잡하여 초기 ML 개발 단계에서 포착하기 어렵기 때문에, 이 단계에서는 이를 통합하지 않았습니다.  
To create a supervised ML model, data must first be labeled by a reliable gold standard (Fig. 1).33 We used the DEA component (the Revised-DEA tool) of the Revised-IDEA tool as our gold standard for CR documentation quality. The Revised-IDEA tool is a validated note-rating instrument across four domains (Interpretive summary, Differential diagnosis, Explanation of reasoning, Alternative diagnoses explained) with a total score range of 0–10 for the Revised-IDEA score and 0–6 for the Revised-DEA subscore.34 While the interpretive summary is an important aspect of CR, we did not incorporate it at this stage as the components that make for a high-quality interpretive summary were too complex to capture for the initial ML development.

CR 전문 지식을 갖춘 4명의 의사(IM 치프 레지던트, 호스피탈리스트 2명, 심장 전문의(IM 레지던트 프로그램의 수석 부프로그램 책임자)가 Revised-DEA 도구를 사용하여 입원 기록을 검토했습니다. 도구의 특정 앵커를 고려할 때 최소한의 교육만 필요했습니다.34 Kane의 타당도 프레임워크는 채점, 일반화, 추정, 함의의 네 가지 영역에서 타당도 논증의 추론을 식별합니다(그림 2).32 평가자 선정 및 교육 과정은 Kane 프레임워크의 점수 추론에 대한 타당성 증거를 제공했습니다. 

Four physicians with CR expertise (an IM chief resident, two hospitalists, and a cardiologist (who was the senior associate program director for the IM residency program)) reviewed admission notes using the Revised-DEA tool. Minimal training was required given the tool’s specific anchors.34 Kane’s validity framework identifies inferences in the validity argument in four domains: scoring, generalization, extrapolation, and implications (Fig. 2).32 The process of rater selection and training provided validity evidence for the scoring inference of Kane’s framework.

ML 개발 데이터세트 노트는 비식별화되었고, 의사 패널이 평가 및 계획 섹션을 평가했습니다. 처음에는 무작위로 노트를 선택했지만, Revised-DEA 도구에서 평가한 고품질 노트의 수가 적었습니다. 따라서 의도적인 샘플링이 필요했습니다. 1차 평가에서 높은 점수를 받은 펠로우의 노트와 레지던트의 추가 노트를 평가하여 최종 ML 개발 데이터세트에 충분한 수의 고품질 노트를 확보했습니다(최종 데이터세트에서 n = 414개 노트). 평가자 간 신뢰도는 먼저 3명의 평가자가 414개의 노트 중 10%를 평가하고, 나머지는 한 명의 평가자가 평가함으로써 확립되었습니다. 의도적인 샘플링 과정과 평가자 간 신뢰도는 케인 프레임워크의 일반화 추론에 대한 타당성 증거를 제공했습니다(그림 2).

The ML development dataset notes were deidentified, and the assessment and plan sections rated by the panel of physicians. At first, notes were randomly selected; however, the number of high-quality notes as rated by the Revised-DEA tool was low. Therefore, purposive sampling was required: notes from fellows and additional notes from residents, with high-quality notes in the first round of rating, were rated to ensure a sufficient number of high-quality notes in the final ML development dataset (n = 414 notes in the final dataset). Interrater reliability was established by first rating 10% of the 414 notes by three raters; the remainder was rated by a single rater. The process of purposive sampling and the interrater reliability provided validity evidence for the generalization inference of Kane’s framework (Fig. 2).

고품질 CR에 대한 수정-DEA 커트라인은 심사위원이 최소 및 최대 실패율과 허용 가능한 합격 점수를 결정하여 최종 합격 커트라인 점수를 결정하는 규범 참조 기준과 기준 참조 기준을 조합하여 사용하는 Hofstee 기준 설정에 의해 결정되었습니다.35 패널의 각 의사는 최소 허용 가능 및 최대 허용 가능한 수정-DEA 커트라인 점수 및 실패율을 결정했습니다. Revised-DEA 점수가 3점 이상(6점 만점)이면 높은 품질로 간주되었습니다(그림 3). 이 표준 설정 프로세스는 케인 프레임워크의 함의 추론에 대한 타당성 증거를 제공했습니다(그림 2). 

Revised-DEA cutoff for high-quality CR was determined by Hofstee standard setting which utilizes a combination of norm-referenced and criterion-referenced standards where judges decide on the minimum and maximum failure rates and acceptable pass mark to determine the final passing cutoff score.35 Each of the physicians on the panel determined the minimally acceptable and maximally acceptable Revised-DEA cutoff score and failure rate. A Revised-DEA score of ≥ 3 (out of 6) was deemed high quality (Fig. 3). This standard setting process provided validity evidence for the implication inference of Kane’s framework (Fig. 2).

노트 전처리
Note Preprocessing

ML 개발 데이터 세트의 문서 패턴을 검토한 결과, 노트 작성 구조와 길이가 다양하다는 사실을 발견했습니다. 우리는 [주요 문제에 대한 감별진단을 반영하는 평가 및 계획의 부분]을 [리드 및 대체 진단에 대한 설명]과 분리하려고 노력했습니다. 이러한 섹션은 일반적으로 시작 키워드(예: '~을 보였다', '입원하였다')로 시작하고 구분 기호(예: 두 번째 '#'[해시 기호]) 또는 끝 키워드(예: 'ppx', '코드 상태')로 끝맺습니다. 시작 및 종료 키워드의 전체 목록은 두 명의 검토자가 결정했습니다(부록 1). 평가에서 원하는 부분으로 메모를 잘라내기 위해 총 5가지 방법이 개발되었습니다(부록 2).
Review of documentation patterns in the ML development dataset revealed variability in note writing structure and length. We sought to isolate the portion of the assessment and plan reflecting the differential for the main problem with the explanation of the lead and alternative diagnoses. Such sections typically began with a start keyword (e.g., “presents with,” “admitted”) and terminated with either a delimiter (e.g., second “#” [hash sign]) or an end keyword (e.g., “ppx,” “code status”). A complete list of start and end keywords was determined by two human reviewers (Appendix 1). A total of five methods were developed to truncate the notes to the desired portion of the assessment (Appendix 2).

피쳐 엔지니어링
Feature Engineering

[잘린 임상 노트]는 (규칙 기반 및 ML 기술을 사용하여 구조화되지 않은 임상 텍스트에서 정보를 추출하는 오픈 소스 NLP 시스템인) cTAKES 4.0.0에서 처리되었습니다.36 cTAKES는 해부학적 부위, 약물, 질병/장애, 징후/증상, 영상 검사 등의 [명명된 개체]를 동일한 의미를 가진 개념에 대한 개념 고유 식별자(CUI)를 사용하여 식별합니다. 또한 두 명의 의사가 [ML 개발 데이터세트]를 검토하여 CR을 나타내는 단어와 구문(즉, 우선순위가 지정된 감별 진단을 전달할 때 일반적으로 결합어로 사용되는 단어와 구문) 목록을 선별했습니다. 이 검토를 통해 '가장 가능성이 높은', '일치하는', '높은 의심' 등의 총 91개의 단어나 문구가 도출되었습니다(부록 3).
Truncated clinical notes were processed in cTAKES 4.0.0, an open-source NLP system that uses rule-based and ML techniques to extract information from unstructured clinical text.36 cTAKES identifies named entities such as anatomical sites, drugs, diseases/disorders, signs/symptoms, and imaging tests—each with a concept unique identifier (CUI) for concepts with the same meaning. Additionally, two physicians reviewed the ML development dataset and curated a list of words and phrases that conveyed CR (i.e., those typically used as a conjunction in communicating prioritized differential diagnoses). This review yielded 91 words or phrases in total, such as “most likely,” “consistent with,” and “high suspicion” (Appendix 3).

용어 빈도 역 문서 빈도(분석 대상 텍스트에서 특정 단어나 구가 얼마나 중요한지를 나타내는 데 사용되는 NLP 기법)를 통해 ML 모델에 대한 입력 변수(주요 관심사, 잘린 텍스트 길이, 해부학적 부위 언급, 약물 언급, 시술 언급, 원시 텍스트의 숫자 표현 등이)를 여러 번 반복하여 테스트했습니다. 그러나 이러한 입력 변수를 사용하면 다음을 최종적으로 선택한 3가지 변수를 사용한 모델보다 성능이 더 떨어졌습니다.

  • (1) 고유한 CUI를 가진 질병/장애 명명 개체의 수,
  • (2) CR을 전달한 단어나 구의 수,
  • (3) 질병/장애로 명명된 개체에서 5단어 범위 내에서 CR을 전달한 단어나 구의 개수로, 이러한 단어나 구가 CR을 전달하기 위해 사용되었을 가능성이 높은 시기를 구분하기 위한 것입니다.

종속 변수는 CR 노트 품질로, 사람의 평가에 따라 낮은 품질(Revised-DEA 점수 0~2점) 또는 높은 품질(Revised-DEA 점수 3~6점)로 이분화했습니다.
There were multiple iterations of input variables tested for the ML models including chief concern, truncated text length, anatomical site mention, medication mention, procedure mention, and numerical representations of the raw text via term frequency inverse document frequency (an NLP technique used to represent how important a specific word or phrase is in the text being analyzed). However, utilizing these input variables yielded worse performance than the models with the 3 finally selected variables:

  • (1) counts of disease/disorder named entities with unique CUIs;
  • (2) counts of words or phrases that conveyed CR; and
  • (3) counts of words or phrases that conveyed CR within a 5-word window frame from a disease/disorder named entity, to differentiate when these words or phrases were likely used to convey CR.

The dependent variable was CR note quality, binarized as low quality (Revised-DEA score 0–2) or high quality (Revised-DEA score 3–6) as determined by the human rating.

모델 선택 및 평가
Model Selection and Evaluation

ML 개발 데이터 세트는 ML 모델 개발의 표준 절차에 따라 훈련 데이터 세트(71%, 294개 노트)와 검증 데이터 세트(29%, 120개 노트)로 구분되었습니다. 모델 훈련은 훈련 데이터세트에서 반복적으로 수행된 다음, 과적합을 방지하고 일반화 가능성을 높이기 위해 이전에 본 적이 없는 검증 데이터세트에서 모델 성능을 테스트합니다.37 노트 품질을 분류하기 위해 세 가지 종류의 모델을 테스트했습니다:

  • (1) 로지스틱 회귀(해석 가능성, 즉 분류 결정을 이해하기 쉽도록),
  • (2) 단순 신경망(보다 복잡한 비선형 패턴을 학습하기 위한 다층 퍼셉트론),
  • (3) 앙상블 모델(예측 정확도는 높지만 해석 가능성이 떨어지는 랜덤 포레스트 및 극한 그라데이션 부스팅).

The ML development dataset was divided into a training dataset (71%, 294 notes) and validation dataset (29%, 120 notes)—standard procedure for ML model development. Model training occurs iteratively on the training dataset, then model performance is tested on the never-before-seen validation dataset, to counter overfitting and promote generalizability.37 Three classes of models were tested to classify note quality:

  • (1) logistic regression (for interpretability, i.e., ease of comprehending classification decisions);
  • (2) simple neural network (multilayer perceptron to learn more complex nonlinear patterns); and
  • (3) ensemble models (random forest and extreme gradient boosting for high predictive accuracy but reduced interpretability).

모델 출력은 0과 1 사이의 확률로 제공되었으며, 0.50을 기본 컷오프 값으로 설정했습니다(0.50 이상 고품질, 0.50 미만 저품질). 모델 성능은 이진 분류 작업에 대한 표준 지표인 수신기 작동 특성 곡선 아래 면적(AUROC)(컷오프 값에 관계없이 모델이 클래스를 얼마나 잘 구분하는지), 평균 정밀도(또는 양성 예측값, PPV) 및 정확도(둘 다 컷오프 값에 따라 달라짐)를 사용하여 평가되었습니다.38
Model outputs were provided as probabilities (ranging between 0 and 1), with 0.50 as the default cutoff value (> 0.50 high quality and < 0.50 low quality). Model performance was evaluated using standard metrics for binary classification tasks: area under the receiver operating characteristic curve (AUROC) (how good a model distinguishes between classes regardless of cutoff value), and average precision (or positive predictive value, PPV) and accuracy (both dependent on the cutoff value).38

인간 검증 및 후향적 데이터 세트
Human Validation and Retrospective Dataset

이 모델은 새로운 개별 입원 기록 세트(인간 검증 및 후향적 데이터 세트)에 대해 실행되었습니다(n = 9591). 인적 검증의 경우, 의사 검토자 중 한 명이 ML 결과를 보지 못한 채 Revised-DEA 도구를 사용하여 무작위로 선정된 205개의 메모를 평가했습니다. 초기 인간 평가 단계에서 이미 평가자 간 신뢰성이 확립되었기 때문에 이 단계는 한 명의 평가자만 수행했습니다. Revised-DEA 점수와 ML 모델 결과는 Cohen의 카파를 사용하여 비교했습니다. 이 후향적 데이터 세트를 사용하여 ML 모델의 기본 확률 컷오프인 0.5를 새로운 임계값으로 수정하여 민감도를 낮추면서 모델의 특이도를 최대화했습니다. 본적 없는 새로운 데이터에 대해 0.55의 확률 컷오프가 선택되어 70%의 민감도와 80%의 PPV를 목표로 삼았습니다.
The model was run on a new set of distinct admission notes (the human validation and retrospective dataset) (n = 9591). For human validation, one of the physician reviewers, blinded to ML output, rated a random selection of 205 of these notes using the Revised-DEA tool. Only one reviewer performed this round as interrater reliability had already been established in the initial human rating phase. The Revised-DEA score and the ML model output were compared using Cohen’s kappa. Using this retrospective dataset, the default probability cutoff of 0.5 for the ML model was modified to a new threshold to maximize the model’s specificity at a small cost to sensitivity. A probability cutoff of 0.55 was selected for new, unseen data to target a sensitivity of 70% and a PPV of 80%.

데이터 분석
Data Analysis

모든 데이터 전처리, 모델링 및 시각화는 Python(버전 3.6.6, Python Software Foundation)의 Anaconda(버전 5.3.0, Anaconda Inc., 텍사스주 오스틴) 배포판을 사용하여 수행되었습니다. 이 연구에 사용된 라이브러리에는 판다(pandas), 넘피(numpy), 사이킷-런(scikit-learn), 매트플롯리브(matplotlib), xgboost 및 해당 라이브러리 종속성이 포함되었습니다. 
All data preprocessing, modeling, and visualization were performed using the Anaconda (version 5.3.0; Anaconda Inc., Austin, TX) distribution of Python (version 3.6.6; Python Software Foundation, Libraries utilized in this study included pandas, numpy, scikit-learn, matplotlib, xgboost, and their respective library dependencies.

설명적 통계, 클래스 내 상관관계, 코헨의 카파를 포함한 비식별화된 데이터의 분석은 SPSS v25(미국 일리노이주 시카고)를 사용하여 완료되었습니다. 선형 추세에 대한 맨텔-헨젤 카이제곱 검정을 사용해 졸업 연도(PGY)와 노트 품질 간의 관계를 조사했습니다.
Analysis of deidentified data including descriptive statistics, intraclass correlation, and Cohen’s kappa was completed with SPSS v25 (Chicago, IL, USA). The Mantel-Haenszel chi-square test for linear trend was used to examine the relationship between post-graduate year (PGY) and note quality.


인적 평가
Human Rating

세 명의 평가자가 채점한 노트 간의 클래스 내 상관관계는 0.84(95% CI 0.74-0.90)였습니다. ML 개발 데이터세트에서 Revised-DEA 등급을 기준으로 195개(47%)의 노트가 높은 품질, 219개(53%)의 노트가 낮은 품질로 분류되었습니다.
Intraclass correlation was 0.84 (95% CI 0.74–0.90) among notes scored by three raters. In the ML development dataset, 195 notes (47%) were high quality and 219 notes (53%) were low quality by Revised-DEA rating.

모델 성능
Model Performance

테스트한 모델 중 로지스틱 회귀 모델과 랜덤 포레스트 모델의 성능 측정값이 가장 높았습니다(표 1). 로지스틱 회귀 모델은 AUROC가 0.88, PPV가 0.68, 평균 정확도가 0.79로 우수한 해석 가능성을 고려하여 선택되었습니다.39
Among the models tested, logistic regression and random forest models had the highest performance measures (Table 1). The logistic regression model with an AUROC of 0.88, a PPV of 0.68, and an average accuracy of 0.79 was selected given its superior interpretability.39

인간 검증
Human Validation

205개의 보이지 않는 검증 세트에서 인간과 ML 평가 간의 평가자 간 신뢰도에 대한 코헨의 카파는 0.67로, 케인의 프레임워크에서 외삽 타당성 증거를 제공했습니다(그림 2).
Cohen’s kappa was 0.67 for interrater reliability between human and ML ratings in the unseen validation set of 205 notes, thus providing extrapolation validity evidence in Kane’s framework (Fig. 2).

후향적 데이터 세트
Retrospective Dataset

후향적 데이터세트에는 295명의 레지던트가 작성한 9591개의 입원 노트(레지던트당 평균 32.5개, 범위는 1-245개)가 있었으며, 이 중 31.1%의 노트가 ML 모델에 의해 높은 품질로 분류되었습니다. 노트 품질은 PGY별로 27.0%(PGY1)에서 31.0%(PGY2)로, 39.0%(PGY3)로 증가했습니다(맨텔-헨젤 테스트 추세 p < .001). 후향적 데이터 세트에는 50가지가 넘는 주요 우려 사항이 있었습니다. 가장 흔한 것은 호흡곤란(11.0%), 기타(7.5%), 상세불명(6.0%), 흉통(6.0%), 복통(4.0%), 낙상(3.0%), 정신 상태 변화(2.0%), 발열(2.0%), 쇠약(2.0%)이었으며 나머지 주요 우려 사항은 각각 2% 미만으로 나타났습니다. 이 대규모 후향적 데이터 세트에 포함된 광범위한 주요 우려 사항과 눈에 띄는 전공의들은 케인 프레임워크의 일반화 추론에 대한 추가적인 타당성 증거를 제공했습니다(그림 2).
In the retrospective dataset, there were 9591 admission notes written by 295 distinct residents (mean 32.5 notes per resident, range 1–245); 31.1% of the notes were classified as high quality by the ML model. Note quality increased by PGY from 27.0% (PGY1) to 31.0% (PGY2) to 39.0% (PGY3) (Mantel-Haenszel test of trend p < .001). There were over 50 chief concerns in the retrospective dataset. The most common were shortness of breath (11.0%), other (7.5%), unspecified (6.0%), chest pain (6.0%), abdominal pain (4.0%), fall (3.0%), altered mental status (2.0%), fever (2.0%), and weakness (2.0%); the remainder of chief concerns occurred < 2% each. The breadth of chief concerns and distinct residents included in this large retrospective dataset provided further validity evidence for the generalization inference of Kane’s framework (Fig. 2).


우리는 레지던트 입원 기록에서 CR 문서 품질을 자동으로 분류하기 위해 Kane의 프레임워크를 사용하여 NLP 기반 ML 모델에 대한 타당성 증거를 개발하고 수집했습니다. 이 연구는 ML과 NLP를 사용하여 표준화된 사례에서 CR 문서를 평가하는 이전 연구를 뛰어넘는 것으로, 우리의 모델이 광범위한 주요 관심사가 있는 임상 환경에 적용되고 사전 설정된 임상 정보 목록에 의존하지 않기 때문입니다22,23,24,25,31 우리가 아는 한 이러한 연구는 처음입니다. 저희 기관의 CR 문서화 품질은 전반적으로 낮은 수준이었으며, 이는 널리 보고된 것과 유사했습니다.2,3,4,5 295명의 레지던트가 작성한 후향적 데이터 세트의 9591개 메모 중 31.1%만이 고품질의 CR 문서화를 보여주었습니다. 수련이 더 진행된 레지던트일수록 더 높은 품질의 CR 문서를 보유하고 있었습니다. ML 개발 데이터세트에는 의도적인 샘플링이 사용되었기 때문에 고품질 노트의 비율이 더 높았습니다. 
We developed and collected validity evidence with Kane’s framework for an NLP–based ML model to automatically classify CR documentation quality in resident admission notes. This study goes beyond prior work using ML and NLP to assess CR documentation in standardized cases as our model is applied in the clinical environment with a wide range of chief concerns and is not dependent on a preset list of clinical information22,23,24,25,31—the first study to our knowledge to do so. We found at our institution low overall levels of CR documentation quality, similar to what has been widely reported.2,3,4,5 Only 31.1% of the 9591 notes in the retrospective dataset from 295 residents demonstrated high-quality CR documentation. Residents further along in training did have higher-quality CR documentation. The ML development dataset had a higher proportion of high-quality notes owing to the purposive sampling used.

우리는 케인 프레임워크의 네 가지 영역 모두에서 이 새로운 평가 도구에 대한 타당성 증거를 수집했습니다.

  • 채점(평가자가 어떻게 점수를 부여하는가)에 대한 증거
    • 평가자 선정 및 교육에 대한 설명
  • 일반화(평가가 이론적 테스트 세계에서 가능한 모든 항목의 성과를 대표한다는 것을 입증)에 대한 증거
    • 의도적 샘플링 과정,
    • 인간 평가자 간 신뢰도,
    • 광범위한 주요 관심사와 레지던트를 대표하는 후향적 데이터 세트의 대규모 표본 규모
  • 외삽(이론적 테스트 세계에서의 성과는 관련 구성에 대한 실제 세계의 성과를 반영)에 대한 증거는
    • ML 모델 결과물이 동일한 현상에 대한 인간 평가 참조 표준 측정치(Revised-DEA 점수)와 얼마나 잘 상관관계가 있는지, 그리고
    • 전문가와 초보자를 비교한 결과, 교육이 많이 진행된 레지던트가 더 높은 품질의 CR 문서를 작성했다는 사실에서 알 수 있듯이, 마지막으로 전문가와 초보자를 비교한 결과입니다
  • 함의(평가 데이터가 사용되는 방법)에 대한 증거는
    • 고품질 CR 문서의 컷오프 점수를 결정하는 Hofstee 표준 설정에 대한 

We collected validity evidence for this novel assessment tool in all four domains of Kane’s framework. We provided

  • evidence on scoring (how an assessor gives a single score) with
    • the description of rater selection and training;
  • evidence on generalization (demonstrating the assessment is representative of performance on all possible items in a theoretical test universe) with
    • the process of purposive sampling,
    • interrater reliability among human raters, and
    • the large sample size of the retrospective dataset with a wide breadth of chief concerns and residents represented;
  • evidence on extrapolation (performance in the theoretical test universe reflects performance in the real world on related constructs) 
    • with how well the ML model output correlated with a human rating reference-standard measure of the same phenomenon (the Revised-DEA score) and
    • with expert-novice comparison as evidenced by the fact that residents further along in training had higher-quality CR documentation; and lastly,
  • evidence on implications (how the assessment data will be used) with
    • Hofstee standard setting to determine cutoff scores for high-quality CR documentation.32

우리는 ACGME 하위 역량 대인관계 및 의사소통 기술 3(건강 기록의 적절한 활용 및 작성40)과 같은 다른 관련 구성 요소와의 관계를 포함하여 타당성 증거를 계속 수집하고 시행의 영향을 연구할 것입니다. 그러나 평가의 의도가 형성적 피드백이라는 점을 고려할 때, 시범 시행을 보증하기에 충분한 타당성 증거가 수집되었다고 판단하여32 대화형 대시보드에 표시되는 ML 모델 출력을 사용하여 우리 기관의 IM 레지던트에게 피드백을 제공하기 시작했습니다(그림 4). EHR에서 입원 기록을 매일 추출하여 ML 모델로 분석하고 대시보드에 시각화하여 출력합니다. 2개월 동안 2주 야간 로테이션(입원 기록의 대부분이 작성되는 시기)의 중간에 이 대시보드를 통해 레지던트에게 중간 피드백을 제공하는 시범 서비스를 실시했습니다. 레지던트들은 고품질 CR 문서의 중요성과 (개정된-IDEA 프레임워크에 대한) 공유된 정신 모델을 개괄적으로 설명하는 간단한 PowerPoint 프레젠테이션과 자신의 데이터를 보는 방법에 대한 지침이 포함된 대시보드 개요가 포함된 소개 이메일을 받았습니다. 이 교육이 시행되기 전에는 레지던트들에게 개정-IDEA 프레임워크나 CR 문서화에 대한 기타 명시적인 커리큘럼을 교육하지 않았습니다. 레지던트들은 Revised-IDEA 프레임워크를 배우고 노트에 대한 피드백을 받는 것이 도움이 되었다고 보고했습니다. 그러나 이 대시보드를 교수진과 함께 사용하고 더 구체적인 피드백을 ML 모델에 통합하는 것이 향후 반복 작업의 목표라는 일관된 개선 주제가 있었습니다. 

We will continue to collect validity evidence including relation to other related constructs such as ACGME sub-competency interpersonal and communication skills 3 (Appropriate utilization and completion of health records40) and studying the impact of implementation. However, given the intent of the assessment is for formative feedback, we believe sufficient validity evidence has been gathered to warrant pilot implementation32 and have begun providing feedback to IM residents at our institution using ML model output displayed on an interactive dashboard (Fig. 4). Admission notes from the EHR are extracted daily, analyzed by the ML model, and output visualized on the dashboard. For a 2-month period, we piloted providing residents mid-block feedback with this dashboard halfway through their 2-week night rotation (when the majority of admission notes are written). Residents received an introductory email including a brief PowerPoint presentation overviewing the importance of and a shared mental model for (the Revised-IDEA framework) high-quality CR documentation and an overview of the dashboard with instructions of how to view their own data. Prior to this implementation, residents were not taught the Revised-IDEA framework or other explicit curriculum on CR documentation. The residents reported learning the Revised-IDEA framework and receiving feedback on their notes were helpful. However, a consistent theme for improvement was to use this dashboard with faculty and to incorporate more specific feedback into the ML model—both goals for future iterations.

다음 단계는 이 대시보드를 사용하여 CR 문서에 대한 피드백을 제공하도록 교수진을 교육하는 것입니다. 우리는 피드백 세션을 용이하게 하기 위해 개별 및 전체 레지던트 보기가 포함된 대시보드의 교수용 보기화면를 개발했습니다(그림 5). 또한 이 대시보드는 프로그램 리더십이 이 데이터에 액세스할 수 있도록 하여 평가 프로그램에 통합할 수 있습니다. 밀러 피라미드의 '수행' 수준에서 CR에 대한 작업장 기반 평가는 역량 개발에 필수적입니다.41 CR 평가의 과제 중 하나는 상황 특이성(상황의 영향이 CR 프로세스에 미치는 영향) 문제를 고려할 때, 광범위한 사례 샘플링이 필요하다는 것입니다.42 ML 모델을 사용하여 평가에 자동화된 프로세스를 사용하면 다양한 사례에 걸쳐 많은 수의 평가를 신속하게 제공할 수 있으므로 이러한 문제를 극복하는 혁신적인 솔루션이 될 수 있습니다. 마지막으로, 이 ML 모델은 레지던트 개인에게 의미 있는 데이터를 제공하는 것 외에도 커리큘럼 또는 시스템 변경에 대한 정보를 제공하는 데 사용될 수 있습니다. ML 모델은 수동 차트 검토나 기타 평가자 기반 평가(예: 마일스톤)로는 달성할 수 없는 레지던트의 CR 문서화 관행에 대한 대규모 데이터 세트를 즉각적으로 생성할 수 있습니다. 이러한 데이터 세트에서 패턴을 검토하여 부족한 부분을 파악하여 커리큘럼 또는 시스템 변경(예: CR 문서화 커리큘럼 또는 EHR 템플릿 변경)을 알리는 데 도움을 줄 계획이며, 이는 의학교육에서 ML을 혁신적으로 사용하는 것입니다.16 

Next steps are to train faculty to use this dashboard to provide feedback on CR documentation. We have developed a faculty-facing view of the dashboard with individual and aggregate resident views to facilitate feedback sessions (Fig. 5). This dashboard also provides program leadership access to this data which can be integrated into our assessment program. Workplace-based assessment of CR at the “Does” level of Miller’s pyramid is essential to developing competence.41 One of the challenges of CR assessment is it requires a broad sampling of cases given the issue of context specificity (the impact of context on the CR process).42 Using automated processes for assessment with a ML model is an innovative solution to overcome these challenges as it can rapidly provide a large number of assessments across a range of cases. Lastly, in addition to providing meaningful data to the individual resident, this ML model could also be used to inform curricular or systems change. The ML model can instantaneously create large datasets on residents’ CR documentation practices that cannot be achieved with manual chart review or other human-rater-based assessments (e.g., milestones). We plan to review these datasets for patterns to help identify areas of deficiency to inform curricular or systems changes (such as CR documentation curriculum or EHR template changes), which would be an innovative use of ML in medical education.16


ML 모델은 민감도 70%, PPV 80%, 코헨의 카파 0.67로 성능이 뛰어나지만 불완전합니다. 또한, 현재 ML 모델은 노트를 이진 방식으로 분류하지만, 가장 효과적인 피드백은 구체적이고 실행 가능한 피드백입니다.43 또한, ML 모델은 Revised-IDEA 도구의 초기 검증에 포함되었던 해석적 요약을 제외합니다. 그러나 검증 연구에서 D, E, A 항목 간의 일치도는 0.69, I, D, E, A 항목 간의 일치도는 0.53으로 더 높은 것으로 나타났습니다.34 이는 DEA 구성요소가 해석적 요약과는 다른 CR 문서의 측면(감별 진단의 우선순위 지정 및 정당화)을 측정하고 있음을 시사하며,44 따라서 ML 모델 개발에서 DEA 구성요소를 사용하는 것을 뒷받침합니다. 모델 성능을 개선하고 해석 요약을 통합하는 모델을 개발하기 위한 작업이 진행 중입니다. 
The ML model was high performing but imperfect, with a sensitivity of 70%, PPV of 80%, and Cohen’s kappa of 0.67. Furthermore, the current ML model classifies notes in a binary fashion; however, the most effective feedback is specific and actionable.43 Additionally, the ML model excludes the interpretive summary which was included in the initial validation of the Revised-IDEA tool. However, we did find in the validation study higher agreement between the D, E, and A items with a Cronbach alpha of 0.69 vs Cronbach alpha of 0.53 between the I, D, E, and A items.34 This suggests that the DEA component is measuring an aspect of CR documentation (prioritizing and justifying a differential diagnosis) distinct from the interpretive summary,44 thus supporting use of the DEA component in the ML model development. Work is ongoing to improve upon the model performance and develop a model incorporating the interpretive summary.

ML 모델은 CR이 수행되었는지 또는 정확한지 여부는 평가하지 않으며 문서화되었는지 여부만 평가합니다. 레지던트는 문서화하지 못한 고품질 CR을 보유하거나 반대로 임상적으로 부정확한 고품질 CR을 문서화할 수 있습니다. 그러나 CR 문서화는 필수적인 기술이며, 레지던트는 졸업 시 "문서에서 CR을 효과적으로 전달할 수 있는 역량"을 갖추도록 기대됩니다.40 
The ML model does not assess whether CR was performed or was accurate, only if it was documented. Residents may possess high-quality CR that they failed to document or conversely documented high-quality CR that was clinically inaccurate. However, CR documentation is an essential skill and residents are expected to achieve the competency “to demonstrate effective communication of CR in their documentation” upon graduation.40

마지막으로, EHR의 복잡하고 다양한 특성과 이 기술을 구현하는 데 필요한 리소스를 고려할 때 일반화 가능성에 대한 몇 가지 우려가 있습니다. 400개 이상의 라벨이 지정된 데이터 세트로 모델을 학습시키고 다양한 주요 관심사가 포함된 205개의 다른 데이터로 검증했지만, 임상 환경에는 수많은 주요 관심사가 있을 수 있습니다. 예상되는 실제 성능을 확인하기 위해 지속적인 전향적 검증을 수행할 계획입니다.45 또한 다른 레지던트 프로그램에서 이 기술을 구현할 수 있도록 ML 모델 아키텍처를 공개 도메인에서 사용할 수 있도록 하는 프로세스를 진행 중이며 구현을 지원하기 위한 협업에 열려 있습니다. 
Lastly, there are some concerns about generalizability given the complex and varied nature of the EHR and the resources required to implement this technology. While we trained the model with a labeled dataset of over 400 notes and validated with another 205 notes with a wide range of chief concerns, there are numerous possible chief concerns in the clinical environment. To ascertain expected real-world performance, we will plan to perform ongoing prospective validation.45 We are also working on a process to make the ML model architecture available in the public domain so other residency programs could implement this technology and are open to collaborations to assist with implementation.


이 검증 연구는 다양한 주요 관심사에 걸쳐 임상 환경에서 레지던트 CR 문서 품질을 평가하는 데 ML과 NLP를 사용할 수 있는 가능성을 보여줍니다. 이 기술의 잠재적 사용 사례는 CR 교육 및 평가에 혁신적일 수 있습니다. 향후 방향에는 모델을 계속 반복하고, 더 많은 타당성 증거를 수집하고, 다른 프로그램에서 구현하기 위한 프로세스를 생성하는 것이 포함됩니다.
This validation study demonstrates the feasibility of using ML and NLP to assess resident CR documentation quality in the clinical environment across a wide array of chief concerns. There are many potential use cases for this technology which could be transformative for teaching and assessment of CR. Future directions will include continuing to iterate on the model, gathering further validity evidence, and generating a process for implementation at other programs.

Development and Validation of a Machine Learning Model for Automated Assessment of Resident Clinical Reasoning Documentation

Background: Residents receive infrequent feedback on their clinical reasoning (CR) documentation. While machine learning (ML) and natural language processing (NLP) have been used to assess CR documentation in standardized cases, no studies have described similar use in the clinical environment.

Objective: The authors developed and validated using Kane's framework a ML model for automated assessment of CR documentation quality in residents' admission notes.

Design, participants, main measures: Internal medicine residents' and subspecialty fellows' admission notes at one medical center from July 2014 to March 2020 were extracted from the electronic health record. Using a validated CR documentation rubric, the authors rated 414 notes for the ML development dataset. Notes were truncated to isolate the relevant portion; an NLP software (cTAKES) extracted disease/disorder named entities and human review generated CR terms. The final model had three input variables and classified notes as demonstrating low- or high-quality CR documentation. The ML model was applied to a retrospective dataset (9591 notes) for human validation and data analysis. Reliability between human and ML ratings was assessed on 205 of these notes with Cohen's kappa. CR documentation quality by post-graduate year (PGY) was evaluated by the Mantel-Haenszel test of trend.

Key results: The top-performing logistic regression model had an area under the receiver operating characteristic curve of 0.88, a positive predictive value of 0.68, and an accuracy of 0.79. Cohen's kappa was 0.67. Of the 9591 notes, 31.1% demonstrated high-quality CR documentation; quality increased from 27.0% (PGY1) to 31.0% (PGY2) to 39.0% (PGY3) (p < .001 for trend). Validity evidence was collected in each domain of Kane's framework (scoring, generalization, extrapolation, and implications).

Conclusions: The authors developed and validated a high-performing ML model that classifies CR documentation quality in resident admission notes in the clinical environment-a novel application of ML and NLP with many potential use cases.

Keywords: assessment; clinical reasoning; documentation; machine learning; natural language processing.

임상진료상황에서 능숙한 의사소통가의 특징 식별하기(Med Educ, 2022)
Identifying characteristics of a skilled communicator in the clinical encounter
Michelle Verheijden1,2 | Esther Giroldi1,2 | Valerie van den Eertwegh3 | Marscha Luijkx4 | Trudy van der Weijden1 | Anique de Bruin2 | Angelique Timmerman1


1 서론

의사-환자 커뮤니케이션은 의료 서비스 제공에 중요한 역할을 하며 핵심 의료 역량으로 인식되고 있습니다.1-3 이러한 인식은 현재의 의료 교육 관행과 의료 서비스에서 변화하는 커뮤니케이션 요구 사이의 불일치를 해결해야 함을 의미합니다.1, 4-10 
Doctor-patient communication plays an important role in the delivery of health care and has been recognised as a core medical competency.1-3 This recognition implies addressing a signalled misalignment between current medical training practices and changing communication needs in health care.1, 4-10

따라서 의료 교육 프로그램에서는 여러 가지 일반적인 의사소통 지침을 도입하여 이러한 불일치를 해결하려고 시도해 왔습니다.8 예를 들어, '환자의 이야기 요약하기' 또는 '적극적인 경청'과 같이 임상에서 필요한 의사소통 기술을 정의하기 위해 개발된 SEGUE 프레임워크11 및 캘거리-캠브리지 모델12, 13이 있습니다.4-7, 14, 15 스킬 기반 접근법은 학습자에게 유용한 상담 구조와 스킬 도구 상자를 제공하므로 높은 평가를 받고 있지만, 실제 풍부한 진료 환경에서 효과적으로 의사소통하는 것은 충분하게 지원하지 못합니다.2, 4-7, 9, 16 학습자는 직면하는 임상 문제에 의해 도전을 받고 환자의 요구를 고려하여 의사소통을 조정합니다.1, 5-7, 17 이는 Veldhuijzen 등과 Essers 등이 의사소통은 일차적으로 목표 중심적이며, 상담의 여러 맥락적 요인(예: 의료, 환자 또는 의사 관련)에 의해 영향을 받는다고 말한 것처럼 각 임상 상황에서 의사소통을 맞춤화할 필요가 있음을 시사합니다.10, 13, 18 
Consequently, medical training programmes have attempted to address this misalignment by introducing multiple generic communication guidelines.8 For instance, the SEGUE framework11 and Calgary–Cambridge model12, 13 were developed to define communications skills needed in the clinical encounter like ‘summarising the patient's story’ or ‘active listening’.4-7, 14, 15 Although a skills-based approach is highly valued as it provides learners a helpful consultation structure and a toolbox of skills, it insufficiently supports them in communicating effectively in the complexity of the authentic rich practice setting.2, 4-7, 9, 16 Learners are challenged by the clinical problems they encounter and adjust communication considering patient needs.1, 5-7, 17 This implies a need to tailor communication in each clinical encounter, as Veldhuijzen et al and Essers et al state that communication is primarily goal driven and influenced by several contextual factors (i.e. medical-, patient- or doctor-related) in the consultation.10, 13, 18

이러한 필요성은 '의사소통 기술'에 초점을 맞추던 것에서 '숙련된 의사소통'으로 전환하는 현재의 담론과 연결됩니다.8, 10 의사-환자 의사소통 학습은 경험적 직장 학습 중 의사소통의 맥락화된 적용을 통해 보다 적절하게 다룰 수 있습니다.7, 9, 10, 16, 17, 19, 20 숙련된 의사소통의 전문성을 얻기 위해서는 성찰과 피드백을 바탕으로, 개인 수행의 [적용, 적응 및 개선 기회]를 제공하는 도전적인 임상 학습 과제에 기반하여 의도적인 연습이 필요합니다.21, 22 
This signalled need connects to the current discourse shifting from focusing on ‘communication skills’ towards ‘skilled communication’.8, 10 Learning doctor–patient communication may be more appropriately addressed by a contextualised application of communication during experiential workplace learning.7, 9, 10, 16, 17, 19, 20 For attaining expertise in skilled communication, deliberate practice is required based on challenging clinical learning tasks that provide opportunities for application, adaptation and refinement of personal performance, based on reflection and feedback.21, 22

그럼에도 불구하고 숙련된 의사소통 접근법이 정확히 무엇이며 숙련된 의사소통자의 특성이 무엇인지에 대한 합의가 부족합니다.1, 7, 9, 15, 23 우리는 숙련된 의사소통의 개념을 설명하기 위한 예비 단계로 의료 의사소통과 관련된 이해관계자들의 관점을 종합하기 위해 명목 그룹 기법(NGT)을 사용했습니다.22 NGT는 의학 교육에 널리 적용되었으며, 구조화된 특성상 모든 이해관계자가 자신의 의견을 표현할 수 있는 동등한 기회를 보장하여 토론을 촉진하고 공유된 합의를 형성합니다.24-26 
Nevertheless, a lack of consensus exists about what a skilled communication approach exactly entails and what characteristics are of a skilled communicator.1, 7, 9, 15, 23 We used the nominal group technique (NGT) to synthesise viewpoints from stakeholders involved in medical communication as a preliminary step to inform describing the concept of skilled communication.22 NGT has been widely applied in medical education, and its structured nature ensures all stakeholders to have equal opportunities to express their views, stimulating discussion and creating a shared consensus.24-26

본 연구는 현재 의료 커뮤니케이션 연구의 이론 구축에 기여하고 숙련된 커뮤니케이션 교육을 위한 학습자 중심 접근법의 개발을 알리고 향후 임상 실무로의 이전을 지원하는 것을 목표로 합니다.9, 10, 15 다음과 같은 연구 질문이 다루어졌습니다: '임상 현장에서 숙련된 커뮤니케이터의 특징은 무엇인가?' 
We aim to contribute to theory building in current health communication research and to inform the development of a learner-centred approach for skilled communication training and support its future transfer to clinical practice.9, 10, 15 The following research question was addressed: ‘What are characteristics of a skilled communicator in the clinical encounter?’

2 방법


이 연구는 네덜란드의 일반 진료(GP) 전문 교육 프로그램의 맥락에서 수행되었으며, 8개의 GP 교육 기관 중 5개 기관에서 참가자를 모집했습니다. 일반의의 임상 업무량은 다양한 의학적 및 심리사회적 불만 사항으로 구성되어 있어 임상적 상황에 맞게 커뮤니케이션을 일관되게 조정해야 하기 때문에 GP 환경을 선택했습니다.14, 17, 23, 24, 27, 28 GP 교육 프로그램은 3년에 걸쳐 4일의 직장 기반 교육과 1일의 공식 교육으로 번갈아 가며 구성됩니다. 
The study was performed in the context of the general practice (GP) specialty training programme in the Netherlands, recruiting participants from five out of eight GP training institutes. The GP setting was chosen because the clinical workload of a GP consists of a variety of medical and psychosocial complaints, which requires a consistent adjustment of communication to the needs of the clinical encounter.14, 17, 23, 24, 27, 28 The GP training programme consists of 3 years, alternating 4 days of workplace-based training with 1 day of formal education.

연구 설계
Study design

숙련된 커뮤니케이터의 특성을 규명하기 위해 2020년 4월부터 10월까지 네덜란드의 GP 교육 프로그램 이해관계자를 대상으로 6번의 NGT 세션이 진행되었습니다. NGT는 특정 주제에 대한 아이디어를 도출하기 위한 합의 그룹 방식으로, 참가자들이 구조화된 상호작용을 통해 생각을 공유하고 토론에 참여하도록 지속적으로 자극함으로써 여러 이해관계자의 관점을 통합하는 데 도움이 됩니다.29, 30 COVID-19 팬데믹으로 인해 모든 NGT 세션은 Zoom 플랫폼을 사용하여 전자 환경에서 진행되었습니다.31, 32
Six NGT sessions were conducted between April and October 2020 among Dutch stakeholders of the GP training programmes to elucidate characteristics of a skilled communicator. The NGT is a consensus group method to generate ideas on a certain topic and facilitates the integration of multiple stakeholders' perspectives by constantly stimulating participants to share their thoughts and engage in the discussion through a structured interaction.29, 30 Due to the COVID-19 pandemic, all NGT sessions took place in an electronic environment using the Zoom platform.31, 32

참가자 Participants

각 NGT 세션의 최적 참가자 수는 5~7명으로, 6개의 세션에 최소 30명이 참여해야 합니다.25, 33 의도적 표본 추출을 사용하여 의사-환자 커뮤니케이션에 대한 경험과 전문성을 바탕으로 잠재적 이해관계자 목록을 구성했습니다.34 이 목록에는 (1) GP, (2) GP 연수생, (3) GP 트레이너, (4) GP 연수 프로그램의 조정자 및 교육과정 개발자, (5) 의료 커뮤니케이션 분야 연구자가 포함되었습니다. 75명의 잠재적 이해관계자에게 이메일을 통해 연구의 목적과 절차, 필요한 시간 투자에 대한 정보를 제공하면서 참여를 요청했습니다. 각 NGT 세션 전에 모든 참가자로부터 서면 동의서를 받았으며, 참가자는 자발적으로 참여했습니다. 또한 참가자들은 인구통계학적 설문지를 작성했습니다. 참가자를 식별할 수 있는 모든 개인 식별 정보는 하나 이상의 인공 식별자(가명)로 대체되었습니다.
The optimal number of participants for each NGT session is five to seven, resulting in a minimum of 30 participants for six sessions.25, 33 By using purposive sampling, a list of potential stakeholders was composed based on their experience and expertise in doctor-patient communication.34 The list included (1) GPs, (2) GP trainees, (3) GP trainers, (4) coordinators and curriculum developers of the GP training programme and (5) researchers in medical communication. We invited 75 potential stakeholders to participate via e-mail, providing information about the purpose and procedure of the study and needed time investment. Written informed consent was obtained from all participants prior to each NGT session, and participation was on a voluntary basis. Moreover, participants completed a demographic questionnaire. All personally identifiable personal information, which could lead to the participants, was replaced by one or more artificial identifiers (pseudonyms).

데이터 수집
Data collection

90분에서 120분까지 진행된 NGT 세션은 오디오 녹음 후 그대로 필사되었습니다. 모든 NGT 세션은 동일한 프로토콜(부록 S1)을 사용했으며, 두 명의 사회자, 한 명의 교육 연구자 겸 심리학자(AT)와 한 명의 박사 과정 학생 겸 GP 수련의(MV)가 진행했습니다.35, 36 추가 연구자 겸 보건 과학자(EG)가 세션에 참석하여 관찰하고 현장 메모를 작성했습니다. 연구팀은 숙련된 의사소통에 대한 현재 과학적 담론에서 아이디어를 수집하기 위해 문헌 연구와 의사소통 전문가와의 세 차례의 반구조화 인터뷰를 수행하여 명목 질문을 구성했습니다.29, 36, 37

  • 세션 절차에 대한 간략한 설명 후 다음과 같은 명목 질문이 제기되었습니다: '숙련된 GP 의사소통자의 특징은 무엇인가요? NGT 세션에서 우리는 특성을 '임상 상황에서 숙련된 의사소통자를 설명하는 전형적이거나 눈에 띄는 특징'으로 소개했습니다.
  • 둘째, 명목상의 질문에 대해 참가자들은 개별적으로 자신의 아이디어를 적었습니다.
  • 셋째, 참가자들은 하나의 아이디어를 '라운드 로빈' 방식으로 그룹에 공유했습니다. 진행자 중 한 명이 모든 아이디어를 워드 문서로 옮겨 모든 참가자가 디지털 화면에서 볼 수 있도록 했습니다.
  • 넷째, 참가자들은 자신의 아이디어를 명확히 밝히고 비슷한 아이디어를 결합할 수 있는 기회를 제공받았습니다.
  • 다섯째, 모든 참가자는 숙련된 커뮤니케이터에게 가장 중요하다고 생각되는 특성을 기술한 7가지 아이디어를 개인적으로 선택하고 1점부터 7점(총 28점)까지 점수를 매겼으며, 7점이 가장 높은 점수를 받았습니다. 웹 기반 플랫폼인 Qualtrics(버전 XM; Qualtrics, 유타주 프로보: 2020)를 사용하여 익명으로 순위를 매기는 과정을 조정하고 보안을 유지했습니다.
  • 마지막으로 참가자들은 총 순위에 대해 토론하여 그룹 합의를 도출했습니다. 진행자는 모든 참가자에게 돌아가면서 토론에 참여하도록 개별적으로 초대하고, 각 토론 라운드에서 참가자들이 아이디어와 의견을 공유할 수 있는 충분한 기회를 제공했으며, 최종 순위가 디지털 화면에 표시될 때 각 참가자에게 명시적인 합의를 요청했습니다. 그룹 합의에 도달하지 못한 경우 한두 차례에 걸쳐 순위를 다시 정하는 과정을 거쳤습니다. 그룹 합의는 그룹에서 생성된 특성의 총 순위에 대해 모든 참가자가 구두로 동의하는 것으로 정의되었습니다. 앞서 언급한 단계에 대한 자세한 개요는 부록 S1에서 확인할 수 있습니다.

The NGT sessions, ranging in time from 90 to 120 min, were audio-recorded and transcribed verbatim. All NGT sessions used the same protocol (Appendix S1) and were facilitated by two moderators, one educational researcher and psychologist (AT) and one PhD student and GP trainee (MV).35, 36 An additional researcher and health scientist (EG) was present during the sessions to observe and make field notes. The research team constructed the nominal question by performing a literature study and three semi-structured interviews with communication experts to assemble ideas from the current scientific discourse on skilled communication.29, 36, 37 

  • After a brief explanation of the sessions procedure, the following nominal question was posed: ‘What are characteristics of a skilled GP communicator?’ During the NGT sessions, we introduced characteristic as ‘a typical or noticeable feature describing a skilled communicator in the clinical encounter’.
  • Second, in response to the nominal question, participants individually wrote down their ideas.
  • Third, participants shared a single idea to the group in a ‘round robin’ fashion. One of the moderators transcribed all ideas in a word document, which was visible for all participants on the digital screen.
  • Fourth, participants clarified their ideas and were provided with the opportunity to combine similar ideas.
  • Fifth, all participants privately selected seven ideas, which described characteristics deemed most important for a skilled communicator and scored them from 1 to 7 (total of 28 points), 7 being the highest rank score. The web-based platform Qualtrics (version XM; Qualtrics, Provo, Utah: 2020) was used to coordinate and secure the anonymous ranking process.
  • In the end, participants discussed the total ranking to reach group consensus. The moderators invited all participants individually to take part in the discussion by giving turns to all participants, providing sufficient opportunities for participants to share ideas and views during each round of discussion and asking explicit consensus from each participant when the final ranking was presented on the digital screen. If no group consensus was reached a re-ranking process occurred in one or two rounds. Group consensus was defined as a voiced agreement of all participants on the total ranking of characteristics generated by the group. A more detailed outline of the aforementioned steps is available (Appendix S1).

데이터 분석
Data analyses

모든 NGT 세션의 결과물은 양적, 질적으로 모두 분석되었습니다. 분석 결과 숙련된 커뮤니케이터의 특성과 임상에서 숙련된 커뮤니케이션 접근법의 개념적 모델을 파악할 수 있었습니다.
The output of all NGT sessions was analysed both quantitatively and qualitatively. The analyses resulted both in the identification of characteristics of a skilled communicator and a conceptual model of a skilled communication approach in the clinical encounter.

2.5.1 분석 접근법
2.5.1 Analysis approach

인구통계학적 변수는 Windows용 SPSS 26.0(IBM Corp. Armonk, NY)의 서술적 통계를 사용하여 분석했습니다. 설명적 통계를 사용하여 NGT 세션의 양적 구성 요소를 분석했습니다. NGT 세션의 내용은 5단계에 걸쳐 수행된 (반복되는) 주제를 식별, 분석 및 보고하는 주제별 내용 분석을 사용하여 분석했으며, 이는 흐름도(그림 1)에 설명되어 있습니다.38, 39
Demographic variables were analysed using descriptive statistics in SPSS 26.0 for Windows (IBM Corp. Armonk, NY). We analysed the quantitative components of the NGT sessions using descriptive statistics. The content of the NGT sessions was analysed using thematic content analysis by identifying, analysing and reporting (recurring) themes performed in five phases and is illustrated in the flow diagram (Figure 1).38, 39

  • 먼저, 연구팀원(MV, AT, EG)은 각 NGT 세션에 대해 개별적으로 조립된 항목에 대한 일반 설명을 독립적으로 작성했습니다(부록 S3 참조).
  • 다음으로, 개별 팀원들이 작성한 일반적 설명을 연구팀이 합의에 도달할 때까지 논의하여 클러스터를 만들었습니다(부록 S4 참조).
  • 셋째, 연구팀은 모든 NGT 세션에서 도출된 클러스터를 반복적으로 비교하여 유사한 내용을 병합하여 주제를 종합했습니다(부록 S5 참조).
  • 넷째, 의사-환자 전문가 패널의 두 연구자(ML, VvdE)가 식별된 주제와 기본 클러스터에 대한 구성원 점검을 수행하여 모든 NGT 세션의 내용이 포함되었는지 평가하여 최종 주제 및 클러스터 목록을 도출했습니다.
  • 마지막으로, 연구팀은 문헌에 대한 내용을 반영하여 테마의 관련성과 내부 일관성을 평가하여 개념을 식별했습니다(사용된 용어의 정의는 부록 S2 참조). 전문 번역가가 최종 주제와 클러스터를 영어로 번역한 후, 영어에 능통한 네덜란드 원어민 연구팀원이 다시 네덜란드어로 번역하여 번역의 정확성을 검증하고 연구팀 전체가 승인했습니다.
  • First, research team members (MV, AT, EG) independently formulated general descriptions for the assembled items for each NGT-session separately (see Appendix S3).
  • Next, these general descriptions by individual team members were discussed by the research team until consensus was reached, resulting in clusters (see Appendix S4).
  • Third, the research team performed an iterative comparison of formulated clusters from all NGT sessions to merge for a similar content, resulting in the synthesis of themes (see Appendix S5).
  • Fourth, two researchers (ML, VvdE) of a doctor–patient expert panel performed a member check of the identified themes and underlying clusters to assess if the content of all NGT sessions was covered, resulting in the final list of themes and clusters.
  • Finally, the research team assessed the relatedness and internal coherence of the themes by reflecting on their content against literature, resulting in the identification of concepts (see Appendix S2 for definition of used terms). A professional translator translated the final themes and clusters into English, and then members of the research team as native Dutch speakers proficient in English translated them back into Dutch to verify the accuracy of the translations, which was approved by the whole research team.


저희는 이 연구의 결과가 연구자와 참여자 간의 상호작용에 의해 공동으로 구성되었음을 인정합니다. 연구팀은 인구통계학적 특징(예: 여성, 백인, 국적)은 비슷했지만 의사-환자 커뮤니케이션 연구 및 교육과 관련된 전문 지식과 관점에는 다양성이 있었습니다. 일반의 수련의 및 박사 과정 학생(MV), 일반의 교육 기관에서 일하는 심리학자(AT), 학부 의료 교육 프로그램에서 일하는 커뮤니케이션 연구자 및 트레이너(EG), 자기조절 학습에 대한 연구 전문성을 갖춘 교육 심리학자(AdB) 등이 참여했습니다. 이러한 다양한 전문적 배경은 팀 토론에 깊이와 풍성함을 더했습니다. 편견을 방지하기 위해 연구팀 내에서 개별 데이터 분석 결과를 논의할 때 비판적인 입장을 견지했으며, 데이터의 의미를 도출하는 과정에서 다른 관점을 모색했습니다.40 
We acknowledge that outcomes in this study are co-constructed by interactions between researchers and participants. While our research team was similar in terms of demographic features (i.e. female, white and nationality), there was diversity in expertise and perspectives related to doctor–patient communication research and training. A GP trainee and PhD student (MV), a psychologist working at a GP training institute (AT), a communication researcher and trainer working at a undergraduate medical training programme (EG) and an educational psychologist with research expertise in self-regulated learning (AdB). These different professional backgrounds provided depth and richness to the team discussions. To prevent biases, we kept critical of our stances in discussing findings from individual data analysis within the research team and explored alternative viewpoints during the process of making meaning of the data.40

3 결과

결과는 사회 인구학적 특성, NGT 세션 순위 결과를 설명하는 연구 특성, 주제별 내용 분석 결과 숙련된 커뮤니케이터의 특성, 숙련된 커뮤니케이션 접근 방식을 설명하는 개념적 모델 개발로 제시됩니다.
The results will be presented as socio-demographic characteristics, study characteristics describing the NGT session ranking results, characteristics of a skilled communicator as a result of thematic content analysis, and the development of a conceptual model describing a skilled communication approach.

사회 인구학적 특성
Socio-demographics characteristics

총 34명의 이해관계자가 6개의 NGT 세션 중 하나에 참여(응답률 48%)했습니다. 이해관계자의 연령은 26세에서 65세(평균 45세, SD 13.2세)였으며, 여성이 19명(56%)이었습니다. 표 1은 이해관계자의 특성 및 직업적 배경 구성에 대한 정보를 제공합니다.
A total of 34 stakeholders participated (response rate 48%) in one of the six NGT sessions. The stakeholders' ages ranged from 26 to 65 years (mean 45, SD 13.2 years), and 19 were female (56%). Table 1 provides information on stakeholders' characteristics and the composition of their professional backgrounds.

연구 특성
Study characteristics

6번의 NGT 세션이 진행되었으며, 각 세션마다 참가자들이 NGT 세션에서 정리한 여러 항목(n = 191)으로 구성된 '상위 7가지 특성'(부록 S3 참조)이 도출되어 41개의 클러스터로 이어졌습니다. 질적 분석 결과, 숙련된 커뮤니케이터의 특성을 설명하는 9개의 테마가 도출되었습니다. 표 2는 주제와 해당 클러스터의 순위를 보여줍니다. 테마는 이러한 결합된 기준에 따라 나열되어 있습니다: (1) 일련의 NGT 세션에서 가장 높은 순위를 차지한 클러스터와 (2) 특정 테마 내의 모든 클러스터 점수의 합입니다.

Six NGT sessions were conducted, each resulting in its own ‘Top 7 of characteristics’ (see Appendix S3) consisting of multiple items (n = 191) that were organised by the participants during the NGT sessions, leading to 41 clusters. Qualitative analysis resulted in nine themes, describing characteristics of a skilled communicator. Table 2 shows the rankings of the themes and corresponding clusters. The themes are listed according to these combined criteria:

  • (1) the clusters ranked the most often over the series of NGT sessions and
  • (2) the sum of all cluster scores within a specific theme.

숙련된 커뮤니케이터의 특성
Characteristics of a skilled communicator

이 섹션에서는 숙련된 커뮤니케이터의 특성을 설명하는 식별된 주제를 그림 2에 설명된 내러티브로 개괄적으로 설명합니다. 주제는 참가자들이 순위를 매겨 조립한 항목에 대한 주제별 콘텐츠 분석의 결과로 식별됩니다.

In this section, the identified themes describing characteristics of a skilled communicator will be outlined and described as a narrative, which are illustrated in Figure 2. Themes are identified as a result of the thematic content analysis of the rank-ordered assembled items by the participants.

3.3.1 A: 환자에게 민감하고 적응하기
3.3.1 A: Being sensitive and adapting to the patient

5번의 NGT 세션 동안 '환자에게 민감하고 적응하기'라는 주제를 나열하고 점수를 매겼습니다. 이 주제는 환자의 경험과 요구에 민감하게 반응하는 것과 환자와의 언어적, 비언어적 의사소통을 조정하는 것으로 세분화할 수 있습니다. 또한, 공통점을 찾는 것은 환자와의 만남에서 무엇이 필요한지 민감하게 파악하고 그에 따라 의사소통을 조정하는 것으로 언급되었습니다.
During five NGT sessions, the theme ‘Being sensitive and adapting to the patient’ was listed and scored. It can be subdivided into being sensitive to the patient's experience, and needs and adjusting verbal and non-verbal communication to the patient. Moreover, finding common ground was mentioned as being sensitive to what is needed in the encounter and adapt communication accordingly.

3.3.2 B: 대인 커뮤니케이션을 능숙하게 적용하는 것
3.3.2 B: Being proficient in applying interpersonal communication

네 개의 NGT 세션에서 '대인 커뮤니케이션을 능숙하게 적용하기'라는 주제를 나열하고 점수를 매겼습니다. 센트럴은 대인 커뮤니케이션을 적용하는 방법을 알고 언제 상담에 적용해야 하는지 아는 측면에서 의사와 환자 간의 관계를 증진하는 대인 커뮤니케이션을 시연하고 있습니다. 이 주제에 따라 평화와 신뢰 형성, 완전한 존재감 드러내기, 충분한 시간 갖기, 희망과 현실 사이의 균형 잡기 등 다양한 목표와 기술이 보고되었습니다. 또한 참가자들은 대화 과정에 대해 상호적으로 논의하고 상호 기대치를 명확히 할 필요성에 대해 언급했습니다.
Four NGT sessions listed and scored the theme ‘Being proficient in applying interpersonal communication’. Central is demonstrating interpersonal communication fostering the relationship between doctor and patient, both in terms of knowing how to apply it and knowing when to apply it in the consultation. Under this theme, different objectives and skills were reported, for example: creating peace and trust, displaying full presence, taking sufficient time and balancing between hope and realism. In addition, participants mentioned the need to attend to reciprocity discuss the dialogical process and articulate mutual expectations.

3.3.3 C: 자기 인식, 학습 능력 및 반성적 역량
3.3.3 C: Self-awareness, learning ability and reflective capacity

'자기 인식, 학습 능력 및 반성적 역량'이라는 주제는 네 번의 NGT 세션에서 나열되고 채점되었습니다. 여기에는 규범과 가치, 경계, 함정, 의사소통 스타일에 대한 개인의 인식이 포함됩니다. 환자와 동료의 피드백에 개방적이고 자신의 의사소통의 단점을 성찰함으로써 자신의 관점이나 편견과 같은 개인적 기준 프레임에 대한 인식이 강화됩니다. 또한, 이 주제에서는 학습에 대한 의지, 즉 이전 경험을 바탕으로 다양한 커뮤니케이션 전략을 실험할 수 있는 성장 마인드가 언급되었습니다.
The theme ‘Self-awareness, learning ability and reflective capacity’ was listed and scored by four NGT sessions. It includes personal awareness of norms and values, boundaries, pitfalls and communication style. By being open for feedback from patients and colleagues and reflecting upon shortcomings in one's communication, performance awareness of own personal frame of reference (e.g. perspectives and prejudices) is fostered. Moreover, within this theme willingness to learn was mentioned: a growth mind-set, which enables experimenting with different communication strategies based upon prior experiences.

3.3.4 D: 진정으로 관심 갖기
3.3.4 D: Being genuinely interested

네 번의 NGT 세션에서 '진정으로 관심 갖기'라는 주제를 나열하고 점수를 매겼으며, 호기심을 보이는 태도를 통해 환자와 열린 대화를 나누는 것이 중요하다고 언급했습니다. 호기심을 갖고, 쉽게 접근하고, 비판적이지 않고, 열린 마음을 갖는 것이 필수적입니다.
Four NGT sessions listed and scored the theme ‘Being genuinely interested’ and to establish an open dialogue with the patient by displaying an attitude of curiosity. It is essential to be curious, easily accessible, non-judgmental and open-minded.

3.3.5 E: 환자 중심 커뮤니케이션을 능숙하게 적용하기
3.3.5 E: Being proficient in applying patient-centred communication

네 번의 NGT 세션 동안 '환자 중심 의사소통을 능숙하게 적용하기'라는 주제가 나열되고 점수가 매겨졌습니다. 이 주제는 의사소통 전략의 메커니즘잠재적 효과에 대한 지식과 효과적인 정보 교환 개발로 세분화할 수 있습니다. 의사는 상담 시 환자의 눈높이에 맞게 언어를 유연하게 조정하고, 질문과 설명을 구체적으로 하고 이해 여부를 확인해야 합니다. 
During four NGT sessions, the theme ‘Being proficient in applying patient-centred communication’ was listed and scored. This theme can be subdivided into knowledge about the mechanisms and potential effects of communication strategies and developing an effective information exchange. In their consultations, doctors need to flexibly adjust their language to the level of the patient, being concrete in questioning and providing explanations and checking for understanding.

3.3.6 F: 목표 지향적 의사소통
3.3.6 F: Goal-oriented communication

네 번의 NGT 세션 동안 '목표 지향적 의사소통'이라는 주제를 나열하고 점수를 매겼습니다. 이는, 필요할 때마다, 환자와 의사 모두의 의제를 다루고 추가적인 주의가 필요한 문제와 불필요해 보이는 문제를 구분하기 위해 주도적으로 행동하는 것을 의미합니다. 시간 제한적 개입은 상담 과정에 관한 선택을 할 때 목표 지향적으로 일할 수 있도록 지원합니다. 동시에 분석적이고 깊이 탐구하는 자세는, 임상과 환자의 목표를 모두 고려하고 이를 연결하면서, 내용과 과정 사이의 균형을 맞출 수 있게 해줍니다.
During four NGT sessions, the theme ‘Goal-oriented communication’ was listed and scored. It means taking the lead, whenever it is necessary, to address the agenda of both patient and doctor and differentiate between issues that require additional attention and those that seem superfluous. Time-contingent interventions support goal-oriented working in making choices regarding the course of the consultation. Concomitantly, being analytic and exploring deeper enable balancing between content and process while taking into account both clinical and patients' goals and bridging them.

3.3.7 G: 진정성 확보하기
3.3.7 G: Being authentic

네 개의 NGT 세션에서 '진정성'을 주제로 선정하고 점수를 매겼습니다. 이는 의사소통 성과가 환자에게 거의 감지되지 않는다는 것을 의미합니다. 진정성 있는 방식으로 목표를 달성하면 자연스럽고 개인적인 스타일의 커뮤니케이션으로 이어집니다. 이를 위해서는 공감, 취약성, 그리고 필요한 경우 불안감에 대한 소통을 보여줘야 합니다.
Four NGT sessions listed and scored the theme ‘Being authentic’. It means that communication performance is almost imperceptible to the patient. Achieving goals in an authentic manner leads to a natural and personal style in communication. This necessitates showing empathy, vulnerability and communication about insecurities, if needed.

3.3.8 H: 적극적인 경청
3.3.8 H: Active listening

'적극적 경청'이라는 주제는 세 번의 NGT 세션에서 목록화되어 점수를 받았다. 경청 능력으로 묘사되었다.

  • 환자가 자신의 이야기를 할 수 있는 여지를 만들고, 만남에서 환자의 단서와 환자가 강조하는 것에 대해 적극적으로 경청하며 (비)언어적 의사소통에 집중하는 것으로 설명되었습니다.

The theme ‘Active listening’ was listed and scored by three NGT sessions, which was described as the ability to listen:

  • attentively and thereby creating room for patients to tell their story, and actively for patient cues in the encounter and what is stressed by the patient, and focus on (non-)verbal communication.

3.3.9 I: 환자와 협력하기
3.3.9 I: Collaborating with the patient

두 개의 NGT 세션에서 '환자와 협력하기'라는 주제를 나열하고 점수를 매겼습니다. 이는 의사와 환자가 투명성을 위해 노력하고 상호 계획에 도달하는 평등에 기반합니다. 다른 한편으로, 협업은 환자가 문제 해결의 공동 파트너가 되어 환자의 자율성을 높이고 공동 의사 결정을 내릴 수 있는 공동 책임에 기반합니다.
Two NGT sessions listed and scored the theme ‘Collaborating with the patient’. On the one hand, this is based on equality: doctor and patient striving towards transparency and reaching a mutual plan. On the other hand, working collaboratively is based on a shared responsibility where the patient becomes co-partner in problem solving enhancing the patients' autonomy and enabling to shared decision making.

숙련된 의사소통 접근법의 개념적 모델
Conceptual model of a skilled communication approach

이 개념적 모델(그림 3 참조)에서는 두 가지 순환적이고 중요한 프로세스가 실제 커뮤니케이션 행동과 커뮤니케이션에 대한 성찰의 중심이 됩니다. 이러한 작업을 수행하려면 다음과 같은 특성이 필요합니다. 의사는 첫 번째 과정인 의사소통에 민감해야 하며, 의사소통을 만남의 필요에 맞게 조정해야 합니다. 관찰된 의사소통 행동은 의사의 적용된 기술과 표시된 태도에 영향을 받습니다. 

  • 연구 결과에서 첫 번째 구성 요소는 대인 관계 및 환자 중심 커뮤니케이션을 적용하는 숙련도로 확인되었습니다. 또한, 능동적 경청은 고도로 숙련된 과정으로 확인되었으며, 이는 (대인관계 및 환자 중심) 의사소통을 적용하기 위한 조건부 도구로 볼 수 있습니다.41 
  • 두 번째 구성 요소인 태도적 측면은 진정성과 진정한 관심으로 확인되었으며 숙련된 커뮤니케이터의 핵심으로 간주됩니다. 이러한 태도적 측면은 임상적 만남에서 환자에게 민감하게 반응하고 의사소통을 조정하는 과정을 용이하게 합니다.

In this conceptual model (see Figure 3), two circular and overarching processes are central actual communication behaviour and reflection on communication. The following characteristics are needed to perform these tasks. The doctor needs to be sensitive and adapt communication to the needs of the encounter, which is the first process. The communication behaviour observed is influenced by applied skills and displayed attitudes of the doctor.

  • The first component is identified in our findings as the proficiency to apply interpersonal and patient-centred communication. Moreover, the characteristic Active listening was identified as a highly skilled process, which could be seen as a conditional tool to apply (interpersonal and patient-centred) communication.41 
  • The second component, attitudinal aspects, are identified in as authenticity and genuine interest and considered as core for a skilled communicator. These attitudinal aspects facilitate the process of being sensitive and adapting communication to the patient in the clinical encounter.

또한 숙련된 커뮤니케이터가 환자와 협력하고 필요한 경우 주도권을 잡으면서 임상 진료 중에 목표를 조정할 수 있도록 하는 데 있어 기술과 태도는 조건적인 요소입니다. 이는 의사소통이 본질적으로 맥락적이고 목표 중심적이라는 점과 일맥상통합니다.14, 18, 28 또한, 상담에서 환자와 의사의 관련 목표를 다룰 때 상호 합의점을 찾는 것이 촉진됩니다.14 숙련된 커뮤니케이터는 또한 임상 진료 중 의사소통 과정을 스스로 모니터링할 수 있어야 하며, 이는 두 번째로 확인된 병행 과정과 일맥상통합니다: '자기 인식, 학습 능력 및 반성적 능력'과 일치합니다.42, 43
Skills and attitudes are also conditional in enabling a skilled communicator to adjust goals during the clinical encounter while working collaboratively with a patient and taking the lead if needed. This resonates with communication being inherently contextual and goal driven.14, 18, 28 Furthermore, finding mutual agreement is fostered in addressing both patients' and doctors' related goals in the consultation.14 A skilled communicator should also be able to self-monitor communication processes during the clinical encounter, which resonates with the second identified parallel process: ‘self-awareness, learning ability, and reflective capacity.42, 43

4 논의

이 연구의 목적은 의료 커뮤니케이션 분야의 다양한 이해관계자의 관점을 종합하여 숙련된 커뮤니케이션의 개념을 알리는 것이었습니다. 6차례에 걸쳐 진행된 NGT 세션에 참여한 이해관계자들은 총 191개의 항목을 종합적으로 해명했습니다. 이러한 결과를 주제별 내용 분석에 사용하여 임상 현장에서 숙련된 커뮤니케이터의 특성을 설명하는 9가지 주제를 식별했습니다.

  • (A) 환자에 대한 민감성과 적응력,
  • (B) 대인 커뮤니케이션 적용에 능숙함,
  • (C) 자기 인식, 학습 능력 및 성찰 능력,
  • (D) 진정으로 관심 있음,
  • (E) 목표 지향적 커뮤니케이션,
  • (F) 진정성,
  • (G) 환자 중심 커뮤니케이션 적용에 능숙함,
  • (H) 적극적인 경청,
  • (I) 환자와 협력하는 것

식별된 주제는 각 특성이 의사의 개인 레퍼토리의 일부이며 통합된 전체를 구성하기 때문에 내용상 밀접한 관련이 있습니다.9, 14, 16, 44
The purpose of this study was to inform the concept of skilled communication by synthesising viewpoints from different stakeholders in the field of medical communication. Stakeholders participating in the six conducted NGT sessions collectively elucidated 191 items. We used these findings in a thematic content analysis and identified nine themes, describing characteristics of a skilled communicator in the clinical encounter:

  • (A) being sensitive and adapting to the patient;
  • (B) being proficient in applying interpersonal communication;
  • (C) self-awareness, learning ability and reflective capacity;
  • (D) being genuinely interested;
  • (E) goal-oriented communication;
  • (F) being authentic;
  • (G) being proficient in applying patient-centred communication;
  • (H) active listening; and
  • (I) collaborating with the patient.

The identified themes are closely related in content as each characteristic is part of the doctor's personal repertoire and constitutes an integrated whole.9, 14, 16, 44

또한, 확인된 주제를 바탕으로 (1) 환자에 대한 민감성과 적응력, (2) 자기 인식, 학습 능력, 반성적 능력이라는 두 가지 병렬 프로세스를 추출할 수 있고 임상에서 핵심이 되는 숙련된 의사소통 접근법의 개념적 모델을 개발했습니다. 이 모델은 전문적 성과를 모니터링하고 조절하는 넬슨과 나렌스(1990)의 이론적 모델에서 설명하는 순환 과정과 일치합니다.42, 45
Moreover, based on the identified themes, we developed a conceptual model of a skilled communication approach in which two parallel processes could be distilled and are key in the clinical encounter:

  • (1) being sensitive and adapting to the patient and
  • (2) self-awareness, learning ability and reflective capacity.

This model is concordant with the circular processes described by the theoretical model of Nelson and Narens (1990) of monitoring and regulating professional performance.42, 45

연구 질문에 비추어 볼 때, 의사 소통 행동은 임상적 만남의 필요에 민감하게 반응하고 의사소통을 조정함으로써 조절되며, 이는 환자 중심의 상담 결과에 도달하기 위해서는 의사 행동 적응성(PBA)이 필수적이라고 제안한 Carrard 등의 문헌에 의해 뒷받침됩니다. 의사가 환자의 선호도를 정확하게 해석하고 그에 따라 커뮤니케이션 행동을 조정할 수 있을 때 PBA가 달성됩니다.46 숙련된 커뮤니케이터는 임상 상담의 필요에 따라 다양한 커뮤니케이션 전략을 적응적으로 적용해야 한다는 점에서 PBA는 우리의 연구 결과를 반영합니다.46
In reflecting on our research question, communication behaviour is regulated through being sensitive and adapting communication to the needs of the clinical encounter, which is supported in literature by Carrard et al, who suggest that doctor behavioural adaptability (PBA) is essential to reach patient-centred consultation outcomes. PBA is achieved if the doctor is able to correctly interpret patients' preferences and adapt communication behaviour accordingly.46 PBA mirrors our findings in that a skilled communicator should apply different communication strategies adaptively in response to the needs of the clinical encounter.46

결과적으로 숙련된 커뮤니케이터는 임상 진료 중 의사소통 과정을 스스로 모니터링할 수 있어야 하며, 이는 두 번째로 확인된 병행 과정인 자기 인식, 학습 능력 및 반성적 역량과도 일치합니다. 의사는 의사소통 수행을 평가할 때 진료 중 내면의 생각과 감정을 모니터링하는 것이 필수적입니다.47 이 두 번째 과정과 일치하는 개념은 Hall과 Mast가 소개한 대인관계 정확성입니다.47 대인관계 정확성은 환자의 비언어적 및 단서에 민감하여 환자의 감정, 요구, 의도를 정확하게 인식하는 능력으로 설명됩니다.46, 47
Subsequently, a skilled communicator should also be able to self-monitor communication processes during the clinical encounter, which resonates with the second identified parallel process: self-awareness, learning ability and reflective capacity. Essential is that the doctor monitors internal thoughts and feelings during the encounter in evaluating communication performance.47 In line with this second process is the concept of interpersonal accuracy, introduced by Hall and Mast.47 Interpersonal accuracy is described as the ability to accurately perceive patients' feelings, needs, and intentions by being sensitive to patients' non-verbal and cues.46, 47

의료 교육에서 일상적 전문성적응적 전문성을 개발하는 것의 차이는 임상 상황에서 자기 인식, 학습 능력 및 성찰 능력을 병행 과정으로 파악하는 것으로 설명할 수 있습니다.48

  • 일상적 전문성을 보이는 의사는 익숙한 임상 상황에서 의사소통할 때는 능숙하지만, 미지의 예상치 못한 상황으로 자신의 성과를 이전하는 데 어려움을 겪을 수 있습니다.48-51 에릭슨의 전문성 습득 모델에서 볼 수 있듯이 이러한 의사소통은 안정되고 자동적이고 쉽게 실행되는 수준에 도달하게 됩니다.22 그 결과 의사소통이 환자의 요구에 유연하게 적응하지 못합니다.21, 48, 52
  • 반면 적응적 전문성을 보이는 의사는 모든 임상 상황에서 창의적이고 혁신적인 방식으로 의사소통 행동을 조정할 수 있습니다.22, 53 적응적 전문성에 도달하려면 의도적인 연습에 기반한 상황 학습이 핵심이며 성찰과 피드백이 개인 개발을 이끄는 수단이라고 Eraut는 지적합니다.20, 21, 48 

The differentiation between developing routine and adaptive expertise in medical training may explain identifying self-awareness, learning ability and reflective capacity as a parallel process in the clinical encounter.48 

  • Doctors demonstrating routine expertise are proficient when communicating in a familiar clinical situation but may have difficulties in transferring their performance to unknown and unexpected situations.48-51 As Ericsson's model of expertise acquisition shows, this communication will become stable and will reach a level of automaticity and effortless execution.22 This results in communication not becoming flexibly adapted to patient needs.214852 
  • In contrast, doctors demonstrating adaptive expertise are able to tailor their communication behaviour in a creative and innovative manner in every clinical situation.2253 To reach adaptive expertise, Eraut indicates that situated learning based on deliberate practice is key and reflection and feedback are vehicles to steer personal development.202148

의료 교육에서는 학습자가 자신의 학습 과정에 능동적으로 참여할 수 있도록 성과에 대한 자기 인식을 촉진하는 학습자 중심 접근법을 촉진하는 데 중점을 두어야 하며, 이를 통해 진료 현장에서 환자의 요구에 맞게 의사소통을 조정할 수 있고, 궁극적으로 개인의 발전을 촉진할 수 있습니다.9, 10, 16, 44, 53-55 그리고 이후 성찰과 정기적인 피드백을 통해 자신의 생각과 느낌을 모니터링합니다.20, 42 
In medical training, emphasis should be on facilitating a learner-centred approach to promote self-awareness of performance for learners to become actively involved in their own learning process, which enables them to adapt communication to patient needs in the encounter, and eventually fosters their personal development,9, 10, 16, 44, 53-55 and, subsequently, monitor their own thoughts and feelings by reflection and regular feedback.20, 42

학습은 실제 임상 환경에서 구성되며, 학습자는 이러한 환경이 학습자에게 영향을 미치기 때문에 이 환경에 적극적으로 영향을 미치는데, 이를 경험적 학습 '현장 학습'이라고도 합니다.20, 56 학습자의 필요와 학습 목표에 따라 학습자가 자신의 개인적인 의사소통 스타일(예: 진정성, 진정한 관심)을 개발하도록 안내하고 학습자의 개인적 발전을 촉진하려면 교육이 종적 지향적이며 적극적인 지원과 안내된 성찰을 제공하는 것이 필수적입니다.56-58
Learning is constructed from the authentic clinical setting, and learners actively influence this setting as this same setting influence learners, also known as experiential learning ‘learning on the job’.20, 56 To guide learners in their needs and learning goals to develop their own personal communication style (e.g. authentic, genuine interested), fostering the personal development of learners, it is essential that training is longitudinal oriented and provides active support and guided reflections.56-58


커뮤니케이션 교육 및 연구를 위한 권장 사항을 공식화할 수 있습니다. 이 개념적 모델은 숙련된 커뮤니케이션 학습을 위한 템플릿으로 사용할 수 있는 식별된 특성을 뒷받침합니다. 의사소통 훈련은 임상 현장에서 의사소통에 대한 반복적인 실험을 촉진하고 의사소통 수행에 대한 체계적인 성찰을 지원하여 숙련된 의사소통의 전문성을 확보할 수 있도록 해야 합니다. 이를 통해 학습자는 학습 목표를 설정하고 학습 활동을 계획하는 데 있어 학습 과정을 능동적으로 이끌어갈 수 있으며, 개인의 발전을 촉진할 수 있습니다.9, 16, 21, 47
Recommendations can be formulated for communication training and research. The conceptual model underpins the identified characteristics that may be used as a template for learning skilled communication. Communication training should facilitate repeated experimentation with communication in the clinical encounter and support systematic reflection on communication performance to attain expertise in skilled communication. This may enable learners to actively steer their learning processes in setting goals and planning learning activities, stimulating their personal development.9, 16, 21, 47

또한, 우리의 개념 모델은 숙련된 커뮤니케이션을 운영하며 학습자가 숙련된 커뮤니케이터가 되기 위해 개발해야 하는 두 가지 중요하고 순환적인 프로세스를 설명합니다. 교육은 학습을 평생의 연속체로 생각하고 학습자가 실제 임상 환경에서 접하는 경험에 의미를 부여할 수 있도록 학습자를 적극적으로 지원해야 합니다.20, 56, 57 향후 연구에서는 확인된 숙련된 의사소통 접근법이 임상 업무 환경 학습 중에 어떻게 최적으로 지원될 수 있는지 탐구해야 합니다.
Moreover, our conceptual model operationalises skilled communication and describes two overarching and circular processes learners need to develop to become skilled communicators. Training requires the need to actively support learners as learning is to be thought of as a lifelong continuum and help learners to make meaning of the experiences they encounter in the authentic clinical setting.20, 56, 57 Future research should explore how the identified skilled communication approach can be optimally supported during clinical workplace learning.

강점 및 한계
Strengths and limitations

이번 연구 결과는 강점과 한계를 고려하여 해석해야 합니다. 강점은 다음과 같습니다: 

  • (1) 상대적으로 많은 이해관계자 그룹이 다차원적 개념을 세분화하여 총체적인 복잡성을 파악하는 과정에서 광범위한 숙련된 의사소통 특성을 생성했다는 점,
  • (2) 다양한 참여 이해관계자(예: GP, GP 수련의, 교수진 및 연구자)가 있었다는 점,
  • (3) 다수의 NGT 세션이 식별된 특성의 일반화 가능성을 높였다는 점 등이 있습니다.

Our findings should be interpreted considering the strengths and limitations present. The strengths include:

  • (1) a relatively large group of stakeholders generated an extensive number of skilled communication characteristics during the process of breaking down a multidimensional concept to get to grips on its holistic complexity,
  • (2) the variety of participating stakeholders (i.e. GPs, GP trainees, faculty members and researchers) and
  • (3) multiple NGT sessions increasing the generalisability of the identified characteristics.

또한 한계도 알고 있습니다. 

  • 첫째, 코로나19 팬데믹으로 인해 세션이 전자 환경에서 진행되었기 때문에 직접 눈을 마주치지 않고 비언어적 제스처를 취하는 데 어려움이 있을 수 있습니다.54 그러나 NGT 방식은 구조화된 템플릿을 채택하고 진행자가 세션 중 모든 참가자를 개별적으로 초대하여 토론에 참여하도록 했습니다. 따라서 이러한 한계가 연구 결과에 영향을 미치지는 않았을 것으로 예상합니다.
  • 둘째, 우리는 본질적으로 복잡하고 다차원적인 개념을 매핑하려고 시도했고, NGT 방법은 풍부한 데이터를 생성했기 때문에 참가자들이 데이터를 개념적으로 심층적으로 탐색할 수 없었다는 점을 알고 있습니다.
  • 셋째, 이 연구의 초점은 앵글로색슨 국가의 의료 환경과 특히 GP 교육 프로그램에 맞춰져 있었습니다. 이러한 환경과 이에 대한 사람들의 인식은 국가마다 다를 수 있다는 점을 알고 있습니다. 반면, 네덜란드의 8개 GP 수련 기관 중 5개 기관의 참가자를 포함했기 때문에 연구가 수행된 환경이 강점이라고 생각합니다. 비슷한 교육 시스템과 역량 프레임워크를 고려할 때 본 연구 결과는 다른 앵글로색슨 국가의 의료 교육 및 의료 환경에 일반화할 수 있을 것으로 기대합니다.
  • 마지막으로, 본 연구는 의사-환자 커뮤니케이션 교육 영역에서 의료 전문가와 교육자의 관점을 규명하는 데 중점을 두었기 때문에 환자를 포함하지 않은 것은 본 연구의 한계로 볼 수 있습니다.

We are also aware of limitations.

  • First, due to the COVID-19 pandemic, the sessions were held in an electronic environment, which can be a challenge due to, for example, the absence of direct eye contact and non-verbal gestures.54 However, the NGT method adopts a structured template and the moderators invited all participants individually to take part in the discussion during the sessions. Therefore, we expect that this limitation did not alter our findings.
  • Second, we realise that we have tried to map a concept that is complex and multidimensional in nature, and the NGT method generated a richness of data, which does not enable participants to explore the data in-depth conceptually.
  • Third, the focus of this study was on health care settings of Anglo-Saxon countries and on the GP training programme in particular. We are aware that the setting, and people's perceptions thereof, may differ across countries. On the other hand, we consider the setting in which the study was performed a strength as we included participants from five out of eight GP training institutes in the Netherlands. We expect the outcomes of our study to be generalisable to medical training and health care settings in other Anglo-Saxon countries, given comparable educational systems and their competency frameworks.
  • Finally, not including patients can be seen as a limitation of this study as we decided to exclude patients as our focus is on elucidating the perspectives of health care professionals and educators within the domain of training doctor–patient communication.


이번 연구 결과는 숙련된 커뮤니케이터의 특성을 밝히고 숙련된 커뮤니케이션 접근 방식을 개념화했으며, 이는 개념적 모델에 요약되어 있습니다. 임상 현장에서 숙련된 의사소통의 전문성을 갖추기 위해서는 (1) 환자에 대한 민감성과 적응력, (2) 자기 인식, 학습 능력, 반성적 역량이라는 두 가지 과정이 병행되어야 합니다. 전문성을 갖추기 위해서는 환자의 요구와 목표에 맞게 커뮤니케이션을 조정하고 임상 진료 중 커뮤니케이션 과정을 지속적으로 모니터링하는 방법을 배우는 것이 상호 의존적입니다. 개념 모델에 제시된 식별된 특성은 의사가 숙련된 커뮤니케이터가 될 수 있도록 지원하는 학습자 중심 접근법을 개발하는 데 도움이 될 수 있으며, 이는 의료 교육에서 직장 학습을 하는 동안에도 마찬가지입니다. 이는 교육에서 학습자의 학습 과정을 적극적이고 종적으로 안내하여 개인 개발을 촉진할 필요가 있음을 의미합니다.
Our findings elucidate characteristics of a skilled communicator and conceptualise a skilled communication approach, which is outlined in a conceptual model. Two parallel processes are essential to attain expertise in skilled communication in the clinical encounter: (1) being sensitive and adapting to the patient and (2) self-awareness, learning ability and reflective capacity. To attain expertise, learning to adapt communication to patients' needs and goals and continuously monitor communication processes during the clinical encounter are interdependent. The identified characteristics laid out in the conceptual model may inform the development of a learner-centred approach in supporting doctors to become skilled communicators, during workplace learning in medical training. For training, this implies the need to actively and longitudinally guide learners in their learning processes to facilitate personal development.




Med Educ. 2023 May;57(5):418-429. doi: 10.1111/medu.14953. Epub 2022 Oct 26.

Identifying characteristics of a skilled communicator in the clinical encounter

Background: In medical communication research, there has been a shift from 'communication skills' towards 'skilled communication', the latter implying the development of flexibility and creativity to tailor communication to authentic clinical situations. However, a lack of consensus currently exists what skilled communication entails. This study therefore aims to identify characteristics of a skilled communicator, hereby contributing to theory building in communication research and informing medical training.

Method: In 2020, six nominal group technique (NGT) sessions were conducted in the context of the general practitioner (GP) training programme engaging 34 stakeholders (i.e. GPs, GP residents, faculty members and researchers) based on their experience and expertise in doctor-patient communication. Participants in each NGT session rank-ordered a 'Top 7' of characteristics of a skilled communicator. The output of the NGT sessions was analysed using mixed methods, including descriptive statistics and thematic content analysis during an iterative process.

Results: Rankings of the six sessions consisted of 191 items in total, which were organised into 41 clusters. Thematic content analysis of the identified 41 clusters revealed nine themes describing characteristics of a skilled communicator: (A) being sensitive and adapting to the patient; (B) being proficient in applying interpersonal communication; (C) self-awareness, learning ability and reflective capacity; (D) being genuinely interested; (E) being proficient in applying patient-centred communication; (F) goal-oriented communication; (G) being authentic; (H) active listening; and (I) collaborating with the patient.

Conclusions: We conceptualise a skilled communication approach based on the identified characteristics in the present study to support learning in medical training. In a conceptual model, two parallel processes are key in developing adaptive expertise in communication: (1) being sensitive and adapting communication to the patient and (2) monitoring communication performance in terms of self-awareness and reflective capacity. The identified characteristics and the conceptual model provide a base to develop a learner-centred programme, facilitating repeated practice and reflection. Further research should investigate how learners can be optimally supported in becoming skilled communicators during workplace learning.

전공의 선발 인터뷰 수행 베스트 프랙티스(AAMC)
AAMC는 레지던트 프로그램, 지원자, 의학교육자, 학생 지도교수 등 모든 이해관계자의 레지던트 전환을 개선하는 데 주력하고 있습니다. 이러한 노력의 일환으로 실시된 프로그램 디렉터를 대상으로 한 AAMC 설문조사에 따르면, 프로그램 디렉터들은 순위 목록을 작성할 때 경험, 학업 지표, 기타 속성 및 역량 등 지원자에 대한 다양한 정보를 평가하는 것으로 나타났습니다. 같은 설문조사에 따르면 전문성, 성실성, 대인관계 및 커뮤니케이션 기술, 신뢰성 및 의존성과 같은 특성이 가장 중요한 것으로 나타났습니다.  
The AAMC is focusing on enhancing the transition to residency for all stakeholders, including residency programs, applicants, medical educators, and student advisors. The AAMC survey of program directors conducted as part of this effort indicated that they evaluate a wide variety of information about applicants—including experiences, academic metrics, and other attributes and competencies—when creating rank order lists. The same survey found that characteristics such as professionalism, integrity, interpersonal and communication skills, and reliability and dependability are among the most important ones.

또한 프로그램 디렉터들은 레지던트 면접이 지원자의 순위를 매기는 데 가장 일반적이고 중요한 도구 중 하나이지만, 프로그램과 전문 분야에 따라 지원자를 면접하는 방식에 상당한 차이가 있다고 답했습니다. 지원자가 면접을 준비하는 데 도움이 되는 리소스는 많지만(예: AAMC 커리어 인 메디신 및 레지던트 면접 과정을 위한 미국 의사 대학 가이드라인), 면접관을 위한 리소스는 거의 존재하지 않습니다. 또한 의사는 환자와의 인터뷰 방법에 대해 상당한 교육을 받지만 지원자와의 인터뷰는 목적, 설계 및 실행 방식이 다릅니다.  
Program directors also reported that the residency interview is one of the most common and important tools used in ranking applicants but that significant variability exists in how applicants are interviewed across programs and specialties. While many resources are available to help applicants prepare for interviews (for example, AAMC Careers in Medicine and the American College of Physicians Guidelines for the Residency Interview Process), fewer resources exist for interviewers. Additionally, though physicians receive considerable training on how to interview patients, interviewing applicants is different in purpose, design, and implementation.

이러한 격차가 확인되자 AAMC는 모범 사례를 요약하고 프로그램 디렉터가 면접 프로세스를 개선하기 위한 옵션을 빠르게 이해할 수 있도록 이 가이드를 작성했습니다. 이 가이드가 일관성을 개선하고 레지던트 성과를 더 잘 예측하는 데 사용할 수 있는 면접 관행 및 프로세스에 대한 유용하고 유용한 소개 역할을 하기를 바랍니다. 
When this gap was identified, the AAMC sought to summarize best practices and assemble this guide to help program directors quickly understand their options for enhancing the interview process. Our hope is that the guide will serve as a helpful and useful introduction to interview practices and processes that can be used to improve consistency and better predict resident performance.

이 가이드의 목적
Purpose of This Guide

이 가이드는 유효하고 공정한 면접 절차를 구현하는 데 도움이 되는 면접 모범 사례를 설명합니다. 면접 구조의 구성 요소와 면접관 교육을 포함하여 면접 프로세스를 개선하면 프로그램과 지원자 모두의 성공 가능성과 호환성을 높이는 데 기여하는 보다 정보에 입각한 결정을 내릴 수 있습니다. 
This guide describes interview best practices to assist with implementing valid and fair interview processes. Any enhancements in the interview process, including components of interview structure and interviewer training, will enable programs to make more informed decisions that contribute to the increased likelihood of success and compatibility for both the programs and the applicants.

이 가이드의 정보는 두 섹션으로 나뉩니다: 
The information in this guide is divided into two sections:

  • 섹션 1: 인터뷰 프로세스 구조화하기 - 프로그램 디렉터 가이드에서는 현재 연구 현황과 선발 인터뷰의 모범 사례에 대한 개요를 제공합니다.
  • 섹션 2: 레지던트 지원자 인터뷰-교직원을 위한 실무 가이드에서는 유용한 팁과 피해야 할 함정 등 인터뷰 진행에 관한 실용적인 정보를 제공합니다.
  • Section 1: Structuring Your Interview Process—A Program Director’s Guide provides an overview of the current state of research and best practices in selection interviews.
  • Section 2: The Resident Applicant Interview—A Practical Guide for Faculty provides practical information on conducting interviews, including helpful tips and traps to avoid.

레지던트 프로그램에서는 지원자를 평가하고 순위를 매기는 데 다양한 정보를 사용하지만, 이 가이드는 특히 면접에 초점을 맞춥니다. 다른 일반적인 평가(예: 작업 샘플 및 OSCE)를 개발하여 선발 과정에 통합하는 방법에 대한 정보는 포함되어 있지 않습니다. 
While residency programs use many sources of information to evaluate and rank applicants, this guide focuses specifically on interviews. It does not include information about developing and integrating other common assessments (for example, work samples and OSCEs) into the selection process.

참고로, 레지던트 프로그램은 다양한 목적으로 면접일을 활용합니다. 공식적인 인터뷰 외에도 일반적인 인터뷰 데이 활동에는 현 레지던트 및 교수진과의 식사, 질의응답 세션, 캠퍼스 또는 도시 투어와 같은 채용 활동이 포함됩니다. 이러한 비공식 활동과 기숙사 및 프로그램 지원 직원과의 상호작용은 지원자의 대인관계 및 의사소통 능력에 대한 귀중한 정보를 얻을 수 있으며, 프로그램과 지원자 간의 적합성 여부를 판단하는 데 중요한 역할을 합니다. 유익하고 효과적이며 즐거운 면접일을 계획하기 위한 모범 사례(예: 프로그램이 지원자에게 기대하는 바를 모든 관계자가 공통으로 이해할 수 있도록 사전 작업을 수행하고, 모든 관계자가 관련 정보를 공유할 수 있는 피드백 메커니즘을 구현하는 등)가 있지만, 이 가이드는 특히 당일의 공식 면접 구성 요소에 대한 모범 사례에 초점을 맞추고 있습니다. 
On a related note, residency programs use interview days for multiple purposes. In addition to the formal interviews, common interview day activities include recruitment activities such as meals with current residents and faculty, question and answer sessions, and campus or city tours. These more informal activities and interactions with house and program support staff yield valuable information about applicants’ interpersonal and communication skills and play an important role in helping programs—and applicants—determine whether there is a good fit between the applicant and the program. While there are good practices for planning informative, effective, and enjoyable interview days—such as doing advance work to ensure everyone involved shares a common understanding of what the program seeks in applicants and implementing feedback mechanisms that enable everyone involved to share relevant information—this guide focuses specifically on best practices for the formal interview component of the day.

마지막으로, 많은 교육기관에서 이 가이드의 자료를 보완하는 면접관 리소스 및 지침을 제공합니다. 프로그램 디렉터와 면접관은 이러한 리소스를 살펴보는 것이 좋습니다. 면접 절차를 수정하기 전에 지정된 교육기관 관계자, 프로그램 디렉터 및 법률 고문에게 해당 교육기관 및 프로그램의 면접 정책 및 요건에 대해 문의해야 합니다. 
Finally, many institutions provide interviewer resources and guidance that complement the material in this guide. Program directors and interviewers are encouraged to explore those resources. Before modifying the interview process, the designated institutional official, program director, and legal counsel should be consulted about the institution’s and the program’s interview policies and requirements.

섹션 1: 인터뷰 프로세스 구조화하기-프로그램 디렉터를 위한 가이드
Section 1: Structuring Your Interview Process—A Program Director’s Guide

이 섹션에서는 인터뷰 구조와 인터뷰 연구의 현재 상태에 대한 개요를 제공합니다.
This section provides an overview of interview structure and the current state of interview research.

면접은 지원자가 특정 프로그램에서 레지던트로서 성공하는 데 중요한 개인적 특성을 갖추고 있는지, 프로그램의 사명과 목표에 부합하는지 평가할 수 있는 중요한 방법입니다. 예를 들어 레지던트 프로그램이나 기관의 사명과 목표에는 레지던트가 연구, 도시 또는 농촌 진료, 소외된 지역사회, 학계 또는 지역사회 리더십에 집중하기를 바라는 마음이 포함될 수 있습니다. 
Interviews are a valuable way to assess whether an applicant demonstrates the personal characteristics that are critical for success as a resident in a specific program and fit within the program’s mission and goals. For example, the missions and goals of a residency program or institution may include a desire for residents to focus on research, urban or rural practice, underserved communities, or academic or community leadership.


레지던트 선발의 맥락에서 '적합성' 정의하기
Defining “fit” in the context of residency selection

적합성은 프로그램 디렉터와 지원자가 레지던트 선발 과정에서 가장 중요한 요소 중 하나로 꼽는 경우가 많습니다. 그러나 의학교육 문헌에는 적합성에 대한 공통된 정의가 없습니다. 프로그램은 프로그램의 사명, 목표 및 학습 환경의 맥락에서 적합성에 대한 정의를 논의해야 합니다. 이 가이드에서는 명확성을 위해 적합성을 두 가지 차원으로 구분하여 설명합니다:
Fit is often reported as one of the most important factors in the residency selection process by program directors and applicants. However, there isn’t a common definition of fit in the medical education literature. Programs should discuss the definition of fit in the context of their program’s mission, goals, and learning environment. For the purposes of clarity, in this guide, we identify two dimensions of fit:

[개인-조직 적합성]은 지원자의 성격, 태도, 업무 및 학습 스타일/선호도, 목표와 조직 문화 간의 호환성을 의미합니다.
Person-organization fit refers to compatibility between an applicant’s personality, attitudes, work and learning style/preferences, and goals and the organization’s culture.

[개인-직무 적합성]은 지원자의 역량, 지식, 기술, 능력 및 기타 특성과 직무를 성공적으로 학습하고 수행하는 데 필요한 역량 및 특성 간의 호환성을 의미합니다.
Person-job fit refers to compatibility between an applicant’s competencies, knowledge, skills, abilities, and other attributes and the competencies and characteristics required to learn and perform the job successfully.

선발 면접은 여러 측면에서 다양할 수 있으며, 구조화되거나 비구조화될 수 있습니다:
Selection interviews may vary on a number of dimensions and may:

  • 구조화되거나 비구조화될 수 있습니다,
  • 행동 또는 상황 관련 질문을 사용합니다,
  • 기술적(의료 및 임상 지식, 절차적 기술) 및 비기술적(대인관계 기술, 전문성) 주제를 포함한 직무 관련 내용을 평가합니다.
  • 평가 척도를 사용하여 응답을 평가합니다.
  • be structured or unstructured,
  • use behavioral or situational questions,
  • assess job-related content, including technical (medical and clinical knowledge and procedural skills) and nontechnical (interpersonal skills, professionalism) topics, and
  • use rating scales to evaluate responses.

비구조화 및 구조화 인터뷰
Unstructured and Structured Interviews

비구조화 면접은 재량적인 내용(즉, 미리 선택된 질문이 없음)과 표준화되지 않은 평가 프로세스(즉, 질문별 채점 시스템이 없음)가 특징입니다.
Unstructured interviews are characterized by discretionary content (that is, no preselected questions) and an unstandardized evaluation process (that is, no question-specific scoring system).

구조화된 면접은 표준화를 통해 신뢰도와 타당도를 높이기 위해 면접을 개선한 것이 특징입니다. 채용 면접에 대한 연구에서는 면접 내용에 영향을 미치는 요소와 평가 프로세스에 영향을 미치는 요소의 두 가지 범주의 구조 구성 요소를 확인했습니다.
Structured interviews are characterized by any enhancement of the interview designed to improve reliability and validity by increasing standardization. Research on employment interviews has identified two categories of components of structure: those that influence interview content and those that influence the evaluation process.

  • 내용 관련 구조 구성 요소는 직무와 관련된 질문을 하거나 모든 지원자에게 동일한 질문을 하는 등 면접 내용의 표준화를 높이기 위한 모든 개선 사항입니다.
  • 평가 관련 구조 구성 요소는 평가 척도를 사용하여 면접을 평가하고 면접관에게 평가 절차에 대한 교육을 실시하는 등 평가 프로세스의 표준화를 높이는 모든 개선 사항입니다.
  • Content-related components of structure are any enhancements that increase the standardization of the interview content, such as asking questions that are job-related and asking the same questions to all applicants.
  • Evaluation-related components of structure are any enhancements that increase standardization of the evaluation process, such as using rating scales to evaluate the interview and training interviewers on evaluation procedures.

표 1에는 내용 및 평가 관련 구조 구성 요소와 각 구성 요소가 면접의 신뢰도, 타당도, 공정성 및 면접에 대한 지원자의 반응에 미치는 영향이 나열되어 있습니다. 그림에서 볼 수 있듯이 각 구성 요소의 효과는 서로 다릅니다. 예를 들어, 직무와 관련된 질문을 포함하면 타당도, 공정성, 지원자의 긍정적인 반응이 증가하는 반면, 탐색 질문을 제한하면 타당도와 공정성은 증가하지만 지원자의 부정적인 반응이 나타날 수 있습니다.
Table 1 lists the content- and evaluation-related components of structure and the effects of each on the interview’s reliability, validity, and fairness and the applicant reactions to the interview. As shown in the figure, the effects of each component differ. For example, including questions that are job-related increases validity, fairness, and positive applicant reactions, whereas limiting probing questions increases validity and fairness, but may lead to negative applicant reactions.

면접 프로세스에 구조를 도입하는 방법을 고려할 때, 프로그램은 선발 목표와 운영 제약 조건에 가장 적합한 구조의 구성 요소를 선택해야 합니다. 면접 결과를 개선하기 위해 모든 구조의 구성 요소를 구현할 필요는 없습니다구조의 구성 요소를 약간만 늘려도 지원자의 긍정적인 반응을 유지하면서 면접 결과의 신뢰도와 타당도에 긍정적인 영향을 미칠 수 있습니다.
When thinking about how to introduce structure into the interview process, programs should select the components of structure that best match its selection goals and operational constraints. Not all components of structure need to be implemented in order to improve interview results. Even making modest increases in structure can have a positive effect on the reliability and validity of interview results while maintaining positive reactions from applicants.

연구에 따르면 구조화된 면접은 구조화되지 않은 면접보다 그룹 간 차이를 줄이는 등 신뢰도, 타당도, 공정성이 더 높은 것으로 일관되게 나타났습니다. 이 분야의 연구에서는 인종/민족, 성별, 장애에 따른 차이를 조사합니다.
Research consistently shows that structured interviews have higher levels of reliability, validity, and fairness, including smaller group differences, than unstructured interviews. Research in this area investigates differences by race/ethnicity, gender, and disability.

표 1. 구조의 구성 요소가 신뢰성, 타당성, 공정성 및 지원자 반응에 미치는 영향
Table 1. The Effects of Components of Structure on Reliability, Validity, Fairness, and Applicant Reactions

참고: '긍정적'은 전반적으로 긍정적인 효과를, '부정적'은 전반적으로 부정적인 효과를, '불충분'은 개선 효과에 대한 연구가 불충분함을 의미합니다. "신뢰도"는 평가 프로세스가 일관되고 지원자 응답이 일관되게 평가되는 정도를 의미합니다. "타당도"는 면접 점수를 통해 추론한 내용의 정확성을 의미합니다.
Note: “positive” means overall positive effect, “negative” means overall negative effect, and "insufficient" means insufficient research on the effect of the enhancement. "Reliability" refers the extent to which the evaluation process is consistent and candidate responses are evaluated consistently. "Validity" refers to the accuracy of inferences made from interview scores.

Content Reliability Validity Fairness Applicant Reactions
Ask questions that are job-related insufficient positive positive positive
Ask all applicants questions that cover the same topics positive positive positive insufficient
Limit probing questions positive positive positive negative
Use behavioral or situational questions positive positive positive insufficient
Use a longer interview positive positive insufficient negative
Have no access to applicant information before or during interview positive insufficient positive negative
Have applicants not ask any questions positive insufficient insufficient negative


Evaluation Reliability Validity Fairness Applicant Reactions
Rate each answer or use multiple rating scales positive positive insufficient insufficient
Use defined rating scales positive positive positive insufficient
Take detailed notes positive positive positive insufficient
Use multiple interviewers positive positive positive negative
Use the same interviewers for all applicants positive insufficient negative insufficient
Have no discussion between interviews negative insufficient positive insufficient
Train interviewers positive positive positive positive
Use formulas to create interview total scores positive positive positive insufficient

Source: Adapted from Campion et al. (1997) and Levashina et al. (2014).

중요도가 높은 레지던트 인터뷰를 진행할 때 표준 인터뷰 질문과 평가 프로세스를 통합하세요.
Incorporate standard interview questions and evaluation processes when conducting high-stakes resident interviews.

행동 및 상황 질문
Behavioral and Situational Questions

면접 질문에는 여러 유형이 있습니다. 그 중 행동 질문상황 질문은 널리 연구되어 왔으며 비교적 구조화된 것으로 간주됩니다.
There are many types of interview questions. Two of them—behavioral and situational questions—have been widely studied and are considered relatively structured.

행동 질문은 과거의 행동이 미래의 행동을 예측할 수 있다는 전제를 바탕으로 합니다. 이러한 질문은 지원자에게 면접 중인 직무에서 직면할 수 있는 상황과 관련된 이전 상황(일반적으로 이전 직장, 학교 또는 자원봉사 경험)에서 지원자가 어떤 행동을 했는지 설명하도록 요청합니다. 과거 행동 질문은 지원자에게 특정 상황, 지원자가 취한 행동 또는 조치, 그 행동의 결과 또는 결과를 설명하도록 요청하는 경우가 많습니다.
Behavioral questions are based on the premise that past behavior predicts future behavior. They ask applicants to describe what they did in a previous context (typically, in previous jobs, at school, or in volunteer experiences) that are related to situations they may face in the job for which they are interviewing. Past-behavior questions often ask an applicant to describe a specific situation, the behavior or action they took, and the outcome or consequence of that behavior.

  • 예시: 함께 일하던 의료진이 정해진 프로토콜과 일치하지 않는 방식으로 행동하는 것을 목격했던 때를 설명해 주세요. 상황이 어땠는지, 어떤 조치를 취했는지, 그 결과는 어땠는지 설명하세요.
  • Example: Please describe a time when you observed a member of the medical team that you were working with behave in a manner that was inconsistent with an established protocol. Explain what the situation was, what actions you took, and the outcome.

행동 면접 질문 개발을 위한 주요 단계
Key Steps for Developing Behavioral Interview Questions

1. PGY-1 직책의 주요 요구 사항 파악하기
2. 면접에서 평가할 역량 3~5개 결정하기
3. 각 역량에 대한 행동 또는 상황별 질문 개발
4. 교수진에게 질문 초안을 검토하고 역량에 매핑하도록 요청합니다.
5. 목표 역량에 매핑되는 질문만 유지합니다.
6. 프로세스를 문서화하고 목표 역량 및 항목이 어떻게 선택되었는지 설명합니다.

  1. Identify key requirements of the PGY-1 position
  2. Determine which 3-5 competencies to target in the interview
  3. Develop behavioral or situational questions for each competency
  4. Invite faculty to review draft questions and map them to the competencies
  5. Retain only the questions that map to the target competencies
  6. Document the process and explain how the target competencies and items were selected

상황 질문은 의도가 미래의 행동을 예측한다는 전제를 기반으로 합니다. 상황 질문은 업무에서 발생할 수 있는 가상의 상황을 제시하고 지원자에게 해당 상황에서 어떻게 대응할 것인지 설명하도록 요청합니다.
Situational questions are based on the premise that intentions predict future behavior. They pose hypothetical situations that might occur on the job and ask applicants to describe how they would respond in the situations.

  • 예시: 지원자가 아침 회진을 하고 있다고 상상해 보겠습니다. 치프 레지던트가 주 초에 지원자와 다른 PGY-1이 함께 일했던 어려운 케이스를 설명하며 어려운 상황을 잘 처리했다고 칭찬합니다. 그 과정에서 그녀는 당신에게만 공을 돌리고 당신의 동료가 중요한 역할을 했다는 사실은 언급하지 않습니다. 여러분이라면 어떻게 하시겠습니까?
  • Example: I’d like you to imagine that you are on your morning rounds. The chief resident describes a difficult case that you and another PGY-1 worked on earlier in the week and compliments your handling of a difficult situation. In doing so, she gives you sole credit and fails to mention that your colleague played a major role. What would you do?

면접 질문 유형에 대한 연구에 따르면 행동 질문과 상황 질문 모두 강력한 심리 측정 특성을 가지고 있지만, 약간 다른 구성을 측정할 수 있습니다.

  • 행동 질문은 주로 경험과 일부 성격 특성을 측정하는 반면,
  • 상황 질문직무 지식을 측정할 수 있습니다.
  • 두 가지 유형의 질문 모두 신뢰할 수 있으며 미래의 직무 수행을 예측하는 유효한 지표이며,
  • 행동 질문의 타당도가 약간 더 높습니다.
  • 일부 연구에 따르면 과거 행동 질문은 상황 질문보다 속임수에 대한 저항력이 약간 더 강하고 그룹 간 차이가 약간 더 낮을 수 있다고 합니다.

Research on the type of interview questions suggests that both behavioral and situational questions have strong psychometric properties; however, they may be measuring slightly different constructs. Behavioral questions may primarily measure experiences and some personality traits, while situational questions may measure job knowledge. Both types of questions are reliable and are valid predictors of future job performance, with behavioral questions having slightly higher validity. Some research suggests that past-behavior questions may be slightly more resistant to faking and have slightly lower group differences than situational questions.

직무 관련 면접 콘텐츠
Job-Related Interview Content

질문 유형에 관계없이 모든 면접 질문은 직무와 관련된 질문이어야 합니다. 즉, 선발 면접에 포함된 모든 질문은 PGY-1 직책의 주요 요구 사항과 명확하게 연결되어 있어야 합니다. 지원자의 학습 및 업무 스타일과 프로그램 문화 간의 적합성을 평가하는 질문을 포함하여 지원자의 학습 및 업무 스타일과 프로그램 문화 간의 적합성은 프로그램에서 성공하는 데 필수적입니다. 면접 질문에서는 지원자가 이러한 주요 요건적합성을 충족하는 구체적인 사례를 자세히 설명하도록 요구해야 합니다. 가능하면 PGY-1 직책의 주요 요건과 업무 수행 및 새로운 기술 습득에 필요한 역량을 파악합니다. 입사 시 성공에 중요한 것으로 확인된 역량은 1일차 업무 수행에 필요하고 지원자의 향후 프로그램 성과를 예측할 가능성이 높기 때문에 면접의 좋은 대상이 됩니다.
Regardless of question type, all interview questions should be job-related. That is, all questions included in the selection interview should be clearly linked to key requirements of the PGY-1 position. To the extent that alignment between an applicant’s learning and work styles and the program’s culture is essential to success in your program, including questions to assess if the fit is appropriate and job-related. Interview questions should require applicants to elaborate on specific examples that address those key requirements and/or fit. If possible, identify the key requirements of the PGY-1 position and the competencies necessary to perform the work and learn new skills. Competencies that are identified as critical for success at entry are good targets for the interview because they are required to perform work on day 1 and are more likely to predict applicants’ future performance in the program.

평가하려는 역량 수, 역량 평가에 필요한 질문 수, 각 면접에 사용할 수 있는 시간 간에 균형을 유지하세요.
Maintain a balance between the number of competencies you want to assess, the number of questions needed to assess them, and the amount of time you have available for each interview.

PGY-1 직책의 주요 요건을 철저히 분석하는 데 필요한 리소스가 없는 경우, 프로그램의 PGY-1 성과 평가 도구(예: 마일스톤)를 사용하고 다른 교수진과 PGY-1이 프로그램에 입학할 때 성공에 중요한 역량(그리고 부족하면 실패로 이어질 수 있는 역량)에 대해 이야기하는 것을 고려합니다. 또 다른 옵션은 미국의학전문대학원교육인증위원회(ACGME) 핵심 역량, 레지던트 입학을 위한 AAMC 핵심 위탁 전문 활동 또는 전문 기관의 마일스톤을 사용하여 인터뷰에 어떤 내용을 포함할지 생각하는 출발점으로 삼는 것입니다. 마일스톤 또는 기타 모델을 선발 인터뷰의 출발점으로 사용하는 경우, 이는 레지던트 성과에 대한 광범위한 설명이라는 점을 기억하십시오. 어떤 측면이 프로그램의 PGY-1 포지션과 관련이 있는지 고려하는 것이 중요합니다. 선발 인터뷰는 수련 중에 배울 내용이 아니라 수련 1일차에 수련생이 시연해야 하는 내용만을 대상으로 해야 합니다. 
If you do not have the resources required to conduct a thorough analysis of the key requirements of the PGY-1 position, consider using your program’s PGY-1 performance evaluation tools (for example, milestones) and talking to other faculty about what competencies are critical for success when PGY-1s enter your program (and whose lack would lead to failure). Another option is to use the Accreditation Council on Graduate Medical Education (ACGME) Core Competencies, the AAMC Core Entrustable Professional Activities for Entering Residency, or your specialty organization’s milestones as a starting point for thinking about what content to include in the interview. If the milestones or other models are used as a starting point for your selection interview, remember that they are broad descriptions of residency performance. It is important to consider which aspects are relevant to the program’s PGY-1 position. The selection interview should only target content that trainees should be expected to demonstrate on day 1, not content that they will be expected to learn during training.

소개에서 언급했듯이 면접 당일에는 지원자 인터뷰 외에 여러 가지 요소가 포함될 수 있습니다. 면접 데이의 각 구성 요소의 목적과 각 부분에서 어떤 정보를 수집해야 하는지에 대해 생각하는 것이 중요합니다. 지원자를 모집하는 데 면접을 사용하면 지원자의 프로그램 준비도를 평가하는 데 방해가 될 수 있습니다. 가능하면 면접 당일에 지원자를 모집하고 지원자의 질문에 답변하는 시간을 따로 마련하세요. 이렇게 하면 면접이 직무 관련 내용에 집중되고 부수적인 정보가 면접관의 평가에 영향을 미치는 것을 방지할 수 있습니다.
As mentioned in the introduction, the interview day may have several components besides the applicant interview. It is important to think about the purpose of each component of the interview day and what information needs to be gathered in each part. Using interviews to recruit applicants can distract from assessing an applicant’s preparedness for your program. If possible, dedicate separate time for recruiting and answering applicants’ questions during the interview day. This may help keep the interview focused on job-related content and prevent ancillary information from influencing interviewer ratings.

면접 답변 평가하기
Evaluating Interview Responses

가장 좋은 방법은 평가 척도를 사용하여 지원자의 답변을 평가하는 것입니다. 평가 척도를 면접에 통합하면 일반적으로 지원자의 부정적인 반응을 유발하지 않으면서도 면접 점수의 신뢰성, 타당성, 공정성을 높일 수 있습니다. 또한 공통된 척도로 지원자를 평가하기 때문에 면접관이 지원자를 비교할 수 있는 능력도 향상됩니다.
A best practice is to use rating scales to evaluate applicants’ responses. Incorporating rating scales into the interview typically enhances reliability, validity, and fairness of interview scores without causing negative applicant reactions. It will also increase interviewers’ ability to compare applicants because they were evaluated on a common scale.

역량을 평가하는 면접 평가 척도 개발을 위한 주요 단계
Key Steps for Developing Rating Scales for Interviews that Assess Competencies

1. 평가 척도의 점수를 결정합니다.
2. 교수진에게 질문을 검토하도록 초대하고 PGY-1이 어떻게 응답할지 논의합니다.
3. 응답을 사용하여 척도의 각 점수에 대한 행동 예시 초안을 작성합니다.
4. 교직원에게 예시를 평가 대상 역량에 매핑하도록 요청합니다.
5. 매핑에서 살아남은 예만 보관합니다.
6. 프로세스 문서화
7. 면접관에게 평가 척도 사용 방법에 대해 교육하기

  1. Decide on the number of points on the rating scale
  2. Invite faculty to review questions and discuss how PGY-1s would respond
  3. Use responses to create draft behavioral examples for each point on the scale
  4. Ask faculty to map the examples to the competencies being assessed
  5. Retain only the examples that survive mapping
  6. Document the process
  7. Train interviewers on how to use the rating scale

평가 척도에 대해 주목해야 할 5가지 핵심 사항이 있습니다:
There are five key points to note about rating scales:

  • 개별 질문에 대한 지원자의 답변, 소수의 역량 또는 직무에 대한 전반적인 적합성을 평가하도록 설계할 수 있습니다. 가장 좋은 방법은 면접에서 평가하고자 하는 소수의 역량에 대한 평가 척도를 개발하는 것입니다.
  • 이러한 평가 척도는 행동 및 상황별 질문과 함께 사용할 수 있도록 개발할 수 있습니다.
  • 평가 척도의 점수는 보통 3점부터 7점까지 다양합니다. 평가 척도에 몇 점을 넣을지 결정하는 것은 일반적으로 PGY-1에서 관찰되는 행동의 범위를 반영한다고 생각하는 숙련도 수준(또는 척도 점수)의 수에 따라 달라집니다.
  • 평가 척도의 각 점수는 각 숙련도 수준을 설명하는 행동 예시와 함께 고정되는 것이 이상적입니다. 평가 척도의 행동 예는 PGY-1의 각 수행 수준에 대한 교수진의 기대치를 반영하여 평가자에게 척도의 각 점수에 대한 공통된 정의를 제공해야 합니다. 이렇게 하면 평가자가 평가 작업을 더 쉽게 수행할 수 있고 지원자를 일관된 방식으로 평가하는 데 도움이 됩니다.
  • 면접관에게는 평가 척도의 행동 예시를 지원자의 응답을 평가하는 일반적인 지침으로 사용하도록 안내해야 합니다.
  • They can be designed to evaluate applicants’ responses to individual questions, a small number of competencies, or overall suitability for the job. A best practice is to develop rating scales for the small number of competencies that the interview was designed to assess.
  • They can be developed to work with behavioral and situational questions.
  • The number of points on the rating scale often varies from three to seven. Deciding how many points there should be on the rating scale typically depends on the number of proficiency levels (or scale points) you think reflect the range of behaviors observed among PGY-1s.
  • Ideally, each point on the rating scale is anchored with behavioral examples that describe each level of proficiency. The behavioral examples on the rating scales should reflect faculty expectations of each level of performance for PGY-1s, providing raters with common definitions for each point on the scale. This will both make the rating task easier for raters and help ensure that applicants are being evaluated in a consistent manner.
  • Interviewers should be instructed to use the behavioral examples on the rating scale as a general guide for evaluating applicants’ responses.


섹션 2: 레지던트 지원자 면접 - 교직원을 위한 실무 가이드
Section 2: The Resident Applicant Interview—A Practical Guide for Faculty

이 섹션에서는 레지던트 지원자 면접 절차의 각 단계에 대한 모범 사례에 대한 일반적인 지침을 제공합니다:

1. 인터뷰 준비
2. 인터뷰 시작하기
3. 인터뷰 진행
4. 인터뷰 마무리
5. 인터뷰 평가

This section provides general guidance on best practices for the stages of the residency applicant interview process:

  1. Preparing for the interview
  2. Starting the interview
  3. Conducting the interview
  4. Closing the interview
  5. Evaluating the interview

예비 교직원 및 레지던트 면접관은 기관의 면접관 교육 과정(가능한 경우)을 수강하고, 무의식적 편견에 관한 과정과 같은 기관 또는 국가 교육 프로그램에 참여하며, PGY-1 레지던트의 직무 요건과 기관 및 레지던트 프로그램의 사명 및 목표를 숙지하는 것을 고려해야 합니다.
Prospective faculty and resident interviewers should consider taking the institution’s interviewer training course (if available), participating in institution or national training programs such as a course on unconscious bias, and familiarizing themselves with the job requirements for PGY-1 residents and the mission and the goals of the institution and the residency program.

1단계: 면접 준비하기
Stage 1: Preparing for the Interview

면접관은 지원자를 만나기 전에 면접 자료(예: 면접 스크립트, 가능하거나 필수적인 면접 질문, 역량 정의, 평가 척도에 대한 설명)를 숙지하는 것이 중요합니다. 다음 자료를 쉽게 사용할 수 있어야 합니다:
Before meeting the applicant, it is important that interviewers familiarize themselves with the interview materials (for example, the interview script, possible or required interview questions, competency definitions, and descriptions of rating scales). The following should be readily available:

  • 토론할 질문 또는 주제 목록
  • 인터뷰 중에 메모할 수 있는 방법
  • 채점 루브릭 또는 평가 척도(해당되는 경우)
  • 인터뷰 일정
  • A list of questions or topics to discuss
  • A way to take notes during the interview
  • The scoring rubric or rating scale(s), if applicable
  • The interview schedule

2단계: 인터뷰 시작
Stage 2: Starting the Interview

편안한 분위기를 조성합니다. 지원자가 정보를 공유할 수 있도록 개방적이고 편안한 분위기를 조성합니다:
Create a comfortable atmosphere. To create an open and relaxed atmosphere that will encourage the applicant to share information:

  • 친절한 태도로 지원자를 맞이합니다.
  • 이름과 직책을 밝히며 자신을 소개합니다.
  • 지원자에게 인터뷰 시간을 알려줍니다.
  • 면접 중에 메모를 할 계획이라면 면접을 시작하기 전에 지원자에게 알려주세요. 메모를 하면 답변을 정확하게 기억하는 데 도움이 된다고 설명할 수 있습니다.
  • 면접 중에 전화나 긴급한 문제로 인해 면접이 중단될 수 있다는 사실을 알고 있다면 면접을 시작하기 전에 지원자에게 그 가능성에 대해 알려주세요.
  • Welcome the person in a friendly manner.
  • Introduce yourself, giving your name and title.
  • Tell the applicant how long the interview will take.
  • If you plan on taking notes during the interview, tell the applicant before you begin the interview. You can explain that taking notes helps to ensure that you remember responses accurately.
  • If you know that you might be interrupted during the interview by a call or urgent matter, tell the applicant about that possibility before you begin the interview.

첫인상이나 '직감'의 영향을 받지 않도록 하세요. 지원자의 외모나 지원자와의 '케미'가 어떠하든, 이러한 요소는 해당 지원자가 프로그램에서 레지던트로서 얼마나 잘할 수 있을지를 예측할 수 없음을 기억하세요. 첫인상에 의존하면 면접에서 수집하는 직무 관련 정보의 질과 양이 제한될 수 있으므로 지원자의 답변을 경청하는 데 집중하고 모든 지원자에게 가능한 한 철저하게 임하는 것이 중요합니다.
Avoid the influence of first impressions or “gut” instinct
No matter what the applicant's personal appearance is or the "chemistry" between you and the applicant, remember that these do not predict how well a person is likely to do as a resident in your program. Relying on a first impression may limit the quality and amount of job-related information you gather during an interview; it is important to keep your focus on listening to the applicant’s answers and to be as thorough as possible with all applicants.

3단계. 면접 진행
Stage 3. Conducting the Interview

직무와 관련된 질문을 합니다. 면접 질문은 직무 요건과 명확하게 연결되는 것이 가장 좋습니다. 미리 정해진 질문이나 질문 주제가 있는 경우, 면접 전반에 걸쳐 일관성을 유지하기 위해 해당 질문이나 주제를 준수하는 것이 중요합니다. 면접관이 직접 질문을 할 수 있는 경우, 해당 질문이 직무와 관련이 있는지 확인합니다.
Ask job-relevant questions.
 It is a best practice for interview questions to be clearly linked to job requirements. If there is a set of predetermined questions or topics from which questions should be asked, it is important to adhere to those questions or topics for consistency across interviews. If interviewers can ask their own questions, make sure they are relevant to the job.

가능하면 상황 및 행동 질문을 사용하세요. 행동 질문과 상황 질문은 모두 면접 구조를 개선하고 강력한 심리 측정 특성을 가지고 있습니다. 

  • 행동 질문은 지원자에게 특정 상황, 지원자가 취한 행동 또는 조치, 그 행동의 결과 또는 결과를 설명하도록 요청합니다.
  • 상황 질문은 업무상 발생할 수 있는 가상의 상황을 제시하고 지원자가 그 상황에서 어떻게 대응할 것인지 설명하도록 요청합니다.

When possible, use situational and behavioral questions. Both behavioral and situational questions improve interview structure and have strong psychometric properties. 

  • Behavioral questions ask applicants to describe a specific situation, the behavior or action they took, and the outcome or consequence of that behavior. 
  • Situational questions pose hypothetical situations that may occur on the job and ask applicants to describe how they would respond in the situation.

부적절한 질문은 피하고 법률 또는 고용주 정책에 의해 금지될 수 있는 질문에 대해서는 항상 소속 기관의 법률 고문에게 문의하세요. 인터뷰 중에는 다음과 같은 주제는 피해야 합니다:
Avoid inappropriate questions and always check with your institution’s legal counsel about inquiries that may be prohibited by law or employer policy. The following topics should be avoided during an interview:

  • 인구 통계: 연령, 인종, 종교, 사회경제적 지위, 민족, 성적 지향, 성 정체성, 출신 국가
  • 가족: 혈통, 조상, 모국어 또는 모국어, 결혼 여부, 결혼 전 이름 또는 성, 지원자와 함께 사는 사람 또는 관계, 가족 문제(부모 상태, 부양가족의 나이, 자녀 계획)
  • 개인 정보: 키와 몸무게, 신체적 및 정신적 장애, 외모, 개인적 소속을 조사하는 개인 활동
  • 기록: 군 제대, 체포, 전과 기록
  • 기타 프로그램 또는 전문 분야 및 순위 계획: 지원자가 지원할 수 있는 다른 프로그램 또는 전문 분야에 대한 정보 및/또는 지원자가 프로그램 순위를 매길 계획에 대한 정보. (NRMP 정책에 따르면 프로그램은 지원자에게 지원한 프로그램 및 프로그램 순위 결정 방식에 대한 정보 공개를 요구할 수 없습니다.)
  • Demographics: Age, race, religion, socioeconomic status, ethnicity, sexual orientation, gender identity, national origin
  • Family: Lineage, ancestry, primary or native language, marital status, maiden name or family surname, relationships or people the applicant lives with, family issues (parental status, age of dependents, plans for children)
  • Personal: Height and weight, physical and mental disabilities, physical appearance, personal activities that probe for personal affiliations
  • History: Military discharge, arrests, criminal convictions
  • Other programs or specialties, and ranking plans: Information about other programs or  specialties to which they might be applying and/or how the applicant plans to rank your program. (NRMP policies state that programs cannot require any applicant to disclose information about where they have applied and how they plan to rank programs.)

직무 관련 탐색 질문을 하세요. 지원자가 초기 답변에서 충분한 정보를 제공하지 않는 경우가 많으므로 면접관은 추가 정보를 제공하거나 후속 질문을 해야 할 수 있습니다. "좀 더 구체적으로 말씀해 주시겠습니까?" 또는 "그것에 대해 더 자세히 말씀해 주시겠습니까?"와 같은 후속 질문을 하면 지원자의 답변을 유도하지 않고 최대한 많은 정보를 수집하는 데 도움이 됩니다. 탐색 질문을 사용하는 경우, 불완전한 초기 답변을 제공한 모든 지원자에게 일관되게 질문하여 모든 지원자가 동일한 설명 기회를 갖도록 해야 합니다. 너무 많은 탐색 질문을 하면 지원자에게 찾고 있는 답변 유형에 대한 단서를 제공하여 거짓 답변을 할 가능성이 높아질 수 있다는 점에 유의하세요.
Ask job-related probing questions.
 In many cases, applicants do not provide enough information in their initial response, so the interviewer may need to prompt or ask follow-up questions. Asking a follow-up question such as, “Could you be more specific?” or “Could you tell me more about that?” is helpful in gathering as much information as possible without leading the applicant to an answer. If probing questions are used, they should be used consistently with all applicants who provide an incomplete initial response to ensure that everyone has the same opportunity to explain a response. Be aware that asking too many probing questions provides a cue to applicants about the types of answers you are looking for and may increase the likelihood of faking a response.

상황 또는 행동 면접 질문을 사용하는 경우 STAR 약어를 사용하면 면접관이 각 질문에 대한 중요한 정보를 모두 수집하는 데 도움이 될 수 있습니다:
If using situational or behavioral interview questions, the STAR acronym can help interviewers ensure they gather all important information about each question:

  • 상황 또는 과제: 지원자가 논의 중인 사건의 맥락을 설명했나요?
  • 행동: 지원자가 정확한 행동이나 조치에 대해 설명했나요(또는 무엇을 할 것인지)?
  • 결과: 신청자가 행동 또는 조치의 결과 또는 결과를 설명했나요?
  • Situation or Task: Did the applicant describe the context for the event being discussed?
  • Action: Did the applicant describe the exact behaviors or actions taken (or what would  be done)?
  • Result: Did the applicant describe the outcomes or consequences of the behaviors or  actions?

상황 면접 질문용 프로브
Probes for Situational Interview Questions

상황 또는 과제 Situation or Task

  • 이 상황에서 가장 중요한 문제는 무엇이라고 생각하나요?
  • 다른 어떤 문제가 우려되나요?
  • What do you consider the most critical issue in this situation?
  • What other issues are of concern?

행동 Action

  • 당신은 뭐라고 말하겠습니까?
  • 가장 먼저 할 일은 무엇인가요?
  • 어떤 요인이 여러분의 행동 방침에 영향을 미칠까요?
  • 다른 어떤 조치를 취할 수 있나요?
  • What would you say?
  • What is the first thing you would do?
  • What factors would affect your course of action?
  • What other actions could you take?

결과 Results

  • 여러분의 행동이 어떻게 받아들여질 것이라고 생각하나요?
  • 여러분의 행동이 잘 받아들여지지 않는다면 어떻게 하시겠습니까?
  • 귀하의 행동으로 인해 어떤 이점이 있다고 생각하십니까?
  • How do you think your action would be received?
  • What would you do if your action was not received well?
  • What do you consider benefits of your action?

행동 면접 질문용 프로브
Probes for Behavioral Interview Questions

상황 또는 과제 Situation or Task

  • 그 상황이나 과업에 이르게 된 요인은 무엇인가요?
  • 본인 또는 다른 사람이 해당 상황이나 과제를 예방하기 위해 무언가를 할 수 있었나요?
  • 이 상황이나 과제에서 해결해야 할 가장 중요한 문제는 무엇이라고 판단했나요?
  • What factors led up to the situation or task?
  • Could you or anyone else have done something to prevent the situation or task?
  • What did you determine as the most critical issue to address in this situation or task?

조치 Action

  • 어떻게 대응했나요?
  • 조치를 취할 때 가장 중요하게 고려한 요소는 무엇인가요?
  • 가장 먼저 한 일은 무엇인가요?
  • How did you respond?
  • What was the most important factor you considered in taking action?
  • What is the first thing you did?

결과 Results

  • 결과는 어땠나요?
  • 다르게 말하거나 행동했으면 좋았을 것이 있나요?
  • 그 상황에서 어떤 이점이 있었나요?
  • What was the outcome?
  • Is there anything you would have said and/or done differently?
  • Were there any benefits from the situation?

프로그램에서 상황 또는 행동 면접 질문을 사용하지 않는 경우, 보다 일반적인 개방형 프로빙 질문을 사용할 수 있습니다.
If the program does not use situational or behavioral interview questions, more generic and open-ended probing questions can be used.

개방형 프로빙 질문: 지원자에게 답변에 대해 자세히 설명하도록 요청하는 방법입니다:
Open-ended probing questions: Ways to ask an applicant to elaborate on a response:

  • 그것에 대해 자세히 말해 보세요.
  • 무슨 일이 있었나요?
  • 그 이유는 무엇인가요?
  • 어떻게 반응했나요?
  • 어떻게 그렇게 되었나요?
  • 더 잘 이해하도록 도와주세요.
  • 계속하세요.
  • 설명해 주세요.
  • 좀 더 구체적으로 설명해 주시겠어요?
  • 왜요?
  • 다른 예를 들어주세요.
  • Tell me more about that.
  • What happened?
  • Why is that?
  • How did you react?
  • How did that come about?
  • Help me understand that better.
  • Please go on.
  • Explain that to me.
  • Could you be more specific?
  • How come?
  • Give me another example, please.

간단히 메모하세요메모는 사용 가능한 모든 정보를 바탕으로 평가할 수 있게 해주며, 가장 객관적인 평가를 내리는 데 도움이 됩니다. 메모에는 지원자를 평가하는 방법을 정당화할 수 있도록 면접 내용에 대한 충분한 정보가 포함되어야 합니다. 지원자의 답변을 그대로 기록하기보다는 지원자의 답변에서 관련 핵심 단어나 문구를 기록하는 데 중점을 두세요.
Take short notes. Notes allow you to base your evaluations on all available information and assist you in making the most objective evaluations possible. Your notes should provide sufficient information about the interview content to justify how you evaluate candidates. Focus on recording relevant key words or phrases in the applicant’s responses rather than trying to capture responses verbatim.

메모할 때 피해야 할 몇 가지 중요한 함정은 다음과 같습니다:
Some important traps to avoid when taking notes include:

  • 지원자의 의도를 유추하거나 지원자가 말한 내용에 대한 자신의 의견을 적지 마세요. 예를 들어, "나쁜 답변" 또는 "훌륭한 문제 해결사"는 지원자의 답변에 대한 사실적 증거를 제공하지 않는 평가 문장이므로 작성하지 마세요.
  • 인종, 피부색, 종교, 성별, 출신 국가, 나이 또는 지원자가 언급했더라도 시험장 또는 평가 척도와 관련이 없는 기타 요인에 대한 언급을 포함하지 마세요.
  • 메모가 지원자의 답변 품질에 대한 신호가 되지 않도록 하세요. 예를 들어, 매우 긍정적이거나 매우 부정적인 내용이 방금 언급되었을 때만 메모하지 마세요.
  • Don't make inferences about what the applicant meant or write down your opinions of  what the applicant said. For example, do not write “bad answer” or “great problem solver” as these are evaluative statements that provide no factual evidence of the applicant’s response.
  • Don't include any reference to race, color, religion, sex, national origin, age, or other factors not related to the stations or rating scales, even if the applicant mentions these things.
  • Don’t allow your note taking to be a signal to applicants about the quality of their responses. For example, do not take notes only when something very positive or very negative has just been said.

4단계: 면접 마무리
Stage 4: Closing the Interview

면접이 끝나면 지원자에게 감사를 표하고 다음 단계를 설명합니다. 지원자에게 면접 성과에 대한 피드백을 주거나 메모를 공유하지 않도록 주의하세요.
At the end of the interview, thank the applicant and explain where to go next. Be careful not to give the applicants any feedback on their interview performance or share your notes.

5단계: 면접 평가
Stage 5: Evaluating the Interview

지원자가 면접실을 나간 후 가능한 한 빨리 메모를 검토합니다. 놓쳤을 수 있는 중요한 세부 사항을 기입하세요. 다음 면접이 시작되기 전에 프로그램에서 설계한 접근 방식을 사용하여 지원자를 평가합니다. 지원자에 대한 평가는 메모를 통해 뒷받침되어야 합니다.
As soon as possible after the applicant leaves the room, review your notes. Fill in any important details you may have missed. Evaluate the applicant using the approach designed by your program—ideally, before the next interview begins. Ratings of the applicant should be supported by the notes.

무의식적인 편견에 유의하세요. 누구나 태도, 연상, 고정관념에 따라 다른 사람이나 집단에 대해 무의식적인 편견을 가지고 있습니다. 면접관은 개인의 편견을 완화하는 데 도움을 줄 수 있습니다:
Be aware of your unconscious bias.
 Everyone holds unconscious biases about other people or groups of people based on attitudes, associations, and stereotypes. Interviewers can help mitigate their individual biases through:

  • 특정 지원자 또는 지원자 유형에 대한 강한 반응에 대한 인식
  • 첫인상보다는 신중한 사고와 의사 결정에 기반한 점수 부여
  • 관점 취하기
  • awareness of strong reactions for or against a particular applicant or type of applicant
  • basing scores on deliberate thinking and decision-making rather than on first impressions
  • perspective taking

면접 내용 및 평가의 표준화를 강화하면 무의식적 편견이 면접 과정에 미치는 영향을 줄일 수 있습니다. 예를 들어, 기준을 명확하게 정의하고, 채점 루브릭을 사용하고, 다양한 면접관 풀을 확보하고, 면접관에게 적절한 면접 기법을 교육하는 등 면접 프로세스를 개선함으로써 무의식적 편견의 영향을 부분적으로 완화할 수 있습니다.
Increasing standardization of interview content and evaluation is likely to reduce the impact of unconscious bias on the interview process. For example, the impact of unconscious bias can be mitigated in part through enhancements to the interview process such as clearly defining criteria, using a scoring rubric, having a diverse pool of interviewers, and training interviewers on proper interview technique.

자세한 내용은 AAMC의 의료 전문가를 위한 무의식적 편견 리소스를 참조하세요.
For more information, please see the AAMC’s Unconscious Bias Resources for Health Professionals.

일반적인 평가 오류에 유의하세요. 의도하지 않은 경우가 많지만, 흔히 발생하는 평가 오류는 면접의 유효성과 공정성을 떨어뜨릴 수 있습니다. 다음은 각 지원자의 면접 답변을 평가할 때 주의해야 할 가장 일반적인 평가 오류 유형입니다:
Be aware of common rating errors.
 Although often unintentional, common rating errors can decrease the validity and fairness of interviews. Here are some of the most common types of rating errors to be mindful of when rating each applicant’s interview responses:

  • 후광/뿔 효과: 한 응답을 기반으로 한 성과 평가가 다른 응답에 대한 평가에 영향을 미칠 수 있도록 허용하는 것입니다. 예를 들어, 팀워크를 평가하는 질문에 대한 평가가 동기를 평가하는 질문에 대한 평가에 영향을 줄 수 있도록 허용합니다.
  • 중앙 경향: 모든 지원자를 평가 척도의 중앙에 평가합니다(예: 5점 평가 척도에서 3점을 모두 부여). 면접관은 평가 척도의 전체 범위를 편안하게 사용해야 합니다.
  • 관대함/심각함: 지원자의 실제 답변과 관계없이 모든 지원자에게 높거나 낮은 평점을 부여하는 것입니다.
  • 대조 효과: 한 지원자를 이전에 면접을 본 지원자의 성과와 비교하는 것입니다. 지원자가 면접을 보는 순서는 지원자의 평점에 영향을 줄 수 있습니다. 면접관은 평점을 매길 때 지원자를 비교하는 것을 자제해야 합니다. 대신 면접관은 평가 척도와 관련하여 각 지원자의 답변을 평가하는 데 집중해야 합니다.
  • Halo/Horns effect: Allowing ratings of performance based on one response to influence ratings for another response. For example, allowing a rating on a question assessing teamwork to influence the rating on a question assessing motivation.
  • Central tendency: Rating all applicants in the middle of the rating scale (for example, giving all 3s in a 5-point rating scale). Interviewers should feel comfortable using the entire range of the rating scale.
  • Leniency/severity: Giving high or low ratings to all applicants, irrespective of their actual responses.
  • Contrast effects: Comparing one applicant with the performance of previously interviewed applicants. The order in which the applicants are interviewed can affect the ratings they are given. While making ratings, interviewers should refrain from comparing applicants. Instead, interviewers should focus on evaluating each applicant’s response in relation to the rating scale.

면접관에게 프로그램 표준 및 기타 면접과 관련된 채점에 대한 정기적인 교육과 피드백을 제공하면 이러한 오류를 줄이는 데 도움이 될 수 있습니다.
Providing interviewers with regular training and feedback on their scoring relative to program standards and other interviews can help mitigate these errors.

면접 시 해야 할 일과 하지 말아야 할 일
Interview Do’s and Don’ts

면접 진행
Conducting Interviews

해야 할 일 Do:

  • 직무와 관련된 질문을 하세요.
  • 가끔 미소 짓고 고개를 끄덕이는 등 긍정적인 바디랭귀지를 사용합니다.
  • 지원자가 본론에서 벗어난 경우 지원자의 발언에 대해 간단히 언급(예: "알겠습니다")하여 지원자의 주의를 다시 집중시킨 다음 원래의 질문으로 단호하게 돌아갑니다.
  • 말하기보다 듣는 데 더 많은 시간을 할애하세요.
  • Ask job-related questions.
  • Use positive body language such as smiling and nodding occasionally.
  • Refocus the applicant if he or she goes off track, by making a brief comment about the applicant’s remarks (such as, “OK”) and then firmly move back to the original question.
  • Spend more time listening than talking.

하지 마세요 Don't:

  • 눈썹을 치켜뜨거나 인상을 찌푸리거나 거친 목소리 톤을 사용하는 등 부정적인 바디랭귀지를 하는 것
  • 면접 중 지원자의 성과에 대해 "좋아요" 또는 "훌륭해요"와 같은 피드백을 하는 것
  • 판단형, 이유형, 선도형, 예/아니오형 질문을 하는 것
  • Use negative body language such as raising an eyebrow, frowning, or using a harsh tone of voice.
  • Give feedback to the applicant about his or her performance during the interview (such as, “Good” or “Great”).
  • Ask judgmental, why, leading, or yes/no questions.

면접 평가하기
Evaluating Interviews

하세요 Do:

  • 객관성을 유지하세요. 의견이 아닌 사실에 집중하세요.
  • 면접 질문에 대한 지원자의 답변에 집중하세요.
  • 한 번에 한 가지 질문 또는 차원에 집중합니다.
  • 지원자의 답변을 척도 앵커와 비교하는 데 집중합니다(프로그램에서 평가 척도를 사용하는 경우).
  • Stay objective―focus on facts, not opinions.
  • Focus on the applicant’s responses to interview questions.
  • Focus on one question or dimension at a time.
  • Focus on comparing applicants’ responses with scale anchors (if your program uses a rating scale).

하지 마세요 Don't:

  • "지원자의 답변에 대한 자신의 해석을 바탕으로 답변의 일부를 '채우기'.
  • 채점 루브릭 이외의 요소(예: 외모 또는 지원자와의 '케미')를 기준으로 지원자를 판단하기
  • 면접 중에 한 지원자의 답변을 다른 지원자의 답변과 비교하기
  • “Fill in” parts of the answer based on your own interpretations of the applicant’s response.
  • Judge an applicant based on anything outside the scoring rubric (for example, personal appearance or your “chemistry”).
  • Compare responses of one applicant with those of other applicants during the interview.







보건전문직 교육의 선발 방법에 대한 지원자 인식: 이유와 집단간 차이(Med Educ, 2022)
Applicant perceptions of selection methods for health professions education: Rationales and subgroup differences
Suzanne Fikrat-Wevers1 | Karen Stegers-Jager1 | Marleen Groenier2 | Andries Koster3 | Jan Hindrik Ravesloot4 | Renske Van Gestel3 | Anouk Wouters5,6 | Walter van den Broek1 | Andrea Woltman1 


1 서론

학부 보건 전문직 교육(HPE)에 입학하기 위한 선발은 많은 이해관계가 얽혀 있어 공개적인 논쟁의 주제입니다.1 그럼에도 불구하고 다양한 선발 방법에 대한 대부분의 연구는 예측 타당성과 학생 다양성에 미치는 영향에 초점을 맞춘 반면, 지원자의 인식에 대해서는 거의 관심을 기울이지 않았습니다.2 지원자 인식이 대학 입학 기회 확대(WA)의 맥락에서 관련성이 있다고 주장되어 왔기 때문에 이는 놀라운 일입니다.1 사회경제적, 인종적 소수 집단의 과소 대표성은 복잡하고 다양한 문제이지만, 이러한 집단은 선발에 대한 부정적인 인식의 결과에 특히 취약한 것으로 생각됩니다.1, 3 그러나 지금까지 지원자의 여러 하위 그룹 간의 인식을 비교하여 실제로 그러한지 조사한 연구는 없었습니다. 본 연구에서는 학부 HPE의 다양한 전형 방법에 대한 지원자의 인식과 이러한 인식이 지원자의 배경 특성과 어떤 관련이 있는지 조사하여 이러한 지식 격차를 해결했습니다. 
Due to the high stakes involved, selection into undergraduate health professions education (HPE) is a topic of public debate.1 Nevertheless, most research into different selection methods has focused on predictive validity and effects on student diversity, while little attention has been paid to applicant perceptions.2 This is surprising, as it has been argued that applicant perceptions are relevant within the context of widening access (WA).1 Although the underrepresentation of lower socio-economic and ethnic minority groups is a complex and multicausal problem, these groups are thought to be particularly vulnerable to the consequences of negative perceptions regarding selection.1, 3 However, thus far, no research has compared perceptions between different subgroups of applicants to investigate whether this is really the case. In the present study, we addressed this knowledge gap by investigating applicant perceptions of different selection methods in undergraduate HPE and how these perceptions are related to applicants' background characteristics.

선발 방법에 대한 지원자의 인식을 이해하는 것은 여러 가지 이유로 중요합니다. 

  • 첫째, 지원자 인식은 광범위한 타당성 프레임워크에서 증거의 원천으로 사용되는 정치적 타당성의 구성 요소입니다.4 정치적 타당성은 이해관계자들이 어떤 방법을 선발에 사용하기에 적절하고 수용 가능한 것으로 간주하는 정도라고 정의됩니다.4 실제로 선발 절차를 설계할 때 정치적 타당도를 고려하는데, 이는 전통적인 면접과 같이 제한된 예측 타당도가 입증된 선발 방법이 여전히 일반적으로 사용되고 있다는 사실에서 잘 드러납니다.1
  • 둘째, 지원자의 인식은 선발 방법의 구성 타당도와 지원자의 동기 부여, 성과 및 철회에 미치는 영향을 포함하여 다양한 실질적인 결과를 초래할 수 있기 때문에 특히 중요합니다.2, 5-7 주목할 만한 점은 선발 위원회의 기대에 대한 지원자의 이해가 이러한 숨겨진 기대에 '부합'하기 위해 선발 준비 방식을 형성할 수 있다는 점입니다.8-10
  • 또한, 지원자의 인식은 WA와 관련이 있습니다.1 이전 연구에 따르면 사회경제적 수준이 낮고 소수 민족 배경을 가진 예비 학생들은 전형에 대해 더 자주 부정적으로 인식하고 성공적으로 입학할 수 있다는 확신이 적습니다.3, 11 이러한 지원자 하위 그룹은 일반적으로 전형 결과가 더 나쁜 것으로 나타났습니다.12, 13 이는 부정적 인식으로 인한 동기 부여 저하로 부분적으로 설명될 수 있습니다.14

Understanding applicant perceptions of selection methods is important for multiple reasons.

  • First, applicant perceptions are a component of political validity, which is used as a source of evidence in broader validity frameworks.4 Political validity is defined as the extent to which stakeholders consider a method as appropriate and acceptable for use in selection.4 In practice, political validity is taken into consideration when designing selection procedures, which is exemplified by the fact that selection methods with proven limited predictive validity, such as traditional interviews, are still commonly used.1 
  • Second, perceptions of applicants are of particular interest, as they can have numerous practical consequences, including effects on construct validity of selection methods, and on applicant motivation, performance and withdrawal.25-7 Noteworthy is that applicants' understanding of the expectations of selection committees can shape the way they prepare for selection in order to ‘fit’ these hidden expectations.8-10 
  • Moreover, applicant perceptions are relevant with respect to WA.1 Previous research suggests that prospective students with lower socio-economic and ethnic minority backgrounds more often demonstrate negative perceptions of selection and are less confident in their ability to be successfully admitted.311 These subgroups of applicants are shown to have poorer selection outcomes in general,1213 which may be partially explained by poorer motivation due to more negative perceptions.14

지원자의 선발에 대한 인식은 일반적으로 분배적 정의절차적 정의를 구분하는 조직 정의 이론15을 사용하여 설명합니다.

  • 분배적 정의는 선발 절차의 결과 분배의 공정성에 대한 지각된 공정성을 의미하며,
  • 절차적 정의는 선발 절차 및 이러한 결과를 생성하는 데 사용되는 방법의 공정성에 대한 지각을 의미합니다.15 절차적 정의는 절차의 형식적 특성, 절차 및 의사 결정에 대한 설명, 대인 관계적 대우의 세 가지 구성 요소로 구성됩니다.

조직 정의 이론에 따르면, 절차적 정의의 세 가지 구성 요소는 선발 절차의 다양한 측면에 대한 인식에 영향을 미칩니다. 본 연구에서는 절차적 정의 구성 요소인 선택의 형식적 특성에 초점을 맞췄는데, 이는 길리랜드에 따르면 본 연구의 주요 관심사인 특정 선택 방법에 대한 인식이 이 구성 요소의 영향을 가장 많이 받기 때문입니다. 이러한 형식적 특성의 예로는 선택 방법의 관련성과 지각된 타당성이 있습니다. 나머지 두 가지 구성 요소인 절차 및 의사 결정에 대한 설명과 대인 관계 처우는 각각 선발 정책과 선발 담당자에 대한 인식에 영향을 미칩니다. 
Applicant perceptions of selection are commonly described using organisational justice theory,15 which distinguishes between distributive and procedural justice.

  • Distributive justice describes the perceived fairness of the distribution of the outcome of the selection procedures, while
  • procedural justice refers to the perceived fairness of the selection procedure and methods that are used to generate this outcome.15 Procedural justice consists of three components: the formal characteristics of procedures, explanation of procedures and decision-making and interpersonal treatment.

According to organisational justice theory, the three procedural justice components affect perceptions of different aspects of selection procedures. The present study focuses on the procedural justice component formal characteristics of selection, because according to Gilliland,15 perceptions of specific selection methods—the main interest of the present study—are mostly affected by this component. Examples of such formal characteristics include relevance and perceived validity of selection methods. The other two components, explanation of procedures and decision-making and interpersonal treatment, influence perceptions of the selection policy and the selection personnel, respectively.

교육 기관은 선발 절차에서 매우 다양한 방법을 사용합니다. 그러나 이러한 방법에 대한 지원자의 인식에 대한 지식은 여전히 부족합니다.2 체계적 문헌고찰에 따르면 면접과 상황판단검사(SJT)는 지원자의 지지가 높은 반면 적성검사는 덜 수용적이라고 인식하고 있습니다.1 이 문헌고찰에는 많은 수의 연구(71편)가 포함되어 있지만 대부분 단일 기관에서 특정 선발 방법에 대한 노출 후 수행되었습니다. 이전 연구에 따르면 선택 절차가 연구 선택에 영향을 미치는 것으로 나타났기 때문에2, 이러한 16개의 연구 결과는 제한적으로만 비교 및 일반화할 수 있습니다. 또한 Kelly 등1은 특정 선발 방법이 특히 소외계층 및 소수자 그룹에 의해 장벽으로 인식된다고 제안했지만, 검토 대상 연구 중 서로 다른 지원자 하위 그룹의 인식을 직접 비교한 연구는 없었습니다. 
Educational institutions use a great variety of methods in their selection procedures. However, knowledge about perceptions of applicants regarding these methods is still scarce.2 A systematic review concluded that interviews and situational judgement tests (SJTs) are highly supported by applicants, while aptitude tests are perceived as less acceptable.1 Although this review included a large number of studies (71), most were conducted in single institutions after exposure to one specific selection method. Because previous research indicates that the selection procedure plays a role in study choice,2, 16 results of such studies are only limitedly comparable and generalisable. Additionally, while Kelly et al.1 suggested that certain selection methods are specifically perceived as barriers by underrepresented and minority groups, none of the studies under review directly compared perceptions of different applicant subgroups.

지금까지 지원자 인식의 하위 그룹별 차이를 직접 조사한 연구는 거의 없었습니다. 우리가 아는 한, HPE 분야에서 단일 사이트 연구가 수행된 것은 단 한 건뿐입니다. 이 연구는 SJT에 초점을 맞춘 것으로, 소수 민족 학생과 1세대 대학생이 기존 전형에 비해 SJT 전형에 대해 다른 선호도를 보인다는 결론을 내렸습니다.14 학부 심리학 프로그램에서 수행된 또 다른 단일 현장 연구는 다양한 전형 방법을 포함했지만 배경 변수로 성별에만 초점을 맞추었습니다.2 추첨과 고등학교 성적은 낮은 선호도를 보인 반면 시험과 면접은 높은 선호도를 보였지만, 제공된 평가의 근거에 대해서는 살펴보지 않았습니다. 저자들은 동기 부여 설문지에 대해서만 여성이 남성보다 더 긍정적으로 평가했으며, 연구 대상인 다른 선발 방법에 대한 인식은 성별에 따라 다르지 않다는 것을 발견했습니다.
Thus far, only few studies have directly investigated subgroup differences in applicant perceptions. To our knowledge, only one single-site study was executed in the field of HPE. This research focused on SJTs and concluded that ethnic minority students and first-generation university students had other preferences in SJT format compared with their traditional counterparts.14 Another single-site study that was conducted at an undergraduate psychology programme included a wide range of selection methods but only focused on gender as a background variable.2 Low favourability ratings were found for lottery and high school grades, while tests and interviews were perceived as highly acceptable, but the rationales behind the provided ratings were not explored. The authors found that only motivation questionnaires were rated more positively by women than by men, while perceptions of other selection methods under research did not differ by gender.

따라서 다양한 방법을 포함하고 다양한 관련 배경 특성을 포함하는 다중 기관 환경의 연구와 관련하여 지원자 인식 문헌에는 격차가 존재합니다. 본 연구에서는 지원자들이 학부 HPE 입학을 위한 다양한 전형 방법을 어떻게 인식하는지, 그리고 그러한 인식의 근거는 무엇인지 조사했습니다. 또한 지원자의 성별, 이주 배경(인종 지표), 부모 교육(사회경제적 지위 지표), 이전 교육 등 선발 결과와 관련된 배경 변수를 기반으로 지원자 하위 그룹 간에 이러한 인식이 다른지 평가했습니다.12, 13, 17, 18 
Thus, there is a gap in the applicant perceptions literature with respect to research in multi-institutional settings, that includes a variety of methods and that includes numerous relevant background characteristics. In the present study, we investigated how applicants perceive different selection methods for admission into undergraduate HPE and the rationales behind their perceptions. Additionally, we assessed whether these perceptions differ across subgroups of applicants based on background variables that are associated with selection outcomes: applicants' gender, migration background (as an indicator of ethnicity), parental education (as an indicator of SES) and prior education.12, 13, 17, 18

2 방법

설정 및 절차
Setting and procedure

본 연구는 네덜란드에 있는 3개의 의학 프로그램, 1개의 기술-의료 프로그램, 1개의 약학 프로그램을 포함한 5개의 학부 HPE 프로그램에서 수행되었습니다. 5개 프로그램 모두 자체적으로 설계한 선발 절차가 달랐으며, 최소 두 가지 선발 방법으로 구성되었습니다. 
The present study was conducted at five undergraduate HPE programmes in the Netherlands, including three medical programmes, one technical-medical programme and one pharmacy programme. All five programmes had different self-designed selection procedures, composed of at least two selection methods.

네덜란드에서는 다양한 유형의 학부 HPE 프로그램의 입학 요건이 비슷합니다. 지원 자격을 얻으려면 모든 지원자는 이수 과목(예: 물리, 화학, 생물학) 및 교육 수준(대학 전 교육 졸업 수준)과 관련하여 동일한 엄격한 요건을 충족해야 합니다. 지원자는 다양한 교육 경로를 통해 지원할 수 있지만, 모두 앞서 언급한 요건을 충족한다는 증거를 제출해야 합니다. 결과적으로 지원자 풀은 비교적 동질적이며, 대학 수준의 학부 HPE 프로그램에 지원하는 학생들은 이미 선택성이 높은 중등 교육으로 인해 학업 능력에 따라 강력하게 사전 선발됩니다.19 그러나 pu-GPA와 관련된 입학 요건은 없습니다. 지원자는 자신이 선택한 프로그램에 지원할 때 하나의 특정 교육기관에 지원하게 됩니다. 각 기관마다 미리 정해진 정원이 있습니다. 법에 따라 교육기관은 선발 절차의 일부로 구현할 수 있는 개별 도구인 선발 방법을 사용하여 평가되는 최소 두 가지 선발 기준을 포함해야 합니다. 그러나 선발 방법의 내용 및 품질, 그리고 어떤 방식으로 결합할 것인지에 대한 추가 요건은 없습니다. 따라서 각 기관의 다양한 유형의 HPE 프로그램 간 또는 프로그램 내에서 채택하는 선발 절차는 매우 다양합니다. 현재 프로그램에서 선발 절차의 일부로 (가중치 및 비가중치) 추첨을 선발 방법으로 포함할 수 있도록 허용하는 법안이 계류 중입니다. 
In the Netherlands, admission requirements of different types of undergraduate HPE programmes are comparable. To be eligible, all applicants need to meet the same stringent requirements regarding subjects taken (e.g. physics, chemistry and biology) and educational level (graduation level of pre-university education). Although applicants can apply from different educational routes, they all need to provide proof that they meet aforementioned requirements. Consequently, the applicant pools are relatively homogeneous; students who apply to a university-level undergraduate HPE programme are already strongly preselected based on academic skills due to highly selective secondary education.19 There are no admission requirements, however, with respect to pu-GPA. When applicants apply to their programme of choice, they apply to one specific institution. For each institution, there is a predetermined fixed number of places. By law, institutions are required to include at least two selection criteria, which are assessed using selection methods—the individual tools that can be implemented as part of a selection procedure. However, there are no additional requirements with respect to, for instance, the contents and quality of the selection methods, and in which way they would be combined. Consequently, there is great variety in the selection procedures that programmes employ, both between and within different types of HPE programmes at different institutions. Currently, a bill is pending that should allow programmes to also include (weighted and unweighted) lottery as a selection method as part of their selection procedure.

2020년 9월에 입학 선발 절차에 참여한 모든 지원자(N = 3280명)를 대상으로 지원자 인식에 대한 온라인 설문조사에 참여하도록 초대했습니다. 또한 지원자들은 현장 테스트 당일 또는 이메일을 통해 인구통계학적 설문지를 작성하도록 요청받았습니다.  
All applicants engaged in the selection procedures for entry in September 2020 (N = 3280) were invited to participate in an online survey on applicant perceptions. Additionally, applicants were asked to complete a demographics questionnaire either during an on-site testing day or via e-mail.

모든 참가자로부터 사전 동의를 얻었습니다. 지원자에게는 참여는 자발적인 것이며 선발 결과에 영향을 미치지 않는다는 사실을 알렸습니다. 어떠한 인센티브도 제공되지 않았습니다. 에라스무스 MC의 의료윤리심의위원회는 이 연구가 심의 면제 대상이라고 선언했습니다. 
Informed consent was obtained from all participants. Applicants were informed that participation was voluntary and would not influence their selection outcomes. No incentives were provided. The Medical Ethical Review Committee of Erasmus MC declared the study exempt from review.

척도 Measures

지원자의 인식은 조직 정의 이론에 기반한 7개 항목이 포함된 이전에 보고된 설문지를 사용하여 측정했습니다.14 각 항목은 7점 리커트 척도를 사용하여 평가했습니다.

  • 이전 연구에 따라2, 14 일반적 호감도는 두 가지 항목을 사용하여 평가했습니다.
    • 지각된 예측 타당성 
    • 지각된 공정성
  • 나머지 5개 항목은 절차적 정의 차원 다음을 반영했습니다.
    • 안면 타당도,
    • 지원자 차별성,
    • 학업 관련성,
    • 수행 기회,
    • 부정행위의 용이성
  • 각 정의 차원에 대한 구체적인 항목(즉, 응답자에게 제공된 정의)과 평가 척도는 표 S1에서 확인할 수 있습니다.

Applicant perceptions were measured using a previously reported questionnaire including seven items based on organisational justice theory.14 Each item was judged using a 7-point Likert scale.

  • In accordance with previous studies,214 general favourability was assessed using two items:
    • perceived predictive validity and
    • perceived fairness.
  • The other five items reflected the following procedural justice dimensions:
    • face validity,
    • applicant differentiation,
    • study relatedness,
    • chance to perform and
    • ease of cheating.
  • The specific items (i.e. definitions provided to respondents) and rating scales of each justice dimension can be consulted in Table S1.

Table S1. Applicant perception items

Label Item
Perceived predictive validity How would you rate the effectiveness of [insert method] for identifying qualified people for medical school? (1: very ineffective – 7: very effective)
Perceived fairness If you would not be admitted based on a [insert method], what would you think of the fairness of this procedure? (1: very unfair – 7: very fair)
Face validity A [insert method] is a logical test for identifying qualified applicants for medical school. (1: strongly disagree – 7: strongly agree)
Applicant differentiation A [insert method] measures an individual's important qualities, differentiating them from others. (1: strongly disagree – 7: strongly agree) 
Study relatedness A person who scores well on a [insert method] Test will be a good medical student. (1: strongly disagree – 7: strongly agree) 
Chance to perform I could really show my skills and abilities through a [insert method]. (1: strongly disagree – 7: strongly agree) 
Ease of cheating It is easy to cheat or fake on a [insert method]. (1: strongly disagree – 7: strongly agree) 

medu14949-sup-0001-revised supplemental files (clean).docx

응답자들은 [일반적으로 사용되는 11가지 전형 방법]에 대해 지원자 인식 항목을 개별적으로 평가하도록 요청받았습니다.

  • 인지능력 검사,
  • 커리큘럼 샘플링 검사,
  • 이력서(CV),
  • 면접,
  • 지원동기서,
  • 인성 설문지,
  • 대학 전 학년 평균(pu-GPA),
  • SJT,
  • 스킬 테스트,
  • 무가중 추첨 및 가중 추첨

무가중 추첨과 가중 추첨의 경우, 다른 항목은 해당 전형 방법과 관련이 없는 것으로 간주하여 일반적 호감도와 안면 타당도만 평가했습니다. 각 선발 방법에 대한 간략한 설명(표 S2)과 함께 SJT 및 인성 설문지의 예시 항목이 제공되었습니다. 각 선발 방법(추첨 포함)에 대해 지원자들은 '[삽입 방법]을 선발 방법으로 사용하는 것에 대해 하고 싶은 말이 있습니까?"라는 개방형 질문에 답하도록 요청받았습니다. 선발 방법은 순서 효과를 완화하기 위해 무작위 순서로 제시되었습니다. 
Respondents were asked to rate the applicant perception items separately for 11 commonly used selection methods:

  • cognitive capacity test,
  • curriculum-sampling test,
  • curriculum vitae (CV),
  • interview,
  • motivation letter,
  • personality questionnaire,
  • pre-university grade-point average (pu-GPA),
  • SJT,
  • skills test,
  • unweighted lottery and weighted lottery.

For unweighted and weighted lottery, only general favourability and face validity were assessed, as the other items were considered irrelevant for those methods. A short description of each selection method was provided (Table S2), along with example items for the SJT and personality questionnaire. For each method (including lottery), applicants were also asked to answer the following open-ended question: ‘Do you have any remarks about using [insert method] as a selection method?’ The selection methods were presented in a random order to mitigate order effects.

Table S2. Operational definitions of presented selection methods

Method Description provided to applicants
Cognitive capacity test 분석적 추론, 언어적 추론, 공간적 통찰력 등 지원자의 지능과 인지 능력을 평가하는 테스트입니다. 예를 들어 IQ 테스트 또는 독해력 테스트가 있습니다.
Test that assesses intelligence and cognitive abilities of the applicants, such as analytical reasoning, verbal reasoning and spatial insight. Examples include an IQ test or a reading comprehension test.
Curriculum-sampling test 커리큘럼 샘플링 시험의 경우, 지원자는 학습 프로그램을 대표하는 과목에 대한 강의를 듣거나 나중에 평가할 학습 자료를 받습니다.
For the curriculum-sampling test, applicants attend a lecture on a subject representative for the study program and/or receive study material on which they will be assessed at a later date.
Curriculum vitae A CV describes extra-curricular activities, such as work experience, a board position or caregiving.
Interview Interview with a selection committee in which applicants are asked various questions about their background, skills and motivation.
Motivation letter 지원자는 동기 부여 편지에서 프로그램에 지원하게 된 동기를 설명합니다.
In a motivation letter, applicants describe their motivation for the program.
Personality questionnaire Questionnaire on personality characteristics in which applicants have to indicate to what extent they agree with various statements.
Pre-university grade point average  Average of grades that applicants achieved in secondary school, for example average of grades obtained in their penultimate year.
Situational Judgement Test Test consisting of short scenarios that describe difficult situations that applicants can encounter in the program. The scenarios are followed by a number of possible reactions to each situation, which applicants judge for appropriateness.
Skills test 의료 윤리적 문제에 대한 성찰이나 환자에게 나쁜 소식을 전달하는 등 프로그램에서 특별히 중요한 기술을 평가하는 테스트입니다.
Test that assesses skills that are of specific importance to the program, for example reflecting on medical-ethical issues or delivering bad news to a patient.
Unweighted lottery Applicants are only admitted to the program on the basis of chance.
Weighted lottery Applicants are placed in different lottery categories based on their pre-university grade point average. Applicants with a higher pre-university grade point average have a greater chance of being admitted.

인구통계학적 설문지에는 성별, 이주 배경, 이전 교육, 부모 교육 등의 변수가 포함되었습니다. 본 연구에서는 성별 다양성을 인정하여 지원자는 '남성', '여성', '기타(자유 텍스트 상자)'의 세 가지 범주 중에서 선택할 수 있었습니다. 이주 배경은 네덜란드 통계청(CBS)에 따라 정의되었습니다. 지원자는 다음의 세 가지 그룹으로 분류되었습니다. 

  • (i) 부모 모두 네덜란드에서 태어난 경우 이주 배경 없음
  • (ii) 부모 중 한 명 이상이 유럽(네덜란드, 터키 제외), 북미, 오세아니아, 일본 또는 인도네시아에서 태어난 경우 서구 이주 배경
  • (iii) 부모 중 한 명 이상이 아프리카, 아시아(일본, 인도네시아 제외), 라틴 아메리카 또는 터키에서 태어난 경우 비 서구 이주 배경

사전 교육과 관련해서는 네덜란드의 표준 대학 예비 교육, 대학 및 기타 형태의 사전 교육(예: 고등 직업 교육, 외국 교육)을 구분했습니다. 마지막으로, 부모 교육과 관련하여 지원자의 부모 중 고등 교육(대학 또는 고등 직업 교육)을 받은 사람이 없는 경우 지원자를 1세대 대학 지원자로 분류했습니다.
The following variables were included in the demographics questionnaire: gender, migration background, prior education and parental education. Gender diversity was acknowledged in the present study, and applicants had the option to choose between three categories: ‘man’, ‘woman’ and ‘other, namely [free text box]’. Migration background was defined in accordance with Statistics Netherlands (CBS). Applicants were categorised in three groups:

  • (i) no migration background when both parents were born in the Netherlands;
  • (ii) a Western migration background when at least one parent was born in Europe (excluding the Netherlands and Turkey), North America, Oceania, Japan or Indonesia; and
  • (iii) a non-Western migration background when at least one parent was born in Africa, Asia (excluding Japan and Indonesia), Latin America or Turkey.

With respect to prior education, we distinguished between standard Dutch pre-university education, university and other forms of prior education (e.g. higher vocational education, foreign education). Finally, for parental education, applicants were categorised as first-generation university applicants when none of their parents had attended higher education (university or higher vocational education).

분석 결과

다양한 선발 방식에 대한 지원자의 인식을 조사하기 위해 서술적 통계를 사용했습니다. 내적 일관성을 확인한 후, 응답자별로 각 전형 방법에 대한 일반적 호감도는 두 가지 일반적 호감도 항목의 평균 점수로 계산했습니다. 일반 호감도 및 기타 항목에 대해서는 각 선택 방법에 대한 평균 점수와 95% 신뢰 구간을 계산했습니다. 또한 절차적 정의 차원 간의 관계를 조사하기 위해 각 전형 방식에 대한 일반 호감도 점수와 다른 항목 간의 상관관계를 계산했습니다.
In order to investigate applicant perceptions of different selection methods, we used descriptive statistics. After checking for internal consistency, general favourability of each method for each respondent was calculated as the mean score on the two general favourability items. For general favourability and the other items, the mean score and 95% confidence interval for each selection method were calculated. Additionally, we calculated correlations between scores on general favourability and the other items for each method to examine relationships between the procedural justice dimensions.

지원자 하위 그룹에 따라 지원자의 인식이 다른지 알아보기 위해 선형 혼합 모델을 사용했습니다. 혼합 모델을 통해 부분적으로 누락된 데이터를 보완하고 개인 및 상황 관련 차이를 통제할 수 있었습니다. 이 모형의 종속변수는 평균 일반 호감도 점수였습니다. 고정 효과에는 선발 방법뿐만 아니라 각 선발 방법과 관심 있는 인구통계학적 변수(성별, 이주 배경, 이전 교육 및 부모 교육) 간의 상호작용 효과가 포함되었습니다. 무작위 요인에는 지원자 ID와 지원자가 지원한 프로그램이 포함되었으며, 구조화되지 않은 공분산 구조를 사용했습니다. 공분산 구조에 대한 결정은 카이카이크 정보 기준에 따라 이루어졌습니다. 이 분석을 위해 개별 지원자의 데이터는 11가지 선발 방법 중 최소 10개에 대해 일반적 호감도가 평가된 경우에만 사용되었습니다.
To study whether applicant perceptions differed for subgroups of applicants, we used a linear mixed model. The mixed model compensated for partially missing data and allowed us to control for individual and context-related differences. The dependent variable in this model was the mean general favourability score. Fixed effects included the selection method, as well as the interaction effects between each selection method and the demographic variables of interest (gender, migration background, prior education and parental education). Random factors included applicant id and the programme to which the applicant applied, using an unstructured covariance structure. The decision on the covariance structure was based on the Akaike information criterion. For this analysis, data of individual applicants were used only when at least 10 of the 11 selection methods were rated on general favourability.

개방형 질문에 대한 답변은 구성주의 패러다임에서 지원자의 인식 이면에 있는 근거를 보다 심층적으로 파악하는 데 사용되었습니다. 본 연구에서는 지시적 접근법을 사용하여 내용에 대한 질적 분석을 사용했습니다.20 지시적 접근법에서는 이론적 틀을 검증하고 확장하는 것을 목표로 코드 형성을 위한 초기 지침으로 이론을 사용합니다. 본 연구에서는 조직 정의 이론의 이론적 개념이 코딩 과정의 토대를 형성했습니다. 장과 와일더무스가 설명한 분석 절차를 따랐습니다.21 

  • 제1저자(SFW)는 데이터를 숙지하고 코딩 매뉴얼을 개발했습니다.
  • 설문지의 이론적 개념인 안면 타당도, 지원자 차별화, 연구 관련성, 수행 기회 및 부정행위의 용이성에 따라 상위 코드는 미리 결정되었습니다.
    • 또한 우리가 실시한 설문지에서 다루지 않은 조직 정의 이론의 다른 개념인 분배 정의, 채용 중 반응, 채용 후 반응, 자기 인식과
    • 절차적 정의와 관련하여 이전에 보고된 설문지에서 사용된 기타 항목과학적 증거, 대인관계의 따뜻함, 사용할 권리, 사생활 침해, 광범위한 사용, 노력 기대치, 알려진 정보, 재고 기회, 피드백, 관리의 일관성, 개방성, 대우, 쌍방향 커뮤니케이션도 코딩 매뉴얼에 상위 코드로 포함했습니다.2, 22
  • 하위 코드는 코딩 과정에서 개발되었습니다.
    • 따라서 먼저 공개 답변이 어떤 이론적 개념을 참조하는지 파악한 후(상위 코드),
    • 지원자가 제공한 구체적인 주장을 코딩했습니다(하위 코드).
  • 또한 분석의 모든 단계에서 비판적인 대화를 나누고 이론의 사각지대를 인식함으로써 이론적 틀을 벗어난 잠재적으로 관련성이 있는 결과를 식별하기 위해 반성적 태도를 취하고자 했습니다.
  • 제1저자(박사과정, 교육학 전공)와 제2저자(KMSJ, 선임연구원, 교육학 전공, 다양성 연구 경험)는 각 선택 방법에 대해 두 가지 답변을 함께 코딩한 다음, 각 선택 방법에 대해 10개의 무작위 샘플을 독립적으로 코딩했습니다.
  • 일치도가 높았기 때문에 나머지 답변은 SFW가 코딩한 후 KMSJ가 일관성 검사를 실시했습니다.
  • 일관성 점검은 각 코드에 대해 댓글의 하위 샘플이 해당 특정 코드가 다루는 주제에 실제로 적용되는지 여부를 비판적으로 검토하는 것을 수반했습니다.
  • SFW는 전체 연구팀과 논의한 데이터에서 결론을 도출했습니다.

The answers to the open-ended questions were used to get a more in-depth view of the rationales behind applicant perceptions, from a constructivist paradigm. We used qualitative analysis of content, employing a directed approach.20 With a directed approach, a theory is used as initial guidance for the formation of codes with the goal of validating and extending the theoretical framework. In the present study, theoretical concepts of organisational justice theory formed the foundation for the coding process. We followed the analytical procedure described by Zhang and Wildemuth.21 

  • The first author (SFW) familiarised herself with the data and developed a coding manual.
  • Higher order codes were predetermined and were based on the theoretical concepts of the questionnaire: face validity, applicant differentiation, study relatedness, chance to perform and ease of cheating.
  • Additionally,
    • other concepts of organisational justice theory that were not covered by the questionnaire we administered were included as higher order codes in the coding manual, including distributive justice, reactions during hiring, reactions after hiring and self-perceptions,
    • as well as other items used in previously reported questionnaires referring to procedural justice: scientific evidence, interpersonal warmth, right to use, invasion of privacy, wide-spread use, effort expectancy, information known, reconsideration opportunity, feedback, consistency of administration, openness, treatment and two-way communication.222 
  • Lower order codes were developed during the coding process.
    • Thus, we first identified to which theoretical concept an open answer referred (higher order codes) and
    • subsequently coded the specific argument the applicant provided (lower order codes).
  • We also aimed to employ reflexivity to identify potentially relevant findings that were outside of our theoretical framework, by having critical dialogues throughout all stages of the analyses and being aware for blind spots in the theory.
  • SFW (PhD candidate, background in educational sciences) and the second author (KMSJ; senior researcher, background in educational sciences, experienced in research on diversity) coded two answers for each selection method together and then coded a random sample of 10 answers for each selection method independently. 
  • Because there was a high level of agreement, SFW coded the remaining answers, after which KMSJ conducted a consistency check.
  • The consistency check entailed that for each code, it was critically reviewed whether a subsample of the comments did indeed apply to the subject covered by that specific code.
  • SFW drew conclusions from the data that were discussed with the full research team.

3 결과

참가자 특성
Participant characteristics

총 704명의 지원자가 연구에 참여했습니다(응답률 = 21%). 응답자 중 71%가 여성으로 확인되었으며, '기타'라고 밝힌 지원자는 1명이었습니다. 이 지원자는 하위 그룹 분석에서 제외되었으므로 결과에는 남성과 여성 범주만 설명되어 있습니다. 또한 35%는 이주 배경을 가지고 있었고(비서양 26%, 서양 9%), 25%는 1세대 대학 지원자였습니다. 사전 교육과 관련하여 77%는 표준 예비 대학 교육, 15%는 대학, 8%는 기타 형태의 사전 교육을 통해 직접 지원했습니다. 성별, 부모 교육 및 사전 교육과 관련하여 본 연구의 인구통계학적 분포는 남성과 1세대 대학 지원자가 과소 대표되는 네덜란드에서 수행된 다른 연구와 비슷했습니다.12, 17, 18 이주 배경을 가진 지원자 역시 네덜란드에서 과소 대표되지만,12 본 연구에서는 상대적으로 큰 하위 그룹을 구성했으며, 이는 포함된 대부분의 프로그램이 도시 환경에 있기 때문일 수 있습니다. 
In total, 704 applicants participated in the study (response rate = 21%). Amongst the respondents, 71% identified as woman, and one applicant identified as ‘other’. This individual was excluded from the subgroup analyses and therefore only the categories men and women are described in the results. Furthermore, 35% had a migration background (26% non-Western, 9% Western), and 25% were first-generation university applicants. With respect to prior education, 77% applied directly from standard pre-university education, 15% from university and 8% from other forms of prior education. With respect to gender, parental education and prior education, demographic distributions in the present study were comparable with those of other research conducted in the Netherlands, where men and first-generation university applicants are underrepresented.12, 17, 18 Applicants with a migration background are also underrepresented in the Netherlands,12 but composed a relatively large subgroup in the present study, which may be due to the urban setting of most of the included programmes.

일반적 호감도
General favourability

두 가지 일반적 호감도 항목은 충분하거나 양호한 내적 일관성을 보였습니다(인지 능력 테스트: α = 0.84, 커리큘럼 샘플링 테스트: α = 0.74, 이력서: α = 0.83, 인터뷰: α = 0. 77, 지원동기서: α = 0.79, 인성검사: α = 0.79, pu-GPA: α = 0.85, SJT: α = 0.81, 스킬 테스트: α = 0.79, 무가중 추첨: α = 0.79, 무가중 추첨: α = 0.86).
The two general favourability items showed a sufficient to good internal consistency (cognitive capacity test: α = 0.84, curriculum-sampling test: α = 0.74, CV: α = 0.83, interview: α = 0.77, motivation letter: α = 0.79, personality questionnaire: α = 0.79, pu-GPA: α = 0.85, SJT: α = 0.81, skills test: α = 0.79, unweighted lottery: α = 0.79, unweighted lottery: α = 0.86).

지원자들은 커리큘럼 샘플링 시험(평균 [M] = 5.32, 95% 신뢰 구간 [95% CI; 5.24, 5.40], 표 1)에 대해 가장 높은 호감도를 보인 반면, 가중치 추첨(M = 3.05 [2.93, 3.17])과 무가중 추첨(M = 2.97 [2.83, 3.10])은 가장 낮게 인식했습니다.
Applicants provided the highest general favourability ratings for curriculum-sampling tests (mean [M] = 5.32, 95% confidence interval [95% CI; 5.24, 5.40]; Table 1), while weighted lottery (M = 3.05 [2.93, 3.17]) and unweighted lottery (M = 2.97 [2.83, 3.10]) were perceived least favourable.

일반 호감도 점수와 다른 지원자 인식 항목 간의 상관관계는 모두 통계적으로 유의미했지만(p <0.05), 상관관계의 강도에 있어서는 큰 폭의 차이가 있었습니다(표 3 참조). 일반적인 호감도와 가장 강력한 상관관계를 보인 정의 차원은 안면 타당도였으며, 부정행위의 용이성과 일반적인 호감도 간의 음의 상관관계는 가장 작았습니다. 
All correlations between the general favourability score and other applicant perception items were statistically significant (p < 0.05), but there was a great range in the strengths of the correlations (see Table 3). The justice dimension that was most strongly related with general favourability was face validity, while the negative correlation between ease of cheating and general favourability was the smallest.

지원자의 인식은 프로그램마다 다른 것으로 나타났습니다(표 2). 일반적으로 지원자들은 자신이 지원한 프로그램에서 사용하는 선발 방식에 대해 사용하지 않는 방식에 비해 더 긍정적인 인식을 가지고 있었습니다. 
Applicant perceptions appear to differ between different programmes (Table 2). Generally, applicants had more positive perceptions towards selection methods used by the programme they applied to compared with methods that were not used.

정의 차원
Justice dimensions

다음 섹션에서는 인식 점수의 정량적 결과와 지원자의 추론에 대한 정성적 결과를 통합하여 다양한 정의 차원에 대한 결과를 제시합니다. 가장 두드러진 결과만 논의하며, 정량적 및 정성적 결과에 대한 전체 개요는 각각 표 3과 표 4를 참조하시기 바랍니다.
In the next sections, the results for the different justice dimensions will be presented by integrating the quantitative findings of perception scores and the qualitative findings of applicants' reasoning. Only the most salient findings are discussed, and for a complete overview of the quantitative and qualitative findings, we refer to Tables 3 and 4, respectively.



3.3.1 안면 타당도
3.3.1 Face validity

커리큘럼 샘플링 테스트기술 테스트안면 타당도에서 가장 높은 평가를 받았지만(각각 M = 5.46, 95% CI [5.37, 5.54], M = 5.27 [5.18, 5.36]), 지원자들은 이 차원과 관련하여 이 방법들에 대해 언급하지 않았습니다. 이는 다른 차원에서도 지원자들이 주로 부정적인 측면에 초점을 맞춰 댓글을 달았다는 점을 잘 보여줍니다. 면접은 안면 타당도 척도에서도 높은 평가를 받았습니다(M = 5.17 [5.07, 5.27]). 지원자들은 동기 부여, 성격, 사회적 기술 등의 속성을 중요하게 생각했지만 이러한 속성에 대한 서면 평가보다는 구두 면접을 선호했습니다. 이는 인성 설문지의 상대적으로 낮은 평가(M = 3.87 [3.75, 3.99])를 설명할 수도 있습니다. Pu-GPA 역시 안면 타당도(M = 3.70 [3.58, 3.82])에서 낮은 평가를 받았으며, 지원자들은 입학 요건이 이미 프로그램에 입학할 수 있는 역량을 충분히 증명하기 때문에 pu-GPA는 부가가치가 없다고 언급했습니다. 가중 추첨과 무가중 추첨에 대한 평점이 가장 낮았습니다(각각 M = 2.99 [2.87, 3.12], M = 2.50 [2.37, 2.63]). 지원자들은 두 가지 유형의 추첨이 모두 지원자의 스트레스와 부담을 줄일 수 있다는 점을 인정했지만, 자신을 차별화하려는 강한 열망을 전달했으며 추첨이 가장 우수하고 동기 부여가 높은 학생을 선발하지 못할 것이라고 믿었습니다. 
Curriculum-sampling tests and skills tests received the highest ratings on face validity (respectively, M = 5.46, 95% CI [5.37, 5.54], M = 5.27 [5.18, 5.36]), but applicants did not comment on these methods with respect to this dimension. This is illustrative of the observation that, also for other dimensions, applicants mainly focused on negative aspects in their comments. Interviews were also rated highly on the scale of face validity (M = 5.17 [5.07, 5.27]). Applicants considered attributes such as motivation, personality and social skills important but preferred an oral interview over a written assessment of these attributes. This may also explain the relatively low rating of personality questionnaires (M = 3.87 [3.75, 3.99]). Pu-GPA also received a low rating on face validity (M = 3.70 [3.58, 3.82]), and applicants mentioned that pu-GPA was not of added value as the admission requirements would already provide enough evidence of their capacity to enter the programme. The lowest ratings were provided for weighted and unweighted lottery (respectively, M = 2.99 [2.87, 3.12], M = 2.50 [2.37, 2.63]). Although applicants acknowledged that both types of lottery can reduce stress and pressure for applicants, they communicated a strong desire to distinguish themselves and believed that lotteries would not select the best and most motivated students.

3.3.2 지원자 차별화
3.3.2 Applicant differentiation

기술 테스트면접은 지원자 차별화에서 상대적으로 높은 점수를 받았습니다(각각 M = 5.25 [5.16, 5.34], M = 5.23 [5.13, 5.33]). 지원자들이 차별화 기술을 평가하고 평가자가 지원자의 역량을 적절히 파악할 수 있다고 언급한 유일한 전형 방식이었습니다. 그러나 대부분의 선발 방식에 대해 지원자들은 해당 방식이 평가하고자 하는 방식이 아닌 다른 기술을 기준으로 지원자를 구별한다고 지적했습니다.

  • 예를 들어, 지원자들에 따르면 동기부여서순수한 동기 대신 글쓰기 능력을 평가하고,
  • 선발 시험은 목표 지식이나 기술 대신 시험에 대한 지혜와 준비 시간을 측정합니다.
  • 인성 문항과 SJT는 지원자의 실제 성격이나 상황에 대한 반응보다는 매우 기초적인 지식인 사회적 기대에 대한 지식에 따라 지원자를 구분한다는 비판을 받았습니다.

Pu-GPA에 대해서 지원자들은 같은 성적을 받은 지원자라도 동기, 노력, 난이도에 따라 차이가 크다고 답해 가장 낮은 점수(M = 3.25 [3.13, 3.36])를 받았습니다. 
Skills tests and interviews received relatively high scores on applicant differentiation (respectively, M = 5.25 [5.16, 5.34], M = 5.23 [5.13, 5.33]). These were the only methods for which applicants mentioned that distinguishing skills are assessed and assessors can get an adequate overview of applicants' competencies. For most of the selection methods, however, applicants indicated that the methods distinguish candidates based on other skills than the methods are intended to assess.

  • For instance, according to applicants, motivation letters assess writing skills instead of pure motivation, and
  • selection tests measure test wiseness and preparation time instead of the targeted knowledge or skills.
  • Personality questionnaires and SJTs received the criticism that applicants are distinguished based on their knowledge of social expectations—which they expected to be very basic knowledge—rather than their actual personality or reactions to situations.

Pu-GPA received the lowest scores (M = 3.25 [3.13, 3.36]), as applicants mentioned that the same grade is the result of a wide range in motivation, effort and degree of difficulty.

3.3.3 학업 관련성
3.3.3 Study relatedness

일반적인 호감도에 비해 학업 관련성에 대한 평균 점수는 모든 전형 방법에서 상대적으로 낮았습니다(범위 M = 2.93~4.43). 이는 각 전형 방법에서 지원자들이 특정 관련 기술만 평가하고 다른 중요한 속성에 대한 정보는 누락되었다고 응답했기 때문일 수 있습니다. 예를 들어, 지원자들에 따르면 인지 능력 테스트는 정보 처리 및 문제 해결과 같은 관련 기술을 평가할 수 있지만 사회성 및 의사 소통 능력은 고려되지 않습니다. 따라서 지원자들은 어떤 방법도 학습 성과를 완벽하게 예측할 수 없다고 생각했으며, 여러 가지 선발 방법을 조합하는 것을 선호했습니다. 지원자들은 광범위한 기술을 평가하는 것을 선호했지만, 프로그램 과정에서 이러한 기술을 개발할 수 있는 여지가 있어야 한다고 답해 딜레마가 발생했습니다. 
Compared with general favourability, the mean scores on study relatedness were relatively low for all selection methods (range M = 2.93–4.43). A possible explanation is that for each selection method, applicants indicated that only certain relevant skills are assessed, while information on other important attributes is missed. For instance, while cognitive capacity tests can, according to applicants, assess relevant skills such as information processing and problem-solving, social and communicative skills are not taken into account. Thus, applicants believed that none of the methods can fully predict study performance and they preferred a combination of selection methods. Although applicants preferred assessment of a broad range of skills, they also stated that there should be room to develop those skills over the course of the program, introducing a dilemma.

스킬 테스트커리큘럼 샘플링 테스트는 학습 관련성에서 가장 높은 점수를 받았습니다(각각 M = 4.43 [4.33, 4.53], M = 4.38 [4.28, 4.48]). 지원자들은 두 가지 방법 모두 광범위한 기술을 평가할 수 있다고 언급했습니다. 또한, 이 두 가지 방법의 경우에만 지원자들이 프로그램과 교재에 대해 더 잘 알 수 있어, 지원자가 프로그램 내용에 관심이 있고 대처할 수 있는지를 평가할 수 있는 기회를 제공한다고 답했습니다. 가장 낮은 점수를 받은 평가 방법인 pu-GPA과 이력서(각각 M = 3.11 [3.00, 3.22], M = 2.93 [2.82, 3.04])에 대해 지원자들은 평가된 기술이 너무 일반적이며 이전 성과가 미래의 성공을 예측할 수 없다고 답했습니다. 
Skills tests and curriculum-sampling tests received the highest scores on study relatedness (respectively, M = 4.43 [4.33, 4.53], M = 4.38 [4.28, 4.48]). Applicants mentioned that both methods can assess a broad range of skills. Moreover, only for these methods, applicants stated that they can become more acquainted with the programme and its course materials, creating an opportunity for applicants to assess whether they are interested in and able to cope with the programme content. For the lowest scoring methods—pu-GPA and CV (respectively, M = 3.11 [3.00, 3.22], M = 2.93 [2.82, 3.04])—applicants stated that the assessed skills are too generic and that previous performance is not predictive of future success.

3.3.4 수행 기회
3.3.4 Chance to perform

수행 기회에 대한 평균 점수도 상대적으로 낮았습니다(범위 M = 3.09~4.90). 정성적 결과는 이 결과에 대한 몇 가지 잠재적인 설명을 제공합니다.

  • 첫째, 지원자들은 수행 기회와 관련하여 몇 가지 딜레마를 언급했습니다. 예를 들어, 지원자들은 이전 성과보다 현재 지식과 기술에 대한 평가를 선호했으며, 스냅샷 평가의 단점을 지적했습니다.
  • 둘째, 각 선발 방식에 대해 지원자들은 특정 하위 그룹의 수행 기회를 방해할 수 있는 불평등의 원인을 발견했습니다. 예를 들어, 의료 분야 내 네트워크의 존재이력서를 작성하는 데 유용한 것으로 간주되었으며, 충분한 재정적 자원이 있는 지원자는 더 나은 시험 결과를 위해 상업적 코칭을 받거나 더 높은 pu-GPA을 받기 위해 과외를 받을 수 있었습니다.

실기 시험면접은 각각 4.90점(4.80점, 5.00점), 4.77점(4.66점, 4.89점)으로 더 높은 점수를 받았으며, 지원자들은 이러한 방법이 다양한 자질을 보여줄 수 있는 여지를 더 많이 제공한다는 인상을 받았다고 언급했습니다. Pu-GPA가 가장 낮은 점수(M = 3.09 [2.97, 3.21])를 받았는데, 이는 지원 전에 데이터가 수집되었기 때문에 지원자들이 이 선발 방법에 대한 통제력이 부족하다고 느꼈기 때문으로 설명할 수 있습니다.
The mean scores on chance to perform were also relatively low (range M = 3.09–4.90). The qualitative results provide some potentially relevant explanations for this finding.

  • First, applicants mentioned some dilemmas with respect to chance to perform. For instance, they preferred assessment of current knowledge and skills over previous achievements and pointed out drawbacks of snapshot assessments.
  • Second, for each selection method, applicants noticed sources of inequality that can interfere with the chance to perform on a method for certain subgroups. For example, the existence of a network within the medical field was considered useful for building a CV, and applicants with enough financial resources could take commercial coaching for better test results and tutoring for a higher pu-GPA.

Skills test and interview scored higher on chance to perform (respectively, M = 4.90 [4.80, 5.00], M = 4.77 [4.66, 4.89]), and applicants noted that they got the impression that these methods allow for more space to show a broad range of qualities. Pu-GPA received the lowest scores (M = 3.09 [2.97, 3.21]), which can be explained by the fact that applicants experienced a lack of control for this selection method, as data had been collected before application.

3.3.5 부정행위의 용이성
3.3.5 Ease of cheating

부정행위의 용이성에서 가장 높은 점수를 받은 네 가지 전형 방법인 인성검사, 지원동기서, SJT, 면접(각각 M = 6.06 [5.96, 6.16], M = 5.72 [5.62, 5.82], M = 4.72 [4.57, 4.86], M = 4.62 [4.50, 4.74])에 대해 지원자들은 사회적 바람직성이 중요한 역할을 할 수 있다고 언급했습니다. 지원 동기 편지에 대한 추가 의견으로는 지원자가 다른 사람에게 편지를 쓰게 하여 쉽게 속일 수 있다는 점이 있었습니다. 이력서 역시 상대적으로 부정행위를 저지르기 쉬운 것으로 간주되었습니다(M = 4.42 [4.28, 4.56]). 지원자들은 문서를 위조하기 쉽고, 소수의 이력서 샘플만을 대상으로 정확성 여부를 확인한다고 설명했습니다. 지원자들은 점수가 낮은 선발 방식에서 부정행위가 더 어려운 이유에 대해 별다른 언급을 하지 않았습니다.
For the four selection methods scoring highest on ease of cheating—personality questionnaire, motivation letter, SJT and interview (respectively, M = 6.06 [5.96, 6.16], M = 5.72 [5.62, 5.82], M = 4.72 [4.57, 4.86], M = 4.62 [4.50, 4.74])—applicants mentioned that social desirability can play a major role. An additional remark about motivation letters is that applicants can easily cheat by letting others write their letter. CV was also considered relatively easy to cheat on (M = 4.42 [4.28, 4.56]). Applicants explained that it is easy to forge documents, and only a small sample of CVs is checked on correctness. Applicants did not have any remarks about why it is harder to cheat on the lower scoring selection methods.

3.3.6 추가 차원
3.3.6 Additional dimensions

설문지에서 다루었던 정의 차원 외에도 주관식 질문에 대한 답변에서 여러 가지 추가 차원을 확인했습니다.
Besides the justice dimensions that were covered by the questionnaire, we identified a number of additional dimensions in the answers to the open-ended questions.

첫 번째 정의 차원은 운영의 일관성으로, 이는 결정 절차가 사람에 따라 그리고 시간에 따라 편견 없이 일관되게 적용되는 정도를 의미합니다.22

  • 이력서, 지원동기서, 인터뷰 및 기술 테스트는 평가자의 개인적인 의견에 많은 여지를 주고 결과적으로 평가자 간 평가에 잠재적인 차이를 발생시키는 보다 주관적인 방법으로 간주되었습니다.
  • 지원자들은 또한 pu-GPA 관리의 일관성에 대해서도 언급했습니다. 현재 pu-GPA는 학교별 시험을 기반으로 합니다. 지원자들은 학교마다 평가 방법, 난이도, 채점 방식에 큰 차이가 있어 다른 학교의 pu-GPA를 비교할 수 없다고 언급했습니다. 

A first justice dimension was consistency of administration, which refers to the extent to which decision procedures are consistent and without bias across people and over time.22 

  • CVs, motivation letters, interviews and skills tests were considered as more subjective methods, giving a lot of space to the personal opinion of assessors and consequently creating potential differences in ratings between assessors.
  • Applicants also commented on the consistency of administration for pu-GPA. Currently, pu-GPA is based on school-specific examinations. Applicants mentioned that there is a great difference between schools in assessment methods, difficulty level and way of rating, making pu-GPA from different schools incomparable.

둘째, 설문지에서는 학업 관련성에만 초점을 맞춘 반면, 지원자들은 학업 관련성과 직무 관련성을 구분하는 경향이 있었습니다.

  • 예를 들어, 지원자들은 학업 관련성과 관련하여 커리큘럼 샘플링에 대해 대체로 긍정적인 의견을 보였지만, 성공적인 의료 전문가가 되기 위해서는 사회성 및 의사소통 능력과 같은 다른 기술도 중요하다고 언급했습니다. 지원자들은
    • 기술 테스트, 인터뷰, SJT, 인성 설문지를 통해 미래 직업에 필요한 중요한 특성을 평가할 수 있다고 답한 반면,
    • 학점, 인지 테스트, 이력서, 커리큘럼 샘플링 테스트는 그렇지 않다고 답했습니다.

Second, while the questionnaire only focused on study relatedness, applicants tended to make a distinction between study relatedness and job relatedness.

  • For instance, while applicants had generally positive comments about curriculum sampling with respect to study relatedness, they mentioned that other skills are relevant to become a successful health professional, such as social and communicative skills.
    • They stated that skills tests, interviews, SJTs and personality questionnaires can assess important attributes for the future profession,
    • while this was not so much the case for pu-GPA, cognitive tests, CVs and curriculum-sampling tests.

일부 의견은 절차적 정의보다는 선발 절차 결과의 공정성과 관련된 분배적 정의에 관한 것이었습니다.15 

  • 지원자들은 무가중 추첨의 장점으로 입학 기회가 균등해져 더 다양한 학생이 입학할 수 있다는 점을 언급했습니다. 다른 방법을 적용하면 앞서 언급한 불평등한 기회로 인해 학생의 다양성이 감소할 수 있습니다. 
  • 합격한 학생들이 비슷한 의견을 갖게 되어 학생 집단에서 관점의 다양성이 줄어들 수 있다는 점도 SJT에 불리한 결과로 언급되었습니다.

Some comments were not related to procedural justice, but rather to distributive justice, relating to the fairness of the outcomes of the selection procedure.15 

  • Applicants mentioned that an advantage of unweighted lottery is that the equal chances to be admitted would lead to a more diverse student population. The application of other methods could result in a decrease of student diversity, because of the aforementioned inequal chances to perform.
  • An additional unfavourable outcome was mentioned for SJTs: accepted students would have similar opinions and there would be less diversity in perspectives in the student cohorts.

마지막으로, 선발에 대한 인식의 결과로 여겨지는 개인의 태도와 행동과 관련된 조직 정의 이론의 '결과' 부분에 대해 많은 언급이 있었습니다.15 

  • 특히 우려되는 주제 중 하나는 선발 방식이 지원자들에게 많은 스트레스와 압박을 유발할 수 있다는 것이었습니다.
  • 지원자들은 이력서 작성, 커리큘럼 샘플링 시험 공부 등 많은 준비가 필요한 선발 방식이 학업 및 기타 책임과 병행해야 하기 때문에 스트레스를 받을 수 있다고 언급했습니다.
  • 스트레스의 또 다른 원인으로 언급된 것은 지원자들이 시험 당일에 큰 부담감으로 인해 겪는 압박감이었습니다. 지원자들은 또한 여러 전형 방법을 병행할 경우의 단점으로 스트레스를 꼽았습니다.

Finally, numerous remarks were made about the ‘outcomes’ part of organisational justice theory, which relates to the attitudes and behaviours of individuals that are thought to be a result of perceptions of selection.15 

  • One particular topic of concern was that selection methods can cause a lot of stress and pressure amongst applicants.
  • Applicants mentioned that selection methods that require a lot of preparation, such as building a CV and studying for a curriculum-sampling test, can be stressful as they have to combine this with school and other responsibilities.
  • Another source of stress that was mentioned was the pressure that applicants experience during testing days due to the high stakes involved. Applicants also recognised stress as a drawback of combining multiple selection methods.

지원자 하위 그룹에 따른 인식의 차이
Differences in perceptions for subgroups of applicants

각 전형 방법에 대한 전반적인 호감도의 하위 그룹별 차이에 대한 선형 혼합 모형의 결과는 표 5에 나와 있으며, 각 하위 그룹에 대한 기술 통계는 보충 표 S3-S6에 나와 있습니다. 여성에 비해 남성은 가중치 없는 추첨을 유의하게 덜 호의적으로 인식했으며(B = -0.55, 95% CI [-0.84, -0.26]), 이는 1-7점 척도에서 평균적으로 남성은 가중치 없는 추첨을 0.55점 낮게 평가했음을 나타냅니다. 성격 설문지 역시 남성이 훨씬 덜 호의적으로 인식했습니다(B = -0.23, [-0.47, -0.00]). 다른 선택 방법에서는 성별 차이가 발견되지 않았습니다. 흥미롭게도 개방형 질문에 대한 답변에서 여성이 선호하는 이력서 및 pu-GPA 에 대한 언급이 다수 있었는데, 이는 일반적으로 남성이 미래의 학업 방향을 늦게 시작한다는 의미로 해석할 수 있습니다. 이러한 우려는 정량적 조사 결과에는 반영되지 않았습니다.
The results of the linear mixed model for subgroup differences in general favourability ratings for each selection method are depicted in Table 5, and the descriptive statistics for each subgroup are provided in supplemental Tables S3–S6. Compared with women, men perceived unweighted lottery as significantly less favourable (B = −0.55, 95% CI [−0.84, −0.26]), indicating that on average, men rated unweighted lottery 0.55 units lower on a scale from 1–7. Personality questionnaires were also perceived as significantly less favourable by men (B = −0.23, [−0.47, −0.00]). No gender differences were found for other selection methods. Interestingly, in the answers to open-ended questions, multiple remarks were given about CV and pu-GPA favouring women, describing that men generally start later with their future study orientation. This concern was not reflected in the quantitative findings.

비 서구권 이주 배경을 가진 지원자들은 이력서(B = 0.50 [0.22, 0.77])와 커리큘럼 샘플링 테스트(B = 0.25 [0.06, 0.44])에 대해 상당히 높은 호감도를 보인 반면, 기술 테스트와 면접은 상당히 덜 호의적으로 인식했습니다(각각 B = -0.29 [-0.50, -0.09], B = -0.42 [-0.64, -0.20]). 비 서구권 이주 배경을 가진 지원자의 면접 및 기술 테스트 점수가 더 낮은 것은 이러한 방법의 주관적인 특성으로 인해 편견에 더 취약하다는 의견으로 설명할 수 있습니다. 서구 이민 배경을 가진 지원자에 대한 인식은 이민 배경이 없는 지원자와 다르지 않았습니다.
Applicants with a non-Western migration background provided significantly higher favourability ratings for CVs (B = 0.50 [0.22, 0.77]) and curriculum-sampling tests (B = 0.25 [0.06, 0.44]), while skills tests and interviews were perceived significantly less favourable (respectively, B = −0.29 [−0.50, −0.09], B = −0.42 [−0.64, −0.20]). The lower scores on interviews and skills tests for applicants with a non-Western migration background may be explained by remarks about the subjective nature of these methods, making them more susceptible to bias. Perceptions of applicants with a Western migration background did not differ from those without a migration background.

예비 대학 교육 마지막 해에 지원한 지원자들과 비교했을 때, 이미 대학 수준에서 공부하고 있던 지원자들은 면접과 무가중 추첨에 대해 훨씬 더 긍정적인 평가를 내렸습니다(각각 B = 0.33 [0.07, 0.58], B = 0.54 [0.17, 0.92]). 반면, pu-GPA(B = -0.83 [-1.14, -0.52]), 인지 테스트(B = -0.31 [-0.59, -0.04]) 및 가중치 추첨(B = -0.41 [-0.74, -0.08])에 대한 호감도는 유의하게 낮았습니다. 다른 형태의 사전 교육을 받은 지원자들은 대학 교육을 받지 않은 지원자들에 비해 인성 설문과 면접을 훨씬 더 유리하게 평가했습니다(각각 B = 0.49 [0.09, 0.89], B = 0.46 [0.12, 0.80]). 지원자들은 pu-GPA에 대해서만 대학 이전 교육의 역할에 대해 언급했는데, 이는 [pre-university 교육 마지막 해에 지원하지 않은 지원자]의 pu-GPA는 이미 지나간 성취도이며, 지원자의 현재 실력을 정확하게 반영하지 못한다는 것을 나타냅니다.
Compared with applicants applying during their final year of pre-university education, applicants who were already studying at university-level rated interviews and unweighted lottery significantly more positive (respectively, B = 0.33 [0.07, 0.58], B = 0.54 [0.17, 0.92]), while their favourability ratings were significantly lower for pu-GPA (B = −0.83 [−1.14, −0.52]), cognitive tests (B = −0.31 [−0.59, −0.04]) and weighted lottery (B = −0.41 [−0.74, −0.08]). Applicants from alternative forms of prior education rated personality questionnaires and interviews significantly more favourable compared with applicants from pre-university education (respectively, B = 0.49 [0.09, 0.89], B = 0.46 [0.12, 0.80]). Only with respect to pu-GPA, applicants commented on the role of prior education, indicating that pu-GPAs for applicants not applying during their final year of pre-university education are outdated and do not accurately represent applicants' current skills.

1세대 대학 출신 여부에 따른 지원자 인식의 차이는 발견되지 않았습니다.
No differences in applicant perceptions were found based on first-generation university status.

4 토론

본 연구의 목적은 학부 HPE의 맥락에서 지원자들이 다양한 선발 방법을 어떻게 인식하는지에 대한 심층적인 이해를 얻기 위한 것이었습니다. 연구 결과에 따르면 지원자들은 커리큘럼 샘플링 시험과 기술 시험에 대한 선호도가 가장 높은 반면, 가중치 추첨과 무가중 추첨을 가장 선호하지 않는 것으로 나타났습니다. 또한 선발 방식에 대한 지원자의 인식은 성별, 인종, 사회경제적 지위(SES), 학력에 따른 지원자 하위 그룹에서 전반적으로 유사하게 나타났습니다. 마지막으로, 지원자들은 한 가지 방법만으로는 충분하다고 생각하지 않고 여러 가지 선발 방법을 조합하는 것을 선호한다는 결과가 나왔습니다.
The aim of the present study was to gain a deeper understanding of how applicants perceive different selection methods within the context of undergraduate HPE. Our findings indicate that applicants have the strongest preference for curriculum-sampling tests and skills tests, while they consider weighted and unweighted lotteries the least favourable. Furthermore, applicant perceptions of selection methods are overall similar across subgroups of applicants based on gender, ethnicity, SES and prior education. Finally, the results show that applicants do not think one single method is sufficient, but instead prefer a combination of selection methods.

첫 번째 주요 결과는 지원자들이 '폭넓은' 선발 기준과 자신이 더 '통제할 수 있다'고 느끼는 선발 방법을 선호한다는 것입니다. 가장 높은 평가를 받은 세 가지 전형 방법인 커리큘럼 샘플링 테스트, 스킬 테스트, 면접은 모두 확장된 기준을 반영하며, 이는 pu-GPA과 같은 전통적인 방식에 포함된 인지적 능력을 넘어서는 자질을 평가하는 것을 목표로 합니다.23 본 연구에 참여한 지원자들은 이미 엄격한 입학 요건으로 인해 인지적 특성에 따라 선발된 경향이 강하므로 다른 영역에서 자신을 차별화하는 것을 선호하는 것은 놀라운 일이 아닙니다. 실제로 지원자들은 입학 요건보다 내신 성적과 인지능력 테스트가 갖는 부가가치가 무엇인지에 대해 의문을 제기했습니다. 또한, 조직 정의 이론15과 의대 선발에 관한 이전 연구에 따르면,24 지원자들은 선발 과정에서 '자신을 표현'하고 싶은 욕구를 가지고 있으며, 이는 더 넓은 기준을 반영하는 방법을 통해 더 잘 가능하다고 주장할 수 있습니다. 추첨(우연에 맡김)과 선발 전 획득한 평점(pu-GPA)에 대한 평가가 낮은 것은 지원자들이 '통제할 수 있는 상태'를 선호한다는 것을 나타냅니다. 앞서 주장한 바와 같이,1,2 이는 조직 정의 이론을 통해서도 설명할 수 있는데, 지원자들은 결정 과정에 영향을 미칠 기회가 있을 때 그 방법이 더 공정하다고 인식하기 때문입니다.15 이 결과는 성공과 실패가 자신의 노력과 재능에 기인할 수 있다는 능력주의적 가치에 대한 광범위한 사회적 인식과도 관련이 있습니다.25 결과적으로 HPE 선발 지원자들은 자신이 통제할 수 없다고 느끼는 탈락을 받아들이기 어렵다고 느낄 수 있습니다.26 
A first key finding is that applicants have a preference for ‘broadened’ selection criteria and selection methods on which they feel to be more ‘in control’. The three highest rating selection methods – curriculum-sampling tests, skills tests and interviews—all reflect broadened criteria, which aim to assess qualities that go beyond the cognitive abilities that are included in traditional methods such as pu-GPA.23 Applicants in the current study were already strongly preselected based on cognitive characteristics due to the stringent admission requirements; thus, it is not surprising that they prefer to distinguish themselves in other areas. In fact, applicants questioned the added value of pu-GPA and cognitive capacity tests over the admission requirements. Additionally, according to organisational justice theory,15 as well as previous research in medical school selection,24 applicants have the desire to ‘express themselves’ during a selection procedure, and it can be argued that this is better possible with methods that reflect broadened criteria. The low ratings of lotteries—leaving it to chance—and pu-GPA—obtained prior to selection—indicate that applicants prefer to be ‘in control’. As previously argued,1, 2 this can also be explained through organisational justice theory, because applicants perceive methods as fairer when they have an opportunity to influence the decision process.15 This finding can furthermore be related to a broader societal appreciation of meritocratic values, implying that success and failure can be attributed to one's own efforts and talent.25 Consequently, applicants for selection into HPE can find rejections that feel beyond their control difficult to accept.26

둘째, 연구 결과에 따르면 지원자의 배경은 다양한 선발 방식에 대한 인식에 큰 영향을 미치지 않는 것으로 나타났습니다. 성별, 이주 배경, 사전 교육에 따라 지원자 하위 그룹 간에 통계적으로 유의미한 인식 차이가 일부 발견되었지만, 이러한 차이가 갖는 실질적인 의미는 무시할 수 있는 수준이며, 전반적으로 지원자들의 인식은 매우 유사했습니다. 성별의 경우, 이러한 인식 차이는 심리학 지원자를 대상으로 실시한 이전 연구 결과와 일치합니다.2 그러나 인종 및 사회경제적 배경과 관련된 연구 결과는 예상치 못한 것이었는데, 이전 연구에 따르면 소수 민족 또는 사회경제적 배경이 낮은 지원자는 선발에 대해 더 부정적인 인식을 가지고 있다고 합니다.1, 3, 11 지원자들은 선발의 형식적 특성(예: 선발 방법)은 배경에 관계없이 비슷하게 인식하는 반면, 사회 인구학적 소수 민족 지원자는 (대인 관계적 대우 등) 절차적 정의의 다른 요소에 대해 더 부정적으로 인식할 가능성이 있습니다. 실제로 소수 민족 학생들이 의과대학에 재학 중일 때 불공정한 대우에 대해 더 많이 인식한다는 연구 결과가 있습니다.27, 28

Second, our findings suggest that applicants' background does not play a substantial role in their perceptions of different selection methods. Although we did find some statistically significant differences in perceptions between applicant subgroups based on gender, migration background and prior education, the practical meaning of these differences is negligible, and their perceptions were overall very similar. For gender, this lack of difference in perceptions is in accordance with findings of a previous study conducted with psychology applicants.2 However, our findings with respect to ethnicity and SES were unexpected, as previous research suggested that students with an ethic minority or lower socio-economic background have more negative perceptions towards selection.1, 3, 11 Potentially, applicants perceive the formal characteristics of selection (i.e. selection methods) similar regardless of their background, while applicants with sociodemographic minority backgrounds may have more negative perceptions regarding other components of procedural justice, such as interpersonal treatment. Indeed, research has indicated that ethnic minority students have more perceptions of unfair treatment when they are in medical school.27, 28 

소수 민족 배경을 가진 지원자들이 특정 선발 방법에 대해 더 부정적인 인식을 갖지 않았다는 결과에 대한 다른 이유는,

  • 이전 연구에서 주로 아직 지원하지 않은 예비 대학생을 대상으로 하여 부정확하거나 불완전한 정보에 근거하여 인식했을 수 있기 때문입니다.3, 11
  • 반대로 본 연구의 참가자들은 선발 경험이 있고 이에 대한 이해가 더 높았을 가능성이 높습니다.
  • (이전 연구에서와 같은 경우) 소수 배경을 가진 학생들은 주로 지원 전 기간에는 선발 절차에 대한 정확한 정보에 대한 접근성이 떨어질 수 있습니다.29

그럼에도 불구하고 이전 연구와 일치하는 질적 연구 결과도 있었는데, 예를 들어 소수 배경을 가진 지원자가 의료 분야의 코칭, 과외 및 소셜 네트워크에 대한 접근성이 낮기 때문에 지원자들이 선발 방법이 공평한 의과 교육 입학을 방해 할 수 있다고 생각한다는 징후를 제공했습니다 .3, 11, 29 

An alternative reason for the finding that applicants with minority backgrounds did not have more negative perceptions towards certain selection methods is

  • that previous studies mainly included eligible pre-university students who have not yet applied and could have based their perceptions on inaccurate or incomplete information.311 
  • Contrarily, participants in the present study had experience with selection and probably had a better understanding of it.
  • Thus, students with minority backgrounds possibly experience less access to accurate information about the selection procedure mainly in the period prior to application.29 

Nevertheless, corresponding with previous studies, the qualitative findings did provide indications that applicants believe selection methods can hinder equitable admission to medical education, for instance, because applicants with a minority background have less access to coaching, tutoring and a social network in the medical field.3, 11, 29

세 번째 주요 결과는 지원자들에 따르면 궁극적인 해결책은 없으며, 모든 선발 방법에는 특정한 장단점이 있다는 것입니다. 이는 정성적 결과에서 확인된 여러 가지 상반된 선호도에 잘 반영되어 있습니다. 우리가 발견한 가장 두드러진 딜레마는 다음 등이었습니다. 

  • (1) 지원자가 [현재 시점에서 제공할 수 있는 것을 측정하는 것][스냅샷 평가의 부정적인 결과에 대응하는 것]
  • (2) [기존의 지식과 기술을 측정하는 것][(향후에) 프로그램 동안 기술을 성장시키고 개발할 수 있는 공간을 제공하는 것]
  • (3) [최고의 학생을 선발하는 것][최고의 미래 전문가를 선발하는 것]
  • (4) [포괄성을 위해 여러 선발 방법을 결합하는 것][지나친 스트레스와 압박을 방지하는 것]

A third key finding is that according to applicants, there is no ultimate solution; all selection methods are accompanied by certain advantages and disadvantages. This is well reflected by a number of conflicting preferences that we identified in the qualitative results. The most distinctive dilemmas we found were

  • (1) measuring what applicants can offer at the present versus countering negative consequences of snapshot assessments,
  • (2) measuring existing knowledge and skills versus providing space to grow and develop skills during the program,
  • (3) selecting the best students versus selecting the best future professionals and
  • (4) combining multiple selection methods for comprehensiveness versus preventing too much stress and pressure.


  • 첫 번째 딜레마는 기회의 공정성 차원을 반영하는 것으로, 앞서 언급한 지원자들이 선발 과정을 통제할 수 있다고 느끼고자 하는 욕구를 강조하는 것입니다. 
  • 두 번째와 세 번째 딜레마는 학업 및 직무 관련성과 관련이 있으며 학계에서도 논쟁의 대상이 되고 있습니다.23 
  • 마지막 딜레마는 조직 정의 이론의 다른 부분, 즉 지원자의 인식과 개인 및 조직 결과 간의 관계와 더 관련이 있습니다.15 이 이론에 따르면 공정성에 대한 인식은 동기부여, 자존감, 자기 효능감('채용 시 반응'이라고 함)과 같은 변수에 영향을 미칠 수 있습니다.15 
  • The first dilemma evidently reflects the justice dimension of chance to perform and stresses the aforementioned desire of applicants to feel in control of the selection process.
  • The second and third dilemmas relate to study and job relatedness and are also topic of debate within the academic field.23 
  • The final dilemma relates more to another part of organisational justice theory, namely, the relationship between applicants' perceptions and individual and organisational outcomes.15 According to the theory, perceptions of fairness can affect variables such as motivation, self-esteem and self-efficacy (referred to as ‘reactions during hiring’).15 

본 연구에서는 스트레스와 압박감이 주요 관심사로 제기되었는데, 지원자들은 주로 준비 기간과 관련된 높은 고부담과 관련된 것으로 나타났습니다. 한 검토에 따르면 HPE 학생들 사이에서 심리적 스트레스가 상당히 만연한 것으로 나타났습니다.30 그럼에도 불구하고 지금까지 선발과 관련하여 지원자의 웰빙에 대한 연구는 거의 또는 전혀 이루어지지 않았으며 스트레스라는 특정 개념은 조직 정의 이론에 포함되지 않았습니다. 본 연구의 결과는 이를 검증하기 위해서는 추가 연구가 필요하겠지만, '채용 중 반응'의 추가 하위 범주로 이론에 추가하는 것이 적절할 수 있음을 시사합니다.
Feelings of stress and pressure were brought up as a topic of concern in the present study, which applicants mainly related to the amount of preparation and the high stakes involved. A review also identified considerable prevalence of psychological stress amongst students in HPE.30 Nevertheless, thus far, studies have paid little to no attention to applicant well-being with respect to selection and the particular concept of stress is not included in organisational justice theory. Results of the present study indicate that it may be relevant to add this to the theory as an additional subcategory of ‘reactions during hiring’, although further research would be required to validate this.

본 연구의 강점은 다양한 사회인구학적 하위 그룹의 인식을 비교하고 광범위한 선발 방법에 대한 지원자 인식의 근본적인 논거를 모색한 최초의 연구라는 점입니다. 또한 여러 프로그램에서 데이터를 수집했습니다. 그 결과, 지원자들은 자신이 접해보지 못한 선발 방식에 대해서도 의견을 제공했습니다. 이러한 방식으로 지원자가 선택한 프로그램에 따라 선발 절차가 영향을 미칠 수 있다는 점을 고려할 때, 연구 결과는 자의적 선택의 영향을 덜 받았습니다.16 그러나 이러한 강점에도 불구하고 응답자들이 설문지의 일부 방법에 대해 경험한 적이 있는 반면, 다른 방법에 대해서는 선발 방법에 대한 짧은 설명만을 바탕으로 인식하고 있다는 한계가 있었습니다. 일부 방법은 어떤 프로그램에서도 사용되지 않았습니다. 지원자가 지원한 프로그램을 통제하여 이 문제를 최대한 완화했습니다. 또한, 실시된 설문조사는 포괄성, 방어 가능성 및 프로세스의 역할과 같이 지원자의 인식에 영향을 미칠 수 있는 모든 요소를 포착하지 못했습니다.31 본 연구의 또 다른 한계는 표본 규모가 비교적 컸음에도 불구하고 초대된 지원자 중 21%만이 설문조사에 응답했다는 점입니다. 따라서 이들의 인식이 전체 지원자 풀을 완전히 대표하지 못할 수도 있습니다. 그럼에도 불구하고 본 연구의 표본은 인구통계학적 특성 측면에서 이전 연구의 지원자 풀과 비슷했습니다.12, 17 마지막 한계는 개방형 질문의 자발적 특성과 하위 그룹의 불균등한 분포로 인해 본 연구에서 다양한 하위 지원자 그룹의 주장을 직접 비교할 수 없었다는 것입니다. 따라서 정량적 데이터로 포착할 수 없었던 특정 하위 그룹의 인식 차이가 발견되지 않았을 수 있습니다.
A strength of the present study is that, to our knowledge, it is the first to compare perceptions of different sociodemographic subgroups and seek for the underlying argumentation behind applicant perceptions for a great range of selection methods. Additionally, we collected data from multiple programmes. Consequently, applicants also provided their opinions for methods that they had not been exposed to. This way, our results were less influenced by self-selection, given that the selection procedure can play a role in applicants' programme of choice.16 However, this strength was also accompanied by the limitation that the respondents did have experience with some of the methods in the questionnaire, while for other methods, their perceptions were based solely on a short description of the selection method. Some of the methods were not employed by any of the programmes. We mitigated this as much as possible by controlling for the programme to which applicants had applied. Furthermore, the survey that was administered did not capture all factors that could influence applicant perceptions, such as comprehensiveness, defensibility and the role of the process.31 Another limitation of the present study was that, although the sample size was relatively large, only 21% of invited applicants responded to the survey. Consequently, their perceptions may not be fully representative for the complete applicant pool. Nevertheless, our sample was comparable with applicant pools in previous studies in terms of demographic characteristics.12, 17 A final limitation is that the present study could not directly compare the argumentation of different subgroups of applicants due to the voluntary nature of the open-ended questions and the unequal distribution of subgroups. Consequently, certain subgroup differences in perceptions that could not be captured by the quantitative data may have remained undiscovered.  

현재의 연구는 절차적 정의의 한 측면(즉, 형식적 특성)에 초점을 맞추었지만, 향후 연구에서는 대인 관계적 대우와 같은 다른 절차적 정의 요소에도 관심을 기울일 수 있습니다.15 또한 신청자 인식에 관한 보다 근본적인 질문은 아직 조사되지 않았습니다: 이러한 인식의 발달에 어떤 메커니즘이 작용하는가? 지원자들의 인식의 기반이 되는 근본적인 가치는 무엇인가? 또한, 본 연구에서 지원자들은 여러 가지 방법을 조합하여 선호했기 때문에 다양한 방법의 조합에 따라 선발 절차를 어떻게 인식하는지 조사하는 것도 가치가 있을 수 있습니다. 총체적 접근 방식은 포괄성과 WA에 모두 주의를 기울이기 때문에 지원자의 인식을 평가하는 것은 특히 흥미로울 것입니다.32 또한, 본 연구 결과에 따르면 지원자들은 자신이 지원한 프로그램과 자신이 준비한 프로그램에서 사용하는 방법을 더 선호하는 것으로 나타났습니다. 
The current study focused on one aspect of procedural justice (i.e. formal characteristics), but future studies can also pay attention to other justice components, such as interpersonal treatment.15 Additionally, more fundamental questions regarding applicant perceptions have not been investigated yet, such as: What mechanisms play a role in the development of these perceptions? What are the underlying values of applicants on which their perceptions are based? Furthermore, in the present study, applicants preferred a combination of different methods, so it could be valuable to examine how they perceive selection procedures with different combinations of methods. It would be particularly interesting to evaluate applicant perceptions regarding a holistic approach, as this approach pays attention to both comprehensiveness and WA.32 Furthermore, results of the present study suggest that applicants have a stronger preference for the methods employed by the programmes to which they have applied and for which they have prepared.

향후 연구에서는 숨겨진 커리큘럼에 대한 지원자의 인식이 이러한 선호도에 영향을 미치는지 여부를 조사할 수 있습니다. 향후 연구의 또 다른 흥미로운 방향은 지원자의 배경에 따라 [선발 과정에서의 인식]과 [성과performance] 간의 관계가 달라지는지에 대한 질문과 관련이 있습니다. 이전 연구에 따르면 지원자의 인식과 성과는 양의 상관관계가 있으며,2, 5, 6 특정 인구통계학적 하위 그룹은 선발 과정에서 성과가 저조한 반면,12, 13, 17, 18 지원자의 배경에 관계없이 인식은 비슷하다는 사실이 밝혀졌습니다. 또한 아직 지원하지 않은 지원자격eligible 학생을 대상으로 하위 그룹에 대한 인식을 조사하는 것도 적절할 수 있습니다. 마지막으로, 연구자들은 지원자들이 관련성이 있다고 생각하는 주제인 행정의 일관성 및 직무 관련성, 지원자 복지에 관한 항목을 조사에 포함시키는 것을 고려할 수 있습니다.

Future research could examine whether applicant perceptions of the hidden curriculum play a role in this preference. Another interesting direction for future research relates to the question of whether the relationship between perceptions and performance during selection differs based on applicants' background. Previous studies have indicated that applicant perceptions and performance are positively correlated,2, 5, 6 and that certain demographic subgroups perform less well during selection,12, 13, 17, 18 while we found that perceptions were similar for applicants regardless of their background. Additionally, it can be relevant to investigate subgroup perceptions for eligible students who have not applied yet. Finally, researchers can consider including items on consistency in administration and job relatedness, as well as applicant well-being, because these topics were considered relevant by applicants.

실용적인 관점에서, 이번 연구 결과는 지원자가 선호하는 선발 방법을 고려함으로써 선발 위원회가 절차를 설계하는 데 도움이 될 수 있는 인사이트를 제공합니다. 그러나 선발 방법(정치적 타당성의 요소)에 대한 지원자의 인식과 다른 타당성 지표 사이에는 마찰이 있을 수 있습니다.1, 2 예를 들어, 지원자들은 선발 방법으로 pu-GPA를 사용하는 것에 대해 부정적인 인식을 가지고 있지만, pu-GPA는 미래의 학업 성과를 강력하게 예측합니다.33 마찬가지로, 본 연구 결과에 따르면 커리큘럼 샘플링 테스트를 포함하면 비 서구 배경을 가진 지원자를 더 많이 유치할 수 있지만, 제출한 연구에서 이 하위 그룹의 지원자가 그러한 테스트에서 낮은 성과를 보인다는 사실을 발견했습니다.34 따라서 어떤 선발 방법을 포함할지 결정할 때 지원자의 인식을 고려하는 동시에 넓은 의미에서 타당성의 다른 측면도 고려할 수 있습니다.35 그럼에도 불구하고, 우리의 연구 결과는 어떤 선발 방법이 덜 매력적이고 더 나은 설명이 필요한지 식별하는 데 도움이 될 수 있습니다.2 
From a practical viewpoint, our findings provide insights that can help selection committees design their procedures, by considering selection methods that are preferred by applicants. However, there can be frictions between applicant perceptions of selection methods (an element of political validity) and other indicators of validity.1, 2 For instance, while applicants hold negative perceptions towards the use of pu-GPA as a selection method, pu-GPA is strongly predictive of future academic performance.33 Likewise, the findings of the present study suggest that the inclusion of curriculum-sampling tests can attract more applicants with a non-Western background, but we found in a submitted study that this subgroup of applicants performs less well on such tests.34 Thus, when deciding which selection methods to include, applicant perceptions can be taken into account, while also considering other aspects of validity in a broad sense.35 Nevertheless, our findings can help identify which selection methods are less attractive and require better explanation.2 

선발 방법에 대한 명확하고 투명한 커뮤니케이션은 특히 더 '주관적'으로 인식되고 때로는 부정확한 정보를 기반으로 인식되는 광범위한 기준의 경우 지원자 인식을 개선 할 수 있습니다. 예를 들어, 지원자들은 이력서를 작성하는 데 의료 분야의 소셜 네트워크가 필요하다고 생각했지만, 본 연구에 참여한 프로그램에서는 의료 분야 이외의 다른 관련 경험도 중요하게 여겼습니다. 지원자의 인식을 이해한다고 해서 프로그램에 어떤 선발 방법을 포함해야 하는지에 대한 명확한 해답을 얻을 수는 없지만, 질적 연구 결과는 프로그램이 지원자의 요구를 고려하여 동기 부여와 성과를 개선하거나 중도 탈락을 방지하기 위해 선발 방법을 조정할 수 있는 방법에 대한 귀중한 통찰력을 제공합니다. 예를 들어, 지원자들은 선발이 자신의 복지에 미치는 영향을 우려하기 때문에 프로그램은 커리큘럼 샘플링 시험의 준비 자료 양을 제한할 수 있습니다.

Clear and transparent communication about selection methods may improve applicant perceptions, especially in the case of broadened criteria that are perceived as more ‘subjective’ and for which perceptions were sometimes based on inaccurate information. For instance, applicants believed that a social network in the medical field is necessary for building a CV, while the programmes in our study also value other relevant experience outside of the medical field. Although understanding applicant perceptions cannot provide clear-cut solutions about which selection methods programmes should include, our qualitative findings provide valuable insights into how programmes can adjust the implementation of their selection methods to take applicants' needs into account to improve motivation and performance or prevent withdrawal. For example, because applicants were concerned about the impact of selection on their well-being, programmes could limit the volume of preparatory materials for curriculum-sampling tests.

결론적으로, 학부 HPE 선발에 참여하는 지원자들은 자신이 통제할 수 있다고 인식하고 인지능력 이외의 다른 자질을 평가하는 선발 방법을 선호합니다. 또한, 본 연구에 따르면 개별 선발 방식에 대한 지원자의 인식은 일반적으로 다수 배경을 가진 지원자와 소수 배경을 가진 지원자 간에 유사합니다. 지원자의 상반된 요구와 지원자의 인식과 다른 타당성 지표 간의 마찰로 인해 선발 방법에 대한 보다 명확하고 투명한 커뮤니케이션과 방법 내에서의 수정이 요구됩니다.
In conclusion, applicants participating in selection for undergraduate HPE prefer selection methods for which they perceive to be in control and which assess other qualities than cognitive ability. Additionally, the present study indicated that applicant perceptions of individual selection methods are generally similar between applicants with majority and minority backgrounds. Due to contradictory needs of applicants and frictions between applicant perceptions and other indicators of validity, we call for a clearer and more transparent communication of selection methods and modifications within methods.


Med Educ. 2023 Feb;57(2):170-185. doi: 10.1111/medu.14949. Epub 2022 Oct 23.

Applicant perceptions of selection methods for health professions education: Rationales and subgroup differences

Affiliations collapse

1Institute of Medical Education Research Rotterdam, Erasmus MC, University Medical Center Rotterdam, Rotterdam, The Netherlands.

2Technical Medical Centre, Technical Medicine, University of Twente, Enschede, The Netherlands.

3Department of Pharmaceutical Sciences, Utrecht University, Utrecht, The Netherlands.

4Department of Medical Biology, Amsterdam UMC, University of Amsterdam, Amsterdam, The Netherlands.

5Faculty of Medicine VU, Amsterdam UMC location Vrije Universiteit Amsterdam, Amsterdam, The Netherlands.

6LEARN! Research Institute for Learning and Education, Faculty of Psychology and Education, VU University Amsterdam, Amsterdam, The Netherlands.

PMID: 36215062

PMCID: PMC10092456

DOI: 10.1111/medu.14949

Free PMC article


Context: Applicant perceptions of selection methods can affect motivation, performance and withdrawal and may therefore be of relevance in the context of widening access. However, it is unknown how applicant subgroups perceive different selection methods.

Objectives: Using organisational justice theory, the present multi-site study examined applicant perceptions of various selection methods, rationales behind perceptions and subgroup differences.

Methods: Applicants to five Dutch undergraduate health professions programmes (N = 704) completed an online survey including demographics and a questionnaire on applicant perceptions applied to 11 commonly used selection methods. Applicants rated general favourability and justice dimensions (7-point Likert scale) and could add comments for each method.

Results: Descriptive statistics revealed a preference for selection methods on which applicants feel more 'in control': General favourability ratings were highest for curriculum-sampling tests (mean [M] = 5.32) and skills tests (M = 5.13), while weighted lottery (M = 3.05) and unweighted lottery (M = 2.97) were perceived least favourable. Additionally, applicants preferred to distinguish themselves on methods that assess attributes beyond cognitive abilities. Qualitative content analysis of comments revealed several conflicting preferences, including a desire for multiple selection methods versus concerns of experiencing too much stress. Results from a linear mixed model of general favourability indicated some small subgroup differences in perceptions (based on gender, migration background, prior education and parental education), but practical meaning of these differences was negligible. Nevertheless, concerns were expressed that certain selection methods can hinder equitable admission due to inequal access to resources.

Conclusions: Our findings illustrate that applicants desire to demonstrate a variety of attributes on a combination of selection tools, but also observe that this can result in multiple drawbacks. The present study can help programmes in deciding which selection methods to include, which more negatively perceived methods should be better justified to applicants, and how to adapt methods to meet applicants' needs.

구두평가 맥락에서 질문하기: 분류체계와 기본원칙 (J Med Educ Curric Dev. 2020)
Prompting Candidates in Oral Assessment Contexts: A Taxonomy and Guiding Principles
Jacob Pearce and Neville Chiavaroli




의과대학 및 의학전문대학원 교육 과정의 고난도 시험에서 시험관들은 구두 평가 형식, 특히 시험관이 수험생에게 질문을 던지는 것에 대해 불안감을 느끼는 경우가 많습니다. 구조화되지 않은 구술 시험의 신뢰성과 타당성에 대한 오랜 우려1-3와 시험관의 객관성과 일관성에 기반한 OSCE 형식의 등장에도 불구하고, 구술 시험은 임상적 추론 및 전문적 행동과 같은 고차원적 역량을 평가하는 중요한 방법으로 많은 임상 평가 상황에서 살아남아 번성하고 있습니다. 이는 진정성, 유연성 및 대화형 형식으로 인식되기 때문입니다.4-6 그러나 시험관의 역할에 대한 오해와 응시자 수행에 대한 질문, 자극 및/또는 프로빙의 적절한 사용으로 인해 그 가치가 손상될 수 있습니다. 
In high-stakes examinations in both medical school and post-graduate medical education, examiners often feel uneasy about the oral assessment format, particularly the notion of examiner prompting of the examinee. Despite long-standing concerns about the reliability and validity of unstructured oral exams,1-3 and the emergence of the OSCE format founded upon examiner objectivity and consistency, the Viva survives (and arguably thrives) in many clinical assessment contexts as a valued method for assessing higher order competencies such as clinical reasoning and professional behaviour. It does so due to its perceived authenticity, flexibility and interactive format.4-6 Yet its value can be compromised through misunderstanding of the role and appropriate use of examiner questioning, prompting and/or probing of candidate performance.

의과대학과 전문의 수련 대학에서 우리는 이 문제에 대해 시험관들 사이에서 상당한 혼란이 있음을 발견했습니다. 시험관이 잘 훈련된 경우에도 어떤 종류의 프롬프트 관행이 허용되는지 또는 아예 허용되는지 여부에 대한 불확실성이 남아 있습니다. 의심할 여지 없이 시험관들은 옳은 일을 하고 싶어 합니다. 구두 평가 형식 및/또는 다양한 평가 맥락에서 프롬프트의 의미에 대한 정확성이 부족하기 때문에 문제가 발생할 수 있다고 생각합니다. 우리는 주로 프롬프트와 구술 시험 간의 관계에 초점을 맞추고 있지만, 프롬프트는 더 넓은 범위의 시험, 실제로 평가자와 응시자 간의 상호 작용이 수반되는 모든 평가 방법에서 중요한 고려 사항이라고 주장합니다. 예를 들어, 프롬프트는 미니 임상 평가 연습(min-CEX), 객관적 구조화 임상 시험(OSCE), 절차적 기술 관찰(DOPS), 다중 미니 인터뷰(MMI), 표준화된 사례 기반 토론 등 시험관과 응시자 간에 언어적 상호작용이 있는 다른 많은 평가 유형에서 공통으로 사용되는 요소입니다.  
In medical schools and specialist training colleges, we have noticed considerable confusion amongst examiners on this issue. Even when examiners are well-trained, there remains uncertainty about what kind of prompting practices are permissible, or whether it is permissible at all. Undoubtedly, examiners want to do the right thing. We suggest that the problem may arise due to a lack of precision around what prompting means in the oral assessment format, and/or in different assessment contexts. Although we focus mainly on the relationship between prompting and oral examinations, we argue that prompting is an important consideration in a wider range of examinations and, indeed, any assessment method that involves an interaction between assessor and candidate. For instance, prompting is a common component of many other assessment types where there is verbal interaction between examiner and candidate, including the Mini-Clinical Evaluation Exercise (min-CEX), Objective Structured Clinical Examinations (OSCEs,) Direction Observation of Procedural Skills (DOPS), Multiple Mini Interviews (MMIs) and Standardised Case-Based Discussions. 

우리는 프롬프트가 구두 평가의 유효성에 결정적인 역할을 하는 측면이며, 이 형식에 대한 학술 문헌에서 더 많은 관심을 기울일 필요가 있다고 주장합니다. 구두 평가에 대한 심층 분석에서5 Joughin은 '상호작용'이라는 차원과 '프로빙'이라는 용어를 사용하여 이 기능이 형식의 고유한 장점에 기여할 뿐만 아니라 유효성 관점에서 주요 과제를 구성한다는 점을 인정합니다. 다른 저자들은 구두 평가 시 다양한 프롬프트 관행이 응시자에게 미칠 수 있는 잠재적 영향에 대해 언급했습니다.7,8 그러나 이 외에도 프롬프트의 성격과 형태에 대한 논의는 문헌에서 상대적으로 거의 찾아볼 수 없습니다. 예를 들어, OSCE에 대한 한 종합 가이드에서 프롬프트에 대한 언급은 'OSCE에서 응시자에게 프롬프트를 하는 것이 적절한지에 대한 의견은 다를 수 있지만, 모든 응시자에게 동일한 경험을 제공하기 위해 모든 시험관은 프롬프트와 관련하여 합의된 정책을 미리 알고 있어야 한다'는 다소 모호한 언급만 있습니다.9 구두 평가의 타당성을 명시적으로 탐구하고 구체적인 실행 지침을 제공하는 논문에서도 프롬프트 문제에 대해서는 거의 언급이 없습니다.2
Prompting, we argue, is an aspect of oral assessment that is crucial to the validity of its implementation, and deserves more attention in the scholarly literature on the format. In his in-depth analysis of the oral assessment,5 Joughin acknowledges, under the dimension of ‘interaction’ and using the term ‘probing’, that this feature contributes to the unique advantages of the format, as well as constituting a major challenge from a validity perspective. Other authors have noted the potential impact that different prompting practices can have on candidates during oral assessment.7,8 Beyond this, however, there is relatively little discussion of the nature and forms of prompting in the literature. For example, in one comprehensive guide to the OSCE, prompting receives scant and somewhat ambivalent mention: ‘Opinions will differ as to whether it is appropriate to prompt candidates in an OSCE, but all examiners should know the agreed policy with regard to prompting in advance in order that all candidates are given the same experience’.9 Even a paper explicitly exploring the validity of oral assessment and offering specific guidelines for practice has little to say about the issue of prompting.2

우리의 경험에 따르면 실무자들이 프롬프트를 개념화하는 방식과, 실제로 프롬프트를 사용하는 방식에는 상당한 차이가 있습니다. 프롬프트 정책과 기법에 대한 명확성이 필수적입니다. 따라서 이 백서의 목표는 시험관이 사용할 수 있는 다양한 형태의 프롬프트와 응시자에게 미치는 잠재적 영향에 대한 명확한 가이드를 제공하고 실무에 대한 지침 원칙을 제시하는 것입니다. 
Our experience is that there is considerable variation in how practitioners conceptualise prompting and how it is deployed in practice. Clarity around prompting policies and techniques is essential. Our aim in this paper therefore is to provide a clearer guide to the different forms of prompting available to examiners, their potential effects on candidates, and to suggest guiding principles for practice.


프롬프트의 분류
A taxonomy of prompting

프롬프트의 용어와 관련 관행을 이해하기 위해 프롬프트의 분류법을 제시합니다. 이 분류법은 개별적인 범주가 아닌 연속적인 유형의 연속체라고 생각합니다. '프롬프트'라는 용어는 다음 5가지 활동 중 하나를 지칭할 수 있습니다.

  • 과제 제시하기,
  • 정보 반복하기,
  • 질문 명확히 하기,
  • 질문 탐색하기,
  • 질문 유도하기

평가 상황에 따라 처음 4가지 유형의 프롬프트가 유용할 수 있습니다. 마지막 유형의 프롬프트는 타당도에 심각한 위협이 될 수 있습니다. 이 용어를 사용할 때는 먼저 해당 용어가 문맥에서 의미하는 바를 명확히 설명해야 한다는 점을 강조하는 것이 중요합니다. 
In order to unpack the term and associated practices, we present a taxonomy of prompting. We think of this taxonomy as a continuum of types, rather than as discrete categories. As we see it, the term ‘prompting’ may refer to any of the 5 following activities:

  • presenting the task;
  • repeating information;
  • clarifying questions;
  • probing questions; and finally,
  • leading questions.

The first 4 types of prompting may be useful, depending on the assessment context. The final type of prompting poses a significant threat to validity. It is important to stress that when the term is deployed, what it means in context first needs to be elucidated.

스크립트의 특정 문구
Specific wording on a script

가장 간단한 형태로 '프롬프트'는 단순히 응시자에게 과제를 제시하는 시험 또는 평가 문제의 특정 문구를 의미합니다. 이는 시험 중 시험관이 모든 응시자에게 제공해야 하는 질문 또는 정보를 나타냅니다. 이 유형의 프롬프트는 시험관의 최소한의 상호작용을 나타내며 가장 중립적인 형태의 프롬프트를 나타냅니다.
In its simplest form, a ‘prompt’ simply refers to the specific wording on an examination or assessment question which presents the task to candidates. It represents a question or information that examiners should provide all candidates during the examination. This class of prompting represents the minimum level of interaction from the examiner and the most neutral form of prompting.

반복 정보
Repeating information

두 번째 유형의 프롬프트는 단순히 정보를 반복하는 것입니다. 이 경우 시험관은 응시자가 제공받은 정보 중 잊어버린 것으로 보이는 정보를 다시 생각하도록 상기시키려는 의도가 있습니다. 

  • '이 사람은 80세 노인이라는 것을 기억하세요. . ' 또는 
  • '이전 기록에 비추어 볼 때 여전히 그렇습니까?' 

이러한 형태의 프롬프트는 원래 프롬프트의 문구를 바꾸거나, 응시자가 의도하지 않은 방향으로 내용을 받아들이는 경우 응시자를 원래 프롬프트로 다시 안내하는 형태를 취할 수 있습니다. 이러한 개입은 일반적으로 응시자에게 이전 답변이 궤도를 벗어났다는 것을 우회적으로 알리는 방식으로만 표현하는 것이 가장 좋으며, 시험관이 명백한 불만이나 좌절감을 표출해서는 안 됩니다. 이러한 형태의 프롬프트는 응시자의 응답이 문제 프롬프트를 잘못 기억하거나 오해한 결과인 것이 분명해 보이는 경우 응시자에게 스스로 수정할 기회를 주기 위한 것일 뿐입니다.
A second type of prompting is simply repeating the information. Here, examiners intend to remind the candidate to think about information they have been provided, and appear to have forgotten.

  • ‘Remember that this is an 80-year-old. . .’ or
  • ‘Is that still the case in light of the previous history?’

This form of prompting may take the form of re-phrasing the original prompt, or if a candidate is taking the content in an unintended direction, of re-directing the candidate back to the original prompt. Such intervention is usually best expressed in a way that only incidentally cues the candidate that their previous responses were off-track; that is, it should not be accompanied by obvious expressions of disapproval or frustration by the examiner. This form of prompting is simply aimed at giving the candidate the opportunity to correct themselves when it seems clear that their response is a result of misremembering or misunderstanding the question prompt.

명확화 질문 
Clarifying questions

셋째, '좀 더 구체적으로 설명해 주시겠습니까?' 또는 'X가 무슨 뜻입니까?'와 같이 명확히 하기 위한 질문으로 프롬프트가 더 나아갈 수 있습니다. 명확화 질문은 일반적으로 사용되지만, 일부 시험관들은 공식적인 평가 상황에서 부적절할 수 있다고 우려합니다. 이는 시험의 목적과 맥락에 따라 달라집니다. 예를 들어, 응시자에게 자신의 답변을 명확히 할 기회를 주는 것을 목표로 하는 질문은 대부분의 구두 평가 상황에서 적절해 보일 수 있습니다. 결국 학습자가 무엇을 알고 이해하고 있는지 알아내는 것이 평가의 근본적인 목표 중 하나이기 때문입니다. 모든 응시자가 자신의 의미를 명확히 할 수 있는 유사한 기회를 얻을 수 있도록 시험관의 일관성이 중요합니다. 시험관의 책임은 응시자에게 은밀하게 힌트를 주는 것이 아니라 전적으로 응답을 명확히 하는 데 목적이 있음을 전달하는 것입니다.

  • 반대로, '정확히 어떤 유형입니까?', '다른 방식으로 표현할 수 있습니까?'와 같이 대체 답변을 찾는 질문은 프로빙 또는 리딩으로 분류하는 것이 더 좋습니다. 고난도 평가에 응시하는 응시자는 일반적으로 이러한 단서에 매우 민감하게 반응합니다.

Third, prompting may go further to indicate clarifying questions, such as ‘Can you be more specific?’ or ‘What do you mean by “X”?’ Questions of clarification are commonly used, but some examiners worry that they may be inappropriate in formal assessment contexts. This will depend on the purpose and context of the examination. For example, a question which aims to give the candidate the opportunity to clarify their response would seem appropriate in most oral assessment contexts; it is, after all, one of the fundamental aims of assessment, to find out what the learner knows and understands. Consistency by examiners is key, so that all candidates get similar opportunities to clarify their meaning. It is the examiner’s responsibility to convey that their purpose is wholly to clarify the response, not surreptitiously cue the candidate. In contrast, a question that searches for an alternative response is better categorised as probing or leading; for example, ‘What type exactly?’, ‘Can you phrase that in a different way?’ Candidates in high-stakes assessment are usually highly attuned to such clues.

탐구 질문
Probing questions

넷째, 시험관은 탐색 질문을 할 수 있습니다. 이는 사례와 시험관마다 표준화하기가 더 어렵습니다. 응시자의 반응에 따라 시험관은 응시자가 특정 지식을 얼마나 잘 이해하고 있는지 또는 더 넓은 임상 맥락에서 그 중요성을 확인하기 위해 더 심층적인 질문을 던질 수 있습니다.

  • '그 접근법의 어떤 의미가 있을 수 있습니까?', '어떤 상황에서 그 접근법이 적절할까요?' 등 

일부 형태의 구조화된 구술 평가에서는 응시자의 임상적 추론 능력을 평가하기 위해 이러한 형태의 프롬프트가 특별히 요구됩니다.10,11 이러한 형태의 프로빙은 응시자의 임상적 의사결정 능력의 정도를 평가하는 예로서 Simpson과 Ballard의 논문12에 설명되어 있습니다. 또한 Pylman과 Ward13가 질문(형성적 맥락에서의 질문)에 대한 12가지 팁 기사에서 제공한 지침, 특히 '프로빙'과 '찌르기'를 구분하고, 총괄 시험을 실시하는 동안에도 심리적으로 안전한 분위기를 조성하는 것이 중요하다는 점을 지지합니다.
Fourth, examiners may be permitted to ask probing questions. This is more difficult to standardise across cases and examiners. Depending on how the candidate responds, an examiner prompts by probing deeper to ascertain how well the candidate understands the specific piece of knowledge, or its significance in a broader clinical context, for example,

  • ‘What might be some implications of that approach?’, ‘Under what circumstances would that be appropriate?’

Some forms of structured oral assessment specifically call for this form of prompting in order to assess the candidate’s clinical reasoning ability.10,11 This form of probing is illustrated in the paper by Simpson and Ballard,12 as an example of assessing the extent of candidates’ clinical decision-making skills. We also endorse the guidance provided by Pylman and Ward13 in their 12 tips article on questioning (in formative contexts), especially the importance of distinguishing ‘probing’ from ‘prodding’, and attempting to create a climate of psychological safety, even while conducting a summative examination.

이러한 질문형 프롬프트에서는 응시자의 특정 지식과 응답에 따라 시험관의 프롬프트 내용이 달라질 수 있기 때문에, 일관성보다는 동등성의 개념이 더 유용한 원칙으로 보입니다. 시험관은 서로 다른 특정 문제 또는 시험의 다른 지점이 프로빙에 사용되더라도 프로빙의 성격이 가능한 한 공평하게 이루어지도록 해야 합니다프로빙의 또 다른 위험은 시험관이 자신의 특정 '취미 분야(관심분야)'에만 집중할 수 있다는 것입니다. 이는 시험의 청사진 정렬 및 내용 타당성에 대한 불공정성과 위협의 중요한 원천으로 인식되어야 하며, 따라서 시험관 교육 시 특별히 다루어야 합니다. 시험관들의 이러한 접근 방식은 구술 시험의 목적에 대한 상반된 이해를 나타낼 수 있으며, 일부 시험관들은 이러한 평가를 대부분의 고난도 평가에서 요구되는 관찰 중심의 평가적 접근 방식이 아닌 교육 기회로 간주할 수 있습니다. 따라서 시험관 브리핑, 교육 및 선발 과정 자체의 명확성이 매우 중요합니다.
In this from of interrogative prompting, the concept of equivalence seems a more helpful principle than consistency, because the content of the examiner’s probing is likely to vary between candidates depending on their particular knowledge and responses. The examiner must ensure that the nature of the probing is as equitable as possible, even while different specific questions, or different points of the exam, are used for probing. Another risk of probing is that examiners may focus on their particular ‘hobby horses’. This needs to be recognised as a significant source of unfairness and threat to the blueprint alignment and content validity of the examination, and should therefore be specifically addressed during examiner training. Such an approach from examiners may indicate conflicting understanding of the purpose of oral examinations; some may see these assessments as teaching opportunities rather than the observation-focussed and evaluative approach which most high-stakes assessments require. This makes the clarity of examiner briefing, training and the selection process itself, crucial.

유도 질문과 모호한 질문
Leading and vague questions

마지막으로, 시험관들은 때때로 유도적인 질문을 던짐으로써 질문을 유도하기도 합니다. 이는 가장 '방해가 되는' 형태의 프롬프트이므로 대부분의 고난도 평가 상황에서는 권장하지 않습니다. 유도 질문의 일반적인 예는 다음과 같습니다:

  • '유형 II를 말씀하시는 거죠?', '그럴 것 같네요. . .'

응시자의 성과에 도움이 되지 않는 경우, '다른 것은요?'와 같이 매우 모호한 프롬프트의 형태를 취할 수도 있으며, 이는 종종 응시자와 시험관 모두를 좌절시키는 추측 게임으로 끝납니다. 시험관이 좋은 의도를 가지고 있을 수 있지만, 이러한 프롬프트는 시험관이 응시자의 성과에 연루되게 만듭니다. 모든 응시자에게 일관되게 적용하더라도 평가 결과의 타당성을 위협할 수 있습니다. 안타깝게도 이러한 유형의 프롬프트는 의도적이든 그렇지 않든 실무에서 종종 발생합니다.
Finally, examiners sometimes enact prompting by asking leading questions. This represents the most ‘intrusive’ form of prompting and is rightly discouraged in most high-stakes assessment contexts. Typical examples of leading prompts include:

  • ‘You mean type II, don’t you?’, and ‘It sounds like you would. . .’

Less helpfully to the candidates’ performance, it can also take the form of very vague prompts such as ‘What else?’, which frequently ends in a guessing game that frustrates both candidate and examiner. Although examiners may have good intentions, such prompting makes the examiner complicit in the candidate’s performance. Even if done consistently for all candidates, it threatens the validity of the assessment result. Unfortunately, this type of prompting often occurs in practice, whether intentional or otherwise.

실무 지침 원칙
Guiding principles for practice

다양한 형태의 프롬프트의 적절성을 고려할 때는 잠시 멈추고 특정 평가의 목적이 모든 이해관계자가 명확하고 잘 이해하고 있는지 확인하는 것이 중요합니다. 예를 들어,

  • 평가의 맥락이 고부담 숙달 시험인 경우 평가 리더는 단순히 정보를 반복하거나 정보를 명확히 하는 것 이상의 프롬프트를 금지할 수 있습니다.
  • 평가 맥락이 저부담 시험이고, 주로 응시자의 학습 기회로 활용되는 경우, 더 많은 질문을 던지는 것이 매우 유용할 수 있습니다.13

모든 평가에서 그렇듯이, 프롬프트에는 정해진 규칙이 있을 수 없습니다. 구두 평가에서 프롬프트를 사용할 때 고려해야 할 일반적인 원칙을 제시하지만, 평가 상황과 구체적인 목적에 따라 다른 프롬프트를 사용할 수 있는지 여부는 달라질 수 있습니다.
When considering the appropriateness of different forms of prompting, it is essential to pause and ensure that the purpose of the specific assessment is clear and well understood by all stakeholders. For example, if the assessment context is a high-stakes mastery examination, prompting beyond mere repeating information or clarifying information may be outlawed by assessment leaders. If the assessment context is lower-stakes and primarily used as a learning opportunity for candidates, more probing questions may be highly useful.13 With prompting, as arguably in all assessment, there can be no hard and fast rules. Although we present these general principles for consideration when using prompting in oral assessment, the defensibility of using different prompts will depend on the assessment context and specific purpose.

응시자와의 상호작용에서 중립적 태도를 지키기 위해 노력합니다.
Strive to be neutral in interactions with the candidate

시험관은 프롬프트를 제공할 때마다 응시자를 낙담시키거나 안심시키지 않는 방식으로 프롬프트를 제공하려고 노력해야 합니다. 응시자는 이러한 중립 원칙에 유의해야 하며, 시험관의 발언이나 몸짓에서 긍정이나 비난을 추구하지 않도록 격려해야 합니다. '잘했다' 또는 '잘하고 있다. .'와 같은 긍정적인 말이나 '음, 사실 Y 상태였어요'와 같은 정정(더 나쁘게는 끔찍한 눈동자 굴림)과 같은 부정적인 피드백은 응시자의 심리 상태와 이후 성과에 큰 영향을 미칠 수 있습니다. 경험상, 응시자의 성적을 긍정도 부정도 하지 않는 적절한 시험 '포커 페이스'를 개발하는 것은 많은 시험관에게 상당한 도전이 될 수 있습니다. 특정 시험관이 뛰어난 경우, 적절한 경우 전략적인 시험관 짝짓기를 통해 유용한 역할 모델을 제공할 수 있습니다. 
Whenever examiners prompt, they should try to do so in a way which neither discourages nor reassures the candidate. Candidates should be alerted to this principle of neutrality, and encouraged not to seek affirmation or censure in examiners’ utterances or body language. Positive comments such as ‘Good job’ or ‘Doing well. . .’, or corrections such as ‘Well, it was actually condition y’. – or worse, the dreaded eye-roll – can have significant impact on candidates’ state of mind and subsequent performance. In our experience, developing an appropriate examination ‘poker face’, offering neither affirming nor disapproving clues to candidates’ performance, can be a significant challenge for many examiners. Where certain examiners excel, they can provide helpful role models through strategic pairing of examiners, where appropriate.

모든 응시자에게 일관된 방식으로 프롬프트 사용
Use prompting in a consistent way for all candidates

응시자가 자신의 지식과 이해를 보여줄 기회가 다양할 때 불공평성이 발생합니다. 시험관은 특히 응시자의 답변을 조사할 때 접근 방식에 일관성을 유지하려고 노력해야 하지만, 앞서 언급한 바와 같이 이러한 일관성은 내용 자체뿐만 아니라 조사 방식과 정도에 있어서도 더 필요할 수 있습니다. 또 다른 문제는 프롬프트의 정도가 응시자의 결과에 어떤 영향을 미치는가 하는 것입니다. 일반적으로 프롬프트의 필요성이 클수록 점수가 낮아지지만,8,14 이는 평가 상황과 기준에 따라 달라질 수 있으므로 보편적인 원칙으로 간주해서는 안 됩니다. 응시자의 사고 과정을 존중하는 것도 중요합니다. 시험관의 조급함이 성급한 질문의 단서가 되어서는 안 됩니다. 잘 훈련되고 성찰적인 시험관은 평가 프로토콜과 신중한 판단을 결합하여 프롬프트가 적절한지 여부와 시기를 결정할 것입니다.
Unfairness arises when candidates have variable opportunities to display their knowledge and understanding. Examiners should try to be consistent in their approach, especially when probing candidate responses, although as noted, such consistency may need to be more in the manner and degree of probing as in the content itself. A further issue is how the degree of prompting should impact the candidate’s result. Typically, a greater need for prompting will translate into a lower score,8,14 but this will depend on the assessment context and criteria, and shouldn’t be assumed to be a universal principle. Respecting the candidate’s thinking processes is also important. Examiner impatience should not be a cue for hasty prompting. A well-trained and reflective examiner will combine assessment protocol with considered judgement to determine if and when a prompt is appropriate.

필요한 형태의 프롬프트에 대해 명확하고 투명하게 설명하기
Be clear and transparent about the required forms of prompting

일반적으로 이해관계자들이 프롬프트의 의미와 허용되는 프롬프트의 형태에 대해 서로 다른 개념을 가지고 있을 때 혼란이 발생합니다. 투명성은 실무에서 중요한 원칙입니다. 첫째, 평가 리더는 다양한 형태의 프롬프트에 대해 잘 알고 있어야 하며, 특정 평가 상황에서 어떤 형태가 필요한지에 대한 명확하고 정당한 근거를 가지고 있어야 합니다서면 지침은 투명성을 확보하는 데 도움이 되는 방법이며 평가자 교육 개발의 좋은 출발점입니다.
Confusion typically emerges when stakeholders have different conceptions of what prompting means, and what forms of prompting are permissible. Transparency is an important principle for practice. Firstly, assessment leaders need to be well-versed in the different forms of prompting and have clear and justifiable rationales for which forms are required in the specific assessment context. Written guidelines are a helpful way of being transparent and a good starting point for the development of assessor training.

평가자가 프롬프트 기술에 대해 적절한 교육을 받았는지 확인합니다.
Ensure assessors are adequately trained in prompting techniques

평가자는 특정 상황에서 허용되는 행동과 허용되지 않는 행동에 대해 적절히 교육받아야 합니다. 평가자가 프롬프트의 분류법을 이해하도록 돕는 것이 좋은 출발점이며, 이를 통해 다양한 형태의 프롬프트를 명확하게 파악하고 정확한 언어와 의미에 대한 공유된 이해를 바탕으로 토론과 심의가 이루어질 수 있습니다. 관련 예시와 함께 참고할 수 있는 접근 가능한 가이드라인이 도움이 됩니다. 교육 자료에는 구체적인 '해야 할 일'과 '하지 말아야 할 일'이 담긴 시험 영상이나 모의 시험이 포함될 수 있습니다. 동일한 문제를 설명하는 서면 문서보다 실제 상황과 맥락에서 실행되는 프롬프트를 보는 것이 일반적으로 더 큰 영향을 미칩니다.
Assessors need to be adequately trained in acceptable and unacceptable behaviours for the specific context. Helping assessors appreciate the taxonomy of prompting is a good place to start, and it makes different forms of prompting explicit and allows for discussions and deliberations to occur with precise language and a shared understanding of meaning. Accessible guidelines for reference with relevant examples are helpful. Training material may include video footage of examinations or mock examinations, with specific ‘dos’ and ‘don’ts’. Seeing prompting executed in practice (and in context) is usually more impactful than a written document that describes the same issue.

응시자에게 프롬프트 기대치에 대한 적절한 브리핑을 제공해야 합니다.
Ensure candidates are adequately briefed on prompting expectations

응시자는 시험관으로부터 프롬프트를 받을 수 있는지 여부와 프롬프트가 어떤 형태로 나타날 수 있는지 알아야 합니다. 프롬프트에 대한 불안은 지식, 적성 또는 기술 평가에 부수적인 평가에서 잠재적으로 복합적인 요인이 될 수 있습니다. 응시자에게 명확하고 투명하게 설명하면 이러한 불안을 완화하는 데 도움이 됩니다.4 이 과정에서 중요한 부분은 평가 중 시간 관리 책임자가 누구인지 명확히 파악하는 것입니다. 예를 들어,

  • 구술 시험의 경우 할당된 시간 내에 문제를 푸는 것이 응시자의 책임인지, 아니면 시험관이 응시자가 할당된 시간 내에 문제를 풀 수 있도록 '유도'해야 하는지 명확히 명시해야 합니다. 

Candidates also need to know whether they can expect prompting from examiners, and what shape this can take. Anxiety about prompting is a potential compounding factor in assessment that is ancillary to the assessment of knowledge, aptitude or skill. Being clear and transparent with candidates helps alleviate such anxiety.4 An important part of this process is also ensuring that there is a clear understanding of who is responsible for time management during the assessment.

  • For example, in an oral examination it should be clearly stated whether it is the candidate’s responsibility to get through the questions in the allocated time, or whether the examiners are expected to ‘move the candidate along’ to get through in the allocated time.

프롬프트 실천 중에 지속적인 성찰을 장려합니다.
Encourage ongoing reflection in prompting practice

평가자(평가 책임자, 의과대학 및 전문의 수련 대학은 말할 것도 없고)에게도 반성적인 태도가 필요합니다. 평가의 목적에 따라 다양한 프롬프트 접근 방식이 다양한 상황에서 유용성을 높일 수 있습니다. 평가 과제를 개발하는 초기 단계에서는 사례별 실무 검토가 필요합니다. 마지막으로, 지속적인 개선을 위해 프롬프트 지침, 실행 문제 및 응시자에 대한 잠재적 영향을 주기적으로 검토하고 지속적인 모니터링과 평가가 필요합니다.
Reflexivity is also required of assessors (not to mention assessment leads, medical schools and specialist training colleges). Different prompting approaches may enhance utility in different contexts, depending on the purpose of the assessment. Case-by-case review of practice will be required in the early stages of developing an assessment task. Finally, in the spirit of continuous improvement, periodic review of prompting guidance, implementation issues and potential impact on candidates will require ongoing monitoring and evaluation.


구술시험의 신뢰성 부족과 시험관 관행 표준화의 어려움에 대한 역사적 우려에도 불구하고, 구술시험은 의과대학과 대학원 모두에서 중요한 평가 도구로 남아 있습니다. 우리의 경험에 비추어 볼 때, 프롬프트의 역할과 이를 구현하는 다양한 방법을 더 잘 이해하는 것은 모든 상황에서 근본적으로 고려해야 할 사항입니다. 이 백서의 목표는 특정 형태의 프롬프트를 규정하는 것이 아니라, 프롬프트라는 용어에 포함되는 다양한 행동에 대한 인식을 제고하고 몇 가지 일반적인 실천 원칙을 제시하는 데 있습니다. 제시된 분류법을 검증하기 위한 추가적인 경험적 연구를 환영합니다. 평가 상황에 관계없이 구두 평가를 계획할 때마다 평가자는 필요한 프롬프트의 유형과 정도에 대해 적절히 교육받고 응시자는 예상되는 사항을 알 수 있도록 적절히 브리핑을 받는 것이 중요합니다. 이 분류법과 지침 원칙이 시험관이 선택할 수 있는 다양한 형태의 프롬프트 관행을 설명하는 데 도움이 되고, 평가 책임자가 상황에 가장 적합한 프롬프트를 결정할 수 있기를 바랍니다.

Despite historical misgivings about its lack of reliability and the challenges of standardising examiner practices, the oral exam remains an important assessment tool in both medical school and postgraduate contexts. In our experience, better understanding the role of prompting and the different ways of implementing it, is a fundamental consideration in all contexts. Our aim in this paper has not been to prescribe any particular form of prompting, but rather to raise awareness of the different behaviours which tend to be subsumed under the term, while offering some general principles for practice. We would welcome further empirical research to validate the taxonomy presented. Regardless of the assessment context, it is crucial that whenever oral assessment is planned, assessors are appropriately trained in the type and degree of prompting required, and candidates are suitably briefed to know what to expect. We hope this taxonomy and guiding principles are helpful in elucidating the varied forms of prompting practices at examiners’ disposal, and allow assessment leads to determine what works best for their context.

J Med Educ Curric Dev. 2020 Aug 13;7:2382120520948881. doi: 10.1177/2382120520948881. eCollection 2020 Jan-Dec.

Prompting Candidates in Oral Assessment Contexts: A Taxonomy and Guiding Principles

Affiliations collapse

1Tertiary Education (Assessment), Australian Council for Educational Research, Camberwell, VIC, Australia.

PMID: 32851194

PMCID: PMC7427130

DOI: 10.1177/2382120520948881

Free PMC article



Prompting is an aspect of oral assessment that deserves more attention. There appears to be considerable variation in how practitioners conceptualise prompting and how it is deployed in practice. In order to unpack the term and promote the validity of its use in performance assessments, we present a taxonomy of prompting as a continuum of types, namely: presenting the task; repeating information; clarifying questions; probing questions; and finally, leading questions. We offer general principles for consideration when using prompting in oral assessment: neutrality; consistency; transparency; and reflexivity. Whenever oral assessment is planned, assessors should be appropriately trained in the type and degree of prompting required, and candidates suitably briefed to know what to expect. Overall, we aim to raise awareness that quite different behaviours tend to be subsumed under the general term 'prompting'. This paper provides concrete guidelines for implementing the defensible and effective use of prompting in oral examinations, applicable to a wide range of assessment contexts.

Keywords: Prompting; assessment; oral assessment; oral examinations; viva.

이타주의인가, 국가주의인가? 의과대학 규제에 대한 글로벌 담론 살펴보기 (Med Educ, 2022)
Altruism or nationalism? Exploring global discourses of medical school regulation
Mohammed Ahmed Rashid


1 소개

의과대학은 어떻게 규제되어야 할까요? 이 질문은 의학교육자들과 정책 입안자들이 오랫동안 고민해 온 문제입니다.1 광범위한 규제 관행에도 불구하고 의과대학을 어떻게 규제해야 하는지에 대한 지침이 되는 경험적 연구는 거의 없습니다.2 특히 불협화음의 한 가지 영역은 글로벌 접근법을 어느 정도까지 적용할 수 있는지에 관한 것입니다. 이러한 접근 방식을 주장하는 사람들은 역량 및 표준화 개념3과 의료 이주를 촉진하기 위해 자격을 이전할 수 있어야 한다는 요건을 근거로 삼습니다.4 반면, 글로벌 접근 방식에 대한 우려를 제기하는 사람들은 전 세계의 사회문화적 차이5와 제국주의동질화에 대한 우려를 근거로 삼습니다.6 
How should medical schools be regulated? This question has long occupied medical educators and policymakers.1 Despite the widespread practice of regulation, there remains little empirical research to guide how medical schools should be regulated.2 One particular area of dissonance relates to the extent to which a global approach can be applied. Those arguing for such an approach draw on notions of competence and standardisation,3 as well as the requirement for qualifications to be transferrable to facilitate medical migration.4 Those raising concerns about global approaches, meanwhile, draw on sociocultural differences around the world5 as well as concerns about imperialism and homogenisation.6

외국 의대 졸업생 교육위원회(ECFMG)는 미국 의사 인력에 진입하는 외국 의대 졸업생(IMG)을 인증하는 민간 비영리 비정부 기구입니다.7 이 기구는 1956년에 설립되어 지원자의 의과대학을 검증함으로써 IMG가 적절하게 '검증'8되도록 보장합니다. 2010년에 ECFMG는 '2023년부터 ECFMG 인증을 신청하는 의사는 적절한 인증을 받은 의과대학을 졸업해야 한다'고 발표했습니다.9 따라서 북미의학교육연락위원회(LCME) 또는 세계의학교육연맹(WFME)이 북미에서 사용하는 것과 유사한 방식을 사용하여 기관의 인증을 받은 학교 졸업자만 ECFMG 인증을 받을 수 있게 됩니다. 2020년에는 코로나19로 인한 혼란을 고려하여 2024년으로 수정되었습니다.10  
The Educational Commission for Foreign Medical Graduates (ECFMG) is a private, non-profit, non-governmental organisation that certifies international medical graduates (IMGs) entering the US physician workforce.7 It was established in 1956 to ensure IMGs were properly ‘vetted’8 by verifying applicants' medical schools. In 2010, ECFMG announced that ‘effective in 2023, physicians applying for ECFMG Certification will be required to graduate from a medical school that has been appropriately accredited’.9 Thus, only graduates from schools accredited by an authority using approaches comparable with those used in North America by the Liaison Committee on Medical Education (LCME), or by the World Federation for Medical Education (WFME), would be eligible for ECFMG certification. In 2020, this was amended to 2024 to account for COVID-19 disruption.10

WFME는 1972년에 설립된 비영리 비정부기구로, 인증을 촉진하고 전문가 합의 표준을 발표하며 세계 의과대학 디렉토리를 유지 관리합니다.11 2010년 ECFMG의 성명서에 따라 WFME는 2012년에 인증 프로그램을 시작했습니다. 이에 상응하는 LCME 프로세스가 등장하지 않았기 때문에 이 프로그램이 ECFMG의 판결을 이행하기 위한 기본 방안이 되었습니다. 이 인정 프로그램에 앞서 WFME는 이미 2003년에 학부 의학교육에 대한 일련의 '글로벌 표준'을 발표했으며, 2012년, 2015년, 2020년에 업데이트했습니다. 
WFME is a not-for-profit, non-governmental organisation established in 1972 that promotes accreditation, publishes expert consensus standards and maintains the World Directory of Medical Schools.11 In response to the ECFMG statement in 2010, WFME launched a recognition programme in 2012. As no equivalent LCME process emerged, this became the default arrangement to fulfil the ECFMG ruling. Prior to this recognition programme, WFME had already published a set of ‘global standards’ for undergraduate medical education in 2003, which were updated in 2012, 2015 and 2020.

WFME 인정 프로그램의 설립은 의과대학 규제에 대한 전 세계의 영향력이 체계적이고 제도적으로 처음으로 활성화되었다는 점에서 의미가 있습니다.12 ECFMG 판결과는 불가분의 관계에 있지만, 미국을 넘어서는 분명한 결과를 가져올 것입니다. 인증 기관이 자격을 획득할 수 있는 기회는 WFME 인정을 위한 현실적인 동기 부여입니다. 실제로 '글로벌 인정 마크'는 WFME가 인정 프로그램의 첫 번째 '혜택'으로 제시하고 있습니다.13 
The establishment of the WFME recognition programme was significant because it was the first time that global influence on the regulation of medical schools was systematically and institutionally enabled.12 Although it is inextricably linked to the ECFMG ruling, it has clear consequences beyond the United States. The opportunity for accreditation agencies to gain credentials is a realistic motivation for WFME recognition. Indeed, a ‘global mark of recognition’ is listed as the first ‘benefit’ of the recognition programme by WFME.13

한 국가, 즉 미국의 한 기관이 내린 결정이 전 세계적으로 근본적인 정책 변화를 가져왔다는 점은 주목할 만합니다. 앞서 언급한 동질화와 제국주의에 대한 우려에 비추어 볼 때, 서구 국가가 주도하는 정책 지침이 세계 다른 지역, 특히 전 세계 의과대학의 대부분이 위치한 동양 국가에 주로 영향을 미치는 것은 잠재적으로 문제가 될 수 있습니다.14. 또한, 기관이 WFME 인정을 신청하지 않기로 결정하면 세계적으로 권위 있고 매력적인 것으로 간주되는 미국에서 대학원 의학 교육을 받을 수 있는 기회가 차단됩니다.15 
It is notable that a decision taken by an agency in one country, the United States, quite directly led to a fundamental policy change worldwide. In light of aforementioned concerns about homogenisation and imperialism, a policy directive driven by a Western country that predominantly affects countries in other parts of the world, and significantly Eastern countries given that this is where most of the world's medical schools are,14 is potentially problematic. Moreover, if an agency decides not to apply for WFME recognition, it closes off opportunities to pursue postgraduate medical training in the United States, which is globally considered as prestigious and attractive.15

WFME는 어디에서도 표준이나 인정 프로그램이 의과대학을 표준화하기 위해 고안되었다고 언급하지 않지만,11,13 전 세계적으로 적용될 수 있는 단일 진술이 존재한다는 것은 본질적으로 이를 암시합니다. WFME 인증을 신청하는 데 드는 비용에는 6만 달러의 수수료와 실사팀의 현장 방문 비용이 포함되며,16 이는 많은 저소득 국가에서는 상당한 금액입니다. 숨겨진 비용도 많이 있습니다. 규제 조사 준비에는 상당한 시간이 소요되며 다른 의료 또는 교육 활동에서 관심을 돌릴 수 있습니다.17, 18 
Although WFME does not anywhere suggest that its standards or recognition programme are designed to standardise medical schools,11, 13 the existence of a single set of statements that can be applied globally inherently implies this. The cost of applying for WFME recognition includes a $60 000 fee and costs of the team completing the site visit,16 which represents a significant sum for many lower income countries. There are also many hidden costs. Preparation for regulatory inspections takes considerable time and may divert attention away from other healthcare or educational activities.17, 18

의과대학 규제에 대한 글로벌 접근 방식이 이데올로기적 기반, 지배 국가의 가치를 강요하는 정도, 자원 관점에서 의문이 제기된다는 점을 고려하면 규제 자체를 뒷받침하는 확고한 실증적 증거가 있을 것을 기대할 수 있습니다. 하지만 현실은 그렇지 않습니다. 인증이 학생 성과19 및 의과대학 과정에 미치는 영향에 대한 연구는 있지만,20 규제 개입의 결과로 지속적이고 긍정적인 결과를 입증하는 연구는 존재하지 않으며, 규제에 대한 투자가 가치가 있음을 입증하는 비용 효과 분석도 부족합니다. 범위 검토에 따르면, 해당 주제에 대한 연구가 부족하여 현재의 규제 관행을 뒷받침할 수 있는 '제한된 증거가 존재'합니다.2 
Given that global approaches to medical school regulation are questionable from an ideological basis, in the extent to which they impose values from dominant countries, and from a resource perspective, one might expect a firm body of empirical evidence to support regulation itself. That is not, however, the case. Although research has shown the impact of accreditation on student performance19 and medical school processes,20 studies demonstrating sustained positive outcomes as a result of regulatory interventions do not exist, and cost-effectiveness analyses demonstrating that investment in regulation is worthwhile are also lacking. As a scoping review notes, ‘limited evidence exists’ to support current regulatory practices due to a paucity of studies on the topic.2

의과대학 규제에 글로벌 접근법을 적용하는 것의 잠재적 이점과 해악을 모두 인식하면서, 이 연구의 목적은 의과대학 규제에 대한 글로벌 접근법이 어떻게 정당화되었고 어떻게 정책적으로 우위를 점하게 되었는지 더 잘 이해하기 위해 담론이 이러한 ECFMG 및 WFME 입장을 가능하게 만든 방식을 조사하는 것이었습니다. 이 연구를 이끄는 전반적인 연구 질문은 다음과 같습니다: 의과대학 규제의 '세계화'를 가능하게 한 지배적인 담론은 무엇이었습니까? 
Recognising both potential benefits and harms of applying a global approach to medical school regulation, the aim of this research was to examine the way in which discourses made these ECFMG and WFME positions possible in order to better understand how their decisions had been justified and how the global approach in medical school regulation has gained apparent policy dominance. The overall research question guiding this study was: What were the dominant discourses that made it possible to ‘globalise’ medical school regulation?

2 연구 방법

이 연구에서는 비판적 담론 분석(CDA)을 사용하여 의과대학 규제에 대한 글로벌 접근법을 향한 움직임을 설명하는 문서를 조사했습니다.

  • '담론'이라는 용어는 언어, 텍스트 및 언어와 텍스트가 사용되는 맥락과 관련이 있습니다.21
  • 담론은 특정 진술이 다른 진술보다 우선순위를 가질 수 있게 해주기 때문에 지식의 생성과 재생산에 중요합니다.
  • 담론은 '진짜'에 대한 우리의 경험을 형성합니다.22

CDA는 담론이 특정 진술을 불가피한 것으로 보이게 하고 도전이나 논쟁을 차단하는 방식을 조사합니다.23 CDA는 언어와 관행의 변화에 초점을 맞춥니다.24 따라서 의과대학 규제에 대한 지배적인 생각이 어떻게 진화했는지 살펴볼 수 있는 강력한 도구입니다.
This study used critical discourse analysis (CDA) to examine documents that describe the movement towards global approaches to medical school regulation.

  • The term ‘discourse’ relates to language, texts and the contexts in which language and texts are used.21 
  • It is important for the creation and reproduction of knowledge as it enables certain statements to be prioritised over others.
  • Discourses shape our experience of what is ‘real’.22 

CDA examines the way that discourse makes certain statements appear inevitable and closes off challenge or debate.23 CDA focuses on changes in language and practices.24 As such, it is a powerful tool to examine how dominant ideas about medical school regulation evolved.

이 연구는 언어, 권력, 지식에 관심이 있는 두 학자의 연구를 바탕으로 진행되었습니다. 두 학자의 관점과 접근 방식이 완전히 일치하지는 않지만, 미셸 푸코와 에드워드 사이드는 근본적으로 담론적 실천을 통해 권력이 제정되는 방식에 매력을 느꼈습니다.25 또한 역사적 사건을 비판적으로 분석하기 위한 이론적 접근 방식을 제안했습니다. 
This study drew on the work of two scholars who were interested in language, power and knowledge. Although their perspectives and approaches do not align wholly, Michel Foucault and Edward Said were both fundamentally attracted to how power is enacted through discursive practices.25 They also proposed theoretical approaches to critically analyse historical events.

블리클리와 블레이그가 지적했듯이, '푸코를 비판적으로 접근하는 것은 간단하지 않다 - 그의 작품은 역설로 가득하고 다양한 독해에 열려 있다'.26 푸코는 담론의 개념을 '특정 진술이 나타나고 다른 진술이 나타나지 않는 체계 또는 규칙'으로 설명했습니다.27 푸코는 명백하거나 자명해 보이는 것을 연구하는 것을 목표로 삼았습니다. 그는 광기, 감옥, 병원에 대한 연구에서 이러한 것들이 그것들을 가능하게 하는 특정한 담론이 존재하기 때문에 발생하며, 담론이 변화하고 지배력을 가지며 사라짐에 따라 그 성격과 기능이 변화한다는 것을 보여주었습니다.28 이 연구가 의과대학 규제에 관한 것이라는 점을 고려할 때, 푸코가 의학과 의학교육을 구체적으로 살펴보고29 '의학적 시선'을 개념화하여 설명에서 설명으로 넘어가는 현대 생물의학의 체계를 설명한 것은 주목할 만합니다.
As Bleakley and Bligh have noted, ‘engaging Foucault critically is not straightforward—his work is full of paradoxes and open to multiple readings’.26 The concept of discourse was described by Foucault as ‘the system or rules by which certain statements appear and not others’.27 Foucault aimed to study that which appears obvious or self-evident. In his examinations of madness, prisons and hospitals, he demonstrated that these arise as a result of the existence of particular discourses that make them possible and that their nature and functions change as discourses change, assume dominance and disappear.28 Given that this study is about medical school regulation, it is notable that Foucault specifically examined medicine and medical education,29 conceptualising the ‘medical gaze’ to describe the modern scheme of biomedicine moving from description to ascription.

사이드는 [식민지 개척자들이 식민지를 묘사하고 이해하는 방식을 결정하는 과정]을 설명했습니다.

  • [오리엔탈리즘]에서 사이드는 유럽 문화가 어떻게 동양을 '생산'할 수 있었는지를 보여주었습니다. 동양에 대한 묘사는 항상 '우월한' 서양과 극명한 대조를 이루는 후진 국가와 민족으로 묘사되었습니다.
  • 문화와 제국주의에서31 그는 텍스트의 '대조적' 읽기가 어떻게 근본적인 가정에 도전할 수 있는지를 설명함으로써 한 걸음 더 나아갔습니다.

대위법적 분석은 텍스트를 제국과의 관계뿐만 아니라 식민지화되거나 소외된 사람들이 스스로 만들어낸 입장에 대한 '대위법'의 맥락에서 읽는 것을 포함합니다. 블레이클리 등이 강조했듯이 탈식민 이론은 의학교육 연구와 실천에 많은 것을 제공합니다.6
Said described a process by which colonisers determined how the colonised were described and understood.

  • In Orientalism,30 Said demonstrated how European culture was able to ‘produce’ the Orient. Portrayals of the Orient were invariably as backward nations and peoples, in stark contrast to the ‘superior’ Occident.
  • In Culture and Imperialism,31 he took this further by describing how a ‘contrapuntal’ reading of texts can challenge underlying assumptions.

A contrapuntal analysis involves reading a text in the context of its relations to empire, as well as in the ‘counterpoint’ to the position that colonised or marginalised people themselves produced. As Bleakley et al have highlighted, postcolonial theory has much to offer medical education research and practice.6

CDA는 널리 받아들여져 온 '진실'에 문제를 제기하고자 하며, 편견 없는 객관성의 유리한 지점에서 사용하는 방법론이 아닙니다.32 이 연구에서 CDA를 사용하기로 한 것은 의과대학 규제에 대한 지배적인 생각을 확인하고 질문하기 위한 의도적인 선택입니다. 그러나 그렇다고 해서 특정 정책 결정을 지지하거나 반대하는 것이 목표는 아닙니다. 오히려 CDA를 사용한 다른 의학교육 학자들과 마찬가지로21 건설적인 방식으로 이 분야를 발전시키고자 하는 것이 목표입니다.
CDA seeks to problematise ‘truths’ that have been widely accepted; it is not intended to be a methodology wielded from a vantage point of unbiased objectivity.32 The choice to use CDA in this study is deliberate, as a means to identify and interrogate dominant ideas about medical school regulation. However, this does not mean that the goal is either to promote or reject any particular policy decision. Rather, in keeping with other medical education scholars who have used CDA,21 the hope is to advance the field in constructive ways.

[2010년 ECFMG 판결]을 가능하게 한 담론을 역사적으로 살펴보기 위해 CDA를 사용하는 접근 방식을 고려할 때, 이 출발점은 사실 연대기적으로 '종점'이었습니다따라서 푸코의 계보학 접근법에 따라 데이터 세트의 구분은 이 시점부터 거꾸로 진행되어 이전의 중요한 랜드마크를 식별했습니다. 세계화 정책을 '제정'하는 데 있어 WFME의 중심적인 역할을 고려할 때, 조직으로서의 역사는 이를 위한 기초가 되었습니다. 

  • 2010년 판결이 있기 7년 전인 2003년에 WFME 표준이 처음 발표되었기 때문에, 그 출범은 중요한 선행 사건으로 보였습니다. 
  • WFME는 1972년에 설립되었지만, 역사상 첫 번째 주요 사건은 1988년 세계 의학교육 컨퍼런스에서 전 세계 의과대학의 질에 대한 합의문으로 발표된 에든버러 선언(Edinburgh Declaration)이었습니다. 이는 의과대학의 질에 대한 최초의 '글로벌' 성명서로서 분석의 '시작점'으로 적절했습니다.

Given the approach of using CDA to look historically at discourses that enabled the ECFMG ruling in 2010 to occur, this start point was in fact an ‘end point’ chronologically. Drawing on Foucault's approach of genealogy, the delimiting of the dataset therefore proceeded backwards from this point, identifying important preceding landmarks. Given the central role of WFME in ‘enacting’ globalising policy, its history as an organisation was the basis for this.

  • As WFME standards were first published in 2003, 7 years prior to the ruling in 2010, their inauguration seemed an important antecedent event.
  • Although WFME was established in 1972, the first major event in its history was the publication of the Edinburgh Declaration at the World Conference on Medical Education in 1988, presented as a consensus statement about quality of the world's medical schools. This represents the first seemingly ‘global’ statement about medical school quality and was therefore as a suitable ‘start’ point of the analysis.

데이터 소스에는 연구 기사, 사설 및 논평 기사, 교육자 및 정책 입안자의 기타 학술 저술, 현재 및 과거 정책 문서가 포함되었습니다. 위에서 설명한 세 가지 사건의 키워드를 사용한 전자 데이터베이스 검색과 웹페이지 및 주요 저널의 수동 검색을 결합했습니다. 그런 다음 각 사건과 관련된 주요 문서와 기사를 '스노우볼링'33 방식으로 추적하고 참고 문헌을 찾아 인용 추적 소프트웨어를 사용했습니다. 이 반복적인 프로세스는 주요 문서를 찾을 수 있을 때까지 계속되었습니다. 
Data sources included research articles, editorial and commentary articles, other scholarly writings from educators and policymakers and current and historical policy documents. Electronic database searches using keywords from each of the three events described above were combined with manual searches of webpages and key journals. Key documents and articles relating to each event were then tracked using a ‘snowballing’ process,33 pursuing references of references and using citation-tracking software. This iterative process continued until it was clear that major documents had been located.

분석은 [문서 분석]을 사용하여 수행되었습니다.23 데이터 집합을 정의하고 구분한 후, 텍스트를 읽고 분석하여 페어클로우가 설명한 CDA 단계에 따라 담론과 담론의 변화를 식별했습니다.23 반복되는 주장과 이러한 주장의 변화에 특히 주의를 기울여 진술, 키워드, 은유를 찾았습니다. 푸코의 CDA 원칙에 따라 진술의 부재와 언어 사용의 존재 여부에 주목했습니다. 또한 이러한 담론은 위에서 설명한 푸코와 사이드의 접근법의 렌즈를 통해 관행, 제도 및 사회적 관계에 주목하여 분석되었습니다. 총 250개의 문서가 데이터 세트를 구성했으며 Microsoft Excel을 사용하여 관리되었습니다. 전반적인 목표는 의과대학 규제의 세계화의 중요성에 대한 담론이 어떻게 지배적이 되었는지, 그리고 이러한 담론이 어떻게 의과대학 규제에 대한 글로벌 접근 방식을 확립하기 위한 정책 결정을 가능하게 했는지를 파악하는 것이었습니다.
Analysis was carried out using document analysis.23 Once the dataset had been defined and delimited, the texts were read and analysed to identify discourses and discursive shifts following the CDA stages outlined by Fairclough.23 Statements, keywords and metaphors were sought with particular attention to recurring arguments and shifts in these arguments. In keeping with Foucauldian CDA principles, the absence, as well as the presence, of statements and uses of language were noted. These discourses were also analysed with attention to practices, institutions and social relations, read through the lenses of the approaches of Foucault and Said described above. A total of 250 documents comprised the dataset and were managed using Microsoft Excel. The overall aim was to identify the ways in which discourses about the importance of the globalisation of medical school regulation became dominant and how these in turn enabled policy decisions to establish global approaches to medical school regulation.

3 결과

이 연구에서는 전반적으로 승인, 현대화, 저항, 보호, 통제라는 다섯 가지 담론이 확인되었습니다.

  • 의대 규제의 글로벌화를 촉진하는 승인현대화 담론은 이 연구의 전체 기간에 걸쳐 존재했습니다.
  • 그러나 저항 담론은 연구 초기, 특히 에든버러 선언(1988년)과 WFME 표준의 최초 발표(2003년) 즈음에 존재했고, 연구 후기에는 존재하지 않았으며, 이 시기에 나머지 두 담론인 보호통제가 등장했습니다.
  • 이 두 가지 담론은 이전 기간에는 부재했지만 ECFMG 판결 발표 시점(2010년)과 그 이후 기간에 지배적인 담론이 되었습니다.

Overall, five discourses were identified in this study: endorsementmodernisationresistanceprotection and control.

  • The discourses of endorsement and modernisation, which both promote the globalisation of medical school regulation, were present throughout the entire time period of this study.
  • The discourse of resistance, though, was present in the early period, specifically around the Edinburgh declaration (1988) and the first publication of WFME standards (2003), and absent in the later period of the study, at which time the two remaining discourses, protection and control, appeared.
  • These two discourses became dominant around the time of the ECFMG ruling announcement (2010) and the period following this, although had been absent in the earlier time period.


지지 담론은 의과대학 규제를 보다 글로벌한 방향으로 전환하는 정책이 광범위한 지지를 받는 것으로 예상합니다. 이 담론은 존경받는 기관의 권위와 당대의 아이디어를 바탕으로 세계화의 필연성을 암시합니다. 에든버러 선언합의, 조정, 실행, 대표라는 네 가지 핵심 아이디어를 통해 전개됩니다.
The discourse of endorsement projects the policies that move medical school regulation in a more global direction as having widespread support. It draws on the authority of respected institutions and ideas of the time to hint at the inevitability of globalisation. It plays out through four key ideas: consensus, alignment, implementation and representation.

에든버러 선언문은 664단어에 불과하고 저자의 이름이 명시되어 있지 않으며, 대신 마지막에 세계 의학교육 회의의 제목과 날짜가 명시되어 있어 모든 참가자의 합의에 따른 것임을 암시합니다.34 본문 자체에서도 합의의 흔적을 찾아볼 수 있습니다:
The Edinburgh declaration is just 664 words long and has no named author(s), instead giving the title and dates of the World Conference on Medical Education at the end, hinting that it represents a consensus of all participants.34 The text itself also gives an indication of consensus:

이러한 우려는 ... 전 세계적으로 점점 더 많은 의대 교사와 의대생, 의사 및 기타 보건 전문가와 일반 대중의 신념을 반영합니다34.
This concern … reflects the convictions of a growing number of medical teachers and medical students, medical doctors and other health professionals and the general public around the globe34

WFME는 글로벌 표준을 처음 발표하기 5년 전에도 합의 개발의 중요성을 분명히 했습니다.35 일단 발표된 후에는 '합의 기반' 표준,36 '대부분의 교육자가 동의하는' 표준,37 '국제적 승인을 획득한' 표준 등의 설명과 함께 합의의 중요성을 지속적으로 반복했습니다.38 
WFME was also clear about the importance of developing consensus when it set out to develop its global standards 5 years prior to their first publication.35 Once published, the importance of consensus was consistently reiterated, with descriptions including

  • consensus-based’ standards,36 
  • standards that are ‘agreed by most educators37 and
  • having ‘obtained international endorsement’.38

이 담론은 또한 WFME와 ECFMG가 저명하고 존경받는 기관 및 정책과 연계될 것으로 예상했습니다. 가장 자주 언급된 것은 세계보건기구(WHO)와의 연계였습니다. WHO의 에든버러 선언에 대한 후원은 WFME 회장39 및 다른 사람들에 의해 강조되었으며,40 WHO 및 유니세프, 유네스코, 유엔개발계획, WMA 및 IAMRA를 포함한 기타 조직과의 연계도 강조되었습니다.3, 41-43 평판이 좋은 글로벌 조직과의 연계와 함께 보편적 건강 보장44 및 볼로냐 선언45, 46을 포함한 주요 정책과 유럽 및 북미의 강력한 국가 규제기관과의 연계도 있었습니다.47, 48
This discourse also projected alignment of WFME and ECFMG with prominent and esteemed agencies and policies. The most frequently cited alignment was with the World Health Organisation (WHO). The sponsorship of the Edinburgh declaration by WHO was emphasised by the WFME President39 and others,40 as well as WHO and other organisations that were aligned to include UNICEF, UNESCO, UNDP, WMA and IAMRA.3, 41-43 In parallel to the alignment with reputable global organisations, there was also alignment with topical policies, including universal health coverage44 and the Bologna declaration,45, 46 as well as with powerful national regulators, notably from Europe and North America.47, 48

이행에 대한 주장에는 에든버러 선언이 의과대학의 변화를 이끌었다는 점, WFME 표준이 전 세계적으로 널리 사용되고 있다는 점, 각국이 WFME 인정을 추구함으로써 ECFMG 판결에 대응하고 있다는 점 등이 포함되었습니다. 이 담론의 마지막 접근 방식은 에든버러 선언과 WFME 표준 개발에 관여한 사람들의 대표성을 강조합니다. 여기서 명시적으로 언급되지는 않았지만, 이러한 문서를 개발한 사람들의 다양성이 그 문서의 유효성을 의미한다는 주장이 있습니다. 예를 들어, 에든버러 선언에 대한 현대의 기록은 참가자의 다양성을 설명하기 위해 많은 노력을 기울였습니다:
Assertions about implementation included that the Edinburgh declaration led to changes in medical schools, that WFME standards have been widely used globally and that countries are responding to the ECFMG ruling by seeking WFME recognition. The final approach within this discourse emphasises the representation of those involved in the development of both the Edinburgh declaration and WFME standards. The argument here, although not explicitly stated, is that the diversity of those who developed these documents implies their validity. Contemporary accounts of the Edinburgh declaration, for example, went to great lengths to describe the diversity of participants:

137명의 참가자는 아프리카, 아메리카, 동지중해, 유럽, 동남아시아, 서태평양 등 전 세계 6개 지역에 고르게 분포된 67개국 출신입니다49.
The 137 participants came from 67 different countries well distributed among the six regions of the world-Africa, the Americas, the Eastern Mediterranean, Europe, South-East Asia, and the Western Pacific49

그러나 에든버러 선언이나 WFME 표준과 관련된 대표의 방식과 범위에 대한 설명이 없다는 점은 눈에 띄는 부분입니다. 의미 있는 참여로 프레임을 구성하여 대표성을 인증하는 대신, 지지를 묘사하는 수단으로 담론적으로 사용됩니다.
The absence of any description of the manner and extent of representation related to either the Edinburgh declaration or WFME standards is, however, striking. Rather than authenticating the representation by framing it as meaningful participation, it is instead used discursively as a means of depicting endorsement.


근대화 담론은 세계화 아이디어와 관행을 홍보하고 정당화하는 데에도 유사하게 사용됩니다. 이는 개혁, 개발, 조화의 세 가지 핵심 아이디어를 통해 전개됩니다.
The discourse of modernisation is similarly used to promote and justify globalising ideas and practices. It plays out through three key ideas: reform, development and harmonisation.

에든버러 선언은 의학교육의 질에 대한 보편적인 측면을 정의하고자 했고, 이를 위해 '개혁'이라는 언어를 직접 사용했습니다.34 당시 다른 저술가들도 이를 반영했고,49, 50 2018년 의학교육 특별호에서 선언 30주년을 기념하는 저술가들도 마찬가지였습니다.51-53 개혁은 WFME 표준 작업이 시작되기 전부터 명확하고 명시된 목표이기도 합니다:
The Edinburgh declaration sought to define universal aspects of quality in medical education and directly used language of ‘reform’ in doing so.34 Others writing at the time mirror this,49, 50 as did those commemorating the 30th anniversary of the declaration in a special issue of Medical Education in 2018.51-53 Reform is also a clear and stated goal of WFME standards from even before work on them had begun:

첫 번째 목표는 모든 의과대학이 스스로의 강점, 약점, 잠재력, 역량 및 변화와 개혁에 대한 필요성을 평가하여 변화와 질 향상에 대한 필요성을 스스로 파악하고 공식화하도록 자극하는 것입니다35.
The first objective is to stimulate all medical schools to identify and formulate their own needs for change and quality improvement, by assessing their own strengths, weaknesses, potentials, capabilities and needs for change and reform35

이러한 WFME 표준이 최종적으로 발표된 후에도 유사한 언어가 사용되었으며54, 55 2010 년 ECFMG 판결에 대해서도 사용되었습니다.56, 57
Similar language was used after these WFME standards were eventually published54, 55 and is also used about the ECFMG ruling in 2010.56, 57

현대화 담론의 또 다른 특징은 개발입니다. 예를 들어, 에든버러 선언에는 문명과 '진보'의 관점에서 서양과 동양을 대조하는 저개발의 이미지가 많이 포함되어 있습니다.34 에든버러 선언과 관련하여 개발 아이디어를 홍보하는 데 사용된 많은 장치가 WFME 표준 및 ECFMG 판결에 대해서도 계속 사용되었으며, 여기에는 열악함을 이유로 현상 유지를 문제화하고 판결을 '개선'의 수단으로 투사하는 것이 포함됩니다.58-61
Another feature of the discourse of modernisation is development. The Edinburgh declaration, for example, contains much imagery of underdevelopment, contrasting areas of the world, seemingly West and East, in terms of their civilisation and ‘progress’.34 Many devices used to promote ideas of development in relation to the Edinburgh declaration continued to be used in relation to the WFME standards and ECFMG ruling, including a problematisation of the status quo on the grounds of poor quality and a projection of the ruling as a means of ‘improvement’.58-61

마지막 아이디어 그룹은 조화에 관한 것입니다. 에든버러 선언은 특징적으로 오리엔탈리즘적인 방식으로 현대와 비현대를 이분화합니다.30, 34 이 선언은 '현대'의 추세를 따르지 않는 '다른' 국가들에게 '따라잡기'를 통해 '조화'를 이루어야 한다는 것을 암시적으로 제시하고 있습니다. 조화에 대한 아이디어는 '표준화'62, 63 및 '국제화'와 같은 관련 용어를 사용하여 표현되기도 했습니다.3, 64
A final group of ideas are about harmonisation. The Edinburgh declaration dichotomises the modern and unmodern in a characteristically orientalist way.30, 34 Not only does this ‘other’ countries who are not following ‘modern’ trends, but it implicitly suggests that they must ‘harmonise’ by catching up. Ideas of harmonisation have also been articulated using related terms, including ‘standardisation’62, 63 and ‘internationalisation’.3, 64


저항 담론은 이 연구의 초기 기간에만 존재했습니다. 지지 및 현대화와는 달리, 이는 글로벌 규제 정책을 촉진하기보다는 도전한다는 점에서 반대 담론입니다. 이는 억압, 탈취, 반대라는 세 가지 핵심 아이디어를 통해 전개됩니다.
The discourse of resistance was present only in the early time period of this study. Unlike endorsement and modernisation, it is a counter-discourse, in that it challenges, rather than promotes, global regulatory policies. It plays out through three key ideas: oppression, repossession and opposition.

억압에 대한 저항은 에든버러 선언의 엄숙하고 장엄한 언어를 조롱하는 현대의 반응에서 주목할 만합니다:
Resistance to oppression is notable in contemporary responses to the Edinburgh declaration that ridiculed its solemn and grandiose language:

새로운 특징은 권고안을 '에든버러 선언'으로 포장하는 것이었는데, 이는 아마도 상황에 맞는 중대성을 부여하고 정보가 부족한 사람들에게 권고안이 얼마나 중요한지 알리기 위해서였을 것입니다.65
A novel feature was to wrap up the recommendations as ‘The Edinburgh Declaration’, presumably to give them the gravitas needed to match the occasion and signal to the less well informed how really important they were.65

에딘버러 보고서가 마치 성 요한 신의 교육적 계시처럼 읽혔음에도 불구하고, 이 위원회의 보고서의 일부 세부 사항은 흥미롭게도 의학교육에 관한 세계 회의의 에딘버러 선언과 일치합니다.66
Some of the details of the council's report are curiously consonant with the Edinburgh declaration from the world conference on medical education despite the Edinburgh report reading somewhat like an educational revelation from St John the Divine.66

WFME 표준에 대해 '서구적 가치를 조장한다'는 지적과 함께 비슷한 저항이 나타났습니다.6 에딘버러 선언 당시에는 현대의 비 서구권 저자들이 자신들이 앞서 나갔다고 지적하고 글로벌 교류에 대한 자신의 공헌을 주장하면서 소유권에 관한 언어도 등장합니다.67, 68 한편, WFME 표준과 관련된 탈취지역 및 전통적 가치와 우선순위를 '고수'하고 표준이 주로 글로벌이 아닌 지역적 의제에 봉사하도록 하는 데 초점을 맞추고 있다.69-71 반대에 대한 언어는 보다 직접적인 형태의 저항을 나타내는데, 예를 들어 에딘버러 선언이 영감이 없고 비효율적이라고 간주하거나65 WFME 표준이 혼란스럽고 사용하기 어렵다고 간주하는 식이다.36
Similar resistance emerged in response to WFME standards, noting that they ‘promote Western values’.6 Language about repossession also features around the time of the Edinburgh declaration, with contemporary non-Western authors noting they had were ahead of the curve and asserting their own contributions to the global exchange.67, 68 Repossession related to the WFME standards, meanwhile, focuses on ‘holding on’ to local and traditional values and priorities and ensuring that standards primarily serve local, and not global, agendas.69-71 Language about opposition represents a more direct form of resistance, for example, by deeming the Edinburgh declaration uninspiring and ineffective65 or the WFME standards as confusing and difficult to use.36

결정적으로, 저항 담론은 드물게 나타났고 반대되는, 때로는 모순되는 진술에 의해 정기적으로 조정되었습니다. 이는 저자들이 우려와 도전을 제기하는 것이 '허용'되기 위해 스스로를 절제했음을 시사합니다. 이는 저항의 핵심 초점이 문화적 지배와 서구 패러다임의 강요에 관한 것이기 때문에 중요합니다. 또한 저항 담론은 시간이 지남에 따라 사라지고 ECFMG 판결과는 전혀 관련이 없습니다.
Crucially, the discourse of resistance appeared only infrequently and regularly moderated by opposing, and sometimes contradictory, statements. This suggests that authors restrained themselves in order to be ‘allowed’ to raise concerns and challenges. This is important as the key focus of resistance is about cultural domination and the imposition of Western paradigms. Additionally, the discourse of resistance fades over time and is completely absent in relation to the ECFMG ruling.


마지막 두 담론은 연구의 후반부에 등장하는 보호통제입니다. 이는 중요한 사건의 변화와 동시에 저항 담론이 사라지는 변화를 나타냅니다. 에든버러 선언과 WFME 표준은 명시적으로 전 세계를 대상으로 한 반면, ECFMG 판결은 단일 국가를 대상으로 합니다.
The final two discourses are protection and control, present in the later period of the study. This represents a discursive shift, as resistance fades away at the time they appear, coinciding with an important change in events. Whereas the Edinburgh declaration and WFME standards were expressly global in scope, the ECFMG ruling links to a single country.

보호 담론은 대중 보호학생 보호외국 의과대학으로부터의 보호라는 세 가지 핵심 아이디어를 통해 피해를 예방하는 데 필요한 세계화 접근 방식을 정당화하는 역할을 합니다. WFME 기준에 대한 언어, 그리고 더 자주 ECFMG 판결과 관련하여 공공의 안전을 증진하는 역할을 투영하여 '저질' 의과대학 출신 의대생과 의사의 이주를 직간접적으로 연결했습니다.3, 4, 72 이러한 사례에서 이러한 이주는 항상 동양에서 서양으로 이루어지며, 따라서 이주하는 동양 의사들을 '타자화'합니다. 그러나 눈에 띄는 것은 왜 국민들이 외국 의사로부터 보호받아야 하는지에 대한 명확한 주장이나 증거가 제시되지 않았다는 점입니다(예: IMG가 미국 의대 졸업생보다 실적이 더 나쁘다는 증거).
The discourse of protection serves to justify globalising approaches as necessary to prevent harm, playing out through three key ideas:

  • protecting the public,
  • protecting students and
  • protecting against foreign medical schools.

Language about WFME standards, and even more frequently in relation to the ECFMG ruling, projected their roles in promoting public safety, directly and indirectly making a link to the migration of medical students and physicians from ‘low-quality’ medical schools.3, 4, 72 Invariably in these examples, this migration is from East to West, thereby ‘othering’ migrant Eastern doctors. Noticeably, though, there is no clear argument or evidence presented about why the public needs protecting from foreign doctors—for example, evidence showing that IMGs perform worse than US medical graduates.

초기 ECFMG 판결 발표에는 없었지만 나중에 등장한 아이디어는 미국 국민을 보호하는 것뿐만 아니라 의대생도 보호한다는 것입니다. 주로 카리브해에 있는 해외 의과대학에 다니는 미국 시민권자에 초점을 맞추고 있습니다.43 이 담론의 마지막 가닥은 [특정 집단을 위한 보호]가 아니라 [특정 집단으로부터의 보호]를 제공합니다. 여기서 외국 의과대학은 특히 확산과 상업화 때문에 위협적인 것으로 간주됩니다.3, 58 이러한 우려는 특히 ECFMG 판결의 맥락에서 카리브해에 초점을 맞추는 경우가 많습니다:
An idea not present in the initial ECFMG ruling announcement but that emerged later is that as well as protecting the US public, it also protects medical students. The primary focus is US citizens attending offshore medical schools, often in the Caribbean.43 A final strand of this discourse offers protection against, rather than to, a particular group. Here, foreign medical schools are framed as threatening, specifically because of their proliferation and commercialisation.3, 58 Of note, these concerns often focus on the Caribbean, especially in the context of the ECFMG ruling:

또한 전 세계적으로 의과대학의 수가 계속 증가하고 있으며, 특히 많은 학교가 미국 시민권자에게 등록의 대부분을 의존하는 카리브해 지역에서는 더욱 그렇습니다... 이러한 의과대학 중 상당수는 비 전통적인 교육 관행을 활용하는 영리 목적의 학교입니다.73
It should also be noted that the estimated number of medical schools worldwide continues to increase, particularly in the Caribbean region where many schools draw heavily upon U.S. citizens for much of their enrollment … Many of these medical schools are for-profit endeavours utilising non-traditional educational practices.73


통제 담론은 연구 기간 후반에 등장했으며 협업을 통한 통제, 변이 관리로서의 통제, 모니터링을 통한 통제라는 세 가지 가닥으로 구성됩니다. 의과대학 규제에 대한 글로벌 접근법을 추진하는 데 관여한 기관들, 특히 WFME와 ECFMG는 스스로를 협력적이고 전략적이며 목적의식이 있는 기관으로 묘사함으로써 통제에 대한 감각을 드러냈습니다.74 예를 들어, ECFMG 회장은 두 기관이 어떻게 협력했는지 설명합니다: 
The discourse of control also emerged in the latter part of the study period and has three strands:

  • control through collaboration,
  • control as managing variation and
  • control by monitoring.

By depicting themselves as collaborative, strategic and purposeful, the organisations involved in promoting global approaches to medical school regulation, particularly WFME and ECFMG, portrayed a sense of control.74 For example, the ECFMG President describes how the two organisations co-operated:

세계연맹과 많은 논의와 협력 끝에 도달한 계획은 WFME가 지역 또는 국가 인증 기관의 표준 준수 여부를 검토하고 인정하는 것입니다. WFME의 인정을 받은 지역 및 국가 기관이 개별 학교를 인증할 것으로 예상됩니다. ECFMG의 경우, WFME가 인정한 기관이 국제 의과대학을 인증하면 새로운 인증 요건을 충족할 수 있습니다.7
The plan, arrived at after much discussion and collaboration with the World Federation, is that WFME will review and recognize regional or national accrediting agencies for compliance with its standards. The expectation is that regional and national agencies that have been recognized by WFME will accredit individual schools. For ECFMG purposes, accreditation of an international medical school by an agency recognized by the WFME will meet our new requirement for certification.7

협업에 중점을 두는 것은 이를 조율되고 합리적인 '결합된' 노력으로 묘사했습니다.
Focusing on collaboration portrayed this as a ‘joined up’ endeavour that is co-ordinated and rational.

두 번째 아이디어는 국가 간 차이가 문제가 된다는 것을 입증하는 변동 관리와 관련된 아이디어였습니다.75, 76 이는 '표준화'77-79라는 개념과 '글로벌 의사'에 대한 이상화되고 단일화된 설명을 통해 이러한 변동이 '관리'되어야 한다는 것을 제안함으로써 의과대학 규제에 대한 글로벌 접근 방식을 추진하는 정당성으로 사용되었습니다.80
A second set of ideas related to managing variation, establishing that differences between countries is problematic.75, 76 This was used as a justification to propel global approaches to medical school regulation by suggesting that this variation needs ‘managing’, through the notion of ‘standardisation’77-79 and an idealised, monolithic description of a ‘global doctor’.80

마지막 아이디어 그룹은 모니터링에 관한 것으로, 글로벌 규제 접근 방식이 전 세계 의과대학을 면밀히 조사하는 데 도움이 될 것이라고 제안했습니다. 모니터링에 대한 개념은 특히 의과대학에 대한 정보가 필요하다는 제안이 있었던 ECFMG 판결에 대해 확고했습니다.12, 81 미국에 대한 의사 '공급'을 프레임으로 하는 등 경제적인 표현이 많았고,82 때로는 더 관리적이고 판결에 대한 '준수'와 관련된 표현이 많았으며,83 비참여에 대한 결과를 암시적으로 시사하기도 했습니다. 
A final group of ideas was about monitoring, suggesting that global regulatory approaches would help to scrutinise medical schools around the world. The notion of monitoring was particularly firm about the ECFMG ruling, where it was suggested that information about medical schools was necessary.12, 81 The language was often economic, including framing a ‘supply’ of doctors to the United States,82 and at other times more managerial and linked to ‘compliance’ with the ruling,83 implicitly suggesting consequences of non-engagement.

이타주의와 민족주의
Altruism and nationalism

이 다섯 가지 담론에서 전반적으로 두 가지 담론의 흐름이 드러납니다.

  • 하나는 이타주의이며 궁극적으로 전 세계 의학교육을 현대화하고 개선하기 위한 수단으로 ECFMG 정책을 묘사합니다.
  • 두 번째는 국가주의로, 궁극적으로 미국의 의료 표준을 유지하고 미국 국민을 보호하기 위한 수단으로 묘사됩니다.

이 두 가지 입장은 병렬적으로 작용해 왔으며, 중요한 것은 두 가지 입장이 모두 지배적이며, 어느 것이 정책의 '진정한' 동기인지에 대한 궁극적인 명확성이 없다는 것입니다.
Across these five discourses, two overall discursive strands surface. One is of altruism and ultimately portrays the ECFMG policy as a means to modernise and improve medical education worldwide. The second is of nationalism and ultimately portrays it as a means to uphold medical standards in the United States and protect the US public. These strands have operated in parallel, and importantly, both positions are dominant, and there is no ultimate clarity about which is the ‘real’ motivation for the policy.

4 토론

이 연구는 CDA를 사용하여 전 세계 의과대학 규제의 정책적 우위를 탐구했으며, 특히 WFME 및 ECFMG와 관련이 있습니다. 텍스트 아카이브에는 [이타주의 및 글로벌 의학교육 개선에 대한 이야기]와 [국가주의 및 미국 시민 보호에 대한 이야기]라는 두 가지 담론의 가닥이 지배적입니다. 주목할 점은 이러한 가닥이 평행선을 달리고 있으며, 모순되지는 않지만 각 입장은 ECFMG 판결의 근거에 대해 매우 다른 관점을 나타낸다는 점입니다. 
This study used CDA to explore the policy dominance of global medical school regulation, specifically linked to WFME and ECFMG. Two discursive strands are dominant in the textual archive, one presenting a story of altruism and improving global medical education and the other presenting a story of nationalism and protecting US citizens. Of note, these strands run in parallel, and although they are not contradictory, each of these positions represent very different perspectives about the rationale for the ECFMG ruling.

푸코의 렌즈를 통해 보면, 이러한 각 입장은 서로 다른 청중에게 강력하고 설득력 있는 아이디어를 나타낸다고 주장할 수 있습니다. '내부' 국내 청중에게는 민족주의 담론이, '외부' 해외 청중에게는 이타주의 담론이 더 효과적일 가능성이 높습니다. 다시 말해, 이 두 가지 예측을 결합하면 여러 이해관계자에게 이 판결의 호소력과 권위를 극대화할 수 있습니다. 한 가지 주목할 점은, 민족주의 담론에서 IMG는 미국 의료 시스템에 대한 위협으로 프레임되지만, 연구 결과에 따르면 이들의 임상 결과는 미국 의대 졸업생과 동등하거나 심지어 그보다 더 우수하다는 것입니다. 
Seen through a Foucauldian lens, one might argue that each of these positions represent powerful and persuasive ideas to different audiences. For an ‘internal’ domestic audience, nationalist discourses are likely to be powerful, and for an ‘external’ overseas audience, altruistic discourses are more likely to be effective. In other words, the combination of these two projections maximises the appeal, and therefore the authority, of this ruling to multiple stakeholders. Of note, although IMGs are framed as a threat to the American medical system discursively throughout the nationalist discursive strand, studies have shown that their clinical outcomes are as good as,84 and perhaps even better than,85 US medical graduates.

사이드가 사용한 용어를 빌리자면, 두 담론적 가닥은 모두 오리엔탈리즘으로 개념화할 수 있습니다.

  • 이타주의는 서구가 동양을 현대화하고 개선함으로써 동양을 '문명화'하는 수단인 반면,
  • 민족주의는 서구가 신뢰할 수 없는 '야만적인' 동양을 두려워하는 것입니다.

이런 의미에서 두 가지 모두 동양을 '타자화'하고 서양과 전반적으로 대조하는 역할을 합니다. 이 연구의 목적은 이러한 정책의 이유가 무엇인지에 대한 절대적인 '진실'을 찾는 것이 아닙니다. 오히려 이 정책을 둘러싼 담론에서 가정과 정당성을 밝히는 과정에서 언어가 권력 관계를 변화시키고, 결정을 정당화하며, 궁극적으로 의과대학 규제 세계화 정책을 정당화하는 데 어떻게 사용되었는지에 주목합니다.
In Saidian terms, both discursive strands can be conceptualised as orientalist. Whereas altruism is a means of the West ‘civilising’ the East by modernising and improving it, nationalism is the West fearing a ‘barbaric’ East that cannot be trusted. In this sense, both serve to ‘other’ the East and contrast it with the West overall. The purpose of this study was not to find an absolute ‘truth’ about what the reason for this policy was. Rather, in uncovering assumptions and justifications in the discourses surrounding it, it draws attention to how language has been used to shift power relations, justify decisions and ultimately legitimise the policy to globalise medical school regulation.

WFME와 ECFMG의 근본적인 차이점은 전자는 범위가 전 세계인 반면, 후자는 국가 단위라는 점입니다. 따라서 이 둘의 결합은 이례적입니다. ECFMG의 경우, WFME와의 연합은 두 담론 패턴 모두에 부합합니다. 봉사 활동에 초점을 맞추면서 이타주의를 지지하고, 미국의 필요에 부응할 수 있는 신뢰할 수 있는 외부 기관을 제시함으로써 국가주의를 지지합니다. 반면 WFME의 이점은 명확하지 않습니다. ECFMG의 판결이 발표되기 몇 년 전부터 WFME는 이미 '인증기관을 인증'하는 프로그램에 대한 아이디어를 제기해왔으며,3,58 따라서 인증 프로그램에 대한 아이디어는 이미 야심찬 계획이었습니다. 하지만 실현되지는 못했습니다. ECFMG 판결은 참여를 강제할 수 있는 기회를 제공했습니다. 실제로 WFME 인정 프로그램은 ECFMG 발표 이후 빠르게 발전했으며 그 이후로 확대되었습니다. 푸코의 렌즈를 통해 이러한 사건을 분석해 보면, WFME가 정책적 야망을 실현하기 위해 ECFMG와 협력하는 권력 관계의 변화를 확인할 수 있습니다. 
The fundamental difference between WFME and ECFMG is that whereas the former is global in scope, the latter is national. Their union is therefore unusual. For ECFMG, the association with WFME fits with both discursive patterns. It supports altruism by projecting an outreach focus and supports nationalism by presenting a dependable external authority who can serve US needs. The benefits for WFME, meanwhile, are less clear. In the years prior to the ECFMG ruling announcement, WFME had already raised the idea of a programme that would ‘accredit the accreditors’,3, 58 and so, the idea for the recognition programme was already an ambition. It had not, though, come to fruition. What the ECFMG ruling provided was an opportunity to compel engagement. Indeed, the WFME recognition programme quickly developed after the ECFMG announcement and has escalated since. Analysing these events through a Foucauldian lens, one can see a shift in power relations whereby WFME positioned itself in alignment with ECFMG to realise a policy ambition.

이 연구에서 분명한 것은 최근 몇 년 동안 ECFMG와 WFME의 연계가 강화되었다는 것입니다. 이것이 조직으로서 WFME에 미치는 영향은 ECFMG 판결의 어떤 프레임을 고려하느냐에 따라 달라집니다. 

  • 이타주의에 기반한 정책으로서 WFME는 개혁, 개선 및 현대화의 조직으로 부상합니다. 그러나
  • 민족주의에 기반한 정책으로서 WFME는 덜 빛나는 빛으로 등장하며, 이는 명시된 조직 사명을 고려할 때 조정하기 어려운 입장입니다. 

ECFMG의 판결로 WFME는 원하는 인정 프로그램을 개발할 수 있었지만, 자체 신뢰도 측면에서 어떤 대가를 지불했는지는 불분명합니다. 이러한 관계의 맥락에서 특히 주목할 만한 것은 담론의 부재입니다. 2010년 이전과 ECFMG와의 관계에 있어서는 저항 담론이 가장 강했고, 세계화와 세계금융위기 정책의 의도하지 않은 결과에 대한 건설적인 토론과 대화가 있었습니다. 또한 초기에는 보호와 통제라는 담론이 존재하지 않았습니다. 그러나 2010년 이후 저항의 목소리는 침묵하는 듯 보였고 민족주의 담론이 등장했습니다. 이러한 부재는 시간이 지남에 따라 사고의 폭이 넓어지기보다는 오히려 좁아졌을 수 있음을 우려스럽게도 시사합니다.
What is clear from this research is the link between ECFMG and WFME has strengthened in recent years. The implications of this for WFME as an organisation depend on which framing of the ECFMG ruling one considers.

  • As a policy motivated by altruism, WFME emerges as an organisation of reform, improvement and modernisation.
  • As a policy motivated by nationalism though, WFME emerges in less glowing light, a position difficult to reconcile given its stated organisational mission.

Although the ECFMG ruling allowed WFME to develop the recognition programme it wanted, it is unclear what cost it paid for this in terms of its own credibility. In the context of this relationship, the absence of discourses is particularly noteworthy. In the period prior to 2010 and its association with ECFMG, the discourse of resistance was strongest, and there was constructive debate and dialogue about unintended consequences of globalisation and WFME policies. Moreover, in this early period, the discourses of protection and control were not present. However, following 2010, voices of resistance were seemingly silenced, and the nationalist discursive strand emerged. These absences suggest, worryingly, that thinking may have narrowed rather than broadened over time.

강점과 한계
Strengths and limitations

CDA의 사용은 언어, 지식, 사회적 상호작용 사이의 연관성을 심도 있게 탐구할 수 있게 해 주었습니다. 각 담론적 입장은 특정 사고 방식에 특권을 부여하고 다른 사고 방식을 소외시켰습니다. 푸코와 사이드의 이론을 바탕으로 의과대학 규제에 대한 글로벌 접근 방식이 어떻게 구성되었는지, 그리고 이러한 개념이 다른 입장을 어떻게 제한했는지를 밝혀내는 데 도움이 되었습니다. 모든 담론은 종종 예상치 못한 방식으로 사고와 실천을 형성하며, 이 연구는 겉으로 보기에 자비롭고 개혁적인 관행으로 인한 잠재적 해악을 강조합니다. 사이드의 이론, 특히 대위법적 방법은 의학교육에 사용된 적이 없으며, 이 연구는 세계화의 영향을 조사하는 데 유용하다는 것을 확인시켜 줍니다. 
The use of CDA has enabled an in-depth exploration of connections between language, knowledge and social interactions. Each discursive position has privileged certain ways of thinking and marginalised others. Drawing on both Foucault and Said has helped to uncover some ways that global approaches to medical school regulation have been framed and how these conceptions have limited other positions. All discourses shape thinking and practice, often in unanticipated ways, and this study highlights potential harms from apparently benevolent and reformative practices. The use of Saidian theory, and particularly the contrapuntal method, has not been used in medical education and this study confirms its utility in examining impacts of globalisation.

이 연구에는 몇 가지 한계가 있습니다. 첫째, 철저한 데이터베이스 검색과 스노우볼링 방법에도 불구하고 누락된 문서가 있을 수 있습니다. 결정적으로, 영어로 표현할 수 없는 의견도 많을 수 있기 때문에 영어 문서로 제한한 것은 이 연구를 크게 제한합니다. 특히, 이 데이터 세트에서는 대조법이 여전히 효과적이긴 했지만, 이는 대조법을 제약하는 요소입니다. 또 다른 한계는 문서 분석만을 사용한다는 점입니다. 구술 기록은 기억에 크게 의존하기 때문에 결함이 있고 과장되기 쉽다는 점을 인정하지만,86 그럼에도 불구하고 최근 수십 년 동안 ECFMG 및 WFME에 종사한 사람들을 인터뷰한 결과 몇 가지 추가 통찰력이 있을 수 있습니다. 
There are several limitations to this research. Firstly, despite exhaustive database searching and snowballing methods, it is possible that documents were missed. Crucially, the limitation to English language documents significantly limits this research, as many opinions may not be ‘possible’ to express in English. In particular, this constricts the contrapuntal method, although it was nonetheless still effective with this dataset. A further limitation is the exclusive use of document analysis. Although it is recognised that oral histories rely heavily on memory, which can be flawed and prone to exaggeration,86 there may nonetheless have been some additional insights from interviewing those engaged with ECFMG and WFME in recent decades.

의학교육에 대한 시사점
Implications for medical education

이 연구는 의학교육 과학 및 실무의 질과 규제에 대한 아이디어가 항상 경험적 증거에 근거한 것은 아니라는 점을 시사하며, [상당한 권력과 영향력을 가진 글로벌 조직이 제정하는 정책]에 대한 신중한 조사의 중요성을 강조합니다. 사이드는 정통과 도그마에 도전하는 것의 중요성을 강조하고 '당황스러운 질문'을 제기할 것을 장려했습니다.87 그는 특히 잊혀져가는 사람들과 대의를 위해 싸우는 것이 중요하다고 생각했습니다. 이 연구는 글로벌 조직인 WFME가 ECFMG와 '특별한 관계'를 가져야 한다는 가정에 의문을 제기함으로써, 왜 이러한 입장이 특정 역사적 순간에 생겨났는지 그 이전과 이후 담론을 통해 설명하려고 시도합니다. 이를 위해 가장 눈에 띄는 방법은 WFME와 같은 의학교육을 위한 글로벌 조직이 가상적으로 어떤 모습일지 상상해보는 것입니다. 예를 들어, 이 단체는 세계에서 가장 소외되고 취약하며 억압받는 국가 및 의과대학과 적극적으로 연계할 수 있습니다. 오리엔탈리즘이나 다른 방식으로 억압적인 것으로 간주될 수 있는 모든 정책이나 관행과 거리를 둘 수 있습니다. 다른 국가 및 국제 '규범'과 의도적으로 다른 커리큘럼, 교육 및 평가 방법, 실제로 규제 시스템을 만드는 데 있어 트렌드를 거스르고 대담하고 야심차게 의과대학의 사회적 책임과 지역적 맥락을 옹호하는 전 세계의 사례를 조명하고 소개하면서 차이를 적극적으로 기념하고자 노력할 수 있습니다. 이러한 조직에 대한 가상의 비전은 '가능성'이라는 렌즈를 통해 현재의 글로벌 조직을 살펴볼 수 있는 수단을 제공합니다. 
This study suggests that ideas about quality and regulation in medical education science and practice are not always based on empirical evidence and emphasises the importance of careful interrogation of policies enacted by global organisations with significant power and influence. Said emphasised the importance of challenging orthodoxy and dogma and encouraged the raising of ‘embarrassing questions’.87 He considered it particularly important to fight for people and causes that are perennially forgotten. By questioning the assumptions that WFME, a global organisation, should have a ‘special relationship’ with ECFMG, this study attempts to explain why this position may have arisen in a particular historic moment through the discourses that preceded and enabled it. Perhaps the most striking way to do this is to imagine what a global organisation for medical education, like WFME, could hypothetically look like. It could, for example, proactively associate itself with the most marginalised, vulnerable and repressed countries and medical schools in the world. It could distance itself from any policies or practices that could be considered orientalist or in any other way oppressive. It could actively seek to celebrate differences, foregrounding and showcasing examples from around the world where countries have bucked trends and been bold and ambitious in creating curricula, teaching and assessment methods and indeed regulatory systems, which are purposively different from other countries and international ‘norms’, championing the social accountability and local contexts of medical schools. This hypothetical vision of such an organisation provides a means to examine current global organisations through a lens of ‘possibility’.

Med Educ. 2023 Jan;57(1):31-39. doi: 10.1111/medu.14804. Epub 2022 Apr 8.

Altruism or nationalism? Exploring global discourses of medical school regulation

Affiliations collapse

1UCL Medical School, London, UK.

PMID: 35365925

PMCID: PMC10084281

DOI: 10.1111/medu.14804

Free PMC article



Background: Although medical school regulation is ubiquitous, the extent to which it should be based on global principles is unclear. In 2010, the Educational Commission for Foreign Medical Graduates (ECFMG) announced that from 2023, overseas doctors would only be eligible for certification to practise in the United States if they had graduated from a medical school that was accredited by a 'recognised' agency. This policy empowered the World Federation for Medical Education (WFME) to create a recognition programme for regulatory agencies around the world, despite a lack of empirical evidence to support medical school regulation.

Methods: This study employs critical discourse analysis, drawing on the theoretical perspectives of Michel Foucault and Edward Said, to identify discourses that enabled this 'globalising' policy decision to take place. The dataset includes a series of 250 documents gathered around three key events: the Edinburgh declaration by WFME in 1988, the first set of global standards for medical schools by WFME in 2003 and the ECFMG ruling about medical school accreditation in 2010.

Findings: Two discourses, endorsement and modernisation, were dominant throughout this entire period and framed the move to globalise medical school regulation in terms of altruism and improving medical education worldwide. A discourse of resistance was present in the earlier period of this study but faded away as WFME aligned itself with ECFMG after 2010. Two further discourses, protection and control, emerged in the later period of this study and framed the ECFMG ruling in terms of nationalism and protecting American interests.

Discussion: This study proposes a new conceptualisation of the relationship between ECFMG and WFME in light of the apparently contradictory policy motivations of altruism and nationalism. It goes on to consider the implications of this association for the legitimacy of WFME as an organisation that represents all of the world's medical schools.

학습 대화: 피드백과 디브리핑의 이론적 뿌리와 발현의 분석(Acad Med, 2020)
Learning Conversations: An Analysis of the Theoretical Roots and Their Manifestations of Feedback and Debriefing in Medical Education 
Walter Tavares, PhD, Walter Eppich, MD, PhD, Adam Cheng, MD, Stephen Miller, MD, MEd, Pim W. Teunissen, MD, PhD, Christopher J. Watling, MD, PhD, and Joan Sargeant, PhD 



의학교육에서의 경험 학습은 단순히 학습자에게 경험을 제공하는 것 이상의 것을 요구합니다. 학습자는 실습에 대한 개념을 강화하고 향후 수행에 영향을 미치는 방식으로 이러한 경험을 반성하도록 자극받아야 합니다.1-3 피드백 및 디브리핑은 이러한 반성적 작업을 촉진하는 핵심 요소로 자주 사용됩니다. 피드백[학습 대화]의 한 형태이며, [학습 대화]란 교육자가 [실제 또는 모의 임상 실습]에서 [학습자의 행동을 관찰한 정보]를 바탕으로 [향후 수행 능력을 향상]시키기 위해 실시하는 대화입니다.4,5 두 가지 모두에서 교육자는 학습자가 보인 행동에 주의를 기울이고, 처리하고, 통합한 다음 해석하여 향후 수행 능력을 향상시키기 위해 학습자와 대화 또는 정보 교환을 진행합니다. 그러나 피드백 및 디브리핑의 공통된 선행 요소와 의도에도 불구하고 피드백 및 디브리핑의 개념은 종종 서로 달라서 교육자와 학습자가 생산적으로 참여하려는 노력을 복잡하게 만들 수 있습니다. 
Experiential learning in medical education demands more than simply providing learners with experiences. Learners must be stimulated to reflect on those experiences in ways that strengthen their conceptualizations of practice and impact their future performances.1–3 Feedback and debriefing are often used as key facilitators of this reflective work. Each is a form of learning conversation—a dialogue informed by an educator’s observations of a learner’s behavior in actual or simulated clinical practice, conducted with the intention of improving future performance.4,5 In both, the educator attends to, processes, integrates, and then translates the behaviors exhibited, to then engage in dialogue or exchange of information with the learner with the intent of improving future performance. But despite their common antecedents and intent, conceptualizations of feedback and debriefing frequently diverge, potentially complicating educators’ and learners’ efforts to engage productively with them.

피드백과 디브리핑은 정의하는 방식뿐만 아니라 교육 실무에서 시행하는 방법, 시기, 장소도 다양합니다.

  • [피드백]을 주로 수련의가 환자 치료에 관여하는 환경에서 "수련의의 성과를 개선하기 위한 의도로 주어진 수련의의 관찰된 성과와 표준 간의 비교에 대한 구체적인 정보"를 제공하는 단방향 프로세스라고 정의합니다. Archer5는 이러한 단방향 프로세스에 의문을 제기하며, 대신 촉진, 양방향 커뮤니케이션문화적 요구사항에 따라 피드백을 형성할 것을 제안합니다. 피드백에 대한 이러한 접근 방식은 의학교육의 디브리핑과 점점 더 유사해지고 있지만, 두 교육 전략은 처음에 서로 다르게 설명되고 구성되었지만 점점 더 유사해지고 있습니다.
  • [디브리핑]은 게임과 항공 분야의 초기 연구에서 주요 사건을 설명하고 사고와 행동을 분석하여 새로운 이해를 향후 수행에 적용하는 것을 목표로 하는 촉진된 성찰 과정으로 정의되었습니다.7-9 피드백은 거의 모든 곳에서 발생할 수 있지만, 의학 교육에서의 디브리핑은 주로 시뮬레이션 상황에서 이루어졌습니다.4,10 환자 치료 에피소드 후 임상 사건 디브리핑은 피드백과 디브리핑 사이의 맥락적 구분이 어렵고,6,11-15 목적과 구조의 중복성을 강조하고 있습니다.

Feedback and debriefing diverge not only in how they are defined but also in how, when, and where they are enacted in educational practice.

  • Van de Ridder et al6 define feedback as a unidirectional process that offers “specific information about the comparison between a trainee’s observed performance and a standard, given with the intent to improve the trainee’s performance,” mainly in settings where trainees are involved in patient care. Archer5 questions this unidirectional process, suggesting instead that feedback be shaped by facilitation, 2-way communication, and cultural requirements. This approach to feedback is increasingly similar to debriefing in medical education, even though at their origins, the 2 educational strategies were described and organized differently.
  • Debriefing, in early seminal works from gaming and aviation, has been defined as a process of facilitated reflection, which aims to describe key events and analyze thoughts and actions to apply new understanding to future performance.7–9 Whereas feedback may occur almost anywhere, debriefing in medical education has been positioned mainly in simulated contexts.4,10 Clinical event debriefing after patient care episodes is challenging that contextual divide between feedback and debriefing,6,11–15 highlighting the overlap in purpose and structure.

공유된 목표에도 불구하고 피드백과 디브리핑을 둘러싼 담론은 크게 구분되어 있으며, 각각은 서로 영향을 미치거나 영향을 받지 않고 발전하고 있습니다. 

  • 예를 들어, 디브리핑에 대한 리뷰에서 Cheng 등10은 디브리핑의 특징은 "상호적이고 양방향적이며 성찰적인 토론"이라고 설명한 반면, 피드백은 "수신자의 행동에 대한 단방향 커뮤니케이션"이라고 정의했습니다. 
  • 마찬가지로 피드백에 대한 리뷰는 (피드백이 크게 다르지 않을 수 있다는 제안에도 불구하고.18 ) 디브리핑을 전혀 고려하지 않거나 디브리핑이 무엇을 제공할 수 있는지 고려하지 않고 증거를 종합하는 경우가 많습니다.6,16,17 

피드백 및 디브리핑 담론의 기초가 되는 이론적 프레임워크[학습 대화]에서 발생하는 문제에 대한 해결책이 어떻게 그리고 왜 뚜렷하게 구분되어 나타나는지 설명해 줄 수 있습니다. 이러한 이론적 프레임워크는 필연적으로 후속 연구에 영향을 미쳐 일부 아이디어를 영속화하고 다른 아이디어를 무시하며 [학습 대화]를 논의하는 사람들을 파벌로 나누기도 합니다. 이러한 불필요한 분열은 의학교육자가 학습 효과를 향상시키는 방식으로 이러한 도전적인 대화를 정의하고 실행하는 방법을 제한할 수 있습니다. 따라서 의학교육 커뮤니티는 [학습 대화]를 재개념화할 필요가 있으며, 이러한 차이를 하나의 접근법으로 통합하는 것이 아니라 공유된 개념적 프레임워크의 잠재적 어포던스를 이해하고 고려해야 할 것입니다. 이러한 공유 프레임워크는 관련된 사람들, 그들의 교육적 요구, 학습 대화의 맥락과 상황에 반응하고 상호 작용하는 기능을 적절히 혼합하고 차별화해야 합니다.
Despite shared objectives, the discourses surrounding feedback and debriefing remain largely distinct, each evolving without necessarily drawing on or affecting the other.

  • For example, in a review of debriefing, Cheng et al10 suggested that the hallmark of debriefing is the “interactive, bidirectional, and reflective nature of discussion,” while characterizing feedback as “unidirectional communication about a recipient’s behavior.”
  • Similarly, reviews on feedback often synthesize evidence without considering debriefing at all, or what it might offer,6,16,17 despite suggestions that they may not be all that different.18 

The theoretical frameworks underlying feedback and debriefing discourses may explain the historical divide and how and why solutions to challenges with learning conversations emerge and remain distinct. These theoretical frameworks unavoidably influence subsequent research—perpetuating some ideas, ignoring others, and splitting those who discuss learning conversations into factions. This perhaps unnecessary divide may limit how medical educators define and enact these challenging dialogues in ways that enhance their learning impact. Thus, the medical education community may need to reconceptualize learning conversations, not necessarily to assimilate the differences into one approach but to understand and consider the potential affordances of a shared organizing conceptual framework. Such a shared framework should both blend and discriminate (as appropriate) features that are responsive to and interact with the people involved, their educational needs, and the contexts and circumstances of the learning conversations.

이 관점에서는 피드백 및 디브리핑과 관련된 [이론적 뿌리]와 그 [발현 양상]을 살펴봅니다. 이 두 가지 교육 전략을 선택한 이유는 오랜 역사, 광범위한 사용, 의학교육 연구에서 점점 더 많은 관심을 받고 있기 때문입니다. 그럼에도 불구하고 이 두 가지 교육 전략의 공통된 목적을 고려할 때, 각각의 개념에 대해 생각하고 연구해야 하는 이론적 및 상황적 정당성은 고유하다고 생각합니다. 그런 다음 의학교육 커뮤니티가 이러한 개념을 분리하여 [학습 대화]를 이해하려는 노력을 더 발전시킬 수 있는지, 아니면 각각의 교육적 기여를 통합하는 통일된 개념적 틀을 만들 수 있는지 질문합니다. 
In this Perspective, we explore the theoretical roots and their manifestations as they relate to feedback and debriefing. We have selected these 2 educational strategies because of their long history, widespread use, and increasing focus in medical education research. Given their shared purpose, we nevertheless consider theoretical and contextual justifications for thinking about and studying each of these concepts as unique. We then ask whether the medical education community can better advance efforts to understand learning conversations by keeping these concepts separate or can, instead, create a unifying conceptual framework that integrates the educational contributions of each.

피드백: 이론적 뿌리와 그 발현
Feedback: Theoretical Roots and Their Manifestations

의학교육의 초기 피드백 전략은 부분적으로는 표준 이하의 성능을 보이는 기계 또는 장치피드백을 통해 수정하여 원하는 성능을 달성할 수 있는 교정적 접근법을 포함하는 생물학적 또는 공학적 개념적 프레임워크에서 비롯되었습니다. Ende19는 이 초기 개념을 간결하게 요약했습니다: "피드백은 수행의 결과를 시스템에 다시 삽입하여 시스템을 제어하는 것입니다." 그러나 엔데는 학습자의 관점과 목표, 효과적인 학습 지원 방법을 고려하는 인본주의 및 인지 이론을 바탕으로 피드백에 대한 이러한 접근 방식에 대한 우려를 제기하고 개선했습니다.19 그는 학습자에게는 주체성, 의지, 정서적 반응이 있기 때문에 피드백을 단순한 정보 공유로 개념화하는 것은 교육에 사용하기에 충분하지 않다고 보았습니다. 엔데는 경영학, 조직 심리학, 교육학의 개념적 틀을 바탕으로 피드백을 철학적으로 형성적인 것으로 포지셔닝하고 학습자의 반응과 사용에 대한 의존성을 강조했습니다. 이러한 발전은 피드백이 교사 중심적이고 여전히 단방향적이더라도, 학습자가 교육자의 '진단'을 올바른 것으로 보고 받아들이도록 하기 위해서는, 학습자가 성찰과 토론에 참여해야 한다는 가이드라인을 만들었습니다.
Early feedback strategies in medical education arose, in part, from biological or engineering conceptual frameworks involving corrective approaches, where machines or devices performing below a standard could be corrected using feedback to achieve the desired performance. Ende19 succinctly summarized this early notion: “Feedback is the control of a system by reinserting into the system the result of its performance.” However, Ende raised concerns about and then refined this approach to feedback by drawing upon humanist and cognitive theories that consider the views and goals of the learner and how effective learning can be supported.19 He viewed the conceptualization of feedback as merely information sharing to be insufficient for use in education, as learners have agency, volition, and emotional responses. Drawing on conceptual frameworks from business administration, organizational psychology, and education, Ende positioned feedback philosophically as being formative and also highlighted its dependence on learner reaction and use. The advances generated guidelines that were teacher centric and arguably still unidirectional but that also engaged learners in reflection and discussion—if only, perhaps, to have learners see and accept the educator’s “diagnosis” as correct.

나중에 Kluger와 DeNisi는 피드백의 다양한 효과에 대한 데모20를 통해 성과와 더불어 사람에 대한 관심의 중요성을 강조했습니다. 이들은 과제 관련 학습과 인간의 동기 부여에 관한 문헌을 바탕으로 자아감을 위협하는 피드백은 효과적일 가능성이 낮다는 피드백 개입 이론을 제안했습니다. 피드백은 심리적으로 안정감을 줄 수 있지만, 이는 자아나 사회적 지위에 대한 위협이 낮을 때만 가능하다고 제안했습니다. 이러한 상황에서는 실제로 학습자는 성과에 영향을 미치지 않더라도 더 많은 피드백을 원할 수 있습니다.20 저자들의 개념적 프레임워크는 성과 향상에 효과적이려면 피드백이 자아가 아닌 과제를 대상으로 해야 한다는 후속 가이드라인에 반영되어 있습니다.
Later, Kluger and DeNisi’s20 demonstration of the variable effects of feedback highlighted the importance of attending to the person in addition to the performance. Drawing on literature on task-related learning and human motivation, they proposed feedback intervention theory, which posited that feedback threatening to one’s sense of self is less likely to be effective. Feedback, they suggested, could prove psychologically reassuring, but only if threats to the self or to social status were low. In such circumstances, in fact, learners may seek more feedback, even if it does not affect performance.20 The authors’ conceptual framework is reflected in subsequent guidelines that feedback should target the task rather than the self to be effective in improving performance.

이러한 인지적 관점은 피드백 과정이 사회적 규칙과 영향에 의해 구속되는 사회적 상호 작용으로 발생한다는 인식으로 보완되었습니다. 따라서 피드백 연구자들은 반두라(Bandura)의 사회 인지 이론,21 Boud22와 쇤(Schön)23이 제시한 성찰의 역할, 자기 평가의 한계에 주목했습니다.24 피드백의 개념은 [개인이 새로운 정보를 분석하고 기존의 지식과 경험 기반에 통합할 수 있도록 지원하는 프로세스]로 발전했습니다.25 일부에서는 다음을 주장했습니다

  • 피드백이 학습자의 개인적 목표와 연결되어야 하고(인본주의적),
  • 비판적 자기 성찰과 자기 모니터링을 촉진해야 하며(인지적),
  • 피드백의 효과는 긍정적인 피드백 경험과 문화에 달려 있다(사회문화적).5 

이러한 사회문화적 및 인지적 관점은 학습과 피드백을 조절하는 사회적, 전문적, 조직적 영향에 대해서도 관심을 기울였습니다.26,27 종합하면, 슈퍼바이저가 피드백 대화에 진정성 있게 참여하는 것이 학습자의 참여와 대화의 정보를 의미 있는 방식으로 수용하고 사용하는 데 중요한 것으로 인식되기 시작했습니다.
This cognitive perspective was supplemented with the recognition that feedback processes occur as social interactions, bound by social rules and influences. Thus, feedback researchers drew on the social cognitive theories of Bandura,21 the role of reflection articulated by Boud22 and Schön,23 and the limitations of self-assessment.24 The concept of feedback evolved as a process that supported individuals to analyze and integrate new information into an existing base of knowledge and experience.25 Some argued that

  • feedback must link to the personal goals of the learner (humanistic),
  • that it must promote critical self-reflection and self-monitoring (cognitive), and
  • that its effectiveness further rests on a positive feedback experience and culture (sociocultural).5 

These sociocultural and cognitive perspectives directed some attention toward the social, professional, and organizational influences that moderate learning and feedback as well.26,27 Taken together, authentic engagement of supervisors in feedback conversations became recognized as critical for learners’ engagement and their acceptance and use of the conversations’ information in meaningful ways.

이러한 이론적 뿌리를 바탕으로 특정 맥락에서 감독자-학습자 관계의 영향을 명시하는 피드백 대화 촉진 모델이 등장했습니다. 예를 들어, Sargeant 등28은 [관계, 반응, 내용, 코칭의 4가지 반복 단계]로 구성된 모델을 설명합니다. 각 단계는 학습자의 성과 데이터에 대한 [참여와 행동을 촉진]하기 위한 [개방형 반성적 질문]이 특징입니다. 이 모델은 다음 개념을 기반으로 합니다. 

  • 인본주의 이론(부정적 피드백의 잠재적 영향에 대한 이해 강조),
  • 인지 이론(자기 성찰, 스키마 습득 및 행동 변화 강조),
  • 정보에 입각한 자기 평가

이 모델은 학습자가 자신의 성과 데이터에 대한 대화에 참여하고, 비판적 자기 성찰과 자기 주도성을 촉진하고, 변화의 우선순위를 파악하고, 이를 달성하기 위한 계획을 수립하도록 하는 것을 목표로 합니다. 이 접근 방식은 성과 결과를 시스템에 다시 삽입하는 기계적인 접근 방식과는 크게 다릅니다. 다음 섹션에서 설명하겠지만, 이 모델은 디브리핑과 매우 유사합니다.
From these theoretical roots have emerged models of facilitated feedback conversations that make explicit the influence of the supervisor–learner relationship in a particular context. For example, Sargeant et al28 describe a model involving 4 iterative phases: relationship, reaction, content, and coaching. Each phase is characterized by open-ended reflective questions to promote learner engagement with, and action upon, their performance data. This model is based

  • on humanistic theory (emphasizing understanding of the potentially limiting impact of disconfirming feedback),
  • on cognitive theory (emphasizing self-reflection, schema acquisition, and behavior change), and
  • on notions of informed self-assessment.

This model aims to engage learners in conversation about their performance data, to promote critical self-reflection and self-direction, to identify priorities for change, and to codevelop a plan to achieve it. This approach differs significantly from the more mechanical approaches of reinserting the results of the performance into the system. As we describe in the next section, this model bears more than a passing resemblance to debriefing.

디브리핑: 이론적 뿌리와 그 표현 방식
Debriefing: Theoretical Roots and Their Manifestations

[디브리핑]은 종종 구조화된 이벤트 후 학습 대화로 설명됩니다. 이 용어는 군사 작전, 중대한 사건 또는 충격적인 사건, 속임수가 발생한 심리 연구 등 다양한 유형의 사후 대화를 설명하는 데 사용되었습니다.8,29 교육적 맥락에서 디브리핑의 목적은 "체험 활동 중에 생성된 정보를 사용하여 학습을 촉진하는 것"이었습니다.8 Lederman8은 듀이의 연구를 바탕으로 디브리핑에는 통찰력을 생성하는 토론을 사용하여 이러한 경험을 처리하는 체험적 교육 방법론이 포함된다고 제안했습니다. 디브리핑의 정의학습자가 자신의 [경험과 그 의미에 대한 체계적인 분석]을 제공하는, [구조화되고 상호 작용적이며 성찰적인 토론]을 통해 학습자를 가이드하는 예측 가능한 프로세스를 강조합니다.10,13,30
Debriefing is often described as a structured postevent learning conversation. The term has been used to describe different types of postevent conversations, including those that followed military campaigns, critical incidents or traumatizing events, and psychological studies where deception occurred.8,29 In educational contexts, the purpose of debriefing has been to “use the information generated during the experiential activity to facilitate learning.”8 Lederman8 drew on Dewey’s work and suggested that debriefings involve experiential educational methodologies that incorporate processing those experiences using insight-generating discussions. Definitions of debriefing emphasize a predictable process of guiding learners following an experience in a structured, interactive, reflective discussion that offers a systematic analysis of their experience and its meaning.10,13,30

디브리핑 문헌의 대부분은 조직 맥락과 이론에 관한 주제에서 찾을 수 있습니다. 조직 이론은 조직의 구조를 최적화하기 위해 한때 조직의 규모, 기술 및 환경을 강조했습니다.31 이러한 접근 방식과 관련된 한계를 고려하면서 연구자들은 조직 구성원의 인지 및 동기 부여 방향, 즉 해석 체계가 어떻게 중요한지에 대해 인식하기 시작했습니다. 이러한 해석 체계는 가치, 신념, 직업 문화를 반영하고 형성하며 궁극적으로 구조적 변화와 얽혀 있는 행동에 영향을 미쳤습니다. 이러한 [개별적 해석 체계]라는 개념은 주어진 경험이 다양한 방식으로 해석되고 이해될 수 있다는 개념을 정당화했습니다. 관점 간에 충돌이 있을 경우 설명, 분석 및 적용을 포함하는 분석적 인지 과정을 통해 해결할 수 있습니다. 이 프로세스는 이러한 다양한 체계를 명시적으로 만들어 필요에 따라 비교하고, 설명하고, 수정할 수 있도록 합니다. 따라서 디브리핑은 학습자와 진행자 간의 공유된 이해를 달성하는 것을 목표로 합니다. 궁극적으로 교육자는 참가자의 "성찰적 역량과 자신의 행동을 분석하는 능력"을 높이려고 합니다.32 
Much of the debriefing literature can be traced to the topics of organizational contexts and theory. When thinking about optimizing an organization’s structure, organizational theory at one point emphasized an organization’s size, technology, and environment.31 In considering limitations associated with this approach, researchers began to appreciate how an organization’s members’ cognitive and motivational orientations—their interpretive schemes—mattered. These interpretive schemes reflected and shaped values, beliefs, professional culture, and ultimately actions, which were intertwined with structural change. This concept of individually held interpretive schemes legitimized the notion that a given experience can be enacted and understood in many ways. When there is a conflict between perspectives, resolution can be achieved through an analytical cognitive process involving description, analysis, and application. This process makes these different schemes explicit, allowing them to be compared, accounted for, and modified as needed. Debriefing thus aims to achieve a shared understanding between learners and facilitators. Ultimately, educators attempt to heighten participants’ “introspective capacities and their ability to analyze their own behavior.”32

디브리핑의 개념은 사회 심리학의 영향을 더 많이 받았습니다. 루돌프 등30 은 Bartunek,31 Lederman,8 Weick,33 등의 연구를 확장하여 사람들이 "내부 [인지 프레임]을 통해 외부 자극을 이해하는 방식"을 강조했습니다.30 이러한 이론적 고려는 학습자가 반드시 지식이 부족하거나, 정보가 필요하거나, 수행에 격차가 있는 것으로 간주하지 않았습니다. 대신, 모든 상호작용, 해석 및 행동은 피할 수 없는 순간적인 감각적 판단을 반영합니다. 학습자에게는 자신의 행동이 정확하고 정당한 것입니다. 학습 또는 성과 향상에는 사회적 맥락에서 발생하는 이러한 [숨겨진 인지 프레임]을 드러내어 이해한 다음 조정이 필요한지 여부를 결정하는 것이 포함됩니다. 강조점 또는 분석 단위는 구체적으로 행동이 아니라 그 행동으로 이어진 [인지 프레임(또는 해석 체계)]입니다.
The concept of debriefing has been further influenced by social psychology. Rudolph et al30 extended the work of Bartunek,31 Lederman,8 Weick,33 and others, highlighting how people “make sense of external stimuli through internal cognitive frames.”30 These theoretical considerations did not place the learner as necessarily lacking knowledge, needing information, or having gaps in performance. Instead, any interaction, interpretations, and behaviors reflect unavoidable in-the-moment sense making. To learners, their actions are correct and justifiable. Learning or performance improvement involves revealing these hidden cognitive frames occurring in social contexts to understand them and then determining whether they need to be adjusted. The emphasis, or unit of analysis, is not specifically the behavior but rather the cognitive frame (or interpretive scheme) that led to it.

의학교육에서 행동과 결과를 알려주는 해석 체계의 개념은 콜브의 경험적 학습 이론,1 쇤의 성찰 개념,23 의도적 연습34 및 숙달 학습에 대한 아이디어 등 피드백과 관련된 개념적 틀과 함께 자리 잡았습니다.35,36 예를 들어, 루돌프 등37 은 콜브를 인용하여 학습자가 다양한 관점에서 자신의 경험을 성찰하고 관찰하여 새로운 개념을 만들거나 미래의 맥락에서 사용할 수 있도록 기존 개념을 강화해야 한다고 주장했습니다. Fanning과 Gaba29는 Schön과 마찬가지로 개인이 "스스로 학습 경험을 분석하고, 이해하고, 동화할 수 있는 능력을 타고나지 않을 수 있기" 때문에 "경험 후 분석"(즉, 디브리핑) 또는 "경험 학습의 주기에서 안내된 성찰"이 필요하다고 제안했습니다. 
In medical education, this concept of interpretive schemes informing actions and results became positioned alongside conceptual frameworks relevant to feedback, including Kolb’s experiential learning theories,1 Schön’s notions of reflection,23 and ideas about deliberate practice34 and mastery learning.35,36 Rudolph et al,37 for example, invoked Kolb to argue that learners need to reflect on and observe their experiences from many perspectives to create new concepts or strengthen existing ones for use in future contexts. Fanning and Gaba,29 aligning with Schön, suggested that “postexperience analysis” (i.e., debriefing), or “guided reflection in the cycle of experiential learning,” was necessary because individuals may not be “naturally capable of analyzing, making sense, and assimilating learning experiences on their own,” threatening reflective gains.

이러한 이론적 방향을 고려할 때 [디브리핑][설명, 이해 및 유추, 일반화 및 적용]의 단계를 포함하는 [인지적 분석 활동]으로 부상했으며, 이러한 탐색에 대한 학습자의 반응을 강조합니다.4,38,39 이러한 분석적 접근 방식은 학습자의 반응이나 사회적 상호작용이 없는 것이 아니라 심리적으로 안전하고 지지적인 학습 환경을 구축하고 가혹한 판단을 최소화하는 데 중점을 두어 이를 설명하도록 특별히 구조화되어 있습니다. 심리적 안전감을 통해 디브리핑 대화는 성과를 기준에 맞추는 것이 아니라 수정이 필요할 수도 있고 필요하지 않을 수도 있는 특정 임상 상황에 대한 행동을 주도하는 근본적인 메커니즘을 이해하고, 드러내고, 정교화하는 데 집중할 수 있습니다.4,29,30 이 접근 방식은 학습자에게 궁극적으로 새로운 맥락에서 행동 변화를 촉진할 수 있는 정신 모델을 수정할 기회를 제공하는 것을 목표로 합니다. 디브리핑에는

  • 행동에 대한 성찰을 촉진하는 분석적 선택이 포함되며,
  • 이 때 학습자와 교수진이 공동으로 수행을 성찰하고,
  • 행동의 근거를 탐색하고,
  • 필요에 따라 수정하고,
  • 개선 전략을 결정하는 시간을 갖습니다.36

효과적인 디브리핑은 학습한 교훈을 맥락화하고 일반화하여 향후 임상 환경에서 수행에 미치는 영향을 최적화할 수 있도록 합니다.
Given these theoretical orientations, debriefing has emerged as a cognitive analytical activity involving phases of description, understanding and analogy, generalization, and application, all the while emphasizing the learner’s response to such explorations.4,38,39 These analytical approaches are not devoid of learner reactions or social interactions but instead are structured specifically to account for them, through an emphasis on establishing a psychologically safe and supportive learning environment and minimizing harsh judgments. A sense of psychological safety allows debriefing conversations to become less about matching performance to criteria and more about understanding, revealing, and elaborating underlying mechanisms driving behavior for a given clinical situation, which may or may not need to be revised.4,29,30 This approach aims to afford learners the opportunity to modify mental models that would ultimately prompt behavior change in novel contexts downstream. Debriefing involves

  • analytical choices facilitating reflection on action,
  • where learners and faculty take time to jointly reflect on the performance,
  • explore the rationale for actions,
  • modify as necessary, and
  • determine strategies for improvement.36 

Effective debriefings contextualize lessons learned and also generalize them to optimize the impact on performance in future clinical environments.

피드백과 마찬가지로 디브리핑에 대한 이해도 계속 발전하고 있습니다. 예를 들어, 저자들은 학습자에게 시간이 제한된 환경에서 자가 평가를 요청하는 형식(예: 플러스-델타)36과 의도적인 연습 및 숙달 학습 커리큘럼의 일부로 성과 기준을 강조하는 형식의 사용을 포함시켰습니다.39 전통적으로 디브리핑에 대한 기본 관점(예: 게임, 항공 및 시뮬레이션의 사후 이벤트)이 유보되었던 맥락에 이제 다른 개념과 접근 방식이 포함되고 있습니다. 디브리핑에 대한 보다 다양한 정의와 개념화는 디브리핑이 순전히 인지적 프레임에 기반하거나 시뮬레이션 기반 활동에만 국한된다는 매우 구체적인 생각에 도전하는 것으로 보입니다.40 디브리핑은 피드백과 뿌리가 다를 수 있지만, 이제 이론적 및 개념적 설명과 정당화에서 상당한 중복이 있을 수 있습니다.
Like feedback, understanding of debriefing continues to evolve. For example, authors have included the use of formats that ask learners to self-assess in time-limited settings (e.g., plus-delta)36 and that place emphasis on performance criteria as part of deliberate practice and mastery learning curricula.39 The contexts for which foundational views on debriefing had traditionally been reserved (e.g., postevents in gaming, aviation, and simulation) are now including other concepts and approaches. More diverse definitions and conceptualizations of debriefing seem to be challenging this once highly specific idea that debriefing is purely based on cognitive frames or purely situated in simulation-based activities.40 While debriefing may be rooted differently from feedback, there may now be significant overlap in the theoretical and conceptual descriptions and justifications.

피드백과 디브리핑 전통의 통합
Integrating the Feedback and Debriefing Traditions

비슷한 목표를 공유하고 있음에도 불구하고 피드백과 디브리핑의 개념은 문헌에서 서로 거의 독립적으로 발전해 왔습니다. 두 개념의 기원을 검토한 결과, 

  • (1) 각 개념은 서로 다른 이론적 뿌리에서 파생되어 연구, 발전 및 제정 방식에 차이가 있고, 
  • (2) 두 개념 모두 여러 가지 유사한 교육 이론을 활용하며 이러한 이론을 운영하는 방법으로 자리매김하고 있으며, 
  • (3) 피드백과 디브리핑을 연구하고 발전시키는 사람들이 유사한 인지 및 사회 이론을 활용하여 접근 방식을 개선하고 구조화한다는 점에서 현재 전통 간에 상당한 공통점이 존재한다는 것을 알 수 있었습니다. 

이제 이러한 교육 전략을 학습 대화라는 단일 범주로 통합하고, 특정 교육적 용도나 이점을 위해 선택할 수 있는 리소스로서 구별되는 특징을 취급하는 것을 고려할 때가 되었다고 제안합니다.
Despite sharing similar objectives, the concepts of feedback and debriefing have evolved in the literature largely independent of one another. A review of their conceptual origins suggests that

  • (1) each was derived from distinct theoretical roots, leading to variations in how they have been studied, advanced, and enacted;
  • (2) both draw on multiple, often similar, educational theories, positioning themselves as ways of operationalizing those theories; and
  • (3) considerable commonality between traditions now exists, in that those studying and advancing both feedback and debriefing are leveraging similar cognitive and social theories to refine and structure their approaches.

We propose that it is time to consider merging these educational strategies into a single category, learning conversations, treating any distinguishing features as resources from which to select for particular educational use or benefit.

피드백과 디브리핑의 뚜렷한 진화 경로는 이론만큼이나 상황에 따라 달라질 수 있습니다. 예를 들어, 의학 교육에서 

  • [디브리핑]은 [시뮬레이션]과 밀접한 관련이 있으며, 이는 디브리핑의 특징 중 일부를 설명할 수 있습니다. 시뮬레이션은 학습자의 심리적 안전을 확립하고 강화하는 의식을 쉽게 도입할 수 있는 통제된 환경을 제공합니다. 시뮬레이션을 통해 학습자의 행동에 대한 상세하고 때로는 비디오로 강화된 검토를 할 수 있는 기회는 의사 결정이 내려질 때 이를 해체하고 이해하는 과정을 더욱 지원합니다. 
  • 이와는 대조적으로 [피드백 접근 방식]은 더 [다양한 환경]에서 발전해 왔습니다. 예를 들어 임상 교육에서 피드백 대화는 역동적이고 체계적이지 않은 실제 환자 치료의 세계에서 즉석에서 이루어집니다. 따라서 피드백은 디브리핑과 같이 목적에 맞는 교육적 접근 방식으로 진화한 것이 아니라 다양한 환경과 맥락에서 사용되면서 그때그때 필요에 따라 발전해 왔습니다.

The distinct evolutionary paths of feedback and debriefing may be as much about context as about theory. In medical education, for example, debriefing’s strong foundational ties to simulation may explain some of its characteristic features. Simulation offers a controlled environment into which rituals that establish and reinforce psychological safety for learners can be readily introduced. The opportunities simulation creates for detailed and sometimes video-enhanced review of learner actions further support a process of deconstructing and understanding decisions as they are made. Feedback approaches, in contrast, have developed in a wider range of settings. In clinical education, for example, feedback conversations occur on the fly in the dynamic and less organized world of authentic patient care. Therefore, feedback has not evolved as a fit-for-purpose pedagogical approach like debriefing; rather, it has developed in fits and starts as its uses have played out across a range of settings and contexts.

이론적 기원과 맥락적 영향은 다르지만, 이 두 가지 전통은 사회적 맥락에서 인지 및 정서 영역을 대상으로 하는 관찰과 경험에 기반한 대화적 과정을 공유합니다. 

  • 두 가지 모두 형성적 활동이며 교육자가 학습자의 성과를 관찰하고, 
  • 표준을 기준으로 관찰내용을 공유하며, 
  • 학습자와 해당 성과, 관찰 내용, 표준 및 개선 방법에 대한 대화에 참여하게 합니다. 

또한 두 전통 모두 학습자 안전의 역할, 관계, 신뢰, 신용의 영향, 문화와 가치의 영향 등 학습을 형성하는 사회적 측면에 대해 고민해 왔습니다.4,41-43 유사한 과제가 확인되었지만 역사적으로 연구자들은 최근까지 서로 다른 렌즈, 가치, 이론을 사용하여 각 방법을 탐구하고 개선해 왔으며, 그 결과 서로 다른 진화 경로를 밟아 왔습니다. 이제 이론적 지향에 존재하는 공통점을 고려할 때, 교육자들은 이제 [학습 대화]를 하나의 통합된 과학으로 탐구할 수 있는 전환점에 서 있습니다.
Despite their different theoretical origins and contextual influences, these 2 traditions share a dialogic process informed by observation and experience that targets cognitive and affective domains within social contexts.

  • Both are formative activities and involve educators who observe learners’ performance;
  • share their observations in reference to a standard; and
  • engage the learner in a conversation about that performance, their observation, the standards, and how best to improve.

And both traditions have grappled with social aspects that shape learning, such as the role of learner safety; the influence of relationships, trust, and credibility; and the impact of culture and values.4,41–43 Although similar challenges have been identified, historically, researchers have until recently explored and refined each method using different lenses, values, and theories, resulting in divergent evolutionary paths. Given the commonality that now exists in theoretical orientations, educators are now at a turning point where learning conversations can be explored as a united science.

피드백과 디브리핑의 기본 원칙은 서로 다르지만 중요한 방식으로 서로를 보완하기도 합니다. 예를 들어,

  • [피드백]은 어떤 목표 성과 기준과 관련하여 행동에 대한 판단을 강조하는 반면,
  • [디브리핑]은 무슨 일이 왜 일어났는지에 대한 참가자의 이해를 이해하려는 시도를 강조할 수 있습니다.

실제로 이 두 가지 프로세스는 피드백 및 디브리핑 상황 모두에서 다양한 정도로 존재할 수 있습니다. 개선해야 할 사항을 파악하면 학습자는 향후 성과 목표를 설정할 수 있으며, 현재 상황에서 발생한 일과 그 이유를 이해하면 학습자는 성과 목표를 지원하기 위해 자신의 행동을 수정할 수 있는 방법에 대한 통찰력을 얻을 수 있습니다. 이러한 뉘앙스를 인식하면

  • (1) 교육자는 고유한 상황에 대응하여 대화 선택을 조정하는 능력을 향상시킬 수 있고,
  • (2) 연구자는 학습 대화의 성공 요인 식별을 포함하여 연구 질문과 의제를 더 잘 묘사할 수 있으며,
  • (3) 학습자와 최종 환자는 체험 이벤트에서 최적의 혜택을 받을 수 있습니다.

While the foundational tenets of feedback and debriefing differ, they also complement each other in important ways. For instance, feedback may emphasize a judgment of behavior with respect to some aspirational standard of performance, while debriefing may emphasize attempts to understand participants’ comprehension of what happened and why. In practice, these 2 processes are probably present to varying degrees in both feedback and debriefing situations. Knowing what needs to be improved allows learners to set goals for future performance, and understanding what happened in the current situation and why offers learners insights into how they can modify their behavior to support their performance goals. Recognition of these nuances may have several benefits

  • (1) for educators, who may develop increased competence in tailoring their conversational choices in response to unique situations;
  • (2) for researchers, who may now better delineate research questions and agendas, including the identification of success factors of learning conversations; and
  • (3) for learners and their eventual patients, who may optimally benefit from the experiential event.

그림 1은 이 두 가지 피드백 및 디브리핑 프로세스를 결합한 결과를 보여주며, 유사한 [선행 요소](예: 행동적 체험 수행, 관찰자, 성찰)와 여러 [영향/상황적 요인]에 대응하여 성과 향상을 촉진하기 위한 특정 대화 전략을 통해 제정된 일반적인 대화 접근법으로 프레임을 구성합니다. 이러한 요소는 관련된 맥락 및 경험적 사건과 대화 선택의 기능적 및 이론적 일치 정도를 알려주는 일련의 '규칙'을 제공합니다. 현재 별개의 교육 활동 패턴으로 존재하는 피드백과 디브리핑을 [학습 대화]로 재구성함으로써, 우리는 이를 상호 보완적인 활동, 즉 미래의 성과를 개선하기 위한 정보 교환의 대화형 대화 프로세스를 포함하는 것으로 종합적으로 개념화합니다. 향후 연구 방향은 이러한 대화적 선택이 어떻게 최적으로 검토, 선택, 통합되는지, 그리고 주어진 경험적 사건에 어떤 방식으로 접근할 때 어떤 결정을 내려야 하는지를 탐구할 수 있습니다.

Figure 1 shows the results of combining these 2 processes of feedback and debriefing and frames them as having similar antecedents (e.g., behavioral experiential performances, observers, reflection) and as general conversational approaches enacted through specific conversational strategies to foster performance improvement in response to a number of influencing/contextual factors. These factors provide a set of “rules” that help inform the degree of functional and theoretical alignment of those conversational choices with the context and experiential event involved. By reframing feedback and debriefing—which exist currently as distinct patterns of educational activities—as learning conversations, we conceptualize them collectively as involving complementary activities, namely interactional conversational processes of information exchange to improve future performance. Future research directions may explore how these conversational choices are optimally examined, selected, and integrated and how decisions are to be made when approaching a given experiential event in one way or another.


관찰된 성과를 기반으로 성과를 개선하는 문제인 경우에는 피드백과 디브리핑의 구분이 덜 중요할 수 있습니다. 엘러웨이와 베이츠44는 패턴의 이론적 구성의 관련성을 정교하게 설명했습니다. 이들은 건축 이론가인 크리스토퍼 알렉산더의 연구를 바탕으로 다음과 같이 주장했습니다. 
The distinction between feedback and debriefing may be less relevant when the problem is improving performance based on observed performance. Ellaway and Bates44 elaborated the relevance of the theoretical construct of patterns. Drawing on the work of architectural theorist Christopher Alexander, they argued that

[패턴 사고]는 개념과 일상의 경계가 어디인지, 시간이 지남에 따라 어떻게 발전하고 변화하는지 등 우리의 개념과 일상을 바라보는 새로운 방식을 제공합니다.
pattern thinking affords new ways of looking at our concepts and routines, such as where their boundaries are and how they develop and change over time.

[패턴의 관점]에서 사고하면 피드백과 디브리핑이 서로 다른 이론적 뿌리를 통해 파생된 패턴을 나타내며, 이는 특정 상황, 이러한 상황에서의 과제, 그리고 이러한 과제에 대한 적절한 해결책 간의 관계에서 비롯된다는 사실을 인식할 수 있습니다. 이러한 대화 전략이 발전해 온 방식을 고려할 때, 교육자가 피드백이나 디브리핑을 제공할지 또는 제공해야 하는지에 대한 미리 정해진 생각보다는 교육 상황과 주변의 영향 및 맥락 요인에 더 많은 영향을 받을 수 있음을 시사합니다. 예를 들어, 대화에는 다양한 개인(예: 학습자, 교육자, 동료), 다양한 상황(예: 시뮬레이션 실험실, 수술실, 외래 진료소), 성과 세부 사항 및 기타 수많은 영향 요인이 포함되므로 대화 선택의 관련성 또는 조정은 끊임없이 변화합니다. 피드백이나 디브리핑으로 분류하는 것이 아니라 이러한 상호 작용하고 영향을 미치는 요인이 가장 중요합니다. 이 새로운 '패턴'은 기능적, 이론적으로 정렬된 대화 선택지를 구분하는 데 도움이 될 수 있습니다. 앞으로 가장 가치가 있을 것으로 생각되는 것은 이러한 정렬의 역할과 기능, 그리고 학습 대화에 정보를 제공하는 방식입니다.
Thinking in terms of patterns allows us to recognize that both feedback and debriefing have represented patterns—derived through different theoretical roots—that result from their relationships between specific contexts, challenges in these contexts, and appropriate solutions to those challenges. Given the way in which these conversational strategies have evolved now suggests that it may be more about the educational situation and surrounding influences and context factors than any predetermined ideas about whether an educator is or should be preparing to provide feedback or debriefing. For instance, because the conversation involves different individuals (e.g., learners, educators, colleagues), different contexts (e.g., simulation laboratory, operating theater, outpatient clinic), as well as performance details and numerous other influencing factors, the relevance or alignment of conversational choices is ever-changing. It is these interacting and influencing factors that become paramount—not necessarily the categorization as feedback or debriefing. This new “pattern” may help to differentiate a selection of functionally and theoretically aligned conversational choices. It is the roles and function of this alignment and how they inform learning conversations that we think may be of most value moving forward.

이러한 접근 방식의 혼합과 대화 전략의 선택은 이전에 고려된 바 있습니다. 예를 들어, Eppich와 Cheng39은 디브리핑과 피드백에 대해 논의하면서 디브리핑이 피드백을 위한 포럼을 제공할 수 있다고 제안했습니다. 여전히 동일한 목표를 향한 별개의 구성 요소로 취급되지만, 집중 촉진, 학습자 자기 평가, 교수/지시 피드백을 포함하는 이들의 혼합 모델은 연구자들이 가장 적절한 전략을 선택하기 위해 사용할 수 있는 특정 어포던스(교육적 맥락, 학습자 특징, 수행 세부 사항)를 어떻게 사용했는지를 보여줍니다. 이론적 관점에서 두 가지 교육 전략이 어떻게 점점 더 유사해지는지 보여주는 데 기여했습니다. 
This blending of approaches and the selection of conversation strategies has been considered previously. For example, Eppich and Cheng39 discussed debriefing and feedback and suggested that the former may provide a forum for the latter. Although still treated as distinct constructs toward the same goal, their blended model, which includes focused facilitation, learner self-assessment, and teaching/directive feedback, illustrates how researchers have used the specific affordances (i.e., educational contexts, learner features, performance details) available to them to select the most appropriate strategies. Our contribution is to demonstrate how from a theoretical perspective the 2 educational strategies are increasingly similar.

피드백과 디브리핑의 전통을 통합하는 것은 실질적인 이점을 제공할 뿐만 아니라, 학습 대화에 대한 다양한 접근 방식의 공통적인 취약성에 대한 연구의 관심을 집중시킵니다. 예를 들어, 모든 학습 대화에는 [학습자의 취약성]과 [위험 감수]라는 요소가 포함되므로 의미 있는 참여를 가능하게 하려면 학습자가 취약성을 안전하게 경험할 수 있도록 하는 접근 방식이 필요합니다. 디브리핑과 피드백을 학습 대화의 주제에 대한 변형으로 간주하면 의료 교육 커뮤니티에 이 중요한 문제를 해결할 수 있는 다양한 옵션을 제공할 수 있습니다. 시뮬레이션 환경에서 의료 교육자는 학습자가 충분히 참여할 수 있도록 디브리핑을 특징짓는 심리적 안전 확립 의식을 활용할 수 있습니다. 이러한 접근 방식이 불가능할 수 있는 실제 임상 환경에서는 의학교육자가 피드백의 핵심으로 점점 더 중요하게 여겨지고 있는 교사-학습자 관계를 활용하여 이러한 안전성을 구축할 수 있습니다.
Integrating the feedback and debriefing traditions not only provides practical benefits but also focuses research attention on the common fragilities of the various approaches to learning conversations. For example, all learning conversations involve elements of learner vulnerability and risk-taking, so making meaningful engagement possible demands an approach that makes it safe for learners to experience vulnerability. Viewing debriefing and feedback as variations on a theme of learning conversations offers the medical education community a range of options for addressing this critical issue. In simulated settings, medical educators may draw on the rituals of establishing psychological safety that characterize debriefing to allow learners to engage fully. In real clinical settings where such approaches may not be feasible, medical educators may draw instead on the teacher–learner relationship that is increasingly viewed as central to feedback to create this safety.

각 연구 전통은 각기 다른 관점에서 의미 있는 학습 대화에 참여해야 하는 과제를 탐구해 왔습니다. 그 과정에서 각 전통은 이러한 대화가 교육적 가치를 갖기 위해 필요한 조건에 대해 많은 것을 가르쳐 주었습니다. 서로 다른 강조점은 상호 보완적인 것으로 보이며, 의학교육은 이들의 주요 통찰력을 결합함으로써 많은 것을 얻을 수 있습니다. 예를 들어, 

  • 디브리핑 전통은 심리적 안전과 성찰을 유도하는 데 중점을 두는 반면, 
  • 피드백 전통은 관계, 신뢰성, 감정에 중점을 둡니다. 

성과 향상을 촉진하려면 학습 대화를 진행할 때 이러한 요소를 종합적으로 고려해야 할 수 있습니다. 궁극적으로 체험 학습에는 여러 가지 영향 요인(그림 1 참조)과 이론적 정합성(즉, 대화 선택이 목적에 적합한 정도)을 고려한 이벤트 후 학습 대화가 포함되어야 합니다. 교육자는 두 모델 간의 일관된 특징뿐만 아니라 가장 적합한 대화 전략을 선택하기 위해 관련된 상황, 사람, 맥락을 감지하고 대응하는 접근 방식에 대한 역량을 개발해야 하며, 연구자는 이를 탐구해야 합니다.
Each research tradition has explored the challenge of engaging in meaningful learning conversations from a distinct perspective. In the process, each tradition has taught us much about the conditions necessary for such conversations to have educational value. Their different emphases appear complementary, and medical education has much to gain by combining their key insights. For example,

  • debriefing traditions focus on psychological safety and guided reflection, while
  • feedback traditions focus on relationship, credibility, and emotion.

Promoting performance improvement may need to consider these factors collectively when learning conversations are undertaken. Ultimately, experiential learning must include a postevent learning conversation that takes into account a number of influencing factors (see Figure 1) and theoretical alignment (i.e., the degree to which conversational choices are fit for purpose). Educators must develop competence in, and researchers must explore, not only the features that are consistent between the 2 models but also the approaches to detecting and responding to the circumstances, people, and contexts that are involved to select the most suitable conversational strategies.

Summing Up

피드백과 디브리핑은 모두 참여형 학습 대화를 통해 성과 향상을 촉진하는 것을 목표로 합니다. 둘 다 인지적 영향사회적 영향미묘한 균형에 의존합니다. 여기서 설명한 크게 분리된 두 가지 연구 전통을 탐구하면서 의미 있는 학습 대화가 이루어지는 데 필요한 조건에 대한 인사이트를 발견했습니다. 그러나 의학교육계가 미래를 바라볼 때 이러한 전통을 통합함으로써 많은 것을 얻을 수 있습니다. 의학교육자들은 끊임없이 확장되는 다양한 상황과 환경에서 학습을 지원하기 위해 맞춤화할 수 있는 정교한 대화 전략 레퍼토리를 필요로 합니다. 이러한 전략을 연구하고 실행하는 통합적인 접근 방식은 이러한 요구를 충족하기 위한 진전을 가속화할 수 있습니다. 향후 연구에서는 피드백과 디브리핑을 학습 대화의 단일 범주에 통합하는 것이 이론적, 교육적, 실용적 타당성이 있는지에 대한 토론과 논의를 장려해야 합니다.

Both feedback and debriefing aim to stimulate performance improvement through engaged learning conversations. Both depend on a delicate balance of cognitive and social influences. The exploration of their largely separate research traditions that we have described here has unearthed insights into the conditions necessary for meaningful learning conversations to occur. As the medical education community looks to the future, however, much may be gained by integrating these traditions. Medical educators require a sophisticated repertoire of conversational strategies that can be tailored to support learning across an ever-expanding range of contexts and settings. An integrated approach to studying and enacting these strategies may accelerate progress toward meeting that need. Future research should encourage debate and discussion about whether integrating feedback and debriefing into the single category of learning conversations has theoretical, educational, and practical relevance.

Acad Med. 2020 Jul;95(7):1020-1025. doi: 10.1097/ACM.0000000000002932.

Learning Conversations: An Analysis of the Theoretical Roots and Their Manifestations of Feedback and Debriefing in Medical Education

Affiliations collapse

1W. Tavares is assistant professor and scientist at both The Wilson Centre and the Post-MD Education Office, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada, and scientist, Paramedic and Senior Services, Community Health Services Department, Regional Municipality of York, Newmarket, Ontario, Canada; ORCID: W. Eppich is associate professor of pediatrics-emergency medicine and medical education, Northwestern University Feinberg School of Medicine, Chicago, Illinois. A. Cheng is associate professor of pediatrics, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada. S. Miller is associate professor of emergency medicine and medical education, Department of Emergency Medicine, and assistant dean, undergraduate medical education, Faculty of Medicine, Dalhousie University, Halifax, Nova Scotia, Canada. P.W. Teunissen is professor, School of Health Professions Education, Maastricht University, Maastricht, the Netherlands, and maternal fetal medicine specialist, VU University Medical Center, Amsterdam, the Netherlands. C.J. Watling is professor, Departments of Clinical Neurological Sciences and Oncology, Schulich School of Medicine and Dentistry, University of Western Ontario, London, Ontario, Canada. J. Sargeant is professor, Continuing Professional Development Program and Division of Medical Education, Faculty of Medicine, Dalhousie University, Halifax, Nova Scotia, Canada.

PMID: 31365391

DOI: 10.1097/ACM.0000000000002932


Feedback and debriefing are experience-informed dialogues upon which experiential models of learning often depend. Efforts to understand each have largely been independent of each other, thus splitting them into potentially problematic and less productive factions. Given their shared purpose of improving future performance, the authors asked whether efforts to understand these dialogues are, for theoretical and pragmatic reasons, best advanced by keeping these concepts unique or whether some unifying conceptual framework could better support educational contributions and advancements in medical education.The authors identified seminal works and foundational concepts to formulate a purposeful review and analysis exploring these dialogues' theoretical roots and their manifestations. They considered conceptual and theoretical details within and across feedback and debriefing literatures and traced developmental paths to discover underlying and foundational conceptual approaches and theoretical similarities and differences.Findings suggest that each of these strategies was derived from distinct theoretical roots, leading to variations in how they have been studied, advanced, and enacted; both now draw on multiple (often similar) educational theories, also positioning themselves as ways of operationalizing similar educational frameworks. Considerable commonality now exists; those studying and advancing feedback and debriefing are leveraging similar cognitive and social theories to refine and structure their approaches. As such, there may be room to merge these educational strategies as learning conversations because of their conceptual and theoretical consistency. Future scholarly work should further delineate the theoretical, educational, and practical relevance of integrating feedback and debriefing.


보건의료전문직교육의 환자참여: 메타 내러티브 리뷰 (Adv Health Sci Educ Theory Pract. 2019)
Patient involvement in health professionals’ education: a meta‑narrative review
Paula Rowland1,2,3,4,5 · Melanie Anderson3 · Arno K. Kumagai6,7 · Sarah McMillan3 · Vijay K. Sandhu8 · Sylvia Langlois5 



환자 활동은 커리큘럼을 설계하고 실행하는 사람들의 직접적인 권한에 속할 수도 있고 그렇지 않을 수도 있지만, 환자 및 교육에서 환자의 역할은 항상 교육자들의 관심사였습니다. 최근에는 "환자 참여"로 식별되는 프로그램에서 환자가 보건 전문직 교육에 참여하는 방식이 더욱 공식화되고 있습니다. 전문직 교육에서의 환자 참여 관행에 대한 실용적, 이론적, 윤리적 문제를 다루고자 하는 문헌이 점점 더 많아지고 있습니다. 그러나 환자 참여 의제(예: 건강 연구, 정책 또는 의료 서비스 설계에 대한 환자 참여)를 추구하는 다른 의료 분야와 마찬가지로, 교육에서의 환자 참여에 관한 문헌은 이론이 부족하고 경험적 증거보다는 이념적 진술에 불균형적으로 치우친다는 비판을 받아왔습니다(Regan de Bere와 Nunn 2016). 그 결과 다양한 문헌이 존재하고, 환자 참여의 목적에 대한 상충되는 조언이 있으며, 해당 분야에서 지식을 구축하는 방법에 대한 합의가 거의 이루어지지 않았습니다. 
Patients—and their role in education—have always been of interest to educators, even as those patient activities may or may not have been in the direct purview of those designing and implementing curricula. Recently, the ways that patients are involved in health professions education has become more formalized in programs identified as “patient engagement”. There is a growing body of literature that seeks to address pragmatic, theoretical, and ethical questions about practices of patient engagement in professional education. However, in common with other health care fields that are also pursuing patient engagement agendas, (e.g. patient engagement in health research, policy, or health service design), the body of literature of patient engagement in education has been critiqued as under-theorized and disproportionately weighted towards ideological statements rather than empirical evidence (Regan de Bere and Nunn 2016). The result is a disparate body of literature, conflicting advice as to the purpose of patient engagement, and little consensus about how to build knowledge in the field.

이러한 개념적 문제를 해결하기 위해 많은 문헌 검토가 시도되었습니다(Jha 외. 2009a, Livingston과 Cooper 2004, Repper와 Breeze 2007, Spencer 외. 2000, Towle 외. 2010, Wykurz와 Kelly 2002). 이러한 각 리뷰는 이 분야가 일관되지 않은 정의와 용어의 배열로 특징지어지기 때문에 문헌 검색 프로세스의 어려움을 지적했습니다(Towle 외. 2010). 이전의 문헌 검토에서는 환자 참여를 공식 교육 과정의 적어도 한 단계로 정확하게 정의함으로써 이러한 어려움을 현명하게 해결했습니다(Jha 외. 2009a, Towle 외. 2010).

  • 교육과정 의사 결정,
  • 교육 프로그램 설계,
  • 교육과정 전달,
  • 학습자 평가 및/또는 프로그램 평가에 환자(또는 가족 및/또는 간병인)가 참여하는 것으

이러한 방법론적 결정으로 인해 [교육에 대한 환자 참여의 효과]에 대한 중요한 종합 보고와 함께 [교사로서의 환자]에 초점을 맞춘 문헌 검토가 이루어졌습니다(Jha 외. 2009a, 2010; Towle 외. 2010; Wykurz와 Kelly 2002). 

A number of literature reviews have attempted to redress these conceptual problems (Jha et al. 2009a; Livingston and Cooper 2004; Repper and Breeze 2007; Spencer et al. 2000; Towle et al. 2010; Wykurz and Kelly 2002). Each of these reviews have noted the difficulty of the literature search process, as the field is characterized by an inconsistent array of definitions and terms (Towle et al. 2010). Previous literature reviews have sensibly addressed this difficulty by offering precise definitions of patient engagement as the involvement of patients (or their family members and/or caregivers) in at least one phase of the formal education process:

  • curricular decision making,
  • education program design,
  • delivery of curriculum,
  • assessment of learners and/or evaluation of programs (Jha et al. 2009a; Towle et al. 2010).

These methodological decisions have resulted in literature reviews focused on patients as teachers, with important syntheses reporting on the effectiveness of patient involvement in education (Jha et al. 2009a, 2010; Towle et al. 2010; Wykurz and Kelly 2002).

이러한 이전 검토에서 적용된 포함 및 제외 기준은 중요하고 방어할 수 있지만, [교사로서의 환자]에 초점을 맞추면 보건 전문직 교육에 대한 환자의 참여에 대한 대안적인 개념화가 필연적으로 모호해집니다. 그 결과, 보건 전문직 교육에 대한 환자 참여는 개념적으로 교사로서의 환자 참여라는 한 가지 가능한 환자 참여의 반복으로 축소되고, [환자가 지속적인 전문직 학습 과정에 참여하는 다른 방식]에 대한 맥락에서 제외됩니다. Bleakley(2014)가 말했듯이, 환자와 함께, 환자로부터, 환자에 대해 학습하는 과정을 전체 보건의료 전문직 교육 기업의 기초로 이해할 필요가 있습니다. 지금처럼 [교사로서 환자]라는 반복되는 역할에 초점을 맞추는 것은, 이러한 역할이 실제로 어떻게 제정될 수 있는지에 대한 정보를 제공할 수 있는 [풍부한 문헌을 고려하지 않은 채로 "새롭고 흥미로운 역할"(Stockhausen 2009)로 간주되는 반역사적 접근 방식]의 위험이 있습니다. 환자 참여 관행을 보건 전문직 학습에 대한 환자 참여에 대한 더 큰 논쟁과 딜레마의 맥락에 다시 넣음으로써 교육에서 환자 참여의 역할에 대한 새로운 통찰력을 얻을 수 있습니다. 이러한 인사이트는 현재 운영되고 있는 환자 참여 관행에 생산적으로 적용될 수 있을 뿐만 아니라 향후 교육 개혁, 특히 역량 기반 교육과 관련된 개혁에서 환자 참여에 대한 임박한 질문에도 적용될 수 있습니다.  

While the inclusion and exclusion criteria being applied in these previous reviews are both important and defensible, the focus on patients as teachers necessarily obfuscates alternative conceptualizations of patients’ involvement in health professions education. The result is that patient engagement in health professions education is conceptually reduced to just one possible iteration of patient involvement—patients as teachers—and is taken out of context of the other ways in which patients participate in processes of ongoing professional learning. As Bleakley (2014) puts it, there is a need to understand processes of learning with, from, and about patients as foundational to the entire health professions education enterprise. To focus on current iterations of patients as teachers risks an ahistorical approach, where recent iterations of patient engagement are taken to be “new and exciting roles” (Stockhausen 2009) that do not take into account the rich bodies of literature that could inform how these roles might actually be enacted. By putting patient engagement practices back into context of larger debates and dilemmas about patient involvement in health professions learning more broadly, new insight might be garnered about the role of patient engagement in education. This insight might be productively applied to practices of patient engagement as they currently operate, but also impending questions about patient involvement in future educational reforms, specifically reforms related to competency based education.

이 검토의 목적은 다양한 연구 전통에서 [시간이 지남에 따라 보건의료 전문직 교육에 대한 환자 참여 문제가 어떻게 고려되어 왔는지 종합하는 것]이었습니다. 우리는 환자 참여에 대한 관심을 [환자 참여engagement]에 국한하지 않고 교육에 대한 [환자 참여involvement]라는 더 넓은 개념에 초점을 맞추기로 했습니다. 특히, 우리는 보건 전문직 교육에 대한 환자 참여에 관한 광범위한 지식 기반에 기여하는 다양한 연구 전통 내의 논쟁과 딜레마에 중점을 두었습니다. 따라서 보건 전문직 문헌의 모든 환자 참여 관련 출판물을 포괄적으로 요약하는 것을 목표로 하지 않았습니다. 우리는 환자 참여 연구에 대한 다양한 접근 방식과 이러한 접근 방식에 영향을 주는 다양한 철학적 가정 및 세계관을 포함하여 의미 있는 종합을 생성했습니다. 
The objective of this review was to synthesize how questions of patient involvement in health professions education have been considered over time across various research traditions. We have chosen to focus on the broader concept of patient involvement in education, rather than restricting our interest to patient engagement. In particular, our focus was on the debates and dilemmas within the various research traditions that contribute a broader base of knowledge regarding patient involvement in health professions education. In this way, we did not aim to generate a comprehensive summation of all the patient involvement publications in the health professions literature. We generated a meaningful synthesis of various approaches taken to the study of patient involvement, including the various philosophical assumptions and world views that inform these approaches.

이 종합은 메타 내러티브 검토 프로세스를 사용하여 수행되었습니다(Greenhalgh 외. 2004, 2005, 2009; Wong 외. 2013). 메타 내러티브 검토의 근거는 아래에 자세히 설명되어 있습니다. 이 논문에서는 보건 전문직 교육에 대한 환자 참여와 관련된 세 가지 연구 활동의 동시적 흐름을 강조하는 연구 결과를 보고하고, 이러한 활동 흐름 사이의 다양한 긴장에 대해 논의합니다. 이 특별한 검토의 고유한 기여는 보건 전문직 교육에서 환자 참여와 관련된 연구 활동에 대한 비판적이고 해석적인 관점을 추가한 것입니다. 메타 내러티브 리뷰는 비교적 새로운 형태의 지식 종합이므로 분석을 제시하기 전에 그 방법론을 자세히 설명하고 설명하겠습니다.

The synthesis was conducted using a meta-narrative review process (Greenhalgh et al. 2004, 2005, 2009; Wong et al. 2013). The rationale for the meta-narrative review is described in more detail below. In this paper, we report on our findings—highlighting three concurrent streams of research activity related to patient involvement in health professions education—and we discuss the various tensions between these streams of activity. The unique contribution of this particular review is the addition of a critical and interpretive perspective of the research activity related to patient involvement in health profession education. As meta-narrative reviews are relatively new forms of knowledge synthesis, we will describe and explain its methodology in detail prior to presenting our analysis.

방법론: 지식 종합으로서의 메타 내러티브 리뷰
Methodology: meta-narrative review as knowledge synthesis

메타 내러티브 리뷰는 [서로 다른 연구자 그룹에 의해 서로 다르게 개념화되고 검토된 주제]를 위해 특별히 고안되었습니다(Wong et al. 2013). 2004년에 Greenhalgh 등이 개발한 메타 내러티브 리뷰는 연구 결과가 어떻게 생산되는지에 초점을 맞추고 있습니다(Greenhalgh 등 2005). 2004년부터 메타 내러티브 접근법은 아래 등을 조사하는 데 생산적으로 사용되어 왔습니다. 

  • 커뮤니티의 구성(Jamal 외. 2013),
  • 전자 환자 기록 연구의 역설과 긴장(Greenhalgh 외. 2009),
  • 서비스 조직에서 혁신의 확산(Greenhalgh 외. 2004) 

The meta-narrative review is designed specifically for topics that have been differently conceptualized and examined by different groups of researchers (Wong et al. 2013). Developed by Greenhalgh et al. in 2004 (Greenhalgh et al. 2005), the focus of meta-narrative reviews is on how research findings are produced (Gough 2013). Since 2004, meta-narrative approaches have been productively used to examine (among other things)

  • the constructs of community (Jamal et al. 2013),
  • the paradoxes and tensions in electronic patient records research (Greenhalgh et al. 2009), and
  • the diffusion of innovations in service organizations (Greenhalgh et al. 2004).

메타 내러티브 검토는 개인이 [상충하는 문헌을 이해하는 데 도움을 주기 위한 실용적인 목표]를 가지고 있습니다(Wong 외. 2013). 메타 내러티브 리뷰는 [특정 주제에 대한 지식]이 [연구 전통 내]에서 그리고 [여러 연구 전통에 걸쳐] 어떻게 발전해 왔는지에 관한 것입니다(Greenhalgh et al. 2005). 이는 보건 전문직 교육에 대한 환자 참여에 관한 기존의 모든 증거를 목록화하는 것과는 다릅니다. 대신, 이러한 형태의 지식 종합은 해당 학문 분야를 구성하는 다양한 전통에 존재하는 역사, 기본 가정, 주요 연구 결과와 관련이 있습니다. 여기서 [연구 전통]은 [공유된 가정]과 [선호되는 방법론]을 통해 연결된 일련의 연결된 연구로 간주됩니다(Wong et al. 2013). 메타 내러티브 검토는 다음을 역사적으로 살펴봅니다(Wong et al. 2013).

  • [특정 연구 전통이 시간이 지남에 따라 어떻게 전개되어 왔는지],
  • 이러한 [전통이 제기되는 질문의 종류]를 어떻게 형성했는지
  • 이러한 [질문에 답하는 데 사용되는 방법]은 무엇인지

따라서 메타 내러티브 리뷰의 결과물은

  • 아이디어의 다단계 구성의 지도이며
  • 이러한 아이디어가 주제에 대해 알 수 있는 것에 어떤 영향을 미쳤는지에 대한 지도이다.

A meta-narrative review has a pragmatic goal, intended to help individuals make sense of a conflicting body of literature (Wong et al. 2013). A meta-narrative review is concerned with how knowledge of a particular topic has been developed within and across research traditions (Greenhalgh et al. 2005). This is distinct from cataloging all the existing evidence about patient involvement in health professions education. Instead, this form of knowledge synthesis is concerned with the history, guiding assumptions, and key findings that exist within the different traditions that comprise the scholarly field. Here, a research tradition is considered to be a series of linked studies that are connected through shared assumptions and preferred methodologies (Wong et al. 2013). A meta-narrative review looks historically at

  • how particular research traditions have unfolded over time,
  • how these traditions have shaped the kinds of questions being asked, and
  • the methods that are used to answer those questions (Wong et al. 2013).

Thus, the outputs of meta-narrative reviews are

  • maps of multi-level configurations of ideas and
  • how these ideas have influenced what can be known about a topic.

메타 내러티브 검토는 두 가지 이유로 선택한 방법론이었습니다. 

  • 첫째, 이 연구의 초기 단계부터 여러 연구팀이 서로 다른 방식으로 이 주제를 개념화하고 연구하고 분석했음을 알 수 있었습니다. 
  • 둘째, 우리의 주요 목표는 여러 분야에 걸친 상충되는 문헌을 이해하고 이러한 분야가 서로에게 어떤 영향을 미쳤는지 살펴보는 것이었습니다. 

환자 참여를 역사적, 정치적, 사회적 담론에 내재된 사회적 혁신으로 이해할 필요가 있고 메타 내러티브 검토에 관한 국제 RAMESES 가이드라인(Wong 외. 2013)에 따라 메타 내러티브 검토를 방법론으로 선택했습니다. 메타 내러티브 검토에 참여하면서 우리는 잠재적인 개념적 긴장을 강조하고 이러한 긴장이 보건 전문직 교육 분야에서 환자 참여가 어떻게 계속 실행되고 연구될 수 있는지에 대한 함의를 해석하여 비판적인 종합을 제공하고자 했습니다.
Meta-narrative review was our methodology of choice for two reasons.

  • First, from an early stage in this study it was evident that different research teams had conceptualized, studied and analyzed the topic in different ways.
  • Second, our primary aim was to make sense of a conflicting literature that spanned many fields, and also look at how these fields have influenced one another.

Given the need to understand patient involvement as a social innovation embedded in historical, political, and societal discourses, and following the international RAMESES guidelines on meta-narrative reviews (Wong et al. 2013), the meta-narrative review was selected as the methodology of choice. In engaging in a meta-narrative review, we sought to offer a critical synthesis, highlighting potential conceptual tensions and interpreting the implications of these tensions for how patient engagement might continue to be practiced and researched in the health professions education field.

메타 내러티브 검토의 방법론을 채택할 때, 우리는 Greenhalgh 외(2005)가 처음 소개하고 나중에 메타 내러티브 검토를 위한 RAMES 출판 표준에 요약된 6가지 지침 원칙을 따랐습니다(Wong 외. 2013). 이러한 원칙에는 실용주의, 다원주의, 역사성, 논쟁, 반성성, 동료 검토가 포함됩니다.
In taking up the methodology of meta-narrative review, we also ascribed to the six guiding principles first introduced by Greenhalgh et al. (2005) and later summarized in the RAMESES publication standards for meta-narrative reviews (Wong et al. 2013). These principles include: pragmatism, pluralism, historicity, contestation, reflexivity, and peer review.

수집 절차 및 분석 전략
Collection procedures and analytical strategy

이 지식 종합의 절차는 RAMES에서 발표한 가이드라인을 따르며, (1) 아카이브 수집, (2) 분석, (3) 고차 개념 간의 교차점 해석이라는 세 가지 주요 단계를 통해 발전했습니다. 이러한 단계는 선형적인 순서로 제시되어 있지만, 분석 단계를 통해 아카이브의 추가 개발이 필요함을 알 수 있고, 고차 개념 간의 해석을 통해 추가 분석의 필요성을 알 수 있는 등 단계 간에 많은 중복과 상호 연결이 있었습니다. 그림 1은 포함된 텍스트의 1차 아카이브에 대한 수집, 선별 및 분석 과정을 보여줍니다. 검색 과정과 결과 분석 절차는 동료 검토의 기본 원칙에 따라 검토에 참여하도록 초청된 전문가 자문위원회와의 지속적인 협의를 통해 결정되었습니다. 자문위원회에는 환자, 보건 전문직 교육자, 사회과학 연구자가 포함되었습니다. 
The procedures for this knowledge synthesis follow the guidelines published by RAMESES and evolved through three main phases: (1) collecting the archive, (2) analysis, and (3) interpreting intersections between higher order concepts. While these phases are presented in linear order, there was much overlap and interconnection between the phases such that stages of analysis informed the need for further development of the archive, interpretation between higher order concepts pointed towards the needs for further analysis and so on. Figure 1 displays the process of collection, screening, and analysis of the primary archive of texts included. The search process and resulting analytical procedures were informed through ongoing consultations with an expert advisory council that had been invited to participate in the review, adhering to the guiding principle of peer review. Members of the advisory council included patients, health professions educators, and social science researchers.


제외 기준은 실용주의 원칙, 즉 의도된 청중에게 가장 유용하고 이해도를 높일 가능성이 가장 높은 내용을 중심으로 검토해야 한다는 원칙에 따라 결정되었습니다(Wong et al. 2013). 이 검토에서는 임상 치료의 순간에 환자의 참여에만 관심이 있고 학습 또는 교육과 관련하여 명시적으로 연결 및/또는 이론화되지 않은 출처는 제외했습니다. 이 검토를 포함하기 위해 환자 교육 개발 시 환자 참여와 관련된 문헌도 포함하지 않았습니다. 그러나 방법론적 엄격성에 대한 분석에 따라 출처를 제외하지는 않았습니다. 저희는 여러 전통에 걸친 증거를 목록화하기보다는 어떤 종류의 주장이 가능한지에 더 중점을 두었습니다. 따라서 특정 분야에서 영향력이 있는 것으로 간주되는 출처는 특정 사고 방식을 보여주는 것으로 데이터 세트에 포함시켰습니다. 그 결과, 데이터 세트에 포함된 출처 중 일부는 해당 분야 내에서 논쟁의 여지가 있을 수 있습니다. 이러한 논쟁도 흥미롭습니다. 
Our exclusion criteria were informed by the principle of pragmatism, namely that the review should be guided by what will be most useful to the intended audience(s), and what is most likely to promote sense-making (Wong et al. 2013). For this review, we excluded sources that were solely concerned with patient engagement in moments of clinical care and were not explicitly linked and/or theorized in relation to learning or education. For the purposes of containing this review, we also did not engage with the literature that is concerned with patient involvement in developing patient education. However, we did not choose to exclude sources based on an analysis of their methodological rigor. Our concern was less with cataloguing evidence across traditions, and more focused on what kinds of claims were possible to say at all. As such, if a source was considered to be influential within a particular field, it was included in our dataset as display of a particular way of thinking. The result may be that some of the sources included in our dataset may be contested within their own field. Those contestations are also of interest.

연구 초기에는 이 검토를 의학과 간호 등 한두 가지 의료 전문직으로 제한할지 여부도 고려했습니다. 하지만 전문직 간 교육 분야에서 환자 참여가 보편화되고 있다는 점을 고려하여 검색 전략을 전문직별로 제한하지 않기로 결정했습니다. 이 결정은 보건 전문직 교육 분야 전반에 걸쳐 어느 정도 의미 있는 결정을 내릴 수 있게 해주었지만, 원고의 한계 섹션에서 다룬 다른 개념적 딜레마를 야기했습니다. 
Early in the study, we also considered whether we should limit this review to one or two health professions, namely medicine and nursing. Given the prevalence of patient involvement that is emerging in the field of interprofessional education, we chose to not limit our search strategy by profession. While this decision allowed a certain kind of sense-making across the field of health professions education, it introduced other conceptual dilemmas that we address in the Limitations section of the manuscript.

초기 데이터 수집에는 비공식적 및 공식적 검색 전략이 혼합되어 사용되었습니다. 2016년 9월부터 핵심 연구팀과 자문 위원회가 식별한 용어를 사용하여 Medline, PsycINFO, CINAHL, ERIC, 젠더 연구 데이터베이스, 사회학 초록, 미국 역사와 생활에 대한 초기 검색을 수행했으며, 각 데이터베이스의 주제 제목과 도구를 활용하여 관련성이 가장 높은 인용에 집중했습니다. 표 1은 초기 공식 검색에 사용된 검색어에 대한 개략적인 요약이며, 각 데이터베이스에 따라 다양하게 조정되었습니다. 제목과 초록의 관련성에 대한 초기 선별은 연구팀원 두 명(PR 및 SM)이 수행했습니다. 이 초기 선별 작업 이후, 두 명의 연구원이 주제별 클러스터를 만들어 나머지 아카이브를 정리했습니다(표 2 참조). 이 클러스터는 나머지 연구팀원들과의 지속적인 토론과 협업, 자문위원회의 자문을 통해 만들어졌습니다. 주제별 클러스터에 대한 합의에 따라 연구팀의 각 구성원(PR, SM, AKK, VS, SL)이 하나의 클러스터를 주도적으로 이끌었습니다. 정보 전문가(MA)와 협력하여 각 구성원은 특정 주제 클러스터를 정교화하거나 정보를 제공하거나 복잡하게 만드는 소스를 계속 검색, 요약 및 분석했습니다. 포함된 각 출처의 데이터 추상화에는 저자, 연도, 출판 장소, 주요 주장, 인용된 이론가/주요 출처 등이 포함되었습니다. 이 단계의 일환으로 각 수석 팀원은 주요 연구자, 중요하고 많이 인용되는 출처, 자주 함께 출판하는 저자를 파악했습니다. 이 작업은 검색어와 주요 출처에 대한 조언을 제공한 전문가 자문 패널의 자문과 함께 이루어졌습니다. 연결은 역사성 원칙에 따라 시간 경과에 따라 매핑되었습니다. 이러한 방식으로 다양한 연구 흐름을 만들어내는 주요 학술 커뮤니티를 밝혀내기 시작했습니다. 새로운 용어와 저자가 확인되면 추가 검색을 수행했습니다. 표 1에는 이러한 추가 검색어가 요약되어 있습니다. 

Initial data collection included a mix of informal and formal search strategies. Starting in September of 2016, initial rounds of searches of Medline, PsycINFO, CINAHL, ERIC, Gender Studies Database, social studies abstracts and America history and life were performed using terms identified by the core research team and the advisory council, making use of the subject headings and tools available in each database to focus on the citations most likely to be relevant. Table 1 provides a high-level summary of the search terms used in the initial formal search, with various adaptions made for each database. Initial screening of titles and abstracts for relevance was conducted by two members of the research team (PR and SM). Following this initial screening, two of the investigators created thematic clusters to organize the remaining archive (see Table 2). These clusters were created through ongoing discussion and collaboration with the rest of the research team, and through consultation with the advisory council. Following consensus on the thematic clusters, each member of the research team (PR, SM, AKK, VS, SL) took leadership of a single cluster. In collaboration with the information specialist (MA), each member continued to search, summarize, and analyze sources that elaborated, informed, or complicated their particular thematic cluster. Data abstraction from each included source included: author(s), year, place of publication, main claims being made, and theorists/key sources cited. As part of this phase, each lead team member identified key researchers, seminal/highly cited sources, and authors that frequently published together. This was done in consultation with members of an Expert Advisory Panel who also provided advice on search terms and key sources. The connections were mapped out over time, following the principle of historicity. In this way, we started to elucidate key scholarly communities producing a range of research streams. Additional searches were performed as new terms and authors were identified. Table 1 summarizes these additional search terms.


검토를 진행하면서 '나 없이는 아무것도 없다'라는 문구가 역사적으로나 현재적으로 매우 중요한 의미를 지니고 있다는 사실을 알게 되었습니다. 따라서 우리는 이 문구를 역사적 맥락에 배치하기 위해 검색을 확장했습니다. Google Ngram과 Google 북스를 사용하여 '나 없이는 아무것도 없다'라는 문구를 시간 경과에 따라 추적했습니다. "나 없이는 나에 대해 아무것도 없다"에 대한 공식 데이터베이스 검색과 변형된 검색도 Embase, PsycINFO, Medline 및 ERIC에서 수행했습니다. 마지막으로 핵심 저자가 작성했거나 핵심 연구팀이 확인한 주요 논문을 인용한 논문을 찾기 위해 Web of Science를 사용했습니다. Greenhalgh와 Peacock(2005)의 의견에 동의하여, 우리는 공식 데이터베이스가 아닌 스노우볼링, 참고 문헌 목록 확인, 인용 검색을 통해 가장 유익한 검색 결과를 얻을 수 있었습니다. 
As the review unfolded, it became clear that the phrase “nothing about me without me” had a great deal of historical and current salience. We therefore extended our search to help place the phrase in historical context. We used Google Ngram and Google Books to help track the phrase “nothing about me without me” over time. Formal database searches for “nothing about me without me” and variations were also performed in Embase, PsycINFO, Medline and ERIC. Finally, Web of Science was used to locate articles which were either written by key authors or which had cited key papers identified by the core research team. In agreement with Greenhalgh and Peacock (2005), we found our most fruitful searches were not in the formal databases, but were through snowballing, checking references lists, and citation searching.

한 해 동안 연구팀은 여러 차례 분석 세션을 가졌습니다. 데이터 세트 전반에 걸쳐 다양한 개념, 연구 설계, 주장이 제기되었기 때문에 [통계적 분석 전략]보다는 [내러티브 분석 전략]을 사용했습니다. 다양한 연구 전통을 포함하기로 한 이러한 결정은 [다원주의 원칙]에 부합하는 것입니다. 분석 세션을 통해 다양한 연구 커뮤니티의 경계를 파악했습니다. [논쟁이라는 기본 원칙]에 따라 분석 세션을 통해 다양한 커뮤니티 간의 연결과 경합, 합의의 주요 대상, 각 커뮤니티에서 지속되고 있는 다양한 논쟁을 강조하는 데 사용했습니다. 이러한 방식으로 네 가지 주제별 흐름은 해석의 시작점을 제공했습니다. 
Over the course of the year, our research team met for several analysis sessions. Given the diversity of concepts, research designs, and claims being made across the dataset, we engaged in narrative, rather than statistical analytical strategies. This decision to include multiple research traditions is consistent with the principle of pluralism. Through our analytical sessions, we identified the boundaries of various research communities. Informed by the guiding principle of contestation, we used our analytical sessions to highlight connections and contentions between these various communities, key objects of consensus and various enduring debates occupying each of these communities. In this way, the four thematic streams provided an entry point into our interpretation.

이러한 매핑과 해석의 층위에서 우리는 보건 전문직 교육에 대한 환자 참여 분야를 구성하는 다양한 메타 내러티브를 설명하기 위해 상위 개념과 이러한 개념을 뒷받침하는 연구 전통을 명확히 표현하기 시작했습니다. 따라서 여기에는 문헌의 주제(예: 내러티브 의학, 병상 학습, "나 없이는 나에 대해 아무것도 없다", 표준화된 환자로서의 실제 환자)에서 중요한 패러다임 수준에서 작동하는 [메타 내러티브로 이동하는 추가적인 해석적 조작]이 필요했습니다. 
From this layer of mapping and interpretation, we began to articulate the higher order concepts—and the research traditions enlivening these concepts—as an explication of various meta-narratives comprising the field of patient involvement in health professions education. Thus, this involved a further interpretive maneuver, moving from themes in the literature (i.e. narrative medicine, bedside learning, “nothing about me without me”, and real patients as standardized patients) to meta-narratives that operate at the level of overarching paradigms.

각 주제에 담긴 개념과 결론은 이러한 메타 내러티브의 맥락에 배치되었습니다. 따라서 우리의 종합 전략은 높은 수준의 추상화에서 작동했으며  다음을 검토해야 했습니다(Wong et al. 2013). 

  • (a) 기본 개념 및 이론적 가정의 공통점, 
  • (b) 기본 개념 및 이론적 가정의 차이점, 
  • (c) 다양한 패러다임 간의 상호 작용과 긴장, 
  • (d) 다양한 패러다임에 걸친 패턴 탐색

이러한 높은 수준의 추상화는 필연적으로 각 주제를 구성하는 뉘앙스의 일부를 잃게 하지만, 다른 방법으로는 불가능했던 방식으로 문헌을 개념적으로 연결할 수 있게 해주었습니다.

Concepts and conclusions held within each of the themes were put into context of these meta-narratives. Thus, our synthesis strategy operated at a high level of abstraction and required us to examine:

  • (a) commonalities in underlying conceptual and theoretical assumptions,
  • (b) differences across underlying conceptual and theoretical assumptions,
  • (c) interplay and tensions between various paradigms, and
  • (d) exploring patterns that span across various paradigms (Wong et al. 2013).

This high level of abstraction necessarily loses some of the nuance that occupies each theme, but allowed us to put bodies of literature into conceptual contact in a way that would not have been otherwise possible.

이 과정에서 우리는 연구자로서 우리 자신의 입장에 대해 반성했습니다. 주 저자는 다른 분야에서 환자 참여의 구조를 탐구해 온 조직학 학자입니다. 두 명의 구성원은 특히 내러티브 개념과 건강 멘토의 환자 역할을 활용하여 수년 동안 보건 전문직 교육 프로그램에서 환자 참여를 개발하고 실행해 왔습니다. 두 명은 보건 전문직 학생이었습니다. 한 명은 만성 질환, 장애를 앓고 있으며 다양한 자문 및/또는 옹호 단체에서 환자로 자원봉사를 한 경험이 있습니다. 마지막으로 정보 전문가가 연구팀의 핵심 멤버였습니다. 협업을 통해 우리는 환자 참여에 대한 우리만의 가정(환자 참여의 의미, 관심의 이유, 환자 참여가 '어떻게' 이루어져야 하는지, 어떻게 연구되어야 하는지)을 명시적으로 제시해야 했습니다. 예를 들어, 가장 유익한 분석적 결정 중 하나는 데이터 수집의 일부로 '적극적 대 소극적 환자 참여'에 대한 가정을 포함/제외 기준으로 삼지 않고, 대신 이 이분법을 해석적으로 접근하는 것이었습니다: 고려 중인 학계에서는 적극적 대 소극적 환자 참여라는 이분법을 어떻게 다루고 있을까요? 해석의 마지막 단계는 이 원고를 작성하는 것이었습니다. 즉, 우리가 집중할 메타 내러티브를 선택하고, 어떤 긴장을 조명하고, 단어의 제한을 고려할 때 어느 정도 깊이까지 다룰지 선택해야 했습니다.

Throughout the process, we were reflexive about our own position as researchers. The lead author is an organizational studies scholar who has explored constructs of patient engagement in other fields. Two members have spent many years developing and implementing patient engagement in health professions education programs, particularly making use of concepts of narrative and the patient role of Health Mentor. Two members were health professions students. One member also has experience of chronic illness, disability, and has volunteered as patient in various advisory and/or advocacy groups. Finally, our information specialist was a core member of the research team. Through our collaboration, we were required to make explicit our own assumptions about patient involvement (what it meant, why it was of interest, how it “should” be done, how it should be researched). For instance, one of our most fruitful analytical decisions was to release our assumptions about “active versus passive patient involvement” as an inclusion/exclusion criteria as part of the data collection, and instead engage with this dichotomy interpretively: how do the scholarly communities under consideration deal with this dichotomy of active versus passive patient involvement? Our final step of interpretation was to produce this manuscript. By this we mean that we were required to choose meta-narratives to focus on, which tensions to illuminate, and to what depth given the word limits available to us.

주요 결과: 의료 전문직 교육에 대한 환자 참여의 동시적 구축
Main findings: concurrent constructions of patient involvement in health professions education

캐나다의 저명한 의학교육자인 윌리엄 오슬러는 의료 전문직 교육에 대한 환자 참여와 관련된 모든 학계에서 두드러진 활약을 펼쳤습니다. 특히 뉴욕의 의학 아카데미에서 행한 그의 유명한 연설은 자주 인용되었는데, 그는 다음과 같이 선언했습니다: "의학 및 외과 분야의 후배 학생에게는 환자 없이 텍스트를 가르치지 않는 것이 안전한 규칙이며, 가장 좋은 가르침은 환자가 직접 가르치는 것입니다."(Towle and Godolphin 2011, 496쪽에서 인용). 그러나 이후 연구자와 교육자가 이 선언을 받아들이는 방식과 이와 관련하여 개발된 프로그램 및 기관은 모두 [학계 간의 차이]를 반영합니다. 다음 섹션에서는 보건의료 전문직 교육에 대한 환자 참여가 학문 분야와 연구 전통에 따라 이해되는 방식 중 세 가지에 대해서만 설명하겠습니다. 이 과정을 통해 다음을 살펴볼 것입니다.

  • (a) '환자' 개념의 구성,
  • (b) 보건 전문직 교육에 환자가 참여해야 하는 이유,
  • (c) 해당 분야의 지식 창출과 관련된 연구 전통

William Osler, the well-known Canadian medical educator, featured prominently in all scholarly communities concerned with patient involvement in health professions education. In particular, his famous address to the Academy of Medicine in New York was frequently cited, where he declared: “for the junior student in medicine and surgery, it is a safe rule to have no teaching without a patient for a text, and the best teaching is that taught by the patient himself” (cited in Towle and Godolphin 2011, p. 496). However, the ways in which researchers and educators subsequently took up that declaration—and the programs and institutions developed in association with those constructions—all reflect distinctions between scholarly communities. In the following section, we will demarcate just three of the ways in which patient involvement in health professions education is understood across academic disciplines and research traditions. Through the process, we will explore:

  • (a) constructions of the notion of “patient”,
  • (b) rationales for patient involvement in health professions education, and
  • (c) research traditions associated with generating knowledge in the field.

이를 통해 각 학계에서 벌어지고 있는 다양한 논쟁과 딜레마를 조명할 것입니다. 
Throughout, we will highlight various debates and dilemmas occupying each of the scholarly communities.

'참여된 환자'의 출현으로서의 환자 참여: 민주적이고 해방적인 근거
Patient involvement as emergence of the “engaged patient”: democratic and emancipatory rationales

2011년에 Towle과 Godolphin은 [환자 참여]의 정의를 [교육 과정의 설계, 제공 및/또는 평가에 적극적으로 참여하는 것]으로 사용하여 보건 전문직 문헌에서 환자 참여를 유용하게 종합했습니다. 이 종합을 통해 앞서 [참여의 타임라인]을 제시했습니다.

  • 언급한 오슬러의 유명한 선언에서 시작하여
  • 1970년대에 '임상 교육 보조원(CTA)'으로 발전하고,
  • 1990년대에 환자 참여에 대한 보다 정치적으로 적극적인 역할로 이어졌으며,
  • 최근에는 환자 전문성이 생의학 모델을 넘어 보건 전문직 교육을 발전시키는 데 도움이 되는 정당한 지식의 원천으로 인정받으면서 절정에 이르렀다.

우리의 종합은 비슷한 시기를 중심으로 이루어졌으며, 우리는 이를 "참여된 환자의 출현"이라고 명명했습니다.
In 2011, Towle and Godolphin usefully synthesized patient engagement in health professions literature, using the definition of patient engagement as active engagement in the design, delivery, and/or evaluation of curriculum. Through their synthesis, they presented a timeline of engagement,

  • originating in Osler’s aforementioned famous declaration,
  • evolving into “clinical teaching associates” (CTAs) in the 1970s,
  • followed by a more politically active role for patient involvement in the 1990s, and
  • culminating in a recent recognition of patient expertise as a legitimate source of knowledge that serves to move health professions education beyond the biomedical model.

Our synthesis distilled around a similar timeline, which we have labelled as “the emergence of the engaged patient”.

이 작업에서 참여된 환자는 특별한 의미를 가졌습니다.

  • 첫째, 누구를 ['진짜' 환자]로 정의할 것인지에 대해 많은 논의가 있었습니다. [실제 환자]는 표현하고자 하는 질병 및/또는 상태를 직접 경험한 사람]으로 간주했습니다. 실제로 겪지 않은 증상이나 상태를 표현하기 위해 환자 역할극을 하는 사람은 "실제" 환자로 간주되지 않았으므로 이 범주에서 제외되었습니다(Towle 외. 2010). 따라서 [환자]와 [일반 대중] 사이에는 차이가 있었습니다. 또한, 이 연구 커뮤니티에서는 실제 환자가 "전문적인 가치 체계의 제약을 받지 않고 영향을 받지 않는"(O'Neill 외. 2006, 27쪽) [의료 전문가가 배제되는 경우]가 많았습니다.
  • 둘째, 특정 질병 경험을 배제하기 위한 명백한 정의는 없었지만, 이 작업의 대부분은 만성 질환 문헌에서 자리 잡은 "전문가 환자"라는 개념(Muir and Laxton 2012; O'Neill 외 2006; Skog 외 2000; Towle and Godolphin 2011)과 [비판적 장애 연구][정신 건강 운동]의 "나 없이는 아무것도 없다"는 외침(Beecham 2005; Bollard 외 2012; Charlton 1998)에 기반하고 있었습니다. 만성 질환과 환자 전문성이 강조되면서 [급성 질환]을 경험하고 이후 완치된 환자를 '교사로서의 환자'로 간주할 수 있는지 여부가 명확하지 않았습니다. 이 구분은 이 원고의 뒷부분에서 논의하는 환자 참여에 대한 다른 이해와 대비되는 지점이 되기 때문에 주목합니다.

In this body of work, the engaged patient took on particular meaning.

  • First, there was much discussion about who to define as a “real” patient. Real patients were considered to be those that have direct lived experience with the illness and/or condition they sought to display. People who role-play patients to express symptoms or conditions they do not actually have were not considered “real” patients and thus excluded from this category (Towle et al. 2010). Thus, there was a distinction between patients and general members of the public. Further, in this research community, health professionals were often excluded, where real patients “are not constrained and influenced by professional value systems” (O’Neill et al. 2006, p. 27).
  • Second, while there were no overt definitions that served to exclude particular illness experiences, much of this body of work was anchored in notions of “expert patients” that have taken hold within the chronic illness literature (Muir and Laxton 2012; O’Neill et al. 2006; Skog et al. 2000; Towle and Godolphin 2011) and the “nothing about me without me” rallying cry of critical disability studies and mental health movements (Beecham 2005; Bollard et al. 2012; Charlton 1998). With the strong emphasis on chronic illness and patient expertise, it was not clear whether patients who had experienced acute illnesses that had subsequently resolved would be considered as “patients as teachers”. We draw attention to this demarcation, as it serves as a point of contrast to an alternate understanding of patient involvement discussed later in this manuscript.

이러한 작업은 보건 전문직 교육에 대한 [환자 참여에 대한 민주적 근거]의 영향을 강하게 받습니다. 여기서 [환자 참여][환자가 자신의 신체와 경험에 대해 가르칠 수 있는 권리]로 정의되었습니다(Beadle 외. 2012; Jha 외. 2010; Robertson 외. 2003; Silverman 외. 2012). 이는 미래의 의료 직업을 형성할 교육 우선순위에 의미 있는 영향을 미칠 수 있는 권리로 발전했습니다(Towle and Godolphin 2011). 때때로 이러한 근거는 [교육 과정의 의사 결정권을 환자에게 이전]하거나 [교육자에서 환자로 권력을 이양하는 역할 모델]을 통해 의료 전문가 간의 기존 권력 관계를 파괴하려는 [해방적인 어조]를 띠기도 했습니다(Beecham 2005). 자주 인용되는 이론가로는 브라질의 교육자이자 철학자로 [비판적 교육학] 및 사회에서의 해방적 잠재력에 관심을 가진 것으로 유명한 파울로 프리에르(Paulo Friere)가 있습니다(Gutman 외. 2012; O'Neill 외. 2006). 또한, 이 연구에서 아른슈타인의 지역사회 참여 사다리에 대한 언급이 있었습니다(Beadle 외. 2012; McKeown 외. 2012). 원래 1960년대와 1970년대에 기존의 지역사회 참여 형태를 비판하기 위해 개발된 이 사다리는(Arnstein 1969), [의사결정 권한을 지역사회 구성원 스스로에게 부여하는 것을 특징]으로 하는 [더 높은 수준의 참여]를 권장합니다. 보건 전문직 교육의 맥락에 대입하면, [참여의 사다리를 올라간다는 것]은 [커리큘럼에 대한 의사 결정 권한]이 [교수진의 영역에만 머무르지 않고 환자에게로 확대된다는 것]을 의미합니다.
This body of work is strongly influenced by democratic rationales for patient engagement in health professions education. Here, patient engagement was framed as the right of patients to teach about their own bodies and experiences (Beadle et al. 2012; Jha et al. 2010; Robertson et al. 2003; Silverman et al. 2012). This was further translated into the right to meaningfully influence educational priorities that will shape health professions of the future (Towle and Godolphin 2011). At times, this rationale took on an emancipatory tone, explicitly attempting to disrupt existing power relationships between health professionals through shifting curricular decision-making power to patients and/or role-modelling the abdication of power from educators to patients (Beecham 2005). Frequently cited theorists included Paulo Friere (Gutman et al. 2012; O’Neill et al. 2006), a Brazilian educator and philosopher famously concerned with critical pedagogies and their emancipatory potentials in society. Further, it was only in this body of work that there was reference to Arnstein’s ladder of community engagement (Beadle et al. 2012; McKeown et al. 2012). Originally developed to critique existing forms of community engagement in the 1960s and 1970s (Arnstein 1969), this ladder recommends higher levels of engagement characterized by increased power for decision-making being placed in the domain of community members themselves. Translated into the context of health professions education, moving up the ladder of engagement implies increased powers of curricular decision making allocated to patients, rather than remaining exclusively in the domain of faculty members.

이 분야에서 벌어지는 논쟁과 딜레마는 이러한 [민주적이고 해방적인 이상]을 반영합니다. 따라서 연구자와 교육자들은 환자 대표성, 진정한(토큰주의가 아닌) 참여, 환자에게 제공되는 의사 결정의 양 결정, 이러한 참여 기회에 대한 환자의 경험에 관한 문제에 관심을 갖고 있습니다(McKeown 외. 2012; Rowland와 Kumagai 2018; Towle 외. 2010; Towle과 Godolphin 2011, 2015; Vail 외. 1996).

  • 연구자들은 [환자 참여에 대한 학습자 경험]에도 관심을 가졌지만, 이러한 학습자 경험은 학습자의 경험에 대한 즐거움, 의료 전문가의 공감 수준에 미치는 영향 및/또는 학습자의 임상 기술 습득에 미치는 영향 측면에서 고려되는 경향이 있었습니다(Arenson 외 2012; Duggan 외 2010; Graham 외 2014; Hope 외 2007; Iezzoni and Long-Bellil 2012; Kumagai 2008).
  • 다른 관심사로는 환자가 경험하는 치료 효과(McCreaddie 2002), 환자에 대한 보상의 윤리(Bollard 외. 2012), 다양한 장애를 겪고 있는 환자를 포함할 때의 현실적인 딜레마(Hope 외. 2007) 등이 있습니다. 이러한 작업은 [비판적 및 해석적 접근에 중점을 둔 질적 방법론]을 통해 제정되는 경향이 있었습니다.
  • 환자가 교육자와 함께 출판물을 공동 저술한 증거가 있는 것은 이 작업의 결과물뿐이었습니다(Agrawal 및 Edwards 2013 참조). 

The debates and dilemmas occupying this body of work reflect these democratic and emancipatory ideals. Thus, researchers and educators are concerned with questions of patient representation, authentic (as opposed to tokenistic) engagement, determining the amount of decision making afforded to patients, and patients’ experiences of these engagement opportunities (McKeown et al. 2012; Rowland and Kumagai 2018; Towle et al. 2010; Towle and Godolphin 2011, 2015; Vail et al. 1996).

  • While researchers were also concerned with the learner experience of patient engagement, this learner experience tended be considered in terms of either the learner’s enjoyment of the experience, the effects on health professionals’ level of empathy and/or impact on learners’ acquisition of clinical skills (Arenson et al. 2012; Duggan et al. 2010; Graham et al. 2014; Hope et al. 2007; Iezzoni and Long-Bellil 2012; Kumagai 2008).
  • Other matters of concern included the therapeutic benefits experienced by patients (McCreaddie 2002), the ethics of compensation for patients (Bollard et al. 2012), and the practical dilemmas of including patients who are experiencing various impairments (Hope et al. 2007). This body of work tended to be enacted through qualitative methodologies, with an emphasis on critical and/or interpretive approaches.
  • It was only in this body of work where there was evidence of patients co-authoring publications with educators (see Agrawal and Edwards 2013).

환자 참여, "실제 환자", 표준화된 환자: 기술주의적 근거
Patient involvement, “real patients”, and standardized patients: technocratic rationales

'참여된 환자'와 관련된 업무와 '표준화된 환자로서의 실제 환자'와 관련된 업무 사이에는 많은 부분이 겹칩니다. "표준화된 환자로서의 실제 환자"라는 문구를 풀이하기는 다소 어렵습니다. 문헌에서는

  • (a) 실제로 앓고 있지 않은 질병이나 상태를 묘사하기 위해 훈련을 받은 일반인
  • (b) 질병이나 상태를 표준화된 방식으로 묘사하기 위해 훈련을 받은 환자를 구분했습니다.

이 논문에서는 [후자]를 '표준화된 환자로서의 실제 환자'라고 부르며, 이러한 명칭에 내포된 다양한 역설과 딜레마를 인정합니다. 이 리뷰에서는 서로 다른 연구 전통을 조명하기 위해 연구 커뮤니티를 구분하여 다양한 문제 제기와 그에 따른 결론에 주의를 기울입니다. 따라서 의사 결정, 커리큘럼 설계 및 권력 공유와 관련하여 민주적이고 해방적인 우려를 공유하는 표준화 환자와 관련된 주장은 앞선 논의에서 고려됩니다. 실제로 [실제 환자]가 [표준화 환자로서의 경험]을 바탕으로 커리큘럼을 어떻게 형성할 수 있는지(그리고 형성해야 하는지) 관련 연구가 진행 중입니다(Nestel 외. 2008; Plaksin 외. 2016). 또한 정서적 및 신체적 안전을 포함하여 이러한 역할을 수행하는 환자의 경험에 대한 우려도 많습니다(Debyser 외. 2011; Krahn 외. 2002; Plaksin 외. 2016; Taylor 2011; Walters 외. 2003; Webster 외. 2012). 그러나 이러한 공유된 우선순위를 제쳐두고, '표준화된 환자로서의 실제 환자' 서술에는 논의할 가치가 있는 고유한 특징이 있습니다. 지금부터 이 연구, 즉 [표준화 환자로서의 실제 환자]에 대해 살펴보겠습니다. 
There is much overlap between the body of work that is concerned with “engaged patients” and that involved with “real patients as standardized patients”. The phrase “real patients as standardized patients” is somewhat challenging to unpack. In the literature, a distinction was made between

  • (a) members of the public who have received training in order to portray an illness or condition that they do not actually have and
  • (b) patients who received training in order to portray their illness or condition in a standardized way.

It is the latter that is referred to as “real patients as standardized patients” in this paper, even as we acknowledge the various paradoxes and dilemmas implied by such a label. In this review, we draw distinctions between research communities in order to illuminate disparate research traditions, attending to their various problem statements and their resultant conclusions. Therefore, those arguments related to standardized patients that share democratic and emancipatory concerns with decision-making, curricular design, and power sharing are considered in the preceding discussion. Indeed, there is a body of research concerned with how real patients could (and should) shape curricula as a result of their experience as standardized patients (Nestel et al. 2008; Plaksin et al. 2016). Further, there is much concern for the experience of patients acting in these roles, including their emotional and physical safety (Debyser et al. 2011; Krahn et al. 2002; Plaksin et al. 2016; Taylor 2011; Walters et al. 2003; Webster et al. 2012). However, taking those shared priorities aside, there are unique features of the “real patients as standardized patients” narrative that warrant discussion. It is to this body of work—real patients as standardized patients—that we turn to now.

여기서 우리는 [표준화]라는 개념을 구별되는 개념으로 강조합니다. 이 문헌을 역사적 맥락에서 살펴보면, 의대생의 임상 능력을 평가하기 위한 방법으로 모의 환자를 처음 사용한 의사인 하워드 배로우스 박사의 1960년대 연구를 알 수 있습니다(배로우스 1993; 크란 외. 2002). 시뮬레이션 환자의 도입은 의학 교육의 특정 딜레마를 해결하기 위한 것이었습니다.

  • 표준 임상 교육의 일부로서 적절한 범위의 교육 사례에 대한 접근을 보장할 수 없다는 점,
  • 임상 사례 전반에서 학습 기회의 일관성이 부족하다는 점,
  • 예측 불가능성을 고려할 때 학생 평가의 형평성이 결여될 수 있다는 점(Bates and Towle 2012),
  • 학생들이 의미 있는 환자 피드백을 받을 수 있는 기회가 부족하다는 점(Bokken et al. 2008) 등

따라서 시뮬레이션은 일련의 문제에 대한 해결책으로 개발되었습니다.
Here we highlight the notion of standardization as a distinguishing concept. Putting this body of literature into historical context points to the 1960s works of Dr. Howard Barrows, a physician who first made use of simulated patients as a way to examine the clinical skills of medical students (Barrows 1993; Krahn et al. 2002). The introduction of simulated patients was to address some particular dilemmas of medical education, namely:

  • the inability to ensure access to a suitable range of teaching cases as part of standard clinical education,
  • the lack of consistency of learning opportunities across clinical cases,
  • the potential lack of equity in the assessment of students given that unpredictability (Bates and Towle 2012), and
  • the opportunity for students to receive meaningful patient feedback (Bokken et al. 2008).

Thus, simulation was developed as a solution to a set of problems.

표준화된 환자 문헌은 시뮬레이션 환자 분야에서 역사적인 뿌리를 가지고 있지만, 우리는 결과적으로 [표준화] 개념을 강조하고자 합니다. 표준화 개념에는 각 학생이 정확히 유사한 모의 환자 시나리오를 접하게 될 것이라는 암묵적인 보증이 포함되어 있습니다. 시뮬레이션뿐만 아니라 표준화라는 추가적인 개념적 계층은 다음 두 가지 문제에 적용된 또 하나의 혁신이었습니다(Barrows 1993).

  • (1) 학습 기회의 공정한 분배와
  • (2) 학습자를 위한 평가 과정의 투명성

목할 점은 이러한 문제 진술이 주로 학습자와 교육자의 관점에서 정의되었다는 것입니다.
While the standardized patient literature holds historical roots within the field of simulated patients, we wish to highlight the concept of standardization as consequential. Within the concept of standardization, there is implied assurance that each student will encounter an exactly similar simulated patient scenario. This additional conceptual layer—of standardization not just simulation—was a further innovation applied to the paired problems of

  • (1) fair distribution of learning opportunities and
  • (2) transparency of the assessment process for learners (Barrows 1993).

Of note, those problem statements were primarily defined from the standpoint of learners and educators.

[표준화 환자로서의 실제 환자]를 탐구하는 연구는 이러한 원래 문제 진술의 경계와 가장자리를 계속 탐색하면서 표준화 환자의 적절한 특성(Gall 외. 1984; Jha 외. 2010; Kroll 외. 2008; Long-Bellil 외. 2011; Stillman 외. 1980), 환자의 역할을 준비하는 적절한 방법(Jha 외. 2009b), 표준화 환자가 학생 학습에 미치는 영향을 평가하는 새로운 방법(Jha 외. 2009a)을 모색하고 있습니다. "표준화 환자로서의 실제 환자"에 대한 "능동적" 환자 참여에 대한 언급이 있지만, 이는 다른 교수자가 없을 때 가급적 교육에서 능동적인 역할을 수행하는 것을 의미하는 경향이 있습니다(Bokken 외. 2008). Jha 등(2009b)은 교육자와 학생이 이러한 [능동적인 교수 역할]을 중요하게 생각하지만, 커리큘럼 설계에서 환자의 역할이 반드시 필요하다고 생각하지는 않는다는 사실을 발견했습니다. 또한 근거 기반 의학 접근 방식에 익숙한 연구 설계를 사용하여 [표준화 환자의 유용성에 대한 근거 기반을 개발하려는 노력]이 분명히 있습니다. 이러한 작업에서 증거는 (학생에게) 부정적인 영향이 없는지, (학생에게) 긍정적인 영향이 있는지, (교육 기관에) 비용 편익이 있는지를 기준으로 고려됩니다(Allen 외. 2011, Asprey 외. 2007, Bokken 외. 2008, Davidson 외. 2001). 
The body of research that explores real patients as standardized patients continues to explore the boundaries and edges of these original problem statements, exploring suitable characteristics of standardized patients (Gall et al. 1984; Jha et al. 2010; Kroll et al. 2008; Long-Bellil et al. 2011; Stillman et al. 1980), appropriate ways to prepare patients for their role (Jha et al. 2009b), and novel ways to evaluate the impact of these standardized patients on student learning (Jha et al. 2009a). There is reference to “active” patient involvement in the “real patient as standardized patient” body of work, but this tends to refer to active roles in teaching, preferably in the absence of other teachers (Bokken et al. 2008). Jha et al. (2009b) found that educators and students value this active teaching role, but do not necessarily see a role for patients in curriculum design. Further, there are clear efforts to develop an evidence base for the utility of standardized patients, using research designs that are familiar within evidence-based medicine approaches. In this body of work, evidence is considered along the lines of lack of negative impact (for students), the presence of positive impacts (for students), and cost benefits (for the educational institution) (Allen et al. 2011; Asprey et al. 2007; Bokken et al. 2008; Davidson et al. 2001).

그렇다고 해서 이러한 연구들이 [표준화 환자와 그들의 경험]에 둔감하다는 것은 아닙니다. 또한, 지식의 정치와 관련하여 누가 어떤 내용을 다루고, 환자를 어떻게 구성하며, 환자 경험에 대해 무엇을 표시하는지에 대해 [누가 결정하고 그러한 결정이 어떻게 이루어지는지에 대해 의문을 제기]하는 연구가 증가하고 있습니다(Taylor 2011). 이처럼 권력과 의사 결정에 대한 의문이 커지고 있음에도 불구하고 [증거의 개념은 주로 학습자, 교육자 및 교육 기관이 경험하는 영향의 종류에 한정]되어 있는 것으로 보입니다. 예를 들어, Allen 등(2011)은 표준화된 류마티스 관절염 환자로부터 교육을 받은 학생과 류마티스 전문의로부터 교육을 받은 학생의 학습 결과를 비교했습니다. Davidson 등(2001)은 신체 평가를 가르치는 두 가지 방법, 즉 [전통적인 교수진 교육 과정]과 [특별히 훈련된 표준화 환자가 가르치는 과정]을 비교하기 위해 동시 대조 시험을 설계했습니다. 두 저자 모두 학습 결과는 비슷하지만 표준화 환자 모델이 훨씬 더 비용 효율적이라는 결론을 내렸습니다. 비용 비교 및 대조군 임상시험 연구 설계의 사용은 "환자 파트너가 성공적으로 지속적으로 참여할 수 있도록 관리"하는 [자원 관리]의 개념화와 마찬가지로 환자 참여에 관한 이 연구의 고유한 특징입니다(Barr 외. 2009, 599페이지).

This is not to say that the studies are insensitive to standardized patients and their experiences. Further, there is a growing body of work that is concerned the politics of knowledge, questioning who decides—and how such decisions are made—about what content is addressed, how patients are constructed, what is being displayed about the patient experience (Taylor 2011). Despite these growing questions about power and decision-making, the concept of evidence seems largely to be reserved for the kinds of impacts experienced by learners, educators, and educational institutions. For example, Allen et al. (2011) compared learning outcomes for students receiving instruction from a standardized patient with rheumatoid arthritis and students receiving instruction from a rheumatologist. Davidson et al. (2001) also designed a concurrent controlled trial to compare two methods of teaching physical assessment: a traditional faculty-taught course and a course taught by specially trained standardized patients. Both sets of authors concluded that the learning outcomes were comparable, but the standardized patient model was far more cost effective. The use of cost comparisons and control trial research designs are unique to this body of research on patient involvement, as is the conceptualization of resource management, where “patient partners are managed for successful enduring engagement” (Barr et al. 2009, p. 599).

"참여형 환자의 출현"에 대한 앞 섹션에서 우리는 [해석적이고 때로는 비판적인 패러다임에 기반한 학술 커뮤니티]에 주목했습니다. 이와 대조적으로, 표준화 환자 분야에서는 [환자 참여에 대한 도구주의적 개념]을 활용하여 실증주의적 근거와 실험주의적 설계를 사용하여 [다양한 개입의 영향을 탐구하는 연구 커뮤니티]가 있습니다. 이미 언급했듯이 이 두 연구 커뮤니티와 다양한 가정 사이에는 중복되는 부분이 있습니다. 그러나 그 차이점을 강조할 가치가 있습니다. 특히, [학습 기회의 접근성 및 표준화 문제에 대한 기술주의적technocratic 대응]으로서 '표준화된 환자로서의 실제 환자'에 대한 역사적 근거는 여전히 중요한 의미를 지니고 있습니다. 이러한 [도구적 가정]은 항상 명시적으로 언급되지는 않았지만 [학습 경험의 품질, 재현성 및 표준화에 대한 많은 관심]을 통해 알 수 있습니다. [현재 및 미래의 환자에 대한 책무]는 [학습자에게 진정성 있고 의미 있으며 균등하게 분산된 학습 경험을 제공해야 한다는 책임감]을 통해 유추할 수 있습니다.

In the previous section on “the emergence of the engaged patient”, we drew attention to scholarly communities drawing on interpretive and sometimes critical paradigms. In contrast, there is a community of research in the field of standardized patients making use of instrumentalist notions of patient engagement, exploring the impacts of various interventions using positivist rationales and experimentalist designs. As already noted, there is overlap between these two research communities and their various assumptions. However, the distinctions are worth highlighting. In particular, the historical rationale for “real patients as standardized patients” as a technocratic response to a problem of access and standardization of learning opportunities remains consequential.

  • These instrumental assumptions—not always explicitly stated—are visible in the great volume of concern displayed for the quality, reproducibility, and standardization of the learning experience.
  • Accountability to present and future patients is inferred through a sense of responsibility for creating learning experiences that are authentic, meaningful, and equally dispersed for the learners.

치료와 학습의 얽힘으로서의 환자 참여: 사회문화적 학습
Patient involvement as entanglements of care and learning: sociocultural learning

의료 전문직 교육에서의 환자 참여에 대한 이전의 검토에서는 ["병상 학습" 또는 "임상 학습"]에 대한 고려가 제외되었는데, 여기서는 (학생 또는 환자가) [치료의 순간moments of care에 경험하는 학습]으로 정의됩니다(Monrouxe 외. 2009). "적극적인" 환자 참여가 일종의 교육적 역할을 적극적으로 추구하는 것을 의미한다는 점을 고려할 때(Towle 외. 2010), 이전 검토에서 침상 학습을 제외하는 것은 합리적입니다. 그러나 이 검토의 목적상, 우리는 보건의료 전문직 교육에 대한 환자 참여에 대한 고려를 역사적으로 영향력이 크고 오랫동안 지속되어 온 침상 학습에 대한 대규모 연구와 개념적으로 접촉하는 것이 중요하다고 생각했습니다. 이러한 작업은 너무 방대하여 이 특정 리뷰에서 심도 있게 다루기에는 무리가 있습니다. 대신 리뷰 논문, 많이 인용된 연구, 해당 분야에서 지속되고 있는 논쟁을 중심으로 살펴보았습니다. 병상 학습에 대한 설명은 1900년대 초부터 현재까지 지속되어 왔지만, 학습자-환자 접촉의 대부분은 더 이상 병상 옆에서 이루어지는 것이 아니라 지역사회 및 외래 환경에서도 발생한다는 인식이 확산되고 있습니다(Coleman and Murray 2002).  
Previous reviews of patient engagement in health professions education have excluded considerations of “bedside learning”—or “clinical learning”—defined here as the learning experienced (by students or patients) during moments of care (Monrouxe et al. 2009). Given that “active” patient involvement has been taken to mean active pursuit of some kind of teaching role (Towle et al. 2010), the exclusion of bedside learning from previous reviews is sensible. However, for the purpose of our review, we deemed it important to put our consideration of patient involvement in health professions education in conceptual contact with the large, long-standing, and historically influential body of work on bedside learning. This body of work is too expansive to be considered in depth in this particular review. Instead, we engaged with review papers, highly cited pieces of work, and enduring debates in the field. While the descriptor of bedside learning has persisted from the early 1900s to current times, there is recognition that much of learner-patient contact is no longer at the side of a bed, but also occurs in community and ambulatory settings (Coleman and Murray 2002).

이 검토에서 우리가 관심을 갖는 것은 [서비스 제공의 순간]과 관련하여 [학습이 고려되는 순간]입니다. 우리가 구분하는 지점은 학습에 대한 환자의 "능동적" 또는 "수동적" 참여가 아니라 다음을 구분하는 것입니다.

  • 환자가 [학습에 참여하기로 선택]했고, [자신의 교육 역할을 인식]하고 있는 시나리오(예: 임상 교육 동료, 커리큘럼 위원, 표준화 환자 등)
  • 환자가 [치료를 받고 있으며] 이러한 [치료 관계에 학생이 참여함]으로써 학습에 참여할 수 있는 시나리오

이러한 입장은 또한 학습자와 환자가 서로를 통해, 서로로부터, 서로에 대해 동시에 학습할 수 있는 가능성을 열어주는데, 이는 Bleakley와 Bligh(2008)가 탐구한 개념입니다. 또한 [상호 학습의 순간]을 고려하면 환자가 학생과의 학습 관계에 참여하기 위해 특정 종류의 전문 지식을 보유할 필요가 없어집니다. 이러한 사고방식에 따르면 질병을 처음 경험하는 사람들도 학습 관계에 있다고 볼 수 있습니다. 학습 관계는 경험 및 만성 질환을 통해 전문성을 갖춘 환자들에게만 해당되는 것이 아닙니다. 마지막으로, [학습에 대한 환자의 적극적인 참여]가 일정 수준의 커리큘럼 의사 결정 및 직접적인 교육과 동일해야 한다는 가정을 제거함으로써, 우리는 (때로는 은유적인) 병상에서의 다양한 치료 및 학습에 대한 환자의 적극적인 참여를 개념화하는 연구자 그룹을 발견했습니다.

What is of interest to us in this review are those moments when learning is considered in relation to moments of service provision. The point of distinction we made is not between “active” or “passive” patient involvement in learning, but between

  • scenarios where patients have chosen to participate in learning and are aware of their teaching roles (e.g. as clinical teaching associates, curriculum committee members, standardized patients etc.) and
  • scenarios where patients are seeking care and may also be participating in learning by virtue of student participation in those care relationships.

This position also opens the possibility of learners and patients learning with, from, and about one another simultaneously, a concept explored by Bleakley and Bligh (2008). Further, considering moments of mutual learning also removes the necessity of patients having a particular kind of expertise in order to participate in a learning relationship with students. By this line of thinking, people experiencing illness for the first time are also in learning relationships. Learning relationships are not reserved for those patients with expertise by experience and/or chronic illness. Finally, by removing the assumption that active patient engagement in learning must equate to some level of curricular decision-making and/or direct teaching, we found a group of researchers conceptualizing active involvement of patients in various entanglements of care and learning at the (sometimes metaphorical) bedside.

병상 학습에 대한 환자의 참여는 현대 교육 병원 개념의 제도화에 원동력이 된 것으로 알려진 오슬러의 저서 '에콰니미타스(Aequanimitas)'에 그 근간을 두고 있습니다. 교육 병원은 원래 환자가 학생 학습에 참여하는 대가로 의료 서비스를 받는 '자선 병원'으로 시작되었습니다(Ludmerer 1983). 치료와 학습이 얽혀 있는 이 초기 모습에서 환자가 의료 전문가의 학습에 참여할 의무가 있는지에 대한 논쟁이 계속되고 있습니다(Waterbury 2001). 침상 학습의 본질에 대한 다른 지속적인 논쟁에는 아래 등이 포함됩니다(Bashour 외 2012; Celenza 외 2011; Chiong 2007; Draper 외 2008; Hubbeling 2008; Leinster 2004; Monrouxe 외 2009; Paull 2006). 

  • 환자 동의와 관련된 윤리적 문제,
  • 학습 기회로서 환자에 대한 학생의 접근성 감소,
  • 잠재 커리큘럼의 교묘한 효과를 포함한 선배 임상의의 환자 치료에 대한 역할 모델링 문제,
  • 학습 요구와 환자 치료 요구의 균형을 맞추려는 학생들이 겪는 다양한 윤리적 딜레마 

Patient involvement in bedside learning is anchored in Osler’s famous Aequanimitas, taken to be the impetus for the institutionalization of the modern concept of a teaching hospital. The teaching hospital originally emerged as a ‘charity hospital’, where patients received medical care in exchange for participating in student learning (Ludmerer 1983). From this early manifestation of entanglements of care and learning, there are continued debates about whether patients have a duty to participate in the learning of health professionals (Waterbury 2001). Other enduring debates about the nature of bedside learning include:

  • ethical concerns related to patient consent,
  • declining student access to patients as learning opportunities,
  • problematic role modeling of patient care from senior clinicians including the insidious effects of hidden curricula, and
  • the various ethical dilemmas experienced by students attempting to balance their learning needs against patients’ care needs (Bashour et al. 2012; Celenza et al. 2011; Chiong 2007; Draper et al. 2008; Hubbeling 2008; Leinster 2004; Monrouxe et al. 2009; Paull 2006).

이 리뷰에서 우리가 특히 관심을 갖는 것은 침대 옆 학습이 개념화되는 새로운 방식입니다. 이 문헌에서 우리는 [학습에 대한 구성주의 이론]을 볼 수 있습니다. 이는 환자를 교육 자료로 객관화하는 데 도움이 되는 이전의, 그리고 더 지배적이었던 침상 학습 접근 방식과는 대조적입니다. 임상 학습에 대한 이러한 대안적 개념화에서는 [학습자, 환자, 교수자 간의 삼자적 만남]에서 [상호 작용적 뉘앙스]에 초점을 맞추고, 이러한 관계적 공간에서 학습을 이해하는 방법으로 [학습에 대한 사회적 이론]을 사용합니다(Bleakley 2014; Bleakley와 Bligh 2008; Kumagai와 Naidu 2015). 우리가 강조하고자 하는 것은 바로 이러한 연구입니다. 여기에서는 합법적 주변적 참여(Lave and Wenger 1991), 실천 공동체(Wenger 1998), 활동 시스템에서의 확장적 학습에 대한 Engestrom의 개념(Engeström 1999), 행위자-네트워크 이론의 다양한 반복(Latour 2007; Law 1999; Mol 2010)에 대한 개념을 소개합니다. 이러한 이론적 방향의 공통점은 학습의 사회적, 물질적, 시간적, 맥락적 측면에 초점을 맞춘다는 점입니다(Fenwick and Edwards 2010). 
What is of particular interest to us in this review are the emerging ways in which bedside learning is being conceptualized. It is in this body of literature that we see constructionist theories of learning. This in contrast to earlier—and more dominant—approaches to bedside learning that would serve to objectify patients into teaching materials. In this alternate conceptualization of clinical learning, there is a focus on the interactional nuances during triadic encounters between learners, patient and instructors, using social theories of learning as a way to make sense of learning in these relational spaces (Bleakley 2014; Bleakley and Bligh 2008; Kumagai and Naidu 2015). It is this body of research that we wish to emphasize. Here we see the introduction of concepts of legitimate peripheral participation (Lave and Wenger 1991), communities of practice (Wenger 1998), Engestrom’s notions of expansive learning in activity systems (Engeström 1999) and various iterations of actor-network theory (Latour 2007; Law 1999; Mol 2010). What these theoretical orientations share are a focus on the social, material, temporal, and contextual aspects of learning (Fenwick and Edwards 2010).

이는 역사적으로 개인의 인지적 성취로서의 학습에 초점을 맞춰온 [성인 학습 이론]과는 대조적입니다(Bleakley 2014). 사회 학습 이론은 개인에 초점을 맞추는 대신 [공유 지식, 사회적 정체성 개발, 집단적 감각 형성] 등의 개념을 활용하여 학습을 [단순히 지식의 습득]이 아니라 [특정 정체성을 채택]하여 [실천 공동체에 합법적으로 진입]하는 [사회화의 한 측면]으로 탐구합니다(Bleakley 2012). 이 이론적 틀에서 [환자는 의료 전문가와 함께 공통의 관심사로 묶인 활동 네트워크를 형성]하는 역할을 합니다. 물론 이러한 네트워크 내에서 행동하는 방법에 대한 긴장, 논쟁, 딜레마가 없다는 것은 아니지만, 이러한 긴장을 설명하는 것은 학습 현상을 이해하는 데 있어 중요한 부분이 됩니다(Fenwick and Edwards 2010). 이러한 이론적 장치를 활용하는 연구 설계는 심층 관찰과 비디오 민족지학적 연구가 주를 이루는 질적 연구 경향이 있습니다(Hamilton 2011). 

This in contrast to theories of adult learning that have historically focused on learning as a cognitive accomplishment of an individual (Bleakley 2014). Instead of focusing on individuals, social learning theories draw on concepts such as shared knowledge, social identity development, and collective sense making as a means to explore learning not simply as acquisition of knowledge, but as an aspect of socialization, involving legitimate entry into a community of practice through the adoption of a particular identity (Bleakley 2012). In this theoretical framing, patients act along with health care professionals in forming a network of activity, held together by a common object of interest. That is not to say that there are not tensions, debates and dilemmas about how to act within these networks, but explicating these tensions becomes part of understanding the phenomenon of learning (Fenwick and Edwards 2010). Research designs making use of these theoretical apparatuses tend to be qualitative, with in-depth observations and video-ethnographic studies predominating (Hamilton 2011).

이 요약에서는 [구성주의 학습 이론에 초점을 맞춘 연구]라는 침대 옆 학습 문헌의 한 가지 흐름만을 강조합니다. 우리는 이 특정 학계가 침상 학습의 전체를 대표하지 않으며, 치료의 순간에 환자와 수련의 사이에 위험과 보상이 불균등하게 분배되는 환자들의 경험도 대표하지 않는다는 것을 알고 있습니다. 우리는 [유사한 가치관을 공유하지만 다른 이론적 입장에서 다양한 연구 질문에 접근하는 다른 학계 커뮤니티]의 이론적 기여와 병상 학습에 대한 이 메타 내러티브를 강조합니다.
In this summary, we emphasize just one stream of bedside learning literature: the body of work that focuses on constructivist theories of learning. We recognize that this particular scholarly community does not represent the whole of bedside learning—nor the experience of patients that find risk and rewards unevenly distributed between patients and trainees during moments of care. We highlight this one meta-narrative about bedside learning for the theoretical contributions being made and the juxtaposition from other scholarly communities sharing similar value statements, but approaching various research questions from a different theoretical stance.

메타 내러티브: 공통점과 긴장감
Meta-narratives: commonalities and tensions

광범위하고 반복적인 프로세스를 사용하여 의료 전문직 교육에서 환자 참여와 관련된 광범위한 문헌을 수집했습니다. 참여 환자, 표준화 환자로서의 실제 환자, 병상 학습이라는 세 가지 학술 커뮤니티를 중심으로 분석 결과를 정리했지만, 종합에서 가장 중요한 것은 [이러한 각 커뮤니티를 움직이는 중요한 스토리라인]이며, 특히 [이러한 스토리라인(또는 메타 내러티브)이 서로 상호 작용하는 방식]에 주목했습니다. 이를 위해 각 학문적 전통을 뒷받침하는 주요 연구 질문과 딜레마, 그리고 적극적인 참여라는 다소 어울리지 않을 수 있는 개념에 대해 논의합니다. 문헌에서 [내러티브 주제를 다루는 것]에서 [메타 내러티브를 명확히 하는 것]으로의 전환은 개념적으로 중요합니다. 앞서 언급한 주제를 설명할 때 다양한 개념과 그 개념들이 서로 어떻게 연관되어 있는지에 주의를 기울였습니다. 메타 내러티브를 명확하게 표현하려면 [공통의 개념, 이론, 방법 및 도구를 공유하는 일관된 작업체]에 주의를 기울여야 합니다(Kuhn 1996). 여기에는 시간이 지남에 따라 다양한 공간과 장소에 걸쳐 실제 연구 커뮤니티 간의 경계와 상호 연결에 주의를 기울이는 것이 포함됩니다. [내러티브 주제]는 역사적으로 제시될 수 있지만, [메타 내러티브]에 주목하려면 역사, 맥락, 연결에 주목해야 합니다. 이미 살펴본 [개념적 주제]는 서로 상호 작용하지만, 다음에 설명하는 메타 내러티브는 이러한 주제에 단순히 매핑되지 않습니다. 설명하는 메타 내러티브는 이러한 [개념적 주제]를 고려할 뿐만 아니라 [다양한 연구 커뮤니티 간의 경계, 공유되는 개념, 커뮤니티 내부 및 커뮤니티 간에 존재하는 논쟁]도 함께 고려합니다. Greenhalgh 등(2004, 2005)의 연구를 바탕으로, 우리는 같은 학회에 참석하고, 저널에 실린 서로의 논문을 심사하고, 같은 연구비 지원 기관에 지원하는 연구자는 누구인가와 같은 질문을 던졌습니다. 이 과정에서 우리는 보건 전문직 교육에 대한 환자 참여의 더 큰 분야를 알려주는 다양한 메타 내러티브를 찾아내기 위해 내러티브 주제와 연구 커뮤니티를 연결하기 시작했습니다. 표 3은 메타내러티브에 대한 개괄적인 요약을 제공합니다.
Using an expansive and iterative process, we collected a wide range of literature concerned with patient involvement in health professions education. While we organized the presentation of our analysis along the lines of three scholarly communities—concerned with the engaged patient, real patients as standardized patients, and bedside learning—what is of primary interest in our synthesis are the over-arching storylines that animate each of these communities, particularly as those storylines (or meta-narratives) interact with one another. To that end, we discuss the primary research questions and dilemmas fuelling each scholarly tradition and the possibly incommensurate notions of active engagement. The shift from addressing narratives themes in the literature to articulating meta-narratives is conceptually significant. In outlining the aforementioned themes, we attended to various concepts and how they related to one another. To articulate meta-narratives requires attention to coherent bodies of work that share common sets of concepts, theories, methods and instruments (Kuhn 1996). This involves attending to boundaries and interconnections between the actual research communities over time and across various spaces and places. Whereas the narrative themes can be presented as ahistorical, to attend to meta-narratives necessitates attending to history, context, and connections. While the conceptual themes already explored do interact with one another, the meta-narratives we describe next are not simply mapped onto those themes. The meta-narratives described take into account those conceptual themes, but also layer in the boundaries between various research communities, what concepts are shared, what debates exist within communities and across them. Building from Greenhalgh et al’s (2004, 2005) work, we asked questions such as: which of these researchers attend the same conferences, referee for each other’s papers on journals, apply to the same grant-giving bodies? In doing so, we started to interlay narrative themes and research communities in order to tease out various meta-narratives that are informing the larger field of patient involvement in health professions education. Table 3 provides a high-level summary of the meta-narratives.

오슬러의 역사적 유산에 기반을 둔 각 활동의 흐름은 [치료와 학습이 얽혀 있는 문제]와 씨름했습니다. 이는 원래 학생들, 더 나아가 교수진에게 가장 유익한 학습 경험이 어디에 위치해야 하는지에 대한 의문을 제기하는 학습의 문제였습니다. 환자들의 우려가 무시되었다는 것이 아니라, 더 나은 환자 치료를 위한 길은 더 나은 교육을 통해 매개될 수 있도록 구성되었다는 의미입니다. 침상 학습 전통은 학습을 치료 환경 내에 확고하게 위치시킴으로써 학습 딜레마를 해결했습니다. 병상 학습에 대한 강조는 수많은 새로운 기관을 탄생시켰으며, 오늘날에도 교육 병원 내 의료 인력 조직에서 여전히 볼 수 있습니다. 그러나 이 결정은 [환자 동의와 관련된 윤리적 딜레마][학습 기회에 대한 학생의 접근성에 대한 현실적 우려] 등 다른 문제를 야기했습니다. 병상에서 치료와 학습을 분리하는 것이 불가능해지자 이러한 공간에 내재된 사회적 복잡성을 탐구할 수 있는 연구 전통이 발전했습니다. 일부의 경우 이러한 상황은 의료 환경 밖에서 시작된 학습에 대한 사회적 이론을 수용하는 것으로 발전했습니다. 
Anchored in the historical legacy of Osler, each stream of activity wrestled with the entanglements of care and learning. This was originally framed as a problem of learning for the students—and by extension, the faculty members—bringing into question where the most fruitful learning experiences were to be located. This is not to say that patient concerns were ignored, but that the avenue to better patient care was constructed to be mediated through better education. The bedside learning tradition addressed the learning dilemma by firmly locating learning within the care settings. The emphasis on bedside learning germinated a host of new institutions, still visible in modern day organization of the medical workforce within teaching hospitals. However, this decision caused other problems to arise, including ethical dilemmas related to patient consent and pragmatic concerns about student access to learning opportunities. Given the impossibility of disentangling care and learning at the bedside, research traditions developed that could explore the inherent social complexity in these spaces. For some, this situation has evolved into embracing social theories of learning that have originated outside of health care settings.

[병상 학습]의 흐름을 이어온 교육자와 연구자들이 진료 환경 내에서 학습의 가치에 대한 기본 가정을 흔들지 않으면서 이러한 딜레마와 씨름하는 동안, 특정 교육자 그룹은 [시뮬레이션 환자]라는 새로운 교육 리소스를 도입하여 이러한 문제를 해결하려고 시도했습니다. 일부의 경우, 시뮬레이션 환자는 나중에 [표준화 환자]로 발전했습니다. 여기서 해결해야 할 문제는 주로 학생과 교육자의 문제였지만, 이 전략은 환자의 자발적 참여라는 메커니즘을 통해 환자 동의라는 까다로운 딜레마를 관리할 수 있는 길을 제공하기도 했습니다. 이러한 특정 윤리적 딜레마와 환자 안전 문제를 해결한 후에는 역량 및 역량 개발과 관련된 교육 활동을 더욱 강화할 수 있는 [표준화된 리소스]를 만드는 것과 관련된 [관행과 도구를 지속적으로 개선]하는 데 초점을 맞출 수 있습니다. 따라서 [교육적 자원으로서 표준화 환자]의 성공과 관련된 질문에 답할 수 있는 관련 연구 전통이 발전했습니다.
While educators and researchers that continued along the stream of bedside learning grappled with these dilemmas without destabilizing the foundational assumption of the value of learning within practice settings, a specific group of educators attempted to solve these problems by introducing a new educational resource: the simulated patient. For some, the simulated patient later evolved to become the standardized patient. Here, the problems to be solved were primarily the problems of students and educators, but this strategy also provided an avenue to manage the thorny dilemmas of patient consent through mechanisms of patient volunteerism. Having contained those particular ethical dilemmas and patient safety concerns, the focus could be placed on continuing to refine the practices and tools associated with creating a standardized resource that would bolster ever more educational activity related to competencies and competency development. Hence, an associated research tradition developed capable of answering questions related to the success of standardized patients as an educational resource.

그러나 표준화 환자 개발은 정치적 공백 상태에서 이루어진 것이 아니었습니다. 학회 외부에서도 병상 학습에 대한 대안을 제시하고자 하는 움직임이 동시에 일어났지만, 해결해야 할 문제는 반드시 학생이나 교수진에 국한된 것이 아니었습니다. 이러한 문제는 [더 큰 사회적 담론의 틀] 안에 놓여 있었습니다.

  • 전문직에 대한 신뢰 약화
  • 의료 시스템을 형성할 수 있는 환자의 권리
  • 전문 지식의 한 형태로서 생생한 환자 경험에 대한 인식의 증가 

However, the development of standardized patients was not occurring in a political vacuum. Coinciding movements outside of the academy also sought to provide alternatives to bedside learning, yet the problems to be solved were not necessarily those identified by students or faculty members. These problems were framed within a larger societal discourse of

  • eroding trust in the professions,
  • the rights of patients to shape health care systems, and
  • a growing appreciation of lived patient experience as a form of expertise.

그림 2에서는 메타 내러티브가 시간이 지남에 따라 서로 상호 작용하는 것으로 표시되어 있습니다. 이러한 타임라인을 병렬로 제시하여 두 가지가 공존하고 있음을 명확하게 보여줍니다. 이는 메타내러티브를 선형적이고 명확하게 구분하는 표 3에 표시된 구분과는 대조적입니다. [수동적 참여]에서 [능동적 참여]로 이동하는 [하나의 목적론적 타임라인]이 아니라, 서로 다른 궤적을 가진 [여러 타임라인]이 존재합니다. 각 활동의 흐름은 [향상된 학습 경험을 통해 환자 치료를 개선한다는] [공통된 목표]를 공유합니다. 그러나 주요 연구 질문과 딜레마, 그리고 이를 해결하는 방식은 타임라인에 따라 다릅니다. 또한 한 가지 문제에 대한 해결책은 항상 새로운 문제를 야기하며, 교육자와 연구자들은 이를 적극적으로 추구합니다. 그 결과, 연구자들 사이에 공통 언어를 공유하는 것처럼 보이지만 잠재적으로 비교할 수 없는 개념으로 구체화될 수 있는 일련의 경계가 생겨납니다(Kuhn 1996). 

In Fig. 2, we display the meta-narratives as interacting with one another over time. We have presented these timelines in parallel to demonstrate their co-existence in high relief. This is in contrast to the distinctions displayed in Table 3, which suggests linear and clear separation between meta-narratives. Rather than a single teleological timeline that moves from passive to active engagement, there are multiple timelines with different trajectories. Each stream of activity shares the declared aim of improving patient care through enhanced learning experiences. However, the primary research questions and dilemmas—and the ways they are addressed—are different across the timelines. Further, the solutions to one set of problems invariably create a new set of problems, vigorously pursued by educators and researchers. The result is a set of boundaries between researchers that potentially crystallize into incommensurable concepts that may go unnoticed, particularly as they appear to share common language (Kuhn 1996).

공약불가능의 관계 탐색: '능동적' 환자 참여 구축하기
Exploring incommensurabilities: constructing “active” patient engagement

한 가지 가능한 공약불가능의 관계는 "능동적" 환자 참여라는 개념입니다. 병상 학습에 대한 최근의 이론화(Bleakley 2014, Bleakley와 Bligh 2008)는 [환자를 사회 시스템의 일부로 위치시킬position] 수 있습니다. 이러한 이론에서는 "능동적" 또는 "수동적"인지에 대한 질문은 전적으로 관련이 없을 수 있습니다. 이러한 질문이 중요하지 않다는 것이 아니라 개념 자체가 같은 종류의 중요성을 지니지 않을 수 있다는 뜻입니다. 이러한 이론에서는 시스템 내의 모든 행위자가 학습에 관여합니다. 그러한 학습이 바람직한지 해로운지는 미리 정해져 있지 않지만, [수동성이라는 개념]은 이러한 질문을 추구하는 데 가장 유익한 방법이 아닐 수 있습니다. 예를 들어, 일부 사회 학습 이론에서는 [모든 유생물과 무생물]은 어떤 식으로든 능동적이라고 가정합니다(Latour 1999; Law 1999). 이러한 프레임워크에서는 [환자, 학습자, 교사, 책상, 창문, 정책 성명서, 평가 프로토콜, 환자 가운, 짧고 긴 흰 가운]이 [모든 것이 어떤 방식으로든 능동적]입니다. 따라서 사물이 행동하고 상호 작용하는 방식과 이러한 행동이 어떤 영향을 미치는지는 경험적 질문입니다. 이런 의미에서 [어떤 프로그램에는 활동적인 환자가 있고 어떤 프로그램에는 그렇지 않다]고 말하는 것은 같은 종류의 두드러짐을 갖지 않습니다. 이러한 이론을 기존 관행에 대한 비판으로 사용할 수 없다는 것은 아니지만(Latour 2004), 비판의 성격은 조사 전에 전제되지 않습니다. 차이점은 [참여의 본질에 대한 초기 가정]에 있으며, [참여가 어떻게 수행되어야 하는지]에 대한 가정을 괄호로 묶고, 대신 [관행이 실제로 어떻게 전개되고 있는지]에 경험적으로 초점을 맞출 필요가 있습니다(Broer et al. 2014).
One possible incommensurability is the notion of “active” patient engagement. Recent theorizations (Bleakley 2014; Bleakley and Bligh 2008) of bedside learning would position patients as part of social systems. The question of being “active” or “passive” may not be entirely relevant in these theorizations. This is not to say that these questions are not important, but that the concepts themselves may not hold the same kind of salience. In these theorizations, all actors within the system are implicated in learning. Whether the learning is desirable or detrimental is not predetermined, but the notion of passivity may not be the most fruitful way to pursue those questions. For example, in some social theories of learning, all animate and inanimate objects are active in some way (Latour 1999; Law 1999). In this kind of framing, patients, learners, teachers, desks, windows, policy statements, assessment protocols, patient gowns, short and long white coats are all active in some way. Thus, the ways in which objects act and interact, and to what effect these actions have, are empirical questions. In this sense, to say that some programs have active patients and some do not does not have the same kind of salience. This is not to say that these theorizations cannot be put to use as critique of existing practices (Latour 2004), but the nature of critique is not presumed prior to the investigation. The difference lies in the initial assumptions about the nature of engagement, requiring a bracketing of any assumptions about how it should be performed and instead focusing empirically on how practices are actually unfolding (Broer et al. 2014).

이와는 대조적으로, 최근 '교사로서의 환자'에 대한 일부 반복에서 [능동적 환자] 개념은 [능동적 환자]를 [의사 결정권 보유와 동일시]합니다. 권력에 대한 선형적 가정에 따르면, 아른슈타인의 사다리(Tritter and McCallum 2006)와 이 특정 참여 모델에서 개념적 계보를 찾을 수 있는 모든 [사다리형 모델]은 [환자에게 의미 있는 의사결정권을 적극적으로 이전하지 않는 모든 형태의 참여]는 [토큰주의]로 경험될 위험이 있습니다. 여기서 '능동적' 환자는 [의료의 정치]에 등록되어 있으며, 영향력 문제를 이해하기 위해서는 다른 이론이 필요합니다. 사회 과학자들은 환자 참여의 다른 분야에서 이러한 선형적 권력 개념화와 씨름하면서 진정한 참여를 거의 독점적으로 가시적인 형태의 의사 결정과 동일시하는 의도하지 않은 결과에 대해 의문을 제기해 왔습니다(Eakin 1984; Ocloo and Fulop 2012; Tritter 2009).
In contrast, the notion of active patient in some recent iterations of “patient as teacher” equates the active patient with holding decision-making power. Following the linear assumptions about power that animate Arnstein’s ladder (Tritter and McCallum 2006)—and all ladder-like models that might trace their conceptual lineage back to this particular model of engagement—any form of engagement that does not actively transfer meaningful decision-making power to patients risks being experienced as tokenistic. Here, the “active” patient is enrolled in the politics of healthcare, requiring a different set of theorizations to make sense of questions of impact. Social scientists have grappled with this linear conceptualization of power in other fields of patient engagement, raising questions about the unintended consequences of equating authentic engagement almost exclusively with visible forms of decision-making (Eakin 1984; Ocloo and Fulop 2012; Tritter 2009).

마지막으로, [표준화 환자 문헌]은 일부 의사 결정 영역에서 [참여 환자 문헌]과 겹칠 수 있지만, [표준화 환자 문헌]의 상당한 하위 집합은 ['적극적인 참여'가 적극적인 교육과 동일하다]고 가정합니다. 이는 [의사 결정 참여와 관련된 어떠한 가정도 요구하지 않으며], 환자와 교육자 간의 [권력 균형을 상대적으로 방해하지 않습니다]. '능동적' 환자가 교사로서 미치는 영향에 대한 문제를 해결하려면 실험주의적 사고에 적합한 [기술주의적 근거]가 필요합니다. 이를 위해 연구자 커뮤니티는 '능동적' 환자 참여의 개념을 '능동적' 참여에 수반되는 완전히 다른 정신 모델을 사용하여 배포할 가능성이 있습니다.
Finally, the standardized patient literature may overlap with the engaged patient literature in some decision-making spaces, but a substantive subset of the standardized patient literature assumes that “active engagement” equates to active teaching. This does not require any associated assumption about participating in decision-making and leaves the power balances between patients and educators relatively undisturbed. To address questions of impact of the “active” patient as teacher requires technocratic rationales that are amenable to experimentalist type thinking. To this end, there is a potential that communities of researchers are deploying the concept of “active” patient engagement with entirely different mental models of what “active” engagement entails.

따라서 보건 전문직 교육에서 환자 참여에 관한 문헌을 의미 있게 종합하는 데 따르는 어려움은 단순히 명명법의 문제가 아닐 수 있습니다. 유용한 종합을 만드는 것이 어렵다는 것은 [환자와 함께, 환자로부터, 환자에 관한 학습의 본질]에 대한 서로 다른 개념화를 반영하는 것일 수도 있습니다. 연구자와 교육자는 환자 참여가 여러 가지 방식으로 동시에 수행되는 여러 개념적 대상을 설명할 수 있습니다(Mol 1999). 이러한 다양한 수행 간의 결과는 의도하지 않은 결과에 대한 잠재력과 마찬가지로 항상 다를 수 있습니다. 예를 들어,

  • 환자 참여가 [민주적인 방식]으로 수행되는 경우
    • 환자의 목소리, 대표성, 대표성에 대한 질문이 중요해지지만(Rowland and Kumagai 2018),
    • 학습자에 대한 책임(명시적인 학습 기회 원칙, 투명한 평가 관행, 공평한 학습 기회)은 덜 가시화될 수 있습니다.
  • 환자 참여가 [기술적 노력]으로 수행되는 경우
    • 학습자에 대한 책임이 보다 명시적으로 다뤄질 수 있지만,
    • 환자에 대한 의도하지 않은 [가부장주의]가 지속될 수 있습니다.
  • 환자 참여가 [해방적 노력]으로 수행될 때,
    • [교육자의 완전한 기술적 전문성 실현]을 댓가로 [급진적 자율성의 가치]가 살아남을 수 있지만(Bleakley 2014),
    • 다른 환자 참여 분야에서 탐구된 [상호 무력감]의 조건을 만들 수 있습니다(Broer et al. 2014).

Thus, the challenges of creating a meaningful synthesis of the literature on patient involvement in health professions education may not just be a problem of nomenclature. Instead, the difficulty of creating a useful synthesis may also reflect different conceptualizations about the nature of learning with, from, and about patients. Researchers and educators may be describing multiple conceptual objects (Mol 1999), where patient involvement is performed in multiple ways simultaneously. The outcomes between these various performances will invariably differ, as will their potential for unintended consequences. For example,

  • where patient involvement performs as a democratic exercise,
    • questions of patient voice, representation, and representativeness become relevant (Rowland and Kumagai 2018) but
    • accountabilities to learners along the principles of explicit learning opportunities, transparent assessment practices, and equitable learning opportunities may be less visible.
  • When patient involvement performs as a technical endeavour,
    • accountabilities to learners may be more explicitly addressed, but
    • unintended and unexplored paternalism towards patients may persist.
  • When patient involvement performs as an emancipatory endeavour,
    • the value of radical autonomy might be lived at the expense of realizing the full technical expertise of educators (Bleakley 2014),
    • creating conditions of mutual powerlessness that have been explored in other fields of patient engagement (Broer et al. 2014).

따라서 보건전문직 교육에서 환자 참여 분야의 지식을 지속적으로 구축하기 위해서는 이 분야가 동질적이지 않으며, [통일된 명명법을 만들려는 노력]만으로는 그 차이를 원활하게 해소할 수 없다는 점을 인식해야 합니다. 또한 교육자와 연구자는 한 패러다임에서 공명하는 영향력 매개변수를 사용하여 다른 패러다임에서 설계된 개입의 영향을 평가하는 등 [상응하지 않는 개념을 혼용하는 것에 주의]해야 합니다

  • 예를 들어, 대화적 개입의 영향을 결정하기 위해 [실험주의적 디자인]을 사용하는 것이 [두 인식론적 커뮤니티]를 진정으로 만족시킬 수 있는지는 의문입니다.
    • "이 환자 참여 개입이 효과가 있는가?"라는 질문으로 조사를 시작하는 대신
    • "환자 참여가 어떤 효과가 있는가?", "누구를 위한 것인가?", "어떻게 알 수 있는가?"라는 질문으로 시작하는 것이 현명할 수 있습니다.

따라서 우리는 보건 전문직 교육 분야의 환자 및 대중 참여 학술 및 연구에서 존재론적, 인식론적 문제를 더 많이 고려할 것을 촉구하는 Regan de Bere와 Nunn의 의견에 동의합니다(Regan de Bere와 Nunn 2016).
Therefore, to continue to build knowledge in the field of patient involvement in health professions education requires recognition that the field is not homogeneous, and the differences will not be rendered smooth through efforts to create uniform nomenclature. Further, educators and researchers should be cautious about mixing incommensurate concepts, using parameters of impact that resonate in one paradigm to evaluate the impact of interventions designed in another.

  • For example, it is questionable whether using an experimentalist design to determine the impact of dialogical intervention can truly satisfy either epistemic community.
    • Instead of starting an inquiry with the question “does this patient engagement intervention work?”,
    • perhaps it is wise to start by asking “what work does patient engagement do?”, “for whom?” and “how will we know?”.

Thus, we are in agreement with Regan de Bere and Nunn as they call for more consideration of ontological and epistemological matters in patient and public involvement scholarship and research in the field of health professions education (Regan de Bere and Nunn 2016).

제한 사항

이 검토의 목적을 위해, 우리는 교육자들이 보건 전문직 교육에서 환자 참여에 대한 다양한 개념화를 파악하고 씨름하는 데 도움이 되는 높은 수준의 추상화를 찾았습니다. 특정 의료 전문직으로 검색 범위를 제한하지 않았습니다. 한 예리한 검토자가 지적했듯이, 의료 전문직 간에는 차이가 있으며, 이러한 차이가 교육에 대한 환자 참여의 역사적 궤적에 미치는 영향도 중요합니다. 이러한 차이점, 이러한 차이점이 서로 어떻게 상호 작용하는지, 그리고 이러한 분석이 환자 참여에 대한 우리의 가장 중요한 관심사에 어떻게 영향을 미칠 수 있는지를 탐구하는 것은 이 특정 백서의 범위를 벗어났습니다. 향후 검토에서는 이러한 전문적 차이에 초점을 맞출 수 있습니다.

For the purpose of this review, we sought high level abstractions to help educators to grasp—and wrestle with—various conceptualizations of patient involvement in health professions education. We opted to not limit our search to any particular health profession. As an astute reviewer pointed out, the differences between health professions are consequential, as are the impacts of these differences on the historical trajectories of patient involvement in education. It was beyond the scope of this particular paper to explore those differences, how they interact with one another, and how such an analysis might inform our over-arching interest in patient involvement. Future reviews could focus on these professional differences.

또한 이 논문에서는 다양한 메타 내러티브 간의 높은 수준의 추상화와 상호 작용에 초점을 맞추기로 했습니다. 다양한 메타내러티브 내의 다양한 뉘앙스, 즉 각 메타내러티브에 유동성을 부여하는 모순, 논쟁, 딜레마 등을 다루는 것은 단일 원고의 범위를 넘어서는 것이었습니다. 따라서 이 백서에서 제시한 내용이 다소 직설적일 수 있다는 점을 인지하고 있습니다. 

  • 예를 들어, 표준화된 환자 문헌의 모든 연구가 효율성 및 재현성과 관련된 것으로 특징지을 수 없다는 점을 잘 알고 있습니다. 
  • 또 다른 예로, 우리는 다양한 사회적 학습 이론이 환자의 학습 및 다양한 진료 커뮤니티의 구성원을 적절히 설명하지 못하는 것 같은 딜레마에 대해 잘 알고 있습니다. 

이 리뷰에 소개된 각 분야에는 분명 미묘한 차이와 논쟁이 존재합니다. 이 원고에서는 교육에 대한 환자 참여라는 더 큰 기업 전반에 걸쳐 대조를 탐구하기 위해 서로 경쟁하는 큰 아이디어를 전시하기로 결정했습니다. 향후 논문에서는 여기서 다룬 것보다 더 깊이 있는 패러다임 내 미묘한 차이를 탐구할 수 있습니다.
Further, in this particular paper, we have chosen to focus on high level abstractions and interactions among various meta-narratives. It was beyond the scope of a single manuscript to also address the various nuances within various meta-narratives: the contradictions, debates, and dilemmas that give each meta-narrative a sense of fluidity. As a result, we are aware that what we have presented in this paper is necessarily blunt.

  • For example, we are aware that not all research in the standardized patient literature can be characterized as being concerned with efficiencies and reproducibility.
  • As a further example, we appreciate the dilemmas of various social theories of learning that do not seem to adequately account for patients learning and/or membership in various communities of practice.

There are certainly nuances and debates within each field introduced in this review. In this manuscript, we chose to put large and competing ideas on display in order to explore contrasts across the larger enterprise of patient involvement in education. Future papers might explore the nuances within paradigms with more depth than what can be accomplished here.

결론: 현재의 교육적 과제와 연결하기
Concluding thoughts: connecting to current educational imperatives

이 검토는 다양한 연구 전통과 시간에 걸쳐 [의료 전문직 교육에서 환자 참여에 대한 질문]이 어떻게 고려되어 왔는지 종합하기 위해 수행되었습니다. 이를 통해 환자 참여가 문헌에서 어떻게 더 광범위하게 고려되고 있는지, 그리고 이 분야에 어떤 잠재적 시사점이 있는지에 대한 비판적 관점을 제공하고자 했습니다. 이 연구에서는 환자가 특정한 방식으로 구성되고, 보건 전문직 교육에 환자가 참여하는 근거가 배치되며, 지식 생성과 관련된 연구 전통이 현장에서 활용되는 다양한 메타 내러티브를 도출하는 방법으로

  • '교사로서의 환자'로 참여,
  • 표준화된 환자로서의 실제 환자,
  • 병상 학습

등 세 가지 학술 커뮤니티에 초점을 맞췄습니다. 다양한 메타 내러티브 간의 교차점에 주목하면서, 우리는 이 분야에서 ['능동적' 환자 참여가 고려되는 잠재적으로 공약불가능한 방식]과 이러한 [공약불가능성이 갖는 잠재적 의미]에 초점을 맞추었습니다.
We conducted this review in order to synthesize how questions of patient involvement in health professions education have been considered across various research traditions and over time. In doing so, we sought to bring a critical perspective to how patient involvement is being considered in the literature more broadly and what are potential implications for the field. In this study, we focused on three scholarly communities—

  • engaged “patients as teachers”,
  • real patients as standardized patients, and
  • bedside learning

—as a way to draw out various meta-narratives in which patients are constructed in particular ways, rationales for patient involvement in health professions education are deployed, and research traditions associated with generating knowledge are put to use in the field. Attending to the intersections among the various meta-narratives, we focused on the potentially incommensurate ways in which “active” patient engagement is considered within the field and the potential implications of those incommensurabilities.

이러한 결론에 도달하면서 우리는 메타 내러티브 리뷰의 실용적 열망으로 돌아갔습니다(Wong 외. 2013). 다른 많은 국가와 마찬가지로 캐나다 의학교육은 역량 기반 의학교육(CBME)의 원칙에 따라 대대적인 개혁을 앞두고 있습니다. 여기서는 CBME를 구체적인 예로 들었지만, 이 사례는 역량 기반 교육을 중심으로 움직이고 있는 다른 의료 전문직에도 시사하는 바가 있습니다. CBME는 의학교육을 [성과 지향 모델로 재구성]하고자 하며, 이러한 목표를 달성하기 위한 방법으로 [평가 관행에 크게 의존]합니다(Holmboe 외. 2010). 이러한 개혁에 환자가 어떤 방식으로 참여하게 될지는 아직 밝혀지지 않았습니다. 그러나 현지 대화에 따르면 환자는 다음 세 가지 영역 중 하나에서 환자가 참여할 수 있다고 합니다.

  • 다중 이해관계자 평가 프로세스의 또 하나의 이해관계자로서,
  • 객관적 구조화 임상시험(OSCE)의 평가자로서,
  • 또는 학습자의 발전에 관한 결정을 내리기 위해 소집된 역량 위원회의 참가자 및 의사 결정권자로서 

In coming to this conclusion, we return to the pragmatic aspirations of meta-narrative reviews (Wong et al. 2013). Along with many other countries, Canadian medical education is on the cusp of major reform, to be enacted through the principles of Competency Based Medical Education (CBME). We focus here on CBME as a particular example, but this example has salience for other health professions that are also mobilizing around competency-based education. CBME seeks to reconfigure medical education towards an outcomes oriented model, relying heavily on practices of assessment as a way to enact those goals (Holmboe et al. 2010). The ways in which patients will be involved in this reform are largely yet to be seen. However, local conversations suggest that patient involvement might occur in any one of three arenas:


  • as another stakeholder in the multiple stakeholder assessment process,
  • as raters in Objective Structured Clinical Examinations (OSCEs), and/or
  • as participants and decision makers in Competency Committees convened to make decisions about the advancement of learners.

이들 각각은 실행 가능한 옵션일 수 있습니다. 하지만 이 중 어느 것도 완전히 새로운 것은 아닙니다. 각 옵션은 [병상 학습, 표준화 환자로서의 실제 환자, 참여 환자(특히 의사 결정권자로서의 참여 환자)] 등 이 종합에서 설명한 타임라인에 매핑됩니다. 따라서 각 옵션을 역사적 맥락에 배치하여 현재에도 변함없이 이어지는 다양한 가정, 논쟁, 딜레마에 주목할 수 있습니다.

  • 학습자에 대한 [WBA에 환자를 참여]시키려면 [권력, 취약성, 동의의 윤리, 환자가 참여해야 하는 잠재적 부담, 환자가 여러 역할을 맡게 되면서 겪을 수 있는 긴장]에 대한 문제에 주의를 기울여야 합니다.
  • [역량 위원회]에 환자를 참여시키려면 [권력, 신뢰성, 정당성, 전문성, 대표성 문제]에 대해 매우 민감하게 반응해야 합니다.
  • 마지막으로, [모든 형태의 환자 참여]는 CBME를 구성하는 다양한 가정, 이상, 열망과 어떻게 상호작용하는지에 비추어 이해되어야 합니다.

Each of these may be viable options. And yet, none of them are entirely new. Each option maps onto the timelines explicated in this synthesis: bedside learning, real patients as standardized patients, and engaged patients (particularly engaged patients as decision makers). As such, each option can be put into historical context, drawing attention to various assumptions, debates, and dilemmas that invariably carry forward into the present.

  • Involving patients in workplace-based assessments of learners will require attending to questions of power, vulnerability, the ethics of consent, the potential burdens placed upon patients to participate, and the tensions that might be experienced as patients find themselves occupying multiple roles.
  • Involving patients in Competency Committees will require much sensitivity to questions of power, credibility, legitimacy, expertise, and representation.
  • Finally, all forms of patient involvement need to understood in light of how they interact with the various assumptions, ideals, and aspirations that occupy CBME.

환자 없이는 의료 전문직 교육이 존재할 수 없다는 것은 변함없는 사실입니다. 실제로 환자가 없으면 의료 전문직 자체가 존재하지 않습니다. 이러한 주장은 여전히 유효하지만, 오슬러가 한 세대의 교육자에게 영감을 준 이후 100년이 지난 지금 많은 변화가 있었습니다. 의료계가 또 다른 변화를 맞이할 준비가 되어 있는 지금, 환자가 참여하고, 관여하고, 등록하고, 참여하고, 추적 관찰하는 방식에 대해 신중하고 협력적인 사고가 필요합니다. 

It continues to be true that health professions education does not exist without patients. Indeed, health professions themselves do not exist in the absence of patients. While that original claim remains salient, much has changed in the 100 years that have passed since Osler first inspired a generation of educators. As the field is poised for another transformation, the ways in which patients will be engaged, implicated, enrolled, involved, and followed warrant careful and collaborative thought.




Adv Health Sci Educ Theory Pract. 2019 Aug;24(3):595-617. doi: 10.1007/s10459-018-9857-7. Epub 2018 Oct 10.



Patient involvement in health professionals' education: a meta-narrative review

Affiliations collapse

1Wilson Centre, Toronto, Canada.

2University of Toronto, Toronto, Canada.

3University Health Network, 200 Elizabeth Ave, Eaton North, 1-812, Toronto, ON, M5G 2C4, Canada.

4Centre for Interprofessional Education, Toronto, Canada.

5Department of Occupational Science and Occupational Therapy, University of Toronto, Toronto, Canada.

6University Health Network, 200 Elizabeth Ave, Eaton North, 1-812, Toronto, ON, M5G 2C4, Canada.

7Department of Medicine, University of Toronto, Toronto, Canada.

8Women's College Hospital, Toronto, Canada.

9Faculty of Medicine, University of Toronto, Toronto, Canada.

10Department of Occupational Science and Occupational Therapy, University of Toronto, Toronto, Canada.

PMID: 30306292

DOI: 10.1007/s10459-018-9857-7


More than 100 years ago, Osler inspired educators to consider health professions education (HPE) as intricately reliant on patients. Since that time, patient involvement in HPE has taken on many different meanings. The result is a disparate body of literature that is challenging to search, making it difficult to determine how to continue to build knowledge in the field. To address this problem, we conducted a review of the literature on patient involvement in HPE using a meta-narrative approach. The aim of the review was to synthesize how questions of patient involvement in HPE have been considered across various research traditions and over time. In this paper, we focus on three scholarly communities concerned with various interpretations of patient involvement in HPE-patient as teachers, real patients as standardized patients, and bedside learning. Focus on these three research communities served as a way to draw out various meta-narratives in which patients are thought of in particular ways, specific rationales for involvement are offered, and different research traditions are put to use in the field. Attending to the intersections between these meta-narratives, we focus on the potentially incommensurate ways in which "active" patient engagement is considered within the broader field and the possible implications. We end by reflecting on these tensions and what they might mean for the future of patient involvement, specifically patient involvement as part of future iterations of competency based education.

Keywords: Competency based medical education; Medical education; Meta-narrative; Patient and public involvement; Patient engagement.

대표성의 딜레마: 보건전문직교육의 환자참여(Acad Med, 2018)
Dilemmas of Representation: Patient Engagement in Health Professions Education
Paula Rowland, OT Reg (Ont), PhD, and Arno K. Kumagai, MD



의료 전문가에 대한 교육은 환자가 존재하지 않으면 이루어질 수 없습니다. 환자를 병상에서 학습의 대상으로 삼거나1 교실이나 강의실에서 신체 검사 결과 또는 임상 "사례"의 흥미로운 측면을 설명하기 위해 환자를 활용하는 방식으로 오랫동안 이러한 진리가 유지되어 왔습니다. 최근에는 보건의료 전문직 교육에 환자를 참여시키는 다른 방식이 인기를 얻고 있습니다.2,3 Regan de Bere와 Nunn4이 새로운 교육학이라고 부르는 [보건의료 전문직 교육에서의 환자 참여]는 현재 또는 과거 환자가 교육 연속체의 모든 단계에서 공식적인 교육을 설계하고 전달하는 데 적극적인 주체로서 참여해야 한다는 요구를 반영합니다. 여기에는 환자가 커리큘럼 계획 및 전달, 학습자 평가에 참여하고 입학 절차 및 채용 관행에서 의사 결정권을 가진 대표자로 참여하는 것이 포함됩니다. 이러한 형태의 [참여의 근간이 되는 근거]는 환자의 관점을 통합하면 환자 중심의 학습 경험에 기여하고 더 자비롭고 인본주의적인 교육생이 될 수 있다는 것입니다. 교육 사례로서의 환자, 이야기꾼으로서의 환자,5 건강 멘토로서의 환자,6 의사 결정자로서의 환자 등 다양한 형태의 환자 참여에는 각각 고유한 문헌, 근거, 효능에 대한 주장, 평가에 대한 관심사가 있습니다.4,6-9 이러한 다양한 환자 참여 방식에는 잠재적인 차이가 있지만, [환자 대표성의 딜레마]라는 공통 관심사를 공유합니다. 
The education of health professionals cannot be undertaken without the existence of patients. Long has this truism held, most often described in the construction of patients as objects of learning at the bedside1 or the use of patients in classrooms or lecture halls to demonstrate physical examination findings or interesting aspects of a clinical “case.” More recently, a different wave of patient engagement in health professions education has gained popularity.2,3 In what Regan de Bere and Nunn4 call a new pedagogy, patient engagement in health professions education reflects a demand for current or former patients to be involved as active agents in the design and delivery of formal instruction at all stages of the educational continuum. This includes having patients participating in curriculum planning and delivery, learner assessment, and as representatives with decision-making power in admission processes and hiring practices. The rationale underlying most of these forms of engagement is that incorporating patients’ perspectives will contribute to learning experiences that are more patient centered and will result in trainees who are more compassionate and humanistic. Each of the different forms of patient engagement—such as patients as teaching cases, as narrators,5 as health mentors,6 and as decision makers—has its own body of literature, rationale, argument of efficacy, and concern about evaluation.4,6–9 Despite the potential differences between these various practices of patient engagement, they each share a common concern: the dilemma of patient representation.

환자 대표성의 딜레마는 흔히 다음과 같은 질문에 비추어 설명됩니다:

  • 환자 참여 프로그램에 의해 선택되는 환자들의 목소리가 현대 사회의 복잡한 문화적, 사회적, 경제적 복합성을 대표할 만큼 충분히 다양할까요?

그 대답은 '아니오'라는 우려가 커지고 있습니다. 저자들은 환자 참여 프로그램이 백인, 부유층, 노년층에 집중되는 경향을 비판해 왔습니다.10,11 그 결과, 선의의 환자 참여 프로그램이 의도하지 않은 결과를 초래할 위험이 있다는 우려가 널리 퍼져 있습니다.

  • 이러한 프로그램이 일부 인구통계학적 그룹만을 대상으로 하는 경우, 특권을 누리는 소수의 관심사와 우선순위가 모든 사람의 필요를 반영하는 것으로 간주될 위험이 있습니다.
  • 이러한 상황은 일반적인 모집 노력을 통해 도달하지 못한 환자들의 목소리를 침묵시키는 효과를 가져올 수 있습니다.
  • 이러한 환자 참여 프로그램은 교육자와 의사 결정권자가 더 강력한 사람들의 우려를 들을 가능성이 높기 때문에 의도치 않게 의료 분야의 권력과 특권 구조를 재생산할 수 있습니다.12
  • 또한, 제한된 대표성을 통해 많은 그룹을 배제함으로써 환자 참여 활동은 소외된 관점을 더욱 위임화하여 의료 수련의들의 마음속에 고정관념을 강화할 수 있으며, 이는 의료 경력 내내 변하지 않을 수 있습니다.11

대표성에 대한 이러한 비판은 종종 환자 참여의 기술적 문제, 즉 접근하기 어려운 커뮤니티에 어떻게 도달하여 환자 참여 프로그램에서 그들을 대표할 수 있는가 하는 것에 초점을 맞출 수 있습니다.
The dilemma of patient representation is often described in light of a pervading question:

  • Are the voices of the patients being selected by patient engagement programs sufficiently diverse to represent the complex cultural, social, and economic complexions of contemporary society?

There is a growing worry that the answer is no. Authors have critiqued the tendency of patient engagement programs to be populated by white, affluent, older adults.10,11 As a result, there is widely held concern that well-intentioned patient engagement programs risk creating unintended effects. If such programs represent only a select demographic group, there is a risk that the concerns and priorities of only a privileged few will be taken to reflect the needs of all. This situation may have the effect of silencing the voices of those patients who are not reached through standard recruitment efforts. In doing so, these patient engagement programs may inadvertently reproduce structures of power and privilege in health care, as the concerns of the more powerful are most likely to be heard by educators and decision makers.12 Furthermore, by excluding many groups through limited representation, patient engagement activities may further delegitimize marginalized perspectives, potentially reinforcing stereotypes in the minds of medical trainees that may persist unchanged throughout their medical careers.11 Often, these critiques of representation focus on technical problems of patient engagement—for instance, how does one reach the hard-to-reach communities and represent them in patient engagement programs?

이 관점에서는 이러한 대표성의 딜레마에 대해 자세히 설명합니다. 이를 통해 환자 모집의 기술적 측면에 대한 우려를 인정하면서도 대표성 딜레마 자체의 본질에 대해서도 의문을 제기합니다. 사회학 및 정치학 문헌과 개별 환자, 가족, 환자 그룹과 협력하여 환자 참여 프로그램을 만든 경험을 바탕으로, 우리는 대표성의 딜레마의 측면이 [대표성을 어떤 개념으로 이해하가]에 기반을 두고 있다고 제안합니다. 또한 환자 참여가 어떻게 구성될 수 있는지, 이러한 구성에서 무엇이 대표되는지, 그리고 가장 중요한 것은 환자 참여가 보건 전문직 교육에 포함될 수 있는 여러 가지 이유에 대한 질문을 탐구합니다. 이 에세이의 전반적인 목표는 새로운 통찰력을 제공하고 환자 참여 노력에 영향을 미치는 기본 개념에 대한 추가 대화를 유도하는 것입니다. 
In this Perspective, we elaborate on these dilemmas of representation. We do so by acknowledging the concerns with the technical aspects of patient recruitment, but we also question the nature of the dilemma of representation itself. Drawing on literature in sociology and political science, as well as our own experiences in creating patient engagement programs in collaboration with individual patients, families, and patient groups, we suggest that aspects of the dilemma of representation are anchored in how we understand representation as a concept. We also explore questions about how patient engagement might be constructed, what is being represented in these constructions—and most important—the many reasons why patient engagement might be incorporated within health professions education at all. The overall aim of this essay is to offer emerging insights and to invite further conversation about fundamental concepts informing patient engagement efforts.

대표성의 딜레마
Dilemmas of Representation

딜레마 1: 환자 모집 방식이 참여 대상에 영향을 미침
Dilemma 1: How patients are recruited influences who participates

환자 대표성에 대한 비판은 종종 프로그램에 참여하기 위해 환자를 모집하는 방식과 프로그램 자체의 구성 방식에 근거를 두고 있습니다. 여기서는 의료 시스템이 환자들에게 불편한 시간에, 딱딱한 공간에서, 특정 관계 방식으로 사회화된 사람들과 함께 이벤트를 개최하거나 회의를 진행하는 프로그램을 만드는 많은 [환자 참여 프로그램의 조직 중심적 성격]에 이의를 제기합니다. 이러한 형태의 비판의 근간이 되는 주장은 조직 자체가 참여 관행과 관련된 부담(소요 시간, 비용, 노력 등)을 만들고 있으며, 이러한 부담이 다양한 환자에게 균등하게 분배되지 않을 수 있다는 것입니다. 이러한 참여 문제를 잘못되거나 부적절한 조직 기법의 일부로 간주할 때, 보다 포괄적인 설계와 참여 활동을 위한 보다 유연한 시간 등 [아웃리치]를 통한 해결책이 도출됩니다. 아웃리치에 대한 이러한 강조는 '모집학'13, 즉 '도달하기 어려운 사람'에게 다가가기 위한 점점 더 많은 전략을 창출하는 과학을 탄생시켰습니다."14 
Critiques of patient representation are frequently anchored in the ways in which patients are recruited to participate in programs and how the programs themselves are constructed. Here, we challenge the organization-centric nature of many patient engagement programs, where health care systems create programs that stage events or hold meetings at their sites, at inconvenient times for the patients, in imposing rooms, with hosts of people that are socialized into particular ways of relating. The argument underlying this form of critique is that the organizations themselves are creating burdens associated with the practices of engagement (including time spent, costs incurred, and effort expended) and that these burdens may not be distributed equally across a range of patients. In framing these problems of engagement as part of faulty or inadequate organizational techniques, the solutions generated become ones of outreach: more inclusive designs and more flexible times for engagement activities. This emphasis on outreach has given birth to a science of “recruitmentology”13—that is, creating more and more strategies for attempting to reach the “hard-to-reach.”14

보건 전문직 교육에서 이러한 모집 전략에 주목하는 중요한 연구가 수행되었습니다.4 추가 연구는 [잠재적 참여자]를 [참여 운동의 목표]와 일치시키려고 노력합니다. [신체 검사 기술을 가르치려는 교육 활동]은 궁극적으로 사회적으로 고착화된 형태의 [낙인을 없애기 위해 환자들이 자신의 경험을 공유]하도록 유도하는 운동과는 다른 형태의 환자 참여가 필요할 수 있다는 것은 당연한 일입니다. 윌리엄슨15이 제시한 환자 "유형"의 유형학은 교육자가 특정 종류의 참여 활동에 '적합한' 환자를 찾을 수 있는 방법을 제시합니다. 특히 윌리엄슨의 유형학15은 개인, 공통의 경험을 통해 결속된 환자 그룹 또는 특정 옹호 목표를 중심으로 활발하게 구성된 환자 그룹이 보유할 수 있는 다양한 형태의 지식에 주목합니다.
Important work has been done that attends to these strategies of recruitment in health professions education.4 Further work seeks to match potential participants to the aims of the engagement exercise. It stands to reason that an education activity that seeks to teach physical examination skills might require a different form of patient participation than an exercise that invites patients to share their experiences as a way to, ultimately, disrupt societally entrenched forms of stigma. Typologies of patient “types”—such as that offered by Williamson15—suggest ways that educators might find the “right” patient for a particular kind of engagement activity. Specifically, Williamson’s15 typology draws attention to different forms of knowledge that may be held by an individual, by patient groups that are united through common experiences, or by patient groups that are actively constructed around particular advocacy aims.

요약하면, 환자 모집의 미묘한 관행은 완전하고 의미 있는 참여를 보장하기 위해 누가, 어떤 목적으로, 어떻게 초대를 제공할 수 있는지에 따라 달라집니다. 그러나 교육자의 최선의 노력과 환자를 프로그램에 '매칭'하기 위한 신중한 시도에도 불구하고 이러한 참여 연습에 참여하는 개별 환자 지원자는 [교육생, 다른 교육자 및 프로그램 평가자에게 신뢰성을 확보]하는 데 여전히 어려움을 겪을 수 있습니다. 따라서 대표성의 딜레마는 이러한 모집 "모범 사례"를 넘어서도 지속됩니다.
In summary, nuanced practices of patient recruitment attend to who is being invited, for what purpose, and how such invitations might be offered to ensure full and meaningful participation. However, it is possible that despite the best efforts of educators and the most careful attempts at “matching” patients to programs, individual patient volunteers participating in these engagement exercises may still have difficulty establishing their credibility with trainees, other educators, and program evaluators. Thus, the dilemma of representation persists beyond these recruitment “best practices.”

딜레마 2: 여러 형태의 대표성 중에서 선택하기
Dilemma 2: Choosing among multiple forms of representation

이 섹션에서는 환자 모집 관행에 관한 실용적인 고려 사항을 제쳐두고 보다 이론적인 관점에서 환자 참여를 살펴보고, 다양한 환자 참여 프로그램에서 암묵적 및 명시적으로 대표성이 어떻게 이해되는지 탐구합니다. 이러한 이론적 탐구는 궁극적인 목표, 즉 어떻게 하면 보건 전문직 교육에서 환자 참여를 지속적으로 잘 이끌어낼 수 있을지를 밝히는 데 필요합니다. 현재 환자 참여 프로그램에서 운영되고 있는 대표성의 본질에 대한 가정을 살펴보고, 민주적, 통계적, 상징적 대표성의 세 가지 유형과 환자 참여의 맥락에서 가능한 적용에 초점을 맞춥니다. 각 유형에는 고유한 특징, 목표 및 방법이 있으며, 이는 의료 및 보건 교육 관련 활동에 포함할 '올바른' 환자 유형에 대한 이해에 기여할 수 있지만 복잡하게 만들 수도 있습니다.
In this section, we set aside practical considerations regarding practices of patient recruitment to look at patient engagement from a more theoretical perspective, to explore how representation is implicitly and explicitly understood to work in various patient engagement programs. This theoretical exploration is necessary to shed light on the ultimate aim: How might we continue to do patient engagement well in health professions education? We examine assumptions about the nature of representation that are currently operating in patient engagement programs, and focus on three different types of representation and their possible applications in the context of patient engagement: democratic, statistical, and symbolic. Each has its own features, goals, and methods that may contribute to, but may also complicate, the understanding of the “right” type of patient to include in health care and health-education-related activities.

민주적 대표성.
Democratic representation.

환자 참여 프로그램 내에서 다양한 이해관계자가 암묵적으로 갖고 있는 대표성의 이미지가 바로 민주적 대표성입니다. 환자 참여 프로그램이 민주주의의 개념에 기반할 때, 우리는 권리, 책임, 권력 공유라는 민주주의 원칙에 뿌리를 둔 참여의 근거를 듣게 됩니다. 예를 들어, 환자가 의료 전문직 교육의 궁극적인 이해관계자이므로 무엇을 누구에게 가르칠지 결정할 권리가 있기 때문에 환자 참여가 이루어져야 한다는 개념은 환자와 일반 대중의 권리에 기반을 둔 근거입니다. 이러한 근거는 참여에 대한 민주적 이해에 적합합니다.
Often, it is a democratic image of representation that is implicitly held by the various stakeholders within patient engagement programs. When patient engagement programs are predicated on notions of democracy, we hear rationales for engagement rooted in democratic principles of rights, responsibilities, and power sharing. For example, the notion that patient engagement should be done because patients are the ultimate stakeholders in health professions education—and therefore should have the right to influence what should be taught and by whom—is a rationale anchored in the rights of patients and members of the public. This rationale lends itself to a democratic understanding of engagement.

민주주의 사회에서 대표성의 원칙은 공천과 선거의 관행을 통해 충족됩니다. 따라서 이러한 종류의 프로그램에서 작동하는 암묵적 대표 모델은 특정 프로세스를 통해 달성되는 대표성을 의미합니다. 이러한 지명 및 선출 과정을 통해 개인은 다른 사람을 대신하여 발언할 권리를 부여받습니다.16 그러나 환자 참여 프로그램은 "대표자"를 선정할 때 이러한 과정을 복제할 수 없습니다. 기밀 유지의 필요성과 여러 가지 물류 문제를 고려할 때, 집단이 아닌 범주형이라고 할 수 있는 그룹에서는 지명 및 선출 절차를 유지하는 것이 불가능합니다. 즉, [의료 서비스를 필요로 하는 사람]은 모호하지 않고 일시적으로 '환자'로 분류될 수 있지만, [의료 서비스를 필요로 하는 개인들의 집단]은 본질적으로 집단주의 원칙에 따라 함께 조직된 것이 아닙니다.17 [조직화된 환자 그룹]이 있더라도 [전체 환자 그룹을 안정적으로 반영한다]고 할 수 있는 [식별 가능한 환자 집단]을 찾기는 어렵습니다. 그 결과 환자 참여 프로그램은 민주적 대표성이 약한 형태로 운영되는 것으로 추정될 수 있습니다. 
In democratic societies, principles of representation are met through practices of nomination and election. Thus, the implicit model of representation at play in these kinds of programs implies representation achieved through particular processes. It is through these processes of nomination and election that an individual is granted the right to speak on behalf of others.16 However, patient engagement programs cannot replicate this process in the selection of “representatives.” Given the need for confidentiality as well as a whole host of logistical challenges, processes of nomination and election are impossible to sustain in groups that can best be thought of as categorical, not collective. That is, a person requiring health care may be unambiguously and temporarily categorized as a “patient,” but a group of individuals who have required health care are not intrinsically organized together according to principles of collectivism.17 Even in the presence of organized patient groups, it is difficult to locate an identifiable collective of patients that could be said to reliably reflect the entire patient group. The result is that patient engagement programs may be presumed to have a weak form of democratic representation at play.

통계적 대표성.
Statistical representation.

환자 참여 프로그램 내에서 작동하는 또 다른 형태의 대표성은 통계적 대표성이라는 개념입니다. 이 형태는 증거 기반 진료 분야에 친숙하며 대규모 집단을 대상으로 한 설문조사를 통해 생성할 수 있는 지식에 의존합니다. 이는 설명적 대표성의 한 형태이며 대표할 대상의 '평균'과 유사한 것으로 간주될 수 있는 정도를 결정합니다.18 여기서 충분히 정교한 데이터 수집 도구와 충분히 큰 표본 크기를 통해 환자가 의료 시스템과 의료 전문가 교육자에게 무엇을 원하고 필요로 하는지에 대한 진정한 이해에 어느 정도 근접할 수 있다는 희망이 있습니다.
Another form of representation operating within patient engagement programs is the notion of statistical representation. This form is familiar to the field of evidence-based practice and relies on knowledge that can be generated through surveys of large groups. This is a form of descriptive representation and determines the degree to which a representative could be considered similar to the “average” of that to be represented.18 Here, the hope is that through sufficiently sophisticated data collection tools and large-enough sample sizes, we can approximate some true understanding of what patients want and need from their health care systems and from health professions educators.

그러나 이러한 형태의 대표성은 환자 참여 프로그램 내에서 다른 종류의 개념적 문제에 부딪힙니다. 통계적 대표성의 개념을 모집 관행(어떤 프로그램에 누구를 참여하도록 초대해야 하는가)으로 전환하면 다양성에 대한 까다로운 질문이 등장합니다. [어떤 종류의 다양성]이 [어떤 종류의 운동]에 중요할까요? 인종/민족 측면의 다양성? 성별? 사회경제적 지위? 질병 유형? 나이? 교육 수준? 참여하고자 하는 개인이 환자 참여자 풀의 대표성을 더하는 것으로 간주되지 않으면 참여가 배제되거나 무효화될 위험이 있습니다.11 
However, this form of representation runs into a different kind of conceptual trouble within patient engagement programs. When notions of statistical representation are translated into recruitment practices—whom we should invite to participate in what programs—thorny questions of diversity emerge. Just what kind of diversity matters for what kind of exercise? Diversity in terms of race/ethnicity? Gender? Socioeconomic status? Disease type? Age? Educational level? There is a risk that individuals who wish to participate will be excluded or invalidated if they are not considered to add to the representative complexion of the patient participant pool.11

대표성에 대한 이러한 암묵적인 개념, 즉 [한 개인이 어떻게든 대표할 대상의 '평균'을 대표할 수 있다는 생각]은 환자 참여 프로그램 내에서 또 다른 딜레마에 직면하게 됩니다. Learmonth 등19은 이를 환자 참여의 '캐치-22'라고 부릅니다: 환자 참여자는 참여 환자 그룹의 "평균" 경험을 대표할 수 있을 것이라는 암묵적인 가정 하에 프로그램에 초대됩니다. 그러나 참여 연습에 효과적으로 참여하려면 일반적으로 환자 참여자는 활동에 참여하고, 연습의 목표를 이해하고, 자신의 역할과 관련된 다양한 복잡성을 헤쳐 나갈 수 있는 [특정 기술]을 보유하고 있어야 합니다. 효과적이기 위해 필요한 기술을 보여주지 못하면 더 이상 "평균"으로 간주되지 않을 위험이 있습니다. 따라서 효과적이라는 것은 더 이상 설명적인 의미에서 대표성이 없다는 것을 의미합니다.
This implicit notion of representation—that a person can somehow represent the “average” of that to be represented—confronts another dilemma within patient engagement programs. Learmonth et al19 refer to this as the “Catch-22” of patient engagement: A patient participant is invited into a program with the implicit assumption that he or she will be able to represent the “average” experience for the involved patient group. However, to participate effectively in the engagement exercise, the patient participant must usually possess particular skills, not the least of which includes being able to participate in the activity, to understand the aims of the exercise, and to navigate the various complexities of his or her role. Upon demonstrating the skills required to be effective, he or she runs the risk of no longer being considered “average.” Thus, to be effective is to no longer be representative in the descriptive sense.

요컨대, 민주주의 원칙과 통계적 개념에 뿌리를 둔 대표성의 개념화는 각각 환자 참여의 실천에서 고유한 문제와 딜레마를 야기합니다. 그러나 고려할 수 있는 또 다른 암묵적인 대표의 틀이 있습니다. 이 세 번째 프레임은 상징적 대표성으로 간주하는 것이 가장 좋습니다.16
In short, conceptualizations of representation rooted in democratic principles and statistical notions each create their own problems and dilemmas in the practice of patient engagement. However, there is another, implicit frame of representation that is possible to consider. This third frame is best considered as symbolic representation.16

상징적 대표성.
Symbolic representation.

[민주적 대표성]은 대표자를 지정하는 데 사용되는 공식적인 절차로 이해될 수 있고, [설명적 또는 통계적 대표성]은 대표성되는 '평균적인' 대상이나 개인의 감각을 생성하는 데 사용되는 도구로 이해될 수 있지만, [상징적 대표성]예술이라는 은유를 통해 가장 잘 이해됩니다.16 플라톤의 미메시스 개념에 반영된 예술은 항상 무언가를 대표성하고 이전에 부재했던 것을 물리적 존재로 가져오는 기능을 해왔습니다. 그러나 특히 현대 미술에서는 이러한 대표성에 충실해야 한다는 가정이 없습니다. 추상 미술은 여전히 예술입니다. 대표되는 것은 느낌, 인상, 경험, 개념 또는 주관적인 믿음입니다. 여기에 상징적 대표성과 다른 한편으로는 환자 참여 프로그램에 암묵적으로 동기를 부여하는 것으로 보이는 다른 대표성 개념화(민주적, 통계적) 사이의 실질적인 차이가 있습니다. 예술은 관객에게 감동, 변화 또는 다른 영감을 주기 위해 대상을 통계적 또는 민주적으로, 심지어 사실적으로 대표성할 필요가 없습니다. 이러한 특성 때문에 예술이 대표성하고자 하는 것은 [민주적, 통계적, 모방적 규범에 대한 충실성]보다는 [느낌이나 경험의 진정성]입니다. [상징적 대표성]에서 대표성되는 것은 독특하고 개인적인 관점입니다. 한 환자가 들려주는 이야기가 모든 환자의 모든 이야기의 '전형'이거나 '평균'이라고 주장하지 않으며, 각 이야기는 질병과 관련된 다양한 인간 경험의 스펙트럼에서 한 환자의 한 가지 이야기를 나타냅니다. 
Whereas democratic representation may be understood in terms of formal processes used to designate representatives, and descriptive, or statistical, representation may be understood in terms of the tools used to generate a sense of the “average” object or individual being represented, symbolic representation is best understood through the metaphor of art.16 Echoed in the Platonic notion of mimesis, art has always had the function of representing something, of bringing something that was previously absent into physical presence. However, especially in modern art, there is no associated assumption of fidelity to that representation. Abstract art is still art. What is being represented is instead a feeling, an impression, an experience, a concept, or a subjective belief. Herein lies the substantive difference between symbolic representation, on the one hand, and the other conceptualizations of representation (democratic, statistical) that seem to be implicitly fueling patient engagement programs on the other. Art does not need to be statistically or democratically—or even realistically—representative of its object for the viewer to be moved, changed, or otherwise inspired. Because of this quality, it is the authenticity of feeling or experience that is to be represented, rather than fidelity to some democratic, statistical, or mimetic norm. What is represented in symbolic representation is a unique, individual perspective. No attempt is made to argue that a story told by a patient is “typical” or “average” of all stories by all patients; rather, each narrative represents one story from one patient on a spectrum of human experiences related to illness.

상징적 대표성 개념을 채택하는 교육자는 내러티브 자체의 [일반화 가능성]을 주장하지 않고, 환자의 내러티브가 [비판적 사고, 휴머니즘, 연민, 공감에 inform하는 방식]에 주의를 기울여야 합니다.20 대신 내러티브의 사용은 특정 질병에 수반될 수 있는 인간 경험의 풍부한 태피스트리, 즉 존재의 다양성과 가능성에 대해 교육생을 민감하게 하는 한 가지 방법이 될 수 있습니다. 이러한 형태의 상징적 대표성은 [내러티브 의학]의 다양한 반복에 적합합니다. 그러나 이러한 유형의 대표성이 환자 참여의 다른 대표성, 특히 커리큘럼 설계, 평가 및/또는 입학에서 고부담 의사 결정이 필요한 참여 형태에 어떻게 영향을 미칠 수 있는지는 명확하지 않습니다.
Educators who take up symbolic notions of representation are careful to draw attention to the ways in which patients’ narratives inform critical thinking, humanism, compassion, and empathy without making any claims about the generalizability of the narrative itself.20 Instead, the use of narrative becomes one way to sensitize trainees to the rich tapestry of human experience—the varieties and possibilities of being—that might accompany a particular illness. This form of symbolic representation lends itself well to various iterations of narrative medicine. However, it is less clear how this kind of representation might inform other manifestations of patient engagement—in particular, those forms of engagement that require high-stakes decision making in curriculum design, assessment, and/or admissions.

명확성의 필요성.
The need for clarity.

우리는 민주적, 통계적, 상징적 대표성의 세 가지 형태가 다양한 환자 참여 프로그램 내에서 공존한다고 주장합니다. 우리는 한 가지 형태의 대표성이 다른 형태보다 우월하다고 주장하지 않습니다. 실제로 각 형태에는 고유한 개념적, 현실적 한계가 있습니다. 그러나 이러한 다양한 대표성 방식은 서로 다른 모집 관행을 의미하며, 프로그램 성공 여부를 판단하는 기준도 달라질 수 있다고 가정합니다. 어떤 형태의 대표성이 어떤 목적으로 사용되는지 명확히 파악하면 환자 참여 프로그램을 설계, 실행 및 평가하는 데 의미 있는 정보를 얻을 수 있습니다. 
We argue that these three forms of representation—democratic, statistical, and symbolic—coexist within various patient engagement programs. We do not suggest superiority of one form of representation over the other. Indeed, each form has its own conceptual and practical limits. However, we do posit that these different forms of representation imply different practices of recruitment and invite different criteria for determining programmatic success. Generating clarity about what forms of representation are at play—and to what end—will meaningfully inform how patient engagement might be designed, enacted, and evaluated.

환자 참여 프로그램 설계: 교육자와 환자를 위한 시사점
Patient Engagement Program Design: Implications for Educators and Patients

이제 교육자의 실질적인 관심사로 돌아가서, 앞서 논의한 대표성의 개념화는 환자 참여 프로그램과 관련된 필수적인 의사 결정에 대한 추가적인 인사이트를 제공합니다. 윌리엄슨의 유형론은 다양한 형태의 환자 지식과 환자 참여 활동의 요구 사항 간의 매치메이킹 프로세스를 조언합니다. 환자 참여 프로그램에서 암시적 및 명시적 형태의 대표성에 주의를 기울이면 교육자는 선언된 목표, 모집 관행, 평가 문제 사이의 잠재적 불일치민감하게 반응할 수 있습니다. 
Returning now to the practical concerns of educators, the preceding discussion on conceptualizations of representation offers additional insights into the requisite decision making associated with patient engagement programs. Williamson’s15 typology advises a matchmaking process between various forms of patient knowledge and the requirements of the patient engagement activity. Attending to the implicit and explicit forms of representation at play within patient engagement programs sensitizes educators to potential misalignments between declared aims, practices of recruitment, and questions of evaluation.

다음 두 가지 시나리오를 예로 들어 보겠습니다. 환자 참여 활동 중 하나는 한 사람이 교육생 그룹에게 자신의 질병에 대한 [이야기를 들려주는 것]으로 구성될 수 있습니다. 이 내러티브의 내용이 교육생에게 의미가 있고, 따라서 학습 요구 사항과 관련이 있을 것이라는 가정이 전제됩니다. 이 시나리오에서 환자 대표자환자 경험을 반영하는 것으로 간주되는 무언가를 구현합니다. 여기서 사용되는 대표성의 형태는 주로 상징적입니다. 교육자는 다양한 경험을 접할 수 있는 방법으로 다양한 환자와 환자 내러티브를 초대하는 데 관심을 가질 수 있습니다. 다양성은 그 자체로 학습 연습에서 흥미롭고 중요한 부분입니다. 다양한 환자 참여자 간의 합의가 반드시 필요한 것은 아니며, 그러한 합의가 반드시 바람직한 것도 아닙니다. 
Take, for example, the two following scenarios. One patient engagement activity could consist of a person who tells his or her illness narrative to a group of trainees. The assumption is that something about this narrative will be meaningful for the trainees and, therefore, relevant to their learning needs. In this scenario, the patient representative is embodying something that is taken to be reflective of a patient experience. Here, the form of representation at play is primarily symbolic. The educator might be concerned with inviting a variety of patients and patient narratives as a way to engage with a range of experiences. The variety is in and of itself an interesting and important part of the learning exercise. Consensus across the various patient participants is not required, nor is such consensus necessarily desirable.

이와 대조적인 시나리오로, 커리큘럼 개발 위원회에 특정 환자 그룹(예: 자폐 아동의 부모)이 포함되어 있고, 위원회의 환자 대표가 어떤 식으로든 [자신의 그룹의 우선순위가 커리큘럼에 반영될 수 있도록 옹호하는 참여 활동]을 상상해 보십시오. 이 시나리오에서 교육자는 환자 그룹에 참여하여 얻은 대표성, 특정 그룹에 대한 정보를 수집하는 확립된 방법, 특정 환자 경험에 대한 상황적, 경험적, 암묵적 지식 등 다양한 형태의 대표성으로부터 학습하는 데 관심을 가질 수 있습니다. 교육자는 암묵적으로 민주적, 통계적, 상징적 대표의 세 가지 형태를 모두 찾고 있을 수 있습니다. 또한 한 명의 환자 참여자가 이러한 모든 형태의 지식을 한꺼번에 대표성하는 것은 불가능하거나 바람직하지 않을 수도 있습니다. 따라서 교육자는 의사 결정의 어느 단계에 어떤 형태의 지식이 필요한지 고려하는 것이 중요합니다. 단일하고 동질적인 환자의 목소리를 암시하는 현재의 환자 참여 담론과 달리,21 교육자는 다양한 목소리, 즉 바흐친의 대표성을 빌리자면 풍부한 '다성음'22에 대비해야 하며, 모든 같은 의견을 가지고 있지는 않을 것입니다. [환자 참여의 바람직한 목표]가 [중요한 사안에 대한 충분한 토론을 보장하는 것]이라면, 반대 의견은 환영할 만한 중요한 부분입니다. 그러나 교육자는 의견 불일치를 예상하고 상충되는 조언을 어떻게 조정할 것인지 투명하게 고려해야 합니다. 
In a contrasting scenario, imagine an engagement activity where a curriculum development committee includes someone from a particular patient group (e.g., parents of a child with autism), with the understanding that the patient representative on the committee will in some way advocate that the priorities of his or her group be reflected in the curriculum. In this scenario, the educator might be concerned with learning from multiple forms of representation: representation that is achieved through participation in patient groups; established ways of collecting information about particular groups; and situated, experiential, and possibly implicit knowledge about a particular patient experience. The educator may implicitly be looking for all three forms of representation: democratic, statistical, and symbolic. Further, it may not be possible—or even desirable—for one patient participant to represent all of these forms of knowledge at once. It becomes important for the educator to consider which form of knowledge is required to inform which stage of decision making. In contrast to current discourses of patient engagement that imply a single, homogeneous patient voice,21 educators must also be prepared for a multitude of voices—a rich “polyphonia,” in Bakhtin’s words22—not all of whom will agree. If the desired aim of patient engagement is to ensure a fulsome discussion of an important issue, such dissent is a welcome and important part of the process. However, it stands to reason that educators should anticipate disagreement and transparently consider how they will reconcile conflicting advice.

[주장되는 지식의 형태]와 이러한 [지식 주장을 알리는 대표성 관행] 간의 일치에 대한 이러한 강조는 프로그램 기획자와 환자 참여자의 공통 관심사, 즉 환자 참여자가 신뢰할 수 있고 합법적인 지식 출처로 인식되는 방법을 조명합니다. 교육자와 환자 참여자 모두 무엇을 대표하도록 요청받고 있는지 알고 있어야 합니다: 경험, 희망, 관심사, 필요, 선호도는 모두 서로 다른 대표성의 대상object입니다. 또한 이러한 [대표성의 대상object]은 항상 [대표성의 일부 주체subject], 즉 [대표되는 사람]과 관련되어 있습니다.23 
This emphasis on the alignment between forms of knowledge being claimed and the practices of representation that inform those knowledge claims sheds light on a shared concern of program planners and patient participants: how patient participants are to be perceived as credible, legitimate sources of knowledge. Educators and patient participants both need to be aware of what is being asked to be represented: Experiences, hopes, interests, needs, and preferences are all quite different objects of representation. Further, these objects of representation are always in reference to some subject of representation—the person or people being represented.23

바로 이 지점에서 환자 참여 프로그램이 다소 지저분해질 가능성이 있습니다. 환자 참여자가 자신을 대표하도록 요청받는다는 가정 하에 있는 경우, 해당 참여자는 자신의 경험에 대해 이야기해야 합니다. 이를 위해 자신의 경험을 전달할 때 신뢰할 수 있고 효과적인 것으로 간주되는 다양한 방법이 있습니다. 그러나 환자 참여 활동이 암묵적으로 민주적 대표 원칙에 따라 설계된 경우(예: 환자 대표를 의사 결정 과정에 참여시켜 의사 결정이 보다 일반적으로 환자 중심으로 이루어지도록 영향을 미치기 위해 환자 대표를 참여시키는 경우), 환자 참여자는 불편한 상황에 처하게 될 수 있습니다. 어떻게 하면 환자 대표를 환자 경험 전반에 대한 신뢰할 수 있는 지식의 출처로 제시할 수 있을까요?
This is where there is the potential for patient engagement programs to get somewhat messy. If the patient participant is under the assumption that he or she is being asked to represent himself or herself, that participant needs to speak to his or her experience. To this end, there are different ways to be considered credible and effective in relaying one’s experience. However, if the patient engagement exercise is implicitly designed using democratic principles of representation—for example, engaging a patient representative to participate in decision-making processes to somehow influence decisions to be more generally patient centered—the patient participants may find themselves in an uncomfortable misalignment. How do they present themselves as credible sources of knowledge about patients’ experiences more generally?

이 조언은 점점 더 많은 모집 기법을 통해 환자 참여의 충실도를 높이려는 다른 연구 노력과 차별화됩니다. 윌리엄슨15 등이 제안한 중매matchmaking에 관심을 기울이는 것 외에도, 다양한 형태의 대표성을 어떻게 초대하고, 제시하고, 옹호하고, 정당성을 부여하는지에 대해 비판적인 시선을 돌릴 것을 제안합니다. 이를 통해 대표성의 딜레마에 대한 우리의 이해가 더욱 정교해집니다. '적합한 환자'를 찾는 방법을 고민하는 것을 넘어, 특정 참여 목적에 맞추어 환자가 어떻게 '적합'하게 만들어지는지를  고려합니다. 이를 통해 우리는 왜 참여를 진행해야 하는지에 대한 중요한 질문을 던질 수 있습니다. 
This advice is distinct from other research efforts that try to improve the fidelity of patient engagement through more and more recruitment techniques. In addition to attending to the matchmaking suggested by Williamson15 and others, we suggest turning a critical gaze to how different forms of representation are invited, presented, defended, and given legitimacy. This elaborates our understanding of the dilemma of representation. Beyond thinking about how to find “the right patients,” we consider how patients are made to be “right” for a particular engagement purpose. In doing so, we are able to engage with the critical questions of why engagement might proceed at all.

결론적 생각: "왜"에 대한 강조
Concluding Thoughts: An Emphasis on “Why”

보건의료 전문직 교육에 대한 환자 참여는 교육 경험을 풍부하게 하는 동시에 우수성, 연민, 정의로움으로 진료하는 보건의료 전문가를 배출하는 데 도움이 되는 잠재적으로 강력한 수단입니다. 최상의 경우, 환자 참여는 중요한 문제에 대한 우리의 집단적 이해를 정교화하여 다양한 정체성, 희망, 우려를 보건의료 전문가 교육에서 "진정한 청문회"14를 통해 들을 수 있도록 보장할 수 있습니다. 이러한 의미에서 의료 교육에 환자를 참여시킴으로써, 의사와 다른 의료 전문가, 환자, 학습자 모두가, 미래 의료 전문가의 직업적 정체성과 임상 실습에 대한 인문학적 지향이 요구하는 역량공동-구축할 수 있습니다. 지금까지 환자 참여 프로그램의 설계 및 관리에 관여하는 교육자들은 특정 방식의 대표성 문제로 어려움을 겪어 왔습니다: 이러한 프로그램에 참여한 환자들이 의료계에서 일하면서 만나게 될 다양한 환자들을 충분히 대표할 수 있는가? 
Patient engagement in health professions education represents a potentially powerful means to enrich the educational experience while helping to produce health professionals who practice with excellence, compassion, and justice. At its best, patient engagement might elaborate our collective understanding of important issues, ensuring that a full range of identities, hopes, and concerns may gain a “genuine hearing14 in the education of health care professionals. In this sense, engagement of patients in medical education allows for a co-construction—between doctors and other health professionals, patients, and learners—of the professional identity of future health professionals and the capacity that a humanistic orientation to clinical practice requires. To date, educators involved with design and administration of patient engagement programs have been challenged with the problem of representation in a particular way: Do the patients involved in these programs sufficiently represent the diversity of patients one will encounter throughout one’s health care career?

이러한 관점에서 우리는 환자 참여의 맥락에서 대표성의 딜레마에 대한 다양한 사고 방식을 소개했습니다. 대표성을 민주적 또는 통계적 행위 뿐만 아니라 상징적 행위로 보는 것

  • '올바른 사람을 초대하는 것'에 대해 생각할 수 있게 해줄 뿐만 아니라
  • 어떻게 '올바른' 사람이 정의되는지에 대해 더 성찰할 것을 요구합니다.

[특정 환자 참여 활동]에 ['적합한' 환자]가 된다는 것은 [개인의 본질적인 특성]이 아니라 [무엇을, 어떤 목적으로, 어떤 청중에게 대표하는지]에 따라 달라집니다. 이러한 비판적 성찰은 개인의 관점과 삶의 경험이 신뢰할 수 있고 정당한 대표성으로 간주되는 방식과 환자와 환자의 이야기를 특정한 방식으로 대표하는 근본적인 동기에 대해 질문하도록 우리를 도전합니다. 
In this Perspective, we have introduced different ways of thinking about the dilemma of representation in the context of patient engagement. Viewing representation not just as a democratic or statistical exercise but also as a symbolic one

  • not only allows us to think about “inviting the right people”
  • but also requires us to be more reflexive about how the “right” people are defined.

To be the “right” patient for a specific patient engagement activity is not an intrinsic quality of an individual but, rather, is the function of the match between what is being represented, to what purpose, and to which audience. This critical reflection challenges us to question the ways in which individuals’ perspectives and life experiences are deemed as credible and legitimate representations and the possible underlying motives for representing patients and their stories in specific ways.

우리는 누구와 무엇을 대변할 것인가에 대한 질문에 몰두해 왔지만, 궁극적인 관심사는 애초에 왜 대표성을 시도하는가 하는 것입니다. 이전에는 왜라는 질문이 대부분 기술적인 측면에서 다루어졌습니다. 우리가 인정했듯이, 임상 기술을 가르치기 위한 참여 연습은 질병의 경험에 대해 이야기하거나 여러 가지 고착화된 형태의 낙인에 의문을 제기하기 위한 참여 경험과 분명히 다릅니다. 하지만 환자 참여를 잘하는 방법은 전적으로 기술적인 문제만은 아닙니다. 이는 또한 우리 사회가 어떤 사회인지, 우리가 집단적으로 어떤 사람이 되고자 하는지에 대한 깊은 윤리적 문제이기도 합니다. 이러한 대표성의 개념에 주의를 기울이고, 참여 운동의 의제를 설정할 기회를 가진 사람을 포함하여 우리의 관행에 대해 성찰하는 것은 모두 교육자로서 우리의 도덕적, 윤리적 의무의 일부입니다.
While we have occupied ourselves with questions of who and what is being represented, the ultimate concern is why representation is attempted at all. Previously, the question of why has most often been dealt with in a technical sense. As we have acknowledged, an engagement exercise intended to teach clinical skills is certainly different from an engagement experience intended to relate the experience of illness or to bring into question various entrenched forms of stigma. Yet, how to do patient engagement well is not entirely a technical question. It is also a deeply ethical one, one that is wrapped up in who we are as a society and who we collectively want to be. Attending to these notions of representation and being reflexive about our practices—including who has the opportunity to set the agenda for the engagement exercise—are all part of our moral and ethical obligation as educators.


Acad Med. 2018 Jun;93(6):869-873. doi: 10.1097/ACM.0000000000001971.

Dilemmas of Representation: Patient Engagement in Health Professions Education

Affiliations collapse

1P. Rowland is assistant professor and scientist, Department of Occupational Science and Occupational Therapy, University of Toronto (UT) Faculty of Medicine, Toronto, Ontario, Canada. She is also cross-appointed researcher, Wilson Centre, UT, Toronto, Ontario, Canada. A.K. Kumagai is vice chair for education, Department of Medicine, University of Toronto (UT) Faculty of Medicine, and F.M. Hill Chair in Humanism Education, Women's College Hospital and UT, Toronto, Ontario, Canada. He is also cross-appointed researcher, Wilson Centre, UT, Toronto, Ontario, Canada.

PMID: 29068822

DOI: 10.1097/ACM.0000000000001971


The role of the patient in bedside teaching has long been a matter of consideration in health professions education. Recent iterations of patient engagement include patients as storytellers, members of curriculum planning committees, guest lecturers, and health mentors. While these forms of patient engagement are reported to have many benefits for learners, educators, and the patients themselves, there is concern that such programs may not be representative of the diversity of patients that health care professionals will encounter throughout their careers. This problem of representation has vexed not only educators but also sociologists and political scientists studying patients' and the public's involvement in arenas such as health services research, policy, and organizational design.In this Perspective, the authors build on these sociological and political science approaches to expand our understanding of the problem of representation in patient engage-ment. In doing so, the authors' reconfiguration of the problem sheds new light on the dilemma of representation. They argue for an understanding of representation that not only is inclusive of who is being represented but that also takes seriously what is being represented, how, and why. This argument has implications for educators, learners, administrators, and patient participants.

학부생 및 수련생이 피드백에 반응하는 렌즈로서 자기조절학습이론: BEME 스코핑 리뷰 (BEME Guide No. 66) (Med Teach, 2022)
Self–regulatory learning theory as a lens on how undergraduate and postgraduate learners respond to feedback: A BEME scoping review: BEME Guide No. 66
Muirne Spooner , Catherine Duane, Jane Uygur, Erica Smyth , Brian Marron, Paul J. Murphy and Teresa Pawlikowska 



피드백은 오랫동안 학습자의 혁신적 변화에 영향을 미치는 핵심 요소로 간주되어 왔습니다(Black and William 1998; Hattie and Timperley 2007). 이전의 검토에 따르면 피드백의 효과는 다양하고 여러 이질적인 요인에 따라 달라지며(Kluger and DeNisi 1996; Winstone 외. 2017a), 학업 성취도가 주요 결과 측정치로 연구된 바 있습니다. 500개가 넘는 메타분석을 검토한 결과, 피드백이 학업 성취도에 미치는 주요 영향 중 하나로 밝혀졌습니다(Hattie 2008). 이는 Kluger와 DeNisi(1996)에 의해 뒷받침되었는데, 이들은 상호 작용의 [최대 1/3에서 피드백이 부정적인 영향을 미친다]는 점을 중요하게 강조했습니다. 해티와 팀퍼리는 네 가지 수준(과정, 과제, 자기 조절, 자기)에 따른 피드백을 강조했으며, 피드백의 목표가 효과성에 영향을 미치는 수준도 강조했습니다. 최근의 문헌에서는 [피드백 후 단계]와 [학습자의 경험]에 더 중점을 두고 있습니다. 이러한 논의는 [동기 부여 이론](Deci and Ryan 1985)과 피드백이 헌신과 성과 목표에 어떤 영향을 미칠 수 있는지를 중심으로 이루어졌습니다. Winstone 등(2017a)의 리뷰에서는 피드백에 대한 관점으로 '능동적 수신자'를 추가했는데, 그녀는 이 용어를 '피드백 프로세스에 적극적으로 참여하는 상태 또는 활동으로, 학습자의 근본적인 기여와 책임을 강조하는 것'이라고 설명합니다. 그녀는 능동적으로 피드백을 받는 학습자를 설명하기 위해 SAGE(자기 평가, 평가 리터러시, 목표 설정 및 자기 조절, 참여 및 동기 부여) 분류법을 제안합니다. 
Feedback has long been considered as key in effecting transformational change in learners (Black and William 1998; Hattie and Timperley 2007). Earlier reviews show that the benefit of feedback is variable and dependent on a number of heterogeneous factors (Kluger and DeNisi 1996; Winstone et al. 2017a), with academic achievement the main outcome measure studied. A review of over 500 meta-analyses identifies feedback as one of the major influences on academic achievement (Hattie 2008). This was supported by Kluger and DeNisi (1996) who also importantly highlighted feedback had a negative effect in up to one-third of interactions. Hattie and Timperley emphasised feedback directed at four distinct levels (process, task, self-regulation, and self), with the level targeted influencing effectiveness. Recent literature turns more emphasis to the post-feedback phase and the learner’s experience. This discussion has centred on motivational theory (Deci and Ryan 1985) and how feedback can affect commitment and performance goals. Winstone et al’s (2017a) review has added ‘proactive recipience’ as a lens on feedback, a term she describes as the ‘state or activity of engaging actively with feedback processes, thus emphasizing the fundamental contribution and responsibility of the learner.’ She proposes the SAGE (Self-appraisal, Assessment literacy, Goal-setting and self-regulation, and Engagement and motivation) taxonomy to describe a proactive recipient of feedback.

[피드백과 성과 간의 관계]는 잘 연구되어 있지만, 학습자가 피드백과 상호작용하여 이러한 성과 변화에 영향을 미치는 방식에 대해서는 알려진 바가 적습니다. 이 리뷰에서는 피드백을 받은 후 학습자 내에서 일어나는 내부 재처리 변화에 관한 연구를 살펴봅니다. 이를 위해 [자기조절이라는 렌즈]를 사용하여 피드백에 대한 학습자의 반응을 고려합니다. [자기조절]이란

  • 일련의 강력한 기술을 발휘하는 과제에 참여하는 스타일'입니다(Butler와 Winne 1995).
    • '학생이 지식 업그레이드를 위한 목표를 설정하고,
    • 목표에 대한 진전과 원치 않는 비용의 균형을 맞추는 전략을 선택하기 위해 숙고하며,
    • 단계를 수행하고 과제가 발전함에 따라 참여의 누적 효과를 모니터링하는 등 

While the relationship between feedback and performance is well researched, less is known about how learners interact with feedback to effect these changes in performance. This review explores research concerning the internal re-processing changes that occur within the learner following feedback. In doing so, we consider the learner’s response to feedback using the lens of self-regulation. Self-regulation is

  • ‘a style of engaging with tasks in which students exercise a suite of powerful skills:
    • setting goals for upgrading knowledge;
    • deliberating about strategies to select those that balance progress toward goals-against unwanted costs; and,
    • as steps are taken and the task evolves, monitoring the accumulating effects of their engagement’ (Butler and Winne 1995).

이 이론은 18세기 독일에서 등장하여 폰 훔볼트에게 기인한 광범위한 교육 및 사회 개념인 [빌둥]과 분명한 연관성을 가지고 있습니다. 이 개념은 학습자가 '지식의 형성이나 발달에 적극적으로 도움을 준 경우에만' 지식 또는 빌둥을 획득하는 교육적 현상을 말합니다. (노르덴보 2002). Pintrich(2000)는 SRL의 네 가지 주요 영역(인지, 정의, 행동, 맥락)과 네 가지 단계(사전 사고, 모니터링, 통제, 반응/반성)를 설명합니다(표 1). 중요한 점은 각 영역과 단계가 여러 활성화 지점을 가질 수 있고 이 모델의 다른 단계를 매개할 수 있기 때문에 이 표현이 순차적이지 않다는 것입니다. 자기조절 학습자는 능동적으로 활동을 계획합니다. 내부 및 외부 평가를 지속적으로 활용하여 진행 상황을 모니터링하며, 학습 효과를 강화하기 위해 전략과 행동을 재평가하고 수정하는 데 참여합니다. 피드백은 자기조절의 모든 단계에 영향을 미칠 수 있는 데이터의 원천 중 하나입니다.
This theory has clear associations with the broader educational and social concept of Bildung, which emerged in 18th-century Germany and is attributed to von Humboldt. This concept refers to an educational phenomenon by which the learner attains knowledge or Bildung ‘only if he or she has assisted actively in its formation or development.’ (Nordenbo 2002). Pintrich (2000) describes four main areas of SRL – cognitive, affective, behavioural, and contextual; and four phases – forethought, monitoring, control, and reaction/reflection (Table 1). Importantly this representation is non-sequential, as each area and phase can have multiple activation points and mediate other stages of this model. The self-regulated learner is proactively engaged in planning activities; continuously drawing on internal and external assessment to monitor progress, and re-evaluating and amending strategies and behaviours to potentiate learning gains. Feedback is one source of data that feeds into self-regulation and can affect any of its phases.

이전 리뷰에서는 피드백이 학업 성과와 어떤 관련이 있는지, 피드백에 가장 잘 참여할 수 있는 학습자의 특성은 무엇인지 등 몇 가지 주요 개념을 강조하는 귀중한 배경 지식을 제공했습니다. 
Previous reviews have provided valuable background that highlights some key concepts: how feedback relates to academic performance and characterisation of the learner best positioned to engage with feedback.

이 리뷰에서는 자기조절 학습자의 맥락에서 피드백을 고려함으로써 교육자에게 피드백의 잠재력을 활용하고 학습자의 자기조절 학습을 최적화하기 위한 실용적인 접근 방식을 알려줍니다. 
By considering feedback in the context of the self-regulated learner, this review informs educators on practical approaches to harnessing feedback potential and optimising learner’s self-regulated learning.

피드백 정의하기
Defining feedback

[피드백]에는 [피드백 이벤트]와 [피드백 메시지]라는 두 가지 표현이 있습니다.

  • [피드백 이벤트]전달 기반 모델에서 [학습자 주도 및 학습자 중심]으로 개념이 발전해 왔습니다(Boud and Molloy 2013).
  • [피드백 메시지]학습자와 교사 간의 상호 작용적이고 협력적인 대화로 상정합니다(Teunissen 외. 2007; Delva 외. 2013; Telio 외. 2015).

There are two distinct representations of feedback: the feedback event and the feedback message.

  • The feedback event has evolved in conceptualisation from a transmission-based model to being learner-led and learner-centred (Boud and Molloy 2013).
  • The latter envisions it as an interactive, collaborative dialogue between learner and teacher (Teunissen et al. 2007; Delva et al. 2013; Telio et al. 2015).

파일럿 검색 결과 [피드백에 대한 이해가 이질적인 것]으로 나타났기 때문에, 피드백 환경을 설명할 때 [다양한 피드백 목표와 형식]이 [학습자의 반응 방식에 미치는 영향]과 더불어, 이러한 현상을 그 자체로 강조하는 것이 적절했습니다. 피드백 연구의 이론적 토대는 심리학에서 비롯되었으며, Thorndike의 효과의 법칙(Thorndike 1927), 통제 이론(Carver and Scheier 1982), 예의 이론(Brown and Levinson 1987), 사회문화 이론(Lave and Wenger 1991), 동기 이론(Deci and Ryan 1985) 등 여러 이론이 기여하고 있습니다
Pilot searches indicated heterogeneous understandings of feedback, so in describing the landscape, it was pertinent to highlight this phenomenon in its own right, in addition to how varying feedback aims and formats affect how learners react to it. The theoretical underpinning for feedback research stems from psychology, where multiple theories such as Thorndike’s Law of Effect (Thorndike 1927), Control Theory (Carver and Scheier 1982), Politeness Theory ((Brown and Levinson 1987), Socio-Cultural Theory (Lave and Wenger 1991) and Motivation Theory (Deci and Ryan 1985), contribute.

심리학 문헌은 실험 연구와 가설적 모델링을 제공하며, 종종 성적이나 결과(옳고 그름)로 피드백을 제공합니다. Kluger와 DeNisi(1996)의 리뷰에서는 피드백을 '성과에 대한 지식'으로 간주하고 등급으로 설명할 수 있는 예를 사용합니다. 이러한 유형의 피드백(단순히 응답의 정확성에 대한 정보)은 '결과 피드백'이라고도 불립니다(Butler and Winne 1995). 다른 개념에서는 [관찰된 성과]와 [원하는 성과] 사이의 [격차]를 해결하기 위한 피드백이 필요하며, 이는 메시지에 교정 또는 개발 요소가 포함되어 있음을 의미합니다(Ramaprasad 1983; Sadler 1989). 
Psychology literature provides experimental studies and hypothetical modelling, frequently featuring feedback as grades or results (right/wrong). Kluger and DeNisi’s (1996) review considers feedback as ‘knowledge of performance,’ and uses examples that could be described as ratings. This type of feedback – simply information about the correctness of a response – has also been termed ‘outcome feedback’(Butler and Winne 1995). An alternative conception requires feedback to address a gap between observed and desired performance, implying the message includes some corrective or developmental element (Ramaprasad 1983; Sadler 1989).

[피드백 루프의 완성]이 강조되는데, 이 메시지는 후속 행동에 영향을 미쳐야 하며(Boud and Molloy 2013, van de Ridder 외. 2015), 개선된 성과에 대한 관찰이 이루어져야 합니다. 최근의 정의는 피드백 콘텐츠의 이러한 요소에 동의하지만 [프로세스에 중점]을 둡니다. 이들은 피드백을 개인 간 상호작용을 강조하는 사회문화적 현상으로 해석하며 학습자가 능동적인 참여자로 참여할 수 있는 상황을 요구합니다(Ramani 외. 2019). 우리는 연구 환경에서 진화하는 피드백의 특성을 반영하기 위해 검색 전략의 목적에 따라 피드백을 포괄적으로 정의합니다. 

There is an emphasis on completion of the feedback loop – this message must effect a subsequent action (Boud and Molloy 2013; van de Ridder et al. 2015) and observation of the improved performance must occur. More recent definitions agree with these elements in the feedback content but also focus emphasis on process. They interpret feedback as a socio-cultural phenomenon with emphasis on inter-personal interaction and require circumstance that engages the learner as an active participant (Ramani et al. 2019). We are inclusive in our definition of feedback for the purposes of the search strategy, to reflect its evolving nature in the research landscape.

검토 방법론
Review methodology

이 범위 검토의 목적은 피드백의 사용과 피드백에 대한 반응에 관해 현재 알려진 내용을 매핑하고, 학습자가 학습 효과를 위해 피드백을 사용하는 과정에 피드백 렌즈를 집중하는 것이었습니다. 그 결과, 학습자가 후속 학습 접근 방식에서 [피드백을 어떻게 사용하고 피드백에 반응하는가]라는 사회 구성주의 패러다임을 기본 이론으로 채택하여 SRL을 채택했습니다. 
The aim of this scoping review was to map what is currently known regarding the use of, and response to, feedback, and to focus the feedback lens on the learner’s process in employing feedback for their learning benefit. Consequently, it adopts a socio-constructivist paradigm, with SRL as the underpinning theory: How do learners use and respond to feedback in their subsequent approach to learning?

검색 전략
Search strategy

검토 질문과 관련하여 이용 가능한 연구의 광범위한 특성을 고려하여 범위 설정 방법론을 선택했습니다. 조안나 브릭스 연구소(JBI)의 범위 설정 방법론에 따라 3단계 검색 전략이 사용되었습니다(Peters 외. 2015). 첫 번째 단계는 Medline과 Embase의 초기 제한 검색이었습니다. 포함 기준은 학습자와 피드백의 상호작용을 설명하는 보고서로, 피드백을 받는 사람이 학부, 대학원 또는 평생 전문 교육 과정의 학습자(즉, 보건 전문직 교육에 국한되지 않는 모든 배경의 학습자)인 경우 영어로 작성된 것이어야 했습니다. 파일럿 검토를 통해 HPE에서의 피드백은 임상적 만남의 특성으로 인해 다른 맥락과 패러다임적으로 다르다는 것이 분명해졌으며, HPE 이외의 연구에서는 [대부분 서술형인, 구두 대면 피드백]에 대해 논의하는 경우가 거의 없었습니다. 따라서 이러한 맥락의 연구에서 학습자의 피드백 사용 및 반응에 미치는 영향이 다른지 확인하기 위해 이 검토에서는 학부, 대학원 또는 평생 교육 수준의 모든 학습자를 대상으로 한 연구를 포함합니다. 
A scoping methodology was selected given the broad nature of available research related to the review question. A three-step search strategy was utilised, as per Joanna Briggs Institute (JBI) scoping methodology (Peters et al. 2015). The first step was an initial limited search of Medline and Embase. Inclusion criteria were: reports describing learner’s interaction with feedback, in the English language, where the recipients of feedback are learners at undergraduate, postgraduate, or in continuing professional education (i.e. learners from all backgrounds, not confined to health professions education). From our pilot review, it became apparent that feedback in HPE is paradigmatically distinct to other contexts due to the nature of clinical encounters; few studies outside HPE discuss verbal face-to-face feedback, which is mostly narrative. So in order to identify if studies in this context reported differing impacts on learner use and response to feedback, this review includes studies on all learners at undergraduate, postgraduate, or continuing education levels.

검색된 논문의 제목과 초록에 포함된 텍스트 단어와 논문을 설명하는 데 사용된 색인 용어에 대한 분석은 정보 전문가(PJM)의 도움을 받아 수행되었습니다. 이를 통해 모든 데이터베이스에서 검색된 키워드와 색인 용어를 식별할 수 있었습니다(보충 부록 1 참조). 파일럿 테스트를 거쳐 포함 및 제외 기준이 개발되었습니다(표 2). 검색된 데이터베이스는 다음과 같습니다: Medline, Embase, CINAHL, Web of Science, PsychINFO, Scopus. 검색은 데이터베이스 구축 초기부터 시작되었으며, 검색 문자열은 포괄성을 극대화하기 위해 개발되었습니다. 초기 검색은 2018년 5월에 수행되었으며 2020년 4월에 업데이트되었습니다. 연구 프로토콜(Spooner 2020)은 의학교육의 최고 증거(BEME) 웹사이트의 연구 리포지토리에 업로드되었습니다. 
Analysis of text words in the title and abstract of retrieved papers, and of index terms used to describe the articles, was undertaken with the assistance of an information specialist (PJM). This led to the identification of keywords and index terms that were searched across all databases (see Supplementary Appendix 1). Following piloting, the inclusion and exclusion criteria were developed (Table 2). Databases searched were: Medline, Embase, CINAHL, Web of Science, PsychINFO, and Scopus. The search was from database inception and the search string was developed to maximise inclusivity. An initial search was undertaken in May 2018 and was updated in April 2020. A study protocol (Spooner 2020) has been uploaded into the study repository on the Best Evidence in Medical Education (BEME) website.


추가 연구를 위해 인용 검색(2단계)과 확인된 모든 보고서 및 논문의 참고문헌 목록 검색(3단계)을 수행했습니다. 전문을 검색할 수 없는 경우 해당 저자에게 사본을 요청했습니다. MS는 모든 초록의 선별, 데이터 추출 및 분석을 수행했습니다. 두 명의 검토자(CD 및 JU)가 Covidence에서 수행된 초록의 절반을 독립적으로 심사했습니다(Innovation nd). 세 번째 중재자(TP)는 합의를 통해 초기 코딩 차이를 해결할 수 있었습니다. 평가자 간 신뢰도는 Cohen의 카파를 사용하여 계산했습니다(McHugh 2012, 2013). 초록 심사 후 포함된 모든 연구의 전체 논문을 검색하여 포함 및 제외 기준에 따라 검토했습니다. 시범적으로 사용하고 반복적으로 개발한 수정된 BEME 코딩 시트를 사용했습니다(MS, BM, TP). X. 다양한 연구를 대상으로 표준화 작업을 수행한 후, 두 명의 연구 저자(MS와 BM)가 온라인 양식을 통해 코딩 시트에 포함된 모든 관련 연구에서 데이터를 독립적으로 추출했습니다. 이후 MS는 이를 엑셀 스프레드시트(부록 2, 추출된 데이터 요약)로 다운로드했습니다(TP 조정). 범위 검토이므로 연구의 질 평가는 수행하지 않았습니다. 
Citation searching (step 2) and searching the reference lists of all identified reports and articles (step 3) for additional studies were performed. Where full-texts could not be retrieved, copies were requested from corresponding authors. MS undertook screening, data extraction, and analysis of all abstracts. Two reviewers (CD and JU) independently screened half of the abstracts undertaken in Covidence (Innovation n.d). A third arbitrator (TP) was available to resolve initial coding differences by consensus. Inter-rater reliability was calculated using Cohen’s Kappa (McHugh 2012, 2013). The full papers of all studies included after abstract screening were retrieved and reviewed against inclusion and exclusion criteria. We used a modified BEME coding sheet which was piloted and developed iteratively (MS, BM, TP). X. Following a standardisation exercise with a variety of diverse studies, two study authors (MS and BM) independently extracted data from all relevant studies in the coding sheet via an online form. MS subsequently downloaded this to an excel spreadsheet (Supplementary Appendix 2, Summary of extracted data) (TP moderated). Given that this is a scoping review, quality appraisal of studies was not undertaken.



7번의 데이터베이스 검색을 통해 5952건의 인용을 검색했으며, 이중 4090건은 중복 제거를 완료했습니다. 인용 및 수작업 검색을 통해 163개의 초록이 추가로 확인되었습니다. 총 4253개의 초록을 선별한 후 371개의 전체 텍스트 연구를 검토하여 232개를 최종 종합에 포함시켰습니다. 그림 1은 연구 정보 흐름을 보여줍니다. 표 3에는 포함된 연구의 특징이 요약되어 있습니다. 대부분의 연구에는 유럽(91건)과 북미(90건)의 저자가 포함되었습니다. 70%(162건)는 최근 10년 사이에, 25%(57건)는 2000~2009년 사이에, 2.5%(6건)는 90년대, 나머지 3%(7건)는 그 이전 수십 년 사이에 발표되었습니다. 대부분의 연구(66.3%, n = 154)는 보건 전문직 교육 또는 임상 의학 분야에서 발표되었습니다. 연구의 43%(100건)는 정량적 연구였고, 27%(64건)는 정성적 연구였으며, 18%(42건)는 혼합 방법이었으며, 리뷰는 전체 연구의 6%(13건)를 차지했습니다. 평가자 간 신뢰도는 0.87(코헨 카파)이었습니다.  
Seven database searches were done to retrieve 5952 citations, 4090 remained on de-duplication. A further 163 abstracts were identified via citation and hand searching. 4253 abstracts in total, were screened and 371 full-text studies were subsequently reviewed with 232 included in the final synthesis. Figure 1 shows the study information flow. Table 3 summarizes characteristics of the included studies. Most studies included authors from Europe (91) and North America (90). 70% (162) were published in the last ten years; 25% (57) between 2000 and 2009; 2.5% (6) in the nineties, and another 3% (7) in preceding decades. The majority of studies (66.3%, n = 154) were published in health professions education or clinical medicine. 43% (100) of the studies were quantitative; 27% (64) qualitative, with 18% (42) mixed methods; and reviews representing 6% (13) of all studies. Inter-rater reliability was 0.87 (Cohen’s Kappa).


피드백의 정의 및 형식
Feedback definition and format

조사 결과를 의미 있게 소개하기 위해 먼저 교육 환경에서 피드백이 어떻게 다양하게 해석되는지에 대한 검토 결과를 설명하겠습니다. [피드백이 정의되는 다양한 방식]과 피드백이 취하는 형식에 대해 설명합니다. 자기 조절 이론이 이 범위 검토에 사용된 렌즈이므로 [인지적, 정서적/동기적, 행동적 자기 조절 영역]에 따라 매핑을 설명합니다(그림 2에서 이러한 결과의 개념적 표현을 참조하세요). 
To introduce the findings meaningfully, we will first delineate our review findings in terms of how feedback is variously interpreted in the educational landscape. The diverse ways that feedback is defined and the formats that it takes are described. As self-regulatory theory is the lens used for this scoping review, mapping is described according to areas of self-regulation, that is, cognitive, affective/motivational, and behavioural – see the conceptual representation of these findings in Figure 2.


피드백 정의
Feedback definition

14%(32개)의 연구에서 피드백에 대한 정의가 포함되어 있었습니다. 10%(22개)의 연구는 명시적인 정의는 없었지만 잘 알려진 모델을 참조했으며, 가장 흔하게는 Hattie와 Timperley(2007)의 모델을 사용했습니다. 76%의 연구는 정의가 없거나 특정 모델과 명확하게 일치하지 않았습니다. 정의가 제공된 경우 세 가지 그룹으로 하위 분류할 수 있습니다.

  • 첫 번째 그룹은 '결과에 대한 지식'이라고 합니다(Kluger and DeNisi 1996). 나중에 Hattie와 Timperley에 의해 작업별 피드백으로 설명되었습니다. 쿨하비(1977)는 피드백을 '학습자에게 교수 반응이 [옳은지 그른지]를 알려주는 데 사용되는 수많은 절차 중 하나'라고 설명했습니다. 이러한 정의는 피드백을 수행과 관련된 정보로 개념화했지만 피드백의 맥락이나 목적은 언급하지 않았습니다. 이들은 [해석 없이 데이터를 전달하는 것]에 초점을 맞췄습니다.
  • 두 번째 그룹은 피드백 데이터도 [특정 성과 표준과 관련되어야 한다]고 덧붙였습니다. 이 정의는 해티 모델의 [프로세스 수준]과 가장 잘 부합하며, '[실제 수준]과 시스템 매개변수의 [기준 수준] 사이의 [격차에 대한 정보]로서 어떤 방식으로든 그 [격차를 변경하는 데 사용]되는 정보'라는 라마프라사드(1983)의 정의를 떠올리게 합니다. 이 입장은 [비고츠키 이론의 관점]에서 피드백을 모델링합니다. 피드백은 [근위 발달 영역]에서 강화 도구입니다(비고츠키 1978).
  • 세 번째 그룹은 피드백을 '격차를 좁히기 위한 정보'와 연결하지만, 새들러(Sadler 1989) 모델에 따라 '격차를 어느 정도 좁힐 수 있는 적절한 행동'을 추가로 요구합니다. 일부의 경우 이는 [평가적인 코멘트]를 의미하지만, 다른 일부는 [학습자-생성] 또는 [상호-생성된 실행 계획]을 제안하며, 최종적으로는 [학습자의 발전을 위한 개발 계획]을 포함한다는 점에서 전자의 정의와 구별됩니다.

14% (32) of studies included a definition of feedback. 10% (22) of studies had no explicit definition but referred to well-known models, most commonly that of Hattie and Timperley (2007). 76% of studies had neither a definition nor clear alignment to a specific model. Where definitions were provided, they could be sub-categorised into three groups.

  • The first group is referred to as ‘knowledge of results’(Kluger and DeNisi 1996). It was later described as task-specific feedback by Hattie and Timperley. It is further described by Kulhavy (1977) as ‘any of the numerous procedures that are used to tell a learner if an instructional response is right or wrong.’ These definitions conceptualized feedback as information related to performance but did not refer to its context or purpose. They focus on the transmission of data without interpretation.
  • A second group added that feedback data must also relate to a specific performance standard. This definition is best aligned with the process level in Hattie’s model and evokes Ramaprasad’s (1983) definition of ‘information about the gap between the actual level and the reference level of a system parameter which is used to alter the gap in some way.’ This stance models feedback in terms of Vygotskian theory; it is a potentiating tool in the zone of proximal development (Vygotsky 1978).
  • The third group also links feedback with information to ‘narrow the gap’ but additionally requires ‘appropriate action which leads to some closure of the gap’ as per Sadler’s (Sadler 1989) model. For some, this means evaluative comments; others propose either a learner or mutually-generated action plan, the end result being a distinction from the former definition in that it includes a developmental plan for learner progression.

피드백 형식
Feedback formats

다양한 피드백 형식이 설명되었는데, 가장 일반적인 형식은 서면, 구두 또는 혼합 형식이었습니다(표 4). 피드백 형식은 하위 그룹의 정의와 관련된 몇 가지 패턴을 보였는데,

  • 1그룹에서는 성적/결과에 대한 서면 또는 온라인 제공이 가장 많이 보고되었고,
  • 3그룹에서는 양방향 대화가 포함된 대면 구두 만남이 가장 빈번하게 보고되었습니다.

다른 학과에 비해 보건 직업 교육에서는 구두 및 대면 피드백이 더 흔했습니다. 정서적 반응은 대면 피드백이 더 흔하게 보고되었습니다.
A number of feedback formats were described, the most common being written, verbal or mixed (Table 4). We highlight that feedback format showed some patterns related to the sub-group definitions,

  • with written or online provision of grades/result the most commonly reported with group one, and
  • face-to-face verbal encounters that included bi-directional dialogue reported most frequently for group three.

Verbal and face-to-face feedback were more common in Health Professions Education compared to other disciplines. The emotional response was more commonly reported face-to-face.

인지적 반응
Cognitive responses

[인지적 반응]을 보고한 연구에 따르면 피드백이 [학습자의 사고 과정을 변화]시켰다는 응답이 가장 많았으며, 명확성과 이해도 측면에서 가장 많았습니다(n = 96, 41%). 이러한 측면에서 피드백은 [개인의 강점과 약점을 파악]하고 [오류를 수정]하는 두 가지 주요 기능을 수행했습니다. 16건(7%)의 연구에서 피드백이 이해도에 미치는 부정적인 영향이 보고되었습니다. 학습자들은 [모호하거나 관련성이 없다고 생각되는 피드백]을 받을 때 좌절감을 느꼈습니다(Dawdy 외. 2014; Wardman 외. 2018). 피드백이 [너무 늦게 제공]되거나 [다른 모듈로 이전할 수 없는] 경우 피드백은 도움이 되지 않는 것으로 간주되었습니다(Harrison 외. 2016). 과제에 대한 감독자의 서면 코멘트와 같은 [단방향적 해설]도 학습자의 이해와 후속 피드백 활용에 장애가 되는 것으로 언급되었습니다. 피드백이 [간접적일 때 피드백을 오해]하는 경우가 더 많았습니다(Hyland와 Hyland 2001). 학습자는 명확성을 찾기 위해 감독자에게 다시 문의한다고 보고했습니다(Khowaja 외. 2014). 그들은 그러한 [해설의 행간을 읽어야 한다]고 느꼈다고 보고했습니다(Gleaves 외. 2008). 피드백이 [이해할 수 없는 것]으로 간주되면 참여도가 떨어지는 것으로 보고되었습니다. 한 연구에서 학생의 50%가 이해하기 어렵다고 생각하여 서면 피드백을 받지 못했습니다(Winter and Dye 2004). 간호학과 학생들은 [피드백을 해석할 수 없어] 무시하거나 접근하지 않는다고 설명했습니다(McSwiggan and Campbell 2017).
Studies reporting cognitive responses stated that feedback changed learners’ thought processes, most frequently in terms of clarity and understanding (n = 96, 41%). Feedback served two main functions in this respect: identifying an individual’s strengths and weaknesses, and error correction. 16 (7%) studies reported negative effects of feedback on understanding. Learners expressed frustration at receiving comments that they considered vague or irrelevant (Dawdy et al. 2014; Wardman et al. 2018). Feedback was considered unhelpful if provided too late to enact, or non-transferable to other modules (Harrison et al. 2016). Uni-directional commentary, for example, supervisors’ written comments on a written assignment, was also mentioned as a barrier to learner understanding and subsequent feedback use. Feedback was more often misunderstood when comments were indirect (Hyland and Hyland 2001). Learners reported returning to supervisors to seek clarity (Khowaja et al. 2014). They reported feeling they needed to read between the lines on such commentary (Gleaves et al. 2008). When feedback was deemed incomprehensible, disengagement is reported: in one study, 50% of students failed to pick up written feedback as they found it hard to understand (Winter and Dye 2004). Nursing students described feedback as being un-interpretable which meant they ignored or did not access it (McSwiggan and Campbell 2017).

피드백은 [수행 기준을 명확]하게 함으로써 이해에도 영향을 미쳤습니다. 학생들은 피드백을 통해 [평가 청사진을 해석]하여 시험 자료를 파악할 수 있었습니다(De Kleijn 외. 2013). 다른 학생들은 피드백이 [자신에 대한 기대치를 정의]해 주었다고 말했습니다(Chiu 외. 2014). 피드백이 명확하지 않은 경우도 있었습니다. 한 연구에 따르면 심리학 학부 3학년 학생과 지도교수는 [성과 기준에 대한 인식에 상당한 불일치]가 있는 것으로 나타났습니다(Norton and Norton 2001). 학부 심리학 학생들은 슈퍼바이저가 부정적인 피드백을 제공할 때 과제의 난이도를 과소평가한다고 느꼈습니다(Coleman 외. 1987).
Feedback also affected understanding by making performance standards clear. Students used feedback to interpret assessment blueprints to signpost exam material (De Kleijn et al. 2013). Others stated it defined expectations for them (Chiu et al. 2014). There were cases where feedback did not disambiguate. One study identified that third-year psychology students and supervisors had a significant mismatch in the perception of performance standards (Norton and Norton 2001). Undergraduate psychology students felt supervisors underestimated the task difficulty when providing negative feedback (Coleman et al. 1987).

40건(17%)의 연구에서 학습자가 [개인 학업 진도를 모니터링]하기 위해 피드백을 사용했다고 답했습니다. 38개(16%) 연구에서 [학습에 대한 성찰]이 보고되었습니다. 25개(11%) 연구에서 피드백을 통해 [실행 계획을 세웠다]고 응답했습니다. 마지막으로, [학습 전략의 변경 또는 계획된 변경]을 보고한 소수의 응답자(n = 20, 9%)가 있었으며, 시험관 관찰의 맥락에서 이를 보고한 경우는 거의 없었습니다. 예외적으로 과제 수행 중 여러 시점에서 참가자를 대상으로 미시 분석을 수행하여 학생의 [SRL 과정과 자기 효능감 신념의 변화]를 평가한 한 연구(Cleary 외. 2015)가 있었습니다. 이 연구에서는 부정적 피드백(정확/오류 모델)이 자기효능감 인식과 전략적 계획 및 메타인지 모니터링의 질을 저하시킨다고 보고했습니다. 
Forty (17%) studies showed that learners used feedback to monitor their personal academic progress. Reflection on learning was reported in 38 (16%) studies. Feedback resulted in the creation of action plans in 25 (11%) studies. Finally, a minority reported changes or planned changes in learning strategies (n = 20, 9%) and few reported this in the context of examiner observation. An exception was one study (Cleary et al. 2015) evaluating shifts in students’ SRL processes and self-efficacy beliefs, by conducting microanalysis with participants at different points during a task. This reported that negative feedback (in a correct/incorrect model) led to decreased self-efficacy perception and quality of strategic planning and metacognitive monitoring.

대부분의 연구에서는 이러한 변화가 발생한 시점에 대한 보고가 없었습니다. 위의 연구에서는 '소리 내어 생각하기' 프로토콜을 사용하여 학습자의 자기 평가, 자신감 및 수행 전략에 대한 즉각적인 효과를 관찰했습니다(Cleary 외. 2015). 한 연구에서는 초기 피드백을 받은 지 3개월 후에 설문조사를 실시하여 학습자가 실제로 얼마나 많은 변화를 보였는지 확인했으며, 다른 연구에서는 1~2년 후에 피드백을 다시 방문하여 개입 이후 학습 활동의 변화에 대해 설명했습니다(Lockyer 등. 2003; Sargeant, Mann, Sinclair 등. 2008). 
The majority of studies made no report on the timeline over which these changes occurred. In the above study, ‘think aloud’ protocols were used, observing immediate effects on learner self-assessment, confidence, and performance strategy (Cleary et al. 2015). Surgeons were surveyed 3 months after their initial feedback to determine how much change in practice they reported in one study; another described participants re-visiting the feedback one to two years later and recounting the changes in their learning activities since the intervention (Lockyer et al. 2003; Sargeant, Mann, Sinclair, et al. 2008).

행동 반응
Behavioural responses

행동 영역에서 피드백 응답의 비율은 46.4%였습니다(표 5). 가장 흔한 결과는 [피드백이 실천의 변화로 이어진 경우]였습니다(n = 53, 23%). 가장 흔한 두 가지 결과는 참가자들이 피드백이 자신의 [관행에 변화]를 가져왔다는 데 동의했거나, 변화할 것이라고 답했거나, 이미 관행에 변화를 가져왔다는 것이었습니다. 그러나 이러한 변화의 성격은 드물게 추구되고 보고되었습니다.

  • Sargeant 등(2007)은 다양한 출처의 피드백을 경험한 가정의학과 의사들을 인터뷰했습니다. 의사 소통에 대한 부정적인 피드백을 받은 응답자의 절반은 이러한 기술을 개선하기 위해 변화(설명에 더 많은 시간 할애, 질문 허용, 관련 교육 활동 참석)를 했다고 답했습니다.
  • 네덜란드 컨설턴트들이 360도 피드백을 사용했을 때, 23명 중 11명이 성과 개선을 위한 구체적인 조치를 취했다고 보고했습니다(Overeem 외. 2009).
  • 의대 1학년 학생들은 동료와 튜터로부터 업무 습관과 대인관계 기술에 대한 형성적인 피드백을 받았습니다. 지배적인 경향이 있다는 피드백을 받은 한 학생은 포트폴리오를 제출하면서 가시적인 행동 변화를 자세히 설명했습니다(Dannefer and Prayson 2013).

The percentage of feedback responses in the behavioural domain was 46.4% (Table 5). The most common outcome was feedback leading to a change in practice (n = 53, 23%). The two most common findings were that participants either agreed that feedback led to change in their practice, or they reported that they would change, or had already made changes in practice. The nature of these changes, however, were both infrequently sought and reported.

  • Sargeant et al. (2007) interviewed family doctors who had experienced multi-source feedback. Having received negative feedback on their communication, half reported making changes (spending more time on explanation, allowing questions, attending relevant educational activities) to improve these skills.
  • When Dutch consultants used 360-degree feedback, 11 of 23 reported making concrete steps towards performance improvement (Overeem et al. 2009).
  • First-year medical students received formative feedback on work habits and interpersonal skills from peers and tutors. Following feedback indicating they had a tendency to dominate, one student’s portfolio submission detailed tangible behavioural changes(Dannefer and Prayson 2013).

연구들은 주로 학습자의 실제 변화에 대한 [자기보고]를 기술했습니다. 소수의 연구에는 [(타인에 의해) 관찰된 변화에 대한 데이터]가 포함되었습니다. 비디오로 녹화된 상담 및 피드백에 대한 사전 사후 연구에서 간호사는 환자의 도움 요청에 더 많은 주의를 기울이고(p <0.01), 더 많은 정보를 제공하며(p = 0.02), 혈압 측정에서 개선된 결과를 보였습니다[p <0.01; 21명(10%)](Noordman 외. 2014). 연구(21편, 9%)에 따르면 학습자는 주로 감독자의 [명확성을 높이기 위해 수행에 대한 더 많은 피드백을 구함]으로써 피드백에 반응하는 것으로 나타났습니다. [이전의 피드백 경험]이 학습자가 향후 학습에서 피드백 기회를 찾도록 자극하는 것으로 보고되기도 했습니다(Smither 외. 2005). 학습자 반응으로서의 [피드백 제공]은 2건(1%)의 연구에서만 보고되었습니다. 그럼에도 불구하고 피드백이 행동 변화를 보장하지는 않았습니다. 피드백이 [무시되거나, 무시되거나, 학습이나 실습에 적용되지 않았다]는 보고가 많았습니다(n = 37, 16%). 피드백이 실습에 영향을 미치지 않았다고 보고한 연구는 아래 컨텍스트에 설명되어 있습니다.

Studies mainly described learners’ self-reports of their change in practice. A small number of studies included data of observed changes. In a pre-post study of video-recorded consultations and feedback, nurses paid more attention to patients’ requests for help (p < 0.01), gave them more information (p = 0.02), and showed improvements in blood pressure measurement [p < 0.01; 21 (10%)] (Noordman et al. 2014). Studies (21, 9%) identified that learners responded to feedback by seeking more feedback on the performance, mainly to improve clarity from the supervisor. It was occasionally reported that previous feedback experiences enthused the learner to seek feedback opportunities in future learning (Smither et al. 2005). Feedback-giving as a learner response was only reported in 2 (1%) studies. Nonetheless, feedback did not guarantee behavioural change. A number of reports indicate it was ignored, disregarded, or not applied to learning or practice (n = 37, 16%). Studies that reported no effect of feedback on practice are discussed under Context


정서적 반응
Affective responses

[동기 부여와 자신감]은 [감정emotion 이외의 여러 요인에 의해 영향을 받는다]는 점을 고려하여 감정emotion과는 독립적으로 분류되었습니다(Deci and Cascio 1972; Carver와 Scheier 1982). 피드백은 86%의 연구에서 동기 부여(n = 42, 18%)에 긍정적인 영향을 미쳤습니다. 피드백의 특성 측면에서 [점수] 대 [코멘트]의 영향을 미치는지 조사한 여러 연구에서 대조적인 결과가 나왔습니다.

  • 영어 작문 수업에서 피드백에 대한 연구에 참여한 참가자들은 [성적이 없는 내러티브 코멘트]가 더 동기 부여가 된다고 느꼈습니다(Lee et al. 2015).
  • 레프로이(Lefroy et al. 2015)는 3학년 의대생들에게 코멘트, 성적 또는 두 가지를 모두 선택할 수 있는 옵션을 제공했는데, 후자(코멘트와 성적 둘 다)를 선택한 학생들은 성적을 받기 위해 개선하려는 동기가 더 강해졌다고 답했습니다.
  • 그러나 Harrison 등(2016)은 학생들이 '기대 수준'의 성적을 받은 경우, 특히 많은 학생들에게 이 등급이 적용될 경우 더 이상 노력하지 않는다고 보고했습니다.

Motivation and confidence were categorised independently of emotion, considering psychological models of each are influenced by multiple factors other than emotion (Deci and Cascio 1972; Carver and Scheier 1982). Feedback affected motivation (n = 42, 18%) positively in 86% of studies. In terms of feedback characteristics, several studies explored if grades versus comments had an effect; with contrasting results.

  • The participants in a study of feedback in English writing classes felt narrative without grades was more motivating (Lee et al. 2015).
  • Lefroy (Lefroy et al. 2015) provided year 3 medical students with the option of comments, grades, or both, with those choosing the latter expressing that it prompted more motivation to improve to receive grades.
  • However, Harrison et al. (2016) reported that if students received the grade ‘at the level expected,’ it demotivated them from further effort, particularly if this rating was applied to many students.

Van-Dijk와 Kluger(Van-Dijk and Kluger 2004, Van-Dijk and Kluger 2011)는 피드백의 동기가 [자기 조절 초점]에 따라 맥락화된다는 사실을 발견했습니다. 승진을 원하는 경우(성취 추구) 긍정적인 피드백이 부정적인 피드백보다 동기를 더 증가시키고, 안전을 추구하는 경우(실패 회피) 부정적인 피드백이 동기를 증가시킨다는 것이었습니다. Burgess와 Mellis(Burgess와 Mellis 2015)는 학생들이 [동료보다 지도 교수의 피드백]에 더 큰 동기를 느낀다는 사실을 확인했습니다. 한 연구에서는 [근속 기간이 긴 직원]이 근속 기간이 짧은 직원보다 피드백을 통해 동기 부여를 받을 가능성이 더 높다고 보고했습니다(Schürmann and Beausaert 2016). 

Van-Dijk and Kluger (Van‐Dijk and Kluger 2004; Van-Dijk and Kluger 2011) found motivation from the feedback was contextualised by self-regulatory focus: if desiring promotion (pursuant of achievement), positive feedback increases motivation more than negative; if seeking security (avoiding failure), negative feedback increases motivation. Burgess and Mellis (Burgess and Mellis 2015) identified that students felt more motivated by feedback from academic supervisors than peers. One study reported that longer-serving employees were more likely to be motivated by the feedback than those with less experience (Schürmann and Beausaert 2016).

다수의 연구에서는 피드백이 동기 부여에 긍정적인 영향과 부정적인 영향을 모두 미친다고 보고했습니다(n = 13, 6%). 피드백이 동기를 저하시키는 경우, 유일하게 통일된 특성은 [부정적인 원자가 메시지]였습니다. 긍정적 원자가는 만족스러운 성과를, 부정적 원자가는 받아들일 수 없는 기준, 즉 비판을 나타냅니다. 피드백이 자신감에 영향을 미치는 것으로 보고된 연구는 37건(16%)으로, 33건(14%)은 자신감이 증가했다고 보고했고, 3건(1%)은 학습자가 자신감을 잃었다고 설명했으며, 1건의 연구에서는 피드백 후 학습자의 자신감 평가가 변하지 않았다고 보고했습니다. 동기 부여와 마찬가지로 자신감이 저하된 학습자의 경우 부정적인 피드백과 관련이 있었습니다.

A number of the studies reported feedback having both positive and negative effects on motivation (n = 13, 6%). Where feedback demotivated, the only unifying characteristic was negative valence messages.

  • Positive valence indicates satisfactory performance,
  • negative an unacceptable standard, that is, criticism

. Feedback was reported to affect confidence in 37 studies (16%), with 33 (14%) reporting an increase, 3 (1%) describing learners losing confidence, and 1 study where learner confidence ratings were unchanged post-feedback. As with motivation, for those where confidence deteriorated, it was associated with negative feedback.

피드백에 대한 정서적 반응(n = 30, 13%)이 빈번하게 나타났습니다. 효과는 원자가에 따라 고려되었습니다. 피드백은 [다양한 감정적 반응]을 불러일으켰으며, 그 중 가장 흔하게 보고된 것은 실망, 화, 스트레스, 분노였습니다. 기쁨, 만족과 같은 긍정적인 반응은 드물게 보고되었습니다(n = 5, 2%). 부정적인 감정이 더 널리 퍼져 있을 뿐만 아니라 학습자에게 미치는 영향과 관련하여 [훨씬 더 강한 용어로 기술]되었습니다.

  • Duers와 Brown(2009)은 한 학생 간호사가 '갈기갈기 찢어질 것 같다'고 표현하며 어떻게 대처할 수 있을지 궁금해하는 내용을 인용했습니다.
  • 분노를 보고한 연구는 과제에 대한 서면 해설을 받은 경험을 설명하는 액세스 프로그램의 성인 학생, 박사 과정 학생의 슈퍼비전 경험, 360도 피드백을 받은 MBA 학생 등 다양했습니다(Young 2000, Brett and Atwater 2001, Doloriert 외. 2012).
  • 9건(4%)의 연구에서 학습자가 받은 피드백으로 인해 속상함을 느꼈다고 답했으며, 이 역시 다양한 학습자 프로필과 피드백 형식에 걸쳐 나타났습니다.
  • HPE 학습자만이 피드백에 대한 반응으로 [굴욕감]을 느꼈다고 보고했습니다(Sargeant, Mann, van der Vleuten 외. 2008; Nofziger 외. 2010; Delva 외. 2013).

Affective responses to feedback (n = 30, 13%) were frequent. The effects are considered according to valence. Feedback prompted a range of emotional responses, of which the most commonly reported were disappointment, upset, stress, and anger. Positive reactions, for example, joy, satisfaction were infrequently reported (n = 5, 2%). In addition to negative emotions being more prevalent, they were described in much stronger terms with regards to their effects on the learner.

  • Duers and Brown (2009) quote a student nurse describing being ‘torn to shreds,’ and wondering if they could cope.
  • Studies reporting anger were diverse: mature students in an access programme describing their experience of written commentary on assignments, PhD students’ supervision experiences, MBA students receiving 360-degree feedback (Young 2000; Brett and Atwater 2001; Doloriert et al. 2012).
  • 9 (4%) studies indicated that learners felt upset as a result of the feedback they received and again these traversed a variety of learner profiles and feedback formats.
  • Only HPE learners reported humiliation in response to feedback (Sargeant, Mann, van der Vleuten, et al. 2008; Nofziger et al. 2010; Delva et al. 2013).

감정적 반응을 보고한 모든 연구에서 가장 흔한 특징은 부정적 원자가였습니다. 이와는 대조적으로, 단순히 피드백을 받을 수 있다는 것만으로도 긍정적인 정서적 반응이 나타났습니다. 학습자는 자신이 가치 있다고 느끼고 피드백을 받는 것을 [배려(Rowe 2011), 양육, 위로의 행위]로 해석한다고 설명합니다(Eide 외. 2016; Sudarso 외. 2016). 한 학생은 피드백을 주는 사람의 노력에 '튜터가 시간을 내어 자신의 과제에 세심하게 반응해 주었다는 생각에 눈물이 났다'고 말할 정도였습니다(Price et al. 2011).
The most common feature of all studies reporting emotional reactions was negative valence. In contrast, simply the availability of feedback led to positive emotional responses. Learners describe feeling valued and interpreting the receipt of feedback as an act of caring (Rowe 2011), nurturing, and comforting (Eide et al. 2016; Sudarso et al. 2016). One student went so far as to say that the effort undertaken by the feedback-giver ‘brought tears to her eyes to think that her tutor had taken the time to respond carefully to her work’ (Price et al. 2011).

24개(10%) 연구에서 피드백은 학습 자료와 환경 모두에 대한 [참여도]에도 영향을 미치는 것으로 보고되었습니다. 교육, 수익 또는 의료 부문의 직원들은 [학습 리소스에 액세스]하고 피드백 후 [동료 및 상사와 피드백에 대해 논의]한다고 보고했습니다. 광범위하고 정확하며 긍정적인 피드백이 [성찰과 토론을 자극]할 가능성이 가장 높았습니다(Mulder 2013). 

  • 여러 저자(Brezis and Cohen 2004, Mains 외. 2015, Mains 외. 2015, Rana and Dwivedi 2017)는 자동 응답 시스템의 피드백을 받은 후 [코스 자료에 대한 참여도가 증가]했다고 보고합니다. 소수의 연구에서는 이러한 참여를 강화하는 요인을 자세히 설명합니다.
  • Sargeant 등(2017)은 피드백 및 연습 개선(관계, 반응, 콘텐츠, 코칭)을 촉진하기 위한 R2C2 모델을 설명합니다.
  • SRQ-L의 상대적 자율성 지수(RAI)로 확인된 성취도가 높은 학생과 자율적인 학습자는 피드백에 참여할 가능성이 가장 높았습니다(Liu 외. 2019).

Feedback was also reported to affect engagement both with learning material and environment, in 24 (10%) included studies. Employees in the education, profit, or healthcare sectors reported accessing learning resources and discussing feedback with colleagues and supervisors post-feedback. Extensive, precise, and positive feedback was most likely to stimulate reflection and discussion (Mulder 2013).

  • Several authors (Brezis and Cohen 2004; Mains et al. 2015; Mains et al. 2015; Rana and Dwivedi 2017) report increased engagement with course materials following feedback from automated response systems. A small number of studies detail factors that potentiate this engagement.
  • Sargeant et al. (2017) describe the R2C2 model for facilitating feedback and practice improvement (relationship, reaction, content, coaching).
  • High-achieving students and autonomous learners, identified by the Relative Autonomy Index (RAI) of SRQ-L, were most likely to engage with feedback (Liu et al. 2019).

피드백이 [학습자를 안심시켰다]고 보고한 연구의 수는 18건(8%)이었으며, 이 중 14건(6%)은 의료 전문가 학생을 대상으로 한 연구였습니다.

  • 윤리 석사 과정을 수행하는 중간 관리자는 안심 피드백을 정서적으로 지지하는 것으로 묘사했습니다(Eide 외. 2016).
  • Harrison 등(2016)은 의대생들이 수치화된 성적을 중요하게 생각하며, 이러한 피드백이 제공되지 않을 때 안심이 부족하다고 느낀다고 보고했습니다.
  • 피부과 수련의를 대상으로 한 연구에서 일부 수련의는 직장 기반 평가의 피드백을 안심할 수 있다고 느꼈고, 다른 수련의는 이를 부정적인 피해로 경험했으며, 이는 각각 긍정적인 가치와 부정적인 가치와 관련이 있었습니다(Cohen 등. 2009).
  • 18개의 연구 중 대부분은 슈퍼바이저의 피드백에 대해 보고했지만, Burgess와 Mellis의 연구(Burgess and Mellis 2015)에 따르면 동료 피드백도 긍정적인 영향을 미칠 수 있다고 합니다.

The number of studies reporting that feedback reassured learners was 18 (8%), 14 (6%) of which were studies of healthcare professional students

  • Middle managers undertaking an ethics master’s described reassuring feedback as emotionally supportive (Eide et al. 2016).
  • Harrison et al. (2016) reported that medical students valued numerical grades and felt a lack of reassurance when these were not provided.
  • In a study of dermatology trainees, some felt feedback from workplace-based assessments was reassuring; others experienced it as negative victimisation, these being associated with positive and negative valence respectively (Cohen et al. 2009).
  • Of the 18 studies, most reported on feedback from supervisors, but a study by Burgess and Mellis (Burgess and Mellis 2015) indicated that peer feedback could also be affirming.


많은 경우 [피드백에 대한 반응]은 학습자 [외부의 맥락적 요인]에 의해 영향을 받았습니다. 이는 [과제와 관련된 조건]이 [학습자의 자기 수정 및 후속 학습 행동에 기여]한다고 제안하는 자기 조절 학습 이론과 일치합니다. 이는 [학습자의 지각]과 [학습 상황]이 모두 학습자의 경험에 영향을 미친다는 [사회 구성적 관점]을 지지합니다. [외부 요인]을 다룬 연구는 대부분 [피드백 수용]의 상황에서 이루어졌습니다. 이러한 요인은 학습자 특성, 피드백 특성, 감독자 특성, 피드백 이벤트, 학습자-감독자 관계의 측면에서 논의되었습니다.
The response to feedback in many cases was affected by contextual factors external to the learner. This aligns with self-regulatory learning theory, which proposes that the conditions pertaining to the task contribute to the learner’s self-modification and subsequent learning actions. It supports a socio-constructive stance: both the learner’s perception and the learning situation will impact their experience. Studies that addressed external factors mostly did this in the setting of feedback acceptance. These are discussed in terms of

  • learner characteristics,
  • feedback characteristics,
  • supervisor characteristics,
  • the feedback event, and
  • learner-supervisor relationships.

소수의 연구에서 [학습자의 특성]이 피드백 수용 증가와 관련이 있다고 설명했습니다. 그러나 일반적인 패턴은 존재하지 않았으며, 실제로 상반된 결과가 보고되었습니다.

  • 호주 학부 간호사를 대상으로 한 연구에서는 여성, 외국 국적, 나이가 많은 학습자가 피드백을 더 잘 수용하는 것으로 나타났습니다(Carter 외. 2019).
  • 피드백은 또한 고령의 인적 자원 및 마케팅 직원의 비공식 학습에 가장 큰 영향을 미쳤습니다(Schürmann and Beausaert 2016).
  • 여성과 성취도가 높은 학부 3학년 의대생은 피드백을 더 자주 수집했습니다(Sinclair and Cleland 2007).
  • Orsmond와 Merry(Orsmond and Merry 2013)의 연구에 따르면 성취도가 높은 학생들은 감독자의 피드백을 이해하기 위해 자기 평가, 동료 토론, 내부 보정을 더 많이 사용했으며, 피드백을 통해 타인 지시형에서 자기 주도형으로 진화했습니다. 성취도가 낮은 학생들은 이해의 증거 없이 피드백을 무시하거나 그대로 암기했습니다. 또한 피드백을 학습 목표에 반영할 가능성이 낮았으며, 피드백을 통해 확인되지 않더라도 자기 평가를 통해 목표를 설정하는 것을 선택했습니다.
  • OSCE에서 최소한의 역량을 달성한 학생은 온라인 피드백을 이용할 가능성이 가장 낮았습니다(Harrison 외. 2013).
  • 한 연구에 따르면 남성 학습자는 긍정적인 피드백을 받아들이고 부정적인 피드백을 무시할 가능성이 더 높은 반면, 여성 학습자는 피드백의 원자가에 관계없이 피드백에 더 많은 영향을 받는 것으로 나타났습니다(Roberts and Nolen-Hoeksema 1989).

A small number of studies described learner characteristics that were associated with increased feedback acceptance. However, no prevailing patterns existed; indeed, conflicting findings were reported.

  • Female, non-national and older learners were more accepting of feedback as reported for Australian undergraduate nurses (Carter et al. 2019).
  • Feedback was also most influential on the informal learning of older human resources and marketing employees (Schürmann and Beausaert 2016).
  • Female and higher-achieving undergraduate third-year medical students collected feedback more frequently (Sinclair and Cleland 2007).
  • Orsmond and Merry (Orsmond and Merry 2013) found that high-achieving students employed more self-assessment, peer discussion, and internal calibration in trying to make sense of supervisor feedback: they evolved from other-directed to self-directed via feedback. Low-achieving students either ignored or memorised feedback literally, without evidence of understanding. They were also less likely to incorporate feedback into their learning goals, opting to use self-assessment for creating their goals instead, even if this was disconfirmed by feedback.
  • Students who achieved minimal competence in an OSCE were least likely to access online feedback (Harrison et al. 2013).
  • One study reported that male learners were more likely to accept positive feedback and discount negative feedback; while female learners were more impacted by feedback, irrespective of feedback valence (Roberts and Nolen-Hoeksema 1989).

[피드백의 특성]도 수용에 영향을 미쳤습니다.

  • 피드백이 너무 일반적이고 인지된 유용성이 부족하다고 느껴지는 경우 피드백을 수집하거나 수락하지 않았습니다(Sinclair and Cleland 2007, Price 외. 2011, Harrison 외. 2013, Jonsson 2013, Watling 외. 2013, McSwiggan and Campbell 2017).
  • 학습자는 피드백을 사용하기 위해 피드백을 해독해야 한다고 느끼는 경우 피드백에 참여하지 않았습니다(Jonsson 2013; Winstone 외. 2017b).
  • 일부 연구에서는 피드백 특성이 학습자의 사용에 영향을 미치는지에 대해 보고했습니다. 피드백 원자가가 매개 요인으로 확인되었습니다.
    • 노프지거(Nofziger et al. 2010)는 피드백이 부정적일 경우 의대생이 실습에서 변화를 시도할 가능성이 더 높다고 보고했습니다.
    • 그 반대도 있다. 즉 부정적인 피드백을 의도적으로 무시한 경우는 여러 연구에서 보고되었으며, 피드백이 실무 변화에 영향을 미치지 않는 몇 가지 이유 중 하나로 지적되었습니다(Sargeant 외. 2009, Eva 외. 2012, Delva 외. 2013).
  • 부정적인 피드백을 받은 사람들을 대상으로 한 한 연구에서는 절반만이 피드백의 결과로 변화를 일으켰다고 답했습니다(Sargeant 외. 2007). 긍정적인 피드백을 받은 사람들은 그 피드백에 동의할 가능성이 더 높았습니다(Sargeant 외. 2003).
  • 너무 권위적인 어조로 간주되는 피드백은 사용되지 않았습니다(Jonsson 2013).

Characteristics of the feedback also influenced acceptance.

  • Feedback was neither collected nor accepted if felt to be too general and lacking in perceived utility (Sinclair and Cleland 2007; Price et al. 2011; Harrison et al. 2013; Jonsson 2013; Watling et al. 2013; McSwiggan and Campbell 2017).
  • Learners disengaged from feedback where they felt they needed to decode it in order to use it (Jonsson 2013; Winstone et al. 2017b).
  • Some studies reported on whether feedback characteristics affected learner usage. Feedback valence was an identified mediating factor.
    • Nofziger (Nofziger et al. 2010) reported that medical students were more likely to undertake changes in their practice if feedback was negative.
    • The opposite; where negative feedback was purposely ignored; was reported in a number of studies and is one of several reasons pinpointed where feedback did not effect any practice change (Sargeant et al. 2009; Eva et al. 2012; Delva et al. 2013).
  • In one study of those who received negative feedback, only half reported making changes as a result of it (Sargeant et al. 2007). Those receiving positive feedback were more likely to agree with it (Sargeant et al. 2003). The feedback that was considered too authoritative in tone was not used (Jonsson 2013).

[피드백 제공자]는 학습자의 수용에 영향을 미치는 특성, 즉 감독자의 신뢰성, 인지된 전문적 역량, 대인관계 기술을 보여주었습니다(Bing-You 외. 1997; Watling 외. 2012).

  • Sargeant는 360도 피드백에 대한 가정의의 반응을 연구한 결과, 환자로부터의 피드백을 받아들이고 동료로부터의 피드백에 동의하지 않을 가능성이 가장 높다는 사실을 발견했습니다(Sargeant 외. 2003; Sargeant, Mann, Sinclair 외. 2008)
  • 중간 및 고위급 관리자는 같은 인종, 이성의 피드백을 받을 가능성이 더 높았습니다(Ryan 외. 2000).
  • 피드백 상호 작용의 일부 특성은 수용성을 증가시켰습니다. Overeem 등(2009)은 여러 출처의 피드백을 받은 후 구체적인 목표를 제시하면 컨설턴트가 피드백을 사용하여 자신의 관행을 바꾼다고 설명합니다.
  • 목표에 대한 대화가 중요했으며, 슈퍼바이저와 교육생 간에 목표 정렬이 이루어지지 않으면 향후 학습에서 피드백이 실행되지 않았습니다(Watling 외. 2014).
  • 피드백 수용을 돕는 것으로 가장 많이 언급된 관행은 촉진된 성찰 또는 자기 성찰이었습니다.
  • 대부분의 학생에게 서면 피드백 요약[비공식 피드백 토론]에 비해 중요하게 여겨지지 않았으며, 피드백 요약의 1/3은 한 번도 열람하지 않았습니다(Lefroy 외. 2017).
  • 학생들은 점수(64%), 체크리스트(42%), 동영상(28%)을 검토하는 빈도는 감소했지만 학생-교수 디브리핑 회의가 진행되었을 때 모든 양식에 대한 검토가 향상되었습니다(p <0.001)(Bernard 외. 2017).
  • 의사들은 부정적인 피드백을 처리하는 것이 어려웠지만 오랜 시간 숙고한 후 이를 받아들였다고 설명했습니다(Sargeant 외. 2009).

Feedback providers showed characteristics that affected learner acceptance: supervisor credibility, perceived professional competence, and interpersonal skills (Bing-You et al. 1997; Watling et al. 2012).

  • Sargeant studied family physicians’ responses to 360-degree feedback and found that they were most likely to accept feedback from patients and to disagree with it from colleagues (Sargeant et al. 2003; Sargeant, Mann, Sinclair, et al. 2008)
  • Middle and high-level managers were more likely to be receptive to feedback if it was from someone of the same race, and of the opposite gender (Ryan et al. 2000).
  • Some characteristics of the feedback interaction led to increased receptivity. Overeem et al. (2009) describe consultants using feedback to change their practice if provided with concrete goals following multi-source feedback.
  • Dialogue on goals was important, with feedback not being actioned in future learning if goal alignment did not occur between supervisor and trainee (Watling et al. 2014).
  • The practice most commonly cited as aiding feedback acceptance was reflection, both facilitated or self-reflection.
  • For most students, written feedback summary was not valued compared to informal feedback discussions – one-third of feedback summaries were never accessed (Lefroy et al. 2017).
  • Students reviewed scores (64%), checklists (42%), and videos (28%) in decreasing frequency but the review of all modalities improved when student-faculty debriefing meetings were conducted (p < 0.001)(Bernard et al. 2017).
  • Physicians described finding negative feedback difficult to process but accepting it following long periods of reflection (Sargeant et al. 2009).

피드백 수용의 중요한 매개 요인으로 [인간관계]가 자주 언급되었습니다.

  • 돌로리어트(Doloriert) 등은 박사 과정 학생들의 피드백과 지도교수와의 경험을 조사했습니다(돌로리어트 외. 2012). 한 참가자는 관계적인 측면을 특히 간결하게 설명했습니다: '슈퍼바이저가 저와 함께 길을 걸어주기를 바랄 뿐입니다.'
  • 여러 연구에서 감독자와의 친밀감, 종종 종적 관계의 맥락에서 피드백 수용을 촉진하는 것으로 언급되었습니다(Ryan 외. 2000; Veloski 외. 2006; Embo 외. 2010; Bates 외. 2013; Ramani 외. 2018).
  • 일부 학생들은 피드백을 직접 관찰한 후, 이상적으로는 여러 번 관찰한 후 피드백을 더 신뢰한다고 합리화했으며, 이와 유사하게 수행이 관찰되지 않은 경우 피드백을 무시한다는 보고도 있었습니다(Eva 외. 2012; Watling 외. 2013; 2014).
  • 학습자들은 이전에 긍정적인 피드백을 경험한 적이 있는 경우 향후 동일한 감독자에게 더 많은 피드백을 구하고, 부정적인 피드백을 경험한 감독자에게는 피드백을 피한다고 보고했습니다(Gaunt, Patel, Fallis 등, 2017).

Relationships were frequently cited as a crucial mediator of feedback acceptance.

  • PhD students’ experiences of feedback and supervisors were explored by Doloriert et al (Doloriert et al. 2012). One participant described the relational aspect particularly succinctly: ‘You just want her to walk part of the way with me.’
  • Familiarity with the supervisor, often in the context of a longitudinal relationship, was cited by several studies as promoting feedback acceptance (Ryan et al. 2000; Veloski et al. 2006; Embo et al. 2010; Bates et al. 2013; Ramani et al. 2018).
  • Some students rationalised this: feedback was more credible following direct observation, ideally on multiple occasions; similarly, reports of discounting feedback where performance was unobserved occurred (Eva et al. 2012; Watling et al. 2013; 2014).
  • Learners reported seeking more feedback from the same supervisor in the future when they had a prior positive feedback experience; and avoiding feedback from supervisors with whom they had a negative feedback experience (Gaunt, Patel, Fallis, et al. 2017).


이 리뷰에서는 학습자가 피드백에 어떻게 반응하고 이를 향후 학습에 활용하는지에 초점을 맞춘 232개의 연구를 확인했습니다. 자기조절의 관점에서 피드백에 대한 반응은 [인지적, 행동적, 정서적, 맥락적 반응]으로 인식할 수 있습니다. 이러한 범주 내에서 피드백은 학습을 지원하거나 방해하는 반응으로 이어집니다. 이 토론 섹션에서는 먼저 [정의의 이질성 문제]에 초점을 맞출 것입니다. 그런 다음 자기 조절이라는 렌즈를 통해 피드백에 대한 [학습자의 반응과 피드백 사용에 대한 이론적 고려 사항]을 논의할 것입니다. 그런 다음, 향후 학습을 강화하는 도구로서 피드백을 최적화하고자 하는 교육자를 위한 실질적인 [시사점]을 간략하게 설명합니다. 마지막으로 문헌에서 확인된 부족한 점과 향후 연구 방향에 대한 제안으로 마무리합니다.

In this review, we identified 232 studies that focus on how the learner responds to feedback and then uses it for their future learning. From the perspective of self-regulation, responses to feedback can be recognised as cognitive, behavioural, emotional, and contextual. Within these categories, feedback leads to responses that support or impair learning. In this discussion section, we will first focus on the issue of definition heterogeneity. We will then discuss theoretical considerations of learner response to and use of feedback, via the lens of self-regulation. We next outline practical implications for educators wishing to optimise feedback as a tool in potentiating future learning. We conclude with gaps identified in the literature and suggestions for future research directions.

대부분의 연구에서 [피드백에 대한 정의]나 [인정된 모델]을 제시하지 않았습니다. 피드백에 대한 세 가지 접근 방식이 전반적으로 확인되었습니다.

  • 결과에 대한 지식,
  • 성과 격차 해소를 위한 데이터,
  • 실행 계획을 포함한 격차 해소를 위한 데이터 

세 번째 정의의 경우, 일부는 관계 구축과 성장 의제 촉진에 중점을 두고 이 계획이 만들어지는 과정을 강조했습니다. 이러한 정의가 자기조절 학습과 관련하여 시사하는 바는 무엇일까요? [자기조절]은 학습자가 [학습 목표를 달성하기 위해 지속적으로 행동을 교정하고 조정하면서 능동적으로 과제를 계획하고, 모니터링하고, 반성하는 역동적인 과정]을 말합니다. The majority of studies did not provide a definition or recognised model of feedback. Three overall approaches to feedback were identified:

  • knowledge of results;
  • data to address a performance gap; and
  • data to address a gap including an action plan.

With the latter, some emphasised the process by which this plan was produced, focussing on building a relationship and promoting a growth agenda. What are the implications of these definitions in terms of self-regulated learning? Self-regulation describes a dynamic process through which the learner actively plans, monitors, and reflects on tasks, with constant calibration and adjustment of actions to achieve their learning goals.

피드백을 [단순히 '결과에 대한 지식'(과제 관련)으로만 정의]할 경우, 달성한 성적이 [적절한 성취를 나타내는지 판단할 책임은 학습자에게] 있으며, 학습자가 '학습에 대한 판단'(JOL)을 결정하게 됩니다. 학습자는 자신의 진도를 이해하고, 알려진 것과 알려지지 않은 것을 평가하고, 다른 학습 과정 중에서 준비 상태와 진도를 측정할 수 있는 능력을 갖추고 있다는 것을 기대할 수 있습니다. [결과 피드백]은 '성취 상태 외에는 과제에 대한 추가 정보를 전달하지 않습니다'(Butler and Winne 1995). 따라서 [결과 피드백]만으로는 학습자가 [스스로 조절하는 방법에 대한 최소한의 외부 지침]만 제공합니다. 
If feedback is confined by definition to merely ‘knowledge of results’ (task-related), the responsibility lies with the learner to decide if the grade attained represents adequate achievement – the learner determines the ‘judgment of learning’ (JOL). The expectation is that the learner possesses the ability to understand their progress, evaluate what is known and unknown, and gauge preparedness and progress, amongst other learning processes. It ‘carries no additional information about the task other than its state of achievement’(Butler and Winne 1995). Hence, outcome feedback alone provides minimal external guidance for a learner about how to self-regulate.

두 번째 정의인 '격차를 좁히는 정보'를 사용하면 과제 수행에 대한 [지시적instructive 또는 교정적corrective 코멘트]와 같은 [추가 세부 정보]가 제공됩니다. 이를 통해 학습자는 [향후 학습 계획]을 세우는 데 도움이 되는 [더 풍부한 모니터링 데이터]를 얻을 수 있습니다. 그러나 히긴스, 하틀리, 스켈튼(R. Higgins 외. 2001)이 지적한 바와 같이, 수정 가능한 요인을 파악하는 과정에서 학습자가 이러한 변화를 가져올 수 있는 전략으로 무장할 필요는 없으며, [계획을 세우는 것]만으로는 충분하지 않으며 학습자는 [계획을 실행하는 방법]을 알아야 합니다. 
With the second definition – information that ‘narrows the gap’ – additional detail is given, for example, instructive or corrective comments on task performance. This provides the learner with richer monitoring data to inform future learning plans. However, as Higgins, Hartley and Skelton (R. Higgins et al. 2001) point out, the process of identifying remediable factors does not necessitate that the learner is armed with strategies to effect these changes – having the plan is not enough; learners need to know how to enact the plan.

세 번째 그룹은 이 문제를 다룬다: '피드백은 학습자가 기억에 있는 정보를 확인, 추가, 덮어쓰기, 조정 또는 재구성할 수 있는 정보로, 그 정보가 도메인 지식, 메타인지 지식, 자기 및 과제에 대한 신념, 인지 전술 및 전략 등입니다'(Winne and Butler 1994). 궁극적으로 자기 조절을 위해서는 참여 프로세스를 모니터링하고 생성된 정보에 따라 업데이트해야 하며, 이 경우 피드백이 필요합니다. 피드백이 자기조절 학습자에게 더 포괄적으로 제공될수록 학습자는 학습을 발전시키기 위한 적절한 전략을 더 잘 사용할 수 있습니다. 이러한 관점에서 이러한 정의는 학습자가 [정확한 판단]을 내리고 [학습에 가장 도움이 되는 인지 전략]을 선택하고 채택할 수 있도록 [최소한의 지원부터 가장 큰 지원]까지 [연속적인 연속체를 제공]합니다. 보다 효과적인 피드백은 피드백 메시지와 학습할 자료의 정보를 '주의 깊게' 처리하도록 유도합니다(Bangert-Drowns 외. 1991). 
The third group addresses this issue: ‘feedback is information with which a learner can confirm, add to, overwrite, tune, or restructure information in memory, whether that information is domain knowledge, meta-cognitive knowledge, beliefs about self and tasks, or cognitive tactics and strategies’(Winne and Butler 1994). Ultimately self-regulation requires monitoring the processes of engagement and updating them based on information generated, which in this instance, is feedback. The more comprehensive the inputs from feedback to the self-regulated learner, the better they can employ appropriate strategies to evolve their learning. From this perspective, these definitions provide a continuum from least to most supportive of the learner, in making precise judgments and thereby in selection and adoption of cognitive strategies most conducive to learning. More effective feedback cues ‘mindful‘ processing of information in the feedback message and in the material to be learned (Bangert-Drowns et al. 1991).

검토한 논문에서 [피드백의 정의]가 [피드백 내용]과 [성과 목표]에 초점을 맞추고 있다는 점이 흥미롭습니다. 최근 몇 년 동안 전문가들은 [학습자의 성장을 목표]로 [학습자와 교사] 간에 [건설적인 관계를 형성하는 과정]에 초점을 맞춘 정의를 선호하고 있습니다(Ramani 외. 2019). 이러한 변화는 학습자 반응의 새로운 패턴을 드러낼 수 있습니다. 많은 연구에서 역사적 개념화를 반영하여 [평가 후 피드백(주로 총괄적 및 로테이션 종료 후)]에 대한 결과를 검토한 것은 주목할 만합니다. 이러한 연구들은 학습자의 인지적 반응에 집중했습니다. 최근 문헌의 연구들은 피드백을 다중 및 종단 평가의 입력으로, 지속적이고 형성적인 평가의 요소로, 또는 위의 두 가지를 조합하여 사용하는 등 보다 다양한 상황을 설명합니다. 이러한 진화는 연구들이 주로 질적 연구에 집중하고 학습자의 성장을 폭넓게 탐구하는 반응에 관심을 갖는 것에서 알 수 있습니다.
It is interesting that in the papers reviewed, definitions have focused on feedback content and performance endpoints. In recent years, experts have favoured definitions that concentrate on the process of creating constructive relationships between learner and teacher aiming for learner growth (Ramani et al. 2019). This shift may reveal new patterns in learner response. It is notable that many studies reviewed findings on post-assessment feedback (often summative and end-of-training) reflecting historical conceptualisation. These concentrated on learner cognitive responses. Studies from recent literature described more diverse circumstances;

  • feedback as an input to multiple and longitudinal evaluations,
  • as an element of continuous, formative assessments,
  • or a combination of the above.

This evolution is evidenced in studies becoming predominantly qualitative and interested in response exploring learner growth in broader terms.

인지적 반응
Cognitive responses

연구의 거의 절반(n = 96, 41%)이 피드백이 [명확성과 이해도]에 영향을 미쳤다고 보고했으며, 대부분은 피드백이 학습자의 [강점과 약점]을 파악하는 데 도움이 되고 [예상 성과 기준]을 명확히 하는 등 두 가지 주요 하위 주제에 대해 긍정적인 효과를 보고했습니다.
Almost half of the studies (n = 96, 41%) reported that feedback affected clarity and understanding, the majority reporting a positive effect with two main sub-themes: feedback helped identify strengths and weaknesses in the learner and made expected performance standards clear.

피드백은 학습자의 [유능한 성과와 부족한 성과] 측면을 현미경처럼 들여다보는 역할을 합니다. 이는 관찰된 성과 기준과 바람직한 성과 기준 사이의 '격차'를 좁히기 위한 피드백의 개념화와 잘 맞아떨어집니다(Sadler 1989). 이 효과를 보고한 많은 연구에서 학습자가 역량의 특성을 인식하는 데 도움이 필요하다는 것을 확인했습니다. ['문제 소싱Trouble sourcing']은 학생이 [오류가 발생했을 때 정확한 라벨링]이 필요하거나, 피드백 상호작용을 통해 수정되지 않은 오해를 남기고 확장 학습의 기회를 놓칠 위험이 있다는 개념입니다(Rizan 외. 2014). 수행에서 강점과 부족한 영역을 강조하면 학습자에게 자기조절 주기의 여러 지점과 상호 작용할 수 있는 [정보]를 제공합니다.

  • 이를 통해 내부의 '앎의 느낌'(FOK)과 '학습의 판단'(JOL)[외부 엔드포인트에 매핑]할 수 있습니다.
  • 학습자는 자신의 역량 수준에 대한 슈퍼바이저의 평가를 받으면 효능감과 학습 용이성(EOL)에 대한 판단을 내릴 수 있습니다.

피드백이 [혼란을 야기하고 이해도를 악화시킨다]고 보고한 연구들은 피드백이 모호하거나, 구체적이지 않거나, 전달이 불가능하고, 양방향 대화가 불가능하다는 반복적인 특징과 관련이 있었습니다. Orsmond 등(2000)은 [성취도가 높은 학생]이 [성취도가 낮은 학생]보다 감독자의 피드백을 이해하기 위해 자기 평가, 동료 토론, 내부 보정을 더 많이 사용하며, 즉 학습을 스스로 조절한다는 사실을 발견했습니다. 연구진은 [성취도가 높은 학생]들이 피드백을 통해 타인 주도형에서 [자기 주도형으로 진화]했다는 점에 주목했습니다. 이는 교육자들에게 [학습자의 특성]과 [제공된 피드백] 중 어느 것이 더 결정적인 요소인가라는 질문을 던집니다. 자기 조절을 지원하는 피드백을 제공하면 모든 학생이 높은 성취도를 달성할 수 있을까요? 만약 그렇다면, SRL을 촉진하는 피드백을 조기에 제공하면 더 효과적인 학습자를 만들 수 있다는 것이 실무에 시사하는 바가 있습니다.
Feedback served as a microscope on aspects of the learner’s competent and deficient performance. This fits well with conceptualising feedback to ‘narrow the gap’ between observed and desirable performance standards (Sadler 1989). Many studies reporting this effect identified that learners need assistance with recognising the characteristics of competency. ‘Trouble sourcing’ is the concept that the student needs precise labelling of an error when it occurs, or risks leaving a feedback interaction with uncorrected misunderstanding while missing the opportunity for expansive learning (Rizan et al. 2014). Highlighting strong and deficient areas in performance provides the learner with information that can interact with multiple points in the self-regulation cycle.

  • It allows mapping of internal ‘feeling of knowing’ (FOK) and ‘judgment of learning’ (JOL) to an external endpoint.
  • They can make efficacy and ease of learning (EOL) judgements once they are equipped with the supervisor’s evaluation of their competency level.

Those studies which reported feedback causing confusion and worsening understanding associated it with recurring characteristics: feedback was ambiguous, non-specific, or non-transferable, and bi-directional dialogue was not available. Orsmond et al. (2000) found that that high-achieving students employed more self-assessment, peer discussion, and internal calibration to make sense of supervisor feedback than low-achieving students, that is, they self-regulated their learning. They noted that high-achievers evolved from being other-directed to self-directed, via feedback. This poses the question for educators: which is the determining factor – the learner’s traits or the feedback provided? Can all students become high-achieving if given feedback that supports self-regulation? If this is the case, the implication for practice is that early provision of feedback which facilitates SRL can create more effective learners.

'인지적' 범주의 두 번째 결과인 피드백이 [평가 기준을 명확하게 함으로써 이해를 돕는다]는 사실은 평가 리터러시(평가 리터러시)라고 불립니다(Winstone 외. 2017a). 그녀는 학습자가

  • (a) 평가와 학습 간의 관계와 학습자에게 기대되는 바를 이해하고,
  • (b) 암묵적 또는 명시적 채점 기준에 따라 자신과 타인의 작업을 평가하며,
  • (c) 피드백에 사용되는 용어와 개념을 이해하고,
  • (d) 평가와 피드백을 위한 적절한 기술과 이를 적용할 시기를 알아야 한다고 설명합니다.

The second finding in the ‘cognitive’ category – that feedback aided understanding by making assessment criteria clear – has been termed assessment literacy (Winstone et al. 2017a). She describes that the learner must

  • (a) understand the relationship between assessment and learning, and what is expected of them;
  • (b) appraise their own and others’ work against implicit or explicit grading criteria;
  • (c) understand the terminology and concepts used in feedback and
  • (d) know suitable techniques for assessing and giving feedback, and when to apply them.

'평가' 리터러시라고 불리지만, 첫 번째 항목을 제외한 모든 항목은 다른 상황에서의 피드백과 관련될 수 있다는 점을 인식하고 있습니다.

  • 니콜과 맥팔레인-딕(Nicol and Macfarlane-Dick 2006)은 최적의 피드백은 '좋은 성과(목표, 기준, 기대 기준)가 무엇인지 명확히 하는 데 도움이 되며, 학생이 학습 목표를 식별하는 데 사용할 수 있는 전략을 개괄적으로 설명'한다고 선언합니다.
  • 다른 곳에도 적용된다. [피드백의 모호성]은 퍼실리테이션, 명확성을 위한 감독자 미팅, 피드백을 효과적으로 풀고 '사용'하기 위한 성찰 연습을 통해 해결되었습니다(Sargeant 외. 2009; Embo 외. 2010).
  • 또 다른 제안은 피드백 리터러시를 최적화하기 위해 더 많은 자기 평가를 통해 학생의 평가 기술을 강화하는 것입니다. 

While termed ‘assessment’ literacy, it is recognised that, with the exception of the first, all of these points can relate to feedback in other situations.

  • Nicol and Macfarlane-Dick (Nicol and Macfarlane‐Dick 2006) declare that optimal feedback ‘helps clarify what good performance is (goals, criteria, expected standards),’ and outline strategies that could be used in helping students identify learning targets.
  • These are applied elsewhere; feedback ambiguity has been addressed via facilitation, meeting supervisors for clarification, reflection exercises to effectively unpack and ‘use’ feedback (Sargeant et al. 2009; Embo et al. 2010). Another suggestion is strengthening students’ evaluative skills via more self-assessment to optimise feedback literacy.

그러나 [감독자가 사용하는 용어가 다를 경우] 피드백에 대한 어려움은 문해력을 넘어서는 것입니다. 이러한 문제는 자주 발생하는 것으로 보입니다.

  • 학습자는 감독자와 비교하여 [표준에 대한 인식에 상당한 불일치]가 있을 수 있습니다(Norton 및 Norton 2001).
  • 학습자는 특히 [익숙하지 않은 학문적 전문 용어]로 인해 '이해'에 어려움을 겪을 수 있습니다(Hounsell 1987).
  • 학생들은 감독자의 피드백을 의도한 것과는 [상당히 다른 의미로 받아들입니다](Chanock 2000). 교사가 [의도적으로 모호한 표현을 사용]하는 경우, 즉 [헤징, 간접적 또는 완화된 표현]를 사용하는 경우 더 큰 문제가 발생합니다(Hyland and Hyland 2001).
  • Yorke(2003)는 '기대되는 표준, 커리큘럼 목표 또는 학습 결과에 대한 진술은 일반적으로 그 안에 담긴 풍부한 의미를 전달하기에 불충분하다'고 지적합니다.
  • Ginsburg 등(2015)은 평가에 사용되는 [서술형 평가에 '숨겨진 코드'가 사용되어 다양한 해석의 위험]을 초래할 수 있다고 설명합니다.

평가 과제 난이도, 진행 상황 모니터링, 인지 전략 선택, 시간 및 노력 할당 등 다양한 [자기조절 행동]을 실행하기 위해서는 [피드백이 명확하고 눈에 띄는 성과 결과와 명시적으로 연결]되어야 합니다. 이번 연구 결과에 따르면 피드백을 통해 목표가 명확해지고 목표에 대한 방향이 명확해질 수 있지만, 이는 [피드백 과정과 품질]에 따라 크게 달라집니다.

However, the challenges with feedback transcend literacy, if the supervisor is speaking a different language. This appears to occur frequently.

  • Students can have a significant mismatch in their perception of standards compared with supervisors (Norton and Norton 2001).
  • Learners may experience difficulty ‘making sense,’ in particular due to unfamiliar academic jargon (Hounsell 1987). Students take a significantly different meaning from supervisor feedback than what was intended (Chanock 2000).
  • A further challenge lies when teachers are purposefully ambiguous – if hedging, indirectness, or mitigation are employed (Hyland and Hyland 2001).
  • As Yorke (2003) notes, ‘statements of expected standards, curriculum objectives or learning outcomes are generally insufficient to convey the richness of meaning that is wrapped up in them.’
  • Ginsburg et al. (2015) describes a ‘hidden code’ employed in written comments used in evaluations, leading to a risk of variable interpretations.

In order to employ a number of self-regulation actions – evaluation task difficulty, monitoring progress, selection of cognitive strategies, and allocation of time and effort – feedback must be clear and explicitly linked to salient performance outcomes. Our results indicate that while feedback can make the goalposts visible and the direction towards them clearer; this is highly dependent on the feedback process and quality.

학습자는 [진행 상황을 자기 모니터링하기 위해 피드백을 사용]한다고 설명합니다. 피드백은 자기조절 학습자가 적용한 전략이 원하는 결과를 달성했는지 판단하는 데 [필요한 인풋 중 하나]입니다. 피드백이 사용되는 방식은 [인풋 품질]에 직접적인 영향을 받습니다. [명확하고 투명한 피드백]은 이해도를 높이고 학습자가 객관적인 기준과 개인적인 목표에 따라 자신의 성과를 보정할 수 있도록 합니다. 이를 통해 학습자는 [메타인지적으로 강화, 수정 및 조정]할 수 있습니다. 학습자들은 피드백을 통해 [자기 모니터링에 대한 인센티브]를 받는다고 설명하므로(Price 외. 2010; Mann 외. 2011), 피드백은 [시간이 지남에 따라 자기 규제 행동을 종적으로 촉진]할 수 있습니다. 우수한 피드백 프레임워크가 있음에도 불구하고, (Nicol and Macfarlane-Dick 2006, Hattie and Timperley 2007, Sargeant 외. 2015) 연구에 따르면 이해에 부정적인 영향을 미치는 피드백 경험이 보고되어 이론과 실제 사이에 잠재적인 격차가 있음을 나타냅니다.
Learners describe using feedback for self-monitoring of progress. Feedback is one input that the self-regulated learner requires to determine if the strategies they apply have achieved the desired outcome. How feedback is used is directly affected by input quality. Clear, transparent feedback enhances understanding and allows the learner to calibrate their performance against both objective standards and personal goals. This then allows them to metacognitively reinforce, correct and adjust. Learners describe being incentivised to self-monitor by feedback (Price et al. 2010; Mann et al. 2011), thus it can catalyse self-regulatory actions longitudinally over time. Despite the availability of excellent feedback frameworks, (Nicol and Macfarlane‐Dick 2006; Hattie and Timperley 2007; Sargeant et al. 2015) studies report feedback experiences that negatively affect understanding, indicating a potential gap between theory and practice.

[성찰]은 모든 영역(인지, 정서, 행동)에서 수행되는 모니터링 및 반응 단계에 필요하기 때문에 [모든 자기 조절의 기초]가 됩니다. 이는 학습자가 나중에 피드백을 생산적으로 활용할 수 있도록 피드백에 대한 초기의 부정적인 반응을 관리하는 데 강력한 처리 도구로 작용할 수 있습니다(Sargeant, Mann, Sinclair 외. 2008). 일부 연구에 따르면 건설적인 성찰을 위해서는 전문가의 촉진이 필요하다고 합니다(Macafee 외. 2012).
Reflection is at the basis of all self-regulation, as it is required for monitoring and reaction phases to be undertaken in any area (cognitive, affective, and behavioural). It may act as a powerful processing tool in managing initial negative reactions to feedback in order for the learner to make productive use of it at a later stage (Sargeant, Mann, Sinclair, et al. 2008). Some studies indicate that constructive reflection requires expert facilitation (Macafee et al. 2012).

[학습 전략 변경 계획]은 이 범주에서 확인된 최종 결과입니다. 이는 [자신의 성과, 목표 및 환경을 지속적으로 재평가하고 원하는 목표를 달성하기 위해 조정하는 역동적인 학습자]라는 [SRL 이론의 핵심적인 실제 결과]를 요약합니다. 이 요소를 피드백에 대한 학습자의 반응으로 명시적으로 보고한 연구(n = 19, 8%)가 거의 없다는 점은 주목할 만합니다. 이는 연구 설계에서 피드백에 대한 반응으로서 학습 과정의 장기적인 변화를 탐구하지 않았기 때문일 수 있습니다. 이는 연구자와 교육자 모두에게 고려해야 할 사항입니다. [프로그램 방식의 평가 모델]이 널리 보급됨에 따라 학습자가 학습 활동을 수정하기 위해 내부적으로 피드백을 처리하는 방법도 외부화해야 한다는 점에서 모든 이해관계자의 피드백에 대한 투자가 활발해지고 있습니다.
Planning to change learning strategies is the final outcome identified in this category. It sums up the key practical outcome of SRL theory: the dynamic learner who constantly revaluates their performance, goals, and environment, and adjusts to effect desired goals. It is notable that few studies (n = 19, 8%) reported this element explicitly as a learner response to feedback. This may be because study designs have not explored the long-term changes in learning processes as a response to feedback. This is a consideration for researchers and educators alike. With programmatic assessment models becoming more widespread, there is heavy investment in feedback from all stakeholders: how learners internally process feedback to modify learning activities needs to be externalised.

행동 반응
Behavioural responses

'행동' 측면에서 피드백은 실제로 변화를 가져왔고, '행동'과 '맥락' 영역 모두에서 '통제'와 '반응' 단계에 반영된 더 많은 피드백을 추구하게 되었습니다. 이는 [피드백 이후 행동]이 [개인의 내부 처리]로만 설명할 수 없고 [환경과의 상호작용이 필요하다]는 것을 전달하기 때문에 중요한 중첩입니다. [부정적인 피드백]을 무시하고 신뢰할 수 없는 것으로 치부하여 결국 관찰된 행동에 아무런 변화를 가져오지 못했다는 보고가 여러 차례 있었습니다. 이는 학습자가 인지적 조절 영역에서 모니터링할 때 이러한 데이터를 제외하기로 선택했기 때문으로 설명할 수 있습니다. 다르게 해석하자면, 피드백은 받아들였지만 동기/정서 영역에서 목표 지향 채택에 부정적인 영향을 미친다고 해석할 수 있습니다. 분명한 것은 피드백이 상호 작용하여 궁극적으로 [미래의 시간과 노력 계획 및 실행에 영향]을 미칠 수 있는 몇 가지 [메커니즘]이 있다는 것입니다. 이는 행동과 관련된 두 번째 발견으로 이어지며, [피드백]이 [추가 피드백을 구하게 된다는 것]입니다. 학습자는 재보정의 일부에 추가 데이터 입력이 필요하다고 판단할 수 있습니다. 피드백은 학습자가 이전의 노력을 포기하도록 부추길 수 있습니다. 이는 한 연구에서만 관찰되었는데, 부정적인 피드백은 일부 포기로 이어졌습니다(Young 2000). 피드백의 결과로 취해지는 외부 행동(실행의 변화, 피드백 추구)은 학습자가 내린 내부 결정의 일부에 불과할 수 있습니다. 교육자로서 피드백의 결과를 행동의 측면에서만 고려하면 학습에 대한 투자를 과소평가할 위험이 있습니다.
In terms of ‘behaviour,’ feedback led to change in practice, and to more feedback-seeking, which are reflected under the ‘control’ and ‘reaction’ phases, both in the ‘behaviour’ and also the ‘context’ areas. This is an important overlap as it conveys how the actions are undertaken after feedback cannot be singularly explained by the individual’s internal processing, but require an interaction with the environment. There were multiple reports of negative feedback being discounted, dismissed as not being credible, and ultimately leading to no changes in observed behaviours. This could be explained by the learner choosing to exclude these data when monitoring, at the cognitive area of regulation. It could be otherwise interpreted that the feedback is accepted, but then negatively affects goal orientation adoption at the motivation/affect area. What is clear is that there are several mechanisms by which feedback can interact to ultimately affect future time and effort planning, and implementation. This leads to the second finding related to behaviour; that feedback led to seeking further feedback. The learner may decide that part of their re-calibration requires additional data inputs. Feedback may incite learners to abandon prior efforts; this was seen in only one study, negative feedback led to some giving up (Young 2000). The external actions are taken as a result of feedback – changes in practice, feedback-seeking – probably represent a fraction of the internal decisions which the learner made. As educators, we risk under-estimating the learning investment undertaken if we consider feedback outputs in terms of behaviours alone.

정서적 반응
Affective responses

피드백에 대한 동기 부여 반응을 보고한 연구의 85%가 동기 부여가 증가했다고 설명했습니다. 긍정적인 동기 부여 반응과 관련된 특정 유형의 피드백은 없었습니다. 실제로 연구에 따르면 피드백의 내용이나 가치에 관계없이 [피드백을 받는 것만으로도 동기 부여가 되는 것]으로 나타났습니다(Lizzio and Wilson 2008; Eide et al. 2016). 이는 학습자의 성과 기준에 관계없이 학습자의 노력을 인정해 주었기 때문입니다. 이는 학습을 사회적으로 맥락화된 것으로 간주할 때에도 마찬가지입니다. [교수진과의 긍정적인 관계]는 학습에 도움이 됩니다(Drew 2001). 여러 연구에서 부정적인 피드백을 건설적으로 처리하고 학습 목표를 지속하는 데 [정서적 지원]이 중요하다고 언급합니다(Treglia 2008; Rowe 2011; Taylor 외. 2011). 피드백이 학습 의욕을 떨어뜨리는 경우, 대개 부정적인 피드백이나 실험 연구의 맥락에서 이루어졌습니다. 이러한 실험은 학습자가 촉진 또는 예방에 초점을 맞출 수 있다고 제안하는 [조절 초점 이론](Higgins and Silberman 1998)에 기초했습니다. 이는 드웩의 [동기부여 이론](드웩과 레겟 1988) 및 데시와 라이언의 [자기 결정 이론](데시와 라이언 1985)과 겹치는 부분이 있습니다. 이러한 연구에 따르면 예방에 초점을 맞출 때는 부정적인 피드백이 동기 부여를 증가시키는 반면, 승진에 초점을 맞출 때는 긍정적인 피드백이 동기 부여에 더 큰 영향을 미칩니다. 그러나 동기는 관계적이고 역동적인 경향이 있으며, 자기조절 학습자의 현실은 이러한 구성된 모델보다 재현성이 떨어질 수 있습니다. 학습자와 학습자에게 요구되는 복잡한 과제는 promotion과 prevention이라는 [양극화된 범주]에 거의 들어맞지 않습니다. 많은 연구의 내러티브는 학습자가 자기 개발과 외부 성과 기준 충족이라는 두 가지 목표 사이에서 균형을 맞추기를 희망하는 현실을 시사합니다.
85% of the studies that reported motivational response to feedback described increased motivation. There were no specific types of feedback associated with positive motivational reactions. Indeed, studies indicated that merely receiving feedback, irrespective of the content or valence, was motivating (Lizzio and Wilson 2008; Eide et al. 2016). This was due to acknowledging learners’ effort, irrespective of their performance standard. This follows when considering learning as socially contextualized – positive relationships with academic staff are supportive of learning (Drew 2001). Multiple studies mention emotional support as crucial to process negative feedback constructively and persist with learning goals (Treglia 2008; Rowe 2011; Taylor et al. 2011). Where feedback was demotivating, it was usually in the context of negative feedback or experimental studies. Such experiments drew on regulatory focus theory (Higgins and Silberman 1998) which proposes that the learner can have either a promotion or prevention focus. This overlaps with Dweck’s motivational theory (Dweck and Leggett 1988) and Deci and Ryan’s self-determination theory (Deci and Ryan 1985). These studies suggest that with prevention focus, negative feedback increases motivation, while positive feedback is more motivating in a promotion focus. However, motivation tends to be relational and dynamic and the reality of the self-regulated learner may be less reproducible than these constructed models. Learners, and the complex tasks demanded of them, rarely fit polarised categories of promotion and prevention. The narrative in many of the studies suggests a reality where learners hope to balance both self-development and meeting external performance standards.

자신감이 피드백의 영향을 받은 대부분의 연구에서 [자신감이 향상]되었습니다. 자신감 향상과 동기 부여 강화는 일반적으로 공존했습니다. 학습자가 모니터링 소스를 입력하면 자신의 FOK와 EOL을 평가할 수 있습니다. 피드백은 이 두 가지를 개선하여 자존감을 높일 수 있습니다. 이 영역은 잠재적으로 목표 지향 및 후속 시간 및 노력 계획과 상호 작용할 수 있으므로 자기조절 학습에서 이 둘의 조합은 의미가 있습니다.
Most studies where confidence was affected by feedback, led to improvements. Increased confidence and enhanced motivation commonly co-existed. As the learner inputs monitoring sources, they can evaluate their FOK and EOL. Feedback can ameliorated both, supporting self-esteem. This domain potentially interplays with goal orientation and subsequent time and effort planning and so the pairing makes sense in self-regulated learning.

이 리뷰는 피드백에 대한 정서적 반응은 흔한 일이면서 강렬하다는 것을 나타냅니다. 이전 리뷰에서는 학습자가 피드백에 반응하는 방법의 주요 특징으로 이를 강조하지 않았습니다. 자기조절 학습 이론은 [동기/정서]에 중요성을 부여합니다. 이 이론은 학습 전략의 진화를 결정할 때 정서를 인지 및 행동 영역과 함께 배치합니다. [긍정적인 정서]는 학습을 촉진하는 반면, [부정적인 정서]는 학습을 억제하는 등 정서와 학습 사이의 연관성은 잘 확립되어 있습니다(Fredrickson 2001). SRL 모델은 피드백 입력이 [단순히 감정적 반응을 유발]하는 것이 아니라 학습자의 [향후 학습 전략에 영향]을 미쳐 [특정 감정의 재발을 반복하거나 피할 수 있다]고 간주합니다. 피드백은 '자신에 대한 정보이며, 감정적으로 충전되어 있기' 때문에 강한 감정을 유발할 수 있습니다(Ashford와 Cummings 1983). [부정적인 감정]은 더 자주, 더 생생하게 보고되며, 때로는 광범위한 영향을 설명하기도 합니다. 학습자의 지속적인 개인적 반응을 설명할 뿐만 아니라 피드백 사용에도 상당한 영향을 미쳤습니다. 부정적인 정서적 반응은 일반적으로 받은 [피드백을 거부하거나 부분적으로만 수용하는 것]과 관련이 있었습니다(Sargeant, Mann, Sinclair 등, 2008). [자신감과 자존감에 대한 해로운 영향]도 보고되었습니다(Lizzio와 Wilson 2008). 이론적 관점에서 부정적인 원자가 감정이 피드백과 심오한 상호작용을 하는 이유에 대한 여러 가지 제안이 있기 때문에 이는 주목할 만합니다. 자신의 자기 평가에 반할 수 있는 데이터를 받는 것은 어려운 일입니다(Porter 외. 1974; Mann 외. 2011). 이는 학습자가 학습을 지원하는 피드백의 긴장과 자기 인식에 대한 위협 사이의 균형을 맞출 필요가 있음을 시사합니다. 반대로 피드백은 학습자의 주관적인 반응을 완화하는 기능을 할 수도 있습니다. 평가는 감정적으로 이루어지며 피드백은 불안한 학습자의 자기 평가보다 더 균형 잡힌 시각을 제공할 수 있습니다(Munro와 Hollingworth 2014).
This review indicates that affective reactions to feedback are both commonplace and intense. Previous reviews have not highlighted these as a major feature of how learners respond to feedback. Self-regulatory learning theory assigns significance to motivation/affect. It situates emotion alongside cognitive and behavioural areas, in determining the evolution of learning strategy. The connection between emotion and learning is well established: positive valence emotions are associated with facilitating learning, while negative valence inhibits learning (Fredrickson 2001). The SRL model considers that feedback inputs do not just provoke emotional reactions, but that a learner’s future learning strategies will be influenced to replicate or avoid specific feelings re-occurring. Feedback may provoke such strong feelings because ‘it is information about the self, it is emotionally charged’ (Ashford and Cummings 1983). Negative emotions are reported more frequently, and in more vivid terms, sometimes describing far-reaching effects. In addition to describing enduring personal reactions in the learner, they also had significant effects on their use of feedback. Negative emotional reactions were commonly associated with rejection of received feedback or only partial acceptance (Sargeant, Mann, Sinclair, et al. 2008). Deleterious effects on confidence and self-esteem were also reported (Lizzio and Wilson 2008). This is notable as, from a theoretical perspective, there are multiple proposals for why negative valence emotions interact profoundly with feedback. It is challenging to receive data that may counter one’s self-assessment (Porter et al. 1974; Mann et al. 2011). It suggests that the learner needs to balance the tension of feedback supporting learning with the threat it presents to self-perception. Conversely, feedback can function to temper a learner’s subjective reaction. Evaluation is emotionally charged and feedback may offer a more balanced view than the self-assessment of an anxious learner (Munro and Hollingworth 2014).

[감정적 비용]은 [학습자의 선택을 지배]하고 향후 학습 활동을 좌우할 수 있습니다(Trope and Neter 1994). 실무 관점에서 피드백을 받는 사람에게 [감정이 미치는 영향을 고려]하는 것이 중요한 이유는 무엇일까요? 이러한 [긴장을 인정하고 공감하는 맥락을 개발하는 것]은 피드백 전달의 전제 조건입니다. 그렇지 않으면 교수자는 학습자가 피드백을 잘 받아들이지 않을 뿐만 아니라 피드백을 회피할 위험이 있습니다. 학습자는 [수정 피드백을 요청하거나 받을 준비]가 되기 전에 [일정 수준의 편안함, 경험 및 자신감]을 경험해야 합니다(Eva 외. 2012). 학습자는 처음 감정을 표출한 후 이를 극복할 수 있는 능력을 보유할 수도 있습니다(Quinton and Smallbone 2010). 예를 들어, 상호작용에서 [격려적인 대화를 제공하는 등 감독자 의존적 요인]이 피드백으로 인해 유발된 [부정적인 감정을 중재]할 수 있습니다(Lizzio and Wilson 2008). 추가 연구에 따르면 가혹하고 비판적인 피드백을 학습자가 유용하다고 생각하는 정보로 변환하는 데 있어 감독자와 수신자 간의 목표 정렬이 중요하다고 합니다(Watling et al. 2014). R2C2 모델은 대화를 포함하고 관계에 초점을 맞춤으로써 학습자가 피드백 대화에 참여하는 것을 입증했습니다(Sargeant 외. 2018). 마음챙김 감독자는 피드백 관련 감정의 건설적인 처리를 촉진할 수 있습니다. 마지막으로, 감정, 특히 부정적인 원자가는 이러한 연구에서 피드백에 대한 일반적인 반응이었지만 여전히 과소 보고되고 있을 가능성이 높습니다. 여러 연구에서 학생들이 피드백과 관련된 동기 및 정서를 관리하기 위한 수단으로 [선택적 필터링]을 채택하는 것으로 나타났습니다. 학생들은 자기 보호 필터링을 통해 이득(펌핑)을 유도하는 피드백을 선택적으로 찾고 피해를 피하기 위해 피드백을 구하는 행동을 변경했습니다(Trope and Neter 1994; Quinton and Smallbone 2010; Gaunt, Patel, Rusius 외. 2017). 
Emotional costs may dominate the learner’s choices and dictate future learning activities (Trope and Neter 1994). From a practice point, why is it important to consider the effects of emotion on the feedback recipient? Developing a context that acknowledges and is sympathetic towards this tension is a prerequisite in feedback delivery. Otherwise, faculty risk not just poor feedback learner receptivity, but feedback avoidance. The learner needs to experience a particular level of comfort, experience, and confidence prior to being prepared to ask for, or receive, corrective feedback (Eva et al. 2012). Learners may possess the ability to get past their emotions after initial venting (Quinton and Smallbone 2010). Supervisor-dependent factors can mediate the negative emotions induced by feedback, for example, providing encouraging dialogue in the interaction (Lizzio and Wilson 2008). Further work suggests goal alignment between supervisor and recipient is key in translating harsh, critical feedback into information that the learner considered useful (Watling et al. 2014). The R2C2 model has demonstrated learner engagement with the feedback conversation, by including dialogue and focussing on relationships (Sargeant et al. 2018). The mindful supervisor can facilitate constructive processing of feedback-related emotion. Finally, while emotion, in particular negative valence, was a common response to feedback in these studies, it is still likely to be under-reported. Several studies identified that selective filtering is adopted by students as a means of managing motivation and affect related to feedback. Students changed their feedback-seeking behaviours to selectively seek out feedback that prompted gain (pumping) and avoid harm via self-protective filtering (Trope and Neter 1994; Quinton and Smallbone 2010; Gaunt, Patel, Rusius, et al. 2017).


감독자, 수신자, 피드백 관련 요인 등 다양한 요인이 피드백 수용에 영향을 미치는 것으로 확인되었습니다. 학습에 대한 [사회 구성주의적 관점]에서는 학습에 대한 학생의 참여가 [사회적 맥락]에 놓여 있으며 '관계의 교육학'이 존재한다는 점을 강조합니다(Bingham and Sidorkin 2004). '더 많은 지식을 가진 타자'와의 관계는 '근위 발달 영역'에서 학습을 최적화할 수 있습니다(비고츠키 1978). 특정 학습 자원으로서의 [피드백은 그 자체로 사회적으로 구성된 활동]이며, 피드백이 생산, 배포 및 수신되는 조건에 영향을 받습니다(Fairclough 1995). 따라서 맥락은 다음의 측면에서 논의될 것입니다.

  • 피드백 자체의 특성,
  • 학습자 특성,
  • 감독자 특성
  • 피드백 이벤트의 특성

A number of factors – supervisor, recipient and feedback-related – were identified as influencing acceptance of feedback. A socio-constructivist view of learning emphasises that student engagement with learning is situated in their societal context and a ‘pedagogy of relation’ exists (Bingham and Sidorkin 2004). Relationships with the ‘more knowledgeable other’ can optimise learning in the ‘zone of proximal development’ (Vygotsky 1978). Feedback as a specific learning resource, is a socially constructed activity in itself and is affected by the conditions in which it was produced, distributed, and received (Fairclough 1995). Thus context will be discussed in terms of characteristics of 

  • the feedback itself,
  • the learner,
  • the supervisor, and
  • the feedback event.

피드백 특성
Feedback characteristics

[모호함, 혼란스럽거나 불완전한 메시지, 부정적인 피드백 원자가] 등 여러 가지 [피드백 메시지 특성]이 비수용을 예측하는 요인으로 확인되었습니다. 후자를 제외한 모든 특성에서 피드백이 이해도를 높이지 못한다는 결과가 나타났습니다.

  • [부정적 피드백]은 수용을 가로막는 가장 흔한 장벽이자 피드백을 무시하는 가장 흔한 이유입니다.
  • [긍정적 피드백]은 재확인을 제공하지만 학습자에게 변화를 일으키는 데 덜 유용하므로 영향력이 적습니다(Hattie and Timperley 2007).

이는 긍정적 피드백이 비판보다 더 균질하고 공식적이며, 학습자가 토큰주의로 인식하는 것을 쉽게 인식하고 무시하기 때문일 수 있습니다(Hyland and Hyland 2001). 비판적인 피드백은 학습자의 의미 있는 참여를 방해하는 강한 감정적 반응을 유발할 수 있습니다(Sargeant, Mann, Sinclair 외. 2008). 부정적인 피드백을 받은 학습자는 자신에 대한 감독자의 평가에 대해 더 강한 인식을 불러일으켰습니다. 부정적인 피드백을 받은 학부 심리학 학생들은 감독자가 자신을 실패한 것으로 판단했다고 인식한 반면, 긍정적인 피드백을 받은 경우에는 성공했다는 평가를 받지 못했다고 느꼈습니다(Coleman et al. 1987). 학습자는 긍정적 피드백보다 부정적 피드백을 더 오래 접하기 때문에 부정적 피드백은 더 많은 학업적 '각성'을 유발할 수 있습니다(Kulhavy와 Stock 1989). 부정적인 피드백을 소화하기 위해서는 더 복잡한 처리가 필요합니다(Geddes와 Linnehan 1996). 증거에 따르면 부정적인 피드백은 [정서적으로나 인지적으로 부담]을 주며, 이 두 가지 요인으로 인해 학습자가 피드백에 참여하지 않는 이유가 설명될 수 있습니다. 교육자는 학습자의 처리 능력을 능가하지 않는 피드백 상호 작용을 생성할 때 이러한 점을 인식해야 합니다.
A number of feedback message characteristics were identified as predictors of non-acceptance: vagueness, confusing or incomplete messages, and negative feedback valence. With all but the latter, the main consequence was that the feedback did not enhance understanding.

  • Negative feedback is the most commonly reported barrier to acceptance and the most common reason to ignore it.
  • Positive feedback, while reaffirming, is less useful to the learner in effecting changes, so it has less impact (Hattie and Timperley 2007).

This may be because positive feedback is more homogenous and formulaic than criticism, and learners readily recognise and discount what they perceive as tokenism (Hyland and Hyland 2001). Critical feedback can induce strong emotional reactions which prevent the learner from meaningful engagement (Sargeant, Mann, Sinclair, et al. 2008). Receiving negative feedback evoked stronger learner perceptions of their supervisors’ evaluations of them – undergraduate psychology students who received negative feedback, perceived that their supervisors judged them as failing; on receipt of positive feedback, they did not feel evaluated as having succeeded (Coleman et al. 1987). Negative feedback can lead to more academic ‘arousal’ – learners interact with negative feedback for longer than positive feedback (Kulhavy and Stock 1989). More complex processing is required to digest negative feedback (Geddes and Linnehan 1996). Evidence suggests that negative feedback is both emotionally and cognitively taxing, both of which may explain why learners disengage from it. Educators need to be aware of this in creating feedback interactions that do not outstrip the learner’s ability to process them.

학습자 특성
Learner characteristics

[학습자 특성] 측면에서 [피드백 반응 및 사용을 예측하는 패턴]은 없습니다. 성취도가 높은 학생일수록 피드백을 더 잘 활용하고 피드백을 무시할 가능성이 낮다는 경향이 있습니다(Harrison 외. 2013; Orsmond와 Merry 2013; Liu 외. 2019). 일반적으로 더 효과적인 학습자는 자기 조절에 참여한다는 것이 인정되고 있습니다(Butler and Winne 1995). 성장 마인드셋은 지능과 같은 개인적 특성이 조작에 반응한다는 믿음입니다(Dweck 2013). 자기조절은 바로 성과를 개선하기 위해 전략을 조작하는 과정이므로 이 두 개념은 불가분의 관계에 있습니다. 이러한 학습자는 더 나은 성과를 낼 뿐만 아니라 적응력, 끈기, 집중력도 더 잘 발휘합니다. 원인과 결과에 대해 언급할 만한 연구가 충분하지 않았기 때문에 이러한 피드백 반응이 이후 학업 성취도에 주요한 영향을 미치는지는 불분명합니다.
No patterns in terms of learner characteristics predicted feedback response and use. There is a trend towards high-achieving students making better use of feedback and being less likely to discount it (Harrison et al. 2013; Orsmond and Merry 2013; Liu et al. 2019). It is generally acknowledged that more effective learners engage in self-regulation (Butler and Winne 1995). Growth mindset is the belief that personal characteristics such as intelligence respond to manipulation (Dweck 2013). Self-regulation is exactly that process of manipulating strategies to ameliorate performance so these concepts are inextricably linked. Such learners perform better, but also demonstrate more adaptability, persistence, and focus. There were insufficient studies to comment on cause and effect, so it is unclear if this feedback response is a major contributor to their subsequent academic performance.

감독자의 특성과 피드백 이벤트
Supervisor characteristics and the feedback event

피드백 반응은 [피드백 제공자의 다양한 특성]에 의해 영향을 받았습니다. 반면, [피드백 이벤트와 학습자-감독자 관계]는 건설적인 피드백 반응을 가능하게 하는 일관된 속성을 보여주었습니다. 여러 가지 [대화적 피드백 요소]는 자기 조절을 지원할 수 있습니다(Nicol 및 Macfarlane-Dick 2006).

  • 여러 연구에 따르면 학습자는 [개인적인 상호작용의 기회]를 주요 장점으로 꼽았습니다(Teven and Gorham 1998; Drew 2001; Crossman 2007).
  • 학습자는 [피드백에 대해 토론할 기회]를 갖지 못함으로써 권한이 박탈당했다고 느낄 수 있으며, 결과적으로 참여도가 떨어질 수 있습니다(Hyatt 2005).
  • 상호 학습 목표가 형성된 [종단적 학습자-감독자 관계]가 피드백 수용을 강화하는 요인으로 작용한다는 것은 놀라운 일이 아닙니다.
  • [성찰을 제공하거나 촉진]하는 것도 피드백 수용에 도움이 되는 것으로 보고되었습니다. [반응과 성찰]은 SRL 모델의 네 번째 단계입니다.
    • 학습자는 [인지적 및 정서적 반응을 사용]하여 향후 학습 선택에 영향을 미치는 학습 속성을 생성한다는 이론이 있습니다.
    • [성찰]은 학습 요구를 파악하고 학습자 자신의 학습 신념과 태도를 비판적으로 탐구하는 데 도움이 됩니다(Boud 1985).
  • 감독자는 긍정적인 피드백 상호 작용에 필요한 ['교육적 동맹'을 형성하는 데 있어 목회적 역할]을 수행해야 한다고 제안되었습니다(Telio 외. 2015). 가장 유익한 것으로 묘사된 피드백 상호 작용은 이러한 동맹을 모델링했으며, 일반적으로 양방향 대화와 학습자 주도의 의제에 초점을 맞춘 구두 피드백이 포함된 대면 이벤트와 학습자의 발달에 초점을 맞췄습니다. 

Feedback response was affected by the diverse characteristics of the feedback provider. In contrast, the feedback event and the learner-supervisor relationship demonstrated consistent attributes which enabled constructive feedback responses. A number of dialogical feedback elements can support self-regulation (Nicol and Macfarlane‐Dick 2006).

  • The value of discussing feedback with supervisors arose frequently: multiple studies indicate that the opportunity for personal interaction is described by learners as a key advantage (Teven and Gorham 1998; Drew 2001; Crossman 2007).
  • Learners may feel disempowered by not having the opportunity to discuss feedback, with consequential disengagement (Hyatt 2005).
  • It is unsurprising that longitudinal learner-supervisor relationships, where felt mutual learning goals had been developed, were characterised as potentiators of feedback acceptance.
  • Offering or facilitating reflection was also reported to aid feedback receptivity. Reaction and reflection are the fourth phases in the SRL model.
    • It is theorized that the learner uses cognitive and affective reactions to create learning attributions that influence future learning choices.
    • Reflection helps identify learning needs and critically explore learner’s own learning beliefs and attitudes (Boud 1985).
  • It has been suggested that the supervisor must undertake a pastoral role in creating the ‘educational alliance’ needed for positive feedback interactions (Telio et al. 2015). Those feedback interactions which were depicted as most beneficial modelled such an alliance; usually face-to-face events involving verbal feedback with bi-directional conversation and a learner-led agenda focussing on their development.

교육자를 위한 시사점
Implications for educators

이 리뷰는 피드백에 대한 학습자의 반응과 피드백 사용에 대한 종합적인 내용을 제공합니다. 피드백이 전달된 후 학습자 내에서 어떤 일이 일어나는지, 즉 문헌에서 제대로 보고되지 않은 영역에 초점을 맞춥니다.
This review provides a synthesis of learner response to, and use of, feedback. It focuses the lens on an area that has been under-reported in the literature: what happens within the learner once feedback is delivered.

피드백에 대한 다양하고 때로는 서로 다른 이해를 강조합니다. [피드백에 대한 명시적인 접근 방식]과 [피드백 메시지의 내용, 형식 및 전달]에 대한 인식을 촉구합니다. 최근 이러한 이해는 관찰된 성과를 풀어내고 학습자 중심 목표에 동의하는 데 있어 학습자와 교육자를 연결하는 [상호작용형 대화]로서의 피드백으로 나아가고 있습니다(Telio 외. 2015; Ramani 외. 2019). 이전 리뷰에서 Winstone(Winstone 외. 2017a)은 학습자가 피드백을 해석하고 실행하는 데 [평가 리터러시]가 중요하다고 권고했습니다. 그러나 본 검토에 따르면 학습자가 [한 맥락에서 문해력]을 갖춰도, [다른 맥락에서 쉽게 번역]되지 않을 수 있으며, [피드백의 언어는 여러 가지이고 다양]하기 때문에 문해력만 필요한 것은 아닙니다. 교육 및 평가 프로그램을 개발할 때 교육자는 [수용 가능한 피드백 모델을 ]채택하고 이를 어떻게 운영할 것인지 명확하게 설명해야 합니다. 학습자가 피드백에 동화되고 이를 활용하기 위해서는 [학습자에 대한 기대치가 비현실적으로 야심적일 수 있습니다]. 학습자 중심 접근 방식에서는 [평가 문해력]보다는 [학습자와 소통할 수 있는 언어]에 초점을 맞춰야 합니다. 
We highlight a varied and sometimes diverging understanding of feedback. We appeal for recognition of an explicit approach to feedback and also the content, format, and delivery of the feedback message. In recent years, this understanding is moving towards feedback as an interactive dialogue that allies the learner with the educator in unpacking observed performances and agreeing on learner-centred goals (Telio et al. 2015; Ramani et al. 2019). In a previous review, Winstone (Winstone et al. 2017a) recommended that assessment literacy is crucial for the learner to interpret and enact feedback. However, our review indicates that it is not just literacy that is necessary, because once the learner is literate in one context, it may not easily translate to others – the languages of feedback are multiple and diverse. In developing teaching and assessment programmes, educators must adapt an accepted feedback model and articulate how it will be operationalised. In order to assimilate and use feedback, the expectation on the learner can be unrealistically ambitious. In a learner-centred approach, the focus should perhaps be less on assessment literacy but on a language that speaks to the learner.

이 검토를 통해 피드백에 대한 학습자의 반응은 주로 [자기조절 학습 이론의 관점]에서 설명할 수 있음을 확인했습니다. 실무적인 관점에서 [피드백 대화(가급적 대화)]에 참여하는 사람들은 이 프레임워크를 [학습자 중심의 피드백 이벤트를 구조화]하는 데 유용한 지침으로 고려해야 합니다. 자기조절 학습자는 [지속적인 내부 및 외부 모니터링]을 통해 [정교하고 메타인지적으로 매개된 전략]을 사용합니다. [피드백]은 [단순한 데이터 입력]이 아니라 [여러 단계에서 SRL에 영향을 미칠 수 있는 소스]입니다. [입력 품질]은 모니터링 정확도와 향후 결과물을 제어하기 위한 후속 조치에 영향을 미칩니다.

  • [풍부한 내러티브 피드백은] 결과에 대한 지식보다 모니터링을 위한 더 많은 도구를 제공합니다.
  • [개발 계획이 포함된 피드백]은 학습 전술을 변경하는 촉매제가 됩니다(통제 단계). 

This review has identified that learner responses to feedback can largely be explained in terms of self-regulatory learning theory. From a practical standpoint, those involved in feedback conversations (preferably dialogues) should consider this framework as a useful guide in structuring learner-centred feedback events. The self-regulated learner engages in sophisticated, metacognitively-mediated strategies, via constant internal and external monitoring. Feedback is not just a data input, but a source that can affects SRL at multiple phases. The quality of input affects monitoring accuracy, and consequential actions to control future outputs.

  • Rich, narrative feedback will provide more tools for monitoring than knowledge of results.
  • Feedback which includes developmental planning provides a catalyst to change learning tactics (control phase). 

학생이 자기조절 학습과 관련하여 어떤 목표를 가지고 있는지에 따라 피드백에 대한 요구가 달라집니다. 전통적으로 피드백은 단방향적이었고 감독자가 선택한 메시지를 강조했습니다. 교육자로서 우리는 학습자의 목표를 지원하기 위해 [학습자가 피드백에서 필요로 하는 것]이 무엇인지 고려해야 합니다. 이는 관찰 내용을 변경하는 것이 아니라 학습자의 재교정에 가장 유용한 요소에 초점을 맞추기 위해 포장을 벗기는 것을 의미합니다. 피드백은 자기 조절에 영향을 미치지만 [학습자의 인식론적 신념]은 피드백과의 상호작용 및 피드백 사용 방식에도 영향을 미칩니다. 예를 들어, 학습자의 잘못된 사고방식에 대한 신념은 피드백을 받는 것과 상반될 수 있습니다. 피드백이 부정적일 경우 피드백을 사용하거나 받아들일 가능성이 낮습니다. 이는 학습자의 학습/성과에 대한 신념과 자기 평가가 불일치하기 때문일 수 있습니다. 다른 연구에 따르면 피드백에 대한 참여는 감독자와 학습자 간의 [건설적인 관계와 양방향 대화의 맥락]에서 발생한다고 합니다. 피드백 자체는 자기 조절의 촉매제이지만, 피드백 제공자가 학습자가 ['도움이 되지 않는' 사전 신념을 조정하는 데 도움이 되는 맥락을 제공]하는 것 또한 중요합니다.

What goals the student has in terms of their self-regulated learning will influence their needs from feedback. Traditionally, feedback has been unidirectional and emphasised the supervisor’s chosen message. As educators, we need to consider what the learner needs from feedback to support their goals. This does not mean altering the content of the observation; it means unpacking it to focus on the elements which are most useful to inform the learner re-calibration. Feedback affects self-regulation, but learner’s epistemological beliefs also affect their interaction with feedback and how they use it. For example, a learner’s commitment to a mistaken mindset may be in opposition to received feedback. Feedback was less likely to be used or accepted if it was negative. This may stem from it being dissonant to the learner’s beliefs on learning/performance and their self-assessment. Other studies indicate that engagement with feedback occurs in the context of a constructive relationship and bi-directional dialogue between supervisor and learner. The feedback itself is a catalyst in self-regulation, but so too is the feedback provider in providing a context that is conducive to the learner adjusting ‘unhelpful’ pre-held beliefs.

SRL 모델은 [동기와 정서]를 조절이 일어나는 네 가지 영역 중 하나로 묘사합니다. 여기에서 검토한 연구에 따르면 정서는 피드백에 대한 반응의 주요 특징이며, 지금까지 문헌에서 잘 다루어지지 않았습니다. 피드백에 대한 정서적 반응은 흔했으며, 특히 부정적 원자가의 강도가 큰 것으로 나타났습니다. 어려운 정서적 반응은 존중, 격려, 상호 발전 목표에 의해 정의되는 슈퍼바이저와의 관계, 수용의 도구로서 공간, 시간, 성찰의 촉진 등 여러 요인을 통해 피드백을 최종적으로 수용하고 건설적인 상호 작용으로 나아갈 수 있었습니다. 
The SRL model depicts motivation and affects as one of the four areas at which regulation occurs. Studies reviewed here indicate emotion is a dominant feature of reactions to feedback, which has been under-represented in literature to date. Emotional reactions to feedback were common, and described in terms of great intensity, particularly with negative valence. Difficult affective responses were navigated to eventual acceptance and constructive interaction with feedback via several factors: relationships with supervisors which were defined by respect, encouragement, and mutual developmental goals; and space, time, and facilitation of reflection as a tool in acceptance.

요약하면, 학습자는 피드백에 대해 뚜렷한 반응을 보인다는 증거가 있습니다. 이러한 반응은 SRL의 맥락에서 학습자의 요구 사항을 고려함으로써 설명할 수 있습니다. 학습자는 정확하고 지시적인 고품질의 입력이 필요하며, 실행 가능한 새로운 정보를 제공하기 위해 이러한 입력이 필요하며, 자신의 감정 상태를 지원하는 발달적 아젠다와 함께 제공되어야 합니다.
In summary, the evidence is that learners have distinct reactions to feedback. These responses can be explained by considering the learner’s needs in the context of SRL. They need precise and directed high-quality inputs; they need these inputs to provide new information which is actionable; they need it provided with a developmental agenda that is supportive of their emotional state.

향후 연구 방향
Future research directions

저희는 추가 조사가 필요한 몇 가지 지식의 격차를 확인했습니다. 연구자들은 피드백에 대한 정의의 차이를 인식하고 조사에 정보를 제공하는 채택된 모델을 명시적으로 명시해야 합니다. 피드백의 결과로 학습자의 행동과 행동의 변화를 관찰한 연구는 부족합니다. (사용 가능한) 수행 결과와 같은 대리 지표가 일반적으로 사용되며 혼동될 가능성이 있습니다. 피드백에 대한 자기 보고식 반응도 일반적이므로 독립적인 관찰이 유용할 수 있습니다. 몇몇 연구에서는 피드백을 가장 잘 활용하는 학습자의 특성을 파악하려고 시도했습니다. 그러나 이러한 관찰을 더 자세히 살펴보기 위해서는 추가 연구가 필요합니다. 피드백 과정에 초점을 맞추기 위해 결과에서 완전히 벗어나는 것도 환영할 만한 일입니다.
We have identified several gaps in knowledge that warrant further investigation. Researchers should be cognisant of the disparity in definitions of feedback and explicitly state the adopted model which informs their investigations. There is a paucity of studies that observe changes in learner actions and behaviours as a result of feedback. Surrogate markers such as (available) performance outcomes are the rule and have the potential to be confounded. Self-reported responses to feedback were also common; so independent observations would be a valuable addition. A few studies attempt to characterise the learner who makes the best use of feedback. However, further work needs to explore this observation in more detail. Moving away from outcomes entirely is also welcomed, to focus on the feedback process.

제한 사항

이 검토에서는 연구 질문을 해결하고 피드백에 대한 학습자의 반응과 사용을 설명하는 문헌을 매핑하는 전반적인 목표를 달성하기 위해 범위 설정 방법론을 사용했습니다. 다른 검토와 마찬가지로 일부 관련 연구가 누락되었을 가능성이 있습니다. 이 분야의 작업량을 관리하면서 관련 연구 포착을 극대화하기 위한 검색 전략을 파일럿으로 테스트하고 광범위한 검색어와 연구 설계, 인용 및 수작업 검색을 통해 다양한 데이터베이스를 포함시킴으로써 이를 최소화할 수 있었을 것으로 기대합니다. 연구 질문과 관련된 문헌의 광범위한 특성(피드백 및 연구 설계에 대한 해석의 다양성, 학습자 이질성)을 고려하여 범위 설정 방법론을 선택했으며, 따라서 질 평가는 포함하지 않았습니다. 앞서 설명한 정의적 문제, 피드백 및 학습 설계에 대한 해석의 다양성, 학습자 이질성 등을 고려할 때 추가적인 종합이 어려웠을 것입니다. 따라서 전체 검토 결과에 크게 추가되지는 않았을 것으로 생각합니다.
We used a scoping methodology for this review to address our research questions and accomplish our overall goal of mapping the literature describing learner response to, and use of, feedback. As with any review, it is possible that some relevant studies may have been omitted. It is hoped that piloting and testing the search strategy to maximise relevant capture of studies, whilst managing the volume of work in this field, and then including a range of databases with broad search terms and study designs, and citation and hand searching will have minimised this. A scoping methodology was chosen given the broad nature of available literature related to the research question (diversity of interpretation of feedback and study design, and learner heterogeneity) and quality appraisal was therefore not included. Further synthesis would have been challenging in the face of the definitional issues outlined, the diversity of interpretation of feedback and study design, and also learner heterogeneity. We feel therefore that this would not have substantially added to the overall review findings.


우리의 목표는 학습자가 피드백과 상호작용하는 방식에 대해 알려진 내용을 매핑하여 피드백이 학습 전략에 미치는 영향에 대한 이해를 높이고, 학습을 향상시키거나 저해하는 피드백 요소가 있는지 탐색하는 것이었습니다. 피드백이 학습자에게 영향을 미치는 방식은 여러 가지 요인이 있습니다. 피드백 이벤트는 감독자, 메시지, 전달 방법, 감독자-학습자 관계, 피드백의 의미에 대한 개념화 등에 의해 영향을 받는 복잡하고 미묘한 상호작용입니다. 성공적인 자기 조절을 촉진하기 위해 이러한 입력값을 조화시키는 데는 섬세한 균형이 필요합니다. 피드백이 학습을 지원하는 반응으로 이어지는 경우, 피드백은

  • (i) 학습자의 요구에 초점을 맞추고,
  • (ii) 양방향 대화,
  • (iii) 감정을 인정하고 지지하며,
  • (iv) 투명한 수행 기준을 제공하고,
  • (v) 수용을 돕기 위한 촉진 작업을 수행하며,
  • (vi) 건설적인 학습자-감독자 관계를 조성하는 특징이 있습니다.

Our aim was to map what is known of how learners interact with feedback to advance understanding of how feedback affects their learning strategies, and so to explore if there are elements of feedback that enhance or inhibit learning. How feedback influences the learner is multi-factorial. The feedback event is a complex, nuanced interaction influenced by the supervisor, the message, the delivery method, the supervisor-learner relationship, and conceptualisations of what feedback means. There is a delicate balance to be achieved in harmonizing these inputs to promote successful self-regulation. Where feedback leads to a response that supports learning, it is characterised as

  • (i) focussing on learner needs,
  • (ii) bi-directional dialogue,
  • (iii) acknowledging and supporting emotions,
  • (iv) providing transparent performance standards,
  • (v) undertaking facilitation to aid acceptance and
  • (vi) fostering constructive learner-supervisor relationships.




Med Teach. 2022 Jan;44(1):3-18. doi: 10.1080/0142159X.2021.1970732. Epub 2021 Oct 19.

Self-regulatory learning theory as a lens on how undergraduate and postgraduate learners respond to feedback: A BEME scoping review: BEME Guide No. 66

Affiliations collapse


1Health Professions Education Centre, RCSI University of Medicine and Health Sciences, Dublin, Ireland.

PMID: 34666584

DOI: 10.1080/0142159X.2021.1970732


Introduction: Little is known of processes by which feedback affects learners to influence achievement. This review maps what is known of how learners interact with feedback, to better understand how feedback affects learning strategies, and to explore enhancing and inhibiting factors.

Methods: Pilot searching indicated a wide range of interpretations of feedback and study designs, prompting the use of scoping methodology. Inclusion criteria comprised: (i) learners (undergraduate, postgraduate, continuing education) who regularly receive feedback, and (ii) studies that associated feedback with subsequent learner reaction. The screening was performed independently in duplicate. Data extraction and synthesis occurred via an iterative consensus approach. Self-regulatory learning theory (SRL) was used as the conceptual framework.

Results: Of 4253 abstracts reviewed, 232 were included in the final synthesis. Understandings of feedback are diverse; a minority adopt recognised definitions. Distinct learner responses to feedback can be categorized as cognitive, behavioural, affective, and contextual with complex, overlapping interactions. Importantly emotional responses are commonplace; factors mediating them are pivotal in learner recipience.

Conclusion: Feedback benefits learners most when focussed on learner needs, via engagement in bi-directional dialogue. Learner emotions must be supported, with the construction of positive learner-teacher relationships. A developmental agenda is key to learner's acceptance of feedback and enhancing future learning.

Keywords: Feedback; feedback acceptance; feedback receptivity; feedback recipience; feedback response.


졸업후의학교육에서 자기모니터링의 스코핑 리뷰 (Med Educ, 2023)
A scoping review of self-monitoring in graduate medical education
William Rainey Johnson1 | Steven J. Durning2 | Rhonda J. Allard3 | Adam M. Barelski4 | Anthony R. Artino Jr5


1 서론

의사와 수련 중인 의사는 어떤 개입이 되었든, [특정 업무의 맥락이 소거된 글로벌 자기평가의 정확도가 낮다]는 것을 반복적으로 입증해 왔습니다.1, 2 구조로서의 자기평가는 잘 정의되지 않았으며, 일반적으로 [지식, 기술 또는 태도와 관련된 특정 영역에서 자신의 전반적인 성과에 대한 개인적인 반성, 요약 또는 평가]를 나타냅니다.3 그러나 수련 중인 의사가 자신의 성과 한계와 성장 기회를 인식하는 법을 배워야 한다는 생각은 매력적이며 수많은 인증 기관의 지침 문서에 나타나 있습니다.4-7 결국, 수련 중인 의사와 지속적으로 '함께' 하는 유일한 사람은 의사 자신입니다. 
Physicians and physicians-in-training have repeatedly demonstrated poor accuracy of global self-assessments, which are removed from the context of a specific task, regardless of any intervention.1, 2 Self-assessment as a construct is ill-defined, generally representing a personal reflection, summary or evaluation of one's overall performance in a particular area typically related to knowledge, skill or attitude.3 Yet, the idea that practicing physicians should learn to recognise their performance limitations and opportunities for growth is appealing and appears in the guiding documents of numerous accreditation bodies.4-7 After all, the only person who is consistently “with” a practicing physician is the physician themself.

[자가 모니터링]은 [자신의 성과에 대한 순간적인 자기 인식]이며, [자가 평가에 대한 유망한 대안]을 제공합니다.8, 9 [Global phenomenon인 자가 평가]와 달리, [자가 모니터링]은 [특정 시점]의 [특정 작업]에 초점을 맞추고 있습니다. 예를 들어, 수련의가 중환자에게 동맥관을 삽입하는 능력을 전반적으로 평가하도록 요청받는다면 자신의 능력에 대해 부정확한 평가를 내릴 가능성이 높습니다. 반면에 학부 의학교육 수련생은 정확하게 자가 모니터링을 할 수 있다는 연구 결과가 있습니다.8, 9 즉, 수련생은 중환자실에서 근무하는 동안 72세의 중환자인 존스 씨에게 동맥관 삽입을 [완료하기 직전, 도중 또는 직후]에 자신의 수행 능력을 정확하게 평가할 수 있다는 것입니다.
Self-monitoring is an in-the-moment self-awareness of one's performance and offers a promising alternative to self-assessment.8, 9 Unlike self-assessment, which is a global phenomenon, self-monitoring focuses on a specific task at a specific moment in time. For example, if a trainee was asked to globally assess their ability to insert an arterial line in a critically ill patient, he/she would likely provide an inaccurate assessment of their capabilities. On the other hand, research suggests that undergraduate medical education trainees can accurately self-monitor.8, 9 In other words, a trainee can accurately evaluate their performance of an arterial line placement in Ms. Jones, a 72-year-old critically ill patient, immediately before, during or after completing it at 0115 during a shift in the intensive care unit.

학부 과정과 비교하여 [졸업후 과정의 의사 수련생]에 대한 자가 모니터링에 관한 문헌도 다소 명확하지는 않지만 유망합니다.10 존스 씨에게 동맥 라인을 배치한 의대생처럼, 수행에 대한 자기 인식을 시간적, 맥락적으로 행동에 연결하면 대학원 의학 교육(GME) 수련생이 자신의 역량을 더 정확하게 평가하는 데 도움이 될 수 있습니다. 즉, 초보 의대생과 마찬가지로 GME 수련생도 정확하게 자기 모니터링을 할 수 있을 것입니다. 안타깝게도 이 아이디어의 직관적인 매력에도 불구하고 [GME에서 수련의 자가 모니터링]에 대한 문헌은 엄격하게 평가되지 않았습니다.
The literature on self-monitoring for post-graduate, as compared with undergraduate, physician trainees is also promising, albeit a little less clear.10 Like the medical student placing the arterial line in Ms. Jones, tying the self-awareness of performance temporally and contextually to the action may help graduate medical education (GME) trainees to more accurately evaluate their capabilities. In other words, much like the novice medical student, GME trainees may be able to accurately self-monitor. Unfortunately, despite the intuitive appeal of this idea, the literature on trainee self-monitoring in GME has not been rigorously appraised.

[레지던트]와 [펠로우 의사]는 각자의 프로그램을 졸업하고 임상 진료에서 역할을 맡아 독립적으로 진단 및 치료 결정을 내립니다. 그러나

  • 진단 및 치료 오류는 여전히 환자 안전 사고의 약 15%를 차지하며 미국에서만 매년 1,200만 명 이상의 사람들에게 부정적인 영향을 미치고 있습니다.11
  • 또한 임상의는 수련 후 진화하는 의료 지식과 기술을 따라잡기 위해 고군분투하며, 최신 상태를 유지하지 못하면 환자 결과에 부정적인 영향을 미칠 수 있습니다.12
  • 마지막으로 임상 진료는 종종 복잡하고 복잡하며 내재된 불확실성으로 가득 차 있어 중요한 자가 모니터링이 필요합니다.13
  • 궁극적으로 모든 진단 및 치료 결정에 책임 있는 유일한 사람은 임상의 본인뿐입니다.

Resident and fellow physicians graduate their respective programmes and assume roles in clinical care, making diagnostic and therapeutic decisions independently.

  • However, diagnostic and therapeutic errors still account for approximately 15% of patient safety events, negatively affecting over 12 million people annually in the United States alone.11 
  • What is more, clinicians struggle to keep up with evolving medical knowledge and skills after training, and failures to stay current can negatively impact patient outcomes.12 
  • Finally, clinical practice is often complex and messy, filled with inherent uncertainty that requires critical self-monitoring.13 
  • Ultimately, the only person present for every diagnostic and therapeutic decision is the responsible clinician themself.

[자기 모니터링]은 많은 [자기조절학습(SRL) 이론]의 필수적인 특징으로 간주됩니다.14,15 

  • 전체적으로 [SRL 이론]은 발달 중인 의사가 다음을 할 수 있는 정도를 이해하기 위한 프레임워크를 제공합니다.
    • [자신의 한계를 적극적으로 인식]하고
    • [동료 및 임상 지원 도구를 활용]하며
    • [변화무쌍하고 종종 불확실한 임상 실무의 요구를 충족]하기 위해 [학습을 구체화]
  • [SRL에 대한 사회인지적 관점]에는 [목표 설정, 동기 부여, 자기 모니터링 및 주기적 피드백]이라는 최소 네 가지 핵심 기능이 포함됩니다.14
    • 최근의 체계적 문헌고찰에 따르면 학부 의학교육 및 GME 문헌에서 목표 설정과 동기 부여는 일반적으로 나타났지만 자기 모니터링과 주기적 피드백을 포함하는 규제 평가 과정은 거의 나타나지 않았습니다.16
    • 마찬가지로, 의대생을 대상으로 한 SRL에 대한 범위 검토에서 학생들의 자기 모니터링이 작업장 환경에서 관찰되는 상황적 자기 모니터링을 탐구한 연구는 4건만 확인되었습니다.17

Self-monitoring is considered an essential feature of many self-regulated learning (SRL) theories.14, 15 

  • As a group, SRL theories provide a framework for understanding the degree to which developing physicians can
    • actively recognise their limitations,
    • leverage peer and clinical support tools and
    • sculpt their learning to meet the demands of an evolving and often uncertain clinical practice.
  • The social cognitive perspective on SRL includes at least four core features: goal setting, motivation, self-monitoring and cyclical feedback.14 
    • A recent systematic review found that goal setting and motivation commonly appeared in the undergraduate medical education and GME literature; however, the process of regulatory appraisal, which encompasses self-monitoring and cyclical feedback, rarely appeared.16 
    • Similarly, a scoping review of SRL in medical students identified only four studies that explored situated self-monitoring, where students' self-monitoring was observed in the workplace environment.17 

그러나 임상 맥락에서 이루어지는 자기 모니터링은 의사가 자신의 기술을 연습하고 숙달해야 하는 바로 그 장소입니다. 사회인지 학습 이론에 따라 자기 모니터링은 다음을 포함합니다(그림 1a).18

  • 자기 관찰(즉, 자신의 생각, 태도 또는 행동 인식),
  • 자기 판단(즉, 자신의 생각, 태도 또는 행동의 정확성/적절성 평가) 및
  • 자기 반응(즉, 생각, 태도 또는 행동의 변화 강화, 계획 또는 실행)

과제 수행과 관련하여, 자기 모니터링은 활동 [직전, 도중 또는 후]에 발생할 수 있습니다. 자가 모니터링 시기와 사용되는 특정 유형의 자가 모니터링의 중요성은 불확실합니다.

Yet, self-monitoring situated within the clinical context is the very place where physicians must practice and master their skills. Consistent with social cognitive learning theories, self-monitoring encompasses

  • self-observation (i.e. recognising one's thoughts, attitudes or behaviours),
  • self-judgement (i.e. grading accuracy/appropriateness of one's own thoughts, attitudes or behaviours) and
  • self-reaction (i.e. reinforcing, planning or implementing change in thoughts, attitudes or behaviours) (Figure 1a).18 

Relevant to task performance, self-monitoring can occur immediately before, during or after an activity. The significance of the timing of self-monitoring and the particular type of self-monitoring being used are uncertain.

이 연구의 목적은 GME에서 자체 모니터링의 상태를 더 잘 이해하기 위한 것으로, 특히 자체 모니터링이 GME에 어떻게 통합되는지, 즉 [자기 모니터링]이 어떻게 [특성화, 개발, 장려, 측정]되는지 조사했습니다(표 1). 여기서 

  • '특성화'는 자체 모니터링에 참여하는 과정과 자체 모니터링에 영향을 미치는 요인을, 
  • '개발'은 자체 모니터링의 품질을 개선하기 위한 전략을, 
  • '장려'는 자체 모니터링의 빈도나 적절성을 높이기 위한 조치를, 
  • '측정'은 자체 모니터링의 정확성이나 성과에 미치는 영향을 의미합니다. 

이를 통해 자체 모니터링을 촉진하고, 경험적 문헌의 격차를 파악하며, 향후 자체 모니터링 연구에 대한 방향을 제시하기 위해 GME 내 모범 사례를 발굴하고자 합니다.

The purpose of this study is to better understand the state of self-monitoring in GME; specifically, we examined how self-monitoring is incorporated in GME—how self-monitoring is characterised, developed, encouraged and measured (Table 1). For our purposes,

  • “characterised” describes the process of engaging in self-monitoring and factors that influence self-monitoring;
  • “developed” represents strategies to improve the quality of self-monitoring;
  • “encouraged” means actions intended to increase the frequency or appropriateness of self-monitoring; and
  • “measured” refers to the accuracy or impact on performance of self-monitoring.

In doing so, we hope to discover the best practices within GME to promote self-monitoring, identify the gaps in the empirical literature and recommend future directions for self-monitoring research within GME.

2 방법

지식 종합의 한 유형인 범위 검토는 향후 연구를 위해 무르익은 지식이나 관행의 격차를 파악한다는 중요한 목적을 위해 대량의 문헌을 종합하여 현재 상태를 파악하는 데 가장 적합합니다.23 따라서 우리는 광범위한 연구 질문을 해결하기 위해 Arksey와 O'Malley의 6단계인 연구 질문 식별, 관련 연구 식별, 포함된 연구 선택, 데이터 차트 작성, 결과 집계 및 요약, 주요 이해 관계자 또는 전문가 자문에 따라 범위 검토를 수행했습니다.23-25 
As a type of knowledge synthesis, scoping reviews are best for synthesising a large volume of literature to understand its current state for the overarching purpose of identifying gaps in knowledge or practice that are ripe for future research.23 Therefore, we performed a scoping review to address our broad research question, following Arksey and O'Malley's six steps: identifying a research question, identifying relevant studies, selecting included studies, charting the data, collating and summarising the results and consulting key stakeholders or experts.23-25

연구 질문 식별
Identifying a research question

우리는 예비 문헌 검색을 수행하고 연구 질문을 구체화하기 위해 협력적인 토론을 진행했습니다:

  • 자가 모니터링은 GME에 어떻게 통합되어 있는가(예: 특성화, 개발, 장려 및 측정)?

We conducted preliminary literature searches and had collaborative discussions to hone our research question:

  • How is self-monitoring incorporated (e.g. characterised, developed, encouraged and measured) in GME?

관련 연구 식별
Identifying relevant studies

연구 사서와 협력하여 4개월 동안 검색을 최적화한 후 2019년 4월에 문헌 검색을 실시했으며, 2022년 10월에 업데이트된 검색을 실시했습니다. 검색은 Ovid Medline, Web of Science, PsychINFO, Eric 및 EMBASE 데이터베이스를 쿼리했습니다. 각 데이터베이스에 대한 구체적인 검색 전략은 데이터 S1에서 확인할 수 있습니다. 예비 검색 전략에 따라 자가 모니터링을 설명하는 데 사용되는 용어의 이질성과 GME 특정 집단에 대한 문헌의 양이 불확실하다는 점을 고려하여 의도적으로 포괄적이고 광범위한 검색 전략을 수립했습니다. 
We spent 4 months optimising our search in collaboration with a research librarian and then conducted our literature search in April 2019, with an updated search conducted in October 2022. The search queried Ovid Medline, Web of Science, PsychINFO, Eric and EMBASE databases. These specific search strategies for each database can be found in Data S1. We intentionally created an inclusive, broad search strategy given the heterogeneity of terms used to describe self-monitoring and uncertainty of volume of literature for a GME-specific population based on our preliminary search strategies.

포함된 연구 선택
Selecting included studies

중복, 1999년 이전의 출판물, 리뷰, 관점 및 의견과 같은 비일차 문헌을 제거했습니다. 두 명의 저자(WRJ 및 SJD)가 제목, 초록 및 색인된 설명 필드를 검토하여 GME 모집단이 없거나, 자가 모니터링과 관련이 있을 것 같은 내용이 없고, 정보가 불충분한 결과를 제외했습니다. 이견이 있는 경우 전체 텍스트 검토에 포함시켰습니다. 각 논문 전문은 동일한 제외 기준을 적용하여 두 명의 저자(WRJ 및 AMB, ARA 또는 SJD)가 검토했습니다. 방법 및 결과 섹션을 가장 면밀히 검토하여 내용이 자체 모니터링의 정의에 부합하는지 확인했습니다. 의견이 일치하지 않는 부분은 합의에 도달할 때까지 최소 3명의 저자와 함께 그룹으로 논의했습니다. 이러한 논의는 자체 모니터링의 정의3를 실제로 적용할 수 있는 프레임워크로 운영하는 데 도움이 되었습니다. 전체 텍스트를 검토하는 동안, 관련성이 있을 수 있는 인용이 검색 결과에 포함되었는지 확인했습니다. 참고 문헌이 누락된 경우, 참고 문헌의 전문을 검토하여 포함 가능성을 평가했습니다.
We removed duplicates, publications before 1999 and non-primary literature, such as reviews, perspectives and opinion pieces. Two authors (WRJ and SJD) reviewed titles, abstracts and indexed descriptive fields to exclude results without a GME population, without content likely related to self-monitoring and with insufficient information. Any disagreements were included for full text review. Each full text article was reviewed by two authors (WRJ and AMB, ARA or SJD) with the same exclusion criteria. The methods and results sections were most heavily scrutinised to ensure that the content met our definition of self-monitoring. Any disagreements were discussed as a group with a minimum of three authors until consensus was reached. These discussions helped us to operationalise the definition of self-monitoring3 into a framework that we could practically apply. During the full text review, we looked at potentially relevant citations to ensure that they had been captured in our search results. Where a reference was missing, we evaluated the full text of the reference for potential inclusion.

데이터 차트화
Charting the data

포함된 논문의 하위 집합을 예비 코딩하고 공동 저자 간의 그룹 토론을 통해 반복적으로 개발한 코딩 시트를 사용하여 데이터를 도표화했으며, 사회 인지 이론인 SRL 이론과 특히 자기 모니터링에 근거하여 데이터를 도표화했습니다. 최종 코딩 시트를 포함된 각 논문에 적용했습니다(데이터 S2). 논문 유형의 이질성을 고려하여 의학교육 연구 품질 도구질적 연구 보고 표준이라는 잘 연구된 두 가지 품질 지표를 사용하여 각 연구의 질을 평가했습니다.26, 27 양적 연구는 의학교육 연구 품질 도구로, 질적 연구는 질적 연구 보고 표준으로, 혼합 방법 연구는 이 두 가지를 모두 사용하여 평가했습니다. 모든 분야가 각 연구와 관련이 있는 것은 아니므로, 해당 분야에 따라 논문이 받을 수 있는 최대 점수의 백분율로 품질 점수를 보고하기로 결정했습니다. 한 명의 저자(WRJ)가 각 논문을 코딩했습니다. 두 번째 저자(AMB, ARA 또는 SJD)가 각 논문을 검토하고 코딩을 할당했습니다. 불일치하는 부분이 있으면 최소 3명의 저자(ARA, SJD, WRJ)가 참석한 가운데 토론을 통해 해결했습니다. 
We charted the data using a coding sheet that we developed iteratively by preliminary coding a subset of included articles and group discussions among the co-authors, grounded in a social cognitive theory of SRL theory and, specifically, self-monitoring. We applied the final coding sheet to each included article (Data S2). Given the heterogeneity of types of articles, we assessed the quality of each study using two different, well-studied quality metrics—the Medical Education Research Study Quality Instrument and Standards for Reporting Qualitative Research.26, 27 Quantitative studies were evaluated with the Medical Education Research Study Quality Instrument, qualitative studies with the Standards for Reporting Qualitative Research and mixed methods studies with both. Given that not all fields were relevant for each study, we decided to report quality scores as a percentage of the maximum possible points an article could receive based on the applicable fields. One author (WRJ) coded each article. A second author (AMB, ARA or SJD) reviewed each article and assigned coding. Any discrepancies were resolved through discussion with a minimum of three authors present (ARA, SJD and WRJ).

결과 집계 및 요약
Collating and summarising the results

한 명의 저자(WRJ)가 결과를 취합하고 요약하여 공동 저자들과 논의했습니다. 함께 결과를 검토하고 그룹 합의를 통해 어떤 결과를 결과로 포함할지 결정했습니다. 이러한 결과를 바탕으로 우리는 조사 결과에서 얻을 수 있는 주요 메시지와 자체 모니터링 문헌에 추가할 가치를 결정하기 위해 협력했습니다. 데이터 취합 과정에서 우리는 판단에 영향을 미칠 수 있는 편견을 인식하고 반성하는 태도를 취하려고 노력했습니다. 
One author (WRJ) collated and summarised the results to discuss with the co-authors. Together, we reviewed the findings and, through group consensus, determined which findings to include as results. Based on these results, we collaborated to determine the key take away messages from our findings and value added to the self-monitoring literature. Throughout the collation process, we attempted to practice reflexivity, recognising our biases that may impact our judgements.

주요 이해관계자 또는 전문가 자문
Consulting key stakeholders or experts

검토 과정 전반에 걸쳐 이해관계자 및 SRL 분야 전문가와 상의하여 연구 질문에 대해 논의하고 포함된 논문을 검토하여 관련 출판물이 누락될 위험을 최소화했습니다. 저희는 의학교육의 SRL 분야에서 동료 심사 저널 논문을 여러 편 게재한 전문가를 고려했습니다. 제안된 논문은 검색 결과에 포함되었는지 여부에 따라 포함 여부를 검토하거나 재검토했습니다. 
Throughout the review process, we consulted stakeholders, experts in the field of SRL, to discuss our research question and review our included articles to minimise the risk of relevant missing publications. We consider expert individuals who had published multiple peer-reviewed journal articles in the field of SRL in medical education. Any suggested articles were reviewed or re-reviewed for inclusion, depending on whether they had been included in our search results.

3 결과

문헌 검색을 통해 중복을 제거한 후 5개의 다른 데이터베이스에서 5363개의 논문이 검색되었습니다. 초록과 전문 논문의 반복적인 검토를 통해 72편의 논문을 확인했으며, 참고 문헌 검색과 전문 컨설턴트의 피드백을 통해 찾은 5편의 논문을 추가한 후 77편의 논문으로 증가했습니다(그림 2). 
The literature search yielded 5363 articles from the five different databases, after removing duplicates. Through iterative reviews of the abstracts and full text articles, we identified 72 articles for inclusion, which increased to 77 articles after we added five articles that we found during reference hand searching and via feedback from our expert consultants (Figure 2).

범위 검토 프로세스에서 얻은 결과
Findings from the process of the scoping review

범위 검토를 수행하는 과정, 즉 무엇을 포함하거나 제외할지 결정하는 과정은 자가 모니터링을 이해하는 방식을 형성했습니다. 우리는 [자신의 성과에 대한 순간적인 자기 인식]인 [자가 모니터링]에 대한 [문헌의 명확한 정의]에서 프로세스를 시작했으며,3 [일관되지 않은 언어와 정의가 부족한 이질적인 문헌의 바다]에서 정의를 조작화하면서 [자가 모니터링의 실질적인 한계를 보다 명확하게 정의해야 한다]는 것을 알게 되었습니다. 자가 모니터링을 다른 유형의 자기 인식, 특히 자기 평가와 구별하기 위해 포함 사항과 제외 사항에 대한 논의를 통해 개발한 프레임워크를 아래에 공유합니다. 
The process of performing the scoping review—of deciding what should be included or excluded—shaped the way that we understand self-monitoring. We started the process with a clear definition from the literature of self-monitoring, an in-the-moment self-awareness of one's performance,3 and found that operationalising the definition in a sea of heterogeneous literature with inconsistent language and lack of definitions forced us to define the practical limits of self-monitoring more clearly. We share below the framework that we developed through dialogue around inclusions and exclusions for distinguishing self-monitoring from other types of self-awareness and particularly self-assessment.

자기 모니터링과 자기 평가의 개념은 연속선상에 놓여 있다고 생각하시면 됩니다(그림 3).

  • 어떤 자기 인식의 순간은 매우 명확하게 자기 모니터링인 반면, 어떤 순간은 자기 평가이며, 또 다른 순간은 그 중간 어딘가에 있습니다. 우리는 이 연속체가 시간맥락의 좌표를 따라 놓여 있다고 제안합니다.
  • 시간은 자기 인식과 실제 또는 재현된(예: 비디오로 관찰한) 작업 수행의 시간적 근접성을 측정합니다. 자기 인식이 과제와 시간적으로 분리되지 않고 발생하는 경우, 자기 인식은 시간에 따라 달라집니다.
  • 컨텍스트단일 과제 수행에 대한 자기 인식의 특이성을 측정합니다. 특정 단일 작업 수행에 대해 자기 인식이 발생하는 경우, 자기 인식은 컨텍스트에 따라 달라집니다.
  • 자기 인식이 시간에 따라 달라지고 상황에 따라 달라지면 자기 모니터링입니다.
  • 컨텍스트시간 의존성을 모두 충족하지 못하는 자기 인식은 자기 평가입니다(그림 3).
  • 그러나 모든 자기 평가가 동일한 것은 아닙니다.
    • 컨텍스트 의존성을 충족하는 자기 평가는 컨텍스트 의존성이 결여된 자기 평가보다는 자기 모니터링에 더 가깝고, 이 리뷰의 일부 결과는 컨텍스트 특이적 자기 평가에 적용될 수도 있습니다.
    • 한 사람이 한 가지 일을 수행하면서 다른 일을 생각하는 등 멀티태스킹을 해야 하는 경우, 시간에 의존적이고 상황에 독립적인 자기 인식이 발생할 가능성은 낮습니다.28 우리는 이러한 유형의 자기 인식을 정의되지 않은 자기 인식이라고 분류했습니다.

We suggest that the concepts of self-monitoring and self-assessment lie on a continuum (Figure 3).

  • Some moments of self-awareness are very clearly self-monitoring; whereas others are self-assessment; and still others, somewhere in the middle. We propose that the continuum lies along the coordinates of time and context.
  • Time measures the temporal proximity of the self-awareness and actual or relived (e.g. video observed) task performance. When self-awareness occurs without temporal separation from the task, the self-awareness is time dependent.
  • Context measures the specificity of self-awareness to a single performance of a task. When self-awareness occurs about a specific, single performance of a task, the self-awareness is context dependent.
  • When self-awareness is both time dependent and context dependent, then it is self-monitoring.
  • Self-awareness that fails to meet both context and time dependence is self-assessment (Figure 3).
  • However, not all self-assessment is equivalent.
    • Self-assessment that achieves context dependence is more like self-monitoring than self-assessment that lacks context dependence, and, perhaps, some of our findings in this review apply to context-specific self-assessment.
    • Self-awareness that is time dependent and context independent is unlikely to occur, given a person would have to multitask to do this—performing one thing, while thinking about another.28 We have labelled this type of self-awareness as undefined self-awareness.

포함된 문헌의 내용에서 얻은 결과
Findings from the content of the included literature

표 2에는 결과 요약이 나와 있으며, 자세한 결과는 데이터 S3에서 확인할 수 있습니다. 이 문헌에는 GME에서 자가 모니터링의 특성, 개발, 장려 및 측정 방법을 탐구하는 연구가 포함되어 있습니다. 문헌의 이질성으로 인해 명확한 결론을 내리기는 어렵습니다. 그러나 자가 모니터링의 특성, 개발, 장려 및 측정 방법에 대한 몇 가지 일관된 주제가 있다고 생각합니다.

Table 2 presents a summary of the results with more detailed results available in Data S3. The literature includes studies that explore how self-monitoring is characterised, developed, encouraged and measured in GME. The heterogeneity of the literature makes definitive conclusions difficult. However, we believe that there are some consistent themes for how self-monitoring is characterised, developed, encouraged and measured.

[자가 모니터링 과정] 또는 [자가 모니터링에 영향을 미치는 요인]에 초점을 맞춘 연구를 [자가 모니터링 특성화 연구]로 분류했습니다.

  • 대부분의 연구에서 [훈련 연수가 많은 훈련생]이 [훈련 연수가 적은 훈련생]보다 정확도가 높았습니다.29-32
  • 또한 대부분의 연구에서 높은 수준의 훈련생이 더 정확한 자가 모니터링을 수행했으며,19, 33-35 자신의 성과를 과소평가하는 경향이 있었습니다.33, 36
  • 동시 자가 모니터링의 정확도는 작업의 정신적 노력이 증가할수록 저하되었으며,10, 37, 38 주의 산만 증가,39 실수,40 작업 난이도,40, 41 등을 포함합ㄴ디ㅏ.
  • 전문가의 질문,42 목표 및 이전 경험이 자가 모니터링을 유발하는 것으로 나타났습니다.43
  • 자가 모니터링 시기가 정확도에 미치는 영향에 대한 연구 결과는 동시적 자가 모니터링이 후향적 자가 모니터링보다 더 정확하다는 일부 연구,44 그 반대의 결과를 보인 연구32,45 및 동시적 자가 모니터링과 후향적 자가 모니터링 간에 차이가 없다는 연구34,46와 일치하지 않았습니다.

We classified studies as characterising self-monitoring when the study focused on the self-monitoring process or the factors that influence self-monitoring.

  • Trainees with more years of training had more accuracy than trainees with less years of training, in most studies.29-32 
  • Trainees who performed at a higher level also had more accurate self-monitoring, in most studies,1933-35 and tended to underestimate their performance.3336 
  • The accuracy of concurrent self-monitoring degraded with increased mental effort of task,103738 which includes increased distractions,39 mistakes,40 task difficulty,4041 
  • questions from experts,42 goals and prior experiences triggered self-monitoring.43 
  • The findings about the influence of timing of self-monitoring on accuracy were inconsistent with some studies finding that concurrent self-monitoring is more accurate than retrospective self-monitoring,44 others finding the opposite3245 and still other studies finding no difference between concurrent and retrospective self-monitoring.3446

저희는 자가 모니터링의 [빈도나 적절성을 높이는 데 초점]을 맞춘 연구를 [자가 모니터링을 장려]하는 것으로 분류했습니다.

  • 사용하기 쉬운 로그 또는 자가 모니터링 도구는 자가 모니터링 빈도를 증가시키는 것으로 나타났습니다.47-49
  • 자가 모니터링에 할애할 시간을 확보하는 것도 자가 모니터링 빈도를 증가시키는 것으로 나타났습니다.21, 50-52

We classified studies as encouraging self-monitoring if they focused on increasing the frequency or appropriateness of self-monitoring.

  • Easy to use logs or self-monitoring instruments seemed to increase frequency of self-monitoring.47-49 Carving out time to dedicate to self-monitoring also seemed to increase frequency of self-monitoring.2150-52

자가 모니터링의 정확성 또는 특정 결과에 대한 자가 모니터링의 영향에 초점을 맞춘 연구를 [자가 모니터링을 측정]하는 것으로 분류했습니다.

  • 자가 모니터링에 참여한 교육생(자가 모니터링을 하지 않았거나 빈도가 낮은 교육생에 비해)은 더 나은 성과를 거두거나 더 큰 성과 향상을 보였으며,51-56 이러한 성과 효과는 동시51-53, 55 및 후향적54, 56 자가 모니터링 모두에 해당되는 것으로 나타났습니다.
  • 또한 자가 모니터링은 환자 수준의 결과57 및 직장 내 임상 행동에 긍정적인 영향을 미칠 수 있습니다.58, 59
  • 그러나 자가 모니터링을 측정한 대부분의 연구는 전문가 평가22, 29-32, 34-36, 44, 45, 60-71 동료 평가35, 72 또는 표준화된 임상 관리와 비교하여 성과에 대한 자가 판단의 정확성에 초점을 맞추었습니다.37-39, 47, 73-75 연구에서는 자가 평가와 전문가 평가 사이에 일치하지 않는 것부터 강한 일치까지 다양한 결과가 나타났습니다.
  • 코칭, 피드백 또는 표준 설정과 같은 개입을 통해 교육생의 자가 평가를 보정하는 방법이 포함된 연구에서 더 긍정적인 일치도를 보이는 경향이 있었습니다.19, 20, 60, 61, 64, 76, 77

We classified studies as measuring self-monitoring if they focused on accuracy of self-monitoring or impact of self-monitoring on a specified outcome.

  • Trainees who engaged in self-monitoring (as compared with those that did not or did so less frequently) had better performances or larger performance gains,51-56 and this performance effect seemed to hold true for both concurrent51-5355 and retrospective5456 self-monitoring.
  • In addition, self-monitoring could have positive impacts on patient-level outcomes57 and workplace clinical behaviours.5859 
  • Most of the studies that measured self-monitoring, however, focused on the accuracy of self-judgement of performance compared with an expert rating,2229-3234-36444560-71 peer rating3572 or standardised clinical management.37-394773-75 Studies showed everything from no agreement to strong agreement between self-ratings and expert ratings.
  • Studies that included some method for calibrating trainees' self-ratings through interventions such as coaching, feedback or standard setting tended to show more positive agreement.19206061647677

우리는 자가 모니터링 개선에 초점을 맞춘 연구를 [자가 모니터링 개발] 연구로 분류했습니다.

  • 전문가 피드백60-62 코칭68, 78-80 및 자가 모니터링 방법에 대한 전용 교육(예: 교훈)20, 51, 57-59, 81 모두 자가 모니터링의 정확성 또는 자가 모니터링과 함께 트레이너의 성과에 긍정적인 영향을 미치는 것으로 나타났습니다.
  • 대부분의 연구에서 자가 모니터링과 코칭의 결합 효과와 코칭 단독 효과의 영향력을 구분할 수 없었지만, 일부 연구에서는 각 개입의 단독 효과와 시너지 효과가 있다고 제안했습니다.54, 67, 82 부정적인 결과가 나온 연구 중 자가 모니터링과 코칭 또는 전문가 피드백을 병행한 연구는 없었습니다.

We classified studies as developing self-monitoring if they focused on improving self-monitoring.

  • Expert feedback,60-62 coaching6878-80 and dedicated instruction (e.g. didactics) on a method for self-monitoring205157-5981 all seemed to positively influence the accuracy of self-monitoring or trainee performance in conjunction with self-monitoring. Differentiating the influence of the combined effect of self-monitoring and coaching versus coaching alone was not possible in most studies; however, some studies suggested that there is a synergistic difference from the effect of each intervention alone.546782 None of the studies with negative findings paired self-monitoring with coaching or expert feedback.

4 토론

범위 검토를 통해 GME에서 자가 모니터링의 역할을 탐색하는 것은 현존하는 문헌에서 [명확한 정의가 부족]하고 [일관되지 않은 언어]로 인해 특히 어려웠습니다. 자체 모니터링을 GME에 통합하기 위한 명확한 모범 사례를 확인할 수는 없었지만, GME에서 자체 모니터링의 유용성을 뒷받침하는 트렌드는 확인할 수 있었습니다. 또한, 범위 검토 과정과 결과는

  • (a) 자체 모니터링을 식별하기 위한 실용적인 프레임워크를 개발하고,
  • (b) 질문 및 시기와 관련하여 다양한 유형의 자체 모니터링을 인식하고,
  • (c) 자체 모니터링의 유용성을 확인하고,
  • (d) 자체 모니터링에 관한 문헌의 한계를 인식하는 데 도움이 되었습니다.

Exploring the role of self-monitoring in GME through a scoping review was particularly challenging because of the lack of clear definitions and inconsistent language in the extant literature. We were unable to identify clear best practices for incorporating self-monitoring into GME; however, we did identify trends that support the usefulness of self-monitoring in GME. Moreover, the scoping review process and results helped us to

  • (a) develop a practical framework for identifying self-monitoring,
  • (b) recognise different types of self-monitoring with respect to question and timing,
  • (c) confirm the usefulness of self-monitoring and
  • (d) appreciate the limitations of the literature on self-monitoring.

[자가 모니터링의 개념]을 설명하는 데 사용되는 용어는 20개 이상이지만, [사용된 용어에 대한 정의]가 포함된 연구는 20% 미만이었습니다. 자가 모니터링과 자가 평가가 보건 전문직 교육 문헌에서 명확하게 정의되어 있다는 점을 고려할 때 이러한 일관성 부족은 의외입니다.3, 8 안타깝게도 문헌에 제시된 명확한 정의가 보편적인 채택으로 이어지지는 않는 것 같습니다. 저희는 범위 검토를 통해 기존의 자가 모니터링 정의를 운영하기 위해 상당한 노력을 기울였기 때문에 명확한 정의가 반드시 쉽게 적용될 수 있는 것은 아니라는 사실을 알게 되었습니다(그림 3). 하지만 적용이 어렵다고 해서 정의를 일관되게 배제하는 것이 변명의 여지가 있는 것은 아닙니다. 따라서 우리는 문헌에 정의가 부족한 것은 자가 모니터링에 대해 연구하는 저널과 연구자가 매우 다양하기 때문일 수 있다고 가설을 세웠습니다. 정의가 포함된 논문(n = 13) 중 거의 85%(n = 11)가 보건 전문가 교육 중심 저널에서 나왔고, 임상 중심 저널에서 나온 정의가 포함된 논문은 단 1편에 불과했습니다. 하지만 대부분의 교육 중심 저널 논문(69%, n = 24)에도 정의가 포함되어 있지 않았습니다. 
We found more than 20 terms used to describe the concept of self-monitoring, yet fewer than 20% of studies included a definition of the term used. We found this lack of consistency surprising given that self-monitoring and self-assessment have been clearly defined in the health professions education literature.3, 8 Unfortunately, it seems a clear definition provided in the literature does not lead to universal adoption. Through our scoping review, we also came to appreciate that a clear definition does not necessarily make for easy application, as we spent significant effort operationalising the existing definition of self-monitoring (Figure 3). That said, difficulty with application does not excuse the consistent exclusion of definitions. We hypothesize, then, that the lack of definitions in the literature may be related to the wide variety of journals that publish and investigators who examine self-monitoring. Of the articles that included definitions (n = 13), nearly 85% (n = 11) came from health professions education-focused journals; only one article with a definition emerged from a clinically focused journal. Still, most educationally focused journal articles (69%, n = 24) also did not include a definition.

또한 많은 연구에서 [인증 기관이 정의]의 유무에 영향을 미쳤을 수 있다고 언급했습니다. 교육 인증 기관은 빠르면 1990년대 후반부터 인용되었습니다. 이 범위 검토에 포함된 문헌에 언급된 이전 버전의 인증 표준을 모두 찾을 수는 없었지만, 동일한 [인증 기관의 현재 표준]을 면밀히 검토한 결과 [명확하게 정의된 용어가 부족]하다는 것을 알 수 있었습니다. 예를 들어, ACGME 이정표 가이드북에는 정의 없이 "자가 평가" 또는 "자가 지시"가 16번 언급되어 있습니다.83 따라서 인증 기관의 교육 지침을 따르는 임상의들도 일반적으로 일관된 언어나 정의를 사용하지 않는 것은 당연한 일입니다. 이러한 연구를 발전시키기 위해 연구자와 인증 기관 모두 이전 연구를 기반으로 한 명확한 정의를 사용할 것을 강력히 권장합니다. 명확한 정의는 검색 가능성을 개선하고 비교를 가능하게 하며, 명확한 정의는 향후 연구를 더욱 효과적으로 이끌 것입니다. 
Moreover, many studies cited accreditation bodies that may have influenced the definitions or lack thereof. Educational accreditation bodies are cited from as early as the late 1990s. Although we could not find all the older versions of accreditation standards referenced in the included articles of this scoping review, close examination of current standards from the same accreditation agencies demonstrates a lack of clearly defined terminology as well. The ACGME Milestones guidebook, for example, mentions “self-assessment” or “self-direct” 16 times without a definition.83 It is no wonder, then, that clinicians following educational guidance of their accreditation bodies are generally not using consistent language nor definitions either. To advance this line of research, we strongly recommend the use of clear definitions—by both researchers and accreditation bodies—that build off prior work. Clear definitions would improve searchability and allow for comparisons; clear definitions would also drive more effective future research.

[자체 모니터링의 보편적인 매력]은 또한 자체 모니터링 구현 및 정의와 관련하여 문헌의 이질성을 유발할 수 있습니다. 자기 모니터링은 각각 [자기 주도 학습]과 [자기 조절 학습SRL]이라는 교육 및 심리학 이론에 뿌리를 두고 있습니다.14-16 자기 모니터링은 이러한 이론의 핵심적인 특징이며, 이 작업 중 일부는 상당히 난해하고 이론적일 수 있습니다. 그러나 이번 리뷰에 포함된 출판물의 50% 이상(n=42)이 교육에 초점을 맞추지 않은 저널에서 나온 것에서 알 수 있듯이 자기 모니터링의 매력은 광범위합니다. 다음과 같은 궁금증이 생겼습니다: 이러한 결과가 인증 기관의 언어 변화와 관련이 있을까요? [교육에 중점을 둔 인증 기관]이 1990년대 후반부터 자체 모니터링 [연구의 주요 동기로 언급]되었으며,47, 58 [전문 분야별 인증 기관]은 2000년대 후반에 연구자들에게 동기를 부여하는 것으로 나타났습니다.53, 61, 84 그럼에도 불구하고 인증 기관을 동기로 언급한 연구는 소수에 불과했습니다(32%, n = 25). 아마도 말콤 글래드웰의 『아웃라이어』(2008)나 앤더스 에릭슨의 『피크』(2016)와 같은 인기 도서에서 자기 모니터링 개념이 등장한 것이 유비쿼터스적인 관심의 일부를 설명하거나, 자기 개선의 직관적인 특성으로 인해 거의 모든 사람이 주어진 작업에 대해 자기 모니터링에 접근할 수 있다고 느끼는 것일 수도 있습니다. 이유야 어떻든, 자기 모니터링의 개념은 교육 및 심리학 이론가들과 임상을 염두에 둔 실무자들 모두에 의해 고려되고 있습니다. 이에 따라 자가 모니터링을 탐구하는 논문이 증가하고 있는 것으로 보입니다. 검색에 포함된 논문 중 25% 이상이 지난 4년 이내에 출판되었습니다. 정확한 이유는 아직 불분명하지만, 특히 지속적인 연구가 최대한 생산적이고 의미 있으며 실용적이기를 원한다면 문헌 내에서 일관성을 유지하는 것이 그 어느 때보다 중요해 보입니다. 

The ubiquitous appeal of self-monitoring may also drive the heterogeneity of the literature, both with respect to self-monitoring implementation and definitions. Self-monitoring is rooted within educational and psychological theories of self-directed learning and SRL, respectively.14-16 Self-monitoring is a core feature of these theories, and some of this work can be quite esoteric and theoretical. Yet, the appeal of self-monitoring is broad, as evidenced by the fact that over 50% (n = 42) of the publications included in our review came from non-educationally focused journals. We wonder the following: Could this finding be related to changes in the language of accreditation bodies? Educationally focused accreditation bodies are cited as a primary motivation for studying self-monitoring as early as the late 1990s,47, 58 and specialty-specific accreditation bodies appeared to motivate researchers in the late 2000s.53, 61, 84 Still, only a minority of studies cited accreditation bodies as motivation (32%, n = 25). So, perhaps, the appearance of the concept of self-monitoring in popular books, such as Malcom Gladwell's Outliers (2008) or Anders Erickson's Peak (2016), explains some of the ubiquitous interest, or maybe, the intuitive nature of self-improvement makes self-monitoring feel accessible to almost everyone for a given task. Regardless of the reason, the concept of self-monitoring is being thought about both by educational and psychological theorists and by clinically minded practitioners alike. To that end, publications exploring self-monitoring appear to be rising. Over 25% of the articles included in our search were published within the last 4 years. Although the exact reason remains unclear, the importance of cultivating consistency within the literature seems more important than ever, especially if we want ongoing research to be as productive, meaningful and practical as possible.

이를 위해 우리는 문헌3의 자체 모니터링 정의를 사용하여 자체 모니터링을 식별하는 프레임워크(그림 3)를 만들고 이를 범위 검토 프로세스와 결합했습니다. 자체 모니터링 프레임워크는 포함 및 제외 프로세스의 초석 역할을 했습니다. 그럼에도 불구하고 일부 사람들에게는 자체 모니터링과 자체 평가의 연속성이 여전히 모호할 수 있습니다. 저희 중 세 명은 임상의이고, 두 명은 GME 교육생과 광범위하게 일하고 있습니다. 저희의 전문적 경험은 자가 모니터링을 결정할 때 시간 및 상황 의존성에 대한 임계값에 영향을 미쳤습니다.

  • [컨텍스트 의존성]을 유지하기에는 너무 큰 작업의 크기는 어느 정도일까요?
  • [시간 종속성]을 유지하기에는 너무 긴 시간(작업 전 또는 후)은 얼마나 되는가?

To that end, we created a framework for identifying self-monitoring (Figure 3) using a definition of self-monitoring from the literature3 and marrying that with the process of our scoping review. Our self-monitoring framework served as the cornerstone of our inclusion and exclusion processes. Still, the continuum of self-monitoring and self-assessment may continue to be blurry for some. Three of us are clinicians and two of us work extensively with GME trainees. Our professional experiences influenced our thresholds for time and context dependence in the determination of self-monitoring. Consider two questions—

  • what size of task is too big to remain context dependent?
  • How long is too long (pre- or post-task) to be time dependent?

예를 들어, 몇 분이 걸리는 간단한 열상을 봉합하는 작업에 대한 자체 판단은 분명 상황에 따라 달라지지만, 4-H 수술에 대한 자체 판단은 어떨까요? 특정 환자의 30일 입원 치료는 어떨까요?

  • 저희는 4-H 수술이 상황에 따라 달라질 수 있다고 생각합니다. 결국, 외과의가 이 정도(또는 그 이상)의 수술에 대한 기록을 작성할 것으로 예상되므로 수술 직후의 사건에 대한 기억만으로도 자가 모니터링에 충분할 것입니다.
  • 그러나 한 명의 환자가 30일간 입원하는 경우, 수련의가 내내 환자를 돌보았다고 해도 입원 마지막 날에 상세한 문서화를 기대하는 것은 합리적이지 않습니다. 문서는 상세한 설명보다는 요약본에 가까울 것입니다. 

[상황에 따른 임계값]을 충족하려면 수행자가 [상세한 설명을 제공할 수 있을 정도로 작은 작업]을 수행하는 것이 좋습니다. 

For example, a self-judgement of task of suturing a simple laceration that takes minutes is certainly context dependent, but what about self-judgement of a 4-h surgery? What about a 30-day inpatient stay of a specific patient? We suggest that the 4-h surgery can be context dependent.

  • After all, we expect surgeons to dictate notes about a surgery of this length (and even longer); thus, their recollection of the events in the time immediately after the procedure should be sufficient for self-monitoring.
  • However, for a 30-day admission of a single patient, even if a trainee was taking care of the patient the entire time, it would not be reasonable to expect a detailed documentation on the last day of the hospitalisation. The documentation would be much more a summary than a detailed account.

To meet the context-dependent threshold, we suggest that a task should be small enough for the performer to provide a detailed description.

[시간 의존성 임계값]을 식별하는 데에도 비슷한 접근 방식이 적용됩니다. 위의 단순 열상 봉합의 예를 다시 한 번 생각해 보겠습니다:

  • 조직 취급의 품질에 대한 자체 판단이 작업 후 몇 초 이내에 이루어졌다면 이는 확실히 시간 의존성 기준을 충족할 것입니다.
  • 하지만 자체 판단이 작업 후 30분 후에 이루어졌다면 어떨까요?
  • 또는 작업 후 7일이 지난 후였다면 어떨까요?

[수행자가 작업에 대해 자세히 설명하는 것이 합리적]이라고 생각되면 [시간 종속 기준이 충족]되는 것으로 간주합니다. 이는 작업 전후의 시간 경과 기간과 작업 시점과 자체 모니터링 시도 사이에 발생한 추가 작업의 수에 따라 달라질 수 있습니다.
A similar approach works for identifying the threshold of time dependence. Again, consider the example of suturing of a simple laceration above:

  • If a self-judgement about the quality of the tissue handling was made within seconds after the task, this would certainly meet the time-dependent criteria.
  • But what if the self-judgement was 30 min after the task?
  • Or what if it were 7 days after the task?

We suggest that the time-dependent threshold is met if it seems reasonable for the performer to give a detailed account of the task. This is likely dependent on both the duration of time that passes before or after a task and the number of additional tasks that occur between the time of the task and attempted self-monitoring.

[셀프 모니터링]은 수행되는 활동이나 작업의 성격에 따라 매우 다르게 보일 수 있습니다.

  • 저희는 사회인지 학습 이론의 관점에서 [다양한 유형의 자가 모니터링]을 예상했습니다(그림 1a).
  • 문헌 검토를 통해 교육생이 이 세 가지 유형의 자가 모니터링을 각각 수행하기 위해 물어볼 수 있는 [질문의 예를 공식화]하는 데 도움이 되었습니다(그림 1b).
  • 문헌을 검토하는 동안 자가 모니터링 유형에 대한 또 다른 차원, 즉 [시기의 가변성]에 주목했습니다. 작업 전, 작업 중, 작업 후에 발생하는 자가 모니터링을 발견했습니다.

Self-monitoring can look very different depending on the nature of the activity or task performed.

  • We anticipated the different types of self-monitoring from the perspective of social cognitive learning theory (Figure 1a).
  • Our review of the literature helped to formulate examples of questions that a trainee might ask to perform each of these three types of self-monitoring (Figure 1b).
  • During our review of the literature, we appreciated an additional dimension to the type of self-monitoring—the variability of timing. We encountered self-monitoring that occurred before, during and following a task.

또한 자기 모니터링은 작업 수행과 동시적으로, 또는 작업 수행을 회상하는 방법을 통해 후향적(회고적)으로 발생했습니다.

  • 회고적 자기 모니터링은 종종 비디오 녹화와 같은 기술을 사용하여 과제를 재현하기 위해 다시 그 과제를 떠올리게 하는 방식으로 이루어졌습니다(그림 4).
  • 우리는 회고적 자가 모니터링이 존재할 수 있는지에 대해 고민했습니다. 회고적 자기 모니터링은 앞서 설명한 시간 및 상황 의존적 기준에 거의 반직관적으로 보입니다. 우리는 과제를 실제로 재현하기 위한 충분한 노력이 있다면 개인이 과제의 마음가짐으로 완전히 또는 거의 완전히 돌아갈 수 있어야 맥락 의존적 임계값을 충족할 수 있다고 주장합니다.
  • [시간 의존적 기준]은 [동시 자기 모니터링]과 같은 방식으로 충족할 수 있습니다. 즉, 수행자가 [회고적으로 재현한 과제]에 대해 자세히 설명하는 것이 합리적이라고 판단되는 경우입니다.
  • 일부 연구에서는 수행에 대한 [동시적 자기 판단]과 [회고적 자기 판단]의 정확도를 비교한 결과 차이가 없거나,34, 46 동시적 자기 모니터링이 더 우수하고44 회고적 자기 모니터링이 더 우수하다는 결과가 엇갈렸습니다.32, 45 [높은 인지 부하]가 [자기 모니터링에 부정적인 영향을 미치는 것으로 보인다]는 점을 고려할 때,37-39 [매우 까다로운 작업]이나 [매우 산만한 상황]에서는 [회고적 자기 모니터링]이 최적일 수 있다는 가설이 있습니다.

Additionally, self-monitoring occurred concurrently, at the same time as the task performance or, retrospectively, through a method of reliving the task performance.

  • Retrospective self-monitoring often used technology, such as video recording, to bring a person back into mindset of the task (Figure 4) in an effort to relive it.
  • We wrestled with whether retrospective self-monitoring could exist. Retrospective self-monitoring seems almost counterintuitive to the time- and context-dependent criteria we have described. We argue that if there is sufficient effort to really relive the task, then an individual should be able to return to the mindset of the task completely or almost completely, thereby meeting the context-dependent threshold.
  • The time-dependent criterion can be met in the same way as concurrent self-monitoring: if it seems reasonable for the performer to give a detailed account of the retrospectively re-lived task.
  • Some studies compared the accuracy of concurrent versus retrospective self-judgement of performance with mixed results—no difference,3446 better with concurrent44 and better with retrospective self-monitoring.3245 Given that high cognitive load seems to negatively impact self-monitoring,37-39 we hypothesize that retrospective self-monitoring may be optimal for very demanding tasks or highly distracting contexts.


[자가 모니터링 데이터]는 [작업 전, 작업 중 또는 작업 후 동시에 수집]하거나, [작업 전, 작업 중 또는 작업 후 소급하여 수집]하는 등 [다양한 시점에 수집]할 수 있기 때문에, 서로 다른 연구 간의 자가 모니터링을 비교하는 것은 어렵습니다. 최소한 향후 연구의 연구자는 자가 모니터링을 자극 및/또는 기록하는 데 사용한 방법을 명확하게 설명할 것을 권장합니다. 방법에는 과제 전(과제 전), 과제 수행 중 또는 과제 수행 후(과제 후)의 자기 모니터링과 과제 간의 관계, 과제와의 동시적 또는 후향적 일치에 대한 설명이 포함되어야 합니다. 
The comparison of self-monitoring between different studies is difficult because self-monitoring data can be collected at many different time points:

  • concurrently before, during or following task and
  • retrospectively before, during or following task.

At the very least, we encourage investigators of future studies to clearly describe the methods they used to stimulate and/or record self-monitoring. Methods should include a description of the relationship between self-monitoring and the task—before (pre-task), during or following (post-task)—and the concurrence with the task—concurrent or retrospective.

[언어의 일관성]을 높이면 최적의 셀프 모니터링 시기 및/또는 다양한 순간에 대한 셀프 모니터링의 유용성을 명확히 하는 데 도움이 됩니다. [일관된 언어]는 연구를 비교하고 재현하는 것을 더 쉽게 만들어 결과적으로 더 영향력 있는 문헌을 만들 수 있습니다.85 예를 들어, 앞서 가설한 대로 [동시적 자가 모니터링]과 [후향적 자가 모니터링]의 장단점이 다르다고 가정해 보겠습니다.
Increased consistency of language will help to clarify the optimal timing of self-monitoring and/or utility of self-monitoring at different moments. Consistent language will make comparing and reproducing studies easier and, as a result, create a more impactful body of literature.85 For example, we imagine that the advantages and disadvantages of concurrent and retrospective self-monitoring are different, as previously hypothesized.

문헌의 이질성에도 불구하고 자가 모니터링이 유용하다는 분명한 신호가 있습니다. 자가 모니터링은 성과를 향상시키는 것으로 보이며,51-58, 65 일부 연구에서는 자가 모니터링이 보다 객관적인 성과 측정과 일치하는 것으로 나타났습니다.37-39, 73, 74, 86 그러나 자가 모니터링이 더 유용하거나 신뢰할 수 있는 시기와 장소는 문헌의 이질성으로 인해 여전히 불분명합니다. 명명법과 관련하여 문헌을 동질화하면 문헌의 비교와 집계가 더 쉬워지겠지만, 더 많은 연구가 필요합니다. 
Despite the heterogeneity of the literature, there is a clear signal that self-monitoring is useful. Self-monitoring seems to improve performance,51-58, 65 and some studies find that self-monitoring aligns with more objective performance measures.37-39, 73, 74, 86 When and where self-monitoring is more useful and/or reliable, however, remains unclear secondary to heterogeneity of the literature. Although homogenising the literature with respect to nomenclature will make comparisons and aggregation of literature easier, more research is also needed.

자가 모니터링의 [첫 번째 단계]는 [자가 모니터링을 하기로 결정하는 것]입니다.

  • 즉, [언제] 자가 모니터링을 하는 것이 적절한가요?
  • 일부 문헌에서는 무엇이 자가 모니터링을 촉발하는지에 대한 질문에 답하기 위해 자가 모니터링의 트리거를 탐색했지만,40,42,43 반드시 무엇이 자가 모니터링을 촉발해야 하는지에 대해서는 다루지 않았습니다.
  • 또한 자가 모니터링의 적절성을 자연스럽게 높이려고 시도한 연구는 단 한 건에 불과했습니다.40
  • 마찬가지로 자가 모니터링의 최적 빈도는 알려져 있지 않습니다.

The first step in self-monitoring is deciding to self-monitor—that is, when is self-monitoring appropriate?

  • Some literature has explored triggers for self-monitoring answering the question of what prompts self-monitoring,404243 but not necessarily what should prompt self-monitoring.
  • Additionally, we found only one study that attempted to naturally increase the appropriateness of self-monitoring.40 
  • Similarly, the optimal frequency of self-monitoring is unknown.

현재 문헌은 절차적 기술, 관리 또는 해석에 대한 성과에 대한 [작업 후 자기 판단(55건, n = 71%)에 초점]을 맞추고 있습니다. 그러나 절차적 술기 및/또는 관리 및 해석에 관한 의사 결정 시 환자의 안전을 위해 [가장 중요하고 적절한 것은 작업 전과 작업 중 자가 판단]입니다. 술기 전 자기 판단은 교육생이 준비 상태를 평가한 다음 실제 수행과 비교하여 측정할 수도 있지만, 술기 전 자기 판단을 평가하는 더 실용적인 방법은 도움 요청이나 준비 자료(예: 읽기, 비디오 및 메모)의 소화 과정을 기록하는 것입니다.

  • Moulton 등은 수술실에서의 자가 모니터링을 "해야 할 때 속도를 늦추는 것"으로 설명하며, 이는 작업 중 자가 모니터링을 설명합니다.87
  • Ilgen 등은 작업장 기반 연구에서 유사하게 임상 실습 중 수련의의 자가 모니터링 대부분이 실제로 작업 중이라고 제안합니다.41 

The current literature focuses on post-task self-judgements (55, n = 71%) of performance on procedural skills, management or interpretation. Yet, pre-task and during task self-judgement would seem most critical and appropriate for patient safety during procedural skills and/or decisions around management and interpretation. Although pre-task self-judgement could be measured through trainee estimation of preparedness and then compared against actual performance, another, more practical method for assessing pre-task self-judgement might be recording the request for help or digesting of preparatory materials (e.g. reading, videos and notes).

  • Moulton et al. describe self-monitoring in the operating room as “slowing down when you should,” which describes a during task self-monitoring.87 
  • Ilgen et al., in their workplace-based study, similarly suggest that most of trainees' self-monitoring during clinical practice is actually during task.41 

과제 수행 중 자가 모니터링을 포함하는 기존 연구가 부족하다는 점을 고려할 때, [과제 수행 중 자가 모니터링]은 [실제로 진행 중인 과제에 대한 사전 및 사후 자가 모니터링의 반복적 과정]이라고 개념화하는 것이 더 쉬울 수 있습니다. 과제 완료 후 수행이 미흡하다고 자가 판단하는 것은 향후 진료에 도움이 될지라도 수술 중인 환자나 퇴원 서류 작성에 도움이 되지 않지만, 과제의 구성 요소 후 수행에 대한 반복적인 자가 판단은 결과에 영향을 미칠 수 있습니다. 또한, [과제 후 절차적 기술에 대한 자가 판단]은 상당한 정확성을 시사하지만,19, 20, 29, 31, 32, 45, 48, 53, 54, 61, 64, 65, 70, 71, 76, 77, 84, 88 절차적 맥락에서의 결과가 비절차적 맥락으로 일률적으로 해석되는 것은 아닙니다. 자가 모니터링의 정확성 외에도 여러 연구에서 실제로 절차적 술기가 개선된 것으로 나타났습니다.52, 54-56, 65, 76 절차적 영역에 대한 향후 연구는 입증된 자가 모니터링의 정확성을 기반으로 자가 모니터링의 최적 시기를 탐색하고 자가 모니터링이 임상 진료에 미칠 수 있는 긍정적인 영향을 연구해야 합니다.

Based on the lack of existing research that includes during task self-monitoring, it may be easier to conceptualise pre- and post-task self-monitoring, such that during task self-monitoring is actually an iterative process of pre- and post-task self-monitoring of an ongoing task. A self-judgement of poor performance after the completion of a task will not help the patient under-the-knife or with their discharge paperwork in hand, even if it may improve future practice; however, an iterative self-judgement of performance after components of a task may well influence outcomes. Additionally, although the post-task self-judgement of procedural skills suggests decent accuracy,19, 20, 29, 31, 32, 45, 48, 53, 54, 61, 64, 65, 70, 71, 76, 77, 84, 88 findings within a procedural context do not uniformly translate to non-procedural contexts. Beyond the accuracy of self-monitoring, several studies actually showed improved procedural skills.52, 54-56, 65, 76 Future research in the procedural realm should build off the demonstrated accuracy of self-monitoring, explore the optimal timing of self-monitoring and study the likely positive impact of self-monitoring on clinical practice.

자가 모니터링의 유용성은 [비-프로시져 과제]에서도 유망한 것으로 보입니다. 그러나 대부분 문헌은 진단 또는 해석에 기반한 자가 모니터링 정확도,73-75 환자 결과57 또는 임상 행동에 초점을 맞추고 있습니다.51, 80 이러한 측정은 모두 장기적인 추적 관찰이 필요하며, [수술 문헌]에서는 [기술 술기의 객관적 구조화 평가], [절차 학습 개선 및 측정 시스템] 또는 [특정 수술에 대한 역량 평가 도구]와 같이 타당성 증거가 있는 여러 도구의 이점을 활용하고 있습니다. [비-프로시저 과제]에 대한 자가 모니터링 도구의 개발 및 구현은 교육생에게 또 다른 피드백 소스를 제공하고 비절차적 작업에서 자가 모니터링을 이해하는 데 필요한 데이터를 제공할 수 있습니다. 
The usefulness of self-monitoring seems promising even in non-procedural tasks. The literature, however, has mostly focused on self-monitoring accuracy based on diagnosis or interpretation,73-75 patient outcomes57 or clinical behaviours.51, 80 All of these measures require longer term follow-up, and the surgical literature has benefited from multiple instruments with validity evidence, such as Objective Structured Assessment of Technical Skills, System for Improving and Measuring Procedural Learning or Competency Assessment Tools for specific surgeries. The development and implementation of self-monitoring instruments for non-procedural tasks would provide another source of feedback for trainees and data for understanding self-monitoring in non-procedural tasks.

[코칭이나 피드백]을 통한 교정은 자가 모니터링의 정확성과 성과 향상에 중요한 역할을 하는 것으로 보입니다.20, 51, 60-62, 74, 76, 80 [코칭과 피드백이 자가 모니터링에 미치는 시너지 효과]에 대한 관찰은 [목표 설정, 동기 부여, 자가 모니터링 및 주기적 피드백 간의 상호 작용]을 설명하는 [SRL 이론]과 일치합니다. 이러한 관찰은 향후 연구 개발에 영향을 미칠 것이며,

  • 자기 판단의 정확성에 대한 순수한 측정에서 벗어나
  • 자기 모니터링을 장려하는 방법,
  • 특히 모든 유형의 자기 모니터링(자기 관찰, 자기 판단, 자기 반응)이 SRL 이론의 다른 핵심 특징의 맥락에서 임상 실습에 미치는 영향에 대한 조사로 문헌을 이동시키는 데 도움이 될 것입니다.

우리는 [양질의 자기 모니터링]이 당장의 업무 준비나 성과를 개선할 뿐만 아니라 동기 부여와 목표 설정에도 영향을 미쳐 전문가 성장에 더 큰 영향을 미칠 수 있다는 가설을 세웠습니다. 요약하자면, 향후 연구에서는 학습 설계를 지원하기 위해 다양한 학습 이론 프레임워크를 더 잘 활용해야 합니다.
Calibration, often via coaching or feedback, seems to play an important role in the accuracy of self-monitoring and even performance improvement.20, 51, 60-62, 74, 76, 80 The observation of the synergism of coaching and feedback with self-monitoring aligns with SRL theory, which describes the interplay among goal setting, motivation, self-monitoring and cyclical feedback. These observations should influence the development of future studies and help to

  • move the literature away from pure measurement of the accuracy of self-judgement and
  • towards an examination of the methods that encourage self-monitoring and,
  • in particular, the impact of increased self-monitoring of all types (self-observation, self-judgement and self-reaction) on clinical practice in the context of the other core features of SRL theory.

We hypothesize that quality self-monitoring cannot only improve in-the-moment task preparation or performance but also influence motivation and goal setting to have more global impact on professional growth. In sum, future research should do a better job utilising various learning theory frameworks to support study design.

본 연구 결과와 논의는 몇 가지 중요한 제한점을 염두에 두고 해석해야 합니다. 가장 주목할 만한 점은 자가 모니터링에 관한 문헌에서 사용된 용어의 이질성으로 인해 검색이 매우 어려웠다는 점입니다. 그 결과, 비교적 광범위한 검색 후 수작업으로 문헌을 포함하거나 제외하는 데 의존했습니다. 그럼에도 불구하고 날짜 범위와 언어별로 검색을 제한했습니다. 검색을 영어로 된 문헌으로 제한하면 저자가 독립적으로 수동 검토를 수행할 수 있습니다. 문헌 검색의 시작일은 우리가 사용한 자가 모니터링의 정의 이전 10년 전으로 선택했습니다.3 수동 검토는 인적 오류의 가능성을 높입니다. 우리는 제외된 논문에 대한 2차 검토, 포함된 논문의 참고문헌 수작업 검색, 전문가 검토 활용을 통해 이 문제를 해결하려고 노력했습니다. 또한 광범위한 수작업 검토로 인해 검토 완료가 지연되어 출판 전에 검색을 업데이트해야 했습니다. 또한 자가 모니터링에 대한 연구의 품질은 매우 다양하고, 그 중 상당수가 불완전하거나 타당성 근거가 불충분한 도구에 의존하는 낮은 수준의 연구로 인해 GME에서 자가 모니터링의 모범 사례를 식별하는 데 한계가 있었습니다. 이러한 한계를 해결하기 위해 사용된 방법론에 관계없이 포함된 각 논문의 품질 지표를 포함한 투명성을 선택하고 향후 연구 기회에 초점을 맞추었습니다. 
Our results and discussion should be interpreted with several important limitations in mind. Most notably, the heterogeneity of the terminology used in the literature on self-monitoring made searching very challenging. As a result, we relied on manual inclusion and exclusion of the literature after a relatively broad search. Nevertheless, we did limit our search by date range and language. Limiting the search to literature in the English language allows the authors to independently perform the manual review. We chose a start date of our literature search as 10 years prior to the definition of self-monitoring that we used.3 Manual review increases the probability of human error. We attempted to combat this with secondary reviews of excluded articles, hand searching of the references of our included articles and leveraging of expert review. The extensive manual review also delayed the completion of our review, requiring us to update our search before publication. Additionally, the quality of research on self-monitoring is highly variable, and much of it is of low quality, relying on instruments with incomplete or inadequate validity evidence, which limited our ability to identify best practices for self-monitoring in GME. To address this limitation, we chose transparency, including quality metrics for each included article, regardless of the methodology employed, and focused on the opportunities for future research.

5 결론

자가 모니터링은 복잡하지만 매력적인 현상으로, 특히 임상시험의 질과 임상 진료의 안전성을 개선하기 위한 연구 초점으로서 유망해 보입니다. 현재 문헌에는 명확한 정의와 용어가 부족하다는 점 등 여러 가지 과제가 산적해 있습니다. 이 범위 검토가 연구 질문과 연구 설계를 안내하는 용어, 정의 및 이론적 프레임워크에 대한 권장 사항을 제공함으로써 향후 GME의 자가 모니터링에 대한 연구의 토대가 되기를 바랍니다.
Self-monitoring is a complex yet appealing phenomenon that seems promising as a research focus to improve the quality of GME specifically and the safety of clinical practice more generally. The current literature is riddled with challenges, most notably a lack of clear definitions and terminology. We hope this scoping review will establish a foundation for future research on self-monitoring in GME by providing recommendations for terminology, definitions and theoretical frameworks to guide research questions and study designs.


Med Educ. 2023 Feb 5. doi: 10.1111/medu.15023. Online ahead of print.

A scoping review of self-monitoring in graduate medical education


1Military and Emergency Medicine and Medicine, Uniformed Services University of Health Sciences, Bethesda, Maryland, USA.

2Center for Health Professions Education, Uniformed Services University of Health Sciences, Bethesda, Maryland, USA.

3James A. Zimble Learning Resource Center, Uniformed Services University of the Health Sciences, Bethesda, Maryland, USA.

4Department of Medicine, Uniformed Services University of Health Sciences, Bethesda, Maryland, USA.

5School of Medicine and Health Sciences, George Washington University, Washington, District of Columbia, USA.

PMID: 36739527

DOI: 10.1111/medu.15023


Background: Physicians and physicians-in-training have repeatedly demonstrated poor accuracy of global self-assessments, which are assessments removed from the context of a specific task, regardless of any intervention. Self-monitoring, an in-the-moment self-awareness of one's performance, offers a promising alternative to global self-assessment. The purpose of this scoping review is to better understand the state of self-monitoring in graduate medical education.

Methods: We performed a scoping review following Arksey and O'Malley's six steps: identifying a research question, identifying relevant studies, selecting included studies, charting the data, collating and summarising the results and consulting experts. Our search queried Ovid Medline, Web of Science, PsychINFO, Eric and EMBASE databases from 1 January 1999 to 12 October 2022.

Results: The literature search yielded 5363 unique articles. The authors identified 77 articles for inclusion. The search process helped create a framework to identify self-monitoring based on time and context dependence. More than 20 different terms were used to describe self-monitoring, and only 13 studies (17%) provided a definition for the equivalent term. Most research focused on post-performance self-judgements of a procedural skill (n = 31, 42%). Regardless of task, studies focused on self-judgement (n = 66, 86%) and measured the accuracy or impact on performance of self-monitoring (n = 41, 71%). Most self-monitoring was conducted post-task (n = 65, 84%).

Conclusion: Self-monitoring is a time- and context-dependent phenomenon that seems promising as a research focus to improve clinical performance of trainees in graduate medical education and beyond. The landscape of current literature on self-monitoring is sparse and heterogeneous, suffering from a lack of theoretical underpinning, inconsistent terminology and insufficiently clear definitions.

관리추론: 핵심 특징과 개념 모델의 실증적 결정(Acad Med, 2023)
Management Reasoning: Empirical Determination of Key Features and a Conceptual Model 
David A. Cook, MD, MHPE, Christopher R. Stephenson, MD, Larry D. Gruppen, PhD, and Steven J. Durning, MD, PhD 



[관리 추론]은 임상 진료와 의학교육에서 매우 중요하지만 잘 연구되지 않은 현상입니다. 1,2 [진단 추론]과 관련된 임상 추론 프로세스는 상당한 연구를 통해 밝혀졌습니다. 3-6 반면, [환자 관리 결정]에 대한 추론과 관련된 프로세스에 대해서는 알려진 바가 훨씬 적습니다. 6,7 우리는 최근 관리 추론에 대한 개념적 프레임워크를 발표했습니다. 1,2 이 보고서에서 우리는 관리 추론을 "임상의가 임상 정보(병력, 검사 소견, 검사 결과), 선호도, 의학 지식, 맥락(상황) 요소를 통합하여 치료, 추가 검사, 후속 방문, 제한된 자원의 할당 등 개별 환자의 관리에 관한 결정을 내리는 인지적 과정"1으로 정의하고 5가지 주요 특징을 제안했습니다:

  • 합리적이고 방어 가능한 여러 솔루션 간의 비교 및 선택,
  • 환자, 임상의, 시스템 선호도, 제약, 가치의 우선순위 지정,
  • 의사소통 및 공유된 의사 결정,
  • 관리 계획의 지속적인 모니터링 및 조정,
  • 사람, 시스템, 환경, 경쟁 우선순위 간의 역동적인 상호 작용(표 1).

우리 모델을 기반으로 최근 관리 스크립트의 개념을 설명하는 연구도 있습니다. 8

Management reasoning 1 is a critical yet understudied phenomenon in clinical practice and medical education. 1,2 Substantial research has illuminated the clinical reasoning processes involved in diagnostic reasoning. 3–6 By contrast, far less is known about the processes involved in reasoning about patient management decisions. 6,7 We recently published a conceptual framework for management reasoning. 1,2 In those reports, we defined management reasoning as “the cognitive processes by which clinicians integrate clinical information (history, exam findings, and test results), preferences, medical knowledge, and contextual (situational) factors to make decisions about the management of an individual patient, including decisions about treatment, further testing, follow-up visits, and allocation of limited resources,” 1 and proposed 5 key features:

  • contrasting and selection among multiple reasonable and defensible solutions;
  • prioritization of patient, clinician, and system preferences, constraints, and values;
  • communication and shared decision making;
  • ongoing monitoring and adjustment of the management plan; and
  • dynamic interplay among people, systems, settings, and competing priorities (Table 1).

Others, building on our model, have recently described the concept of management scripts. 8

그러나 [관리 추론]에 대한 경험적 연구는 제한적입니다. 연구들은 종종 치료 결정을 결과로 사용하지만, 그러한 결정의 근간이 되는 관리 추론 프로세스에 초점을 맞춘 경우는 거의 없습니다. 9-11 한 그룹에서는 12개의 임상 추론 과제를 확인한 후 13개 24개의 임상 추론 과제를 확인했으며, 이 중 11개는 관리를 용이하게 합니다. [관리 추론의 현상]과 [진단 추론과의 차이점]을 더 명확하게 이해하면 이 분야의 미래 연구를 위한 발판을 마련하고 교육에 대한 잠재적 시사점을 파악할 수 있습니다. 이 연구에서는 귀납적(경험적)으로 시뮬레이션된 외래 환자-임상의사 면담에서 나타난 관리 추론의 주요 특징을 파악하고 관리 추론 과정을 설명하는 모델을 구축하고자 했습니다.
However, empirical research on management reasoning is limited. Studies often use treatment decisions as an outcome but only rarely have focused on the management reasoning processes that underlie such decisions. 9–11 One group identified 12 and subsequently confirmed 13 24 clinical reasoning tasks, of which 11 facilitate management. Greater clarity in understanding the phenomenon of management reasoning, and how it differs from diagnostic reasoning, will set the stage for future research in this field and identify potential implications for education. In this study, we sought to inductively (empirically) identify key features of management reasoning as manifested in simulated outpatient clinician–patient encounters and construct a model that describes the management reasoning process.


우리는 관리 추론의 특징을 파악하기 위해 모의 외래 환자 임상의와 환자 간의 만남을 담은 10개의 비디오 클립을 검토했습니다.
We reviewed 10 video clips of simulated outpatient clinician–patient encounters, to identify features of management reasoning.

비디오 클립
Video clips

비디오 클립은 이전에 발표된 [평가자 교육 연구]에서 사용되었습니다. 14,15

  • 각 비디오는 레지던트 의사가 환자에게 의학적 상태(예: 고지혈증, 섬유근육통, 갑상선암)에 대해 상담하는 장면을 보여줍니다. 이 동영상은 레지던트의 실력이 미흡한 경우부터 우수한 경우까지 다양한 모습을 보여주기 위해 기획되었습니다.
  • [6개의 비디오]는 저자 D.A.C.가 개발했으며, 마지막 해 또는 내과 전공의와 커뮤니티 풀의 표준화된 환자 간의 즉흥적인 대화로 구성되었습니다.
    • 의사는 자신의 수행 능력(우수 또는 열악)을 변화시키도록 지시받았고, 표준화 환자는 일관적이되 적절하게 반응하도록 지시받았습니다.
  • [4개의 비디오]는 미국 내과학회에서 개발했으며(미국 내과학회의 허가를 받아 사용), 서면 스크립트를 사용했습니다.
  • [모든 비디오]는 52명의 메이요 클리닉 내과 의사가 미니 임상 평가 연습(Mini-CEX)을 사용하여 평가했습니다(이전 연구의 일부로 14,15). 15 사용 가능한 36개의 비디오 중에서 먼저 관리 상황을 가장 잘 나타내는 비디오(즉, 상담 중심)를 식별한 다음, Mini-CEX 상담 점수를 사용하여 가장 낮은 점수를 받은 5개가장 높은 점수를 받은 5개 비디오를 선정했습니다(다양한 성과를 풍부하게 표현하기 위해 극단적인 그룹을 의도적으로 선택).
  • 최종적으로 선정된 5개의 동영상은 각각 2단계의 성과로 구성된 5개의 사례(새로운 고혈압 관리, 새로운 고지혈증, 새로운 섬유근육통, 최적 조절이 되지 않는 당뇨병, 암을 나타내는 갑상선 결절 생검)를 표현했습니다.
  • 각 비디오는 트랜스크립션되었으며, 트랜스크립션은 비디오 검토 중 및 검토 후에 검토자가 참조할 수 있도록 제공되었습니다. 동영상 개발에 사용된 연구14,15는 메이요 클리닉 기관윤리심의위원회에서 면제 판정을 받았습니다. 이 연구에는 새로운 인간 피험자가 등록되지 않았습니다.

The video clips were used in a previously published study of rater training. 14,15 

  • Each video portrays a resident physician counseling a patient about a medical condition (e.g., hyperlipidemia, fibromyalgia, thyroid cancer). The videos were planned to show a range of resident performance varying from poor to superior.
  • Six videos were developed by author D.A.C. and consisted of extemporaneous dialogues between a final-year or chief internal medicine resident physician and a standardized patient from our community pool.
    • The physicians were instructed to vary their performance (superior or poor); the standardized patients were instructed to respond consistently but appropriately.
  • Four videos were developed by the American Board of Internal Medicine (used with their permission) and used written scripts.
  • All videos were rated (as part of the previous study 14,15) by 52 Mayo Clinic internal medicine physicians using the mini-clinical evaluation exercise (Mini-CEX). 15 From the 36 videos available, we first identified those that best represented management encounters (i.e., counseling focused) and then used the Mini-CEX counseling score to select the 5 lowest-scoring and 5 highest-scoring videos (extreme groups purposive selection to provide a rich representation of varying performances).
  • The ultimately selected videos represented 5 encounters (management of new hypertension, new hyperlipidemia, new fibromyalgia, suboptimally controlled diabetes mellitus, and a thyroid nodule biopsy that indicated cancer), each at 2 levels of performance.
  • Each video was transcribed, and transcripts were available to reviewers for reference during and after video review. The study used to develop videos 14,15 was judged exempt by the Mayo Clinic Institutional Review Board. No new human subjects were enrolled in this study.

관찰과 코딩의 만남
Encounter observation and coding

2020년 11월, 보드 인증 내과 의사 3명(D.A.C., C.R.S., S.J.D.)과 인지 심리학자 1명(L.D.G.)이 각 비디오를 최소 2회 이상 독립적으로 검토하고 추가로 여러 비디오를 짝을 지어 시청했습니다. 검토자들은 개방형 프롬프트가 있는 코딩 양식을 사용하여 치료(약물 및 비약물) 및 추가 진단 검사에 대한 결정, 공유된 의사 결정, 종단적 계획(예: 추적 관찰)에 대한 결정뿐만 아니라 이러한 작업을 자극, 중재, 형성 또는 영향을 미치는 추가 프로세스를 포함하되 이에 국한되지 않는 특정 관리 작업 및 프로세스를 식별하고 문서화했습니다. 우리는 이전에 구상한 모델 2를 출발점으로 삼아(즉, 여러 합리적인 옵션 중에서 선택, 환자 가치의 우선순위 결정, 공유된 의사 결정, 계획의 지속적인 조정, 사람과 시스템 간의 역동적인 상호 작용) [관리 추론의 추가 특징]을 모색했습니다. 개선할 수 있는 성과 측면(예: 레지던트에 대한 가상의 피드백)을 명시적으로 문서화했습니다. 또한 각 리뷰어는 동영상에 묘사된 경영 추론 활동을 넘어서는 새로운 인사이트, 주제, 연결점(깨달음)을 문서화했습니다.
In November 2020, 3 board-certified internal medicine physicians (D.A.C., C.R.S., and S.J.D.) and 1 cognitive psychologist (L.D.G.) independently reviewed each video at least twice and additionally viewed several videos in pairs. Using a coding form with open-ended prompts (see Supplemental Digital Appendix 1 at, reviewers identified and documented specific management tasks and processes, including but not limited to decisions about therapy (drug and nondrug) and further diagnostic testing, shared decision making, and longitudinal planning (e.g., follow-up), as well as additional processes that stimulated, mediated, shaped, or were influenced by the tasks. We used our previously conceived model 2 as a starting point (i.e., selection among multiple reasonable options, prioritization of patient values, shared decision making, ongoing adjustment of the plan, and dynamic interplay among people and systems) and further sought additional features of management reasoning. We explicitly documented aspects of performance that could be improved (i.e., hypothetical feedback to the resident). In addition, each reviewer documented novel insights, themes, and connections (epiphanies) that extended beyond management reasoning activities portrayed in the video.

데이터 분석 및 모델 구축
Data analysis and model building

우리는 지속적인 비교 분석 접근법을 사용하여 진단적 추론에 대한 연구에서 주마와 골드스미트(Juma and Goldszmidt)13가 사용한 것과 유사한 방법을 채택했습니다. 16 우리 중 한 명(D.A.C.)은 모든 비디오에 대한 모든 조사자의 원시 관찰과 깨달음을 검토하고 이를 코딩 양식 프롬프트로 구성된 관리 작업, 프로세스 및 인사이트의 길고 포괄적인 목록으로 정리했습니다. 전체 검토팀은 음성 및 전자 매개 대화를 통해 이러한 아이디어를 반복적으로 재구성, 재개념화, 정교화, 구체화하여 [핵심 기능의 간결한 목록]으로 정리한 다음, [관리 추론 모델을 구축]하기 위해 일련의 토론을 진행했습니다. 이 분석에서는 공통 주제와 소주제(핵심 기능 및 과제)를 찾고, 높은 성과와 낮은 성과를 대조하고, 각 깨달음을 신중하게 탐색했습니다. 모든 검토자가 주요 특징과 최종 모델에 대해 완전히 합의했습니다. 

We adopted a method similar to that used by Juma and Goldszmidt 13 in a study of diagnostic reasoning by using a constant comparative analysis approach. 16 One of us (D.A.C.) reviewed all investigators’ raw observations and epiphanies for all videos and organized these into a lengthy, comprehensive list of management tasks, processes, and insights organized by coding form prompts. The entire review team had a series of discussions (through voice and electronic-mediated conversations) to iteratively reorganize, reconceptualize, elaborate, and refine these ideas into a parsimonious list of key features and then construct a model of management reasoning. This analysis looked for common themes and subthemes (key features and tasks), contrasted high and low performances, and thoughtfully explored each epiphany. All reviewers came to full consensus on the key features and final model.


비디오를 관찰하는 동안 약 120페이지 분량의 한 칸 띄어쓰기 주석이 생성되었습니다. 이로부터 18페이지 분량의 관리 업무, 프로세스 및 인사이트 목록을 추출한 후 이를 핵심 기능 목록과 관리 추론 모델로 압축했습니다. 비디오 검토 과정에서 진화하고 단순한 관찰과 높은 수준의 인사이트가 혼합된 원시 내러티브를 직접 생성했기 때문에, 우리는 자신의 내러티브를 인용하거나 어떤 단계에서 인사이트가 도출되었는지 구분하기보다는 관찰과 인사이트를 전체적으로 요약하는 정제된 내러티브를 제시합니다. 
We collectively generated approximately 120 pages of single-spaced typed comments during video observations. From this, we distilled an 18-page list of management tasks, processes, and insights, and subsequently condensed this into a list of key features and a model of management reasoning. Inasmuch as we generated the raw narratives ourselves, which evolved during video review and contained a mixture of simple observations and high-level insights, we present a refined narrative that summarizes our observations and insights as a whole, rather than quote our own narratives or attempt to discriminate at what stage an insight emerged.

관리 추론의 특징
Features of management reasoning

우리는 [관리 추론의 12가지 특징]을 확인했습니다(표 1). 이 중 5개는 이전에 비경험적 에세이에서 제안되고 기술된 바 있으며,1 관찰을 통해 확인되었습니다. 7가지 특징은 경험적 분석에서 새롭게 나타났으며 아래에서 설명합니다. 이 중 질병 관련 지식과 임상 경험의 조직화를 제외한 나머지는 진단적 추론과 달리 관리 추론에 고유한 특징입니다.
We identified 12 distinct features of management reasoning (Table 1). Five of these had been previously proposed and described in a nonempirical essay, 1 and they were confirmed in our observations. Seven emerged anew in our empirical analysis and are discussed below. Of these, all but illness-specific knowledge and organization of the clinical encounter are largely unique to management reasoning (in contrast to diagnostic reasoning).

질환-특이적 지식.
Illness-specific knowledge.

가장 눈에 띄는 인사이트 중 하나는 [관리 추론이 콘텐츠에 따라 다르다]는 점입니다. 거의 모든 다른 기능은 질병 자체에 대한 깊고 정확한 지식(질병별 지식) 또는 지역 의료 시스템 내에서 질병을 관리하는 방법(프로세스 지식, 아래 설명 참조)에 의존합니다.
One of the most salient insights was that management reasoning is content-specific. Nearly every other feature relies on deep, accurate knowledge of the illness itself (illness-specific knowledge) or how to manage the illness within the local health care system (process knowledge, described below).

[질환 특이적 지식]에는 [질병의 메커니즘, 병리, 자연사 또는 예후, 진단 및 치료 옵션(효과, 위험 및 비용 포함)]이 포함됩니다. 유능한 임상의는 [구체적인 근거 또는 가이드라인]을 간략하게 언급하여 이러한 요점을 뒷받침했습니다(예: "연구에 따르면 고혈압을 치료하면 심장병, 뇌졸중 및 신장 질환에 걸릴 확률이 줄어듭니다."). 관련 치료 옵션을 생략하거나, 치료 효과를 잘못 설명하거나, 중요한 부작용을 무시하거나, 추가 평가의 시급성을 부정확하게 전달하는 등의 [콘텐츠 지식 결함]이 저성과자(마이너 및 메이저 모두)에게서 빈번하게 관찰되었습니다.
Illness-specific knowledge includes the mechanism, pathology, natural history, or prognosis of disease, and diagnostic and treatment options (including effectiveness, risks, and costs). Effective clinicians supported many of these points with brief reference to specific evidence or guidelines (e.g., “Research shows that treating hypertension reduces your chance of heart disease, stroke, and kidney disease.”). We observed frequent content knowledge flaws in low performers (both minor and major), such as omitting relevant treatment options, misstating treatment effectiveness, neglecting important side effects, or inaccurately conveying the urgency of further evaluation.

프로세스 지식.
Process knowledge.

[프로세스 지식][지역 의료 시스템에서 관리의 물류에 관한 운영적이고 실용적인 통찰력]("여기서 일이 어떻게 돌아가는지")을 포함합니다.

  • [프로세스 지식의 격차]는 비약물 관리 옵션(예: 물리 치료, 전문가 상담, 후속 조치에 대한 모호한 계획)에 대한 불확실성 또는 사용 가능한 모든 자원을 활용하지 못하는 것으로 나타났습니다.
  • [질병 특이적 지식 격차]에 비해 부정적 영향이 실질적이고 직접적이지 않을 수 있지만, 그럼에도 불구하고 [프로세스 지식 격차]는 환자에게 불확실성, 신뢰도 저하, 불만족을 남겼습니다.
  • 요컨대, 의사가 [환자가 [임상의사 자신의 이해를 넘어서는 결정]을 내릴 수 있도록 가이드하는 것]은 불가능합니다.

Process knowledge encompasses operational, practical insights regarding the logistics of management in the local health care system (“how things work around here”).

  • Process knowledge gaps manifested as uncertainty regarding nondrug management options (e.g., vague plans for physical therapy, specialist consultation, follow-up) or failure to draw on all available resources.
  • Although their adverse effects were perhaps less substantial and direct than illness-specific knowledge gaps, process knowledge gaps nonetheless left the patient appearing uncertain, less trusting, and dissatisfied.
  • In short, it is impossible for clinicians to guide patients in navigating a decision that exceeds their own understanding.

관리 스크립트.
Management scripts.

또 다른 중요한 인사이트는 관리 대면에서 [관리 스크립트]의 중요하고도 두드러진 역할이었습니다. [스크립트]는 일반적으로 다음과 같이 정의됩니다.
Another important insight was the prominent and critical role of management scripts in the management encounter. Scripts are defined generally as

[고수준]의 [사전 편집]된 [개념적 지식 구조] ... [이는] 개별 이벤트가 [시간적], 종종 [인과적] 또는 [계층적] 관계로 상호 연결되는 [일반적인 (고정관념화된) 이벤트 시퀀스]를 나타내며, 적절한 맥락에서 [통합된 전체]로 활성화될 수 있고, 실제 상황에 존재하는 정보로 [채워filled]지거나, 기억에서 검색되거나 맥락에서 [추론]할 수 있는 [변수와 슬롯]을 포함한다. 17(p457)
high-level, precompiled, conceptual knowledge structures … [that] represent general (stereotyped) event sequences, in which the individual events are interconnected by temporal and often also causal or hierarchical relationships; that can be activated as integral wholes in appropriate contexts [and] contain variables and slots that can be filled with information present in the actual situation, retrieved from memory, or inferred from the context. 17(p457)

[관리 스크립트]의 경우 [개별 이벤트]는 [진단 검사, 치료, 상담, 환자 교육, 공유 의사 결정, 모니터링 등]의 [관리 옵션]으로 구성됩니다. [스크립트]는 이러한 이벤트를 [합리적인 관리 계획]으로 연결합니다.
For management scripts, the individual events comprise management options, including diagnostic tests, treatments, consultations, patient education, shared decision making, and monitoring. Scripts link these events into a rational management plan.

우리는 [관리 스크립트]를 [합리적인 관리 계획의 개발]을 용이하게 하기 위해, [관리 옵션]과 [임상의 업무]를 [시간적 또는 논리적 순서]로 표현하고 연결하는 [미리 컴파일된 개념적 지식 구조]로 정의합니다(표 1).
We define management scripts as precompiled conceptual knowledge structures that represent and connect management options and clinician tasks in a temporal or logical sequence to facilitate development of a rational management plan (Table 1).

[관리 스크립트]는 [일관성 있고 유창하며 구조화된 내러티브]로서 이러한 만남에서 나타났습니다. 개별 요소는 특정 환자나 만남의 고유한 요구에 맞게 조정되었지만, 적어도 초기에는 예상치 못한 사건이나 정보(예: 환자의 저항이나 날카로운 질문)로 인해 중단되기 전까지는 스크립트 전체가 대체로 미리 결정된 것처럼 보였습니다.

  • 저품질의 스크립트는 일관성이 없고, 구불구불하며, 반응적이고, 비인격적이며, 실망스러운 면담으로 이어져 결국 환자와 의료진 모두 불만족스러운 결과를 초래했습니다.
  • 이와 대조적으로 고품질 스크립트는 환자의 질문을 미리 파악하고, 의사 결정을 공유하며, 신뢰와 확신을 불러일으키는 것으로 나타났습니다.

[스크립트의 품질]은 다음을 포함한 다각적인 요인으로 해석했습니다.

  • 스크립트 내용(질환 특이적 및 일반적인 프로세스 지식),
  • 시퀀스(자연스럽고 논리적인 시간적 전개),
  • 유연성(환자의 배경, 동반 질환, 선호도, 제약 조건, 질문 및 이해도에 대한 대응),
  • 유창성(전달의 용이성, 일관성 및 명확성)

Management scripts manifested in these encounters as coherent, fluent, structured narratives. Although individual elements were tailored to the unique needs of a given patient or encounter, the script as a whole seemed to be largely predetermined—at least initially and until disrupted by unexpected events or information (e.g., resistance or penetrating questions from the patient).

  • Low-quality scripts led to encounters that appeared disjointed, meandering, reactive, impersonal, and dispiriting, and ultimately resulted in dissatisfaction for both patients and clinicians.
  • By contrast, high-quality scripts seemed to preempt patient questions, facilitate shared decision-making, and engender trust and confidence.

We construed quality to be multifactorial, including

  • script content (illness-specific and general process knowledge),
  • sequence (natural, logical temporal evolution),
  • flexibility (responsiveness to patient background, comorbidities, preferences, constraints, questions, and comprehension), and
  • fluency (ease, coherence, and clarity of delivery).

스크립트의 일반성(즉, '나쁜 소식 전하기', '새로운 질환에 대한 치료 시작', '만성 질환에 대한 치료 강화' 등 콘텐츠 영역에서 반복될 수 있는 패턴을 준수하는 정도)도 다양했습니다. [가장 좋은 스크립트]는 [일반적인 틀에 기초]하며, [특정 질병과 환자 모두에게 맞춤화된 것]입니다.
Scripts also varied in the level of generality (i.e., adherence to a pattern that could be replicated across content areas, such as “breaking bad news,” “initiating treatment for a new condition,” and “intensifying treatment of a chronic condition”). The best scripts seem to be grounded in a general framework and then tailored to both the specific illness and the patient.

환자의 스승이자 영업사원으로서의 임상의 역할.
Clinician roles as patient teacher and salesperson.

우리는 공동 의사 결정의 개념과는 별개로 [환자에 대한 교사이자 영업사원으로서 임상의의 중요한 역할]을 확인했습니다. 효과적인 환자 교육은 공유 의사 결정

  • 활동 전(의사 결정의 필요성을 입증하기 위해),
  • 활동 중(옵션 간의 구별되는 특징을 강조하기 위해),
  • 활동 후(관리 계획에서 환자의 개인적 책임을 알리기 위해)에 필수적입니다.

임상의는 이러한 환자 교육 요건에 대한 일차적인 책임이 있습니다.
We identified critical roles for the clinician as a teacher and salesperson to the patient that seemed distinct from the concept of shared decision making. Effective patient education is essential

  • before (to substantiate the need to make a decision),
  • during (to highlight distinguishing features among options), and
  • after (to apprise patients of their personal responsibility in the management plan) the shared decision activity.

Clinicians have a primary responsibility in these patient teaching requirements.

마찬가지로 세일즈맨십, 즉 최종 결정에 대한 [환자의 완전한 동의를 얻는 역할도 중요]한 것으로 보입니다. 이 역할이 반드시 특정 치료 옵션을 '판매'하는 것을 의미하는 것은 아니며, 실제로 최고의 영업 담당자(임상의)는 먼저 구매자의 요구 사항을 확인한 다음, 이러한 요구 사항을 충족할 가능성이 가장 높은 옵션으로 구매자(환자)를 안내할 것입니다. 그럼에도 불구하고 결국에는 완전한 동의를 얻지 못하면 [차선의 결과(예: 낮은 순응도)]를 초래하게 됩니다. 또한 훌륭한 영업사원은 효과적으로 가르치고, 명확하고 공개적으로 소통하며, 신뢰 관계를 구축합니다(아래 설명 참조). 
Likewise, there seems to be a strong role for salesmanship—that is, obtaining the patient’s full buy-in on the final decision. This role does not necessarily imply “selling” a specific treatment option; indeed, the best salesperson (clinician) would first ascertain the buyer’s needs and then steer the buyer (patient) toward the option(s) most likely to meet those needs. Nonetheless, in the end, anything but full buy-in will result in suboptimal results (e.g., poor adherence). A good salesperson also teaches effectively, communicates clearly and openly, and builds a relationship of trust (described below).

임상의와 환자의 관계.
Clinician–patient relationship.

우리는 임상의의 [미묘한 행동(예: 환자의 우려 사항을 효과적으로 해결하거나 무시하거나, 치료 옵션을 유창하게 또는 일관성 없이 설명하는 등)]이 환자의 신뢰를 구축하거나 약화시키는 여러 사례를 관찰했습니다. 신뢰가 없으면 대개 환자가 납득하지 못하고 불만족스러워합니다. 신뢰는 양방향입니다. 의료진도 환자를 신뢰해야 합니다(예: 환자가 진실하고 관리 계획에서 자신의 역할을 다할 것이라는 믿음). 대부분의 만남은 적당한 수준의 상호 신뢰에서 시작하여 후속 조치를 통해 강화되거나 약화되는 것으로 보였습니다.
We observed multiple instances in which subtle clinician actions (e.g., effectively addressing or neglecting a patient concern, or fluently or disjointedly describing treatment options) built or undermined the patient’s trust. Without trust, the encounter typically ended with an unconvinced and dissatisfied patient. Trust is bidirectional: the clinician must also trust the patient (e.g., that they are truthful and that they will fulfill their part in the management plan). Most encounters seemed to start with a moderate level of mutual trust that was strengthened and weakened through subsequent actions.


많은 환자 질문은 다음과 관련된 향후 기대치와 관련이 있습니다. 

  • [질병]뿐만 아니라
    • ("얼마나 빨리 나아질까요?")
  • 특히 [관리 계획 자체]
    • ("비용은 얼마나 드나요?", "이 약의 부작용은 무엇인가요?", "언제 외과의를 볼 수 있나요?", "언제 다시 볼 수 있나요?")

Many patient questions relate to future expectations regarding

  • not only the illness
    • (“How soon will I feel better?”)
  • but also—perhaps especially—the management plan itself
    • (“How much will this cost?”; “What are the side effects of this medication?”; “When will I see the surgeon?”; “When will I see you again?”).

임상의는 이러한 질문에 대한 답을 알고 있어야 미래의 상황을 정확하게 예측하거나 예상할 수 있습니다. 동영상에서 이러한 질문에 대한 

  • 모호한 답변은 신뢰를 약화시키고 환자가 걱정하고 좌절하는 것처럼 보이게 했습니다. 
  • 반면, 구체적인 답변을 제공할 수 있는 임상의는 환자의 신뢰, 확신, 헌신을 불러일으켰습니다. 

효과적인 예후 예측에는 질병 관련 지식, 치료 과정 지식, 개인적 경험, 커뮤니케이션 기술, 효과적인 교육 등이 복합적으로 작용하는 것으로 나타났습니다. 가장 숙련된 임상의(스크립트가 잘 발달된 임상의)는 [질문이 나오기 전에 미리 예상하고 답변함]으로써 질문을 방지할 수 있었습니다.
Clinicians are expected to know these answers—accurately predicting or anticipating future events. In the videos, vague answers to these questions undermined trust and left patients appearing worried and frustrated. By contrast, clinicians who could provide specific answers engendered the patient’s trust, confidence, and commitment. Effective prognostication seemed to entail a combination of illness-specific knowledge, process knowledge, personal experience, communication skill, and effective teaching. The most skilled clinicians (those with well-developed scripts) were able to forestall questions by anticipating and answering questions before they were articulated.

임상 만남의 조직화(순서 및 시간 관리).
Organization of the clinical encounter (sequencing and time management).

마지막으로, 전체 관리 추론 활동에서 가장 중요한 것은 주어진 기간 동안 [추론 프로세스 자체를 조직(시퀀싱)하는 것]입니다(이 경우 외래 임상의와 환자 간 만남). 관리 추론은 환자 교육, 질문과 답변, 옵션 조사, 다른 팀원과의 커뮤니케이션, 의사 결정, 계획 실행과 같은 활동에 대한 선택, 순서 및 시간을 관리합니다. 조직은 다양한 수준의 의식적(의도적) 및 무의식적 추론을 반영합니다. 이러한 작업 시퀀스는 종종 관리 스크립트의 일부로 컴파일됩니다. 이 비디오에서 우리는 매우 짧은 만남(의료진이 환자를 의사 결정에 참여시키지 않음)과 매우 긴 만남(의료진이 잠재적인 문제를 예상하기보다는 허둥대고 우왕좌왕하며 반응하는 것처럼 보임) 모두에서 문제를 관찰했습니다. 그러나 주어진 만남은 치료의 한 지점에 불과하며, 즉각적인 관리 결정은 과거 만남에서 얻은 정보, 토론 및 결정을 통합하고 향후 만남을 예측해야 한다는 점을 인식하고 있습니다.
Finally, overarching the entire management reasoning activity is the organization (sequencing) of the reasoning process itself in a given period (in this case, an outpatient clinician–patient encounter). Management reasoning governs the choice, sequencing, and time spent on actions such as teaching patients, asking and answering questions, researching options, communicating with other team members, making decisions, and implementing the plan. Organization reflects varying degrees of conscious (deliberate) and unconscious reasoning. These action sequences are often compiled as part of the management script. In these videos, we observed problems with encounters that were both very short (the clinician failed to involve the patient in decision making) and very long (the clinician seemed to flounder, meander, and react rather than anticipate potential challenges). We recognize, however, that a given encounter represents only 1 point in care; immediate management decisions should integrate information, discussions, and decisions from past encounters and anticipate future encounters.

관리 추론의 함정
Pitfalls in management reasoning

또한 아래에 설명된 바와 같이 관리 추론에서 [몇 가지 실수]를 발견했습니다.
We also observed several missteps in management reasoning, as described below.

  • 모호한 치료 계획: 임상의가 약물 투여 지침, 약물 부작용, 다음 관리 단계(예: 진단 검사, 전문의 상담, 물리 치료), 후속 조치 시기, 진행 중인 증상 관리 등 치료 계획에 대해 환자에게 세부 정보를 제공하거나 안심시키지 못했습니다. 환자는 당황하거나 좌절하거나 걱정하는 모습을 보였습니다. 
  • Vague care plans: Clinicians failed to provide details or reassurance to patients about the care plan, such as drug administration instructions, drug side effects, next steps in management (e.g., diagnostic testing, specialist consultation, physical therapy), timing of follow-up, and management of ongoing symptoms. The encounter ended with the patient appearing puzzled, frustrated, or worried.
  • 제한된 치료 계획: 임상의는 한 가지 치료 옵션 또는 짧은 일반(이 환자에게 맞춤화되지 않은) 옵션 목록만 제시했습니다. 이러한 계획은 진단에 대한 반사적 반응(진단적 추론에서 조기 종결과 유사)으로 보이지만, 임상의가 열등하거나 실행 불가능하다고 판단되는 옵션을 의도적으로 피하면서 알려진 또는 가정된 선호도 및 제약 조건에 따라 최적의 계획을 신중하게 미리 선택한 것일 수도 있습니다. 
  • Restricted care plans: Clinicians presented only 1 treatment option or a short generic (not tailored to this patient) list of options. This plan seemed to be a reflexive response to the diagnosis (akin to premature closure in diagnostic reasoning); however, it could alternatively represent thoughtful preselection of an optimal plan based on known or assumed preferences and constraints, with the clinician intentionally avoiding options judged as inferior or infeasible.
  • 환자 선호도를 확인하지 않은 경우: 임상의가 환자의 [선호도를 유도하거나 확인]하지 않고 계획을 제시했으며, 아마도 그러한 선호도에 대한 가정을 한 것으로 추정됩니다. 임상의가 환자와 오랜 기간 관계를 맺어온 경우에도 일반적으로 선호도를 확인하는 것이 필요합니다.
  • Failure to ascertain patient preferences: Clinicians presented a plan without eliciting or confirming patient preferences, presumably by making assumptions about such preferences. Even when a clinician has a longstanding relationship with the patient, confirmation of preferences would typically seem warranted.
  • 공유된 의사 결정의 부재: 임상의가 치료 계획을 수립하고 마무리할 때 [환자를 참여]시키지 않았습니다. 대안에 대한 사전 논의가 있든 없든 한 가지 옵션이 최선이라고 제시되었고, 환자는 이에 동의할 것으로 예상되었습니다. 일부 환자는 이러한 접근 방식을 받아들이는 것처럼 보였지만, 대부분은 불안해하거나 실망하거나 사기가 저하된 모습을 보였습니다.
  • Absence of shared decision making: Clinicians failed to involve patients in formulating and finalizing the care plan. One option was proffered as optimal (with or without antecedent discussion of alternatives), and the patient was expected to acquiesce. Although some patients seemed to accept this approach, most appeared unsettled, disappointed, or demoralized.
  • 단서를 따르지 않음: 임상의는 [우려, 질문, 의심을 암시하는 언어적 또는 비언어적 메시지를 해결]하지 못했습니다. 단서는 미묘한 것(표정이나 차분한 언어 표현)부터 명시적인 것(명확한 질문이나 우려 사항 진술)에 이르기까지 다양했습니다. 임상의의 반응에는 완전한 무시, 추가 논의 없이 피상적으로 인정, 짧은 논의 후 무시, 환자의 지속적인 우려에 대한 노골적인 무시(논의 없이 또는 논의 후)가 포함되었습니다. 환자는 항상 좌절하고 때때로 화를 내는 것처럼 보였습니다.
  • Failure to follow cues: Clinicians failed to address verbal or nonverbal messages that suggested concerns, questions, and doubts. Cues ranged from subtle (facial expression or subdued verbal expressions) to explicit (clear question or statement of concern). Clinician responses included complete ignorance, cursory acknowledgment without further discussion, brief discussion followed by dismissal, and outright overruling of persistent patient concerns (without or after discussion). Patients always appeared frustrated and occasionally upset.
  • 이해와 약속을 확인하지 않음: 임상의는 환자가 계획을 이해하고 동의했는지 확인하지 않았습니다.
  • Failure to confirm understanding and commitment: Clinicians did not confirm that patients comprehended and agreed with the plan.

관리 추론의 모델
A model of management reasoning

임상의와 환자의 만남에 대한 경험적 분석을 바탕으로 [관리 추론의 모델]을 잠정적으로 제안합니다(그림 1). 이 모델은 주로 의료진과의 만남의 시간적 진화를 반영한 것으로, 이러한 진화가 임상의의 뇌에서 일어나는 실제 인지 과정이나 일련의 과정을 어느 정도 반영하는지는 확실하지 않습니다. 우리는 주어진 만남에서 단계가 반복되거나 동시에 진행되는 경우가 많다는 것을 인정합니다.
On the basis of our empirical analysis of clinician–patient encounters, we tentatively propose a model of management reasoning (Figure 1). This model largely reflects the temporal evolution of a management encounter; we are uncertain to what extent this evolution reflects the actual cognitive processes or sequence of processes that occur in the clinician’s brain. We acknowledge that steps are often repeated or concurrent in a given encounter.

관리 추론의 첫 번째 단계는 관리 스크립트의 트리거(활성화), 선택 및 인스턴스화인 것으로 보입니다. 18 [스크립트 개념의 조작화]에는 다음의 조합이 반영됩니다. 

  • 질병별 지식,
  • 프로세스 지식,
  • 환자별 사실에 대한 지식(현재 및 과거 병력, 검사 결과, 검사 데이터 등)
  • 임상의의 개인적 경험

[인스턴스화]는 [환자 및 상황별 요소를 통합]하여 [즉각적인 문제에 맞게 스크립트를 개인화]합니다. 스크립트에는 후속 진료에서 다룰 주요 문제(교육, 치료 옵션, 예후 등)가 코드화되어 있으며 추론 프로세스에서 중요한 의사 결정 시점을 강조합니다. 
The first step in management reasoning seems to be the triggering (activation), selection, and instantiation of a management script. 18 Our operationalization of the script concept reflects a combination of

  • illness-specific knowledge,
  • process knowledge,
  • knowledge of patient-specific facts (current and past history, examination findings, test data, etc.), and
  • the clinician’s personal experience.

Instantiation integrates patient- and context-specific factors to personalize the script to the immediate problem. The script codifies the key issues (education, treatment options, prognosis, and so on) that will be addressed in the ensuing encounter and highlights critical decision points in the reasoning process.

관리 추론의 두 번째 단계에서는 [스크립트를 사용하여 이 환자와 상황에 적합한 잠재적 관리 솔루션을 식별한 다음 관련 문제(예: 의학적 상태, 관리 옵션)에 대해 환자에게 교육]합니다. 의식적이든 무의식적이든 이 단계에서 만남의 조직화(순서)가 시작됩니다.
The second step in management reasoning uses the script to identify potential management solutions appropriate to this patient and context, and then to educate the patient about relevant issues (e.g., the medical condition, management options). Organization (sequencing) of the encounter begins at this step, whether conscious or unconscious.

관리 추론의 세 번째 단계는 의사 결정을 공유하는 것입니다. 우리는 본질적으로 전혀 없음(즉, 환자의 동의를 전제로 한 치료 옵션 하나만 제시)에서 중간 정도(권장 접근법과 함께 여러 옵션을 제시하고 환자가 [동의]를 선택할 수 있도록 함)에 이르기까지 다양한 변형을 관찰했습니다. 이 동영상에서 모범적인 사례로 간주되는 사례는 없었지만, 누락된 부분과 단점(임상의가 개선해야 할 부분으로 문서화됨)은 [공동 의사 결정의 강력한 모델]을 충분히 강조했습니다. 이 모델에는 다음이 포함되었습니다. 

  • 환자의 선호도와 가치에 대한 명시적인 확인,
  • 환자의 선호도와 가치를 다른 정보와 통합(질병별 지식, 환자별 정보, 프로세스 지식 포함)
  • 향후 상황에 대한 예후 예측,
  • 환자와 임상의 모두에게 잠정 결정이 실제로 최적이라는 확신을 주는 역동적인 상호 작용

The third step of management reasoning is shared decision making. We observed wide variation, ranging from essentially none (i.e., only 1 treatment option presented, with the patient’s acquiescence presumed) to moderate (presenting several options with a recommended approach, and allowing the patient to choose [concur]). Although these videos did not offer any encounters that we considered exemplary, the omissions and shortcomings (documented as areas for improvement for the clinician) amply highlighted a robust model of shared decision making. This model included

  • explicit ascertainment or confirmation of patient preferences and values,
  • integration of patient preferences and values with other information (including illness-specific knowledge, patient-specific information, and process knowledge),
  • prognostication of future events, and
  • a dynamic interplay that assured both patient and clinician that the tentative decision was in fact optimal.

우리는 [환자의 가치관을 통합하는 것]뿐만 아니라, 환자에게 [이러한 결정이 이루어졌다는 것을 명시적으로 전달하는 것]이 중요하다는 것을 관찰했습니다.

  • 상황에 따라 의사 결정 과정에 참여하고, 생활 습관 개선 조치를 실행하고, 약을 복용하고, 다른 임상의와 상담하고, 후속 조치를 위해 재방문하는 등의 조치를 포함하여 환자가 치료 계획을 구매하도록 설득하는 데는 [교육과 세일즈맨십이 필수적]이었습니다.
  • 이 동영상에는 설명되어 있지 않지만, [의사 결정 보조 도구]가 많은 경우에 도움이 되었을 것이라는 점에 주목했습니다.
  • 또한 [다른 의료진과의 상호작용]을 보여주는 동영상은 없었지만, 이 단계에서 이러한 상호작용을 통해 의료진의 권장 사항, 우선순위, 가치, 물류 제약 사항을 확인하고 통합할 수 있을 것으로 예상됩니다.
  • 공유 의사 결정 단계는 환자가 계획을 [이해하고 동의했음을 명시적으로 확인]하는 것으로 끝나는 것이 이상적입니다(일관성이 없더라도).

We observed that it was important not only to integrate the patient’s values but also to expressly convey to the patient that this had been done.

  • Teaching and salesmanship were essential in persuading the patient to buy into the care plan, including (depending on the situation) actions such as engaging in the decision-making process, implementing lifestyle measures, taking a medication, consulting another clinician, and returning for follow-up.
  • Although not illustrated in these videos, we noted that a decision aid would have been helpful in many instances.
  • In addition, no video showed interaction with other members of the health care team, and we imagine such interactions at this step could ascertain and integrate their recommendations, priorities, values, and logistic constraints.
  • The shared decision-making step ideally (albeit inconsistently) ended with explicit confirmation that the patient understood and subscribed to the plan.

관리 추론의 마지막 단계는 지속적인 모니터링과 관리 조정입니다. 이 모든 동영상은 이전 방문에 대한 후속 조치로 이루어졌기 때문에 장기간(경우에 따라 몇 년)에 걸친 관리 활동의 한 지점만 반영했습니다. 이러한 관점에서 볼 때 관리 추론은 반드시 이전 만남을 기반으로 하며 향후 후속 조치를 계획해야 합니다. 관리 스크립트는 [과거 정보(병력 및 치료에 대한 반응[이전 반응과의 변화])에 의해 맥락화된 새로운 정보(새로운 검사 결과 및 현재 임상 결과)]에 크게 영향을 받았습니다. 이 스크립트는 다시 제시된 관리 옵션과 임상의의 영업 피치의 테너를 결정했습니다. 또한 임상의는 이 상담에서 관리 범위(예: 당뇨병만 관리할지, 당뇨병과 혈압 및 니코틴 의존도까지 관리할지)에 대해 초기에 결정을 내렸습니다. 진료가 끝날 무렵에는 대개 후속 방문에 대한 계획이 수립되어 있었습니다(그렇지 않은 경우 환자는 대개 불확실하고 불만족스러워 보였습니다). 이러한 후속 계획은 약물 치료에 대한 반응 및 부작용 가능성, 수술의 그럴듯한 결과, 상담 일정의 예상 지연, 질병의 자연력 등 예상되는 또는 [필요한 사건(예후)을 예측하는 임상의의 능력]에 영향을 받습니다. 계획에는 ['이상적인' 후속 조치 계획]과 함께 [환자 및 상황적 요인(실제적인 물류)을 고려하는 것]이 이상적입니다. 
The final step in management reasoning is ongoing monitoring and adjustment of management. All these videos were encounters in follow-up to an earlier visit and as such reflected only 1 point in a management activity spread over an extended period (in some cases, years). From this perspective, management reasoning necessarily builds on prior encounters and must plan for future follow-up. The management script was greatly influenced by new information (new test results and current clinical findings) contextualized by past information (medical history and response to treatment [change from prior response]). This script in turn dictated the management option(s) presented and the tenor of the clinician’s sales pitch. In addition, the clinician made decisions early on regarding the scope of management in this encounter (e.g., diabetes only vs diabetes and blood pressure and nicotine dependence). By the end of the encounter, plans were usually in place for a follow-up visit (and if not, the patient usually appeared uncertain and dissatisfied). These follow-up plans were influenced by the clinician’s ability to anticipate likely or necessary events (prognostication), such as likely response to and possible side effects of drug therapy, plausible outcomes of surgery, the expected delay in scheduling a consultation, or the natural history of the illness. Planning ideally included consideration of patient and contextual factors (practical logistics) married with “ideal” follow-up plans.

이러한 시간적 진화의 각 단계는 환자의 요구, 선호도 및 가치와 임상 상황에 따라 [개인화되거나 맞춤화]될 수 있으며, 맞춤화되어야 합니다. 예를 들어, '고혈압 신약'에 대한 관리 스크립트는

  • 환자의 동반 질환약물 알레르기, 보험 환급상황(응급실 대 외래 진료소)을 고려해야 하며,
  • [교육 및 세일즈맨십]은 환자의 사전 지식, 어휘 및 정보에 대한 욕구에 맞게 조정되어야 하고,
  • [공유 의사 결정]에는 임상의가 제안한 계획에 대한 단순한 동의 이상의 것이 포함되어야 하며,
  • [모니터링 및 조정]은 특정 치료, 질병의 심각도, 치료 반응, 환자 물류(예, 이동 비용 및 시간, 업무 공백 시간), 커뮤니케이션 옵션(예: 대면 방문이 아닌 전화 또는 화상 방문) 등을 고려해야 합니다.

임상의와 환자의 관계도 각 단계에서 강화되거나 약화될 것입니다. 
We note that each step in this temporal evolution can and should be personalized or tailored to the needs, preferences, and values of the patient and the clinical context. For example, a management script for “new drug for hypertension” should take into account the patient’s comorbid conditions and drug allergies, insurance reimbursement, and context (emergency department vs outpatient clinic); teaching and salesmanship should be tailored to the patient’s prior knowledge, vocabulary, and desire for information; shared decision making should involve more than simple acquiescence to the clinician’s proposed plan; and monitoring and adjustment should take into account the specific treatment, severity of illness, treatment response, patient logistics (e.g., expense and time to travel, time away from work), and communication options (e.g., telephone or video visit rather than face-to-face visit). The clinician–patient relationship will also be strengthened or undermined at each step.

마지막으로, 이 동영상에서 관찰된 [관리 추론의 가장 중요한 특징]은 일반적으로 [임상의 내부의 인지적 연습]이 아니라 [임상의와 환자의 상호 작용으로 발생]한다는 것입니다. 물론 이러한 결과는 환자가 참석하지 않거나(예: 임상의가 혼자 또는 의료진과 함께 환자 데이터를 검토하는 경우) 의사 결정에 참여할 수 없는(예: 인공호흡기를 착용한 환자) 관리 상황을 반영하지 못하는 비디오 선택(즉, 대면)의 아티팩트일 수 있습니다. 그러나 대부분의 관리 결정은 궁극적으로 한 명의 임상의가 아닌 [여러 사람이 논의해야 한다]고 생각합니다. 이 동영상에는 나타나지 않지만 이러한 상호작용에는 의료진의 다른 사람(예: 학생, 간호사, 약사, 자문 의사)과 종단적, 비동기적, 간접적 상호작용(예: 의뢰 상담, 환자 인계, 공식적인 인계 없이 동료의 환자 진료)은 물론 동시적이고 직접적인 상호작용도 포함될 수 있습니다. 요컨대, 관리 추론은 전적으로 특정 임상의사 내에서가 아니라, 일반적으로 [개인 간의 공간]에서 발생한다고 추측할 수 있습니다.
Finally, an overarching feature of management reasoning as observed in these videos is that it commonly occurs as a clinician–patient interaction rather than as a cognitive exercise within the clinician. Naturally, this finding could be an artifact of the video selections (i.e., face-to-face encounters), which fail to reflect management situations in which the patient is not present (e.g., clinicians reviewing patient data alone or with the health care team) or unable to participate in decisions (e.g., patient on a ventilator). However, we believe that most management decisions ultimately involve multiperson discussions rather than a single clinician. Although not present in these videos, these interactions could involve others on the health care team (e.g., students, nurses, pharmacists, consulting physicians) and longitudinal, asynchronous, and indirect interactions (e.g., referral consultations, patient handovers, seeing a colleague’s patient without a formal handover) as well as concurrent, direct interactions. In short, it might be conjectured that management reasoning commonly occurs in the space between individuals rather than entirely within a given clinician.


이 연구는 시뮬레이션된 임상의와 환자의 만남을 담은 비디오에 대한 경험적 분석을 통해 이전에 설명한 관리 추론의 개념적 틀을 확장했습니다1,2.

  • 이전에 생각했던 5가지 특징을 확인하는 것 외에도 관리 추론의 7가지 특징을 추가로 경험적으로 확인했습니다(표 1).
  • 질병별 및 프로세스 지식의 중요성을 강조하고 관리 스크립트의 5가지 특징을 확인했습니다.
    • (내용, 순서, 유연성, 유창성, 일반성)
  • 또한 4단계의 시간적 진화와 개인 간 개인화 및 발생이라는 중요한 특징으로 구성된 관리 추론의 경험적 모델을 개발했습니다.
    • (스크립트 인스턴스화, 옵션 식별 및 환자 교육, 공유된 의사 결정, 지속적인 모니터링 및 조정)

This study extended a previously described conceptual framework for management reasoning 1,2 through empirical analysis of videos of simulated clinician–patient encounters.

  • In addition to confirming 5 previously conceived features, we empirically identified 7 additional features of management reasoning (Table 1).
  • We highlighted the importance of illness-specific and process knowledge and identified 5 features of management scripts (content, sequence, flexibility, fluency, and generality).
  • We developed an empirical model of management reasoning composed of 4 steps of temporal evolution (script instantiation, identifying options and teaching patients, shared decision making, and ongoing monitoring and adjustment) and overarching features of personalization and occurrence between individuals.

제한 사항

이 연구에는 한계가 있습니다.

  • 첫째, 관찰한 비디오는 사실적으로 제작되었지만 실제 임상의와 환자 간의 상호 작용이 아닙니다. 동영상은 원래 평가자 교육 연구를 위해 설계된 성인 외래 환자 1차 진료의 5개 질병으로 제한되었으며,14,15 최고 및 최악의 성과를 대표하도록 선택되었습니다. 10개의 비디오는 관리 추론 사례와 맥락의 제한된 샘플을 구성합니다. 따라서 본 연구 결과는 임상의가 모든 상황(예: 입원 환자, 전문의 또는 시술 환경)에서 관리에 대해 어떻게 추론하는지에 대한 표준적인 설명으로 해석될 수 없습니다.
  • 둘째, 이번 연구 결과는 관찰 가능한 행동을 기반으로 합니다. 관찰된 행동은 다양한 원인에 의해 나타날 수 있습니다(예: 모호한 치료 계획은 불충분한 지식, 잘못된 추론 또는 잘못된 의사소통을 반영할 수 있음).
  • 셋째, 저희는 이 연구에서 지침 개념 프레임워크 2의 개발자이면서 관찰자 및 분석자이기도 했으므로 확증 편향의 위험이 있습니다. 여섯 개의 비디오는 우리 중 한 명(박사)이 개발했으며, 이는 관찰의 객관성에 영향을 미칠 수 있습니다. 그러나 이러한 동영상 사례는 정해진 대본에 따르지 않고 즉흥적으로 제작되었으며 13년 전에 제작되었기 때문에 이러한 친숙도가 연구 결과에 큰 영향을 미치지는 않을 것으로 보입니다.

This study has limitations.

  • First, the videos we observed were developed to be realistic, but they were not actual clinician–patient interactions. The videos were limited to 5 illnesses in adult outpatient primary care, originally designed for a study of rater training, 14,15 and selected to represent the best and worst performances. Ten videos constitute a limited sample of management reasoning instances and contexts. Our findings thus cannot be construed as canonical descriptions of how clinicians reason about management in all situations (e.g., inpatient, specialist, or procedural settings).
  • Second, our findings are based on observable behaviors. We can speculate about but cannot confirm underlying cognitive processes; indeed, a given observed behavior could emerge from a variety of etiologies (e.g., a vague care plan could reflect inadequate knowledge, poor reasoning, or poor communication).
  • Third, we were both the developers of the guiding conceptual framework 2 and the observers and analyzers in this study; therefore, there is some risk of confirmatory bias. Six videos were developed by one of us (D.A.C.), which could further influence the objectivity of observations. However, these video cases were extemporaneous (rather than adhering to a defined script) and moreover were created 13 years previously; therefore, it seems unlikely that this level of familiarity would significantly affect our findings.

이전 작업과의 통합
Integration with prior work

우리의 연구는 진단을 용이하게 하는 질병(질환, 병리학적 결함, 증상 및 징후)에 대한 지식 표현인 질병 스크립트에 대한 광범위한 문헌을 보완합니다. 17,19 이에 비해 관리 스크립트는 진단 검사, 치료, 상담, 환자 교육, 공유 의사 결정 및 모니터링과 같은 옵션과 임상의 업무를 연결하는 관리 계획 개발 경로에 대한 지식 표현입니다. 최근에 제안된 관리 스크립트 모델 중 하나는 시간적 진화를 강조했지만8 경험적 데이터에 기반하지 않고 임상의 내부의 활동(추론 및 의사 결정)에 초점을 맞추었습니다. 경험적 관찰에 기반한 저희 모델은 임상의, 환자 및 기타 의료진 구성원을 포함하며, [대인 커뮤니케이션]과 [공유 의사 결정]을 관리 스크립트의 핵심 기능으로 강조합니다. 
Our work complements the extensive literature on illness scripts, which are knowledge representations of an illness (enabling conditions, pathological faults, and symptoms and signs) that facilitate diagnosis. 17,19 By contrast, management scripts are knowledge representations of the path to development of a management plan, linking options and clinician tasks, such as diagnostic tests, treatments, consultations, patient education, shared decision making, and monitoring. One recently proposed model of management scripts highlighted their temporal evolution 8 but was not based on empirical data and focused on activities (reasoning and decisions) within the clinician. Our model, grounded in empirical observations, includes clinicians, patients, and other members of the health care team, and highlights interpersonal communication and shared decision making as central features of the management script.

임상 추론의 한 모델에서는 11가지 관리 과제를 확인했습니다. 12,13 이 모든 것이 동적 상호 작용, 선호도 및 제약 조건의 우선순위 지정, 공유 의사 결정 및 모니터링이라는 특징 하에 우리 모델 안에 포함됩니다. 스크립트, 영업사원 역할, 임상의-환자 관계, 예후 및 조직과 같은 다른 기능도 고유합니다.
One model of clinical reasoning identified 11 management tasks. 12,13 All these are encompassed in our model under the features of dynamic interplay, prioritization of preferences and constraints, shared decision making, and monitoring. Other features in our model (such as scripts, salesperson role, clinician–patient relationship, prognostication, and organization) are unique.

또한 저희의 관리 추론 모델은 의료 의사 결정의 수학적 모델에 관한 방대한 문헌(예: 의사 결정 분석, 20-22 분석 계층 구조 프로세스, 23 관리 임계값, 24 및 선택의 경제 모델 25-27)을 보완합니다. 이러한 모델은 불확실성, 감정, 다양한 발생 확률 또는 시기, 경쟁하는 우선순위 등의 맥락에서 의사 결정에 관한 중요한 원칙을 설명해 왔습니다. 일반적인 수준에서 이러한 수학적 모델과 트위터의 경영 추론 모델에는 목표 정의, 옵션 식별, 혜택, 위험, 선호도에 따른 옵션 평가의 단계가 모두 포함되어 있다는 점에서 어느 정도 유사성이 있음을 인정할 수 있습니다. 그러나 수학적 모델은 이론을 발전시키거나 관리 지침 또는 의사결정 보조자료를 준비하는 등 연구 또는 배후에서 28 가장 유용해 보이는 반면, 트위터의 경영추론 모델은 병상에서의 상호작용을 강조합니다. 우리는 의사결정 모델과 관리 추론이 상호 근거를 마련하고, 입증하고, 서로를 조명할 수 있을 것으로 기대합니다. 
Our model of management reasoning also complements the vast literature on mathematical models of medical decision making (such as decision analysis, 20–22 the analytical hierarchy process, 23 management thresholds, 24 and economic models of choice 25–27). Such models have elucidated important principles regarding decisions in the context of uncertainty, emotion, varying probability or timing of occurrence, and competing priorities. At a general level, we acknowledge some similarity between these mathematical models and our model of management reasoning as both have stages of goal definition; identification of options; and evaluation of options based on benefits, risks, and preferences. However, mathematical models seem most useful in research or behind the scenes 28 (e.g., advancing theory or preparing management guidelines or decision aids), whereas our model of management reasoning emphasizes interactions at the bedside. We envision that decision-making models and management reasoning could mutually ground, substantiate, and illuminate one another.


이전의 개념적 모델을 바탕으로1,2 우리는 관리 추론의 7가지 새로운 특징을 확인했습니다(표 1). [관리 스크립트의 중심 역할]과 [질병 특이적 지식] 및 [프로세스 지식]의 중요성은 이 모델에 특히 두드러지게 추가된 사항입니다. 또한 관리 추론의 시간적 진화를 개괄하는 개념적 모델을 제안하고(그림 1) 진단 추론과 관리 추론의 구분을 더 명확하고 정교하게 만들었습니다(표 1). [임상의와 환자의 관계 구축] 및 [인카운터의 조직화]와 같은 일부 기능은 추론과 무관해 보일 수 있지만, 이러한 활동은 임상의가 말이나 행동에 대한 선택을 요구하며, 이는 결국 인지(추론) 과정을 의미합니다.
Building on our prior conceptual model, 1,2 we have identified 7 new features of management reasoning (Table 1). The central role of the management script and the importance of both illness-specific and process knowledge are particularly salient additions to this model. We have also proposed a conceptual model outlining the temporal evolution of management reasoning (Figure 1) and sharpened and elaborated the distinctions between diagnostic and management reasoning (Table 1). Some features, such as building the clinician–patient relationship and organization of the encounter, may appear unrelated to reasoning; however, such activities require clinicians to make choices about their words or actions, which in turn implies a cognitive (reasoning) process.

이러한 관찰 결과는 [관리 추론]을 [대인 상호작용(협상)]으로 개념화한 이전의 연구 결과를 입증합니다. 1,2 이 발견은 진단 추론에 대한 많은 연구에서 진단에 통합된 일련의 정보에서 개별 환자를 제외하는 경우가 많은 것과는 상당히 대조적입니다. 임상의는 정보(예: 진단, 환자 선호도, 시스템 제약)를 수집하고, 협상하고, 가르치고, 안내하고, 동기를 부여/판매하면서 최종 계획을 '추론'해야 합니다. 이러한 활동은 [한 명의 의료진 내부]에서만 이루어지는 것이 아니라 [의료진, 환자 및 다른 사람들 사이의 공간]에서 이루어집니다. 이러한 관찰은 앞서 자세히 설명한 바와 같이 의료 전문가의 교육 및 평가에 이론적, 실제적 의미를 지니고 있습니다29,30. 1
Our observations substantiate our previous conceptualization of management reasoning as an interpersonal interaction (negotiation). 1,2 This finding is in considerable contrast to many studies of diagnostic reasoning, which often remove the individual patient from the array of information incorporated into a diagnosis. Clinicians must gather information (e.g., diagnosis, patient preferences, system constraints), negotiate, teach, guide, and motivate/sell as they “reason” their way to a final plan. These activities occur in the space between clinician, patient, and others—not exclusively within the clinician. This observation has both theoretical and practical implications for the education and assessment of health professionals, 29,30 as we have previously elaborated. 1

이러한 특징과 모델은 교육에 대한 추가적인 시사점을 제공합니다.

  • 첫째, 관리 추론에서 관리 스크립트의 지배적인 역할은 이러한 [인지적 표상을 배양하는 데 집중해야 할 필요성]을 시사합니다. 또한 관리 스크립트 자체는 의료 전문가를 교육하는 데 유용한 도구가 될 수 있는데, 예를 들어 임상의가 환자 사례에 대한 접근 방식에 대해 "소리 내어 생각"할 때 유용할 수 있습니다. 17
  • 둘째, '일을 처리하는 방법'에 대한 실용적인 지식이 의료진에게 유용한 기술이라는 사실은 오랫동안 인정되어 왔지만, 이제는 [과정 지식도 관리 추론(즉, 임상의와 환자 간 협상의 일부)에서 중요한 역할]을 한다는 것을 인식하고 있습니다. 과정 지식은 환자 중심 교육, 세일즈맨십(수사학 분야와 설득에 대한 통찰력 31에서 차용한 것일 수 있음), 신뢰 형성, 예후 예측과 같은 기술과 함께 의료 전문가 교육 및 평가에서 보다 전략적으로 강조할 가치가 있습니다.
  • 셋째, 우리의 연구 결과는 관리(진단) 추론에 대해 고유하거나 다른 빈도로 요구되는 기술의 개발 및 평가와 관련하여 이전에 제안된 시사점을 경험적으로 확인합니다. 1

These features and model have additional implications for education.

  • First, the management script’s dominant role in management reasoning suggests the need to focus on cultivating these cognitive representations. The management script itself may also serve as a useful tool for teaching health professionals, such as when master clinicians “think aloud” about their approach to a patient case. 17 
  • Second, although it has long been accepted that practical knowledge of how to “get things done” is a useful skill for practitioners, we now recognize that process knowledge also plays a crucial role in management reasoning (i.e., as part of the clinician–patient negotiation). Process knowledge, along with skills such as patient-directed teaching, salesmanship (perhaps borrowing from the field of rhetoric and its insights on persuasion 31), engendering trust, and prognostication, may merit more strategic emphasis in the education and assessment of health professionals.
  • Third, our findings empirically confirm previously proposed implications regarding the development and assessment of skills that are likely unique or required with different frequencies for management (vs diagnostic) reasoning. 1

또한 임상 실무에 대한 시사점도 확인했습니다. 임상의의 일상 업무를 지원하기 위해 수많은 도구가 개발되었습니다. 관리 추론의 주요 특징과 해당 모델은 진료 수요를 충족하는 데 있어 이러한 도구의 관련성과 포괄성을 체계적으로 평가하는 데 도움이 됩니다.

  • 예를 들어,
    • [진료 지침]과 [컴퓨터 기반 지식 리소스]는 [질병 특이적 지식] 문제를 다루고,
    • [치료 경로와 프로토콜]은 치료의 [프로세스 지식]을 다루며,
    • [의사 결정 보조 도구]는 [공유 의사 결정]을 돕고,
    • [기타 컴퓨터 도구]는 [모니터링과 후속 조치]를 지원할 수 있습니다.
  • 반대로 역동적인 상호 작용, 세일즈맨십, 임상의와 환자의 관계, 진료 조직, 스크립트 개발을 지원하는 도구는 덜 보편화되어 있습니다.

We also recognize implications for clinical practice. Numerous tools have been developed to support clinicians in their daily routine. The key features and corresponding model of management reasoning facilitate an organized appraisal of the relevance and comprehensiveness of such tools in meeting practice demands.

  • For example,
    • practice guidelines and computer-based knowledge resources address issues of illness-specific knowledge;
    • care pathways and protocols address process knowledge;
    • decision aids help shared decision making; and
    • other computer tools can support monitoring and follow-up.
  • Conversely, tools to support dynamic interplay, salesmanship, clinician–patient relationships, encounter organization, and script development are less prevalent.

마지막으로, 경험적 데이터에 기반을 두고 있지만, 이번 연구 결과는 아직 잠정적이고 다소 개념적인 수준에 머물러 있으므로 추가 연구가 필요합니다. 

  • 먼저, 관리 스크립트의 역할과 개발을 이해하기 위한 이론적 및 실증적 연구를 제안합니다: 스크립트는 어떻게 활성화, 선택, 인스턴스화되나요? 18 한 스크립트가 다른 스크립트에 대한 헤게모니를 확보하는 방법은 무엇인가요? 어떤 스크립트 기능이 필수적이며, 추론 작업을 간소화하기 위해 (적어도 교육 초기에는) 어떤 기능을 할인할 수 있을까요? 이번 연구 결과는 일반적인 프레임워크("나쁜 소식 속보")를 반영하는 메타 스크립트, 특정 질병에 초점을 맞춘 기본 스크립트, 환자 또는 상황에 맞게 조정된 하위 스크립트로 구성된 가능한 스크립트 계층 구조를 제안하며, 이러한 제안은 확인과 정교화가 필요합니다.
  • 둘째, 입원 환자 진료, 종단적(반복적) 상호작용, 비대면 진료(전화 통화, 전자 통신, 환자의 개입 없이 의료 기록 검토), 다른 의료진과의 상호작용 등 다양한 환경에서 관리 추론이 어떻게 나타나는지 살펴보는 추가 연구를 제안합니다. 다양한 경력을 가진 임상의(예: 학생, 대학원 수련의, 일반의, 전문의)를 대조하는 연구도 통찰력을 얻을 수 있습니다.
  • 셋째, 이 연구에서는 인종, 민족, 성별이 임상의와 환자 간의 상호작용에 어떤 영향을 미치는지 조사하지 못했습니다. 이러한 특징과 기타 특징을 의도적으로 탐구한다면 관리 추론에 대한 이해를 높이고 잠재적인 관리 불균형을 완화하는 데 도움이 될 것입니다.
  • 넷째, 많은 관리 추론이 임상의 내부가 아닌 개인 간의 공간에서 발생한다는 주장을 검증하는 연구가 필요합니다.
  • 다섯째, 저희처럼 관찰 가능한 행동에 국한하지 않고 실제 인지 과정을 조명할 수 있는 새로운 연구 방법의 적용을 권장합니다.

Finally, although grounded in empirical data, our findings remain tentative and somewhat conceptual and thus demand further research.

  • First, we propose theoretical and empirical work to understand the role and development of management scripts: How are scripts activated, selected, and instantiated? 18 How does one script gain hegemony over another? What script features are essential, and what features could be discounted (at least early in training) to simplify the reasoning task? Our findings suggest a possible script hierarchy, with meta-scripts reflecting general frameworks (“breaking bad news”), primary scripts focusing on a given illness, and subscripts being tailored to the patient or context; this suggestion warrants confirmation and elaboration.
  • Second, we suggest further research exploring how management reasoning manifests in different settings, such as inpatient care, longitudinal (repeated) interactions, non–face-to-face care (telephone calls, electronic communication, and review of medical records without patient involvement), and interactions with other health care team members. Research contrasting clinicians of varying experience (e.g., students, postgraduate trainees, generalists, specialists) would also be insightful.
  • Third, this study could not examine how race, ethnicity, or gender influences clinician–patient interactions; intentionally exploring these and other features would enhance our understanding of management reasoning and help mitigate potential management disparities.
  • Fourth, we need research that examines our claim that much management reasoning occurs in the space between individuals vs within the clinician.
  • Fifth, we encourage application of novel research methods permitting illumination of actual cognitive processes rather than restricting to observable behaviors as we did.


Acad Med. 2023 Jan 1;98(1):80-87. doi: 10.1097/ACM.0000000000004810. Epub 2022 Dec 22.

Management Reasoning: Empirical Determination of Key Features and a Conceptual Model

Affiliations collapse


1D.A. Cook is professor of medicine and professor of medical education, director of education science, Office of Applied Scholarship and Education Science, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine and Science, Rochester, Minnesota; ORCID: .

2C.R. Stephenson is assistant professor of medicine and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine and Science, Rochester, Minnesota; ORCID: .

3L.D. Gruppen is professor, Department of Learning Health Sciences, and director, Master in Health Professions Education Program, University of Michigan, Ann Arbor, Michigan; ORCID: .

4S.J. Durning is professor and vice chair, Department of Medicine, and director, Center for Health Professions Education, Uniformed Services University of the Health Sciences, Bethesda, Maryland; ORCID: .

PMID: 35830267

DOI: 10.1097/ACM.0000000000004810


Purpose: Management reasoning is a critical yet understudied phenomenon in clinical practice and medical education. The authors sought to empirically identify key features of management reasoning and construct a model describing the management reasoning process.

Method: In November 2020, 4 investigators each reviewed 10 video clips of simulated outpatient physician-patient encounters and used a coding form to document key features and insights related to management reasoning. The team used a constant comparative approach to distill 120 pages of raw observations into an 18-page list of management tasks, processes, and insights. The team then had a series of discussions to iteratively refine these findings into a parsimonious model of management reasoning.

Results: The investigators empirically identified 12 distinct features of management reasoning: contrasting and selection among multiple solutions; prioritization of patient, clinician, and system preferences and constraints; communication and shared decision making; ongoing monitoring and adjustment of the management plan; dynamic interplay among people, systems, and competing priorities; illness-specific knowledge; process knowledge; management scripts; clinician roles as patient teacher and salesperson; clinician-patient relationship; prognostication; and organization of the clinical encounter (sequencing and time management). Management scripts seemed to play a prominent and critical role. The model of management reasoning comprised 4 steps: instantiation of a management script, identifying (multiple) options and beginning to teach the patient, shared decision making, and ongoing monitoring and adjustment. This model also conceives 2 overarching features: that management reasoning is personalized to the patient and that it occurs between individuals rather than exclusively within the clinician's mind.

Conclusions: Management scripts constitute a key feature of management reasoning, along with teaching patients about viable options, shared decision making, ongoing monitoring and adjustment, and personalization. Management reasoning seems to be constructed and negotiated between individuals rather than exclusively within the clinician.

질적 연구에서 주제 포화를 평가하고 보고하는 단순한 방법(PLOS ONE, 2020)
A simple method to assess and report thematic saturation in qualitative research
Greg Guest1, Emily NameyID2*, Mario Chen2


데이터 포화는 질적 표본 크기를 추정하고 평가하기 위한 개념적 척도입니다. 지난 20년 동안 학자들은 경험적 연구를 수행하고 특정 연구의 포화 상태에 도달하는 데 필요한 질적 인터뷰 수를 추정하기 위해 고안된 수학적/통계적 모델을 개발해 왔습니다. 이러한 연구는 질적 연구의 설계 단계에서 표본 크기 추정을 위한 근거 기반을 발전시켰지만, 데이터 수집 중 및/또는 수집 후에 포화와 표본 크기의 적절성을 결정하는 방법을 제공하지는 않습니다. 모스가 20여 년 전에 지적했듯이, "포화는 엄격성의 중요한 요소입니다. 이는 모든 질적 연구에 존재하지만, 안타깝게도 주로 선언을 통해 드러납니다."[1]. 이 백서에서는 질적 연구자가 단순한 선언을 넘어 포화에 대해 이야기하고 이에 대한 증거를 제시할 수 있도록 포화를 평가하고 보고하는 방법을 제시합니다. 
Data saturation is the conceptual yardstick for estimating and assessing qualitative sample sizes. During the past two decades, scholars have conducted empirical research and developed mathematical/statistical models designed to estimate the likely number of qualitative interviews needed to reach saturation for a given study. Although this body of work has advanced the evidence base for sample size estimation during the design phase of a qualitative study, it does not provide a method to determine saturation, and the adequacy of sample sizes, during and/or after data collection. As Morse pointed out more than 20 years ago, “saturation is an important component of rigor. It is present in all qualitative research but, unfortunately, it is evident mainly by declaration” [1]. In this paper we present a method to assess and report on saturation that enables qualitative researchers to speak about--and provide some evidence for--saturation that goes beyond simple declaration.

이 접근법의 토대를 제공하기 위해 포화를 정의한 다음, 포화와 심층 인터뷰를 위한 표본 크기를 추정하는 지금까지의 작업을 검토합니다. 그 다음에는 포화를 운영 및 측정하기 위해 제시된 몇 가지 경험적 기반 방법에 대한 개요를 살펴보고 이러한 접근법을 실제 연구 맥락, 특히 귀납적 주제 분석을 사용하는 연구 맥락에 적용하는 데 따르는 어려움을 파악합니다. 그 후, 우리는 포화를 평가하는 대안적인 방법을 제안하고 귀납적 주제 분석 중 또는 분석 후에 포화를 평가하고 보고하는 비교적 사용하기 쉬운 방법을 제공합니다. 우리는 뚜렷하게 다른 세 가지 정성적 데이터 세트에 대해 부트스트래핑 기법을 사용하여 우리의 방법을 테스트하고 검증합니다. 
To provide the foundation for this approach, we define saturation and then review the work to date on estimating saturation and sample sizes for in-depth interviews. We follow this with an overview of the few empirically-based methods that have been put forward to operationalize and measure saturation and identify challenges of applying these approaches to real-life research contexts, particularly those that use inductive thematic analyses. We subsequently propose an alternative way of evaluating saturation and offer a relatively easy-to-use method of assessing and reporting on it during or after an inductive thematic analysis. We test and validate our method using a bootstrapping technique on three distinctly different qualitative datasets.

우리가 제안하는 방법은 내러티브를 생성하는 것을 목표로 하는 정성적 데이터 수집 기법, 즉 귀납적 프로빙과 함께 개방형 질문을 사용하는 포커스 그룹 및 일대일 인터뷰를 위해 설계되었습니다(개별 인터뷰 데이터에 대해서만 이 방법을 검증하려고 시도했지만). 또한 귀납적 주제 분석[2-4]을 사용하여 데이터에서 새로운 주제를 발견한 다음 코드로 변환하는 상황에도 이 방법을 구체적으로 적용할 수 있습니다.
The method we propose is designed for qualitative data collection techniques that aim to generate narratives–i.e., focus groups and one-on-one interviews that use open-ended questioning with inductive probing (though we have only attempted to validate the method on individual interview data). Our method also specifically applies to contexts in which an inductive thematic analysis [24] is used, where emergent themes are discovered in the data and then transformed into codes.

포화 및 질적 표본 크기 추정의 간략한 역사
A brief history of saturation and qualitative sample size estimation

질적 인터뷰는 몇 번이면 충분할까요? 지난 50여 년 동안 학계 전반에서 이 질문에 대한 답은 대개 포화 상태에 도달하는 것을 중심으로 이루어졌습니다[1, 5-9]. 포화라는 개념은 1967년 글레이저와 스트라우스가 저서 '근거 이론의 발견'에서 '이론적 포화'라는 이름으로 질적 연구 분야에 처음 도입했습니다[10]. 그들은 이 용어를 ["[연구자가] 범주의 속성을 개발할 수 있는 추가 데이터가 발견되지 않는 시점"]으로 정의했습니다(61페이지). 이 정의는 질적 데이터를 사용하여 이론적 모델을 구축하고 테스트하는 관행을 위해 특별히 고안되었으며, [개발 중인 이론적 모델이 안정화되는 시점]을 의미합니다. 그러나 많은 질적 데이터 분석은 특정 근거 이론 방법을 사용하지 않고 보다 [일반적인 귀납적 주제 분석]을 사용합니다. 시간이 지남에 따라 '데이터 포화'라는 용어와 개념의 광범위한 적용을 반영하기 위해 더 넓은 의미의 '데이터 포화'라는 용어가 점점 더 많이 채택되고 있습니다. 이러한 넓은 의미에서 포화 상태는 종종 [데이터 수집 및 분석]에서 [새로 들어오는 데이터가 연구 질문에 대한 새로운 정보를 거의 또는 전혀 생성하지 못하는 시점]으로 설명됩니다[4, 9, 11-13].
How many qualitative interviews are enough? Across academic disciplines, and for about the past five decades, the answer to this question has usually revolved around reaching saturation [1, 59]. The concept of saturation was first introduced into the field of qualitative research as “theoretical saturation” by Glaser and Strauss in their 1967 book The Discovery of Grounded Theory [10]. They defined the term as the point at which “no additional data are being found whereby the [researcher] can develop properties of the category” (pg. 61). Their definition was specifically intended for the practice of building and testing theoretical models using qualitative data and refers to the point at which the theoretical model being developed stabilizes. Many qualitative data analyses, however, do not use the specific grounded theory method, but rather a more general inductive thematic analysis. Over time, the broader term “data saturation” has become increasingly adopted, to reflect a wider application of the term and concept. In this broader sense, saturation is often described as the point in data collection and analysis when new incoming data produces little or no new information to address the research question [4, 9, 1113].

흥미롭게도 포화 상태에 대한 경험적 연구는 포화 상태에 도달할 것으로 예상되는 시점을 결정하기 위한 노력에서 시작되었습니다. "포화 상태가 될 때까지 인터뷰"가 모범 사례로 인식되었지만, 표본 크기에 대한 충분한 설명은 아니었습니다. 대부분의 연구 맥락에서, 연구 수행 전에 자금 지원자, 윤리 위원회 및 기타 검토자가 표본 규모를 명시하고 정당성을 입증해야 합니다[14, 15]. 응용 질적 연구자들은 다음과 같은 질문에 직면했습니다: 현장에 들어가기 전에 얼마나 많은 인터뷰가 필요할지 어떻게 예측할 수 있을까요?
Interestingly, empirical research on saturation began with efforts to determine when one might expect it to be reached. Though “interviewing until saturation” was recognized as a best practice, it was not a sufficient description of sample size. In most research contexts, sample size specification and justification is required by funders, ethics committees, and other reviewers before a study is implemented [14, 15]. Applied qualitative researchers faced the question: How do I estimate how many interviews I’ll need before I head into the field?

이 문제를 해결하기 위한 경험적 연구는 2000년대 초부터 문헌에 등장하기 시작했습니다.

  • Morgan 등[16]은 환경 위험에 대해 수집된 데이터를 사용하여 선구적인 방법론 연구를 수행했습니다. 그들은 처음 5~6개의 인터뷰가 데이터 세트에서 대부분의 새로운 정보를 생성했으며, 표본 크기가 20개에 가까워질수록 새로운 정보를 거의 얻지 못한다는 사실을 발견했습니다. 4개의 데이터 세트에서 데이터 세트 내에서 확인된 모든 개념의 약 80%~92%가 처음 10번의 인터뷰에서 발견되었습니다.
  • 마찬가지로 Guest 등[9]은 서아프리카의 여성 성 노동자들을 대상으로 60건의 심층 인터뷰에 대한 단계적 귀납적 주제 분석을 수행한 결과, 114개의 식별된 주제 중 70%가 처음 6건의 인터뷰에서 나타났으며 92%가 처음 12건의 인터뷰에서 확인되었다는 사실을 발견했습니다.
  • 프란시스(Francis) 연구팀과 네이미(Namey) 연구팀[17, 18]의 후속 연구에서도 비슷한 결과가 보고되었습니다.
  • 이러한 초기 연구를 바탕으로 Hagaman과 Wutich[19]는 교차 문화 연구 내에서 포화를 계산한 결과, 4개 사이트 각각에서 데이터 포화에 도달하기 위해서는 16개 미만의 인터뷰만으로도 충분하지만, 사이트 간 교차 문화 메타 주제를 식별하려면 20~40개의 인터뷰가 필요하다는 사실을 발견했습니다.

Empirical research to address this issue began appearing in the literature in the early 2000s.

  • Morgan et al. [16] conducted a pioneer methodological study using data collected on environmental risks. They found that the first five to six interviews produced the majority of new information in the dataset, and that little new information was gained as the sample size approached 20 interviews. Across four datasets, approximately 80% to 92% of all concepts identified within the dataset were noted within the first 10 interviews.
  • Similarly, Guest et al. [9] conducted a stepwise inductive thematic analysis of 60 in-depth interviews among female sex workers in West Africa and discovered that 70% of all 114 identified themes turned up in the first six interviews, and 92% were identified within the first 12 interviews.
  • Subsequent studies by Francis et al. and Namey et al. [1718] reported similar findings.
  • Building on these earlier studies, Hagaman and Wutich [19] calculated saturation within a cross-cultural study and found that fewer than 16 interviews were enough to reach data saturation at each of the four sites but that 20–40 interviews were necessary to identify cross-cultural meta-themes across sites.


Galvin[20]은 메타 분석적 접근 방식을 사용하여 이항 논리를 사용하여 54개의 질적 연구를 검토하고 통계적으로 분석했습니다. 그는 6명의 개인 표본에서 특정 개념(주제)을 식별할 확률이 더 큰 연구 집단의 55%에서 해당 개념을 공유할 경우 99%보다 높다는 것을 발견했습니다.

  • 이와 동일한 논리를 사용하여 Fugard와 Potts[21]는 정성적 데이터의 주제별 분석에 필요한 표본 크기를 추정하는 [정량적 도구]를 개발했습니다. 이 계산에는 (1) 모집단 내에서 주제의 예상 유병률, (2) 해당 주제의 원하는 인스턴스 수, (3) 연구에 필요한 검정력 등이 포함됩니다. 예를 들어, 이 도구는 모집단에서 유병률이 10%인 테마의 인스턴스 2개를 감지할 수 있는 80%의 힘을 가지려면 29명의 참가자가 필요하다고 추정합니다. 이 모델은 무작위 표본을 가정한다는 점에 유의하세요.

Using a meta-analytic approach, Galvin [20] reviewed and statistically analyzed—using binomial logic—54 qualitative studies. He found the probability of identifying a concept (theme) among a sample of six individuals is greater than 99% if that concept is shared among 55% of the larger study population.

  • Employing this same logic, Fugard and Potts [21] developed a quantitative tool to estimate sample sizes needed for thematic analyses of qualitative data. Their calculation incorporates: (1) the estimated prevalence of a theme within the population, (2) the number of desired instances of that theme, and (3) the desired power for a study. Their tool estimates, for example, that to have 80% power to detect two instances of a theme with a 10% prevalence in a population, 29 participants would be required. Note that their model assumes a random sample.

위의 연구는 정성적 표본 크기 추정 분야의 기초가 되는 연구입니다. 이 연구들은 특정 연구에 필요한 정성적 인터뷰의 수를 추정하기 위한 경험적 기반 지침을 제공하며, 정량적 연구 설계의 검정력 계산과 유사한 역할을 합니다(물론 수학이나 정밀도가 떨어지는 경우도 있지만). 그리고 파워 계산과 마찬가지로, 데이터 수집이 시작되면 이 추정치도 논란의 여지가 있습니다. 추정치는 특정 연구의 다양한 요소에 관한 (지정된) 가정과 기대치를 기반으로 합니다. 모든 연구자가 알다시피, 현실은 종종 놀라움을 선사합니다. 연구에 특정 매개변수(정량적)가 적용되거나 경험적 지침에 따라 표본 크기가 정해져 있을 수 있지만(정성적), 데이터 수집이 완료된 후에는 결과 데이터가 어느 쪽에도 부합하지 않을 수 있습니다.
The above studies are foundational in the field of qualitative sample size estimation. They provide empirically-based guidance for approximating how many qualitative interviews might be needed for a given study and serve a role analogous to power calculations in quantitative research design (albeit in some case without the math and degree of precision). And, like power calculations, they are moot once data collection begins. Estimates are based on (specified) assumptions, and expectations regarding various elements in a particular study. As all researchers know, reality often presents surprises. Though a study may be powered to certain parameters (quantitative) or have a sample size based on empirical guidance (qualitative), after data collection is completed the resulting data may not conform to either.

당연히 연구자들은 최근 데이터 포화에 대해 추정을 넘어서는 두 가지 후속 질문을 하기 시작했습니다:

  • 포화 개념을 더 잘 조작화하려면 어떻게 해야 할까요? 그리고
  • 포화에 도달했는지 어떻게 알 수 있을까요?

Not surprisingly, researchers have recently begun asking two follow up questions about data saturation that go beyond estimation: 

  • How can we better operationalize the concept of saturation? and 
  • How do we know if we have reached saturation?

포화 조작화 및 평가
Operationalizing and assessing saturation

정성적 연구에서 포화에 대한 경험적 연구의 범위와 포화를 다루는 데이터 기반 연구에서 사용되는 운영 및 평가 메트릭에 대한 자세한 내용은 표 1에 요약되어 있습니다. 포화 평가에 대한 접근 방식의 개발을 위해 이러한 연구들을 검토하면서, 포화 평가 프로세스의 광범위한 적용에 대한 세 가지 한계를 확인했으며, 이를 극복하고자 했습니다.

  • 메트릭의 비교 가능성 부족,
  • 확률 이론 또는 무작위 샘플링에 대한 의존,
  • 완전히 코딩/분석된 데이터 세트에 의존하는 후향적 평가의 한계

대안적인 접근 방식을 소개하기 전에 각 한계에 대해 간략히 설명합니다.
The range of empirical work on saturation in qualitative research and detail on the operationalization and assessment metrics used in data-driven studies that address saturation are summarized in Table 1. In reviewing these studies to inform the development of our approach to assessing saturation, we identified three limitations to the broad application of saturation assessment processes which we sought to overcome:

  • lack of comparability of metrics,
  • reliance on probability theory or random sampling, and
  • retrospective assessment dependent on having a fully coded/analyzed dataset.

We discuss each limitation briefly before introducing our alternative approach.


메트릭의 비교 가능성 부족.
Lack of comparability in metrics.

현재 포화에 대한 조작화 방식은 [포화에 도달했는지 여부를 이분법적으로 판단]하는 데 사용되는 [기준이 매우 다양]합니다(예: Francis 외. [17] 및 Coenen 외. [22]). 분석 단위와 포화 임계값의 엄격성 측면에서 접근 방식이 얼마나 다른지 고려할 때, 포화 상태에 도달했는지 여부에 대한 결론에 대해 어느 정도의 확신을 가져야 하는지 이해하기는 어렵습니다. 통계적 분석 방법을 사용하는 정량적 연구자가 신뢰 구간 수준과 보고할 기타 지표에 대한 옵션을 설정한 것과 달리, [정성적 연구자]가 [포화 결과의 강도를 해석하는 데 도움이 되는 합의된 지표]가 없습니다. 우리가 제안하는 방법은 정성적 연구자가 다양한 수준의 평가 기준 중에서 선택할 수 있도록 하며, 이러한 기준에 대한 공통된 설명과 함께 사용된 기준의 엄격성에 따라 독자가 포화에 관한 결론을 어느 정도 자신 있게 해석할 수 있도록 합니다.
Current operationalizations of saturation vary widely in the criteria used to arrive at a binary determination of saturation having been reached or not reached (e.g., Francis et al. [17] and Coenen et al. [22]). Given how different approaches are–in terms of units of analysis and strictness of saturation thresholds–it is difficult to understand how much confidence to have in a conclusion about whether saturation was reached or not. Unlike quantitative researchers using statistical analysis methods who have established options for levels of confidence intervals and other metrics to report, there are no agreed-upon metrics to help qualitative researchers interpret the strength of their saturation findings. The method we propose facilitates qualitative researchers’ choice among levels of assessment criteria along with a common description of those criteria that will allow readers to interpret conclusions regarding saturation with more or less confidence, depending on the strictness of the criteria used.

확률 이론 및/또는 무작위 표본 가정에 의존합니다.
Reliance on probability theory, and/or the assumption of a random sample.

포화 평가를 [확률론적 가정](예: Lowe 등 [26], Fugard & Potts [21], Galvin [20])에 근거하는 것은 대부분의 질적 연구가 질적 조사의 성격과 목적에 적합한 [비확률적이고 의도적인 표본 추출을 사용한다는 사실]을 무시하는 것입니다[28]. 무작위 표본 추출을 사용하는 경우에도 질적 조사의 개방형 특성은 응답 범주가 구조화되어 있지 않고 상호 배타적이지 않기 때문에 대규모 모집단에 대한 확률 이론이나 통계적 추론에 적합하지 않습니다. 주제 A의 표현이 반드시 주제 B를 배제하는 것은 아니며, 주제 A의 표현이 없다고 해서 반드시 Not-A를 의미하는 것도 아닙니다. 또한, 로지스틱스 관점에서 볼 때, 많은 질적 연구자들은 데이터 세트에 대해 복잡한 통계적 테스트를 수행할 전문 지식이나 시간이 없습니다. 우리의 접근 방식은 단순한 산술과 백분율 계산만 포함합니다.
Basing assessments of saturation on probabilistic assumptions (e.g., Lowe et al. [26], Fugard & Potts [21], Galvin [20]) ignores the fact that most qualitative research employs non-probabilistic, purposive sampling suited to the nature and objectives of qualitative inquiry [28]. Even in cases where random sampling is employed, the open-ended nature of qualitative inquiry doesn’t lend itself well to probability theory or statistical inference to a larger population because response categories are not structured, so are not mutually exclusive. The expression of Theme A is not necessarily to the exclusion of Theme B, nor does the absence of the expression of Theme A necessarily indicate Not-A. Further, from a logistical standpoint, many qualitative researchers do not have the expertise, nor the time required, to perform complicated statistical tests on their datasets. Our approach involves only simple arithmetic and calculation of percentages.

후향적 평가는 완전히 코딩/분석된 데이터 세트가 있어야 합니다.
Retrospective assessment dependent on having a fully coded/analyzed dataset.

데이터 세트의 [전체 테마 수] 대비 [새로운 테마]의 비율을 기준으로 포화를 계산하는 방법(예: Guest 외. [9], Hennink 외. [23])은 수행된 총 인터뷰 수에 의해 제한됩니다. [분모]는 완전히 분석된 데이터 세트의 총 테마 수를 나타내며 고정되어 있는 반면 [분자의 테마 수]는 새로운 인터뷰를 고려할 때마다 분모에 가까워져 결국 100% 포화에 도달하게 됩니다. 후향적으로 평가되고 완전히 분석된 고정된 크기의 데이터 세트에서는 [필연적으로 포화 상태가 발생]합니다. 우리가 설명하는 방법은 전체 데이터 세트 대신 분모에 데이터 항목의 하위 집합을 사용함으로써 이 문제를 해결하여 포화를 보다 전향적으로 평가하고 연구자가 미리 지정한 인터뷰 횟수에 도달하기 전에 중단할 수 있는 이점을 제공합니다. (그러나 이 접근 방식에서는 저자들이 정의한 포화 비율을 측정할 수 없습니다.) 
Methods that calculate saturation based on the proportion of new themes relative to the overall number of themes in a dataset (e.g., Guest et al. [9], Hennink et al. [23]) are limited by the total number of interviews conducted: the denominator represents the total number of themes in the fully-analyzed dataset and is fixed, while the number of themes in the numerator gets closer to the denominator with every new interview considered, thus eventually reaching 100% saturation. Saturation will inevitably occur in a retrospectively-assessed, fully-analyzed, fixed-size dataset. The method we outline eliminates this problem by using a subset of data items in the denominator instead of the entire dataset, facilitating better prospective assessment of saturation and offering the advantage of allowing researchers to stop before reaching a pre-specified number of interviews. (Under our approach, however, a measure of percent saturation as defined by these authors will not be available.)


포화 계산 및 보고에 대한 대안적 접근 방식 및 방법
An alternative approach and method to calculating and reporting saturation

평가의 목적상, [포화]는 데이터 분석 중 들어오는 데이터 포인트(인터뷰)가 연구 목표와 관련하여 새롭고 유용한 정보를 거의 또는 전혀 생성하지 않는 시점을 의미합니다. 이러한 포화의 정의를 운영하기 위한 우리의 접근 방식은 [기본 크기, 실행 길이, 들어오는 새로운 정보의 상대적 양 또는 새로운 정보 임계값]이라는 [세 가지 요소]로 구성됩니다.
For the purposes of our assessment, saturation refers to the point during data analysis at which incoming data points (interviews) produce little or no new useful information relative to the study objectives. Our approach to operationalizing this definition of saturation consists of three distinct elements–

  • the base size,
  • the run length, and
  • the relative amount of incoming new information, or the new information threshold.


기본 크기.
Base size.

포화를 평가할 때 [들어오는 정보]는 [이미 획득한 정보]와 비교하여 가중치를 부여합니다. [기본 크기]는 나중에 [분모]로 사용할 데이터 집합에서 이미 식별된 정보 본문을 어떻게 둘러싸는지를 나타냅니다(Francis 등의 초기 분석 샘플과 유사). 다시 말해, 이미 확보한 정보의 양을 계산하기 위해 검토/분석해야 하는 최소 데이터 수집 이벤트(예: 인터뷰)의 수는 얼마인가? 모든 데이터 수집 이벤트를 기본 크기로 사용하면 더 이상 고려할 데이터가 없기 때문에 기본적으로 포화 상태에 도달할 수 있다는 것을 알고 있습니다. 또한 이전 연구[9, 16, 29]에 따르면 정성적 데이터 세트에서 대부분의 새로운 정보는 프로세스 초기에 생성되며, 일반적으로 점근 곡선을 따르고, 소수의 데이터 수집/분석 이벤트 이후에는 새로운 정보가 상대적으로 급격히 감소한다는 사실도 알고 있습니다. 이러한 이유로 [포화 비율의 분모에 사용할 총 고유 테마 수]를 계산하기 위한 기본 크기로 4, 5, 6개의 인터뷰를 테스트하기로 선택했습니다. 기준 크기의 분석 단위는 데이터 수집 이벤트이며, 분석 항목은 테마를 나타내는 고유 코드입니다.
When assessing saturation, incoming information is weighed against the information already obtained. Base size refers to how we circumscribe the body of information already identified in a dataset to subsequently use as a denominator (similar to Francis et al.’s initial analysis sample). In other words, what is the minimum number of data collection events (i.e., interviews) we should review/analyze to calculate the amount of information already gained? We know that if we use all of the data collection events as our base size, we can reach saturation by default as there are no more data to consider. We also know from previous studies [9, 16, 29] that most novel information in a qualitative dataset is generated early in the process, and generally follows an asymptotic curve, with a relatively sharp decline in new information occurring after just a small number of data collection/analysis events. For this reason, we have chosen to test 4, 5, and 6 interviews as base sizes from which to calculate the total number of unique themes to be used in the denominator of the saturation ratio. The unit of analysis for base size is the data collection event; the items of analysis are unique codes representing themes.

실행 길이.
Run length.

[실행run]은 [연속적인 이벤트 또는 관찰(이 경우 인터뷰)의 집합]으로 정의할 수 있습니다. [실행 길이]는 [새로운 정보를 찾고 계산하는 인터뷰 횟수]입니다. 실행에서 발견된 [새로운 테마의 수]는 [포화 비율]의 [분자]를 정의합니다. 예를 들어, Hagaman과 Wutich(2017)와 Francis 등(2010)은 분자에 대한 새로운 테마의 수를 (재)평가할 때마다 3개의 데이터 수집 이벤트의 실행을 고려하는 반면, Coenen 등(2012)은 데이터 실행에 2개의 이벤트만 포함시킵니다. 저희 분석에서는 연구자에게 더 많은 유연성을 제공하기 위해 두 개의 이벤트와 세 개의 이벤트 등 두 가지 실행 길이 옵션을 계산에 제공합니다. 분석에서 연속적인 실행은 겹치는데, 각 인터뷰 세트는 하나의 이벤트에 의해 시간이 오른쪽으로 또는 "앞으로" 이동합니다. 그림 1은 이 프로세스와 기본 크기 및 실행 길이가 서로 어떻게 연관되는지 보여줍니다. 여기서도 분석 단위는 데이터 수집 이벤트이며, 분석 항목은 고유 코드입니다.
A run can be defined as a set of consecutive events or observations, in this case interviews. The run length is the number of interviews within which we look for, and calculate, new information. The number of new themes found in the run defines the numerator in the saturation ratio. Hagaman and Wutich (2017) and Francis et al. (2010), for example, consider runs of three data collection events each time they (re)assess the number of new themes for the numerator, whereas Coenen et al. (2012) include only two events in their data runs. For our analyses we provide both options for run lengths in our calculations–two events and three events–to afford researchers more flexibility. Note that in our analyses, successive runs overlap: each set of interviews shifts to the right or “forward” in time by one event. Fig 1 shows the process, and how base size and run length relate to one another. Here again the unit of analysis is the data collection event; the items of analysis are unique codes.


새로운 정보 임계값.
New information threshold.

[분자]와 [분모]에 대한 분석 단위가 결정되면 [비례 계산]은 간단합니다. 하지만 다음 질문은 순전히 주관적인 질문입니다: 어느 정도의 새로운 정보 부족을 포화 상태의 지표로 받아들여야 할까요? 규범적인 기준이 아니라 연구자에게 선택권을 제공하는 것이 더 현실적이고 투명하며 정확한 방법이라고 생각합니다. 따라서 데이터 수집의 특정 시점에 포화 상태에 도달했다는 증거로 받아들일 수 있는 새로운 정보의 비율을 나타내는 두 가지 수준의 새로운 정보, 즉 ≤5% 새로운 정보새로운 정보 없음(0%)을 우선 제안합니다.
Once units of analysis for the numerator and denominator are determined the proportional calculation is simple. But the next question is a purely subjective one: What level of paucity of new information should we accept as indicative of saturation? We propose that furnishing researchers with options—rather than a prescriptive threshold—is a more realistic, transparent and accurate practice. We therefore propose initially two levels of new information that represent the proportion of new information we would accept as evidence that saturation has been reached at a given point in data collection:

  • ≤5% new information and
  • no (0%) new information.

이러한 새로운 정보 임계값은 통계 분석에서 귀무가설을 거부하기에 충분한 증거가 존재하는지 여부를 판단하기 위해 0.05 또는 0.01 미만의 p값을 사용하는 것과 유사한 벤치마크로 사용할 수 있습니다. 통계 분석에서와 마찬가지로, 확률 이론이 없으므로 이러한 임계값을 충족할 때 실제로 포화 상태에 도달한다는 보장은 없습니다. 그러나 이 임계값은 다른 연구자들이 나중에 해석할 수 있는 [데이터 포화 평가를 투명하게 제시하는 방법]을 제공합니다. 새로운 정보 임계값이 낮을수록 임계값에 도달했을 때 데이터 수집이 중단될 경우 이후 인터뷰에서 중요한 주제가 발견되지 않을 가능성이 줄어듭니다. 기본 크기, 실행 길이, 새로운 정보 임계값의 개념을 종합하면 연구자는 포화 개념을 [얼마나 엄격하게 적용할지], 그리고 주어진 샘플에 대해 [데이터 포화에 도달했다고 확신할 수 있는 수준]을 선택할 수 있습니다(그림 2).
These new information thresholds can be used as benchmarks similar to how a p-value of <0.05 or <0.01 is used to determine whether enough evidence exists to reject a null hypothesis in statistical analysis. As in statistical analysis—but absent the probability theory—there is no guarantee that saturation is in fact reached when meeting these thresholds. But they do provide a transparent way of presenting data saturation assessments that can be subsequently interpreted by other researchers. The lower the new information threshold, the less likely an important number of themes may remain undiscovered in later interviews if data collection stops when the threshold is reached. Taken together, the concepts of base size, run length, and new information threshold allow researchers to choose how stringently they wish to apply the saturation concept–and the level of confidence they might have that data saturation was attained for a given sample (Fig 2).

우리가 제안하는 방법의 장점은 여러 가지가 있습니다:
The advantages of the method we propose are several:

  • 무작위 샘플을 가정하거나 필요하지 않으며, 주제의 빈도에 대한 사전 지식이 필요하지 않습니다.
  • 계산이 간단합니다. 통계적 전문 지식이 없어도 빠르게 계산할 수 있습니다.
  • 메트릭은 데이터 수집 및 분석 프로세스 중에 전향적으로 사용하여 포화 상태에 도달하는 시점을 확인할 수 있습니다(계획보다 적은 수의 데이터 수집 이벤트를 수행할 가능성도 제공).
  • 메트릭은 데이터 수집 및 분석이 완료된 후 소급하여 주제별 포화에 도달하기 위한 샘플의 적절성에 대해 보고하는 데 사용할 수 있습니다.
  • 각 메트릭에 대한 옵션은 분석 전에 지정하거나 데이터 분석 후에 보고할 수 있습니다.
  • 메트릭은 유연합니다. 연구자는 채도를 설명하는 방법에 대한 옵션을 선택할 수 있으며, 보다 투명하고 정확하게 용어를 사용할 수도 있습니다.
  • 포화는 상대적인 측정값으로 개념화됩니다. 이 방법은 분자와 분모 모두에 영향을 미치기 때문에 연구자 간의 코딩 세부 수준 차이를 중화합니다.
  • It does not assume or require a random sample, nor prior knowledge of theme prevalence.
  • Calculation is simple. It can be done quickly and with no statistical expertise.
  • Metrics can be used prospectively during the data collection and analysis process to ascertain when saturation is reached (and providing the possibility of conducting fewer data collection events than planned).
  • Metrics can be used retrospectively, after data collection and analysis are complete, to report on the adequacy of the sample to reach thematic saturation.
  • Options for each metric can be specified prior to analysis or reported after data analysis.
  • The metrics are flexible. Researchers have options for how they describe saturation and can also use the term with more transparency and precision.
  • Saturation is conceptualized as a relative measure. This neutralizes differences in the level of coding granularity among researchers, as the method affects both numerator and denominator.


접근 방식의 적용
Application of the approach

예상 데이터 포화 계산의 예입니다.
An example of prospective data saturation calculation.

접근 방식을 설명하기 위해 가상의 데이터 세트를 사용하여 이 프로세스가 어떻게 작동하는지에 대한 단계별 예를 살펴봅시다. 기본 인터뷰 크기 4개, 실행 길이 2개를 사용하여 포화를 전향적으로 계산해 보겠습니다. 이 예에서는 적절한 포화에 도달했음을 나타내기 위해 ≤5%의 새로운 정보 임계값을 선택했습니다. 각 단계에 사용된 데이터는 [그림 3]에 기본, 실행 및 포화 지점 표시와 함께 포함되어 있습니다.
Let’s consider a step-by-step example of how this process works, using a hypothetical dataset to illustrate the approach. We will prospectively calculate saturation using a base size of 4 interviews and run length of 2 interviews. For this example, we have selected a new information threshold of 5% to indicate that we have reached adequate saturation. [The data used for each step are included in Fig 3, along with indication of the base, runs, and saturation points.]


1단계 - 베이스가 될 고유 테마의 수를 찾습니다.
STEP 1 –Find the number of unique themes for base.

먼저 처음 4개의 인터뷰를 살펴보고 [이 그룹 내에서 식별된 고유 테마의 수]를 합산합니다. 결과 합계인 37이 방정식의 분모가 됩니다.
We start by looking at the first four interviews conducted and summing the number of unique themes identified within this group. The resulting sum, 37, is the denominator in our equation.

2단계-첫 번째 실행에 대한 고유 테마의 수를 찾습니다.
STEP 2—Find the number of unique themes for the first run.

이 예에서는 [실행 길이]를 2로 사용하므로 기본 세트 이후의 [다음 두 인터뷰(즉, 인터뷰 5와 6)에 대한 데이터]를 포함합니다. 이러한 인터뷰를 검토한 후 인터뷰 5에서 4개의 새로운 테마를, 인터뷰 6에서 3개의 새로운 테마를 확인했다고 가정합니다. 이 첫 번째 실행에서 새로운 테마의 수는 7개입니다.
In this example, we’re using a run length of two, so include data for the next two interviews after the base set–i.e., interviews 5 and 6. After reviewing those interviews, let’s say we identified four new themes in interview 5 and three new themes in interview 6. The number of new themes in this first run is seven.

3단계 - 포화 비율을 계산합니다.
STEP 3 –Calculate the saturation ratio.

이 실행의 새 테마 수(7개)를 기본 세트의 고유 테마 수(37개)로 나눕니다. 이 비율은 19%의 새로운 정보를 나타냅니다. 이는 ≤5% 임계값에 미치지 않으므로 계속 진행합니다.
Divide the number of new themes in this run (seven) by the number of unique themes in the base set (37). The quotient reveals 19% new information. This is not below our ≤5% threshold, so we continue.

4단계 - 시리즈의 다음 실행을 위한 새로운 고유 테마의 수를 찾습니다.
STEP 4 –Find the number of new unique themes for the next run in the series.

다음 실행에서는 다음 두 인터뷰인 6번과 7번의 새 테마를 추가하여(인터뷰 6번과 겹침에 유의) 총 4개의 테마를 만듭니다.
For the next run we add the new themes for the next two interviews, 6 and 7 (note the overlap of interview 6), resulting in a sum of four.

5단계-채도 비율 업데이트.
STEP 5—Update saturation ratio.

최신 실행의 새 테마 수(4개)를 기본 세트의 테마 수(37개)로 나눕니다. 이렇게 하면 11%의 지수가 렌더링되지만 여전히 ≤5% 임계값에 미치지 못합니다. 다음 실행을 계속합니다.
Take the number of new themes in the latest run (four) and divide by the number of themes in the base set (37). This renders a quotient of 11%, still not below our ≤5% threshold. We continue to the next run.

6단계 - 시리즈의 다음 실행을 위한 새로운 고유 테마의 수를 찾습니다.
STEP 6 –Find the number of new unique themes for the next run in the series.

이번 세 번째 실행에서는 인터뷰 7과 8에서 확인된 새로운 테마의 수를 추가합니다.
For this third run we add the number of new themes identified within interviews 7 and 8.


7단계 - 채도 비율을 업데이트합니다.
STEP 7—Update saturation ratio.

최신 실행의 새 테마 수(1개)를 기본 세트의 테마 수(37개)로 나눕니다.
Take the number of new themes in the latest run (one) divided by the number of themes in the base set (37).

이 시점에서 마지막 실행으로 [추가된 새로운 정보의 비율]이 우리가 설정한 [≤5% 임계값]보다 낮으므로 8번째 인터뷰 후 여기서 멈추고 주관적인 지표인 ≤5%에 따라 포화 상태에 도달했다고 말할 수 있는 수준으로 새로운 정보의 양이 감소하고 있다는 것을 알 수 있습니다. 마지막 두 번의 인터뷰는 수집된 정보에 크게 추가되지 않았으므로 [6번째 인터뷰]에 포화 상태에 도달했다고 말할 수 있습니다(다음 두 번의 인터뷰는 각각 얼마나 많은 새로운 정보가 생성되는지, 그리고 이것이 설정된 임계값 아래로 떨어질지 확인하기 위해 완료되었습니다). 인터뷰 번호에 위첨자 "+2"를 추가하여 총 8개의 인터뷰가 완료되었음을 표시함으로써 이 두 개의 추가 인터뷰(실행 길이를 나타냄)에 주석을 달 것입니다. 포화 평가를 작성할 때 기본 크기 4를 사용하면 6+2번의 인터뷰를 통해 ≤5%의 새로운 정보 임계값에 도달했다고 말할 수 있습니다. 
At this point the proportion of new information added by the last run is below the ≤5% threshold we established, so we stop here after the 8th interview and have a good sense that the amount of new information is diminishing to a level where we could say saturation has been reached based on our subjective metric of ≤5%. Since the last two interviews did not add substantially to the body of information collected, we would say that saturation was reached at interview 6 (each of the next two interviews were completed to see how much new information would be generated and whether this would fall below the set threshold). We would annotate these two extra interviews (indicative of run length) by appending a superscript “+2” to the interview number, to indicate a total of eight interviews were completed. In writing up our saturation assessment then, we would say that using a base size 4 we reached the ≤5% new information threshold at 6+2 interviews.

이 예에서 포화 상태에 도달했다는 결론에 좀 더 보수적이고 확신을 갖고 싶다면 평가의 두 가지 매개 변수를 조정할 수 있습니다. 실행 기간을 3회(또는 그보다 더 많은 횟수)로 늘리거나, 새로운 정보 임계값을 '새로운 정보 없음'으로 더 엄격하게 설정할 수 있습니다. 여기서 사용된 가상의 데이터 세트(그림 3 참조)를 고려하고 실행 길이를 2로 유지했다면 인터뷰 10+2에서 0%의 새로운 정보 임계값에 도달했을 것입니다. 
If we wanted to be more conservative, and confident in our conclusion of reaching saturation in this example, we could adjust two parameters of our assessment. We could increase the run length to 3 (or an even larger number), and/or we could set a more stringent new information threshold of no new information. If we consider the hypothetical data set used here (see Fig 3) and kept the run length of 2, the 0% new information threshold would have been reached at interview 10+2.

위의 예제 프로세스를 검토한 후에도 여전히 두 가지 논리적 질문을 제기할 수 있습니다. 첫 번째는 "포화 상태가 표시될 때 샘플을 n으로 제한함으로써 중요한 정보를 놓치고 있지 않다는 것을 어떻게 알 수 있는가?"입니다. 다시 말해, 예를 들어 인터뷰를 5번 더 진행했다면 더 중요한 데이터를 추가로 얻을 수 있었을까요? 이에 대한 정직한 대답은 5번의 추가 인터뷰와 그 이후에도 5번의 추가 인터뷰를 실시하지 않는 한 알 수 없다는 것입니다. 그렇기 때문에 인터뷰 질문, 표본 특성 및 기타 연구 매개변수를 비교적 일관되게 유지한다고 가정할 때 시간이 지남에 따라 새로운 정보가 등장하는 속도가 감소하고 가장 일반적이고 두드러진 주제가 조기에 생성된다는 경험적 연구에 의존하고 있습니다. 추가 인터뷰 실시가 포화에 어떤 영향을 미쳤는지 더 자세히 설명하기 위해 그림 3에 20개의 인터뷰를 포함시켰습니다. 인터뷰 12에 이어 진행된 인터뷰에서는 4개의 주제가 추가되었지만 새로운 정보 임계치 ≤5% 이하에 머물렀습니다. 
One may still raise two logical questions after reviewing the example process above. The first is “How do we know that we’re not missing important information by capping our sample at n when saturation is indicated?” Put another way, if we had conducted, say, five more interviews would we have gotten additional and important data? The honest answer to this is that we don’t know, and we can never know unless we conduct those five extra interviews, and then five more after that and so on. That is where we rely on the empirical research that shows the rate at which new information emerges decreases over time and that the most common and salient themes are generated early, assuming that we keep the interview questions, sample characteristics, and other study parameters relatively consistent. To further illustrate how saturation may have been affected by doing additional interviews, we include 20 interviews in Fig 3. The interviews following Interview 12, though yielding four additional themes, remained at or below the ≤5% new information threshold.

두 번째 질문은 첫 번째 질문과 어느 정도 관련이 있으며 가능한 [순서 효과]와 관련이 있습니다. 20개의 인터뷰로 구성된 데이터 집합에서 10번부터 20번까지의 인터뷰가 먼저 수행된 경우 테마 식별 패턴이 동일하게 보일까요? 데이터 수집 과정의 후반부에 새로운 주제가 나타날 수 있을까요? 프로세스/데이터셋의 후반부에 중요한 테마가 나타날 수도 있지만, 위에서 언급한 경험적 연구에 따르면 가장 널리 퍼진 상위 테마는 데이터 수집 초기에 약 6번의 인터뷰 내에서 식별되는 것으로 나타났습니다. 하지만 이를 더욱 확인하기 위해 세 가지 실제 데이터 세트에 [부트스트랩 기법]을 사용하여 이러한 초기 연구의 결과를 확증하고 제안된 메트릭의 분포 특성을 평가했습니다. 이러한 부트스트랩 결과는 새로운 인터뷰에서 새로운 주제가 발견될 때, 그리고 인터뷰 샘플의 다른 복제본에서 무작위로 인터뷰 순서를 정할 때 다양한 중단 지점에서 어떻게 포화에 도달할 수 있는지에 대한 정보를 제공합니다.
The second question is to a degree related to the first question and pertains to possible order effects. Would the theme identification pattern in a dataset of 20 interviews look the same if interviews #10 through #20 were conducted first? Could new themes start emerging later in the data collection process? Though it is possible an important theme will emerge later in the process/dataset, the empirical studies referenced above demonstrate that the most prevalent, high-level, themes are identified very early on in data collection, within about six interviews. But, to further check this, we use a bootstrapping technique on three actual datasets to corroborate findings from these earlier studies and to assess the distributional properties of our proposed metrics. These bootstrap findings give us information on how saturation may be reached at different stopping points as new themes are discovered in new interviews and when the interviews are ordered randomly in different replications of the sample of interviews.

샘플 데이터 세트.
Sample datasets.

부트스트래핑 방법을 적용한 기존의 정성적 데이터 세트 세 개를 선택했습니다. 이 데이터셋은 모두 귀납적 주제 분석 접근법을 사용하여 분석한 개별 인터뷰로부터 생성되었지만, 아래에 설명된 바와 같이 연구 모집단, 질문 주제, 표본 이질성, 인터뷰어, 데이터 수집 도구의 구조가 서로 달랐습니다.
We selected three existing qualitative datasets to which we applied the bootstrapping method. Although the datasets were all generated from individual interviews analyzed using an inductive thematic analysis approach, the studies from which they were drawn differed with respect to study population, topics of inquiry, sample heterogeneity, interviewer, and structure of data collection instrument, as described below.

데이터 세트 1. 이 연구에서는 미국 남동부 지역의 아프리카계 미국인 남성을 대상으로 건강 추구 행동에 대해 40건의 개별 인터뷰를 실시했습니다[29]. 인터뷰 가이드에는 13개의 주요 질문과 각 질문마다 스크립트로 작성된 하위 질문이 포함되어 있었습니다. 모든 인터뷰에는 귀납적 프로빙이 사용되었습니다. 귀납적 주제 분석에는 13개 질문 중 11개가 포함되었으며 93개의 고유 코드가 생성되었습니다. 연구 샘플은 매우 동질적이었습니다.
Dataset 1. This study included 40 individual interviews with African American men in the Southeast US about their health seeking behaviors [29]. The interview guide contained 13 main questions, each with scripted sub-questions. Inductive probing was employed throughout all interviews. The inductive thematic analysis included 11 of the 13 questions and generated 93 unique codes. The study sample was highly homogenous.
데이터 세트 2. 두 번째 데이터 세트는 임신 중 의학적 위험과 연구에 대해 미국 남동부의 (대부분 백인) 산모와 실시한 48건의 개별 인터뷰로 구성됩니다[30]. 인터뷰 가이드에는 13개의 주요 질문과 각 질문마다 스크립트로 작성된 하위 질문이 포함되어 있습니다. 모든 인터뷰에는 귀납적 프로빙이 사용되었습니다. 48건의 인터뷰는 대면, 화상(Skype와 유사한 플랫폼), 이메일(비동기), 문자 채팅(동기) 등 다양한 데이터 수집 모드를 사용하여 각각 12건씩 진행되었습니다. 정성적 주제 분석에는 이 중 10개의 질문이 포함되었으며 85개의 고유 코드가 생성되었습니다.
Dataset 2. The second dataset consists of 48 individual interviews conducted with (mostly white) mothers in the Southeast US about medical risk and research during pregnancy [30]. The interview guide contained 13 main questions, each with scripted sub-questions. Inductive probing was employed throughout all interviews. Of note, the 48 interviews were conducted, 12 each, using different modes of data collection: in-person, by video (Skype-like platform), email (asynchronous), or text chat (synchronous). The qualitative thematic analysis included 10 of these questions and generated 85 unique codes.
데이터 세트 3. 이 연구에는 HIV 감염 고위험군 여성 60명(케냐 30명, 남아공 30명)과의 인터뷰가 포함되었습니다[31]. 인터뷰는 정량적 설문조사에 대한 여성들의 응답에 대한 후속 정성적 조사였습니다. 가이드에는 14개의 질문이 있었지만, 여기서는 세 가지 질문의 데이터만 주제별 분석에 포함했습니다. 이 세 가지 질문에서 55개의 코드가 생성되었습니다. 두 사이트의 참가자는 학력과 결혼 여부를 제외하고는 인구통계학적으로 비슷했습니다. 케냐 표본에서는 기혼 여성과 배우자와 함께 사는 여성이 훨씬 더 많았으며(63% 대 3%), 중등 교육 이상을 이수한 비율은 더 낮았습니다. 모든 인터뷰는 현지 언어로 진행되었습니다.
Dataset 3. This study included 60 interviews with women at higher risk of HIV acquisition—30 participants in Kenya and 30 in South Africa [31]. The interview was a follow-up qualitative inquiry into women’s responses on a quantitative survey. Though there were 14 questions on the guide, only data from three questions were included in the thematic analysis referenced here. Those three questions generated 55 codes. Participants from the two sites were similar demographically with the exceptions of education and marital status. Substantially more women from the Kenya sample were married and living with their partners (63% versus 3%) and were less likely to have completed at least some secondary education. All interviews were conducted in a local language.

세 연구의 데이터는 모두 전사 프로토콜[32]을 사용하여 디지털로 기록 및 전사되었으며, 데이터세트 3의 경우 전사본이 영어로 번역되었습니다. 코딩 및 분석을 용이하게 하기 위해 트랜스크립트를 NVivo[33]로 가져왔습니다. 세 데이터세트 모두 체계적인 귀납적 주제 접근법[2]을 사용하여 분석했으며, 모든 코드는 표준 템플릿[34]에 따라 코드북에 명시적으로 정의되었습니다. 데이터세트 1과 2의 경우, 두 명의 분석가가 각 트랜스크립트를 독립적으로 코딩하고 각 트랜스크립트마다 코드 적용을 비교했습니다. 코드 적용의 불일치는 토론을 통해 해결되어 합의에 따라 코딩된 문서가 만들어졌습니다. 데이터세트 3의 경우, 두 명의 코더가 인터뷰의 20%에 대해 이러한 유형의 코더 간 신뢰도 평가를 실시했습니다(모든 인터뷰를 이중 코딩하는 것보다 표준적이고 효율적인 접근 방식입니다[2]). 데이터셋 3을 생성한 연구는 케냐와 남아프리카의 현지 IRB에서도 검토 및 승인을 받았으며, 세 연구 모두 FHI 360 인간 대상자 보호 위원회의 검토 및 승인을 받았습니다.
Data from all three studies were digitally recorded and transcribed using a transcription protocol [32]; transcripts were translated to English for Dataset 3. Transcripts were imported into NVivo [33] to facilitate coding and analysis. All three datasets were analyzed using a systematic inductive thematic approach [2], and all codes were explicitly defined in a codebook following a standard template [34]. For Datasets 1 & 2, two analysts coded each transcript independently and compared code application after each transcript. Discrepancies in code application were resolved through discussion, resulting in consensus-coded documents. For Dataset 3, two coders conducted this type of inter-coder reliability assessment on 20% of the interviews (a standard, more efficient approach than double-coding all interviews [2]). All three studies were reviewed and approved by the FHI 360 Protection of Human Subjects Committee; the study which produced Dataset 3 was also reviewed and approved by local IRBs in Kenya and South Africa.


부트스트래핑 방법.
Bootstrapping method.

이 세 가지 연구는 다양하고 분석적으로 엄격한 사례 연구를 제공하지만, 일반화 가능성은 제한적입니다. 모집단 수준의 통계에 근사치를 구하고 검증 범위를 넓히기 위해 위에서 설명한 각 데이터 세트에서 경험적 부트스트랩 샘플을 추출했습니다. 부트스트랩 방법은 표본 내의 변동성을 사용하여 지표(이 경우 포화 지표)의 샘플링 분포를 경험적으로 추정하는 리샘플링 기법입니다[35]. 이는 원래의 샘플링 체계를 모방하는 방식으로 표본에서 무작위로 교체(즉, 한 항목이 리샘플링에서 두 번 이상 선택될 수 있음)를 통해 여러 번 리샘플링하는 방식으로 수행됩니다. 각 정성적 데이터 세트에 대해 원본 샘플에서 10,000개의 [리샘플을 생성]했습니다. 또한 각 리샘플에서 선택한 [녹취록의 순서를 무작위로 지정]하여 새로운 코드가 발견되는 방법과 시기에 대한 순서 효과를 상쇄했습니다. 각 리샘플에 대해 4, 5 또는 6개의 인터뷰로 구성된 기본 크기 대비 2 또는 3개의 새로운 이벤트 실행 길이에서 발견된 새로운 테마의 비율을 계산했습니다. 그런 다음 ≤5% 또는 0%의 새로운 정보 임계값을 충족하는 데 필요한 트랜스크립트 수를 파악했습니다. 10,000개의 리샘플에서 얻은 이러한 임계값을 기반으로 각 데이터 세트에 대해 다양한 기본 크기와 실행 길이에 걸쳐 각각의 새로운 정보 임계값에 도달하는 데 필요한 인터뷰 수에 대한 중앙값과 5번째 및 95번째 백분위수를 계산했습니다. 5번째 및 95번째 백분위수는 이러한 새로운 정보 임계값에 정의된 포화 상태에 도달하는 데 필요한 트랜스크립트 수에 대한 비모수적 90% 신뢰 구간을 제공합니다.
While these three studies offer diverse and analytically rigorous case studies, they provide limited generalizability. To approximate population-level statistics and broaden our validation exercise, we drew empirical bootstrap samples from each of the datasets described above. The bootstrap method is a resampling technique that uses the variability within a sample to estimate the sampling distribution of metrics (in this case saturation metrics) empirically [35]. This is done by randomly resampling from the sample with replacement (i.e., an item may be selected more than once in a resample) many times in a way that mimics the original sampling scheme. For each qualitative dataset, we generated 10,000 resamples from the original sample. In addition, we randomly ordered the selected transcripts in each resample to offset any order effect on how/when new codes are discovered. For each resample, we calculated the proportion of new themes found in run lengths of two or three new events relative to a base size of four, five or six interviews. We then identified the number of transcripts needed to meet a new information threshold of ≤5% or 0%. Based on these thresholds from 10,000 resamples, for each dataset we computed the median and the 5th and 95th percentiles for number of interviews required to reach each new information threshold across different base sizes and run lengths. The 5th and 95th percentiles provide a nonparametric 90% confidence interval for the number of transcripts needed to reach saturation as defined at these new information thresholds.

각 데이터 세트에서 식별된 총 코드 수를 사용할 수 있었기 때문에 전체 데이터 세트에서 소급하여 평가한 포화와 관련된 새로운 정보 임계값에 도달하는 데 필요한 인터뷰의 중간값을 이해하기 위한 또 다른 메트릭을 제공하기 위해 한 가지 추가 계산을 수행했습니다. 이 경우, 데이터 세트의 각 실행에 대해 새로운 정보 임계값에 도달하기 위한 인터뷰 횟수가 결정되면, 그 시점까지 식별된 고유 테마의 수를 총 고유 테마의 수로 나눴습니다. 이를 통해 데이터의 각 실행에 대한 포화의 백분율 또는 정도를 제공한 다음, 도달한 포화에 대한 중앙값과 5번째 및 95번째 백분위수를 생성하는 데 사용했습니다. 그런 다음 이를 기본 크기, 실행 길이 및 새로운 정보 임계값에 걸쳐 비교할 수 있습니다. [이 과정은 제안된 프로세스의 일부가 아니라 포화 계산을 위해 제안된 접근 방식을 이해하고 검증하기 위한 추가 방법으로 포함되었습니다.] 

Since we had available the total number of codes identified in each dataset, we carried out one additional calculation as a way to provide another metric to understand how the median number of interviews to reach a new information threshold related to retrospectively-assessed degrees of saturation with the entire dataset. In this case, once the number of interviews to reach a new information threshold was determined for each run of a dataset, we divided the number of unique themes identified up to that point by the total number of unique themes. This provided a percent–or degree–of saturation for each run of the data, which was then used to generate a median and 5th and 95th percentile for the degree of saturation reached. This can then be compared across base sizes, run lengths, and new information thresholds. [Note that we include this as a further way to understand and validate the proposed approach for calculating saturation, rather than as part of the proposed process.]


부트스트래핑 분석의 결과는 표 2, 3, 4에 데이터 세트별로 제시되어 있습니다. 각 표에는 새로운 정보 임계값이 5% 이하이고 새로운 정보가 없을 때 기준이 4, 5 또는 6이고 실행 길이가 2 및 3인 부트스트랩 분포의 중앙값과 백분위수가 표시됩니다.
The results from the bootstrapping analyses are presented by dataset, in Tables 2, 3 and 4. Each table presents median and percentiles of the bootstrap distribution using bases of 4, 5 or 6 and run lengths of 2 and 3, at new information thresholds of ≤5% and no new information.

위의 예에서 설명한 것처럼, [실행 길이]의 인터뷰 수는 주어진 새 정보 임계값에 도달하기 위한 인터뷰 수에 포함되지 않으므로 [임계값에 도달했는지 평가하는 데 필요한 총 이벤트 수]는 선택한 실행 길이에 따라 주어진 중앙값보다 두세 개 더 많은 이벤트 수입니다. 이는 위첨자 +2 또는 +3으로 표시됩니다.
Note that, as described in the example above, the number of interviews in the run length is not included in the number of interviews to reach the given new information threshold, so the total number of events needed to assess having reached the threshold is two or three more interviews than the given median, depending on the run length of choice. This is indicated by a superscript +2 or +3.

데이터세트 1(표 2)의 경우, 신규 정보 ≤5% 임계값에서 신규 정보 감소에 도달하는 데 필요한 인터뷰 횟수의 중앙값은 모든 기본 규모에 걸쳐 일정했습니다. 인터뷰 실행 길이가 2회인 경우, 새로운 정보의 감소가 관찰되기까지 필요한 인터뷰 횟수의 중앙값은 6회였습니다. 즉, 처음 4, 5, 6번의 인터뷰에서 식별된 총 고유 코드 수에 비해 7번과 8번 인터뷰에서 기여한 새로운 정보의 양은 전체의 5% 미만이었습니다. 인터뷰가 3번 진행되었을 때, 새로운 정보가 감소하기까지 필요한 인터뷰 횟수의 중앙값은 7번이었습니다. 즉, 처음 4, 5, 6번의 인터뷰에서 식별된 총 고유 코드 수에 비해 8, 9, 10번의 인터뷰가 기여한 새로운 정보의 양은 전체의 5% 미만이었습니다. 기본 크기에서 실행 길이가 2인 경우 포화는 6+2로 나타났고, 실행 길이가 3인 경우 포화는 7+3으로 관찰되었으며, 둘 다 신규 정보 ≤5% 수준에서 관찰되었다고 말할 수 있습니다. 데이터 세트의 총 주제 수를 소급하여 사용했을 때, 6~7개의 인터뷰에 걸쳐 나타난 주제 수는 78%~82%의 포화 중간값에 해당했습니다.
For Dataset 1 (Table 2), at the ≤5% new information threshold, the median number of interviews needed to reach a drop-off in new information was consistent across all base sizes. At a run length of two interviews, the median number of interviews required before a drop in new information was observed was six. This means that relative to the total number of unique codes identified in the first four, five, or six interviews, the amount of new information contributed by interviews 7 and 8 was less than or equal to 5% of the total. At a run length of three interviews, the median number of interviews required before a drop in new information was observed was seven. This means that relative to the total number of unique codes identified in the first four, five, or six interviews, the amount of new information contributed by interviews 8, 9, and 10 was less than or equal to 5% of the total. Across base sizes, for a run length of two, we would say that saturation was indicated at 6+2, while for a run length of three we would say saturation was observed at 7+3, both at the ≤5% new information level. Using the total number of themes in the dataset retrospectively, the number of themes evident across 6–7 interviews corresponded with a median degree of saturation of 78% to 82%.

새로운 정보 임계값 0%에서 포화를 나타내는 인터뷰 수 중앙값은 실행 기간에 따라 달라졌을 뿐, 기반 규모에 관계없이 다시 일관되게 나타났습니다. 필요한 인터뷰 수의 중앙값은 11+2개와 14+3개였습니다. 즉, 실행 길이 2에서는 11번의 인터뷰와 새로운 정보가 제공되지 않음을 확인하는 데 2번의 인터뷰가 더 필요했습니다. 실행 길이 3에서는 14번의 인터뷰와 새로운 정보가 없음을 확인하는 데 3번의 인터뷰가 더 필요했습니다. 11~14개의 인터뷰를 통해 드러난 주제의 수는 포화의 중간값인 87%~89%에 해당했습니다.
At the 0% new information threshold, the median number of interviews to indicate saturation were again consistent across bases sizes, varying only by the run length. The median number of interviews required were 11+2 and 14+3. In other words, at run length 2, it took 11 interviews, plus two more to confirm that no new information was contributed. At run length 3 it was 14 interviews plus three more to confirm no new information. The number of themes evident across 11–14 interviews corresponded with a median degree of saturation of 87% to 89%.

데이터셋 2의 결과는 데이터셋 1과 거의 동일했습니다(표 3). 실행 길이가 2(6+2)인 인터뷰는 6개, 실행 길이가 3(7+3 또는 8+3)인 인터뷰는 7~8개에서 포화가 나타났습니다. 6~8개의 인터뷰에 걸쳐 나타난 테마의 수는 포화의 중간값인 79%~82%에 해당했습니다. 0%의 새로운 정보 임계값에서 포화는 데이터세트 1에서와 동일한 지점인 11+2와 14+3에서 나타났으며, 모든 기본 크기에 걸쳐 일관되게 나타났습니다. 즉, 실행 길이 2를 사용한 11번의 인터뷰 중앙값 이후에는 새로운 정보가 관찰되지 않았고, 실행 길이 3을 사용한 14번의 인터뷰 이후에도 새로운 정보가 관찰되지 않았습니다. 여기에서도 전체 데이터 세트의 총 테마 수는 다르지만, 11~14번의 인터뷰에서 나타난 새로운 테마의 수는 포화의 중앙값이 87%~89%에 해당했습니다.
The results for Dataset 2 were nearly identical to Dataset 1 (Table 3). Saturation was indicated at 6 interviews at a run length of 2 (6+2) and 7–8 interviews at run length 3 (7+3 or 8+3). The number of themes evident across 6–8 interviews corresponded with a median degree of saturation of 79% to 82%. At the 0% new information threshold saturation was indicated at the same points as in Dataset 1: 11+2 and 14+3, consistent across all base sizes. In other words, no new information was observed after a median of 11 interviews using a run-length of 2, nor after 14 interviews using a run length of 3. Here again, despite a different total number of themes in the overall dataset, the number of new themes evident across 11–14 interviews corresponded with a median degree of saturation of 87% to 89%.

데이터셋 3(표 4)은 다른 데이터셋에 비해 샘플에 더 많은 변동이 있었으며, 이는 인터뷰 수 중앙값이 약간 더 높고 포화가 더 낮게 반영되었습니다. 새 정보 임계값 ≤5%에서 실행 길이 2에서 포화 상태에 도달하는 데 필요한 인터뷰 수 중앙값은 8~9개였습니다(기본 크기 4의 경우 더 높음). 실행 길이가 3인 경우 필요한 인터뷰 수 중앙값은 11~12개였습니다(기본 크기 4의 경우 이보다 높았습니다). 8~12개의 인터뷰를 통해 드러난 새로운 주제의 수는 포화의 중앙값이 62%~71%에 해당했습니다. 새로운 정보가 0%인 임계값에서는 포화가 12+2와 16+3으로 나타났으며, 기본 크기 전반에서 일관되게 나타났습니다. 12~16개의 인터뷰에 걸쳐 나타난 새로운 주제의 수는 포화의 중앙값이 69%~76%에 해당했습니다.
Dataset 3 (Table 4) contained more variation in the sample than the others, which was reflected in a slightly higher median number of interviews and a lower degree of saturation. At the ≤5% new information threshold, the median number of interviews required to reach saturation at a run length of 2 was 8–9 (higher for base size 4). At a run length of 3, the median number of required interviews was 11–12 (again higher for base size 4). The number of new themes evident across 8–12 interviews corresponded with a median degree of saturation of 62% to 71%. At the 0% new information threshold, saturation was indicated at 12+2 and 16+3, consistent across base sizes. The number of new themes evident across 12–16 interviews corresponded with a median degree of saturation of 69% to 76%.


이 백서에서는 질적 인터뷰의 귀납적 분석에서 주제별 포화를 평가하는 방법을 제시합니다. 이 방법이 심층 인터뷰 맥락에서 포화를 개념화, 평가 및 보고하는 다른 방법과 관련된 많은 한계를 극복하는 방법을 설명합니다. 이 프로세스는 데이터 수집 및 분석 과정에서 전향적으로 적용하거나 데이터 수집 및 분석이 완료된 후 후향적으로 적용할 수 있습니다. 이 방법의 가장 큰 장점은 메트릭이 유연하여 연구자가 다양한 실행 기간 및/또는 새로운 정보 임계값을 선택하여 다양한 수준의 엄격함을 선택할 수 있다는 것입니다. 마찬가지로, 이 방법을 사용하면 포화를 설명하고 보고할 때 다양한 옵션을 사용할 수 있으며 명확성과 투명성이 향상됩니다.
In this paper we present a way of assessing thematic saturation in inductive analysis of qualitative interviews. We describe how this method circumvents many of the limitations associated with other ways of conceptualizing, assessing and reporting on saturation within an in-depth interview context. The process can be applied either prospectively during the data collection and analysis process or retrospectively, after data collection and analysis are complete. A key advantage is that the metrics are flexible, affording researchers the ability to choose different degrees of rigor by selecting different run lengths and/or new information thresholds. Similarly, the method allows for different options–and greater clarity and transparency–in describing and reporting on saturation.

부트스트래핑 분석을 기반으로 몇 가지 결론을 도출할 수 있습니다. 첫 번째는 결과가 이전의 경험적 연구를 바탕으로 예상했던 범위 내에 있다는 것입니다. 5% 이하의 새로운 정보 임계값을 사용한 결과, 일반적으로 6~7개의 인터뷰로 균질한 표본에서 대부분의 주제를 포착할 수 있습니다(6개의 인터뷰로 80%의 포화에 도달). 또한 분석 결과, 이 옵션의 상위 범위(95번째 백분위수)에서는 11~12개의 인터뷰가 필요할 수 있으며, 기존 문헌에 따르면 일반적으로 더 높은 포화에 도달하기 위해서는 12개의 인터뷰가 필요하다고 합니다.
Based on the bootstrapping analyses we can draw several conclusions. The first is that the results are within the range of what we would have expected based on previous empirical studies. Using the ≤5% new information threshold, our findings indicate that typically 6–7 interviews will capture the majority of themes in a homogenous sample (6 interviews to reach 80% saturation). Our analyses also show that at the higher end of the range for this option (95th%ile) 11–12 interviews might be needed, tracking with existing literature indicating 12 interviews are typically needed to reach higher degrees of saturation.

또한 이 프로세스의 적용에 도움이 되는 다른 교훈을 얻을 수도 있습니다:
We can also draw other lessons to inform application of this process:

  • [기본 규모]는 결과에 거의 영향을 미치지 않는 것으로 보입니다. 이는 효율성 측면에서 중요한 사항입니다. 이번 연구 결과가 다른 상황에서도 유효하다면, 기본 인터뷰 규모를 4회로 설정하는 것으로 충분하다는 것을 시사합니다. 실질적으로 이는 6번의 인터뷰(기본 4번, 실행 2번) 후에 포화를 평가해야 한다는 것을 의미합니다. 실시간으로 데이터를 분석하는 경우, 이 초기 평가 결과에 따라 추가 인터뷰가 필요한지 여부를 결정할 수 있습니다.
  • Base size appears to have almost no effect on the outcome. This is important from an efficiency perspective. If our findings hold true in other contexts, it suggests that using a default base size of four interviews is sufficient. In practical terms, this implies that saturation should initially be assessed after six interviews (four in the base, and two in the run). If analyzing data in real time, the results of this initial assessment can then determine whether or not more interviews are needed.
  • 예상대로 [실행 시간]은 결과에 영향을 미칩니다. 실행 길이가 길수록 포화 상태에 도달하기 위해 더 많은 수의 인터뷰가 필요합니다. [실행 길이]가 미치는 효과의 크기는 새 정보 임계값 ≤5%를 사용하는 경우 가장 작거나 매우 미미합니다. 이 발견의 실질적인 의미는 연구자가 더 [긴 실행 길이(예: 3회 이상의 인터뷰)]를 선택하여 포화에 대한 보다 [보수적인 평가를 생성]할 수 있다는 것입니다.
  • Run length has an effect on the outcome, as one would expect. The longer the run length, the greater number of interviews required to reach saturation. The size of run length effect is smallest–very minimal–if employing the ≤5% new information threshold. The practical implication of this finding is that researchers can choose a longer run length–e.g., three interviews (or more)–to generate a more conservative assessment of saturation.
  • [선택한 새로운 정보 임계값]은 예상대로 포화가 표시되는 지점에 영향을 미칩니다. 새로운 정보 임계값이 낮을수록, 즉 새로운 정보를 인식하는 데 더 보수적으로 허용할수록 포화 상태에 도달하기 위해 더 많은 인터뷰가 필요합니다. 응용적인 관점에서 볼 때, 이 결과는 연구자가 원하는 경우 [더 엄격한 새로운 정보 임계값(예: 0%)을 선택]하면 포화를 [더 보수적으로 평가]할 수 있다는 확신을 가질 수 있다는 점에서 중요한 의미를 갖습니다.
  • The new information threshold selected affects the point at which saturation is indicated, as one would expect. The lower the new information threshold–and therefore the more conservative the allowance for recognizing new information–the more interviews are needed to achieve saturation. From an applied standpoint this finding is important in that researchers can feel confident that choosing a more stringent new information threshold–e.g., 0%—will result in a more conservative assessment of saturation, if so desired.

물론 이 접근 방식에는 여전히 한계가 있습니다. 이 접근법은 [귀납적 주제 분석](특정 실제 이슈나 문제에 대한 비교적 좁은 질문에 답하기 위한 연구)을 염두에 두고 개발되었으며, 부트스트래핑 분석에 사용된 데이터 세트는 이 프레임워크 내에서 생성 및 분석되었습니다. 다른 인식론적 또는 현상학적 관점을 가진 질적 연구에 이 접근법을 적용할 수 있는지는 아직 검증되지 않았습니다. 이 방법의 또 다른 잠재적 한계는 [코드북 구조]와 관련이 있습니다. 귀납적 주제 분석을 수행할 때 연구자는 적절한 코드북 구성 체계를 결정해야 합니다(포화와 관련된 논의는 Hennink 외. [23]을 참조하세요). 저희는 [단일 계층 코드북]을 대상으로 이 방법을 테스트했지만, 질적 연구자들은 [계층적 코드북]을 만드는 경우가 많습니다. 기본("상위") 코드와 구성 보조("하위") 코드가 있는 2계층 구조가 일반적인 형태이지만, 연구자는 더 높은 수준의 메타 주제를 식별하고 찾고자 할 수도 있습니다(예: Hagaman과 Wutich [19]). 우리를 포함한 모든 포화 평가 방법의 경우, 연구자는 어느 수준에서 주제/코드를 식별하고 포함할지 결정해야 합니다. 귀납적 주제 분석의 경우, 이는 특정 분석 목표에 필요한 코딩의 세분성 정도와 연구팀이 연구 결과를 보고할 때 포화를 어떻게 논의할 것인지에 따라 달라지는 주관적인 결정입니다. 즉, 연구자는 이 접근 방식을 사용하여 서로 다른 수준의 코딩 세분성을 포함하는 두 개 이상의 코드북에 대한 포화 분석을 실행하고 보고할 수 있습니다. 
There are, of course, still limitations to this approach. It was developed with applied inductive thematic analyses in mind–those for which the research is designed to answer a relatively narrow question about a specific real-world issue or problem–and the datasets used in the bootstrapping analyses were generated and analyzed within this framework. The applicability of this approach for qualitative research with a different epistemological or phenomenological perspective is yet untested. Another potential limitation of this method relates to codebook structure. When conducting an inductive thematic analysis, researchers must decide on an appropriate codebook organizational scheme (see Hennink et al. [23] for discussion on this as it relates to saturation). We tested our method on single-tier codebooks, but qualitative researchers often create hierarchical codebooks. A two-tier structure with primary (“parent”) codes and constituent secondary (“child”) codes is a common form, but researchers may also want to identify and look for higher-level, meta-themes (e.g., Hagaman and Wutich [19]). For any method of assessing saturation, including ours, researchers need to decide at which level they will identify and include themes/codes. For inductive thematic analyses this is a subjective decision that depends on the degree of coding granularity necessary for a particular analytic objective, and how the research team wants to discuss saturation when reporting study findings. That said, a researcher could, with this approach, run and report on saturation analyses of two or more codebooks that contain differing levels of coding granularity.


Tran과 동료들[24]은 "연구자는 자신이 발견한 것에 대한 정보만 가지고 있기 때문에"(17페이지) 포화점을 결정하는 것이 어려운 일이라고 정확하게 지적합니다. 그들은 또한 귀납적 연구의 중단점은 일반적으로 "연구자의 판단과 경험"에 의해 결정된다고 주장합니다. 우리는 이러한 주장을 인정하고 동의합니다.
Tran and colleagues [24] accurately point out that determining the point of saturation is a difficult endeavor, because “researchers have information on only what they have found” (pg. 17). They further argue that the stopping point for an inductive study is typically determined by the “judgement and experience of researchers”. We acknowledge and agree with these assertions.

엄격성, 정확성, 신뢰도의 수준을 선택하고 해석하는 것은 주관적인 작업입니다. 예를 들어, 정량적 연구자가 충분히 큰 효과 크기 또는 충분히 작은 p-값으로 받아들이는 것은 [주관적인 판단]이며 특정 연구 분야의 관습에 근거한 것입니다. 연구자가 통계 결과를 보고하고 해석하는 방법도 마찬가지입니다. P값은 절대값(예: p = .043) 또는 일반적으로 사용되는 몇 가지 증분값(예: p < .05, p < .01 등)으로 표현할 수 있습니다. 마찬가지로, 1.2의 승산비는 통계적으로 유의미할 수 있지만 실제 의미에서 유의미한지 여부는 전적으로 해석의 여지가 있습니다.
Selecting and interpreting levels of rigor, precision, and confidence is a subjective enterprise. What a quantitative researcher accepts, for example, as a large enough effect size or a small enough p-value is a subjective determination and based on convention in a particular field of study. The same can be said for how a researcher chooses to report and interpret statistical findings. P-values can be expressed either in absolute terms (e.g., p = .043) or in several commonly used increments (e.g., p < .05, p < .01, etc.). Likewise, while an odds ratio of 1.2 may be statistically significant, whether or not it’s meaningful in a real-world sense is entirely open to interpretation.

우리는 주제별 포도를 평가하고 보고할 때 이와 유사한 유연성과 투명성을 추구하고 있습니다. 연구자들에게 데이터 수집 중 또는 수집 후에 포화를 쉽게 계산할 수 있는 방법을 제공했습니다. 또한 이 방법을 통해 연구자는 자신의 해석과 결론이 주제별 포화에 도달한 데이터 세트에 근거한 것이라는 확신을 얼마나 갖고 싶은지에 따라 프로세스의 구성 요소인 기본 크기, 실행 길이, 새로운 정보 임계값의 수준을 다르게 선택할 수 있습니다. 연구자들이 이 방법을 유용하게 활용하고, 다른 연구자들이 다양한 연구 집단과 맥락에서 추출한 다양한 유형의 데이터세트에 대해 이 방법을 실증적으로 테스트하여 우리의 연구를 발전시켜 나가기를 바랍니다.
We are advocating for similar flexibility and transparency in assessing and reporting on thematic saturation. We have provided researchers with a method to easily calculate saturation during or after data collection. This method also enables researchers to select different levels of the constituent elements in the process–i.e., Base Size, Run Length and New Information Threshold–based on how confident they wish to be that their interpretations and conclusions are based on a dataset that reached thematic saturation. We hope researchers find this method useful, and that others build on our work by empirically testing the method on different types of datasets drawn from diverse study populations and contexts.

PLoS One. 2020 May 5;15(5):e0232076. doi: 10.1371/journal.pone.0232076. eCollection 2020.

A simple method to assess and report thematic saturation in qualitative research

Affiliations collapse


1Q42 Research, Research Triangle Park, North Carolina, United States of America.

2Global Health, Population, and Nutrition, FHI 360, Durham, North Carolina, United States of America.

PMID: 32369511

PMCID: PMC7200005

DOI: 10.1371/journal.pone.0232076


Data saturation is the most commonly employed concept for estimating sample sizes in qualitative research. Over the past 20 years, scholars using both empirical research and mathematical/statistical models have made significant contributions to the question: How many qualitative interviews are enough? This body of work has advanced the evidence base for sample size estimation in qualitative inquiry during the design phase of a study, prior to data collection, but it does not provide qualitative researchers with a simple and reliable way to determine the adequacy of sample sizes during and/or after data collection. Using the principle of saturation as a foundation, we describe and validate a simple-to-apply method for assessing and reporting on saturation in the context of inductive thematic analyses. Following a review of the empirical research on data saturation and sample size estimation in qualitative research, we propose an alternative way to evaluate saturation that overcomes the shortcomings and challenges associated with existing methods identified in our review. Our approach includes three primary elements in its calculation and assessment: Base Size, Run Length, and New Information Threshold. We additionally propose a more flexible approach to reporting saturation. To validate our method, we use a bootstrapping technique on three existing thematically coded qualitative datasets generated from in-depth interviews. Results from this analysis indicate the method we propose to assess and report on saturation is feasible and congruent with findings from earlier studies.

인터뷰 기반 연구에서 표본 크기 충분성의 특성화 및 정당화: 15년간 질적 건강연구의 체계적 문헌고찰(BMC Med Res Methodol. 2018)
Characterising and justifying sample size sufficiency in interview-based studies: systematic analysis of qualitative health research over a 15-year period
Konstantina Vasileiou1* , Julie Barnett1, Susan Thorpe2 and Terry Young3




질적 조사에서 [표본의 적절성]은 [표본 구성 및 크기의 적절성]과 관련이 있습니다. 이는 많은 질적 연구의 품질과 신뢰성을 평가할 때 중요한 고려 사항이며[1], 특히 [후기 실증주의 전통]에 속하고 [실재론적 존재론적 전제]를 어느 정도 고수하는 연구의 경우 타당성과 일반화 가능성을 평가할 때 중요한 의미를 갖습니다[2,3,4,5]. 
Sample adequacy in qualitative inquiry pertains to the appropriateness of the sample composition and size. It is an important consideration in evaluations of the quality and trustworthiness of much qualitative research [1] and is implicated – particularly for research that is situated within a post-positivist tradition and retains a degree of commitment to realist ontological premises – in appraisals of validity and generalizability [2,3,4,5].

[질적 연구의 표본]은 이 탐구 방식의 기본인 사례 중심 분석의 깊이를 뒷받침하기 위해 작은 경향이 있습니다[5]. 또한 질적 표본은 목적적 표본, 즉 조사 대상 현상과 관련된 풍부한 질감의 정보를 제공할 수 있는 능력에 따라 선택됩니다. 결과적으로 정량적 연구에 사용되는 [확률적 표본 추출]과 달리 [의도적 표본 추출][6, 7]은 '정보가 풍부한' 사례를 선택합니다[8]. 실제로 최근 연구에 따르면 질적 연구에서 무작위 샘플링에 비해 [의도적 샘플링의 효율성이 더 높다]는 사실이 입증되어[9], 질적 방법론가들이 오랫동안 주장해온 관련 주장을 뒷받침하고 있습니다.
Samples in qualitative research tend to be small in order to support the depth of case-oriented analysis that is fundamental to this mode of inquiry [5]. Additionally, qualitative samples are purposive, that is, selected by virtue of their capacity to provide richly-textured information, relevant to the phenomenon under investigation. As a result, purposive sampling [6, 7] – as opposed to probability sampling employed in quantitative research – selects ‘information-rich’ cases [8]. Indeed, recent research demonstrates the greater efficiency of purposive sampling compared to random sampling in qualitative studies [9], supporting related assertions long put forward by qualitative methodologists.

질적 연구에서의 표본 크기는 지속적인 논의의 주제였습니다[4, 10, 11]. 정량적 연구 커뮤니티는 표본 크기를 정확하게 설정하기 위해 비교적 간단한 [통계 기반 규칙]을 확립한 반면, 질적 연구의 표본 크기 결정 및 평가의 복잡성은 질적 연구의 특징인 [방법론적, 이론적, 인식론적, 이념적 다원주의]에서 비롯됩니다(심리학 분야에 초점을 맞춘 논의는 [12]를 참조하세요). 이는 항상 적용되는 명확한 지침에 반하는 것입니다. 이러한 어려움에도 불구하고 다양한 개념적 발전이 이 문제를 해결하기 위해 지침과 원칙을 제시하고 있으며[4, 10, 11, 13,14,15,16,17,18,19,20], 최근에는 표본 크기 결정에 대한 증거 기반 접근 방식이 경험적으로 논의를 뒷받침하려고 합니다[21,22,23,24,25,26,27,28,29,30,31,32,33,34,35].
Sample size in qualitative research has been the subject of enduring discussions [4, 10, 11]. Whilst the quantitative research community has established relatively straightforward statistics-based rules to set sample sizes precisely, the intricacies of qualitative sample size determination and assessment arise from the methodological, theoretical, epistemological, and ideological pluralism that characterises qualitative inquiry (for a discussion focused on the discipline of psychology see [12]). This mitigates against clear-cut guidelines, invariably applied. Despite these challenges, various conceptual developments have sought to address this issue, with guidance and principles [4, 10, 11, 13,14,15,16,17,18,19,20], and more recently, an evidence-based approach to sample size determination seeks to ground the discussion empirically [21,22,23,24,25,26,27,28,29,30,31,32,33,34,35].

본 연구는 참여자별 단일 인터뷰 질적 설계에 초점을 맞추어, 표본 크기와 관련된 정당화 관행에 대한 실증적 증거를 제공함으로써 질적 연구에서 표본 크기의 논의에 더욱 기여하고자 합니다. 다음으로 표본 크기 결정에 관한 기존의 개념적 및 실증적 문헌을 검토합니다. 
Focusing on single-interview-per-participant qualitative designs, the present study aims to further contribute to the dialogue of sample size in qualitative research by offering empirical evidence around justification practices associated with sample size. We next review the existing conceptual and empirical literature on sample size determination.

질적 연구에서의 표본 크기: 개념적 발전과 실증적 조사
Sample size in qualitative research: Conceptual developments and empirical investigations

질적 연구 전문가들은 '몇 명'이라는 질문에 대한 정답은 없으며, 표본 크기는 인식론적, 방법론적, 실제적 문제와 관련된 여러 요인에 따라 달라진다고 주장합니다[36]. 

  • 샌델로우스키[4]는 질적 표본의 크기는 연구 대상 현상에 대한 '새롭고 풍부한 질감의 이해'를 펼칠 수 있을 만큼 [충분히 크되]질적 데이터의 '심층적인 사례 중심 분석'(183쪽)이 배제되지 않도록 [충분히 작을 것]을 권장합니다
  • 모스[11]는 각 사람으로부터 더 많은 사용 가능한 데이터를 수집할수록 더 적은 수의 참가자가 필요하다고 가정합니다. 그녀는 연구자가 연구 범위, 주제의 특성(예: 복잡성, 접근성), 데이터의 품질, 연구 설계와 같은 [매개변수를 고려]할 것을 권유합니다. 

실제로 질적 면접에서 [질문의 구조 수준]은 생성되는 [데이터의 풍부함에 영향]을 미치는 것으로 밝혀졌기 때문에[37] 주의가 필요하며, 경험적 연구에 따르면 [인터뷰 후반부에 질문하는 개방형 질문]이 [더 풍부한 데이터를 생성하는 경향]이 있다고 합니다[37].
Qualitative research experts argue that there is no straightforward answer to the question of ‘how many’ and that sample size is contingent on a number of factors relating to epistemological, methodological and practical issues [36].

  • Sandelowski [4] recommends that qualitative sample sizes are large enough to allow the unfolding of a ‘new and richly textured understanding’ of the phenomenon under study, but small enough so that the ‘deep, case-oriented analysis’ (p. 183) of qualitative data is not precluded.
  • Morse [11] posits that the more useable data are collected from each person, the fewer participants are needed. She invites researchers to take into account parameters, such as the scope of study, the nature of topic (i.e. complexity, accessibility), the quality of data, and the study design.

Indeed, the level of structure of questions in qualitative interviewing has been found to influence the richness of data generated [37], and so, requires attention; empirical research shows that open questions, which are asked later on in the interview, tend to produce richer data [37].

이러한 지침 외에도 전문가들의 질적 연구 경험을 바탕으로 구체적인 수치적 권장 사항도 제시되고 있습니다.

  • 예를 들어, Green과 Thorogood[38]은 상당히 구체적인 연구 질문으로 인터뷰 기반 연구를 수행하는 대부분의 질적 연구자의 경험에 따르면 분석적으로 관련된 하나의 참가자 '범주'에 속하는 20명 내외를 인터뷰한 후에는 새로운 정보가 거의 생성되지 않는다고 주장합니다(102-104페이지).
  • Ritchie 등[39]은 개별 인터뷰를 사용하는 연구에서는 연구자가 분석 작업의 복잡성을 관리할 수 있도록 50명 이하의 인터뷰를 실시할 것을 제안합니다.
  • 마찬가지로 Britten[40]은 대규모 인터뷰 연구의 경우 50~60명으로 구성되는 경우가 많다고 언급합니다. 전문가들은 또한 다양한 이론적, 방법론적 전통과 특정 연구 접근법(예: 근거 이론, 현상학)에 맞춘 수치적 지침을 제시했습니다[11, 41].
  • 최근에는 모집단 내 테마의 빈도 추정치를 기반으로 선험적 표본 크기 결정을 지원하는 정량적 도구가 제안되었습니다[42]. 그럼에도 불구하고 이러한 보다 [수치 공식적인 접근 방식]은 '테마'의 개념적[43], 존재론적 지위[44]에 대한 가정과 샘플링, 데이터 수집 및 데이터 분석 프로세스에 따른 선형성[45]과 관련된 비판을 불러일으켰습니다.

Beyond such guidance, specific numerical recommendations have also been proffered, often based on experts’ experience of qualitative research.

  • For example, Green and Thorogood [38] maintain that the experience of most qualitative researchers conducting an interview-based study with a fairly specific research question is that little new information is generated after interviewing 20 people or so belonging to one analytically relevant participant ‘category’ (pp. 102–104).
  • Ritchie et al. [39] suggest that studies employing individual interviews conduct no more than 50 interviews so that researchers are able to manage the complexity of the analytic task.
  • Similarly, Britten [40] notes that large interview studies will often comprise of 50 to 60 people. Experts have also offered numerical guidelines tailored to different theoretical and methodological traditions and specific research approaches, e.g. grounded theory, phenomenology [1141].
  • More recently, a quantitative tool was proposed [42] to support a priori sample size determination based on estimates of the prevalence of themes in the population. Nevertheless, this more formulaic approach raised criticisms relating to assumptions about the conceptual [43] and ontological status of ‘themes’ [44] and the linearity ascribed to the processes of sampling, data collection and data analysis [45].

원칙적인 측면에서 링컨과 구바[17]는 [정보 중복성]의 기준에 따라 표본 크기를 결정할 것을 제안했는데, 즉 [더 많은 단위를 샘플링해도 새로운 정보가 도출되지 않을 경우 샘플링을 중단할 수 있다]는 것입니다. 정보 포괄성의 논리에 따라 Malterud 등[18]은 실용적인 지침 원칙으로 [정보력 개념]을 도입하여 표본이 제공하는 [정보력이 많을수록 표본 크기가 작아야 하고 그 반대의 경우도 마찬가지]라고 제안했습니다.
In terms of principles, Lincoln and Guba [17] proposed that sample size determination be guided by the criterion of informational redundancy, that is, sampling can be terminated when no new information is elicited by sampling more units. Following the logic of informational comprehensiveness Malterud et al. [18] introduced the concept of information power as a pragmatic guiding principle, suggesting that the more information power the sample provides, the smaller the sample size needs to be, and vice versa.

의심할 여지 없이, 표본 크기를 결정하고 그 충분성을 평가하는 데 가장 널리 사용되는 원칙은 [포화]입니다. 포화 개념은 경험적으로 도출된 이론 개발과 명시적으로 관련된 질적 방법론적 접근 방식인 근거 이론[15]에서 비롯되었으며 이론적 샘플링과 불가분의 관계에 있습니다. [이론적 표본 추출]은 [데이터 수집, 데이터 분석 및 이론 개발의 반복적인 프로세스]를 설명하며, 데이터 수집은 모집단의 사전 정의된 특성이 아닌 새로운 이론에 의해 관리됩니다. [근거 이론 포화(종종 이론적 포화라고도 함)]는 개발 중인 이론 범주(데이터가 아닌)와 관련이 있으며, '새로운 데이터를 수집해도 더 이상 [새로운 이론적 통찰력]을 얻지 못하거나 [핵심 이론 범주의 새로운 속성]이 드러나지 않을 때'[46페이지 113] 분명해집니다. 따라서 근거 이론에서 포화 상태는 [일반적인 데이터 반복에 대한 초점과 동일하지 않으며], 표본 추출의 적절성을 정당화하는 표본 크기에 대한 단일 초점을 넘어서는 것입니다[46, 47]. 근거 이론에서 표본 크기는 진화하는 이론적 범주에 따라 달라지기 때문에 [선험적으로 결정할 수 없습니다].
Undoubtedly, the most widely used principle for determining sample size and evaluating its sufficiency is that of saturation. The notion of saturation originates in grounded theory [15] – a qualitative methodological approach explicitly concerned with empirically-derived theory development – and is inextricably linked to theoretical sampling. Theoretical sampling describes an iterative process of data collection, data analysis and theory development whereby data collection is governed by emerging theory rather than predefined characteristics of the population. Grounded theory saturation (often called theoretical saturation) concerns the theoretical categories – as opposed to data – that are being developed and becomes evident when ‘gathering fresh data no longer sparks new theoretical insights, nor reveals new properties of your core theoretical categories’ [46 p. 113]. Saturation in grounded theory, therefore, does not equate to the more common focus on data repetition and moves beyond a singular focus on sample size as the justification of sampling adequacy [46, 47]. Sample size in grounded theory cannot be determined a priori as it is contingent on the evolving theoretical categories.

포화(종종 '데이터' 또는 '주제별' 포화도라는 용어로 사용됨)는 근거 이론의 기원을 넘어 여러 질적 커뮤니티로 확산되었습니다. '새로운 데이터 없음', '새로운 주제 없음', '새로운 코드 없음'과 다양하게 동일시되는 의미의 확장과 함께, 포화도는 질적 탐구에서 '황금 표준'으로 부상했습니다[2, 26]. 그럼에도 불구하고 모스[48]가 주장했듯이, 포화는 '질적 엄격성의 보증'으로 가장 자주 호출되지만, '우리가 가장 잘 모르는 것'(587쪽)입니다. 물론 연구자들은 포화도가 특정 유형의 질적 연구(예: 대화 분석, [49]; 현상학적 연구, [50])에 적용하기 어렵거나 적절하지 않다고 경고하는 반면, 다른 연구자들은 이 개념을 완전히 거부합니다[19, 51]. 
Saturation – often under the terms of ‘data’ or ‘thematic’ saturation – has diffused into several qualitative communities beyond its origins in grounded theory. Alongside the expansion of its meaning, being variously equated with ‘no new data’, ‘no new themes’, and ‘no new codes’, saturation has emerged as the ‘gold standard’ in qualitative inquiry [2, 26]. Nevertheless, and as Morse [48] asserts, whilst saturation is the most frequently invoked ‘guarantee of qualitative rigor’, ‘it is the one we know least about’ (p. 587). Certainly researchers caution that saturation is less applicable to, or appropriate for, particular types of qualitative research (e.g. conversation analysis, [49]; phenomenological research, [50]) whilst others reject the concept altogether [19, 51].

이 분야의 방법론적 연구는 포화도에 대한 지침을 제공하고 포화를 '조작화'하고 증거하는 프로세스의 실제 적용을 개발하는 것을 목표로 합니다.

  • 게스트, 번스, 존슨[26]은 60개의 인터뷰를 분석한 결과 12번째 인터뷰에 이르러 주제의 포화 상태에 도달했다는 사실을 발견했습니다. 이들은 표본이 비교적 동질적이고 연구 목표가 집중되어 있기 때문에 더 이질적인 표본과 더 넓은 범위를 대상으로 한 연구는 포화 상태에 도달하기 위해 더 큰 규모가 필요할 것이라고 지적했습니다.
  • 이 질문을 다중 사이트, 다문화 연구로 확장한 Hagaman과 Wutich[28]는 연구 사이트를 가로지르는 메타 주제의 데이터 포화도를 달성하려면 20~40개의 인터뷰 샘플 크기가 필요하다는 것을 보여주었습니다.
  • 이론 중심 내용 분석에서 Francis 등[25]은 사전 결정된 모든 이론적 구성에 대해 17번째 인터뷰에 데이터 포화 상태에 도달했습니다. 저자들은 포화도 지정의 근거가 되는 두 가지 주요 원칙을 추가로 제안했습니다.
    • (a) 연구자는 1차 분석에 사용될 초기 분석 샘플(예: 10개의 인터뷰)을 선험적으로 지정하고,
    • (b) 분석에서 새로운 주제나 아이디어를 얻지 못할 경우 추가로 수행해야 하는 인터뷰 수(예: 3개)를 중단 기준으로 정해야 한다는 것입니다.
  • 투명성을 높이기 위해 프란시스 외[25]는 연구자가 포화 상태에 도달했다는 판단을 뒷받침하는 누적 빈도 그래프를 제시할 것을 권장합니다.
  • 주제 포화도 비교 방법(CoMeTS)도 제안되었는데[23], 각각의 새로운 인터뷰 결과를 이미 나온 인터뷰 결과와 비교하여 새로운 주제가 나오지 않으면 '포화된 지형'이 확립된 것으로 간주합니다.
  • 인터뷰 분석 순서는 데이터의 풍부도에 따라 포화 임계값에 영향을 미칠 수 있으므로, 콘스탄티노우 등[23]은 포화 상태를 확인하기 위해 인터뷰 순서를 바꾸고 다시 분석할 것을 권장합니다.
  • 헤닝크, 카이저, 마르코니의 [29] 방법론 연구는 포화도를 지정하고 입증하는 문제에 대해 더 자세히 조명합니다.
    • 인터뷰 데이터를 분석한 결과 코드 포화(즉, 추가 이슈가 식별되지 않는 지점)는 9번의 인터뷰로 달성할 수 있었지만 의미 포화(즉, 이슈의 차원, 뉘앙스 또는 통찰력이 더 이상 식별되지 않는 지점)는 16~24번의 인터뷰가 필요했습니다.
    • 은 특히 유병률이 높고 구체적인 코드의 경우 비교적 빨리 달성할 수 있지만, 깊이는 특히 개념적인 성격의 코드의 경우 추가 데이터가 필요합니다.

Methodological studies in this area aim to provide guidance about saturation and develop a practical application of processes that ‘operationalise’ and evidence saturation.

  • Guest, Bunce, and Johnson [26] analysed 60 interviews and found that saturation of themes was reached by the twelfth interview. They noted that their sample was relatively homogeneous, their research aims focused, so studies of more heterogeneous samples and with a broader scope would be likely to need a larger size to achieve saturation.
  • Extending the enquiry to multi-site, cross-cultural research, Hagaman and Wutich [28] showed that sample sizes of 20 to 40 interviews were required to achieve data saturation of meta-themes that cut across research sites.
  • In a theory-driven content analysis, Francis et al. [25] reached data saturation at the 17th interview for all their pre-determined theoretical constructs. The authors further proposed two main principles upon which specification of saturation be based:
    • (a) researchers should a priori specify an initial analysis sample (e.g. 10 interviews) which will be used for the first round of analysis and
    • (b) a stopping criterion, that is, a number of interviews (e.g. 3) that needs to be further conducted, the analysis of which will not yield any new themes or ideas.
  • For greater transparency, Francis et al. [25] recommend that researchers present cumulative frequency graphs supporting their judgment that saturation was achieved.
  • A comparative method for themes saturation (CoMeTS) has also been suggested [23] whereby the findings of each new interview are compared with those that have already emerged and if it does not yield any new theme, the ‘saturated terrain’ is assumed to have been established.
  • Because the order in which interviews are analysed can influence saturation thresholds depending on the richness of the data, Constantinou et al. [23] recommend reordering and re-analysing interviews to confirm saturation.
  • Hennink, Kaiser and Marconi’s [29] methodological study sheds further light on the problem of specifying and demonstrating saturation.
    • Their analysis of interview data showed that code saturation (i.e. the point at which no additional issues are identified) was achieved at 9 interviews, but meaning saturation (i.e. the point at which no further dimensions, nuances, or insights of issues are identified) required 16–24 interviews.
    • Although breadth can be achieved relatively soon, especially for high-prevalence and concrete codes, depth requires additional data, especially for codes of a more conceptual nature.

넬슨[19]은 포화도 개념을 비판하면서 개발 중인 이론의 견고성을 평가하기 위해 근거 이론 프로젝트에서 다섯 가지 개념적 깊이 기준을 제안합니다:

  • (a) 이론적 개념은 데이터에서 도출된 광범위한 증거에 의해 뒷받침되어야 하며,
  • (b) 상호 연결된 개념 네트워크의 일부임을 입증할 수 있고,
  • (c) 미묘함을 입증하고,
  • (d) 기존 문헌과 공명하고,
  • (e) 외부 타당성 테스트에 성공적으로 제출할 수 있어야 합니다.

Critiquing the concept of saturation, Nelson [19] proposes five conceptual depth criteria in grounded theory projects to assess the robustness of the developing theory:

  • (a) theoretical concepts should be supported by a wide range of evidence drawn from the data;
  • (b) be demonstrably part of a network of inter-connected concepts;
  • (c) demonstrate subtlety;
  • (d) resonate with existing literature; and
  • (e) can be successfully submitted to tests of external validity.

영양학[34], 보건 교육[32], 교육 및 보건 과학[22, 27], 정보 시스템[30], 조직 및 직장 연구[33], 인간 컴퓨터 상호작용[21], 회계 연구[24]에 이르기까지 다양한 학문 분야와 연구 영역에서 표본 크기 보고 및 충분성 평가의 관행을 조사하고자 한 다른 연구도 있습니다. 다른 연구에서는 박사 학위 질적 연구[31]와 근거 이론 연구[35]를 조사했습니다. 이러한 조사에서 불완전하고 부정확한 표본 크기 보고가 흔히 발견되는 반면, 표본 크기의 충분성에 대한 평가와 정당화는 훨씬 더 산발적으로 이루어지고 있습니다.  
Other work has sought to examine practices of sample size reporting and sufficiency assessment across a range of disciplinary fields and research domains, from nutrition [34] and health education [32], to education and the health sciences [22, 27], information systems [30], organisation and workplace studies [33], human computer interaction [21], and accounting studies [24]. Others investigated PhD qualitative studies [31] and grounded theory studies [35]. Incomplete and imprecise sample size reporting is commonly pinpointed by these investigations whilst assessment and justifications of sample size sufficiency are even more sporadic.

Sobal[34]은 30년 동안 영양 교육 저널에 발표된 질적 연구의 표본 규모를 조사했습니다. 개별 인터뷰를 사용한 연구(n = 30)의 평균 표본 크기는 45명이었으며, 이들 중 표본 크기가 포화 상태에 도달했는지 여부를 명시적으로 보고한 연구는 없었습니다. 소수의 논문에서는 표본 관련 제한 사항(대부분 표본의 크기보다는 표본의 유형에 관한 것)이 일반화 가능성을 어떻게 제한하는지 논의했습니다. 20년간의 보건 교육 연구에 대한 체계적인 분석[32]에 따르면 인터뷰 기반 연구의 평균 참여자 수는 104명(인터뷰 대상자 범위는 2~720명)이었습니다. 그러나 40%는 참가자 수를 보고하지 않았습니다. 주요 정보 시스템 저널[30]에 실린 83건의 질적 인터뷰 연구를 조사한 결과, 질적 방법론자의 권고, 선행 관련 연구 또는 포화도 기준에 근거하여 표본 규모에 대한 방어가 거의 없는 것으로 나타났습니다. 오히려 표본 크기는 출판 저널이나 연구 지역(미국 대 유럽 대 아시아)과 같은 요인과 상관관계가 있는 것으로 나타났습니다. 이러한 결과를 바탕으로 저자들은 질적 정보 시스템 연구에서 표본 규모를 결정하고 보고할 때 보다 엄격해야 하며, 근거 이론(예: 20~30개 인터뷰) 및 단일 사례(예: 15~30개 인터뷰) 프로젝트에 대한 최적의 표본 규모 범위를 권장했습니다. 
Sobal [34] examined the sample size of qualitative studies published in the Journal of Nutrition Education over a period of 30 years. Studies that employed individual interviews (n = 30) had an average sample size of 45 individuals and none of these explicitly reported whether their sample size sought and/or attained saturation. A minority of articles discussed how sample-related limitations (with the latter most often concerning the type of sample, rather than the size) limited generalizability. A further systematic analysis [32] of health education research over 20 years demonstrated that interview-based studies averaged 104 participants (range 2 to 720 interviewees). However, 40% did not report the number of participants. An examination of 83 qualitative interview studies in leading information systems journals [30] indicated little defence of sample sizes on the basis of recommendations by qualitative methodologists, prior relevant work, or the criterion of saturation. Rather, sample size seemed to correlate with factors such as the journal of publication or the region of study (US vs Europe vs Asia). These results led the authors to call for more rigor in determining and reporting sample size in qualitative information systems research and to recommend optimal sample size ranges for grounded theory (i.e. 20–30 interviews) and single case (i.e. 15–30 interviews) projects.

마찬가지로 조직 및 직장 연구 논문의 10% 미만이 방법론가, 선행 관련 연구 또는 포화도와 관련된 표본 크기 정당성을 제공했으며[33], 건강 관련 저널의 포커스 그룹 연구 중 17%만이 표본 크기(즉, 포커스 그룹 수)에 대한 설명을 제공했으며, [포화]가 가장 자주 인용된 논거였고 그 다음으로 [출판된 표본 크기 권장 사항][실용적인 이유][22] 순으로 나타났습니다. 포화 개념은 교육 및 보건 과학 분야에서 가장 많이 인용된 51개의 연구 중 11개에서 사용되었는데, 이 중 6개는 근거 이론 연구, 4개는 현상학적 연구, 1개는 내러티브 탐구였습니다[27]. 마지막으로, 회계학 분야의 인터뷰 기반 논문 641편을 분석한 Dai 등[24]은 상당수의 연구가 정확한 표본 크기를 보고하지 않았기 때문에 더 엄격할 것을 요구했습니다. 
Similarly, fewer than 10% of articles in organisation and workplace studies provided a sample size justification relating to existing recommendations by methodologists, prior relevant work, or saturation [33], whilst only 17% of focus groups studies in health-related journals provided an explanation of sample size (i.e. number of focus groups), with saturation being the most frequently invoked argument, followed by published sample size recommendations and practical reasons [22]. The notion of saturation was also invoked by 11 out of the 51 most highly cited studies that Guetterman [27] reviewed in the fields of education and health sciences, of which six were grounded theory studies, four phenomenological and one a narrative inquiry. Finally, analysing 641 interview-based articles in accounting, Dai et al. [24] called for more rigor since a significant minority of studies did not report precise sample size.

질적 연구의 엄격성에 대한 관심 증가(예: [52])와 질적 연구의 검증을 위한 보다 광범위한 방법론 및 분석 공개에도 불구하고[24], 표본 크기 보고 및 충분성 평가는 다양한 연구 영역에서 일관되지 않고 부분적으로만 이루어지고 있습니다. 
Despite increasing attention to rigor in qualitative research (e.g. [52]) and more extensive methodological and analytical disclosures that seek to validate qualitative work [24], sample size reporting and sufficiency assessment remain inconsistent and partial, if not absent, across a range of research domains.

본 연구의 목적
Objectives of the present study

본 연구는 건강과 관련된 질적 연구에 초점을 맞추어 표본 크기 보고 및 정당성에 대한 관습과 관행에 대한 기존의 체계적 분석을 강화하고자 했습니다. 또한, 본 연구는 질적 표본 크기가 학문적 서술에서 어떻게 특징지어지고 논의되는지를 조사함으로써 이전의 경험적 조사를 확장하고자 했습니다. 질적 건강 연구는 의학과의 연관성으로 인해 종종 양적 정신을 반영하는 견해와 입장에 직면하는 학제 간 분야입니다. 따라서 질적 건강 연구는 표본 규모를 고려할 때 구체화되는 과학계의 근본적인 철학적, 방법론적 차이를 드러내는 데 도움이 될 수 있는 상징적인 사례입니다. 따라서 본 연구에서는 질적 건강 연구와 관련된 세 가지 다른 학문 분야인 의학, 심리학, 사회학을 기반으로 비교 요소를 통합했습니다. 질적 건강 연구에서 대중적이고 널리 사용되는 방법론적 선택일 뿐만 아니라 인터뷰 대상자 수로 정의되는 표본 크기에 대한 고려가 특히 두드러지는 방법이기 때문에 [단일 참가자당 인터뷰 설계]에 분석의 초점을 맞추기로 결정했습니다. 
The present study sought to enrich existing systematic analyses of the customs and practices of sample size reporting and justification by focusing on qualitative research relating to health. Additionally, this study attempted to expand previous empirical investigations by examining how qualitative sample sizes are characterised and discussed in academic narratives. Qualitative health research is an inter-disciplinary field that due to its affiliation with medical sciences, often faces views and positions reflective of a quantitative ethos. Thus qualitative health research constitutes an emblematic case that may help to unfold underlying philosophical and methodological differences across the scientific community that are crystallised in considerations of sample size. The present research, therefore, incorporates a comparative element on the basis of three different disciplines engaging with qualitative health research: medicine, psychology, and sociology. We chose to focus our analysis on single-per-participant-interview designs as this not only presents a popular and widespread methodological choice in qualitative health research, but also as the method where consideration of sample size – defined as the number of interviewees – is particularly salient.


연구 설계
Study design

횡단면 인터뷰 기반의 질적 연구를 보고하는 논문을 구조적으로 검색하고 양적 및 질적 분석 기법을 모두 사용하여 적격 보고서를 체계적으로 검토 및 분석했습니다. 
A structured search for articles reporting cross-sectional, interview-based qualitative studies was carried out and eligible reports were systematically reviewed and analysed employing both quantitative and qualitative analytic techniques.

(a) 동료 검토 프로세스를 따르고, (b) 저널 지표에 반영된 바와 같이 해당 분야에서 높은 수준과 영향력을 지닌 것으로 간주되며, (c) 질적 연구를 수용하고 출판하는 저널을 선정했습니다(추가 파일 1에는 질적 연구와 관련된 저널의 편집 입장과 가능한 경우 샘플 고려 사항이 제시되어 있습니다). 의학을 대표하는 영국의학저널(BMJ), 심리학을 대표하는 영국건강심리학저널(BJHP), 사회학을 대표하는 건강과 질병의 사회학(SHI) 등 각기 다른 학문 분야를 대표하는 세 개의 건강 관련 저널이 선정되었습니다. 
We selected journals which (a) follow a peer review process, (b) are considered high quality and influential in their field as reflected in journal metrics, and (c) are receptive to, and publish, qualitative research (Additional File 1 presents the journals’ editorial positions in relation to qualitative research and sample considerations where available). Three health-related journals were chosen, each representing a different disciplinary field; the British Medical Journal (BMJ) representing medicine, the British Journal of Health Psychology (BJHP) representing psychology, and the Sociology of Health & Illness (SHI) representing sociology.

연구 식별을 위한 검색 전략
Search strategy to identify studies

각 개별 저널의 검색 기능을 사용하여 '인터뷰*' 및 '질적'이라는 용어를 사용했으며, 2003년 1월 1일부터 2017년 9월 22일(즉, 15년 검토 기간) 사이에 출판된 논문으로 결과를 제한했습니다.
Employing the search function of each individual journal, we used the terms ‘interview*’ AND ‘qualitative’ and limited the results to articles published between 1 January 2003 and 22 September 2017 (i.e. a 15-year review period).

자격 기준
Eligibility criteria

검토 대상에 포함되려면 논문이 단면 연구 설계를 보고해야 했습니다. 따라서 종단 연구는 제외되었지만, 광범위한 연구 프로그램 내에서 수행된 연구(예: 광범위한 민족지학의 일부로 임상시험에 중첩된 인터뷰 연구, 종단 연구의 일부)는 단 한 번의 질적 인터뷰만 보고한 경우 포함되었습니다. 데이터 수집 방법은 개별적이고 동시적인 질적 인터뷰여야 하며(즉, 그룹 인터뷰, 구조화된 인터뷰, 일정 기간에 걸친 이메일 인터뷰는 제외), 데이터를 질적으로 분석해야 합니다(즉, 질적 데이터를 정량화한 연구는 제외). 혼합 방법 연구와 두 가지 이상의 질적 데이터 수집 방법(예: 개별 인터뷰 및 포커스 그룹)을 보고하는 논문은 제외되었습니다. 그림 1은 PRISMA 흐름도[53]로, 검색 및 선별된 논문, 적격성 평가 논문, 리뷰에 포함된 논문의 수를 보여줍니다(추가 파일 2는 리뷰에 포함된 논문의 전체 목록과 고유 식별 코드(예: BMJ01, BJHP02, SHI03)를 제공합니다). 한 명의 리뷰 저자(KV)가 검색에서 확인된 모든 논문의 적격성을 평가했습니다. 의심스러운 경우, KV와 JB는 정기적인 회의를 통해 논문을 유지하거나 제외하는 것에 대해 논의하고 공동으로 결정을 내렸습니다. 

To be eligible for inclusion in the review, the article had to report a cross-sectional study design. Longitudinal studies were thus excluded whilst studies conducted within a broader research programme (e.g. interview studies nested in a trial, as part of a broader ethnography, as part of a longitudinal research) were included if they reported only single-time qualitative interviews. The method of data collection had to be individual, synchronous qualitative interviews (i.e. group interviews, structured interviews and e-mail interviews over a period of time were excluded), and the data had to be analysed qualitatively (i.e. studies that quantified their qualitative data were excluded). Mixed method studies and articles reporting more than one qualitative method of data collection (e.g. individual interviews and focus groups) were excluded. Figure 1, a PRISMA flow diagram [53], shows the number of: articles obtained from the searches and screened; papers assessed for eligibility; and articles included in the review (Additional File 2 provides the full list of articles included in the review and their unique identifying code – e.g. BMJ01, BJHP02, SHI03). One review author (KV) assessed the eligibility of all papers identified from the searches. When in doubt, discussions about retaining or excluding articles were held between KV and JB in regular meetings, and decisions were jointly made.


데이터 추출 및 분석
Data extraction and analysis

데이터 추출 양식(추가 파일 3 참조)을 개발하여 (a) 논문에 대한 정보(예: 저자, 제목, 학술지, 출판 연도 등), (b) 연구의 목적, 표본 크기 및 이에 대한 정당성, 참여자 특성, 표본 추출 기법 및 저자의 표본 관련 관찰 또는 의견, (c) 데이터 분석 방법 또는 기술, 분석에 참여한 연구자 수, 소프트웨어 사용 가능성, 인식론적 고려 사항에 대한 논의 등 세 가지 영역의 정보를 기록했습니다. 각 논문의 초록, 방법 및 토론(및/또는 결론) 섹션은 모든 관련 정보를 추출한 한 명의 저자(KV)가 검토했습니다. 이는 논문에서 직접 복사했으며, 필요한 경우 의견, 메모 및 초기 생각을 기록했습니다. 
A data extraction form was developed (see Additional File 3) recording three areas of information: (a) information about the article (e.g. authors, title, journal, year of publication etc.); (b) information about the aims of the study, the sample size and any justification for this, the participant characteristics, the sampling technique and any sample-related observations or comments made by the authors; and (c) information about the method or technique(s) of data analysis, the number of researchers involved in the analysis, the potential use of software, and any discussion around epistemological considerations. The Abstract, Methods and Discussion (and/or Conclusion) sections of each article were examined by one author (KV) who extracted all the relevant information. This was directly copied from the articles and, when appropriate, comments, notes and initial thoughts were written down.

기사에서 제공하는 표본 크기의 정당성을 조사하기 위해 귀납적 내용 분석[54]이 처음에 수행되었습니다. 이 분석을 바탕으로 질적으로 다른 표본 크기 정당화를 표현하는 범주를 개발했습니다. 
To examine the kinds of sample size justifications provided by articles, an inductive content analysis [54] was initially conducted. On the basis of this analysis, the categories that expressed qualitatively different sample size justifications were developed.

또한 다음과 같은 측면에 대한 정량적 데이터를 추출하거나 코딩했습니다: 
We also extracted or coded quantitative data regarding the following aspects:

  • 학술지 및 출판 연도
  • 인터뷰 횟수
  • 참가자 수
  • 표본 크기 정당성 유무(예/아니오)
  • 특정 표본 크기 정당화 범주의 존재 여부(예/아니요) 및
  • 제공된 표본 크기 정당화 항목의 수
  • Journal and year of publication
  • Number of interviews
  • Number of participants
  • Presence of sample size justification(s) (Yes/No)
  • Presence of a particular sample size justification category (Yes/No), and
  • Number of sample size justifications provided

이러한 데이터를 탐색하기 위해 설명적 통계 분석과 추론적 통계 분석이 사용되었습니다. 
Descriptive and inferential statistical analyses were used to explore these data.

그런 다음 연구의 표본 크기에 대해 논의하거나 언급하는 모든 과학적 서술에 대해 주제별 분석[55]을 수행했습니다. 이러한 내러티브는 표본 크기를 정당화하는 논문과 그렇지 않은 논문 모두에서 분명하게 나타났습니다. 이러한 내러티브를 식별하기 위해 방법 섹션 외에도 검토된 논문의 토론 섹션을 조사하고 관련 데이터를 추출하여 분석했습니다. 
A thematic analysis [55] was then performed on all scientific narratives that discussed or commented on the sample size of the study. These narratives were evident both in papers that justified their sample size and those that did not. To identify these narratives, in addition to the methods sections, the discussion sections of the reviewed articles were also examined and relevant data were extracted and analysed.


총 214개 논문(BMJ 21개, BJHP 53개, SHI 140개)이 검토 대상에 포함되었습니다. 표 1은 세 저널에서 검토한 연구의 표본 크기(인터뷰 수로 측정)에 대한 기본 정보를 제공합니다. 그림 2는 학술지별로 매년 출판되는 대상 논문 수를 보여줍니다.
In total, 214 articles – 21 in the BMJ, 53 in the BJHP and 140 in the SHI – were eligible for inclusion in the review. Table 1 provides basic information about the sample sizes – measured in number of interviews – of the studies reviewed across the three journals. Figure 2 depicts the number of eligible articles published each year per journal.


2012년 이후 BMJ에 게재된 질적 연구 논문이 현저히 감소했으며, 이는 질적 연구를 대상으로 하는 BMJ Open의 시작과 일치하는 것으로 보입니다.
The publication of qualitative studies in the BMJ was significantly reduced from 2012 onwards and this appears to coincide with the initiation of the BMJ Open to which qualitative studies were possibly directed.

유의한 Kruskal-WallisFootnote2 테스트에 따라 쌍으로 비교한 결과, BJHP에 게재된 연구의 표본 크기가 BMJ 또는 SHI에 게재된 연구보다 유의하게(p < .001) 작은 것으로 나타났습니다. BMJ와 SHI 논문의 표본 크기는 서로 크게 다르지 않았습니다. 
Pairwise comparisons following a significant Kruskal-WallisFootnote2 test indicated that the studies published in the BJHP had significantly (p < .001) smaller samples sizes than those published either in the BMJ or the SHI. Sample sizes of BMJ and SHI articles did not differ significantly from each other.

표본 크기 정당화: 양적 및 질적 콘텐츠 분석 결과
Sample size justifications: Results from the quantitative and qualitative content analysis

BMJ 논문 21편 중 10편(47.6%), BJHP 논문 53편 중 26편(49.1%), SHI 논문 140편 중 24편(17.1%)이 일종의 표본 크기 정당화를 제공했습니다. 표 2에서 볼 수 있듯이, 표본 크기를 정당화한 논문의 대부분은 한 가지 정당화를 제공했습니다(70%).

  • 두 가지 정당화를 제공한 연구는 14건(25%),
  • 세 가지 정당화를 제공한 연구는 1건(1.7%),
  • 네 가지 정당화를 제공한 연구는 2건(3.3%)이었습니다.

Ten (47.6%) of the 21 BMJ studies, 26 (49.1%) of the 53 BJHP papers and 24 (17.1%) of the 140 SHI articles provided some sort of sample size justification. As shown in Table 2, the majority of articles which justified their sample size provided one justification (70% of articles);

  • fourteen studies (25%) provided two distinct justifications;
  • one study (1.7%) gave three justifications and
  • two studies (3.3%) expressed four distinct justifications.

수행된 인터뷰 횟수(즉, 표본 크기)와 정당화 제공 사이에는 연관성이 없었습니다(rpb = .054, p = .433). 학술지 내에서는 맨-위트니 테스트 결과 BMJ와 SHI에서 '정당화' 및 '비정당화' 논문의 표본 크기가 서로 크게 다르지 않은 것으로 나타났습니다. BJHP에서는 '정당화' 논문(평균 순위 = 31.3)의 표본 크기가 '비정당화' 연구(평균 순위 = 22.7; U = 237.000, p < .05)보다 훨씬 더 컸습니다. 
There was no association between the number of interviews (i.e. sample size) conducted and the provision of a justification (rpb = .054, p = .433). Within journals, Mann-Whitney tests indicated that sample sizes of ‘justifying’ and ‘non-justifying’ articles in the BMJ and SHI did not differ significantly from each other. In the BJHP, ‘justifying’ articles (Mean rank = 31.3) had significantly larger sample sizes than ‘non-justifying’ studies (Mean rank = 22.7; U = 237.000, p < .05).

논문이 게재된 저널과 정당화 제공 사이에는 유의미한 연관성이 있었습니다(χ2 (2) = 23.83, p < .001). BJHP 연구는 예상보다 훨씬 더 자주 표본 크기 정당성을 제공했으며(z = 2.9), SHI 연구는 훨씬 덜 자주 제공했습니다(z = - 2.4). 논문이 BJHP에 게재된 경우, 근거를 제공할 확률은 SHI에 게재된 경우보다 4.8배 더 높았습니다마찬가지로 BMJ에 게재된 경우, 표본 크기를 정당화하는 연구 확률은 SHI에 게재된 경우보다 4.5배 높았습니다.
There was a significant association between the journal a paper was published in and the provision of a justification (χ2 (2) = 23.83, p < .001). BJHP studies provided a sample size justification significantly more often than would be expected (z = 2.9); SHI studies significantly less often (z = − 2.4). If an article was published in the BJHP, the odds of providing a justification were 4.8 times higher than if published in the SHI. Similarly if published in the BMJ, the odds of a study justifying its sample size were 4.5 times higher than in the SHI.

과학적 내러티브의 질적 내용 분석을 통해 11개의 서로 다른 표본 크기 정당성을 확인했습니다. 이에 대해서는 아래에 설명되어 있으며 관련 논문에서 발췌하여 설명합니다. 요약하자면, 세 저널에서 이러한 근거가 사용된 빈도는 표 3에 나와 있습니다.
The qualitative content analysis of the scientific narratives identified eleven different sample size justifications. These are described below and illustrated with excerpts from relevant articles. By way of a summary, the frequency with which these were deployed across the three journals is indicated in Table 3.



포화는 세 학술지 모두에서 표본 크기의 충분성을 정당화하기 위해 연구에서 가장 많이 사용된 원칙(전체 정당화의 55.4%)이었습니다. BMJ에서 데이터 포화도를 달성했다고 주장한 연구는 2건(BMJ17, BMJ18)이었으며, 포화도라는 용어를 명시적으로 사용하지 않고 설명적으로 언급한 논문은 1건(BMJ13)이었습니다. 흥미롭게도 BMJ13은 '비정상적/일탈적 관찰'을 찾고 연구 결과의 일관성을 확립하기 위해 포화 시점을 넘어선 데이터를 분석에 포함했습니다.
Saturation was the most commonly invoked principle (55.4% of all justifications) deployed by studies across all three journals to justify the sufficiency of their sample size. In the BMJ, two studies claimed that they achieved data saturation (BMJ17; BMJ18) and one article referred descriptively to achieving saturation without explicitly using the term (BMJ13). Interestingly, BMJ13 included data in the analysis beyond the point of saturation in search of ‘unusual/deviant observations’ and with a view to establishing findings consistency.

인터뷰 연구에 참여하기 위해 33명의 여성에게 연락을 취했습니다. 27명이 동의했고 21명(21-64세, 중앙값 40세)이 데이터 포화점에 도달하기 전에 인터뷰를 진행했습니다(한 번의 테이프 실패로 분석에 사용할 수 있는 인터뷰는 20건). (BMJ17).
Thirty three women were approached to take part in the interview study. Twenty seven agreed and 21 (aged 21–64, median 40) were interviewed before data saturation was reached (one tape failure meant that 20 interviews were available for analysis).

인터뷰의 약 3분의 2를 분석한 결과 새로운 주제는 발견되지 않았지만, 모든 인터뷰는 견해와 보고된 행동이 얼마나 특징적인지 더 잘 이해하고 비정상적이거나 일탈적인 관찰 사례를 더 수집하기 위해 코딩되었습니다. (BMJ13).
No new topics were identified following analysis of approximately two thirds of the interviews; however, all interviews were coded in order to develop a better understanding of how characteristic the views and reported behaviours were, and also to collect further examples of unusual/deviant observations.

두 개의 논문은 데이터 포화도를 달성하기 위해 표본 크기를 미리 결정했다고 보고했습니다(BMJ08 - [기존 연구와 일치]하는 섹션의 발췌문 참조, BMJ15 - [실용적 고려 사항] 섹션의 발췌문 참조).

  • 한 논문에서는 "분석에서 더 이상 반복되는 주제가 나타나지 않을 때"를 이론적 포화 상태(BMJ06)라고 주장한 반면,
  • 다른 연구에서는 분석 범주가 매우 포화 상태이지만 이론적 포화 상태를 달성했는지 여부를 판단할 수 없다고 주장했습니다(BMJ04).
  • 한 논문(BMJ18)은 포화도에 대한 입장을 뒷받침하기 위해 참고 문헌을 인용했습니다.

Two articles reported pre-determining their sample size with a view to achieving data saturation (BMJ08 – see extract in section In line with existing research; BMJ15 – see extract in section Pragmatic considerations) without further specifying if this was achieved.

  • One paper claimed theoretical saturation (BMJ06) conceived as being when “no further recurring themes emerging from the analysis”
  • whilst another study argued that although the analytic categories were highly saturated, it was not possible to determine whether theoretical saturation had been achieved (BMJ04).
  • One article (BMJ18) cited a reference to support its position on saturation.

BJHP에서 6개의 논문이 데이터 포화 상태에 도달했다고 주장했고(BJHP21, BJHP32, BJHP39, BJHP48, BJHP49, BJHP52), 1개의 논문은 표본 크기와 데이터 포화 상태에 도달하기 위한 가이드라인을 고려할 때 포화 상태에 도달할 것으로 예상한다고 명시했습니다(BJHP50).  
In the BJHP, six articles claimed that they achieved data saturation (BJHP21; BJHP32; BJHP39; BJHP48; BJHP49; BJHP52) and one article stated that, given their sample size and the guidelines for achieving data saturation, it anticipated that saturation would be attained (BJHP50).

새로운 주제가 나타나지 않는 시점으로 정의되는 데이터 포화 상태에 도달할 때까지 모집을 계속했습니다. (BJHP48).
Recruitment continued until data saturation was reached, defined as the point at which no new themes emerged.

이전에는 질적 연구에서 데이터 포화 상태에 도달하기 위해 최소 12개 이상의 표본 크기가 필요하다고 권장되어 왔습니다(Clarke & Braun, 2013; Fugard & Potts, 2014; Guest, Bunce, & Johnson, 2006). 따라서 이 연구의 질적 분석과 규모를 위해 13개의 표본이 충분한 것으로 간주되었습니다. (BJHP50).
It has previously been recommended that qualitative studies require a minimum sample size of at least 12 to reach data saturation (Clarke & Braun, 2013; Fugard & Potts, 2014; Guest, Bunce, & Johnson, 2006) Therefore, a sample of 13 was deemed sufficient for the qualitative analysis and scale of this study.

두 개의 연구는 [주제 포화]를 달성했다고 주장했고(BJHP28 - 표본 크기 가이드라인 섹션의 발췌문 참조, BJHP31), 이론 개발과 이론적 표본 추출을 명시적으로 다룬 한 개의 논문(BJHP30)은 [이론적 포화]와 [데이터 포화]를 모두 주장했습니다.
Two studies argued that they achieved thematic saturation (BJHP28 – see extract in section Sample size guidelines; BJHP31) and one (BJHP30) article, explicitly concerned with theory development and deploying theoretical sampling, claimed both theoretical and data saturation.

최종 표본 크기는 주제 포화(주제와 참여자의 의견이 반복되어 새로운 데이터가 더 이상 연구 결과에 기여하지 않는 것으로 보이는 지점)에 따라 결정되었습니다(Morse, 1995). 이 시점에서 데이터 생성이 종료되었습니다. (BJHP31).
The final sample size was determined by thematic saturation, the point at which new data appears to no longer contribute to the findings due to repetition of themes and comments by participants (Morse, 1995). At this point, data generation was terminated.

5개의 연구는 포화라는 용어를 더 이상 명시하지 않고 포화도를 달성(BJHP05, BJHP33, BJHP40, BJHP13 - 실용적 고려 사항 섹션의 발췌문 참조)했거나 예상(BJHP46)했다고 주장했습니다. BJHP17은 포화라는 용어를 구체적으로 사용하지 않고 포화 상태에 도달한 상태를 설명적으로 언급했습니다. 테마의 포화 상태가 아닌 [코딩의 포화 상태]에 도달했다고 주장한 논문은 한 편(BJHP18)이었습니다. 포화 상태에 도달하지 않았다고 명시적으로 언급한 논문은 2건이었으며, 그 대신 [테마의 완성도](BJHP27)를 주장하거나 테마가 복제되고 있다는 주장(BJHP53)을 통해 표본 크기의 충분성을 논증했습니다.
Five studies argued that they achieved (BJHP05; BJHP33; BJHP40; BJHP13 – see extract in section Pragmatic considerations) or anticipated (BJHP46) saturation without any further specification of the term. BJHP17 referred descriptively to a state of achieved saturation without specifically using the term. Saturation of coding, but not saturation of themes, was claimed to have been reached by one article (BJHP18). Two articles explicitly stated that they did not achieve saturation; instead claiming a level of theme completeness (BJHP27) or that themes being replicated (BJHP53) were arguments for sufficiency of their sample size.

또한 포화점에 도달한 시점이 아니라 실용적인 이유로 데이터 수집이 중단되었습니다. 그럼에도 불구하고 데이터 분석이 끝날 무렵에도 하위 테마 내 뉘앙스가 여전히 나타나고 있었지만, 테마 자체는 복제되고 있어 완성도가 높다는 것을 알 수 있었습니다. (BJHP27).
Furthermore, data collection ceased on pragmatic grounds rather than at the point when saturation point was reached. Despite this, although nuances within sub-themes were still emerging towards the end of data analysis, the themes themselves were being replicated indicating a level of completeness.

마지막으로, 한 논문에서는 [이론적 충분성]의 기준이 표본 크기를 결정한다고 주장하며 데이터 포화도 개념을 비판하고 명시적으로 포기했습니다(BJHP16).
Finally, one article criticised and explicitly renounced the notion of data saturation claiming that, on the contrary, the criterion of theoretical sufficiency determined its sample size (BJHP16).

원래 근거 이론 텍스트에 따르면, 데이터 수집은 새로운 발견이 없을 때까지(즉, '데이터 포화'; Glaser & Strauss, 1967) 계속되어야 합니다. 그러나 최근 이 과정에 대한 개정 논의에서는 데이터 수집이 완전한 과정인 경우는 드물며, 연구자는 데이터가 충분한 이론적 설명을 만들 수 있는 정도, 즉 '이론적 충분성'에 의존해야 한다고 주장하고 있습니다(Dey, 1999). 이 연구에서는 데이터 포화도를 찾기보다는 이론적 충분성을 기준으로 모집을 진행하기로 결정했습니다. (BJHP16).
According to the original Grounded Theory texts, data collection should continue until there are no new discoveries (
i.e., ‘data saturation’; Glaser & Strauss, 1967). However, recent revisions of this process have discussed how it is rare that data collection is an exhaustive process and researchers should rely on how well their data are able to create a sufficient theoretical account or ‘theoretical sufficiency’ (Dey, 1999). For this study, it was decided that theoretical sufficiency would guide recruitment, rather than looking for data saturation. (BJHP16).

포화도 논증을 사용한 20개의 BJHP 논문 중 10개가 이 원칙과 관련된 인용을 하나 이상 사용했습니다.
Ten out of the 20 BJHP articles that employed the argument of saturation used one or more citations relating to this principle.

SHI에서는 한 논문(SHI01)이 저자의 판단에 따라 카테고리 포화를 달성했다고 주장했습니다.
In the SHI, one article (SHI01) claimed that it achieved category saturation based on authors’ judgment.

이 수치는 사전에 정해진 것이 아니라 샘플링 전략과 데이터 분석을 기반으로 '카테고리 포화'가 달성되는 시점에 대한 판단에 따라 결정되었습니다. (SHI01).
This number was not fixed in advance, but was guided by the sampling strategy and the judgement, based on the analysis of the data, of the point at which ‘category saturation’ was achieved.

3편의 논문은 포화도라는 용어를 사용하지 않거나 어떤 종류의 포화도(예: 데이터, 이론적, 주제적 포화도)를 달성했는지 명시하지 않고 포화도 달성 상태를 설명했으며(SHI04, SHI13, SHI30), 나머지 4편의 논문은 포화도를 달성했다고 명시적으로 언급했습니다(SHI100, SHI125, SHI136, SHI137). 2편의 논문은 데이터 포화를 달성했다고 명시했고(SHI73 - 표본 크기 가이드라인 섹션의 발췌문 참조, SHI113), 2편은 이론적 포화를 주장했으며(SHI78; SHI115), 2편은 주제별 포화를 달성했거나(SHI87; SHI139) 포화된 주제를 언급했습니다(SHI29; SHI50). 
Three articles described a state of achieved saturation without using the term or specifying what sort of saturation they had achieved (i.e. data, theoretical, thematic saturation) (SHI04; SHI13; SHI30) whilst another four articles explicitly stated that they achieved saturation (SHI100; SHI125; SHI136; SHI137). Two papers stated that they achieved data saturation (SHI73 – see extract in section Sample size guidelines; SHI113), two claimed theoretical saturation (SHI78; SHI115) and two referred to achieving thematic saturation (SHI87; SHI139) or to saturated themes (SHI29; SHI50).

아래 설명된 범주에서 이론적 포화 상태에 도달하면 모집 및 분석이 중단되었습니다(링컨과 구바 1985). (SHI115).
Recruitment and analysis ceased once theoretical saturation was reached in the categories described below (Lincoln and Guba 1985).

아래에 표시된 응답자의 인용문은 대표적인 것으로 선택되었으며 포화 된 주제를 보여줍니다. (SHI50).
The respondents’ quotes drawn on below were chosen as representative, and illustrate saturated themes.

한 기사에서는 표본 크기로 인해 주제별 포화도가 예상되었다고 언급했습니다(SHI94). [이론적 포화도를 정확히 파악하기 어렵다는 점]을 간략하게 언급하면서 SHI32(데이터의 풍부성 및 양 섹션의 발췌문 참조)는 "인터뷰 대상자들 사이에서 나타나기 시작한 높은 수준의 합의"를 근거로 표본 크기의 충분성을 옹호하며 인터뷰의 정보가 복제되고 있음을 시사했습니다. 마지막으로 SHI112(조사 결과의 일관성을 확인하기 위한 추가 샘플링 섹션의 발췌문 참조)는 [담론 패턴의 포화 상태]를 달성했다고 주장했습니다. 19개의 SHI 논문 중 7개가 [포화에 대한 입장을 뒷받침하는 참고 문헌을 인용]했습니다(세 저널에서 포화도에 대한 입장을 뒷받침하기 위해 논문에서 사용한 인용 문헌의 전체 목록은 추가 파일 4 참조).
One article stated that thematic saturation was anticipated with its sample size (SHI94). Briefly referring to the difficulty in pinpointing achievement of theoretical saturation, SHI32 (see extract in section Richness and volume of data) defended the sufficiency of its sample size on the basis of “the high degree of consensus [that] had begun to emerge among those interviewed”, suggesting that information from interviews was being replicated. Finally, SHI112 (see extract in section Further sampling to check findings consistency) argued that it achieved saturation of discursive patterns. Seven of the 19 SHI articles cited references to support their position on saturation (see Additional File 4 for the full list of citations used by articles to support their position on saturation across the three journals).

전반적으로 포화도 개념은 포화, 데이터 포화, 주제 포화, 이론적 포화, 카테고리 포화, 코딩의 포화, 담론적 주제의 포화, 주제 완성도 등의 용어로 표현되는 다양한 변형을 포괄하는 것이 분명합니다. 그러나 이러한 다양한 주장이 때때로 문헌을 참조하여 뒷받침되기는 하지만, 당면한 연구와 관련하여 입증되지는 않았다는 점에 주목할 필요가 있습니다.
Overall, it is clear that the concept of saturation encompassed a wide range of variants expressed in terms such as saturation, data saturation, thematic saturation, theoretical saturation, category saturation, saturation of coding, saturation of discursive themes, theme completeness. It is noteworthy, however, that although these various claims were sometimes supported with reference to the literature, they were not evidenced in relation to the study at hand.

실용적인 고려 사항
Pragmatic considerations

실용적 고려사항에 근거한 표본 크기 결정은 세 학술지 모두에서 두 번째로 자주 인용된 주장(전체 정당화 중 9.6%)이었습니다. BMJ에서는 한 논문(BMJ15)에서 시간 제약과 특정 연구 모집단에 접근하기 어렵다는 실용적인 이유를 들어 표본 크기 결정을 정당화했습니다.
The determination of sample size on the basis of pragmatic considerations was the second most frequently invoked argument (9.6% of all justifications) appearing in all three journals. In the BMJ, one article (BMJ15) appealed to pragmatic reasons, relating to time constraints and the difficulty to access certain study populations, to justify the determination of its sample size.

연구자들의 이전 경험과 문헌에 근거하여[30, 31] 각 사이트에서 15~20명의 환자를 모집하면 각 사이트의 데이터를 개별적으로 분석할 때 데이터 포화 상태에 도달할 것으로 예상했습니다. 시간 제약과 일부 재택 간호 서비스에서 간병인을 구하기 어려울 것으로 예상되어 사이트당 7~10명의 간병인을 목표로 설정했습니다. 이를 통해 전체적으로 75-100명의 환자와 35-50명의 간병인을 대상으로 표본을 추출했습니다. (BMJ15).
On the basis of the researchers’ previous experience and the literature, 
[30, 31] we estimated that recruitment of 15–20 patients at each site would achieve data saturation when data from each site were analysed separately. We set a target of seven to 10 caregivers per site because of time constraints and the anticipated difficulty of accessing caregivers at some home based care services. This gave a target sample of 75–100 patients and 35–50 caregivers overall. (BMJ15).

BJHP에서는 시간 또는 재정적 제약(BJHP27 - 포화 섹션의 발췌문 참조, BJHP53), 참여자 응답률(BJHP13), 인터뷰 대상자를 샘플링하는 고정된참여자 풀의 (따라서 제한된) 규모(BJHP18)와 관련된 실용적인 고려 사항을 언급한 논문이 4편 있었습니다.
In the BJHP, four articles mentioned pragmatic considerations relating to time or financial constraints (BJHP27 – see extract in section Saturation; BJHP53), the participant response rate (BJHP13), and the fixed (and thus limited) size of the participant pool from which interviewees were sampled (BJHP18).

우리는 더 이상 데이터를 수집해도 더 이상 주제가 나오지 않는 포화 상태에 도달할 때까지 인터뷰를 계속하는 것을 목표로 삼았습니다. 실제로 연구에 참여하겠다고 자원한 사람의 수에 따라 연구 모집이 중단되는 시점이 결정되었습니다(청소년 15명, 부모 15명). 그럼에도 불구하고 마지막 몇 번의 인터뷰를 통해 개념의 상당한 반복이 발생하여 충분한 샘플링이 이루어졌음을 알 수 있었습니다. (BJHP13).
We had aimed to continue interviewing until we had reached saturation, a point whereby further data collection would yield no further themes. In practice, the number of individuals volunteering to participate dictated when recruitment into the study ceased (15 young people, 15 parents). Nonetheless, by the last few interviews, significant repetition of concepts was occurring, suggesting ample sampling.

마지막으로 세 개의 SHI 논문은 시간 제약 및 프로젝트 관리 가능성(SHI56), 제한된 응답자 및 프로젝트 리소스(SHI131), 시간 제약(SHI113)과 같은 실용적인 측면과 관련하여 표본 규모를 설명했습니다.
Finally, three SHI articles explained their sample size with reference to practical aspects:

  • time constraints and project manageability (SHI56),
  • limited availability of respondents and project resources (SHI131), and
  • time constraints (SHI113).

표본의 크기는 주로 연구를 완료할 수 있는 응답자와 리소스의 가용성에 따라 결정되었습니다. 표본 구성은 가능한 한 맥락적 요인(예: 성별 관계 및 인종)이 질병 경험을 매개하는 방식에 대한 우리의 관심을 반영했습니다. (SHI131).
The size of the sample was largely determined by the availability of respondents and resources to complete the study. Its composition reflected, as far as practicable, our interest in how contextual factors (for example, gender relations and ethnicity) mediated the illness experience.

분석의 질
Qualities of the analysis

이 표본 크기 정당화(전체 정당화 중 8.4%)는 주로 BJHP 기사에서 사용되었으며, 집중적이고 관용적이거나 잠재적으로 초점을 맞춘 분석, 즉 [설명description을 넘어선 분석]에 대해 언급했습니다. 보다 구체적으로, 6개의 논문은 녹취록에 대한 집중적인 분석 및/또는 연구/분석의 관용적 초점을 근거로 표본 크기를 옹호했습니다. 이 중 4개 논문(BJHP02, BJHP19, BJHP24, BJHP47)은 해석적 현상학적 분석(IPA) 접근법을 채택했습니다. 
This sample size justification (8.4% of all justifications) was mainly employed by BJHP articles and referred to an intensive, idiographic and/or latently focused analysis, i.e. that moved beyond description. More specifically, six articles defended their sample size on the basis of an intensive analysis of transcripts and/or the idiographic focus of the study/analysis. Four of these papers (BJHP02; BJHP19; BJHP24; BJHP47) adopted an Interpretative Phenomenological Analysis (IPA) approach.

본 연구에서는 각 참가자의 account을 탐색하기 위한 목적으로 10명의 표본을 사용했습니다(Smith et al., 1999). (BJHP19).
The current study employed a sample of 10 in keeping with the aim of exploring each participant’s account (Smith
 et al., 1999). (BJHP19).

BJHP47은 IPA 접근법 내에서 포화 개념을 명시적으로 포기했습니다. 다른 두 BJHP 논문은 주제 분석을 수행했습니다(BJHP34; BJHP38). 분석 수준 (즉, 피상적 인 설명 분석과 반대되는 잠재적 분석)은 개별 녹취록에 대한 집중적 인 분석이라는 주장과 함께 BJHP38에 의해 정당화로도 호출되었습니다.
BJHP47 explicitly renounced the notion of saturation within an IPA approach. The other two BJHP articles conducted thematic analysis (BJHP34; BJHP38). The level of analysis – i.e. latent as opposed to a more superficial descriptive analysis – was also invoked as a justification by BJHP38 alongside the argument of an intensive analysis of individual transcripts

그 결과 표본 크기는 주제별 분석에 사용되는 표본 크기 범위의 하위에 속했습니다(Braun & Clarke, 2013). 이는 각 녹취록에 대한 [상당한 성찰, 대화 및 시간을 확보하기 위한 것]으로, 피상적인 서술적 분석이 아닌 근본적인 아이디어를 파악하기 위해 사용된 [보다 잠재적인 수준의 분석]에 부합하는 것이었습니다(Braun & Clarke, 2006). (BJHP38).
The resulting sample size was at the lower end of the range of sample sizes employed in thematic analysis (Braun & Clarke, 2013). This was in order to enable significant reflection, dialogue, and time on each transcript and was in line with the more latent level of analysis employed, to identify underlying ideas, rather than a more superficial descriptive analysis (Braun & Clarke, 2006).

마지막으로, 한 BMJ 논문(BMJ21)은 [분석 작업의 복잡성]을 언급하며 표본 규모를 옹호했습니다.
Finally, one BMJ paper (BMJ21) defended its sample size with reference to the complexity of the analytic task.

인터뷰의 깊이와 기간, 데이터의 풍부함, 분석 작업의 복잡성 때문에 30~35명의 인터뷰에 도달했을 때 모집을 중단했습니다. (BMJ21).
We stopped recruitment when we reached 30–35 interviews, owing to the depth and duration of interviews, richness of data, and complexity of the analytical task.

샘플링 요건 충족
Meet sampling requirements

표본 추출 요건 충족(전체 정당화 이유 중 7.2%)은 두 개의 BMJ 논문과 네 개의 SHI 논문에서 표본 크기를 설명하기 위해 사용한 또 다른 논거였습니다. 특정 인터뷰 대상자 특성 측면에서 [최대 변동 샘플링을 달성]하는 것이 두 개의 BMJ 연구(BMJ02, BMJ16 - 연구 설계 요건 충족 섹션의 발췌문 참조)의 표본 규모를 결정하고 설명했습니다.
Meeting sampling requirements (7.2% of all justifications) was another argument employed by two BMJ and four SHI articles to explain their sample size. Achieving maximum variation sampling in terms of specific interviewee characteristics determined and explained the sample size of two BMJ studies (BMJ02; BMJ16 – see extract in section Meet research design requirements).

연령, 성별, 인종, 출석 빈도, 건강 상태의 다양성에 대한 샘플링 프레임 요건이 충족될 때까지 모집을 계속했습니다. (BMJ02).
Recruitment continued until sampling frame requirements were met for diversity in age, sex, ethnicity, frequency of attendance, and health status.

SHI 논문과 관련하여 두 논문에서 표본 추출 전략에 근거하여 표본 수를 설명한 반면(SHI01-포화도 섹션의 발췌문 참조, SHI23), 한 논문에서는 [특정 관심 특성 측면에서 표본 이질성을 확보]하는 데 도움이 되는 표본 추출 요건이 인용되었습니다(SHI127).
Regarding the SHI articles, two papers explained their numbers on the basis of their sampling strategy (SHI01- see extract in section Saturation; SHI23) whilst sampling requirements that would help attain sample heterogeneity in terms of a particular characteristic of interest was cited by one paper (SHI127).

정량적 연구를 위한 모집 장소와 추가 목적 기준의 조합으로 104건의 2단계 인터뷰가 이루어졌습니다(인터넷(OLC): 21건, 인터넷(FTF): 20건, 체육관(FTF): 23건, HIV 검사(FTF): 20건, HIV 치료(FTF): 20건.). (SHI23).
The combination of matching the recruitment sites for the quantitative research and the additional purposive criteria led to 104 phase 2 interviews (Internet (OLC): 21; Internet (FTF): 20); Gyms (FTF): 23; HIV testing (FTF): 20; HIV treatment (FTF): 20.)

실시된 50건의 인터뷰 중 30건은 스페인어에서 영어로 번역되었습니다. 연구 결과를 도출한 이 30명은 우울증 증상과 교육 수준의 이질성을 고려하여 번역 대상으로 선정되었습니다. (SHI127).
Of the fifty interviews conducted, thirty were translated from Spanish into English. These thirty, from which we draw our findings, were chosen for translation based on heterogeneity in depressive symptomology and educational attainment.

마지막으로, 인터뷰 횟수를 정당화하는 데 사용되지는 않았지만 [표본 추출 요건에 따라 표본 크기를 미리 결정한 논문]이 한 편 있었습니다(SHI10).
Finally, the pre-determination of sample size on the basis of sampling requirements was stated by one article though this was not used to justify the number of interviews (SHI10).

표본 크기 가이드라인
Sample size guidelines

5개의 BJHP 논문(BJHP28, BJHP38 - 분석의 질 섹션의 발췌문 참조, BJHP46, BJHP47, BJHP50 - 포화도 섹션의 발췌문 참조)과 1개의 SHI 논문(SHI73)은 [기존의 표본 크기 가이드라인 또는 연구 전통 내 규범]을 인용하여 표본 크기를 결정하고 이를 정당화하는 데 의존했습니다(전체 정당화 사례의 7.2%).
Five BJHP articles (BJHP28; BJHP38 – see extract in section Qualities of the analysis; BJHP46; BJHP47; BJHP50 – see extract in section Saturation) and one SHI paper (SHI73) relied on citing existing sample size guidelines or norms within research traditions to determine and subsequently defend their sample size (7.2% of all justifications).

표본 크기 가이드라인에서는 20~30건의 인터뷰가 적절하다고 제시했습니다(Creswell, 1998). 면접관과 메모 작성자는 20번의 면접을 완료한 후 주제 포화 상태, 즉 후속 면접에서 새로운 개념이 나오지 않는 지점(Patton, 2002)에 도달했다는 데 동의했습니다. (BJHP28).
Sample size guidelines suggested a range between 20 and 30 interviews to be adequate (Creswell, 1998). Interviewer and note taker agreed that thematic saturation, the point at which no new concepts emerge from subsequent interviews (Patton, 2002), was achieved following completion of 20 interviews.

데이터 포화(새로운 주제가 나오지 않는 지점)에 도달했다고 판단될 때까지 인터뷰를 계속했습니다. 연구자들은 반구조적 인터뷰 접근법을 사용할 때 이론적 포화 상태에 도달할 것으로 예상되는 대략적인 인터뷰 횟수 또는 실제 인터뷰 횟수로 30회를 제안했지만(Morse 2000), 이는 인터뷰 응답자의 이질성 및 탐구하는 문제의 복잡성에 따라 달라질 수 있습니다. (SHI73).
Interviewing continued until we deemed data saturation to have been reached (the point at which no new themes were emerging). Researchers have proposed 30 as an approximate or working number of interviews at which one could expect to be reaching theoretical saturation when using a semi-structured interview approach (Morse 2000), although this can vary depending on the heterogeneity of respondents interviewed and complexity of the issues explored.

기존 연구와 일치
In line with existing research

조사 대상 주제 분야의 출판 문헌의 표본 크기(전체 근거의 3.5%)는 2편의 BMJ 논문에서 자체 표본 크기를 결정하고 방어하기 위한 지침 및 선례로 사용되었습니다(BMJ08; BMJ15 - 실용적 고려 사항 섹션의 발췌문 참조).
Sample sizes of published literature in the area of the subject matter under investigation (3.5% of all justifications) were used by 2 BMJ articles as guidance and a precedent for determining and defending their own sample size (BMJ08; BMJ15 – see extract in section Pragmatic considerations).

연구 범위 내에서 데이터 포화도를 달성하고 충분한 후속 인터뷰를 진행하기 위해 매주 출소 예정인 수감자 목록에서 참가자를 추출하여 목표인 35건에 도달할 때까지 샘플링했으며, 이는 최근 연구[8-10]와 일치합니다. (BMJ08).
We drew participants from a list of prisoners who were scheduled for release each week, sampling them until we reached the target of 35 cases, with a view to achieving data saturation within the scope of the study and sufficient follow-up interviews and in line with recent studies 
[8–10]. (BMJ08).

마찬가지로 BJHP38(분석의 질 섹션의 발췌문 참조)은 표본 크기가 해당 분석 접근법을 사용하는 발표된 연구들의 표본 크기 범위 내에 있다고 주장했습니다.
Similarly, BJHP38 (see extract in section Qualities of the analysis) claimed that its sample size was within the range of sample sizes of published studies that use its analytic approach.

데이터의 풍부함 및 양
Richness and volume of data

BMJ21(분석의 질 섹션의 발췌문 참조)과 SHI32는 표본 크기의 충분성을 정당화하기 위해 수집된 데이터의 풍부함, 상세성, 양(전체 정당화 근거의 2.3%)을 언급했습니다.
BMJ21 (see extract in section Qualities of the analysis) and SHI32 referred to the richness, detailed nature, and volume of data collected (2.3% of all justifications) to justify the sufficiency of their sample size.

우편번호 추출을 통해 연락을 받은 잠재적 인터뷰 대상자가 더 많았음에도 불구하고 10차 인터뷰 이후에는 모집을 중단하고 이 표본 분석에 집중하기로 결정했습니다. 수집된 자료는 상당히 많았고, 연구의 집중적인 특성을 고려할 때 매우 상세했습니다. 또한 인터뷰 대상자들 사이에서 높은 수준의 합의가 이루어지기 시작했고, 어느 시점에서 '이론적 포화'에 도달했는지 또는 예외를 발견하기 위해 얼마나 많은 인터뷰가 필요한지 판단하기는 항상 어렵지만이 소규모 심층 조사의 목표를 충족시키기에 충분하다고 느꼈습니다 (Strauss and Corbin 1990). (SHI32).
Although there were more potential interviewees from those contacted by postcode selection, it was decided to stop recruitment after the 10th interview and focus on analysis of this sample. The material collected was considerable and, given the focused nature of the study, extremely detailed. Moreover, a high degree of consensus had begun to emerge among those interviewed, and while it is always difficult to judge at what point ‘theoretical saturation’ has been reached, or how many interviews would be required to uncover exception(s), it was felt the number was sufficient to satisfy the aims of this small in-depth investigation (Strauss and Corbin 1990).

연구 설계 요건 충족
Meet research design requirements

본 연구에서 채택한 연구 설계의 요건에 부합하는 표본 크기 결정(전체 정당화의 2.3%)은 2편의 BMJ 논문(BMJ16, BMJ08 - 기존 연구와 일치하는 섹션의 발췌문 참조)에서 사용된 또 다른 정당화였습니다.
Determination of sample size so that it is in line with, and serves the requirements of, the research design (2.3% of all justifications) that the study adopted was another justification used by 2 BMJ papers (BMJ16; BMJ08 – see extract in section In line with existing research).

우리는 다양한 사회적 배경과 인종, 다양한 유형의 자살 및 외상성 사망으로 인한 유가족으로 구성된 총 80명의 응답자[20]를 대상으로 다양하고 최대한의 표본을 확보하고자 했습니다. 다른 시점에 더 작은 표본을 인터뷰할 수도 있었지만(질적 종단 연구), 대신 수년 전에 유족이 된 사람과 최근에 유족이 된 사람, 다른 환경에 처한 유족과 고인과의 관계가 다른 유족, 영국의 다른 지역에 거주하는 사람, 다른 지원 시스템과 검시관 절차를 가진 사람들을 인터뷰하여 광범위한 경험을 추구하기로 결정했습니다(자세한 내용은 표 1과 2 참조). (BMJ16).
We aimed for diverse, maximum variation samples 
[20] totalling 80 respondents from different social backgrounds and ethnic groups and those bereaved due to different types of suicide and traumatic death. We could have interviewed a smaller sample at different points in time (a qualitative longitudinal study) but chose instead to seek a broad range of experiences by interviewing those bereaved many years ago and others bereaved more recently; those bereaved in different circumstances and with different relations to the deceased; and people who lived in different parts of the UK; with different support systems and coroners’ procedures (see Tables 1 and 2 for more details). (BMJ16).

연구자의 이전 경험
Researchers’ previous experience

연구자의 이전 경험(질적 연구 경험일 수 있음)은 BMJ15(실용적 고려 사항 섹션의 발췌문 참조)에서 표본 크기 결정의 근거로 사용되었습니다.
The researchers’ previous experience (possibly referring to experience with qualitative research) was invoked by BMJ15 (see extract in section Pragmatic considerations) as a justification for the determination of sample size.

연구의 성격
Nature of study

한 BJHP 논문에서는 표본 크기가 연구의 탐색적 성격에 적합하다고 주장했습니다(BJHP38).
One BJHP paper argued that the sample size was appropriate for the exploratory nature of the study (BJHP38).

이 연구의 탐구적 성격과 주제에 대한 근본적인 아이디어를 파악하는 데 중점을 두었기 때문에 8명의 참가자 표본이 적절한 것으로 간주되었습니다. (BJHP38).
A sample of eight participants was deemed appropriate because of the exploratory nature of this research and the focus on identifying underlying ideas about the topic.

조사 결과의 일관성을 확인하기 위한 추가 샘플링
Further sampling to check findings consistency

마지막으로, SHI112는 담론 패턴의 포화 상태에 도달한 후, 연구 결과의 일관성을 확인하기 위해 추가 샘플링을 결정하고 수행했다고 주장했습니다.
Finally, SHI112 argued that once it had achieved saturation of discursive patterns, further sampling was decided and conducted to check for consistency of the findings.

연령별로 계층화된 각 그룹 내에서 담화 패턴의 포화 상태에 도달할 때까지 무작위로 인터뷰를 샘플링했습니다. 그 결과 67개의 인터뷰 샘플이 도출되었습니다. 이 샘플을 분석한 후, 연령별로 세분화된 각 그룹에서 무작위로 한 개의 인터뷰를 추가로 선정하여 조사 결과의 일관성을 확인했습니다. 이러한 접근 방식을 통해 주제 영역에서 '나', 주체성, 관계성, 권력에 대한 아동의 담론을 보다 주의 깊게 살펴볼 수 있었으며, 이 글에서 설명한 미묘한 담론적 변이를 발견할 수 있었습니다. (SHI112).
Within each of the age-stratified groups, interviews were randomly sampled until saturation of discursive patterns was achieved. This resulted in a sample of 67 interviews. Once this sample had been analysed, one further interview from each age-stratified group was randomly chosen to check for consistency of the findings. Using this approach it was possible to more carefully explore children’s discourse about the ‘I’, agency, relationality and power in the thematic areas, revealing the subtle discursive variations described in this article.

표본 크기를 논의하는 구절의 주제별 분석
Thematic analysis of passages discussing sample size

이 분석 결과 두 가지 중요한 주제 영역이 발견되었는데, 첫 번째는 표본 크기 충분성의 특징에 대한 변화, 두 번째는 표본 크기 부족으로 인한 인식된 위협과 관련된 것입니다.
This analysis resulted in two overarching thematic areas; the first concerned the variation in the characterisation of sample size sufficiency, and the second related to the perceived threats deriving from sample size insufficiency.

표본 크기 충분성의 특성
Characterisations of sample size sufficiency

분석 결과, 관련 의견과 논의를 제공한 논문에서 표본 크기에 대한 세 가지 주요 특징이 나타났습니다. 

  • (a) 대다수의 질적 연구(n = 42)는 표본 크기가 '작다'고 간주하고 이를 한계로 보고 논의했으며, 두 논문만이 작은 표본 크기를 바람직하고 적절한 것으로 간주했습니다. 
  • (b) 소수의 논문(n = 4)은 달성한 표본 크기가 '충분하다'고 선언했으며, 
  • (c) 마지막으로 소수의 연구 그룹(n = 5)은 표본 크기가 '크다'고 특징짓고 있었습니다. 

'큰' 표본 크기를 달성하는 것이 보다 풍부한 결과를 도출할 수 있다는 점에서 긍정적으로 여겨지기도 했지만, 표본 크기가 큰 것이 바람직하기보다는 문제가 되는 경우도 있었습니다.
The analysis showed that there were three main characterisations of the sample size in the articles that provided relevant comments and discussion:

  • (a) the vast majority of these qualitative studies (n = 42) considered their sample size as ‘small’ and this was seen and discussed as a limitation; only two articles viewed their small sample size as desirable and appropriate
  • (b) a minority of articles (n = 4) proclaimed that their achieved sample size was ‘sufficient’; and
  • (c) finally, a small group of studies (n = 5) characterised their sample size as ‘large’.

Whilst achieving a ‘large’ sample size was sometimes viewed positively because it led to richer results, there were also occasions when a large sample size was problematic rather than desirable.

'작다'고 하지만 왜 그리고 누구를 위한 것인가?
‘Small’ but why and for whom?

표본 크기가 '작다'고 명시한 다수의 논문은 암시적이거나 명시적인 정량적 기준 프레임워크에 반하는 결과를 초래했습니다. 흥미로운 점은 표본 크기로 데이터 포화도 또는 '이론적 충분성'을 달성했다고 주장한 3건의 연구에서 '작은' 표본 크기에 대해 논의하거나 한계로 지적했는데, 포화도의 질적 기준이 충족된 상황에서 [왜, 또는 누구를 위해 표본 크기가 작은 것으로 간주했는지에 대한 의문]을 가지게 한다.
A number of articles which characterised their sample size as ‘small’ did so against an implicit or explicit quantitative framework of reference. Interestingly, three studies that claimed to have achieved data saturation or ‘theoretical sufficiency’ with their sample size, discussed or noted as a limitation in their discussion their ‘small’ sample size, raising the question of why, or for whom, the sample size was considered small given that the qualitative criterion of saturation had been satisfied.

이번 연구에는 여러 가지 한계가 있습니다. 표본 크기가 작았고(n = 11), 새로운 주제가 나타나지 않을 만큼 충분히 컸습니다. (BJHP39).
The current study has a number of limitations. The sample size was small (n = 11) and, however, large enough for no new themes to emerge.

이 연구에는 두 가지 주요 한계가 있습니다. 첫 번째는 연구에 참여한 응답자 수가 적다는 점입니다. (SHI73).
The study has two principal limitations. The first of these relates to the small number of respondents who took part in the study.

다른 기사들은 표본의 크기가 작기 때문에 (비대표성, 편향성, 자기 선택 등 다른 구성적 '결함'과 함께) 표본에 결함이 있음을 인정하고 받아들이거나, 표본 크기가 작다는 이유로 비판을 받을 수 있음을 예상하는 것처럼 보였습니다. [상상 속의 청중(아마도 리뷰어 또는 독자)]은 정량적 연구의 원칙을 고수하는 경향이 있는 사람으로, 작은 표본이 문제가 될 수 있다는 인식을 나타내는 것이 중요한 사람인 것 같았습니다. 표본이 작다는 것은 종종 후회나 사과의 담론으로 포장된 한계로 해석되기도 했습니다.
Other articles appeared to accept and acknowledge that their sample was flawed because of its small size (as well as other compositional ‘deficits’ e.g. non-representativeness, biases, self-selection) or anticipated that they might be criticized for their small sample size. It seemed that the imagined audience – perhaps reviewer or reader – was one inclined to hold the tenets of quantitative research, and certainly one to whom it was important to indicate the recognition that small samples were likely to be problematic. That one’s sample might be thought small was often construed as a limitation couched in a discourse of regret or apology.

간혹 작은 규모를 한계로 표현하는 것은 [실증주의 프레임워크와 정량적 연구를 지지하는 입장]에 명시적으로 부합하는 경우가 있었습니다.
Very occasionally, the articulation of the small size as a limitation was explicitly aligned against an espoused positivist framework and quantitative research.

이 연구에는 몇 가지 한계가 있습니다. 첫째, 100건의 사건 샘플은 매년 발생하는 전체 심각한 사건 중 극히 일부에 불과합니다.26 우리는 전국적으로 초대장을 보냈지만 더 많은 사람들이 연구에 자원하지 않은 이유를 알 수 없습니다. 그러나 의료 사고에 대한 역학적 지식이 부족하기 때문에 적절한 표본 규모를 결정하는 것은 여전히 어려운 일입니다. (BMJ20).
This study has some limitations. Firstly, the 100 incidents sample represents a small number of the total number of serious incidents that occurs every year.
26 We sent out a nationwide invitation and do not know why more people did not volunteer for the study. Our lack of epidemiological knowledge about healthcare incidents, however, means that determining an appropriate sample size continues to be difficult. (BMJ20).

양적 세계와 질적 세계를 구분하는 다양한 요건과 프로토콜 사이에서 [질적 연구자들이 명백하게 오락가락하고 있음]을 나타내는 몇 가지 사례에서, '작은' 표본 크기를 한계로 잠시 인정한 후, 경험의 복잡성을 포착하고 관용적으로 탐구하는 능력과 성공, 특히 풍부한 데이터를 생성하는 등 보다 질적인 근거로 연구를 옹호하는 논문이 있었습니다.
Indicative of an apparent oscillation of qualitative researchers between the different requirements and protocols demarcating the quantitative and qualitative worlds, there were a few instances of articles which briefly recognised their ‘small’ sample size as a limitation, but then defended their study on more qualitative grounds, such as their ability and success at capturing the complexity of experience and delving into the idiographic, and at generating particularly rich data.

이 연구는 규모는 제한적이지만 소득과 물질적 상황에 관한 남성의 태도와 경험에 내재된 복잡성을 포착하려고 노력했습니다. (SHI35).
This research, while limited in size, has sought to capture some of the complexity attached to men’s attitudes and experiences concerning incomes and material circumstances.

소셜 네트워크에 대한 접근을 협상하는 것이 느리고 노동 집약적이기 때문에 우리의 숫자는 적지만, 우리의 방법은 매우 풍부한 데이터를 생성했습니다. (BMJ21).
Our numbers are small because negotiating access to social networks was slow and labour intensive, but our methods generated exceptionally rich data.

이 연구는 대표성이 없는 소규모 표본을 사용했다는 비판을 받을 수 있습니다. 선탠에 관한 연구에서 노년층이 무시되어 왔고, 피부가 고운 노년층이 피부암을 경험할 가능성이 가장 높으며, 여성은 일광욕을 할 때 건강보다 외모를 우선시한다는 점을 고려할 때, 이번 연구는 연구적 관심이 매우 필요한 인구통계학적 그룹에 대한 깊이 있고 풍부한 데이터를 제공합니다. (SHI57).
This study could be criticised for using a small and unrepresentative sample. Given that older adults have been ignored in the research concerning suntanning, fair-skinned older adults are the most likely to experience skin cancer, and women privilege appearance over health when it comes to sunbathing practices, our study offers depth and richness of data in a demographic group much in need of research attention.

'충분히 좋은' 표본 크기
‘Good enough’ sample sizes

달성한 표본 크기가 충분하다고 어느 정도 [자신감을 표명한 논문]은 4개에 불과했습니다. 예를 들어, SHI139는 주제 포화도에 대한 정당성을 제시하면서 낮은 응답률에도 불구하고 표본 크기의 충분성에 대한 신뢰를 표명했습니다. 마찬가지로 표본 크기의 정당성을 제시하지 않은 BJHP04는 낮은 응답률이 예상되었기 때문에 결국 충분한 수의 인터뷰 대상자를 모집하기 위해 더 큰 표본 크기를 목표로 삼았다고 주장했습니다.
Only four articles expressed some degree of confidence that their achieved sample size was sufficient. For example, SHI139, in line with the justification of thematic saturation that it offered, expressed trust in its sample size sufficiency despite the poor response rate. Similarly, BJHP04, which did not provide a sample size justification, argued that it targeted a larger sample size in order to eventually recruit a sufficient number of interviewees, due to anticipated low response rate.

대상 모집단 133명 중 23명(즉, 17.3%)의 제1형 당뇨병 환자가 참여에 동의했지만 4명은 이후 추가 연락에 응답하지 않았습니다(총 N = 19). 해당 연령대의 젊은이들의 바쁜 라이프스타일, 지리적 제약, 반구조화된 인터뷰 참여에 필요한 시간으로 인해 상대적으로 낮은 응답률이 예상되었기 때문에 더 많은 대상 표본을 통해 충분한 수의 참가자를 모집할 수 있었습니다. (BJHP04).
Twenty-three people with type I diabetes from the target population of 133 (
i.e. 17.3%) consented to participate but four did not then respond to further contacts (total N = 19). The relatively low response rate was anticipated, due to the busy life-styles of young people in the age range, the geographical constraints, and the time required to participate in a semi-structured interview, so a larger target sample allowed a sufficient number of participants to be recruited. (BJHP04).

다른 두 논문(BJHP35, SHI32)은 연구의 범위(즉, '소규모 심층 조사'), 목적 및 성격(즉, '탐색적')에 따라 충분하다고 주장한 표본 수를 연구의 특정 맥락과 연결시켰습니다. 그럼에도 불구하고 표본 크기가 충분하다는 주장은 표본 크기가 클수록 과학적으로 더 생산적이라는 인정과 병치될 때 때때로 약화되었습니다.
Two other articles (BJHP35; SHI32) linked the claimed sufficiency to the scope (i.e. ‘small, in-depth investigation’), aims and nature (i.e. ‘exploratory’) of their studies, thus anchoring their numbers to the particular context of their research. Nevertheless, claims of sample size sufficiency were sometimes undermined when they were juxtaposed with an acknowledgement that a larger sample size would be more scientifically productive.

이 탐색적 연구에는 표본 규모가 충분했지만, 사회경제적 지위가 낮고 인종적 다양성이 더 많은 참가자를 포함하여 더 다양한 표본을 확보하면 더 많은 정보를 얻을 수 있을 것입니다. 또한 표본이 더 크면 더 다양한 플랫폼에서 운영되는 더 많은 대표 앱을 포함할 수 있습니다. (BJHP35).
Although our sample size was sufficient for this exploratory study, a more diverse sample including participants with lower socioeconomic status and more ethnic variation would be informative. A larger sample could also ensure inclusion of a more representative range of apps operating on a wider range of platforms.

'대규모' 표본 크기 - 약속인가 위험인가?
‘Large’ sample sizes - Promise or peril?

포화도에 대한 정당성을 제공한 세 논문(BMJ13, BJHP05, BJHP48)은 모두 표본 크기가 '크다'고 특징짓고, 이러한 불충분성이 더 풍부한 데이터와 연구 결과를 제공하고 일반화 가능성을 높인다는 긍정적인 측면을 설명했습니다. 그러나 일반화 유형(BJHP48)은 더 이상 명시되지 않았습니다. 
Three articles (BMJ13; BJHP05; BJHP48) which all provided the justification of saturation, characterised their sample size as ‘large’ and narrated this oversufficiency in positive terms as it allowed richer data and findings and enhanced the potential for generalisation. The type of generalisation aspired to (BJHP48) was not further specified however.

이 연구는 중요하지만 연구가 부족한 주제에 대해 비교적 많은 전문가 정보 제공자 표본이 제공한 풍부한 데이터를 사용했습니다. (BMJ13).
This study used rich data provided by a relatively large sample of expert informants on an important but under-researched topic.

질적 연구는 환자의 관점에서 임상 문제를 이해할 수 있는 독특한 기회를 제공합니다. 이 연구는 다양한 지역에서 모집된 대규모의 다양한 표본을 사용했으며 심층 인터뷰를 통해 결과의 풍부함과 일반화 가능성을 높였습니다. (BJHP48).
Qualitative research provides a unique opportunity to understand a clinical problem from the patient’s perspective. This study had a large diverse sample, recruited through a range of locations and used in-depth interviews which enhance the richness and generalizability of the results.

일부 질적 연구자들은 '큰' 표본 규모를 지지하고 중요하게 생각하지만, IPA의 심리학 전통에서는 '큰' 표본 규모는 규범에 반하는 것이므로 정당화될 필요가 있었습니다. IPA를 채택한 4건의 BJHP 연구는 모두 ['작은' 표본 크기의 적절성 또는 바람직성]을 표명하거나(BJHP41; BJHP45), 일반적인 표본 크기보다 더 큰 표본 크기를 포함하는 이유를 서둘러 설명했습니다(BJHP32; BJHP47). 예를 들어, 아래의 BJHP32는 IPA 연구에서 어떻게 큰 표본 크기를 수용할 수 있는지, 그리고 이것이 실제로 특정 연구 목적에 어떻게 적합한지에 대한 근거를 제공합니다. 비규범적 표본 크기 선택에 대한 설명을 강화하기 위해 유사한 표본 크기 접근법을 인용한 이전 IPA 연구를 선례로 사용합니다.
And whilst a ‘large’ sample size was endorsed and valued by some qualitative researchers, within the psychological tradition of IPA, a ‘large’ sample size was counter-normative and therefore needed to be justified. Four BJHP studies, all adopting IPA, expressed the appropriateness or desirability of ‘small’ sample sizes (BJHP41; BJHP45) or hastened to explain why they included a larger than typical sample size (BJHP32; BJHP47). For example, BJHP32 below provides a rationale for how an IPA study can accommodate a large sample size and how this was indeed suitable for the purposes of the particular research. To strengthen the explanation for choosing a non-normative sample size, previous IPA research citing a similar sample size approach is used as a precedent.

소규모 IPA 연구는 대규모 표본으로는 불가능한 심층 분석을 가능하게 합니다(Smith et al., 2009). (BJHP41).
Small scale IPA studies allow in-depth analysis which would not be possible with larger samples (Smith
 et al., 2009). (BJHP41).

IPA는 일반적으로 소수의 트랜스크립트를 집중적으로 조사하지만, 이번 연구는 (우리가 아는 한) 영국에서 이 집단에 대한 최초의 질적 연구이고 개요를 얻고자 했기 때문에 더 다양한 표본을 모집하기로 결정했습니다. 실제로 스미스, 플라워스, 라킨(2009)은 IPA가 대규모 집단에 적합하다는 데 동의합니다. 그러나 심층적인 개인주의적 분석에서 한 그룹의 사람들이 공유한 경험에서 공통된 주제를 도출하고 이를 통해 인터뷰에서 드러나는 주제 간의 관계망을 이해하는 데 사용할 수 있는 분석으로 강조점이 바뀝니다. 이 대규모 IPA 형식은 오탐 연구 분야의 다른 연구자들에 의해 사용되었습니다. 베일리, 스미스, 휴이슨, 메이슨(2000)은 24명의 참가자를 대상으로 염색체 이상에 대한 초음파 검사에 대한 IPA 연구를 수행했으며, 참가자의 수가 많을수록 더 정교하고 일관된 설명을 도출할 수 있다는 사실을 발견했습니다. (BJHP32).
Although IPA generally involves intense scrutiny of a small number of transcripts, it was decided to recruit a larger diverse sample as this is the first qualitative study of this population in the United Kingdom (as far as we know) and we wanted to gain an overview. Indeed, Smith, Flowers, and Larkin (2009) agree that IPA is suitable for larger groups. However, the emphasis changes from an in-depth individualistic analysis to one in which common themes from shared experiences of a group of people can be elicited and used to understand the network of relationships between themes that emerge from the interviews. This large-scale format of IPA has been used by other researchers in the field of false-positive research. Baillie, Smith, Hewison, and Mason (2000) conducted an IPA study, with 24 participants, of ultrasound screening for chromosomal abnormality; they found that this larger number of participants enabled them to produce a more refined and cohesive account.

BJHP에서 발견된 IPA 논문은 '작은' 표본 규모를 옹호하고 '큰' 표본 규모를 문제 삼고 옹호한 유일한 사례입니다. 이러한 IPA 연구는 표본 크기 충분성의 특성화가 '객관적인' 표본 크기 평가의 결과라기보다는 연구자의 이론적, 인식론적 약속의 함수일 수 있음을 보여줍니다. 
The IPA articles found in the BJHP were the only instances where a ‘small’ sample size was advocated and a ‘large’ sample size problematized and defended. These IPA studies illustrate that the characterisation of sample size sufficiency can be a function of researchers’ theoretical and epistemological commitments rather than the result of an ‘objective’ sample size assessment.

표본 크기 불충분으로 인한 위협
Threats from sample size insufficiency

위에서 살펴본 바와 같이, 표본 크기에 대해 언급하는 대부분의 논문은 동시에 [표본 크기가 작고 문제가 있다]고 지적했습니다. 저자가 단순히 '작은' 표본 규모를 연구의 한계로 언급하는 것이 아니라 작은 표본 규모가 어떻게 그리고 왜 문제가 되는지에 대한 설명을 이어가는 경우, 연구의 두 가지 중요한 과학적 특성인 결과의 일반화 가능성과 타당성이 위협을 받는 것으로 보였습니다.
As shown above, the majority of articles that commented on their sample size, simultaneously characterized it as small and problematic. On those occasions that authors did not simply cite their ‘small’ sample size as a study limitation but rather continued and provided an account of how and why a small sample size was problematic, two important scientific qualities of the research seemed to be threatened: the generalizability and validity of results.

일반화 가능성

표본이 '작다'고 응답한 사람들은 이를 [결과의 일반화 가능성이 제한적이라는 점]과 연결지었습니다. 표본과 관련된 다른 특징들(종종 일종의 구성적 특수성)도 [일반화 가능성의 제한]과 관련이 있었습니다. 논문에서 어떤 형태의 일반화를 언급했는지 항상 명시적으로 표현된 것은 아니지만(BJHP09 참조), 일반화는 대부분 명목상의 개념, 즉 표본에서 더 넓은 연구 집단('대표성 일반화' - BJHP31 참조)으로 추론할 수 있는 가능성과 관련된 것이었고 다른 집단이나 문화에 대한 일반화는 덜 자주 언급되었습니다. 
Those who characterised their sample as ‘small’ connected this to the limited potential for generalization of the results. Other features related to the sample – often some kind of compositional particularity – were also linked to limited potential for generalisation. Though not always explicitly articulated to what form of generalisation the articles referred to (see BJHP09), generalisation was mostly conceived in nomothetic terms, that is, it concerned the potential to draw inferences from the sample to the broader study population (‘representational generalisation’ – see BJHP31) and less often to other populations or cultures.

표본이 적고 두 그룹 모두 대상 여성의 대다수가 참여했지만 일반화 가능성을 가정할 수 없다는 점에 유의해야 합니다. (BJHP09).
It must be noted that samples are small and whilst in both groups the majority of those women eligible participated, generalizability cannot be assumed.

이 연구의 한계를 인정해야 합니다: 상대적으로 소수의 참가자와의 인터뷰를 통해 얻은 데이터이므로 모든 환자와 임상의에게 일반화할 수 있는 것은 아닙니다. 특히 환자는 일반적으로 COFP 진단이 확인되는 2차 진료 서비스에서만 모집되었습니다. 따라서 이 표본은 전체 환자, 특히 치과 서비스에 의뢰되지 않았거나 퇴원한 환자를 대표하지 않을 가능성이 높습니다. (BJHP31).
The study’s limitations should be acknowledged: Data are presented from interviews with a relatively small group of participants, and thus, the views are not necessarily generalizable to all patients and clinicians. In particular, patients were only recruited from secondary care services where COFP diagnoses are typically confirmed. The sample therefore is unlikely to represent the full spectrum of patients, particularly those who are not referred to, or who have been discharged from dental services.

일반화라는 용어를 명시적으로 사용하지 않았지만, 두 개의 SHI 논문은 '작은' 표본 크기가 '참여자의 설명으로부터 추정할 수 있는 범위'(SHI114) 또는 '결과로부터 광범위한 결론을 도출할 수 있는 가능성'(SHI124)에 제한을 가한다고 언급했습니다.
Without explicitly using the term generalisation, two SHI articles noted how their ‘small’ sample size imposed limits on ‘the extent that we can extrapolate from these participants’ accounts’ (SHI114) or to the possibility ‘to draw far-reaching conclusions from the results’ (SHI124).

흥미롭게도 소수의 논문만이 [질적 연구와 일치하는 일반화 유형], 즉 [관용적 일반화](즉, 사례로부터 그리고 사례에 대해 만들 수 있는 일반화[5])를 암시하거나 언급했습니다. 모두 사회학 분야에 발표된 이 논문들은 '작은' 규모에도 불구하고 다른 맥락에 대한 논리적, 개념적 추론을 이끌어내고 지식을 발전시킬 수 있는 잠재력을 가진 이해를 생성할 수 있다는 측면에서 연구 결과를 옹호했습니다. 한 논문(SHI139)은 [명목적(통계적) 일반화]와 [관용적 일반화]를 명확하게 대조하면서, 통계적 일반화 가능성이 부족하다고 해서 질적 연구의 연구 표본을 넘어서는 관련성이 무효화되지는 않는다고 주장했습니다.
Interestingly, only a minority of articles alluded to, or invoked, a type of generalisation that is aligned with qualitative research, that is, idiographic generalisation (i.e. generalisation that can be made from and about cases [5]). These articles, all published in the discipline of sociology, defended their findings in terms of the possibility of drawing logical and conceptual inferences to other contexts and of generating understanding that has the potential to advance knowledge, despite their ‘small’ size. One article (SHI139) clearly contrasted nomothetic (statistical) generalisation to idiographic generalisation, arguing that the lack of statistical generalizability does not nullify the ability of qualitative research to still be relevant beyond the sample studied.

또한 이러한 데이터는 의료화 분석을 발전시킬 수 있는 추론을 도출하기 위해 통계적으로 일반화할 수 있는 데이터일 필요는 없습니다(Charmaz 2014). 이러한 데이터는 추가적인 가설을 생성할 수 있는 기회로 볼 수 있으며 의료화 프레임워크의 고유한 적용입니다. (SHI139).
Further, these data do not need to be statistically generalisable for us to draw inferences that may advance medicalisation analyses (Charmaz 2014). These data may be seen as an opportunity to generate further hypotheses and are a unique application of the medicalisation framework.

이 분석은 학교 상담과 관련된 소규모 질적 연구이지만 청소년의 정신 건강 관련 자원의 성공적인 활용에 대한 사례 연구로 유용하게 간주 될 수 있습니다. 탐구된 많은 문제가 보다 일반적으로 정신건강 낙인과 관련이 있기 때문에 성인의 서비스 참여에 대한 통찰력도 제공할 수 있습니다. 포지셔닝 이론을 사용하여 사람들이 정신 건강 문제와 관련하여 낙인을 협상하고 부분적으로 받아들이고 동시에 저항하는 방법을 조사하는 사회학적 분석이 정신 건강 서비스 격차를 유지하고 해소할 수 있는 사회적 과정과 내러티브 구성을 설명하는 데 어떻게 기여할 수 있는지를 보여줍니다. (SHI103).
Although a small-scale qualitative study related to school counselling, this analysis can be usefully regarded as a case study of the successful utilisation of mental health-related resources by adolescents. As many of the issues explored are of relevance to mental health stigma more generally, it may also provide insights into adult engagement in services. It shows how a sociological analysis, which uses positioning theory to examine how people negotiate, partially accept and simultaneously resist stigmatisation in relation to mental health concerns, can contribute to an elucidation of the social processes and narrative constructions which may maintain as well as bridge the mental health service gap.

단 한 편의 논문(SHI30)에서만 [전이성]이라는 용어를 사용하여 결과의 더 넓은 관련성 가능성을 주장했는데, 이는 표본의 크기보다는 표본 구성(즉, 다양한 표본)의 산물이라고 생각됩니다.
Only one article (SHI30) used the term transferability to argue for the potential of wider relevance of the results which was thought to be more the product of the composition of the sample (i.e. diverse sample), rather than the sample size.


'작은' 표본 크기로 인해 발생한 두 번째 주요 우려는 연구 결과의 [내적 타당성(여기서 이 용어는 연구 결과의 '진실성' 또는 신뢰성을 나타내는 데 사용됨)]과 관련이 있습니다. 저자들은 연구 결과의 특정 측면이나 패턴에 대한 신뢰도에 대해 불확실성을 표명했는데, 주로 관련 참가자 특성에 따른 어떤 형태의 차별화와 관련된 것이었습니다.
The second major concern that arose from a ‘small’ sample size pertained to the internal validity of findings (i.e. here the term is used to denote the ‘truth’ or credibility of research findings). Authors expressed uncertainty about the degree of confidence in particular aspects or patterns of their results, primarily those that concerned some form of differentiation on the basis of relevant participant characteristics.

선호하는 정보 출처는 부모의 교육 수준에 따라 달라지는 것으로 보였으나, 표본 크기가 너무 작아 이러한 패턴에 대한 결론을 도출하기는 어려웠습니다. (SHI80).
The information source preferred seemed to vary according to parents’ education; however, the sample size is too small to draw conclusions about such patterns.

표본 수가 너무 적어 성별 차이를 확실하게 입증하기는 어려웠지만, 남성의 계정에서는 생의학 및 에로틱한 스크립트가, 여성의 계정에서는 관계적인 스크립트가 더 흔한 것으로 보입니다. (SHI81).
Although our numbers were too small to demonstrate gender differences with any certainty, it does seem that the biomedical and erotic scripts may be more common in the accounts of men and the relational script more common in the accounts of women.

다른 사례에서는 연구 결과가 조사 대상 현상의 전체 스펙트럼과 변이를 설명하는지 여부에 대해 불확실성을 표명하는 기사도 있었습니다. 즉, '작은' 표본 크기(통계적으로 대표적이지 않은 표본과 같은 구성적 '결함'과 함께)가 결과의 '내용 타당성'을 위협하는 것으로 간주되어 연구 결론을 잠정적인 것으로 구성하게 된 것입니다.
In other instances, articles expressed uncertainty about whether their results accounted for the full spectrum and variation of the phenomenon under investigation. In other words, a ‘small’ sample size (alongside compositional ‘deficits’ such as a not statistically representative sample) was seen to threaten the ‘content validity’ of the results which in turn led to constructions of the study conclusions as tentative.

데이터 수집은 새로운 정보를 얻지 못했을 때(즉, 포화 지점)가 아니라 실용적인 이유로 중단되었습니다. 따라서 연구 결과를 과장하지 않도록 주의해야 합니다. 초기 인터뷰의 주제가 이후 인터뷰에서도 반복되는 것처럼 보였지만, 추가 인터뷰를 통해 추가 주제가 확인되거나 더 미묘한 설명이 제공되었을 수 있습니다. (BJHP53).
Data collection ceased on pragmatic grounds rather than when no new information appeared to be obtained (
i.e., saturation point). As such, care should be taken not to overstate the findings. Whilst the themes from the initial interviews seemed to be replicated in the later interviews, further interviews may have identified additional themes or provided more nuanced explanations. (BJHP53).

...이 연구는 결혼 생활을 지속하고 있는 부부 중 자체적으로 선택한 소수의 표본을 기반으로 한 것으로, 전체 인구를 대표하지 않는다는 점을 인정해야 합니다. 따라서 참가자들이 산후 외상 후 스트레스 장애를 경험하는 부부를 대표하지 않을 수 있습니다. 따라서 모든 주요 주제가 확인되고 탐구되지 않았을 가능성이 있습니다. 예를 들어, 남성 파트너가 참여를 거부하여 연구에서 제외 된 부부는 대인 관계에 더 큰 어려움을 겪고 있었을 수 있습니다. (BJHP03).
…it should be acknowledged that this study was based on a small sample of self-selected couples in enduring marriages who were not broadly representative of the population. Thus, participants may not be representative of couples that experience postnatal PTSD. It is therefore unlikely that all the key themes have been identified and explored. For example, couples who were excluded from the study because the male partner declined to participate may have been experiencing greater interpersonal difficulties.

표본 규모가 '작다'는 사실을 인지했음에도 불구하고 연구 결과의 신뢰성을 어느 정도 유지하려고 시도한 논문도 있었습니다. 새로운 주제의 명확성과 선명성, 이전의 관련 연구와의 일치성 등이 결과의 타당성을 보증하기 위해 사용된 논거였습니다.
In other instances, articles attempted to preserve a degree of credibility of their results, despite the recognition that the sample size was ‘small’. Clarity and sharpness of emerging themes and alignment with previous relevant work were the arguments employed to warrant the validity of the results.

이 연구는 정서 장애 환자의 영국계 중국인 간병인을 대상으로 질적 방법론을 사용하여 이 커뮤니티 내에서 질병에 대한 사회문화적 표현을 종합하는 데 중점을 두었습니다. 작은 표본 규모에도 불구하고 이 탐색적 조사에 충분한 내러티브에서 명확한 주제가 나타났습니다. (SHI98).
This study focused on British Chinese carers of patients with affective disorders, using a qualitative methodology to synthesise the sociocultural representations of illness within this community. Despite the small sample size, clear themes emerged from the narratives that were sufficient for this exploratory investigation.


본 연구는 건강 관련 연구에서 질적 표본 크기가 어떻게 특징화되고 정당화되는지 살펴보고자 했습니다. 이전 연구[22, 30, 33, 34]와 마찬가지로 본 연구 결과는 표본 크기의 충분성에 대한 보고가 제한적이라는 것을 보여줍니다. BMJ와 BJHP의 논문 중 50% 이상, SHI의 82%는 [표본 크기의 정당성을 제공하지 않았습니다]. 표본 크기의 정당성을 제공하는 것은 수행된 인터뷰의 수와는 관련이 없었지만, 논문이 게재된 저널과 관련이 있었으며, 이는 선행 연구[30]에서도 보고된 바 있는 징계 또는 출판 규범의 영향을 나타냅니다. 대부분의 질적 연구자들이 표본 크기의 충분성이 연구의 질을 나타내는 중요한 지표라는 데 동의한다는 점을 고려할 때, [표본 크기의 충분성에 대한 투명성 부족]은 문제가 됩니다[56, 57]. 또한 사회과학 분야에서 질적 연구가 증가함에 따라 기존 증거를 종합하고 그 품질을 평가하려는 노력이 부실한 보고로 인해 방해를 받고 있습니다[58, 59]. 
The present study sought to examine how qualitative sample sizes in health-related research are characterised and justified. In line with previous studies [22, 30, 33, 34] the findings demonstrate that reporting of sample size sufficiency is limited; just over 50% of articles in the BMJ and BJHP and 82% in the SHI did not provide any sample size justification. Providing a sample size justification was not related to the number of interviews conducted, but it was associated with the journal that the article was published in, indicating the influence of disciplinary or publishing norms, also reported in prior research [30]. This lack of transparency about sample size sufficiency is problematic given that most qualitative researchers would agree that it is an important marker of quality [56, 57]. Moreover, and with the rise of qualitative research in social sciences, efforts to synthesise existing evidence and assess its quality are obstructed by poor reporting [58, 59].

저자들이 표본 크기를 정당화할 때, 연구 결과에 따르면 [표본 크기 결정에 대한 일반적인 조언]과 일치하여 [연구에 내재된 특징을 기준]으로 [충분성을 평가]하는 경우가 대부분이었습니다[4, 11, 36].

  • 포화의 원칙은 전체 정당화의 55%를 차지하며 가장 일반적으로 호출된 논거였습니다[22]. 포화라는 용어의 의미가 확산되고[49] 포화에 대한 다양한 기본 개념 또는 모델이 반영되는 것을 입증하는 다양한 변형이 분명히 존재했습니다[20]. 그럼에도 불구하고, [포화 상태에 대한 주장]은 [연구 자체에서 수행된 절차]와 관련하여 입증되지 않았으며, 이는 문헌에서 유사한 관찰을 뒷받침합니다 [25, 30, 47]. 포화 상태에 대한 주장은 때때로 다른 문헌의 인용으로 뒷받침되었는데, 이는 당면한 연구의 특성에서 벗어나 개념을 제거했음을 시사합니다.
  • 자원 제약이나 참여자 응답률 및 가용성과 같은 [실용적 고려사항]은 두 번째로 많이 사용된 주장으로 정당화의 약 10%를 차지했으며, 정당화의 23%는 연구의 본질적 특성(예: 분석의 질, 샘플링 또는 연구 설계 요건 충족, 얻은 데이터의 풍부함과 양, 연구의 성격, 결과 일관성을 확인하기 위한 추가 샘플링)을 나타냈습니다.

When authors justified their sample size, our findings indicate that sufficiency was mostly appraised with reference to features that were intrinsic to the study, in agreement with general advice on sample size determination [4, 11, 36]. 

  • The principle of saturation was the most commonly invoked argument [22] accounting for 55% of all justifications. A wide range of variants of saturation was evident corroborating the proliferation of the meaning of the term [49] and reflecting different underlying conceptualisations or models of saturation [20]. Nevertheless, claims of saturation were never substantiated in relation to procedures conducted in the study itself, endorsing similar observations in the literature [253047]. Claims of saturation were sometimes supported with citations of other literature, suggesting a removal of the concept away from the characteristics of the study at hand.
  • Pragmatic considerations, such as resource constraints or participant response rate and availability, was the second most frequently used argument accounting for approximately 10% of justifications and another 23% of justifications also represented intrinsic-to-the-study characteristics (i.e. qualities of the analysis, meeting sampling or research design requirements, richness and volume of the data obtained, nature of study, further sampling to check findings consistency).

표본 크기의 정당성에 대한 언급 중 12%만이 기존 표본 크기 가이드라인과 선례를 제시하는 선행 연구 등 [현재 진행 중인 연구와 무관한 외부 논거와 관련된 것]이었습니다.

  • [커뮤니티 규범]과 [선행 연구]는 표본 크기 추정에 유용한 경험 법칙을 수립할 수 있고[60], 연구 커뮤니티 내에서 어떤 크기가 수용될 가능성이 높은지 알려주지만, 연구자는 특히 그러한 가이드라인[예: 30, 35]이 표본 크기의 충분성에 대한 적절한 증거를 제공하지 않는 연구에 근거할 수 있는 경우 이러한 [규범을 무비판적으로 채택하는 것]을 피해야 합니다.
  • 마찬가지로, [포화 달성을 입증하려는 방법론적 연구]는 포화도가 결정되는 매개변수를 설명하고 연구 프로젝트에 더 작은 또는 더 큰 표본이 필요한 시기를 알려주기 때문에 매우 중요하지만[예: 29], 이러한 프로젝트에서 포화가 달성된 구체적인 수치가 다른 프로젝트에 대해 루틴으로 추정될 수 없습니다.

Only, 12% of mentions of sample size justification pertained to arguments that were external to the study at hand, in the form of existing sample size guidelines and prior research that sets precedents.

  • Whilst community norms and prior research can establish useful rules of thumb for estimating sample sizes [60] – and reveal what sizes are more likely to be acceptable within research communities – researchers should avoid adopting these norms uncritically, especially when such guidelines [e.g. 3035], might be based on research that does not provide adequate evidence of sample size sufficiency.
  • Similarly, whilst methodological research that seeks to demonstrate the achievement of saturation is invaluable since it explicates the parameters upon which saturation is contingent and indicates when a research project is likely to require a smaller or a larger sample [e.g. 29], specific numbers at which saturation was achieved within these projects cannot be routinely extrapolated for other projects.

우리는 [당면한 연구의 특성을 고려하는 것]이 표본 크기를 결정하고 그 충분성을 평가하는 주요 지침이 되어야 한다는 기존 견해에 동의합니다[11, 36].

  • 인식론적 및 이론적 접근 방식,
  • 조사 대상 현상의 특성,
  • 연구의 목적과 범위,
  • 데이터의 질과 풍부성,
  • 연구자의 질적 연구 수행 경험과 기술 등 

We concur with existing views [11, 36] that the consideration of the characteristics of the study at hand, such as

  • the epistemological and theoretical approach,
  • the nature of the phenomenon under investigation,
  • the aims and scope of the study,
  • the quality and richness of data, or
  • the researcher’s experience and skills of conducting qualitative research,

...should be the primary guide in determining sample size and assessing its sufficiency.

또한 질적 연구에서 숫자가 중요하지 않은 것은 아니지만[61], [표본 크기는 단독으로 고려되어서는 안 되며], [데이터 적절성]에 대한 보다 포괄적인 검토에 포함되어야 합니다[56, 57]. 에릭슨[62]의 '증거적 적절성' 차원이 여기에 유용합니다. 그는 아래 측면에서 이 개념을 설명합니다. 

  • 증거의 적절한 
  • 증거의 적절한 다양성
  • 증거의 적절한 해석 상태,
  • 적절한 불일치하는 증거
  • 불일치하는 사례 분석의 적절성 

모든 질적 연구 설계에서 모든 차원이 관련성이 있는 것은 아니지만, 이는 표본 규모를 넘어 데이터 적절성 개념의 두께를 보여줍니다.
Moreover, although numbers in qualitative research are not unimportant [61], sample size should not be considered alone but be embedded in the more encompassing examination of data adequacy [56, 57]. Erickson’s [62] dimensions of ‘evidentiary adequacy’ are useful here. He explains the concept in terms of

  • adequate amounts of evidence,
  • adequate variety in kinds of evidence,
  • adequate interpretive status of evidence,
  • adequate disconfirming evidence, and
  • adequate discrepant case analysis.

All dimensions might not be relevant across all qualitative research designs, but this illustrates the thickness of the concept of data adequacy, taking it beyond sample size.

본 연구는 또한 표본 크기가 일반적으로 '작고' 불충분한 것으로 간주되어 한계로 논의되는 것을 보여주었습니다. 종종 정당화되지 않는(그리고 두 사례에서는 포화 상태라는 자체 주장과 모순되는) 이러한 결과는 질적 건강 연구에서 표본 크기가 [암묵적이지만 만연한 준정량적 관점]에 따라 부정적으로 판단(또는 판단될 것으로 예상)되는 경우가 많다는 것을 시사합니다. 실제로 우리 데이터에서 저자가 검토자의 요청에 따라 자신의 [연구 결과를 정량화하는 데 거부감을 드러낸 사례]가 몇 차례 있었습니다. 이러한 암묵적인 기준점은 저자들이 불충분한 표본 크기로 인한 위협에 대해 논의할 때 더욱 분명해졌습니다. 실재주의와 밀접한 관련이 있는 질적 연구 프로젝트가 충분한 폭과 깊이로 현상을 조사하도록 설정되어 있다는 점에서 [내적 타당성에 대한 우려]는 타당할 수 있지만, [일반화 가능성에 대한 우려]는 의도적인 표본 추출과 양립할 수 없는 개념화를 드러냈습니다. 표본 크기가 작기 때문에 일반화 가능성이 제한적이라는 점은 종종 명목상의 통계적 용어로 논의되었습니다. 연구 결과의 가치를 보증하기 위해 분석적 또는 관용적 일반화가 사용된 경우는 드물었습니다[5, 17].
The present research also demonstrated that sample sizes were commonly seen as ‘small’ and insufficient and discussed as limitation. Often unjustified (and in two cases incongruent with their own claims of saturation) these findings imply that sample size in qualitative health research is often adversely judged (or expected to be judged) against an implicit, yet omnipresent, quasi-quantitative standpoint. Indeed there were a few instances in our data where authors appeared, possibly in response to reviewers, to resist to some sort of quantification of their results. This implicit reference point became more apparent when authors discussed the threats deriving from an insufficient sample size.

  • Whilst the concerns about internal validity might be legitimate to the extent that qualitative research projects, which are broadly related to realism, are set to examine phenomena in sufficient breadth and depth, the concerns around generalizability revealed a conceptualisation that is not compatible with purposive sampling.

The limited potential for generalisation, as a result of a small sample size, was often discussed in nomothetic, statistical terms. Only occasionally was analytic or idiographic generalisation invoked to warrant the value of the study’s findings [5, 17].

본 연구의 강점과 한계
Strengths and limitations of the present study

첫째, 검토한 건강 관련 저널의 수가 제한되어 있어 질적 건강 연구의 '스냅샷'만을 포착했다는 점에 유의해야 합니다. 다른 학문 분야(예: 간호학)와 학제 간 저널을 검토하면 본 분석 결과에 더 많은 내용이 추가될 수 있습니다. 그럼에도 불구하고 본 연구는 실증주의의 유산에 대한 애착이 다른 학문 분야를 기반으로 비교 통찰력을 제공하고, 15년이라는 긴 기간에 걸쳐 출판된 문헌을 분석한 최초의 연구입니다. 게터만[27]도 건강 관련 문헌을 조사했지만 이 분석은 5년 동안 가장 많이 인용된 26개의 논문으로 제한되었고, 칼슨과 글렌튼[22]의 연구는 포커스 그룹 건강 연구에 집중했습니다. 또한, 논문의 인식론적 및 이론적 입장과 관련하여 표본 크기의 정당성을 검토하고자 했으나, 관련 정보가 없거나 논문의 입장을 명확히 파악하고[63] 특정 접근 방식(예: 서로 다른 이론적 및 인식론적 전통의 요소를 결합한 연구)에 따라 분류하는 데 어려움이 있었기 때문에 이 작업이 어려웠습니다. 이러한 분석은 표본 크기라는 방법론적 문제를 연구의 광범위한 철학적 입장과 연결시켜 유용한 통찰력을 얻을 수 있다고 생각합니다. 이러한 한계에도 불구하고, 표본 크기의 특징과 불충분한 표본 크기로 인해 발생할 수 있는 위협에 대한 분석은 표본 크기의 (내)충분성 논증에 대한 우리의 이해를 연구의 다른 특징과 연결함으로써 풍부하게 해줍니다. 동료 심사 과정이 점점 더 공개됨에 따라, 향후 연구에서는 표본 크기의 충분성과 데이터의 적절성에 관한 보고가 저자와 심사자 간의 상호작용에 어떤 영향을 받을 수 있는지에 대해 유용하게 검토할 수 있을 것입니다. 
We note, first, the limited number of health-related journals reviewed, so that only a ‘snapshot’ of qualitative health research has been captured. Examining additional disciplines (e.g. nursing sciences) as well as inter-disciplinary journals would add to the findings of this analysis. Nevertheless, our study is the first to provide some comparative insights on the basis of disciplines that are differently attached to the legacy of positivism and analysed literature published over a lengthy period of time (15 years). Guetterman [27] also examined health-related literature but this analysis was restricted to 26 most highly cited articles published over a period of five years whilst Carlsen and Glenton’s [22] study concentrated on focus groups health research. Moreover, although it was our intention to examine sample size justification in relation to the epistemological and theoretical positions of articles, this proved to be challenging largely due to absence of relevant information, or the difficulty into discerning clearly articles’ positions [63] and classifying them under specific approaches (e.g. studies often combined elements from different theoretical and epistemological traditions). We believe that such an analysis would yield useful insights as it links the methodological issue of sample size to the broader philosophical stance of the research. Despite these limitations, the analysis of the characterisation of sample size and of the threats seen to accrue from insufficient sample size, enriches our understanding of sample size (in)sufficiency argumentation by linking it to other features of the research. As the peer-review process becomes increasingly public, future research could usefully examine how reporting around sample size sufficiency and data adequacy might be influenced by the interactions between authors and reviewers.


지난 10년 동안 질적 연구 분야에서 표본 크기 결정과 표본 크기의 충분성 평가에 대한 증거 기반 접근 방식에 대한 욕구가 커졌습니다. 이 분야의 개념적, 방법론적 발전에도 불구하고, 본 연구의 결과는 표본 크기의 충분성에 대한 평가가 부재하거나 제대로 입증되지 않았다는 결론을 내린 이전 연구를 확인시켜 줍니다. 보건 관련 과학에서 질적 연구에 대한 더 많은 인식을 장려하는 고품질 연구를 보장하고 유지하기 위해[64], 우리는 질적 연구자들이 데이터 적절성 평가의 일부로 표본 규모를 더욱 투명하고 철저하게 평가해야 한다고 주장합니다. [당면한 연구를 면밀히 참조]하여 [표본 크기의 충분성을 평가]하는 관행을 권장하며, 따라서 이 분야에서 증가하는 방법론적 연구에 [표본 크기의 수치적 지침, 규범 및 원칙]을 [탈맥락적으로 적용하여 대응하는 것]을 경계합니다

  • [표본 크기 커뮤니티 규범]이 유용한 경험 법칙으로 작용할 수 있지만, 방법론적 지식을 활용하여 표본 크기의 충분성에 영향을 미치는 포화 및 기타 매개변수가 [특정 프로젝트의 세부 사항]과 어떻게 관련되는지 비판적으로 고려할 것을 권장합니다. 
  • [논문을 검토하는 사람들]은 투명한 연구별 보고를 장려하는 데 중요한 역할을 합니다. 
  • [검토 프로세스]는 저자가 표본 크기 충분성에 영향을 미치는 다양한 요인과 특정 연구의 특성을 고려하여 표본 크기 결정에 대한 결정을 내릴 때 미묘한 판단을 내릴 수 있도록 지원해야 합니다. 

이 분야의 방법론적 근거가 점점 더 많아지고 있는 상황에서 이러한 근거에 기반한 판단을 투명하게 제시하는 것은 매우 중요하며, 시간이 지나면 질적 표본의 '작은' 크기를 연구의 한계로 인용하는 일상적인 관행이 사라지게 될 것입니다.

The past decade has seen a growing appetite in qualitative research for an evidence-based approach to sample size determination and to evaluations of the sufficiency of sample size. Despite the conceptual and methodological developments in the area, the findings of the present study confirm previous studies in concluding that appraisals of sample size sufficiency are either absent or poorly substantiated. To ensure and maintain high quality research that will encourage greater appreciation of qualitative work in health-related sciences [64], we argue that qualitative researchers should be more transparent and thorough in their evaluation of sample size as part of their appraisal of data adequacy. We would encourage the practice of appraising sample size sufficiency with close reference to the study at hand and would thus caution against responding to the growing methodological research in this area with a decontextualised application of sample size numerical guidelines, norms and principles.

  • Although researchers might find sample size community norms serve as useful rules of thumb, we recommend methodological knowledge is used to critically consider how saturation and other parameters that affect sample size sufficiency pertain to the specifics of the particular project.
  • Those reviewing papers have a vital role in encouraging transparent study-specific reporting.
  • The review process should support authors to exercise nuanced judgments in decisions about sample size determination in the context of the range of factors that influence sample size sufficiency and the specifics of a particular study.

In light of the growing methodological evidence in the area, transparent presentation of such evidence-based judgement is crucial and in time should surely obviate the seemingly routine practice of citing the ‘small’ size of qualitative samples among the study limitations.



BMC Med Res Methodol. 2018 Nov 21;18(1):148. doi: 10.1186/s12874-018-0594-7.

Characterising and justifying sample size sufficiency in interview-based studies: systematic analysis of qualitative health research over a 15-year period

Affiliations collapse


1Department of Psychology, University of Bath, Building 10 West, Claverton Down, Bath, BA2 7AY, UK.

2Department of Psychology, University of Bath, Building 10 West, Claverton Down, Bath, BA2 7AY, UK.

3School of Psychology, Newcastle University, Ridley Building 1, Queen Victoria Road, Newcastle upon Tyne, NE1 7RU, UK.

4Department of Computer Science, Brunel University London, Wilfred Brown Building 108, Uxbridge, UB8 3PH, UK.

PMID: 30463515

PMCID: PMC6249736

DOI: 10.1186/s12874-018-0594-7


Background: Choosing a suitable sample size in qualitative research is an area of conceptual debate and practical uncertainty. That sample size principles, guidelines and tools have been developed to enable researchers to set, and justify the acceptability of, their sample size is an indication that the issue constitutes an important marker of the quality of qualitative research. Nevertheless, research shows that sample size sufficiency reporting is often poor, if not absent, across a range of disciplinary fields.

Methods: A systematic analysis of single-interview-per-participant designs within three health-related journals from the disciplines of psychology, sociology and medicine, over a 15-year period, was conducted to examine whether and how sample sizes were justified and how sample size was characterised and discussed by authors. Data pertinent to sample size were extracted and analysed using qualitative and quantitative analytic techniques.

Results: Our findings demonstrate that provision of sample size justifications in qualitative health research is limited; is not contingent on the number of interviews; and relates to the journal of publication. Defence of sample size was most frequently supported across all three journals with reference to the principle of saturation and to pragmatic considerations. Qualitative sample sizes were predominantly - and often without justification - characterised as insufficient (i.e., 'small') and discussed in the context of study limitations. Sample size insufficiency was seen to threaten the validity and generalizability of studies' results, with the latter being frequently conceived in nomothetic terms.

Conclusions: We recommend, firstly, that qualitative health researchers be more transparent about evaluations of their sample size sufficiency, situating these within broader and more encompassing assessments of data adequacy. Secondly, we invite researchers critically to consider how saturation parameters found in prior methodological studies and sample size community norms might best inform, and apply to, their own project and encourage that data adequacy is best appraised with reference to features that are intrinsic to the study at hand. Finally, those reviewing papers have a vital role in supporting and encouraging transparent study-specific reporting.

Keywords: Data adequacy; Qualitative health research; Qualitative interviews; Review; Sample size; Sample size characterisation; Sample size justification; Systematic analysis.


코드 포화 대 의미 포화: 얼마나 많은 인터뷰가 필요한가? (Qual Health Res. 2017)
Code Saturation Versus Meaning Saturation: How Many Interviews Are Enough?
Monique M. Hennink1, Bonnie N. Kaiser2, and Vincent C. Marconi1,3


"질적 연구에 적합한 표본 크기는 얼마인가요?" 이 질문은 정답이 없는 일반적인 질문입니다. 질적 연구는 일반적으로 의도적으로 선택된 표본(확률 기반 표본과 반대)을 사용하며, 다양한 범위의 "정보가 풍부한" 소스를 찾고(Patton, 1990) 참여자 수보다는 데이터의 품질과 풍부함에 더 중점을 둡니다. 연구 목적, 연구 설계, 연구 모집단의 특성, 분석 접근 방식, 사용 가능한 리소스[다양한 요인이 질적 연구의 표본 크기에 영향]을 미칩니다(Bryman, 2012; Malterud, Siersma, & Guassora, 2015; Morse, 2000). 그러나 목적 표본의 적절성을 평가하기 위한 가장 일반적인 지침 원칙은 포화입니다(Morse, 1995, 2015). "포화는 저자가 리뷰어와 독자에게 제공하는 질적 엄격성에 대한 가장 빈번한 보증이지만, 우리가 가장 잘 알지 못하는 것입니다."(Morse, 2015, 587쪽). 
“What is an adequate sample size for qualitative studies?” This is a common question for which there is not a straightforward response. Qualitative studies typically use purposively selected samples (as opposed to probability-driven samples), which seek a diverse range of “information-rich” sources (Patton, 1990) and focus more on the quality and richness of data rather than the number of participants. Many factors influence sample sizes for qualitative studies, including the study purpose, research design, characteristics of the study population, analytic approach, and available resources (Bryman, 2012; Malterud, Siersma, & Guassora, 2015; Morse, 2000). However, the most common guiding principle for assessing the adequacy of a purposive sample is saturation (Morse, 1995, 2015). “Saturation is the most frequently touted guarantee of qualitative rigor offered by authors to reviewers and readers, yet it is the one we know least about” (Morse, 2015, p. 587).

포화는 질적 연구에서 효과적인 표본 크기의 지표로 사용되며 학술지 및 연구비 지원 기관의 질적 기준에서 볼 수 있지만, 실제로 포화가 무엇을 의미하는지는 아직 명확하지 않습니다. 또한 포화는 질적 연구에 대한 다양한 접근 방식에 적용될 때 여러 가지 의미를 갖습니다(O'Reilly & Parker, 2012). 따라서 포화를 평가하는 방법, 문서화하는 방법, 다양한 유형의 연구와 다양한 유형의 데이터에 대한 포화도의 의미에 대한 방법론적 연구의 지침 없이 포화를 표본의 적절성을 나타내는 일반적인 지표로 무조건 채택하는 것은 부적절합니다. 의도적인 표본에서 포화를 달성하는 데 필요한 표본 크기포화에 영향을 미칠 수 있는 매개변수를 조사하기 위한 방법론적 연구는 거의 수행되지 않았습니다. 본 연구는 질적 연구에서 포화에 대한 두 가지 접근 방식을 문서화하고 평가하여 연구자가 포화가 발생할 수 있는 시점을 효과적으로 측정할 수 있는 지침을 제공하고 연구 제안서 및 프로토콜의 표본 크기 추정을 강화하기 위한 방법론적 연구에 기여합니다.

Although saturation is used as an indicator of an effective sample size in qualitative research, and is seen in quality criteria of academic journals and research funding agencies, it remains unclear what saturation means in practice. Saturation also has multiple meanings when applied in different approaches to qualitative research (O’Reilly & Parker, 2012). Therefore, unquestioningly adopting saturation as a generic indicator of sample adequacy is inappropriate without guidance from methodological research on how to assess saturation, how to document it, and what it means for different types of studies and different types of data. Few methodological studies have been conducted to examine sample sizes needed to achieve saturation in purposive samples and the parameters that may influence saturation. Our study contributes methodological research to document and assess two different approaches to saturation in qualitative research, to provide guidance for researchers to effectively gauge when saturation may occur, and to strengthen sample size estimates for research proposals and protocols.

포화 정의
Defining Saturation

포화 개념은 원래 사회 현상을 설명하기 위해 텍스트 데이터로부터 사회학 이론을 개발하는 데 중점을 두는 질적 연구에 대한 영향력 있는 [근거 이론 접근법]의 일환으로 Glaser와 Strauss(1967)에 의해 개발되었습니다. 근거 이론에서는 [이론적 포화]라는 용어를 사용하는데, 이는 [데이터 수집 시 데이터에서 추가적인 문제나 통찰력이 나타나지 않고 관련 개념 범주가 모두 식별, 탐색, 소진된 시점]을 의미합니다. 이는 개념 범주가 "포화 상태"에 이르렀으며 새로운 이론이 포괄적이고 신뢰할 수 있다는 신호입니다. 따라서 [이론적 포화 상태]"이론적 구성에 대한 더 많은 데이터를 수집해도 새로운 속성이 드러나지 않거나 새로운 근거 이론에 대한 더 이상의 이론적 통찰력을 얻지 못하는 지점"입니다(Bryant & Charmaz, 2007, 611쪽). 이론적 포화의 강조점은 표본의 적절성보다는 표본 크기에 더 중점을 둡니다(Bowen, 2008).

The concept of saturation was originally developed by Glaser and Strauss (1967) as part of their influential grounded theory approach to qualitative research, which focuses on developing sociological theory from textual data to explain social phenomena.

  • In grounded theory, the term theoretical saturation is used, which refers to the point in data collection when no additional issues or insights emerge from data and all relevant conceptual categories have been identified, explored, and exhausted. This signals that conceptual categories are “saturated”, and the emerging theory is comprehensive and credible.
  • Thus, theoretical saturation is “the point at which gathering more data about a theoretical construct reveals no new properties nor yields any further theoretical insights about the emerging grounded theory” (Bryant & Charmaz, 2007, p. 611).

[이론적 포화]의 중요한 측면은 연구자가 샘플링, 데이터 수집, 데이터 분석을 동시에 수행하는 [반복적 프로세스에 포함]되어 있다는 것입니다(Sandelowski, 1995). 이러한 반복적인 프로세스는 ['이론적 샘플링']을 가능하게 하는데, 이는 참여자 모집을 안내하는 데 사용되는 데이터에서 개념을 식별하여 [이론적 포화 상태에 도달할 때까지 후속 데이터 수집에서 해당 개념을 추가로 탐색하는 것]을 포함합니다. 따라서 [이론적 샘플링]은 [이론적 포화]와 [불가분의 관계]에 있으며, 이는 현상의 모든 구성 요소(예: 이슈, 개념, 범주 및 연결)를 충분히 탐색하고 지원하여 새로운 이론이 타당하고 견고하도록 하기 위한 입니다. 따라서 [이론적 포화]는 근거 이론의 목표와 인식론적 접근 방식에 내재되어 있습니다.

The emphasis of theoretical saturation is more toward sample adequacy and less about sample size (Bowen, 2008). An important aspect of theoretical saturation is that it is embedded in an iterative process, whereby researchers are concurrently sampling, collecting data, and analyzing data (Sandelowski, 1995). This iterative process enables “theoretical sampling”, which involves identifying concepts from data that are used to guide participant recruitment to further explore those concepts in subsequent data collection until theoretical saturation is reached. Theoretical sampling is thereby inextricably linked to theoretical saturation to ensure that all constructs of a phenomenon (i.e., issues, concepts, categories, and linkages) are fully explored and supported so that the emerging theory is valid and robust. Theoretical saturation is therefore embedded in the goals and epistemological approach of grounded theory.

포화 적용의 과제
Challenges in Applying Saturation

포화는 근거 이론에서 시작되었지만, 질적 연구에 대한 다른 많은 접근 방식에도 적용됩니다. [데이터 포화] 또는 [주제 포화]라고도 하며, [데이터 수집에서 추가적인 문제가 발견되지 않고 데이터가 반복되기 시작하며 더 이상의 데이터 수집이 불필요해지는 시점]을 말합니다(Kerr, Nixon, & Wild, 2010). 이러한 포화의 광범위한 적용은 이론을 개발하기 위한 데이터의 적절성("이론적 포화"에서와 같이)보다는 표본 크기를 측정하는 데 더 직접적으로 초점을 맞추고 있습니다. 포화의 개념을 방법론적 기원에서 벗어나 질적 연구에 더 일반적으로 적용하는 것은 다소 의문의 여지가 있지만 여전히 문제가 있습니다(Kerr et al., 2010). 근거 이론 외부에서 포화를 사용할 경우, 포화는 종종 표본 추출, 데이터 수집, 데이터 분석의 반복적인 프로세스와 분리되어 적용에 절차적 구조를 제공하지 못합니다. 이러한 [광범위한 맥락에서의 적용에 대한 적절한 지침]이 없으면 [포화가 무엇을 의미하고 어떻게 달성할 수 있는지 불분명]합니다(Kerr et al., 2010). 
Despite its origins in grounded theory, saturation is also applied in many other approaches to qualitative research. It is often termed data saturation or thematic saturation and refers to the point in data collection when no additional issues are identified, data begin to repeat, and further data collection becomes redundant (Kerr, Nixon, & Wild, 2010). This broader application of saturation is focused more directly on gauging sample size rather than the adequacy of data to develop theory (as in “theoretical saturation”). Taking the concept of saturation out of its methodological origins and applying it more generically to qualitative research has been somewhat unquestioned but remains problematic (Kerr et al., 2010). When used outside of grounded theory, saturation often becomes separated from the iterative process of sampling, data collection, and data analysis, which provide procedural structure to its application. Without adequate guidance on its application in this broader context, it is unclear what saturation means and how it can be achieved (Kerr et al., 2010).

이 문제는 발표된 질적 연구에서도 명확하게 드러납니다. 포화가 언급되는 경우, 포화가 어떻게 달성되었는지 또는 포화가 정당화되는 근거가 무엇인지에 대한 설명 없이 그냥 넘어가는 경우가 많습니다(Bowen, 2008; O'Reilly & Parker, 2012).

  • 예를 들어, Francis 등(2010)은 건강 관련 분야에서 데이터 포화가 어떻게 보고되는지 파악하기 위해 16개월 동안 다학제 저널인 사회과학 및 의학에 게재된 모든 논문을 검토했습니다. 데이터 포화를 언급한 18개 논문 중 15개 논문이 포화를 달성했다고 주장했지만, 이러한 연구에서 포화가 어떻게 정의, 달성 또는 정당화되었는지는 불분명했습니다.
  • 칼슨과 글렌튼(2011)은 포커스 그룹 토론을 통해 220개의 연구를 체계적으로 검토하여 표본 크기가 어떻게 정당화되었는지 확인했습니다. 그 결과, 표본 크기를 설명한 연구 중 83%가 포화를 표본 크기의 정당화로 사용했습니다. 그러나 이러한 논문은 포화도에 대한 근거 없는 주장, 미리 정해진 표본 크기를 사용하면서 포화를 달성했다는 언급 등 포화를 달성한 방법에 대한 피상적인 보고를 제공한다는 사실을 발견했습니다.
  • 포화를 평가한 방법이나 그 근거에 대한 정당성이나 설명을 제공하지 않고 포화를 주장하는 연구자들에 대한 우려가 커지고 있습니다(Bowen, 2008; Green & Thorgood, 2009; Guest, Bunce, & Johnson, 2006; Kerr et al., 2010; Malterud et al., 2015; Morse, 1995, 2000, 2015).

This issue is clearly reflected in published qualitative research. If saturation is mentioned, it is often glossed over with no indications for how it was achieved or the grounds on which it is justified (Bowen, 2008; O’Reilly & Parker, 2012).

  • For example, Francis et al. (2010) reviewed all articles published in the multidisciplinary journal Social Science & Medicine over a 16-month period to identify how saturation is reported in health-related disciplines. Of the 18 articles that mentioned data saturation, 15 articles claimed they achieved saturation, but it was unclear how saturation was defined, achieved, or justified in these studies.
  • Carlsen and Glenton (2011) conducted a systematic review of 220 studies using focus group discussions to identify how sample size was justified. They found that of those studies that explained sample size, 83% used saturation as the justification for their sample size. However, they found that these articles provided superficial reporting of how saturation was achieved, including unsubstantiated claims of saturation and reference to achieving saturation while still using the predetermined sample size.
  • There is increasing concern over researchers claiming saturation without providing any justification or explanation of how it was assessed or the grounds on which it was achieved (Bowen, 2008Green & Thorgood, 2009Guest, Bunce, & Johnson, 2006Kerr et al., 2010Malterud et al., 2015Morse, 199520002015).

Morse(1995)는 [포화 상태에 도달하는 데 필요한 표본 크기에 대한 공개된 지침]이 부족하다는 점을 오래 전에 강조했습니다. 10년이 지난 지금도 이러한 상황은 그대로 남아 있으며, 24권의 질적 연구 교과서와 7개의 데이터베이스를 검토한 Guest 외(2006)의 연구에서도 목적적 표본의 포화를 달성하는 방법에 대한 가이드라인을 찾을 수 없었습니다. 저자들은 문헌이 "포화 개념을 제대로 조작화하지 못하며, 포화를 결정하는 방법에 대한 설명과 의도적으로 표본 추출된 인터뷰의 표본 크기를 추정하기 위한 실질적인 지침을 제공하지 않는다"고 결론지었습니다(Guest 외, 2006, 60쪽). 10년이 지난 지금도 많은 사람들은 질적 연구에서 포화를 평가하는 지침이 여전히 모호하고 근거에 기반하지 않는다는 데 동의합니다(Carlsen & Glenton, 2011; Kerr et al., 2010). 포화는 단순한 매력에도 불구하고 조작 및 입증하기가 복잡합니다. 포화가 표본의 적절성을 평가하는 기준으로 유지되려면 포화를 달성하고 평가하는 방법을 조사하기 위한 추가적인 방법론적 연구를 수행해야 합니다. 궁극적으로 이러한 연구 없이는 '포화 상태에 도달했다'는 선언은 의미가 없어지고 용어의 목적이 훼손될 수 있습니다.
Morse (1995) highlighted long ago that there exists a lack of published guidelines on sample sizes needed to reach saturation. A decade later, this situation remains, as confirmed by Guest et al. (2006), who reviewed 24 qualitative research textbooks and seven databases and found no guidelines on how to achieve saturation in purposive samples. The authors concluded that the literature does a “poor job of operationalizing the concept of saturation, providing no description of how saturation might be determined and no practical guidelines for estimating sample sizes for purposively sampled interviews” (Guest et al., 2006, p. 60). Another decade has passed, and many still agree that guidelines for assessing saturation in qualitative research remain vague and are not evidence-based (Carlsen & Glenton, 2011; Kerr et al., 2010). Despite its simple appeal, saturation is complex to operationalize and demonstrate. If saturation is to remain a criterion for assessing sample adequacy, it behooves us to conduct further methodological studies to examine how saturation is achieved and assessed. Ultimately without these studies, declarations of “reaching saturation” become meaningless and undermine the purpose of the term.

또 다른 문제는 포화는 데이터 수집 중에만 작동할 수 있지만 표본 크기는 연구 제안서와 프로토콜에 미리 명시해야 한다는 것입니다. 표본 크기를 선험적으로 파악해야 하는 것은 "질적 연구에 대해 제도적으로 생성된 문제"(Hammersley, 2015, 687쪽)입니다. 또한 질적 표본은 일반적으로 현장에서 반복적인 접근 방식을 사용하여 정의, 개선 및 강화되기 때문에 [윤리 위원회 및 자금 지원 기관에서 요구하는 선험적 표본 크기 결정 요건]은 질적 연구에 어려움을 제공합니다. 그럼에도 불구하고 연구자들은 선험적으로 표본 크기를 추정해야 하지만, 이러한 추정을 뒷받침하기 위해 다양한 유형의 질적 연구에 대해 포화 상태에 도달하는 데 필요한 표본 크기를 입증하는 방법론적 연구는 거의 없습니다. 따라서 질적 연구에 대한 대부분의 표본 크기 권장 사항은 경험적 또는 '경험의 법칙'에 따른 것입니다(Bryman, 2012; Guest 외., 2006; Kerr 외., 2010; Morse, 1995; Sandelowski, 1995). 또한 적절한 표본 크기를 사용하는 것도 [윤리적 문제]입니다(Carlsen & Glenton, 2011; Francis 외, 2010). 필요 이상으로 큰 질적 표본은 연구비를 낭비하고 연구 모집단에 부담을 주며 미사용 데이터로 이어질 수 있으며, 표본이 너무 작으면 현상을 충분히 포착하지 못하고 연구 결과의 타당성을 떨어뜨리며 연구 결과를 바탕으로 개입을 구축하는 데 자원이 낭비될 수 있습니다. 따라서 다양한 유형의 질적 연구에 대한 표본 크기의 선험적 추정치를 안내할 수 있는 증거를 제공하기 위해 포화의 실제 적용에 대한 추가적인 방법론적 연구가 필요합니다. 
A further challenge is that saturation can only be operationalized during data collection, but sample sizes need to be stated in advance on research proposals and protocols. The need to identify sample sizes a priori is to a large extent “an institutionally generated problem for qualitative research” (Hammersley, 2015, p. 687). In addition, requirements mandated by ethics committees and funding agencies for a priori determination of sample sizes provide challenges in qualitative research because qualitative samples are typically defined, refined, and strengthened using an iterative approach in the field. Nonetheless, researchers do need to estimate their sample size a priori, yet there is little methodological research that demonstrates sample sizes needed to reach saturation for different types of qualitative studies to support these estimates. Most sample size recommendations for qualitative research are thus experiential or “rules of thumb” (Bryman, 2012; Guest et al., 2006; Kerr et al., 2010; Morse, 1995; Sandelowski, 1995). Furthermore, using an appropriate sample size is also an ethical issue (Carlsen & Glenton, 2011; Francis et al., 2010): qualitative samples that are larger than needed waste research funds, burden the study population, and lead to unused data, while samples that are too small may not fully capture phenomena, reduce the validity of findings, and waste resources that build interventions on those findings. Therefore, further methodological research is needed on the practical application of saturation to provide a body of evidence that can guide a priori estimates of sample sizes for different types of qualitative research.

포화 평가
Assessing Saturation

많은 논문에서 포화를 보고할 때 투명성을 높여야 한다고 강조하지만(Carlsen & Glenton, 2011; Fusch & Ness, 2015; Kerr et al., 2010; Morse, 2015; O'Reilly & Parker, 2012), 포화를 효과적으로 평가, 보고 및 정당화하는 데 사용할 수 있는 포화 달성 방법에 대한 경험적 데이터를 제공하는 연구는 거의 없습니다. 두 가지 주목할 만한 예외가 있습니다.

  • Guest 등(2006)은 서아프리카 2개국에서 60건의 심층 인터뷰를 실시한 연구 데이터를 사용하여 주제 분석 중 데이터 포화를 체계적으로 문서화하고, 주제 소진에 도달하는 데 필요한 인터뷰 횟수를 파악하고, 중요한 주제가 언제 개발되었는지 파악했습니다. 연구진은 6차례의 연속적인 인터뷰를 통해 제기된 콘텐츠 중심 주제의 수를 세고, 새로운 주제가 제기되거나 새로운 코드북에서 기존 주제가 변경된 시기를 파악하여 주제 개발의 진행 상황을 문서화했습니다. 또한 연구 데이터 전체에서 코드 적용 빈도를 기준으로 테마의 중요도를 평가했습니다.
  • 연구팀은 12번의 인터뷰를 통해 테마의 포화 상태에 도달했지만, 6번의 인터뷰에서는 테마의 기본 요소가 이미 존재한다는 결론을 내렸습니다. 포화는 이러한 데이터에서 테마 개발의 정도와 테마의 중요도에 따라 평가되었습니다. 따라서 12번의 인터뷰를 통해 모든 신규 테마의 88%가 개발되었고, 모든 중요 테마의 97%가 개발되었으므로 12번의 인터뷰를 통해 코드북 구조가 안정화되었으며 그 이후에는 변경이나 추가가 거의 이루어지지 않았습니다.
  • 저자들은 비교적 동질적인 표본, 집중된 연구 목표, 반구조화된 인터뷰 가이드가 12번의 인터뷰를 통해 데이터 포화 상태에 도달하는 데 기여했을 수 있다고 언급합니다. 또한 포화는 연구, 데이터, 연구자의 다양한 특성에 따라 달라질 수 있다고 강조하면서 12건의 인터뷰를 포화의 일반적인 표본 크기로 사용하는 것에 대해 주의를 당부합니다.

Numerous articles emphasize the need for more transparency in reporting saturation (Carlsen & Glenton, 2011; Fusch & Ness, 2015; Kerr et al., 2010; Morse, 2015; O’Reilly & Parker, 2012); however, few studies provide empirical data on how saturation was achieved that can be used to effectively assess, report, and justify saturation. There are two notable exceptions.

  •  Guest et al. (2006) used data from a study involving 60 in-depth interviews in two West African countries to systematically document data saturation during thematic analysis, identify the number of interviews needed to reach thematic exhaustion, and find when important themes were developed. They documented the progression of theme development by counting the number of content-driven themes raised in successive sets of six interviews, identifying when new themes were raised or changes were made to existing themes in the emerging codebook. They also assessed the importance of themes based on the frequency of code application across the study data.
  • They concluded that saturation of themes was achieved by 12 interviews, but that the basic elements for themes were already present at six interviews. Saturation was assessed based on the extent of theme development and theme importance in these data. As such, by 12 interviews, 88% of all emergent themes had been developed, and 97% of all important themes were developed; therefore, the codebook structure had stabilized by 12 interviews with few changes or additions thereafter.
  • The authors note that their relatively homogeneous sample, focused study objectives, and semistructured interview guide may have contributed to reaching data saturation by 12 interviews. They also caution against using 12 interviews as a generic sample size for saturation, stressing that saturation is likely dependent on a range of characteristics of the study, data, and researchers.

이 연구는 포화 상태에 도달하는 데 필요한 샘플 크기를 입증한 최초의 방법론적 연구이지만 몇 가지 한계가 있습니다. 정확한 포화 시점이 불분명합니다. 저자는 12개의 인터뷰로 포화 상태에 도달했다고 말하지만, 인터뷰는 6개씩 일괄적으로 검토되었기 때문에 실제로는 7~12개의 인터뷰 사이에서 포화 상태가 발생했습니다. 코드가 일률적으로 제시되어 있어 다양한 유형의 코드와 코드 특성에 따라 포화도가 어떻게 달라질 수 있는지에 대한 고려가 없습니다. 또한 반복적 다양성 샘플링을 사용하여 참가자를 모집했는지 여부도 불분명하므로 이것이 이 연구의 포화도에 영향을 미쳤는지 또는 어떻게 영향을 미쳤는지는 평가할 수 없습니다(Kerr et al., 2010). 아마도 가장 큰 한계는 테마의 의미를 평가하지 않고 테마의 발생 횟수를 세어 포화도를 평가했다는 점일 것입니다. 테마를 식별하는 것은 포화도에 도달하기 위한 첫 번째 단계에 불과합니다. "테마가 처음 등장했을 때 파악된 내용은 특별히 통찰력이 있거나 드러나지 않을 수 있습니다. 테마 또는 개념의 내용과 정의를 깊이 있게 개발하려면 추가 데이터 수집 및 분석이 필요할 수 있습니다."(Kerr 외., 2010, 276쪽). 마찬가지로 코드의 중요도는 현상 이해에 대한 기여도보다는 데이터 전반에서 코드의 유병률로 정의됩니다: 
This was the first methodological study demonstrating the sample size required to achieve saturation; however, it has some limitations. The exact point of saturation is unclear. The authors state that saturation was achieved by 12 interviews, but interviews were reviewed in batches of six, so that saturation actually occurred somewhere between seven and 12 interviews. Codes are presented as uniform, so there is no consideration of different types of codes and how saturation may differ by code characteristics. It is also unclear whether iterative diversity sampling was used to recruit participants, so we cannot assess whether or how this may have influenced saturation in this study (Kerr et al., 2010). Perhaps the greatest limitation is the assessment of saturation by counting occurrences of themes, without also assessing the meaning of those themes. Identifying themes is just the first step in reaching saturation. “What is identified about the theme the first time it emerges may not be particularly insightful or revealing. Further data collection and analysis may be required to develop depth in the content and definition of a theme or concept” (Kerr et al., 2010, p. 276). Similarly, code importance is defined by the prevalence of codes across data rather than their contribution to understanding the phenomenon:

코드의 의미와 내용에 대한 질적 판단이 없다면, [덜 흔한 코드 중 하나]가 [더 적은 수의 인터뷰가 수행되었다면 놓쳤을 이해의 핵심 열쇠]가 아니라고 누가 말할 수 있겠는가. (Kerr 외, 2010, 274쪽)
Without any qualitative judgement of the meaning and content of codes who is to say that one of the less prevalent codes was not a central key to understanding that would have been missed if fewer interviews had been conducted. (Kerr et al., 2010, p. 274)

따라서 게스트와 동료들의 연구에서 놓친 중요한 요소는 이슈의 의미에서 포화 상태에 도달하는 데 필요한 표본 크기와 이것이 데이터에서 테마의 존재를 식별하여 제안한 표본 크기와 어떻게 비교될 수 있는지를 평가하는 것입니다. 따라서 이 연구에서는 데이터에서 제기된 이슈를 완전히 이해하는 데 필요한 인터뷰 횟수에 대한 지침을 제공하지 않습니다. 
Therefore, a critical missing element in the work of Guest and colleagues is to assess the sample size needed to reach saturation in the meaning of issues and how this might compare with their sample size suggested by identifying the presence of themes in data. Therefore, this study does not provide guidance on the number of interviews needed to fully understand the issues raised in these data.

Francis 등(2010)의 또 다른 방법론 연구에서는 이론 기반 인터뷰 연구(계획된 행동 이론에 의해 개념 범주가 미리 결정된 경우)에서 개념의 포화 상태가 언제 발생하는지 확인했습니다. 이들은 분석을 통해 선험적으로 수행할 초기 인터뷰 횟수 지정, 사용할 중단 기준(더 이상 개념이 나오지 않는 연속 인터뷰 횟수 기준) 파악, 투명하고 검증 가능한 방식으로 포화 상태 보고 등 데이터 포화 상태를 설정하고 보고하기 위한 원칙을 제안했습니다. 분석에서 연구진은 초기 샘플로 10개의 인터뷰(이 숫자에 대한 근거는 제공하지 않음)를 사용하고, 중지 기준을 3개로 설정했으며, 개념의 포화와 전체 연구 포화를 보여주기 위해 누적 빈도 그래프를 제시했습니다.

  • 이 매개변수 내에서 한 연구에서는 17번의 인터뷰를 통해 전체 연구 포화도에 도달했으며, 각 신념 범주가 다른 지점에서 포화에 도달하는 것으로 나타났습니다.
  • 두 번째 연구에서는 한 신념 범주에서는 포화 상태에 도달했지만 다른 범주에서는 포화 상태에 도달하지 않았기 때문에 14번의 인터뷰에서는 전체 연구 포화 상태에 도달하지 못했습니다.

이러한 결과는 포화가 단차원적인 것이 아니라 [개별 구성 요소] 또는 [전체 연구 포화]에 따라 다양한 수준에서 평가(또는 달성)될 수 있다는 점을 강조합니다. 따라서 연구자들은 자신이 달성했다고 주장하는 포화의 유형을 명확히 해야 합니다. Francis 등의 연구는 데이터에서 이슈의 의미에 대한 포화도를 평가할 필요성을 인정하기 시작했지만, 귀납적인 내용 중심 주제가 아닌 외부에서 파생된 개념 범주를 사용하여 연구의 포화도를 입증하는 데 그치고 있습니다.
Another methodological study by Francis et al. (2010) identified when saturation of concepts occurs in theory-based interview studies (where conceptual categories were predetermined by the theory of planned behavior). They used their analysis to propose principles for establishing and reporting data saturation, including specifying a priori an initial number of interviews to conduct, identifying stopping criteria to use (based on the number of consecutive interviews that yield no further concepts), and reporting saturation in a transparent and verifiable way. In their analysis, they used an initial sample of 10 interviews (although they provide no justification for this number), a stopping criterion of three, and present cumulative frequency graphs to demonstrate saturation of concepts and overall study saturation.

  • Within these parameters, they found that one study reached overall study saturation by 17 interviews, with each belief category reaching saturation at a different point.
  • In a second study, saturation was achieved in one belief category but not in others; therefore, overall study saturation was not achieved in the 14 interviews conducted.

These results highlight that saturation is not unidimensional; it can be assessed (or achieved) at different levels—by individual constructs or by overall study saturation. Thus, researchers need to be clear on the type of saturation they claim to have achieved. Francis et al.’s study begins to acknowledge the need to assess saturation in the meaning of issues in data; however, the results are limited to demonstrating saturation in studies using externally derived conceptual categories, rather than more inductive content-driven themes.

연구 목표
Study Aims

본 연구는 포화도 운영에 대한 더 많은 방법론적 연구에 대한 요구에 부응합니다(Francis 외, 2010; Guest 외, 2006; Morse, 2015). 우리는 포화가 실제로 무엇을 의미하는지, 어떻게 평가하고 문서화할 수 있는지 탐구하고, 질적 연구에서 표본 크기를 추정하는 데 필요한 실용적인 지침을 제공합니다. 우리는 앞서 설명한 포화의 일반적인 적용, 즉 근거 이론의 맥락 밖에서 사용되는 포화의 일반적인 적용에 초점을 맞추고 있습니다. 이러한 초점은 다른 질적 접근법에서 포화가 어떻게 적용되거나 달성되었는지에 대한 설명 없이 포화도가 자주 사용되며, 위에서 설명한 바와 같이 이러한 광범위한 맥락에서 포화도 사용에 대한 방법론적 지침이 부족하기 때문에 적절하다고 판단됩니다. 
Our study responds to calls for more methodological research on operationalizing saturation (by Francis et al., 2010; Guest et al., 2006; Morse, 2015). We explore what saturation means in practice, how it can be assessed and documented, and we provide pragmatic guidance on estimating sample sizes in qualitative research. We focus on the general application of saturation, described earlier, as used outside of the grounded theory context. This focus is warranted due to the frequent use of saturation in other qualitative approaches without explanation of how it was applied or achieved and due to the lack of methodological guidance on the use of saturation in this broader context, as described above.

본 연구에서는 [코드 포화]와 [의미 포화]라는 두 가지 포화 평가 접근법을 살펴봅니다.

  • 먼저 [코드 포화]를 평가했는데, 코드 포화는 추가적인 문제가 발견되지 않고 코드집이 안정화되기 시작하는 시점으로 정의했습니다. 그런 다음 [코드 포화]가 식별된 문제를 완전히 이해하기에 충분한지 평가했습니다.
  • 둘째, [의미 포화]를 평가했습니다. 이는 이슈를 완전히 이해하고 더 이상 이슈의 차원, 뉘앙스 또는 인사이트를 찾을 수 없는 시점으로 정의했습니다. 또한 코드의 특정 특성이 코드 또는 의미 포화에 영향을 미치는지 평가하여 연구에서 개발된 코드의 특성에 따라 포화를 추정할 수 있는 매개변수를 제공했습니다. 

이 연구에서는 다음과 같은 연구 질문에 대한 답을 찾고자 했습니다:
Our study explores two approaches to assessing saturation, which we term code saturation and meaning saturation. We first assessed code saturation, which we defined as the point when no additional issues are identified and the codebook begins to stabilize. We then assessed whether code saturation is sufficient to fully understand issues identified. Second, we assessed meaning saturation, which we defined as the point when we fully understand issues, and when no further dimensions, nuances, or insights of issues can be found. We also assessed whether certain characteristics of codes influence code or meaning saturation, to provide parameters for estimating saturation based on the nature of codes developed in a study. Our study sought to answer the following research questions:

  • 연구 질문 1: 코드 포화도에 도달하려면 얼마나 많은 인터뷰가 필요한가?
  • 연구 질문 2: 의미 포화도에 도달하기 위해 얼마나 많은 인터뷰가 필요한가?
  • 연구 질문 3: 코드 특성이 포화도에 어떤 영향을 미치는가?
  • 연구 질문 4: 질적 표본 크기를 추정하기 위해 선험적으로 포화도를 평가하는 데 사용할 수 있는 매개변수는 무엇인가요 
  • Research Question 1: How many interviews are needed to reach code saturation?
  • Research Question 2: How many interviews are needed to reach meaning saturation?
  • Research Question 3: How do code characteristics influence saturation?
  • Research Question 4: What parameters can be used to assess saturation a priori to estimate qualitative sample sizes?

이 연구는 건강 행동을 이해하고 중재를 개발하기 위해 일반적으로 보건 과학 및 공중 보건 연구에서 사용되는 응용 질적 연구의 포화도를 평가하는 데 중점을 두었습니다. 이러한 응용 분야에서는 민족지학적 연구와 같은 다른 유형의 질적 연구보다 연구 목적과 연구 집단이 더 명확하게 정의될 수 있습니다. 
Our study focused on assessing saturation in applied qualitative research, typically used in health sciences and public health research to understand health behavior and develop interventions. In these applications, the research purpose and study population may be more defined than in other types of qualitative research, such as ethnographic studies.

연구 방법

연구 배경
Study Background

데이터의 포화도에 대한 분석의 맥락으로 원본 연구의 데이터 수집에 대한 개요를 제공합니다. 원래 연구의 연구 질문은 "HIV 치료에서 환자 유지에 영향을 미치는 요인은 무엇인가?"였습니다. 항레트로바이러스 치료(ART)의 등장으로 HIV 감염은 치명적인 질병에서 만성 질환으로 전환되었습니다. ART는 질병의 진행을 늦추고 다른 사람에게 HIV를 전파하는 것을 줄이는 데 중요합니다(Attia, Egger, Müller, Zwahlen, & Low, 2009; Cohen 외., 2011; "Vital Signs", 2011). HIV 진단 직후 치료와 연계되는 것은 ART를 조기에 시작하고 바이러스 부하 및 기타 동반 질환을 정기적으로 모니터링하는 데 매우 중요합니다. 그러나 미국에서 HIV 양성으로 알려진 사람들 중 77%만이 치료와 연계되어 있으며, 그 이후에도 정기적인 치료를 받는 비율은 51%에 불과합니다(Hall et al., 2012; "Vital Signs," 2011). 따라서 [본 연구의 목적]미국 최대 규모의 재향군인병원인 애틀랜타 재향군인 의료센터(AVAMC)의 감염병 클리닉(IDC)에서 HIV 양성 환자를 치료하는 데 있어 무엇이 치료 유지에 영향을 미치는지 파악하는 것이었습니다. 
We provide an overview of data collection for the original study as context for our analyses on saturation of these data. The research question of the original study was: what influences patient retention in HIV care? With the advent of antiretroviral therapy (ART), HIV infection has transitioned from a fatal disease to a chronic condition. ART is important for slowing progression of the disease and reducing HIV transmission to others (Attia, Egger, Müller, Zwahlen, & Low, 2009; Cohen et al., 2011; “Vital Signs,” 2011). Becoming linked to care soon after diagnosis with HIV is critical for early initiation of ART and regular monitoring of the viral load and other comorbidities. However, only 77% of those known to be HIV positive in the United States are linked to care, and only 51% are retained in regular care thereafter (Hall et al., 2012; “Vital Signs,” 2011). Therefore, the aim of the original study was to understand what influences retention in HIV care at the Infectious Disease Clinic (IDC) of the Atlanta VA Medical Center (AVAMC), the largest VA clinic caring for HIV-positive patients in the United States.

데이터 수집 및 분석
Data Collection and Analysis

연구 참여 자격은 18세 이상이고 2011년 1월 이전에 IDC에 처음 방문했으며 HIV 양성으로 진단받은 경우였습니다. 연구 참여자는 현재 IDC에서 치료를 받고 있는 환자(치료 중 그룹)와 IDC에서 6개월 이상 치료를 받았지만 최소 8개월 동안 클리닉 방문에 참석하지 않은 환자(치료 외 그룹)의 두 그룹으로 나뉘었습니다. 연구 기간 동안 클리닉 예약이 예정된 적격 참가자를 식별하기 위해 환자 기록을 선별했습니다. 진료 외 환자는 진료 외 시간에 따라 사분위수로 나눈 다음 각 사분위수에서 의도적으로 선정했습니다. 그런 다음 연령, 인종, 성별을 기준으로 진료 중인 환자를 진료 외 참여자와 일치하도록 선정했습니다. 참가자에게 전화로 연락하여 정기 진료 예약 시간 또는 다른 시간에 연구에 참여하도록 초대했습니다. 클리닉 기록을 사용하여 인구통계학적 특성 및 치료 유지 특성에 따라 의도적인 다양성 샘플링이 가능했으며, 이후 반복적인 모집을 통해 고용과 같은 다른 특성에서도 다양성을 확보할 수 있었습니다. 데이터는 2013년 2월부터 7월까지 25회의 심층 인터뷰를 통해 수집되었습니다: 16명은 보호 대상에서 벗어난 사람들을, 9명은 보호 대상에서 벗어난 사람들을 대상으로 심층 인터뷰를 진행했습니다. 돌봄을 받지 않는 그룹에서 더 다양한 문제가 제기되었기 때문에 이러한 문제를 완전히 이해하기 위해 더 많은 인터뷰가 필요했습니다. 인터뷰는 질적 연구에 대한 교육을 받고 HIV 치료 및 AVAMC에 대한 경험이 있는 연구자들이 수행했습니다. 연구자들은 반구조화된 인터뷰 가이드를 사용하여 군 복무가 건강 관리에 미치는 영향, HIV 진단, HIV에 대한 지식, HIV 치료, 돌봄 및 지원, AVAMC에서 HIV 치료를 받는 데 있어 장벽과 촉진 요인에 대한 주제를 다루었습니다. 모든 인터뷰는 IDC의 개인실에서 진행되었으며 디지털 방식으로 녹음되었고 약 60분 동안 진행되었습니다. 이 연구는 에모리대학교 기관윤리심의위원회(IRB00060643)의 승인을 받았습니다. 
Participants were eligible for the study if they were 18 years or older, first attended the IDC before January 2011, and were diagnosed as HIV positive. Study participants included two groups: patients currently receiving care at the IDC (in-care group) and patients who received at least 6 months of care at the IDC but had not attended a clinic visit for at least 8 months (out-of-care group). Patient records were screened to identify eligible participants due for a clinic appointment during the study period. Out-of-care patients were divided into quartiles by their time out of care and then purposively selected from each quartile. In-care patients were then selected to match out-of-care participants based on age, ethnicity, and gender. Participants were contacted by telephone and invited to participate in the study at their routine clinic appointment or a different time. Using clinic records enabled purposive diversity sampling by demographic and treatment retention characteristics; thereafter iterative recruitment was used to achieve diversity in other characteristics like employment. Data were collected from February to July 2013, through 25 in-depth interviews: 16 with those out of care and nine with those in care. A greater diversity of issues was raised in the out-of-care group which required more interviews to fully understand these issues. Interviews were conducted by researchers trained in qualitative research and experienced with HIV care and the AVAMC. Interviewers used a semistructured interview guide on the following topics: influence of military service on health care; HIV diagnosis; knowledge of HIV; HIV treatment, care, and support; and barriers and facilitators for receiving HIV care at the AVAMC. All interviews were conducted in a private room at the IDC, digitally recorded, and lasted approximately 60 minutes. The study was approved by Emory University Institutional Review Board (IRB00060643).

모든 인터뷰는 그대로 전사하고 비식별 처리한 후 정성적 데이터 분석을 위해 MaxQDA11 소프트웨어(1989-2016)에 입력했습니다. 모든 데이터에서 핵심 주제를 식별하고 설명하기 위해 주제별 분석을 사용했습니다. 여기에는 모든 녹취록을 읽고 두 명의 분석가가 확인한 참가자가 [제기한 문제를 식별]하고, 각 문제에 [코드명을 부여]하고, [코드북에 모든 코드와 코드 정의를 나열]하는 작업이 포함되었습니다. [코드북]에는 인터뷰 가이드의 주제에 따른 연역적 코드와 귀납적 내용 중심 코드가 모두 포함되었습니다. 코딩된 데이터의 일부에 대해 두 코더 간에 코더 간 일치도를 평가하고 전체 데이터 세트가 코딩되기 전에 코딩 불일치를 해결했습니다.
All interviews were transcribed verbatim, de-identified, and entered into MaxQDA11 software (1989-2016) for qualitative data analysis. We used thematic analysis to identify and describe core themes across all data. This involved reading all transcripts to identify issues raised by participants, which were verified by two analysts; giving each issue a code name; and listing all codes and code definitions in a codebook. The codebook included both deductive codes from topics in the interview guide and inductive content-driven codes. Intercoder agreement was assessed between two coders on a portion of coded data and coding discrepancies resolved before the entire data set was coded.

이러한 데이터의 포화도를 평가하기 위해 코드 개발과 관련된 추가 정보를 수집한 다음 이러한 추가 데이터에 대한 별도의 분석을 수행해야 했습니다. 이러한 추가 데이터와 분석은 다음 섹션에서 설명하며, 분석 방법에 대한 개요는 그림 1에 나와 있습니다. 
To assess saturation in these data, we needed to collect additional information regarding code development and then conduct separate analyses of these additional data. These additional data and analyses are described in the subsequent sections, and an overview of analytic methods is shown in Figure 1.


코드 포화도 평가를 위한 데이터
Data for Assessing Code Saturation

코드 포화도를 평가하기 위해 인터뷰가 진행된 순서대로 인터뷰 녹취록을 검토하여 코드 개발 과정을 문서화했습니다. 각 인터뷰마다 코드 이름, 코드 정의, 코드 유형(귀납적 또는 연역적), 새 코드에 대한 참고 사항(예: 문제의 명확성, 코드 정의의 완전성), 이전에 개발된 코드가 인터뷰에 포함되었는지 여부 등 새로 개발된 코드와 코드 특성을 기록했습니다. 각 코드 정의에는 해당 코드가 포착한 문제에 대한 설명, 코드 적용 기준 및 예외 사항, 코드와 관련된 텍스트의 예가 포함되었습니다. 코드 개발의 진화를 파악하기 위해 이전 인터뷰에서 개발된 코드에 대한 변경 사항과 변경 사항의 성격, 각 변경 사항이 발생한 인터뷰 번호도 기록했습니다. 이러한 코드 개발 문서화와 반복적인 코드 개선 작업은 25개의 인터뷰가 모두 검토되고 코드북이 완성될 때까지 각 인터뷰에 대해 개별적으로 계속되었습니다. 
To assess code saturation, we documented the process of code development by reviewing interview transcripts in the order in which they were conducted. For each interview, we recorded new codes developed and code characteristics, including the code name, code definition, type of code (inductive or deductive), any notes about the new code (e.g., clarity of the issue, completeness of the code definition), and whether any previously developed codes were present in the interview. Each code definition included a description of the issue it captured, criteria for code application and any exceptions, and an example of text relevant to the code. To identify the evolution of code development, we also recorded any changes made to codes developed in previous interviews, including the nature of the change and the interview number at which each change occurred. This documentation of code development and iterative refinement of codes continued for each interview individually until all 25 interviews were reviewed and the codebook was complete.

그런 다음 분석을 위해 코드를 다음과 같이 분류했습니다. 

  • 첫째, 코드는 귀납적 코드와 연역적 코드로 분류했습니다.
    • 귀납적 코드는 내용 중심적이며 참가자들이 자발적으로 제기한 반면,
    • 연역적 코드는 연구자 중심적이며 인터뷰 가이드에서 비롯된 것입니다.
  • 둘째, 코드의 변경은 코드명 변경, 코드 정의 변경, 코드 병합, 코드 분할로 분류했습니다.
    • 코드 정의 변경은 개념 확장, 예시 추가, 포함/제외 기준 수정, 부정적 요소 추가 등으로 다시 분류했습니다.
  • 셋째, 코드도 구체적 코드개념적 코드로 분류했습니다.
    • 구체적 코드는 데이터에서 명시적이고 명확한 문제를 포착하는 코드로,
      • 예를 들어 '시간' 코드는 이동 시간, 대기 시간, 약속 시간 등 구체적인 문제를 포착합니다. 마찬가지로 '업무 약속' 코드는 장시간 근무, 교대 근무 또는 휴가 사용과 같은 명시적인 문제를 캡처했습니다.
    • 개념적 코드는 지각, 감정, 판단 또는 느낌과 같은 추상적 구성을 포착하는 코드입니다.
      • 예를 들어, 개념 코드 '바이러스에 대한 편안함'은 HIV에 대한 미묘한 태도, 자신감, 통제감을 포착하는 것으로, "나는 내가 HIV 양성인이라는 사실을 받아들였다. 나는 바이러스에 대해 좀 소극적인 것 같아요. 난 괜찮을 거야."
      • 마찬가지로 '건강에 대한 책임감'이라는 개념 코드는 다음 문구에서 볼 수 있듯이 자신의 건강에 대해 책임을 지고 책임진다는 개념을 담고 있습니다: "아프면 뭔가 조치를 취해야 한다"(책임감) 또는 "HIV에 집중하지 않아서 ... 약을 먹지 않았다"(책임감 부족). 이러한 코드 분류는 코드 유형, 코드 개발 변경 유형, 코드 개발 시기를 정량화하여 결과에 보고될 패턴을 식별하는 데 사용되었습니다.

Codes were then categorized for analysis as follows.

  • First, codes were categorized as inductive or deductive.
    • Inductive codes were content-driven and raised by participants spontaneously, whereas
    • deductive codes were researcher-driven and originated from the interview guide.
  • Second, changes to codes were categorized as change in code name, change in code definition, code merged, and code split into separate codes.
    • Code definition changes were further categorized as expanded conceptually, added examples, edited inclusion/exclusion criteria, and added negative component.
  • Third, codes were also categorized as concrete or conceptual.
    • Concrete codes were those capturing explicit, definitive issues in data;
      • for example, the code “time” captured concrete issues such as travel time, waiting time, and appointment time. Similarly, the code “work commitments” captured explicit issues such as long hours, shift work, or getting time off work.
    • Conceptual codes were those capturing abstract constructs such as perceptions, emotions, judgments, or feelings.
      • For example, the conceptual code “comfort with virus” captures a subtle attitude toward HIV, a feeling of confidence, and a sense of control, as captured in this phrase: “I’ve embraced the fact that I am HIV positive . . . I guess I’m kinda passive to my virus . . . I’m gonna be OK.”
      • Similarly, the conceptual code “responsibility for health” captures the concept of taking charge and being accountable for one’s own health, as shown in these phrases: “If you get sick you need to do something about it” (taking responsibility) or “I wasn’t focused on my HIV and . . . didn’t take medication” (lack of responsibility). These categorizations of codes were used to quantify the types of codes, types of changes to code development, and timing of code development to identify patterns that will be reported in the results.

[코드 포화]가 인터뷰 기록을 검토하는 순서에 영향을 받는지 평가하기 위해 인터뷰 순서를 무작위로 지정하고, 가상의 코드 개발을 무작위 순서로 매핑한 다음, 이를 실제로 인터뷰 기록을 검토한 순서에 따른 코드 개발 결과와 비교했습니다. 이를 위해 먼저 난수 생성기를 사용하여 인터뷰 순서를 무작위로 정했습니다. 이미 동일한 인터뷰가 실제 순서대로 완료되었기 때문에 편향될 수 있으므로 코드 개발을 위해 녹취록을 검토하는 과정을 반복하지 않았습니다. 대신, 인터뷰 전체에 걸쳐 해당 주제가 동일한 횟수만큼 반복된 후에 코드가 개발될 것이라고 가정했습니다. 예를 들어, 실제 코드 개발에서 '약속을 잊어버림' 코드는 인터뷰 1과 3에서 이 문제가 언급된 후 세 번째 인터뷰에서 생성되었습니다. 따라서 무작위 순서로 '약속 잊음' 코드도 마찬가지로 이 주제가 두 번 언급된 후에 생성될 것이라고 가정했습니다. 이는 가상의 코드 개발이 실제 순서와 마찬가지로 연구자의 코드 개발 스타일을 무작위 순서에 반영하여 인터뷰 순서가 코드 개발에 미치는 영향을 보다 직접적으로 평가할 수 있도록 하기 위함이었습니다. 무작위 인터뷰의 코드 개발 패턴을 재현하기 위해 코드가 생성된 인터뷰 전에 코드가 코딩된 데이터에 적용된 인터뷰 횟수로 표시된 테마가 나타난 횟수를 계산했습니다. 그런 다음 이 숫자를 사용하여 무작위 인터뷰에서 가상의 코드 개발을 매핑했습니다. 이 계산은 모든 코드에 대해 수행되었으며 무작위 인터뷰의 코드 개발 매핑에 사용되었습니다.

To assess whether code saturation was influenced by the order in which interview transcripts were reviewed, we randomized the order of interviews, mapped hypothetical code development in the random order, and compared this with results from code development in the order in which interviews were actually reviewed. To do this, we first randomized interviews using a random number generator. We did not repeat the process of reviewing transcripts to develop codes, as this would be biased given that this process had already been completed with the same interviews in their actual order. Instead, we assumed that codes would be developed after the same number of repetitions of that theme across the interviews. For example, in actual code development, the code “forgot appointment” was created in the third interview, after this issue had been mentioned in Interviews 1 and 3. Thus, in the random order, we assumed that the “forgot appointment” code would likewise be created after two mentions of the theme. The aim here was that our hypothetical code development would reflect the researchers’ style of code development in the random order as in the actual order, so that we could assess the effect of interview order on code development more directly. We replicated the pattern of code development in the randomized interviews by calculating the number of times a theme was present (as indicated by the number of interviews in which the code was applied to the coded data) before the interview in which the code was created. We then used these numbers to map hypothetical code development in the randomized interviews. This calculation was done for all codes and was used to map code development in the randomized interviews.

의미 포화도 평가를 위한 데이터
Data for Assessing Meaning Saturation

코드 포화도에 도달하는 데 필요한 샘플 크기가 의미 포화도를 달성하기에 충분한지 평가하기 위해, [코드 포화]와 [개별 코드의 의미 포화]를 비교했습니다. 또한 코드의 유형이나 데이터에서 코드가 차지하는 비중이 어떤 코드의 포화에 영향을 미치는지도 평가했습니다.
To assess whether the sample size needed to reach code saturation was also sufficient to achieve meaning saturation, we compared code saturation with meaning saturation of individual codes. We also assessed whether the type of code or its prevalence in data influenced saturation of a code.

[의미 포화]를 파악하기 위해 원래 연구의 연구 질문에 중심이 되는, [구체적 코드와 개념적 코드](위에 정의된 대로)와 [고빈도 및 저빈도 코드](아래에 정의된 대로)가 혼합된 9개의 코드를 선택했습니다. 이러한 각 코드에 대한 궤적을 개발하여 연속적인 인터뷰를 통해 코드에 대해 알게 된 내용을 파악했습니다. 여기에는 코딩된 데이터를 사용하여 첫 번째 인터뷰에서 코드를 검색하고 설명된 문제의 다양한 차원을 기록한 다음, 두 번째 인터뷰에서 코드를 검색하고 설명된 새로운 차원을 기록한 다음, 25개의 인터뷰가 모두 검토될 때까지 이러한 방식으로 코드를 계속 추적하는 것이 포함되었습니다. 추적한 9개의 코드 모두에 대해 이 과정을 반복했습니다. [코드 궤적]을 사용하여 각 코드의 의미 포화도를 파악한 후, 추가 인터뷰에서는 코드에 대한 추가적인 차원이나 이해가 제공되지 않고 반복만 이루어졌습니다. 그런 다음 개별 코드의 [의미 포화]에 도달하는 데 필요한 인터뷰 횟수를 앞서 결정한 [코드 포화]와 비교했습니다. 
To identify meaning saturation, we selected nine codes central to the research question of the original study and comprising a mix of concrete and conceptual codes (as defined above) and high- and low-prevalence codes (as defined below). We developed a trajectory for each of these codes to identify what we learned about the code from successive interviews. This involved using the coded data to search for the code in the first interview, noting the various dimensions of the issue described, then searching for the code in the second interview and noting any new dimensions described, and continuing to trace the code in this way until all 25 interviews had been reviewed. We repeated this process for all nine codes we traced. We used the code trajectories to identify meaning saturation for each code, whereby further interviews provided no additional dimensions or understanding of the code, only repetition of these. We then compared the number of interviews needed to reach meaning saturation for individual codes with code saturation determined earlier.

코드의 유형에 따라 포화도가 영향을 받는지 평가하기 위해 구체적 코드('시간', '기분 좋음', '충분한 약물', '업무 약속')의 코드 포화와 개념적 코드('바이러스에 대한 편안함', '사형 선고가 아님', '공개', '건강에 대한 책임', 'HIV 낙인')의 코드 포화를 비교했습니다. 마지막으로 코드 포화가 코드 빈도의 영향을 받는지 평가하기 위해 빈도가 높거나 낮은 코드별로 코드 포화도를 비교했습니다. [코드 빈도prevalence]는 [코드가 존재한 인터뷰의 수]로 정의했습니다. 평균적으로 14.5개의 인터뷰에 코드가 존재했기 때문에 고빈도 코드는 14.5개 이상의 인터뷰에 나타난 코드로, 저빈도 코드는 14.5개 미만의 인터뷰에 나타난 코드로 정의했습니다. 의미 포화도를 평가한 코드 중

  • 고빈도 코드에는 "시간", "공개", "HIV 낙인", "건강에 대한 책임"이 포함되었고,
  • 저빈도 코드에는 "건강함", "직장 생활", "충분한 약물", "바이러스에 대한 편안함", "사형 선고가 아님"이 포함되었습니다.

To assess whether saturation was influenced by the type of code, we compared code saturation for the concrete codes (“time,” “feel well,” “enough medications,” and “work commitments”) with saturation for the conceptual codes (“comfort with virus,” “not a death sentence,” “disclosure,” “responsibility for health,” and “HIV stigma”). Finally, to assess whether code saturation was influenced by code prevalence, we compared code saturation by high- or low-prevalence codes. Code prevalence was defined by the number of interviews in which a code was present. On average, codes were present in 14.5 interviews; thus, we defined high-prevalence codes as those appearing in more than 14.5 interviews and low-prevalence codes as those appearing in fewer than 14.5 interviews. Of the codes assessed for meaning saturation, the high-prevalence codes included “time,” “disclosure,” “HIV stigma,” and “responsibility for health,” whereas the low-prevalence codes included “feel well,” “work commitments,” “enough medications,” “comfort with virus,” and “not a death sentence.”


파트 1: 코드 포화도
Part I: Code Saturation

코드 개발
Code development

그림 2는 코드 개발 시기를 보여줍니다. 인터뷰가 진행된 순서, 개발된 코드의 유형(귀납적 또는 연역적), 코드가 개발된 연구 집단(치료 외 그룹 또는 치료 중인 그룹)에 따라 각 연속 인터뷰에서 개발된 새로운 코드의 수를 확인했습니다. 귀납적 코드와 연역적 코드 모두 인터뷰 1에서 개발되었으며 이후에는 귀납적 코드만 추가되었습니다. 이 연구에서는 총 45개의 코드가 개발되었으며, 이 중 절반 이상(53%)의 코드가 첫 번째 인터뷰에서 개발되었습니다. 인터뷰 2와 인터뷰 3에서는 각각 5개의 코드만 추가되었고, 인터뷰 6에서는 84%의 코드가, 인터뷰 9에서는 91%의 새로운 코드가 개발되었습니다. 나머지 16번의 인터뷰에서는 4개의 코드만 추가되었습니다(전체 코드의 8%). 인터뷰 9 이후에 개발된 4개의 코드는 이전 인터뷰에서 개발된 보다 구체적인 주제 코드에 비해 개념적인 코드('약물 휴가', '체계적 무관심', '사형 선고가 아님', '타인 돕기')였습니다. 치료 외 그룹 인터뷰가 완료된 16번 인터뷰까지 연구 코드의 98%를 개발했으며, 두 번째 연구 집단(치료 중 그룹)을 추가한 결과 이 그룹의 의료적 맥락은 다르지만 추가 코드는 단 하나에 불과했습니다. 

Figure 2 shows the timing of code development. We identified the number of new codes developed from each successive interview in the order in which they were conducted, the type of code that was developed (inductive or deductive), and the study population in which codes were developed (out-of-care or in-care group). Both inductive and deductive codes were developed from Interview 1 and thereafter only inductive codes were added. A total of 45 codes were developed in this study, with more than half (53%) of codes developed from the first interview. Interviews 2 and 3 added only five additional codes each; by Interview 6, 84% of codes were identified, and by Interview 9, 91% of all new codes had been developed. The remaining 16 interviews yielded only four additional codes (8% of all codes). These four codes developed after Interview 9 were more conceptual codes (“drug vacation,” “systemic apathy,” “not a death sentence,” and “helping others”) compared with the more concrete topic codes developed in earlier interviews. By Interview 16, when out-of-care group interviews were completed, we had developed 98% of the codes in the study, and adding the second study population (in-care group) yielded only one additional code, despite the different health care context of this group of participants.

그림 2는 대부분의 코드가 가장 먼저 검토된 인터뷰로부터 개발되었음을 보여줍니다. 우리는 인터뷰를 검토하는 순서가 새로운 코드 개발 패턴에 영향을 미치는지, 특히 치료 외 그룹을 먼저 검토하는 것이 코드 개발에 영향을 미치는지 질문했습니다. 이를 평가하기 위해 무작위 인터뷰 순서로 개발된 신규 코드의 수와 실제 인터뷰를 검토한 순서에 따른 코드 개발 수를 비교했습니다. 그림 3은 무작위 인터뷰와 실제 인터뷰 검토 순서 모두에서 동일한 코드 개발 패턴이 나타났으며, 첫 번째 인터뷰에서는 여전히 절반 이상의 코드가 개발되었고 이후 인터뷰가 계속될수록 신규 코드 개발이 급격히 줄어드는 것을 보여줍니다. 두 시나리오 모두에서 여전히 대부분의 코드가 9번 인터뷰에 의해 개발되었습니다(실제 순서와 무작위 순서에서 각각 91%와 87%). 따라서 코드 개발을 위해 인터뷰를 검토하는 순서와 관계없이 초기 인터뷰가 대부분의 새로운 코드를 생성하는 동일한 패턴의 신규 코드 개발이 나타납니다.

 Figure 2 shows that the majority of codes were developed from the very first interview reviewed. We asked whether the order in which interviews were reviewed had any influence on the pattern of new code development and in particular whether reviewing the out-of-care group first influenced code development. To assess this, we compared the number of new codes developed in our randomized interview order with code development in the actual order in which interviews were reviewed. Figure 3 shows that the same pattern of code development emerged in both the random and the actual order in which interviews were reviewed, whereby more than half of codes were still developed in the first interview and new code development tapers sharply with successive interviews. In both scenarios, the majority of codes were still developed by interview 9 (91% and 87% in the actual and random order, respectively). Thus, regardless of the order in which interviews are reviewed for code development, the same pattern of new code development is seen, whereby early interviews produce the majority of new codes.

코드 정의 변경 사항
Code definition changes

표 1은 코드 개발 과정에서 변경된 코드 정의를 보여줍니다. 20개의 코드 정의(44%)는 코드 개발 프로세스 내내 전혀 변경되지 않았습니다. 뚜렷한 패턴은 없었지만, 변경되지 않은 코드의 절반은 보다 구체적인 문제를 포착했거나 인터뷰 가이드에서 질문한 문제에서 직접 파생된 것으로서 사전에 정의하기가 더 쉬웠을 수 있습니다. 이러한 구체적/연역적 코드의 대부분은 코드 개발 프로세스 초기(인터뷰 6)에 개발되었으며 이후 인터뷰를 검토할 때 변경되지 않은 채로 남아있었습니다. 변경되지 않은 구체적인 코드의 예로는 'HIV에 대한 지식', 'HIV 치료 시작', '치료 중단', '치료 복귀', '수감', '충분한 약물 복용' 등이 있습니다. 변경되지 않은 다른 유형의 코드는 개념 코드, 특히 감정을 포착하는 코드였습니다. 이러한 유형의 변경되지 않은 코드는 일반적으로 코딩 과정 후반부(인터뷰 6 이후)에 개발되었는데, 아마도 문제의 성격이 더 완전히 이해된 후 데이터에 잘 맞는 보다 포괄적인 초기 코드 정의가 만들어져 변경할 필요가 없었기 때문일 것입니다. 이러한 문제는 이전 인터뷰에서도 존재했지만 더 많은 데이터를 검토할 때까지 명확성이 부족했을 수 있습니다. 이러한 변경되지 않은 개념 코드의 예로는 분노, 감사, HIV 거부, 공개, 전신적 무관심, 약물 휴가 등이 있습니다.

Table 1 shows changes to code definitions during the process of code development. Twenty code definitions (44%) did not change at all throughout the code development process. Although there were no strong patterns, we did note that half of the unchanged codes captured more concrete issues or were derived directly from issues asked on the interview guide, and thus may be easier to define up front. Most of these concrete/deductive codes were developed early in the code development process (by Interview 6) and remained unchanged when reviewing later interviews. Examples of unchanged concrete codes include “knowledge of HIV”, “HIV treatment initiated”, “time out of treatment”, “return to treatment”, “incarceration”, and “having enough medication”. The other type of code that remained unchanged were conceptual codes, particularly those capturing emotions. This type of unchanged code was generally developed later in the coding process (after Interview 6), possibly once the nature of the issue was more fully understood, resulting in more inclusive initial code definitions that fit data well, thus requiring no changes. These issues may have been present in earlier interviews but lacked clarity until more data were reviewed. Examples of these unchanged conceptual codes were anger, gratitude, denial of HIV, disclosure, systemic apathy, and drug vacation.

나머지 25개 코드의 경우, 총 63개의 코드 정의가 변경되었습니다(표 1 참조). 이 중 4분의 3(75%)이 귀납적 내용 중심 코드에 대한 변경이었지만, 연역적 코드에 대한 변경은 최초 개발 이후에도 계속 이루어졌습니다. 예상대로 코드 개발 프로세스 초기에 많은 정의 변경이 발생했습니다. 코드 정의 변경의 약 절반(49%)이 인터뷰 2~4(데이터 미표시)를 검토하는 동안 발생했고, 인터뷰 6에서 정의 변경의 78%, 인터뷰 9에서 정의 변경의 92%가 이루어졌습니다(데이터 미표시). 따라서 코드 정의는 9번의 인터뷰를 검토한 후 안정화되기 시작했습니다. 두 번째 연구 집단(치료 중인 그룹)의 인터뷰를 검토할 때 코드 정의에 대한 변경 사항은 거의 없었습니다. 따라서 처음에 첫 번째 연구 집단에서 인터뷰를 통해 개발하고 개선한 코드 구조와 정의는 두 번째 연구 집단에도 그대로 적용되었습니다.
For the remaining 25 codes, a total of 63 changes were made to the code definitions (see Table 1). Three quarters (75%) of these changes were made to inductive, content-driven codes; however, changes were still made to the deductive codes after their initial development. As expected, many definition changes occurred early in the code development process. About half (49%) of the changes to code definitions occurred while reviewing Interviews 2 to 4 (data not shown), 78% of definition changes were made by Interview 6, and 92% of definition changes were made by Interview 9 (data not shown). Thus, the code definitions began to stabilize after reviewing nine interviews. When reviewing interviews from the second study population (in-care group), there were very few changes to the code definitions. Therefore, the code structure and definitions initially developed and refined using interviews in the first study population remained applicable to the second study population.

표 1에는 코드 정의에 대한 변경 유형도 나와 있습니다. 코드 정의를 확장하고 코드 적용 매개변수를 세분화하는 두 가지 유형의 변경이 일반적이었습니다. 코드 정의 변경의 1/3(36%)은 포착된 문제의 다양한 측면을 더 포괄할 수 있도록 정의를 개념적으로 확장하는 것과 관련이 있었습니다. 이러한 유형의 변경은 주로 귀납적 내용 중심 코드에 이루어졌으며, 추가 인터뷰를 검토하고 특정 코드 내의 다양성이 드러나면서 개선되었기 때문에 일부 코드 정의는 이 과정을 통해 여러 번 변경되었습니다. 예를 들어, '너무 아픔' 코드는 처음에는 독감과 같은 일회성 신체 질환으로 인해 병원에 방문하지 못하는 경우를 포착하기 위해 정의되었지만, HIV 감염인 생활로 인한 누적된 피로와 피로, 그리고 여러 HIV 관련 건강 상태를 경험하여 병원 방문을 놓친 경우까지 포착하도록 확장되었습니다. 마찬가지로 '부작용' 코드는 처음에는 HIV 치료제 복용으로 인한 부작용 경험을 포착하기 위해 정의되었다가 부작용으로 인한 HIV 치료제 기피도 포함하도록 확장되었고, 이후에는 약을 복용하지 않아 증상을 피하기 위해 HIV 약을 복용하는 순응도까지 포착하도록 확장되었습니다.
Table 1 also shows the types of changes made to code definitions. Two types of changes were common: expanding the code definition and refining the parameters of code application. One third (36%) of changes to a code definition involved conceptually expanding the definition to be more inclusive of different aspects of the issue captured. This type of change was mostly made to inductive content-driven codes that were refined as further interviews were reviewed and the variation within specific codes was revealed; thus, some code definitions changed multiple times through this process. For example, the code “too sick” was initially defined to capture a one-off physical illness preventing clinic visits, such as a flu-like illness, but was expanded to also capture cumulative exhaustion and fatigue from living with HIV and experiencing multiple HIV-related health conditions that led to missed clinic visits. Similarly, the code “side effects” was initially defined to capture experiences of side effects from taking HIV drugs, then expanded to also include avoidance of HIV drugs due to the side effects caused, and then further expanded to capture compliance with taking HIV drugs to avoid symptoms from not taking these drugs.

두 번째로 흔한 변경 유형은 코드가 포착하는 문제의 예시 추가(25%), 포함 또는 제외 기준 구체화(10%), 정의에 부정적 요소 추가(16%) 등 코드 적용의 매개변수를 세분화하는 것이었습니다. 예를 들어, '지원 출처'의 코드 정의에 '지원 부족'을, 'HIV 낙인' 코드 정의에 'HIV 낙인 경험 없음'을 포함시켰습니다. 문제를 더 잘 반영하기 위해 코드명을 수정하거나 문제의 다른 구성 요소를 개별적으로 포착하기 위해 코드를 두 개의 개별 코드로 분리하는 등의 기타 코드 변경은 그다지 흔하지 않았습니다. 코드 정의를 좁히기 위해 변경된 코드는 없었습니다.
The second common type of change involved refining the parameters of code application, such as adding examples of the issue being captured by a code (25%), refining inclusion or exclusion criteria (10%), and adding negative components to a definition (16%). For example, we included lack of support in the code definition of “source of support,” and no experience of HIV stigma in the “HIV stigma” code definition. Other changes to codes were less common, such as editing the code name to better reflect the issue and splitting a code into two separate codes to capture different components of the issue separately. No codes were changed to narrow the code definition.

코드 빈도
Code prevalence

연구에서 가장 많이 사용된 코드가 언제 개발되었는지 알아보고자 했습니다. 그림 4는 각 코드를 별도의 막대로 표시합니다: X축에서 코드의 위치는 해당 코드가 어느 인터뷰에서 개발되었는지를 나타내며, 막대의 높이는 해당 코드가 사용된 인터뷰의 수를 나타냅니다. 예를 들어, 처음 4개의 막대는 이 4개의 코드가 인터뷰 1에서 개발되어 25개의 모든 인터뷰에서 사용되었음을 나타냅니다. 가로 점선은 이 연구에서 코드가 나타난 평균 인터뷰 횟수인 14.5회를 나타냅니다. 따라서 점선 위에 나타나는 코드는 데이터 세트 전체에서 평균보다 높은 빈도를 나타냅니다. 따라서 이 데이터에서 24개의 코드가 높은 유병률을 보였고 21개의 코드가 낮은 유병률을 보였습니다. 그림 4를 보면 고빈도 코드의 75%(18/24)는 첫 번째 인터뷰에서 이미 확인되었고, 87%(21/24)는 인터뷰 6에서, 92%(22/24)는 인터뷰 9에서 고빈도 코드가 개발되었음을 알 수 있습니다. 따라서 고빈도 코드의 대부분은 초기 인터뷰에서 확인되었습니다. 인터뷰 1 이후에 개발된 대부분의 코드는 데이터 세트 전체에서 그 빈도가 낮았습니다.
We wanted to determine when the most prevalent codes in the study were developed. Figure 4 represents each code as a separate bar: The location of a code on the x-axis indicates in which interview a code was developed, and the height of the bar indicates the number of interviews in which a code was used. For example, the first four bars indicate that these four codes were developed in Interview 1 and were used in all 25 interviews. The horizontal dashed line shows the average number of interviews in which a code appears in this study, which is 14.5 interviews. Thus, a code appearing above the dashed line has a higher than average prevalence across the data set as a whole. Thus, 24 codes were of high prevalence and 21 of low prevalence in these data. Figure 4 shows that 75% (18/24) of high-prevalence codes were already identified from the first interview, 87% (21/24) by Interview 6, and 92% (22/24) of high-prevalence codes were developed by Interview 9. Therefore, the vast majority of the high-prevalence codes are identified in early interviews. Most of the codes developed after Interview 1 were less prevalent across the data set.

그림 4는 또한 개발된 코드 유형(구체적 또는 개념적), 각 코드 유형이 개발된 시기, 그리고 이러한 데이터 전체에 걸쳐 다양한 유형의 코드가 얼마나 널리 퍼져 있는지를 보여줍니다. 이 그림에 따르면 첫 번째 인터뷰에서 개발된 코드의 4분의 3(18/24)이 구체적인 코드였으며, 첫 번째 인터뷰에서 개발된 코드의 25%만이 개념적인 코드였습니다. 인터뷰 6 이후에 개발된 코드는 주로 저빈도 코드였으며 거의 전적으로 개념적 코드(7/9, 78%)였고, 이러한 개념적 코드 중 43%(3/7)는 유병률이 높은 코드였습니다. 전반적으로 이 수치는

  • [초기에 개발된 코드]는 [고빈도, 구체적 코드]인 반면,
  • [나중에 개발된 코드]는 [저빈도, 개념적 코드]임을 보여 주지만,

연구의 후반 인터뷰에서는 빈도가 높고 개념적인 코드가 일부 개발되었습니다.

Figure 4 also shows the type of codes developed (concrete or conceptual), when each type of code was developed, and the prevalence of different types of codes across these data as a whole. This figure shows that three quarters (18/24) of codes developed from the first interview were concrete codes, with only 25% of codes from the first interview being conceptual. Codes developed after Interview 6 were mainly low-prevalence codes and were almost exclusively conceptual codes (7/9, 78%), with 43% (3/7) of these conceptual codes being high-prevalence codes. Overall, these figures show that codes developed early were high prevalence, concrete codes, while those developed later were less prevalent, conceptual codes, although some high prevalent, conceptual codes were developed in later interviews in the study.

코드 포화
Code saturation

코드 포화도를 결정하기 위한 선험적 임계값은 없었으며, 분석 결과에 따라 결정되었습니다. 코드 식별률(코드의 91%가 식별됨), 코드 유병률(유병률이 높은 코드의 92%가 식별됨), 코드집 안정성(코드 정의 변경의 92%가 이루어짐)의 조합을 기준으로 [9번의 인터뷰]를 통해 [코드 포화]에 도달했다고 판단했습니다. 이러한 데이터에서 제기된 새로운 이슈의 범위를 파악하는 데는 9번의 인터뷰로 충분했지만, 당시의 이슈를 단순히 개괄적으로 설명하는 것과 비교했을 때 제기된 모든 이슈를 완전히 이해하는 데도 9번의 인터뷰로 충분한지 질문했습니다. 9번의 인터뷰로도 데이터 전반에서 제기된 이슈의 의미 포화도에 도달할 수 있었을까요? 다음 섹션에서 이 질문에 대해 살펴보겠습니다.
We did not have an a priori threshold to determine code saturation; rather, it was determined based on results of our analysis. We determined that code saturation was reached at nine interviews based on the combination of

  • code identification (91% of codes were identified),
  • code prevalence (92% of high-prevalence codes were identified), and
  • codebook stability (92% of code definition changes had been made).

Although nine interviews were sufficient to identify the range of new issues raised in these data, we asked whether nine interviews were also sufficient to fully understand all of the issues raised, compared with having simply outlined the issues at that point. Were nine interviews also sufficient to reach meaning saturation of the issues across data? We explore this question in the next section.

2부: 의미 포화
Part II: Meaning Saturation

의미 포화
Meaning saturation

2부에서는 9번의 인터뷰가 데이터에서 제기된 이슈를 포괄적으로 이해하기에 충분한지 평가합니다. 따라서 [코드 포화]와 [의미 포화] 사이의 일치 여부를 평가합니다. 이를 위해 연구의 각 연속적인 인터뷰에서 코드에 대해 얻은 정보를 기록하여 개별 인터뷰에서 코드에 대해 배운 내용을 더 자세히 파악하고 개별 코드가 의미 포화 상태에 도달하는 시점을 평가했습니다. 원래 연구의 연구 질문에 중심이 되는 9개의 코드를 추적했으며, 구체적 코드, 개념적 코드, 고빈도 또는 저빈도 코드를 혼합하여 포함했습니다. 표 2는 우리가 추적한 9개의 코드를 보여주며, 인터뷰를 통해 확인된 각 코드의 다양한 차원을 나열합니다. 의미 포화도는 새로운 코드 차원이 확인된 마지막 인터뷰에서 발생하는 것으로 결정되었습니다. 예를 들어,

  • '기분 좋음' 코드는 인터뷰 1, 3, 4에서 확인된 5개의 차원으로 구성되어 있어 인터뷰 4에서 의미 포화 상태에 도달했고,
  • '공개' 코드는 여러 인터뷰에서 확인된 13개의 차원으로 구성되어 있어 인터뷰 17에서 의미 포화 상태에 도달했습니다.

그림 5는 9개의 코드가 각각 언제 개발되었는지, 그리고 각 코드가 언제 의미 포화 상태에 도달했는지를 시각적으로 보여줍니다. 
In Part II, we assess whether nine interviews were indeed sufficient to gain a comprehensive understanding of the issues raised in the data. Thus, we assess the congruence between code saturation and meaning saturation. To do so, we recorded the information gained about a code from each successive interview in the study, to identify in greater detail what we learn about a code from individual interviews and to assess when individual codes reach meaning saturation. We traced nine codes central to the research question of the original study and included a mix of concrete, conceptual, and high- and low-prevalence codes. Table 2 shows the nine codes we traced, listing the various dimensions of each code that were identified by interview. Meaning saturation was determined to occur at the last interview in which a novel code dimension is identified.

  • As such, the code “feel well” comprises five dimensions that were identified from Interviews 1, 3, and 4; thus, it reached meaning saturation at Interview 4.
  • The code “disclosure” has 13 dimensions, identified across numerous interviews, and it reached meaning saturation at Interview 17.

Figure 5 visually depicts when each of these nine codes was developed and when each code reached meaning saturation.


표 2는 초기 인터뷰에서 많은 차원의 코드가 포착되었음을 보여줍니다. 

  • 인터뷰 6에서는 이미 각 코드의 여러 차원이 식별되었으며, 이 시점에서 하나의 코드가 의미 포화 상태에 도달했습니다. 
  • 인터뷰 9와 12에서는 각 코드에 추가되는 새로운 차원이 줄어들고, 5개의 코드가 의미 포화 상태에 도달했습니다. 
  • 인터뷰 12 이후에도 여러 코드가 의미 포화 상태에 도달하지 않았으며, 마지막 인터뷰까지 여러 차원의 코드가 여전히 식별되고 있습니다. 

따라서 9개의 인터뷰 표본 크기로는 일부 코드의 모든 차원을 파악할 수 있지만 다른 코드의 차원은 파악할 수 없는데, 이에 대해서는 아래에서 자세히 살펴봅니다. 

Table 2 shows that many dimensions of codes are captured in early interviews.

  • By Interview 6, multiple dimensions of each code are already identified, with one code reaching meaning saturation at this point.
  • By Interviews 9 and 12, fewer new dimensions are added to each code, and five codes have now reached meaning saturation.
  • After Interview 12, several codes have not reached meaning saturation, with multiple dimensions of codes still being identified until the last interview.

Therefore, a sample size of nine interviews is sufficient for capturing all dimensions of some codes but not others; we explore this further below.

표 2는 또한 의미 포화도에는 다양한 인터뷰가 필요하며, 다양한 인터뷰는 문제에 대한 포괄적인 이해를 위해 코드의 새로운 차원이나 뉘앙스에 기여한다는 점을 강조합니다. 

  • 예를 들어, '공개'라는 코드의 다양한 차원은 9개의 서로 다른 인터뷰를 통해 확인되었으며, 일부 인터뷰에서는 공개에 대한 여러 차원을 제공하기도 했습니다. 
  • '시간'과 같은 구체적인 코드의 경우에도 모든 차원을 완전히 포착하여 문제를 이해하려면 4가지 다른 인터뷰가 필요합니다. 

따라서 처음에는 한 번의 인터뷰로 코드를 식별할 수 있지만, 문제를 완전히 이해하려면 코드의 모든 차원을 포착하기 위해 여러 번의 인터뷰가 필요합니다. 이는 포화를 평가할 때 코드가 단순히 식별되는 [코드 포화]를 넘어 더 많은 데이터가 필요한 [의미 포화](코드가 완전히 이해되는 의미 포화도)로 나아가야 할 수 있음을 의미합니다.

 Table 2 also highlights that meaning saturation requires a range of interviews, with different interviews contributing a new dimension or nuance of the code toward a comprehensive understanding of the issue.

  • For example, the various dimensions of the code “disclosure” were identified from nine different interviews, with some interviews providing several dimensions of disclosure.
  • Even a concrete code such as “time” requires four different interviews to fully capture all dimensions and thus understand the issue.

Therefore, a code may be initially identified in one interview, but it requires multiple interviews to capture all dimensions of the code to fully understand the issue. This implies that assessing saturation may need to go beyond code saturation (whereby codes are simply identified) toward meaning saturation (where codes are fully understood), which requires more data.

그림 5는 개별 코드가 데이터의 여러 지점에서 의미 포화에 도달했음을 보여줍니다.

  • 일부 코드는 인터뷰 9에서 의미 포화도에 도달했지만, 다른 코드는 훨씬 늦게 또는 전혀 도달하지 못했습니다.
  • 구체적인 문제를 나타내는 코드는 인터뷰 9에서 의미 포화도에 도달하거나 그보다 더 빨리 도달했습니다.
    • 예를 들어, 구체적인 코드인 '기분 좋음', '충분한 약', '시간'은 각각 인터뷰 4, 7, 9에서 의미 포화도에 도달했습니다.
  • 그러나 보다 개념적인 문제를 나타내는 코드는 데이터의 후반부인 인터뷰 16과 24 사이에 의미 포화도에 도달했습니다.
    • 예를 들어, "사형 선고가 아님", "공개", "HIV 낙인" 코드는 각각 인터뷰 16, 17, 24에서 의미 포화도에 도달했습니다. '건강에 대한 책임' 코드는 마지막 인터뷰에서도 새로운 차원이 확인되었기 때문에 의미 포화 상태에 도달하지 않았습니다.

Figure 5 demonstrates that individual codes reached meaning saturation at different points in these data. While some codes reached meaning saturation by Interview 9, other codes reached meaning saturation much later or not at all. Codes representing concrete issues reached meaning saturation by Interview 9 or sooner. For example, the concrete codes “feel well,” “enough medications,” and “time” reached meaning saturation by Interviews 4, 7, and 9, respectively. However, codes representing more conceptual issues reached meaning saturation much later in the data, between Interviews 16 and 24. For example, the codes “not a death sentence,” “disclosure,” and “HIV stigma” reached meaning saturation by Interviews 16, 17, and 24, respectively. The code “responsibility for health” did not reach meaning saturation, as new dimensions were still identified at the last interview conducted.

또한 그림 5는 코드가 개발된 시점과 해당 코드의 모든 차원이 포착된 시점을 시각적으로 보여줌으로써 [코드 생성 후 각 코드를 완전히 이해하는 데 필요한 추가 인터뷰 횟수]를 강조합니다(가로선의 길이로 표시됨). 이는 [개념적 코드]의 모든 차원을 완전히 이해하려면 [구체적 코드]를 완전히 이해하는 것보다 훨씬 더 많은 데이터가 필요하다는 점을 강조합니다. 예를 들어, 

  • '기분 좋음'이라는 [구체적 코드]는 모든 차원을 파악하는 데 4번의 인터뷰만 필요했지만,
  • '공개'라는 개념적 코드는 여러 차원을 파악하는 데 17번의 인터뷰가 필요했습니다.

일부 [개념적 코드]의 경우, 해당 코드의 구체적인 차원을 조기에 파악할 수 있는 반면, 추상적인 차원일수록 [모든 차원]을 파악하기 위해 더 많은 데이터가 필요합니다.

  • 예를 들어, 'HIV 낙인' 코드의 경우, 초기 인터뷰에서는 구체적인 유형의 낙인을 파악할 수 있지만, 자기 낙인, 낙인으로 인한 스트레스, HIV로 인한 사망에 대한 낙인, 낙인을 피하기 위한 HIV 상태 공개 등 보다 미묘한 차원의 낙인을 파악하려면 더 많은 데이터가 필요합니다(표 2 참조).

요약하자면, 9개의 표본 크기는 이러한 데이터의 [구체적 코드]를 이해하는 데는 충분하지만, 이러한 [개념적 코드]나 구체적인 코드의  [개념적 차원을 완전히 이해]하기에는 충분하지 않습니다.
Figure 5 also visually depicts the point at which a code was developed and the point at which all dimensions of that code were captured, thus highlighting the number of additional interviews after code creation that are needed to gain a full understanding of each code (as depicted by the length of the horizontal line). This highlights that fully understanding all dimensions of conceptual codes requires much more data than fully understanding concrete codes. For example, the concrete code “feel well” required only four interviews to identify all its dimensions, whereas the conceptual code “disclosure” required 17 interviews to identify its multiple dimensions. For some conceptual codes, the more tangible concrete dimensions of that code are captured early, whereas the more abstract dimensions require more data to capture all dimensions. For example, in the code “HIV stigma”, the concrete types of stigma are identified from early interviews, but more data are required to reveal the more nuanced dimensions of stigma such as self-stigma, stress of stigma, stigma of dying from HIV, and disclosure of HIV status to avoid stigma (see Table 2). In sum, a sample size of nine would be sufficient to understand the concrete codes in these data, but it would not be sufficient to fully understand conceptual codes or conceptual dimensions of these concrete codes.

의미 포화도가 데이터에서 코드의 유병률이 높은지 낮은지에 따라 영향을 받는지 질문했지만 코드 빈도에 따른 명확한 패턴은 발견되지 않았습니다. 그림 5에서 '시간', '공개', 'HIV 낙인', '건강에 대한 책임'의 고빈도 코드는 9번과 24번 인터뷰 사이에 의미 포화도에 도달하거나 포화도에 도달하지 않았습니다. 저빈도 코드는 인터뷰 6과 16 사이에 의미 포화 상태에 도달했습니다. 이는 데이터에서 더 자주 발견되는 코드가 덜 자주 발견되는 코드보다 문제를 이해하는 데 더 적은 수의 인터뷰가 필요하지 않을 수 있음을 시사합니다. 이 데이터에서는 고빈도 코드와 저빈도 코드 모두 원래 연구의 연구 질문에 똑같이 중요했습니다.
We asked if meaning saturation is influenced by whether a code is of high or low prevalence in these data but found no clear patterns by code prevalence. In Figure 5, high-prevalence codes of “time,” “disclosure,” “HIV stigma,” and “responsibility for health” reached meaning saturation between Interviews 9 and 24 or did not reach saturation. Low-prevalence codes reached meaning saturation between Interviews 6 and 16. This suggests that codes found more frequently in data may not require fewer interviews to understand the issue than codes found less frequently. In these data, both the high- and low-prevalence codes were equally important for the research question of the original study.


이 연구는 질적 연구의 포화를 평가하는 제한된 방법론 연구에 기여합니다. 우리는 포화도에 대한 두 가지 접근 방식, 각 접근 방식별로 포화도에 도달하는 데 필요한 샘플 크기, 코드의 특성이 포화도에 영향을 미치는지 여부를 문서화하고자 했습니다. 그 결과를 사용하여 포화도에 도달하기 위한 샘플 크기에 영향을 미치는 매개변수를 개발했습니다.
This study contributes to a limited body of methodological research assessing saturation in qualitative research. We sought to document two approaches to saturation, the sample sizes needed to reach saturation for each approach, and whether the nature of codes influences saturation. We used our results to develop parameters that influence sample sizes for reaching saturation.

그 결과 9번의 인터뷰 끝에 [코드 포화에 도달]했으며, 두 번째 연구 모집단을 추가한 후에도 포화도는 변하지 않았습니다. 또한 [첫 번째 인터뷰]신규 코드의 절반 이상(53%)과 고빈도 코드의 4분의 3(75%)을 차지했으며, 포화 상태에 이를 때까지 후속 인터뷰가 각각 몇 개의 신규 코드를 추가한 것으로 나타났습니다. 따라서 9번의 인터뷰를 통해 공통적인 주제별 이슈의 범위가 파악되었고 코드북이 안정화되었습니다. 이러한 결과는 7~12개의 인터뷰 사이에 데이터 포화 상태가 발생하고, 인터뷰 1과 6 사이에 주제의 기본 요소가 많이 존재한다는 것을 확인한 Guest 등(2006)의 연구 결과와 매우 유사합니다. 또한 우리의 연구 결과는 원하는 포화도에 따라 8~16개의 인터뷰 사이에 포화도가 발생한다는 것을 확인한 Namey, Guest, McKenna, Chen(2016)의 연구 결과와도 일치합니다. 그러나 본 연구는 Guest 등이 수행한 것처럼 6개의 일괄 인터뷰가 아닌 개별 인터뷰에서 개발된 코드를 묘사함으로써 이전 연구보다 더 높은 정밀도를 제공하므로 코드 개발에 대한 첫 번째 인터뷰의 중요한 기여도를 파악하고 코드 포화의 시기와 궤적을 더 정확하게 지정할 수 있습니다.
Our results show that code saturation was reached after nine interviews; even after adding the second study population, saturation was not altered. We also show that the first interview conducted contributed more than half (53%) of new codes and three quarters (75%) of high-prevalence codes, with subsequent interviews adding a few new codes each until saturation. Thus, by nine interviews, the range of common thematic issues was identified, and the codebook had stabilized. These results are remarkably similar to those of Guest et al. (2006), who identified that data saturation occurred between seven and 12 interviews, with many of the basic elements of themes present between Interviews 1 and 6. Our findings also concur with Namey, Guest, McKenna, and Chen (2016), who identified that saturation occurred between eight and 16 interviews, depending on the level of saturation sought. However, our study provides greater precision than previous work by delineating codes developed in individual interviews (rather than in batches of six as done by Guest et al.); thus, we identify the significant contribution of the first interview to code development and specify the timing and trajectory of code saturation more precisely.

[코드 포화]는 [데이터 수집 중에 연구 주제와 관련된 이슈의 범위가 파악되고 더 이상 새로운 이슈가 발생하지 않는다]고 주장하여 포화도를 평가하는 데 자주 사용됩니다. 그러나 연구 결과에 따르면 [코드 포화]에 도달하는 것만으로는 충분하지 않을 수 있습니다. [코드 포화]는 문제를 식별하고 강력한 코드북으로 이어질 수 있지만, 이러한 문제를 완전히 이해하려면 더 많은 데이터가 필요합니다. 포화에 영향을 미치는 것은 이슈의 존재 여부나 빈도뿐만 아니라 이슈를 이해하는 데 도움이 되는 이슈에서 파생된 데이터의 풍부함입니다(Emmel, 2015; Morse, 1995):
Code saturation is often used during data collection to assess saturation, by claiming that the range of issues pertinent to the study topic have been identified and no more new issues arose. However, our results show that reaching code saturation alone may be insufficient. Code saturation will identify issues and lead to a robust codebook, but more data are needed to fully understand those issues. It is not only the presence or frequency of an issue that contributes to saturation but more importantly the richness of data derived from an issue that contributes to understanding of it (Emmel, 2015; Morse, 1995):

[포화도에 대한 잘못된 생각]은 연구자가 "모든 것을 다 들었을 때" 데이터가 포화 상태가 된다는 것입니다. 이 기준은 단독으로 사용할 경우 부적절하며 연구 중인 주제에 대한 이해가 얕을 수 있습니다. (모스, 2015, 587쪽)
[A] mistaken idea about saturation is that data become saturated when the researcher has “heard it all” . . . When used alone, this criterion is inadequate and may provide a shallow . . . understanding of the topic being studied. (Morse, 2015, p. 587)

따라서 [코드 포화]는 주요 탐구 영역에 대한 개요를 제공하기 때문에 [적은 수의 인터뷰]로 도달할 수 있지만, 관심 있는 현상을 이해하는 데 중요한 의미를 지닌 데이터의 깊이, 풍부함, 복잡성을 제공하려면 [더 많은 데이터]가 필요합니다.
Thus, code saturation may be reached with few interviews as it provides an outline of the main domains of inquiry, but further data are needed to provide depth, richness, and complexities in data that hold important meaning for understanding phenomena of interest.

이번 연구에서 가장 설득력 있는 결과는 [의미 포화]를 평가하는 두 번째 접근 방식과 다른 연구에서 평가되지 않은 [코드 특성이 의미 포화에 미치는 영향]과 관련이 있을 것입니다. 연구 결과에 따르면 코드는 균일하지 않고 서로 다른 지점에서 의미 포화도에 도달하거나 포화도에 도달하지 않는 것으로 나타났습니다.

  • 일부 코드의 경우 코드 포화도에 도달하는 것만으로도 의미 포화도를 달성할 수 있었지만,
  • 다른 코드의 경우 문제를 완전히 이해하려면 훨씬 더 많은 데이터가 필요했습니다.
  • [고빈도 구체적 코드]는 일반적으로 초기 인터뷰에서 식별되었으며 [9번의 인터뷰 또는 그 이전]에 의미 포화 상태에 도달하는 것으로 나타났습니다.
  • 그러나 후기 인터뷰에서 확인된 코드는 [저빈도 개념적 코드]로, 의미 포화 상태에 도달하기 위해 [16~24회의 인터뷰]를 통해 더 많은 데이터가 필요했거나 의미 포화 상태에 도달하지 못했습니다.

Perhaps the most compelling results of our study relate to our second approach of assessing meaning saturation and how code characteristics influence meaning saturation, which has not been assessed in other studies. Our results show that codes are not uniform; rather, they reach meaning saturation at different points or do not reach saturation.

  • For some codes, reaching code saturation was also sufficient to achieve meaning saturation,
  • but for other codes, much more data were needed to fully understand the issue.
  • We found that high-prevalence concrete codes were typically identified in early interviews and reached meaning saturation by nine interviews or sooner.
  • However, codes identified in later interviews were low-prevalence conceptual codes that required more data to reach meaning saturation, between 16 and 24 interviews, or they did not reach meaning saturation.

따라서 코드 포화도에서 제안하는 [9개의 표본 크기]는 데이터의 명시적인 구체적인 문제를 포괄적으로 이해하는 데만 충분할 뿐, 훨씬 더 많은 데이터가 필요한 구체적인 코드의 미묘한 개념적 문제와 개념적 차원을 놓칠 수 있습니다. 이를 고려하는 또 다른 방법은 코드를 이해하려면 [다양한 인터뷰]가 필요하며, [다양한 인터뷰]는 문제에 대한 완전한 이해를 구축하는 새로운 차원에 기여한다는 것입니다. 구체적 코드의 경우에도 모든 차원을 이해하려면 4~9개의 인터뷰가 필요하지만, 개념적 코드는 그 의미를 완전히 파악하기 위해 훨씬 더 많은 데이터(즉, 4~24개의 인터뷰)가 필요합니다. 따라서 하나의 코드가 한 인터뷰에서 식별되어 다른 인터뷰에서 반복될 수 있지만, 이를 완전히 이해하려면 문제의 모든 차원을 파악하기 위해 추가 인터뷰가 필요합니다. 이러한 결과는 [코드를 식별하는 것 이상으로 더 많은 데이터를 수집]하고 '모든 것을 들었는지'가 아니라 '모든 것을 이해했는지'를 물어야만 데이터 포화 상태라고 주장할 수 있다는 점을 강조합니다. 또한 의미 포화도를 달성하려면 반복적인 샘플링 프로세스를 사용하여 데이터의 다양성, 명확성 및 깊이를 모니터링하고 이해도가 낮은 참가자 또는 도메인에 데이터 수집을 집중해야 합니다.
Thus, a sample size of nine—as suggested by code saturation—would only be sufficient to develop a comprehensive understanding of explicit concrete issues in data and would miss the more subtle conceptual issues and conceptual dimensions of concrete codes, which require much more data. Another way to consider this is that understanding any code requires a range of interviews, with different interviews contributing new dimensions that build a complete understanding of the issue. Even concrete codes required between four and nine interviews to understand all dimensions; however, conceptual codes required an even greater range of data (i.e., between 4 and 24 interviews) to fully capture their meaning. Therefore, a code may be identified in one interview and repeated in another, but additional interviews are needed to capture all dimensions of the issue to fully understand it. These findings underscore the need to collect more data beyond the point of identifying codes and to ask not whether you have “heard it all” but whether you “understand it all”—only then could data saturation be claimed. Achieving meaning saturation also necessitates using an iterative process of sampling to monitor diversity, clarity, and depth of data, and to focus data collection on participants or domains that are less understood.

코드 사용률에 따른 포화도 패턴은 발견되지 않았습니다. 데이터에서 더 자주 언급된 이슈는 덜 자주 언급된 이슈보다 의미 포화도에 더 빨리 도달하지 않았습니다. 따라서 코드 유병률은 해당 이슈의 의미가 언제 도달할 수 있는지를 알려주지 않기 때문에 포화도를 나타내는 강력한 지표가 아닙니다. "중요한 것은 주제와 관련된 데이터가 발생하는 빈도가 아니라 특정 데이터 세그먼트가 유익한 분석 논거를 개발하고 테스트할 수 있는지 여부"이기 때문에 이는 놀라운 일이 아닙니다(Hammersley, 2015, p.688). 즉, 빈도가 높은 코드가 대부분 식별되었다고 해서 반드시 중요한 문제가 포착된 것과 동일시해서는 안 됩니다. 빈도가 낮은 코드도 데이터의 주제를 이해하는 데 똑같이 기여할 수 있으며, 따라서 빈도가 아니라 이해에 기여하는 정도가 중요해집니다. Morse(2015)는 데이터가 정상 곡선을 따라 발생하며, 일반적인 데이터는 중간에, 덜 일반적인 데이터는 곡선의 꼬리에 위치한다는 점을 강조하여 이를 잘 설명했습니다. 하지만
We found no pattern of saturation by code prevalence. Issues raised more frequently in data did not reach meaning saturation sooner than issues mentioned less frequently. Therefore, code prevalence is not a strong indicator of saturation, as it provides no indication of when the meaning of that issue may be reached. This should not be surprising because “it is not so much the frequency with which data relevant to a theme occurs that is important but rather whether particular data segments allow a fruitful analytic argument to be developed and tested” (Hammersley, 2015, p.688). Code prevalence should also not be equated with code importance; in other words, if most high-prevalence codes have been identified, this does not necessarily equate to important issues having been captured. Less prevalent codes may contribute equally to understanding themes in data; thus, they become important not for their frequency but for their contribution to understanding. Morse (2015) described this well by highlighting that data accrue along a normal curve, with common data in the middle and less common data at the tails of the curve. However,

질적 조사에서는 곡선의 꼬리에 있는 데이터도 똑같이 중요합니다. 곡선의 중앙에 있는 데이터가 덜 일반적인 데이터를 압도하고 꼬리에 있는 똑같이 중요한 데이터를 무시할 위험이 있습니다. (p. 587)
in qualitative inquiry, the data at the tails of the curve are equally important . . . The risk is that the data in the center of the curve will overwhelm the less common data, and we will ignore the equally significant data at the tails. (p. 587)

따라서 빈도가 높은 코드를 포착하여 포화도를 정당화하는 것은 포화도의 요점을 놓치는 것이며, [의미 포화]를 추구하면 곡선을 평평하게 만들어 현상 이해에 기여할 수 있는 코드의 잠재력을 동등하게 취급할 수 있습니다. 이는 포화도를 주장할 때 [코드의 빈도를 계산]하는 것이 아니라, [코드의 의미를 포착]했음을 입증하는 것이 중요하다는 점을 강조합니다.
Therefore, justifying saturation by capturing high-prevalence codes misses the point of saturation; striving for meaning saturation flattens the curve to treat codes equally in their potential to contribute to understanding phenomena. This stresses the importance of demonstrating that the meaning of codes were captured instead of counting the prevalence of codes when claiming saturation.

연구 결과는 [포화가 여러 매개변수의 영향을 받는다]는 점을 강조합니다(그림 6). 이러한 매개변수는 연구 제안서에서 특정 연구에 선험적으로 필요한 표본 크기를 추정하는 데 사용할 수 있으며, 포화도를 평가하고 달성한 근거를 입증하여 사용된 표본 크기를 정당화하는 데 사용할 수도 있습니다. 각 매개변수는 지렛대 역할을 하며 특정 연구의 맥락에서 '가중치'를 부여해야 합니다. 따라서 표본 크기는 단일 매개변수 단독이 아닌 [모든 매개변수의 영향력을 합산]하여 결정됩니다. 예를 들어, 일부 매개변수가 포화도에 대해 더 작은 표본을 나타내고 다른 매개변수가 더 큰 표본을 제안하는 경우, 결합된 영향력을 고려하면 중간 표본 크기가 필요하다는 것을 알 수 있습니다.
Our results highlight that saturation is influenced by multiple parameters (Figure 6). These parameters can be used in a research proposal to estimate sample sizes needed a priori for a specific study or they can be used to demonstrate the grounds on which saturation was assessed and achieved thereby justifying the sample size used. Each parameter acts as a fulcrum and needs to be “weighed up” within the context of a particular study. A sample size is thus determined by the combined influence of all parameters rather than any single parameter alone. For example, where some parameters indicate a smaller sample for saturation and others suggest a larger sample, the combined influence would suggest the need for an intermediate sample size.

  • 연구 목적이 포화도에 영향을 미칩니다. 코드 포화도는 9번의 인터뷰로 도달할 수 있으며, 이는 광범위한 주제에 대한 개요를 제시하거나 설문조사 도구의 항목을 개발하는 것을 목표로 하는 연구에는 충분할 수 있지만 복잡한 현상을 이해 또는 설명하거나 이론을 개발하기 위해 의미 포화도가 필요한 경우에는 더 많은 표본이 필요합니다. 
  • 연구 모집단의 특성은 포화도에 영향을 미칩니다. 본 연구에는 특정 클리닉에서 HIV 치료를 받는 퇴역군인의 비교적 동질적인 표본이 포함되었지만, 연구 집단이 더 다양하다면 코드와 의미 포화도를 모두 달성하기 위해 더 큰 표본 크기가 필요할 것으로 예상됩니다. 
  • 사용된 샘플링 전략이 포화도에 영향을 미칠 수 있는데, 반복 샘플링은 고정 모집 기준을 사용하는 것보다 포화도에 도달하기 위해 더 작은 표본이 필요할 수 있지만, 반복 샘플링은 궁극적으로 표본 크기를 확장하는 새로운 데이터 소스를 발견할 수도 있습니다. 따라서 샘플링 전략에 따라 표본 크기에 서로 다른 영향을 미칠 수 있습니다. 
  • 데이터 품질은 포화도에 영향을 미치는데, '두꺼운' 데이터는 '얇은' 데이터보다 더 깊고 풍부한 인사이트를 제공하지만, 연구 목표에 부합한다면 후자의 데이터로도 코드 포화를 달성하기에 충분할 수 있습니다. 
  • 개발된 코드의 유형은 포화도에 영향을 미칩니다. 데이터에서 명시적이고 구체적인 문제를 포착하려면 더 작은 샘플이 필요하고, 미묘하거나 개념적인 문제를 포착하려면 훨씬 더 큰 샘플이 필요하다는 것을 보여줍니다. 
  • 코드북의 복잡성과 안정성은 포화도에 영향을 미칩니다. 코드북에는 명시적, 미묘한, 개념적 코드를 포함한 광범위한 코드가 포함되어 있어 일부 코드는 안정화되어 포화 상태에 도달한 반면, 다른 코드의 차원은 25번의 인터뷰에서도 여전히 나타나고 있었습니다. 
  • 마지막으로, 포화의 목표와 초점이 포화에 도달하는 위치에 영향을 미쳤습니다. 연구 결과는 '포화 상태에 도달하는 것'이 일률적인 성과가 아님을 보여줍니다. [코드 포화]에 도달하는 것은 [의미 포화]에 도달하는 것과는 다르며, 각각 다른 샘플 크기가 필요합니다. 개별 코드도 데이터의 다른 지점에서 포화에 도달하며, 원하는 포화의 전체 비율은 연구 또는 연구자마다 다를 수 있습니다(예: 80% 대 90%). 

따라서 포화의 목표(예: 핵심 코드 또는 전체 데이터), 포화의 초점(예: 코드 포화 또는 의미 포화), 원하는 포화 수준(예: 80%, 90%)을 파악하면 샘플 크기가 결정되고 포화가 달성되는 지점을 결정할 때 더 큰 뉘앙스를 제공합니다.

  • The study purpose influences saturation. We show that code saturation may be reached at nine interviews, which may be sufficient for a study aiming to outline broad thematic issues or to develop items for a survey instrument, but a larger sample is needed if meaning saturation is needed to understand or explain complex phenomena or develop theory.
  • Characteristics of the study population influence saturation. Our study included a relatively homogeneous sample of veterans receiving HIV care at a specific clinic, but we anticipate a larger sample size would be needed to achieve both code and meaning saturation if the study population were more diverse.
  • The sampling strategy used may influence saturation, whereby iterative sampling may require a smaller sample to reach saturation than using fixed recruitment criteria; however, iterative sampling may also uncover new data sources that ultimately expand the sample size. Thus, sampling strategies may have differing influences on sample size.
  • Data quality influences saturation, as “thick” data provide deeper, richer insights than “thin” data; however, the latter may be sufficient to achieve code saturation if that aligns with the study goals.
  • The type of codes developed influences saturation. We show that a smaller sample is needed to capture explicit, concrete issues in our data, and a much larger sample is needed to capture subtle or conceptual issues.
  • The complexity and stability of the codebook influences saturation. Our codebook included a broad range of codes, including explicit, subtle, and conceptual codes; therefore, some codes stabilized and reached saturation, while dimensions of other codes were still emerging at 25 interviews.
  • Finally, the goal and focus of saturation influence where saturation is achieved. Our results show that “reaching saturation” is not a uniform accomplishment. Achieving code saturation is different from reaching meaning saturation, and each requires different sample sizes. Individual codes also reach saturation at different points in the data, and overall percentage of saturation desired may differ between studies or researchers (e.g., 80% vs. 90%).

Therefore, identifying the goal of saturation (e.g., in core codes or in all data), the focus of saturation (e.g., code saturation or meaning saturation), and the level of saturation desired (e.g., 80%, 90%) also determines the sample size and provides greater nuance in determining where saturation is achieved.

포화를 평가하는 것은 처음에 보이는 것보다 더 복잡합니다. 연구자는 포화를 평가하는 과정, 포화에 도달한 매개변수, 포화에 도달하지 못한 매개변수 및 그 이유에 대해 보다 미묘한 설명을 제공해야 합니다. 이 선언을 한계로 간주해서는 안 되며, 포화 평가에 대한 연구자의 관심과 특정 연구에 어떻게 적용되는지에 대한 인식을 나타내는 지표로 간주해야 합니다.
Assessing saturation is more complex than it appears at the outset. Researchers need to provide a more nuanced description of their process of assessing saturation, the parameters within which saturation was achieved and where it was not achieved and why. This declaration should not be viewed as a limitation but an indicator of researchers’ attention to assessing saturation and awareness of how it applies to a particular study.

연구의 한계
Study Limitations

의미 포화 분석은 다양한 코드를 대상으로 수행되었지만, 본 연구에서 모든 코드가 이 분석에 사용된 것은 아닙니다. 발견한 패턴이 다른 연구 데이터에서도 재현될 수 있는지 확인하기 위해 추가적인 방법론적 연구를 권장합니다. 또한 다른 유형의 질적 연구보다 연구 목적과 연구 참여자가 더 명확하게 정의될 수 있는 응용 질적 연구의 데이터를 사용하여 포화를 평가했습니다. 따라서 본 연구 결과를 다른 유형의 데이터나 질적 연구 접근 방식에 대한 일반적인 것으로 간주해서는 안 됩니다. 마지막으로, 질적 연구자는 코드 개발 스타일(예: 광범위한 코드 또는 특정 코드)이 다를 수 있으며, 본 연구 결과도 코드 개발 스타일을 반영할 수 있습니다. 
Our analysis of meaning saturation was conducted on a diverse range of codes, but not all codes in our study were used for this analysis. We encourage further methodological research to confirm whether the patterns we found can be replicated in other study data. Also, we assessed saturation using data for applied qualitative research, in which the study purpose and study participants may be more defined than in other types of qualitative research. Our results should not be taken as generic for other types of data or approaches to qualitative research. Finally, qualitative researchers may have different styles of developing codes (i.e., broad or specific codes), and our results may also reflect our code development style.


"포화는 엄격성의 중요한 구성 요소입니다. 이는 모든 질적 연구에 존재하지만, 안타깝게도 주로 선언을 통해 드러납니다."(Morse, 2015, 587쪽). 본 연구는 포화에 대한 두 가지 접근 방식을 문서화하고 각 접근 방식에서 포화에 영향을 미치는 매개변수를 도출하여 질적 연구를 위한 표본 크기 추정 지침을 제공하는 방법론적 연구를 제공합니다. 적은 수의 인터뷰만으로도 데이터에서 포괄적인 범위의 문제를 파악할 수 있지만, 이러한 문제에 대한 풍부한 이해를 위해서는 더 많은 데이터가 필요하다는 것을 확인했습니다. 얼마나 많은 추가 데이터가 필요한지는 연구 목적, 연구 모집단, 코드 유형, 코드북의 복잡성 및 안정성 등 다양한 포화 매개변수에 따라 달라집니다. 이러한 포화 매개변수를 사용하여 특정 연구에 대한 표본 크기 추정치를 선험적으로 안내하고 출판물 내에서 포화를 평가하거나 달성한 근거를 입증하면 연구 목적과 질적 연구의 목표를 반영하는 보다 적절한 표본 크기가 도출될 가능성이 높습니다.
“Saturation is an important component of rigor. It is present in all qualitative research, but unfortunately, it is evident mainly by declaration” (Morse, 2015, p. 587). Our study provides methodological research to document two different approaches to saturation and draws out the parameters that influence saturation in each approach to guide sample size estimates for qualitative studies. We identified that a small number of interviews can be sufficient to capture a comprehensive range of issues in data; however, more data are needed to develop a richly textured understanding of those issues. How much additional data are needed will depend on a range of parameters of saturation, including the purpose of the study, study population, types of codes, and the complexity and stability of the codebook. Using these parameters of saturation to guide sample size estimates a priori for a specific study and to demonstrate within publications the grounds on which saturation was assessed or achieved will likely result in more appropriate sample sizes that reflect the purpose of a study and the goals of qualitative research.



Qual Health Res. 2017 Mar;27(4):591-608. doi: 10.1177/1049732316665344. Epub 2016 Sep 26.

Code Saturation Versus Meaning Saturation: How Many Interviews Are Enough?


11 Emory University, Atlanta, Georgia, USA.

22 Duke University, Durham, North Carolina, USA.

33 Atlanta Veterans Affairs Medical Center, Atlanta, Georgia, USA.

PMID: 27670770

PMCID: PMC9359070

DOI: 10.1177/1049732316665344

Free PMC article



Saturation is a core guiding principle to determine sample sizes in qualitative research, yet little methodological research exists on parameters that influence saturation. Our study compared two approaches to assessing saturation: code saturation and meaning saturation. We examined sample sizes needed to reach saturation in each approach, what saturation meant, and how to assess saturation. Examining 25 in-depth interviews, we found that code saturation was reached at nine interviews, whereby the range of thematic issues was identified. However, 16 to 24 interviews were needed to reach meaning saturation where we developed a richly textured understanding of issues. Thus, code saturation may indicate when researchers have "heard it all," but meaning saturation is needed to "understand it all." We used our results to develop parameters that influence saturation, which may be used to estimate sample sizes for qualitative research proposals or to document in publications the grounds on which saturation was achieved.

Keywords: HIV/AIDS; USA; behavior; in-depth interviews; infection; methodology; qualitative; saturation.

건강 및 사회적 돌봄 전문직 교육에서 환자의 목소리: 밴쿠버 성명(International Journal of Health Governance, 2016)
The patient’s voice in health and social care professional education: The Vancouver Statement
Angela Towle, Christine Farrell, Martha E. Gaines, William Godolphin, Gabrielle John, Cathy Kline, Beth Lown, Penny Morris, Jools Symons and Jill Thistlethwaite 


환자 참여의 역사
History of patient involvement

의료 및 사회복지 서비스를 이용하는 사람들이 치료를 제공하는 전문가 교육에 적극적으로 참여하는 것은 지난 20년 동안 크게 확대되었습니다(Towle et al., 2010). 이러한 성장은 의료 서비스의 여러 측면에서 대중과 환자의 적극적인 참여를 강조하는 의료 서비스 전달, 정책 및 연구 동향이 융합된 결과입니다. 

Active involvement of people who use health and social services in the education of professionals who provide the care has expanded greatly over the past 20 years (Towle et al., 2010). Its growth is the consequence of the convergence of trends in health care delivery, policy and research that have emphasized active participation of the public and patients in many aspects of their care.

환자의 의료 참여는 부분적으로는 [전통적인 가부장주의]에서 벗어나 [환자를 치료의 파트너로 포용]하려는 [자율성의 윤리적 의무]에서 비롯되며, [정보에 입각한 선택을 요구하는 법적 추세]에 따라 명문화되었습니다. 또한, 특히 영국, 미국, 캐나다, 호주의 정부와 영향력 있는 기관은 의료 서비스에 대한 직접적인 혜택으로 인해 더 많은 환자와 대중의 참여가 필요하다는 점을 명확히 했습니다. 환자 참여는 환자 안전(의학 연구소, 2000; 보건부, 2001), 환자 중심의 결과, 공동 의사 결정 및 공동 관리 결정 준수, 인구 고령화 및 만성 질환 증가에 따른 환자들의 보다 적극적인 치료 참여 등 환자 중심 치료 및 품질 보증의 다양한 측면과 연관되어 있습니다(Nasmith et al., 2010).
Involvement of patients in health care arises, in part, from the ethical imperative of autonomy that moves us away from traditional paternalism toward inclusion of patients as partners in care and has been codified in legal trends that require informed choice. In addition, governments and influential institutions, especially in the UK, USA, Canada and Australia, have articulated the need for more patient and public involvement because of perceived direct benefits to health care. Patient involvement has been linked to various aspects of patient-centered care and quality assurance, including

보건 연구에 대한 환자 및 대중의 참여가 절실해지면서 영국의 국립보건연구원, 미국의 환자 중심 성과 연구소, 캐나다의 환자 중심 연구 전략, 호주의 뉴사우스웨일스 임상 혁신 기관에서 대중의 적극적인 참여를 지원하는 INVOLVE와 같은 이니셔티브가 만들어졌습니다.
The imperative for patient and public involvement in health research has resulted in the creation of

  • initiatives such as INVOLVE that supports active public involvement in the National Institute for Health Research in the UK (,
  • the Patient-Centered Outcomes Research Institute in the USA (,
  • Canada’s Strategy for Patient-Oriented Research (, and
  • the New South Wales Agency for Clinical Innovation in Australia (

환자와 대중의 참여를 포용할 수 있는 인력을 양성하기 위해 교육에 환자를 참여시키는 것(정의는 학회 성명서 각주 참조)은 이러한 움직임에서 논리적으로 발전한 것입니다. 이는 현재 의료 전문가를 교육하는 방식에 [내재된 몇 가지 장벽] 때문에 특히 중요합니다. 예를 들어, 오플린과 브리튼(2006)의 연구에 따르면 [공유 의사 결정]의 채택은 현재 의사가 권력과 책임의 상당한 공유를 포함하지 않는 의료 정체성을 달성해야 할 필요성과, [의료 교육 중 공감과 환자 중심주의의 침식]을 보여주는 많은 연구로 인해 제한됩니다(Neumann et al., 2011). 
The involvement of patients in education (see footnote in conference statement for definition) to develop a workforce that is able to embrace patient and public participation is a logical development from these movements. This is particularly important because of some barriers inherent in the way we currently educate health professionals. For example, the work of O’Flynn and Britten (2006) suggests that the adoption of shared decision-making is limited by the need for practitioners to achieve a medical identity that currently does not involve significant sharing of power and responsibility, and the many studies that demonstrate an erosion of empathy and patient centredness during medical training (Neumann et al., 2011). 

교육에 대한 환자 참여는 의학(Wykurz and Kelly, 2002; Jha 외, 2009; Towle 외, 2010), 간호학(Warne and McAndrew, 2005; Repper and Breeze, 2007; Terry, 2012), 사회사업학(Cairney 외, 2006; Robinson and Webber, 2013), 다양한 분야의 정신건강 전문가 교육(Livingston and Cooper, 2004; Happell 외, 2014)에서 시작되었습니다. 최근에는 물리치료(Jones 외, 2009), 작업치료(Cleminson and Moesby, 2013), 약국(Grimes 외, 2013), 치과(Renard 외, 2015)와 같은 다른 의료 전문직으로 확산되고 있습니다. 

Patient involvement in education began in

그러나 교육에 대한 환자 참여는 아직 교육 실무의 주류에서 잘 확립되지 않았습니다. 환자 참여는 

  • 삶의 경험의 다양성을 반영하기보다는 특정 환자 집단으로 제한되는 경우가 많고, 
  • 교육 기관에 통합되어 있지 않고 파편화되어 있으며, 
  • 적절한 인프라와 지속적인 리더십 및 자원이 부족합니다. 

혜택에 대한 증거가 나타나고 있지만 여전히 고르지 않습니다. 교육자로서의 환자 이니셔티브가 가장 광범위하고 제도적으로 지원되는 국가는 영국으로, "환자 주도형" 국가보건서비스(하원 보건위원회, 2007) 개발에 대한 정부의 노력과 최근에는 보건 및 사회 서비스 개발에 대한 접근 방식으로서 공동 생산 개념(Loeffler et al., 2013)이 교육 정책 지침으로 확장되었습니다. 따라서 교육에 대한 서비스 사용자 및 보호자의 참여는 간호 및 조산사(간호 및 조산사 위원회, 2010), 16개 기타 보건 및 사회복지 전문직(보건 및 사회복지 전문직 위원회, 2014), 최근에는 의학(일반 의학 위원회, 2016)의 교육 프로그램 인증을 담당하는 법정 기관의 [표준에 명시]되어 있습니다.
However, patient involvement in education is still not well established in the mainstream of educational practice. Involvement

  • is often limited to a specific population of patients rather than reflecting the diversity of lived experiences,
  • is fragmented and not embedded in the educational institution, and
  • lacks appropriate infrastructure and sustained leadership and resources.

Evidence of benefit is emerging but still patchy. The most wide-ranging and institutionally supported patient-as-educator initiatives are in the UK (Towle and Godolphin, 2011) where government commitment to the development of a “patient-led” National Health Service (House of Commons Health Committee, 2007) and, more recently, to the concept of co-production as an approach to the development of health and social services (Loeffler et al., 2013) has extended to policy directives in education. Thus, service user and carer involvement in education has become enshrined in the standards of the statutory bodies responsible for the accreditation of educational programs in nursing and midwifery (Nursing and Midwifery Council, 2010), 16 other health and social care professions (Health and Care Professions Council, 2014) and more recently, medicine (General Medical Council, 2016).

문헌에서 말하는 것
What the literature says

환자 참여의 예는 이제 기본 교육부터 대학원 및 지속적인 전문성 개발에 이르기까지 교육의 연속체에서 찾을 수 있으며, 학생 선발, 다양한 교수 역할, 피드백 및 평가, 커리큘럼 개발 및 기관 차원의 의사 결정을 포함한 [광범위한 교육 활동]을 포함합니다(유형론은 Towle 외., 2010 참조). 
Examples of patient involvement can now be found across the continuum of education from basic training through postgraduate and continuing professional development, and include a wide spectrum of educational activities including selection of students, a variety of teaching roles, feedback and assessment, curriculum development and decision-making at an institutional level (for a typology see Towle et al., 2010).

문헌에 따르면 환자로부터의 학습은 임상적 추론, 의사소통 기술, 전문적 태도, 공감적 이해 및 환자에 대한 개별화된 접근법을 개발하는 데 중요한 역할을 하며, 관련성과 맥락을 제공함으로써 학생들에게 동기를 부여합니다(Towle 외., 2010).

  • 교육에 참여하는 환자에게는 지역사회에 환원하는 것에 대한 만족감, 미래의 전문가 교육에 대한 영향력, 자존감 및 권한 부여 증가 등의 [이점]이 있습니다(McKeown 외., 2012).
  • 또한 문헌에서는 제도적 지원 및 자금 부족(Happell 외., 2015), 전문 지식과 권력에 대한 도전(Felton and Stickley, 2004), 대표성 및 토큰주의 문제(Forrest 외., 2000) 등 환자의 교육 참여에 대한 [장벽]을 파악하고 있습니다.
  • 그러나 대부분의 연구는 설명적이며 교육 전략에 정보를 제공할 수 있는 [이론적 이해나 비판적 설명]이 부족합니다(Regan de Bere와 Nunn, 2016).
  • 좋은 [평가 연구]는 거의 없으며, 진료에 대한 장기적인 영향과 의료 수혜자에게 미치는 혜택에 대한 [증거가 부족]합니다(Morgan and Jones, 2009; Robinson and Webber, 2013).

The literature provides evidence that learning from patients plays a role in the development of clinical reasoning, communication skills, professional attitudes, empathic understanding and an individualized approach to the patient; it also motivates students by providing relevance and context (Towle et al., 2010). 

  • Benefits to patients involved in education include satisfaction in giving back to the community, having an influence on the education of future professionals, and increased self-esteem and empowerment (McKeown et al., 2012). 
  • The literature also identifies barriers to patient involvement in education including lack of institutional support and funding (Happell et al., 2015), challenges to professional knowledge and power (Felton and Stickley, 2004), and issues of representativeness and tokenism (Forrest et al., 2000). 
  • However, most of the research is descriptive and lacks theoretical understanding or critical explanation that might inform educational strategies (Regan de Bere and Nunn, 2016). 
  • There are few good evaluation studies, and there is a lack of evidence of the long-term impact on practice and benefits to the recipients of care (Morgan and Jones, 2009Robinson and Webber, 2013).

"환자의 목소리는 어디에 있는가?" 컨퍼런스
“Where’s the Patient’s Voice?” Conference

2005년 캐나다 밴쿠버에서 "의료 전문가 교육에서 환자의 목소리는 어디에 있는가?"라는 주제로 첫 번째 국제 컨퍼런스가 열렸습니다. 이 컨퍼런스의 목적은 이 분야의 선구자들을 한자리에 모아 다양한 배경을 가진 240명의 참석자가 발표와 토론을 통해 '영역의 지도'를 그리는 것이었습니다. 컨퍼런스 보고서는 교육에 대한 환자 참여 현황을 문서화하고 새로운 문제와 향후 방향을 파악했습니다(Farrell et al., 2006).
In 2005, the first international conference on the topic, “Where’s the Patient’s Voice in Health Professional Education?” was held in Vancouver, Canada. The aim was to bring together pioneers in the field and “map the territory” through the presentations and discussions of 240 attendees with a wide range of backgrounds. The conference report documented the state of patient involvement in education, and identified emerging issues and future directions (Farrell et al., 2006).

10년 후인 2015년 11월에 2005년 이후의 진전 상황을 살펴보기 위한 두 번째 컨퍼런스가 열렸습니다. 컨퍼런스 위원회(이 백서의 저자)는 향후 5년간의 의제를 설정하고 각 기관 및 단체의 참가자들을 위한 자료로 사용될 성명서를 작성하기 위해 노력했습니다. 이 컨퍼런스에는 16개국에서 온 250명의 대표단이 참석했으며 모든 주요 보건 분야를 대표했습니다. 대부분은 교육 리더 또는 실무자였으며, 환자 또는 지역사회 구성원이라고 밝힌 비율은 20%가 조금 넘었고 학생은 13%였습니다.
A second conference was held ten years later in November 2015 to look at progress since 2005. The conference committee (authors of this paper) worked toward production of a statement that would set the agenda for the next five years, and serve as a resource for participants in their own institutions and organizations. The conference was attended by 250 delegates from 16 countries and representing all of the major health disciplines. Most were educational leaders or practitioners; just over 20 percent identified themselves as patients or community members and 13 percent as students.

컨퍼런스 성명서 개발
Development of the conference statement

컨퍼런스 위원회는 [성명서 초안]을 작성하여 사전에 컨퍼런스 등록자에게 소개했습니다. 대표자들은 서면, 초안 자체 또는 학회 웹사이트의 전자 버전, 학회 위원회와의 공개 회의, 학회 마지막 날 오전 중 한 가지 이상의 방법으로 초안에 대한 피드백을 제공하여 향후 성명서 개발에 참여하도록 초대되었습니다.
The conference committee prepared a draft statement that was introduced to the conference registrants in advance. Delegates were invited to participate in its future development by providing feedback on the draft in one or more of the following ways:

  • in writing,
  • on the draft itself or an electronic version on the conference website,
  • during an open meeting with the conference committee, and
  • on the final morning of the conference.

약 90명의 컨퍼런스 대표단이 최종 세션에 참석하여 컨퍼런스 위원회 위원 또는 퍼실리테이터로 지정된 사람들과 함께 [원탁 토론 그룹]을 구성했습니다. 원탁 토론 그룹은 성명서에 대한 일반적인 의견을 제시한 후 보다 구체적으로 실행 항목에 집중하도록 요청받았습니다. 그룹은 성명서 및 권고사항에 대한 실질적인 변경 사항을 보고했습니다. 모든 의견과 메모는 회의가 끝난 후 수집되어 필사되었습니다. [회의 위원회의 소그룹]이 피드백에서 주요 주제를 파악하여 회의 후 성명서 버전에 변경 사항을 반영했습니다. 이 성명서는 모든 대표자에게 이메일로 배포되어 추가 의견을 보내달라는 초대장과 함께 전달되었습니다. 추가 수정 사항은 거의 제안되지 않았으며 성명서에 대한 강력한 지지가 있었습니다. 성명서는 아래에서 확인할 수 있습니다.
About 90 conference delegates attended the final session and formed round table discussion groups with members of the conference committee or designates as facilitators. The round table groups were asked to provide general comments about the statement and to then focus more specifically on action items. The groups reported any substantive changes to the statement and recommendations. All comments and notes were collected and transcribed after the conference. A subgroup of the conference committee identified major themes from the feedback and incorporated changes into the post-conference version of the statement. This was circulated by e-mail to all delegates with an invitation to send further comments. Very few further amendments were suggested and there was strong support for the statement. The statement can be seen below.

보건 및 사회복지 전문가 교육에서 환자의 목소리는 어디에 있나요? 2015 밴쿠버 성명서 
Where’s the patient voice in health and social care professional education?
The Vancouver Statement 2015 

이 성명서는 향후 5년 동안 [교육에 대한 환자 참여의 방향을 설정]하는 것을 목표로 합니다[1]. 2015년 11월 12일부터 14일까지 밴쿠버에서 개최된 제2회 "보건의료 전문가 교육에서 환자의 목소리는 어디에 있는가?" 국제 컨퍼런스에서 참석자들과 협력하여 개발되었습니다. 우리는 환자를 교육에 적극적으로 참여시키기 위해 이미 이루어지고 있는 훌륭한 작업과 10년 전 첫 번째 컨퍼런스 이후 이루어진 진전을 인정합니다.
This statement aims to set the direction for patient involvement in education for the next five years[1]. It was developed in collaboration with attendees at the 2nd “Where’s the Patient’s Voice in Health Professional Education?” international conference, held in Vancouver from 12 to 14 November 2015. We acknowledge the excellent work that is already taking place to actively involve patients in education and the advances that have been made since the first conference ten years ago.

이 성명서는 보건 및 사회복지 전문가 교육을 담당하는 [의사결정권자를 대상]으로 하며, 개별 교육자 및 환자, 지역사회 조직과도 관련이 있습니다.
This statement is targeted at decision-makers responsible for the education of health and social care professionals, and is also relevant to individual educators and patients, and community organizations.

1. 목표 
1. Aim 

1.1 현재와 미래의 보건 및 사회복지 전문가 교육에 [환자의 자율적이고 진정성 있는 목소리]와 [환자의 생생한 경험]이 포함되도록 촉진하고 보장하여 [진정으로 환자 중심적인 치료가 제공]되도록 합니다.
1.1 To promote and ensure that the education of current and future health and social care professionals includes the autonomous and authentic voices of patients and their lived experiences so that the care delivered is genuinely patient-centred.

2. 보건의료 전문가 교육에 대한 환자 참여 - 정의 
2. Patient involvement in the education of health professionals – what it is 

2.1 환자가 [교사, 평가자, 커리큘럼 개발자 및 교육 의사 결정자]로서 [적극적이고 협력적인 교육적 역할을 수행]하는 것을 의미합니다.
2.1 We mean that patients play an active and collaborative educational role, as teachers, assessors, curriculum developers and educational decision makers.

3. 이 선언문이 중요한 이유 
3. Why this statement is important 

3.1 보건 및 사회복지 분야는 환자를 [의사 결정, 서비스 제공 및 연구의 파트너로 참여]시켜야 합니다.
3.1 Health and social care should engage patients as partners in decision-making, service delivery and research.

3.2 교육에서 환자와의 협력은 현재 및 미래의 의료인이 환자와 협력하여 다음과 같은 목적으로 일할 수 있도록 준비시키는 데 필수적입니다:

  • i) 사람 중심의 관계 기반 치료 제공;
  • ii) 공동 의사 결정에 참여;
  • iii) 자기 관리 및 회복력 지원;
  • iv) 의사소통 및 공감과 배려의 관계 강화;
  • v) 환자 안전과 질 향상 촉진;
  • vi) 공유 가치, 포용성 및 사회 정의 증진.

3.2 Patient collaboration in education is essential to prepare current and future practitioners to work in partnership with patients in order to:

  • i) deliver person-centred, relationship-based care;
  • ii) engage in shared decision-making;
  • iii) support self-care and resilience;
  • iv) enhance communication, and empathic and caring relationships;
  • v) promote patient safety and quality improvement;
  • vi) foster shared values, inclusion and social justice.

3.3 따라서 우리는 모든 교육 기관과 평생교육 제공자가 [환자와 파트너십을 구축하고 협력]할 수 있도록 [보건 및 사회복지 전문가를 준비시킬 필요성]에 대응할 것을 촉구합니다.
3.3 Therefore we call on all educational institutions and providers of continuing education to respond to the need to prepare health and social care professionals to build and work in partnerships with patients.

4. 현재 상태 
4. The current state 

4.1 환자를 적극적으로 참여시키는 교육은 혁신적이고 진화하고 있으며, 특히 환자의 전문성과 삶의 경험에 대한 인정과 존중과 관련하여 학습자의 흥미를 유발하고 있습니다.
4.1 Education that actively engages patients is innovative and evolving, especially with regard to recognition and respect for patient expertise and their lived experience, and is engaging for learners.

4.2 팀 기반 교육 및 치료를 촉진하기 위해 개별 전문 프로그램을 넘어 교육에 환자 참여를 확대할 기회를 놓치는 경우가 많습니다.
4.2 Opportunities are often missed to expand patient involvement in education beyond individual professional programs to promote team-based education and care.

4.3 현재 활동은 소수의 열성적인 사람들에 의해 주도되는 경우가 많고, 교육 구조에 통합되기보다는 단편적이거나 일시적인 경우가 많으며, 기관 내에서 지위와 우선순위가 낮은 경우가 많습니다.
4.3 Current activities are often driven by a small group of enthusiasts, are often fragmented or episodic rather than integrated into educational structures, and are often of low status and priority in the institution.

4.4 권력, 직업적 정체성, 학습 장소와 관련된 제도적 및 교육적 장벽이 존재하여 환자의 목소리를 듣지 못하게 합니다.
4.4 Institutional and educational barriers exist related to power, professional identity and location of learning which prevent patients from being heard.

4.5 환자를 교육자로 참여시켰을 때 얻을 수 있는 이점에 대한 결과 데이터는 제한적입니다.
4.5 Outcome data on the benefits of involving patients as educators are limited.

4.6 보건 및 사회복지 전문가 교육에 대한 환자 참여의 영향에 대한 [혁신, 평가 및 연구]를 위한 자금은 종종 불충분하고 안전하지 않습니다.
4.6 Funding for innovation, evaluation and research into the impact of patient involvement in health and social care professional education is often insufficient and insecure.

4.7 환자가 참여할 수 있도록 준비시키고, 권한을 부여하고, 자신감을 심어줄 수 있는 자원과 환자를 지원할 수 있는 구조와 지원이 없는 경우가 많습니다.
4.7 Resources to prepare, empower and give patients confidence to participate, and structures and support in place to support patients are often not present.

5. 향후 5년간의 행동 우선순위 
5. Priorities for action in the next five years 

5.1 인증 기준, 외부 및 내부 정책, 전문 기관의 선언문, 모범 사례 성명서 등의 지침을 통해 보건 및 사회복지 전문가 교육에 환자의 참여를 촉진합니다.
5.1 Promote the involvement of patients in health and social care professional education through directives such as accreditation standards, external and internal policies, pronouncements from professional bodies and best practice statements.

5.2 이러한 활동의 근거가 되고 가치가 있는 환자 전문성에 대한 기관, 지역, 국가 및 전 세계의 인식을 촉진합니다. 성과를 인정하고 성공을 축하합니다(교육 혁신 개발 및 보급을 위한 기금에 대한 정보를 파악하고 공개하며, 출판 기회를 늘립니다).
5.2 Foster institutional, local, national and global recognition of patient expertise that grounds this activity and makes it valued. Recognize achievement and celebrate success (identify and publicize information about funding to develop and disseminate educational innovations, increase publication opportunities).

5.3 현재 및 미래의 의료 전문가 교육에 참여하는 것이 본질적으로 매력적이고 가치 있는 활동이라고 믿는 환자, 지역사회 기관, 환자 옹호 단체 및 지역사회 구성원의 동기와 열정을 활용하여 참여하는 사람들의 다양성을 높입니다.
5.3 Increase the diversity of people who are involved by harnessing the motivation and enthusiasm of patients, community agencies, patient advocacy organizations and community members who believe that being involved in the education of current and future health professionals is an intrinsically attractive and valuable activity.

5.4 가능한 한 빨리 학습자에게 환자의 목소리 이니셔티브를 소개하고, 선발 과정, 커리큘럼 및 평가를 포함한 교육 연속체 전반에 걸쳐 이를 유지합니다.
5.4 Introduce the patient’s voice initiatives to learners as early as possible, and sustain them throughout the educational continuum, including selections processes, curriculum and assessment.

5.5 환자 파트너십과 팀워크에 대한 보다 총체적인 접근을 촉진하기 위해 새롭게 부상하는 다중 및 전문가 간 학습 활동에 환자의 참여를 목표로 삼습니다.
5.5 Target patient involvement in new and emerging multi- and inter-professional learning activities in order to facilitate a more holistic approach to patient partnerships and teamwork.

5.6 환자의 교육 참여를 촉진하기 위해 교육 기관과 지역사회 조직 간의 협력을 촉진하는 모델을 탐색하고 개발합니다.
5.6 Explore and create models to promote collaboration between educational institutions and community organizations to promote patient involvement in education.

5.7 환자와 협력하여 고품질의 포괄적이고 접근 가능한 연구 및 평가를 수행하고 전파하여 환자 및 학습자 결과와 이를 달성하는 과정을 포함하여 교육에 대한 환자 참여의 장단기적 영향에 대한 추가 증거를 제공합니다.
5.7 Conduct and disseminate high quality, inclusive and accessible research and evaluation in partnership with patients, to provide further evidence of short and long-term impact of patient involvement in education, including patient and learner outcomes, and the processes by which it is achieved.

5.8 컨퍼런스 및 교육 행사의 계획, 제공, 평가에 환자가 참여할 수 있도록 컨퍼런스 위원회에 로비하고, 환자가 컨퍼런스에 참석하고 발표할 수 있도록 지역사회 단체, 대학, 대학 및 기금 기관에 보조금을 제공할 수 있도록 로비합니다.
5.8 Lobby conference committees to involve patients in the planning, delivery and evaluation of conferences and educational events; lobby community organizations, colleges, universities and funding bodies to provide grants for patients to attend and present at conferences.

5.9 협력하고, 정보를 전파하고, 유망한 사례를 공유하고, 추가 회의를 계획할 수 있도록 지역 네트워크와 챔피언을 구축합니다.
5.9 Create regional networks of people and champions to collaborate, disseminate information, share promising practices and plan further meetings.


우리는 이 성명서가 학회 대표들과 협력하여 개발되었기 때문에 현장에서 일하는 모든 사람들의 견해를 대표하지 않을 수 있으며, 행동 우선순위와 모범 사례를 결정할 때 맥락의 중요성을 고려하지 않았음을 알고 있습니다. 이러한 한계에도 불구하고 이 성명서는 이미 문헌에 나와 있는 아이디어를 하나의 문서로 통합했습니다.
We recognize that the statement was developed in collaboration with conference delegates and therefore may not represent the views of all those working in the field, and does not take into account the importance of context in determining the priorities for action and best practices. Despite these limitations the statement does bring together ideas, some already in the literature, into one document.

이 회의 성명서는 향후 5년 동안 보건 및 사회복지 전문가 교육에 환자 참여를 정착시키기 위해 필요하다고 생각되는 9가지 행동 우선순위를 강조합니다. 정책, 인정 및 지원, 혁신, 연구 및 평가, 보급 및 지식 교환 분야로 구성되어 있습니다. 이 중 영국의 사례에서 알 수 있듯이 실질적인 변화를 가져올 가능성이 가장 높은 활동은 정책과 관련된 활동입니다. 특히 인증 표준은 커리큘럼과 교육 환경의 변화를 이끄는 강력한 동인입니다. 인증 표준은 선도적인 교육 기관의 모범 사례와 교육 기관 외부의 정책 지침에 의해 주도됩니다. 이러한 수준의 변화를 위해서는 의료 시스템 및 전문 기관의 의사결정권자뿐만 아니라 보건 및 사회복지 전문가 교육을 직접 담당하는 사람들의 리더십이 필요합니다.
The conference statement highlights nine priorities for action over the next five years that we believe are necessary in order to embed patient involvement in the education of health and social care professionals. They are in the areas of policy, recognition and support, innovation, research and evaluation, and dissemination and knowledge exchange. Of these, the actions that are most likely to bring about substantive change, as evidenced by developments in the UK, are those related to policy. In particular, accreditation standards are powerful drivers for change in curriculum and educational settings. They are driven both by best practice within leading educational institutions and by policy directives external to them. Change at this level requires leadership from decision-makers in the health care system and professional bodies, as well as those directly responsible for the education of health and social care professionals.

리더, 교육자, 임상의가 교육 전반에 걸쳐 환자와의 협력 및 파트너십에 대한 기대치를 조기에 그리고 자주 모델링하고 설정하지 않으면 우리가 추구하는 향상된 결과, 즉 치료의 질 향상, 환자 안전 및 건강 결과 개선의 실현이 지연될 수 있습니다.Failure by leaders, educators and clinicians to model and set expectations of collaboration and partnerships with patients early and often across the continuum of education will delay the realization of the enhanced outcomes we seek: improved quality of care, patient safety and improved health outcomes.



The purpose of this paper is to present a statement about the involvement of patients in the education of health and social care professionals developed at an international conference in November 2015. It aims to describe the current state and identify action items for the next five years.


The paper describes how patient involvement in education has developed as a logical consequence of patient and public participation in health care and health research. It summarizes the current state of patient involvement across the continuum of education and training, including the benefits and barriers. It describes how the conference statement was developed and the outcome.


The conference statement identifies nine priorities for action in the areas of policy, recognition and support, innovation, research and evaluation, and dissemination and knowledge exchange.


The conference statement represents the first time that an international and multidisciplinary group has worked together to assemble in a single document specific priorities for action to embed the patient’s voice in health professional education.



Towle, A., Farrell, C., Gaines, M.E., Godolphin, W., John, G., Kline, C., Lown, B., Morris, P., Symons, J. and Thistlethwaite, J. (2016), "The patient ' s voice in health and social care professional education: The Vancouver Statement", International Journal of Health Governance, Vol. 21 No. 1, pp. 18-25. 


Emerald Group Publishing Limited

Copyright © 2016, Emerald Group Publishing Limited

의학교육에서 환자참여 (Understanding Medical Education, Chapter 15)
15 Patient Involvement in Medical Education
John Spencer1, Judy McKimm2, and Jools Symons3
1Newcastle University, Newcastle, UK
2College of Medicine, Swansea University Medical School, Swansea, UK
3Faculty of Medicine and Health, Leeds University, Leeds, UK


제 방법은 (학생들을) 매일 공립 병원에 있는 환자들을 진료하러 데려가서 환자의 증상을 듣고 신체적 소견을 볼 수 있도록 직접 의료 실습으로 안내하는 것입니다. 그런 다음 학생들에게 환자에게서 무엇을 발견했는지, 질병의 원인과 치료 원칙에 대한 그들의 생각과 인식에 대해 질문합니다.
My method (is to) lead my students by hand to the practice of medicine, taking them every day to see patients in the public hospital, that they may hear the patient
s symptoms and see their physical findings. Then I question the students as to what they have noted in their patients and about their thoughts and perceptions regarding the causes of the illness and the principles of treatment.

실비우스(1614-1672) [1]
Sylvius (1614
1672) [1]

17세기 초 실비우스의 교육 방식은 매우 이례적이었을 것이며, 실제로 환자를 의학교육에 이렇게까지 참여시킨다는 것은 상당히 괴상한 일로 여겨졌을 것입니다. 적어도 히포크라테스로 거슬러 올라가는 전통적인 의사 수습 과정은 환자와의 접촉에 의존했지만, 13세기 유럽 대학에서 의학교육이 공식적으로 확립될 무렵에는 환자가 거의 '사라진' 상태였습니다. 르네상스 이후가 되어서야 대학에서 병상 경험을 도입하기 시작했습니다. 그리고 [18세기]에는 한 저자의 표현을 빌리자면, 학생들이 '병동을 돌아다니며' 시간을 보내면서 책으로 배운 내용을 보충해야 한다는 것이 '공리'가 되었습니다[2]. 환자 접촉을 통한 임상 경험은 점차 의학교육의 중심에 자리 잡았고, 20세기에 접어들면서 윌리엄 오슬러 경의 '환자 없이 텍스트를 가르치지 않는 것이 안전한 규칙이며, 최고의 교육은 환자 자신이 가르치는 것'[3]이라는 주장은 현대 의학교육의 수사학의 일부가 되었습니다. 
In the early seventeenth century Sylvius
teaching methods would have been unusual, indeed it would have been considered distinctly eccentric to involve patients in medical education to such a degree. Whilst the traditional physician apprenticeship dating back (at least) to Hippocrates relied on contact with sick people, by the time medical education was formally established in the universities of Europe in the thirteenth century, the patient had all but disappeared. It was not until after the Renaissance that universities began to introduce bedside experience. And by the eighteenth century it was, in the words of one author, axiomatic that students should supplement their book learning by spending time walking the wards [2]. Clinical experience through patient contact gradually assumed its place at the centre of medical education such that by the turn of the twentieth century, Sir William Oslers assertion that ‘it is a safe rule to have no teaching without a patient for a text, and the best teaching is that taught by the patient himself’ [3] had become part of the rhetoric of a modern medical education.

이렇게 진화하는 중심성에도 불구하고 임상 교육에서 환자의 역할은 [역사적으로 대체로 수동적]이었습니다. 최악의 경우, 불운한 병원 수감자는 침대 밑에 모여 있는 학생들에게 '아니오'라고 말할 수 없었고, '참여'보다는 '강요'에 가까웠습니다. 기껏해야 예의를 갖춰 대하더라도 환자는 [임상 교육이 이루어지는 매개체, 즉 '흥미로운 사례'에 지나지 않는 경우]가 많았습니다. 
Despite this evolving centrality, the patient
s role in clinical education has historically been largely passive. At worst, a hapless hospital inmate unable to say No to a gaggle of students at the foot of the bed; imposition more than involvement. Even at best, the patient, though treated with courtesy, was often no more than a medium, an interesting case, through which clinical teaching took place.

이 장에서는 의사 및 기타 의료 전문가 교육에 환자를 적극적으로 참여시키는 것의 중요성을 고려하고, 참여 모델을 설명하며, 이 주제에 대한 장단점 증거를 포함하여 점점 증가하는 문헌의 측면을 살펴보고, 문제점과 도전과제를 논의하고, 추가 조사할 영역을 식별합니다. 그러나 그 전에 먼저 용어에 대해 살펴보는 것이 중요합니다.
This chapter considers the importance of actively involving patients in the education of doctors and other health professionals, describes models of involvement, explores aspects of the growing literature on the subject, including evidence of benefits and disadvantages, discusses problems and challenges, and identifies areas for further inquiry. Before doing that, however, it is important that we first consider terminology.

환자, 사용자, 소비자
Patients, Users, and Consumers

이 분야의 용어는 논란과 혼란을 야기할 수 있는 잠재적인 원천이며, 문제도 복잡합니다. 사용되는 언어는 [가치와 권력 관계를 반영]하고 강한 감정을 불러일으키며 문헌 검색과 같은 학술 활동과 이해관계가 있는 [그룹 간의 협업을 저해]할 수 있습니다[4, 5]. 사람들이 선호하는 [설명 방식에 대한 견해는 매우 다양]하며, 선호도와 언어는 시간이 지남에 따라 변화합니다[5]. 이 장에서는 간결성을 위해 주로 '환자'(그리고 해당되는 경우 '보호자')라는 용어를 사용하는데, 이는 여러 가지 한계에도 불구하고 [의학 교육에서 가장 널리 인식되는 용어]이기 때문입니다(전문가와 국가, 사용자 그룹에 따라 용어가 다르지만)(상자 15.1 참조). 우리는 '환자'를, 현재 치료를 받고 있는지 여부에 관계없이, 건강 문제가 있는 사람과 건강한 사람 모두를 의미하기 위해 사용하지만, 이것이 논쟁의 여지가 있고 모든 사람의 선호를 인정하지는 않을 것임을 알고 있습니다. 또한 우리는 ['현장에서의' 언어의 힘]을 염두에 두는 것이 중요하다는 점을 인식하고 있습니다[4]. 용어의 문제는 [환자가 점점 더 적극적으로 수행하는 역할을 설명]하는 데에도 적용됩니다. 강사, 교육자, 전문가, 동료, 멘토 등 다양한 용어가 사용되고 있습니다.
Nomenclature in this area is a potential source of controversy and confusion, and the issues are complex. The language used reflects values and power relations, generates strong emotions, and may impair both scholarly activity, such as searching the literature, and collaboration between interested groups [4, 5]. Views vary greatly about how people prefer to be described, and preferences and language change over time [5]. For simplicitys sake we will mainly use the term patient (and, where relevant, carer) throughout this chapter, because, for all its limitations, it is probably the most widely recognised term in medical education although terminology differs amongst user groups as well as different professionals and countries (see Box 15.1). We use ‘patient’ to mean both people with health problems, whether or not they are currently receiving care, and healthy people, although we recognise that this may be contentious and will not acknowledge everyones preference. We also recognise that on the ground it is important to be mindful of the power of language [4]. The problem of terminology also extends to describing the active roles increasingly played by patients. A wide range of terms are used, including instructor, educator, expert, associate, and mentor.

상자 15.1 중점 사항: 용어
BOX 15.1 FOCUS ON: Terminology

['사용자' 또는 '서비스 사용자']영국에서는 일반적으로 사용되지만 북미에서는 불법 약물 사용과 더 관련이 있을 수 있습니다. 또한, 이 용어는 [의료 서비스]를 보다 총체적인 관계 기반 상호 작용이 아닌 [단순한 기술적 서비스라는 의미를 내포]하고 있습니다. 그러나 '사용자'는 어느 정도의 적극적인 참여를 의미합니다.
User or service user is commonly used in the UK, but in North America may be more associated with illicit drug use. Furthermore, the term implies that medical care is simply a technical service rather than a more holistic, relationshipbased interaction. However, user does imply a degree of active participation.

['일반인']도 자주 사용되는데, 이는 환자가 반드시 아프거나 적극적인 치료를 받고 있지 않을 수도 있다는 점을 인정합니다. 그러나 '일반인'은 본질적으로 어떤 [긍정적인 속성이 아니라], '전문가'가 아닌 것(예: '전문가'가 아님)과 '의료 전문 지식이 없는 것'(예: 의료 전문 지식이 없음)으로 누군가를 정의합니다.
Lay is also used frequently; it acknowledges that the person may not necessarily be either sick or under active care. However, lay defines someone essentially not by any positive attributes, but by what they are not (i.e. not professional) and what they do not have (i.e. they dont have medical expertise).

['소비자', '고객' 또는 '손님'][상품으로서의 건강, 시장으로서의 의료]를 의미하므로 [상업적 관계를 암시]합니다.
Consumer, client, or customer connote health as a commodity and health care as a market, and thus suggest a commercial relationship.

['생존자' 및 '회복 중인 사람']은 주로 [암 및 정신 건강과 관련하여 사용하도록 제한]되는 용어입니다.
Survivor and person in recovery are terms mostly restricted to use in relation to cancer and mental health.

['환자'][병에 걸려 적극적인 치료를 받고 있다는 의미][수동성을 내포]하고 있으며 [치료 관계가 의료화]되어 있다는 점에서 가장 모호하지 않은 용어일 수 있습니다.
Patient is probably the most unambiguous term, although it implies that the person is sick and under active care; the term connotes passivity; and the care relationship is medicalised.

['표준화 환자']는 원래 자신의 [문제를 표준화된 방식으로 표현하도록 훈련된 실제 환자]로, ['시뮬레이션 환자'와 겹치는 경우]가 많습니다.  Standardised patients were originally real patients trained to present standardised representations of their own problems; the term often overlaps with simulated patient.  

환자 참여의 맥락
Context of Patient Involvement

환자와 대중을 의료 서비스에 참여시키는 것은 다양한 측면을 포괄할 수 있습니다. 예를 들어, Carman 등[6]은 '환자 및 가족 참여' 모델을 세 가지 중요한 차원으로 설명했습니다.

  • 참여 형태의 연속성(상담에서 파트너십 및 공유 리더십에 이르기까지), 
  • 참여가 발생할 수 있는 다양한 수준(직접 치료에서 정책 결정에 이르기까지),
  • 참여 여부와 정도에 영향을 미치는 요인

Engaging patients and the public in health care can cover many aspects. For example, Carman et al. [6] described a model of patient and family engagement with three critical dimensions:

  • the continuum of forms of engagement (from consultation to partnership and shared leadership),
  • the different levels at which engagement may occur (ranging from direct care to policy making), and
  • the factors influencing whether and to what extent engagement occurs.

[의료 서비스의 개발, 전달 및 관리에 대한 환자 참여]는 수십 년 동안 전 세계 보건 정책에 자리 잡았습니다. 영국을 예로 들면, 연속적인 보건 개혁의 물결은 '나 없이 나에 대한 결정은 없다'는 캐치프레이즈에 반영된 것처럼 환자와 대중의 참여가 NHS에서 일상적인 관행의 일부가 되어야 한다는 것을 목표로 해 왔습니다[7, 8]. 이 원칙은 이제 NHS 헌법에 명시되어 있으며, 영국에서 NHS는 '개인이 스스로 건강을 증진하고 관리할 수 있도록 지원해야 할 뿐만 아니라 NHS 서비스는 환자, 가족 및 보호자의 요구와 선호를 반영하고 이에 맞춰 조정되어야 한다'는 점을 분명히 하고 있습니다[9, 3페이지]. 이러한 발전은 필연적으로 의료 전문가의 교육과 훈련을 포함하게 되었으며[10], 일반 의학 위원회(GMC)의 최신 교육 및 훈련 표준에는 '의과대학 커리큘럼 개발은 환자, 가족 및 보호자의 의견을 반영해야 한다'는 요구 사항이 포함되어 있습니다[11]. GMC는 또한 환자와 대중의 참여에 대한 '보충 지침'을 작성했습니다 [12]. 이러한 추세는 의학교육이나 영국에만 국한된 것이 아닙니다[13].
Patient involvement in the development, delivery, and management of health care has been enshrined in health policy worldwide for several decades. Taking the UK as an example, successive waves of health reform have aimed to ensure that patient and public involvement should be part of everyday practice in the NHS [7, 8], reflected in the catchphrase
‘no decision about me, without me’. This principle is now enshrined in the NHS Constitution which is absolutely clear that the NHS (in England) ‘should support individuals to promote and manage their own health but also that NHS services must reflect, and should be coordinated around and tailored to, the needs and preferences of patients, their families and their carers’ [9, p. 3]. This development has inevitably encompassed the education and training of health professionals [10] and the latest standards for education and training from the General Medical Council (GMC) includes the requirement that ‘the development of medical school curricula must be informed by … patients, families and carers’ [11]. The GMC has also produced supplementary guidance on the involvement of patients and the public [12]. These trends are not confined to medical education nor to the UK [13].

국가 정책 의제 외에도, 의과대학은 '교육, 연구 및 봉사 활동을 그들이 봉사해야 하는 지역사회, 지역 및/또는 국가의 우선적인 건강 문제를 해결하는 방향으로 유도'하는 '사회적 책무성'을 입증해야 할 의무가 있습니다[14]. 사회적 책무성은 다음의 개념을 포괄하는 현대의 주요 담론으로 발전해 왔습니다. 

  • (직업과 사회 간의) '사회적 계약',
  • (의사와 기타 의료 전문가의) '사회적 책임',
  • (기관의) '사회적 반응'

Aside from national policy agendas, there is an obligation for medical schools to demonstrate ‘social accountability’ which involves schools directing ‘their education, research and service activities towards addressing the priority health concerns of the community, region and/or nation they have the mandate to serve’ [14]. Social accountability has evolved as a major contemporary discourse, embracing concepts such as

  • ‘the social contract’ (between professions and society),
  • ‘social responsibility’ (of doctors and other health professionals), and
  • ‘social responsiveness’ (of institutions).


울라드와 볼렌[15]은 의과대학이 '사회와의 유대를 통해 건강에 더 큰 영향을 미치기 위해 노력하고 이를 입증해야 하는' 과제를 강조하며, 이것이 바로 [사회적 책무성의 목적]이라고 주장합니다. 이들은 의과대학이 공식적인 프로그램과 '숨겨진 커리큘럼' 모두에서 [사회적 책무성에 대한 헌신]을 보여줘야 한다고 주장합니다. 이와 동시에 유사한 사회적, 정치적 세력의 영향을 받아 '전문직업성'의 개념이 재검토되고 재정의되었으며, 이는 교육에 분명한 영향을 미쳤습니다[16-18]. 전문직업성의 본질, 이론적 근거, 최선의 교육, 평가 및 연구 방법에 대한 논쟁이 계속되고 있지만, 전문직업성은 환자의 이익에 대한 헌신에 의해 뒷받침되며 '단순한 행동이 아닌 미덕, 더 깊은 태도, 실천적 지혜를 필요로 하는 것'이어야 한다는 데에는 대체로 동의하고 있습니다[19].
Woollard and Boelen [15] highlight the challenge for medical schools
to strive for and demonstrate greater impact on health through their bonds with society, which, they contend, is the very purpose of social accountability. They argue that medical schools must demonstrate a commitment to social accountability in both formal programmes and the hidden curriculum. At the same time, and influenced by similar social and political forces, the concept of professionalismhas been revisited and redefined, with obvious implications for education [1618]. While debate continues about the nature of professionalism, its theoretical basis, and how best to teach, assess, and research it, there is general agreement that professionalism is underpinned by a commitment to patients’ interests and must be ‘based on virtue, deeper attitudes rather than mere behaviour, and requiring of practical wisdom’ [19].

[기대치의 변화] 외에도, 이제 [건강 및 의료 치료의 심리적, 사회적 결과에 대한 인식]이 높아졌으며, 환자의 관점과 우선순위를 중심에 두는 '생물심리사회적 모델' 및 '환자 중심주의'와 같은 새로운 모델이 실천을 안내할 필요성이 커졌습니다[20, 21]. [가치관, 선호도, 질병에 대한 반응의 환자 간 차이]와 [이들이 치료 결과에 미치는 영향에 대한 지식]이 증가함에 따라 의료 전문가와 환자의 상호 작용이 중심이 되었습니다. 의학의 [기술적 복잡성]으로 인해 진단 테스트와 치료법 선택의 폭이 넓어지고 더 복잡한 개입이 가능해졌지만, [재정적 제약]으로 인해 의사는 종종 기대치와 실현 가능한 옵션 사이의 긴장을 헤쳐나가야 합니다. 
Aside from changes in expectations, there is now a greater appreciation of the psychological and social consequences of ill health and health care treatments, and the need for new models to guide practice, such as the ‘bio‐psychosocial model and ‘patient‐centredness, which put the patients perspective and priorities at the centre [20, 21]. Increased knowledge about variation between patients in values, preferences, and responses to illness and their effect on treatment outcomes has brought the health care professionals interaction with the patient to centre stage. And whilst the technical complexity of medicine offers greater choice of diagnostic tests and treatments and more complex interventions, financial constraints often lead to doctors having to navigate their way through the tensions between expectations and feasible options.  

이러한 발전은 [대중의 기대치의 변화와 병행]하여 발생했으며, 이러한 변화는 종종 [가부장제에서 파트너십으로 전환]하는 과정의 일부로 설명됩니다. [전문직에 대한 무비판적인 존중이 감소하고, 소비주의가 부상하고, 의료 서비스가 달성할 수 있는 것과 달성할 수 없는 것에 대한 이해]가 높아지면서 많은 환자들이 다음을 기대합니다[22].

  • 자신의 우려를 해결하고 요청을 경청받기,
  • 자신의 상태에 대해 충분히 정보를 얻기,
  • 치료의 위험에 대한 브리핑을 받기,
  • 치료에 대한 결정에 참여하기,
  • 자신의 상태를 관리하기 위한 교육과 지원 받기

These developments have occurred in parallel with changes in public expectations, changes often described as part of the move from paternalism to partnership. With the decline in uncritical deference to the professions, the rise of consumerism, and a greater understanding of what health care can and cannot achieve, many patients expect

  • to have their concerns addressed and their requests heard, and
  • to be fully informed about their condition,
  • briefed about risks of treatment,
  • involved in decisions about their care, and
  • educated and supported to manage their own conditions [22].

[공동 제작]은 지난 30~40년 동안 개발된 서비스 제공 모델로, [서비스 사용자의 기여가 가장 중요하다]는 점을 강조합니다[23]. [공동 제작]은 [사용자가 자신의 상황에서 전문가로 간주]되고 [전문가가 '해결사에서 촉진자'로 이동]하는 [권력의 재배치]를 포함합니다[23]. 이를 위해서는 [전문가와의 새로운 관계]가 필요하며, 모든 당사자는 새로운 역할을 수행하기 위한 교육이 필요합니다. 같은 기간 동안 [공동 의사 결정]은 임상적 만남을 위한 새로운 모델로 발전했습니다. 기본 윤리적 원칙은 [자기 결정이 바람직하며 임상의의 역할은 이를 지원하는 것]임을 인정해야 합니다. 공동 의사 결정은 그 효과를 뒷받침하는 증거 기반이 점점 늘어나고 있으며[24], 다양한 특정 의사소통 기술을 사용하여 임상 진료에서 효과적인 관계를 구축하는 데 달려 있습니다.
production is a model of service delivery developed over the past 3040 years which emphasises the central importance of the contribution of service users [23]. Collaborative coproduction involves a relocation of power whereby the user is seen as an expert in their own circumstances, and professionals move from being fixers to facilitators[23]. It requires a new relationship with professionals, and all parties need training to take on new roles. Over the same period, shared decisionmaking has evolved as a new model for the clinical encounter. The underlying ethical principles require acceptance that selfdetermination is desirable and that the clinicians role is to support this. Shared decisionmaking for which there is a growing evidence base to support effectiveness [24] depends on building an effective relationship in the clinical encounter using a range of specific communication skills.

이러한 변화로 인해 [환자와 함께 일하는 것이 더욱 까다로워졌습니다]. 

  • 불확실한 상황에서 [환자가 선택권을 행사]할 수 있도록 지원해야 하고,
  • 환자가 이용 가능한 옵션과 관련된 [리스크와 위험을 이해]할 수 있도록 해야하며,
  • [선택에 대한 제한을 받아들이도록] 도와야 한다.

이러한 모든 것을 수행하는 방법을 배우려면 [환자의 의견이 필요]하며, [교육자]는 [환자의 권리와 요구를 존중]하면서 [학생과 수련의가 학습할 수 있는 가장 적절한 방법을 모색]해야 합니다[25].
Such changes make working with patients ever more demanding
for example,

  • supporting patients to exercise choice in situations of uncertainty,
  • enabling them to understand the options available and the risks and dangers involved, and
  • helping them appreciate restrictions on choice.

Learning how to do all these things needs input from patients and challenges educators to seek the most appropriate ways of enabling students and trainees to learn, whilst respecting the rights and needs of patients [25].

[의료 전문가 교육에 환자와 보호자의 적극적인 참여]는 정책 및 연구를 포함한 다른 영역에서의 참여에서 논리적으로 발전한 것입니다. 이는 의학, 간호, 사회복지, (비의사) 정신건강 전문가 교육에서 시작되었지만 작업치료, 약학, 물리치료와 같은 다른 분야로 확산되었습니다. 그럼에도 불구하고 이 글을 쓰는 시점에서 최근의 입장문을 인용하자면, '아직 교육 실무의 주류에 잘 정착되지 않았으며', '종종 특정 환자 집단에 국한되고 ... 파편화되어 교육 기관에 포함되지 않으며 적절한 인프라와 지속적인 리더십 및 자원이 부족하다'[26, 19페이지]고 합니다.
Active involvement of patients and carers in health care professional education was a logical development from involvement in other areas, including policy and research. It started in medicine, nursing, social care, and education of (non
physician) mental health professionals but has spread to other disciplines such as occupational therapy, pharmacy, and physical therapy. Nonetheless at the time of writing, to quote a recent position paper, it is still not well established in the mainstream of educational practice, and is often limited to a specific population of patients is fragmented and not embedded in the educational institution, and lacks appropriate infrastructure and sustained leadership and resources [26, p. 19].

환자 참여의 범위
Scope of Patient Involvement

많은 사람들이 '교육과정에 대한 환자 참여'를 교육, 학습 및 평가에 대한 직접적인 참여로 제한한다고 생각할 수 있으며, 실제로 이러한 영역이 이 장의 주요 초점입니다. 그럼에도 불구하고 환자는 교육 과정의 모든 측면에 기여할 수 있는 잠재력이 있습니다. 여기에는 다음이 포함됩니다:
Many people might assume that patient involvement in the curriculum was limited to direct involvement in teaching, learning, and assessment; indeed, these areas are the main focus of this chapter. Nonetheless, there is potential for people to make a contribution to all aspects of the educational process. These include the following:

- 학생 선발 및 입학
• student selection and admission

- 커리큘럼 개발
• curriculum development

- 코스 관리
• course management

- 교수 개발
• faculty development

- 실습 배치
• practice placements

- 프로그램 평가.
• programme evaluation.

그러나 최근의 여러 주요 문헌 검토에 따르면 위의 대부분의 영역에서 환자의 참여는 여전히 상대적으로 드문 것으로 나타났습니다. 여러 프레임워크가 환자 참여의 잠재적 범위를 탐색하는 데 도움이 되며, 여기서는 세 가지 프레임워크를 설명합니다: Tew 등[27]의 '환자 참여의 사다리', '캠브리지 프레임워크'[28], Towle 등[5]이 설명한 적극적 참여의 분류법.
However, several recent major literature reviews highlight that patient involvement in most of the above areas is still relatively unusual. A number of frameworks help us explore the potential scope of patient involvement, and here we describe three:

  • Tew et al.’s [27] ‘ladder of patient involvement’,
  • the ‘Cambridge framework’ [28], and
  • a taxonomy of active involvement described by Towle et al. [5].


환자 참여의 사다리
Ladder of Patient Involvement

Tew 등[27]은 개별 프로그램과 기관 내에서 환자의 참여를 확립하고 모니터링하는 데 사용할 수 있는 '참여의 사다리'를 설명합니다. 이 도구는 비의사의 정신건강 교육 및 훈련의 맥락에서 개발되었지만 교육 스펙트럼과 여러 분야에 걸쳐 적용될 수 있습니다(상자 15.2 참조).
Tew et al. [27] describe a 
ladder of involvement, which they propose can be used to establish and monitor patients involvement within individual programmes and institutions. The tool was developed in the context of nonphysician mental health education and training, but could be applied both across the educational spectrum and across disciplines (see Box 15.2).

박스 15.2 환자 참여의 사다리 [27]
BOX 15.2 Ladder of patient involvement [27]

1 관여하지 않음
No involvement

서비스 사용자나 보호자의 협의나 참여 없이 커리큘럼이 계획, 제공, 관리됩니다.
The curriculum is planned, delivered, and managed with no consultation or involvement of service users or carers.

2 제한적 참여
Limited involvement

지역 서비스 사용자 또는 보호자 그룹과 협력합니다. 서비스 사용자/보호자가 지정된 슬롯에서 '자신의 이야기를 들려주거나', 코스 계획 또는 관리, 학생 선발, 학생 평가 또는 프로그램 평가에 대한 자문을 받도록 초대됩니다. 비용은 제공되지만 전체 과정을 형성하는 데 참여할 기회는 없습니다.
Outreach with local service user or carer groups. Service users/carers invited to 
tell their story in a designated slot and/or be consulted about course planning or management, student selection, student assessment, or programme evaluation. Payment offered but no opportunity to participate in shaping the course as a whole.

3 참여 확대
Growing involvement

서비스 사용자/보호자가 계획, 제공, 학생 선발, 평가, 관리 또는 평가 중 최소 두 가지 이상에 정기적으로 기여합니다. 일반 방문 강사 요금으로 지불합니다. 단, [커리큘럼 콘텐츠, 학습 결과 또는 학생 선발]과 같은 문제에 대한 주요 결정은 서비스 사용자/보호자가 대표로 참여하지 않는 포럼에서 이루어집니다. 세션 전후에 일부 지원은 제공되지만 일관된 교육 및 감독 프로그램은 제공되지 않습니다. 학생으로서 프로그램에 참여하는 서비스 사용자 및 보호자에 대한 차별이 없습니다.
Service users/carers contribute regularly to at least two of the following: planning, delivery, student selection, assessment, management, or evaluation. Payment at normal visiting lecturer rates. However, key decisions on matters such as curriculum content, learning outcomes, or student selection made in forums in which service users/carers are not represented. Some support before and after sessions, but no consistent programme of training and supervision. No discrimination against service users and carers accessing programmes as students.

4 협업

서비스 사용자/보호자가 계획, 제공, 학생 선정, 평가, 관리 또는 평가 중 최소 세 가지에 전체 팀원으로서 참여합니다. [가치 선언문]으로 뒷받침됩니다. 서비스 사용자/보호자가 커리큘럼 콘텐츠와 같은 주요 결정에 기여합니다. 프로그램 기여자들이 모일 수 있는 시설과 정기적인 교육, 감독 및 지원 제공. 서비스 사용자 및 보호자가 학생으로서 프로그램에 참여할 수 있도록 장려하는 적극적인 조치.
Service users/carers involved as full team members in at least three of the following: planning, delivery, student selection, assessment, management, or evaluation. Underpinned by a statement of values. Service users/carers contribute to key decisions on matters such as curriculum content. Facility for contributors to the programme to meet and regular provision of training, supervision, and support. Positive steps to encourage service users and carers to access programmes as students.

5 파트너십

서비스 사용자, 보호자, 직원은 [파트너십 가치에 대한 명시적인 선언]을 바탕으로 모든 영역에서 체계적이고 전략적으로 협력합니다. 모든 주요 결정은 공동으로 이루어집니다. 서비스 이용자 및 보호자가 실습 학습 평가에 참여합니다. 유도, 지원 및 교육을 제공하기 위한 적절한 자금이 지원되는 인프라. 프로그램과 독립 그룹 간에 체결된 보안 계약 및 계약에 따라 강사로 고용된 서비스 이용자 및 보호자. 서비스 이용자와 보호자가 아직 자격을 취득할 수 있는 위치에 있지 않더라도 학습 세션에 참여하도록 장려하기 위한 적극적인 조치.
Service users, carers, and staff work together systematically and strategically across all areas, underpinned by an explicit statement of partnership values. All key decisions made jointly. Service users and carers involved in the assessment of practice learning. Adequately funded infrastructure to provide induction, support, and training. Service users and carers employed as lecturers on secure contracts and/or contracts established between programmes and independent groups. Positive steps made to encourage service users and carers to join learning sessions, even if not (yet) in a position to achieve qualifications. 

캠브리지 프레임워크
The Cambridge Framework

스펜서 등[28]은 의학교육에서 환자의 역할을 검토하고 환자 참여에 대한 논의를 촉진하기 위한 프레임워크('캠브리지 프레임워크')를 제안했습니다. 이 프레임워크는 [환자, 학생, 교사가 상호 작용하는 맥락의 네 가지 속성]을 '누가?', '어떻게?', '어디서?', '무엇을?'이라는 제목 아래 기반으로 하며, 환자 참여를 계획하거나 평가할 수 있는 템플릿을 제공합니다.
Spencer et al. [28] reviewed the patient
s role in medical education and suggested a framework (the Cambridge framework) to facilitate discussion about patient involvement. It is based on four sets of attributes of contexts in which patients, students, and teachers interact, under the headings Who?, How?, Where, and What?, providing a template against which patient involvement can be planned or evaluated


여기에는 각 환자, 가족, 간병인의 개별적인 [배경, 문화, 경험, 기대치]가 반영됩니다. 환자는 [연령, 성별, 인종, 성적 지향, 정서적 및 지적 능력, 사회경제적 지위]뿐만 아니라 현재 나타나는 [임상적 문제]도 매우 다양합니다.
This reflects the individual background, culture, experience, and expectations of each patient, their family, and carers. Patients vary immensely in terms of the clinical problems with which they present, as well as their age, gender, ethnicity, sexual orientation, emotional and intellectual capacity, and socio
economic status.


학생과 수련의는 다양한 교육 기회를 제공하는 다양한 환경(예: 병원 병동, 병원 및 지역사회 외래 진료소, 응급실)에서 일합니다. [교육 기회]는 만남이 계획된 만남인지 우연한 만남인지, 시간적 압박, 가능한 감독 등의 요인에 따라 달라집니다. 이러한 문제를 고려하면 교사가 의도한 학습 결과와 환경에 따라 [환자를 참여시킬 수 있는 방법]을 계획하는 데 도움이 될 수 있습니다.
Students and trainees work in a wide range of settings (such as hospital wards, hospital and community ambulatory clinics, emergency departments), which present different educational opportunities. These depend on factors such as whether encounters are planned or opportunistic, pressures of time, available supervision, and so on. Considering these issues may help teachers plan how patients may be involved based on the intended learning outcomes and the setting.


의료 서비스는 [다양한 장소와 환경]에서 이루어지며 맥락이 학습의 성격과 질에 영향을 미칠 수밖에 없음을 인식하고, 이 제목 아래에서 다루는 질문은 [장소, 안전, 정체성, 권력 관계]와 관련된 문제를 탐구합니다. '어디'에는 실습 병동과 같이 '실제' 환경인지 '시뮬레이션' 환경인지, '단일 전문가' 환경과 '다중 전문가' 환경을 대조하여 의사 혼자서 환자와 함께 학습하는 상황과 다양한 보건 및 사회복지 전문가가 함께 학습하고 일하는 상황을 구분하는 것도 포함됩니다.
Recognising that health care takes place in a wide range of locations and settings, and that context will inevitably influence the nature and quality of learning, questions addressed under this heading explore issues to do with place, safety, identity, and power relationships. The
Where? also includes whether it is a real or simulated environment, such as a training ward, and the contrast between uniprofessionalor multiprofessional settings to distinguish between situations in which doctors alone are learning with patients and those in which a range of health and social care professionals are learning and working.


이 속성은 '내용', 즉 제시된 임상 문제, 학습할 수 있는 특정 기술 및 지식, 기본 태도 및 가치를 다룹니다. 이러한 속성을 고려하면 교사는 특정 상황의 잠재력을 최대한 실현하고 환자와 학습자 모두에게 미칠 수 있는 영향을 평가하는 데 도움이 됩니다.
This set of attributes deals with
content: the clinical problems presented, the specific skills and knowledge that may be learned, and underlying attitudes and values. Consideration of these should help teachers realise the maximum potential of particular situations and assess the likely impact on both patients and learners.

적극적인 환자 참여의 분류법
Taxonomy of Active Patient Involvement

Towle 등[5]은 '캠브리지 프레임워크'와 '참여의 사다리'의 요소를 결합한 분류법을 제안하며, 이는 환자의 역할을 명확히 하고 연구 결과를 보다 쉽게 표현, 종합 및 비교할 수 있도록 도와준다고 주장합니다. 이 분류는 실제 환자 외에 환자를 접할 수 있는 다양한 방법을 고려하여 6단계의 5가지 속성에 기반한 참여의 연속성을 설명합니다(상자 15.3 참조).
Towle et al. [5] propose a taxonomy combining elements of both the
Cambridge Framework and ladder of involvement, which they argue helps both clarify the patients role and makes communication of research findings easier to articulate, synthesise, and compare. Their classification considers the wide variety of ways other than real patients in the workplace in which patients may be encountered, describing a continuum of involvement grounded in five attributes at six levels (see Box 15.3).


환자 참여의 수준
Levels of Patient Involvement

이 섹션에서는 상자 15.3에 설명된 각 참여 범주에서 의학교육자에게 발생할 수 있는 몇 가지 문제를 설명합니다.
In this section, we describe some of the issues that may arise for medical educators in each of the categories of involvement described in Box 15.3.

사례 및 시나리오
Cases and Scenarios

[종이 기반 사례]는 실제 환자 접촉을 보완하기 위해 오랫동안 사용되어 왔으며, 기술이 발전함에 따라 비디오 기반 및 전자 사례의 사용이 증가하고 있습니다. [가상 환자(VP)]의 사용은 1970년대 초에 처음 설명되었습니다. VP는 다음과 같이 정의되었습니다: '실제 임상 시나리오를 시뮬레이션하는 특정 유형의 컴퓨터 프로그램: 학습자가 의료 서비스 제공자의 역할을 모방하여 병력을 파악하고, 신체 검사를 수행하고, 진단 및 치료 결정을 내리는 것'[29]으로 정의되었습니다. 가상 환자는 [정적이거나 동적]일 수 있고, [수동적이거나 대화식]으로 사용될 수 있으며, [선형적이거나 분기적]일 수 있습니다[30].
based cases have long been used to supplement real patient contact, with videobased and electronic cases increasing in use as the technology has developed. The use of virtual patients (VPs) was first described in the early 1970s. A VP has been defined as a: specific type of computer program that simulates reallife clinical scenarios: learners emulate the roles of health care providers to obtain a history, conduct a physical examination, and make diagnostic and therapeutic decisions [29]. Virtual patients can be static or dynamic, used passively or interactively, and may be linear or branching [30].

일부 리뷰에서는 VP의 매우 다양한 용도에 대한 [증거 기반이 매우 취약]하다고 결론지었지만, 최근의 한 토론 논문에서는 PBL 사례, 대화형 강의 및 세미나, 형성 평가 및 총괄 평가와 같은 영역을 포함하여 커리큘럼에 VP가 포함될 정도로 VP의 신중한 적용에 [많은 진전이 이루어졌다]고 주장했습니다[31]. 이러한 발전의 원동력에는 국제적인 협업, 비용 절감, 더 나은 저작 시스템, 더 쉬운 보급 등이 있습니다. 실제 환자 접촉을 대체하기 위한 것은 아니지만, VP의 사용은 특히 이론적 및 경험적 관점에서 다양한 사례와 변형에 노출되어야 하는 임상 추론의 개발에서 임상 경험을 유용하게 보완할 수 있는 것으로 보입니다[31, 32]. 그러나 커리큘럼 내에서 가장 효과적인 설계, 순서 또는 균형 등에 대한 수준 높은 연구는 상대적으로 거의 이루어지지 않았습니다. 시뮬레이션 기반 교육 관련 분야에서 효과적인 교육 설계를 뒷받침하는 증거 기반 원칙을 고려하는 것이 도움이 될 수 있습니다. 여기에는 다양한 난이도, 반복적이고 분산된 연습, 인지적 상호 작용, 다양한 학습 전략, 개별화된 학습, 숙달 및 피드백이 포함됩니다 [33, 34]. 11장 참조. 
Whilst some reviews concluded that the evidence base to inform the very wide variety of uses of VPs was very weak, a more recent discussion paper contended that much progress had been made in the thoughtful application of VPs, to the point where their use has become embedded in curricula, including areas such as PBL cases, interactive lectures and seminars, and both formative and summative assessments [31]. Drivers of these developments include international collaboration, decreasing costs, better authoring systems, and greater ease of dissemination. Although not intended to replace authentic patient contact, the use of VPs appears to be able to usefully complement clinical experience
in particular, from both theoretical and empirical perspectives, in the development of clinical reasoning, requiring, as it does, exposure to multiple cases and variations [31, 32]. However, there has been relatively little highquality research into, for example, the most effective design, sequencing, or balance within the curriculum. Consideration of the evidencebased principles that underpin effective instructional design in the related field of simulation based education may be helpful. These include range of difficulty, repetitive and distributed practice, cognitive interactivity, multiple learning strategies, individualised learning, mastery, and feedback [33, 34]. See Chapter 11.

그러나 빠르게 진화하는 기술은 훨씬 더 현실감 있는 VP를 구축할 수 있는 잠재력을 가지고 있습니다. 폴튼과 발라수브라마니암은 '현재의 비교적 가벼운 VP를 진정한 대화형 환자 시뮬레이션, '전자 인간' 또는 '디지털 아바타'로 확장하여... 실제 환자 관리, 임상 및 의사소통 기술 훈련, 모든 시민의 건강 또는 질병을 모방할 수 있는 잠재적 기능을 제공하는 것을 고려할 수 있게 되었습니다'[31]라고 언급합니다. 이러한 발전은 [의료 교육자, 학습 기술자, 콘텐츠 전문가, 그리고 결정적으로 환자와 보호자 간의 새로운 협력]을 이끌어내야 할 것입니다. 그러나 VP의 유용성에 대한 문헌을 체계적으로 검토한 결과, [개발 비용이 많이] 들기 때문에 [리소스와 아이디어를 공유]할 수 있는 가상 커먼즈 또는 온라인 커뮤니티가 필요하다는 주의가 제기되었습니다[30].
However, fast
evolving technology has the potential to build VPs with far greater realism. As Poulton and Balasubramaniam note: It is now possible to consider the extension of the current relatively lightweight VP into a truly interactive patient simulation, an ehuman or digital avatar” … offering authentic patient management, clinical and communication skills training, and the potential capability to mimic the health or disease of any citizen[31]. This development will need to draw on new collaborations between medical educators, learning technologists and content experts, and, crucially, patients and carers. However, a note of caution was raised in a systematic review of the literature about the utility of VPs: they are expensive to develop, which begs the need for a virtual commons or online community where resources and ideas can be shared [30].

보다 총체적인 수준에서는 의료, 임상, 연구, 교육의 모든 측면에서 [내러티브 접근법]을 채택해야 한다는 요구가 증가하고 있으며, 모든 당사자에게 잠재적인 이점이 있다고 주장되고 있습니다[35, 36]. 1968년 널리 인용된 바바라 하디의 말처럼 '우리는 내러티브 속에서 꿈을 꾸고, 내러티브 속에서 백일몽을 꾸고, 내러티브로 기억하고, 예상하고, 희망하고, 절망하고, 믿고, 의심하고, 계획하고, 수정하고, 비판하고, 구성하고, 험담하고, 배우고, 미워하고, 사랑한다'[37, 5페이지].
On a more holistic level, there have been increasing calls to adopt a narrative approach in all aspects of health care, clinical practice, research,
and education, with potential benefits claimed for all parties [35, 36]. As the widely quoted Barbara Hardy noted in 1968 we dream in narrative, daydream in narrative, remember, anticipate, hope, despair, believe, doubt, plan, revise, criticise, construct, gossip, learn, hate and love by narrative [37, p. 5].

내러티브 기록의 한 종류는 Aronson[38]이 '자서전'이라고 부르는 것으로, 더 간단하게는 ['환자의 이야기'] 또는 더 냉소적으로 ['의학적 고해성사']라고 할 수 있습니다. 그는 약 300여 권에 달하는 책 길이의 자서전을 분석하고 그 특징을 분류했습니다. 이러한 [이야기를 읽고 성찰하는 것]은 의료 전문가가 교육과 실무 모두에서 환자를 더 잘 이해하고 공감하며 '교과서에서 배울 수 없는 것', 실제로 '다른 방법으로는 도달할 수 없는 것'을 가르치는 데 도움이 될 수 있습니다[35].
One kind of narrative account is what Aronson [38] called the
‘autopathography’, more simply referred to as a patients tale, or perhaps more cynically, the medical confessional. He analysed and classified characteristics of nearly 300 such booklength tales. Reading and reflecting on such stories may help health professionals, both in training and in practice, better understand and empathise with their patients, and teach them things they wont learn from textbooks, indeed that cannot be arrived at by any other means [35].

이러한 리소스를 [교육적으로 활용]할 수 있는 방법은 여러 가지가 있습니다. 파울리와 힉슨[39]은 교육에서 내러티브를 사용하기 위한 [간단한 프로세스]읽기, 토론, 촉진, 반응 분석, 적용에 대한 토론을 제안합니다. '이야기의 내용은 무엇인가요?', '나에게 어떤 영향을 미쳤나요?'와 같은 질문은 성찰을 촉진하고 학습자가 핵심 메시지에 집중하고 새로운 맥락에 적용하는 데 도움이 됩니다. 연습을 현실에 기반을 두면 관련성이 강화되어 학습자에게 동기를 부여하는 데 도움이 됩니다. 성찰과 토론을 위해 충분한 시간을 허용해야 합니다.
There are many ways in which such resources may be used educationally. Powley and Higson [39] suggest the following simple process for using written narratives in teaching: read, discuss, facilitate, analyse responses, and discuss applications. Questions such as What is the story about? and What effect did it have on me? promote reflection and help learners focus on key messages and apply in new contexts. Grounding the exercise in reality reinforces relevance, which in turn helps motivate learners. Sufficient time must be allowed for reflection and discussion.

텍스트 선택과 관련하여 아론슨은 '[감정적 표현]과 [분석적 담론] 사이에 현명한 균형을 제공해야 하며, [정보를 제공]하고 무엇보다도 나를 즐겁게 해야 한다'는 자신의 추천 기준을 제시했습니다[38]. 그는 자신의 글에서 '톱 10'의 책을 제안했지만, 그 글을 쓴 이후 더 많은 책이 출판되었고 지금도 계속 출판되고 있습니다.
In terms of choice of text, Aronson
s own criteria for recommending a book are that it should provide a judicious balance between emotional expression and analytical discourse, and that it should have informed, and above all entertained me [38]. He suggested a top ten books in his article, but many more have been and continue to be published since he wrote.

오늘날에는 인터넷이 이러한 이야기의 더 일반적인 출처일 것입니다. 흔한 질병이든 희귀한 질병이든 '구글'에 검색하면 '조회수'의 상당 부분이 [환자 또는 보호자가 해당 문제에 대해 작성한 개인 블로그]일 것입니다. '환자 목소리' 또는 '헬스토크'(박스 15.4 참조)와 같은 온라인 리소스를 쉽게 이용할 수 있습니다. 특정 목적에 맞게 다른 자료를 구입하거나 개발할 수도 있지만, 이에 필요한 비용, 시간, 전문성을 과소평가해서는 안 됩니다. 이 분야에 대한 문헌은 드물지만, 환자 경험을 보다 포괄적이고 정확하게 표현하기 위해서는 e-러닝 자료 설계에 환자와 보호자를 참여시키는 것이 중요합니다[40].
Perhaps a more commonly used source of such stories nowadays is the Internet.
Google any disease, common or rare, and a significant proportion of hits will be personal blogs about the problem, as either patient or carer. Online resources such as Patient Voices or Healthtalk (see Box 15.4) are readily available. Others can be purchased or developed to suit specific purposes, although the cost, time, and expertise required to do this should not be underestimated. The literature is sparse in this area, but involving patients and carers in designing elearning materials is selfevidently important to ensure that patient experiences are more comprehensively and accurately represented [40].


표준화된 환자
Standardised Patients

임상 환경에서 실제 환자로부터 배우는 것은 의학 교육의 핵심이며, 학습자가 다양한 출처에서 얻은 학습을 통합하고 종합할 수 있게 해줍니다. 실제로 '병상 교육'은 '의료 행위'를 구성하는 모든 기술적 및 비기술적 기술, 행동, 응용 지식을 임상 교사가 모델링하고 통합된 전체로서 학습할 수 있는 유일한 환경입니다. 
Learning from real patients in clinical settings is central to medical education, enabling learners to consolidate and synthesise learning from a range of sources. Indeed,
‘bedside teaching’ is the only setting in which all of the technical and nontechnical skills, behaviours, and applied knowledge that constitute ‘doctoring’ are modelled by clinical teachers and can be learnt as an integrated whole.

라마니는 '병상은 교사, 수련의, 환자 간의 [예기치 않은 삼각 상호작용]을 위한 완벽한 장소이며 ... 이러한 만남에서 의사 교사는 가르칠 수 있는 순간을 포착하는 데 주의를 기울여야 한다'[41]고 상기시킵니다.
Ramani reminds us that
the bedside is the perfect venue for unrehearsed and unexpected triangular interactions between teacher, trainees, and patient physician teachers should be vigilant about grabbing teachable moments [41] during these encounters.

'표준화된'(또는 '프로그램된') 환자는 1960년대에 Barrows와 Abrahamson[42]에 의해 처음 소개되었습니다. 원래는 교육과 평가를 위해 자신의 문제를 일관된 방식으로 표현하도록 훈련된 실제 환자였지만, 오늘날 '환자'는 일반적으로 '연극적 배경이 있든 없든, 환자의 질병을 시뮬레이션하도록 훈련된 건강한 사람'[43]이 될 것입니다(이 장의 뒷부분 참조). 
Standardised (or programmed) patients were first introduced by Barrows and Abrahamson [42] in the 1960s. Although originally real patients trained to represent their problem(s) in a consistent manner for the purposes of teaching and assessment, nowadays, in the words of Barrow himself, the patient will generally be a well person, with or without a thespian background, trained to simulate a patients illness [43] see the section later in this chapter.

임상 교육이 진행될 때마다 환자는 일반적으로 관련 당사자 중 [가장 수동적이고 취약한 위치]에 있습니다. 그럼에도 불구하고 대부분의 환자는 참여에 보람을 느끼고 기꺼이 참여하며, 종종 학생들이 '배워야 한다'는 것을 인식하고 있다고 말합니다. 그러나 환자가 교육에 참여할 것이라고 암묵적으로 가정해서는 안 되며, 환자의 의사와 감정은 항상 존중되어야 하며, 어떤 결정을 내리더라도 치료와 돌봄에 영향을 미치지 않는다는 사실을 알아야 합니다. 환자에게는 어떤 환경에서든 학습자가 함께 있고 치료를 제공할 수 있다는 사실을 항상 알려야 합니다. 이를 통해 환자는 첫 만남에 대비하고 불안감을 해소할 수 있습니다(이 장 뒷부분의 '윤리적 문제' 섹션 참조). 또한 환자에게 세션의 목표, 교사와 학습자가 세션에서 얻고자 하는 것, 환자에 대한 기대치(예: 피드백 제공 요청 여부)에 대해 명시적으로 브리핑하면 이점이 있습니다. 환자는 참석할 수 있는 학습자의 수와 수준을 알고 있어야 하며, 각자의 역할을 명확히 하고 구두 또는 서면 동의를 얻어 적절히 기록해야 합니다. 교육과 임상 실습에 대해 의식적으로 생각하기보다는 세 명의 '플레이어' 모두의 관계 발전에 관심을 기울이는 '세 사람 또는 그룹이 참여하는 토론 또는 대화'[45]인 McKimm의 [44] 임상 '트리아로그'는 교사가 환자 및 학습자와 함께 적극적으로 계획하고 작업하는 데 도움이 될 수 있는 유용한 모델입니다.
Whenever clinical teaching occurs, patients are usually the most passive and vulnerable of the parties involved. Notwithstanding this, most patients find involvement rewarding and are willing participants, often commenting that they recognise that students have to learn. However, it should not be tacitly assumed that patients will engage in teaching; their wishes and feelings should always be respected, and they should know that, whatever their decision, their treatment and care will not be affected. Patients must always be informed that learners may be present and may be providing care, whatever the setting. This allows them to prepare for the initial encounter and to raise anxieties (see the section on Ethical Issues later in this chapter). There are also benefits from briefing patients explicitly about a sessions aims, what teacher and learners hope to get out of it, and expectations of the patient, for example, whether they will be asked to give feedback. Patients need to be aware of the number and level of the learners who may be present, each persons role should be clarified, and verbal or written agreement obtained and recorded as appropriate. McKimms [44] clinical ‘trialogue’ a discussion or conversation in which three persons or groups participate[45] that attends to the developing relationships between all three players, rather than consciously trying to think about teaching and clinical practice is a useful model that may help teachers plan and work actively with patients and learners.


환자가 자신의 경험을 공유하고 환자 교사가 교육 및/또는 평가에 참여하기
Patients Share their Experience and
Patient Teachers Involved in Teaching and/or Evaluation

교육을 위해 실제 환자를 선택하는 것은 종종 기회주의적이지만, 학부 및 대학원 교육에서 훈련된 환자를 활용하는 보다 [구조화된 접근 방식]이 점점 더 많이 사용되고 있습니다. 이러한 환자 교육자는 말기 환자나 정신 건강 문제가 있는 환자 등 임시 교육으로 인해 환자에게 잠재적인 해를 끼칠 수 있다는 우려가 제기될 수 있는 분야를 포함하여 다양한 환경에서 모집할 수 있습니다.
Selecting real patients for teaching is often opportunistic, but a more structured approach employing trained patients is being increasingly used within undergraduate and postgraduate training. Such patient educators can be drawn from many settings, including areas where concerns might be expressed about potential harm to patients from ad
hoc teaching encounters, such as those who are terminally ill or have mental health problems.

[전문가 환자]의 개념은 더 광범위한 환자 참여 의제에 포함되어 있습니다. 예를 들어, 영국에서는 '전문가 환자 이니셔티브는 ... 환자를 의료 서비스의 중심에 두려는 정부의 노력의 일환이며 ... 임상 거버넌스 의제의 혁신적 초점의 일부입니다'[46]. 이는 [주로 장기 질환을 가진 사람들]이 '자신의 치료에서 주요 의사 결정권자가 될 수 있도록'[46] 돕기 위한 것이었습니다. 이 프로그램은 환자 스스로를 위한 교육 프로그램의 지원을 받았으며, 증상(통증, 피로, 우울증 등)의 자가 관리와 관련하여 자신감과 자기 효능감에 변화를 가져왔다는 일부 증거가 있습니다[47]. 그러나 이러한 프로그램의 결과를 조사한 여러 무작위 대조 시험의 결과는 의료 서비스 이용에 영향을 미치지 못했습니다 [48]. 전문 환자는 의료 전문가 교육에서 보다 적극적인 역할을 할 수 있도록 준비하기 위해, 개별 환자의 여정을 공유함으로써, 다른 환자의 지원과 격려가 필요할 수 있습니다 [49].
The concept of the expert patient is enshrined in the wider patient involvement agenda. In the UK, for example, the
expert patient initiative was part of the governments commitment to place patients at the heart of health care which is part of the transformational focus of the clinical governance agenda [46]. This was primarily targeted at people with longterm conditions to help them become key decision makers in their own care [46]. It was supported by an educational programme for the patients themselves, and there is some evidence that it resulted in changes in confidence and selfefficacy in relation to selfmanagement of symptoms (such as pain, tiredness, and depression) [47]. However, results of several randomised controlled trials looking at outcomes of such programmes failed to show any effect on use of health care [48]. Expert patients may need support and encouragement, ideally from other patients through sharing individual patient journeys, to prepare them for a more active role in the education of health professionals [49].

현재 적극적인 치료를 받고 있지 않은 환자와 함께 일할 때, 특히 임상적 요구가 허용하는 것보다 더 많은 시간이 필요할 때 경험이 없는 학습자를 가르칠 때 이점이 있습니다. 환자 교육자는 다음과 같은 이점이 있습니다:
There are advantages in working with patients who are not under current active care, particularly when teaching inexperienced learners when more time needs to be taken than clinical demands allow. Patient educators have the benefits of being:

- 의료 교육에 관심이 있는 [동기 부여된 개인]
motivated individuals with an interest in medical training

- 실제 임상 기록과 임상 징후가 있는 ['실제'(시뮬레이션이 아닌) 임상 실습]
• ‘real (not simulated) with authentic clinical histories and possibly clinical signs

- 손의 압력이나 병력 청취 방식 등 환자의 관점에서 [구조화된 피드백]을 제공할 수 있다.
able to give structured feedback from a patients perspective, such as the pressure of the hands or the way in which a history is taken.

류마티스 질환을 앓고 있는 환자 강사(PI)는 대부분의 연구에서 학습자와 PI 모두 높은 수준의 만족도를 보였으며, 특히 질환을 앓고 있는 생활의 영향에 대해 이야기할 때 학습자의 지식과 기술을 향상시키는 데 임상의사만큼 효과적일 수 있다는 사실이 잘 설명되어 있습니다[50]. 환자 교사의 또 다른 독특한 범주는 '산부인과 교육 보조원'으로, 스스로 검진을 통해 골반 및 유방 검사를 가르치도록 훈련받은 여성입니다. 이들은 북미와 스칸디나비아에서 널리 사용되고 있으며 다른 서구 국가에서도 점점 더 많이 사용되고 있지만, 학생들이 친밀한 검사를 수행하는 것에 대해서는 여전히 많은 논란이 있습니다 [51]. 이러한 교육은 일단 교육을 받으면 세션을 진행하는 데 거의 도움이 필요하지 않으므로 임상 튜터의 업무 부담을 덜어줄 수 있습니다. 한 비교 연구에서 어소시에이트가 가르친 학생들은 그렇지 않은 학생들보다 부착 종료 평가에서 더 나은 기술을 보였습니다[52]. 
Patient instructors (PIs)
with rheumatological conditions have been well described, with most studies demonstrating high levels of satisfaction from both learners and PIs, and that PIs can be as effective as clinicians in enhancing learners
knowledge and skills, especially in talking about the impact of living with the condition [50]. Another distinctive category of patient teacher is the ‘gynaecology teaching associate’, women trained to teach pelvic and breast examination through examination of themselves. They are widely used in North America and Scandinavia, and increasingly in other Western countries, although there is still much debate about students performing intimate examinations [51]. Such teaching can help free up clinical tutors as, once trained, the associates need little assistance in running sessions. They have been found to be acceptable and effective in one comparative study students taught by associates had better skills in an endofattachment assessment than students who were not [52].

[학습 장애가 있는 사람, 모국어가 모국어가 아닌 사람, 말기 환자, 노숙자, 망명 신청자 및 난민, 약물 오남용 문제가 있는 사람] 등 [전통적으로 '접근하기 어려운' 커뮤니티]를 포함하여 [특정 그룹]은 전문 교육 프로그램에서 과소 대표되어 왔습니다. 이러한 환자들을 적극적으로 참여시키는 데는 특별한 어려움이 있지만, 예를 들어 저자의 기관 중 한 곳에서는 난민들이 의과대학에 와서 자신의 이야기를 들려주고 자신의 경험에 대한 질문에 답하는 등 성공적인 개입이 이루어졌으며, 이러한 세션은 모든 당사자들로부터 항상 긍정적인 평가를 받았습니다.
Certain groups have been under
represented in professional education programmes, including people with learning disabilities, those whose first language is not the majority language, and the terminally ill, as well as traditionally hardtoreach communities such as the homeless, asylum seekers and refugees, and people with substance misuse problems. Actively involving such patients presents particular challenges but successful interventions have been described, for example in one of the authors institutions refugees came into the medical school to tell their stories and answer questions about their experience; the sessions were invariably positively evaluated by all parties.

[간병인]은 영국에서 8명 중 1명이 간병인인 것으로 알려져 있는 또 다른 중요한 인구 집단으로, 자신의 건강 및 정서적 요구가 간과되는 경우가 많으며 잠재적으로 많은 것을 제공할 수 있는 중요한 집단입니다( press-releases/facts-and-figures 참조). 예를 들어 치매에 대한 학습에서 보호자의 관점을 중심에 두는 혁신적인 세션이 설명되었습니다[53].
Carers represent another large and important population (one in eight people are said to be carers in the UK, for example, see: pressreleases/factsandfigures), whose own health and emotional needs are often overlooked, and who potentially have a great deal to offer. Innovative sessions have been described which put the carers perspective at the centre, for example in learning about dementia [53].

잘 관리된 환자 참여는 환자와 학습자 모두에게 도움이 될 수 있습니다. 문제는 환자와 학습자 모두의 요구에 민감하게 반응하고 참여할 준비가 되어 있다고 느끼는 적절한 환자를 식별하는 것입니다. 상자 15.5 및 상자 15.6을 참조하십시오.
managed patient involvement can benefit both patients and learners. The challenge is to be sensitive to both patients and learners needs and to identify suitable patients who feel equipped to participate. See Box 15.5 and Box 15.6.

박스 15.5 사례 연구: 전문직 간 건강 멘토 프로그램 UBC [54]
BOX 15.5 Case study: Interprofessional health mentors programme UBC [54]

브리티시 컬럼비아 대학교(UBC)의 한 프로그램에서는 다양한 분야의 학생들이 [3학기 동안 장기 질환을 앓고 있는 지역사회 주민 한 명과 결연]을 맺었습니다.
In a programme at the University of British Columbia (UBC), students from different disciplines were attached to a person in the community with a long
term condition for a period of three semesters.

여섯 차례의 주제별 모임 동안 건강 멘토('경험별 전문가')는 커뮤니티 그룹을 통해 모집된 학생들과 협력하여 환자의 관점에서 장기 질환을 앓고 있는 삶에 대해 배우고 전문가 간 역량을 개발하도록 도왔습니다. 이러한 '자기 관리형 학습 커뮤니티'의 참가자들은 스스로 질문을 탐구하고 목표를 달성하기 위해 창의적으로 접근하도록 장려되었습니다. 프로그램의 3분의 2에 해당하는 심포지엄을 통해 아이디어를 공유하고 진행 상황을 되돌아볼 수 있었습니다.
During six themed meetings, the health mentors (
expertsby experience recruited through community groups) worked with students to help them learn about living with a longterm condition from the patients perspective, and to develop interprofessional competencies. Participants in these selfmanaged learning communities were encouraged to explore their own questions and to be creative in their approach to working towards the goals. A symposium twothirds of the way through the programme enabled sharing of ideas and reflection on progress.

이 프로그램은 멘토와 학생 모두에게 매우 유익하고 높은 평가를 받았습니다. 학생들은 협업의 이점과 환자의 전문성 및 수완을 인식하는 등 다양한 학습 결과를 문서화했습니다. 멘토는 자신의 '완전한 여정'을 설명할 수 있다는 점과 '환원'할 수 있는 기회를 통해 혜택을 얻었습니다. 모든 당사자는 장기적인 관계의 중요성을 인정했습니다.
The programme was rated very highly and as beneficial by mentors and students alike. A wide range of learning outcomes were documented by students, for example recognising the benefits of collaboration and the expertise and resourcefulness of patients. Mentors benefited from being able to describe their complete journey, and the opportunity to give back. All parties acknowledged the importance of longterm relationships.

[성공의 열쇠로 네 가지 요인]이 확인되었습니다:
Four factors were identified as key to success:

- 교수진이 조력자 역할을 하는 환자 중심 학습의 고유성
 the uniqueness of patient
centred learning, with faculty acting as facilitators

- 지역사회 조직과의 지속적인 파트너십
 sustained partnerships with community organisations

- 단순함 유지
 keeping things simple

- 다양성, 창의성 및 유연성 장려.
 encouraging diversity, creativity and flexibility.

상자 15.6 중점 사항: 시신 기증
BOX 15.6 FOCUS ON: Body donation

의사와 기타 보건 전문가 교육에 개인이 기여할 수 있는 궁극적인 기여는 아마도 시신 기증일 것입니다. 시체 해부는 수 세기 동안 해부학 교육의 중심이었지만, 학생들이 해부 실습 경험을 해야 하는지, 아니면 아예 시체에 노출될 필요가 있는지에 대해서는 최근 논쟁의 대상이 되고 있습니다.

  • 지지자들은 해부 실습이 입체적인 시각과 변이에 대한 통찰력을 제공하고, 손재주, 기본 수술 기술, 팀워크와 같은 전문성을 기르며, 인문학적 가치와 죽은 자에 대한 존중을 증진한다고 주장합니다.
  • 비평가들은 시체 노출의 잠재적인 비인간화 효과를 강조하며, 이는 시대에 뒤떨어진 '통과의례'이며 현대 기술, 영상, 대화형 멀티미디어, 석고 모형, 바디 페인팅, 라이프 드로잉을 사용하는 대체 교육 방법이 더 매력적인 방식으로 학습을 촉진할 수 있다고 주장합니다[62, 63].

시체 사용에는 다양한 법적, 윤리적 규정이 적용되며 문화적, 종교적 차이(예: 미소유, 미동의 시체 사용의 허용 여부)를 반영하여 국가마다 상당한 차이가 존재합니다. 이로 인해 사전 동의, 가족과의 연락, 추모 서비스, 상업화 금지 등을 포함하는 공통 프레임워크의 채택이 요구되고 있습니다[64]. 
Probably the ultimate contribution a person can make to the education of doctors and other health professionals is body donation. Cadaveric dissection was central to anatomy education for several centuries, but whether students need to

  • have hands‐on experience of dissection or even be exposed to human cadavers at all has been subject to recent debate. Proponents argue that it provides a three‐dimensional perspective, insights into variation, develops manual dexterity, basic surgical skills, and aspects of professionalism such as team working, and promotes humanistic values and respect for the dead.
  • Critics highlight the potentially de‐ humanising effect of exposure to cadavers, arguing that it is an outdated ‘rite of passage’, and that alternative teaching methods using modern technology, imaging, interactive multi‐media, plastinated models, body painting, and life drawing, have the potential to promote learning in a more engaging way [62, 63].

Use of cadavers is subject to various legal and ethical regulations and considerable variation between countries exists reflecting cultural and religious differences (e.g. concerning the acceptability of using unclaimed, unconsented bodies). This has resulted in calls for the adoption of a common framework which includes informed consent, liaison with families, services of commemoration, and discouraging commercialisation [64].

시신 기증이 복잡한 문제라는 점 외에는 [사람들이 시신을 기증하는 동기]에 대해 알려진 바가 상대적으로 거의 없습니다.

  • 네덜란드에서 시신 기증자를 대상으로 한 설문조사에서는 사후에 유용하게 쓰이고 싶다는 욕구, 장례식에 대한 부정적인 태도(예: 가족에 대한 비용 또는 부담), '시스템'에 대한 감사의 표현이라는 세 가지 주요 차원을 확인했습니다[65].
  • 뉴질랜드, 남아프리카공화국, 아이레에서 실시한 유사한 설문조사에서 응답자의 80%가 의료를 돕고 싶다는 의사를 표명했습니다[66].
  • 그러나 인도의 동시대 지역사회 설문조사에서는 시신 기부에 대한 인식 부족과 상당한 부정적 인식이 확인되었는데, 이는 부분적으로 종교적 신념 및 관습과 관련이 있으며 시신이 존중받을 수 있을지에 대한 우려와 함께 나타났습니다[67].

Relatively little is known about the motivation of people to donate their bodies, other than it is a complex issue.

  • A survey of donors in the Netherlands identified three main dimensions: a desire to be useful after death, negative attitudes to funerals (e.g. expense or burden placed on families), and an expression of gratitude to ‘the system’ [65].
  • In a similar survey in New Zealand, South Africa, and Eire, 80% of respondents expressed a desire to help medical science [66].
  • A contemporaneous community survey in India, however, identified lack of awareness of and considerable negativity towards body donation, partly related to religious beliefs and customs, along with concerns about whether bodies would be treated with respect [67]. 

동등한 파트너로서의 환자 교사
Patient Teachers as Equal Partners

의학교육에서 [이러한 수준의 환자 참여는 드문 일]이지만, 몇 가지 주목할 만한 예외를 제외하고는 다른 분야, 특히 (비정신과) 정신건강, 간호 및 사회복지 교육에서 이러한 모델이 개발되었습니다. 다양한 과정을 통해 도출된 가이드라인과 권고안이 발표되었으며[55-57], 영국의 환자 연구 참여에 관한 지침은 전문직 교육과 관련될 수 있는 문제를 강조하고 있습니다[58]. GMC와 영국의학협회는 의학 교육 및 훈련에 대한 환자의 적극적인 참여에 대한 조언을 발표했습니다[12, 59].
It is unusual in medical education to find this level of involvement, with some notable exceptions, but models have been developed in other disciplines, particularly (non
psychiatric) mental health, nursing, and social care education. Guidelines and recommendations derived through a variety of processes have been published [5557]. and UK guidance about involving patients in research highlights issues that may be relevant to professional education [58]. Both the GMC and British Medical Association have published advice about active patient involvement in medical education and training [12, 59].


기관 차원의 환자 참여 비율
Patients Involved at the Institutional Level

이 수준의 참여는 이전 단계보다 훨씬 드뭅니다. 영국에서 가장 좋은 사례 중 하나는 워릭 대학교[60]에 기반을 두고 있으며 워릭 대학교와 코벤트리 대학교, 보건 및 사회복지 서비스 사용자 및 보호자, NHS 간의 파트너십인 대학/사용자 교육 및 연구 활동 파트너십(UNTRAP)입니다. 환자들은 다양한 수준에서 참여하며, 일부는 일회성 이벤트에 참여하기도 하고 일부는 더 많이 참여하기도 합니다. 서비스 사용자, 보호자, 학계, 전문가가 서로의 경험을 공유하면 모두에게 도움이 된다는 것이 UNTRAP의 핵심 철학입니다. 환자와 보호자는 2013년에 시작된 워릭 의과대학의 사례 기반 커리큘럼을 전략적으로 개발하는 데 도움을 주었으며, 커리큘럼 전반에 걸쳐 적극적으로 참여하고 있습니다. UNTRAP은 파트너십 협력을 위한 최초의 공인 교육도 개발했습니다[61]. 다른 제도적 접근 방식도 설명되었습니다 [27]. 
Involvement at this level is even rarer than at the previous one. One of the best examples in the UK is the Universities/Users Teaching and Research Action Partnership (UNTRAP), based at Warwick University [60], and which is a partnership between Warwick and Coventry universities, users of health and social care services and their carers, and the NHS. Patients are involved at different levels, some in one
off events, and others more heavily. The central philosophy of UNTRAP is that everyone will benefit if service users, carers, academics, and professionals share their experience. Patients and carers helped strategically develop Warwick Medical Schools casebased curriculum launched in 2013 and are active throughout the curriculum. UNTRAP have also developed the first accredited training for partnership working [61]. Other institutional approaches have also been described [27].


장점과 단점
Benefits and Disadvantages

환자와 직접 접촉하지 않고 의사를 교육한다는 생각은 오늘날에는 터무니없는 것으로 간주될 것입니다. 의과대학은 이를 극대화하기 위해 노력하고, 교사와 관리자는 이를 제공하기 위해 노력하며, 학생은 가능한 한 많은 것을 요구하고, 환자는 기꺼이 도와주려고만 합니다. 대학원 수준에서는 임상 실습을 기반으로 한 실무 교육이 점점 더 강조되고 있기 때문에 환자 접촉은 분명히 중요합니다. 400편이 넘는 관련 논문[68]이 확인된 가장 포괄적인 참고 문헌 중 하나인 상당한 문헌이 축적되어 이론적 이점에 대한 확증을 제공합니다. 환자와 학습자 간의 접촉은 일반적으로 매우 호평을 받고 있으며, 환자에게는 명백한 부작용이나 불이익이 상대적으로 적고 학습자에게는 심지어 더 적다.

  • 예를 들어, 환자들은 자신의 상태에 대한 '전문가' 및/또는 모범으로 행동하고, 보여주고 말하며, 전문적인 기술과 태도 개발을 돕고, 학습자의 자신감을 높이는 등 자신의 기여를 인정합니다[69].

The thought of training doctors without direct patient contact would nowadays be considered absurd. Medical schools aspire to maximise it, teachers and administrators strive to deliver it, students demand as much as possible, and patients seem only too willing to help. At the postgraduate level, with increasing emphasis on inservice training grounded in clinical practice, patient contact is obviously crucial. A significant literature has accumulated one of the most comprehensive bibliographies identified over 400 relevant papers [68] providing corroboration for some of the theoretical benefits. Contact between patients and learners is generally very well received, with relatively few apparent adverse effects or disadvantages for the former, and even fewer for the latter.

  • Patients recognise their contribution – for example, by acting as ‘experts’ in and/or exemplars of their condition, showing and telling, aiding the development of professional skills and attitudes, and boosting learners’ confidence [69].

대부분의 연구에서 환자에게 뚜렷하고 대체로 긍정적인 결과를 보고하고 있지만, [고통스럽고 충격적인 경험을 이야기하는 것]이 환자와 학생 모두에게 [정서적, 심리적으로 미칠 수 있는 영향]과 [반복적인 이야기 전달]을 통한 일부 환자의 ['전문화'에 대한 우려]가 존재합니다[70]. 현상학적 접근법을 사용한 또 다른 연구에서는 대부분의 환자들이 임상 교육에 참여하는 것이 실제로는 일상적이라는 특징이 있다는 것을 보여주었습니다[71].
Whilst most studies report distinctive, largely positive, outcomes for patients, concerns exist about the possible emotional and psychological impact on both patients and students of recounting painful and traumatic experiences, and the ‘professionalisation’ of some patients through repeated telling of their stories [70]. Another study using a phenomenological approach, showed that involvement in clinical teaching for most patients was, in fact, often characterised by its ordinariness [71].

이러한 문헌을 뒷받침하는 대부분의 연구는 설명적이고, 이론에 근거하지 않으며(아래 참조), 자기 보고에 기반하는 경우가 많고, 교육적 개입이나 연구 설계에 대한 정보가 충분하지 않다는 점에서 한계가 있습니다. 장기적인 영향을 평가하려는 시도는 거의 없었으며, 서로 다른 용어 사용으로 인한 문제와 함께 서로 다른 출처에서 출판물이 발견되어 문헌을 검색하고 종합하는 데 어려움을 겪었습니다[5]. 그럼에도 불구하고 지난 몇 년 동안 여러 종합적인 리뷰가 발표되어 전반적으로 장점과 단점에 대한 일관된 결과를 보여주고 있습니다[4, 5, 10, 27, 72-76]. 박스 15.7 참조.
Most of the research informing this literature has limitations in that it is descriptive, is not informed by theory (see below), is often based on self
report, and provides insufficient information about educational interventions or research design. There have been few attempts at evaluating longterm impacts and publications are found in disparate outlets, which, along with problems posed by use of different terms, has bedevilled searching and synthesis of the literature [5]. Nevertheless, several comprehensive reviews have been published over the past few years showing, on the whole, consistent findings about benefits and disadvantages [4, 5, 10, 27, 7276]. See Box 15.7.

BOX 15.7 WHERE’S THE EVIDENCE: Patient involvement

학생에게 주는 혜택
Benefits to students

- 관련성을 통한 동기 부여
 motivation through relevance

- 공감 능력 향상
 increased empathy

- 전문 기술 및 태도 개발
 development of professional skills and attitudes

- 자신감 향상
 increased confidence

- 사회적 책임감
 social responsibility

- 임상적 추론 능력 개발
 development of clinical reasoning

- 새로운 통찰력과 이해
 new insights and understanding

- 문화적 다양성 및 라이프스타일 요인에 대한 인식
 recognition of cultural diversity and lifestyle factors

- 검사 수행 능력 향상
 improved performance in examinations

환자를 위한 혜택
Benefits for patients

- 학생 학습에 기여하는 것에 대한 만족도
 satisfaction at contributing to student learning

- 전문가와의 관계 개선
 improved relationships with professionals

- 이타적인 감정(예: '시스템'에 무언가를 돌려주는 것)
 altruistic feelings, for example, giving something back to the system

- 가치 인정 및 자존감 향상
 being valued and increased self

- 자신의 기술 개발
 development of own skills

- 카타르시스

- 자신의 상태에 대한 지식 증가
 increased knowledge about their own condition

- 임상의로부터 더 나은 서비스 받기(예: '좋은 진료')
 getting a better service from their clinicians, for example, a good going over

- 사회적 고립으로부터의 동반자 관계 및 안도감
 companionship and relief from social isolation

- 종단적 프로그램에서 확립된 장기적인 관계와 연속성
 the long
term relationship and continuity established in longitudinal programmes

학생에 대한 단점
Disadvantages to students

학생들이 보고한 단점은 거의 없지만 다음과 같은 것들이 있습니다:
Few disadvantages are reported by students, but they include:

- 당혹감

- 특정 상황에서 정서적 어려움
 emotionally challenged in certain situations

- 환자에게 부담이 됨
 being a burden to patients

- 일부 환자의 대표성에 대한 우려 
 concern about representativeness of some patients 

환자에 대한 단점
Disadvantages for patients 

주로 다음과 관련되어 있습니다:
These are mainly in relation to:

- 정신 건강 문제 및 잠재적으로 당황스러운 상황(예: 친밀한 검사)
 mental health problems and potentially embarrassing situations (e.g. intimate examination)

- 기밀성 및 선택에 대한 우려, 이전의 좋지 않은 경험, 많은 수의 학습자
 concerns about confidentiality and choice, previous poor experiences, large numbers of learners

학생이나 환자의 건강과 복지에 중대한 악영향을 미친다는 증거는 거의 없습니다. 
There is little evidence of significant adverse effects on the health and well-being of either students or patients. 


이론적 고려 사항
Theoretical Considerations

지금까지 변화와 혁신은 주로 사회 발전이나 정책에 따라 실용적으로 추진되어 왔습니다. 주목할 만한 예외를 제외하고는 실무나 연구 모두 이론의 영향을 많이 받지 않은 것으로 보입니다. Rees 등의 [4] 연구는 ['상황적 학습']이라는 렌즈를 사용하여 의대생이 서비스 사용자를 '대상으로' 학습하는 것이 아니라 '함께' 학습하는 방법을 탐구했습니다. 이들은 환자와 학생 모두 더 많은 참여를 향해 나아가는 과정에서 [권력 불균형, 정체성, 역할 등의 문제를 동시에 겪는 '합법적인 주변 참여자'라는 가정]을 세웠습니다. 저자들은 보다 적극적인 참여를 장려하기 위한 [일련의 권장 사항]을 제시했습니다.

  • Monrouxe와 동료들은 '배우', '감독', '청중', '비인물', '소품'[77] 등 병원 병상 교육에서 참가자들이 수행하는 다양한 역할을 탐구하기 위해 Goffmann의 드라마투르기 이론을 채택했습니다.
  • Bleakley와 Bligh[78]는 현대 포스트구조주의 이론을 사용하여 환자와 학습자가 협력적 지식 생산에 참여하는 개념을 탐구했습니다. 그들은 '기존의 의사 주도 교육에 대한 근본적인 점검을 통해 ... 개인주의적 학생 중심 접근법의 정통성에 도전하는' 교육 모델을 개발하여 학습의 중심이 교육자와 학생의 관계에서 환자와 학생의 관계로, 의사는 자원과 촉진자로서의 역할로 전환될 수 있다고 주장했습니다.
  • Regan de Bere와 Nunn[79]은 '활동 이론'이 환자와 대중의 참여의 복잡성을 이해하기 위한 프레임워크를 제공하여 맥락, 변화, 도전, 갈등을 고려하고 검토 중인 활동에 대한 잠재적으로 풍부한 설명을 제공하는 방법을 보여주었습니다. 실무와 학계 모두 이러한 성격에 대한 더 많은 이론적 탐구를 통해 이익을 얻을 수 있습니다.

To date, change and innovation has been pragmatic, driven largely by social developments and/or in response to policy. Neither practice nor research appears to have been much informed by theory, with notable exceptions. Rees et al.s [4] study used the lens of situated learning to explore how medical students learn ‘with’ rather than just ‘about’ service users. They posited that both patients and students were ‘legitimate peripheral participants’ struggling in parallel with the challenges of power imbalance, identity, and roles, as they moved towards greater participation. The authors offered a set of recommendations to encourage more active participation.

  • Monrouxe and colleagues adopted Goffmann’s dramaturgy theory to explore the many roles played by participants in hospital bedside teaching, including ‘actor’, ‘director’, ‘audience’, ‘non‐person’, and ‘prop’ [77].
  • Bleakley and Bligh [78] used contemporary post‐structuralist theory to explore the concept of patients and learners engaging in collaborative knowledge production. They argued for a ‘radical overhaul of conventional doctor‐led education … that also challenges the orthodoxies of individualistic student‐centred approaches’ which could lead to development of an educational model whereby the locus of learning shifts from the relationship between doctor as educator and student to the relationship between patient and student, with the doctor as a resource and facilitator.
  • Regan de Bere and Nunn [79] demonstrated how ‘activity theory’ provides a framework for understanding the complexities of patient and public involvement, allowing, as it does, consideration of context, change, challenge, and conflict and providing potentially rich descriptions of the activity under review. Both practice and scholarship would benefit from more theoretical explorations of this nature.

원칙과 실천
Principles and Practice

이 섹션에서는 적극적인 환자 참여에 대한 일반적인 원칙을 살펴보고, 세 가지 중요한 윤리적 문제에 초점을 맞추며, 대표성의 문제를 고려합니다.
In this section we explore general principles for active patient involvement, focus on three important ethical issues, and consider the challenge of representativeness.

일반 원칙
General Principles

위에서 설명한 바와 같이 환자 참여를 지지하고 안내하는 많은 보고서가 발표되었으며, 이러한 보고서에는 항상 장벽과 과제가 강조되어 있습니다. 이러한 문헌[4, 12, 55, 58, 59, 74, 76, 80]을 바탕으로 [새로운 이니셔티브를 수립할 때 고려해야 할 실질적인 문제]를 나열했습니다(상자 15.8 참조). 장벽과 도전 과제에 대해 자세히 살펴보지는 않았지만, 다음과 같은 것들이 포함될 것으로 예상됩니다:
As described above, a number of reports supporting and guiding patient involvement have been published, and these invariably also highlight barriers and challenges. From this growing literature [4, 12, 55, 58, 59, 74, 76, 80] we have listed practical issues to consider when establishing a new initiative (see Box 15.8). We have not explored barriers and challenges in any detail, but these are argued to include the following:

- 서로 다른, 때로는 상충하는 가치와 기대치
• different, sometimes conflicting, values and expectations

- 권력 불균형
• power imbalances

- 위협에 대한 인식(예: 낯설고 심지어 적대적인 환경)
• perceptions of intimidation (such as unfamiliar even hostile environments)

- 동의, 선택권 및 기밀성 부족
• lack of consent, choice, and confidentiality

- 시간 제약
• time constraints

- 제도적 관성
• institutional inertia

- 부적절한 리소스
• inadequate resourcing

- 교육, 지원 및 디브리핑 부족
• lack of training, support, and debriefing

- 언어 및 의사소통 문제
• problems with language and communication.

상자 15.8의 실질적인 설계 고려사항은 [제도적 지원 보장, 적절한 자원 제공, 안전하고 편안한 환경 제공]을 포함하는 [일련의 원칙]에 의해 뒷받침되어야 합니다. 환자를 동등하게 대우하고 언어(예: '사용'이 아닌 '함께')에 주의를 기울여야 하며, 전문 용어와 전문 용어를 피해야 합니다. 교육자는 유연하게 대처하고 변화를 수용하며 새로운 방식으로 도전하고 사고할 준비가 되어 있어야 합니다. 참여는 일회성이 아닌 하나의 과정으로 간주되어야 하며, 추가 개발과 역량 강화를 위한 기회를 모색해야 합니다. 
The practical design considerations in Box 15.8 should be underpinned by a set of principles that include ensuring institutional support, providing adequate resources, and providing safe and comfortable environments. Patients should be treated as equals and attention paid to language (e.g.
working with rather than using), and avoiding technical jargon and terminology. Educators should be prepared to be flexible, should embrace change, and be prepared to be challenged and think in new ways. Involvement should be seen as a process, not a oneoff, and opportunities sought for further development and capacity building. 

상자 15.8 방법: 환자가 참여하는 새로운 교육 이니셔티브 개발하기
BOX 15.8 HOW TO: Develop a new educational initiative involving patients

1 팀을 구성하여 처음부터 환자가 참여하도록 하고(사후에 고려하거나 강요하지 말고), 학습자도 중요한 기여를 할 수 있으며, 전담 책임자를 지정하는 것이 중요합니다(누군가의 이미 바쁜 역할에 추가하는 것이 이상적이지 않음).
Assemble a team, ensuring patients are involved from the start (not as an afterthought, or worse still, imposition); learners can also make an important contribution; a named, dedicated lead is crucial (ideally not an addon to someones already busy role).

2 관계를 구축하고 환자 및 커뮤니티가 참여함으로써 혜택을 받을 수 있는 방법을 개발하는 데 시간과 노력을 투자합니다.
Invest time and effort in building relationships and developing ways in which patients and/or the community may benefit from involvement.

3 주인의식을 고취할 수 있도록 명확한 규약과 권한, 폭넓은 멤버십을 갖춘 운영위원회를 구성합니다.
Set up a steering committee with clear terms of reference and some authority and broad membership to encourage ownership.

4 교육 프로그램의 설계 및 개발, 제공에 환자를 참여시키고 협력적 학습을 장려합니다.
Involve patients in designing and developing as well as delivering the educational programme, and encourage collaborative learning.

5 적절한 경우 환자 지원 그룹 및 기타 지역 네트워크가 참여하는 선발 과정을 포함한 모집 전략을 개발합니다.
Develop a recruitment strategy, including a selection process involving, as appropriate, patient support groups and other local networks.

6 특정 역할에 적합한 오리엔테이션과 교육을 제공하고 피드백에 대응하는 메커니즘을 포함하여 지속적인 지원 시스템을 마련합니다.
Provide orientation and training appropriate to specific roles and ensure an ongoing support system is in place, including mechanisms for responding to feedback.

7 시기(회의 및 교육 세션 포함) 및 장소(접근성 포함), 지적 재산권실용적인 측면을 고려합니다.
7 Consider practicalities such as timing (including meetings as well as educational sessions) and location (including accessibility), as well as intellectual property rights.

8 복리후생 등 보수가 미치는 영향을 염두에 두고 보상에 관한 명확한 정책을 수립합니다.
Establish a clear policy on remuneration being mindful of its impact, for example on welfare benefits.

9 직위, 참여 증명서, 표창 행사, 학술 시설(예: 도서관) 이용 등 (보수 이외의) 참여를 명시적으로 인정하는 방법을 모색합니다.
Explore ways of explicitly recognising involvement (other than remuneration), such as job titles, certificates of participation, recognition events, access to academic facilities (e.g. library).

10 모든 이해관계자의 관점을 통합하여 처음부터 시스템에 평가를 구축합니다.
Build evaluation into the system from the beginning, incorporating the perspectives of all stakeholders.

11 다양성이 반영되고 소수의 견해가 대변될 수 있도록 노력합니다.
Work to ensure diversity is reflected and minority views are represented.

12 모든 전략을 가치 선언문으로 뒷받침합니다(여기에는 성별, 민족, 종교, 섹슈얼리티 등의 문제와 기대치가 포함될 수 있습니다).
Underpin any strategy with a statement of values (this might include issues such as gender, ethnicity, religion, and sexuality, as well as expectations).

위의 모든 사항은 사후 협의나 강요가 아닌 처음부터 환자 및 보호자와 함께 개발하는 것이 가장 이상적입니다. 
Ideally, all the above should be developed with patients and carers from the start, not through post
hoc consultation or, worse still, through imposition. 


윤리적 문제
Ethical issues

환자 참여 시 고려해야 할 윤리적 이슈는 동의, 선택, 기밀 유지라는 '세 가지 C'로 요약할 수 있습니다. 정책 문서, 모범 사례 및 문헌에서 드러나는 주요 메시지는 공식적인 시스템, 전문적인 대화 및 윤리적 관행을 통해 이를 명시하지 않고 단순히 환자가 교육 및 학습에 참여할 것이라고 가정하는 것은 더 이상 허용되지 않는다는 것입니다.
Ethical Issues to be considered when involving patients can be summarised as the
three Cs: consent, choice, and confidentiality. The main message emerging from policy documents, good practice, and the literature is that simply assuming that patients will be involved in teaching and learning without making this explicit through formal systems, professional conversations, and ethical practice is no longer acceptable.


의료법과 윤리는 정보에 입각한 동의의 원칙을 존중하며, 이는 친밀한 검사나 침습적 시술과 관련된 만남뿐만 아니라 일상적으로 환자의 참여를 유도해야 합니다[59]. '환자에게 미리 알리지 말아야 한다는 주장은 경험적 증거보다는 편견에 근거한 것으로 보이며'[81], 임상 참여 전에 학습자 참여에 대한 정보를 제공한다고 해서 환자의 참여 결정에 부정적인 영향을 미치지는 않는 것으로 보입니다. 당연히 환자가 [동의를 얻었을 때 참여에 대해 더 긍정적으로 반응한다는 증거]가 있습니다[82]. 동의서 획득은 '서비스가 환자와 처음 접촉할 때부터 시작되는 지속적인 과정'이어야 하며[59], [모든 환자]에게 학생이 입회할 수 있고 적절한 경우 치료에 참여할 수 있다는 사실을 알려야 합니다. 학습자의 존재가 진료의 질에 중대한 부정적인 영향을 미친다는 증거는 거의 없거나 전혀 없지만, [학습자의 존재는 필연적으로 상담의 역학을 변화시킬 것]임을 인식하는 것이 중요합니다[83]. 모든 환자가 의료 교육에 기꺼이 기여하는 것을 기본 자세로 삼아야 한다는 기대가 있어야 한다는 흥미로운 주장이 제기되었는데, 모든 학습자가 [시뮬레이션에서 관련 과제에 대한 역량을 입증]해야만 '풀어주기'를 받을 수 있다는 것입니다[84].
Medical law and ethics enshrine the principle of informed consent, which should routinely guide patient involvement, not just those encounters involving intimate examinations or invasive procedures [59].
Arguments for not informing patients in advance seem to be based more on prejudice than on empirical evidence [81], and providing information about learner involvement before the clinical encounter does not appear to adversely influence patients decisions about participation. Perhaps unsurprisingly, there is evidence that patients are more positive about involvement when consent is obtained [82]. Obtaining consent should be a continuous process that begins with the first contact the service has with the patient [59], and all patients should be informed that students may be present and, as appropriate, involved in care. It is important to recognise that the presence of a learner will inevitably change the dynamics of a consultation, although there is little, if any, evidence of significant negative effects on quality of care [83]. An interesting argument has been made that there should be an expectation that all patients should be willing to contribute to medical education as a default stance, the quid pro quo being that all learners should be required to demonstrate competence in the relevant task in simulation before being let loose [84].


학생과 수련의가 '진료 제공의 격동적인 지금 여기'[84] 속에서 학습해야 하고, 각 만남이 모두에게 최적으로 설정되도록 보장할 시간이 거의 없을 때 환자 선택을 촉진하는 것은 어려운 일입니다. [적극적인 선택을 장려하는 것]은 [기본적인 존중]을 보여줄 뿐만 아니라 [환자가 자신의 상태에 영향을 미치는 방식에 대한 전문가임을 인정하는 것]입니다. 이를 통해 임상의는 '강력한 전문가 역할의 안전 안에서 작동하고, [돌봄의 거래]를 [비인격화]하는 [습관적이고 의례적인 작업]을 수행하는 것'에서 벗어날 수 있습니다[85].
Facilitating patient choice is challenging when students and trainees need to learn within the
turbulent here and now of care delivery [84], with little time to ensure that each encounter is set up optimally for all. Promoting active choice shows basic respect but also acknowledges that the patient is an expert about the way their own condition affects them. It moves clinicians away from operating from within the safety of a powerful expert role and performing habitual and ritualized tasks that depersonalize the transaction of caring [85].

교육에 대한 사전 동의를 구하는 것은 이상적으로는 학습자가 참석하지 않은 상태에서 이루어져야 하며, 그 뒤에 학습자가 있는 상태에서 확인해야 합니다[59]. 환자가 ['아니오'라고 말할 수 있는 '순간순간'의 기회를 제공하는 것]은 환자에게 권한을 부여하고 환자의 필요를 인정하는 또 다른 방법입니다[28]. 환자에게 시술을 수행하려는 학습자의 경험 수준과 신원에 대해 환자에게 알려야 합니다. 일반적으로 [더 친밀한 관계, 더 많은 프라이버시가 있고 환자의 자율성이 더 큰 1차 진료나 지역사회]에 비해 [개인의 힘과 공간이 부족하고 치료가 더 긴급하게 필요한 병원 환경]에서는 다른 접근 방식을 취해야 할 수 있음을 의미합니다[86].
Seeking informed consent about teaching should ideally be done without the learner in attendance, then confirmed in their presence [59]. Building in
momenttomomentopportunities for patients to say No is another way of empowering them and acknowledging their needs [28]. Patients should be informed about the level of experience and identity of any learner intending to carry out a procedure on them. Lack of personal power and space, and the more urgent need for treatment, mean that a different approach may need to be taken in hospital settings compared with primary care or in the community, where there is usually a more intimate relationship, more privacy, and patients have greater autonomy [86].


교육과 관련된 환자에 대한 기밀은 반드시 유지되어야 합니다. [일부 환자]들은 '학생들이 자신의 사례 노트에 접근하는 것과 진료실을 떠난 후 환자에 대한 논의가 이루어지는 것에 대해' 우려를 표명하는데[87], 이는 환자에게 선택, 동의, 기밀성 측면을 어떻게 제기해야 하는지에 대한 의문을 불러일으킵니다. [실용적인 단계]는 다음과 같습니다:
Confidentiality in relation to patients involved in education must be maintained. Some patients express concerns
about students access to their case notes and whether discussions about patients occurred after they had left the consulting room [87], which raises questions about how aspects of choice, consent, and confidentiality should be raised with patients. Practical steps include:

- 사람들이 [기밀 유지의 경계]를 이해할 수 있도록 충분한 정보 제공
providing sufficient information so people can understand the boundaries of confidentiality

- 학습자도 '완전한' 의료 전문가와 마찬가지로 [기밀을 존중해야 할 의무]가 있음을 환자에게 안심시킵니다.
reassuring patients that learners are bound by the same duty to respect confidentiality as are fully fledgedhealth professionals

- 토론에 환자 참여
involving patients in discussions

- 친밀하거나 고통스러운 문제를 논의할 수 있는 사적인 공간을 찾고, 침대나 칸막이 주위의 커튼은 방음이 되지 않는다는 점을 기억합니다(!).
finding private spaces to discuss intimate or distressing issues, remembering that curtains around a bed or cubicle are not soundproof (!)

- 준비 및 디브리핑의 일환으로 학습자와 일상적으로 기밀성 문제를 제기합니다.
raising issues of confidentiality routinely with learners as part of preparation and debriefing.

[환자 정보를 교육에 사용]할 때는 이미지, 사운드 녹음, 사례 기록에서 발췌한 내용, 특히 [식별 가능한 정보의 사용]에 대한 [허가]를 받아야 합니다. 전자 기록과 모바일 통신 및 기술의 사용이 증가함에 따라 새로운 과제가 생겨나고 있습니다.
When patient information is being used in teaching, permission must be obtained for the use of images, sound recordings, and extracts from case notes, particularly identifiable information. Increasing use of electronic records and mobile communications and technologies is creating new challenges.

의료 윤리와 법률은 복잡하고 끊임없이 변화하고 있으며, 모든 임상의는 최신 정보를 숙지하고 있어야 할 책임이 있습니다. 임상 교사는 핵심적인 역할 모델이며, 동의, 선택, 기밀 유지라는 '3C'를 염두에 두면 이러한 원칙을 선택 사항이 아닌 모범 사례의 기본 축으로 인식할 수 있습니다. 이러한 원칙을 기관의 관행과 정책에 포함시키는 것은 중요한 단계입니다.
Medical ethics and law is complex and ever
changing, and all clinicians have a responsibility to keep uptodate and informed. Clinical teachers are key role models; keeping the three Cs’ – consent, choice, and confidentiality in mind ensures these are seen as fundamental pillars of good practice, not as options. Embedding these principles in institutional practices and policies is an important step.

환자 대표
Patient Representation

'환자'는 동질적인 집단이 아니며, 실제로 다양성이 일반적이라는 사실을 잊기 쉽습니다. '환자'는 전문가와 똑같이 생각하지 않지만, '참여'에 관한 많은 문헌은 모든 사용자, 간병인, 생존자, 고객, 환자 등을 (암묵적으로라도) 동일하게 취급하는 것 같습니다. 유럽 피커 인스티튜트의 샬롯 윌리엄슨[88]은 참여가 가능한 '환자'를 다음과 같이 크게 [세 가지 범주]로 제안합니다.
It is easy to forget that the
patients are not a homogeneous group; indeed, diversity is the norm. Patients do not think alike any more than professionals do, yet much of the literature on involvement seems to treat all users, carers, survivors, clients, patients, etc. as the same (even if only implicitly). Charlotte Williamson [88] of Picker Institute, Europe, proposes the following three broad categories of patient who might get involved.

- [개별 환자] 자신의 경험을 설명할 수는 있지만 반드시 다른 사람을 대변할 수는 없음. 경험의 일반화 가능성에 대한 함의가 있는 환자.
Individual patients who can describe their own experience but cannot necessarily speak for others, with implications for the generalisability of their experience.

- [환자 그룹 구성원] 일반적으로 자신과 같은 다른 사람들의 경험에 대해 알고 있지만, [여전히 좁은 관점]을 가지고 있을 수 있습니다. 지역 내 모든 관련 그룹과 협의하는 것이 중요합니다.
Patient group members who usually do know about the experiences of others like themselves, but may still have a narrow perspective. Consulting all relevant groups in a locality is important.

- [환자 대표 또는 옹호자] 일반적으로 여러 그룹과 함께 일한 경험이 있고, 전략 및 정책 문제에 대한 지식이 풍부하며, '큰 그림'을 이해
Patient representatives or advocates who generally have broader experience, perhaps of working with several groups, wider knowledge about strategic and policy issues, and understand the bigger picture.

이상적으로는 '환자'와의 상담에는 이 세 가지 범주가 모두 포함되어야 합니다. 윌리엄슨의 말을 빌리자면: "의료 서비스의 환자 측면은 복잡하지만 신비롭지는 않습니다. '올바른' 환자와 상담하는 것은 실현 가능하고 보람 있는 일이 될 수 있습니다'[88]. 그러나 환자 그룹과 협력할 때는 한 가지 주의해야 합니다. 대부분의 환자 그룹은 제약 업계와 연관되어 있으며, 그 자체로 문제가 되지는 않지만 이러한 그룹에 참여하는 교육자는 이해 상충의 가능성을 인지해야 합니다[89].
Ideally, consultation with
patients should involve all three categories. In Williamsons words: The patient side of health care is complex but not mysterious. Consulting the right patients can be feasible and rewarding [88]. However, a note of caution must be struck regarding working with patient groups. Many, probably the majority, have links with the pharmaceutical industry, and whilst this is not in itself a problem, educators engaging with such groups should be aware of the potential for conflicts of interest [89].


모의 환자
Simulated Patients

강의실 및 임상 학습을 보완하기 위해 시뮬레이션 사용이 증가하고 있음을 반영하여 시뮬레이션 환자에 대한 간략한 설명으로 논의를 마무리합니다. [시뮬레이션]은 실제 체험 학습을 대체할 수는 없지만 학습자가 실제 임상 실습에 대비할 수 있도록 잠재적으로 준비시킬 수 있습니다. 최초의 시뮬레이션 환자는 '표준화된' 문제를 제시하는 실제 환자였지만[42], 더 일반적인 현대의 시뮬레이션 환자는 자신의 경험을 벗어난 다양한 시나리오를 묘사합니다(Silverman J 및 Britten N, 개인 통신). '표준화'와 '시뮬레이션'이라는 용어(종종 같은 의미로 사용됨)의 사용의 다양성은 모범 사례를 식별하거나 연구 결과를 해석할 때 혼란을 야기할 수 있습니다.

  • [시뮬레이션 환자](또는 '역할 플레이어')와 관련된 상황에서는 주로 [진위 여부에 중점]을 두는 반면,
  • [표준화된 환자]에서는 [일관성에 중점(예: 임상 징후)]을 두는 것이 차이점에 대한 유용한 사고 방식입니다.

We end our discussion with a brief word on simulated patients, reflecting the increased use of simulation to complement both classroom and clinical learning. Simulation cannot replace authentic experiential learning but can potentially prepare learners for the real world of clinical practice. The first simulated patients were real patients presenting standardised problems [42], but the more common contemporary simulated patient portrays a range of scenarios outside their own experience (Silverman J and Britten N, personal communication). The variability in the use of the terms standardised and simulated (often used interchangeably) can cause confusion when trying to identify good practice or interpret research findings. A useful way of thinking about the difference is that situations involving

  • a simulated patient (or ‘role player’) focus predominantly on authenticity, whereas with
  • a standardized patient the emphasis is on consistency (e.g. of clinical signs).

실제 환자가 아닌 시뮬레이션 환자와 함께 작업할 때의 장점으로는 진정성, 일관성, 예측 가능성, 편의성, 효율성 등이 있으며, 나쁜 소식을 전하거나 민감한 문제에 대해 소통하는 등의 어려운 상황을 탐색하고 연습할 수 있으며 시나리오를 맞춤화할 수 있습니다.
Advantages of working with simulated, rather than real, patients include authenticity, consistency, predictability, convenience, and efficiency; challenging situations such as breaking bad news or communicating about sensitive issues can be explored and rehearsed; and scenarios can be customised.

연구에 따르면 사람들은 일반적으로 실제 환자와 잘 훈련된 시뮬레이터를 쉽게 구분하지 못한다고 합니다[90, 91]. 학습자와 교수진이 수용할 수 있으며 교육과 평가 모두에서 효과적이고 신뢰할 수 있으며 유효합니다. [일부 정신 건강] 및 [소아과 문제]와 [허약한 노인의 문제]는 [시뮬레이션하기 어렵기 때문]에 [소수 민족]이나 [학습 장애]와 같은 [특정 환자 그룹]이 제대로 대표되지 않을 수 있지만, 현재 국제적으로 광범위한 경험이 축적되어 있습니다. 특정 환경에서 [실제 환자를 사용할지 시뮬레이션 환자를 사용할지 여부]는 시뮬레이션할 현상의 특성, 의도한 학습 결과, 현지 상황, 사용 가능한 리소스 등 다양한 요인에 따라 결정됩니다[92]. 하지만 시뮬레이션의 주된 목적은 술기 개발과 리허설을 가능하게 하는 것이지, [환자의 목소리를 반영하는 것이 아니라는 점]을 기억하는 것이 중요합니다.
Research has shown that people generally cannot easily distinguish between real patients and well
trained simulators [90, 91]. They are acceptable to learners and faculty, and are effective, reliable, and valid in both instruction and assessment. There is now wide international experience, although some mental health and paediatric problems, as well as those of the frail elderly, may be difficult to simulate and thus may be underrepresented, as may certain patient groups, for example, ethnic minorities or people with learning disabilities. The choice of whether to use real or simulated patients in a particular setting will be determined by a range of factors, including the nature of the phenomena to be simulated, intended learning outcomes, local circumstances, and available resources [92]. It is important to remember though that simulations main purpose is to enable skills development and rehearsal, not primarily to ensure incorporation of the patients voice.

시뮬레이션이 시뮬레이션된 환자에게 미치는 영향에 대한 문헌은 제한적입니다. 일부 상황(예: 감정적으로 격렬한 시나리오를 묘사할 때)에서는 해를 끼칠 가능성이 있으며, 실제로 전문 배우만이 이러한 까다로운 역할을 수행해야 한다는 주장도 있지만[93], 일반적으로 사람들이 역할을 적절히 선택하고 지원받는다면 이점이 단점보다 크다는 것이 일반적인 합의입니다[94]. 참여하고자 하는 사람의 이유 탐색, 교육 및 지원, 디브리핑 및 역할 해제 등 채용에 주의를 기울이는 것이 중요합니다[91, 94]. 시뮬레이션 및 모의 환자 사용은 11장에서 자세히 설명합니다. 
The literature on the effects of simulation on simulated patients themselves is limited. There is potential for harm in some situations for example, when portraying emotionally intense scenarios indeed, it has been argued that only professional actors should undertake such demanding roles [93], but the general consensus is that benefits outweigh any disadvantages so long as people are appropriately selected and supported in the role(s) [94]. It is important to pay attention to recruitment, including exploring the persons reasons for wanting to get involved, training and support, and debriefing and deroling [91, 94]. The use of simulation and simulated patients is discussed further in Chapter 11.


추가 연구 분야
Areas for Further Research

이 분야에 대한 많은 연구의 품질이 다양하다는 점을 고려할 때 대규모 연구 의제가 확인되었습니다. 일반적인 질문은 다음과 같습니다:
In light of the variable quality of much of the research in this area, a large research agenda has been identified. Typical questions include the following:

- 환자 참여의 동인은 무엇인가?
What are the drivers of patient involvement?

- 다양한 접근 방식의 강점과 약점은 무엇이며, 이러한 강점과 약점은 직업과 분야, 국가와 문화에 따라 어떻게 다른가?
What are the strengths and weaknesses of different approaches, and how do these vary between professions and disciplines, and between countries and across cultures?

- 효과적인 접근 방식에 영향을 미치는 요인은 무엇이며 그 이유는 무엇인가요?
What factors influence what works, and why?

- 위치, 접근성, 안전과 같은 구조적 및 조직적 요인이 프로그램 개발에 어떤 영향을 미칩니까?
How do structural and organisational factors such as location, access, and safety influence development of programmes?

- 환자의 참여 경험에 영향을 미치는 요인은 무엇인가요?
What factors influence patients experiences of involvement?

- 모든 당사자에게 장단기적으로 중요한 결과는 무엇인가요?
What are the key outcomes, short
and long term, for all parties?

- 프로그램의 지속 가능성에 영향을 미치는 요인은 무엇인가요?
What factors influence sustainability of programmes?



학생과 수련의는 교육 초기 단계부터 환자, 보호자 및 가족과 적극적으로 참여하여 학습을 통합하고 다른 맥락에서 배운 내용을 실제 임상 환경에서 실천하는 방법을 배울 수 있어야 합니다. 전문적이고 세심하게 수행되는 적절한 참여는 학습자뿐만 아니라 환자에게도 엄청난 이점을 제공합니다. 많은 환자들이 자신을 돌봐주는 사람들에게 '무언가를 돌려주고' 싶어 하며, 모든 수준의 의료 교육에 참여하는 것은 그렇게 하는 한 가지 방법입니다.
From an early stage of training, students and trainees need to actively engage with patients, carers, and families so they can learn to consolidate their learning and put learning from other contexts into practice in the real clinical environment. Appropriate involvement, carried out professionally and sensitively, provides immense benefits not only for the learners, but also for patients. Many patients want to
give something back to those who care for them, and engaging in medical education at all levels is one way of so doing.

교사와 학습자는 '실제' 환자를 대상으로 학습하는 것이 부적절한 경우를 인지해야 합니다. 그러나 종이 사례 시나리오부터 고충실도 시뮬레이션에 이르기까지 다양한 대안을 사용할 수 있습니다. 법적 및 윤리적 문제, 환자 역량 강화 및 사회적 책임, 공동 의사 결정 및 공동 제작과 관련된 의제의 변화 등 전문성에 대한 강조가 커지면서 교육자는 여러 가지 이유로 환자와 보호자의 교육 활동에 대한 적극적이고 정보에 입각한 참여를 이끌어내는 데 세심한 주의를 기울일 필요가 있습니다. 이러한 접근 방식은 '파트너로서의 환자'라는 수사를 교육 및 학습 환경의 중심에 두고, 궁극적으로 임상 실습의 중심에 두는 데 도움이 될 것입니다. 상자 15.9를 참조하십시오. 
Teachers and learners need to be aware when learning on
real patients is inappropriate. However, many alternatives are available, ranging from paper case scenarios to highfidelity simulations. The greater emphasis on professionalism, including attending to legal and ethical issues, and the changing agendas relating to patient empowerment and social accountability, shared decisionmaking, and coproduction mean that, for a host of reasons, educators need to pay close attention to seeking active, informed involvement in educational activities from patients and carers. This approach will help put the rhetoric of patients as partnersat the centre of the teaching and learning environment, and ultimately at the heart of clinical practice. See Box 15.9.   

박스 15.9 행동 우선순위 [26]
BOX 15.9 Priorities for action [26]

'밴쿠버 성명서'는 2015년 국제 컨퍼런스에서 개발되었습니다[26]. 이 성명서는 혜택과 장벽을 포함하여 교육 및 훈련의 연속체 전반에 걸친 환자 및 대중의 참여 현황을 광범위하게 요약합니다. 이 성명서는 정책, 인식 및 지원, 혁신, 연구 및 평가, 보급 분야에서 저자들이 '환자 참여를 정착시키기 위해 필요하다고 생각하는' 9가지 행동 우선순위를 제시합니다.
Vancouver Statement was developed at an international conference in 2015 [26]. It broadly summarises the current state of patient and public involvement across the continuum of education and training, including benefits and barriers. The statement lays out nine priorities for action in the areas of policy, recognition and support, innovation, research and evaluation, and dissemination which the authors believe are necessary in order to embed patient involvement.

1 인증 기준, 외부 및 내부 정책, 전문 기관의 선언문, 모범 사례 성명서 등의 지침을 통해 환자 참여를 촉진합니다.
Promote patient involvement through directives such as accreditation standards, external and internal policies, pronouncements from professional bodies, and best practice statements.

2 환자 전문성에 대한 근거와 가치를 인정하는 기관, 지역, 국가, 전 세계의 인식을 촉진하고, 성취를 인정하고 성공을 축하합니다.
Foster institutional, local, national, and global recognition of patient expertise that grounds and values it; recognise achievement and celebrate success.

3 환자, 지역사회 기관, 환자 옹호 단체, 지역사회 구성원의 동기와 열정을 활용하여 참여하는 사람들의 다양성을 높입니다.
Increase the diversity of people involved by harnessing the motivation and enthusiasm of patients, community agencies, patient advocacy organisations, and community members.

4 학습자에게 가능한 한 빨리 이니셔티브를 소개하고 교육 연속성 전반에 걸쳐 유지합니다.
Introduce initiatives to learners as early as possible, and sustain them throughout the educational continuum.

파트너십과 팀워크에 대한 보다 총체적인 접근을 촉진하기 위해 새롭게 등장하는 학습 활동에 환자의 참여를 목표로 합니다.
Target patient involvement in new and emerging learning activities in order to facilitate a more holistic approach to partnerships and teamwork.

환자 참여를 촉진하기 위해 교육 기관과 지역사회 조직 간의 협력을 촉진하는 모델을 탐색하고 만듭니다.
Explore and create models to promote collaboration between educational institutions and community organisations to promote patient involvement.

환자와 협력하여 고품질의 연구를 수행하여 환자 참여의 단기 및 장기적 영향에 대한 추가 증거를 제공합니다.
Conduct high quality research in partnership with patients to provide further evidence of shortterm and longterm impact of patient involvement.

8 컨퍼런스 및 교육 행사의 기획, 제공, 평가에 환자가 참여할 수 있도록 위원회에 로비하고, 지역사회 단체, 대학, 기금 기관에 로비하여 환자들이 컨퍼런스에 참석하고 발표할 수 있도록 보조금을 제공합니다.
Lobby committees to involve patients in planning, delivery, and evaluation of conferences and educational events; lobby community organisations, colleges, and universities and funding bodies to provide grants for people to attend and present at conferences.

9 협력, 정보 전파, 유망한 사례 공유, 추가 회의 계획 등을 위해 지역 네트워크를 구축합니다.
Create regional networks of people and champions to collaborate, disseminate information, share promising practices, and plan further meetings.



졸업후의학교육에서 역량중심의학교육(Med Teach, 2010)
Competency-based medical education in postgraduate medical education



현재의 대학원 의학교육(PGME)은 [100년 전 존스 홉킨스의 오슬러, 할스테드 등이 설립한 이후 본질적으로 변하지 않았다는 비판]을 받아왔습니다. 그러나 의사가 실무에 투입될 수 있도록 준비하는 기간인 레지던트 교육은 1990년대 초부터 조용한 혁명을 겪어왔습니다. 1993년 영국에서 '내일의 의사'가 출범하면서(General Medical Council 1993, 2009) 의학교육의 기본 틀이 [시간 및 과정 기반 프레임워크]에서 [역량 기반 모델]로 전환되기 시작했습니다. 이러한 패러다임 전환에 대한 국제적인 수용은 이후 발표된

  • CanMEDS 프레임워크(Frank 2005; Frank & Danoff 2007),
  • The Scottish Doctor(Simpson et al. 2002; Scottish Deans' Medical Curriculum Group 2009),
  • ACGME 성과 프로젝트(Swing 2007; Accreditation Council for Graduate Medical Education 2009a,b),
  • Good Medical Practice(General Medical Council 2006),
  • 호주 전공의 교육과정 프레임워크(Graham 외. 2007),
  • 네덜란드 학부 의학교육 2009년 프레임워크(Van Herwaarden 외. 2009) 등이 발표되었습니다.

Postgraduate medical education (PGME), it its current form, has been criticized as being essentially unchanged from its founding by Osler, Halsted, and others at Johns Hopkins a century ago. However, residency education – the period of training that prepares physicians to enter practice – has undergone a quiet revolution since the early 1990s. With the launch of Tomorrow's Doctors in the United Kingdom in 1993 (General Medical Council 1993, 2009), the framework guiding medical education began to shift from a time- and process-based framework to a competency-based model. International acceptance of this paradigm shift is reflected by the subsequent release of

  • the CanMEDS framework (Frank 2005; Frank & Danoff 2007),
  • The Scottish Doctor (Simpson et al. 2002; Scottish Deans’ Medical Curriculum Group 2009),
  • the ACGME Outcomes Project (Swing 2007; Accreditation Council for Graduate Medical Education 2009a,b),
  • Good Medical Practice (General Medical Council 2006),
  • the Australian Curriculum Framework for Junior Doctors (Graham et al. 2007), and
  • the 2009 Framework for Undergraduate Medical Education in the Netherlands (Van Herwaarden et al. 2009).

역량 기반 교육으로의 전환은 이제 막 시작되었지만 관심이 커지고 있습니다. 이제 [규제 기관]은 기대치의 일부로 역량 달성에 대한 증명을 요구하고 있으며, 일부 국가에서는 이 요구사항이 인증 절차를 안내하고 있습니다. 오슬러의 '고등 의학교육 신학교'에 첫 수련의가 입학한 지 한 세기가 지난 지금, 역량 기반 의학교육(CBME)은 21세기 대학원 의학교육(PGME)을 정의하는 프레임워크가 될 것으로 기대됩니다. 이 백서에서는 PGME에 대한 역량 기반 접근 방식의 근거와 시사점, 장점과 과제, 역량 기반 비전을 실현하는 데 필요한 변화를 검토합니다.  

Although the move to competency-based training has just begun, interest is growing. Regulatory organizations now require demonstration of attainment of competency as part of their expectations; in some countries, this requirement now guides accreditation processes. A century after the first trainees entered Osler's “seminary of higher medical education,” competency-based medical education (CBME) promises to become the defining framework for postgraduate medical education (PGME) in the 21st century. In this paper, we review the rationale and the implications of a competency-based approach to PGME, its advantages and challenges, and the changes needed to realize a more competency-based vision.

레지던트 교육을 개혁해야 하는 이유는 무엇인가요?
Why reform residency education?

전 세계적으로 레지던트 교육이 성공적으로 성장하지 않았다면 현대 의학 및 진료의 놀라운 성공은 불가능했을 것입니다. 이제 의과대학 졸업 후 실습 준비를 위한 집중적인 임상 교육은 [필수적인 과정]으로 여겨지고 있습니다. PGME는 이제 수천 명의 교사와 학습자가 지속적인 활동에 참여하는 거대한 전문 기업으로 성장했습니다. 오늘날의 의사들은 역사상 가장 높은 수준의 교육을 받았습니다. 그렇다면 [왜 PGME에 대한 새로운 접근 방식]을 고려해야 할까요? 현재 시스템의 약점은 만연한 시간 기반 패러다임에 있습니다. 전 세계적으로 레지던트 커리큘럼을 성공적으로 이수했는지 여부를 [습득한 능력이 아니라 로테이션에 소요된 시간으로 인식하는 경향]이 있습니다(Carraccio 외. 2002). 모든 졸업생이 진료에 대비할 수 있도록 보다 신뢰할 수 있는 방법을 찾는 것이 바로 CBME의 동기입니다.
Arguably, the incredible successes of modern medical science and practice would not have been possible without the successful growth of residency education worldwide. Intensive clinical training in preparation for practice is now considered imperative after medical school. PGME is now an enormous professional enterprise engaging thousands of teachers and learners in continuous activity. Today's physicians are the most highly educated in history. So why should we consider a new approach to PGME? The weaknesses of our current system lie in its pervasive time-based paradigm. Worldwide, there is a tendency to recognize the successful completion of a residency curriculum as time spent on rotations, as opposed to abilities acquired (Carraccio et al. 2002). Here lies the motivation for CBME: to find a more reliable way to ensure that every graduate is prepared for practice.

역량 기반 PGME란 무엇인가요?
What is competency-based PGME?

이 주제 호의 다른 부분(Frank 외. 2010)에서 자세히 설명했듯이, CBME는 교육 성과에 초점을 맞춥니다. 역량 기반 레지던트 패러다임에서 프로그램은 [새로 수련받은 의사]가 [진료의 모든 측면에 대해 유능하다는 것을 입증]해야 합니다. 이 접근 방식은 교사나 프로그램이 [어떻게 가르쳐야 하는지] 또는 학생이 그 목표를 달성하는 동안 [어떻게 배워야 하는지]를 규정하지 않습니다. 오히려 역량 기반 교육은 바람직한 [졸업생 능력을 명시적으로 정의]하고 이러한 [결과가 커리큘럼, 평가 및 평가의 개발을 가이드]할 수 있도록 합니다. 따라서 레지던트를 위한 CBME는 [정해진 기간을 강조하지 않고], 모든 필수적인 실무 측면에서 [이정표에서 이정표로 역량이 발전하도록 장려]합니다. 또한 CBME는 커리큘럼 목표인 지식뿐만 아니라 능력 추구에 있어서, [새로운 교육 방법], [경험 순서를 구성하는 데 있어 더 큰 유연성], [더 빈번한 평가], [전문 교수진의 의미 있는 감독], [교사와 수련의 모두의 더 큰 참여]를 요구합니다. 역량 기반 레지던트 교육은 수년간 임상 서비스를 제공하는 동안 [단순히 기회주의적인 학습]이 아니라 설계 단계부터 역량을 고려한 교육입니다. Carraccio와 공동 저자(2002)는 교육에 대한 접근 방식에서 CBME 패러다임 전환의 요소를 설명했습니다(표 1 참조).
As elaborated elsewhere in this theme issue (Frank et al. 2010), CBME focuses on educational outcomes. In a competency-based residency paradigm, programs must demonstrate that the newly trained physician is competent for all aspects of practice. This approach does not prescribe how the teacher or program must teach or how the student must learn while achieving that goal. Rather, competency-based training explicitly defines desired graduate abilities and allows those outcomes to guide the development of curricula, assessment, and evaluation. CBME for residency therefore de-emphasizes fixed time periods and promotes the progression of competence from milestone to milestone in all of the essential aspects of practice. CBME also calls for new instructional methods, greater flexibility in organizing the sequence of experiences, more frequent assessment, meaningful supervision by expert faculty, and greater engagement of both teachers and trainees in the pursuit of abilities – not just knowledge – as the curricular goal. Competency-based residency education is competence by design, not merely opportunistic learning during years of providing clinical service. Carraccio and co-authors (2002) have described the elements of the CBME paradigm shift in the approach to training (see Table 1).


CBME의 커리큘럼 재조정
Realigning curricula in CBME

[전통적인 의학 대학원 교육]은 [기간과 커리큘럼 프로세스]를 중심으로 구성됩니다.

  • 이는 '체류 시간'으로 정의되는 [기회주의적 접근 방식]으로, 정해진 기간 동안 개별 활동에 지정된 개월 수가 할당됩니다.
  • [평가]는 학습자가 [특정 지식을 습득]했는지 여부를 명백하게 입증하는 데 중점을 두고, [기술과 태도의 습득]에 초점을 맞추는 경우가 훨씬 적습니다.
  • [프로그램 평가]는 [과정의 문제(예: "모든 로테이션에 대한 목표가 있는가?" 또는 "교사 평가 양식이 있는가?")]에 초점을 맞추는 경향이 있습니다.
  • [대다수의 학습자][시간, 프로세스 및 커리큘럼 요건]을 충족하여 성공적으로 교육을 이수합니다.
  • [이러한 요건이 충족]되면 학습한 내용을 실제 환자 진료에 적용할 수 있는 능력이 있는 것으로 [간주]되며, [실제로 해당 학습 내용을 의료 서비스 제공에 적용하는지 여부]는 평가하지 않습니다

Traditional graduate medical education is structured around time frames and curricular processes.

  • It is an opportunistic approach defined by “dwell time,” whereby a specified number of months is assigned to discrete activities over prescribed periods.
  • To a large extent, assessment focuses overtly on demonstrating whether the learner has acquired specific knowledge; to a much lesser extent, it focuses on the acquisition of skills and attitudes.
  • Program evaluation tends to focus on matters of process (e.g., “Are there objectives for every rotation?” or “Is there a teacher evaluation form?”).
  • The vast majority of learners successfully complete their training by meeting time, process, and curricular requirements.
  • When those requirements are met, the ability to apply what is learned to the actual delivery of patient care is assumed, without actually assessing whether the application of that learning to health care delivery occurs.

이와 대조적으로 역량 기반 교육은 의료 업무에 필요한 특정 [지식, 기술 및 태도의 적용을 성공적으로 입증하는 것]을 기반으로 합니다.

  • 수련 내에서 진급을 위해서는 학습자가 [주요 발달 단계에서 역량을 입증]해야 합니다.
  • 커리큘럼, 평가 도구 및 평가 시스템은 이러한 결과를 [달성하고 문서화]하기 위해 개발되었습니다.
  • 이 수준의 평가와 평가는 실제 의료 서비스를 제공하는 동안 이루어져야 합니다. [밀러의 평가 피라미드]는 이 과정을 개념화합니다(1990). 이 모델에서 평가는 학습자가 "알고, 방법을 알고, 방법을 보여주거나, 할 수 있다"는 것을 입증할 수 있는 능력에 초점을 맞춥니다.
  • 평가의 유형은 평가 대상 역량과 학습자의 학습 단계에 적합해야 하지만, CBME는 궁극적으로 이 피라미드의 맨 꼭대기에서 평가해야 합니다.
  • 이를 위해서는 학습자가 [안전하고 효과적인 환자 치료를 제공할 수 있는 능력을 입증]해야 하며, 이는 [직접 관찰]을 통해 가장 잘 이루어집니다.

In contrast, competency-based training is based on the successful demonstration of the application of the specific knowledge, skills, and attitudes that are required for the practice of medicine.

  • Progression in training requires that the learner demonstrate competence at critical stages of development.
  • The curriculum, assessment tools, and evaluation system are developed to achieve and document this outcome.
  • Assessment and evaluation at this level must occur during the actual delivery of care. Miller's pyramid of assessment conceptualizes this process (1990). In this model, assessments are directed at learners’ ability to demonstrate that they either “know, know how, show how, or do.”
  • Although the type of assessment must be appropriate to the competency being assessed and to the learner's stage of learning, CBME ultimately requires assessment at the very top of this pyramid.
  • This requires that learners demonstrate the ability to provide safe and effective patient care and is best accomplished through direct observation.

CBME는 [교육 또는 전문 경력]의 [다음 단계]로 나아가기 위한 [역량을 입증]해야 합니다.

  • PGME 수준의 학습자 대부분은 궁극적으로 직접 환자 치료를 제공하게 되므로, 이들의 [평가 및 평가]는 [실제 치료 제공에 필요한 능력에 초점]을 맞추어야 합니다.
  • [역량 임계값]은 평가자와 교육생 모두가 [명확하게 정의하고 이해]해야 하며, 교육생의 역량 여부를 신뢰성 있게 판단하기 위해서는 [평가가 정확]해야 합니다.
  • 순수한 역량 기반 교육 프레임워크에서 [효과적인 평가를 해야]만 성공적인 역량 입증에 기반하여 학습자가 프로그램에서 [각기 다른 속도로 진급]할 수 있도록 합니다. 어떤 학습자는 더 빨리 발전하고 어떤 학습자는 더 느리게 발전할 수 있습니다.
  • 이를 위해서는 [학습의 안내] 및 [평가 및 평가에 정보 제공]을 위하여 학습자에게 [교육 전반에 걸쳐 명확하게 정의된 목표]가 있어야 합니다. Green과 동료들이 개발한 내과 레지던트 교육에 대한 발달 이정표(2009)는 이러한 목표를 정의하는 방법의 한 예입니다.
  • 이러한 [이정표]는 개별적인 행동 또는 발달의 중요한 지점을 설명하며, 이를 충족하면 평가자와 프로그램은 학습자가 진정으로 다음 단계의 교육으로 진행할 준비가 되었다는 것을 알 수 있습니다.

CBME requires the demonstration of competence to advance in training or to the next phase of a professional career.

  • Because most learners at the PGME level will ultimately provide direct patient care, their assessment and evaluation should focus on the abilities needed for the actual delivery of that care.
  • Competence thresholds must be clearly defined and understood by both assessor and trainee, and assessment must be accurate in order to reliably determine whether the trainee is competent.
  • In a pure competency-based training framework, effective assessment would allow the learners to advance in a program at different rates on the basis of the successful demonstration of competency. Some learners would advance more quickly; others, to a point, would advance more slowly.
  • This requires that learners have clearly defined targets throughout training to guide learning and inform assessment and evaluation. The developmental milestones for Internal Medicine residency training developed by Green and associates (2009) are one example of how these targets can be defined.
  • These milestones describe discrete behaviours or significant points in development that, when met, allow evaluators and programs to know that a learner is truly ready to progress to the next stage of training.

교수자-학습자 관계 및 책임
Teacher-learner relationship and responsibilities

[전통적인 레지던트 교육 설계]에서는 학습이 [교사 주도]로 이루어집니다. [역량 기반 교육]에서는 [교사와 학습자 간에 책임이 공유되는 협업 과정]입니다.

  • 이러한 협업을 위해서는 [학습자가 학습 계획을 결정하는 데 적극적으로 참여]해야 하며, 교사는 [빈번하고 정확한 형성 피드백을 제공]해야 합니다(Westberg & Hilliard 1993).
  • 학습자에게 요구되는 핵심 기술에는 [자기 주도적 평생 학습, 자기 성찰 및 자기 평가]가 포함됩니다.
  • Epstein과 동료들(2008)은 자기 평가를 "자신의 성과에 대한 데이터를 해석하고 이를 명시적 또는 암묵적 표준과 비교하는 과정"이라고 설명했습니다.
  • 그러나 자기 평가는 성공적이고 지속적인 진료 개선, 우수성에 대한 헌신, 자기 모니터링에 매우 중요하지만, 많은 연구에서 [수련 중인 의사가 부정확한 자기 평가를 한다]는 사실이 입증되었습니다(Hodges 외. 2001; Davis 외. 2006).
  • 자기평가는 [전문가 역할 모델] 또는 [수행의 모범]을 [수행 기준으로 사용]하거나, [여러 정보 소스를 사용]하여 완료하는 것이 가장 좋으며, [단독으로 완료해서는 안 됩니다].
  • 후자는 학습자가 [외부 소스로부터 피드백]을 구하는 데 책임을 지고, 그 정보를 사용하여 "자기 주도적 평가 추구"라고 부르는 프로세스에서 [성과 개선을 안내하는 데 사용]하도록 요구합니다(Eva and Regehr, 2008).
  • 이러한 [외부 정보 소스]의 예로는 다음 등이 있습니다.
    • 여러 참관인으로부터 받은 피드백,
    • 교육 중 시험 결과,
    • 시뮬레이션 수행 결과
    • 실습 감사에서 수집한 데이터 
  • 그러나 [교수진의 피드백]은 이러한 정보의 중요한 원천이며, 학습자를 [직접 관찰]해야 합니다. CBME 프레임워크에서 [교사와 학습자 간의 역동적인 상호 작용]은 이 과정을 분명히 촉진할 수 있습니다.
  • 이러한 책임을 다하기 위해 프로그램은 [안전한 학습 환경]을 조성하고, 모든 참가자의 역할과 기대치를 명확하게 정의해야 합니다.

In a traditional residency design, learning is teacher driven. In competency-based training, it is a collaborative process in which responsibility is shared between teacher and learner.

  • This collaboration requires that the learner be an active participant in determining a learning plan, and that the teacher provide frequent and accurate formative feedback (Westberg & Hilliard 1993).
  • Critical skills required of the learner include self-directed and lifelong learning, self-reflection, and self-assessment.
  • Epstein and colleagues (2008) have described self-assessment as “the process of interpreting data about our own performance and comparing them to an explicit or implicit standard.”
  • However, although self-assessment is critical to successful and continuous practice improvement, commitment to excellence, and self-monitoring, many studies have demonstrated that physicians-in-training are inaccurate self-assessors (Hodges et al. 2001; Davis et al. 2006).
  • Self-assessment is best completed using expert role models or exemplars of performance as performance criteria, or, alternatively, multiple information sources, and should not be completed in isolation.
  • The latter requires that the learner take responsibility for seeking feedback from external sources and use that information to guide performance improvements in a process that Eva and Regehr (2008) have called “self-directed assessment seeking.”
  • Examples of such external sources of information could include
    • feedback solicited from multiple observers,
    • in-training exam results,
    • outcomes of simulation performance, and/or
    • data gleaned from a practice audit.
  • Feedback from faculty is, however, a critical source of such information and requires direct observation of the learner. The dynamic interaction between teacher and learner in a CBME framework can clearly facilitate this process.
  • To meet this responsibility, programs must create safe learning environments and clearly define roles and expectations for all participants.

또한 CBME는 프로그램이 [적절한 학습자 감독]을 보장하도록 요구합니다.

  • 레지던트 근무시간에 관한 미국의학연구소의 보고서(2008)에서 권고한 바와 같이 인증기관, 후원기관, 수련 프로그램은 각 수련자의 수준과 전문성에 적합한 [측정 가능한 감독 기준]을 수립해야 합니다.
  • 전통적으로 선임 학습자는 교육 기간 동안 더 많은 책임감을 가지고 후배 학습자를 가르치고 감독합니다. 교수진의 감독이 제한적으로 이루어지는 경우가 많습니다.
  • 이러한 활동(교수진 슈퍼비전)은 학습자의 전문성 개발에 매우 중요한 것으로 간주되며, [학습 공동체]와 [수련 프로그램 문화]의 중요한 구성 요소로 여겨집니다(미국 내과학회 2009).
  • 그러나 해당 분야의 전문가가 아닌 개인에 의한 코칭의 이점에 의문을 제기한 Ericsson과 동료들(1993)의 연구에도 불구하고, 상급 학습자가 하급 학습자를 감독하는 것은 상급 학습자가 실제로 감독을 제공할 수 있는 능력이 있는지에 대한 적절한 평가 없이 이루어지는 경우가 종종 있습니다.
  • 또한, 교육 프로그램은 동료 학습자가 어려움에 처한 상황을 파악하고 해결하기 위해 학습자에게 지나치게 의존해서는 안 됩니다. [모든 수준의 학습자를 위한 적절한 슈퍼비전]은 학습을 풍부하게 하는 동시에 안전하고 효과적인 환자 치료를 제공할 수 있도록 보장할 수 있습니다.

CBME also requires that programs ensure adequate learner supervision.

  • As recommended in the Institute of Medicine's report on resident work hours (2008), accrediting organizations, sponsoring institutions, and training programs should establish measurable standards of supervision for each trainee appropriate to his or her level and specialty.
  • Traditionally, senior learners teach and supervise junior learners with increasing responsibility during training. Frequently, this occurs with limited faculty supervision.
  • This activity is seen as critical to the learner's professional development and is believed to be a vital component of the learning community and culture of training programs (American Board of Internal Medicine 2009).
  • However, despite work by Ericsson and colleagues (1993) that has called into question the benefit of coaching by individuals who themselves are not experts in the field, supervision of junior learners by advanced learners often occurs without adequate assessment of whether the more senior learner is actually competent to provide supervision.
  • Moreover, training programs should not be overly dependent on learners to identify and remediate situations where peer learners are in difficulty. Appropriate supervision for all levels of learners can enrich learning while at the same time ensuring the delivery of safe and effective patient care.

평가에 대한 접근 방식
Approaches to assessment

[평가 프로세스]는 [학습자가 수련과정을 progress]하거나 [practice을 시작할 준비]가 되었는지에 대한 정보를 생성하는 데 사용되는 방법, 도구 및 프로세스로 구성됩니다. [평가Evaluation]는 커리큘럼의 유용성과 관련하여 이러한 데이터를 판단하거나 해석하는 것을 말합니다. 이번 호의 다른 곳에서 Holmboe와 동료들(2010)이 설명한 것처럼, CBME에는 [향상된 평가 도구와 프로세스]가 필요합니다.
The process of assessment comprises the methods, tools, and processes used to generate information about learners’ readiness to progress in training or start practice. Evaluation refers to the judgment or interpretation of those data as they relate to the utility of a curriculum. As described by Holmboe and colleagues (2010) elsewhere in this issue, CBME requires enhanced assessment tools and processes.

역량 기반 교육을 성공적으로 구현하려면 [모든 교수진]이 [역량 기반 실습을 이해하고 모범]을 보여야 합니다. 또한 교수진은 [커리큘럼 개발에 적극적으로 참여]해야 합니다. [평가 및 평가를 위해서는] 교수진이 의료 서비스를 제공하는 실습생을 [직접 관찰하는 구체적인 기술]을 개발해야 합니다. 시뮬레이션은 시간이 지남에 따라 역량 평가에서 점점 더 중요한 역할을 하게 될 것이지만, 학습자가 [진료를 제공하는 것을 직접 관찰하는 것]은 [평가 및 평가 프로세스의 초석]으로 남아 있을 것입니다. Carraccio와 동료들(2002)이 지적했듯이, 역량 기반 교육 및 훈련에는 직접 관찰이 필요하고 형성 평가의 빈도와 질이 높아지기 때문에 [교수진의 더 많은 참여가 필요]합니다.
The successful implementation of competency-based training will require that all faculty understand and model competency-based practice. Faculty must also be actively involved in curriculum development. Assessment and evaluation will require that faculty develop specific skills in the direct observation of trainees delivering care. Although simulation will likely play an increasingly important role in competency assessment over time, the direct observation of learners providing care will remain a cornerstone of assessment and evaluation process. As Carraccio and colleagues (2002) have noted, competency-based education and training requires greater involvement by faculty because of the need for direct observation and increased frequency and quality of formative assessment.

[환자를 면담하고, 진찰하고, 상담하는 기본 기술]은 효과적인 환자 치료에 필수적입니다. [직접 관찰]을 통해 이러한 기술을 평가하는 것은 [모든 역량 기반 평가 시스템에서 매우 중요한 부분]입니다. 안타깝게도 [대부분의 교수진]은 [신뢰할 수 있고 유효한 방식으로 직접 관찰을 수행할 준비]가 되어 있지 않습니다. 여러 연구에 따르면 많은 실무 의사와 교수진이 이러한 [(직접관찰)기술을 수행할 능력이 부족하다는 사실]이 입증되었습니다. 교수진은 이러한 [술기의 필수 구성 요소]를 배워야 할 뿐만 아니라, 이러한 술기를 수행하는 [학습자에 대한 유효하고 신뢰할 수 있는 평가를 제공하는 방법]도 배워야 합니다. 다행히도 수행 평가 문헌에 따르면 교수자 개발은 평가 오류를 줄이고 변별력을 개선하며 평가의 정확성을 향상시킬 수 있다고 합니다(이번 호의 Dath & Iobst 2010 참조).
The basic skills of interviewing, examining, and counselling patients are essential to effective patient care. Evaluating these skills using direct observation is a critical part of every competency-based evaluation system. Unfortunately, most faculty are not prepared to perform direct observation in a reliable and valid fashion. Multiple studies have demonstrated that many practising physicians and faculty members are not competent to perform these skills. Faculty must not only learn the essential components of these skills, but must also learn how to deliver valid and reliable evaluations of learners performing these skills. Fortunately, the performance appraisal literature suggests that faculty development can reduce rating errors, improve discrimination, and improve the accuracy of evaluation (see Dath & Iobst 2010, in this issue).

[직접 관찰을 위한 효과적인 교수자 개발]은 궁극적으로 프로그램 수준에서 평가의 신뢰성과 타당성을 향상시킬 수 있는 [직접 관찰에 대한 공유된 정신 모델 또는 이해 수준을 만드는 것]을 목표로 해야 합니다. 이러한 평가자 교육은

  • [관찰할 역량의 필수 요소]에 대한 합의를 얻고,
  • [해당 역량을 평가하는 기준을 표준화]하며,
  • [관찰 빈도를 높이기 위한 전략을 개발]하는 데 중점을 두어야 합니다(Holmboe 2008).

Effective faculty development for direct observation must aim to create a shared mental model or level of understanding about direct observation that will ultimately enhance the reliability and validity of assessment at the program level. Such rater training should seek to gain agreement on the essential elements of the competency to be observed, standardize criteria for rating that competency, and develop strategies to increase the frequency of observations (Holmboe 2008).

일부에서는 CBME가 [의료 행위]를 [객관적으로 관찰 가능한 기준의 항목별 목록]으로 [축소reduce]한다고 주장하기도 합니다(Brooks 2009). 다른 사람들(Grant 1999)은 역량 [전체가 개별 부분보다 더 크며], 궁극적으로 환자 치료 제공에 있어 [역량의 입증]은 플레밍(1993)이 [메타 역량]으로 묘사한 것을 나타낸다고 관찰합니다.

  • [메타역량]의 개념은 [실제 의료 환경에서 [안전하고 효과적인 진료]에 필요한 개인의 [지식, 기술, 태도]뿐만 아니라 [문화적, 사회적 맥락]의 복합적인 조합]을 인식합니다.
  • 이러한 메타 역량을 평가하려면 다음이 필요합니다.
    • 타당하고 신뢰할 수 있는 [다차원 평가],
    • 여러 [데이터 포인트],
    • 평가 정보를 [수집, 처리 및 조치]할 수 있는 강력한 시스템
  • 신뢰할 수 있고 타당한 [메타역량 평가]를 위해서는 교수진 평가자가 [환자 치료 제공에 대한 깊은 지식과 경험]을 가지고 있어야 합니다.
  • 또한 모든 참여자가 메타역량 평가가 [단순히 목록에 있는 항목에 체크하는 것 이상의 것]을 필요로 한다는 점을 이해해야 합니다.
    • 메타 역량을 입증하려면 평가가 [유사한 상황에서 유능하게 수행할 수 있는 능력]을 다루어야 하며,
    • 관찰된 성과를 [직접 평가하지 않은 실제 상황에서의 성과로 추정]할 수 있어야 합니다(Williams 외. 2003).

Some have argued that CBME reduces the practice of medicine to itemized lists of objective observable criteria (Brooks 2009). Others (Grant 1999) observe that the whole of competence is greater than its individual parts and that, ultimately, the demonstration of competence in the delivery of patient care represents what Fleming (1993) has described as meta-competency.

  • The concept of meta-competency recognizes the complex mix of individual knowledge, skills, and attitudes, as well as cultural and social contexts, required for safe and effective practice in actual health care environments.
  • Assessing such meta-competencies requires
    • valid and reliable multi-dimensional assessment,
    • multiple data points, and
    • a robust system for collecting, processing, and acting on evaluation information.
  • Reliable and valid meta-competency evaluation requires that faculty evaluators have deep knowledge and experience in the delivery of patient care.
  • This also requires that all participants understand that the evaluation of meta-competency requires more than simply checking off items on a list. Attesting to meta-competency will require
    • that evaluation addresses the ability to competently perform in a universe of similar situations and
    • that observed performance can be extrapolated to performance in practice situations that are not directly evaluated (Williams et al. 2003).

절차적 교육을 제외하고 [전통적인 의학교육 모델]에서는 레지던트 평가에서 [직접 관찰 능력]을 우선시하지 않았습니다. 이 프레임워크의 [기본 평가]는 일반적으로 교육 경험 과정에서 개발된 [게슈탈트 평가]에 기반한 [로테이션 종료 시 평가]입니다.
With the exception of procedural training, the traditional model of medical education has not prioritized direct observation skills in residency evaluation. The foundational evaluation in this framework is typically end-of-rotation evaluation based on a gestalt evaluation developed over the course of the educational experience.

기준 참조 평가
Criterion-referenced assessment

[지식 적용에 대한 타당하고 신뢰할 수 있는 평가]는 CBME에서 매우 중요합니다. 이를 위해서는 [규범을 참조하는 평가 기준]이 아닌 [기준을 참조하는 평가 기준]이 필요합니다.

  • [규범 참조 평가]에서는 평가자가 [즉각적이고 사용 가능한 학습자의 성과]를 사용하여 기준을 설정합니다. 이 접근 방식은 성과를 과대 평가하거나 과소 평가할 위험이 있습니다.
  • [기준 참조 평가]에서는 [미리 정해진 기준]이 평가에 영향을 줍니다. 최근에 발표된 [내과 마일스톤]이 이러한 기준의 예입니다. 이러한 마일스톤은 [행동 기반]이며 레지던트가 프로그램에서 발전하고 [커리어의 다음 단계로 진입하는 데 필요한 지식, 기술 및 태도를 습득할 수 있도록 기준]을 제시합니다.

그러나 이러한 [이정표]는 기준을 참조한 평가에 정보를 제공할 수 있지만, "one size fits all" 평가 시스템을 의무화하지는 않습니다. 각 프로그램은 [고유한 임상 환경과 자원을 기반]으로 [기준 참조 평가를 촉진하는 평가 시스템]을 개발해야 합니다.
The valid and reliable assessment of knowledge application is critical in CBME. This requires criterion-referenced rather than norm-referenced standards of assessment.

  • In norm-referenced evaluation, the evaluator uses the performance of immediate and available learners to establish criteria. This approach risks either overrating or underrating performance.
  • In criterion-referenced evaluation, predetermined criteria inform evaluation. The recently released Internal Medicine Milestones are an example of such criteria. These milestones are behaviourally based and offer criteria to ensure that residents acquire the knowledge, skills, and attitudes necessary for advancing in their program and for entering the next phase of their careers.

However, while such milestones can inform criteria referenced evaluation, they do not mandate a “one size fits all” assessment system. Programs will need to develop assessment systems that facilitate criterion-referenced evaluation based on their unique clinical environment and resources.

평가 시기
Timing of assessment

평가는 [형성 평가] 또는 [총괄 평가]를 제공할 수 있습니다. 역량 기반 교육 시스템에서 [피드백을 제공하는 형성 평가][학습자의 교육 과정 참여를 유도]하는 데 필수적입니다. 교육생은 형성 평가/피드백을 [받는 데 익숙]해져야 하며, 교수진은 이를 [자주 제공]해야 합니다. 프로그램은 이 과정을 위한 [안전한 교육 환경]을 조성하고 평가 및 피드백 제공을 위한 [다양한 기회]를 만들어야 합니다. 현재 대부분의 프로그램 평가 시스템에서 형성 평가를 자주 실시하는 것은 중요한 구성 요소가 아닙니다. 일반적인 로테이션 종료형 게슈탈트 평가는 실제 교육 경험과 시간적으로 근접한 시점에 제공되지 않기 때문에 학습자에게 즉각적이고 직접적인 피드백을 제공하는 데 성공할 수 없습니다.
Assessment can provide either formative or summative evaluation. In a competency-based education system, formative assessment that provides feedback is essential to guiding the learner's participation in the educational process. Trainees must become comfortable seeking formative assessment/feedback, and faculty must offer it frequently. Programs will need to cultivate a safe educational environment for this process and to create multiple opportunities for assessment and the delivery of feedback. Frequent formative assessment is currently not a significant component of most program evaluation systems. The typical end-of-rotation gestalt evaluation is not delivered in close temporal proximity to the actual educational experience, and so cannot succeed in providing immediate, direct feedback to the learner.

유연한 교육 기간
Flexible duration of training

CBME의 가장 큰 특징은 학습자가 입증된 능력에 따라 [자신의 속도에 맞춰 학습을 진행]한다는 것입니다. 안타깝게도 현재 널리 사용되고 있는 PGME의 구조는 여러 수준에서 순수한 역량 기반 교육 시스템의 도입을 어렵게 만듭니다. 옳든 그르든, 프로그램 디렉터들은 프로그램과 레지던트가 [점진적인 독립성]을 허용하면서 구조와 어느 정도의 감독이 필요한 성숙 과정을 통해 이익을 얻을 수 있다고 믿습니다(미국 내과학회 2009). 또한 이 과정에는 모든 학습자에게 [정해진 최소 교육 기간]이 필요하다고 생각합니다. 역량 기반 모델로 전환하면 [일부 레지던트의 조기 승진]과 [다른 레지던트의 승진 지연]으로 인해 이 과정이 중단될 위험이 있습니다. 그러나 [숙련된 학습자]는 역량을 입증하는 대로 진급해야 합니다. 한도 내에서 CBME는 [학습에 어려움을 겪는 학습자]에게도 구조화된 학습 환경에서 적절한 시간을 제공해야 합니다. 또한 CBME는 학습자가 특정 영역에서는 성취하고 다른 영역에서는 도전할 수 있음을 인식해야 합니다. 그러나 프로그램 졸업생이 안전하고 효과적인 환자 치료를 제공할 수 있도록 하기 위해서는 어떤 학습자도 [성급하게 시스템을 통과하도록 해서는 안 되며], 모든 학습자에게 원하는 역량을 개발할 수 있는 적절한 시간이 주어져야 합니다. 마지막으로, 현재의 PGME 자금 지원 시스템은 고정된 교육 기간을 기반으로 하고 있으며, [역량 기반의 유연한 시간 모델을 위한 자금 지원 전략]은 아직 제안되지 않았습니다. CBME가 발전하기 위해서는 전체 시스템의 재설계가 필요합니다. 이를 위해서는 교육 과정의 모든 수준에서 변화가 필요합니다.
A key distinguishing feature of CBME is that learners progress at their own rate in accordance with demonstrated ability. Unfortunately, the prevailing structure of PGME makes the adoption of a pure competency-based training system challenging at many levels. Rightly or wrongly, program directors believe that programs and residents benefit from a maturation process that requires structure and some degree of supervision while allowing for progressive independence (American Board of Internal Medicine 2009). They also believe that this process requires a fixed minimum period of training for all learners. Moving to a competency-based model risks disrupting this process by virtue of the early advancement of some residents and the delayed advancement of others. However, accomplished learners should advance as they demonstrate competence. Within limits, CBME should also provide appropriate time in structured learning environments for challenged learners. CBME must also recognize that a learner may be accomplished in certain domains and challenged in others. However, to ensure that program graduates can provide safe and effective patient care, no learner should be prematurely pushed through the system, and every learner should be given appropriate time to develop the desired competency. Finally, the current system of PGME funding is based on a fixed duration of training, and strategies to fund a competency-based, flexible-time model have yet to be proposed. For CBME to advance, a redesign of the entire system will be necessary. This will require change at all levels of the educational process.

프로그램 평가를 통한 인증 재조정
Realigning accreditation with program evaluation

CBME를 지원하기 위해 [인증 요건]은 점점 더 성과에 초점을 맞추고 있습니다. 예를 들어, ACGME 인증 내과 프로그램은 이제 [레지던트 성과 데이터 또는 결과][개선의 근거]로 사용하여 [데이터에 기반한 교육 프로그램 개선의 증거]를 입증해야 하며, 학습자 및 프로그램의 성과를 모두 검증하기 위해 [외부 측정]을 사용해야 합니다(ACGME 2009b). 마찬가지로, 모든 캐나다 왕립 의사 및 외과의 대학 프로그램은 전통적인 시간 기반 로테이션과 전문 분야별 역량을 모두 입증해야 합니다(인증 위원회 2006).
In support of CBME, accreditation requirements have become increasingly focused on outcomes. For instance, ACGME-accredited Internal Medicine programs must now demonstrate evidence of data-driven improvements to the training program by using resident performance data, or outcomes, as a basis for improvement, and use external measures to verify both the learner's and the program's performance (ACGME 2009b). Similarly, all Royal College of Physicians and Surgeons of Canada programs require demonstration of both traditional time-based rotations and specialty-specific competencies (Accreditation Committee 2006).

변화에 따른 레지던트 재설계
Residency redesign as change

개별 이해관계자 수준에서 역량 기반 수련 모델로의 전환은 [전문가 정체성의 극적인 재정의]가 될 수 있습니다. 많은 교수진이 역량 기반 교육이 도입되기 전에 교육을 이수했습니다. 이러한 전문가에게 CBME는 미지의 영역이며, Carraccio와 동료들(2002)이 설명한 패러다임의 변화는 교수진이 교육자로서의 전문적 정체성의 잠재적 재정의에 직면하면서 심대한 상실감을 불러일으킬 수 있습니다.
At the level of the individual stakeholder, the transition to a competency-based training model can represent a dramatic redefinition of professional identity. Many faculty completed training before the era of competency-based training. For these professionals, CBME represents uncharted waters, and the paradigm shift described by Carraccio and associates (2002) can give rise to feelings of profound loss as faculty face the potential redefinition of their professional identities as educators.


우리는 의학전문대학원 교육 커뮤니티가 CBME로의 진화를 수용해야 한다고 믿습니다. 이러한 전환에는 여러 가지 과제를 극복해야 합니다. 역량 기반 교육 프레임워크 구현의 중요성을 이해하는 것은 변화 과정의 시작에 불과합니다. 시간 및 프로세스 기반 시스템의 기존 인프라에서 변화를 촉진하면서 학습자의 요구를 충족할 수 있는 유연성을 확보하는 것이 중요합니다. 프로그램과 교육 현장의 다양성을 고려할 때 하나의 로드맵이 모든 프로그램에 적합하지는 않습니다. 역량 기반 교육이 궁극적인 목표이지만, 전환에는 특정 역량 기반 결과뿐만 아니라 시간 및 프로세스 구성 요소를 포함하는 중간 단계의 하이브리드 프레임워크가 포함될 가능성이 높습니다. 성공적인 실행을 위해서는 교육기관 고위 경영진의 지원과 프로그램 책임자 및 지역 수준의 주요 교수진 챔피언이 제공하는 [리더십이 매우 중요]합니다. 국가 차원에서 인증 및 주요 이해관계자 조직은 CBME가 현실화될 수 있도록 [PGME 정책 개혁과 적절한 자원을 위한 로비]를 계속해야 합니다.
We believe that the graduate medical education community must embrace the evolution to CBME. This transition will involve overcoming a number of challenges. Understanding the importance of implementing a competency-based training framework is only the beginning of the process of change. Allowing for the flexibility to meet the needs of the learner while promoting change in the existing infrastructure of a time-and-process based system will be critical. Given the diversity of programs and training sites, no single road map will fit all programs. Although competency-based training is the ultimate goal, the transition will likely include intermediate hybrid frameworks containing time and process components as well as specific competency-based outcomes. The support of senior institutional administration and the leadership provided by the program director and key faculty champions at the local level will be critical to successful implementation. At the national level, accreditation and key stakeholder organizations must continue to lobby for PGME policy reform and the appropriate resources to ensure that CBME becomes a reality.


Med Teach. 2010;32(8):651-6. doi: 10.3109/0142159X.2010.500709.

Competency-based medical education in postgraduate medical education

Affiliations collapse

1American Board of Internal Medicine, USA.

PMID: 20662576

DOI: 10.3109/0142159X.2010.500709


With the introduction of Tomorrow's Doctors in 1993, medical education began the transition from a time- and process-based system to a competency-based training framework. Implementing competency-based training in postgraduate medical education poses many challenges but ultimately requires a demonstration that the learner is truly competent to progress in training or to the next phase of a professional career. Making this transition requires change at virtually all levels of postgraduate training. Key components of this change include the development of valid and reliable assessment tools such as work-based assessment using direct observation, frequent formative feedback, and learner self-directed assessment; active involvement of the learner in the educational process; and intensive faculty development that addresses curricular design and the assessment of competency.

임상역량위원회가 교육을 강화하고 역량중심-시간변동 진급에 준비하는 모습 다시 그려보기(J Gen Intern Med. 2022)
Reimagining the Clinical Competency Committee to Enhance Education and Prepare for Competency-Based Time-Variable Advancement
Mary Ellen J. Goldhamer, MD MPH1,2,3 , Maria Martinez-Lage, MD1,3, W. Stephen Black-Schaffer, MD1,3, Jennifer T. Huang, MD3,4, John Patrick T. Co, MD MPH1,2,3, Debra F. Weinstein, MD5,6, and Martin V. Pusic, MD PhD3,4



레일라는 내과(IM) 레지던트 2년 차에 재학 중입니다. 미국(미국)으로 이민 오기 전에는 모국에서 IM 교육을 이수하고 2년 동안 독립적으로 수련을 받았습니다.
Leila is in her second year of internal medicine (IM) residency. Before emigrating to the United States (U.S.), she had completed IM training in her native country and practiced independently for 2 years.

6개월마다 열리는 임상 역량 위원회(CCC)의 정기 회의에서 레일라에 대한 논의는 거의 없었는데, 그녀의 평가는 일관되게 "기대 이상"이었습니다. 레일라가 레지던트 프로그램 디렉터를 만났을 때 CCC로부터 구체적인 요약 정보가 제공되지 않았습니다. 이용 가능한 평가 데이터는 일반적인 것이었으며 프로그램 디렉터는 "잘하고 있다"고 해석했습니다. 레일라는 CCC의 역할과 그것이 자신의 교육 궤도를 최적화하는 데 어떻게 도움이 되는지 궁금해하며 회의를 떠났습니다. 또한 미국으로 이민 오기 전에는 개업의였는데 왜 3년의 레지던트 과정을 마쳐야 하는지 의문을 제기했고, 모든 평가자들은 그녀의 뛰어난 실력에 주목했습니다. 레일라의 프로그램은 수련 시간이 아닌 입증된 역량에 따라 진급이 결정되는 역량 기반 시간 가변형 GME 파일럿 프로그램에 참여하고 있습니다. CCC는 이용 가능한 평가를 어떻게 활용하여 레일라의 비감독 실습 준비 상태를 판단할 수 있을까요? 
There was little discussion of Leila at the Clinical Competency Committee’s (CCC’s) regular 6-month meeting: her evaluations consistently reflected “exceeding expectations.” When Leila met with her residency program director, no specific summative information was available from the CCC. The available assessment data was generic and interpreted by the program director as “doing fine.” Leila left the meeting wondering about the CCC’s role, and how it helps optimize her educational trajectory. Leila also questions why she needs to finish 3 years of residency, since she was a practicing doctor prior to emigrating to the U.S.A., and all evaluators note her advanced skills. Leila’s program is participating in a competency-based time-variable GME pilot, where advancement is based on demonstrated competency rather than time in training. How can the CCC utilize available assessments to determine Leila’s readiness for unsupervised practice?


수련 중인 의사를 평가하는 것은 매우 중요한 활동입니다. 효과적인 평가는 교육 전반에 걸쳐 중요하므로, 강점과 약점을 파악하여 [결과를 최적화하기 위한 교육 계획을 수립]할 수 있습니다. 그런 다음 레지던트와 펠로우가 수련을 마칠 때 평가는 [무감독 실습에 대한 역량을 확인할 수 있는 기초]를 제공합니다. 또한, 의학전문대학원 교육(GME) 기간 동안 주기적인 평가를 통해 수련 중인 의사가 [자신의 학습을 스스로 평가하고 조절하는 능력을 연마]할 수 있도록 도와야 합니다.1 양질의 환자 진료에 필수적인 핵심 기술이자 경력 전반에 걸친 책임감은 정보에 입각한 자기 평가를 통해 배양할 수 있습니다.2 
Assessing physicians-in-training is a high-stakes activity. Effective assessment is important throughout training so that identified areas of strength and weakness can guide educational planning to optimize outcomes. Then, as residents and fellows complete their training, assessment provides the basis to confirm competence for unsupervised practice. Periodic assessment during graduate medical education (GME) should also help physicians-in-training hone their ability to self-assess and regulate their learning1—critical skills and a career-long responsibility essential for high-quality patient care which can be cultivated through informed self-assessment.2

평가의 중요성(그리고 역사적으로 강조되지 않았던)을 인식한 미국의학전문대학원교육인증위원회(ACGME)와 같은 의학교육 감독 기관은 [최근 몇 년간 관련 요건을 강화]했습니다.3,4,5 역량 기반 의학교육(CBME)에 대한 수용이 증가하고, [역량 기반 시간 가변(CB-TV) GME]로 논리적으로 확장되면서 효과적인 근거 기반 평가 접근법을 구현하는 것이 중요해졌습니다.6,7,8 미국, 캐나다, 스위스, 네덜란드, 그리고 전 세계적으로 ACGME-국제 인증을 통해 시행되고 있는 CCC는 수련의 평가의 방향 전환을 촉진하는 광범위한 교육 개혁의 산물입니다.4,6,9,10,11,12,13,14,15,16 또한 코로나19로 인해 일상적인 레지던트 및 펠로우십 교육이 중단되면서 진급 준비를 결정하기 위한 건전하고 신뢰할 수 있는 평가 절차의 중요성과 시급성이 증폭되고 있습니다.17,18,19,20,21,22,23 
Recognizing the importance (and historic under-emphasis) of assessment, medical education oversight organizations such as the Accreditation Council for Graduate Medical Education (ACGME) have strengthened related requirements in recent years.3,4,5 Growing acceptance of competency-based medical education (CBME), and its logical extension to competency-based, time-variable (CB-TV) GME, highlights the importance of implementing effective, evidence-based approaches to assessment.6,7,8 The implementation of CCCs in the USA, and their equivalent in Canada, Switzerland, the Netherlands, and globally through ACGME-International accreditation, is an outgrowth of widespread educational reform promoting a reorientation of trainee assessment.4,6,9,10,11,12,13,14,15,16 In addition, COVID-19’s disruption to routine residency and fellowship training amplifies the importance and urgency of having sound and trustworthy assessment processes to determine readiness for advancement.17,18,19,20,21,22,23

임상역량위원회(CCC)는 평가 정보를 해석하고 추가 조치를 결정하는 GME에서 평가의 핵심이며, 평가의 중심입니다. ACGME가 "차기 인증 시스템"의 일환으로 CCC를 시행하도록 요구하기 시작했을 때, 위원회의 주요 책임이 개괄적으로 설명되었으며, 시행의 세부 사항은 각 프로그램의 판단에 맡겨졌습니다.4,5 현재 다양한 접근법이 문헌에 기술되어 있으며, 2020년에 ACGME에서 GME 프로그램을 위한 CCC 가이드북 3판을 발행했지만, 아직 명확한 최선의 접근법이 확인되지는 않았습니다.24 
Clinical competency committees (CCCs) are the lynchpin of assessment in GME—the locus for interpreting evaluative information and determining further actions. When the ACGME initiated its requirement to implement CCCs as part of the “Next Accreditation System,” the committees’ key responsibilities were outlined, with the details of implementation left to each program’s judgment.4,5 Varying approaches have now been described in the literature, and the third edition of a CCC guidebook for GME programs was issued by ACGME in 2020; however, a clear best approach has yet to be identified.24

CCC 구조, 과정, 구성 및 결과25,26, 교수진 평가와 연수생 자가 평가27,28,29의 상관관계, 역량 코치의 역할30, 의미 있는 개별화된 학습 계획(ILP)을 개발하는 연수생의 능력 등을 평가하기 위한 연구가 진행되어 왔습니다. 31 다른 연구에서는 내과, 소아과, 응급의학과, 영상 진단, 외과 및 시술 전문과7,14,27,32,33,34,35,36,37,38,39 전공의가 역량 기반 진급 결정에 필수적인 전문과별 마일스톤 및 위임가능 전문 활동(EPA)에 대해 어떻게 평가되는지 규명하려고 노력했습니다.22,39 추가 연구에서는 레지던트 수련 중 CCC 역량 결정이 후속 감독 및 독립성 수준에 미치는 영향을 평가했습니다.7,27,35,36 
Studies have sought to evaluate CCC structure, process, composition, and outcomes25,26; correlation of faculty ratings with trainee self-assessment27,28,29; the role of competency coaches30; and trainee ability to develop meaningful individualized learning plans (ILPs).31 Other studies have sought to elucidate how trainees in internal medicine, pediatrics, emergency medicine, visual diagnostic, surgical, and procedural specialties7,14,27,32,33,34,35,36,37,38,39 are assessed on the specialty-specific Milestones and Entrustable Professional Activities (EPAs)which is essential for competency-based advancement decisions.22,39 Additional studies have evaluated the impact of CCC competency decisions on subsequent levels of supervision and independence during residency training.7,27,35,36

매사추세츠제너럴브리검에서는 여러 레지던트 프로그램이 CB-TV GME 파일럿40 에 참여하면서(예: 진급 및 졸업이 프로그램에서 보낸 시간에만 근거하지 않고 입증된 역량에 근거하는 경우), 그 효과를 높이고 레지던트에서 독립의료행위로의 개별화된 진급에 대한 신뢰할 수 있는 데이터 기반 결정을 보장하기 위해 CCC 프로세스에 대한 면밀한 검토를 촉진했습니다.40 시범사업 참여를 고려 중인 여러 레지던트 프로그램에서 CCC에 참여하고 CCC 문헌을 검토한 결과, 레지던트 프로그램 CCC의 목표를 재개념화하고 이를 달성하기 위한 권장 사항을 제시할 수 있었습니다. 
At Mass General Brigham, the participation of several residency programs in a CB-TV GME pilot40 (e.g., where advancement and graduation are based on demonstrated competency rather than solely on time spent in a program) has stimulated closer examination of CCC processes in order to enhance their effectiveness and ensure trustworthy data-informed decisions about individualized advancement from residency to unsupervised practice.40 Our engagement with CCCs in several residency programs considering participation in the pilot, along with our review of the CCC literature, has led us to reconceptualize the goals of residency program CCCs and make recommendations for achieving them.


ACGME의 "차기 인증 시스템"마일스톤 프로젝트[측정 가능한 역량 측면에서 각 수련의의 발달 과정을 평가]하는 레지던트 프로그램을 요구하며, 이는 역량 기반 의학교육 프레임워크를 선호하는 광범위한 합의를 반영합니다.4 CCC는 수련의의 성과, 특히 시간에 따른 발달 과정을 평가하기 위해 사용 가능한 데이터를 종합하는 주요 수단입니다.4,24,41,42
The ACGME’s “Next Accreditation System” and Milestones project call for residency programs to assess the developmental progression of each trainee in terms of measurable competencies, reflecting widespread consensus favoring a competency-based framework for medical education.4 CCCs are the principal vehicle for synthesizing available data to assess trainee performance and, importantly, developmental progression over time.4,24,41,42

CCC 목표
CCC Goals

ACGME의 "프로그램 공통 요건"은 다음과 같이 CCC의 핵심 책임을 요약합니다.5

  • (1) 적어도 반기마다 모든 전공의 평가를 검토하고,
  • (2) 각 전공의의 전문과목별 마일스톤 달성에 대한 진척도를 결정하며,
  • (3) 전공의의 반기 평가 전에 만나 각 전공의의 진척도에 대해 프로그램 책임자에게 조언한다.

The ACGME’s “Common Program Requirements” outline the following core responsibilities of the CCC:

  • (1) review all resident evaluations at least semi-annually;
  • (2) determine each resident’s progress on achievement of the specialty-specific Milestones; and
  • (3) meet prior to the residents’ semi-annual evaluations and advise the program director regarding each resident’s progress.5 

ACGME의 "임상 역량 위원회"는 다음과 같이 명시하고 있습니다: 프로그램을 위한 가이드북"은 [이해관계자 그룹("프로그램 자체, 프로그램 디렉터, 교수진, 프로그램 코디네이터, 레지던트 및 펠로우, 기관, ACGME")으로 구성된 41개의 세부 항목]을 CCC의 "목적"으로 설명하지만(표 1, 5-7페이지), "궁극적인 목적은 대중에게 의학교육자로서의 책임성을 입증하는 것, 즉 졸업생들이 수련 중에 환자에게 질 높고 안전한 치료를 제공할 것이며, 실제 진료에 들어가서도 그렇게 할 준비가 잘 되어 있음을 보여주는 것"24이라고 명시하고 있습니다.
The ACGME’s “Clinical Competency Committees: A Guidebook for Programs” delineates (Table 1, p 5–7) 41 granular items as “purposes” of the CCC, organized by stakeholder groups (“the program itself, program directors, faculty members, program coordinators, residents and fellows, the institution, and the ACGME”), but notes that “the ultimate purpose is to demonstrate accountability as medical educators to the public: that graduates will provide high quality, safe care to patients while in training, and be well prepared to do so once in practice.”24

프로그램들은 모든 레지던트에 대한 지속적인 평가와 CCC 고려에는 상당한 시간과 자원이 필요하다고 지적합니다.24 18-22 그러나 역량 격차에 대한 인식 지연과 같이 최적이 아닌 평가로 인한 부정적인 영향은 훨씬 더 많은 비용을 초래할 수 있습니다. 게다가 불투명하고 자원이 부족한 평가 시스템으로 인해, 개인의 잠재력을 극대화하지 못하고, 심지어 역량 미달의 수련생이 졸업하게 된다면, 그 후의 사회적 비용은 훨씬 더 커질 수 있습니다. 이러한 이유로 GME 프로그램은 모든 교육생에 대한 [발달 평가를 강화]하여 [현재의 교육을 개선]하고 미래 모델로서 [입증된 역량에 기반한 시간 가변형 졸업에 대비]해야 합니다.
Programs note that ongoing assessment and CCC consideration of every resident requires considerable time and resources.24 p 18-22 However, the negative impact of sub-optimal assessment, such as delayed recognition of competency gaps, can cost considerably more. Moreover, if an opaque, under-resourced assessment system results in failing to maximize individual potential, and perhaps even allows less-than-competent trainees to graduate, the downstream costs to society are far greater. For these reasons, it is essential that GME programs strengthen the developmental assessment of all trainees to improve education today and prepare us for time-variable graduation based on demonstrated competency as a model for the future.

우리는 CCC가 세 가지 핵심 목표를 가질 것을 제안합니다.
We propose that CCCs have three core goals.

첫째, CCC는 교육을 최적화하기 위해 각 레지던트의 발달 상태를 정기적으로 반복적으로 파악하고 설명해야 합니다. 이를 위해서는 [다양하고 충분한 양의 평가 자료]를 집계하고 해석해야 하며, [충분히 다양한 환경에서 도출]되고 [직접 관찰을 통해 정보를 얻은 다중 출처("360도") 평가]에 중점을 두어야 합니다.43,44 또한 [CCC 결과]는 [개별화된 교육 계획에 통합]되어야 하며, [총괄 평가]는 [각 훈련생과 공동으로 작성한 실행 계획에 통합]되어야 합니다.24
First, the CCC must regularly and iteratively discern and describe the developmental status of each resident for the purpose of optimizing their education. This requires aggregating and interpreting a variety and sufficient volume of evaluative material—with an emphasis on multi-source (“360-degree”) evaluations, drawn from a sufficient variety of settings and informed by direct observation.43,44 It also requires that CCC findings are incorporated in an individualized educational plan, where summative assessments are incorporated into an action plan co-produced with each trainee.24

CCC의 두 번째 목표는 [유능한 의사를 배출하여 대중을 보호해야 하는 GME 프로그램의 근본적인 책임]과 관련이 있습니다. 따라서 CCC는 졸업 결정을 서포트하기 위해 각 레지던트의 무감독 실습에 대한 준비 상태를 긍정적으로 판단해야 합니다. 이를 위해서는 일관되게 적용할 수 있는 [명시적인 진급 기준]이 필요합니다.
The CCCs’ second goal relates to GME programs’ fundamental responsibility to protect the public by graduating competent physicians. Thus, CCCs must affirmatively determine each resident’s readiness for unsupervised practice to support graduation decisions. This requires having explicit promotion criteria that can be applied consistently.

우리는 CCC의 세 번째 핵심 목표는 각 레지던트가 [지속적인 학습에 대해 책임을 질 수 있는 능력], 즉 자기 평가, 자기 모니터링, 학습의 자기 조절로 다양하게 알려진 기술의 집합을 육성하는 것이라고 주장합니다.1,2 자신의 술기, 지식, 판단 수준을 이해하는 것은 좋은 진료를 제공하기 위한 핵심입니다. CBME의 중요한 원칙은 학습 통제권을 교수진에서 레지던트에게로 전환하는 것입니다. 6,45,46 의사는 진료 제공에 있어 다음을 판단해야 한다.

  • 언제 도움을 구해야 하는지,
  • 언제 추가 교육, 수련 또는 실습(예: 시뮬레이션)을 추구해야 하는지,
  • 언제 자신의 진료 범위를 제한해야 하는지

이런 것들은 일반적으로 독립적인 진료에 대한 [외부의 사후 감독]에 의존하기보다는 [스스로 판단]해야 합니다. 실제로, 연구에 따르면 유능한 의사는 자신을 과소평가하는 반면, 유능하지 않은 의사는 자신을 과대평가하는 경향이 있는 것으로 나타났습니다.47 따라서 [정보에 입각한 자기평가]는 CCC 과정과 연계하여 수련 중에 배양하고 보장해야 할 관련 기술입니다.2,24 자기평가와 반성적 실천의 중요성은 최근 조화로운 ACGME 마일스톤 2.0 하위 역량인 "실습 기반 학습 및 개선-2"- "개인적 성장을 위한 반영적 실천 및 헌신"의 시행으로 강조되고 있습니다."1,48
We assert that a third key goal of CCCs is to foster each resident’s ability to take responsibility for their ongoing learning, the collection of skills variably known as self-assessment, self-monitoring, and self-regulation of learning.1,2 Understanding one’s own level of skill, knowledge, and judgment is central to providing good care. An important tenet of CBME is the shift of learning control from the faculty to the resident. 6,45,46 Physicians must discern

  • when to seek help in delivering care;
  • when to pursue additional education, training, or practice (e.g., simulation); or
  • when to limit their scope of practice—rather than relying on external, usually post hoc oversight of their independent practice.

The ability cannot be assumed to develop spontaneously; in fact, studies have demonstrated that highly competent physicians tend to under-rate themselves while the less competent overrate themselves.47 Thus, informed self-assessment is a relevant skill to cultivate and ensure during training, linked to the CCC process.2,24 The importance of self-assessment and reflective practice is underscored by the recent implementation of the harmonized ACGME Milestone 2.0 sub-competency, “Practice-based Learning and Improvement-2”—“Reflective Practice and Commitment to Personal Growth.”1,48

CCC는 이러한 목표를 달성하는 데 어떤 성과를 거뒀을까요?
How Do CCCs Fare in Fulfilling These Goals?

형성적 및 종합적 직무기반 평가는 CCC 결정에 영향을 미칩니다.
Formative and Summative Workplace-Based Assessments Inform CCC Decisions

ACGME 공통 프로그램 요구사항 및 CCC 가이드북은 [CCC를 위한 프레임워크]를 제공하지만, 일부 증거에 따르면 CCC가 교육생의 발달 궤적을 적절히 평가하는 데 있어 이러한 요구사항을 충족하지 못하고 있습니다.5,24,25,49,50,51,52,53 2001년 ACGME 성과 프로젝트가 시작되면서 6가지 핵심 역량이 확립되었고, 미국의 역량 기반 의학교육 운동이 활성화되어 GME 교육 성과에 대한 로드맵이 정의되었습니다.3 그 이후로 ACGME는 수련의를 평가하기 위해 [형성적 평가 방법][총괄적 평가 방법]을 모두 권장해 왔습니다.

  • [형성적 평가 방법]의 예로는
    • 역량 기반 다원 평가(예: 교수진, 동료, 환자, 다른 의료 전문가, 자기 평가에 의한 수련의 평가),
    • 피드백을 통한 직접 관찰,
    • 객관적인 구조화된 임상 시험,
    • 차트 리뷰 등이 있습니다.5,24,43
  • 이후 [2013년 '차기 인증제도'의 일환으로 전문과목별 마일스톤에 대한 연 2회 평가]가 시행되면서 수련의 [종합 평가]가 강화되었습니다.4
    • 소아과는 10년 이상 개별화된 학습 계획(ILP)을 사용해 왔으며, 최근 모든 전문과목의 수련의에게 프로그램 리더십과 함께 ILP를 공동 제작하는 것이 요구되고 있습니다.5,54,55

While the ACGME Common Program Requirements and CCC Guidebook provide a framework for CCCs, some evidence indicates that CCCs fall short of meeting these requirements in adequately evaluating the developmental trajectory of trainees.5,24,25,49,50,51,52,53 The inception of the ACGME Outcomes Project in 2001 established the six core competencies and stimulated the competency-based medical education movement in the USA, defining the roadmap for GME training outcomes.3 Since that time, the ACGME has recommended both formative and summative assessment methods to evaluate trainees.

  • Examples of formative assessment methods include
    • competency-based multi-source evaluation (e.g., evaluation of trainees by faculty, peers, patients, other healthcare professionals, and self-assessment),
    • direct observation with feedback,
    • objective structured clinical examinations, and
    • chart review.5,24,43 
  • Summative trainee assessment was then strengthened by the implementation of bi-annual evaluation on specialty-specific Milestones as part of the “Next Accreditation System” in 2013.4 Pediatrics has used individualized learning plans (ILPs) for more than a decade, and co-production of ILPs with program leadership is a recent requirement for trainees in all specialties.5,54,55 

[형성평가와 총괄평가 모두에 대한 요구사항]은 학습의 연속성 전반에 걸쳐 수련의를 평가할 수 있는 방법과 역량 기반 평가가 역량 기반 의학교육을 지원하는 방법을 이해하기 위한 학술 센터 간의 혁신과 협력을 이끌어냈습니다.7,56 ACGME 평가 요건은 [CCC가 [평가 과정과 시간표]를 명문화하고, [충분한 수의 평가를 수집]하며[충분한 평가 횟수는 주관적이지만], 레지던트와 직접 일한 경험이 있는 회원을 포함한 [다양한 관점을 통합]]하도록 자극했습니다.56,57,58 역량 기반 의학교육으로의 전환과 역량 기반 발전에 대한 고려와 함께, Kinnear 등은 실무 기반 평가와 CCC 과정이 역량 기반 발전을 지원할 수 있는 방법에 대한 타당성 논거를 설명했습니다.8,59
The requirement for both formative and summative assessment has led to innovation and collaboration among academic centers to understand how trainees can be assessed across the continuum of learning and how competency-based assessment supports competency-based medical education.7,56 ACGME assessment requirements have stimulated CCCs to codify a process and timetable for evaluations, to collect a sufficient number of evaluations [though what number of evaluations suffices remains subjective], and to incorporate multiple perspectives, including from members with first-hand experience working with residents.56,57,58 With the movement to competency-based medical education and consideration of competency-based advancement, Kinnear and others have described a validity argument for how workplace-based assessment and the CCC process can support competency-based advancement.8,59

그러나 동시에 여러 가지 면에서 CCC는 명시된 세 가지 목표를 지원하지 못하거나 때로는 뚜렷하게 약화시키고 있습니다.51,53,60 표 1은 세 가지 CCC 목표 달성에 대한 [현재의 장애물과 주요 조력자]를 요약한 것입니다. 이러한 장애물을 살펴보고 제안된 목표를 달성하고 역량 기반 평가 결정을 개선하기 위해 CCC에 권장되는 세 가지 "중점 영역"을 강조합니다.
At the same time, however, in several ways, CCCs are failing to support—and sometimes distinctly undermining—the three stated goals.51,53,60 Table 1 outlines current obstacles and key enablers to achieving the three CCC goals. We will explore these obstacles and highlight three recommended “focus areas” for CCCs as they aim to meet the proposed goals and enhance competency-based assessment decisions.


CCC 목표 달성을 위한 주요 장애물 및 권장 집중 영역
Key Obstacles and Recommended Areas of Focus to Achieve CCC Goals

중점 영역 #1: 평가 및 역량 기반 발전의 공유 모델을 통해 우수자뿐만 아니라 모든 교육생의 역량 개발을 평가하고 촉진합니다.50,56
Focus Area #1:
 Assess and promote the development of competency in all trainees, not just outliers, through a shared model of assessment and competency-based advancement 50,56

CCC는 역량 달성을 향한 각 교육생의 발달 궤적을 알려주는 모든 평가를 검토하고 종합하여 이 정보를 교육생에게 제공해야 합니다. 그런 다음 교육생은 CCC의 결정과 피드백을 사용하여 2년에 한 번씩 열리는 회의에서 프로그램 리더십과 함께 개별화된 학습 계획을 공동 작성할 수 있으며, 코치의 참여가 필요할 수도 있습니다. 24 p. 44-45,50
The CCC should review and synthesize all assessments that inform each trainees’ developmental trajectory towards achievement of competency and provide this information to trainees.
 Trainees can then use determinations and feedback from the CCC to co-produce an individualized learning plan with program leadership during bi-annual meetings, potentially with participation of a coach. 24 p. 44-45,50

특히 레지던트 수가 많은 많은 CCC는 주로 어려움을 겪고 있는 소수의 레지던트인 아웃라이어에 초점을 맞추고 있습니다. Hauer와 동료들은 캘리포니아에 있는 5개 공공 기관의 34개 레지던트 프로그램에서 CCC의 구조와 기능을 평가했습니다.60 프로그램 디렉터와의 반구조화된 인터뷰를 통해 대부분의 CCC가 모든 수련의의 개별적인 요구를 해결하기 위해 [발달적 접근 방식]을 사용하기보다는, 주로 어려움을 겪는 수련의에게 초점을 맞추는 [이상치 접근 방식]을 취하고 있음을 발견했습니다.60 슈마허와 동료들은 [어려움을 겪는 소아과 훈련생]을 식별하는 구조를 개발했지만 [반대쪽 극단, 즉 예외적으로 뛰어난 훈련생]을 식별하는 프로세스도 개발할 필요가 있다고 지적했습니다.36 이러한 접근 방식은 CCC가 고려하는 더 많은 훈련생을 포함할 수 있지만, [각 개인에 대한 철저한 평가]를 통해 [상대적 강점 또는 약점]에 대한 [세분화된 주제별 피드백을 제공]하여 [진행중인 수련에 정보를 주거나 자기 평가 능력을 개선]하기에는 여전히 부족한 부분이 있습니다.
Many CCCs, especially those with large numbers of residents, focus primarily on outliers, those few residents who are struggling. Hauer and colleagues evaluated the structure and function of CCCs in 34 residency programs at 5 public institutions in California.60 Using semi-structured interviews with program directors, they found the majority of the CCCs had an outlier approach, focusing primarily on struggling trainees rather than using a developmental approach to address the individual needs of all trainees.60 Schumacher and colleagues developed a structure for identification of the struggling pediatric trainee but noted the need to also develop a process to identify outliers at the other extreme—the exceptional trainee.36 While this approach would include more trainees under the CCC’s consideration, it still falls short of a thorough assessment of each individual to provide granular, thematic feedback about their areas of relative strength or weakness to inform ongoing training or refine the self-assessment capabilities.

모든 교육생 평가를 개별화하지 못하면 입증된 역량을 고려하지 않고, [모든 교육생에게 동일한 마일스톤 하위 역량 점수를 부여하는 "한줄긋기 채점"]으로 이어져 마일스톤 평가 프로세스가 약화되는 경우도 있습니다.52,61 이는 CCC가 [CCC 프로세스 및 기능에 대한 공유 모델이 부족]할 때 [더욱 악화]되며, 이러한 이상치 식별 및 한줄긋기 채점 규범이 확립되면 깨뜨리기 어렵습니다.50 [교육을 최적화하려는 목적 하에, 각 전공의의 발달 상태를 파악하고 설명하기 위해], CCC는 먼저 각 전공의를 검토하고 수련생이 프로그램 리더십과 함께 ILP를 공동 제작하는 데 사용할 수 있는 [총괄적 피드백]을 제공하기 위한 [공유 모델과 약속을 수립]해야 합니다.5,24,50,55,56,58,60,62 성별, 인종, 민족 및 기타 형태의 인지적 편견에 관한 편견을 포함하여 CCC 평가에 잠재적으로 영향을 미칠 수 있는 편견을 완화하기 위해서는 CCC 멤버들을 위한 교수진 개발이 필수적입니다.53,63,64 CCC는 멤버들의 다양성에 대해 신중하게 생각하고 공정하고 편견 없는 위원회 토론과 결정을 보장하기 위해 효과적인 그룹 과정의 과학을 통합하도록 권장됩니다.25,26
The failure to individualize all trainee assessments has in some cases led to “straight line scoring,” where all trainees are assigned the same milestone sub-competency score, rather than considering demonstrated competency, undermining the milestone evaluation process.52,61 This is compounded when CCCs lack a shared model on CCC process and function; these norms of outlier identification and straight-line scoring become established, and then are hard to break.50 In order to discern and describe the developmental status of each resident for the purpose of optimizing their education, the CCC must first establish a shared model and commitment to reviewing each individual resident and providing summative feedback that can be used by trainees to co-produce an ILP with program leadership.5,24,50,55,56,58,60,62 Faculty development for CCC members is essential to mitigate biases that could potentially influence CCC ratings, including bias regarding gender, race, ethnicity, and other forms of cognitive bias.53,63,64 CCCs are encouraged to think deliberately about the diversity of their membership and incorporate the science of effective group processes to ensure fair, unbiased committee discussions and decisions.25,26

중점 영역 #2: 수련의의 독립 수련 준비 상태 판단(및 촉진)을 위한 CCC 평가 및 코칭 프로세스 강화.
Focus Area #2:
 Strengthen CCC assessment and coaching processes for the determination (and promotion) of trainee readiness for independent practice

CCC는 [직접 관찰, 다양한 출처의 평가 및 피드백, 역량 코칭, 전문분야별 마일스톤에 대한 총괄 평가]를 통해 수집된 [작업장 기반 형성 평가]와 함께 [형성 평가와 총괄 평가 사이의 유용한 긴장]을 명시적으로 통합하도록 구성되어야 합니다.39,65,66 [코칭]은 [학습자 옹호자 역할]을 하는 사람이 [지원과 지도를 제공]하는 것입니다.67,68 코칭은 연수생을 직접 관찰하고 역량 영역에서 구체적인 피드백을 제공하여 연수생이 역량과 독립 준비를 향한 마일스톤 궤적을 따라 움직일 수 있는 기회를 제공합니다. 
The CCC should be structured to explicitly incorporate the useful tension between formative and summative assessment, with workplace-based formative assessment gathered through direct observation, multi-source evaluation and feedback, competency coaching, and summative assessment on the specialty-specific Milestones.39,65,66 Coaching is the provision of support and instruction by someone acting as a learner advocate.67,68 Coaching provides the opportunity to directly observe trainees and provide specific feedback in an area(s) of competency, moving trainees along the Milestones trajectory towards competence and readiness for independence.

학부 및 대학원 의학교육에서 대부분의 코칭 프로그램은 [학생 및 수련의 경력 개발과 건강]에 중점을 두는 반면, [임상 술기 향상과 임상 역량 달성]을 목표로 하는 방법을 활용하는 코칭을 제공하는 프로그램은 거의 없습니다.30,67,68,69,70 또한 [형성적 코칭]과 [총괄 평가]의 [잠재적 상호보완성]에 대한 관심이 충분하지 않다고 가정합니다.69,71 R2C2[관계 구축, 반응 탐색, 내용 탐색, 변화 코칭] 모델은 여러 전문과목에서 검증되었으며 환자 치료, 임상 술기, 역량 성취에 초점을 맞춘 [종단적 코칭과 "순간적" 코칭] 모두에 대한 구체적인 전략을 제공합니다.67,69,71,72 R2C2 모델과 같은 코칭 모델은 코치와 레지던트 간의 개인적인 관계 형성과 [긍정적인 상호작용]을 강조함으로써 [한편으로는 코칭과 다른 한편으로는 평가의 필요성 사이의 긴장]을 관리하기 위해 노력합니다.24,30,67,68,73,74 코치가 [CCC에서 평가자와 코치의 이중 역할]을 수행할 때, 이는 신뢰와 코치로서의 후속 능력을 약화시킵니다.65,75 설계에 근거한 것이 아니라 임상 환경의 개별 수련의와의 우연한 교차점에 근거하여 동일한 CCC 구성원이 코치와 평가자의 관점을 모두 제공하는 경우가 종종 있습니다; 우리는 이 두 가지 역할이 뚜렷하고 개별화된 관점을 제공할 수 있는 다른 사람이 수행하도록 옹호합니다.30,65,75 "보타이 프레임워크"는 CCC 과정에서 레지던트, 역량 코치, 평가자의 역할과 책임을 설명합니다(그림 1). 
The majority of coaching programs in both undergraduate and graduate medical education focus on student and trainee career development and wellness while few programs offer coaching that utilizes methods aimed to enhance clinical skills and achieve clinical competence.30,67,68,69,70 Further, we postulate that insufficient attention is paid to the potential complementarity of formative coaching and summative assessment.69,71 The R2C2 [build relationships, explore reactions, explore content, and coach for change] model has been validated across specialties and offers specific strategies for both longitudinal and “in-the-moment” coaching focused on patient care, clinical skills, and competency achievement.67,69,71,72 Coaching models such as the R2C2 model strive to manage the tension between coaching on the one hand and the need for evaluation on the other, by emphasizing creation of a personal relationship and positive interactions between the coach and resident.24,30,67,68,73,74 When coaches serve a dual role of both evaluator and coach on the CCC, this undermines trust and their subsequent ability to serve as a coach.65,75 Frequently, the same CCC member provides both a coach and evaluator perspective, not based on design but on coincidental intersection with individual trainees in the clinical environment; we advocate for these roles to be served by different persons who can provide distinct and individualized perspectives.30,65,75 The “Bow Tie Framework” delineates the roles and responsibilities of the resident, competency coach, and evaluator in the CCC process (Fig. 1).

초점 영역 #3: 학습 요구 사항을 파악하기 위해 각 교육생이 정보에 입각한 자가 평가를 장려합니다.
Focus Area #3:
 Promote informed self-assessment by each trainee to identify learning needs

훈련생들의 [정보에 기반한 자기평가]는 CCC 과정의 중요한 구성 요소가 되어야 합니다.
Resident-informed self-assessment should be a celebrated component of the CCC process.

자기 성찰의 중요성에 대한 인식이 높아지고 있음에도 불구하고, CCC 구조는 [레지던트의 자기 평가 기술 개발]과 [각 전문과목에서 정한 인정 기준] 사이의 [변증법dialectic을 축하하고 장려하는 메커니즘]이 제대로 개발되지 않은 경우가 많습니다.28,29,76,77 자기 조절 학습과 전문적 책임감은 모두 우수한 치료를 제공하기 위해 추가 지식, 향상된 기술 또는 직접적인 도움이 필요한 시점을 인식하는 데 달려 있습니다. 따라서 독립적 의료행위의 핵심 전제조건은 경험과 입증된 기술의 집합뿐만 아니라 특히 지속적으로 진화하는 전문직 표준과 관련하여 격차와 기회를 인식하는 능력입니다.27,31,78,79,80,81 [자기평가]와 [성찰적 실천]은 프로그램의 문화에 장려되고 통합될 수 있는 실천 기술이라는 인식이 증가하고 있습니다.1,2,28,29,31,33,78,81,82 예를 들어, [메타인지][적응적 전문성]을 강조해야 한다는 요구는 [정보에 입각한 자기평가][자기 모니터링]의 중요성을 명시적으로 지적합니다.1,83,84,85,86,87 자신의 한계를 판단하는 능력인 [분별력]은 [신뢰성의 핵심 요소]이며, 현대 보건전문직 평가 프레임워크에서 강조되고 있는 또 다른 핵심 요소입니다.32,88,89
Despite the growing appreciation for the importance of self-reflection, CCC structures often have under-developed mechanisms for celebrating and encouraging a dialectic between the resident’s developing skill of self-assessment and the recognized standards set forth by each specialty.28,29,76,77 Self-regulated learning and professional accountability both depend on recognizing when one needs additional knowledge, enhanced skill, or direct assistance in order to deliver excellent care. Thus, a key prerequisite for independent practice is not only a collection of experience and demonstrated skills but also the ability to recognize gaps and opportunities, especially in regard to continually evolving professional standards.27,31,78,79,80,81 There is increasing recognition that self-assessment and reflective practice are practiced skills that can be encouraged and incorporated into a program’s culture.1,2,28,29,31,33,78,81,82 For example, calls for an increased emphasis on meta-cognition and adaptive expertise explicitly point to the importance of informed self-assessment as well as self-monitoring.1,83,84,85,86,87 Discernment, the ability to judge one’s limits, is a key component of entrustability, another increasing emphasis in modern health professions assessment frameworks.32,88,89

우리는 CCC가 레지던트가 스스로 결정한 마일스톤 등급을 CCC 사후 회의의 등급과 비교하는 대신, [레지던트의 마일스톤 자기 평가]를 [CCC 심의의 일부로 통합]하는 [표준 프로세스]를 채택할 것을 제안합니다.77 이는 연수생의 관점을 CCC에 통합하고 연수생이 자신이 선택한 전문분야의 역량 발전 궤적을 인지하도록 하는 역할을 합니다.76,77 CCC는 [현저한 불일치를 해결하기 위한 메커니즘]을 마련해야 하며, 이는 [연 2회 프로그램 디렉터-연수생 회의][연수생의 ILP 공동 제작 과정]에서 논의될 수 있고 논의되어야 합니다.24,62
We suggest that CCCs adopt a standard process of incorporating resident Milestone self-evaluation as part of the CCC deliberations instead of having trainees compare their self-determined Milestone ratings to those of the CCC post meeting.77 This serves to incorporate the trainee perspective into the CCC and ensures the trainee is aware of the trajectory of competence progression in their chosen specialty.76,77 CCCs will need to have a mechanism in place to address marked discrepancies, which can and should be discussed during the bi-annual program director-trainee meeting and during the process of co-producing the trainee’s ILP.24,62

또한, [개별화된 학습 계획ILP]은 수련의와 프로그램 교수진에게 역량을 향한 [미래 지향적 관점] 또는 로드맵을 통해 [단기 및 장기 목표]를 모두 정의하는 과정을 제공합니다.24,54,62 Li와 동료들의 연구에 따르면 소아과 전공의의 실행 가능한 목표 작성 능력이 레지던트 수련 과정에서 크게 향상되었습니다.31 추가 연구는 코칭과 ILP에 해당하는 학습 변화 계획의 사용에 중점을 두었습니다.90

  • [이상치 식별 모델]에서 CCC 데이터는 소수의 이상치만을 식별하고 맞춤화하는 데 사용됩니다.60 이 전공의에게 문제가 확인되었나요? 그렇지 않다면 표준화된 프로그램을 계속 진행할 수 있습니다. 문제가 확인된 경우에만 평가 및 교육 계획에 대한 개별화된 접근 방식이 취해집니다.
  • [미래지향적인 ILP 관점]에서는 데이터를 사용하여 문제를 식별할 뿐만 아니라, 각 레지던트가 각 역량 또는 이정표를 달성할 수 있는 시기와 방법을 매핑하여 ["앞서가는" 학습자]를 포함하여 각 학습자의 개발을 최적화하기 위한 최선의 경로를 계획하는 데 도움을 줍니다.36 그런 다음 CCC의 의견을 바탕으로 모든 레지던트가 ILP를 공동 제작하여 이 목표를 실현하는 데 사용됩니다.24,54,62,90

Further, individualized learning plans offer trainees and program faculty a process to define both short- and long-term goals through a forward-looking lens or roadmap towards competence.24,54,62 A study by Li and colleagues found that pediatric residents’ ability to write actionable goals significantly improved over the course of residency training.31 Additional studies have focused on coaching and the use of learning change plans, an ILP equivalent.90 

  • Under an outlier identification model, CCC data is used to identify and customize the learning plans of only a small number of outliers.60 Have problems with this resident been identified? If not, then they can carry on in a standardized program. An individualized approach to assessment and educational planning is taken only if problems are identified.
  • Under a forward-looking, ILP perspective, data are used not only to identify problems, but to map when and how each competency or milestone can be achieved by each resident, helping to chart the best path forward to optimize each learner’s development, including those “ahead of the curve.”36 Co-production of an ILP by every resident, based on the input of the CCC, is then used to actualize this objective.24,54,62,90

[ILP 프로세스]는 종단적 학습 궤적에 중점을 두는 등 레지던트의 남은 예정된 활동에 비추어 기존 데이터를 세밀하게 검토하게 합니다. [역량 기반 진급]을 활용하거나 [CB-TV GME 졸업]을 시범적으로 준비하는 프로그램의 경우, 각 레지던트의 [적절한 졸업 날짜를 결정하는 것]은 레지던트와 프로그램 모두에게 위험과 기회를 수반합니다.7,16,21,22,23,91,92,93 이러한 역동성은 [데이터 수집과 해석이 투명하고 완전히 명문화되도록 보장]하는 데 긍정적인 힘이 될 수 있습니다. 각 개별 전공의의 ILP에는 [관련 데이터 기반 예측]이 포함되어야 하며, [단기 및 장기 실행 가능한 목표]를 모두 만들어야 합니다. 이러한 데이터 기반 ILP 프로세스는 시간 가변 졸업 날짜 시범 운영 여부와 관계없이 모든 프로그램에 도움이 된다고 확신합니다.
The ILP process leads to finer-grained examination of the existing data in the light of the resident’s remaining scheduled activities, including an emphasis on longitudinal learning trajectories. For programs utilizing competency-based advancement or preparing to pilot CB-TV GME graduation, determining each resident’s appropriate graduation date involves risk and opportunity for both the resident and the program.7,16,21,22,23,91,92,93 This dynamic can be a positive force for ensuring that data collection and interpretation is transparent and fully codified. Each individual resident’s ILP should include relevant data-driven predictions, creating both short- and long-term actionable goals. We assert that this data-driven ILP process is beneficial to all programs regardless of whether they are piloting a time-variable graduation date.

목표 연결: 모든 이해관계자의 역량 강화 기술로서의 데이터 관리
Connecting the Goals: Data Management as an Enabling Skill of All Stakeholders

목표를 달성하기 위해 CCC는 효과적인 메커니즘을 활용하여 광범위한 데이터를 수집하고, 데이터의 품질과 충분성을 모두 분석하며, 강력한 보고 메커니즘을 개발해야 합니다. ACGME CCC 가이드북에는 관리 업무를 관리하기 위한 권장 사항이 포함되어 있으며 CCC의 각 구성원에 대한 역할과 책임을 정의합니다. 24 p14-16;18-22 모든 GME 프로그램은 강력한 평가를 활용해야 하지만, 입증된 역량을 기반으로 근거에 기반한 졸업 결정을 내려야 하는 필요성을 고려할 때 시간 가변 교육은 평가를 강화하는 데 더 시급한 자극을 제공합니다. 21,22,56,93
To accomplish its goals, the CCC must utilize effective mechanisms to collect a wide range of data, analyze both its quality and sufficiency, and develop robust reporting mechanisms. The ACGME CCC Guidebook includes recommendations to manage administrative tasks and defines the roles and responsibilities for each member of the CCC.
 24 p14-16;18-22 While all GME programs must utilize robust assessment, time-variable training provides a more urgent stimulus to strengthen assessment, given the necessity of making evidence-based graduation decisions based on demonstrated competency. 21,22,56,93

다음은 [CCC 프로세스를 강화하기 위한 권장 사항]입니다:
The following are recommendations to strengthen the CCC process:

a)데이터 과부하를 피하기 위해 회의를 충분히 자주 개최합니다. 회의를 더 자주 개최하면 순환 기반 평가가 수개월의 지연 없이 완료되고 적시에 우려 사항을 해결하는 데 도움이 될 뿐만 아니라 학습과 일치하는 시간 척도에 따라 발달 요구 사항이 해결되도록 보장하는 데 도움이 될 수 있습니다.
Hold meetings frequently enough to avoid data overload. More frequent meetings should also help to ensure that rotation-based assessments are completed without many months of delay and can help address concerns in a timely fashion, as well as ensuring that developmental needs are addressed on a timescale consistent with the learning.

b) CCC 구성원에게 [데이터를 검토하고 보고할 관리 가능한 [전공의 하위 집합]을 할당하거나, 모든 전공의 데이터를 검토하는 [역량 하위 집합]을 할당하여] 업무량을 분산합니다. 이 두 가지 관점은 상호 보완적입니다.
Parse the workload by assigning CCC members a manageable subset of residents whose data they review and report on—or, alternatively a subset of competencies for which they review all resident data. These two perspectives are complementary.

c)형성적 평가와 종합적 평가를 통합하는 다중 소스 데이터를 활용하고, 가능한 경우 임상 결과 데이터를 통합합니다.
Utilize multi-source data that incorporate formative and summative assessments, incorporating clinical outcomes data when available.

d)데이터 시각화를 사용하여 개인 또는 프로그램 추세를 강조합니다.94,95 [CCC가 어느 정도로 레지던트 프로그램 책임자의 내부 지식 없이도 업무를 수행할 수 있는지]는 프로그램의 일상적인 기능을 보완적으로 점검하는 역할을 할 수 있는 능력을 측정하는 척도입니다. CCC 운영을 지원하는 [이상적인 정보 시스템]에는 개별 관찰부터 개별 레지던트 성취도 요약, 프로그램 수준의 통합 디스플레이에 이르기까지 모든 영역을 실행할 수 있는 데이터 포트폴리오가 포함됩니다. 
Use data visualizations to highlight individual or programmatic trends.94,95 The degree to which a CCC can carry out its work without the inside knowledge of the residency program director is a measure of its ability to serve as a complementary check on the day-to-day functioning of the program. An ideal information system to support CCC operation includes a data portfolio that can run the gamut from individual observations, through summations of individual resident achievement, to integrative displays at the program level.

그림 2에 표시된 히트 맵은 앞서 설명한 각 CCC 목표에 대한 관점을 제공할 수 있습니다.

  • 각 열은 한 명의 레지던트를 나타내므로 비주얼리제이션에 프로그램의 모든 레지던트를 표시할 수 있습니다.
  • 각 행은 단일 마일스톤 하위 역량(또는 EPA)을 나타내므로 열을 합치면 해당 전문과목의 역량 모델 전체를 나타냅니다.
  • 각 셀은 개별 레지던트가 해당 역량에서 어떤 성과를 거두고 있는지를 나타내며, 색상의 온도는 5점 척도의 종단적 성취도를 나타냅니다.

따라서 이 표현은 레지던트를 수련 단계별로 정렬한 경우 레지던트 간 변동성을 한 눈에 파악할 수 있도록 프로그램의 현재 상태를 요약하여 보여줍니다. 역량 요소 간의 가변성은 각기 다른 성취율과 함께 표시됩니다. 분명히 어떤 역량은 다른 역량보다 개발하기 쉽습니다. 분명히 어떤 레지던트는 다른 레지던트보다 역량 개발이 더 진척된 상태입니다. 이 시각화는 모든 거주자 및 전체 역량 모델에 걸쳐 CCC의 광범위한 사명과 일치합니다. 한 가지 더 보완할 수 있는 것은 입주자의 자가 평가 데이터를 동일한 그리드에 표시하는 것입니다.
Consider the heat map shown in Figure 2 which can provide a perspective on each of the CCC goals we have described.

  • Each column represents a single resident, and so, the visualization can show all residents in the program.
  • Each row represents a single Milestone sub-competency (or EPA) so that the columns taken together represent the entirety of the competency model for the specialty.
  • Each cell represents how that individual resident is doing on that individual competency, with the temperature of the color suggesting a five-point scale of longitudinal achievement.

As such, the representation provides a summary of the current state of the program, with the between-resident variability manifest at a glance, especially if the residents are ordered by stage of training. The variability between competency elements is also on display with their differing rate of achievement. Clearly, some competencies are easier to develop than others. Clearly, some residents are further along in their development than are others. The visualization is consistent with the breadth of the CCC’s mission, across all residents and across the entire competency model. A further embellishment would be to represent resident self-assessment data on the same grid.


이 예는 정적 시각화입니다. 이상적으로는 구성원들이 데이터에 대한 여러 보기를 고려하고 필요한 경우 마일스톤 진행 상황의 현재 추정치를 결정하는 세부 데이터까지 드릴다운할 수 있는 [동적 대시보드]가 CCC를 지원합니다.94,95,96 여기서 중요한 점은 CCC가 사용 가능한 [평가 데이터의 충분성]을 평가할 수 있다는 것입니다.

  • 어떤 데이터가 누락되었나요?
  • 누락된 이유는 무엇인가요?
  • 프로그램 수준의 질 개선(QI)에 시사점이 있습니까?
  • 아니면 해당 레지던트에 대한 구체적인 시사점이 있나요?

평가에 대한 통제권이 자율적인 레지던트 학습자에게 기울어져 있기 때문에 학습자가 필요한 성취 증거를 수집하는 측면에서 프로그램 기대치를 충족할 수 있는 정도는 자체 데이터 포인트가 될 수 있습니다. CCC 데이터 시각화는 전체 프로그램 수준의 맵을 제공하고 [개별 데이터 포인트 수준]까지 드릴다운할 수 있도록 CCC 회의 내에서 [동적으로 액세스]할 수 있도록 설계되어야 합니다.
Our example is a static visualization. Ideally, CCCs are supported by dynamic dashboards which allow the members to consider multiple views on the data, drilling down when necessary, to the granular data that determine the current estimate of milestone progression.94,95,96 An important point here is that the CCC can assess the sufficiency of the evaluation data available to it.

  • What data is missing?
  • Why is it missing?
  • Are there program-level quality improvement (QI) implications?
  • Or specific implications for this resident?

As the locus of control for assessment is tilted towards a self-regulated resident learner, the degree to which the learner is able to meet the program expectations in terms of collecting the necessary evidence of achievement may be its own datapoint. CCC data visualizations should be engineered to allow dynamic access within the CCC meeting to provide both an overall program-level map, and to drill down to the individual data point level.



이 글에서는 [모든 레지던트]에게 정기적으로 적용되어야 하는 세 가지 핵심 CCC 목표를 제안했습니다.

  • (1) 교육을 최적화하기 위한 발달 상태 파악 및 설명,
  • (2) 무감독 실습 준비 상태 판단,
  • (3) 자기 평가 능력 배양

이러한 목표를 실현하기 위해 CCC 프로세스를 개선하기 위한 중점 영역으로 다음과 같은 사항을 권장했습니다.

  • 공유된 평가 및 역량 기반 발전 모델을 통해 우수자뿐만 아니라 모든 연수생의 역량 개발을 평가하고 촉진하며,
  • 연수생의 독립적 의료행위 준비 상태를 판단하기 위해 CCC 평가 프로세스를 강화하고,
  • 각 연수생의 학습 요구에 대한 정보에 입각한 자기 평가를 장려합니다.

In this article, we have proposed three core CCC goals that must be regularly applied to every resident:

  • (1) discern and describe developmental status to optimize education,
  • (2) determine readiness for unsupervised practice, and
  • (3) foster self-assessment ability.

We have recommended areas of focus to enhance the CCC process to actualize these goals including the following:

  • assess and promote the development of competency in all trainees, not just outliers, through a shared model of assessment and competency-based advancement;
  • strengthen CCC assessment processes to determine trainee readiness for independent practice; and
  • promote informed self-assessment of each trainees’ learning needs.

우리는 [코칭]을 통한 [형성적 피드백 제공]을 강조했으며, 강력한 [직장 기반 다중 소스 평가]를 통해 [개별화된 학습 계획]의 [공동 제작]과 연결된 [각 연수생의 발달 궤도에 대한 CCC의 결정]에 정보를 제공하는 것이 중요하다는 점을 강조해왔습니다. 또한 각 교육생의 역량 궤적에 대한 포괄적인 개요를 제공하여 강점과 성장 영역을 모두 파악할 수 있는 데이터 시각화의 중요성을 강조합니다.
We have emphasized the importance of providing formative feedback through coaching and robust workplace-based multi-source assessments to inform the CCC’s determination of the developmental trajectory of each trainee coupled with co-production of an individualized learning plan. Further, we emphasize the importance of data visualizations to provide a comprehensive overview of each trainee’s competency trajectory, noting areas of both strength and growth.

[교육기관과 프로그램]은 교육생 평가가 [중요critical]하고 [리소스 집약적인 과정]임을 인식하고, 그에 따라 우선순위를 정하고 자금을 지원해야 합니다. 참여하는 교수진은 적절한 교육을 받고 노력에 대한 보상을 받아야 합니다.64 또한 평가 참여는 [교수진의 학술적 발전에 기여]할 수 있으며, 또 다른 중요한 인센티브를 제공할 수 있습니다(그리고 그래야 합니다). [효과적인 평가를 지원하기 위한 성공적인 전략이 전파]되어야 합니다. 역량 기반 의학교육은 개별화된 진로를 촉진하며, 프로그램의 시간 가변적 진급 계획 여부에 관계없이 유연한 교육 시스템을 필요로 합니다.6,97
Institutions and programs must recognize that trainee assessment is a critical and resource-intensive process and must prioritize and fund it accordingly. Participating faculty should be appropriately trained and compensated for their effort.64 In addition, engagement in assessment may (and should) contribute to the academic advancement of faculty, providing another important incentive. Successful strategies to support effective assessment should be disseminated. Competency-based medical education promotes individualized pathways and requires flexible educational systems regardless of whether programs plan for time-variable advancement.6,97

전반적으로, 우리는 역량 기반 진급을 위해 "지금까지 어떻게 해왔습니까?"가 아니라 "우리가 당신에 대해 알고 있는 것을 고려할 때, 앞으로의 궤도를 최적화하는 데 어떻게 도움을 줄 수 있습니까?"라는 미래 지향적인 사고방식을 장려하고 있습니다. ACGME는 CCC가 이러한 목표를 실현할 수 있는 구조와 프레임워크를 제공했지만, 개별 프로그램은 역량 기반 의학교육 및 발전에서 CCC의 역할을 수행하기 위해 도구를 개념화하고 강화하며 프레임워크를 맞춤화해야만 잠재력을 실현할 수 있습니다.
Overall, we are promoting a forward-looking mindset in service of competency-based advancement, one where the question is not “how have you done until now?” but rather “given what we know about you, how can we help optimize your forward trajectory?”. The ACGME has provided the structure and framework for CCCs to actualize these goals, yet individual programs must conceptualize and strengthen the tools and personalize the framework to realize the potential of the CCC in fulfilling its role in competency-based medical education and advancement.



J Gen Intern Med. 2022 Jul;37(9):2280-2290. doi: 10.1007/s11606-022-07515-3. Epub 2022 Apr 20.
Reimagining the Clinical Competency Committee to Enhance Education and Prepare for Competency-Based Time-Variable Advancement
Affiliations collapse

1Massachusetts General Hospital, Boston, MA, 02114, USA.

2Mass General Brigham, Boston, MA, USA.

3Harvard Medical School, Boston, MA, USA.

4Massachusetts General Hospital, Boston, MA, 02114, USA.

5Harvard Medical School, Boston, MA, USA.

6Boston Children's Hospital, Boston, MA, USA.

7Mass General Brigham, Boston, MA, USA.

8University of Michigan Medical School, Ann Arbor, MI, USA.

9Michigan Medicine, Ann Arbor, MI, USA.

PMID: 35445932

PMCID: PMC9021365

DOI: 10.1007/s11606-022-07515-3

Free PMC article


Assessing residents and clinical fellows is a high-stakes activity. Effective assessment is important throughout training so that identified areas of strength and weakness can guide educational planning to optimize outcomes. Assessment has historically been underemphasized although medical education oversight organizations have strengthened requirements in recent years. Growing acceptance of competency-based medical education and its logical extension to competency-based time-variable (CB-TV) graduate medical education (GME) further highlights the importance of implementing effective evidence-based approaches to assessment. The Clinical Competency Committee (CCC) has emerged as a key programmatic structure in graduate medical education. In the context of launching a multi-specialty pilot of CB-TV GME in our health system, we have examined several program's CCC processes and reviewed the relevant literature to propose enhancements to CCCs. We recommend that all CCCs fulfill three core goals, regularly applied to every GME trainee: (1) discern and describe the resident's developmental status to individualize education, (2) determine readiness for unsupervised practice, and (3) foster self-assessment ability. We integrate the literature and observations from GME program CCCs in our institutions to evaluate how current CCC processes support or undermine these goals. Obstacles and key enablers are identified. Finally, we recommend ways to achieve the stated goals, including the following: (1) assess and promote the development of competency in all trainees, not just outliers, through a shared model of assessment and competency-based advancement; (2) strengthen CCC assessment processes to determine trainee readiness for independent practice; and (3) promote trainee reflection and informed self-assessment. The importance of coaching for competency, robust workplace-based assessments, feedback, and co-production of individualized learning plans are emphasized. Individual programs and their CCCs must strengthen assessment tools and frameworks to realize the potential of competency-oriented education.

Keywords: COVID-19; Milestones; clinical competency committee; competency-based advancement; competency-based medical education; individualized learning plan; time-variable graduate medical education.

가정의학 전공의교육 및 CPD에서 역량중심의학교육 용어의 개념화: 스코핑 리뷰(Acad Med, 2020)
Conceptualization of Competency-Based Medical Education Terminology in Family Medicine Postgraduate Medical Education and Continuing Professional Development: A Scoping Review
Heather Lochnan, MD, FRCPC, Simon Kitto, PhD, Natalia Danilovich, MD, MSc, PhD, Gary Viner, MD, Allyn Walsh, MD, CCFP, Ivy F. Oandasan, MD, CCFP, MHSc, and Paul Hendry, MD, MSc, FRCSC 


역량 기반 의학교육(CBME)은 교육 프로그램의 설계, 실행 및 평가에 역량 기반 접근 방식을 취하는 성과 기반 교육입니다. CBME는 체계적인 역량 프레임워크를 사용하므로 환자를 더 잘 치료할 수 있을 것으로 기대됩니다.1 CBME의 장점과 캐나다 가정의학회(CFPC) 및 의학전문대학원 인증위원회(ACGME)와 같은 학술 인증 기관의 노력에도 불구하고 이 접근 방식을 촉진하기 위한 장벽은 여전히 남아 있습니다. 한 가지 장벽은 규제기관, 교육자 및 기타 의학교육 관계자들이 사용하는 [CBME 언어의 불일치]입니다.2-5 많은 저자들은 CBME 시행자가 사용하는 용어가 매우 다양하여 혼란을 야기하고 이로 인해 협력과 보건 전문직 교육의 발전이 제한된다고 지적했습니다.6 -8 서로 다른 언어는 CBME에 대한 공유된 정신 모델과 "전문가" 의사가 되기 위한 궤적을 형성하는 데 방해가 됩니다.9 일부 저자는 역량, 역량, 역량 프레임워크에 대한 의미론이 연구 의제 개발1,10 과 평가 관행 개선의 주요 장애물 중 하나라고 제안했습니다.2,11 
Competency-based medical education (CBME) is outcomes-based training that takes a competency-based approach to the design, implementation, and evaluation of an educational program. CBME uses an organized framework of competencies, which is expected to lead to better care for patients.1 Despite the advantages of CBME and efforts by academic accreditation agencies, such as the College of Family Physicians of Canada (CFPC) and the Accreditation Council for Graduate Medical Education (ACGME), to promote this approach, barriers to its adoption and evaluation remain. One barrier is inconsistency in the language of CBME used by regulators, educators, and others in medical education.2–5 Many authors have noted that the widely varying terminology used by CBME implementors leads to some confusion and thereby limits both collaboration and the advancement of health professions education.6–8 The divergent language prevents formation of a shared mental model of CBME and the trajectory to becoming an “expert” physician.9 Some authors have suggested that semantics around competence, competencies, and competency frameworks may be one of the main obstacles to developing a research agenda1,10 and to improving assessment practices.2,11

의사의 지식, 기술, 태도, 행동의 평생 향상을 통해 의료의 질과 환자 안전을 개선하기 위한 이상적인 접근법으로 학부 의학교육(UME), 대학원 의학교육(PGME), 지속적인 전문성 개발(CPD)에 걸쳐 CBME 연속체를 구현하는 것이 제안되어 왔습니다.1,7,12 그러나 CBME의 성공적인 도입을 위해서는 [CBME와 관련된 어휘 사용의 일관성]을 확보해야 합니다.5,9,13 의학교육 문헌에서 CBME 용어가 광범위하게 사용되고 있음에도 불구하고 일관된 정의가 부족합니다. 
Implementing a CBME continuum throughout undergraduate medical education (UME), postgraduate medical education (PGME), and continuing professional development (CPD) has been proposed as the ideal approach to improve health care quality and patient safety via lifelong enhancement of physicians’ knowledge, skills, attitudes, and behaviors.1,7,12 Yet to ensure successful adoption of CBME, consistency needs to be fostered in the use of the vocabulary associated with CBME.5,9,13 Despite the extensive use of CBME terminology in the medical education literature, consistent definitions are lacking.

이 검토의 목적상, 우리는 주로 가정의학 CPD에서 CBME 용어의 사용에 관심이 있었습니다. 그러나 해당 연구는 상당히 제한적이기 때문에,14 CPD에 관련성이 있고 이전 가능한 지식을 식별할 수 있는 가능성을 바탕으로 가정의학 PGME를 포함하도록 초점을 넓혔습니다. 이러한 접근 방식을 선택한 이유는 향후 연구에서 모든 전문과목의 PGME 및 CPD 프로그램에 적용할 수 있는 광범위한 추론을 도출하는 데 도움이 되기 때문입니다. 
For the purpose of this review, we were interested primarily in the use of CBME terms in family medicine CPD. However, as that body of research is quite limited,14 we widened our focus to include family medicine PGME based on the possibility of identifying pertinent and transferable knowledge to CPD. We selected this approach to help us draw broad inferences that, in future research, may be applicable to PGME and CPD programs across all specialties.

캐나다와 미국에서 가정의학이 CBME를 가장 먼저 채택한 전문과목 중 하나이며15-19, 인구의 효과적인 치료에 있어 이 전문과목의 중요성이 점점 커지고 있다는 점을 고려할 때,20 이 범위 검토는 CBME가 더욱 광범위하게 발전함에 따라 의학교육 문헌에 시의적절하게 추가되었습니다. 우리는 CBME를 시행하고 연구하는 사람들이 CBME와 관련된 용어가 어떻게 정의되고 적용되는지 이해하는 것이 필수적이라고 믿습니다. 따라서 이 검토에서는 가정의학 PGME 및 CPD에서 CBME 시행과 관련된 문헌에 초점을 맞추기로 결정했습니다. 
Given that family medicine was one of the earliest adopters of CBME in Canada and the United States15–19 and the specialty is of increasing importance to the effective care of populations,20 this scoping review represents a timely addition to the medical education literature as CBME is being advanced more broadly. We believe that it is essential for those implementing and studying CBME to understand how terms associated with CBME are defined and applied. In this review, therefore, we decided to focus on the literature pertaining to CBME implementation in family medicine PGME and CPD.

또한, 모든 이해관계자 간의 의사소통을 개선하기 위해 가정의학에서 CBME와 관련된 어휘의 추가 발전(또는 일반적으로 사용되는 CBME 용어의 재정의)에 대한 합의가 필요합니다.6,7,21 본 검토의 목적은 미국과 캐나다 문헌에서 가정의학 PGME 및 CPD에서 CBME 시행과 관련된 주요 용어가 어떻게 사용되었는지 설명하기 위한 것이었습니다. 범위 검토 방법론을 사용하여 CBME 용어 사용에 있어 논문 간에 불일치 및/또는 유사점이 있는지 조사했습니다. 첫 번째 목표는 가정의학 관련 PGME 및 CDP 문헌에서 CBME 용어 사용의 정도, 범위, 성격, 즉 CBME 관련 용어의 개념화/의미를 조사하는 것이었습니다. 두 번째 목표는 이러한 CBME 용어의 정의에 사용된 주요 주제를 분석하는 것이었습니다. 
In addition, a need for consensus on further advancement in the vocabulary associated with CBME in family medicine (or redefinition of commonly used CBME terms) is required to improve communication among all stakeholders.6,7,21 The purpose of our review was to describe how key terms associated with CBME implementation in family medicine PGME and CPD have been used in the U.S. and Canadian literature. Using a scoping review methodology, we explored whether there were inconsistencies and/or similarities across articles in the use of CBME terminology. Our first objective was to examine the extent, range, and nature of the use of CBME terminology—that is, the conceptualization/meaning of CBME-related terms—in the PGME and CDP literature specific to family medicine. Our second objective was to analyze the dominant themes used in the definitions of these CBME terms.


범위 검토는 심도 있게 검토되지 않았거나 복잡한 주제에 대한 기존 문헌을 "매핑"하는 기법입니다.22-26 이 범위 검토의 방법론은 Arksey와 O'Malley22 가 제안한 프레임워크와 Tricco와 동료들이 제안한 후속 권고사항을 기반으로 했습니다.24 우리의 범위 검토에는 연구 질문 식별, 관련 연구 식별, 연구 선정, 데이터 차트 작성, 결과 대조, 요약 및 보고, 자문(선택적 단계) 등 6 단계가 포함되었습니다. 방법론적 엄격성을 높이기 위해 검토에 몇 가지 개선 사항을 도입했으며, 특히 자문을 첫 번째 단계이자 지속적인 단계로 추가했습니다. 

The scoping review is a technique to “map” existing literature on a topic that has not been reviewed in depth or that is complex in nature.22–26 The methodology for this scoping review was based on the framework suggested by Arksey and O’Malley22 and the subsequent recommendations proposed by Tricco and colleagues.24 Our scoping review included 6 stages: identifying the research questions; identifying relevant studies; study selection; charting the data; collating, summarizing, and reporting results; and consultation (an optional stage). To increase methodological rigor, we introduced some improvements in our review, most notably making consultation the first, and an ongoing, step.

1단계 지속적인 협의
Stage 1: Ongoing consultation

범위 검토 프로토콜 초안은 2017년 9월에 배포되어 전문가 패널(H.L., G.V., A.W., I.F.O.)의 피드백을 받고 필요에 따라 수정되었습니다. 이 저자들은 (1) 방법론 수립, (2) 검색 결과가 포괄적인지 평가, (3) 포함된 연구 검토 및 데이터 추출, (4) 새로운 주제 및 격차 논의, (5) 원고 초안 검토 등 5가지 중요한 지점에서 전문가로서 공식적으로 참여했습니다. 전문가 패널에 대한 추가 세부 정보는 다음과 같습니다.  
The scoping review protocol draft was circulated in September 2017 for feedback from our expert panel (H.L., G.V., A.W., I.F.O.) and modified, as necessary. These authors were formally engaged as experts at 5 critical points: (1) working out a methodology, (2) assessing search results to ensure they were comprehensive, (3) reviewing the included studies and extracting the data, (4) discussing emerging themes and gaps, and (5) reviewing manuscript drafts. Additional details about the expert panel are provided in Supplemental Digital Appendix 1 at

2단계: 연구 질문 파악
Stage 2: Identifying the research questions

우리의 범위 검토는 검색 전략의 선택을 결정한 두 가지 질문에 답하는 데 중점을 두었습니다22-24: 
Our scoping review focused on answering 2 questions, which determined our choice of search strategies22–24:

  1. 미국과 캐나다의 가정의학 PGME 및 CPD 프로그램에 대한 학술 연구에서 CBME 실행 용어가 개념화되고 논의되는 정도, 범위, 성격은 어떤가? 
  2. CBME 용어, 특히 역량 기반 의학교육, 역량 및 역량을 정의하는 데 사용되는 주요 요소/주제는 무엇인가요? 
  3. What is the extent, range, and nature of how CBME implementation terms are conceptualized and discussed in scholarly research on family medicine PGME and CPD programs in the United States and Canada?
  4. What are the dominant elements/themes used to define CBME terms, specifically competency-based medical education, competence, and competency?

3단계: 관련 연구 식별
Stage 3: Identifying relevant studies

검색 전략은 오타와 대학교 보건과학 사서와 협력하여 개발되었으며, 다양한 출처(전자 데이터베이스, 참고 문헌, 주요 학술지, 기관 웹사이트, 전문가 추천서)를 통해 근거를 검색했습니다.22 검색은 2000년 1월 1일(ACGME 결과 프로젝트가 1999년 시작)부터 2017년 4월 30일(검색일)까지 캐나다 또는 미국에서 출판된 영어 논문으로 제한되었습니다. 원본 연구, 리뷰, 사설, 논평 및 규제 관련 논문이 포함될 수 있었습니다. 
Our search strategy was developed in collaboration with the University of Ottawa health sciences librarian and involved searching for evidence via different sources (electronic databases, bibliographies, key journals, organization websites, and experts’ recommendations).22 The search was limited to English-language articles published from January 1, 2000 (as the ACGME Outcome Project started in 1999), to April 30, 2017 (the search date), and from Canada or the United States. Original research, reviews, editorials, commentaries, and regulatory articles were eligible for inclusion.

5개의 전자 데이터베이스인 Medline(OVID), ERIC(OVID), PsycINFO, Embase, Education Source(EBSCO)에서 CBME, 가정의학, 레지던트/PGME, CPD의 핵심 주제 영역에 대한 특정 검색어를 사용하여 검색했습니다. 2017년 3월 8일, 이 주제에 대한 논문을 찾고 출판된 문헌의 양을 파악하기 위해 PubMed에서 초기 검색을 실시했습니다. 초기 검색을 통해 관련 논문을 찾아냈으며, 이를 바탕으로 문헌 검색 전략에 포함할 의학 주제 제목(MeSH) 용어와 키워드를 조사했습니다. 이후 사서 및 전문가 패널과 협의하여 키워드를 수정하여 2017년 4월 검색에 사용했습니다. 검색 전략에는 주요 학술지(Academic Medicine, Canadian Family Physician, 가정의학, 보건 전문직 평생교육 저널)의 수동 검색과 식별된 논문의 서지 검색, 관련 국가 및 지역 기관의 웹사이트 검색도 포함되었습니다. 전체 검색 전략은 부록 디지털 부록 1에 제공됩니다. 
Five electronic databases—Medline (OVID), ERIC (OVID), PsycINFO, Embase, and Education Source (EBSCO)—were searched using specific search terms for the core topic areas of CBME, family medicine, residency/PGME, and CPD. On March 8, 2017, we conducted an initial search of PubMed to locate articles on this topic and to develop an understanding of the quantity of published literature. Our initial search identified relevant articles, which were examined for Medical Subject Headings (MeSH) terms and keywords for inclusion in our literature search strategies. The keywords were later revised in consultation with the librarian and the expert panel for use in the April 2017 searches. The search strategy also included manual searches of key journals (Academic Medicine, Canadian Family Physician, Family Medicine, Journal of Continuing Education in the Health Professions) and the bibliographies of identified articles, as well as searches of websites of relevant national and local organizations. The full search strategy is provided in Supplemental Digital Appendix 1 at

4단계: 연구 선택
Stage 4: Study selection

포함/제외 기준.
Inclusion/exclusion criteria.

연구 선택에 관한 의사 결정의 일관성을 보장하기 위해,22 6가지 주요 포함/제외 기준을 사용하여 관련 논문을 식별했습니다: 
To ensure consistency in decision making regarding the selection of studies,22 6 major inclusion/exclusion criteria were used to identify relevant articles:

  1. 논문은 가정의학과 수련의 및/또는 의사, 가정의학과 PGME 및/또는 CPD 프로그램에만 초점을 맞춰야 합니다. UME에 대해 논의하는 논문은 제외해야 합니다. 
  2. 논문은 CBME 시행에 대해 논의해야 합니다. 
  3. 논문은 캐나다 또는 미국에서 작성된 것이어야 합니다. 
  4. 논문은 영어로 제공되어야 합니다. 
  5. 문서의 전체 텍스트 버전을 사용할 수 있어야 합니다. 
  6. 논문은 연구, 리뷰, 논평/반성, 편집 의견 또는 규제 논문으로 분류되어야 합니다. 
  7. The article must focus exclusively on family medicine trainees and/or physicians and on family medicine PGME and/or CPD programs. An article must be excluded if it discusses UME.
  8. The article must discuss CBME implementation.
  9. The article must be from Canada or the United States.
  10. The article must be available in English.
  11. The full-text version of the article must be available.
  12. The article must be classified as a research, review, commentary/reflective, editorial opinion, or regulatory article.

포괄성과 실현 가능성의 균형을 맞추기 위해 세 가지 포함 기준(캐나다 또는 미국의 PGME 또는 CPD에서 가정의학에만 초점을 맞출 것, 영어로 제공될 것)이 선택되었습니다.26,27 다양한 학문 분야에 걸쳐 CBME를 다루는 방대한 연구 문헌을 고려하여 한 학문 분야(가정의학)와 한 지역(미국 및 캐나다) 내에서 범위 검토를 위한 프로토콜을 설계했습니다. 이전에 보고된 바와 같이, 범위 검토 팀이 직면하는 중요한 과제 중 하나는 검토에 포함된 문헌의 이질성과 방대한 양으로 인해 효과적이고 의미 있는 정보 종합 또는 질 평가를 수행하기 어려울 수 있다는 점입니다.23,26,28 또한, 가정의학 교육 환경은 국제적 맥락에서 다양하기 때문에 미국-캐나다 맥락으로 검토를 제한했습니다.29 따라서 전문가 패널(H.L., G.V., A.W., I.F.O.), 프로젝트 팀(S.K., N.D., P.H.), 학술 사서를 포함한 연구팀은 검색 범위를 캐나다와 미국으로 제한하기로 결정했습니다. 
Three of the inclusion criteria (exclusive focus on family medicine in PGME or CPD, from Canada or the United States, and available in English) were selected to balance comprehensiveness with feasibility.26,27 Given the large corpus of research literature covering CBME across a wide variety of academic disciplines, we designed our protocol for a scoping review situated within one academic discipline (family medicine) and one geographical region (the United States and Canada). As has been reported previously, one of the important challenges scoping review teams face is the heterogeneity and the volume of the literature included in reviews, which can make it difficult to carry out effective and meaningful information synthesis or quality assessment.23,26,28 Also, we limited our review to the U.S.–Canadian context because family medicine education settings vary in international contexts.29 Therefore, our research team—including the expert panel (H.L., G.V., A.W., I.F.O.), the project team (S.K., N.D., P.H.), and an academic librarian—decided to limit the search to Canada and the United States.

연구 선정 과정에는 (1) 제목과 초록으로 논문을 선별하고, (2) 선별된 논문을 전문을 읽는 두 가지 단계의 심사가 포함되었습니다. 리브스 등의 접근 방식30을 따르되, 약간의 수정을 가하기도 했습니다. 이 전략은 수많은 범위 검토를 완료한 범위 설정 방법론자(S.K.)의 경험을 바탕으로 했습니다.31-34
The study selection process involved 2 levels of screening: (1) articles were screened by title and abstract and (2) selected papers were read in full. We were guided by Reeves et al’s30 approach, with occasional slight modifications. This strategy drew on the experience of a scoping methodologist (S.K.) who had completed numerous scoping reviews.31–34

레벨 1: 논문은 제목과 초록을 기준으로 선별되었습니다.
Level 1: Articles were screened by title and abstract.

문헌 검색을 통해 470개의 고유한 기록(중복 제거 후)이 도출된 후, 프로젝트 팀원(N.D.)이 모든 제목과 초록을 선별하여 포함 여부를 검토했습니다. 모호한 부분이 있는 경우, 동일한 포함 기준을 사용하여 전체 텍스트 검토를 수행했습니다. 절차적 엄격성을 보장하기 위해 모든 논문의 포함 또는 제외 결정은 기록되었습니다. 일관성을 보장하고 연구 질문에 적절한 초점을 맞추기 위해 의학교육 전문가인 연구 책임자(S.K.)와 여러 차례 상의했습니다.
Following the literature search, which yielded 470 unique records (after removing duplicates), a member of the project team (N.D.) screened all titles and abstracts for inclusion. In case of any ambiguities, a full-text review was conducted using the same inclusion criteria. The decision to include or exclude any article was recorded to ensure procedural rigor. N.D. consulted with the principal investigator (S.K.), a medical education expert, several times to ensure consistency and to keep an appropriate focus on the research questions.

레벨 2: 선별된 논문을 전체적으로 읽었습니다.
Level 2: Selected articles were read in full.

470개 논문의 제목 및 초록 선별을 완료한 후 114개(24%)의 관련 논문이 확인되었습니다. 각 논문은 프로젝트 팀원(N.D.)의 full-text 검토를 거쳤습니다. 두 번째 프로젝트 팀 검토자(S.K.)는 지정된 비율(예: 15%)을 확인했습니다. 그런 다음 S.K.와 N.D.는 확인된 불일치에 대해 논의했습니다. 의견 불일치는 합의 프로세스를 통해 해결되었습니다. 전체 텍스트 검토를 거친 114개 논문 중 34개(30%)는 다음 이유 중 하나로 제외되었습니다:
After completion of the title and abstract screening of the 470 articles, 114 relevant articles (24%) were identified. Each of these underwent full-text review by a project team member (N.D.). A second project team reviewer (S.K.) checked a specified percentage (i.e., 15%). S.K. and N.D. then discussed any discrepancies that were identified. Any disagreements were resolved using a consensus process. Of the 114 articles that underwent full-text review, 34 (30%) were excluded for one of the following reasons:

  • 사용된 CBME 개념에 대한 증거가 없음(n = 6)
  • 가정의학 분야와 관련이 없음(n = 17)
  • UME(n = 5)
  • 캐나다 또는 미국 논문이 아님(n = 5)
  • 전체 텍스트를 사용할 수 없음(n = 1)
  • No evidence of the CBME concept used (n = 6)
  • Irrelevant to family medicine field (n = 17)
  • UME (n = 5)
  • Not a Canadian or U.S. article (n = 5)
  • Full text not available (n = 1)

80개의 논문이 포함 기준을 충족하여 검토의 최종 데이터 세트에 포함되었습니다.
Eighty articles met the inclusion criteria and were included in the review’s final dataset.

5단계: 데이터 차트화
Stage 5: Charting the data

포함된 80개의 논문에서 데이터를 추출하기 위해 코딩 매뉴얼을 작성하고 Microsoft Excel 스프레드시트(Mac용 Microsoft Excel, 버전 15.30, 워싱턴주 레드몬드에 있는 Microsoft Corp.)를 사용하여 표준화된 데이터 추출 양식(데이터 차트 양식)을 개발했습니다. 프로세스의 엄격성과 조사 결과의 신뢰성을 보장하기 위해 2인 이상의 독립적인 검토자가 제3자의 품질 점검을 받는 Reeves 등의 프로토콜30을 따랐습니다. (전문가 패널의 추출 양식 시범 사용을 포함하여 이 단계에 대한 자세한 설명은 부록 디지털 부록 1에 나와 있습니다). 코딩 매뉴얼은 코딩 과정에서 전문가 패널의 의견과 구체적인 코딩 결정에 따라 수정되었습니다. 코딩 매뉴얼은 부록 디지털 부록 2에 제공됩니다. 
To extract data from the 80 included articles, a coding manual was created and a standardized data extraction form (a data charting form) was developed using a Microsoft Excel spreadsheet (Microsoft Excel for Mac, version 15.30; Microsoft Corp., Redmond, Washington). To ensure the rigor of the process and the credibility of the findings, we followed Reeves et al’s protocol30 for 2 or more independent reviewers with quality checks from a third party. (A detailed description of this step, including piloting the use of the extraction form by the expert panel, is provided in Supplemental Digital Appendix 1). The coding manual was revised during the coding process based on input from the expert panel and specific coding decisions. The coding manual is provided in Supplemental Digital Appendix 2. (Both of these supplemental digital appendixes are available at

최종 데이터 차트 양식은 두 부분으로 구성되었습니다.

  • 첫 번째 부분에서는 저자명, 출판 연도, 제목, 논문 출처, 연구 수행 국가, 출판 유형(논평/반박 논문, 편집 의견, 규제, 연구 논문, 리뷰), 연구 패러다임(예: 질적, 양적, 혼합 방법), 대상 집단(교육 대상 수준) 등 논문 인구통계학적 정보를 수집했습니다.
  • 두 번째 부분에는 코딩할 개념(CBME, 역량, 역량), 정의 유무(예, 아니오), 주요 CBME 용어의 정의(역량 기반 의학교육, 역량, 역량), 정의 출처 등의 코딩 범주가 포함되었습니다.

이러한 각 코딩 범주에 대한 정의는 부록 디지털 부록 2에 제공됩니다. 데이터 차트 양식은 부록 디지털 부록 3에 제공됩니다.

The final data charting form consisted of 2 parts. The first part gathered article demographic information, such as author name(s), year of publication, title, article source, country where research was conducted, publication type (commentary/reflective paper, editorial opinion, regulatory, research article, review), research paradigm (e.g., qualitative, quantitative, mixed methods), and target population (level of training targeted). The second part included the following coding categories: concepts to be coded (CBME, competence, competency), presence of definition (yes, no), definition of key CBME terms (competency-based medical education, competence, competency), and definition source. The definitions for each of these coding categories are provided in Supplemental Digital Appendix 2 at The data charting form is provided in Supplemental Digital Appendix 3 at

이 데이터 추출 도구를 사용하여 전문가 패널의 각 구성원(H.L., G.V., A.W., I.F.O.)은 검토에 포함된 80개의 논문 중 20개를 독립적으로 읽고 위에서 설명한 4단계와 5단계의 원칙에 따라 관련 데이터를 추출했습니다. 애매한 항목이 있는 경우, 연구 책임자(S.K.)가 논문을 검토하여 최종 결정을 내렸습니다. 결과는 프로젝트 팀원 2명(S.K., N.D.)이 품질 보증 및 일관성을 위해 확인했습니다. 프로젝트 팀에서 제안한 모든 변경 사항은 전문가 패널과 논의하고 합의 과정을 거쳐 해결했습니다. 
Using this data extraction tool, each member of the expert panel (H.L., G.V, A.W., I.F.O.) independently read 20 of the 80 articles included in the review and extracted the relevant data in accordance with the principles outlined above for stages 4 and 5. If there were any ambiguous items, the article was reviewed by the principal investigator (S.K.), who made the final decision. The results were checked by the 2 members of the project team (S.K. and N.D.) for quality assurance and consistency. Any changes suggested by the project team were discussed with the expert panel and resolved using a consensus process.

6단계: 6단계: 결과 집계, 요약 및 보고
Stage 6: Collating, summarizing, and reporting results

방법론의 이 단계는 세 가지 단계로 나누어 진행되었습니다: (1) 데이터 분석, (2) 결과 보고, (3) 이전 가능성.
This stage of the methodology was divided into 3 separate steps: (1) analyzing the data, (2) reporting results, and (3) transferability.

1단계: 데이터 분석.
Step 1: Analyzing the data.

데이터 분석에는 다우트(Daudt) 등이 권고한 대로 문헌 내에서 CBME 용어가 어떻게 개념화/정의되는지 심층적으로 이해하기 위해 정량적 빈도 분석과 정성적 주제 분석 등의 [혼합 방법]이 사용되었습니다.27 Fereday와 Muir-Cochrane이 제안한 주제 분석을 위한 코딩 프로세스에 따라,35 추출된 모든 CBME 용어의 정의를 QSR International의 NVivo 10 소프트웨어에 입력했습니다. QSR NVivo의 코딩 프로세스에 따라 정의에서 지배적인 주제가 식별되었습니다. Hsieh와 Shannon이 설명한 기존의 [내용 분석] 방법36 을 사용하여 역량 기반 의학교육, 역량, 역량이라는 용어의 참조된 정의의 출처에서 직접 핵심 주제를 도출하기 위해 [주제별 분석]을 수행했습니다. 그런 다음 [합산 방법]31 을 사용하여 세 용어의 정의 사이에서 지배적인 주제를 계산하고 비교했습니다. 주제는 일관성과 정확성을 보장하기 위해 S.K.와 N.D.가 검토했습니다.
Data analysis involved mixed methods, such as quantitative frequency analysis and qualitative thematic analysis, to gain in-depth understanding of how CBME terms are conceptualized/defined within the literature, as recommended by Daudt et al.27 Based on the coding process for thematic analysis proposed by Fereday and Muir-Cochrane,35 all the extracted definitions of CBME terms were entered into QSR International’s NVivo 10 software (Doncaster, Victoria, Australia). Following the coding process in QSR NVivo, dominant themes in the definitions were identified. Using the conventional content analysis method described by Hsieh and Shannon,36 a thematic analysis was performed to derive the key themes directly from the sources of the referenced definitions of the terms competency-based medical education, competence, and competency. Then, the summative method31 was used to count and compare the dominant themes between the definitions of the 3 terms. The themes were examined by S.K. and N.D. to ensure consistency and accuracy.

2단계: 결과 보고.
Step 2: Reporting results.

조사 결과는 표와 내러티브 형식으로 요약되었습니다. 보고 전략의 명확성을 유지하기 위해 결과 보고에 일관된 접근 방식을 적용했습니다.22-24
Findings were summarized in tabular and narrative forms. To preserve clarity of the reporting strategy, a consistent approach to reporting the findings was applied.22–24

3단계: 이전 가능성.
Step 3: Transferability.

범위 검토 방법론을 발전시키고 엄격성을 강화하기 위해 이 검토에서는 검토 프레임워크의 마지막 단계를 결과의 의미 적용26에서 [이전 가능성]으로 변경했습니다.37

  • [개념적 일반화 가능성] 및 [이전 가능성]은 연구 결과가 원래 연구가 수행된 맥락과 다른 보건의료 맥락에 얼마나 잘 정보를 제공하는지를 나타냅니다.38
  • 링컨과 구바39 및 키토 등40에 따르면 [전이가능성]은 [외적 타당성]에 해당하는 [자연주의적 개념]으로,
    • 연구 결과의 다른 유사한 맥락에 대한 적용 가능성
    • 연구 결과의 지식, 정책, 실무 및 연구와의 관련성(유용성)이라는 두 가지 주요 측면이 있습니다.

To advance the scoping review methodology and enhance its rigor, in this review the final step of the review framework was changed from applying meaning of the results26 to transferability.37

  • Conceptual generalizability and transferability refer to how well a study’s findings inform health care contexts that differ from the context in which the original study was undertaken.38 
  • According to Lincoln and Guba39 and Kitto et al,40transferability is the naturalistic equivalent of external validity and has 2 major aspects:
    • applicability of the findings to other similar contexts and
    • the relevance (utility) of the findings to knowledge, policy, practice, and research.

이는 두 가지 모두의 측면에서 전반적인 접근 방식의 주요 전제였습니다.

  • 사용된 방법론(가정의학 PGME 프로그램을 포함시켜 해당 영역의 CBME 실행에서 CPD로 이전할 수 있는 것을 확인)과
  • 결과(향후 다른 전문과목에 대한 CBME 설계 및 역량 기반 CPD 개입에 정보를 제공할 수 있는 검토 결과) 

This was the main premise within our overall approach, both in terms of

  • the methodology used (inclusion of family medicine PGME programs to see what might be transferable from CBME implementation in that domain to CPD) and
  • results (outcomes of the review that may inform future design of CBME across other specialties and of competency-based CPD interventions). 


논문 검색 및 선택
Search and selection of articles

2017년 4월에 수행된 검색에서 881건의 인용이 이루어졌습니다. 중복을 제거한 후 470편의 논문 제목과 초록을 대상으로 관련성을 선별했으며, 이 중 114편(24%)이 적격성 기준을 충족하여 전문 검토를 위해 확보되었습니다. 114편의 논문에 대한 전문 심사 과정을 거쳐 80편(17%)이 분석에 남았습니다.16,41-119 논문 식별부터 최종 포함까지의 흐름은 그림 1에 나와 있습니다.
The searches conducted in April 2017 yielded 881 citations. After duplicates were removed, the titles and abstracts of 470 articles were screened for relevance, of which 114 (24%) met the eligibility criteria and were procured for full-text review. After a full-text screening process of the 114 articles, 80 articles (17%) were retained in the analysis.16,41–119 The flow of the articles from identification to final inclusion is represented in Figure 1.

포함된 논문의 일반적 특징
General characteristics of included articles

이 검토에 포함된 80개 논문의 일반적인 특성은 표 1에 나와 있습니다.16,41-119 포함된 모든 논문은 2000년 1월부터 2017년 4월 사이에 출판되었으며, 61%(n = 49)가 2011년 이후에 출판되었습니다(그림 2). 포함된 논문의 3분의 2 이상(n = 53, 66%)이 캐나다에서 발표되었습니다. 연구 논문(n = 37, 46%)과 논평/반성 논문(n = 26, 33%)이 리뷰에 포함된 대부분의 논문을 구성했습니다. 규제(n = 11, 14%), 검토(n = 5, 6%) 또는 편집자 의견(n = 1, 1%)으로 분류된 논문은 거의 없었습니다. 37개의 연구 논문 중 절반 이상(n = 21개, 57%)이 질적 접근법을 사용했고, 약 1/3(n = 12개, 32%)이 정량적 접근법을 사용했으며, 나머지(n = 4개, 11%)는 혼합 방법을 사용했습니다. 
The general characteristics of the 80 articles included in this review are reported in Table 1.16,41–119 All included articles were published between January 2000 and April 2017, with 61% (n = 49) published after 2011 (Figure 2). Over two-thirds (n = 53, 66%) of the included articles were from Canada. Research articles (n = 37, 46%) and commentary/reflective papers (n = 26, 33%) comprised most articles included in the review. Few articles were characterized as regulatory (n = 11, 14%), review (n = 5, 6%), or editorial opinion (n = 1, 1%). Of the 37 research articles, more than half (n = 21, 57%) used a qualitative approach, approximately one-third (n = 12, 32%) used a quantitative approach, and the rest (n = 4, 11%) used mixed methods.

대부분의 논문(n = 67, 84%)은 출판된 문헌에서 확인되었습니다. 나머지(n = 13, 16%)는 인증 기관 웹사이트(예: CFPC)와 같은 회색 문헌에서 발견되었습니다. 논문은 17개 저널에 게재되었지만 절반 이상(n = 45, 56%)이 캐나다 가정의학 저널 26개(32%), 가정의학 저널 13개(16%), 학술 의학 저널 6개(8%)의 3개 저널에 집중되어 있었습니다. 논문 전체에서 총 96개의 대상 집단이 보고되었으며, 이 중 약 3분의 2(62/96, 65%)가 레지던트였고, 교수진(21/96, 22%)과 가정의학과 전문의(13/96, 13%)가 그 뒤를 이었습니다. 
Most articles (n = 67, 84%) were identified in the published literature. The rest (n = 13, 16%) were found in the gray literature, such as accrediting organization websites (e.g., CFPC). The articles were published in 17 journals, but more than half (n = 45, 56%) were concentrated in 3 journals: 26 (32%) in Canadian Family Physician, 13 (16%) in Family Medicine, and 6 (8%) in Academic Medicine. Across articles, a total of 96 target populations were reported, of which approximately two-thirds (62/96, 65%) were residents, followed by faculty (21/96, 22%) and family physicians (13/96, 13%).

CBME 용어의 정의
Definitions of CBME terms

이 검토는 가정의학 PGME 및 CPD 문헌에서 역량 기반 의학교육, 역량, 역량이라는 용어의 정의를 파악하는 것을 목표로 했습니다. 80편의 논문 모두 이 용어 중 하나 이상을 사용했으며, 전체 논문에서 이 용어는 112회 코딩되었습니다(표 1). 역량에 대한 코딩 빈도(용어가 코딩된 횟수)가 가장 높았고(57/112, 51%), 역량 기반 의학교육(30/112, 27%)과 역량(25/112, 22%)은 그보다 덜 자주 코딩되었습니다. 일반적으로 저자는 이전 연구를 참조하지 않고 용어를 정의했습니다. 
This review aimed to identify definitions of the terms competency-based medical education, competence, and competency in the family medicine PGME and CPD literature. All 80 articles used at least one of these terms; across the articles, the terms were coded 112 times (Table 1). The coding frequency (the number of times the term was coded) for competency was the highest (57/112, 51%); competency-based medical education (30/112, 27%) and competence (25/112, 22%) were coded less frequently. Typically, authors defined terms without reference to previous work.

데이터 세트의 80개 논문 중 12개(15%)만이 하나 이상의 CBME 용어에 대한 참조 정의를 제공했습니다. "참조된 정의"로 간주되려면 포함된 논문의 역량 기반 의학교육, 역량 또는 역량에 대한 정의가 [학술 논문 또는 인증 기관 출처(예: 캐나다 왕립 의사 및 외과의사 대학)를 참조]해야 했습니다. 전체적으로 [19개의 참조 정의]가 이 연구에서 발견되었습니다: 역량(n = 12, 63%), 역량 기반 의학교육(n = 4, 21%), 역량(n = 3, 16%) (표 1). 
Of the 80 articles in the dataset, only 12 (15%) provided a referenced definition of one or more of the CBME terms. To be considered a “referenced definition,” the definition of competency-based medical education, competency, or competence in the included article had to refer to a scholarly article or an accrediting organization source (e.g., the Royal College of Physicians and Surgeons of Canada). Overall, 19 referenced definitions were found in these studies: 

  • competence (n = 12, 63%), 
  • competency-based medical education (n = 4, 21%), and 
  • competency (n = 3, 16%) (Table 1).

부록 1에는 검토에서 확인된 역량 기반 의학교육, 역량, 역량에 대한 19개의 참조 정의가 제시되어 있습니다. 이러한 참조 정의는 학술지(n = 12, 63%)와 캐나다 가정의학과 레지던트 프로그램 인증 기관인 CFPC 웹사이트(n = 7, 37%)에서 추출한 것입니다. 참조된 정의가 포함된 12편의 논문은 5개의 저널에 분산되어 있었으며, Canadian Family Physician에서 8편(42%), Academic Medicine, Assessment and Evaluation in Higher Education, Medical Education, Canadian Geriatrics Journal에서 각각 1편의 논문이 게재되었습니다. 19개의 참조된 정의에서 중복된 정의를 제거했습니다. 전체적으로 12개의 고유한 참조 정의가 주제 분석에 포함되었으며, 구체적으로 역량에 대한 정의 8개, 역량에 대한 정의 3개, 역량 기반 의학교육에 대한 정의 1개가 포함되었습니다. 
Appendix 1 presents the 19 referenced definitions of competency-based medical education, competence, and competency as identified in the review. These referenced definitions were extracted from academic journals (n = 12, 63%) and the website of the CFPC (n = 7, 37%), the accrediting body for family medicine residency programs in Canada. The 12 articles with referenced definitions were distributed across 5 journals, with Canadian Family Physician publishing 8 articles (42%) and Academic Medicine, Assessment and Evaluation in Higher Education, Medical Education, and Canadian Geriatrics Journal each publishing 1 article. From the 19 referenced definitions, we removed duplicate definitions. Overall, 12 unique referenced definitions were included in the thematic analysis, specifically, 8 definitions of competence, 3 definitions of competency, and 1 definition of competency-based medical education.

지배적인 주제 식별
Identifying dominant themes

우리는 Fereday와 Muir-Cochrane의 접근법에 따라 엄격하고 철저한 주제 분석 프로세스를 따랐습니다.35 CBME 용어에 대한 12개의 고유한 참조 정의 중에서 10개의 참조 정의 출처에서 직접 도출된 15개의 지배적인 주제를 식별했습니다.1,6,120 -

  • 가장 일반적인 주제는 다양한 술기 구성요소를 포괄하는 다차원적이고 역동적인 개념이었으며(5번 코딩),
  • 그 다음으로는 의사소통, 지식, 기술, 임상적 추론, 판단력, 감정, 태도, 개인적 가치, 성찰을 실무에서 사용할 수 있는 능력(4번 코딩)이었습니다.

competence and competency의 정의는 유사하고 중복되는 4개의 주제를 공유했습니다. 표 2에는 10개의 정의 소스에서 코딩 빈도와 함께 주제에 대한 요약이 나와 있습니다. 

We followed a rigorous and thorough process of thematic analysis based on the approach of Fereday and Muir-Cochrane.35 Within the 12 unique referenced definitions of CBME terms, we identified 15 dominant themes that directly derived from the 10 sources of the referenced definitions.1,6,120–127 The most common theme was

  • a multidimensional and dynamic concept that encompasses a variety of skill components (coded 5 times) followed by
  • being able to use communication, knowledge, technical skills, clinical reasoning, judgment, emotions, attitudes, personal values, and reflection in practice (coded 4 times).

The definitions of competence and competency shared 4 similar and overlapping themes. Table 2 presents a summary of the themes along with the coding frequencies across the 10 definition sources.


의학교육 커뮤니티는 오랫동안 CBME 용어에 대한 공통된 정의에 대해 고심해 왔으며,2,5-9,120 이 용어에 대한 일관성은 CBME를 실행하는 데 있어 주요 과제로 남아 있습니다. 이 범위 검토의 목적은 가정의학 PGME 및 CPD 문헌에서 CBME 용어가 사용되는 범위, 범위, 성격을 파악하는 것이었습니다. 가정의학 문헌에서 CBME 시행에 관한 논문이 증가하고 있지만(포함된 논문의 61%가 2011년 이후에 출판되었습니다), 이 검토는 CBME 개념과 용어를 정의하는 데 더 많은 주의를 기울여야 한다는 증거를 제공합니다. 
The medical education community has long been struggling with common definitions for the terminology of CBME,2,5–9,120 and inconsistency around this language remains a major challenge in implementing CBME. The purpose of this scoping review was to identify the range, extent, and nature of how CBME terms are used in the family medicine PGME and CPD literature. Even though the family medicine literature shows a rise in articles on CBME implementation—61% of the included articles were published after 2011—this review provides evidence that more attention should be paid to defining CBME concepts and terms.

18년 동안 가정의학 PGME 및 CPD 문헌에 게재된 캐나다와 미국의 80개 논문을 분석한 결과, CBME 용어에 대한 매우 다양한 정의가 19개 참조되었습니다(부록 1). 특히, 12개의 참조된 역량 정의 중 8개의 고유한 정의는 Frank 등,1 Kane,121 Harden 등,122 Sibert 등,123 Epstein과 Hundert,124 Tardif,125 Govaerts,126 및 Sauier 등.127 또한 2011,61 2012,95 및 2014114 년에 발표된 논문에서 제공되는 3개의 참조된 역량 정의는 각각 Albanese 등,120 Frank 등,1 및 Sauier 등,127 의 다른 출처에서 나왔습니다. 이는 흥미로운데, 2010년에 국제 CBME 협력자1와 Frank 외6의 CBME 용어에 대한 체계적 검토에서 CBME와 관련된 주요 표준 정의를 제안했기 때문입니다. 이 두 논문은 의학교육에 종사하는 사람들이 일관된 언어와 용어를 사용하고 주요 용어의 유사점과 차이점을 명확히 하여 CBME의 발전과 보건 전문직 교육의 발전을 보장할 것을 권장했습니다. 반면, 우리의 검토 결과 [역량 기반 의학교육]의 개념화에는 변화variation가 없는 것으로 나타났는데, 이는 문헌에서 일관된 정의가 부족하다는 것을 보여준 초기 연구6,8와 모순되는 것으로 보입니다. 
Our analysis of 80 articles from Canada and the United States published over a period of 18 years in the family medicine PGME and CPD literature resulted in 19 highly variable referenced definitions of CBME terms (Appendix 1). Specifically, among the 12 referenced definitions of competence, there were 8 unique definitions that referred to articles by Frank et al,1 Kane,121 Harden et al,122 Sibert et al,123 Epstein and Hundert,124 Tardif,125 Govaerts,126 and Saucier et al.127 Furthermore, the 3 referenced definitions of competency provided in the articles published in 2011,61 2012,95 and 2014114 came from different sources—Albanese et al,120 Frank et al,1 and Saucier et al,127 respectively. This is interesting because in 2010, the International CBME Collaborators1 and a systematic review of CBME terms by Frank et al6 proposed key standard definitions relevant to CBME. Those 2 articles also encouraged individuals engaged in medical education to use consistent language and terminology and to delineate the similarities and differences in the key terms to ensure CBME progression and, thereby, the advancement of health professions education. On the other hand, our review revealed no variation in the conceptualization of competency-based medical education, which seems to contradict earlier studies6,8 that demonstrated a lack of consistent definitions in the literature.

가장 눈에 띄는 발견은 검토한 대부분의 연구에서 CBME 개념을 논의했지만 사용된 CBME 용어에 대한 참조 정의를 제공하지 않았다는 점입니다. 논문의 15%만이 일반적으로 논문 시작 부분에 참조 정의를 제공했습니다. 다른 논문에서는 저자가 용어 정의를 시도할 때 자체 정의를 제시하거나 참조 없이 정의를 제공했기 때문에 독자의 혼란을 가중시킬 수 있습니다. 참조 없이 저자가 제안한 고유한 정의의 발견은 이전에 보고된 바 있습니다.128
Our most striking finding was that most of the reviewed studies did not provide referenced definitions of the CBME terms used although they discussed CBME concepts. Only 15% of the articles provided referenced definitions, typically at the start of the article. In the other articles, when authors attempted to define terms, they either offered their own definitions or provided definitions with no references, which likely adds to the confusion for readers. The finding of unique author-proposed definitions without referencing was reported previously.128

그러나 CBME 용어에 대한 참조 정의를 제공하는 것은 독자에게 매우 중요합니다. 일부 연구자들은 독자가 사용된 개념을 이해하기 위해서는 저자가 기존 정의를 명확하게 인용해야 한다고 강조했습니다.10 이 단계는 전문가인 독자에게는 덜 중요할 수 있지만, 배경 정보는 모든 독자에게 영향을 미칠 수 있습니다. 글에 사용된 용어를 정의하면 다른 많은 이점이 있습니다. 예를 들어, 용어의 선택과 명료성은 연구 대상자6 와 보건 서비스 관리자 또는 정책 입안자에게 중요합니다.10 또한, 현대 CBME 어휘를 수시로 업데이트하려면 저자가 중요한 용어에 대해 어떤 정의를 사용하고 있는지 명시하는 것이 중요합니다.1,10 저자는 독자가 CBME 용어에 익숙하고 받아들일 것이라고 가정할 수 있지만, 이 검토에서 확인된 CBME 용어의 의미의 다양성을 고려하여 참조 정의를 제공할 것을 권장합니다. 
The provision of referenced definitions for CBME terms is very important to readers, however. Some researchers have highlighted that for readers to understand the concepts used, the authors must clearly cite existing definitions.10 This step may be less relevant for readers who are experts; yet, background information may influence all readers. There are many other benefits in defining the terms as used in the article. For example, the selection and intelligibility of the terms is important for a research audience6 and for health service managers or policymakers.10 Additionally, to update contemporary CBME vocabulary from time to time, it is important to state which definitions the author is using for important terms.1,10 While authors may assume that readers will be familiar with and accepting of CBME terminology, we suggest that authors offer referenced definitions given the variability in the meanings of CBME terms identified in this review.

기존의 콘텐츠 분석36을 사용한 주제별 분석 프로세스를 12개의 고유한 CBME 용어 참조 정의에 적용한 결과 15개의 주요 주제가 도출되었습니다(표 2). 많은 저자는 Competence가 Competency와 다르다는 점을 분명히 하고 있지만, 역량과 역량의 정의가 4개의 유사하고 중복되는 주제를 공유하고 있다는 점은 두 용어가 종종 같은 의미로 사용된다는 것을 시사합니다. 이 결과는 2007년에 10명의 Cate와 Scheele129이 보고한 결과와 2008년에 Govaerts가 보고한 결과와 일치합니다.126 
The thematic analysis process using conventional content analysis36 that was applied to the 12 unique referenced definitions of CBME terms elicited 15 dominant themes (Table 2). While it is clear to many authors1,2,4,6,8,120 that competence is different from competency, our finding that the definitions of competence and competency share 4 similar and overlapping themes suggests that the 2 terms are often used interchangeably. This finding is in line with findings reported in 2007 by ten Cate and Scheele129 and in 2008 by Govaerts.126

또한 (1) 다양한 술기 구성요소를 포괄하는 다차원적이고 역동적인 개념, (2) 의사소통, 지식, 기술, 임상적 추론, 판단, 감정, 태도, 개인적 가치, 성찰을 실무에 사용할 수 있다는 두 가지 주제가 모든 정의에서 가장 공통적으로 사용된다는 것을 발견했습니다. 이러한 결과는 이전 연구 결과와 일치하며,1,2,6 의사 역량은 지식, 기술, 가치 및 태도와 같은 학습의 작은 특정 요소(역량으로 알려진)의 집합으로 볼 수 있음을 나타냅니다. 역량은 의료 전문가의 관찰 가능한 능력이므로, 역량 달성을 보장하기 위해 측정 및 평가할 수 있습니다.6
We also found that 2 themes were the most common across the definitions—(1) a multidimensional and dynamic concept that encompasses a variety of skill components and (2) being able to use communication, knowledge, technical skills, clinical reasoning, judgment, emotions, attitudes, personal values, and reflection in practice. These results, in agreement with results of previous studies,1,2,6 indicate that physician competence can be viewed as an assembly of smaller specific elements of learning (known as competencies), such as knowledge, skills, values, and attitudes. Since competency is an observable ability of a health professional, it can be measured and assessed to ensure its attainment.6

역량과 역량이 개념화되는 방식의 차이는 암묵적으로 또는 명시적으로 의학교육의 연속선상에서 다양한 지역사회, 상황, 전문과목 내에서 성공적인 진료에 대한 기대치의 차이를 반영할 수 있다는 점을 언급하는 것이 중요합니다.2,120 Frank와 동료들1 은 Competence"특정 맥락에서 의사 수행의 여러 영역 또는 측면에 걸친 능력의 배열"로 정의합니다.1(p641) 이 정의는 역량이 정적인 개념이 아니라 [역동적이고 지속적으로 변화한다]는 것을 의미합니다.1,6,7 이는 특히 CPD에 해당합니다. 
It is important to mention that differences in how competence and competencies are conceptualized may, implicitly or explicitly, reflect differences in expectations for successful practice within different communities, contexts, and specialties along the continuum of medical education.2,120 Frank and colleagues1 define competence as “the array of abilities across multiple domains or aspects of physician performance in a certain context.”1(p641) This definition implies that competence is not a static concept but rather dynamic and continually changing.1,6,7 This is especially true for CPD.

[역량 기반 CPD 모델]은 모든 전공의가 [PGME를 마칠 때 역량을 입증]해야 할 뿐만 아니라, [시간이 지남에 따라 진료 현장에서 새로운 지식과 기술을 습득해야 한다]는 전제에서 출발합니다.7 역량은 환자 진료 맥락을 벗어난 독립적인 능력으로 존재하지 않기 때문에,11 [의사의 진료]와 [그들이 봉사하는 지역사회 또는 인구에 특화된 역량]이 필요할 수 있습니다. 또한 CPD의 맥락에서 competence and competency 의 개념은 해당 역량이 활용되고 강화되는 빈도를 포함하는 것으로 보입니다. competence은 [영구적인 속성이 아니라, 시간이 지남에 따라 상황, 노출, 기회 경험에 따라 변화]하기 때문에 역량 개념에는 [자기 성찰적 요소], 즉 [역량의 변동]에 대한 인식이 필요합니다. 따라서 CPD에서 역량을 사용할 때는 가르치고, 배우고, 평가할 내용에 영향을 미칠 수 있도록 맥락과 시간에 따라 역량을 정의해야 합니다.2
A competency-based model of CPD begins with the premise that all residents must not only demonstrate competence at the end of PGME but also acquire new knowledge and skills over time in practice.7 Since competencies do not exist as independent abilities outside the patient care context,11 there may be a need for competencies specific to physicians’ practice and to the community or populations they serve. Additionally, in the context of CPD, the notions of competence and competency seem to include the frequency with which that competency is employed and reinforced. The notion of competence demands a self-reflective component—that is, awareness of fluctuations in competence—since competence is anything but a permanent attribute; rather, it changes over time and across context, exposure, and opportunistic experience. Therefore, when competence is used in CPD, it must be defined according to context and time, to influence what is to be taught, learned, and assessed.2

가정의학에서 CBME를 실행할 때 표준화된 언어를 만들고 사용하면 커리큘럼을 구성하고 학습 결과를 평가해야 하는 방식에 대한 공유된 이해를 이끌어낼 수 있습니다. 우리는 의학 전문 분야와 학습 연속체 전반에 걸쳐 의학 교육을 변화시키기 위한 작업이 진행됨에 따라 [투명성, 입증 가능성, 책임성 및 이전 가능성]을 보장하기 위해 CBME 용어를 일관되게 개념화하는 것이 중요하다고 주장합니다. 가정의학에서는 CBME 접근법을 성공적으로 구현하기 위해 일관된 정의를 사용하는 것이 중요합니다. 또한, competency and competence은 [시간과 상황에 따라 다르다]는 점을 인식하여 가정의학 CPD에서 CBME 접근법을 구현할 때 이 점에 주의를 기울일 것을 권장합니다. 요컨대, 전문 분야와 학습 연속체 전반에 걸쳐 CBME에 참여하는 사람들은 연구, 교육 및 평가 내에서 CBME 개념과 정의를 명확히 하는 것을 목표로 해야 합니다. 
The creation and use of standardized language in CBME implementation in family medicine may lead to a shared understanding of the ways curricula should be structured and learning outcomes should be assessed. We argue that as the work toward changing medical education across medical specialties and across the learning continuum moves forward, it is important to have a consistent conceptualization of CBME terminology to ensure its transparency, demonstrability, accountability, and transferability. In family medicine, using consistent definitions is important for successful implementation of CBME approaches. Furthermore, recognizing that competency and competence are time- and context-specific, we recommend paying close attention to this when implementing CBME approaches in family medicine CPD. In short, those engaged in CBME, across specialties and across the learning continuum, should aim to make CBME concepts and definitions explicit within research, education, and assessment.

강점과 한계
Strengths and limitations

우리가 아는 한, 이 문헌고찰은 CBME 시행이 선진적인 것으로 알려진 학문 분야인 가정의학 관련 의학교육 문헌에서 CBME 용어가 어떻게 정의되고 개념화되어 있는지를 조사한 최초의 범위 검토입니다. 또한 다양한 배경을 가진 내용 및 방법론적 전문성을 갖춘 연구팀 구성이 본 범위 검토의 강점입니다.23,26,27 우리가 사용한 전략은 이전 범위 검토를 완료한 연구팀원의 경험을 기반으로 했기 때문에 논문 선정 과정이 신뢰할 수 있었다고 생각합니다. 
To the best of our knowledge, this is the first scoping review to examine how CBME terms are defined and conceptualized in the medical education literature specific to family medicine, an academic discipline known for advanced CBME implementation. Strengths of our scoping review also include the assembly of our team, with content and methodological expertise from diverse backgrounds.23,26,27 We believe that our article selection process was reliable because the strategy we used was based on the experience of our research team members who had completed prior scoping reviews.

이 검토의 몇 가지 한계점을 인정해야 합니다. 문헌 데이터베이스뿐만 아니라 회색문헌까지 검색하여 최대한 철저하게 검토하려고 노력했지만, 검색 범위는 캐나다 또는 미국에서 영어로 발표된 논문으로 제한되었습니다. 따라서 호주와 영국과 같이 동등한 의학교육 시스템을 갖춘 다른 국가에서 고려 중인 CBME 용어의 정의를 일부 놓쳤을 가능성이 있습니다.6 그럼에도 불구하고, 범위 검토 방법론을 엄격하게 적용함으로써 연구 질문에 대한 방어 가능한 답변을 얻을 수 있었으며, 이는 중요한 인용을 놓칠 위험을 보완할 수 있을 것으로 생각됩니다. 우리는 우리가 확인한 주요 주제와 다양한 정의가 세부 사항(학문 분야 및 국가)이 다르더라도 다른 학문 분야와 맥락에도 적용될 수 있을 것으로 예상합니다. 
Several limitations of this review should be acknowledged. Although we sought to be as thorough as possible by searching not only literature databases but also the gray literature, the scope of our search was limited to articles available in English from Canada or the United States. Thus, it is possible that we missed some definitions of CBME terms being considered in other countries with an equivalent system of medical education, such as Australia and the United Kingdom.6 Nevertheless, we believe that our rigorous application of scoping review methodology yielded defensible answers to our research questions, perhaps compensating for the risk of missing critical citations. We anticipate that the dominant themes and variations in definitions we have identified will translate to other disciplines and contexts, even if the specifics (academic discipline and country) differ.

적용 가능성 및 이전 가능성
Applicability and transferability

타당성에 근거한 [일반화 가능성]을 높이기 위해,130 핀프겔드-코넷이 설명한 [삼각측량 전략]을 사용했습니다.131 예를 들어, [여러 연구자]가 [여러 문헌 검색 전략](전자 데이터베이스 검색, 주요 저널 및 참고 문헌의 수작업 검색, 관련 기관 웹사이트 검색, 전문가 추천)을 사용하여 데이터 수집 및 분석에 참여하여 [다양한 출처](즉, 출판 및 회색문헌)의 데이터를 포함했습니다.131 이러한 전략은 우연한 연관성과 체계적 편견의 가능성을 줄이고 결과에 대한 신뢰도를 높여줍니다.39
To enhance generalizability, which is grounded in validity,130 we used triangulation strategies described by Finfgeld-Connett.131 For example, multiple researchers were involved in the data collection and analysis using several literature search strategies (electronic database searches, hand searches of key journals and bibliographies, searches of websites of relevant organizations, experts’ recommendations), resulting in the inclusion of data from a variety of sources (i.e., published and gray literature).131 These strategies reduce the possibility of chance associations and systematic biases and lead to increased confidence about the findings.39

이 검토의 궁극적인 목표는 그 결과가 [다른 의료 환경에 일반화할 수 있는 CBME 개념을 만들어 향후 PGME 및 CPD에서 CBME 개입 설계에 정보를 제공하는 것]입니다. 다시 말해, 이 범위 검토에서는 "가정의학에서의 PGME 및 CPD"를 수단으로 삼아 CBME 용어의 전반적인 개념화를 탐색했습니다. 이러한 방법론적 접근은 가정의학과 레지던트 교육 및 CPD에 대한 범위 검토 결과에서 [향후 연구에서 모든 PGME 및 CPD 프로그램에 적용될 수 있는 광범위한 추론]을 도출하는 데 도움이 되었다고 생각합니다. 이러한 의미에서, 우리는 본 검토 결과가 [가정의학 수련에서 실무로의 연속성]뿐만 아니라 [의학 전반에 걸친 PGME-CPD 전환]에도 즉시 적용될 수 있을 것으로 기대합니다. 우리는 가정의학과에서 유사한 PGME 프로그램을 운영하는 미국과 캐나다의 2개 국가29 의 문헌만을 검토하였기 때문에 본 연구 결과의 일반화 가능성에 한계가 있음을 인정합니다. 그럼에도 불구하고, 우리는 이 범위 검토에서 제기된 광범위한 문제(즉, 가정의학에서 CBME 용어의 개념화와 관련된 광범위한 주제)가 다른 분야, 교육적 맥락 및 국가로 이전 가능하고 유용하다고 믿습니다.34
Our eventual goal for this review is that its results will help create CBME concepts that are generalizable to other medical settings to inform future design of CBME interventions in PGME and CPD. In other words, in this scoping review, we used “PGME and CPD in family medicine” as a vehicle to explore overall conceptualization of CBME terms. We believe that this methodological approach helped us draw broad inferences from our scoping review results on residency training and CPD in family medicine that, in future research, will be applicable across all PGME and CPD programs. In this sense, we anticipate that the results of the present review will be immediately relevant for the continuum of training-to-practice in family medicine as well as to PGME-to-CPD transitions across medicine more generally. We acknowledge that the generalizability of our results is limited as we only reviewed literature from 2 countries, the United States and Canada,29 which have similar PGME programs in family medicine. Nevertheless, we believe that the broad issues (i.e., the broader themes pertaining to the conceptualization of CBME terms in family medicine) raised in this scoping review are transferable and useful to other disciplines, educational contexts, and countries.34


CBME 용어에 대한 공유된 정의의 구축과 보급은 CBME의 성공적인 실행에 필수적입니다. 그럼에도 불구하고 미국과 캐나다의 학술 문헌과 회색문헌에서는 PGME와 CPD 모두에서 가정의학에서 CBME 용어의 개념화가 일관되지 않습니다. 이 검토에서는 가정의학 PGME와 CPD에서 CBME 용어가 어떻게 개념화되고 논의되는지 그 범위, 범위, 성격을 조사하기 시작했습니다. 이 범위 검토를 통해

  • (1) CBME 개념에 대한 참조 정의의 제한적 사용,
  • (2) 정의에 대한 특정 전문 분야(가정의학) 내에서 합의 부족,
  • (3) 향후 가정의학 내에서 사용하기 위해 합의 정의를 만들 수 있는 공통 주제를 발견했습니다.

The construction and dissemination of shared definitions of CBME terms is essential to CBME’s successful implementation. Despite this, the conceptualization of CBME terminology in family medicine, both in PGME and CPD, is not consistent in U.S. and Canadian academic literature and gray literature. In this review, we set out to examine the range, extent, and nature of how CBME terminology is conceptualized and discussed in family medicine PGME and CPD. This scoping review revealed

  • (1) limited use of referenced definitions of CBME concepts,
  • (2) a lack of consensus on such definitions within a specific specialty discipline (family medicine), and
  • (3) common themes from which consensus definitions may be created for future use within family medicine.

참조된 정의의 수가 적고 이러한 정의에 대한 합의가 부족하다는 것은 [개념적 엄격성에 더 많은 주의를 기울일 필요가 있음]을 시사합니다. 본 연구의 범위 검토를 바탕으로, 본 연구에서 확인된 가정의학과 관련된 주요 주제는 본 연구팀이 이전에 개발한 델파이-커피 하이브리드 방법론에 따른 합의 형성 프로세스를 사용하여 추가로 탐구할 수 있습니다.132 본 범위 검토에서 나온 최상의 증거와 함께 전문가 의견을 수렴하면 연구 목적의 표준화된 CBME 용어 정의 개발을 촉진할 수 있습니다. 가정의학 교육에 종사하는 사람들이 이 작업에 착수하고 여러 전문과목의 동료들과 협력하여 공통의 분류체계에 도달할 것을 권장합니다. 이번 검토 결과가 CBME의 개발 및 시행과 보건 전문직 교육 발전에 관련된 사람들의 지속적인 공동 작업에 도움이 되기를 바랍니다. 
The low number of referenced definitions and lack of consensus on such definitions suggest more attention needs to be paid to conceptual rigor. Drawing on our scoping review, the dominant themes identified in this study, specific to family medicine, could be explored further using a consensus-building process guided by the Delphi–Chaffee hybrid methodology previously developed by our team.132 The convergence of experts’ opinions along with best evidence from this scoping review could facilitate the development of standardized definitions of CBME terms for research purposes. We recommend that those involved in family medicine education embark upon this and work with colleagues across medical specialties to reach a common taxonomy for use. We hope that the results of our review can be a valuable addition to the ongoing collective work of those involved in the development and implementation of CBME and the advancement of health professions education.



Acad Med. 2020 Jul;95(7):1106-1119. doi: 10.1097/ACM.0000000000003178.

Conceptualization of Competency-Based Medical Education Terminology in Family Medicine Postgraduate Medical Education and Continuing Professional Development: A Scoping Review

Affiliations collapse

1H. Lochnan is assistant dean of continuing professional development, Education Programming, Faculty of Medicine, an endocrinologist, and professor, Department of Medicine, University of Ottawa, Ottawa, Ontario, Canada. S. Kitto is director of research, Office of Continuing Professional Development, and professor, Department of Innovation in Medical Education, University of Ottawa, Ottawa, Ontario, Canada. N. Danilovich is a research associate, Office of Continuing Professional Development, Department of Innovation in Medical Education, University of Ottawa, Ottawa, Ontario, Canada. G. Viner is director of evaluation in postgraduate program and associate professor, Department of Family Medicine, University of Ottawa, Ottawa, Ontario, Canada. A. Walsh is professor emeritus, Department of Family Medicine, McMaster University, Hamilton, Ontario, Canada. I.F. Oandasan is director, Education/directrice, Éducation, College of Family Physicians of Canada, Mississauga, Ontario, Canada. P. Hendry is vice dean of continuing professional development and professor of surgery, Faculty of Medicine, University of Ottawa, and a cardiac surgeon, University of Ottawa Heart Institute, Ottawa, Ontario, Canada.

PMID: 31996559

DOI: 10.1097/ACM.0000000000003178


Purpose: To examine the extent, range, and nature of how competency-based medical education (CBME) implementation terminology is used (i.e., the conceptualization of CBME-related terms) within the family medicine postgraduate medical education (PGME) and continuing professional development (CPD) literature.

Method: This scoping review's methodology was based on Arksey and O'Malley's framework and subsequent recommendations by Tricco and colleagues. The authors searched 5 databases and the gray literature for U.S. and Canadian publications between January 2000 and April 2017. Full-text English-language articles on CBME implementation that focused exclusively on family medicine PGME and/or CPD programs were eligible for inclusion. A standardized data extraction form was used to collect article demographic data and coding concepts data. Data analysis used mixed methods, including quantitative frequency analysis and qualitative thematic analysis.

Results: Of 470 unique articles identified, 80 (17%) met the inclusion criteria and were selected for inclusion in the review. Only 12 (15%) of the 80 articles provided a referenced definition of the coding concepts (i.e., referred to an article/organization as the definition's source), resulting in 19 highly variable-and 12 unique- referenced definitions of key terms used in CBME implementation (competence, competency, competency-based medical education). Thematic analysis of the referenced definitions identified 15 dominant themes, among which the most common were (1) a multidimensional and dynamic concept that encompasses a variety of skill components and (2) being able to use communication, knowledge, technical skills, clinical reasoning, judgment, emotions, attitudes, personal values, and reflection in practice.

Conclusions: The construction and dissemination of shared definitions is essential to CBME's successful implementation. The low number of referenced definitions and lack of consensus on such definitions suggest more attention needs to be paid to conceptual rigor. The authors recommend those involved in family medicine education work with colleagues across medical specialties to develop a common taxonomy.

역량바탕의학교육 문헌의 대화를 이해하기: 스코핑 리뷰(BEME Guide No. 78)
Making sense of competency-based medical education (CBME) literary conversations: A BEME scoping review: BEME Guide No. 78 
Deena M. Hamzaa, Karen E. Hauerb , Anna Oswalda,c , Elaine van Melled, Zeenat Ladake, Ines Zunaf, Mekdes E. Assefag, Gabrielle N. Pelletierh, Meghan Sebastianskii, Diana Keto-Lamberti and Shelley Rossj 




역량 기반 의학교육(CBME)은 1970년대에 처음 제안되었으며(McGaghie 외. 1978), 급변하는 의료 환경에서 의사의 준비성과 환자 안전에 대한 우려를 해결하기 위한 방법으로 2000년대 초에 교육자, 임상의, 정책 입안자 사이에서 CBME에 대한 관심이 다시 높아졌습니다(McGaghie 외. 1978; Carraccio 외. 2002; Frank, Snell 외. 2010). CBME는 교육과정과 평가를 역량에 대한 대리인으로서 [시간 기반]에서 특정 [역량의 입증]에 초점을 맞춘 접근 방식으로 전환합니다(퍼거슨 외. 2017). 또한 CBME는 주로 의학 지식에서 벗어나 [환자 중심 진료, 의사소통, 전문성, 비판적 사고, 팀워크, 옹호, 제한된 자원의 적절한 사용]을 강조하는 의사 교육을 구상하고 있습니다(McGaghie et al. 1978; Donabedian 2000; Carraccio 외. 2002; Frank, Mungroo 외. 2010; Frank, Snell 외. 2010; Frenk 외. 2010; Starmer 외. 2014; Gaffney 외. 2016; Horsley 외. 2016; Makary and Daniel 2016; Ferguson 외. 2017; Holmboe 외. 2017; Santos 외. 2017). 이 범위 검토의 목적과 출판된 문헌에 근거하여 21세기 CBME의 정의는 다음과 같습니다: 
Competency-based medical education (CBME) was initially proposed in the 1970s (McGaghie et al. 1978), and interest in CBME saw a revival in the early 2000s among educators, clinicians, and policy makers as a way to address concerns about physician preparedness and patient safety in a rapidly changing healthcare environment (McGaghie et al. 1978; Carraccio et al. 2002; Frank, Snell, et al. 2010). CBME shifts curriculum and assessment from time-based, as a proxy for competence, to an approach that focuses on the demonstration of specific competencies (Ferguson et al. 2017). CBME also shifts focus away from primarily medical knowledge to envision physician training that also emphasizes patient-centered care, communication, professionalism, critical thinking, teamwork, advocacy, and appropriate use of limited resources (McGaghie et al. 1978; Donabedian 2000; Carraccio et al. 2002; Frank, Mungroo, et al. 2010; Frank, Snell, et al. 2010; Frenk et al. 2010; Starmer et al. 2014; Gaffney et al. 2016; Horsley et al. 2016; Makary and Daniel 2016; Ferguson et al. 2017; Holmboe et al. 2017; Santos et al. 2017). For the purpose of this scoping review and based on published literature, the definition of CBME in the twenty first century is:

근본적으로 졸업 성과 능력을 지향하고, 사회 및 환자 요구 분석에서 도출된 역량을 중심으로 구성된, 의사의 진료 준비에 대한 접근 방식입니다. 시간 기반 교육을 강조하지 않고 더 큰 책임감, 유연성, 학습자 중심성을 약속합니다. (Frank, Mungroo 외. 2010)
An approach to preparing physicians for practice that is fundamentally oriented to graduate outcome abilities and organized around competencies derived from an analysis of societal and patient needs. It de-emphasizes time-based training and promises greater accountability, flexibility, and learner-centeredness. (Frank, Mungroo, et al. 2010)

CBME의 의도된 긍정적인 영향에도 불구하고 비판이 없는 것은 아닙니다(Holmboe 외. 2017). 주요 비판 중 하나는 CBME가 [더 나은 의사를 배출한다는 증거가 부족]하다는 것입니다(Whitehead C 2012a, 2012b; Whitehead CR 외. 2013; Holmboe 외. 2017). 이러한 우려는 종종 효과에 대한 [증거를 포착하는 방법]에 뿌리를 두고 있습니다. 지금까지의 문헌적 논의(CBME의 철학, 설계, 실행 및/또는 실제 또는 예상 결과에 대한 서면 기록 또는 토론)는 [정량적 접근]을 통해 [인과 관계에 대한 정보]를 제공하는, [객관적이고 무작위적이며 통제된 방법론의 정보]를 중시하는 [실증주의/포스트 실증주의 패러다임]의 영향을 많이 받았습니다(Park et al. 2020). 그러나 이러한 유형의 방법론은 커리큘럼 혁신의 활동과 실천에 필요한 [사회-정치적 환경 및 사회적 상호작용과 같은 맥락의 영향]을 충분히 다루지 못합니다(Tavakol and Sandars 2014; Farrell et al. 2015).
Despite the intended positive impact of CBME, it is not without criticism (Holmboe et al. 2017). One of the main criticisms is that there is a lack of evidence that CBME produces better physicians (Whitehead C 2012a, 2012b; Whitehead CR et al. 2013; Holmboe et al. 2017). These concerns are often rooted in how evidence of effectiveness is captured. Literary conversations (written accounts or discussions about the philosophy, design, implementation, and/or real or anticipated outcomes of CBME) to date are strongly influenced by the positivist/post-positivist paradigm, which values information from objective, randomized, and controlled methodologies that provide information about causal relationships through quantitative approaches (Park et al. 2020). However, these types of methodologies insufficiently address the influence of context, such as socio-political environments and social interactions that are required to enact the activities and practices of curricular innovations (Tavakol and Sandars 2014; Farrell et al. 2015).

1978년(McGaghie 외. 1978)에 시작된 CBME가 현재 다시 부각된 것은 일반적으로 2002년에 Carraccio와 동료들이 발표한 논문(Carraccio 외. 2002)에 의해 촉발된 것으로 간주되지만, 가장 최근의 관심은 1993년 영국의학위원회(GMC)에서 개발한 Tomorrow's Doctors에서 시작된 CBME라고 주장할 수 있습니다.

  • [내일의 의사들]은 [성과 중심의 커리큘럼을 설계]하고 [역량을 향한 학습 궤적을 지원하는 방법]을 통해 [Trainee의 성과를 평가]하는 데 중점을 두었습니다(Bryant 1993; Madeley 1994; Christopher 외. 2002; Rubin and Franchi-Christopher 2002).
  • 1998년 미국에서는 의학전문대학원교육인증위원회(ACGME)가 환자 치료 결과를 개선하고 변화하는 의료 시스템에 적응할 수 있는 대학원 수련의의 역량을 향상시키기 위해 [아웃컴 프로젝트 이니셔티브]와 [차기 인증 시스템]을 개발했습니다(Swing 2007).
  • 캐나다에서는 가정의학 전문의 규제 기관인 캐나다 가정의학회(CFPC)2010년에 트리플 C 역량 기반 커리큘럼(Triple C)을 공식적으로 시행했습니다(오안다산 및 대학원 커리큘럼 실무 그룹 2011).
  • 다른 모든 전문과목의 규제 기관인 캐나다 왕립 의사 및 외과의사 대학(RCPSC)은 자체 버전의 CBME인 CBD(Competence by Design)를 개발하여 2017년에 커리큘럼 전환의 초기 실행 단계에 들어갔습니다. 

While the current re-emergence of CBME from 1978 (McGaghie et al. 1978) is generally considered to have been prompted by a publication by Carraccio and colleagues in 2002 (Carraccio et al. 2002), it can be argued that the most recent interest is CBME began in the United Kingdom with Tomorrow’s Doctors, developed by the General Medical Council (GMC) in 1993.

  • Tomorrow’s Doctors centered on designing curriculum around outcomes and appraising the performance of trainees through methods to support the learning trajectory toward competence (Bryant 1993; Madeley 1994; Christopher et al. 2002; Rubin and Franchi-Christopher 2002).
  • In the United States in 1998, the Accreditation Council for Graduate Medical Education (ACGME) developed its Outcomes Project initiative and Next Accreditation System to improve postgraduate trainees’ competence to improve patient care outcomes and adapt to changing healthcare systems (Swing 2007).
  • In Canada, the College of Family Physicians of Canada (CFPC), the regulatory body for family physicians, formally implemented the Triple C Competency-Based Curriculum (Triple C) in 2010 (Oandasan and Working Group on Postgraduate Curriculum 2011).
  • The Royal College of Physicians and Surgeons of Canada (RCPSC), the regulatory body for all other specialties, developed their own version of CBME, Competence by Design (CBD), and entered the early implementation stages of curriculum transformation in 2017 (

지난 10년 동안 미국과 캐나다에서 전문과목 교육의 점진적인 커리큘럼 전환, 특히 실행 이니셔티브가 진행됨에 따라 [CBME의 영향을 지지하거나 비판하는 문헌적 논의]가 크게 증가했습니다. 이러한 문헌에 더하여 동남아시아 및 인도와 같은 다른 지역에서 CBME를 시행하고 시범 운영하려는 프로젝트가 진행되고 있습니다(Bansal 외. 2017; Shrivastava와 Shrivastava 2019).

The gradual curriculum shift in specialty training, particularly implementation initiatives in the US and Canada within the past 10 years, has substantially increased the literary conversations supporting and critiquing the impact of CBME. Further adding to this literature are prospective projects for the implementation and piloting of CBME in other parts of the world, such as Southeast Asia and India (Bansal et al. 2017; Shrivastava and Shrivastava 2019).

지난 10년 동안 CBME에 관한 문헌이 기하급수적으로 증가하면서 교육자, 연구자 또는 정책 입안자들이 CBME의 개념에 대한 최신 정보를 파악하는 것이 매우 어려워졌습니다. 그 결과 일부 문학적 대화가 더 지배적이 된 반면, 다른 대화는 더 넓은 CBME 커뮤니티 내에서 자리를 잡지 못했습니다. 또한, 매년 쏟아져 나오는 수많은 CBME 관련 출판물의 소음에 묻혀 CBME에 대한 진정으로 혁신적인 접근 방식이 주목을 받기 어려울 수도 있습니다. 초보자와 숙련된 교육자 및 연구자 모두가 CBME가 무엇이며 시간이 지남에 따라 개념이 어떻게 변화했는지 이해하는 데 도움이 되는 문헌의 종합이 절실히 필요합니다.
The near exponential proliferation of literature about CBME in the last decade has made it very challenging for educators, researchers, or policy makers to keep up to date on how CBME is conceptualized. As a result, some literary conversations have become more dominant, while others have failed to take hold within the wider CBME community. Further, truly innovative approaches to CBME may struggle to gain traction if they are lost in the noise of the massive numbers of publications related to CBME produced each year. There is a pressing need for a synthesis of the literature to help both novice and experienced educators and researchers to make sense of what CBME is and how conceptualizations have changed over time.

이 BEME 범위 검토의 목적은 기존의 CBME 문헌을 종합하여 이 복잡하고 빠르게 성장하는 문헌의 대화를 파악하는 것입니다. 이러한 문헌적 대화를 체계적으로 매핑함으로써 이러한 종합은 특히 시간이 지남에 따라 진화해 온 CBME의 개념화 및 실행을 둘러싼 다양한 관점에 대한 공유된 이해에 기여할 수 있습니다. 이러한 공유된 이해는 임상의 교육자와 의학교육 연구자가 CBME 문헌 전반에서 일어나고 있는 다양한 논의를 이해하는 데 필수적이며, 이를 통해 CBME의 기회와 위협에 대한 폭넓은 논의를 진전시키고 추가 연구를 위한 격차와 기회를 발견할 수 있습니다. 우리의 연구 결과는 두 가지 주요 결과, 즉 의사 교육에 대한 미래의 접근 방식에 대한 의사 결정이 환자 결과 개선과 사회적 책임이라는 CBME의 열망적 목표에 부합하도록 하고, 교육자와 연구자가 연구 및 프로그램 평가 질문과 방법을 개발하여 문헌의 격차를 해소하는 작업을 더 잘 수행할 수 있도록 하는 데 기여하기 위한 것입니다.
The aim of this BEME scoping review is to synthesize existing CBME literature to identify the conversations within this complex and rapidly growing body of literature. By mapping these literary conversations in a systematic way, this synthesis can contribute to a shared understanding of the various views surrounding the conceptualization and implementation of CBME, particularly as it has evolved over time. This shared understanding is essential to help clinician educators and medical education researchers make sense of the distinct conversations that are happening across the CBME literature, which should advance broader discussions of opportunities and threats of CBME, as well as uncover gaps and opportunities for further research. Our findings are intended to contribute to a shared understanding that is intended to have two main outcomes: to ensure that the decisions made about the future approaches to physician training are aligned with CBME’s aspirational goals of improved patient outcomes and social accountability, and to better position educators and researchers for the work of developing research and program evaluation questions and methods to address gaps in the literature.


이 연구에서는 CBME에 대한 중요한 개념을 파악하고 현재의 격차와 향후 검토가 필요한 영역을 밝혀내는 등 연구 질문과 의도한 검토 결과를 일치시키기 위해 범위 검토 방법론을 선택했습니다(Grant and Booth 2009; Pham et al. 2014). 이 범위 검토의 개발은 다른 전문가들에 의해 이 프레임워크에 대한 개선과 함께 Arksey & O'Malley의 프레임워크에 따라 5단계로 구성되었습니다(Arksey & O'Malley 2005; Levac 외. 2010; Peters 외. 2015, 2017). 5단계는 (1) 연구 질문 파악 및 목표 조정, (2) 관련 연구 식별, (3) 연구 선정, (4) 데이터 추출 및 매핑, (5) 결과 종합 및 보고입니다. Levac 등(2010)이 제안한 여섯 번째 단계에는 소비자 및 이해관계자 참여가 포함됩니다. 
We selected a scoping review methodology for this study to align our research question and intended outputs of the review, including identifying important concepts about CBME and uncovering current gaps and areas for future examination (Grant and Booth 2009; Pham et al. 2014). The development of this scoping review was organized in five phases guided by Arksey & O’Malley’s framework along with enhancements to this framework by other experts (Arksey and O'Malley 2005; Levac et al. 2010; Peters et al. 2015, 2017). The five phases are

  • (1) identifying the research question and alignment of objectives;
  • (2) identifying relevant studies;
  • (3) study selection;
  • (4) extracting and mapping the data; and
  • (5) synthesizing and reporting the results.
  • A sixth step proposed by Levac et al. (2010) includes consumer and stakeholder involvement.

검토 저자 중 5명(DMH, SR, AO, KEH, EVM)은 국제 역량 기반 의학교육(ICBME) 협력자의 일원이며, ICBME 회의에서 이 BEME 검토에 대한 동료들의 피드백을 자주 권장했지만, 이는 비공식적으로 이루어졌기 때문에 검토 과정의 별도 단계로 포함되지는 않았습니다. 이 범위 검토에 대한 자세한 프로토콜은 근거 중심 의료 및 보건 전문가 교육 협력(에 등록되었습니다.

Five of the review authors (DMH, SR, AO, KEH, EVM) are members of the International Competency-Based Medical Education (ICBME) Collaborators and frequently encouraged feedback from colleagues during ICBME meetings about this BEME review; however, this was done informally and therefore not included as a distinct phase of the review process. A detailed protocol for this scoping review was registered with the Best Evidence Medical and Health Professional Education Collaboration (

1단계: 연구 질문 식별 및 목표 조정
Phase 1: Identifying the research question and alignment of objectives

이 범위 검토의 목적은 의학교육 커리큘럼을 CBME로 전환하는 것과 관련된 출판된 문헌의 문학적 대화를 탐색, 요약 및 체계적으로 매핑하는 것입니다. 이 검토에는 교육 연속체(학부, 대학원 및 평생 의학 교육)에 걸쳐 의사 교육에서 CBME를 구현하는 것에 관한 문헌적 논의가 포함됩니다.
The aim of this scoping review is to explore, summarize, and systematically map literary conversations in published literature surrounding medical education curriculum transformation to CBME. This review includes literary conversations about implementing CBME in physician training across the education continuum (undergraduate, postgraduate, and continuing medical education).

연구 질문: 의사 교육에 관한 출판된 문헌에서 CBME로의 전환을 둘러싼 문학적 논의는 무엇인가요?
Research question:
 What are the literary conversations surrounding the shift to CBME in published literature about physician training?


  1. 엄격한 방법론을 통해 출판된 문헌에서 CBME에 대한 다양한 견해를 요약합니다.
  2. CBME에 대한 다양한 관점의 의미 결정을 지원하기 위해 시간이 지남에 따라 이러한 문학적 대화와 견해의 진화를 설명합니다.
  3. 향후 프로그램 평가 및/또는 연구가 필요한 영역 발견
  4. Summarize, through rigorous methodology, the various views of CBME in published literature
  5. Illustrate the evolution of these literary conversations and views about CBME over time to support meaning making of the various perspectives about CBME
  6. Uncover areas requiring future program evaluation and/or research

2단계: 관련 연구 식별
Phase 2: Identifying relevant studies

이 범위 검토에서는 다양한 출판물과 기사 유형에서 발견되는 CBME에 대한 문학적 대화를 포착하고자 했습니다. 검색어를 사용하여 전 세계적으로 CBME의 철학, 변화의 원동력 및 후속 실행에 관한 출판물을 포착했습니다. 예비 포함 및 제외 기준을 사용하여 5명의 팀원(DMH, KEH, AO, EVM, SR)이 연구 선정을 위해 정보 과학자(RF)가 제공한 무작위로 선정된 40개의 논문을 검토했습니다. 이 과정은 합의를 도출하고 포함 및 제외 기준을 구체화하기 위한 반복적인 팀 프로세스였습니다. 이 접근 방식은 Levac 외(2010)가 제안한 범위 검토 프레임워크 개선 사항과 일치합니다. 표 1은 최종 포함/제외 기준과 검색 매개변수를 정의한 정보 과학자(RF, DKL)와 협력하여 식별한 후속 키워드 및 검색어를 보여줍니다. 검색 대상은 1978년 CBME가 도입된 이후부터 2020년까지의 출판물로 제한했습니다(McGaghie 외. 1978). 
This scoping review sought to capture literary conversations about CBME found in diverse publications and article types. Search terms were used to capture publications about the philosophy, impetus for the change, and subsequent implementation of CBME globally. Using the preliminary inclusion and exclusion criteria, five members of the team (DMH, KEH, AO, EVM, SR) examined 40 randomly selected articles provided by the information scientist (RF) for study selection. This was an iterative team process to establish consensus and refine the inclusion and exclusion criteria. This approach aligns with the scoping review framework enhancements proposed by Levac et al. (2010). Table 1 illustrates the final inclusion/exclusion criteria, and subsequent keywords and search terms identified in collaboration with information scientists (RF, DKL) that defined the parameters of the search. We limited our search of publications from the introduction of CBME in 1978 (McGaghie et al. 1978) to 2020.

다음 데이터베이스를 검색하여 CBME 문학적 대화에 관한 관련 문헌을 찾았습니다: MEDLINE(Ovid), ERIC(EBSCOhost), PsychINFO(Ovid), Embase(Ovid), Web of Science(Clarivate), ProQuest 뉴스 및 신문, ProQuest 논문 및 논문 글로벌, 캐나다 가정의학과 대학, 캐나다 왕립 의사 및 외과의사 대학, BEME 협업의 공식 웹사이트. 또한 관련 논문을 찾기 위해 참고 문헌 목록과 Google Scholar 결과의 첫 10페이지를 직접 검색했습니다. 주요 검색어는 다음과 같습니다: CBME; 설계에 의한 역량; 마일스톤 프로젝트; 트리플 C; 역량 기반 의학교육; 성과 기반 교육(잘라내기, 와일드카드, 'OR' 및 'AND' 부울 연산자 사용으로 키워드를 변형하여 검색)(검색 전략은 보충 부록 A 참조). 종합적인 문헌 검색은 2020년 4월 29일에 완료되었습니다. 
We searched the following databases to identify relevant literature about CBME literary conversations: MEDLINE (Ovid), ERIC (EBSCOhost), PsychINFO (Ovid), Embase (Ovid), Web of Science (Clarivate), ProQuest News and Newspapers, ProQuest Dissertations and Theses Global, the official websites of the College of Family Physicians of Canada, the Royal College of Physicians and Surgeons of Canada, and BEME Collaborations. We also hand searched reference lists and the first 10 pages of Google Scholar results to identify relevant articles. The key search terms included: CBME; Competence by Design; Milestones Project; Triple C; Competency-Based Medical Education; Outcome-Based Education with variations to keywords using truncation, wildcards, and use of ‘OR’ and ‘AND’ Boolean operators (see Supplementary Appendix A for search strategy). The comprehensive literature search was completed on 29 April 2020.

3단계: 연구 선정
Phase 3: Study selection

5명의 검토자(DMH, LB 시간 제한 기여, ZL, GNP, MEA)가 공유 엑셀 스프레드시트의 포함 양식 템플릿을 사용하여 식별된 모든 논문의 제목과 초록을 이중으로 선별하는 데 참여했습니다. CBME의 개념, 철학 및/또는 구현에 관한 내용을 제공하는 출판물도 포함했으며, 5명의 검토자 모두 해당 논문의 전문을 읽고 검토 대상에 포함되는지 확인했습니다. 불일치는 토론과 팀 합의를 통해 해결했습니다. 관련 연구를 선정하기 위해 설명된 절차는 체계적 문헌고찰 및 범위 검토를 위한 메타분석 확장(PRISMA-ScR)의 우선 보고 항목을 준수합니다(Tricco 외. 2018). 
Five reviewers (DMH, LB-time-limited contribution, ZL, GNP, MEA) participated in dual screening of titles and abstracts of all identified articles using an inclusion form template in shared Excel spreadsheets. We included publications that provided content about the concept, philosophy and/or implementation of CBME; all five reviewers read full text versions of these articles and confirmed inclusion in the review. Discrepancies were resolved through discussion and team consensus. The procedures described to select relevant studies adheres to the Preferred Reporting Items for Systematic Reviews and Meta-Analyses Extension for Scoping Reviews (PRISMA-ScR) (Tricco et al. 2018).

4단계: 데이터 추출 및 매핑
Phase 4: Extracting and mapping data

CBME에 대한 문헌적 대화를 포착하는 이 범위 검토의 목적을 달성하기 위해, 우리는 차트 작성 과정에서 인식된 장점, 인식된 단점, 인식된 도전/불확실성/회의론, CBME와 관련된 권고사항에 대한 정보를 수집했습니다. 검토자들은 개별 논문의 맥락과 저자가 어떻게 주장을 펼쳤는지에 따라 도전 과제와 인지된 단점 간의 차이에 대해 판단했습니다. 5명의 리뷰어(DMH, LB 시간 제한 기여, ZL, GNP, MEA) 모두 50개의 논문에서 관련 데이터를 중복 추출하여 데이터의 정확성을 확인한 후, 데이터를 독립적으로 추출하여 앞서 언급한 범주로 분류했습니다. DMH는 나머지 추출에 대해 무작위 감사를 실시하여 정확성을 확인했습니다. 또한 매핑에는 저자, 연도, 제1저자 국가, 학술지, 논문 유형, 문학 대화의 전반적인 입장(긍정, 부정, 혼합)도 포함되었습니다.  
To address the purpose of this scoping review to capture the literary conversations about CBME, we collated information in the charting process about perceived advantages, perceived disadvantages, perceived challenges/uncertainties/skepticism, and recommendations associated with CBME. Reviewers made a judgement regarding the differences between challenges and perceived disadvantages based on the context of the individual article and how the authors made their argument. All five reviewers (DMH, LB-time limited contribution, ZL, GNP, MEA) extracted relevant data from 50 articles in duplicate to confirm data accuracy followed by independent extraction and categorization of the data into the aforementioned categories. DMH conducted random audits of remaining extractions to confirm accuracy. Mapping also included the author, year, country of first author, journal, article type, and overall position (positive, negative, mixed) of the literary conversation.

이 검토의 방법은 행동과 개선을 촉진하기 위해 관련성 있고 유용한 정보를 제공하는 것을 목표로 구성주의/해석주의 및 실증주의 연구 전통과 방법을 모두 통합하는 실용주의의 철학적 전통에 뿌리를 두고 있습니다. 
The methods of this review are rooted in the philosophical tradition of pragmatism, which integrates both constructivist/interpretivist and positivist research traditions and methods with the aim of providing relevant and useful information to promote action and improvement.

387개의 기록에서 추출한 방대한 양의 데이터를 독자를 위한 실용적인 형태로 통합하기 위해 세 명의 검토자(DMH, ZL, IZ)는 주제별 분석(Braun and Clarke 2014, Kiger and Varpio 2020)을 사용하여 기술된 장점, 단점 및 권장 사항을 종합했습니다. 세 명의 검토자 모두 합의에 도달할 때까지 주제에 대해 여러 차례 반복적으로 논의했습니다. 도전 과제/불확실성/회의론은 이 리뷰의 토론 섹션에 10년별로 요약되어 있습니다. 
To consolidate the large amount of data extracted from 387 records into a practical form for readers, three reviewers (DMH, ZL, IZ) used thematic analysis (Braun and Clarke 2014; Kiger and Varpio 2020) to synthesize the described advantages, disadvantages, and recommendations. All three reviewers discussed multiple iterations of the themes until they reached consensus. The challenges/uncertainties/skepticisms are summarized by decade and in the discussion section of this review.

마지막으로, 세 명의 검토자(DMH, ZL, IZ)는 주제 분석에서 생성된 각 주제에 대해 추출된 뒷받침 사례에 대한 내용 분석(Hsieh and Shannon 2005)을 사용하여 시간에 따른 문학적 대화의 빈도를 나타내는 히트 맵을 만들었습니다. 
Finally, the three reviewers (DMH, ZL, IZ) used content analysis (Hsieh and Shannon 2005) of supporting examples extracted for each of the themes generated from the thematic analysis to create a heat map to depict the frequencies of literary conversations over time.

5단계: 결과 요약 및 보고
Phase 5: Summarizing and reporting findings

이 검토의 마지막 단계는 연구 질문과 전반적인 목표를 해결하기 위해 결과를 요약하고 보고하는 것입니다. 
The final phase of this review entailed summarizing and reporting the findings to address the research question and overall objectives.


설명적 결과
Descriptive results

검색 전략을 통해 중복을 제외한 5757개의 논문이 검색되었습니다. 총 387개의 논문이 이 검토의 포함 기준을 충족했습니다(그림 1). 무작위로 선정된 368개의 데이터 추출 항목(5번째 항목마다) 중 올바른 추출 수를 기준으로 계산한 DMH, ZL, GNP, MEA의 평가자 간 신뢰도는 0.85~0.95 범위였습니다.  
The search strategy yielded 5757 articles, excluding duplicates. A total of 387 articles met the inclusion criteria for this review (Figure 1). Interrater reliability among DMH, ZL, GNP, and MEA ranged from 0.85 to 0.95 calculated by the number of correct extractions out of a random selection of 368 data extraction entries (every fifth entry).

연도별로는 1978년에서 1989년 사이에 1.0%(n = 4), 1990년에서 1999년 사이에 1.3%(n = 5), 2000년에서 2009년 사이에 16.3%(n = 63), 2010년에서 2019년 사이에 74.4%(n = 288), 2020년에서 2020년 4월 29일까지 7.0%(n = 27)가 출판되었습니다(2021년 출판 논문의 프리프린트 포함)(보충 부록 B). 포함된 출판물 중 72.1%(n = 279)는 북미, 17.1%(n = 66) 유럽, 7.0%(n = 27) 아시아, 2.6%(n = 10) 호주/오세아니아, 0.5%(n = 2) 아프리카의 저자가 주도했으며, 0.8%(n = 3)의 논문은 저자 국가가 표시되지 않았습니다(그림 2). 
By decade, 1.0% (n = 4) were published between 1978 and 1989, 1.3% (n = 5) between 1990 and 1999, 16.3% (n = 63) between 2000 and 2009, 74.4% (n = 288) between 2010 and 2019, and 7.0% (n = 27) in 2020 through 29th April 2020 (including preprints of articles published in 2021) (Supplementary Appendix B). Of the included publications, 72.1% (n = 279) were led by an author from North America, 17.1% (n = 66) from Europe, 7.0% (n = 27) from Asia, 2.6% (n = 10) from Australia/Oceania, 0.5% (n = 2) from Africa, and 0.8% (n = 3) of articles did not report the author’s country (Figure 2).


포함된 387건의 논문 중 67.7%(n = 262건)는 관점/논평 논문, 25.3%(n = 98건)는 평가 연구, 7.0%(n = 27건)는 프로그램 설명 논문이었습니다(보충 부록 B). 또한 78.3%(n = 303)는 CBME에 대한 여러 문학적 대화(즉, 긍정, 부정, 도전, 불확실성, 회의론의 조합)와 관련된 요소를 포함하고 있었고, 11.6%(n = 45)는 긍정적인 문학적 대화를, 9.0%(n = 35)는 부정적인 문학적 대화를, 1.0%(n = 4)는 입장을 나타내는 내용 없이 CBME에 대한 설명을 제공했습니다(보충 부록 B). 
Of the 387 included publications, 67.7% (n = 262) were perspective/commentary publications, 25.3% (n = 98) were evaluation studies, and 7.0% (n = 27) were program descriptions (Supplementary Appendix B). Additionally, 78.3% (n = 303) contained components relevant to multiple literary conversations about CBME (i.e. a combination of positive, negative, challenges, uncertainties, and skepticisms), 11.6% (n = 45) contained positive literary conversations, 9.0% (n = 35) contained negative literary conversations, and 1.0% (n = 4) provided a description of CBME without content indicating a position (Supplementary Appendix B).

출판물은 교육 연속체 중 어디에 중점을 두었는지에 따라 다양했습니다. 학부 수준에서는 5.4%(n = 21)의 출판물이 학습자, 0.5%(n = 2)의 출판물이 교수진, 4.1%(n = 16)의 출판물이 학습자와 교수진 모두에 초점을 맞추었습니다. 대학원 수준에서는 학습자에 초점을 맞춘 출판물이 16.8%(n = 65), 교수진에 초점을 맞춘 출판물이 4.9%(n = 19), 학습자와 교수진 모두에 초점을 맞춘 출판물이 26.6%(n = 103)를 차지했습니다. 평생 직업 교육 수준에 초점을 맞춘 출판물은 4.1%(n = 16)에 불과했습니다. 
The publications varied in where they focused on the educational continuum. At the undergraduate level, 5.4% (n = 21) of publications focused on learners, 0.5% (n = 2) on faculty, and 4.1% (n = 16) on both learners and faculty. At the postgraduate level, 16.8% (n = 65) of publications focused on learners, 4.9% (n = 19) on faculty, and 26.6% (n = 103) on both learners and faculty. Only 4.1% (n = 16) of publications specifically focused on the continuing professional education level.

여러 단계의 연속체에 걸쳐 초점을 맞추거나 한 단계에서 다음 단계로의 전환을 조사한 출판물도 있었습니다: 12.1%(n = 47)는 의과대학 학부에서 대학원 교육으로 이어지는 연속체에 있는 학습자에 초점을 맞추었고, 0.3%(n = 1)는 대학원 의학 교육에서 지속적인 전문성 개발로 이어지는 연속체에, 5.2%(n = 20)는 학부에서 지속적인 전문성 교육으로 이어지는 전체 연속체에 있는 학습자에 초점을 맞췄습니다. 마지막으로, 출판물의 19.9%(n = 77)는 특정 학습자 또는 교수진 집단을 보고하지 않았습니다(보충 부록 B).  
Several publications focused either across multiple levels of the continuum or examined transition from one level to the next: 12.1% (n = 47) focused on learners on the continuum from undergraduate medical school to postgraduate training, 0.3% (n = 1) on the continuum from postgraduate medical education to continuing professional development, and 5.2% (n = 20) on learners across the full continuum from undergraduate to continuing professional education. Finally, 19.9% (n = 77) of the publication did not report a specific population of learners or faculty (Supplementary Appendix B).

의미 도출을 촉진하기 위한 문학적 대화 매핑
Mapping the literary conversations to facilitate meaning making

주제별 분석 결과를 사용하여 문학적 대화를 10년 단위로 매핑하고, 각 10년의 글에 나타난 주제의 특징을 요약했습니다. 
We mapped the literary conversations decade by decade using findings from the thematic analysis, and summarized characteristics of themes in each decade’s articles.

문학 대화의 주제별 분석
Thematic analysis of literary conversations

세 명의 검토자(DMH, ZL, IZ)는 확인된 게시물의 콘텐츠에서 다음과 같이 인식된 장점, 인식된 단점 및 권장 사항과 같은 중요한 범주를 식별했습니다. 이러한 주제는 저자, 연도, 제1저자 국가, 학술지, 논문 유형, 문학 대화의 전반적인 입장(긍정적, 부정적, 혼합)을 포함하는 표에 제시되어 있습니다(부록 B). 또한 주제와 예시에 대한 개요 요약이 표 2에 나와 있습니다. CBME 문학 대화의 주제는 다음과 같습니다:
Three reviewers (DMH, ZL, IZ) identified overarching categories within the content of the identified publications as follows: perceived advantages, perceived disadvantages, and recommendations. The themes are presented in a table, which also includes the author, year, country of first author, journal, article type, and overall position (positive, negative, mixed) of the literary conversation (Supplementary Appendix B). Additionally, an overview summary of the themes and exemplars is presented in Table 2. Themes of CBME literary conversations include:


콘텐츠 분석을 통해 8가지 주제(신뢰성, 적용, 커뮤니티 영향, 학습자 영향, 평가, 교육 개발, 조직 구조, 사회적 영향)를 10년별, 입장별(예: 인지된 장점, 인지된 단점, 추천)로 문학적 대화를 표시하는 히트 맵으로 정리했습니다. 이 시각적 그림은 CBME에 대한 토론에서 주제를 정량화한 것으로, 음영 정도에 따라 빈도를 나타냅니다(즉, 음영이 진할수록 빈도가 높음을 나타냄)(그림 3). 포함된 기사의 콘텐츠 예시는 아래 섹션에 제시되어 있으며, 이 섹션에서는 문학적 대화에 대해 10년별로 논의합니다. 문학적 대화의 전체 목록은 부록 B에서 확인할 수 있으며, 10년별 문학적 대화의 세부 표는 부록 C에서 확인할 수 있습니다. 
Through content analysis, the eight themes (credibility, application, community influence, learner impact, assessment, educational developments, organizational structures, and societal impacts) were organized into a heat map displaying literary conversations by decade and by position (i.e. perceived advantage, perceived disadvantage, or recommendation). This visual illustration depicts the quantification of themes in the discussions about CBME and illustrates the frequency based on degree of shading (i.e. darker shading indicates higher frequency (Figure 3). Exemplars of the content from the included articles are presented in the sections further below, where we discuss the literary conversations by decade. A comprehensive listing of the literary conversations is found in Supplementary Appendix B, while detailed tables of the literary conversations by decade are in Supplementary Appendix C.

10년별 문학적 대화의 하이라이트는 아래에 제시되어 있습니다. 각 10년 동안의 주제별 분석 결과는 인식된 장점, 인식된 단점 및 권장 사항별로 정리되어 있습니다(그림 3). 각 10년의 문헌에서 나타난 도전 과제 및/또는 불확실성을 그룹으로 설명합니다. 
Highlights of the literary conversations by decade are presented below. Within each decade, findings from the thematic analysis are organized by perceived advantages, perceived disadvantages, and recommendations (Figure 3). We describe challenges and/or uncertainties from the literature in each decade as a group.

1978년부터 1989년까지의 CBME 문헌 대화(그림 3, 보충 부록 C, 표 1)
CBME literary conversations from 1978 to 1989 (Figure 3Supplementary Appendix C, Table 1)

1978년부터 1989년까지 CBME에 대해 인지된 장점(n = 21, 45.7%), 인지된 단점(n = 11, 23.9%), 권장 사항(n = 14, 30.4%)이라는 8가지 주제를 중심으로 총 46건의 토론을 확인했습니다. 1978년부터 1989년까지 발표된 논문에서 나타난 도전/불확실성/회의론은 주로 의학교육에 대한 새로운 접근 방식을 채택하는 데 있어 [변화 관리 문제]에 관한 것이었습니다.
We identified a total of 46 discussions around the eight identified themes about CBME from 1978 to 1989: perceived advantages (n = 21, 45.7%), perceived disadvantages (n = 11, 23.9%), and recommendations (n = 14, 30.4%). Challenges/uncertainties/skepticism in the publications from 1978 to 1989 were primarily about change management issues in adopting a new approach to medical education.

인식된 이점
Perceived advantages

1978년부터 1989년까지 문헌적 대화는 [주로 효율적이고 비용 효율적인 교육]과 같이 CBME를 시행함으로써 얻을 수 있는 교육 발전의 이점에 대한 인식에 초점을 맞추었습니다(n = 9, 42.9%). 모든 교육생이 숙달에 도달할 수 있다는 [경험적으로 검증된 원칙]과 같은 [신뢰성](n = 4, 19.0%)과 최종 결정에 앞서 어려움을 겪는 교육생을 식별하는 [형성 평가의 역할]과 같은 [평가](n = 4, 19.0%)가 두 가지 두드러진 추가 주제였습니다. 마지막으로 눈에 띄지는 않지만 테스트할 수 있는 CBME의 활동과 같은 [적용 주제](n = 2, 9.5%)와 투명한 기대치와 개인화된 학습으로 인해 교육생에게 CBME의 매력과 같은 [학습자 영향](n = 2, 9.5%)를 확인했습니다. 주목할 만한 점은 [커뮤니티 영향력, 조직 구조 또는 사회적 영향]과 관련하여 인지된 장점에 대한 주제를 담은 대화가 없었다는 점입니다.
From 1978 to 1989, literary conversations focused predominantly (n = 9, 42.9%) on the perceived advantages of educational developments that could result from implementing CBME, such as efficient and cost-effective training. Two prominent additional themes were credibility (n = 4, 19.0%), such as the empirically validated principle that all trainees are capable of reaching mastery, and assessment (n = 4, 19.0%), such as the role of formative assessment in identifying struggling trainees prior to summative decisions. Lastly, and less prominently, we identified themes of application (n = 2, 9.5%), such as the activities of CBME that could be tested, and learner impact (n = 2, 9.5%), such as the appeal of CBME to trainees because of personalized learning with transparent expectations. Notably, there were no literary conversations capturing themes of perceived advantages associated with community influence, organizational structures, or societal impacts.

인식된 단점
Perceived disadvantages

이 10년 동안 트위터에서는 문학적 대화에 나타난 CBME의 네 가지 주요 단점을 확인했습니다.

  • 첫 번째 단점으로 인식된 것은 교육적 발달(n = 4, 36.4%)로, CBME 교육 모델이 '역량'에 초점을 맞추기 때문에 우수성보다는 평범함을 키울 수 있다는 우려가 제기되었습니다.
  • CBME의 신뢰성(n = 4, 36.4%)에 대한 우려도 확인되었는데, CBME가 믿음, 근거 없는 의견, 제한된 개인 경험에 의해 주도된다는 인식이 표출되었습니다.
  • 역량이 어떻게 정의되는지 또는 어떤 역량이 필수적인지에 대한 [공유된 합의]가 없는 등 커뮤니티 영향력과 관련된 인식된 단점(n = 2, 18.2%)과
  • 의학교육 혁신 참여에 대한 [제한된 보상]과 같은 조직 구조(n = 1, 9.1%)도 이 기간 동안 포착되었습니다.
  • 그러나 적용 주제, 학습자 영향, 평가 및 사회적 영향과 관련된 단점은 다루지 않은 논문이 포함되었습니다.

During this decade, we identified four main perceived disadvantages of CBME that appeared in literary conversations.

  • The first perceived disadvantage focused on educational development (n = 4, 36.4%) where concerns were raised that the CBME training model would foster mediocrity rather than excellence (due to a focus on ‘competence’).
  • Concerns were also identified in the theme of credibility of CBME (n = 4, 36.4%), where perceptions were expressed of CBME being driven by faith, unsupported opinions, and limited personal experience.
  • Perceived disadvantages associated with
    • community influence (n = 2, 18.2%), such as no shared agreement about how competency is defined or which competencies are essential, and
    • organizational structures (n = 1, 9.1%), such as limited reward for engaging in medical education innovation were also captured during this time period.
  • However, included articles did not address disadvantages related to themes of application, learner impact, assessment, and societal impacts.

권장 사항

포함된 문서에 포함된 권장 사항은 이 기간 동안 6가지 주제를 다루었습니다.

  • 여기에는 변화를 주도하는 의과대학 리더의 책임과 같은 커뮤니티 영향력 강화(n = 4, 28.8%),
  • 커리큘럼 발전과 혁신을 주도하는 사람들을 인정하고 보상하는 등 조직 구조를 통한 CBME 지원 보장(n = 3, 21.4%)이 포함되었습니다.
  • 변화 이니셔티브에 대한 투자를 촉진하기 위한 교수진 개발의 필요성과 같은 적용(n = 2, 14.3%)과
  • 성장의 여지를 허용하고 부담을 줄이기 위해 평가 간격을 두는 것과 같은 평가(n = 2, 14.3%)가 확인된 기타 주제도 포함되었습니다.
  • 분석에서 확인된 최종 주제는 CBME로 전환하는 동안 연수생과 교수진의 심리적 필요를 지원하는 것과 같은 교육 개발(n = 2, 14.3%)과
  • 연수생 역량에 대한 명확한 그림을 포착하기 위해 다양한 출처에서 데이터를 수집해야 하는 것과 같은 신뢰성(n = 1, 7.1%)이었습니다.

Recommendations in the included articles addressed six themes during this time period. These included

  • enhancing community influence (n = 4, 28.8%), such as the responsibility of medical school leaders to drive the change, and
  • ensuring support for CBME through organizational structures (n = 3, 21.4%), including recognizing and rewarding those driving curricular advancement and innovation.
  • Other themes that were identified included
    • application (n = 2; 14.3%), such as the need for faculty development to foster investment in the change initiative, and
    • assessment (n = 2, 14.3%), such as spacing out assessments to allow room for growth and reducing burden.
  • The final themes identified in the analysis were
    • educational developments (n = 2, 14.3%), such as supporting the psychological needs of trainees and faculty during the transition to CBME, and
    • credibility (n = 1, 7.1%), such as the need to collect data from diverse sources to capture a clear picture of trainee competence.

도전 과제/불확실성/회의론

[변화 관리 문제]는 1978년부터 1989년까지 네 권의 출판물에서 모두 다루었던 주요 과제였습니다. 저자들은 학습자와 교육자가 맡아야 할 새로운 역할과 이러한 역할이 어떻게 전달되고 지원될 수 있는지를 파악했습니다. 특히 모든 저자들은 숙달, 형성 평가, 규범 기반 평가가 아닌 기준 사용과 같은 [CBME의 요소에 대한 교육자의 태도를 바꾸는 것이 어렵다]는 점에 대해 우려를 표명했습니다. 또한 적절한 지원(교수진 개발, 학습자 참여, 새로운 커리큘럼의 개선을 유도하기 위한 프로그램 평가 프로세스) 없이 [변화가 너무 빠르게 진행될 수 있다]는 잠재적 문제도 제기했습니다. 마지막 불확실성은 학습 목표가 명확하고 명시적인지 확인하는 것과는 반대로 [개별적인 개별 역량을 식별할 수 있는지 또는 식별해야 하는지]에 관한 것이었습니다.
Change management issues were the primary challenge addressed in all four included publications from 1978 to 1989. Authors identified the new roles that would need to assumed by learners and educators, and how these roles would be communicated and supported. In particular, all authors expressed concern about the difficulty in changing educators’ attitudes about such elements of CBME as mastery, formative assessment, and using criterion rather than norm-based assessments. A key challenge was the potential problem of change happening too fast, without adequate support (faculty development, engaging learners, program evaluation processes to guide refinement of new curriculum). The final uncertainty was about whether individual discrete competencies could or should be identified as opposed to ensuring that learning objectives were clear and explicit.

1990년부터 1999년까지 CBME 문학적 대화(그림 3, 보충 부록 C, 표 2)
CBME literary conversations from 1990 to 1999 (Figure 3Supplementary Appendix C, Table 2)

1990년부터 1999년까지 포함된 기사에서 8가지 주제에 대한 49개의 토론을 확인했습니다. 이러한 대화는 인지된 장점(n = 25, 51.0%), 인지된 단점(n = 5, 10.2%), 권장 사항(n = 19, 38.8%)에 분포되어 있었습니다. 이 10년간의 문헌에 포함된 과제/불확실성/회의론과 관련된 대화는 CBME의 [기본 가정]과 CBME를 [채택해야 하는지 여부]에 초점을 맞추었습니다.
In the included articles from the decade 1990–1999, we identified 49 discussions around the eight identified themes. These conversations were distributed among perceived advantages (n = 25, 51.0%), perceived disadvantages (n = 5, 10.2%), and recommendations (n = 19, 38.8%). Conversations related to challenges/uncertainties/skepticism in the included literature from this decade focused on the underlying assumptions of CBME, as well as whether CBME needed to be adopted.

인식된 이점
Perceived advantages

1990년부터 1999년까지 CBME의 인지된 장점에 초점을 맞춘 문헌은

  • 교수진과 연수생 간의 사명/공통 목표 공유에 대한 논의를 포함하여 학습자 영향(n = 7, 28.0%)과 관련된 내용이 주를 이루었습니다.
  • 교육적 발달(n = 6, 24.0%)에서는 암기식 학습 보다 직장 기반 평가의 진정성 등의 주제를 다룬 문학적 대화가 있었습니다.
  • 신뢰성(n = 4, 16.0%)에서는 교육적, 정치적, 직업적, 윤리적으로 CBME를 받아들이는 것에 대한 논의가 있었습니다.
  • 커뮤니티 영향력(n = 4, 16.0%)은 다양한 이해관계자(예: 커뮤니티, 환자, 고용주 및 기타 직업군)가 교육과정 개발에 참여하는 것에 대한 문학적 대화에서 확인되었습니다.
  • 이 기간 동안 문학적 대화에서 확인된 다른 주제는
    • 교육 결과에 초점을 맞추는 것과 같은 CBME 적용(n = 2, 8.0%),
    • 교육생 성과에 대한 어려운 대화를 역량에 도달하기 위한 성장 기회로 재구성하는 것과 같은 평가(n = 1, 4.0%),
    • CBME 관행 및 활동의 채택을 이끄는 제도적 가치와 같은 조직 구조(n = 1, 4.0%)였습니다.
  • 이 기간 동안 CBME의 사회적 영향에 대한 인식된 장점은 논의되지 않았습니다.

From 1990 to 1999,

  • predominant literary conversations focused on perceived advantages of CBME were associated with learner impact (n = 7, 28.0%), including discussions of shared mission/common goals between faculty and trainees.
  • For the Educational Developments theme (n = 6, 24.0%), literary conversations addressed topics like the authenticity of workplace-based assessments over rote learning.
  • Credibility theme (n = 4, 16.0%) discussions included the acceptance of CBME educationally, politically, professionally, and ethically.
  • The theme of Community Influence (n = 4, 16.0%) was identified in literary conversations about the engagement of diverse stakeholders (i.e. community, patients, employers, and other professions) in curriculum development.
  • Other themes identified in the literary conversations in this time period were
    • Application of CBME (n = 2, 8.0%), such as focusing on the outcomes of training,
    • Assessment (n = 1, 4.0%), such as reframing difficult conversations about trainee performance into growth opportunities to reach competence, and
    • Organizational Structures (n = 1, 4.0%), such as institutional values driving the adoption of CBME practices and activities.
  • No perceived advantages of CBME on Societal Impacts were discussed during this time period.

인식된 단점
Perceived disadvantages

이 10년 동안의 문헌적 대화에서는

  • 이전 10년 동안 확인된 교육 모델로서의 CBME의 신뢰성(n = 2, 40.0%)과 관련된 인식된 단점에 대한 논의가 계속되고 있음을 보여주었습니다. 특히, 미리 결정된 학습 결과가 학습자가 발견하고 자발적으로 탐구할 기회를 제한할 수 있다는 우려가 제기되었습니다.
  • 이 10년간의 개별 기사에는 다음 주제에 부합하는 CBME의 단점에 대한 논의가 포함되어 있습니다:
    • CBME 적용(n = 1, 20.0%): 식별된 역량의 수가 방대하여 비현실적으로 결과에 집중할 수 있다는 점,
    • 커뮤니티 영향력(n = 1, 20.0%): 각 전문 분야에 필요한 역량에 대한 합의에 도달하기 어려워 CBME를 시행하지 못한 과거의 노력,
    • 교육적 발달(n = 1, 20.0%): 미리 정해진 역량 개발을 통해 학습에 제약이 있다는 점 등입니다.
  • 특히 이 기간에 포함된 논문에서는 학습자 영향, 평가, 조직 구조 또는 사회적 영향과 관련하여 인지된 단점에 대해서는 논의하지 않았습니다.

Literary conversations during this decade demonstrated

  • a continuation of the discussion of perceived disadvantages associated with the Credibility of CBME as a training model (n = 2, 40.0%) that were identified for the preceding decade. Specifically, concerns were raised that pre-determined outcomes of learning may limit opportunities for learners to engage in discovery and spontaneous inquiry.
  • Individual articles in this decade included conversations about perceived disadvantages of CBME that aligned with the following themes:
    • Application of CBME (n = 1, 20.0%), such as the impractical focus on outcomes because of the vast number of competencies identified;
    • Community Influence (n = 1, 20.0%), such as past efforts failing to implement CBME because of difficulties reaching consensus on necessary competencies for each specialty, and;
    • Educational Developments (n = 1, 20.0%), such as the constrictions placed on learning through the development of pre-determined competencies.
  • Notably, the included articles in this time period did not discuss perceived disadvantages associated with learner impact, assessment, organizational structures, or societal impacts.

권장 사항

이 기간의 권장 사항은 [역량 개발 시 다양한 이해관계자 참여]와 같은 커뮤니티 영향력(n = 4, 21.1%)과 [기준 참조 시스템 채택]과 같은 평가(n = 4, 21.1%)에 중점을 두었습니다. 교육적 발달(n = 4, 21.1%) 주제에서는 [학습자 포트폴리오 개발, 교육에 대한 학습자 소유권 등]이 권장 사항으로 포함되었습니다. 추가 권장 사항으로는 커리큘럼 개발을 안내하는 교육 성과와 같은 적용(n = 3, 15.8%) 테마와 의사 결정을 지원하는 필수 역량에 대한 증거 기반 개발과 같은 신뢰성(n = 2, 10.5%) 테마에 대한 제안이 포함되었습니다. 마지막으로, 이번 10년간의 문학적 대화의 일부 권고사항은 학습자 영향(n = 2, 10.5%)이라는 주제와 일치하며, CBME가 성공하기 위해서는 프로그램과 학교가 교육생에게 적절한 자원을 제공해야 한다는 제안을 포함했습니다.
Recommendations for this time period centered on Community Influence (n = 4, 21.1%), such as engaging diverse stakeholders when developing competencies, and Assessment (n = 4, 21.1%), such as adopting criterion-referenced systems. For the theme of Educational Developments (n = 4, 21.1%), recommendations included development of a learner portfolio and learner ownership over training. Additional recommendations included suggestions in the themes of Application (n = 3, 15.8%), such as educational outcomes guiding curriculum developments, and Credibility (n = 2, 10.5%), such as developing an evidence-base about essential competencies to support decisions. Finally, some of the recommendations in the literary conversations of this decade aligned with the theme of Learner Impact (n = 2, 10.5%), and included the suggestion that programs and schools would need to provide adequate resources to trainees in order for CBME to be successful.

도전 과제/불확실성/회의론

이 10년간 포함된 5개의 출판물은 모두 CBME 자체에 대한 기본 가정과 관련된 불확실성에 대한 문학적 논의에 기여했습니다: CBME는 개념화하기는 쉽지만 정의하기는 어렵다고 여겨졌으며, 특히 이해관계자 그룹에 따라 정의된 성과 목표가 다를 때 더욱 그러했습니다. 또한 CBME 도입의 필요성에 대한 불확실성이 제기되어 기존 커리큘럼에서 변화가 필요하다는 주장에 이의를 제기했습니다. 또 다른 논의에서는 역량이나 결과에 초점을 맞추면 임상 및 과학 지식이 저평가되는 결과를 초래할 수 있는지에 대한 논의도 있었습니다. 마지막으로, 역량 프레임워크와 평가 시스템 및 접근법을 개발하기 위해 교수진이 여러 가지 작업을 수행해야 하는 부담이 CBME의 주요 과제로 지적되었습니다.
All five included publications for this decade contributed to literary conversations about uncertainties related to underlying assumptions about CBME itself: CBME was seen as easy to conceptualize, but difficult to define – especially when defined outcomes objectives differed by stakeholder groups. Uncertainty was also addressed about the need to adopt CBME, challenging the assertion that a change from the existing curriculum was needed. Another conversation addressed whether a focus on competencies or outcomes would result in the undervaluing of clinical and scientific knowledge. Finally, the burden on faculty in taking on multiple tasks to develop competency frameworks and assessment systems and approaches was expressed as a major challenge to CBME.

2000년부터 2009년까지의 CBME 관련 문헌(그림 3, 보충 부록 C, 표 3)
CBME literary conversations from 2000 to 2009 (Figure 3Supplementary Appendix C, Table 3)

2000년부터 2009년까지 포함된 논문을 분석한 결과, 인식된 장점(n = 53, 25.1%), 인식된 단점(n = 79, 37.4%), 권장 사항(n = 79, 37.4%)을 포함하여 8개의 식별된 주제에 대한 211건의 논의가 도출되었습니다. 이 10년간의 문헌적 논의에서 제기된 도전/불확실성/회의론은 CBME가 '효과가 있다'는 [증거의 필요성]과 CBME 실행의 [로지스틱스]에 초점을 맞추었습니다.
Analysis of the included articles from 2000 to 2009 yielded 211 discussions around the eight identified themes, including perceived advantages (n = 53, 25.1%), perceived disadvantages (n = 79, 37.4%), and recommendations (n = 79, 37.4%). Challenges/uncertainties/skepticism in the literary conversations for this decade focused on the need for evidence that CBME ‘works’ as well as the logistics of implementing CBME.

인식된 이점
Perceived advantages

이 기간 동안 인식된 장점은 8가지 주제 모두에 해당합니다.

  • 가장 눈에 띄는 주제는 교육적 발달(n = 13, 24.5%)로, 저자들이 CBME 모델의 교육 효율성에 대한 예비 정보를 논의한 논문이 포함되었습니다.
  • 저자들이 역량 평가에 다양한 의료 전문가가 참여하는 것에 대해 긍정적으로 언급한 평가(n = 8, 15.1%)와
  • CBME가 시간 및 정적 지식 기반 접근법을 넘어서는 논리적 단계로 자리매김한 신뢰성(n = 8, 15.1%) 주제에서도 인식된 이점이 확인되었습니다.
  • 이 시기에는 사회적 영향이라는 주제와 관련된 콘텐츠가 처음으로 등장했습니다(n = 8, 15.1%). 이 주제와 관련된 문학적 대화의 예로는 의료 교육은 대중에게 책임을 져야 하며, CBME는 이를 보장할 수 있는 수련의 역량 기록을 생성할 것이라는 제안이 있었습니다.
  • 이 10년간의 문학적 대화에서 추가로 확인된 주제는
    • 조직 구조(n = 6, 11.3%)로, 일반적으로 코칭을 위한 최적의 기회가 부족한 상황에서 CBME가 교수진의 관심을 확보하는 것으로 간주되었으며,
    • 의학교육의 질을 개선하기 위한 도구로서 CBME의 적용(n = 4, 7.5%) 및 결과에 대한 논의,
    • 하위 전문 교육 및 연구 경험의 기회를 통한 효율적인 교육 촉진 등 학습자 영향(n = 4, 7.5%)에 대한 논의가 있었습니다.
    • 마지막으로, 교육 이외의 전문 분야를 포함한 광범위하고 다양한 이해관계자 그룹의 참여와 같은 지역사회 영향력(n = 2, 3.8%)을 주제로 한 대화가 확인되었습니다.

Perceived advantages during this time period addressed all eight themes.

  • The most prominent theme was educational developments (n = 13, 24.5%) and included articles where authors discussed preliminary information about the efficiency of training in the CBME model.
  • Perceived advantages were also identified for the themes of
    • assessment (n = 8, 15.1%) where authors spoke positively of the involvement of diverse healthcare professionals in the assessment of competence, and
    • credibility (n = 8, 15.1%) where CBME was positioned as a logical step beyond time- and static knowledge-based approaches.
  • In this time period, content associated with the theme of societal impacts appeared for the first time (n = 8, 15.1%). An example of literary conversations in this theme was the proposition that medical training needed to be accountable to the public and CBME would produce a record of trainee competence that could provide those assurances.
  • Additional themes identified in the literary conversations in this decade were
    • organizational structures (n = 6, 11.3%), where CBME was seen as securing faculty attention within a context that is typically fraught with suboptimal opportunities for coaching;
    • discussions of application (n = 4, 7.5%) of CBME and outcomes as tools to improve the quality of medical education; and
    • learner impacts (n = 4, 7.5%), such as facilitating efficient training with opportunities for subspecialty training and research experience.
    • Finally, conversations were identified that addressed the theme of community influence (n = 2, 3.8%), such as engaging broad and diverse stakeholder groups, including those specializing in areas other than education.

인식된 단점
Perceived disadvantages

지난 수십 년 동안과 달리, 2000년부터 2009년까지 포함된 문헌의 문학적 대화에서는 CBME의 단점에 대한 인식이 지배적이었습니다.

  • 저자들은 변화의 원동력이 학습자 중심이 아니며, 협력적인 인력보다는 경쟁적인 인력을 만드는 데 초점을 맞추고 있다고 주장한 조직 구조(n = 17, 21.5%)와
  • CBME가 의사의 역량 부족 문제에 대한 해결책을 찾기 위한 결과라기보다는 직업 훈련의 발전으로 인한 결과라고 본 신뢰성(n = 15, 19.0%)이 문학 대화에서 두드러진 주제로 나타났습니다.
  • 또한 커뮤니티 영향력(n = 15, 19.0%)을 주제로 한 대화에서는 교수진이 교육과 함께 CBME 교육 모델에 대해 배워야 할 때 워크플로와 시스템의 혼란에 대해 논의했으며,
  • 교육 발전(n = 9, 11.4%)에서는 변화를 천천히 받아들이는 위계적인 의료 문화에 대한 도전에 대한 논의가 있었습니다.
  • 적용(n = 8, 10.1%)을 주제로 저자들은 CBME의 실제 실행과 그에 따른 결과에 대한 증거 부족에 대해 논의했습니다.
  • 또한 평가(n = 8, 10.1%)에 대한 대화에는 역량 체크리스트 사용이 학습 동기를 떨어뜨리고 교육생이 비판적으로 사고하고 뛰어난 능력을 발휘하는 데 방해가 될 수 있다는 우려가 포함되었습니다.
  • 학습자 영향(n = 6, 7.6%)에 대한 대화에서는 CBME가 수련의의 전문적 정체성 개발을 저해할 것이라는 우려와 같은 학습자 영향에 대한 새로운 우려와
  • CBME 활동(평가 및 피드백 등)에 필요한 시간이 직접적인 환자 진료에서 빼앗길 것이라는 우려와 같은 사회적 영향(n = 1, 1.3%)에 대한 대화가 나왔습니다.

In contrast to previous decades, perceived disadvantages of CBME were predominant in the literary conversations in the included articles from 2000 to 2009. Prominent themes identified in the literary conversations included

  • organizational structures (n = 17, 21.5%), where authors argued that the impetus for change was not learner-centered and focused instead on creating a competitive rather than collaborative workforce; and
  • credibility (n = 15, 19.0%), where CBME was seen as the result of advancements in vocational training rather than the result of identifying solutions to the problem of physician lack of competence.
  • Conversations also fell under the theme of
    • community influence (n = 15, 19.0%) where authors discussed the disruption of workflows and systems when faculty had to learn about the CBME model of education alongside teaching, and
    • educational developments (n = 9, 11.4%) which included discussions of the challenge of the hierarchal culture of medicine where change is embraced slowly.
  • Under the theme of application (n = 8, 10.1%), authors discussed the lack of evidence of real-world implementation of CBME and subsequent outcomes.
  • Further, conversations about assessment (n = 8, 10.1%) included concerns that the use of checklists of competencies was demotivating to learning and would prevent trainees from thinking critically and excelling.
  • New concerns arose in the literary conversation about
    • learner impact (n = 6, 7.6%), such as worries that CBME would hinder trainees’ development of professional identity, and
    • societal impacts (n = 1, 1.3%), such as the worry that the time required for the activities of CBME (i.e. assessment and feedback) would take away from direct patient care.

권장 사항

이 기간 동안 CBME에 관한 기사에서 몇 가지 권장 사항이 확인되었습니다.

  • 가장 두드러진 주제는 커뮤니티 영향력(n = 20, 36.7%)으로, 저자들은 다양한 이해관계자가 참여하는 자격 인증에 대한 합의의 필요성을 강조했습니다.
  • 또한 조직 구조(n = 17, 21.5%) 주제에서는 학습자 성과 추적 및 집계에 초점을 맞추던 기존의 방식에서 벗어나 학습자가 성장 마인드를 수용하도록 프로그램 정책을 조정할 필요성에 대한 논의가 포함되었습니다.
  • 교육적 발달(n = 16, 20.3%)의 대화에는 학부부터 지속적인 전문성 개발까지 CBME 연속체를 설계하기 위한 제안이 포함되었습니다.
  • 적용(n = 15, 19.0%)에서 수집된 권장 사항은 CBME 실행에 대한 교육생과 교수진의 피드백을 수집하고 통합할 수 있는 활동에 대한 중요한 필요성을 다루었습니다.
  • 평가 (n = 6, 7.6%)에서 저자들은 학습자 포트폴리오의 최적 설계 및 통합을 결정하는 것의 중요성에 대해 논의했습니다.
  • 마지막으로 신뢰성 주제(n = 4, 5.1%)에서는 저자들이 전통적인 교육 모델이 불충분하며 급진적인 변화가 필요하다는 증거를 논의했으며,
  • 사회적 영향 주제(n = 1, 1.3%)에서는 저자들이 필요한 것은 급진적인 커리큘럼 변화가 아니라 역량을 문서화하는 더 나은 시스템이라고 주장했습니다.
  • 포함된 논문 중 학습자 영향이라는 주제와 관련된 권장 사항을 설명한 논문은 없었습니다.

Several recommendations were identified in the articles about CBME during this time period.

  • Most prominent was the theme of community influence (n = 20, 36.7%) where authors stressed the need for consensus about credentialing involving diverse stakeholders.
  • Additionally, the theme of organizational structures (n = 17, 21.5%) included discussion of the need to ensure that program policies were aligned with the expectation that learners embrace a growth mindset rather than continuing a traditional focus on the tracking and tallying of learner performance.
  • For the educational developments theme (n = 16, 20.3%) conversations included suggestions for the design of a CBME continuum from undergraduate to continuing professional development.
  • Recommendations captured in the theme of application (n = 15, 19.0%) addressed the critical need for activities that could capture and integrate feedback from trainees and faculty about the implementation of CBME.
  • Under the assessment theme (n = 6, 7.6%), authors discussed the importance of determining optimal design and integration of learner portfolios.
  • Finally, related recommendations were identified under the theme of credibility (n = 4, 5.1%) where authors discussed evidence suggesting that traditional training models were insufficient and a radical change was needed,
  • and the theme of societal impacts (n = 1, 1.3%) where authors argued that what was needed was not radical curricular transformation, but rather a better system to document competence.
  • None of the included articles described recommendations specific to the theme learner impacts.

도전 과제/불확실성/회의론

이 10년 동안 CBME의 도전 과제 및/또는 불확실성에 대한 문학적 대화가 이전 10년과 비교하여 크게 증가했으며, 도전 과제 및 불확실성에 대한 다양한 문학적 대화에 기여한 출판물의 수와 다루어진 다양한 유형의 도전 과제 및/또는 불확실성 모두에서 증가세를 보였습니다. 교수진 개발, 전문성을 역량으로 추출하는 데 따르는 어려움, CBME의 개념 또는 이론과 실제 CBME 간의 차이에 대한 어려움 등 이전 수십 년 동안 문헌에서 확인된 도전 및/또는 불확실성이 이번 10년에도 계속 나타났습니다. 이전 10년 동안의 대화를 기반으로 한 이 10년 동안의 세 가지 주요 문학적 대화는 다음을 대상으로 했습니다.

  • (1) CBME가 양질의 교육을 제공했다는 [증거]의 필요성,
  • (2) CBME 설계, 실행 및 유지의 [물류]적 어려움,
  • (3) CBME [평가]에 대한 논쟁과 불확실성

This decade saw a large increase in literary conversations about challenges and/or uncertainties of CBME as compared to previous decades, both in the number of publications that contributed to different literary conversations around challenges and/or uncertainties, and in the different types of challenge and/or uncertainties addressed. Challenges and/or uncertainties identified in literature in earlier decades continued to appear in this decade, including faculty development, challenges in distilling a specialty into competencies, and challenges in the difference between concept or theory of CBME and CBME in practice. Three dominant literary conversations in this decade that built upon conversations from earlier decades targeted:

  • (1) the need for proof that CBME provided quality training;
  • (2) logistical challenges of designing, implementing and sustaining CBME; and
  • (3) debates and uncertainty about assessment in CBME.

이 세 가지 문학적 대화는 서로 연관되어 있지만 별개의 주제였습니다. 

  • CBME가 '효과가 있다'는 증거의 필요성에 대한 논의
    • [CBME 혁신에 대한 프로그램 평가를 계획하고 수행해야 할 필요성]과
    • [CBME가 전통적인 의학교육 접근 방식보다 개선되었다는 증거에 대한 다양한 이해관계자들의 요구]를 모두 포함했습니다.
  • CBME로의 전환을 정당화하기 위한 이러한 증거의 필요성은 CBME의 물류적 문제에 대한 문학적 논의와도 관련이 있습니다.
    • 이러한 물류상의 문제에는 CBME에 대한 보다 광범위한 기술 및 행정 지원의 필요성과 관련된 훨씬 더 높은 비용뿐만 아니라
    • 교수진과 교육자가 CBME 교육 및 평가의 여러 요소에 전념해야 하는 시간적 비용도 포함되었습니다.
    • 물류에 대한 대화에는 CBME에 대한 특정 접근 방식이 모든 사람에게 기대되는 것이 될 경우 [자원이 풍부한 프로그램과 자원이 부족한 프로그램 및 기관] 간에 발생할 수 있는 불평등에 대한 불확실성도 포함되었습니다.

These three literary conversations were inter-related, yet distinct.

  • The conversations about the need for proof that CBME ‘works’ encompassed both
    • the need to plan for and carry out program evaluation of CBME innovations, as well as
    • demands from a variety of stakeholders for proof that CBME was an improvement over traditional approaches to medical education.
  • This need for proof to justify transitioning to CBME was tied to the literary conversations about logistical challenges of CBME.
    • These logistical challenges included much higher costs related to the need for more extensive technological and administrative support for CBME,
    • as well as the costs in time that faculty and educators needed to dedicate to multiple elements of CBME training and assessment.
    • Incorporated into the conversations about logistics were uncertainties about inequities that could arise between well-resourced and under-resourced programs and institutions if a specific approach to CBME became an expectation of all.

CBME 프로그램의 평가에 대한 불확실성을 포함하는 문학적 대화는 때때로 물류에 대한 대화와 상호 연관되어 있었습니다. 그러나 뚜렷한 대화가 발생했습니다. 특히 평가에 대한 도전과 불확실성에는 다음과 같은 논쟁이 포함되었습니다:

  • (1) 역량competence을 별개의 역량competencies으로 평가할 수 있는지 아니면 기술과 지식의 종합으로 평가해야 하는지,
  • (2) 평가 정보를 어떻게 수집, 종합, 해석해야 하는지(그리고 누가),
  • (3) [결과와 역량에 지속적으로 초점을 맞추는 것]이 [모호성과 불확실성에 대한 편안함에] 어떤 영향을 미치는지,
  • (4) 교수진과 학습자에게 과도한 부담을 주지 않고 형성평가를 수행할 수 있는지, 총괄적 평가 결정에서 형성평가의 가치/역할은 무엇인지에 대한 논의가 있었습니다.

The literary conversations that included uncertainties about assessment in CBME programs were sometimes inter-related with conversations about logistics. However, distinct conversations arose. In particular, challenges and uncertainties about assessment included debates about:

  • (1) whether competence can be assessed as distinct competencies or should be assessed as a synthesis of skills and knowledge;
  • (2) how assessment information should be collected, synthesized, and interpreted (and by whom),
  • (3) what effect a persistent focus on outcomes and competencies would have on comfort with ambiguity and uncertainty, and;
  • (4) how can formative assessment be done without overburdening faculty and learners – and what is the value/role of formative assessments in making summative assessment decisions.

2010년부터 2019년까지의 CBME 문학적 대화(그림 3, 보충 부록 C, 표 4)
CBME literary conversations from 2010 to 2019 (Figure 3Supplementary Appendix C, Table 4)

2010년부터 2019년까지 CBME에 대해 확인된 8가지 주제에 대한 476건의 토론을 확인했습니다(N = 476). 이러한 논의는 인식된 장점(n = 116, 24.4%), 인식된 단점(n = 199, 41.8%), 권장 사항(n = 161, 33.8%)으로 정리되었습니다. 이번 10년 동안의 도전 과제/불확실성/회의론은 주로 이전 10년 동안에 확인된 대화의 연장선상에 있거나 이를 심화시킨 것이었습니다.
We identified 476 discussions around the eight identified themes about CBME from 2010 to 2019 (N = 476). These are organized into perceived advantages (n = 116, 24.4%), perceived disadvantages (n = 199, 41.8%), and recommendations (n = 161, 33.8%). Challenges/uncertainties/skepticism in this decade were primarily continuations of, and elaborations upon, the conversations identified in the previous decade.

인식된 장점
Perceived advantages

주제별로 분류된 CBME의 인식된 장점은

  • 첫째, 신뢰성(n = 8, 6.9%)으로, CBME는 1993년에 개발된 내일의 의사 권고안을 기반으로 설계되었습니다.
  • 적용에 관한 논문(n = 12, 10.3%)은 CBME가 학습자에게 직장에서 논리적으로 일련의 경험을 제공하는 방법을 다루고 있습니다.
  • 커뮤니티 영향(n = 14, 12.1%)은 위임가능 전문 활동을 핵심 역량과 연결하면 전문적 실천의 정의에 대한 집단적 성찰을 촉진한다는 아이디어를 정교하게 설명합니다.
  • 학습자 영향(n = 13, 11.2%) 기사는 교육 중 학습자와 교수진 간의 공동 책임에 대해 설명합니다.
  • 평가에 관한 글(n = 19, 16.4%)은 평가가 공정하고 편파적이지 않다는 인식을 설명합니다.
  • 교육 개발(n = 29, 25.0%)에 관한 글은 CBME를 통해 어려움에 처한 학습자를 조기에 식별할 수 있다는 증거를 제시합니다.
  • 조직 구조를 설명하는 기사(n = 11, 9.5%)는 재정적으로 어려운 의료 및 교육 시스템에서 효율성을 높이고 비용을 절감할 수 있는 잠재력이 있음을 보여줍니다.
  • 사회적 영향(n = 10, 8.6%): CBME가 의사 부족, 수련의 부채, 환자 대기 시간을 예방할 수 있는 교육 접근법의 잠재력을 보여줍니다.

Perceived advantages of CBME categorized by theme include

  • first credibility (n = 8, 6.9%), with CBME having been designed and based on the Tomorrow’s Doctors recommendations developed in 1993.
  • Articles on application (n = 12, 10.3%) address how CBME provides learners with a logical sequence of experiences situated in the workplace.
  • Community influence (n = 14, 12.1%) elaborates the idea that linking Entrustable Professional Activities with core competencies fosters collective reflection on the definition of professional practice.
  • Learner impact (n = 13, 11.2%) articles describe the shared responsibility between learners and faculty during training.
  • Articles on assessment (n = 19, 16.4%) describe the perception that assessments are fair and unbiased.
  • Educational developments (n = 29, 25.0%) provide evidence that CBME may enable the early identification of learners in difficulty.
  • Articles describing organizational structures (n = 11, 9.5%) show that these have the potential to increase efficiency and reduce costs in financially strained health care and education systems.
  • Societal impacts (n = 10, 8.6%): of CBME illustrate the potential of this training approach to prevent physician shortages, trainee debt, and patient wait times.

인식된 단점
Perceived disadvantages

CBME의 단점으로는

  • 판단력, 반성 등 고차원적인 인지 능력이 필요한 전문직을 위해 설계된 교육 모델이 아니기 때문에 신뢰성에 대한 위협(n = 30, 15.1%)이 꼽혔습니다.
  • 애플리케이션의 단점(n = 20, 10.1%)은 학습자 포트폴리오를 검토할 때 표준화가 부족하다는 점입니다.
  • 전문 기관, 정부, 교육자가 설계한 교육 개혁(예: CBME)에 대한 커뮤니티의 영향력(n = 37, 18.6%)은 시간이 지나도 지속될 가능성이 낮다고 인식했습니다.
  • 학습자 영향(n = 14, 7.0%)은 교육이 이루어지는 맥락이 역량을 정의하고 평가하는 방식에 미치는 영향에 대한 우려를 나타냈습니다.
  • 평가(n = 37, 18.6%)에 대한 우려는 평가가 인증에 의해 주도되고 역량은 정치적으로 주도되며, 어느 쪽도 교육생의 역량을 보장하지 못한다는 인식을 강조했습니다.
  • 교육적 발달(n = 36, 18.1%)에 대한 글에서는 환자 치료에 집중하는 데 방해가 되는 역량 해체(환원주의)를 지적했습니다.
  • 조직 구조에 관한 글(n = 20, 10.1%)은 조직 구조가 학습자에게 맞춤형 교육을 제공하기에 부적절할 수 있다는 점을 지적했습니다.
  • 사회적 영향(n = 8, 4.0%)에 대한 우려는 CBME 개입이 '치료의 예술'(즉, 환자의 취약성, 가족의 우려, 책임의 최종성)이 아닌 기계적 활동에 초점을 맞춘다는 점을 언급합니다.

Perceived disadvantages of CBME discussed include

  • threats to credibility (n = 30, 15.1%) because the training model was not designed for professions that require higher order cognitive skills, such as judgement and reflections.
  • Application disadvantages (n = 20, 10.1%) address the lack of standardization when reviewing learner portfolios.
  • Community influence (n = 37, 18.6%) on educational reform (such as CBME) designed by professional bodies, governments, and educationalists was perceived as not likely to be sustained over time.
  • Learner impact (n = 14, 7.0%) concerns identified the influence of the context in which training is experienced on how competence is defined and assessed.
  • Assessment (n = 37, 18.6%) concerns highlighted the perception that assessment was driven by accreditation and competencies were politically driven, neither of which assures the competence of trainees.
  • Educational developments (n = 36, 18.1%) pointed to deconstructing competencies (reductionism) as a distraction from the focus on patient care.
  • Articles on organizational structures (n = 20, 10.1%) articulate that structures may be inadequate for providing personalized training to learners.
  • Societal impacts (n = 8, 4.0%) concerns cite that CBME interventions center on the mechanics of activities and not the ‘art of doctoring’ (i.e. vulnerabilities of the patient, concerns of family, and finality of responsibility).

권고 사항

CBME를 개선하기 위한 권고사항은

  • CBME로의 전환이 필요한 이유에 대한 더 많은 증거를 제공함으로써 신뢰성 향상(n = 12, 7.5%)을 지지합니다.
  • 적용(n = 35, 21.7%) 및 교육적 발달(n = 33, 20.5%)은 첫인상이 수련의의 성과 평가에 미치는 영향에 대한 증거를 확보하거나 공식적인 평가 및 교정을 통해 임상 교육 교수진의 역량을 평가하는 것을 지지합니다.
  • 커뮤니티 영향(n = 40, 24.8%) 권장사항은 CBME를 시행하는 동안 교수진과 교육생이 겪는 어려움을 해결합니다.
  • 학습자 영향(n = 2, 1.2%)은 교육생이 성과에서 성장으로 사고방식을 전환할 수 있도록 지원함으로써 강화할 수 있습니다.
  • 평가(n = 15, 9.3%)에 대한 권고사항은 비임상의 또는 다른 전문 분야의 임상의를 CBME 평가에 통합하여 직접 관찰에 대한 제한을 완화하기 위해 연수생 수행 비디오 녹화와 같은 개입을 제안합니다.
  • 조직 구조(n = 22, 13.7%)는 교육에 대한 비전적 접근 방식에 따라 리더를 선정하여 강화할 수 있습니다.
  • 사회적 영향(n = 2, 1.2%)은 커리큘럼 개혁과 함께 감독 및 위탁에 필요한 변화를 통해 환자들이 안전하고 수준 높은 치료를 받을 수 있도록 보장해야 합니다.

Recommendations to improve CBME advocate for 

  • greater credibility (n = 12, 7.5%) by providing more evidence as to why the shift to CBME was required.
  • Application (n = 35, 21.7%) and Educational developments (n = 33, 20.5%) support capturing evidence of the influence of first impression on performance ratings of trainees or assessing the competence of clinical teaching faculty with formal assessments and remediation.
  • Community influence (n = 40, 24.8%) recommendations address the challenges experienced by faculty and trainees during CBME implementation.
  • Learner impacts (n = 2, 1.2%) can be strengthened by supporting trainees in shifting their mindset from performance to growth.
  • Assessment (n = 15, 9.3%) recommendations to integrate non-clinicians or clinicians from other specialties in the assessment needs of CBME suggest interventions such as video recordings of trainee performance to mitigate restrictions for direct observation.
  • Organizational structures (n = 22, 13.7%) can be strengthened with leaders selected based on their visionary approach to education.
  • Societal impacts (n = 2, 1.2%) necessitate ensuring that patients received safe, high-quality care amidst curricular reform with needed changes to supervision and entrustment.

도전 과제/불확실성/회의론

이 10년간의 문헌적 대화에는 교수진 개발의 어려움, CBME 시행 시 비용/물류에 대한 우려 및 불확실성, CBME의 효과에 대한 증거를 제공하기 위한 프로그램 평가의 필요성, 의사의 업무를 개별 역량으로 분석하는 것과 관련된 어려움 등 이전 10년간 확인된 도전 과제/불확실성/회의론이 포함되었으며, 이를 기반으로 더욱 발전했습니다. 이전에 확인된 문제/불확실성/회의론과 관련된 대화에는 이 10년간 만연했던 다음과 같은 내용이 포함되었습니다:

  • (1) 시간 가변 교육이 인력 계획에 미칠 수 있는 영향에 대한 우려와 불확실성,
  • (2) 비의료 전문가 역량, 특히 전문직업성에 대한 효과적인 평가의 어려움,
  • (3) 객관성과 표준화된 평가의 필요성과 학습자가 업무 현장에서 입증한 역량에 대한 진정한 평가의 가정 사이의 갈등이 있습니다;
  • (4) 벤치마크 및 이정표 설정개별화된 학습 경로 및 궤적에 대한 가정 사이의 갈등,
  • (5) 학습자 및 프로그램에 대한 영향 측면에서 훈련 및 재교육이 길어지는 것에 대한 불확실성,
  • (6) 의학교육의 연속성 전반에서 CBME를 어떻게 보아야 하는지에 대한 불확실성.

이 10년 동안 새롭게 등장한 주제 중 하나는 위탁 가능한 전문 활동(EPA)을 사용한 평가와 관련된 도전과 불확실성에 관한 대화였습니다.
The literary conversations in this decade included (and built further upon) challenges/uncertainties/skepticism identified in previous decades, such as challenges in faculty development, concerns and uncertainties about costs of/logistics in implementing CBME, the need for program evaluation to provide evidence for or against the efficacy of CBME, and challenges related to parsing the work of a physician into discrete competencies. Conversations related to previously identified challenges/uncertainties/skepticism that prevailed in this decade included:

  • (1) concerns and uncertainties about the impact that time variable training could have on workforce planning;
  • (2) challenges in effective assessment of non-medical expert competencies, especially professionalism;
  • (3) conflicts between the need for objectivity and standardized assessments, and the assumption of authentic assessment of learners’ demonstrated competence in the workplace;
  • (4) conflicts between establishing benchmarks and milestones, and assumptions of individualized learning pathways and trajectories;
  • (5) uncertainties about extension of training and remediation in terms of impacts on learners and on programs, and;
  • (6) uncertainties about how CBME should look across the continuum of medical education.

One emergent topic in this decade appeared in conversations around challenges and uncertainties related to assessment using entrustable professional activities (EPAs).

2020년(2020년 4월까지, 2021년 간행물의 사전 인쇄물 포함)의 CBME 문헌 대화(그림 3, 보충 부록 C, 표 5)
CBME literary conversations from 2020 (up to April 2020, including pre-prints of 2021 publications) (Figure 3Supplementary Appendix C, Table 5)

분석 결과, 2020년에 포함된 기사에서 식별된 8가지 주제에 대한 189건의 문학적 대화가 있었습니다. 아래에서는 인식된 장점(n = 58, 30.7%), 인식된 단점(n = 61, 32.3%), 권장 사항(n = 70, 37.0%)으로 정리한 대표적인 사례를 설명합니다. 도전 과제/불확실성/회의론과 관련된 문학적 대화는 이 10년 이전에 논의된 내용을 더욱 정교화했습니다. 이러한 정교화는 경우에 따라 거의 독립적인 CBME에 대한 문학적 대화가 되기도 했습니다. 예를 들어, 평가에 대한 일반적인 문학적 대화와는 별개로 논의되곤 했던 EPA에 대한 도전 및 우려의 확산을 들 수 있습니다. 한 가지 새로운 과제가 확인되었는데, 바로 [여러 프로그램에 걸친 CBME 설계의 획일성]과 [개별 프로그램에 맞는 상황에 적합한 CBME 설계의 필요성] 사이의 충돌에 대한 우려였습니다.
Our analysis resulted in 189 discussions around the eight identified themes literary conversations in the articles included for 2020: below we describe representative examples organized by perceived advantages (n = 58, 30.7%), perceived disadvantages (n = 61, 32.3%), and recommendations (n = 70, 37.0%). The literary conversations related to challenges/uncertainties/skepticism elaborated upon what was discussed prior to this decade. These elaborations, in some cases, have almost become stand-alone literary conversations about CBME. An example was the proliferation of challenges and/or concerns about EPAs, which were often discussed independent of the general literary conversations about assessment. One new challenge was identified: concerns about the conflict between uniformity of CBME design across programs versus the need to allow for context-appropriate CBME design to suit individual programs.

인식된 장점
Perceived advantages

CBME에 대해서

  • 전 세계 다른 지역에서도 유사한 모델이 시행되고 있기 때문에 CBME에 대한 신뢰성(n = 1, 1.7%)이 있다고 응답했습니다.
  • 적용에 대한 관심(n = 3, 5.2%)은 평가 데이터 수집과 CBME 참여 및 품질 개선에 대한 참여를 지원하는 결과의 통합으로 나타났습니다.
  • 커뮤니티 영향력(n = 6, 10.3%)은 다양한 이해관계자의 참여와 포용을 촉진하는 CBME로의 혁신적 변화를 통해 달성됩니다.
  • 학습자 영향(n = 14, 24.1%)은 새로운 커리큘럼 접근 방식이 학습자 중심적이고 시간을 자원으로 활용한다는 인식을 통해 입증되었습니다.
  • CBME는 진정한 직장 기반 활동에 중점을 둔 새로운 평가 철학을 통해 평가(n = 12, 20.7%)를 강조합니다.
  • CBME는 사례와 활동에 대한 포괄적인 노출을 제공하는 교육적 발달(n = 14, 24.1%)을 장려합니다.
  • CBME를 위한 조직 구조(n = 3, 5.2%)는 한정된 자금으로 교육의 효율성과 재정적 책임을 극대화할 수 있습니다.
  • 사회적 영향(n = 5, 8.6%)은 복잡하고 다양하며 끊임없이 변화하는 지역사회에 치료를 제공할 수 있는 능력과 유능한 의사를 양성함으로써 촉진됩니다.

CBME was discussed as

  • having credibility (n = 1, 1.7%) due to similar models being implemented in other regions across the globe.
  • Attention to application (n = 3, 5.2%) is shown with the collection of evaluation data and integration of findings that support engagement in CBME and participation in quality improvement.
  • Community influence (n = 6, 10.3%) is achieved with transformative change to CBME fostering participation and inclusion of diverse stakeholders.
  • Learner impact (n = 14, 24.1%) is demonstrated through the perception that the new curriculum approach was learner-centered and used time as a resource.
  • CBME highlights assessment (n = 12, 20.7%) with a renewed philosophy of assessment centered on authentic workplace-based activities.
  • CBME promotes Educational developments (n = 14, 24.1%) that provide comprehensive exposure to cases and activities.
  • Organizational structures (n = 3, 5.2%) for CBME can maximize efficiency of training and fiscal responsibility of limited funds.
  • Societal impacts (n = 5, 8.6%) are fostered through the development of physicians who would be capable and competent to provide care to complex, diverse, and ever-changing communities.

인식된 단점
Perceived disadvantages

이 기간 동안 논의된 CBME의 단점으로는 

  • CBME의 철학적 토대가 실행하기에는 비현실적인 활동으로 해석되어 신뢰성에 대한 문제(n = 10, 16.4%)가 있었습니다.
  • 비평가들은 CBME 실행의 바람직하지 않은/의도하지 않은 결과에 대한 정보가 제한적이거나 전혀 없기 때문에 CBME 적용에 의문을 제기합니다(n = 14, 23.0%).
  • 커뮤니티 영향(n = 6, 9.8%)은 평가자가 교육생에 대한 지속성 또는 장기적인 노출이 부족하다는 점을 강조합니다.
  • 학습자 영향(n = 7, 11.5%)은 학습자가 피드백이나 평가를 요청하는 입장에 놓이게 되어 불안을 유발할 수 있다는 의문을 제기합니다.
  • 평가(n = 12, 19.7%)는 역량을 입증하기 위한 최소한의 기준동기를 떨어뜨리고 숙달에 도달하려는 동기를 감소시킨다는 우려를 다룹니다.
  • 교육적 발달(n = 4, 6.6%)에 대한 논의에서는 잦은 피드백을 요청하고 받는 과정에서 환자 치료에 다시 주의를 돌리는 데 방해가 된다는 점을 지적했습니다.
  • 조직 구조(n = 7, 11.5%)에 대한 논의에서는 CBME 활동을 수행하기 위한 재정적 보상이 제한적이거나 전혀 없는 것시간 투자 사이의 상당한 불균형에 대한 우려가 제기되었습니다.
  • 사회적 영향(n = 1, 1.6%)은 임상 환경에서 드물게 발생하는 학습 기회(예: 드문 임상 프레젠테이션)와 관련된 환자에 대한 잠재적 위험에 대해 논의합니다.

CBME disadvantages discussed in this timeframe include

  • challenges to credibility (n = 10, 16.4%) due to the belief that the philosophical underpinnings of CBME were translated into impractical activities to execute.
  • Critics question CBME Application (n = 14, 23.0%) due to limited to no information about the undesirable/unintended outcomes of implementing CBME.
  • Community influence (n = 6, 9.8%) highlights the lack of continuity or longitudinal exposure of assessors to trainees.
  • Learner impact (n = 7, 11.5%) discussions question placing learners in the position of asking for feedback or assessments, which can be anxiety-provoking.
  • Assessment (n = 12, 19.7%) concerns address the idea that minimum standards to demonstrate competence are demotivating and reduce the drive to reach mastery.
  • Educational development (n = 4, 6.6%) discussions point to the disjointed and disruptive nature of requesting and receiving frequent feedback while redirecting attention back to patient care.
  • Organizational structures (n = 7, 11.5%) concerns address the significant disparity between limited or no financial compensation to perform the activities of CBME and time investment.
  • Societal impacts (n = 1, 1.6%) discuss the potential risks to patients associated with learning opportunities that were infrequently occurring in the clinical setting (i.e. rare clinical presentations).

권장 사항

가장 최근에 제시된 CBME에 대한 권고사항은

  • 모든 이해관계자 간의 의사소통을 개선하기 위해 어휘와 정의의 일관성을 통해 신뢰성(n = 5, 7.1%)을 강화할 것을 권장합니다.
  • 적용(n = 14, 20.0%) 권장사항은 교수진과 교육기관이 각자의 고유한 상황에 맞게 CBME를 적용하고 행동할 수 있는 자유와 자율성에 대한 필요성을 강조합니다.
  • 커뮤니티 영향(n = 24, 32.3%)은 CBME가 위치한 맥락적 요인에 대한 증거를 포착하는 것이 이해관계자들이 변화의 복잡성을 이해하는 데 도움이 될 것이라는 아이디어를 다루었습니다.
  • 학습자 영향(n = 4, 5.7%)은 새로운 커리큘럼을 설계할 때 교육생을 포함시켜야 한다는 내용을 포함합니다.
  • 평가(n = 9, 12.9%) 권장 사항에서는 실용적이고 사용자 중심의 평가 도구를 설계할 것을 제안합니다.
  • CBME를 위한 교육적 발달(n = 8, 11.4%)은 교육생이 실제 임상에서 자주 발생하지 않거나 드문 임상 활동을 경험할 수 있는 시뮬레이션 기회를 개발하는 것을 수반합니다.
  • 조직 구조(n = 6, 8.6%)는 지역 및 국가 보건 당국을 통해 CBME를 시행하는 데 필요한 자금을 제공해야 합니다.

Recommendations for CBME presented in this most recent time period recommend

  • strengthening Credibility (n = 5, 7.1%) via consistency in vocabulary and definitions to improve communication among all stakeholders.
  • Application (n = 14, 20.0%) recommendations highlight faculty’s and institutional needs for the freedom and agency to act and adapt CBME to their unique context.
  • Community influence (n = 24, 32.3%) addressed the idea that capturing evidence of the contextual factors in which CBME was situated would help stakeholders to understand the complexity of the change.
  • Learner impact (n = 4, 5.7%) includes the need to include trainees in the design of new curricula.
  • Assessment (n = 9, 12.9%) recommendations suggest designing practical and user-centered assessment tools.
  • Educational development (n = 8, 11.4%) for CBME entails developing simulation opportunities for trainees to gain experiences in clinical activities that are often infrequent or rare in the real-world.
  • Organizational structures (n = 6, 8.6%) should provide the funding required through local and national health authorities to implement CBME.

이 기간 동안의 문학적 대화 콘텐츠에는 사회적 영향 주제에 대한 권장 사항이 포함되지 않았습니다.
Literary conversations content for this time period did not include recommendations regarding the societal impacts theme.

도전 과제/불확실성/회의론

포함된 출판물 그룹에서 CBME와 관련된 도전 과제/불확실성/회의론을 다룬 문학적 대화는 주로 이전 수십 년 동안 확인된 대화에 대한 정교화였습니다. 두 가지 주요 대화는

  • 실행의 물류 문제(교수진 개발 필요성, 재정적 비용, 인적 인력 비용)와
  • CBME가 비용을 정당화할 만큼 충분히 우수한 졸업생을 배출했는지에 대한 증거의 필요성에 관한 것이었습니다.

The literary conversations addressing challenges/uncertainties/skepticism associated with CBME in the included group of publications were mainly elaborations upon the conversations identified in earlier decades. Two dominant conversations concerned

  • challenges of logistics of implementation (faculty development needs, financial costs, and human workforce costs) and
  • need for evidence about whether CBME resulted in sufficiently better graduates to justify costs.

그러나 도전 과제/불확실성/회의론과 관련된 문헌에서 가장 지배적인 대화는 평가에 관한 것이었습니다. 다음에 대한 대화가 확인되었습니다.

  • 평가의 질
  • 평가와 관련된 학습자와 교육자의 업무량 및 소진, 그리고 
  • 학습에 대한 형성 평가와 총괄 평가 사이의 경계가 모호해지는 것에 대한 새로운 우려
    (참고: 현재 언어의 변화에도 불구하고 이 리뷰에 포함된 출판물에 사용된 용어를 유지함) 

많은 평가 관련 대화에는 EPA 및 위임언어에 대한 여러 가지 문제가 포함되어 있었습니다. 앞서 보고한 바와 같이, 프로그램 전반에 걸쳐 [CBME의 설계 및 실행에 통일성이 있어야 한다는 기대][CBME가 획일적인 것이 아니라 개별 프로그램에 상황에 적합하도록 의도적으로 설계되어야 한다는 주장] 사이의 갈등에 대한 우려를 다루는 문헌적 대화의 증거를 추가로 확인했습니다.

The most dominant conversations in the literature related to challenges/uncertainties/skepticism, however, addressed assessment. Conversations were identified about:

  • quality of assessment;
  • workload and burnout of learners and educators associated with assessment, and; and
  • emergent concerns about blurring the line between formative assessment for and summative assessment of learning (Note: retaining terminology used in the publications included in this review despite current shifts in language).

Many assessment conversations included multiple challenges with EPAs and/or language of entrustment. As reported earlier, we saw further evidence of the literary conversation addressing concerns about the conflict between an

  • expectation that there should be uniformity in design and implementation of CBME across programs, and
  • the argument that CBME should be intentionally designed to be context-appropriate for individual programs rather than one-size-fits-all.



지난 수십 년 동안 CBME와 관련된 출판물이 놀라울 정도로 급증한 것은 이 주제에 대한 뜨거운 관심을 반영하며, 교육자와 연구자가 이 방대하고 복잡한 문헌을 이해하는 데 도움이 되는 자료가 필요하다는 점을 강조합니다. 비교적 엄격한 포함 및 제외 기준을 적용했음에도 불구하고 387개의 논문이 분석에 포함된 이번 범위 검토에서 알 수 있듯이, 급증하는 문헌을 따라잡는 것은 불가능에 가깝습니다. McGaghie(1978) 이후 문학적 대화의 개별 논문과 주제를 모두 매핑함으로써 교육자, 연구자, 학습자 및 이해관계자가 CBME 출판물에서 문학적 대화의 주요 측면에 대해 공유된 이해를 촉진하기 위해 노력했습니다. 이 범위 검토의 결과는 모든 이해관계자가 CBME의 장점, 단점, 권장 사항, 도전/불확실성/회의론에 대한 다양한 대화를 이해하고자 할 때 각자의 관점에서 참여할 수 있도록 CBME 문헌에 대한 투명하고 포괄적인 설명으로 사용될 수 있습니다(부록 B 및 C). 
The astonishing proliferation of publications related to CBME over the last few decades reflects the intense interest in this topic and highlights the need for a resource to support educators and researchers in making sense of this vast and complex literature. Keeping up with such a burgeoning literature is likely impossible, as evidenced by this scoping review which, even with relatively strict inclusion and exclusion criteria, resulted in 387 articles included for analyses. By mapping both individual articles and themes in the literary conversations since McGaghie (1978), we endeavoured to facilitate a shared understanding among educators, researchers, learners, and stakeholders about key aspects of the literary conversations in CBME publications. The findings from this scoping review can serve as a transparent and comprehensive description of the CBME literature for all stakeholders to engage with from their perspective as they seek to make sense of the various conversations about advantages, disadvantages, recommendations, and challenges/uncertainties/skepticism of (and to) CBME (Supplementary Appendixes B and C).

CBME에 대한 문학적 대화를 종합하고 매핑한 이 자료는 다양한 청중에게 유용한 자료가 될 것으로 생각하지만, 우리의 연구 결과는 또한 해결해야 할 문제를 조명하므로 향후 CBME 연구에 영향을 미칠 수 있습니다. 분석에 포함된 기사의 67.7%가 연구라기보다는 [관점이나 논평]이라는 점에서 향후 CBME 연구의 필요성을 알 수 있습니다. 10년별로 제시된 내용은 연구자들이 추가 연구의 격차와 기회를 파악하고, 새롭게 떠오르는 대화, '고약wicked'하거나 오래 지속될 것으로 보이는 대화, 중요하지만 소외된 대화, 아직 일어나지 않은 대화를 예측하는 데 자원과 노력을 집중하는 데 도움이 될 수 있습니다. 

While we feel that this synthesis and mapping of the literary conversations about CBME will serve as a useful resource for a variety of audiences, our findings also illuminate issues that must be addressed and thus have implications for future research in CBME. The need for future research in CBME is illustrated by the finding that 67.7% of the articles included for analysis were perspectives or commentaries, rather than research. The content presented by decade can help researchers to identify gaps and opportunities for further research, and direct resources and effort toward the conversations that are emerging, those that appear to be ‘wicked’ or long-lasting, those that are important but have been sidelined, and perhaps anticipate those conversations that are yet to occur.

이 연구 결과 중 이 목표에 가장 유용할 것으로 보이는 것은 시간이 지남에 따라 문학 대화에서 CBME에 대한 도전/불확실성/회의론을 식별하는 것입니다. 이는 다음과 같은 범주로 요약할 수 있습니다:

  • (1) CBME가 '효과가 있다'는 증거의 필요성,
  • (2) 비용(비용, 인력, 시간) 및 교수진 개발을 포함한 CBME의 물류,
  • (3) 역량 정의와 관련된 어려움,
  • (4) 역량 평가 방법에 대한 논쟁과 불확실성.

처음 세 가지 범주는 1978년에 시작된 문헌에서 처음 확인되었으며, 마지막 범주는 1990년에 처음 확인되었습니다. 

The findings from this study that are likely to be most useful for this aim are the identification of challenges/uncertainties/skepticism about CBME in literary conversations over time. These can be summarized into the following categories:

  • (1) the need for proof that CBME ‘works’;
  • (2) logistics of CBME, including costs (money, people, time) and faculty development;
  • (3) challenges associated with defining competencies; and,
  • (4) debates and uncertainty about how to assess competence.

The first three categories were initially identified in the included literature starting in 1978, while the final category was identified initially in 1990.

[CBME가 '효과가 있다'는 증거의 필요성]은 CBME의 재정적, 인적 비용을 정당화하기 위해 CBME의 성과에 대한 증거가 필요하다는 점에서 [CBME의 물류]와 관련이 있습니다. 이와 관련하여 CBME를 '작동'시키려면 돈, 사람, 시간, 교수진 개발이 필요한데, CBME의 바람직한 결과를 달성하기 위한 물류의 올바른 조합은 무엇일까요? 시간이 지남에 따라 평가 데이터를 포함하는 출판된 연구 수가 증가했지만, 이러한 평가 연구는 전체 논문의 25.3%에 불과했습니다. 향후에는 다음의 두 가지 모두에 대한 연구가 필요합니다. 

  • CBME 프로세스의 효과성(예:
    • 코칭과 발달 궤적에 초점을 맞춘 CBME가 학습자가 성장 마인드를 채택하는 결과를 가져왔는가?
    • 이러한 학습자가 효과적인 평생 학습 기술을 개발하는가?) 
  • CBME의 결과물(예:
    • CBME 프로그램 졸업생이 환자 중심 치료에서 향상된 기술을 보여주는가? 의사소통? 전문직업성?). 

The need for proof that CBME ‘works’ is related to the logistics of CBME, in that evidence of the outcomes of CBME is needed to justify the financial and human costs of CBME. Relatedly, making CBME ‘work’ requires money, people, time, and faculty development – but what is the right combination of logistics to achieve desired outcomes of CBME? While there was an observed increase over time in the number of published studies that included evaluation data, these evaluation studies only comprised 25.3% of the included articles. Future research is needed that examines both the effectiveness of

  • the process of training (e.g.
    • does the CBME focus on coaching and developmental trajectory result in learners who adopt a growth mindset?
    • Do these learners develop effective lifelong learning skills?) as well as
  • the products of CBME (e.g.
    • do graduates of CBME programs demonstrate improved skills in patient-centered care? Communication? Professionalism?).

[CBME가 '효과가 있다'는 것을 증명하는 하나의 연구]가 아니라, [단기 및 장기 결과와 결과물을 포함하여 CBME가 원하는 결과의 여러 측면에 대한 증거를 모아야 합니다]. 또한 CBME의 과정과 결과를 조사하는 [하나의 표준 방법은 존재하지 않을 것]입니다. 이미 학습 분석, 실행 과학, 학습자 민감 품질 측정과 같은 새로운 방법론과 접근법을 채택한 연구와 적절한 전통적 접근법을 사용한 새로운 연구 결과가 발표되기 시작하고 있습니다. 부록 B는 CBME를 탐구하는 방법을 보여 주며, 향후 CBME의 설계, 실행 및 평가를 연구하는 데 새로운 방법을 사용할 수 있습니다.

There will not be one study that proves that CBME ‘works’, but rather a collection of evidence about multiple facets of the desired results of CBME, including short term and long term outcomes and products. There will also not be one standard method to examine the process and outcomes of CBME. We are already beginning to see published research employing novel methodologies and approaches such as learning analytics, implementation science, and learner-sensitive quality measures, as well as new findings using appropriate traditional approaches. Supplementary Appendix B illustrates the methods by which CBME is explored, which may lead to using new methods to study the design, implementation, and evaluation of CBME in the future.

[역량 정의 내리기]와 관련된 과제는 시간이 지남에 따라 문헌에서 볼 수 있듯이 명백하면서도 미묘합니다. 이 과제의 명백한 측면은 [(모든) 전공과목을 개별 역량으로 추출하는 것이 가능한지, 그리고 그렇게 해야 하는지] 여부를 다루는 주요한 문헌적 대화 중 하나를 구성합니다. 이 대화는 주로 관점과 논평에 등장했습니다. 프로그램 설명에는 종종 전문 분야에서 사용하는 역량 프레임워크(또는 역량 목록)에 대한 언급이 포함되기도 했습니다. 그러나 이 문제는 적절한 연구 질문을 구성하는 것조차 거의 불가능할 정도로 연구하기 어려운 과제입니다. 
The challenges associated with defining competencies are both obvious and subtle, as seen in the literature over time. The obvious aspect of this challenge makes up one of the dominant literary conversations, which addressed whether it is possible to distill a (any) specialty into individual competencies – and whether it should be done. This conversation primarily appeared in perspectives and commentaries. Program descriptions often included some mention of the competency frameworks (or lists of competencies) being used by a specialty. However, this challenge is a difficult one to research – even framing an appropriate research question is nearly impossible.

향후 연구를 위한 이 범주의 더 풍부한 요소는 [역량 정의의 더 미묘한 측면]과 관련이 있으며, CBME의 유망한 담론에 도달합니다. 특히, 전문 분야에 대해 정의된 역량이 [사회적 책무성 렌즈]를 통해 결정되는지(그리고 어느 정도까지 그러한지) 조사하기 위해서는 향후 연구가 필요합니다.

  • 교육자들은 특정 전문 분야에 대한 역량 프레임워크를 개발하거나 수정할 때 현재 및 예상되는 커뮤니티의 요구를 고려합니까?
  • 사회적 책임은 역량 프레임워크에 어떻게 고려되거나 통합되며, 전문 분야별로 차이가 있나요?

이러한 질문은 이 범주에 대해 탐구해야 할 연구 질문 중 일부에 불과하지만, CBME에서 사회적 책임의 역할은 그 자체로 향후 연구가 필요한 영역입니다.

The richer element of this category for future research relates to the more subtle aspect of defining competencies – and gets to the promissory discourse of CBME. Specifically, future research is needed to examine whether (and to what extent) the competencies defined for a specialty are determined through a social accountability lens.

  • Do educators consider current and anticipated community needs in developing or revising competency frameworks for a given specialty?
  • How is social accountability considered or incorporated into competency frameworks – and does it differ by specialty?

These are only some of the research questions that need to be explored for this category, although the role of social accountability in CBME is an area of need for future research in and of itself.

[역량을 정의하는 데 따르는 어려움]은 [역량을 평가하는 방법에 대한 논쟁 및 불확실성]의 범주와도 겹치는데, 이는 무엇을 평가할 것인가가 평가 방법과 불가분의 관계에 있기 때문입니다. 역량을 평가하는 방법에 대한 질문은 아마도 CBME 문헌에서 [가장 두드러진 까다로운 문제]일 뿐만 아니라, 포함된 문헌에서 [가장 일관되고 지속적인 문학적 대화] 중 하나이기도 합니다. 평가 문제는 1990년에 문학적 대화에 나타나기 시작했지만, 2010년부터 주관적 평가와 객관적 평가, 학습에 대한 형성 평가와 총체적 평가 사이의 긴장, 평가에서 학습자의 역할에 대한 여러 가지 분기의 문학적 대화를 확인했습니다. 흥미롭게도 평가는 위에서 논의한 주제 분석에서도 확인된 주제 중 하나이지만, 평가의 어려움/불확실성/회의론에 대한 대화는 평가와 관련된 인식된 장점, 단점 및 권장 사항에 대한 대화와는 맥락적으로 매우 달랐습니다. 이처럼 개별적이지만 서로 연관된 많은 문학적 대화는 각각 향후 연구를 위한 풍부한 기회를 제공하지만, CBME에서 평가에 대한 문학적 논의가 널리 퍼지면서 똑같이 중요한 다른 문학적 대화가 소외되었을 수 있다는 점은 우려스러운 부분입니다.
Challenges in defining competencies also overlap with the category of debates and uncertainties about how to assess competence, because what to assess is inextricably entwined with how to assess. The question of how to assess competence is possibly the preeminent wicked problem in the CBME literature, as well as one of the most consistent and persistent literary conversations in the included literature. Although assessment challenges began to appear in literary conversations in 1990, we identified multiple branching literary conversations starting in 2010 about subjective versus objective assessment, the tension between formative assessment for and summative assessment of learning, and the learner role in assessment. Interestingly, the assessment was also one of themes identified in the thematic analysis discussed above; however, the conversations about the challenges/uncertainties/skepticism of assessment were contextually very different from conversations about perceived advantages, disadvantages, and recommendations related to assessment. While these many separate but related literary conversations each offer rich opportunities for future research, it is concerning that the prevalence of literary discussions of assessment in CBME may have sidelined some of the other literary conversations that are equally important.

평가에 대한 대화의 유행으로 인해 [소외되었을 수 있는 문학적 대화]의 한 가지 예는 [CBME와 사회적 책무에 대한 대화]입니다. CBME의 사회적 영향에 대한 문학적 대화는 2000년까지 등장하지 않았지만, CBME가 더 큰 선을 위한 것이라는 기본 가정을 다루고 있습니다. CBME의 핵심 목표 중 두 가지는 [환자 치료 결과 개선]과 [사회적 책무]이지만, 관련 결과를 조사한 연구는 아직 많이 발표되지 않았습니다. 환자 건강을 CBME의 결과로 바라보는 연구가 절실히 필요하지만, 개인의 건강이나 환자 결과에 기여하는 다면적이고 매우 복잡한 상호 관련 요인으로 인해 이러한 종류의 연구를 수행하는 데는 극복할 수 없는 어려움이 있을 수 있습니다. [CBME, 사회적 책임, 개선된 환자 치료 결과 사이의 연관성]에 대한 유망한 담론에서 CBME의 효과(또는 아마도 효능)는 파악하기 어렵습니다. 최근 몇 년 동안 출판된 문헌에서 이 분야가 증가하고 있는 것은 분명하지만, 프로그램 평가 연구와 CBME의 장기적 결과에 대한 연구는 CBME의 유망한 담론을 재검토하고 복잡한 비선형 다층 시스템(예: 교육 시스템 및 의료 시스템)의 더 큰 맥락에서 교육 혁신의 실현 가능한 결과와 성과를 확립하는 등 향후 연구의 핵심 영역입니다.
One example of a literary conversation that may have been sidelined by the prevalence of conversations about assessment is that of CBME and social accountability. While literary conversations about the societal impacts of CBME did not appear until 2000, they do address the underlying assumptions that CBME is for the greater good. Two of the core aspirational goals of CBME are improved patient outcomes and social accountability, yet there is a paucity of published studies examining related outcomes. Research is keenly needed that looks at patient health as an outcome of CBME, although there are perhaps insurmountable challenges in carrying out this kind of research due to the multi-faceted and highly complex inter-related factors that contribute to any individual health or patient outcome. In the promissory discourse about the link between [CBME, social accountability, and improved patient care outcomes], the effectiveness (or, perhaps, efficacy) of CBME is elusive. While this is certainly a growing area of the published literature in recent years, program evaluation studies and studies of long-term outcomes of CBME are a key area for future research, including revisiting the promissory discourse of CBME and establishing feasible outputs and outcomes of an education innovation housed within the greater context of complex non-linear multilayered systems (i.e. education system and healthcare system).

그림 1에서 볼 수 있듯이 CBME 문헌은 방대하기 때문에 한 번의 범위 검토로 모든 측면을 파악할 수는 없습니다. 저희는 시간이 지남에 따라 긍정적이든 부정적이든 서로 다른 문학적 대화를 이해하는 데 초점을 맞추기로 했습니다. 독자들은 8개의 핵심 주제와 히트 맵으로 정보를 통합한 것 외에도 문헌에 대한 종합적인 개요를 제공하는 두 개의 부록을 통해 최신 과학 현황을 파악할 수 있습니다. 이러한 리소스를 통해 독자는 정보를 직접 종합하고 변화의 생태학(함자와 레게르 2021)을 고려할 때 새로운 것을 맥락에서 구현할 때 스스로 판단할 수 있습니다.
As shown in Figure 1, the CBME literature is massive; one scoping review cannot capture all aspects. We chose to focus on making sense of the disparate literary conversations over time, both positive and negative. Readers can go beyond our consolidation of information into eight key themes and the heat map of frequencies: we have also created the two Supplementary Appendices, which serve as a state of the science comprehensive overview of the literature. These resources allow readers the opportunity to engage in their own synthesis of the information and form their own judgements when considering the ecology of change (Hamza and Regehr 2021) when implementing something new in a context.

제한 사항

모든 연구와 마찬가지로 한계가 있습니다. 리소스 제약으로 인해 영어로만 작성된 논문만 포함하도록 검색을 제한했으며, 기존 연구에서는 이러한 제한이 전통적인 체계적 문헌고찰에 미치는 영향이 미미한 것으로 나타났지만(Morrison 외. 2012), CBME에 대한 모든 문헌적 대화를 포착하려는 범위 검토를 수행할 때는 이러한 제한이 더 중요한 한계가 될 수 있습니다. 향후 계획에는 CBME의 시행과 관련된 급속한 발전과 그에 따른 문학적 대화의 물결로 인해 이 범위 검토를 주기적으로 업데이트하는 것이 포함됩니다.
As with any research study, there are limitations. Due to resource constraints, we limited the search to include articles written in English only, and while prior work has shown minimal impact of this limitation in traditional systematic reviews (Morrison et al. 2012), this may be a more significant limitation when conducting a scoping review that attempts to ensure all literary conversation about CBME are captured. Future plans include updating this scoping review periodically because of the rapid advancements associated with the implementation of CBME and subsequent waves of literary conversations.


지난 50년 동안 CBME에 대한 문학적 논의는 CBME의 철학적 토대와 장점을 강조하는 것에서 실제 단어 맥락에서 이 모델의 실제 적용을 논의하고 연구하는 것으로 변화해 왔습니다. 이 범위 검토는 문학적 대화의 지도를 제공하며 독자가 CBME 문헌의 다양한 대화를 이해하는 데 도움이 되는 초기 리소스 역할을 합니다. 또한 이 연구의 결과는 교육자와 학자가 필요한 연구 및 평가의 개발을 안내하기 위해 해결해야 할 격차를 식별하는 데 도움이 되는 리소스입니다.

Over the past five decades there has been a shift in the literary conversations of CBME from highlighting the philosophical underpinnings and advantages of CBME to discussing and studying practical application of this model in the real-word context. This scoping review provides a map of the literary conversations and serves as an initial resource to help readers to make sense of the different conversations in the CBME literature. Further, the findings from this study are a resource for educators and scholars to identify gaps that need to be addressed to help guide the development of needed research and evaluation.




Med Teach. 2023 Jan 20;1-14. doi: 10.1080/0142159X.2023.2168525. Online ahead of print.

Making sense of competency-based medical education (CBME) literary conversations: A BEME scoping review: BEME Guide No. 78

Affiliations collapse

1Postgraduate Medical Education, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

2Department of Medicine, University of California, San Francisco, CA, USA.

3Division of Rheumatology, Department of Medicine, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

4Royal College of Physicians and Surgeons of Canada, Ottawa, Canada.

5Department of Pediatrics, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

6Undergraduate Medical Education, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

7Global Health, School of Public Health, University of Alberta, Edmonton, Canada.

8Department of Educational Psychology, School and Clinical Child Psychology, University of Alberta, Edmonton, Canada.

9Alberta Strategy for Patient-Oriented Research (SPOR) SUPPORT Unit Knowledge Translation Platform, University of Alberta, Edmonton, Canada.

10Department of Family Medicine, Faculty of Medicine and Dentistry, University of Alberta, Edmonton, Canada.

PMID: 36668992

DOI: 10.1080/0142159X.2023.2168525


Background: Competency-based medical education (CBME) received increased attention in the early 2000s by educators, clinicians, and policy makers as a way to address concerns about physician preparedness and patient safety in a rapidly changing healthcare environment. Opinions and perspectives around this shift in medical education vary and, to date, a systematic search and synthesis of the literature has yet to be undertaken. The aim of this scoping review is to present a comprehensive map of the literary conversations surrounding CBME.

Methods: Twelve different databases were searched from database inception up until 29 April 2020. Literary conversations were extracted into the following categories: perceived advantages, perceived disadvantages, challenges/uncertainties/skepticism, and recommendations related to CBME.

Results: Of the 5757 identified records, 387 were included in this review. Through thematic analysis, eight themes were identified in the literary conversations about CBME: credibility, application, community influence, learner impact, assessment, educational developments, organizational structures, and societal impacts of CBME. Content analysis supported the development of a heat map that provides a visual illustration of the frequency of these literary conversations over time.

Conclusions: This review serves two purposes for the medical education research community. First, this review acts as a comprehensive historical record of the shifting perceptions of CBME as the construct was introduced and adopted by many groups in the medical education global community over time. Second, this review consolidates the many literary conversations about CBME that followed the initial proposal for this approach. These findings can facilitate understanding of CBME for multiple audiences both within and outside of the medical education research community.

Keywords: Competency-based medical education; evaluation; implementation; medical education; scoping review.


대규모 의과대학 교육과정에서 프로그램 평가에 대한 학생들의 관점: 비판적 현실주의자 분석(Med Educ, 2022)
Student perspectives on programmatic assessment in a large medical programme: A critical realist analysis
Chris Roberts1 | Priya Khanna1 | Jane Bleasel1 | Stuart Lane1 | Annette Burgess1 | Kellie Charles1,2 | Rosa Howard1 | Deborah O'Mara1 | Inam Haq3 | Timothy Rutzou4 



1 서론

[총괄적 고부담 의사결정]을 통해 [학습의 평가]를 강조하는 전통적인 평가 시스템은 의과대학 졸업생이 급변하는 의료 시스템에 진입하는 데 필요한 복잡한 역량에 대한 정보가 충분하지 않다는 비판을 받아왔습니다.1-6 이에 대한 대안으로 프로그램 평가는 프로그램 수준 학습 결과의 달성 및 평가를 강화하기 위해 [정보가 풍부하고 시기 적절하며 지속 가능한 프로세스]를 제공합니다. 이는 아래 평가의 세 가지 주요 기능에 대한 설계 원칙을 제공합니다.7

  • [학습 촉진(학습을 위한 평가)],
  • [학생 진도에 대한 의사 결정 강화(학습에 대한 평가)],
  • [교육과정과 평가 간의 연계성 보장] 등 

Traditional assessment systems that emphasise the assessment of learning though summative high-stakes decision making have been critiqued for providing insufficient information about the complex competencies medical graduates require for entering rapidly changing health systems.1-6 As an alternative, programmatic assessment provides an information rich, timely and sustainable process for strengthening the attainment and assessment of programme-level learning outcomes. It provides design principles around three key functions of assessment:

  • promoting learning (assessment for learning),
  • enhancing decision making about student progression (assessment of learning) and
  • quality assuring the linkage between curriculum and assessment.7 

[프로그램 평가] [의도적으로 선택한 여러 평가] [일정 기간 동안 결합]하여 [다양한 역량 결과 영역]에서 학습자의 [진도에 대한 삼각형 정보의 종적 흐름]을 생성함으로써 [학습을 위한 평가]를 지원합니다.8 이러한 데이터 포인트를 수집하고 대조하는 것은 교수진이 [학생의 진도에 대한 집단적 의사 결정을 내릴 수 있는 근거]를 제공할 뿐만 아니라(학습에 대한 평가) 학습자에게 개별화된 피드백의 풍부한 소스를 제공합니다(학습을 위한 평가).7 

Programmatic assessment supports assessment for learning by using purposefully selected multiple assessments combined over a period of time to create a longitudinal flow of triangulated information about a learner's progress in various competency outcome areas.8 Collecting and collating these data points not only provide a basis for collective decision making on student progress by faculty (assessment of learning) but provides a rich source of individualised feedback to learners (assessment for learning).7 

[프로그램 평가의 기본 이론과 원칙]은 문헌에 자세히 설명되어 있습니다.7-11 그럼에도 불구하고 복잡하고 역동적이며 다단계 시스템을 포함하는 다양한 맥락에서 취하는 실행 접근법에 대한 이해는 제한적입니다.12, 13 [프로그램식 평가]가 [어떻게, 누구를 위해, 어떤 맥락에서 작동하는지]에 대한 이론적 근거에 기반한 설명으로 뒷받침되는 경험적 데이터를 제공하는지에 대한 연구]는 거의 없습니다.14-16 이러한 실용적 접근 방식은 [비판적 현실주의 및 현실주의 평가]에서 사용되며,17 일반적으로 ["무엇이 효과가 있는가?"]라고 묻는 전통적인 평가 연구 접근 방식과 대조됩니다.18 따라서 연구자가 프로그램 평가와 같은 복잡한 교육 개입의 영향을 고려할 때 적절한 질문을 할 수 있도록 적절한 연구 방법론을 추가로 개발할 필요가 있습니다.19 경험적 데이터가 없으면 교육자가 전통적으로 평가 경험이 지배적인 프로그램 평가 도입에 대해 정보에 근거한 결정을 내리는 것이 어렵습니다. 

The underlying theory and principles of programmatic assessment have been described in detail in the literature.7-11 Notwithstanding, there is limited understanding of implementation approaches taken across different contexts that involve complex, dynamic and multilevel systems.12, 13 Few studies provide empirical data supported by theoretically informed explanations of how programmatic assessment is working, for whom and in what context?14-16 This pragmatic approach is used in critical realist and realist evaluation,17 contrasting with traditional approaches to assessment research that typically asks, “what works?”18 There is thus a need to further develop appropriate research methodologies to ensure researchers are asking the appropriate questions when considering the impact of a complex educational intervention such as programmatic assessment.19 Without empirical data, it is difficult for educators to make informed decisions about introducing programmatic assessment, where the prevailing experience of assessment is often traditionally based.

이 논문에서는 [비판적 현실주의(CR, 이하 CR) 이론 프레임워크]의 연구 결과가 프로그램 평가와 관련된 설계 및 구현 문제를 향후 반복에 최적화할 수 있는 방법에 대한 통찰력을 제공할 수 있다는 개념을 탐구함으로써 프로그램 평가에 대한 현재 연구를 확장합니다. 호주의 한 연구 집약적 대학에서 새로운 의학 대학원 커리큘럼의 첫해에 [학습을 위해 의도적으로 설계된 프로그램적 평가]가 시행되었을 때 이를 연구할 기회가 생겼습니다. 우리는 어떤 상황에서 어떤 프로그래밍 방식의 평가 요소가 학생들의 학습에 도움이 되는지, 왜 그렇게 생각하는지 탐구하고 싶었습니다. 이러한 맥락에서 연구 목표를 달성하기 위한 CR 접근 방식을 설명하기 위해, 우리는 연구 맥락에서 어떻게 작동하도록 의도되었는지에 대한 초기 이론을 강조하면서 전반적인 프로그램식 평가 설계를 설정했습니다. 그런 다음 이론에 기반한 방법론적 접근 방식을 설명하고 중요한 연구 목표와 연구 질문을 설정합니다.
In this paper, we extend current research on programmatic assessment by exploring the notion that findings from a critical realist (CR, hence forth) theoretical framework can provide insights into how design and implementation issues related to programmatic assessment can be optimised for future iterations. An opportunity to study this arose when a purposively designed programmatic assessment for and of learning was implemented in the first year of a new graduate medical curriculum at a research-intensive university in Australia. We wished to explore which elements of programmatic assessment seemed to be valuable for students' learning, under what circumstances, and why this was so. To explain our CR approach for meeting our research goals in this context, we set out our overall programmatic assessment design emphasising the initial theories of how it was intended to work in our research context. Then, we describe our theoretically driven methodological approach and set out our overarching study aims and research questions.

1.1 연구 맥락
1.1 Research context

2020년에 261명의 1학년 학생을 대상으로 하는 새로운 4년제 대학원 입학 MD 커리큘럼이 시작되었습니다. 이 커리큘럼에는 강화되고 다양한 임상 몰입도, 콘텐츠 전달에 대한 플립형 강의실 접근 방식, 커리큘럼 주제의 수평적 및 수직적 연계 등 이전 커리큘럼과 다른 몇 가지 변화가 포함되었습니다. [프로그램식 평가의 도입]은 여러 가지 형성 평가와 필기시험과 같은 주요 요약 평가, 임상 술기에 대한 객관적이고 구조화된 평가로 이루어진 기존의 평가 시스템에서 상당한 변화를 수반하는 복잡한 개입이었습니다. 이 프로그램 시스템은 [일련의 현지 워크숍]과 [네덜란드, 호주, 뉴질랜드의 주요 평가 전문가들과의 협의]를 통해 고안되었으며, [관련 문헌을 검토]했습니다. 그러나 코호트 규모, 이전 요약 평가 프레임워크에 대한 교수진의 경험, 현지 대학 평가 규정 및 요구 사항으로 인해 이론적 원칙을 상황에 맞게 실용적으로 조정할 필요가 있었습니다. 코로나19 팬데믹은 온라인 교수-학습 모드로의 전환이라는 측면에서 새로운 커리큘럼의 여러 측면을 구현하는 데 영향을 미쳤지만 커리큘럼 설계와 프로그램 평가를 뒷받침하는 프로그램 이론에는 큰 영향을 미치지 않았습니다.
A new 4-year graduate-entry MD curriculum commenced in 2020 for 261 Year 1 students. It involved several changes from the prior curriculum including enhanced and diverse clinical immersion, a flipped classroom approach to content delivery, and horizontal and vertical linkages of curricular themes. Introducing programmatic assessment was a complex intervention involving a significant shift from the previous system of assessment that was traditional in the sense of having several formative assessments and major summative assessments such as written tests and the objective structured assessments of clinical skills. The programmatic system was devised through a series of local workshops, consultations with leading assessment experts in the Netherlands, Australia and New Zealand, and was cognisant of the relevant literature. However, cohort size, faculty experience with previous summative assessment frameworks, and local university assessment regulations and requirements required several contextualised and pragmatic adaptations to the theoretical principles. The COVID-19 pandemic influenced the implementation of several aspects of the new curriculum in terms of a shift towards online teaching-learning modes but did not significantly impact the programme theories underpinning both the curriculum design and programmatic assessment.

1.2 시행된 프로그램 평가의 초기 프로그램 이론
1.2 Initial programme theories of implemented programmatic assessment

저희 버전의 프로그램적 평가는 [임상 역량에 대한 복잡성 일관된 관점]에 부합하도록 설계되었습니다. 전반적인 프로그램 설계에 대한 시스템 접근법을 고려할 때, 프로그램적 평가 접근법은 교육과정의 특징을 구성하는 몇 가지 필수 요소 중 하나를 제공했습니다.20 [프로그램적 평가]는 이전 평가 시스템의 학습 및 의사결정 기능을 모두 강화하기 위한 것이었습니다.8, 9 여기에는 다양한 신규 및 개정 평가 도구와 완성된 평가 제출에 대한 명확한 규칙 및 학생 행동에 대한 기대치를 가진 개선된 구조가 포함되었습니다. [평가 프로그램의 타당성에 대한 논거]는 전체 프로그램 내의 특정 목적에 따라 다양한 평가 도구를 신중하게 조합한 것에 근거했습니다.11 [공정성]은 모든 학습자가 동일한 수준의 평가를 받는다는 [형평성]의 관점에서 다루어졌습니다.21 학습자에 대한 정보는 맞춤형 e포트폴리오를 구성하는 학생 진도 기록(SPR) 내에서 [Collected(종단적)되고 Collated(삼각측량)]되었습니다. 이는 크게 [세 가지 요소], 즉 [기초 및 임상 과학 지식에 대한 학생의 이해, 임상 기술 역량, 전문성 관련 측면]으로 구성되었습니다. 평가 프로그램의 핵심 요소와 초기 프로그램 이론과의 관계에 대한 자세한 내용은 표 1에 나와 있습니다.

Our version of programmatic assessment was designed to align with complexity-consistent views of clinical competence. In considering a systems approach to overall programme design, a programmatic assessment approach provided one of several integral components that made up the features of the curriculum.20 The programmatic assessment was intended to strengthen both the learning and decision-making functions of the prior assessment system.8, 9 It included various new and revised assessment tools and improved structure with clear rules for submitting completed assessments and expectations of student behaviours. The argument for the validity of our programme of assessments was based on the carefully tailored combination of various assessment instruments depending on the specific purposes within the overall programme.11 Fairness was addressed from a perspective of equity, that is, all learners receiving the same quality of assessment.21 Information about learners was collected (longitudinally) and collated (triangulation) within a student progress record (SPR) that constituted a bespoke ePortfolio. This consisted of three broad elements: students' understanding of basic and clinical science knowledge, competence in clinical skills, and professionalism related aspects. The details of the key elements of the programme of assessment and their relation to the initial programme theory are given in Table 1.

1.3 CR 연구 프레임워크
1.3 CR research framework

프로그램식 평가를 [복잡한 사회 현상]으로 볼 때, 우리는 기본 설계, 프로그램식 평가의 맥락적 구현 및 학생 학습에 미치는 영향 사이의 복잡한 관계와 인과 메커니즘(작동 방식)을 풀고 이해하기 위해 [CR 관점]을 사용했습니다. 우리가 아는 한, CR은 의학 및 보건 과학 교육 내에서 [평가 시스템]을 고려하기 위해 경험적으로 적용된 적이 없습니다. 전통적인 [실증주의] 및 [해석주의] 입장에 더 익숙한 많은 보건 전문 교육자에게 CR은 비교적 새로운 패러다임일 수 있습니다. 세 가지 패러다임은 연구 현상의 실재가 어떻게 결정되는지에 대해 각각 뚜렷한 입장을 가지고 있습니다.35, 36

  • [실증주의와 사회 구성주의]는 실재를 '평면적'이고 인간의 해석으로 환원된다고 가정하여 연구 현상에 대한 제한된 관점을 제시합니다.
  • 반면에 [CR][현실이 계층화]되어 있고 [인과적 효능(효과나 결과를 유발하는 능력)이 있다]고 가정하며 [귀납보다 더 광범위한 추론 기법]을 통해 이해할 수 있습니다.35

In viewing programmatic assessment as a complex social phenomenon, we used a CR stance to unpack and understand the complex relationships and causal mechanisms (ways of working) between the underlying design, the contextual implementation of programmatic assessment and their impacts on student learning. To the best of our knowledge, CR has not been applied empirically to consider assessment systems within medical and health science education. CR might be a relatively new paradigm for many health professional educators more familiar with traditional positivist and interpretivist positions. Each of the three paradigms has a distinct position as to how the reality of any research phenomenon is determined.35, 36 

  • Positivism and social constructivism assume reality to be ‘flat’ and reduced to human interpretation and thus offering limited perspectives of the research phenomena.
  • CR, on the other hand, assumes reality to be stratified and causally efficacious (an ability to cause an effect or outcome) and can be understood through a broader range of inferential techniques than induction.35

본 연구의 연구 프레임워크는 CR 관점을 사용하여 두 가지 관점에서 도출된 프로그램 평가를 다루는 이전 연구18에서 형성되었습니다.

  • 첫째, 현실을 세 가지 영역(경험적, 실제적, 실재적)으로 계층화하는 바스커의 이론(그림 1 참조)과 
  • 둘째, 아처의 구조 및 대리인 이론37 

Our research framework in this study was shaped by our previous work,18 which used a CR perspective to address programmatic assessment derived from two perspectives:

  • first, Bhasker's stratification of reality into three domains (the empirical, the actual and the real) (see Figure 1); and
  • second, Archer's theory of structure and agency.37 

바스카의 계층화 개념을 통해 학생의 프로그램 평가 경험을 형성하는 [현실의 세 가지 교차 영역]으로 분리할 수 있었습니다.36, 38, 39 그림 1 참조.

  • 경험적(관찰 및 경험에서 수집한 데이터),
  • 현실적(학생이 평가 프로그램 내에서 보고하는 사건 또는 비사건),
  • 실재적(근본적인 인과 구조 및 메커니즘)

Bhaskar's concept of stratification allowed us to disentangle three intersecting domains of reality that shape the student experience of programmatic assessment:

  • the empirical (data gathered from observations and experiences),
  • the actual (events or non-events that students report within the assessment programme) and
  • the real (underlying causal structures and mechanisms).363839 See Figure 1.

임상 진단의 비유는 현실을 [세 가지 영역(경험적, 현실적, 실재적)으로 계층화]할 수 있는 방법을 설명하는 데 사용될 수 있습니다. 프로그램적 평가와 관련된 경험(즉, 개인 수준에서 기록된 실제 사건)은 환자가 의사에게 제시할 수 있는 증상 및 징후와 유사합니다.40

  • [경험적 수준]은 측정 가능하고 평가 가능한 데이터를 제공하는 병력 및 검사와 유사한 개인(환자)의 경험을 포착합니다.
  • [인과적 구조와 메커니즘]은 [실재적]이며, [현실적 수준]과 [경험적 수준] 모두에서 구별되고 잠재적으로 다르며, 환자의 근본적인 병리 및 진단과 유사합니다.

The analogy of clinical diagnosis can be used to illustrate how reality can be stratified into three domains (the empirical, the actual and the real). The experiences associated with programmatic assessment (i.e., actual events recorded at the individual level) are akin to the symptoms and signs that a patient might present to a doctor.40 

  • The empirical level captures the experiences of the person (patient) that are akin to a history and examination in providing measurable and assessable data.
  • Causal structures and mechanisms are real, distinct and potentially different from both the actual and the empirical and are akin to the underlying pathology and diagnosis of the patient.

[아처의 CR 관점]을 통해 [평가 관행의 변화에 기여하고 영향을 미칠 수 있는 [구조, 문화, 행위자성] 간의 복잡한 인과적 상호 작용]을 탐구할 수 있었습니다.37 이 연구 맥락에서

  • [구조]는 정책, 직위, 자원 및 관행을 설명하는 반면,
  • [문화]는 평가 시스템과 관련된 의미, 신념, 규범 및 아이디어의 체계를 설명합니다.

시간이 지남에 따라 [구조][문화]가 인간의 [행위자성]과 함께 복잡하게 상호작용하면41-43 필연적으로 

  • 아처가 '형태 형성'이라고 부르는 [주기적인 역동적 변화]가 발생하거나
  • '형태 정체'44라고 부르는 [동일성 유지]가 발생합니다(그림 2 참조).

Archer's CR perspective allowed us to explore the complex causal interplays between structure, culture and agency that might contribute to and impact the transformation of assessment practices.37 In our research context,

  • structure describes the policies, positions, resources and practices,
  • whilst culture describes the system of meanings, beliefs, norms and ideas associated with systems of assessment.

The complex interplay over time between structure and culture, together with human agency,41-43 inevitably results in

  • cyclical dynamic change referred to by Archer as ‘morphogenesis’, or
  • staying the same, referred to as ‘morphostasis’44 (see Figure 2).

1.4 연구 목표 및 연구 질문
1.4 Study aims and research questions

이 연구의 목적은 [CR 관점]에서 [프로그램적 평가의 어떤 요소가 학습에 영향을 미치는지, 그리고 그 이유는 무엇인지]에 대한 학생들의 인식을 탐구하는 것이었습니다.
The purpose of this study was to explore from a CR perspective, students' perceptions of which elements of programmatic assessment influenced their learning and why.

[구체적인 연구 질문]은 다음과 같습니다:
Our specific research questions were as follows:
  1. [새로운 평가 시스템의 특징feature]이 학생들의 학습 요구 사항을 지시하는 능력에 어느 정도 영향을 미쳤습니까?
  2. [평가 형식, 규칙 및 관행]을 탐색하는 데 있어 학생들의 경험은 어땠나요?
  3. 교수진 및 동료와 같은 새 커리큘럼 내의 [다양한 주체와의 상호 작용]이 학생들의 프로그램 참여에 어떤 영향을 미쳤습니까?
  4. [학생들의 인식과 경험에 대한 근본적인 설명]은 무엇이며 [프로그램 평가의 성장과 지속 가능성]에 어떤 영향을 미칠 수 있나요?
  5. To what extent did the features of the new assessment system influence students' ability to direct their learning needs?
  6. What were students' experiences in navigating assessment formats, rules and practices?
  7. How did the interactions with various entities within the new curriculum such as faculty and peers influence students' engagement with the programme?
  8. What were the underlying explanations of students' perceptions and experiences and how might they influence growth and sustainability of programmatic assessment?

이러한 질문은 실제로 무엇이 효과가 있는지, 어떻게 그리고 왜 효과가 있는지에 대한 풍부한 이론 기반 설명을 제공하여 평가 프로그램과 추가 반복에서 학생 경험을 최적화하는 데 중요하기 때문에 중요합니다.
These questions are important as they provide rich and theory-based explanations of what is really working, how and why it is working, to optimise the programme of assessment and the student experiences in further iterations.

2 방법

2.1 연구 설계
2.1 Study design

우리는 비판적 현실주의에 기반한 질적 방법론을 사용하여 프로그램 평가의 다양한 측면에 대한 학생들의 인식에 미치는 영향을 탐구하여 연구 질문을 해결했습니다.
We addressed our research questions using a qualitative methodology drawing on critical realism to explore the influences on students' perceptions of various aspects of the programmatic assessment.

2.2 데이터 수집
2.2 Data collection

데이터는 프로그램 첫 해 동안 일주일에 하루씩 학생들이 근무하는 7개 교육 병원 중 6개 병원(병원당 15~52명 범위)의 10개 심층 포커스 그룹(총 n = 112/261, 학생 코호트의 43%)으로부터 수집했습니다. 코호트 인구 통계는 표 2에 나와 있습니다. 모집을 위해 학생들에게 연구에 대해 알리고 소속 임상학교에서 포커스 그룹에 참석하도록 초대했습니다. 초기 샘플링 전략은 적당히 이루어졌으며, 약 20명의 학생이 학습 도우미 시스템에 대해 보고할 수 있는 [충분한 정보력]45을 제공할 것으로 예상했습니다. 그러나 평가 변경에 대한 학생들의 의견을 듣고자 하는 학생들의 관심을 고려하여 추가 포커스 그룹을 마련했습니다.
Data were collected from 10 (labelled A–J) in-depth focus groups (total n = 112/261, 43% of student cohort) across six of the seven teaching hospitals in which students were based (in range 15–52 students per site) for 1 day a week during the first year of the programme. Cohort demographics are illustrated in the Table 2. For recruitment, students were made aware of the study and invited to attend a focus group at their home clinical school. The initial sampling strategy was modest and anticipated that around 20 students would have provided sufficient information power45 to report on the learning advisor system. However, additional focus groups were arranged to account for student interest in having their voices heard about the assessment changes.

동의를 받은 후 인터뷰는 각각 40분에서 60분 동안 진행되었으며 PK, CR, AB 및 SL이 진행했습니다. 초기 인터뷰 가이드는 문헌에서 얻은 통찰력, 사전 이론화18 및 저자들의 전년도 초기 학습 어드바이저 파일럿 평가 경험을 바탕으로 개발되었습니다. 인터뷰 일정에서 질문은 [학습 어드바이저가 평가로서, 또는 평가를 위해 학생의 학습을 지원하거나 도전하는 방식에 초점]을 맞춰 학생들의 [프로그램 평가 경험]을 이끌어내기 위해 고안되었습니다. 그러나 포커스 그룹을 진행하는 동안 학생들이 학습 조교 시스템뿐만 아니라 프로그램식 평가 시스템 전반에 대해 공유하고 싶은 중요한 통찰력을 가지고 있다는 것이 분명해졌습니다. 따라서 포커스 그룹은 학생들이 학생 역량에 대한 판단, 학습 활동과 평가의 적합성 등 프로그램식 평가 시스템에 대한 인식을 자세히 설명할 수 있는 [대화 형식]으로 진행되었습니다. 오디오 테이프는 비식별화되고 그대로 전사되어 대학 데이터 보호 시설에 보관되었습니다.
Having been consented, interviews lasted from 40 to 60 min each and were conducted by PK, CR, AB and SL. An initial interview guide was developed from insights from the literature, prior theorising18 and the authors' experience of an initial learning advisor pilot evaluation in the previous year. In the interview schedule, questions were designed to elicit students' experiences of programmatic assessment focussing on the ways in which learning advisors supported or challenged student learning as and for assessment. However, during focus groups, it became clear that students had significant insights they wished to share on not just the learning advisor system but with the programmatic assessment system as a whole. Accordingly, focus groups were conducted as a conversation allowing students to elaborate on their perceptions of the programmatic assessment system including judgements of student competence and the fit of assessment with learning activities. Audiotapes were deidentified, transcribed verbatim and stored on the university data protection facility.

2.3 데이터 분석
2.3 Data analysis

우리는 프로그래밍 방식의 평가에 대한 [학생의 경험을 형성하는 근본적인 인과 메커니즘]을 밝히고자 했습니다. CR 프레임워크에 따라 데이터 분석 및 종합은 [선형적이기보다는 동적]으로 이루어졌으며, [반복적으로 수행되는 세 단계의 추론]이 포함되었습니다. 전체 데이터에 대한 이해를 보장하기 위해 연구자 간 관점의 차이는 회의(대면, 화상 회의 및 이메일)와 연구 자료의 화이트보드를 통해 조정되었습니다. 데이터는 질적 데이터 분석 프로그램 NVivo(버전 12)(QSR International Pty Ltd. 2020)를 사용하여 관리되었습니다.
We wished to unpack the underlying causal mechanisms that shaped the student experience of programmatic assessment. In line with the CR framework, data analysis and synthesis were dynamic rather than linear and involved three phases of inference undertaken iteratively. To ensure understandings applied to the full data, differences in researcher perspectives were negotiated through meetings (face to face, video conference and email) and using whiteboarding of the research materials. Data were managed using the qualitative data analysis program NVivo (Version 12), (QSR International Pty Ltd. 2020).

2.3.1 1단계: 귀납법
2.3.1 Phase 1: Induction

반복적 귀납적 분석의 초기 초점은 [특정 이론에 얽매이지 않고 코호트의 프로그램 평가 경험과 관련 커리큘럼 요소를 풀고 설명]하는 데 있었습니다.35 우리(CR, PK, TR)는 원시 데이터를 검토하여 일반적이고 새로운 패턴, 연결성, 유사성 및 차이를 반복적으로 식별했습니다. 이 시점에서 우리는 [학생들의 학습 및 평가 경험의 기저에 있는 것으로 보이는 종종 상충되는 원인을 이해하는 데 있어 귀납법의 내적 한계]를 발견했습니다.35
The initial focus of our iterative inductive analysis was around unpacking and describing the cohorts' experience of programmatic assessment and its related curricular elements, without being tied to a specific theory.35 We (CR, PK and TR) reviewed the raw data to iteratively identity general and emergent patterns, connections, similarities and variances. At this point, we noticed the internal limitations of induction in understanding the often conflicting causes that appeared to underlie the students learning and assessment experiences.35

2.3.2 2단계: 가추법
2.3.2 Phase 2: Abduction

[가추법]은 [초기 패턴 인식]을 넘어 [데이터에서 연관성을 형성]하여 [새로운 패턴을 보다 포괄적으로 이해하는 수단]을 제공했습니다.35, 46 우리의 방법을 설명하기 위해 가추법은 특정 맥락(예: 교육 활동으로서의 팀 기반 학습[TBL])에서 이해되었을 수 있는 개념을 [재기술 또는 재맥락화를 통해 프로그래밍 평가(학습을 위한 평가로서의 TBL)의 새로운 맥락에 연결]했습니다. 데이터의 [초기 귀납적 코딩]은 가추를 통해 [재검토 및 재코딩]된 다음, [실제적이고 경험적이며 잠재적인 '실제 메커니즘'으로서 현실]의 [계층화된 영역]에 대한 [CR 기반 개념 맵]으로 [재구성 및 재맥락화]되었습니다.

  • 데이터는 관찰 여부에 관계없이 학생들이 보고한 ['현실적'(임상 증상과 유사)40로 코딩]되었다. 여기에는 학생들이 일상적인 [평가 활동을 인식하는 방식, 성취도, 그리고 그 활동으로 인해 느낀 감정] 등이 포함되었습니다.
  • '경험적'(임상 검사 및 조사와 유사) 코딩에는 [새로운 평가 시스템의 다양한 측면]에 대한 학생들의 관찰, 인식 및 반성이 포함되었습니다.
  • 이 단계에서 '실재적'(감별 진단과 유사)현실적 및 경험적 평가가 왜, 어떻게 이루어졌는지를 설명하는 잠재적 메커니즘으로만 코딩할 수 있었지만, 핵심 메커니즘은 코딩할 수 없었습니다.

Abduction provided a means of forming associations in the data that went beyond initial pattern recognition to give a more comprehensive understanding of the emergent patterns.35, 46 To illustrate our method, abduction linked concepts that might have been understood within a particular context (e.g., team-based learning [TBL] as a teaching activity) to the new context of programmatic assessment (TBL as an assessment for learning) through redescription or recontextualization. The initial inductive coding of the data was re-examined and recoded through abduction and then reorganised and recontextualised into a CR-based conceptual map of stratified domains of reality as actual, empirical and potential ‘real mechanisms’.

  • Data coded as ‘actual’ (akin to clinical symptoms)40 reported by the students whether observed or not. This included the way students perceived everyday assessment activities, their achievements and how it made them feel.
  • The coding for the ‘empirical’ (akin to clinical examination and investigations) included students' observations, perceptions and reflections of various aspects of the new assessment system.
  • At this stage, the ‘real’ (akin to a differential diagnosis) could only be coded as potential mechanisms that explain why and how the actual and empirical came to be, but not which were the key mechanisms.

2.3.3 3단계: 역행추론법
2.3.3 Phase 3: Retroduction

CR 방법론의 핵심 구성 요소인 [역행추론][현실적 또는 경험적 수준만으로는 설명할 수 없는 기본 조건, 구조 및 메커니즘을 풀기 위해 데이터의 인과적 설명]을 포함합니다.35 우리는 문화, 구조 및 기관 간의 상호 작용에 대한 Archer의 이론에 비추어 수렴 및 상충하는 잠재적 ['실재' 메커니즘]을 모두 다시 코딩했습니다.37, 41 (그림 2) 세 가지 추론 모드를 사용하여 프로그램 평가 실행의 맥락과 기본 프로그램 이론을 고려하여 결과에 대한 진화하는 설명은 [현실적, 경험적, 실재적 사이를 이동]했습니다.46, 47
Retroduction, a key component of CR methodology, involves causal explanation of the data to unpack the basic conditions, structures and mechanisms that cannot be explained at the actual or empirical levels alone.35 We re-coded both the converging and conflicting potential ‘real’ mechanisms in the light of Archer's theory of the interplay between culture, structure and agency.37, 41 (Figure 2) Using the three modes of inferences, the evolving explanation of findings moved between the actual, the empirical and the real, taking account of the context of our implementation of programmatic assessment and the underlying programme theories.46, 47

2.4 팀 반사성
2.4 Team reflexivity

우리 팀은 다학제적이고 경험이 풍부한 연구자, 임상의, 임상 과학자들로 구성되었으며, 이들은 프로그램 평가를 만들고 실행하는 데 공동으로 그리고 직접적으로 참여했습니다. 프로그램에 참여하지 않은 사회과학자가 데이터에 대한 다양한 통찰력을 제공함으로써 이 연구의 의미를 구성하는 데 도움을 주었습니다48. 저자 중 일부는 연구 전에 비판적 현실주의에 대해 잘 알고 있었습니다. 반성적 현실주의는 회의와 이메일을 통한 내부 대화 공유를 통해 촉진되었으며, 이를 통해 개인이 평가 관행 변화에 대한 데이터의 내용에 대한 우려를 해결하고 우선순위를 정하는 반성적 숙고를 거쳤습니다.37
Our team comprised multidisciplinary and experienced researchers, clinicians and clinical scientists, who were collectively and directly involved in creating and implementing the programmatic assessment. A social scientist, not involved in the programme, helped construct meanings in this research48 by providing differing insights into the data. Some of the authors were familiar with critical realism prior to the study. Reflexivity was promoted through meetings and via email sharing our internal conversations, the reflexive deliberations through which the individuals address and prioritise their concerns about what the data said about changing assessment practice.37

3 결과

연구 결과는 두 부분으로 나누어 제시합니다:

  • 첫째, 첫 번째 세 가지 연구 질문을 다루는 귀납과 가추를 사용한 '경험적인 것과 현실적인 것'에 대한 설명
  • 둘째, 네 번째 연구 질문을 다루는 가추와 역행추론을 사용하여 학생들을 위한 프로그램 평가의 '실재'를 풀어낸 설명입니다.

We present our findings in two parts:

  • First, an account of the ‘empirical and actual’ using induction and abduction that addresses the first three research questions;
  • second, an account of the unpacking of the ‘reality’ of programmatic assessment for the students using abduction and retroduction that addresses our fourth research question.

3.1 1부: '경험적이고 현실적인' 수준
3.1 Part 1: The ‘empirical and actual’

경험적이고 현실적인 실재의 수준에는 다음과 관련하여 학생들이 경험한 실제 사건에 대한 학생들의 개인적인 경험과 해석이 포함됩니다.

  • 첫째, 학습 및 교수 활동 또는 다양한 평가와 같은 커리큘럼 구성 요소; 그리고
  • 둘째, 프로그램 요구 사항과 관련된 의사소통, 신념 및 규범에 대한 회상에 반영된 학습 환경의 문화에 대한 인식.

The empirical and actual levels of reality included students' personal experience and interpretations of actual events they experienced in relation to

  • first, their curricular components such as learning and teaching activities, or various assessments; and
  • second, their perceptions of the culture of the learning environment, as reflected in their recall of communication, beliefs and norms in regard to programme requirements.

연구 질문을 고려하여 학생들의 프로그램 평가 경험과 관련하여 다음의 세 가지 주제를 개발했습니다.

  • (1) 학습 선택권 부여(주체성),
  • (2) 평가 시스템 탐색(구조),
  • (3) 문화 시스템 구축

Considering our research questions, we developed three themes in relation to student experiences of programmatic assessment:

  • (1) enacting learning choices (agency),
  • (2) navigating the assessment system (structure) and
  • (3) building a cultural system.

RQ 1: 새 평가 시스템의 기능이 학생의 [학습 요구 사항을 지시하는 능력]에 [어느 정도 영향]을 미쳤습니까?
RQ 1:To what extent did the features of the new assessment system influence students' ability to direct their learning needs?

3.1.1 학습 선택권 부여(주체)
3.1.1 Enacting learning choices (agency)

이 주제에서는 학생이 학습에서 [어떤 선택을 어떻게 할 수 있는지]에 대한 관점에서 [구조(행동을 가능하게 하거나 제약할 수 있는 평가 규칙, 관행 및 자원)와 주체성 간의 상호작용을 매개하는 요인]에 대해 설명합니다. ['선택']이란 학생이 자신의 학습 요구를 파악하고 그에 따라 학습을 주도할 수 있는 [인지된 자유의 정도]를 의미합니다.
This theme describes the factors that mediate the interplay between structure (the assessment rules, practices and resources that may enable or constrain action) and agency from the perspective of how and what choices students have in their learning. By ‘choices’, we mean the perceived degree of freedom that allowed students to identify their learning needs and direct their learning accordingly.

학생들은 의료 프로그램 내에서, 특히 프로그램 평가에서 다양한 영향을 받았으며, 이는 학생들이 무엇을 언제 어떻게 학습할지 선택할 수 있는 구조가 어느 정도인지에 영향을 미쳤다고 보고했습니다. 예를 들어, 학습 지도교수 시스템 내에서 학생의 주체성은 [교수진과의 오랜 관계]를 통해 표현되었으며, 학생에서 의사가 되기까지의 [전문성 개발 여정에서 전문적인 대화]가 건설적인 영향을 미쳤습니다. 대부분의 학생들은 [학습 어드바이저 제도]를 통해 학습의 강점과 약점을 분석하고 약점을 보완하기 위한 개인 학습 계획을 세움으로써 자기 효능감과 자기 조절력을 키울 수 있었습니다.
Students reported various influences within the medical programme, and the programmatic assessment specifically, that shaped the degree to which the structures in place gave them choice in what and how they learned and by when. For example, student agency within the learning adviser system was expressed through having a long-standing relation with teaching faculty, in which a professional conversation was a constructive influence on their professional development journey from being a student and becoming a doctor. For most students, the learning advisor system supported their own self-efficacy and self-regulation through analysing their strengths and weakness in their learning and devising a personal learning plan to work on those weaknesses.


저는 (개발) 계획을 세우는 것이 정말 마음에 들었습니다. 어떤 이야기를 하고 싶은지 설정할 수 있기 때문입니다. 그리고 마지막에 행동 계획을 세우고 회의에서 논의한 내용을 바탕으로 계획을 업데이트하는 것도 좋았는데, 회의가 끝난 후 스스로 행동 계획을 세우도록 강제하기 때문입니다. (C2)
I definitely liked having the idea of having the (development) plan going in, because it sets up what you want to talk about. And then I also liked having the actions at the end, and then having the update to the plan based on what you discussed in the meeting, because it really forced you to set actions for yourself after the meeting. (C2)

그러나 일부 학생의 경우 현재 형태의 [학습 어드바이저 구성 요소]는 프로그램 요구 사항의 일부로 완료해야 하는 [또 다른 평가로 인식]되었습니다. 따라서 "따라잡기, 확인, 몇 가지 질문"(C)을 위한 추가 미팅을 부과하는 것은 학습을 지원하기보다는 학습 어드바이저 프로세스에 대한 참여를 증명하기 위한 것입니다. 때때로 학생들은 [필수 출석 규칙]이 [전문성을 나타내는 지표라는 인식]과 같이, 평가 시스템의 [특정 구조가 학습을 지원하기보다는 학습에 불리하게 작용한다]고 인식했습니다.
However, for some students, the learning advisor component, in its current form, was perceived as another assessment to complete as part of programme requirements. Thus, imposing an additional meeting to “catch-up, check in, ask a few questions” (C) to evidence their engagement with the learning advisor process, rather than supporting their learning. At times, students perceived that certain structures of the assessment system worked against their learning rather than supporting it, such as a perception that mandatory attendance rules were a marker of professionalism.

출석을 강제하는 것이 아니라, 예를 들어 연초에 사람들이 QR(빠른 응답) 코드를 제대로 하고 있는지, 심지어 Zoom(화상 회의 소프트웨어)을 제대로 사용하고 있는지 믿지 못해서 무작위로 들어와서 누가 있는지 수작업으로 확인하는 것과 같은 답답한 일이 있었습니다. (H)
I find it frustrating not that they are forced to meet attendance, it's like, for example, at the start of the year, they came in and randomly did a manual check of who was in there because they did not trust that people were doing the QR (Quick Response) code properly or even in our Zooms (video conferencing software) at the start. (H)

학생들은 [완료된 평가가 학습 관리 시스템에 업로드되는 과정]과 [개인 및 팀 평가에 대한 피드백을 받는 데 지연]이 발생하는 등 [리소스 문제]로 인해 영향을 받는다고 생각하는 평가 시스템의 요소에 대해 이야기했습니다.
Students talked about elements of the assessment system, which they thought were impacted by resource issues, for example, the process by which completed assessments were uploaded in the learning management system and the delays they perceived in getting feedback on individual and team assessments.

이러한 마감일을 지키지 못하는 이유는 아마도 업무가 과중하고 인력이 부족하며 새로운 과정을 시작하면 더 많은 지원이 필요하기 때문일 것입니다. 우리가 들은 바에 따르면 이런 일이 발생했습니다. 그리고 그것은 우리의 학습에 영향을 미쳤습니다. 그것은 우리에게 영향을 미쳤고, 우리가 받고 있는 교육의 질에 확실히 변화를 가져왔습니다(J).
The reasons that they are not meeting these deadlines is probably because they are overworked, and understaffed, and starting a new course you need more support, not less. Which is kind of through the grapevine what we have heard has happened. And it has affected our learning. It has impacted on us, and it has definitely changed the quality of the education we are getting (J)

그럼에도 불구하고, 프로그램 평가 시스템은 [시간이 지남에 따라 발전할 가능성]이 있는 것으로 인식되었으며, 예를 들어 [학습 지도교수가 의학 프로그램을 통해 학생의 여정에서 멘토가 되는 개념]을 발전시켰습니다.
Notwithstanding, the programmatic assessment system was recognised as having the potential to develop over time, for example, developing the notion of a learning advisor being a mentor on the student journey through the medical programme.

저는 학습 지도교수를 커리큘럼 자체뿐만 아니라 일종의 커리어 코치로서도 활용합니다. 저는 이전에 다른 직종에서 일한 경험이 있고, 회사에서도 학생의 진로에 대해 멘토링을 해주고 적절한 리소스를 연결해줄 수 있는 커리어 코치를 원했기 때문에 학습 어드바이저의 역할이 매우 중요하다고 생각합니다. 하지만 그것은 학생들이 그런 종류의 도움을 요청할 수 있는 힘이 있다고 느낄 때만 가능합니다. (A)
I use my learning advisor not just for the curriculum itself, but also as a bit of career coach. So, I think there's a lot of value to be had there, and I did that because I come from a different profession previously, and my firm was quite keen on having a career coach that will suit – mentor you on the way, and connect you with the right resources, if you ask for it. But that's only possible when the students feel empowered to reach out for that kind of help. (A)

요약하면, 학생들은 자신의 행위자성을 주로 다음의 세 가지와 관련해서 이해했다.

  • 첫째, [학습 과정을 진행하는 데 도움이 된다고 느낀 학습 연습]을 통해 스스로 동기를 부여하고 자기 조절을 할 때,
  • 둘째, 학습 조언자인 임상의와의 전문적인 대화를 통해,
  • 셋째, 개인 또는 팀 평가에 대한 건설적이고 개별적인 피드백

학습자 에이전시는 다음으로 인해 어느 정도 제약을 받았습니다.

  • IT 시스템 탐색,
  • 교수진과의 부정적인 커뮤니케이션 경험,
  • 의도한 프로그램을 제공하기 위한 리소스 부족 

In summary, students made most sense of their agency related to three factors:

  • first, their own motivations and self-regulation from having a study practice that they felt helped them in progressing through the course;
  • second, with professional conversations with clinicians as learning advisors;
  • third, from constructive and individual feedback around individual or team assessments.

Learner agency, to some extent, was constrained by

  • navigating the IT systems,
  • negative communication experiences with faculty and
  • a perceived lack of resources to deliver the intended programme.

RQ 2: 학생들이 [평가 형식, 규칙 및 관행을 탐색]하는 데 있어 어떤 [경험]이 있었습니까?
RQ 2:What were students' experiences in navigating assessment formats, rules and practices?

3.1.2 평가 구조 탐색하기
3.1.2 Navigating assessment structures

이 주제에서는 프로그램 평가에 대한 [학생의 기대, 교수진의 의도된 구현 및 프로그램의 교육기관 제공 간의 역동적인 상호 작용]에 대해 설명합니다. 프로그램 기능의 중요한 구조는 학생 진도 보고서 내에서 완료된 평가 과제 모음에 대한 판단 및 의사 결정 과정, 특히 수정 과정 및 전문성 관련 문제에 대한 의견에서 발견되었습니다. 학생들은 의견을 표현할 때 기존의 평가 시스템에 대한 사전 적응으로 인해 [프로그램 평가에 대해 잘못된 오해]를 하는 모습을 보였습니다.
This theme describes the dynamic interplay between student expectations of the programmatic assessment, the faculty's intended implementation and the institutional delivery of the programme. Critical structures of programme functioning were found in their comments about the judgement and decision-making process on the completed collection of assessment tasks within the student progress report, especially the remediation process, and the professionalism-related issues. In expressing their opinions, students showed fallible misunderstandings about the programmatic assessment, shaped by their prior conditioning to traditional assessment systems.

예를 들어, '형성적'과 '총괄적'이라는 용어의 이해, '부담stake'의 해석, [학습을 위한 평가]와 [학습에 대한 평가] 등 프로그램식 평가에 대한 이야기를 둘러싸고 학습자와 교수자 모두 많은 긴장을 느꼈습니다.
There were a number of tensions in both learners and faculty around the narratives about programmatic assessment, for example, what was understood by the terms ‘formative’ and ‘summative’; interpretation of ‘stakes’; and assessment for and of learning.

형성 평가와 총괄 평가의 차이, 그리고 이 과정에서는 모든 것이 총괄 평가가 될 때까지 형성 평가라는 점은 이해합니다. 문제는 그것이 언제인지 말하지 않기 때문에 일년 내내 지나갔는지 알기 위해 사소한 일에 땀을 흘릴 수 있다는 것입니다. (G)
I get it; the difference between formative and summative, and that everything is formative in this course until it is summative. Problem is they do not say when that is so you could be sweating on a minor thing to know if you have passed the whole year. (G)

[부담 또는 가중치]는 [학생의 진급에 대한 교수진의 결정]이 [정보의 신뢰성에 비례하는 정도]를 나타냅니다. 학습자의 불완전하고 종종 오류가 있는 평가에 대한 인식 사이에서 특정 평가의 지분이 SPR에 포함된 다른 평가와 비교되는 것에 대해 많은 불확실성이 있었습니다.
The stakes or weightage describes the degree to which faculty decisions about student's progress are proportional to the credibility of information. There was much uncertainty amongst learners' incomplete and often fallible perceptions of assessment as to what the stakes of a particular assessment were compared with other assessments included in the SPR.

연초에 그들은 모든 평가의 가중치가 같거나 다른 평가보다 더 가중치가 높은 평가는 없다는 식의 말을 했습니다. 그래서 그 라인에서 그들은 적어도 그들이 진실하다고 생각하는 것을 얻으려고 노력하고 있다고 생각합니다. 그들은 우리에게 다른 가중치가 있음을 알려주지 않았습니다. 하지만 그것이 사실인지 아닌지는 모르겠습니다. 실제로는 [필기 시험]이 해부학 [실습 시험]보다 가중치가 더 높나요? (C)
I would say at the beginning of the year they did say everything is—they said something along the lines of everything is of equal weight, or nothing is weighted more than the other. So, I guess in that line, they are trying to get the—which I think they have at least held true to, they have not let us know anything is weighted differently. But if that's true or not, I do not know. Behind the scenes, is the [written test] weighted more than an Anatomy Spot Test? (C)

프로그램 평가의 개별 요소 중 대부분의 학생들은 [연속된 필기 시험]이 "우리를 평가하는 공정한 방법이었다"(J), "장벽이 있는 것보다 스트레스가 덜했다"(F)고 느꼈습니다. [점진적 평가]는 프로그램 첫해의 진행 상황을 알려주었고 학습에 도움이 되는 것 같았습니다.
Of the individual elements of the programmatic assessment, most students felt the continuous testing in the written assessments seemed to “have been a fair way to assess us” (J), as well as “less stressful than having a barrier” (F). The progressive assessments provided an indication of where they were in terms of progress in the first year of the programme and seemed to be supportive to their learning.

[작업 기반 평가]에서 코로나19는 [관찰 및 피드백을 위한 작업장의 어포던스에 영향]을 미쳤지만, 전반적으로 의도한 대로 작동하였고, 학생의 임상 기술 개발 진행 상황에 대한 유용한 피드백을 제공하는 동시에 즉각적인 피드백을 제공하는 것으로 간주되었습니다.
In the work-based assessment, COVID had impacted the affordances of the workplace for observation and feedback, but overall was regarded as working as intended and giving useful feedback on student progress in developing clinical skills, whilst providing immediate feedback.

채점 방식은 매우 일반화되어 있어 구체적이지 않다는 점에서 정말 좋았습니다. 올해에는 병력과 신체 검사를 통해 자신감을 키우는 것이 더 중요하다고 말했는데, 정말 자신감을 키우는 데 도움이 된 것 같아요. 호흡기 첫 번째 블록에서 신체검사를 할 때 규모가 아주 작았던 것도 정말 좋았습니다. 주변부 검사만 하다가 복부 전체 검사 같은 것까지 확장해 나갔어요. (C)
The marking scheme was really good in that it's quite generalised, so it's not very specific. So, I feel like they did say for this year it's more about building confidence by doing the history and physical exams, and I think that those really built up the confidence. I also really liked how in our first block in respiratory, for the physical exam it was quite small. It was kind of just doing peripheries, but then they just built up to something like maybe the whole abdominal exam. (C)

[TBL 세션에서 기계식 다이어그램을 공동으로 제작하는 것]은 TBL 프로세스의 유용한 학습 목표이자 프로그램 이론과 잘 어울리는 것으로 간주되었습니다. 그러나 [코로나19 적응]의 일환으로 팀 기반 평가로 재구성되었을 때 학생들은 이를 고난도 평가로 인식하여 전반적인 학습에 큰 지장을 주었습니다. 학생들은 주로 투자한 시간과 학습 성취도 사이의 불균형, 즉 불필요한 인지적 부하 때문이라고 설명했습니다.49 일부 그룹에서는 [전반적인 학습적 가치를 희생]하면서까지 [점수만 더 잘 얻는 데 집중]하는 방식으로 팀워크가 형성되었습니다. 이는 학생들이 [TBL 관련 점수를 해석하는 방법]과 [기대되는 표준이 무엇인지에 대한 불확실성]이 그 배경에 있었습니다.
The collaborative production of mechanistic diagrams in the TBL sessions was seen as a useful learning endpoint of the TBL process and a good match to programme theory. However, when recrafted as a team-based assessment, as part of COVID adaptations, the students perceived them as a high-stakes assessment, strongly detracting from overall learning. Students explained this was mainly because of an uneven balance between the time invested and their learning gains, a matter of extraneous cognitive load.49 For some groups, collaborative teamwork became focussed on achieving higher marks at the expense of the overall learning value. This was on a background of student uncertainty in how to interpret the TBL-related marks and what the standard expected might be.

우리가 기계식 다이어그램을 만들기 시작했을 때 수업 시간에 할 때는 매우 간단하다고 느꼈습니다. 그런데 막상 제출하고 마킹을 해야 하는 순간, 이 다이어그램에는 높은 수준의 복잡성과 많은 양의 세부 사항이 포함되어야 했기 때문에 당연히 시간이 더 걸리고, 더 많은 시간을 생각해야 했습니다. (B)
When we started doing the mechanistic diagrams, I feel like—when we are doing it in class, they are very simple. And then as soon as they had to be handed in and marked, we were expected to have a high level of complexity and large amounts of detail within this diagram, which of course adds more time, and you have to spend more time thinking about it. (B)

마찬가지로, TBL 세션의 일부인 [개별 준비도 확인 테스트(iRAT)]는 학습의 유용한 동기 부여로 여겨졌습니다. 그러나 학습 진도를 나타내는 지표로서 iRAT는 학습의 만족스러운 성취도를 측정하기보다는 TBL 전에 학습할 준비가 되었는지를 나타내기 위한 것이기 때문에 그 중요성이 지나치게 크다고 생각했습니다.
Similarly, the individual readiness assurance tests (iRATs) as part of the TBL sessions were seen as a useful motivator of learning. However, as indicators of progress in learning, iRATs were considered to have too much perceived importance, given they were intended to indicate readiness to learn before the TBL rather than a measure of satisfactory achievement of learning.

SPR에 과제를 늦게 제출한 것을 기록하는 등 [전문성을 평가하는 것]에 대한 [교수진의 집단적 견해]는 학생에게 문제가 되었습니다. 학생들은 [여러 평가 중 하나를 제출할 때 사소한 문제로 전문성 위반으로 판단될까 봐 이 과정이 징벌적이라고 느꼈다]고 우려했습니다. 또한 [사소한 위반 사항]이 [학생 기록]에 남아 [교수의 학생에 대한 인상을 편향적]으로 만들 수 있습니다. 학생들은 [전문직업성 위반]으로 간주하기보다는, 추가적인 지원과 노력을 통해 [개선해야 할 과실]로 간주하는 것이 더 편한 것으로 나타났습니다.
The collective faculty view on assessing professionalism including recording late submission of tasks in the SPR was problematic for students. They worried the process felt punitive as they feared being judged in breach of professionalism for a minor issue when submitting one of multiple assessments. Further, trivial breaches could remain in the student record and bias faculty impressions of them. Students appeared more comfortable with viewing unprofessionalism as a lapse to be worked on,25 with additional support and work, rather than being viewed as a professional breach.

전문성을 평가하는 것은 누군가를 프로페셔널하다고 평가하기보다는 잃어버릴 수 있는 무언가라고 생각합니다. 하지만 강의나 임상에서 어떤 사람이 행동하는 방식이 비전문적이라고 느껴질 때가 있는데, 그런 부분도 반영되어야 한다고 생각합니다. (A)
With assessing professionalism, I feel like it's sort of more something to be lost, rather than having to assess someone as being professional. But then like sometimes things might happen throughout the year, the way someone acts in lectures, or at clinical school, like, there's instances where I feel like they are displaying unprofessionalism, and that is sort of what should be reflected instead. (A)

[재교육 프로세스의 시행]은 [불확실성을 초래]했습니다. 이는 학생들이 의사 결정 및 진행 과정과 SPR의 연말 검토에서 포트폴리오 자문 그룹의 역할에 대한 지식이 부족하다는 주장으로 인해 증폭되었습니다.
The implementation of the remediation process led to uncertainty. This was amplified by the claimed lack of knowledge amongst the students about the decision-making and progression process and the role of the portfolio advisory group in the end of year review of the SPR.

(재교육을) 겪어보지 않고는 알기 어렵고, 얼마나 많은 정보가 공개되었는지 알기 어렵지만, 시험에 실패하면 어떤 결과가 초래되는지 이해하지 못한다는 점에서 투명하지 않은 것 같고, 처음에는 상당히 지원적인 과정이라는 인상을 받았고, 자원이 주어지고 개선 방법을 알려주어 한 해를 마무리하는 것을 목표로 할 수 있을 것이라고 생각했습니다. 하지만 꼭 그런 것만은 아닌 것 같습니다. (E)
It's hard to know, not going through it (remediation), it's hard to know how much was disclosed to the people that did, but it has not seemed all that transparent in terms of you do not understand, if you were to fail an exam, what the consequences are and I was under the impression to begin with that it was quite a supportive process, and that you'd be given the resources and told how to improve so that then you could, with the aim of completing the year. But it seems like that's not reality necessarily. (E)

요약하면, 평가 데이터의 수집과 대조 및 보고에 관한 프로그램 이론의 관점에서 볼 때, [기초 및 임상 과학의 점진적 테스트와 작업 기반 평가는 프로그램 이론이 예측한 대로 대체로 작동]했습니다.

  • [핵심 학습 방법으로서 TBL]의 [어포던스와 평가]라는 다른 맥락에서의 사용 사이의 차이로 인해 상당수의 학생들이 [SPR에 준비성 확인 시험을 포함하는 것의 가치]에 대해 이의를 제기했습니다.
  • [전문직업성 평가]는 단순하고 과제 제출 시간 지연에 국한된 것으로 인식되었습니다.
  • [의사 결정 및 진급 규칙이 운영되는 방식을 사회화하는 데 있어서의 문제]는 학생들이 [다양한 평가 형식의 부담]과 [교정 시스템의 유용성]에 대한 [불확실성]으로 나타났습니다. 이는 일부 학생에게 스트레스가 되었습니다.

In summary, in terms of programme theories around the collection and collation and the reporting of assessment data, the progressive testing of basic and clinical science and the work-based assessment had worked largely as the programme theories had predicted they would.

  • The difference between the affordances of TBL as a key learning method and its use in a different context, as an assessment, had a significant proportion of students challenging the value of including, for example, readiness assurance testing in the SPR.
  • The assessment of professionalism was perceived as simplistic and limited to the lateness of assignment submission.
  • Problems in socialising the way in which decision-making and progression rules operated were manifested in students' uncertainty of the stakes of differing assessment formats and the utility of the remediation system. That was stressful for some students.

RQ 3: 교수진 및 동료와 같은 새로운 커리큘럼 내의 다양한 주체와의 상호작용이 학생들의 프로그램 참여에 어떤 영향을 미쳤나요?
RQ 3:How did the interactions with various entities within the new curriculum such as faculty and peers influence students' engagement with the programme?

3.1.3 문화 시스템 구축
3.1.3 Building a cultural system

이 주제는 프로그램 내에서 널리 퍼져 있는 [문화 시스템, 학생과 교수진이 '함께 배우는 방법을 배우려는' 시도]를 설명합니다.50 [프로그램 평가]는 학생과 교수진 모두에게 새로운 경험이었습니다. 이 주제에는 학생들의 정서적 혼란, 비생산적인 작업이라는 개념, 학생들이 처한 학습 상황에서 '어려운 집단'이라는 인식도 포함됩니다. 학습 문화 시스템에 대한 학생들의 인식은 일부 학생들의 학습 평가에 여러 가지 방식으로 영향을 미쳤습니다.
This theme describes the system of culture prevailing within the programme, the sense of students and faculty attempting ‘to learn how to learn together’.50 Programmatic assessment was a new experience to both students and faculty. The theme also includes the contribution of the emotional turmoil of the students, the notion of unproductive work and the student perceptions of ‘being a difficult cohort’ in the learning contexts they found themselves in. Their sense of the learning cultural system impacted some students' assessment as learning in a number of ways.

심지어 사람들이 내 편이 되어야 할 때 내 편이 아닌 것처럼 느껴지면 동기를 유지하기가 어렵습니다. 그래서 약간 징징대는 것처럼 들리겠지만, 전반적으로 이 코호트의 분위기가 다운된 것 같아요. 그리고 제가 그렇게 말하는 것이 과장된 것 같지는 않습니다. (J)
And even—yeah, it's just hard to stay motivated when you feel like people aren't on your side, when they are supposed to be on your side. So, it sounds a bit whingy, I know, but I just think it's overall, like, brought down the mood of this cohort. And I do not think I'm exaggerating when I say that. (J)

일부 학생들에게는 부정적인 학습 문화 또는 심지어 '비난 문화'(J)에 대한 인식이 있었는데, 이 프로그램의 정신이 학교를 갓 졸업한 학부생에게 더 적합한 감시의 문화로 인식되었습니다. 학생들은 자신을 제외한 동료 학생들이 의학을 배우는 과정에서 변화에 저항하고 있다는 사실을 인식하고 있었습니다.
For some students, there was a perception of a negative learning culture or even a ‘blame culture’ (J) where the ethos of the programme was perceived as one of surveillance, more appropriate to undergraduate students straight from school. Students recognised that their fellow students, perhaps excluding themselves, were being resistant to change in the context of learning medicine.

그러나 그들은 또한 당신이 마치 미성년자인 것처럼 평가에서 징벌적으로 처벌하기를 원합니다. 이제 17세와 18세인 여러분은 고등 교육 시스템에서 어떻게 존재해야 하는지 배우기 위해 일종의 채찍질을 당해야 합니다. 좋아요. 사실 1학년 과목이 약간 징벌적이어도 괜찮아요. (B)
But then they also want to punish you punitively in assessments as if you are an under-grad. Now, if you are a 17- and 18-year-old, you need to be kind of whipped into shape to learn how to exist in a tertiary education system. Fine. I'm actually okay with first year subjects being a bit punitive. (B)

학생들이 교수진으로부터 [필요한 정보를 얻기 위해 해결 방법]으로 찾은 몇 가지 방법이 있었습니다. 이러한 방법 중 하나는 "학생 대표(학년 학생 대표)를 통해 Facebook(1학년 비공개 소셜 미디어) 그룹에 글을 올리는 것"(C)과 같이 학생 대표를 통하는 것이었습니다. 다른 학생들은 교수진과의 커뮤니케이션에 문제가 있다고 지적했습니다.
There were a few ways that the student found as workarounds to get the information they felt they required from faculty. One of these ways was through the student representatives, for example, “relying on student reps (year student representatives) to post up on the Facebook (private Year 1 social media) group” (C). Others noted that the faculty communications were problematic.


저는 학생 대표들이 놀라운 일을 하고 있다고 생각합니다. 하지만 당신들은 시험에 어떤 내용이 포함될지 저희에게 알려주면 안 됩니다. 그건 교수진에게 맡겨야 합니다. (J)
I think student reps are doing an amazing job. But you guys should not be responsible for telling us what's going to be on our assessment. That should be on the faculty (J)

학생들은 정서적 혼란을 겪으면서 평가 참여와 학습에 영향을 미치는 다양한 상황적 요인을 경험했습니다.51
Students had experienced a range of differing situational factors impacting their participation in assessment and learning through their emotional turmoil.51

개인적으로 저는 첫 번째 해부학 실기 시험에 정말 정말 스트레스를 많이 받았습니다. 그 시험 공부에 많은 시간을 할애했고, (필기 평가에서) 평가될 다른 내용을 위해 제 학습을 많이 희생했습니다. 그리고 그 후에 그 시험이 감독 시험이 아닌 이유는 비중이 충분하지 않기 때문이라는 것을 알게 되었습니다. (J)
Well, for me personally, I went into the first, for example, the anatomy spot test, being really, really stressed. Spent a lot of time dedicating to studying for it, and kind of sacrificed a lot of my learning for the other content that was going to be assessed in the (written assessment). And then I found out after that that the reason that it wasn't a proctored exam is because it does not weigh enough. (J)

그러나 몇몇 학생들은 동료들 중 일부가 익명성 뒤에 숨어 교수진에게 피드백에 대한 책임을 지지 않는 등 [비전문적으로 '무례하게' 행동한다]고 지적했습니다. 이에 대한 해결책은 교수진과 학생 간의 소통을 개선하고 다양한 커뮤니케이션 수단을 통해 명확한 기대치를 설정하는 것으로 나타났습니다.
However, several students noted that a proportion of their peers were being unprofessionally ‘rude’, hiding behind their anonymity, and not taking responsibility for their feedback to the faculty. The solution appeared to be better communications between faculty and students and setting clear expectations, through multiple means of communication.

연초에 이러한 기대치를 잘 설정하는 것만으로도 충분했습니다. 따라서 기초 세션에서 전문성, 참여도, 사람들이 참여해야 하는 학습 리소스에 대한 기대치를 설정하고 학생들이 이를 보완하기 위해 무엇을 해야 하는지에 대한 기대치를 평가하면 이러한 문제를 상당 부분 해결할 수 있습니다. (A)
Just setting those expectations well at the beginning of the year. So, in your—in the foundation sessions, setting the expectations around professionalism, around participation, around what learning resources people should be engaging with, and assessing expectations around what students need to be doing supplementary to that, solves a lot of these problems. (A)

요약하면, 데이터에 따르면 대부분의 학생이 [학습에 대한 새로운 사고 방식과 평가와의 관계에 대한 요구 사항을 수용]하고 있는 것으로 나타났습니다. 그러나 일부 학생들은 [교수진과의 일부 커뮤니케이션]에서 [개인의 행동을 규제하는 사회적 규범(규범 없음)의 붕괴], 즉 뒤르켐이 말한 아노미를 경험했습니다.52 이러한 현상은

  • 첫째, 학생들 사이에서, 그리고 학생 대표와의 대화에서 분명하게 드러났습니다.
  • 둘째, 이메일을 통한 교수진과의 소통, 학습 관리 시스템을 통한 공지, 학생 핸드북에 포함된 정보에 대한 설명을 통해 나타났습니다.

교수진과의 프로그램에 대한 학생들의 [사회적 상호 작용]에서 [교수진이 지지하는 문화적 목표]와 [이를 전달하기 위한 제도적 수단] 간의 [격차]로 인해 학습 문화에 대한 인식된 문제가 발생했을 수 있습니다.
In summary, our data suggested that most students embraced the requirements for new ways of thinking about learning and its relationship with assessment. However, some students did experience what Durkheim called anomie, a breaking down of social norms (normlessness) regulating individual conduct in some of the communications with the faculty.52 It was made manifest in the talk of students,

  • first with each other, and their student representatives.
  • Second, through their communications with faculty via email, announcements through the learning management system, and clarification of information contained in student handbooks.

In the students' social interactions about the programme with faculty, the perceived problems of the learning culture may have arisen because of the gap between the cultural goals espoused by faculty and the institutional means to deliver them.

3.2 파트 2: 실제 포장 풀기
3.2 Part 2: Unpacking the real

RQ 4: 학생들의 인식과 경험에 대한 근본적인 설명은 무엇이며, 그것이 프로그램적 평가의 성장과 지속 가능성에 어떤 영향을 미칠 수 있습니까?
RQ 4:What were the underlying explanations of students' perceptions and experiences, and how might they influence growth and sustainability of programmatic assessment?

CR 관점에서 프로그램식 평가가 학생들에게 어떻게, 왜, 어떤 특징이 효과가 있었는지를 설명하려면 [평가 시스템이 학습에 어떤 영향을 미쳤는지]에 대한 [학생들의 인식과 경험의 근본적인 메커니즘]을 풀어야 했습니다.36, 53

  • 아처의 [형태 발생 이론(앞서 소개)]44, 54은 프로그램식 평가를 실행하는 맥락에서 구조, 문화 및 기관 간의 3방향 상호 작용을 뒷받침하는 인과 관계(메커니즘)를 풀어내고 이해하는 데 더 깊은 통찰을 제공했습니다.
  • [형태 발생학적 접근 방식]은 구조, 문화 및 에이전트에 대한 계층화된 설명을 가능하게 하는데, 이는 각각이 프로그램식 평가에 대한 학생의 경험을 설명할 수 있는 새로운 속성 및 힘(즉, 인과적 메커니즘)을 가지고 있기 때문입니다.55
  • 이러한 메커니즘은 [프로그램식 평가로 변화]할 때 특정 조건(즉, 제약 및 어포던스)에서만 나타난다.
    • 더욱 정교화(형태 발생)하거나
    • 변화에 저항(Archer가 말하는 형태 형성54)하거나
  • 프로그램적 평가에서 주기적이고 지속적인 형태 형성 과정은 다음의 둘 사이의 최적의 긴장을 유지하는 데 달려 있습니다.
    • '조건화'(새로운 관행과 이전에 가지고 있던 신념의 합의 및 통합)
    • '정교화'(새로운 기능의 수용 및 적응성) 

Explanation of how, why and what features of the programmatic assessment worked for the students from a CR stance involved unpacking the underlying mechanisms behind students' perceptions and experiences of how the assessment system impacted their learning.36, 53 

  • Archer's theory of morphogenesis (introduced earlier)4454 provided us with deeper insights into disentangling and understanding causal linkages (mechanisms) underpinning the three-way interplay between structure, culture and agency in the context of implementing programmatic assessment.
  • The morphogenetic approach allows for a stratified account of structures, culture and agents, as each has emergent and irreducible properties and powers (i.e., causal mechanisms) that explain the student experiences of programmatic assessment.55 
  • These mechanisms only manifest themselves under specific conditions (i.e., constraints and affordances) when changing to programmatic assessment
    • to further elaborate (morphogenesis) or
    • to resist the change (what Archer calls morphostasis54).
  • The cyclical and ongoing process of morphogenesis in programmatic assessment depends on maintaining optimal tensions between
    • ‘conditioning’ (consensus and integration of new practices with previously held beliefs) and
    • ‘elaborations’ (acceptance and adaptability of the new features).

[경험적 및 현실적 수준]에서 연구 결과에서 '실재'를 역행추론 할 때, 프로그램적 평가와 관련된 구조 및 문화 시스템은 뚜렷하지만 서로 [연관된 인과적 힘]을 가지고 있습니다(그림 3 참조). 특히, 역행추론은 다음을 강조했다.

  • 첫째, 진정한 [프로그램적 의제]를 유지하는 데 있어 [학생 코호트의 반성적 숙고]가 중요하다는 점,
  • 둘째, [프로그램적 평가의 지속 가능성]에 필요한 형태 형성(형태 고정이 아닌)을 촉진하기 위해 평가를 둘러싼 지역 구조 및 문화 시스템의 (학생 주도) 변화에 주의를 기울이는 것이 중요하다는 점

In retroducing the ‘real’ from our findings at the empirical and actual level, the structure and culture systems associated with the programmatic assessment have distinct but related causal powers (see Figure 3). In particular, retroduction highlighted

  • first, the centrality of reflexive deliberation of the student cohort in maintaining a truly programmatic agenda;
  • second, the importance of attending to (student-led) changes in the local structures and cultural systems surrounding assessment to facilitate the morphogenesis (rather than morphostasis) required for the sustainability of programmatic assessment.

[평가 구조, 문화 시스템 및 학생 주체성 간의 상호 작용의 균형]을 맞추는 중요한 예는 임상의가 되기 위한 광범위한 측면에 대해 [학습 상담사와의 귀중한 전문적 대화]였습니다. 이는 대부분의 학생의 교육에 대한 주체성을 강화하는 역할을 했습니다. 동시에 학생들은 의학 지식에 대한 이해를 촉진하는 데만 초점을 맞춘 [평가 위주의 관계]보다는 [멘토링 유형의 관계]를 요구함으로써 프로그램 평가의 의도된 목적을 유지하고 더욱 정교화할 수 있는 조건도 갖추게 되었습니다.
An important example of balancing the interplay between assessment structures, the cultural system and student agency, was the valuable professional conversations with learning advisors concerning broader aspects of becoming a clinician. This functioned to enhance the agency of most students in their education. At the same time, the students were also conditioned to sustain and further elaborate the intended purpose of programmatic assessments, by calling for a more mentorship type relationship rather than a purely assessment focussed one that would only facilitate their understanding of medical knowledge.

반대로, [균형을 맞추지 않으면 학생의 주체성을 상실]하고, [전통적인 평가 구조와 문화로 되돌아]가면서, 시행된 평가 프로그램이 여전히 문제가 되는 [모포스타시스 상황]이 발생할 수 있습니다. 이는 많은 학생들에게 '아노미'52, 즉 규범이 없는 상태, 즉 의도된 목적과 실제 전달에서 [역기능과 비활성화로 이어지는 무규범normless 상태]로 이어질 수 있습니다. 그 결과 중 하나는 평가의 이상과 실제 사이의 불일치로 인해 프로그램 평가의 고유한 [모포제네시스]에 위협을 가하는 것입니다.
In contrast, getting the balance uneven potentially leads to situations of morphostasis where the implemented programme of assessments remains problematic due to the loss of student agency and the return of the traditional assessment structures and culture. This can lead to a sense of ‘anomie’52 for many of the students, that is, a normless state leading to dysfunctionality and inactivity in the intended purpose and actual delivery. One of the consequences is threats to the inherent morphogenesis of programmatic assessment due to a mismatch between assessment ideals and practices.

균형이 맞지 않는 예로는 [의도된 이론]과 [구현된 평가 구성 요소] 간의 [불일치]가 있으며, 이는 평가의 구조와 문화 모두에 영향을 미칩니다. 예를 들어,

  • [재교육의 지원적 목적과 징벌적 목적]에 대한 [학생의 인식]은 [학생의 자율성을 잠재적으로 제약하는 요인]으로 작용했습니다.
  • 마찬가지로, [전문직업성 평가에 대한 징벌적 인식]은 학생들이 e포트폴리오를 감시와 통제의 도구로 경험함으로써 수동성과 무력감, 수동적 비활동성(아노미)을 유발하여 반성성과 주체성을 강화하기보다는 오히려 감소시켰습니다.

Examples of uneven balance include the mismatch between the intended theory and the implemented version of assessment components, impacting both the structure and culture of assessment.

  • Student perceptions about the supportive versus punitive purpose of remediation, for example, served as potential constraints to students' agency.
  • Similarly, punitive perceptions of the assessment of professionalism, where the ePortfolio was experienced by students as a tool for surveillance and control, diminished rather than enhanced reflexivity and agency by creating a sense of passivity and a feeling of powerless and passive inactivity (anomie).

요약하면, 프로그램 평가를 개발하고 정교화할 때 [구조, 문화 및 주체성] 간의 [균형]을 유지하여 [모포제네시스]를 지속하려면 교수진과 학생 간의 [권력 역학 관계]와 [신뢰의 최적 분배]에 달려 있습니다. 이는 평가 프로그램 내에서 숨겨진 커리큘럼이라는 비생산적인 느낌으로 이어지는 균형 부족으로 인해 성공적인 변화를 구현하는 데 핵심적인 요소로 부상했습니다.In summary, providing balance between structure, culture and agency to sustain morphogenesis in developing and elaborating programmatic assessment relies on optimal distribution of power dynamics and trust between faculty and the student body. This emerged as central to implementing successful changes with a lack of balance leading to the counterproductive sense of a hidden curriculum within the programme of assessments.

4 토론

4.1 주요 결과 요약
4.1 Summary of key findings

우리는 새로 도입된 프로그램적 평가의 요소가 어떤 상황에서 왜 학습을 향상시키는 측면에서 학생들에게 어떻게 작용했는지 이해하고자 했습니다. 우리는 평가 실행의 [구조, 문화 시스템의 조건 및 학습자 주체성] 간의 복잡한 상호 작용을 풀기 위해 순환적 역동적 변화 모델(형태 형성)과 연계된 세 가지 현실 영역(경험적, 현실적, 실재적)에 기반한 CR 관점을 사용했습니다. 우리의 핵심 발견은 학생의 경험을 설명하고 향후 평가 프로그램의 반복을 최적화할 수 있는 방법을 암시하는 [근본적인 메커니즘]을 발견하는 것이었습니다. 이 연구에서 나온 모델은 그림 3에 나와 있으며, 인과적 메커니즘을 구조, 문화, 기관 간의 균형으로 시각화하는 방법입니다. [건설적인 균형의 예는 학습 어드바이저 시스템 운영]에서 발견되었습니다. [균형이 부족]하면 평가 프로그램 내에서 학생들에게 [숨겨진 커리큘럼이 있다는 느낌]을 주게 됩니다.
We sought to understand how elements of a newly introduced programmatic assessment worked for the students in terms of enhancing their learning under what circumstances and why. We used a CR stance based on three domains of reality (empirical, actual and real) allied to a cyclical dynamic model of change (morphogenesis) to unpack the complex interplay between the structures of assessment practice, the conditions of the culture system and learner agency. Our key finding was discovering underlying mechanisms that were both explanatory of student experiences and suggestive of ways in which future iterations of the programme of assessments could be optimised. The model that emerged from this study is given in Figure 3, which is a way of visualising the causal mechanism as one of balance between structure, culture, and agency. An example of a constructive balance was found in the operating of the Learning Advisor system. A lack of balance led to the sense of a hidden curriculum for students within the programme of assessments.

프로그램 평가를 [복잡한 사회적 변화]로 간주할 때,

  • [관련 구조와 문화]는
    [에이전트(학생 및 교수진 선택)의 행동]에 대한
    조건(제약과 활성화의 형태)과
    조건화(새로운 '비전통적' 평가 프로세스의 수용의 형태)를 제공했습니다.
  • 이러한 상호 작용을 통해 [전통적인 평가 관행이 프로그램 평가로 전환(정교화)]되었습니다.

Considering programmatic assessment as a complex social change, 

  • the associated structures and culture
    provided conditions (in the form of constraints and enablements) and
    conditioning (in the form of acceptance of new ‘non-traditional’ assessment processes)
    for the actions of agents (student and faculty choices).
  • These interactions resulted in traditional assessment practices being transformed (elaboration) towards programmatic assessment.

그러나 평가 관행이 어떻게 전통적인 방식으로 유지될 수 있는지에 대한 지적도 있었습니다. [형태 형성 및 형태 정체 과정]은 프로그램식 평가 내에서 지속적이고 지속적이면서도 [쉽게 원래의 특징으로 되돌아갈] 수 있는 [변화의 순환적 특성]에 대한 이해를 제공했습니다.54 프로그램식 평가의 다양한 요소의 근간이 되는 [의도된 프로그램 이론]과 [프로그램식 평가에 대한 학생들의 (종종) 잘못된 인식] 사이의 [불일치]는, 새로운 평가 관행을 유지하고 학생들의 학습 및 반성성을 최적화하는 데 위협이 될 수 있습니다. CR 접근법의 역동적 유연성은 프로그램식 평가의 다양한 요소(예: 평가 형식, 학습 어드바이저 시스템, 교정 및 진도 결정)가 어떻게 상호 연관되어 있는지, 즉 한 영역의 변화가 다른 영역의 변화에 영향을 미치는지 이해하는 데 도움이 되는 것으로 입증되었습니다.

However, there was also indication of how the assessment practice could remain traditional. The process of morphogenesis and morphostasis provided an understanding of the cyclic nature of changes within the programmatic assessment that are sustained, continued, and yet which can easily revert back to the original features.54 A mismatch between intended programme theories underlying various elements of programmatic assessment and the students (often) fallible perceptions in their experience of the programmatic assessment can be a threat to sustaining new assessment practices and optimising student learning and reflexivity. The dynamic flexibility of the CR approach proved helpful in understanding how the various elements of programmatic assessment (such as assessment formats, learning advisor system, remediation and progression decision making) were interrelated, such that change to one area impacted change in another.

4.2 기존 이론 및 문헌과의 비교
4.2 Comparison with existing theory and literature

우리의 연구 결과는 [프로그램 평가]를 실행하는 동안 학생들의 다양한 경험에 영향을 미치는 [중요하지만 종종 무시되는 인과 메커니즘]이 있음을 시사함으로써 보건 전문직 교육에서 프로그램 평가에 대한 기존 논쟁에 추가됩니다. 이는 복잡하고 역동적이며 다단계 시스템을 포함하는 실행 접근법에 관한 기존 문헌에 추가됩니다.12, 13 우리의 연구 결과는 프로그램 평가에 대한 학생의 경험을 설명할 수 있는 중요한 인과 메커니즘에 추가됩니다.12, 13, 56 우리의 연구는 또한 CR 입장을 사용하는 이전의 이론적 연구를 확장합니다.18 경험적 데이터를 제공하고 학생의 기관과 평가의 규칙 및 규정과 지역 문화 시스템 간의 미묘한 균형을 밝혀 설명할 수 있는 잠재적 메커니즘을 식별함으로써 그렇게합니다. 이 연구는 [평가 구조 및 학생 주체성과 연결된 문화 시스템]을 확인함으로써 보건 전문직 교육의 문화 및 문화 변화에 대한 현재의 사고를 확장합니다57, 58 이 연구는 학생 주체성에서 얻은 통찰력에 대한 현재의 이론적 사고를 확장합니다.59 비교 및 확장 이론을 개발하면서 그림 3에서 구조, 문화 및 주체성 간의 인과 메커니즘과 역동적인 상호 작용을 고려한 세 가지 영역에 대해 논의합니다.
Our findings add to the existing debates about programmatic assessment in health professions education by suggesting that there are important and often neglected causal mechanisms that impact the students varied experiences during the implementation of programmatic assessment. This adds to the existing literature on implementation approaches involving complex, dynamic and multilevel systems.12, 13 Our findings add to the overarching causal mechanisms that can explain student experiences of programmatic assessment.12, 13, 56 Our research also extends previous theoretical work in using a CR stance.18 It does so by providing empirical data and identifying potential mechanisms that are explanatory by revealing the delicate balances between students' agency and the rules and regulations of assessment and the local cultural system. It extends current thinking on culture and cultural change in health professional education57, 58 by identifying a culture system that is linked with structures of assessment and student agency.54 This research extends current theoretical thinking on insights gained from student agency.59 In developing the comparison and extending theory, we discuss three areas that take account of the causal mechanisms and the dynamic interplay between structure, culture and agency in Figure 3.

  1. 집단적 반성성을 통한 주체성 증진
  2. 평가 구조에 대한 통합적이고 유연한 접근 방식
  3. 사회 문화적 조건에 대처
  4. Promoting agency through collective reflexivity.
  5. Integrated and flexible approaches to assessment structures.
  6. Addressing socio-cultural conditioning.

4.3 집단적 반사성을 통한 주체성 증진
4.3 Promote agency through collective reflexivity

[반사성]은 아처의 CR 프레임워크에서 핵심 개념 중 하나입니다. 사람들의 '관심사'(관심 있는 것의 중요성)와 '맥락'(사회적 환경의 연속성 또는 불연속성) 간의 상호작용이 '반사성'의 방식을 형성합니다.37, 55 우리의 맥락에서 일부 프로그램 평가 관행은 학습 평가 이론에 확고하게 기반을 두고 있었습니다. 따라서 학습자가 주체성을 발휘할 수 있는 기회60 는 다소 제한적이었습니다. [교수자와 학생 간의 쌍방향 대화]는 [학습자가 평가 및 학습을 경험하는 동안 선택할 수 있는 능력]을 포함하여, [학습자의 주체성을 촉진]하여, [학습을 위한 그리고 학습으로서의 평가를 촉진]할 수 있습니다.61-63 다른 사람들은 학습자가 평가의 다양한 데이터 요소를 [고부담]으로 인식함으로써 주체성이 방해받을 수 있다고 지적하며, 교수자가 [안전하고 신뢰하는 평가 관계]에서 학습자의 주체성을 촉진할 수 있다고 제안했습니다.64 
Reflexivity is one of the central concepts in Archer's framework of CR. The interplay between people's ‘concerns’ (the importance of what they care about) and their ‘context’ (the continuity or discontinuity of their social environment) shapes their mode of ‘reflexivity’.37, 55 In our context, some of the programmatic assessment practices were firmly grounded in the theory of assessment of learning. Accordingly, opportunities for learners to be agentic60 were somewhat constricted. A two-way dialogue between faculty and students might promote learners' agency including their ability to make choices during their experience of assessment and learning, facilitating assessment for and as learning.61-63 Others have noted that agency may be hindered by learners' perceptions of various data points in the assessment as high stakes and suggested that faculty can promote learner agency in safe and trusting assessment relationships.64 

우리의 데이터는 [학습자의 주체성]을 촉진하려면 [일부 평가 구조와 통합 방식을 변경해야 한다]는 것을 시사합니다. 학생은 [자신의 주체성을 행사]하고, 학습을 촉진하기 위해 [직접 설계한 평가 과제에 참여]할 수 있는 [직접적인 책임]이 있습니다. [전통적인 평가 시스템]에서 [급진적인 프로그램식 평가 시스템]으로 대대적인 학습 전환을 겪는 학생들을 위한 [오리엔테이]션은 학생들의 준비 수준, 참여 및 학습 측면에서 학생의 주체성을 최적화하는 데 중요합니다.65 평가 구조를 조정하는 동시에 학생의 주체성을 촉진하는 메커니즘을 위해서는 특정 인과적 힘과 역량을 개발하는 데 더 많은 투자가 필요합니다.36 예를 들어, 평가 구조의 변화에 기여하고 학생의 반사성을 촉진하기 위해 교수진이 [학생 단체에 권한을 부여]할 수 있어야 합니다. [권한 부여의 정도]는 프로그램 제공의 지역적 맥락과 문화에 따라 달라질 수 있습니다.

Our data suggest that to promote learner agency, some of the assessment structures and the ways they integrate need to be changed. Students have direct responsibility in this regard to exercise their agency and engage with assessment tasks they had a hand in designing to facilitate their learning. The orientation for students undergoing a major learning transition from the traditional to a radical programmatic assessment system is important, so that students' level of preparedness, their agency in terms of engagement and learning is optimised.65 For any mechanism to promote student agency whilst simultaneously adapting assessment structures, there has to be further investment in developing certain causal powers and capacities.36 For example, there would need to be empowerment of the student body by faculty to contribute to a change in the assessment structures and promote student reflexivity. The degree of empowerment would depend on the local context and culture of programme delivery.

4.4 평가 구조에 대한 통합적이고 유연한 접근 방식
4.4 Integrate and flexible approaches to assessment structures

[여러 번의 필기 시험]과 [작업 기반 평가]와 같은 [프로그램 평가의 많은 요소]는 [의도한 대로 작동]했으며, 학생의 [진도를 나타내는 유용한 지표]로 인식되었습니다. 본 연구에서 프로그램 평가의 다양한 요소(예: 학습을 지원하기 위해 고안된 교정)의 근간이 되는 [의도된 프로그램 이론]과 [평가에 대한 학생들의 인식(예: 징벌로 인식되는 교정)] 간의 [불일치]는 [새로운 평가 관행을 유지하는 데 위협]이 되고, 이전의 [전통적인 관행으로 회귀할 위험이 있음]을 시사했습니다.
Many elements of the programmatic assessment worked as intended, such as multiple written tests and the work-based assessment, and were perceived as useful indicators of student progression. In our study, a mismatch between intended programme theories underlying various elements of programmatic assessment (such as remediation designed to support learning) and the students' perceptions of the assessment (such as remediation perceived as punitive) suggested a threat to sustaining new assessment practices and risk returning to previous traditional practices.

다른 사람들은 평가 과제가 이해되지 않거나 너무 복잡하여 학습자의 주체성에 도전하지 못할 수 있다고 지적했지만, 우리는 복잡성이 문제라기보다는 [일부 평가 과제(예: 팀 기반 학습)가 너무 큰 작업 부하]를 나타내며, [학습 진행에 부정적인 영향]을 미친다고 느꼈습니다.66 평가 요구 사항의 전반적인 [외부 인지 부하]는 특히 평가의 다른 요소와 교육과정의 다른 측면을 통합하는 데 있어 학습에 유리하도록 균형을 맞춰야 합니다.49, 1
Although others have noted that assessment tasks can fail to challenge learners' sense of agency by virtue of not being understood or too complex, we found that, rather than complexity being an issue, some assessment tasks (for example in the team based learning) were felt to represent too great a workload and had a negative impact on learning progress.66 The overall extraneous cognitive load of assessment requirements needs to be balanced in favour of learning, particularly in ensuring the integration of the different elements of the assessment as well as other aspects of curriculum.49, 1

개별 평가 형식의 [비례성 또는 부담에 관한 프로그램 이론의 불일치 문제]는 다른 연구 결과와 유사합니다. Schut 외.61 및 Heeneman 외.67은 [프로그램 설계자의 저부담 평가에 대한 의도]와 [이러한 평가를 총점 또는 높은 부담으로 인식하는 학생의 인식] 사이에 [불일치]가 있다고 보고했습니다. 평가에 '스테이크'가 부여되는 순간 학습자는 평가가 의도한 교육 효과를 방해하고 학생 학습의 본질을 변화시킬 수 있는 '총괄적'인 것으로 인식하게 됩니다.61, 67, 68 개별 평가에 대한 '스테이크'라는 용어는 SPR 전체에 대한 의사 결정 과정에 적용하는 것이 가장 적합하다고 생각합니다.18
The issues with mismatch of programme theory around proportionality or stakes of the individual assessment formats resonate with findings elsewhere. Schut et al.61 and Heeneman et al.67 reported a mismatch between programme designers' intentions underpinning low-stakes assessments and students' perceptions of these assessments as summative or high stakes. The moment ‘stakes’ are assigned to assessments; they are perceived as ‘summative’ by learners that may interfere with the intended educational effect and change the nature of student learning.61, 67, 68 In our view, the terms ‘stakes’ on individual assessment are best applied to the decision-making process on the whole of the SPR.18

[학습을 위한 그리고 학습으로서의 평가 문화]에 변화를 구현하려면 [평가 프로그램, 평가자 및 학생 간의 열린 상호작용]이 필요하며,9, 10, 69 [의도한 설계]와 [평가 결과 간의 관계]를 [개선]해야 합니다.7, 20 학습 상담사와 같은 학습자 기관을 지원하는 구조를 활성화하는 데 충분한 자원이 필요할 수 있습니다.61 대부분의 학생과 교직원은 전통적인 접근 방식으로 일한 경험이 있으므로 의사 결정 및 진행 규칙을 사회화하는 데 교수진 개발이 중요한 역할을 담당합니다.
Implementing change to the culture of assessment for and as learning requires open interactions between the assessment programme, the assessors and the students,9, 10, 69 creating an enhanced relationship between the intended design and assessment outcomes.7, 20 Sufficient resources are likely to be needed for enabling structures to support learner agency such as learning advisors.61 There is an important role for Faculty development in socialising the decision-making and progression rules as most student and staff have a history of working with traditional approaches.

4.5 사회문화적 조건 해결
4.5 Address sociocultural conditioning

아처의 [형태 형성] 개념에 따르면 학습, [문화의 변화 과정]은 [학생과 평가 프로그램의 구조]가 서로 맞물려 [시간적으로 복잡한 방식]으로 지속됩니다.44 학생들은 [새로운 규범, 새로운 동료 커뮤니티 및 권력 관계]를 습득합니다. 프로그램 평가에 참여하는 [학생의 구조적, 문화적 문제]를 해결하면 평가 설계를 정교화하고 개선할 수 있습니다. 이를 무시하면 문화가 기존 평가의 규범으로 되돌아갈 수 있습니다. 요컨대, 프로그램식 평가는 커리큘럼의 구조적 변화뿐만 아니라 문화적 변화도 동시에 요구합니다.
According to Archer's notion of morphogenesis, the processes of change in a learning culture are sustained for both the students and the structures of the assessment programme in interlocking and temporally complex ways.44 Students acquire new norms, new communities of peers and power relationships. Addressing the structural and cultural concerns of students in engaging with programmatic assessment will lead to elaboration and refinement of the design of assessments. Neglecting this may reset the culture back towards the norms of traditional assessment. In short, programmatic assessment requires not only structural changes to the curriculum but also a simultaneous cultural shift.

평가 개혁을 수행할 때 상당수의 학생이 [숨겨진 또는 의도하지 않은 커리큘럼]을 경험한다면 이는 항상 교수진의 관심사가 될 것입니다. 문헌에서 평가의 숨겨진 요소에 대한 논의가 있었습니다.70, 71 우리의 데이터에 따르면 프로그램에 대한 학생들의 '아노미'는 주로 [학습을 위한 평가]에 대한 기대에 부적합한 [위압적인 평가 구조를 경험]하는 학생들의 증상과 징후에 관한 것이었습니다. 이는 다음으로 인해 더욱 악화되었습니다.

  • 교수진과의 소통이 원활하지 않은 문화,
  • 학생 대표가 갈등이 있는 부분을 협상해야 한다는 불공정한 기대,
  • 평가가 신뢰에 기반한 것이 아니라 학생을 감시하는 관행이라는 느낌

It will always be a faculty concern if a significant proportion of students experience a hidden or unintended curriculum, when undertaking assessment reform. There has been discussion of the hidden element of assessment in the literature.70, 71 Our data suggest that the student ‘anomie’ with the programme was principally around the symptoms and signs of students experiencing an overbearing structure of assessment that was a misfit for their expectations of assessment for learning. This was exacerbated by

  • a perceived culture of suboptimal faculty communication,
  • an unfair expectation of student representatives to negotiate areas of perceived conflict and
  • a sense of feeling assessment was a practice of surveillance of students rather than trust based.

소수는 프로그램식 평가에 대한 경험을 파괴적으로 해석했지만, 대다수는 학생의 선택권과 주체성 표현을 확대하고 덜 경직된 평가 프로토콜, 즉 [구조의 문제로 문화가 변화할 수 있다]고 말했습니다. 학습 환경의 문화 변화는 동료 교수 및 지원 프로그램, 거버넌스 프로세스, 궁극적으로 평가 변화를 포함하는 [교육과정 변화에 대한 학생의 적극적인 참여를 위한 전략 개발]을 통해 가장 잘 관리됩니다.72, 73
Although a small minority were subversive in their interpretation of their experiences of the programmatic assessment, the majority spoke of potential culture changes towards more student choice and expression of agency, and less rigid assessment protocols, an issue of structure. Changing the culture of the learning environment is best managed through developing a strategy for active student engagement with curriculum change, covering peer teaching and support programmes, governance processes and ultimately assessment change.72, 73

4.6 방법론적 강점과 불확실성
4.6 Methodological strengths and uncertainties

본 연구는 연구 결과를 이해할 때 몇 가지 강점과 한계를 가지고 있습니다. 강점으로는, 이 연구는 프로그램적 평가의 실행에 대한 최초의 이론적으로 엄격한 설명 중 하나입니다. 이 연구는 학생의 경험을 보고하는 것을 넘어 학생들의 인식과 그것이 교육 및 사회 변화로서 프로그램식 평가의 성장과 지속 가능성에 어떤 영향을 미칠 수 있는지에 대한 훨씬 더 심층적인 설명을 제공하는 것을 목표로 합니다. [추론 도구]로서 비판적 현실주의와 가추 및 역행추론을 사용하는 것은35, 46 HPE 연구에서 비교적 새로운 방법입니다. 인터뷰 데이터를 존재론적 수준(실제, 경험적, 실제)에서 코딩하고 이분법적 귀납-연역 방식을 넘어서는 의미 있는 추론을 도출함으로써, 방법론적 엄밀성을 더할 뿐만 아니라 연구 결과에 대한 보다 의미 있는 설명을 제공할 수 있었습니다. 마지막으로, 14개 포커스 그룹에 걸쳐 112명의 학생의 관점과 경험을 수집함으로써 연구의 좁은 목표를 고려할 때 충분한 정보력을 갖춘 표본을 확보했다고 주장합니다.45
Our study has several strengths and limitations when making sense of the findings. As a strength, this is one of the first theoretically rigourous accounts of an implementation of programmatic assessment. It goes beyond reporting student experiences by aiming to provide a much deeper explanation of students' perceptions and how they might influence growth and sustainability of programmatic assessment as an educational and social change. The use of critical realism and abduction and retroduction as inferential tools35, 46 is relatively new to the health professional education research. Coding interview data at ontological levels (actual, empirical and real) and drawing meaningful inferences that go beyond dichotomous inductive–deductive modes not only added to methodological rigour but also provided more meaningful explanations of the findings. Lastly, by collecting the perspectives and experiences of 112 students across 14 focus groups, we claim a sample with sufficient information power given the narrow aims of our study.45

방법론적 과제로는 

  • 첫째, 귀납적, 연역적, 회귀적 분석 단계가 일부 중복되었고, 분석 과정이 선형적이기보다는 반복적이었다는 점입니다. 마찬가지로, 실제로는 연구자들 간에 경험적인 것과 실제적인 것에 대해 어느 정도 중복되는 부분이 있었지만, 무엇이 실제적인지에 대해서는 훨씬 더 큰 합의가 이루어졌습니다. 
  • 둘째, 구조, 문화 및 기관44 측면에서 데이터를 재개념화할 때 Staff의 행위자성을 고려하면 도움이 될 수 있었습니다. 이 연구의 초점은 학생의 설명이었지만, 프로그램의 구조와 문화가 학생의 행위자성에 미치는 영향에 대한 보다 풍부한 이해를 제공하기 위해서는 자체적인 대리성을 가진 교직원에 대한 인식도 고려할 필요가 있습니다.
  • 마지막으로, 우리는 우리의 분석과 이론화가 새로운 커리큘럼의 일부로 프로그램 평가가 도입된 특정 맥락을 기반으로 했다는 점을 인정합니다. 그럼에도 불구하고 우리는 우리의 연구 결과가 대규모 학생 집단을 대상으로 한 프로그램 평가의 실행을 이해하고자 하는 다양한 맥락의 다른 사람들에게 적용될 수 있다고 믿습니다.

In terms of methodological challenges, first, there was some overlap between inductive, abductive and retroductive phases of analysis with the process being more iterative than linear. Similarly, in practice, although there was some overlap between researchers as to what was considered empirical and actual, there was much greater agreement on what constituted the real; second, reconceptualising the data in terms of structure, culture and agency44 might have benefited from considering staff agency. Although the focus of this study was the students' account, perceptions of faculty, who have their own agency, need to be considered in providing a richer understanding of the influence of structure and culture of the programme on student agency. Finally, we acknowledge that our analysis and theorising was based on a specific context where programmatic assessment was introduced as part of a new curriculum. Nonetheless, we believe our findings to be adaptable to others in differing contexts seeking to understand the implementation of programmatic assessment with large cohorts of students.

4.7 실무 및 연구에 대한 시사점
4.7 Implications for practice and research

구조, 문화, 기관37, 44, 54 및 현실의 계층화된 영역36, 38, 39 간의 관계에 기반한 CR 접근법은 소홀히 다루어진 관심 영역을 강조함으로써 보건 전문직 교육에서 평가 실무를 연구하는 데 의미 있고 적응 가능한 방법론을 제공할 수 있습니다.

  • 교육자에게는 구조 문화 기관 프레임워크(그림 3)가 평가 및 교육과정을 (재)설계할 때 복잡한 교육 및 사회적 변화를 단순화할 수 있는 툴킷을 제공할 수 있습니다.
  • CR 접근법은 다양한 맥락에서 무엇이 효과가 있는지, 누구에게 효과가 있는지, 가장 중요한 것은 근본적인 메커니즘 측면에서 어떻게 작동하는지 설명하는 데 신뢰할 수 있는 분석을 제공할 수 있습니다.
  • 이 논문은 학생 경험에 초점을 맞추었지만 이러한 조사는 교수진의 관점을 이해하기 위해 확장될 수 있습니다.
  • CR 접근법은 의과대학 또는 대학 내의 다양한 주체(예: 교수진 리더십 그룹, 교수진)가 프로그램 평가의 번창에 영향을 미치는 인과적 힘을 개발하고 행사하는 방식을 설명하는 데 도움이 될 수 있습니다.
  • 또한 CR 관점에 기반한 연구 프로그램은 프로그램식 평가와 커리큘럼 간의 연결에 기반이 되는 기본 원칙에 대한 이해를 풍부하게 하여 현지의 질 개선과 다른 맥락에서 원칙의 더 나은 적용을 이끌어낼 수 있습니다.

A CR approach based on the relationship between structure, culture and agency37, 44, 54 and stratified domains of reality36, 38, 39 can provide a methodology that is meaningful and adaptable for researching assessment practice in health professional education by highlighting neglected areas of concern.

  • For educators, our structure culture agency framework (Figure 3) can provide a toolkit which promotes a simplification of the complex educational and social changes when (re)designing assessment and curriculum.
  • A CR approach can provide credible analysis for determining what might work across multiple contexts, what works for whom, and most importantly explaining how it works in terms of fundamental mechanisms.
  • In this paper, we have focussed on student experiences, but such investigations can be extended to understand faculty's perspectives.
  • A CR approach may help to explain how various entities within the medical school or university, for example, the faculty leadership groups, and teaching faculty develop and exercise causal powers that influence the flourishing of programmatic assessment.
  • Research programmes based on CR perspectives can also enrich understanding of the fundamental principles underlying the link between programmatic assessment and curriculum thereby leading to local quality improvement and better adaptations of the principles in other contexts.

평가 개혁을 연구하는 접근법의 레퍼토리를 확장함으로써 프로그램 평가와 같은 복잡한 교육 이니셔티브에 대한 평가를 CR이 제공하는 보다 근본적인 관점에서 풀고 이해할 수 있습니다. 향후 작업에서 CR을 사용하면 의도한 결과를 현지의 요구와 상황에 맞게 맞춤화하고 조정할 수 있습니다. 이를 통해 실용적인 실행과 프로그램 평가의 장기적인 지속 가능성을 보장할 수 있습니다.
By extending the repertoire of approaches to researching assessment reforms, evaluation of complex educational initiatives like programmatic assessment can be unpacked and understood from the more fundamental perspective that CR offers. In future work, using CR ensures that intended outcomes are customised and adapted to local needs and contexts. This would ensure pragmatic implementation and long-term sustainability of programmatic assessment.

4.8 결론
4.8 Conclusions

본 연구는 학습자 주체, 구조 및 문화 간의 균형을 달성하는 것이 평가 실행에서 지속적인 변화(정교화)를 뒷받침하는 전략을 어떻게 제시하는지를 강조함으로써 프로그램 평가에 대한 논의에 추가합니다. 여기에는 집단적 반성성과 주체성을 촉진하기 위한 교수진과 학생의 학습 개발, 이론과 실제의 통합을 강화하여 평가 구조를 최적화하는 것, 학습에 대한 평가와 학습에 대한 새로운 규범, 신념 및 행동과 관련된 수용과 신뢰를 얻기 위해 교수진과 학생 간의 기존 사회 구조를 개선하고 새로운 사회 구조를 개발함으로써 학습 문화를 변화시키는 것 등이 포함됩니다.
Our study adds to debates on programmatic assessment by emphasising how the achievement of balance between learner agency, structure and culture suggests strategies to underpin sustained changes (elaboration) in assessment practice. These include; faculty and student learning development to promote collective reflexivity and agency, optimising assessment structures by enhancing integration of theory with practice, and changing learning culture by both enhancing existing and developing new social structures between faculty and the student body to gain acceptance and trust related to the new norms, beliefs and behaviours in assessing for and of learning.

Med Educ. 2022 Sep;56(9):901-914. doi: 10.1111/medu.14807. Epub 2022 Apr 29.

Student perspectives on programmatic assessment in a large medical programme: A critical realist analysis

Affiliations collapse

1Faculty of Medicine and Health, Sydney Medical School, Education Office, The University of Sydney, Sydney, New South Wales.

2Faculty of Medicine and Health, Sydney Pharmacy School, Discipline of Pharmacology, The University of Sydney, Sydney, New South Wales, Australia.

3Faculty of Medicine and Health, The University of Sydney, Sydney, New South Wales, Australia.

4School of Medicine, The University of Notre Dame, Chippendale, New South Wales, Australia.

PMID: 35393668

PMCID: PMC9542097

DOI: 10.1111/medu.14807

Free PMC article


Background: Fundamental challenges exist in researching complex changes of assessment practice from traditional objective-focused 'assessments of learning' towards programmatic 'assessment for learning'. The latter emphasise both the subjective and social in collective judgements of student progress. Our context was a purposively designed programmatic assessment system implemented in the first year of a new graduate entry curriculum. We applied critical realist perspectives to unpack the underlying causes (mechanisms) that explained student experiences of programmatic assessment, to optimise assessment practice for future iterations.

Methods: Data came from 14 in-depth focus groups (N = 112/261 students). We applied a critical realist lens drawn from Bhasker's three domains of reality (the actual, empirical and real) and Archer's concept of structure and agency to understand the student experience of programmatic assessment. Analysis involved induction (pattern identification), abduction (theoretical interpretation) and retroduction (causal explanation).

Results: As a complex educational and social change, the assessment structures and culture systems within programmatic assessment provided conditions (constraints and enablements) and conditioning (acceptance or rejection of new 'non-traditional' assessment processes) for the actions of agents (students) to exercise their learning choices. The emergent underlying mechanism that most influenced students' experience of programmatic assessment was one of balancing the complex relationships between learner agency, assessment structures and the cultural system.

Conclusions: Our study adds to debates on programmatic assessment by emphasising how the achievement of balance between learner agency, structure and culture suggests strategies to underpin sustained changes (elaboration) in assessment practice. These include; faculty and student learning development to promote collective reflexivity and agency, optimising assessment structures by enhancing integration of theory with practice, and changing learning culture by both enhancing existing and developing new social structures between faculty and the student body to gain acceptance and trust related to the new norms, beliefs and behaviours in assessing for and of learning.

하나의 정답은 없다: 미세차별에 대한 이상적 수퍼바이저 반응에 대한 임상실습학생의 인식 질적연구(Acad Med, 2021)
No One Size Fits All: A Qualitative Study of Clerkship Medical Students’ Perceptions of Ideal Supervisor Responses to Microaggressions 
Justin L. Bullock, MD, MPH, Meghan T. O’Brien, MD, MBE, Prabhjot K. Minhas, Alicia Fernandez, MD, Katherine L. Lupton, MD, and Karen E. Hauer, MD, PhD 


다양성은 성공적인 기관의 필수적인 특성입니다. 1 의료 분야에서 다양성은 교육 경험을 향상시키고, 사회적 형평성을 증진하며, 환자 건강 결과를 개선합니다. 2-4 [다양성의 중요성을 잘 이해하고 있는 기관]은 [다양한 사회적 정체성 집단의 단순한 인구통계학적 대표성]을 넘어, [다양성을 기관 우수성의 기본으로 우선시하는 의미 있는 포용성]을 향해 기관 문화를 발전시킵니다. 1 그러나 의료기관은 다양한 개인을 포용하지 못하는 학습 환경으로 인해 이러한 이상에 미치지 못하고 있습니다. 특히 [유색인종 학생들]은 평가와 진학에서 [편견, 사회적 자본 감소, 인종 차별, 학습과 성과에 부정적인 영향을 미치는 미세한 공격] 등을 경험합니다. 5-8 의료계에서 빈번한 인종 및 성별 미세 공격의 해로운 결과에도 불구하고 임상 학습 환경을 개선하기 위해 미세 공격을 가장 잘 해결하는 방법에 대한 집단적 이해에는 여전히 격차가 있습니다. 9-11
Diversity is an essential characteristic of successful institutions. 1 In medicine, diversity enhances educational experiences in training, promotes social equity, and improves patient health outcomes. 2–4 Institutions with an advanced understanding of the importance of diversity move beyond mere demographic representation of multiple social identity groups to drive institutional culture toward meaningful inclusion where diversity is prioritized as fundamental to institutional excellence. 1 However, medical institutions fall short of these ideals, with learning environments that are not inclusive of diverse individuals. In particular, students of color experience biases in assessment and advancement, decreased social capital, racism, and microaggressions that negatively impact their learning and performance. 5–8 Despite harmful consequences of frequent racial and gender microaggressions in medicine, a gap remains in our collective understanding of how best to address microaggressions to improve the clinical learning environment. 9–11

[미세 공격]은 [의도적이든 의도적이지 않든] 대상의 [정체성]에 대한 [적대감이나 부정적 감정]을 전달하는 [언어적, 행동적 또는 환경적 모욕감]을 의미합니다. 12 환자, 제공자, 동료 및 학습 환경 자체는 모두 임상 학습 환경에 만연하여 학습자, 제공자 및 환자에게 해를 끼치는 미세 공격의 일반적인 원인입니다. 9,10,13-15 Sue와 동료들은 [미세 폭행, 미세 모욕, 미세 무효화]6,12의 [세 가지 대인 관계 미세 공격의 유형]을 특징지었습니다(표 1 참조).

  • 가장 심각한 형태인 [미세 폭행]대상에게 불쾌감을 주는 언어적 또는 비언어적 공격입니다(예: 인종으로 인해 소수인종 의료진의 진료를 거부하는 환자). 16
  • [미세 모욕]은 가해자가 의도하지 않았더라도 대상을 비하하는 미묘한 발언입니다(예: 여성 의사를 간호사로 부르는 것).
  • 마지막으로, [미시적 무효화]는 대상의 실제 경험을 부정하거나 무시하는 것입니다(예: 요즘 소수계 학생들은 미시적 공격에 너무 민감하다는 말).

Microaggressions are verbal, behavioral, or environmental indignities that communicate hostility or negativity—whether intentional or unintentional—toward a target’s identity(ies). 12 Patients, providers, peers, and the learning environment itself are all common sources of microaggressions, which pervade the clinical learning environment to the detriment of learners, providers, and patients. 9,10,13–15 Sue and colleagues characterized 3 types of interpersonal microaggressions: microassaults, microinsults, and microinvalidations 6,12 (see Table 1).

  • Microassaults, the most egregious form, are verbal or nonverbal attacks that offend the target (e.g., patient refusing care from minority providers due to race). 16 
  • Microinsults are subtle remarks which demean the target, even if unintended by the perpetrator (e.g., calling a female doctor a nurse).
  • Finally, microinvalidations negate or dismiss the target’s lived experience (e.g., saying that minority students these days are too sensitive to microaggressions).

미세 공격은 심리적, 생리적 고통을 유발할 수 있습니다. 미세 공격은 우울 증상, 불안, 알코올 사용과 관련이 있으며 일중 코티솔 분비를 변화시킬 수 있습니다. 17-19 의대생들은 미세 공격이 인종적/민족적 [고정관념 위협]을 유발하고 악화시키는데, 이는 [자신이 속한 집단에 대한 부정적인 고정관념을 충족하는 것에 대한 두려움으로 인해 수행 능력이 저하되는 과정]이라고 보고된다. 10,20,21 [고정관념 위협]은 부정적인 감정을 유발하고 학생들의 인지 부하를 증가시키며, 핵심 사무직 성적을 낮추는 것과 관련이 있습니다. 10,22
Microaggressions may cause both psychological and physiological distress. They are associated with depressive symptoms, anxiety, and alcohol use and may alter diurnal cortisol secretion. 17–19 Medical students report that microaggressions trigger and exacerbate racial/ethnic stereotype threat, a process in which fear of fulfilling negative stereotypes about one’s group results in lower performance. 10,20,21 Stereotype threat, in turn, triggers negative emotions and increases students’ cognitive load, and is associated with lower core clerkships grades. 10,22

우리는 '소스', '타겟', '방관자'라는 용어를 사용하여 각각 [미세 공격자, 미세 공격의 수신자, 미세 공격의 목격자]를 지칭합니다. 23 권력에 초점을 맞춘 [비판적 인종 이론(CRT)]은 미세 공격의 영향과 효과적인 방관자 대응을 탐구하는 데 중요한 이론적 렌즈를 제공합니다. 24,25 [비판적 인종 이론]

  • 미국 사회에서 인종 차별을 일반적인 것(norm)으로 강조하고,
  • 권력이 인종 차별적 상호작용을 매개하는 방식을 인식하며,
  • 사람들이 인종 차별(예: 성차별, 계급 차별)과 교차하고 복합적으로 작용하는 여러 소외된 정체성을 가질 수 있다는 점을 인정합니다. 24

We use the terms “source,” “target,” and “bystander” to refer to the microaggressor, recipient of the microaggression, and witness to a microaggression, respectively. 23 Critical race theory (CRT), with its focus on power, offers an important theoretical lens through which we explore the impact of microaggressions and effective bystander responses. 24,25 CRT

  • highlights racism as the norm in American society,
  • recognizes how power mediates racially charged interactions, and
  • acknowledges that people can have multiple marginalized identities that intersect and compound with racism (e.g., sexism, classism). 24 

때때로 미묘하고 상황에 따라 달라질 수 있는 [미시적 공격][개인에 따라 다양하게 해석]될 수 있습니다. 26 [방관자]는 동시에 [미세 공격의 목격자]이면서 [동시에 영향]을 받을 수 있습니다. 27 우리는 미세 공격으로 인해 피해를 입을 가능성이 가장 높은 대상의 관점과 해석을 우선시합니다. CRT는 학생들이 인종화된 교육 계층을 탐색하는 데 직면하는 [교차하는 어려움]을 인정합니다. [환자]가 [학생]에게 [미세 공격]을 가할 때, 학생은 [방관자인 감독자]에 비해 [교육적 지위가 낮고] 동시에 [미세 공격의 대상]이기 때문에 [교차하는 취약성]을 지니고 있으며, 학생은 또한 환자를 돌보는 사람으로서 팀원이 개입하지 않는 한 [계속 돌봐야 할 직업적 의무]를 느낄 수 있습니다.
Because of their sometimes subtle and context-dependent nature, microaggressions may be interpreted variably by different individuals. 26 Bystanders may simultaneously be witnesses to and impacted by a microaggression. 27 We prioritize the perspective and interpretation of the target as the person most likely harmed by the microaggression. CRT acknowledges the intersecting challenges students face navigating racialized educational hierarchies. When patients commit microaggressions against students, students hold intersecting vulnerabilities as they are simultaneously the microaggression target and low in educational status compared with bystander supervisors; students may also be caretaker for the patient and feel professionally obligated to continue caring unless a team member intervenes.

[의료 위계 구조의 최상위에 있는 교수진]은 [학생을 옹호할 수 있는 좋은 위치]에 있을 수 있지만, 학습자가 방관자 지원이 가장 필요할 때 [아무런 반응을 보이지 않음]으로써 미세 공격에 직면하는 경우가 많습니다. 9 많은 교수진은 편견과 차별에 대한 인식이 높아지면서 '살얼음판을 걷는 기분'이 들며, 잘못된 행동이나 말을 하다가 [학습자로부터 인종차별주의자나 성차별주의자로 낙인찍힐까 봐 불안감]이 커진다고 설명합니다. 28-30 안타깝게도 이러한 불편함과 두려움은 학습자의 요구를 충족시키지 못하고 포용적인 문화를 위한 노력을 방해하는 결과를 초래할 수 있습니다.
While faculty atop the medical hierarchy may be positioned well to advocate for students, they often meet microaggressions with inaction when learners most need bystander support. 9 Many faculty describe that their increasing awareness of bias and discrimination prompts feelings of “walking on eggshells,” with increased anxiety about doing or saying the wrong thing and being labeled as racist or sexist by learners. 28–30 Unfortunately, this discomfort and fear can result in failing to meet learners’ needs and thwart efforts toward inclusive culture.

[미세 공격에 대한 방관자의 개입]을 위한 다양한 기법이 제안되었는데, 여기에는 Sue의 미세 개입, Ackerman-Barger의 ARISE 프레임워크, Wheeler의 12가지 팁 등이 포함됩니다. 6,23,31-37 이러한 기법들은 일반적으로 [미세 공격을 인식하고, 대응할지 여부를 결정하고, 그 순간에 다양한 대응 기술을 사용하는 것]을 수반합니다. 23,32,37 이러한 접근법은 학습자를 대상으로 하는 미세 공격에 대응하기 위한 일반적인 지침을 제공하지만, 학습자를 위한 대응의 효과를 극대화하기 위해서는 대응의 영향에 대한 증거 기반 이해와 권장 사항이 필요합니다. 학습자에게 미치는 [미세 공격의 정서적, 인지적, 생리적 영향]과 [특정 미세 공격에 대한 대응 시기와 방법]을 결정할 때 고려해야 할 다각적인 요소는 [교육자가 최적의 방관자 개입에 대한 학습자의 관점을 이해하는 방법]에 대한 의문을 불러일으킵니다.
A variety of techniques for bystander interventions on microaggressions have been proposed, including Sue’s microinterventions, Ackerman-Barger’s ARISE framework, Wheeler’s 12-tips, and others. 6,23,31–37 These techniques generally entail recognizing a microaggression, deciding whether or not to respond, and employing various response techniques in the moment. 23,32,37 Though these approaches provide general guidance for responding to microaggressions targeting learners, there is a need for evidence-based understanding of the impact of responses and recommendations to maximize the effectiveness of responses for learners. The emotional, cognitive, and physiological impact of microaggressions on learners, as well as the multifactorial considerations underpinning a decision of when and how to respond to a given microaggression, prompt questions about how educators understand learners’ perspectives on optimal bystander interventions.

이 연구의 목적은 임상 실습에서 방관자 감독자가 미세 공격에 어떻게 대응해야 하는지에 대한 학생들의 관점을 탐구하는 것입니다. 연구 질문은 다음과 같습니다: 

  • (1) 학생을 대상으로 한 미세 공격에 대응하는 교수진의 주요 고려 사항에 대한 학생의 관점은 무엇인가?
  • (2) 미세 공격에 대한 이상적인 감독자 대응의 주요 특징은 무엇인가?
  • (3) 이상적인 대응은 미세 공격의 유형에 따라 어떻게 다른가?

The purpose of this study is to explore students’ perspectives on how bystander supervisors should respond to microaggressions on clinical clerkships. The research questions are:

  • (1) What are student perspectives on key considerations for a faculty member responding to a microaggression targeting a student?
  • (2) What are the key features of an ideal supervisor response to a microaggression? and
  • (3) How does the ideal response differ by type of microaggression?



해석주의 패러다임에 기반한 이 질적 포커스 그룹 연구에서는 주제 분석의 프레임워크 방법을 사용하여 2020년 미국 내 임상실습생을 대상으로 [환자의 미세 공격에 대한 슈퍼바이저의 대응에 대한 의대생들의 인식]을 탐색했습니다. 38 올해는 인종적, 민족적 불평등으로 인한 국가적 사회 불안이 심각했던 해로, 이러한 맥락에서 데이터를 해석했습니다. 39,40
For this qualitative focus group study, based in an interpretivist paradigm, we employed the framework method of thematic analysis to explore medical students’ perceptions about supervisor responses to microaggressions from patients targeting clerkship students in the United States, 2020. 38 This year was notable for significant national social unrest because of racial and ethnic inequalities; our data are interpreted within this context. 39,40

연구팀에는 남아시아 의대생 1명, 흑인 레지던트 1명, 교수진 4명(백인 2명, 아메리카 원주민 및 백인 1명, 라티나 1명)이 참여했습니다. 모든 팀원은 샌프란시스코 캘리포니아 대학교(UCSF) 의과대학 출신으로 소수인종 학습자의 경험에 학문적 관심을 가지고 있었습니다. 모든 교수진은 의대생과 직접 협력합니다.
Our research team included 1 South Asian medical student, 1 Black resident, 4 faculty (2 White, 1 Native American and White, 1 Latina). All team members were from the University of California, San Francisco (UCSF) School of Medicine, with academic interests in the experience of minoritized learners. All faculty members work directly with medical students.

UCSF 기관윤리심의위원회는 이 연구를 면제 연구로 승인했습니다(IRB #20-29884).
The UCSF Institutional Review Board approved the study as exempt (IRB #20-29884).

환경 및 참가자
Setting and participants

연구 대상은 3개의 핵심 교육 시스템(4년제 대학 시스템, 공공 안전망 병원, 재향군인 의료 센터)과 여러 지역사회 기반 계열사를 보유한 주립 공공 기관인 UCSF였습니다. 2020년 3월에 재학 중인 모든 3학년 및 4학년(임상 실습 기간) 의대생이 참여할 수 있었습니다. 다양한 참여자를 확보하기 위해 의대생의 [다양성(의대생 중 소수자 33%, 여성 53%)을 고려하여 편의 표본 추출]을 사용했습니다. 2021학년과 2022학년 학급을 대상으로 매주 4회에 걸쳐 리스트서브 이메일을 통해 학생들을 모집했습니다. 이메일 초대는 관심 있는 학생들이 Qualtrics 웹 플랫폼으로 이동하여 인구 통계, 이메일 주소, 참석 가능 여부를 입력하도록 안내했습니다. 관심 있는 모든 학생을 포커스 그룹에 초대했습니다. 포커스 그룹 참가자에게는 20달러가 지급되었습니다.
The study site was UCSF, a state public institution with 3 core teaching systems (quaternary university system, public safety net hospital, and veterans’ affairs medical center) and multiple community-based affiliates. All third- and fourth-year (clerkship years) medical students during March 2020 were eligible to participate. We used convenience sampling, relying upon the diversity of the medical student body (33% underrepresented in medicine, 53% female) to ensure diverse participants. We recruited students through 4 weekly listserv emails to the classes of 2021 and 2022. The email invitation directed interested students to the Qualtrics web platform to enter their demographics, email address, and availability. We invited all interested students to a focus group. Focus group participants received $20.

데이터 수집
Data collection

반구조화된 포커스 그룹에서 참가자들은 [3가지 주요 대인관계 미세 공격 유형]을 대표하는 [4개의 미세 공격 시나리오]에 대해 논의했습니다(표 1 참조). 6,12 시나리오는 입원 환자 또는 응급실 환경에서 학생의 미세 공격 대상과 교직원의 방관자 상황을 묘사했습니다. 연구팀은 문헌 검토와 팀원들의 실제 경험을 바탕으로 시나리오를 설계했습니다. 미세 공격 유형 간의 일관성을 탐색하기 위해 [대상 학생의 신원을 조작하여 두 가지 유사한 미세 폭행 및 미세 모욕 시나리오]를 만들었습니다. 진행자(P.K.M.)는 모든 포커스 그룹을 시작하면서 [미세 공격의 정의]를 내리고, 학생들에게 미세 공격에 대응하는 방법에 대한 [교수진 교육을 만드는 것이 목적]임을 알렸습니다. 
During semistructured focus groups, participants discussed 4 microaggression scenarios representing the 3 major types of interpersonal microaggressions (see Table 1). 6,12 Scenarios depicted a student microaggression target and faculty bystander in an inpatient or emergency department setting. The research team designed scenarios based on literature review and team members’ lived experiences. To explore consistency across microaggression types, we created 2 similar microassault and microinsult scenarios by manipulating the targeted student identity. The moderator (P.K.M.) began all focus groups by defining microaggressions and informing students that the purpose was to create faculty trainings on how to respond to microaggressions.

진행자 및 공동 진행자(J.L.B.)는 참여 자격이 없는 UCSF 의대 레지던트 4명을 대상으로 [파일럿 포커스 그룹]을 진행하기 전에 퍼실리테이터 교육을 받았습니다. 그런 다음 저자들은 공식적인 데이터 수집을 시작하기 전에 명확성을 높이고 중복성을 줄이기 위해 포커스 그룹 가이드를 수정했습니다. 최종 가이드는 부록 디지털 부록 1입니다. [공동 진행자]는 포커스 그룹이 진행되는 동안 주요 아이디어와 참가자 간의 상호 작용을 기록한 메모를 작성했습니다. 마지막 3개의 포커스 그룹에서는 각 사례에 대한 토론의 균형을 맞추기 위해 시나리오 순서를 뒤집었습니다. 데이터 수집은 관심 있고 참여 가능한 모든 학생이 참여한 후에 종료되었습니다. 마지막 포커스 그룹까지 새로운 주요 아이디어나 대응 전략이 논의되지 않았으며, 이는 주제와 수집된 데이터가 충분함을 나타냅니다. 41 모든 그룹은 Zoom을 통해 진행 및 녹화되었고, 전문적으로 전사되었으며, 분석 전에 비식별화 과정을 거쳤습니다.

The moderator and co-facilitator (J.L.B.) underwent facilitator training before conducting a pilot focus group with 4 UCSF Medicine residents ineligible for participation. Authors then revised the focus group guide to improve clarity and reduce redundancy before formal data collection began. The final guide is Supplemental Digital Appendix 1, available at The co-facilitator took notes documenting key ideas and interparticipant interactions during focus groups. We inverted scenario order for the final 3 focus groups to balance discussion of each case. Data collection ended after all interested and available students participated. By the final focus group, no new major ideas or response strategies were discussed, indicating sufficiency of themes and data collected. 41 All groups were conducted and recorded over Zoom, professionally transcribed, and deidentified before analysis.


4명의 연구자(J.L.B., P.K.M., M.T.O., K.E.H.)가 독립적으로 3개의 트랜스크립트를 읽고 오픈 코딩을 수행했습니다. 그런 다음 연구팀은 회의를 통해 제안된 코드에 대해 논의하고 분석 프레임워크를 개발하여 하나의 코드북을 만들었습니다. 다음으로 5명의 연구자 중 2명(J.L.B., P.K.M., M.T.O., K.L.L., K.E.H.)이 각 트랜스크립트를 개별적으로 코딩하고 토론을 통해 불일치하는 부분을 조정했습니다. 인터뷰는 Dedoose 버전 8.0.35(캘리포니아주 로스앤젤레스)를 사용하여 코딩했습니다. 코딩된 발췌문을 미시적 공격 시나리오별로 분류한 후, 각 시나리오에 대한 코드별로 발췌문을 합성했습니다. Microsoft Excel 버전 16.44(워싱턴주 레드몬드)를 사용하여 각 합성을 코드별(열별)로 마이크로 공격 시나리오를 담은 최종 프레임워크 매트릭스에 도표로 작성했습니다. 모든 연구원이 데이터의 최종 해석 및 요약에 참여했습니다. 참가자의 인용문과 함께 참가자가 스스로 밝힌 인종/민족을 표시했습니다. 
Four researchers (J.L.B., P.K.M., M.T.O., K.E.H.) independently read and performed open coding of 3 transcripts. The research team then met to discuss their proposed codes, developed an analytic framework, and created a single codebook. Next, 2 of 5 researchers (J.L.B., P.K.M., M.T.O., K.L.L., K.E.H.) separately coded each transcript and reconciled discrepancies through discussion. Interviews were coded using Dedoose Version 8.0.35 (Los Angeles, California). After sorting coded excerpts by microaggression scenario, we synthesized excerpts by code for each scenario. We charted each synthesis into the final framework matrix which held microaggression scenario by code (column by row) using Microsoft Excel Version 16.44 (Redmond, Washington). All researchers participated in the final interpretation and summary of the data. We indicated participants’ self-identified race/ethnicity alongside their quotations.


연구팀은 학생들의 응답에 대한 반성과 미세 공격에 대한 개인적인 경험이 참가자들의 응답과 어떻게 병치되는지에 대해 자주 논의했습니다. 이 프로젝트는 두 명의 팀원(J.L.B., M.T.O.)이 사무직 의대생에 대한 미세 공격 행위를 목격하고, 주치의(M.T.O.)가 미세 공격에 대응하고, 나중에 임상팀 전체가 이 경험을 디브리핑한 후 개념화되었습니다. 이 학생은 미세 공격 후 광범위한 반성은 도움이 되지 않는다는 피드백을 주었습니다.
The research team frequently discussed our reflections on students’ responses and how our personal experiences with microaggressions juxtaposed with participants’. This project was conceptualized after 2 team members (J.L.B., M.T.O.) witnessed a microaggression against a clerkship medical student; the attending (M.T.O.) responded to the microaggression, and the entire clinical team later debriefed the experience. The student gave feedback that extensive reflection after a microaggression was not helpful.


분석이 끝난 후 모든 참가자에게 원고 결과 초안을 이메일로 보내 제시된 결과가 포커스 그룹 토론 및 임상 경험과 일치하는지에 대한 피드백을 요청했습니다. 10명의 참가자가 응답했으며, 모두 결과와 토론이 자신의 포커스 그룹을 정확하게 반영한다는 데 동의했습니다. [3명은 약간의 텍스트 수정을 제안했고, 한 참가자는 자신의 인용문과 인종/민족을 명확히 해 달라고 요청했습니다].
After the analysis, we emailed all participants a draft of the manuscript results and discussion for their feedback on whether the presented results felt consistent with their focus group discussions and clinical experiences. Ten participants responded: all agreed that the results and discussion accurately represented their focus groups. Three gave minor text edits, and one participant clarified her quotation and race/ethnicity.


설문조사 초대에 응답한 학생은 45명이었으며, 44명이 초대되었습니다(1명은 포커스 그룹 시간이 맞지 않아 참여하지 못함). [39명의 학생이 7개의 포커스 그룹에 참여했으며, 그룹당 5~7명의 학생이 참여했습니다]. 포커스 그룹은 평균 86분 동안 진행되었습니다(범위: 80-92분). 참가자들은 다양한 사회적 정체성을 가지고 있었습니다(표 2 참조). 15명(38%)의 참가자가 아시아계, 12명(31%)이 흑인, 5명(13%)이 라틴계, 17명(44%)이 백인, 1명(3%)이 아메리카 원주민, 1명(3%)이 중동계로 밝혀졌습니다. 13명(33%)의 참가자는 남성, 25명(64%)은 여성, 1명(3%)은 비이성애자, 15명(38%)은 성소수자로 밝혀졌습니다. 참가자들은 제공된 시나리오에 대해 토론하면서 임상 현장에서의 미세한 공격에 대한 자신의 경험에 대해서도 생각해 보았습니다. 아래 결과는 시나리오와 실제 경험을 바탕으로 한 학생들의 관점을 나타냅니다.
Forty-five students responded to our survey invitation; 44 were invited (1 was unavailable for any focus group times offered). Thirty-nine students participated in 7 focus groups, with 5 to 7 students per group. Focus groups lasted an average of 86 minutes (range: 80–92). Participants had a range of intersecting social identities (see Table 2). Fifteen (38%) participants identified as Asian, 12 (31%) Black, 5 (13%) Latinx, 17 (44%) White, 1 (3%) Native American, and 1 (3%) Middle Eastern. Thirteen (33%) participants identified as men, 25 (64%) women, and 1 (3%) nonbinary, and 15 (38%) as LGBTQ. As participants discussed the provided scenarios, they also reflected on their own experiences with microaggressions in the clinical workplace. Findings below represent students’ perspectives based on the scenarios and their lived experiences.

포커스 그룹 내에서 학생들은 미세 공격 사례의 대상이 된 정체성을 가진 사람들이 응답할 때까지 [논평을 미루는 것]으로 나타났습니다(성별에 기반한 미세 공격의 경우 남성은 여성에게, 인종에 기반한 시나리오의 경우 백인 학생은 유색인종 학생에게 미루었습니다). 참가자의 성적 지향에 따른 응답의 차이는 확인되지 않았지만, 이 주제를 다룬 시나리오는 없었습니다.
Within focus groups, students seemed to defer commenting until after those who self-identified with the identity targeted by the microaggression case responded (men deferred to women for gender-based microaggressions; White students deferred to students of color for race-based scenarios). We did not identify differences in responses based on participants’ sexual orientation, though none of the scenarios addressed this topic.

전반적으로 학생들은 [미세 공격이 발생하기 전에 감독자의 효과적인 대응이 시작되어야 한다]는 데 동의했습니다. 아래 결과는 두 가지 주제를 설명합니다:

  • 방관자 고려 사항에 대한 학생의 인식.
  • 감독자 조치


  • 첫 번째 주제에서는 학생들의 인식을 3개의 하위 주제로 분류했습니다. 학생들은 미세 공격에 대한 대응으로 수퍼바이저가 교수 수퍼바이저와의 [사전 토론("사전 브리핑")]을 통해 수집한 학생의 선호도, [환자의 상황], 진료실 내 다양한 [대인관계 역학 관계] 등을 고려해야 한다고 생각했습니다.
  • 두 번째 주제인 수퍼바이저의 행동에 대해 학생들은 미세 공격이 발생하는 동안 이상적인 수퍼바이저의 대응, 목격하는 것이 적절한 경우, 또는 방 밖으로 대응을 미루는 것이 적절한 경우, 마지막으로 미세 공격이 발생한 후 효과적인 대응에 대해 설명했습니다. 이러한 결과는 아래에 자세히 설명되어 있습니다. 인용문에는 참가자 번호, 본인 식별 인종/민족, 성별이 포함되어 있습니다.

Overall, students endorsed that effective supervisor responses began before microaggressions occurred. Results below describe 2 themes:

  • Student perceptions of bystander considerations and
  • supervisor action.


  • For the first theme, we capture students’ perceptions in 3 subthemes. In response to a microaggression, students felt that supervisors should consider the student’s preferences, which ideally were gathered through anticipatory discussions (“pre-brief”) with their faculty supervisors, the patient’s context, and the various interpersonal dynamics in the room.
  • For the second theme, supervisor action, students described ideal supervisor responses during the microaggression, when it was appropriate to bear witness, or defer response until outside the room, and, finally, effective responses after the microaggression. These results are detailed below. Quotations include participant number, self-identified race/ethnicity, and gender.

효과적인 대응을 위한 감독자의 고려 사항에 대한 학생의 관점
Student perspectives on supervisor considerations for an effective response

학생의 선호도: "사전 브리핑"을 통해 미세 공격에 대비하기.
Student preferences: Preparing for microaggressions through a “pre-brief.”

학생들은 각자의 정체성, 경험, 선호도를 가지고 왔기 때문에 [미세 공격에 대해 원하는 대응 방식이 달랐습니다](표 3 참조). 참가자들은 한 학생의 [선호도]를 다른 학생에게 적용하는 것에 대해 주의를 기울였습니다.
Because students brought their own identities, experiences, and preferences, their desired responses to microaggressions differed (see Table 3). Participants cautioned against extrapolating any one student’s preferences onto other students.


모든 학생에게 맞는 정답은 없습니다. 표준 운영 절차는 없습니다.... 어떤 개입이 상황에 가장 적합하거나 대상 학생의 피해를 최소화할 수 있는지 알 수 없다는 뜻이 아닙니다. 어떤 면에서는 겸손으로 표현할 수 있다고 생각합니다. (P37, 흑인/중동 여성)
There is no one size fits all. There is no standard operating procedure…. Doesn’t mean that we know what intervention would best suit the situation or minimize the harm to those that are targeted. I think in some ways it’s phrased as humility. (P37, Black/Middle Eastern woman)

포커스 그룹에서 반복적으로 제안된 이 문제에 대한 해결책 중 하나는 [사전 브리핑]이었습니다. 사전 브리핑은 함께 일하기 시작할 때 학습자와 감독자가 잠재적인 미세 공격에 대비할 수 있도록 토론하는 것을 의미합니다. 많은 학생이 효과적인 방관자 대응에 가장 중요한 요소는 [감독자가 사전 브리핑을 했는지 여부]라고 생각했습니다.
One solution to this concern proposed repeatedly across focus groups was to pre-brief. We use pre-brief to refer to discussion at the onset of working together which allowed the learner and supervisor to prepare for potential microaggressions. Many students believed that the most important contributor to an effective bystander response was whether the supervisor had pre-briefed.

감독자는 로테이션이 시작될 때 학생들과 미리 이러한 대화를 나누고, 자신이 인지한 미세 공격에 대처하는 방법에 대한 계획을 세워야 하며, 또한 자신이 인지하지 못한 미세 공격이 있는 경우 학생이 이를 전달할 수 있도록 [힘을 실어줄 수 있는 방법을 마련]해야 합니다. (P19, 흑인 남성)
Attendings should be having these conversations with their students in advance … at the beginning of a rotation and having a plan for how to address microaggressions that they recognize, but also … if there are microaggressions they don’t recognize, how the student can feel empowered to communicate that. (P19, Black man)

학생들은 [사전 브리핑]을 통해 감독자에게 [미세 공격에 대한 대응에 대한 선호도를 알리고], 실제로 자신을 지지하는 [방관자 대응을 장려]할 수 있다고 느꼈습니다. 수퍼바이저는 사전에 미세 공격에 대해 논의함으로써 학습자에게 학생의 [심리적 안전을 우선시한다는 신호]를 보냈습니다. 참가자들은 슈퍼바이저가 미세 공격의 표적이 될 가능성이 있어 보이는 학습자뿐만 아니라 [모든 학습자와 사전 브리핑을 해야 한다]고 강조했는데, 이는 학생들이 소외감을 느낄 수 있습니다. 사전 브리핑을 일대일로 해야 하는지, 임상 팀으로 해야 하는지, 이메일로 해야 하는지에 대한 합의가 이루어지지 않았습니다. 학생에게 선호도를 물어보는 것은 주치의에서 학생으로 권력을 이동시키고 학생이 자신의 필요를 가장 잘 알고 있다는 존중을 전달했습니다.
Students felt that pre-briefing allowed them to inform the supervisor of their preferences regarding responses to microaggressions and promoted bystander responses that were actually supportive for them. By discussing microaggressions in advance, supervisors signaled to learners that they prioritized students’ psychological safety. Participants emphasized that the supervisor should pre-brief with all learners, not simply those who appeared likely to be targeted with microaggressions, which might make students feel singled out. There was not consensus about whether the pre-brief should happen one-on-one, as a clinical team, or by email. Asking students for their preferences shifted power from the attending to the student and conveyed respect that the student knew what would best address their needs.

참가자들은 어텐딩이 팀의 의료 콘텐츠 전문가이기는 하지만, 미세 공격에 대응하는 데는 그에 상응하는 [전문성이 부족]할 수 있으며, [전문가에서 초보자로의 불편한 전환]이 [어텐딩의 비활동의 원인]이 될 수 있다고 지적했습니다. 또한 환자를 교육하는 데 필요한 [올바른 문화 용어에 익숙하지 않을 수]도 있습니다. 한 학생은 시크교의 관습적인 머리 장식인 다스타르를 언급하며 이렇게 말했습니다:
Participants noted that while attendings are content experts for medical care on the team, they may lack comparable expertise for responding to microaggressions, and that the uncomfortable shift from expert to novice might be a source of inaction for attendings. They may also be unfamiliar with the correct cultural terminology to educate patients. Referring to the dastaar, the customary Sikh headwear, one student said:

만약 그것이 내 문화가 아니라면 어텐딩으로서 '아, 이 학생에게 무슨 일이 일어나고 있는지 모든 사람에게 설명해야겠어'라고 말하는 것이 매우 이상하게 느껴질 수 있습니다. (P21, 백인 여성)
I would feel if that were not my own culture, I might as an attending have a hard time being like, “Oh, I’m going to explain what’s going on with this student for everyone,” because that would also feel very strange for me to do that. (P21, White woman)

이 경우, [사전 브리핑]은 주치의의 대응을 알리는 데 특히 중요하다고 느꼈습니다.
In this case, a pre-brief was felt to be especially important to inform attending response.

환자 컨텍스트.
Patient context.

학생들은 미세 공격에 대한 대응의 성격과 타이밍을 지시하기 위해 [임상적 맥락과 의학적 예민함]을 중요한 고려 사항으로 꼽았습니다. 예를 들어, 심하게 흥분한 환자를 설득하려고 시도하는 것은 미세 공격성을 완화할 가능성이 낮았습니다. 아프거나 혼란스러운 환자의 미세 공격은 관리자의 대응을 면제하는 것이 아니라 오히려 이상적인 대응의 타이밍과 특성을 바꾸어 놓았습니다.
Students identified clinical context and medical acuity as critical considerations to direct the nature and timing of a response to microaggressions. For instance, attempting to reason with an acutely agitated patient was unlikely to deescalate a microaggression. A microaggression from an ill or confused patient did not absolve the supervisor from responding, but rather, changed the timing and characteristics of the ideal response.

급성, 중환자인 경우.... 환자가 좀 더 안정될 때까지 이에 대한 언급을 보류하는 것이 개인적으로 더 괜찮을 것 같아요. (P12, 중국계 미국인 여성)
If they are acutely, critically ill…. I think it would be more okay with me personally to hold off on a comment about this for a time where they’re more stable. (P12, Chinese American woman)

학생들은 환자의 경과에 따라 [이상적인 대응 타이밍에 대해 신중하게 생각하기를 원했으며], 곧 퇴원할 예정이거나 향후 시술을 앞둔 환자에게 가혹한 대응을 하여 향후 치료를 받지 못하게 하고 싶지 않았습니다.
Students wanted to be thoughtful about the timing of an ideal response in the context of a patient’s course and did not want to deliver harsh responses to patients soon-to-be discharged or with upcoming procedures, so as not to dissuade them from seeking future care.

대인관계 역학.
Interpersonal dynamics.

[학생과 환자의 관계]는 감독자가 어떻게 대응해야 하는지 결정하는 데 있어 핵심적인 고려 사항이었습니다. 참가자들은 모든 환자가 학생(및 다른 팀원)의 정체성과 상호 작용하는 고유한 정체성, 경험, 선호도를 가지고 있다는 점을 인정했습니다. 학생들은 미세 공격의 유형에서 환자의 의도를 추론했습니다. 미세 폭행 시나리오는 주로 대상 학생에 대한 명백한 인종 차별 행위로 간주된 반면, 학생들은 미세 모욕과 미세 무효화에는 [맥락과 의도를 고려]했습니다. 예를 들어, 환자가 다른 팀원보다 한 팀원을 선호하는 경우, 일치하는 정체성을 가진 의료진이 환자에게 위안을 제공했다면 미세 공격으로 인식되지 않을 수 있습니다:
The student–patient relationship was a key consideration in deciding how supervisors should respond. Participants acknowledged that every patient comes with their own identities, experiences, and preferences that interact with students’ (and other team members’) identities. Students inferred patient intent from the type of microaggression. Microassault scenarios were largely viewed as an act of overt racism against the targeted student, whereas students considered context and intent for microinsults and microinvalidations. For instance, a patient’s preference for one team member over another may not be perceived as a microaggression if a provider of a concordant identity offered a source of comfort for a patient:

환자는 자신의 정체성과 일치하는 의료진에게 더 편안함을 느낄 것입니다..... 흑인 환자로서 팀에 흑인이 한 명 있다면 그 팀에 흑인 한 명이 있다고 생각할 수 있습니다.... 그 사람에게 질문을 하는 것이 더 편할 것 같습니다. (P31, 아프로라티나)
A patient’s going to be more comfortable with a practitioner that matches their identity…. I can think of, as a Black patient, if there’s a team and there’s a Black person there, one person in that team…. I’m going to feel more comfortable directing my questions to that person. (P31, Afrolatina)

일부 학생은 [환자 동맹을 우선시]하고, [대립이 학생과 환자 관계를 복잡하게 만들 수 있다]고 생각하여 [비대립적 대응을 선호]했습니다.
Some students preferred nonconfrontational responses because they prioritized their patient alliance and felt that confrontation could complicate the student–patient relationship.

감독자의 조치
Supervisor action

학생들은 [효과적인 감독자의 방관자적 대응]이 학생을 보호하고 검증할 수 있지만, 반드시 [환자의 신념을 바꾸는 것을 목표로 해서는 안 된다]고 주장했습니다. 효과적인 대응은 [미세 공격을 인정]하고, [안전한 학습 환경을 조성]하고, [동맹 관계를 제공]하고, [역할 모델링]을 보여주고, 필요한 경우 학생이 [유해한 상황에서 벗어날 수 있도록 하는 것]이었습니다(표 4 참조). 전부는 아니지만 많은 학생들이 즉각적인 대응을 원했습니다. 모든 학습자나 시나리오를 만족시키는 단일 반응은 없었기 때문에, 학생들은 "어텐딩이 매번 상황이 다르기 때문에 도구 상자에 다양한 각도가 있다는 것을 느끼는 것이 중요하다고 느꼈습니다."(P9, 백인 여성) 누군가를 이해하려면 때로는 여러 각도에서 여러 번 시도해야 할 때도 있습니다. 환자를 마주한 후, 학생들은 교직원과 일대일로 간단히 확인하여, [미세 공격성을 인정하고 학생이 추가적인 반성을 위한 시간을 원하는지], 또는 [전체 의료진에게 디브리핑을 원하는지] 물어본 후 둘 중 하나를 수행하는 것을 선호했습니다.
Students asserted that effective supervisor bystander responses would protect and validate the student but should not necessarily aim to change the patients’ beliefs. An effective response acknowledged the microaggression, promoted a safe learning environment, provided allyship, demonstrated role-modeling, and, when necessary, let students escape harmful situations (see Table 4). Many, but not all, students wanted a response in the moment. Because there was no single response that satisfied all learners or scenarios, students felt that it was important for “Attendings to feel that they have multiple angles in their toolbox, both because the context is different each time, but also it takes sort of multiple attempts at different angles sometimes to get through to someone” (P9, White woman). After the patient encounter, students preferred brief one-on-one check-ins with faculty to acknowledge the microaggression and ask whether the student wanted space for additional reflection, or to debrief with the entire medical team, before doing either.

미세 공격 중.
During the microaggression.

환자와 마주한 상태에서 효과적인 대응은 [짧고 직접적이며 환자를 공격하지 않는 것]이었습니다. 학생들이 제안한 순간적 대응의 예로는 학생의 임상적 가치 강조, 유머 사용, 환자 교육, 임상 치료에 집중하도록 방향 전환, 역할 명확화, 경계 설정 등이 있었습니다. 학생들은 환자에게 특정 방식으로 느끼는 이유를 설명해 달라고 요청하는 것이 효과적인지에 대해 토론했는데, 이 전략은 환자가 인종차별적 신념에 대해 설명하도록 유도할 위험이 있기 때문입니다.

  • 미세 폭행의 경우, 학생들은 즉각적인 대응을 원하거나 환자가 임상적으로 안정된 경우 만남을 일시 중지하고 방을 나가기를 원했습니다. 명백한 미세 공격에도 불구하고 임상적으로 안정되어 방을 나갈 수 없는 경우, 학생들은 감독자가 짧고 직접적인 대응을 하고 학생이 나갈 수 있도록 허용할 것을 권장했습니다.
  • 덜 심각하다고 인식되는 다른 미세 공격 유형의 경우, 일부 학생들은 아래에 설명된 대로 슈퍼바이저가 목격하는 것을 선호했으며, 팀이 그 자리를 떠날 때까지 적극적인 대응을 미뤘습니다. 다른 학생들은 당장의 대응 부족에 대해 경고했습니다.

Effective responses while still in the patient encounter were short, direct, and did not attack the patient. Examples of students’ proposed in-the-moment responses included: emphasizing the clinical value of the student, using humor, educating the patient, redirecting to focus on clinical care, clarifying roles, and setting boundaries. Students debated whether asking a patient to explain why they felt a certain way was effective, as this strategy risked prompting the patient to expound on racist beliefs.

  • For microassaults, students wanted an immediate response or to pause the encounter to leave the room if the patient was clinically stable. If unable to leave the room due to clinical acuity despite a flagrant microaggression, students recommended that supervisors say a short, direct response and allow the student to step out.
  • For other microaggression types perceived as less severe, some students preferred the supervisor to bear witness as described below, delaying active response until after the team left the encounter. Others cautioned against lack of response in the moment.

Bear witness.

우리는 "목격을 참아내다"라는 표현을 사용하여 [미세 공격을 파악하고 의도적으로 개입을 연기하는 것]을 의미합니다. 제공자는 의도적으로 교육생과 아는 표정을 주고받거나, 나중에 미세 공격에 대해 논의함으로써 방에서 목격할 수 있습니다. 그러나 학생이 명시적으로 이러한 선호를 밝히지 않는 한, 교육생은 미세 공격에 반응하지 않도록 주의해야 합니다.
We use the phrase “bear witness” to refer to identifying the microaggression and intentionally deferring intervention. A provider may bear witness in the room by intentionally exchanging a knowing look with the trainee or discussing the microaggression later. However, unless a student had explicitly stated this preference, students cautioned against not responding to microaggressions.

저에게 [반응하지 않는 것은] 일종의 문제처럼 들립니다. 우리는 피부가 거칠어도 괜찮고 사람들이 문제를 무시해도 괜찮습니다... 그냥 무시하고 넘어가자고 말하는 것과 같은 맥락으로 들립니다. 문제는 미세한 공격이 너무 자주 일어나서 결국에는 두꺼운 피부를 깨뜨리기 때문에 우리가 미세 공격에 대해 이야기하고 있다는 것입니다. (P26, 멕시코계 미국인 여성)
[Not responding] to me is kind of sounding like a problem. We’re okay with having tough skin and we’re okay with people ignoring the problem … sounds kind of like that’s the same, like let’s just ignore it and move on. The whole issue is that we’re talking about microaggressions because they happen so often that eventually they break your thick skin. (P26, Mexican American woman)

목격 후 학생들은 [만남 후 확인]이 매우 중요하다고 생각했습니다.
After bearing witness, students considered a postencounter check-in critically important.

미세 공격 후.
After the microaggression.

학생들은 환자와의 만남을 떠난 후 미세 공격성에 대한 감독자의 논의가 [학생과 개별적으로 이루어져야 하는지] 아니면 [팀으로 이루어져야 하는지]에 대해 숙고했습니다. 대부분의 학생은 추가적인 그룹 토론이 학생에게 치유가 될지 여부를 논의하기 위해 [짧은 개인 상담]을 선호했습니다. 일부는 [팀과 함께 감정을 확인하는 것]이 중요하다고 생각했지만, 많은 학생들은 그룹 토론이 [트라우마나 공연적인 느낌을 줄 수 있는 소모적인 대화]로 이어져, 다른 사람들이 자신의 감정을 표현하고 동조자로 보일 수 있지만, 실제로 학생에게 도움이 되지 않을 수 있다고 우려했습니다. 학생들은 주치의가 그 순간 처리하고 싶지 않은 스트레스가 많은 [사건을 강제로 재현하도록 강요하지 않는 것이 필수적]이라고 느꼈습니다. 환자로부터 미세 폭행을 당하거나 잦은 미세 공격을 받은 학생은 수퍼바이저가 해당 학생을 다른 환자에게 재배치할 수 있는 옵션을 제안해 주기를 원했습니다. 수퍼바이저는 [재배치가 실력을 반영하는 것이 아니며 학생 평가에 해가 되지 않는다는 점을 명확히 하는 것이 중요했습니다]. 마지막으로, 일부 학생은 환자가 더 이상 혼란스러워하거나 화를 내지 않았을 때 다시 돌아와서 감독자 및 환자와 미세 공격에 대해 논의한 긍정적인 경험을 이야기했습니다.
Students deliberated whether the supervisor’s discussion of the microaggression after leaving the patient encounter should happen individually with the student or as a team. Most students preferred a brief private check-in to discuss whether further group discussion would be healing for the student. While some felt that validating emotions with the team was important, many worried that group discussion might invite an exhausting dialogue that could feel retraumatizing or performative, allowing others to express their emotions and appear as allies but not actually helping the student. Students felt it was imperative that attendings avoid forcing them to relive a stressful event that they did not want to process at that moment. Students subjected to a microassault or frequent microaggressions from a patient wanted their supervisor to propose the option of reassigning the student to a different patient. It was important for supervisors to clarify that reassignment was not a reflection of skill and would not harm student evaluations. Finally, some students recounted positive experiences returning to discuss the microaggression with the supervisor and patient when the patient was no longer confused or angry.


이 연구는 의대생이 선호하는 의대생 대상 미세 공격에 대한 [지도 교수의 대응 방식과 경험]에 대해 설명합니다. 학생들은 [단순한 일률적인 대응을 거부]했습니다. 오히려 학생의 선호도, 미세 공격의 맥락 등 교수진이 대응할 때 고려해야 할 다양한 고려 사항을 확인했습니다. 이들이 선호하는 방관자 대응은 [의사 결정권을 대상 학생에게로 전환하는 전략]을 나타냅니다.
This study describes medical students’ preferences for and experiences with faculty supervisor responses to microaggressions targeting clerkship students. Students rejected a simple one-size-fits-all response. Rather, they identified a variety of considerations which they felt faculty members should weigh in responding, including student preferences and microaggression context. Their favored bystander responses represented strategies to shift decision-making power toward targeted students.

[방관자 미세 공격 개입 가이드(B-MIG, 그림 1)]는 연구 참여자의 관점에서 선호하는 방관자 대응을 시각적으로 표현한 것입니다. 참가자들은 수퍼바이저가 모든 의대생에게 [함께 일하기 시작할 때] 미세 공격에 대한 대응 방식을 선호하는지 묻고, 각 미세 공격이 [발생한 후 간단히 다시 한 번 확인]할 것을 권장했습니다. 학생들은 모든 교수 지도교수가 모든 미세 공격에 대해 [어느 시점에는 짧게라도 대응해야 한다]는 데 동의합니다. B-MIG는 미세 공격에 대응하기 위한 개인 또는 교수진 개발의 발판이 되는 대응 가이드로 사용할 수 있지만, 학생과 상황에 맞게 대응을 계속 조정해야 하므로 처방전이 될 수는 없습니다. 감독자는 미세 공격 발생 시 서로를 지원하는 방법에 대한 팀 토론에 참여하기 위한 지침으로 B-MIG를 사용하는 것을 고려할 수 있습니다.
The Bystander Microaggression Intervention Guide (B-MIG, Figure 1) is a visual representation of the preferred bystander response from the perspective of our study participants. Participants recommended that supervisors ask all medical students for their preferences for responding to microaggressions at the onset of working together and to check-in again briefly with them after each microaggression. Students agree that all faculty supervisors should respond, even if briefly, to all microaggressions at some point. The B-MIG can be used as a response guide to scaffold personal or faculty development for responding to microaggressions; it cannot be a prescription because of the ongoing need to adapt responses to student and context. Supervisors can consider using the B-MIG as a guide to engage in team discussions around how to support one another in the event of a microaggression.

[학생의 희망에 초점을 맞춘 방관자 대응]은 교육 안전 환경을 조성할 수 있습니다. Tsuei 등은 [교육적 안전]"학습자가 자신의 투사된 이미지를 스스로 모니터링할 필요 없이, 학습 과제에 진정으로 전적으로 집중할 수 있도록, 타인의 판단으로부터 자유로움을 느끼는 주관적인 상태"로 정의했습니다. 42 미세 공격에 대한 학생 중심의 효과적인 개입을 실행하면 고정관념 위협과 이와 관련된 인지적 및 정서적 부하를 줄일 수 있습니다. 10,21,22 감독자의 사전 브리핑을 통해 신뢰감과 편안함을 느꼈다는 여러 참가자의 의견을 반영하여, [사전 브리핑]은 모두에게 더 유리한 학습 환경을 조성하는 데 중요한 도구로 간주합니다. 학생마다 선호하는 방식이 다르기 때문에, 모든 미세 공격에 대응하는 단일 전략이 모든 학생을 최적으로 지원하지는 못할 가능성이 높습니다. 다른 방관자 대응 문헌을 바탕으로 사전 브리핑에 대한 권장 사항은 휠러 등의 연구, 특히 "개방성과 존중의 문화를 미리 확립하라"는 권장 사항을 가장 잘 설명합니다. 11,32 임상팀에서 사전 브리핑을 시행한 제한된 경험에 따르면 일부 학생은 [미세 공격 대응에 대한 선호도를 확신하지 못했습니다]. 이 토론을 다시 살펴보면 학생들은 미세 공격에 대한 경험을 되돌아보고 향후 미세 공격에 대한 선호도를 수정할 수 있습니다. 사전 브리핑의 언어, 타이밍, 구조를 최적화하려면 더 많은 작업이 필요합니다.

Bystander responses centered on students’ wishes can foster an environment of educational safety. Tsuei et al defined educational safety as “the subjective state of feeling freed from a sense of judgment by others such that learners can authentically and wholeheartedly concentrate on engaging with a learning task without a perceived need to self-monitor their projected image.” 42 Implementing effective student-centered interventions to microaggressions may reduce stereotype threat and its associated cognitive and affective load. 10,21,22 Reflecting on multiple participants who described a sense of trust and comfort from supervisor pre-briefs, we view the pre-brief as a critical tool to foster a more favorable learning environment for all. Because student preferences differ, a single strategy for responding to all microaggressions is unlikely to optimally support all students. Building on other bystander response literature, the recommendation to pre-brief best elaborates upon the work of Wheeler et al, specifically the recommendation to “establish a culture of openness and respect upfront.” 11,32 In our limited experience implementing the pre-brief on our clinical teams, some students are unsure of their preferences regarding microaggression responses. Revisiting this discussion allows students to reflect on experiences with microaggressions and revise their preferences for future microaggressions. More work is needed to optimize the language, timing, and structure of the pre-brief.

이상적인 슈퍼바이저의 반응에 대한 참가자들의 인식은 [권력의 중심]을 [슈퍼바이저에서 학습자 쪽으로 이동]시킵니다. 프렌치와 레이븐의 6가지 권력 기반(합법적, 전문적, 정보 제공적, 보상적, 강압적, 경건적)은 사회적 권력 이동을 조사하는 데 유용한 프레임워크로 구성됩니다. 43-45

  • 지도 어텐딩은 의대생에 대한 권한을 가진 [합법적인 권력]을 가지고 있습니다.
  • [전문적 권력]은 주치의가 알고 있는 것으로 추정되는 내용을 기반으로 하며, [정보적 권력]은 다른 사람과 공유하는 정보에서 비롯됩니다. 46
  • 미세 공격이 발생한 후 사전 브리핑을 한 후 학생의 의사를 집행하는 수퍼바이저는 학생을 미세 공격 경험에 대한 전문가로 취급하고 [합법적 권력과 전문적 권력]을 학생에게 효과적으로 이전한 것입니다. 학생이 선호하는 미세 공격 대응 방법을 감독자에게 알릴 때, 학생은 감독자가 조력자가 될 수 있도록 정보 권한을 이전합니다. 37,46
  • 학생의 환자 돌봄 중단 결정이 평가에 영향을 미치지 않는다는 것을 확인함으로써, 감독자는 [보상 권력과 강압적 권력]을 무력화할 수 있습니다.
  • 학생을 대상으로 한 [미세 공격에 대응하지 않는 감독자]는 학생들이 롤모델로서 감독자에 대한 믿음을 잃게 되어 [참조적 권력]을 잃을 수 있습니다. 교수진이 학생의 선호도를 물어봄으로써 학생에게 힘을 실어주자는 제안은 자기 평가와 자기 비판에 대한 평생의 노력으로 정의되는 "문화적 겸손"을 예시하며, 수련의-수퍼바이저 역학 관계의 권력 불균형을 바로잡고 상호 유익하고 가부장적이지 않은 임상 및 옹호 파트너십을 발전시키는 것입니다. 47

Our participants’ perceptions of ideal supervisor responses shift the bases of power from supervisors toward learners. French and Raven’s 6 bases of power (legitimate, expert, informational, reward, coercive, and reverent) constitute a useful framework to examine social power shifts. 43–45 

  • A supervising attending holds legitimate power with authority over the medical student.
  • Expert power is based upon what an attending is presumed to know,
  • while informational power comes from the information that one shares with others. 46 A supervisor who pre-briefs and then enacts a student’s wishes after a microaggression has treated the student as expert in their own experience of microaggressions and effectively transferred legitimate and expert power to the student. When students inform supervisors of their preferred microaggression response, they transfer informational power to facilitate supervisors’ ability to be allies. 37,46 
  • By confirming that a student’s decision to discontinue caring for a patient will not impact their assessment, supervisors can neutralize reward and coercive power.
  • Supervisors who do not respond to microaggressions targeting students may lose referent power as students lose faith in them as role models. The suggestion that faculty empower students by asking for their preferences exemplifies “cultural humility,” defined as lifelong commitment to self-evaluation and self-critique, redressing the power imbalances in the trainee–supervisor dynamic, and developing mutually beneficial and nonpaternalistic clinical and advocacy partnerships. 47

이 연구에는 한계가 있습니다. 이 단일 기관 연구 참여자의 결과가 모든 의대생의 생각이나 경험을 대변하는 것은 아닙니다. 가능한 모든 미세 공격에 대해 다루지 않았습니다. 다양한 사회적 정체성이 교차하는 학생들을 포함했지만, 소수로 결론을 도출하고 학생 기밀을 침해할 위험이 있으므로 학생 인구통계를 기반으로 한 별도의 분석은 수행하지 않았습니다. 마지막으로, 학생의 관점에서 바라본 이 연구는 감독자가 실제로 미세 공격에 대응하는 것에 대해 어떻게 생각하는지 알려주지 않습니다.
This study has limitations. Findings from participants in this single-institution study do not represent the thoughts or experience of all medical students. We did not address all possible microaggressions. We included students with a range of intersecting social identities but did not do separate analyses based on student demographics due to the risk of drawing conclusions with small numbers and violating student confidentiality. Finally, this study from the student perspective does not tell us how supervisors actually think about responding to microaggressions.

앞으로 저희 팀은 미세 공격에 대응하는 감독자의 관점을 조사하고 있습니다. 또한 교수진 개발에서 B-MIG의 역할을 연구하고 가이드를 더욱 개선하는 것도 중요할 것입니다.
Looking forward, our team is investigating supervisors’ perspectives on responding to microaggressions. It will also be important to study the role of the B-MIG in faculty development and further refine the guide.


이상적인 방관자 대응은 학생의 선호도와 미세 공격의 맥락을 통합합니다. 학생의 선호도는 미세 공격에 대한 사전 간략한 토론을 통해 가장 잘 드러납니다. B-MIG는 학생들이 선호하는 미세 공격 대응을 시각적으로 표현한 것입니다. 효과적인 개입은 교육적 안전을 증진하고 학생 대상에게 유리한 방향으로 힘의 역학을 변화시킵니다.
An ideal bystander response incorporates students’ preferences and microaggression context. Student preferences are best revealed through a pre-brief discussion of microaggressions. The B-MIG is a visual representation of students’ preferred microaggression response. Effective interventions promote educational safety and shift power dynamics in favor of the student target.


Acad Med. 2021 Nov 1;96(11S):S71-S80. doi: 10.1097/ACM.0000000000004288.

No One Size Fits All: A Qualitative Study of Clerkship Medical Students' Perceptions of Ideal Supervisor Responses to Microaggressions

Affiliations collapse

1J.L. Bullock is a second-year resident, internal medicine, University of California, San Francisco School of Medicine, San Francisco, California.

2M.T. O'Brien is assistant professor, Department of Medicine, University of California, San Francisco, San Francisco, California.

3P.K. Minhas is a second-year medical student, University of California, San Francisco School of Medicine, San Francisco, California.

4A. Fernandez is associate dean for population health and health equity and professor, Department of Medicine, University of California, San Francisco, San Francisco, California.

5K.L. Lupton is associate professor, Department of Medicine, University of California, San Francisco, San Francisco, California.

6K.E. Hauer is associate dean for competency assessment and professional standards and professor, Department of Medicine, University of California, San Francisco School of Medicine, San Francisco, California.

PMID: 34348373

DOI: 10.1097/ACM.0000000000004288


Purpose: This study explores medical students' perspectives on the key features of ideal supervisor responses to microaggressions targeting clerkship medical students.

Method: This single-institution, qualitative focus group study, based in an interpretivist paradigm, explored clerkship medical students' perceptions in the United States, 2020. During semistructured focus groups, participants discussed 4 microaggression scenarios. The authors employed the framework method of thematic analysis to identify considerations and characteristics of ideal supervisor responses and explored differences in ideal response across microaggression types.

Results: Thirty-nine students participated in 7 focus groups, lasting 80 to 92 minutes per group. Overall, students felt that supervisors' responsibility began before a microaggression occurred, through anticipatory discussions ("pre-brief") with all students to identify preferences. Students felt that effective bystander responses should acknowledge student preferences, patient context, interpersonal dynamics in the room, and the microaggression itself. Microassaults necessitated an immediate response. After a microaggression, students preferred a brief one-on-one check-in with the supervisor to discuss the most supportive next steps including whether further group discussion would be helpful.

Conclusions: Students described that an ideal supervisor bystander response incorporates both student preferences and the microaggression context, which are best revealed through advanced discussion. The authors created the Bystander Microaggression Intervention Guide as a visual representation of the preferred bystander microaggression response based on students' discussions. Effective interventions promote educational safety and shift power dynamics to empower the student target.

채점에서 학습을 위한 평가로: 핵심임상실습의 성적 제거 및 형성적 피드백 강화를 둘러싼 학생들의 인식(Teach Learn Med. 2021)
From Grading to Assessment for Learning: A Qualitative Study of Student Perceptions Surrounding Elimination of Core Clerkship Grades and Enhanced Formative Feedback
Lee Seligmana, Abdikarin Abdullahib, Arianne Teheranib,c, and Karen E. Hauerb,c




레지던트 지원 및 학업 성적1에 중요한 영향을 미치는 [의과대학의 임상실습 성적]은 학생들에게 상당한 우려를 불러일으킵니다. 핵심 임상 실습은 전통적으로 [총괄 평가]로 마무리되며,2 대다수의 미국 의과대학은 합격 성적을 세분화(예: "우등/합격/불합격")하는 [계층형 채점 시스템]을 채택하고 있습니다.3 학습자들은 종종 정확하고 객관적으로 보이지만 학생 성과를 완전히 또는 정확하게 나타내지 못할 수 있는 이러한 [성적의 공정성에 대해 의문]을 제기합니다.4 -7 학생들은 [감독자의 불충분한 직접 관찰]에 근거하여 성적이 매겨졌다고 느낄 수 있으며,4,8 환자를 자비롭게 돌보는 능력과 같은 다른 역량보다 [의학 지식에 과도한 가중치]를 부여합니다.9,10 또한 성적은 [의학 분야에서 소외되거나 의학에 대한 사전 노출이 적은 배경을 가진 학생에게 불이익]을 주는 불공평성에 기여합니다.6,11 
Clerkship grades during medical school – due to their importance for residency applications and academic awards1 – raise significant concerns for students. Core clinical clerkships traditionally culminate in summative assessment,2 with the large majority of US medical schools employing a tiered grading system, in which passing grades are subdivided (e.g. “honors/pass/fail”).3 Learners often question the fairness of these grades, which, despite their seeming precision and objectivity, may not fully or accurately represent student performance.4–7 Students may feel that they are graded based on inadequate direct supervisor observation,4,8 with excessive weight placed on medical knowledge above other competencies, such as the ability to provide compassionate patient care.9,10 Grading also contributes to inequity, disadvantaging students from backgrounds underrepresented in medicine or with less prior exposure to medicine.6,11

평가는 학생들이 학습하는 방법과 내용을 형성하는 데 중요한 역할을 합니다.12-17 [동기 부여 이론]은 평가가 학습에 미치는 영향을 설명합니다.

  • [목표 지향 이론]에 따르면 학생들은 서로 다른 성취 목표 또는 목적을 가지고 학습에 접근합니다.18,19
    • [성취 목표 지향]은 유능해 보이거나, 무능해 보이지 않으려 하거나, 실수를 피하려는 욕구가 특징입니다.
    • 반대로 [숙달 목표 지향]은 기술이나 지식을 습득하는 데 중점을 둡니다.
    • [숙달 목표 지향]은 더 깊은 개념 이해, 개선된 끈기, 더 큰 학습 즐거움으로 더 높은 수준의 학습을 촉진합니다.20,21 요약 평가는 성과 지향성을 장려하므로,12 요약 평가에서 형성 평가로 전환하는 것이 학습에 도움이 될 수 있습니다.
  • [자기 결정 이론]은 숙달 지향의 이점을 이해하기 위한 관련 프레임으로, 외재적 동기보다는 내재적 동기가 학습의 질을 최적화하고 웰빙을 향상시킨다고 가정합니다.22-24 내재적 동기는 자율성, 역량 및 관련성(후자는 사회적 연결성을 의미함)에 의해 촉진됩니다. 계층적 채점은 내재적 동기를 감소시킬 수 있는 외재적 동기 부여입니다.25,26

Assessment plays a major role in shaping how and what students learn.12–17 Theories of motivation elucidate the effects of assessment on learning.

  • According to goal orientation theory, students approach learning with different achievement goals or purposes.18,19 
    • A performance goal orientation is characterized by the desire to appear competent, avoid appearing incompetent, or avoid mistakes.
    • Conversely, mastery goal orientation places focus on gaining skills or knowledge.
    • A mastery orientation facilitates higher quality learning with deeper conceptual understanding, improved persistence, and greater enjoyment of learning.20,21 Summative assessment encourages performance orientation,12 and thus, a move from summative toward formative assessment may benefit learning.
  • Self-determination theory is a related frame for understanding the benefits of a mastery orientation, positing that intrinsic rather than extrinsic sources of motivation optimize learning quality and enhance wellbeing.22–24 Intrinsic motivation is promoted by feelings of autonomy, competence, and relatedness (the latter signifying social connectedness). Tiered grading is an extrinsic motivator that may diminish intrinsic motivation.25,26

의학 커리큘럼 등급 변경에 대한 연구는 합격/불합격이 상당한 이점을 부여하는 [임상실습 전 평가]에 중점을 두었습니다. [단계별 등급을 없애면], 임상 전 시험 성적의 저하 가능성을 제외하고는 1단계 면허 시험 점수를 비롯한 측정된 [교육 성과에 큰 영향을 미치지 않으면서 스트레스를 줄이고 웰빙과 그룹 결속력을 향상시킬 수 있습니다]. 대부분의 미국 의과대학은 [전임상 커리큘럼을 합격/불합격 채점 방식으로 전환]했습니다. 이러한 성공 사례는 핵심 교과목에서 단계별 등급을 제거하면 중요한 변화의 시기에 학생들의 학습 경험을 유사하게 개선할 수 있음을 시사합니다. 그러나 [실습 기간 동안 피드백에 중점을 둔 합격/불합격 채점으로의 변경]이 실제로 학생에게 어떤 영향을 미치고 학습 경험을 재조정할 수 있는지는 알려지지 않았습니다.
Studies of medical curricular grading changes have focused on pre-clerkship evaluation, where pass/fail has conferred significant benefits. Elimination of tiered grading decreases stress and improves wellbeing and group cohesion27–30 without significant detriment to measured educational outcomes, including Step 1 licensing examination scores,31,32 except for a possible decrease in preclinical exam performance.33 Most United States medical schools have transitioned their pre-clinical curricula to pass/fail grading.34 These successes suggest that removal of tiered grading from core clerkships could similarly improve student learning experiences during a critical and transformative period. However, how a change to pass/fail grading with increased focus on feedback during clerkships may affect students and reorient their learning experiences in practice is unknown.

임상 실습에서 [저부담 피드백]에 중점을 둔 [합격/불합격 채점]을 구현하려면 [총괄 평가 및 판단]에 중점을 두는 것에서 [형성 평가 및 피드백]에 중점을 두는 것으로 변화해야 합니다.35-37 이를 [학습에 대한 평가]에서 [학습을 위한 평가]로의 전환이라고 할 수 있습니다.38 [학습을 위한 평가]를 우선시하는 환경에서는 피드백을 강조합니다. 피드백은 학습을 안내하고, 학생 참여를 촉진하며, 학생이 학습 목표를 달성하기 위한 수단으로 피드백을 사용하게 동기를 부여한다. 예를 들어 평가에 대한 감독자의 태도는 학생의 학습 환경에 직접적인 영향을 미치거나 피드백을 통해 간접적으로 학생의 학습 경험에 영향을 미칠 수 있으므로 이러한 문화적 변화에는 모든 이해관계자의 동의가 필요합니다.39,40 이 질적 연구에서는 형성적 피드백에 중점을 두고 핵심 임상실습 단계별 채점을 없애는 것이 동기 부여, 임상실습 학습 경험 및 웰빙에 미치는 영향에 대한 학생의 관점을 탐색하고자 합니다.
Implementing pass/fail grading with greater emphasis on low-stakes feedback in clinical clerkships requires a change from emphasis on summative assessment and judgment to one on formative assessment and feedback.35–37 This may be called a move from assessment of learning to assessment for learning.38 An environment that prioritizes assessment for learning emphasizes feedback to guide learning, fostering student engagement, and motivating students to use feedback as a means to achieve learning goals. This cultural shift requires buy-in from all stakeholders, as supervisor attitudes toward assessment, for example, may directly affect the student’s learning environment or indirectly affect student learning experiences through feedback.39,40 In this qualitative study, we pursue an initial exploration of student perspectives on how elimination of tiered grading in core clerkships with increased focus on formative feedback affects motivation, clerkship learning experiences, and wellbeing.


연구 방법

연구 설계
Study design

이 연구는 의대생 인터뷰 분석을 위해 동기 부여 이론과 관련된 개념42을 민감화하여 귀납적 주제 분석 접근법41을 사용한 질적 연구였습니다. 이 연구는 성적 변경 후 학생들의 [임상실습 경험]을 학생들 자신의 말로 탐구하는 [초기 연구]이므로 [질적 설계]를 선택했습니다. 저희는 개인의 주관적인 경험을 탐구하고자 [해석주의 패러다임]을 채택했습니다. 2019년 여름, 캘리포니아대학교 샌프란시스코 캠퍼스(UCSF)에서 핵심 클럭십을 수행하는 동안 의대생들을 인터뷰하여 Honor 채점을 없애고, 주 2회 관찰과 지도교수 피드백을 시작한 직후 1년간의 학습 경험에 대해 이야기했습니다. 평가 변경 및 개인 성과에 대한 강한 감정을 예상했기 때문에 학생들이 솔직하고 유연하게 말할 수 있도록 개별 반구조화 인터뷰를 사용했습니다. UCSF 기관윤리심의위원회는 이 연구를 면제로 간주했습니다(연구 번호 19-27805).
This was a qualitative study using an inductive thematic analysis approach41 with sensitizing concepts42 related to theories of motivation for analysis of interviews with medical students. We selected a qualitative design as this is an initial study exploring student clerkship experiences after a grading change, in the students’ own words. We employed an interpretivist paradigm, as we hoped to explore individuals’ subjective experiences of their clerkships. We interviewed medical students during their core clerkships at the University of California, San Francisco (UCSF) during summer 2019, addressing their learning experiences in the year immediately following elimination of honors grading and initiation of twice-weekly observation and feedback from supervisors. Because we anticipated strong feelings regarding the assessment change and personal performance, we used individual semi-structured interviews to allow students to speak candidly and flexibly. The UCSF Institutional Review Board deemed the study exempt (study # 19-27805).


UCSF 의대생들은 마취과, 내과, 신경과, 산부인과, 소아과, 정신과, 외과에서 각각 2~8주 동안 진행되는 [핵심 임상실습]과 [종단형 가정의학과 일일 클리닉]에 참여했습니다. 대부분의 학생들은 [블록 클리닉]에 등록했고, 소수의 학생들은 [종단 통합 클리닉(LIC)]에 등록했습니다.43

  • 블록 클리닉 팀에는 학생 1~2명, 어텐딩(교수진), 레지던트, 인턴 1~2명이 포함되었으며, 여러 학생이 한 사이트에서 다른 팀에 속해 근무했습니다.
  • LIC 학생들은 각 분야의 어텐딩과 함께 개별적으로 근무했습니다.

UCSF medical students participated in core clerkships lasting 2–8 weeks each in anesthesia, medicine, neurology, obstetrics/gynecology, pediatrics, psychiatry, and surgery, plus a longitudinal family medicine day-long clinic. Most students enrolled in block clerkships and a minority in longitudinal integrated clerkships (LICs).43 Block clerkship teams included 1–2 students, an attending (faculty member), resident, and 1–2 interns; multiple students work on different teams at a site. LIC students worked individually with an attending in each discipline.

[2018년 12월]까지 학생들은 [어텐딩, 레지던트, 인턴의 서술형 및 수치 평가]와 [임상실습 시험 점수]가 위원회에서 결정한 최종 성적에 반영되어 우등/합격/불합격 등급을 받았습니다.44 [2019년 1월], 학교는 핵심 임상실습에 대한 합격/불합격 등급으로 전환하여 다음에 따라 합격이 결정되도록 했습니다.

  • 어텐딩과 레지던트의 서술형 및 수치 평가에 대한 기대치 달성,
  • 임상실습 시험 합격,
  • 주 2회 형성 피드백 이벤트 제출(작업 기반 평가,45 내용보다는 완료도에만 등급이 매김)

Through December 2018, students received honors/pass/fail grades, with narrative and numerical evaluations from attendings, residents, and interns, along with clerkship examination scores, contributing to the final committee-determined grade.44 In January 2019, the school transitioned to pass/fail grading for core clerkships, with passing determined by

  • achievement of expectations on narrative and numerical evaluations from attendings and residents,
  • passing the clerkship examination, and
  • submission of twice-weekly formative feedback events (work-based assessments,45 graded only for completion rather than content).

2019년 1월부터 이러한 피드백 이벤트는 학생이 시작하고 참석 또는 레지던트 수퍼바이저가 [구두 및 온라인 피드백 양식]으로 작성하여 완료했습니다. 학생들은 합격/불합격 성적 외에 '탁월' 또는 '우수'와 같은 코드화된 요약 형용사 없이 [채점 위원회의 최종 서술형 평가]를 계속 받았습니다. [핵심 임상실습]에 이은 [서브 인턴십]은 대부분 우등상을 받을 수 있는 자격이 주어졌습니다.
Starting in January 2019, these feedback events were initiated by students and completed by attending or resident supervisors, both orally and written in an online feedback form. Students continued to receive a final narrative evaluation from a grading committee – without coded summary adjectives such as “outstanding” or “superior” – in addition to their pass/fail grade. Sub-internships following core clerkships continued to be largely honors-eligible.


저희는 임상실습 연도에 있는 학생들을 표본으로 삼았습니다. 또한 2019년 1월 이전에 임상실습을 시작하여 이전의 우등생 자격 및 새로운 합격/불합격 평가 시스템을 경험한 일부 학생을 의도적으로 표본으로 추출했습니다.46 이러한 학생들은 평가 시스템 간 경험을 직접 비교할 수 있었기 때문에 조사 대상에 포함했습니다. 인터뷰 당시 참가자들은 12개월 중 최소 5개월의 핵심 임상실습을 완료한 상태였습니다. 이 시기는 학생들이 다양한 임상실습 경험에 적응할 수 있는 충분한 시간을 확보할 수 있게 해주었고, 신입 임상실습 학생으로서 슈퍼바이저와 함께 배우고 일했던 경험을 쉽게 떠올릴 수 있게 해주었습니다. 우리는 학급 리스트서브에 단 한 번의 모집 이메일을 통해 대부분의 학생을 모집했습니다. 우리는 모든 인구통계학적 그룹의 학생들이 일반적으로 사무직 채점의 공정성과 정확성에 대해 우려한다는 이전 연구에 근거하여 편의 표본을 사용했습니다.4 경쟁이 치열한 전문과목에 대한 관심은 채점에 대한 의견과 연관될 수 있지만, 많은 학생들이 핵심 사무직을 수행하는 도중에 전문과목 선택을 결정하지 못한다는 우리 기관의 내부 데이터에 따라 표본 추출 계획을 수립했습니다.46 2019년 1월 이전에 임상실습을 시작한 학생들은 단일 리스트서브에 소속되지 않은 소수의 학생을 대표하므로 개별 이메일을 통해 모집했습니다. 모든 참가자에게는 $20 전자 기프트 카드가 제공되었습니다.

We sampled students in their clerkship year. Additionally, we purposively sampled a small subset of students who began their clerkships prior to January 2019, and who thus had experienced the prior honors-eligible and new pass/fail assessment system.46 We included these students as they were able to compare experiences across evaluation systems directly. At the time of the interviews, participants had completed at least five of the 12 months of core clerkships. This timing ensured that students had sufficient time to adjust to multiple different clerkship experiences and could easily recall their experiences as new clerkship students learning and working with supervisors. We recruited most students through a single recruitment email to the class listserv. We used a convenience sample based on our prior work showing that students from all demographic groups commonly have concerns with the fairness and accuracy of clerkship grading.4 While interest in a competitive specialty may be associated with opinions about grading, our sampling plan was informed by internal data at our institution showing that many students are undecided about specialty choice midway through their core clerkships.46 Students who began their clerkships prior to January 2019 were recruited through individual emails, as these represented a smaller number of students who did not belong to a single listserv. All participants received a $20 electronic gift card.

면접 가이드
Interview guide

세 명의 연구자(L.S., A.T., K.E.H.)가 [평가, 피드백, 동기 부여 이론에 관한 문헌을 활용하여 인터뷰 가이드를 개발]했습니다.8,12,14,18,20,22,31,47 (지원 정보 부록 1) 인터뷰 질문은 [학습 행동, 임상실습에서의 평가 변경 및 채점에 대한 태도, 동기 부여, 웰빙, 팀 역학, 피드백 및 평가에 대한 감독자의 태도에 대한 인식]을 다뤘습니다. 솔직한 답변을 유도하기 위해 참가자들은 모집 이메일과 인터뷰 직전에 녹취록이 비식별화될 것임을 다시 한 번 고지받았습니다. 각 인터뷰 후에는 학생의 인구통계학적 정보를 수집했습니다.
Three investigators (L.S., A.T., K.E.H.) developed the interview guide using literature on assessment, feedback, and motivation theory.8,12,14,18,20,22,31,47 (Supporting Information Appendix 1) Interview questions addressed learning behaviors, attitudes regarding the assessment change and grading in clerkships, motivation, wellbeing, team dynamics, feedback, and perceptions of supervisor attitudes regarding assessment. To facilitate candid responses, participants were informed both in the recruitment email and again immediately prior to the interview that transcripts would be deidentified. Following each interview, we collected student demographic information.


훈련받은 두 명의 조사원(L.S., A.A.)이 각각 두 번의 파일럿 인터뷰를 실시하고 다른 조사원(K.E.H.)으로부터 인터뷰 기법에 대한 피드백을 받았습니다. 인터뷰 질문에 대한 참가자의 구두 피드백을 수집하고 흐름과 명확성을 위해 인터뷰 가이드를 수정했습니다. 참가자가 핵심 임상실습 학생이었으며 인터뷰 기법이 양호했기 때문에 데이터 세트에 파일럿 인터뷰 1건을 포함시켰습니다. L.S.와 A.A.는 인터뷰를 동등하게 나누었습니다. 2019년 6월부터 8월까지 모든 인터뷰는 전화 또는 대면으로 진행하고 녹음했습니다. 분석 전에 전문적으로 녹취록을 전사하고 비식별화했습니다.
Two trained investigators (L.S., A.A.) each conducted two pilot interviews and received feedback from another investigator (K.E.H.) on interview technique. We collected participants’ verbal feedback on interview questions and revised the interview guide for flow and clarity. We included one pilot interview in the dataset, as the participant was a core clerkship student, and the interview technique was of good quality. L.S. and A.A. divided interviews equally. We conducted and recorded all interviews between June and August 2019 via telephone or in person. We professionally transcribed and deidentified transcripts before analysis.


녹취록을 읽고 동기부여 이론과 관련된 개념을 민감화하여 데이터 분석을 시작했습니다.18-20,22,23,42 이러한 개념을 통해 목표 지향 이론(예: "성과")과 자기결정 이론(예: "자율성", "역량")의 언어를 사용하여 코드를 식별하기 시작할 수 있었습니다. [귀납적으로 코드북을 개발]하기 위해 두 명의 연구자(L.S., K.E.H.)가 [두 개의 인터뷰 녹취록을 읽고 독립적으로 예비 코드를 작성]했으며, L.S.가 이를 [하나의 예비 코드북]으로 재조정했습니다. [세 명의 조사자가 예비 코드북을 사용하여 세 번째와 네 번째 녹취록을 코딩]하고, 매번 코드를 추가, 제거 또는 명확히 하여 코딩을 조정하여 [최종 작업 코드북]을 만들었습니다. 인터뷰가 진행됨에 따라 코드북을 계속해서 반복적으로 개선했습니다.
We began data analysis by reading transcripts and considering sensitizing concepts relating to motivation theory.18–20,22,23,42 These concepts allowed us to begin identifying codes using the language of goal-orientation theory (e.g. “performance”) and self-determination theory (e.g. “autonomy,” “competence”). To develop a codebook inductively,41 two investigators (L.S., K.E.H.) read two interview transcripts and independently created preliminary codes, which L.S. reconciled into a single preliminary codebook. Three investigators used the preliminary codebook to code a third and fourth transcript, each time reconciling coding by adding, removing, or clarifying codes, thereby yielding the final working codebook. We continued to refine our codebook iteratively as interviews progressed.

데이터 수집, 코딩, 분석을 동시에 진행했습니다. 11번의 인터뷰 끝에 새로운 코드를 만들거나 새로운 방식으로 코드를 적용하지 않아 [이론적으로 충분하다는 것]을 발견했습니다.48 [이후 7번의 인터뷰]에서는 우등생과 합격/불합격 서기직에 모두 경험이 있는 학생(총 5명)을 우선적으로 선발했습니다. 두 가지 평가 시스템을 모두 경험한 학생들은 비슷한 주제에 대해 논의했으며, 이들의 답변이 코드북에 큰 변화를 가져오지 않는 것을 관찰한 결과, 합격/불합격만 경험한 학생의 인터뷰와 함께 분석하는 것이 적절하다고 판단했습니다. 

We conducted data collection, coding, and analysis concurrently. After 11 interviews, we discovered that we were not creating new codes or applying codes in novel ways, indicating theoretical sufficiency.48 Within the subsequent seven interviews, we prioritized selecting students (five total) with experience in both honors-eligible and pass/fail clerkships. We observed that these students with experience in both assessment systems discussed similar themes; their responses did not lead to significant changes in the codebook, suggesting to us that it was appropriate to analyze their interviews alongside interviews with students who had experienced only pass/fail clerkships.

코딩이 완료된 후 참가자 인구 통계(표 1)를 검토한 결과, 남성과 여성 참가자가 모두 대표성을 띠고 있음을 확인할 수 있었습니다. 참가자의 인종과 절차적 전문 분야와 비절차적 전문 분야에 대한 관심은 수업 전체에 대한 대표성을 해석하기 어려웠는데, 전자의 경우 많은 학생이 자신의 인종을 "혼합"이라고 답하거나 응답하지 않았고, 후자의 경우 많은 학생이 선호하는 전문 분야를 결정하지 않은 채로 남아있었기 때문입니다. 학생 인구 통계에 따른 코드 적용의 차이는 미미했으며, 이는 이러한 하위 그룹에 대한 추가적인 의도적 샘플링이 필요하지 않음을 시사합니다

Following completion of coding, we reviewed participant demographics (Table 1) and noted that both male and female participants were represented. Participant race and interest in a procedural versus non-procedural specialty were difficult to interpret for representativeness with respect to the class as a whole,

  • 인종 as for the former, many students reported their race as “mixed” or chose not to respond,
  • 관심전공 and for the latter, many students remained undecided on their preferred specialty.

We observed only minimal differences in application of codes based on student demographics, suggesting that further purposive sampling among these subgroups was not necessary.

[코딩을 완료한 후, 두 명의 연구 조사자가 각 코드와 관련 발췌문을 검토]하여 [더 큰 주제와 코드와 주제 간의 관계를 파악]하기 시작했습니다. 팀 토론을 통해 더 큰 주제를 구체화했습니다. 코딩된 데이터를 정리하고 컴파일하기 위해 Dedoose를 사용했습니다(Dedoose, 버전 8.2.14, 사회문화 연구 컨설턴트, 캘리포니아주 로스앤젤레스). 6명의 학생에게 이메일을 통해 구성원 확인을 실시했습니다.49 학생들에게 연구의 주요 주제와 결론을 제공했으며, 학생들은 연구 결과가 자신의 경험과 일치한다고 느꼈습니다. 피드백을 바탕으로 연구 결과를 약간 수정했습니다.

After completing coding, two study investigators reviewed each code and its associated excerpts to begin to identify larger themes and relationships among codes and themes. We refined larger themes through team discussion. We used Dedoose to organize and compile coded data (DEDOOSE, version 8.2.14, SocioCultural Research Consultants, Los Angeles, California). We conducted member checking with six students via email.49 We provided students with major themes and conclusions from the study, and students felt that our results were consistent with their experiences. We made minor clarifications to our results based on feedback.


연구자 반사성
Researcher reflexivity

우리는 연구 전반에 걸쳐 반성적 사고를 고려하여 반성적 사고 일지에 생각을 기록하고 토론을 통해 공유했습니다.50,51 우리 연구팀은 두 명의 의대생(L.S., A.A.), 의학교육 연구원(A.T.), 학교 평가를 총괄하는 교육 리더(K.E.H.) 등 구성원들의 다양한 경험과 전문성을 활용할 수 있었습니다. 우리는 훈련된 학생 면접관(L.S., A.A.)을 활용하여 참가자들이 임상실습 경험을 둘러싼 솔직한 의견을 표현할 수 있도록 했습니다. 우리는 팀원들 간에 데이터와 분석에 대한 반응을 정기적으로 논의하여 서로의 가정에 도전하고 분석을 지속적으로 개선할 수 있었습니다.
We considered reflexivity throughout the study, recording thoughts in reflexivity journals and sharing through discussion.50,51 Our study team benefited from members’ diverse experiences and expertise: two medical students (L.S., A.A.), a medical education researcher (A.T.), and an educational leader who directs assessment for the school (K.E.H.). Our use of trained student interviewers (L.S., A.A.) allowed participants to express candid opinions surrounding clerkship experiences. We regularly discussed our reactions to the data and analysis among our team, allowing us to challenge one another’s assumptions and continuously refine our analyses.


이메일 초대를 받은 자격을 갖춘 168명의 클럭십 학생 중 18명이 응답했으며(모두 이메일 수신 후 5일 이내에 응답), 이 중 13명을 인터뷰에 초대했습니다. 우등 및 합격/불합격 클럭십에 모두 참여한 경험이 있는 학생은 8명이었으며, 이 8명 모두에게 개별 이메일을 보내고 5명의 응답자와 인터뷰를 진행했습니다. 표 1은 참가자의 인구통계학적 특성을 보여줍니다. 참가자들은 8가지 핵심 클럭십에 모두 경험이 있었으며, '상사의 반응' 및 '불확실한 미래' 하위 주제(아래)에서 언급된 것 외에 특정 전문 분야와 관련된 일관된 주제별 차이는 확인되지 않았습니다. 인터뷰는 평균 42분 동안 진행되었습니다(범위: 22-59분).
Of 168 eligible clerkship students who received email invitations, 18 responded (all within five days of receiving the email), and we invited the first 13 for interviews. There were eight students with experience in both honors-eligible and pass/fail clerkships; we sent individual emails to all eight and interviewed the five respondents. Table 1 shows participant demographics. Participants had experiences across all eight core clerkships, and we did not identify consistent thematic differences related to particular specialties aside from those noted in the “Supervisor reactions” and “Uncertain future” subthemes (below). Interviews lasted an average of 42 minutes (range: 22–59 minutes).

데이터에서 학생의 [임상실습 참여, 웰빙, 학습 맥락에 대한 인식]이라는 세 가지 주요 주제를 확인했습니다. 모든 참가자는 우등 학점을 받을 수 있는 다른 가능성에 대해 자주 생각한다고 답했으며, 우등 학점을 받은 경험이 없는 학생들도 자신의 경험을 설명할 때 직접 비교하는 언어를 자주 사용했습니다(예: "저는..."(7), "저는... 걱정하지 않습니다."(8)). 참가자 번호는 괄호 안에 표시되며, 우등생 자격을 갖춘 클럭십에 참여한 경험이 있는 학생은 별표(*)로 표시되어 있습니다.
We identified three major themes from the data: student engagement in clerkships, wellbeing, and recognition of the learning context. All participants reported thinking frequently about the alternative possibility of being graded in core clerkships, and even students without experience in honors-graded clerkships often used directly comparative language to describe their experiences (e.g. “I’m a lot more willing to…” (7), “I’m not as worried about…” (8)). Participant numbers are in parentheses; students with prior experiences in honors-eligible clerkships are indicated with an asterisk (*).

클럭십 참여
Engagement in clerkships

학생들은 성적 체계 변경으로 인해 [클럭십 학습에 대한 몰입도]가 높아졌다고 답했습니다. 이 주제에는 동기 부여, 주체성, 관계라는 하위 주제가 포함되어 있습니다.
Students reported that the grading change helped them feel highly engaged with their clerkship learning. This theme included subthemes of motivation, agency, and relationships.

동기 부여

많은 학생들이 실습 기간 동안 동기의 주된 원천은 [좋은 의사가 되어 환자 치료와 의료팀에 기여하고 싶다는 열망]이라고 답했습니다. 학생들은 [우등 성적이 없는 상황]에서 ['배움을 위한' 학습에 대한 강한 동기]를 느꼈습니다(4, 13). 학생들은 이러한 동기를 유능한 임상의로 성장하고자 하는 열망 때문이라고 답했습니다: "내가 될 수 있는 최고의 의사가 되고 싶다는 생각은 ... 열심히 일하도록 동기를 부여합니다."(1).

Many students felt their primary sources of motivation during clerkships were their desire to learn and develop into a good doctor and contribute to patients’ care and the care team. Students felt strongly motivated in the absence of honors grades to learn “for the sake of learning” (4, 13). They attributed this drive to a desire to develop into a competent clinician: “wanting to be the best physician that I can be … motivates me to work hard” (1).

몇몇은 성적 체계 변경으로 인해 [시험 공부]에서 [환자 치료]로 우선순위가 바뀌었으며, 환자를 철저히 파악하고 팀에 기여하여 치료를 발전시키는 데 중점을 두게 되었다고 답했습니다. 한 학생은 합격/불합격 채점으로 인한 이러한 변화를 언급했습니다: "이것이 제가 여기 온 이유입니다. ... 이 복잡한 케이스에 대해 정말 깊이 생각하고 늦게까지 남아서 환자의 이야기를 배우기 위해서입니다."(11).
Several reported the grading change shifted their priorities from exam study toward patient care, with an emphasis on knowing patients thoroughly and contributing to the team in advancing care. One student noted this shift due to pass/fail grading: “this is why I'm here. … to really think really deeply about these complicated cases and stay late to learn about this patient's story” (11).

모든 학생은 성적 변경으로 인해 [상사에게 잘 보이기 위해 성과를 낼 필요성을 거의 느끼지 못한다]고 인식했습니다: "점수를 받지 못하면 누군가에게 잘 보이기 위해... 늦게까지 일하는 것이 아니라... 모든 일을 끝냈다는 만족감을 위해... 늦게까지 일하는 것 같다"(18*). 또한 대부분의 학생은 [성적을 위한 성과 압박이 학생의 동기 부여에 필요하다는 의견에 동의하지 않았습니다]. 한 학생은 이렇게 반박했습니다:
All students perceived that, due to the grading change, they felt little need to perform for the sake of impressing supervisors: “Without honors it becomes less of, are you staying late just … to impress someone, and more like … you’re staying late … for the satisfaction of making sure all your work is done” (18*). Further, most disagreed that the pressure to perform for a grade was necessary for student motivation. One student reflected:

"레지던트와 어텐딩에게 잘 보이려고 노력하는 대신 배움에 집중하기 때문에 훨씬 더 큰 기쁨을 느끼고 있습니다. ... 이러한 배움의 정신이 저를 좋은 성적을 받는 데 집중했을 때보다 더 나은 의대생으로 만들어주고 있습니다." (5*)
“I'm really finding a lot more joy because the focus is on my learning instead of me trying to impress my residents and attendings. … That spirit of learning is actually making me into a better med student than … if I were focused on getting a good grade.” (5*)

그러나 소수의 학생은 우등 성적을 받으려는 외적 동기는 느끼지 않았지만, [학습자가 계속 평가되고 관찰되기 때문에 성과에 대한 압박이 없는 것은 아니라]고 느꼈습니다.
However, a small number of students felt that, while they did not perceive an extrinsic motivation to earn an honors grade, performance pressure was not absent, as learners continue to be evaluated and observed.

전반적으로 [학습에 대한 열망]이 동기의 주요 원천이었지만, 학생들은 [임상 업무, 시험 공부, 개인적 웰빙 등 여러 가지 경쟁 동기] 사이에서 [절충점을 찾기 위해 일상적인 학습 결정]을 내리는 경우가 많았습니다. 소수의 학생들은 때때로 우등 성적이 있었다면 받아들였을 추가 과제를 맡지 않거나 임상 업무에서 노력을 다른 곳으로 옮겼다고 느꼈습니다. 한 학생은 "100%가 아닌 평균을 맞추는 것이 목표"라고 설명했습니다. "내 자신을 돌보는 데 시간을 보내고 싶었기 때문"입니다(10). 성적 변경을 통해 학생들은 [임상 책임]과 [개인 생활]이라는 [경쟁하는 욕구 사이에서 균형]을 잡을 수 있었고, 이를 통해 [전반적인 실습 참여와 웰빙을 촉진]할 수 있었습니다(아래 웰빙 테마 참조). 임상 업무에 대한 동기는 학생의 관심도에 따라 다소 차이가 있었습니다. 그럼에도 불구하고 많은 학생들이 "내가 이 일을 할 수 있는 것은 이번이 마지막이다"라고 생각하면서(17*) 자신이 원하지 않는 분야에서도 학습 동기를 느꼈습니다.
While the desire to learn was a major source of motivation overall, students frequently made day-to-day learning decisions that represented tradeoffs among multiple competing motivators, including clinical work, exam study, and personal wellbeing. A minority felt they occasionally shifted effort away from clinical work or chose not to assume extra tasks that they might have accepted had honors grades been present. One student described aiming to “meet average … not 100% … because I’d rather spend my time taking care of myself” (10). The grading change allowed students to balance the competing drives of clinical responsibility versus personal life, thereby facilitating overall clerkship engagement and wellbeing (see Wellbeing theme below). Some motivation toward clinical work varied by student interest in the clerkship. Even so, numerous students felt motivated to learn even in fields they did not intend to pursue, reasoning that “this is the last time I'll be able to do this” (17*).


성적 체계 변경을 통해 학생들은 [학습 우선순위에 대한 통제권]을 갖게 됨으로써, [학습에 대한 주체성]을 느낄 수 있었습니다(그림 1). 학생들은 [임상 시간의 우선순위를 정하는 방법]에는 차이가 있었지만, 환자 직접 접촉, 환자 프레젠테이션 또는 메모 작성, 의료 시스템 조사, 시험 공부, 일차 문헌 조사 등 [목표 역량을 선택함]으로써, [스스로 임상 기술을 개발할 수 있는 권한]을 부여받았다고 느꼈습니다. 한 학생은 "주어진 날에 무엇을 배우고 무엇을 해야 하는지 자유롭게 결정할 수 있었습니다."(11)라고 말합니다.
The grading change allowed students to feel agency in their learning by affording control over learning priorities (Figure 1). Students differed in how they prioritized their clinical time but felt empowered to develop their own clinical skills by choosing competencies to target: direct patient contact, patient presentations or writing notes, examining health systems, studying for the exam, or researching primary literature. Per one student, “I just felt very free to sort of decide in a given day what was important to me to learn about and what was important to me to do” (11).

학생들은 [학습을 주도할 수 있는 자유] 덕분에, [피드백을 구하고 비판적 성찰을 연습하고, 학습 위험을 감수하고, 감독자와 다른 의견을 제시]하는 등 [효과적인 학습 행동]을 활용할 수 있었습니다. 학생들은 [적극적으로 피드백을 구하고] [성장해야 할 부분에 대해 비판적으로 성찰함]으로써 [자신의 학습에 대한 책임감]을 갖게 되어 실습 기간 동안 피드백 빈도가 높은 것에 만족했습니다: "건설적인 피드백을 받아들이고 이를 개선에 활용하게 되어 기쁩니다."(16). 합격/불합격을 통해 많은 학생들이 질문을 하거나 새롭거나 도전적인 과제를 시도하는 등 [학습 위험을 감수해도 안전하다]고 느낄 수 있었습니다. 학생들은 지식 격차가 드러날까 봐 두려워하지 않고 "[자신이] 바보 같다고 생각하는 질문"(12*)을 할 수 있다고 느꼈으며, [유능해 보이고 낮은 평가를 피하기 위해 답을 몰래 찾아보거나 정교한 질문을 할 필요성을 느끼지 않았습니다]
Students’ freedom to direct their learning allowed them to utilize effective learning behaviors, such as seeking feedback and practicing critical reflection, taking learning risks, and voicing differing opinions with supervisors. Students were satisfied with the high frequency of feedback during clerkships, assuming responsibility for their learning by proactively seeking feedback and critically reflecting on areas for growth: “you take the constructive feedback and are excited to use it to improve” (16). Pass/fail allowed many students to feel safe taking learning risks such as asking questions or attempting new or challenging tasks. Students felt they could ask “questions that [they] thought … sounded dumb” (12*) without fear of revealing deleterious knowledge gaps, and they did not feel the need to look up answers furtively or ask elaborate questions to appear competent and avoid poor evaluations.

우등생들은 [우등 성적]이 [익숙하지 않은 과제를 처음 시도하는 것에 대해 평가받는 모순]을 야기한다고 인식한 반면, 몇몇 학생들은 [합격/불합격이 실수와 성장의 여지를 허용한다]고 언급했습니다: "저는 학습자로서의 역할을 받아들였습니다... 처음 무언가를 할 때 완벽하거나 대단해야 한다고 생각하지 않습니다... 그리고 그런 여유가 제 성과에도 도움이 됩니다."(7). 학생들은 [결점이 드러나는 것에 대해 거의 걱정하지 않고] [진심 어린 질문]을 하고, [부족한 기술을 개선할 기회를 모색]했습니다. 마지막으로, 학생들은 평가가 나빠지는 등의 [보복에 대한 두려움 없이 상사에게 반대 의견(예: 사소한 공격에 대한 형평성 옹호)]을 말할 수 있게 되었습니다.
Whereas students perceived that honors grades created a catch-22 in which students were evaluated on attempting unfamiliar tasks for the first time, several noted that pass/fail allowed room for mistakes and growth: “I’ve embraced my role as a learner … I don't feel like I have to be perfect or amazing the first time I do stuff … and then that relaxation also kind of helps my performance” (7). With little concern over revealing faults, students asked genuine questions and sought opportunities to improve weak skills. Finally, students felt able to voice disagreeing opinions with supervisors—for instance, advocating for equity after a microaggression—without fearing retaliation in the form of a poor evaluation.


우등 채점을 없애자 동료와의 [협력 관계] 및 상사와의 [동료 관계]가 촉진되었습니다. 많은 사람들이 우등 성적이 '미묘한 경쟁' 환경(15*)으로 이어진다고 인식했으며, 제한된 수의 우등 성적을 얻기 위한 경쟁으로 인해 [동료 간 협력이 방해]받고 있다고 답했습니다. 대부분의 학생들은 합격/불합격이 지원, 경험, 학습 전략의 공유를 촉진하여 이러한 경쟁을 최소화한다고 생각했습니다. 한 학생은 "우등생 이후를 제외하고 나머지 의대 3학년 내내 친구를 사귄 적이 없는 것 같다"(12*)고 말했습니다. 소수의 학생은 경쟁을 거의 느끼지 못했지만 또래와의 비교는 여전히 남아 있다고 느꼈습니다:
Eliminating honors grading facilitated collaborative relationships with peers and collegial relationships with supervisors. Many perceived honors grading as leading to a “subtly competitive” environment (15*), with peer collaboration hindered by perceived competition for a limited number of honors grades. Most felt that pass/fail minimized this competition by facilitating shared support, experiences, and study strategies. Per one student, “I don't think I made friends throughout the rest of med school third year except for post-honors” (12*). A minority felt that, despite sensing little competition, some comparison with peers remained:

"그들과 자신을 비교하지 않는 것은 여전히 어려울 수 있지만... 그런 생각은 최소화하고...[성적보다는] '내가 배워야 할 것을 배우고 있는가? 내가 해야 할 일을 제대로 하고 있는가?" (11)
“It can still be hard to not compare yourself against them … but that's minimized and …[is] less about the grade but more about ‘Am I learning what I should learn? Am I doing this as well as I should be?’” (11)

우등 성적 없이 [레지던트 및 어텐딩과의 편안함을 높임]으로써 [학습이 촉진되고 학생들이 진정한 팀원처럼 느낄 수 있었습니다]. 한 학생은 이러한 [수퍼바이저와의 관계가 위계적으로 느껴지지 않는다]고 언급했습니다."그 사람은 단독 평가자라기보다는 동료의 측면이 더 강하다"(16). 학생들은 호감을 얻기 위해 위선적이 되거나 자신의 전문성을 허위로 표현할 필요가 거의 없다고 느꼈습니다.

Increased comfort with residents and attendings without honors grades facilitated learning and allowed students to feel like true team members. One student noted that relationships with these supervisors did not feel hierarchical: “the person [is] less like a sole evaluator … there’s more of a colleague aspect to it” (16). Students felt there was little need to be sycophantic or misrepresent their intended specialty in order to be liked.


학생들은 합격/불합격 성적에 긍정적인 영향을 미친다고 답했으며, 면접관의 질문 없이도 이 주제를 언급하는 경우가 많았습니다. 학생들은 [낮은 스트레스, 팀원과의 진정성, 신체 건강을 우선시하는 능력, 개인 생활과 임상 업무의 균형] 등 다양한 차원의 [웰빙]에 대해 긍정적으로 평가했습니다(표 2).
Students widely attributed a positive sense of wellbeing to pass/fail grading, often citing this topic without interviewer prompting. Students spoke positively on multiple dimensions of wellbeing, including low stress, sense of authenticity with team members, ability to prioritize physical health, and balance of personal life with clinical duties (Table 2).

맥락에 대한 인식: 현재와 미래
Recognition of context: current and future

학생들은 자신의 학습이 [더 큰 맥락에 놓여 있다는 것]을 인식했습니다. 이 주제에는 학습 환경의 내재적 가변성, 성적 변경에 대한 감독자의 반응, 성적 변경의 향후 영향에 대한 우려라는 하위 주제가 포함되었습니다.
Students recognized that their learning was situated in a larger context. This theme included subthemes of inherent variability of the learning environment, supervisor reactions to the grading change, and concerns regarding the future implications of the grading change.

내재적 가변성
Inherent variability

학생들은 채점 변경으로 인해 [공정성에 대한 두려움이 완화되었다]고 느끼는 등 [핵심 임상실습 경험에 내재된 가변성]이 분명하게 드러났습니다. 많은 학생들이 서클러십을 시작하면서 현장, 감독자, 팀, 경험에 따라 "나는 이 사람, 그들은 저 사람, 우리는 완전히 다른 두 가지 경험을 했다"(7)는 사실을 알게 되었습니다. 학생들은 평가가 주관적이며, 실제 능력보다는 특정 상황에서 "[학생들이] 얼마나 잘 적응했는지, 얼마나 호감을 받았는지"를 반영한다고 지적했습니다(12*). 합격/불합격은 "과정을 정상화"(6)하여 이러한 [변수가 점수 차이로 나타나지 않도록 방지]했습니다.
Variability inherent to core clerkship experiences was clear to students, who felt the grading change alleviated fears relating to fairness. Many discovered upon starting clerkships that sites, supervisors, teams, and experiences differed widely: “I got this person, they got that person, we have two totally different experiences” (7). Students noted that evaluations were subjective and reflected “how well [students] fit in or how liked they were” in a particular context rather than true ability (12*). Pass/fail “normalized the process” (6), preventing this variability from manifesting as differential grading.

몇몇 학생은 [인종, 성 정체성, 성적 지향 또는 사회경제적 지위]와 관련된 [우등 성적의 형평성 문제]로 인해 합격/불합격을 지지했습니다. 학생들은 "성별이나 인종 문제로 인해 불공정한 성적을 받지 않아도 된다는 사실에 안도감을 느꼈습니다."(5*). 몇몇 학생은 성적 변경을 모든 학생에게 ['공평한 경쟁의 장']을 만들어 성적 불평등을 해결해야 하는 교육기관의 책임으로 인식했습니다(8).
Several students supported pass/fail due to equity concerns – surrounding race, gender identity, sexual orientation, or socioeconomic status – of honors grading. Students felt “some relief, knowing that we don’t have to [be] unfairly graded [due to] issues of gender or … race” (5*). Several students perceived the grading change as an institutional responsibility to address grading inequities by creating an “equal playing field” for all students (8).

감독자의 반응
Supervisor reactions

더 나은 학습 환경의 한 측면으로서, 학생들은 성적 변경에 대한 전공의들의 반응, 특히 [웰빙에 대해 대체로 긍정적인 반응과 공감]을 인식했습니다. 학생들은 성적이 부족했던 경험을 아쉬워하는 레지던트들의 말을 들었습니다: "너희들은 정말 운이 좋아서 이런... 일이 머리 위에 걸려 있지 않아서... 내가 겪을 때 그런 일이 있었으면 좋겠다."(3)학생들은 레지던트들이 의대생들의 스트레스 감소, 협동심 향상, 성과에 대한 욕구 감소, 채점의 주관성에 대한 해결책에 대해 칭찬하는 것을 듣고 기뻐했습니다. 한 학생이 "제가 도울 수 있는 다른 방법이 없나요?"라고 묻자 레지던트는 "아니요, 제 승인을 받기 위해 해야 하는 노래와 춤을 모두 멈추면 됩니다. ... 가식은 사라졌습니다. 당신은 ... 호의를 구할 필요가 없습니다."(2). 일부 학생들은 프로시져 분야의 [일부 레지던트들이 성적을 통해 우수한 학생에게 보상할 수 없는 것에 대해 아쉬움]을 표했다고 보고했습니다.
As one facet of their greater learning environment, students perceived generally positive reactions and empathy from residents about the grading change, particularly surrounding wellbeing. Students heard residents wishing they had experienced a lack of grades: “you guys are so lucky you don’t have this … thing hanging over your head … I wish I had that when I was going through” (3). Students were pleased to hear residents praise medical students’ decreased stress, greater cooperation, and decreased need to perform as well as a solution to the subjectivity of grading. When one student asked whether there was “anything else I can do to help,” the resident responded, “no, you can stop the whole song and dance that you need to do to get approval from me. … the pretense is gone. You don't need … to curry favor” (2). A few students reported that some residents from procedural fields expressed regret regarding the inability to reward excellent students through grades.

학생들은 [성적 체계 변경에 대한 주치의들의 반응이 엇갈렸다]고 보고했습니다. [긍정적인 의견]에는 교수진 스스로 이 시스템을 원한다는 내용은 없었지만, 학생들 간의 경쟁이 줄어들고 자유롭게 학습할 수 있다는 점이 언급되었습니다. 한 학생은 학생들이 여전히 학습 의욕이 높다는 사실에 놀라움을 표시하기도 했습니다: "성적에 연연하지 않고 더 나아지고자 하는 진정한 열망에 놀랐어요."(12*). 일부 참석자들은 [부정적인 반응]을 보인 것으로 알려졌습니다. 주로 학생들을 비교하고, 해당 분야에 가장 [관심이 많은 학생을 식별하거나, 우수자에게 보상하는 방법에 대한 불확실성]을 언급하였다. 학생들은 일부 주치의가 변화에 저항하거나 이해 부족을 보인 것에 대해 실망감을 표했으며, 이러한 주치의는 채점 체계 변경이 [이전 세대에 비해 노력 감소를 유발할 수 있다]고 말했습니다. 한 학생은 어텐딩들이 "매우 어려운 일을 겪었다는 것에 자부심이 있을 수 있고, 의과대학은 매우 어렵습니다... 우등생 제도로 인해 더 어려워진 것 같고, 따라서 그 모든 고통에서 조금 더 멀리 떨어져 있는 사람들은 자부심을 가지고 있다고 생각합니다."(4) 라고 설명했습니다. 학생들은 일반적으로 감독자의 행동(예: 교육, 피드백 제공)이 성적 변화에 큰 영향을 미쳤다고 생각하지 않았지만, 학생들은 일부 주치의는 [임상 학습에 대한 기대치가 낮은 것 같다]고 말하며 좌절감을 드러냈습니다: "어차피 합격/불합격이야. 너무 걱정할 필요는 없어."(13).

Students reported mixed reactions from attendings regarding the grading change. Positive comments did not include faculty’s wish for this system for themselves but did address the lack of competition among students and their ability to learn freely. One student noted some attendings’ astonishment that students were still highly motivated to learn: “They were just sort of surprised by the genuine desire to get better without a grade hanging over our head” (12*). Some attendings reportedly reacted negatively, citing uncertainty about how to compare students, identify students most interested in the field, or reward excellence. Students shared some disappointment that certain attendings resisted change or showed lack of understanding, as these attendings voiced that the grading change may prompt decreased effort compared with prior generations. One student explained that attendings may “see there's pride in going through something very difficult, and medical school is very difficult… I think it's made more difficult by an honors system and therefore, those that are a little bit further removed from the pain of it all, have pride in that” (4). While students generally did not attribute significant changes in supervisor behaviors (i.e. teaching, giving feedback) to the grading change, some students were frustrated when attendings seemed to voice low expectations for clinical learning, stating: “you're pass/fail. You don't have to worry about this too much” (13).

불확실한 미래
Uncertain future

성적 변경은 학생들의 [미래에 대한 우려]를 불러일으켰습니다. 레지던트 지원 시 [다른 지원자들과의 차별화]에 대한 질문이 제기되었습니다: "다른 지원자들이 지원서에 우등생이 많은 경우, [합격/불합격 학생]이 해당 전문 분야에서 눈에 띄는 것이 더 어려울 수 있습니다."(15*). 학생들은 [레지던트 위원회에서 합격/불합격 학생을 무시할 것인지]에 대해 의문을 제기했습니다. 이러한 우려는 [수술 관련 전문과목]에 관심이 있는 학생들 사이에서 더 두드러졌습니다. 많은 학생이 레지던트 지원에서 [임상실습 평가의 중요성에 대한 혼란]을 언급하거나 일부 [최종 서술형 임상실습 평가가 "개인적인 것이 없고" "비슷한 것을 찍어내는 것"처럼 느껴진다]고 한탄했습니다(17명*). 일부는 성적 변경이 [스텝 시험이나 서브 인턴십에 대한 스트레스를 "제거하기는커녕... 대체"하는 것이 아닌지 의문]을 제기했습니다(18*). 이러한 우려에도 불구하고 학생들은 전반적으로 성적 전환이 긍정적인 변화이며, 특히 웰빙과 관련하여 "여전히 단점보다 장점이 크다"(14)고 생각하는 것으로 나타났습니다.
The grading change prompted concern for students about their future. Questions about differentiating among peers for the purpose of residency applications arose: “Where other applicants have a lot of honors on their applications, it might be more difficult for [pass/fail students] to stand out in that specialty” (15*). Students questioned whether pass/fail students would be disregarded by residency committees. Concerns were more marked among students interested in procedural specialties. Many cited confusion regarding the importance of clerkship evaluations in residency applications or lamented that some final narrative clerkships evaluations felt “impersonal” and “cookie-cutter” (17*). Some wondered whether the grading change was “displacing … rather than removing” stress onto Step exams or sub-internships (18*). Despite these concerns, students largely felt that, overall, the grading transition represents a positive change and, particularly surrounding wellbeing, “the benefits still outweigh the cons” (14).


우리는 핵심 클럭십 기간 동안 학생의 [동기 부여와 클럭십 학습 경험]에 대한 [형성적 피드백에 중점을 두고 단계별 채점에서 합격/불합격 채점으로의 전환이 미치는 영향]을 조사했습니다. 평가 및 채점 방식 변경을 통해 학생들은 여러 측면의 웰빙을 촉진함으로써 [내재적 동기]를 느끼고 [임상 학습에 몰입]할 수 있었습니다. 이 개입에는 합격/불합격 채점 변경과 형성 피드백 강화가 모두 포함되었지만, 학생들은 [강화된 피드백]을 더 큰 평가 변화의 한 요소로 인식했으며, 대체로 긍정적인 의견은 두 가지 변화의 시너지 효과를 반영하는 것이었습니다. 학습 상황에 대한 학생들의 우려는 학습과 레지던트 선발 목표를 모두 충족하는 평가의 긴장을 강조합니다. 연구 결과에 따르면 핵심과목의 합격/불합격 채점이 학습을 촉진하는 긍정적인 학습 환경을 조성할 수 있다는 사실이 입증되었습니다.
We investigated the effects of a transition from tiered to pass/fail grading with greater emphasis on formative feedback on student motivation and clerkship learning experiences during core clerkships. The assessment and grading change allowed students to feel intrinsically motivated and engaged in clinical learning, in part by facilitating multiple aspects of wellbeing. While the intervention comprised both a change to pass/fail grading and increased formative feedback, students perceived the enhanced feedback as one element of the larger assessment change, and their generally positive opinions reflected a synergistic combination of both changes. Students’ concerns about their learning context highlight the tensions of assessment serving both learning and residency selection goals. Our findings demonstrated that pass/fail grading in core clerkships may create a positive learning environment that promotes learning.

설문조사 참가자들은 자신의 동기가 [슈퍼바이저에게 잘 보이려는 노력]보다는, [임상적으로 발전하고 환자와 팀에 기여하려는 열망]에서 비롯된 것이라고 설명했습니다. 이 결과는 다른 기관의 이전 경험과 일치하며, 형성적 피드백을 강조하는 임상실습 커리큘럼 재설계가 학생들에게 긍정적인 반응을 얻었으며, 학생들도 마찬가지로 임상실습 성공에 대한 생각을 [감독자에게 깊은 인상을 주는 것]에서 [학습과 환자 치료]로 전환했습니다.52 학생들은 [학습 가치를 지닌 활동에 집중]하는 방법을 선택하는 것이 중요하다고 강조하며, 이러한 [통제를 통해 학습을 향상시킬 수 있다]고 답했습니다. 자기 결정 이론은 학습의 측면에 대한 통제력이 학생들의 호기심과 주도성을 가능하게 한다는 해석을 뒷받침합니다.22,53 학생들이 [우등 성적을 위태롭게 하지 않고도, 편안하게 느끼는 건설적인 피드백을 받아들이고, 개선을 시도하는 능력]은 총괄 평가에 중점을 두지 않는 [이상적인 학습 환경의 특징]을 나타냅니다.47 학습 문화에 대한 한 선행 연구에서와 같이 학생들은 건설적인 피드백이 높은 수준의 평가와 분리될 때 유용하다고 생각했지만54 일부는 [Grade가 없는 것으로 인해 동료들 사이에서 자신을 구별하는 능력이 제한되는지 의문]을 표시했습니다. [집중의 우선순위]를 정하거나, [코칭을 구하는 것]에 대한 참가자들의 의사결정은 학습을 [효과적으로 자기 주도하고 자기 조절할 수 있는 적응형 학습자]의 행동을 특징짓는 요소입니다.55,56 추가 연구를 통해 이러한 행동이 향후 실무에 어떻게 적용될 수 있는지 살펴볼 수 있습니다.
Our participants described their motivation as stemming from their desire to improve clinically and contribute to patients and teams more than from trying to impress supervisors. This finding is consistent with previous experiences at another institution, which demonstrated that a clerkship year curriculum redesign emphasizing formative feedback was met positively by students, who similarly shifted their ideas of clerkship success away from impressing supervisors toward learning and patient care.52 Students highlighted the importance of choosing how they focused on activities that they perceived had learning value, using this control to enhance learning. Self-determination theory supports our students’ interpretation that controllability over aspects of their learning enabled their curiosity and initiative.22,53 The ability to welcome constructive feedback and attempt to improve, as our students felt comfortable doing without potentially jeopardizing an honors grade, signifies a feature of an ideal learning environment not likely with emphasis on summative assessment.47 As in one prior study of learning cultures, students found constructive feedback useful when separated from high-stakes assessment,54 but some questioned whether a lack of grades limited their ability to distinguish themselves among peers. Our participants’ decision-making about where to prioritize their focus or seek coaching characterize behaviors of the master adaptive learner, who is able to effectively self-direct and self-regulate learning.55,56 Further study could explore how they might carry these behaviors into their future practice.

[긍정적인 행복감]은 학생들 전반에 걸쳐 뚜렷하고 일관된 결과였습니다. 이 결과의 규모에 놀랐지만, [웰빙을 증진하는 내재적 동기의 알려진 효과]와 일치합니다.22 웰빙의 구성 요소는 아래와 같은 의사 웰빙의 여러 영역에 걸쳐 있습니다.57

  • 불안과 스트레스 감소(정신적 웰빙),
  • 임상 상호작용에서의 진정성(사회적 웰빙의 구성 요소),
  • 신체 건강을 우선시하는 능력(신체적 웰빙),
  • 개인 생활과 임상 업무의 균형(통합적 웰빙) 

이러한 요소는 학생들이 의료 교육을 통해 경험하는 수많은 개인 수준 및 시스템 수준의 스트레스 요인을 반영합니다.58 이러한 스트레스 요인을 해결하지 않을 경우, 임상실습 연도에 두드러지게 나타나는 이러한 스트레스 요인은 학생들을 우울증에 걸릴 위험이 높습니다.59,60 합격/불합격 채점 하에서 학생들은 자기 관리의 우선순위를 정할 수 있는 권한을 부여받아 회복력을 강화하고 소진 위험을 줄일 수 있다고 느꼈습니다.61,62 또한 학습을 주도하는 학생의 자율성은 웰빙을 더욱 지원하는 것으로 알려져 있습니다.63 따라서 [임상실습 성적 체계의 변경]은 [의과대학에서 스트레스의 여러 근본 원인을 해결하는 데 필요한 통합 교과 과정 노력]의 한 요소로 구성될 수 있습니다.64
A positive sense of wellbeing was a marked and consistent result across students. While we were surprised by the magnitude of this finding, it is consistent with known effects of intrinsic motivation in promoting wellbeing.22 Components of wellbeing spanned multiple recognized domains of physician wellness:

  • decreased anxiety and stress (mental wellbeing),
  • sense of authenticity in clinical interactions (a component of social wellbeing), and
  • increased abilities to prioritize physical health (physical wellbeing) and
  • balance personal life with clinical work (integrated wellbeing).57 

These components mirror the numerous individual-level and systems-level stressors that students experience through medical training.58 If unaddressed, these stressors – which manifest prominently in the clerkship year – place students at high risk for depression.59,60 Under pass/fail grading, students felt empowered to prioritize self-care, which can strengthen resiliency and decrease risk of burnout.61,62 In addition, students’ sense of autonomy to drive their learning is known to further support wellbeing.63 A change in clerkship grading can thus constitute one element of the integrated curricular effort necessary to address the multiple root causes of stress in medical school.64

학생들이 평가 및 채점에 대한 변화된 접근 방식에 대해 [임상 수퍼바이저로부터 들은 메시지]는 [학습을 위한 평가]와 [학습에 대한 평가] 사이의 알려진 긴장을 반영합니다.65

  • [레지던트들]이 성적을 없애고 피드백에 더 집중하는 것에 대해 [지지를 표명했다는 결과]는 학습자이자 수퍼바이저로서 레지던트의 [이중적 역할]을 보여줍니다. 레지던트를 대상으로 한 이전 연구와 일관되게, 성적 부여가 없는 경우에도 [성과에 대한 압박감은 줄어들기는 했지만 어느 정도 존재했습니다].66 이러한 관찰은 레지던트 연도의 학습 경험이 상급자에 대한 인상을 관리하는 능력과 밀접하게 연관되어 있다는 연구 결과와도 일치합니다.67
  • 레지던트들과는 대조적으로, 학생들은 [교수진이 평가에 관한 오랜 뿌리 깊은 신념을 반영하는 듯한 우려]를 표명하는 것을 들었습니다.54 이러한 의견은 높은 위험, 성과 및 완벽의 이미지를 중시하는 의학계의 뿌리 깊은 문화적 전통을 반영합니다.38

Messages that students heard from clinical supervisors about the changed approach to assessment and grading reflected known tensions between assessment for learning and assessment of learning.65 

  • Our finding that residents expressed support of the elimination of grades and enhanced focus on feedback showcases residents’ dual roles as learners and supervisors. Consistent with a prior study of residents, some pressure to perform, while reduced, existed even in the absence of grade assignments.66 This observation aligns with a study showing that students’ learning experiences in the clerkship year are closely tied to their ability to manage impressions made upon their supervisors.67 
  • In contrast to their residents, students heard faculty express concerns that seem to reflect longstanding, deep-seated beliefs regarding assessment.54 These comments reflect ingrained cultural traditions in medicine valuing high stakes, performance, and the image of perfection.38

학생들은 주치의가 [총괄 평가에 덜 중점을 두면 우수성이 평가 절하될 것을 우려]하는 것을 들었지만, 우수성이 어떻게 손상되는지에 대한 [구체적인 사례는 없었습니다]. 실제로 한 교육기관에서 [고부담 임상실습 시험을 없애도 2단계 CK 면허 시험의 평균 학생 성적에는 영향을 미치지 않았습니다].68 여러 직종의 학습 문화에 대한 연구에 따르면 [형성적 피드백이 풍부한 문화]가 [우수성을 더 잘 촉진]하는 것으로 나타났습니다.69,70 피드백과 개선을 촉진하는 학습 평가와 진급 및 선발을 위한 성과 정보 사용의 경쟁적 긴장 사이에서 균형을 찾는 것은 의학교육 커뮤니티의 과제로 남아 있습니다.38,65 이 성적 변경이 하위 인턴십 학습과 레지던트 배치에 미치는 영향을 더 명확히 밝혀내면 교육자들은 이 균형을 더 잘 조정할 수 있을 것입니다.
 Although students heard attendings fear devaluation of excellence with less emphasis on summative assessment, there were not specific examples of how excellence would be compromised. In fact, removal of high-stakes clerkship exams at one institution did not affect average student performance on the Step 2 CK licensing examination.68 Study of learning cultures across professions suggests that a culture replete with formative feedback better promotes excellence.69,70 Seeking balance between competing tensions of assessment for learning, which fosters feedback and improvement, alongside the use of performance information for advancement and selection remains a challenge for the medical education community.38,65 Further elucidating the effects of this grading change on sub-internship learning and residency placement – two areas of widespread concern for students – will allow educators to better calibrate this balance.

이 연구에는 한계가 있습니다. 데이터는 등급 체계가 전환되는 [과도기 동안 단일 기관]에서 수집한 것이므로 결과의 이전 가능성을 제한할 수 있습니다. 참가자 중 소수만이 우등 성적의 핵심 서기직을 경험한 적이 있었지만, 이러한 경험이 없는 학생들은 모두 성적 시스템 간의 유사점과 차이점에 대해 자발적으로 이야기했습니다. 많은 참가자들은 하나의 모집 이메일에 응답한 [편의 표본]으로 선정되었습니다. 이번 조사 결과는 학생들의 경험을 종합적으로 검토한 것이 아니라 의대생들의 초기 주제에 대한 탐색을 제시하지만,46 이후 응답자 또는 [모집 이메일에 응답하지 않은 학생]들은 평가 변화에 대해 덜 호의적인 인식을 포함하여 다른 인식을 갖고 있을 가능성이 있습니다. 연구 참여자의 인종 및 관심 전문과목 인구통계학적 특성은 더 큰 규모의 의과대학 학생 집단과 비교하기 어려웠지만, [인구통계학적 특성에 따른 학생들의 서술은 미미한 차이]를 보였습니다(유일하게 주목할 만한 차이점은 절차적 전문과목에 관심이 있는 학생들 사이에서 레지던트 선택과 관련하여 잠재적으로 더 큰 우려를 나타냈다는 점입니다). 이 연구는 평가 시스템의 변화를 평가한 것이므로 성적 변경과 피드백 변경의 효과를 완전히 파악할 수는 없었습니다. 마지막으로, 이 연구는 시험 점수나 레지던트 배치와 같은 결과 측정보다는 학생의 인식에 초점을 맞추었습니다. 이 연구의 강점으로는 신뢰성을 높이기 위한 심층 인터뷰와 구성원 확인, 반성적 사고에 대한 관심, 독자가 다른 상황으로의 전이 가능성을 평가할 수 있도록 맥락, 응답 및 주제에 대한 자세한 설명이 있습니다.71
This study has limitations. Data were from a single institution during a transitional period between grading systems, potentially limiting transferability of results. Only a minority of participants had experience in honors-graded core clerkships, though students without this experience all spontaneously spoke about perceived similarities and differences between grading systems. Many participants were a convenience sample of volunteers who responded to a single recruitment email. While our findings present an initial exploration of themes from medical students rather than a comprehensive review of student experiences,46 it is possible that later responders or students who did not respond to our recruitment email may hold different – including less favorable – perceptions of the assessment change. While the racial and specialty-of-interest demographics of our study participants were difficult to compare with those of the larger medical school class, we noted minimal differences in students’ narratives based on their demographics (the only notable difference being potentially greater concerns surrounding residency selection among students interested in procedural specialties). This study evaluated a change to the assessment system and as such effects of the grading change and feedback change could not be fully disentangled. Finally, this study focused on student perceptions rather than outcome measures, such as exam scores or residency placement. Strengths of the study include in-depth interviews and member checking to enhance credibility, attention to reflexivity, and detailed descriptions of the context, responses, and themes to enable readers to assess transferability to other contexts.71

우리의 연구는 핵심 임상술기에서 형성적 피드백을 강화한 합격/불합격 채점이 어떻게 학생의 임상술기 및 환자 치료에 대한 참여를 촉진할 수 있는지를 보여주었습니다. 학생들은 내재적 동기를 크게 느꼈으며 웰빙에 대한 채점 변경의 이점을 인지했습니다. 3년차 서클럭십 이후 핵심 서클럭십 채점이 학생 성과에 미치는 영향을 이해하려면 추가 연구가 필요합니다. 이번 연구 결과는 학부 의료기관이 학생의 학습 경험을 최적화하기 위해 어떤 방식으로 서클럭십 평가를 시행할지 결정하는 데 도움이 될 수 있습니다.
Our study illustrated how pass/fail grading with increased formative feedback in core clerkships can facilitate students’ engagement in clerkships and patient care. Students felt significant intrinsic motivation and perceived benefits of the grading change for wellbeing. Further study is needed to understand the effects of core clerkship grading on student performance following third-year clerkships. Our findings can inform how undergraduate medical institutions choose to implement clerkship assessment in order to optimize student learning experiences.


Teach Learn Med. 2021 Jun-Jul;33(3):314-325. doi: 10.1080/10401334.2020.1847654. Epub 2020 Nov 24.

From Grading to Assessment for Learning: A Qualitative Study of Student Perceptions Surrounding Elimination of Core Clerkship Grades and Enhanced Formative Feedback

Affiliations collapse

1Internal Medicine, NewYork-Presbyterian Hospital, Columbia University Irving Medical Center, New York, New York, USA.

2University of California, San Francisco School of Medicine, San Francisco, California, USA.

3Department of Medicine, University of California, San Francisco, California, USA.

PMID: 33228392

DOI: 10.1080/10401334.2020.1847654


Problem: Medical students perceive honors grading during core clerkships as unfair and inequitable, and negatively impacting their learning and wellbeing. Eliminating honors grading, a powerful extrinsic motivator, and emphasizing formative feedback may address these problems and promote intrinsic motivation and learning. However, it is unknown how transitioning from honors to pass/fail grading with enhanced formative feedback in the core clerkship year may affect student learning experiences, wellbeing, and perceptions of the learning environment. Intervention: Core clerkship grading was transitioned from honors/pass/fail to pass/fail at one US medical school. In addition, the requirement for students to obtain formative supervisor feedback was formalized to twice per week. Context: This qualitative study utilized semi-structured interviews to explore the perceptions among core clerkship students of learning and assessment. Interview questions addressed motivation, wellbeing, learning behaviors, team dynamics, feedback, and student and supervisor attitudes regarding assessment changes. The authors analyzed data inductively using thematic analysis informed by sensitizing concepts related to theories of motivation (goal orientation theory and self-determination theory). Impact: Eighteen students participated, including five with experience in both honors-eligible and pass/fail clerkships. The authors identified three major themes in students' descriptions of the change in approach to assessment: student engagement in clerkships, wellbeing, and recognition of learning context. Student engagement subthemes included intrinsic motivation for patient care rather than performing; sense of agency over learning, including ability to set learning priorities, seek and receive feedback, take learning risks, and disagree with supervisors, and collaborative relationships with peers and team members. Positive wellbeing was characterized by low stress, sense of authenticity with team members, prioritized physical health, and attention to personal life. Learning context subthemes included recognition of variability of clerkship contexts with pass/fail grading mitigating fairness and equity concerns, support of the grading change from residents and some attendings, and implications surrounding future stress and residency selection. Lessons Learned: Students perceive a transition from honors grading to pass/fail with increased feedback as supporting their engagement in learning, intrinsic motivation, and wellbeing. Drivers of wellbeing appear to include students' feelings of control, achieved through the ability to seek learning opportunities, teaching, and constructive feedback without the perceived need to focus on impressing others. Ongoing evaluation of the consequences of this shift in assessment is needed.

Keywords: Assessment; core clerkships; feedback; grading; motivation.


임상추론의 생태학적 설명(Acad Med, 2022)
An Ecological Account of Clinical Reasoning
Bjorn K. Watsjold, MD, MPH, Jonathan S. Ilgen, MD, PhD, and Glenn Regehr, PhD


보건 전문직 교육에서 임상 추론을 구성하고 더 잘 이해하기 위해 수많은 구조가 사용되었습니다. 이러한 문헌에서 임상 추론은 일반적으로 [일반적인 기술] 또는 [특정 지식의 적용]이라는 두 가지 방식 중 하나로 개념화됩니다. 1

  • 임상 추론을 [일반적인 기술]로 정의한 사람들은 임상 추론을 일반적인 문제 해결 과정으로 설명하거나,2,3 메타인지,4 이중 과정 이론,5-8 또는 휴리스틱과 편견과 같은 [광범위한 인지 과정의 관점]에서 설명했습니다. 9-12 이러한 연구는 잠재의식과 의식적 사고가 추론 능력을 형성하는 방식(일반적으로 종이 기반 임상 사례에서 정확도로 측정됨)을 정교화했으며, [잠재적으로 사고 오류를 완화할 수 있는 접근법]을 제안했습니다.
  • 이와는 대조적으로, 다른 저자들은 임상 추론에서 일반화 가능한 프로세스보다 [특정 지식의 적용]이 더 중요할 수 있다고 제안했습니다. 추론을 일반적인 접근 방식이 아닌 지식 구조의 정교화와 적용으로 보는 프레임워크13에서는 질병 스크립트,14 스키마,15 및 예시 1,16와 같은 고급 개념을 사용하여 숙련된 임상의가 이러한 임상 경험을 초심자와 중요하게 구별되는 방식으로 처리하는 이유를 설명합니다.

Numerous constructs have been used to frame and better understand clinical reasoning in health professions education. Across this literature, clinical reasoning is generally conceptualized in 1 of 2 ways: as a general skill or as the application of specific knowledge. 1 

  • Those who have framed clinical reasoning as a general skill have described it either as a process of general problem solving 2,3 or in terms of broad cognitive processes such as metacognition, 4 dual process theory, 5–8 or heuristics and biases9–12 This body of work has elaborated the ways in which subconscious and conscious thinking shape reasoning performance—typically measured as accuracy on paper-based clinical cases—and has suggested approaches that could potentially mitigate errors in thinking.
  • In contrast, other authors have suggested that the application of specific knowledge may be more important than generalizable processes in clinical reasoning. Framing reasoning as the elaboration and application of knowledge structures rather than general approaches, 13 this work has advanced concepts such as illness scripts, 14 schemas, 15 and exemplars 1,16 as a means of explaining why experienced clinicians seem to work through these clinical experiences in importantly distinct ways from novices.

이 두 가지 프레임워크의 차이점에도 불구하고, 두 프레임워크의 핵심은 개인이 업무 현장에서 임상 문제를 해결하는 방법을 이해하는 수단으로 널리 알려진 [인지주의적 정보 처리(IP) 이론 패러다임]과 일치합니다. 이 IP 패러다임에서는 추론을 정보를 받아들이고, 고려하고, 행동을 선택하는 데 사용하는 과정으로 [개인 내부에 위치]합니다. 이처럼 [개인의 주체성에 중점]을 두기 때문에 이 과정에서 [컨텍스트는 기껏해야 부차적인 고려 사항]으로 취급됩니다. 즉, 맥락은 근본적인(탈맥락화된) 인지 과정을 밝히기 위해 [평균을 내야 하는 잡음]으로 간주되거나, [추론에 영향을 미치는 특정 외부 요인](예: 시간 압박, 빨리 또는 천천히 일하라는 특정 지시, 방해, 환자의 복잡성을 모방한 다양한 조건)으로 구성됩니다. 5,19-23 이러한 의미에서 맥락은 추론 과정(그리고 이를 연구하는 우리의 능력)에 영향을 미치는 복잡한 요소로 간주되지만 추론 과정 자체에 필수적인 요소로 간주되지는 않습니다.
Despite the differences in these 2 framings, at their core, both align with the prevailing cognitivist paradigm of information processing (IP) theory as the means for understanding how individuals tackle clinical problems in their workplace. This IP paradigm locates reasoning within the individual as a process in which information is received, considered, and used to select actions. Because of this heavy focus on individual agency, context is given, at most, secondary consideration in the process. That is, context is framed either as noise that must be averaged across to uncover the underlying (decontextualized) cognitive process or as a set of specific external factors that have influences on reasoning, 17,18 such as time pressure, specific instructions to work quickly or slowly, interruptions, and a variety of conditions that mimic patient complexity. 5,19–23 In this sense, context is seen as a complicating factor that affects the reasoning process (and our ability to study it), but is not seen as integral to the reasoning process itself.

[피할 수 없는 맥락의 영향]이 점점 더 분명해지면서, IP 패러다임의 연구자들은 전문 지식의 복잡성에 대한 맥락의 잠재적 기여를 이해하고 임상의가 맥락에 따라 다르게 보이는 이유를 설명하기 위해, [추론 과정에 대한 맥락의 영향]을 보다 명확하게 다루기 시작했습니다.

  • 임상 추론 평가는 처음에는 단일 사례의 변형인 항목 간의 제한된 수행 상관관계를 이해하기 위한 수단으로 [사례 특이성]이라는 좁게 정의된 문제로 어려움을 겪었습니다. 25
  • 이 정의는 후속 연구에서 [개별 문제 해결의 성공은 특정 내용 지식과 상관관계가 있지만, 동일한 내용 지식을 대상으로 하는 다른 질문에 대한 답의 성공은 상관관계가 낮다]는 사실이 밝혀짐에 따라 [내용 특이성]으로 확장되었습니다. 3,13,26
  • 이러한 결과는 [임상의가 정보를 저장하고 검색하는 방식]을 보여주는 것으로 해석되었으며, 이는 [문제와 관련이 없어 보이는 외부 요인(맥락)이 저장 및 검색에 어떤 영향을 미칠 수 있는지에 대한 가설]을 불러일으켰습니다. 그 결과 이 분야는 [맥락 특이성]에 초점을 맞추게 되었습니다. 25,27,28
  • 그러나 IP 추론 모델에 통합해야 하는 수많은 [고유한 맥락적 요인이 본질적으로 무한하다는 것]이 인식되면서 이러한 접근 방식은 부담스러워졌습니다. 29 따라서 어떤 맥락의 특징을 [신호와 잡음]으로 구분해야 하는지,28 그리고 이러한 요소가 진료 환경에서 다양한 인적 및 물적 자원과 씨름하는 임상의의 사고 과정에 어떤 영향을 미칠 수 있는지 판단하는 것이 어려워졌습니다.

As the unavoidable influence of context became increasingly apparent, 24 researchers in the IP paradigm began to more explicitly address the effect of context on the reasoning process, both to understand its potential contributions to the complexity of expert knowledge and to explain why clinicians seemed to perform differently in different contexts.

  • The assessment of clinical reasoning initially grappled with a narrowly defined problem of case specificity, as a means to understand the limited correlations of performance between items that were variants of a single case. 25 
  • This definition expanded to content specificity as subsequent studies showed that success in solving individual problems correlated with specific content knowledge, but that success in answering different questions targeting the same content knowledge correlated poorly. 3,13,26 
  • These findings were interpreted as a manifestation of how clinicians stored and retrieved information, and this prompted hypotheses as to how external factors seemingly unrelated to the problem—the context—might influence storage and retrieval. This, in turn, shifted the field toward a focus on context specificity25,27,28 
  • However, the approach became overwhelming as the multitude of idiosyncratic contextual factors that would have to be incorporated into IP models of reasoning were recognized to be essentially limitless. 29 It thus became difficult to determine which features of context should be signal versus noise 28 and how these factors might influence the thought processes of clinicians as they grapple with variations of human and material resources in their practice settings.

따라서 최근 의료 전문직 교육 분야의 많은 저자들은 임상 추론에서 맥락의 역할을 더 잘 설명하려면 임상의와 환경이 서로 상호 작용하고 형성하는 방식을 더 잘 설명하기 위해 이러한 [프로세스에 대한 개념화의 전환]이 필요하다고 제안했습니다. 21-30 [개인, 맥락, 당면한 목적 또는 과제 간의 역동적인 상호작용과 적합성을 문제화]하는 추론에 대한 [생태학적 설명]은 보건 전문직 교육자와 연구자가 이러한 현상을 이해하고 탐구하는 방법에 대한 새로운 언어를 제공할 수 있습니다. 따라서 이 비판적 검토에서는 생태심리학의 렌즈를 통해 임상적 추론을 재구상하고, 이러한 개념적 전환이 임상 수행의 맥락별 발현을 이해하는 새로운 방법과 개인과 환경이 상호 작용하는 양방향 방식을 어떻게 가능하게 하는지를 다루는 것을 목표로 합니다.
Thus, recently, many authors in health professions education have suggested that to better account for the role of context in clinical reasoning requires a shift in our conceptualizations of these processes to better account for the ways in which clinicians and their environments interact and shape one another. 21–30 Ecological descriptions of reasoning that problematize the dynamic interactions and fit between an individual, their context, and the purpose or task at hand may provide a new language for how health professions educators and researchers can understand and explore these phenomena. Therefore, this critical review aims to reimagine clinical reasoning through the lens of ecological psychology, addressing how this conceptual shift enables new ways of understanding context-specific manifestations of clinical performance, and the bidirectional ways in which individuals and their environments interact.


이 비판적 검토31,32에서는 생태 심리학 분야의 기초 및 최신 문헌을 바탕으로 보건 전문직 교육 문헌에 제시된 임상적 추론과 맥락의 개념을 탐구합니다. 우리는 맥락 특이성과 임상적 추론의 개념이 [전통적인 인지주의 또는 IP 패러다임]이 아닌 [다른 인지 이론]에서 어떻게 이해될 수 있는지 탐구하고자 했습니다. 현재 이론에 대한 논의가 진행 중인 경우, 현재 이해를 종합하고 생물학 및 인류학에서 임상 대상자를 위한 사례를 번역했습니다. Google Scholar, PsychInfo, PubMed, ERIC 등의 데이터베이스 검색과 생태학 및 인지 심리학 분야의 저자들의 텍스트를 참고했습니다. 또한 소셜 미디어를 통해 해당 분야 전문가들과의 활발한 토론을 통해 종합적인 정보를 얻었습니다. 이 검색 전략은 본질적으로 재현할 수 없으며, 임상적 추론이나 생태 심리학에 대한 체계적 또는 광범위한 검토32를 제시하려는 의도가 아닙니다.
This critical review 31,32 draws upon foundational and current literature from the field of ecological psychology to explore the concepts of clinical reasoning and context as presented in the health professions education literature. We sought to explore how the concepts of context specificity and clinical reasoning might be understood from cognitive theories other than the traditional cognitivist or IP paradigms. Where theories are currently being debated, we have synthesized current understanding and translated examples from biology and anthropology for a clinical audience. Our sources included database searches such as Google Scholar, PsychInfo, PubMed, and ERIC, and texts by authors in the fields of ecological and cognitive psychology. Our syntheses have also been informed by active discussion with experts in the field using social media. This search strategy is inherently not reproducible, and our intent is not to present a systematic or scoping review 32 of clinical reasoning or ecological psychology.

저자들은 도시, 학계, 응급실에서 근무하는 응급의학과 의사 2명(B.K.W., J.S.I.)과 인지 심리학자 1명(G.R.)이며, 임상 추론 분야에서 광범위한 선행 연구를 수행했습니다(J.S.I., G.R.). 이를 통해 임상의사 저자들이 가장 경험이 많은 임상 추론의 적용 사례와 임상 추론의 기본 구성에 대한 정보를 제공하며, 임상의사와 임상 환경 간의 상호 작용을 이해하는 새로운 접근법을 제안합니다. 윤리적 승인은 해당되지 않는 것으로 보고되었습니다. 
The authors are 2 emergency physicians practicing in an urban, academic, emergency department (B.K.W., J.S.I.) and a cognitive psychologist (G.R.), and have undertaken extensive prior research in the field of clinical reasoning (J.S.I., G.R.). This informs the clinical practice examples, the application of clinical reasoning with which the clinician authors are most experienced, and the foundational constructs of clinical reasoning that have been used propose new approaches to understanding the interactions between clinicians and their clinical environments. Ethical approval was reported as not applicable.


상황성, 사회물질성, 및 "4E" 그룹(내재화, 구체화, 확장(분산), 제정된 인지)을 포함하여 맥락에서 인지를 설명하기 위해 보건 전문직 교육 문헌에서 다양한 이론이 발전해 왔습니다. 30,33,35,40 이러한 이론은 사소한 상호작용부터 인지가 맥락과 불가분의 관계에 있거나 심지어 맥락에서 나온다는 전제에 이르기까지, [인지가 맥락에 의해 영향을 받는 다양한 방식]을 반영합니다. 이러한 [주장들 사이의 차이점]은 이론가들이 [사고는 임상의의 머리(또는 마음)에서 감각적 입력이 이해와 행동적 출력으로 변환되는 것]이라고 주장하는 [IP의 기본 교리]를 얼마나 밀접하게 고수하는지에 있습니다. 4,30,41,42 이 [IP 패러다임]에서 [추론]은 일반적인 기술이든 지식 구조이든, [개인의 내부 역량, 기술 또는 정보]를 반영하며, 이는 [머리(또는 마음) 안에 있지만 임상의 외부 요인(예: 환경적 단서)에 의해 영향]을 받을 수 있습니다. 그러나 [[인지의 '내부' 과정]과 [환경의 '외부' 영향]을 분리함]으로써 맥락적 추론에 대한 이러한 IP 중심의 개념화는 관찰할 수 없는 인지 현상과 임상적 맥락의 수많은 특징을 조화시키려 할 때 어려움을 겪게 됩니다. 
A variety of theories have been advanced in the health professions education literature to describe cognition in context, including situativity, 33–36 sociomateriality, 37–39 and the “4E” group—embedded, embodied, extended (distributed), and enacted cognition. 30,33,35,40 These theories reflect a spectrum of ways in which cognition is influenced by context, from minor interactions to the premise that cognition is inextricably entangled with, or even emergent from, context. The differences between these claims lie in how closely theorists hold to the fundamental tenets of IP, which maintains that thinking is the transformation of sensory inputs into understandings and behavioral outputs within a clinician’s head (or mind). 4,30,41,42 Within this IP paradigm, reasoning—whether as a general skill or as knowledge structures—reflects an individual’s internal capacities, skills or information, which are housed within their head (or mind), but that can be influenced by factors (such as environmental cues) external to the clinician. Yet by separating the “inside” processes of cognition from the “outside” influences of an environment, this IP-centric conceptualization of contextualized reasoning presents challenges when we try to reconcile the unobservable phenomena of cognition with the innumerable features of clinical context.

[생태 심리학의 렌즈]를 통해 이러한 맥락적 문제를 바라보면, [유기체가 환경과의 상호 작용과 적응을 통해 생존하는 방식]을 고려함으로써 새로운 통찰력을 얻을 수 있습니다. 이 모델에서 [인지]는 일반적으로 [개인이 환경을 탐색하고 환경에 관여하는 과정에서 나타나는 자연스러운 현상]으로 간주되며, [개인의 머릿속에만 존재하는 것]이 아니라 [개인과 환경 사이의 연결 속에서 존재]합니다. 43,44 실제로 임상의에게 적용한다면, [추론에 대한 생태학적 관점]은 [추론을 가능하게 하거나 제약하는 영향]이 [임상의의 환경에 대한 적응]과 [임상의가 추론 과제를 수행하는 데 사용할 수 있는 환경 자원]의 함수라고 전제할 수 있습니다. 45 이 접근법은 임상에서 추론을 이해하고, 지원하고, 평가하는 방법에 대한 새로운 사고 방식을 제공합니다.
Viewing these contextual challenges through the lens of ecological psychology offers novel insights by considering how organisms survive through their interaction with, and adaptation to, their environment. In this model, cognition is generally considered an emergent phenomenon of individuals exploring and engaging with their environments, and it exists in the connections between individual and environment, not wholly within the individual’s head. 43,44 If applied to clinicians in practice, an ecological view of reasoning would presuppose that the enabling and constraining influences on reasoning are a function of the clinician’s adaptation to their environment and the environmental resources available to the clinician for accomplishing a reasoning task. 45 This approach offers new ways of thinking about how one might understand, support, and assess reasoning in clinical practice.

생태 심리학의 기원과 교리
The origins and tenets of ecological psychology

[생태 심리학]은 실용주의, 급진적 경험주의, 게슈탈트 심리학, 현상학 등 다양한 이론을 바탕으로 심리학자와 철학자가 지각과 행동을 이해하는 방법과 [유기체와 환경이 상호 작용하여 행동을 형성하는 방법]에 정보를 제공해준다. 46 이를 통해 어포던스, 효과성, 환경, 니치 등 [개인과 맥락 간의 상호작용을 설명하는 새로운 언어]를 제공합니다. 이 백서에서는 의료 전문가와 임상 환경과의 상호작용에 초점을 맞추기 때문에 일반적인 원칙을 설명할 때는 '개인'이라는 용어를, 사례를 설명할 때는 생태 심리학 문헌에서 흔히 볼 수 있는 '행위자' 또는 '유기체'라는 용어 대신 '임상의'라는 용어를 사용하기로 결정했습니다.
Ecological psychology draws upon multiple theories, including pragmatism, radical empiricism, Gestalt psychology, and phenomenology to inform how psychological scientists and philosophers understand perception and action, and how organisms and the environment interact to shape behavior. 46 In doing so, it provides a new language for describing interactions between an individual and their context, including affordance,effectivity,environment, andniche. As our focus in this paper is centered on health professionals’ interactions with their clinical environments, we have chosen to use the term “individual” when describing general principles and “clinician” when illustrating examples, rather than “agent” or “organism” as is commonly found in ecological psychology literature.

[의료 전문직의 임상 추론에 대한 초기 설명]에 따르면, 개인은 훈련과 사전 경험을 통해 얻은 기술과 지식을 상황에 적용합니다. 정보를 숙고할 때 개인은 자신의 지식이나 능력에 대한 제한에 의해 제약을 받습니다. 이러한 관점에서는 지식과 기술에 대해 상대적으로 [탈맥락화된 관점]을 가정하므로, 원칙적으로 [심부전에 대한 임상의의 이해]가 [다양한 환자에게 똑같이 유효해야 한다]거나 임상의가 [환자의 위치, 질병의 중증도 또는 장비의 변화에 관계없이 중심정맥관 삽입을 똑같이 능숙하게 할 수 있어야 한다]고 예측할 수 있습니다. 
In early accounts of clinical reasoning in the health professions, an individual brings skills and knowledge to an encounter that they have gained from training and prior experience. As they deliberate over information, the individual is constrained by limits on their knowledge or abilities. This perspective assumes a relatively decontextualized view of knowledge and skill, such that, in principle, it might predict that a clinician’s understanding of heart failure should be equally valid across a variety of patients, or that a clinician should be equally facile at placing a central line independent of changes in patient positioning, illness severity, or equipment.

생태심리학은 [특정 상황에서 개인이 수행할 수 있는 행동]을 나타내는 [이펙티비티]이라는 개념을 통해 이러한 탈맥락적 관점에 도전합니다. 47 [이펙티비티]는 개인의 기술이나 능력 그 이상으로, 개인이 적절한 상황에서 자신의 기술을 적용하여 할 수 있는 일을 설명합니다. 48

  • [이펙티비티]는 특정 기구를 잡을 수 있는 적절한 크기의 손과 같은 개인의 신체적 형태와 홍반이나 염색된 조직학 슬라이드를 정확하게 구별할 수 있는 색각과 같은 [신체적 능력]에 따라 달라집니다. 예를 들어, 색각의 불일치로 인해 일부 개인은 피부 검사를 통한 황달 진단과 같은 일부 효과를 얻지 못할 수 있습니다. 49
  • 그러나 [이펙티비티]는 [학습한 자료]에 따라서도 달라질 수 있습니다.
    • 즉 생리학, 약리학 또는 해부학에 대한 전임상 지식과 같은 [추상적 지식 구조]
    • 신체 검사, 병력 청취 또는 수술 기법 수행 방법과 같은 [절차적 지식]
  • 또한 [신체적 특성]과 [훈련]이 [상호 작용]하여 고유한 효과의 가능성을 창출합니다.
    • 예를 들어 색맹인 병리학자는 붉은 색이 아닌 세포의 구조나 염색의 밀도로 세포 유형을 구별하는 방법을 배울 수 있습니다. 49,50 마찬가지로 왼손이 우세한 사람은 우세한 손으로 오른손 가위를 사용하는 법을 배우거나 비우세한 손으로 가위를 사용하는 법을 배울 수 있으며, 두 경우 모두 오른손이 우세한 사람과 다르게 가위로 절단하는 효과를 학습하게 됩니다. 결과적으로 왼손잡이인 외과 수련의는 오른손잡이인 동료보다 양손잡이라고 보고할 가능성이 더 높지만, 이러한 기능적 양손잡이는 사실 수련의의 타고난 특성이라기보다는 외과 훈련의 산물일 수 있습니다. 51-54 

Ecological psychology challenges this decontextualized perspective through the notion of effectivities, which represent the actions an individual is able to perform in a specific context. 47 Effectivities are more than skills or abilities of the individual; they describe the things an individual can do by applying their skills under appropriate circumstances. 48 

  • Effectivities depend on the individual’s physical form, such as having hands appropriately sized to hold certain instruments, and physical capabilities, such as possessing color vision to accurately discriminate erythema or stained histology slides. Discrepancies in color vision, for example, may prevent some individuals from acquiring some effectivities, such as diagnosing jaundice by examination of the skin. 49 
  • However, effectivities also depend on learned material:
    • abstract knowledge structures such as preclinical knowledge of physiology, pharmacology, or anatomy, and
    • procedural knowledge such as how to conduct a physical examination, take a medical history, or perform a surgical technique.
  • Moreover, physical attributes and training will interact to create the possibility of unique effectivities.
    • For example, color-blind pathologists may learn to discriminate cell types by their structure or the density of staining rather than red color. 49,50 Similarly, a left-hand-dominant individual may learn to use right-handed scissors with their dominant hand, or learn to use scissors with their nondominant hand; in either case, these individuals learn the effectivity of cutting with scissors differently than right-hand-dominant individuals. As a result, surgical trainees who are left-dominant are more likely to report being ambidextrous than their right-handed colleagues, but this functional ambidexterity in context may, in fact, be a product of surgical training rather than an inherent trait of the trainee. 51–54

기술과 지식의 전문화된 하위 영역이 존재한다고 추측하여 위의 예를 IP 프레임워크 내에서 설명할 수도 있지만, 생태심리학은 더 나아갑니다. [이펙티비티]는 임상의에게 존재하는 [다양한 역량과 지식 구조]가 아니라, 임상의가 [특정 환경에 있을 때만 효과가 나타나는 것]으로 개념화되었습니다. 생태심리학 프레임워크에서 '환경'이라는 용어는 보통 [인공물, 구조물, 사람, 사회적 조건] 등 임상의의 주변 환경을 설명하지만, 임상의료행위를 가능하게 하는 [사람, 사물, 조건]을 구체적으로 설명할 때 임상 환경이 됩니다.

One could potentially account for the examples above within the IP framework by speculating the presence of specialized subdomains of skills and knowledge, but ecological psychology goes further. Rather than being an array of capabilities and knowledge structures present in the clinician, effectivities have been conceptualized as emerging only when the clinician is in a specific environment. The term “environment” in the ecological psychology framing describes the clinician’s surroundings, including artifacts, structures, people, and social conditions, but becomes the clinical environment when it specifically describes the people, objects, and conditions in place that enable clinical practice.

개인이 지식이나 능력을 가지고 있더라도, 이를 [상황에 맞게 적용하는 것]은 [특정 상황에서 가치 있는 효과로 나타나는 정도]를 결정하는 것은 [기회]이다. 이를 위해서는 [환경이 "동물에게 좋은 것이든 나쁜 것이든 동물에게 제공하거나 제공하는 것"]으로 정의되는 환경의 상호 보완적인 [어포던스]가 있어야 합니다. 55(p119) [어포던스]는 환경에 존재한다는 점에서 [이펙티비티]와 상호 보완적이지만, 환경이 적절한 [이펙티비티] 가진 개인과 함께 고려될 때만 가능합니다. [어포던스]는 [물체가 가진 크기, 무게, 강성]이 아니라, [적절한 이펙티비티를 가진 개체]가 [물체]와 함께 있을 때 가능해지는 '-able'한 특성(들어 올릴 수 있는, 흔들릴 수 있는)을 말합니다.

  • 예를 들어 [벽돌]을 건축 자재, 지렛대, 문고리 또는 에머리판으로 사용할 수 있는 방법을 생각해 보십시오.
  • 오브젝트 자체는 동일하지만, 각 용도에 따라 벽돌의 어포던스는 달라지며, 이는 개인이 벽돌을 각각의 고유한 용도에 맞게 사용할 수 있는 능력을 보유하고 있는지에 따라 달라집니다.
  • 한 걸음 더 나아가 벽돌을 주변 환경으로 확장하면, 대부분의 성인 인간에게는 위의 어포던스가 존재하는 반면, 그 아래 개미집의 경우 벽돌은 개미를 보호하고 안전하게 벌집을 드나들 수 있도록 해줍니다.

따라서 [어포던스]는 고유한 환경(이러한 조건에서 이 개인이 들어 올릴 수 있는)에서 개인의 [이펙티비티]를 반영하며, 환경 내에서 [특정 이펙티비티]를 가진 개인과 [특정 어포던스]의 결합으로 컨텍스트를 보다 정교하게 파악할 수 있습니다.
While an individual may have knowledge or abilities, it is the opportunity to apply these in context that determine the extent to which they manifest as valuable effectivities for a specific situation. For this to happen, there must be complementary affordances in the environment, defined as what the environment “offers the animal, what it provides or furnishes, either for good or ill.” 55(p119) Affordances are complementary to effectivities in that they are in the environment, but only available when the environment is considered alongside an individual with appropriate effectivities. An affordance is not the dimensions, weight, or rigidity of an object, but the “-able” quality (liftable, swingable) that is possible when an individual with appropriate effectivities is in conjunction with the object.

  • For example, consider the ways in which one might use a brick: as a building material, a cudgel, a doorstop, or an emery board.
  • While the object itself remains the same, each use represents a different affordance of the brick that is dependent on whether an individual possesses effectivities to use the brick for each unique purpose.
  • Extending this a step further, the brick must be considered in its environment: the above affordances are present for most adult humans, whereas for an ant colony beneath it, the brick affords protection and safe entry and egress from its hive.

Affordances thus reflect the effectivities of individuals in their unique environments (liftable by this individual under these conditions) and provide a more elaborated view of context as the conjunction of an individual with certain effectivities within an environment with certain affordances.

[임상 환경]은, 전자의무기록이 임상의가 정보에 액세스하는 방식부터 기기나 진단 테스트가 임상의의 문제 접근 방식을 형성하는 방식에 이르기까지, [다양한 형태]로 [잠재적 어포던스]를 제공합니다. 그러나 환경은 잠재적으로 상호 보완적인 이펙티비티를 가진 개인에게도 어포던스의 적절한 발현을 방해하는 장벽이 될 수 있습니다.

  • 예를 들어, 시끄러운 임상 환경은 미묘한 심장음이나 폐음을 청진하지 못하게 하거나, 임상의가 통역사를 통해 환자로부터 이야기를 이끌어낼 때 병력 청취와 관련된 효과를 구현하는 데 어려움을 겪을 수 있습니다.

생태학적 프레임워크에서 이러한 [맥락적 요인]은 관련 정보에 대한 임상의의 인식을 흐리는 [문자 그대로의 노이즈]와 임상의의 업무 수행 능력을 저해하는 [주관적 노이즈]를 모두 나타냅니다. 중요한 점은 어포던스가 환경에 따라 다르게 나타날 수 있으며, 벽돌의 스타일이 다른 것처럼 지혈기의 모양, 임상 소프트웨어의 변형 또는 다양한 진료 환경에서 접할 수 있는 알고리즘의 스펙트럼이 다를 수 있다는 점입니다. [새로운 환경에 발을 들여놓은 임상의]는 [익숙하지 않은 어포던스]를 인식하는 법을 배울 수 있으며, [적응적 전문성 프레임워크]를 통해 볼 때 새로운 맥락에 동화되고 행동 체계를 학습하는 데 점점 더 능숙해질 수 있습니다. 생태심리학은 임상적 추론이 시행되는 특정 환경에서 [어포던스]에 대한 [이펙티비티]의 적용을 제한하는 제약을 탐구하는 수단을 제공합니다. 따라서 베이츠와 엘러웨이가 제안한 바와 같이, 생태심리학에서의 '전이'

  • [다양한 상황에 기술을 적용하기 위한 학습을 가져오는 문제]라기보다는,
  • [자신의 잠재적 이펙티비티와 환경의 잠재적 어포던스를 일치시킬 수 있는 기회를 인식하는 문제]라고 정의할 수 있습니다. 29,58,59

The clinical environment offers potential affordances in many forms, from the ways that electronic medical records influence how clinicians access information to the ways that instruments or diagnostic tests shape clinicians’ approaches to problems. However, the environment may present barriers that prevent the appropriate manifestation of an affordance even for an individual with potentially complementary effectivities.

  • A noisy clinical environment may, for example, preclude auscultation of subtle heart or lung sounds, or a clinician may have difficulty enacting their effectivities pertaining to history taking when eliciting narratives from a patient via an interpreter.

In an ecological framework, these contextual factors represent both literal noise that obscures the clinician’s perception of relevant information and subjective noise that impairs their ability to accomplish the task. Importantly, affordances may also have different appearances in different environments, and just as there are different styles of brick, there may be different shapes of hemostats, variations in clinical software, or a spectrum of algorithms that one could encounter across various practice environments. A clinician who steps into a new environment may learn to recognize unfamiliar affordances, and when viewed through an adaptive expertise framework, 56,57 become increasingly adept at assimilating into new contexts and learning systems of action. Ecological psychology provides a means of exploring the constraints that limit the application of effectivities to affordances in a particular environment where clinical reasoning is being enacted. Thus, as suggested by Bates and Ellaway, ecological psychology would frame “transfer”

  • less a matter of bringing learning to apply one’s skills to a variety of situations, and
  • more a matter of recognizing the opportunities for matching one’s potential effectivities with potential affordances in the environment. 29,58,59


실천의 체계: 시간이 지남에 따라 컨텍스트가 발전하는 방식
Systems of practice: How context develops over time

[생태 심리학]의 패러다임 내에서 맥락을 구성하면 시간이 지남에 따라 전문 지식의 진화와 제정에 대한 우리의 이해도 달라집니다. [생태학적 프레임워크]는 [개인과 환경 간의 상호작용이 끊임없이 변화하고 서로에게 양방향 변화를 일으킨다]는 것을 시사합니다. 개인은 [환경의 잠재적 어포던스]에 [자신의 이펙티비티]를 적응시킬 뿐만 아니라, [잠재적 이펙티비티]에 맞게 [환경을 형성]하기도 합니다. 동시에 환경은 [환경에 포함된 어포던스]에 따라 [어떤 개인을 다른 개인보다 더 많이 초대하고 지원]합니다. 깁슨은 이러한 [특화된 개인-환경 시스템]을 개인이 환경에 서식하는 방식을 포괄하는 구조인 [니치niche]라고 불렀습니다. 진화론적 자연 선택 이론을 차용하고 이를 정교화함으로써, [니치 구성]시간이 지남에 따라 [니치가 발전하는 과정]을 설명합니다. 예를 들어, [동물의 가축화]는 [제약 조건에 대한 적응]이 아니라 [초기 인류가 새로운 자원과 어포던스에 접근할 수 있는 기회]로 활용되었습니다. 이러한 혁신으로 인해 초기 사회의 성격이 바뀌었고, 인간은 [새롭게 이용 가능한 어포던스]를 활용하기 위해 환경을 계속 변화시켰습니다. 65 인간은 [인공물과 구조물을 만들거나 풍경을 리모델링]함으로써, [새롭거나 더 써먹기 쉬운 어포던스를 형성]하고 [부정적인 어포던스나 위험 요소]를 제거했습니다. 이러한 변화는 ['엔지니어링된 세계']를 만들어냈고, 64 미래의 개인에게 [환경에 서식하는 특정 방법]을 가능하게 하는 [물리적 구조와 문화적 관행]을 물려주었습니다. [현재 우리가 의존하는 어포던스]는 [수천 년에 걸친 문화 발전의 산물]로, 우리 각자가 사는 니치 환경은 ['자연적' 환경으로부터 한 층, 한 층 제거]해오고 있습니다. [니치 구성]의 개념을 임상 실무로 확장하면 임상의와 진료 환경이 시간이 지남에 따라 임상의-환경 시스템의 제약에 상호 적응하는 영향을 인식할 수 있다는 점에서 [니치 구성]의 사례로 [전문화]와 [지역화]를 살펴볼 수 있습니다.
The construction of context within the paradigm of ecological psychology also shifts our understanding of the evolution and enactment of expertise over time. The ecological framing would suggest the interactions between individuals and the environment are constantly changing and causing bidirectional change in each other. Individuals not only adapt their effectivities to the potential affordances of their environments but also shape those environments to their potential effectivities. At the same time, environments invite and support some individuals over others by the affordances they contain. Gibson called this specialized individual–environment system a niche, a construct that encompasses how individuals inhabit an environment. 55(pp120–121),60(p35) Borrowing from and elaborating upon evolutionary theories of natural selection, 61–64niche construction describes the development of a niche over time. As an example, animal domestication was not an adaptation to a constraint, but instead was used by early humans as an opportunity to access new resources and affordances. The nature of these early societies was changed by this innovation, and humans in turn continued to alter their environments to exploit newly available affordances. 65 By building artifacts and structures, or remodeling the landscape, humans shaped new or more easily grasped affordances and removed negative affordances or hazards. These changes created an “engineered world,” 64 providing future individuals with an inheritance of physical structures and cultural practices that enable specific ways to inhabit their environments. The affordances we rely upon are the products of millennia of cultural development, such that we are layers and layers removed from the “natural” environment in our respective niches. Extending the notion of niche construction to clinical practice enables one to explore specialization and regionalization as instances of niche construction, in that we may recognize the influences of clinicians and practice environments mutually adapting over time to constraints in the clinician–environment system.

[전문화]는 [문화적 분화]의 한 형태로, [특정 이펙티비티에 대한 잠재력을 훈련]하고, 진료 니치 시장의 발달에 따라 [다양한 어포던스]에 주의를 기울입니다. [전문화]는 [특정 전문의에게 필요한 이펙티비티]를 훈련하는 데 [필요한 지식과 실습의 범위]와 [어포던스의 범위]를 좁혀 의사 [교육과 실습의 효율성]을 높일 수 있습니다. [전문 분야]는 해당 전문 분야에 가장 적합한 임상 문제, 이러한 임상 문제에 대한 접근 방식, 이러한 접근 방식을 개선하고 새로운 치료 방식을 제공하기 위한 연구, 그리고 많은 경우 [진료를 최적화하기 위한 특정 도구와 건축 구조]를 자체적으로 개발하는 [진료 니치]로 간주될 수 있습니다. [니치]라는 개념을 통해 [전문 분야의 이펙티비티]를 [그룹화]하고, 넓은 의미에서 [임상 치료의 다양한 어포던스]가 환자를 돌볼 때 [서로 다른 도구]뿐만 아니라 [서로 다른 우선순위]를 제공하는 방법을 이해할 수 있습니다. 
Specialization is a form of cultural differentiation, training the potential for specific effectivities and attending to different affordances based on the development of practice niches. It allows for efficiencies in physician training and practice by narrowing the array of affordances, and the knowledge and practice needed to train necessary effectivities, for any given specialist. A specialty can be considered a practice niche, which will develop its own panel of clinical problems to which the specialty is best suited, approaches to these clinical problems, research to refine these approaches and provide new modalities of treatment, and in many cases, specific tools and architectural structures to optimize practice. The concept of a niche allows us to group the specialty’s effectivities, and in broad terms understand how the various affordances in clinical care will not only provide different tools, but different priorities when caring for patients.

[체액 과부하]는 신장 전문의, 심장 전문의, 호흡기 전문의에게 [각기 다른 임상적 실체]이며, 각 전문의는 [이뇨제]와 같은 일부 [도구를 공유]하지만, 선택한 장기 시스템에 문제가 생겼을 때 투석, 기계식 풍선 펌프, 양압 인공호흡기와 같은 [고유한 도구를 사용]합니다. 극단적으로는 "망치만 있으면 모든 것이 못처럼 보인다"는 매슬로우의 망치 법칙("도구의 법칙")으로 요약할 수 있습니다. 특정 이펙티비티를 가능하게 하는 도구의 사용을 포함하여, [특정 이펙티비티에 대해 훈련받은 전문가]는, 다른 사람보다 더 쉽게 인식하고 파악하도록 훈련받은 특성으로 인해, [특정 어포던스에 편향]되어 있습니다. 임상의 환경 시스템 내에서 임상의의 [전문 분야]는 임상의가 [특정 임상 문제에 접근하고 해결하려고 시도하는 방식]을 형성하는 [고유한 이펙티비티]를 나타냅니다. 환자의 임상 문제와 그에 따른 어포던스를 완전히 파악할 수 없는 경우 적절한 전문가에게 환자를 의뢰하거나 상담을 통해 치료를 지원함으로써 이러한 초점을 장려하고 강화할 수 있습니다.

Fluid overload is a different clinical entity for a nephrologist, cardiologist, and pulmonologist, each of whom shares some tools, such as diuretics, and yet brings unique tools, such as dialysis, mechanical balloon pumps, and positive pressure ventilation, when their chosen organ system fails. At the extreme, this is encapsulated in Maslow’s Hammer (“the law of the instrument”), “If all you have is a hammer, everything looks like a nail.” Specialists trained with certain effectivities, including the use of tools that enable specific effectivities, are biased toward certain affordances by the nature of having been trained to perceive and grasp them more readily than others. Within the clinician–environment system, a clinician’s specialty will present a unique array of effectivities that will shape how that clinician approaches and is likely to try to solve a specific clinical problem. This focus is encouraged and reinforced by referring patients to or consulting appropriate specialists to assist in care when the patient’s clinical problem and the affordances it presents aren’t fully within our grasp.

[지역화]는 [환경적 차이로 인해 진료 패턴이 차별화되는 것]으로, [동일한 전문 분야]의 [두 니치 시장]이 [유사한 임상 문제]를 해결하기 위해 [서로 다른 이펙티비티와 어포던스에 의존]할 수 있습니다. [지역화]는 [지역적 요인]으로 인해 [지역 특이적 압력]이 발생하여, [진료 니치 시장을 차별화]할 때 발전합니다. 66 전문직 협회, 면허 위원회 및 법적 환경은 진료 표준을 유지하려고 노력하지만, [서로 다른 진료 니치 시장]에서 전문의마다 [소속되었던 기관]에서 [받은 교육이 다양하고, 이용가능한 자원과 기술이 다양]하기 때문에, 전문 분야의 [이펙티비티를 적용]하는 데 제약이 있습니다. 이로 인해 임상 문제에 대한 [접근 방식이 지역화]되어, 같은 전문 분야 내에서도 [환경마다 다른 솔루션의 우선순위가 달라질] 수 있습니다.

  • 고도로 도시화된 전문 치료 센터의 경우, 심근경색과 뇌졸중 치료는 하위 전문 분야 교육을 받은 임상의의 가용성뿐만 아니라 혈관 내 치료를 위한 추가 도구를 통해 지원됩니다.
  • 원격 시설의 임상의는 이러한 환자를 치료하는 데 있어 다양한 어포던스에 직면하게 되며, 적절한 임상적 결정은 전문 치료 센터에서 내린 결정과 상당히 다를 수 있습니다.
  • 또한 지역 및 지역 의료 시스템의 결정에 따라 [자원]을 [고비용 검사 및 치료 방식에 차별적으로 배정]함으로써 치료에 영향을 미칠 수 있으며, 이는 다시 지역별로 최적의 치료가 무엇인지에 영향을 미칩니다.

[특정 지역의 니치 시장]에서 훈련받거나 경험이 풍부한 임상의는 [환자 요인]뿐만 아니라 [클리닉, 병원, 의료 시스템, 규제 요인]에 따라 진료에 사용할 수 있는 [어포던스]가 달라지므로, [새로운 니치 시장]으로 이동하는 데 상당한 조정이 필요할 수 있습니다.

Regionalization is a differentiation of practice patterns due to environmental differences, such that 2 niches of the same specialty may rely upon different effectivities and affordances to solve similar clinical problems. Regionalization evolves when local factors produce idiosyncratic pressures that lead to differentiation of practice niches. 66 While specialty professional associations, licensing boards, and legal landscapes try to maintain standards of care, specialists in separate practice niches bring variations in training from home institutions and have access to varying resources and technology that constrain how they can apply the specialty’s effectivities. This leads to localization of approaches to clinical problems such that different environments may prioritize different solutions even within the same specialty.

  • In highly urbanized specialized care centers, care of myocardial infarction and stroke are supported not only by the availability of subspecialty trained clinicians but also with additional tools for endovascular care.
  • The clinician in a remote facility faces a different array of affordances to care for these patients, and appropriate clinical decisions may appear quite different from those made at the specialized care center.
  • Local and regional health system decisions may also influence care by directing resources differentially toward or away from high-cost testing and treatment modalities, again affecting what qualifies as optimal care by region.

Clinicians trained or experienced in one regional niche may require significant adjustment moving into a new niche, as the affordances available to direct their care depend not only on patient factors but also on clinic, hospital, health system, and regulatory factors.

[전문화]와 [지역화]는 특정 임상의의 이펙티비티를 형성하여, [진료 니치 시장]을 정의하는 데 상호 작용하여 [진료 방법과 대상에 대한 제약]을 만들어낸다. 이러한 의미에서 [맥락]은 [즉각적인 상황]뿐만 아니라, 개인과 환경을 형성한 [문화적, 역사적 과정]도 반영합니다. 동시에, [기존의 니치 시장]에 [새로운 임상의]가 도입되면, [(기존의) 표준 관행을 파괴]하고 집단적 제공자-환경 니치 시장을 발전시키는 방식으로 [맥락을 재구성할 수 있는 기회]를 제공합니다.
Specialization and regionalization interact in defining practice niches by molding the effectivities of a given clinician, introducing constraints regarding how and to whom they provide care. In this sense, context reflects not only the immediate picture but also the cultural and historical processes that shaped both that individual and environment. At the same time, the introduction of a new clinician to an established niche offers opportunities to disrupt standard practices and reshape the context in ways that evolve the collective provider–environment niche.


보건 전문직 교육에서 임상 성과에 대한 이해에서 [맥락의 위치를 재고해야 한다]는 요구와 노력이 증가하고 있습니다. 그러나 이러한 노력 중 상당수는 [개인]과 [그 개인이 행동하는 맥락]을 [이분법적]으로 구분해 왔습니다. 생태심리학은 임상 성과를 이해하기 위한 기본 분석 단위로 통합된 개인-환경 시스템을 가정함으로써 이 문제에 대한 새로운 관점을 제시합니다. 이러한 관점은 [맥락 특이성]을 [인간 인지를 이해하는 데 있어 복잡하게 만드는 요소]가 아니라, [관심의 중심 현상]으로 재배치하고, 이를 이해할 뿐만 아니라 [탐색하고 관리할 수 있는 개념적 도구]를 제공합니다. [니치 구성]이라는 개념을 통해 [맥락 특이성]이 [전문가가 극복해야 하는 한계]가 아니라 [전문가가 내재되어 있고, 환경 속에서 전문가가 성과를 낼 수 있는 기반]이라는 점을 이해할 수 있습니다. 전문가들은 잠재적 효과를 지역적, 역사적 어포던스에 맞게 조정하고 환경의 어포던스를 재구성하여 자신의 업무를 최적화합니다.
In health professions education, there have been growing calls and efforts to reconsider the place of context in our understanding of clinical performance. 18,29,30,33 Yet many of these efforts have continued to dichotomize the individual and the context in which that individual is acting. Ecological psychology offers a new perspective on this challenge by postulating an integrated individual–environment system as a basic unit of analysis for understanding clinical performance. This perspective repositions context specificity not as a complicating factor in understanding human cognition, but rather as the central phenomenon of interest, and gives us conceptual tools not only to understand it but also to explore and manage it. The concept of niche construction allows us to appreciate how context specificity is not a limitation that experts try to overcome, but a firmament in which experts are embedded and which enables their performance in an environment. Experts attune potential effectivities to local, historical affordances and reshape the environment’s affordances to optimize their practice.

[니치 구성]을 [이펙티비티 및 맥락적으로 고유한 환경 어포던스]를 [체계적으로 활용하고 적응하는 종단적 프로세스]로 정의하면 [재현 가능하고 이전 가능한 임상 문제에 대한 전문가 솔루션이 있다]는 [HPE의 일반적인 가정]에 도전할 수 있습니다. 문헌의 풍부한 데이터는 전문가들이 실제로 진료에 대한 [획일적인 전문가 접근 방식으로 수렴하는 경향이 없음]을 시사합니다. [임상적]으로 수술실에서는 외과의의 선호도와 접근 방식에 [특이한 변동성]이 있다는 증거가 있습니다. 67 

  • 전문 외과의가 영상에서 유사한 특징을 발견하더라도 [동일한 수술 계획이나 관리 전략에 도달하지는 않습니다]. 68
  • 전문 피부과 의사는 다른 전문 피부과 의사가 어떤 오류를 범할지 예측할 수 없기 때문에 [공통된 진단 프로세스에 대한 통합]이나 [잘못될 수 있는 방법에 대한 이해]가 거의 이루어지지 않습니다. 69
  • 좀 더 개념적으로, 폐 생리와 같은 영역에 대한 전문 임상의의 인지적 표현을 탐구하려는 노력에서 "연구자와 응답자 [모두 도출된 개념적 네트워크의 특이한 특성]에 놀라움을 금치 못했습니다." 70(78쪽)

Framing niche construction as a longitudinal process of systematically leveraging and adapting effectivities and contextually unique environmental affordances also allows us to challenge the common assumption in HPE that there are expert solutions to clinical problems that are both reproducible and transferrable. Ample data in the literature suggests that experts do not, in fact, tend to converge on a uniform expert approach to practice. Clinically, there is evidence of idiosyncratic variability in surgeon preferences and approaches in the operating room. 67 

  • Even when expert surgeons see similar features on imaging, they do not land on the same operative plan or management strategy. 68 
  • Expert dermatologists can’t predict what errors other expert dermatologists are likely to make, suggesting little convergence on a common diagnostic process or understanding of how it might go wrong. 69 
  • More conceptually, in efforts to explore the expert clinician’s cognitive representation of domains such as pulmonary physiology, “researchers and respondents alike were struck by the idiosyncratic qualities of the derived conceptual networks.” 70(p78) 

[교육적]으로도 전문 임상 교사의 학생 학습 진단 및 관리에서도 [비슷한 불일치]를 발견할 수 있습니다.

  • [평가자 간 오류가 수행 신호를 휩쓸고 있다]는 편재한 발견에서 볼 수 있듯이, [학습자의 임상 수행을 해석하고 채점하는 단일 전문 방법은 없는 것]으로 보입니다. 71
  • 전문 임상 교사들 역시 [학생의 부적당한 수행을 초래하는 특정 문제]에 대해 동의하지 않는 것으로 보입니다. 72
  • 교육 기업에 대한 [숙련된 교사들의 개념]조차도 다양성과 특이성으로 가득 차 있습니다. 73

Educationally, we see similar discrepancies in expert clinical teachers’ diagnosis and management of student learning.

  • There appears to be no single expert way to interpret and score learners’ clinical performances, as seen in the ubiquitous finding of inter-rater error swamping the performance signal. 71 
  • Nor do expert clinical teachers appear to agree on the particular problem that is leading to a student’s suboptimal performance. 72 
  • Even experienced teachers’ conceptions of what the teaching enterprise is about are rife with variability and idiosyncrasy. 73 

이러한 특수성을 인정하는 것은 임상 실습에서 [진단 및 관리 오류에 대한 우리의 기본 가정]에 영향을 미칠 수 있습니다.

  • 예를 들어, 의료 오류에 대한 사후 분석은 74 [임상의의 이펙티비티][특정 사례 및 진료 환경 내의 어포던스] 측면에서 진단 프로세스를 탐색하고 오류에 대해 [개인과 환경 모두의 고유한 기여]에 초점을 맞춰 근본적으로 재구성될 수 있습니다.
  • 또한 오류의 원인이 해당 사례가 발생한 개인-환경 시스템에만 국한된 것인지, 아니면 자원이 제한적이거나 자원이 풍부한 다른 유사한 상황에서는 오류로 분류되지 않았을 수도 있는지를 고려하여 임상 추론 과정과 결과에 대한 규범적 기준을 확장할 수 있습니다.

Acknowledging such idiosyncrasy could have implications for our underlying assumptions of diagnostic and management errors in clinical practice.

  • Post hoc analyses of a medical error, 74 for example, could be radically refashioned to explore the diagnostic process in terms of the clinician’s effectivities and the affordances within in the specific case and practice environment, focusing on the unique contributions to error on the part of both the individual and their environment.
  • We might also consider whether the attribution of error is specific to the individual–environment system in which the case occurred or might not have been labeled an error in other similar resource-constrained or resource-rich situations, thus potentially broadening normative standards around clinical reasoning processes and outcomes.

[[이펙티비티]와 [어포던스] 간의 상호작용]에 초점을 맞추면 [전문가 성과에 대한 정의]뿐만 아니라 [전문가 개발에 대한 이해]도 [맥락과 깊게 얽혀 있는 구조]로 바뀝니다. 생태학적 관점에서 우리는 개인의 지식과 기술이 진화하는 독특한 방식을 이전에 맥락에서 문제에 어떻게 적용되었는지를 반영하는 것으로 해석할 수 있습니다.

  • 생태심리학 관점에서의 과제 분석(45)은 임상 환경에서 "미시적 기술"75을 가르치는 것 이상으로 확장하여, 훈련의 목표로서 [총체적 행동]을 가능하게 하는 [이펙티비티와 어포던스]를 식별할 수 있게 해줄 수 있습니다.
  • [의도적 연습 모델]에서 제안하는 것처럼, 코치나 교사의 역할을 포함하도록 확장한다면, 슈퍼바이저는 학습자가 [자신의 이펙티비티를 환경 어포던스로 형성하려는 노력]을 지원해야 합니다.
  • 임상 수퍼바이저는 수련생이 [임상 환경에서 어포던스를 인식하고 파악하는 방법]을 어떻게 배우고 있는지에 초점을 맞춰 수련생을 모니터링할 것이며, 이상적으로는 수퍼바이저가 전문가인 임상 환경이 적합합니다.
  • 이는 학습자의 [잠재적 이펙티비티]뿐만 아니라 이러한 [이펙티비티를 개발해야 하는 실무 니치]도 인정합니다.

따라서 우리는 [학습자 중심 접근법]을 [학습자-환경 접근법]으로 확장하여 [단일 전문가의 의견이나 접근법, 76 또는 탈맥락화된 역량 목록 77,78]을 역량에 대한 참조 표준으로 사용하기보다는 교육생이 [실습 환경(또는 환경)에 적응habilitate할 수 있는 기능적 절차의 개발]에 초점을 맞출 수 있습니다.
The focus on the interaction between effectivities and affordances not only shifts our definition of expert performance but also our understanding of expert development toward a construction that is deeply intertwined with context. From an ecological perspective, we would interpret the idiosyncratic ways that individuals’ knowledge and skills evolve as a reflection of how they were previously applied to problems in context.

  • Task analysis 45 from the ecological psychology perspective may allow us to expand beyond teaching “micro skills” 75 in a clinical setting to identify effectivities and affordances that together enable summative behaviors as a goal for training.
  • If we extend this to include the role of a coach or teacher, as would be suggested within models of deliberate practice, a learner’s efforts to shape their effectivities to environmental affordances should be supported by supervisors.
  • The clinician supervisor would focus their monitoring of trainees on how they are learning to recognize and grasp the affordances in the clinical environment, ideally one in which the supervisor is expert.
  • This acknowledges not just the learner’s potential effectivities but also the practice niche in which those effectivities must be developed.

Thus, we might expand the learner-centered approach to the learner-in-environment approach, focusing on the development of functional procedures that habilitate the trainee to the practice environment (or environments) rather than using any single expert’s opinion or approach, 76 or decontextualized list of competencies 77,78 as a reference standard for competence.

또한, 우리는 수련의의 신체적 형태나 능력의 불일치로 인해 수련의가 적응하거나 재현할 수 없는 감독자나 교육자의 접근 방식을 반복하는 대신, [수련의의 어포던스 파악 및 임상 과제 수행 능력]을 [역량 표준]으로 삼아 학습 결과를 개발할 수 있습니다. 이런 의미에서 [왼손잡이 전공의]는 오른손잡이 대다수가 개발한 수술 접근법을 가르치기 위해 오른손잡이 기구를 사용하는 [오른손잡이 수퍼바이저 체제]에서는 '수련하기 어렵다'고 할 수밖에 없습니다. 이러한 의미에서 교육자와 수련의는 임상 치료를 가능하게 하는 [다양한 이펙티비티]를 탐구할 뿐만 아니라, [소위 장애를 가진 개인]은 [특정 어포던스에 접근하는 방법]에 대한 우리의 이해에 기여할 수 있는 [귀중한 관점을 가지고 있음]을 인정하고, 색이 아닌 질감으로 조직 병리학 슬라이드를 분류하는 것과 같은 대체 어포던스를 활용하여 교육 및 진단에 대한 접근 방식을 강화할 수 있는 49,50 [반장애주의적 입장]을 취하는 것이 도움이 될 수 있습니다.

Further, we might develop learning outcomes based on a trainee’s ability to grasp affordances and accomplish clinical tasks as a standard of competence rather than recapitulating a supervisor or educator’s approach, which may not be adaptable or reproducible by a trainee due to mismatches in the trainee’s physical form or capabilities. In this sense, a left-hand-dominant surgical resident is only “difficult to train” in a regime of right-hand-dominant supervisors who use right-handed instruments to teach operative approaches developed by the right-handed majority. In this sense, educators and trainees may benefit from an antiableist stance that explores not only a diversity of effectivities to enable clinical care but also acknowledges that individuals with so-called disabilities have valuable perspectives to contribute to our understanding of how to approach certain affordances, and may exploit alternative affordances, such as the categorization of histopathology slides by texture rather than color, 49,50 that augment our approaches to training and diagnosis.

마지막으로, [진료 니치]의 프레임을 통해 [진료의 변형]을 탐구하는 것은 임상 치료에서 최적의 솔루션(및 문제 정의)을 결정하는 데 있어 [장소의 중요한 역할]을 탐구할 수 있는 추가적인 개념적 도구를 제공할 수도 있습니다. 예를 들어, 농촌 지역에서 농촌 인구를 위한 교육을 개발하려는 노력은 [진료 니치]를 형성하는 중요한 맥락적 요소로서 [지역사회의 요구와 사회적 책무]를 참여시키고, 교육생이 지역 환경에 적응할 수 있도록 [교육의 모든 단계에서 지역 사회에 몰입]하는 데 중점을 두었습니다. 79 이와 대조적으로, [농촌 환경을 위한 원격 교육 모델]은 표준화에 중점을 두고 있으며, 어포던스를 표준화하기 위해 유사한 아키텍처와 기술을 조합하여 [로컬 캠퍼스]와 [위성 캠퍼스] 간에 '비교 가능한 경험'을 제공하려고 시도하고 있습니다. 80 [원격 학습자]가 주로 동료 중심 환경에 있거나 동료 및 강사로부터 고립되어 있을 때 어떻게 다르게 참여하는지, 학습자가 활용할 가능성이 있는 리소스를 포함하여 기관의 벽 밖에서 학습 활동을 계획하는 방법을 조사하여 이 모델을 확장할 수 있습니다. 81 또한 메인 캠퍼스로 표준화된 교육을 받는 원격 학습자에게 어떤 제한이 있는지 살펴볼 수 있습니다. [지역화된 이펙티비티]라는 개념은 표준화된 교육에서 ['대도시 중심적' 규범성]을 피할 수 있는 [지방 의료의 강점과 장점을 파악하는 수단]을 제공할 수 있습니다. 82,83
Finally, exploring variations in practice through the frame of practice niches may also offer us additional conceptual tools to explore the important role of place in determining optimal solutions (and even problem definitions) in clinical care. For example, efforts to develop training in rural areas, for rural populations, have focused on engaging community needs and social accountability as critical contextual factors in shaping the practice niche, and immersion in the community for all phases of training to ensure that trainees are attuned to their local environments. 79 By contrast, distance learning models of training for rural environments have focused on standardization, and attempt to provide a “comparable experience” between local and satellite campuses using a combination of similar architecture and technology to standardize affordances. 80 We could expand on this model by examining how remote learners necessarily engage differently when predominantly in peer-driven settings or isolated from both peers and lecturers, and how we might plan learning activities outside institutional walls, including what resources learners are likely to exploit. 81 Further, we might examine what limitations are placed on remote learners whose education is standardized to the main campus. The concept of regionalized effectivities may provide a means to identify strengths and advantages of rural practice that avoid the “metrocentric” normativity in standardized training. 82,83


생태심리학은 임상의와 임상 환경이 시간이 지남에 따라 상호 작용하고 진화하는 방식을 이해하는 이론적 틀과 새로운 언어를 제공합니다. 맥락적 특수성을 임상적 추론의 기본으로 이해하면 환경에서의 복잡한 행동을 포용할 수 있으며, 전문 지식이나 전문가적 접근 방식에 대한 단일한 정의를 추구하지 않아도 됩니다.

Ecological psychology provides a theoretical framework and new language to understand the ways that clinicians and their clinical environments interact and evolve over time. Context specificity, when understood as fundamental to clinical reasoning, invites us to embrace the complexity of action in an environment and may absolve us from seeking singular definitions of expertise or expert approaches.

Acad Med. 2022 Nov 1;97(11S):S80-S86. doi: 10.1097/ACM.0000000000004899. Epub 2022 Aug 9.

An Ecological Account of Clinical Reasoning

Affiliations collapse

1B.K. Watsjold is assistant professor, Department of Emergency Medicine, University of Washington School of Medicine, Seattle, Washington; ORCID: .

2J.S. Ilgen is professor, Department of Emergency Medicine, University of Washington School of Medicine, Seattle, Washington; ORCID: .

3G. Regehr is professor, Department of Surgery, and senior scientist, Centre for Health Education Scholarship, University of British Columbia, Vancouver, British Columbia, Canada; ORCID: .

PMID: 35947479

DOI: 10.1097/ACM.0000000000004899


Purpose: The prevailing paradigms of clinical reasoning conceptualize context either as noise that masks, or as external factors that influence, the internal cognitive processes involved in reasoning. The authors reimagined clinical reasoning through the lens of ecological psychology to enable new ways of understanding context-specific manifestations of clinical performance and expertise, and the bidirectional ways in which individuals and their environments interact.

Method: The authors performed a critical review of foundational and current literature from the field of ecological psychology to explore the concepts of clinical reasoning and context as presented in the health professions education literature.

Results: Ecological psychology offers several concepts to explore the relationship between an individual and their context, including affordance, effectivity, environment, and niche. Clinical reasoning may be framed as an emergent phenomenon of the interactions between a clinician's effectivities and the affordances in the clinical environment. Practice niches are the outcomes of historical efforts to optimize practice and are both specialty-specific and geographically diverse.

Conclusions: In this framework, context specificity may be understood as fundamental to clinical reasoning. This changes the authors' understanding of expertise, expert decision making, and definition of clinical error, as they depend on both the expert's actions and the context in which they acted. Training models incorporating effectivities and affordances might allow for antiableist formulations of competence that apply learners' abilities to solving problems in context. This could offer both new means of training and improve access to training for learners of varying abilities. Rural training programs and distance education can leverage technology to provide comparable experience to remote audiences but may benefit from additional efforts to integrate learners into local practice niches.

관리추론: 보건전문직교육과 연구아젠다의 함의 (Acad Med, 2019)
Management Reasoning: Implications for Health Professions Educators and a Research Agenda
David A. Cook, MD, MHPE, Steven J. Durning, MD, PhD, Jonathan Sherbino, MD, MEd, and Larry D. Gruppen, PhD


[임상 추론](임상의가 임상 정보(병력, 검사 소견, 검사 결과), 선호도, 의학 지식, 맥락(상황) 요소를 통합하여 개별 환자의 치료에 대한 결정을 내리는 인지 과정)은 거의 모든 의료 전문가의 일상 활동의 핵심입니다.2 임상 추론의 작동 방식을 이해하는 것은 임상 진료에서 오류를 방지하고 이러한 과정의 개발을 지원하는 교육을 최적화하려는 노력에 필수적입니다.3,4
Clinical reasoning—the cognitive processes by which clinicians integrate clinical information (history, exam findings, and test results), preferences, medical knowledge, and contextual (situational) factors to make decisions about the care of an individual patient1—is central to the daily activities of nearly all health care professionals.2 Understanding how clinical reasoning works is essential to efforts to prevent errors in clinical practice and to optimize instruction that supports the development of these processes.3,4

수십 년에 걸친 상당한 연구를 통해 [진단에 도달하는 데 관련된 임상 추론 과정(진단 추론)]5-8을 밝히고 교육 및 지속적인 연구에 대한 시사점을 확인했습니다.9-12 치료, 추가 검사, 후속 방문, 제한된 자원의 할당 등 [환자 관리에 수반되는 임상 추론 과정(관리 추론)]에 대해서는 알려진 것이 훨씬 적습니다.1,10,13,14 그러나 개념적 틀과 실증 연구에서 진단 추론의 중요성에도 불구하고 환자를 돌볼 때 관리 추론보다 덜 중요할 수도 있습니다. [정확한 진단을 내리는 것]은 최종 목적, 즉 진단에 적합한 관리 계획의 실행을 위한 수단일 뿐입니다. 또한, 응급 의사가 통증의 정확한 원인을 모른 채 '비심장성 흉통'을 호소하는 환자를 집으로 돌려보내는 경우처럼 방어 가능한 관리 결정을 실행하기 위해 [완전히 정확한 진단이 필요하지 않은 경우]도 종종 있습니다.
Substantial research over several decades has helped illuminate the clinical reasoning processes involved in arriving at a diagnosis (diagnostic reasoning)5–8 and identified implications for teaching and ongoing research.9–12 Far less is known about the clinical reasoning processes entailed in patient management (management reasoning), including decision making about treatment, further testing, follow-up visits, and allocation of limited resources.1,10,13,14 Yet despite its prominence in conceptual frameworks and empiric research, diagnostic reasoning may be less important in caring for patients than management reasoning. Making the correct diagnosis is only a means to an end—namely, the implementation of a management plan appropriate for that diagnosis. Moreover, a fully correct diagnosis is often not required to implement a defensible management decision, as when an emergency physician sends home a patient with “noncardiac chest pain” without knowing the exact source of pain.

관리 추론에 대한 어떠한 리뷰도 확인할 수 없었으며, 관리 추론과 직접적으로 관련된 실증 연구도 거의 찾아볼 수 없었습니다.14-17 관리 추론의 개념을 명확히 하는 것은 이 분야의 향후 연구를 위한 발판을 마련하고 보건 전문직 교육에서의 잠재적 적용을 식별할 수 있을 것입니다. 이 글의 목적은 [관리 추론]을 [진단 추론]과 구별하여 설명하고, 잠재적으로 통찰력이 있는 이론적 렌즈를 고려하며, 교육적 시사점을 개괄하고, 필요한 연구 분야를 제안하는 것입니다.
We could not identify any reviews of management reasoning, and we found few empirical studies directly related to management reasoning.14–17 Clarification of the concept of management reasoning will set the stage for future research in this field and identify potential applications in health professions education. The purpose of this article is to describe management reasoning as distinct from diagnostic reasoning, consider potentially insightful theoretical lenses, outline educational implications, and propose areas of needed research.

관리 추론과 진단 추론의 대비
Contrasting Management and Diagnostic Reasoning

[진단]은 주로 임상의가 (진단 추론의 인지 과정을 통해) 증상, 징후, 검사 결과의 패턴에 라벨을 부여하는 [분류 활동]입니다.19 이러한 라벨(진단)은 질병에 대한 임상의의 이해를 반영하며 일반적으로 근본적인 원인 또는 병리를 나타냅니다. 라벨(진단)은 그 자체로 가치가 있는 것이 아니라, [문제에 대한 임상의의 이해와 접근 방식을 형성하고, 의료진 간의 의사소통을 촉진하며, 의료진이 환자를 바라보고 상호 작용하는 방식에 영향을 미침]으로써 의미 결정에 도움이 됩니다.20 특정 라벨(예: "섬유근육통")은 [임상의와 간병인 사이에서 매우 다른 의미(종종 의도하지 않게)]를 내포할 수 있습니다.
Diagnosis is primarily a classification activity18 in which clinicians (through the cognitive processes of diagnostic reasoning) assign labels to a pattern of symptoms, signs, and test results.19 These labels (diagnoses) reflect the clinician’s understanding of the illness and typically denote an underlying cause or pathology. Labels (diagnoses) do not have value in themselves; rather, they help with meaning making by shaping the clinician’s understanding of and approach to a problem, facilitating communication among members of the health care team, and influencing how the team views and interacts with the patient.20 A given label (e.g., “fibromyalgia”) may connote (often inadvertently) very different meanings to different clinicians and caregivers.

[진단]은 [라벨 또는 분류가 조치에 영향을 미치는 범위 내]에서만 유용합니다(예: "허혈성 심근병증"이라는 라벨은 병원 입원, 심장 도관 삽입 및 안지오텐신 전환 효소 억제제 처방을 유도할 수 있음). 많은 상황에서 [피상적, 잠정적 또는 비특이적 분류("비심장성 흉통" 또는 "상부 호흡기 감염")]가 [최종적인 관리에 적합]한 것으로 판명됩니다. 실제로 관리 결정은 일반적으로 필요한 진단 특이성 수준을 결정합니다.

  • 불충분하게 구체적인 라벨은 최적의 관리가 아닌 suboptimal한 관리로 이어질 수 있으며,
  • 일부 라벨은 불필요한 세부 사항을 반영하고 비효율적인 리소스 사용(예: 과잉 검사)을 암시할 수 있습니다.

예를 들어, 자기공명영상(MRI)은 '급성 요통'의 원인에 대한 자세한 정보를 제공하여 특정 진단 라벨을 쉽게 지정할 수 있지만, 이 정보가 [초기 관리를 변경하는 경우는 거의 없으므로] 일반적으로 이 검사는 낭비적인 것으로 간주됩니다.
A diagnosis is useful to the extent that the label or classification has implications for action (e.g., the label “ischemic cardiomyopathy” might prompt hospital admission, cardiac catheterization, and prescription of angiotensin-converting enzyme inhibitor). In many situations, a superficial, provisional, or nonspecific classification (“noncardiac chest pain” or “upper respiratory infection”) proves adequate for definitive management. Indeed, management decisions typically drive the level of diagnostic specificity required. An insufficiently specific label could lead to suboptimal management, but some labels reflect superfluous detail and suggest inefficient use of resources (i.e., overtesting). For example, although magnetic resonance imaging (MRI) can provide detailed information about the cause of “acute low back pain” and thereby facilitate a specific diagnostic label, this information rarely changes initial management, and hence the test is commonly considered wasteful.

진단과 달리 관리에는 행동 계획에 대한 협상과 해당 계획의 [지속적인 모니터링 및 조정]이 포함됩니다. [관리 추론]은 이러한 협상, 관찰 및 조정과 관련된 인지적 프로세스를 포함합니다. 아래에서는 관리 추론이 진단 추론과 다른 몇 가지 방식을 확인합니다(도표 1에 요약되어 있음).
Management, in contrast to diagnosis, involves negotiation of a plan of action and ongoing monitoring and adjustment of that plan. Management reasoning encompasses the cognitive processes associated with these negotiations, observations, and adjustments. Below, we identify several ways in which management reasoning differs from diagnostic reasoning (summarized in Chart 1).

하나의 올바른 계획은 없다
No single correct plan

주어진 진단은 일반적으로 정확하거나 부정확한 것으로 확정될 수 있습니다. 트위터에서는 진단의 맥락과 후속 사용 목적에 따라 동일한 상태(즉, 동일한 질병 또는 질환)에 다른 레이블을 지정할 수 있음을 인정합니다. 예를 들어, 라벨은 질병의 중증도("급성 질환"), 증상("흉통"), 질병("급성 관상동맥 증후군"), 해부학적 이상("폐색된 관상동맥") 또는 병리("심근 괴사")에 초점을 맞출 수 있습니다. 비록 동일한 의학적 상태에 여러 가지 라벨을 적절히 적용할 수 있지만, 적어도 이론적으로는, 각 진단이 옳거나 그른지에 대한 확실한 판단이 가능합니다. 우측 관상동맥은 폐색된 상태이거나 폐색되지 않은 상태이거나 둘 중 하나이다. 일부 대체 라벨은 똑같이 정확할 수 있지만("심근경색"), 다른 라벨은 부정확할 수 있습니다("심낭염"). 실용적인 관점에서 볼 때, [상호 교환적으로 정확]하려면 [모든 대안적 진단]이 [조치에 대해 동일한 의미]를 가져야 하며 [유사한 근본 원인을 제시]해야 합니다예를 들어, "상기도 감염"과 "급성 부비동염"의 진단은 모두 [유사한 근본 원인(바이러스 감염)과 관리 방법을 제시]하기 때문에 상호 교환 가능한 정답으로 해석될 수 있습니다.
A given diagnosis can usually be established as correct or incorrect. We acknowledge that different labels can be assigned to the same condition (i.e., the same illness or disease), depending on the context and the intended subsequent use of the diagnosis. For example, labels can focus on illness severity (“acutely ill”), symptom (“chest pain”), disease (“acute coronary syndrome”), anatomic abnormality (“occluded coronary artery”), or pathology (“myocardial necrosis”). Nonetheless, although multiple labels can appropriately be applied to the same medical condition, each diagnosis can—at least in theory—be judged as correct or incorrect in absolute terms. A patient either does or does not have an occluded right coronary artery. Some alternate labels may be equally correct (“myocardial infarction”), but others would be incorrect (“pericarditis”). From a practical standpoint, to be interchangeably correct, all alternate diagnoses should have the same implications for action and should suggest a similar underlying cause. For example, the diagnoses of “upper respiratory infection” and “acute sinusitis” could be construed as interchangeably correct, because both suggest a similar underlying cause (viral infection) and management approach.

이와는 대조적으로, 일반적으로 진단 검사, 환자 교육, 치료 및 후속 조치의 다양한 조합으로 구성된 [다수의 합리적인 관리 접근 방식]이 있습니다. "상황에 따라 다르다"는 말은 관리에서 흔히 사용됩니다.

  • [환자 선호도, 물류 제약, 문화적 규범, 자원 가용성 등]이 모두 [관리 결정]에 영향을 미치며,
  • [불확실성 및 위험에 대한 내성]과 같은 [임상의학적 요인]도 영향을 미칩니다.21,22
  • [특정 치료 옵션의 잠재적 위험과 이득]도 상황에 따라 다릅니다: 한 클리닉의 외과의사는 한 접근법에 더 숙련된 반면, 다른 클리닉의 외과의사는 다른 접근법에 더 숙련될 수 있습니다.

요컨대, 일반적으로 성공적인 결과에 이르는 길은 여러 가지가 있으며, 여러 상황에서 수용 가능한 결과도 여러 가지가 있을 수 있습니다.23,24 따라서 하나의 "올바른" 또는 "최선의" 관리 계획을 말하기는 어렵고(이상적이거나 이론적인 상태에서도), 오히려 어느 정도 "합리적인" 또는 "방어 가능한" 계획을 말해야 합니다.
By contrast, there are usually multiple reasonable management approaches, comprising varying combinations of diagnostic testing, patient education, treatment, and follow-up. “It depends” is common in management.

  • Patient preferences, logistical constraints, cultural norms, and resource availability all influence management decisions,
  • as do clinician factors such as tolerance for uncertainty and risk.21,22 
  • Even the potential risks and benefits of specific treatment options vary across situations: Surgeons in one clinic may be more skilled in one approach, while surgeons in another clinic may be more skilled in another.

In short, there are usually multiple paths to a successful outcome, and there will even be multiple acceptable outcomes in many situations.23,24 Thus, it is difficult to speak of a single “correct” or “best” management plan (even in an idealized or theoretical state); rather, we must speak of more or less “reasonable” or “defensible” plans.

선호도 및 사회적 맥락
Preferences and social context

환자 선호도, 임상의 태도, 임상 환경, 물류 제약이 진단에 영향을 미쳐서는 안 됩니다. 폐렴 환자는 환자의 선호도나 사회적 맥락에 관계없이 폐렴에 걸린 것입니다. 섬유근육통 또는 역형성 갑상선암 진단은 환자가 해당 진단을 원하는지 또는 필요한 치료를 받을 수 있는지에 따라 달라지지 않습니다.
Patient preferences, clinician attitudes, clinical settings, and logistical constraints should not influence a diagnosis. A patient with pneumonia has pneumonia regardless of the patient’s preferences or social context. A diagnosis of fibromyalgia or anaplastic thyroid cancer does not depend on whether the patient wants that diagnosis or can access needed treatments.

이와는 대조적으로 관리 결정은 거의 항상 경쟁적인 선호도, 가치, 그리고 잠재적 이익, 잠재적 위험, 자원 가용성, 재정적 비용과 같은 상황별 제약 조건 사이에서 우선순위를 정해야 합니다.25 환자가 "해당 검사(또는 해당 약물 복용, 후속 방문)를 원하지 않거나 감당할 수 없습니다"라고 말하면 관리 계획이 변경됩니다. [관리 계획과 관련된 가치와 제약]에는 [환자]뿐만 아니라 [임상의, 의료진의 다른 구성원, 관리자, 보험사, 다른 환자, 사회 전반의 가치와 제약]도 포함됩니다. 진단 추론의 일부 측면에는 환자 또는 임상의가 원하는 진단의 구체성 및 확실성 수준(즉, 라벨의 충분성)과 같은 선호도가 포함될 수 있지만, 이는 명백히 경영진의 결정입니다.
Management decisions, in contrast, almost always involve prioritization among competing preferences, values, and situation-specific constraints such as probable benefits, potential risks, resource availability, and financial costs.25 If a patient says, “I don’t want (or cannot afford) to get that test (or take that medication, or return for that follow-up visit),” the management plan will change. Relevant values and constraints include not only those of the patient but also those of the clinician, other members of the health care team, administrators, insurers, other patients, and society in general. Some aspects of diagnostic reasoning may involve preferences, such as the patient’s or the clinician’s desired level of specificity and certainty in the diagnosis (i.e., the sufficiency of the label), but these are arguably management decisions.

예를 들어, 

  • 어떤 환자는 병력과 이학적 검사에 근거한 '기계적 요통'이라는 진단에 만족할 수 있지만, 다른 환자는 통증의 근본적인 원인에 대한 보다 자세한 설명을 얻기 위해 MRI를 기대할 수 있습니다. 
  • 한 임상의/의료진은 "폐렴"이라는 진단에 만족할 수 있지만, 다른 임상의/의료진은 해부학적 위치("우하엽 폐렴") 또는 원인 병원체("폐렴구균 폐렴")를 명시하는 것을 선호할 수 있습니다. 
  • 임상의는 상기도 감염을 인플루엔자로 경험적으로 치료할지, 아니면 진단을 확인하기 위해 검사를 받을지 결정할 때 검사 수행의 이득(정보), 비용, 위험(불편함)에 대해 [가치 판단]을 내립니다

이러한 예에서 [진단을 더욱 명확히 하기 위해 추가 정보가 필요하다는 것을 인식하는 것]은 [진단 추론]이지만, [실제로 해당 정보를 얻을지 여부를 결정하는 것]은 [관리 추론(즉, 선호도 및 상황 고려)]을 수반합니다.

For example,

  • one patient might be happy with a diagnosis of “mechanical back pain” based on history and exam, while another might expect an MRI in hope of obtaining a more detailed explanation of the underlying cause of pain.
  • One clinician/care team might be satisfied with a diagnosis of “pneumonia,” while another might prefer to specify the anatomic location (“right lower lobe pneumonia”) or causative pathogen (“pneumococcal pneumonia”).
  • A clinician deciding whether to empirically treat an upper respiratory infection as influenza, or to obtain a test to confirm that diagnosis, makes value judgments regarding the benefits (information), costs, and risks (discomfort) of performing the test.

In these examples, recognizing that additional information is needed to further clarify a diagnosis is diagnostic reasoning, but deciding whether to actually obtain that information entails management reasoning (i.e., consideration of preferences and context).

공유된 의사 결정
Shared decision making

[진단 분류]에 환자와의 직접적인 논의나 상호 작용이 반드시 필요한 것은 아닙니다. 다른 임상의나 환자 차트와 같은 다른 출처에서 얻은 병력, 검사 및 검사 결과에 대한 정보를 해석하고 진단을 내릴 수 있습니다. 실제로 이는 임상의가 모든 임상 교육 단계에서 흔히 연습하는 '진단 미상' 사례를 해결할 때 기대할 수 있는 것입니다.
Diagnostic classifications do not necessarily require direct discussion or interaction with the patient. Information about history, exam, and test results obtained from another source, such as another clinician or the patient chart, can be interpreted and a diagnosis rendered. Indeed, this is the expectation when clinicians solve a “diagnostic unknown” case, a common exercise in all stages of clinical training.

이와는 대조적으로 [관리 우선순위화]에는 커뮤니케이션과 협상이 필요합니다. 수용 가능한 옵션이 다양하고 다양한 가치를 통합해야 하기 때문에 임상의는 환자와 다른 이해관계자를 의사 결정 과정에 참여시켜야 하며, 즉 공동 의사 결정에 참여해야 합니다. 관리 결정은 본질적으로 임상의, 환자, 의료진 및 다른 사람들 간의 사회적 상호 작용입니다.
By contrast, management prioritizations require communication and negotiation. The multiplicity of acceptable options and the need to integrate various values require that clinicians engage the patient and other stakeholders in the decision process—that is, engage in shared decision making. Management decisions are inherently social interactions between the clinician, patient, care team, and others.

시간에 따른 변화
Change over time

진단은 시간적으로 고정되어 있습니다: 특정 시점에 적절한 정보가 있으면 일반적으로 명확한 레이블을 지정할 수 있습니다. 진단은 시간이 지남에 따라 변경될 수 있지만, 변경이 반드시 원래의 진단명이 틀렸다는 것을 의미하지는 않습니다.

  • 첫째, 많은 의학적 상태는 시간이 지남에 따라 호전되거나 악화되는 등 진화합니다. '상기도 감염이 해결됨', '암이 진행 중' 또는 '경색 후 심실 빈맥'과 같은 표현을 사용할 수 있지만, 이러한 변화는 원래 분류가 잘못되었다기보다는 질병 자체의 변화를 반영하는 것이며, 종종 새로운 진단을 내리는 경우가 많습니다.
  • 둘째, 사례가 발전하고 더 많은 정보(추가 병력, 검사 결과, 질병의 진행 경과 또는 치료에 대한 반응)가 확보됨에 따라 진단이 더 구체화되는 경우가 많습니다. 예를 들어, 흉부 엑스레이에서 매우 미세한 침윤이 있는 폐렴이 의심되는 경우 48시간 후 반복된 흉부 엑스레이에서 조밀한 우하엽 침윤이 확인되거나, 환자에게 균혈증이 발생하면 미생물학적 원인이 명확해질 수 있습니다. 폐렴의 초기 진단은 여전히 정확하지만, 이제 추가적이고 잠재적으로 유용한 세부 정보를 통해 폐렴을 지정할 수 있습니다. (물론 새로운 정보나 수정된 해석으로 인해 초기 진단이 잘못되었다는 것을 인정하는 경우도 있습니다.)
  • 마지막으로, 레이블은 지역과 문화(예: 사회 및 인종 그룹, 의료 전문 분야)에 따라 다른 의미를 가질 수 있습니다. 환자가 한 상황에서 다른 상황으로 전환함에 따라 선호하는 라벨도 그에 따라 바뀔 수 있습니다.

Diagnoses are temporally fixed: At a given moment in time, and with adequate information, a definitive label can usually be assigned. A diagnosis can change over time, but changes do not necessarily mean that the original label was wrong.

  • First, many medical conditions evolve over time—that is, they get better or get worse. We might speak of a “resolving upper respiratory infection,” “progressing cancer,” or “postinfarction ventricular tachycardia”; yet such evolution reflects a change in the illness itself, and often a new diagnosis, rather than an incorrect original classification.
  • Second, the diagnosis often becomes more specific as the case evolves and more information becomes available (additional history, test results, evolution of illness, or response to treatment). For example, a suspected pneumonia with a very subtle infiltrate on a chest X-ray could be confirmed if a repeat chest X-ray 48 hours later shows a dense right lower lobe infiltrate, or the microbiological etiology could become apparent if the patient develops bacteremia. The initial diagnosis of pneumonia remains correct, but it can now be specified with additional, potentially useful detail. (Of course, sometimes new information or revised interpretations lead to the recognition that the initial diagnosis was incorrect.)
  • Finally, labels can take on different meanings in different regions and cultures (e.g., social and ethnic groups, medical specialties). As patients transition from one context to another, the preferred label may shift accordingly.

이와는 대조적으로, 관리 결정은 한 시점에 결정적으로 정의되는 경우가 거의 없으며, 오히려 진화하고 변화할 것을 예상하여 내려집니다숙련된 임상의는 "고혈압 치료를 위해 생활습관 개선부터 시작하고, 그래도 효과가 없으면 하이드로클로로티아지드나 리시노프릴을 추가한다"와 같이 향후 관리 결정을 예상할 수 있지만, 이는 단지 가능성일 뿐입니다. 일반적으로 관리 계획은 처음에는 잠정적인 용어로 구성한 다음 이후 환자가 발생할 때마다 재검토합니다. 예를 들어, 고혈압 약물 요법은 일반적으로 치료 반응, 부작용 및 변화하는 환자 선호도에 따라 치료 시작 후 조정됩니다. 이러한 변경이 반드시 원래의 관리 계획과 그 근거가 잘못되었다는 것을 의미하지는 않습니다. (이는 진단이 잘못되었거나 의도적으로 잠정적이지 않는 한 변경해서는 안 되는 진단 결정과는 대조적입니다.) 관리 계획을 언제, 어떻게 조정할지 모니터링하고 결정하는 작업은 관리 추론의 중요한 측면입니다. 항생제를 사용하여 폐침윤을 성공적으로 치료하면 폐렴 진단이 확정되는 것처럼 진단과 관리는 대개 동시에 이루어지며 서로 영향을 미치는 경우가 많습니다.

By contrast, management decisions are rarely defined conclusively at a single point in time but, rather, are made with the expectation that they will evolve and change. Experienced clinicians can often anticipate future management decisions—“Start with lifestyle measures to treat the hypertension, and if that doesn’t work, then add hydrochlorothiazide and then lisinopril”—but these are only possibilities. Typically, the management plan is initially framed in tentative terms and then revisited with each subsequent patient encounter. For example, drug therapy for hypertension is commonly adjusted after initiation of treatment based on therapeutic response, side effects, and evolving patient preferences. Such changes do not necessarily imply that the original management plan and the reasoning behind it were wrong. (This contrasts with diagnostic decisions, which should not change unless the diagnosis was wrong or purposely provisional.) The task of monitoring and deciding when and how to adjust a management plan is a critical aspect of management reasoning. We note that diagnosis and management usually occur concurrently and often influence one another, as when successful treatment of a pulmonary infiltrate using antibiotics affirms the diagnosis of pneumonia.

복잡하고 상황에 따라 다르며 불확실함
Complex, situation-specific, and uncertain

마지막으로, 진단과 관리 모두 임상적 결정은 [거의 항상 불완전한 정보]를 가지고 내려지며, 가능한 모든 진단 또는 관리 접근법을 고려하지는 않는다. 그러나 상호 작용하는 요인과 잠재적 해결책의 수와 복잡성은 [진단 추론]보다 [관리 추론]에서 더 큰 경우가 대부분입니다.
Finally, clinical decisions—both diagnostic and management—are almost always made with incomplete information and without considering all possible diagnoses or management approaches. However, the number and complexity of interacting factors and potential solutions are almost always greater in management than in diagnosis.

예를 들어 [폐렴 진단을 내릴 때] 고려해야 할 증상(기침, 발열, 불쾌감), 징후(발열, 빈호흡, 관상 호흡음), 검사실 소견(백혈구 증가, 신부전, 산증), 영상 검사 등에 수는 한정적으로 존재합니다. 진단은 쉽지 않지만 관리는 더 어려울 수 있습니다. 여기에는 다음과 관련한 선택이 필요하다.

  • 진단 검사(흉부 방사선 사진 또는 컴퓨터 단층 촬영),
  • 치료 장소(외래, 병동, 중환자실),
  • 항생제 선택,
  • 보조 약물(스테로이드, 기관지 확장제, 혈전색전증 예방제),
  • 지원 치료(간호, 호흡기 치료, 물리 치료, 정신 치료),
  • 동반 질환 관리에 대한 조정

For example, in establishing the diagnosis of pneumonia, there is a finite number of symptoms (cough, fever, malaise), signs (fever, tachypnea, tubular breath sounds), lab findings (leukocytosis, renal insufficiency, acidosis), and imaging studies to consider. While the diagnosis may not be easy, management is likely more challenging, with choices to be made regarding

  • diagnostic testing (chest radiograph or computed tomography),
  • treatment location (outpatient, hospital ward, intensive care),
  • antibiotic selection,
  • medication adjuncts (steroids, bronchodilators, thromboembolism prophylaxis), and
  • supportive care (nursing, respiratory therapy, physical therapy, spiritual therapy),
  • plus adjustments to the management of comorbid conditions.

이러한 모든 옵션은 [환자, 의료진, 보험사 등의 선호도 및 제약 조건]과 비교해가며 검토해야 하며, 치료 반응의 예측 불가능성(즉, 미래 예측)을 고려한 선택이 이루어져야 합니다.

  • 또한, [진단의 불확실성]은 '부분 회전근개 파열'이 아닌 '어깨 통증'과 같이 덜 구체적인 라벨을 사용함으로써 개선될 수 있는 경우가 많습니다.
  • 반면, [관리의 불확실성]은 일반적으로 여러 가지 가능한 질병에 대한 동시 치료, 부작용 또는 부작용 가능성에 대한 사전 관리, 더 빈번한 모니터링과 같이 더 광범위하고 복잡한 계획을 요구합니다.

All these options must be weighed against the preferences and constraints of the patient, care team, insurer, and others; and choices must anticipate the unpredictability of treatment response (i.e., foresee the future).

  • Moreover, uncertainties in diagnosis can often be ameliorated by using less specific labels (“shoulder pain” rather than “partial rotator cuff tear”).
  • By contrast, uncertainties in management usually mandate plans of greater scope and complexity, such as concurrent treatment of multiple possible illnesses, anticipatory management of possible side effects or adverse events, and more frequent monitoring.

이론적 렌즈
Theoretical Lenses

여러 이론과 개념적 틀은 진단 추론과 관리 추론에 대한 우리의 이해와 연구를 풍부하게 합니다.26 진단 추론과 관리 추론은 지식 조직, 문제 표현, 인지 처리의 기본 구성 요소를 포함하여 [많은 공통된 정신 현상을 공유]합니다.13 진단 또는 관리 작업에 직면했을 때 임상의는 의식적으로 또는 무의식적으로 자신의 생물 의학 및 임상 지식을 초기 환자 정보와 통합하여 문제에 대한 사례 표현을 형성합니다(예, 질병 스크립트), 이 문제 표현을 사용하여 추가 정보 획득을 안내하고, 새로운 정보를 기반으로 문제 표현을 수정하고, 최종 진단 및/또는 관리 조치를 지원하기에 충분하다고 인식될 때까지 정보 수집/표현 수정 주기를 반복합니다.11,18,28 -30 여기에는 비분석적 또는 "시스템 1" 추론 과정(자동, 신속, 패턴 인식에 의존)과 분석적 또는 "시스템 2" 추론 과정(신중, 노력, 느림)이 혼합되어 있을 가능성이 높습니다.11,28-31 (시스템 1 및 시스템 2 과정의 의미에 대해서는 아래 연구 우선순위에 대한 논의에서 자세히 설명합니다.)
Several theories and conceptual frameworks enrich our understanding and study of diagnostic reasoning and management reasoning.26 Diagnostic reasoning and management reasoning likely share many common mental phenomena, including fundamental components of knowledge organization, problem representation, and cognitive processing.13 When faced with a diagnostic or management task, the clinician consciously or subconsciously integrates his or her own biomedical and clinical knowledge with initial patient information to form a case representation of the problem (e.g., illness script27), uses this problem representation to guide the acquisition of additional information, revises the problem representation based on the new information, and repeats the information-gathering/representation revision cycle until the representation is perceived as sufficient to support a final diagnosis and/or management action.11,18,28–30 This likely involves a mixture of nonanalytical or “system 1” reasoning processes (automatic, fast, and reliant on pattern recognition) and analytical or “system 2” reasoning processes (deliberate, effortful, and slow).11,28–31 (We elaborate on implications of system 1 and system 2 processes in our discussion of research priorities, below.)

[위치 인지 이론]은 임상적 추론, 특히 관리 추론이 고립적으로 발생하는 것이 아니라 역동적인 생물심리사회적 맥락에서 "위치"한다는 점을 강조하면서 추가적인 통찰력을 제공합니다.23,24 이상적으로는 관리 결정은 다양한 요인(환자, 진단, 임상의, 치료팀, 치료 시스템 등)에 대한 개별적인 지식이 아니라, 이러한 요인 및 기타 환경적 특징 간의 상호 작용(협상)을 고려할 때 도출되는 것이 좋습니다.
Situated cognition theory32 offers further insights, emphasizing that clinical reasoning, and especially management reasoning, does not occur in isolation; rather, it is “situated” in a dynamic biopsychosocial context.23,24 Ideally, management decisions emerge not from knowledge of the various factors individually (patient, diagnosis, clinician, care team, care system, etc.) but through consideration of the interactions (negotiations) among these and other environmental features.

포커와 카시러가 제안한 [임계값 접근법]을 통해 임상의는 질병 발생 확률, 진단 검사의 부정확성, 위험성, 비용, 치료 혜택의 확률과 효용을 정량적으로 결합할 수 있습니다. 의사 결정 이론,34,35 게임 이론,36 전망 이론,37 자유주의적 가부장주의(넛지 이론)38-40과 같은 의사 결정 및 경제학 이론도 경영 추론과 관련이 있을 수 있습니다. 이러한 이론은 인간(이 경우 환자와 의료 서비스 제공자 모두)이 어떻게 이득과 손실(혜택과 위험)을 다르게 평가하는지, 프레임, 기본 옵션, 사회적 비교, 제한된 자원이 선택(관리 결정)에 어떤 영향을 미칠 수 있는지 설명하고 예측합니다.41

The threshold approach proposed by Pauker and Kassirer33 allows clinicians to quantitatively combine the probability of disease; the inaccuracy, risk, and cost of diagnostic tests; and the probability and utility of treatment benefits. Theories of decision making and economics—such as decision theory,34,35 game theory,36 prospect theory,37 and libertarian paternalism (nudge theory)38–40—may also have relevance to management reasoning. These theories explain and predict how humans (in this case, both patients and health care providers) differentially value gains and losses (benefits and risks) and how framing, default options, social comparisons, and constrained resources might influence choices (management decisions).41

보건 전문직 교육에 대한 경영 추론 패러다임의 시사점
Implications of a Management Reasoning Paradigm for Health Professions Education

[진단 추론]과 [관리 추론]의 차이점을 고려할 때, 임상의의 경력 전반에 걸쳐 이러한 활동의 개발과 유지를 최적으로 촉진하고 평가하기 위해서는 서로 다른 교육적 접근 방식이 필요할 것으로 추측됩니다.
Given the differences between diagnostic reasoning and management reasoning, we speculate that these activities may require different educational approaches to optimally promote and assess their development and maintenance throughout a clinician’s career.


임상 추론을 가르치고 평가하는 것에 대해 우리가 경험적으로 알고 있는 대부분의 내용은 진단 추론에 대한 경험과 연구를 기반으로 합니다. 그러나 관리 추론은 진단 추론과 구별되거나 진단 추론과는 다른 빈도로 요구되는 기술과 하위 과제에 중점을 둡니다. 이러한 [관리 추론 역량]에는 다음이 포함됩니다:
Most of what we know empirically about teaching and assessing clinical reasoning is based on experience and research in diagnostic reasoning. Yet management reasoning focuses on skills and subtasks that are likely distinct from, or required with different frequencies than, those of diagnostic reasoning. These management reasoning competencies include:

  • 의사 결정 과정에 환자 참여
  • 다양한 이해관계자의 잠재적으로 경쟁할 수 있는 우선순위와 선호도를 통합
  • 상황적 제약 고려
  • 다양한 지식 영역(치료 옵션, 위험/편익/비용, 지역 자원 및 제약)을 활용
  • 불확실성을 용인; 불완전한 정보를 바탕으로 결정을 내리되, 가능한 모든 대안을 충분히 고려하지 않는 것을 지양할 필요성(satisficing)
  • 수용 가능한 솔루션의 다양성을 수용
  • 시간 경과에 따른 치료 반응 모니터링
  • 치료 목표와의 편차를 인식
  • 복잡성 수용.
  • involving patients in the decision process;
  • integrating the potentially competing priorities and preferences of various stakeholders;
  • considering contextual constraints;
  • using distinct knowledge domains (treatment options, risks/benefits/costs, and local resources and constraints);
  • tolerating uncertainty, including the need to make decisions based on incomplete information and without exhaustively considering all possible alternatives (“satisficing”);
  • accepting the multiplicity of acceptable solutions;
  • monitoring treatment response over time;
  • recognizing deviations from therapeutic goals; and
  • accepting complexity.

[효과적인 관리]를 위해서는 [의사소통 기술, 검사 및 치료 비용에 대한 지식]과 같은 추가적인 역량이 필요합니다. 또한 관리 추론을 학습하려면 [학습자의 자율성과 핸즈온 연습(예: 환자 및 가족과의 토론 주도, 다양한 효율성의 관리 전략 시도, 시간 경과에 따른 치료 반응 모니터링)]을 강화해야 합니다. 그러나 오늘날의 효율성 중심적이고 안전을 중시하는 의료 환경에서는 이러한 기회가 점점 더 제한되고 있습니다.
Additional competencies, such as communication skills and knowledge of test and treatment costs, are required for effective management. We further suggest that learning management reasoning requires greater learner autonomy and hands-on practice (e.g., leading discussions with patient and family, trying out management strategies of varying efficiency, and monitoring treatment response over time). Yet such opportunities are increasingly constrained in today’s efficiency-focused, safety-conscious health care environment.


[관리 추론에 대한 평가]는 복잡성으로 가득 차 있습니다. 일반적으로 두 개 이상의 관리 계획이 방어 가능하기 때문에 관리 오류를 정의하는 것은 진단 오류를 정의하는 것보다 훨씬 더 어렵습니다. 정답이 하나도 없는 상황에서 어떻게 성과를 평가할 수 있을까요? 교육생이 [예상 답안은 아님에도 방어 가능한 관리 계획(즉, 추론은 옳지만 [정답으로 나열되지 않은] "틀린(정답 리스트에 없기 때문에" 행동)]을 제시하면 어떻게 해야 할까요? 시간이 지남에 따라 공동의 의사 결정과 치료 모니터링/조정을 평가해야 할 필요성은 더욱 어려움을 가중시킵니다.
Assessment of management reasoning is fraught with complexities. Since more than one management plan is typically defensible, defining a management error is even more difficult than defining a diagnostic error. How can performance be assessed in the absence of a single correct answer? What if a trainee comes up with an unanticipated yet defensible management plan (i.e., right reasoning but “wrong” [not listed as correct] action)? The need to assess shared decision making and monitoring/adjusting treatment over time adds further difficulty.

구술 시험, 사례 기반 차트 검토, 객관적인 구조화된 임상 검사와 같은 일부 평가는 복잡하고 독특한 관리 계획을 허용하기 위해 개발될 수 있지만, 이러한 모든 평가는 일반적으로 [정답을 가정하는 채점 체계]를 사용합니다. 스크립트 일치도 검사는 임상의의 접근 방식의 불확실성과 다양성을 수용하기 위해 점수를 조정하고자 하지만42, 점수의 타당성에 대한 우려가 제기되고 있습니다.43 많은 관리 기술의 복잡성을 모두 파악하기 위해서는 작업 기반 평가가 필요할 수 있습니다.44-47
Some assessments such as oral exams, case-based chart reviews, and objective structured clinical examinations can be developed to allow for complex and idiosyncratic management plans, but all of these typically employ a grading scheme that presumes a correct answer. The script concordance test aspires to adjust scoring to accommodate uncertainty and variation in clinicians’ approaches42; however, concerns have been raised regarding the validity of its scores.43 Work-based assessment may be required to capture the full complexity of many management skills.44–47

또한 잘못된 추론(예: 올바른 행동, 잘못된 이유)에 근거하여 [겉보기에 수용 가능한 계획]이 제안될 수 있습니다. 따라서 특정 관리 계획의 근간이 되는 인지 과정을 파악하고 평가하는 것은 계획 자체에 대한 평가를 보완할 수 있습니다. [개념 지도]48,49 및 학습자가 자신의 해석과 근거를 명확하게 표현하도록 조사하는 ["미시 분석" 기법]24,50 은 관리 추론에서 작용하는 인지 과정을 평가하는 데 도움이 될 수 있습니다.
Additionally, a seemingly acceptable plan could be proposed based on faulty reasoning (i.e., right action, wrong reason). Thus, identifying and assessing the cognitive processes that underlie a given management plan would complement an assessment of the plan itself. Concept maps48,49 and “microanalytic” techniques that probe learners to articulate their interpretations and rationale24,50 might help in the assessment of the cognitive processes at play in management reasoning.

마지막으로, 적절한 관리에는 종종 사례의 진전에 따라 계획을 모니터링하고 조정하는 것이 포함되므로, 시간 요소를 파악하는 것은 관리 추론을 평가하는 데 있어 특히 어려운 과제입니다. [종이 사례]와 [컴퓨터 기반 가상 환자]를 통해 [시간적 진화를 시뮬레이션]할 수 있지만, 이러한 접근 방식은 실제 관리 상황에서 [장기간에 걸쳐 발생하는 관찰과 숙고]를 반영하지 못할 수 있는 방식으로 시간 차원을 가속화합니다.
Finally, since appropriate management often involves monitoring and adjusting plans as the case evolves, capturing the time element represents a particular challenge in assessing management reasoning. Although paper cases and computer-based virtual patients can simulate temporal evolution, these approaches accelerate the time dimension in ways that may not reflect the prolonged observations and deliberations that occur in real-world management situations.

임상적 변화
Clinical variation

관리 추론에 대한 교육과 평가 모두 적절한 문제 스펙트럼을 제공하기에 충분한 환자 샘플과 상황적 특징이 필요합니다. 교육자는 종종 학습자가 [특정 진단을 받은 환자를 "충분히" 보고 있는지(즉, 환자 혼합)]에 대해 의문을 제기합니다51). 관리 패러다임은 이러한 문제를 [(충분히 다양한) 진단의 전체 스펙트럼]뿐만 아니라 ["충분한" 가치, 선호도, 커뮤니케이션 스타일, 상황적 변화, 시스템 제약 및 여러 솔루션]까지 포함하도록 확장합니다.
Both training in and assessment of management reasoning will require a sample of patients and situational features sufficient to provide an appropriate spectrum of problems. Educators often question whether learners are seeing “enough” patients with a given diagnosis (i.e., the patient mix51). The management paradigm extends this concern to include not only a full spectrum of diagnoses but also “enough” values, preferences, communication styles, contextual variations, system constraints, and multiple solutions.

필요한 연구 분야
Areas of Needed Research

지금까지 대부분의 임상 추론 연구는 진단 추론에 초점을 맞춰 왔으며, 현재 관리 추론에 대한 이해는 여전히 제한적입니다. 특히 우선순위가 높은 연구 분야는 다음 6가지입니다(목록 1).
Most clinical reasoning research to date has focused on diagnostic reasoning, and our current understanding of management reasoning remains limited. We identify the following 6 research areas as particularly high priority (List 1).

첫째, 진단 추론을 연구하는 데 이미 사용된 방법의 이점을 활용할 수 있지만, 관리 추론에 대한 많은 시급한 질문에 답하려면 상당히 새로운 연구 패러다임과 기법이 필요하다고 생각합니다. 연구는 [환자 선호도를 통합]하고, [환자 상태의 시간적 변화]를 고려할 수 있어야 하며, 이는 [전통적인(정적) 비네트, 컴퓨터 가상 환자, 표준화된 환자, 실제 환자의 조합]을 사용하여 달성할 수 있습니다.52-55 관리 추론 결과와 근본적인 인지 과정을 측정하려면 관리 결정의 수용 가능성, 공유 의사 결정의 효과, 계획이 시간에 따라 어떻게 모니터링되고 조정되는지(즉, 종적 치료) 조사하는 새로운 접근 방식이 필요할 것입니다. 정량적 실험 방법은 질적 방법, 비선형 정량적 접근법(복잡성 과학56) 및 기타 새로운 연구 패러다임으로 보완되어야 할 것입니다. 관리 추론 기술의 유지와 실제 진료에서의 적용이 핵심적인 결과가 될 것이지만, 현재까지 관리 추론의 임상적 영향을 입증하는 증거는 거의 없습니다. 환자 결과는 진단 결정보다 관리 조치에 더 직접적인 영향을 받기 때문에 관리 추론에 대한 조사는 임상 결과를 사용하는 교육 연구에 공통적인 몇 가지 한계를 극복할 수 있습니다.57
First, although research will benefit from methods already used to study diagnostic reasoning, we believe that answering many of the pressing questions about management reasoning will necessitate substantially new research paradigms and techniques. Research must allow for integration of patient preferences and for the temporal evolution of the patient’s condition; this might be accomplished using combinations of traditional (static) vignettes, computerized virtual patients, standardized patients, and real patients.52–55 Measurement of management reasoning outcomes and underlying cognitive processes will require novel approaches that examine the acceptability of management decisions, the effectiveness of shared decision making, and how plans are monitored and adjusted over time (i.e., longitudinal care). Quantitative experimental methods will need to be complemented by qualitative methods, nonlinear quantitative approaches (complexity science56), and other emerging research paradigms. Retention of management reasoning skills, and application in real-life practice, will be key outcomes; to date, there is little evidence documenting the clinical impact of management reasoning. Since patient outcomes are more directly influenced by management actions than by diagnostic decisions, investigations of management reasoning might overcome some of the limitations common to education research that uses clinical outcomes.57

둘째, 관리 추론은 비분석적 과정(자동, 시스템 1)과 분석적 과정(의도적, 노력적, 시스템 2)의 균형을 반영한다고 가정하지만, 상대적 기여도는 아직 알려지지 않았습니다. [진단 추론]에 대한 연구에 따르면 [초보 수련의]는 분석적 추론에 더 많이 의존하는 반면, [전문가]는 일반적으로 비분석적 추론을 더 많이 사용합니다.5,9,11 그러나 관리 추론이 본질적으로 진단적 추론보다 더 분석적(의도적, 계획적, 체계적)일 수 있다는 것은 그럴듯해 보입니다. 치료 비용과 혜택에 대한 명시적인 고려, 관리 결정을 안내하는 루브릭 사용, 사려 깊은 공유 의사 결정은 모두 느리고 신중한 프로세스를 시사합니다. 또한 각 환자의 고유한 상황과 선호도로 인해 진단보다 관리에서 패턴을 쉽게 식별하고 정리하기 어려울 수 있습니다. 현대의 관리 추론은 종종 인간과 컴퓨터(예: 현장 진료 지식 리소스 및 의사 결정 지원 시스템58-60) 간의 상호 작용을 포함하며, 이는 복잡성을 더욱 가중시킵니다. 이러한 가정이 어느 정도 사실인지, 그리고 이러한 효과가 임상 상황에 따라 어떻게 달라지고 임상의의 선호도, 무의식적 편견, 전문성 수준에 따라 어떻게 영향을 받는지는 더 연구해 볼 필요가 있습니다. 
Second, we presume that management reasoning reflects a balance of nonanalytical processes (automatic; system 1) and analytical processes (deliberate, effortful; system 2), yet the relative contributions remain unknown. Research in diagnostic reasoning suggests that novice trainees rely more on analytical reasoning, whereas experts typically use more nonanalytical reasoning.5,9,11 However, it seems plausible that management reasoning may be inherently more analytic (deliberate, planned, and systematic) than diagnostic reasoning. Explicit consideration of treatment costs and benefits, use of rubrics to guide management decisions, and thoughtful shared decision making all suggest a slow, deliberate process. Moreover, each patient’s unique circumstances and preferences may make patterns less readily discerned and compiled in management than in diagnosis. Modern management reasoning often involves interactions between humans and computers (e.g., point-of-care knowledge resources and decision support systems58–60), which add further layers of complexity. The extent to which these suppositions are true, and how these effects vary across clinical contexts and are influenced by clinicians’ preferences, unconscious biases, and levels of expertise, merits further exploration.

셋째, 특정 분야의 진단 추론은 해당 영역에 대한 지식과 밀접하게 연결되어 있으며, 즉 [진단 능력]은 [일반적인 기술]이라기보다는 [내용 및 맥락에 따라 달라집니다]. 이는 [관리 추론]에서도 크게 다르지 않을 것으로 추정됩니다. 그러나 관리 작업의 일부 측면이 콘텐츠 영역(임상 문제 및 환경)에 걸쳐 일반화될 수 있습니다. 여기에는 공유된 의사 결정, 비용을 고려한 치료, 후속 조치 모니터링, 불확실성 수용 및 "충분히 좋은" 진단과 계획에 대한 일반적인 접근 방식이 포함될 수 있습니다. 물론 좋은 진단과 좋은 관리에는 모두 좋은 정보가 필요합니다. 근거 기반 의학 분야는 환자 중심 치료에서 경험적 증거를 식별, 평가 및 적용하는 접근 방식을 명확히 해왔습니다. 관리 추론의 개념화는 처음 두 단계(식별 및 평가)의 성취를 전제로 하며 마지막 단계(적용)를 자세히 설명합니다.
Third, diagnostic reasoning in a given field is tightly linked with knowledge of that domain; that is, diagnostic ability is content- and context-specific rather than a general skill. We presume that this is largely true for management reasoning as well. However, it is possible that some aspects of the management task generalize across content domains (clinical problems and settings). These might include general approaches to shared decision making, cost-conscious care, monitoring of follow-up, and accepting uncertainty and a “good enough” diagnosis and plan. Of course, good diagnosis and good management both require good information. The field of evidence-based medicine has clarified approaches to identifying, appraising, and applying empirical evidence in patient-centered care. Our conceptualization of management reasoning presumes achievement of the first 2 steps (identifying and appraising) and elaborates upon the last (applying).

넷째, 공유 의사결정은 임상 의학61-63 및 의학교육64-66 분야에서 활발히 연구되고 있는 분야이며, 이러한 연구를 통해 얻은 통찰력을 통해 경영 추론에 대한 이해가 더욱 풍부해질 것입니다. 임상의의 개인적 선호도도 중요하지만,67-69 이러한 선호도를 파악하고 적절히 수용하는 방법은 아직 불완전하게 이해되고 있습니다.70-72 의료 기관과 사회의 가치와 우선순위를 수용하는 것도 마찬가지입니다. 
Fourth, shared decision making is an area of active research in both clinical medicine61–63 and medical education,64–66 and our understanding of management reasoning will be enriched by the insights that emerge from such studies. The personal preferences of the clinician are also important,67–69 yet how to identify and appropriately accommodate such preferences remains incompletely understood.70–72 The same is true for accommodating the values and priorities of the health care institution and of society.

다섯째, 우리는 관리 추론을 최적으로 가르치거나 평가하는 방법을 모릅니다. 교육에는 공유된 의사 결정, 이해관계자 선호도 통합, 치료 반응 모니터링, 복잡성 수용, 불완전한 정보에 따른 행동과 같은 기술에 대한 더 많은 관심이 수반될 수 있습니다. 교육 연속체 내에서 교육 전략과 교육 시기는 모두 신중하게 고려하고 연구해야 합니다. 위에서 제안한 바와 같이, 관리 추론의 평가에는 여러 방어 가능한 솔루션을 수용하고 공유된 의사 결정과 시간 경과에 따른 치료 모니터링 및 조정 능력을 평가하는 혁신적인 접근 방식이 필요합니다. 최근 임상적 추론의 평가 방법에 대한 검토에서 확인된 옵션이 유용할 수 있습니다.73 
Fifth, we do not know how to optimally teach or assess management reasoning. Training might entail increased attention to skills such as shared decision making, integrating stakeholder preferences, monitoring treatment response, accepting complexity, and acting on incomplete information. Both instructional strategies and timing of instruction within the training continuum will need to be thoughtfully considered and studied. As we suggested above, assessment of management reasoning will require innovative approaches that accommodate multiple defensible solutions and that assess shared decision making and the ability to monitor and adjust treatment over time. Options identified in a recent review of methods for assessment of clinical reasoning may prove useful.73

마지막으로, 임상 진료에서 효과적이고 효율적인 관리 추론을 지원하는 방법에 대한 우리의 이해는 불완전합니다. 관리가 실제로 진단보다 더 분석적이고 인지 패턴의 발달이 느리다면, 많은 [관리 작업의 인지 부하]가 최적의 성과를 위한 수준을 초과할 가능성이 높습니다. [인지 과부하]는 결국 비효율성(느린 성능), 인지적 지름길 및 오류, 그리고/또는 임상의와 환자 모두에게 불만을 초래할 수 있습니다. 임상 분야의 연구와 혁신은 이미 임상 추론을 실제로 지원하는 방법의 문제점과 잠재적 해결책을 모두 확인했습니다.4,74-76 [진단 추론] 및 [관리 추론]이라는 서로 다른 렌즈를 통해 이러한 문제를 바라보면 추가적인 통찰력을 얻을 수 있습니다. 
Finally, our understanding is incomplete regarding how to support effective, efficient management reasoning in clinical practice. If management is indeed more analytic than diagnosis, and if cognitive patterns are slow to develop, then the cognitive load of many management tasks likely exceeds the level for optimal performance. Cognitive overload, in turn, may result in inefficiency (slow performance), cognitive shortcuts and errors, and/or frustration for both clinicians and patients. Research and innovations in clinical practice have already identified both problems and potential solutions in how to support clinical reasoning in practice.4,74–76 Viewing these issues through the distinct lenses of diagnostic and management reasoning may facilitate additional insights.



Acad Med. 2019 Sep;94(9):1310-1316. doi: 10.1097/ACM.0000000000002768.


Management Reasoning: Implications for Health Professions Educators and a Research Agenda

Affiliations collapse

1D.A. Cook is professor of medicine and medical education, director of education science, Office of Applied Scholarship and Education Science, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine and Science, Rochester, Minnesota; ORCID: S.J. Durning is professor of medicine and director, Division of Health Professions Education, Uniformed Services University of the Health Sciences, Bethesda, Maryland. J. Sherbino is assistant dean, Health Professions Education Research, Faculty of Health Sciences, and professor, Department of Medicine, McMaster University, Hamilton, Ontario, Canada. L.D. Gruppen is professor, Department of Learning Health Sciences, and director, Master of Health Professions Education Program, University of Michigan Medical School, Ann Arbor, Michigan.

PMID: 31460922

DOI: 10.1097/ACM.0000000000002768


Substantial research has illuminated the clinical reasoning processes involved in diagnosis (diagnostic reasoning). Far less is known about the processes entailed in patient management (management reasoning), including decisions about treatment, further testing, follow-up visits, and allocation of limited resources. The authors' purpose is to articulate key differences between diagnostic and management reasoning, implications for health professions education, and areas of needed research.Diagnostic reasoning focuses primarily on classification (i.e., assigning meaningful labels to a pattern of symptoms, signs, and test results). Management reasoning involves negotiation of a plan and ongoing monitoring/adjustment of that plan. A diagnosis can usually be established as correct or incorrect, whereas there are typically multiple reasonable management approaches. Patient preferences, clinician attitudes, clinical contexts, and logistical constraints should not influence diagnosis, whereas management nearly always involves prioritization among such factors. Diagnostic classifications do not necessarily require direct patient interaction, whereas management prioritizations require communication and negotiation. Diagnoses can be defined at a single time point (given enough information), whereas management decisions are expected to evolve over time. Finally, management is typically more complex than diagnosis.Management reasoning may require educational approaches distinct from those used for diagnostic reasoning, including teaching distinct skills (e.g., negotiating with patients, tolerating uncertainty, and monitoring treatment) and developing assessments that account for underlying reasoning processes and multiple acceptable solutions.Areas of needed research include if and how cognitive processes differ for management and diagnostic reasoning, how and when management reasoning abilities develop, and how to support management reasoning in clinical practice.

학부의학교육에서 임상추론 교육과정 내용에 대한 합의문(Med Teach, 2021)
Consensus statement on the content of clinical reasoning curricula in undergraduate medical education
Nicola Coopera , Maggie Bartlettb , Simon Gayc , Anna Hammondd, Mark Lillicrape, Joanna Matthanf , Mini Singhg On behalf of the UK Clinical Reasoning in Medical Education (CReME) consensus statement group




임상 추론은 '임상의가 환자를 진단하고 치료하기 위해 데이터를 [관찰, 수집, 해석]하는 [기술, 과정 또는 결과]로 정의할 수 있습니다. 임상 추론은 [환자의 고유한 상황과 선호도, 진료 환경의 특성]과 같은 [맥락적 요인]과 상호작용하는 [의식적 및 무의식적 인지 작용]을 수반합니다'(Daniel 외. 2019).
Clinical reasoning can be defined as, A skill, process, or outcome wherein clinicians observe, collect and interpret data to diagnose and treat patients. Clinical reasoning entails both conscious and unconscious cognitive operations interacting with contextual factors such as the patient’s unique circumstances and preferences and the characteristics of the practice environment (Daniel et al. 2019).

임상 추론은 특히 [진단 오류]와 관련하여 임상 실습에서 중요하기 때문에 교육자들이 관심을 갖는 주제입니다. 진단 오류는 흔한 질병에서 발생하는 경향이 있으며(Gunderson 외. 2020), 전 세계적으로 환자에게 예방 가능한 피해를 입히는 중요한 원인입니다(Tehrani 외. 2013; 세계보건기구 2016). [사용 가능한 모든 정보를 올바르게 종합하지 못하거나 신체 검사 결과 또는 검사 결과를 적절하게 사용하지 못하는] 등의 [인지적 실패]가 대부분의 [진단 오류]에 기여하는 것으로 밝혀졌습니다(Graber 외. 2005). 미국 의학 아카데미의 중요한 보고서인 '의료 진단의 개선'(2015)에 따르면 의료의 질과 안전을 개선하기 위한 노력에서 진단 및 진단 오류가 크게 인식되지 않고 있다고 합니다. 이 보고서는 학습 과학의 증거에 부합하는 교육적 접근 방식을 사용하여 진단 과정에서의 교육을 명시적으로 다루는 커리큘럼을 요구했습니다.
Clinical reasoning is of interest to educators because of its importance in clinical practice, particularly in relation to diagnostic error. Diagnostic errors tend to occur in common diseases (Gunderson et al. 2020) and are a significant cause of preventable harm to patients worldwide (Tehrani et al. 2013; World Health Organization 2016). Cognitive failures, such as failure to synthesise all the available information correctly or failure to use the physical examination findings or test results appropriately, have been found to contribute to the majority of diagnostic errors (Graber et al. 2005). The National Academy of Medicine’s seminal report Improving Diagnosis in Health Care (2015) found that diagnosis and diagnostic errors have been largely unappreciated in efforts to improve the quality and safety of healthcare. It called for curricula to explicitly address teaching in the diagnostic process using educational approaches that are aligned with evidence from the learning sciences.

학부 의학 커리큘럼은 병력 청취, 신체 검사, 감별 진단 등 [진단 과정의 기본 요소]에 대한 교육을 제공합니다. 그러나 학생과 대학원 수련생은 효과적인 임상 추론에 필요한 지식, 기술 및 행동을 경험과 견습을 통해 [암묵적으로 습득]하는 경우가 많습니다(Graber 외. 2018). 정확한 진단을 위해서는 역학, 기초 과학 및 임상의학에 대한 지식이 필요하지만, 임상 추론의 몇 가지 구성 요소가 설명되어 있습니다. 각 구성 요소에는 특정 지식, 기술 및 행동이 필요하지만 일부 커리큘럼에서는 명시적으로 강조되지 않을 수 있습니다. 예를 들면, 다음이 있습니다.

  • 진단 검사 결과의 정확한 해석(Whiting 외. 2015),
  • 진단 정확도와 상관관계가 있는 문제 표현 생성(Bordage 1994),
  • 환자의 결과를 개선하는 공유된 의사 결정(미국 과학, 공학 및 의학 아카데미 2015) 

미국 의과대학을 대상으로 실시한 한 설문조사에서 내과 임상실습 책임자의 84%는 학생들이 주요 임상 추론 개념에 대한 지식이 부족하거나 기껏해야 보통 정도 수준으로 임상실습에 들어갔으며, 대부분의 교육기관에서 이러한 주제에 대한 세션이 부족하다고 답했으며, 그 이유로 [시간과 교수진의 전문성 부족]을 꼽았습니다(Rencic 외. 2017). 진단과 관련된 교육에 관한 출판된 문헌을 검토한 Graber 등(2018)은 기존 교육 프로그램이 진단 안전에 관한 적절한 교육을 제공하지 못할 수 있음을 발견했습니다.
Undergraduate medical curricula provide instruction in the basic elements of the diagnostic process, for example taking a history, performing a physical examination, and generating a differential diagnosis. However, students and postgraduate trainees largely learn the knowledge, skills and behaviours required for effective clinical reasoning implicitly, through experience and apprenticeship (Graber et al. 2018). While accurate diagnosis requires knowledge of epidemiology, basic sciences and clinical medicine, several components of clinical reasoning have been described. They each require specific knowledge, skills and behaviours but may not be explicitly emphasised in some curricula. Examples include:

  • accurate interpretation of diagnostic test results, which has been shown to be poor (Whiting et al. 2015);
  • generating a problem representation, which correlates with diagnostic accuracy (Bordage 1994); and
  • shared decision making, which improves outcomes for patients (National Academies of Sciences, Engineering, and Medicine 2015).

In one survey of US medical schools, 84% of internal medicine clerkship directors indicated that students entered clinical clerkships with poor, or at best fair, knowledge of key clinical reasoning concepts and most institutions lacked sessions dedicated to these topics, citing lack of both time and faculty expertise (Rencic et al. 2017). In reviewing the published literature on education related to diagnosis, Graber et al. (2018) found that existing training programmes may not provide adequate education regarding diagnostic safety.

의과대학 및 대학원 수련 프로그램에서 임상 추론을 현재의 근거에 부합하는 [체계적인 접근 방식]을 채택하여 프로그램의 [각 학년별 과정에 명시적으로 통합된 방식으로 가르쳐야 한다]는 공감대가 확산되고 있습니다(Trowbridge 외. 2015). 그러나 임상 추론 문헌은 '단편적'으로 기술되어 있어(Young 등. 2018) 의학교육자가 접근하고 채택하기 어려울 수 있습니다. 전문가 합의와 최신 근거에 대한 검토를 바탕으로 무엇을 어떻게 가르쳐야 하는지를 모두 다루는 임상 추론 커리큘럼은 거의 존재하지 않습니다. 따라서 이 백서의 목적은 의학 교사, 커리큘럼 기획자 및 정책 입안자에게 학부 의학교육에서 임상 추론 커리큘럼의 내용에 대한 실질적인 권장 사항을 제공하는 것입니다. 이러한 권장 사항은 향후 연구를 위한 프레임워크도 제공할 수 있습니다. 임상 추론 평가 방법에 대한 실용적인 권장 사항은 다른 곳에서 발표되었습니다(Daniel 외. 2019).
There is a growing consensus that medical schools and postgraduate training programmes should teach clinical reasoning in a way that is explicitly integrated into courses throughout each year of the programme, adopting a systematic approach consistent with current evidence (Trowbridge et al. 2015). However, the clinical reasoning literature has been described as ‘fragmented’ (Young et al. 2018) and consequently can be difficult for medical educators to access and adopt. Few published clinical reasoning curricula exist covering both what should be taught and how it should be taught, based on expert consensus and a review of current evidence. The purpose of this paper is therefore to provide medical teachers, curriculum planners and policy makers with practical recommendations on the content of clinical reasoning curricula in undergraduate medical education. These recommendations may also provide a framework for future research. Practical recommendations for clinical reasoning assessment methods have been published elsewhere (Daniel et al. 2019).


이 백서의 권장사항은 영국 임상 추론 의학교육 그룹(CReME)의 회원들이 12개월에 걸친 일련의 회의를 통해 개발했습니다. CReME는 영국 의과대학의 절반 이상을 대표하는 사람들로 구성되어 있으며, 이들 중 다수는 학부 의학 커리큘럼과 임상 추론 교육에 대한 구체적인 책임도 가지고 있습니다. 권고안을 개발하기 위해 3단계 접근 방식이 사용되었습니다. 첫 번째 단계에서는 12개 의과대학의 20명이 하루 종일 회의에 참석하여 의과대학에서 제공해야 할 임상 추론 관련 교육 목록(무엇을 가르쳐야 할 것인가)을 파악했습니다. 제출된 모든 아이디어를 공유하고 토론하여 중복되는 내용을 제거하고, 토론 내용을 바탕으로 필요한 경우 추가 내용을 추가했습니다. 이 과정을 거쳐 30개의 아이디어가 기록되었습니다. 이러한 아이디어는 임상 추론 교육의 5가지 영역으로 분류한 다음 영국 일반 의학 교육 과정과 매핑했습니다. 
The recommendations in this paper were developed by members of the UK Clinical Reasoning in Medical Education group (CReME) in a series of meetings over a twelve-month period. CReME consists of representatives from over half of UK medical schools, many of whom also have specific responsibility for undergraduate medical curricula and clinical reasoning education. A three-stage approach was used to develop the recommendations. In the first stage, 20 members from 12 medical schools attended a whole-day meeting to identify a list of clinical reasoning-specific teaching that should be delivered by medical schools (what to teach). All the submitted ideas were shared and discussed, duplicates removed, and further content added if required, based on the discussions. Following this process, 30 ideas were recorded. These were grouped into five domains of clinical reasoning education and then mapped against the UK General Medical Council’s ‘Outcomes for Graduates’ (General Medical Council 2018) to allow educators to see how they might fit into a curriculum mapping process.

두 번째 단계에서는 의대생의 임상 추론 능력 향상에 효과적인 교수 전략(교수법)을 파악하기 위해 문헌 고찰을 실시하였습니다. 문헌 고찰은 '임상 추론', '임상 의사결정', '진단 추론', '진단 의사결정', '의대생', '교육', '커리큘럼' 등의 용어를 사용하여 전자 데이터베이스 MEDLINE, PsycINFO, CINAHL, EMBASE, ERIC 및 Google Scholar를 통해 최근 30년 이내에 발표된 영어 논문을 대상으로 수행되었습니다. 의대생의 임상 추론 능력을 향상시키기 위해 고안된 교육 중재를 설명하고 경험적 결과를 기술한 영어 논문도 포함되었습니다. 학생/교수 평가 유무에 관계없이 임상 추론 교육에 대한 특정 접근법을 설명하는 논문은 제외되었습니다. 이러한 포함 및 제외 기준에 따라 27개의 적격 논문이 선정되었습니다. 포함된 연구들은 다양한 연구 설계를 사용하여 광범위한 전략을 설명했기 때문에 합의문을 알리기 위한 목적으로 연구 결과를 분류하고 설명하는 것 외에 체계적으로 정리하려는 시도는 하지 않았습니다. PRISMA 도표는 보충 파일 2에 나와 있습니다. 포함 기준을 충족하지 못했지만 인용된 근거(예: 리뷰 논문)도 권고안을 알리는 데 사용되었습니다. 
In the second stage, a literature review was conducted to identify teaching strategies that are successful in improving the clinical reasoning ability of medical students (how to teach). The literature review was conducted of English language papers published within the last 30 years through the electronic databases MEDLINE, PsycINFO, CINAHL, EMBASE, ERIC and Google Scholar using the terms ‘clinical reasoning’ OR ‘clinical decision making’ OR ‘diagnostic reasoning’ OR ‘diagnostic decision making’ AND ‘medical students’ OR ‘teaching’ OR ‘curriculum’. English language articles that described a teaching intervention designed to improve clinical reasoning ability among medical students, which also described empirical findings, were included. Articles that merely described a particular approach to teaching clinical reasoning, with or without student/faculty evaluation, were excluded. These inclusion and exclusion criteria resulted in 27 eligible articles. The included studies described a wide range of strategies, using variable study designs, so no attempt was made to systematically organise the findings other than to categorise and describe them with the purpose of informing the consensus statement. A PRISMA diagram is shown in Supplementary File 2. Articles that did not meet the inclusion criteria but cited evidence (e.g., review articles) were also used to inform the recommendations.

마지막 단계에서는 이러한 연구 결과를 바탕으로 학부 임상 추론 커리큘럼의 내용에 대한 실질적인 권고안을 합의문 형태로 작성하여 합의문 그룹의 모든 구성원에게 배포하여 의견을 구했습니다. 이 최종 반복 과정은 이메일 토론을 통해 진행되었습니다. 그런 다음 최종 성명서를 작성하고 저자들이 승인했습니다. 
In the final stage, practical recommendations for the content of undergraduate clinical reasoning curricula were made based on these findings in the form of a consensus statement and the text was circulated to all the members of the consensus statement group for comments. This final iterative process was undertaken through e-mail discussions. The final statement was then written and approved by the authors.


임상 추론 교육의 영역(무엇을 가르칠 것인가)
Domains of clinical reasoning education (what to teach)

합의된 의견은 임상 추론 교육의 다섯 가지 영역으로 분류되었습니다:
The agreed consensus ideas were grouped in to five domains of clinical reasoning education:

  1. 임상 추론 개념
  2. 병력 및 신체 검사
  3. 진단 검사 선택 및 해석
  4. 문제 식별 및 관리
  5. 공유된 의사 결정.
  6. Clinical reasoning concepts
  7. History and physical examination
  8. Choosing and interpreting diagnostic tests
  9. Problem identification and management
  10. Shared decision making.

이러한 영역은 표 1과 아래 텍스트에서 자세히 설명합니다. 부록 파일 1에는 영국 일반의협의회의 '졸업생 성과'(일반의협의회 2018)에 매핑된 개별 합의 아이디어가 나열되어 있으며, 5년 프로그램 동안 언제 교육해야 하는지에 대한 제안도 포함되어 있습니다.
These domains are expanded on in Table 1 and in the text below. Supplementary File 1 lists the individual consensus ideas, mapped against the UK General Medical Council’s ‘Outcomes for Graduates’ (General Medical Council 2018), and also includes suggestions for when to teach during a 5 year programme.

임상 추론 개념
Clinical reasoning concepts

의미 있는 토론과 학습을 촉진하기 위해서는 교사와 학습자 모두 [임상 추론에 대한 정의, 어휘 및 개념]을 공유하는 것이 중요합니다(Wu 2018). 주요 이론(예: 스크립트, 이중 과정), 임상 추론 능력의 발달 과정, 진단 오류의 문제, 환자를 위한 안전하고 효과적인 치료에서 임상 추론의 역할, 인지 오류 및 임상 추론 과정 또는 결과를 손상시킬 수 있는 기타 요인은 의과대학에서 가르쳐야 하며 프로그램 전반에 걸쳐 과정에 통합되어 있어야 합니다.

It is important for both teachers and learners to have a shared definition, vocabulary and concepts for clinical reasoning in order to facilitate meaningful discussion and learning (Wu 2018). Key theories (e.g., script, dual process), how clinical reasoning ability develops, the problem of diagnostic error, the role of clinical reasoning in safe and effective care for patients, cognitive errors and other factors that may impair the clinical reasoning process or outcome should be taught in medical schools and integrated into courses throughout the programme.

병력 및 신체 검사
History and physical examination

[효과적인 의사소통 기술]은 환자, 친척 또는 보호자로부터 정보를 이끌어내고 신뢰를 얻는 데 필수적입니다. 학부 의학교육의 의사소통 커리큘럼 내용에 대한 영국 합의 성명서(Noble 외. 2018)는 의사소통 기술 개발을 위한 프레임워크를 제시하고 핵심 내용을 권장합니다. 또한 졸업 시점에 학습자는 환자의 병력이 환자 이외의 출처(예: 친척, 간병인, 구급차 시트, 의료 기록)에서도 나올 수 있다는 점을 인식해야 합니다. 학습자는 [의도적으로 정보를 수집]하고 [가설 중심의 질문]을 통해 환자의 증상을 탐색할 수 있어야 합니다(Hasnain 외. 2001). 이는 가설을 확인하거나 반박하기 위해 [신체 검사 결과를 예상]하고, 실제 진단에 도달하거나 새로운 가설을 생성하기 위해 결과를 도출하고 해석하는 [신체 검사 기동을 수행해야 하는 신체 검사로 확장]됩니다(Yudkowsky 외. 2009).
Effective communication skills are vital in eliciting information and gaining trust from a patient, relative or carer. The UK consensus statement on the content of communication curricula in undergraduate medical education (Noble et al. 2018) presents a framework and recommends key content for the development of communication skills. In addition, by graduation, learners should appreciate that a patient’s history may also come from sources other than the patient (e.g., relatives, carers, ambulance sheet, medical records). They should be able to purposefully gather information and explore patients’ symptoms through hypothesis-driven enquiry (Hasnain et al. 2001). This extends to the physical examination which should involve anticipating physical examination findings to confirm or refute hypotheses and performing physical examination manoeuvres to elicit and interpret findings in order to reach a working diagnosis or generate new hypotheses (Yudkowsky et al. 2009).

학습자는 역학에 대한 지식, 특정 질병에서 특정 증상 및 징후가 나타날 확률(상자 1의 예시 참조) 및 해당되는 경우 가능성 비율을 사용하여 [병력 및 신체검사의 데이터를 정확하게 종합]하여 [질병의 임상적 확률을 판단]할 수 있어야 합니다. 초기에는 질병에 대한 일반적인 설명과 간단한 특징 목록을 가르칠 수 있지만, 졸업할 때까지 학습자는 현지 상황과 관련하여 [많은 환자가 교과서에 설명된 질병의 전형적인 특징을 나타내지 않는다]는 것을 명확하게 이해해야 합니다(Manzoor 및 Redelmeier 2019). 학습자는 정상 결과와 부수적인 소견을 포함한 진단 검사 결과를 정확하게 해석하기 위해 질병의 임상적 확률을 추정할 수 있어야 합니다. 
Learners should be able to accurately synthesise data from the history and physical examination to judge the clinical probability of disease using their knowledge of epidemiology, the probability of the presence of particular symptoms and signs in specific diseases (see example in Box 1) and likelihood ratios, where relevant. While typical presentations of diseases and simple lists of features may be taught in the early years, by graduation learners should have a clear understanding, relevant to their local context, that many patients do not present with the classical features of diseases as described in textbooks (Manzoor and Redelmeier 2019). Learners need to be able to estimate the clinical probability of disease in order to be able to accurately interpret diagnostic test results, including normal results and incidental findings.


진단 검사 선택 및 해석
Choosing and interpreting diagnostic tests

졸업 시 학습자는 [임상(검사 전) 확률, 민감도 및 특이도, 검사 후 확률, 질병 유병률, 예측값, 검사 결과에 영향을 미치는 질병 이외의 요인, 현지 상황과 관련된 일반적으로 사용되는 검사의 중요한 특징] 등의 개념에 대한 실질적인 이해를 입증할 수 있어야 합니다. 학습자는 많은 검사 결과가 임상 소견에 비추어 [해석이 필요하다는 것]을 알고 임상 추론 과정에서 이 지식을 적용할 수 있어야 합니다. 학습자는 특정 검사가 어떤 질문에 답할 수 있는지에 대한 지식을 바탕으로 조사를 제안할 수 있어야 하며, 적절한 조사에 관한 결정을 돕기 위해 근거 기반 지침 및 의사 결정 보조 도구를 사용할 수 있어야 합니다.
By graduation, learners should be able to demonstrate a practical understanding of concepts such as clinical (pre-test) probability, sensitivity and specificity, post-test probability, prevalence of disease, predictive values, factors other than disease that influence test results and important characteristics of commonly used tests relevant to their local context. Learners should know that many test results require interpretation in the light of clinical findings and they should be able to apply this knowledge during the clinical reasoning process. They should be able to suggest investigations based on knowledge of what question a particular test can answer, and be able to use evidence-based guidelines and decision aids to assist in their decisions regarding appropriate investigations.

문제 식별 및 관리
Problem identification and management

졸업 시 학습자는 [문제 표현을 정확하게 공식화]하고, 이를 바탕으로 ['반드시 놓치지 말아야 할' 진단을 포함하여 우선순위를 정하여 감별 진단을 구성]할 수 있어야 합니다. 때로는 [두 가지 이상의 문제]가 있을 수 있으며, 이러한 상황에서 학습자는 문제 목록을 구성할 수 있어야 합니다. 잠재적 진단을 생각하기 전에 [의미적 한정어와 정확한 의학 용어를 사용하여 문제를 명확하게 '캡슐화'하는 능력]은 사례와 관련된 장기 기억에서 지식을 구성하고 검색하는 데 도움이 되는 중요한 기술이며, 특히 복잡한 사례에서 진단 정확도를 높이는 것과 관련이 있습니다(Bordage 1994).
By graduation, learners should be able to accurately formulate a problem representation and, based on this, construct a prioritised differential diagnosis, including relevant ‘must-not-miss’ diagnoses. Sometimes there is more than one problem, and in these situations learners need to be able to construct a problem list. The ability to ‘encapsulate’ a problem clearly, using semantic qualifiers and precise medical terms, before thinking through potential diagnoses, is an important skill that helps to organise and retrieve knowledge from long term memory relevant to the case and is associated with higher diagnostic accuracy, particularly in complex cases (Bordage 1994).

때로는 진단을 내릴 수 없는 경우도 있으므로 학습자는 [진단의 불확실성을 관리하는 방법]을 배워야 합니다(Ilgen 외. 2019; Gheihman 외. 2020). 학습자는 졸업 시점에 이 환자에게 [가장 가능성이 높은 진단이 무엇인지, 안전하게 배제할 수 있는 진단은 무엇인지, 드물지만 반드시 배제해야 하는 심각한 진단은 없는지] 결정할 수 있어야 합니다(Murtagh 1990). 이러한 상황에서는 '이 환자의 상태가 얼마나 좋은가, 좋지 않은가' 또는 '선배 동료를 참여시켜야 하는가, 얼마나 긴급한가'와 같은 결정이 내려질 수 있으며, 고급 학습자에게는 이러한 상황에서 감독하에 결정을 내릴 수 있는 기회가 제공되어야 합니다. 
Sometimes, it is not possible to make a diagnosis and learners must learn to manage diagnostic uncertainty (Ilgen et al. 2019; Gheihman et al. 2020). By graduation, learners should be able to decide what is the most likely diagnosis for this patient at this point in time, what can be safely excluded and whether there are any rare but serious diagnoses that must be excluded (Murtagh 1990). At such times the decision may be, ‘How well or unwell is this patient?’ or ‘Should I involve a senior colleague and how urgently?’ and advanced learners need to be provided with opportunities to make supervised decisions in these situations.

임상 추론 문헌에서는 결과가 진단으로 간주되는 경우가 많지만, 임상에서는 그렇지 않은 경우가 많습니다(Ilgen 외. 2016; Cook 외. 2018). 적절한 관리 계획의 개발은 때때로 문제 목록이나 감별 진단보다 더 복잡할 수 있습니다. [진단]은 환자의 증상과 징후 또는 진단 검사에 의해 결정되며, 여기에는 식별 가능한 문제, 해결책 및 상호 작용하는 요인의 범위가 한정되어 있습니다. 그러나 특정 진단에 대해 [다양한 잠재적 관리 옵션]이 있을 수 있으며, 모든 옵션이 적절할 수 있지만 환자 선호도, 동반 질환, 자원, 비용 효율성 및 지역 정책을 포함한 여러 요인에 따라 달라질 수 있습니다. 학습자는 관리 계획을 수립하는 과정에서 이러한 요소를 고려할 수 있어야 합니다(Cook 외. 2018).
In the clinical reasoning literature, the outcome is often considered to be the diagnosis, but this is often not the case in clinical practice (Ilgen et al. 2016; Cook et al. 2018). The development of an appropriate management plan may sometimes be more complex than that of a problem list or differential diagnosis. Diagnoses are determined by a patient’s symptoms and signs or diagnostic tests, in which there is a finite range of identifiable problems, solutions and interacting factors. However, for any given diagnosis, there may be numerous potential management options, all of which may be appropriate but dependent on a number of factors including patient preferences, co-morbidities, resources, cost-effectiveness and local policies. The learner needs to be able to take these factors into account in the process of formulating a management plan (Cook et al. 2018).

또한 학습자는 [메타인지적 지식과 비판적 사고]를 사용하여 성과를 개선할 수 있어야 합니다(Krathwohl 2002; Olson, Rencic 등, 2019). 영국에서는 시스템과 인적 요인에 중점을 둔 환자안전 교육이 학부 및 대학원 의학교육에서 확립되고 있지만(General Medical Council 2015), 효과적인 임상 추론을 위해서는 인지 전략에도 중점을 두어야 합니다. 가이드 반영은 진단 성과를 개선하고 임상 지식의 학습을 촉진하는 것으로 나타났으며(Chamberland 외. 2015; Prakash 외. 2019), 이 과정은 교육자가 촉진해야 합니다.  
Learners should also be able to use metacognitive knowledge and critical thinking to improve their performance (Krathwohl 2002; Olson, Rencic, et al. 2019). In the UK, patient safety training, with a focus on systems and human factors, is becoming established in undergraduate and postgraduate medical education (General Medical Council 2015), but effective clinical reasoning also requires a focus on cognitive strategies. Guided reflection has been shown to improve diagnostic performance and foster the learning of clinical knowledge (Chamberland et al. 2015; Prakash et al. 2019) and this process should be facilitated by educators.

공유된 의사 결정
Shared decision making

학습자는 졸업할 때까지 [공동 의사 결정]에 필요한 기술을 개발해야 합니다. 공동 의사결정을 위해서는 [효과적인 의사소통과 타인의 가치를 파악하고 이해하는 능력]이 필요합니다(Elwyn 외. 2012; Fulford 외. 2012). [관리 의사결정]은 종종 환자 및 보호자와 공동으로 이루어지지만, [공유 의사결정은 팀, 근거 기반 지침, 기술, 점수 및 의사결정 보조 도구도 의미합니다]. 학습자는 실제 상황에서 지식은 '머릿속에 있는 것'이 아니라 사람, 컴퓨터, 책, 기타 도구 또는 도구를 통해 환경 전체에 분산되어 있다는 것을 이해해야 합니다(Artino 2013).
By graduation, learners need to develop the skills required for shared decision making. Shared decision making requires effective communication and the ability to identify and understand others’ values (Elwyn et al. 2012; Fulford et al. 2012). Management decisions are often co-produced with patients and carers, but shared decision making also refers to teams, evidence-based guidelines, technology, scores and decision aids. Learners should understand that in real world situations, knowledge is not something that is ‘all in your head’ but is distributed throughout the environment in people, computers, books, and other tools or instruments (Artino 2013).

또한 학습자는 팀워크, 다른 사람의 기여도 평가, 예의, 경청, 도움 요청, 명확한 의사소통(특히 환자 치료 인계 시), 진단 및 관리 과정에 환자 및 보호자 참여 등 의사 결정을 지원하는 전문적인 가치와 행동을 보여줄 수 있어야 합니다(미국 과학, 공학 및 의학 아카데미 2015).
Learners should also be able to demonstrate professional values and behaviours that support decision making, including teamwork, valuing the contributions of others, civility, listening, asking for help, clear communication (especially when handing over care of a patient), and involving the patient and/or carers in the diagnostic and management process (National Academies of Sciences, Engineering, and Medicine 2015).


교육 전략(교육 방법)
Teaching strategies (how to teach)

의대생의 임상적 추론 능력을 향상시키기 위해 고안된 교육 개입을 설명하고 경험적 결과를 포함하는 27개의 연구가 확인되었습니다. 스키마/질병 스크립트를 가르치는 연구는 2건, 임상 의사 결정의 원리를 가르치는 연구는 3건, 소리 내어 생각하기, 브레인스토밍 또는 인지 매핑을 사용하는 전략은 4건, '인지적 강제 전략'(이 중 5건은 구조화된 반성을 사용)을 가르치는 연구는 7건, 피드백이 포함된 실습 사례는 11건이었다. 모두 단기적인 개입이었으며 장기적인 커리큘럼 접근법을 설명하는 사례는 없었습니다.

  • 의대생에게 의사 결정의 원칙을 가르친다고 해서 성과가 개선되지는 않았습니다.
  • 인지적 편향으로 인한 오류를 줄이기 위해 고안된 인지적 강제 전략을 가르치는 것 역시 성과를 개선하지 못했습니다.
  • 그러나 질병 스크립트 교육, 소리 내어 생각하기/브레인스토밍 전략 사용, 구조화된 성찰, 피드백을 통한 사례 연습은 성과를 개선했습니다.

문헌 검토 결과에 대한 자세한 설명은 보충 파일 2에서 확인할 수 있습니다.
Twenty-seven studies were identified that included empirical findings and described a teaching intervention designed to improve the clinical reasoning ability of medical students. Two studies involved teaching schemas/illness scripts; three involved teaching the principles of clinical decision making; four used strategies that employed thinking aloud, brainstorming or cognitive mapping; seven taught ‘cognitive forcing strategies’ (five of which used structured reflection); and eleven used practice cases with feedback. All were short term interventions with none describing a long term curriculum approach.

  • Teaching the principles of decision making to medical students did not improve performance.
  • Teaching cognitive forcing strategies designed to reduce error from cognitive biases also did not improve performance.
  • However, teaching illness scripts, using thinking aloud/brainstorming strategies, structured reflection, and practicing cases with feedback did improve performance.

A detailed description of the results of the literature review can be found in Supplementary File 2.

임상 추론 교육에 관한 광범위한 문헌에서 효과적인 임상 추론 능력 개발을 위해서는 [의학에 대한 공식적 지식과 경험적 지식이 핵심]이라는 데 동의하고 있습니다(Norman 외. 2006, 2017). 현재까지 사고 자체에 대한 교육(예: 이중 과정 이론, 인지적 편향 제거 전략 교육)이 그 자체로 진단 성과를 향상시킨다는 증거는 거의 없습니다(Sherbino 외. 2014; Smith and Slack 2015). 임상 추론 교육에 관한 문헌을 검토한 Schmidt와 Mamede(2015)는 임상 의사 결정에 관련된 [일반적인 사고 과정을 가르치는 교육적 접근 방식]은 [대체로 효과가 없는] 반면, [지식과 이해를 쌓는 것을 목표로 하는 교육 전략]은 [개선 효과를 가져온다]는 사실을 발견했습니다. 그러나 현재 진행 중인 연구 분야 중 하나는 반성적 전략의 사용입니다. 진단적 의사 결정 시 성찰이 단순히 기존 지식을 동원하는 수단인지, 아니면 이중 과정 이론(즉, 우리가 생각하는 방식)의 광범위한 틀 안에서 이해될 수 있는지는 현재 진행 중인 논쟁의 문제입니다(Norman 외. 2017; Prakash 외. 2019; Stanovich 2009).

In the wider published literature on teaching clinical reasoning, there is agreement that formal and experiential knowledge of medicine is central for the development of effective clinical reasoning ability (Norman et al. 2006, 2017). To date, there is little evidence to demonstrate that teaching about thinking itself (e.g., teaching dual process theory, cognitive de-biasing strategies) by itself improves diagnostic performance (Sherbino et al. 2014; Smith and Slack 2015). In a review of the literature on teaching clinical reasoning, Schmidt and Mamede (2015) found that educational approaches aimed at teaching the general thinking processes involved in clinical decision making were largely ineffective, whereas teaching strategies aimed at building knowledge and understanding led to improvements. However, one area of ongoing research is in the use of reflective strategies. Whether reflection during diagnostic decision making is simply a means of mobilising existing knowledge, or can also be understood within a broad framework of dual process theory (i.e. how we think), is a matter of ongoing debate (Norman et al. 2017; Prakash et al. 2019; Stanovich 2009).

의대생의 임상 추론 능력을 향상시키는 데 효과적인 것으로 입증된 교수 전략의 예는 표 2에 나열되어 있으며 아래에 자세히 설명되어 있습니다.
Examples of teaching strategies that have been demonstrated to be effective in improving the clinical reasoning ability of medical students are listed in Table 2 and expanded on below.

이해도를 높이는 전략
Strategies that build understanding

[의미 있는 정보]는 더 쉽게 기억하고 기억할 수 있습니다. [자기 설명/상술하기]는 의대생의 진단 능력을 향상시키고 학습자가 지식을 통합하는 데 도움이 되는 것으로 나타났습니다(Chamberland 외. 2011, 2015). [자기 설명]은 학습자가 사용하는 인지 과정, 즉 사전 지식과 새로운 지식의 고유한 매칭을 포함하기 때문에 [교수자의 설명]보다 성능이 뛰어납니다(Bisra 외. 2018). Woods 등(2005)은 증상 및 징후에 대한 기초 과학 메커니즘을 이해하면 의대생들의 진단 성과도 향상된다는 것을 보여주었습니다. 교사는 이해와 회상을 촉진하는 전략을 사용해야 합니다.
Meaningful information is easier to retain and recall. Self-explanation/elaboration has been shown to improve diagnostic performance in medical students and helps learners consolidate their knowledge (Chamberland et al. 2011, 2015). Self-explanation outperforms explanation by the instructor because of the cognitive processes learners use, which include their idiosyncratic matching of prior knowledge to new knowledge (Bisra et al. 2018). Woods et al. (2005) showed that understanding the basic science mechanisms for symptoms and signs also improved diagnostic performance among medical students. Teachers should use strategies that promote understanding as well as recall.

구조화된 반성을 사용하는 전략
Strategies that employ structured reflection

[구조화된 성찰] 또는 [안내에 따른 성찰]은 의대생의 진단 능력을 향상시키는 것으로 나타났습니다(Lambe 외. 2016; Prakash 외. 2019). 학습자에 비해 케이스가 더 복잡할 때 그 영향이 가장 큽니다(Norman et al. 2017). 구조화된 성찰의 예로는 '이것에 대한 증거는 무엇인가', '다른 것은 무엇일 수 있는가'와 같은 질문을 학생 스스로에게 하도록 유도하거나(Chew et al. 2016), 각 감별 진단과 양립하거나 양립할 수 없는 소견을 나열하도록 요청하는 것(Myung et al. 2013) 등이 있습니다. Mamede 등(2012, 2014)은 구조적 반성에 관한 두 가지 연구를 수행했는데, 두 연구 모두 임상 증례 진단을 연습하는 동안 [구조적 성찰]을 사용한 학생들이 일주일 후 같은 질병의 새로운 증례를 진단할 때 대조군보다 더 나은 성과를 보였다는 사실을 발견했습니다. 저자들은 '[증례로 연습하는 동안의 구조화된 성찰]이 임상 지식의 학습을 촉진하는 것으로 보인다'고 결론지었습니다. 
Structured or guided reflection has been shown to improve diagnostic performance in medical students (Lambe et al. 2016; Prakash et al. 2019). The impact is greatest when the case is more complex relative to the learner (Norman et al. 2017). Examples of structured reflection include encouraging students to ask themselves questions like, ‘What’s the evidence for this?’ and ‘What else could it be?’ (Chew et al. 2016), or asking students to list findings that are compatible or not compatible with each differential diagnosis (Myung et al. 2013). Mamede et al. (2012, 2014) performed two studies on structured reflection, both of which found that students who used it while practicing diagnosing clinical cases outperformed controls in diagnosing new examples of the same diseases a week later. The authors concluded that, ‘Structured reflection while practicing with cases appears to foster the learning of clinical knowledge.’

증례를 통한 연습과 수정 피드백
Practice with cases and corrective feedback

가능한 한 다양한 상황에서 [가능한 한 다양한 사례로 연습]하는 것이 학습에 매우 중요합니다(Eva 외. 1998). 그러나 연습만으로는 충분하지 않으며, 전문성을 개발하기 위해서는 수정 피드백, 노력, 코칭도 필요합니다(Ericsson 2004). 이를 위해서는 실수에 대한 토론이 장려되고 불확실성을 인정할 수 있는 안전한 학습 환경이 제공되어야 합니다(Eva 2009). 규칙적인 연습은 학습자가 질병 스크립트를 개발하는 데 도움이 되며(Schmidt 외. 1990), 이는 [일반적인 지식이 아닌 지식 조직화가 효과적인 임상 추론 능력의 핵심]이기 때문에 중요합니다(Lubarsky 외. 2015). 또한 사례를 단계적으로 드러내는 것보다 전체 사례 접근 방식('직렬 단서' 접근 방식)이 특히 초보자에게는 작업 기억에 대한 인지 부하를 줄이기 때문에 교육할 때 더 효과적이라는 증거가 있습니다(Schmidt and Mamede 2015).
Practice with as many different cases as possible in as many different contexts as possible is critical for learning (Eva et al. 1998). However, practice alone is insufficient; corrective feedback, effort and coaching are also required to develop expertise (Ericsson 2004). This requires the provision of a safe learning environment where discussion of mistakes is encouraged and where there is recognition of uncertainty (Eva 2009). Regular practice helps learners develop illness scripts (Schmidt et al. 1990), which is important because knowledge organisation rather than generic knowledge is key to effective clinical reasoning ability (Lubarsky et al. 2015). There is also evidence that a whole case approach, rather than revealing a case in stages (the ‘serial-cue’ approach) is more effective when teaching, especially for novices, because it decreases cognitive load on working memory (Schmidt and Mamede 2015).

문제 특이적 개념을 중심으로 지식을 구조화하는 전략
Strategies that structure knowledge around problem-specific concepts

성과가 높은 학습자는 비슷한 수준의 지식에도 불구하고 성과가 낮은 학습자와는 질적으로 다른 방식으로 지식을 구성합니다(Coderre 외. 2009). [문제 특이적 개념을 중심으로 지식을 구조화하는 것]은 [자발적인 유추적 전이], 즉 한 문제의 정보를 다른 맥락에서 다른 문제를 해결하는 데 사용하는 것을 촉진하는 것으로 나타났습니다(Needham and Begg 1991; Eva 외. 1998). 교육자는 졸업할 때까지 학습자가 다양한 일반적인 임상 프레젠테이션에 대해 조직화된 문제-특이적 지식(관련 지식 및 증거에 기반한 개념도 또는 의사결정 트리와 유사)을 습득할 수 있도록 지원해야 합니다.
High-performing learners organise their knowledge in a qualitatively different way to low-performing ones, despite similar levels of knowledge (Coderre et al. 2009). Structuring knowledge around problem-specific concepts has been shown to promote spontaneous analogical transfer – that is, the use of information from one problem to solve another problem in a different context (Needham and Begg 1991; Eva et al. 1998). By graduation, educators should facilitate learners in gaining organised problem-specific knowledge (akin to a concept map or decision tree, underpinned by relevant knowledge and evidence) for a range of common clinical presentations.

검색 연습을 활용하는 전략
Strategies that employ retrieval practice

여러 연구에 따르면 [정보의 장기 보존과 회상을 촉진하는 전략]이 성과를 향상시키는 것으로 나타났습니다(Eva 2009, Weinstein 및 Sumeracki 2019). 교수 및 학습 중에 정보를 열심히 기억하도록 촉진하는 전략은 진단 성과의 향상으로 이어집니다. 여기에는 구조화된 반성(Norman 외. 2017; Prakash 외. 2019), 저부담 퀴즈(Green 외. 2018; Larsen 외. 2009), 간격 연습(Kerfoot 외. 2007), 대조 학습(Ark 외. 2007) 등이 포함됩니다. 교육 및 학습 습관의 작은 변화만으로도 정보 유지 및 회상, 고차원적 사고 측면에서 상당한 이점을 얻을 수 있습니다(Dobson 외. 2018). 
Several studies have shown that strategies that promote long term retention and recall of information improve performance (Eva 2009; Weinstein and Sumeracki 2019). Strategies that promote effortful recall of information during teaching and learning lead to improvements in diagnostic performance. These include structured reflection (Norman et al. 2017; Prakash et al. 2019), low stakes quizzing (Green et al. 2018; Larsen et al. 2009), spaced practice (Kerfoot et al. 2007) and contrastive learning (Ark et al. 2007). Small changes in instruction and study habits can yield significant benefits in terms of retention and recall of information and higher order thinking (Dobson et al. 2018).

학습 단계에 따라 달라지는 전략
Strategies that differ according to stage of learning

위의 모든 전략은 학습 단계에 따라 적절하게 조정되어야 하며 '나선형 커리큘럼' 내에서 개발되어야 합니다(Harden and Stamper 1999). 의학에서 의미 있는 학습을 하려면 상당한 인지적 처리가 필요하므로 학습자가 특정 과제를 다룰 때 [작업 기억에 사용되는 노력]을 고려하는 방식으로 교육을 구성해야 합니다(Van Merrienboer 및 Sweller 2010). 학습해야 할 각 역량에 대해 교육은 [복잡성이 낮고 충실도가 낮은 과제에 대한 높은 교육적 지원]에서 [충실도가 높고 복잡한 과제에 대한 최소한의 지원]으로 이동해야 합니다(Leppink and Duvivier 2016). 졸업이 가까워지면 학습자의 임상 추론 능력은 임상 팀의 일원으로 일하고 실제 임상 환경에서 감독을 받으며 의사 결정을 내리는 데 도움이 됩니다(Lefroy 외. 2017). 이러한 후기 교육 단계의 학습자는 [구조화된 디브리핑]을 통해 필터링되지 않은 사례에 노출되어야 합니다. 커리큘럼 설계와 평가 프로그램은 이러한 전환을 보장해야 합니다. 
All of the above need to be tailored appropriately to different stages of learning and developed within a ‘spiral curriculum’ (Harden and Stamper 1999). Meaningful learning in medicine requires substantial cognitive processing, so instruction should be structured in a manner that takes into account the effort being used in working memory when learners are dealing with particular tasks (Van Merrienboer and Sweller 2010). For each competency to be learned, instruction should move from high instructional support on low complexity, low fidelity tasks through to minimal support on high fidelity, high complexity tasks (Leppink and Duvivier 2016). Approaching graduation, learners’ clinical reasoning abilities benefit from working as part of a clinical team and making decisions in a real but supervised clinical environment (Lefroy et al. 2017). Learners in these later stages of training should be exposed to unfiltered cases with structured debriefing. Curriculum design and its assessment programme must ensure this transition.


임상 추론 교육은 의학교육, 인지 심리학, 진단 오류 및 의료 시스템 문헌에서 그 기원을 찾을 수 있습니다(Olson, Singhal 외. 2019). 다양한 분야의 여러 이론이 임상 추론에 대한 연구에 영향을 미치며(Ratcliffe 외. 2015), 무엇을 어떻게 가르쳐야 하는지에 대해 밝혀줍니다. 그러나 이러한 단편적인 문헌은 의학교육자가 접근하기 어렵고 일상적인 진료에 의미 있게 적용하기 어려울 수 있습니다. 이 백서의 목적은 모든 의과대학에 유용하고 각기 다른 지역 상황에 맞게 적용할 수 있는 실용적인 권장 사항을 제공하는 것입니다.

Clinical reasoning education has origins in the medical education, cognitive psychology, diagnostic error and health systems literature (Olson, Singhal, et al. 2019). A number of theories from diverse fields inform research on clinical reasoning (Ratcliffe et al. 2015), shedding light on what should be taught and how. However, this fragmented literature can be difficult for medical educators to access and adopt meaningfully into their daily practice. The purpose of this paper is to provide practical recommendations that will be of use to all medical schools and can be adapted to different local contexts.

모든 의과대학에서 지식, 기술 및 행동을 가르치지만, 목적에 맞는 커리큘럼 설계를 통해 가르치는 내용, 가르치는 방법, 가르치는 시기에 세심한 주의를 기울이면 임상적 추론 발달을 보다 효과적으로 촉진할 수 있다는 좋은 증거가 있습니다. 그렇다고 해서 반드시 추가 교육 시간이 필요한 것은 아닙니다. 대신, 교육에 대한 구체적인 접근 방식을 구상하고 권장하며, 이를 위해서는 교수진 개발 프로그램이 필요할 수 있습니다. 임상 추론 기술을 가르치기 위해 고안된 독립형 모듈은 성공할 가능성이 낮습니다. 임상 추론은 학부 및 대학원 의학 교육 과정 전반에 걸쳐 수평적, 수직적으로 명시적으로 통합되어 발달적 방식으로 진행되어야 합니다.
While all medical schools teach knowledge, skills and behaviours, there is good evidence that careful attention to what is taught, how it is taught, and when it is taught can facilitate clinical reasoning development more effectively, through purposeful curriculum design. This does not necessarily require additional teaching time. Instead, a specific approach to teaching is envisaged and recommended, and this is likely to require a programme of faculty development. Stand-alone modules designed to teach clinical reasoning skills are unlikely to be successful. Clinical reasoning should be explicitly integrated, both horizontally and vertically, into courses throughout undergraduate and postgraduate medical training in a developmental fashion.


Supplementary File 1: What to teach consensus ideas with duplicates removed, organised in to broad CR areas, and mapped against the GMCs ‘Outcomes for Graduates’.

Suggestions for when to teach during a 5 year programme are in the right hand columns.


Supplementary File 1.docx


Med Teach. 2021 Feb;43(2):152-159. doi: 10.1080/0142159X.2020.1842343. Epub 2020 Nov 18.

Consensus statement on the content of clinical reasoning curricula in undergraduate medical education

Affiliations collapse

1Medical Education Centre, University of Nottingham, Nottingham, UK.

2School of Medicine, University of Dundee, Dundee, UK.

3School of Medicine, University of Leicester, Leicester, UK.

4Hull York Medical School, Hull, UK.

5School of Clinical Medicine, University of Cambridge, Cambridge, UK.

6School of Dental Sciences, Newcastle University, Newcastle, UK.

7Division of Medical Education, University of Manchester, Manchester, UK.

PMID: 33205693

DOI: 10.1080/0142159X.2020.1842343


Introduction: Effective clinical reasoning is required for safe patient care. Students and postgraduate trainees largely learn the knowledge, skills and behaviours required for effective clinical reasoning implicitly, through experience and apprenticeship. There is a growing consensus that medical schools should teach clinical reasoning in a way that is explicitly integrated into courses throughout each year, adopting a systematic approach consistent with current evidence. However, the clinical reasoning literature is 'fragmented' and can be difficult for medical educators to access. The purpose of this paper is to provide practical recommendations that will be of use to all medical schools.

Methods: Members of the UK Clinical Reasoning in Medical Education group (CReME) met to discuss what clinical reasoning-specific teaching should be delivered by medical schools (what to teach). A literature review was conducted to identify what teaching strategies are successful in improving clinical reasoning ability among medical students (how to teach). A consensus statement was then produced based on the agreed ideas and the literature review, discussed by members of the consensus statement group, then edited and agreed by the authors.

Results: The group identified 30 consensus ideas that were grouped into five domains: (1) clinical reasoning concepts, (2) history and physical examination, (3) choosing and interpreting diagnostic tests, (4) problem identification and management, and (5) shared decision making. The literature review demonstrated a lack of effectiveness for teaching the general thinking processes involved in clinical reasoning, whereas specific teaching strategies aimed at building knowledge and understanding led to improvements. These strategies are synthesised and described.

Conclusion: What is taught, how it is taught, and when it is taught can facilitate clinical reasoning development more effectively through purposeful curriculum design and medical schools should consider implementing a formal clinical reasoning curriculum that is horizontally and vertically integrated throughout the programme.

Keywords: Consensus; clinical reasoning; curriculum; medical education; undergraduate.

질환 스크립트의 30년: 이론적 기원과 실제적 적용(Med Teach, 2015)
Thirty years of illness scripts: Theoretical origins and practical applications
University Medical Center Utrecht, The Netherlands




바틀렛(1932/1954)은 인간이 실제 세계의 지식, 예를 들어 이야기를 기억하는 것이 아니라 그들의 요지에 의해 기억하고, [처음보다 더 짧고 일관성 있게 만드는 경향]이 있다는 것을 실험적으로 증명한 이후로, "schema"의 개념은 사람들이 이러한 기스트를 기억하기 위해 사용하는 기본 단위를 나타내는 데 사용되어 왔다. [일반화된 사건을 단위로 표현하는 지식 구조]로서 [보다 구체적인 형태의 스키마]인 [스크립트]가 제안되었다. 샹크와 아벨슨(1977)의 작품이 출판된 후 몇 년 동안, 몇몇 연구자들은 대본의 표현적 특성과 행동적 측면을 조사했다.

Since Bartlett (1932/1954) experimentally demonstrated that humans do not literally remember real-world knowledge, such as stories, but recollect them by their gist and are inclined to make them shorter and more coherent than they initially were, the concept of a “schema” has been used to represent the basic units people use to remember these gists (Bobrow & Norman 1975; Brewer & Treyens 1981; Mandler 1984; Schmidt & Sherman 1984). A more specific type of schema, a script, has been proposed as the knowledge structure that represents generalized events as a unit (Abelson 1975; Schank & Abelson 1977). In the years following the publication of the Schank and Abelson (1977) work, several researchers have investigated the representational characteristics and behavioral aspects of scripts (Graesser et al. 1979; Bellezza & Bower 1981; Smith & Graesser 1981; Walker & Yekovich 1984; Abbott et al. 1985; Yekovich & Walker 1986; Maki 1990; Davidson 1994).

스크립트의 세부 사항에 대한 완전한 합의는 부족하지만, 다음과 같은 7가지 측면이 공통 분모로 간주될 수 있다: 스크립트는

  • (1) 사전 컴파일된 높은 수준의 개념적 지식 구조이다, 
  • (2) 장기 메모리에 저장됩니다, 
  • 이는 (3) 일반적인 (고정관념화된) 사건 시퀀스를 나타낸다, 
  • 이 시퀀스는 (4) 개별 사건이 시간적, 인과적, 계층적 관계에 의해 상호 연결되며,
  • (5) 적절한 맥락에서 일체형 전체integral whole로 활성화될 수 있다, 
  • (6) 실제 상황에 존재하는 정보로 채워질 수 있는 변수와 슬롯을 포함하고, 메모리에서 검색되거나 맥락을 통해 추론될 수 있다 
  • (7) 일상적으로 수행되는 활동의 결과 또는 수행되는 그러한 활동을 보는 것의 결과로 발전한다. 즉, 직접적 또는 대리적 경험을 통해 만들어진다.

Although full agreement concerning the details of scripts is lacking, the following seven aspects can be considered a common denominator: Scripts are

  • (1) high-level, pre-compiled, conceptual knowledge structures,
  • which are (2) stored in long-term memory,
  • which (3) represent general (stereotyped) event sequences,
  • in which (4) the individual events are interconnected by temporal and often also causal or hierarchical relationships,
  • that (5) can be activated as integral wholes in appropriate contexts,
  • that (6) contain variables and slots that can be filled with information present in the actual situation, retrieved from memory, or inferred from the context,
  • and that (7) develop as a consequence of routinely performed activities or viewing such activities being performed; in other words, through direct or vicarious experience (Abelson 1975; Schank & Abelson 1977; Haberlandt & Bingham 1984; Pryor & Merluzzi 1985).

스크립트는 다음과 같은 중요한 기능을 제공합니다:

  • (1) 그들은 행동적 시퀀스를 이해하는 데 필요한 구조화된 지식을 제공한다, 
  • (2) 그것들은 개인들이 새로운 정보를 기존의 지식과 통합할 수 있게 한다, 
  • (3) 기억 검색을 유도하고, 
  • (4) 그들은 가까운 미래에 일어날 일에 대한 예측을 가능하게 한다, 
  • (5) 그들은 실제 행동을 안내한다 
  • (6) 일반적으로 특정 작업 또는 작업 순서가 발생했거나 발생할 수 있는 이유를 설명하는 데 사용할 수 있는 지식을 포함합니다.

Some important functions are served by scripts:

  • (1) they provide structured knowledge necessary for understanding behavioral sequences,
  • (2) they enable individuals to integrate new incoming information with existing knowledge,
  • (3) they guide memory retrieval,
  • (4) they enable predictions about what will happen in the near future,
  • (5) they guide actual behavior, and
  • (6) they usually contain knowledge that can be used to explain why a specific action or sequence of actions has occurred or might occur.

대부분의 경우, 스크립트는 개인이 적절한 컨텍스트에 있거나 이 컨텍스트가 언급되거나 생각되는 경우 활성화됩니다. 전형적인 예는 "레스토랑 대본"이다. 레스토랑에 들어가거나 레스토랑을 생각하면 레스토랑 스크립트가 활성화되고 개인은 이 스크립트를 사용하여 무슨 일이 일어났는지 이해하고 다음에 무슨 일이 일어날지 예측합니다. 스크립트는 중앙 또는 핵심 정보를 포함합니다, 예를 들어, 그 음식은 돈의 대가로 제공되는 반면, 다른 측면들은 더 가변적이거나 주변적일 수 있다. 예를 들어, 웨이터가 있는지 아니면 음식이 카운터에서 손님에 의해 가져가는지, 그리고 에피타이저가 제공되는지 여부. 
Most of the times, scripts are activated if the individual is in the appropriate context or if this context is being mentioned or thought of. The classic example is the “restaurant script.” Upon entering a restaurant, or thinking about a restaurant, the restaurant script is activated and the individual uses it to understand what happened and predict what will happen next. The script contains central or core information, e.g., that food is being served in exchange for money, whereas other aspects may be more variable or peripheral, for example, whether there will be a waiter or the food will be taken by the customer from a counter, and whether an appetizer will be served or not.

[스크립트가 활성화]되면 [중심적인 측면]은 [고정된 방식]으로 사용할 수 있는 반면, [덜 중심적인 측면] 그 상황에서 사용 가능한 실제 정보(예: 웨이터가 젊은 여성임) 또는 자동적by default으로(예: 고객이 메뉴에서 항목을 선택할 수 있음)를 사용하여 채워질 수 있는 [변수 또는 슬롯의 형태]를 가질 수 있다. 기본적으로 모든 슬롯 정보나 변수 값이 추론되는 것은 아니며, 일부는 [단순히 지정되지 않은 상태로 유지]되지만, 스크립트가 완료되는 동안(예: 에피타이저가 제공되는지 여부) 어느 시점에 채워질 수 있도록 열려 있습니다. [컨텍스트에서의 실제 정보, 메모리에서 검색된 정보로, 자동적]으로 [변수에 값을 할당하고 슬롯을 채우는 프로세스]를 [스크립트 인스턴스화]라고 합니다. 

If a script is activated, its central aspects will become available in a fixed manner, while less central aspects will have the form of variables or slots that might be filled in using actual information available in the context (e.g., that the waiter is a young woman) or by default (e.g., that the customer can choose entries from a menu). Not all slot information or variable values will be inferred by default; some will simply be left unspecified but open to be filled-in at some point during the completion of the script (e.g., whether an appetizer is offered). The process of assigning values to variables and filling slots with actual information from the context, information retrieved from memory, or by default, is called the script instantiation.

[인스턴스화된 스크립트][일반 스크립트]에 의해 제공되는 표현에 대한 지식의 일부와, 현장에서 실제로 존재하거나 추론될 수 있는 [상황 특이적 정보]를 가진 구체적인 사건의 표현으로 볼 수 있다. 인스턴스화된 스크립트에서 이러한 [상황 특이적 정보]는 [일반 스크립트]에 "태그"되며, [인스턴스화된 스크립트]가 장기 메모리에 저장되면 태그는 개인이 나중에 실제로 발생한 특정 이벤트로 기억할 수 있게 한다. 그러나 일반적인 스크립트와 달리 [태그된 지식]은 시간이 지남에 따라 점차 쇠퇴합니다; 따라서, 시간이 지남에 따라, [특정 사건 기억]는 메모리에서 훨씬 더 안정적인 표현인 [일반 스크립트에 대한 지식]에 의해 점점 더 지배될 것이다. 따라서 오랜 시간이 지난 후 이러한 기억을 다시 불러올 경우, [인스턴스화된 스크립트]의 [대부분의 세부 사항]은 [매우 두드러지거나 스크립트의 진행을 방해하지 않는 한] 더 이상 기억하지 못할 수 있습니다(예: 연기가 실내를 가득 메워 저녁 식사를 마치기 전에 식당을 떠나야 했던 시간 - 수년이 지난 후에도 기억할 수 있는 상황).

An instantiated script can be seen as the representation of a concrete event, with part of the knowledge in the representation supplied by the generic script, and part by situation-specific information, which may be actually present or inferred at the spot. In instantiated scripts, this situation-specific information is “tagged” to the generic script (Schank & Abelson 1977; Graesser et al. 1980; Bellezza & Bower 1981; Schmidt & Sherman 1984; Maki 1990; Davidson 1994), and if the instantiated script is stored in long-term memory, the tags enable the individual to remember it later as a specific event that actually took place. However, unlike the generic script, tagged knowledge will gradually decay over time; hence, with the passing of time, specific event memories will be increasingly dominated by knowledge of the generic script, which is a much more stable representation in memory. Thus, if we retrieve such memories after a long time, we might no longer be able to remember most details of the instantiated script, unless they were very salient or interrupted the script’s progress (e.g., the time when we had to leave the restaurant before finishing dinner because smoke filled the room – something we may remember even after many years).

대본의 심리적 타당성
The psychological validity of scripts

많은 연구들이 [스크립트 개념]의 [심리적 타당성]에 대한 증거를 제공했다. 우선 사람들이 [익숙한 사건]을 개별 사건과 장면 사이의 [인과적 또는 시간적 연결]과 함께 [계층적 구조]로 구성한다는 증거는 충분하다. 또한, [어떤 동작]이 스크립트에 속하는지 뿐만 아니라, 이러한 [동작의 순서, 중심성 및 고유성]에 대해서도 동의가 발견되었다. 게다가, 스크립트를 구성하는 이벤트는 [시간적으로 단서를 제공]한다. 즉, 일반적으로 일련의 사건들을 역순으로 말하는 것보다 순순으로 말하는 것이 훨씬 더 쉽다.
A large number of studies have provided evidence for the psychological validity of the script concept. To begin with, there is ample evidence that people organize familiar events in a hierarchical structure with causal or temporal connections between individual events and scenes (Rosch 1978; Bower & Clark-Meyers 1980). In addition, agreement has been found not only with respect to which actions belong to a script (e.g., Bower et al., 1979; Graesser 1981), but with respect to sequence, centrality, and distinctiveness of these actions as well. Moreover, the events that compose a script are temporally cued, i.e., it is generally much easier to tell a sequence of events in forward order than in reverse order (Haberlandt & Bingham 1984; Barsalou & Sewell 1985).

또한, 실험실 실험에서 스크립트 이론은 다음과 같이 차등적 메모리 성능을 구체적으로 예측한다 

  • (a) 다양한 유형의 정보(즉, 전형적 대 비정형), 
  • (b) 정보의 차별적 관련성(즉, 중요한 대 중요하지 않은), 
  • (c) 서로 다른 검색 작업(즉, 리콜 대 인식) 및 
  • (d) 서로 다른 검색 지연(즉, 즉각적인 메모리 테스트와 지연된 메모리 테스트). 

In addition, in laboratory experiments, script theory specifically predicts differential memory performance for

  • (a) different types of information (i.e., typical versus atypical),
  • (b) differential relevance of information (i.e., important versus unimportant),
  • (c) different retrieval tasks (i.e., recall versus recognition), and
  • (d) different delays of retrieval (i.e., immediate versus delayed memory test) (Sulin & Dooling 1974; Tzeng 1975; Bellezza & Bower 1981; Smith & Graesser 1981; Yekovich & Walker 1986).

예를 들어, 회상 연구에 따르면 [즉각적인 테스트]에서는 비정형적인 스크립트 동작, 사물 또는 사건을 매우 잘 회상하는 반면, [지연된 테스트]에서는 비정형적인 정보에 대한 기억이 희미해지는 것으로 나타났는데, 특히 이러한 정보가 덜 두드러지거나 덜 관련성이 있거나 덜 생생한 경우 더욱 그렇습니다. 반면, 스크립트 [일반 정보에 대한 기억]은 회상 침입, 즉 [인스턴스화된 스크립트에 존재하지 않더라도 이 정보를 "회상"하는 것]이 특징입니다. 인식 기억 연구에서 (의도적으로 생략한) 스크립트의 [전형적인 정보에 대한 오경보 현상][보편적으로 발견]되는 현상입니다. 반면 [비정형 정보에 대한 오경보율]은 특히 이러한 정보가 스크립트에 주변적인 정보인 경우 [훨씬 낮습니다].

For example, recall studies have shown that at immediate testing, atypical script actions, objects, or events are recalled quite well, while at delayed testing, memory for atypical information appears to have faded, particularly if this information is less salient, relevant, or vivid (Bower et al. 1979; Graesser et al. 1980; Graesser 1981; Smith & Graesser 1981; Schmidt & Sherman 1984; Davidson 1994). Memory for script typical information, in contrast, is featured by recall intrusions, that is, this information is “recalled” even if it was not present in the instantiated script (Brewer & Treyer 1981; Schmidt & Sherman 1984). In recognition memory studies, the corresponding phenomenon of false alarms to (deliberately omitted) script typical information is an ubiquitous finding (Sulin & Dooling 1974; Bower et al. 1979; Graesser et al. 1979, 1980; Bellezza & Bower 1981; Brewer & Treyens 1981; Walker & Yekovich 1984; Nakamura & Graesser 1985; Nakamura et al. 1985; Yekovich & Walker 1986; Maki 1990; Davidson 1994). False alarm rates to atypical information, in contrast, are much lower, in particular, if this information is peripheral to the script (Nakamura & Graesser 1985; Yekovich & Walker 1986).

[스크립트 이론]은 인식 메모리 성능 외에도 [정보 처리 및 결정 속도에 대한 예측]을 수행하며, 읽기 속도 또는 결정 반응 시간(RT)으로 표현됩니다. 가장 일반적인 형태로, 이것의 배후에 있는 추론은 꽤 간단하다: 스크립트에 의해 암시되거나 스크립트에서 쉽게 추론될 수 있기 때문에, 개인이 [기대할 새로운 정보]는 [예상치 못한 정보]보다 더 빠르게 처리될 것이다. 따라서 식당 스크립트가 활성화된 경우, "웨이터가 점잖았다"는 문구는 "수리공이 점잖았다"는 문구보다 더 빠르게 처리될 것이다. 이 문구들을 고립적으로 처리하면 유사한 처리 시간을 보여줄 것이다.  
In addition to recognition memory performance, script theory also makes predictions about information processing and decision speed, expressed as reading speed or decision reaction times (RTs). In its most general form, the reasoning behind this is quite simple: new information that an individual will expect, because it is implied by the script or can easily be inferred from the script, will be processed faster than unexpected information. Thus, if a restaurant script is activated, the statement “The waiter was gentle” will be processed faster than “The repairman was gentle,” even although in isolation these statements will show similar processing times.

그러나 특정 스크립트 인스턴스화의 경우 처리 시간에 대한 예측은 조금 더 복잡합니다. 식당 스크립트의 특정 인스턴스화에서 수리공이 있었다면(예: 우리가 식사하는 동안 수리 작업을 하고 있었다면), 나중에 웨이터보다 수리공에 대한 기억이 더 생생할 수 있는데, 이는 식당 스크립트의 여러 인스턴스화에서 모두 웨이터가 있었지만 그 중 하나만 수리공이 있었다는 것을 구분하는 데 어려움을 겪을 수 있기 때문입니다. 일반적으로 스크립트의 일반적인 정보는 쉽고 빠르게 유추할 수 있지만, 특히 일반적인 정보이기는 하지만 스크립트에 꼭 필요한 정보가 아닌 경우 시간이 지나면 기억하기 어렵습니다. 따라서 시간이 지나면 "애피타이저를 먹었나요?"와 같은 질문은 "수리공이 있었나요?"라는 질문보다 더 긴 RT로 알 수 있듯이 대답하기가 더 어려울 것입니다. 실험실 연구에 따르면 실제로 특정 인스턴스화에서 스크립트의 전형적인 특징이 실제로 존재하는지 여부를 판단하는 데 비정형적인 특징의 유무보다 더 많은 시간이 걸리는 것으로 나타났습니다. 

In the case of a specific script instantiation, however, predictions about processing times are a bit more complex. If, in a particular instantiation of the restaurant script, a repairman was present (e.g., doing repair work while we were eating), we may later have more vivid memories of this repairman than of the waiter, because we may have trouble discriminating between different instantiations of the restaurant script – in all of which a waiter was present, but in only one of these a repairman. More generally, script typical information will be easily and quickly inferred, but hard to recollect after some time, in particular, if the information is typical, but not absolutely necessary for the script. Thus, after a while, a question, such as “did you have an appetizer?” will be harder to answer – as evidenced by a longer RT – than the question “was there a repairman?” Laboratory studies have shown that indeed it takes more time to decide on the actual presence of typical features of a script in a particular instantiation than on the presence or absence of atypical features (Nakamura & Graesser 1985; Yekovich & Walker 1986).

질병 스크립트
Illness scripts

표면적인 수준에서 '실제 생활' 스크립트와 '질병' 스크립트의 비유는 분명합니다. 모든 질병은 아니지만 대부분의 질병은 [환자에게 발생하는 일련의 사건]으로 해석할 수 있습니다. 스크립트 또는 일반적인 이벤트 시퀀스는 질병의 일반적인 임상상에 매핑되는 반면, 각 개별 환자는 특정 순서로 나타나는 전형적인(중심) 또는 비정형적인(말초) 특징을 모두 갖춘 인스턴스화된 질병 스크립트로 간주할 수 있습니다. 이 비유를 설명하기 위해 표 1은 실제 스크립트(레스토랑 스크립트, Graesser 외. 1979에서 각색)와 질병 스크립트(신장 산통 환자)를 대조한 것입니다. 더 깊은 수준에서 보면, 실생활 스크립트와 질병 스크립트 모두의 중심 주제는 지식의 암묵적 인과적 일관성을 표현하는 형식을 제공하는 것입니다(Schank 1975; Schank & Abelson 1977). 

At a superficial level, the analogy between “real life” scripts and “illness” scripts is obvious: most, if not all, diseases can be construed as a sequence of events occurring in a patient. The script, or generic event sequence, maps onto the general clinical picture of a disease, whereas each individual patient can be considered an instantiated illness script, with both typical (central) or atypical (peripheral) features, which appear in a certain order. To illustrate the analogy, Table 1 contrasts a real life script (the restaurant script; adapted from Graesser et al. 1979) with an illness script (a patient with a renal colic). At a deeper level, the central theme of both real life scripts and illness scripts is to provide a format to represent implicit causal coherence of knowledge (Schank 1975; Schank & Abelson 1977).

"스크립트"라는 개념은 심리학 문헌에서 일반적인 스크립트 개념이 등장한 지 불과 몇 년 후인 1983년에 Clancey(1983)에 의해 의학 문헌에 소개되었습니다. 그는 "감염에는 여러 가지 특성이 있지만 세균 감염은 유기체의 체내 유입, 감염 부위로의 유기체 이동, 유기체의 번식, 관찰 가능한 증상 유발이라는 동일한 스크립트을 따르는 경향이 있다"고 설명했습니다(230페이지). 실제 사건과 명백한 유사점 외에도, 의학 영역의 대본 개념은 의학 진단에 대한 기존의 [두 관점 사이의 격차]를 잘 메우는 것처럼 보였다, 

  • 추론 과정(즉, 환자의 불만, 증상 및 기타 소견을 설명하기 위한 생물 의학적 지식의 사용)이라는 것을 강조하는 것
  • 신속한 분류 프로세스(즉, 불만 및 증상 패턴을 진단 범주에 직접 매핑)로 진단을 개념화하는 것

The concept of “script” was introduced in the medical literature by Clancey (1983) only a few years after the general script concept emerged in the psychological literature. “There are many kinds of infections, which have different characteristics, but bacterial infections tend to follow the same script: entry of an organism into the body, passage of the organism to the site of infection, reproduction of the organism, and causing of observable symptoms” he explained (p. 230). In addition to the obvious parallel with real life events, the script concept in the medical domain also appeared to nicely fill the gap between two existing views of medical diagnosis,

  • one which emphasizes that diagnosis is basically a reasoning process (i.e., the use of biomedical knowledge to explain complaints, symptoms, and other findings in a patient), and
  • one which conceives of diagnosis as a quick categorization process (i.e., the direct mapping of patterns of complaints and symptoms to diagnostic categories).

사실, 펠토비치와 바로우스(1984)가 고안한 "질병 대본"은 두 가지 접근법을 연결하기 위해 특별히 고안되었다. 그들은 세 가지 주요 구성 요소를 구분하여 질병 스크립트를 지정했습니다,

  • 활성화 조건, 즉, 연령, 성별, 직업, 위험 행동 및 유전적 요인과 같은 질병에 걸릴 확률에 영향을 미치는 환자 및 상황적 요인 
  • 결함, 즉 기초적인 병리생리학적 과정
  • 결과, 즉 결함이 야기하는 불만, 징후 및 증상.

In fact, the “illness script” as conceived by Feltovich and Barrows (1984) was particularly designed to connect the two approaches. They specified the illness script by distinguishing three main components,

  • the Enabling Conditions, – i.e., the patient and contextual factors that influence the probability that someone gets a disease, such as age, sex, occupation, risk behavior, and hereditary factors, –
  • the Fault, i.e., the underlying pathophysiological process, – and
  • the Consequences, i.e., the complaints, signs, and symptoms the Fault gives rise to (Feltovich & Barrows 1984; Custers et al. 19961998; Hobus et al. 19871989).

특히 진단 상황에서 [활성화 조건]은 중요한 역할을 하는데, 경험이 많은 의사들이 진단 과정에서 아주 초기에 정확한 진단에 도달하는 경우가 많다는 것이 입증되었으며, [활성화 조건]은 일반적으로 가장 이른 가용 데이터이다. 그러나 환자 불만은 분명히 [결과]이며, 질병 스크립트 활성화에도 중요한 역할을 합니다. 심리학적 관점에서, 진단 과정에서의 [조기 가용성]은 질병 과정에서의 특징의 역할보다 더 중요하다. 이것은 자발적 금연이 폐암의 초기 징후가 될 수 있다고 보고한 최근의 연구에서와 같이 예상치 못한 형태를 취할 수 있으며, 따라서 진단적 관점에서 "활성화 조건"으로 볼 수 있지만, 금연이 폐암의 발병을 가능하게 한다는 것을 지지하는 사람은 거의 없다. 일반적으로, 사례를 진단하도록 요청받았을 때, 경험이 풍부한 진단자들은 [사건의 인과 사슬 속의 위치에 관계없이] [주어진 순간에 이용 가능한 모든 정보]를 사용할 것이다.

Especially in diagnostic situations, the Enabling Conditions play an important role, for it has been demonstrated that experienced physicians often arrive at the correct diagnosis quite early in the diagnostic process, on basis of only a few findings (Elstein et al. 1978; Hobus et al. 1987), and Enabling Conditions are usually the earliest available data. However, the patient complaint, which is obviously a Consequence, also plays an important role in illness script activation (Hobus et al. 1987). From a psychological point of view, early availability in the diagnostic process is more critical than a feature’s role in the disease process. This can take unexpected forms, as in a recent study which reports that spontaneous smoking cessation can be an early sign of lung cancer, and could hence be viewed as an “Enabling Condition” from a diagnostic point of view, although few would endorse that smoking cessation enables the development of lung cancer, let alone causes it (Campling et al. 2011). In general, when asked to diagnose a case, experienced diagnosticians will use all the information available at a given moment, irrespective of its actual place is in the causal chain of events.

[스크립트]가 [미리 컴파일된 지식 구조라]는 개념은 질병 스크립트 개념으로도 쉽게 전달된다. 즉, 초보자(예: 의대생)는 질병을 이해하고 환자를 진단하는 데 있어 [근본적인 병태 생리학적 메커니즘]인 [결함에 대한 지식]에 더 의존할 것이다. 경험이 증가함에 따라, 추론 체인의 단계가 컴파일됨에 따라, 사례를 통해 추론하는 이러한 형태는 빠르게 불필요해진다. 따라서 특히 일상적인 사례를 진단하는 전문가의 경우 [결함에 대한 지식]은 사소한 역할만 합니다. 이 점에서 질병 스크립트는 "실생활real life" 스크립트와 크게 다르지 않다: 사람들은 [기본적인 지식]을 사용하여 특정 사건이나 사건의 순서를 설명할 수 있지만, 기본적으로 이러한 지식 없이, [경험만 가지고도 스크립트를 배울 수 있다] (기본 지식 없이 학습된 스크립트의 예는 An et al 1992 참조). 그러나 [전문가들의 전문적인 활동]은 – 어느 영역에서든 – 단순하고 일상적인 진단을 포함할 뿐만 아니라, [실제적인 맥락에서 해석, 설명 및 판단]을 제공하기 때문에, 기본적인 도메인 지식 없이 "맨발" 스크립트만 보유하는 것은 "진정한" 전문가들에게 충분하지 않을 것이다.
The notion that scripts are precompiled knowledge structures is also easily transferred to the illness script concept (Charlin et al. 2000, 2007). That is, novices (e.g., medical students) will rely more on their knowledge of the Fault, the underlying pathophysiological mechanism, in understanding disease and in diagnosing patients (Custers et al. 1998). With increasing experience, this form of “reasoning through” a case quickly becomes superfluous, as the steps in the reasoning chains become compiled. Thus, particularly in experts diagnosing routine cases, knowledge of the Fault only plays a minor role (Clancey 1983; Patel & Groen 1986; Boshuizen et al. 1988; Hobus et al. 1989; Norman et al. 1989; Boshuizen & Schmidt 1992). In this respect, illness scripts do not differ much from “real life” scripts: people can use underlying knowledge to explain a particular event or sequence of events, but they can basically learn the script without this knowledge, on the basis of experience alone (see Ahn et al. 1992, for examples of scripts that are learned without underlying knowledge). However, as experts’ professional activities – in any domain – not only include straightforward and routine diagnosis but also, for instance, providing interpretations, explanations, and judgments in a practical context, the possession of only “barefoot” scripts without underlying domain knowledge would not be sufficient for “true” expertise.

아직까지는 [일상적인 스크립트에서 발견되는 기억 현상]이 질병 스크립트에도 적용된다는 몇 가지 증거가 있습니다. 예를 들어, Arkes와 Harkness(1980)는 진단에서 쉽게 유추할 수 있지만 사례 설명에 제시되지 않은 증상(즉, 전형적인 증상)은 진단자가 잘못 인식하는 경우가 많다는 사실을 발견했습니다. 또한 소아과 의사의 이전 환자 장기 기억력을 조사한 연구에서 Hassebrock과 Prietula(1990)는 참가자들이 '실제' 증상을 기억하는 데 어려움을 겪는 대신 질병에 대한 지식을 사용하여 환자에게 있을 것으로 추정되는 임상 소견을 유추하는 것을 관찰했습니다. 대본에서 벗어났지만 당시에는 진단을 내리거나 치료법을 적용하는 데 중요했던 사례의 특징은 더 잘 기억했습니다. 따라서 스크립트 측면에서 볼 때, 이 의사들은 ['태그가 지정된' 비정형 지식]을 기억했지만, 스크립트 지식을 사용하여 [질병과 일치하는 결과를 추론]했습니다. 마지막으로 질병 스크립트의 처리 특성과 관련하여 Custers 등(1996)은 [질병 스크립트가 활성화된 후(질병을 발표함으로써)] [전형적인 사례 정보]가 [비정형 사례 정보]보다 일관되게 더 빠르게 처리된다는 사실을 발견했으며, 이는 Gagnon 등(2006)에 의해 복제된 결과이며 질병 스크립트의 [기본값 개념]을 뒷받침합니다. 질병 스크립트가 활성화되면 [스크립트 슬롯에 쉽게 들어맞는 정보]가 [비정형 정보]보다 [더 빠르게 처리]될 수 있는 것으로 보입니다. 

As yet, there is some evidence that memory phenomena found for everyday scripts also apply to illness scripts. For example, Arkes and Harkness (1980) found that symptoms that can be easily inferred from a diagnosis (i.e., typical symptoms), but are not presented in the case description, are often falsely recognized by diagnosticians. Furthermore, in a study investigating pediatricians’ long-term retention of previous patients, Hassebrock and Prietula (1990) observed that participants had trouble remembering “actual” symptoms, but instead used knowledge of the disease to infer the clinical findings that presumably were present in the patient. Case features that deviated from the script, but had been, at the time, critical in establishing a diagnosis or installing a treatment, were better remembered. Thus, in script terms, these physicians remembered “tagged” atypical knowledge, but used the script knowledge to infer disease-consistent findings. Finally, concerning the processing characteristics of illness scripts, Custers et al. (1996) found that after an illness script was activated (by announcing the disease), prototypical case information was consistently processed faster than atypical case information, a finding that was replicated by Gagnon et al. (2006) and supports the notion of default values in illness scripts. Apparently, once an illness script has been activated, information that easily fits into the script slots can be processed faster than atypical information.

질병 스크립트 및 의료 전문 지식 개발
Illness scripts and the development of medical expertise

전문성 발달에 대한 명백한 설명은 [전문가]가 [비전문가보다 더 많은 스키마 또는 스크립트 레퍼토리]를 가지고 있다고 생각하는 것입니다(Rumelhart & Norman 1978; Glaser 1986; VanLehn 1989; Gilhooly 1990). 이를 의료 영역에 적용하면 전문 의사가 경험이 적은 의사보다 [질병에 대한 더 많은 레퍼토리]를 가지고 있다는 것을 의미합니다. 그러나 이것은 이야기의 일부일 뿐이며, [개별 질병 스크립트의 구조와 구성]도 전문성과 관련된 발전을 보여줄 것입니다. 예를 들어, Custers 등(1998)의 연구에 따르면 [임상 전 학생들]은 질병의 임상적 상황이나 전형적인 질병 환자를 설명하라는 요청을 받았을 때 레지던트나 숙련된 의사보다 결함 관련 지식(즉, 질병의 병태생리 측면)을 더 많이 언급하고 활성화 조건(환자 배경 정보)을 더 많이 언급하는 것으로 나타났습니다. 의대생은 기본적으로 관련 지식을 갖추고 있지만 스크립트가 정교하게 구성되어 있지 않고 실제 상황에서 사용할 수 있도록 아직 조정되지 않았습니다. 전문가는 스크립트 구조가 제공하는 통합성과 일관성을 통해 실제(진단 및 치료) 및 후향적(즉, 회상)으로 사용하기 위한 지식에 접근할 때 이점을 얻을 수 있습니다. 실제로 연구에 따르면 일반적으로 도메인 관련 정보, 관련성 있는 정보 또는 중요한 정보에 대한 전문가들의 기억력이 뛰어난 것으로 나타났습니다(Spilich 외. 1979; Coughlin & Patel 1987; Hassebrock 외. 1993). 반면, 적절한 순차적 '스크립트' 순서가 아닌 임의의 순서로 정보를 제시하는 등 [스크립트 구조가 파괴된 경우], 이는 초보자보다 전문가의 수행에 훨씬 더 큰 영향을 미치며 심지어 전문가가 더 이상 전문 지식의 혜택을 받지 못할 정도까지 영향을 미칩니다(McKeithen 외. 1981; Coughlin & Patel 1987; Norman 외. 1989).

An obvious account of expertise development is to conceive it as experts having a larger repertory of schemas or scripts than non-experts (Rumelhart & Norman 1978; Glaser 1986; VanLehn 1989; Gilhooly 1990). Applied to the medical domain, this would imply that expert physicians have a larger repertory of illness scripts than less experienced physicians. But this is only part of the story; the structure and composition of individual illness scripts will also show expertise-related development. For example, Custers et al. (1998) showed that preclinical students, when asked to describe either the clinical picture of a disease or a typical patient with this disease, came up with more Fault-related knowledge (i.e., aspects of the pathophysiology of the disease) than residents and experienced physicians, who mentioned more Enabling Conditions (patient background information). Although medical students may basically have the relevant knowledge, their scripts will be less elaborately structured and not yet tuned toward use in practical situations. Experts are supposed to benefit from the integration and coherence script structures provide, in accessing knowledge for use in practice (diagnosis and treatment) as well as retrospectively (i.e., in recall). Indeed, studies have generally shown superior recall in experts for domain-related, relevant, or critical information (Spilich et al. 1979; Coughlin & Patel 1987; Hassebrock et al. 1993). In contrast, if the script structure is destroyed, e.g., by presenting information in a random, rather than in the appropriate sequential “script” order, this affects experts’ performance much more than novices’ – even to the point where experts no longer benefit from their expertise (McKeithen et al. 1981; Coughlin & Patel 1987; Norman et al. 1989).

질병 스크립트 개념의 실제 적용
Practical applications of the illness script concept

이론적 고려 사항과 실제 연구 결과를 종합해 보면 슈미트 외(1990)가 제안한 스크립트 개발에 대한 이전 설명은 업데이트가 필요하다는 것을 알 수 있습니다. 이러한 관점에서 [스크립트 개발의 초기 단계]는 대부분 [생물 의학 지식의 응용]으로 구성됩니다. 그러나 생의학 지식이 거의 없는 것으로 추정되는 [일반인조차도 질병 스크립트와 매우 유사한 구조로 구성된 일반적인 질병에 대한 지식]을 가지고 있습니다(Lau & Hartman 1983; Bishop & Converse 1986; Bishop 외. 1987; Becker 외. 2008).

  • [초보적인 질병 스크립트]는 뇌졸중을 인식하는 방법을 알려주는 건강 캠페인과 같이 일반 청중을 대상으로 하는 매우 제한된 정보를 기반으로 등장할 수 있습니다.
  • [의대 과정 초기]에 학생들은 임상 교과서를 공부하면서 다양한 질병 스크립트에 대한 지식을 쌓습니다.
  • [임상 실습]에 들어가면 이러한 질병 스크립트는 [점차 실무에 맞게 조정]되어, [실제 임상 상황에서 사용할 수 있는 제한된 정보를 바탕으로 활성화]될 수 있습니다. 여기에는 진단 과정 초기에 이용할 수 있는 [지각 정보에 민감해지는 것]이 포함됩니다.

Taken together, theoretical considerations and practical research results suggest that a previous account of script development proposed by Schmidt et al. (1990) is in need of an update. In this view, the early stages of script development consist to a large extent of application of biomedical knowledge. Yet, even laypeople – who presumably have little biomedical knowledge – have knowledge of common diseases that is organized in structures that closely resemble illness scripts (Lau & Hartman 1983; Bishop & Converse 1986; Bishop et al. 1987; Becker et al. 2008).

  • Rudimentary illness scripts can emerge on basis of very limited information addressed at a lay audience, like in health campaigns telling people how to recognize a stroke.
  • During the early years of the medical course, by studying clinical textbooks students accumulate knowledge in a large number of different illness scripts.
  • When they enter clinical practice in the clerkships, these illness scripts become gradually tuned to practice, i.e., they can be activated on basis of limited information available in a practical clinical context. This includes becoming sensitive to perceptual information that is available early in the diagnostic process.

질병 스크립트 조정은 이러한 유형의 지식, 즉 [활성화 조건]과 [초기에 이용 가능한 결과]에 크게 의존합니다. "한번 생각하면 진단이 쉬웠다"는 말은 이미 수십 년 전에 진부한 표현이었으며(Wilkins 1970), 이 단계의 질병 스크립트 개발은 다양한 질병을 가진 많은 환자를 보는 데서 가장 큰 이점을 얻을 수 있음을 시사합니다. 복잡하거나 "흥미로운" 사례에 대한 정교한 토론은 유용한 교육 형식이 될 수 있지만(필연적으로 의사는 때때로 질병 스크립트 중 하나에 "맞지 않는" 환자를 마주하게 될 것입니다), 학생들의 질병 스크립트 개발을 촉진하는 데는 크게 기여하지 못할 것입니다. 마찬가지로 [근본적인 병리 생리학적 메커니즘에 대한 지식]의 역할은 주로 질병을 더 깊은 수준에서 이해하고, 때로는 [질병의 경과나 예상 증상 및 실험실 수치를 예측하는 데에만 국한되는 것]으로 보입니다. 또한 이러한 기초 과학 지식은 전문가들이 의학적 문제에 대해 의견이 일치하지 않을 때 중요한 역할을 할 수 있습니다. 

Illness script tuning depends to a large extent on this type of knowledge, i.e., the Enabling Conditions and the early available Consequences. “Once thought of, diagnosis was easy” was already a cliché quite a few decades ago (Wilkins 1970) and it suggests illness script development in this stage will benefit most from seeing a large number of patients with different diseases. Elaborate discussion of complex or “interesting” cases may be a useful instructional format – inevitably, practitioners will occasionally be confronted with patients who do not “fit” one of their illness scripts – but it will not contribute much to fostering illness script development in students. Similarly, role of knowledge of underlying pathophysiological mechanisms appears to be largely limited to understanding diseases at a deeper level, and occasionally to enable predictions about a disease’s course or expected symptoms and laboratory values. Besides, this basic science knowledge will play an important role when experts disagree about a medical problem.

몇몇 연구는 질병 스크립트의 교육적 의미보다는 [실제적인 효과]를 조사했습니다. Van Schaik 등(2005)은 질병 스크립트 측면이 의사의 특성과 상호 작용하여 의사의 의뢰 결정에 미치는 영향을 조사했으며, Monajemi 등(2012)은 질병 스크립트와 관리 계획 간의 관계를 조사했습니다. 또한 질병 스크립트 개념은 일반 의학 문헌에서도 발판을 마련했습니다(Sanders, 2009, 28쪽).

A few studies have investigated the practical effects of illness scripts, rather than its educational implications. Van Schaik et al. (2005) investigated the influence of illness scripts aspects, in interaction with physician characteristics, on physician referral decisions, whereas Monajemi et al. (2012) investigated the relationship between illness scripts and management plans. Besides, the illness script concept has also acquired a foothold in the general medical literature (Sanders, 2009, p. 28).

마지막으로, 질병 스크립트 이론은 [스크립트 일치도 검사]라는 평가 도구도 개발했습니다(Charlin 외., 2000). 이 테스트는 개별 항목에서 새로운 정보(예: 새로운 발견)가 주어진 대본의 가능성에 어떤 영향을 미치는지 물어봄으로써, 학생의 대본이 전문가 패널의 대본과 어느 정도 일치하는지 측정합니다. 따라서 이 테스트는 검사자가 진단을 '추측'하는 것이 아니라 새로 들어오는 정보를 신중하게 평가하도록 합니다. 다양한 임상 영역에서 점점 더 많이 사용되고 있는 이 검사는 정의되지 않은 상황에서 특히 유용하며 타당성이 입증되었습니다(Lubarsky et al., 2011).
Finally, illness script theory has also brought forth an assessment tool, the Script Concordance Test (Charlin et al., 2000). This test measures to what extent a student’s script matches that of a panel of experts by asking, in individual items, what the effect of a new piece of information (e.g., a new finding) would be on the likelihood of a given script. Thus, this test forces the examinee to carefully assess new incoming information, rather than “guessing” a diagnosis. This test, which is increasingly used in diverse clinical domains, appears to be particularly useful in ill-defined situations and has shown validity (Lubarsky et al., 2011).


Med Teach. 2015 May;37(5):457-62. doi: 10.3109/0142159X.2014.956052. Epub 2014 Sep 2.

Thirty years of illness scripts: Theoretical origins and practical applications

Affiliations collapse


1University Medical Center Utrecht , The Netherlands.

PMID: 25180878

DOI: 10.3109/0142159X.2014.956052


Aim: This study describes the introduction and spread of the concept of "illness script" in the medical education literature.

Method: First, I will concisely discuss the development of the "script" concept in the general psychological literature and the results of the studies performed to provide it with the necessary empirical basis. Next, I will sketch how "scripts" entered the medical domain via efforts to develop diagnostic systems in the field of artificial intelligence. Subsequently, I will describe how the illness script concept was elaborated and specified by medical educators and educational researchers.

Results and discussion: The illness script concept has solid underpinnings and can be used to elucidate aspects of medical expertise development. It can also be used to formulate recommendations for clinical teaching and has yielded a specific test, the Script Concordance Test.

