데이터로서 스토리, 스토리로서 데이터: 임상교육에서 내러티브 탐구의 의미찾기(Med Educ, 2005)
Stories as data, data as stories: making sense of narrative inquiry in clinical education* 
Alan Bleakley

숫자를 넘어서는 통찰력
Getting beyond the numbers

마크 해든의 소설 '밤에 일어난 개들의 기이한 사건'은 자폐 스펙트럼에 속하는 아스퍼거 증후군을 앓고 있는 소년의 마음을 들여다볼 수 있는 통찰력을 제공합니다. '수학에 대해서는 아주 많이 알지만 인간에 대해서는 거의 알지 못한다'는 소년의 세계는 사람이 아닌 숫자입니다. 주인공 크리스토퍼는 자신의 욕망에 대한 메시지를 담고 있는 타인의 이야기에 공감하지 못하는 놀라운 능력을 보여줍니다. 이와 같은 내러티브 통찰력의 부족은 의학계에서 체계적으로 배양된 것으로 볼 수 있는데, 의료 사례 연구의 특징적인 평면적이고 분리된 설명2은 의료 행위가 '이야기 속에 자리 잡고 있는' 현실을 감추는 역할을 합니다.3 또한 이러한 이야기는 연구를 위한 풍부한 소스를 제공합니다. 이야기의 중요성을 부정하는 의학계의 자폐증에 대한 도전이 제기되면서 임상 교육 연구자들은 '숫자가 아니라 환자를 치료하라'는 격언을 실천하기 위해 이야기 탐구 방법론을 연마한 인류학,4 심리학5 및 사회학6과 같은 학문을 활용하기 시작했습니다. 이는 숫자 치료의 가치를 부정하는 것이 아닙니다. 해든의 소설에서 크리스토퍼가 말했듯이 '많은 것이 미스터리입니다. 하지만 그렇다고 해답이 없다는 뜻은 아닙니다. 단지 과학자들이 아직 답을 찾지 못했을 뿐입니다. 
Mark Haddon's1 novel The Curious Incident of the Dog in the Night-Time offers an insight into the mind of a boy suffering from Asperger's syndrome, a condition on the autistic spectrum. The boy's world is numbers, not people: ‘he knows a very great deal about maths and very little about human beings’. The central character, Christopher, shows a striking inability to empathise with the narrative accounts of others that carry messages about their desires. An equivalent lack of narrative acumen can be seen to have been systematically cultivated in medicine, where the telling symptom is the characteristically flat, detached account of the medical case study2 serving to conceal the reality that medical practice is ‘entrenched in stories’.3 Further, such stories afford rich sources for research. As a challenge emerges to medicine's self-imposed institutional autism that is a denial of the importance of story, clinical education researchers are beginning to draw on disciplines such as anthropology,4 psychology5 and sociology6 that have honed their narrative inquiry methodologies, to address the maxim: ‘treat the patient, not the numbers’. This is not to deny the value of treating numbers. As Christopher, in Haddon's novel, says: ‘Lots of things are mysteries. But that doesn’t mean there isn't an answer to them. It's just that scientists haven't found the answer yet.'

이전에는 인문학의 영역으로 여겨졌던 건강과 질병에 대해 정서적, 관계적, 윤리적, 상상력적인 측면에 초점을 맞춘 질적 연구 형태가 등장했습니다. 일부 내러티브 연구자들은 질병에 대한 환자의 이야기와 같은 이야기를 데이터로 수집하고 분석하는 데 관심이 있으며,6,7 다른 연구자들은 삶의 경험 데이터를 내러티브 형식으로 재구성하여 연구 결과물로 제시합니다.8,9 데이터로서의 이야기, 이야기로서의 데이터 - 내러티브 탐구의 세계에 오신 것을 환영합니다. 
Qualitative forms of research have come to engage with health and illness in ways that were considered previously the province of the humanities, focusing upon affective, relational, ethical and imaginative aspects of experience. Some narrative researchers are interested in taking stories, such as patients' accounts of illness, and analysing them as data,6,7 while other researchers re-present the data of life experience in narrative form as a research product.8,9 Stories as data and data as stories − welcome to the world of narrative inquiry.

단일 사례에 초점을 맞춘 '내러티브 기반 의학'10은 인구 연구에서 도출되고 정량적이며 일반화 가능성을 추구하는 지배적인 증거 기반 접근법을 보완할 수 있습니다. 후일러9는 뉴멕시코 대학교 시체 안치소에서 감사 연구 프로젝트를 수행한 사례를 소개합니다. 그는 사망 연도별로 정리된 법정 크기의 마닐라 봉투 더미를 뒤지며 '자동' 모드로 전환하여 컴퓨터에 데이터를 입력하고 '잔여물을 증류'하는 작업을 했습니다. 하일러는 '숲속의 여인이 저지른 행위'라는 범죄 현장 사진에 적나라하게 드러난 비극에 마취된 듯 눈앞에 펼쳐진 비극에 빠져들었습니다. 자살로 의심되는 숲속의 죽은 여인의 사진이 주는 감정적 충격은 그의 '감사' 사고방식과 냉정하게 일치하는 객관적인 의학적 설명과 극명한 대조를 이룹니다: '받은 시신은 진행 단계에있는 중년 백인 여성의 시신입니다 ...'. 갑자기 하일러는 자살한 할머니를 떠올립니다. 그는 이를 떨쳐버리고 당면한 과제에 집중합니다: '그만해, 이건 설명적 통계, 역학이야...'라고 스스로에게 말했습니다.
A ‘narrative-based medicine’10 focused on the single case can complement the dominant evidence-based approach that draws from population studies, is quantitative and seeks generalisability. Huyler9 describes carrying out an audit research project at the morgue of the University of New Mexico. Working through a pile of legal-sized manila envelopes arranged by year of death, he would go into ‘automatic’ mode, typing data into a computer, ‘distilling them to a residue’. Huyler found himself anaesthetised to the tragedies that spread out before him, explicit in the photographs of crime scenes: ‘the act done … the woman in the woods’. The emotional impact of the photograph of the dead woman in the woods, a suspected suicide, contrasts starkly with the concurrent, objective medical description that chillingly correlates with his ‘audit’ frame of mind: ‘The body received is that of a middle-aged Caucasian woman in the advanced stages of…’. Suddenly Huyler thinks of his grandmother, who also committed suicide. He shrugs this off and stiffens to the task at hand: ‘Enough of that, I told myself …This is descriptive statistics, epidemiology …’.

질적 연구는 종종 '하드' 과학과 달리 '소프트'하다는 고정관념이 있지만,11 내러티브 조사의 소프트 데이터는 하드한 현실을 조명할 수 있습니다. 예를 들어, 리치와 그레이(Rich와 Grey)12는 '숫자를 넘어서'라는 부제가 붙은 연구에서 '관통 폭력'을 당한 48명의 젊은 흑인 생존자에게 외상 수술이 미친 영향을 고려했습니다. 심층 인터뷰를 통해 사회적으로 소외된 환자들의 삶에 대한 극적인 통찰력을 제공하는 내러티브 스토리를 발굴했으며, 참가자들은 그들의 세계에 진정한 관심을 보이는 연구자들을 통해 힘을 얻었습니다. 객관적인 이환율과 사망률 데이터는 특징적으로 얼굴이 드러나지 않지만, 내러티브 조사는 사람을 대상으로 하는 연구가 아니라 사람에 대한 연구로서 의도적인 개입을 통해 연구 대상자를 개인화할 뿐만 아니라 능동적으로 참여시키려고 노력하는 경우가 많습니다. 
Qualitative studies are often stereotyped as ‘soft’, in contrast to the ‘hard’ sciences11 but narrative inquiry's soft data can illuminate hard realities. For example, Rich and Grey,12 in a study subtitled ‘getting beyond the numbers’, consider the impact of trauma surgery on 48 young, black survivors of ‘penetrating violence’. In-depth interviews stimulated narrative accounts that give dramatic insight into the lives of these socially marginalised patients, while the participants are empowered through researchers showing a genuine interest in their worlds. While objective morbidity and mortality data characteristically remain faceless, narrative inquiry often seeks not only to personalise but also to engage proactively with its research population through deliberate intervention, as research with, not on, people.

양적 대 질적 논쟁을 넘어, 두 가지 질적 접근법 사이의 명백한 긴장을 다룸으로써 임상 교육에서 내러티브 탐구 분야를 이해할 수 있습니다.

  • 첫 번째는 내러티브의 구조를 분석하고 분류를 도출하는 방법입니다.
    • '이야기에 대해 생각하기'6를 하는 이 접근법은 연구자가 분석적 사고방식을 채택해야 하며, 원시 데이터에서 귀납적으로 범주를 도출하거나 설명 또는 조명을 위해 내러티브에 다시 범주를 적용하는 것을 포함합니다.
  • 두 번째는 내러티브에 대한 보다 총체적이고 통합적인 이해를 추구하는 방법으로, 주어진 내러티브에 공감적으로 '들어가거나' 구조적 분석에서 놓칠 수 있는 요소를 포착하기 위해 연구 결과물로서 스토리를 만드는 것입니다.
    • 이러한 '이야기로 사고하기'6의 접근 방식은 수사학과 같은 문학적 장치에 대한 응용 지식으로서 '내러티브 역량'13을 종합하고 개발할 수 있는 연구자를 필요로 합니다. 이야기에 대한 분석적 접근이 환자를 객관화할 수 있다면, 종합적 접근은 이야기라는 매체를 통해 연구자와 실무자를 환자의 세계에 더 가까이 다가가게 하고, 은유적으로 청진기 역할을 한다고 주장합니다. 

Beyond the quantitative vs. qualitative debate, we can make sense of the field of narrative inquiry in clinical education by addressing an explicit tension between two qualitative approaches.

  • First are methods that analyse the structure of narratives and derive classifications. This approach of ‘thinking about stories6 requires a researcher to adopt an analytical mindset and involves deriving categories inductively from raw data, and/or applying such categories back to narratives for explanation or illumination.
  • Second are methods that seek a more holistic and integrative understanding of narratives, either empathically ‘entering’ a given narrative, or creating a story as research product as a way of capturing elements otherwise lost to a structural analysis. This approach of ‘thinking with stories6 requires a researcher who can synthesise and has developed ‘narrative competence’13 as applied knowledge of literary devices such as rhetoric. Where analytical approaches to stories may lead to objectifying the patient, approaches of synthesis claim to bring researchers and practitioners closer to the patient's world through the medium of story, acting − metaphorically − as stethoscope.

내러티브 연구에 대한 이러한 서로 다른 접근 방식 사이의 긴장은 의학에서 분석의 수준으로서 집단과 단일 사례 사이의 익숙한 구분을 반영합니다. 의학교육이 주로 과학적 방법을 지향하는 경우, 이야기에 대한 사고가 이야기로 생각하는 것보다 특권을 누릴 수 있습니다. 실제로 모리스14는 내러티브 탐구에서 이야기를 통한 사고는 '철저하게 무시'된다고 말합니다. 예를 들어, 의대생들은 자신이 들은 환자의 이야기를 분석적이고 양식화된 설명2으로 변환하는 방법을 빠르게 배우는데, 이는 객관화된 임상적 시선과 청각적으로 동등한 것입니다. 이러한 편향에 대응하기 위해 '균형 잡힌' 의학 교육은 임상 전문 지식내러티브 통찰력, 즉 전자는 과학에 기반하고 후자는 인문학에 기반한 통찰력을 종합적으로 제공할 수 있습니다.
The tension between these differing approaches to narrative research echoes the familiar distinction in medicine between population and the single case as levels of analysis. Where medical education is orientated primarily to scientific method, thinking about stories may be privileged over thinking with stories. Indeed, Morris14 suggests that thinking with stories is ‘thoroughly neglected’ in narrative inquiry. For example, medical students rapidly learn to translate the patients' stories they hear into analytical and stylised accounts2 as an aural equivalent of the objectifying clinical gaze. To counter this bias, a ‘rounded’ medical education could synthesise clinical expertise and narrative acumen − the former based on science, the latter on the humanities.

내러티브란 무엇인가요?
What is a narrative?

브루너15는 과학적 앎내러티브적 앎은 근본적으로 다르다고 주장합니다. 과학이 진리를 규명하는 데 관심이 있다면, 내러티브는 경험에 의미를 부여하는 데 관심이 있습니다. '내러티브'(L. narrare)는 '알다'라는 뜻으로, 스토리텔링은 단순히 사건의 투명한 서술이 아니라 지식 생산과 경험의 형성을 포함합니다.3 현대의 내러티브 탐구는 1980년대 사회과학에 대한 재고가 활발했던 시기에 사빈16이 과학의 지배적인 기계 은유에 도전하면서 내러티브를 인간 활동의 근본 조직 원리라고 설명하면서 공고화되었습니다. 내러티브에 대한 정통적인 견해는 '일련의 사건에 대한 조직화된 해석'이라는 Murray의 정의17를 따릅니다. 이야기무질서한 사건의 시리즈로 경험될 수 있는 것에 시간적 질서를 부여합니다.18 플롯사건을 시퀀스로 배치하여 내러티브를 구성하지만, 일반적으로 주체, 의도, 수단, 목표 및 설정과 같은 이야기 요소 간의 불일치를 통해 긴장감을 조성합니다. 따라서 내러티브는 종종 기대에 반하여 익숙한 것을 낯설게 만들며, 어떤 이야기도 단일한 읽기나 의미를 갖지 않습니다.3 Strawson19은 내러티브 연구에서 모든 경험을 이야기로 취급하는 경향에 대해 경고하며, 일부 개인은 삶을 '통시적'(시간)이 아닌 '에피소드적'(공간)으로 경험할 수 있다고 말합니다.
Bruner15 argues that scientific and narrative ways of knowing are fundamentally different. Where science concerns itself with the establishment of truth, narrative's concern is to endow experience with meaning. ‘Narrative’ (L. narrare) means ‘to know’ and storytelling involves knowledge production and shaping of experience, not simply transparent recounting of events.3 Contemporary narrative inquiry was consolidated in the 1980s, during a fertile period of rethinking the social sciences, where Sarbin16 challenged the dominant machine metaphor of science, describing narrative as a root organising principle of human activity. The orthodox view of narrative follows Murray's17 definition: ‘an organized interpretation of a sequence of events’. Story brings temporal order to what would otherwise be experienced as a series of chaotic events.18 Plot structures narrative by putting events into a sequence, but tension is usually created through misfit between the elements of story such as agency, intention, means, goal and setting. Narratives thus often run counter to expectations, making the familiar unfamiliar, and no story has a single reading or meaning.3 Strawson19 warns against a tendency in narrative studies to treat all experience as story, where some individuals may experience life as ‘episodic’ (in space) rather than ‘diachronic’ (in time).

  • 내러티브에 대한 초기 학문적 연구는 내러티브의 내용, 즉 내러티브의 내적 구조에 관심을 두어 '내러톨로지'라는 용어를 탄생시켰습니다.18 내러톨로지스트들은 시간 속에서 전개되는 이야기의 패턴이나 인물과 행동 사이의 관계를 분석하여 이야기를 일련의 형식적 규칙과 전형적인 구조로 축소시켰습니다. 라보프20는 '장면 설정'과 같은 내러티브 요소의 기능에 따라 내러티브를 기능적으로 분류하면서 이러한 전통을 발전시켰습니다.
  • 그러나 다른 이론가들은 이야기의 구조에 대한 추상적 분석에는 관심이 적었고, 내러티브를 사회적 맥락에서 이야기가 수사학적으로 사용되는 방식과 같은 담론으로 취급하는 것을 선호했습니다. (수사학은 은유와 같은 장치를 통해 언어를 표현적이고 설득력 있게 사용하는 것을 말합니다.) 이러한 담론적 접근 방식은 스토리의 내용보다는 방식, 즉 사건보다는 스토리의 의미가 연구의 초점을 제공하는 것으로 생각할 수 있습니다.
  • 구조적 접근이 이야기를 투명하고 설명적인 것으로 취급하는 경향이 있다면, 현대 담론적 접근은 이야기를 사회적 의미를 구성하는 것으로 봅니다.3,21,22 앞서 소개한 이야기에 대해 생각하는 것이야기로 생각하는 것 사이의 긴장, 즉 내용으로서의 이야기(구조) 대 과정으로서의 이야기(담론) 사이의 긴장을 '이야기의 이중 논리'라고 부릅니다.22
  • Early academic work on narratives concerned itself with story content − the what, or internal structure, of narrative − giving rise to the term ‘narratology’.18 From analyses of patterns of stories unfolding in time, or the relations between characters and actions, narratologists reduced stories to a set of formal rules and typical structures. Labov20 refined this tradition, categorising narratives functionally according to what an element of narrative does, such as ‘scene-setting’.
  • Other theorists, however, were less interested in abstract analysis of the structure of story, preferring to treat narrative as discourse − for example, how stories are used rhetorically in social contexts. (Rhetoric is the expressive and persuasive use of language through devices such as metaphor.) This discursive approach can be thought of as the way, rather than the what, of stories, where the meaning of a story offers the focus for research, rather than events.
  • Where structural approaches tend to treat story as transparent and descriptive, contemporary discourse approaches see narratives as constructing social meanings.3,21,22 Echoing the tension, introduced earlier, between thinking about a story and thinking with a story, story as content (structure) vs. story as process (discourse) has been termed the ‘double logic of narrative’.22

에드워즈21은 '내러티브에 대한 연구는... 특정 이야기 내용이... 이야기 속에서 어떻게 사회적 행동을 수행하는지를 다루기보다는... 내러티브 구조의 일반화된 유형과 범주를 추구하는 경향이 있다'는 분석 중심의 연구로 인해 내러티브의 수사학적 목적의 중요성이 놓치고 있다고 지적합니다. 분석적 접근 방식은 이상화 경향이 있어 연구자들이 이야기를 미리 설정된 범주에 억지로 끼워 맞추도록 부추기며, 대안에 대응하여 자신의 신뢰성을 수사학적으로 관리하는 텍스트와 같이 특정 사회적 상황에서 특정 내러티브가 어떻게 작동하는지를 놓치게 됩니다. 예를 들어, 서로 다른 전문 분야의 의사들이 작성한 의뢰서 및 상담서의 수사학에 대한 연구에서 링가드 등은23 정신과 의사가 전문직 협회의 육성을 선호하는 의료-법적 문제에 대한 외과 의사의 편견과 같이 특정 관점을 홍보하는 데 사용되는 내용과 스타일의 차이에 주목했습니다. 이러한 편지는 중립적인 문서가 아니라 입장을 가정하고 저항을 예측하며 협력을 촉진하는 텍스트입니다. 의학교육에서 수사학은 세 가지 주요 영역에서 그 역할에 대해 연구되어 왔습니다.26,27

  • 상호작용 관리,24 
  • 은유를 사용한 임상적 판단,25 
  • 정체성 구축이라는 

Edwards21 suggests that the importance of narrative's rhetorical purpose is missed by analytically orientated research where ‘studies of narrative… have tended to pursue generalized types and categories of narrative structure, rather than dealing with how specific story content… may perform social actions in-the-telling’. Analytical approaches tend to idealisation, encouraging researchers to force stories into preset categories, again missing how specific narratives work for specific social occasions, such as a text rhetorically managing its own credibility by countering alternatives. For example, in a study of the rhetoric of doctors' referral and consultation letters from differing specialties, Lingard et al.23 note differences in content and style used to promote certain favoured perspectives, such as surgeons' biases to medico-legal issues where psychiatrists favoured the cultivation of professional associations. Such letters are not neutral documents, but texts assuming positions, predicting resistance and promoting collaboration. In medical education, rhetoric has been studied for its role in 3 main areas:

  • management of interactions,24 
  • clinical judgements employing metaphor25 and
  • identity construction.26,27

내러티브 방법
Narrative methods

이 섹션에서는 내러티브 조사에 대한 주요 방법론적 접근법을 비판적으로 살펴봅니다. 폴킹혼28은 연구 데이터를 수치, 짧은 형식, 내러티브의 세 가지 유형으로 구분합니다. 연구 질문이 공식화되면 연구자는 연구 질문을 다루기 위한 적절한 방법론을 결정해야 합니다. 내러티브 방법은 만성 질환과 같이 시간에 따른 경험을 연구하는 데 특히 적합합니다. 
This section examines critically the main methodological approaches to narrative inquiry. Polkinghorne28 distinguishes between three kinds of research data: numerical, short form and narrative. Once a research question has been formulated, the researcher must then decide on the appropriate methodology to address the research question. Narrative methods are particularly appropriate for researching experiences through time, such as chronic illness.

데이터 생성
Data generation

데이터는 비디오 또는 오디오 녹취록, 자연스러운 형태의 의사소통에 대한 현장 기록, 자극 회상과 같은 다양한 형태의 인터뷰, 사례 노트와 같은 인공물을 포함한 글쓰기 사례를 통해 생성할 수 있습니다. 확장 인터뷰는 내러티브 데이터를 생성하는 데 정기적으로 사용되지만 인터뷰 자체가 비판적으로 고려되는 경우는 드물며, 연구자들은 인터뷰가 어떻게 계획되고 수행되었는지 또는 효과적인 인터뷰에 필요한 자질에 대해 언급하지 않습니다.29,30 인터뷰는 너무 자주 목적을 위한 수단으로 취급되며, 지식(데이터 생성)을 적극적으로 구성하기 위한 사회적 매체가 아니라 정보 수집(데이터 수집)의 투명한 과정으로 취급됩니다. 미슬러30는 인터뷰의 몇 가지 잠재적 문제점으로 피험자의 이야기 흐름을 방해하여 내러티브가 단절되고, 인터뷰의 어떤 부분을 보고할지 선택할 때 편견이 생길 수 있다는 점을 지적합니다. 
Data can be generated through video or audio transcripts; field notes of naturalistic forms of communication; differing forms of interview such as stimulated recall; and examples of writing, including artefacts such as case notes. Extended interview is employed regularly in generating narrative data, but the interview itself is rarely considered critically, where researchers fail to comment on how the interview was planned and conducted, or on the qualities needed for effective interviewing.29,30 Interviewing is too often treated as a means to an end, and as a transparent process of information-gathering (data collection), rather than a social medium for active construction of knowledge (data generation). Mishler30 notes several potential problems with interviewing, such as stemming the flow of the subject's talk so that the narrative is fractured, and bias in selection of which parts of the interview are reported.

데이터 분석
Data analysis

후투넨 등31은 '내러티브 연구는 하나의 방법이 아니라 오히려 아메바처럼 느슨한 참조 프레임'이라고 도발적으로 제안합니다. 이와는 대조적으로, 내러티브 연구를 체계화한 설득력 있는 설명들이 많이 있습니다.6,7,32,33 내러티브 방법론은 '연구라기보다는 예술'이며 '거의 가르칠 수 없다'고 제안하지만, Lieblich 등은 내러티브 분석을 위한 명확한 틀을 제시하면서 전체론적 대 범주적, 내용 대 형식의 두 차원을 격자로 결합하여 네 가지 접근법을 형성할 수 있다고 말합니다(그림 1).

  • 전체론적 접근법은 문화와 역사에 맥락을 둔 전체로서의 이야기를 취하고 전체적인 패턴이나 지도적 은유를 파악하려고 시도하는 반면,
  • 범주적 접근법은 특정 에피소드를 분석합니다.
  • 내용은 내러티브에서 일어나는 일이고
  • 형식은 어떤 일이 일어나는 방식입니다. 

 

Huttunen et al.31 suggest, provocatively, that ‘narrative research is not a method… Rather, it is a loose frame of reference… amoeba-like’. In contrast, a number of eloquent accounts systematise narrative research.6,7,32,33 Despite suggesting that narrative methodology is ‘more art than research’ and ‘can hardly be taught’, Lieblich et al.33 proceed to offer a clear framework for narrative analysis, invoking two dimensions − holistic vs. categorical and content vs. form − that can be combined as a grid to form four approaches (Fig. 1). Holistic approaches take a story as a whole, contextualised in a culture and history, and attempt to grasp the overall pattern or guiding metaphors, where categorical approaches dissect particular episodes. Content is what happens in a narrative, form is how something happens.

폴킹혼28은 '내러티브의 분석'과 '내러티브적 분석'을 구분합니다. 내러티브적 분석은 실제로 내러티브를 통해 경험과 아이디어를 종합하는 과정이며, 여기서는 '내러티브를 통한 종합'으로 재구성합니다('내러티브 종합'은 무작위 대조 시험 이외의 방법으로 생산된 연구 데이터를 종합하는 방법으로 특정한 의미를 획득한 용어입니다). 내러티브의 복잡한 분야를 분석과 종합의 접근 방식 간의 단순한 대립으로 축소할 수는 없습니다. 그러나 이 관계를 생산적인 긴장으로 표현하면 내러티브 방법에 관심이 있는 의학교육자가 채택된 접근법의 한계를 비판적으로 고려하고, 거부된 경쟁 접근법도 제공할 수 있는 것을 참조하는 데 도움이 될 수 있습니다. 자물쇠와 열쇠의 비유를 통해 분석과 종합의 접근 방식은 서로 다른 것처럼 보이지만 함께 하나의 단위를 구성하며 혼합 방법론의 가치를 시사합니다. 
Polkinghorne28 distinguishes between the ‘analysis of narratives’ and ‘narrative analysis’. Narrative analysis is actually a process of synthesis of experience and ideas through narrative, and is reconfigured here as synthesis through narrative’ (rather than ‘narrative synthesis’ − a term that has acquired a particular meaning as a way of synthesising research data produced by methods other than randomised controlled trials). The complex field of narrative cannot be reduced to a simple opposition between approaches of analysis and synthesis. However, articulating this relationship as a productive tension could help medical educators interested in narrative methods to critically consider the limitations of an adopted approach by reference to what the rejected, competing approach can also offer. Drawing on the analogy of lock and key, approaches of analysis and synthesis look different apart but constitute a unit together, suggesting the value of mixed methodologies.

내러티브의 분석: 스토리에 대해 생각하기
The analysis of narratives: thinking about a story

원시 내러티브 데이터에서 귀납적으로 카테고리 생성하기
Inductively producing categories from the raw narrative data

원시 내러티브에서 귀납적으로 범주를 도출하여 추가 조사를 위한 관리 가능한 데이터를 제공할 수 있으며, 종종 프레임워크 또는 유형학을 다시 적용하여 단일 사례를 조명할 수 있습니다. 그 예로 Frank가 제시한 '질병 내러티브'의 세 가지 유형인 '회복', '혼돈', '탐구'를 들 수 있습니다. 회복 이야기는 질병을 일시적인 것으로 합리화하고, 혼돈 이야기는 상황에 압도당하는 것을 묘사하며, 탐구 이야기는 질병을 변화의 기회로 받아들이는 것을 묘사합니다. 프랭크는 '지저분하게' 이야기되는 질병 이야기는 이러한 범주에 깔끔하게 속하지 않으며, 한 사람의 account에서 세 가지 범주가 모두 작용할 수 있다고 경고합니다. 만약 그렇다면 프랭크의 방식은 그저 유용한 휴리스틱에 지나지 않을 수 있다. 그리고 그는 개별 사례의 특수성이 유형학에 포함될 수 있다는 점을 최초로 지적한 사람이다. 그러나 그는 개인이 복잡한 이야기를 제시하는 경우, 실무자와 연구자가 어떤 종류의 틀 없이는 '실타래를 정리'하기 어렵다고 주장합니다. 중요한 것은 '(유형학의) 장점은 아픈 사람들이 말하는 이야기에 세심한 주의를 기울이게 하고, 궁극적으로는 아픈 사람들의 이야기를 경청하는 데 도움을 준다는 점'이라고 프랭크는 주장합니다. 그러나 이야기에 직접적으로 몰입하는 것이 아니라 추상적인 분석 프레임이 어떻게 더 공감적으로 경청할 수 있도록 준비시키는지는 알기 어렵습니다.
Categories may be drawn inductively from the raw narratives to provide manageable data for further investigation − often a framework or typology that can then be applied back to illuminate single cases. An example of this is Frank's6 three types of ‘illness narratives’: ‘restitution’, ‘chaos’ and ‘quest’. Restitution stories rationalise illness as transitory; chaos stories describe being overwhelmed by the situation; and quest stories describe acceptance of illness as opportunity for change. Frank warns that ‘messy’ recounted illness stories do not fall neatly into such categories and all 3 categories may be at work in any one person's account. Frank's scheme may then offer no more than a useful heuristic, and he is the first to note that particularity of the individual story may be subsumed in the typology. However, he argues that where individuals present messy stories, it is difficult for practitioners and researchers to ‘sort out the threads’ without some kind of framework. Importantly, Frank claims that ‘The advantage (of typologies) is to encourage close attention to the stories ill persons tell; ultimately, to aid listening to the ill.’ It is, however, difficult to see how an abstract analytical frame, rather than direct immersion in a story, prepares one to listen more empathically.

Bal18은 '분류, 유형화... 모두 혼돈-불안에 대한 치료법으로서 매우 좋지만, 과연 어떤 통찰력을 얻을 수 있을까요? '라고 경고합니다. 분류 방법은 여전히 '다루기 힘든' 데이터를 정리할 때 자연과학에서 영감을 얻습니다. 일반적으로 내러티브는 시간에 따라 전개되는 통시적으로 나타납니다. 통시적 내러티브 데이터는 범주 분석을 거치면 역사적 또는 발전적 차원이 없는 공시적 데이터로 축소됩니다. 예를 들어, 내러티브 인터뷰 데이터에 대한 Crossley의5 분석은 HIV 양성 판정을 받고 5년 이상 살아온 38명이 사용한 생존 전략을 자세히 설명합니다. 데이터에서 '현재에 대한 철학을 가지고 살기'(낙관적), '미래에 대한 철학을 가지고 살기'(거짓 낙관적), '공허한 현재에 살기'(비관적)라는 세 가지 전략이 '시간적 지향성'의 뚜렷한 범주로 나타났습니다. 이러한 범주는 위에서 설명한 Frank6의 범주와 매우 유사합니다.
Bal18 warns that ‘classification, typology… is all very nice as a remedy to chaos-anxiety, but what insights does it yield?’. Categorisation methods still look to the natural sciences for inspiration in organising otherwise ‘unruly’ data. Typically, narrative presents diachronically, unfolding in time. When subjected to category analysis, the diachronic narrative data is collapsed into synchronic data with no historical or developmental dimension. For example, Crossley's5 analysis of narrative interview data details the survival strategies used by 38 people who had been living with HIV positive diagnosis for at least 5 years. Three strategies emerged from the data as distinct categories of ‘temporal orientation’: ‘living with a philosophy of the present’ (optimistic); ‘living in the future’ (falsely optimistic); and ‘living in the empty present’ (pessimistic). These categories conveniently resemble those of Frank6 described above.

원시 내러티브 데이터에 카테고리 적용하기
Applying categories to the raw narrative data

원시 데이터에서 귀납적으로 도출된 범주는 이제 설명력을 주장할 수 있지만 종종 단순한 설명에 불과한 새로운 사례에 적용되는 프레임워크가 됩니다. 위의 Crossley의 범주는 Gergen과 Gergen의34 만성 질환의 시간적 모델과 수렴하여 퇴행성, 진행성, 안정성의 세 가지 내러티브를 다시 설명합니다. Murray17는 이 체계를 유방암 생존자의 이야기에 적용하여 세 가지 전략을 설명합니다:

  • '안정적/퇴행적': 암을 고난의 삶에서 또 다른 좌절로 구성하는 이야기,
  • '진보적': 질병을 기회로 여기고 종종 믿음을 찾거나 현재에 새롭게 집중하는 이야기,
  • '안정적': 질병을 금욕적으로 받아들이고 통합하여 삶을 이어나가는 이야기입니다.

이러한 이야기는 절망, 희망, 수용이라는 핵심적인 은유를 드러냅니다. 머레이는 다발성 경화증 환자에게서도 같은 패턴을 볼 수 있다고 주장합니다. 작은 연구 영역 내에서 이러한 세 가지 분류 체계가 반복되는 것은 연구자들이 데이터에서 작동하는 어떤 원형적 패턴을 발견하는 것이 아니라 (모델의 교차 감염을 통해) 유형학을 구성하고 있을 수 있음을 시사합니다. 
Categories inductively derived from raw data now become frameworks applied to new cases that may claim explanatory power but are often merely descriptive. Crossley's categories, above, converge with Gergen and Gergen's34 temporal model of chronic illness, again describing three kinds of narratives: regressive, progressive and stable. Murray17 applies this scheme to stories of breast cancer survivors to delineate three strategies:

  • ‘stable/regressive’, where stories configure cancer as yet another setback in a life of difficulties;
  • ‘progressive’, where illness is seen as an opportunity and people often find faith, or a renewed focus upon the present; and
  • ‘stable’, where illness is accepted stoically and integrated, in getting on with life.

These stories reveal central guiding metaphors: despair, hope and acceptance. Murray claims that the same pattern can be seen in people suffering from multiple sclerosis. The recurrence of such triple classificatory systems within a small arena of research suggests that researchers may not be uncovering some archetypal pattern at work in the data, but constructing typologies through cross infection of models.

내러티브를 통한 종합: 스토리로 사고하기
Synthesis through narrative: thinking with a story

내러티브 분석은 환자의 경험에 공감하는 강력한 방법을 제공할 수 있는 객관적인 주제에 스토리의 정서적 영향력을 잃는 경향이 있습니다. 내러티브를 통한 종합에는 두 가지 기본 접근법이 있습니다: 

  • 첫째, '질병 내러티브'35 또는 '병리학'36,
  • 둘째, 사회 현실주의 회고록입니다.8,9,37 

전자는 종종 연구자의 해석이 수반되는 경우가 많습니다. 후자는 일반적인 연구 장치를 버리고 저자가 서사적 라이선스를 최대한 활용하여 일관성 있고 자기 참조적인 사회 현실주의 소설을 제공합니다.
Narrative analysis tends to lose the affective impact of the story to objective themes, where such impact may offer a powerful way of empathising with the patient's experience. There are two basic approaches to synthesis through narrative:

  • first, the ‘illness narrative35 or ‘pathography’;36 and
  • secondly, the social-realist memoir.8,9,37 

The former is often interpreted, with an accompanying gloss from the researcher. The latter abandons the usual research apparatus, where the author provides a coherent, self-referencing, social-realist fiction enjoying the full use of narrative licence.

질병 내러티브
Illness narratives

질병 내러티브 데이터는 일반적으로 공동 인터뷰를 통해 수집되며, 자서전적 글쓰기로 보완되며, 독자의 공감을 불러일으키기 위해 당사자의 목소리를 포착하려고 시도합니다. 이러한 내러티브는 특징적으로 의료 사례로 환원되는 것을 피하고 더 넓은 심리사회적 맥락에 해당 인물을 배치합니다. 예를 들어, 쿠저38는 '암은 의학적인 이야기가 아니라 감정의 이야기'라고 말하며 유방암 생존자의 내러티브에 나타나는 특징적인 '플롯마크'로 혹을 발견하고 진단을 받은 순간, 유방 절제술과 재건술을 포함한 치료법 선택의 어려움, 탈모, 식은땀, 조기 폐경 등 화학요법의 부작용, 성에 대한 혼란, 미래에 대한 결심 등을 제시합니다. 
Illness narrative data are usually collected through collaborative interviewing, supplemented by autobiographical writing, attempting to capture the voice of the person to invoke empathy in the reader. Such narratives characteristically avoid reduction to a medical case, situating the person in a wider psychosocial context. For example, Couser38 suggests that ‘cancer is more than a medical story, it's a feeling story', and notes characteristic ‘plotmarks’ to narratives of breast cancer survivors, such as the moments of discovery of a lump and diagnosis; difficulties of choice about treatments including mastectomy and reconstruction; the side effects of chemotherapy such as loss of hair, night sweats and early menopause; confusion over sexuality; and resolutions about the future.

이러한 내러티브는 자칫 자기만족적일 수 있는 고백적 이야기에 국한되지 않고39 질병을 안고 살아가는 데 있어 지적, 영적, 실제적 측면은 물론 정서적, 관계적 측면에 대한 통찰력을 제공합니다. 질병 내러티브를 통한 현대 연구는 상호작용과 정체성 형성의 수사학적 관리에 대한 명시적인 관심을 보여줍니다. Riessman40은 최근 이혼한 다발성 경화증을 앓고 있는 한 백인 노동계급 남성의 이야기를 들려줍니다. 이 남성은 강한 남성적 정체성을 유지하는 데 중점을 둔 자신의 삶을 이야기하면서 주요 사건을 선택적으로 수사학적으로 이야기함으로써 좌절에도 불구하고 자신의 정체성을 재구성합니다. 그가 청중을 대하는 방식은 우리가 그에 대한 인상을 형성하는 데 영향을 미칩니다. 
Such narratives are not limited to confessional accounts, that can be self-indulgent39 but give insight into the intellectual, spiritual and practical, as well as the emotional and relational, aspects of living with illness. Contemporary research through illness narratives shows explicit interest in rhetorical management of interaction and identity formation. Riessman40 offers an account of a recently divorced white working class male with advanced multiple sclerosis. The man reconfigures his identity, despite his setbacks, by selectively and rhetorically recounting key incidents in a narrative retelling of his life that centres on maintaining a strong masculine identity. The way he addresses the listener guides the impressions we form of him.

사회 현실주의 문학 작품
Social-realist literary accounts

이야기를 통한 사고의 더 강력한 버전은 회고록과 같은 사회현실주의적 '소설'을 쓰는 것입니다.8,9,37 이러한 기록은 체계적이고 엄격한 방식으로 데이터를 수집 및 분석하거나, 결론이나 권고에 도달하거나, 가설을 옹호하거나 위조하거나, 귀납적으로 테스트할 모델을 생성하거나, 타당성 및 신뢰성 점검을 유도하지 않기 때문에 기존의 정의에 따르면 '연구'로 분류되지 않습니다. 내러티브는 문학적 라이선스를 사용하여 이러한 엄격함을 노골적으로 과시할 수도 있지만, 도덕적 상상력을 명시적으로 다루는 중요한 '증인' 문서를 제공합니다. 
A stronger version of thinking with a story is to write a piece of social-realist ‘fiction’, as memoir.8,9,37 These accounts do not count as ‘research’ by conventional definitions, because they do not collect and analyse data in a systematic and rigorous way; reach conclusions or recommendations; uphold or falsify hypotheses; inductively generate models to be tested; or invite validity and reliability checks. While they may explicitly flaunt such rigour through employment of literary licence, such narratives offer important ‘witness’ documents explicitly addressing the moral imagination.

내러티브 연구자에게 필요한 속성
Attributes needed by narrative researchers

연구자의 특성은 내러티브 조사의 품질을 좌우하는 핵심 요소입니다. 내러티브 연구는 높은 수준의 윤리적, 비판적 참여와 사람과 유물을 모두 텍스트로서 면밀히 관찰하고 '읽는' 내러티브 감수성의 배양을 요구합니다.13 반사성모호성에 대한 관용은 이러한 집중적인 읽기에 매우 중요합니다.39 Gherardi와 Turner11는 '진짜 남자들은 부드러운 데이터를 수집하지 않는다'는 말을 뺨에 혀를 깨물며 상기시켜 줍니다. 이야기는 어린이(또는 여성)를 위한 것이 아닐까요? 내러티브 연구자의 가장 중요한 덕목은 아마도 연구 참여자뿐 아니라 데이터에 대해서도 여성 특유의 감수성을 발휘하는 것일 것입니다. 연구 대상이 숫자와 사물로 변할 수 있듯이, '부드러운' 질적 데이터도 무딘 상상력을 통해 쉽게 뭉개지거나 함부로 다룰 수 있습니다.  
The attributes of researchers are central to the quality of narrative inquiry. Narrative research demands high levels of ethical and critical engagement and the cultivation of a narrative sensibility, in which both people and artefacts are witnessed and ‘read’ closely, as text.13 Reflexivity and tolerance of ambiguity are critical to such intensive reading.39 Gherardi and Turner11 remind us, tongues firmly in cheeks, that ‘Real men don’t collect soft data'. Are stories not for children (or women)? Perhaps the most important virtue of a narrative researcher is the stereotypically feminine attribute of sensitivity − not simply to research participants, but also to data. As research subjects can be turned into numbers and objects, so ‘soft’ qualitative data can be readily squashed or treated in a ham-fisted way through a blunt imagination.

결론
Conclusion

이 글은 내러티브 탐구를 이해함에 있어 분석 접근법종합 접근법 사이의 명백한 분열을 비판적으로 다루었으며, 이를 생산적인 긴장으로 재구성하고 두 접근법 간의 동등성을 높일 것을 촉구했습니다. 내러티브 연구에 대한 접근 방식의 유형론을 제시하고, 이러한 프레임워크가 복잡한 탐구 분야를 이해하는 데 도움이 된다는 점을 인정합니다. 이야기의 구조(내용)를 강조하는 접근 방식이야기의 의미(담론)를 강조하는 접근 방식 사이의 긴장을 다루고 있습니다. 이는 두 가지 예를 통해 설명할 수 있습니다. 긴즈버그 외.41는 의대생들이 직업적 갈등을 해결하는 과정을 묘사합니다. 학생들은 직업적 실수를 보고할 때 특정 추론 전략을 통해 실수를 '다시 이야기'하는데, 그 중 하나가 바로 '내러티브 태도'입니다. 어떤 학생들은 중요한 사건을 다시 이야기하면서 책임을 회피deflect하는 반면, 다른 학생들은 반성reflect하는 모습을 보이기도 합니다. Good42는 의대생들이 사례 발표라는 장르를 학습함으로써 환자의 특이한 이야기를 의학적인 설명으로 바꾸고, 현상학적 묘사를 구체적인 병태생리학적 분석으로 전환하는 과정을 설명합니다. 이 과정은 진단과 치료에 대한 과학적 고려에 필요한 집중을 유도하고 의사를 불필요한 친밀감으로부터 보호하는 역할을 하지만, '사람을 의학적 문제로 공식화'하는 관행으로 이어집니다. 
In making sense of narrative inquiry, this article has critically addressed the apparent split between approaches of analysis and synthesis, reframing this as a productive tension and calling for greater parity between the two approaches. A typology of approaches to narrative research is offered, acknowledging that such a framework helps to make sense of a complex field of inquiry. A further tension is addressed − between approaches that emphasise the structure of a story (content) and those emphasising the meaning of a story (discourse). This can be illustrated by two examples. Ginsburg et al.41 describe medical students resolving professional conflicts. As they report professional lapses, students ‘re-story’ the lapse through certain reasoning strategies, one of which is ‘narrative attitude’. Some students characteristically deflect responsibility through re-storying critical incidents, where others reflect. Good42 describes how, through learning the genre of case presentations, medical students come to transform patients' idiosyncratic stories into medicalised accounts, where phenomenological description is translated into specific pathophysiological analysis. While this process encourages necessary focus upon scientific consideration of diagnosis and treatment, and also serves to protect the doctor from unnecessary intimacy, it results in a practice where ‘persons are formulated as… medical problems’.

첫 번째 예에서 의학교육자가 직면한 과제는 편향적 전달이 아닌 성찰적 전달 전략을 촉진하는 방법입니다. 두 번째 예에서 의학교육자의 역할을 하는 의사가 전통적으로 학생과 후배를 표준 사례 발표의 구조와 내용에 익숙하게 만드는 경우, 환자의 이야기를 변형하는 과정에서 공감을 저해할 수 있는 담론과 수사학적 관행 같은 사례 발표에 대해 어느 정도 인식하고 있을까요? 또한, 의학교육자들은 이야기를 매개로 민감한 경청을 교육하여 다시 공감을 이끌어낼 수 있는 종합적인 접근 방식보다 이야기에 대한 수렴적이고 분석적인 접근 방식을 선호하는 경향이 있을까요? 내러티브는 실습의 우연한 부산물로 여겨지기보다는 체계적인 임상 학습을 위한 강력한 매체가 될 수 있습니다. 의학교육의 또 다른 과제는 이러한 주장을 평가하는 것입니다. 

In the first example, the challenge to medical educators is how to promote reflective, rather than deflective, strategies of telling. In the second example, where doctors, in the role of medical educators, traditionally socialise students and juniors into the structure and content of the standard case presentation, to what extent are they aware of such case presentation as discourse and rhetorical practice that, in transforming the patient's story, may compromise empathy? Further, will medical educators tend to privilege convergent and analytical approaches to story over divergent approaches of synthesis that may educate sensitive listening through story as a medium, again leading to empathy? Rather than being seen as an accidental by-product of practice, narratives can offer a potent medium for structured clinical learning. A further challenge for medical education is to evaluate such a claim.

 


Med Educ. 2005 May;39(5):534-40. doi: 10.1111/j.1365-2929.2005.02126.x.

Stories as data, data as stories: making sense of narrative inquiry in clinical education

Affiliation

1Peninsula Medical School, University of Exeter, Knowledge Spa, Royal Cornwall Hospital, Truro, UK. alan.bleakley@pms.ac.uk

PMID: 15842721

DOI: 10.1111/j.1365-2929.2005.02126.x

Abstract

Background: Narrative inquiry is a form of qualitative research that takes story as either its raw data or its product. Science and narrative can be seen as two kinds of knowing, reflected in the distinction between evidence-based medicine derived from population studies and narrative-based medicine focused upon the single case. A similar tension exists in the field of narrative inquiry between cognitive-orientated analytical methods and affective-orientated methods of synthesis.

Aims: This paper aims to make sense of narrative inquiry in clinical education through definition of 'narrative', articulation of a typology of narrative research approaches, and critical examination in particular of analytical methods, the dominant approach in the literature. The typology is illustrated by research examples, and the role of medical education in developing expertise in narrative inquiry is discussed. An argument is made that the tension between analysis of the structure of stories and empathic use of stories can be seen as productive, stimulating expertise encompassing both approaches.

Discussion: Analytical methods tend to lose the concrete story and its emotional impact to abstract categorizations, which may claim explanatory value but often remain descriptive. Stemming from discomfort with more integrative methods derived from the humanities, a science-orientated medical education may privilege analytical methods over approaches of synthesis. Medical education can redress this imbalance through attention to 'thinking with stories' to gain empathy for a patient's experience of illness. Such an approach can complement understanding of story as discourse - how narratives may be used rhetorically to manage both social interactions and identity.

서사 탐구: 의학교육의 관계적 연구 방법론(Med Educ, 2017)
Narrative inquiry: a relational research methodology for medical education
D Jean Clandinin,1 Marie T Cave2 & Charlotte Berendonk3

 

소개
Introduction

의학계에서는 환자의 이야기에 귀를 기울이는 것이 중요하기 때문에 내러티브와 스토리에 대한 관심이 항상 있어 왔습니다. 작가이자 의사였던 콜스1는 의사가 환자의 이야기에 귀를 기울여야 환자의 질병뿐만 아니라 자신의 지식에 대해 더 많은 것을 배울 수 있다고 주장했습니다. 그러나 이러한 이야기를 연구할 수 있는 가능성을 발견한 것은 그보다 역사가 짧습니다. 이러한 가능성은 브루너2가 내러티브 지식패러다임적 지식의 차이를 강조한 이후 가시화되기 시작했습니다.

  • 전자(내러티브)는 '인간 또는 인간과 유사한 의도와 행동, 그리고 그 과정을 표시하는 우여곡절과 결과를 다룹니다. 본질적으로 시간을 초월하기보다는 일시적인temporal 것'입니다.
  • 후자(패러다임)는 현상 관찰, 경험적 데이터 수집 및 분석, 결과의 일반화 가능성 가정 등 재현 가능한 단계에 의존하는 논리-과학적 추론 과정을 사용합니다. 이러한 특징 때문에 패러다임적 사고는 물질 과학과 생물 과학에서 지배적인 추론 접근법으로 자리 잡았습니다.

There has always been interest in narrative and story in medicine through the importance of attending to what patients say. Coles,1 a writer and physician, called for physicians to listen to patients’ stories so as to learn more about their own knowledge as well as about their patients’ illnesses. However, seeing the possibilities for researching those stories has a shorter history. These possibilities began to become visible after Bruner2 highlighted the distinction between narrative and paradigmatic knowledge.

  • The former ‘deals in human or human-like intention and action and the vicissitudes and consequences that mark their course. It is essentially temporal rather than timeless’.
  • The latter employs a logico-scientific reasoning process, which relies on replicable steps, including observation of phenomena, empirical data collection and analysis and the assumption of generalisability of findings. These features led to paradigmatic thinking as the dominant reasoning approach in material and biological sciences.

의학교육에서 패러다임적 지식은 Flexner3가 임상 전 기초과학 학습을 도입한 이후 다른 형태의 지식을 압도해 왔습니다. 패러다임적 지식이 임상적 사고의 필수적인 부분이라는 데는 동의하지만, 임상의가 임상 진료의 불확실성과 모호성, 특히 진단의 불확실성에 직면할 때 패러다임적 지식만으로는 충분하지 않습니다.
In medical education, paradigmatic knowledge has swamped other forms of knowing since Flexner's3 introduction of pre-clinical basic science learning. Although we agree that paradigmatic knowledge is an essential part of clinical thinking, it is not enough when clinicians face the uncertainty and ambiguity of clinical practice, particularly the uncertainty of diagnosis.

브루너의 구분은 부분적으로 내러티브 연구 방법론의 개발을 가능하게 했습니다. 사회과학 연구자들은 1980년대 후반 '내러티브 혁명'이라고도 불리는 내러티브 연구 접근법의 급속한 수용과 함께 내러티브를 연구 방법론으로 발전시키기 시작했습니다.4 그러나 내러티브 연구 접근법으로 빠르게 전환하면서 연구자들이 내러티브라고 부르는 것이 무엇인지, 내러티브 연구 안에 무엇이 포함되는지 아직 잘 이해되지 않았습니다.5, 6 '이야기'와 '내러티브' 같은 용어는 종종 혼용되어 사용되지만 내러티브 연구에서는 다른 의미를 지니고 있습니다.7, 8 내러티브 연구에서 내러티브가 무엇을 의미하는지에 대한 명확한 정의가 없는 상황에서,7 학자들은 현재 진행 중이거나 다가오는 사건에 대한 대화와 같이 상호작용이 이루어지는 '작은 이야기' 접근법,9,10 또는 인생 이야기나 자서전에 초점을 맞춘 '큰 이야기' 접근법을 언급합니다.7 또한 내러티브는 '내면에 기반한 현상'과 '사회적 행동'11으로 간주되며 구체화된 경험으로 간주됩니다.5 1990년대에 Mishler12 가 내러티브 연구의 경계를 정하는 것을 경계했지만, 명확한 정의가 부족하여 약간의 혼란이 발생하고 있습니다. 
Bruner's distinction, in part, made it possible to develop narrative research methodologies. Social science researchers began to develop the idea of narrative as a research methodology in the late 1980s with a rapid uptake of narrative research approaches, sometimes called the ‘narrative revolution’.4 However, with the rapid turn to narrative research approaches, just what researchers were referring to as narrative, or what was included within narrative research, is not yet well understood.5, 6 Terms like ‘story’ and ‘narrative’ are often used interchangeably yet carry different meanings in narrative research.7, 8 With no clear definition of what narrative means in narrative research,7 scholars refer to ‘small story’ approaches such as conversations about ongoing or upcoming events, in which interaction is in the midst,9, 10 or big story approaches focusing on life stories or autobiographies.7 Furthermore, narratives are viewed as both ‘an interior based phenomenon’ and ‘as social actions11 as well as embodied experiences.5 Although Mishler12 cautioned in the 1990s against policing the boundaries of narrative research, the lack of delineation has resulted in some confusion.

이 논문에서는 내러티브 연구에 대한 한 가지 접근 방식인 내러티브 탐구의 방법론을 뒷받침하는 존재론적 및 인식론적 약속을 제시합니다.13 이러한 약속을 바탕으로 내러티브 탐구를 적용한 의학교육의 두 가지 연구를 소개합니다. 마지막으로, 내러티브 탐구 참여의 어려움에 대해 논의하고 유망한 연구 및 실천 가능성을 제시합니다. 
In this paper, we lay out the ontological and epistemological commitments that underlay the methodology of one approach to narrative research, narrative inquiry.13 Based on these commitments we introduce two studies in medical education applying narrative inquiry. Finally, we discuss challenges in engaging in narrative inquiry and point toward promising research and practice possibilities.

내러티브 탐구의 정의
Definition of narrative inquiry


우리는 다음과 같은 내러티브 탐구의 정의를 바탕으로 작업합니다.
We work from the following definition of narrative inquiry.

'사람들은 자신과 타인이 누구인지에 대한 이야기를 통해, 그리고 이러한 이야기의 관점에서 자신의 과거를 해석하면서 일상생활을 형성합니다. 현재의 관용구에서, 이야기story는 사람이 세상으로 들어가고, 세상에 대한 자신의 경험을 해석하고 개인적으로 의미 있게 만드는 통로입니다."14
‘People shape their daily lives by stories of who they and others are and as they interpret their past in terms of these stories. Story, in the current idiom, is a portal through which a person enters the world and by which their experience of the world is interpreted and made personally meaningful.’14

이 정의는 경험을 스토리로 생각하는 방법으로서 내러티브 탐구에 주목합니다. 방법론으로서의 내러티브 탐구는 경험 현상에 대한 내러티브적 관점에서 작동하며, 듀이의 경험에 대한 이해15를 기반으로 합니다.
The definition draws attention to narrative inquiry as a way of thinking about experience as a story. Narrative inquiry as methodology works from a narrative view of the phenomenon of experience, building on Dewey's15 understanding of experience.

듀이의 경험의 두 가지 기준(상황 속에서 이루어지는 상호작용과 연속성)은 시간성, 장소성, 사회성의 차원을 가진 3차원 내러티브 탐구 공간을 통해 경험에 대한 내러티브 개념의 근거를 제공합니다.

  • 시간성사건과 인물의 과거, 현재, 미래에 주의를 기울이며, 항상 진행 중인 사건에 초점을 맞춥니다.
  • 장소는 탐구와 삶의 사건이 일어나는 장소의 특수성에 주목합니다.
  • 사회성은 사람의 욕망, 미적, 도덕적 반응뿐만 아니라 실존적 조건, 즉 환경과 맥락적 힘에 대한 내적, 외적 초점을 말합니다. 

Dewey's two criteria of experience (interaction and continuity enacted in situations) provide grounding for a narrative conception of experience through the three-dimensional narrative inquiry space with dimensions of temporality, place and sociality.

  • Temporality draws attention to the past, present and future of events and people, with a focus on them as always in process.
  • Place draws attention to the particularities of where inquiry and life events take place.
  • Sociality refers to the inward and outward focus on a person's desires, aesthetic and moral reactions, as well as on the existential conditions, that is, the environment and contextual forces.

'이야기에 대한 사고'와 '이야기로 사고하는 것'을 구분한 모리스(Morris)16는

  • '이야기에 대한 사고내러티브를 대상으로 생각하는 것'인 반면,
  • '이야기로 사고하는 것은 생각하는 사람으로서 우리가 내러티브에 대해 작업하는 것이 아니라, 내러티브가 우리를 위해 작업하도록 허용하는 과정'이라는 내러티브 탐구의 근거를 제시하기도 합니다.

Morris’16 distinction between thinking about stories and thinking with stories also grounds narrative inquiry

  • where ‘thinking about stories conceives of narrative as an object’
  • whereas ‘thinking with stories is a process in which we as thinkers do not so much work on narrative as of allowing narrative to work on us’.

모리스의 구분은 내러티브 연구에 대한 다양한 접근 방식에서 작동하는 서로 다른 존재론적, 인식론적 가정에 주목하는 데 도움이 됩니다.

  • 일부 내러티브 연구자들은 시간성, 장소, 사람과 분리된 객체로서 서면 및 구어 텍스트를 분석하는 반면, 
  • 내러티브 탐구자들은 시간, 장소, 관계 속에서 연구 대상인 경험에 주목합니다.

클랜디닌과 로지크17가 지적했듯이, '내러티브 탐구의 초점은 개인의 경험뿐만 아니라 개인의 경험이 구성, 형성, 표현, 제정되는 사회적, 문화적, 제도적 내러티브에도 있다'고 할 수 있습니다. 내러티브 탐구자는 살아 숨 쉬고 이야기되는 개인의 경험을 연구하며, 듣고, 관찰하고, 다른 사람과 함께 생활하고, 텍스트를 작성하고 해석하는 과정을 통해 연구합니다. 
Morris’ distinction helps us draw attention to the different ontological and epistemological assumptions at work in different approaches to narrative research.

  • Some narrative researchers analyse written and spoken texts as objects separate from temporality, place and people, whereas
  • narrative inquirers attend to the experience under study in time, place and relationships.

As Clandinin and Rosiek17 pointed out, ‘the focus of narrative inquiry is not only on individuals’ experience but also on the social, cultural, and institutional narratives within which individuals’ experiences are constituted, shaped, expressed, and enacted’. Narrative inquirers study an individual's experience, storied in the living and telling, and studied through listening, observing, living alongside another, and writing and interpreting texts.

내러티브 탐구는 개인의 삶에 주목하면서도 삶이 중첩된 더 큰 맥락과 관계에 주의를 기울이는 경험에 대한 탐구 방식입니다. 이야기는 시간, 장소, 관계 속에서 각 개인의 삶과 이야기와 분리되지 않고 살아 있고, 이야기되며, 삶과 이야기와 분리되어 분석되고 해부되어야 할 텍스트로 간주되지 않습니다.
Narrative inquiry is a way of inquiring into experience that attends to individuals’ lives but remains attentive to the larger contexts and relationships within which lives are nested. Stories are lived, and told, not separated from each person's living and telling in time, place and relationships, not seen as text to be separated from the living and telling and analysed and dissected.

의학교육 연구의 내러티브 전환
Narrative turn in research in medical education

'보건의료의 내러티브적 전환'18, 즉 치료와 돌봄은 항상 삶의 예술에 대한 더 넓은 관점 안에 포함된다는 관점의 일환으로, 보건의료는 사람이 주어진 상황에서 자신의 경험을 이해하고 자신을 표현하고 자신의 이야기를 들려줄 수 있도록 하는 것으로 주목받고 있습니다. 돌봄제공자와 돌봄수혜자는 공존하는 관계로, 돌봄제공자가 특정 상황에서 도움이 되는 지식을 가지고 있다고 해도 그것이 돌봄제공자가 일반적인 삶의 문제, 더 나아가 다른 사람의 삶에 대한 전문가가 되는 것은 아닙니다. 돌봄제공자와 돌봄을 받는 사람은 '전기적 만남'의 공동 저자입니다.19
As part of a ‘narrative turn in health care’,18 that is, that cure and care are always embedded within a broader perspective on the art of living, there is attention to health care as enabling a person to make sense of their experiences in a given situation and to express themselves, to tell their stories. Caregiver and care-receiver are both co-existent in the sense that although a caregiver may have knowledge helpful in a given situation at a particular time, this does not make the caregiver an expert on issues of life in general or, more importantly, on the life of another person. Caregiver and care-receiver are co-authors in ‘biographical encounters’.19

이러한 보건의료의 내러티브 전환(의학교육의 내러티브 전환에 대해서는 예를 들어20, 21 참조) 속에서 방법론으로서 내러티브 연구로의 전환도 이루어지고 있습니다. Bleakley22가 지적했듯이, 내러티브 연구에서 사용되는 이야기의 존재론적, 인식론적 지위에 대한 가정을 탐구할 필요가 있습니다. 내러티브 연구에서 스토리는 데이터로 사용되는데, 이는 아마도 패러다임적 지식의 힘에서 비롯된 결과일 것입니다. 폴킹혼23이 내러티브의 분석이라고 표현한 것처럼, 모리스가 이야기에 대해 생각하는 것과 비슷한 의미에서 이야기를 일종의 object으로 삼아 분석의 대상subjected으로 삼습니다이야기를 탈맥락화되고 객관적인 연구 데이터로 취급하는 내러티브 분석은 현재 의학교육에서 내러티브 연구로 전환하는 과정에서 가장 널리 퍼져 있는 방식입니다. 그러나 최근 의학교육의 연구 방법론으로서 삶과 이야기, 맥락과 사람, 연구자와 연구 참여자의 관계적 측면에 주목하는 방법론인 내러티브 탐구로 전환하는 것에 대한 관심이 높아지고 있습니다.6
Within this narrative turn in health care (for the narrative turn in medical education, see, for example,20, 21), there is also a turn to narrative research as methodology. As Bleakley22 pointed out, assumptions about the ontological and epistemological status of stories as used in narrative research need to be explored. Stories are used by some in narrative research as data, perhaps a lingering result of the power of paradigmatic knowledge. Stories are taken as a kind of object and subjected to analysis in the sense that Polkinghorne23 described as analysis of narratives, akin to what Morris described as thinking about stories. Analysis of narratives, where stories are treated as decontextualised and objective study data, is currently what is most prevalent in the turn to narrative research in medical education. However, there is recent attention to shifting to narrative inquiry as a research methodology in medical education, a methodology that attends to the relational aspects of living and telling stories, of context and person, of researcher and research participant.6

의학 학습자의 정체성 형성을 위한 내러티브 연구
Narrative research in medical learners’ identity making

내러티브 연구가 의학 교육에서 사용되는 분야 중 하나는 의학 학습자의 정체성 발달에 관한 연구입니다. Monrouxe24가 강조했듯이

  • '정체성은 중요하다. 우리가 누구인지, 그리고 우리가 누구로 비춰지는지는 의학교육에서 우리가 하는 일의 많은 부분의 근간이 된다.

의학 학습자의 정체성 발달은 이론 및 개념 논문(예: 24-27)과 최근에 발표된 경험적 연구(예: 28, 29)의 초점입니다. 여기서는 내러티브 연구 접근법을 사용하여 직업 정체성 발달을 탐구한 세 가지 연구를 참조합니다.

  • Konkin과 Suddards의 종단적 통합 사무직 프로그램에 대한 평가30에서는 해석학적 현상학적 설계를 사용하여 환자에 대한 경험에 대해 학습자를 인터뷰했습니다. 이들은 근거 이론 방법을 사용하여 데이터를 분석하고 정체성 발달을 위한 학습자 경험의 의미를 찾아냈습니다. 그들은 '[...] 이 연구에서 학생들의 이야기는 환자 치료에 의미 있게 참여하는 행위에서 탄생하고 발전하는 돌봄의 윤리에 기반을 둔 새로운 직업적 정체성을 반영한다'는 사실을 발견했습니다.30
  • Wong과 Trollope-Kumar31는 사전 실습 기간 동안 작성된 의료 학습자의 포트폴리오에 대한 내러티브를 조사했습니다. 주제별 내러티브 분석은 '복잡한 학습 환경 속에서 환자, 멘토, 동료와의 상호작용을 통해 전문직 정체성을 능동적으로 구축'하는 학생들에 대한 통찰력을 제공했습니다. 다섯 가지 주제는 '역동적이고 담론적이며 반복적인' 과정으로서의 전문직 정체성 개발에 대한 통찰력을 제공했습니다.
  • Monrouxe32는 의료 학습자의 종단적 오디오 일기를 통해 그들의 근본적인 내러티브 줄거리에 대해 탐구하고 학습자의 내러티브에서 정체성 형성의 복잡성을 설명하는 8가지 주제를 확인했습니다.
  • Monrouxe33는 내러티브를 제시하고, 이 방법을 사용할 때 윤리적 차원을 논의했으며, 개인적 및 직업적 이야기가 의대생의 정체성을 형성한다는 점을 강조했습니다. 그녀는 내러티브의 맥락적, 사회적, 시간적 내재성을 고려하는 것이 중요하다고 설명했습니다. 몬루즈는 '의대생들의 개인적, 직업적 자아는 [...] 의사가 끊임없이 그 사이를 오가며 인간의 상태를 바라보는 두 가지 방식, 즉 생의학적 시선과 내러티브 시선의 예시'라고 결론지었습니다.

One area in which narrative research is used in medical education is in studies of medical learners’ identity development. As Monrouxe24 highlighted:

  • ‘Identity matters. Who we are, and who we are seen to be, underlies much of what we do in medical education’.

The identity development of medical learners is the focus of theoretical and conceptual articles (e.g.24-27) and recently published empirical research (e.g.28, 29). We refer to three studies, which used narrative research approaches to inquire into professional identity development.

  • In Konkin and Suddards’30 evaluation of a longitudinal integrated clerkship programme they interviewed learners regarding their experiences with patients using a hermeneutic phenomenological design. They analysed data using grounded theory methods and carved out the meaning of learners’ experiences for identity development. They found: ‘[…] students’ stories in this study reflect an emerging professional identity, born in the act of meaningful engagement in patient care, and grounded in a developing ethic of caring’.30 
  • Wong and Trollope-Kumar31 inquired into narratives of medical learners’ portfolios written during pre-clerkships. Thematic narrative analysis provided insights into students’ active construction ‘of their professional identities through interactions with patients, mentors and colleagues, within complex learning environments’. Five themes gave insights into professional identity development as a ‘dynamic, discursive and iterative’ process.
  • Monrouxe32 explored longitudinal audio-diaries of medical learners regarding their underlying narrative plotlines and identified eight themes in learners’ narratives that illustrate the complexity of identity formation.
  • Monrouxe33 presented narratives, discussed ethical dimensions in employing this method, and emphasised that personal and professional stories shape the identity of medical students. She illustrated the importance of considering contextual, social and temporal embeddedness of narratives. Monrouxe concluded that ‘their personal and professional selves […] exemplify the two ways of gazing on the human condition – biomedical and narrative – that doctors constantly oscillate between’.


이러한 연구에서 전문직 정체성 발달 개념에 대한 정교한 분석을 제공하지는 않지만, 우리는 전문직 정체성에 대한 보다 포괄적인 이해가 중요하다는 점을 강조합니다. 예를 들어, Bleakley 등34 은 '의대생에게 있어 전문직 정체성은 의학교육을 통해 '만들어지는 것''이라고 말했습니다. 인용된 경험적 연구 중 두 건은 전문직 정체성의 기초가 되는 전문직 경험에 초점을 맞췄습니다.30, 31 정체성에 대한 내러티브적 관점으로 보면, 전문직 정체성은 전문직 환경 내에서 형성될 뿐만 아니라 시간이 흐르면서 다양한 장소, 맥락, 관계 속에서 개인의 삶의 이야기에 의해 형성되며, 또한 사람에 의해 체화embodied됩니다.35 내러티브 경험 개념에서 정체성 발달은 내러티브 현상이며, 내러티브 탐구는 '내러티브 풍경에서 내러티브된 삶을 사는 것'에 주목하고 '우리가 누구인지, 우리가 살아갈 이야기가 근본적으로 내러티브적이라는 것'을 이해함으로써 의학 학습자의 정체성 발달을 연구하기에 적합한 방법론입니다.5 의학교육에서 정체성 형성 연구에 대한 내러티브 접근법 중 대부분은 이야기를 데이터로 사용했습니다.22 내러티브 탐구로 전환하면서 이야기에 대한 사고 대신 이야기와 함께 사고하는 것으로 전환했습니다.

Without providing a sophisticated analysis of notions of professional identity development in these studies, we emphasise the importance of even more comprehensive understandings of professional identity. For example, Bleakley et al.34 stated that ‘for the medical student, a professional identity is something that is ‘‘made’’ through a medical education’. Two of the cited empirical studies focused on professional experiences as the foundation of professional identity.30, 31 Working with a narrative view of identity, professional identities are formed within professional landscapes, as well as shaped by personal life stories, over time and in multiple places, contexts and relationships and are also embodied in persons.35 Within a narrative conception of experience, identity development is a narrative phenomenon and narrative inquiry is an appropriate methodology to study medical learners’ identity development with its attention to the living of ‘storied lives on storied landscapes’5 and through understanding ‘that who we are, our stories to live by, is fundamentally narrative in nature’.5 Of the narrative approaches to research in identity making in medical education, most used stories as data.22 With the turn to narrative inquiry, the shift is to thinking with stories instead of about stories.

의료 학습자의 정체성 형성 연구에서의 내러티브 탐구
Narrative inquiry in the study of medical learners’ identity making

2000년대 초반에 이미 교육에 대한 연구는 있었지만,36 의료 학습자의 정체성 형성에 대한 내러티브 탐구는 초기 단계에 있었습니다. 의학교육에서 내러티브 글쓰기에 초점을 맞춘 Charon,20은 의학 학습자가 임상 경험에 대한 이야기를 작성하고 이를 촉진된 소그룹에서 '밀착 읽기'를 통해 공유하는 과정인 평행 차트 작성이라는 교육적 접근법을 개발했습니다. 클랜디닌, 케이브, 케이브35도 의사들의 진료 경험을 글로 쓰고 공유함으로써 얻을 수 있는 변화의 효과에 관심을 가졌습니다. 우리 역시 의료 전문가들이 내러티브 성찰적 실천에 참여할 기회를 얻었을 때 그들의 삶에 미치는 영향을 목격했습니다.37 우리는 내러티브 탐구의 방법론과 방법을 사용하여 Charon의 평행 차트 교수법을 사용하여 의료 학습자의 정체성 형성에 대한 연구를 시작했습니다. 이 연구에서는 학부 학습자의 경험과 레지던트 과정을 밟는 졸업생의 경험의 차이, 새로운 임상 책임이 의대생의 전문적 정체성 형성에 미치는 영향, 소규모 동료 그룹에서 촉진된 내러티브 반성적 실습이 전문적 정체성 형성에 미치는 영향에 관한 수수께끼를 탐구했습니다. 
In the early 2000s, although there were already studies in teaching,36 narrative inquiry into the identity making of medical learners was in its initial years. Charon,20 with her focus on narrative writing in medical education, developed a pedagogical approach called parallel charting, a process where medical learners write stories of their experiences of clinical encounters and share them in ‘close reading’ in facilitated small groups. Clandinin, Cave and Cave35 were also interested in the transformative effects of writing and sharing physicians’ stories of practice. We, too, witnessed the impact on medical professionals’ lives if they received opportunities to participate in narrative reflective practices.37 Using methodologies and methods from narrative inquiry, we began studies into medical learners’ identity making using Charon's parallel chart pedagogy. The research explored puzzles around differences in undergraduate learners’ experiences to those of graduates undertaking residency, the impact of new clinical responsibilities on medical students’ professional identity making, and the impact of facilitated narrative reflective practice in small groups of peers on professional identity making.

우리는 참가자들에게 평행 차트를 작성하도록 한 다음 Clandinin과 Connelly의39 3차원 내러티브 탐구 공간을 사용하여 촉진된 내러티브 탐구 그룹에 참여하도록 한 두 개의 연구35, 38 에 대해 설명합니다. 두 연구 모두 각 참가자가 10개의 차트를 작성하고 공유하는 5번의 회의가 있었다는 점에서 유사했습니다. 이동 시간을 줄이고 장소의 중요성에 주목하기 위해 각 회의는 같은 병실 내에서 진행되었습니다. 그러나 집, 병원, 침대 옆, 강의실 등 특정한 상황에 스토리를 배치했기 때문에 장소도 중요했습니다. 모든 세션에서 각 참가자는 한두 개의 차트를 공유했고, 전체 그룹은 진행자나 연구자의 의견을 들어 각 차트에 대해 질문했습니다. 모든 참가자가 자신의 차트를 공유할 시간을 갖도록 함으로써 시간성의 차원을 인정했지만, 가정과 학교에서의 어린 시절 경험과 최근의 경험 모두에서 나온 이야기였기 때문에 시간성이 존재했습니다. 시간이 지남에 따라 이야기가 바뀌면서 임상 실습의 순간에 대한 경험은 때때로 다른 시간과 장소에서의 경험과 연결되기도 했습니다. 퍼실리테이터는 참가자들이 이야기를 나누는 동안 각 참가자에게 주의를 기울였으며, 참가자들이 글을 쓰고, 공유하고, 그룹 질문에 참여하고, 그룹 회의 사이의 시간에 자신의 경험에 대해 계속 질문하면서 많은 내러티브 탐구가 발생한다는 점을 염두에 두었습니다. 사회성의 차원이 인정되는 한 가지 방법은 그룹의 포용성과 일단 형성된 그룹의 배타성에서 확인할 수 있었습니다. 의학 학습자들이 특정 상황과 사건에 대한 이야기를 하면서 개인적인 감정적, 도덕적, 심미적 반응을 드러낼 때에도 사회성은 존재했습니다.  
We describe two studies35, 38 where participants were invited to write parallel charts, and were then asked to engage in facilitated narrative inquiry groups using Clandinin and Connelly's39 three-dimensional narrative inquiry space. Both studies were similar in that there were five meetings, with each participant writing and sharing 10 charts. Each meeting was held within the same hospital room to avoid travel time and to draw attention to the importance of place. However, place was also present as the stories themselves were placed in particular contexts, such as homes, hospitals, bedsides and lecture halls. At every session, each participant shared one or two charts and the entire group, with facilitator or researcher input, inquired into each chart. Ensuring all participants had time to share their charts acknowledged the dimension of temporality, but temporality was present as the stories told came from both childhood experiences in homes and schools and more recent experiences. As stories shifted over time, the experiences of moments of clinical practice were sometimes linked to experiences in other times and places. Facilitators were attentive to each participant as they shared, mindful that much narrative inquiry occurred as participants wrote, shared, engaged in the group inquiry and continued to inquire into their experiences in the time between group meetings. One way the dimension of sociality was acknowledged was in the inclusivity of the groups, and, once formed, their exclusivity. Sociality was also present as the medical learners told stories situated within particular circumstances and events and also made visible their personal emotional, moral and aesthetic reactions.

차트를 구두로 공유한 후 이어진 내러티브 질문에는 차트를 작성하는 사람과 듣는 사람 모두 반성적인 방식으로 참여하여 동료의 이야기와 함께 자신의 이야기를 겹쳐서 이야기했습니다. 참가자들은 이야기 속에서 자신을 상상하고40 모리스가 제안한 방식으로 이야기와 함께 생각할 수 있었습니다.16 
The narrative inquiry following the oral sharing of a chart involved all participants in reflexive ways, both chart writers and those listening, who layered their stories alongside their colleagues’ stories. Participants could imagine themselves within the story40 and think with the story in ways suggested by Morris.16

두 연구 모두에서 퍼실리테이터는 각 참가자의 용기를 인정하고 공유된 이야기에 대한 초기 검증validation을 제공했습니다. 퍼실리테이터는 다른 참가자들과 함께 각 이야기가 시간적 한가운데로 들어갈 수 있게 해준다는 것을 인식하고, 들려준 이야기에 대해 더 자세히 물어보면서 내러티브 탐구에 참여했습니다. 내러티브 탐구가 진행됨에 따라 참가자들은 환자와 자신의 삶, 삶이 내재된 장소와 관계, 환자, 의사, 서로의 정서적, 도덕적, 미적 반응에 주의를 기울이게 되었습니다. 
In both studies facilitators recognised each participant's courage and provided initial validation of the shared story. The facilitators, along with other participants, engaged in the narrative inquiry by asking for further details about the stories told, recognising that each story allowed them to enter into the temporal midst. As the narrative inquiry proceeded, participants became attentive to the unfolding lives of their patients and themselves, to the places and relationships within which lives were embedded, and to the emotional, moral and aesthetic responses of patients, physicians and each other.

두 연구 모두에서 참가자들은 자신의 직업적 정체성을 구성하는 경험에 주목했습니다.

  • 첫 번째 연구에 참여한 사라(Sarah)38는 레지던트 프로그램에서 경험이 풍부한 국제 의대 졸업생이었습니다. 그녀의 병렬 차트는 어느 새 엄마가 아이를 입양 보내기로 결정한 경험을 묘사했는데, 이는 사라의 문화적 내러티브에서 유기에 가까운 행동이었습니다.
    • 차트의 일부에는 사라가 그 어머니에게 어떻게 반응했는지 재검토하고 의사로서 자신이 누구인지에 대한 자기 성찰을 하게 된 동료의 반응이 기술되어 있었습니다.
    • 그룹의 반응에서 한 참가자는 사라의 자기 판단, 즉 도덕적 반응에 주목했습니다.
    • 또 다른 참가자는 아기의 미래에 초점을 맞춘 시간적 반응을 보였습니다.
    • 또 다른 참가자는 이 상황에서 누가 도와줄 수 있는지에 대한 질문을 던졌습니다.
  • 세 가지 측면에 주의를 기울이며 그룹 질문이 진행되자 사라는 결국 자신이 환자와의 관계 형성에 탁월하다는 것을 알고 있는 자신의 이야기를 다시 들려주었습니다. 참가자들은 사라의 전개되는 삶, 환자의 전개되는 삶, 그리고 의료 학습자로서의 자신의 삶에 주의를 기울였습니다. 

In both studies participants attended to their experiences of composing their professional identities. Sarah, a participant in the first study,38 was an experienced international medical graduate in the residency programme. Her parallel chart described her experience with a new mother's decision to offer her child for adoption, an action akin to abandonment in Sarah's cultural narrative.

  • Part of her chart described a peer's response that caused Sarah to re-examine how she responded to the mother and also to engage in self-facing about who she was as a physician.
  • In the group's responses, one participant attended to Sarah's self-judgement, her moral response.
  • Another response was temporal, focused on the baby's future.
  • Another raised questions about who else could help in this situation.

As the group inquiry proceeded with attention to the three dimensions, Sarah eventually retold her story as one in which she knew she excelled in establishing relationships with patients. Participants were attentive to Sarah's unfolding life, to her patient's unfolding life and to their own lives as medical learners.

내과 레지던트들이 참여했던 두 번째 연구35에서 우리는 한 참가자 레슬리의 경험을 공유했습니다. 레슬리와의 마지막 종료 대화에서 그녀는 자신의 직업적 정체성이 어떻게 변화하고 변화하는지에 대해 간략하게 설명했습니다. 레슬리가 자신의 경험에 대해 썼을 때, 우리는 그것을 그녀의 개인적인 실용적 지식을 '실천하고, 말하고, 되살리고, 다시 말하는 것'5으로 이해했습니다.41

  • 레슬리는 첫 번째 평행 차트에서 좋은 의사가 되는 것에 대한 자신의 고민을 설명했습니다. 당시 그녀는 환자에게 간호사로 인식되는 것부터 자신을 의사로 소개하는 데 어려움을 겪는 것까지 다른 사람의 인식에 크게 의존하고 있었습니다. 그녀는 의사로서의 역할과 의사로 인식되지 않는 것에 대한 우려 사이에서 부조화를 느끼는 경험을 다섯 번의 세션 동안 반복했습니다. 그녀는 좋은 의사가 된다는 것이 무엇을 의미하는지에 대해 의문을 품고 그룹에 속한 다른 사람들이 자신의 상황에서 어떻게 반응하고 행동했을지 확인했습니다.
  • 마지막 그룹 세션에서 레슬리는 의사로서 자신의 이야기를 담은 차트를 공유했습니다. 그녀는 자신을 자만하지 않는다고 설명하며 '어떤 일을 처리할 수 있다는 자신감이 생겼다'고 말했습니다. 그리고 그것은 단지 경험일 뿐입니다...'.35 이러한 변화는 신체적, 정서적으로, 말과 행동으로 나타났고, 레슬리는 이에 대해 자세히 기록했습니다. 그녀는 의사로서 자신의 이야기가 일반적인 임상 환경이 아닌 다른 곳에서 어떻게 실현되는지 보여주었습니다.
  • 레슬리는 시간이 지남에 따라 다양한 개인적, 직업적 환경에서 자신의 직업적 정체성이 어떻게 발전했는지 보여주었습니다. 그녀의 직업적 정체성은 한 인간이자 의사로서 그녀가 누구인지 구체화되어 있으며, 새로운 경험을 겪으면서 계속 발전하고 있습니다. '뒤돌아보는 이야기'를 하기 위해 마지막 차트를 작성하기로 결정함으로써 그녀는 자신의 이야기를 다시 들려주고 되새기며 의사가 되고 의사가 되는 미래 지향적인 이야기를 구성할 수 있었습니다. 

In an article from the second study,35 in which participants were internal medicine residents, we shared the experience of one participant, Lesley. In the final exit conversation with Lesley, she gave a brief account of how she understood her professional identity as shifting and changing. As Lesley wrote of her experience we understood it as the ‘living out, telling, reliving and retelling’5 of her personal practical knowledge.41 

  • In her first parallel chart Lesley described her concerns about being a good physician. At this time she was heavily reliant on the perceptions of others, from being perceived as a nurse by patients to her difficulty with introducing herself as a physician. Her experience of feeling dissonance (between her role as a physician and her concern at being not perceived as a physician) was recurrent over the five sessions. She questioned what it meant to be a good physician and checked with others in the group as to how they would have responded or acted in her situations.
  • In the last group session, Lesley shared a chart in which she was now telling the story of herself as a physician. She described herself as not complacent, ‘it's just more of a comfort that, more confidence that I can handle some stuff. And it's really just experience …’.35 The changes manifested themselves physically and emotionally, in speech and behaviours, and Lesley wrote of them in some detail. She made visible how her story of herself as a physician was lived out in places other than the usual clinical settings.
  • Lesley showed how her professional identity developed over time and in different personal and professional landscapes. Her professional identity is embodied in who she is as a person and physician and continues to develop as she undergoes new experiences. Her decision to write her final chart looking back, to tell a ‘backward looking story’, allowed her to retell and relive her stories and compose her forward looking story of becoming and being a physician.

이 두 가지 내러티브 탐구에서 우리는 내러티브 탐구가, 데이터로서의 이야기가 아니라, 시간이 지남에 따라 다양한 사람들과 다양한 상황에서 살아가고 이야기하는 각 의료 학습자의 지속적인 경험 이야기에 관계적인 방식으로 접근한다는 것을 알 수 있었습니다.
In these two narrative inquiries we showed that narrative inquiry does not work with stories as data but attends in relational ways to each medical learner's ongoing narratives of experiences as they are lived and told in multiple situations with diverse people over time.

의학교육에서 내러티브 탐구 참여의 도전 과제
Challenges of engaging in narrative inquiry in medical education

의학교육 연구에서 내러티브 탐구를 사용하는 데는 많은 어려움이 있으며, 그 중 네 가지를 강조합니다. 우리는 의학교육에서 내러티브 탐구에 참여했던 방식을 바탕으로 이러한 과제를 명확하게 설명합니다.
Using narrative inquiry in medical education research has many challenges and we highlight four. We draw on the ways that we have engaged in narrative inquiry in medical education to make explicit these challenges.

우리가 경험한 첫 번째 도전은 탐구의 시작점에 관한 것입니다. 내러티브 탐구는 경험을 연구하는 방법론이기 때문에, 우리는 개인의 경험담에 초점을 맞추는 데서 출발합니다. 우리는 우리 모두가 속한 사회적, 문화적, 제도적, 언어적, 가족적 내러티브의 중요성을 인정하지만, 연구의 초점은 개인의 경험입니다. 이러한 점에서 내러티브 탐구는 특정 현상에 대한 이론적 이해에서 출발하는 연구와 대조를 이룹니다. 내러티브 탐구자의 존재론적, 인식론적 가정에서 비롯되는 이러한 방법론적 출발점의 근본적인 차이는 많은 의학교육 연구와 대조적입니다.
The first challenge we experienced concerns the starting point for inquiry. Because narrative inquiry is a methodology for the study of experience, our starting point is the focus on an individual's stories of experience. Although we acknowledge the importance of social, cultural, institutional, linguistic and familial narratives within which we are all embedded, the focus of study is an individual's experience. In this way narrative inquiry stands in contrast with studies that begin in theoretical understandings of a particular phenomenon. This fundamental difference in the methodological starting point, which follows from narrative inquirers’ ontological and epistemological assumptions, is in contrast with many medical education studies.

예를 들어, 의사의 정체성 형성 연구에 대한 우리의 내러티브 탐구 접근법은 이론적으로 정립된 정체성 개념이 아니라 의학 학습자의 경험에서 출발했습니다. 내러티브 탐구에서는 각 의료 학습자의 경험담에서 시작합니다. 연구 설계에서는 참여자가 자신의 이야기를 들려줄 수 있는 방법을 채택하거나 참여자의 경험을 함께 할 수 있는 방법을 채택해야 합니다. 앞서 설명한 두 가지 내러티브 조사에서 우리는 차트 작성과 공유를 병행하여 의료 학습자가 자신의 이야기를 들려줄 수 있는 공간을 만들었습니다. 그런 다음 참가자들과 함께 이야기에 대해 질문하고 마지막 출구 대화에서 자신의 경험을 되돌아보도록 요청했습니다. 참가자를 포함하여 사람들로 하여금, 설문지나 반구조화된 인터뷰 프로토콜을 만들 수 있는 이론적 이해가 아니라, 질문의 출발점이 참가자의 경험에 있다는 것을 이해하도록 돕는 것은 어려운 과제였습니다.
As an example, our narrative inquiry approach to research into physician identity making began with the experiences of medical learners rather than with pre-set notions of identity developed in theory. In narrative inquiry we begin with each medical learner's stories of experience. Research designs require that we adopt methods to enable participants to tell their stories or to allow us to live alongside them as they undergo their experiences. In the two narrative inquiries described earlier we used parallel chart writing and sharing to create spaces within which medical learners could tell their stories. Alongside the participants, we then engaged in inquiries into the stories and finally we asked them to look back over their experiences in a final exit conversation. It is a challenge to help others, including participants, understand that the inquiry starting point is in the experience of participants, and not in theoretical understandings that would have allowed us to create a questionnaire or semi-structured interview protocol.

내러티브 탐구는 정체성 형성에 관여하는 요소를 더 깊이 이해할 수 있게 해주고, 의료 학습자가 임상 실습의 필수 출발점으로서 자신의 경험에 주목하는 법을 배울 수 있는 교육적인 방법을 만들어주기 때문에 그 중요성을 잘 알고 있습니다. 탐구 과정을 통해 학생들은 실습에 참여하기 위해 외부의 전문 지식뿐만 아니라 자신의 개인적 실무 지식을 활용하는 방법을 배우게 됩니다.
We see the importance of engaging in narrative inquiry as it allows deeper understandings of what is involved in identity making and creates educative ways for medical learners to learn to attend to their experiences as an essential starting point in their clinical practice. Through the inquiry process they learn to look to their own personal practical knowledge, as well as to outside expert knowledge, to engage in practice.

의학교육에서 내러티브 탐구를 활용하는 두 번째 과제는 의사와 의사가 되기 위해 배우는 사람들에게 (임상 사례나 사례 연구를 사용하여 글을 쓰고 생각하도록 요구하는) 일반적인 의학교육 관행에서 관심을 전환하는 것입니다. 의사들은 일상적인 연습으로 회진에 참석하고 그 일환으로 사례 연구를 준비하고 발표하도록 훈련받습니다. 사례 연구는 대부분 객관적인 생물의학 데이터를 바탕으로 한 집중적인 프레젠테이션입니다. 임상 사례 연구에서는 환자에 초점을 맞추고 의사의 경험은 포함되지 않습니다. 즉, 발표를 위해 사례를 준비할 때 의사는 객관적인 데이터를 수집하고 각 임상 사례에서 자신을 행위자 및 대리인으로 생각하지 않고 환자를 사례로 제시하는 방법을 배웁니다. 임상 사례와 사례 연구는 패러다임적 사고와 연결됩니다. 관계적 방법론인 내러티브 탐구에서는 모든 참여자(의사, 환자, 연구자)의 경험을 연구 대상으로 삼습니다. 패러다임적 지식에서 내러티브 지식으로의 전환, 즉 데이터로서의 이야기에서 이야기로의 사고로의 전환은 자신의 경험을 연구에서 배제하도록 잘 훈련된 의사에게는 어려운 전환입니다. 예를 들어, 의료 학습자의 정체성 형성 경험에 대한 내러티브 탐구에서 참가자들은 처음에는 환자와 관련된 자신의 이야기를 쓰는 것이 어렵다고 느꼈습니다. 처음에는 환자에 대한 사례 연구를 쓰는 것이 더 편하다는 것을 알게 되었습니다. 시간이 지나고 노력을 기울인 끝에 그들은 환자에 대한 자신의 경험내러티브 탐구에서 연구 대상이 될 수 있다고 생각하기 시작했습니다. 
The second challenge to engaging in narrative inquiry in medical education is shifting attention from the more common medical education practice of asking physicians and those learning to be physicians to write and think using clinical cases or case studies. They attend rounds as routine practice and are trained to prepare and present case studies as part of that practice. Case studies are, most frequently, intensive presentations that draw on objective biomedical data. In a clinical case study, the focus is on the patient and the physician's experience is not included; that is, in preparing cases for presentation, physicians are taught to collect objective data and to present patients as cases without thinking of themselves as actors and agents in each clinical encounter. Clinical cases and case studies are linked to paradigmatic thinking. In narrative inquiry, a relational methodology, the experiences of all participants (physicians, patients and researchers) are under study. This shift from paradigmatic to narrative knowledge, from thinking about stories as data to thinking with stories, is a challenging shift for physicians who have been well trained to leave their own experiences out of research. For example, in our narrative inquiries into medical learners’ experiences of identity making, our participants initially found it challenging to write stories of themselves in relation to patients. At first, they found it more comfortable to write case studies of the patients. It was over time and with effort that they began to see their experiences with patients as what was also under study in narrative inquiry.

내러티브 탐구 사용의 세 번째 과제는 방법론methodology으로서 내러티브 탐구와 일치하는 방법methods을 만들어야 한다는 것입니다. 다른 전문가와의 내러티브 탐구에서 사용되는 연구 방법은 여러 가지가 있지만,39 의사와 의료 학습자가 시간이 지남에 따라 관계를 형성하고 임상 환경에서 평가 체크리스트와 다른 전문가의 시선에 의해 형성된 '두려움/불확실성'을 내려놓을 수 있는 내러티브 탐구 방법을 만드는 것은 특히 어렵습니다. 이렇게 잘 정립된 관행에 맞서기 위해서는 의료 학습자가 자신의 이야기를 하고 자신의 이야기에 대해 질문할 수 있을 만큼 안전하다고 느끼는 공간을 만들어야 합니다. 예를 들어, 정체성 형성에 대한 내러티브 탐구에서 병렬 차트를 사용하고 공동 탐구 방식을 공유 및 촉진함으로써 참가자들에게 안전한 공간을 만들 수 있었습니다.
The third challenge in using narrative inquiry is the need to create methods that are congruent with narrative inquiry as a methodology. Although there are a number of research methods that are used in narrative inquiries with other professionals,39 it is particularly challenging to create methods of narrative inquiry to use with physicians and medical learners that allow for relationships over time and that will allow them to set aside their ‘fears/uncertainties’ shaped by assessment checklists and the expert gaze of others in their clinical environments. Working against these well-established practices requires that we create spaces where medical learners feel safe enough to tell their stories and to inquire into their stories. For example, in our narrative inquiries into identity making, it was the use of parallel charts followed by the shared and facilitated method of collaborative inquiry that created a safe space for the participants.

네 번째 도전 과제는 의사가 의료 상황에서 개별 행위자가 아닌 의료팀의 일원으로서 자신의 위치를 파악하는 데서 비롯됩니다. 내러티브 탐구에 참여하는 데 있어 어려운 점은 다양한 팀원들의 경험을 고려하는 것입니다. 앞서 언급했듯이 의사의 정체성은 다른 의사, 간호사, 치료사, 약사, 사회복지사, 관리자 등 다른 의료 서비스 제공자들과의 관계 속에서 살아가며 들려주는 이야기를 통해 형성됩니다. 내러티브 탐구에 참여할 때 우리는 학제 간 및 전문직 간 업무 환경에서 만나는 다양한 의료 서비스 제공자의 경험을 포함할 수 있는 방법을 개발해야 합니다. 내러티브 탐구에 참여하려면 다른 전문가들의 이야기뿐만 아니라, 개인이 포함된 더 큰 사회적, 제도적, 직업적 내러티브에 주의를 기울여야 합니다. 여러 참여자의 경험에 주의를 기울이는 다관점 내러티브 탐구에 참여하는 것은 쉽지 않은 일입니다. 따라서 각 의료 학습자의 경험을 이해하려면 각 분야와 각 전문직에 고유한 더 큰 사회적 전문직 내러티브제도적 내러티브서로 다른 전문가를 어떻게 포지셔닝하는지 이해해야 합니다.
The fourth challenge emerges from attending to physicians’ positioning as members of health care teams and not as individual actors in health care contexts. The challenge of engaging in narrative inquiry is in considering the experiences of different team members. As noted earlier, physicians’ identities are shaped through stories they live and tell in relation to other allied health care providers, including other physicians, nurses, therapists, pharmacists, social workers, managers, etc. As we engage in narrative inquiry we need to develop ways to include the experiences of different health care providers as they meet in their interdisciplinary and interprofessional work environments. Engaging in narrative inquiry requires attentiveness to the stories of other professionals as well as to the larger social, institutional and professional narratives in which individuals are embedded. Engaging in what often becomes multi-perspectival narrative inquiry that attends to the experiences of multiple participants is challenging. Consequently, to understand each medical learner's experiences we need to understand the larger social professional narratives that are unique to each discipline and each profession, and also how institutional narratives position different professionals in relation to each other.

향후 연구 및 실천 방향
Future research and practice directions

내러티브 탐구가 의학교육 연구에서 계속 채택됨에 따라 위에서 언급한 바와 같은 도전과제가 있을 것입니다. 우리는 내러티브 탐구와 다른 형태의 내러티브 연구의 기초가 되는 인식론적, 존재론적 가정을 계속해서 명확히 하는 것이 중요하다고 봅니다. 또한 의학교육과 다른 환경에서 내러티브 탐구의 근간이 되는 관계 윤리에 대한 이해를 계속 발전시켜야 할 필요성이 있습니다. 교육학으로서의 내러티브뿐만 아니라 내러티브 반성적 실천과 같은 전문적 실천에서 내러티브 탐구의 사용을 확장할 수 있는 가능성도 고려해야 합니다.
As narrative inquiry continues to be taken up in research in medical education, there will be challenges as noted above. We see the importance of continuing to clarify the epistemological and ontological assumptions underlying narrative inquiry and other forms of narrative research. There is also a need to continue to develop understandings of the relational ethics that underlie narrative inquiry in medical education and in other settings. Consideration must be given to the possibilities of extending the uses of narrative inquiry in professional practice, such as narrative reflective practice as well as narrative as a pedagogy.


 

Med Educ. 2017 Jan;51(1):89-96. doi: 10.1111/medu.13136. Epub 2016 Nov 2.

Narrative inquiry: a relational research methodology for medical education

Affiliations collapse

1Faculty of Education, University of Alberta, Edmonton, Alberta, Canada.

2Faculty of Medicine, University of Alberta, Edmonton, Alberta, Canada.

3Faculty of Nursing, University of Alberta, Edmonton, Alberta, Canada.

PMID: 27807868

DOI: 10.1111/medu.13136

Abstract

Context: Narrative research, an inclusive term for a range of methodologies, has rapidly become part of medical education scholarship.

Concepts: In this paper we identify narrative inquiry as a particular theoretical and methodological framework within narrative research and outline its characteristics. We briefly summarise how narrative research has been used in studying medical learners' identity making in medical education.

Uses of narrative inquiry: We then turn to the uses of narrative inquiry in studying medical learners' professional identity making. With the turn to narrative inquiry, the shift is to thinking with stories instead of about stories.

Conclusions: We highlight four challenges in engaging in narrative inquiry in medical education and point toward promising future research and practice possibilities.

질적연구를 위한 프레임워크분석방법을 사용: AMEE Guide No. 164 (Med Teach, 2023)
Using framework analysis methods for qualitative research: AMEE Guide No. 164
Sonja Klingberga , Renee E. Stalmeijerb and Lara Varpioc

 

 

소개
Introduction

보건 전문직 교육(HPE) 연구자가 선택할 수 있는 다양한 질적 연구 방법론과 방법이 있으며, 각 방법론은 고유한 목적에 맞게 맞춤화되어 있습니다.

  • 직장 기반 학습에 관한 새로운 이론을 개발하는 데 관심이 있으신가요? 구성주의적 근거 이론(예: Helmich 외. 2018)을 찾아볼 수 있습니다.
  • 의료 교육에서 수치심에 대한 생생한 경험을 탐구하는 데 관심이 있으신가요? 해석학적 현상학(예: Bynum 외. 2021)을 살펴볼 수 있습니다.

구성주의적 근거 이론과 해석학적 현상학을 포함한 대부분의 질적 연구 방법론은 현상을 깊이 이해하거나 설명하기 위해 해석의 힘을 활용합니다. 이러한 해석적(주요 용어에 대한 용어집은 표 1 참조) 질적 연구(Finlay 2021)는 종종 소규모 데이터 세트에 의존합니다. 소규모 데이터 세트는 연구 데이터 말뭉치를 반복적으로 읽고 다시 읽고, 연구팀과 함께 진화하는 이해에 대해 순환적인 방식으로 반복해서 논의하여 연구 인사이트를 개발하는 분석을 가능하게 합니다. 

There are many different qualitative research methodologies and methods for health professions education (HPE) researchers to choose from, each tailored to unique purposes.

  • Are you interested in developing a new theory about workplace-based learning? You might reach for constructivist grounded theory (e.g. Helmich et al. 2018). Are
  • you interested in exploring the lived experience of shame in medical training? You might turn to hermeneutic phenomenology (e.g. Bynum et al. 2021).

Most qualitative research methodologies—including constructivist grounded theory and hermeneutic phenomenology—harness the power of interpretation to deeply understand or explain a phenomenon. Such interpretive (see Table 1 for a glossary of key terms) qualitative research (Finlay 2021) often relies on small datasets. Smaller data sets enable analyses that involve iteratively reading and re-reading the corpus of study data, discussing evolving understandings with the research team, again and again in a cyclical fashion, to develop research insights.

데이터 변환: 데이터 변환은 샌델로우스키와 바로소(2003)가 원시 데이터와의 '해석적 거리'라고 부르는 관점에서 질적 연구 결과 또는 질적 데이터 분석의 결과물의 성격을 말합니다. 이 거리는 이론화, 추상화, 해석과 같은 과정을 통해 커지는 반면, 원시 데이터에 가깝거나 단순히 원시 데이터의 내용을 설명하는 출력물은 데이터 변환을 거치지 않았거나 실제로 분석이 전혀 이루어지지 않은 것으로 간주할 수 있습니다. 
Data transformation: Data transformation refers to the nature of qualitative findings or the output of qualitative data analysis in terms of what Sandelowski and Barroso (2003) call the ‘interpretive distance’ from raw data. The distance grows through processes like theorizing, abstraction and interpretation, whereas output that remains close to, or merely describes the content of, raw data can be considered as not having undergone data transformation, or indeed, much analysis at all.

연역적 데이터 분석: 연역적 데이터 분석은 일반적인 규칙(예: 이론, 모델)을 추론하여 특정 인스턴스(예: 특정 데이터 집합)에서 일어나는 일을 추론하는 것을 포함합니다. 예를 들어, 가난하게 사는 의대생이 높은 수준의 스트레스를 경험하고, 높은 수준의 스트레스가 사기꾼 증후군을 경험하게 된다는 이론이 존재할 수 있습니다. 따라서 이러한 이론을 사용하여 의대생의 사기꾼 증후군이 빈곤과 관련이 있는지 알아보기 위해 많은 수의 의대생을 연구할 수 있습니다. 이 예에서 알 수 있듯이, 연역적 데이터 분석은 기존의 규칙으로 시작하여 그 규칙에 따라 분석에 적용됩니다.
Deductive data analysis: Deductive data analysis involves reasoning from general rules (e.g. theories, models) to infer what is happening in specific instances (e.g. in specific datasets). For example, a theory might exist that explains how medical students who live in poverty experience high levels of stress, and that high levels of stress lead to experiences of imposter syndrome. Therefore, we might use these theories to study a large number of medical students to see if imposter syndrome in medical students is related to poverty. As this example illustrates, deductive data analysis starts with and is guided by pre-existing rules that are then applied in the analysis.

설명적: 설명적 목적의 연구는 데이터 또는 현상의 속성과 특성을 조사, 문서화 및 기술하는 것을 목표로 하며(예: 어떤 것인지 문서화), 해당 데이터 또는 현상의 더 넓은 의미(예: 데이터의 의미 또는 우리에게 무엇을 알려줄 수 있는지 해석)로 확장할 필요는 없습니다. 또한 어떤 주제나 집단에 '목소리를 부여'하는 연구일 수도 있습니다(브라운과 클라크 174). 특정 그룹의 구성원이 특정 주제에 대해 어떤 의견을 가지고 있는지 또는 관심 있는 문화가 어떤지 물어볼 수 있습니다(Bernard and Ryan 2010).  
Descriptive: If a study has a descriptive purpose, it is aiming to investigate, document, and describe the properties and qualities of data or a phenomenon (e.g. documenting what it is like), without necessarily extending into the wider implications of said data or phenomenon (e.g. interpreting what it means or what it can tell us). It can also be a study that ‘”gives voice” to a topic or a group of people’ (Braun and Clarke 174). It can ask what members of a specific group have to say about a particular topic, or what a culture of interest is like (Bernard and Ryan 2010). 

탐색적: 설명적 질적 접근 방식과 마찬가지로, 탐색적 연구는 주로 주제나 현상의 다양한 측면을 조사하고, 범위를 정하고, 기록하는 데 중점을 둡니다. 이해, 의미 또는 시사점을 도출하기 위해 시작하는 대신 다음과 같은 질문을 던집니다: '여기에는 어떤 종류의 것들이 있는가? 이 사물들은 서로 어떻게 관련되어 있는가? 여기에 자연스러운 사물의 그룹이 있는가?'(Bernard and Ryan 2010, p8).
Exploratory: Similarly to descriptive qualitative approaches, exploratory research is primarily concerned with examining, scoping and recording different aspects of a topic or phenomenon. Instead of setting out to generate understanding, meaning, or implications, it asks questions like:

  • ‘What kinds of things are present here?
  • How are these things related to one another?
  • Are there natural groups of things here?’ (Bernard and Ryan 2010, p8).

프레임워크 분석(FA): 이 AMEE 가이드에서는 프레임워크 분석 또는 FA라는 용어를 사용하여 이 질적 데이터 분석 방법에 대한 Ritchie와 Spencer(1994)의 원래 설명을 참조합니다. 
Framework analysis (FA): In this AMEE guide, we use the term framework analysis or FA to refer to Ritchie and Spencer (1994) original description of this qualitative data analysis method.

프레임워크 분석 방법(FAM): 이 AMEE 가이드에서는 대규모 정성적 데이터 집합을 조사하여 특정 질문에 답하는 데이터 분석 접근법의 제품군을 설명하기 위해 포괄적인 용어로 FAM을 사용합니다. 프레임워크 분석 접근법은 몇 가지 특징을 일반적으로 공유합니다(Gale et al. 2013). 

  • 체계적이고 사례별로 구조화된 데이터 코딩 프로세스에 의존하고,
  • 체계적으로 또는 일관되게 생성된(따라서 동질적인) 데이터 세트에 적용되며,
  • 질적 데이터의 패턴을 포착하고 설명하는 것을 목표로 하고,
  • 일반적으로 교차하는 연구 초점의 매트릭스로 결과를 표현한다


Framework analysis methods (FAMs): In this AMEE guide, we use FAM as an umbrella term to describe a family of data analysis approaches that answer specific questions through the examination of large qualitative datasets. Framework analysis approaches commonly share several characteristics—i.e.

  • they rely on a systematic and by-case-structured data coding process;
  • they are applied to systematically or consistently generated (and therefore homogeneous) datasets;
  • they aim to capture and describe patterns in qualitative data; and
  • typically express findings as a matrix of intersecting research foci (Gale et al. 2013).

프레임워크 방법(FM): 이 AMEE 가이드에서는 프레임워크 방법 또는 FM이라는 용어를 사용하여 Gale과 동료들이 2013년에 설명한 구체적이고 널리 알려진 FAM을 지칭합니다. 
Framework method (FM): In this AMEE guide, we use the term framework method or FM to refer to a specific and popular FAM articulated in 2013 by Gale and colleagues.

귀납적 데이터 분석: 귀납적 데이터 분석은 구체적인 것(즉, 데이터로부터)에서 일반적인 것(즉, 연구자가 생성하고 데이터에 의해 논리적이고 경험적으로 뒷받침되는 설명이나 통찰에 대한 보다 추상적인 진술)으로 이동하여 현상에 대한 이해를 생성합니다. '아래로부터(데이터) 위로 분석을 생성하는 것을 목표로 하며, 분석은 기존 이론에 의해 형성되지 않습니다(그러나 분석은 항상 연구자의 관점, 학문적 지식 및 인식론에 의해 어느 정도 형성됨)'(브라운과 클라크 p175). 예를 들어, 우리는 왜 일부 의대생들이 사기꾼 증후군을 경험하는지 이해하고 싶을 수 있습니다. 우리는 의대생의 사기 증후군 경험에 대한 많은 의대생의 설명을 수집하고 분석하여 의대생의 사기 증후군 경험과 무수히 많은 개인적, 제도적, 사회적 요인 사이의 관계에 대한 통찰력, 이론 또는 모델을 생성할 것입니다. 
Inductive data analysis: Inductive data analysis generates understanding about a phenomenon by moving from the specific (i.e. from data) to the general (i.e. more abstract statements of explanation or insight that are generated by the researcher(s), and are logically and empirically backed by the data). It ‘aims to generate an analysis from the bottom (the data) up; analysis is not shaped by existing theory (but analysis is always shaped to some extent by the researcher’s standpoint, disciplinary knowledge and epistemology)’ (Braun and Clarke p175). For example, we might be curious to understand why some medical students experience imposter syndrome. We will collect and analyze many medical student accounts of their imposter syndrome experiences to generate insights, theories, or models about the relationship between medical student experiences of imposter syndrome and a myriad of different personal, institutional, and/or social factors.

해석: 질적 해석은 '데이터의 의미를 이해하고 그 의미를 이론화하는 과정'입니다(Braun and Clarke 2013, p332). 따라서 질적 연구에서 데이터 해석은 '데이터의 명백한 의미적 내용을 요약하는 것을 넘어'(브라운과 클라크 p332) 일종의 해석적 개념 구조를 생성하는 것입니다. 따라서 데이터 집합의 품질을 넘어 특정 맥락에서 데이터가 말하거나 의미할 수 있는 더 깊고 추상적인 수준으로 나아가는 것이 포함됩니다.  
Interpretation: Qualitative interpretation is ‘a process of making sense of, and theorising the meanings in, data’ (Braun and Clarke 2013, p332). Thus, interpretation of data in qualitative research ‘goes beyond summarising the obvious semantic content of the data’ (Braun and Clarke p332) to generate some kind of interpretive conceptual structure. It thus involves going beyond the qualities of a dataset to deeper, more abstract levels of what the data could be taken to say or mean in a particular context. 

패러다임: 패러다임은 '과학에 대한 특정 접근 방식을 정의하는 개념, 관행 및 언어로 구성'됩니다(Varpio와 MacLeod 2020, p687). 특정 연구 전통에서 일하는 개인이 문제를 어떻게 이해하고 해결해야 하는지, 그리고 그러한 접근 방식과 관련된 엄격함의 지표에 대해 가지고 있는 신념과 합의의 집합입니다.  
Paradigm: A paradigm ‘consists of the concepts, practices, and language that define a particular approach to science’ (Varpio and MacLeod 2020, p687). It is the set of beliefs and agreements that individuals working from a particular research tradition hold about how problems should be understood, addressed, and the markers of rigor associated with those approaches. 


그러나 때로는 질적 연구에 참여하는 이유가 더 지시적directed 때도 있습니다. 사전에 결정된 특정 정보 요구를 충족하기 위한 연구인 경우, 데이터 수집 및 분석의 범위가 좁아질 수 있습니다. 이러한 상황에서는 기존의 이론, 모델 또는 문헌의 증거가 데이터 수집과 분석 방법의 선택을 지시할 수 있습니다. 예를 들어, 실행 및 프로세스 평가 연구에서 이러한 경우가 많습니다(Klingberg 외. 2021; Draper 외. 2022). 이러한 지시적 목표directed goals와 관련된 질적 연구에서 연구자는 종종 대규모 데이터 세트를 수집하고 보다 집중적이고 구조화된 데이터 분석에 참여합니다(Davidson et al. 2019). 이러한 종류의 연구에 참여하는 HPE 연구자는 프레임워크 분석 방법(FAM)을 유용하게 사용할 수 있습니다. FAM은 데이터로부터 추상적인 해석을 위해 귀납적으로 작업하는 대신 연역적 접근 방식을 사용하는 경우가 많으므로 미리 설정된 목적과 목표에서 시작합니다(Pope 외. 2000). 보다 구조화된 형태의 데이터 수집(예: 개방형 설문조사 질문 또는 구조화된 인터뷰)을 포함하며, 데이터 분석은 분석이 시작되기 전, 때로는 데이터 수집이 시작되기도 전에 설정된 이론, 모델, 문헌 조사 결과 및 목적에 따라 기초적으로 형성되고 방향이 정해집니다
However, sometimes our reasons for engaging in qualitative research are more directed. Sometimes the study is aimed towards fulfilling specific pre-determined information needs; this focus narrows the scope of data collection and analysis. In these situations, pre-existing theories, models, or evidence from the literature can direct data collection and the choice of analysis methods. For example, this is frequently the case in implementation and process evaluation studies (Klingberg et al. 2021; Draper et al. 2022). In qualitative studies that involve such directed goals, researchers often collect large datasets and engage in more focused and structured data analysis (Davidson et al. 2019). HPE researchers engaging in this kind of research might usefully rely on a framework analysis method (FAM). Rather than working inductively from the data towards abstract interpretation, FAMs often employ a deductive approach, and so begin with pre-set aims and objectives (Pope et al. 2000). They involve more structured forms of data collection (e.g. open ended survey questions or structured interviews), and data analysis is foundationally shaped and directed by theories, models, literature findings, and/or purposes that are established before analysis—and sometimes even before data collection—begins.

FAM의 우산 아래에는 다른 방법과 차별화되는 유용성과 힘을 가진 많은 분석 방법이 있습니다. 이 가이드에서는 FAM과 정성 분석 방법 그룹에 속하는 다양한 방법에 대해 명확하게 설명하고자 합니다. 먼저 오늘날 존재하는 다양한 FAM의 개발을 촉진한 1994년 Ritchie와 Spender가 설명한 프레임워크 분석 접근법과 FAM을 정의하는 것으로 시작합니다. HPE 연구자가 자신의 연구 요구 사항에 가장 적합한 FAM 유형을 결정할 수 있도록 FAM 범주에 속하는 가장 일반적인 방법 몇 가지를 간략히 검토합니다. 그런 다음 일반적으로 사용되는 다른 질적 분석 방법과의 관계에 대해 설명하여 독자가 연구 목적에 맞는 FAM을 파악할 수 있도록 돕습니다. 다음으로, 일반적으로 널리 사용되는 FAM인 프레임워크 방법의 일부인 단계에 대해 설명합니다. FAM이 이미 HPE 연구에서 어떻게 유용하게 활용되었는지를 설명하기 위해 FAM이 어떻게 활용될 수 있는지를 보여주는 몇 가지 발표된 연구 사례를 제공합니다. 마지막으로 정성적 분석에 FAM을 사용할 때 피해야 할 잠재적 함정에 대해 경고하는 것으로 마무리합니다. 
There are many analysis methods that can sit beneath the FAM umbrella—each with utility and power that differentiates it from other methods. In this guide, we aim to provide clarity around FAMs and the variety of methods that are part of this group of qualitative analysis methods. We begin by defining FAMs and the framework analysis approach described in 1994 by Ritchie and Spender which catalyzed the development of the many varieties of FAMs that exist today. We offer a short review of some of the most common methods under the FAM umbrella so that the HPE researcher can decide which type of FAM best suits their research needs. We then describe how FAMs sit in relation to other commonly used qualitative analysis methods to help readers know when FAMs might fit their research purposes. Next, we explain the phases that are typically part of a popular FAM, the framework method. To illustrate how FAMs have already been useful in HPE research, we offer some examples of published research that demonstrate how FAMs might be harnessed. We end by warning readers of potential pitfalls to avoid when using FAMs for qualitative analysis.

FAM이란 무엇인가요?
What are FAMs?

질적 연구의 맥락에서 FAM의 역사는 1980년대 후반 영국에서 수행된 대규모 정책 연구 중 제인 리치와 리즈 스펜서가 만든 프레임워크 분석(FA)으로 거슬러 올라갑니다(Ritchie and Spencer 1994; Gale 외. 2013). FA는 대규모 질적 데이터 세트를 사용하여 특정 질문에 답하고 실행 가능한 인사이트를 창출할 수 있는 질적 데이터 분석 접근 방식에 대한 응용 정책 연구자들의 필요성에서 탄생했습니다(Ritchie and Spencer 1994; Srivastava and Thomson 2009). FA가 시작된 이래로 다양한 변형과 파생물이 개발되었습니다. 이러한 변형과 파생은 원래의 FA와 마찬가지로 FAM의 범주에 속하며, 여러 특징을 공유합니다(Gale et al. 2013).

  • 체계적이고 사례별로 구조화된 데이터 코딩 프로세스에 의존하고,
  • 비교적 동질적인 데이터 세트(즉, 주제나 주요 문제를 어느 정도 일관되게 다루기 위해 수집된 데이터 세트)에 적용되며,
  • 정성적 데이터의 패턴을 주제(예: 공통 경험 및 경험 간 변화)로 포착하고 설명하는 것을 목표로 하고,
  • 일반적으로 사례와 교차하는 코드로 구성된 프레임워크 매트릭스를 생성한다는 

글로벌 보건(Klingberg 외. 2022), 보건 서비스 연구(Heath 외. 2012), HPE(Kumar 외. 2011, Howman 외. 2016, Balmer 외. 2021) 등 다양한 분야의 학자들이 다양한 FAM의 힘을 활용하고 있습니다.
In the context of qualitative research, the history of FAMs trace back to framework analysis (FA) which was created by Jane Ritchie and Liz Spencer in the late 1980s during large-scale policy research carried out in the United Kingdom (Ritchie and Spencer 1994; Gale et al. 2013). FA was born out of applied policy researchers’ need for a qualitative data analysis approach that enabled answering specific questions and creating actionable insights using large qualitative datasets (Ritchie and Spencer 1994; Srivastava and Thomson 2009). Since the inception of FA, different variants and offshoots have been developed. These variants and offshoots, as well as the original FA, sit under the FAM umbrella and so share several characteristics:

  • they rely on a systematic and by-case-structured data coding process;
  • they are applied to relatively homogenous datasets (i.e. datasets collected to address topics or key issues somewhat consistently);
  • they aim to capture and describe patterns in qualitative data as themes (e.g. common experiences and variation across experiences); and
  • typically produce framework matrices consisting of codes that intersect with cases (Gale et al. 2013).

The power of various FAMs have been harnessed by scholars working in a wide range of fields, including global health (Klingberg et al. 2022), health services research (Heath et al. 2012), and HPE (Kumar et al. 2011; Howman et al. 2016; Balmer et al. 2021).

표 2에는 FAM 우산 아래에 있는 몇 가지 연구 접근법이 나열되어 있습니다. 이 표에서 알 수 있듯이 몇 가지 미묘한 차이점만 있을 뿐, 각 접근법에는 고유하지는 않더라도 특징적인 특징이 있습니다. 특정 연구의 정확한 목적에 따라 HPE 연구자는 정성적 데이터 분석에 가장 적합한 FAM을 선택할 수 있습니다.
In Table 2, we list some research approaches that sit beneath the FAM umbrella. As this table makes clear, only a few nuanced differences separate some of the approaches under the umbrella; nevertheless, each approach has certain characterizing, if not unique, features. Depending on the precise purpose of a particular study, HPE researchers can choose the FAM best suited for analyzing their qualitative data.


프레임워크 방식(FM) 
Framework Method (FM) 

프레임워크 방식은 '행(사례), 열(코드), 요약된 데이터의 '셀'로 구성된 프레임워크 매트릭스 도구를 사용하는 것이 특징이며, 이는 '연구자가 데이터를 체계적으로 축소하여 사례별, 코드별로 분석할 수 있는 구조'로 작용합니다(Gale 외. 2013, p2). FM의 주요 특징은 다음과 같습니다: 

  • 근거 기반(즉, 원본 데이터에 기반하고 이에 의해 구동됨);
  • 동적(즉, 분석 프로세스 중에 변경될 수 있음);
  • 체계적(즉, 데이터를 체계적으로 처리합니다);
  • 포괄적(즉, 모든 데이터에 대한 전체 검토가 포함됨);
  • 쉽게 검색할 수 있음(즉, 원본 데이터에 쉽게 액세스할 수 있음);
  • 사례 내 및 사례 간 분석(즉, 데이터 사례 내 및 사례 간 비교를 지원합니다);
  • 접근성(즉, 외부 학자가 분석 과정과 결과를 보고 평가할 수 있음); 그리고
  • 탐색적(예: 설문지의 개방형 질문에 대한 응답을 요약하거나 분류).  

The framework method is characterized by use of the framework matrix tool: ‘rows (cases), columns (codes) and “cells” of summarized data’ that collectively act as ‘a structure into which the researcher can systematically reduce the data, in order to analyze it by case and by code’ (Gale et al. 2013, p2). FM’s key features are that it is:

  • grounded (i.e. based in and driven by original data);
  • dynamic (i.e. it can change during the analysis process);
  • systematic (i.e. it is a methodical treatment of data);
  • comprehensive (i.e. it involves a full review of all data);
  • enables easy retrieval (i.e. it allows easy access to original data);
  • within- and between-case analysis (i.e. it supports comparisons within and across data cases);
  • accessible (i.e. the analytical process and outputs can be seen and evaluated by external scholars); and
  • exploratory (e.g. summarizing or categorizing the responses to an open-ended question in a questionnaire).  

템플릿 분석 
Template Analysis 

템플릿 분석은 구조화된 접근 방식을 따르며, 일반적으로 연구자가 분석 전에 식별한 코드를 기반으로 개발되는 코딩 템플릿을 활용하지만 반드시 그렇지는 않습니다(King and Brooks 2018). 코딩은 연구 데이터의 분석을 통해 귀납적으로 개발할 수도 있습니다. 코딩 프레임, 즉 템플릿을 개발하고 적용할 때 연구자는 일반적으로 전체 데이터 집합을 읽고 다시 읽는 것을 기반으로 템플릿을 만드는 것이 아니라, 데이터의 하위 집합 또는 샘플로 시작합니다. 템플릿의 최종 버전은 '패턴화된 의미를 계층적으로 매핑하고 더 넓은 의미에서 더 정확한 의미로 이동할 수 있는 방법을 제공합니다'(Braun and Clarke 2021, 243쪽). 따라서 템플릿은 연구자의 해석과 분석 결과를 깊이 있게 알려줍니다. 템플릿을 다듬는 데는 여러 차례의 읽기와 개발 템플릿을 향한 반복적인 작업이 필요할 수 있지만, 이 분석 방법은 대규모 데이터 세트 작업에 적합한 것으로 간주됩니다(버튼과 갤빈 2019).   
Template analysis follows a structured approach, utilizing a coding template that is typically, but not necessarily, developed based on codes that are identified by the researchers prior to analysis (King and Brooks 2018). Codes can also be developed inductively through the analysis of the study data. In developing and applying the coding frame— i.e. the template— the researcher typically starts with a subset or sample of data as opposed to basing the template on reading and re-reading the entire dataset. The final version of the template ‘offers a way of hierarchically mapping patterned meaning, and moving from broader to more precise meanings’ (Braun and Clarke 2021, p243). The template thus deeply informs the researcher’s interpretations and analysis findings. Although the refinement of the template may involve many rounds of reading and iteratively working towards a developed template, this analysis method is considered suitable for working with large datasets (Burton and Galvin 2019).  

매트릭스 분석 
Matrix Analysis 

행렬 분석은 다양한 종류의 테이블, 즉 행렬을 사용하여 데이터를 분류하고 표시함으로써 사례 간 교차 분석을 지원합니다(King and Brooks 2018). 이러한 행렬은 '설명적(기존 조건 또는 상황 묘사), 결과 지향적(결과 및 결과 관련) 또는 과정 지향적(변화의 역학에 초점)'일 수 있습니다(Averill 2002, p856). 프레임워크 분석의 사례 비교 측면을 기반으로 하기 때문에 대량의 데이터를 쉽게 수용할 수 있으며, 해당 연구와 관련된 사례로 미리 설정된 데이터 분류를 사용합니다. Burton과 Galvin(2019)이 주장한 것처럼, 매트릭스 또는 행렬의 구조화된 개발은 질적 데이터를 심층적으로 분석하고 해석하는 것이 아니라, 데이터를 제시하거나 조직화하는 데 더 적합합니다.  
Matrix analysis uses different kinds of tables—matrices—to categorize and display data, thereby supporting cross case analysis (King and Brooks 2018). These matrices ‘can be descriptive (depicting existing conditions or situations), outcome-orientated (concerned with consequences and results), or process-oriented (focused on the dynamics of change)’ (Averill 2002, p856). It can easily accommodate large volumes of data because it builds on the case comparison aspect of framework analysis; it uses pre-established categorizations of data into cases relevant to the study in question. As Burton and Galvin (2019) argue, the structured development of a matrix or matrices is more geared towards presenting or organizing data, as opposed to analyzing and interpreting qualitative data in a greater depth. 

'최적 적합' 프레임워크 합성 
‘Best Fit’ Framework Synthesis 

'최적 적합' 프레임워크 합성은 '잠재적으로 다르지만 관련성이 있는 모집단을 위해 고안된 기존의 공개된 모델을 테스트, 강화 및 구축하는 수단'을 제공합니다(Carroll 외. 2013, p1). 여기에는 선험적 주제를 식별하기 위해 기존의 개념적 프레임워크 또는 모델을 식별하고 사용하는 것이 포함되며, 이는 관련 연구의 질적 연구 결과의 데이터 추출, 코딩 및 종합에 사용됩니다(Carroll 외. 2011; Dixon-Woods 2011). 다른 FAM은 1차 데이터 분석을 지원하지만, '최적 적합' 프레임워크 분석은 출판된 문헌의 데이터를 분석하는 수단입니다.  
‘Best fit’ framework synthesis provides ‘a means to test, reinforce, and build on an existing published model, conceived for a potentially different but relevant population’ (Carroll et al. 2013, p1). It involves identifying and using an existing conceptual framework or model for identifying a priori themes, which are then used for data extraction, coding, and synthesis of qualitative findings from relevant studies (Carroll et al. 2011; Dixon-Woods 2011). While the other FAMs support primary data analysis, ‘best fit’ framework analysis is a means of analyzing data in the published literature. 


독자들이 이러한 선택을 할 수 있도록 돕기 위해, 이제 FAM의 정의적 특징에 대해 좀 더 자세히 설명하겠습니다. 다른 정성적 분석 방법과 관련하여 FAM을 고려함으로써 FAM의 범주에 속하는 접근법을 하나로 묶는 일관성을 더 잘 이해할 수 있습니다.
To support readers in making these selections, we next go into more detail about the defining features of FAMs. By considering FAMs in relation to other qualitative analysis methods, we can further understand the coherence that unites approaches that fall underneath the FAM umbrella.

다른 정성적 분석 방법과 FAM 구별하기
Distinguishing FAMs from other qualitative analysis methods

정성적 분석 방법과 다른 정성적 분석 방법의 차이점을 이해하는 한 가지 방법은 분석 프로세스 중에 데이터가 변형되는 정도를 고려하는 것입니다. Sandelowski와 Barroso(2003)는 데이터 변환의 연속선상에서 질적 연구에 대한 다양한 접근 방식을 찾는 데 도움이 됩니다. 그림 1은 

  • 이 연속체의 한쪽 끝에서 원시 데이터에 가깝게 유지하고자 하는 연구가 어떻게 데이터를 최소한의 변형(예: 설문지의 개방형 질문에 대한 응답 요약)을 거치는지 보여줍니다. 
  • 이와는 대조적으로, 해석적 설명에 중점을 두는 연구에서는 데이터가 원본 데이터에서 많은 변형 과정을 거칩니다(예: 감정적 경험의 본질에 대한 현상학적 분석). 

이러한 양극 사이에는 다양한 연구가 존재하며, 이는 분석이 데이터 내용과 특성에 대한 단순한 목록을 넘어 보다 추상적인 해석 및/또는 인사이트를 생성하는 데까지 나아갈 것으로 기대되는 정도를 반영합니다. 이 연속체는 다양한 정성적 접근 방식과 관련된 분석의 종류를 개념화하는 데 도움이 될 수 있습니다.
One way of understanding what differentiates one qualitative analysis method from another is to consider the extent to which the data is transformed during the analysis process. Sandelowski and Barroso (2003) helpfully located different approaches to qualitative research on a continuum of data transformation. Figure 1 demonstrates

  • how, at one end of this continuum, research studies seek to stay close to raw data and so the data undergo minimal transformation (e.g. summarizing the responses to an open-ended question in a questionnaire). In contrast,
  • at the other end of the spectrum, studies engage in interpretive explanation and so the data undergo many transformative moves away from the original data (e.g. a phenomenological analysis of the essence of an emotional experience).

There is a spectrum of research that exists between these poles, reflecting the degree to which analyses are expected to move beyond simple inventories of data content and characteristics, to generate more abstract interpretations and/or insights. This continuum can serve as a helpful conceptualization of the kind of analysis involved in different qualitative approaches.

FAM은 일반적으로 연구자가 심층 데이터 변환에 참여하지 않는다는 점을 감안할 때, 일반적으로 Sandelowski와 Barroso의 연속체에서 원시 데이터에 가까운 쪽에서 작업하는 연구를 지원합니다. 따라서 FAM은 특정 상황에서 사용하기에 적합한 방법입니다. FAM을 사용하면 연구자가 데이터에 근접하여 설명, 범주 및/또는 유형을 제공하는 분류, 조직화 및 요약된 데이터의 고도로 구조화된 결과물을 생성할 수 있습니다. 모든 질적 연구가 사회 현상에 대한 새로운 이론이나 고도로 정교한 설명을 만들어내야 하는 것은 아닙니다. 따라서 설명적이고 실용 지향적인 연구를 촉진하기 위해 FAM과 같은 특정 방법의 가치를 인식하는 것이 도움이 됩니다. FAM의 설명적 또는 탐색적 경향은 다양한 참여자 그룹을 포함하고 서로 다른 그룹 간의 결과를 비교하는 것이 분석적 관련성이 있는 질적 데이터 세트를 분석하는 데 특히 유용합니다. 이는 다양한 연령대, 직업 또는 특정 현상에 대한 관계/경험(예: 만성 질환이 있는 의료 전문가와 없는 의료 전문가)과 같이 잠재적으로 관심 있는 자연스러운 하위 집합을 포함하는 대규모 데이터 세트의 경우에 해당할 수 있습니다.
Given that FAMs do not typically engage the researcher in deep data transformation, they generally support research working at the close to raw data end of Sandelowski and Barroso’s continuum. As such, FAMs are methods that lend themselves to be used in specific circumstances. FAMs enable the researcher to stay close to the data to generate highly structured outputs of categorized, organized, and summarized data offering descriptions, categories, and/or typologies. Not all qualitative research needs to produce new theories or highly sophisticated explanations of social phenomena. It is therefore helpful to recognize the value of specific methods—like FAMs—for facilitating descriptive and for-practical-use oriented research. The descriptive or exploratory tendencies of FAMs are also particularly useful for analyzing qualitative datasets that include distinct participant groups and where a comparison of findings between different groups is of analytical relevance. This may well be the case with larger datasets that potentially contain natural subsets of interest, such as different age groups, professions, or relationships with/experiences of a given phenomenon (e.g. health care professionals with and without chronic illness).

FAM과 달리 다른 질적 방법론과 데이터 분석 방법에는 상당한 변형이 수반됩니다. 데이터 변환의 연속선상에서 다양한 질적 연구 접근법이 어떻게 위치할 수 있는지를 고찰함으로써, 어떤 접근법은 데이터에 대한 심층적인 해석과 현상에 대한 설명을 수반하는 반면, 어떤 접근법은 해석을 거의 수반하지 않는다는 점을 강조합니다. 표 3은 프레임워크 방법, FAM을 포함한 네 가지 접근 방식을 이 연속체에 따라 정리하고 각 접근 방식이 일반적으로 사용되는 연구 목적의 측면에서 비교를 제공합니다. 
In contrast to FAMs, other qualitative methodologies and data analysis methods involve considerable transformation. By reflecting on how different qualitative research approaches can be located along the continuum of data transformation, we highlight how some approaches involve deep interpretation of data and explanations of phenomena, while others engage in very little interpretation. Table 3 organizes four different approaches—including framework method, an FAM—along this continuum and offers comparisons in terms of the kind of research purposes each approach is typically used to address.


그렇다고 해서 FAM이 해석이나 데이터 변환이 필요 없다는 뜻은 아니며, 대신 발생하는 변환은 원시 데이터에 가깝게 유지됩니다. FAM의 힘 중 하나는 대량의 데이터를 의도적으로 구성된 사례(예: 분석 단위, 참가자 인터뷰)와 코드(예: '원시 데이터 발췌에 할당된 설명적 또는 개념적 레이블')로 축소하는 능력에 있습니다(Gale 외. 2013, 2페이지). 이러한 사례와 코드는 전체 데이터 세트에 적용되는 코딩 프레임을 구성하며, 코딩은 본질적으로 데이터 발췌에 적절한 코드로 라벨을 붙이는 과정입니다. 모든 데이터가 프레임워크에 코딩되었다고 해서 분석이 완료된 것은 아닙니다. 대신 연구자가 연구의 특정 목표로 돌아가 사례와 코드가 이러한 목표를 충족하는지 확인하고, 관심 있는 현상의 범위 또는 성격을 매핑하고, 유형학을 개발하고, 연관성 또는 설명을 식별해야 합니다(Ritchie와 Spencer 1994). 이 작업에는 분명히 데이터에 대한 해석이 포함되지만, 분석은 데이터에 가깝게 유지되며 일반적으로 추상화 수준이 제한적인 인사이트를 제공합니다.
This is not to suggest that FAMs are free of any interpretation or data transformation; instead, the transformation that takes place stays close to the raw data. Part of the power of FAMs rests in their ability to reduce large amounts of data into a purposefully constructed set of cases (i.e. the units of analysis; e.g. a participant interview) and codes (i.e. ‘a descriptive or conceptual label that is assigned to excerpts of raw data’ (Gale et al. 2013, p2). These cases and codes make up the coding frame which is applied to the entire dataset; this application is essentially a process of labelling data excerpts with the appropriate code. When all the data is coded into the framework, the analysis is not complete. Instead, as Ritchie and Spencer explain, this is when the researcher: returns to the study’s specific objectives and ensures that the cases and codes address these objectives; maps the range and/or nature of the phenomenon of interest; develops typologies; and identifies associations and/or explanations (Ritchie and Spencer 1994). While this work clearly involves interpretations of the data, the analysis stays close to the data and offers insights that are typically limited in their level of abstraction.

FAM을 사용하여 정성적 분석에 참여하는 방법
How to engage in qualitative analysis using a FAM

FAM을 사용하는 방법을 설명하기 위해, 우리는 이 우산 아래에서 프레임워크 방법(FM) 중 하나를 선택합니다. FM은 패턴 기반의 구조화된 기법을 사용하여 데이터를 사례와 코드가 교차하는 매트릭스로 구성하고, 결국 프레임워크 매트릭스의 도움으로 주제를 개발합니다(Gale 외. 2013). 사례(즉, 분석 단위)는 종종 개별 참여자이지만 사례는 참여자 그룹, 조직 또는 다른 범주일 수도 있습니다. 이 접근 방식은 사례를 비교하고 대조하는 것을 장려하기 때문에 데이터 세트가 비교적 균질하고 일관되게 수집되는 것이 중요합니다(Gale 외. 2013). 
To illustrate how to use FAMs, we select one from underneath this umbrella: the framework method (FM). FM uses a pattern-based and structured set of techniques to organize data into a matrix where cases intersect with codes, and eventually developing themes with the help of the framework matrix (Gale et al. 2013). The case (i.e. the unit of analysis) is often an individual participant, but a case could also be a participant group, an organization, or another categorization. Since this approach encourages the comparing and contrasting of cases, it is important that the dataset be relatively homogenous and consistently collected (Gale et al. 2013).

연역적 접근법에서는 기존 이론, 선행 연구 또는 특정 연구 목표를 기반으로 주제 및/또는 코드를 미리 선택하고, 귀납적 접근법에서는 데이터에서 코드와 주제를 생성한 후 분석이 진행됨에 따라 구체화합니다. FM은 전사, 익숙화, 코딩, 작동하는 분석 프레임워크 개발, 분석 프레임워크 적용, 프레임워크 매트릭스에 데이터 차트화, 데이터 해석의 7단계로 구성됩니다(Gale 외. 2013). 아래에서 각 단계를 설명합니다. 이러한 단계는 독립적인 연구자가 수행하거나 연구팀이 공동으로 수행할 수 있습니다. 특히 대규모 데이터 세트로 작업하는 경우, 데이터 관리 및 분석을 돕기 위해 정성적 데이터 분석 소프트웨어를 7단계 중 일부 또는 모두에 활용하는 것이 적절할 수 있습니다. 여기서 설명하는 단계는 FM에 국한된 것이지만, 이 단계에 관련된 작업은 다른 FAM에서 사용되는 많은 프로세스와 유사하다는 점에 유의하는 것이 중요합니다. 
FM can be used both deductively and inductively: in the deductive approach, themes and/or codes are pre-selected based on existing theories, prior research or specific study objectives; in the inductive approach, codes and themes are generated from the data and refined as analysis progresses. FM involves seven stages: transcription; familiarization; coding; developing a working analytical framework; applying the analytical framework; charting data into the framework matrix; and interpretating the data (Gale et al. 2013). We describe each of these below. These stages can be carried out by an independent researcher or collaboratively by a research team. Qualitative data analysis software may be relevant to utilize in many or all seven stages to aid data management and analysis, especially if working with a large dataset. It is important to note that the stages we describe are specific to FM; however, the work involved in these stages parallels many of the processes used in other FAMs.

1단계: 전사
Stage 1: Transcription

대부분의 정성적 분석 방법과 마찬가지로, FM을 사용한 데이터 분석 작업은 전사 작업으로 시작되며, 특히 연구자가 전사 작업을 수행하는 경우 더욱 그렇습니다. 따라서 단어 하나하나를 그대로 옮긴(즉, 축어체) 트랜스크립트를 작성하는 것은 데이터에 대한 첫 번째 검토 역할을 합니다. 그러나 외부 계약업체가 전사 작업을 수행하더라도 FM 연구자는 원본 녹음과 대조하여 전사본을 확인하여 정확성을 보장해야 합니다. 이 과정에서 연구자는 데이터에 몰입하여 연구 목적 및 질문과 관련하여 데이터를 고려해야 합니다. 질적 설문조사 응답을 사용하는 경우처럼 녹음된 데이터의 필사본이 필요하지 않은 경우(Palermo 외. 2019), 2단계가 첫 번째 분석 단계가 됩니다. 
As with most qualitative analysis methods, the work of data analysis using FM begins with transcription—especially if that transcription work is being done by the researcher. As such, the creation of a word-for-word (i.e. verbatim) transcript acts as a first review of the data. However, even if the transcription work is being conducted by an external contractor, the FM researcher should verify the transcript against the original recording to ensure accuracy. This process requires the researcher to immerse themselves in the data and consider them in relation to the research purposes and questions. If no transcription of recorded data is required, as in the case of using qualitative survey responses (Palermo et al. 2019), stage 2 becomes the first analysis phase.

2단계: 익숙화
Stage 2: Familiarization

다양한 질적 데이터 분석 방법에서 여전히 일반적인 이 단계에서는 연구자가 데이터 세트의 범위와 다양성에 익숙해져야 합니다. 이 단계는 본질적으로 데이터에 더 깊이 몰입하는 작업입니다. 익숙해지기 위해서는 기록이나 응답을 읽거나 녹음을 듣는 것이 포함됩니다. 이 숙지 과정에서 연구자는 핵심 아이디어, 생각, 인상, 반복되는 주제에 대한 맥락 및 반성적 메모를 작성해야 합니다.  
This phase of FM, which is still typical for many different qualitative data analysis methods, requires the researcher to become familiar with the range and diversity of the dataset. It is essentially the work of deeper immersion in the data. Familiarization can involve reading of transcripts or responses, and/or listening to recordings. During this familiarization, the researcher should write contextual and/or reflective memos of key ideas, thoughts, impressions, and recurrent themes that they notice.

3단계: 코딩
Stage 3: Coding

코딩의 어떤 형태는 많은 질적 분석 방법에서 공통적이지만, 이 단계에서는 FM이 다른 방법과 더욱 뚜렷해지기 시작하고 FM의 변형(예: 귀납적 또는 연역적)도 서로 달라지기 시작합니다. 이는 질적 방법론과 분석 방법마다 코딩에 접근하는 방식이 매우 다르기 때문입니다. 이 FM 단계에서 연구자는 간단한 설명 코드 또는 의역된 데이터 발췌문으로 데이터 세그먼트에 레이블을 지정합니다. 이 라인별 작업의 목표는 데이터를 조사할 수 있는 주요 문제와 개념을 식별하는 것입니다(Ritchie and Spencer 1994). 코드를 개발할 때 연구자는 데이터 세트의 모든 트랜스크립트(즉, 모든 사례)로 작업하거나 일부만 사용하여 코드를 개발하기로 결정할 수 있습니다. 
While some form of coding is common to many qualitative analysis methods, this is the phase where FM starts to become more distinct from other methods, and where variations of FM (e.g. inductive or deductive) also differ from each other. This is because different qualitative methodologies and analysis methods approach coding in very different ways. During this FM stage, the researcher labels data segments with brief descriptive codes or paraphrased data excerpts. The goal of this line-by-line work is to identify key issues and concepts according to which the data can be examined (Ritchie and Spencer 1994). When developing codes, it may be that the researcher decides to develop codes by working with all transcripts (i.e. all cases) in the dataset or by using only a few.

귀납적 분석을 지원하기 위해 FM을 사용할 때 Gale 등(2013)은 다음과 같이 제안합니다:
When using FM to support inductive analysis, Gale et al. (2013) suggest that:

코드는 실체적인 것(예: 특정 행동, 사건 또는 구조), 가치(예: 근거 기반 의학 또는 환자 선택에 대한 믿음과 같이 특정 진술을 알리거나 뒷받침하는 것), 감정(예: 슬픔, 좌절, 사랑) 및 보다 인상적/방법론적 요소(예: 인터뷰 대상자가 설명하기 어려운 것을 발견함, 인터뷰 대상자가 감정적이 됨, 인터뷰자가 불편함을 느낌)를 나타낼 수 있습니다. (p. 4)
Codes could refer to substantive things (e.g., particular behaviours, incidents or structures), values (e.g., those that inform or underpin certain statements, such as a belief in evidence-based medicine or in patient choice), emotions (e.g., sorrow, frustration, love), and more impressionistic/methodological elements (e.g., interviewee found something difficult to explain, interviewee became emotional, interviewer felt uncomfortable). (p. 4)

이와는 대조적으로, 순수 연역적 FM 연구에서는 주제가 미리 정의되어 있고, 이론, 모델 또는 문헌의 기존 연구 결과를 바탕으로 코드에 정보를 제공합니다(Onyura 외. 2017). 귀납적-연역적 결합 접근 방식을 결합한 경우, 코딩은 미리 식별되거나 개발된 프레임워크에 의해 부분적으로 정보를 얻을 수 있으며, 귀납적 코딩은 연역적으로 결정된 주제에 대한 하위 주제를 개발하는 데 사용될 수 있습니다(Redman et al. 2017).
In contrast, in a purely deductive FM study, themes will have been pre-defined, informed by a theory, a model, or existing findings from the literature, which then informs codes (Onyura et al.
 2017). In combined inductive-deductive approaches, the coding can be partly informed by pre-identified or developed frameworks, and inductive coding can be used to develop sub-themes to deductively determined themes (Redman et al. 2017).

코드가 인사이트를 개발하는 기반이 되기 때문에 코드 개발은 FM에서 특히 중요한 측면입니다. Gale 등(2013)은 다음과 같이 설명합니다: '코딩은 모든 데이터를 분류하여 데이터 세트의 다른 부분과 체계적으로 비교할 수 있도록 하는 것을 목표로 합니다'(4페이지). 연구의 성공에 있어 코드의 중요성을 고려할 때, 연구자는 코드가 '적합하지 않거나' 데이터와 잘 맞지 않을 때를 인식하는 것이 필수적입니다. 이러한 상황에서는 연구자가 코드를 재고하고 개선할 준비가 되어 있어야 한다고 Ritchie와 Spencer(1994)는 제안합니다. 이는 연구팀에서 논의함으로써 이루어질 수 있으며, 이러한 관행은 데이터 분석을 더욱 견고하게 만들 것입니다. 
The development of codes is a particularly important aspect of FM since codes are the foundations from which insights are developed. As Gale et al. (2013) explain: ‘coding aims to classify all of the data so that it can be compared systematically with other parts of the dataset’ (p. 4). Given the centrality of codes to the success of the study, it is essential that the researcher recognizes when codes are not a good ‘fit’ or not well aligned with the data. In these situations, Ritchie and Spencer (1994) suggest that the researcher be ready to reconsider and refine codes. This might be done by discussing them in the research team—a practice that should make the data analysis more robust.

4단계: 작업용 분석 프레임워크 개발하기
Stage 4: Developing a working analytical framework

코드가 개발되면 연구자는 작업용 분석 프레임워크를 구축하여 보다 고유하고 정의적인 FM 단계로 진행합니다. 프레임워크는 명확하게 정의되고 설명된 전체 코드 집합으로 구성되며, 일부 코드는 카테고리로 묶여 있습니다. 팀으로 작업하는 경우 이 단계에서는 서로 다른 팀원들의 코딩 접근 방식을 조율해야 하며, 정확한 프로세스는 특정 연구에 대해 취하는 실용적이고 철학적 접근 방식과 분석 프로세스의 목표에 따라 달라집니다. 예를 들어 

  • 귀납적 접근 방식으로 작업하는 경우, 연구팀은 코드의 개념화 전반에 걸친 차이를 어떻게 수용할지 결정해야 합니다(예: 한 연구자의 코드 'X'가 다른 연구자의 코드 'Y'와 충분히 겹쳐서 서로 병합할 수 있는가?). 이와 대조적으로
  • 연역적 접근 방식에서는 연구자가 기존의 개념적 틀을 활용할 수 있지만(예: Onyura 외. 2017 및 표 4 참조), 연구자는 기존 이론, 모델 및/또는 문헌 기반 코드에 대한 각 코더의 해석이 일치하는지를 확인해야 합니다.

Once codes have been developed, the researcher progresses to the more unique and defining stages of FM by constructing a working analytical framework. This framework consists of the full set of codes—clearly defined and described—and with some codes being clustered together into categories. If working in a team, this phase will involve harmonization of different team members’ coding approaches; the exact process for that will depend on the practical and philosophical approach taken for a specific study, as well as the aims of the analysis process. For instance,

  • if working from an inductive approach, the research team will need to determine how to accommodate differences across the conceptualizations of codes (e.g. does one researcher’s code ‘X’ overlap sufficiently with another researcher’s code ‘Y’ so that they can be merged together?). In contrast,
  • in a deductive approach, researchers may draw on an existing conceptual framework (see e.g. Onyura et al. 2017 and Table 4), but the researchers will then need to confirm that each coder’s interpretation of the pre-existing theory, model, and/or literature-based codes are aligned.

연구자가 프레임워크가 연구 질문에 답할 수 있는 모든 관련 데이터를 포착하고 있다고 판단하기까지 여러 번의 반복이 필요하기 때문에 (귀납적 접근 방식과 연역적 접근 방식 모두) 프레임워크 개발 작업은 힘들 수 있습니다. Gale 등(2013)이 지적한 것처럼, 분석 프레임워크가 완성될 때까지 '기타' 또는 '기타'와 같은 자리 표시자 코드를 사용하여 점진적으로 개선할 수 있는 공간을 확보하는 것이 좋습니다. 연구자가 귀납적으로 데이터에 접근할수록 분석에 더 많은 시간이 소요될 수 있다는 점에 유의할 필요가 있습니다. 이는 분석 방법이나 접근 방식을 선택하기 전에, 그리고 분석 프로세스를 시작할 때 고려해야 할 실용적이고 방법론적인 고려 사항입니다. 
This work of developing the framework can be laborious since—for both inductive and deductive approaches—several iterations will be required before the researcher decides that the framework is capturing all the relevant data that will enable them to answer their research question(s). As Gale et al. (2013) point out, it is worth making space for this gradual refinement by using placeholder codes such as ‘other’ or ‘miscellaneous’ until the analytical framework can be finalized. It is worth noting that the more inductively the researcher approaches the data, the more time the analysis is likely to take. This is both a practical and methodological consideration worth giving some thought to prior to selecting an analysis method or approach, and when starting the analysis process.

5단계: 분석 프레임워크 적용
Stage 5: Applying the analytical framework

이전 단계에서 개발한 분석 프레임워크를 적용하기 위해 분석 프레임워크에 나열되고 설명된 코드를 사용하여 데이터 세트의 모든 트랜스크립트를 코딩합니다(즉, 코드와 관련된 모든 데이터는 수동으로 또는 소프트웨어의 태그를 사용하여 표시합니다). 연구 데이터 세트의 크기에 따라 질적 데이터 분석 소프트웨어를 사용하여 프레임워크를 적용하는 작업을 신속하게 처리할 수 있습니다. 데이터 세트에 많은 기록(예: 사례)이 있는 경우, 소프트웨어는 연구자가 모든 데이터를 코딩하고 정리할 뿐만 아니라 데이터 발췌문을 독립형 문서로 내보내 사례 간 비교를 용이하게 하는 데 도움을 줄 수 있습니다. 
To apply the analytical framework developed in the previous phase, all transcripts in the dataset will be coded (i.e. all data pertaining to a code will be marked, either manually or using tags in a software) using the codes listed and described in the analytical framework. Depending on the size of the study’s dataset, the work of applying the framework can be expedited using qualitative data analysis software. If the dataset has many transcripts (i.e. cases), software can help the researcher not only to code and organize all data, but also to export data excerpts into stand-alone documents, thereby facilitating cross case comparisons.

6단계: 프레임워크 매트릭스에 데이터 차트화
Stage 6: Charting data into the framework matrix

데이터를 코딩하는 데 사용된 분석 프레임워크를 기반으로 코드(또는 카테고리나 주제와 같은 상위 수준의 구성 요소, 예: Klingberg 외, 2022)와 사례(또는 사례 그룹, 예: Klingberg 외, 2022)를 스프레드시트 구조(예: 열은 코드를 나타내고 행은 사례를 나타내는 구조)로 결합하여 프레임워크 매트릭스를 구성합니다. 각 사례 및 코드에 대해 해당 코드와 관련된 성적표의 측면에 대한 요약 설명을 포함하거나 대표적인 인용문을 매트릭스에 도표로 표시할 수 있습니다. 이렇게 하면 여러 사례 또는 그룹에서 패턴과 뉘앙스를 추적할 수 있습니다.
Based on the analytical framework used to code the data, a framework matrix is constructed by combining codes (or higher-level constructs, such as categories or themes, e.g. Klingberg et al. 2022) and cases (or groups of cases, e.g. Klingberg et al. 2022) into a spreadsheet structure (e.g. where columns represent codes and rows represent cases). For each case and code, a summary description of the aspects of the transcript that relate to that code can be included, or a representative quote can be charted into the matrix. This allows for patterns and nuances to be traced across the different cases or groups.

7단계: 데이터 해석
Stage 7: Interpreting the data

코드를 결정하고 메모를 작성할 때 분석의 초기 단계에서 이미 어느 정도의 해석이 이루어졌다면, 보다 공식적인 데이터 해석 및 테마 생성 단계는 데이터를 프레임워크 매트릭스에 차트화한 후에 이루어집니다. 이 단계에서는 연구자가 연구 목적과 연구를 주도하는 연구 질문을 검토합니다. Ritchie와 Spencer(1994)는 이 단계의 기본 프로세스로 연구자가 차트화된 데이터를 검토하고, 연구 노트/메모를 검토하고, 사례 간 비교 및 대조하고, 패턴과 연관성을 찾고, 연구 질문과 관련된 결과를 밝히는 데 도움이 되는 설명을 찾아야 한다고 언급했습니다. Gale 등(2013)은 다음과 같이 잠재적인 해석 방법을 설명합니다: 
While some level of interpretation already takes place during the earlier phases of analysis when deciding on codes and writing memos, the more formal phase of data interpretation and theme generation occurs after charting data into the framework matrix. This is when the researcher reviews the study purposes and research question(s) driving the research. Ritchie and Spencer (1994) noted that the basic processes for this stage require the researcher: to review the charted data; to examine research notes/memos; compare and contrast across cases; search for patterns and connections; and to seek out descriptions that help to illuminate findings relevant to the research question(s). Gale et al. (2013) describe potential interpretive avenues as follows:

점진적으로 데이터의 특징과 데이터 간의 차이점을 파악하여 유형학을 생성하고, 이론적 개념(이전 개념 또는 데이터에서 나온 개념)을 질문하거나, 범주 간의 연결을 매핑하여 관계 및 인과관계를 탐색합니다. 데이터가 충분히 풍부하다면 이 과정을 통해 도출된 결과는 특정 사례에 대한 설명을 넘어 현상의 출현 이유, 조직이나 기타 사회적 행위자가 상황을 어떻게 유발하거나 대응할지 예측하거나 조직이나 시스템 내에서 제대로 작동하지 않는 영역을 식별하는 데까지 확장될 수 있습니다(5페이지).
Gradually, characteristics of and differences between the data are identified, perhaps generating typologies, interrogating theoretical concepts (either prior concepts or ones emerging from the data) or mapping connections between categories to explore relationships and/or causality. If the data are rich enough, the findings generated through this process can go beyond description of particular cases to explanation of, for example, reasons for the emergence of a phenomena, predicting how an organisation or other social actor is likely to instigate or respond to a situation, or identifying areas that are not functioning well within an organisation or system (p. 5).

또한 데이터 해석은 종종 작성 과정에서 개발되고 개선되므로, 연구 원고를 작성하는 과정도 분석 과정의 일부로 간주된다는 점을 기억하는 것이 중요합니다. Gale 등(2013)은 주제를 분석의 최종 결과물로 설명하지만, 해석의 정확한 과정과 결과는 연구 목적, 분석 접근법(귀납적 또는 연역적), 해당 연구의 설계에 따라 달라집니다. 
It is also important to remember that data interpretations are often developed and refined throughout the writing process and so the process of writing the research manuscript is considered part of the analytic process. While Gale et al. (
2013) describe themes as the final output of analysis, the exact process and outcome of interpretation will depend on the purpose, analysis approach (i.e. inductive or deductive), and design the study in question.

HPE 연구에서의 FAM 예시
Examples of FAMs in HPE research

과거에 HPE 학자들이 FAM을 어떻게 성공적으로 사용했는지 설명하기 위해 표 4에는 각각 약간 다른 방식(예: 귀납적, 연역적 또는 두 접근법의 조합)으로 FAM을 활용하는 현장에서 발표된 사례가 요약되어 있으며, 질적 또는 혼합 방법 HPE 연구에서 다양한 목적에 맞는 FAM의 다용도성을 보여 줍니다. 
To illustrate how HPE scholars have successfully used FAMs in the past, Table 4 summarizes published examples from the field, each utilizing FAMs in slightly different ways (e.g. inductively, deductively or a combination of the approaches), illustrating the versatility of FAMs for different purposes in qualitative or mixed methods HPE research.

피해야 할 함정
Pitfalls to avoid

귀납적 및 연역적으로 모두 적용 가능하고, 대규모 정성적 데이터 세트를 분석할 수 있는 수단을 제공하며, 데이터 분석 프로세스에 비교적 구조화된 접근 방식을 제공하는 등 FAM은 상당한 이점을 제공하지만, 연구자가 피해야 할 몇 가지 함정도 있습니다. 첫 번째 함정은 특정 패러다임 내에서 연구를 진행하지 않고 FAM을 사용하는 것입니다(표 1 참조). HPE의 연구자들은 개별 학자들이 제기하는 질문, 개발할 수 있는 지식의 종류, 유용한 방법의 종류, 기대되는 엄격성의 표준을 개념화하는 방식을 형성하는 다양한 연구 전통에 따라 연구에 참여합니다. 이러한 전통 또는 패러다임은 HPE 연구자가 개별 FAM을 활용하는 방식을 변화시킬 것입니다. 따라서 연구자는 단순히 FAM의 단계를 따른다고 가정해서는 안 되며, 패러다임적 방향과 연구의 품질 및 엄격성에 대한 기본 기대치에 맞게 FAM 사용을 조정해야 합니다(Varpio 및 MacLeod 2020). 
Although FAMs offer significant benefits (e.g. being applicable both inductively and deductively; offering means of analyzing large qualitative datasets; and offering relatively structured approach to the data analysis process), there are also certain pitfalls that researchers will want to avoid. The first pitfall is using FAMs without situating their research within a specific paradigm (see Table 1). Researchers in HPE engage in their studies from different research traditions that shape how individual scholars conceptualize the questions being asked, the kind of knowledge that can be developed, the kinds of methods that are useful, and the standards of rigor that are to be expected. These traditions—or paradigms—will change the way the HPE researcher harnesses individual FAMs. Therefore, researchers should not assume that they simply follow the stages of an FAM; instead, they must tailor their FAM use to align with their paradigmatic orientation and the underlying expectations of quality and rigor for the study (Varpio and MacLeod 2020).

또 다른 함정은 [해석][FAM의 보다 구조화된(그리고 잠재적으로 더 따르기 쉬운) 요소] 사이의 균형을 맞추는 문제입니다. 예를 들어, Gale 외(2013)의 FM에서 테마는 전체 데이터 집합을 분석한 최종 결과물로 설명되지만, 분석 단계가 프레임워크 매트릭스에서 테마를 정확히 어떻게 개발해야 하는지를 지시하지는 않습니다. 이는 연구의 접근 방식(예: 귀납적, 연역적 또는 혼합)과 목적(예: 설명적 또는 탐색적)에 따라 달라집니다. 이때 연구 도구로서 질적 연구자의 역할이 강조되어야 하며, 각 연구자는 자신이 선호하는 방식으로 주제를 개발하는 작업에 참여하게 됩니다.

  • 귀납적 접근법의 경우, 프레임워크 매트릭스 구조를 사용하여 코드, 범주, 사례 비교를 점진적으로 읽고 다시 읽으면서 이러한 요소들 간의 연결고리를 만들어내는 주제에 대한 분석 메모를 생성하는 등 주제 개발을 지원하는 것이 도움이 될 수 있습니다.
  • 연역적 접근법의 경우, 테마는 분석의 결과라기보다는 입력이므로 해석 작업은 관련 테마에 맞춰 코딩 및 프레임워크 개발을 수행하는 데 중점을 둡니다.

연구를 뒷받침하는 접근 방식과 목표에 관계없이 모든 연구 과정과 결과가 목표, 목적 및 수행된 관행에 따라 투명하고 일관되게 보고되는 것이 중요합니다. 
Another pitfall is the challenge of balancing interpretation with the more structured (and potentially easier to follow) elements of an FAM. For example, in Gale et al. (2013) FM, themes are described as the final output of analyzing the entire dataset, but the stages of analysis do not dictate how exactly to develop themes from the framework matrix. This will depend on the approach (i.e. inductive, deductive, or mixed) and aim (e.g. descriptive or exploratory) of the study. This is where the role of the qualitative researcher as a research instrument must be emphasized; each researcher will engage in the work of developing themes in their own preferred way.

  • In an inductive approach to FM, it may be helpful to use the framework matrix structure to support the development of themes by, for example, gradually reading and re-reading codes, categories, and case comparisons to generate analytic memos of themes they identity that create connections between these elements.
  • In the case of deductive approaches, themes are inputs rather than outputs of the analysis and, as such, the work of interpretation centers on carrying out coding and framework development in line with the relevant themes.

Regardless of the approach and aim that underpins the study, it is important that all research processes and findings are reported transparently and consistently with aims, objectives, and undertaken practices.

결론
Conclusion

이 AMEE 가이드에서는 FAM과 이 포괄적인 용어 아래에 포함될 수 있는 다양한 접근법을 명확하게 설명하기 위해 노력했습니다. 귀납적 접근법과 연역적 접근법을 모두 사용할 수 있다는 점에 주목하여 FAM의 유연성을 강조했습니다. 또한 FM을 예로 들어, 독자들이 이러한 방법을 사용하는 연구와 관련된 분석 작업의 종류를 이해할 수 있도록 특정 FAM에 참여하는 단계에 대해 설명했습니다. 다른 질적 분석 접근 방식과 마찬가지로 FAM에는 몇 가지 위험과 함정이 수반되지만, 우리가 제공한 예와 권장 사항이 더 많은 HPE 연구자가 해당 분야에서 이러한 방법을 사용하는 데 도움이 되기를 바랍니다.
In this AMEE guide, we have endeavored to provide clarity around FAMs and the variety of approaches that can sit beneath that umbrella term. We have highlighted the flexibility of FAMs, noting that they can be used both inductively and deductively. Using FM as an example, we have also described the stages involved in engaging in a particular FAM to provide readers with an understanding of the kind of analytical work involved in research using these methods. As with any qualitative analysis approach, FAMs involve some risks and pitfalls but we hope that the examples and recommendations we have provided can help more HPE researchers use these methods in our field.

 


Med Teach. 2023 Sep 21:1-8. doi: 10.1080/0142159X.2023.2259073. Online ahead of print.

Using framework analysis methods for qualitative research: AMEE Guide No. 164

Affiliations 

1SAMRC/Wits Developmental Pathways for Health Research Unit, Faculty of Health Sciences, University of the Witwatersrand, Johannesburg, South Africa.

2Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, School of Health Professions Education, Maastricht University, Maastricht, The Netherlands.

3Department of Pediatrics, Children's Hospital of Philadelphia, Division of Emergency Medicine, Perelman School of Medicine, The University of Pennsylvania, Philadelphia, PA, USA.

PMID: 37734451

DOI: 10.1080/0142159X.2023.2259073

Abstract

Framework analysis methods (FAMs) are structured approaches to qualitative data analysis that originally stem from large-scale policy research. A defining feature of FAMs is the development and application of a matrix-based analytical framework. These methods can be used across research paradigms and are thus particularly useful tools in the health professions education (HPE) researcher's toolbox. Despite their utility, FAMs are not frequently used in HPE research. In this AMEE Guide, we provide an overview of FAMs and their applications, situating them within specific qualitative research approaches. We also report the specific characteristics, advantages, and disadvantages of FAMs in relation to other popular qualitative analysis methods. Using a specific type of FAM-i.e. the framework method-we illustrate the stages typically involved in doing data analysis with an FAM. Drawing on Sandelowski and Barroso's continuum of data transformation, we argue that FAMs tend to remain close to raw data and be descriptive or exploratory in nature. However, we also illustrate how FAMs can be harnessed for more interpretive analyses. We propose that FAMs are valuable resources for HPE researchers and demonstrate their utility with specific examples from the HPE literature.

Keywords: Qualitative research; framework analysis; framework method; qualitative analysis; qualitative methods.

대관절 누구의 문제인가? 보건의료전문직 교육에서 '문제'의 신화 직면하기 (Med Educ, 2023)
Whose problem is it anyway? Confronting myths of ‘problems’ in health professions education
Aliki Thomas1 | Rachel H. Ellaway2

 

 

1 서론
1 INTRODUCTION

생물 의학 및 보건 관련 분야에서 과학적 증거와 실제 사용 사이의 격차, 특히 이러한 격차로 인해 피해와 비효율이 발생할 수 있는 경우에 대한 우려가 커지고 있습니다.1 지식 번역 및 실행 과학 분야는 대부분 이러한 문제를 해결하기 위해 개발되었습니다.2, 3 그러나 상당한 노력에도 불구하고 대부분의 지식 번역 개입은 아니더라도 많은 경우 여전히 원하는 결과를 얻지 못하고 있습니다.4 일부에서는 [연구자들이 다루는 문제]가 [실무자에게 중요한 문제]였다면 지식 번역 분야에서 해결하려는 문제(즉, 연구-실무 격차)가 애초에 존재하지 않았을 것이라고 주장합니다.5 지식 생산자와 사용자 간의 협력적이고 참여적인 접근을 옹호하는 최근의 지식 번역 접근법(통합 KT라고 함)은 임상의, 관리자 및 정책 결정자가 함께 연구자들이 집중해야 하는 문제를 파악하도록 설계되었습니다.6  
There have been growing concerns in the biomedical and health-related sectors over gaps between scientific evidence and its use in practice, particularly when such gaps can result in harms and inefficiencies.1 The fields of knowledge translation and implementation science were in large part developed to address these problems.2, 3 However, despite considerable efforts, many if not most knowledge translation interventions still fail to produce their desired outcomes.4 Some have argued that the problems the knowledge translation field is trying to resolve (i.e. research-practice gaps) would not exist in the first place if the problems researchers addressed were ones that mattered to practitioners.5 Recent knowledge translation approaches (referred to as integrated KT), which advocate for collaborative and participatory approaches amongst knowledge producers and users, have been designed to bring clinicians, managers and policy makers together to identify problems that researchers should focus on.6

보건의료 분야와 마찬가지로 보건의료 전문가 교육도 마찬가지입니다. 보건 전문직 교육(HPE) 커뮤니티는 지식 번역 및 실행 과학의 가치와 관련성을 탐구해 왔습니다.7 그러나 많은 HPE 과학자들이 이러한 요청에 귀를 기울였지만,8,9 누구의 문제를 어떤 목적으로 해결하고 있는지에 대한 질문은 여전히 남아 있습니다. 열망이 무엇이든, 실제로 보건 전문직 교육 연구(HPER)와 HPE의 문제와의 관계는 다소 미약합니다. 
As in health care, so in the education of health care professionals. The health professions education (HPE) community has been exploring the value and relevance of knowledge translation and implementation science.7 However, although many HPE scientists have heeded the call,8, 9 the question of whose problems are being addressed and to what end remains. Whatever the aspirations, in practice, the alignment between health professions education research (HPER) and its relation to problems in HPE is somewhat tenuous.

이는 연구자들이 연구를 항상 문제의 관점에서 표현해야 한다는 기대, 예를 들어 연구 전달을 위한 문제-간극-후크 수사학적 프레임에 대한 기대가 도움이 되지 않았습니다.10 우리는 이것이 학자들이 연구가 기대하는 잠재적 기여를 더 잘 표현하는 데 도움이 되고 실무에 기여하는 연구의 역할을 강조하는 데 도움이 된다는 것을 인정하지만, 모든 HPER을 연구가 해결책을 제공하는 문제의 관점에서 표현해야 하는가? 또한 연구 중인 문제가 대부분의 교육자, 리더 또는 학습자가 실제로 직면하는 문제인지도 의문입니다. 그렇지 않다면 의료 분야에서와 마찬가지로 지식 번역 및 실행 과학이 HPE에서도 실패할 가능성이 높습니다. 따라서 단순히 연구 결과가 실무자의 문제를 해결하는지 여부를 묻는 것보다는 HPER의 연구 문제가 의미 있는 실무자의 문제를 반영하는지 여부를 묻는 것이 더 중요할 것 같습니다. 
This has not been helped by expectations that researchers should always express their studies in terms of problems, exemplified, for instance, in the problem-gap-hook rhetorical frame for communicating research.10 Although we concede that this can help scholars to better articulate the putative contribution that a study is expected to make and has helped highlight the role of research in contributing to practice, should all HPER be articulated in terms of problems to which the study provides a solution? We also question whether the problems being researched are the problems that most educators, leaders or learners actually face. If they are not, then it seems likely that knowledge translation and implementation science will fail in HPE as they have in health care. It would seem, therefore, that, rather than simply asking whether research findings solve practitioner problems, we should also be asking whether research problems in HPER reflect meaningful practitioner problems.

이 신화 논문에서는 HPE와 HPER에 존재하는 다양한 종류의 문제들의 성격과 연관성, 그리고 이들이 어느 정도 일치할 수 있는 방식을 고려합니다. 우리의 목표는 연구 문제실무자 문제의 틀, 표현, 제약에 대한 대안적(그리고 보다 현실적인) 사고 방식을 제시하여 한 문제가 다른 문제와 더 잘 연계될 수 있도록 함으로써 증거에서 행동으로 이어지는 경로를 더 원활하게 만드는 것입니다. 연구 문제를 실무자 문제에 맞출 필요가 없는 경우(예: 대상자가 다른 연구자인 경우)에는 해당 연구가 의도한 목표를 더 효과적으로 달성할 수 있도록 노력의 방향을 전환할 수 있습니다. 그래야만 지식 번역과 그 과학적 연구(즉, 실행 과학)가 우리 분야에서 보다 실질적인 역할을 할 수 있는 이유와 방법에 대해 더 강력한 사례를 제시할 수 있습니다. 
In this Mythology paper, we consider the nature and connections between different kinds of problems in HPE and HPER, and the ways in which they may be more or less aligned. Our goal is to offer an alternative (and hopefully more realistic) way of thinking about the framing, articulation and constraints of research problems and practitioner problems so that one can be better aligned with the other, thereby creating a smoother path from evidence to action. Where research problems do not need to be aligned to practitioner problems (such as when the audience is other researchers), we can redirect efforts towards making those studies more effective in meeting their intended goals. Only then, can we make a stronger case for why and how knowledge translation and its scientific study (i.e. implementation science) can play a more substantive role in our field.

다섯 가지 주요 질문을 중심으로 우리의 주장을 구조화했습니다.

  • 모든 것이 문제인지, 
  • 모든 실무자의 요구는 문제 해결에 관한 것인지, 
  • 실무자의 문제는 충분한 증거로 해결할 수 있는지, 
  • 모든 학술 출판물이 실무자의 문제를 대상으로 하는지, 
  • 실제 실무자의 문제 해결에 초점을 맞춘 연구가 문헌에 중요한 기여를 하는지

문제와 HPER 사이의 연결에 대한 이러한 재개념화를 바탕으로, 우리는 우리 분야에서 지식 번역과 실행 과학이 어떻게 표현될 수 있는지 다시 생각할 수 있는 방법을 제안합니다.
We have structured our arguments around five main questions, each of which reflects what we consider to be an ambient myth in our field:

  • whether everything is a problem;
  • whether all practitioner needs are about problem solving;
  • whether practitioner problems are resolvable with sufficient evidence;
  • whether all scholarly publications target practitioner problems; and
  • whether studies that focus on solving a real practitioner problem make significant contributions to the literature.

Building on this reconceptualization of the connections between problems and HPER, we propose ways in which we might rethink how knowledge translation and implementation science might be articulated in our field.

논의를 진행하면서 먼저 이러한 문제에 대한 우리 자신의 입장과 관점에 주목합니다. AT는 지식 번역 및 실행 과학 연구자로서 HPE와 임상 실무의 교차점에 있는 업무를 담당하고 있습니다. 작업치료사이자 학자이며 HPE에서 두 개의 저널을 편집하는 부편집장인 그녀는 종종 누가, 어떤 목적으로, 누구와 함께 연구 질문을 생성하는지에 대한 질문을 받곤 합니다. 파트너십 접근법, 다양한 이해관계자와의 공동 구성 및 통합 지식 번역을 사용하는 그녀의 연구는 이 백서에 제시된 아이디어에 영향을 미쳤습니다. RHE는 의학교육 연구자로서 시스템과 구조에 중점을 두고 연구하고 있습니다. 학자뿐만 아니라 부학장, 학부 의학교육 위원회 위원장, 교육 기술 서비스 관리자, 저널 편집자로도 활동했습니다. 그녀는 이러한 역할을 통해 얻은 모든 관점을 바탕으로 이 글을 작성했습니다.  
In advancing our arguments, we first note our own positionality and perspectives on these issues. AT is a knowledge translation and implementation science researcher whose work is at the intersection of HPE and clinical practice. As an occupational therapist, scholar and an associate editor of two journals in HPE, she is often called to question who is involved in generating research questions, to what end, and with whom. Her research, which uses partnership approaches, co-construction with different stakeholders and integrated knowledge translation, has informed the ideas put forth in this paper. RHE is a medical education researcher with a strong focus on systems and structures in her work. As well as being a scholar, she has been an assistant dean, an undergraduate medical education committee chair, a manager of education technology services and a journal editor. She draws on all the perspectives these roles have afforded her in articulating this thought piece.

2 모든 것이 문제인가?
2 IS EVERYTHING A PROBLEM?

연구는 주로 새로운 지식과 사고를 개발하고 발전시키는 것입니다. 이전에는 없던 지식을 제공한다는 점에서 모든 연구는 문제를 해결한다고 주장할 수 있습니다. 물론 이는 다소 순환적인 주장이며 모든 잠재적 지식(HPER에서 생산되는 지식뿐만 아니라)에 적용되기 때문에 쉽게 무시할 수 있는 주장입니다. 대신, 우리가 미지의 세계를 탐구하거나 새로운 개념이나 이론을 개발하는 추상적인 '문제'가 아니라 실질적인 문제를 해결하는 데 관심이 있다면, 우리가 참여하고자 하는 청중에게 '중요한 문제'에 초점을 맞춰야 한다고 말합시다. 따라서 실무 기반 또는 문제 중심 연구11에 종사하는 사람들은 이러한 종류의 탐구의 결과와 한계에 대해 비판적으로 참여할 필요가 있습니다.12 
Research is primarily about developing and advancing new knowledge and thinking. It might be argued that all research addresses a problem, in that it provides knowledge that we did not previously have. Clearly, this is a rather circular argument and one that is easily dismissed as it applies to all potential knowledge (and not only that which is produced in HPER). Instead, let us say that if we are interested in solving tangible problems (rather than, say, abstract ‘problems’ of exploring the unknown or developing new concepts or theories), then we should focus on those ‘problems that matter’ to the audiences we seek to engage. There is a need, therefore, for those who do engage in practice-based or problem-focused research11 to be critically engaged with the consequences and boundedness of this kind of inquiry.12

좋은 연구 질문을 작성하는 것은 이를 위한 핵심적인 부분이며, 따라서 연구 질문은 실현 가능하고, 흥미롭고, 참신하고, 윤리적이며, 관련성이 있어야 합니다.13 이 백서의 맥락에서 관련성의 기준이 특히 중요하다고 주장합니다. 질문이 연구팀과 관련이 있거나 즉각적인 연구 맥락에서 관련이 있으면 충분할까요? 대부분의 사회과학자들은 일반화 가능성과 전이성의 문제와 씨름하며,14 '중간 범위 이론'이라는 개념은 모든 연구가 완전히 관념적이거나 명목적인 것은 아니라는 점을 반영하기 위한 방법으로 개발되었습니다.15 보다 개념적이고 광범위하게 적용 가능한 사회 이론을 구축하기 위해 특정 사회 맥락의 이론을 통합할 필요가 있다는 머튼의 강조15를 고려할 때, 우리 분야에서 연구의 전부 아니면 전무의 공리주의적 또는 관념론적 프레임워크의 바보의 딜레마를 해결하기보다는 '중간 범위의 문제'와 '중간 범위의 연구 질문'을 개발하는 것이 더 낫지 않을까요? 
Writing good research questions is a key part of this and as such, they (and the research that is articulated around them) should be feasible, interesting, novel, ethical and relevant.13 We argue that the criterion of relevancy is particularly important in the context of this paper. Is it enough that questions are relevant to the research team or relevant in the immediate study context? Most social scientists wrestle with issues of generalizability and transferability,14 and the concept of ‘middle-range theory’ was developed as a way of reflecting that not all research is either completely idiographic or nomothetic.15 Given Merton's15 emphasis on the need to consolidate theories from specific social contexts to build more conceptual and broadly applicable social theory, might it be better to develop ‘middle-range problems’ and ‘middle-range research questions’ rather than trying to solve the fool's dilemma of an all-or-nothing nomothetic or idiographic framing of research in our field?

우리는 또한 모든 것을 문제 중심으로 표현하면 제시되는 문제와 실무자 문제와의 연계성 모두에서 인공물을 만들 수 있다고 주장합니다.16 예를 들어, 문제를 중심으로 연구 방향을 잡으면 연구 결과물, 즉 제기된 문제에 대한 해답과 해결책이 상당 부분 미리 결정될 수 있습니다. 하지만 기회나 관점의 차이와 같이 반드시 문제가 되지 않는 현상에 초점을 맞추면 해결책이 필요하지 않을 뿐만 아니라 거의 의미가 없을 수도 있습니다. 문제에만 초점을 맞춘 연구는 문제 해결 행위의 단일화를 강요함으로써 학문적 소통의 다양성을 제한합니다. 또한 본질적으로 문제 중심이 아닌 문제 중심 연구의 커뮤니케이션 논리를 약화시킬 수도 있습니다.
We would also argue that articulating everything around problems can create artefacts, both in the problems being presented and in their alignment with practitioner problems.16 For instance, orienting research around problems to a great extent predetermines what it will produce, that is, answers and solutions to the problem posed. But what if the focus was on a phenomenon that was not necessarily problematic, such as an opportunity or a difference in perspective, for which solutions are not only not needed but may make little sense? Orienting research solely around problems restricts the variety of scholarly communication by forcing a monoculture of problem-solving acts. It can also potentially weaken the logic of those communications of problem-focused research that are not intrinsically problem-focused.

물론 HPE의 모든 연구가 문제 중심적이거나 문제 중심적이어야 하는 것은 아닙니다. 실제로 기초 과학의 대부분은 문제 중심이 아니라 호기심 중심입니다. 응용 분야라고 해도 실무자의 문제에만 초점을 맞출 필요는 없습니다.17, 18 학자는 현재의 관행을 정당하게 비판(문제를 해결하려고 하지 않고 문제를 제기)하고 연구 방법이나 이론을 평가 또는 개발할 수 있습니다. 또한 학자는 다른 학자, 정책 입안자 및 사회 전체와 같이 교육 실무자 이외의 청중을 참여시킬 수 있습니다. 따라서 응용 분야의 연구자가 실무자의 문제에 합법적으로 초점을 맞출 수는 있지만, 이는 전체 그림과는 거리가 멀며 실무자 문제가 우리의 주된 책임 또는 유일한 책임이라는 신화가 도전받지 않을 때 문제가 됩니다. 
Clearly, not all research in HPE is, or needs to be, problem-focused. Indeed, much of the basic sciences are curiosity-driven, rather than problem-driven. Even an applied field does not have to be only, or primarily, focused on practitioners' problems.17, 18 Scholars can legitimately critique current practices (problematizing them without seeking to solve the problem) and appraise or develop research methods or theories. Scholars can also engage audiences other than educational practitioners, such as other scholars, policy makers and society as a whole. So, although researchers in an applied field can legitimately focus on practitioner problems, it is far from the whole picture, and it becomes problematic when the myth that practitioner problems are our main, or even sole, responsibility goes unchallenged.

문제 해결에 대해 모든 실무자가 필요로 하나요?
3 ARE ALL PRACTITIONER NEEDS ABOUT PROBLEM SOLVING?

다른 쪽에서 문제 해결 관계를 고려할 때, 실무자의 니즈가 연구자의 니즈에 대한 이해와 일치하는지 물어볼 수 있습니다. 연구자가 문제라고 생각하는 것(또는 연구자가 문제라고 공식화한 것)이 실무자에게도 특별히 문제가 되는 것으로 보입니까? 실무자는 결국 통일되고 차별화되지 않은 집단이 아닙니다. 일부 실무자는 문제가 있다고 생각하는 사안에 대해 도움이 필요할 수 있지만, 그렇지 않은 실무자도 많을 수 있습니다. 또한 연구자가 개원의의 행동에 문제가 있고 개선이 필요한 부분만 부각하면 개원의와의 관계가 적대적으로 변할 위험이 있습니다. 우리는 권력에 대해 진실을 말할 책임이 있다는 데 동의하며, 이를 위해 연구자는 표준 이하이거나 비효율적이거나 잘못된 관행에 대해 문제제기할 준비가 되어 있어야 합니다. 그러나 실무자의 문제를 해결하는 대신 연구자가 집중해야 할 문제는 어떻게 실무자가 자신의 관행에 대해 깊이 생각하게 만들고, 필요하다면 문제가 있다는 것을 받아들이도록 할지입니다. 그렇다고 연구자가 모두 고상한 사람이고 실무자가 모두 궁핍한 사람이라는 말은 아닙니다. 연구자들도 편견에 사로잡히거나 오만할 수 있고, HPE 실무의 현실을 인정하지 않으려 할 수 있습니다. 생물의학 분야에서 보았듯이 연구자들은 '현실 세계'에 대한 인식과 인식 부족으로 비난받을 수 있습니다.19 그러나 연구자와 실무자가 각자의 활동에서 다소 분리되어 있는 경우가 많다는 점을 고려하면,20 이로 인해 두 그룹 사이에 불일치와 불연속성이 발생할 수 있다는 것은 놀라운 일이 아니며, 두 그룹 간의 신뢰 부족에 대해서도 놀라지 말아야 할 일입니다. 실제로 협력과 신뢰 관계는 실행 가능한 지식을 생산하기 위한 토대이기 때문입니다.21 
Considering problem-solving relationships from the other end, we might ask whether practitioners' needs align with researchers' understanding of those needs. Is what researchers see as a problem (or what they formulate as a problem) also seen as particularly problematic by practitioners? Practitioners are not a unified and undifferentiated group after all. Some practitioners may need help with things they find problematic, but there may be many others who do not. Moreover, researchers risk their relationships with practitioners becoming adversarial if they only frame what practitioners do as problematic and in need of improvement. We agree that there is a responsibility to speak truth to power, and, to that end, researchers should be ready to problematize substandard, inefficient or misguided practice. However, instead of solving a problem for practitioners, the problem that researchers may focus on is how to get practitioners to think deeply about their practice and, when need be, accept that there is a problem. This is not to say that researchers are all high-minded individuals and practitioners are all needy peons. Researchers are just as likely to be biased, arrogant or unwilling to acknowledge the realities of HPE practice. They may, as we have seen in the biomedical arena, be faulted for their lack of recognition and appreciation of the ‘real world’.19 However, given that researchers and practitioners can often be somewhat decoupled in their respective activities,20 it should not be surprising that this can create inconsistencies and discontinuities between them, nor should we be surprised by the ensuing lack of trust between the two groups. The consequence of such differences may be dire; indeed, collaborative and trusting relationships are the foundation for producing actionable knowledge.21

또한 문제에만 초점을 맞춘 연구 기반이 실무자의 요구를 잘 충족하고 있는지 자문해 보아야 합니다. 실무자들은 새로운 기회, 논쟁, 프레임워크, 최적화 또는 경제성 등 다양한 분야에 관심을 가질 가능성이 높기 때문에 모든 것을 문제에 대한 해결책으로 제시하면 문헌이 실무자 청중에게 제공할 수 있는 내용이 제한될 수 있습니다. 물론 기회와 혁신은 모두 문제의 관점에서 제시될 수 있지만, 앞서 언급했듯이 이러한 변증법적 프레임은 잘못된 반대나 긴장을 유발할 수 있습니다. 
We should also ask whether practitioner needs are well-served by a research base that is focused exclusively on problems. Practitioners are just as likely to be interested in emerging opportunities, debates, frameworks, optimization or economics (to name but a few), so presenting everything as a solution to a problem can limit what the literature might offer to practitioner audiences. Of course, opportunities and innovations could all be presented in terms of problems but, as we have noted, this dialectical framing can create false oppositions or tensions.

4 실무자의 문제는 충분한 증거로 해결할 수 있는가?
4 ARE PRACTITIONER PROBLEMS RESOLVABLE WITH SUFFICIENT EVIDENCE?

실무자의 문제가 다루기 쉬운 것이 아니라면 연구자는 실무자에게 거의 도움이 되지 않을 수 있습니다. 예를 들어, 실무자는 해결책이 무엇인지 잘 알고 있지만 물류, 자율성 부족, 자원 부족 또는 교육 정치와 같은 요인으로 인해 실행이 불가능할 수 있습니다.22 이는 불확실성 하에서의 의사결정, 위험에 따른 의사결정 또는 사람들의 행동이 이상에서 벗어나는 것과 관련된 '한계가 있는 합리성'23의 개념에 반영되어 있으며, 이 중 일부 또는 전부가 증거를 실무로 옮기는 가정이 무너질 수 있습니다. 대부분의 HPE 의사 결정권자는 증거의 경로를 따르는 대신 경쟁적인 동인 사이에서 타협해야 하며, 그 중 증거는 거의 설 자리가 없을 수 있습니다.24
Researchers may be of little help to practitioners if the latter's problems are not tractable. For instance, practitioners may have a good understanding of what the solution should be, but factors such as logistics, a lack of autonomy, insufficient resources or educational politics may make it impossible to enact.22 This is reflected in the concept of ‘bounded rationality23 that involves decision-making under uncertainty, decision-making framed by risk or deviations of people's behaviour from ideals, any or all of which can unravel the assumed translation of evidence to practice. Instead of following the path of evidence, most HPE decision-makers are obliged to compromise between competing drivers, amongst which evidence may have little place.24

전부는 아니더라도 대부분의 교육 프로그램의 한계적 합리성에는 해결책을 찾게 된 근본적인 문제와 수용 가능하고 실행 가능한 절충안을 구성하는 문제, 즉 적어도 두 가지 문제가 있습니다. 우리는 실무자의 문제를 해결하고자 하는 HPE 연구자들은 그들이 영향을 미치고자 하는 의사결정의 대부분이 어떤 식으로든 타협을 수반하며, 실무자가 어쩔 수 없이 감수해야 하는 타협에 대해 실무자를 비판하는 것은 비생산적일 수 있다는 점을 이해해야 한다고 주장하고 싶습니다. 연구자들이 자신들이 생산한 증거가 실무자들이 더 노력하기만 하면 어떻게든 구할 수 있다고 믿는다면 오만하다는 비난을 받을 수 있습니다. 
There are at least two problems here with the bounded rationalities of most, if not all, educational programmes: the original problem that caused the search for a solution and the problem of constructing an acceptable and workable compromise solution. We would argue that HPE researchers who are seeking to solve practitioner problems need to understand that much of the decision-making they seek to influence involves compromises in some way or other and that criticising practitioners for those compromises they are obliged to make and live with might be counterproductive. Researchers could reasonably be accused of hubris if they were to believe that the evidence they produce can somehow save the day if only practitioners were to try harder.

문제를 공식화하고, 합의하고, 추적할 수 있다고 하더라도 일반적으로 연구를 수행하고 검토를 거쳐 출판하기까지 걸리는 시간은 실무자의 문제가 다른 방법으로 해결되었거나 더 이상 관련성이 없을 수 있음을 의미합니다. 예를 들어, 실무자의 문제는 연구 증거가 대응할 수 없는 속도로 발생할 수 있습니다(예: 재난, 팬데믹 또는 기타 위기로 인해 강요된 파괴적인 변화를 수용하는 경우). 이로 인해 연구자와 실무자 사이에 상호 신뢰와 이해가 부족하여 균열이 생기는 경우가 종종 있습니다.19, 25 코로나19 팬데믹이 시작될 때 온라인 학습으로 전환한 것이 대표적인 예입니다. 팬데믹에 대한 이전 연구는 코로나19의 규모나 심각성을 포함하지 않았고, 온라인 학습에 대한 연구도 며칠 만에 전체 프로그램을 온라인으로 변경했다기보다는, 소규모 개입을 지향하는 것과 유사하게 이루어졌습니다. 이는 의미 있는 지식의 번역을 통해 이루어졌다기보다는 연구 증거에도 불구하고 이루어졌다고 주장할 수 있습니다. 
Even if a problem can be formulated, agreed upon and tractable, the time it typically takes to conduct research and go through review to publication can mean that practitioners' problems may well have been resolved in other ways or be no longer relevant. For instance, practitioner problems may occur at speeds that research evidence cannot respond to (such as accommodating disruptive changes forced on them by disasters, pandemics or other crises). This has often produced a rift between researchers and practitioners with a deficit of mutual trust and understanding.19, 25 The pivot to online learning at the start of the COVID-19 pandemic is a case in point; previous research on pandemics did not encompass the scale or severity of COVID, and research on online learning was similarly oriented to small-scale interventions rather than to moving whole programmes in a matter of days. It might be argued that this was achieved despite the research evidence rather than through meaningful knowledge translation.

5 모든 학술 출판물이 실무자의 문제를 대상으로 하나요?
5 DO ALL SCHOLARLY PUBLICATIONS TARGET PRACTITIONER PROBLEMS?

응용 분야에는 일반적으로 많은 청중, 많은 이해관계자, 많은 대화가 있기 때문에 문제 중심 연구는 다른 연구자나 다른 이해관계자(학습자, 정책 입안자, 다른 학자, 환자, 리더 또는 사회 전체 등)의 요구를 대상으로 할 수 있으며, 이러한 요구를 충족하기 위해 문제 중심 연구가 필요하지 않을 수도 있습니다. 
Given that an applied field typically has many audiences, many stakeholders and many conversations, problem-focused research may target the needs of other researchers or other stakeholders in HPE (such as learners, policy makers, other scholars, patients, leaders or society as a whole), and these needs may not require problem-focused research in order to meet them.

학자들이 서비스 기술자가 되어 HPE에 결함이 발생하면 언제든 달려갈 준비가 되어 있지만, 그렇지 않은 경우 연락을 간절히 기다리는 위험을 감수하지 않고서는 실무자의 문제만 해결하는 분야가 될 수 없습니다. 이는 분명 비현실적이고 도움이 되지 않습니다. 그렇다면 100% 적용되지 않는(그리고 적용될 수도 없는) 응용 분야에서 학자의 역할은 무엇이어야 할까요? 과연 우리는 진정한 응용 분야일까요? '응용'이란 무엇을 의미할까요? 무엇을 무엇에 적용하는 것인가요? 

We cannot viably be a field that only solves practitioner problems without risking scholars becoming service technicians, ready to spring into action whenever HPE develops a glitch but otherwise waiting eagerly for the call. Clearly, this is unrealistic and unhelpful. So, what then, should the role of the scholar be in an applied field that is not (and cannot be) 100% applied? Indeed, are we truly an applied field? What do we mean by ‘applied’? What is being applied to what?

  • 때때로 '적용'은 자신의 진료에 증거를 적용하는 (희망하는) 실무자를 의미합니다. 
  • 때때로 '적용'은 실무자의 필요와 문제에 적용할 수 있는 연구를 수행하거나 수행해야 하는 연구자를 지칭하기도 합니다. 
  • 때때로 '적용'은 정통적인 학문적 초점이 부족하고 다른 곳의 방법론, 이론 및 패러다임에 의존하는 것을 의미합니다. 

'응용'이 무엇을 의미하는지에 대한 명확한 개념이 없다면, 연구자와 학자가 실무자의 요구에 부응해야 한다는 규범적 기대가 있을 수 있을까요?

  • Sometimes ‘applied’ refers to practitioners who apply (it is hoped) evidence within their practice.
  • Sometimes ‘applied’ refers to researchers who do or should conduct research that is applicable to practitioner needs and problems.
  • Sometimes ‘applied’ refers to the lack of an orthodox disciplinary focus, and a dependence on methodologies, theories and paradigms from elsewhere.

Without a clear idea of what we mean by ‘applied’, can there ever be a normative expectation of researchers and scholars to serve practitioner needs?

6 실제 실무자의 문제 해결에 초점을 맞춘 연구가 문헌에 가장 중요한 기여를 할 수 있을까요?
6 DO STUDIES THAT FOCUS ON SOLVING A REAL PRACTITIONER PROBLEM MAKE THE MOST SIGNIFICANT CONTRIBUTIONS TO THE LITERATURE?

연구자가 목표로 삼은 문제에 대한 완전하고 확실한 해결책을 제시하거나 제시할 수 있는 논문은 거의 없습니다. 강력한 실제 문제는 맥락에 따라 매우 특수하기 때문에 일반화하기 어렵고, 반대로 일반화가 가능한 연구 결과는 너무 추상적이어서 실무자가 직면한 문제를 해결하는 데 도움이 되지 않을 수 있습니다. 바로 여기에 학자들의 딜레마가 있습니다. 일반화 가능성과 적용 가능성 사이의 '스위트 스팟'을 찾는 것은 학자와 연구 결과를 적용해야 하는 사람들 간의 대화 없이는 어려울 수 있습니다. 이 스윗 스팟을 찾거나 우연히 발견한 경우, 그 결과물은 매우 영향력 있는 논문이 되는 경향이 있습니다. 그러나 이러한 컨텍스트의 솔루션은 컨텍스트 A의 솔루션이 컨텍스트 B, C 또는 D의 솔루션으로 직접 변환되는 구체적인 솔루션이 아닌 경향이 있습니다. 실제로 HPER에서 컨텍스트는 임상에서와 마찬가지로 중요합니다.26 오히려 이러한 논문은 특정 문제에 대한 구체적인 솔루션을 제공하기보다는 메타 솔루션, 문제 유형에 대한 이해 및 성찰 방법을 제공하는 경향이 있습니다. HPE에서 가장 가치 있는 솔루션은 메타 솔루션이며, 연구로부터 실무로의 의미 있는 번역은 실제로 메타 번역의 한 형태일 수 있습니다.
There are very few, if any papers that provide (or that could hope to provide) a complete and definitive solution to the problem they have targeted. Robust practical problems are so context-specific that they do not generalise well; on the other hand, research findings, which are more generalizable, may be too abstract to help address the problems practitioners face. And herein lies the dilemma for scholars. Finding a ‘sweet spot’ between generalizability and applicability can be challenging without a dialogue between scholars and those who are to apply their work. On the occasions when this sweet spot is achieved (or serendipitously found), the resulting papers tend to be very influential. However, solutions in these contexts tend not to be specific solutions, where the solution in Context A directly translates to solutions in Contexts B, C or D. Indeed, context matters in HPER every bit as much as it does in clinical practice.26 Rather, these papers tend to offer meta-solutions, ways of understanding and reflecting on a class of problems, rather than providing concrete solutions to a specific problem. In HPE, it might be that the most valuable solutions are meta-solutions and that meaningful translation from research to practice is really a form of meta-translation.

7 솔루션 지식 번역이 할 수 있는 일과 할 수 있는 일
7 WHAT CAN BE DONE AND IS THE SOLUTION KNOWLEDGE TRANSLATION

우리가 제기한 주장에서 몇 가지 시사점이 있습니다. 첫째, HPE 연구에서 문제의 역할, 표현, 함의가 무엇인지, 그리고 무엇이 되어야 하는지 다시 생각해 볼 필요가 있습니다. 또한 HPER 증거의 수용을 촉진하는 데 있어 지식 번역의 역할과 그 한계는 무엇이며 어디까지인지 다시 생각해 볼 필요가 있습니다. HPE 연구자가 해결하고자 하는 문제를 공식화할 때 실무자, 프로그램 책임자 또는 정책 입안자에게 문제, 요구 사항 및 희망 사항을 조사하는 데 얼마나 많은 시간이나 노력을 투자해야 할까요? 의미 있는 지속적이고 생성적인 대화를 어느 정도까지 개발하고 유지할 수 있을까요? 
There are several implications arising from the arguments we have made. First, we need to rethink what the role, articulation and implications of problems in HPE research are and should be. We also need to rethink the role of knowledge translation in facilitating the uptake of HPER evidence, and what and where its limits are. We might ask: how much time or effort should HPE researchers put into canvassing practitioners, programme directors or policy makers regarding their problems, needs and wishes, when they formulate the problems they plan to solve? To what extent can meaningful ongoing and generative dialogue be developed and sustained?

우리는 HPE 문헌이 실무자의 문제 해결에만 초점을 맞추고 있지 않다고 주장해 왔습니다. 그럼에도 불구하고 여기에는 문제 중심 연구가 많이 포함되어 있으며, 앞으로도 이 분야는 우리가 하는 일의 중요한 부분이 될 것입니다. 그러나 문제와 문제 해결에만 초점을 맞추는 것이 우리가 하는 일의 전형인지에 대해서는 의문을 가질 필요가 있습니다. 문제 중심 연구가 연구 또는 연구 프로그램의 초점이라면, 누구의 문제가 제기되고 누구의 문제가 해결되고 있는지에 대해 더 많은 관심을 기울여야 합니다. 
We have argued that the HPE literature is not focused solely on practitioner problem solving. Nevertheless, it does include much problem-focused research, and it is likely to continue to be a significant part of what we do as a field. However, we need to question an exclusive focus on problems and problem solving as the epitome of what we do. If problem-focused research is the focus of a study or a programme of research, then more thought should be paid to whose problems are being posed and whose problems are being answered.

이러한 주장은 HPE의 지식 번역 및 구현 과학 노력에도 시사점을 줍니다. 지식 번역의 광범위한 목표는 연구-실무 간 격차를 파악하고 설명한 다음, 근거를 실무에 최적화하는 것을 목표로 이론에 기반한 맞춤형 중재를 개발하고 실행하는 것입니다.7 그러나 HPE에서 많은 문제가 지속되는 이유는 근거의 빈약한 활용과 거의 관련이 없는 것으로 보입니다.24 이 중요하고 필요한 조건이 없다면, 지식 번역은 HPE에서 불필요하거나 기능적으로 매우 제한적일 수 있습니다. 지식 번역의 관점은 HPE 과학이 개선, 문제 해결, 오류 예방 등에 초점을 맞춰야 한다는 것을 의미한다는 점을 고려할 때 이는 받아들이기 어려운 입장입니다.7, 24 지식 번역을 완전히 포기하는 대신, 우리 분야에 존재하는 문제와 문제 해결의 과제에 더 잘 대응할 수 있도록 재창조하거나 최소한 조정해야 할 필요가 있을 수 있습니다.
Our arguments also have implications for knowledge translation and implementation science efforts in HPE. The broad aim of knowledge translation has been to identify and explain research-practice gaps, and then to develop and implement tailored and theory-informed interventions with the goal of optimising the uptake of evidence into practice.7 However, it would seem that the reason many problems persist in HPE has had little to do with the poor uptake of evidence.24 Without this important and necessary condition, knowledge translation may well be unnecessary or functionally very limited in HPE. This is a challenging position to take given that a knowledge translation perspective implies that HPE science must focus on improving things, on solving problems and preventing errors, and so forth.7, 24 Rather than abandoning knowledge translation completely, we may need to reinvent, or at the very least adapt it to be more responsive to the challenges of problems and problem solving that are present in our field.

또한 지식 번역이 유일한 해답이 될 수 없으며 지식 생산자와 지식 사용자 사이의 가교 역할만 할 수도 없습니다. 이 분야에서 지식 번역이 어떤 가치를 지니려면 이 백서에서 설명한 보다 복잡한 지식 및 지혜 구축 시스템의 일부로 더 적극적으로 활용될 필요가 있습니다. HPE가 응용 분야라는 다른 널리 퍼진 통념을 받아들이더라도(우리가 주장했듯이 이는 기껏해야 부분적으로만 사실입니다), 교육 관행과 정책을 개선하기 위해 모든 증거를 사용해야 한다는 통념은 도전받아야 합니다.
Moreover, knowledge translation cannot be the only answer and it cannot be just a bridge between knowledge creators and knowledge users; if it has any value in this space, it needs to be more actively a part of the more complex system of knowledge and wisdom building we have outlined in this paper. Even if we accept the other widespread myth that HPE is an applied field (which, as we have argued, at best is only partly true), the myth that any and all evidence should be used to improve educational practices and policies has to be challenged.

역설적이게도 이러한 문제는 증거를 제시함으로써 해결될 수 있는 문제가 아닙니다. 현장에서 토론하고 탐구해야 할 문제입니다. 그들은 우리가 발전시켜온 문화와 그들이 받아들일 준비가 되어 있는 신화를 통해 최대한 많은 것을 해결합니다.
These are not issues, paradoxically, that can be resolved by throwing evidence at them. They are concerns for the field to debate and explore. They resolve, as much as they can, from the cultures we advance and the myths they are prepared to live with.

8 토론
8 DISCUSSION

이 백서를 마무리하기 전에 우리가 제시한 주장에 대해 몇 가지 반성할 점을 짚어보고자 합니다. 첫째, 우리는 논문의 많은 부분을 연구자와 실무자의 역할에 초점을 맞추었는데, 이는 이들이 상당히 별개의 개인이거나 HPE 학술활동에서 상호 작용하거나 공존하지 않는다는 인상을 줄 수 있습니다. 그러나 초기의 반성적 성찰을 반영하듯, 저희를 비롯한 많은 사람들이 다양한 모자를 쓰고 연구와 실무 공간에서 모두 일하고 있습니다. 이러한 맥락을 항상 분리할 수는 없으며, 공생 관계를 유지함으로써 얻을 수 있는 것이 많습니다. 실제로 저희의 주장 중 상당수는 이러한 역할이 우리에게 제공한 혼합된 관점으로부터 나온 것입니다. 또한 연구팀에는 연구 결과에 이해관계가 있는 실무자와 다른 사람들이 포함될 수 있고, 그 반대의 경우도 마찬가지이며, 지식 생성 및 번역 활동의 설계와 수행에 다양한 관점이 포함될 수 있음을 인정합니다. 연구자와 실무자의 관점은 다소 모호하고 다원적일 수 있지만, 각 입장의 전통과 문화는 여전히 이들의 관계에 대한 변증법적 감각을 주도할 수 있으며, 이들의 분열적 경향에 대한 주의가 필요합니다. 
Before closing this paper, we would like to note some points of reflection on the arguments we have put forth. Firstly, we have focused much of our thesis around the roles of researchers and practitioners, which may give the impression that these are quite separate individuals or that they do not interact or co-exist in HPE scholarship. However, reflecting our earliest reflexivity statements, we and many others wear many hats and work in both research and practice spaces. These contexts cannot always be dissociated, and there is much to be gained in keeping these in symbiosis. Indeed, much of our arguments have come from these mixed perspectives our roles have afforded us. We also acknowledge that research teams can (and often should) include practitioners and others with a stake in the findings and vice versa, to embed different perspectives in the design and conduct of knowledge generation and translation activities. Although the perspectives of researchers and practitioners can be somewhat blurred and plural, the traditions and cultures of these respective positions can still drive a dialectical sense of their relationships, and attention to their divisive tendencies is needed.

이 백서에서는 신화적 영향과 신화 간의 연관성에서 특히 중요하다고 생각되는 다섯 가지 신화를 중심으로 설명했습니다. 그러나 이러한 신화만이 이 환경에서 볼 수 있는 것은 아니며 다른 사람들은 더 많은 신화를 볼 수 있습니다. 모든 신화에 대한 우려를 일일이 열거하기보다는 일반적으로 증거의 생산과 사용을 개선하기 위해 우리가 제기한 문제에 관심을 기울이는 것이 중요하다고 생각합니다. 그러나 우리가 제기한 문제를 해결한다고 해서 이 분야가 직면한 모든 문제가 해결될 것이라고 주장하는 것은 아니며, 어디선가 시작해야 할 필요가 있을 뿐입니다. 어쨌든 누구의 문제인지 묻는 것이 대화의 문을 여는 것이라고 믿습니다. 
We have articulated this paper around five myths that we consider particularly important in their mythic impacts and the connections between them. However, these are not the only myths we see in this landscape and others may see even more. Rather than listing every last mythic concern, we think it important to attend to the issues we have raised in order to improve the production and use of evidence in general. However, we do not claim that resolving the issues we have raised will fix all of the problems we face as a field, only that we need to start somewhere. We believe that in asking whose problem is it anyway, we open the door to the conversation.

또한 이러한 주장을 발전시키는 과정에서 우리는 그 함의에서 자유롭지 않다는 것을 인정합니다. 결국, 우리는 이 백서를 통해 어떤 문제를 해결하고자 하는 것일까요? 문제를 중심으로 논문을 어느 정도 명확하게 표현했습니까? 우리가 의도한 청중은 누구인가? 우리는 행동하고 이야기하고 있는가? 마지막 질문에 대한 우리의 대답은 이 논문은 특히 이 증거가 실무자에게 중요한 실제 문제를 해결하는 데 사용될 수 있다는 점에서 증거의 일부 오해와 관련된 문제를 해결하고자 하는 작업의 예이며, 교육 연구자와 실무자 모두를 대상으로 한다는 것입니다. 그러나 이러한 문제는 광범위하고 복잡하기 때문에 이 백서는 우리가 제기한 문제에 대한 사고와 토론을 촉진할 수 있기를 바라며 청중의 참여를 유도하는 행위입니다. 실용적인 문제에만 초점을 맞춘 연구만이 우리가 하는 전부는 아니며, 그렇기 때문에 우리 분야에서 다양한 차원의 참여와 관심의 맥락에서 지식 번역과 실행 과학이 무엇을 의미할 수 있는지 다시 생각해 볼 필요가 있습니다.  
We also acknowledge that in advancing these arguments we are not free of their implications. After all, what problems are we trying to solve with this paper? To what extent did we articulate the paper around problems? Who is our intended audience? Are we walking the walk and talking the talk? Our response to the last question is that this paper is an example of work that is looking to solve problems associated with some of the myths of evidence especially insofar as this evidence can be used to address real-life problems that matter to practitioners, and it is intended for both educational researchers and practitioners. However, these problems are broad and complex and as such, this paper is an act of audience engagement with a hope that it will catalyse thinking and debate around the issues we have raised. Problem-focused research solely on practical issues is clearly not all we do, which is why we need to rethink what knowledge translation and implementation science can mean in the context of different dimensions of engagement and concern in our field.

9 결론
9 CONCLUSIONS

이 백서에서는 HPE에서 문제를 사용하는 것과 관련된 몇 가지 신화에 맞서기 위해 모든 것이 문제인지, 모든 실무자의 요구는 문제 해결에 관한 것인지, 실무자 문제는 충분한 증거로 해결할 수 있는지, 모든 학술 출판물이 실무자 문제를 대상으로 하는지, 실제 실무자 문제 해결에 초점을 맞춘 연구가 문헌에 중요한 기여를 하는지 등 다섯 가지 질문을 제기했습니다. 매번 대답은 '아니오'였습니다. 우리 분야는 문제 중심 연구라는 신화가 암시하는 것보다 훨씬 더 다양한 분야입니다. 따라서 우리는 HPE 커뮤니티가 HPE의 현실과 그것이 우리에게 강요하는 제한적 합리성에 대해 더 열심히 생각하고 더 잘 생각하기를 요청합니다.  
To confront some of the myths associated with the use of problems in HPE, we posed five questions in this paper: whether everything is a problem, whether all practitioner needs are about problem solving, whether practitioner problems are resolvable with sufficient evidence, whether all scholarly publications target practitioner problems and whether studies that focus on solving a real practitioner problem make significant contributions to the literature. Each time, the answer was ‘no’. Ours is a more diverse field than the myth of problem-focused research would suggest. We therefore ask the HPE community to think harder and think better about the realities of HPE and the bounded rationalities it forces upon us.


Med Educ. 2023 Aug;57(8):706-711. doi: 10.1111/medu.15067. Epub 2023 Mar 13.

Whose problem is it anyway? Confronting myths of 'problems' in health professions education

Affiliations collapse

1School of Physical and Occupational Therapy, Institute of Health Sciences Education, Faculty of Medicine and Health Sciences, McGill University and Centre for Interdisciplinary Research in Rehabilitation, Montreal, Quebec, Canada.

2Department of Community Health Sciences, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada.

PMID: 36849164

DOI: 10.1111/medu.15067

Abstract

Introduction: The growing interest in knowledge translation and implementation science, both in clinical practice and in health professions education (HPE), is reflected in the number of studies that have sought to address what are believed to be evidence-practice gaps. Though this effort may be intended to ensure practice improvements are better aligned with research evidence, there is a common assumption that the problems researchers explore and the answers they generate are meaningful and applicable to practitioner needs.

Methods: This Mythology paper considers the nature of problems from HPE as the focus of HPE research and the ways in which they may or may not be aligned. The authors argue that, in an applied field such as HPE, it is vital that researchers better understand how their research problems relate to practitioner needs and what the limitations on evidence uptake might be. Not only can this establish clearer paths between evidence and action, but it also requires a rethink of much of knowledge translation and implementation science thinking and practice.

Results: The authors explore five myths: whether everything in HPE is a problem; whether practitioner needs involve problem solving; whether practitioner problems are resolvable with sufficient evidence; whether researchers effectively target practitioner problems; and whether studies that focus on solving practitioner problems make significant contributions to the literature.

Conclusions: To advance the conversation on the connections between problems and HPE research, the authors propose ways in which knowledge translation and implementation science might be approached differently.

혼합방법연구에서 데이터를 통합하는 세 가지 테크닉(BMJ. 2010)
Three techniques for integrating data in mixed methods studies
Alicia O’Cathain,1 Elizabeth Murphy,2 Jon Nicholl1

 

질적 연구와 정량적 연구 결과를 결합하도록 설계된 기법은 연구자에게 개별 분석보다 더 많은 지식을 제공할 수 있습니다. 
Techniques designed to combine the results of qualitative and quantitative studies can provide researchers with more knowledge than separate analysis

보건 연구자들은 점점 더 질적 방법과 정량적 방법을 결합한 설계를 사용하고 있으며, 이를 혼합 방법 연구라고 부르기도 합니다.1 연구의 질적 요소와 정량적 요소 간의 상호작용 또는 대화인 통합은 혼합 방법 연구의 중요한 측면이며, 실제로 일부 정의에 필수적입니다.2 그러나 보건 분야의 혼합 방법 연구에 대한 최근 경험적 연구에 따르면 구성 요소 간의 통합이 부족하여3 4 이러한 유형의 연구가 생성하는 지식의 양에 제한이 있는 것으로 나타났습니다. 통합이 없으면 "부분의 합보다 더 큰 전체"를 얻기보다는 질적 연구와 양적 연구를 독립적으로 수행했을 때와 동일한 수준의 지식이 산출됩니다.5 
Health researchers are increasingly using designs that combine qualitative and quantitative methods, and this is often called mixed methods research.1 Integration—the interaction or conversation between the qualitative and quantitative components of a study—is an important aspect of mixed methods research, and, indeed, is essential to some definitions.2 Recent empirical studies of mixed methods research in health show, however, a lack of integration between components,3 4 which limits the amount of knowledge that these types of studies generate. Without integration, the knowledge yield is equivalent to that from a qualitative study and a quantitative study undertaken independently, rather than achieving a “whole greater than the sum of the parts.”5

보건 및 사회 연구 모두에서 통합을 가로막는 장벽이 확인되었습니다.6 7 한 가지 장벽은 혼합 방법 연구에 대한 공식 교육이 없다는 것입니다. 다행히도 질적 방법과 양적 방법의 데이터와 연구 결과를 통합하는 방법에 대한 설명을 포함하여 이러한 교육 격차를 메우기 위한 문헌이 빠르게 확장되고 있습니다.8 9 이 글에서는 보건 연구자가 혼합 방법 연구에서 데이터 또는 연구 결과를 통합하는 데 도움이 될 수 있는 세 가지 기법을 설명하고 이러한 접근 방식에서 생성된 지식을 향상시킬 수 있는 방법을 보여줍니다. 
Barriers to integration have been identified in both health and social research.6 7 One barrier is the absence of formal education in mixed methods research. Fortunately, literature is rapidly expanding to fill this educational gap, including descriptions of how to integrate data and findings from qualitative and quantitative methods.8 9 In this article we outline three techniques that may help health researchers to integrate data or findings in their mixed methods studies and show how these might enhance knowledge generated from this approach.

삼각측량 프로토콜
Triangulation protocol

연구자는 종종 정성적 방법과 정량적 방법을 사용하여 전체 연구 질문의 다양한 측면을 조사합니다. 예를 들어, 무작위 대조 시험을 통해 의료 개입의 효과를 평가하고 환자 및 의료 전문가와의 반구조화된 인터뷰를 통해 실제 환경에서 개입이 사용된 방식을 고려할 수 있습니다. 또는 서비스 사용자에 대한 설문조사를 통해 서비스 만족도를 측정하고 포커스 그룹을 통해 치료에 대한 관점을 더 깊이 탐구할 수도 있습니다. 각 구성 요소에 대해 데이터를 개별적으로 수집하고 분석하여 두 가지 결과를 도출합니다. 그런 다음 연구자들은 이러한 결과를 결합하려고 시도하며, 이 과정을 삼각 측량이라고 부르기도 합니다. 삼각측량이라는 용어는 두 가지 의미가 있기 때문에 혼동될 수 있습니다.10 삼각측량은

  • 두 세트의 결과 사이의 확증(보강, corroboration)을 설명하거나
  • 보다 완전한 그림을 얻기 위해 다양한 방법을 사용하여 문제를 연구하는 과정

후자의 의미는 혼합 방법 연구에서 일반적으로 사용되며 여기서는 이 의미를 사용합니다. 
Researchers will often use qualitative and quantitative methods to examine different aspects of an overall research question. For example, they might use a randomised controlled trial to assess the effectiveness of a healthcare intervention and semistructured interviews with patients and health professionals to consider the way in which the intervention was used in the real world. Alternatively, they might use a survey of service users to measure satisfaction with a service and focus groups to explore views of care in more depth. Data are collected and analysed separately for each component to produce two sets of findings. Researchers will then attempt to combine these findings, sometimes calling this process triangulation. The term triangulation can be confusing because it has two meanings.10 It can be used

  • to describe corroboration between two sets of findings or
  • to describe a process of studying a problem using different methods to gain a more complete picture.

The latter meaning is commonly used in mixed methods research and is the meaning used here.

서로 다른 방법의 결과를 삼각 측량하는 과정은 두 데이터 세트가 개별적으로 분석되었을 때 연구의 해석 단계에서 이루어집니다(그림⇓). 연구 결과를 삼각 측량하기 위한 몇 가지 기법이 설명되어 있습니다. 연구자는 연구의 각 구성 요소에서 얻은 결과를 같은 페이지에 나열하고 다음을 고려해야 합니다

  • 각 방법의 결과가 일치하는 부분(수렴성),
  • 동일한 문제에 대해 보완적인 정보를 제공하는 부분(보완성),
  • 서로 모순되는 것처럼 보이는 부분(불일치 또는 부조화).11 12 13

다른 방법의 결과 간에 불일치를 명시적으로 찾는 것은 이 과정의 중요한 부분입니다. 의견 불일치는 연구에 문제가 있다는 신호가 아닙니다. 명백한 "방법 간 불일치"를 탐색하는 것은 연구 질문에 대한 더 나은 이해로 이어질 수 있으며,14 보건 서비스 연구에서 방법 간 불일치를 탐색하기 위해 다양한 접근법이 사용되었습니다.15 
The process of triangulating findings from different methods takes place at the interpretation stage of a study when both data sets have been analysed separately (figure). Several techniques have been described for triangulating findings. They require researchers to list the findings from each component of a study on the same page and consider where findings from each method agree (convergence), offer complementary information on the same issue (complementarity), or appear to contradict each other (discrepancy or dissonance).11 12 13 Explicitly looking for disagreements between findings from different methods is an important part of this process. Disagreement is not a sign that something is wrong with a study. Exploration of any apparent “inter-method discrepancy” may lead to a better understanding of the research question,14 and a range of approaches have been used within health services research to explore inter-method discrepancy.15

삼각측량 수행 방법에 대한 가장 자세한 설명은 삼각측량 프로토콜로,11 여러 질적 방법을 위해 개발되었지만 혼합 방법 연구와 관련이 있습니다. 이 기법에는 연구의 각 구성 요소에서 나온 결과를 같은 페이지에 표시하는 '융합 코딩 매트릭스'를 생성하는 것이 포함됩니다. 그 다음에는 서로 다른 구성 요소의 결과 사이에 일치, 부분 일치, 침묵 또는 불협화음이 있는 부분을 고려합니다. 이 삼각측량 기법은 주제나 결과가 한 데이터 세트에서 발생하지만 다른 데이터 세트에서는 발생하지 않는 침묵을 포함할 수 있는 유일한 기법입니다. 현상의 다양한 측면을 조사하는 다양한 방법의 강점 때문에 침묵이 예상될 수 있지만, 이해를 높이거나 추가 조사로 이어지는 데 도움이 되는 예상치 못한 침묵도 발생할 수 있습니다.
The most detailed description of how to carry out triangulation is the triangulation protocol,11 which although developed for multiple qualitative methods, is relevant to mixed methods studies. This technique involves producing a “convergence coding matrix” to display findings emerging from each component of a study on the same page. This is followed by consideration of where there is agreement, partial agreement, silence, or dissonance between findings from different components. This technique for triangulation is the only one to include silence—where a theme or finding arises from one data set and not another. Silence might be expected because of the strengths of different methods to examine different aspects of a phenomenon, but surprise silences might also arise that help to increase understanding or lead to further investigations.

삼각측량 프로토콜은 연구자들이 각 방법과 관련된 결과에 대한 생각에서 벗어나 다양한 방법의 결과를 가로지르는 메타테마라고 부르는 것으로 이동시킵니다.11 삼각측량 프로토콜의 작동 사례를 보여 주지만, 다른 출판된 사례는 찾을 수 없었습니다. 그러나 새로운 일차 혈관 성형술 서비스에 대한 환자와 보호자의 만족도를 파악하기 위한 반복적 혼합 방법 연구에서도 유사한 원칙이 사용되었습니다.16 

  • 연구자들은 16명의 사용자와 보호자를 대상으로 반구조화된 인터뷰를 실시하여 새로운 서비스에 대한 경험과 견해를 조사했습니다. 
  • 이를 바탕으로 새로운 서비스 또는 일반적인 치료를 받고 있는 595명의 환자(및 보호자 418명)를 대상으로 설문지를 개발했습니다. 
  • 마지막으로, 사후 관리 및 재활에 불만을 표명한 환자 중 17명을 대상으로 반구조화된 인터뷰를 통해 이에 대한 추가 조사를 실시했습니다. 

연구진은 메타주제로의 사고 전환을 통해 인터뷰, 설문조사, 후속 인터뷰의 결과를 순차적으로 보고하는 방식에서 벗어나 속도와 효율성, 치료의 편의성, 퇴원 및 사후 관리라는 메타주제를 고려했습니다. 설문조사 결과, 새로운 서비스를 이용하는 환자 보호자 중 병원 방문의 편의성이 기존 서비스를 이용하는 보호자보다 낮다고 평가한 비율이 더 높았습니다. 인터뷰는 새로운 서비스에 대한 이러한 우려를 뒷받침했지만, 보호자가 가족의 생명을 구할 수 있다는 맥락에서 이러한 우려에 부여하는 비중은 낮다는 사실도 확인했습니다.
The triangulation protocol moves researchers from thinking about the findings related to each method, to what Farmer and colleagues call meta-themes that cut across the findings from different methods.11 They show a worked example of triangulation protocol, but we could find no other published example. However, similar principles were used in an iterative mixed methods study to understand patient and carer satisfaction with a new primary angioplasty service.16 

  • Researchers conducted semistructured interviews with 16 users and carers to explore their experiences and views of the new service.
  • These were used to develop a questionnaire for a survey of 595 patients (and 418 of their carers) receiving either the new service or usual care.
  • Finally, 17 of the patients who expressed dissatisfaction with aftercare and rehabilitation were followed up to explore this further in semistructured interviews.

A shift of thinking to meta-themes led the researchers away from reporting the findings from the interviews, survey, and follow-up interviews sequentially to consider the meta-themes of speed and efficiency, convenience of care, and discharge and after care. The survey identified that a higher percentage of carers of patients using the new service rated the convenience of visiting the hospital as poor than those using usual care. The interviews supported this concern about the new service, but also identified that the weight carers gave to this concern was low in the context of their family member’s life being saved.

Morgan은 이러한 움직임이 질적 요소와 양적 요소를 분석한 후에 발생하기 때문에 "제3의 노력"이라고 설명합니다.17 연구 시간표에 계획해야 하는 시간과 에너지가 필요합니다. 통합 프로세스를 누가 수행할 것인지 고려하는 것도 유용합니다. 삼각 측량 시 두 명의 연구자가 함께 작업해야 하는데, 이는 혼합 방법 연구에서 서로 다른 연구자가 정성적 요소와 정량적 요소를 담당하는 경우 특히 중요할 수 있습니다.11 
Morgan describes this move as the “third effort” because it occurs after analysis of the qualitative and the quantitative components.17 It requires time and energy that must be planned into the study timetable. It is also useful to consider who will carry out the integration process. Farmer and colleagues require two researchers to work together during triangulation, which can be particularly important in mixed methods studies if different researchers take responsibility for the qualitative and quantitative components.11

스레드 따라가기
Following a thread

모란-엘리스와 동료들은 following a thread라는 연구의 질적 구성 요소와 양적 구성 요소의 결과를 통합하는 다른 기법을 설명합니다.18 이들은 이 기법이 연구 과정의 분석 단계에서 수행된다고 말합니다(그림⇑). 각 구성 요소에 대한 초기 분석으로 시작하여 주요 주제와 추가 탐구가 필요한 질문을 식별합니다. 그런 다음 연구자는 한 구성 요소에서 질문 또는 주제를 선택하고 다른 구성 요소에 걸쳐 이를 따라가는데, 이를 스레드라고 부릅니다. 저자들은 이 기법의 단계를 명시하지는 않았지만 데이터 집합 간 작업을 위한 시각적 모델을 제공합니다. 이와 유사한 접근 방식이 의료 서비스 연구에서도 수행되었지만, 연구자들은 이 기법이 문헌에서 자주 사용되지 않았기 때문에 이를 '스레드'라고 부르지 않았습니다(상자).
Moran-Ellis and colleagues describe a different technique for integrating the findings from the qualitative and quantitative components of a study, called following a thread.18 They state that this takes place at the analysis stage of the research process (figure). It begins with an initial analysis of each component to identify key themes and questions requiring further exploration. Then the researchers select a question or theme from one component and follow it across the other components—they call this the thread. The authors do not specify steps in this technique but offer a visual model for working between datasets. An approach similar to this has been undertaken in health services research, although the researchers did not label it as such, probably because the technique has not been used frequently in the literature (box)

스레드 팔로우의 예19
An example of following a thread19

아담슨과 동료들은 일반 진료소에 등록된 사람들을 대상으로 한 설문조사와 반구조화된 인터뷰를 통해 환자의 견해가 적절한 서비스 사용과 도움 요청에 미치는 영향을 조사했습니다. 정성적 요소(22건의 인터뷰)와 정량적 요소(911명의 응답자를 대상으로 한 설문조사)가 동시에 진행되었습니다.
Adamson and colleagues explored the effect of patient views on the appropriate use of services and help seeking using a survey of people registered at a general practice and semistructured interviews. The qualitative (22 interviews) and quantitative components (survey with 911 respondents) took place concurrently.

연구자들은 분석에 대한 반복적 또는 순환적 접근 방식이라고 설명합니다. 먼저, 인터뷰의 예비 조사 결과를 바탕으로 설문조사 데이터에서 테스트할 가설을 세웠습니다. 인터뷰의 핵심 주제는 부족한 의료 서비스를 책임감 있게 사용하는 방법으로서 서비스의 자가 배급에 관한 것이었습니다. 그런 다음 적절한 서비스 사용에 대한 사람들의 견해가 도움을 구하는 행동을 설명할 것이라는 가설을 테스트하여 설문조사 데이터에서 이 주제를 탐색했습니다. 그러나 의료 서비스가 부적절하게 사용되었다고 생각하는 설문 응답자의 절반은 서비스가 부적절하게 사용되지 않았다고 생각하는 응답자만큼이나 표준화된 그림에 제시된 일련의 증상에 대해 도움을 요청할 가능성이 높았기 때문에 정량적 분석에서는 이 가설을 뒷받침할 수 없었습니다. 그런 다음 연구자들은 이 결과를 해석하기 위해 인터뷰 데이터로 되돌아갔습니다.
The researchers describe what they call an iterative or cyclical approach to analysis. Firstly, the preliminary findings from the interviews generated a hypothesis for testing in the survey data. A key theme from the interviews concerned the self rationing of services as a responsible way of using scarce health care. This theme was then explored in the survey data by testing the hypothesis that people’s views of the appropriate use of services would explain their help seeking behaviour. However, there was no support for this hypothesis in the quantitative analysis because the half of survey respondents who felt that health services were used inappropriately were as likely to report help seeking for a series of symptoms presented in standardised vignettes as were respondents who thought that services were not used inappropriately. The researchers then followed the thread back to the interview data to help interpret this finding.

인터뷰 데이터를 추가로 분석한 결과, 연구진은 사람들이 자신의 도움보다는 다른 사람의 도움을 구하는 것을 부적절하다고 생각한다는 사실을 파악했습니다. 또한 증상에 대해 불안감을 느끼는 것이 치료를 받아야 하는 좋은 이유라고 생각한다는 사실에 주목했습니다. 연구진은 이 맥락을 따라 설문조사 데이터로 돌아가 표준화된 그림에 나타난 증상에 대한 불안 수준이 도움을 구하는 행동을 예측하는지 테스트했습니다. 이 두 번째 가설은 설문조사 데이터에 의해 뒷받침되었습니다. 연구진은 스레드를 따라가면서 사소해 보이는 문제로 의료 서비스를 찾는 환자들이 서비스를 부적절하게 이용하지 않는 것과 증상으로 인한 불안 사이의 균형에 대한 임계값을 초과했다는 결론을 내렸습니다.
After further analysis of the interview data the researchers understood that people considered the help seeking of other people to be inappropriate, rather than their own. They also noted that feeling anxious about symptoms was considered to be a good justification for seeking care. The researchers followed this thread back into the survey data and tested whether anxiety levels about the symptoms in the standardised vignettes predicted help seeking behaviour. This second hypothesis was supported by the survey data. Following a thread led the researchers to conclude that patients who seek health care for seemingly minor problems have exceeded their thresholds for the trade-off between not using services inappropriately and any anxiety caused by their symptoms.

혼합 방법 매트릭스
Mixed methods matrix

일부 혼합 방법 연구의 독특한 측면은 동일한 사례에 대해 정성적 데이터와 정량적 데이터를 모두 사용할 수 있다는 것입니다. 혼합 방법 연구의 분석 단계에서는 정성적 요소와 정량적 요소의 데이터를 통합할 수 있습니다(그림⇑). 예를 들어, 설문조사 응답자 표본을 대상으로 심층 인터뷰를 실시하여 완성된 설문지와 녹취록이 모두 있는 사례의 하위 집합을 생성할 수 있습니다. 사례는 개인, 그룹, 조직 또는 지역이 될 수 있습니다.9 단일 사례에 대해 수집된 모든 데이터를 함께 연구할 수 있으며, 연구 내에서 변수나 주제보다는 사례에 초점을 맞출 수 있습니다. 예를 들어 설문지에 대한 사람들의 응답을 인터뷰 기록과 비교하는 등 각 사례별로 데이터를 자세히 조사할 수 있습니다. 또는 마일즈와 허버만의 메타 매트릭스에 따라 각 사례의 데이터를 요약하여 매트릭스8 9 20에 표시할 수도 있습니다.21 혼합 방법 매트릭스에서 행은 정성적 데이터와 정량적 데이터가 모두 있는 사례를 나타내고 열은 각 사례에서 수집된 다른 데이터를 표시합니다. 이를 통해 연구자는 단일 사례에 대한 데이터 유형 간의 놀라움과 역설에 주의를 기울인 다음 질적 교차 사례 분석에서 모든 사례20에서 패턴을 찾을 수 있습니다.21 
A unique aspect of some mixed methods studies is the availability of both qualitative and quantitative data on the same cases. Data from the qualitative and quantitative components can be integrated at the analysis stage of a mixed methods study (figure). For example, in-depth interviews might be carried out with a sample of survey respondents, creating a subset of cases for which there is both a completed questionnaire and a transcript. Cases may be individuals, groups, organisations, or geographical areas.9 All the data collected on a single case can be studied together, focusing attention on cases, rather than variables or themes, within a study. The data can be examined in detail for each case—for example, comparing people’s responses to a questionnaire with their interview transcript. Alternatively, data on each case can be summarised and displayed in a matrix8 9 20 along the lines of Miles and Huberman’s meta-matrix.21 Within a mixed methods matrix, the rows represent the cases for which there is both qualitative and quantitative data, and the columns display different data collected on each case. This allows researchers to pay attention to surprises and paradoxes between types of data on a single case and then look for patterns across all cases20 in a qualitative cross case analysis.21

우리는 혼합 방법 매트릭스를 사용하여 보건 서비스 연구에서 팀 작업 유형과 혼합 방법 연구의 통합 정도 사이의 관계를 연구했습니다(표⇓).22 75개의 혼합 방법 연구의 제안서, 보고서 및 동료 검토 출판물에서 정량적 데이터를 추출하고, 이를 분석하여 혼합 방법 저널 논문과 같은 통합 결과물을 가진 연구의 비율을 설명했습니다. 정량적 요소의 두 가지 주요 변수는 해당 연구가 정성적 또는 정량적 데이터 또는 연구 결과를 통합하려고 시도한 것으로 평가되었는지 여부와 생산된 출판물의 유형이었습니다. 이러한 연구 중 일부에 참여한 20명의 연구자와의 질적 인터뷰를 통해 연구팀의 협력 방식 등 혼합 방법 연구가 어떻게 실행되었는지 살펴봤습니다. 
We used a mixed methods matrix to study the relation between types of team working and the extent of integration in mixed methods studies in health services research (table).22 Quantitative data were extracted from the proposals, reports, and peer reviewed publications of 75 mixed methods studies, and these were analysed to describe the proportion of studies with integrated outputs such as mixed methods journal articles. Two key variables in the quantitative component were whether the study was assessed as attempting to integrate qualitative or quantitative data or findings and the type of publications produced. We conducted qualitative interviews with 20 researchers who had worked on some of these studies to explore how mixed methods research was practised, including how the team worked together.

질적 구성 요소와 양적 구성 요소 간에 공유된 사례는 21개의 혼합 방법 연구였습니다(한 인터뷰 참여자가 양적 구성 요소에서 두 개의 연구에 참여했기 때문입니다). 21개의 연구 각각을 행으로 연결하여 매트릭스를 만들었습니다. 행렬의 첫 번째 열에는 연구 식별이, 두 번째 열에는 해당 프로젝트에서 통합이 이루어졌는지 여부가, 세 번째 열에는 연구에서 나온 출판물의 통합 점수가 표시되었습니다. 그런 다음 가장 많이 통합된 사례를 먼저 표시하도록 행의 순서를 정했습니다. 이러한 행 순서를 통해 여러 행에서 패턴을 파악하는 데 도움이 되었습니다. 
The shared cases between the qualitative and quantitative components were 21 mixed methods studies (because one interviewee had worked on two studies in the quantitative component). A matrix was formed with each of the 21 studies as a row. The first column of the matrix contained the study identification, the second column indicated whether integration had occurred in that project, and the third column the score for integration of publications emerging from the study. The rows were then ordered to show the most integrated cases first. This ordering of rows helped us to see patterns across rows.

다음 열은 해당 프로젝트의 연구자와의 질적 인터뷰를 통해 얻은 주제였습니다. 예를 들어, 첫 번째 주제는 팀 내 질적 연구에 대한 전문성과 인터뷰 대상자가 이를 연구에 적절하다고 보고했는지에 관한 것이었습니다. 그런 다음 질적 분석의 맥락에서 매트릭스를 사용하여 통합에 영향을 미치는 문제를 탐색했습니다. 특히 질적 분석에서 부정적인 사례(분석 대상자가 분석이 도출한 결론에 맞지 않는 경우)를 식별하여 이해를 돕는 데 도움이 되었습니다. 인터뷰 참여자들은 혼합 방법 연구에 숙련된 질적 연구자가 있어야 질적 요소가 잘 드러난다고 말했지만, 두 사례에서는 이것이 필요하지도 충분하지도 않다고 답했습니다. 이에 따라 혼합 방법 연구에서 결과물을 생성하고 통합된 결과물을 생성하는 데 도움이 되는 연구팀의 다른 요소를 탐색하게 되었습니다. 
The next columns were themes from the qualitative interview with a researcher from that project. For example, the first theme was about the expertise in qualitative research within the team and whether the interviewee reported this as adequate for the study. The matrix was then used in the context of the qualitative analysis to explore the issues that affected integration. In particular, it helped to identify negative cases (when someone in the analysis doesn’t fit with the conclusions the analysis is coming to) within the qualitative analysis to facilitate understanding. Interviewees reported the need for experienced qualitative researchers on mixed methods studies to ensure that the qualitative component was published, yet two cases showed that this was neither necessary nor sufficient. This pushed us to explore other factors in a research team that helped generate outputs, and integrated outputs, from a mixed methods study.

질적 연구의 주제는 정량적 데이터로 코딩할 수 있을 정도로 요약할 수 있습니다. 매트릭스(표⇑)에서 인터뷰 대상자의 팀 내 질적 전문성의 적절성에 대한 인식은 적절함=1 또는 적절하지 않음=2로 코딩될 수 있습니다. 이를 정성적 데이터의 '정량화'23라고 하며, 코딩된 데이터는 정량적 요소의 데이터로 분석할 수 있습니다. 이 기법은 무작위 대조 임상시험에서 정량적 측정을 통해 평가한 건강 개선도와 심층 인터뷰를 통해 평가한 건강 개선도 간의 차이를 파악하기 위해 의료 연구에서 매우 효과적으로 사용되었습니다.24 
Themes from a qualitative study can be summarised to the point where they are coded into quantitative data. In the matrix (table), the interviewee’s perception of the adequacy of qualitative expertise on the team could have been coded as adequate=1 or not=2. This is called “quantitising” of qualitative data23; coded data can then be analysed with data from the quantitative component. This technique has been used to great effect in healthcare research to identify the discrepancy between health improvement assessed using quantitative measures and with in-depth interviews in a randomised controlled trial.24

결론
Conclusion

연구자들이 연구의 질적 요소와 양적 요소의 데이터를 통합하여 무엇을 배울 수 있는지 탐구할 수 있기를 바라며 혼합 방법 연구에 통합할 수 있는 세 가지 기법을 제시했습니다. 이러한 기법을 사용하면 연구자가 "무언가를 만들어냈다"는 느낌을 갖지 않고 통합 과정에 신뢰성을 부여할 수 있습니다. 또한 연구자가 통합에 대한 접근 방식을 설명하도록 장려하여 투명성을 확보하고 이러한 기법을 개발, 비판 및 개선하는 데 도움이 될 수 있습니다. 가장 중요한 것은 연구자들이 연구를 통해 더 많은 이해를 이끌어내는 데 도움이 될 수 있다는 점입니다. 
We have presented three techniques for integration in mixed methods research in the hope that they will inspire researchers to explore what can be learnt from bringing together data from the qualitative and quantitative components of their studies. Using these techniques may give the process of integration credibility rather than leaving researchers feeling that they have “made things up.” It may also encourage researchers to describe their approaches to integration, allowing them to be transparent and helping them to develop, critique, and improve on these techniques. Most importantly, we believe it may help researchers to generate further understanding from their research.

통합이 문제가 없는 것처럼 제시했지만, 실제로는 그렇지 않습니다. 대규모 연구팀보다는 1인 연구자가 이러한 기법을 사용하는 것이 더 쉬울 수 있습니다. 대규모 팀은 누가 통합을 책임지고 누가 프로세스에 참여할 것인지 고려하면서 팀 역학 관계에 주의를 기울여야 합니다. 또한, 통합에 대한 접근 방식을 형성할 수 있는 다양한 철학적 신념에 주의를 기울이기보다는 기술적인 입장을 취했습니다. 이러한 기법은 일부 혼합 방법 연구자들이 채택하는 실용주의적 또는 미묘한 현실주의적 입장의 맥락에서 작동할 수 있다고 생각합니다.25 마지막으로, 이러한 기법은 통합을 위한 보조 수단이며 전문성과 함께 적용될 때만 유용하다는 점을 기억하는 것이 중요합니다. 
We have presented integration as unproblematic, but it is not. It may be easier for single researchers to use these techniques than a large research team. Large teams will need to pay attention to team dynamics, considering who will take responsibility for integration and who will be taking part in the process. In addition, we have taken a technical stance here rather than paying attention to different philosophical beliefs that may shape approaches to integration. We consider that these techniques would work in the context of a pragmatic or subtle realist stance adopted by some mixed methods researchers.25 Finally, it is important to remember that these techniques are aids to integration and are helpful only when applied with expertise.

 


BMJ. 2010 Sep 17;341:c4587. doi: 10.1136/bmj.c4587.

Three techniques for integrating data in mixed methods studies

Affiliations collapse

1Medical Care Research Unit, School of Health and Related Research, University of Sheffield, Sheffield S1 4DA, UK. a.ocathain@sheffield.ac.uk

PMID: 20851841

DOI: 10.1136/bmj.c4587

왜 개방형 설문 질문이 강건한 질적 인사이트를 지지하기 어려운가(Acad Med, 2018)
Why Open-Ended Survey Questions Are Unlikely to Support Rigorous Qualitative Insights
Kori A. LaDonna, PhD, Taryn Taylor, MD, PhD, FRCPC, and Lorelei Lingard, PhD

보건 전문직 교육 연구자들은 이 분야의 복잡한 문제를 탐구하기 위해 양적 연구 방법과 질적 연구 방법의 조합에 점점 더 의존하고 있습니다. 이러한 발전은 중요하고 필요하지만, 새로운 방법론적 과제를 야기하고 있습니다. 연구자들은 하나의 접근 방식에 수반되는 엄격성의 원칙뿐만 아니라 여러 접근 방식의 상호 보완성 또는 비호환성을 고려해야 합니다.1 물론 혼합 방법 연구의 경우처럼 생산적인 효과를 위해 전략적으로 방법을 통합할 수도 있지만,2 연구 방법들이 무분별하게 결합될 경우 연구가 제공할 수 있는 인사이트의 질에 부정적인 영향을 미칠 수 있습니다. 
Health professions education researchers are increasingly relying on a combination of quantitative and qualitative research methods to explore complex questions in the field. Although this development is important and necessary, it has created new methodological challenges. Researchers must consider not only the principles of rigor attendant on one approach but also the complementarity or incompatibility of multiple approaches.1 Certainly, methods can be integrated strategically to productive effect, as in the case of mixed-methods research,2 but they can also be combined blithely, with negative implications for the quality of the insights the research can provide.

문제가 될 수 있는 연구 방법 결합의 일반적인 예로는 '정성적' 질문의 하위 집합을 포함하는 정량적 설문조사 또는 측정 도구가 있습니다. 이는 종종 폐쇄형(리커트형 또는 강제 선택형) 항목에 몇 개의 개방형 질문이 뒤따르는 형태이거나, 의학교육 평가에서 교사나 학습자의 성과에 대한 서술형 피드백을 위한 자유 텍스트 필드의 형태를 취합니다. 자유 텍스트 응답에 대한 분석은 종종 "질적" 연구로 제시됩니다. 이 초청 논평에서는 이러한 응답 분석이 엄격한 질적 연구의 기준을 충족하는 경우가 드문 이유를 설명합니다. 
One common example of combining research methods that can be problematic is the quantitative survey or measurement instrument that includes a subset of “qualitative” questions. Often this takes the form of closed-ended (Likert-type or forced-choice) items followed by a few open-ended questions or, in medical education assessment, free-text fields for narrative feedback to teachers or learners about their performance. Analysis of the free-text responses is frequently presented as “qualitative” research. In this Invited Commentary, we explain why the analysis of such responses rarely meets the bar for rigorous qualitative work.

엄격함의 기준은 무엇인가요?
What Is the Bar for Rigor?

질적 연구의 목적은 "사람들이 자신의 경험을 어떻게 해석하는지, 자신의 세계를 어떻게 구성하는지, 자신의 경험에 어떤 의미를 부여하는지"를 이해하는 것입니다.3 이를 위해 질적 연구자는 동료 디브리핑, 문헌 참조, '구성원 확인'4 또는 초기 분석 인사이트를 구체화하기 위한 추가 데이터 수집을 통해 여러 차례의 데이터 코딩을 수행하는 반복적이고 시간이 많이 소요되는 프로세스에 참여합니다.3,5,6 이 프로세스의 엄격성을 평가하는 방법은 여러 가지가 있지만,7-10 트레이시의 8가지 "빅 텐트" 기준11은 품질에 대한 우리의 가정을 구체화합니다: 즉, 질적 연구는 우수성의 기준을 충족하기 위해 다음을 갖추어야 한다.

  • (1) 가치 있는 주제를 탐구하고,
  • (2) 엄격함을 입증하고,
  • (3) 성실하고, (4) 신뢰할 수 있고, (5) 윤리적이어야 하며,
  • (6) 청중의 공감을 얻고,
  • (7) 중요한 공헌을 하고,
  • (8) 의미 있는 일관성을 달성한다.

이러한 기준을 충족하려면 연구 질문과 연구 결과가 모두 시의적절하고 관련성이 있어야 하며, 연구자가 연구 목적에 부합할 뿐만 아니라 풍부하고 적절한 데이터를 생성하는 절차를 선택하고, 반성성을 고려하며,12 "문헌, 연구 질문/초점, 연구 결과 및 해석을 서로 의미 있게 상호 연결"11해야 합니다.
The purpose of qualitative research is to understand “how people interpret their experiences, how they construct their worlds, and what meaning they attribute to their experiences.”3 To do this, qualitative researchers engage in an iterative, time-intensive process that involves multiple rounds of data coding punctuated by peer debriefing, consultation with the literature, and additional data collection either to “member check”4 or to flesh out early analytical insights.3,5,6 While there are multiple ways to assess the rigor of this process,7–10 Tracy’s eight “big tent” criteria11 shape our assumptions about quality: That is, to meet the bar for excellence, qualitative research must

  • (1) explore a worthy topic;
  • (2) demonstrate rigor;
  • be (3) sincere, (4) credible, and (5) ethical;
  • (6) resonate with an audience;
  • (7) make a significant contribution; and
  • (8) achieve meaningful coherence.

Meeting these criteria requires that both the research question and its findings be timely and relevant, and that researchers choose procedures that not only fit the research purpose but also produce rich and appropriate data, attend to reflexivity,12 and “meaningfully interconnect literature, research questions/foci, findings, and interpretations with each other.”11

자유 텍스트 응답에 대한 '정성적' 분석의 문제점은 무엇인가요?
What Is the Matter With a “Qualitative” Analysis of Free-Text Responses?

설문조사 또는 평가 항목에 대한 자유 텍스트 응답은 진정성, 신뢰성, 공감을 얻거나 실질적인 기여를 할 수 있을 만큼 풍부한 데이터를 생성하는 경우가 드뭅니다.11 데이터의 풍부함에는 아래의 것 등이 포함된다고 다양하게 설명되어 왔습니다.

  • 사회 세계의 특수성에 대한 설명6,
  • 참여자의 감정과 일반적으로 접근하기 어려운 생각의 공개5,
  • 맥락, 감정, 사회적 관계를 환기시키는 "무성한" 또는 "두꺼운" 설명13-15,
  • 소리, 제스처, 동영상 등 다양한 형식과 표현의 조합

16 요컨대, 데이터가 "풍부"하려면 맥락, 개인적인 의미, 정서적, 사회적 뉘앙스, 세부적인 층위를 갖추어야 합니다. 
Free-text responses to survey or assessment items rarely produce data rich enough either to achieve sincerity, credibility, and resonance or to make a substantial contribution.11 Data richness has been variously described as involving

  • descriptions of the particularities of the social world6;
  • disclosure of participants’ feelings and commonly inaccessible thoughts5;
  • “lush” or “thick” descriptions that evoke context, emotion, and social relationships13–15; and
  • various formats and combinations of representation such as sounds, gestures, or videos.16 

In short, for data to be “rich,” they must have context, personal meaning, emotional and social nuances, and layers of detail.

종이 설문조사 도구에서 자유 텍스트 응답을 위한 공간은 몇 인치 정도이며, 전자 또는 온라인 도구에서는 제한된 텍스트 필드인 경우가 많습니다. 경험상 보건 전문직 교사, 학생, 실무자는 일반적으로 할당된 공간에 충분한 서술형 피드백을 제공하지 않습니다. 따라서 몇 문장 이하로 구성된 데이터는 "문맥에 대한 주의와 ... 개념적 풍부함"이 부족한 경우가 많습니다.17 이러한 상황에서는 설문조사 완료 횟수와 무관하게 몇 문장으로 구성된 500개의 응답이 적절한 표본이 될 수 있지만, 특히 질문과 응답이 연구 목표에 대한 부가적인 추가 사항인 경우 반드시 그렇게 되지 않을 수도 있습니다. 따라서 자유 텍스트 응답을 분석하면 연구자가 사전 이해를 얻고 콘텐츠 영역을 스케치하는 데 도움이 될 수 있지만, 일반적으로 질적 연구의 핵심인 "어떻게?" 및 "왜?"라는 질문에는 도달할 수 없습니다. 
The space for free-text responses on paper survey instruments tends to be a few inches; on electronic or online instruments, it is often a restricted text field. In our experience, health professions teachers, students, and practitioners do not typically provide copious narrative feedback in the allotted space. In turn, data consisting of a few sentences (or less) often lack “attention to context and … conceptual richness.”17 In this situation, the number of surveys completed is irrelevant; 500 responses of a few phrases each can constitute an appropriate sample but may not necessarily do so, particularly if the questions—and responses—are tangential add-ons to the research aims. Therefore, while analysis of free-text responses can generate preliminary understanding and help researchers begin to sketch content areas, it usually cannot get at the “how?” and “why?” questions that are the core business of qualitative research.

또한 자유 텍스트 응답은 엄격한 질적 절차를 통해 분석되는 경우가 드뭅니다. 대신, 특히 키워드의 빈도에 중점을 두는 경우 분석이 정성적이기보다는 정량적으로 보일 수 있습니다. 그렇다고 반복되는 단어를 세는 것이 잘못되었다는 것이 아니라, 종종 불충분할 수 있다는 뜻입니다. 자유 텍스트 응답에 대한 강력한 질적 분석(내용,18,19 주제,20 또는 담론적 또는 언어적 절차21에 따른 분석)은 단순히 개수를 세는 것 이상의 역할을 해야 합니다. 그것은 탐구 중인 사회 현상에 대한 우리의 이해를 풍부하게 해야 합니다.  
Additionally, free-text responses are rarely analyzed using rigorous qualitative procedures. Instead, the analysis may appear more quantitative than qualitative, particularly if the primary focus is frequency of keywords. That is not to say that counting recurring words is wrong but, rather, that it will often be insufficient. A robust qualitative analysis of free-text responses—whether it follows content,18,19 thematic,20 or discursive or linguistic procedures21—must do more than count. It must enrich our understanding of the social phenomena being explored.

이러한 이유로, 자유 텍스트 질문에 대한 응답은 정성적 데이터에 요구되는 풍부함의 기준을 거의 충족하지 못하며, 따라서 이러한 응답에 대한 분석은 강력하고 해석 가능한 독립적인 인사이트를 생성하지 못할 위험이 있다고 주장합니다. 따라서 연구자들은 이러한 분석이 그 자체로 발표할 가치가 있는지에 대해 다시 한 번 생각해 볼 것을 권고합니다. 
For these reasons, we contend that responses to free-text questions will rarely meet the standard for richness required of qualitative data, and that the analysis of these responses, therefore, risks falling short of producing robust, interpretive, stand-alone insights. We caution researchers to think twice about whether these analyses are worthy of publication in their own right.

해결책은 무엇인가요?
What Is the Solution?

물론 예외도 있습니다. 즉, 자유 텍스트 응답 데이터가 "새롭거나 독특하거나 희귀"하고 특정 선험적 연구 질문에 답하기에 적합한 경우 가치 있는 기여를 할 수 있습니다.11 예를 들어, 의학교육 평가 도구의 자유 텍스트 응답을 기반으로 한 두 가지 연구가 엄격하고 독립적인 질적 연구의 기준을 충족한다고 생각됩니다.

  • Myers 등22 은 주제별 분석 및 일치도 소프트웨어를 사용하여 임상 교사에 대한 레지던트의 자유 텍스트 코멘트가 포함된 임상 교육 평가의 패턴을 설명했습니다. 연구 결과 중에는 교수진의 '개선 영역'에 대한 레지던트의 설명이 교수진의 교수 행동보다 레지던트의 학습 요구에 대해 더 많은 것을 말해줄 수 있다는 통찰이 있었습니다.
  • Ginsburg 등23은 레지던트 수련 평가 보고서에 대한 교수진의 서면 코멘트를 분석하여 코멘트의 주제를 설명하고 CanMEDS 역량 프레임워크와의 관계를 탐색했습니다. 그들은 교수진이 중요하게 생각하지만 CanMEDS 프레임워크에는 나타나지 않는 역량을 제안하는 세 가지 반복되는 주제를 서면 의견에서 발견했습니다. 

There are, of course, exceptions. That is, valuable contributions can be made if free-text response data are “new, unique, or rare” and appropriate for answering a specific, a priori research question.11 To illustrate, consider two studies based on free-text comments in medical education assessment instruments that we think meet the bar for rigorous, stand-alone qualitative research.

  • Myers et al22 used thematic analysis and concordance software to describe the patterns in clinical teaching assessments containing residents’ free-text comments about their clinical teachers. Among their findings was the insight that residents’ descriptions of “areas of improvement” for faculty may say more about resident learning needs than about faculty teaching behaviors.
  • Ginsburg et al23 analyzed written comments by faculty on resident in-training evaluation reports and both described themes in the comments and explored their relationship with the CanMEDS competency framework. They discovered three recurring themes in the written comments that suggested competencies valued by faculty but not represented in the CanMEDS framework.

중요한 점은 이 두 사례 모두에서 자유 텍스트 응답 분석이 대규모 정량적 프로젝트에 추가되는 것이 아니라 연구의 중심이었으며, 결과적으로 이러한 데이터는 연구 질문에 답하기 위해 의도적으로 선택되었다는 점입니다. 인터뷰나 참가자 관찰과 같은 추가 데이터가 있었더라면 저자들의 연구 결과를 개선할 수 있었겠지만, 자유 텍스트 응답이 연구 질문에 적절했습니다. 마지막으로, 두 저자 그룹 모두 기존 문헌 및 개념적 프레임워크와 함께 데이터를 분석하고 제시함으로써 엄밀성을 확보했습니다. 따라서 데이터 자체는 내러티브로서 '풍부'하지는 않았지만, 그럼에도 불구하고 분석은 의미 있는 질적 인사이트를 도출할 수 있었습니다.
Importantly, in both of these examples the analysis of the free-text responses was the central focus of the study, not an add-on to a larger, quantitative project; as a consequence, these data were purposefully selected to answer the research question. Although additional data, such as interviews or participant observations, might have enhanced the authors’ findings, the free-text responses were appropriate for their inquiries. Finally, both groups of authors ensured rigor by analyzing and presenting the data in tandem with existing literature and conceptual frameworks. Therefore, although the data themselves were not “rich” as narratives, the analysis nevertheless was capable of yielding meaningful qualitative insights.

연구자들이 개방형 설문조사 질문을 피해야 한다고 제안하는 것이 아니며, 그러한 질문이 제공하는 데이터를 무시해야 한다고 제안하는 것도 아닙니다. 오히려 설문조사 응답자의 서면 응답은 정량적 결과를 향상시키고, 설문조사 질문의 문제점을 부각시키며, 폐쇄형 질문에 대한 답변을 확증하고, 새로운 연구 방향을 제시할 수 있습니다.17 또한 평가 도구의 서술형 응답은 비록 축약되어 있지만 특정 맥락에서 서면 피드백의 본질과 의미에 대한 중요한 질문에 답할 수 있는 리소스를 제공할 수 있습니다. 
We are not suggesting that researchers should avoid open-ended survey questions, nor are we suggesting that researchers should ignore the data provided by such questions. On the contrary, survey respondents’ written responses can enhance quantitative findings, highlight problems with survey questions, corroborate answers to closed-ended questions, and inspire new avenues for research.17 And narrative responses on assessment instruments, albeit abbreviated, can provide a resource for answering important questions about the nature and meaning of written feedback in specific contexts.

그러나 Silverman24가 주장했듯이 "질적 연구는 단순히 주어진 연구 문제에 끼워 맞출 수 있는 일련의 기술이 아닙니다." 간단한 자유 텍스트 응답을 적절하게 처리하기 위해 세 가지 제안을 제공합니다.

  • 첫째, 개방형 질문이 몇 개 포함된 설문조사 도구의 경우, 연구자는 이러한 데이터와 그 분석을 사후에 독립적으로 수행되는 질적 연구의 일부가 아니라 1차 설문조사 연구의 보조 분석으로 선험적으로 개념화해야 합니다.
  • 둘째, 많은 평가 도구에서 볼 수 있는 것과 같이 자유 텍스트 항목에 대한 간단한 응답에 의도적으로 초점을 맞춘 연구의 경우, 연구자는 연구 질문이 집중적이고 적절한지 확인해야 하며 탐구 중인 사회 현상에 대한 강력한 통찰력을 제공하는 분석 절차에 참여해야 합니다.
  • 마지막으로, 엄밀성을 보장하기 위해 연구 설계를 지원하고 분석이 진행되는 동안 지침을 제공할 수 있는 숙련된 질적 연구자와 상담하는 것이 좋습니다. 

However, as Silverman24 has argued, “qualitative research is not simply a set of techniques to be slotted into any given research problem.” To treat brief free-text responses appropriately, we offer three suggestions. First, in the case of a survey instrument that includes a few open-ended questions, researchers should conceptualize these data and their analysis a priori as an adjunct analysis to the primary survey research, not as a post hoc stand-alone piece of qualitative scholarship. Second, in the case of a study focused purposefully on brief responses to free-text items such as those found in many assessment instruments, researchers should ensure that the research question is focused and appropriate, and they should engage in analytical procedures that offer robust insights into the social phenomena being explored. Finally, to help ensure rigor, we suggest consulting with an experienced qualitative researcher who can both assist with study design and provide guidance as the analysis unfolds.

 


Acad Med. 2018 Mar;93(3):347-349. doi: 10.1097/ACM.0000000000002088.

Why Open-Ended Survey Questions Are Unlikely to Support Rigorous Qualitative Insights

Affiliations collapse

Affiliation

1K.A. LaDonna is assistant professor, Department of Innovation in Medical Education and Department of Medicine, University of Ottawa, Ottawa, Ontario, Canada; ORCID: http://orcid.org/0000-0003-4738-0146. T. Taylor is assistant professor, Department of Obstetrics and Gynaecology, and scientist, Centre for Education Research and Innovation, Schulich School of Medicine and Dentistry, Western University, London, Ontario, Canada. L. Lingard is professor, Department of Medicine and Faculty of Education, and founding director and senior scientist, Centre for Education Research and Innovation, Schulich School of Medicine and Dentistry, Western University, London, Ontario, Canada.

PMID: 29215376

DOI: 10.1097/ACM.0000000000002088

Abstract

Health professions education researchers are increasingly relying on a combination of quantitative and qualitative research methods to explore complex questions in the field. This important and necessary development, however, creates new methodological challenges that can affect both the rigor of the research process and the quality of the findings. One example is "qualitatively" analyzing free-text responses to survey or assessment instrument questions. In this Invited Commentary, the authors explain why analysis of such responses rarely meets the bar for rigorous qualitative research. While the authors do not discount the potential for free-text responses to enhance quantitative findings or to inspire new research questions, they caution that these responses rarely produce data rich enough to generate robust, stand-alone insights. The authors consider exemplars from health professions education research and propose strategies for treating free-text responses appropriately.

교육자의 블루프린트: 설문 시행의 how-to 가이드(AEM Educ Train. 2023)
Educator's blueprint: A how-to guide on survey administration
Kathleen Y. Ogle MD1 | Jeffery Hill MD, MEd2 | Sally A. Santen MD, PhD2,3 | Michael Gottlieb MD4 | Anthony R. Artino Jr. PhD1 

서론
INTRODUCTION

설문조사 기반 의학교육 연구의 복잡성을 고려할 때, 이 시리즈의 의도는 학술 응급의학 내에서 설문조사 연구를 수행하는 과정을 단순화하는 것이었습니다.1, 2 우리의 목표는 설문조사 방법론에 대한 접근 방식을 개선하는 것이었으며, 이에 따라 의학교육 연구자들을 위한 지침으로 일련의 모범 사례 기사를 개발하고자 했습니다. 다른 논문에서는 설문조사 관리에 대해 간략하게 다루었지만, 본 논문에서는 각 유형의 관리 옵션의 문제점과 이점을 자세히 살펴봄으로써 다른 접근 방식을 제시합니다.3, 4 추적, 개인화, 설문조사 기간, 인센티브 사용, 응답자 참여와 관련된 이점과 과제에 대해 자세히 논의합니다. 
Given the complexity of survey-based medical education research, our intention with this series was to simplify the process of conducting survey research within academic emergency medicine.1, 2 Our goal was to improve the approach to survey methodology; as such, we sought to develop a series of best practices articles as a guide for medical education researchers. While other papers have briefly touched on survey administration, our paper offers a different approach, delving further into the challenges and benefits of each type of administration option.3, 4 We further discuss the benefits and challenges with respect to tracking, personalization, survey length, use of incentives, and engaging with respondents.

대상 모집단 샘플링
SAMPLING THE TARGET POPULATION

설문조사 관리 및 전달 방법을 고려할 때 연구자는 먼저 대상 모집단과 샘플링 프레임을 식별해야 합니다.5

  • 대상 모집단은 연구자가 궁극적으로 기술하고 잠재적으로 추론하고자 하는 개인 그룹입니다.
  • 반면에 샘플링 프레임은 표본을 추출하는 그룹 또는 목록입니다.

완벽한 세계에서는 샘플링 프레임이 대상 모집단과 완벽하게 일치하지만 실제로는 거의 발생하지 않습니다. 예를 들어, 대상 모집단은 ACGME 인증 프로그램의 모든 응급의학 핵심 교수진일 수 있습니다. 이 대상 집단을 샘플링하기 위해 연구자는 응급의학과 레지던트 디렉터 협의회(CORD) 리스트서브를 사용할 수 있습니다. 모든 핵심 교수진이 리스트서브에 가입하지 않을 수 있으므로 이는 대상 집단에 대한 완벽한 근사치는 아니지만, 연구자는 리스트서브가 대상 집단에 근접한 근사치라고 합리적으로 주장할 수 있습니다. 
When considering survey administration and delivery methods, researchers must first identify their target population as well as their sampling frame.5 

  • The target population is the group of individuals the researcher ultimately aims to describe and potentially make inferences about.
  • The sampling frame, on the other hand, is the group or list from which the sample is drawn.

In a perfect world, the sampling frame would perfectly match the target population; but in practice, this seldom occurs. For example, the target population might be all the emergency medicine core faculty in ACGME-accredited programs. To sample this target population, the researcher might use the Council of Residency Directors in Emergency Medicine (CORD) listserv. This is not a perfect approximation of the target population, since all core faculty may not subscribe to the listserv; however, the researcher could make a reasoned argument that the listserv is a close approximation of the target population.

가장 적절한 대상 집단과 해당 샘플링 프레임을 결정하기 위해 연구자는 설문조사의 목적과 실용적인 문제를 모두 고려하여 대표성 있는 응답과 실현 가능성을 보장하기 위해 적절한 범위의 균형을 맞춰야 합니다. 또 다른 중요한 요소는 설문조사의 응답률입니다. 응답률은 잠재적 설문 응답자 중 완료된 설문조사에 응답한 비율 또는 백분율을 의미합니다. 다시 말해, 응답률은 설문조사에 응답한 개인 수를 전체 잠재 응답자 수로 나눈 비율입니다. 최종 응답률은 개방형 응답과 폐쇄형 응답의 수(즉, 응답자는 일반적으로 긴 개방형 항목을 작성하는 것을 좋아하지 않으므로 응답률이 떨어질 수 있음)를 비롯한 여러 가지 중요한 요소의 영향을 받을 수 있습니다.6, 7 응답률이 중요한 이유는 충분한 사람이 설문조사를 완료하지 않으면 해당 데이터가 전체 그룹의 태도, 의견, 신념 또는 행동을 대표하지 못할 수 있으므로(즉, 무응답 편향이 존재할 수 있음) 응답률이 중요해집니다. 따라서 대표성 있는 표본 추출은 의미 있는 추론을 할 수 있을 만큼 충분한 표본을 확보하는 데 달려 있으며, 응답률은 표본의 대표성을 파악하는 데 필요한 정보의 일부(전부는 아님)를 제공합니다. 
To determine the most appropriate target population and corresponding sampling frame, the researcher must consider both the objectives of the survey and practical issues to balance appropriate coverage to ensure representative responses and feasibility. Another important factor is the survey's response rate. Response rate refers to the fraction or percentage of potential survey respondents who return completed surveys. Stated another way, response rate is the ratio of the number of individuals who responded to a survey divided by the number of total potential respondents. The ultimate response rate can be affected by a number of important factors, including, among other things, the number of open-ended versus closed responses (i.e., respondents generally do not like completing long, open-ended items, and so response rates can suffer).6, 7 Response rates are important because if a survey is not completed by enough people, then that data may not be representative of the attitudes, opinions, beliefs, or behaviors of the entire group (i.e., nonresponse bias may exist). Therefore, representative sampling depends on having a large enough sample to make meaningful inferences, and the response rate provides some (but not all) of the information needed to know how representative the sample is likely to be.

일반적으로 연구자는 연구의 상황적 한계(예: 대상 인구의 전체 규모 및 연구의 재정적 제약)를 고려하여 가능한 한 가장 높은 응답률을 달성하는 것을 목표로 해야 합니다. 또한 일부 학술지에서는 최소 응답률을 요구한다는 사실을 알아두는 것이 중요합니다. 예를 들어, JAMA는 설문조사 연구에 "일반적으로 60% 이상의 충분한 응답률을 요구합니다."8 즉, 표본 규모에 관계없이(특히 응답률이 낮은 경우) 연구자는 웨이브 또는 후속 분석과 같은 기법을 사용하여 잠재적인 무응답 편향이 있는지 평가해야 합니다. 응답률과 무응답 편향에 대한 보다 자세한 설명은 AMEE 가이드 102번: 설문조사에서 응답률 향상 및 무응답 편향 평가.6을 참조하시기 바랍니다.
As a rule, researchers should aim to achieve the highest response rate possible, given their study's contextual limitations (e.g., the overall size of the target population and the study's financial constraints). In addition, it is important to know that some journals require a minimum response rate. For example, JAMA asks that survey studies “have sufficient response rates, generally ≥60%.”8 That said, regardless of the sample size (but especially when response rates are low), researchers should assess for potential nonresponse bias using techniques such as wave or follow-up analysis. For a more complete description of response rates and nonresponse bias, interested readers are directed to AMEE Guide No. 102: Improving Response Rates and Evaluating Nonresponse Bias in Surveys.6

설문조사 관리 매체
MEDIUM OF SURVEY ADMINISTRATION

대상 인구와 샘플링 프레임이 결정되면 연구자는 가능한 한 높은 응답률을 보장하기 위해 잠재적 응답자에게 설문조사를 시행하는 가장 좋은 방법을 고려해야 합니다. 이 결정에는 예산 제약과 기관의 자원도 고려해야 합니다. 설문조사를 관리하거나 배포하는 방법에는 대면 또는 우편을 통한 종이 설문조사, 이메일 또는 스마트폰(모바일 앱 또는 문자)을 통한 전자 설문조사, 대면 또는 가상 회의, 소셜 미디어 등 다양한 방법이 있습니다.5-7, 9, 10 궁극적으로 복합적인 접근 방식이 일반적으로 가장 높은 응답률을 제공합니다.11 이러한 다양한 관리 접근 방식의 장점, 문제점 및 기타 고려 사항은 아래에 설명되어 있습니다(이러한 요소에 대한 요약은 표 1 참조).

Once the target population and sampling frame have been determined, researchers should consider the best way or ways to administer the survey to potential respondents to ensure the highest possible response rate. This decision should also factor in budgetary constraints and institutional resources. There are multiple ways to administer or distribute a survey: paper surveys, in person or via postal mail; electronic surveys, by email or smartphone (mobile app or text); audience response systems, in-person or virtual meetings; and social media.5-7, 9, 10 Ultimately, a multimodal approach will typically yield the highest response rate.11 Some of the benefits, challenges, and other considerations with these various administration approaches are described below (see Table 1 for a summary of these components).

TABLE 1. Survey delivery tool.

Survey delivery mode Examples Benefits Drawbacks Potential solutions
Paper survey
In person In a classroom or conference 100% delivery to intended audience
Physical copy
Improved response rate if time allotted
Increased cost
Increased time investment
May not be delivered by PI (if there is a power differential)
Environmental impact
Query institutional resources earmarked for this purpose
Engage research assistants for survey delivery
Electronic survey
Web-based survey software Email delivery
QR code
Text message
Social media*
App based (respondents may need the app)
Low cost
Desktop, mobile device, or smartphone
Charts, images, graphs may be integrated
Allows for branching logic
Can be automated
May utilize listservs
Email fatigue
Possible technical issues for individuals who prefer paper
Easily missed
Include a prenotification
Personalize the invitation
Include survey in subject line of email
Audience response systems In a classroom or conference
In a live webinar
100% delivery to attendees Missed responses from those not in attendance Use a multimodal survey approach and send follow up survey to those not in attendance
  • Note: Adapted from Step 4: Survey Delivery.5

종이 설문조사
Hard-copy surveys

직접 대면하거나 우편으로 전달하는 종이 설문조사는 웹 기반 또는 다른 유형의 전자 설문조사에 비해 몇 가지 장점이 있습니다. 종이 설문조사는 응답자에게 촉각적 동기를 부여하여 응답률을 높일 수 있습니다.7 또한 대면 종이 설문조사를 통해 연구자는 비교적 단기간에 대규모 표본 프레임에 쉽게 도달할 수 있습니다(예: 교실에서 학생을 대상으로 대면 설문조사를 실시하는 경우). 또한 종이 설문조사는 응답자가 전화 설문조사에서 같은 질문을 받는 것과 달리 질문한 내용을 시각적으로 더 잘 검토할 수 있습니다. 
Paper surveys, administered in person or less commonly delivered by postal mail, have several advantages over web-based or other types of electronic surveys. Hard-copy surveys provide respondents with a tactile motivator, which may increase response rates.7 In-person paper surveys can also allow researchers to easily reach a large sampling frame in a relatively short period of time (e.g., an in-person survey delivered to a captive audience of students in a classroom). Moreover, a paper survey may allow respondents to better review a visual representation of queried content, as opposed to being asked such questions on a phone survey.

대면 또는 우편 종이 설문조사 사용 시 한 가지 문제점은 응답자가 기밀 유지에 대해 우려하여 민감한 질문에 응답하거나 정확한 답변을 제공하지 않을 수 있다는 것입니다.5 또한 대면 또는 우편 종이 설문조사는 설문지를 인쇄하고 우편으로 발송한 다음 통계 소프트웨어 또는 스프레드시트에 데이터를 입력하는 데 드는 간접 비용이 더 많이 들 수 있습니다. 스캔 가능한 양식과 함께 종이 설문조사를 사용하면 데이터 입력 비용을 줄일 수 있지만, 응답자 입장에서는 '버블 시트'에 응답하는 데 약간의 복잡성이 추가될 수 있습니다. 
One challenge with using in-person or mailed paper surveys is that respondents may be concerned about confidentiality and thus less likely to respond or provide accurate responses to sensitive questions.5 Further, in-person or mailed paper surveys can have higher overhead costs associated with printing the surveys, mailing them, and then entering the data into statistical software or a spreadsheet. Using paper surveys with scannable forms can reduce data entry expense but can also add a small layer of complexity in answering on a “bubble sheet” (from the respondent's perspective).

전자 설문조사
Electronic surveys

전자 설문조사 사용을 고려하는 경우, 연구자가 선택할 수 있는 설문조사 플랫폼은 다양합니다(예: SurveyMonkey, Google 설문조사, Qualtrics, REDCap). 연구자는 이러한 리소스를 사용하기 위해 독립적으로 자금을 투자하기 전에 기관이 후원하는 웹 기반 옵션을 탐색할 수 있습니다(구체적인 예는 표 2에서 확인할 수 있습니다). 전자적 관리 방식에는 플랫폼에 통합된 몇 가지 장점과 기능이 있습니다. 
If considering the use of electronic surveys, researchers have a multitude of survey platforms to choose from (e.g., SurveyMonkey, Google Forms, Qualtrics, REDCap). Researchers might explore institution-sponsored, web-based options before independently investing funds in the use of these resources (specific examples can be found in Table 2). Electronic modes of administration have several benefits and features incorporated into the platform.

TABLE 2. Digital survey platforms.

Service Benefits Drawbacks
Qualtrics
  • Flexible design options
  • Export to various statistic programs
  • May be available to faculty through institutional license
  • Generally needs an institutional license as the cost may be prohibitive for individuals
  • Cost is dependent on desired features
SurveyMonkey
  • May be available to faculty through institutional license
  • Free for surveys with <10 items
  • Visual display is limited
  • Paid subscription required to export data for analysis
  • For >10 survey items, packages variable
Google Forms
  • Free and easy to use
  • Survey output may not track column order in Google Sheets
  • Limited options for display and branching logic
LimeSurvey
  • Free
  • Need knowledge of computer programming
REDCap
  • May be available to faculty through institutional license
  • More complex to learn
  • Limited ability to format survey items
  • Note: Adapted from Step 4: Survey Delivery.5
 

이러한 각 도구에는 다양한 전달 옵션과 기타 고려 사항이 있습니다:

Each of these tools has various delivery options and other considerations:
  • 전자 설문조사는 이메일을 통해 각 잠재 응답자에게 직접 전송할 수 있습니다. 개별 이메일 주소로 설문조사를 보내면 연구자가 표본을 적절하게 타겟팅하고 응답률을 모니터링할 수 있습니다.5
    Electronic surveys can be sent to each potential respondent directly via email. Sending the survey to individual email addresses allows the researcher to appropriately target the sample and monitor response rate.5
  • 현재 설문조사 기반 연구에 사용되는 대부분의 플랫폼에는 일회용 링크가 생성될 수 있는 보안 옵션이 있습니다. 이렇게 하려면 개인화, 이메일을 포함한 연락처 목록 생성, 잠재적으로 식별 가능한 정보 또는 IP 주소 수집이 필요합니다. 플랫폼에 따라 다운로드한 설문조사 결과는 기밀 또는 익명일 수 있으므로, 예를 들어 약속된 '익명 설문조사'가 실제로 익명인지 확인하기 위해 선택한 플랫폼의 보안 기능을 검토하는 것이 중요합니다. 
    Most of the current platforms used for survey-based research have security options in which a single-use link may be generated. Doing so requires personalization, likely generation of a contact list including emails and collection of some potentially identifiable information or IP addresses. Depending on the platform, the downloaded survey results may be confidential or anonymous; therefore, it is important to review the security features of the chosen platform to ensure, for example, that a promised “anonymous survey” is in fact anonymous.
  • 전자 설문조사는 웹 세미나 채팅 또는 가상 미팅에 링크를 삽입하거나 슬라이드의 QR 코드로 전송할 수 있습니다. 그러나 가상 미팅이나 웹 세미나의 채팅 트래픽에 따라 설문조사 링크가 쉽게 놓치거나 무시될 수 있습니다. 또한 이 방식은 참석하지 않은 대상 집단에서 잠재적 응답자를 놓칠 수 있으며, 일부 잠재적 응답자는 QR코드 사용법에 어려움을 겪을 수 있습니다. 
    Electronic surveys can be sent as a link placed in a webinar chat or virtual meeting or presented as a QR code on a slide. Depending on the chat traffic in a virtual meeting or webinar, however, a survey link could be easily missed or ignored. This approach also misses potential respondents from the target population who are not in attendance, and some potential respondents may struggle with how to use a QR code.
  • 설문조사는 소셜 미디어나 여러 응답자에게 보내는 메시지의 하이퍼링크(예: 리스트서브)를 통해 광범위한 대상에게 배포할 수 있습니다.7, 9, 12 
    Surveys may be distributed to broad populations by social media or a hyperlink in a message to multiple respondents, i.e., via a listserv.7, 9, 12
  • 대면 또는 가상 강의실에서 사용되는 것과 같은 청중 응답 설문조사는 연구자가 고정된 청중으로부터 실시간 데이터를 얻을 수 있다는 이점이 있습니다. 또한 여러 시스템(예: PollEverywhere, Kahoot!, Socrative)을 통해 응답을 추적할 수 있으므로 연구자는 청중 개개인의 응답률을 실시간으로 정량화할 수 있습니다. 청중 응답 시스템은 방에 있는 사람(직접 또는 가상으로)만 참여할 수 있으므로 모집단을 부적절하게 제한할 수 있습니다. 
    Audience response surveys, like those used with in-person or virtual classrooms, have the benefit of allowing researchers to obtain real-time data from a captive audience. Several systems (e.g., PollEverywhere, Kahoot!, Socrative) can also track the responses, which can allow the researcher to quantify the response rate of the individuals present in the audience in real time. Audience response systems only allow those present in the room (either in person or virtually) to participate and may inappropriately limit the population.

전자 설문조사와 그 결과 보고에는 몇 가지 어려움과 특별한 고려사항이 있습니다.13 개별 이메일을 사용하는 경우, 연구자는 설문조사가 완전한 익명(즉, 개인화된 데이터가 수집되지 않음)이 아닌 기밀(즉, 비식별화) 설문조사인지 여부를 명시해야 합니다. Qualtrics, SurveyMonkey와 같은 대부분의 전자 설문조사 도구에는 다양한 유형의 기밀 또는 익명 데이터 수집을 허용하는 시스템 설정이 있습니다. 설문조사가 진정으로 익명인 경우(즉, 응답을 개인의 개인 정보와 연결할 방법이 없는 경우) 이를 명시적으로 명시해야 하기 때문에 이 구분이 중요합니다. 그러나 실제로는 설문조사 데이터를 다른 결과와 연결하기 위한 목적으로 개인 정보를 수집하는 경우가 많습니다(예: 의대생의 코스에 대한 의견을 코스 성적과 연결). 이러한 접근 방식은 응답하지 않은 응답자에게 다시 연락하거나 후속 조치를 취하는 데도 용이합니다.  
There are several challenges and special considerations with electronic surveys and in reporting of those results.13 If using individual emails, researchers should specify whether a survey is confidential (i.e., deidentified) as opposed to truly anonymous (i.e., no personalized data is collected). Most electronic survey tools, like Qualtrics and SurveyMonkey, have system settings that allow for various types of confidential or anonymous data collection. This distinction is key because if the survey is truly anonymous (i.e., there is no way to link responses to an individual's personal information), then this should be explicitly stated. In practice, however, personal information is often collected for the purpose of linking survey data to other outcomes (e.g., linking a medical student's opinions on a course to their course grades). Such an approach also facilitates recontact or follow-up for nonresponders.


소셜 미디어와 대규모 리스트서브를 통해 설문조사를 배포할 때 가장 큰 어려움 중 하나는 실제 표본 프레임이나 응답률을 추적할 수 없어 대표성이 제한되고 설문조사 결과를 게시하기 어려울 수 있다는 점입니다. 또한 이메일을 통해 배포되는 설문조사의 경우 분모가 불분명하기 때문에 응답률을 계산하기 어려울 수 있습니다. 어떤 연구자들은 이메일을 보낸 횟수를 계산하고, 어떤 연구자들은 이메일을 열어본 횟수를 계산하며, 또 다른 연구자들은 이메일에서 클릭한 링크 수를 분모로 계산합니다. 어떤 방법을 사용하든 연구자는 응답률과 설문조사 완료율을 계산한 방법을 정확히 설명하는 것이 중요합니다.14 
One of the major challenges of disseminating a survey by social media and large listservs is the inability to track the true sampling frame or response rate, which can limit representativeness and result in survey results that are difficult to publish. What is more, it can be difficult to calculate a response rate for surveys that are distributed via email because the denominator is sometimes unclear. Some researchers count emails sent, and others count emails opened, while still others count the number of links clicked in an email as the denominator. Regardless of the method used, it is important for researchers to describe exactly how they have calculated their response rate and surveys completed.14

또한 연구자는 샘플링 프레임에 속하지 않는 응답자의 응답을 샘플링하게 될 수도 있습니다. 따라서 이 매체가 특정 연구에 적합한 이유(예: 특수 집단에 대한 접근성)를 설명하고 응답자의 대표성을 적절히 확보하는 것이 중요합니다. 마찬가지로 리스트서버를 통해 이메일에 링크를 넣으면 특히 리스트서버가 오래된 주소로 채워진 경우 응답률을 파악하기 어렵습니다. 또한 리스트서브에는 의도한 표본에 포함되지 않은 개인이 포함될 수 있습니다(예: CORD 리스트서브에는 프로그램 디렉터만 있는 것이 아니라 그 이상의 사람들이 포함됨). 
Further, researchers may end up sampling responses from respondents who do not fall in their sampling frame. Therefore, it is important to demonstrate why this medium is appropriate for a specific study (e.g., access to special populations) and ensure adequate representativeness of the respondents. Similarly, placing a link in an email via listserv also makes it difficult to determine response rate, especially if the listserv is populated with outdated addresses. Additionally, the listserv may include individuals who are not part of the intended sample (e.g., the CORD listserv has more than just program directors).

참여자 참여에 영향을 미치는 요인
FACTORS IMPACTING PARTICIPANT ENGAGEMENT

위에서 설명한 바와 같이, 대부분의 연구자들은 무응답 편향을 줄이기 위해 높은 응답률을 얻기 위해 노력합니다. 따라서 연구자는 응답자의 동기를 부여하고 설문조사에 참여하도록 장려하는 전략을 사용할 수 있고 또 사용해야 합니다. 다음은 응답자의 동기를 강화하고 전반적인 응답률을 향상시키는 데 사용할 수 있는 몇 가지 전략입니다. 
As described above, most researchers strive to obtain a high response rate in an effort to reduce nonresponse bias. As such, researchers can and should use strategies to encourage respondent motivation and participation in the survey. The following are several strategies that can be used to bolster respondent motivation and improve overall response rates.

추적
Tracking

설문조사 전달 방법을 선택할 때 연구자는 수신 및 응답을 추적할 수 있는 기능을 고려해야 합니다. 이를 통해 연구팀은 응답하지 않은 참가자에게 리마인더를 보낼 수 있습니다. 대부분의 경우 설문조사 요청에 응답하는 대부분의 참가자는 참여 초대를 받은 후 처음 2주 이내에 응답한다는 점을 기억하는 것이 중요합니다.7, 9 
In selecting a survey delivery method, researchers should consider their ability to track receipt and responses. Doing so allows the research team to send reminders to nonresponding participants. It is important to remember that, in most cases, many participants who respond to a survey request will do so within the first 2 weeks of an invitation to participate.7, 9

개인화
Personalization

대화식 인사말을 사용하여 설문조사 초대를 개인화하면 응답자에게 긍정적인 동기 부여 효과를 줄 수 있으며, 특히 응답자가 아는 사람이 초대를 보낸 경우 더욱 그렇습니다. 경우에 따라서는 영향력이 있거나 기존 관계를 맺고 있는 사람이 수신 설문조사에 대한 사전 주석을 달면 긍정적인 영향을 미칠 수 있습니다. 설문조사가 연구에 사용되는 경우 이러한 접근 방식은 현지 기관 심의위원회의 검토가 필요합니다. 
Personalizing survey invitations using conversational salutations can have a positive motivational effect on respondents, particularly if the invitation also comes from an individual the respondent knows. In some cases, a prenotification of an incoming survey, delivered by a person who has either influence or an existing relationship, may have a positive impact. If the survey is being used for research, then such an approach will require review by the local institutional review board.

설문조사 길이
Survey length

설문조사 길이는 참여자의 참여를 결정하는 데 가장 큰 영향을 미치는 요소 중 하나입니다. 응답률을 높이는 방법에 대한 최근 메타분석에서 Edwards와 동료들은 짧은 설문조사를 사용할 때(긴 도구에 비해) 응답률이 거의 두 배나 높다는 사실을 발견했습니다.9 또한 설문조사 초대장에 "간단한" 또는 "짧은"과 같은 한정어를 제공하는 것이 설문조사에 질문 수를 명시하거나 설문조사 완료에 필요한 시간을 추정하는 것보다 더 도움이 될 수 있습니다.5-7, 17 
Survey length is one of the most influential factors in determining participant engagement. In a recent meta-analysis of methods to increase response rates, Edwards and colleagues found that responses were almost twice as likely to occur when shorter surveys were used (as compared to longer tools).9 In addition, providing a qualifier such as “brief” or “short” in the survey invitation may be more helpful than specifying the number of questions on the survey or estimating the amount of time required to complete the survey.5-7, 17

인센티브
Incentives

현금, 선물 또는 기프트 카드 형태의 인센티브는 연구자들에 의해 다양한 성공 사례와 함께 널리 사용되고 있습니다. 에드워즈 등은 메타분석을 통해 금전적 인센티브를 사용할 경우 응답 확률이 두 배 이상 증가했으며, 이러한 인센티브가 응답에 조건이 없는 경우 그 확률이 다시 두 배 가까이 증가한다는 사실을 발견했습니다.15, 16, 18 즉, 가장 효과적인 인센티브는 조건이나 조건 없이 미리 제공되는 인센티브입니다. 이러한 무조건적인 접근 방식은 연구자와 응답자 사이에 "사회적 계약"을 맺는 효과를 가져옵니다. 즉, 연구자가 잠재적 응답자에게 아무런 조건 없이 돈을 주었기 때문에 응답자는 설문을 완료할 필요가 없더라도 이에 보답하고 설문을 완료해야 할 의무를 느낍니다.18, 19 금전적 인센티브(특히 모든 사람에게 조건 없이 선지급하는 인센티브)를 제공하는 것이 설문조사 완료를 요구하는 인센티브나 추첨 기반 인센티브(예: "참여하면 추첨에 응모하여 경품을 드립니다")보다 훨씬 효과적인 접근 방식인 경향이 있습니다. 
Incentives in the form of cash, a gift, or a gift card are widely used by researchers with varying success. In their meta-analysis, Edwards et al. found that the odds of response were more than doubled when a monetary incentive was used, and those odds nearly doubled again when such incentives were not conditional on response.15, 16, 18 In other words, the most effective incentives are those that are given up front with no conditions or strings attached. This unconditional approach has the effect of creating a “social contract” between the researcher and the respondent. That is, the researcher has given the potential respondent money with no conditions attached, and so the respondent feels obligated to return the favor and complete the survey, even though completion is not required.18, 19 Providing monetary incentives (and especially up-front incentives for everyone, with no conditions) tends to be a much more efficacious approach than incentives that require survey completion or lottery-based incentives (e.g., “if you participate, you will be entered into a lottery to potentially win a prize”).

참여자의 관심도
Participant interest

흥미로운 설문조사는 흥미롭지 않은 설문조사보다 높은 응답률을 보입니다. 실제로 에드워즈와 동료들15은 참가자의 흥미를 염두에 두고 설계된 설문조사의 응답률이 두 배 이상 높다는 사실을 발견했습니다.9 연구자는 잠재적 응답자의 흥미를 끌 수 있는 고품질 설문조사 도구를 만들어 이 결과를 활용할 수 있습니다. 또한 연구자는 광범위한 연구 활동에서 설문조사의 중요성을 명시적으로 언급하고 응답자에게 이 작업이 관심 있는 주제 영역과 어떻게 연결될 수 있는지 설명할 수 있습니다. 반면에 민감한 질문을 하는 설문조사는 응답자 익명성을 약속하더라도 응답 편향이 발생하고 응답률이 훨씬 낮은 경향이 있습니다.9
Interesting surveys garner higher response rates than uninteresting surveys. In fact, Edwards and colleagues15 found that surveys designed with the participant's interest in mind were more than twice as likely to be returned.9 Researchers can use this finding to their advantage by creating high-quality survey tools that are interesting to potential respondents. Researchers can also explicitly address the importance of the survey to their broader research efforts and tell respondents how this work might link to topic areas of interest to them. On the other hand, surveys that ask sensitive questions tend to create response bias and have much lower response rates, even when respondent anonymity is promised.9

커뮤니케이션 및 재연락 프로세스
COMMUNICATION AND RECONTACT PROCESSES

설문조사 관리와 관련하여 응답자와 소통할 때는 신중한 생각과 고려가 필요합니다. 처음부터 설문조사 초대장에는 설문조사와 그 목적에 대한 일관되고 직관적인 설명이 포함되어야 합니다. 연구자는 설문조사와 개별 참가자와의 관련성을 명확하게 설명해야 합니다(위에서 설명한 대로 참가자의 관심을 끌기 위해). 모든 응답자에게 가장 효과적인 특정 초대 시기는 없지만, 초기 초대와 후속 초대 시기를 달리하면varying 응답률 향상에 도움이 될 수 있습니다. 또한, 문헌에 따르면 전체 응답률을 높이려면 최소 3번의 시도(또는 리마인더)를 해야 한다고 합니다.4, 15, 16 Willis 등.20 또한 잠재적 응답자에게 3번 이상의 요청을 보낸 후 응답률이 크게 개선되지 않는 것으로 나타났습니다.15, 20, 21 
Communicating with respondents surrounding survey administration requires careful thought and consideration. From the outset, the invitation must have a coherent and straightforward description of the survey and its purpose. Researchers should articulate the relevance of the survey study to the individual participant (in the hopes of piquing their interest as discussed above). Although there is no specific invitation timing that tends to work best for all respondents, varying the time of delivery of initial and follow-up invitations may help to improve response rates. Moreover, the literature suggests that a minimum of three attempts (or reminders) should be made to improve the overall response rate.4, 15, 16 Willis et al.20 also found no significant improvement in response rates after more than three requests are sent to potential respondents.15, 20, 21

결론
CONCLUSIONS

연구자는 설문조사 관리에 영향을 미치는 요소를 고려해야 합니다. 이러한 요소에는 연구자의 대상 모집단과 표본 추출 프레임, 각각의 장점과 문제점을 고려하여 선택한 관리 방식, 응답자 참여에 영향을 미치는 요소, 마지막으로 커뮤니케이션 및 후속 조치 방식이 포함됩니다. 연구자가 연구 결과를 대상 집단에 적용하려면 샘플링 프레임이 해당 집단을 대표할 수 있어야 합니다. 또한 참여도와 의미 있는 응답을 높이려면 연구가 대상 집단과 관련이 있고 흥미로운 것이면 도움이 됩니다. 선택한 관리 모드에 관계없이 멀티모달 접근 방식이 응답률이 가장 높은 경우가 많으므로 권장됩니다. 또한 개인화, 인센티브 사용, 잠재적 응답자와의 빈번한 고품질 커뮤니케이션도 응답률을 향상시킬 수 있습니다. 결국, 연구자는 대상 집단에 대한 대표 데이터를 수집하기 위해 의도적으로 노력해야 하며, 의도한 추론을 뒷받침하는 응답을 얻기 위해 신중한 선택을 해야 합니다.  

Researchers should consider factors that influence survey administration. These factors include the researcher's target population and sampling frame; their selected modality for administration, taking into account the respective benefits and challenges of each; factors that influence respondent participation; and finally, modes of communication and follow-up. For researchers to apply their results to the target population, the sampling frame should be representative of that group. Further, to enhance engagement and meaningful responses, it is helpful if the research is relevant and interesting to the target population. Regardless of the chosen administration mode, a multimodal approach is recommended, as it often results in the highest response rates. In addition, personalization, the use of incentives, and frequent, high-quality communication with potential respondents can also improve response rates. In the end, researchers should be intentional about collecting representative data about their target population and make deliberate choices when it comes to garnering responses in support of the inferences they intend to make.

 


Abstract

In this paper, we take the lessons learned from designing a survey and collecting validity evidence and prepare to administer the survey for research. We focus specifically on how researchers can reach individuals in the target population, methods of contact and engagement, evidence-informed factors that enhance participation, and recommendations for follow-up with nonrespondents. We also discuss the challenges of survey administration and provide guidance for navigating low response rates. Surveys are a common tool used to evaluate educational initiatives and collect data for all types of research. However, many clinician educators conducting survey-based evaluation and research may struggle to efficiently administer their survey. As a result, they often struggle to obtain appropriate response rates and thus may have difficulty publishing their survey results. Previous papers in this series focused on the initial steps of survey development and validation, but it is equally important to understand how best to administer your survey to obtain meaningful responses from a representative sample.

교육자의 블루프린트: 설문 설계의 how-to 가이드 (AEM Educ Train. 2022)
Educator's blueprint: A how-to guide for survey design
Jeffery Hill MD MEd1 | Kathleen Ogle MD2 | Sally A. Santen MD, PhD1,3 | Michael Gottlieb MD4 | Anthony R. Artino Jr PhD2 

설문조사 배경
BACKGROUND

현대 사회는 설문조사로 가득합니다. 휴대폰의 팝업("이 앱을 어떻게 즐기고 계십니까?")부터 의료 서비스 제공자 방문 후의 Press Ganey 설문조사 또는 연구 프로젝트의 일부로 사용되는 설문조사에 이르기까지, 설문조사에 참여하지 않는 날은 상상하기 어렵습니다. 다른 평가 도구와 마찬가지로 설문조사는 고부담 환경과 저부담 환경 모두에서 사용할 수 있습니다. 연구비 지원 연구와 같이 위험도가 높은 환경에서 설문조사를 사용할 경우, 연구자는 설문조사 점수와 그 용도에 대한 신뢰성과 타당성 증거를 수집해야 하는 부담이 더 큽니다. 이 백서 시리즈에서는 주로 연구 목적으로 사용되는 설문조사에 초점을 맞추어 설문조사 개발 및 시행의 모범 사례에 대해 논의할 것입니다. 
The modern world is replete with surveys. From a pop-up on our phone (“How are you enjoying this app?”) to a Press Ganey survey after a visit to a health care provider or a survey used as part of a research project, it is difficult to imagine a day passing when you are not asked to complete a survey. Like any other assessment tool, surveys can be used in both high-stakes and low-stakes settings. When used in higher-stakes environments, such as a grant-funded research study, there is a greater burden on the researcher to ensure they have collected reliability and validity evidence for the survey scores and their intended use. In this series of papers, we will discuss the best practices in survey development and implementation, focusing primarily on surveys used for research purposes.

설문조사는 의학 교육에서 일반적으로 사용되지만, 단일 설문조사 설계 표준은 없습니다. 대신 설문조사 설계자는 수십 년에 걸친 경험적 증거에 기반한 증거에 기반한 모범 사례를 사용하여 설문조사를 설계해야 합니다. 또한, 경험적 증거가 제한적이거나 상충되는 부분이 많은 경우, 설계자는 이론적 지침을 적용하여 설문조사 설계 노력을 안내해야 합니다. 이 첫 번째 논문에서는 다음 사항을 논의합니다:

  • (1) 측정 도구로서의 설문조사 선택,
  • (2) 콘텐츠 개발에 대한 의도적인 접근 방식,
  • (3) 질문 구성 및 형식에 대한 증거에 기반한 접근 방식

Although surveys are commonly employed in medical education, there is no single survey design standard. Instead, survey designers must use evidence-informed best practices, which are based on decades of empirical evidence, to guide their efforts. Furthermore, in the many places where the empirical evidence is limited or conflicting, designers should apply theoretical guidance to guide their survey design efforts. In this first paper, we discuss:

  • (1) the selection of a survey as a measurement tool,
  • (2) an intentional approach to content development, and
  • (3) an evidence-informed approach to question formulation and formatting.

향후 백서에서는 신뢰성 및 타당성 증거 수집, 설문조사 관리, 보고 모범 사례에 대해 다룰 예정입니다. 
Future papers will cover gathering reliability and validity evidence, survey administration, and best practices for reporting.

설문조사가 적합한 도구인가요?
IS A SURVEY THE RIGHT TOOL?

교육자, 연구자 또는 프로그램 평가자가 가장 먼저 해야 할 가장 중요한 질문은 다음과 같습니다: "설문조사가 내가 관심 있는 변수를 측정하고 질문에 답하는 데 적합한 도구인가?"입니다. 대부분의 경우 이 질문에 대한 답은 "아니오"이며, 설계자는 관심 있는 결과를 다른 방법으로 측정하는 것이 가장 좋다는 것을 알게 될 수 있습니다. 예를 들어,

  • 짧은 시간 내에 제공되는 프로시져 교육 비디오의 효과를 평가하는 연구는 프로시져 효과의 객관적인 측정을 통해 가장 잘 수행될 수 있습니다.1
  • 또는 시뮬레이션 임상 환경에서 다양한 유형의 스트레스 요인을 조사하는 연구에서는 스트레스 요인에 대한 객관적인 생리적 반응을 평가하기 위해 심박수 변동성을 사용하고, 스트레스에 대한 교육생의 주관적인 인식을 평가하기 위해 설문조사 도구를 사용할 수 있습니다.2
  • 또한 질적 방법론은 의사의 수치심과 같이 잘 이해되지 않거나 제대로 정의되지 않은 개념을 심층적으로 탐구하는 데 이상적인 경우가 많습니다.3

궁극적으로 예비 설문조사 설계자는 설문조사를 연구 도구로 사용할 때의 강점과 한계를 신중하게 고려해야 합니다.  
For the educator, researcher, or program evaluator, the first and often most important question to ask is the following: “Is a survey the right tool to measure my variables of interest and answer my question?” In many cases, the answer to this question is “no,” and the designer may find that their outcomes of interest are best measured in other ways. For example,

  • a study evaluating the effectiveness of a short, just-in-time procedural education video is likely best accomplished through objective measures of procedural effectiveness.1 
  • Alternatively, a study examining different types of stressors in a simulated clinical environment may use heart rate variability to assess objective physiologic response to stressors and a survey instrument to assess trainees' subjective perceptions of stress.2 
  • Additionally, qualitative methodologies are often ideally suited to deeply explore poorly understood or poorly defined concepts, such as physician shame.3 

Ultimately, the prospective survey designer should carefully consider the strengths and limitations of using a survey as a research tool.

설문조사는 질문을 사용하여 인구의 일부 측면에 대한 통계 정보를 수집하는 설명적 도구입니다.4 설문조사는 관찰할 수 없는 인간 현상에 대한 데이터를 수집하는 데 가장 적합합니다. 여기에는 태도, 신념, 의견뿐만 아니라 측정할 수 없거나 측정하기 매우 어려운 행동 및 행위에 대한 보고도 포함될 수 있습니다.5 교육 방법이 정의된 교육 목표와 논리적으로 일치해야 하는 교육과정 개발 과정과 유사하게, 설문조사 사용은 질문하는 기본 질문과 연구하는 변수 또는 결과에 논리적으로 일치해야 합니다.6 또한 연구자는 논문에서 이러한 측정의 근거와 설문조사의 후속 사용(또는 용도)을 명확하게 설명해야 합니다.4, 5
Surveys are descriptive tools that employ questions to collect statistical information on some facet of a population.4 Surveys are best suited for collecting data on nonobservable human phenomena. These include attitudes, beliefs, and opinions but can also include reports of behaviors and actions that are otherwise unmeasurable (or very hard to measure).5 Similar to the process of curriculum development, where methods of teaching should logically align with the defined educational objectives, the use of a survey should logically align with the underlying questions being asked and the variables or outcomes being studied.6 What is more, researchers should clearly describe in their articles the rationale for those measures and the subsequent use (or uses) of a survey.4, 5

콘텐츠 개발
CONTENT DEVELOPMENT

고품질 설문조사는 엄격하게 개발된 평가 도구로, 제안된 용도를 뒷받침하는 타당도 증거가 있습니다. 타당도 근거에는 다양한 구성 요소가 있으며, 이에 대해서는 후속 백서에서 자세히 다룰 예정입니다. 설문조사에 대한 콘텐츠 타당도(타당도 증거의 한 원천)를 확립하는 것은 콘텐츠 개발에 대한 의도적이고 엄격한 접근 방식에서 시작됩니다. 이 과정은 교육자가 먼저 커리큘럼의 중요한 목표를 정의한 다음, 그 목표를 성공적으로 달성하기 위해 구체적인 학습 목표를 작성하는 커리큘럼 개발과 유사합니다. 설문조사 개발에서 설계자는 먼저 연구 또는 설문조사의 전반적인 목표(즉, 어떤 질문을 다루고 있으며 설문조사를 통해 어떤 변수를 측정할 것인가?)를 설정해야 합니다. 그런 다음 연구자는 전체 목표에 따라 평가할 연구 변수 또는 결과를 가장 잘 나타내는 구체적인 구인construct을 정의합니다.7 
High-quality surveys are rigorously developed assessment tools that have validity evidence in support of their proposed uses. There are various components of validity evidence, which we will cover in more detail in a subsequent paper. Establishing content validity (one source of validity evidence) for a survey begins with an intentional and rigorous approach to content development. The process is again similar to curriculum development where an educator first defines the overarching goal of a curriculum and then writes specific learning objectives, which build to the successful achievement of that goal. In survey development, the designer should first establish the overall goal of the study or survey (i.e., what question is being addressed and what variables are being measured with the survey?). Following that overall goal, the researcher then defines specific constructs that best represent the study variables or outcomes being assessed.7

예를 들어 가상 강의가 레지던트 교육에 미치는 영향을 조사하는 연구를 예로 들어 보겠습니다. 이러한 연구의 경우 연구자는 먼저 설문조사의 전반적인 목표를 파악해야 합니다(예: "이 설문조사는 레지던트 교육의 학습 결과에 대한 화상 회의 소프트웨어의 인지된 효과를 측정할 것입니다"). 작업-기술 적합성, 인지 부하, 레지던트 건강(몇 가지 예만 들자면) 등 이러한 중요한 목표에 도움이 될 수 있는 여러 가지 구인이 있습니다. 이러한 구인construct은 예를 들어 화상 회의 소프트웨어의 특정 기능의 유용성, 가정 환경의 산만함, 거주자의 태도 등을 평가하는 데 사용되는 개별 설문조사 항목의 개발을 안내합니다. 
Take, for example, a study examining the impact of virtual didactics on resident education. For such a study, the researcher should first identify the overall goal for their survey (e.g., “This survey will measure the perceived effects of video conferencing software for didactic teaching on learning outcomes in resident education”). There are a number of constructs that could feed into that overarching goal, including task-technology fit, cognitive load, and resident wellness (to name just a few). These constructs then guide the development of individual survey items that are used to assess, for example, the utility of specific features of the video conferencing software, distractions in the home environment, and resident attitudes.

목표와 구인을 정의하는 것은 상세한 문헌 검토로 시작하여 이전 작업에서 유사하거나 관련된 변수를 평가하는 데 사용된 이전에 발표된 설문조사를 식별하는 반복적인 프로세스입니다. 연구 목적 또는 연구 질문의 요구사항과 완벽하게 일치하는 설문조사를 찾기란 쉽지 않지만, 이전 설문조사에서 연구의 일부 측면 및/또는 관심 있는 구성을 다뤘을 가능성이 있습니다. 연구자는 강력한 타당도 및 신뢰도 증거를 보고하는 출판된 도구를 찾는 것이 이상적이지만, 많은 출판된 설문조사 도구가 이러한 증거를 적절히 설명하지 못한다는 점을 이해해야 합니다.6 또한 연구자는 새로운 모집단을 대상으로 설문조사를 사용하는 등 기존 설문조사를 변경하면 타당도 논거와 도구가 여전히 (새로운) 용도에 적합한지 여부가 달라질 수 있음을 인지해야 합니다.8 이러한 문헌 검토 과정과 설문조사 목표와 목적에 대한 사려 깊은 고찰은 연구자에게 평가할 구성요소에 대한 철저한 이해와 설문문항 구성 방법에 대한 아이디어를 남겨 주어야 합니다.
Defining the objectives and constructs is an iterative process that starts with a detailed literature review to identify any previously published surveys used to assess similar or related variables in prior work. While identifying a survey that perfectly matches the needs of the study purpose or research question is unlikely, it is possible that previous surveys have addressed some aspects of the study and/or constructs of interest. Researchers should ideally seek out published instruments that report robust validity and reliability evidence, understanding, however, that many published survey instruments fail to adequately describe this evidence.6 Researchers should be aware, as well, that any alterations to existing surveys, to include using the survey in a new population, may change the validity argument and whether or not the instrument is still appropriate for its (new) intended use.8 This process of literature review and thoughtful reflection on the goals and objectives of the survey should leave the researcher with a thorough understanding of the constructs to be assessed and ideas on how to frame their survey questions.

문항 작성을 위한 모범 사례
BEST PRACTICES FOR ITEM WRITING

설문조사가 가장 적합한 측정 도구라고 판단되면 개별 설문조사 항목의 구성construction을 시작할 수 있습니다. 각 문항을 개발하는 방식은 신중한 고려가 필요하며 문헌을 통해 정보를 얻어야 합니다. 인지 심리학, 여론 조사 등 다양한 분야에서 언급했듯이, 모든 응답자가 동일한 방식으로(그리고 설문조사 설계자가 의도한 방식으로) 해석할 수 있는 고품질 설문조사 문항을 작성하는 까다로운 과정을 성공적으로 수행하기 위해서는 여러 단계가 필요할 수 있습니다. 따라서 문항 작성에 모범 사례를 사용하면 궁극적으로 설문조사 설계자가 의미 있는 데이터를 수집할 수 있는 능력을 향상시킬 수 있습니다. 여기에서는 설문조사 개발을 구성 요소로 세분화하여 고품질의 설문조사 기반 학술활동을 지원하기 위한 몇 가지 구조화된 지침을 제안합니다(각 모범 사례의 예는 표 1 참조).
Once it is determined that a survey is the best measurement tool, construction of individual survey items can begin. The manner in which each item is developed requires deliberate consideration and should be informed by the literature. As noted in many different fields, including cognitive psychology and public opinion polling, multiple steps may be required to successfully navigate the challenging process of writing high-quality survey items that all respondents will interpret in the same way (and in the way the survey designer intended). Therefore, the use of best practices in item writing will ultimately enhance the survey designer's ability to capture meaningful data. Herein, we propose some structured guidelines to breakdown survey development into its building blocks, thereby supporting high-quality survey-based scholarship (see Table 1 for examples of each best practice).

표 1. 샘플 질문 및 권장 문구
TABLE 1. Sample questions and recommended phrasing


Best practice
Problematic example Recommended improvement
Write positively worded questions How often are you unable to start class on time? How often do you start class on time?
Use questions and item-specific response options I enjoyed the lecture.
(response options: strongly disagree to strongly agree)
How much did you enjoy the lecture? (response option: not at all to a great amount)
Avoid double-barreled items How effective was the lecture and hands-on instruction? How effective was the lecture instruction?
How effective was the hands-on instruction?
Or, the item could be written at a higher level of abstraction:
How effective was the residency instruction?
Choose an appropriate number of response options Did you like the activity?


  • Yes
  • No

How much did you like the activity?


  • Not at all
  • A little
  • A moderate amount
  • Quite a bit
  • A lot

Attend to formatting and layout How satisfied were you with your residency training?


  • 1.Not at all satisfied
  • 2.
  • 3.
  • 4.
  • 5.Extremely satisfied

How satisfied were you with your residency training?


  • Not at all satisfied
  • Somewhat satisfied
  • Moderately satisfied
  • Quite satisfied
  • Extremely satisfied

Organize the survey items intentionally First question on the survey:
How often do you take illicit drugs?
First question on the survey:
What is your favorite extracurricular activity?

긍정적인 표현의 질문 작성
Write positively worded questions

개별 설문조사 문항은 일반적으로 긍정적인 표현을 사용해야 합니다. 긍정적인 표현의 문항을 사용하면 응답자가 이해하기 쉽기 때문에 응답 정확도가 향상됩니다. 반면, 부정적인 단어로 된 항목에서는 특히 응답자가 설문조사를 빨리 끝내려고 할 때(종종 그렇듯이) 실수로 '아닌', 'un-'과 같은 접두사나 단어를 놓치는 경우가 많습니다. 부정적으로 표현된 항목은 이해하는 데 더 많은 인지적 자원이 필요하므로 응답자가 쉽게 잘못 해석하여 부정확하거나 해석하기 어려운 데이터로 이어질 수 있습니다.9, 10
Framing of individual survey items should generally use positive language. The use of positively worded items enhances response accuracy because they are easier for respondents to comprehend. On the other hand, many respondents may inadvertently miss words and prefixes like “not” and “un-” in negatively worded items, particularly if respondents are trying to get through the survey quickly (which they often are). Negatively worded items require more cognitive resources to understand and, therefore, can be easily misinterpreted by respondents, leading to inaccurate or otherwise hard-to-interpret data.9, 10

동의/반대 옵션이 있는 문항보다는 질문과 항목별 응답 옵션을 사용합니다.
Use questions and item-specific response options rather than statements with agree/disagree options

설문조사는 여러 면에서 설문조사 설계자와 응답자 간의 대화와 같습니다. 동의/비동의 응답 옵션이 있는 문항을 사용하는 대신 질문을 하면 설문조사 대화가 보다 자연스럽게 흘러가 응답자의 이해도를 높이고 응답자가 질문하는 정보를 처리하는 데 도움이 될 수 있습니다.10 이 주제에 대한 최근의 종합적인 검토에 따르면 동의/비동의 응답 옵션이 있는 문항은 더 바람직하지 않은 결과(예: 묵인 및 해로운 응답 효과)와 관련이 있다고 합니다.11 부록 S1에 명시된 대로 저자들은 대부분의 목적에 동의/비동의 항목 대신 항목별 질문을 사용할 것을 설문조사 설계자에게 권장합니다. 
In many ways, a survey is like a conversation between the survey designer and their respondents. By asking questions rather than using statements with agree/disagree response options, a survey conversation can flow more naturally—which can enhance respondent comprehension and help respondents process the information being asked.10 A recent, comprehensive review of this topic reported that statements with agree/disagree response options are associated with more undesirable outcomes (e.g., acquiescence and deleterious response effects).11 The authors recommended that survey designers use item-specific questions instead of agree/disagree items for most purposes, as noted in Appendix S1.

이중 배럴 항목 피하기
Avoid double-barreled items

연구자들은 설문조사 길이를 줄이기 위해 여러 개의 질문을 하나로 합치려고 시도하는 경우가 많지만, 이러한 접근 방식은 종종 이중 배럴(또는 다중 배럴) 항목이 될 수 있다는 점에서 문제가 있습니다. 응답자는 특히 질문의 한 부분에 대해 한 가지 의견을 가지고 있고 다른 부분에 대해 다른 의견을 가지고 있는 경우 이중 배럴 항목에 응답하는 방법에 대해 혼란스러워할 수 있습니다. 응답자는 이 문제를 해결하기 위해 다양한 전략을 사용하지만, 중요한 점은 설문 설계자가 각 사람이 어떤 접근 방식을 취했는지 알 방법이 없어 개별 응답을 해석할 수 없게 된다는 것입니다. 이 문제에 직면했을 때 연구자는 세 가지 접근 방식을 취할 수 있습니다.9

  • (1) 두 가지 아이디어 중 어떤 것이 가장 중요한지 고려하여 그 하나만 묻거나,
  • (2) 두 개 이상의 개별 설문 항목을 만들거나,
  • (3) 응답자가 더 복잡한 아이디어로 추상화하도록 유도하는 방식으로 질문의 두 측면을 결합하거나 

Researchers often attempt to combine multiple questions into one in an effort to decrease the length of a survey; however, this approach is problematic in that it often results in a double-barreled (or multibarreled) item. Respondents may be confused about how to respond to double-barreled items, particularly if they have one opinion about one part of the question and another opinion about the other. Respondents will use various strategies to handle this challenge, but the critical point is that the survey designer has no way of knowing which approach each person took, thereby making individual responses uninterpretable. When met with this challenge, researchers can take three different approaches:

  • (1) consider which of the two ideas is most important and ask only that one,
  • (2) create two or more separate survey items, or
  • (3) combine the two facets of the question in a way that encourages respondents to abstract to a more complex idea.9 

예를 들어, 세 번째 접근방식의 경우 "환자의 다양한 의사소통 스타일을 식별하고 수용하는 데 얼마나 능숙합니까?"라는 이중 배럴 질문은 "환자의 다양한 의사소통 스타일에 적응하는 데 얼마나 능숙합니까?"라는 식으로 추상화할 수 있습니다. 이 세 가지 접근 방식 중 하나를 취함으로써 디자이너는 응답자가 서로 연결될 수도 있고 연결되지 않을 수도 있는 아이디어 모음보다는 개별 아이디어에 집중하고 더 쉽게 이해할 수 있도록 도울 수 있습니다. 
In the latter case, for example, the double-barreled question “How skilled are you at identifying and accommodating your patients' different communication styles?” could be abstracted to something like “How skilled are you at adapting to patients' different communication styles?” By taking one of these three approaches, designers can help their respondents focus on and more easily comprehend individual ideas, rather than collections of ideas which may or may not tie together.

적절한 수의 응답 옵션 선택
Choose an appropriate number of response options

주관식 설문조사 항목의 응답 옵션 수는 응답의 신뢰도에 영향을 미칠 수 있으므로 연구자는 선택한 옵션의 수를 신중하게 고려해야 합니다. 대부분의 경우, 5~7개의 응답 옵션이 폐쇄형 설문조사 항목에 적합한 경우가 많습니다.12

  • 단극적인 구성 요소(예: "전혀 없다"에서 "거의 항상"로 변하는 행동의 빈도와 같이 0에서 더 큰 숫자로 변하는 것)를 정량화하려는 항목의 경우, 응답 옵션이 5개이면 충분한 경우가 많습니다. 반면에
  • 양극성이 강한 구성 요소를 평가하려는 항목(예: 태도처럼 부정적인 양에서 긍정적인 양으로 변화하는 항목)의 경우 7개의 응답 옵션이 가장 이상적입니다. 7개 옵션부정적인 옵션 3개, 긍정적인 옵션 3개, 중간에 중립적인 옵션 1개를 허용합니다12(표 1의 몇 가지 예 참조).

일반적으로 응답 옵션이 5개 미만이면 설문조사 점수의 신뢰도가 떨어지고, 7개 이상이면 일반적으로 신뢰도가 향상되지 않으며 응답자에게 과도한 부담을 줄 수 있습니다.10 
Since the number of response options in a closed-ended survey item may impact the reliability of the responses, researchers should carefully consider the number of options selected. For most purposes, five to seven response options is often the sweet spot for closed-ended survey items.12 

  • For items which seek to quantify constructs that are unipolar (i.e., things that go from zero to a larger number, like the frequency of a behavior that goes from “never” to “almost all the time”), five response options is often adequate.
  • On the other hand, for items that seek to assess constructs that are more bipolar (i.e., things that go from a negative amount to a positive amount, like an attitude), seven response options is often ideal. Seven options allow for three negative options, three positive options, and one neutral option in the middle12 (see several examples in Table 1).

As a general rule, fewer than five response options is likely to decrease the reliability of survey scores and more than seven typically does not enhance reliability and may overburden respondents.10

또 다른 고려 사항은 홀수 또는 짝수 응답을 사용할지 여부입니다. 설문조사 설계자는 종종 이 결정에 대해 몇 시간 동안 고민하지만, 제한된 경험적 증거는 이 선택의 결과가 미미하다는 것을 시사합니다.9 즉, 

  • 설문조사 항목이 중립점을 갖는 것이 합리적이라면 응답 옵션의 수가 홀수인 것이 가장 합리적일 수 있습니다(즉, 응답자가 문제에 대해 중립적인 것이 합리적일 경우).
  • 반면에 자연스러운 중간점이 존재하지 않는다면 중간점이 없는 짝수 개의 응답 옵션을 사용하는 것이 합리적입니다.

Another consideration is whether to use an odd or even number of responses. Although survey designers often spend hours agonizing over this decision, the limited empirical evidence is equivocal, suggesting that the consequences of this choice are minor.9 That said,

  • if it makes sense for the survey item to have a neutral point, then an odd number of response options probably makes the most sense (i.e., if it is reasonable for a respondent to be neutral on an issue). On the other hand,
  • if no natural midpoint exists, then it is reasonable to instead use an even number of response options with no midpoint.

서식 및 레이아웃에 주의
Attend to formatting and layout

거의 모든 사람, 특히 의료계 전문가가 스마트폰을 가지고 있는 요즘, 대부분의 응답자가 모바일 기기를 사용하여 대부분의 웹 기반 설문조사를 완료한다는 점에 유의해야 합니다. 따라서 모바일 형식을 포함한 다양한 형식의 설문조사 레이아웃을 미리 보는 것이 중요합니다. 예를 들어, SurveyMonkey 또는 Qualtrics와 같은 웹 기반 설문조사 애플리케이션은 일반적으로 컴퓨터 화면에 표시되는 설문조사의 경우 응답 옵션을 페이지 전체에 가로로 정렬하지만, 모바일 사용자를 위해 동일한 옵션을 세로로 정렬하는 기능도 있습니다. 따라서 가독성을 보장하기 위해 두 가지 형식 모두에서 설문조사 항목의 모양을 신중하게 검토하고 사전 테스트하는 것이 중요하며, 특히 이러한 서로 다른 형식은 제공되는 설문조사 응답의 품질에 영향을 미칠 수 있으므로 더욱 그렇습니다.9
At a time when virtually everyone has a smartphone, especially professionals in healthcare, it is important to note that most respondents will use their mobile device to complete most web-based surveys. As such, it is essential to preview the survey layout in multiple formats, including the mobile format. For example, web-based survey applications like SurveyMonkey or Qualtrics typically align response options horizontally across the page for surveys presented on a computer screen, but they also have the capability to format the same options vertically for the mobile user. Thus, it is important that researchers carefully review (and even pretest) the appearance of their survey items in both formats to ensure readability, especially because these different formats can affect the quality of the survey responses provided.9

설문조사 설계자는 정확도를 높이기 위해 응답 옵션에 구두 라벨과 숫자를 모두 포함하려는 경향이 있을 수 있습니다. 그러나 놀랍게도 기존의 제한된 경험적 연구에 따르면 응답자는 이러한 응답 옵션을 다양하게 해석하는 경우가 많습니다(숫자의 의미와 구두 라벨의 의미가 때때로 일치하지 않을 수 있기 때문).13 이 결과는 구두 라벨과 숫자를 모두 포함하는 것이 비효율적인 접근 방식일 수 있음을 시사합니다. 따라서 숫자를 사용하지 않고 구두 레이블만 사용하고 모든 응답 옵션에 레이블을 지정하는 것이 가장 좋은 방법이며, 이렇게 하면 응답자의 인지적 부담이 완화되어 보다 정확한 답변을 유도할 수 있습니다.9 부록 S1에는 일반적으로 연구되는 주제에 대한 구두 레이블의 예가 나와 있습니다.
Survey designers may also be inclined to include both verbal labels and numbers on their response options, with the goal of enhancing precision. Surprisingly, however, the limited empirical research that exists suggests that respondents often variably interpret such response options (since the meaning of numbers and the meaning of verbal labels can sometimes be misaligned).13 This finding suggests that including both verbal labels and numbers may be an ineffective approach. As such, a best practice is to use verbal labels only (without numbers) and to label all response options (as opposed to just the end points); doing so eases respondents' cognitive burden, thereby encouraging more precise answers.9 Appendix S1 outlines a number of example verbal labels for commonly studied topics.

또 다른 중요한 서식 지정 문제는 응답 옵션 간격입니다. 응답 옵션의 간격이 고르지 않으면 특정 옵션이 다른 옵션보다 시각적으로 더 두드러질 수 있습니다. 이는 의도치 않게 응답자가 이러한 옵션에 주목하고 선택할 가능성을 높이는 효과를 가져올 수 있습니다. 설문조사원은 모든 응답 옵션의 간격이 균등하게 유지되도록 서식 지정에 세심한 주의를 기울여야 합니다.9
Another important formatting issue is response option spacing. Unevenly spaced response options can make certain options stand out visually more than others. This can have the inadvertent effect of making these options more likely to be noticed and selected by respondents. Researchers should be meticulous in their formatting efforts, ensuring that all response options are equally spaced.9

의도적으로 설문조사 항목 구성
Organize the survey items intentionally

연구자는 설문조사를 시작하고 궁극적으로 완료하려는 응답자의 동기를 고려할 때, 항목의 순서를 신중하게 고려하고 의도적으로 구성해야 합니다. 설문조사에서 명확하고 해석 가능한 정보를 얻으려면 정확한 데이터 수집이 전제되어야 하므로, 관심 있는 핵심 구인을 다루는 가장 중요한 질문은 설문조사 시작 부분에 배치해야 합니다.9 이렇게 하면 응답자가 설문조사 참여를 중단하더라도 최소한 유용한 데이터는 수집된 것으로 간주할 수 있습니다.
As researchers consider respondent motivation to begin and ultimately complete the survey, the order of the items should be carefully considered and intentional. Obtaining clear and interpretable information from a survey depends on accurate data collection and, as such, the most important questions addressing the central construct of interest should be situated near the beginning of the survey.9 That way, if respondents choose to stop taking the survey, at least some useful data have been collected.

또한 민감한 질문과 인구통계학적 항목(종종 민감한 것으로 간주되는)은 설문조사 마지막에 배치하는 것이 중요합니다. 특히 설문조사나 기타 평가의 초반에 포함된 인종과 민족에 관한 질문은 고정관념 위협이라는 효과를 유발하여 응답 품질과 응답자 동기에 부정적인 영향을 미칠 수 있는 것으로 나타났습니다. 이러한 효과만으로도 대부분의 설문조사 마지막에 인구통계학적 항목을 묻는 충분한 이유가 됩니다.14 마지막으로, 민감한 질문과 관련하여 '친밀감rapport'이라는 개념이 중요합니다. 설문조사 설계자가 설문조사 초기에 응답자와 어느 정도 친밀감을 형성하고 동의를 얻으면 보다 민감한 질문을 할 수 있습니다. 이러한 친밀감을 형성하는 접근 방식은 일상적인 대화와 마찬가지로 설문조사에도 적용됩니다.
Moreover, it is important to keep sensitive questions and demographic items (which are often considered sensitive) toward the end of the survey. In particular, questions about race and ethnicity that are included early in a survey or other assessments have been shown to induce an effect known as stereotype threat, which can negatively impact response quality and respondent motivation. This effect alone is reason enough to ask demographic items near the end of most surveys.14 Finally, with regard to sensitive questions, the notion of “rapport” is critical. Once the survey designer has built some rapport and buy-in with the respondents early in a survey, then more sensitive questions can be asked. This rapport-building approach applies as much for surveys as it does for everyday conversations.

또한 모든 설문조사 질문은 각 응답자와 관련성이 있어야 합니다. 관련성이 없는 질문은 참여자의 의욕을 떨어뜨리고 응답 품질에 부정적인 영향을 미칠 수 있습니다. 이를 염두에 두고 설계자는 분기 질문 사용을 고려해야 합니다.4 예를 들어, 대학 도서관 서비스의 품질에 대한 정보를 수집할 때 설계자는 먼저 "해당 기관의 도서관을 이용해 보셨습니까?"라고 질문한 다음 "예"라고 대답한 응답자에게만 도서관 서비스의 품질에 대해 질문할 수 있습니다. 전자적으로 관리되는 웹 기반 설문조사를 사용하면 디자이너가 이러한 유형의 분기 질문을 쉽게 만들 수 있으며, RedCap, Qualtrics, Google Forms, SurveyMonkey와 같은 많은 웹 기반 설문조사 제품에는 분기 로직으로 설문조사를 구성하는 방법에 대한 자습서가 있습니다. 
In addition, all survey questions should be relevant to each respondent. Irrelevant questions tend to demotivate participants and can negatively impact response quality. With this in mind, designers should consider using branching questions.4 For example, when gathering information about the quality of the university's library services, a designer might first ask: “Have you used the institution's library?” and then ask questions about the quality of the library services only to those who answer “yes.” Electronically administered, web-based surveys make it easy for designers to create this type of branching question, and many web-based survey products, such as RedCap, Qualtrics, Google Forms, and SurveyMonkey, have tutorials on how to construct a survey with branching logic.

결론
CONCLUSION

설문조사는 다른 방법으로는 답할 수 없는 질문에 답할 수 있는 강력한 방법이 될 수 있습니다. 설문조사 설계자는 설문조사 개발 프로세스 초기에 여기에 설명된 모범 사례(및 광범위한 설문조사 설계 문헌)를 사용하여 설문조사 도구가 고품질 의사 결정에 사용할 수 있는 신뢰할 수 있는 평가가 될 수 있도록 할 수 있습니다. 일련의 논문에서 제시하는 설문조사 설계에 대한 증거 기반 접근 방식에는 다음이 포함됩니다: 

  • (1) 엄격한 방식으로 콘텐츠 개발하기,
  • (2) 설문조사 항목을 명확하게 작성하고 형식화하기,
  • (3) 설문조사 결과의 타당성을 뒷받침하는 증거 수집하기,
  • (4) 응답률을 극대화하기 위해 설문조사 관리하기,
  • (5) 설문조사 결과를 의학 문헌에 명확하게 전달하기 등이 있습니다.

Surveys can be a powerful way to answer otherwise unanswerable questions. By using the best practices described here (and in the broader survey design literature)—early in the process of survey development—designers can help to ensure their survey tools are credible assessments that can be used for making high-quality decisions. The evidence-informed approach to survey design presented in our series of papers includes:

  • (1) developing content in a rigorous way,
  • (2) writing and formatting survey items with clarity,
  • (3) collecting evidence to support the validity of the survey results,
  • (4) administering the survey to maximize response rate, and
  • (5) clearly communicating the results of the survey in the medical literature.

이 첫 번째 백서에서는 이 프로세스의 처음 두 단계에 초점을 맞추었습니다. 먼저 설문조사의 목표와 조사 대상의 구인을 설명함으로써 설계자는 설문조사 항목의 내용을 결정할 수 있습니다. 다음으로, 설문조사 항목과 응답의 작성 및 서식 지정에 대한 근거에 기반한 가이드라인을 따르면 설계자는 설문조사 점수의 타당성과 의도된 용도를 뒷받침할 수 있습니다. 다음 백서에서는 설문조사 점수와 그 용도에 대한 신뢰성과 타당성 근거를 더욱 확립하기 위해 설문조사를 테스트하고 시범 운영할 때 중요한 측면에 대해 논의할 것입니다. 그 다음에는 설문조사를 관리하고 배포하는 접근 방식과 설문조사 설계 및 연구 노력을 보고하는 모범 사례에 대해 설명할 것입니다. 

In this first paper, we have focused on the first two steps of this process. By first explicating the goals of the survey and the constructs being investigated, designers can determine the content of survey items. Next, by following evidence-informed guidelines for writing and formatting survey items and responses, designers can support the validity of their survey scores and their intended use. In our next paper, we will discuss the critical aspects of testing and piloting surveys to further establish reliability and validity evidence for the survey scores and their proposed uses. Subsequently, we will describe approaches to administering and distributing surveys, as well as best practices for reporting survey design and research efforts.

 


Abstract

Surveys are ubiquitous in medical education. They can be valuable for assessment across a wide range of applications and are frequently used in medical education research. This Educator's Blueprint paper reviews the best practices in survey design with a focus on survey development. Key components of the survey design process include determining whether a survey is the right tool, using an intentional approach to content development, and following best practices in item writing and formatting. These processes are meant to help educators and researchers design better surveys for making better decisions.

보건전문직교육에서 현상학적 연구: 양쪽 끝에서 터널 만들기(Teach Learn Med, 2022)
Phenomenological Research in Health Professions Education: Tunneling from Both Ends
Chris B. T. Rietmeijera and Mario Veenb

 

소개
Introduction

다음은 CBTR(크리스)과 MV(마리오)의 이메일 대화 내용입니다. 이 대화는 비엔나에서 열린 2019 유럽 의학교육협회 컨퍼런스에서 시작되었으며, 그 이후로 계속되고 있습니다. 그 목적은 두 가지 관점을 보건 전문직 교육(HPE) 연구의 현상학이라는 공통 기반에 연결하는 것이었습니다. 우리는 현상학적 관점에서 의미 있는 연구를 수행하는 데 관심이 있을 뿐만 아니라 교육 연구자들이 현재 이용할 수 있는 '지침'에 대한 불만도 공유하고 있습니다. Chris는 일반의(GP)이자 GP 수련 프로그램 디렉터로, 수퍼바이저가 GP 수련생을 직접 관찰하는 박사 연구를 진행하고 있습니다. 마리오는 의학적 배경이 없는 학제 간 철학자이자 교육 연구자입니다. 양쪽 끝에서 터널링을 통해 공통의 지점에서 만나려는 시도를 경험했습니다. 이 과정에서 마리오는 직접 관찰 상황에서 환자의 경험에 대한 Chris의 연구 프로젝트에 참여하여 우리가 논의하던 현상학적 원칙을 구체화하는 데 도움을 주었습니다. 현상학적 접근 방식에 충실하게 우리의 대화는 여전히 계속되고 있습니다. 이 논문에서는 현재의 이해를 제시합니다. 이 글은 부분적으로 대화 형식으로 작성되었지만, 우리는 모든 섹션의 후속 초안과 최종 논문을 함께 논의하고 작성했습니다. 
What follows is the substrate of an e-mail dialogue between CBTR (Chris) and MV (Mario). We started this dialogue at the 2019 Association for Medical Education in Europe conference in Vienna, and it has been ongoing since then. The purpose was to connect our two perspectives to a common ground: phenomenology in health professions education (HPE) research. We share an interest in conducting meaningful research from a phenomenological perspective, as well as a frustration with the current “pointers” that are available for educational researchers. Chris is a general practitioner (GP) and GP training program director, who is conducting PhD research on direct observation of GP trainees by their supervisors. Mario is an interdisciplinary philosopher and educational researcher, with no medical background. Tunneling from both ends is how we experienced this attempt to meet on common ground. During this process Mario joined Chris’s research project on patients’ experiences in direct observation situations, which helped us concretize the phenomenological principles we were discussing. True to the phenomenological approach, our dialogue is still continuing. In this paper, we present our current understanding. While this text is – partly – written as a dialogue, we discussed and wrote subsequent drafts of all sections and the final paper together.

크리스 소개
Introduction Chris

몇 년 전, 제 박사 지도교수가 환자 인터뷰 연구에 현상학적 접근법을 제안했습니다.1 우리는 일반 수련에서 직접 관찰(DO)에 대한 레지던트와 수퍼바이저의 관점에 대한 구성주의적 근거이론 포커스 그룹 연구를 두 차례 마쳤습니다.2,3 지도교수는 우리가 DO 상황에 대한 환자들의 경험에 관심이 있으므로 현상학적 접근법이 적절할 것 같다고 주장했습니다. 저는 혼란스러워서 레지던트와 수퍼바이저의 경험을 연구할 때 사용했던 구성주의적 근거 이론 접근법과 어떤 차이가 있는지 물어보았습니다. 이미 현상학적 접근법이 아니었나요? 
A few years ago, my PhD supervisor suggested a phenomenological approach for a patient interview study.1 We had finished two constructivist grounded theory focus group studies on the residents’ and the supervisors’ perspectives on direct observation (DO) in general practice training.2,3 My supervisor argued that since we were interested in the patients’ experiences with DO situations, a phenomenological approach seemed appropriate. This confused me and I asked him what the difference would be from the constructivist grounded theory approach we had used to study the experiences of residents and supervisors. Was that not already phenomenological?

이것이 제 연구에서 현상학의 가치를 이해하고 현상학적 접근이 지금까지 해왔던 것과 어떻게 다른지 배우기 위한 탐구의 시작이었습니다. 저는 HPE 안팎에서 현상학에 관한 문헌을 검색하기 시작했습니다. HPE 문헌에서 저는 여러 현상학 학파에 대한 개요를 발견했습니다.4-6 이 문헌에서는 후설의 설명적 또는 초월적 현상학과 하이데거의 해석적 또는 해석학적 현상학 간의 차이점을 설명하는 경우가 많았습니다. 현상학에 대한 설명과 "괄호치기", "현상학적 환원", "사전 반성적 경험"과 같은 트레이드마크 용어를 제공합니다. 안타깝게도 저는 이러한 설명이 복잡하고 때때로 모순된다는 것을 알았습니다. 제 프로젝트에 대한 구체적인 지침을 제공하지 못했습니다. 
This was the beginning of my quest to understand the value of phenomenology for my research, and to learn how a phenomenological approach differs from what I had been doing so far. I embarked on a search of the literature on phenomenology in and outside HPE. In HPE literature, I found overviews of distinct phenomenological schools.4–6 This literature often explains the differences between Husserl’s Descriptive or Transcendental phenomenology and Heidegger’s Interpretive or Hermeneutic phenomenology. It provides descriptions of phenomenology and trademark terms such as “bracketing,” “phenomenological reduction,” and “pre-reflective experience.” Unfortunately, I found these descriptions complex and at times contradictory. They did not provide concrete guidance for my project.

그래서 저는 현대 현상학자들의 저작을 읽기로 결심했습니다.7,8 이를 통해 현상학적 원리를 이해하는 데 도움이 되었지만 혼란이 가중되기도 했습니다. 이 분야의 노련한 과학자들 사이에서 많은 의견 차이를 접했습니다: 반 마넨은 스미스의 해석적 현상학적 분석을 공격합니다.9 자하비는 반 마넨이 "상당히 잘못 이해하고 있다"고 비난합니다.10 분명히 현상학자들 스스로도 현상학이 무엇인지에 대해 동의하지 않는 것 같습니다. 게다가 인터뷰 연구와 같은 연구에서 현상학을 적용하는 방법에 대한 실용적인 지침을 거의 찾을 수 없었습니다. 실제로 이 문헌을 통해 현상학의 핵심 요소 중 하나는 연구 방법은 말할 것도 없고 정해진 규칙이 없다는 점을 분명히 알 수 있었습니다. 
I therefore decided to read works by some contemporary phenomenologists.7,8 This helped me start to grasp some phenomenological principles, but also added to my confusion. I encountered many disagreements among seasoned scientists in this field: Van Manen attacks Smith’s Interpretive Phenomenological Analysis.9 Zahavi accuses van Manen of “getting it quite wrong.”10 Apparently, phenomenologists themselves disagree on what phenomenology is. Moreover, I hardly found any practical guidelines on how to apply phenomenology in research, such as in the context of an interview study. Indeed, this literature made clear to me that one of the core elements of phenomenology is the absence of fixed rules, let alone a research method.

세 번째 전략으로 현상학적 접근법을 주장하는 HPE 영역의 연구 논문 사례를 연구했습니다. Ajjawi와 Higgs11는 물리 치료사가 임상적 추론을 학습하는 방법과 이에 대해 소통하는 방법에 대한 연구를 수행했습니다. 바이넘과 동료들은 레지던트들의 수치심 경험을 조사했습니다.12 맥라클란과 동료들은 의대생 교육에 대한 환자들의 경험을 연구했습니다.13 더 많은 사례가 있습니다.14,15 이 인터뷰 연구의 저자들은 현상학적 방법을 자세히 설명하고 있으며, 데이터에 대한 몰입과 철저한 반성을 통해 세심한 분석의 증거를 보았습니다. 안타깝게도 많은 논문의 질적 수준에는 깊은 인상을 받았지만, 제가 보기에는 다른 질적 탐구 방법의 결과와 상당히 유사해 보였습니다. 현상학적 입장과 방법에 대한 설명이 다소 혼란스러웠고, 현상학적 연구와 '비현상학적' 인터뷰 연구를 구별할 수 있는 어떤 종류의 '현상학적 마법' 또는 적어도 실행 가능한 요소를 발견할 수 없었습니다. 
As a third strategy, I studied examples of research papers in the HPE domain that claim a phenomenological approach. Ajjawi and Higgs11 conducted research on how physical therapists learn clinical reasoning and how to communicate about this. Bynum and colleagues investigated shame experiences of residents.12 McLachlan and colleagues studied patients’ experiences of medical student teaching encounters.13 There are more examples.14,15 The authors of these interview studies describe their phenomenological methods in detail, and I saw evidence of meticulous analyses through immersion in data and thorough reflexivity. Alas, although I was impressed by the quality of many of these papers, to me, the type of results they provided seemed quite similar to the results of other qualitative inquiry methods. I found descriptions of the phenomenological stance and methods somewhat confusing, and was unable to discern any kind of “phenomenological magic,” or at least a workable ingredient that would distinguish phenomenological from “non-phenomenological” interview studies.

저는 HPE 문헌에서 현상학은 종종 사람들이 어떤 현상에 대해 갖는 주관적인 경험을 조사하는 것과 동의어로 제시된다는 결론을 내렸습니다. 하지만 구성주의적 근거 이론과 같은 다른 유형의 질적 연구에서도 이를 조사할 수 있습니다. 후설 이후 120년이 지난 지금, 모든 질적 연구자들이 현상학에서 얻은 통찰을 통합하여 이 용어가 불필요해진 것이 아닌가 하는 생각이 들었습니다. 
I concluded that, in HPE literature, phenomenology is often presented as synonymous with investigating subjective experiences that people have with some phenomenon. But other types of qualitative research, such as constructivist grounded theory, can also investigate this. The thought occurred to me that perhaps, 120 years after Husserl, all qualitative researchers have integrated insights from phenomenology so that the term has become superfluous.

그래서 저는 이 세 가지 검색을 통해 매혹, 압도, 빈손, 짜증이라는 세 가지 감정을 발견했습니다. 그 자체로 유망한 세계인 현상학에 매료되고 압도되었지만 외부인에게는 이해할 수 없었습니다. 대부분의 철학자가 평생 동안 임상적 추론을 마스터하지 못하는 것과 마찬가지로, 저는 GP로서 평생 동안 고전적 현상학을 깊이 있게 이해하지 못할 것이라는 사실을 이쯤 되면 분명히 알 수 있었습니다. 명확한 실용적인 연구 방법론을 찾지 못해 공허함을 느꼈고, 제가 볼 수 있는 한 다른 질적 접근 방식과 근본적으로 다른 결과를 제공하지 않는 연구 논문에서 현상학에 대한 혼란스러운 설명에 약간 짜증이 났었습니다. 
So, here I found myself after these three searches, fascinated, overwhelmed, empty handed, and annoyed. Fascinated and overwhelmed by phenomenology as a promising world in itself, but incomprehensible to outsiders. It was clear to me by now that in my lifetime, as a GP, I was never going to really understand classical phenomenology in depth, in the same way that most philosophers, in their lifetime, are never going to master clinical reasoning. I felt empty handed because I had not found a clear practical research methodology, and a bit annoyed with confusing descriptions of phenomenology in research papers that, as far as I could see, did not deliver results that fundamentally differed from some other qualitative approaches.

그럼에도 불구하고 저는 현상학에 흥미를 느꼈고, 사람들이 어떤 현상에 노출되었을 때 기본적으로 경험하는 것을 밝혀낼 수 있다는 점에서 그 가능성을 보았습니다. 그래서 포기하지 않고 현상학적 접근법이 구성주의적 근거 이론과 같은 다른 질적 접근법과 어떻게 다른지, 그리고 그것을 이해하기 쉬운 언어와 방법으로 어떻게 포착할 수 있는지 알아보고자 결심하게 되었습니다. 이 과정에서 비엔나에서 열린 AMEE 컨퍼런스에서 마리오 선생님을 만났습니다. 철학자로서 저의 혼란을 이해해주셔서 안심이 되었습니다. 또한 단기적으로는 불편했지만, 당신 스스로도 HPE 연구에 현상학을 적용하는 데 어려움을 겪고 있었으며 간단한 해답이 없었다는 사실에 위안을 받았습니다. 그때부터 우리는 광범위한 편지 교환을 통해 이 터널링 프로젝트를 시작했습니다. 
Nevertheless, phenomenology intrigued me and I saw beauty in its promise to reveal what people basically experience when exposed to a phenomenon. So, instead of throwing in the towel, I became determined to find out how a phenomenological approach differs from other qualitative approaches, such as constructivist grounded theory, and how that can be captured in understandable language and methods. Somewhere in this process I met you, Mario, at the AMEE conference in Vienna. It was a relief that you, as a philosopher, understood my confusion. It was also a consolation, though inconvenient for the short term, that you yourself were struggling with the application of phenomenology in HPE research; you had no brief answers. That is when we started this tunneling project through an extensive exchange of letters.

마리오 소개
Introduction Mario

현상학에 대한 질문으로 저에게 다가오셨을 때, 관련성이 있는 질문이라는 것은 알지만 쉽게 대답할 수 없다는 점에서 당혹스러웠습니다. 저는 인문학 전공자이고 약 10년 전에 의학교육 분야에서 일하기 시작했습니다. 이는 흥미로운 경험이자 문화적 충격이었습니다. 인문학에서 익숙했던 연구 접근 방식이 의학교육 연구에서는 '현상학'이라고 불린다는 것을 알게 되었습니다. 종종 이것은 "경험적" 연구와 대조되었습니다. 그런데 놀랍게도 현상학은 경험적 연구를 수행하기 위한 '방법'으로 제시된다는 사실도 알게 되었습니다. 
When you approached me with questions about phenomenology, this was confronting in the sense that I recognized your questions as relevant but could not answer them easily. My background is in the Humanities and I started working in medical education about ten years ago. This was an interesting experience and culture shock. I found out that the approach to research I was used to in the Humanities was referred to as “phenomenology” in medical education research. Often, this was contrasted with “empirical” research. But, to my confusion, I also found out that phenomenology was presented as a “method” for conducting empirical research.

인문학에서 누군가 현상학에 대해 주장할 때 가장 먼저 하는 질문은 "누구의 현상학인가?"입니다. 현상학은 서로 다른 사상가들이 현상학이 무엇이며 어떻게 실천할 것인가에 대해 서로 다른 반응을 보이는 지적 전통으로 볼 수 있습니다. 후설은 일반적으로 철학적 현상학의 창시자로 여겨집니다. 그러나 그는 칸트나 헤겔과 같은 초기 사상가들도 이 용어를 사용했습니다. 그의 제자 하이데거 역시 후설에 응답했지만, 후설이 현상학에 대해 가졌던 몇 가지 근본적인 가정을 비판하기도 했습니다. 현상학의 역사적 전통에서 각 사상가는 전임자의 개념을 발전시키기도 하고 다른 사상가를 비판하기도 합니다. 예를 들어 버틀러16는 젠더 연구와 문화 이론에 큰 영향을 미친 드 보부아르의 젠더 개념17을 발전시켰습니다. 이 모든 사상가들의 공통점은 무엇을 현상학으로 보는지, 또는 누구의 현상학을 사용하는지 먼저 정의한다는 점입니다.
In the Humanities, when someone makes a claim about phenomenology, the first question is “whose phenomenology?” Phenomenology can be seen as an intellectual tradition in which different thinkers respond to each other and differ with regard to what phenomenology is and how to put it into practice. Husserl is generally seen as the founder of philosophical phenomenology. But he responded to earlier thinkers such as Kant and Hegel, who also used the term. His student, Heidegger, in turn responded to Husserl, but also criticized some fundamental assumptions that Husserl had made about phenomenology. In the historical tradition of phenomenology, each thinker both develops notions of their predecessor and criticizes others. For instance, Butler16 develops de Beauvoir’s notion of gender17 in a way that was hugely influential in gender studies and cultural theory. All of these thinkers have in common that they first define either what they see as phenomenology, or whose phenomenology they are using, rather than treating it as an out-of-the-box method.

여러분이 저에게 질문을 던졌을 때 저는 여러분이 말했듯이 쉬운 대답을 할 수 없었습니다. 이것은 철학과 의학교육 연구에서 계속되는 투쟁입니다. 하지만 현상학은 일상적인 현상을 연구하는 과학으로서 경험, 의미, 의도 등 우리에게 친숙한 단어를 기술적으로 사용한다는 점에서 또 다른 도전에 직면해 있습니다. 일상 언어와 HPE 연구에서 우리는 종종 "경험"과 같은 단어를 마치 그 의미를 정확히 알고 있는 것처럼 사용합니다. 현상학에서는 이에 대해 의문을 제기합니다(경험이란 무엇인가?). HPE 연구는 실무 지향적이기 때문에 이러한 각 용어에 대해 자세히 설명할 여력이 없습니다. 
When you approached me with questions, I had, as you say, no easy answers. This is an ongoing struggle with philosophy and medical education research. But phenomenology faces an additional challenge; as a science of studying everyday phenomena, it uses words that are familiar to us in a technical way for instance: experience, meaning, and intention. In our everyday language and HPE research, we often use words such as “experience” as if we know exactly what they mean. Phenomenology calls these into question (what is experience?). Since HPE research is practically oriented, we simply do not have the bandwidth to elaborate on each of these terms in depth.

그럼에도 불구하고 현상학에 대한 기술적 정의부터 시작하겠지만, 이 정의가 실제로 무엇을 의미하는지는 연구를 진행하면서 명확해져야 할 것입니다. 현상학을 한다는 것은 의식에서 발생하는 것(현상)을 설명하는 것을 의미합니다. 현상학은 현상을 근본적인 객관적 또는 주관적 실재의 표현으로만 취급하는 것이 아니라, 그 자체로 설명할 가치가 있는 대상으로 취급합니다. [그러한 실재가 존재하는지, 그리고 우리가 그러한 실재에 도달할 수 있는지]는 현상학이 답을 구하기보다는 "괄호"(제쳐두는) 질문으로, 현상학은 [현상이 언제 어떻게 우리에게 일어나는지 정확히 기술하고 현상에서 반복되는 패턴이나 구조를 찾는 데] 집중하기 위해 이 질문에 답하지 않습니다. 이러한 구조를 현상의 본질18이라고 부를 수 있는지, 아니면 우리가 세상에 존재하는 우연적인 현상19이라고 부를 수 있는지는 현상학자들이 논쟁하는 근본적인 질문 중 하나입니다.
Let us start with a technical definition of phenomenology nonetheless, although what this definition means in practice will have to become clear as we go along. Doing phenomenology means describing that which arises in consciousness (phenomena). Phenomenology treats phenomena as objects worthy of description in their own right, rather than only as manifestations of an underlying objective or subjective reality. Whether there is such a reality and whether we can ever get to it, is a question that phenomenology “brackets” (sets aside) rather than trying to answer it, in order to focus on describing phenomena exactly how and when they occur to us, and looking for recurrent patterns or structures in their occurrence. Whether these structures can be called essences18 of phenomena or are contingent manifestations of our being-in-the-world19 is one of those fundamental questions phenomenologists debate.

말씀하신 문제에 대해 제 의견을 말씀드리자면, 현상학이 HPE 연구에 도움이 되는 것은 사실이지만, 현상학은 바로 적용할 수 있는 '방법'이나 '방법론'이 아닙니다. 현상학은 연구자의 특정 태도를 요구하는 연구 접근 방식입니다. 이러한 태도는 연구 질문, 데이터 수집, 세분화된 분석, 결과 보고 방식, 연구자로서의 자신의 입장에 대한 성찰 등 연구의 모든 단계에 스며들어 있습니다. 이러한 태도가 없으면 철학적 접근 방식으로서 현상학에 부합하지 않는 방식으로 현상학으로 분류되는 방법을 사용할 수 있지만, 이는 좋은 연구가 아니라는 의미가 아니라, 현상학이 아니라는 의미일 뿐입니다. 반대로 현상학으로 분류되지 않는 방법을 현상학적인 방식으로 사용할 수도 있습니다. 이러한 복잡성에 더해, 연구의 한 측면(예: 현상학적 인터뷰20)에만 현상학적 접근 방식을 취할 수 있고 다른 측면에는 적용하지 않을 수도 있습니다.
Here is my version of the problem that you stated: while we both see benefits of phenomenology in HPE research, phenomenology is not an out-of-the-box “method” or even “methodology” that we can simply apply. It is an approach to research that requires a certain attitude of the researcher. This attitude permeates all levels of the research: research question, data collection, fine-grained analysis, how you report your results, and reflexivity on your own position as a researcher. Without this attitude, one can use methods that are labeled as phenomenological in a way that is inconsistent with phenomenology as a philosophical approach – which does not mean it is not good research; it is just not phenomenology. And conversely, one can use methods that are not labeled as phenomenology in a phenomenological way. Adding to this complexity, one can take a phenomenological approach to only one aspect of the research – e.g. phenomenological interviewing20 – but not to others.

서로 다른 현상학적 접근법 간의 논쟁에 휘말리지 않기 위해 HPE 연구와 직접적으로 관련된 현상학의 몇 가지 기본 사항을 이해하는 것으로 한정하겠습니다. 
To avoid getting bogged down in a debate between different phenomenological approaches, let us confine ourselves to understanding some basics of phenomenology that are directly relevant to HPE research.

현상학이란 무엇인가요?
What is phenomenology?

제가 현상학을 어떻게 보는지 전문 용어를 최소화하여 공유하겠습니다. 현상학은 우리가 편향되거나 편향되지 않은 지식을 가질 수 있는 객관적 실체로서 세계를 조사하는 연구 접근 방식과는 근본적으로 다른 출발점을 가지고 있습니다. 현상학의 주요 특징은 인간에게 일어나는 세계에 초점을 맞추고, 세계가 일어나는 방식과 무관하게 세계를 객관적으로 '있는 그대로' 설명하는 것은 불가능하다고 주장한다는 점입니다. 
Let me share - with a minimum of jargon - how I see phenomenology. Phenomenology has a radically different starting point from approaches to research that investigate the world as an objective reality that we can have biased or unbiased knowledge of. Its key feature is that it focuses on the world as it occurs to human beings, and asserts that it is impossible to describe the world as it objectively “is” independent of how it occurs.

현상학은 우리가 마주하는 현상을 분석하는 학문입니다. 세상이 일상 생활에서 우리 인간에게 나타나는 방식이 그 출발점입니다. 현상은 사물부터 상황, 생각이나 경험에 이르기까지 우리가 하루를 보내면서 인식하게 되는 모든 것이 될 수 있습니다.

  • 현상은 스스로 드러나는 것, 또는 일어나는 것을 의미합니다.
  • 따라서 현상은 우리에게 나타나는 대로 우리에게 나타나는 것을 연구하는 것을 의미합니다.19

이러한 방식으로 현상학은 일상생활을 출발점으로 삼지 않는 과학 및 연구 접근법, 일상생활을 그 자체로 보지 않고 미리 설정된 분석적 틀 안에서 조사하는 접근법과 대조됩니다. 
Phenomenology is the analysis of phenomena as we encounter them. The way the world presents itself to us human beings in ordinary life is its starting point. A phenomenon can be anything from a thing to a situation to a thought or experience that we become aware of as we go about our day. 

  • Phenomenon means that which shows itself, or that which occurs.
  • Phenomenology therefore means to study that which shows itself to us as it shows itself to us.19 

In this way, phenomenology is contrasted with approaches to science and research that do not take everyday life as a starting point, and with those that examine everyday life occurrences not on their own terms, but within preset analytical frameworks.

예를 들어, 잠에서 깨어나 그날 밤 꾼 꿈을 기억한다고 생각해 보세요. 꿈은 현상입니다. 아마도 꿈에서 당신은 하늘을 날고 있었을 것입니다. 그 꿈에 대해 생각하고 분석하면서 생각을 적고 기분이 어땠는지, 반복되는 꿈인지, 그 꿈이 자신에게 어떤 의미가 있는지 살펴볼 수 있습니다. 매일 아침 꿈을 적고, 비교하고, 패턴을 찾고, 일기를 쓰는 등 하루 중 꿈의 특정 요소와 겹치는 다른 사건이 있는지 살펴봄으로써 꿈에 대한 현상학적 분석을 수행할 수도 있습니다. 이 현상학적 분석에서는 꿈이 진짜인지 아닌지, 예측 가치가 있는지 없는지, 꿈의 원인이 무엇인지에 대해서는 관심을 두지 않는다는 점에 유의하세요. 여러분은 단순히 자신에게 일어나는 일을 설명하는 것을 목표로 하고 있습니다. 
As an example, think of waking up and remembering a dream you had that night. The dream is the phenomenon. Perhaps, in the dream, you were flying. You could think about the dream and analyze it, writing your thoughts down and examining how it makes you feel, whether this is a recurring dream and if the dream means anything to you. You could even perform a phenomenological analysis of your dreams by writing them down each morning, comparing them, looking for patterns, and examining (e.g. by keeping a diary) whether there are other events in your day that seem to co-occur with certain elements in dreams. Notice that in this phenomenological analysis, you have not concerned yourself with whether dreams are real or not, whether they have predictive value, or what causes them. You are simply aiming to describe what occurs to you.

예를 들어 꿈을 낮 동안의 미완성 된인지 활동의 처리로 보는 등 꿈에 대한 신경학적 또는 심리적 이론을 살펴보기 시작하는 순간 우리는 현상학을 벗어난 것이다. 그렇다고 현상학에서 신경학적 또는 다른 설명의 가능성을 부정하는 것은 아니며, 현상이 의미 있는 사건으로 우리에게 어떻게 나타나는지에 집중하지 않기 위해 이 옵션을 일시 중단한 것입니다. 현상학에서 설명이나 이론을 중단하는 것을 '괄호 치기'라고 하는데, 우리는 현상(이 경우 꿈)이 '진짜'인지 또는 무엇이 '원인'인지에 대해서는 관심을 두지 않습니다. 대신 '사물 자체'를 설명하는 데 집중합니다.18(168쪽) 해석적 틀을 통해 현상을 분석하기 전에 현상이 어떻게 발생하는지를 포착하는 것이 현상학의 핵심이자 주요 과제입니다. 이는 '가공된' 세계가 아니라 세계가 우리에게 제시하는 날것 그대로의 방식, 즉 반성 이전의 인식을 포착하는 것이 이상적입니다. 우리(특히 연구자)는 분석적 프레임워크 내에서 현상을 분류하여 즉각적으로 분석하는 데 익숙하기 때문에 이는 매우 어려운 일입니다.  
The moment we start to look at neurological or psychological theories about dreams, for instance by seeing dreams as the processing of unfinished cognitive activities during the day, we have left phenomenology. This does not mean that, in phenomenology, we deny the possibility of neurological or other explanations; we simply suspend this option in order not to be distracted from how the phenomenon shows itself to us as a meaningful event. This suspending of explanations or theory in phenomenology is called “bracketing”: we are not concerned with whether the phenomenon – in this case the dream – is “real” or with what “caused” it. Instead, we remain focused on describing the “things themselves”.18(p168) This is both the core and the major challenge of phenomenology, to capture how a phenomenon occurs before we analyze it through interpretive frameworks. This is the ideal of capturing pre-reflective awareness: the raw way in which the world presents itself to us, rather than a “processed” version of it. This is so challenging because we (especially researchers) are used to instantly analyzing phenomena by categorizing them within analytical frameworks.

현상학의 몇 가지 기본 원칙
Some basic principles of phenomenology

현상에 대한 즉각적인 접근
Immediate access to phenomena

이 예를 염두에 두고 현상학은 우리가 즉각적으로 접근할 수 있는 것에 관심을 갖는다고 현상학에 대한 기본적인 설명을 할 수 있습니다. 꿈을 꾸는 사람만이 꿈에 직접 접근할 수 있습니다. 다른 사람들(연구자 포함)은 꿈꾼 사람이 보고하는 것을 통해서만 꿈에 접근할 수 있습니다.

  • 비현상학적 접근법은 일반적으로 우리가 즉각적으로 접근할 수 있는 것을 넘어 심리학이나 신경학과 같이 미리 정의된 이론적 입장에서 현상을 분석하려고 시도합니다.
  • 비현상학적 접근의 또 다른 예인 현실주의적 평가"인과적 규칙성을 발생시키는 근본적이고 생성적인 메커니즘"을 파악하려고 시도합니다.21(p1)

현상학은 이러한 종류의 메커니즘이 존재하는지, 또는 무엇으로 구성되어 있는지에 대해 어떠한 주장도 하지 않으며, 단지 우리가 단순히 우리에게 일어나는 것을 관찰할 때 즉시 이용할 수 없다는 것만 주장합니다. 이러한 현상학의 원리를 환자가 직접 관찰(DO) 상황을 경험하는 방식에 대한 인터뷰 연구에 적용하여,1 우리의 목표는 일상 생활 맥락에서 참가자가 현상에 즉각적으로 접근하는 방식을 연구하여 DO 상황과 환자 간의 관계에서 반복되는 패턴을 찾는 것이었습니다. 
With this example in mind, we come to a basic description of phenomenology as being concerned with that to which we have immediate access. Only the dreamer has direct access to the dream. Others (including researchers) only have access to the dream through what dreamers report.

  • Non-phenomenological approaches usually attempt to go beyond that which we have immediate access to, and instead analyze phenomena from a pre-defined theoretical position, such as psychology or neurology.
  • Realist evaluation, as another example of a non-phenomenological approach, attempts to identify “underlying, generative mechanisms that give rise to causal regularities”.21(p1) 

Phenomenology does not make any claim about whether these kinds of mechanisms exist or what they consist of, but only that they are not immediately available when we simply observe what occurs to us. Applying this principle of phenomenology to our interview study on how patients experience direct observation (DO) situations,1 our goal was to study participants’ immediate access to the phenomenon in an everyday life context, looking for recurring patterns in the relationship between the DO situation and the patient.

그러나 HPE 연구 실무에서 문제는 참가자가 직접 접근할 수 있는 것뿐만 아니라, 연구자로서 어떤 데이터와 방법을 통해 상황에 접근할 수 있는지에 대한 것입니다. 이 질문에 대한 명확한 답은 없습니다. 우리의 DO 연구는 연구자가 참여자가 되어 자신의 경험을 기술하고 성찰하는 자기인류학 방법을 사용하여 수행될 수 있었습니다. 또는 실제 DO 상황을 녹화하고 비디오 녹화를 분석하는 방법을 사용할 수도 있습니다. 이 경우 언어적 상호작용뿐만 아니라 시선 접촉, 누가 어디에 앉는지 등 DO 중에 보이는 것과 들리는 것을 즉각적으로 파악할 수 있었을 것입니다. 그래서 저희는 참가자와의 인터뷰를 진행하기로 결정했습니다. 그러나 어떤 데이터 수집 방법을 채택하든, 처음부터 해석, 기억 또는 기타 분류의 필터를 거치지 않고 현상 또는 현상의 일부가 그 자체로 드러날 수 있도록 하는 데 초점을 맞춰야 합니다.  
However, in the practice of HPE research, the question is not just what the participants have direct access to, but through which data and methods we as researchers can gain access to the situation. There is no obvious answer to that question. Our DO study could have been done using methods of autoethnography, in which the researcher is the participant and describes and reflects on their own experience. Or alternatively, through recording actual DO situations and analyzing the video recordings. In that case, we would have had immediate access to what is visible and audible during DO: what happens in terms of verbal interaction, but also in terms of eye contact, who sits where, etc. We opted for conducting interviews with participants. But whatever data collection method one adopts, it should be focused on the phenomenon, or part of the phenomenon, being able to show itself on its own terms, rather than through a filter of interpretation, memory, or any other categorization we impose on it from the start.

경험적 연구에서 '사전 성찰'은 이상적이지만, 저희는 참가자가 그 DO 상황에 처했을 때의 '날것' 경험을 최대한 포착하려고 노력했습니다. DO 상황이 발생한 직후에 인터뷰를 진행했기 때문에 참가자들이 그 경험을 '생생하게' 느끼고 반성할 시간이 많지 않았습니다. 인터뷰에서는 특정 현상과 관련하여 참가자에게 인식된 장벽과 조력자에 대해 명시적으로 묻는 인터뷰 연구에서와 같이 DO에 대한 의견이나 이에 대한 참가자의 해석에 초점을 맞추기보다는 경험의 '방법'에 초점을 맞춰 참가자를 부드럽게 안내했습니다. 정교한 질문을 통해 해석의 틀을 제시하는 대신 고개를 끄덕이거나 문장의 마지막 단어를 반복하는 등 비지시적인 프롬프트를 통해 참가자를 자극했습니다. 
Although in the practice of empirical research “pre-reflective” is an idealization, we tried as much as possible to capture the “raw” experience of what it was like for the participant to have been part of that DO situation. We performed the interviews immediately after the DO situation, so that the experience was still “fresh” and the participants did not have much time to reflect on it. In the interviews, we gently steered participants to the “how” of the experience, rather than focusing on their opinions about DO or their own interpretations of it – as might be done in an interview study that explicitly asks participants about perceived barriers and enablers with regard to a certain phenomenon. Instead of introducing interpretive frameworks through elaborate questions, we stimulated participants with non-directive prompts, like nodding and repeating the last words of a sentence.

의미와 자연스러운 태도를 괄호로 묶기
Meaningfulness and bracketing the natural attitude

두 번째 기본 원칙으로, 현상학에서는 의미를 현상의 필수적인 부분으로 간주하며, '객관적인' 연구 대상을 갖기 위해 제거해야 하는 것이 아니라고 생각합니다. 현상은 누군가에게 발생하며 무언가를 가리킵니다. 예를 들어, 누군가에 의한, 그리고 무언가에 대한 지식이 아닌 '지식'이란 존재하지 않습니다. HPE 연구에서 다루는 연구 대상은 거의 항상 의미가 있습니다. 예를 들어 의학과는 달리 우리는 화학적 과정이 아니라 인간의 과정을 연구합니다. 우리는 대상과 대상 간의 관계를 연구합니다. 이번 연구 프로젝트에서는 환자가 주체가 되어 환자가 처한 DO 상황과의 관계를 연구했습니다. 현상학에서는 주체와 객체, 그리고 이들 간의 관계를 현상의 본질적인 부분으로 간주하며, 이 관계 없이는 현상을 이해할 수 없습니다. 이러한 관계는 당연한 것으로 받아들이는 것이 아니라 현상학적 탐구의 일부입니다.
As a second basic principle, phenomenology considers meaning to be an integral part of phenomena and not something that we have to do away with in order to have an “objective” research object. Phenomena occur to someone and point to something. For instance, there is no such thing as “knowledge” that is not knowledge by someone and about something. The research objects that HPE research concerns itself with are almost always meaningful. Unlike medical science, for instance, we do not study chemical processes but human processes. We study relationships between objects and subjects. In our research project, the patient was the subject and we studied their relationship to the DO situation that they were in. Phenomenology treats subjects, objects, and the relationships between them as essential parts of phenomena without which we cannot understand them. These relationships are part of a phenomenological investigation instead of taking them for granted.

후설은 관계를 당연시하는 것을 자연적 태도, 즉 객관적 실재의 존재나 그 실재와의 관계에 대해 의문을 제기하지 않는 일상적 삶의 태도라고 불렀습니다.22 이는 또한 우리 외부에 우리가 속하지 않고도 조사할 수 있는 경험적 실재가 있다는 관점에서 연구를 수행하는 비현상학적 HPE 연구에서 우리가 취하는 태도입니다. 자연적 태도의 관점에서 보면 레지던트는 환자와 상담을 하고 슈퍼바이저는 관찰을 위해 '그냥 거기'에 있는 것입니다. 물론 이것이 이상적이라는 것은 알고 있지만, 수퍼바이저가 이 역할에 충실하고 '벽에 붙은 파리'가 될수록 관찰이 더 성공적으로 이루어질 수 있습니다.2 예를 들어 자연적 태도에서는 참여자와 인터뷰를 하고 코딩할 수 있습니다.
Husserl called this taking for granted of relationships the natural attitude: the attitude of everyday life in which we do not question the existence of an objective reality or our relationship to it.22 It is also the attitude we have in non-phenomenological HPE research, in which we conduct research from the perspective that there is an empirical reality outside of us that we can investigate without being part of it. From the perspective of the natural attitude, the resident has a consultation with a patient, and the supervisor is “just there” to observe. Of course we know this is an ideal, but the more the supervisor can conform to this role and be a “fly on the wall,” the more successful the observation will be.2 From the natural attitude, we could, for instance, hold interviews with the participants and code them.

그러나 현상학적 태도(자연적 태도에 괄호를 치는)에서 우리는 "직접 관찰"이라는 아이디어에 의문을 제기했습니다. 우리는 슈퍼바이저와 참석자 간의 관계가 어떤지 미리 알고 있다고 가정하지 않았습니다. 사실, 이것이 바로 우리가 조사하고자 했던 것이었습니다. 이 조사의 일환으로 저희는 환자들이 그 상황을 어떻게 경험했는지에 대해 인터뷰하고 싶었습니다. 그런 다음 이러한 인터뷰를 분석하면서 환자가 상황 전체에 대한 관계와 함께 동석한 다른 두 사람과의 관계를 어떻게 구성했는지에 초점을 맞추었습니다.
But from a phenomenological attitude (bracketing the natural attitude), we called the idea of “direct observation” into question. We did not assume that we knew beforehand what the relationship was between the supervisor and the other people present. In fact, this was precisely what we wanted to investigate. As part of this investigation, we wanted to interview patients about how they experienced the situation. In the analysis of these interviews, we then focused on how patients constructed their relationship to the situation as a whole and their relationship to the two other people that were present.

중요한 것은 자신이 알고 있는 것만 괄호로 묶을 수 있다는 것입니다. 현상에 대해 우리가 이미 가지고 있는 성향을 인식하는 것은 그것들을 한쪽에 배치하는 것만큼이나 중요합니다. 현상학에서 우리는 우리가 인식하는 대상에 우리의 관점, 판단, 가치관이 스며들어 있음을 인식합니다.3 우리가 보는 모든 것은 이미 세상에 대한 우리의 근본적인 태도에 의해 채색되어 있습니다. 그러나 자신의 근본적인 가정을 인식하는 것은 가장 어려운 철학적 관행 중 하나입니다.23 이는 연구 전후에 한 번만 성찰하는 것이 아니라 현상학적 연구 전반에 걸쳐 지속적으로 수행되는 관행입니다. 본 연구에서는 인터뷰를 진행하기 전에 두 명의 주요 연구자가 각각 DO 상황에서 환자가 되는 것에 대한 자신의 가정에 대한 에세이를 썼습니다. 그런 다음 이 에세이에 대해 서로 인터뷰했습니다. 이 세션은 녹음, 필사 및 분석되었으며, 이 과정은 두 연구자가 연구 기간 내내 작성한 반성적 일기의 시작이 되었습니다.
Importantly, one can only bracket what one is aware of. Becoming aware of the dispositions we already have toward the phenomenon is just as important as placing them to one side. In phenomenology, we recognize that the objects we are aware of are imbued with our perspective, our judgements, and our values.3 Anything we see is already colored by our fundamental attitude to the world. However, becoming aware of one’s own fundamental assumptions is one of the most challenging philosophical practices.23 It is an ongoing practice throughout phenomenological research, rather than a one-time reflection before or after the research. In our study, prior to conducting interviews the two main researchers each wrote an essay on their own assumptions about being the patient in a DO situation. They then interviewed each other about these essays. This session was recorded, transcribed, and analyzed, and this process served as the start of a reflexive diary that both researchers kept throughout the study.

연구자의 반성적 성찰은 모든 질적 접근 방법의 일부이지만, 일반적으로 연구자로서의 자신의 배경이 관점을 편향되게 만들었을 수 있는 방법을 찾기 위해 자신의 입장을 성찰하는 것으로 귀결됩니다. 그러나 괄호는 연구자가 가질 수 있는 의견(또는 기타 "편견")이 아니라 관계에 대한 가정(예: 이 경우 DO 상황에서 환자와 레지던트 및 감독자 간의 관계)과 DO에서 작동한다고 가정하는 기본 메커니즘에 대한 가정에 관한 것입니다. 
While researcher reflexivity is a part of all qualitative approaches, it usually comes down to reflecting on one’s own positionality to look for ways in which one’s own background as a researcher might have biased their perspective. However, bracketing is not so much about the opinions (or other “biases”) one might have, but on assumptions about the relationships, such as, in this case, for example, the relationship between the patient and the resident and supervisor in the DO situation, and about what underlying mechanisms one assumes are at work in DO.

현상을 그 자체로 설명하기
Describing phenomena on their own terms

세 번째 원칙으로, 현상학은 대부분의 연구 접근 방식에서 익숙한 방식, 즉 현상을 '파일화할 수 있는' 연구 대상으로 환원하고 주관적 경험의 고유성에서 추상화하는 것을 지양합니다이론은 '제3의 관점', 즉 내 것도 네 것도 아닌 일종의 비인격적 입장에서 세상을 설명합니다. 현상학에서 현상은 일차적인 것이며, 의학교육 연구에서 체계적으로 또는 일상에서 '비공식적으로' 사물을 분석하는 방식으로 현상을 이론화하고 분석하는 것은 이 일차적인 경험에 뿌리를 두고 있습니다. 현상학은 3인칭의 '외부' 관점에서 공식화된 범주가 아닌, 현상 자체의 관점에서 현상을 이해하는 것을 목표로 합니다.
As a third principle, phenomenology refrains from doing something that we are so used to in most approaches to research: reducing phenomena to research objects that become “fileable” entities and abstracting them from the uniqueness of subjective experience. Theory describes the world from a “third perspective,” a kind of impersonal position that is neither yours nor mine. In phenomenology, the phenomenon is primary, and theorizing and analyzing phenomena – whether systematically in medical education research, or in the way that we analyze things “informally” throughout our day – is rooted in this primary experience. Phenomenology aims to understand phenomena on their own terms rather than in terms of categories that have been formulated from a third-person, “outside” perspective.

환자 연구에서 우리는 구성주의적 근거 이론의 목표가 될 수 있는 심리적 또는 사회학적 과정에 대한 이론을 구축하는 측면에서 말한 내용을 이해하려고 노력하지 않았습니다. 대신, 우리는 사람들의 성찰 전 경험 사이의 공통점을 설명하고자 했습니다. 예를 들어, 일부 환자들은 레지던트와 수퍼바이저 간의 명확한 역할 분담이 수련 중에 위반되어서는 안 되는 중요성에 대해 보고했습니다. 그러나 역할 위반이 때때로 DO와 일치하는 것으로 취급된다는 징후도 발견했습니다. 또한 많은 환자들이 레지던트와 슈퍼바이저가 서로 조화를 이루는 것 같아서 즐거운 경험이었다고 강조했습니다. 
In our patient study, we were not striving for an understanding of what was said in terms of building theory on psychological or sociological processes as could, for instance, be the aim of constructivist grounded theory. Instead, we wanted to describe commonalities between people’s pre-reflective experiences. As an example, some patients reported on the importance of a clear role division between resident and supervisor that should not be breached during DO. But we also found indications that role breaching was sometimes treated as consistent with DO. Moreover, many patients emphasized that the experience had been pleasant because the resident and supervisor seemed in harmony with each other.

비현상학적 접근법이었다면, 우리는 이러한 결과를 통해 DO 상황에서의 역할 분담과 조화에 대한 이론을 유도했을 것입니다. 대신 우리는 이러한 환자들의 생각을 반복되는 경험의 사전 반성적 구조로 거슬러 올라갔습니다. 즉, 진료 상황에서 환자가 된다는 것은 두 명의 의사와 한 공간에 있는 것을 의미하며, 그들이 서로 어떻게 상호작용할지, 그리고 자신과 어떻게 상호작용할지 모른다는 것을 의미했습니다. 이는 차분하고 친근한 상호 작용에 대한 환자의 요구와 이를 보장하기 위한 환자의 수동적인 역할에 공감을 불러일으켰습니다. 
In a non-phenomenological approach, we might have induced from these findings a theory on role division and harmony in DO situations. Instead we traced these patients’ ideas back to a recurring pre-reflective structure of the experience: being the patient in a DO situation meant being in a room with two doctors, not knowing how they will interact with each other and with oneself. This resonated with patients’ needs for calm and friendly interactions, and their passive role in securing these.

경험에서 반복되는 패턴을 파악하기 위해 우리는 이 요소(상상적 변형)가 없어도 그 현상을 여전히 그 현상이라고 할 수 있는지에 대한 질문에 따라 안내를 받았습니다.7 예를 들어, 환자와 슈퍼바이저 사이의 눈맞춤에 대한 많은 코드가 있었기 때문에 경험의 필수 요소로 보였습니다. 그러나 우리는 이러한 아이컨택이 없어도 DO 상황에서 환자가 되는 것은 여전히 같은 현상이 될 것이라고 생각했습니다. 아이컨택은 DO에 필수적이지 않은 것 같았습니다. 환자가 공감하고 안심할 수 있는 두 번째, 더 선배 의사의 존재가 필수적인 것으로 보였고, 이 때 아이컨택이 중요한 역할을 하는 경우가 많았습니다.
To identify recurring patterns in the experience, we were guided by the question of whether the phenomenon would still be the phenomenon without this element (imaginative variation).7 We had, for example, many codes about eye contact between the patient and the supervisor, which therefore seemed an essential element of the experience. However, we reasoned that without this eye contact, being the patient in a DO situation would still be the same phenomenon. Eye contact did not seem essential for DO. What seemed essential was the presence of a second, more senior doctor that the patient could relate to and be reassured by, in which eye contact often played a role.

HPE 연구의 현상학적 관행
Phenomenological practices in HPE research

질적 연구에 대한 배경 지식이 있는 독자는 위에서 설명한 많은 원칙의 측면을 자신의 연구 방법에서 인식하고 현상학과 (다른 형태의) 질적 연구의 차이점이 무엇인지 궁금해할 수 있습니다. 실제로 현상학이 일반적으로 질적 연구와 즉시 구별되지 않는 경우가 많기 때문에 현상학이 무엇인지 파악하는 데 있어 HPE 연구자들이 겪는 어려움 중 하나가 바로 이것입니다. 
Readers with a background in qualitative research might recognize aspects of many of the principles discussed above in their own methods, and wonder what constitutes the difference between phenomenology and (other forms of) qualitative research. Indeed, this is one of the challenges for HPE researchers in grasping what phenomenology is: it is often not immediately distinguishable from qualitative research in general.

여기에는 역사적, 철학적 이유가 있습니다. 예를 들어, 사회 구성주의는 후설, 하이데거, 메를로퐁티와 같은 현상학자들을 배경으로 그리고 그들과의 대화를 통해 발전해 왔기 때문에 [현상학]을 [사회 구성주의적 접근 방식]과 대조하는 것은 오해의 소지가 있습니다. HPE 연구에 영향을 미친 사상가 중 한 명인 푸코(이 시리즈의 이전 연재 주제25)는 흔히 포스트 구조주의자로 분류되며 구성주의 및 구성주의와 관련이 있습니다. 그러나 푸코는 하이데거를 자신의 사고에 가장 중요한 영향을 준 사람 중 한 명으로 꼽았습니다.26 역사적 관점에서 보면 현대의 민족지학, 구성주의, 담론 분석 등은 모두 현상학이라는 역사적, 철학적 운동의 존재에 어느 정도 의존하고 있습니다. 따라서 현상학을 공부하면 종종 현상학과 대조되지만 실제로는 현상학에 의존하는 접근법을 더 잘 이해할 수 있습니다. 
There are historical and philosophical reasons for this. For instance, it is misleading to contrast phenomenology with social constructivist approaches, since social constructivism has been developed against the background of and in dialogue with phenomenologists like Husserl, Heidegger, and Merleau-Ponty. Foucault, one of the thinkers who has been influential in HPE research24 (and the subject of a previous installment in this series25), is often categorized as a post-structuralist and associated with constructivism and constructionism. However, Foucault listed Heidegger as one of the most important influences on his thinking.26 In historical terms, our modern versions of ethnography, constructivism, discourse analysis, and so on, are all to some extent dependent on the existence of the historical and philosophical movement of phenomenology. Studying phenomenology will therefore also lead to a better understanding of approaches that are often contrasted with it, but that actually depend on it.

[철학적 사유]란 [연구 수행에 대한 광범위한 접근 방식]과 [구체적인 연구 방법] 간의 관계에 관한 것입니다. 우리가 설명한 방식으로 자연스러운 태도를 괄호로 묶지 않고도, 자신의 해석적 틀의 관점이 아닌 자신의 용어로 문화 현상을 설명하기 위해 열린 자세로 민족지학에 현상학적 접근법을 취할 수 있는 것처럼, 비현상학적 방식으로 해석적 현상학적 분석(IPA)27을 적용할 수 있습니다. 현상학은 [과학에 대한 접근 방식]이지 [특정 과학적 방법]이 아닙니다. 현상학은 해답을 제공할 뿐만 아니라 구체적인 연구 수행과 관련된 특정 질문을 하도록 자극합니다. 
The philosophical reason concerns the relationship between broad approaches to conducting research and concrete research methods. Without bracketing the natural attitude in the way we have described, one can apply Interpretive Phenomenological Analysis (IPA)27 in a non-phenomenological way, just as one can take a phenomenological approach to ethnography with a deep commitment to being open to describe cultural phenomena on their own terms rather than from the perspective of one’s own interpretive frameworks. Phenomenology is an approach to science, and not a particular scientific method. Not only does it provide answers, it also stimulates asking certain questions related to the concrete practice of doing research.

모든 연구자, 특히 현상학적 관점에서 연구를 수행하고자 하는 연구자가 스스로에게 던져볼 수 있는 네 가지 질문이 있습니다:
There are four questions we suggest all researchers, but especially those committed to conducting research from a phenomenological perspective, could ask themselves:

  1. 내가 연구하고자 하는 현상에 대해 어떤 즉각적인 접근이 가능한가, 그리고 다양한 데이터 수집 방법이 접근에 어떤 영향을 미치는가? 예를 들어, 인터뷰를 통해 그 사람이 그 상황에 처했을 때 어땠는지 보다 직접적으로 접근할 수 있지만, 과거의 상황이기 때문에 항상 어느 정도 해석과 반영이 필요합니다. 상황의 비디오 녹화를 통해 각 참가자의 말과 행동 측면에서 상황이 어떤지 즉각적으로 알 수 있지만, 그들이 생각하거나 느끼는 것, 또는 의도가 무엇인지에 대해서는 알 수 없습니다.
    What immediate access do I have to the phenomenon I want to study, and what implications do different data collection methods have for access? For instance, through interviews I have a more direct access to what it was like for that person to be in that situation, but because the situation is in the past, there is always some extent of interpretation and reflection. Through video recordings of the situation I do have immediate access to what the situation is like in terms of what each participant says and does, but I do not have access to what they think or feel, or what their intentions are.
  2. 내 데이터를 통해 즉각적으로 접근할 수 있는 것이 무엇인지에 대한 질문과 관련하여, 연구에서 현상에 대해 알고 주장할 수 있는 것의 한계는 어디까지일까요? 연구를 수행한다는 것은 우리가 무엇을 연구하고 있는지, 우리가 연구하는 대상과 어떤 관계가 있는지, 그리고 그것에 대해 어떤 종류의 진술을 할 수 있는지 또는 할 수 없는지에 대해 정확하게 파악하는 것을 의미합니다. 예를 들어, '감정'이 아닌 '감정에 대해 인터뷰하는 사람들의 오디오 녹음'과 같은 데이터가 무엇인지, 그리고 이 연구 데이터를 통해 무엇을 말할 수 있는지 명확히 해야 합니다. 인터뷰 녹음에서는 '생각'을 관찰하는 것이 아니라 설명, 상호작용 등과 같은 사회적 행동을 관찰합니다. 따라서 우리는 "환자가 생각한다"라고 말하지 않고 "참가자가 그렇게 보고한다..."라고 말합니다. 
    Related to the question of what my data gives me immediate access to, what are the limits to what I can know and assert about the phenomenon in my research? To conduct research means to be precise about what we are studying, what our relation is to that which we are studying, and what kind of statements we can or cannot make about it. We have to be clear what our data is (for instance, “audio recordings of people being interviewed about emotions,” instead of “emotions”) and what this research data allows us to say. In recordings of interviews, we do not observe “thoughts,” but social actions such as descriptions, interactions, and so on. So, we do not say “patients think”, but "participants report that…".
  3. 내가 조사하는 상황에 대한 나의 자연적 태도는 무엇이며, 그 현상이 저절로 나에게 나타나기 위해서는 무엇이 필요할까요? 일반적인 연구(따라서 현상학적 연구 포함)와 관련된 성찰과는 달리, 이러한 유형의 성찰은 나의 문화적 배경과 가정이 (객관적인) 현상에 대한 나의 인식을 어떻게 편향시키는지에 관한 것이 아니라, 나와 인터뷰 대상자와의 관계 또는 인터뷰 대상자와 그들이 말하는 DO 상황의 관계와 같은 관계에 관한 가정에 관한 성찰입니다. "편향"이라는 용어는 주관적인 연구자가 관점을 가지고 있는 상황이 존재한다고 말하는 자연스러운 (객관주의적) 태도를 말합니다. 즉, 주관성은 가능한 한 비활성화해야 하는 필터로 간주됩니다. 그러나 현상학에서 주관성은 나쁜 것이거나 현상에 덧붙여진 것이 아니라 오히려 현상의 필수적인 부분이며 현상을 이해하기 위한 필수 요건입니다. 예를 들어, 담화 심리학28에서는 상황의 기록에서 눈에 보이고 들리는 것만 기술하도록 제한하고, 참여자가 수행해야 하는 제도적 역할이나 남성인지 여성인지와 같은 상호작용 외적인 범주에 대해서는 언급하지 않습니다. 물론 참여자 스스로가 이러한 범주를 관찰 가능하게 만들어 상호작용과 현상의 일부로 삼지 않는 한 말이죠.
    What is my natural attitude toward the situation I examine and what would it take for the phenomenon to show itself to me on its own terms? In contrast to reflexivity as it pertains to research in general (thus, including phenomenological research), this type of reflection is less about how my cultural background and assumptions would bias my perception of the (otherwise objective) phenomenon, but rather about assumptions regarding relationships, such as my relationship to the interviewee, or the relationship of the interviewee to the DO situation they are speaking about. The term “bias” refers to the natural (objectivist) attitude that says that there is a state of affairs out there that a subjective researcher has a perspective on. In other words, subjectivity is seen as a filter that we should disable as much as possible. Within phenomenology, however, subjectivity is not something bad or added on to phenomena, but rather it is an integral part of phenomena and a requirement to understand them. In Discursive Psychology,28 for instance, we confine ourselves to only describing what is visible and audible in the recordings of the situation, and refrain from referring to interaction-external categories such as the institutional role that a participant is expected to fulfill or whether they are male or female – unless, of course, the participants themselves observably make these categories part of the interaction and therefore of the phenomenon.
  4. 내 연구 장치가 내가 조사하는 현상에 어떤 영향을 미치나요? 이 질문에서 알 수 있듯이 연구 장치, 즉 내가 일하는 대학의 전체 구성, 라이브 인터뷰든 Zoom을 통한 인터뷰든, 인터뷰 코딩 방식, 논문 작성 방식은 현상에 대한 외부의 관점이 아니라 현상의 일부로 간주됩니다.29 연구도 다른 관행과 마찬가지로 관행입니다. 연구를 수행하는 사람들과 그들이 처한 상황에 따라 달라집니다. 이는 연구 장치를 중립적인 것으로 취급할 수 없음을 의미합니다. 여기에는 연구자의 업무 환경부터 방법론적 선택, 인터뷰 중 던지는 질문까지 모든 것이 포함됩니다. 연구자는 연구 외부에 있는 것이 아니라 연구에 '체화embodied'되어 있는, 즉 연구의 필수적인 부분입니다. 우리는 모든 연구 프로젝트에서 어떤 식으로든 이러한 인사이트를 정의롭게 구현해야 합니다. 이에 대한 한 가지 실질적인 의미는 데이터에서 분석이 "이루어졌다"는 인상이나 주제가 "나타났다"는 인상을 주지 않도록 능동태로 작성하는 것입니다.
    How does my research apparatus factor into the phenomenon I am investigating? As this question suggests, the research apparatus – the whole constellation of the university I work in, whether I interview live or via Zoom, the way I code the interviews, the way I write up the paper – is considered part of the phenomenon rather than an outside perspective on it.29 Research is a practice like other practices. It is contingent on the people who conduct it and the circumstances in which they conduct it. This means that we can never treat the research apparatus as neutral. It includes everything from one’s work environment to methodological choices and questions asked during an interview. The researcher is not outside the research, but is “embodied,” i.e., an integral part of it. We have to do justice to this insight in some way in every research project. One practical implication of this is to write in the active voice, so as not to give the impression that an analysis “was made” and themes “have emerged” from the data.

터널 끝의 마법
Magic at the end of the tunnel

지난 2년 동안 이 터널을 파면서 크리스인 제가 배운 것은 무엇일까요? 무엇보다도 현상학은 방법이 아니라 과학에 대한 접근 방식이라는 점입니다. 그리고 그것은 자연스러운 태도를 중단하고 근본적으로 다른 방식으로 바라볼 것을 요구합니다. 
What have I, Chris, learned while digging this tunnel over the last two years? First and foremost, that phenomenology is not a method but an approach to science. And that it calls for a radically different way of looking, suspending the natural attitude.

둘째, 실용적인 연구자로서 저는 이제 현상학적 인터뷰 연구에서 어떤 종류의 결과를 찾고 있는지, 그리고 이것이 인터뷰 데이터를 사용하는 다른 접근 방식의 결과와 어떻게 다른지 알게 되었습니다. 우리는 사람들의 [생각, 감정, 의견 그 자체]에 관심이 있는 것이 아니라 이러한 생각, 감정, 의견의 근간이 되는 반복적인 경험 구조에 관심이 있다는 것을요. 제가 보기에 현상학적 마술은 데이터의 소위 "이데아적 환원"8,30에 있으며, 데이터를 이러한 반복적인 경험 구조에 대해 드러내는 것으로 되돌려 놓는 데 있습니다. 제가 생각하는 마법은 수많은 설명을 현상의 의미 있는 소수의 특성으로 구조화하는 결과의 단순성에 있습니다. 이렇게 관리 가능한 수의 특성을 고려하면 지속적인 문제를 해결하는 데 도움이 될 수 있다는 실용적인 관련성이 있습니다. 
Second, as a practical researcher, I now know what kind of results I am looking for in a phenomenological interview study, and how these differ from results of other approaches that make use of interview data: we are not interested in people’s thoughts, feelings, or opinions per se, but rather in the recurring structures of experience that underlie these ideas, opinions, and feelings. To me, that is the phenomenological magic: it is in the so-called “eidetic reduction8,30 of data, in bringing the data back to what it reveals about these recurring structures of experience. The magic, to me, is in the simplicity of its results that structure numerous accounts into a small number of meaningful characteristics of the phenomenon. The practical relevance of this is that taking this manageable number of characteristics into account may help resolve persistent problems.

이를 설명하기 위해 마지막으로 한 가지 예를 들자면, 일반과 레지던트 시절의 진료 상황에 대한 환자들의 경험을 조사한 결과, 환자들은 후배와 선배라는 두 명의 의사가 있는 상황을 경험했습니다. 이 단순하고 반복적인 구조는 선배에 대한 환자의 모든 종류의 생각과 행동에 영향을 미쳤습니다.1 예를 들어, 환자들은 종종 치료 계획에 대한 선배의 승인 표시를 찾았습니다. 이 연구 결과를 통해 우리는 수퍼바이저가 DO를 진행하는 동안 수퍼바이저가 관찰하고자 하는 상황을 완전히 바꾸어 버리는 즉흥적인 접근 방식의 적절성에 의문을 갖게 되었습니다. 자명하지만 종종 간과되는 이 발견은 이러한 상황에서 우리가 가장 잘 행동할 수 있는 방법과 학습 및 평가 목적에 가장 잘 사용하는 방법에 영향을 미칠 수 있습니다. 
To give one last example to illustrate this, in our investigation of patients’ experiences with DO situations in general practice residency, patients experienced the presence of two doctors, a junior and a senior. This simple, recurring structure was responsible for all kinds of thoughts and behaviors of patients toward the senior.1 For instance, patients often looked for signs of approval from the senior of the treatment plan. This finding made us question the appropriateness of a fly-on-the-wall approach by supervisors during DO; supervisors, by being there, completely change the situation that they intend to observe. This self-evident but often overlooked finding may have consequences for how we can best behave in these situations and how best to use them for purposes of learning and assessment.

결론
Conclusion

현상학적 관점에서 HPE 연구를 수행하는 것은 복잡하지만 가치 있는 일입니다. 그 복잡성은 기술적 고려 사항 때문이 아니라 많은 연구자, 특히 의과학 배경을 가진 연구자에게 익숙한 것과는 다른 기본 태도를 습득해야 하기 때문입니다. 이를 위해 HPE 연구원들은 일상적인 연구 관행을 뒷받침하는 몇 가지 철학적 "편견"31에 대해 한 발 물러서서 숙고하는 노력을 기울여야 합니다. 현상학이 취하는 근본적으로 다른 접근 방식에 대한 기본적인 개념이 없다면, 현상학적 '방법'은 이름만 현상학적인 것일 수 있습니다. 
Conducting HPE research from a phenomenological perspective is complex but valuable. Its complexity is not due to technical considerations, but to acquiring a basic attitude that is different from what many researchers, especially those with a medical science background, are used to. To achieve this, HPE researchers must make the effort to step back and contemplate some of the philosophical “biases”31 that underpin our daily research practice. Without some basic idea of the fundamentally different approach that phenomenology takes, phenomenological “methods” may be phenomenological in name only.

현상학은 HPE에서 주제를 조사하기 위한 논리적 출발점입니다. 현상학은 연구를 시작하기 전부터 현상을 어느 정도 파악하고 있느냐에 따라 연구가 제한됩니다. 의학교육의 대부분의 연구는 연구 대상을 정의하는 것에서 시작됩니다. 이는 종종 연구 대상에 대한 정의를 제공하는 것으로 이루어집니다. 예를 들어, "성찰은 메타인지적 과정으로...". 현상학의 관점에서 볼 때, 이것은 연구 대상을 해당 현상에 대한 가정을 전제로 하는 특정 해석 프레임워크로 미리 축소하는 환원주의입니다. 해석적 틀에 맞지 않는 것은 전혀 고려되지 않거나 연구와 무관한 것으로 무시됩니다. 현상학자들은 연구의 목표가 현상을 이해하는 것이라면, 현상이 무엇인지 이미 알고 있다고 주장하지 말고 현상 그 자체로 드러나도록 내버려 두어 현상이 무엇인지 이해하려는 노력부터 시작해야 한다고 반박합니다. 현상학자는 해석의 틀을 괄호로 묶고 현상에 대해 "초보자의 마음"32을 가정합니다. 현상학적 분석 과정에서 성찰과 같은 현상은 성찰이 특정 결과로 이어져야 하는 인지적 렌즈, 감정의 렌즈, 교육적 렌즈 등을 통해 더 깊이 이해할 수 있다는 것이 분명해질 수 있습니다. 연구 대상을 그 자체로 이해하려는 초기 시도는 환자 중심성, 학생 중심성, 맥락 민감성을 추구하는 HPE 연구의 야망과 밀접하게 맞닿아 있습니다. HPE 연구에서 우리는 우리의 맥락이 아닌 그들의 맥락에서 현상을 이해하고자 합니다. 

Phenomenology is a logical start for investigating topics in HPE. Research is limited in advance by the degree to which it has apprehended the phenomenon even before the research starts. Most research in medical education starts with delineating the research object. Often, this is done by providing a definition of the research object. For instance, “reflection is a metacognitive process that…”. From the perspective of phenomenology, this is reductionism: reducing the research object in advance to a specific interpretive framework that makes assumptions about the phenomenon in question. Anything that does not fit the interpretive framework is not seen at all or is dismissed as irrelevant to the research. Phenomenologists counter that, if the goal of our research is to understand a phenomenon, then we should start with trying to understand what the phenomenon is by letting it show itself on its own terms, instead of claiming to already know what it is. A phenomenologist brackets interpretive frameworks and assumes a “beginner’s mind”32 to the phenomenon. In the course of the phenomenological analysis it may become clear that a phenomenon like reflection can be further understood through the lens of cognition, the lens of emotion, the educational lens in which reflection should lead to a specific result, and so on. The initial attempt to understand a research object on its own terms fits closely with the ambition of HPE research to do justice to patient-centeredness, student-centeredness, and context sensitivity. In HPE research, we want to understand phenomena in their context, not ours.

 


 

 

Teach Learn Med. 2022 Jan-Mar;34(1):113-121. doi: 10.1080/10401334.2021.1971989. Epub 2021 Sep 29.

 

 

Phenomenological Research in Health Professions Education: Tunneling from Both Ends

Affiliations collapse

Affiliations

1Department of General Practice/Family Medicine, Amsterdam University Medical Centers, Amsterdam, The Netherlands.

2Department of General Practice, Erasmus Medical Center, Rotterdam, The Netherlands.

PMID: 34586929

DOI: 10.1080/10401334.2021.1971989

Abstract

Issue: The term "phenomenology" is increasingly being used in Health Professions Education research. Phenomenology refers to a philosophical tradition or discipline. For researchers in Health Professions Education without a philosophical or humanities background, there are two practical problems. The first is that it is not always clear how studies that call themselves "phenomenological" are distinct from studies that use other methods; phenomenology as a label seems to be used for any study that is interested in the experiences of participants. The second problem is that a more in-depth study of phenomenology in the literature yields either abstract definitions such as "examining the underlying structures of consciousness," or contrasting translations of phenomenology to concrete research tools. What would phenomenology in medical education research look like that is both true to its philosophical roots and yields research findings that contribute to the quality of medical education? Evidence: Two medical education researchers, one with a medical background and the other with a philosophy background, engaged in a dialogue with the purpose of formulating an approach for phenomenology in medical education research. The first departed from the practical demands of his research project in which phenomenology was suggested as a methodology, but guidance was lacking. The other departed from the philosophical tradition of phenomenology with the purpose of exploring how phenomenological insights can be valuable for medical education research. The paper presents these journeys and the results of this dialogue where they formulate starting points for an approach to conducting HPE research that has scientific phenomenological integrity and yields practical results. Implications: Phenomenology has been one of the defining developments in philosophy and the humanities in the 20th century. A basic grasp of its insights is useful for medical education researchers since any research today takes place in the light of these insights. Within medical education, there are certain types of phenomena, research questions, and research goals that call for an explicitly phenomenological approach. Rather than prescribing specific methods or methodologies, phenomenology offers signposts for how to think about the relationship between our research object, methods, and data, and our own role as researchers. We suggest that researchers in HPE, when reporting a phenomenological study, instead of claiming to have followed a certain phenomenological method, explain how their research question, methods, and results fit the purposes and standards of phenomenology. We illustrate this with an example of how to use phenomenology in an interview study.

Keywords: Phenomenology; interview study; philosophy of science; qualitative research.

 

When I say ... 해석적 현상학 (Med Educ, 2018)
When I say . . . hermeneutic phenomenology
William Bynum1 & Lara Varpio2

 

헤르메스는 그리스 신들 사이와 인간 세계에 메시지를 전달하고, 그 메시지를 해석하여 그 근본적인 의미를 전달하는 일을 담당했습니다.1 해석학적 현상학은 어원을 공유하는 메신저 신과 마찬가지로, 현상을 설명하는 것을 넘어 일상 생활의 맥락에서 그 의미를 탐구하고 전달하는 질적 연구 방법론입니다.2 해석적 현상학이라고도 불리는 해석적 현상학은 현상에 대한 참여자의 생생한 경험의 의미와 중심 구조, 즉 본질, 그리고 현상을 형성하는 맥락적 힘을 밝혀내고자 합니다. 따라서 연구자들은 학습자 학대 및 소진부터 사무직 또는 전문가 간 팀에서의 학습자 경험에 이르기까지 복잡하고 환경의 영향을 받는 현상을 보다 완벽하게 이해하는 데 도움이 될 수 있습니다. 
Among his duties, Hermes was responsible for delivering messages among the Greek gods and to the mortal world, and for interpreting those messages and conveying their underlying meaning.1 Hermeneutic phenomenology, like the messenger god with whom it shares its lexical root, is a qualitative research methodology that goes beyond describing a phenomenon to exploring and conveying its meaning in the context of everyday life.2 Sometimes referred to as interpretive phenomenology, hermeneutic phenomenology seeks to uncover the meaning and central structures, or essences, of a participant's lived experience with a phenomenon and the contextual forces that shape it. As such, it can help researchers more fully understand complex, environmentally influenced phenomena, ranging from learner mistreatment and burnout to learners' experiences on a clerkship or interprofessional team.

이 글에서는 해석학적 현상학의 세 가지 특징에 초점을 맞춰 다른 질적 방법론과 차별화되는 해석학적 현상학의 특징에 대해 설명합니다.

  • (i) 해석적 성격과 생생한 경험에 대한 초점,
  • (ii) 데이터 수집 및 분석 과정에 연구자의 경험을 포함한다는 점,
  • (iii) 데이터 분석을 안내하는 역동적이고 사려 깊은 성찰과 글쓰기 과정에

이러한 특징들이 해석학적 현상학이라는 용어의 의미를 형성합니다.
In this article, we focus on three features of hermeneutic phenomenology that, when combined, distinguish it from other qualitative methodologies:

  • (i) its interpretive nature and focus on lived experience,
  • (ii) the inclusion of researcher experiences in the processes of data collection and analysis, and
  • (iii) the dynamic, thoughtful process of reflecting and writing that guides data analysis.

These features shape what we mean when we say: hermeneutic phenomenology.

설명적 현상학의 목적은 현상을 그것이 존재하는 맥락과 분리된 별개의 실체로 기술하는 것이지만, 해석적 현상학은 현상의 의미를 기술하고 현상을 형성하는 맥락적 힘을 이해하고자 합니다.1, 3

  • 반 마넨에 따르면 해석학적 현상학의 목표는 '인간 경험 전체'의 맥락에서 특정 인간 현상의 더 깊은 의미를 더 잘 이해하기 위해 다른 사람들의 경험과 성찰에 주목하는 것입니다.4
  • 해석학적 현상학을 통해 우리는
    • 표면적 인식 아래에 가려진 인간 경험의 더 깊은 층을 이해하고,
    • 개인의 생활 세계 또는 그 사람이 사전 성찰적으로 경험하는 세계가 이 경험에 어떻게 영향을 미치는지 이해할 수 있습니다.4
  • 따라서 해석학의 목적은 이론을 개발하는 것(예: 근거 이론)이 아니라 우리가 살고 배우는 '세계와 더 직접적으로 접촉할 수 있는 그럴듯한 통찰력'을 개발하는 것입니다.4

예를 들어, 우리는 현재 해석학적 현상학을 사용하여 매우 개인적이고 종종 암묵적이며 인식되지 않는 감정인 수치심에 대한 의료 학습자의 경험을 이해하는 연구를 수행하고 있습니다. 해석학적 현상학은 다음과 같은 개인의 수치심 경험과 관련된 연구 질문에 답할 수 있는 최적의 방법입니다:

  • 의료 학습자는 임상 학습 환경 내에서 수치심을 어떻게 경험하는가?
  • 학습 환경의 어떤 힘이 학습자가 수치심을 경험하는 방식에 영향을 미치는가?

Whereas the purpose of descriptive phenomenology is to describe a phenomenon as a distinct entity separate from the context in which it exists, hermeneutic phenomenology seeks to describe the meaning of a phenomenon and understand the contextual forces that shape it.1, 3 

  • The goal of hermeneutic phenomenology, according to Van Manen, is to attend to other people's experiences and reflections to better understand the deeper meaning of a specific human phenomenon within the context of ‘the whole of human experience’.4 
  • Hermeneutic phenomenology allows us to understand
    • the deeper layers of human experience that lay obscured beneath surface awareness and
    • how the individual's lifeworld, or the world as he or she pre-reflectively experiences it, influences this experience.4 
  • Thus, rather than developing theory (e.g., as in grounded theory), the purpose of hermeneutics is to develop ‘plausible insights that bring us in more direct contact with the world’ in which we live and learn.4 

For example, we are currently conducting a study using hermeneutic phenomenology to understand medical learners' experiences with shame, a highly personal and often implicit, unrecognised emotion. Hermeneutic phenomenology is an optimal method to answer research questions related to individuals' experience of shame, such as:

  • How do medical learners experience shame within the clinical learning environment?
  • What forces from the learning environment influence the way in which learners experience it?

해석학적 현상학은 연구자가 자신의 과거 경험과 기존 지식이 해석 과정에 내재되어 있고 필수적인 것으로 인정할 것을 요구합니다.1, 2, 5 일반적으로 설명적 현상학에서 요구되는 것처럼 연구자는 현상에 대한 개인적인 경험, 편견 및 전문 지식을 괄호로 묶는 대신, 데이터 수집 및 분석 중에 자신의 주관성을 공개적으로 반영, 공유 및 주의하면서 동시에 해석학적 전통을 고수하고 반성성을 달성해야 합니다.

  • 학습자 수치심에 대한 연구에서 학습자, 교사 또는 인간으로서 자신이 경험한 수치심을 무시하려는 시도는 무의미하며, 참여자의 수치심 경험을 해석하는 의식에서 그러한 형성적이거나 영향력이 있거나 고통스러운 경험을 확실하게 괄호로 묶을 수 없습니다.

Hermeneutic phenomenology requires that researchers acknowledge their own past experiences and existing knowledge as embedded in and essential to the interpretive process.1, 2, 5 Rather than bracketing off their personal experiences, biases and expertise regarding the phenomenon (as is generally required in descriptive phenomenology), researchers openly reflect on, share, and attend to their subjectivity during data collection and analysis, simultaneously adhering to the hermeneutic tradition and achieving reflexivity.

  • In our study on learner shame, attempts to ignore the shame that we experienced ourselves as learners, teachers or human beings are futile; we cannot reliably bracket off such formative, impactful or painful experiences from the consciousness through which we interpret the experience of shame in our participants.

데이터 수집과 분석에 개인적인 관점을 인식하고 통합하면 해석 과정에 추가적인 차원을 더할 수 있습니다. 또한 반 마넨은 해석학적 방법론의 핵심 요소 현상에 대한 직접적인 경험에서 비롯되는 개인적인 관심 주제에서 시작하는 것이라고 주장합니다.4

  • 실제로 의학 학습자가 수치심을 경험하는 방식을 이해하는 데 대한 우리의 관심은 수치심이라는 감정에 대한 우리 자신의 투쟁에서 비롯되었으며, 이제 우리 자신과 분리할 수 없는 부분이며 다른 사람들이 어떻게 그 감정을 경험하는지에 대해 이야기하고 이해하는 능력을 향상시켜주는 투쟁에서 비롯되었습니다.

Recognising and incorporating our personal perspectives into data collection and analysis contributes additional dimensions to the interpretive process. Furthermore, Van Manen asserts that a key element of hermeneutic methodology is to begin with a topic of personal interest, one that often arises from our direct experience with the phenomenon.4 

  • Indeed, our interest in understanding how medical learners experience shame arose from our own struggles with the emotion, struggles that are now an inseparable part of who we are and that enhance our ability to talk about and understand how others experience the emotion.

해석학적 현상학의 또 다른 특징은 엄격한 분석 기법을 고수하지 않고 연구자가 현상을 형성하는 현상학적 주제, 즉 '생생한 경험의 구조'를 제시하기 위해 '훈련된 사려 깊음'에 의존한다는 점입니다.4 반 마넨은 해석학적 분석이 '규칙에 얽매인 과정'은 아니지만 무작위적인 것도 아니라고 주장합니다.4

  • 해석학적 현상학은 우리의 관심을 생생한 경험으로 이끄는 흥미로운 현상을 식별하는 것으로 시작하는 여러 연구 활동 간의 역동적인 상호작용을 중심으로 전개됩니다.
  • 그런 다음 연구팀원들은 개념화된 경험이 아닌 실제 경험을 조사하고, 참여자의 현상 경험을 특징짓는 본질적인 주제에 대해 성찰하면서 동시에 자신의 경험에 대해 성찰합니다.
  • 연구자는 자신의 성찰을 글로 기록한 다음 다시 성찰하고 글을 쓰는 과정을 반복하여 점점 더 견고하고 미묘한 분석을 개발합니다.
  • 분석하는 동안 연구자는 연구 중인 현상에 대한 강한 방향성을 유지하고(즉, 산만함을 피하고) 부분과 전체 간의 상호 작용에 주의를 기울여야 합니다.
  • 해석학적 순환이라고도 하는 이 마지막 단계에서는 데이터(부분)가 현상(전체)에 대한 이해를 발전시키는 데 어떻게 기여하는지, 그리고 각 부분이 서로의 의미를 어떻게 향상시키는지를 의도적으로 고려하는 연습을 강조합니다.5 실제로 위의 활동은 간헐적으로 또는 동시에 수행될 수 있습니다.
  • 이 기본 분석 프레임워크의 구체적인 적용 사례는 이미 발표되어 있으며, 그 운용에 유용한 예시로 활용되고 있습니다.2, 4, 5 

Another distinguishing characteristic of hermeneutic phenomenology is that it does not adhere to a strict set of analytical techniques; rather, the researcher relies on ‘cultivated thoughtfulness’ to present phenomenological themes, or the ‘structures of lived experience’, that shape the phenomenon.4 Although Van Manen asserts that hermeneutic analysis is not a ‘rule-bound process’, it is also not random.4 

  • It revolves around a dynamic interplay among multiple research activities that starts with identifying an interesting phenomenon that directs our attention towards lived experience.
  • Members of the research team then investigate experience as it is lived, rather than as it is conceptualised, and reflect on the essential themes that characterise the participant's experience with the phenomenon, simultaneously reflecting on their own experiences.
  • Researchers capture their reflections in writing and then reflect and write again, creating continuous, iterative cycles to develop increasingly robust and nuanced analyses.
  • Throughout the analysis, researchers must maintain a strong orientation to the phenomenon under study (i.e., avoid distractions) and attend to the interactions between the parts and the whole.
  • This last step, also described as the hermeneutic circle, emphasises the practice of deliberately considering how the data (the parts) contribute to the evolving understanding of the phenomena (the whole) and how each enhances the meaning of the other.5 In practice, the above activities may be accomplished intermittently or simultaneously.
  • Specific applications of this basic analytical framework have been published and serve as useful examples for its operationalisation.245


해석학적 분석의 산물은 현상에 대한 풍부한 설명으로, 독자를 참여자의 삶의 세계와 더 깊이 연결하여 표면 아래에 남아있을 수 있는 경험의 핵심 요소를 조명합니다.4 학습자 수치심의 경우, 이러한 설명은 의료 학습 환경 내에서 수치심 경험의 존재와 의미에 주목하고 학습자와 교육자 모두의 정서적 회복력을 높일 수 있는 개입을 알려줄 수 있는 잠재력을 지니고 있습니다.
The product of a hermeneutic analysis is a rich description of a phenomenon that more deeply connects the reader to the participant's lifeworld, illuminating key elements of his or her experience that may otherwise remain beneath the surface.4 In the case of learner shame, such descriptions have the potential to draw attention to the presence and meaning of shame experiences within the medical learning environment and to inform interventions that will buoy emotional resilience in learners and educators alike.

헤르메스처럼, 의학 학습과 관련된 어려움을 단순히 설명하는 데 그치지 않고, 이러한 어려움을 경험하는 방식을 전달하고 이에 영향을 미치는 맥락적 힘을 파악하고자 하는 의학교육자가 점점 더 많아지고 있습니다. 다행히도 우울증, 번아웃, 수치심과 같은 복잡한 인간 경험의 깊은 층을 조명하기 위해 그리스 신이 될 필요는 없습니다. 해석학적 현상학을 갖춘 우리 인간도 오늘날의 의료 학습 환경에서 학습자가 된다는 것이 무엇을 의미하는지 해석하고 전 세계에 전달할 수 있습니다.
Like Hermes, an increasing number of medical educators seek to go beyond simply describing the challenges associated with learning medicine to conveying how they are experienced and identifying the contextual forces that influence them. Fortunately, one doesn't have to be a Greek god to illuminate the deep layers of complex human experiences such as depression, burnout and shame. Equipped with hermeneutic phenomenology, even we mere mortals can interpret and convey what it means to be a learner in today's medical learning environment to the rest of the world.


Med Educ. 2018 Mar;52(3):252-253. doi: 10.1111/medu.13414. Epub 2017 Sep 12.

When I say … hermeneutic phenomenology

Affiliations collapse

1Fort Belvoir, Virginia, USA.

2Bethesda, Maryland, USA.

PMID: 28895184

DOI: 10.1111/medu.13414

No abstract available

현상학이 어떻게 다른 사람의 경험으로부터 배우게끔 하는가(Perspect Med Educ, 2019)
How phenomenology can help us learn from the experiences of others
Brian E. Neubauer1,2 · Catherine T.Witkop3 · Lara Varpio1

소개
Introduction

인간은 다른 사람의 경험으로부터 배울 수 있는 거의 유일한 능력을 가지고 있지만, 그렇게 하기를 꺼리는 것으로도 놀랍습니다.-더글러스 애덤스(Douglas Adams)
Human beings, who are almost unique in having the ability to learn from the experience of others, are also remarkable for their apparent disinclination to do so.—Douglas Adams

 

인간은 다른 사람의 경험으로부터 배울 수 있는 몇 안 되는 동물 중 하나이지만, 우리는 종종 그렇게 하는 것을 싫어합니다. 아마도 비슷한 상황은 결코 우리에게 닥칠 수 없다고 가정하기 때문일 것입니다. 같은 상황에 처하면 더 현명한 결정을 내릴 것이라고 가정하기 때문일 수도 있습니다. 개인의 주관적인 경험은 외부 현실에서 수집한 객관적인 데이터만큼 신뢰할 수 있는 정보가 아니라고 가정하기 때문일 수도 있습니다. 이러한 우려의 근거가 되는 가정이 무엇이든, 학자들이 다른 사람들의 경험으로부터 배우는 것은 필수적입니다. 사실 이것은 연구의 기본 전제입니다. 연구란 정보를 발견하거나 대상에 대한 새로운 이해를 얻기 위해 대상(예: 개인, 개인 집단, 사회 또는 사물)을 자세히 연구하는 것을 포함합니다[1]. 이러한 세부적인 연구를 위해서는 특정 현상에 대한 새로운 통찰력을 얻기 위해 다른 사람의 경험을 이해해야 하는 경우가 많습니다. 보건 전문직 교육(HPE) 분야의 학자들은 다른 사람의 경험을 통해 배워야 할 필요성에 대해 잘 알고 있습니다. 피드백, 직장 기반 학습, 임상적 추론 또는 기타 무수히 많은 현상의 효과를 극대화하기 위해 HPE 연구자들은 다른 사람의 경험을 주의 깊게 탐색하고 배울 수 있어야 합니다. 이러한 노력을 방해하는 것은 종종 방법론의 부족입니다. 다시 말해 HPE 연구원은 다른 사람의 경험에서 배우는 방법을 알아야 합니다. 
Despite the fact that humans are one of few animals who can learn from the experiences of others, we are often loath to do so. Perhaps this is because we assume that similar circumstances could never befall us. Perhaps this is because we assume that, if placed in the same situation, we would make wiser decisions. Perhaps it is because we assume the subjective experience of an individual is not as reliably informative as objective data collected from external reality. Regardless of the assumptions grounding this apprehension, it is essential for scholars to learn from the experiences of others. In fact, it is a foundational premise of research. Research involves the detailed study of a subject (i. e., an individual, groups of individuals, societies, or objects) to discover information or to achieve a new understanding of the subject [1]. Such detailed study often requires understanding the experiences of others so that we can glean new insights about a particular phenomenon. Scholars in health professions education (HPE) are savvy to the need to learn from the experiences of others. To maximize the effectiveness of feedback, of workplace-based learning, of clinical reasoning, or of any other of a myriad of phenomena, HPE researchers need to be able to carefully explore and learn from the experiences of others. What often curtails these efforts is a lack of methodology. In other words: HPE researchers need to know how to learn from the experiences of others.

현상학은 이러한 탐구를 지원할 수 있는 독보적인 위치에 있는 질적 연구 접근법입니다. 그러나 HPE 연구에 참여하는 접근법으로서 현상학은 그다지 큰 호응을 얻지 못하고 있습니다. 그 이유는 쉽게 알 수 있습니다: 현상학을 진정으로 이해하려면 현상학을 뒷받침하는 철학에 대한 이해가 필요합니다. 이러한 철학은 인간 경험의 의미를 이론화합니다. 다시 말해, 현상학 연구에 참여하려면 학자는 인간 경험에 대한 해석의 철학적 토대에 익숙해져야 합니다. 이것은 어려운 작업일 수 있지만, 더글러스 애덤스는 다른 사람의 경험으로부터 배우는 것이 결코 쉽다고 말한 적이 없습니다. 
Phenomenology is a qualitative research approach that is uniquely positioned to support this inquiry. However, as an approach for engaging in HPE research, phenomenology does not have a strong following. It is easy to see why: To truly understand phenomenology requires developing an appreciation for the philosophies that underpin it. Those philosophies theorize the meaning of human experience. In other words, engaging in phenomenological research requires the scholar to become familiar with the philosophical moorings of our interpretations of human experience. This may be a daunting task, but Douglas Adams never said learning from the experiences of others would be easy.

현상학이 답할 수 있는 질문과 이러한 종류의 연구가 제공할 수 있는 인사이트는 HPE에게 매우 중요합니다.

  • 수치심이란 무엇이며 그 경험이 의료 학습자에게 미치는 영향은 무엇인가[2]?
  • 공감하는 임상의가 된다는 것은 무엇을 의미할까요[3]?
  • 의료 학습자가 고난이도 시험에서 실패한 경험은 무엇입니까[4]?
  • 숙련된 임상의는 전문 진료에서 임상적 추론을 전달하는 방법을 어떻게 배울 수 있을까요[5]?

이러한 질문에 대한 해답은 우리 분야의 토대를 구성합니다. 이러한 질문에 답하기 위해 우리는 현상학을 사용하여 다른 사람들의 경험으로부터 배울 수 있습니다. 
The questions that phenomenology can answer, and the insights this kind of research can provide, are of foundational importance to HPE:

  • What is the experience of shame and the impact of that experience for medical learners [2]?
  • What does it mean to be an empathetic clinician [3]?
  • What is the medical learner’s experience of failure on high stakes exams [4]?
  • How do experienced clinicians learn to communicate their clinical reasoning in professional practice [5]?

Answers to such questions constitute the underpinnings of our field. To answer such questions, we can use phenomenology to learn from the experiences of others.

이 원고에서는 해석학적 현상학과 초월적 현상학이라는 두 가지 현상학의 철학과 방법론에 대해 살펴봅니다. 우리의 목표는 현상학의 복잡성을 단순화하거나 모든 HPE 연구자가 현상학을 사용해야 한다고 주장하는 것이 아닙니다. 그 대신 현상학이 HPE의 연구 체계에서 자리를 잡아야 할 가치 있는 연구 접근법이라는 점을 제안하고자 합니다. 우리는 이 두 가지 접근법을 철학적 뿌리의 맥락에 놓고 현상학적 연구 참여 방식 간의 유사점과 차이점을 설명할 것입니다. 이를 통해 HPE 연구자들이 연구 질문에 이러한 연구 접근 방식이 필요할 때 현상학에 신중하게 참여하도록 장려하고자 합니다. 
In this manuscript, we delve into the philosophies and methodologies of two varieties of phenomenology: hermeneutic and transcendental. Our goal is not to simplify the complexities of phenomenology, nor to argue that all HPE researchers should use phenomenology. Instead, we suggest that phenomenology is a valuable approach to research that needs to have a place in HPE’s body of research. We will place these two approaches in the context of their philosophical roots to illustrate the similarities and differences between these ways of engaging in phenomenological research. In so doing, we hope to encourage HPE researchers to thoughtfully engage in phenomenology when their research questions necessitate this research approach. 

현상학이란 무엇인가요?
What is phenomenology?

간단히 말해서 현상학은 현상을 경험한 사람의 관점에서 현상을 탐구하여 현상의 본질을 설명하고자 하는 연구 접근법이라고 정의할 수 있습니다[6]. 현상학의 목표는 무엇을 경험했는지, 어떻게 경험했는지 등 경험의 의미를 설명하는 것입니다[6]. 현상학에는 여러 가지 종류가 있으며, 각 현상학은 인간 경험의 대상과 방법을 생각하는 각기 다른 방식에 뿌리를 두고 있습니다. 다시 말해, 현상학의 각 접근 방식은 서로 다른 철학 학파에 뿌리를 두고 있습니다. 현상학적 연구 방법론을 선택하려면 학자는 자신이 수용하는 철학에 대해 성찰해야 합니다. 과학자가 수용할 수 있는 철학이 다양하다는 점을 고려할 때, 연구자가 활용할 수 있는 현상학적 전통이 광범위하다는 것은 놀라운 일이 아닙니다. 이 원고에서는 현상학에 대한 초월적 접근법과 해석학적 접근법을 강조하지만, 더 광범위한 현상학적 환경이 존재합니다. 예를 들어, 1997년에 출간된 현상학 백과사전에는 7가지 유형의 현상학에 대한 기사가 실려 있습니다[7]. 초월적/해석학적 분열을 해소하는 더 현대적인 전통도 개발되었습니다. 이러한 전통 중 몇 가지가 탭. 1 [8-10].
In simple terms, phenomenology can be defined as an approach to research that seeks to describe the essence of a phenomenon by exploring it from the perspective of those who have experienced it [6]. The goal of phenomenology is to describe the meaning of this experience—both in terms of what was experienced and how it was experienced [6]. There are different kinds of phenomenology, each rooted in different ways of conceiving of the what and how of human experience. In other words, each approach of phenomenology is rooted in a different school of philosophy. To choose a phenomenological research methodology requires the scholar to reflect on the philosophy they embrace. Given that there are many different philosophies that a scientist can embrace, it is not surprising that there is broad set of phenomenological traditions that a researcher can draw from. In this manuscript, we highlight the transcendental and the hermeneutic approaches to phenomenology, but a broader phenomenological landscape exists. For instance, the Encyclopedia of Phenomenology, published in 1997, features articles on seven different types of phenomenology [7]. More contemporary traditions have also been developed that bridge the transcendental/hermeneutic divide. Several of these traditions are detailed in Tab. 1 [810].

현상학에 대한 이러한 접근 방식을 이해하려면 대부분의 접근 방식이 현상학의 연구 대상에 대해 유사한 정의를 내리고 있다는 점을 기억하는 것이 유용합니다. 현상학은 일반적으로 다음에 대한 연구로 설명됩니다[11].

  • 우리의 경험에 나타나는 현상,
  • 우리가 현상을 인식하고 이해하는 방식, 그리고
  • 현상이 주관적 경험에 갖는 의미

간단히 말해, 현상학은 세계에 대한 개인의 생생한 경험을 연구하는 학문입니다[12]. 주관적으로 경험한 그대로의 경험을 조사함으로써 새로운 의미와 인식을 개발하여 그 경험을 이해하는 방법을 알려주거나 심지어 방향을 바꿀 수 있습니다[13].
To understand any of these approaches to phenomenology, it is useful to remember that most approaches hold a similar definition of phenomenology’s object of study. Phenomenology is commonly described as the study

  • of phenomena as they manifest in our experience,
  • of the way we perceive and understand phenomena, and
  • of the meaning phenomena have in our subjective experience [11].

More simply stated, phenomenology is the study of an individual’s lived experience of the world [12]. By examining an experience as it is subjectively lived, new meanings and appreciations can be developed to inform, or even re-orient, how we understand that experience [13].

이러한 공통된 이해를 바탕으로 이제 초월적(설명적) 현상학과 해석적(해석적) 현상학이 이 연구에 서로 다른 방식으로 접근하는 방법을 다루겠습니다. 이러한 접근 방식은 탭에 요약되어 있습니다. 2.
From this shared understanding, we now address how transcendental (descriptive) phenomenology and hermeneutic (interpretive) phenomenology approach this study in different ways. These approaches are summarized in Tab. 2.

 

초월적 현상학
Transcendental phenomenology

현상학은 수세기에 걸쳐 발전한 철학적 전통에서 비롯되었지만, 대부분의 역사학자들은 20세기 초에 현상학을 정의한 에드먼드 후설의 공로를 인정합니다[14]. 후설의 학문적 역사를 이해하면 현상학에 대한 그의 초월적 접근 방식에 대한 통찰력을 얻을 수 있습니다. 후설의 초기 연구는 수학을 연구 대상으로 삼았지만[15], 이후 다른 현상들을 탐구하는 방향으로 나아갔습니다. 철학에 대한 후설의 접근 방식은 객관적 경험과 주관적 경험을 동등하게 중요시했으며, 그의 작업은 '순수 현상학'에 대한 관심 또는 철학과 과학의 보편적 토대를 찾기 위한 노력에서 절정에 이르렀습니다[13]. 후설은 외부 현실에 대한 객관적 관찰에 절대적으로 초점을 맞추는 실증주의를 거부하고, 대신 개인의 의식에 의해 지각되는 현상이 과학적 연구의 대상이 되어야 한다고 주장했습니다. 따라서 후설은 어떠한 가정도 현상학의 탐구에 영향을 주어서는 안 되며, 철학적 또는 과학적 이론, 연역적 논리 절차, 그 밖의 경험적 과학이나 심리적 추측도 탐구에 영향을 주어서는 안 된다고 주장했습니다. 대신, 개인의 직관에 직접적으로 주어지는 것에 초점을 맞춰야 합니다[16]. 
Phenomenology originates in philosophical traditions that evolved over centuries; however, most historians credit Edmund Husserl for defining phenomenology in the early 20th century [14]. Understanding some of Husserl’s academic history can provide insight into his transcendental approach to phenomenology. Husserl’s initial work focused on mathematics as the object of study [15], but then moved to examine other phenomena. Husserl’s approach to philosophy sought to equally value both objective and subjective experiences, with his body of work ‘culminating in his interest in “pure phenomenology” or working to find a universal foundation of philosophy and science [13].’ Husserl rejected positivism’s absolute focus on objective observations of external reality, and instead argued that phenomena as perceived by the individual’s consciousness should be the object of scientific study. Thus, Husserl contended that no assumptions should inform phenomenology’s inquiry; no philosophical or scientific theory, no deductive logic procedures, and no other empirical science or psychological speculations should inform the inquiry. Instead, the focus should be on what is given directly to an individual’s intuition [16].

최근 스타이티가 주장했듯이, 현상학에 대한 이러한 태도는 '이전에 알려지지 않은 현실의 차원을 막 발견한 자연과학자[17]'의 태도와 유사합니다. 이러한 초점의 전환은 연구자가 '사물의 본질과 의미를 발견하기 위해 자아로 돌아가야 한다[18]'고 요구합니다. 후설은 이렇게 주장했습니다: '궁극적으로 모든 진정한 지식, 특히 모든 과학적 지식은 내적 증거에 달려 있습니다[19].' 내적 증거, 즉 의식에 나타나는 것이고, 여기가 현상을 연구해야 하는 곳입니다. 후설에게 이것이 의미하는 바는 주관적 지식과 객관적 지식이 서로 밀접하게 얽혀 있다는 것입니다. 현상의 실체를 이해한다는 것은 한 사람이 경험한 그대로의 현상을 이해하는 것입니다. 후설에게 있어 이러한 생생한 경험은 아직 발견되지 않은 존재의 차원입니다[17]. 후설에게 현상학은 인식론적 태도에 뿌리를 두고 있었으며, 그에게 현상학적 탐구의 핵심 질문은 '개인이 현상을 알거나 의식한다는 것은 무엇인가[20]'였습니다. 후설의 현상학 개념에서 경험된 모든 현상은 연구의 대상이 될 수 있으며, 따라서 단순한 감각적 지각(즉, 내가 보고, 듣고, 만지는 것)을 넘어 사고, 기억, 상상 또는 감정의 경험으로 분석의 범위를 넓힐 수 있습니다[21].

As Staiti recently argued, this attitude towards phenomenology is akin to that of ‘a natural scientist who has just discovered a previously unknown dimension of reality [17].’ This shift in focus requires the researcher to return ‘to the self to discover the nature and meaning of things [18].’ As Husserl asserted: ‘Ultimately, all genuine and, in particular, all scientific knowledge, rests on inner evidence [19].’ Inner evidence—that is, what appears in consciousness—is where a phenomenon is to be studied. What this means for Husserl is that subjective and objective knowledge are intimately intertwined. To understand the reality of a phenomenon is to understand the phenomenon as it is lived by a person. This lived experience is, for Husserl, a dimension of being that had yet to be discovered [17]. For Husserl, phenomenology was rooted in an epistemological attitude; for him, the critical question of a phenomenological investigation was ‘What is it for an individual to know or to be conscious of a phenomenon [20]?’ In Husserl’s conception of phenomenology, any experienced phenomenon could be the object of study thereby pushing analysis beyond mere sensory perception (i. e. what I see, hear, touch) to experiences of thought, memory, imagination, or emotion [21].

후설은 어떤 현상에 대한 생생한 경험에는 그 현상을 경험한 개인이 공통적으로 인식하는 특징이 있다고 주장했습니다. 이러한 공통적으로 인식되는 특징, 보편적 본질을 파악하여 일반화 가능한 설명을 개발할 수 있습니다. 후설에 따르면 현상의 본질은 그 현상의 진정한 본질을 나타냅니다. 그렇다면 후설의 현상학에 참여하는 연구자가 직면한 과제는 다음과 같습니다:
Husserl contended that a lived experience of a phenomenon had features that were commonly perceived by individuals who had experienced the phenomenon. These commonly perceived features—or universal essences—can be identified to develop a generalizable description. The essences of a phenomenon, according to Husserl, represented the true nature of that phenomenon. The challenge facing the researcher engaging in Husserl’s phenomenology, then, is:

사물을 그 자체로 기술하고, 직관과 자기 성찰을 고려하여 눈앞에 있는 것이 의식에 들어와 그 의미와 본질로 이해될 수 있도록 하는 것입니다. 이 과정에는 실제로 존재하는 것과 가능한 의미의 관점에서 존재하는 것으로 상상되는 것의 혼합, 즉 현실과 이상의 통합이 포함됩니다[18].
To describe things in themselves, to permit what is before one to enter consciousness and be understood in its meanings and essences in the light of intuition and self-reflection. The process involves a blending of what is really present with what is imagined as present from the vantage point of possible meanings; thus, a unity of the real and the ideal [18].

다시 말해, 현상에 대한 한 사람의 생생한 경험을 연구하여 그 현상의 보편적 본질을 강조하는 것입니다[22]. 이를 위해서는 연구자가 현상에 대한 참가자의 경험에 집중하고 현상의 본질을 파악하기 위해 자신의 태도, 신념, 가정을 중단해야 합니다. 후설이 철학과 과학에 기여한 가장 큰 공헌 중 하나는 연구자가 '인간의 마음이라고 부르는 것에 대한 순진한 이해뿐만 아니라 자연적인 태도를 중단하고, 새로운 탐구 분야로서 초월적 주관성의 영역을 밝힐 수 있게 해주는 방법'을 개발했다는 점입니다[17].
In other words, the challenge is to engage in the study of a person’s lived experience of a phenomenon that highlights the universal essences of that phenomenon [22]. This requires the researcher to suspend his/her own attitudes, beliefs, and suppositions in order to focus on the participants’ experience of the phenomenon and identify the essences of the phenomenon. One of Husserl’s great contributions to philosophy and science is the method he developed that enables researchers ‘to suspend the natural attitude as well as the naïve understanding of what we call the human mind and to disclose the realm of transcendental subjectivity as a new field of inquiry [17].’

후설의 '초월적 현상학(서술적 접근법이라고도 함)'에서 연구자의 목표는 초월적 주관성, 즉 '연구자가 조사에 미치는 영향을 끊임없이 평가하고, 편견과 선입견을 중화하여, 연구 대상에 영향을 미치지 않는 상태[22]'를 달성하는 것입니다. 연구자는 자신의 주관성이 참가자가 제공하는 설명에 영향을 미치지 않도록 독립적인 입장에 서야 합니다.

  • 이러한 생생한 경험의 차원은 초월적 자아의 상태에 도달할 수 있는 연구자가 가장 잘 접근할 수 있습니다[23]. 
    • [객관적인 연구자가 '참여자의 생생한 경험의 사실에 대한 설명'으로부터 '의식 자체를 파악할 수 있는 현상의 보편적 본질'로 이동하는 상태]
  • 초월적 자아의 상태에서 연구자는 현상에 대한 참가자의 경험에 사전 반성적으로 접근할 수 있는데, 이는 
    • '개념화에 대한 범주화에 의존하지 않는 것. 여기에는 종종 당연하게 여겨지는 것 또는 상식적인 것들도 포함한다[13]'는 것입니다. 
  • 초월적 자아는 연구에 어떠한 정의, 기대, 가정, 가설도 가져오지 않으며, 대신 이 상태에서 연구자는 참가자의 경험을 통해 현상의 본질을 이해하는 백지 상태인 타불라 라사의 입장을 취합니다.

In Husserl’s’ transcendental phenomenology (also sometimes referred to as the descriptive approach), the researcher’s goal is to achieve transcendental subjectivity—a state wherein ‘the impact of the researcher on the inquiry is constantly assessed and biases and preconceptions neutralized, so that they do not influence the object of study [22].’ The researcher is to stand apart, and not allow his/her subjectivity to inform the descriptions offered by the participants.

  • This lived dimension of experience is best approached by the researcher who can achieve the state of the transcendental I
    • a state wherein the objective researcher moves from the participants’ descriptions of facts of the lived experience, to universal essences of the phenomenon at which point consciousness itself could be grasped [23].
  • In the state of the transcendental I, the researcher is able to access the participants’ experience of the phenomenon pre-reflectively
    • that is ‘without resorting to categorization on conceptualization, and quite often includes what is taken for granted or those things that are common sense [13].’
  • The transcendental I brings no definitions, expectations, assumption or hypotheses to the study; instead, in this state, the researcher assumes the position of a tabula rasa, a blank slate, that uses participants’ experiences to develop an understanding of the essence of a phenomenon.

이 상태는 일련의 환원을 통해 달성됩니다. 

  • 초월적 단계라고 하는 첫 번째 환원은 일상 생활의 자연스러운 태도에서 벗어나 괄호 치기 과정이라고도 하는 에포케(판단 중지)를 통해 초월해야 합니다. 이는 연구자가 수학 방정식에서처럼 관심 있는 현상에 대한 이전의 이해, 과거의 지식, 가정을 제쳐두거나 괄호를 치는 과정입니다. 제쳐두어야 하는 이전의 이해에는 과학적 이론, 지식 또는 설명, 참여자가 주장하는 내용의 진실 또는 거짓, 연구자의 개인적인 견해 및 경험 등 다양한 출처가 포함됩니다[24].
  • 두 번째 단계인 초월적-현상학적 환원에서는 개별 참가자의 경험을 개별적으로 고려하고, 현상의 의미와 본질에 대한 완전한 설명을 구성합니다[18].
  • 다음으로 상상적 변형을 통한 환원모든 참가자의 의식적 경험에 대한 설명을 자유로운 변형 과정을 통해 본질에 대한 통합된 종합으로 증류하는 것입니다[25]. 이 과정은 직관에 의존하며 현상의 본질에 도달하기 위해 현상의 여러 변형을 상상해야 합니다[25]. 이러한 본질은 현상에 대한 모든 지식의 기초가 됩니다.

This state is achieved via a series of reductions.

  • The first reduction, referred to as the transcendental stage, requires transcendence from the natural attitude of everyday life through epoche, also called the process of bracketing. This is the process through which the researchers set aside—or bracket off as one would in a mathematical equation—previous understandings, past knowledge, and assumptions about the phenomenon of interest. The previous understandings that must be set aside include a wide range of sources including: scientific theories, knowledge, or explanation; truth or falsity of claims made by participants; and personal views and experiences of the researcher [24].
  • In the second phase, transcendental-phenomenological reduction, each participant’s experience is considered individually and a complete description of the phenomenon’s meanings and essences is constructed [18].
  • Next is reduction via imaginative variation wherein all the participants’ descriptions of conscious experience are distilled to a unified synthesis of essences through the process of free variation [25]. This process relies on intuition and requires imagining multiple variations of the phenomenon in order to arrive at the essences of the phenomenon [25]. These essences become the foundation for all knowledge about the phenomenon.

이러한 환원을 실현하기 위해 따르는 구체적인 과정은 초월적 현상학에 참여하는 연구자마다 다릅니다. 일반적으로 사용되는 초월적 현상학 방법 중 하나는 심리학자 클라크 무스타카스의 방법이며, 다른 접근법으로는 다음과 같은 연구가 있습니다: Colaizzi [26], Giorgi [27], Polkinghorne [28] 등이 있습니다. 어떤 접근법을 사용하든 초월적 현상학에 엄격하게 참여하기 위해서는 연구자 개인의 주관성이 데이터 분석과 해석에 편향되지 않도록 연구자는 괄호 작업에서 주의를 기울여야 합니다. 연구자 자신의 해석, 인식, 범주 등이 환원 과정에 영향을 미치지 않는 초월적 '나'의 상태에 도달하는 것이 과제입니다. 현대 철학자들은 후설의 브라케팅 개념과 계속 씨름하고 있다는 점에 유의하는 것이 중요합니다. 괄호 치기가 성공적으로 이루어지면 연구자는 연구자의 육체를 포함하여 세계와 그 내용 전체를 따로 떼어 놓습니다[17]. 이러한 브라케팅에 대한 헌신은 유지하기 어렵지만, 후설은 이것이 필요하다고 주장합니다. 물리적 현실에 대한 의존과 기초를 중단하는 것은 초월적인 나를 찾기 위해 인간적 경험을 버리는 유일한 방법입니다. 연구자들은 이러한 목표를 달성하기 위해 다른 질적 연구 방법의 관행[29]을 차용할 수 있습니다.

  • 예를 들어, 여러 연구자가 삼각 측량[30]을 통해 적절한 브래킷이 유지되었는지 확인하도록 연구를 설계할 수 있습니다.
  • 또는 연구 참여자가 확인[31]을 통해 데이터[18]를 검증하여 식별된 본질이 참가자의 경험에 공감하는지 확인할 수도 있습니다.

The specific processes followed to realize these reductions vary across researchers engaging in transcendental phenomenology. One commonly used transcendental phenomenological method is that of psychologist Clark Moustakas, and other approaches include the works of: Colaizzi [26], Giorgi [27], and Polkinghorne [28]. Regardless of the approach used, to engage rigorously in transcendental phenomenology, the researcher must be vigilant in his/her bracketing work so that the researcher’s individual subjectivity does not bias data analysis and interpretations. This is the challenge of reaching the state of the transcendental I where the researcher’s own interpretations, perceptions, categories, etc. do not influence the processes of reduction. It is important to note that modern philosophers continue to wrestle with Husserl’s notions of bracketing. If bracketing is successfully achieved, the researcher sets aside the world and the entirety of its content—including the researcher’s physical body [17]. While dedication to this bracketing is challenging to maintain, Husserl asserts that it is necessary. Suspending reliance on and foundations in physical reality is the only way to abandon our human experiences in such a way as to find the transcendent I. Researchers might borrow [29] practices from other qualitative research methods to achieve this goal.

  • For instance, a study could be designed to have multiple researchers triangulate [30] their reductions to confirm appropriate bracketing was maintained.
  • Alternatively, a study could involve validation of data [18] via member checking [31] to ensure that the identified essences resonated with the participants’ experiences.

후설의 초월적 현상학은 HPE 연구자들에 의해 활용되었습니다. 

  • 예를 들어, 2012년에 타바콜 등은 초월적 현상학 연구를 통해 의대생들의 공감에 대한 이해를 연구했습니다[32]. 저자들은 의대생들이 임상 전 교육에서 임상 교육으로 전환하면서 공감 능력을 상실하는 것은 의학 문헌에 잘 기록되어 있으며[33], 환자와 제공되는 의료 서비스의 질에 부정적인 영향을 미치는 것으로 밝혀졌다고 지적합니다[34].
  • 타바콜 등[32]은 설명적 현상학적 접근법(즉, 콜라이지와 조르기의 방법론 사용)을 사용하여 의대생이 수련 과정에서 경험하는 공감 현상에 대해 보고했습니다. 저자들은 공감 능력에 영향을 미치는 두 가지 주요 요인, 즉 타고난 공감 능력과 공감 표현에 대한 장벽을 확인했습니다[32].

Husserl’s transcendental phenomenology has been employed by HPE researchers.

  • For example, in 2012, Tavakol et al. studied medical students’ understanding of empathy by engaging in transcendental phenomenological research [32]. The authors note that medial students’ loss of empathy as they transition from pre-clinical to clinical training is well documented in the medical literature [33], and has been found to negatively impact patients and the quality of healthcare provided [34].
  • Tavakol et al. [32] used a descriptive phenomenological approach (i. e. using the methodology of Colaizzi and Giorgi) to report on the phenomenon of empathy as experienced by medical students during the course of their training. The authors identified two key factors impacting empathic ability: innate capacity for empathy and barriers to displaying empathy [32].

해석학적 현상학
Hermeneutic phenomenology

해석적 현상학이라고도 알려진 해석학적 현상학은 마르틴 하이데거의 연구에서 유래했습니다. 하이데거는 신학에서 경력을 시작했지만 철학 학생으로서 학계로 옮겨갔습니다. 하이데거의 철학적 탐구는 후설의 연구와 함께 시작되었지만, 나중에 후설의 초월적 현상학의 몇 가지 핵심 측면에 도전했습니다. 그의 전임자와의 근본적인 단절은 현상학적 탐구의 초점이었습니다.

  • 후설은 지식의 본질(즉, 인식론적 초점)에 관심이 있었던 반면, 하이데거는 존재의 본질과 시간성(즉, 존재론적 초점)에 관심을 가졌습니다[21].
  • (하이데거의) 해석학적 현상학은 인간의 경험과 삶의 방식에 초점을 맞추면서, 후설이 '세계에 주목하고, 지각하고, 기억하고, 생각하는 행위[13]'와 현상에 대한 지식인knowers으로서의 인간에 초점을 두었던 것에서 벗어나게 됩니다. 반면 하이데거는 세계 속의 행위자로서의 인간에 관심을 두고 개인과 그의 생활세계 사이의 관계에 초점을 맞춥니다.

Hermeneutic phenomenology, also known as interpretive phenomenology, originates from the work of Martin Heidegger. Heidegger began his career in theology, but then moved into academia as a student of philosophy. While Heidegger’s philosophical inquiry began in alignment with Husserl’s work, he later challenged several key aspects of Husserl’s transcendental phenomenology.

  • A foundational break from his predecessor was the focus of phenomenological inquiry. While Husserl was interested in the nature of knowledge (i. e., an epistemological focus), Heidegger was interested in the nature of being and temporality (i. e., an ontological focus) [21].
  • With this focus on human experience and how it is lived, hermeneutic phenomenology moves away from Husserl’s focus on ‘acts of attending, perceiving, recalling and thinking about the world [13]’ and on human beings as knowers of phenomenon. In contrast, Heidegger is interested in human beings as actors in the world and so focuses on the relationship between an individual and his/her lifeworld. 

하이데거가 말하는 생활세계 '개인의 현실은 그들이 살고 있는 세계에 의해 항상 영향을 받는다[22]'는 개념을 의미합니다. 이러한 방향성을 고려할 때, 개인은 지속적, 명시적 및 의식적으로 그러한 이해를 인식하지 않더라도 항상 세계 내에서 자신에 대한 이해를 이미 가지고 있는 것으로 이해됩니다 [17]. 하이데거에게 있어 현상에 대한 개인의 의식적 경험은 세계와 분리된 것이 아니며, 개인의 개인적 역사와도 분리된 것이 아닙니다. 대신 의식은 개인의 개인사와 그가 자란 문화를 포함하여 역사적으로 살아온 경험의 형성입니다 [22]. 개인은 자신의 생활세계에서 벗어날 수 없습니다. 인간은 자신의 배경 이해를 참조하지 않고는 현상을 경험할 수 없습니다. 따라서 해석학적 현상학은 '표면적 인식 아래에 가려져 있는 인간 경험의 더 깊은 층위와, 개인의 생활세계 또는 그 사람이 미리 성찰적으로 경험한 세계가 이 경험에 어떻게 영향을 미치는지 이해하고자 한다[35]'고 합니다. 해석학적 현상학은 개인의 내러티브를 연구하여 개인이 일상 생활과 생활세계에서 경험하는 것을 이해합니다.
Heidegger’s term lifeworld referred to the idea that ‘individuals’ realities are invariably influenced by the world in which they live [22].’ Given this orientation, individuals are understood as always already having an understanding of themselves within the world, even if they are not constantly, explicitly and/or consciously aware of that understanding [17]. For Heidegger, an individual’s conscious experience of a phenomenon is not separate from the world, nor from the individual’s personal history. Consciousness is, instead, a formation of historically lived experiences including a person’s individual history and the culture in which he/she was raised [22]. An individual cannot step out of his/her lifeworld. Humans cannot experience a phenomenon without referring back to his/her background understandings. Hermeneutic phenomenology, then, seeks ‘to understand the deeper layers of human experience that lay obscured beneath surface awareness and how the individual’s lifeworld, or the world as he or she pre-reflectively experiences it, influences this experience [35].’ Hermeneutic phenomenology studies individuals’ narratives to understand what those individuals experience in their daily lives, in their lifeworlds.

그러나 해석학적 전통은 설명적 이해를 넘어서는 것입니다. 해석학적 현상학은 개인의 생활 세계를 통해 경험과 현상을 해석하는 해석학에 뿌리를 두고 있습니다. 여기서 하이데거의 신학 배경은 현상학에 대한 그의 접근 방식에 영향을 미친 것으로 볼 수 있습니다. 해석학은 텍스트의 해석을 의미하며, 다른 언어로 된 문헌을 번역해야 할 필요성과 원문(예: 성경)에 대한 접근이 문제가 되는 상황에서 발전한 이론입니다[36]. 인간의 모든 경험이 개인의 생활세계에 의해 영향을 받고, 모든 경험이 그 배경을 통해 해석되어야 한다면, 해석학적 현상학은 현상에 대한 설명을 넘어 현상에 대한 해석으로 나아가야 합니다. 연구자는 개인의 배경이 미치는 영향을 인식하고 그것이 개인의 존재 경험에 미치는 영향을 설명해야 합니다.
But the hermeneutic tradition pushes beyond a descriptive understanding. Hermeneutic phenomenology is rooted in interpretation—interpreting experiences and phenomena via the individual’s lifeworld. Here, Heidegger’s background in theology can be seen as influencing his approach to phenomenology. Hermeneutics refers to the interpretation of texts, to theories developed from the need to translate literature from different languages and where access to the original text (e. g., the Bible) was problematic [36]. If all human experience is informed by the individual’s lifeworld, and if all experiences must be interpreted through that background, hermeneutic phenomenology must go beyond description of the phenomenon, to the interpretation of the phenomenon. The researcher must be aware of the influence of the individual’s background and account for the influences they exert on the individual’s experience of being.

그렇다고 해서 사회적, 문화적, 정치적 맥락과 불가분의 관계에 있는 개인의 주관적 경험이 미리 결정되어 있다는 말은 아닙니다. 하이데거는 개인이 상황적 자유를 가지고 있다고 주장했습니다. 상황적 자유는 '개인은 자유롭게 선택할 수 있지만, 그 자유는 절대적인 것이 아니라 일상 생활의 특정 조건에 의해 제한된다[22]'고 주장하는 개념입니다. 해석학적 현상학은 개인의 경험이 생활 세계를 통해 해석될 때 세계 속에서 개인의 존재가 갖는 의미와 이러한 의미와 해석이 개인의 선택에 어떤 영향을 미치는지 연구합니다[13]. 이러한 초점은 해석학적 현상학자가 연구 참여자가 제공한 내러티브를 개별 맥락과 관련하여 해석하여, [참여자가 가진 존재에 대한 이해의 근본적인 구조]와 [그것이 개인의 결정을 어떻게 형성했는지]를 조명할 것을 요구합니다[37].
This is not to say that the individual’s subjective experience—which is inextricably linked with social, cultural, and political contexts—is pre-determined. Heidegger argued that individuals have situated freedom. Situated freedom is a concept that asserts that ‘individuals are free to make choices, but their freedom is not absolute; it is circumscribed by the specific conditions of their daily lives [22].’ Hermeneutic phenomenology studies the meanings of an individual’s being in the world, as their experience is interpreted through his/her lifeworld, and how these meanings and interpretations influence the choices that the individual makes [13]. This focus requires the hermeneutic phenomenologist to interpret the narratives provided by research participants in relation to their individual contexts in order to illuminate the fundamental structures of participants’ understanding of being and how that shaped the decisions made by the individual [37].

해석학적 현상학을 구별하는 또 다른 핵심 측면은 탐구에서 연구자의 역할입니다. 해석학적 현상학은 연구자의 주관적인 관점을 괄호로 묶는 대신, 연구 대상과 마찬가지로 연구자도 자신의 생활세계에서 벗어날 수 없음을 인정합니다. 대신 연구자의 과거 경험과 지식이 탐구의 귀중한 길잡이가 됩니다. 연구자가 어떤 현상이나 경험을 조사할 만한 가치가 있다고 생각하게 하는 것은 연구자의 교육과 지식 기반입니다. 연구자에게 데이터에 대한 편견 없는 접근을 요구하는 것은 해석학적 현상학의 철학적 뿌리와 일치하지 않습니다. 대신, 이 전통에 따라 연구하는 연구자는 자신의 선입견을 공개적으로 인정하고 자신의 주관성이 분석 과정의 일부임을 반성해야 합니다[16].
Another key aspect that distinguishes hermeneutic phenomenology is the role of the researcher in the inquiry. Instead of bracketing off the researcher’s subjective perspective, hermeneutic phenomenology recognizes that the researcher, like the research subject, cannot be rid of his/her lifeworld. Instead, the researcher’s past experiences and knowledge are valuable guides to the inquiry. It is the researcher’s education and knowledge base that lead him/her to consider a phenomenon or experience worthy of investigation. To ask the research to take an unbiased approach to the data is inconsistent with hermeneutic phenomenology’s philosophical roots. Instead, researchers working from this tradition should openly acknowledge their preconceptions, and reflect on how their subjectivity is part of the analysis process [16].

해석학적 현상학의 해석 작업은 하나의 규칙에 얽매인 분석 기법에 얽매이지 않고, 여러 분석 활동의 상호작용을 포함하는 해석 과정입니다[35]. 일반적으로 이 과정은
The interpretive work of hermeneutic phenomenology is not bound to a single set of rule-bound analytical techniques; instead, it is an interpretive process involving the interplay of multiple analysis activities [35]. In general, this process:

먼저 실제 경험에 대한 관심을 유도하는 흥미로운 현상을 식별하는 것으로 시작합니다. 그런 다음 연구팀 구성원은 개념화된 경험이 아닌, 실제 경험을 조사하고, 참여자의 현상 경험을 특징짓는 본질적인 [현상학적] 주제에 대해 성찰하는 동시에, 자신의 경험에 대해 성찰합니다. 연구자는 자신의 성찰을 글로 기록한 다음, 다시 성찰하고 글을 쓰는 과정을 반복하여 점점 더 견고하고 미묘한 분석을 개발합니다. 분석하는 동안 연구자는 연구 중인 현상에 대한 강한 방향성을 유지하고(즉, 산만함을 피하고) 부분과 전체 간의 상호 작용에 주의를 기울여야 합니다. 해석학적 순환이라고도 하는 이 마지막 단계는 데이터(부분)가 현상(전체)의 진화하는 이해에 어떻게 기여하는지, 그리고 각 부분이 서로의 의미를 어떻게 향상시키는지를 의도적으로 고려하는 연습을 강조합니다[35].
Starts with identifying an interesting phenomenon that directs our attention towards lived experience. Members of the research team then investigate experience as it is lived, rather than as it is conceptualized, and reflect on the essential [phenomenological] themes that characterize the participant’s experience with the phenomenon, simultaneously reflecting on their own experiences. Researchers capture their reflections in writing and then reflect and write again, creating continuous, iterative cycles to develop increasingly robust and nuanced analyses. Throughout the analysis, researchers must maintain a strong orientation to the phenomenon under study (i. e., avoid distractions) and attend to the interactions between the parts and the whole. This last step, also described as the hermeneutic circle, emphasizes the practice of deliberately considering how the data (the parts) contribute to the evolving understanding of the phenomena (the whole) and how each enhances the meaning of the other [35].

현상학에 대한 해석학적 접근 방식에서 이론은 탐구의 초점을 맞추고, 연구 참여자에 대한 결정을 내리고, 연구 질문을 해결할 수 있는 방식을 결정하는 데 도움이 될 수 있습니다[22]. 이론은 연구 결과를 이해하는 데에도 도움이 될 수 있습니다. 해석학적 현상학에 대한 관심이 널리 알려진 학자 중 한 명은 맥스 반 마넨입니다[38]. 반 마넨은 해석학적 현상학이 '스스로를 체계적 도식이나 해석적 절차의 집합으로 기만적으로 환원시키지 않는다[39]'는 점을 인정합니다. 대신, 이러한 종류의 현상학은 연구자가 해석학적 현상학적 사고, 읽기, 쓰기의 프로젝트를 파악하기 위해 이 전통의 철학을 깊이 있게 읽을 것을 요구합니다.
In the hermeneutic approach to phenomenology, theories can help to focus inquiry, to make decisions about research participants, and the way research questions can be addressed [22]. Theories can also be used to help understand the findings of the study. One scholar whose engagement with hermeneutic phenomenology is widely respected is Max van Manen [38]. Van Manen acknowledges that hermeneutic phenomenology ‘does not let itself be deceptively reduced to a methodical schema or an interpretative set of procedures [39].’ Instead, this kind of phenomenology requires the researcher to read deeply into the philosophies of this tradition to grasp the project of hermeneutic phenomenological thinking, reading, and writing.

Bynum 등이 발표한 최근 연구는 해석학적 현상학이 HPE에서 어떻게 활용될 수 있는지를 보여줍니다[2]. 이 논문에서 바이넘 등은 의대생이 경험하는 감정으로서의 수치심 현상을 탐구하고 수치심 경험이 학습자에게 미치는 영향에 대한 통찰력을 제공했습니다. 이 연구는 학문적 탐구의 한 수단으로서 해석학적 현상학이 HPE에 불가분의 관계로 얽혀 있는 복잡한 현상에 대한 통찰력을 어떻게 제공할 수 있는지를 보여줍니다. 
A recent study published by Bynum et al. illustrates how hermeneutic phenomenology may be employed in HPE [2]. In this paper, Bynum et al. explored the phenomenon of shame as an emotion experienced by medical residents and offer insights into the effects of shame experiences on learners. As a means in scholarly inquiry, this study demonstrates how hermeneutic phenomenology can provide insight into complex phenomena that are inextricably entwined in HPE.

결론
Conclusion

현상학적 연구 방법론을 HPE 장학금에 통합하면 다른 사람들의 경험에서 배울 수 있는 기회가 생깁니다. 현상학적 연구는 학습, 행동, 커뮤니케이션과 관련된 복잡한 현상에 대한 이해의 폭을 넓힐 수 있으며, 이는 우리 분야와 밀접한 관련이 있습니다. 그러나 이러한 노력의 성공 여부는 이러한 접근법의 잠재적 가치에 대한 인식 개선과 현상학의 근본적인 철학적 지향과 방법론적 접근에 대한 친숙도 향상에 달려 있습니다. 가장 중요한 것은 HPE 학자들이 선택한 방법론의 신조와 그 근간이 되는 철학적 뿌리에 부합하는 연구 프로세스를 구축해야 한다는 점입니다. 이러한 정렬은 연구의 엄격성과 신뢰성을 확립하기 위한 초석입니다. 
Incorporating phenomenological research methodologies into HPE scholarship creates opportunities to learn from the experiences of others. Phenomenological research can broaden our understanding of the complex phenomena involved in learning, behaviour, and communication that are germane to our field. But success in these efforts is dependent upon both improved awareness of the potential value of these approaches, and enhanced familiarization with the underlying philosophical orientation and methodological approaches of phenomenology. Perhaps most critically, HPE scholars must construct research processes that align with the tenets of the methodology chosen and the philosophical roots that underlie it. This alignment is the cornerstone for establishing research rigour and trustworthiness.

특정 검증 활동 체크리스트나 필수 프로세스를 따르는 것만으로는 특정 현상학적 연구의 품질과 엄격성을 높일 수 없습니다. 대신, 연구 질문, 패러다임, 선택한 방법론 간의 충실성을 유지하는 것 외에도 강력한 현상학적 연구에는 읽기, 반성적 글쓰기, 다시 읽기, 다시 쓰기를 통해 데이터에 깊이 관여하는 것이 포함됩니다.

  • 무스타카스의 초월적 현상학 접근법에서 연구자는 데이터를 읽고, 데이터를 의미 단위로 환원하고, 환원된 데이터를 다시 읽고, 주제별 클러스터링에 참여하고, 데이터를 비교하고, 설명을 작성하는 등 연구자가 생생한 경험의 본질을 설명할 수 있을 때까지 지속적으로 데이터에 참여하고 성찰과 요약을 작성하는 지속적인 과정을 거칩니다[18].
  • 해석학적 현상학에서 학자들은 연구자가 데이터를 읽고, 모호한 이해를 구성하고, 반성적 글쓰기에 참여한 다음, 수정된 이해를 가지고 텍스트에 다시 참여하는 해석학적 순환에 참여하는 것을 설명합니다[40]. 해석학 연구자는 텍스트의 전체와 부분에 주의를 기울이는 읽기와 쓰기의 순환을 통해 생생한 경험에 대한 이해를 구성합니다.

두 전통 모두 읽기, 쓰기, 다시 읽기, 다시 쓰기를 통해 데이터에 깊이 관여하는 것이 기본입니다. 이러한 참여 작업이 표준화되어 있지는 않지만, 폴킹혼은 현상학적 연구에 대한 풍부한 묘사는 생생함, 풍부함, 정확성, 우아함과 같은 특성으로 특징지어질 수 있다고 제안합니다[41]. 이러한 특성이 질적 연구에서 어떻게 평가될 수 있는지는 의문이지만, 현상학적 데이터를 읽고 쓰는 데 있어 참여의 깊이에 대한 관심이 엄밀성을 위한 필수 조건임을 확인시켜 줍니다. 
Following a specific checklist of verification activities or mandatory processes cannot buoy the quality and rigour of a particular phenomenological study. Instead, beyond maintaining fidelity between research question, paradigm, and selected methodology, robust phenomenological research involves deep engagement with the data via reading, reflective writing, re-reading and re-writing.

  • In Moustakas’s approach to transcendental phenomenology, the researcher reads the data, reduces the data to meaning units, re-reads those reductions to then engage in thematic clustering, compares the data, writes descriptions, and so on in an ongoing process of continually engaging with the data and writing reflections and summaries until the researcher can describe the essence of the lived experience [18].
  • In hermeneutic phenomenology, scholars describe engaging in a hermeneutic circle wherein the researcher reads the data, constructs a vague understanding, engages in reflective writing, then re-engages with the text with revised understandings [40]. In cycles of reading and writing, of attending to the whole of the text and the parts, the hermeneutic researcher constructs an understanding of the lived experience.

In both traditions, deep engagement with the data via reading, writing, re-reading and re-writing is foundational. While this engagement work is not standardized, Polkinghorne suggests that rich descriptions of phenomenological research might be characterized by qualities such as vividness, richness, accuracy, and elegance [41]. While we question how these qualities might be evaluated in a qualitative study, they confirm that attention to the depth of engagement in reading and writing of the phenomenological data is a necessary condition for rigour.

현상학은 귀중한 도구이자 연구 전략입니다. 현상학의 철학적 토대나 방법론적 적용에 익숙하지 않은 사람들에게는 HPE 장학금에 지원하는 것이 어려워 보일 수 있습니다. 이 원고가 향후 연구에서 현상학의 활용을 고려하는 데 있어 약간의 불안감을 해소하는 데 도움이 되기를 바랍니다. 현상학을 HPE의 연구 질문에 적절히 적용하면 다른 사람들의 경험에서 배움으로써 이해를 증진하는 데 도움이 될 것이라고 믿습니다.
Phenomenology is a valuable tool and research strategy. For those who are not familiar with its philosophical underpinnings or methodological application, it can seem challenging to apply to HPE scholarship. We hope this manuscript will serve to relieve some of the apprehension in considering the use of phenomenology in future work. We believe that the appropriate application of phenomenology to HPE’s research questions will help us to advance our understanding by learning from the experiences of others.

 


 

Perspect Med Educ. 2019 Apr;8(2):90-97. doi: 10.1007/s40037-019-0509-2.

How phenomenology can help us learn from the experiences of others

Affiliations collapse

1Department of Medicine, Uniformed Services University, Bethesda, MD, USA. brian.e.neubauer.mil@mail.mil.

2General Internal Medicine Service, Walter Reed National Military Medical Center, Bethesda, MD, USA. brian.e.neubauer.mil@mail.mil.

3Department of Preventative Medicine and Biostatistics, Uniformed Services Medical Center, Bethesda, MD, USA.

4Department of Medicine, Uniformed Services University, Bethesda, MD, USA.

PMID: 30953335

PMCID: PMC6468135

DOI: 10.1007/s40037-019-0509-2

Free PMC article

Abstract

Introduction: As a research methodology, phenomenology is uniquely positioned to help health professions education (HPE) scholars learn from the experiences of others. Phenomenology is a form of qualitative research that focuses on the study of an individual's lived experiences within the world. Although it is a powerful approach for inquiry, the nature of this methodology is often intimidating to HPE researchers. This article aims to explain phenomenology by reviewing the key philosophical and methodological differences between two of the major approaches to phenomenology: transcendental and hermeneutic. Understanding the ontological and epistemological assumptions underpinning these approaches is essential for successfully conducting phenomenological research.

Purpose: This review provides an introduction to phenomenology and demonstrates how it can be applied to HPE research. We illustrate the two main sub-types of phenomenology and detail their ontological, epistemological, and methodological differences.

Conclusions: Phenomenology is a powerful research strategy that is well suited for exploring challenging problems in HPE. By building a better understanding of the nature of phenomenology and working to ensure proper alignment between the specific research question and the researcher's underlying philosophy, we hope to encourage HPE scholars to consider its utility when addressing their research questions.

Keywords: Hermeneutic phenomenology; Qualitative; Transcendental phenomenology.

CARDA: 보건전문직교육 연구에서 문헌분석의 가이드 (Med Educ, 2022)
CARDA: Guiding document analyses in health professions education research
Jennifer Cleland1 | Anna MacLeod2 | Rachel H. Ellaway3

 

 

1 소개
1 INTRODUCTION

'태초에 말씀이 계시니라'. 요한복음 1:1-3
‘In the beginning was the Word’. John 1:1–3

우리는 문서를 만들고, 문서를 사용하고, 문서를 보관하고, 문서를 주고받습니다. 집과 사무실에 있는 문서, 휴대하고 다니는 문서, 컴퓨터와 기타 디지털 기기에 있는 문서가 있습니다. 보내는 문서와 받는 문서가 있습니다. 현대 사회에 대한 우리의 지식과 현대 사회와의 상호 작용은 상당 부분 문서에 의해 매개됩니다. 정책 및 절차, 회의록, 보고서, 커리큘럼 맵, 시험지, OSCE 스테이션, 학습 사례 및 시뮬레이션 스크립트 등 수많은 문서를 생성하고 이를 통해 재인용되는 보건 전문직 교육(HPE)도 예외는 아닙니다. 문서는 HPE에 관련된 사람들의 일상적인 경험을 구조화하며, '어떤 것은 존재하게 하고 어떤 것은 부재하게 하며, 어떤 것은 보이게 하고 어떤 것은 보이지 않게 하는'(182페이지) 도구 역할을 합니다.1 
We make documents, we use documents, we keep documents and we exchange documents. There are documents in your home and in your office, documents you carry with you and documents on your computer and other digital devices. There are documents you send and documents you receive. Our knowledge of and interactions with contemporary society are substantially mediated by documents. Health professions education (HPE) is no outlier in this regard as it generates and is reinscribed through, its many documents, including policies and procedures, meeting notes, reports, curriculum maps, examination papers, OSCE stations, learning cases and simulation scripts. Documents structure the everyday experiences of those involved in HPE, and they serve as tools ‘through which some things are made present, and others absent, some things visible and others invisible’ (p. 182).1

문서는 연구 관점에서 풍부한 정보를 제공할 수 있습니다. 실제로 문서는 과거 사건을 이해하는 데 있어 가장 좋은, 때로는 유일한 데이터 소스인 경우가 많습니다(예: 2). 마찬가지로 현재에도 사람, 사건, 사회적 관계, 권력에 대한 지식의 대부분은 문서를 통해 간접적으로 얻게 됩니다. 스미스3는 이를 '이러한 형태의 사회를 통치, 관리 및 운영하는 관행의 기본이 되는'(257쪽) '문서적 실재'라고 설명했습니다.
Documents can provide a wealth of information from a research perspective. Indeed, documents are often the best, and sometimes the only, source of data for understanding past events (e.g.,2). Similarly, in the present, much of our knowledge of people, events, social relations and powers arises indirectly, through documents. Smith3 described this as ‘documentary reality’ that ‘is fundamental to the practices of governing, managing and administration of this form of society’ (p. 257).

문서가 우리 주변에 존재함에도 불구하고(그리고 부분적으로는 그 때문에) 문서가 무엇인지, 또는 문서가 되어야 하는지에 대한 하나의 표준적이거나 포괄적인 정의는 없으며, 오히려 문서가 무엇인지에 대한 다양한 담론이 존재합니다. 예를 들어, 문서는 물리적 물건으로 정의될 수도 있고,4 정보 소스5로 정의될 수도 있으며,6 탐구 행위를 통해 탄생할 수도 있습니다(상자 1 참조).
Despite their ambient presence (and perhaps in part because of it), there is no one canonical or overreaching definition of what documents are or should be; rather, there are different discourses of what documents can be. For instance, a document can be defined as a physical item,4 an informational source5 or brought into being by the act of inquiry6—see Box 1.


박스 1: 문서란 무엇인가요?
Box 1: What is a document?

문서가 무엇인지, 또는 문서가 되어야 하는지에 대한 표준적이고 포괄적인 정의는 없으며, 문서가 무엇일 수 있는지에 대한 다양한 담론이 존재합니다. 문서는 텍스트 본문일 수도 있고, 텍스트 내용 외에 연구자가 관심을 가질 만한 특성(예: 이미지, 주석 또는 상호 참조의 사용)이 있는 인공물일 수도 있습니다. 오리어리4는 문서를 다음과 같이 분류했습니다:
There is no one canonical or overreaching definition of what documents are or should be; rather, there are different discourses of what documents can be. They can be bodies of text or they can be artefacts with qualities of interest to researchers beyond their textual content (such as the use of images, annotations or cross-references). O'Leary4 classified documents as follows:

  • 공공 기록: 조직의 활동에 대한 공식적이고 지속적인 기록. HPE의 예로는 학생 성적표, 사명 선언문, 연례 보고서, 매뉴얼, 학생 핸드북, 전략 계획 및 강의 계획서 등이 있습니다.
  • 개인 문서: 개인의 행동, 경험 및 신념에 대한 1인칭 서술. 예를 들면 달력, 이메일, 스크랩북, 블로그, Facebook 게시물, 근무일지, 사건 보고서, 반성문/일기, 신문 등이 있습니다.
  • 물리적 증거: 연구 환경 내에서 발견된 물리적 물체. 예를 들면 전단지, 이메일, 포스터, 의제, 핸드북, 교육 자료 등이 있습니다.
  • Public Records: The official, ongoing records of an organisation's activities. Examples from HPE include student transcripts, mission statements, annual reports, manuals, student handbooks, strategic plans and syllabi.
  • Personal Documents: First-person accounts of an individual's actions, experiences and beliefs. Examples include calendars, e-mails, scrapbooks, blogs, Facebook posts, duty logs, incident reports, reflections/journals and newspapers.
  • Physical Evidence: Physical objects found within the study setting. Examples include flyers, emails, posters, agendas, handbooks and training materials.

HPE의 맥락에서는 다음으로 구분할 수 있습니다(Ellaway 외., 2019).

  • 교육 과정의 일부로 작성된 문서(예: 프로그램 평가, 강의 계획서 및 커리큘럼),
  • 교육 과정에서 작성되었지만 교육 목적이 아닌 문서(예: 개인 파일, 조직 정책 및 웹사이트),
  • 의학교육과 무관하게 작성된 문서(예: 소셜 미디어 게시물, TV 또는 영화 대본)

문서는 생성 방법과 목적, 보존 또는 큐레이션 방법, 캡처한 미디어, 생성 이후 복사, 필사, 편집 또는 수정 여부에 따라 다를 수 있습니다.
In the context of HPE, we might differentiate between

  • documents that were created as part of educational processes (e.g., program evaluations, syllabi and curricula),
  • documents created in education but not for educational purposes (e.g., personal files, organisational policies and websites), and
  • documents created outside of medical education altogether (e.g., social media posts, TV or film scripts) (Ellaway et al., 2019).

Documents can differ in how they were produced and for what purposes, as well as how they were preserved or curated, what media they were captured on and whether they have been copied, transcribed, edited or redacted since their creation.

문서는 중립적인 것이 아니라 사회적으로 구성된 것입니다.문서의 사회성에 주목하면 누가, 어떤 목적으로, 어떤 맥락/사회적 위치에서 문서를 만들었는지에 주목하게 됩니다. 다시 말해, 문서는 단순히 문서에 포함된 정보 그 이상이며, 문서가 무엇을 나타내는지, 그리고 문서가 해석되고 사용될 수 있는 무수한 방식에 관한 문제이기도 합니다. 
Documents are not neutral, they are socially constructed.7 Attending to the sociality of documents focuses attention on who created it, for what purposes and in what context/social situatedness. In other words, a document is more than the information it contains; it is also a matter of what it represents and the innumerable ways in which it might be interpreted and used.

연구자는 각 연구의 맥락에서 문서가 의미하는 바를 정의해야 합니다. Prior8는 ''문서'라는 단어는 어떤 종류의 물리적 또는 전자적 용기를 나타내는 명사로 사용되는 경향이 있지만... 어떤 대상을 문서로 표시하는 것은 그것이 담고 있는 내용이나 물리적 또는 전자적 형식이 아니라 정보의 전달자로서의 역할과 사용'이라고 주장했습니다(Briet9 및 Lund 참조).10 반면에 Ricoeur는 문서를 탐구 행위로 인해 생겨난다고 설명했습니다.6 이는 과학적 탐구에서 데이터의 정의와 더 일치하는데, 합법적인 출처의 독점 목록보다는 선택 및 분석 행위가 더 중요하다는 점입니다. 
Researchers need to define what they mean by documents in the context of each study. Prior8 argued that[T]he word “document” tends to be used as a noun to denote a physical or electronic container of some kind … however, what marks an object as a document is not what it contains nor its physical or electronic format, but its role and use as a conveyor of information—see also Briet9 and Lund.10 Ricoeur on the other hand described documents as brought into being by the act of inquiry.6 This is more consistent with a definition of data in scientific inquiry: acts of selection and analysis matter more than exclusive lists of legitimate sources.


문서 분석(DA)은 일반적으로 텍스트 및/또는 이미지가 포함된 인쇄 또는 전자 문서를 포함하는 체계적인 연구를 포괄하는 용어입니다.11 DA는 연구 참여자로부터 정보를 직접 도출하지 않으므로 참여자의 반응이나 행동 변화 가능성을 제거하므로 비교적 방해가 적습니다.12 DA는 [과거 사건에 대한 역사적 분석과 비판적 이론적 관점의 표현]에서 [정책 및 이론 개발]에 이르기까지 다양한 용도로 사용될 수 있습니다. 그러나 많은 연구에서 문서가 엄격하고 논리적인 DA 방법론을 따르기보다는 '상대적으로 조용히 '현장'에 들어왔다가 나가는'(417쪽) 경향이 있습니다.5 구어에 비해 문서 기반 데이터를 과소평가하거나 DA 연구의 수행이나 보고에 거의 관심을 기울이지 않는 연구자들에 대한 비판도 있었습니다.13-16
Document analysis (DA) is an umbrella term for systematic research involving printed or electronic documents, typically containing text and/or images.11 It is relatively unobtrusive as it does not involve the direct elicitation of information from research participants and thus removes the potential for reaction or changed behaviour from participants.12 There are many possible uses of DA, ranging from historical analyses and articulations of critical theoretical perspectives on past events to policy and theoretical development. However, rather than following rigorous and logical DA methodologies, documents in many studies have tended ‘to enter and to leave the ‘field’ in relative silence’ (p. 417).5 There has also been criticism of researchers who under-privilege document-based data compared to the spoken word or who pay little attention to the conduct or reporting of DA studies.13-16

보건 전문직 교육(HPE) 실무, 토론 및 문화의 문서화 현실에 의도적으로 조율하고 DA를 사용하는 것은 HPE 연구에서 아직 개발되지 않은 풍부한 잠재력을 가지고 있으며, 이는 다른 연구자들이 더 깊이 탐구하도록 남겨둘 문제입니다. 그러나 이 연구의 계기가 된 것은 DA가 HPE 연구에서 제대로 개발되지 않아 엄밀성과 명확성이 부족하다는 가설이었습니다. 이 가설을 탐구하기 위해 메타 연구 검토 프로세스를 채택하여17 결과보다는 방법에 비판적으로 집중할 수 있었습니다. 따라서 이 연구는 더 나은 방법을 개척하기 위한 연구를 수행하기 위한 것이었습니다.18, 19 
Deliberately attuning to the documentary reality of health professions education (HPE) practice, debate and culture and the use of DA holds a wealth of untapped potential in HPE research, a matter that we will leave others to explore in more depth. However, the trigger for this study was our hypothesis that DA has been underdeveloped in HPE research, with a resulting lack of rigour and clarity. To explore this hypothesis, we employed a meta-study review process,17 which allowed for a critical focus on methods rather than on outcomes. As such, this study was about conducting research on research to pioneer better methods.18, 19

방법론적 입장과 다양한 절차적 방법의 집합으로서 DA에 초점을 맞추기 위해 메타 방법 접근법을 채택했습니다.20 우리의 목표는 HPE 문헌에서 DA의 현재 상태를 설명하고, DA에 참여하는 연구자를 지원하는 방법을 파악하고, 우리 분야의 다른 방법과 비교할 수 있는 방법론적, 분석적, 보고의 엄격성 표준을 제안하는 것이었습니다. 이를 통해 HPE에서 문서 정보에 기반한 연구의 품질을 개선하는 데 기여하고자 했습니다. 
Given our focus on DA both as a methodological stance and as a set of various procedural methods, we adopted a meta-method approach.20 Our aims were to describe the current state of DA in the HPE literature, to identify ways to support researchers engaging in DA and to propose standards of methodological, analytical and reporting rigour comparable to other methods in our field. Collectively, we sought to contribute to improving the quality of document-informed research in HPE.

이를 위해 다음과 같은 검토 질문을 던졌습니다:
To that end, the review questions were as follows:
1. HPE 연구 논문에서 DA는 어떻게 접근해 왔습니까?
2. HPER(보건 전문직 교육 연구)에서 현재 DA 관행의 강점과 약점은 무엇인가?
3. HPER에서 DA 관행을 강화하려면 무엇이 필요한가?
4. DA를 통해 해결할 수 있는 지식의 격차는 무엇입니까?

  1. How has DA been approached in HPE research papers?
  2. What are the strengths and weaknesses of current DA practices in HPER (health professions education research)?
  3. What is needed to strengthen DA practices in HPER?
  4. What are the gaps in our knowledge that could be addressed through DA?

2 방법론
2 METHODS

DA의 방법론적 입장과 절차적 방법에 초점을 맞추다 보니 범위 검토 접근 방식을 취하게 되었을 수 있습니다. 그러나 범위 검토Scoping review는 '연구 활동의 범위, 범위 및 성격을 검토'하고 '기존 문헌의 연구 공백을 파악'할 수 있지만,21 연구 과정을 명시적으로 고려하는 메타 연구의 초점과 구체성이 부족합니다. 따라서 우리의 연구 설계는 메타 연구에서 inform되었으며,17 '실질적 영역에서 연구의 이론, 방법 및 데이터 분석을 면밀히 조사하는 분석, 그리고 새로운 지식 창출에 적용하는 마무리로 종합'(2페이지)을 포함합니다.

  • 분석과 관련하여 우리의 목표는 연구 목적으로 사용된 문서가 식별, 기술, 관리 및 분석된 방식을 종합하고 해석하는 것이었습니다. 즉, 메타 연구는 사용된 DA 방법의 인식론적 건전성(지식의 원천으로서 문서의 표현과 문서에서 도출된 지식 또는 이를 기반으로 한 지식 사이의 일치와 일관성)과 방법론적 적절성에 초점을 맞추었습니다.
  • 종합 측면에서, 우리의 목표는 특히 강점과 한계, 문헌의 동향, 우리 분야에서 DA의 수행과 보고가 어떻게 개선될 수 있는지에 중점을 두고 HPER의 DA 연구에 대한 증거에 기반한 설명에 도달하는 것이었습니다. 

Our focus on methodological stance and procedural methods in DA might have led us to take a scoping review approach. However, while scoping reviews can both ‘examine the extent, range and nature of research activity’ and ‘identify research gaps in the existing literature’,21 they lack the focus and specificity of meta-study, which explicitly considers research processes. Our study design was therefore informed by meta-study,17 which involves analysis, the scrutiny of the theory, method, and data analysis of research in a substantive area, and culminates in synthesis, an application of that scrutiny to the generation of new knowledge’ (p. 2).

  • With respect to analysis, our goal was to synthesise and interpret the ways in which documents used for research purposes had been identified, described, managed and analysed. This meant that our meta-study focused on the apparent epistemological soundness (an alignment and coherence between the articulation of documents as sources of knowledge and the knowledge that was derived from them or based upon them) and methodological appropriateness of the DA methods used.
  • In terms of synthesis, our goal was to arrive at an evidence-informed description of DA research in HPER with a particular focus on its strengths and limitations, trends in the literature and how the conduct and reporting of DA in our field might be improved.

포지셔닝
Positionality

우리는 이 연구를 수행하면서 우리가 가져온 관점에 주목합니다. 이 연구는 HPER의 방법론과 이론에 대한 지속적인 논의를 바탕으로 개발되었으며, 처음에는 DA 연구를 수행한 저희의 경험을 바탕으로 했습니다.

  • 보다 구체적으로, JC는 연구의 일환으로 문서 분석을 수행한 경험이 있고(예: Cleland 외.22, Patterson 외.23), 연구 내에서 DA를 사용한 박사 과정 학생을 감독한 경험이 있습니다(예: Coyle 외.24, Hawick 외.25).
  • AM은 문제 기반 학습 연구(To 외.26 및 MacLeod 외1)와 리더십 직무 기술서 연구(Gorsky 외.27)에서 문서를 주요 소스로 사용하고 삼각 측량을 위해 DA를 사용한 초기 연구에서 DA를 주요 소스로 사용한 경험을 가지고 있습니다. 각각의 경우 문서 소싱, 관리 및 분석 방법과 관련하여 추가 설명의 기회가 있습니다.
  • RHE는 연구의 일환으로 문서 분석을 수행한 경험이 있었는데28-30, 편집자이자 멘토로서의 다른 관점을 이 문제에 적용했습니다. 우리 자신의 DA 경험과 이 분야의 다른 사람들의 DA 작업을 읽으면서 일반적으로 DA 관행의 깊이와 엄격함을 개선하기 위해 노력했습니다. 

We note the perspectives we brought to bear in undertaking this research. The study was developed from our ongoing discussions about methodology and theory in HPER and was based initially on our own experiences in conducting DA research.

  • More specifically, JC had experience in conducting document analyses as part of her research (e.g., Cleland et al.22, Patterson et al.23) and in supervising doctoral students who used DA within their research (e.g., Coyle et al.24 and Hawick et al.25).
  • AM had experience using DA as a primary source in earlier research where documents were used both as a primary source and to triangulate in studies of Problem Based Learning (To et al.26 and MacLeod et al1) and also as an object in studies of leadership job descriptions (Gorsky et al.27). In each case, there are opportunities for further explanation with respect to how documents were sourced, managed and analysed.
  • RHE had experience in conducting document analyses as part of her research28-30 she brought other perspectives from being an editor and mentor to bear on the issue. It was both our own DA experiences and our reading of the DA work of others in the field that led us to seek to improve the depth and rigour DA practices in general.

프로세스
Process

먼저 파일럿 검색을 실시하여 잠정 검색 전략을 테스트하고, 연구 질문을 구체화하며, 검토 범위를 계획하는 데 도움을 받았습니다. 2021년 7월 15일에 익명 모드에서 ['문서 연구' 및 '의학교육']이라는 용어로 Google Scholar를 사용하여 이 파일럿 검색을 실시했습니다. 그 결과 261개의 논문이 반환되었으며, 이 중 처음 50개의 관련성을 분석하여 6개의 논문(12%)을 식별했습니다. 이를 통해 학습한 후, 2021년 7월 16일에 PubMed와 ['문서 분석' 및 '의학 교육']을 사용하여 두 번째 파일럿 검색을 수행한 결과 53개의 논문이 반환되었습니다. 관련성을 검토한 결과, 14개의 논문은 HPE와 관련이 없는 것으로 제외되었고, 39개(74%)의 논문이 신뢰할 수 있는 것으로 나타났습니다. 이는 또한 대규모 메타 연구를 실행할 수 있을 만큼 충분한 HPE 연구에서 어떤 식으로든 DA를 사용했음을 시사합니다. 
We first conducted a pilot search to test our provisional search strategy, refine our research questions and help us plan the scope of the review. We conducted this pilot search using Google Scholar in anonymous mode with the terms [‘document research’ AND ‘medical education’] on 15 July 2021. This returned 261 articles, of which the first 50 were analysed for relevance, identifying six articles (12%). Learning from this, we then conducted a second pilot search using PubMed and [‘document analysis’ AND ‘medical education’] on 16 July 2021, which returned 53 articles. Screening for relevance, 14 articles were excluded as not being relevant to HPE, leaving 39 (74%) that seemed credible. This also suggested that sufficient HPE studies had used DA in some way to render a larger meta-study viable.

전체 검색을 위해 사서와 협력하여 검색 전략을 수립했습니다. 사서의 추천에 따라 범위를 '의학교육'에서 HPE에 대한 보다 광범위한 용어로 확장하고(부록 1a-1c 참조), MEDLINE, CINAHL, Scopus 및 ERIC을 포함하도록 검색을 확대했습니다. Google Scholar는 제외되었으며, 연구에 입력된 논문의 양과 일관성을 관리하기 위해 2000년 1월부터 2021년 10월까지 발표된 영어 논문으로 검색을 제한했습니다. 전체 검색 결과 1298개의 논문이 검색되었으며, 이 단계에서 285개의 중복 논문을 제거했습니다. 그런 다음 인용문을 Excel로 가져왔습니다. 
For our full search, we worked with a librarian to create a search strategy. On their recommendation, we expanded the scope from ‘medical education’ to a set of broader terms for HPE (see Supplementary Appendices 1a1c), and we expanded the search to include MEDLINE, CINAHL, Scopus and ERIC. Google Scholar was omitted, and we limited the searches to English-language papers published from January 2000 to October 2021 as a way of managing the quantities and coherence of the papers entered into the study. This full search resulted in 1298 articles; 285 duplications were removed at this stage. Citations were then imported into Excel.

그런 다음 각 저자는 전체 텍스트를 읽기 전에 논문 그룹을 필터링하고, 라벨을 붙이고, 제목과 초록을 선별하여 포함하거나 제외한 이유에 대한 의견을 작성했습니다. 이 단계에서 의학 교육에 관한 논문이 아닌 경우, DA를 포함하지 않는 방법론이 포함된 경우, 문서를 참조했지만 해당 문서를 분석하지 않은 경우(예: 논평), 인터뷰 녹취록만 분석한 경우, 영어로 된 논문이 아닌 경우 논문을 제외했습니다. 논평이나 오피니언 기사는 DA와 관련된 내용일 경우 포함했습니다. 
Each author then took a group of articles to filter, label and make comments on why she included or excluded them on title and abstract screening, before full-text reading. At this stage, we excluded articles if they were not on healthcare education, if they involved methodologies that did not include DA, if they referred to documents but did not analyse these documents (such as in commentaries), if the analysis was only of interview transcripts or if they were not in English. We included commentaries or opinion articles when they involved some sort of DA.

파일럿 검색을 통해 얻은 인사이트를 바탕으로 연구 질문 1과 2를 해결하기 위해 데이터 추출은 다음에 중점을 두었습니다.

  • DA가 사용된 정도,
  • DA의 목적,
  • 사용된 DA 방법과 DA 적용 및 보고의 엄격성,
  • 사용된 문서의 범위와 유형,
  • 연구 질문 해결에 있어 DA의 유용성

이러한 초기 연역적 주제에 매핑된 데이터 추출 도구를 반복적으로 개발했습니다. 또한 Siegner 등이 제시한 정성적 DA의 유형을 참고했습니다.

  • 맥락(문서가 연구 질문이나 문제에 대한 관련 배경을 제공함),
  • 삼각측량(문서가 다른 데이터를 확증하는 수단으로 사용됨),
  • 1차 출처(연구용 데이터),
  • 연구 대상(사회적 맥락에서 특정 문서의 역할과 기능)

Based on the insights gained from the pilot search and to address study questions 1 and 2, data extraction focused on

  • the extent to which DA had been employed,
  • the purpose of DA,
  • the DA methods used and the rigour with which DA was applied and reported;
  • the range and types of documents used; and
  • the utility of DA in addressing the research question.

We iteratively developed a data extraction tool mapped to these initial deductive themes. We also drew on Siegner et al’s31 typology of qualitative DA:

  • contextual (documents provide relevant background on the research question or problem),
  • triangulation (documents are used as a means of providing corroborating other data),
  • primary source (the data for a study) and
  • object of the research (the role and function of a specific document in its social context).

세 명의 저자가 처음 몇 개의 논문을 코딩하고 도구로 데이터를 추출한 후, 데이터 추출 도구의 흐름과 명확성을 위해 수정한 다음 선택한 모든 논문에 적용했습니다(보충 부록 2 참조). 이 도구는 추출 데이터의 추적 및 대조가 가능하도록 Qualtrics(유타주 프로보)를 사용하여 제공되었습니다. 
Following the coding of the first few articles and data extraction into the tool by all three authors, the data extraction tool was modified for flow and clarity and then applied to all selected articles (see Supplementary Appendix 2). The tool was delivered using Qualtrics (Provo, UT) to allow for tracking and collation of extraction data.

데이터 추출이 완료되면 Qualtrics에서 리뷰를 다운로드하고 구조화된 응답을 표로 만들고 구조화되지 않은 응답을 대조했습니다. 세 팀원 모두 비정형 응답을 읽고 주요 이슈와 우려 사항을 코딩했습니다. 이 단계는 귀납적이고 해석적이며 반사적인 방식으로 진행되었으며, DA 상태에 대한 초기(선입견) 믿음을 코딩의 출발점으로 삼아 이후 데이터와의 접촉, 회의 및 토론을 통해 이러한 믿음을 지속적으로 재구성했습니다.32 
Once the data extraction was complete, the reviews were downloaded from Qualtrics, the structured responses tabulated and the unstructured responses collated. All three team members read through the unstructured responses and coded for key issues and concerns. This step was inductive, interpretive and reflexive, using our initial (preconceived) beliefs about the state of DA as the starting point for coding and reconstructing these beliefs continuously through subsequent contact with the data, meetings and discussions.32

3 결과
3 RESULTS

검색을 통해 확인된 1013개의 논문 중 898개의 논문이 포함 기준을 충족하지 못했습니다. 그 결과 115개의 논문이 리뷰에 포함되었습니다(리뷰 코퍼스를 구성하는 논문 목록은 그림 1 및 부록 3 참조). 
Of the 1013 articles identified from the search, 898 did not meet our inclusion criteria. This left 115 articles for inclusion in the review—see Figure 1 and Supplementary Appendix 3 for the list of articles that made up the review corpus.

 

56편의 논문은 의학 교육(n = 20), 보건 과학 교육 발전(n = 9), 의료 교사(n = 9), 학술 의학(n = 6), 전문직 간 진료(n = 4), BMC 의학 교육(n = 5), 의학 교육에 대한 관점(n = 3, 이 저널은 2012년까지 영어로 출판되지 않음), 그리고 다양한 간호 저널에 20편의 논문이 추가로 실렸습니다. 몇몇 논문은 의학 전문 학술지(n = 10)에, 나머지는 다양한 기타 학술지에 게재되었습니다. 2000~2010년(n = 19)에 비해 2011~2021년(n = 96)에 DA 사용을 보고한 논문 수가 크게 증가했습니다. 63편의 논문은 단일 방법(DA만)이었고, 나머지는 혼합 방법 연구(MMR)였습니다. 이 중 22개는 DA와 인터뷰, 나머지 8개는 인터뷰와 포커스 그룹을 포함했습니다. 7건은 일반적으로 인터뷰와 함께 DA 및 설문조사 데이터를 포함했습니다(DA 및 설문조사 데이터만 사용한 논문은 1건뿐). 여러 연구에서 DA, 인터뷰(개별 또는 포커스 그룹), 관찰 등 다양한 데이터 소스를 사용했습니다. 저희가 확인한 연구 중 5건은 특정 정보를 찾기 위해 문서를 면밀히 검토한 후 설명적 또는 통계적 분석을 거친 정량적 연구였습니다. 
Fifty-six articles were in HPE journals including Medical Education (n = 20), Advances in Health Sciences Education (n = 9), Medical Teacher (n = 9), Academic Medicine (n = 6), The Journal of Interprofessional Care (n = 4), BMC Medical Education (n = 5) and Perspectives on Medical Education (n = 3, note this journal did not publish in English until 2012), plus an additional 20 articles in various nursing journals. Several articles were published in medical specialty journals (n = 10), and the remainder, in diverse other journals. There was a significant increase in the number of articles published reporting the use of DA in the period 2011–2021 (n = 96) compared to 2000–2010 (n = 19). Sixty-three articles were single method (DA only), and the others were mixed methods research (MMR). Of these, 22 involved DA and interviews, and a further eight involved interviews and focus groups. Seven included DA and survey data, usually along with interviews (only one paper used DA and survey data only). Several studies used many different sources of data, such as DA, interviews (individual or focus groups) and observations. Five of the studies we identified were quantitative, scrutinising documents for specific information, which was then subject to descriptive or statistical analysis.

문서 말뭉치, 연구 목적, 방법, 연구 결과, 문서 분석의 이론 및 메타학문 측면에서 메타 연구 내러티브 종합을 보고합니다.
We report our meta-study narrative synthesis in terms of the document corpus, purposes, methods, findings and theory and metascholarship in document analyses.

문서 코퍼스
Document corpus

먼저 DA에 입력된 문서, 즉 '문서 말뭉치'(보충 부록 3)부터 시작합니다. 연구 이전에 존재했던 문서(예: 회의록 및 정책 문서)와 연구의 일부로 생산된 문서(예: 현장 노트 및 일기 항목)를 분석하는 데 한 가지 차이점이 있습니다. Charmaz33은 전자의 경우 '현존하는 텍스트'라는 용어를, 후자의 경우 '도출된 텍스트'라는 용어를 사용했습니다. 저희가 검토한 논문 중 단 2개(<2%)만이 연구에서 도출된 데이터를 사용했습니다. Voogt 등34은 정책 문서와 함께 참여자 QI 프로젝트 자료를 분석했고, Ruiz-Lopez 등35은 참여자의 저널을 분석했습니다. 인터뷰 녹취록과 같이 연구에서 생성된 데이터는 포함하지 않았습니다. 
We start with the documents that were entered into the DA; the ‘document corpus’ (Supplementary Appendix 3). One distinction was between the analysis of documents that pre-existed the research (e.g., meeting minutes and policy documents) and documents that were produced as part of a study (e.g., field notes and diary entries). Charmaz33 used the term ‘extant text’ for the former and ‘elicited text’ for the latter. Only two (<2%) of the articles we reviewed used study-elicited data. Voogt et al.34 analysed participant QI project materials (alongside policy documents) and Ruiz-Lopez et al.35 analysed participants' journals. Note that we did not count study-generated data such as interview transcripts.

둘째, 문서 선정 방법, 포함된 문서 수, 분석된 문서의 특성에 대한 정보가 광범위하게 부족했습니다. 실제로 어떤 문서가 사용되었는지(또는 왜 포함되었는지 또는 어떻게 분석되었는지) 보고하지 않은 연구도 있었습니다(예: Brosnan36).

  • 다음은 이러한 세부 사항 부족의 대표적인 예입니다: '검토 대상인 전문 규제 측면과 관련된 정책 보고서 또는 논평에 해당하는 텍스트가 포함된 경우'(731쪽).37
  • 또 다른 예로, Wong38 은 다음과 같이 언급했습니다: '이용 가능한 모든 부서 및 프로그램 문서를 검토했다'(1211쪽)고 말했지만, 문서가 무엇인지, 문서 수가 얼마나 되는지, 그 밖의 다른 내용은 설명하지 않았습니다.
  • 마찬가지로 '핵심 문서'라는 문구가 문서 포함에 대한 유일한 정당화였습니다. 그러나 이러한 핵심 문서가 무엇이고 왜 핵심 문서인지에 대한 정보가 없으면 포함된 문서의 품질이나 적절성을 평가할 근거가 없습니다. 

Secondly, there was a broad deficit of information on how documents were selected, on how many documents were included and on the characteristics of the documents analysed. Indeed, some studies did not report what documents were used (or indeed why they were included or how they were analysed, e.g., Brosnan36).

  • The following typifies this lack of detail: ‘texts were included if they constituted policy reports or commentary concerned with those aspects of professional regulation of concern to the review’ (p. 731).37 
  • As another example, Wong38 stated: ‘all available departmental and programme documents were examined’ (p. 1211) but did not describe what they were, how many there were, or anything else about them.
  • Similarly, the phrase ‘key documents’ was the only justification for document inclusion. However, without information as to what these key documents were and why they were key, there are no grounds on which to assess the quality or appropriateness of the included documents.

DA 말뭉치의 구성에 대한 세부 정보가 부족하기 때문에, 우리가 말할 수 있는 것은 다음과 같은 대략적인 범주에 속하는 문서들이 포함되었다는 것입니다:
Given the lack of detail on the makeup of the DA corpus, the most we can say is that documents approximated to the following broad categories:

  1. 단일 교육기관 커리큘럼 문서예를 들어, Hawick 등은25 내부 보고서와 회의록을 분석하여 커리큘럼 개혁의 과정을 조사했습니다.
    Single institution curricular documents. For example, Hawick et al.25 analysed internal reports and meeting minutes to examine the processes of curricular reform.
  2. 다중 교육기관 커리큘럼 문서. 예를 들어 Steven 등39은 여러 영국 의과대학의 이비인후과 커리큘럼을 분석했습니다.
    Multi-institution curricular documents. For example, Steven et al.39 analysed the otolaryngology curricula from multiple UK medical schools.
  3. 정책 및 기타 공개 문서. 예를 들어, Razack 등40은 의과대학 선택에 대한 담론 분석을 위해 의과대학 웹사이트와 국가 규제 기관의 정책 문서를 조사했습니다. 프레데릭센41은 정해진 기간 내에 출판된 의사와 간호사를 위한 교과서를 분석했습니다(논문에서 교과서에 대한 세부 정보를 제공).
    Policy and other public-facing documents. For example, Razack et al.40 examined the medical school websites and the policy documents of national regulatory bodies in a discourse analysis of medical school selection. Frederiksen41 analysed textbooks for doctors and nurses published within a defined time period (providing details of the textbooks in her paper).
  4. 학생 또는 교수진 데이터(자기 성찰, 학습 로그, 온라인 토론 등). 예를 들어, Zaidi 등42은 온라인 토론의 텍스트를 분석하여 비판적 의식을 형성하는 데 있어 기존 다문화 토론의 강점과 한계를 정의했습니다.
    Student or faculty data (self-reflections, learning logs, online discussions etc.). For example, Zaidi et al.42 analysed text from online discussions to define the strengths and limitations of existing cross-cultural discussions in generating critical consciousness.

목적
Purposes

  • Siegner 등의 유형학을 사용하여 31개의 논문에서 삼각 측량 목적으로 DA를 사용한다고 명시적으로 설명했거나, 명시적으로 설명하지 않은 경우 전체 논문을 읽은 후 문서 사용을 그렇게 해석했습니다.
    • 예를 들어, Hawick 외.25는 다음과 같이 말했습니다: '문서 분석의 목적은 다양한 데이터 소스와 방법을 사용하여 수렴과 확증을 추구하는 것이었다'.
  • 20개의 기사에서 문서가 맥락적 목적으로 사용된 것으로 보였습니다.
  • 그보다 적은 수(n = 16)의 논문이 문서를 연구 대상으로 사용했으며, 이들은 담화 분석 연구인 경향이 있었습니다.
  • 나머지 논문(n = 48)에서는 사실 또는 맥락에 대한 주요 참고 자료로 문서가 사용되었습니다(우리가 알 수 있는 한).
    • 예를 들어 보그스트롬 등43은 포트폴리오 콘텐츠를 조사하여 직업적 가치에 대한 언급을 식별하고 분석했습니다.
    • 앤더슨과 갈리아르디44는 여성 건강 커리큘럼에 대한 내용 분석을 수행하여 관련 커리큘럼 내용을 파악했습니다.
    • Waterval 등45 은 다양한 문서의 내용을 사용하여 연구 질문에 대한 정보를 얻었습니다.
  • Using Siegner et al’s typology, 31 articles either explicitly described using DA for triangulation purposes or, where this was not made explicit, on reading the full article, we interpreted their use of documents as such.
    • For example, Hawick et al.25 stated: ‘The aim of document analysis was to seek convergence and corroboration through the use of different data sources and methods’.
  • In 20 articles, documents seemed to be used for contextual purposes.
  • Fewer (n = 16) used documents as the object of the research, and these tended to be discourse analysis studies.
  • In the other articles (n = 48), documents had been used (as far as we could tell) as primary reference sources on factual or contextual matters.
    • For example, Borgstrom et al.43 examined portfolio content to identify and analyse references to professional values.
    • Anderson and Gagliardi44 conducted a content analysis of women's health curricula to identify relevant curriculum content.
    • Waterval et al.45 used the content of various documents to inform their research questions.

방법
Methods

문서에서 데이터를 추출하는 방법은 설명이 부족하고 모호한 경우가 많았습니다. 예를 들어, Sirili 등은46 탄자니아 교육 개혁의 정책 과정과 결과를 분석하는 데 사용한 문서를 명확하게 나열했습니다. 그러나 문서 데이터를 어떻게 관리하고 분석했는지에 대한 정보는 논문에서 찾아볼 수 없었습니다.

  • 35편(30%)의 논문이 내용 분석, 프레임워크 분석 또는 주제 분석을 사용했다고 보고했지만, 이는 주로 기본적인 사실이나 세부 사항을 추출하는 데 그쳤으며, 권위나 명료성에 거의 주의를 기울이지 않았고 이러한 분석 기법의 사용 간에 별다른 차이를 발견할 수 없었습니다.
  • 29개(25%) 논문은 어떤 종류의 담론 분석을 사용했다고 밝혔고, 24개(21%) 논문은 분석 접근법이나 방법론을 사용했다고 언급하지 않았습니다.

예를 들어, Fealy 외.37는 '검색된 모든 텍스트에 대해 문서 분석을 수행했다'(731페이지)고 명시했지만, 어떤 분석을 수행했는지에 대한 자세한 내용은 제공하지 않았습니다. 나머지 논문은 템플릿 분석(예: Chenot 및 Daniel47), 키워드 매칭(예: Wong 외.48) 등 다른 접근법을 사용했습니다.
How data were extracted from documents was often under-described and ambiguous. For example, Sirili et al.46 clearly listed the documents they used to analyse the policy process and outcomes of training reform in Tanzania. However, any information on how they managed and analysed the document data was lacking in the paper.

  • Thirty-five articles (30%) reported using content, framework or thematic analyses, although this was often limited to extracting basic facts or details with little attention to their authority or articulation, and we found little distinction between the use of these analytic techniques.
  • Twenty-nine (25%) articles stated that they used some kind of discourse analysis, while twenty-four (21%) did not mention having used any analysis approach or methodology.

For example, Fealy et al.37 stated ‘Documentary analysis performed on all retrieved texts’ (p. 731) but did not provide any detail of what was done. The remaining articles employed other approaches, including template analysis (e.g., Chenot and Daniel47) and keyword matching (e.g., Wong et al.48).

MMR 논문에서 대부분의 저자는 DA 사용에 대한 설명에 비해 그들이 사용한 다른 방법에 대해 훨씬 더 실질적인 설명을 제공했습니다. 예를 들어, 인터뷰와 문서를 데이터로 사용한 MMR 연구에서는 인터뷰 질문, 인터뷰 대상자, 인터뷰 횟수, 인터뷰 데이터 분석에 대해 명시적으로 설명한 반면, 문서에 대한 세부 사항(샘플링 방법 포함) 및 분석에 대한 설명은 부족했습니다. 예를 들어, 서덜랜드 등49 은 포커스 그룹의 수와 기간, 참가자 수, 포커스 그룹 데이터 분석에 대한 접근 방식을 명시했지만 문서의 수나 문서의 내용, 분석 방법에 대해서는 언급하지 않았습니다(질적 데이터 관리 소프트웨어에 문서를 입력했다고만 명시). 결과 섹션에는 문서 데이터가 제시되지 않았습니다. 다른 논문에서는 저자가 접근 방식을 구성하거나 수행한 방법을 설명하지 않고 단순히 문서 분석 접근 방식을 사용했다고 언급했습니다.
In the MMR articles, most authors provided much more substantive descriptions of the other methods they had used compared to their descriptions of using DA. For example, in MMR studies that used interviews and documents as data, the interview questions, who was interviewed, the number of interviews and interview data analysis were explicitly described, while parallel details about documents, including how they were sampled, and their analysis were lacking. To illustrate, Sutherland et al.49 specified the number and length of their focus groups, the number of participants and their approach to focus group data analysis but made no mention of the number of documents or what these were or how they were analysed (stating only that documents were entered into qualitative data management software). No document data were presented in the results section. In other articles, authors simply mentioned using a document analytic approach rather than describing how the approach was configured or conducted.

위에서 언급한 바와 같이, 29개 논문(25%)은 담화 분석 접근법을 사용했다고 명시적으로 언급했습니다. 그러나 전체 텍스트를 읽어보면 이러한 분석의 대부분은 내용 분석 또는 주제 분석으로 더 정확하게 설명할 수 있습니다. 비판적 담화 분석을 사용했다고 명시한 논문(n = 22) 중 19편이 푸코주의적 관점을 사용했으며, 이 중 16편은 같은 기관에 소속된 저자의 논문이었습니다. 담론 분석 논문에서는 대상 또는 객체와 다른 데이터와의 삼각 측량으로 처리된 문서를 검토했으며, 방법론적 지향이 명시되어 있어 엄밀성과 방법론적 일관성이 논의되고 분명했습니다.
As stated above, 29 articles (25%) explicitly stated that they took a discourse analysis approach. However, when we read the full texts, many of these analyses would be more accurately described as content or thematic analysis. Of those articles which were explicit about using critical discourse analysis (n = 22), 19 used a Foucauldian perspective and 16 of these were from authors associated with the same institution. In the discourse analysis articles, we reviewed documents that were treated as object or object plus triangulation with other data, and, as they had an explicit methodological orientation, rigour and methodological coherence was both discussed and apparent.

연구 결과 및 논의
Findings and discussions

검토한 논문 중 연구 결과의 맥락에서 문서나 그 내용을 명시적으로 설명한 논문은 거의 없었습니다. 오히려 제시된 증거는 고도로 일반화되었거나 MMR 연구의 경우 다양한 지식 주장을 설명 또는 방어하기 위해 다른 방법론적 흐름(예: 인터뷰 데이터)에서 주로 파생된 것이었습니다. 실제로 방법 섹션에서는 문헌을 언급했지만 결과나 논의에서는 명시적으로 언급하지 않은 경우도 있었습니다(예: 50). 유일한 예외는 문서가 유일한 데이터 소스인 담론 분석 기사였습니다. 고찰 섹션에서도 마찬가지로 문서의 품질, 중요성 또는 기타 특성이 연구 결과의 시사점, 추가 연구에 대한 시사점 또는 연구의 한계와 거의 고려되지 않았거나 연결되지 않았습니다. 이는 권위 있는 출처로서의 문서에 대한 신뢰도가 낮거나, 특히 MMR 연구에서 DA 스트림에 대한 연구자들의 일반적인 사각지대가 반영된 결과라고 볼 수 있습니다.
Very few of the articles we reviewed explicitly described their documents, or the content thereof, in the context of their findings. Rather, the evidence presented was either highly generalised or, in the case of MMR studies, largely derived from other methodological streams (e.g., interview data) to illustrate and/or defend their various knowledge claims. Indeed, at times documents were referred to in the methods section but not referred to explicitly in the results or discussion (e.g.,50). The only exceptions to this were the discourse analysis articles where documents were the lone data source. Similarly in discussion sections, the quality, significance or other characteristics of documents were rarely considered or linked to the implications of findings, implications for further research or limitations of the study. This suggests either a lower sense of confidence in documents as sources of authority or a further reflection of the common blind spots researchers have had regarding DA streams, particularly within MMR studies.

이론과 메타학술성
Theory and Metascholarship

대부분의 논문(담화 분석 제외)은 DA 이론이나 방법론적 문제에 대한 근거가 거의 또는 전혀 없었습니다. 대부분 DA 방법론은 이를 뒷받침하기 위해 방법론적 출처를 한두 번 인용하면서 언급되었는데, 가장 흔한 출처는 Bowen이었습니다.11 이러한 무성의함은 어떤 문서가 있는지, 문서와 관련된 연구자의 입장, DA 방법론의 도전과 논쟁 등에 대한 관심이 부족하다는 것을 반영합니다. 
Most articles (discourse analyses excepted) had little or no grounding in DA theory or methodological concerns. Mostly, DA methodology was stated with one or two citations to a methodological source to back it up, most commonly Bowen.11 This casualness reflected a lack of attention to what documents might be, the position of the researcher in relation to the documents, the challenges and debates in DA methods and so forth.

또한 담론 분석 방법을 사용하는 논문과 커리큘럼 개혁에 초점을 맞춘 논문 중 이론적 렌즈를 사용하여 분석한 논문은 소수에 불과했습니다. 예를 들어, 

  • Ellaway 등은 담화 분석을 위해 Gee의51 개념적 틀을 사용했고,
  • Razack 등은40 '푸코, 부르디외, 바흐친, 고프만의 성과 이론'을 활용했으며,
  • Hawick 등은25 데이터의 측면을 강조하기 위해 '사악한 문제' 프레임워크52 를 적용했습니다.

Moreover, only a few articles, typically but not always those employing discourse analysis methods and those focused on curriculum reform, used a theoretical lens in their analysis. For instance,

  • Ellaway et al. used Gee's51 conceptual framing for discourse analysis,
  • Razack et al.40 drew on ‘Foucault, Bourdieu and Bakhtin … and the performance theories of Goffman’, while
  • Hawick et al.25 applied the ‘wicked problem’ framework52 to highlight aspects of their data.

HPE 학자들은 학문적 연구에 더 많은 이론적 지향성을 요구해 왔으며,53 특히 그렇게 하지 않으면 연구 결과의 개념적 일반화 가능성이나 이전 가능성이 제한되기 때문입니다.54 일부 방법론이 이러한 요구에 부응했지만, 아직까지 DA에 실질적인 영향을 미치지는 않은 것으로 보입니다. 또한 DA 이론, DA 방법 또는 DA 과학 전체에 대한 기여에 대한 실질적인 고려는 거의 찾아볼 수 없었습니다. 
HPE scholars have called for more theoretical orientation to scholarly work,53 not least because not doing so limits the conceptual generalisability or transferability of findings.54 While some methodologies have responded to this call, it seems that this has not yet touched DA in any substantial way. We also note that we found almost no substantive consideration of contributions to DA theory, DA methods or DA science as a whole.

예외
Exceptions

많은 누락에도 불구하고 DA를 수용하고 이를 잘 보도한 기사도 몇 개 발견했습니다. 그 중 눈에 띄는 논문은 Sundberg 등의 논문이었습니다.55 저자들이 사용한 문서뿐만 아니라 길이를 포함한 문서의 특성을 설명하는 방식에 감사했습니다. 또한 인터뷰와 문서 모두에 사용된 분석 접근 방식을 명시하고 분석의 각 측면에 대해 인터뷰 데이터와 문서 데이터를 모두 제시했습니다. 마지막으로, 연구진은 연구 질문과 관련된 소규모 문서 코퍼스의 한계에 대해 인정했습니다. 
Despite the litany of omissions, we found some articles that had embraced DA and reported it well. One example which stood out was a paper by Sundberg et al.55 We appreciated the way the authors specified not only the documents they used but also described the characteristics of the documents, including the length. They also specified the analysis approach used for both their interviews and the documents and presented both interview and document data for each aspect of their analysis. Finally, they acknowledged possible limitations of the small corpus of documents relevant to their research question.

4 토론
4 DISCUSSION

HPE 연구 논문에서 DA는 어떻게 접근했습니까?
How has DA been approached in HPE research articles?

DA 연구에 사용된 문서는 기본 데이터 소스가 아닌 맥락적 및 삼각 측량 목적으로 자주 사용되었습니다. 즉, 대부분의 논문에서 문서를 정적이고 '유순한' 지식의 저장소로 개념화하여

  • 문서가 '무엇을 하는가'보다는
  • 문서가 무엇을 '말하는가'(내용),
  • 문서가 어떻게 말하는가를 조사했습니다.8

We found that documents in DA studies were frequently used for contextual and triangulation purposes, not as a primary data source. This meant that most articles conceptualised documents as static and ‘docile’ containers of knowledge, examining

  • what documents ‘say’ (content) and
  • to a lesser extent how they say it,
  • rather than what documents ‘do’.8 

이러한 차이점에는 연구자가 문서에 관여하는 방식에 대한 암묵적인 변증법이 존재했습니다.

  • 한편으로, 문서는 실험적으로 도출된 데이터와 유사한 방식으로 수집, 처리 및 분석되는 1차 데이터로 접근할 수 있습니다.
  • 반면에 문서는 그 내용, 표현 방식, 권위에 대한 논란이 있을 수 있으므로, 덜 비판적이거나 직접적인 방식으로 접근할 수 있으며,
  • 엄격하게 데이터로 간주되기보다는, 데이터를 성찰하는 데 사용될 수 있습니다. 

There was an implied dialectic of researcher engagement with documents in these differences.

  • On the one hand, documents may be approached as primary data that are collected, treated and analysed in similar ways to experimentally derived data.
  • On the other hand, documents may be approached in a less critical or direct way such that their content, articulation and authority are moot, and they are used to reflect on data rather than being strictly considered as data.

문서의 내용을 조사하는 것도 분명 의미가 있지만, 문서의 의미나 중요성을 이해하는 데는 문서 작성, 생산 및 소비의 사회적, 물질적 현실이 매우 중요할 수 있다고 생각합니다. 이는 문서를 다음으로 취급해야 한다는 주장을 반영한 것입니다. 

  • 자원(독자에게 특정 환경, 조직, 사건 또는 사람에 대해 알려주는 의미, 정보원)으로서,
  • 독립적인 인공물로서,56 그리고
  • 잠재적으로 여러 온톨로지를 가진 '사회적 위치의 산물'(Scott57, 34쪽)

(문서의 위치성과 수사적 위치가 어느 정도는 채택된 방법론적 틀 안에 포함되곤 하는) 담론 분석 연구는 다소 예외였다. 예를 들어, Coyle 등24 은 데이터와의 관련성 측면에서 자신의 직업적, 개인적 배경을 밝히고, 서로 다른 삶의 과정, 교육 및 훈련이 문서에 대한 해석과 이 연구의 맥락 및 초점과 관련하여 자신의 입장을 어떻게 형성했는지에 대해 지속적으로 성찰했다고 언급했습니다.
While it is clearly meaningful to investigate the content of documents, we believe the social and material realities of document authorship, production and consumption can be of critical importance in understanding their meaning or significance. This reflects arguments that documents should be treated both

  • as resources (meaning, sources of information that tell a reader about a particular setting, organisation, event or person),
  • as stand-alone artefacts,56 and
  • as ‘socially situated products’ (Scott57, p. 34) with multiple potential ontologies.

The exception, to an extent, was discourse analysis studies where the positionality and rhetorical positioning of the documents were (to some degree) included albeit within the methodological frame adopted. For example, Coyle et al.24 stated their professional and personal backgrounds in terms of relevance to the data and stated that they were continuously reflective about how their differing life courses, education and training shaped their interpretations of the documents and their positioning with respect to the study context and focus of this study.

현재 HPER의 DA 관행의 강점과 약점은 무엇인가요?
What are the strengths and weaknesses of current DA practices in HPER?

서두에서 언급했듯이, 그리고 이번 연구 결과에서 확인했듯이, DA의 활용 가능성은 매우 다양하며, 문서와 그 분석이 학술적 탐구 행위에 가치를 부여할 수 있는 이론적, 실제적 방법도 많습니다. 따라서 우리는 DA의 더 나은 사용이나 더 강력한 사용, 더 나쁜 사용이나 더 약한 사용이 있다고 말할 수 없습니다. 그보다는 DA가 사용된 연구 맥락에서 각각을 명확히 파악하고 평가해야 합니다. 이번 연구 결과는 글로벌 방법론적 규범에 따라 판단하기보다는 연구 내 공통 관심사에 초점을 맞추었기 때문에 이를 반영합니다. 
As we mentioned in our opening and as our findings confirmed, there are many possible uses for DA and many theoretical and practical ways in which documents and analyses of them might lend value to acts of scholarly inquiry. We cannot say therefore that there are better or stronger uses or worse or weaker uses of DA. Rather, each should be articulated and appraised in the study context in which it was used. Our findings reflect this, as we focused on common concerns within studies rather than seeking to judge them against global methodological norms.

예를 들어, 연구를 시작하기 전부터 우려를 했음에도 불구하고(실제로 연구로 이어지기도 했습니다), 저희는 HPER에서 DA가 얼마나 제대로 보고되지 않는지에 놀랐습니다. 물론 예외도 있지만 전반적으로 다음을 보고하는 데에 있어 큰 허점이 있었습니다.

  • 문서를 사용한 이유,
  • 문서를 식별한 방법,
  • 저자가 수행한 작업,
  • 문서에서 발견한 내용에 대한 

이는 특히 다른 방법 및 방법론에 비해 일관되게 DA를 덜 엄격하고 세부적으로 다루었거나, 적어도 덜 엄격하고 세부적으로 기술되거나 보고된 MMR 연구에서 두드러지게 나타났습니다. 이로 인해 투명성과 재현성에 대한 근본적인 문제가 발생하고 연구 결과가 의심스러워졌습니다. 부실한 보고는 문서 데이터의 '신뢰성'(예: 신뢰성 및 확인 가능성)을 평가하는 것을 불가능하게 만든다는 것은 잘 알려진 사실입니다58). MMR 연구 내의 다른 데이터 스트림에 대한 보다 실질적인 보고에 비해 반복적으로 DA 보고가 부족하다는 것은 인터뷰 기록의 주제별 분석과 비교하여 DA 방법 사용에 대한 자신감이나 역량이 부족하다는 것을 반영할 수 있습니다. 그러나 역량보다는 주의력 부족을 나타낼 수도 있습니다. 우리가 검토한 모든 논문이 각 저널에 게재되기 전에 일종의 동료 검토 과정을 거쳤으며, 그 과정에서 DA에 대한 설명이 부족하다는 지적을 받거나 수정되지 않았다는 사실이 이를 뒷받침할 수 있습니다. 따라서 이는 저자의 역량이나 집중력 때문이라기보다는 DA 학술활동에 대한 체계적인 부주의를 나타내는 것으로 보입니다. 
For instance, although we had concerns leading into the study (indeed, they led to the study), we were still surprised at how poorly DA has been reported in HPER. Of course, there are exceptions, but, overall, there are major lacunae in terms of reporting on

  • why documents were used,
  • how documents were identified,
  • what the authors did and
  • what they found from the documents.

This was particularly apparent in MMR studies where DA was consistently treated with less rigour and attention to detail compared to other methods and methodologies (or at least it was described or reported with less rigour and detail). This created a fundamental problem of transparency and replicability and rendered findings suspect. It is well established that poor reporting makes it impossible to assess the ‘trustworthiness’ of the document data (e.g., credibility and confirmability58). The recurring paucity of DA reporting compared to the more substantive reporting of other data streams within MMR studies may reflect a lack of confidence or competence in using DA methods compared to, say, thematic analysis of interview transcripts. However, it may instead indicate a lack of attention rather than competence. This would be supported by the fact that all the articles we reviewed had passed some kind of peer review process before being published in their respective journals, during which the paucity of the description of DA had not apparently been challenged or corrected. This would seem therefore to indicate a systemic inattention to DA scholarship rather than one solely of author competence or focus.

HPER에서 DA 관행을 강화하기 위해 어떤 지침이나 표준이 필요하나요?
What guidelines or standards are needed to strengthen DA practices in HPER?

DA 보고에 대한 가이드라인과 기준이 필요합니다. 우리는 이 문제에 대해 오랫동안 논의한 끝에 일련의 지침과 검토 결과를 위한 출발점으로 PRISMA(체계적 문헌고찰 및 메타분석을 위한 우선 보고 항목) 프레임워크를 활용하기로 결정했습니다.59 PRISMA는 체계적 문헌고찰 보고를 안내하기 위해 개발되었고 DA와 SR 사이에는 많은 개념적, 절차적 차이가 있지만, 문헌 출처에서 자료를 식별, 선택, 추출, 분석 및 합성하는 것과 관련하여 명확성을 제공하는 원칙은 충분히 유사하여 그 사용을 보증하기에 충분했습니다. 말뭉치에서 일련의 기사를 평가하고 범주, 언어, 필수 및 선택적 요소를 해결하여 프레임워크의 초안을 작성하고 다시 작성했습니다. 수용 가능한 수준의 안정성(새로운 문제나 도전 과제가 발견되지 않음)과 기능성(검토 말뭉치의 샘플 기사에 쉽게 적용할 수 있음)을 달성한 후 검토 및 수정 프로세스를 종료했습니다. 
Guidelines and standards for reporting DA are needed. We discussed this at length and decided to draw on the PRISMA (preferred reporting items for systematic reviews and meta-analyses) framework as a starting point for a set of guidelines as well as on the findings from our review.59 Although PRISMA was developed to guide reporting of systematic reviews and there are many conceptual and procedural differences between DA and SR, the principles of providing clarity with respect to identifying, selecting, extracting, analysing and synthesising material from documentary sources were sufficiently similar to warrant its use. We drafted and redrafted the framework based on evaluating a series of articles from the corpus, resolving categories, language and mandatory and optional elements. We ended the review and revision process once we had achieved acceptable levels of stability (no new issues or challenges were identified) and functionality (we found it easy to apply to sample articles from the review corpus).

그 결과 도출된 프레임워크는 저자가 DA 보고를 안내하고 검토자가 DA 연구의 질을 평가할 수 있도록 체크리스트 형태로 표 1에 제시되어 있습니다. 이 체크리스트인 문서 분석 평가 및 보고 체크리스트(CARDA)(그림 60)는 엄격한 DA를 촉진하고 DA의 다양한 과정을 투명하고 완전하며 정확하게 보고하여 독자가 HPER 및 기타 주제 영역에서 문서 사용 및 분석 결과의 신뢰성을 평가하는 데 도움이 되도록 설계되었습니다.
The resulting framework is presented in Table 1, in the form of a checklist for authors to guide the reporting of DA and for reviewers to guide evaluations of the quality of DA studies. This checklist—the Checklist for Assessment and Reporting of Document Analysis (CARDA) (drawing on60) - is designed to facilitate rigorous DA and transparent, complete and accurate reporting of the various processes of DA, to help readers assess the trustworthiness of the findings from document use and analysis in HPER and other subject areas.

TABLE 1. Checklist for the use and reporting of document analysis in HPER (CARDA) (drawing on Tong et al.60)

Section and topic Checklist item
Title 문서 분석과 관련된 연구를 식별합니다.
Identify the study involved in document analysis.
Abstract 방법을 혼합(방법 나열) 또는 문서 분석 전용으로 식별합니다.
Identify the methods as mixed (listing the methods) or solely document analysis.
Rationale 연구에서 문서를 사용한 근거를 설명합니다.
Describe the rationale for the use of documents in the study.
Objectives 연구 목적 또는 연구 질문에 대한 명시적인 설명을 제공합니다.
Provide an explicit statement of the research objective(s) or question(s) of the study.
Eligibility criteria 이 특정 연구에서 데이터로 문서를 포함할 수 있는 자격 기준을 지정합니다.
Specify the eligibility criteria for including documents as data in this specific study.
Document corpus 말뭉치에 있는 문서의 성격을 지정합니다:
 - 얼마나 많은 문서가 있었는지.
 - 어떤 종류의 문서가 포함되었는지(예: 지역 커리큘럼 안내서, 국가 정책 문서).
 - 문서의 매체(인쇄물, 전자 문서 등).
 - 기존 문서가 사용된 문서의 원래 목적(예: 대상 고객, 누가, 언제, 왜 작성했는가?)

사용된 모든 문서에 대한 표 또는 이에 상응하는 문서(문서에 포함하거나 부록으로 포함)를 포함합니다.


Specify the nature of the documents in the corpus:
  • How many documents there were.
  • What kinds of documents were involved (e.g., local curriculum guides and national policy papers).
  • The documents' media (print, electronic etc.).
  • The original purposes of the document where existing documents were used (e.g., Target audience. Who produced them, when and why?)
Include a table or equivalent documentation of all the documents used (either in the paper or as a supplementary table).
Document provenance 해당 문서가 
 연구 전용 문서인지, 
 데이터 수집의 일환으로 작성된 문서(예: 현장 메모 및 일기 항목) 또는 
 기존(현존하는) 문서(예: 회의록, 안내서, 정책 또는 과거 문서)인지 명시합니다.


State whether the documents were
 study-specific or
 elicited (created as part of data collection, e.g., field notes and diary entries) or 
 existing (extant) documents (e.g., meeting minutes, prospectuses, policy or historical documents).


연구와 관련된 문서인 경우 구체적으로 명시합니다:
 - 문서가 어떻게 그리고 누구로부터 도출되었는지.
 - 연구자가 작성한 것인지 참여자가 작성한 것인지. 예를 들어, 일기나 반성적 글쓰기가 사용된 경우, 참여자 대상 그룹의 근거와 텍스트 작성과 관련하여 참여자에게 제공된 지침을 설명합니다.
 - 문서가 작성된 시기와 연구의 일부로 수집된 시기(예: 2020년 1월부터 2020년 12월 말까지)를 명시합니다.

Where documents were study-specific, specify:

  • How they were elicited and from whom.
  • Whether they were researcher- or participant-created. For example, where diary entries or reflective writing are used and explain why the rationale behind the target group of participants and the guidance given to participants in respect of producing texts.
  • When the documents were created and when they were collected as part of the study (e.g., January 2020 to the end of December 2020).
기존 문서가 사용된 경우 명시합니다:
 - 문서를 식별한 방법(예: 아카이브 또는 웹사이트 검색).
 - 적절한 경우, 사용된 필터 및 제한(예: 영어만, 특정 웹사이트만)을 포함하여 문서 식별을 위한 전체 검색 전략을 제시합니다.
 - 모든 검색의 데이터 제한과 이러한 데이터 제한의 근거를 제시합니다.

Where existing documents were used, specify:
  • How the documents were identified (e.g., archives or websites searched).
  • If appropriate, present the full search strategies for document identification, including any filters and limits used (e.g., English language only and particular websites only).
  • The data limits of any searches and the rationale for these data limits.

Document collection and management 문서 입수, 관리 방법 

사용된 문서 중 공개적으로 사용 가능한 문서가 있는지, 어디서 찾을 수 있는지 보고합니다.

How documents were obtained, managed etc.


Report if any of the documents used are publicly available and where they can be found.
Document quality 문서의 '품질'과 문서 품질과 연구 목표와의 관계를 고려합니다.

기존 문서의 경우:
 문서가 완전한가? 
 문서에 공백이 있는가? 문서가 수정되었나요?
 계획보다 더 많은 검색을 수행하거나 추가 문서에 의존해야 했습니까?11
 일부 문서를 사용할 수 없거나 액세스할 수 없었는가?

도출된 문서의 경우:

 참가자들이 의도한 대로 프로세스에 참여했습니까?
 데이터가 포괄적이었습니까, 아니면 드물었습니까?
 데이터를 도출하는 데 연구자의 노력이 얼마나 필요했으며, 연구자 개입(예: 잦은 알림)의 의미는 무엇인가요?

Consider the “quality” of the documents and the relation of document quality to the study objectives.

For existing documents:

  • Were they complete?
  • Were there gaps in the documents? Were they redacted?
  • Did you need to do more searching or rely on additional documents than planned?11
  • Were some documents not available or accessible?
For elicited documents:
  • Did participants engage in the process as intended?
  • Were the data comprehensive or sparse?
  • How much researcher effort was required to elicit the data, and what might be the implications of researcher interventions (e.g., frequent reminders)?

Reflexivity/positionality (may be placed in the methods or discussion section of your paper) 연구자의 역할과 경험, DA 및 포지셔닝에 대한 경험.

문서(#8로 다시 연결되는 링크)와 연구자(들) 모두에서 포지셔닝의 잠재적 존재를 고려합니다.

Role and experience of researchers, experience in DA and positionality.


Consider the potential presence of positionalities, both in a document (links back to #8) and of the researcher(s).
Preliminary data analysis 예비 또는 정리 데이터 분석에 대한 접근 방식문서에서 데이터를 수집하는 데 사용된 방법(예: 보웬의 "1차 문서 검토"[32페이지]11, 종종 주제별 또는 내용 분석의 변형 사용)을 명시합니다.

프로세스에 자동화 도구가 사용되었는지 명시합니다(예: AntConc 및 Wordsmith).

Specify the approach to preliminary or organising data analysis, the methods used to collect data from the documents (e.g., Bowen's “first-pass document review” [p. 32]11; often using variations on thematic or content analyses).


Specify if any automation tools were used in the process (e.g., AntConc and Wordsmith).
Document analysis 어떤 방법론 또는 방법이 사용되었는지 분석 단계를 간략하게 설명하세요.

분석이 콘텐츠, 잠재적 콘텐츠, 언어학 또는 기타 문서 콘텐츠 또는 특성에 중점을 두었는지 설명하세요.

분석가가 분석 대상 문서의 콘텐츠, 스타일, 하위 텍스트 및 기타 차원에 어느 정도, 어떤 방식으로 몰입하거나 조율했나요?

이전 가능성을 보장하기 위해 이론적 렌즈를 사용했나요?

결과를 도출하기 위해 어떤 방식으로 결과를 종합했나요?

Outline the analytical steps taken—what methodology or methods were involved?


Explain whether the analysis focused on content, latent content, linguistics or some other document content or characteristics.


To what extent and in what ways did analysts immerse or attune themselves to the content, style, subtexts and other dimensions of the documents they analysed?


Was a theoretical lens used to ensure transferability?


How were findings synthesised to arrive at findings?
Results directly relate to research questions or goals 일반: 제시된 내용이 논리적 순서로 정리되어 있고 연구 질문과 일치하는지 확인합니다.
General: ensure what is presented is set out in a logical order and aligns with the research question.
Findings directly relate to DA 문맥, 삼각측량, 주요 데이터 소스 또는 연구 접근 방식의 대상 등 문서 데이터가 결과/결과의 근거가 된 방법을 명확히 설명합니다.31

따옴표를 사용하는 경우, 출판물을 참조할 때와 마찬가지로 문서에 대한 링크(예: 문서 이름 및 페이지 번호)를 제공합니다.
Clarify how the document data informed the results/findings—including whether contextual, triangulation or as the primary data source or the object of the research approach.31


If using quotes, link back to the document as you would when referencing a publication (e.g., document name and page number).
Findings are balanced 사용된 DA의 형태와 말뭉치의 성격에 따라 결과와 균형이 맞아야 합니다.

MMR에서 DA 구성 요소는 연구 전체 내에서 가중치에 따라 결과에 표시되어야 합니다.
Results and balanced and proportional to the form of DA used and the nature of the corpus


In MMR, DA component should be represented in results according to its weighting within the study as a whole
Consequences for DA methods 문서 분석이 연구에 무엇을 추가했는지 명확하게 설명해야 합니다.

연구가 DA에 무엇을 추가했나요?

DA 사용의 강점과 한계를 고려합니다.

Be clear about what the document analysis added to the study.


What did the study add to DA?


Consider the strengths and limitations of the use of DA.
DA in context 다른 DA 연구의 맥락에서 결과에 대한 일반적인 해석을 제공하세요.
Provide a general interpretation of the results in the context of other DA studies.
Overall
제공된 세부 정보가 연구를 재현하기에 충분한가?
1. 연구를 재현할 수 있는가?
2. 연구의 모든 단계를 평가하는가?

Are the details provided sufficient to
  1. reproduce the study?
  2. evaluate every stage of the study?

체크리스트의 유용성을 개선하기 위해 파일럿 테스트를 진행했지만, 추가 테스트의 여지가 있다는 점을 잘 알고 있습니다. 분명한 다음 단계는 질적 HPE 학자 및 저널 편집자와 함께 델파이 프로세스를 통해 내용을 계속 평가하고 개선하는 것입니다. 또한 DA에 종사하는 분들을 초대하여 DA 또는 혼합 방법 연구에서 CARDA의 실제 사용을 테스트해 보시기 바랍니다. 또한 다른 방법론 보고를 위한 지침과 체크리스트가 시간이 지남에 따라 발전해 온 것과 마찬가지로, 이러한 피드백이 체크리스트를 더욱 발전시키는 데 사용될 수 있다는 관점에서 학자들이 어떻게 사용했는지에 대한 토론에 참여하도록 초대합니다. 
Although we pilot-tested the checklist to refine its usability, we appreciate that there is room for further testing. An obvious next step would be to continue to assess its content and refine it, perhaps via a Delphi process with qualitative HPE scholars and journal editors. We also invite those engaging in DA to test CARDA's use in practice in DA or mixed methods research. Moreover, we invite scholars to engage in discussion about how they used it, with the view that this feedback can be used to develop the checklist further—in the same way that guidelines and checklists for reporting other methodologies have evolved over time.

DA를 사용하면 어떤 지식의 격차를 해소할 수 있을까요?
What gaps in our knowledge could be addressed using DA?

마지막 연구 질문은 DA를 통해 해결할 수 있는 지식의 격차를 파악하는 것과 관련이 있습니다. 물리적이든 물질적이든, 문서를 수동적인 정보 보유자 이상으로 개념화하면 HPER에서 데이터로서 문서가 가진 엄청난 잠재력을 활용할 수 있습니다. 예를 들어, 다양한 유형, 크기, 형태를 가진 문서는 여러 사회적 세계에 존재하고 이러한 세계 간의 커뮤니케이션을 연결하고 중재하여 여러 세계 간에 지식과 관점의 교환을 촉진하는 경계 개체 역할을 할 수 있습니다(예: 62). 즉, 주어진 텍스트가 어떻게 사용 및/또는 해석될지는 예측할 수 없습니다. 따라서 동일한 경계 개체라도 그것이 서식하는 세계에 따라 다르게 해석될 수 있습니다.

  • 예를 들어, 일련의 인증 표준은 규정 준수를 입증해야 하는 사람들을 위한 거버넌스를 구성합니다.
    • 커뮤니케이션 표준과 올바른 모양과 느낌을 준수하기 위해 인증 표준을 브랜딩하는 일을 맡은 사람들에게 이 문서는 일련의 업무 관련 작업을 수행하는 원동력이 됩니다.
    • 수십 년 후 의료 기록 보관소에서 동일한 표준을 확인하는 사람들에게 이 문서는 한 시대의 우선순위를 나타내는 역사적 지표 역할을 합니다.

문서의 여러 복잡성을 파악하면 다양한 사회적, 물질적 행위자들이 원하는 프로젝트를 달성하기 위해 어떻게 협력하는지, 또는 서로 어떻게 충돌할 수 있는지 등 HPER의 지속적인 과제를 해결할 수 있는 새로운 관점을 발견할 수 있습니다. 예를 들어, 한 세기 전 플렉스너 개혁에 대한 슈레브의63 역사적 DA는 북미 의학교육의 발전에 있어 이 중요한 사건과 이전에는 연관되지 않았던 조작과 이념적 포지셔닝의 층위를 확인했습니다. 
Our final research question related to identifying the gaps in our knowledge that could be addressed through DA. Whether physical or material, when we conceptualise a document as more than a passive holder of information, we can begin to leverage the tremendous potential of documents as data in HPER. For example, documents, of various types, sizes, and forms, can serve as boundary objects61 as they exist in multiple social worlds and serve to connect and mediate communication between those worlds, facilitating the exchange of knowledge and perspectives across them (e.g.,62). In other words, the ways in which a given text will be used and/or interpreted cannot be predicted. The same boundary object can therefore be interpreted differently, depending on the world it inhabits.

  • A set of accreditation standards, for example, constitutes governance for those who must demonstrate compliance.
    • For those tasked with branding the accreditation standards to comply with communications standards and the right look and feel, the document serves as an impetus to engage in a set of work-related tasks.
    • For those who identify with the same set of standards decades later in a medical archive, the document serves as a historical indicator of the priorities of an era.

Attuning to the multiple complexities of documents can allow us to uncover new angles to address ongoing challenges of HPER, including how the various social and material actors involved cooperate to accomplish a desired project or how they may be in conflict with each other. For example, Schrewe's63 historical DA of the Flexner reforms of a century ago identified layers of manipulation and ideological positioning that have not previously been associated with this critical event in the development of medical education in North America.

이는 자연스럽게 디지털 문서에 대한 고려로 이어집니다. 의과대학 웹페이지를 분석한 몇몇 논문을 제외하고는 검토한 논문에서 디지털 문서에 대한 언급이 눈에 띄지 않는데, 디지털 문서가 제공하는 기회 때문에 많은 사람들이 디지털 문서를 다큐멘터리 연구의 미래로 칭송해 왔습니다. 그러나 디지털 문서는 '해석 과정에서 종종 보이지 않지만 중요한 역할을 하는 물질성을 지닌 고도로 매개된 대상'(1743쪽)입니다.64 디지털 문서가 인쇄 문서와 다르다는 점을 인식하면 '형태의 후과'(96쪽)에 대해 질문할 수 있습니다. 65 매체가 중요하다면 문서를 다루는 사람들은 '디지털 텍스트의 존재론적 지위... 디지털 텍스트가 제공하는 특정한 분석적 어포던스를 논의하는 미래의 작업의 근거가 될 것'(78쪽)을 고려해야 합니다.66 문서의 물성과 그 물성이 가능하게 하는 실천 사이의 관계에 대한 추가 고려는 디지털 인문학 분야에서 찾을 수 있습니다(예: Berry와 Fagerjord67 참조).
This leads naturally to the consideration of digital documents. Conspicuously absent in the articles reviewed—other than a few articles that analysed medical school webpages—digital documents have been extolled by many as the future of documentary research because of the opportunities they offer. However, digital documents ‘are highly mediated objects with a materiality that plays a significant, if often unseen contributory role in the interpretative process’ (p. 1743).64 Recognising that digital documents are different from print documents allows us to ask about the ‘consequences of form’ (p. 96).65 If the medium is important, those working with documents need to consider ‘the ontological status of digital text … that will ground future work discussing the specific analytical affordances offered by digital texts’ (p. 78).66 Further consideration of the relationships between the materiality of documents and the practices enabled by the materiality can be found in the field of digital humanities (see, for instance, Berry and Fagerjord67).

마지막으로, '역사가들은 필연적으로 현재에 배치된 설명을 통해 과거의 행동을 이해하려고 시도한다'(71쪽).68 HPE에 있는 수많은 문서와 문서는 과거 사건을 이해하는 주요 도구이지만, 보건 전문직 교육의 역사를 다룬 논문이 현저히 부족하다는 점에 주목했습니다. 단 9건(8% 미만)의 기사만이 일부 역사적 분석 요소를 포함하고 있었으며, 대부분 프로그램에 대한 단순한 설명에 그쳤습니다. 의학의 역사를 다룬 문헌은 중요하지만(실제로 의학의 역사에 초점을 맞춘 오랜 전통의 학술지[예: 의학 및 연합 과학사 및 의학사 저널]가 여러 개 있습니다), 보건 전문직 교육 분야의 역사적 뿌리와 시간의 흐름에 따른 발전에 주목하는 연구는 거의 없다는 점은 주목할 만합니다. 이 분야는 충분히 연구할 가치가 있는 분야입니다. 
Finally, ‘historians attempt to understand past action through descriptions that are, by necessity, laid out in the present’ (p.71).68 The plethora of documents in HPE and documents are our primary tool for understanding past events, but we noted a significant absence of articles that dealt with the history of health professions education. Only nine articles (<8%) involved some element of historical analysis, and for the most part, these were simple descriptions of programs. While the literature addressing the history of medicine is significant (indeed there are several long-established journals focusing specifically on the history of medicine [e.g., Journal of the History of Medicine and Allied Sciences and Medical History], it is noteworthy that so little work in the field of health professions education attends to its historical roots and development over time. This is an area ripe for investigation.

이전 연구와의 비교
Comparison with previous research

연구 목적으로 문서의 장점을 강조한 것은 저희가 처음이 아닙니다. 또한 이를 위한 지침을 제공한 최초의 연구도 아닙니다(예: O'Leary4 및 Bowen11). 그러나 우리가 아는 한, 특정 분야 내에서 방법론적 프레임으로서 DA의 상태를 평가한 것은 이번이 처음입니다. 메타 리뷰 접근법을 사용하여 우리는 DA가 HPER에서 개념화, 제정 및 보고되는 방식에서 주요 문제를 식별할 수 있었습니다. 엄격성과 명확성이 부족한 이유 중 하나는 기존의 DA 지침이 유용하기는 하지만 '방법'에 대한 세부 사항을 충분히 제공하지 않았기 때문이라고 잠정적으로 판단했습니다. 이와 대조적으로, 본 검토의 면밀한 조사, 해석 및 비판을 통해 이전 지침(예: 오리어리4)을 기반으로 HPER 분야 및 잠재적으로 더 광범위하게 적용되는 DA의 방법론적 및 분석적 엄격성에 대한 증거에 기반한 기준을 설명할 수 있었습니다. 
We are not the first to extol the virtues of documents for research purposes. Nor are we the first to offer guidance for doing so (e.g., O'Leary4 and Bowen11). However, to the best of our knowledge, this is the first evaluation of the state of DA as a methodological frame within a particular field. Using a meta-review approach, we were able to identify major issues in how DA has been conceptualised, enacted and reported in HPER. We tentatively suggest that part of the reason for the lack of rigour and clarity is that existing DA guidance, while useful, has not provided sufficient ‘how to’ detail. In contrast, the level of scrutiny, interpretation and critique in our review allowed us to build on previous guidance (e.g., O'Leary4), to delineate evidence-informed standards of methodological and analytical rigour for DA that apply to the field of HPER and potentially more broadly.

강점과 한계
Strengths and limitations

이 연구에 접근하는 우리의 입장이 이 연구의 과정과 보고에 영향을 미칠 수밖에 없었지만, 우리는 연구 방법과 결과, 그리고 연구에서 도출한 권고안을 개발하는 데 있어 투명성을 유지하기 위해 주의를 기울였습니다. 최근 Greenhalgh 등이 권고한 바와 같이,69 우리는 체계적 문헌고찰과 서술적 문헌고찰 방법을 상호보완적으로 사용했습니다. 특히, 검색 과정에 사서를 참여시켜 데이터베이스 선택과 적격 연구를 검색하기 위한 검색 전략 개발을 지원했습니다(예: 70). 검색, 선택, 관리 및 분석에 신중하고 엄격한 접근 방식을 사용했으며 검토 방법에 대한 감사 추적을 제공했습니다.71 '문서'와 '분석'은 연구 논문에서 일반적으로 사용되는 단어입니다. 최종 데이터 세트를 얻기 위해 포함 기준에 따라 식별된 논문을 면밀히 조사해야 했으며, 다른 사람들이 동의하지 않는 내용을 유지하거나 거부하는 결정을 내렸을 수도 있습니다. 그런 다음 이론적 이해를 증진하고 새로운 질문을 식별하기 위해 식별된 연구를 비판적으로 해석하여 DA가 어떻게 사용되었는지에 대한 통찰력을 수집하는 데 집중했습니다.72 이 후자의 과정은 검토된 논문에서 종종 제공되는 데이터가 부족하기 때문에 현실과 진실에 대한 우리 자신의 이해와 '문서 경험'(1118페이지)73에 상당 부분 의존했습니다. 
Although our positionality in approaching this work will have inevitably shaped the process and reporting of this study, we were careful to be transparent in our methods and findings and in the development of the recommendations we made from the study. As recently recommended by Greenhalgh et al.,69 we used systematic and narrative review methods in a complementary manner. Specifically, we involved a librarian in the search process, to help with the selection of databases and the development of a search strategy to retrieve eligible studies (e.g.,70). We used a deliberate and rigorous approach for searching, selection, management and analysis and provided an audit trail of our review methods.71 ‘Document’ and ‘analysis’ are commonly used words in research articles. Close scrutiny of identified articles against the inclusion criteria was required to obtain the final dataset, and we may have made some decisions as to what to keep and what to reject with which others would disagree. We then focused on critically interpreting the identified studies to gather insight into how DA has been used, for the purpose of advancing theoretical understanding and identifying new questions.72 This latter process depended to a great extent on our own understandings of reality and truth and ‘document experience’ (p. 1118)73 given the paucity of data often provided in the reviewed articles.

우리는 HPER의 DA에 초점을 맞추었지만, DA 실무자에 대한 비평과 지침의 일환으로 광범위한 이론 및 절차 문헌을 활용했습니다. 이 과정에서 HPER에서 확인한 많은 강점과 약점이 다른 많은 분야에서도 발견된다는 점에 주목했습니다(예: Coffey56 참조). 우리는 DA에 대한 접근 방식에서 모범적인 분야나 학문을 발견하지 못했으며, 오히려 서로에게서 배울 점이 많은 것으로 보입니다. 
Although our focus was on DA in HPER, we engaged broader theoretical and procedural literatures as part of our critique of and guidance to DA practitioners. In doing so, we noted that many of the strengths and weaknesses we identified in HPER are also to be found in many other disciplines (for instance, see Coffey56). We found no one field or discipline that was exemplary in their approaches to DA; rather, it would seem that there is much to be learned from each other.

5 결론
5 CONCLUSION

DA는 그 자체로 연구 도구로서, 그리고 HPER에서 혼합 방법 연구의 일부로서 많은 잠재력을 가지고 있습니다. 그러나 DA가 그 잠재력을 발휘하기 위해서는 엄격성과 보고 측면에서 개선되어야 합니다. 우리는 이를 위한 지침을 제공하고 해당 분야의 학자들이 DA를 어떻게 사용하는지에 대한 토론에 참여하도록 초대하며, 궁극적으로는 우리 분야에서 의미를 이해하고 구성하는 데 문서를 더 많이, 더 잘 사용하도록 보장하는 것을 목표로 합니다.
DA has much potential as a research tool in its own right and as part of mixed methods research in HPER. However, for it to fulfil its potential, DA must improve in terms of rigour and reporting. We offer guidance for doing so and invite scholars in the field to engage in discussions about how they use DA, with the ultimate aim of ensuring more and better use of documents for understanding and constructing meaning in our field.

 


 

 

Med Educ. 2023 May;57(5):406-417. doi: 10.1111/medu.14964. Epub 2022 Nov 17.

 

 

CARDA: Guiding document analyses in health professions education research

Affiliations collapse

1Lee Kong Chian School of Medicine, Nanyang University Singapore, Singapore.

2Department of Continuing Professional Development and Medical Education, Dalhousie University, Halifax, Nova Scotia, Canada.

3Department of Community Health Sciences, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada.

PMID: 36308050

DOI: 10.1111/medu.14964

Abstract

Introduction: Documents, from policies and procedures to curriculum maps and examination papers, structure the everyday experiences of health professions education (HPE), and as such can provide a wealth of empirical information. Document analysis (DA) is an umbrella term for a range of systematic research procedures that use documents as data.

Methods: A meta-study review was conducted with the aims of describing the current state of DA in HPE, guiding researchers engaging in DA and improving methodological, analytical and reporting rigour. Structured searches were conducted, returns were filtered for inclusion and the 115 remaining articles were critically analysed for their use of DA methods and methodologies.

Results: There was a significant increase in the number of articles reporting the use of DA over time. Sixty-three articles were single method (DA only), while the others were mixed methods research (MMR). Overall, there were major lacunae in terms of why documents were used, how documents were identified, what the authors did and what they found from the documents. This was particularly apparent in MMR where DA reporting was typically poorer than the reporting of other methods in the same paper.

Discussion: Given these many lacunae, a framework for reporting on DA research was developed to facilitate rigorous DA research and transparent, complete and accurate reporting of the same, to help readers assess the trustworthiness of the findings from document use and analysis in HPE and, potentially, other domains. It was also noted that there are gaps in HPE knowledge that could be addressed through DA, particularly where documents are conceptualised as more than passive holders of information. Scholars are encouraged to reflect more deeply on the applications and practices of DA, with the ultimate aim of ensuring more substantive and more rigorous use of documents for understanding and constructing meaning in our field.

프레임워크 방법을 사용하여 다분야 보건연구에서 질적자료 분석하기(BMC Med Res Methodol. 2013)
Using the framework method for the analysis of qualitative data in multi-disciplinary health research
Nicola K Gale1*, Gemma Heath2, Elaine Cameron3, Sabina Rashid4 and Sabi Redwood2

 

질적 데이터의 관리 및 분석을 위한 프레임워크 방법은 1980년대부터 사용되어 왔습니다[1]. 이 방법은 대규모 사회 정책 연구에서 시작되었지만 의료 및 보건 연구에서도 점점 더 대중적인 접근법이 되고 있지만, 그 잠재적 적용과 한계에 대해 약간의 혼란이 있습니다. 이 글에서는 프레임워크 방법을 사용하는 것이 적절한 시기와 다른 질적 분석 방법과 비교하는 방법에 대해 논의합니다. 특히 다학제 보건 연구팀에서 이 방법을 어떻게 사용할 수 있는지 살펴봅니다. 응용 보건 연구에서 다학제 및 혼합 방법 연구가 점점 더 보편화되고 있습니다. 간호학, 심리학, 사회학 등 질적 연구에 익숙한 분야뿐만 아니라 역학자, 보건 경제학자, 경영 과학자 등이 팀에 포함되는 경우가 많습니다. 또한 응용 보건 연구에는 종종 임상적 대표성이 있으며, 점점 더 많은 환자와 대중이 참여하고 있습니다[2]. 우리는 경험이 풍부한 질적 방법론자의 리더십이 의심할 여지없이 필요하지만, 더 넓은 팀의 비전문가도 분석 과정에 참여할 수 있고 참여해야 한다고 주장합니다. 그런 다음 프레임워크 방법의 적용에 대한 단계별 가이드를 제시하며, 프로세스의 주요 단계를 설명하기 위해 발표된 연구[3]의 작업 예시(추가 파일 1 참조)를 사용하여 설명합니다. 기술 용어는 용어집(아래)에 포함되어 있습니다. 마지막으로 이 접근 방식의 강점과 한계에 대해 논의합니다. 
The Framework Method for the management and analysis of qualitative data has been used since the 1980s [1]. The method originated in large-scale social policy research but is becoming an increasingly popular approach in medical and health research; however, there is some confusion about its potential application and limitations. In this article we discuss when it is appropriate to use the Framework Method and how it compares to other qualitative analysis methods. In particular, we explore how it can be used in multi-disciplinary health research teams. Multi-disciplinary and mixed methods studies are becoming increasingly commonplace in applied health research. As well as disciplines familiar with qualitative research, such as nursing, psychology and sociology, teams often include epidemiologists, health economists, management scientists and others. Furthermore, applied health research often has clinical representation and, increasingly, patient and public involvement [2]. We argue that while leadership is undoubtedly required from an experienced qualitative methodologist, non-specialists from the wider team can and should be involved in the analysis process. We then present a step-by-step guide to the application of the Framework Method, illustrated using a worked example (See Additional File 1) from a published study [3] to illustrate the main stages of the process. Technical terms are included in the glossary (below). Finally, we discuss the strengths and limitations of the approach.

프레임워크 방식에 사용되는 주요 용어 용어집
Glossary of key terms used in the Framework Method

  • 분석 프레임워크: 분석에 참여하는 연구자들이 공동으로 개발한 카테고리로 구성된 일련의 코드로, 데이터를 관리하고 구성하는 데 사용할 수 있습니다. 프레임워크는 연구 질문에 답하는 데 도움이 되는 방식으로 데이터를 요약/축소하는 데 도움이 되는 새로운 데이터 구조(참가자가 제공한 전체 원본 설명이 아닌)를 생성합니다.
    Analytical framework: A set of codes organised into categories that have been jointly developed by researchers involved in analysis that can be used to manage and organise the data. The framework creates a new structure for the data (rather than the full original accounts given by participants) that is helpful to summarize/reduce the data in a way that can support answering the research questions.
  • 분석 메모: 특정 개념, 주제 또는 문제에 대한 서면 조사로, 분석 프로세스를 포착하는 데이터의 새로운 이슈를 반영합니다(추가 파일 1, 섹션 7 참조).
    Analytic memo: A written investigation of a particular concept, theme or problem, reflecting on emerging issues in the data that captures the analytic process (see Additional file 1, Section 7).
  • 카테고리: 분석 과정에서 코드는 유사하고 상호 연관된 아이디어 또는 개념을 중심으로 클러스터로 그룹화됩니다. 카테고리와 코드는 일반적으로 분석 프레임워크에서 트리 다이어그램 구조로 배열됩니다. 카테고리는 원시 데이터와 밀접하고 명시적으로 연결되어 있지만, 카테고리를 개발하는 것은 데이터를 추상화하는 프로세스를 시작하는 방법입니다(즉, 특정 또는 일화적인 것이 아니라 일반적인 것을 향해).
    Categories: During the analysis process, codes are grouped into clusters around similar and interrelated ideas or concepts. Categories and codes are usually arranged in a tree diagram structure in the analytical framework. While categories are closely and explicitly linked to the raw data, developing categories is a way to start the process of abstraction of the data (i.e. towards the general rather than the specific or anecdotal).
  • 차트 작성: 요약된 데이터를 프레임워크 메서드 매트릭스에 입력합니다(추가 파일 1, 섹션 6 참조). 
    Charting: Entering summarized data into the Framework Method matrix (see Additional File 1, Section 6).
  • 코드: '코딩'이라는 프로세스에서 원시 데이터의 발췌에 할당되는 설명적 또는 개념적 레이블입니다(추가 파일 1, 섹션 3 참조). 
    Code: A descriptive or conceptual label that is assigned to excerpts of raw data in a process called ‘coding’ (see Additional File 1, Section 3).
  • 데이터: 정성적 데이터는 일반적으로 분석하기 전에 텍스트 형식이어야 합니다. 이러한 텍스트는 도출 텍스트(음식 일기 등 연구를 위해 특별히 작성된 텍스트) 또는 기존 텍스트(회의록, 정책 문서 또는 웹로그 등 기존 텍스트)일 수도 있고, 인터뷰 또는 포커스 그룹 데이터를 필사하거나 참여자 관찰을 수행하거나 대상 또는 사회적 상황을 관찰하면서 '현장' 노트를 작성하여 생성할 수도 있습니다.
    Data: Qualitative data usually needs to be in textual form before analysis. These texts can either be elicited texts (written specifically for the research, such as food diaries), or extant texts (pre-existing texts, such as meeting minutes, policy documents or weblogs), or can be produced by transcribing interview or focus group data, or creating ‘field’ notes while conducting participant-observation or observing objects or social situations.
  • 색인화: 합의된 분석 프레임워크의 코드를 전체 데이터 세트에 체계적으로 적용하는 것입니다(추가 파일 1, 섹션 5 참조).
    Indexing: The systematic application of codes from the agreed analytical framework to the whole dataset (see Additional File 1, Section 5).
  • 매트릭스: 스프레드시트에는 요약된 데이터를 코드(열)와 사례(행)별로 입력하는 수많은 셀이 포함되어 있습니다(추가 파일 1, 섹션 6 참조).
    Matrix: A spreadsheet contains numerous cells into which summarized data are entered by codes (columns) and cases (rows) (see Additional File 1, Section 6).
  • 주제: 전체 데이터 집합 분석의 최종 결과물로, 데이터의 측면을 묘사하거나 설명하는 해석적 개념 또는 명제입니다. 테마는 사례 간 및 사례 내 비교를 통해 데이터 범주를 조사하여 명확하게 표현하고 개발합니다. 일반적으로 여러 범주가 각 테마 또는 하위 테마에 속합니다[3].
    Themes: Interpretive concepts or propositions that describe or explain aspects of the data, which are the final output of the analysis of the whole dataset. Themes are articulated and developed by interrogating data categories through comparison between and within cases. Usually a number of categories would fall under each theme or sub-theme [3].
  • 트랜스크립트: 인터뷰나 대화와 같은 구두 상호 작용에 대한 축어적(단어 하나하나) 기록입니다.
    Transcript: A written verbatim (word-for-word) account of a verbal interaction, such as an interview or conversation.
12874_2012_991_MOESM1_ESM.docx
0.16MB

배경
Background

프레임워크 방법은 흔히 주제별 분석 또는 질적 콘텐츠 분석이라고 하는 광범위한 분석 방법군에 속합니다. 이러한 접근 방식은 정성적 데이터의 공통점과 차이점을 파악한, 다음 데이터의 여러 부분 간의 관계에 초점을 맞추어 주제를 중심으로 한 기술적 또는 설명적 결론을 도출하고자 합니다. 프레임워크 방법은 1980년대 후반 영국 국립사회연구센터의 질적 연구 부서의 연구자인 제인 리치와 리즈 스펜서에 의해 대규모 정책 연구에 사용하기 위해 개발되었습니다[1]. 현재는 건강 연구를 비롯한 다른 분야에서도 널리 사용되고 있습니다[3-12]. 요약된 데이터의 행(사례), 열(코드), '셀'로 구성된 매트릭스 아웃풋은 연구자가 데이터를 체계적으로 축소하여 사례별, 코드별로 분석할 수 있는 구조를 제공합니다[1]. 대부분의 경우 '사례'는 개별 인터뷰 대상자이지만, 미리 정의된 그룹이나 조직과 같은 다른 분석 단위에도 적용될 수 있습니다. 전체 데이터 세트에서 주요 주제에 대한 심층 분석이 이루어질 수 있지만, 각 연구 참여자의 견해는 매트릭스 내에서 해당 account의 다른 측면과 연결되어 있으므로 개인의 견해에 대한 맥락이 손실되지 않습니다. 데이터를 비교하고 대조하는 것은 질적 분석에 매우 중요하며, 프레임워크 방법의 구조와 프로세스에는 개별 사례 내뿐만 아니라 사례 간 데이터를 쉽게 비교할 수 있는 기능이 내장되어 있습니다. 
The Framework Method sits within a broad family of analysis methods often termed thematic analysis or qualitative content analysis. These approaches identify commonalities and differences in qualitative data, before focusing on relationships between different parts of the data, thereby seeking to draw descriptive and/or explanatory conclusions clustered around themes. The Framework Method was developed by researchers, Jane Ritchie and Liz Spencer, from the Qualitative Research Unit at the National Centre for Social Research in the United Kingdom in the late 1980s for use in large-scale policy research [1]. It is now used widely in other areas, including health research [312]. Its defining feature is the matrix output: rows (cases), columns (codes) and ‘cells’ of summarised data, providing a structure into which the researcher can systematically reduce the data, in order to analyse it by case and by code [1]. Most often a ‘case’ is an individual interviewee, but this can be adapted to other units of analysis, such as predefined groups or organisations. While in-depth analyses of key themes can take place across the whole data set, the views of each research participant remain connected to other aspects of their account within the matrix so that the context of the individual’s views is not lost. Comparing and contrasting data is vital to qualitative analysis and the ability to compare with ease data across cases as well as within individual cases is built into the structure and process of the Framework Method.

프레임워크 방법은 따라야 할 명확한 단계를 제공하며, 요약된 데이터의 고도로 구조화된 결과물을 생성합니다. 따라서 여러 연구자가 프로젝트를 진행하는 경우, 특히 모든 구성원이 질적 데이터 분석 경험이 없는 다학제 연구팀에서 전체 데이터 집합에 대한 총체적이고 설명적인 개요를 얻는 것이 바람직한 대규모 데이터 집합을 관리하는 데 유용합니다. 그러나 이 방법은 모든 유형의 정성적 데이터를 분석하거나 모든 정성적 연구 질문에 답하는 데 적합한 도구가 아니며, 정량적 연구자를 위한 '쉬운' 정성적 연구 버전도 아니므로 이 방법을 선택하기 전에 주의를 기울이는 것이 좋습니다. 중요한 점은 프레임워크 방법은 매우 이질적인 데이터를 수용할 수 없다는 것입니다. 즉, 데이터는 유사한 주제나 주요 이슈를 다루고 있어야 분류가 가능하다는 것입니다. 물론 개별 인터뷰 대상자는 각 주제와 관련하여 매우 다른 견해나 경험을 가지고 있을 수 있으며, 이를 비교하고 대조할 수 있습니다. 프레임워크 방법은 반구조화된 인터뷰 녹취록의 주제별 분석에 가장 일반적으로 사용되지만, 원칙적으로 회의록이나 일기[12], 관찰 현장 노트[10] 등 다른 유형의 텍스트 데이터[13]에도 적용될 수 있습니다.
The Framework Method provides clear steps to follow and produces highly structured outputs of summarised data. It is therefore useful where multiple researchers are working on a project, particularly in multi-disciplinary research teams were not all members have experience of qualitative data analysis, and for managing large data sets where obtaining a holistic, descriptive overview of the entire data set is desirable. However, caution is recommended before selecting the method as it is not a suitable tool for analysing all types of qualitative data or for answering all qualitative research questions, nor is it an ‘easy’ version of qualitative research for quantitative researchers. Importantly, the Framework Method cannot accommodate highly heterogeneous data, i.e. data must cover similar topics or key issues so that it is possible to categorize it. Individual interviewees may, of course, have very different views or experiences in relation to each topic, which can then be compared and contrasted. The Framework Method is most commonly used for the thematic analysis of semi-structured interview transcripts, which is what we focus on in this article, although it could, in principle, be adapted for other types of textual data [13], including documents, such as meeting minutes or diaries [12], or field notes from observations [10].

질적 연구자와 함께 일하거나 처음으로 질적 연구를 탐구하는 정량적 연구자에게는 프레임워크 방법의 체계적인 프로세스와 '스프레드시트' 접근 방식이 정량적 패러다임에 더 밀접하게 부합하는 것처럼 보이기 때문에 매력적으로 다가옵니다[14]. 프레임워크 방법은 다루기 어려워 보일 수 있는 정성적 데이터를 분류하고 정리하는 매우 체계적인 방법이지만, (분석 선택을 내리고 해석 전략을 가시화하고 감사할 수 있게 만드는 방법 등) 정성적 데이터 분석과 관련된 일반적인 문제에 대한 만병통치약은 아닙니다. 매트릭스를 적절하게 해석하고 설명, 범주, 설명 및 유형화를 용이하게 생성하기 위해서는 질적 연구 스킬이 필요합니다. 또한 다른 질적 방법에서와 마찬가지로 프레임워크 방법에서도 반성성, 엄격성 및 품질이 요구됩니다. 따라서 분석에 프레임워크 방법을 사용하는 연구는 숙련된 질적 연구자가 감독하는 것이 필수적이지만, 그렇다고 해서 질적 연구를 처음 접하는 연구자가 더 넓은 연구팀의 일원으로 분석에 기여하는 것을 배제하는 것은 아닙니다. 
For quantitative researchers working with qualitative colleagues or when exploring qualitative research for the first time, the nature of the Framework Method is seductive because its methodical processes and ‘spreadsheet’ approach seem more closely aligned to the quantitative paradigm [14]. Although the Framework Method is a highly systematic method of categorizing and organizing what may seem like unwieldy qualitative data, it is not a panacea for problematic issues commonly associated with qualitative data analysis such as how to make analytic choices and make interpretive strategies visible and auditable. Qualitative research skills are required to appropriately interpret the matrix, and facilitate the generation of descriptions, categories, explanations and typologies. Moreover, reflexivity, rigour and quality are issues that are requisite in the Framework Method just as they are in other qualitative methods. It is therefore essential that studies using the Framework Method for analysis are overseen by an experienced qualitative researcher, though this does not preclude those new to qualitative research from contributing to the analysis as part of a wider research team.

질적 데이터 분석에는 담화 분석[15] 및 민족지학[16]과 같이 언어와 사회적 상호작용에서 언어가 어떻게 사용되는지에 주목하는 접근법, 현상학[17, 18] 및 내러티브 방법[19]과 같이 경험, 의미 및 언어에 관심을 갖는 접근법, 근거 이론[20, 21]과 같이 일련의 절차와 상호 연결된 단계를 통해 데이터에서 도출된 이론을 개발하고자 하는 접근법 등 다양한 접근법이 존재합니다. 이러한 접근법 중 다수는 특정 분야와 연관되어 있으며 분석 과정을 형성하는 철학적 아이디어에 의해 뒷받침됩니다[22]. 그러나 프레임워크 방법은 특정 인식론적, 철학적 또는 이론적 접근 방식과 일치하지 않습니다. 오히려 테마를 생성하는 것을 목표로 하는 다양한 질적 접근 방식과 함께 사용할 수 있도록 조정할 수 있는 유연한 도구입니다. 
There are a number of approaches to qualitative data analysis, including those that pay close attention to language and how it is being used in social interaction such as discourse analysis [15] and ethnomethodology [16]; those that are concerned with experience, meaning and language such as phenomenology [17, 18] and narrative methods [19]; and those that seek to develop theory derived from data through a set of procedures and interconnected stages such as Grounded Theory [20, 21]. Many of these approaches are associated with specific disciplines and are underpinned by philosophical ideas which shape the process of analysis [22]. The Framework Method, however, is not aligned with a particular epistemological, philosophical, or theoretical approach. Rather it is a flexible tool that can be adapted for use with many qualitative approaches that aim to generate themes.

테마의 개발은 질적 데이터 분석의 공통적인 특징으로, 조사 대상 현상을 밝힐 수 있는 완전한 설명을 생성하기 위해 패턴을 체계적으로 검색하는 것을 포함합니다. 특히, 많은 질적 접근 방식은 근거 이론의 일부로 개발된 '지속적 비교 방법'을 사용하는데, 이는 각 주제를 구체화하기 위해 사례 간에 체계적으로 비교하는 것을 포함합니다[21, 23]. 근거 이론과 달리 프레임워크 방법은 사회 이론을 생성하는 데는 관심이 없지만, 매트릭스 전반에 걸친 데이터 검토를 통해 지속적인 비교 기법을 크게 촉진할 수 있습니다. 
The development of themes is a common feature of qualitative data analysis, involving the systematic search for patterns to generate full descriptions capable of shedding light on the phenomenon under investigation. In particular, many qualitative approaches use the ‘constant comparative method’ , developed as part of Grounded Theory, which involves making systematic comparisons across cases to refine each theme [21, 23]. Unlike Grounded Theory, the Framework Method is not necessarily concerned with generating social theory, but can greatly facilitate constant comparative techniques through the review of data across the matrix.

프레임워크 방법이 매우 체계적이기 때문에, 다른 논평가들이 지적했듯이, 종종 질적 분석에 대한 연역적 접근법과 혼동되기도 합니다[13, 14]. 그러나 이 도구 자체는 귀납적 또는 연역적 주제 분석 중 어느 쪽에도 충실하지 않으며, 연구가 귀납적-연역적 연속체에서 어디에 위치하는지는 연구 질문에 따라 달라집니다.

  • '환자가 심혈관 질환 발병에 대해 정확한 생의학적 설명을 할 수 있는가'와 같은 질문은 본질적으로 예/아니오 질문이므로(설명의 정도나 적절한 용어 사용에 따라 미묘한 차이가 있을 수 있지만) 데이터 수집과 분석(예: 구조화 또는 반구조화 인터뷰, 지시적 질적 내용 분석[24]) 모두에 연역적 접근 방식이 필요합니다.
  • 마찬가지로 행동 변화 이론과 같은 기존 이론에 근거하여 분석하는 경우, 예를 들어 '계획된 행동 이론이 GP 처방을 설명하는 데 어떻게 도움이 되는가'와 같은 연구 질문의 경우 연역적 접근 방식을 취할 수 있습니다[11].
  • 그러나 '사람들은 심혈관 질환 발병에 대한 설명을 어떻게 구성하는가'와 같은 연구 질문은 예상치 못한 것을 허용하고 연구자가 미리 예측할 수 없는 문화적 신념, 음식 준비 습관, '운명'의 개념 또는 슬픔과 같은 삶의 다른 중요한 사건과의 연관성을 포함할 수 있는 인터뷰 대상자의 사회적 위치 응답[25]을 허용하는 보다 귀납적 접근 방식이 필요합니다(예: 인터뷰 대상자 주도 개방형 인터뷰 및 근거 이론 [20]).

Perhaps because the Framework Method is so obviously systematic, it has often, as other commentators have noted, been conflated with a deductive approach to qualitative analysis [13, 14]. However, the tool itself has no allegiance to either inductive or deductive thematic analysis; where the research sits along this inductive-deductive continuum depends on the research question.

  • A question such as, ‘Can patients give an accurate biomedical account of the onset of their cardiovascular disease?’ is essentially a yes/no question (although it may be nuanced by the extent of their account or by appropriate use of terminology) and so requires a deductive approach to both data collection and analysis (e.g. structured or semi-structured interviews and directed qualitative content analysis [24]).
  • Similarly, a deductive approach may be taken if basing analysis on a pre-existing theory, such as behaviour change theories, for example in the case of a research question such as ‘How does the Theory of Planned Behaviour help explain GP prescribing?’ [11].
  • However, a research question such as, ‘How do people construct accounts of the onset of their cardiovascular disease?’ would require a more inductive approach that allows for the unexpected, and permits more socially-located responses [25] from interviewees that may include matters of cultural beliefs, habits of food preparation, concepts of ‘fate’, or links to other important events in their lives, such as grief, which cannot be predicted by the researcher in advance (e.g. an interviewee-led open ended interview and grounded theory [20]).

이러한 모든 경우에 프레임워크 방법을 사용하여 데이터를 관리하는 것이 적절할 수 있습니다.

  • 연역적 접근법에서는 이전 문헌, 이전 이론 또는 연구 질문의 특성에 따라 주제와 코드가 미리 선택되는 반면,
  • 귀납적 접근법에서는 개방형(제한 없는) 코딩을 통해 데이터에서 주제를 생성한 후 주제를 구체화하는 방식으로 차이가 분명해집니다.

많은 경우, 프로젝트에 탐구해야 할 특정 이슈가 있지만 참가자의 경험이나 현상에 의미를 부여하는 방식에서 예상치 못한 다른 측면을 발견할 수 있는 여지를 남겨두려는 목적이 있는 경우 두 가지 접근 방식을 결합하는 것이 적절합니다. 요컨대, 프레임워크 방법은 연역적, 귀납적 또는 복합적 유형의 질적 분석에 맞게 조정할 수 있습니다. 그러나 사례와 주제별로 데이터를 분석하는 것이 적절하지 않은 연구 질문이 있으므로 프레임워크 방법을 피해야 하는 경우도 있습니다. 예를 들어,

  • 연구 질문에 따라 생활사 데이터는 내러티브 분석[19]을,
  • 환자와 의료진 간의 상담 기록은 대화 분석[26]을,
  • 임산부를 위한 자료와 같은 다큐멘터리 데이터는 담화 분석[27]을 사용하여 분석하는 것이 더 적합할 수 있습니다. 

In all these cases, it may be appropriate to use the Framework Method to manage the data. The difference would become apparent in how themes are selected:

  • in the deductive approach, themes and codes are pre-selected based on previous literature, previous theories or the specifics of the research question; whereas
  • in the inductive approach, themes are generated from the data though open (unrestricted) coding, followed by refinement of themes.

In many cases, a combined approach is appropriate when the project has some specific issues to explore, but also aims to leave space to discover other unexpected aspects of the participants’ experience or the way they assign meaning to phenomena. In sum, the Framework Method can be adapted for use with deductive, inductive, or combined types of qualitative analysis. However, there are some research questions where analysing data by case and theme is not appropriate and so the Framework Method should be avoided. For instance,

  • depending on the research question, life history data might be better analysed using narrative analysis [19];
  • recorded consultations between patients and their healthcare practitioners using conversation analysis [26]; and
  • documentary data, such as resources for pregnant women, using discourse analysis [27].

연구 설계나 데이터 수집을 심도 있게 고려하는 것은 이 백서의 범위에 속하지 않지만, 프레임워크 방법 분석 프로세스를 설명하기 전에 한 걸음 물러나서 분석을 시작하기 전에 어떤 일이 일어나야 하는지 간략하게 살펴볼 필요가 있습니다. 분석 방법의 선택은 연구 제안 단계에서 고려되어야 하며, 연구 질문과 연구의 전반적인 목표에 부합해야 합니다. 많은 질적 연구, 특히 귀납적 분석을 사용하는 연구는 본질적으로 새로운 것이므로 연구자는 앞으로 일어날 일에 대한 "상상적 리허설"만 제공할 수 있습니다[28]. 혼합 방법 연구에서는 프로젝트의 더 넓은 목표 내에서 질적 구성 요소의 역할도 고려해야 합니다. 데이터 수집 단계에서는 질적 인터뷰가 고도로 숙련된 활동이기 때문에 적절히 훈련된 연구원이 질적 인터뷰를 수행할 수 있도록 리소스를 할당해야 합니다. 경우에 따라 연구팀은 일반인, 환자 또는 동료를 인터뷰에 참여시키기로 결정할 수 있으며[29-32], 이 경우 적절한 훈련과 멘토링을 받아야 하므로 시간과 자원이 필요합니다. 이 초기 단계에서는 데이터 관리 및 분석에 도움을 줄 수 있는 컴퓨터 지원 질적 데이터 분석 소프트웨어(CAQDAS)를 사용할지 여부를 고려하는 것도 유용합니다.

It is not within the scope of this paper to consider study design or data collection in any depth, but before moving on to describe the Framework Method analysis process, it is worth taking a step back to consider briefly what needs to happen before analysis begins. The selection of analysis method should have been considered at the proposal stage of the research and should fit with the research questions and overall aims of the study. Many qualitative studies, particularly ones using inductive analysis, are emergent in nature; this can be a challenge and the researchers can only provide an “imaginative rehearsal” of what is to come [28]. In mixed methods studies, the role of the qualitative component within the wider goals of the project must also be considered. In the data collection stage, resources must be allocated for properly trained researchers to conduct the qualitative interviewing because it is a highly skilled activity. In some cases, a research team may decide that they would like to use lay people, patients or peers to do the interviews [2932] and in this case they must be properly trained and mentored which requires time and resources. At this early stage it is also useful to consider whether the team will use Computer Assisted Qualitative Data Analysis Software (CAQDAS), which can assist with data management and analysis.

모든 형태의 정성적 또는 정량적 분석은 순전히 기술적인 과정이 아니라 연구자의 특성과 학문적 패러다임의 영향을 받기 때문에 연구의 설계, 데이터의 구성 또는 수집, 분석 등 연구 과정 전반에 걸친 비판적 성찰이 무엇보다 중요합니다. 팀의 모든 구성원은 연구 일기를 작성하여 반성적 메모, 데이터에 대한 인상, 분석에 대한 생각 등을 연구 과정 전반에 걸쳐 기록해야 합니다. 숙련된 질적 연구자는 엄격하고 반성적인 방식으로 데이터를 선별하고 분석하는 데 더욱 능숙해집니다. 실제 사회생활의 복잡성을 포용하고 설명하며 복잡한 사회 문제에 적용할 수 있는 풍부하고 미묘한 연구 결과를 도출하기 위해서는 확실성에 너무 집착하지 않고 연구 전반에 걸쳐 유연성과 적응력을 유지해야 합니다. 프레임워크 방법을 사용할 때는, 데이터 수집과 데이터 분석이 연구 과정의 엄격하게 순차적이고 상호 배타적인 단계인 양적 연구와 달리, 질적 분석에서는 프로젝트에 따라 어느 정도는 데이터 수집, 분석, 이론 개발 사이에 지속적인 상호작용이 있다는 점을 기억하는 것이 중요합니다. 예를 들어, 참가자의 새로운 아이디어나 인사이트가 잠재적으로 유익한 탐구 방향을 제시하거나, 면밀한 분석을 통해 추가 조사가 필요한 미묘한 불일치를 발견할 수 있습니다. 
As any form of qualitative or quantitative analysis is not a purely technical process, but influenced by the characteristics of the researchers and their disciplinary paradigms, critical reflection throughout the research process is paramount, including in the design of the study, the construction or collection of data, and the analysis. All members of the team should keep a research diary, where they record reflexive notes, impressions of the data and thoughts about analysis throughout the process. Experienced qualitative researchers become more skilled at sifting through data and analysing it in a rigorous and reflexive way. They cannot be too attached to certainty, but must remain flexible and adaptive throughout the research in order to generate rich and nuanced findings that embrace and explain the complexity of real social life and can be applied to complex social issues. It is important to remember when using the Framework Method that, unlike quantitative research where data collection and data analysis are strictly sequential and mutually exclusive stages of the research process, in qualitative analysis there is, to a greater or lesser extent depending on the project, ongoing interplay between data collection, analysis, and theory development. For example, new ideas or insights from participants may suggest potentially fruitful lines of enquiry, or close analysis might reveal subtle inconsistencies in an account which require further exploration.

분석 절차
Procedure for analysis

1단계: 전사
Stage 1: Transcription

좋은 품질의 오디오 녹음이 필요하며, 이상적으로는 인터뷰의 축어적(단어 대 단어) 필사본이 필요합니다. 프레임워크 방법 분석의 경우, 내용이 주요 관심사이기 때문에 읽기 어려울 수 있는 대화 필사본의 규칙(예: 일시 정지 또는 두 사람이 동시에 대화하는 경우)을 반드시 포함할 필요는 없습니다. 트랜스크립트에는 나중에 코딩하고 메모할 수 있도록 여백이 넓고 줄 간격이 적절해야 합니다. 필사 과정은 데이터에 몰입할 수 있는 좋은 기회이므로 신입 연구자에게 적극 권장할 만합니다. 그러나 일부 프로젝트에서는 이 작업을 전문 전사자에게 아웃소싱하는 것이 더 나은 리소스 활용이라고 판단할 수 있습니다. 
A good quality audio recording and, ideally, a verbatim (word for word) transcription of the interview is needed. For Framework Method analysis, it is not necessarily important to include the conventions of dialogue transcriptions which can be difficult to read (e.g. pauses or two people talking simultaneously), because the content is what is of primary interest. Transcripts should have large margins and adequate line spacing for later coding and making notes. The process of transcription is a good opportunity to become immersed in the data and is to be strongly encouraged for new researchers. However, in some projects, the decision may be made that it is a better use of resources to outsource this task to a professional transcriber.

2단계: 인터뷰에 익숙해지기
Stage 2: Familiarisation with the interview

오디오 녹음 및/또는 녹취록과 면접관이 녹음한 상황별 또는 반성적 메모를 사용하여 전체 인터뷰에 익숙해지는 것은 해석에 있어 매우 중요한 단계입니다. 오디오 녹음의 전체 또는 일부를 다시 듣는 것도 도움이 될 수 있습니다. 다학제 또는 대규모 연구 프로젝트의 경우, 데이터 분석에 참여하는 사람과 인터뷰를 진행하거나 필사한 사람이 다를 수 있으므로 이 단계가 특히 중요합니다. 한 칸의 여백을 사용하여 분석 메모, 생각 또는 인상을 기록할 수 있습니다. 

Becoming familiar with the whole interview using the audio recording and/or transcript and any contextual or reflective notes that were recorded by the interviewer is a vital stage in interpretation. It can also be helpful to re-listen to all or parts of the audio recording. In multi-disciplinary or large research projects, those involved in analysing the data may be different from those who conducted or transcribed the interviews, which makes this stage particularly important. One margin can be used to record any analytical notes, thoughts or impressions.

3단계: 코딩
Stage 3: Coding

익숙해지면 연구자는 대본을 한 줄 한 줄 주의 깊게 읽으면서 구절에서 중요하다고 해석한 내용을 설명하는 문구나 라벨('코드')을 붙입니다. 귀납적 연구에서는 이 단계에서 가능한 한 다양한 관점에서 관련성이 있을 수 있는 모든 것을 코딩하는 '오픈 코딩'이 이루어집니다. 코딩은 다음 등을 나타낼 수 있습니다.

  • 실체적인 것(예: 특정 행동, 사건 또는 구조),
  • 가치(예: 근거 기반 의학 또는 환자 선택에 대한 믿음과 같이 특정 진술을 알리거나 뒷받침하는 것),
  • 감정(예: 슬픔, 좌절, 사랑) 및
  • 인상적/방법론적인 요소(예: 인터뷰 대상자가 설명하기 어려운 것을 발견했다, 인터뷰 대상자가 감정적이 되었다, 인터뷰자가 불편함을 느꼈다) [33] 

After familiarization, the researcher carefully reads the transcript line by line, applying a paraphrase or label (a ‘code’) that describes what they have interpreted in the passage as important. In more inductive studies, at this stage ‘open coding’ takes place, i.e. coding anything that might be relevant from as many different perspectives as possible. Codes could refer to

  • substantive things (e.g. particular behaviours, incidents or structures),
  • values (e.g. those that inform or underpin certain statements, such as a belief in evidence-based medicine or in patient choice),
  • emotions (e.g. sorrow, frustration, love) and
  • more impressionistic/methodological elements (e.g. interviewee found something difficult to explain, interviewee became emotional, interviewer felt uncomfortable) [33].

순수 연역적 연구에서는 코드가 미리 정의되어 있을 수 있으므로(예: 기존 이론 또는 프로젝트의 특정 관심 분야) 이 단계가 꼭 필요하지 않을 수 있으며 바로 색인화로 넘어갈 수도 있지만, 일반적으로 데이터의 중요한 측면을 놓치지 않으려면, 적어도 몇 개의 트랜스크립트에서 오픈 코딩을 수행하는 것이 광범위한 연역적 접근 방식을 취하는 경우에도 도움이 될 수 있습니다. 코딩은 모든 데이터를 분류하여 데이터 세트의 다른 부분과 체계적으로 비교할 수 있도록 하는 것을 목표로 합니다. 가능하면 최소 두 명의 연구자(또는 다학제 연구팀의 경우 각 분야 또는 전문 분야에서 한 명 이상)가 처음 몇 개의 기록물을 독립적으로 코딩해야 합니다. 환자, 대중 참여 대표 또는 임상의도 이 단계에 생산적으로 참여할 수 있는데, 이는 대안적인 관점을 제시하여 특정 관점이 지배적이지 않도록 보장할 수 있기 때문입니다. 
In purely deductive studies, the codes may have been pre-defined (e.g. by an existing theory, or specific areas of interest to the project) so this stage may not be strictly necessary and you could just move straight onto indexing, although it is generally helpful even if you are taking a broadly deductive approach to do some open coding on at least a few of the transcripts to ensure important aspects of the data are not missed. Coding aims to classify all of the data so that it can be compared systematically with other parts of the data set. At least two researchers (or at least one from each discipline or speciality in a multi-disciplinary research team) should independently code the first few transcripts, if feasible. Patients, public involvement representatives or clinicians can also be productively involved at this stage, because they can offer alternative viewpoints thus ensuring that one particular perspective does not dominate.

귀납적 코딩에서는 문자 그대로의 설명적인 방식으로 코딩하는 것이 아니라, 예상치 못한 것을 찾아내는 것이 중요하므로, 다양한 관점을 가진 사람들의 참여가 큰 도움이 될 수 있습니다. 한 줄 한 줄 코딩을 통해 전체적인 내용을 파악할 수 있을 뿐만 아니라, 명확하게 표현되지 않았거나 나머지 계정과 '맞지 않아서' 보통은 보이지 않는 부분을 고려하도록 연구자에게 경각심을 줄 수 있습니다. 이런 식으로 데이터의 이상 징후를 조정하고 설명하면 분석을 더욱 강력하게 만들 수 있습니다. 코딩은 새로운 코드를 자동으로 추적할 수 있는 유용한 방법인 CAQDAS를 사용하여 디지털 방식으로도 수행할 수 있습니다. 그러나 일부 연구자들은 코딩의 초기 단계를 종이와 펜으로 하는 것을 선호하며, 5단계(아래 참조)에 도달한 후에야 CAQDAS를 사용하기 시작합니다.
It is vital in inductive coding to look out for the unexpected and not to just code in a literal, descriptive way so the involvement of people from different perspectives can aid greatly in this. As well as getting a holistic impression of what was said, coding line-by-line can often alert the researcher to consider that which may ordinarily remain invisible because it is not clearly expressed or does not ‘fit’ with the rest of the account. In this way the developing analysis is challenged; to reconcile and explain anomalies in the data can make the analysis stronger. Coding can also be done digitally using CAQDAS, which is a useful way to keep track automatically of new codes. However, some researchers prefer to do the early stages of coding with a paper and pen, and only start to use CAQDAS once they reach Stage 5 (see below).

4단계: 작업용 분석 프레임워크 개발하기
Stage 4: Developing a working analytical framework

처음 몇 개의 트랜스크립트를 코딩한 후에는 관련된 모든 연구자가 모여 각자가 적용한 레이블을 비교하고, 이후의 모든 트랜스크립트에 적용할 코드 세트에 동의해야 합니다. 코드를 카테고리로 그룹화한 다음(도움이 된다면 트리 다이어그램을 사용) 명확하게 정의할 수 있습니다. 이렇게 하면 작업용 분석 프레임워크가 형성됩니다. 추가 코드가 나오지 않을 때까지 분석 프레임워크를 여러 번 반복해야 할 수도 있습니다. 각 범주 아래에 '기타' 코드를 두어 맞지 않는 데이터를 무시하지 않도록 하고, 마지막 기록이 코딩될 때까지 분석 프레임워크는 결코 '최종'이 아닙니다. 
After coding the first few transcripts, all researchers involved should meet to compare the labels they have applied and agree on a set of codes to apply to all subsequent transcripts. Codes can be grouped together into categories (using a tree diagram if helpful), which are then clearly defined. This forms a working analytical framework. It is likely that several iterations of the analytical framework will be required before no additional codes emerge. It is always worth having an ‘other’ code under each category to avoid ignoring data that does not fit; the analytical framework is never ‘final’ until the last transcript has been coded.

5단계: 분석 프레임워크 적용
Stage 5: Applying the analytical framework

그런 다음 기존 카테고리와 코드를 사용하여 후속 트랜스크립트를 색인화하여 작업용 분석 프레임워크를 적용합니다. 각 코드에는 일반적으로 쉽게 식별할 수 있도록 번호나 약어가 할당되며(따라서 코드의 전체 이름을 매번 적을 필요가 없음), 트랜스크립트에 직접 기록됩니다. 컴퓨터 지원 정성적 데이터 분석 소프트웨어(CAQDAS)는 이 단계에서 특히 유용하며, 프로세스 속도를 높이고 이후 단계에서 데이터를 쉽게 검색할 수 있도록 해주기 때문입니다. 정확한 지침에 따라 실제로 계산을 수행하는 통계 분석용 소프트웨어와 달리, 정성적 분석 소프트웨어 패키지에 데이터를 넣는 것은 데이터를 분석하는 것이 아니라 분석 프로세스에 액세스할 수 있도록 데이터를 저장하고 구성하는 효과적인 방법일 뿐이라는 점에 유의할 필요가 있습니다.

The working analytical framework is then applied by indexing subsequent transcripts using the existing categories and codes. Each code is usually assigned a number or abbreviation for easy identification (and so the full names of the codes do not have to be written out each time) and written directly onto the transcripts. Computer Assisted Qualitative Data Analysis Software (CAQDAS) is particularly useful at this stage because it can speed up the process and ensures that, at later stages, data is easily retrievable. It is worth noting that unlike software for statistical analyses, which actually carries out the calculations with the correct instruction, putting the data into a qualitative analysis software package does not analyse the data; it is simply an effective way of storing and organising the data so that they are accessible for the analysis process.

6단계: 프레임워크 매트릭스에 데이터 차트화
Stage 6: Charting data into the framework matrix

정성적 데이터는 방대하며(한 시간의 인터뷰로 15~30페이지의 텍스트가 생성될 수 있음), 데이터를 관리하고 요약(축소)하는 것은 분석 프로세스에서 매우 중요한 측면입니다. 스프레드시트를 사용하여 매트릭스를 생성하고 데이터를 매트릭스에 '차트화'합니다. 차트 작성에는 각 기록에서 카테고리별로 데이터를 요약하는 작업이 포함됩니다. 좋은 차트를 작성하려면 한편으로는 데이터를 줄이고, 다른 한편으로는 인터뷰 대상자의 말의 원래 의미와 '느낌'을 유지하는 것 사이에서 균형을 맞출 수 있어야 합니다. 차트에는 흥미롭거나 예시적인 인용문에 대한 참조가 포함되어야 합니다. CAQDAS를 사용하여 데이터를 관리하는 경우 자동으로 태그를 지정할 수 있으며(N-Vivo 버전 9 이상에는 프레임워크 매트릭스를 생성하는 기능이 있음), 그렇지 않은 경우 대문자 'Q', (익명화된) 트랜스크립트 번호, 페이지 및 줄 참조로 충분합니다. 여러 분야가 참여하는 팀에서는 분석 프로세스의 초기 단계에서 요약 스타일을 비교하고 대조하여 팀 내 일관성을 유지하는 것이 도움이 됩니다. 약어를 사용할 때는 팀원들이 동의해야 합니다. 팀원들이 분석 프레임워크에 익숙해지고 코딩과 차트 작성에 능숙해지면 평균적으로 1시간 분량의 요약본을 작성하는 데 반나절 정도 걸립니다. 초기 단계에서는 훨씬 더 오래 걸립니다. 
Qualitative data are voluminous (an hour of interview can generate 15–30 pages of text) and being able to manage and summarize (reduce) data is a vital aspect of the analysis process. A spreadsheet is used to generate a matrix and the data are ‘charted’ into the matrix. Charting involves summarizing the data by category from each transcript. Good charting requires an ability to strike a balance between reducing the data on the one hand and retaining the original meanings and ‘feel’ of the interviewees’ words on the other. The chart should include references to interesting or illustrative quotations. These can be tagged automatically if you are using CAQDAS to manage your data (N-Vivo version 9 onwards has the capability to generate framework matrices), or otherwise a capital ‘Q’, an (anonymized) transcript number, page and line reference will suffice. It is helpful in multi-disciplinary teams to compare and contrast styles of summarizing in the early stages of the analysis process to ensure consistency within the team. Any abbreviations used should be agreed by the team. Once members of the team are familiar with the analytical framework and well practised at coding and charting, on average, it will take about half a day per hour-long transcript to reach this stage. In the early stages, it takes much longer.

7단계: 데이터 해석
Stage 7: Interpreting the data

데이터에 대한 인상, 아이디어, 초기 해석을 기록할 수 있는 별도의 노트나 컴퓨터 파일을 준비해 두는 것이 연구 전반에 걸쳐 유용합니다. 흥미로운 아이디어, 개념 또는 잠재적 주제를 탐색하기 위해 어느 단계에서든 분석 메모[20, 21]를 작성하여 일반인 및 임상 구성원을 포함한 다른 연구팀원들과 논의하는 것이 좋습니다. 점차적으로 데이터의 특징과 데이터 간의 차이점을 파악하여 다음을 할  수 있습니다. 

  • 유형학을 생성하고,
  • 이론적 개념(이전 개념 또는 데이터에서 나온 개념)을 질문하거나,
  • 범주 간의 연결을 매핑하여 관계 및 인과관계를 탐색

데이터가 충분히 풍부하다면 이 과정을 통해 도출된 결과는 특정 사례에 대한 기술을 넘어 설명으로 확장될 수 있습니다. 

  • 현상의 출현 이유,
  • 조직이나 기타 사회적 행위자가 상황을 어떻게 선동하거나 대응할지 예측,
  • 조직이나 시스템 내에서 제대로 작동하지 않는 영역을 식별

이 단계는 예상보다 오래 걸리는 경우가 많으므로 프로젝트 계획에 회의와 연구자 개개인의 연구 결과 해석 및 작성에 충분한 시간을 할당해야 합니다(추가 파일 1, 섹션 7 참조). 
It is useful throughout the research to have a separate note book or computer file to note down impressions, ideas and early interpretations of the data. It may be worth breaking off at any stage to explore an interesting idea, concept or potential theme by writing an analytic memo [20, 21] to then discuss with other members of the research team, including lay and clinical members. Gradually, characteristics of and differences between the data are identified, perhaps

  • generating typologies,
  • interrogating theoretical concepts (either prior concepts or ones emerging from the data) or
  • mapping connections between categories to explore relationships and/or causality.

If the data are rich enough, the findings generated through this process can go beyond description of particular cases to explanation of, for example,

  • reasons for the emergence of a phenomena,
  • predicting how an organisation or other social actor is likely to instigate or respond to a situation, or
  • identifying areas that are not functioning well within an organisation or system.

It is worth noting that this stage often takes longer than anticipated and that any project plan should ensure that sufficient time is allocated to meetings and individual researcher time to conduct interpretation and writing up of findings (see Additional file 1, Section 7).

토론
Discussion

프레임워크 방법은 25년 이상 개발되어 연구에 성공적으로 사용되어 왔으며, 최근 질적 보건 연구에서 널리 사용되는 분석 방법이 되었습니다. 질적 연구에서 품질을 평가하는 방법에 대한 문제는 많은 논쟁이 있어 왔지만[20, 34-40], 분석의 엄격성과 투명성을 보장하는 것은 필수적인 요소입니다. 물론 여러 가지 방법이 있지만 프레임워크 방법에서는 다음과 같은 방법이 도움이 됩니다: 
The Framework Method has been developed and used successfully in research for over 25 years, and has recently become a popular analysis method in qualitative health research. The issue of how to assess quality in qualitative research has been highly debated [20, 3440], but ensuring rigour and transparency in analysis is a vital component. There are, of course, many ways to do this but in the Framework Method the following are helpful:

  • 차트를 작성하는 동안 데이터를 요약하는 것은 데이터를 줄이는 실용적인 방법일 뿐만 아니라 일반인, 임상 및 (정량적) 학계 구성원을 포함한 다분야 팀의 모든 구성원이 (모든 기록을 읽거나 분석의 보다 기술적인 부분에 관여하지는 않더라도) 분석 과정에서 데이터에 참여하고 각자의 관점을 제공할 수 있음을 의미합니다.
    Summarizing the data during charting, as well as being a practical way to reduce the data, means that all members of a multi-disciplinary team, including lay, clinical and (quantitative) academic members can engage with the data and offer their perspectives during the analysis process without necessarily needing to read all the transcripts or be involved in the more technical parts of analysis.
  • 또한 차트를 작성하면 연구자가 해석으로 넘어가기 전각 참여자의 주관적인 프레임과 표현을 사용하여 데이터를 설명하는 데 세심한 주의를 기울일 수 있습니다. 
    Charting also ensures that researchers pay close attention to describing the data using each participant’s own subjective frames and expressions in the first instance, before moving onto interpretation.
  • 요약된 데이터는 각 사례의 더 넓은 맥락에서 유지되므로 복잡한 의미와 이해의 층위에 주의를 기울이는 두꺼운 설명을 장려합니다[38].
    The summarized data is kept within the wider context of each case, thereby encouraging thick description that pays attention to complex layers of meaning and understanding [38].
  • 매트릭스 구조는 시각적으로 간단하며 모순되는 데이터, 비정상적인 사례 또는 빈 셀에 주의를 기울이는 등 연구팀의 모든 구성원이 데이터의 패턴을 쉽게 인식할 수 있습니다.
    The matrix structure is visually straightforward and can facilitate recognition of patterns in the data by any member of the research team, including through drawing attention to contradictory data, deviant cases or empty cells.
  • 체계적인 절차(이 문서에 설명되어 있음)를 통해 여러 분야의 팀이나 대규모 데이터 세트가 있는 경우에도 쉽게 따라할 수 있습니다.
    The systematic procedure (described in this article) makes it easy to follow, even for multi-disciplinary teams and/or with large data sets.
  • 인터뷰가 아닌 데이터(예: 인터뷰 중에 작성한 현장 메모 또는 반성적 고려 사항)도 매트릭스에 포함할 수 있을 만큼 유연합니다.
    It is flexible enough that non-interview data (such as field notes taken during the interview or reflexive considerations) can be included in the matrix.
  • 특정 인식론적 관점이나 이론적 접근 방식과 일치하지 않으므로 귀납적 또는 연역적 분석 또는 이 둘을 조합하여 사용할 수 있습니다(예: 기존의 이론적 구성을 연역적으로 사용한 다음 귀납적 측면으로 이론을 수정하거나 귀납적 접근 방식을 사용하여 데이터에서 주제를 식별한 다음 문헌으로 돌아가 연역적으로 이론을 사용하여 특정 주제를 추가로 설명하는 데 도움이 됨).
    It is not aligned with a particular epistemological viewpoint or theoretical approach and therefore can be adapted for use in inductive or deductive analysis or a combination of the two (e.g. using pre-existing theoretical constructs deductively, then revising the theory with inductive aspects; or using an inductive approach to identify themes in the data, before returning to the literature and using theories deductively to help further explain certain themes).
  • 주제를 설명하기 위해 관련 데이터 추출을 식별하고 제안된 주제에 대한 충분한 증거가 있는지 확인하는 것이 쉽습니다.
    It is easy to identify relevant data extracts to illustrate themes and to check whether there is sufficient evidence for a proposed theme.
  • 마지막으로, 원본 원시 데이터에서 최종 테마까지, 예시 인용문을 포함한 명확한 감사 추적이 있습니다.
    Finally, there is a clear audit trail from original raw data to final themes, including the illustrative quotes.

이 접근 방식에는 여러 가지 잠재적인 함정이 있습니다:
There are also a number of potential pitfalls to this approach:

  • 배경에서 언급했듯이 체계적인 접근 방식과 매트릭스 형식은 정량적으로 훈련된 사람들에게는 직관적으로 매력적이지만, '스프레드시트' 형식은 정성적 연구에 대한 심층적인 이해가 없는 사람들이 정성적 데이터를 정량화하려는 유혹을 더욱 증가시킬 수 있습니다(예: "20명의 참가자 중 13명이 X라고 답함"). 정성적 연구의 표본 추출은 더 넓은 집단을 대표하도록 설계된 것이 아니라 현상에 대한 다양성을 포착하기 위한 것이기 때문에 이러한 종류의 진술은 분명히 무의미합니다 [41]. 
    The systematic approach and matrix format, as we noted in the background, is intuitively appealing to those trained quantitatively but the ‘spreadsheet’ look perhaps further increases the temptation for those without an in-depth understanding of qualitative research to attempt to quantify qualitative data (e.g. “13 out of 20 participants said X). This kind of statement is clearly meaningless because the sampling in qualitative research is not designed to be representative of a wider population, but purposive to capture diversity around a phenomenon [41].
  • 모든 질적 분석 방법과 마찬가지로 프레임워크 방법도 시간과 리소스 집약적입니다. 응용 보건 연구의 모범 사례처럼 데이터 분석 및 해석에 여러 이해관계자 및 분야를 참여시킬 경우 필요한 시간이 연장됩니다. 이 시간은 펀딩 전 단계에서 프로젝트 제안서에 반영되어야 합니다. 
    Like all qualitative analysis methods, the Framework Method is time consuming and resource-intensive. When involving multiple stakeholders and disciplines in the analysis and interpretation of the data, as is good practice in applied health research, the time needed is extended. This time needs to be factored into the project proposal at the pre-funding stage.
  • 새로운 다분야 팀에서 이 방법을 성공적으로 사용하려면 많은 교육이 필요합니다. 분석에서 각자의 역할에 따라 연구팀 구성원은 데이터를 코딩, 색인화, 차트화하는 방법을 배우고, 자신의 정체성과 경험이 분석 과정에 어떤 영향을 미치는지 반성적으로 생각해야 하며, 데이터의 의미와 중요성을 정당하게 해석하기 위해 일반화 방법(통계적 일반화가 아닌 분석적 일반화 및 전이 가능성[41])에 대해 배워야 할 수도 있습니다. 
    There is a high training component to successfully using the method in a new multi-disciplinary team. Depending on their role in the analysis, members of the research team may have to learn how to code, index, and chart data, to think reflexively about how their identities and experience affect the analysis process, and/or they may have to learn about the methods of generalisation (i.e. analytic generalisation and transferability, rather than statistical generalisation [41]) to help to interpret legitimately the meaning and significance of the data.

프레임워크 방법은 비전문가도 데이터 분석에 참여할 수 있지만, 대규모 혼합 방법 연구의 전체 책임자가 다른 사람이더라도 숙련된 질적 연구자가 프로젝트를 이끄는 것이 이 방법을 성공적으로 사용하는 데 매우 중요합니다. 질적 연구 책임자는 최소한 질적 분석에 대한 사전 교육이나 경험이 있는 다른 연구자들과 함께 하는 것이 이상적입니다. 질적 연구 책임자의 책임은 연구 설계, 프로젝트 일정 및 리소스 계획에 기여하고, 주니어 질적 연구자를 멘토링하고, 임상, 일반 및 기타 (비질적) 학자들이 분석 과정에 적절히 기여할 수 있도록 교육하고, 데이터 및 다른 팀원들과 비판적이고 반성적인 참여를 장려하는 방식으로 분석 회의를 촉진하고, 마지막으로 연구 보고서 작성을 주도하는 것입니다. 
While the Framework Method is amenable to the participation of non-experts in data analysis, it is critical to the successful use of the method that an experienced qualitative researcher leads the project (even if the overall lead for a large mixed methods study is a different person). The qualitative lead would ideally be joined by other researchers with at least some prior training in or experience of qualitative analysis. The responsibilities of the lead qualitative researcher are: to contribute to study design, project timelines and resource planning; to mentor junior qualitative researchers; to train clinical, lay and other (non-qualitative) academics to contribute as appropriate to the analysis process; to facilitate analysis meetings in a way that encourages critical and reflexive engagement with the data and other team members; and finally to lead the write-up of the study.

결론
Conclusion

우리는 프레임워크 방법 연구가 의료 전문가, 심리학자, 사회학자, 경제학자, 일반인/서비스 사용자 등을 포함하는 다학제 연구팀에 의해 수행될 수 있다고 주장해 왔습니다. 다양한 관점을 포함한다는 것은 분석 과정에서 의사결정을 내리는 데 많은 시간과 리소스가 소요될 수 있음을 의미합니다. 인터뷰 대상자가 표현하고 녹취록에서 확인된 아이디어가 각 분야의 기존 개념 및 이론과 프로젝트가 해결하고자 하는 보건 시스템의 실제 '문제'와 어떻게 관련되어 있는지에 대해 광범위하고 반성적이며 비판적인 대화가 필요할 수 있습니다. 그러나 이러한 종류의 팀 노력은 연구 결과의 신뢰성과 관련성을 높여 '전체가 부분의 합보다 크다'는 것을 보장하기 위해 임상 및 일반인의 연구 참여뿐만 아니라 학제 간 협업을 촉진하는 훌륭한 포럼입니다.
We have argued that Framework Method studies can be conducted by multi-disciplinary research teams that include, for example, healthcare professionals, psychologists, sociologists, economists, and lay people/service users. The inclusion of so many different perspectives means that decision-making in the analysis process can be very time consuming and resource-intensive. It may require extensive, reflexive and critical dialogue about how the ideas expressed by interviewees and identified in the transcript are related to pre-existing concepts and theories from each discipline, and to the real ‘problems’ in the health system that the project is addressing. This kind of team effort is, however, an excellent forum for driving forward interdisciplinary collaboration, as well as clinical and lay involvement in research, to ensure that ‘the whole is greater than the sum of the parts’, by enhancing the credibility and relevance of the findings.

프레임워크 방법은 텍스트 데이터, 특히 인터뷰 녹취록의 주제별 분석에 적합하며, 여러 사례의 데이터를 주제별로 비교하고 대조하는 동시에 각 관점을 각 개인 기록의 다른 측면과의 연관성을 유지하여 맥락에 맞게 배치하는 것이 중요합니다. 숙련된 질적 연구자가 분석의 모든 측면을 주도하고 진행해야 하지만, 프레임워크 방법의 체계적인 접근 방식은 다분야 팀의 모든 구성원을 참여시키는 데 적합합니다. 엄격한 질적 분석을 위해서는 모든 팀원의 개방적이고 비판적이며 반성적인 접근 방식이 필수적입니다.
The Framework Method is appropriate for thematic analysis of textual data, particularly interview transcripts, where it is important to be able to compare and contrast data by themes across many cases, while also situating each perspective in context by retaining the connection to other aspects of each individual’s account. Experienced qualitative researchers should lead and facilitate all aspects of the analysis, although the Framework Method’s systematic approach makes it suitable for involving all members of a multi-disciplinary team. An open, critical and reflexive approach from all team members is essential for rigorous qualitative analysis.

고품질의 질적 연구를 위해서는 실제 보건 시스템의 복잡성과 건강 문제에 대한 다양한 관점의 존재를 인정하는 것이 필요합니다. 질적 연구가 잘 수행되면 중요한 현상에 대한 설명과 예측을 제시하고, 대규모 연구의 정량적 부분과 건설적인 관계를 맺으며, 보건 서비스 개선과 보건 정책 개발에 기여할 수 있습니다. 프레임워크 방법을 적절히 선택하고 실행하면 신뢰할 수 있고 관련성 있는 결과를 도출하여 이러한 목표를 달성하는 데 적합한 도구가 될 수 있습니다. 
Acceptance of the complexity of real life health systems and the existence of multiple perspectives on health issues is necessary to produce high quality qualitative research. If done well, qualitative studies can shed explanatory and predictive light on important phenomena, relate constructively to quantitative parts of a larger study, and contribute to the improvement of health services and development of health policy. The Framework Method, when selected and implemented appropriately, can be a suitable tool for achieving these aims through producing credible and relevant findings.

요약
Summary

  • 프레임워크 방법은 데이터를 관리하고 매핑하기 위한 체계적인 모델을 제공하기 때문에 주제별(질적 내용) 분석을 지원하는 데 탁월한 도구입니다.
  • 프레임워크 방법은 사례 내 및 사례 간 비교를 통해 주제를 생성하는 것이 바람직한 인터뷰 데이터 분석에 가장 적합합니다.
  • 프레임워크 방법은 매트릭스 형태로 요약된 데이터를 직관적으로 구조화한 개요를 제공하기 때문에 대규모 데이터 세트의 관리가 용이합니다.
  • 프레임워크 방법의 명확한 단계별 프로세스는 학제 간 및 협업 프로젝트에 적합합니다.
  • 이 방법의 사용은 숙련된 질적 연구자가 주도하고 촉진해야 합니다.
  • The Framework Method is an excellent tool for supporting thematic (qualitative content) analysis because it provides a systematic model for managing and mapping the data.
  • The Framework Method is most suitable for analysis of interview data, where it is desirable to generate themes by making comparisons within and between cases.
  • The management of large data sets is facilitated by the Framework Method as its matrix form provides an intuitively structured overview of summarised data.
  • The clear, step-by-step process of the Framework Method makes it is suitable for interdisciplinary and collaborative projects.
  • The use of the method should be led and facilitated by an experienced qualitative researcher.

BMC Med Res Methodol. 2013 Sep 18;13:117. doi: 10.1186/1471-2288-13-117.

Using the framework method for the analysis of qualitative data in multi-disciplinary health research

Affiliations collapse

1Health Services Management Centre, University of Birmingham, Park House, 40 Edgbaston Park Road, Birmingham B15 2RT, UK. n.gale@bham.ac.uk.

PMID: 24047204

PMCID: PMC3848812

DOI: 10.1186/1471-2288-13-117

Free PMC article

Abstract

Background: The Framework Method is becoming an increasingly popular approach to the management and analysis of qualitative data in health research. However, there is confusion about its potential application and limitations.

Discussion: The article discusses when it is appropriate to adopt the Framework Method and explains the procedure for using it in multi-disciplinary health research teams, or those that involve clinicians, patients and lay people. The stages of the method are illustrated using examples from a published study.

Summary: Used effectively, with the leadership of an experienced qualitative researcher, the Framework Method is a systematic and flexible approach to analysing qualitative data and is appropriate for use in research teams even where not all members have previous experience of conducting qualitative research.

근거이론의 퀄리티를 추구하며 (QUALITATIVE RESEARCH IN PSYCHOLOGY, 2021)
The pursuit of quality in grounded theory
Kathy Charmaza and Robert Thornberg

 

 

소개
Introduction

미국의 사회학자 바니 글레이저와 안셀름 스트라우스(1967)의 '근거 이론의 발견': 질적 연구를 위한 전략'은 새로운 분석 방법을 제안했을 뿐만 아니라 질적 연구의 질을 지키는 데 앞장섰습니다. 근거 이론은 데이터 수집을 구체화하고 이를 분석하기 위한 명시적인 전략을 제공하는 체계적인 연구 수행 방법입니다. 이 방법의 명확한 목적은 연구 대상의 하나 이상의 핵심 관심사에 대한 추상적인 이해를 제공하는 이론을 구성하는 것입니다. 
American sociologists Barney Glaser and Anselm Strauss’s (1967) The Discovery of Grounded Theory: Strategies for Qualitative Research not only proposed a new method of analysis, but also led the charge of defending the quality of qualitative research. Grounded theory is a systematic method of conducting research that shapes collecting data and provides explicit strategies for analyzing them. The defining purpose of this method is to construct a theory that offers an abstract understanding of one or more core concerns in the studied world.

근거 이론 연구에서는 연구자의 분석 초점이 경험적 탐구가 시작되기 전에 결정되는 것이 아니라 연구 과정 중에 나타납니다. 점점 더 많은 근거 이론가들은 이 방법을 연구 과정 전반에 걸쳐 데이터에 대해 사고하고, 구성하고, 상호 작용하는 방식이라고 가정합니다(Morse 외, 곧 발표 예정). 이제 근거 이론을 사용한다는 것은 참가자의 삶에 대해 개방적으로 학습한다는 것 이상의 의미를 갖습니다. 또한 연구가 철저하고 체계적으로 수행된 과정을 보여줌으로써 연구자가 배운 것을 투명하게 공개하는 것을 의미합니다.
In grounded theory studies, the researcher’s analytic focus emerges during the research process, rather than being determined before empirical inquiry begins. Increasingly, grounded theorists assume that the method is a way of thinking about, constructing, and interacting with data throughout the research process (Morse et al., forthcoming). Using grounded theory now means more than openness to learning about the participants’ lives. It also means making what the researchers learn transparent by showing how the research has been conducted thoroughly and systematically.

근거 이론 방법은 연구자의 이론적 분석을 발전시키는 데 유용한 전략을 제공합니다. 이 방법은 연구자가 자신의 학문 분야와 더 큰 연구 문헌에서 새로운 개념을 생성하는 데 도움이 됩니다. 이러한 개념은 심리학을 비롯한 여러 분야의 전문 정책과 실무에 직접 적용될 수 있습니다.
The grounded theory method offers useful strategies to develop researchers’ theoretical analyses. This method helps them to generate new concepts in their discipline and the larger research literature. These concepts may have direct application for professional policies and practices in psychology and beyond.

먼저 이 방법의 논리를 간략하게 설명한 다음, 근거 이론의 발전의 역사적 맥락을 스케치해 보겠습니다. 근거 이론은 그 시작부터 현재까지 질적 연구의 질에 대한 질문을 다루어 왔습니다. Glaser와 Strauss(1967)는 질적 연구를 새로운 이론적 공헌과 연결시켰습니다. 논의 전반에 걸쳐, 우리는 근거 이론 연구에서 품질에 대한 우려가 연구 프로세스에 어떻게 퍼져 있는지 자세히 설명합니다. 또한 근거 이론가들의 품질에 대한 개념을 더 큰 문헌과 비교한 다음 개념의 발전과 이론적 프레임워크와의 관계를 자세히 설명합니다. 마지막으로 요점을 종합하고 구성주의 근거 이론 연구에서 품질을 수행하기 위한 체크리스트와 제안을 제공하는 것으로 마무리하지만, 대부분의 제안은 다른 버전의 근거 이론에도 적용될 수 있습니다.
We begin by briefly explaining the logic of the method and then sketch the historical context of the development of grounded theory. From its beginning to the present, grounded theory has addressed questions about quality in qualitative research. Glaser and Strauss (1967) tied quality to making new theoretical contributions. Throughout our discussion, we detail how concerns about quality pervade the research process in grounded theory studies. We also compare notions of quality among grounded theorists with the larger literature and then detail development of a concept and its relation to a theoretical framework. We end by synthesizing our key points and offering a checklist and suggestions for conducting quality in constructivist grounded theory research, although most of the suggestions are applicable to other versions of grounded theory as well.

근거 이론 연구의 품질에 대해 설명하기 전에, 많은 연구자, 그중에서도 심리학자들이 이론 구성 대신 또는 이론 구성과 함께 다양한 가치 있는 목적으로 이 방법을 사용한다는 점을 지적하고 싶습니다. 이러한 목적에는 다음 등이 있습니다.

  • 새로운 연구 영역 탐색(Bronk 2012),
  • 주요 과정 설명 및 이해(Qin and Lykes 2006),
  • 대중의 목소리를 거부당한 사람들의 상황 조명(Ayón 외. 2017; Gibson 2016; Scull, Mbonyingabo, Kotb 2016; Tuason 2013),
  • 정책 개발(Faija 외. 2017),
  • 전문적 실천에 대한 시사점(Song and de Jong 2013; Yakushko 2010) 

수많은 연구자들이 주제별 분석을 수행하기 위해 몇 가지 근거 이론 전략을 사용합니다(브라운과 클라크 2006 참조). 이 글에서는 다른 목적에도 부합하는지 여부와 관계없이 이론 구축을 목표로 하는 근거 이론 연구의 품질을 강조합니다. 
Before outlining quality in grounded theory research, we wish to point out that many researchers, psychologists among them, use this method for a variety of worthy purposes instead of or in conjunction with theory construction. Such purposes include

  • exploring a new area of study (Bronk 2012)
  • explicating and understanding a major process (Qin and Lykes 2006),
  • illuminating the situations of people denied a public voice (Ayón et al. 2017; Gibson 2016; Scull, Mbonyingabo, and Kotb 2016; Tuason 2013),
  • developing policy (Faija et al. 2017), and
  • implications for professional practice (Song and de Jong 2013; Yakushko 2010). 

Numerous researchers use several grounded theory strategies for conducting thematic analyses (cf. Braun and Clarke 2006). In this article, we emphasize quality in grounded theory studies that aim for theory construction, despite whether they also serve other goals.

근거 이론의 논리
The logic of grounded theory

글레이저와 스트라우스(1967)는 병원에서의 죽음과 임종에 대한 주목할 만한 질적 연구를 구성하는 데 사용한 방법을 설명함으로써 근거 이론을 발전시켰습니다(Glaser & Strauss, 1965, 1968). 이 방법론적 논문에서 그들은 동시 데이터 수집 및 분석이라는 혁신적이고 체계적인 전략을 도입했습니다. 이는 근거 이론의 특징이 되었으며 질적 조사 전반에 걸쳐 널리 채택되었습니다. 글레이저와 스트라우스는 데이터 수집과 분석의 반복적인 과정을 통해 연구자가 연구 분야에서 가장 중요한 문제에 순차적으로 집중할 수 있다고 주장했습니다. 데이터 수집과 분석을 동시에 수행하면 연구자는 데이터에 대한 개념을 개발하는 데 꾸준히 집중하고 초기 개념을 구체화하는 추가 데이터를 수집하는 데 도움이 됩니다. 글레이저와 스트라우스는 당시 민족지학 연구의 특징이었던 데이터 수집과 분석의 분리에 반대했습니다. 1960년대의 민족지학자들은 일반적으로 상당한 양의 데이터가 깊이와 풍부함이 부족하다는 사실을 발견했습니다. 그러나 이 반갑지 않은 발견을 했을 때는 이미 연구 현장을 떠난 후여서 돌아오지 못하는 경우가 많았습니다. 그러나 연구자들이 데이터를 수집할 때 체계적으로 질문하면 초기 아이디어가 후속 데이터 수집에 영향을 줄 수 있습니다. 
Glaser and Strauss (1967) developed grounded theory by explaining the methods they used to construct their remarkable qualitative studies of death and dying in hospitals (Glaser & Strauss, 1965, 1968). In this methodological treatise, they introduced the innovative and systematic strategy of simultaneous data collection and analysis. It became a hallmark of grounded theory and has become widely adopted throughout qualitative inquiry. Glaser and Strauss argued that by engaging in an iterative process of data collection and analysis, researchers would sequentially focus on the most significant issues in the field of study. Simultaneous data collection and analysis help researchers to steadily focus on developing concepts about the data and to gather further data that flesh out their nascent concepts. Glaser and Strauss opposed the separation of data gathering and analysis that characterized ethnographic research of their time. Ethnographers of the 1960s commonly discovered their considerable quantities of data lacked depth and richness. But by the time they made this unwelcome discovery, they had left the research site and often could not return. If, however, researchers systematically interrogate their data as they gather it, their early ideas can then inform subsequent data collection.

데이터 분석을 시작하기 위해 Glaser와 Strauss는 데이터를 비교하고 코딩할 것을 주장했습니다. 이들에게 초기 코딩이란 데이터의 스니펫에 레이블을 지정하여 데이터를 분리하는 동시에 데이터가 제시하는 의미와 조치에 주의를 기울이는 것을 의미했습니다. 연구자가 데이터를 새롭게 바라보고, 데이터의 조각을 비교하고, 분석적인 질문을 던질 수 있도록 하기 때문에 우리는 첫 번째 단계로 라인별 코딩을 권장합니다. 근거 이론 방법은 연구자가 데이터를 종합하는 데 도움이 될 뿐만 아니라, 무슨 일이 일어나고 있는지 설명하는 새로운 개념을 구성하여 설명을 넘어서는 데도 도움이 됩니다. 
To begin analyzing data, Glaser and Strauss advocated comparing and coding the data. For them, initial coding meant labeling snippets of data to take them apart while being attentive to the meanings and actions suggested by these data. We advocate line-by-line coding as a first step, because it forces the researcher to take a fresh look at the data, compare fragments of these data, and ask analytic questions about them. The grounded theory method not only helps researchers to synthesize data but, moreover, to move beyond description through constructing new concepts that explicate what is happening.

라인별 코딩은 근거 이론가가 연구 참여자의 경험과 관점을 이해하는 데 도움이 됩니다. 이러한 이해를 얻으면 연구자가 데이터에 적합하다고 믿었던 소중한 학문적 개념을 다시 생각하거나 포기할 수 있습니다

  • 예를 들어, 심리학자들은 회복탄력성에 관한 중요한 연구를 많이 수행해 왔습니다. 그러나 이 개념의 유용성은 지속적인 위기를 경험하는 절망적인 사람들의 입장에는 맞지 않을 수 있습니다. 카프리스키 세이데(Charmaz 2020, 166)는 콜레라가 유행하던 아이티의 상황을 직접 조사했습니다. 그녀는 노숙자, 극심한 빈곤, 굶주림, 고립, 절망, 죽음과 마주했습니다. 세이데는 '젊은 여성에게 회복탄력성이라는 단어는 patronizing하였고, 더 많은 아이티인들이 일상 생활에서 시험과 도전을 받아 '이성을 잃지 않는다'는 사실이 놀랍기 때문에 구조적 폭력을 정상화하는 것처럼 보였다'고 보고했습니다.

Line-by-line coding helps grounded theorists to understand their research participants’ experiences and perspectives. Gaining this understanding can lead to rethinking or relinquishing cherished disciplinary concepts that researchers might have believed would fit their data.

  • For example, psychologists have conducted many important studies about resilience. However, the usefulness of this concept may not fit the stance of desperate people who experience constant crises. Kapriskie Seide (in Charmaz 2020, 166) conducted firsthand research on the situation in Haiti during the cholera epidemic. She found herself face-to-face with homelessness, immense poverty, starvation, isolation, hopelessness, and death. Seide reported that ‘For a young woman, the word resilient was patronizing and seemed to normalize structural violence as it is surprising to some that more Haitians are not ‘losing their shit’ from being tested and challenged by their everyday lives’.

글레이저와 스트라우스(1965, 1968)의 연구는 여러 현장에서의 광범위한 현장 연구를 기반으로 했습니다. 오늘날 대부분의 근거 이론 연구는 인터뷰를 기반으로 합니다. 근거 이론가들은 초기 인터뷰의 코드에 대한 후속 연구를 통해 보다 핵심적인 질문을 개발하고 중요할 것이라고 예상하지 못했던 영역에 대해 질문합니다. 데이터와 분석 사이를 오가며 초기 아이디어의 타당성을 확인하고, 타당성이 있는 아이디어의 분석 수준을 높이며, 이를 더욱 완벽하게 뒷받침하는 데 도움이 됩니다. 근거 이론가들은 코딩을 하는 동안 코드와 코드에 대해 궁금한 점에 대해 메모를 작성합니다.
Glaser and Strauss’s (1965, 1968) studies were based on extensive field research in multiple sites. Today, most grounded theory studies are based on interviews. By following up on codes in the early interviews, the grounded theorists develop more pointed questions and ask about areas that they had not anticipated would be important. Tacking back and forth between data and analysis helps to check the pertinence of their nascent ideas, raise the analytic level of those that hold up, and support them more fully. While grounded theorists are coding, they write memos about their codes and the questions they have about them.

메모 작성코딩과 (잠정 분석을 포함한) 논문 초안 작성 사이의 중간 단계입니다. 초기 메모에는 근거 이론가의 코드, 분석 및 방법론적 질문, 데이터 조각 간의 비교에 대한 논의가 포함될 수 있습니다. 다른 메모는 근거 이론가들이 코드를 분해하기 때문에 더 분석적입니다.

  • 먼저 코드의 속성이나 특징에 따라 코드를 정의하는 것이 좋습니다. 이러한 속성은 코드를 구성하고 다른 코드와 차별화하는 요소입니다.
  • 명시되지 않은 가정을 찾아보고 자신과 연구 참여자의 가정을 검토하세요.
  • 코드가 어디로 연결되는지, 다른 코드와 어떻게 연결되는지 기록하세요.
  • 모든 코드가 동일한 것은 아닙니다. 어떤 코드는 구체적이고 설명적입니다. 다른 코드는 보다 분석적이고 광범위한 데이터를 설명합니다.
  • 연구를 진행하면서 메모는 더욱 명확해지고 분석적이 됩니다. 이런 식으로 연구에 퀄리티를 쌓아가는 것입니다.

Memo writing is the intermediate step between coding and writing the first draft of the paper, including the provisional analysis. Early memos may include discussions of grounded theorists’ codes, analytic and methodological questions as well as comparisons between fragments of data. Other memos are more analytic because grounded theorists take codes apart.

  • We suggest that you first define a code by its properties or characteristics. These properties are what constitute the code and differentiate it from other codes.
  • Look for unstated assumptions and examine your own as well as those of your research participants.
  • Record where the code takes you and how it is linked to other codes.
  • Not all codes are equal. Some codes are concrete and descriptive. Others are more analytic and account for a wider range of data.
  • As you proceed with your research, your memos become more definitive and analytic. In this way, you are building quality into your study.

얼마나 많은 줄 단위 코딩을 해야 할까요? 코드가 어떻게 합쳐지는지 확인하고 어떤 코드가 가장 중요한지 파악한 후에는 줄 단위 코딩을 중단할 수 있습니다. 가장 중요한 코드를 집중 코드로 정의하세요. 이러한 코드는 다른 코드보다 더 많은 데이터를 설명하고, 관련 코드를 하위에 포함하며, 작업의 분석 수준을 높입니다. 그런 다음 집중 코드를 사용하여 대량의 데이터 배치에서 어떻게 작동하는지 살펴보세요. 집중 코딩은 데이터에 대한 강력한 기반을 유지하면서 분석 프로세스를 신속하게 진행합니다. 집중 코드는 잠정적인 분석 범주를 생성하는 데 도움이 됩니다. 이 범주가 유효할까요? 이 범주가 데이터를 설명할 수 있을까요, 아니면 다른 문제가 있을까요?
How much line-by-line coding should you do? After seeing how your codes coalesce and identifying which are the most important, you can stop line-by-line coding. Define the most important codes as focused codes. These codes account for more data than other codes, subsume related codes, and raise the analytic level of your work. Then use the focused codes to examine how they work with large batches of data. Focused coding expedites the analytic process while retaining your strong foundation in the data. Focused codes help to generate tentative analytic categories, which you then pursue. Do these categories hold up? Can they account for these data, or is something else going on?

근거 이론은 집중 코딩과 같이 연구 프로세스에 품질에 기여하는 점검을 구축합니다. 동시에 집중 코딩을 사용하면 분석 속도를 높이고 후속 데이터 수집을 간소화하여 새로운 분석에서 질문에 답할 수 있는 타깃 데이터를 수집할 수 있습니다. 따라서 근거 이론은 연구자에게 더 적은 데이터로 더 많은 분석력을 제공합니다. 그럼에도 불구하고 이 점이 매우 작은 샘플을 사용하는 것을 변명할 수는 없습니다(참조, Thomson 2011). 
Grounded theory builds checks into the research process that contribute to its quality, such as engaging in focused coding. Simultaneously, using focused coding helps you to expedite your analysis and streamline your subsequent data collection to gather targeted data that answer questions in your emerging analysis. Hence, grounded theory gives the researcher more analytic power with fewer data. Nonetheless, this point does not excuse having very small samples (cf., Thomson 2011).

질적 연구를 통해 연구자는 데이터에서 명시적 및 암시적 프로세스를 식별할 수 있습니다. 근거 이론은 프로세스를 연구하는 유용한 방법을 제공합니다. 프로세스를 명시하기 위해 근거 이론가들은 행동과 의미를 연구하고 이들이 어떻게 연결되어 있는지 보여줍니다. 

  • 예를 들어, 심리학자 Qin과 Lykes(2006)는 의미와 행동의 융합에 대한 훌륭한 분석을 제공합니다. 이들은 미국에 있는 중국 여성 대학원생들의 상황을 연구하여 파편화된 자아를 재구성함으로써 자기 이해를 얻는 기본적인 심리적 과정을 발견했습니다. 이 학생들은 미국에 도착하기 전에 분열된 자아를 경험한 경우가 많았습니다. 중국에서는 성차별, 정치적 부패, 사회적 관계망에 대한 관리 능력 부족 등으로 인해 자기 이해가 파편화되었습니다. 고등 교육에 대한 학생들의 열망은 여성에 대한 문화적 규범과 모순되었습니다. 미국에서는 '차별, 무례, 외로움, 자기 의심'(192쪽)을 경험하면서 자아가 더욱 분열되었습니다. 그러나 많은 사람들이 자기 이해에 다문화적 통찰을 접목하면서 더 복잡한 자아를 갖게 되었습니다.

Qualitative research allows researchers to discern explicit and implicit processes in their data. Grounded theory offers a useful way of studying processes. To make processes explicit, grounded theorists study actions as well as meanings and show how they are connected.

  • For example, psychologists Qin and Lykes (2006) provide an excellent analysis of the convergence of meanings and actions. They studied the situations of Chinese women graduate students in the United States and discovered the basic psychological process of gaining self-understanding through reweaving a fragmented self. These students often experienced a fragmented self before their arrival in the US. In China, their self-understanding became fragmented due to gender discrimination, political corruption, and inability to manage the web of social relationships in which they were embedded. The students’ quest for higher education contradicted cultural norms for women. In the US their selves became further fragmented, as they experienced ‘discrimination, disrespect, loneliness, and self-doubt’ (p. 192). Yet many gained more complex selves as they rewove cross-cultural insights into their self-understandings.

연구 과정의 모든 단계에서 근거 이론가들은 데이터로 시작하여 범주 간의 비교로 끝나는 비교를 합니다.각주1 그 후, 그들은 최종 범주 또는 범주를 기존 문헌과 비교합니다. 근거 이론이 어떤 방향으로 나아갈지 미리 알 수 없기 때문에 연구를 완료할 때 문헌을 체계적으로 검색해야 합니다.
At every stage of the research process grounded theorists make comparisons beginning with data and ending with comparisons between their categories.Footnote1 Subsequently, they compare their final category or categories with the existing literature. Because they do not know in advance where grounded theory may take them, they need to do a systematic search of the literature as they complete their study.

글레이저와 스트라우스는 연구자의 개념 범주의 분석력을 높이는 반복적인 과정이 근거 이론에 많은 힘을 준다는 사실을 깨달았습니다. 그들은 새로운 데이터로 이러한 범주를 채우기 위해 새로운 유형의 샘플링인 '이론적 샘플링'을 제안했습니다. 이 유형의 샘플링에서 연구자는 범주를 설명할 수 있는 데이터를 찾습니다. 이 용어는 정량적 연구에서 대표 표본 추출로 오인되는 경우가 많기 때문에 혼동될 수 있습니다. 그러나 이론적 샘플링은 대표 샘플링과는 아무런 관련이 없습니다. 글레이저와 스트라우스는 새로운 개념 범주의 이론적 포화라고 부르는 것을 목표로 삼고 있습니다. 근거 이론가들은 이론적 샘플링을 하면서 더 많은 데이터를 찾지만 범주의 새로운 속성이나 특성을 발견하지 못할 때 이론적 포화 상태에 도달합니다. 이론적 샘플링이론적 포화는 반복적인 프로세스를 추구하고 구축된 범주를 데이터와 비교하여 철저하게 확인하는 데 달려 있습니다. 그러나 연구자가 각 참가자에게 동일한 질문만 던진다면 주제에 대해 비슷한 이야기를 이끌어낼 가능성이 높습니다. 이는 데이터 포화 상태이며, 상대적으로 적은 수의 인터뷰에서도 발생하지만 연구의 분석력에는 거의 기여하지 않습니다. 
Glaser and Strauss realized that the iterative process of increasing the analytic power of the researcher’s conceptual categories gave grounded theory much of its strength. They proposed a new type of sampling, ‘theoretical sampling’, to fill out these categories with new data. In this type of sampling, researchers look for data that will inform their categories. The term is confusing because it is often mistaken for representative population sampling in quantitative research. However, theoretical sampling has nothing to do with representative sampling. Glaser and Strauss are aiming for what they call theoretical saturation of the emerging conceptual categories. Grounded theorists achieve theoretical saturation, when they seek more data while theoretical sampling, but find no new properties or characteristics of their categories. Theoretical sampling and theoretical saturation depend upon pursuing the iterative process and thoroughly checking the constructed categories against data. If, however, researchers only ask the same questions of each participant, they are likely to elicit similar stories about the topic. That is data saturation, and it occurs with relatively few interviews but seldom contributes to the analytic power of the study.

이론적 샘플링과 이론적 포화는 연구자의 분석을 강화하고 명확한 주장을 할 수 있는 자료를 제공함으로써 연구의 품질에 기여합니다. 요컨대, 근거 이론가들은 상담 심리학자 Morrow(2005)와 Williams와 Morrow(2009)가 연구 실무에서 반드시 달성해야 한다고 주장한 연구의 'trustworthiness'을 구축하고 있습니다.
Theoretical sampling and theoretical saturation contribute to the quality of the study by strengthening researchers’ analysis and giving them material for making explicit claims about it. In short, grounded theorists are building the kind of ‘trustworthiness,’ of their research that counseling psychologists Morrow (2005) and Williams and Morrow (2009) rightly argue is imperative to achieve in research practice.

근거 이론 개발의 질에 대한 우려
Concerns about quality in the development of grounded theory

글레이저와 스트라우스(1967)가 최첨단 이론을 발표할 당시만 해도 그들은 사회학자들에게 많은 이야기를 하고 있었습니다. 그들은 자신들의 방법이 심리학, 간호학, 의학, 교육, 컴퓨터 과학, 도시 계획 등 여러 학문 분야와 전문 분야의 경계를 넘나들 것이라고는 꿈에도 생각하지 못했습니다. 사회학에서 질적 연구의 질에 대한 글레이저와 스트라우스의 옹호는 양적 사회학자에 대한 용감한 반박이었습니다. 1960년대에 이르러 질적 연구는 객관성, 타당성, 신뢰성, 재현성이 결여된 것으로 간주하는 미국의 양적 사회학자들의 공격을 받게 되었습니다(Bryant & Charmaz 2007; Charmaz, 1995, Charmaz 2006). 정량적 연구는 이미 체계적으로 체계화되어 있었고, 그 방법을 배울 수 있는 교과서도 점점 더 많이 보급되고 있었습니다. 반면, 질적 연구는 주로 구전으로 내려오는 멘토링 전통과 탐구 분야에 대한 몰입을 통해 배워왔습니다. 그 결과는 소규모의 설명적 연구였습니다. Glaser와 Strauss(1967)의 진술이 나오기 전까지는 고품질의 질적 이론 분석을 구성하는 방법에 대해 체계적으로 성문화된 글은 거의 없었으며, 그보다 훨씬 적은 양이었습니다. 
At the time of Glaser and Strauss’s (1967) cutting edge statement, they were very much speaking to sociologists. They never dreamt that their method would cross many disciplinary and professional borders such as in psychology, nursing, medicine, education, computer science, and urban planning. Glaser and Strauss’s defense of the quality of qualitative research in sociology stood as a valiant rebuttal to quantitative sociologists. By the 1960s, qualitative research had come under attack by US quantitative sociologists who viewed qualitative inquiry as lacking objectivity, validity, reliability, and replicability (Bryant & Charmaz 2007; Charmaz, 1995, Charmaz 2006). Quantitative research had already been systematically codified and textbooks were increasingly available for learning how to do it. In contrast, qualitative research had largely been taught through an oral tradition of mentoring and immersion in the field of inquiry. The results were small descriptive studies. Until Glaser and Strauss’s (1967) statement, little had been written, much less codified into a systematic statement, about how to construct a qualitative theoretical analysis of high quality.

질적 연구에 대한 양적 사회과학자들의 날카로운 비판에 대해 글레이저와 스트라우스는 양적 전통의 교리에 따라 질적 연구를 평가하는 일반적인 관행을 거부했습니다. 글레이저와 스트라우스는 질적 연구에 대한 양적 연구자들의 비판을 체계적이지 않고 편향적이며 직관적이라는 이유로 거부했습니다. 대신, 그들은 질적 연구는 지배적인 양적 전통에 의해 강요된 기준이 아니라 그 자체의 표준에 따라 평가되어야 한다고 주장했습니다. 
When answering quantitative social scientists’ sharp criticisms of its quality, Glaser and Strauss rejected the common practice of evaluating qualitative research according to the tenets of the quantitative tradition. Glaser and Strauss rejected quantitative researchers’ criticisms of qualitative inquiry as being unsystematic idiosyncratic, biased, and intuitive. Instead, they argued that qualitative research must be evaluated on its own canons, not on those imposed by the dominant quantitative tradition.

글레이저와 스트라우스는 연역적 정량적 연구는 연구자가 연구를 시작하기 전에 '올바른' 질문을 알고 있다고 가정한다고 주장했습니다. 이러한 질문은 일반적으로 경험적 세계와는 거리가 먼 사변적 이론에서 파생된 것이었습니다. 글레이저와 스트라우스는 다음과 같이 제안했습니다.

  • (1) 연구 질문은 경험적 상황을 연구하는 과정에서 생겨나야 하고, 
  • (2) 연역적 가설 테스트는 새로운 이론적 접근법 개발을 저해하며, 
  • (3) 따라서 연구 결과의 품질, 관련성 및 유용성을 떨어뜨린다고 

Glaser and Strauss avowed that deductive quantitative research assumed that researchers knew the ‘right’ questions to ask before beginning their studies. Such questions were typically derived from speculative theorizing far removed from the empirical world. Glaser and Strauss proposed that

  • (1) research questions had to arise from studying empirical situations,
  • (2) deductive hypothesis testing undermined developing new theoretical approaches, and
  • (3) thus, reduced the quality, relevance and usefulness of the research products.

요컨대, 글레이저와 스트라우스는 풍부한 직접 데이터를 활용한 귀납적 질적 연구가 이론 구축으로 이어질 수 있으며, 객관성, 타당성, 신뢰성, 재현성의 규범을 고수하는 것은 이론화를 저해할 수 있다고 선언했습니다. 따라서 연구를 수행하기 전에 연구와 이론적 문헌에 몰입하면 연구자가 흔들리고 결과적으로 연구에 대한 선입견을 갖게 된다고 주장했습니다. 글레이저와 스트라우스에게 이론화, 즉 수준 높은 연구를 위해서는 연구 대상 현상에 대한 직접적인 지식이 전제되어야 했습니다. 또한 직접 경험에 대한 연구는 엄격하게 수행될 수 있다고 주장했습니다.
In short, Glaser and Strauss declared that inductive qualitative research with rich first-hand data could lead to theory construction and that adhering to canons of objectivity, validity, reliability and replicability would inhibit theorizing. Hence, they argued that immersion in the research and theoretical literatures before conducting research would sway researchers and subsequently, preconceive their studies. For Glaser and Strauss, theorizing–and creating high quality research–needed to be predicated on direct knowledge of the studied phenomenon. Moreover, they contended that studies of direct experience could be conducted with rigor.

글레이저와 스트라우스의 입장을 맥락에 맞게 이해하려면 1960년대 미국 사회학과에서 어떤 일이 벌어지고 있었는지 자세히 알아두면 도움이 됩니다. 사회학과 인류학은 20세기에 접어들면서 학문이 시작될 때부터 질적 연구를 직접 수행해 온 오랜 역사를 가지고 있습니다. 그러나 1960년대에 이르러 양적 연구자들이 사회학의 주요 부서, 학술지, 연구 기관, 연구비 지원 기관을 장악하면서 질적 연구를 공격하고 소외시켰습니다. 그들은 소수의 재능 있는 스타만이 학계의 주목을 받을 만한 질적 연구를 수행할 수 있다고 믿었습니다. 글레이저와 스트라우스는 이러한 견해를 거부하고 질적 연구를 민주화했습니다. 그들은 근거 이론이 일반 연구자들에게 각자의 분야에서 견고한 이론을 구축할 수 있는 도구를 제공할 것이라고 약속했습니다. 
To place Glaser and Strauss’s position in context, it helps to know more about what was happening in US sociology departments of the 1960s. Sociology and anthropology have had long histories of first-hand qualitative research from the beginning of their disciplines at the turn of the 20th century. But by the 1960s, quantitative researchers had attacked and marginalized qualitative inquiry in sociology by gaining control over leading departments, journals, research institutes, and funding agencies. They believed only a few talented stars could produce qualitative studies worthy of academic attention. Glaser and Strauss rejected this view and democratized qualitative inquiry. They promised that grounded theory would give ordinary researchers the tools to construct solid theories in their respective areas.

글레이저와 스트라우스의 책(1967)은 여러 세대의 대학원생들에게 영감을 주었습니다. 이 책은 귀납적 질적 연구를 정당화했고 코딩과 메모 작성을 질적 탐구의 필수 전략으로 만들었습니다. 그러나 이론적 샘플링과 포화에 관심을 갖고 이론을 구성한 연구자는 거의 없었습니다. Strauss와 Corbin(1990, 1998)의 등장으로 연구자들에게 근거 이론을 수행하는 방법에 대한 지침을 제공한다고 주장하며 큰 인기를 끌었던 매뉴얼이 등장했습니다. 그러나 이들의 책은 Strauss(1959)의 초기 연구에서 보여준 개방적이고 유동적인 접근 방식과 뚜렷한 대조를 이루며 경직되고 규범적인 것으로 비춰졌습니다.각주2 Strauss와 Corbin의 매뉴얼은 Glaser(1978)의 정교한 방법론과도 차이가 있었으며, Glaser(1992)의 격렬한 반응과 유일한 '고전적' 근거 이론 방법을 가지고 있다고 공언한 것과도 차이가 있습니다. 
Glaser and Strauss’s (1967) book inspired generations of graduate students. The book legitimized inductive qualitative research and made coding and memo-writing integral strategies of qualitative inquiry. However, few researchers engaged in theoretical sampling and saturation and constructed theory. The appearance of Strauss and Corbin (1990, 1998) immensely popular manuals claimed to give researchers instructions about how to do grounded theory. However, their books came across as rigid and prescriptive in sharp contrast to the open-ended, fluid approach of Strauss’s (1959) earlier work, and evident in the Discovery book.Footnote2 Strauss and Corbin’s manuals also diverged from Glaser’s (1978) elaboration of the method, to Glaser’s (1992) furious response and avowals to have the only ‘classic’ grounded theory method.

아이러니하게도 초기의 근거 이론 연구자와 지지자들(예: Glaser 1978; Strauss와 Corbin 1990, 1998)은 이 방법을 데이터를 수집하고 분석하는 절차의 기계적인 적용으로 취급하는 경우가 많았습니다. 실증주의 인식론의 잔재는 글레이저와 스트라우스와 코빈의 텍스트에서도 분명하게 드러나는데, 그 이유는 아래와 같은 중립적인 관찰자를 전제로 하기 때문입니다. 

  • (1) 세심한 관찰을 통해 발견할 수 있는 외부 세계를 가정하고,
  • (2) 연구 과정으로부터 자신을 분리하고,
  • (3) 데이터에 대한 객관적인 시각을 형성하고,
  • (4) 연구 참여자와 연구 과정에 대한 그들의 대표성을 문제가 없는 것으로 간주한다. 

Perhaps ironically, early grounded theory researchers and proponents (e.g., Glaser 1978; Strauss and Corbin 1990, 1998) often treated the method as a mechanistic application of procedures to gather and analyze data. The residues of an epistemology of positivism are also evident in both Glaser’s and Strauss and Corbin’s texts because they presuppose neutral observers who

  • (1) assume an external world, which can be discovered by meticulous observation,
  • (2) separate themselves from the research process,
  • (3) form an objective view of the data, and
  • (4) treat their representation of research participants and the research process as unproblematic.

또한 글레이저는 소규모 표본을 옹호하고, 근거 이론을 모든 인식론(지식의 본질과 그에 대한 합리적 정당화에 대한 철학적 이론)과 함께 사용할 수 있다고 가정하며, 시간, 장소, 개인, 상황을 초월하는 검약한 이론적 일반화를 추구합니다. 그러나 인식론적 입장은 연구자가 데이터를 수집하는 방법과 이러한 데이터와 후속 분석에 대한 영향력을 인정할지 여부를 결정하기 때문에 중요합니다.
In addition, Glaser defends small samples, presumes that grounded theory can be used with any epistemology (a philosophical theory of the nature of knowledge and reasoned justifications for it) and pursues parsimonious theoretical generalizations that transcend time, place, individuals, and circumstances. Epistemological stances are, however, significant because they shape how researchers gather their data and whether they acknowledge their influence on these data and the subsequent analysis.

심리학자 헨우드와 피전(2003)은 17년 전에 근거 이론에 대해 오늘날에도 여전히 유효한 중요한 지적을 제기했습니다. 그들은 근거 이론을 하나의 단일 방법으로 보기보다는 질적 탐구에서 중요한 문제에 대해 토론할 수 있는 유용한 결절점으로 볼 수 있다고 주장했습니다. 근거 이론을 수행하는 방법을 설명하는 초기의 매뉴얼과 달리, Bryant(2017, 2019), Charmaz(2006, 2014), Corbin과 Strauss(2008, 2015), Thornberg와 Charmaz(2014)를 포함한 현대 버전의 방법론은 근거 이론에 유연하게 접근하고 보다 최근의 인식론을 채택하고 있습니다. 이러한 방법론자들은 다양한 현실을 인정하고, 다양한 관점을 추구하며, 연구 과정 전반에 걸쳐 비판적 분석에 참여하는 것을 지지합니다. 이 접근법은 아래와 같은 연구자에게 호소력을 발휘합니다.

  •  (1) 연구 과정 전반에 걸쳐 반성적으로 참여하고,
  • (2) 자신의 입장, 출발점, 연구 활동을 가능한 한 투명하게 하고자 하며,
  • (3) 연구에 참여하기 전에 해당 주제에 대한 이론적, 실체적 문헌을 읽되 이러한 문헌을 반드시 진실이나 최종 진술로 받아들이지 않고,
  • (4) 근거 이론을 포함한 모든 방법론적 접근은 인식론을 가정한다고 본다.

Psychologists Henwood and Pidgeon (2003) raised a crucial point 17 years ago about grounded theory that still holds today. They contended that rather than seeing grounded theory as a unitary method, we can view it as a useful nodal point around which we can debate significant issues in qualitative inquiry. Unlike earlier manuals describing how to do grounded theory, contemporary versions of the method including Bryant (2017, 2019), Charmaz (2006, 2014), Corbin and Strauss (2008, 2015), and Thornberg and Charmaz (2014) take a flexible approach to grounded theory and adopt more recent epistemologies. These methodologists subscribe to acknowledging multiple realities, seeking diverse perspectives, and engaging in critical analysis throughout the research process. This approach appeals to researchers who

  • (1) engage in reflexivity throughout the research process,
  • (2) aim to make their standpoints, starting points, and research actions as transparent as possible,
  • (3) read theoretical and substantive literatures on their topics before engaging in research, but do not necessarily take these literatures as true or final statements, and
  • (4) assume every methodological approach, including grounded theory, assumes an epistemology.

근거 이론에 대한 글레이저와 스트라우스의 주장은 1960년대에 혁명적이었습니다. 2007년에 케네스 게르겐(Kenneth Gergen)은 '사실에 대한 모든 지식은 경험에서 비롯되거나 그 검증을 위해 경험이 필요하다고 주장하는' 인식론적 접근 방식인 경험주의에 의존하기 때문에 Glaser와 Strauss(1967)의 근거 이론을 시대에 뒤떨어진 것passé 으로 일축했습니다(APA 심리학 사전). 게르겐은 모든 경험적 견해는 해석적이라고 지적했는데, 이는 21세기 대부분의 근거 이론가들이 공유하는 인식론적 관점입니다. 언어와 경험은 연구자가 세상을 보는 방식을 형성합니다. 이와는 대조적으로 Glaser(2013)는 여전히 데이터가 문제가 없다고 가정하고, 연구자가 이전의 개념, 관점 및 연구를 불러와 데이터를 분석할 때 선입견을 가져서는 안 된다고 주장합니다. 
Glaser and Strauss’s statement of grounded theory was revolutionary in the 1960s. By 2007, Kenneth Gergen (in Cisneros-Puebla 2007) dismissed Glaser and Strauss’s (1967) grounded theory as passé because of its reliance on empiricism, an epistemological approach ‘holding that all knowledge of matters of fact either arises from experience or requires experience for its validation’ (APA Dictionary of Psychology). Gergen pointed out that all empirical views are interpretive, an epistemological view most 21st century grounded theorists share. Language and experience shape how researchers see the world. In contrast, Glaser (2013) still assumes that data are unproblematic and insists researchers must not preconceive analyzing them by invoking earlier concepts, perspectives, and studies.

질적 연구와 심리학
Qualitative research and psychology

질적 연구의 품질에 대한 기준은 아직 명확하게 정립되지 않았습니다. 질적 연구에서 품질은 매우 중요하지만, 코빈의 말처럼 '질적 연구에 적합한 평가 기준이 무엇인지에 대한 합의가 거의 이루어지지 않고 있습니다'(코빈과 스트라우스 2015, 341). 이는 적어도 부분적으로는 다양한 존재론적, 인식론적 신념과 연구 이상에 뿌리를 둔 질적 연구 전통(예: 담화 분석, 민족지학, 현상학적 연구, 대화 분석)과 그 안의 다양성(예: 비판적 담화 분석, 해석적 현상학적 분석, 비판적 민족지학, 구성주의 근거 이론)으로 설명할 수 있습니다. 심리학자들은 이러한 다양한 질적 방법을 구독하고 그 발전에 기여해 왔습니다.  
Criteria about the quality in qualitative research remain unsettled. Although quality is crucial in qualitative research, there is, as Corbin states, ‘little consensus about what constitutes an appropriate set of evaluation criteria for qualitative research’ (Corbin and Strauss 2015, 341). This can, at least in part, be explained by the multiplicity of qualitative research traditions (e.g., discourse analysis, ethnography, phenomenological research, conversation analysis) and diversities within them (e.g., critical discourse analysis, interpretative phenomenological analysis, critical ethnography, constructivist grounded theory), rooted in various ontological and epistemological beliefs and research ideals. Psychologists have subscribed to this wide range of qualitative methods and contributed to their development.

질적 연구의 객관성, 타당성, 신뢰성 및 재현성에 대한 우려는 여전히 학문적 심리학에 만연해 있습니다. 최근의 한 예로, Anczyk 외(2019)는 질적 연구에서의 복제성을 주장합니다. Rubin, Bell, McCleland(2018)는 대학원 심리학 프로그램에 대한 혼합 방법 연구에서의 우려를 문서화했습니다. 이들은 오랫동안 심리학 분야에서 질적 연구에 대한 부정적인 시각이 존재해 왔다는 사실을 발견했습니다. 응답 프로그램 중 13%만이 질적 연구 과정을 요구한다고 보고했습니다. 1960년대 질적 연구에 대한 사회학적 비판을 반영하듯, 루빈 등의 응답자들은 "질적 연구는 '부정확하고', '주관적이며', '엄밀성이 결여된' 것으로 상상되거나 믿어졌다"(41페이지)고 말했습니다. 그러나 응답자들은 질적 연구가 '페미니즘, 커뮤니티 기반, 사회 정의 연구에 가장 적합한 방법'이라고 설명했습니다(43페이지). 이 점에 대해서는 비평가들이 옳습니다. 심리학자들은 이 분야에서 엄청난 공헌을 해왔으며, 이들 중 다수는 근거 이론을 사용합니다(예: Ayón 외. 2017; Faija 외. 2017; Gibson, 2016; Lee 2018; Scull, Mbonyingabo, Kotb 2016; Tsai, L. 2017; Tuason 2013 참조). 
Concerns about objectivity, validity, reliability and replicability in qualitative research still pervade academic psychology. In a recent example, Anczyk et al. (2019) plea for replication in qualitative research. Rubin, Bell, and McCleland (2018) document the above concerns in their mixed methods study of graduate psychology programs. They found negative judgments about qualitative inquiry that had long been evident in the discipline. They reported that only 13% of the responding programs required a course in qualitative research. Echoing sociological criticisms of qualitative studies in the 1960s, Rubin et al.’s respondents stated that “qualitative research was either imagined to be or believed to be ‘inaccurate,’ ‘subjective,’ and ‘lacking rigor’ (p. 41). However, the respondents described qualitative research as providing the ‘best methods for feminist, community-based, and social justice research’ (p. 43). The critics are correct on this point. Psychologists have made enormous contributions in these areas, and many of them use grounded theory (see, for example, Ayón et al. 2017; Faija et al. 2017; Gibson, 2016; Lee 2018; Scull, Mbonyingabo, and Kotb 2016; Tsai, L. 2017; Tuason 2013).

그러나 비평가들은 질적 연구를 수행하는 심리학자들의 기여에 대한 다른 중요한 고려 사항을 무시하는 것 같습니다.

  • 질적 심리학자들은 다양한 문제를 연구하며 의학 및 정신의학, 교육, 종교, 민족 및 젠더 연구, 비즈니스 등 다양한 프로그램에 소속되어 있습니다.
  • 질적 심리학자들의 위치와 다양한 출판 매체는 연구의 질과 기여의 범위를 가릴 수 있습니다(예: Bronk 2012; Mazzone 외. 2018; Tsai, Seballos-Llena, Castellano-Datta 2017; Wójcik 2018).
  • 또한 질적 심리학자들은 종종 다학제적 팀의 전문 분야에서 일하기도 합니다(예: Khankeh 외. 2015).각주3
  • 또한 심리학자가 심리학 프로그램에 고용되지는 않더라도 여러 분야의 전문 지식을 보유하는 것은 드문 일이 아닙니다.각주4 

Yet critics appear to ignore other important considerations about the contributions of psychologists who conduct qualitative research.

  • Qualitative psychologists study an amazing array of problems and are affiliated with a wide range of programs, including those in medicine and psychiatry, education, religion, ethnic and gender studies, and business, to name a few.
  • Their locations and diverse publication outlets may mask both the quality of their research and the scope of their contributions (e.g. Bronk 2012; Mazzone et al. 2018; Tsai, Seballos-Llena, and Castellano-Datta 2017; Wójcik 2018).
  • Also, qualitative psychologists often work in specialized areas on multidisciplinary teams (e.g. Khankeh et al. 2015).Footnote3 
  • Furthermore, it is not unusual for psychologists to hold multi-disciplinary expertise, although they may not be employed in psychology programs.Footnote4

1960년대와 마찬가지로 일반적으로 질적 연구도, 특히 근거 이론도 양적 연구에 기반한 질적 판단에 적합하지 않습니다. 우리는 가치 있는 주제, 풍부한 엄격성, 성실성, 신뢰성, 공명, 유의미한 기여, 윤리성, 의미 있는 일관성(837쪽)이라는 Tracy(2010)의 질적 연구의 '빅 텐트' 지표에 동의합니다. 그러나 연구 실무에서 이러한 용어가 의미하는 바는 연구자마다 다를 수 있습니다. 그럼에도 불구하고 근거 이론가들은 연구자들이 철저한 연구를 수행할 때 이러한 질적 지표를 충족할 수 있습니다. 점점 더 많은 연구자들이 질적 연구의 품질 기준으로 투명성과 반성성을 요구하고 있습니다(예: Treharne and Riggs 2014). 
As in the 1960s, neither qualitative research, in general, nor grounded theory, in particular, fit judgments of quality based on quantitative research. We agree with Tracy’s (2010) ‘big tent’ markers of quality in qualitative research: a worthy topic, rich rigor, sincerity, credibility, resonance, significant contribution, ethics, and meaningful coherence (p. 837). However, what these terms mean in research practice may differ among researchers. Nonetheless, grounded theorists can meet these markers of quality when researchers conduct thorough studies. Increasingly, researchers ask for transparency and reflexivity as criteria of quality in qualitative research (e.g. Treharne and Riggs 2014).

다양한 버전의 근거 이론의 품질 기준
Quality criteria in various versions of grounded theory

근거 이론은 그 고유한 특성으로 인해 품질을 평가하기 위한 자체 기준이 필요하지만(참조: Berthelsen, Grimshaw-Aagaard, Hansen 2018; Chiovitti와 Piran 2003; Elliott와 Lazenbatt 2005; Hutchison, Johnston, Breckon 2011), 근거 이론가는 인터뷰, 현장조사 등의 품질을 보장하기 위한 데이터 수집 방법 사용에 관한 보다 일반적인 지침에서 벗어날 수 없습니다. 특히 데이터와 근거에 중점을 둔다는 점에서 '쓰레기 투입, 쓰레기 배출'의 원칙은 근거 이론에 매우 유용하게 적용될 수 있습니다. 근거 이론의 품질을 평가하는 기준은 어떤 버전의 근거 이론이 문제가 되는지에 따라 달라질 수 있습니다. 가장 초창기이지만 덜 발전된 이론인 Glaser와 Strauss(1967)는 신뢰성적용 가능성에 중점을 두었습니다.

  • 이들은 신뢰성을 실제 현장을 면밀히 연구하고 분석하여 데이터에 대한 체계적인 지식을 습득한 연구자 자신의 지식에 대한 확신과 연결시켰습니다. 글레이저와 스트라우스는 신뢰성을 판단하는 몇 가지 기준을 제시했습니다.
    • (1) 독자가 현장에 있는 듯한 느낌을 받을 수 있도록 데이터에 대한 상세하고 생생한 설명,
    • (2) 연구자가 어떻게 결론에 도달했는지에 대한 독자의 평가(데이터는 무엇이며 어떻게 수집하고 분석했는가),
    • (3) 이론의 범위와 일반성을 높이고 새로운 이론을 다양한 상황에 맞게 수정하고 조정하기 위한 여러 비교 그룹.
  • 적용 가능성은 일반화 가능성과 연결될 수 있으며(참조, Larsson 2009), Glaser와 Strauss(1967)는 상호 관련된 네 가지 기준을 제안했습니다:
    • (1) 적합성: '이론은 그것이 적용될 실질적인 영역에 적합해야 한다'(238쪽)는 것으로, 이들은 이론이 연구 대상인 데이터에 적합해야 한다고 강조했습니다.
    • (2) 이해: 이론은 해당 실체적 영역에서 일하거나 생활하는 비연구자들도 이해할 수 있어야 합니다.
    • (3) 일반성: 이론은 적용 가능성을 높이기 위해 충분히 일반적이어야 합니다. '범주는 민감성을 잃을 정도로 추상적이어서는 안 되지만, ... 이론이 다조건적이고 끊임없이 변화하는 일상 상황에 대한 일반적인 지침이 될 수 있을 정도로 추상적이어야 합니다'(242페이지).
    • (4) 통제: 이론은 사용자가 사회적 현실을 이해하고 분석하는 데 도움을 주며, 상황에서 무슨 일이 일어나고 있는지, 어떻게 변화를 가져올 수 있는지에 대한 충분한 설명력을 포함해야 합니다.

Grounded theory needs its own set of criteria for evaluating quality due to its unique features (cf., Berthelsen, Grimshaw-Aagaard, and Hansen 2018; Chiovitti and Piran 2003; Elliott and Lazenbatt 2005; Hutchison, Johnston, and Breckon 2011), although grounded theorists cannot escape more general guidelines concerning their use of data gathering methods to ensure quality in doing interviews, fieldwork etc. The principle of ‘garbage in, garbage out’ is very much applicable to grounded theory, particularly considering its emphasis on data and groundedness. Criteria for evaluating quality in grounded theory can vary due to which version of grounded theory is of concern. In the original but less developed one, Glaser and Strauss (1967) focused on credibility and applicability.

  • They connected credibility to researchers’ confidence in their own knowledgeability based on carefully studying and analyzing the actual field, and gaining systematic knowledge of the data. Glaser and Strauss suggested a few criteria for judging credibility:
    • (1) a detailed and vivid description of data so the readers feel that they have been in the field as well, and literally can hear and see the participants;
    • (2) readers’ assessments of how the researchers came to their conclusions (what are the data and how have they been gathered and analyzed?); and
    • (3) multiple comparison groups to increase the scope and generality of the theory, and to correct and adjust the emerging theory to diverse conditions. 
  • Applicability, in turn, can be connected to generalizability (cf., Larsson 2009), and Glaser and Strauss (1967) proposed four interrelated criteria:
    • (1) Fitness: The ‘theory must fit the substantive area to which it will be applied’ (p. 238), and they emphasized that the theory needs to fit the data under study.
    • (2) Understanding: The theory should make sense and be understandable to non-researchers working or living in the substantive area.
    • (3) Generality: The theory needs to be sufficiently general to increase its applicability – ‘categories should not be so abstract as to lose their sensitizing aspect, but yet must be abstract enough to make … theory a general guide to multi-conditional, ever-changing daily situations’ (p. 242).
    • (4) Control: The theory should help the users to understand and analyze their social reality, to include enough explanatory power on what is going on in situations and how to bring about change in them.

근거이론을 더욱 발전시킨 Glaser(1978, 1998)는 품질을 판단하는 네 가지 기준을 제시했습니다:

  • (1) 실행가능성: 이론이 연구의 실질적인 영역에서 관련 행동을 설명하는 데 효과가 있는가?
  • (2) 관련성: 실제 분야의 사람들과 관련성이 있는가?
  • (3) 적합성: 이론이 실체적 영역에 적합한가? 이론과 그 범주가 데이터에 맞아야 합니다.
  • (4) 수정가능성: 새로운 데이터가 등장할 때 이론을 쉽게 수정할 수 있는가?

근거 이론을 개발할 때 Strauss와 Corbin(1990; Corbin과 Strauss 1990; Strauss와 Corbin 1998)은 네 가지 일반적인 기준을 강조했습니다:

  • (1) 데이터의 질, 즉 근거이론가는 데이터의 신뢰성과 신뢰성을 확보하기 위해 데이터 수집에 사용된 방법과 관련된 질적 기준을 신중하게 다루고 채택해야 하며,
  • (2) 이론 자체의 타당성과 가치,
  • (3) 연구 과정의 적절성(표본 추출 절차, 이론적 표본 추출, 코딩, 범주화, 가설 또는 범주 간 개념 관계 개발, 이론을 개발하는 핵심 범주 선정),
  • (4) 이론의 경험적 근거에 대한 문제 등이 있습니다.

이 두 가지 기준의 평가를 위한 체크리스트와 지침에 대한 포괄적인 설명은 Strauss와 Corbin(1990; Corbin과 Strauss 1990; Strauss와 Corbin 1998)에서 제공합니다.

In his further development of grounded Glaser (1978, 1998) suggested four criteria in judging quality:

  • (1) Workability: Does the theory work to explain relevant behavior in the substantive area of the study?
  • (2) Relevance: Does it have relevance to the people in the substantive field?
  • (3) Fit: Does the theory fit the substantive area? The theory and its categories must fit the data.
  • (4) Modifiability: Is the theory readily modifiable as new data emerge?

In their development of grounded theory, Strauss and Corbin (1990; Corbin and Strauss 1990; Strauss and Corbin 1998) emphasized four general criteria:

  • (1) quality of the data, in other words, grounded theorists need to carefully address and adopt quality criteria related to methods used for data gathering to secure credibility and trustworthiness of data;
  • (2) the plausibility and value of the theory itself;
  • (3) adequacy of the research process (sampling procedures, theoretical sampling, coding, categorization, development of hypotheses or conceptual relations between categories, and selection of core category through which the theory is developed); and
  • (4) the issue of the empirical grounding of the theory. A comprehensive description of checklists and guidelines for evaluation of the two later criteria is offered by Strauss and Corbin (1990; Corbin and Strauss 1990; Strauss and Corbin 1998).

스트라우스와 코빈에 따르면, 연구의 경험적 근거와 관련하여 질문해야 할 사항은 다음과 같습니다: 

  • (1) 개념이 생성되었는가?
  • (2) 개념이 체계적으로 관련되어 있는가?
  • (3) 개념적 연결이 많으며 범주가 잘 발달되어 있는가? 범주에 개념 밀도가 있는가?
  • (4) 이론에 변이가 내재되어 있는가? 개념이 광범위한 조건에서 검토되었으며 여러 차원을 제공하는가?
  • (5) 변이를 발견할 수 있는 조건이 연구에 내장되어 있고 설명되어 있는가?
  • (6) 프로세스를 고려하고 식별했는가?
  • (7) 이론적 발견이 중요해 보이는가, 그 정도는 어느 정도인가?
  • (8) 이론이 시간의 시험을 견뎌내고 관련 사회 및 전문가 그룹 간에 교환되는 토론과 아이디어의 일부가 되는가? (자세한 내용은 스트라우스와 코빈 1998, 270-272쪽 참조).

According to Strauss and Corbin, questions to ask regarding empirical grounding of the study are:

  • (1) Are concepts generated?
  • (2) Are the concepts systematically related?
  • (3) Are there many conceptual linkages, and are the categories well developed? Do categories have conceptual density?
  • (4) Is variation built into the theory? Have the concepts been examined under a broad range of conditions and do they offer several dimensions?
  • (5) Are the conditions under which variation can be found built into the study and explained?
  • (6) Has process been considered and identified?
  • (7) Do the theoretical findings seem significant, and to what extent?
  • (8) Does the theory stand the test of time and become part of the discussions and ideas exchanged among relevant social and professional groups? (For further reading, see Strauss and Corbin 1998, pp. 270–272.)

이후 판(Corbin과 Strauss 2008, 2015)에서 Corbin은 질적 연구의 질에 대한 보다 일반적인 기준을 추가하기도 했습니다.

  • 방법론적 일관성, 
  • 목적의 명확성, 
  • 자기 인식, 
  • 질적 연구 수행 방법에 대한 훈련, 
  • 참여자와 데이터에 대한 민감성, 
  • 열심히 일하려는 의지, 
  • 창의적 자아와 연결되는 능력, 
  • 방법론적 인식, 
  • 연구에 대한 강한 열망

In later editions (Corbin and Strauss 2008, 2015), Corbin also added more general criteria of quality in qualitative research:

  • methodological consistency,
  • clarity of the purpose,
  • self-awareness,
  • training in how to conduct qualitative research,
  • sensitivity to participants and data,
  • willingness to work hard,
  • ability to connect with the creative self,
  • methodological awareness, and
  • strong desire to do research.

원래의 근거 이론(Glaser와 스트라우스 1967), 글레이저 근거 이론(Glaser 1978, 1998), 스트라우시안 근거 이론(스트라우스와 코빈 1990, 1998)에서는 설명력(즉, 설명하고 예측하는 힘)이 구성된 이론의 중요한 품질 기준이라는 점에 유의하세요. 이러한 근거 이론의 접근 방식은 Charmaz(2006, 2014)가 말하는 이론의 실증주의적 정의(즉 원인을 찾고 설명력, 예측력, 일반성 및 보편성을 강조하는 것)을 공유합니다.
Note that in the original grounded theory (Glaser and Strauss 1967), Glaserian grounded theory (Glaser 1978, 1998) and Straussian grounded theory (Strauss and Corbin 1990, 1998), explanatory power (i.e., the power to explain and predict) is a significant quality criterion of the constructed theory. These approaches of grounded theory share what Charmaz (2006, 2014) terms as positivist definitions of theory: theories that seek causes, and stress explanation, prediction, generality, and universality.

근거 이론에 대한 구성주의적 관점에서 Charmaz(2006, 2014)는 이러한 이론 정의를 '해석을 강조하고 설명보다 추상적 이해를 더 우선시하는'(Charmaz 2014, 230) 이론의 해석적 정의와 대조합니다. 이러한 이론은 의미와 행위, 그리고 사람들이 그것을 구성하는 방식을 이해하는 것을 목표로 하며, '행위자의 주관성을 끌어들이고, 연구자의 주관성을 인정할 수 있다'(231쪽). 이들은 사회적, 역사적, 지역적, 상호 작용적 맥락에 위치situated합니다. 
From a constructivist view of grounded theory, Charmaz (2006, 2014) contrasts such definitions of theory with interpretive definitions of theory, in which theory ‘emphasizes interpretation and gives abstract understanding greater priority than explanation’ (Charmaz 2014, 230). Such theories aim to understand meanings and actions and how people construct them, and they ‘bring in the subjectivity of the actor and may recognize the subjectivity of the researcher’ (p. 231). They are situated in their social, historical, local, and interactional contexts.

따라서 [근거 이론의 서로 다른 버전] 간에 [서로 다른 인식론, 이상, 목표 등]이 [근거 이론의 품질을 평가하고 근거 이론의 품질 기준을 논의]할 때 고려되어야 합니다(글라제리안, 스트라우시안, 구성주의 근거 이론 접근법 간의 유사점과 차이점에 대한 개요는 Berthelsen, Grimshaw-Aagaard, Hansen 2018 참조); 인식론과 품질 기준 사이의 연관성에 대한 자세한 논의는 Healy 와 Perry 2000, Lincoln, Lynham, Guba 2018, Lützhöft, Nyce, Petersen 2010, Santiago-Deleofosse et al. 2015).
Thus, different epistemologies, ideals, aims etc. between different versions of grounded theory have to be considered when evaluating quality and discussing quality criteria for grounded theory (for overviews of similarities and differences between Glaserian, Straussian and constructivist grounded theory approaches, see Berthelsen, Grimshaw-Aagaard, and Hansen 2018; Thornberg 2017; for further discussions about the link between epistemology and quality criteria, see for example; Healy and Perry 2000; Lincoln, Lynham, and Guba 2018; Lützhöft, Nyce, and Petersen 2010; Santiago-Deleofosse et al. 2015).

구성주의적 근거 이론 내에서 Charmaz(2006, 2014)는 근거 이론 연구에 대한 네 가지 주요 기준, 즉 신뢰성, 독창성, 공명, 유용성을 제안합니다.

  • 신뢰성은 데이터에 대한 예리한 질문을 할 수 있는 충분한 관련 데이터를 확보하고, 연구 과정 전반에 걸쳐 체계적으로 비교하고, 철저한 분석을 개발하는 것에서 시작됩니다. 논란의 여지가 많은 주제 및/또는 분석일수록 연구자는 회의적인 청중을 설득하기 위해 더 많은 데이터가 필요합니다.

Within a constructivist grounded theory, Charmaz (2006, 2014) proposes four main criteria for grounded theory studies: credibility, originality, resonance, and usefulness. 

  • Credibility begins with having sufficient relevant data for asking incisive questions about the data, making systematic comparisons throughout the research process, and developing a thorough analysis. The more controversial the topic and/or analysis is, the more data the researcher needs to persuade skeptical audiences.

신뢰성에는 연구자의 견해와 행동도 포함됩니다. 구성주의적 근거 이론은 연구 과정 전반에 걸쳐 강력한 반성성을 요구합니다. 즉, 연구자는 당연하게 받아들여지는 가정을 설명해야 하며, 이를 위해서는 숨겨진 신념이 연구 과정에 어떻게 개입할 수 있는지에 대한 '방법론적 자의식'(Charmaz 2017)을 가져야 합니다. 브라질에서 현장 조사를 하던 중 엘리자베스 호지-프리먼(Elizabeth Hordge-Freeman)은 우연히 백인 가정에서 입양된 흑인 딸인 필하스 데 크리아시온의 곤경을 발견했습니다(Charmaz 2020, 168-169쪽). 호지-프리먼은 이렇게 썼습니다:
Credibility also involves the researcher’s views and actions. Constructivist grounded theory requires strong reflexivity throughout the research process. This means researchers must explicate their taken-for-granted assumptions, which requires gaining ‘methodological self-consciousness’ (Charmaz 2017) of how hidden beliefs can enter the research process. During her fieldwork in Brazil, Elizabeth Hordge-Freeman (in Charmaz 2020, pp. 168–169) accidentally discovered the plight of black adopted daughters, filhas de criação, in white families. Hordge-Freeman writes:

한 여성이 입양 가정에서 바닥에서 잠을 자고 있고 다른 여러 여성이 40년 넘게 입양 가정에서 무급으로 일하고 있다는 사실을 알게 되었을 때, 저는 이러한 불의에 대한 분노에 휩싸였습니다. 비판적 연구자로서 초기 충동은 이러한 '괴물 같은' 가족을 폭로하여 정의를 실현하고 싶다는 것이었지만, 데이터에 대한 해석을 면밀히 검토하고 지속적인 성찰을 강조하는 구성주의적 근거 이론의 감성은 아주 일찍부터 데이터를 더 미묘한 방식으로 분석하고 감정적 반응까지 조사하도록 저를 설득했습니다. 그렇게 하면서 저는 이 불의를 '바로잡고' 인터뷰 대상자들을 자유롭게 하려는 저의 탐구가 제가 백인 초국적 연구자들을 비판했던 구세주 콤플렉스와 매우 유사하게 들린다는 것을 깨달았습니다. 결국 저는 구성주의적 근거 이론을 사용하여 구조적, 정서적 제약이 신생아의 삶을 어떻게 형성하는지 더 잘 이해할 수 있는 데이터를 수집할 수 있도록 질문의 방향을 바꾸고, 인터뷰 대상자의 해석이 진지하게 받아들여질 수 있도록 반성적 태도를 사용하기로 결정했습니다. 
When I discovered that one woman was sleeping on the floor in their family’s home and several others had been working for no pay in adoptive families for over 40 years, I was overwhelmed with a sense of anger over this injustice. As a critical researcher, my initial impulse was a desire to mete out justice by exposing these ‘monstrous’ families; however, very early on the sensibilities of constructivist grounded theory with its emphasis on scrutinizing our interpretations of data and engaging in sustained reflexivity persuaded me to analyze the data in more nuanced ways and to even interrogate my affective responses. By doing so, I realized that my quest to ‘right’ this injustice and free the interviewees sounded eeringly similar to the savior complex for which I had critiqued white transnational researchers. Ultimately, using constructivist grounded theory, I re-directed my questions to be able to collect data that provided me a greater understanding of how structural and affective constraints shape
 filhas de criação lives and used reflexivity to ensure that my interviewees’ interpretations were taken seriously.

호지-프리먼의 진술은 구성주의 근거 이론에서 가장 옹호하는 강력한 반사성의 유형을 나타냅니다. 방법론적 자의식의 근간을 이루는 강한 반성성(Charmaz 2017)은 연구자의 방법론적 결정을 검토하는 것 이상의 의미를 갖습니다. 연구자가 누구인지 면밀히 검토하는 개방성을 의미합니다. 
Hordge-Freeman’s statement represents the type of strong reflexivity most advocated in constructivist grounded theory. The strong reflexivity undergirding methodological self-consciousness (Charmaz 2017) means more than examining the researcher's methodological decisions. It means openness to scrutinizing who the researcher is.

독창성다양한 형태로 나타날 수 있습니다. 

  • 새로운 통찰력 제공,
  • 인식된 문제에 대한 새로운 개념화,
  • 분석의 중요성 확립 등 

공명은 연구자가 연구 참여자의 경험을 대표할 뿐만 아니라, 다른 사람들에게도 통찰력을 제공하는 개념을 구성했음을 보여줍니다. 공감을 얻으려면 연구자는 데이터 수집 전략을 참가자의 경험을 조명하는 데 맞춰야 합니다.

  • 제니퍼 로이스(2010)는 홈스쿨링 엄마들에 대한 자신의 질문이 질이 아닌 시간의 양에 초점을 맞추고 있다는 사실을 깨닫고 새로운 관점에서 엄마들의 이야기를 듣고 질문을 수정함으로써 공감을 얻었습니다. 이후 '순서대로: 향수를 불러일으키고 후회를 예상하기'(434쪽)와 '음미하기: 현재에 머무르며 양질의 시간을 만들기'(437쪽)라는 코드를 통해 엄마들의 행동을 이해할 뿐만 아니라 시간적 감정의 개념을 구성할 수 있게 되었습니다. 그녀는 후회나 희망과 같은 현재의 특정 감정이 현재에서 과거 또는 미래로 시간대를 넘나들어야만 느낄 수 있다는 사실을 밝혀냈습니다. 로이즈는 사람들이 시간적 감정을 다루는 방식이 시간이 지남에 따라 자아의 상대적 연속성에 영향을 미친다는 이론을 세웁니다.

Originality can take varied forms such as

  • offering new insights,
  • providing a fresh conceptualization of a recognized problem, and
  • establishing the significance of the analysis. 

Resonance demonstrates that the researchers have constructed concepts that not only represent their research participants’ experience, but also provide insight to others. To gain resonance, researchers must fit their data-gathering strategies to illuminate their participants’ experience.

  • Once Jennifer Lois (2010) realized her questions of homeschooling mothers focused on quantity of time instead of quality, she gained resonance by hearing their stories from a new standpoint and revising her questions. Her subsequent codes: ‘Sequencing: eliciting nostalgia and anticipating regret,’ (p. 434) and ‘Savoring: staying present and creating quality time’ (p. 437) not only led her to understand these mothers’ actions but also to construct the concept of temporal emotions. She reveals how certain present feelings like regret or hope can only be felt by crossing timeframes from the present to the past or future. Lois theorizes that how people handle temporal emotions influences their relative continuity of self over time.

유용성은 아래와 같은 것 등입니다.

  • 연구 참여자의 일상 생활에 대한 이해를 명확히 하고,
  • 정책 및 실무 적용을 위한 기반을 형성하며,
  • 새로운 연구 라인을 만드는 데 기여하고,
  • 만연한 과정과 관행을 밝히는 데 기여하는 

그레고리 해들리(Gregory Hadley, Charmaz 2020, 168쪽)는 병원에서의 죽음과 임종에 대한 글레이저와 스트라우스의 분석의 유용성에 대해 설명합니다.

Usefulness includes

  • clarifying research participants’ understanding of their everyday lives,
  • forming a foundation for policy and practice applications,
  • contributing to creating new lines of research, as well as
  • revealing pervasive processes and practices.

Gregory Hadley (in Charmaz 2020, 168) describes the usefulness of Glaser and Strauss’s analysis of death and dying in hospitals.

예를 들어, 글레이저가 스트라우스와 함께 쓴 저서 "죽어감에 대한 인식"은 장인어른이 말기 암으로 투병 중이던 시기에 일본 병원에서 '무슨 일이 일어나고 있었는지'에 대한 많은 의미를 밝혀주었습니다. 이 근거 이론이 반세기 후 수천 마일 떨어진 문화권에서도 빛을 발할 수 있었다는 것은 글레이저와 스트라우스가 고전적 근거 이론을 사용한 천재성을 입증하는 증거입니다.
Glaser’s work with Strauss in his book, “An Awareness of Dying”, for example, unlocked much of the meaning of what was “going on” in a Japanese hospital during the time when my father-in-law was on the trajectory of terminal cancer. That this grounded theory could have salience a half century later in a culture thousands of miles away is a testament to the genius behind what Glaser and Strauss did using Classical Grounded Theory.

이 사례에서 글레이저와 스트라우스의 광범위한 연구는 그들이 어떻게 유용한 수준의 일반성을 달성했는지 보여줍니다. 구성주의적 근거 이론을 사용하여 스노우와 모스(2014)는 행동과 감정을 형성하는 조건을 포함하여 겉으로 보기에 자발적인 집단 행동이 발생하는 조건을 설명합니다. 이러한 조건에 대한 민감성은 사회 운동 주최자가 군중을 동원하는 데 도움이 될 수 있습니다. 
In this case, Glaser and Strauss’s extensive research shows how they achieved a useful level of generality. Using constructivist grounded theory, Snow and Moss (2014) delineate the conditions, including those shaping behavior and emotions, in which seemingly spontaneous collective action arises. Sensitivity to these conditions can assist social movement organizers in mobilizing crowds.

이중 희생: 근거 이론에 기반한 새로운 개념 개발의 사례
Double victimizing: an example of developing a new concept with grounded theory

구성주의적 근거 이론 연구인 Thornberg 외(2013)는 학교 괴롭힘의 피해자였던 개인이 괴롭힘 경험을 어떻게 인식하는지, 그리고 이러한 경험이 자신에게 어떤 영향을 미쳤는지 조사했습니다. 이 프로젝트는 스웨덴의 3개 중등학교와 2개 대학교에 재학 중인 학생들에게 523개의 개방형 설문지를 배포하는 것으로 시작되었습니다. 설문지에는 괴롭힘에 대한 과거 경험과 괴롭힘에 대한 인터뷰를 받을 의향이 있는지에 대해 질문했습니다. 511명의 응답자 중 168명의 학생이 과거에 괴롭힘을 당한 적이 있다고 답했으며 36명이 인터뷰에 응했습니다. 연구진은 1년 이상 괴롭힘을 당한 학생 21명을 대상으로 인터뷰를 진행했습니다. 모든 인터뷰를 진행한 할딘, 볼름스요, 피터슨은 질적 인터뷰에 대한 교육과 훈련을 받았습니다. 편안하고 사적이며 조용한 면담 환경 조성, 면담 대상자와의 친밀감 형성 및 강조, 관심 있는 학습자의 역할 수행, 적극적인 경청, 개방형 질문 사용 및 선행 질문 피하기, 프로빙, 비판적 접근법 채택 등 문헌에서 제시하는 질적 기준이 이들의 면담을 이끌었습니다(예: King & Horrocks, 2010; Kvale & Brinkmann, 2009; Seidman, 2006). 
In their constructivist grounded theory study, Thornberg et al. (2013) examined how individuals, who had been victims of school bullying, perceived their bullying experiences, and how these had affected them. The project began with distributing 523 open-ended questionnaires to students in three secondary schools and two universities in Sweden. The questionnaire asked about their past experiences with bullying and their willingness to be interviewed about it. Of 511 responses, 168 students reported having been bullied in the past and 36 volunteered to be interviewed. The researchers interviewed the 21 students who had been bullied for more than one year. Halldin, Bolmsjö and Petersson, who conducted all the interviews, were instructed and trained in qualitative interviewing. Quality criteria from the literature guided their interviewing, such as establishing a comfortable, private, and quiet interview setting building rapport and emphasizing with the interviewee; taking the role of an interested learner; active listening; using open-ended questions and avoiding leading questions; probing; and adopting a non-judgmental approach (e.g., King & Horrocks, 2010; Kvale & Brinkmann, 2009; Seidman, 2006).

구성주의 근거 이론(Charmaz 2014)에서 인터뷰는 현실을 반영하려는 노력이 아니라, 인터뷰 대상자의 경험과 관점에 대한 상호 탐색을 통해 발생하는 상호 작용으로 간주됩니다. 따라서 [인터뷰어의 접근 방식과 질문 방식, 인터뷰 대상자가 말하는 것을 경청하고 후속 조치를 취하는 것]은 데이터의 공동 구성과 품질에 매우 중요합니다. 질적 인터뷰 문헌에 기반한 이러한 접근 방식은 Thornberg 등(2013)이 생생하고 풍부하며 포괄적인 데이터를 수집하는 데 도움이 되었습니다. 이들은 근거 이론에 따라 데이터 수집과 분석(반복적 과정) 사이를 오갔습니다. 이 접근 방식에는 네 가지 장점이 있습니다.

  • (1) 피상적이고 무작위적인 방식으로 데이터를 수집하거나,
  • (2) 분석되지 않은 방대한 양의 데이터로 인해 압도감을 느끼거나,
  • (3) 오랜 기간 동안 집중하지 못하거나,
  • (4) 참가자의 견해나 주식 규율 범주를 무비판적으로 채택하는 것을 방지할 수 있었습니다. 

In constructivist grounded theory (Charmaz 2014), interviewing is not considered as efforts to mirror reality but as emergent interactions through a mutual exploration of the interviewee’s experiences and perspectives. Therefore, the interviewer’s approach and way of asking questions, listening and following up what the interviewee is telling are crucial in the co-construction and quality of data. Such an approach, based on the qualitative interview literature, helped Thornberg et al. (2013) to gather vivid, rich, and comprehensive data. In accordance with grounded theory, they moved back and forth between gathering and analyzing data (iterative process). This approach has four advantages. It prevented them from

  • (1) gathering data in a superficial and random way;
  • (2) feeling overwhelmed due to a huge amount of unanalyzed data;
  • (3) being unfocused for lengthy periods; and
  • (4) uncritically adopting the participants’ view or stock disciplinary categories.

Thornberg 등(2013)은 데이터와 데이터, 데이터와 코드, 코드와 코드를 비교하는 초기 코딩을 통해 데이터에 맞는 코드를 구성하고, 데이터에서 무슨 일이 일어나고 있다고 해석하는지에 대해 열린 자세를 유지하며 탐구하는 과정을 계속했습니다. 잠정적인 초기 코드는 서로, 그리고 데이터와 주의 깊게 비교하고 유사점과 차이점에 따라 더욱 정교하게 그룹화하여 더 적지만 더 집중적이고 포괄적인 코드로 이어졌습니다. 반복적인 과정과 코딩, 지속적인 비교를 통해 구축된 초점 코드는 데이터와 밀접하게 일치했습니다. 예를 들어, '자기 억제'라는 초점 코드는 '눈에 띄지 않으려고 노력함', '사회적 두려움으로 소극적이 됨', '자신을 낮춤', '사회적 투명성이 괴롭힘을 방지한다고 믿음', '자아의 사회적 존재감을 억제함', '침묵함'과 같은 초기 코드에 뿌리를 두고 있었습니다. 또 다른 초점 코드인 '자기 의심'은 표 1과 2에 표시된 것처럼 '불안해짐', '무가치함을 느끼기', '자신감 상실', '괴롭힘으로 인해 자신감이 떨어짐'과 같은 초기 코드에 뿌리를 두고 있습니다.

Thornberg et al. (2013) constructed codes that fit the data by engaging in initial coding, in which they compared data with data, data with codes, and codes with codes, and stayed close to and remained open to exploring what they interpreted was happening in the data. The provisional, initial codes were carefully compared with each other and with data, further elaborated and grouped together based on similarities and differences, leading to fewer but more focused and comprehensive codes. As a result of the iterative process, coding and constant comparison, their constructed focused codes fit tightly with their data. For example, the focused code ‘self-inhibiting’ had its roots in initial codes like ‘trying to not stand out’, ‘becoming passive out of social fear’, ‘keeping oneself down’, ‘believing social invisibility prevents bullying’, ‘inhibiting the social presence of self’, and ‘becoming silent’. Another focused code, ‘self-doubting’, had its roots in initial codes like ‘becoming insecure’, ‘feeling self-worthlessness’, ‘loss of self-confidence’, and ‘getting bad self-confidence from being bullied’, as indicated in Tables 1 and 2.

 

쏜버그와 동료들이 집중 코딩을 하는 동안 데이터 수집 및 분석에 대한 비교 접근법(2013)에는 이론적 샘플링이 반복적 프로세스의 중요한 부분으로 포함되었으며, 이는 이후 인터뷰를 안내하고 새로운 범주를 작성하는 데 도움이 되었습니다. Charmaz(2014)가 언급했듯이, 이들의 초점 코딩은 이후 분석을 위한 프레임의 기초를 제공했습니다. 그러나 이러한 초점 코드를 최종 프레임으로 사용하기보다는 Thornberg 등(2013)은 학교 괴롭힘의 피해자가 되고 그로부터 자신을 구출하는 과정에 대한 분석을 개발했습니다(Charmaz 2014, 141). 
Thornberg and colleagues’ comparative approach to data collection and analysis (2013) during their focused coding included theoretical sampling as a prominent part of the iterative process, which guided their later interviews and helped them to fill out emerging categories. As noted by Charmaz (2014), their focused codes provided the makings of a frame for the later analysis. ‘Rather than using these focused codes as the final frame, however, Thornberg et al. (2013) developed an analysis of processes involved in becoming a victim of school bullying and in extricating self from it’ (Charmaz 2014, 141).

집중 코딩, 이론적 코딩, 지속적인 비교, 메모 작성 및 이론적 샘플링의 근거 이론 방법을 통해 Thornberg 등(2013)은 '자기 억제', '자기 고립', '감정 끄기'와 같은 집중 코드를 통합하여 '자기 보호'라는 범주로 개발하여 이 범주를 구성하는 이전의 집중 코드를 다른 자기 보호 전략을 나타내는 하위 범주로 포함시켰습니다. 다른 초점 코드 그룹은 '어울리지 못한다는 느낌', '자책' 등 보다 포괄적인 다른 범주로 병합되었습니다. [풍부한 데이터의 공동 구성, 지속적인 비교, 집중 코딩, 이론적 코딩, 메모 작성 및 이론적 샘플링] 간의 상호 작용은 데이터에 고정된 일련의 개념적 범주를 개발하는 데 매우 중요했습니다.
Grounded theory methods of focused coding, theoretical coding, constant comparison, memo-writing and theoretical sampling guided Thornberg et al. (2013) to merge focused codes such as ‘self-inhibition’, ‘self-isolation’, and ‘turning off emotions’ into an even more comprehensive focused code developed into a category that they labeled ‘self-protecting’, in which the former focused codes that constituted this category were included as subcategories representing different self-protecting strategies. Other groups of focused codes were further merged into other more comprehensive categories such as ‘a sense of not fitting in’ and ‘self-blaming’. The interplay between co-constructing rich data, constant comparison, focused coding, theoretical coding, memo-writing and theoretical sampling was crucial in order to develop a set of conceptual categories anchored in the data.

이러한 반복적인 과정을 통해 Thornberg 등(2013)은 Glaser(1998)와 Corbin과 Strauss(2015)가 연구의 '핵심 개념'이라고 부르는 주요 범주, 즉 '이중 피해자화'를 구성할 수 있었습니다. 이 주요 범주는 외부적 피해자화(즉, 피해자를 향한 반복적인 유해 행위로 인해 또래 사이에서 피해자 역할을 확인하는 사회적 과정)와 내부적 피해자화(즉, 피해자가 자신을 보호하기 위한 전략을 개발하는 동시에 외부적 피해자화가 만들어낸 피해자 이미지를 통합하는 과정) 간의 상호 작용 및 순환 과정을 의미합니다. '이중 피해자화'는 핵심 개념(Corbin and Strauss 2015; Glaser 1998)과 마찬가지로 실제로 가장 중요하고 빈번한 코드였으며, 다른 많은 코드와 연관되어 있고 다른 범주보다 더 많은 데이터를 차지했습니다. 
This iterative process helped Thornberg et al. (2013) to construct a major category – what Glaser (1998) and Corbin and Strauss (2015) would refer to as the ‘core concept’ of the study – namely ‘double victimizing’. This major category refers to an interplay and cycling process between external victimizing (i.e., a social process of repeated harmful acts directed at the victims that confirmed their victim role among the peers) and internal victimizing (i.e., victims incorporated the victim-image produced by external victimizing at the same time as they tried to develop strategies in order to protect themselves). Like the term core concept (Corbin and Strauss 2015; Glaser 1998), ‘double victimizing’ was indeed the most significant and frequent code, and was related to as many other codes as possible and accounted for more data than other categories.

결국 다른 범주는 이중 피해의 일부이거나 다른 방식으로 이중 피해와 관련되어 있다는 이중 피해에 대한 근거 이론이 구축되었습니다. 예를 들어, 외적 피해자화는 다른 사람으로 분류되어 낙인찍히고 사회적으로 배제되는 사회적 과정으로 구성되는 반면, 내적 피해자화는 어울리지 못한다는 느낌, 타인 불신, 자기 보호, 자기 의심, 자책, 체념 등을 포함합니다. 초기 공격은 이중 피해자화보다 먼저 발생했으며, 이중 피해자화가 괴롭힘에서 벗어나면 괴롭힘의 후유증으로 내부 피해자화가 남는 것으로 나타났습니다. 본 연구에서는 이론적 완성도를 갖춘 근거 이론을 구축했다는 측면에서 이론적 포화 상태에 도달하기 위해 이론적 샘플링이 필요했습니다(Charmaz 2014; Glaser, 2001). 
A grounded theory of this double victimizing was finally constructed in which the other categories were parts of the double victimizing or in other ways related to it. For instance, whereas external victimizing consists of the social processes of stigmatizing by being labelled as different and social excluding, internal victimizing includes a sense of not fitting in, distrusting others, self-protecting, self-doubting, self-blaming, and resignation. Initial attacks antedated double victimizing, and when double victimizing ended in terms of bullying exit, after-effects of bullying included a lingering internal victimizing. In this study, theoretical sampling was necessary to reach theoretical saturation in terms of having constructed a grounded theory with theoretical completeness (Charmaz 2014; Glaser, 2001).

신중하게 수행된 인터뷰와 근거이론 방법의 체계적인 사용은 학교폭력 이중피해에 대한 최종 근거이론이 이론과 그 개념이 데이터와 명확하게 일치하고(Glaser 1998), 신뢰성(Charmaz 2014; Strauss and Corbin 1998)과 신뢰성을 입증함으로써 경험적 근거에 도달(Strauss and Corbin 1998)할 수 있게 했습니다. 또한 이론의 경험적 근거는 다음과 같이 이어졌습니다:

  • (a) 개발된 중간 범위 이론인 작업성(Glaser 1998): 괴롭힘 피해와 정신 건강 문제 사이의 연관성을 설명하는 데 기여하는 문헌(예, Klomek, Sourander, and Elonheimo 2015),
  • (b) 추상적 이해(Charmaz, 2017): 의미와 행동, 피해자가 이를 구성하는 방식에 대한 이해를 높이는 데 기여,
  • (c) 관련성(Glaser 1998)과 공명(Charmaz 2014): 연구 참여자와 다른 학교폭력 피해자가 이중 피해자화 근거 이론에 포함된 대부분의 또는 모든 과정을 인식할 수 있었기 때문에 

The carefully conducted interviews and the systematic use of grounded theory methods made sure that the final grounded theory of double victimizing in school bullying reached empirical grounding (Strauss and Corbin 1998) as the theory and its concepts clearly fitted with the data (Glaser 1998), and demonstrated credibility (Charmaz 2014; Strauss and Corbin 1998) and trustworthiness (Strauss and Corbin 1998). In addition, the empirical grounding of the theory led to:

  • (a) workability (Glaser 1998) as the developed middle-range theory contributes to explain the link between bullying victimization and mental health problems in the literature (e.g., Klomek, Sourander, and Elonheimo 2015) from the voice and perspectives of the participants;
  • (b) abstract understanding (Charmaz, 2017) as it contributes to increase our understanding of meanings and actions and how victims construct them; and
  • (c) relevance (Glaser 1998) and resonance (Charmaz 2014) as participants in the study and other victims of school bullying could recognize most or all processes included in the grounded theory of double victimizing.

개방적이고 탐구적인 접근 방식으로 인해 개발된 근거이론은 새로운 통찰력을 제공하고 피해자의 경험과 학교폭력 이후의 경로에 대한 새로운 개념화를 증명함으로써 문헌에 기여하는 독창성을 보여주었습니다(Charmaz 2014). 경험적 근거, 적합성, 신뢰성, 관련성, 실행 가능성, 공명도 등을 종합적으로 평가한 결과, Thornberg 등(2013)의 이중피해이론은 새로운 연구 계통 창출에 기여하고, 학교폭력 피해자 경험을 명확히 하며, 학교폭력이 끝난 후에도 내적 피해는 몇 년 동안 지속된다는 것을 밝혀내 학교폭력 예방에 시사하는 바가 있어 유용성이 인정되었다(Charmaz 2014). 지식과 앎에 대한 실용주의적 관점에 따라 구성주의적 근거 이론 접근법(Charmaz 2006, 2014; Thornberg 2012)의 근간이 되는 Thornberg 등(2013)의 이중 피해에 대한 근거 이론은 위치, 오류, 잠정적인 것으로 간주되며 따라서 수정가능성을 수용합니다(Glaser 1998). 새로운 데이터는 이론을 더욱 수정하고 정교화할 수 있습니다. 
Due to the open and exploratory approach, the developed grounded theory showed originality (Charmaz 2014) as it contributes to the literature by offering new insights and proving a fresh conceptualization of victims’ experiences and path through school bullying and beyond. As a result of empirical grounding, fit, credibility, relevance, workability and resonance, Thornberg et al. (2013) grounded theory of double victimizing also demonstrated usefulness (Charmaz 2014) as it contributes to creating new lines of research, clarifies bullying victim experiences, and reveals that an inner victimizing seems to continue several years after bullying has ended, which has anti-bullying implications. In accordance with the pragmatistic view of knowledge and knowing, underlying the constructivist grounded theory approach (Charmaz 2006, 2014; Thornberg 2012), Thornberg et al. (2013) grounded theory of double victimizing is considered to be situated, fallible and provisional, and therefore embraces modifiability (Glaser 1998). New data may revise and elaborate the theory further.

구성주의 근거 이론의 품질: 체크리스트 및 가이드라인
Quality in constructivist grounded theory: checklists and guidelines

마지막으로 구성주의 근거 이론의 대학원생과 초심자가 작업을 수행하는 동안 체크리스트로 사용할 수 있는 가이드라인을 제시합니다. 이 목록은 엄밀한 연구를 대신하는 것이 아니라 리소스로 활용하시기 바랍니다. Barbour(2001)가 지적했듯이, 체크리스트를 사용하면 방법에 대한 깊은 몰입을 피하는 방법론적 버팀목이 될 위험이 있습니다. 우리는 연구자가 자신의 방법과 데이터에 깊이 관여할 것을 강력히 지지합니다.
We conclude by offering guidelines that graduate and postgraduate students and beginners in constructivist grounded theory can use as a checklist while conducting their work. Use the list as a resource, not as a substitute for rigorous research. As Barbour (2001) observes, using checklists risks becoming a methodological crutch that avoids deep engagement with the method. We strongly advocate that researchers gain a deep engagement with their method and data.

다양한 버전의 근거 이론 간의 유사점과 차이점을 구분할 수 있지만, 일반적인 가이드라인을 제공합니다. 동시에, 사용하기로 선택한 특정 버전의 근거 이론의 방법론적 담론에서 강조하는 엄격성, 신뢰성 및 품질 문제에 대해 자세히 알아볼 것을 권장합니다. 따라서 이러한 사항을 일반적으로 질적 연구를 수행하거나 특히 근거 이론 연구를 구성할 때 고려할 수 있는 유연한 지침으로 삼으시기 바랍니다.
Although we can discern similarities and differences between various versions of grounded theory, we offer a general set of guidelines. At the same time, we recommend you learn more about issues of rigor, credibility and quality emphasized in the methodological discourse of the specific version of grounded theory that you choose to use. So just take these points as flexible guidelines to consider when conducting qualitative inquiry in general or constructing a grounded theory study in particular.

  1. 방법론적 자의식을 갖기 위해 노력하세요(Charmaz 2017)
    1. 특정 주제, 방법론 및 방법을 선택한 이유는 무엇이며, 이것이 연구자의 정체성, 연구 목표 및 질문과 어떻게 부합하는가? 
    2. 어떤 버전의 근거 이론을 채택했으며 그 이유는 무엇인가요? 
    3. 존재론적 및 인식론적 가정은 무엇이며, 이러한 가정이 연구 과정, 연구자의 위치, 연구 결과 및 전이 가능성을 포함한 품질 문제에 어떤 의미가 있나요?
  1. Strive to achieve methodological self-consciousness (Charmaz 2017).
    1. Why have you chosen the specific topic, methodology and methods, and how do these fit with who you are and your research objectives and questions?
    2. What version of grounded theory have you adopted and why?
    3. What are the ontological and epistemological assumptions, and what do these mean for the research process, researcher position, findings, and quality issues, including transferability?
  2. 내러티브 탐구, 담화 분석, 근거 이론 등 어떤 질적 탐구 유형을 채택하든 가능한 한 모든 것을 알아보세요. 가능하다면 접근 방식에 대해 잘 알고 있는 멘토와 함께 작업하세요.
    Learn everything you can about the type of qualitative inquiry you adopt, whether it’s narrative inquiry, discourse analysis, or a version of grounded theory. If possible, work with a mentor who is knowledgeable about your approach.
  3. 해당 분야의 기존 문헌에 대해 개방적이고 비판적이며 분석적인 관점을 취하세요. 글레이저주의 근거 이론과는 달리, 스트라우시안 및 구성주의 근거 이론에 부합하는 문헌을 검토하여 연구에 대한 방어 가능한 근거를 확립하고, 바퀴를 재발명하지 않으며, 이론적 민감성을 높이는 것이 좋습니다. 문헌을 진리가 아닌 잠정적이고 오류가 있을 수 있는 것으로 취급하세요(자세한 내용은 Thornberg 2012, Thornberg and Dunne 2019 참조).
    Take an open, non-committal, critical, analytic view of the existing literature in the field. In contrast to Glaserian grounded theory but in line with Straussian and constructivist grounded theory, we recommend that you review the literature to establish a defensible rationale for the study, to avoid re-inventing the wheel, and to increase theoretical sensitivity. Treat the literature as provisional and fallible, not as the Truth (for further reading, see Thornberg 2012; Thornberg and Dunne 2019).
  4. 풍부한 데이터를 수집하세요. 심리학자에게 풍부한 데이터란 일반적으로 특정 경험을 했거나 현재 경험하고 있는 사람들의 이야기를 학습하고 수집하는 것을 의미합니다. 풍부한 데이터는 경험적 세계에 대한 개방성과 나와는 다른 사람들의 경험을 이해하려는 의지가 있음을 의미합니다.
    Gather rich data. For psychologists, rich data usually means learning and collecting the stories of people who have had or are having a specific experience. Rich data means an openness to the empirical world and a willingness to try to understand the experiences of people who may be far different from you.
  5. 투명성을 유지하세요. 연구를 수행한 방법, 샘플을 확보한 방법, 참여자를 포함시킨 방법과 이유, 근거 있는 이론과 데이터 수집 방법을 사용한 방법을 설명하세요. 선택의 정당성을 포함하세요.
    Be transparent. Describe how you conducted your study, obtained your sample and state how and why you have included the participants, and how you have used grounded theory and data collection methods. Include justifications of your choices.
  6. 데이터와 개발 중인 분석 사이를 오가며 후속 데이터 수집에 집중하고 새로운 분석 범주를 채우세요.
    Go back and forth between data and your developing analysis to focus your subsequent data collection and to fill out your emerging analytic categories.
  7. 경험적 세계에 친숙해지고 이를 이해하기 위한 분석적 핸들을 만들기 위해 고군분투하는 동안 모호함을 용인하세요.
    Tolerate ambiguity while you struggle to gain intimate familiarity with the empirical world and to create an analytic handle to understand it.
  8. 진행하면서 새로운 분석을 개발하는 데 도움이 되는 데이터에 대해 점진적으로 집중적인 질문을 하세요.
    As you proceed, ask progressively focused questions about the data that help you develop your emerging analysis.
  9. 데이터와 데이터에 대한 아이디어를 가지고 놀아보세요. 데이터에 대한 가능한 모든 이론적 설명을 찾아서 확인합니다.
    Play with your data and your ideas about it. Look for all possible theoretical explanations of the data and check them.
  10. (1) 유용한 비교를 하고, (2) 강력한 분석 범주를 만들고, (3) 독자들에게 범주의 중요성을 설득할 수 있도록 충분한 데이터를 수집하세요.
    Collect sufficient data to (a) make useful comparisons, (b) create robust analytic categories, and (c) convince readers of the significance of your categories.
  11. 카테고리에 대해 질문하세요: 카테고리의 속성은 무엇인가? 어떤 방식으로 하위 카테고리를 포함하나요? 주요 카테고리는 어떻게 연결되어 있나요? 어떻게 이론적 진술을 하는가? 이 진술의 의미는 무엇인가요?
    Ask questions about your categories: What are their properties? In which ways do they subsume minor categories? How are your main categories connected? How do they make a theoretical statement? What is the significance of this statement?
  12. 코드, 범주 및 이론적 개요는 항상 잠정적인 것으로 취급하고 새로운 데이터와 추가 분석에 비추어 수정하거나 거부할 수 있도록 열어 두세요.
    Always treat your codes, categories and theoretical outlines as provisional and open for revision and even rejection in the light of new data and further analysis.
  13. 분석을 완료한 후에는 이전 검토에서 다루지 않은 사례 연구 및 관점을 포함할 수 있는 문헌의 관련 자료와 비교하세요. 이때 검토는 자신이 개발한 아이디어에 중점을 두어야 합니다. 이 검토를 통해 여러분의 분석이 해당 분야의 선도적인 아이디어와 어떻게 부합하는지, 확장되는지, 또는 어떻게 도전하는지 보여줄 수 있는 기회를 얻을 수 있습니다.After you have completed your analysis, compare it with relevant material from the literature, which may well include case studies and perspectives that you did not address during your earlier review. At this time, your review will be focused on the ideas that you have developed. This review gives you the opportunity to show how your analysis fits, extends, or challenges leading ideas in your field.

ABSTRACT

This article introduces grounded theory and places this method in its historical context when 1960s quantitative researchers wielded harsh criticisms of qualitative research. The originators of grounded theory, sociologists Glaser and Strauss, sought to defend the quality of qualitative research and argued that grounded theory increased its quality by providing a method of theory construction. Our major foci include: (1) introducing the logic of grounded theory, with emphasis on how researchers can use it to construct theory, (2) detailing criteria for quality in the major forms of grounded theory advocated by Glaser and Strauss and augmented by Glaser, Strauss and Corbin and refined by Corbin, and Charmaz and (3) providing an analysis of how constructivist grounded theorists Thornberg, Halldin, Bolmsjö and Petersson attended to the interviewing process, coding, and developing their theoretical concept of double victimizing. Students and researchers new to the method can use our concluding guidelines as a checklist to assess the quality of their constructivist grounded theory research.

주제분석(TA)를 사용할 수 있나요? 그래야 하나요? 그러지 말아야 하나요? 성찰적 주제분석과 다른 패턴-기반 질적분석 접근(Couns Psychother Res. 2021)
Can I use TA? Should I use TA? Should I not use TA? Comparing reflexive thematic analysis and other pattern-based qualitative analytic approaches
Virginia Braun1 | Victoria Clarke2

 

1 서론
1 INTRODUCTION

완벽한 질적 분석 접근법이 기다리고 있으며, 그것만 찾아낼 수 있다면 훌륭한 질적 연구를 할 수 있을 것이라고 상상하고 싶은 유혹이 있습니다. 우리는 이러한 사고를 '신성한 방법' 퀘스트라고 부릅니다. 이러한 사고에는 특정 연구 프로젝트에 이상적으로 적합한 분석 접근법이 하나 있으며, 상담 및 심리치료 및 기타 분야에서 연구자의 임무는 그 접근법을 찾아서 사용하거나, 다른 접근법을 사용하는 경우 왜 이상적인 방법을 사용하지 않았는지 정당화해야 한다는 것입니다. 상담 및 심리치료 학생들이 주제 분석(TA)을 사용해도 되는지에 대한 질문에서 이러한 사고가 분명하게 드러나는데, 이는 다른 접근법, 일반적으로 이론, 분석 방법 및 연구 설계의 (요소) 패키지를 미리 제공하는 레디메이드 또는 '기성' 방법론(Chamberlain, 2012)을 사용해야 한다는 말을 들었을 때 발생합니다. 이러한 기성 방법론의 예로는 다음이 있습니다. 

  • 근거 이론(GT; Birks & Mills, 2015 참조),
  • 해석적 현상학적 분석(IPA; Smith et al., 2009 참조),
  • 담화 분석(DA; Willig, 2013 참조) 등

It is tempting to imagine that there is a perfect qualitative analytic approach waiting, and if you can only identify it, you will do excellent qualitative research. We refer to such thinking as a ‘hallowed method’ quest. Within such thinking, there is one analytic approach ideally suited to a particular research project, and the mission of the researcher in counselling and psychotherapy, and other fields, is to identify and use that approach or, if using another approach, justify why they did not use the ideal method. We see such thinking as evident in queries we get about whether it is ‘okay’ to use thematic analysis (TA), when counselling and psychotherapy students have been told they should instead use another approach, usually a ready-made or ‘off-the-shelf’ methodology (Chamberlain, 2012), which provides a pre-prepared package of theory, analytic method and (elements of) research design. Examples of such off-the-shelf methodologies include

  • grounded theory (GT; see Birks & Mills, 2015),
  • interpretative phenomenological analysis (IPA; see Smith et al., 2009) and
  • discourse analysis (DA; see Willig, 2013).

이러한 방법론methodologies(이론에 근거한 연구 프레임워크)은 종종 TA와 같은 방법methods(이론적으로 독립적인 도구 및 기법, 프레이밍 이론은 별도로 결정됨)보다 우월한 것으로 인식됩니다. 이는 TA가 무이론적이기 때문에 분석력과 정교함이 부족하다는 잘못된 믿음에 근거한 것으로 보입니다(Braun & Clarke, 2020).

  • [방법론]이 본질적으로 [방법]보다 더 나은 것은 아닐 뿐만 아니라(Chamberlain, 2012 참조), 서로 다른 분석 방법과 방법론이 제공할 수 있는 내용에는 종종 상당한 중복이 있습니다.
  • 우리는 이전에 각 분석이 수행되는 방식에 따라 GT, IPA, 심지어 포스트구조주의 DA1과 (반사적) TA와 같은 패턴 기반/사례 간(Yeh & Inman, 2007) 방법론의 '결과물'이 매우 유사할 가능성이 있다고 주장한 바 있습니다(Braun & Clarke, 2013).

즉, 분석 접근법을 고려하고 결정하는 것은 과일을 먹을지, 케이크 한 조각을 먹을지, 햄버거를 먹을지 결정하는 것이 아니라, 어떤 종류의 과일(사과, 오렌지, 바나나?)을 먹을지 결정하는 것과 비슷합니다.  
Such methodologies (theoretically informed frameworks for research) are often perceived as superior to methods (theoretically independent tools and techniques; framing theory is determined seperately) such as TA. This seems to be based on the mistaken belief that TA is atheoretical and thus lacks analytic power and sophistication (Braun & Clarke, 2020).

  • Not only are methodologies not inherently better than methods (see Chamberlain, 2012), but there is also often considerable overlap in what different analytic methods and methodologies can deliver.
  • We have previously argued that there is potential for great similarity in ‘output’ from pattern-based/across-case (Yeh & Inman, 2007) methodologies like GT, IPA and even poststructuralist DA1, and (reflexive) TA, depending on how each analysis is conducted (Braun & Clarke, 2013).

This means in considering and deciding on an analytic approach it is more like deciding between which type of fruit you will choose to eat (apple, orange or banana?), than deciding whether to have fruit, a slice of cake, or a burger.

저희는 연구 프로젝트에 이상적인 방법 또는 방법론이 하나만 있는 경우는 거의 없다고 생각합니다. 특정 유형의 질적 연구와 관련하여 가장 잘 알려진 접근법이라고 해서 반드시 기성 방법론을 사용해야 할 필요는 없습니다. 연구자는 때로는 개념적, 때로는 실용적, 때로는 자신이나 연구 감독자, 멘토 또는 협력자에게 친숙하고 편안한 접근 방식이기 때문에 등 다양한 이유로 분석 접근 방식을 선택합니다. 패턴화된/사례 간 의미를 탐색하는 데 관심이 있는 경우처럼 분석을 한 가지 방법으로만 다룰 수 있는 경우가 아니라면, 거의 항상 다양한 옵션이 있습니다연구자들은 '신성한 방법'을 찾아 헤맬 필요가 없습니다. 중요한 것은 사용된 방법이 프로젝트의 목적에 '적합'하고, 이론적 가정, 연구 질문 및 방법이 일치하며, 전반적인 연구 설계가 일관성이 있어야 한다는 것입니다(Willig, 2013). 이는 설계 일관성 또는 '적합성'이라는 질적 연구 설계의 일반적인 원칙을 반영한 것입니다(Braun & Clarke, 2013). Levitt 등(2017)은 유사한 개념인 '방법론적 무결성'을 제안했습니다: 
We take the view that there is rarely one ideal method—or methodology—for a research project. There is no requirement to use an off-the-shelf methodology just because it is the most well-known approach associated with a particular type of qualitative research. Researchers select analytic approaches for all sorts of reasons, sometimes conceptual, sometimes pragmatic and sometimes because an approach is familiar and comfortable—to themselves or to their research supervisor, mentor or collaborator. Unless the analysis can only be tackled in one way—which is not the case for those interested in exploring patterned/across-case meaning—there is nearly always a range of options. Researchers do not need to go on a ‘hallowed method’ quest. What is important, is that the method used ‘fits’ the project's purpose, that theoretical assumptions, research question and methods are in alignment, and that the overall research design is coherent (Willig, 2013). This reflects a general principle for qualitative research design of design coherence or ‘fit’ (Braun & Clarke, 2013). Levitt et al. (2017) proposed a similar concept of ‘methodological integrity’ to capture when:

연구 설계와 절차(예: 자동 민족지, 담론 분석)가 
 연구 목표(예: 연구 문제/질문)를 지원하고, 
 연구자의 탐구 접근 방식(예: 세계관, 패러다임 또는 철학적/인식론적 가정으로 설명되기도 하는 연구 전통)을 존중하며, 
 주제와 연구자의 근본적인 특성에 맞게 조정된 경우(9-10페이지)를 포착할 수 있습니다.

research designs
 and procedures (e.g. autoethnography, discursive analysis)
 support the research goals (i.e. the research problems/questions);
 respect the researcher's approaches to inquiry (i.e. research traditions sometimes described as world views, paradigms or philosophical/epistemological assumptions);
 and are tailored for fundamental characteristics of the subject matter and the investigators (pp. 9–10).

반사적 주제 분석 또는 다른 패턴 기반 방법/논리를 언제, 왜 사용해야 하나요?
When and why to use reflexive thematic analysis or another pattern-based method/ology?

질적 분석 기법에서 성찰적 주제 분석이 어디에 위치하는지 이해하는 것은 분석 접근 방식에 대해 알고 반사적으로 선택하고, 그러한 선택이 무엇을 축소하고 가능하게 하는지 이해하는 데 유용합니다. 이 백서에서는 재귀적 TA와 다른 패턴 기반 접근법을 비교하여 유사점과 차이점을 강조합니다. 이 백서는 상담 및 심리치료 연구자들이 다른 방법/이론 대신 성찰적 TA를 선택한 이유를 정당화하거나 설명하는 데 유용한 자료를 제공할 것이며, 실제로 성찰적 TA 대신 다른 방법/이론을 선택한 경우도 있습니다. 각 접근법이 제공하는 이점을 최종적으로 검토하면서, 상담 및 심리치료 연구자들이 성찰적 TA를 사용하는 대신 이러한 접근법을 사용할 수 있는 시기를 고려했습니다. 성찰적 TA가 항상 출발점이 되어야 한다고 생각하기 때문이 아니라, 대조에 대한 앵커 포인트를 제공하기 때문입니다. 
Understanding where reflexive TA sits in the landscape of qualitative analytic techniques is useful for making knowing and reflexive choices about analytic approaches, and appreciating what those choices curtail and enable. In this paper, we compare reflexive TA with other patterned-based approaches, to highlight similarities and differences. This paper will provide a useful resource for counselling and psychotherapy researchers for justifying or explaining why reflexive TA was chosen over another method/ology, or, indeed, another method/ology over reflexive TA. In our final weighing up of what each approach offers, we consider when counselling and psychotherapy researchers might want to use these instead of using reflexive TA. Not because we think reflexive TA should always be the starting point, but because it gives an anchor point for the contrast.

비교의 초점은 질적 데이터 세트를 구성하는 데이터 항목 또는 사례 전반의 의미 패턴 분석에 중점을 둔 다른 질적 분석 접근 방식에 있습니다. 대화 분석(예: Madill 외, 2001) 및 담화 심리학(예: Wiggins, 2016)과 같이 말의 세분화된 또는 상호 작용적인 작업을 조사하는 방법들은 상당히 다른 초점을 가지고 있습니다. 내러티브 분석과 같이 전기, 이야기 또는 삶의 스토리에 초점을 맞추는 방법도 마찬가지입니다(예: Reissman, 2008). 여기서 고려하는 접근 방식은 질적 내용분석(QCA), IPA, GT 및 (패턴 기반) DA입니다. 이 중 (반사적) TA와 마찬가지로 QCA, IPA, GT는 상담 및 심리치료 연구에서 널리 사용됩니다. DA는 덜 널리 사용되지만 중요한 질적 연구 전통을 잘 보여줍니다. 
Our focus of comparison is on other qualitative analytic approaches centred on the analysis of patterns of meaning across the data items or cases that constitute a qualitative data set. Methods that examine the fine-grained or interactional work of speech—such as conversation analysis (e.g. Madill et al., 2001) and discursive psychology (e.g. Wiggins, 2016)—have a quite different focus. As do methods that focus on biography, stories or the storied nature of life such as narrative analysis (e.g. Reissman, 2008). The approaches we consider here are qualitative content analysis (QCA), IPA, GT and (pattern-based) DA. Three of these—QCA, IPA and GT, like (reflexive) TA—are widely used in counselling and psychotherapy research. DA is less widely used but importantly exemplifies the critical qualitative research tradition.

  • 성찰적 TA와 QCA와 같은 접근법은 주로 이론적 또는 이론적으로 유연한 도구와 기법을 제공하는 방법입니다. 이러한 방법들은 특정 연구에 적용될 때 이론적 가정이 주입됩니다. 일반적으로 QCA의 경우처럼 방법론 작성자가 명시적으로 요구하지 않더라도 품질 관행을 위해서는 이론을 명시적으로 제시할 필요가 있습니다.
  • IPA, GT, DA와 같은 접근법은 연구를 위한 이론적 근거가 있고 구분된 프레임워크로서 방법론으로 생각하는 것이 가장 좋습니다. 이러한 접근법은 단순한 기법이 아니므로 방법론적 기반에서 분리하는 것은 거의 의미가 없으며, 그렇게 하면 분석 실무와 결과물이 제대로 나오지 않는 경우가 많습니다. 

 

  • Approaches like reflexive TA and QCA are primarily methods, offering tools and techniques that are either atheoretical or theoretically flexible. They become infused with theoretical assumptions when enacted in a particular study. Theory needs to be made explicit, for quality practice, even if this is not mandated by methodological authors, as is typically the case with QCA.
  • Approaches like IPA, GT and DA are best thought of as methodologies, as theoretically informed and delimited frameworks for research. They are not just techniques, so detaching them from their methodological anchors rarely makes sense, and doing so often results in poor analytic practice and outputs.

우리는 성찰적 TA와 대조적으로 이러한 다른 접근법이 제공하는 것과 연구자가 특정 방법론적 선택을 할 때 헌신해야 할 것과 제약을 받아야 할 것을 강조합니다. 그러나 먼저 성찰적 TA에 대한 접근 방식의 특징과 그것이 속한 TA 방법군에 대해 논의함으로써 이러한 비교를 맥락화합니다. 
We highlight what these different approaches offer, in contrast to reflexive TA, and what researchers need to commit to, and be constrained by, in making a particular methodological choice. But first we contextualise these comparisons by discussing the characteristics of our approach to reflexive TA and the family of TA methods to which it belongs.

반사적 주제 분석과 주제 분석 방법군
Reflexive thematic analysis and the thematic analysis family of methods

TA는 상담 및 심리치료 연구와 그 밖의 다른 분야에서 한 가지 절차로 이루어진 단일 방법으로 오해되는 경우가 많습니다(Clarke & Braun, 2018). 그러나 TA는 몇 가지 공통점이 있지만 근본적인 연구 가치, 핵심 구성 요소의 개념화 및 분석 절차에서 상당한 차이가 있는 방법의 계열로 간주하는 것이 가장 좋습니다(Fugard & Potts, 2020). TA 접근법은 일반적으로

  • 코딩에 대한 귀납적(데이터 중심) 및 연역적(이론 중심) 방향의 가능성을 인정하며,
  • 의미론적(명시적 또는 명시적) 및 잠재적(암묵적, 잠재적, 반드시 무의식적일 필요는 없음) 의미를 잡아내고,
  • 코딩과 주제 개발 과정을 인정하며,
  • 연구를 구성하는 이론에 대한 유연성의 잠재력을 인정한다.

TA is frequently misunderstood in counselling and psychotherapy research, and elsewhere, as a singular method with one set of procedures (Clarke & Braun, 2018). However, it is best thought of as family of methods (Fugard & Potts, 2020), with some characteristics in common but also significant divergences in underlying research values, the conceptualisation of core constructs and analytic procedures. TA approaches typically acknowledge

  • the potential for inductive (data-driven) and deductive (theory-driven) orientations to coding,
  • capturing semantic (explicit or overt) and latent (implicit, underlying; not necessarily unconscious) meanings,
  • processes of coding and theme development, and
  • the potential for some flexibility around the theory that frames the research. 

우리는 TA 방법을 크게 세 가지 유형으로 분류했습니다(Braun et al., 2019): 
We have categorised TA methods into three broad types (Braun et al., 2019):

  1. 코딩 신뢰성 접근법(예: Boyatzis, 1998; Guest 외., 2012)은 초기 주제 개발을 포함하며 코딩을 주제에 대한 증거를 식별하는 과정으로 개념화합니다. 주제는 일반적으로 특정 주제 또는 데이터 수집 질문과 관련하여 참가자가 가장 빈번하게 언급한 내용을 요약 또는 개괄한 주제 요약으로 이해되며, 연구자의 분석 작업 이전에 데이터에 존재하는 실체로 이해됩니다. 코딩 신뢰성 접근법은 코딩 프레임 또는 코드북을 중심으로 구조화된 코딩 접근법을 사용하며, 일반적으로 여러 코더가 독립적으로 작업하여 코딩 프레임을 데이터에 적용해야 합니다. 연구자의 주관성은 코딩 신뢰성에 잠재적인 위협이 될 수 있는 '편향'으로 개념화됩니다. 이러한 위협은 여러 코더를 사용하여 코더 간의 '합의' 수준을 측정하고, 높은 수준의 합의가 신뢰할 수 있는 코딩과 같다는 가정 하에 합의를 통해 최종 코딩을 결정함으로써 관리할 수 있습니다. 
    Coding reliability approaches (e.g. Boyatzis, 1998; Guest et al., 2012) involve early theme development and conceptualise coding as a process of identifying evidence for themes. Themes are typically understood as topic summaries—summaries or overviews of the most frequent things participants said in relation to a particular topic or data collection question—and as entities that reside in data, pre-existing any analytic work on the part of the researcher. Coding reliability approaches use a structured approach to coding centred around a coding frame or codebook, and typically require multiple coders working independently to apply the coding frame to the data. Researcher subjectivity is conceptualised as ‘bias’, a potential threat to coding reliability. This threat is managed through the use of multiple coders, measuring the level of ‘agreement’ between coders, with the assumption that a high level of agreement equals reliable coding, and determining final coding through consensus.
  2. 성찰적 접근법(예: Braun & Clarke, 2006, 2019a; Hayes, 2000)은 테마는 코드에서 개발되고, 중심 조직 개념에 의해 뒷받침되는 공유된 의미의 패턴으로 개념화하여, 나중에 테마를 개발하는 방식을 포함합니다(Braun et al., 2014). 테마 개발에는 연구자의 상당한 분석 및 해석 작업이 필요합니다. 테마는 표면적으로 서로 다른 것처럼 보이는 데이터를 포함할 수 있지만, 이러한 테마는 암묵적 또는 잠재적 의미를 통합합니다. 테마는 연구자와 분리되어 존재할 수 없으며, 연구자가 이 과정에 가져오는 모든 것(예: 연구 가치, 기술, 경험 및 훈련)에 의해 매개되는 데이터 참여를 통해 연구자에 의해 생성됩니다. 코딩 프로세스는 비정형적이고 유기적이며, 연구자의 데이터에 대한 이해가 깊어짐에 따라 코드가 진화할 수 있는 잠재력을 가지고 있습니다. 코딩은 본질적으로 주관적인 과정으로 인식되며, 연구자는 자신의 가정과 이러한 가정이 어떻게 코딩을 형성하고 구분할 수 있는지에 대해 성찰하기 위해 노력하는 반성적 연구자가 필요합니다. Atlassian의 반성적 접근 방식에는 익숙해지기, 코딩하기, 초기 테마 생성하기, 테마 검토 및 개발하기, 테마 다듬기, 정의 및 이름 짓기, 작성하기의 6가지 재귀적 단계가 포함됩니다.
    Reflexive approaches (e.g. Braun & Clarke, 2006, 2019a; Hayes, 2000) involve later theme development, with themes developed from codes, and conceptualised as patterns of shared meaning underpinned by a central organising concept (Braun et al., 2014). Theme development requires considerable analytic and interpretative work on the part of the researcher. Although themes might encompass data that on the surface appears disparate, such themes unite implicit or latent meaning. Themes cannot exist separately from the researcher—they are generated by the researcher through data engagement mediated by all that they bring to this process (e.g. their research values, skills, experience and training). The coding process is unstructured and organic, with the potential for codes to evolve to capture the researcher's deepening understanding of the data. Coding is recognised as an inherently subjective process, one that requires a reflexive researcher—who strives to reflect on their assumptions and how these might shape and delimit their coding. Our reflexive approach involves six—recursive—phases of: familiarisation; coding; generating initial themes; reviewing and developing themes; refining, defining and naming themes; and writing up.
  3. 코드북 접근법(예: King & Brooks, 2018; Ritchie & Spencer, 1994)은 [성찰적 TA의 질적 연구 가치][코딩에 대한 보다 구조화된 접근법(초기 주제 개발 및 코딩 신뢰성 TA의 특징인 주제 요약으로서의 주제 개념화)]를 결합한 것입니다. 그러나 일반적으로 응용 연구에 사용하기 위해 개발된 코드북 접근법은 코딩의 신뢰성과 정확성을 결정하기 위한 목적이 아니라 발전하는 분석을 도표화하거나 매핑하기 위해 코드북을 사용합니다. 이는 팀원 각자가 데이터 세트의 서로 다른 부분을 코딩하여 팀워크를 촉진하고, 정해진 기한에 맞춰 분석을 효율적으로 전달하며, 미리 정해진 정보 요구를 충족하는 등 실용적인 이유에서 주로 사용됩니다.
    Codebook approaches (e.g. King & Brooks, 2018; Ritchie & Spencer, 1994) combine the qualitative research values of reflexive TA with the more structured approach to coding, early theme development and the conceptualisation of themes as topic summaries characteristic of coding reliability TA. However, codebook approaches—typically developed for use in applied research—use a codebook not for the purposes of determining the reliability and accuracy of coding but to chart or map the developing analysis. This is often for pragmatic reasons such as facilitating teamwork, with each member of the team coding different parts of the data set, efficient delivery of analysis to a fixed deadline and meeting predetermined information needs.

이 유형 외에도 쉬운 분류를 거부하고 여러 유형의 요소를 결합한 TA 접근법, 심리치료 과정 연구를 위해 특별히 개발된 '주제 분석' 버전 등 다양한 유형이 있습니다(예: 마이어 외., 2008). 
There is variation beyond this typology—with TA approaches that defy easy categorisation and combine elements from the different types; there are also versions of ‘theme analysis’ developed specifically for psychotherapy process research (e.g. Meier et al., 2008).

세 가지 유형의 TA는 코딩 신뢰성에서 반사적 접근에 이르기까지 하나의 연속체를 이루는 것으로 개념화할 수 있습니다.

  • 코딩 신뢰도 TA(포스트)실증주의2 연구 가치에 의해 뒷받침되는 질적 도구와 기법을 사용하는 '작은 q' 질적(Kidder & Fine, 1987)이라고 불리는 것을 예시합니다(Ponterotto, 2005 참조). 이러한 가치관은 일반적으로 정량적 연구를 뒷받침하는 가치관이며, 객관적이고 일반화 가능하며 신뢰할 수 있고 복제 가능한 지식을 이상적으로 강조합니다.
  • 반면, 성찰적 TA는 질적 연구를 단순히 도구와 기법으로 개념화하는 것이 아니라 질적 가치 프레임워크 내에서 이러한 도구와 기법의 사용을 포함하는 '빅 큐' 질적 연구(Kidder & Fine, 1987)를 예시합니다. 이러한 이유로 Big Q 질적 연구를 '완전 질적' 연구(즉, 기법과 가치 모두에서 질적인 연구)라고 부르기도 합니다. 질적 연구 가치는 쉽게 정의할 수 없지만, 일반적으로 연구자의 주관성을 연구 자원으로, 의미와 지식을 부분적, 위치적, 맥락적이라고 개념화하는 것을 포함합니다(Braun & Clarke, 2013). 

The three different types of TA can be conceptualised as occupying a continuum, from coding reliability to reflexive approaches.

  • Coding reliability TA exemplifies what has been dubbed ‘small q’ qualitative (Kidder & Fine, 1987)—the use of qualitative tools and techniques underpinned by (post)positivist2 research values (see Ponterotto, 2005). These are the values that typically underpin quantitative research and emphasise objective, generalisable, reliable and replicable knowledge as ideal.
  • Reflexive TA, by contrast, exemplifies ‘Big Q’ qualitative (Kidder & Fine, 1987)—where qualitative research is not merely conceptualised as tools and techniques but as involving the use of these within a qualitative values framework. For this reason, Big Q qualitative is sometimes termed ‘fully qualitative’ research (i.e. research that is qualitative both in techniques and values). Although qualitative research values are not easily defined, they typically include a conceptualisation of researcher subjectivity as a resource for research and of meaning and knowledge as partial, situated and contextual (Braun & Clarke, 2013).

TA는 상담 및 심리치료 연구에서 흔히 사용되는 현상학적 또는 경험적 질적 연구 전통에 속하는 것으로 이해되는 경우가 많습니다(Morrow, 2007). 이 전통은 참여자의 주관적 경험과 의미 만들기에 대한 탐구에 중점을 둡니다(Braun & Clarke, 2013; Willig, 2013). 많은 코딩 신뢰성 및 코드북 저자들은 이러한 전통에 따라 TA의 버전을 포지셔닝합니다(예: Guest et al., 2012).

TA is often understood as belonging to the phenomenological or experiential qualitative research tradition, common in counselling and psychotherapy research (Morrow, 2007). This tradition is centred on the exploration of participants’ subjective experiences and sense-making (Braun & Clarke, 2013; Willig, 2013). Many coding reliability and codebook authors position their versions of TA within this tradition (e.g. Guest et al., 2012). 

그러나 일부 성찰적 및 코드북 TA 저자(예: Clarke & Braun, 2014; King, 2012)는 또 다른 연구 전통, 즉 비판적 질적 연구의 전통을 인정합니다. 비판적 전통은 종종 사회적으로 내재된 의미 패턴과 그 함의 및 효과에 대한 의문에 초점을 맞춘 포스트구조주의(예: Gavey, 1989) 및 구성주의3(예: Gergen, 2015) 이론적 틀과 연관됩니다(Clarke & Braun, 2014 참조). 포스트구조주의와 구성주의(예: 내러티브 치료 및 연구, Lainson 등, 2019 참조)의 영향을 받은 연구와 실천이 일부 존재하지만, 상담 및 심리치료 연구에서는 비판적 질적 전통이 잘 확립되어 있지 않습니다(Ponterotto 등, 2017). 

However, some reflexive and codebook TA authors (e.g. Clarke & Braun, 2014; King, 2012) acknowledge another research tradition—that of critical qualitative research. The critical tradition is often associated with poststructuralist (e.g. Gavey, 1989) and constructionist3 (e.g. Gergen, 2015) theoretical frameworks, focusing on the interrogation of socially embedded patterns of meaning and the implications and effects of these (see Clarke & Braun, 2014). The critical qualitative tradition is less well established in counselling and psychotherapy research (Ponterotto et al., 2017), although there are pockets of research and practice informed by poststructuralism and constructionism (e.g. narrative therapy and research, see Lainson et al., 2019).

주제 분석과 질적 내용분석의 차이점은 무엇인가요?
What are the differences between thematic analysis and qualitative content analysis?

TA와 QCA는 종종 혼동되어 혼용되는 경우가 많은데, QCA는 아마도 TA와 가장 유사한 분석 접근 방식일 것입니다(Vaismoradi 외., 2013). 이 두 방법의 차이점은 부분적으로 TA와 QCA를 어떻게 정의하느냐에 따라 달라집니다. TA에 대한 접근 방식이 하나만 있는 것이 아니듯, QCA에 대한 접근 방식도 하나만 있는 것은 아닙니다. 또한 TA가 종종 (암묵적으로) 단일한 접근법으로 제시되는 것처럼(예: Vaismoradi 외., 2016; Vaismoradi & Snelgrove, 2019), QCA도 마찬가지입니다(예: Burla 외., 2008). '한 가족의 형제자매로서 다양한 유형의 TA'라는 비유를 확장하면(Fugard & Potts, 2020), TA와 QCA를 각각 많은 자녀를 둔 두 개의 관련 '핵가족'으로 상상하는 것이 유용합니다. 각 가족 내에는 많은 차이가 있으며, 두 가족 사이에는 많은 연결 지점과 약간의 차이가 있습니다. 
TA and QCA are often confused and conflated; QCA is probably the analytic approach most like TA (Vaismoradi et al., 2013). How these two methods differ in part depends on how both TA and QCA are defined. Just as there is no one approach to TA, there is no one approach to QCA. Moreover, just as TA is often (implicitly) presented as a singular approach (e.g. Vaismoradi et al., 2016; Vaismoradi & Snelgrove, 2019), so too is QCA (e.g. Burla et al., 2008). Extending the ‘different types of TA as siblings in a family’ analogy (Fugard & Potts, 2020), it is useful to imagine TA and QCA as two related ‘nuclear families’, each with lots of children. There is lots of variation within each family, and lots of points of connection, and some differences, between the two families.

QCA는 아마도 양적 버전에서 발전했을 것입니다.Mayring(2000; 그러나 Hseih & Shannon, 2005 참조)은 20세기 중반에 내용분석에 대한 질적 접근법의 발전을 설명했습니다(예: Kracauer, 1952). QCA는 종종 질적 데이터에서 주제를 식별하는 방법으로 설명되며(예: Cho & Lee, 2014; Hseih & Shannon, 2005; Vaismoradi 외., 2016), 일부 연구자들은 그들의 접근 방식을 '주제별 내용분석'이라고 부르기도 합니다(예: Brewster 외., 2014). QCA에 대한 일부 정의는 (일반적으로) TA와 유사한 방법을 설명합니다. 예를 들어, Hsieh와 Shannon(2005)은 TA에 대한 일반적인 정의를 작성했을 수 있습니다: 
QCA probably developed from quantitative versions4—Mayring (2000; but see Hseih & Shannon, 2005) described the development of qualitative approaches to content analysis in the middle of the twentieth century (e.g. Kracauer, 1952). QCA is often described as a method for identifying themes in qualitative data (e.g. Cho & Lee, 2014; Hseih & Shannon, 2005; Vaismoradi et al., 2016), and some researchers even label their approach ‘thematic content analysis’ (e.g. Brewster et al., 2014). Some definitions of QCA describe a method that is like TA (in general). For example, Hsieh and Shannon (2005) could have been writing a generic definition of TA:

질적 내용 분석은 단순히 단어 수를 세는 것을 넘어, 대량의 텍스트를 유사한 의미를 나타내는 효율적인 수의 범주로 분류하기 위해 언어를 집중적으로 조사하는 것입니다(Weber, 1990). 이러한 범주는 명시적 의사소통 또는 추론적 의사소통을 나타낼 수 있습니다 [...] 질적 내용 분석은 주제나 패턴을 코딩하고 식별하는 체계적인 분류 과정을 통해 텍스트 데이터의 내용을 주관적으로 해석하는 연구 방법이라고 정의됩니다(1,278쪽). 
Qualitative content analysis goes beyond merely counting words to examining language intensively for the purpose of classifying large amounts of text into an efficient number of categories that represent similar meanings (Weber, 1990). These categories can represent either explicit communication or inferred communication […] qualitative content analysis is defined as a research method for the subjective interpretation of the content of text data through the systematic classification process of coding and identifying themes or patterns (p. 1,278).

이 정의에는 코딩 및 주제 개발 과정(TA에서와 마찬가지로 QCA에서도 주제에 대한 널리 합의된 정의는 없지만), 명시적(의미론적) 의미와 추론적(잠재적) 의미, 연구자 주관성의 중심성 등이 포함됩니다. 연구자의 주관성을 강조하는 것을 제외하면, 이러한 특징들은 다양한 출처에서 QCA의 주요 특징입니다(예: Burla et al., 2008; Cho & Lee, 2014; Forman & Damschroder, 2008; Vaismoradi et al., 2013). 다른 일반적인 특징으로는 귀납적 접근법연역적 접근법(또는 일반적 접근법과 지시적 접근법) 또는 이 둘의 조합을 모두 사용할 수 있다는 점이 있습니다(예: Cho & Lee, 2014; Hseih & Shannon, 2005). 실제로 일부 QCA 저자들은 '주제 분석' 또는 TA가 QCA의 다른 이름일 뿐이라고 주장하기도 합니다(Schreier, 2012). 일반적인 수준에서 보면 TA와 QCA를 구분하는 것은 거의 없는 것 같습니다. 그러나 TA 접근 방식에 따른 차이는 QCA가 코드북 및 코딩 신뢰성 TA와 가장 많이 겹친다는 것을 의미합니다.

  • QCA에 대해 널리 합의된 절차는 없지만, 대부분의 저자는 코드북 또는 코딩 프레임의 사용을 강조하며(예: Burla et al., 2008; Forman & Damschroder, 2008; Schreier, 2012),
  • 일부는 여러 독립 코더 사용 및 코더 간 일치도 측정과 같은 코딩 신뢰성을 보장하고 입증하기 위한 관행을 논의합니다(예: Burla et al., 2008; Forman & Damschroder, 2008).

이와는 대조적으로, 성찰적 TA는 연구자에게 절차 및 기본 연구 가치 측면에서 완전히 질적인 접근 방식을 제공하는 것으로 보입니다. 
This definition includes reference to processes of coding and theme development (although, as in TA, there is no widely agreed on definition of a theme in QCA), explicit (semantic) and inferred (latent) meaning, and the centrality of researcher subjectivity. With perhaps the exception of an emphasis on researcher subjectivity, these are key features of QCA in many different sources (e.g. Burla et al., 2008; Cho & Lee, 2014; Forman & Damschroder, 2008; Vaismoradi et al., 2013). Other common features include the possibility of using both inductive and deductive (or conventional and directed) coding approaches, or a combination of the two (e.g. Cho & Lee, 2014; Hseih & Shannon, 2005). Indeed, some QCA authors argue that ‘theme analysis’ or TA is just another name for QCA (Schreier, 2012). At the general level, there does seem to be little that separates TA and QCA. However, the variation across TA approaches means QCA overlaps most with codebook and coding reliability TA.

  • Although there is no one widely agreed on set of procedures for QCA, most authors emphasise the use of a codebook or coding frame (e.g. Burla et al., 2008; Forman & Damschroder, 2008; Schreier, 2012) and
  • some discuss practices to ensure and demonstrate coding reliability such as using multiple independent coders and measuring inter-coder agreement (e.g. Burla et al., 2008; Forman & Damschroder, 2008).

In contrast, reflexive TA does seem to offer the researcher a distinct approach, one that is fully qualitative in terms of both its procedures and the underlying research values.

QCA는 일반적으로 방법론이라기보다는 하나의 방법으로 제시되지만(Cho & Lee, 2014), 이론적 토대는 거의 논의되거나 인정되지 않습니다. 실제로 QCA와 TA의 주요 차이점 중 하나는 QCA가 이론적으로 유연하기보다는 무이론적인 것으로 암묵적으로, 때로는 명시적으로 제시된다는 점입니다(Forman & Damschroder, 2008).

  • 이러한 포지셔닝에도 불구하고, (포스트)실증주의 이론적 가정은 연구자 주관을 최소화하고 코딩의 '정확성'을 극대화하기 위해 코더 간 일치도 계산과 같은 품질 측정을 사용하여 분석에 도입되는 경우가 많습니다.
  • 이론적 토대가 인정되는 경우, 일반적으로 (포스트)실증주의 또는 현실주의(또는 '사실주의') 유형에 속합니다(Vaismoradi 외., 2013).

QCA의 이러한 무이론적 위치 때문에 QCA는 설명적 분석만을 위한 방법으로 여겨지기도 하고(Cho & Lee, 2014; Vaismoradi 외., 2013), 따라서 질적 분석 접근법 중 (가장 해석적 접근법이라고 주장하는 GT나 해석적 현상학(예: Vaismoradi 외., 2013)에 비해) 가장 해석적이지 않은 것으로 여겨지기도 합니다. 이 때문에 QCA는 종종 질적 분석 초보자가 접근하기 쉽지만 상대적으로 정교하지 않은 '입문용' 방법(Vaismoradi 외., 2013)으로 인식되는 경우가 많습니다(TA도 종종 잘못 표현되는 것처럼). 
Although QCA is commonly presented as a method rather than a methodology (Cho & Lee, 2014), theoretical underpinnings are rarely discussed or acknowledged. Indeed, one major difference between QCA and TA seems to be that QCA is often implicitly and sometimes explicitly presented as atheoretical, rather than theoretically flexible (Forman & Damschroder, 2008).

  • Despite such positioning, (post)positivist theoretical assumptions are often imported into the analysis through the use of quality measures like calculating inter-coder agreement and a concern to minimise researcher subjectivity and maximise the ‘accuracy’ of coding.
  • If theoretical underpinnings are acknowledged, it is usually of the (post)positivist or realist (or ‘factist’) variety (Vaismoradi et al., 2013).

The atheoretical positioning of QCA is perhaps why it is often thought of as a method for only producing descriptive analyses (Cho & Lee, 2014; Vaismoradi et al., 2013) and—thus—as the least interpretive of the qualitative analytic approaches, compared to what some claim are the most interpretive approaches, such as GT or interpretive phenomenology (e.g. Vaismoradi et al., 2013). This is perhaps why QCA is often framed as a ‘starter’ method (Vaismoradi et al., 2013), accessible for qualitative beginners, but relatively unsophisticated (as TA is often also misrepresented as).

TA와 QCA는 정량적 내용분석에서 병렬적으로 발전한 것으로 보이며 버전에 따라 어느 정도 겹치는 부분이 있는데, 이를 별개의 방법으로 간주하는 것이 유용할까요? 서로 다른 용어를 사용하면 명확해지나요, 아니면 불필요하게 혼란스럽고 복잡해지나요? 저희의 견해는 후자 쪽에 가깝지만, 이 두 가지 방법이 모두 확고하게 자리 잡았기 때문에 어느 쪽도 사라지지는 않을 것입니다. 그렇다면 왜 TA 대신 QCA를 선택해야 할까요? 이는 아마도 각 방법이 더 많은 '신뢰도' 또는 수용성을 지니고 있으며 특정 상황에서 더 널리 사용되기 때문에 상황에 따라 크게 달라질 수 있습니다. 만약 여러분의 접근 방식이 (포스트)실증주의적/'작은 q'적이라면, 두 가지를 구분할 필요가 거의 없습니다. 하지만 - 이것은 중대한 '하지만'이다 - 우리는 질적 분석이 무이론적이라는 (암묵적인) 포지셔닝에 문제가 있습니다. 연구자의 목적이 무엇이든, 분석에는 항상 이론적 가정과 선택이 수반되기 때문에 질적 분석은 무이론적일 수 없습니다(Ponterotto et al., 2017). 일반적으로 TA 문헌에는 이론적 토대에 대한 논의가 있기 때문에(때때로 제한적이고 때로는 문제가 되기도 하지만), 우리는 어떤 형식을 사용하든 QCA보다 TA를 사용하고 분석의 이론적 근거에 대해 논의할 것을 옹호합니다. 이론적으로 유연한 TA의 프레임워크는 이론을 피할 수 없음을 의미합니다(이론적으로는! - Braun & Clarke, 2020 참조). 또한, 우리는 작업 대상인 '콘텐츠'보다는 '주제', 즉 무엇을 얻고자 하는지에 초점을 맞추는 것을 선호합니다. 전자(contents에 초점을 두는 것)는 데이터 분석에 대해 '진실은 거기에 있다'는 식의 추출적 성향을 불러일으킬 위험이 있습니다(Braun & Clarke, 2016).  
As TA and QCA seem to be parallel developments from quantitative content analysis, and more or less overlap (depending on the version), is it useful to consider them distinct methods? Does having different terms clarify, or does it just confuse and complexify, unnecessarily? Our view tends towards the latter, but as both branches of this family of methods are now firmly established, neither will disappear. So why might you choose QCA over TA? This probably largely depends on context, as each method carries more ‘cachet’ or acceptance and is more widely used in certain contexts. If your approach is more (post)positivist/small q, there is little to distinguish between the two. But—and this is a big but—we are troubled by the (implicit) positioning of QCA as atheoretical. Qualitative analysis cannot be atheoretical—no matter what a researcher's purpose, analysis always involves theoretical assumptions and choices (Ponterotto et al., 2017). Because there is usually some discussion of theoretical underpinnings within the TA literature (albeit at times limited, and sometimes problematic), we therefore advocate for using TA over QCA—whichever form you use, and for discussing the theoretical bases of the analysis. The framing of TA as theoretically flexible means theory cannot be avoided (in theory! - see Braun & Clarke, 2020). Furthermore, we prefer the focus on ‘themes’—what you're aiming to get to—rather than ‘content’—what you're working with. The latter risks evoking an extractive, ‘the truth is in there’ orientation to data analysis (Braun & Clarke, 2016).

주제별 분석과 해석적 현상학적 분석의 차이점은 무엇인가요?
What are the differences between thematic analysis and interpretative phenomenological analysis?

다양한 현상학적 접근법(예: Finlay, 2011; Paley, 2017)이 있으며, 특히 적어도 1980년대부터 현상학적 연구에 사용되어 온 TA(예: Dapkus, 1985)가 가장 대표적인 접근법입니다. 여기서 IPA에 초점을 맞추는 이유는 잘 발달된 방법론적 지침과 함께 상담 및 심리치료 연구에서 점점 더 널리 사용되고 있기 때문입니다(McLeod, 2011). 방법론으로서 IPA는 다음을 지정합니다:

  • (a) 지침이 되는 이론적 틀(현상학 - 이 버전에서는 인간이 세계를 경험하고 이해하는 방식을 이해하고 해석하는 데 광범위하게 관련됨),
  • (b) 특정 맥락에서의 개인적 경험과 의미 만들기에 초점을 맞춘 연구 질문,
  • (c) 작고 동질적인 목적 표본의 사용,
  • (d) 개인 경험에 대한 일인칭 설명을 수집하기 위한 인터뷰 사용(예: Smith et al., 2009; Smith & Osborn, 2007; Spiers & Riley, 2019).

There are a wide variety of phenomenological approaches (e.g. Finlay, 2011; Paley, 2017), not least TA, which has been used in phenomenological research since at least the 1980s (e.g. Dapkus, 1985). We focus on IPA here because it is increasingly widely used in counselling and psychotherapy research, with well-developed methodological guidance (McLeod, 2011). As a methodology, IPA specifies:

  • (a) a guiding theoretical framework (phenomenology—which in this version is broadly concerned with understanding and interpreting how human beings experience and make sense of the world);
  • (b) research questions focused on personal experience and meaning-making in a particular context;
  • (c) the use of small, homogenous purposive samples; and
  • (d) the use of interviews to collect first-person accounts of personal experience (e.g. Smith et al., 2009; Smith & Osborn, 2007; Spiers & Riley, 2019). 

그러나 1990년대에 처음 소개되었을 때와 달리 IPA가 발전함에 따라 데이터 수집 방법에 대한 다양성이 증가하고 있습니다(예: 포커스 그룹 데이터를 분석하는 데 IPA를 사용하는 것에 대한 논의가 있었습니다; Palmer et al., 2010). 성찰적 TA에서와 마찬가지로 연구자의 주관성은 IPA의 기본 자원입니다. 실제로 IPA 연구는 근본적인 인간의 행위로 묘사되어 왔습니다:

  • '인간이 하는 일을 하는 것일 뿐입니다. 좀 더 세밀하게 하고, 좀 더 꾸준히 하고 있지만, 그럼에도 불구하고 연구 과정에서 일어나는 본질적으로 인간적인 과정입니다'(Smith, 2019, 171쪽).

There is, however, increasing variation around data collection methods as IPA has evolved from when it was first outlined in the 1990s (e.g. there has been some discussion of using IPA to analyse focus group data; Palmer et al., 2010). As in reflexive TA, researcher subjectivity is a fundamental resource for IPA. Indeed, IPA research has been described as a fundamentally human practice, it is:

  • ‘merely doing what human beings do. OK, it's doing it in more detail, it's doing it more steadfastly, but nonetheless, it's an essentially human process that is happening in the research's endeavour’ (Smith, 2019, p. 171).

방법/방법론의 문제 외에도, 성찰적 TA와 IPA 사이에는 두 가지 중요한 차이점이 있습니다.

  • 첫 번째는 IPA는 [사례(참여자) 전반에 걸쳐 주제를 식별하는 주제적 방향]과 [각 사례의 구체적이고 고유한 세부 사항에 관심을 갖고 집중하는 개별 사례적 접근]이라는 이중 분석적 초점을 통합한다는 점입니다.
  • 둘째, 이러한 개별 사례적 초점과 부분적으로 관련이 있는데, IPA 절차는 TA 절차와는 다소 다릅니다:
    • IPA는 사례 전반에 걸쳐across 주제를 개발하기 전에 각each 사례의 분석에 세부적으로 초점을 맞추는 것을 포함합니다(Braun & Clarke, 2013).
    • 이는 전체 데이터 세트의 코딩한 다음, 코드에서 사례 전반의across 테마를 개발하는 재귀적 TA의 테마 개발과는 상당히 다릅니다.
    • IPA는 데이터 세트 전체에 걸쳐 주제를 개발하기 위해 전반적인 주제 방향을 잡기 전에 각 데이터 항목에 대해 훨씬 더 깊이 또는 더 깊이 분석합니다. 각 인터뷰 기록은 순차적으로 전체 분석되며, 분석 노트는 기록 자체에 이상적으로 기록되어 각 참가자 이야기의 고유한 특징에 대한 상세하고 면밀한 참여를 유도합니다.

Beyond the method/ology question, there are two important differences between reflexive TA and IPA.

  • The first is that IPA incorporates a dual analytic focus: both a thematic orientation—the identification of themes across cases (participants)—and an idiographic approach—interest in and focus on the particular and unique details of each case.
  • Second, related in part to this idiographic focus, IPA procedures are rather different from TA procedures:
    • IPA involves a detailed focus on the analysis of each case, before developing themes across cases (Braun & Clarke, 2013).
    • This is quite different from theme development in reflexive TA, where themes are developed across cases from codes, following the coding of the entire data set.
    • IPA goes analytically much deeper or further with each data item, before taking an overall thematic orientation to develop themes across the data set. Each interview transcript is analysed in full, sequentially, and analytic notes are ideally recorded on the transcripts themselves, encouraging detailed and close engagement with the unique features of each participant's account.

IPA 프로세스는 데이터에 상세한 노트를 작성하는 '초기 노팅'로 시작됩니다. 이러한 주석은 TA에서와 같이 설명적(의미론적)이며 참가자의 명시적 의미에 가깝거나, 개념적(잠재적)이며 연구자의 관점에서 참가자의 세계관에 대한 해석을 반영할 수 있습니다. IPA에서 초기 노팅의 또 다른 측면은 언어 사용에 초점을 맞추는 것입니다: Smith 등(2009)은 은유뿐만 아니라 '대명사 사용, 멈춤, 웃음, 언어의 기능적 측면, 반복, 어조, 유창성 정도(명료하거나 머뭇거림)'(88쪽)에도 주의를 기울일 것을 권장했습니다. 은유에 초점을 맞추면 연구자가 더 많은 개념적 의미를 파악하는 데 도움이 될 수 있습니다. IPA에서 언어는 사람들이 생각하고 느끼는 것을 반영하고 전달하는 것으로 가정하는데, 이는 DA 및 기타 비판적 질적 접근법에서 언어가 이론화되는 방식과 크게 다릅니다(Willig, 2013 참조). 이러한 초기 노트는 연구자가 성찰적 TA의 첫 번째 단계에서 작성하는 익숙화 메모와 유사하지만, 일반적으로 더 형식화되고 체계적이며 상세합니다.
The IPA process begins with ‘initial noting’: writing detailed notes on the data. These comments can, like in TA, be descriptive (semantic) and stay close to the participants’ overt meanings, or conceptual (latent) and reflect an interpretation of the participant's worldview from the standpoint of the researcher. An additional aspect of initial noting in IPA is a focus on language use: Smith et al. (2009) encouraged attention to ‘pronoun use, pauses, laughter, functional aspects of language, repetition, tone, degree of fluency (articulate or hesitant)’ (p. 88) as well as metaphor. A focus on metaphor may help the researcher to grasp more conceptual meanings. In IPA, language is assumed to reflect and communicate what people think and feel, which differs profoundly from how language is theorised in DA and other critical qualitative approaches (see Willig, 2013). These initial notes are similar to the familiarisation notes the researcher makes in the first phase of reflexive TA, but they are generally more formalised, systematic and detailed.

다음 단계는 동일한(한 명의) 참가자를 대상으로 '출현(또는 귀납적) 주제'를 개발하는 것입니다(이는 반사적 TA의 코드와 다소 유사합니다. Braun & Clarke, 2013 참조). 떠오르는 주제들 간의 연관성을 찾는 과정을 통해 해당 참가자와 관련된 '상위 주제'를 개발하게 되는데, 이는 재귀적 TA의 주제와 다소 유사하지만, 떠오르는 주제와 연결된 공통된 의미를 가진 주제 요약에 더 가깝다고 할 수 있습니다.
The next step involves the development of ‘emergent (or inductive) themes’ for the same participant (these are somewhat akin to codes in reflexive TA, see Braun & Clarke, 2013). A process of searching for connections across emergent themes leads to the development of ‘super-ordinate themes’ related to that participant—these are somewhat akin to themes in reflexive TA, but can be more like topic summaries, with shared meaning connected to emergent themes.

이 과정은 각 인터뷰마다 반복됩니다. 마지막으로 연구자는 모든 참가자를 위한 상위 주제 목록을 개발합니다. 이러한 '마스터 테마'는 일반적으로 분석의 구조와 조직을 제공하며, 세부적으로 보고되는 것은 출현 주제입니다. 출현 주제와 상위 주제와 관련하여 IPA에서 주제가 개념화되는 방식은 (TA처럼) 지저분messy합니다.

  • 때때로 제시된 테마는 '주제 요약'과 유사하며, 이는 특히 상위 종속 테마에서 분명해 보입니다.
  • 다른 경우에는 테마가 중심 개념을 중심으로 구성된 의미 기반 패턴을 보고하는 것처럼 보이기도 합니다.

This process is then repeated for each interview. Finally, the researcher seeks to develop a list of super-ordinate themes for all of the participants. These ‘master themes’ typically provide structure and organisation for the analysis; what is reported in detail are the emergent themes. The way themes are conceptualised in IPA, both in relation to emergent and super-ordinate themes is—like with TA—messy.

  • Sometimes, themes presented are akin to ‘topic summaries’—this seems particularly evident for super-ordinate themes.
  • Other times, themes appear to report meaning-based patterns organised around a central concept.

영국의 심리학자 스미스를 비롯한 주요 저자들의 IPA에 대한 간략한 요약과 방법론적 설명은 '교과서' 버전의 IPA라고 할 수 있으며, 이들의 경험적 연구(예: Eatough & Smith, 2010; Rhodes et al., 2019; Smith & Osborne, 2007)를 통해 그 예시를 확인할 수 있습니다. 이는 더 넓은 연구 커뮤니티에서 IPA를 제정하는 방식과는 다소 다를 수 있습니다(TA와 마찬가지로; Braun & Clarke, 2020 참조). IPA는 아주 작은 표본을 대상으로 TA를 수행하는 방법으로 자주 사용되며, 참가자의 의미 결정에 대한 더 넓은 사회적 맥락을 거의 고려하지 않는 다소 '가벼운' 설명적 분석을 생성하는 데 사용되는 것 같습니다. 이러한 사용은 TA와 IPA의 잠재력을 모두 충족시키지 못합니다. 이러한 평가는 비단 우리만의 생각은 아닙니다. IPA 방법론가들은 IPA가 자주 사용되는 방식에 대해 비판적이었으며(예: Brocki & Wearden, 2006; Larkin 외, 2006; Smith, 2011), 특히 'Personhood의 구성적 근거'로서 사회 세계를 무시하는 것에 대해 비판적이었습니다(예: Chamberlain, 2011; Parker, 2005). IPA의 이러한 (잘못된) 사용이 의미하는 바는 IPA의 '산출'이 현상학적 TA의 산출과 거의 같을 수 있지만, 일반적으로 표본이 더 작다는 것입니다. 그러나 이러한 접근 방식은 달라야 합니다. 
Our brief summary of IPA, and methodological descriptions by key authors, including British psychologist Smith, could be called the ‘textbook’ version of IPA and is exemplified by their empirical work (e.g. Eatough & Smith, 2010; Rhodes et al., 2019; Smith & Osborne, 2007). This can be rather different from how IPA is enacted by the wider research community (much like with TA; see Braun & Clarke, 2020). It seems to us that IPA is quite often used as a method for doing TA on very small samples, and to produce rather ‘light’ descriptive analyses that show little regard for the wider social context of participants’ sense-making. Such use fails the potential of both TA and IPA. We are not alone in this assessment. IPA methodologists have been critical of the way IPA is often used (e.g. Brocki & Wearden, 2006; Larkin et al., 2006; Smith, 2011), and particularly the neglect of the social world as the ‘constituent ground of personhood’ (Larkin et al., 2011, p. 324), as have those less sympathetic to IPA (e.g. Chamberlain, 2011; Parker, 2005). What this (mis)use of IPA means is that the ‘output’ of an IPA can be little different from the output of a phenomenological TA, but usually with a smaller sample. But these approaches should be different.

Spiers와 Riley (2019)는 성찰적 TA와 IPA를 모두 사용하여 47 명의 GP와 인터뷰 한 데이터 세트에서 서로 다른 분석을 생성하는 것을 반영하는 데있어 이례적입니다. TA는 전체 데이터 세트를 분석하는 데 사용되었습니다(비판적 현실주의6 이론적 틀 내에서, IPA의 철학적 토대에 부합하고 귀납적 방향과 의미론적 의미에 초점을 맞추기 위해). IPA는 '인구통계적으로 동질적인'(278페이지) 10개의 인터뷰 하위 집합을 대상으로 실시되었습니다. 저자들은 TA는 폭이 넓고 IPA는 깊이가 있다고 제안했지만, IPA의 경우 표본이 작아 각 인터뷰에 더 깊이 참여할 수 있었고(분석에 시간을 할애하는 것은 우리가 강조하는 부분입니다, Braun & Clarke, 2021), 잠재적 의미에 초점을 맞추면 TA 분석이 'IPA처럼 보이는'(284쪽) 결과를 낳았을 것이라는 점을 인정했습니다. 그들은 데이터를 읽고 해석하는 방식에서 분석 방향을 전환하는 데 어려움을 겪었지만, IPA와 TA가 '방법으로서 잘 작동한다'고 결론지었습니다(287쪽).  
Spiers and Riley (2019) are unusual in providing a reflection of using both reflexive TA5 and IPA to produce different analyses from one data set of interviews with 47 GPs living with distress. TA was used to analyse the full data set (within a critical realist6 theoretical framework, to align with the philosophical underpinnings of IPA and with an inductive orientation and focus on semantic meaning). An IPA was conducted on a ‘demographically homogenous’ (p. 278) subset of 10 interviews. The authors suggested their TA produced breadth, while the IPA produced depth, but acknowledged that the smaller sample for the IPA allowed for more in-depth engagement with each interview (taking time over analysis is something we emphasise, Braun & Clarke, 2021), and that a focus on latent meaning would have resulted in a TA analysis ‘that looked more like IPA’ (p. 284). They noted difficulty in shifting analytic orientation in terms of how they were reading and interpreting the data, but concluded that IPA and TA ‘work well together as methods’ (p. 287).

연구자가 한 가지 접근법만 사용하고 광범위한 경험적 또는 현상학적 연구를 수행한다고 가정할 때, 언제 IPA 대신 반사적 TA를 사용하는 것이 합리적일까요? IPA의 요구사항이나 초점이 연구에 잘 맞지 않을 때는 IPA 대신 TA를 사용하는 것이 좋습니다. 예를 들어 TA를 사용하는 경우는
Assuming a researcher is just using one approach, and conducting a broadly experiential or phenomenological study, when might it make sense to use reflexive TA instead of IPA? We recommend TA instead of IPA when the requirements or focus of IPA are not well met by a study. For instance:

  • [연구 질문]이 (단지) 개인적인 경험과 감각이 아닌 다른 것에 초점을 맞추고 있는 경우.
  • [데이터 소스]는 인터뷰 또는 개인적인 경험과 감각에 대한 심층적인 1인칭 설명을 수집하는 방법 이외의 다른 것입니다.
  • [샘플]상대적으로 크거나(즉, N = 10보다 큼), (다양성을 포착하는 것이 목적일 때와 같이) 이질적인 경우입니다(Fassinger, 2005).
  • [분석의 초점]은 개별 사례의 고유한 특징보다는 데이터 세트 전반의 주제를 식별하는 데에만 맞춰져 있습니다.
  • 연구에 실무에 대한 명확한 시사점이 있는 '실행 가능한 결과'가 필요하기 때문에(Sandelowski & Leeman, 2012), 분석을 '주제별 진술'(공유된 의미 기반 주제)로 구성해야 합니다.
  • [분석적 관심]은 개인적 경험이 더 넓은 사회문화적 맥락에서 어떻게 위치하는지에 있습니다.
  • The research question is focused on something other than (just) personal experience and sense-making.
  • The data source is something other than interviews or another method that gathers in-depth first-person accounts of personal experience and sense-making.
  • The sample is relatively large (i.e. larger than N = 10) and/or heterogeneous—such as when the aim is to capture diversity (Fassinger, 2005).
  • The analytic focus is solely on identifying themes across the data set, rather than also on the unique features of individual cases.
  • The need for the research to have ‘actionable outcomes’ with clear implications for practice (Sandelowski & Leeman, 2012) requires organising the analysis into ‘thematic statements’ (shared meaning-based themes).
  • The analytic interest is on how personal experiences are located within wider socio-cultural contexts.

주제별 분석과 근거 이론의 차이점은 무엇인가요?
What are the differences between thematic analysis and grounded theory?

GT는 원래 1960년대에 미국의 사회학자 Glaser와 Strauss에 의해 개발되었는데, 이 시기는 질적 연구가 지금처럼 다양한 방법으로 확립된 개념이 아니었던 시기였습니다(Charmaz & Thornberg, 2020). GT 개념과 관행은 질적 탐구 전반에 걸쳐 많은 아이디어에 영향을 미쳤으며, 때로는 암묵적으로(때로는 포화 개념처럼 정당화할 만한 근거 없이) 영향을 미치기도 했습니다(Braun & Clarke, 2019b). Glaser와 Strauss(1965, 1967)는 사회학 이론을 경험적 증거에 근거한 연구 접근법을 확립하는 것을 목표로 삼았습니다(Charmaz & Thornberg, 2020). 초기의 근거 이론은 오늘날 질적 연구를 위한 대규모 표본과 데이터 수집 및 분석의 동시 프로세스를 포함하는 광범위한 범위였습니다.

  • 예를 들어, 최소 9가지 유형의 병동 또는 서비스에 대해 2~4주 동안 관찰하는 등 6개 병원에서 실시한 집중적인 현장 연구, Glaser와 Strauss(1967, 289쪽)의 '간호학생의 죽음과의 만남에 대한 광범위한 인터뷰 데이터' 또는 Charmaz(1983)의 73개 인터뷰 등이 있습니다.

GT was originally developed by US sociologists Glaser and Strauss in the 1960s—at a time when qualitative research was not the established concept with a vast range of methods it has become (Charmaz & Thornberg, 2020). GT concepts and practices have gone on to influence many ideas across qualitative inquiry, often implicitly (and sometimes without good justification—such as in the pervasive concept of saturation; Braun & Clarke, 2019b). Glaser and Strauss (1965, 1967) aimed to establish an approach to research that grounded sociological theories in empirical evidence (Charmaz & Thornberg, 2020). Early grounded theories were broad in scope, involving what would now be regarded as large samples for qualitative research, and concurrent processes of data collection and analysis.

  • For instance, intensive fieldwork at six hospitals, including observations lasting two to four weeks on at least nine different types of wards or services, and ‘extensive interview data on nursing students’ encounters with death’ in Glaser and Strauss (1967, p. 289) or 73 interviews in Charmaz (1983).

초기 GT의 절차와 가정은 실증주의에 대한 글레이저의 헌신과 인간의 행동과 상호작용을 통한 의미와 사회 질서의 창조에 관한 사회학 이론인 상징적 상호작용주의에 대한 스트라우스의 관심을 모두 반영한 것으로 보입니다(Charmaz, 2014). 글레이저와 스트라우스는 지적으로 분열되어 각자의 GT 버전을 개발했습니다(예: 글레이저, 1992; 스트라우스 & 코빈, 1990). 그들의 박사 과정 학생들 중 일부, 특히 Charmaz(2014)도 자신만의 GT 버전을 개발했습니다. 심리치료 과정 연구를 포함한 특정 분야에서 사용하기 위해 개발된 변형도 있습니다(Rennie, 2006). 이처럼 다양한 버전의 GT가 존재하기 때문에 성찰적 TA와 GT의 차이점을 파악하는 것은 매우 복잡합니다.7  
The procedures and assumptions of early GT arguably reflected both Glaser's commitment to positivism and Strauss’ interests in symbolic interactionism, a sociological theory concerned with the creation of meaning and social order through human actions and interactions (Charmaz, 2014). Glaser and Strauss split intellectually and developed their own versions of GT (e.g. Glaser, 1992; Strauss & Corbin, 1990). Some of their PhD students, most notably Charmaz (2014), have also developed their own versions of GT. There are also variants developed for use within specific fields including psychotherapy process research (Rennie, 2006). Identifying the differences between reflexive TA and GT, then, is complex, because there are so many different versions of GT.7

많은 근거 이론가들은 GT가 사회적 과정과 같은 특정 유형의 연구 질문과 특정 현상에 영향을 미치고, 뒷받침하고, 형성하는 요인에 초점을 맞춰야 한다고 주장합니다(Charmaz, 2014). 그러나 연구자들은 훨씬 더 다양한 연구 질문을 다루기 위해 GT를 사용하는 경향이 있으며, 상담 및 심리치료 연구에서는 종종 실제 경험에 초점을 맞춘 질문이 이에 해당합니다(예: Lillie, 2006). 인터뷰는 데이터 수집의 일반적인 방법이지만 민족지학적 현장 작업/관찰 방법, 2차 자료(예: 정부 문서, 미디어 자료), 질적 조사, 일기, 사진 및 비디오 등 다양한 데이터 수집 기법을 사용할 수 있습니다(Charmaz, 2014 참조). 
Many grounded theorists argue that GT should be focused on particular types of research questions—such as social processes, and the factors that influence, underpin and shape particular phenomena (Charmaz, 2014). However, researchers tend to use GT to address a much wider variety of research questions—in counselling and psychotherapy research this is often questions focused on lived experience (e.g. Lillie, 2006). Interviewing has been the typical method of data collection, but a wider range of data collection techniques is possible, such as ethnographic field work/observational methods, secondary sources (e.g. Government documents, media items), qualitative surveys, solicited diaries, photographs and videos (see Charmaz, 2014).

Glaser(1992)의 실증주의적 반복에서 Charmaz(2014)의 구성주의적 재작업에 이르기까지 다양한 GT 버전은 서로 다른 이론적 토대를 가지고 있으며 분석 절차에서도 대부분 사소한 차이가 있습니다. 이러한 버전에 걸쳐 GT 분석 프로세스는 다양한 단계 또는 '수준'의 코딩을 포함합니다(Birks & Mills, 2015).

  • 일반적으로 초기 또는 '개방형'(줄 단위) 코딩에서
  • 보다 '선택적', '통합적' 또는 '집중형'(더 광범위하고, 더 높은 수준, 더 추상적이고, 해석적이거나 개념 지향적인) 코딩으로 이동한다.

Ranging from Glaser’s (1992) positivist iteration to Charmaz’s (2014) constructivist re-working, the various versions of GT have different theoretical underpinnings; there are also mostly minor divergences in analytic procedures. Across these versions, the GT analytic process generally involves different stages or ‘levels’ of coding—

  • moving from initial or ‘open’ (line-by-line) coding
  • to more ‘selective’, ‘integrative’ or ‘focused’ (broader, higher level, more abstract, interpretive or conceptually oriented) coding (Birks & Mills, 2015).

근거 이론가들은 코드, 개념, 범주를 구분하는데(이 용어들은 종종 혼용되어 사용되기도 함), '범주'는 성찰적 TA의 '주제'에 느슨하게 매핑됩니다. 일반적으로 GT의 결과물은 핵심 개념/카테고리 또는 때때로 계층적으로 관련된 개념/카테고리의 클러스터입니다. 코딩의 후반 단계, 특히 카테고리 개발을 목표로 하는 코딩은 재귀적 TA의 주제 개발 프로세스에 광범위하게 매핑됩니다. 그러나 GT는 TA처럼 두 가지 '수준'의 분석(코드/테마) 사이에 명확한 전환이 없는 것으로 보이는데, 이와 달리 성찰적 TA에서는 코드에서 테마가 개발되는 것이 명확하다. 
Grounded theorists distinguish between codes, concepts and categories (these terms are also often conflated in use)—categories loosely map onto themes in reflexive TA. Generally, the output of a GT is a core concept/category and/or cluster of sometimes hierarchically related concepts/categories. The later stages of coding, and particularly coding aimed at category development, broadly map onto theme development processes in reflexive TA. However, GT does not seem to have such a clear sense of transition between two ‘levels’ of analysis (codes/themes) as TA has—something particularly evident in reflexive TA where themes are developed from codes.

[라인별 코딩] 및 [지속적인 비교 분석]과 같은 근거 이론가들이 개발한 코딩 전략은 종종 TA에 기인하는 경우가 많으며, GT는 영향력이 있습니다(Charmaz & Thornberg, 2020). 우리는 때때로 성찰적 TA 내에서 이러한 전략의 옹호자로 묘사되지만, 우리는 그렇지 않습니다(Braun & Clarke, 2020). 이와는 대조적으로 Charmaz(2014)는 줄 단위 코딩을 사용하는 것이 GT를 '일반적인 주제 분석'과 구별하는 요소라고 지적했습니다(125쪽). 라인별 코딩은 세분화된 코딩부터 데이터의 모든 라인에 대한 코드 생성까지 다양한 의미를 가지며(Charmaz, 2014), 데이터를 청크로 분할하거나 구문 분석하기 전에 선행될 수 있습니다(Pidgeon & Henwood, 1996). 
GT is influential, with coding strategies developed by grounded theorists—such as line-by-line coding and constant comparative analysis—often attributed to TA (Charmaz & Thornberg, 2020). We are sometimes described as advocates of these strategies within reflexive TA, which we are not (Braun & Clarke, 2020). Charmaz (2014), in contrast, noted that the use of line-by-line coding is precisely what distinguishes GT from a ‘general thematic analysis’ (p. 125). Line-by-line coding has different meanings—from fine-grained coding to generating a code for every line of data (Charmaz, 2014)—and can be preceded by segmenting or parsing the data into chunks (Pidgeon & Henwood, 1996).

어떤 의미가 적용되든, 반사적 TA에서는 코딩이 다르게 접근됩니다. 

  • 분석을 위해 데이터를 세분화할 필요가 없고,
  • 모든 데이터(라인)에 코드를 적용할 필요는 없으며,
  • 연구의 목표와 목적에 따라 필요한 만큼 세밀하게 또는 거칠게 코딩할 수 있습니다.

'지속적인 비교 분석'은 데이터를 이해하고 효과적으로 코딩하고 분석하기 위해 [데이터 비트와 다른 데이터 비트, 코드와 코드, 범주와 범주]를 비교하는 전략을 효과적으로 일컫는 복잡한 이름입니다(Birks & Mills, 2015). 넓은 의미에서 모든 형태의 질적 데이터 분석은 예를 들어 데이터의 특정 부분이 이 코드 또는 저 코드로 가장 잘 코딩되는지, 또는 이 프로세스 또는 저 프로세스의 증거인지 등을 고려하는 것을 포함한다. 그렇기에 일반적으로 좋은 질적 분석에서는 지속적인 비교 분석으로 캡슐화된 '아이디어'가 핵심입니다. 그러나 명명되고 체계화된 기법으로서 지속적인 비교 분석은 특히 GT와 관련이 있습니다.
Whichever meaning applies, coding is approached differently in reflexive TA:

  • data do not need to be segmented for analysis,
  • not all data (lines) need to have codes applied, and
  • coding can be as fine grained or as coarse as is required to address the aims and purpose of the research.

‘Constant comparative analysis’ is a complex name for what is effectively a strategy of comparing bits of data with other bits of data, codes with codes and categories with categories, in order to make sense of the data, and code and analyse it effectively (Birks & Mills, 2015). In the broadest sense, all forms of qualitative data analysis involve consideration of whether a specific segment of data is, for example, best coded with this code or that code, or evidence of this or that process, and so on—making the ‘idea’ encapsulated by constant comparative analysis core in good qualitative practice generally. But as a named and systematised technique, constant comparative analysis is specifically associated with GT.

완전히 실현된 GT는 종종 GT 전체를 포괄하고 설명하는 핵심 범주와 핵심 범주와 관련된 다양한 하위 범주를 개발하는 데 중점을 둡니다(Birks & Mills, 2015). GT는 현재 'GT-lite'라는 축약된 형태로 자주 사용됩니다(Braun & Clarke, 2006, 2013).

  • 코딩 및 범주화, 메모 작성, 지속적인 비교 분석과 같은 GT의 필수 절차가 많이 사용되지만, 샘플은 종종 GT와 관련된 '최대 변동' 샘플보다는 더 작고 상대적으로 균질한 경향이 있습니다(Fassinger, 2005).
  • GT 라이트 버전에서는 데이터 수집과 분석이 반드시 동시에 이루어지는 것은 아닙니다.
    • Charmaz와 Thornberg(2020)는 최근 데이터 수집과 분석의 동시 진행이 GT의 특징이라고 강조했습니다(즉 '이론적 샘플링'의 활용을 통해 분석과 함께 샘플이 개발되는 것. 이 때 개발 중인 분석이 지속적인 참여자 선정에 정보를 제공하는 것).
  • GT의 샘플링 및 분석 개발과 관련된 핵심 개념인 포화(이론적 샘플링/데이터 수집이 중단되는 시점으로 광범위하게 정의됨)는 데이터 수집이 '새로운 인사이트를 생성하지 않는' 시점으로 축소되는 경우가 많습니다(Braun & Clarke, 2019b). '포화도'는 (세부적인 동시 데이터 분석보다는) 데이터 수집 중 연구자의 데이터에 대한 느낌에 따라 결정되는 경우가 많습니다.
    • 반면 초기 GT이론적 포화는 범주의 속성과 범주 간의 관계가 충분히 설명되어 근거 이론이 나올 수 있는 시점을 나타냅니다(Morse, 2015).
  • 마지막으로, 축약된 GT분석 결과범주 또는 테마의 집합과 이러한 범주 간의 관계에 대한 이해(때로는 모델 형태로 표현됨)입니다.

A fully realised GT often centres on the development of a core category that encompasses and explains the GT as a whole, alongside various subsidiary categories related to the core category (Birks & Mills, 2015). GT is now very often used in an abbreviated form we have sometimes referred to as ‘GT-lite’ (Braun & Clarke, 2006, 2013).

  • Although many of the essential procedures of GT, such coding and categorising, memo writing and constant comparative analysis, are used, samples tend to be smaller and relatively homogenous, rather than the ‘maximum variation’ samples often associated with GT (Fassinger, 2005).
  • In GT-lite versions, data collection and analysis is not necessarily concurrent.
    • Charmaz and Thornberg (2020) recently emphasised that concurrent data collection and analysis—samples developed in concert with analysis through the use of ‘theoretical sampling’, where the developing analysis informs the ongoing selection of participantsis a defining feature of GT.
  • Saturation, a key notion around sampling and analytic development for GT (broadly defined as the point at which theoretical sampling/data collection ceases), is often watered down to the point at which data collection is generating ‘no new insights’ (Braun & Clarke, 2019b). ‘Saturation’ is often determined by the researcher's impression of the data during data collection, rather than on detailed concurrent data analysis.
    • In contrast, theoretical saturation in early GT represented the point at which the properties of categories and the relationships between categories were fully explained so that a grounded theory could arise (Morse, 2015).
  • Finally, the analytic output from an abbreviated GT is a set of categories or themes and an understanding of the relationship between these categories (sometimes represented in the form of a model).

이렇듯, 축약된 GT를 사용하면 TA와 사실상 구분할 수 없는 분석 결과를 도출하는 경우가 많습니다. 
This abbreviated use of GT often produces an analysis that is, effectively, indistinguishable from that of TA.

유사한 분석의 가능성을 고려할 때, 언제 GT 대신 성찰적 TA를 사용해야 할까요? 이러한 답변은 'GT'를 단순히 주제를 식별하는 기법으로 개념화하는 것은 GT에 해를 끼칠 뿐만 아니라, 더 적합한 방법을 활용하지 못하는 것이다는 우리의 입장을 반영한 것입니다. 따라서 다음 중 하나 이상에 해당하는 경우 성찰적 TA를 사용하는 것이 좋습니다:
Given the potential for similar analysis, when might you use reflexive TA rather than GT? Our response reflects our position that conceptualising ‘GT’ simply as techniques for identifying themes both does disservice to GT, and fails to utilise a better-suited method. So, our advice is to use reflexive TA when one or more of the following apply:

  • 연구자가 질적 연구 여정을 시작할 때. TA는 GT보다 더 간단하고 절차가 적고 덜 복잡하며 명확한 경로가 있습니다.
  • [연구 질문]이 GT에 특별히 적합한 질문이 아닌 경우(가장 바람직한definitive GT 연구 질문은 사회적 프로세스에 중점을 둡니다).
  • [목표]는 데이터에서 패턴을 식별하고, 그 패턴을 설명 및 해석하거나, 이론적으로 근거가 있는 해석을 제공하는 것입니다.
  • 연구자는 데이터 세트와 분석을 통해 근거 이론을 개발하려는 [의도]가 없습니다.
  • 데이터는 분석 개발과 무관하게 수집됩니다(즉, 이론적으로 표본을 추출하려는 의도가 없음).
  • 질적 연구에서 흔히 볼 수 있는 '편의' 표본의 경우처럼 표본이 상대적으로 작거나 균질합니다(Braun & Clarke, 2013).
  • 특정하고 촉박한 마감일에 의해 시간이 제한됩니다. 반사적 TA는 빠르지는 않지만 '전체' GT 프로젝트보다는 빠를 수 있습니다.
  • When a researcher is beginning their qualitative research journey. TA is more straightforward than GT, the procedures are fewer and less complex, and there is a clearer pathway through them.
  • The research questions are not those particularly suited to GT (the definitive GT research question centres on social processes).
  • The goal is to identify patterns in data, to describe and interpret those patterns, and/or to provide a theoretically informed interpretation of them.
  • The researcher does not intend to develop a grounded theory from the data set and analysis.
  • Data are collected independent from the analytic development (i.e. there is no intention to sample theoretically).
  • The sample is relatively small and/or homogenous—as is often the case with samples of ‘convenience’ that are common in qualitative research (Braun & Clarke, 2013).
  • Time is limited by a particular and tight deadline. Reflexive TA, while not quick, can be faster than a ‘full’ GT project.

 

주제 분석과 (패턴 기반) 담화 분석의 차이점은 무엇인가요?
What are the differences between thematic analysis and (pattern-based) discourse analysis?

DA는 오랫동안 비판적 질적 연구를 정의하는 (유일한) 접근 방식이었습니다. 모든 형태의 DA는 언어를 단순히 참가자의 생각과 감정을 투명하게 반영하는 것이 아니라, (언어가) 활동적이고 수행적이며, 일을 하고, 현실을 이끌어내는 사회적 실천으로 보는 관점에 기반을 두고 있습니다. 따라서 DA는 언어 연습에 초점을 맞추는 것으로 이해할 수 있습니다(Braun & Clarke, 2013). 그러나 GT와 마찬가지로 DA에 대한 구체적인 접근 방식은 사회과학과 보건과학 내에서도 매우 다양합니다. 담화 심리학(Wiggins, 2016), 대화 분석에 기반한 접근법(Madill et al., 2001) 등 일부는 언어 사용의 미시적 세부 사항에 더 초점을 맞춥니다. 해석적 레퍼토리 분석(Wetherell & Potter, 1992)이나 포스트구조주의적 DA(Gavey, 1989)와 같은 다른 접근 방식은 보다 광범위한 담화 패턴이나 주제에 대해 이야기하는 방식에 더 중점을 둡니다. 더 많은 변형이 있습니다.
DA has long been the defining approach of critical qualitative research. All forms of DA are underpinned by a view of language as a social practice, something active and performative, doing things, and bringing forth realities, rather than merely transparently reflecting participants’ thoughts and feelings. Thus, DA can be understood as focusing on language practice (Braun & Clarke, 2013). But, as with GT, specific approaches to DA vary widely, even just within the social and health sciences. Some—such as discursive psychology (Wiggins, 2016), an approach informed by conversation analysis (Madill et al., 2001)—are more focused on the micro details of language practice. Others—such as interpretative repertoire analysis (Wetherell & Potter, 1992) and poststructuralist DA (Gavey, 1989)—focus more on broader discursive patterns or ways of talking about a topic. There are many more variations.

성찰적 TA는 일부 담화 분석 접근 방식이 제공하는 언어 사용의 세부적이고 세분화된 분석을 위한 도구를 제공하지 않습니다. 그러나 어떤 종류의 비판적 질적 이론적 틀(예: 구성주의[Gergen, 2015], 포스트구조주의[Gavey, 1989]) 내에서 구현될 때, 패턴 기반 담화 접근법(Braun & Clarke, 2013)과 유사한 것을 제공할 수 있습니다. 여기에는 앞서 언급한 해석적 레퍼토리 분석, 특히 포스트구조주의적 DA가 포함됩니다. 이러한 패턴 기반 DA는 언어 사용의 미시적인 세부 사항보다는 데이터에서 '담화' 또는 '해석적 레퍼토리'라고 불리는 보다 거시적인 의미 패턴에 분석의 초점을 맞추기 때문에 '패턴 기반 DA'라고 불렀습니다.

  • 예를 들어, 기독교 치료사와 함께 일하기로 선택한 기독교 상담 내담자와의 인터뷰에 대한 해석적 레퍼토리 분석에서 Greenidge와 Baker(2012)는 각각 두 가지 해석적 레퍼토리로 구성된 '내담자 담화'와 '기독교 담화'를 개발했습니다. 저자들은 이러한 레퍼토리(예: '상담은 비즈니스 거래', '상담사는 도움을 주도록 훈련받은 전문가')가 상담, 치료사, 치료 관계를 어떻게 구성하고 내담자를 어떻게 포지셔닝하는지를 탐구했습니다.

구성주의 또는 포스트구조주의에 기반한 동일한 데이터에 대한 성찰적 TA도 매우 유사한 분석을 도출할 수 있을 것으로 예상됩니다.
Reflexive TA does not provide tools for a detailed and fine-grained analysis of language practice that some discourse analytic approaches offer. But, when implemented within a critical qualitative theoretical framework of some kind (e.g. constructionism [Gergen, 2015], poststructuralism [Gavey, 1989]), it can offer something akin to what we have elsewhere described as pattern-based discursive approaches (Braun & Clarke, 2013). These include the aforementioned interpretative repertoire analysis and, particularly, poststructuralist DA. We dubbed these pattern-based DA because their overriding analytic focus is on more macro patterns of meaning—whether called ‘discourses’ or ‘interpretative repertoires’—in data, rather than on the more micro details of language practice.

  • For example, in an interpretative repertoire analysis of interviews with Christian counselling clients who chose to work with a Christian therapist, Greenidge and Baker (2012) developed a ‘client discourse’ and a ‘Christian discourse’, each constituted by two interpretative repertoires. The authors explored how these repertoires (e.g. ‘counselling is a business deal’ and ‘counsellors are professionals trained to help’) constructed counselling, therapists and the therapeutic relationships and positioned the clients.

We imagine that a reflexive TA of the same data, informed by constructionism or poststructuralism, could produce a very similar analysis.

패턴 기반 DA와 성찰적 TA의 이러한 유사성 외에도, 테리(2016)는 성찰적 TA의 이론적 유연성이 '[...] 다원적 분석 접근 방식에 이상적으로 적합하다'(104쪽)고 주장했습니다. 그는 담론적 접근 방식과 함께 TA를 사용하는 데 많은 가치를 인식했으며, 이러한 반사적 TA의 특정 표현을 '비판적 TA'라고 설명했습니다.
Beyond this similarity between pattern-based DA and reflexive TA, Terry (2016) argued the theoretical flexibility of reflexive TA ‘makes it ideally suited to […] a pluralistic analytic approach’ (p. 104). He perceived much value in using TA in combination with discursive approaches, describing this particular rendition of reflexive TA as ‘critical TA’.

주제적 분해와 주제적 DA를 포함하여 TA와 DA의 요소를 결합담론적 접근법도 확립되어 있습니다. 주제별 분해는 이 두 가지 접근법 중 더 널리 사용되는 접근법이며 영국의 비판 심리학자 Stenner(1993)와 가장 밀접한 관련이 있습니다. 이 접근 방식은 언어 및 기타 의미화 관행을 통해 의미가 사회적으로 구성되는 것으로 개념화되는 담론적 프레임워크 안에 위치합니다. 주제적 분해에는 TA에 대한 코드북 접근 방식과 유사하게 코딩과 주제 식별이 포함되며, 포스트구조주의 프레임워크 내에서 주제가 개발됩니다(Stenner 외., 2010). 포스트구조주의 담론적 접근법은 종종 [인격personhood의 담론적 생산]과 [담론이 특정 주체의 위치, 즉 '말하고 행동할 수 있는 담론적 위치'를 제공하는 방식]에 관심을 갖습니다(Willig, 2013, 132쪽). 주제 분해에 대한 포스트구조주의의 영향은 주제가 주관적 의미(예: Stenner 외, 2010), 주관성(예: Gurevich 외, 2007) 또는 주체 위치(예: Ussher 외, 2014)와 관련된다는 개념에서 분명하게 드러납니다.
There are also established discursive approaches that combine elements of TA and DA within their method, including thematic decomposition (Stenner, 1993; Stenner et al., 2010) and thematic DA (Singer & Hunter, 1999; Taylor & Ussher, 2001). Thematic decomposition is the more widely used of these two approaches and is most strongly associated with British critical psychologist Stenner (1993). The approach is situated within a discursive framework in which meanings are conceptualised as socially constituted through linguistic and other signifying practices. Thematic decomposition involves coding and the identification of themes, similar to codebook approaches to TA, with themes developed within a poststructuralist framework (Stenner et al., 2010). Poststructuralist discursive approaches are often concerned with the discursive production of personhood and the ways in which discourses make available particular subject positions, or ‘discursive locations from which to speak and act’ (Willig, 2013, p. 132). The influence of poststructuralism on thematic decomposition is apparent in the notion that themes relate to subjective meanings (e.g. Stenner et al., 2010), subjectivities (e.g. Gurevich et al., 2007) or subject positions (e.g. Ussher et al., 2014).

패턴 기반 DA를 활용하지 않고, 구성주의 또는 포스트구조주의 이론적 틀 내에서 성찰적 TA를 사용하거나, DA의 요소와 TA를 결합하는 경우는 언제, 왜인가요? 이러한 방법들이 제공할 수 있는 부분이 상당히 중복된다는 점을 고려할 때, 여기서는 주로 실용적인 이유를 반영하여 답변합니다. 트위터는 다음 중 하나 이상이 해당될 때 중요한 형태의 재귀적 TA가 더 유용하다고 생각합니다:
When and why would you use reflexive TA within a constructionist or poststructuralist theoretical framework, or combine TA with elements from DA, rather than utilise pattern-based DA? Given that there is considerable overlap in what these methods can provide, our response here reflects mainly pragmatic reasons. We feel that critical forms of reflexive TA are more useful when one or more of the following apply:

  • 연구자가 질적 연구를 처음 접하는 경우. 성찰적 TA는 실용적인 지침을 많이 제공하는 반면(예: Braun & Clarke, 2006, 2013; Braun et al., 2014, 2019), DA의 절차는 덜 구체적이고 지침보다는 개념, 아이디어 및 관행에 기반하는 경우가 많습니다. 지침이 제공되더라도(예: Willig, 2013), 이론적 및 방법론적 근거가 충분하지 않으면 여전히 다소 불투명하고 이해하기 어렵고 적용하기 어려울 수 있습니다. 이는 연구 과정에 불안을 가중시킬 수 있습니다. 
    When a researcher is fairly new to qualitative research. Reflexive TA offers much in the way of practical guidance (e.g. Braun & Clarke, 2006, 2013; Braun et al., 2014, 2019), whereas the procedures for DA are less concrete and often based in concepts, ideas and practices, rather than guidelines. When guidance is provided (e.g. by Willig, 2013), it can be still somewhat opaque and hard to grasp and apply without a good theoretical and methodological grounding. This can add anxiety to the process.
  • 연구자가 분석에서 완전한 담론 지향에 전념하고 있는지 확신하지 못하는 경우. 
    When a researcher is not certain they are committed to a full discourse orientation in their analysis.
  • 연구 질문과 관심사가 전적으로 또는 주로 언어의 효과(예: 피험자 위치)에만 맞춰져 있지 않은 경우. 
    The research questions and interests are not solely or primarily oriented to the effects of language (such as subject positions).

2 요약
2 SUMMARY

이 백서는 상담 및 심리치료 연구자들이 여러 사례 분석 접근법 중 어떤 것이 자신의 연구에 적합한지 결정하는 데 도움을 주기 위한 도구로 고안되었습니다. TA 방법군을 소개하고, 성찰적 TA를 다른 네 가지 영향력 있는 질적 분석 방법 및 방법론(QCA, IPA, GT, DA)과 비교 및 대조했습니다. TA와 각 방법/론 사이의 철학적, 절차적 차이점과 유사점을 간략히 설명하고, 연구자가 다른 접근법보다 성찰적 TA를 선택할 수 있는 경우와 추론에 따라 다른 접근법을 사용하는 것이 더 나은 경우에 대한 평가를 제공했습니다. 우리는 이러한 [패턴 기반 접근법의 매핑과 비교 및 대조]를 중립적이라고 주장하지 않습니다(또는 완전하다고 주장하지도 않습니다8). TA 저자로서 우리는 중립적인 평가자가 아니며, 이 매핑은 심리학에 대한 우리의 훈련과 연구 가치를 반영하고 있습니다(예: Braun & Clarke, 2019a). 저희는 질적 연구, 특히 TA에서 무엇이 좋은 관행이고 나쁜 관행인지에 대한 명확한 생각을 가지고 있습니다(Braun & Clarke, 2013, 2020). 상담 및 심리치료 연구에서의 사례 간 접근에 대한 다른 설명(예: McLeod, 2011; Yeh & Inman, 2007)은 그 지형을 다소 다르게 매핑합니다. McLeod(2011)는 TA와 IPA를 GT의 변형으로 설명한 반면, 우리는 이러한 접근법이 GT보다 오래전부터 내려온 전통(각각 내용 분석과 현상학)에서 비롯된 것으로 보고 있습니다. 질적 분석을 수행할 때와 마찬가지로, 우리의 주관성은 질적 연구를 개념화하고 매핑하는 과정에 영향을 미칩니다. 
This paper is designed as a tool to help counselling and psychotherapy researchers decide which of several across-case analytic approaches suits their research. We introduced the TA family of methods, and compared and contrasted reflexive TA with four other influential qualitative analytic methods and methodologies: QCA; IPA; GT; and DA. We briefly outlined some of the philosophical and procedural differences and similarities between TA and each method/ology, and we offered our assessment of when a researcher might choose reflexive TA over the other approach—and, by inference, when the other approach might better be used. We do not claim this mapping of pattern-based approaches and compare and contrast exercise as neutral (nor as exhaustive8). As TA authors, we are not neutral evaluators; the mapping no doubt reflects our training in psychology and our research values (e.g. Braun & Clarke, 2019a). We have clear ideas about what constitutes good and bad practice in qualitative research, and specifically in TA (Braun & Clarke, 2013, 2020). Other accounts of across-case approaches in counselling and psychotherapy research (e.g. McLeod, 2011; Yeh & Inman, 2007) map the terrain rather differently. McLeod (2011) described TA and IPA as variants of GT, whereas we view these approaches as originating in traditions (content analysis and phenomenology, respectively) that long pre-dated GT. As in the doing of qualitative analysis, our subjectivity informs the process of conceptualising and mapping qualitative research.

여기서 우리가 시도한 것은 [사례 전반의 질적 분석을 위한 완벽한 분석 방법/논리가 항상 존재한다는 생각에 문제를 제기하는 것]입니다. 우리는 종종 두 가지 이상의 접근법이 유사한 결과를 제공하거나 연구자가 연구 질문을 해결할 수 있다는 것을 보여 주었으면 합니다. 이러한 접근법을 비교하고 '언제 TA를 해야 하는가'라는 질문을 다루면서, 우리는 무분별한 TA의 광범위한 수용이 아니라, '신성한 방법'에 대한 탐구를 피하고, 대신 분석 접근법을 선택하고 사용할 때 사려 깊고 신중한 연습을 포함하는 방법에 대한 사고 접근법을 장려하고자 합니다.
What we have attempted here is to problematise the idea that there is—always—one perfect analytic method/ology for across-case qualitative analysis. We hope we have shown that often more than one approach would deliver similar results, or allow a researcher to address their research question. In comparing these approaches, and addressing ‘when TA’ questions, we aim to encourage not widespread thoughtless uptake of TA, but an approach to thinking about method that avoids the ‘hallowed method’ quest, and instead involves thoughtful and deliberative practice in choosing and using analytic approaches.

ENDNOTES

  • 1 언어와 담론이 현실을 구성하고 사회의 생산적인 힘으로서 권력의 작동에 필수적이며 의미와 주관성을 생산한다고 보는 포스트구조주의 이론의 영향을 받은 담화 분석의 한 유형입니다. 포스트구조주의 DA는 권력과 지배적인 지식에 이의를 제기하고 도전하는 데 강한 관심을 갖는 경향이 있습니다. 또한 자아와 주관성을 단일하거나 일관된 것이 아니라 파편화되고 모순적이며 담론을 통해 생산되는 것으로 이해합니다(포스트구조주의 이론과 DA에 대한 접근 가능한 개요는 Gavey, 1989 참조). 
    1
    A type of discourse analysis informed by poststructuralist theory—which views language and discourse as constitutive of reality and integral to the operation of power as a productive force in society, producing meaning and subjectivity. Poststructuralist DA tends to have a strong interest in power, and in contesting and challenging dominant—powerful—knowledge. It also understands the self and subjectivity as not unitary or coherent, but fragmented and contradictory, and produced through discourse (see Gavey, 1989, for an accessible overview of poststructuralist theory and DA). 
  • 2 포스트 실증주의는 연구 결과에 대한 연구자의 영향력을 인정하지만, 객관적 지식은 여전히 이상적이라는 실증주의의 개선된 개념입니다. '(포스트)실증주의'라는 용어는 이 두 가지 밀접하게 관련된 가치의 경계가 모호해지는 것을 포착합니다. 
    2
    Post-positivism is a refinement of positivism—the influence of the researcher on research outcomes is recognised but objective knowledge remains the ideal. The term ‘(post)positivism’ captures the blurring of these two closely related sets of values. 
  • 3 구성주의(때로는 사회적 구성주의)는 단일한 현실과 진리라는 개념을 거부하고, 현실과 진리를 언어, 표상 및 기타 사회적 과정을 통해 생산(구성)되는 것으로 보는 이론적 전통입니다.
    • [세계를 이해하는 용어]는 [특정한 사회 정치적, 문화적, 역사적 맥락과 관련된 것]으로 간주되며,
    • [의미]는 현실의 본질에 대한 내재적 진리가 아니라, [사회적 상호 작용의 결과인 사회적 인공물]로 간주됩니다(Gergen, 2015 참조).
  • 3 Constructionism (sometimes social constructionism) is a theoretical tradition that views reality and truth—or realities and truths as it rejects the idea of a singular reality and truth—as produced (constructed) through language, representation and other social processes.
    • The terms in which the world is understood are seen as related to specific socio-political, cultural and historical contexts, and
    • meanings are seen as social artefacts, resulting from social interaction, rather than some inherent truth about the nature of reality (see Gergen, 2015). 
  • 4 TA도 마찬가지로 정량적 내용 분석에서 발전한 것으로 여겨집니다(Joffe, 2012). 
    4
    TA is similarly thought to have evolved from quantitative content analysis (Joffe, 2012). 
  • 5 이들의 성찰적 TA의 사용과 설명은 우리가 설명한 방식과 다르며, 언어(예: 긴급 코드 및 주제), 주제 개념화(주제 요약) 및 분석 과정 설명('하위 코드'와 코드북 사용, 성적표별 분석 성적표)은 부분적으로 IPA의 영향을 반영합니다. 
    5
    Their use and description of reflexive TA is not quite how we have described it, and the language (e.g. emergent codes and themes), conceptualisation of themes (topic summaries) and analytic process described (use of ‘subcodes’ and a codebook, analysis transcript by transcript) partly reflect an IPA influence. 
  • 비판적 리얼리즘은 질적 연구를 뒷받침하는 리얼리즘의 한 형태입니다. 연구를 통해 직접 관찰하거나 발견할 수 있는 단일한 현실을 가정하는 '단순' 또는 '순진한' 리얼리즘과 달리 비판적 리얼리즘은 우리가 현실을 경험하는 방식이 문화, 언어, 정치적 이해관계에 의해 형성된다는 가정을 전제로 합니다(Maxwell, 2012 참조). 
    6
    Critical realism is a form of realism that frequently underpins qualitative research. Unlike ‘simple’ or ‘naïve’ realism, which assumes a singular reality that can be directly observed or discovered through research, critical realism is premised on the assumption that how we experience reality is shaped by culture, language and political interests (see Maxwell, 2012). 
  • 7 버크스와 밀스(2015)는 GT에 대해 읽을 수 있는 접근 가능한 출발점이라고 할 수 있습니다. 
    7
    We find Birks and Mills (2015) an accessible starting point for reading about GT. 
  • 8 합의적 질적 연구(CQR; Hill et al., 1997)와 같은 다른 패턴 기반 방법론도 있는데, 여기에는 우리가 여기서 설명한 다양한 접근법의 요소가 있습니다(예: CQR의 경우, 코딩 신뢰도 TA와 구성주의적 GT); 그러나 CQR은 기본 연구 가치의 일관성을 옹호하지 않는다는 점에서 상대적으로 독특합니다. 
    8
    There are other pattern-based methodologies—like consensual qualitative research (CQR; Hill et al., 1997)—that have elements of various different approaches we have described here (e.g. in the case of CQR, coding reliability TA and constructivist GT); CQR is relatively unique however in not advocating for coherence in underlying research values. 

 


Abstract

Thematic analysis methods, including the reflexive approach we have developed, are widely used in counselling and psychotherapy research, as are other approaches that seek to develop ‘patterns’ (themes, categories) across cases. Without a thorough grounding in the conceptual foundations of a wide variety of across-case analytic approaches, and qualitative research more broadly—something rarely offered in counselling training—it can be difficult to understand how these differ, where they overlap, and which might be appropriate for a particular research project. Our aim in this paper is to support researchers in counselling and psychotherapy to select an appropriate across-case approach for their research, and to justify their choice, by discussing conceptual and procedural differences and similarities between reflexive thematic analysis (TA) and four other across-case approaches. Three of these are also widely used in counselling and psychotherapy research—qualitative content analysis, interpretative phenomenological analysis and grounded theory. The fourth—discourse analysis—is less widely used but importantly exemplifies the critical qualitative research tradition. We contextualise our comparative approach by highlighting the diversity within TA. TA is best thought of as a spectrum of methods—from types that prioritise coding accuracy and reliability to reflexive approaches like ours that emphasise the inescapable subjectivity of data interpretation. Although reflexive TA provides the point of comparison for our discussion of other across-case approaches, our aim is not to promote reflexive TA as ‘best’. Rather, we encourage the knowing selection and use of analytic methods and methodologies in counselling and psychotherapy research.

주관주의자 귀납적 패러다임을 향한 자연어처리의 진화(Med Educ, 2023)
Evolving natural language processing towards a subjectivist inductive paradigm
Brian C. Gin

 

 

인공지능(AI)이 데이터 중심 사회에서 점점 더 큰 입지를 차지하면서 언어에 초점을 맞춘 파생 기술인 자연어 처리(NLP)가 보건 전문직 교육 연구(HPER)에 진출했습니다.1 NLP는 텍스트와 문서의 질적 분석을 위한 획기적인 검색 및 자동화 도구를 약속합니다. 그러나 탄탄한 이론적, 철학적 토대가 없다면 NLP를 통한 질적 결과는 불투명하거나 최악의 경우 오해의 소지가 있을 수 있습니다. 이번 호에서 Cleland 등은 HPER에서 전통적인(즉, NLP가 아닌) 질적 문서 분석(DA)의 실행에서 유사한 이론적 결함을 지적하고 그러한 DA 연구의 신뢰성을 증진하기 위한 표준을 제안합니다.2 이들의 접근 방식은 실제로 NLP를 사용한 연구를 강화하기 위해 확장될 수 있습니다. 
As artificial intelligence (AI) takes an ever-increasing foothold in our data-driven society, its language-focused derivative, natural language processing (NLP), has made headway into health professions education research (HPER).1 NLP promises groundbreaking discovery and automation tools for the qualitative analysis of text and documents. However, without sound theoretical and philosophical foundations, qualitative results facilitated by NLP stand to be opaque, or at worst, misleading. In this issue, Cleland et al note a similar deficiency of theory in the practice of traditional (i.e. non-NLP) qualitative document analysis (DA) in HPER and propose standards to promote the trustworthiness of such DA research.2 Their approach could indeed be extended to strengthen studies using NLP.

탄탄한 이론적, 철학적 토대가 없다면 NLP를 통해 얻은 질적 결과는 불투명하거나 최악의 경우 오해의 소지가 있을 수 있습니다.
Without sound theoretical and philosophical foundations, qualitative results facilitated by NLP stand to be opaque, or at worst, misleading.

HPER에서 빠르게 증가하는 연구 모음은 본질적으로 인간 코더의 범위를 대규모 데이터세트로 확장하기 위한 '자동화된 코딩 도우미'로 NLP를 사용했습니다. 이러한 연구들은 인간 연구자의 '훈련'에 의존하는 NLP '분류기' 알고리즘을 활용했습니다. 예를 들어,

  • 부스(Booth) 등은 NLP를 활용하여 ACGME 마일스톤 하위 역량별로 내러티브 평가를 자동으로 분류하고, 인간 코더가 데이터의 하위 집합(즉, '훈련 데이터 세트')에 붙인 레이블을 모방하도록 NLP 알고리즘을 효과적으로 훈련시켰습니다. 3
  • 내러티브 평가에서 성별 편향 가능성을 찾기 위해 Andrews 등은 인간 연구자가 코드북을 개발하는 데 사용하는 작은 조각으로 내러티브를 표현하여 내러티브의 정서(즉, 긍정적 또는 부정적 정서적 가치)를 결정하는 NLP 알고리즘을 만들었고, 이 알고리즘은 전체 데이터 세트에 자동으로 적용되었습니다.4
  • 비슷한 질문을 탐구하면서 Sarraf 등은 상업적으로 훈련된 NLP 알고리즘을 사용하여 추천서의 정서를 특성화했습니다.5

이러한 사례와 그 밖의 많은 최근 HPER의 NLP 분류 사례는 철학적 입장과 이론적 가정에 대한 추가 검토를 유도하는 'NLP 지원 코딩' 방법론의 새로운 패턴을 가리킵니다. 
A rapidly growing collection of studies in HPER has used NLP, in essence, as an ‘automated coding assistant’ to extend the reach of human coders to large datasets. These studies utilised NLP ‘classifier’ algorithms that rely on some form of ‘training’ by human researchers. For example,

  • Booth et al utilised NLP to automatically classify narrative evaluations by ACGME milestone subcompetency, effectively training their NLP algorithm to mimic the labels placed by human coders on a subset of the data (i.e. a ‘training dataset’).3 
  • Searching for possible gender bias in narrative evaluations, Andrews et al created an NLP algorithm to determine the sentiment (i.e. positive or negative emotional valence) of narratives by representing them in bite-sized pieces that human researchers used to develop a codebook, which the algorithm then automatically applied to the entire dataset.4 
  • Exploring a similar question, Sarraf et al employed commercially trained NLP algorithms to characterise the sentiment of letters of recommendation.5 

These and many other recent examples of NLP classification in HPER point to an emerging pattern of ‘NLP-assisted coding’ methodologies that invite further examination of their philosophical stances and theoretical assumptions.

Cleland의 DA 연구 결과와 유사하게, 연구자들이 NLP 지원 코딩을 사용하는 기본 연구 패러다임은 종종 불분명합니다. 성찰적 주제 분석, 근거 이론, 질적 내용 분석과 같은 유비쿼터스 질적 방법론은 모두 데이터 탐색, 코드 개발, 주제 종합 사이에 어떤 형태의 반복에 의존합니다.6, 7 그러나 NLP 지원 코딩을 사용하는 경우, 반복적인 탐구 과정이 아닌 전체 데이터 세트에 고정된 코드북을 적용하는 방식으로 배포되는 경우가 많습니다. 초기 연구자가 수행한 훈련 데이터 세트의 코딩은 반복적인 귀납적 접근 방식을 통해 이루어질 수 있지만, 더 큰 전체 데이터 세트에 NLP를 일회성으로 적용하면 코드 및 테마 형성에 대한 해당 데이터의 추가 기여를 놓치게 됩니다. 따라서 현재 HPER에서 NLP를 주로 구현하는 방식은 귀납적 접근 방식이 아닌 연역적 접근 방식에 속하는 것으로 보이며, 데이터를 사용하여 가설이나 이론을 생성하기보다는 정적 학습 데이터 세트에 코드화된 가설을 데이터에 적용하는 방식입니다. 
Similar to Cleland's findings in DA, the underlying research paradigms within which researchers employ NLP-assisted coding are often unclear. Ubiquitous qualitative methodologies such as reflexive thematic analysis, grounded theory and qualitative content analysis all rely on some form of iteration between exploring data, developing codes and synthesising themes.6, 7 When NLP-assisted coding is used, however, it is often deployed by applying a fixed codebook to the entire dataset, rather than within an iterative process of inquiry. While the initial researcher-performed coding of the training dataset may occur via an iterative inductive approach, the use of NLP as a one-time application to the larger complete dataset will miss additional contributions of those data to the formation of codes and themes. Thus, the predominant implementation of NLP in HPER currently appears to fall under a deductive rather than inductive approach, applying a hypothesis—codified in a static training dataset—to data rather than using the data to generate a hypothesis or theory.

현재 HPER에서 주로 구현되는 NLP는 귀납적 접근 방식이 아닌 연역적 접근 방식에 속하는 것으로 보이며, 데이터를 사용하여 가설이나 이론을 생성하기보다는 정적 훈련 데이터 세트에 코드화된 가설을 데이터에 적용합니다.
The predominant implementation of NLP in HPER currently appears to fall under a deductive rather than inductive approach, applying a hypothesis—codified in a static training dataset—to data rather than using the data to generate a hypothesis or theory.

그렇다고 NLP가 연역적 탐구에만 사용되거나 (포스트)실증주의 패러다임 내에서만 사용 가능하다는 것은 아닙니다. 귀납적 정성적 접근 방식을 지원할 수 있는 NLP의 잠재력은 존재하지만, 현재 기술적으로 까다롭고 HPE 내에서 상대적으로 미개척 분야로 남아 있습니다. 한 가지 접근 방식은 '비지도' 주제 모델링 전략으로, NLP 알고리즘이 코드화되지 않은 데이터 세트 내에서 의미 패턴을 자동으로 검색하여 새로운 코드를 개발하는 것입니다.8 '연역적'인 것처럼 보이지만 완전히 자동화된 비지도 접근 방식은 알고리즘과 인간 연구자 간의 반복적인 협업이 수반되지 않는 한 이상적이라고 할 수 없습니다. 보다 유망한 방향은 능동형 머신 러닝과 연구자 지원 주제 모델링과 같이 연구자가 수행하는 코딩과 NLP 자동 코딩을 혼합하는 것으로 보입니다. 인간과 기계 간의 미래 협업은 알고리즘이 학습하고 의사 결정을 내리는 방식에 대한 이해, 즉 '설명 가능한 AI'의 진전에 달려 있습니다. 최신 자연어 처리 알고리즘이 텍스트 의미를 표현하는 AI의 능력을 확장함에 따라 복잡성이 증가하면서 의사 결정 과정이 모호해지고 있습니다. 이러한 불투명성은 소위 '블랙박스' 현상으로, AI 알고리즘이 복잡한 행동을 모방하도록 훈련할 수는 있지만 그렇게 학습하는 방법에 대한 인사이트는 거의 드러나지 않습니다. 인간의 마음도 마찬가지이지만, 효과적인 인간과 기계의 협업은 최종 분류에 대한 지식만 얻는 것이 아니라 NLP 알고리즘이 내부적으로 의미적 의미를 어떻게 표현하는지를 이해하는 데 달려 있습니다.9 
This is not to say that NLP can only be used for deductive inquiry or only within a (post-)positivist paradigm. The potential for NLP to assist an inductive qualitative approach exists, but it currently appears technically challenging and remains relatively untapped within HPE. One approach involves an ‘unsupervised’ topic modelling strategy whereby an NLP algorithm automatically searches for patterns of meaning within an uncoded dataset to develop de novo codes.8 Although seemingly ‘deductive’, a completely automated unsupervised approach is not ideal unless it also involves iterative collaboration between the algorithm and human researchers. More promising directions appear to involve hybrids between researcher-performed and NLP-automated coding, such as active machine learning and researcher-assisted topic modelling. Future collaboration between human and machine also depends on making progress in ‘explainable AI’—the understanding of how algorithms learn and make decisions. As newer NLP algorithms expand AI's ability to represent textual meaning, their increasing complexity obfuscates their decision-making process. This opacity is the so-called ‘black box’ phenomenon whereby an AI algorithm can be trained to mimic complex behaviour but reveals little insight into how it learned to do so. While the same can be said of the human mind, effective human–machine collaboration will depend on understanding how NLP algorithms represent semantic meaning internally, rather than gaining knowledge only of the final classifications they make.9

효과적인 인간과 기계의 협업은 NLP 알고리즘이 내부적으로 의미적 의미를 표현하는 방식을 이해하는 데 달려 있습니다.
Effective human-machine collaboration will depend on understanding how NLP algorithms represent semantic meaning internally.

마지막으로, NLP를 이용한 정성적 문서 분석의 성찰성reflexivity 문제가 있습니다. 반사적 정성적 접근 방식은 의미를 만드는 데 있어 연구자의 기여를 인정하고 존중하지만, 현재의 NLP 알고리즘은 이러한 자기 인식이 부족합니다. 학습된 NLP 알고리즘은 학습 데이터를 코딩한 연구자의 반사성을 이어받을 수 있지만, 의도하지 않은 잠재적으로 원치 않는 코딩 경향이나 편견을 분석에 도입할 수도 있습니다. 또한 NLP 알고리즘은 종종 '전이 지식'(예: 별도의 말뭉치에 대한 학습을 통해 얻은 언어에 대한 기계의 이해)으로 보완되는데, 이는 외부 학습 데이터의 편견을 항상 그대로 전달할 수 있습니다. Sarraf 등이 수행한 것처럼 상업적으로 사전 학습된 NLP 알고리즘을 사용하는 경우, 이러한 편향(및 관련 반사성)은 연구자 자신의 반사성과는 완전히 외부에 있습니다. 이러한 알고리즘 편향을 식별하고 완화하는 것은 NLP 내에서 활발히 연구되고 있는 분야입니다. 그러나 '편향되지 않은' NLP 알고리즘의 이상은 필연적으로 객관주의에 귀를 기울일 수밖에 없으며 주관주의적 관점에서는 달성할 수도 없고 원하지도 않을 수 있습니다. 따라서 NLP 알고리즘의 '반사성'은 잘 정의되어 있지 않으며, 알고리즘이 분석에서 중요한 역할을 하는 경우 연구에 비판적 노출을 남길 수 있습니다. 질적 연구의 반사성에 대한 NLP의 기여도를 정의, 평가 및 조정하는 방법을 이해하는 것은 시급히 해결해야 할 과제입니다.10
Finally, there is the issue of reflexivity in NLP-assisted qualitative document analysis. While reflexive qualitative approaches have both acknowledged and enshrined researchers' contributions to making meaning, current NLP algorithms lack such self-awareness. While a trained NLP algorithm may carry forward the reflexivity of the researchers who coded the training data, it may also introduce unintended and potentially unwelcome coding tendencies or biases into the analysis. Further, NLP algorithms are often supplemented by ‘transfer knowledge’—for example, machine understanding of language afforded by training on a separate corpus—that invariably carries forward biases from that external training data. In the case of using a commercially pre-trained NLP algorithm as was done by Sarraf et al, such bias (and any associated reflexivity) is completely external to the researchers' own reflexivity. Identifying and mitigating such algorithmic biases is an active area of research within NLP. However, the ideal of ‘unbiased’ NLP algorithms inevitably hearkens to objectivism and may neither be achievable nor desired from a subjectivist perspective. As such, the ‘reflexivity’ of an NLP algorithm is not well defined and may leave a study critically exposed if the algorithm plays a significant role in the analysis. Understanding how to define, assess and tune the contribution of NLP to a qualitative study's reflexivity needs to be urgently addressed.10

질적 연구의 반사성에 대한 NLP의 기여도를 정의, 평가 및 조정하는 방법을 이해하는 것은 시급히 해결해야 할 과제입니다.
Understanding how to define, assess and tune the contribution of NLP to a qualitative study's reflexivity needs to be urgently addressed.

특히 임상 학습 환경을 사회적으로 구성된 것으로 간주할 때, 연역적 (후기) 실증주의 접근법을 지향하는 NLP 지원 DA 연구의 암묵적 경향은 많은 HPER 연구자들이 DA를 통해 답을 구하고자 하는 주관주의적 연구 질문과 상반될 수 있습니다. NLP를 주관주의 귀납적 패러다임으로 전환하는 것은 연구자와 AI '어시스턴트' 모두를 협력적이고 투명한 탐구 프로세스로 초대하는 새로운 NLP 전략을 개발하는 데 달려 있습니다. 한편, Cleland 등이 개발한 CARDA 체크리스트를 사용하면 AI 기술의 클라우드가 빠르게 진화하는 동안에도 NLP 지원 DA 연구가 이론적, 철학적 토대 위에 확고하게 자리 잡을 수 있습니다.
The implicit tendency of NLP-assisted DA studies towards a deductive (post-)positivist approach may stand in contrast to subjectivist research questions that many HPER researchers seek to answer via DA, particularly when considering the clinical learning environment as socially constructed. Moving NLP towards a subjectivist inductive paradigm will depend upon developing new NLP strategies that invite both researchers and their AI ‘assistants’ into a collaborative and transparent process of inquiry. In the meantime, use of the CARDA checklist by Cleland et al can keep NLP-assisted DA studies firmly situated on their theoretical and philosophical underpinnings while the clouds of AI technology rapidly evolve.

NLP를 주관주의 귀납적 패러다임으로 전환하는 것은 연구자와 AI '어시스턴트' 모두를 협력적이고 투명한 탐구 과정으로 초대하는 새로운 NLP 전략을 개발하는 데 달려 있습니다.
Moving NLP towards a subjectivist inductive paradigm will depend upon developing new NLP strategies that invite both researchers and their AI ‘assistants’ into a collaborative and transparent process of inquiry.


Med Educ. 2023 May;57(5):384-387. doi: 10.1111/medu.15024. Epub 2023 Feb 15.

Evolving natural language processing towards a subjectivist inductive paradigm

Affiliations collapse

1Department of Pediatrics, University of California San Francisco, San Francisco, California, USA.

PMID: 36739578

DOI: 10.1111/medu.15024

인공지능 학술활동: 보건의료전문직 연구에서 LLM (Adv Health Sci Educ Theory Pract. 2023)
Artificial scholarship: LLMs in health professions education research
Rachel H. Ellaway1 · Martin Tolsgaard2

0

이 사설은 누가 썼나요? 저자로 우리 두 명이 이름을 올렸는데, 이 논문이 인공지능(AI)이 작성한 것이 아니라고 어떻게 확신할 수 있을까요? 아니면 AI가 공개되지 않은 제3의 저자였다면 어떻게 해야 할까요? 또는 이 논문이 작성된 시점부터 여러분 앞에 도착할 때까지 여러 AI에 의해 편집되었다면 어떻게 해야 할까요? 인간과 기계를 구분할 수 없거나 학술 논문이 인간과 AI가 생성한 자료의 혼합물인 경우 이 작업은 어떤 권한을 갖나요? 이러한 작업에 대한 책임은 누가 지나요? 학문에 어떤 영향을 미칠까요? 이것이 이 사설의 출발점입니다. 
Who wrote this editorial? There are two of us named as authors, but how can you tell that this paper wasn’t written by a some kind of artificial intelligence (AI)? Or perhaps an AI was an undisclosed third author, what then? Or what if this paper has been edited by multiple AIs between the time we wrote it and it arrived in front of you? What authority does this work have if you cannot tell humans from machines, or you cannot tell when an academic paper is a hybrid of human and AI generated material? Who is accountable for such work? What are the implications for scholarship? These are the starting points for this editorial.

우려 사항
Concerns

인공지능에 대한 실질적인 연구와 개발은 차치하고서라도, 인공지능은 오랫동안 문화적 밈이 되어 왔으며, 거의 항상 위협적인 존재로 묘사되어 왔습니다(예: HAL, 매트릭스, 다양한 터미네이터, 울트론 등). 인공지능을 실제로 만나기 시작한 지금, 인공지능이 유용한 기술인지 아니면 실존하는 위협인지에 대해 의견이 분분한 것은 당연한 일입니다. 그렇다면 '인공지능'이란 무엇을 의미할까요? 현재 대부분의 대화는 대규모 언어 모델(LLM)로 알려진 도구 제품군 중 가장 잘 알려진 ChatGPT를 언급하고 있으며, 다른 도구로는 Google Bard와 Microsoft Bing 등이 있습니다. 이러한 LLM은 복잡한 텍스트 입력을 처리하고 사람이 생성한 것과 구별하기 어려운 텍스트 응답을 제공할 수 있습니다. 이러한 새로운 LLM의 힘과 능력 때문에 Springer Nature(출판사)는 출판하는 논문에 LLM을 저자로 등재하는 것을 금지하고 있습니다: 
Setting aside the substantial research and development into AI, artificial intelligence has long been a cultural meme, almost always portrayed in terms of a threat (such as HAL, The Matrix, various Terminators, and Ultron, to name but a few). Not surprisingly then, now that we are beginning to encounter very real artificial intelligences, opinions are divided as to whether they are useful technologies or existential threats. But what do we mean by ‘AI’? Currently, much of the conversation refers to ChatGPT, which is currently the best known of a family of tools known as large language models (LLMs); others include Google Bard and Microsoft Bing. These LLMs can process complex textual inputs and provide textual responses that can be hard to distinguish from those generated by humans. Such is the power and capacity of these emerging LLMs that Springer Nature (our publisher) has banned LLMs from being listed as authors on articles it publishes:

"첫째, 어떤 LLM 도구도 연구 논문의 공저자로 인정되지 않습니다. 저자의 귀속에는 작업에 대한 책임이 수반되며, 기계로서의 AI는 그러한 책임을 가질 수 없기 때문입니다. 둘째, LLM 도구를 사용하는 연구자는 방법 또는 인정 섹션에 이러한 사용을 문서화해야 합니다." (Anon 2023)
“First, no LLM tool will be accepted as a credited author on a research paper. That is because any attribution of authorship carries with it the expectation of accountability for the work, and AIs as machines cannot have such responsibility. Second, researchers using LLM tools should document this use in the methods or acknowledgements sections.”
 (Anon 2023)

실제로 우리는 이미 학술 논문을 작성하기 위해 LLM을 사용하는 연구자들과 비인간 저자를 식별하고 잠재적으로 차단하기 위해 LLM 탐지 도구를 개발하는 출판사 간에 군비 경쟁을 벌이고 있는 것처럼 보입니다. AI를 활용하는 학자와 그렇지 않은 학자를 구분하는 것이 중요한 이유는 무엇일까요? 기존의 LLM이 진정으로 생성적이라고 가정한다면(물론 새로운 구성이긴 하지만 이미 쓰여진 것을 재현하는 경우가 많기 때문에 과장된 표현일 수 있습니다), 이러한 이유만으로 그들의 도움을 받아 생산된 과학이 반드시 열등한 것일까요? 이전 시대에도 비슷한 우려가 제기되었습니다(예: 라디오, 텔레비전 또는 인터넷을 도입할 때)(Rosen et al., 1987). 다시 말해, LLM이 사람보다 더 잘 쓰여지고, 편향성이 적고, 간결하고, 접근성이 높은 논문을 작성할 수 있다면 그 논문이 더 우수한 결과물이 아닐까요? 물론 이것은 글쓰기의 '방법'과 '내용'을 분리하는 것으로, LLM이 잘 쓰여진 논문을 작성할 수 있을지는 몰라도 무엇을 쓰고 있는지, 정보와 아이디어가 어디에서 나오는지에 대한 의문은 여전히 남아 있습니다. 이는 논문에 이름을 올린 모든 저자가 반드시 지켜야 할 학술적 저자에 대한 ICMJE의 권고 사항의 기본 원칙입니다: 
Indeed, we already seem to be in an arms race between those using LLMs to generate academic papers and publishers developing LLM detection tools to identify and presumably stop non-human authorship. Why is it important to distinguish between AI-augmented scholars and those who are not using AI? Assuming that the existing LLMs are truly generative (which admittedly may be a stretch since they often reproduce what has already been written, albeit in new configurations), is the science produced with their help necessarily inferior for this reason alone? Similar concerns were voiced in previous eras (for example, when introducing the radio, television, or the Internet (Rosen et al., 1987). Put another way, if an LLM can produce a paper that is better written, less biased, more concise, and more accessible than a human can then is that not a superior product? Of course, this separates the ‘how?’ of writing from the ‘what?’, an LLM might be able to produce a well-written paper but there is still the question as to what is being written about and where the information and ideas come from. It is a fundamental tenet of the ICMJE’s recommendations on academic authorship that all named authors on a paper have made:

"저작물의 개념 또는 설계, 또는 저작물을 위한 데이터의 수집, 분석 또는 해석에 대한 실질적인 기여, 저작물의 초안 작성 또는 중요한 지적 내용에 대한 비판적 수정, 출판될 버전의 최종 승인, 저작물의 정확성 또는 무결성과 관련된 문제가 적절히 조사되고 해결될 수 있도록 저작물의 모든 측면에 대해 책임을 지는 데 동의합니다." (ICMJE nd)
“Substantial contributions to the conception or design of the work; or the acquisition, analysis, or interpretation of data for the work; AND drafting the work or revising it critically for important intellectual content; AND final approval of the version to be published; AND agreement to be accountable for all aspects of the work in ensuring that questions related to the accuracy or integrity of any part of the work are appropriately investigated and resolved.”
 (ICMJE nd)



이를 위해서는 LLM이 연구를 공동 설계하고, 연구 실행에 밀접하게 참여했으며, 논문 작성에 밀접하게 관여하고, 논문을 승인하고, 저자가 될 자격을 갖추기 위해 책임을 져야 합니다. 저술에 기여하는 것만으로는 충분하지 않습니다. AHSE는 ICMJE의 권고사항을 전적으로 지지하며, 이러한 권고사항은 저자의 역량에 중점을 두고 있습니다. 이번 호의 '누가 이 논문의 저자가 되어야 하는가'에 대한 질문과 답변 기사도 참조하시기 바랍니다(Kuper 외. 이번 호).
This would require an LLM to have co-designed a study, been intimately part of its execution, been intimately involved in writing the paper, approved it, and stood accountable for it to be eligible to be an author. Contributing to the writing alone is not sufficient. AHSE fully supports the ICMJE recommendations and these firmly centre on the capabilities of human authors. Please also see this issue’s Questions and Queries article on ‘Who Should Be an Author on This Paper?’ (Kuper et al. THIS ISSUE).

스프링거 네이처에 게재된 논문을 포함하여 출판되고 있는 많은 입장 논문과 관점에서는 이러한 문제만이 제기되고 있는 것은 아닙니다. 예를 들어, Seghier 단일 언어(영어)와 문화(미국)가 지배하는 기술에 대한 형평성과 문화적 우려에 대해 언급했습니다:
These are not the only issues being raised in the many position papers and perspectives being published including those in our own Springer Nature imprint (see https://www.nature.com/search?q=chatgpt&order=relevance) For instance, Seghier noted equity and cultural concerns of a technology dominated by a single language (English) and culture (US):

"프랑스어와 아랍어는 세계에서 가장 일반적으로 사용되는 언어 중 하나이며 인터넷에서 널리 사용되고 있습니다. 하지만 ChatGPT에서 두 언어의 풍부한 응답과 글의 명료성은 영어에 비해 현저히 떨어졌습니다." (세기어 2023)
“French and Arabic are among the world’s most commonly spoken languages and they have a widespread presence on the Internet. However, the richness of ChatGPT’s response and the intelligibility of its writing in both languages were notably inferior to those in English.”
 (Seghier 2023)

잠재적 이점
Potential benefits

'기계의 부상'을 두려워하고 저항해야 할까요? 글쎄요, 반드시 그럴 필요는 없습니다. LLM이 유용한 역할을 할 수 있는 것은 분명합니다. 예를 들어, 의학 교육 문헌이 영어권 국가와 영어를 제2외국어로 구사하는 사람들의 기여에 의해 주도되고 있다는 점을 고려할 때, 언어가 이미 영어가 모국어가 아닌 사람들을 불리하게 만드는 장벽을 형성하고 있습니다. 이러한 맥락에서 언어 장벽을 줄일 수 있는 방식으로 원고를 번역하고 교정하는 데 LLM을 활용할 수 있으며, 이를 통해 영어가 모국어가 아닌 국가의 학술적 작업이 보다 동등한 입장에서 고려될 수 있습니다. 물론 영어를 모국어로 사용하는 사람 중에도 이러한 교정의 혜택을 받을 수 있는 사람이 많습니다. 실제로 제출하기 전에 이미 LLM을 통해 자신의 글을 교정하는 동료들이 있습니다. 이것이 적절하지 않다고 생각한다면 Grammarly나 맞춤법 검사기를 사용하는 것과 어떤 차이가 있는지 스스로에게 물어보세요. 이러한 종류의 질문에 대한 답은 LLM을 통해 얼마나 많이 변경되거나 '개선'되고 있는지에 달려 있습니다. 예를 들어, AI 커뮤니티에서 몇몇 유명 학회에서는 제출된 저작물을 생성하는 데 LLM을 사용하는 것을 금지하고 있지만, 사람이 생성한 콘텐츠를 다듬는 데는 허용하고 있습니다. (Vincent, 2023) 
Is this ‘rise of the machines’ to be feared and resisted? Well, not neccessarily, clearly LLMs can play useful roles. For instance, given that the medical education literature is dominated by contributions from English-speaking countries and those competent in English as a second language, language already creates a barrier that puts non-native English speakers at a disadvantage. In this context, LLMs could be used to translate and correct manuscripts in ways that could reduce language barriers, thereby allowing scholarly work from non-native English-speaking countries to be considered on a more equal footing. Of course, there are also many native English speakers whose writing could benefit from this kind of copy-editing. Indeed, we have colleagues who are already using LLMs to proof their written work prior to submission. If you think this is not appropriate, then ask yourself how different this is from using Grammarly or a spell checker. Answering these kinds of questions comes down to how much is being changed or ‘improved’ by the LLM. For example, in the AI community, several high-profile conferences have prohibited the use of LLMs in generating work submitted to them, but they allow its use in refining human-generated content. (Vincent, 2023)

작문 지원만이 보건 전문직 교육 연구에서 LLM의 유일한 잠재적 역할은 아닙니다. 예를 들어 문헌 검토를 위해 정보를 수집하거나 정보를 신속하게 종합하는 데 LLM을 활용할 수 있습니다. 체계적 문헌고찰을 지원하는 사서의 업무를 LLM에게 맡기는 것은 어떨까요? 이 작업은 사람을 고용하는 것보다 더 빠르고 저렴할 수 있지만, 연구 과정에서 점점 더 많은 사람을 배제할 경우 어떤 영향을 미칠지 예측하기 어려울 수 있습니다. 넘지 말아야 할 윤리적 선이 있지만, 그 선이 어디에 있는지, 상황에 따라 언제 어떻게 변하는지는 여전히 불분명합니다. 
Writing support is not the only potential role for LLMs in health professions education research. LLMs could be used to gather information, for instance for a literature review, or conduct a rapid synthesis of a body of information. What about getting LLMs to do the work of librarians in support of systematic reviews? This might be faster and cheaper than engaging humans to do this work but the impacts of removing more and more humans from research processes may be unpredictable at best. There are ethical lines that will need to be drawn (and not crossed), but quite where these lines are and how and when they shift according to context remains unclear.

학술 업무에서의 윤리와 진실성
Ethics and Integrity in Academic Work

학술적 글쓰기에 AI를 사용하는 것에 반대하는 사람들이 모든 기술적 지원을 피하려는 것이 아니라는 점에 유의하는 것이 중요합니다. 많은 학자들이 Grammarly와 같은 도구를 사용하여 글쓰기에 도움을 받을 뿐만 아니라 참조 관리자, 데이터베이스, 기타 다양한 웹 서비스 및 리소스를 사용하고 있습니다. 실제로 이 사설은 저자들의 노트북에서 Microsoft Word를 사용하여 작성되었고, 캘거리와 코펜하겐에서 이메일을 통해 초안을 교환했으며, 스프링거의 도구와 기술을 사용하여 이 원고를 제출하고 처리했습니다.

  • 이것이 허용되는 증강이라면 허용되는 AI 증강과 허용되지 않는 AI 증강 사이에 의미 있는 경계를 어떻게 그릴 수 있을까요?
  • 직업적 무결성과 책임감을 잃지 않으면서 기술 사용이나 의존을 어느 정도까지 허용할 수 있을까요(또는 허용할 수 있을까요)?

It is important to note that those opposing the use of AI in academic writing are not seeking to eschew all technological supports. Many scholars use tools such as Grammarly to help them in their writing, as well as using reference managers, databases, and a cornucopia of other Web services and resources. Indeed, this editorial was written on the authors’ laptops using Microsoft Word, we exchanged drafts between Calgary and Copenhagen via email, and we submitted and processed this manuscript using Springer’s tools and technologies.

  • If these are acceptable augmentations, then how do we draw a meaningful boundary between accepted and non-accepted AI-augmentation?
  • How much technology use or dependence can there be (or will we accept) without losing professional integrity and accountability?

결국, 이러한 기술이 오용될 수 있는 만큼 아이디어 생성, 텍스트 초안에 대한 피드백 받기, 언어 수정, 구조 제공, 반복적인 작업 완료 등 매우 유용할 수도 있습니다. 또한, 아직은 권장할 만한 수준은 아니지만, 궁극적으로는 AI를 사용하여 학술지에 제출된 논문을 선별하고, 인간 심사자를 확보할 수 없는 경우 심사자를 대신할 수도 있습니다. 심지어 언젠가는 일부 저널이 거의 전적으로 AI에 의해 운영될 수도 있습니다. 그렇게 되면 처리 시간이 대폭 단축되겠지만, 과연 얼마나 신뢰할 수 있고 공정할까요? 결국 크뤼겔 외(2023)는 LLM이 도덕성은 없지만 (아마도) 이러한 능력을 가진 인간에게 큰 영향을 미칠 수 있다는 도덕적 우려를 제기했습니다.
After all, as much as these technologies could be misused, they can also be very useful, for instance in generating ideas, getting feedback on drafts of text, revising language, providing structure, or completing repetitive tasks. Moreover, although not yet advisable, AI might eventually be used to screen articles submitted to journals such as ours and even to substitute for reviewers when human reviewers cannot be secured. It might even be the case that some journals might someday be run almost entirely by AIs. Processing times would be cut drastically if this were the case, but how reliable and fair would this be? After all, Krügel et al. (2023) raised moral concerns that LLMs have no morality and yet can be very influential of humans who do (presumably) have this capability.

또 다른 예로, 캘리포니아 버클리 대학교 컴퓨터 연구소의 연구원들은 ChatGPT 출시 직후 유능한 과학자를 식별하는 스크립트를 만들 때 AI 모델이 비남성 및 비백인 과학자에 대한 편견을 보였다는 사실을 입증했습니다(Alba, 2022). 이러한 모든 기술에는 제작자의 편견이 반영될 것이며, 잠재적으로 학습하는 자료에 이러한 편견이 반영되어 공정성이 구조적 편견에 의해 공허해질 수 있다는 것은 공리입니다. 또한 대부분의 LLM이 명시적 콘텐츠 알고리즘이 아닌 적응형 심층 강화 학습을 사용하기 때문에 제작자가 이를 완전히 이해하지 못한다는 점도 우려됩니다(명시적 콘텐츠 알고리듬은 ADRL과 경쟁하기에는 너무 번거롭고 성능이 부족한 것으로 입증됨).
As another example, researchers at the computer lab at Berkeley, University of California, demonstrated shortly after the release of ChatGPT that the AI model exhibited bias against non-male and non-white scientists when tasked with creating a script to identify competent scientists (Alba, 2022). It is axiomatic that all such technologies will reflect their creators’ biases and potentially that in the materials they train on such that their impartiality is hollowed out by structural bias. It is also concerning that most LLMs are not fully understood by their makers as they use adaptive deep reinforcement learning rather than explicit content algorithms (the latter having proved too onerous and underpowered to compete with ADRL).

이러한 문제에도 불구하고 이러한 새로운 기술을 도입하려는 움직임은 분명합니다. 이 사설을 준비하는 동안에도 학자들에게 글쓰기와 연구에 LLM을 사용하도록 가르치는 강좌 광고가 쏟아져 나왔습니다. 예를 들어, 스틸과 파리보르지의 온라인 강좌(2023년)는 학자들에게 문헌 검토(검색 수행, 논문의 관련성 및 품질 평가, 검색 결과 분석 및 종합)를 자동화하고, 논문 작성(문헌 종합, 논문 초안 작성, 제출 준비, 검토자 및 편집자에게 응답)의 일부가 되며, "복잡한 연구 목표를 잠재적인 국가 및 기타 자금 지원 기관을 위해 설득력 있고 소화 가능한 콘텐츠로 종합"하기 위해 LLM을 사용하여 보조금 작성법을 가르친다고 제안했습니다. 준비가 되었든 안 되었든, 지니는 이미 병에서 나왔습니다. 
These problems notwithstanding, the rush to employ these emerging technologies is clear. Even as we were preparing this editorial, we have been bombarded by advertisements for courses teaching scholars to use LLMs in writing and research. As an example, an online course from Steel and Fariborzi (2023) offered to teach scholars to use LLMs to automate literature reviews (conducting searches, assessing the relevance and quality of papers, and analyzing and synthesizing the results of searches), to be a part of authoring papers (by synthesizing the literature, drafting papers, preparing them for submission, and responding to reviewers and editors), and grant writing by using LLMs to “synthesize complex research goals into compelling and digestible content for potential national and other funding bodies”. Ready or not, the genie is out of the bottle.

LLM이 데이터를 수집 및 종합하고 연구 결과에 대한 논문을 작성하는 임무를 맡게 되면 어떻게 될까요? 인간 연구자나 저자가 할 수 있는 것보다 훨씬 더 빠른 속도로, 적어도 스타일적으로는 훨씬 더 높은 품질로 이 작업을 수행할 수 있다면 어떻게 될까요? 저널 측의 LLM이 이러한 LLM이 생산한 논문을 검토하고 수락 및 거부한다면 어떻게 될까요? LLM이 다른 LLM이 출판할 논문을 편집하고 수정하여 다른 LLM이 이를 소비하도록 한다면 어떻게 될까요? 학술 출판의 모든 작업이 사람의 손길 없이 이루어질 수 있다면 어떻게 될까요? 이는 다소 불가능해 보일 수 있지만 결코 불가능한 것은 아닙니다.
What happens if LLMs are tasked with gathering and synthesizing data and writing papers on their findings? What happens if they can do this at a much greater rate and, stylistically at least, of a much higher quality than human researchers or authors can manage? What happens if LLMs on the journals’ side are reviewing and accepting and rejecting these LLM-produced papers? What happens if LLMs are editing and revising papers, for other LLMs to publish, so that yet other LLMs consume them? If all of the tasks of academic publishing can be accomplished without human input, then what? While this may seem rather improbable, it is by no means impossible.

그러나 학문적 버전의 스카이넷에 대한 디스토피아적 불안감에 빠지기보다는, 기계가 모방할 수 없거나 모방하려고 해서는 안 되는 인간만이 할 수 있고 할 수 있는 일이 무엇인지 생각해 볼 필요가 있습니다. 예를 들어,

  • 인간의 지혜, 창의성, 판단력은 모방할simulated 수는 있지만 모방할emulated 수는 없으며,
  • [인간의 정서적 강점과 취약성]을 모두 갖춘 윤리적 사고가 우리가 하는 일에 필요하며,
  • 서로에 대한 책임감은 학문 활동에서 타협할 수 없는 부분이라고 제안할 수 있습니다.

인간과 AI는 서로 다른 영역에서 뛰어난 능력을 발휘하기 때문에 문제는 AI가 인간을 대체할 것인가가 아니라, AI와 어떻게 협력하여 AI나 인간 혼자서는 불가능했던 결과를 달성할 수 있는가일 수 있습니다.
However, rather than descending into dystopian anxiety over the academic version of Skynet, perhaps we should ask what it is humans can and do add that machines cannot or should not seek to emulate. We would suggest for instance

  • that human wisdom, creativity, and judgment might be simulated but not emulated,
  • that ethically minds that have both human emotional strengths and fragilities are required to do the work we do, and
  • that accountability to each other is a nonnegotiable part of academic activity.

Since humans and AI excel in different areas, the question may not be whether AI will replace us, but rather, how can we collaborate with AI to achieve results that were not possible for either AI or humans alone.

HPE 연구 및 출판에 대한 시사점
Implications for HPE research and publishing

LLM 및 기타 AI가 연구, 실용적, 윤리적, 도덕적으로 미치는 잠재적 영향은 매우 크며, 이로 인해 많은 학문적 프로세스와 표준에 대한 재평가가 이루어지고 있습니다. 예를 들어 Van Dis 등(2023)은 연구자와 출판인에게 어떤 연구 과제를 아웃소싱해야 하는지, 아웃소싱하지 말아야 하는지, AI 지원 연구 프로세스에서 사람의 검증이 필요한 단계는 무엇인지, 연구자의 교육 및 훈련에 LLM을 어떻게 통합해야 하는지 등 일련의 필수적인 질문을 던졌습니다.
The potential impact of LLMs and other AIs on research, practically, ethically, and morally is large, and this has created a reappraisal of much of academic processes and standards. For instance, Van Dis et al. (2023) asked a set of essential questions for researchers and publishers including: which research tasks should or should not be outsourced, what steps in an AI-assisted research process require human verification, and how should LLMs be incorporated into the education and training of researchers?

지금까지 학술지의 반응은 신중하고 비판적이었습니다. 예를 들어, 최근 Academic Medicine의 편집자들은(DeVilbiss & Roberts, 2023) 네 가지 원칙의 관점에서 입장을 표명했습니다. 

  • 저자가 자신의 연구에 대해 책임을 져야 한다는 점(LLM은 이 기준을 충족하지 못한다는 지적),
  • 저널에 제출된 논문을 개발하거나 작성할 때 LLM을 사용한 경우 이를 공개해야 한다는 점,
  • 연구 과정에서 LLM을 사용한 경우 해당 연구에 대한 논문에서 명확하게 기술해야 한다는 점,
  • 이러한 기술이 매우 빠르게 변화하고 있으므로 이러한 변화를 추적하기 위해 시간이 지남에 따라 정책이 적응해야 한다는 점

이는 다소 일반적인 문제이기는 하지만, 저희는 Advances에서 이를 지지합니다. 
So far, the response from journals has been cautious and critical. As an example, the editors of Academic Medicine recently (DeVilbiss & Roberts, 2023) stated their position in terms of four broad principles:

  • that authors must be accountable for their work (noting that LLMs do not meet this standard);
  • that any use of LLMs in developing or writing papers submitted to the journal must be disclosed;
  • that any use of LLMs in the research process must be clearly described in any paper reporting on that research; and,
  • as these technologies are changing so quickly, that policies will need to adapt over time to track these changes.

These are somewhat generic concerns, albeit ones that we support at Advances.

고려해야 할 더 큰 문제도 있습니다. 예를 들어, LLM은 이론 사용, 평가 관행의 개념화, 학습 및 성과 연구 등에 어떤 영향을 미칠까요? 주요 학술지에서 가장 많이 인용되고 다운로드되는 출판물의 대부분이 비경험적 연구, 논평, 편지, 반성적 글들로 구성된 분야(HPE를 한 분야로 가정)에서 LLM을 사용하면 출판되는 몇 안 되는 독창적인 연구 기여도가 더 낮아질까요? 누구나 몇 분 안에 LLM으로 작성된 리뷰를 작성할 수 있게 되면 우리 연구의 과학적 가치와 무결성이 떨어질까요?
There are bigger issues to consider. For instance, what implications do LLMs have for our use of theory, the conceptualization of assessment practices, learning and performance research etc.? In a field (assuming that HPE is a field) where many of the most cited and downloaded publications in the major journals consist of non-empirical work, commentaries, letters, and reflective pieces, will the use of LLMs further water down the few original research contributions that remain published? Will the scientific currency and integrity of our work be diminished if anyone can produce an LLM-generated review within minutes?

HPE 장학금과 HPE 간의 인터페이스뿐만 아니라 의료 전반과의 인터페이스도 고려해야 할 사항입니다. AI는 이미 의학(Li 외, 2019)과 의학교육(Tolsgaard 외, 2020; Katznelson & Gerke, 2021)에 도입되고 있습니다. 실제로 인공지능의 중요성, 기회, 위험 및 기타 결과에 대한 많은 추측성 의견들이 AHSE 및 기타 저널에 제출되고 있습니다. 저널로서 이것은 흥미로운 이슈이지만, 우리는 추측이 아닌 실질적인 이론적, 철학적 또는 경험적 연구를 찾습니다. 여러 면에서 코로나19 팬데믹 기간에 보았던 것과 유사한 이론적, 비실험적 연구의 새로운 물결이 일어날 것으로 예상하지만, 지금은 LLM과 AI 기술의 희망, 기대, 위험에 초점을 맞추고 있습니다.  
There are also the interfaces between HPE scholarship and HPE to be considered, as well as our interfaces with healthcare as a whole. AIs are already finding their way into medicine (Li et al., 2019) and into medical education (Tolsgaard et al., 2020; Katznelson & Gerke, 2021). Indeed, we are seeing a great many speculative opinion pieces being submitted to AHSE and other journals about the importance, opportunities, risks, and other consequences of AIs. As a journal this is an interesting issue, but we look for substantial theoretical and philosophical or empirical work, not speculation. In many ways, we predict a new wave of atheoretical and non-empirical work similar to that we saw during the COVID pandemic but now focused on the hopes, expectations, and dangers of LLMs and AI technology.

우리가 지적한 문제들은 사소한 것이 아니며, 실제로는 혁신적이고 파괴적인 것으로 판명될 수도 있습니다. 따라서 저희는 과학계가 LLM에 의해 개념, 이론, 관행이 어떻게 형성되고 있는지, 그리고 그 함의에 대해 깊이 생각해 볼 것을 권장합니다. 또한 Advances에 제출되는 모든 논문은 LLM 사용에 대한 새로운 공개 기준을 충족해야 하며, LLM 사용을 주제로 하는 모든 논문은 이론과 실제 모두에서 관련된 많은 문제와 보건 과학 교육 발전에 미치는 영향에 대해 사려 깊고 비판적으로 검토해 주시기 바랍니다. 
The problems we have noted are not trivial, indeed they may prove transformative and even disruptive. We encourage our scientific community therefore to think deeply about how concepts, theories, and practices are being shaped by LLMs and the implications thereof. We also ask that all work submitted to Advances meets the emerging disclosure standards for the use of LLMs, and that any work submitted that takes the use of LLMs as its subject is thoughtful and critical of the many issues involved and their implications for advances in health sciences education, both in theory and in practice.

 


Adv Health Sci Educ Theory Pract. 2023 Jun 19. doi: 10.1007/s10459-023-10257-4. Online ahead of print.

Artificial scholarship: LLMs in health professions education research

Affiliations collapse

1Department of Community Health Sciences and Office of Health and Medical Education Scholarship, Cumming School of Medicine, University of Calgary, Calgary, AB, Canada. rellaway@gmail.com.

2University of Copenhagen, Copenhagen Academy for Medical Education and Simulation (CAMES), Copenhagen University Hospital Rigshospitalet, Copenhagen, Denmark.

PMID: 37335338

DOI: 10.1007/s10459-023-10257-4

Abstract

This editorial examines the implications of artificial intelligence (AI), specifically large language models (LLMs) such as ChatGPT, on the authorship and authority of academic papers, and the potential ethical concerns and challenges in health professions education (HPE).

의학교육연구에서 인공지능의 기본: AMEE Guide No. 156 (Med Teach, 2023)
The fundamentals of Artificial Intelligence in medical education research: AMEE Guide No. 156
Martin G. Tolsgaarda,b , Martin V. Pusicc , Stefanie S. Sebok-Syerd , Brian Gine, Morten Bo Svendsena, Mark D. Syerf , Ryan Brydgesg , Monica M. Cuddyh and Christy K. Boscardini 

 

 

소개 및 목표
Introduction and aim

의학교육에서 AI를 사용하는 것은 종종 높은 희망과 비현실적인 기대를 동반합니다. 지난 10년 동안 의학 분야의 AI는 임상 적용 측면에서 기하급수적으로 성장해 왔으며, 이는 최근에서야 AI를 사용한 연구가 보고되기 시작한 의학교육과는 다른 양상입니다(Tolsgaard 외. 2020). 
The use of AI in medical education is often accompanied by high hopes and unrealistic expectations. Over the past decade, AI in medicine has grown exponentially in terms of its clinical applications; this differs from medical education where only recently studies started reporting using AI (Tolsgaard et al. 2020).

이 가이드에서는 AI 접근법을 사용한 의학교육 연구를 수행하고 해석할 때 고려해야 할 실질적인 사항을 설명합니다. 먼저 기본 용어를 소개하고 어떤 문제와 데이터가 다양한 AI 방법을 사용하기에 적합한지 파악하는 것으로 시작합니다. 또한 방법론적 엄격성을 평가하는 방법과 AI 중심 연구 프로젝트를 시작하는 데 필요한 전제 조건을 고려하는 방법도 다룹니다. 의학교육에서 AI 연구의 잠재력을 극대화하기 위한 모범 사례를 제공합니다. 부록 A에서는 이 가이드에서 사용된 용어에 대한 용어집을 제공합니다. 
In this guide, we describe the practical considerations involved in conducting and interpreting medical education studies using AI approaches. We start by introducing basic terminology and identifying which problems and data are well-suited for the use of different AI methods. We also address how to evaluate methodological rigor and consider prerequisites needed to initiate an AI-focused research project. We offer best practices to maximize the potential of AI research in medical education. Supplementary Appendix A provides a glossary of terms used in this guide.

imte_a_2180340_sm6522.docx
0.01MB

용어 및 기본 개념
Terminology and basic concepts

AI라는 용어는 '지능형 기계, 특히 지능형 컴퓨터 프로그램을 만드는 과학 및 공학'으로 정의한 존 매카시가 처음 사용했습니다. (McCarthy 외. 1956). 그 이후로 AI 분야는 통계적 방법과 계산 능력의 기술적 발전에 힘입어 큰 변화를 겪었으며, 대량의 데이터를 처리하여 명시적으로 프로그래밍하지 않고도 분류와 예측을 할 수 있게 되었습니다. 이 가이드에서는 AI를 보다 현대적인 정의에 초점을 맞추고 있습니다. 

  • '시각 인식, 음성 인식, 의사 결정 등
    일반적으로 인간의 지능을 필요로 하는 작업을 수행할 수 있는
    컴퓨터 시스템의 이론과 개발'
    (옥스퍼드 사전 2022)

The term AI was first coined by John McCarthy who defined it as ‘the science and engineering of making intelligent machines, especially intelligent computer programs.’ (McCarthy et al. 1956, https://jmc-stanford-edu.access.hanyang.ac.kr:8443/artificial-intelligence/what-is-ai/). Since then, the field of AI has gone through significant changes, largely driven by technical developments in statistical methods and computational power, enabling the processing of large amounts of data to make classifications and predictions without being explicitly programmed to do so. In this guide, we focus on a more contemporary definition of AI and view it as the

  • ‘theory and development of computer systems able to perform tasks normally requiring human intelligence, such as visual perception, speech recognition, [and] decision-making…’ (Oxford Dictionary 2022).

이 정의를 의학교육 분야에 적용하여, 우리는 AI를 컴퓨터 과학, 수학/통계학 및 도메인 전문 지식의 상호 연관성으로 개념화하여 의학교육자 및 학습자에게 관련성이 있고 상당한 인적 자원이 필요한 작업을 수행할 수 있도록 합니다(그림 1). 
By applying this definition to the field of medical education, we conceptualize AI as the interrelatedness of computer science, mathematics/statistics, and domain expertise that can enable the performance of tasks relevant for medical educators and learners and would otherwise require significant human resources (Figure 1).

 

분석 도구로서의 AI
AI as an analytic tool

AI는 하나의 방법이 아니며, 데이터 마이닝(데이터에서 패턴을 추출하고 발견하는 것) 및 분석에 대한 접근 방식으로서 대규모의 복잡한 데이터 세트에 대해 다양한 통계 기법을 사용합니다. 표 1에서 볼 수 있듯이, 주성분 분석(PCA) 및 다중 비교에 불이익을 주는 고급 방법을 사용하는 회귀 모델과 같이 AI와 관련된 일부 통계적 방법은 수십 년 동안 의학 교육에서 사용되어 왔습니다(Parsell and Bligh 1999; Reed et al. 2007). 데이터 마이닝이나 이미징 데이터 분석에 일반적으로 사용되는 심층 신경망(DNN)과 같이 기존 통계와 거의 유사하지 않은 다른 AI 방법도 있습니다. DNN은 컴퓨터 비전 발전의 기반이며 영상의학, 피부과, 병리학 분야에서 초인적인 진단 성능을 보여주는 놀라운 혁신의 원동력입니다(Topol 2019). 
AI is not one method but rather an approach to data mining (extracting and discovering patterns in data) and analysis using a wide range of statistical techniques on large and often complex data sets. As illustrated in Table 1, some statistical methods associated with AI have been used in medical education for decades – such as Principal Component Analysis (PCA) and regression models with advanced methods for penalizing multiple comparisons (Parsell and Bligh 1999; Reed et al. 2007). Other AI methods share little resemblance with traditional statistics, for example deep neural networks (DNNs), which are commonly used for data mining or analyzing imaging data. DNNs are the basis for advancements in computer vision and are responsible for remarkable breakthroughs demonstrating super-human diagnostic performance within radiology, dermatology, and pathology (Topol 2019).

생물학적 신경망에서 영감을 얻은 DNN은 여러 노드(또는 뉴런)로 구성된 일련의 숨겨진 레이어를 통해 연결된 데이터의 입력 레이어에 의존하여 출력 레이어의 결과에 도달할 수 있도록 상호 작용합니다(그림 2).

  • 연구에 따르면 피부과에 적용된 DNN은 악성 흑색종을 진단할 때 전문 피부과 의사만큼 정확했으며(Esteva 외. 2017), 병리학에 적용된 DNN은 병리 슬라이드에서 림프절의 미세 침범을 감지할 때 대부분의 병리학자보다 더 정확했습니다(Ehteshami Bejnordi 외. 2017; Golden 2017). 대장 내시경 검사 중 용종을 발견하거나 안과에서 당뇨병성 망막증을 발견할 때, 심장 영상에서 유사한 결과가 관찰되었습니다(Topol 2019). 

Inspired by biological neural networks, DNNs rely on an input layer of data, connected through a series of hidden layers that consist of multiple nodes (or neurons) which interact in a way that allows them to arrive at an outcome in the output layer (Figure 2).

  • Research shows that DNNs, applied in dermatology performed as well as expert dermatologists when diagnosing malignant melanoma (Esteva et al. 2017), and DNNs applied in pathology were more accurate than most pathologists in detecting microinvasion of lymph nodes in pathology slides (Ehteshami Bejnordi et al. 2017; Golden 2017). Similar results have been observed when detecting polyps during colonoscopies, when detecting diabetic retinopathy in ophthalmology, and in cardiac imaging (Topol 2019).
 

임상 연구에 적용된 이러한 AI 분석 기술은 음성, 텍스트, 이미지, 동영상 등 다양한 데이터 소스에서 일반적으로 사람이 수행하는 작업(예: 평가, 지시, 피드백, 선택)을 자동화하기 위해 의학교육 연구에도 활용될 수 있습니다.
These AI analytical techniques applied in clinical studies can also be utilized in medical education research to automate tasks usually performed by humans (e.g. assessment, instruction, feedback, selection) across a variety of data sources including voice, text, images, and videos.

의대 교육에서의 AI: 최신 연구 현황
AI in medical education: Current state-of-the-science

의학교육에서 AI를 활용한 독창적인 연구는 아직 부족하지만, AI 기술을 활용한 의학교육 연구가 증가하는 추세를 보이고 있습니다. 지금까지 많은 경험적 연구는 학습 지원을 위한 AI 사용(Chan and Zary 2019) 또는 임상 술기의 자동화된 평가에 초점을 맞추었지만, 이론이나 개념적 프레임워크의 사용은 제한적이었습니다(Tolsgaard 외. 2020). 최근 몇 년 동안 AI 입문서(Masters 2019), 인력에 미치는 영향에 대한 권장 사항(Reznick 외. 2020), 의료 커리큘럼에 AI 통합(Lee 외. 2021) 등 여러 가이드, 성명서 및 권고안이 발표되었습니다. 또한 AI의 잠재력과 가능성에 대한 논평과 사설도 다수 발표되었습니다. 자동화된 평가, 자연어 처리를 사용한 자동 채점, 의료 영상 피드백을 위한 딥 러닝의 활용에 대한 경험적 연구가 서서히 나타나고 있습니다(아래 예시 참조). 이는 AI의 기술적으로 복잡한 특성과 AI 연구에 대규모 팀, 대규모 자금, 데이터 및 시간이 필요한 경우가 많다는 사실을 반영하는 것일 수 있습니다. 이 가이드는 잠재적인 장벽을 완화하고 학자들이 의학교육에서 AI 연구에 참여할 수 있도록 돕기 위해 고안되었습니다. 
Despite the scarcity of original research using AI in medical education, we are starting to see an upward trend of studies in Medical Education using AI techniques. Until now many empirical studies have focused on the use of AI for learning support (Chan and Zary 2019) or automated assessments of clinical skills, however often with limited use of theory or conceptual frameworks (Tolsgaard et al. 2020). Several guides, statement papers, and recommendations have been published in recent years, including primers to AI (Masters 2019), recommendations for workforce implications (Reznick et al. 2020), and integration of AI in medical curricula (Lee et al. 2021). Additionally, a large number of commentaries and editorials have been published about the potential and promise of AI. Empirical studies are slowly emerging in the use of automated assessments, automated scoring using natural language processing, and deep learning for medical imaging feedback (see examples below). This may reflect the technically complex nature of AI and the fact that research in AI often requires larger teams, scales of funding, data and time. This guide is designed to help mitigate potential barriers and facilitate scholars ability to engage in AI research in medical education.

AI 연구, 특히 의학교육에서 어떤 종류의 데이터가 필요합니까?
What kind of data are needed for AI studies, specifically in medical education?

AI 연구에 사용되는 데이터 유형은 광범위할 수 있으며, 영상 데이터(예: 방사선 데이터), 수치 학습 과정 데이터(예: 작업장 기반 평가) 또는 텍스트 데이터(예: 내러티브 피드백 코멘트)가 포함될 수 있습니다. 필요한 데이터의 유형은 개발 또는 테스트 중인 AI 시스템의 목적과 용도에 따라 달라집니다. 데이터 분석을 위해 데이터를 준비해야 하는 경우가 많습니다. 데이터 준비에는 데이터 세트 큐레이팅, 여러 데이터 소스 구성 및 통합, 데이터 주석 달기 등이 포함될 수 있습니다. 데이터 주석은 AI가 알려진 결과를 가진 일부 데이터를 학습하여 결과를 예측하도록 '학습'하는 지도 학습(예: 이미지의 다양한 객체에 주석을 달거나 문장의 특정 단어를 분류하는 것)에 필요합니다. 목적에 따라 데이터 주석 달기에 사용할 수 있는 무료 소프트웨어 프로그램이 여러 가지 있습니다(예: 행동 관찰 연구용 대화형 소프트웨어 BORIS, boris.unito.it에서 제공). 
The types of data used in AI studies can be wide-ranging and may involve imaging data (e.g. radiology data), numerical learning process data (e.g. workplace-based assessments), or text data (e.g. narrative feedback comments). The type of data needed depends on the aim and purported use of the AI system that is being developed or tested. Often, data needs to be prepared for data analysis. The data preparation may involve curating data sets, organizing and integrating multiple data sources, as well as annotating data. Data annotation is needed for supervised learning, where an AI ‘learns’ to predict an outcome by training on some data with known outcomes (for example, annotating different objects in images or classifying particular words in a sentence). There are several free software programs available for data annotation depending on the purpose (for example, Behavioural Observation Research Interactive Software BORIS, available from boris.unito.it among other sources).

학습 분석에 다양한 데이터 소스와 형식을 통합하는 것은 의학교육에서 AI와 점점 더 관련성이 높아지는 사례가 되고 있습니다. '학업 진도를 평가하고, 미래의 성과를 예측하고, 잠재적인 문제를 발견하기 위해 학생이 생성하고 학생을 대신하여 수집한 광범위한 데이터의 해석'으로 정의되는 학습 분석은 학습자가 시간이 지남에 따라 어떻게 발전하는지 파악하는 데 점점 더 많이 사용되고 있으며, 교육 중 특정 이정표에 언제 얼마나 잘 도달하는지 모니터링하는 데도 사용될 수 있습니다(Johnson 외. 2011). 이러한 분석에는 종단 평가, 사무원 평가 점수, 시뮬레이터 점수, 필기 시험 점수 등 디지털화할 수 있는 모든 학습 과정 데이터가 포함될 수 있습니다(Holmboe 외. 2020). AI는 학습자의 기술 능력에 대한 AI 기반 자동 채점(Hung 외. 2018) 또는 크고 복잡한 데이터 세트를 사용한 팀 협업(Andersen 외. 2020) 등 학습 분석과 관련된 다양한 데이터 형식을 효율적으로 관리할 수 있는 접근 방식을 제공합니다. 
The integration of a variety of data sources and formats in learning analytics is becoming an increasingly relevant case for AI in medical education. Learning analytics - defined as ‘the interpretation of a wide range of data produced by and gathered on behalf of students to assess academic progress, predict future performance, and spot potential issues’ - are increasingly used to determine how learners develop over time and can also be used to monitor when and how well they reach certain milestones during their training (Johnson et al. 2011). These analytics may include longitudinal assessments, clerkship assessment scores, simulator scores, and written exam scores – any learning process data that can be digitized (Holmboe et al. 2020). AI affords an efficient approach to managing a variety of data formats that are often associated with learning analytics, including AI-based automated scoring of learners’ technical skills (Hung et al. 2018) or team collaboration (Andersen et al. 2020) using large and complex data sets.

AI로 어떤 종류의 작업을 해결할 수 있나요?
What kind of tasks can be solved using AI?

AI는 분석 도구와 접근 방식을 확장하는 데 도움을 주는 등 현재 연구 및 교육 팀에서 어려움을 겪고 있는 작업의 효율성을 높이는 데 도움이 될 수 있습니다.

  • 연구 설계 단계에서는 AI가 제공하는 데이터 소스의 유연성과 데이터 추출의 자동화를 통해 다른 질문, 방법, 접근 방식에 대한 가능성을 열어줄 수 있습니다.
  • 데이터 준비 단계에서 AI는 여러 소스에 걸친 데이터 집계, 빅 데이터의 저장 및 검색을 통해 효율성을 높이고 데이터 탐색을 지원할 수 있습니다.
  • 분석 단계에서 신경망은 일반적으로 많은 인력과 시간이 필요한 분석을 효율성과 정확성을 높여 신속하게 제공할 수 있습니다. 또한, 신경망은 기존 분석으로는 쉽게 확인할 수 없는 데이터 내부 및 데이터 전반의 복잡한 연관성을 포착하고 강조 표시할 수 있습니다.

AI can help increase efficiency around tasks that are currently challenging for research and education teams, including helping to expand analytical tools and approaches.

  • During the research design phase, flexibility of data sources and automaticity of data extraction afforded by AI may open-up possibilities for alternative questions, methods and approaches.
  • In the data preparation phase, AI can increase efficiency with data aggregation across multiple sources, storage and retrieval of big data, and assist in data exploration.
  • During the analysis phase, neural networks can provide expedited analytics that would typically require many hours of human resources and time with increased efficiency and accuracy. Additionally, neural networks can capture and highlight complex associations within and across data that may not be easily ascertained by traditional analysis.

아래에서는 의학교육과 관련된 두 가지 데이터 유형에 사용되는 데이터 분석 유형을 설명하기 위해 두 가지 예를 제공합니다.
Below, we provide two examples to illustrate the types of data analysis used with two different data types relevant to medical education.

예제
Examples

예시 1. 의학 교육에서 텍스트 분석을 위한 자연어 처리 및 심층 신경망 사용
Example 1. Using Natural language processing and deep neural Networks for text analysis in medical education

AI에 관한 한, 텍스트 분석텍스트 마이닝모두 대규모 텍스트 데이터 세트(예: 인터뷰 필사본)에서 패턴을 찾아 의미를 추출하기 때문에 동의어라고 할 수 있습니다. 텍스트 분석 접근 방식인 자연어 처리(NLP)는 인간의 언어 처리를 시뮬레이션하여 기계가 텍스트 데이터를 이해하고 분석하는 데 도움을 줍니다. 하지만 인간과 달리 NLP는 체계적이고 매우 효율적인 방식으로 무제한의 데이터를 분석할 수 있습니다. 의학 교육에서의 NLP 연구의 예로는

  • 필기 시험(예: 에세이) 채점,
  • 서술형 피드백에서 위탁 평가와 관련된 요인 파악(Stahl 외. 2021; Solano 외. 2021),
  • 서술형 피드백 품질 평가(Gin 외. 2021; Neves 외. 2021),
  • 교정이 필요한 학습자의 조기 식별(Tremblay 외. 2019),
  • 시험 항목의 자동화된 생성(Chary 외. 2019) 등을 들 수 있습니다.

As far as AI is concerned, text analysis and text mining are synonyms since they both look for patterns in large sets of text data (e.g. transcriptions of interviews) to extract meaning. Natural language processing (NLP), a text analysis approach, helps the machines understand and analyse textual data by simulating human language processing. However, unlike humans, NLP can analyse unlimited amounts of data in a systematic, highly efficient way. Examples of NLP studies in medical education include

  • scoring of written exams (e.g. essays; Zhang et al. 2012),
  • identification of factors tied to entrustment ratings in narrative feedback (Stahl et al. 2021; Solano et al. 2021),
  • assessment of narrative feedback quality (Gin et al. 2021; Neves et al. 2021),
  • early identification of learners in need of remediation (Tremblay et al. 2019), and
  • the automated generation of test item distractors (Chary et al. 2019).

방법
Methods

NLP에서 분류기는 텍스트의 의미적 의미를 인식하고 레이블을 지정할 수 있는 알고리즘입니다. NLP 분류기는 사람이 놓치기 쉬운 기능어(예: 그녀, 또는, of)는 물론 내용어(예: 환자, 가슴, 심장)와 구문(n-그램)을 빠르게 식별하여 보다 체계적으로 분류함으로써 인간 코더에 의한 기존 텍스트 분류보다 효율성을 제공합니다. 자동화된 에세이 채점이나 특정 루브릭 또는 등급과 관련된 서술형 의견의 검토에는 텍스트 분류 접근 방식을 사용하는 경우가 많습니다.
In NLP, a classifier is an algorithm that is capable of recognizing and labelling semantic meaning of text. NLP classifiers provide efficiency over traditional text classification by human coders by quickly identifying both function words (e.g. she, or, of), which we humans often miss, as well as content words (e.g. patient, chest, or heart) and phrases (n-grams) for classification more systematically. Automated essay scoring or examination of narrative comments associated with specific rubrics or ratings often use text classification approaches.

작업 예
Worked example

의학교육에서 NLP를 활용하는 가상의 예로, 수련의의 현재 병력(HPI)의 질에 대한 자동 채점을 생각해 보겠습니다. 임상의 교육자가 수작업으로 교육생의 HPI를 채점할 수도 있지만, 이 프로세스를 자동화하면 교육생이 노트를 작성할 때 실시간으로 형성적인 피드백을 제공하고, 정교화가 필요할 수 있는 부분(예: 환자 불만 사항, 타임라인 등)을 강조하는 데 도움이 될 수 있습니다. 전문가 평가자를 위한 채점 가이드가 개발되었는데, 이 예에서 예시적으로 사용한 것은 Lewin 등의 환자 프레젠테이션 평가(PPR, Lewin 등, 2013)입니다. 이 도구는 DNN을 사용하여 NLP 분류기로 자동화할 수 있습니다. 여기에서는 DNN을 사용하여 NLP 분류기를 구현하여 HPI를 채점하는 방법을 간략하게 설명합니다:
As a hypothetical example of NLP in medical education, consider the automated scoring of the quality of a trainee’s history of present illness (HPI). While a trainee’s HPI could be scored manually by clinician educators, automating the process could be helpful for giving real-time, formative feedback to trainees when writing notes, highlighting where elaboration (e.g. on patient complaints, timelines, etc.) may be necessary. Scoring guides for expert raters have been developed such as Lewin et al.’s Patient Presentation Rating (PPR, Lewin et al. 2013), which we use illustratively in this example. This tool could be automated as an NLP classifier using DNNs. Here, we outline how to implement an NLP classifier using a DNN to score HPIs:

  1. 선택한 평가 도구(이 경우 PPR)에서 평가한 다양한 품질을 나타내는 서술 형식(즉, 서면 또는 필사본)의 교육생 HPI 데이터베이스를 수집합니다. 
    Collect a database of trainee HPIs in narrative form (i.e. written or transcribed) that represent a range of quality as assessed by the rating instrument of choice (in this case the PPR).
  2. 인간 평가자가 PPR을 사용하여 HPI 서술의 하위 집합에 점수를 매깁니다(예: PPR의 두 번째 항목인 '입원 사유가 포함된 명확한 환자 소개'를 사용하여 1~5점 척도를 사용합니다). 이렇게 수동으로 분류(라벨링)된 하위 집합은 DNN을 훈련하고 검증하는 데 사용됩니다.
    Score a subset of HPI narratives by human raters using the PPR – for example, using the second item of the PPR: a clear patient introduction with reason for admission’ – using a scale of 1-5. This manually classified (labelled) subset will be used to train and validate the DNN.
  3. DNN을 설계합니다(그림 2 참조). NLP 분류의 경우, DNN의 입력 레이어는 일반적으로 텍스트를 숫자 표현으로 변환합니다. 중간 계층에는 특정 단어, 단어 패턴, 내러티브 테마 등 텍스트의 더 복잡한 '특징'을 점진적으로 인식하는(훈련을 통해) 스택형 인공 뉴런이 포함될 수 있습니다. 그런 다음 출력 레이어는 이러한 특징을 사용하여 원본 내러티브가 어느 범주에 속하는지(이 예에서는 1~5점 사이의 점수)를 예측합니다.
    Design the DNN (see Figure 2). For NLP classification, a DNN’s input layer typically converts text into numerical representations. The intermediate layers may involve stacked artificial neurons that progressively recognize (through training) more complicated ‘features’ of the text – specific words, patterns of words, and narrative themes. The output layer then uses these features to predict which category the original narrative belongs to – in this example a score between 1-5.
  4. 2단계에서 수동으로 레이블이 지정된 HPI 내러티브 하위 집합의 일부(즉, '훈련 세트')를 사용하여 DNN을 학습시킨 다음, 학습된 DNN을 사용하여 수동으로 레이블이 지정된 나머지 HPI 내러티브 하위 집합(즉, '검증 세트')의 점수를 예측합니다. 타당성 검사 세트만 사용하여 예측된 점수를 수동으로 라벨링된 점수와 비교하여 분류기의 성능을 결정합니다(아래 평가 기준 참조). 앞서 설명한 DNN을 구현하고 훈련할 수 있는 몇 가지 패키지가 있으며, 가장 일반적으로 사용되는 패키지는 오픈 소스 TensorFlow 플랫폼입니다.
    Train the DNN using a portion of the manually labelled subset of HPI narratives from Step 2 (i.e. the ‘training set’), then use the trained DNN to predict the scores of the remaining manually labelled subset of HPI narratives (i.e. the ‘validation set’). Using the validation set only, compare the predicted scores to the manually labelled scores to determine the performance of the classifier (see Evaluation Criteria below). There are several packages that could implement and train the DNN outlined; the most commonly used package is the open-source TensorFlow platform.
  5. 이제 NLP 분류기를 사용하여 수동으로 레이블이 지정되지 않은 내러티브의 점수를 예측할 수 있지만, 설명 가능한 AI를 사용하여 예측 점수의 기반이 되는 잠재적 구조/요소를 탐색하는 것이 통찰력이 될 수 있습니다. 이러한 방법은 현재 분류 범주와 관련된 핵심 단어와 구문을 강조하는 '히트맵' 접근법을 개발하고(Stahl 외. 2021; Pryzant 외. 2018, 2020; Danilevsky 외. 2020), NLP 분류기에 의해 식별된 잠재적 특징(즉, 분류의 기반이 되는 내러티브 주제)을 추론하기 위해 모색되고 있습니다. 최근 연구에서는 DNN 기반 NLP 분류기가 사전 분류된 피드백 내러티브에서 위탁 수준을 예측하기 위해 훈련하는 동안 '학습'한 잠재적 피드백 특성(절차적 대 인지적 기술, 건설적 대 강화적 등)을 확인했습니다(그림 3, Gin 외. 2021). 
    While the NLP classifier may now be used to predict the scores of narratives that have not been manually labelled, it may be insightful to explore the latent constructs/factors that underlie the predicted scores using explainable AI. Such methods are currently being explored to develop a ‘heatmap’ approach highlighting key words and phrases pertaining to the classification categories (Stahl et al. 2021; Pryzant et al. 2018, 2020; Danilevsky et al. 2020), and also to infer latent features (i.e. narrative themes underlying classification) identified by an NLP classifier. Recent work identified latent feedback characteristics (procedural vs cognitive skills, constructive vs reinforcing, etc) that a DNN-based NLP classifier ‘learned’ during training to predict entrustment levels from pre-classified feedback narratives (Figure 3, Gin et al. 2021).

 

요약하자면, 텍스트 분석은 DNN의 훌륭한 응용 분야로, 대규모 텍스트 코퍼스에서 주제를 효율적으로 드러낼 수 있는 방법을 보여줍니다. 교육생이 생성하거나 교육생을 대신하여 생성하는 방대한 양의 텍스트가 감독자의 검토 능력을 압도할 수 있다는 점을 고려할 때, 이 애플리케이션은 특히 HPE에서 장점이 있습니다.
In summary, text analysis is an excellent application of DNNs, showing how they can efficiently surface themes from a large corpus of text. Given that the voluminous texts generated by and on behalf of trainees can overwhelm the capacity of their supervisors to review them, this application has particular merit in HPE.

다음 예에서는 텍스트 분석에서 이미지 및 비디오 분석으로 넘어갑니다.
In the next example, we move from text analysis to analysing images and videos.

 

예제 2. 영상 피드백에 컨볼루션 신경망 사용
Example 2. Using convolutional neural Networks for imaging feedback

많은 전문 분야에서는 환자 진단 및 관리를 위해 의료 이미지에 의존합니다. 방사선과, 병리과, 피부과와 같은 전통적인 영상 전문 분야 외에도 여러 임상 전문 분야에서 의료 이미지가 현장 진료 검사의 일부로 점점 더 많이 사용되고 있습니다(Topol 2019). 예를 들어 산부인과 의사는 초음파로 태아를 스캔하여 태아의 건강 상태를 확인하거나 안과 의사는 안과 검사의 일상적인 부분으로 망막 초음파에 의존할 수 있습니다. 문제는 의료 영상에서 시각적 진단을 위한 학습 곡선이 길고 임상의가 필요한 빈도로 특정 진단을 접하지 못하기 때문에 전문가 수준의 성능에 도달하지 못할 수 있다는 것입니다(Tolsgaard 외. 2019). 의료 영상 분야에서 AI를 사용하면 임상 교육 및 평가에 잠재적으로 큰 영향을 미칠 수 있는 시각적 단서뿐만 아니라 진단 제안을 포함하여 의료 전문가에게 피드백 및 의사 결정 지원을 제공할 수 있습니다(Tschandl et al. 2020). 
Many specialties rely on medical images for patient diagnosis and management. Besides the traditional imaging specialties such as radiology, pathology, and dermatology, medical images are now increasingly used as part of point-of-care examinations in multiple clinical specialties (Topol 2019). For example, an obstetrician may scan the fetus using ultrasound to determine fetal well-being or an ophthalmologist may rely on retinal ultrasound as a routine part of an eye examination. The problem is that the learning curves for visual diagnosis in medical imaging are often long, and clinicians may never attain expert-level performance because they do not encounter specific diagnoses with the frequency needed (Tolsgaard et al. 2019). The use of AI in the field of medical images enables feedback and decision-support to the health care professional including diagnostic suggestions as well as visual cues which can potentially have significant impact on clinical instruction and assessment (Tschandl et al. 2020).

방법
Methods

의료 이미지 분석에 가장 자주 사용되는 AI 기술은 신경망(특히 합성곱 신경망)으로, 현재 컴퓨터 비전의 선도적인 기술입니다(Krohn 2019). 신경망 사용의 기본 아키텍처와 방법론은 위 섹션에서 설명했습니다. 의료 이미지의 분류 또는 분할을 위해 새로운 AI 모델을 훈련할 때 사전 훈련된 네트워크가 시작점으로 사용되는 경우가 많으며, 이는 공개적으로 사용 가능한 대규모 이미지 데이터베이스(예: Image-Net.org)에서 사전 훈련된 일반 모델 또는 관심 있는 이미징 절차에 대한 이전 출판물에서 제공된 특정 모델을 기반으로 할 수 있습니다. 아래의 작업 예는 산부인과 초음파 검사를 수행할 때 수련의를 지원하기 위한 AI 모델 개발을 목표로 하는 실제 연구 프로젝트에 대해 설명합니다.  
The AI technique most often used in the analysis of medical images is neural networks (specifically convolutional neural networks), which are now the leading technology in computer vision (Krohn 2019). The basic architecture and methodology behind the use of neural networks have been described in the sections above. Often, a pre-trained network is used as a starting ground when training a new AI model for classification or segmentation of medical images - this may be based on pretrained generic models from large publicly available image databases (e.g. Image-Net.org) or specific models that have been made available from previous publications on the imaging procedure of interest. The worked example below describes an actual research project that aims to develop AI models for supporting trainees when performing obstetric ultrasound examinations.

작업 예시
Worked example

임상의, 데이터 과학자 및 의학교육 과학자로 구성된 그룹(Tolsgaard 외. 2021)은 산부인과 초음파 검사 중 성능에 대한 자동화된 피드백을 제공하기 위해 이미지 품질에 대한 AI 기반 채점 시스템 개발에 착수했습니다. 이 초음파는 태아의 생체 인식 및 태아 기형의 존재 여부와 같은 결과를 보고합니다. 처음부터 끝까지 프로세스는 다음과 같습니다: 
To provide automated feedback on performance during screening obstetric ultrasound examinations, a group consisting of clinicians, data scientists and medical education scientists (Tolsgaard et al. 2021) set out to develop an AI-based scoring system for image quality. These ultrasounds report findings such as fetal biometries and the presence of any fetal malformations. The process from start to finish is described below:

  1. 먼저, 관련 국가 및 지역 보건 당국에 데이터 액세스와 관련된 규제 및 법적 권한을 확인했습니다. 
    First, regulatory and legal permissions regarding data access were verified with relevant national and regional health authorities.
  2. 임상 전문가가 일상적인 초음파 검사 데이터에 수동으로 주석을 달았습니다(이미지에 다양한 해부학적 구조를 나타내는 라벨을 붙임). 이를 통해 어떤 이미지의 품질이 높은지 낮은지를 판단했습니다. 이러한 작업에는 다양한 오픈 소스 주석 소프트웨어 솔루션을 사용할 수 있습니다. 평가자 간 신뢰도를 측정한 결과, 한 명의 평가자가 각 이미지에 계속 주석을 달 수 있을 만큼 충분히 높은 것으로 판정되었습니다. 
    Data from routine ultrasound examinations were manually annotated (labels provided onto images denoting different anatomical structures) by clinical experts to determine which images were of high versus low quality. A variety of open-source annotation software solutions are available for these tasks (https://github.com/taivop/awesome-data-annotation). Inter-rater reliability was determined and was deemed high enough for a single assessor to continue to annotate each image.
  3. 2,000개 이상의 이미지에 주석을 단 후, 신경망의 첫 번째 반복은 다른 장비로 다른 모집단으로 개발된 이전에 발표된 네트워크를 기반으로 훈련되었습니다. 그 결과 기존 연구와 비슷한 성능이 나타났습니다. 사전 훈련된 다양한 신경망을 자유롭게 사용할 수 있습니다. 
    After having annotated more than 2000 images, the first iteration of the neural network was trained based on a previously published network that was developed in a different population with different equipment. Similar performance was found as in the original study. A variety of pre-trained neural networks are freely available.
  4. 임상의에게 신경망이 특정 분류에 어떻게 도달했는지에 대한 시각적 피드백을 제공하기 위해 히트맵을 사용했습니다. 히트맵은 이미지 분류에서 AI가 특히 중요하게 생각한 픽셀을 강조 표시합니다(예는 그림 4 참조). 
    To provide visual feedback to the clinicians on how the neural network arrived at a certain classification, heatmaps were used. The heatmap highlights pixels that were particularly important for the AI in the classification of an image, see Figure 4 for an example.
  5. 이 신경망을 시뮬레이션 학습 환경에서 평가 목적으로 사용할 수 있는지 알아보기 위해 컴퓨터 애니메이션 그래픽이 포함된 가상현실 시뮬레이터에서 연습하는 대규모 훈련생 그룹의 퍼포먼스에 신경망을 적용했습니다. 안타깝게도 신경망은 이러한 성능을 완전히 분류할 수 없었고 시뮬레이션 환경의 데이터를 기반으로 완전히 새로운 모델을 학습시켜야 했습니다(모델 성능을 평가하는 방법의 예는 그림 5 참조). 신경망은 훈련 데이터와 유사한 데이터를 사용하여 좁은 문제를 해결하는 데 가장 효과적이며, 훈련과 전달 문제 간에 큰 차이가 있을 때 스킬을 평가하는 것과 같이 보다 광범위한 문제에는 적합하지 않습니다.  
    To explore whether this neural network could be used for assessment purposes in a simulation learning environment, the neural network was applied to performances from a large group of trainees practicing on virtual reality simulators with computer-animated graphics. Unfortunately, the neural network was completely unable to classify these performances and an entirely new model had to be trained based on data from the simulated setting (see Figure 5 for example of how to evaluate model performance). This is a frequent finding: neural networks work best to solve narrow problems using data that resembles the training data and are ill-equipped for more broad problems, such as evaluating a skill when there are large differences between training and transfer problem.

 

 

AI 결과물 이해 - 과제와 앞으로의 방법
Understanding AI outputs - challenges and ways forward

신경망에 의존하는 많은 AI 시스템에 내재된 한 가지 문제는 그 결정을 설명하기 어렵다는 것입니다. 신경망의 여러 계층에 있는 뉴런 간의 수많은 상호 작용을 데이터 과학자를 포함한 사람이 쉽게 해독할 수 없기 때문입니다. 기술적 관점에서 설명 가능성은 항상 쉬운 것은 아니지만, 여러 가지 유망한 접근 방식이 등장하기 시작했습니다(Linardatos 외. 2021). 예를 들어, 설명 가능한 AI(XAI)라는 개념은 지난 몇 년 동안 AI 커뮤니티 내에서 성장해 왔습니다. 
One problem inherent in many AI systems that rely on neural networks is that their decisions are difficult to explain. This is because the many interactions between neurons in the multiple layers of a neural network are not easily deciphered by humans (including data scientists). Explainability is not always easy from a technical point of view but different promising approaches are beginning to emerge (Linardatos et al. 2021). For instance, the concept of explainable AI (XAI) has grown within the AI community over the past few years.

설명 가능성에 대한 또 다른 접근 방식은, 새로운 AI 시스템을 학습하는 동안 특정 개념을 사용하여 교육적 관점에서 관련성이 있을 수 있는 선택된 기능 클래스를 기반으로 피드백을 제공하는 시각화를 사용하여 AI가 개념적 결과물을 제공하도록 강제하는 것입니다(Koh et al. 2020). 선택한 기술적 접근 방식에 관계없이, 설명 가능성은 기술적 복잡성이 추가됨에도 불구하고 의학교육 관점에서 AI 시스템의 유용성을 평가할 때 종종 바람직합니다. 
Another approach to explainability is forcing the AI to provide conceptual outputs by using visualizations, where certain concepts are used during the training of new AI systems to enable feedback based on selected classes of features that may be relevant from an educational perspective (Koh et al. 2020). Regardless of the technical approach selected, explainability is often desirable when evaluating the utility of AI systems from a medical education perspective despite its added technical complexity.

마지막으로, 그림 4와 같이 AI 분류 또는 회귀에 중요한 픽셀을 시각적으로 표현하는 히트 맵을 사용하는 간단한 접근 방식이 있습니다. 그러나 이러한 접근 방식은 초보 학습자가 특정 기능이 중요한지 아닌지를 식별하는 데 도움이 되는 개념적 인사이트를 제공하지 못할 수 있습니다. 
Finally, a simplistic approach is to use heat maps as shown in Figure 4, which provide visual representations of the pixels that are important for AI classification or regression. However, these approaches may still fail to provide conceptual insights that help novice learners to identify why certain features are or are not important.

AI 연구를 위한 평가 기준
Evaluation Criteria for AI studies

AI 연구에 대한 평가 기준은 일반적으로 모델 개발모델 검증이라는 두 가지 주요 범주로 나뉩니다. AI 연구와 가장 관련성이 높은 가이드라인은 EQUATOR(건강 연구의 품질 및 투명성 향상) 네트워크에서 제공하며, 이 네트워크는 특히 AI 연구를 위한 TRIPOD-ML(개인 예후 또는 진단을 위한 다변량 예측 모델의 투명한 보고) 표준을 개발했습니다(콜린스 외. 2015). 의학교육에서 AI 연구를 평가하는 데 사용할 수 있는 포괄적인 모델 설명에는 모델 개발 및 검증에 사용된 접근 방식에 대한 세부 정보가 포함됩니다. 
Evaluation criteria for AI studies is commonly broken down into two main categories: model development and model validation. The most relevant set of guidelines for AI studies comes from the EQUATOR (Enhancing Quality and Transparency of Health Research) Network, and they have developed the TRIPOD-ML (Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis) standards specifically for AI studies (Collins et al. 2015): https://www.equator-network.org/reporting-guidelines/tripod-statement/. A comprehensive model description that can be used to evaluate AI studies in Medical Education will include details about the approaches used in both developing and validating the model.

예를 들어, AI 연구에 대한 일반적인 접근 방식은 하나 이상의 소스에서 데이터를 수집하고, 모델링을 위해 데이터를 준비하고, 알고리즘을 개발하고, 모델을 훈련한 다음(예: 데이터의 70%로) 나머지 데이터(이 예에서는 30%)로 모델을 테스트하는 것입니다. 대부분의 경우 첫 번째 단계는 미세 조정된 초기 모델을 개발하는 것이며, 모델 구축 절차를 설명할 때 모델 사양 및 성능과 같은 개선 사항에 대한 감사를 포함하는 것이 좋은 보고 관행입니다. 
For example, a common approach for AI studies is to gather data from one or more sources, prepare the data for modelling, develop an algorithm and train a model (e.g. with 70% of the data), then test the model with the remaining data (i.e. 30% in this example). More than likely, the first step is to develop an initial model that is fine-tuned, and good reporting practice is to include an audit of the refinements made (e.g. model specification and performance) as the model building procedures are described.

모델 개발 기준
Model development Criteria

AI 모델을 개발할 때는 데이터 소스와 샘플링 방법(예: 평가 데이터, 오픈 소스 데이터)을 설명해야 합니다. 모든 사례 유형을 설명하면 데이터의 완전성과 대표성을 평가할 수 있을 뿐만 아니라 모델이 개발되고 학습된 특성과 조건을 이해할 수 있는 정보를 얻을 수 있습니다. 

  • 데이터 설명은 데이터가 모델 예측의 대상이 될 수 있는 더 많은 인구(예: 연령, 성별, 인종)를 대표한다는 증거를 제공해야 합니다
  • 다른 절차와 마찬가지로 샘플링은 모델 개발 및 선택에 큰 영향을 미칠 수 있으므로 데이터에 시스템적 편향이 존재하지 않도록 노력해야 합니다. 
  • 또한 데이터 설명에는 알고리즘 개발 시 편향성을 유발할 수 있는 누락된 데이터를 구체적으로 언급해야 합니다누락된 데이터를 대입하는 경우 대입imputation 방법을 설명해야 합니다.
  • 또한 예측자와 수행된 '피쳐 엔지니어링'(예: 예측자의 규모 조정, 표준화 또는 분류 또는 주성분 분석과 같은 접근 방식을 사용하여 새로운 예측자 생성)을 설명하는 것도 중요합니다.
  • 마지막으로, 결과 측정값을 명시하고 결과를 평가한 방법에 대한 세부 정보를 제공해야 합니다.

When developing an AI model, one must describe the data sources and how they were sampled (e.g. assessment data, open-source data). Describing all case types provides information to assess not only the completeness and representativeness of the data, but also an understanding of the characteristics and conditions under which the model was developed and trained.

  • The data description should provide evidence that the data are representative of the larger population who may be subject to the model predictions (e.g. age, gender and race). Similar to other procedures, sampling can greatly impact model development and selection, requiring efforts to ensure that systemic biases do not exist in the data.
  • Data descriptions should also specifically reference any missing data, which has the potential to contribute bias in the development of an algorithm. If missing data are imputed the imputation approach must be described.
  • It is also crucial to describe predictors and any ‘feature engineering’' that was performed (e.g. scaling, standardizing or categorizing the predictors or creating new predictors using approaches such as principal component analysis).
  • Finally, the outcome measure must be specified, with details about how the outcome was assessed.

모델 개발에 대해 보고할 때는 모델이 어떻게 개발되었는지, 어떤 예측 변수를 제외할지 또는 다른 예측 변수에 더 많은 가중치를 부여할지 등 어떤 결정을 내렸는지 설명해야 합니다.
When reporting on model development, one must describe how the model was developed and any decisions that were made, such as whether to exclude one predictor or to assign more weight to another predictor.

개발 중 모델 검증
Model validation during development

모델 개발에 대한 일반적인 접근 방식은 데이터를 학습, 테스트, 유효성 검사의 세 가지 데이터 세트로 분할하는 것입니다.

  • 첫 번째 데이터 세트인 학습 세트는 모델을 학습시키는 데 사용됩니다.
  • 두 번째 데이터 세트인 테스트 세트는 모델의 성능을 평가하여 반복적으로 테스트하는 데 사용됩니다. 모델의 성능이 좋지 않으면 다른 결정을 내리고, 모델을 다시 학습시키고(학습 데이터에서), 모델을 다시 테스트(테스트 데이터에서)함으로써 모델을 반복적으로 개선해야 할 수 있습니다.
  • 세 번째 세트는 모델을 검증할 준비가 될 때까지 따로 보관합니다. 모델이 '본 적이 없는' 데이터, 즉 학습이나 반복 테스트에 포함되지 않은 데이터에 대해 성능을 평가합니다. 이 세 번째 세트는 최종 평가 지표 세트를 보고하는 데 한 번만 사용되며, 특히 모델이 전반적으로 잘 작동하고 학습 및/또는 테스트 데이터에 과도하게 적합하지 않도록 알고리즘을 반복적으로 수정하는 데는 사용되지 않습니다.

A common approach to model development is to split the data into three different data sets: training, test and validation.

  • The first data set, the training set, is used to train the model.
  • The second set, the test set, is used to iteratively test the model by assessing its performance. If the model performs poorly then it may be necessary to iteratively improve the model by making different decisions, re-training the model (on the training data), and re-testing the model (on the test data).
  • The third set is set aside until the model is ready for validation. Where its performance is assessed on data that the model has never ‘seen’ meaning that it was not part of either the training or iterative testing. This third set is used only once for reporting a final set of evaluation metrics, and specifically NOT used to iteratively modify the algorithm ensuring that the model performs well overall and does not overfit on the training and/or test data.

단일 데이터 세트가 학습, 테스트 및 유효성 검사 데이터 세트로 분할되는 경우 이를 내부 타당성 검사라고 합니다. 그러나 아직 수집되지 않은 데이터(알고리즘을 일반화/적용하고자 하는 데이터)를 사용하여 외부 타당성 검사을 수행하는 것이 이상적입니다. 예를 들어, 2020년 대학 입학을 설명하는 데이터를 수집하고 이 데이터를 학습, 테스트 및 내부 검증 데이터 세트로 분할한 다음 2021년 대학 입학을 설명하는 데이터를 수집하여 외부 검증을 수행할 수 있습니다(Baron 외. 2020).
When a single set of data are split into training, testing and validation data sets we refer to the validation as an internal validation. However, ideally you would also perform an external validation using data that has not yet been collected (and to which you wish to generalize/apply your algorithm). For example, one might collect data describing university admissions in 2020 and split this data into training, testing and internal validation data sets and then collect data describing university admissions in 2021 for external validation (Baron et al. 2020).

모델 검증 보고 메트릭
Model validation Reporting metrics

최종 모델 검증 지표를 보고할 때는 모델의 성능을 평가하기 위해 어떤 측정값을 사용했는지 설명해야 합니다. AI 연구에 사용되는 일반적인 모델 적합도 지표는 다음과 같습니다:

  • R-제곱(R2), 평균 제곱 오차(MSE), 평균 제곱 오차(RMSE).

When reporting the final model validation metrics, one must describe what measures were used to assess the performance of the model. Common model fit metrics used in AI studies include:

  • R-Squared (R2), Mean Squared Error (MSE), and Root Mean Squared Error (RMSE).

혼동 행렬(모델 예측과 참조 표준(예: 정밀도, 리콜, 정확도 및 수신기 작동 특성 곡선 아래 면적)을 비교하는 행렬)에서 파생된 측정값도 범주형 결과 측정값의 예측을 평가하는 데 사용됩니다.
Measures derived from the confusion matrix – a matrix comparing model predictions with a reference standard (e.g. precision, recall, accuracy and area under the receiver operating characteristics curve) are also used to evaluate the predictions of categorical outcome measures.

최종 모델을 제시할 때 대부분의 보고서는 가능한 경우 모든 회귀 계수를 신뢰 구간과 함께 포함하지만, 복잡한 모델(특히 신경망)의 경우 불가능할 수 있습니다. 대부분의 모델 유형에 대해 허용되는 보고 규칙이 존재합니다. 의학 교육자는 도메인 전문가와의 협업을 통해 다른 사람들이 모델을 정확하게 평가할 수 있는 방식으로 모델에 대한 설득력 있는 논거를 개발하는 데 도움을 받을 수 있습니다. 
When presenting the final model, most reports include all regression coefficients with confidence intervals, if possible, although this may not be feasible for complex models (especially neural networks). Accepted reporting conventions exist for most model types. Collaborations with domain experts can help medical educators develop a compelling argument for their model in a way that allows others to accurately appraise it.

관심 있는 결과에 따라 응답을 구분하는 모델의 능력(변별력) 및 편향되지 않은 응답을 하는 모델의 능력(보정) 외에도, 교육 실무에서 제안된 모델의 사용법을 고려해야 합니다. 

  • 예를 들어, 모델이 실시간으로 의사 결정에 정보를 제공해야 하는 경우 모델의 응답 시간(즉, 모델이 예측을 내리는 데 필요한 시간)이 중요합니다.
  • 다른 예로는 모델 예측의 투명성 및 설명 가능성과 같이 모델이 학습자 또는 교육자에게 정보를 제공하는 방식이 있습니다.
  • 일반적으로 모델은 원래 설계된 목적 이외의 용도로 사용해서는 안 됩니다.

In addition to the model’s ability to separate out responses according to the outcome of interest (discrimination) and the model’s ability to make unbiased responses (calibration), the proposed uses of the model in educational practice must be taken into consideration.

  • For example, if the model is to inform decisions in real-time then the model’s response time (i.e. the time needed for the model to make a prediction) is important.
  • Other examples include how the models are supposed to inform learners or educators, such as transparency and explainability in the model predictions.
  • In general, models should not be used for purposes beyond those for which they were originally designed.

의학교육에서의 AI 연구에 대한 추가 평가 고려 사항
Additional evaluation considerations for AI studies in Medical Education

의학교육에서 AI를 사용할 때는 특별히 고려해야 할 사항이 있습니다. 학자들은 모델 자체를 평가하는 것 외에도 교육 연구자가 이론을 AI 알고리즘의 근거와 필요성에 어떻게 통합했는지 먼저 평가하여 연구 전체를 고려해야 합니다. AI가 사용되는 많은 경우(예: 임상 의학)에서 목표는 일반화 가능성입니다. 그러나 의학교육에서는 항상 그렇지는 않을 수 있습니다. 예를 들어, 특정 의과대학이나 레지던트 프로그램에 대한 지원자의 적합성 평가를 지원하기 위한 AI 알고리즘을 개발하는 것은 해당 기관이나 프로그램에는 유용할 수 있지만 다른 기관이나 프로그램에 반드시 일반화할 수는 없습니다(Baron 외. 2020).
There are particular considerations for AI in medical education. Beyond evaluating the model itself, scholars must also consider the study as a whole by first evaluating how the education researcher incorporated theory into the rationale and need for an AI algorithm. In many instances where AI is used (e.g. clinical medicine) the goal is generalizability. However, within medical education this may not always be the case. For example, developing an AI algorithm to support the assessment of the suitability of applicants to a particular medical school or residency program may prove useful for that institution or program, but may not necessarily generalize to other institutions or programs (Baron et al. 2020).

의학교육에 AI 기술을 사용할 때는 개인이 자신의 데이터가 어떻게 사용되는지 이해하는 정도(데이터 사용 및 개인정보 보호 기대치)도 고려해야 합니다. 임상 환경에서 진단과 적절한 치료 계획을 결정하기 위해 AI를 사용하는 경우, 의사는 환자에게 AI 모델의 목적과 의학적 결정에 AI가 어떤 정보를 제공했는지 설명할 수 있습니다. 연구 환경에서는 특히 기존 데이터 세트를 사용하고 소급하여 동의를 받을 수 없는 경우, 이러한 유형의 정보에 입각한 동의를 얻기가 더 어려울 수 있습니다.
When employing AI techniques in medical education, one must also consider the extent to which individuals understand how their data will be used (data usage and privacy expectations). In clinical settings, when AI is used to determine diagnoses and appropriate treatment plans, physicians can communicate to their patients the purpose of the AI models and how medical decisions were informed by them. In a research environment, it may be more difficult to obtain this type of informed consent, especially when pre-existing data sets are used and consent cannot be obtained retroactively.

토론
Discussion

이 가이드에서는 기본 정의부터 실제 사례, 평가 접근 방식에 이르기까지 의학교육 연구에서 AI를 개발하고 사용할 때 고려해야 할 실질적인 사항을 제공합니다. AI에 대한 관심이 높아지고 적용 범위가 확대되는 상황에서 이 가이드는 의료 전문직 교육 분야의 얼리어답터를 위한 실용적인 가이드 역할을 합니다. 제공된 예시에서 알 수 있듯이 의료 교육에서 AI는 에세이 채점이나 대규모 이미지 데이터에 기반한 피드백 제공과 같은 작업을 처리하는 데 이상적입니다. 또한 대부분의 AI는 데이터에 특화되어 있고 일반화가 잘 되지 않으며 광범위한 추가 통계 모델링이 필요한 경우가 많기 때문에 현재의 AI 모델에는 한계가 있음을 인정합니다.
In this guide, we provide practical considerations for the development and use of AI in medical education research, from basic definitions to worked examples to evaluation approaches. Given the growing interest and increased application of AI, this guide serves as an practical guide for early adopters in health professions education. As highlighted by the examples provided, AI in medical education is ideal for handling tasks such as essay scoring or providing feedback based on large-scale image data. We also acknowledge that current AI models are limited; most AI are data-specific, generalize poorly, and often require extensive additional statistical modelling.

AI는 임상의와 연구자로서 우리가 일하는 방식에 점점 더 많은 영향을 미치고 있으며, 유능한 임상의가 된다는 것의 의미에도 영향을 미치고 있습니다. 이에 따라 캐나다 왕립 의사 및 외과의사 대학은 최근 미래 의학 커리큘럼에 AI에 대한 지식을 구축하는 것이 중요하다고 강조했습니다(Royal College 2022). 의료 교육자, 학습자, 연구자가 AI 시스템의 강점, 특히 한계를 이해하려면 새로운 기술이 필요합니다. 예를 들어, 초보 학습자는 좋은 AI 피드백을 통해 가장 많은 것을 얻을 수 있지만(Tschandl 외. 2020), AI 시스템이 제공하는 잘못된 조언에 전문가보다 더 취약할 수 있습니다(Gaube 외. 2021). 
Since AI is increasingly affecting how we work as clinicians and researchers, it also affects what it means to be a competent clinician. Accordingly, the Royal College of Physicians and Surgeons of Canada recently stressed the importance of building knowledge about AI into future medical curricula (Royal College 2022). New skills are needed to understand the strengths - and in particular the limitations - of AI systems for medical educators, learners, and researchers. For example, while novice learners may gain the most from good AI feedback (Tschandl et al. 2020), they may be more susceptible than experts to incorrect advice provided by AI systems (Gaube et al. 2021).

학습 및 임상 수행을 지원하기 위한 AI 사용이 증가함에 따라 AI 모델 및 예측의 정확성과 신뢰성뿐만 아니라 한계를 이해하는 것이 중요해질 것입니다. 일부 AI 시스템은 매우 높은 통계적 정밀도를 보여줄 수 있지만 내장된 시스템적 편향으로 인해 여전히 부정확한 결과를 생성할 수 있습니다. 예를 들어, 많은 피부과 AI 지원 진단의 정확도는 연구 참여자의 피부색을 샘플링하는 것으로 제한되어 있어 더 다양한 환자 집단에 사용할 경우 잠재적으로 부정확하거나 편향된 결정을 내릴 수 있습니다(Ternov 외. 2022).
Understanding the limitations as well as the accuracy and reliability of AI models and predictions will be critical with the increased use of AI for supporting learning and clinical performances. Some AI systems may demonstrate extremely high statistical precision but still produce inaccurate results due to built-in systematic biases. For example, the accuracy of many dermatological AI-supported diagnoses is limited to sampling of the available skin colour of the study participants leading to potentially inaccurate or biased decisions when used on a more diverse patient population (Ternov et al. 2022).

의학 교육의 맥락에서, 학습 분석 및 AI에 대한 비평가들은 개인정보 보호 문제, 효율성에 대한 바람직하지 않은 초점을 포함하여 결과물의 의미 부족에 대해 경고했습니다(10 Cate 외. 2020). 이러한 우려 중 일부(예: 개인 정보 보호 및 자율성 문제)는 일반적인 지지를 얻고 있는 것으로 보이지만(쿨라세가람 2022), 빅데이터와 AI의 사용이 교육 환원주의로 이어질 것이라는 우려(반 데르 니트 및 블레이클리 2020)와 같은 다른 우려는 AI 기반 학습 분석에 빅데이터를 사용하는 것과 관련하여 의학교육 커뮤니티 내에서 더 깊은 공리학적 및 인식론적 균열을 나타낼 수 있습니다.
In the context of medical education, critics of learning analytics and AI have warned about privacy issues, lack of meaningfulness in outputs, including an undesirable focus on efficiency (ten Cate et al. 2020). While some of these concerns (for example, privacy and autonomy concerns) seem to gather general support (Kulasegaram 2022), other concerns such as the worry that the use of big data and AI will lead to educational reductionism (van der Niet and Bleakley 2020) may represent deeper axiological and epistemic clefts within the medical education community around the use of big data for AI-powered learning analytics.

AI 시스템에 대한 과도한 의존은 무인 자동차 산업의 오토파일럿 실패 사례에서 알 수 있듯이 잘못된 신뢰와 잠재적인 오류 증가로 이어질 수 있습니다(New York Times 2021). 실제로 의료 교육 맥락에서 상용화된 대부분의 임상 AI 시스템은 임상의의 학습을 개선하기 위한 것이 아니라 임상의의 성과를 지원하기 위해 개발되었습니다. 무인 자동차에 비유하자면, 의료 분야의 기존 AI 시스템은 운전 중 수행을 지원하는 것을 목표로 하지만 운전자의 기술을 향상시키지는 못합니다. 성과를 개선하는 개입이 학습에 부정적인 영향을 미칠 수 있고 그 반대의 경우도 마찬가지이기 때문에 학습과 성과는 종종 상충되는 경우가 많습니다(Schmidt 외. 1990). 지도guidance 가설에서 강조한 바와 같이, 수행 중에 임상의에게 동시에 피드백을 제공하는 기존의 상용 AI 시스템은 수행 후 요약된 피드백을 통해 학습을 지원하도록 설계된 시스템에 비해 학습에 부정적인 영향을 미칠 수 있습니다(Schmidt 외. 1989). 이러한 과제는 새로운 AI 시스템을 개발할 때 학습 과학을 임상 과학 및 데이터 과학과 통합하여 AI 시스템에 대한 과도한 의존학습자의 임상 기술에 대한 잠재적인 부정적인 영향을 방지하는 동시에 전문가 수준의 자동화된 지침 및 피드백에 대한 액세스의 이점을 누리는 것이 중요하다는 점을 강조합니다. 
Over-reliance on AI systems can lead to false confidence and potentially increased errors as demonstrated from the autopilot failures in the driverless car industry (New York Times 2021). Indeed, in medical education contexts, most commercially available clinical AI systems are developed to support clinicians’ performances and not to improve their learning. To use the driverless car analogy, existing AI systems in healthcare aim to support performances while driving, but fail to improve drivers’ skills. Learning and performance are often at odds (Schmidt et al. 1990) as interventions that improve performance can negatively affect learning and vice versa. As highlighted by the guidance hypothesis, existing commercially available AI systems that provide concurrent feedback to clinicians during performances may negatively influence learning as compared to systems that are designed to support learning - for example through summarized feedback that is provided post-performance (Schmidt et al. 1989). These challenges highlight the importance of integrating learning sciences with clinical science and data science when developing new AI systems to prevent an overreliance on AI systems and potential negative effects on learners’ clinical skills, while also reaping the benefits of access to expert-level automated guidance and feedback.

이를 위해서는 AI 시스템 기술 개발 초기에 교육 이론과 개념을 통합하는 데 더 중점을 두어야 합니다. 기존의 AI 연구는 현재 임상 저널에 기술된 응용 연구와 학회 회의록에 보고된 기술 보고서 사이에 양극화되어 있습니다(Topol 2019). 의학교육에서는 다양한 맥락에서 일반화하고자 하는 욕구 때문에 이러한 양극화가 문제가 될 수 있습니다(Tolsgaard). 이러한 의미에서 의학교육에서의 AI 연구는 10~20년 전 시뮬레이션 문헌에서 관찰된 것과 동일한 단점, 즉 AI가 언제, 왜, 누구에게 가치를 제공할 수 있는지, 위험과 과제를 탐구하려는 연구보다 'AI가 효과가 있다'는 정당화 연구가 과대 대표되는 것을 반복할 위험이 있습니다{Issenberg}.
The key to doing this may involve a greater focus on integrating educational theory and concepts earlier within the technical development of AI systems. Existing AI research is currently polarized between applied work described in clinical journals and technical reports reported in conference proceedings (Topol 2019). In medical education, this may constitute a problem because of the desire to generalize across different contexts (Tolsgaard). In this sense, AI research in medical education risks repeating some of the same shortcomings as observed in the simulation literature 10-20 years ago: the overrepresentation of justification studies demonstrating that ‘AI works’ over work that intends to explore when, why and for whom AI may provide value, risks and challenges.{Issenberg}


요약하자면, AI는 교육 제공과 교육 연구 모두에서 점점 더 많이 사용되고 있습니다. 학습 과학을 의료 분야의 AI 시스템 개발 및 사용에 통합하는 것은 앞으로 몇 년 동안 계속 도전 과제가 될 것입니다. AI는 의학교육 커뮤니티에 특별한 기회를 제공할 수 있지만, 의학교육자, 교육 연구자, 데이터 과학자, 임상의 간의 긴밀한 학제 간 협업을 필요로 합니다. 의학교육에서 AI에 신중하고 주의 깊게 접근하면 학습과 성과는 물론 설명 가능성과 투명성을 지원하는 AI 시스템을 개발할 수 있습니다.

To summarize, AI is increasingly being used in both the provision of education and in education research. Integrating learning sciences into the development and uses of AI systems in healthcare is likely going to continue to be a challenge in the years to come. While potentially offering unique opportunities for the medical education community, AI requires close interdisciplinary collaborations between medical educators, education researchers, data scientists, and clinicians. In approaching AI in medical education with caution and care, we can enable the development of AI systems that support learning and performance as well as explainability and transparency.


 

 

Med Teach. 2023 Jun;45(6):565-573. doi: 10.1080/0142159X.2023.2180340. Epub 2023 Mar 2.

 

 

The fundamentals of Artificial Intelligence in medical education research: AMEE Guide No. 156

Affiliations collapse

1Copenhagen Academy for Medical Education and Simulation (CAMES), Copenhagen, Denmark.

2Department of Obstetrics, Copenhagen University Hospital Rigshospitalet, Copenhagen, Denmark.

3Department of Pediatrics, Harvard University, Boston, MA, USA.

4Department of Emergency Medicine, Stanford University, Palo Alto, CA, USA.

5Department of Pediatrics, University of California San Francisco, San Francisco, USA.

6School of Computing, Queen's University, Kingston, Canada.

7Allan Waters Family Simulation Centre, St. Michael's Hospital, Unity Health Toronto & Department of Medicine, University of Toronto, Toronto, Canada.

8NBME, Philadelphia, PA, USA.

9Department of Medicine and Anesthesia, University of California San Francisco, San Francisco, CA, USA.

PMID: 36862064

DOI: 10.1080/0142159X.2023.2180340

Abstract

The use of Artificial Intelligence (AI) in medical education has the potential to facilitate complicated tasks and improve efficiency. For example, AI could help automate assessment of written responses, or provide feedback on medical image interpretations with excellent reliability. While applications of AI in learning, instruction, and assessment are growing, further exploration is still required. There exist few conceptual or methodological guides for medical educators wishing to evaluate or engage in AI research. In this guide, we aim to: 1) describe practical considerations involved in reading and conducting studies in medical education using AI, 2) define basic terminology and 3) identify which medical education problems and data are ideally-suited for using AI.

Keywords: Artificial Intelligence; assessment; big data; machine learning; medical education.

ChatGPT로 논문쓰기: 학술 저자를 위한 능력, 한계, 함의 (Perspect Med Educ. 2023)
Writing with ChatGPT: An Illustration of its Capacity, Limitations & Implications for Academic Writers
LORELEI LINGARD

 

ChatGPT와 기타 인공지능(AI) 도구가 학계 전반에 경종을 울리고 있습니다. 이러한 우려의 대부분은 ChatGPT가 교육에 어떤 영향을 미칠 것인가에 집중되어 있습니다. 학생의 학습에 어떤 영향을 미칠까요? 학생들의 부정행위가 만연할까요? 전통적인 지식 평가[1]의 종말을 의미할까요? 최근 이러한 우려는 우리의 학문적 사명에도 영향을 미쳤습니다. 새로운 기술 자원일까요, 아니면 과학적 무결성에 대한 위협일까요? 어떤 용도가 적절하며, 어떻게 인정해야 할까요? 
ChatGPT and other artificial intelligence (AI) tools are raising alarm bells across academia. Much of the alarm centers on how ChatGPT will affect the educational mission. How will it affect student learning? Will it lead to rampant student cheating? Will it mean the death of traditional knowledge assessments [1]? Recently, the alarm has reached our scholarly mission as well. Is it a new technological resource, or a threat to scientific integrity? What uses are appropriate, and how should they be acknowledged?

이는 추상적인 질문이 아닙니다. ChatGPT는 이미 2023년 1월부터 사전 인쇄물 및 동료 심사를 거친 출판 논문에서 저자로 인정받고 있습니다[2]. 신뢰할 수 없는 또는 부정 사용에 대한 우려가 제기되어 왔으며[3], 현재 주요 학술지들은 이 문제에 대한 입장을 밝히고 있습니다.

  • 예를 들어, 스프링거 네이처 저널은 연구에 대한 책임을 질 수 없기 때문에 ChatGPT는 공동 저자가 될 수 없다고 선언했으며, 연구자가 방법 또는 감사의 말 섹션에 ChatGPT를 사용한 사실을 문서화할 것을 요구하고 있습니다[4].
  • Academic Medicine에서는 저자가 학술 연구에서 AI 도구의 사용을 공개하고, 그 사용의 성격을 투명하게 설명하며, 정확성과 무결성에 영향을 미치는 제한 사항을 인식하도록 안내합니다[5].
  • 의료 교육, 연구 및 실무 분야의 최근 체계적 검토에서는 ChatGPT의 가능성을 인정하면서도 "윤리적, 저작권, 투명성 및 법적 문제, 편견의 위험, 표절, 독창성 부족, 환각의 위험이 있는 부정확한 콘텐츠, 제한된 지식, 잘못된 인용, 사이버 보안 문제, 인포데믹의 위험"을 고려하여 "극도로 신중하게" 도입해야 한다는 결론을 내렸습니다. [6]. 

These are not abstract questions. ChatGPT has already been credited with authorship in preprints and peer-reviewed published articles since January 2023 [2]. Concerns have been raised about its uncredited or fraudulent use [3], and major journals are now declaring their positions on the issue.

  • For instance, the Springer Nature journals have declared that ChatGPT cannot be a co-author because it cannot take responsibility for the work, and they require that researchers document any use of ChatGPT in their Methods or Acknowledgements sections [4].
  • Academic Medicine guides authors to disclose the use of AI tools in scholarship, describe transparently the nature of that use, and be aware of limitations that affect accuracy and integrity [5].
  • A recent systematic review in the domain of healthcare education, research and practice acknowledged ChatGPT’s promise but concluded that it should be embraced with “extreme caution” considering concerns with “ethical, copyright, transparency, and legal issues, the risk of bias, plagiarism, lack of originality, inaccurate content with risk of hallucination, limited knowledge, incorrect citations, cybersecurity issues, and risk of infodemics.” [6].

우리는 이미 연구와 글쓰기를 지원하기 위해 테크놀로지를 사용하고 있습니다. 데이터 분석을 관리하기 위한 SPSS나 NVivo, 인용을 정리하기 위한 Reference Manager, 철자와 문법을 교정하기 위한 Grammarly 편집 소프트웨어가 없다면 어떻게 될지 상상해 보십시오. 이 작가의 기술에서는 작가들이 ChatGPT에 익숙해져서 효과적이고 적절하게 사용할 수 있도록 하는 것을 목표로 합니다. 2023년 3월과 4월에 ChatGPT4와 나눈 채팅을 바탕으로 그 기능과 한계를 설명하고, 일련의 주의 사항과 인사이트를 추출하여 점진적 프롬프트를 사용하여 소프트웨어를 '훈련'하는 방법, 브레인스토밍과 개요 및 요약과 같은 콘텐츠 생성에 사용하는 방법, 편집자로 활용하는 방법을 안내해 드립니다. 
We already use technology to assist our research and writing. Imagine how you’d function without SPSS or NVivo to manage your data analysis, Reference Manager to organize your citations, or Grammarly editing software to correct your spelling and grammar. This Writer’s Craft aims to familiarize writers with ChatGPT so that they might use it effectively and appropriately. Drawing on chats I had with ChatGPT4 in March and April 2023 to illustrate its capacity and its limitations, I extract a series of Cautions and Insights and guide writers in how to use incremental prompting to ‘train’ the software, how to use it for brainstorming and generating content like outlines and summaries, and how to employ it as an editor.

ChatGPT란 정확히 무엇인가요?
What is ChatGPT, exactly?

ChatGPT는 AI 대규모 언어 모델입니다. 현재 버전(3.5 및 4.0)은 2021년 이전에 방대한 양의 데이터로 사전 학습되어 언어 패턴과 연관성을 학습하여 프롬프트가 표시될 때 사람과 유사한 대화 텍스트를 생성하는 데 사용할 수 있습니다. ChatGPT에 프롬프트를 입력하면 입력 내용을 분석하고 인터넷 사용 시 머신 러닝을 통해 얻은 정보를 바탕으로 신속하게 응답을 생성합니다. 이 기술은 사람과 유사한 텍스트로 정보를 처리하고 추출하여 구두로 표현하는 데 탁월하며[7], 특히 시간 제약과 기타 리소스 제한을 고려할 때[8] 글쓰기 노동의 일부를 아웃소싱할 수 있다면 학술 저술가에게 중요한 자산이 될 가능성이 있습니다. 
ChatGPT is an AI large language model. Current versions (3.5 and 4.0) have been pre-trained on massive amounts of data pre-2021, allowing it to learn language patterns and associations which it uses to generate human-like conversational text when prompted. When you input a prompt into ChatGPT, it analyzes the input and rapidly generates a response drawn from information acquired via machine learning in engagement with the internet. It excels at processing, distilling and presenting information verbally in human-like text [7]; it has the potential, therefore, to be an important asset for academic writers, particularly if we can outsource some of the labor of writing [8] given time constraints and other resource limitations.

ChatGPT는 문법적으로 정확하고 의미적으로 의미 있는 응답을 생성합니다. 하지만 항상 정확한 것은 아닙니다. AI 대규모 언어 모델에는 일반적인 의미의 '지식'이 없고, 데이터를 저장하거나 검색하지 않으며, 검색 엔진처럼 웹을 크롤링하여 정보를 찾지 않기 때문입니다. 그들은 학습한 내용을 바탕으로 "시퀀스에서 다음 단어를 예측하는 데 능숙할 뿐"[9]입니다. 따라서 ChatGPT는 "사실 정확도가 고르지 못하며"[10], 텍스트의 내용이 진실하고, 견고하며, 검증 가능하고, 유효하며, 일반화 가능한지 확인하려고 하지 않습니다. [11]. 머신 러닝 용어로 "환각"을 일으켜 실제가 아닌 것처럼 보이는 자료를 자신 있게 제시할 수 있습니다[12]. 
ChatGPT generates responses that are grammatically correct and semantically meaningful. They are not, however, always accurate. This is because AI large language models don’t have ‘knowledge’ in the usual sense of the word; they don’t store or retrieve data; they don’t crawl the web like a search engine for information. They are “just good at predicting the next word(s) in a sequence” [9] based on what they have learned. Thus, ChatGPT has “uneven factual accuracy” [10]; moreover, it does not try to ensure that the content of its text is true, robust, verifiably, valid, generalizable, etc. [11]. In machine learning terms, it can “hallucinate”, confidently presenting legitimate-sounding material that it is not real [12].

점진적 프롬프트를 통한 ChatGPT 훈련
Training ChatGPT through incremental prompting

ChatGPT의 기본값은 일반적이고 설명적인 응답을 제공하는 것입니다. 점진적 프롬프트는 점차적으로 주의를 집중시키고 사용자의 관심사와 이해 수준에 맞는 응답을 제공하도록 훈련시키는 프로세스입니다. 아래 질문과 같은 일반적인 프롬프트가 시작점으로 좋습니다: 
ChatGPT’s default is to offer generic and descriptive responses. Incremental prompting is the process by which you gradually focus its attention and train it to give you responses tailored to your interests and your level of understanding. General prompts are fine as a starting point, such as my question below:

 

능동태와 피동태에 대한 설명이 이어지지만, 제가 실제로 관심을 갖고 있는 부분은 아닙니다. 저는 좀 더 구체적인 답변을 얻고자 제 이야기를 해보려고 합니다.

lf:It goes on to explain active and passive voice, but that’s not really what I’m interested in. I try to get a more specific answer by telling it about myself:

 

스타일과 어조에 대해 이야기하고 대명사의 예가 더 구체적이라는 점에서 다소 나아졌습니다. 하지만 여전히 제가 원하는 것보다 더 일반적입니다. 제가 요청합니다:

That’s somewhat better: it’s talking about style and tone, and the example of pronouns is more specific. But it is still more generic than I would like. I ask it to:

 
 

이 답변은 학술적 글쓰기에서 목소리에 대해 이야기하기 위해 좀 더 형식적인 언어적 특징을 사용하며, 딕시스, 양식 및 일관성에 대한 예를 제시합니다. 그러나 학자들이 학술적 목소리에 대해 이야기할 때 이러한 특징이 주된 관심사는 아닙니다. 그래서 다음 질문은 학술적 목소리의 저명한 언어학자에 대해 묻고 있습니다:

This response employs more formal linguistic features to talk about voice in academic writing, and offers illustrations of deixis, modality, and coherence. However, these aren’t the primary features that scholars are concerned with when they talk about academic voice. So my next prompt asks about a prominent linguistic scholar of academic voice:

 

Hyland의 이론은 세 가지 주요 구성 요소로 이루어져 있으며, 그 중 하나만 명시적으로 응답("입장")에 표현되어 있습니다. 다음 점진적 프롬프트는 이를 더욱 집중적으로 다루려고 합니다:

This is accurate, but still generic and selective: Hyland’s theory has three main components, only one of which is explicitly represented in its response (“stance”). My next incremental prompt tries to focus it further:

 

이제 ChatGPT는 Hyland의 이론에 대한 360단어 설명과 함께 세 가지 구성 요소에 대한 유용한 예시를 몇 초 만에 제공할 수 있게 되었습니다. 하지만 이제 궁금한 점이 생겼습니다. 제가 프롬프트에서 Hyland에 집중하느라 음성 관련 다른 언어 이론에 대해 알려주지 않은 것은 무엇일까요? 그래서 묻습니다:

ChatGPT is now able, in a few seconds, to offer a 360-word description of Hyland’s theory with helpful, illustrative examples of its three components. But now, I wonder, what other linguistic theories of voice did it not tell me about, due to my focusing in on Hyland in my prompting? So I ask:

 

이제 ChatGPT는 음성에 대한 네 가지 중요한 이론을 설명하며, 점진적인 프롬프트를 통해 더 자세히 살펴볼 수 있습니다. 또한 이러한 이론을 비교하거나 이론 간의 긴장을 설명하거나 더 최근의 이론가들이 이러한 이론을 어떻게 구축했는지 제안하도록 요청할 수도 있습니다. 이 정도의 구체성에 도달하면 ChatGPT는 여러분이 직접 읽고 쓸 때 추구해야 할 아이디어 간의 연결점을 지적하는 데 매우 유용할 수 있습니다. 
Now ChatGPT describes four important theories of voice, which I could probe further with incremental prompting. I could also ask it to compare these theories, or to describe tensions among them, or to suggest how more recent theorists have built on them. Once you get to this level of specificity, ChatGPT can be very helpful in pointing out connections among ideas for you to pursue in your own reading and writing.

이 대화에서 알 수 있듯이 점진적 프롬프트는 ChatGPT의 응답 가치를 극대화하는 데 핵심적인 역할을 합니다. 그러나 효과적인 증분 프롬프트를 사용하려면 도메인에 대한 지식이 필요합니다. 도메인을 이미 잘 알고 있어야 ChatGPT의 응답이 얼마나 정확하고 선택적이거나 포괄적인지 판단하고 후속 프롬프트를 사용하여 응답을 개선할 수 있습니다. 잘 모르는 도메인에 대해 질문하면 ChatGPT가 어떤 정보를 선택했는지, 왜 어떤 것을 선택했는지, 왜 다른 것을 선택하지 않았는지 불분명합니다. 
As this conversation illustrates, incremental prompting is a key to maximizing the value of ChatGPT’s responses. But effective incremental prompting requires domain-specific knowledge: you need to know the domain quite well already, so that you can judge the extent to which ChatGPT’s response is accurate, selective or comprehensive, and use follow up prompts to improve it. If you ask it about domains you don’t know well, it will be unclear what information ChatGPT has selected from, and why it has selected some things and not others.

마지막으로 '학습' ChatGPT에 대해 한 가지 더 말씀드리자면, 학습한 내용이 현재 채팅을 넘어 일관되게 전달되지 않는 것 같습니다. 별도의 채팅을 열고 "켄 하일랜드의 학문적 음성 이론에 대해 무엇을 이해하나요?"라고 다시 질문했을 때, 첫 번째 응답은 이 모델의 세 가지 특징을 모두 설명하는 것으로 이전 채팅에서 학습한 내용이 전달되는 것처럼 보였습니다. 하지만 다음 섹션에서 설명하겠지만 항상 그런 것은 아닙니다.
One final point about ‘training’ ChatGPT: what it learns does not appear to consistently transfer beyond the current chat. When I opened a separate chat and asked again “What do you understand about Ken Hyland’s theory of academic voice in writing”, the first response included described all three features of this model: that seemed to represent learning transferred from the previous chat. But this is not always the case, as I will discuss in the next section.

주의: ChatGPT의 기본 응답은 일반적이면서도 (눈에 보이지 않게) 선택적인 응답을 제공합니다.
인사이트: 점진적 프롬프트는 구체성을 높이고, 선택을 안내하며, 제외 항목을 표시할 수 있습니다.

Caution:
 ChatGPT’s default responses are both generic and (invisibly) selective.

Insight: Incremental prompting can increase specificity, guide selections & reveal exclusions.

브레인스토밍을 위한 ChatGPT 사용
Using ChatGPT for brainstorming

ChatGPT는 다른 기능보다 몇 가지 기능이 더 뛰어납니다. 가장 큰 차이점은 콘텐츠 생성과 구조적 지원입니다. 콘텐츠 생성의 경우, 앞서 학술적 글쓰기 음성에 대한 대화에서 설명한 것처럼 ChatGPT가 제공하는 콘텐츠의 품질을 판단하려면 콘텐츠를 잘 알고 있어야 합니다. 소프트웨어가 잘하는 것으로 확인된 콘텐츠 생성의 한 가지 형태는 개요 생성입니다[13]. 저는 이 작가의 기술에 대한 개요를 제공하기를 원했기 때문에 작가의 기술 장르에 대해 무엇을 알고 있는지 물어보는 것부터 시작했습니다: 

ChatGPT is better at some things than others. The main distinction is between content generation and structural support. In terms of content generation, as the previous conversation about academic writing voice illustrated, you need to know the content well to judge the quality of what ChatGPT is giving you. One form of content generation that the software has been identified to be good at is the creation of outlines [13]. I wanted it to provide an outline for this Writer’s Craft for me, so I began by asking what it knew about the Writer’s Craft genre:

 

여기서 멈추세요. '작가의 기술'은 일련의 책이 아니며, 저는 이런 제목의 책을 쓴 적이 없습니다. 이 예에서 알 수 있듯이 점진적 프롬프트의 각 단계에서 잘못된 응답을 경계해야 합니다. ChatGPT는 두뇌가 아닌 텍스트 생성기입니다. 질문한 주제와 관련하여 함께 찾을 수 있는 단어를 조합하는 것입니다. 그렇다고 해서 이 단어들이 서로 '속한다'거나 '진실'이라는 의미는 아닙니다. 사실 ChatGPT는 헛소리를 만들어내는 것을 즐기는 것 같습니다. 이 서비스가 제공하는 참고 자료를 절대 신뢰할 수 없습니다. 2021년 이후의 자료에 접근할 수 없기 때문만이 아니라, 작가의 기술 시리즈는 2015년까지 거슬러 올라가는데, 이를 알지도 못하고 찾으려고 하지도 않는 것 같습니다. 대신 "환각"을 일으켜 책 시리즈를 구성합니다. 다행히도 "생성 중지" 버튼을 누르면 이 작업을 중단할 수 있습니다. 그런 다음 수정했습니다: 

Stop right there: the Writer’s Craft is not a series of books, and I have never written books with these titles. As this illustrates, at each stage of the incremental prompting, you should be alert for false responses. ChatGPT is a text generator, not a brain: it is putting together words that are likely to be found together around the topic you’ve asked about. That doesn’t mean these words ‘belong’ together or that they are ‘true’. In fact, ChatGPT seems to enjoy making sh*t up. You absolutely cannot trust the references it gives you. And not only because it doesn’t have access to material post-2021; the Writer’s Craft series extends back to 2015, but it doesn’t know them and apparently doesn’t try to find them. Instead, it “hallucinates”, making up a book series. Happily, you can stop it in its tracks when it does this, by hitting the “Stop Generating” button, which I did. Then I corrected it:

 

이 답변 역시 프롬프트에서 말씀드린 내용을 대부분 반복하는 것이기 때문에, 집중해서 작가의 기술 시리즈 제목을 물어봄으로써 구체적인 내용을 파악하려고 노력했습니다: 

This answer too, is mostly repetition of what I told it in the prompt, so I try to focus it down and get specifics by asking for the titles of the Writer’s Craft series:

 

문제는 이러한 제목이 실제 제목이 아니라 지어낸 제목이라는 것입니다. 특정 참고 문헌을 제공하라는 메시지가 표시되면 종종 이를 만들어내는 경우가 많다는 점이 ChatGPT의 주요 약점 중 하나입니다[14]. 이러한 발명품은 단어 연관성을 기반으로 하기 때문에 키워드와 공동 저자의 현실적인 조합을 갖게 됩니다. 하지만 가짜가 아닐 가능성도 그만큼 높습니다. 이 문제를 해결하기 위해 웹에 대한 ChatGPT의 액세스를 개선하거나 Google Scholar 참조로 제한하는 확장 프로그램과 같은 기술이 등장하고 있지만, 그 효과에 대한 보고는 다양합니다[15]. 
The problem is, these aren’t real titles: they’re made up. This is one of ChatGPT’s main weaknesses: when you prompt it to provide specific references, it often invents them [14]. Because these inventions are based on word associations, they will have realistic combinations of keywords and coauthors. But they are as likely as not to be bogus. Techniques for addressing this problem are emerging, such as extensions that improve ChatGPT’s access to the Web or restrict it to Google Scholar references; however, reports of their effectiveness vary [15].

주의: ChatGPT는 사용자에게 거짓말을 할 수 있으며, 이러한 현상은 AI 환각으로 알려져 있습니다.
인사이트: 생성하는 모든 콘텐츠, 특히 참고 문헌을 다시 한 번 확인하세요.
Caution:
 ChatGPT will lie to you, a phenomenon known as an AI hallucination.

Insight: Double check any content it generates, particularly references.

하지만 ChatGPT는 제목에 있어서는 다소 창의적이라고 말할 수 있습니다. 예를 들어, 저는 이 가짜 작가의 기술이라는 제목을 썼으면 좋았을 것 같습니다: "링가드 L. 나를 설득하라: 논증의 기술. 의학 교육에 대한 관점. 2013; 2(2): 75-78." 이는 소프트웨어를 효과적으로 사용하는 한 가지 방법이 제목 제안을 요청하는 것임을 시사합니다. 실험으로, 저는 최근 '독자를 위한 글쓰기'라는 제목을 붙인 '작가의 기술'의 도입 단락을 제공했습니다: 독자를 위한 글쓰기: 독자의 기대 원칙을 사용하여 명확성 극대화하기"라는 제목을 붙인 글의 도입부를 제공하고 가능한 제목을 물어보았습니다:

I will say, though, that ChatGPT is rather creative when it comes to titles. I wish, for instance, that I had written this fake Writer’s Craft: “Lingard L. Convince me: the art of argumentation. Perspectives on Medical Education. 2013; 2(2): 75–78.” This suggests that one way to use the software effectively would be to ask it for title suggestions. As an experiment, I give it the introductory paragraphs from a recent Writer’s Craft (that I had entitled “Writing for the Reader: Using Reader Expectation Principles to Maximize Clarity) and I ask it for possible titles:

 

저는 특히 1번과 6번을 좋아하는데, 만약 제가 새 제목을 쓴다면 이 중 몇 가지를 조합해서 쓸 것 같습니다. 
Some of these are pretty good: I especially like 1 and 6, and if I were going to write a new title it would likely combine pieces of these favorites.

ChatGPT에서 이 작가의 기술에 대한 개요를 작성하기 위해 ChatGPT를 사용했던 시도로 돌아가 보겠습니다. 
Back to my attempt to get ChatGPT to create an outline for this Writer’s Craft on ChatGPT.

실제 작가 크래프트 작품에 익숙해지도록 하려고 했지만 잘 안 되더군요. 
I tried to get it to familiarize itself with actual Writer’s Craft pieces, but it resisted.

 

처음에는 능력과 시간(!)이 있는 것은 분명한데 실제로 시리즈 전체를 읽는 것을 거부하는 것이 당황스러웠습니다. 아마도 모든 참조를 제공하면 더 잘 반응 할 것입니다. 하지만 여기서는 다시 일반론으로 돌아갑니다: "이 시리즈는 약 20개의 아티클로 구성되어 있으며, 각 아티클은 학술적 글쓰기의 다른 측면에 초점을 맞출 것입니다...", "이 시리즈는 연구자들이 학술적 글쓰기에 사용할 수 있는 실용적인 조언과 전략을 제공할 것입니다..." 등등. 지금까지는 ChatGPT가 실제로 제가 예시로 제공한 특정 글쓰기를 포함하여 작가의 기술 중 어느 것도 읽지 않았다는 확신을 가질 수 없었습니다. 하지만 ChatGPT는 읽거나 분석하는 것이 아니라 언어 패턴을 인식하는 것뿐이라는 것을 기억합니다. 그래서 다시 묻습니다: 

At first I’m puzzled that it resists actually reading the entire series, as it surely does have the ability and the time (!). Perhaps if I gave it all the references it would respond better. Here though, it reverts again to generalities: “The series consists of approximately 20 articles, each of which likely focuses on a different aspect of academic writing…”; The series likely provides practical advice and strategies for researchers to use in their academic writing…”, and so on. So far, I can’t have confidence that ChatGPT has actually read any of the Writer’s Crafts, even the specific one that I provided as an example. But then I remember that ChatGPT is neither reading nor analyzing – it’s just recognizing language patterns. Thus, I prompt again:

 

점점 가까워지고 있습니다. ChatGPT가 이 작가의 기술의 주요 구조를 파악했다는 것을 알 수 있을 정도로 충분한 디테일이 있습니다. 하지만 제 자신의 기존 지식이 얼마나 중요한지 주목하세요: 저는 이 기사를 잘 알고 있기 때문에(제가 작성했습니다!) ChatGPT가 일반적인 내용을 말하는 경우와 제가 지시한 기사에 대해 실제로 이야기하는 경우를 쉽게 구분할 수 있었습니다. 
That’s getting closer. There is sufficient detail that I can tell ChatGPT has picked up the main structure of this Writer’s Craft. Notice though, how important my own existing knowledge is: I know this article well (I wrote it!) and so I have been able to readily discern when ChatGPT is spouting generic stuff and when it is actually talking about the article(s) I’ve directed it to.

주의: ChatGPT에 의존해 기사를 읽지 마세요.
인사이트: 낯선 도메인보다는 익숙한 도메인과 관련하여 ChatGPT를 사용하세요.
Caution:
 Don’t rely on ChatGPT to read articles for you.

Insight: Use ChatGPT in relation to familiar domains rather than unfamiliar ones.

 

이제 (마침내) 특정 글쓰기 기술의 특징을 인식하도록 만들었으니 원래의 목표, 즉 이 글의 개요를 브레인스토밍하는 데 ChatGPT를 사용하도록 하는 것에 도달할 수 있게 되었습니다: 
Now that I’ve (finally) gotten it to recognize the features of a specific Writer’s Craft, I can get to my original aim: getting ChatGPT to brainstorm an outline for this paper:

 
 

이것은 유용합니다. 물론 제가 가르쳤던 '작가의 기술'의 형식과 정확히 일치하는 것은 아니며, 다소 일반적인 구조로 되돌아갔습니다. 그리고 제가 실제로 이 글을 어떻게 구성하기로 결정했는지는 (눈치 채셨을 것입니다) 아닙니다. 그러나 필요한 섹션 중 일부를 개념화하는 데 도움이됩니다. 그리고 초안 작성 과정에서 다시 돌아가서 제가 무엇을 강조하고 간과했는지 확인하는 데 유용했습니다. 
This is useful. Admittedly, it’s not precisely the format from the Writer’s Craft I trained it on: it has reverted to a somewhat more generic structure. And it is not (you will have noticed) how I actually decided to organize this piece. It does, however, help me conceptualize some of the necessary sections. And it was useful to return to during the drafting process, to see what I was emphasizing and overlooking.

점진적인 프롬프트를 통해 ChatGPT를 이 단계까지 끌어올리면 모든 종류의 브레인스토밍을 할 수 있는 정점에 도달한 것입니다. 각 섹션을 완성하는 데 도움이 되는 몇 가지 구체적인 정보가 필요하다고 가정해 봅시다:

Once you get ChatGPT to this point through incremental prompting, you’re on the cusp of all kinds of brainstorming bounty. Let’s say you want some specifics to help you flush out each section:

 
Insight: If you dread the blank page, a ChatGPT outline could jumpstart your drafting process.
Caution: Its ideas are generic; use them as a starting place, not a replacement for your own.

글의 깊이를 더하기 위해 몇 가지 추가 아이디어를 짜는 데 도움이 필요하다면 어떻게 해야 할까요? 가능한 한 구체적으로 말씀해 주세요: 

What if you wanted help weaving in some additional ideas, to deepen the piece of writing? Just ask, remembering to be as specific as you can be:

 

이것들은 모두 관련성이 있는 요점들이며, 각각에 대한 이해를 마무리하기 위해 Google Scholar에 입력할 수 있는 검색어를 제공합니다. 
These are all relevant points, and they provide me with search terms I could input into Google Scholar to round out my understanding of each.

위의 채팅에서 볼 수 있듯이 ChatGPT를 사용하여 견고한 윤곽을 만들 수 있습니다. 글을 쓸 장르에 대해 훈련하고 다룰 주제 영역에 대한 지식을 판단해야 하지만, 이러한 단계를 수행한 후에는 순서, 섹션, 강조점이 다른 일련의 개요를 빠르게 요청할 수 있습니다. 이렇게 하면 원고에 접근하는 다양한 방법을 상상해보고 가장 적합한 방법을 선택하여 초안을 작성하는 데 도움이 됩니다. 
As my chat above illustrates, ChatGPT can be used to create solid outlines. You need to train it on the genre you’re going to write in and you need to judge its knowledge about the subject areas you’ll cover, but once you’ve taken those steps you can quickly request a series of outlines with different orders, sections, emphases. This can help you imagine different ways of approaching the manuscript: choose the best one, and start drafting.

ChatGPT는 일단 올바른 방향으로 안내를 받으면 빠르게 진행되지만(전체 채팅은 10분도 채 걸리지 않았습니다), 이러한 훈련 노력이 새로운 채팅으로 이어지지는 않습니다. 시스템은 모든 채팅 로그를 저장합니다. 사이드바에서 채팅 로그를 보고 다시 돌아가서 액세스할 수 있지만, 이는 개별적인 개체입니다. "컨텍스트 메모리는 현재 대화에만 적용됩니다. ChatGPT의 상태 비저장 아키텍처는 대화를 독립적인 인스턴스로 취급하기 때문에 이전 대화의 정보를 참조할 수 없습니다. 새 채팅을 시작하면 항상 모델의 상태가 초기화됩니다."[16]. 이 사실을 모르고 며칠 후 새 채팅을 시작하고 "연구자들의 학술적 글쓰기 향상을 돕기 위해 로렐라이 링가드가 (주로) 쓴 '작가의 기술' 시리즈에 대해 아는 것을 말해 주세요"라고 다시 물었더니 제가 쓴 적도 없는 책 5권에 대해 또다시 대답을 들었습니다. 저장된 채팅 로그로 돌아가서 중단한 부분부터 다시 프롬프트를 받았을 때 결과는 더 나아졌지만 일관성이 없었는데, 이는 ChatGPT의 문맥 기억의 한계 때문이거나 "관련성이 없다고 판단되는 지시를 삭제하는"[16] 경향으로 인해 "문맥을 깨뜨리는" 경향 때문일 수 있습니다. 
ChatGPT is fast once you get it pointed in the right direction (this whole chat took less than 10 minutes), but that training effort doesn’t transfer to new chats. The system saves all your chatlogs: you can see them on the sidebar and go back and access them, but they are discrete entities. “Contextual memory only applies to your current conversation. ChatGPT’s stateless architecture treats conversations as independent instances; it can’t reference information from previous ones. Starting new chats always resets the model’s state” [16]. Not knowing this, a few days later I started a new chat and asked it again “Tell me what you know about the Writer’s Craft series written (predominantly) by Lorelei Lingard to help researchers improve their academic writing”, only to be told again about 5 books I had never written. When I went back into saved chat logs and picked up my prompting where I’d left off, the result was better but not consistently so, which may be due either to limits on ChatGPT’s contextual memory or to its tendency to “break character” due to “dropping instructions it deems irrelevant” [16].

주의: ChatGPT는 여러 채팅에서 수행한 훈련을 전송하지 않습니다.
인사이트: 저장된 채팅 로그로 돌아가서 이전 프롬프트를 통해 수행한 훈련을 바탕으로 학습할 수 있을 것입니다.
Caution:
 ChatGPT doesn’t transfer the training you’ve done across chats.

Insight: Try returning to saved chat logs; you may be able to build on the training you’ve done through previous prompting.

반론, 요약 및 요약 생성하기
Generating counterarguments, summaries, and abstracts

콘텐츠 생성에 ChatGPT를 사용하는 유용한 방법은 개요뿐이 아닙니다. 또한 주장의 한 부분을 검토하고 반론을 제안하도록 요청할 수도 있습니다. 사용하는 ChatGPT 버전이 중요하다는 점을 명심하세요. 무료 ChatGPT 3.5는 읽고 응답할 수 있는 단어가 약 500단어로 제한되어 있으므로 전체 결과 또는 토론 섹션을 입력하면 이 오류 메시지가 표시됩니다: 
Outlines are not the only useful way to use ChatGPT for content generation. You can also ask it to review a section of your argument and suggest counter arguments. Keep in mind that the version of ChatGPT you use matters. The free ChatGPT 3.5 has a limit of about 500 words on what it can read and respond to, so if you input your whole results or discussion section you’ll get this error message:

 

유료 버전인 ChatGPTPlus는 한 번에 최대 25,000단어까지 처리할 수 있지만, 읽고 응답할 수 있는 단락을 몇 개 이상 입력하려고 하면 여전히 오류 메시지가 표시됩니다. 따라서 초안을 작성하는 동안 섹션에 대한 대략적인 요약을 제공하고 반론을 요청하는 것이 더 낫다고 생각합니다. 이 프롬프트에서는 현재 작업 중인 논문 결과의 요점을 요약하고, 그 결과를 바탕으로 제가 주장하고자 하는 바를 ChatGPT에 말한 다음 반론을 제시해 달라고 요청합니다: 
ChatGPTPlus (the paid version) is supposed to handle up to 25,000 words at a time, but I still received the error message when I tried to input more than a few paragraphs for it to read and respond to. Therefore, I think it’s better to give it a rough summary of a section (say, while you’re still drafting it) and ask it for counterarguments. In this prompt I summarize the gist of the results of a paper I’m currently working on, tell ChatGPT what I want to argue based on those results, and ask it to suggest counterarguments:

 

약 3초 만에 (얼마나 빨리 작동하는지 아직도 숨이 멎을 정도입니다) ChatGPT는 이를 제공합니다:

In about 3 seconds (it still leaves me breathless how quickly it works), ChatGPT offers this:

 

이 정도면 충분했습니다: 토론의 '반론' 섹션을 쉽게 작성할 수 있습니다. 이러한 아이디어 중 일부를 완전히 이해하지 못했거나 더 구체적인 내용을 원할 경우, 추가 질문을 통해 답변에 집중할 수 있습니다. 
This is enough to get my wheels turning: I could readily start writing a ‘counterargument’ section of my discussion. If I don’t understand fully some of these ideas or I want more specificity, further prompting would focus these responses.

통찰력: ChatGPT는 좋은 브레인스토밍 리소스가 될 수 있습니다.
주의: 하지만 그 제안을 맹목적으로 받아들이지 마세요. 여러분은 인공지능보다 더 똑똑합니다(적어도 현재 형태에서는).
Insight:
 ChatGPT can be a good brainstorming resource.

Caution: But don’t accept its suggestions blindly. You are smarter than it is (at least in its current form).


ChatGPT와 같은 AI 도구는 더 많은 청중이 더 쉽게 접근하고 포용할 수 있는 글을 작성하는 데에도 도움이 될 수 있습니다. 예를 들어, 최근 지원금 신청서의 첫 문단을 주고 100단어로 된 일반인용 요약문을 작성해 달라고 요청했더니 응답이 왔습니다: 

AI tools like ChatGPT can also help you to make your writing more accessible and inclusive of a wider audience. For instance, I gave it the opening paragraphs of a recent grant application and asked it to generate a 100-word lay summary, to which it responded:

 

이는 여전히 다소 형식적인 표현으로, 처음 프롬프트에서 '평이한 요약'의 의미가 자명하지 않은 것 같아서 더 자세히 설명했습니다: 

This was still a bit formal, suggesting that the meaning of ‘lay summary’ was perhaps not self-evident in my initial prompt, so I prompted it further:

 

이제 수정할 수 있는 초안이 완성되었으니, 예를 들어 '과학적 무결성'과 같이 삭제된 키워드 몇 개를 다시 넣을 수 있을 것입니다. 하지만 실행 가능한 초안이 있었기 때문에 최소 30분의 작업 시간을 절약할 수 있었습니다. 
This is an acceptable first draft that I can now rework; for instance, I would probably reinstate a few of the keywords (like “scientific integrity”) that were removed. But having a workable draft to start from has probably saved me at least 30 minutes of work.


초록은 ChatGPT가 도움을 줄 수 있는 또 다른 글쓰기 노동입니다. 프롬프트에 입력할 수 있는 단어가 제한되어 있어 논문 전체를 읽을 수 없기 때문에 첫 번째 초록 초안을 작성하는 데는 도움이 되지 않습니다. 하지만 항상 너무 긴 초록의 첫 초안을 필요한 단어 수 제한으로 줄이는 데는 도움이 될 수 있습니다. 이는 대부분의 사람들이 기꺼이 아웃소싱할 수 있는 노동력입니다: 저는 아직 초록의 단어 수를 줄이는 작업(과 시간!)을 소중히 여기는 작가를 만나지 못했습니다. 하지만 인공지능에게 완벽하게 적합한 것처럼 보이는 이 작업도 전적으로 신뢰할 수는 없습니다. 
Abstracts are another piece of writing labor that ChatGPT can help with. It can’t help you with your first abstract draft, because it can’t read your entire paper due to limits on the words you can enter in a prompt. But it can help you take your abstract’s first draft, which is invariably too long, and reduce it to the required word limit. This is labor most of us would be happy to outsource: I have yet to meet a writer who cherishes the task (and time!) of whittling words from their abstract. But even with this task which seems perfectly suited to AI, you can’t entirely trust it.

예를 들어, 제가 제공한 구조화된 초록에서 27개의 단어를 제거해 달라고 요청하면서 내용 그대로를 최대한 적게 다시 작성해 달라고 덧붙였습니다. 그 결과 약 100단어 길이의 비정형 버전이 만들어졌습니다. 저는 응답했습니다: 

As illustration, I asked it to remove 27 words from a structured abstract which I provided, adding that I wanted it to rewrite as little as possible as I liked the content as it was. It produced an unstructured version about 100 words long. I responded:

 

이제 구조화된 초록이 반환되었지만 여전히 제가 요청한 것보다 훨씬 짧았습니다. 이번에는 단어 수를 빼는 수학적 작업을 요청하지 않고 응답에 대한 단어 수 제한(300개)을 설정하여 다시 요청했습니다(약간 짜증이 났음을 고백합니다): 
Now it returned a structured abstract, but still much shorter than I had requested. I prompted again (I confess, a bit irritated), this time not asking it to do the mathematical task of subtracting the number of words, but setting a word limit (300) for its response:

 
 


이해하는 것 같지만 다음 버전도 300 단어가 아니 었습니다 (예, 이때까지 단어 수를 확인하기 위해 모든 시도를 Word 문서에 복사하여 붙여 넣었습니다): 

It seems like it understands, but the next version wasn’t 300 words either (yes, by this time I was copying and pasting all the attempts into a Word document to check the word count):

 

마지막으로 성공: 최종 버전은 310단어였습니다(이 중 10개가 구조화된 제목이었으므로 ChatGPT에 점수를 주겠습니다).
Finally, success: the last version was 310 words (we’ll give ChatGPT the point, because 10 of those were the structured headings). 

인사이트: ChatGPT는 분명히 셀 수 없습니다.
주의: 구체적인 작업을 수행하더라도 실패에 주의해야 합니다.
Insight:
 ChatGPT apparently can’t count.

Caution: Even with concrete tasks, be alert for failure.

물론 수학 문제를 풀도록 요청하면 ChatGPT는 계산할 수 있습니다. 하지만 정확한 단어 개수를 세는 것은 분명 장점은 아닙니다. 그럼에도 불구하고 ChatGPT는 기존 초록을 새로운 목적에 맞게 재구성하는 데 여전히 유용합니다. 250단어로 구성된 구조화된 컨퍼런스 초록이 있는데, 100단어로 구성된 비정형 초록이 필요한 다른 컨퍼런스에 제출하고 싶다고 가정해 보겠습니다:
ChatGPT can count, of course: if you ask it to solve math problems, it can do so. But exact word counts clearly aren’t its forte. Nevertheless, ChatGPT is still useful for reformatting existing abstracts for new purposes. I have a structured conference abstract of 250 words, which I want to submit to another conference that requires unstructured, 100-word abstracts:

 

아직 정확하게 계산하지는 못했지만(108단어) 비정형 초록으로 형식을 바꾸고 핵심 아이디어는 유지했습니다. 이 버전을 다시 작업할 때 여분의 단어 8개를 다듬을 예정인데, 전체 서식을 직접 다시 지정하는 것보다 확실히 빠릅니다.
It still hasn’t counted accurately (this is 108 words), but it has reformatted to an unstructured abstract and retained the key ideas. I’ll trim the extra 8 words when I rework this version; that’s certainly faster than doing the whole reformat myself.

명확성과 일관성을 개선하기 위해 ChatGPT로 편집하기
Editing with ChatGPT to improve clarity and coherence

이 도구를 사용하는 또 다른 방법은 초안 섹션의 명확성과 일관성을 강화하는 것입니다. 특히 독자를 잃을 수 있다고 생각되는 밀집된 부분의 명확성과 일관성을 강화하는 것입니다. 내부 일관성을 강화하려면 한 단락을 입력하고 요점을 설명하기 위해 토큰 문장을 추가할 위치를 제안하는 등 아이디어가 더 설득력 있게 전개되도록 다시 작성해 달라고 요청할 수 있습니다. 저는 초안을 작성한 단락을 입력하고 세 가지 주제 문장을 제안해 달라고 요청했고, 이에 응답했습니다: 

Another way to use the tool is to strengthen the clarity and coherence of sections of your draft, particularly those dense spots where you think you might lose the reader. To strengthen internal coherence, you could input a single paragraph and ask it to rewrite so that the ideas develop more convincingly, including suggesting where you should add token sentences to illustrate your points. I inputted a paragraph I’d drafted and asked it for three possible topic sentences, to which it responded:

 

각 주제 문장에서 서로 다른 강조점을 확인함으로써 단락에서 관심을 끌기 위해 경쟁하는 문제를 파악하고 더 일관성 있게 만드는 데 도움이 되었습니다.
Seeing the different emphases in each topic sentence helped me to identify the issues that were vying for attention in the paragraph, and make it more coherent.

인사이트: ChatGPT에 주제 문장을 요청하면 단락의 일관성 문제를 파악하는 데 도움이 될 수 있습니다.
주의: 이러한 문장을 그대로 사용하지 마세요. 이는 해결책이 아니라 신호일 뿐입니다.
Insight:
 Asking ChatGPT for topic sentences can help reveal issues with paragraph coherence.

Caution: Don’t use those sentences verbatim. They are a signal, not a solution.


이론적으로는 일련의 단락을 입력하고 새로운 주제 및 전환 문장을 제안하도록 요청하여 ChatGPT로 외부 일관성을 강화할 수도 있습니다. 저는 이번 작가의 기술을 위해 초안을 작성했던 첫 문단에 대해 ChatGPT에 도움을 요청했습니다:

Theoretically, you can also strengthen external coherence with ChatGPT, by inputting a series of paragraphs and asking it to suggest new topic and transition sentences. I asked ChatGPT for help with the opening paragraphs I had drafted for this Writer’s Craft:

 

제안한 내용은 다음과 같습니다:

Here’s what it suggested:

 

첫째, ChatGPT는 요청에 따라 주제와 전환 문장뿐만 아니라 모든 문장을 변경했습니다. 예를 들어, 수동태 구조(예: "촉발되었다", "점화되었다", "인정되었다")를 많이 사용하고, 단순한 주제를 좀 더 정교한 구조로 변경했습니다(예: "ChatGPT"가 "학계 내 ChatGPT의 영향력 증가"로 변경됨). 이제, 제가 제 글에 대해 약간 귀중하게 여길 수 있다는 것을 인정하는 첫 번째 사람이 되겠지만, 이것이 제가 부탁한 것은 아닙니다. 따라서 분명히 밝힙니다: 

I noticed two things immediately: first, ChatGPT changed all the sentences, not only the topic and transition sentences as requested. And second, it also changed the writing style: for instance, it uses many passive voice constructions (e.g., “has sparked”, “has ignited”, “has been acknowledged”), and changed out my simple subjects for more elaborate constructions (e.g., my “ChatGPT” has been changed to “the rising influence of ChatGPT within academia”). Now, I will be the first to admit that I can be a bit precious about my writing, but this is not what I asked it to do. Thus, I clarify:

 

Ugh. 은유가 지나치게 섞여 있습니다! - 은유가 지나쳤습니다. 그리고 어조가 답답한 학자에서 발랄한 청소년으로 바뀌었습니다. 다음 프롬프트는 제 짜증을 드러냅니다:

Ugh. It has overdone – and mixed! – the metaphors. And the tone has swung from stuffy academic to effusive adolescent. My next prompt reveals my irritation:

 

이 글은 제 글쓰기 스타일에 더 가깝고, 주제와 전환 문장이 시작 논거를 연결하고 발전시키는 데 효과적입니다. 글의 내적 또는 외적 일관성을 유지하는 데 어려움을 겪고 있다면 이 자료가 도움이 될 수 있습니다. 그러나 일관성 문제로 어려움을 겪고 있지 않다면(이 글에서는 특별히 그렇지 않았습니다) 이 제안이 흥미롭지 않을 수 있으며, 일부 제안은 좌절감을 줄 수도 있습니다.
This is closer to my writing style, and the topic and transition sentences are effective at connecting and developing the opening argument. If you’re struggling with internal or external coherence in a piece of writing, this could be a helpful resource. But if you’re not struggling with coherence (as I wasn’t particularly in this piece), its suggestions are unlikely to excite you – and some of them may frustrate you.

주의: ChatGPT는 콘텐츠뿐만 아니라 글쓰기 스타일도 편집합니다.
인사이트: ChatGPT가 생성한 자료를 다시 작성할 때 스타일을 자신만의 것으로 만드세요.
Caution:
 ChatGPT will edit your writing style as well as your content.

Insight: As part of your rewrite of ChatGPT-generated material, make the style your own.

ChatGPT를 통해 글쓰기에서 어떤 부분을 개선하고 싶으시다면, 그 글의 특징 뒤에 있는 문법적/수사적/언어적 개념을 ChatGPT가 이해하고 있는지 확인해야 합니다. 무엇을 "알고 있는지" 물어보기 전까지는 알 수 없습니다. 저는 제 학생 중 한 명이 왼쪽 분기 문장(많은 세부 사항을 일찍 도입하고, 주요 아이디어를 나중으로 미루어 다른 모든 세부 사항을 정리하기 위해 주요 아이디어가 필요한 독자에게 혼란을 줄 수 있는 문장)을 작성하는 경향을 파악하고 개선하는 데 도움이 될 수 있는지 알아보고 싶었습니다. 저는 먼저 물어보았습니다: 

Whatever you want ChatGPT to help improve in your writing, you need to ensure that it understands the grammatical/rhetorical/linguistic concepts behind that feature of your writing. You don’t know what it “knows” until you ask it. I wanted to see if it could help one of my students identify and improve their tendency to write left-branching sentences (those that introduce a lot of detail early, leaving the main idea until late and thus potentially creating confusion for the reader who needs the main idea to organize all the other details). I started by asking it:

 

보시다시피, 거꾸로 되어 있었습니다. 제가 수정했습니다:
As you can see, it had them backwards. I corrected it:

 
 
 

생성된 모든 문장이 마음에 들지는 않지만 오른쪽으로 더 많이 분기됩니다. 작가의 습관을 파악하고 ChatGPT가 관심 있는 문법적 특징에 대한 정확한 지식을 갖추게 되면 유용한 코칭 리소스가 될 수 있습니다. 예를 들어, 많은 작가들이 강력한 동사의 레퍼토리를 확장하는 데 어려움을 겪고 있습니다. ChatGPT에 글의 몇 단락을 제공하고 더 강하고 역동적인 동사로 다시 작성하도록 요청할 수 있습니다. 몇 가지 다른 버전을 요청하면 갑자기 선택할 수있는 새로운 동사의 멋진 카탈로그가 생깁니다. 
I don’t like all of the sentences it has created, but they are more right-branching. This would be a useful coaching resource, once a writer’s habits are identified and we have ensured that ChatGPT has accurate knowledge of the grammatical features we’re interested in. For instance, many writers struggle to expand their repertoire of strong verbs. We could give ChatGPT a few paragraphs of their writing and ask it to rewrite with stronger, more dynamic verbs. Ask it for a few different versions and suddenly you have a nice catalogue of new verbs to choose from.

더 일반적으로 ChatGPT는 영어를 추가 언어(EAL)로 쓰는 학자들을 위한 무료 언어 편집기 역할도 할 수 있습니다. 현재 많은 EAL 작가들이 언어 편집에 드는 비용(시간/노력 및 재정적 비용 모두)을 부담하고 있는데, 특히 초안 작성 및 수정 단계에서 이러한 비용을 일부 경감하고 작가들이 아이디어에 집중하고 문법에 대해 덜 걱정할 수 있게 해줄 수 있습니다. 
More generally, ChatGPT could also serve as a free language editor for scholars writing in English as an additional language (EAL). Many EAL writers now incur the costs (both time/effort and financial) of language editing: it could alleviate some of those costs, particularly during the drafting and revision stages, and free writers to focus on the ideas and worry less about the grammar.

윤리에 대한 참고 사항
A note on ethics

ChatGPT에 대한 우려의 대부분은 사용의 윤리와 관련이 있습니다. 즉, 대신 글을 써주는 것이 '공정한가' 하는 것입니다. 이미 눈치채셨겠지만, 저는 이 도구가 여러분을 대신 작성하도록 하는 것을 권장하지 않습니다. 제 글의 대부분은 제가 직접 작성한 글을 ChatGPT에 입력한 후 제안을 요청하거나(여기 소개글이 있는데 좋은 제목을 제안해 주세요), 번거로운 작업을 하거나(여기 초록이 있는데 반으로 잘라 주세요), 문법적 변화를 설명하거나(여기 왼쪽 분기 문장 패턴이 있는데 오른쪽 분기 대안을 제안해 주세요) 하는 식으로 이루어집니다. 저는 이것이 윤리적이고 적절한 ChatGPT 사용이라고 주장하고 싶습니다. 저는 모든 지적이고 창의적인 작업을 ChatGPT에 요청하는 것이 아니라 일부 노동을 아웃소싱하는 것입니다[14]. 제가 ChatGPT에게 저를 위해 무언가(개요, 가능한 반론 목록, 더 강력한 주제와 전환 문장으로 개선된 구절 등)를 만들어 달라고 요청한 경우, 저는 이를 다음 수정 작업의 출발점으로 취급합니다. 물론 이것도 물론 중요하지만, ChatGPT의 글을 제 글인 것처럼 보이지 않기 위해서만이 아닙니다. 또한 (적어도 어떤 날은) 저에게 기쁨을 주는 글쓰기 기술을 아웃소싱하고 싶지 않기 때문이기도 합니다. 그리고 저는 확실히 ChatGPT처럼 '소리'를 내고 싶지 않고 제 글이 저처럼 들리기를 원합니다. 지금까지의 경험에 비추어 볼 때, ChatGPT가 저를 흉내 내도록 하는 것보다 제 목소리로 작업하는 것이 더 적은 시간이 걸리고 더 만족스러울 것입니다. 
Much of the alarm about ChatGPT has to do with the ethics of its use: is it ‘fair’ to have it write for you? As you will have noticed, I don’t advise having it write for you. Most of my examples involve putting my own writing into ChatGPT and asking it to make suggestions (here’s my introduction, please suggest some good titles), to do some tiresome labor (here’s my abstract, please cut it in half), to illustrate grammatical changes (here’s my left branching sentence pattern, please suggest right branching alternatives). I would argue that these are ethical and appropriate uses of ChatGPT. I’m not asking it to do all the intellectual, creative work, I’m outsourcing some of the labor [14]. Where I have asked ChatGPT to create something for me (an outline, a list of possible counterarguments, a passage improved with stronger topic and transition sentences), I treat it as a starting point for my next round of revisions. This isn’t only to avoid presenting ChatGPT’s writing as my own, although that’s of course important. It is also because I don’t want to outsource the writing craft, which (on some days, at least) gives me joy. And I certainly don’t want to ‘sound’ like ChatGPT – I want my writing to sound like me. Based on my experiences so far, it will take less time (and be more satisfying) to work on my voice than to work on getting ChatGPT to mimic me.

요약하자면
In Summary

작가들은 놀라거나 불안해하기보다는 ChatGPT의 장단점을 이해할 필요가 있습니다.

  • 내용보다는 구조에 더 강합니다. 좋은 브레인스토밍 도구(제목, 개요, 반론 등)이지만, 특히 자신의 전문 영역을 벗어나는 경우 모든 내용을 다시 한 번 확인해야 합니다.
  • 복잡한 아이디어를 요약하고 다른 아이디어와 연결할 수 있지만, 일반적인 기본값에서 벗어나 관심사에 집중하도록 훈련시키는 데 필요한 점진적인 프롬프트에 대해 많은 생각을 한 경우에만 가능합니다.
  • 정보에 대한 액세스 권한은 원래 훈련받은 정보로 제한되므로, 부족한 부분과 부정확한 부분을 파악하기 위해서는 사용자가 직접 훈련하는 단계가 필수적입니다.
  • 초록의 형식을 바꾸거나 섹션의 길이를 줄이는 등의 노동에는 사용할 수 있지만, 어떤 단락이나 아이디어에 더 많은 단어가 필요한지, 어떤 단락이나 아이디어는 줄여야 하는지를 결정하는 작가의 사고를 대체할 수는 없습니다.
  • 부정확할 수 있습니다. 사실, 고집스럽게도 부정확성을 지적받은 후에도 부정확성을 고집하면서 동시에 다음 시도를 수정된 것으로 제시합니다. 나는 그것이 지각이 없고 동기나 감정이 없다는 것을 알고 있지만, 일부 교환에서 그것이 음침하고 다루기 힘들고 심지어 고의적으로 성실하지 않다는 생각을 할 수밖에 없습니다. 

Rather than being alarmed or anxious, writers need to understand ChatGPT’s strengths and weaknesses.

  • It is better at structure than it is at content. It is a good brainstorming tool (think titles, outlines, counter-arguments), but you must double check everything it tells you, especially if you’re outside your domain of expertise.
  • It can provide summaries of complex ideas, and connect them with other ideas, but only if you have put a lot of thought into the incremental prompting needed to shift it from its generic default and train it to focus on what you care about.
  • Its access to information is limited to what it was originally trained on, therefore your own training phase is essential to identify gaps and inaccuracies.
  • It can be used for labor, such as reformatting abstracts or reducing the length of sections, but it can’t replace the thinking a writer does to determine why some paragraphs or ideas deserve more words and others can be cut back.
  • It can be inaccurate: in fact, rather stubbornly so, persisting with inaccuracies even after they are pointed out, while at the same time presenting its next attempt as corrected. I know it isn’t sentient and doesn’t have motivations or emotions, but I can’t help but think in some of our exchanges that it was being sullen, intractable, even deliberately insincere.

그럼에도 불구하고 작가들은 그 힘을 활용하여 프로세스를 더 효율적으로 만들고 제품을 더 견고하게 만들 수 있습니다. AI 도구를 사용한 글쓰기에 대한 정책이 계속 생겨나고 진화하고 있으므로 대상 저널을 확인하시기 바랍니다. 하지만 저널 매개변수 내에서 ChatGPT를 최대한 활용하세요. 글쓰기 과정에서 막히는 순간을 파악하세요. 개요를 생성하거나 스토리라인의 다음 요점을 브레인스토밍하는 등 ChatGPT가 도움이 될 수 있을까요?

  • 문법 문제를 해결하는 데 사용하거나(예: 기본적으로 수동태를 사용하는 경우, 문장을 능동태로 변경하여 비교하도록 요청),
  • 복잡한 논증 부분의 일관성을 강화하는 데 사용하거나,
  • 오른쪽 분기 문장을 왼쪽 분기 문장으로 변환하여 명확성을 높이는 데 사용할 수 있습니다.

힘든 작업과 창의적인 글쓰기를 구분하세요.

  • 전자는 ChatGPT를 사용하여 지원하고, 후자는 혼자서 하세요.
  • 그리고 항상 생성된 초안을 초안으로 보고 자신만의 특별한 강조점, 고유한 목소리와 스타일을 불어넣어 다듬고 재작업할 수 있습니다. 


Still, writers can harness its power to make our processes more efficient and our products more robust. Do check your target journal, as policies about writing with AI tools are emerging and evolving. Within journal parameters, however, leverage ChatGPT to your advantage. Identify the moments in your writing process where you get stuck: can ChatGPT help you there by generating an outline or brainstorming the next points in the storyline?

  • Use it to help address your grammar challenges (e.g., if you default to passive voice, ask it to change sentences to active so you can compare);
  • use it to strengthen coherence of a complex section of your argument;
  • get it to increase clarity by converting your right-branching sentences to left-branching.

Distinguish the laborious from the creative writing tasks:

  • use ChatGPT to support the former, and keep the latter for yourself.
  • And always view what it has generated as a first draft which you will refine and rework, infusing it with your own particular emphases, your unique voice and style.

Perspect Med Educ. 2023 Jun 29;12(1):261-270. doi: 10.5334/pme.1072. eCollection 2023.

Writing with ChatGPT: An Illustration of its Capacity, Limitations & Implications for Academic Writers

Affiliations collapse

1Western University, CA.

PMID: 37397181

PMCID: PMC10312253

DOI: 10.5334/pme.1072

Free PMC article

질적연구 실용 가이드: Part 6: 일차의료 연구에서 종단적 및 복잡한 건강 주제를 위한 종단적 질적 및 혼합방법 접근(Eur J Gen Pract.2022)
Series: Practical guidance to qualitative research. Part 6: Longitudinal qualitative and mixed-methods approaches for longitudinal and complex health themes in primary care research
Irene Korstjensa and Albine Moserb,c

 

소개
Introduction

수년에 걸쳐 저희는 질적 연구를 감독하면서 질적 연구가 많은 질문과 도전을 불러일으키는 경향이 있음을 발견했습니다. 질적 연구에 대한 실용적인 지침을 제공하기 위한 시리즈[1-5]의 여섯 번째 글인 이 글에서는 일차 진료 연구에서 종단적이고 복잡한 다면적인 건강 주제를 다루기 위한 두 가지 접근법을 소개합니다. 
Over the years, in our supervisory work, we have noticed that qualitative research tends to evoke many questions and challenges. This article, the sixth in a series aiming to provide practical guidance for qualitative research [1–5], introduces two approaches for addressing longitudinal and complex multifaceted health themes in primary care research.

일차 진료의 도전 과제
Challenges in primary care practice

일차 진료는 점점 더 고령화되고 복잡하며 다질환을 앓고 있는 인구에게 고품질의 접근 가능하고 저렴한 의료 서비스를 제공하는 데 어려움을 겪고 있으며, 환자와 일반의 간의 관계는 파트너십, 개인화된 의료 서비스, 자가 관리 지원으로 변화하고 있습니다[6]. 유럽은 세계에서 가장 고령 인구가 많은 국가 중 하나이며, 특히 남유럽의 인구 고령화가 가장 빠르게 진행되고 있어 기능 장애, 허약, 장기요양 의존으로 전환될 수 있는 고령자를 다루고 있습니다[7]. 이러한 환자들의 다양한 건강 문제와 복잡한 요구로 인해 다양한 임상 환경에서 여러 의료 전문가와 빈번한 상호작용을 하게 됩니다. 이러한 도전적인 발전은 일반의의 전문가 간 협업을 점점 더 많이 필요로 합니다[8]. 현재 일상적인 진료에서 발생하는 복잡한 건강 문제를 다루는 데 도움이 되는 적절한 연구 접근법이 필요합니다. 이 백서에서는 이러한 접근법 중 두 가지에 대해 논의합니다. 
Primary care encounters challenges in providing high quality, accessible and affordable care for an increasingly ageing, complex, and multi-morbid population, while the relationship between patients and general practitioners is transforming towards partnership, personalised healthcare and supported self-management [6]. Europe has some of the world’s oldest populations – with the most rapidly ageing populations in Southern Europe – and is dealing with elderly people who may experience transitions to functional disability, frailty, and dependence on long-term care [7]. The diverse health problems and complex needs of these patients lead to frequent interactions with multiple health care professionals in different clinical settings. These challenging developments require more and more interprofessional collaboration from general practitioners [8]. Appropriate research approaches are needed to support them in dealing with the complex health issues of current day-to-day practice. In this paper, we will discuss two of these approaches.

종단 및 혼합 방법 접근법
Longitudinal and mixed-methods approaches

종단적 질적 연구는 시간을 두고 사람들을 추적합니다. 따라서 사람들이 일차 진료 및 사회 서비스와 상호 작용하면서 어떻게 변화하는지, 어떻게 자신의 상태를 관리하는지에 대한 통찰력을 제공할 수 있습니다[9]. 종단적 질적 연구는 만성 질환 환자의 궤적[10], 전문 정신 건강 서비스와 일차 진료 사이를 이동하는 정신병 청년의 전환 또는 일반의가 진료에 건강 증진 신체 활동 처방을 도입하는 과정[11,12] 등에 대한 이해를 지원합니다. 
Longitudinal qualitative research follows people over time. Therefore, it can provide insights into how people move through their transitions as they interact with primary care and social services, and how they manage their conditions [9]. Longitudinal qualitative research supports understanding of, for example, trajectories of patients with chronic conditions [10], transitions of young people with psychosis moving between specialist mental health services and primary care or processes of general practitioners introducing health promoting physical activity prescriptions in their practice [11,12].

지난 15년 동안 일차 진료 및 가정의학 연구에서 혼합 방법 연구가 일반화되었습니다[13]. 이 접근 방식은 양적 데이터와 질적 데이터를 의도적으로 수집하고 각각의 강점을 결합하여 연구 질문에 답하는 것입니다[14]. 혼합 방법 연구는 예를 들어 유용성 및 타당성(예: 개념 증명 또는 파일럿 연구)을 다룸으로써 일차 진료에서 복잡한 개입의 개발 및 평가를 지원할 수 있습니다. 종단적 질적 연구는 혼합 방법 연구 프로젝트의 일부가 될 수 있습니다[15,16].
Over the last 15 years, mixed-methods research has become common in primary care and family medicine research [13]. This approach involves the intentional collection of both quantitative and qualitative data and combines the strengths of each to answer research questions [14]. Mixed-methods research can – by addressing, for example, usability and feasibility (e.g. proof-of-concept or pilot studies) – support developing and evaluating of complex interventions in primary care. Longitudinal qualitative research can be part of mixed-methods research projects [15,16].

이 기사의 대상 및 내용
Target audience and content of this article

이 글은 종단적 질적 연구 및 혼합 방법 연구에 대한 소개입니다. 이 글은 질적 연구 경험이 있는 연구자 중 이러한 방법에 관심이 있는 연구자와 이러한 방법론을 사용한 논문을 점점 더 많이 읽게 될 일반 실무자가 처음 접할 수 있도록 작성되었습니다. 이 책에서는 이러한 접근법의 맥락과 무엇을, 왜, 언제, 어떻게 접근해야 하는지, 그리고 주요 실무적, 방법론적 과제에 대한 가능한 질문을 다룹니다. 1차 진료 및 기타 의료 영역에서 발표된 경험적 연구의 예와 추가 자료로 활용할 수 있는 출처를 제공합니다.
We regard this article as an introduction to longitudinal qualitative and mixed-methods research. It is intended as a first acquaintance for researchers – with some experience in qualitative research – who are interested in these methods and general practitioners who will increasingly read articles using these methodologies. We address possible questions about the context and the what, why, when and how of these approaches and their main practical and methodological challenges. We provide examples of published empirical studies in primary care and other health care domains and sources for further reading.

생애 과정에서의 변화를 이해하기 위한 종단적 질적 연구
Longitudinal qualitative research to understand change during the life course

컨텍스트
Context

일반 진료는 생애 과정에서 환자와 가족을 돌보는 전통을 가지고 있습니다. 일반의는 만성 질환이나 다질환을 앓고 있는 환자가 노화 과정에서 겪는 변화를 이해해야 한다는 요구가 증가하고 있습니다. 종단적 질적 연구는 생애 과정의 연속성과 변화, 그리고 개인적, 건강 관련, 사회적, 환경적 요인이 이러한 과정을 어떻게 형성하는지에 대한 통찰력을 제공할 수 있습니다[17]. 이 접근법을 사용하여 발표된 경험적 연구에는 다음이 포함됩니다:
General practice has a tradition of caring for patients and families during their life course. General practitioners face increasing demands for understanding the changes patients with chronic illness or multimorbidity undergo during ageing. Longitudinal qualitative studies can provide insights into continuity and change during the life course and how individual, health-related, social and environmental factors shape these processes [17]. Published empirical studies using this approach include:

  • 다질환을 앓고 있는 고령자가 보고한 1차 진료에서의 환자 안전 위협: 종단적 질적 연구의 기초 연구 결과 및 개입에 대한 시사점 [9].
  • 신체 활동 처방을 진료에 통합하려는 시도에 대한 가정의의 경험을 설명하는 종단적 질적 연구: '습관을 바꾸는 것은 쉽지 않다'[12].
  • 종단적 질적 연구를 사용하여 추가 케어 주택을 탐색합니다[17].
  • 정신병에 대한 조기 개입 서비스에서 벗어나는 것에 대한 서비스 사용자의 견해: 일차 진료의 종단적 질적 연구 [11].
  • Threats to patient safety in primary care reported by older people with multimorbidity: baseline findings from a longitudinal qualitative study and implications for intervention [9].
  • Longitudinal qualitative study describing family physicians’ experiences with attempting to integrate physical activity prescriptions in their practice: ‘It’s not easy to change habits’ [12].
  • Using longitudinal qualitative research to explore extra care housing [17].
  • Service users' views of moving on from early intervention services for psychosis: a longitudinal qualitative study in primary care [11].

무엇?
What?

종단적 질적 연구는 시간이 지남에 따라 경험이 어떻게 그리고 왜 변화하는지를 연구하는 것을 목표로 합니다. 종단적 질적 연구는 사회과학에 뿌리를 두고 있으며, 밀레니엄 시대에 접어들면서 뚜렷한 방법론적 패러다임으로 등장했습니다[18]. 다른 질적 연구와 구별되는 점은 시간과 변화를 분석적 관심의 중심 초점으로 의도적으로 강조한다는 점입니다[15]. 종단적 질적 연구에는 발달 또는 인과 관계에 대한 종단적 연구 질문, 여러 데이터 수집 지점을 포함하는 표본, 시간 경과에 따른 변화를 명시적으로 다루는 분석이라는 세 가지 특징적인 요소가 있습니다. 질적 연구는 건강 문제를 경험하는 이유와 방법에 관한 것이며, 종단적 질적 연구는 이러한 경험이 시간이 지남에 따라 어떻게 그리고 왜 변화하는지에 초점을 맞춥니다[17]. 
Longitudinal qualitative research aims to study how and why experiences change over time. It is rooted in the social sciences and emerged as a distinct methodological paradigm around the turn of the millennium [18]. What distinguishes it from other qualitative research is the deliberate emphasis on time and change as the central focus of analytical attention [15]. Longitudinal qualitative research has three distinguishing elements: a longitudinal research question about developmental or causal relationships, a sample that includes multiple data collection points and an analysis that explicitly addresses change over time. Qualitative research is about why and how health issues are experienced, and longitudinal qualitative research focuses on how and why these experiences change over time [17].

왜 그리고 언제?
Why and when?

종단적 질적 연구는 개인과 환자 그룹의 생활 방식을 보다 복잡하고 현실적으로 이해할 수 있는 가능성을 제공합니다[18]. 이는 노화 및 생애 과정 문제, 장기 요양 및 복잡한 건강 개입의 과정 평가를 연구하는 데 도움이 되는 것으로 입증되었습니다[15,19]. 종단적 질적 연구의 장점은 시간과 맥락 간의 상호작용을 비선형적인 방식으로 평가할 수 있는 유연한 접근 방식에서 비롯됩니다[19]. 종단적 질적 연구를 통해 참가자는 과거와 현재의 사건을 반성적으로 바라보고 미래에 대한 열망을 변화시키면서 정서적 거리를 경험할 수 있습니다. 또한, 장기간에 걸쳐 진행되는 인터뷰는 참여자와 연구자 간의 친밀감, 신뢰, 대화를 촉진하고 연구자가 일회성 인터뷰보다 더 적절한 순간에 민감한 주제를 제기할 수 있게 해줍니다[20]. 
Longitudinal qualitative research offers the possibility of generating more complex and thus realistic understanding of how individuals and patient groups live [18]. It has proved helpful for studying ageing and life course issues, long-term care and process evaluation of complex health interventions [15,19]. Its advantages stem from its ability to take a flexible approach to evaluate interactions between time and context in a non-linear manner [19]. Longitudinal qualitative research can enable participants to experience emotional distance while reflexively viewing past and present events and changing their aspirations for the future. Furthermore, interviews carried out over time promote familiarity, trust and dialogue between participant and researcher and enable a researcher to raise sensitive topics at a more opportune moment than in a one-off interview [20].

어떻게?
How?

종단적 질적 연구를 수행하려면 연구자의 관계 인식과 참여자와 소통하고 관심을 기울이려는 의지가 필요합니다[21]. 또한 상당한 규모의 질적 데이터베이스를 수집, 관리 및 유지하고 반복적인 단면 또는 종단 분석을 수행하기 위한 지식과 기술이 필요합니다(표 1)[22].
Longitudinal qualitative research requires researchers’ relational awareness and willingness to connect with and care about participants [21]. Furthermore, it requires knowledge and skills to gather, manage and maintain a sizeable qualitative database and to conduct either recurrent cross-sectional or longitudinal analyses (Table 1) [22].

질적 연구자는 연구를 설계하기 위해 이론적 접근 방식과 연구 초점, 표본 및 분석을 고려해야 합니다[3,4]. 종단적 질적 연구에는 변화 또는 시간적 관점을 다루는 연구 질문과 두 개 이상의 시점을 체계적으로 비교하는 것이 필요합니다[19]. 또한 분석에는 코드, 영역, 인터뷰 질문, 분석 매트릭스 또는 사례, 반복적인 단면 또는 종단 분석 사용 등 비교 대상에 대한 투명성이 요구됩니다. 두 가지 유형의 분석이 모두 필요한 특정 연구 질문이 있을 수 있습니다. 
To design the study, qualitative researchers need to consider the theoretical approach and research focus, the sample and the analysis [3,4]. A longitudinal qualitative study requires a research question that addresses a change or time perspective and systematic comparisons of two or more time points [19]. Furthermore, the analysis requires transparency about what is compared, such as codes, domains, interview questions, analytical matrices or cases, and the use of either recurrent cross-sectional or longitudinal analysis. There may be some specific research questions requiring both types of analysis.

혼합 방법 연구
Mixed-methods research

컨텍스트
Context

혼합 방법 연구는 다양한 환경에서 다양한 의료 요구가 있는 환자를 다루는 일차 진료의 복잡성을 이해하는 데 도움이 됩니다[13]. 이 접근 방식은 질적 방법과 양적 방법을 통합하고 일차 진료의 복잡하고 다면적인 주제를 개선하고 해결하기 위한 새로운 통찰력을 제공합니다[13]. 혼합 방법을 사용하여 발표된 경험적 연구에는 다음이 포함됩니다:
Mixed-methods research supports understanding the complexity of primary care dealing with patients with diverse health care needs in various settings [13]. This approach integrates qualitative and quantitative methods and provides new insights to improve and address the complex and multifaceted themes of primary care [13]. Published empirical studies using mixed methods include:

  • 질병별 임상 경로 - 일차 진료에서 실현 가능한가? 혼합 방법 연구 [23].
  • 네덜란드 지역 사회 간호사와 일반의 간의 의사 소통에는 구조가 부족합니다: 탐색적 혼합 방법 연구 [24].
  • 일차 진료에서 완화 치료 요구에 대한 컴퓨터 스크리닝: 혼합 방법 연구 [25].
  • COVID-19 팬데믹 이후 영국 일차 진료에서 원격 컨설팅 구현: 혼합 방법 종단 연구 [16].
  • Disease-specific clinical pathways – are they feasible in primary care? A mixed-methods study [23].
  • Communication between Dutch community nurses and general practitioners lacks structure: an explorative mixed-methods study [24].
  • Computer screening for palliative care needs in primary care: a mixed-methods study [25].
  • Implementation of remote consulting in UK primary care following the COVID-19 pandemic: a mixed-methods longitudinal study [16].

무엇?
What?

혼합 방법 연구는 실제 상황에 대한 이해와 다차원적 관점을 요구하는 연구 질문에 중점을 둡니다. 이는 구성 요소의 규모와 빈도를 평가하는 엄격한 정량적 연구와 구성 요소의 의미와 이해를 탐구하는 엄격한 정성적 연구를 사용합니다. 여러 방법을 통합하고 여러 철학적, 이론적 입장 내에서 연구의 틀을 잡습니다[14].
Mixed-methods research focuses on research questions calling for real-life contextual understandings and multi-level perspectives. It employs rigorous quantitative research assessing magnitude and frequency of constructs and rigorous qualitative research exploring the meaning and understanding of constructs. It integrates multiple methods and frames the research within several philosophical and theoretical positions [14].

정성적 데이터와 정량적 데이터를 통합하는 것은 단순히 정량적 데이터나 정성적 데이터를 수집하고 분석하는 것 이상의 추가적인 통찰력을 제공하기 때문에 혼합 방법 연구의 핵심적인 특징입니다[26,27]. '통합'이란 혼합 방법 연구에서 데이터 수집-분석 또는 정성적-정량적 결과의 해석 과정에서 정량적 요소와 정성적 요소를 명시적으로 상호 연관시키는 것을 의미합니다[28]. 
Integrating qualitative and quantitative data is a central feature of mixed-methods research as it provides additional insight beyond what might be gained from simply collecting and analyzing quantitative data or qualitative data [26,27]. ‘Integrating’ means the explicit interrelating of the quantitative and qualitative components in a mixed-methods study, e.g. during the data collection-analysis or the interpretation of qualitative and quantitative results [28].

왜 그리고 언제?
Why and when?

혼합 방법 연구는 연구의 폭과 깊이를 최적화할 수 있으며 사회 문화적 맥락과 실제 환경을 고려하여 문제와 잠재적 해결책을 더 잘 이해하는 데 도움이 됩니다[28]. 예를 들어,

  • 양적 횡단면 연구와 질적 연구, 행정 데이터베이스를 결합하면 가족 간호에 사례 관리자를 도입하기 위한 모델이나 일차 의료 서비스 평가를 위한 지표를 개발하는 데 도움이 될 수 있습니다[28].
  • 질적 연구와 무작위 대조 시험을 결합하면 프로그램의 작동 방식과 이유를 더 잘 이해하는 데 도움이 될 수 있습니다[28].

Mixed-methods research can optimize the breadth and depth of a study and helps take into account the socio-cultural context and the real-world environment to better understand the problem and potential solutions [28].

  • For example, combining quantitative cross-sectional and qualitative studies and administrative databases might support developing a model for introducing case managers in family care or indicators for evaluation of primary health care [28].
  • Combining a qualitative study with a randomized controlled trial might support better understanding of how and why a program works or not [28].

혼합 방법 연구를 하는 이유는 다음과 같습니다[28,29]:

  • 정량적 결과를 통해 정성적 결과를 강화 또는 구축하거나 그 반대의 경우,
  • 현상에 대한 포괄적 이해 제공(예: 변수 및 관점),
  • 결과 삼각 측량,
  • 다양한 관점 결합,
  • 샘플링 촉진(예: 설문조사를 사용하여 인터뷰 참가자 선정),
  • 도구 개발 및 테스트(예: 포커스 그룹을 사용한 설문지 개발).  

Reasons for mixed-methods research include [28,29]:

  • enhance or build upon qualitative findings with quantitative results and vice versa,
  • provide a comprehensive understanding of a phenomenon (e.g. variables and viewpoints),
  • triangulate results,
  • combine diverse viewpoints,
  • facilitate sampling (e.g. using a survey to select interview participants), and
  • develop and test instruments (e.g. develop a questionnaire using focus groups).

어떻게?
How?

연구자는 처음부터 혼합 방법 설계를 계획하거나 프로젝트 진행 중에 '긴급' 설계를 사용할 수 있습니다[26]. Creswell과 Hirose는 5가지 프로젝트 단계를 설명했습니다[27].

  • 첫째, 혼합 방법 연구가 연구 질문에 답하는 데 가장 적합한 방법론인지 판단하고 그 근거를 제시합니다.
  • 둘째, 정량적 및 정성적 하위 질문과 필요한 데이터를 식별하고 각 데이터베이스에 대해 엄격한 데이터 수집 및 분석 절차를 사용합니다.
  • 셋째, 혼합 방법 설계를 결정하고 명확한 다이어그램을 그립니다.
  • 넷째, 이 시리즈의 이전 간행물[3,4]에서 설명한 대로 정량적 통계 및 질적 서술 결과를 별도의 제목으로 분석하여 보고합니다. 제목에는 설계의 단계와 정량적 구성 요소와 정성적 구성 요소 간의 명확한 연결 고리가 표시되어야 합니다(표 2).
  • 마지막으로, 본문에서 정량적 결과와 정성적 결과를 나란히 논의하거나 정량적 결과, 정성적 결과 및 통합의 영향을 보여주는 표를 사용합니다.

Researchers can plan a mixed-methods design from the start or use an ‘emergent’ design during a project [26]. Creswell and Hirose described five project steps [27].

  • First, determine if mixed-methods research is the best methodology for answering the research questions and provide a rationale.
  • Second, identify the quantitative and qualitative sub-questions and the data needed and use rigorous data collection and analysis procedures for each database.
  • Third, determine the mixed-methods design and draw a clear diagram.
  • Fourth, analyse and report under distinct headings the quantitative statistical and the qualitative narrative results as described in previous publications of this series [3,4]. The headings should show the steps in the design and a clear linkage between the quantitative and qualitative components (Table 2).
  • Last, discuss the quantitative and qualitative results side by side in the text or use a table showing the quantitative results, the qualitative findings and the impact of the integration.

표 2는 가장 일반적인 3가지 혼합 방법 설계를 제시하지만, 연구 질문에 따라 연구자는 주로 '양적 중심' 연구, 동등한 지위/'상호작용' 연구, 주로 '질적 중심' 연구에 이르기까지 다양한 설계 중에서 선택할 수 있습니다[26,30,31]. 표 3은 보고에 대한 권장 사항을 제시합니다[31].
Table 2 presents three most common mixed-methods designs but depending on the research questions, researchers can choose between various designs on a continuum from a predominantly ‘quantitatively driven’ study, via an equal-status/’interactive’ study to a predominantly ‘qualitatively driven’ study [26,30,31]. Table 3 presents recommendations for reporting [31].

종단적 질적 연구와 혼합 방법 연구의 도전과 전략
Challenges and strategies in longitudinal qualitative research and mixed-methods research

종단적 질적 연구와 혼합 방법 연구의 주요 실무적, 방법론적 과제를 언급하고 이러한 과제를 해결하기 위한 전략을 표 4에 제시합니다[14,15]. 이러한 연구 프로젝트의 기간은 다양하지만, 단기 계약 자금으로는 달성하기 어려운 지속적인 자금 지원이 필요할 수 있습니다[32]. 예를 들어, 한 장기 프로젝트는 핵심 기관 자금을 지원받고 기존 연구팀이 추가 프리랜서 작업으로 참여를 지원했습니다[32]. 이러한 프로젝트를 성공적으로 수행하기 위해서는 적절한 시간과 자원을 투자해야 합니다.

We mention the main practical and methodological challenges in longitudinal qualitative and mixed-methods research and provide strategies for addressing these challenges in Table 4 [14,15]. The duration of such research projects will vary but they may demand a continuity of funding, which is difficult to achieve within short term contract funding [32]. For example, a long-term project received core institutional funding and an existing team of researchers supported their involvement with additional freelance work [32]. Investing adequate time and resources is necessary for successfully conducting these projects.

 

Longitudinal qualitative research
  • Balmer D, Richards BF. Longitudinal qualitative research in medical education Perspect Med Educ. 2017;6:306–310.
  • Calman L, Brunton L, Molassiotis A. Developing longitudinal qualitative designs: lessons learned and recommendations for health services research. BMC Med Res Methodol. 2013;13:14.
  • Derrington M. Qualitative research methods: qualitative longitudinal methods. Thousand Oaks (CA): Sage; 2019.
  • Grossoehme D, Lipstein E. Analysing longitudinal qualitative data: the application of trajectory and recurrent cross-sectional approaches. BMC Res Notes. 2016;9(1):1–5.
  • Nevedal A, Ayalon L, Briller S. A qualitative evidence synthesis review of longitudinal qualitative research in gerontology. Gerontologist. 2019;59:e791–e801.
  • Thomson R, McLeod J. New frontiers in qualitative longitudinal research: an agenda for research. J Soc Res Methodol Int. 2015;18:243–250.

Mixed-methods research:
  • Creswell JW, Hirose M. Mixed methods and survey research in family medicine and community health. Fam Med Com Health. 2019;7:e000086. Doi:10.1136/fmch-2018-000086.
  • Creswell JW, Klassen AC, Plano Clark VL, Smith KC for the Office of Behavioural and Social Sciences Research. Best practices for mixed methods research in the health sciences. 2011. National Institutes of Health. https://obssr.od.nih.gov/sites/obssr/files/Best_Practices_for_Mixed_Methods_Research.pdf.
  • Creswell JW, Plano Clark VL. Designing and conducting mixed methods research. 3rd edn. Los Angeles (CA): Sage; 2018.
  • Kaur N, Vedel I, El Sherif R, et al. Practical mixed methods strategies used to integrate qualitative and quantitative methods in community-based primary health care research. Fam Pract. 2019;36:666-671. Doi:10.1093/fampra/cmz010.
  • Mixed Methods Program University of Michigan. http://www.mixedmethods.org..
  • Schoonenboom J, Johnson R. How to construct a mixed methods research design. Köln Z Soziol. 2017;69:107–131.
  • Vedel I, Kaur N, Hong QN, et al. Why and how to use mixed methods in primary health care research. Fam Pract. 2019;36:365–368. Doi:10.1093/fampra/cmy127.

 


 

Eur J Gen Pract. 2022 Dec;28(1):118-124. doi: 10.1080/13814788.2022.2053106.

Series: Practical guidance to qualitative research. Part 6: Longitudinal qualitative and mixed-methods approaches for longitudinal and complex health themes in primary care research

Affiliations collapse

1Faculty of Health Care, Research Centre for Midwifery Science, Zuyd University of Applied Sciences, Maastricht, The Netherlands.

2Faculty of Health Care, Research Centre Autonomy and Participation of Chronically Ill People, Zuyd University of Applied Sciences, Heerlen, The Netherlands.

3Department of Family Medicine, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, The Netherlands.

PMID: 35593106

PMCID: PMC9132407

DOI: 10.1080/13814788.2022.2053106

Free PMC article

Abstract

This article, the sixth in a series aiming to provide practical guidance for qualitative research in primary care, introduces two approaches for addressing longitudinal and complex health themes in primary care research. The first approach - longitudinal qualitative research - supports the study of change during the life course. The second approach - mixed-methods research - integrates quantitative and qualitative research to gain new insights to address the complex and multifaceted themes in primary care.We discuss the context, what, why, when and how of these approaches and their main practical and methodological challenges. We provide examples of empirical studies using these approaches and sources for further reading.

Keywords: Primary care; longitudinal qualitative research; mixed-methods research.

질적연구 실용 가이드: Part 5: 일차의료 연구에서 공동-생성적 질적 접근: 경험-기반 공동 설계, 사용자-중심적 설계, 공동체-기반 참여적 연구 (Eur J Gen Pract. 2022)
Series: Practical guidance to qualitative research. Part 5: Co-creative qualitative approaches for emerging themes in primary care research: Experience-based co-design, user-centred design and community-based participatory research
Albine Mosera,b and Irene Korstjensc

 

 

소개
Introduction

수년에 걸쳐 저희는 감독 업무를 수행하면서 질적 연구가 많은 질문과 도전을 불러일으키는 경향이 있다는 사실을 발견했습니다. 질적 연구에 대한 실용적인 지침을 제공하기 위한 시리즈[1-4]의 다섯 번째 글인 이 글에서는 일차 진료 연구에서 새롭게 떠오르는 주제를 다루기 위한 세 가지 공동 창조적(그리고 대부분) 질적 접근 방식, 즉 진료의 질을 개선하기 위한 경험 기반 공동 설계, eHealth 리소스 개발 및 평가를 위한 사용자 중심 설계, 지역 건강을 협력적으로 개선하기 위한 지역사회 기반 참여 연구를 소개합니다. 
Over the years, in our supervisory work, we have noticed that qualitative research tends to evoke many questions and challenges. This article, the fifth in a series aiming to provide practical guidance for qualitative research [1–4], introduces three co-creative (and mostly) qualitative approaches for addressing emerging themes in primary care research:

  • experience-based co-design to improve the quality of care,
  • user-centred design to develop and evaluate eHealth resources and
  • community-based participatory research to improve local health collaboratively.

변화하는 1차 의료
A changing primary care

일차 의료는 만성 치료 및 노인 치료 제공 증가, 공동 의사 결정 및 사전 치료 계획, e- 및 mHealth, 예방 및 커뮤니티 케어, 간호사, 구급대원 및 관련 서비스와의 전문가 간 협업 등 변화하는 상황에 직면해 있습니다[5-8]. 이러한 변화는 일차 진료 연구에 영향을 미칩니다. 일반의는 본질적으로 환자 및 다른 전문가와 협력하여 일상 진료에서 복잡한 건강 문제에 대한 해결책을 모색하는 공동 창작자입니다. 그러나 공동 창작에 대한 '명시적' 개념은 국가 정책 맥락에 따라 일반의에게 익숙하지 않을 수 있습니다[9]. 
Primary care faces a changing context, including the increasing provision of chronic care and elderly care, shared decision-making and proactive care planning, e- and mHealth, preventive and community care, and interprofessional collaboration with nurses, paramedics and relevant services [5–8]. These changes have consequences for primary care research. By nature, general practitioners are co-creators in working with their patients and other professionals on seeking solutions for complex health issues in daily practice. However, the ‘explicit’ idea of co-creation may not be very familiar to general practitioners, depending on their national policy context [9].

공동 창조적 접근 방식
Co-creative approaches

연구에서 공동 창작은 연구 연속체 전반에 걸친 반복적이고 비선형적인 프로세스와 이해관계자와 함께 일하는 학자들의 협력적인 지식 창출을 의미합니다[10]. 우리는 공동 창조적 질적 접근법이라는 용어를 포괄적인 개념으로 사용합니다. 세 가지 공동 창조적 접근법은 기원, 핵심 원칙, 목표, 이해관계자가 다르지만(상자 1) 공통점을 공유합니다.

  • 이 접근법은 현실의 문제를 해결하는 데서 출발하여, 이해관계자의 참여와 이해관계자 간의 동등한 파트너십을 지원하고, 취약한 사람/지역사회에 권한을 부여하며, 실천과 연구 간의 격차를 해소합니다.
  • 이들은 일반의 및 기타 1차 진료 전문가의 과학적 지식과 전문성을 보완합니다.
  • 이들은 다양한 관점에서 요구, 경험, 열망, 이해관계 및 변화에 대한 인사이트를 제공합니다.

공동 창조적 접근 방식은 일차 진료에서는 비교적 생소하지만 병원, 정신과 치료 또는 사회 복지와 같은 다른 환경과 간호, 사회학 또는 발달 연구와 같은 학문 분야에서는 다소 친숙한 접근 방식입니다. 
In research, co-creation means an iterative and non-linear process throughout the research continuum and the collaborative generation of knowledge by academics working alongside stakeholders [10]. We use the term co-creative qualitative approaches as an umbrella concept. The three co-creative approaches have different origins, core principles, goals and stakeholders (Box 1) but they share common ground.

  • They start from solving a problem in practice, supporting stakeholder involvement and equal partnerships among the stakeholders, empowering vulnerable people/communities and bridging the gap between practice and research.
  • They complement the scientific knowledge and expertise of general practitioners and other primary care professionals.
  • They provide insights into needs, experiences, aspirations, stakes and changes from a multi-perspective.

Co-creative approaches are relatively novel to primary care but they are rather familiar in other settings such as hospitals, psychiatric care or social care and to disciplines such as nursing, sociology or developmental research.


공동 창작이 궁극적으로 효율성과 결과를 개선하고, 환자 만족도와 신뢰도를 높이며, 연구 역량을 강화할 수 있음을 시사하는 문헌이 점점 더 많아지고 있습니다[11]. 이는 일반의와 일차 진료 전문가가 제공하는 의료 서비스와 국민 건강을 개선하기 위한 상향식 접근 방식입니다[12]. 과학 문헌에서는 공동 설계, 공동 제작, 파트너십 접근법, 이해관계자 참여, 환자 및 대중 참여, 참여 연구 등 공동 창조라는 개념에 맞는 다양한 용어가 사용되고 있음을 알고 있습니다[13]. 
A growing body of literature suggests that co-creation can ultimately result in improved efficiencies and outcomes, increased patient satisfaction and trust and greater capacity for research [11]. It is a bottom-up approach to improve health services and the population’s health that general practitioners and primary care professionals serve [12]. We are aware that in scientific literature many different terms are used that fit our notion of co-creation such as co-design, co-production, partnership approaches, stakeholder engagement, patient and public involvement, and participatory research [13].

이해관계자
Stakeholders

공동 창조는 이해관계가 있는 사람들과의 파트너십을 통해 (연구) 문제를 정의하고, 중재를 개발 및 실행하며, (연구 및 실천) 결과를 평가 및 정의하는 것을 목표로 합니다. 

  • 이 글에서는 [이해관계자]특정 진료, 과정, 결정 및 건강 결과와 이를 뒷받침하는 근거에 명시적인 이해관계가 있는 사람으로 정의합니다. 
  • 일차 진료 연구의 일반적인 이해관계자는 환자, 가족 간병인, 연구자, 의료 전문가(관리자 포함), 옹호 단체 및 기타 관련 이해관계자(예: 지역 정책 입안자, 보험 회사)입니다. 

그러나 공동 창작을 사용하는 모든 연구 프로젝트는 연구 문제를 정의하는 단계에서 [이해관계자 분석]이 필요합니다. 초기 프로젝트 멤버들은 가능한 모든 이해관계자에 대한 브레인스토밍으로 시작한 다음, 문제와 프로젝트에 대한 이해관계자의 권한, 영향력, 관심도에 따라 우선순위를 정합니다. 그리고 그들의 동기, 관심사, 입장, 기대치, 기대 이익을 탐색합니다[14].
Co-creation aims to define the (research) problem, develop and implement interventions and evaluate and define (research and practice) outcomes in a partnership with those who have a stake.

  • For this article, we define stakeholders as those who have an explicit interest in a particular practice, process, decision and/or health outcome and the supporting evidence.
  • Common stakeholders in primary care research are patients, family carers, researchers, care professionals (including managers), advocacy organisations and other relevant stakeholders (e.g. local policymakers, insurance companies).

However, every research project using co-creation requires a stakeholder analysis at the stage of defining the research problem. The initial project members start with a brainstorm of all possible stakeholders and then prioritise them according to their power over, influence on, and their interest in the problem and the project. They explore their motivations, interests, positions, expectations and expected benefits [14].

이 문서의 대상 독자 및 내용
Target audience and content of this article

이 논문은 이러한 공동 창작 디자인을 사용하고자 하는 연구자들과 이 방법론을 사용한 논문을 점점 더 많이 읽게 될 일반 실무자들에게 적합합니다. 그들은 우리의 소개를 '첫 데이트'라고 생각할 수 있습니다. 우리는 이러한 접근법의 맥락과 무엇을, 왜, 언제, 어떻게, 그리고 주요 실무적, 방법론적 과제에 대한 가능한 질문을 다룹니다. 1차 의료 및 기타 의료 영역에서 발표된 경험적 연구 사례와 추가 자료를 제공합니다.  
This paper is relevant for researchers who want to use these co-creative designs and general practitioners who will increasingly read articles using this methodology. They might consider our introduction a ‘first date’. We address possible questions about the context and the what, why, when, and how of these approaches and their main practical and methodological challenges. We provide examples of published empirical studies in primary care and other health care domains and sources for further reading.

치료의 질을 개선하기 위한 경험 기반 공동 설계
Experience-based co-design to improve the quality of care

맥락
Context

고품질의 의료 서비스를 제공하는 것은 모든 1차 의료 전문가의 목표입니다. 치료의 질을 개선하는 고전적인 방법은 생의학적 및 심리사회적 결과, 기능 및 비용 효율성을 평가하는 것입니다[15]. 최근에는 의료 서비스 설계 과정에 환자, 가족 간병인, 대중을 적극적으로 참여시켜 환자 경험을 기반으로 의료의 질을 개선하는 방향으로 전환하고 있습니다. 의료 서비스의 질을 개선하기 위한 혁신적인 접근 방식 중 하나가 경험 기반 공동 설계입니다[16]. 이 접근법을 사용하여 발표된 경험적 연구에는 다음이 포함됩니다:
Providing high-quality care services is the goal of every primary care professional. Classic ways for improving quality of care are based on evaluating biomedical and psychosocial outcomes, functioning and cost-effectiveness [15]. In recent years, there has been a shift towards quality of care improvement based on patient experiences by actively involving patients, family carers and the public in the design process of health services. An innovative approach to improving the quality of care services is experience-based co-design [16]. Published empirical studies using this approach include:

  • 사람들이 일차 진료에서 안전에 대해 발언할 수 있도록 지원: 공동 설계를 사용하여 복합 이환 환자를 위한 새로운 개입을 개발하는 데 환자와 전문가를 참여시킵니다[17].
  • 경험 기반 공동 설계를 사용하여 환자 중심 암 치료 경로에서 대장암 및 유방암 고령자의 경험 개선 [18].
  • 가보지 않은 길: 경험 기반 공동 설계를 사용하여 화상 부상 후 어린이와 가족의 정서적 여정을 매핑하고 서비스 개선 사항을 파악합니다[19].
  • Empowering people to help speak up about safety in primary care: using co-design to involve patients and professionals in developing new interventions for patients with multimorbidity [17].
  • Improving the experience of older people with colorectal and breast cancer in patient-centred cancer care pathways using experience-based co-design [18].
  • A road less travelled: using experience-based co-design to map children’s and families’ emotional journey following burn injury and identify service improvements [19].

무엇?
What?

경험 기반 공동 설계의 목표는 환자, 가족 보호자, 전문가가 치료의 질을 개선한다는 공통의 목표를 향해 협력하는 것을 촉진하는 것입니다. 이 접근 방식은 사람들이 프로세스 또는 서비스를 경험하는 방식을 포착하고 이해하고자 하는 행동 연구의 한 형태입니다[16]. 경험 기반 공동 설계 접근 방식은 환자, 가족 간병인, 일반인, 전문가의 주관적이고 개인적인 감정을 의도적으로 끌어내어, (개인의 전반적인 경험을 형성하는 핵심 순간인) 터치포인트를 식별합니다. 경험 기반 공동 설계를 통해 환자, 가족 간병인, 일반인, 전문가가 파트너로서 서비스 또는 치료 경로를 공동 설계하여 경험을 바탕으로 치료의 질을 개선할 수 있습니다.
The goal of experience-based co-design is to facilitate collaborative work between patients, family carers and professionals towards a common goal – to improve the quality of care. This approach is a form of action research that seeks to capture and understand how people experience a process or service [16]. An experience-based co-design approach deliberately draws out the subjective, personal feelings of patients, family carers, the public and professionals to identify touchpoints – key moments that shape a person’s overall experience. Experience-based co-design enables patients, family carers, the public and professionals – as partners – to co-design services or care pathways to improve the quality of care based on experiences.

왜 그리고 언제?
Why and when?

의료 전문가는 종종 자신이 치료 프로세스를 개선하고 환자를 위한 가치를 창출할 수 있는 고유한 전문 지식을 가지고 있다고 생각합니다[16]. Berwick [20]은 전문가 우위에서 벗어나 공동 창조에 더 중점을 둘 것을 제안했습니다. 환자와 대중의 참여에 대한 관심이 증가하고 있으며, 이는 종종 보건 정책 이니셔티브와 의료 서비스 전반에 걸친 가치 공동 창출에 대한 지원으로 촉발됩니다. 
Health care professionals often think they have the unique expert knowledge to improve care processes and create value for patients [16]. Berwick [20] proposed shifting away from professional dominance to a greater focus on co-creation. There is a growing interest in patient and public involvement, often triggered by health policy initiatives and support for co-creating value across health care.

환자 및 대중 참여는 의료 서비스의 계획, 제공 및 평가에 환자, 가족 간병인 및 대중의 적극적인 참여를 수반합니다. 여기에는 환자 및 서비스 사용자 시작, 호혜적 관계 구축, 공동 학습, 재평가 및 피드백의 지속적인 프로세스가 포함됩니다[21]. 환자 참여는 개별 치료 및 치료에 대한 결정에 있어 개인 수준에서, 그리고 의료 서비스 제공에 대한 결정에 있어 집단 수준에서 이루어질 수 있습니다[22]. 
Patient and public involvement entail the active participation of patients, family carers and the public in planning, delivering and evaluating health care services. It involves the ongoing process of patient and service user initiation, building reciprocal relationships, co-learning and re-assessment and feedback [21]. Involving patients can happen at the individual level – in decisions about individual care and treatment – and at the collective level – in decisions about the delivery of care services [22].

Arnstein[23]의 참여 사다리를 변형한 버전에 따라 정보, 상담, 자문, 파트너십, 시민 통제 등 다섯 가지 수준의 참여를 구분합니다(상자 2). 일차 진료 맥락에서 환자, 가족 간병인, 대중, 전문가가 적극적으로 참여함으로써 공동 설계는 이해관계자의 지식을 연결하여 진료의 질 우선순위 문제를 해결합니다.
Based on an adapted version of Arnstein’s [23] participation ladder, we distinguish five levels of involvement: information, consultation, advising, partnership and citizen control (Box 2). In the primary care context, by the active involvement of patients, family carers, the public and professionals, co-design connects the knowledge of stakeholders to address quality of care priority concerns.

어떻게?
How?

치료의 질을 개선하기 위한 경험 기반 공동 설계 프로젝트는 일반적으로 12개월 동안 진행되며[24], 이 프로세스에는 발견 및 공동 설계 단계가 포함됩니다[25](그림 1). 프로젝트의 시작은 프로젝트를 실행할 핵심 그룹을 구성하고 연구자를 모집하는 것입니다. 
Experience-based co-design projects to improve the quality of care typically last 12 months [24], and the process contains discovery and co-design phases [25] (Figure 1). The start involves setting up a core group that runs the project and recruiting a researcher.

 

발견 단계

  • 개선할 서비스가 어떻게 작동하는지에 대한 귀중한 인사이트를 제공하는 [연구자의 관찰]로 시작됩니다. 이러한 인사이트는 연구자가 후속 인터뷰를 위해 민감하게 반응하는 데 도움이 됩니다.
  • 발견 단계에서는 질병이 환자와 가족 간병인의 일상 생활에 미치는 영향을 탐색하고 학습하는 것을 목표로 하는 [발견 인터뷰]가 진행됩니다. 발견 인터뷰는 환자, 가족 간병인 및 전문가와 함께 의료 서비스 경험에 대해 실시하여 치료, 회복 및 복지에 중대한 영향을 미칠 수 있는 요구 사항에 대한 지식을 생성합니다.
  • [접점]은 참여자의 경험을 바탕으로 파악됩니다. 인터뷰를 촬영하여 환자, 가족 보호자, 전문가 간의 대화를 유도하는 비디오를 제작합니다. 

The discovery phase

  • begins with observations by the researcher that provide valuable insights into how the service to be improved works. These insights are helpful to sensitise researchers for the subsequent interviews.
  • The discovery phase proceeds with discovery interviews, which aim to explore and learn from the impact of illness on patients’ and family carers’ everyday lives. Discovery interviews – conducted with patients, family carers and professionals about their experiences with a health service – produce knowledge about needs that may significantly impact care, recovery and wellbeing.
  • The touchpoints are identified based on the experiences of participants. Interviews are filmed to develop a video to trigger a dialogue between patients, family carers and professionals.

연구자들은 영상을 편집할 때 진단, 치료, 후속 조치 등 특정 연대기 순서에 따라 품질 개선이 필요한 부분을 파악합니다. 환자 경험의 시각화는 비슷한 경험과 이야기를 가진 사람들을 (재)연결하는 데 도움이 되고 공동 설계 프로세스의 정서적, 인지적으로 강력한 출발점을 제공하기 때문에 비디오는 공동 설계 프로세스에서 중요한 촉매제 역할을 합니다[26]. 
In editing the video, researchers identify areas for quality improvement, often following a certain chronology, for example, diagnosis, treatment and follow-up. The video is an important catalyst in the co-design process as the visualisation of patient experiences helps (re)connect people with similar experiences and stories and offers an emotionally and cognitively powerful starting point for the co-design process [26].

다음으로, 공동 디자인 팀에서는 각 그룹(주로 환자, 가족 보호자, 전문가)별로 개별적으로 개선해야 할 다양한 영역의 우선순위를 정한 다음, 모든 그룹이 함께 모여 개선 방향을 논의합니다. 각 회의는 이전 단계에서 비디오로 촬영한 인용문을 통해 다양한 개선 영역을 발표하는 것으로 시작됩니다. 그런 다음 참가자들은 공동으로 3~4개 영역을 품질 개선의 핵심 우선순위로 선택합니다.
Next, the various areas for improvements are prioritised in the co-design team: separately within each group (mostly patients, family carers and professionals) and then with all the groups together. Each meeting starts with presenting the various areas for improvement, illustrated by videotaped quotes from the previous phase. Then, the participants jointly choose three or four areas as the key priority for quality improvement.

공동 설계 단계에서는 환자, 가족 보호자, 전문가로 구성된 소규모 실무 그룹인 공동 설계 품질 개선 그룹이 공동 설계 회의에서 강조된 핵심 우선순위 문제를 목표로 품질 개선 활동을 설계하고 실행합니다.
In the co-design phase, co-design quality improvement groups – small working groups of patients, family carers and professionals – design and implement quality improvement activities to target the key priority issues highlighted at the co-design meetings.

마지막으로 마무리 행사에서 개선 사항을 평가하고 공동 디자인 팀이 개선 사항을 공유하고 축하합니다. 경험 기반 공동 설계는 의료 서비스를 개선하고 변경 프로세스에 대한 과학적 인사이트를 제공하는 변경 접근 방식 및 프로세스입니다.
Finally, the improvements are evaluated in a closing event, and the gains are communicated and celebrated by the co-design team. Experience-based co-design is a change approach and process that improves health care and scientific insights into change processes.

사용자 중심 설계를 통한 eHealth 리소스 개발 및 평가
User-centred design to develop and evaluate eHealth resources

컨텍스트
Context

e헬스(디지털) 정보통신기술(ICT), 특히 인터넷 기술을 사용하여 건강 및 의료 서비스를 지원하거나 개선하는 것을 말합니다[27]. 이는 1차 진료의 질을 높이고 품질 보증, 교육 및 연구를 위한 고품질 데이터를 제공할 수 있는 포괄적인 가능성을 제공합니다[27]. 혁신적이면서도 타당한 연구 방법론은 eHealth의 지속적인 성공과 지속 가능성을 위한 전제 조건입니다[28]. 최종 사용자는 공동 제작 프로세스를 통해 전자 의료의 개발 및 구현에 참여해야 하며, 취약 계층과 전자 의료 문맹을 염두에 두고 설계해야 합니다. 적절한 접근 방식은 사용자 중심 디자인입니다.
eHealth is the use of (digital) information and communication technology (ICT), in particular internet technology, to support or improve health and health care [27]. It offers a comprehensive promise for a better quality of primary care and high-quality data for quality assurance, education and research [27]. Innovative but valid research methodology is a prerequisite for the ongoing success and sustainability of eHealth [28]. End-users need to be involved in the development and implementation of eHealth via co-creation processes, and design should be mindful of vulnerable groups and eHealth illiteracy. An appropriate approach is user-centred design.

이 접근 방식을 사용하여 발표된 경험적 연구에는 다음이 포함됩니다:
Published empirical studies using this approach include:

  • 복잡한 환자를 위한 태블릿 대기실 도구를 사용자 중심으로 설계하여 1차 진료 방문 시 논의 주제의 우선순위를 정합니다[29].
  • 향후 우울증 중증도를 예측하고 1차 진료에서 치료를 안내하기 위한 모바일 임상 예측 도구 개발: 사용자 중심 설계 [30].
  • 생리적 출산의 보호자 양성: 네덜란드의 학생 조산사를 위한 교육 이니셔티브 개발 [31].
  • User-centred design of a tablet waiting room tool for complex patients to prioritise discussion topics for primary care visits [29].
  • Development of a mobile clinical prediction tool to estimate future depression severity and guide treatment in primary care: user-centred design [30].
  • Creating guardians of physiologic birth: the development of an educational initiative for student midwives in the Netherlands [31].

무엇?
What?

사회 및 기술 디자인 과학에서 비롯된 사용자 중심 설계의 목표는 사용성이 매우 높은 eHealth 기술을 개발하는 것입니다. 이는 기술 및 조직 시스템을 평가, 설계 및 개발하는 방법으로, 설계 및 의사 결정 과정에 최종 사용자를 참여시킵니다[32]. 이 방법의 주요 특징은

  • 문제 식별 및 솔루션 생성의 빠른 주기,
  • 최종 사용자 특성에 대한 심층적 이해,
  • 설계가 구체화되는 방식에 대한 최종 사용자의 영향,
  • 전체 개발 프로세스 동안의 반복적 평가,
  • 처음부터 구현 조건을 고려한다는 점입니다[33].

이상적으로 사용자 중심 설계는 환자, 가족 간병인, 전문가 및 직원, ICT 설계자, 의료 시스템 담당자, 기술 콘텐츠를 담당하는 연구자 등 모든 잠재적 이해관계자를 고려합니다. 그러나 최종 사용자는 대부분 환자, 가족 간병인, 전문가 및 직원입니다. 
The goal of user-centred design, stemming from social and technological design sciences, is to develop eHealth technologies with very high usability. It is a method to assess, design and develop technological and organisational systems, which involves end-users in design and decision-making processes [32]. Its key features are

  • rapid cycles of problem identification and solution creation,
  • in-depth understanding of end-user characteristics,
  • the influence of end-users on how a design takes shape,
  • iterative evaluation during the entire development process, and
  • accounting for the implementation conditions from the beginning [33].

Ideally, the user-centred design considers all potential stakeholders, for example, patients, family carers, professionals and staff, ICT designers, representatives of the health care system and researchers responsible for the content of the technology. However, the end-users are mostly patients, family carers, professionals and staff.

왜 그리고 언제?
Why and when?

e헬스 개발은 복잡한 건강 문제를 겪고 있는 사용자를 위해 새로운 기술과 서비스를 사용하는 경우가 많습니다. 사용자 중심 설계는 문제를 동시에 반복적으로 이해하고 해결함으로써 eHealth 개발을 지원합니다[33]. 최종 사용자가 직접 개입을 만들고 구현하는 데 참여하면 개입에 미묘한 요소가 통합되고 최종 사용자에게 영향을 미치는 건강의 사회적, 구조적, 환경적 결정 요인을 고려할 수 있습니다. 이러한 입력이 없었다면 이러한 요소는 연구자나 전문가에게 분명하게 드러나지 않았을 것입니다[33]. 사용자 중심 디자인으로 개발된 앱은 사용자 수용성, 안면 타당도, 사용자 친화성 및 활용도가 개선된 것으로 보고되었습니다[30]. eHealth의 채택과 지속적인 사용을 위해서는 사용자 친화적이고 최종 사용자의 동기, 가치, 요구 및 능력을 충족하며 의료 조직에 적합해야 합니다
Developing eHealth often uses new technologies and services for users experiencing complex health problems. User-centred design supports developing eHealth by understanding and solving the problem simultaneously and iteratively [33]. If end users are engaged to create and implement interventions themselves, the interventions will incorporate nuanced factors and consider social, structural and environmental determinants of health that affect the end-users. Without this input, these elements would not have been evident to researchers or professionals [33]. Apps developed with user-centred design have reported improved user acceptance, face validity, user-friendliness and uptake [30]. Critical for eHealth’s uptake and continuous use is that it is user-friendly, meets end users’ motives, values, needs and abilities and fits into the organisation of care.

어떻게?
How?

사용자 중심 설계는 대부분 질적 또는 혼합 방법을 사용합니다[33].

  • 문제 개발 주기에는 사용자 및 기타 출처에서 데이터를 수집하고 분석하여 문제와 요구 사항을 정의하는 과정이 포함됩니다.
  • 솔루션 개발 주기에는 최종 사용자와 함께 프로토타입을 제작하고 테스트하기 위한 아이디어 창출이 포함됩니다.

이러한 주기 사이에는 반복적인 피드백 루프가 있습니다. 연구자와 개발자는 최종 사용자의 주요 요구 사항을 충족하는 e헬스 솔루션을 최종 확정하고 배포합니다.
User-centred design uses mostly qualitative or mixed methods [33].

  • The problem development cycle involves gathering and analysing data from users and other sources to define problems and needs.
  • The solution development cycle involves the generation of ideas to build and test prototypes with end-users.

Within and between these cycles, there are iterative feedback loops. Researchers and developers finalise and deploy an eHealth solution when it meets the end users’ key requirements.

사용자 중심 설계의 특정 유형은 교육(e-러닝) 프로그램 개발에 자주 사용되는 래피드 프로토타이핑입니다[34]. 여기에는 구현 및 평가를 위한 최종 프로토타입에 도달하기 위해 후속 프로토타입을 설계할 때 요구 사항 평가, 주요 이해관계자의 의견 및 피드백 단계가 중복적으로 포함됩니다.
A specific type of user-centred design is rapid prototyping, which is often used for developing educational (e-learning) programmes [34]. It involves overlapping stages of needs assessment, input and feedback from key stakeholders in designing subsequent prototypes to reach a final prototype for implementation and evaluation.

사용자 중심 설계 프로세스의 각 문제 및 솔루션 개발 주기 내 단계에 대한 다양한 설명이 존재하는데, 예를 들어 5단계 프로세스는 개념, 설계, 테스트 및 시험, 생산 및 배포 단계로 구성되며 최종 사용자는 생산을 제외한 모든 단계에 참여합니다[33,35](박스 3). 최종 사용자의 참여에 가장 많이 사용되는 방법은 사용성 테스트, 인터뷰 및 설문조사입니다. 다양한 단계에서 최종 사용자의 관점을 파악하는 것은 적용되는 방법에 따라 달라지므로 적절한 방법을 선택하는 것이 중요합니다[36]. 또한 모든 사용자와 그들의 활동, 실제 일상 환경, 기능적 한계, 무수한 정보 및 기술을 심도 있게 고려해야 합니다[35]. 예를 들어 조산사의 업무량이 많다는 점을 고려하여 연구자들은 포커스 그룹이 아닌 개별 인터뷰와 서면 피드백을 선택했습니다[31].
Various descriptions exist of the stages within each of the problem and solution development cycles in the user-centred design process, for example, a five-stage process consists of concept, design, testing and trials, production and deployment stages with end-users participating in all stages, except production [33,35] (Box 3). The methods most used for involving end-users are usability tests, interviews and questionnaire surveys. Since capturing end users’ perspectives at various stages depends on the method applied, selecting an appropriate method is important [36]. This also requires in-depth consideration of all users and their activities, their actual daily environment and their functional limitations, innumeracy and skills [35]. For example, considering midwives’ high workloads, researchers chose individual interviews and written feedback rather than focus groups [31].

고령자, 장애인 또는 특별한 도움이 필요한 사람을 포함하여 사용 가능한 최종 사용자의 경우 '사용자 대리인'이라고 하는 대리인이 개입할 수 있습니다[35]. 사용자 대리인이란 다른 사용자를 대신하여 작업을 수행할 수 있는 지식이나 권한을 가진 사용자를 말합니다. 사용자 대리자는 사용자에 대해 알고 있는 내용을 보고하거나 사용자가 어떻게 행동할지 역할극을 통해 보고합니다.
For less available end-users, including elderly people and people with disabilities and/or special needs, substitutes called ‘user surrogates’ might be involved [35]. A user surrogate is a user who has the knowledge or authority to perform tasks on behalf of another user. User surrogates report on what they know about the user or by role-playing how the user would behave.

지역 보건을 공동으로 개선하기 위한 커뮤니티 기반 참여 연구
Community-based participatory research to improve local health collaboratively

컨텍스트
Context

일차 진료 전문가는 종종 문화적 소수자나 빈곤한 지역사회와 같은 취약 계층을 대상으로 진료를 제공합니다. 이들은 라이프스타일 선택, 전기, 인생사, 교육 수준, 사회경제적 상황, 사회 및 물리적 환경의 영향을 받는 건강 문제로 어려움을 겪는 환자를 돌봅니다. 건강 격차를 해결하기 위한 연구 접근 방식은 커뮤니티 기반 참여 연구입니다. 이 방법은 접근하기 어렵거나 매우 취약한 지역사회에 주로 사용되어 왔습니다. 우리는 커뮤니티를 공유된 가치, 문화, 관습 또는 정체성과 같은 공통의 관심사를 가진 사람들의 그룹 또는 이웃, 지구 또는 지역과 같은 특정 지리적 영역에 거주하는 모든 사람들 또는 지리적 영역에 거주하는 공통의 관심사를 가진 사람들의 그룹으로 정의합니다.
Primary care professionals often provide care to vulnerable groups, such as cultural minorities and deprived communities. They care for patients who struggle with health problems affected by their lifestyle choices, biography, life events, educational level, socioeconomic situation and social and physical environment. A research approach to address health disparities is community-based participatory research. It has often been used for hard-to-reach or very vulnerable communities. We define community as a group of people with common interests – such as shared values, culture, customs or identity or as all people living in a particular geographical area – such as a neighbourhood, district or local area, or as groups of people with a common interest living in a geographical area.

이 접근법을 사용하여 발표된 경험적 연구에는 다음이 포함됩니다:
Published empirical studies using this approach include:

  • 마카시 개입의 참여형 개발 및 파일럿 테스트: 프랑스에서 사하라 사막 이남 및 카리브해 이민자의 성 건강 역량 강화를 위한 지역사회 기반 아웃리치 개입 [37].
  • 벨기에의 동유럽 및 터키 커뮤니티에서 약물 사용 및 서비스 이용에 대한 연구에서 커뮤니티 기반 참여 연구 실시 [38].
  • 네덜란드에서 건강과 사회의 통합을 개선하기 위한 커뮤니티 기반 참여 연구 [39].
  • Participatory development and pilot testing of the Makasi intervention: a community-based outreach intervention to improve sub-Saharan and Caribbean immigrants’ empowerment in sexual health in France [37].
  • Implementing community-based participatory research in the study of substance use and service utilisation in Eastern European and Turkish communities in Belgium [38].
  • A community-based participatory research on improving the integration of health and social in the Netherlands [39].

무엇?
What?

지역사회 기반 참여 연구의 목표는 교육, 실천 개선 또는 사회 변화를 가져오는 것입니다. 이는 지역적으로 관련된 건강 문제를 해결하고자 하는 연구에 대한 협력적 접근 방식입니다[40]. 커뮤니티 기반 참여 연구의 독특한 점은 다양한 커뮤니티 파트너가 참여하고 동등한 참여와 소유권, 호혜성, 공동 학습 및 변화를 위해 노력하는 데 중점을 둔다는 점입니다[41]. 이 접근 방식은 연구자와 커뮤니티 구성원을 요구 사항 평가 및 의제 설정, 의사 결정, 역량 구축, 지식 생성, 연구 결과의 실행 및 전파 등 연구 과정의 모든 측면에 참여시킵니다[42,43]. 지역사회 참여에 중점을 두기 때문에 지역사회 기반 참여 연구는 지역사회 파트너가 학술 파트너와 협력하여 지역사회에 영향을 미치는 건강 문제를 파악하고 해결할 수 있습니다(상자 4). 이는 변화로 이어질 수 있는 사회적 연결을 촉진하고 행동으로 이어질 수 있는 지식을 생산합니다[44].

The goal of community-based participatory research is to educate, improve practice or bring about social change. It is a collaborative approach to research, which seeks to address a locally relevant health issue [40]. What is unique to community-based participatory research is its emphasis on the diverse community partners involved and on striving for equal participation and ownership, reciprocity, co-learning and change [41]. This approach engages researchers and community members in all aspects of the research process, including needs assessment and agenda-setting, decision-making, capacity building, knowledge generation and the implementation and dissemination of findings [42,43]. Because of its focus on community engagement, community-based participatory research allows community partners working with academic partners to identify and address health problems affecting their communities (Box 4). It fosters social connections that can lead to change and produces knowledge that can lead to action [44].

왜 그리고 언제?
Why and when?

일차 진료에 대한 지역사회 참여는 1978년 알마-아타 선언[45]에서 시작되었으며, 이 선언은 사람들이 자신의 건강 관리 계획과 실행에 개별적으로나 집단적으로 참여할 권리와 의무가 있음을 명시했습니다. 연구 주제가 지역사회가 파악한 주요 이슈를 반영하도록 보장하고, 지역사회의 지혜를 활용하여 연구의 질, 타당성, 민감성을 개선함으로써 지역사회와 연구자 간의 신뢰를 증진하고, 연구 결과를 정책 및 실천으로 전환하는 과정을 개선하고, 지역사회 구성원의 연구 결과 활용도를 높이는 등의 이점이 있습니다[42]. 연구자들은 지역 사회와 함께 '상아탑' 연구라는 잘 설명된 문제를 해결하고 '현실 세계'에서 사회적 영향을 미칠 수 있습니다[46].
Community participation in primary care has its origins in the Alma-Ata Declaration of 1978 [45], which stated that people have the right and duty to participate individually and collectively in the planning and implementation of their health care. The benefits include the following: ensuring that the research topic reflects a major issue identified by the community; improving the quality, validity and sensitivity of the research by drawing upon community wisdom, thus promoting trust between communities and researchers; improving the translation of research findings into policy and practice; and enhancing uptake of the research findings by community members [42]. Researchers together with the local community might help address the well-described issue of ‘ivory tower’ research and have a social impact in the ‘real world’ [46].

어떻게?
How?

커뮤니티 기반 참여 연구는 질적 사례 연구, 환경 평가, 혼합 방법 연구, 무작위 대조 시험 등 다양한 방법론, 연구 설계 및 데이터 수집 방법을 사용할 수 있습니다. 일반적으로 7가지 단계가 있습니다[44](그림 2). 연구자와 지역 사회는 파트너로서 함께 일합니다. 
Community-based participatory research can employ diverse methodologies, study designs and data collection methods, for example, qualitative case studies, environmental assessments, mixed methods research and randomised controlled trials. In general, there are seven phases [44] (Figure 2). Researchers and the local community work together as partners.

첫 번째 단계는 잠재적인 비학계 파트너를 발굴하는 활동을 포함하여 지역사회 기반 행동 연구 파트너십을 형성하는 것입니다. 파트너에는 환자, 가족, 멘토, 친구 등 대인관계 지원 네트워크, 환자는 아니지만 이 문제를 지지하거나 믿는 일반 대중, 의사, 보건 전문가, 행정가 등 환자 및/또는 환자의 대인관계 네트워크와 직접 교류하는 사람, 서비스 제공자, 정책 입안자 등 기타가 포함될 수 있습니다. 이 활동은 신뢰와 관계를 구축하고, 운영 규범과 지역사회 기반 행동 연구 원칙을 수립하여 형평성과 권력 공유를 보장하고, 연구 인프라를 구축하는 것을 목표로 합니다[43].
The first phase is forming a community-based action research partnership involving activities to identify potential non-academic partners. Partners might include the following: patients; interpersonal support networks, including family members, mentors and friends; members of the general public who are not patients but who support or believe in the issue; those who interface directly with patients and/or patients’ interpersonal networks, including practitioners, health professionals and administrators; and others, such as service providers and policymakers. The activities aim to build trust and relationships, establish operating norms and community-based action research principles to ensure equity and power-sharing and create an infrastructure for the research [43].

두 번째 단계는 커뮤니티의 강점과 역학을 평가하는 것입니다. 여기에는 다음을 발견하고 평가하는 것이 포함됩니다[45].

  • 커뮤니티의 강점과 자원,
  • 주요 문화 및 역사적 차원,
  • 영향력 있는 조직,
  • 커뮤니티의 권력 관계,
  • 커뮤니티의 목소리를 듣기 위해 참여할 파트너

The second phase entails assessing community strengths and dynamics. This involves activities such as discovering and assessing

  • the strengths and resources in the community,
  • key cultural and historical dimensions,
  • influential organisations,
  • power relationships in the community and
  • partners to be involved to ensure that the community voice is heard [45].

세 번째 단계는 우선순위 지역 보건 문제와 연구 질문을 파악하는 것입니다. 주요 활동은 지역사회 파트너가 지역사회에 영향을 미치는 것으로 경험하고 해결해야 할 주요 건강 문제를 식별하고 건강 문제와 그 기여 요인의 우선순위를 정하는 것입니다. 마지막으로 연구자와 커뮤니티 파트너는 연구의 주요 연구 질문을 공식화합니다.
The third phase is identifying priority local health concerns and research questions. Key activities are to identify the major health problems that community partners experience as affecting the community and that need to be addressed and prioritise health concerns and their contributing factors. Finally, the researchers and community partners formulate the key research questions for the study.

네 번째 단계는 공동으로 개입 및 정책 연구를 설계하고 수행하는 것입니다. 여기에는 연구 질문과 목표의 우선순위를 정하고, 연구 설계와 데이터 수집 방법을 선택하고, 가장 적절한 개입을 결정하는 것이 포함됩니다. 또한 연구 설계와 선택한 개입을 수행하는 방법을 결정하고, 마지막으로 평가에 동의하는 단계가 포함됩니다.
The fourth phase involves collaboratively designing and conducting interventions and/or policy research. This involves prioritising the research questions and goal, selecting the research design and data collection methods and deciding the most appropriate intervention. In addition, it involves determining how to carry out the research design and the intervention selected and, finally, agreeing on the evaluation.

다섯 번째 단계는 커뮤니티 내에서 결과를 피드백하고 해석하는 단계입니다. 여기에는 설문조사, 심층 인터뷰, 포커스 그룹 토론 등을 통해 얻은 (예비) 결과를 공유하고 커뮤니티 파트너가 결과를 이해할 수 있도록 참여시키는 등 데이터 분석이 포함됩니다.
The fifth phase is feeding back and interpreting the findings within the community. This involves data analysis: sharing (preliminary) findings from surveys, in-depth interviews, focus group discussions, etc. and engaging the community partners to make sense of the findings.

여섯 번째 단계는 연구 결과를 배포하고 번역하는 것입니다. 여기에는 커뮤니티와 공유하기 위해 가장 중요한 연구 결과를 파악하고, 연구 결과를 전달하고 번역하는 데 있어 커뮤니티의 역할을 파악하고, 연구 결과를 광범위한 개입과 정책 변화로 확산하고, 연구 결과를 발표하는 것이 포함됩니다. 이는 커뮤니티 기반 행동 연구 파트너십의 형성으로 이어질 수 있습니다.
The sixth phase is disseminating and translating the research findings. This involves identifying the most important findings for sharing with the community, the community’s role in communicating and translating the findings, disseminating the findings into broader interventions and policy changes and publishing the research results. This might lead to the formation of a community-based action research partnership.

모든 단계는 커뮤니티 파트너십을 유지, 지속 및 평가하는 지속적인 프로세스를 기본으로 공유합니다. 연구자와 커뮤니티 파트너는 협력 관계에 대해 성찰하고 장기적인 목표와 역량을 공유합니다. 이러한 모든 접근 방식은 파일럿 테스트 또는 개념 증명과 같은 일부 혼합 방법 연구를 통합할 수 있습니다[47].
All phases share an underlying continuous process of maintaining, sustaining and evaluating the community partnerships. The researchers and community partners are reflective about their working relationships and shared long-term goals and capacities. All these approaches might integrate some mixed-methods research such as pilot testing or proof-of-concept [47].

공동 창작 접근법을 적용할 때의 도전 과제
Challenges in applying co-creative approaches

공동 창작 연구 프로젝트에 대한 경험과 참고한 방법론 및 경험적 논문을 바탕으로 이러한 연구 프로젝트가 직면할 수 있는 실용적 및 방법론적 과제에 대한 간략한 개요를 제공합니다.
Drawing on our experience with co-creative research projects and based on the methodological and empirical papers we referenced, we provide a brief overview of practical and methodological challenges that such research projects may face.

실질적인 과제
Practical challenges

불명확한 목적과 기대치
Unclear purpose and expectation

이해관계자와 연구자는 프로젝트의 목표가 무엇이며 공동 창작 과정이 왜 필수적인지 이해해야 합니다[40,46]. 이는 공동 창작 접근 방식의 각 단계에서 단계별로 작업하고 공유된 출발점을 설정하는 데 도움이 됩니다. 이때 연구자, 특히 연구책임자는 프로젝트의 범위와 예상 결과를 추적해야 합니다[44]. 
Stakeholders and researchers need to understand what the project goal is and why the process of co-creation is essential [40,46]. It helps to work step-by-step and establish a shared starting point in each phase of the co-creative approach. At the time, researchers, especially the principal investigator, need to keep track of the scope and expected outcomes of the project [44].

기술, 역량 및 재정 자원
SKILLS, CAPACITIES AND FINANCIAL RESOURCES

일부 이해관계자는 자신의 개인적 이해관계를 넘어서는 관점을 채택할 기술이 부족할 수 있습니다[18]. 연구자는 다양한 프로젝트 단계 또는 연구 활동에서 다양한 이해관계자의 역량을 최적으로 활용해야 합니다. 일부 이해관계자, 특히 환자와 취약한 지역사회 구성원은 회의에 참여할 수 있는 자원이 부족할 수 있습니다[43,48], 예를 들어 대중교통이나 발언에 대한 자신감이 부족할 수 있습니다. 연구자, 특히 연구책임자는 공동 작성에 선호하는 참여 방식, 이해관계자에게 의미 있는 활동, 사용 가능한 시간, 조치, 시간 요구, 재정 자원의 균형을 맞춰야 합니다[44]. 연구책임자는 연구 프로젝트에 이해관계자 참여를 위한 예산을 적절히 책정하는 것이 중요합니다. 연구비 신청 시 이해관계자 참여, 특히 환자 및 대중 참여에 대한 예산을 명시적으로 책정해야 합니다(상자 5). 자금 지원자들은 종종 의미 있는 참여를 촉진하기 위해 예산이 신중하게 배분되었는지 확인합니다. 
Some stakeholders might lack the skills to adopt a view beyond their personal stakes [18]. Researchers need to make optimal use of the various stakeholders’ capacities in different project phases or research activities. Some stakeholders, especially patients and vulnerable community members, might lack the resources to participate in meetings [43,48], for example, affording public transport or self-confidence to speak up. Researchers, especially principal investigators, need to balance preferred ways of engagement in co-creation, meaningful activities to stakeholders and the available time, enabling measures, time demands and financial resources [44]. It is important for principal investigators to budget for stakeholder involvement in their research projects adequately. When applying for research grants, stakeholder involvement, especially patient and public involvement should be explicitly budgeted (Box 5). Funders often check to ensure budgets have been thoughtfully allocated to promote meaningful participation.

다양한 관점과 갈등
MULTIPLE PERSPECTIVES AND CONFLICTS

심층 인터뷰, 포커스 그룹 토론, 워크숍 등을 통해 환자, 전문가, 관리자 등 다양한 출처에서 다양한 유형의 데이터를 수집합니다. 이러한 인식과 우려를 통합하고 우선순위를 정하는 것은 이해관계자와 연구자에게 어려운 과제입니다[49]. 서로 다른 의사결정 스타일, 가치, 우선순위, 언어 사용, 참여 이력, 인지된 권력 불균형, 경쟁 또는 이해관계자의 의견에 대한 피드백 부족으로 인해 갈등이 발생할 수 있습니다[40]. 연구자들은 민주적인 대화 과정, 공동 책임, 긍정적인 관계를 조성해야 합니다[38,39,41,46].
Various data types are collected during in-depth interviews, focus-group discussions, workshops etc., from different sources, for example, patients, professionals, and managers. The integration and prioritisation of these perceptions and concerns are challenges for stakeholders and researchers [49]. Conflicts may occur due to different decision-making styles, values, priorities, use of language, engagement history, perceived power imbalance, competition or lack of feedback on stakeholders’ input [40]. Researchers need to foster a democratic process of dialogue, shared responsibility and positive relationships [38,39,41,46].

방법론적 과제
Methodological challenges

방법론적 품질
Methodological quality

대부분의 이해관계자는 주로 프로젝트가 자신이 인지하는 건강 문제를 어떻게 해결할 것인지에 관심이 있는 반면, 연구자는 유효한 과학적 지식을 창출하기 위해 노력합니다. 연구자는 모든 연구 단계에서 실용적 관련성, 방법론적 품질, 타이밍의 균형을 맞추기 위해 유연성을 발휘해야 합니다[40,44,49].
Most stakeholders are primarily interested in how the project will address their perceived health issues, whereas researchers also strive for generating valid scientific knowledge. Researchers need to be flexible in all research steps in balancing practical relevance, methodological quality, and timing [40,44,49].

연구팀
RESEARCH TEAM

공동 창작을 위해서는 연구팀에 다양한 역량이 필요합니다. 일반적으로 다학제 연구팀의 개별 연구자는 특정 연구 단계 또는 단계에서 자신의 전문성을 발휘합니다. 연구자들은 다양한 보건 분야 방법론적 역량, 사회적 역량을 통합하여 모든 이해관계자를 공동창출 과정으로 안내하는 연구팀을 구성해야 합니다[41,49]. 유연하고 시간이 많이 걸리며 때로는 예상치 못한 공동 창작의 특성으로 인해 시간 압박이 발생할 수 있습니다[43]. 연구자는 일을 완수하는 것과 연구 과정, 방법론적 품질, 이해관계자 관계 및 자신의 역할에 대한 성찰 사이의 균형을 유지해야 합니다[18]. 
Co-creation requires various competencies in the research team. Usually, individual researchers in multidisciplinary teams bring in their specific expertise in certain research phases or steps. Researchers need to compose a research team that integrates competencies from different health disciplines, methodological competencies and social competencies in guiding all stakeholders through the co-creation process [41,49]. The flexible, time-consuming and sometimes unexpected nature of co-creation might cause time pressure [43]. Researchers need to balance getting things done and reflecting on the research process, methodological quality, stakeholder relationships and their own role [18].

디지털 연구
DIGITAL RESEARCH

넷노그래피[50], 다양한 공식 및 비공식 온라인 데이터 소스 사용, 디지털 데이터 수집 방법 및 대화형 디지털 도구와 같은 다른 질적 접근 방식이 본격적으로 개발되고 있습니다. 디지털 연구는 효율적인 데이터 수집과 관리를 지원할 수 있지만, 디지털 기술이 부족한 사람을 배제하는 등 불평등의 위험을 초래할 수도 있습니다[51]. 연구자들은 질적 연구에서 디지털화가 공동 창조적 접근 방식에서 유망한 방법이 될 수 있으므로 윤리적, 방법론적 문제를 고려해야 합니다.
Other qualitative approaches, such as netnography [50], use of various formal and informal online data sources, digital data collection methods and interactive digital tools are fully in development. Digital research might support efficient data collection and management but might also bring inequality risk, for example, exclusion of people lacking digital skills [51]. Researchers need to consider ethical and methodological issues in digitalisation in qualitative research because it might be a promising way forward in co-creative approaches.

 

Box 5. Sources for further reading on stakeholder analysis and management, patient and public involvement and three co-creative qualitative approaches.
Web sources on stakeholder analysis and management
Web sources on patient and public involvement
Web sources on budgeting involvement
Experience-based co-design
User-centred design
  • Neuhauser L. Integrating participatory design and health literacy to improve research and interventions. Inf Serv Use. 2017;37(2):153–76.
  • Shah SGS, Robinson I. User involvement in healthcare technology development and assessment: structured literature review. Int J Health Care Qual Assur. 2006;19(6):498–513.
  • Tripp SD, Bichelmeyer B. Rapid prototyping: an alternative instructional design strategy. Educ Technol Res Dev. 1990;38(1):31–44.
Community-based participatory research
  • Cargo M, Mercer SL. The value and challenges of participatory research: strengthening its practice. Annu Rev Public Health. 2008;29(1):325–50.
  • Israel BA, Eng E, Schulz AJ, et al. Methods for community-based participatory research for health. 2nd ed. San Francisco (CA): Jossey-Bass; 2012.
  • Viswanathan M, Ammerman A, Eng E, et al. Community-based participatory research. Evidence Based Practice Centre Contract No. 290 – 02 – 0016, Agency for Healthcare Research and Quality; 2004. Available from: http://www.ahrq.gov/clinic/epcsums/cbprsum.htm.
  • Wallerstein N, Duran B, Oetzel J-G, et al. Community-based participatory action research for health. San Francisco (CA): John Wiley; 2018.

Eur J Gen Pract. 2022 Dec;28(1):1-12. doi: 10.1080/13814788.2021.2010700.

Series: Practical guidance to qualitative research. Part 5: Co-creative qualitative approaches for emerging themes in primary care research: Experience-based co-design, user-centred design and community-based participatory research

1Research Centre Autonomy and Participation of Chronically Ill People, Zuyd University of Applied Sciences, Heerlen, The Netherlands.

2Department of Family Medicine, Maastricht University, Maastricht, The Netherlands.

3Research Centre for Midwifery Science, Zuyd University of Applied Sciences, Maastricht, The Netherlands.

PMID: 35037811

PMCID: PMC8765256

DOI: 10.1080/13814788.2021.2010700

Free PMC article

Abstract

This article, the fifth in a series aiming to provide practical guidance for qualitative research in primary care, introduces three qualitative approaches with co-creative characteristics for addressing emerging themes in primary care research: experience-based co-design, user-centred design and community-based participatory research. Co-creation aims to define the (research) problem, develop and implement interventions and evaluate and define (research and practice) outcomes in partnership with patients, family carers, researchers, care professionals and other relevant stakeholders. Experience-based co-design seeks to understand how people experience a health care process or service. User-centred design is an approach to assess, design and develop technological and organisational systems, for example, eHealth, involving end-users in the design and decision-making processes. Community-based participatory research is a collaborative approach addressing a locally relevant health issue. It is often directed at hard-to-reach and vulnerable people. We address the context, what, why, when and how of these co-creative approaches, and their main practical and methodological challenges. We provide examples of empirical studies using these approaches and sources for further reading.

Keywords: Primary care; co-creation; eHealth; patient and public involvement; qualitative research.

연구평가지표를 위한 라이덴 선언
LEIDEN MANIFESTO FOR RESEARCH METRICS

 

Use these ten principles to guide research evaluation, urge Diana Hicks, Paul Wouters and colleagues.

Credit: Illustration by David Parkins

 

연구활동을 지원하고 운영하는데 있어 실증적인 데이터 사용이 증가하고 있다. 과거에는 필요한 경우에만 동료에 의해서 연구평가가 수행되었지만 최근에는 일상적으로 이루어질 뿐만 아니라 계량적인 평가지표에 크게 의존하고 있다1. 이 때 연구평가가 데이터 기반으로 이루어지고 심사자의 판단이 부재하다는 점은 문제이다. 이러한 상황에서 연구성과 관련 계량적 평가지표들이 빠르게 확산되고 있다. 올바른 연구성과평가를 위한 목적으로 평가지표가 개발되고 있으나, 개발된 평가지표들이 충분히 이해되지 못하거나 때론 잘못 사용하기도 한다. 계량적 지표에 근거한 연구성과평가가 점점 더 확산되고 있지만, 많은 기관에서는 실제로 어떻게 수행하고 해석해야 하는지에 대한 충분한 지식이나 도움이 부재한 상황이다. 연구성과평가 체계를 향상시키기 위해 만든 도구인 평가지표로 인해 도리어 평가 체계 자체가 위협 받고 있다. 
Data are increasingly used to govern science. Research evaluations that were once bespoke and performed by peers are now routine and reliant on metrics1. The problem is that evaluation is now led by the data rather than by judgement. Metrics have proliferated: usually well intentioned, not always well informed, often ill applied. We risk damaging the system with the very tools designed to improve it, as evaluation is increasingly implemented by organizations without knowledge of, or advice on, good practice and interpretation.

2000년도 이전에는 Institute for Scientific Information (ISI)이 Science Citation Index를 CDROM 형태로 발간하였으며 전문가의 분석 업무에 사용되었다. 2002년에는 톰슨 로이터스가 통합 웹 플랫폼을 발족하여 Web of Science 데이터베이스의 광범위한 접근을 가능하게 하였다. 엘스비어의 Scopus(2004년 발표)와 Google Scholar(2004년 베타버전 발표)의 등장으로 인용색인 데이터베이스가 다양화되었다. Web of Science 기반의 InCites와 Scopus 기반의 SciVal 과 같이 기관 단위의 연구 생산성과 영향력을 쉽게 비교할 수 있는 웹 기반 도구들이 소개되고, Google Scholar를 활용하여 개인 저자 단위 인용 프로필을 분석하는 소프트웨어(Publish or Perish, 2007년 발표)도 등장하였다.
Before 2000, there was the Science Citation Index on CD-ROM from the Institute for Scientific Information (ISI), used by experts for specialist analyses. In 2002, Thomson Reuters launched an integrated web platform, making the Web of Science database widely accessible. Competing citation indices were created: Elsevier's Scopus (released in 2004) and Google Scholar (beta version released in 2004). Web-based tools to easily compare institutional research productivity and impact were introduced, such as InCites (using the Web of Science) and SciVal (using Scopus), as well as software to analyse individual citation profiles using Google Scholar (Publish or Perish, released in 2007).

2005년에는 미국 캘리포니아 주립대학교 샌디에고 캠퍼스에 재직중인 물리학자 Jorge Hirsch가 h-지수를 제안하여 개별 연구자의 인용 평가를 대중화했다. 1995년 이래로 저널영향력지수에 대한 관심은 꾸준히 증가하고 있다(‘저널영향력지수에 대한 집착(impact-factor obsession*)’ 참조). 
In 2005, Jorge Hirsch, a physicist at the University of California, San Diego, proposed the h-index, popularizing citation counting for individual researchers. Interest in the journal impact factor grew steadily after 1995 (see 'Impact-factor obsession').

최근 연구성과의 사회적인 이용과 온라인 상의 의견을 포괄하는 평가지표가 점차 중요해지고 있다. 그 예로 F1000Prime(2002년 설립), Mendeley(2008년 설립), Altmetric.com(Nature Publishing Group를 가지고 있는 Macmillan Science and Education의 후원 아래 2011년 설립) 을 들 수 있다. 
Lately, metrics related to social usage and online comment have gained momentum — F1000Prime was established in 2002, Mendeley in 2008, and Altmetric.com (supported by Macmillan Science and Education, which owns Nature Publishing Group) in 2011.

과학계량학자, 사회과학자, 연구관리자로서 우리는 만연해있는 평가지표의 오용 정도가 심각해지고 있음을 목도해왔다. 세계의 대학들이 국제 대학 순위(상하이 랭킹, Times Higher Education 리스트 등)에서의 순위에 집착하는 것은 평가지표 오용의 수많은 예 중 하나이다. 심지어 우리 관점에서 볼 때 이 순위들은 부정확한 데이터와 편협하고 비논리적인 지표에 기반한 것으로 보이지만 세계 대학들은 이에 집착하고 있다. 
As scientometricians, social scientists and research administrators, we have watched with increasing alarm the pervasive misapplication of indicators to the evaluation of scientific performance. The following are just a few of numerous examples. Across the world, universities have become obsessed with their position in global rankings (such as the Shanghai Ranking and Times Higher Education's list), even when such lists are based on what are, in our view, inaccurate data and arbitrary indicators.

일부 인사담당자는 임용지원자에게 h-지수를 요청하기도 한다. 몇몇 대학들은 일정 값 이상의 h-지수와 영향력지수가 높은 저널에 실린 논문의 수에 따라 승진을 결정한다. 연구자의 CV는 이러한 지표 값을 내세우는데 사용되어 왔으며 특히 의생물학 분야에서 이러한 경향이 두드러진다. 지도교수는 아직 준비가 채 되지 않은 박사과정 학생에게 영향력지수가 높은 저널에 논문을 게재하고 외부 연구비를 수주하도록 요구하는 일이 만연하고 있다.
Some recruiters request h-index values for candidates. Several universities base promotion decisions on threshold h-index values and on the number of articles in 'high-impact' journals. Researchers' CVs have become opportunities to boast about these scores, notably in biomedicine. Everywhere, supervisors ask PhD students to publish in high-impact journals and acquire external funding before they are ready.

스칸디나비아와 중국의 몇몇 대학들은 획일화된 지표 값에 따라 개별 연구자에게 연구비나 보너스를 지급한다. 예를 들어, 개별 연구자의 영향력 점수를 계산하여 연구비를 배정하거나 저널영향력지수 값이 15보다 높은 저널에 논문을 게재한 경우 연구자에게 보너스를 지급하는 식이다 2.
In Scandinavia and China, some universities allocate research funding or bonuses on the basis of a number: for example, by calculating individual impact scores to allocate 'performance resources' or by giving researchers a bonus for a publication in a journal with an impact factor higher than 15 (ref. 2).

대부분의 경우 연구자와 평가자는 여전히 균형 잡힌 연구성과평가를 위해 노력하고 있다. 그러나 연구성과 평가지표의 오용은 간과하기 어려울 정도로 광범위하게 이루어지고 있다. 
In many cases, researchers and evaluators still exert balanced judgement. Yet the abuse of research metrics has become too widespread to ignore.

이러한 상황 때문에 라이덴 선언(Leiden Manifesto)을 발표하게 되었다. 이 이름은 라이덴 선언이 구체화된 학회 개최지(http://sti2014.cwts.nl 참조)를 따랐다. 라이덴 선언의 열 가지 원칙은 과학계량학자에게는 새롭지 않지만 지금까지 성문화되지 않았기 때문에 명확하게 제시하기 어려웠다. ISI의 창립자인 Eugene Garfield와 같은 이 분야의 권위자들은 이 원칙들 중 몇 가지를 공식적으로 언급한 적이 있다3,4. 그러나 이러한 권위자들의 권고사항을 대학 행정담당자가 잘 인지하고 있어서 연구성과평가보고서를 살펴볼 때 고려할 것이라고 기대하기는 어렵다. 왜냐하면 이들은 성과평가 방법론의 전문가가 아니기 때문이다. 또한 평가 대상이 된 연구자가 평가에 대한 이의를 제기하고자 할 때 이러한 원칙들이 전문적인 저널에 흩어져 있어 접근이 어렵다.
We therefore present the Leiden Manifesto, named after the conference at which it crystallized (see http://sti2014.cwts.nl). Its ten principles are not news to scientometricians, although none of us would be able to recite them in their entirety because codification has been lacking until now. Luminaries in the field, such as Eugene Garfield (founder of the ISI), are on record stating some of these principles3,4. But they are not in the room when evaluators report back to university administrators who are not expert in the relevant methodology. Scientists searching for literature with which to contest an evaluation find the material scattered in what are, to them, obscure journals to which they lack access.

우리는 계량 지표 기반 연구성과평가에 벤치마킹이 될 만한 방법론으로서 열 가지 원칙을 제안한다. 이를 통해 연구자는 평가자를 이해할 수 있고 평가자는 계량적 평가지표를 이해할 수 있다.
We offer this distillation of best practice in metrics-based research assessment so that researchers can hold evaluators to account, and evaluators can hold their indicators to account.

Credit: Data Source: Thomson Reuters Web of Science; Analysis: D.H., L.W.

열 가지 원칙
Ten principles

1. 정량적 평가는 정성적 평가와 전문가 평가를 지원하는데 사용되어야 한다. 정량적 평가지표는 동료평가에서 발생할 수 있는 편향성에 대한 이의 제기와 검토를 용이하게 한다. 일련의 관련 정보 없이 동료에 대한 평가를 내리는 것은 어렵기 때문에 정량적 평가는 동료평가에서 활용되어야 한다. 하지만, 평가자는 연구성과에 대한 전반적 평가 관련 의사결정을 계량지표 값 자체로 대체해서는 안 된다. 평가지표가 평가자의 숙련된 판단을 대체할 수 없으며, 평가자는 평가지표에 자신의 평가에 대한 책임을 전가해서는 안 된다.

1) Quantitative evaluation should support qualitative, expert assessment. Quantitative metrics can challenge bias tendencies in peer review and facilitate deliberation. This should strengthen peer review, because making judgements about colleagues is difficult without a range of relevant information. However, assessors must not be tempted to cede decision-making to the numbers. Indicators must not substitute for informed judgement. Everyone retains responsibility for their assessments.

2. 기관, 연구 집단, 연구자의 목표에 따라 성과를 측정하라. 목표가 처음부터 명시되어야 하며, 성과평가에 사용되는 지표는 그 목표와 분명하게 연관되어야 한다. 평가지표의 선택과 적용방법은 사회/경제적, 문화적 맥락을 충분히 고려하여야 한다. 연구자의 목표는 다양하다. 선구적 학술 탐구 연구는 사회 문제 해결에 중점을 두는 연구와는 다르다. 그리고 리뷰는 학문적 아이디어의 우수성보다 정책, 산업, 공공의 요구에 기반을 둘 수 있다. 따라서 하나의 평가 모델이 모든 맥락에 동일하게 적용될 수 없다.
2) Measure performance against the research missions of the institution, group or researcher.
 Programme goals should be stated at the start, and the indicators used to evaluate performance should relate clearly to those goals. The choice of indicators, and the ways in which they are used, should take into account the wider socio-economic and cultural contexts. Scientists have diverse research missions. Research that advances the frontiers of academic knowledge differs from research that is focused on delivering solutions to societal problems. Review may be based on merits relevant to policy, industry or the public rather than on academic ideas of excellence. No single evaluation model applies to all contexts.

3. 지역적으로 가치 있는 연구의 우수성을 인정하라. 세계 도처에서 영어로 쓰여진 출판물이 곧 우수한 연구로 간주되고 있다. 예를 들어, 스페인 법은 스페인 연구자가 영향력이 높은 저널에 논문을 게재하는 것을 권고한다**. 저널영향력지수는 미국에서 출반된 영문저널 중 Web of Science에 색인된 저널들을 기반으로 산출된다. 이러한 편향은 지역적, 국가적인 요구에 기반한 연구가 주를 이루는 사회과학과 인문학에서 특히 문제가 된다. 또한 사하라사막 이남 아프리카의 HIV 전염병학처럼 인문사회학이 아닌 많은 다른 분야도 국가적, 지역적 가치를 지닌다.

연구의 다양성과 사회적 연관성은 저널영향력지수 값이 높은 영문 저널에 논문을 출판하려는 연구 경향에 의해 그 성장이 억제되고 있다. Web of Science에서 인용되는 스페인 사회학자들은 추상적 모델 연구나 미국의 데이터를 대상으로 연구한다. 지역 노동법, 노령자를 위한 가정의료, 이민노동자와 같은 지역 특수성을 반영한 연구를 하는 사회학자들의 이름은 Web of Science에 색인된 주요 스페인어 저널에서도 자취를 감추었다5. 수준 높은 비영어 학술문헌에 기반한 계량적 평가지표가 제공된다면 지역적으로 가치 있는 연구의 우수성을 규명하고 적절히 평가하는데 기여할 수 있을 것이다.

3) Protect excellence in locally relevant research. In many parts of the world, research excellence is equated with English-language publication. Spanish law, for example, states the desirability of Spanish scholars publishing in high-impact journals. The impact factor is calculated for journals indexed in the US-based and still mostly English-language Web of Science. These biases are particularly problematic in the social sciences and humanities, in which research is more regionally and nationally engaged. Many other fields have a national or regional dimension — for instance, HIV epidemiology in sub-Saharan Africa.

This pluralism and societal relevance tends to be suppressed to create papers of interest to the gatekeepers of high impact: English-language journals. The Spanish sociologists that are highly cited in the Web of Science have worked on abstract models or study US data. Lost is the specificity of sociologists in high-impact Spanish-language papers: topics such as local labour law, family health care for the elderly or immigrant employment5. Metrics built on high-quality non-English literature would serve to identify and reward excellence in locally relevant research.

4. 데이터 수집과 분석 기법은 공개되어야 하며 투명하고 단순해야 한다. 평가를 위한 데이터베이스 구축은 확실하게 명시된 규칙을 따라야 하며 그 규칙은 평가를 완료하기 전에 제시되어야 한다. 이 과정은 수 십 년 동안 계량서지학적 평가방법을 개발한 학계와 영리 단체가 따른 통상적 관례이다. 그리고 이 관례는 동료심사제를 거친 문헌에 게재된 프로토콜이다. 이러한 투명성은 엄정한 평가를 가능하게 했다. 예를 들어, 2010년 우리 그룹 중 하나인 네덜란드 라이덴 대학교 과학기술연구센터(the Centre for Science and Technology Studies at Leiden University in the Netherlands)에서 사용하는 주요 평가지표 계산 방법을 공개토론을 통해 수정하였다6. 이 분야에 새로이 진입하는 영리단체는 이러한 규정을 준수해야 한다. 불투명한 블랙박스 같은 연구성과평가 과정은 수용될 수 없다. 
4) Keep data collection and analytical processes open, transparent and simple.
 The construction of the databases required for evaluation should follow clearly stated rules, set before the research has been completed. This was common practice among the academic and commercial groups that built bibliometric evaluation methodology over several decades. Those groups referenced protocols published in the peer-reviewed literature. This transparency enabled scrutiny. For example, in 2010, public debate on the technical properties of an important indicator used by one of our groups (the Centre for Science and Technology Studies at Leiden University in the Netherlands) led to a revision in the calculation of this indicator6. Recent commercial entrants should be held to the same standards; no one should accept a black-box evaluation machine.

이해하기 쉬운 명확하고 간단한 연구성과평가지표는 평가의 투명성을 높여준다. 그러나 단순화된 평가지표가 연구활동 전반을 반영할 수 없으므로, 왜곡의 소지가 있다(원칙 7 참조). 따라서 평가자는 연구 과정의 복잡성과 평가지표의 단순성 간의 균형을 반드시 유지해야 한다.
Simplicity is a virtue in an indicator because it enhances transparency. But simplistic metrics can distort the record (see principle 7). Evaluators must strive for balance — simple indicators true to the complexity of the research process.

단순성은 투명성을 높여주기 때문에 지표의 미덕입니다.
Simplicity is a virtue in an indicator because it enhances transparency.

5. 평가 대상자가 평가 데이터와 분석과정을 확인할 수 있도록 하라. 연구성과 평가에 사용되는 데이터의 품질을 확실히 하기 위하여 평가에 관련된 모든 연구자는 연구성과가 정확하게 반영되었는지를 확인할 수 있어야 한다. 평가과정을 감독하고 관리하는 평가 담당자는 자체검증 또는 외부감사를 통하여 데이터의 정확성을 담보하여야 한다. 대학의 연구정보시스템(RIS)에는 데이터 검증 모듈이 포함되어야 하며, 이는 연구정보시스템 공급업체 선정의 기준이 되어야 한다. 정확한 고품질 데이터를 수집하고 처리하기 위해서는 시간과 재원이 필요하므로 이를 위한 예산 할당이 필요하다.
5) Allow those evaluated to verify data and analysis.
 To ensure data quality, all researchers included in bibliometric studies should be able to check that their outputs have been correctly identified. Everyone directing and managing evaluation processes should assure data accuracy, through self-verification or third-party audit. Universities could implement this in their research information systems and it should be a guiding principle in the selection of providers of these systems. Accurate, high-quality data take time and money to collate and process. Budget for it.

6. 학문 분야에 따른 출판과 인용관행의 다양성을 인정하라. 최선의 방법은 여러 개의 연구성과 평가지표 세트를 만든 후 학문 분야별로 적절한 평가지표를 선택하도록 하는 것이다. 몇 년 전, 유럽의 역사학자들이 국내 동료심사 평가에서 상대적으로 낮은 점수를 받았다. 이는 그들이 Web of Science에 색인된 저널에 논문을 게재하기 보다 단행본을 출판했기 때문이다. 이들은 운 나쁘게도 소속이 심리학과였다. 역사학자들과 사회과학자들은 단행본과 자국어로 쓴 문헌을 그들의 출판물 수에 포함시켜 줄 것을 요구하고, 컴퓨터 과학자들은 학술대회 논문을 출판물 수에 포함시켜 주길 요구한다.
6) Account for variation by field in publication and citation practices.
 Best practice is to select a suite of possible indicators and allow fields to choose among them. A few years ago, a European group of historians received a relatively low rating in a national peer-review assessment because they wrote books rather than articles in journals indexed by the Web of Science. The historians had the misfortune to be part of a psychology department. Historians and social scientists require books and national-language literature to be included in their publication counts; computer scientists require conference papers be counted.

인용률은 학문 분야에 따라 다르다. 수학 분야에서 상위저널의 영향력지수 값은 약 3정도이고, 세포 생물학 분야에서 상위저널의 영향력지수 값은 약 30 정도이다. 정규화된 평가지표가 필요하며, 가장 안정적인 정규화 방법은 백분위(percentile)이다. 이 때 개별 논문은 해당 분야의 인용 분포에 따른 백분위 중 어디에 해당하느냐에 기반하여 가중치를 받게 된다(예를 들어, 상위 1%, 10%, 20%). 인용 평균에 기반하게 되면 한 두 개의 출판물에 의해 특정 대학의 순위가 크게 변동될 수 있으나, 백분위에 기반하게 되면 한두 논문에 의한 큰 순위 변동이 발생하지 않는다7.
Citation rates vary by field: top-ranked journals in mathematics have impact factors of around 3; top-ranked journals in cell biology have impact factors of about 30. Normalized indicators are required, and the most robust normalization method is based on percentiles: each paper is weighted on the basis of the percentile to which it belongs in the citation distribution of its field (the top 1%, 10% or 20%, for example). A single highly cited publication slightly improves the position of a university in a ranking that is based on percentile indicators, but may propel the university from the middle to the top of a ranking built on citation averages7.

7. 개별 연구자 평가는 연구자의 전체 연구실적에 대한 정성적 판단에 기초하여야 한다. 새로운 논문을 발표하지 않더라도 연구자의 경력이 오래될수록 h-지수가 높다. 또한 h-지수는 학문 분야에 따라 그 값이 다르게 나타나는데, 탁월한 생명과학자의 h-지수는 200, 물리학자는 100, 사회과학자의 경우 20-30으로 나타난다(원문의 ref 8 참조). h-지수는 데이터베이스에 따라서도 다르게 나타나는데, 예를 들면 컴퓨터공학 연구자들의 h-지수가 Web of Science에서는 약 10 정도로 산출되지만 Google Scholar에서는 20-30 정도로 산출된다9. 따라서 연구자의 논문을 읽고 판단하는 것이 특정 계량지표 값 하나에 의존하는 것보다 훨씬 바람직하다. 여러 연구자를 비교할 때도 개인의 전문지식, 경험, 활동, 영향력에 관한 다양한 정보를 고려하는 것이 최선의 방법이다.
7) Base assessment of individual researchers on a qualitative judgement of their portfolio.
 The older you are, the higher your h-index, even in the absence of new papers. The h-index varies by field: life scientists top out at 200; physicists at 100 and social scientists at 20–30 (ref. 8). It is database dependent: there are researchers in computer science who have an h-index of around 10 in the Web of Science but of 20–30 in Google Scholar9. Reading and judging a researcher's work is much more appropriate than relying on one number. Even when comparing large numbers of researchers, an approach that considers more information about an individual's expertise, experience, activities and influence is best.

8. 구체성 오류(misplaced concreteness)와 정확성 과신(false precision)에 주의하라. 과학기술 지표는 개념적으로 모호하고 불분명한 경향이 있고 일반적이지 않은 엄격한 가설을 필요로 한다. 예를 들어 인용빈도가 가지는 의미는 오랫동안 논쟁의 대상이 되어 왔다. 그러므로 더욱 안정적이고 다원적인 평가를 위해서는 여러 개의 평가지표를 사용하는 것이 최선의 방법이다. 만약 오차 구간(error bar) 등을 사용하여 불확실성과 오류를 정량화 할 수 있다면, 이를 평가지표 값과 함께 제공해야 한다. 이것이 불가능하다면, 평가지표 제공자는 적어도 정확성을 과신하지 말아야 한다. 예를 들어, 저널영향력지수는 동점을 피하기 위해 소수점 이하 셋째 자리까지 공개된다. 그러나 인용빈도의 개념적 모호함과 임의적 변동성을 고려해볼 때, 매우 작은 영향력지수 값의 차이를 가지고 저널들을 구분하는 것은 의미가 없다. 정확성을 과신하지 마라. 소수점 첫째 자리까지가 적정하다.
8) Avoid misplaced concreteness and false precision.
 Science and technology indicators are prone to conceptual ambiguity and uncertainty and require strong assumptions that are not universally accepted. The meaning of citation counts, for example, has long been debated. Thus, best practice uses multiple indicators to provide a more robust and pluralistic picture. If uncertainty and error can be quantified, for instance using error bars, this information should accompany published indicator values. If this is not possible, indicator producers should at least avoid false precision. For example, the journal impact factor is published to three decimal places to avoid ties. However, given the conceptual ambiguity and random variability of citation counts, it makes no sense to distinguish between journals on the basis of very small impact factor differences. Avoid false precision: only one decimal is warranted.

9. 평가지표와 평가가 연구환경에 미칠 수 있는 영향을 염두에 두라. 평가지표는 보상체계를 통해 연구환경에 영향을 미칠 수 있으므로 예상 가능해야 한다. 따라서 어떤 경우라도 여러 개의 평가지표를 사용하는 것이 바람직하다. 단일 지표를 성과평가에 사용하게 되면 연구환경이 혼탁해지거나 평가지표 값을 높게 받는 것 자체가 연구의 목적이 되는 상황을 초래할 수 있다(즉, 평가지표 자체가 연구 목표가 되어 버리는 것이다). 한 예로 1990년대 호주 정부는 연구 기관에서 발표한 논문의 수에 크게 의존한 평가지표를 사용하여 대학의 연구비 지원을 결정하였다. 호주 대학들은 논문의 ‘가치’를 이 논문이 실린 학술지에 근거하여 연구비로 환산하여 계산할 수 있었다. 예를 들어, 2000년을 기준으로 한 논문의 연구비 가치가 호주달러로 800불(미국화폐로 약 480불)인 것으로 나타났다. 예상대로 호주 연구자가 발표한 논문의 수는 증가하였다. 하지만 그 논문들은 인용이 많이 되지 않는 저널에 실렸다. 즉, 논문의 수준은 하락하였다고 볼 수 있다10.
9) Recognize the systemic effects of assessment and indicators.
 Indicators change the system through the incentives they establish. These effects should be anticipated. This means that a suite of indicators is always preferable — a single one will invite gaming and goal displacement (in which the measurement becomes the goal). For example, in the 1990s, Australia funded university research using a formula based largely on the number of papers published by an institute. Universities could calculate the 'value' of a paper in a refereed journal; in 2000, it was Aus$800 (around US$480 in 2000) in research funding. Predictably, the number of papers published by Australian researchers went up, but they were in less-cited journals, suggesting that article quality fell10.

10. 정기적으로 평가지표를 철저히 검토하고 개정하라. 연구목표와 평가의 목적은 변화하고, 연구 시스템은 그와 함께 진화한다. 한때 유용했던 평가지표들이 부적절해질 수 있으며, 새로운 지표들도 등장한다. 연구성과 평가지표 시스템을 검토해야 하고 필요한 경우 개정해야 한다. 앞서 언급한 지나치게 단순화된 연구성과 평가 방식이 연구체계에 미친 영향을 알게 된 호주는 2010년에 연구 품질을 강조하는 다원화된 Excellence in Research for Australia 이니셔티브를 도입하였다.
10) Scrutinize indicators regularly and update them.
 Research missions and the goals of assessment shift and the research system itself co-evolves. Once-useful metrics become inadequate; new ones emerge. Indicator systems have to be reviewed and perhaps modified. Realizing the effects of its simplistic formula, Australia in 2010 introduced its more complex Excellence in Research for Australia initiative, which emphasizes quality.

향후 전망
Next steps

위의 열 가지 원칙 준수를 통해 연구성과평가는 과학의 발전과 과학과 사회간의 상호작용에 있어서 중요한 역할을 수행할 수 있을 것이다. 연구성과평가지표는 개인의 전문지식으로는 수집하거나 이해하기 어려운 중요한 정보를 제공할 수 있다. 그러나 평가지표가 제공하는 정량적 정보가 연구성과평가 도구에서 연구의 목적으로 바뀌어서는 안 된다.
Abiding by these ten principles, research evaluation can play an important part in the development of science and its interactions with society. Research metrics can provide crucial information that would be difficult to gather or understand by means of individual expertise. But this quantitative information must not be allowed to morph from an instrument into the goal.

견고한 통계 기법과 함께 평가 대상이 되는 연구의 목적과 본질을 신중하게 고려하였을 때 최선의 연구성과평가가 가능하다. 평가를 위해서는 정량적인 근거와 정성적인 근거 모두 필요하며, 이 둘은 각각의 방식으로 객관성을 지닌다. 학문에 관한 의사결정은 양질의 데이터를 바탕으로 한 양질의 평가 과정에 기초하여야 한다.
The best decisions are taken by combining robust statistics with sensitivity to the aim and nature of the research that is evaluated. Both quantitative and qualitative evidence are needed; each is objective in its own way. Decision-making about science must be based on high-quality processes that are informed by the highest quality data.

 

leidenmanifesto_kor.pdf
0.22MB

http://www.leidenmanifesto.org/

http://www.leidenmanifesto.org/translations.html

 


 

 

Nature. 2015 Apr 23;520(7548):429-31. doi: 10.1038/520429a.

 

 

Bibliometrics: The Leiden Manifesto for research metrics

Affiliations collapse

1Georgia Institute of Technology, Atlanta, Georgia, USA.

2Centre for Science and Technology Studies, Leiden University, the Netherlands.

3Spanish National Research Council and the Polytechnic University of Valencia, Spain.

PMID: 25903611

DOI: 10.1038/520429a

 

No abstract available

샌프란시스코 연구 평가 선언

San Francisco Declaration on Research Assessment

 
 

과학자의 연구 성과를 평가하는 방식이 개선되어야 한다는 요구가 날로 커지고 있다. 이를 논의 하기 위하여 2012년 12월 16일, 캘리포니아주 샌프란시스코에서 열린 미국세포생물학회(American Society for Cell Biology) 연례 회의에 몇몇 학술지 편집자들과 출판인들이 모였다. 이들이 만든 제안서를 ‘연구 평가에 관한 샌프란시스코 선언(San Francisco Declaration on Research Assessment)’이라 부른다. 영문 약어로 DORA인 이 선언을 우리는 ‘새로운 연구 평가 선언’이라 부르고자 한다. 우리는 모든 과학 분야의 이해관계자들이 이 선언에 그들의 이름을 올려 함께 지지해 주길 바란다.

과학 연구의 성과물은 매우 방대하고 다양하다. 이 성과는 새로운 내용 (지식, 데이터, 시료, 소프트웨어)을 담은 학술 논문, 지적 재산권, 그리고 고도로 숙련된 젊은 과학자들을 양성하는 것을 포함한다. 연구 성과의 질과 영향력은 연구비를 지원하는 기관들이나 과학자를 고용하는 연구소들, 그리고 과학자들 간에서도 끊임없이 평가된다. 따라서 이러한 평가 방법은 정확하면서도 현명하게 이루어 져야 한다.

연구 성과를 평가할 때 가장 많이 사용하는 주요 지표는 학술지 인용지수(Journal Impact Factor; JIF; 임팩트 팩터)다. 톰슨 로이터(Thomson Reuters) 사가 만든 이 지표는 본래 도서관 사서들이 도서관에 비치할 학술지를 구매하는데 참고하도록 만들어진 것으로, 어떤 연구 논문의 과학적 질을 평가하기 위한 것은 아니었다. 그러므로 연구 성과를 평가하는 도구로 현재 흔히 쓰이는 이 학술지 인용지수에는 몇 가지 결함이 있다는 점을 꼭 이해해야 한다. 그 한계는 다음과 같다.

  • A) 학술지 내의 개별 논문의 인용 분포가 극단적으로 왜곡되어 있다[1-3];
  • B) 학술지 인용지수의 특성이 각 분야마다 다르다. 게다가 인용지수는 학술논문과 종설논문 등 여러 종류의 글을 복합적으로 아우른 결과이다[1,4];
  • C) 학술지 인용지수는 편집 방침에 따라 조작될 수 있다[5];
  • D) 학술지 인용지수를 계산하는 데 사용되는 자료의 공개가 투명하지 않고, 대중이 쉽게 구할 수 없다[4,6,7].

따라서 연구 성과의 질을 평가하는 방식을 개선할 것을 다음과 같이 제안한다. 우리는 앞으로 연구 성과를 입증하는 데 연구 논문만이 아닌 다른 성과들의 비중 역시 커지길 바란다. 여전히 동료 평가(peer-reviewed)를 기반으로 하는 학술 논문은 연구 성과를 평가하는 핵심 요소가 될 것이다. 그러므로 우리의 제안은 동료 평가를 기반으로 한 학술 논문을 중심으로 하되, 논문만이 아니라 기초 데이터와 같은 결과물들도 중요한 연구 성과로 포함될 수 있도록 확대하자는 것이다. 이 제안은 연구비 지원 기관, 연구 기관, 학술지, 각종 학술 지표를 제공하는 단체, 그리고 개별 연구자 모두를 대상으로 한다. 

본 제안에는 다음과 같은 세부 주제가 있다.

  • 연구비 책정, 고용, 승진 등을 심사할 때 학술지 인용지수(IF)와 같이 학술지 지표 사용을 제한할 필요성
  • 연구 평가시 그 연구가 출간된 학술지가 아니라 그 자체의 가치로 평가할 필요성
  • 논문의 온라인 출간을 장려할 필요성 (논문의 글자 수, 그림 수, 참고문헌 수의 불필요한 제한이 사라지고, 연구의 영향력과 중요성을 판단할 새로운 지표를 확인할 기회 등)

우리는 여러 연구비 지원 기관, 연구 기관, 학술지 출판사, 그리고 연구자들이 이미 연구 평가시 개선안을 장려하고 있는 것을 알고 있다. 그런 노력들은 더 정교하고 의미 있는 연구 평가 방식을 위한 첫걸음이자 앞으로 주요 구성원들 모두가 함께 정립할 평가 방식의 기반이 될 것이다.

‘연구 평가에 관한 샌프란시스코 선언’의 서명인들은 연구 평가에서 다음의 지침을 행동으로 옮기는 것을 지지한다.

일반 제언

  1. 학술지 인용지수(JIF)와 같이 학술지 자체의 지표를 과학자 개인의 기여도나 임용, 승진, 연구비 수여 결정을 위해 연구 논문의 품질을 평가하는 대리 지표로 사용하지 않는다.

연구비 지원 기관들은

  1. 연구비를 신청하는 이들에게 과학적 생산성을 평가하는 기준을 명확하게 설명하고, 특히 경력이 짧은 연구자들에게는 학술 논문에 담긴 과학적 내용이 출판 지표나 그 논문이 발표된 학술지의 정체성보다 훨씬 중요하다는 것을 분명히 알린다.
  2. 연구 평가를 위해 학술 논문만이 아니라 기초데이터나 소프트웨어 등 모든 연구 결과물의 영향력과 가치를 고려한다. 나아가 정책 결정이나 실생활에 미치는 영향력처럼 연구 결과가 가져올 영향을 정성적으로 판단할 수 있는 지표들을 두루 고려한다.

연구 기관들은

  1. 경력이 짧은 초기 단계 연구자들에게 출판 지표나 논문이 발표된 학술지의 정체성보다 논문의 과학적 내용이 중요하다고 설명하고, 연구 기관 고용, 테뉴어 결정, 승진 결정 등의 기준을 명확히 밝힌다.
  2. 연구 평가 시 학술 논문만이 아니라 모든 연구 성과물 (데이터셋이나 소프트웨어 등)의 영향력과 가치를 고려한다. 나아가 정책 결정이나 실생활에 미치는 영향 등 연구의 파급력을 정성적으로 판단할 수 있는 지표들을 두루 고려한다.

출판사들은

  1. 학술지 인용지수를 홍보용으로 강조하는 것을 현저히 줄인다. 이상적으로는 인용지수 홍보를 멈추거나 학술지의 성과를 보다 풍부하게 제공할 수 있도록 인용지수를 다른 학술지 기반 지표(5년간 인용지수, Eigen지수, SCImago, h-index, 학술지의 편집 및 출간 기간 등)들과 함께 보여준다.
  2. 개별 논문의 성과를 보여주는 여러 지표들을 제공함으로써 논문이 발표된 학술지 출판 지표보다 개별 논문의 과학적 내용을 바탕으로 평가되도록 변화를 촉진한다.
  3. 책임감 있는 저자권 습관을 촉구하고 저자들의 구체적인 기여도 정보를 제공하게 한다.
  4. 개방형(open-access) 학술지와 구독형(subscription-based) 학술지 모두에 대하여 학술 논문 내 참고문헌 목록에 대한 재사용 제한을 모두 제거하고 이를 크리에이티브 커먼즈 퍼블릭 도메인 기증(Creative Commons Public Domain Dedication) 라이선스로 모두에게 공개한다.
  5. 학술 논문에 쓸 수 있는 참고문헌 개수 제한을 없애거나 줄이고, 가능하다면 해당 사실을 처음으로 보고한 사람들이 인정받을 수 있게 리뷰논문 대신 1차 저작물을 인용하게 한다.

지표를 제공하는 단체들은

  1. 지표를 계산하는 모든 방법과 사용한 자료들을 제공하여 투명성을 유지한다.
  2. 자료를 제공하되 제한 없이 재사용할 수 있게 하고, 가능하면 개인이 자료를 가지고 직접 계산을 할 수 있게 한다.
  3. 평가를 위해 학술지의 여러 지표를 부적절하게 조작하는 것은 절대 허용되지 않음을 명확히 한다. 부적절한 조작이 정확히 무엇인지, 그리고 이에 대응하기 위해 어떤 조치들을 취할 것인지 명백히 한다.
  4. 학술지 지표를 사용하고, 집계하고, 비교할 때에는 글의 종류가 다름을 염두에 두고(종설 논문과 학술논문), 학술 분야마다의 차이도 고려한다.

개별 연구자들은

  1. 연구비 수여, 고용, 테뉴어, 혹은 승진을 결정하는 위원회에 소속되어 있을 때에는 평가의 기준을 출판 지수가 아니라 과학적 내용으로 한다.
  2. 가능한 한 인정을 받아야 할 이가 인정받을 수 있도록, 리뷰보다는 관찰 결과가 처음으로 보고된 1차 저작물을 인용한다.
  3. 자기 소개서 등을 쓸 때는 출간된 논문의 영향력과 다른 연구 성과를 다양한 개별 논문 지수나 지표 등을 이용해 보여준다.
  4. 학술 인용지수에만 부적절하게 의존하는 연구 평가 방식에 이의를 제기하고, 특정 연구 성과의 가치와 영향력에 초점을 두는 최선의 방식을 가르치고 홍보한다.

 

There is a pressing need to improve the ways in which the output of scientific research is evaluated by funding agencies, academic institutions, and other parties.To address this issue, a group of editors and publishers of scholarly journals met during the Annual Meeting of The American Society for Cell Biology (ASCB) in San Francisco, CA, on December 16, 2012. The group developed a set of recommendations, referred to as the San Francisco Declaration on Research Assessment. We invite interested parties across all scientific disciplines to indicate their support by adding their names to this Declaration.

The outputs from scientific research are many and varied, including: research articles reporting new knowledge, data, reagents, and software; intellectual property; and highly trained young scientists. Funding agencies, institutions that employ scientists, and scientists themselves, all have a desire, and need, to assess the quality and impact of scientific outputs. It is thus imperative that scientific output is measured accurately and evaluated wisely.

The Journal Impact Factor is frequently used as the primary parameter with which to compare the scientific output of individuals and institutions. The Journal Impact Factor, as calculated by Thomson Reuters*, was originally created as a tool to help librarians identify journals to purchase, not as a measure of the scientific quality of research in an article. With that in mind, it is critical to understand that the Journal Impact Factor has a number of well-documented deficiencies as a tool for research assessment. These limitations include:

  • A) citation distributions within journals are highly skewed [1–3];
  • B) the properties of the Journal Impact Factor are field-specific: it is a composite of multiple, highly diverse article types, including primary research papers and reviews [1, 4];
  • C) Journal Impact Factors can be manipulated (or “gamed”) by editorial policy [5]; and
  • D) data used to calculate the Journal Impact Factors are neither transparent nor openly available to the public [4, 6, 7].

Below we make a number of recommendations for improving the way in which the quality of research output is evaluated. Outputs other than research articles will grow in importance in assessing research effectiveness in the future, but the peer-reviewed research paper will remain a central research output that informs research assessment. Our recommendations therefore focus primarily on practices relating to research articles published in peer-reviewed journals but can and should be extended by recognizing additional products, such as datasets, as important research outputs. These recommendations are aimed at funding agencies, academic institutions, journals, organizations that supply metrics, and individual researchers.

A number of themes run through these recommendations:

  • the need to eliminate the use of journal-based metrics, such as Journal Impact Factors, in funding, appointment, and promotion considerations;
  • the need to assess research on its own merits rather than on the basis of the journal in which the research is published; and
  • the need to capitalize on the opportunities provided by online publication (such as relaxing unnecessary limits on the number of words, figures, and references in articles, and exploring new indicators of significance and impact).

We recognize that many funding agencies, institutions, publishers, and researchers are already encouraging improved practices in research assessment. Such steps are beginning to increase the momentum toward more sophisticated and meaningful approaches to research evaluation that can now be built upon and adopted by all of the key constituencies involved.

The signatories of the San Francisco Declaration on Research Assessment support the adoption of the following practices in research assessment.

General Recommendation

1. Do not use journal-based metrics, such as Journal Impact Factors, as a surrogate measure of the quality of individual research articles, to assess an individual scientist’s contributions, or in hiring, promotion, or funding decisions.

For funding agencies

2. Be explicit about the criteria used in evaluating the scientific productivity of grant applicants and clearly highlight, especially for early-stage investigators, that the scientific content of a paper is much more important than publication metrics or the identity of the journal in which it was published.

3. For the purposes of research assessment, consider the value and impact of all research outputs (including datasets and software) in addition to research publications, and consider a broad range of impact measures including qualitative indicators of research impact, such as influence on policy and practice.

For institutions

4. Be explicit about the criteria used to reach hiring, tenure, and promotion decisions, clearly highlighting, especially for early-stage investigators, that the scientific content of a paper is much more important than publication metrics or the identity of the journal in which it was published.

5. For the purposes of research assessment, consider the value and impact of all
research outputs (including datasets and software) in addition to research publications, and consider a broad range of impact measures including qualitative indicators of research impact, such as influence on policy and practice.

For publishers

6. Greatly reduce emphasis on the journal impact factor as a promotional tool, ideally by ceasing to promote the impact factor or by presenting the metric in the context of a variety of journal-based metrics (e.g., 5-year impact factor, EigenFactor [8], SCImago [9], h-index, editorial and publication times, etc.) that provide a richer view of journal performance.

7. Make available a range of article-level metrics to encourage a shift toward assessment based on the scientific content of an article rather than publication metrics of the journal in which it was published.

8. Encourage responsible authorship practices and the provision of information about the specific contributions of each author.

9. Whether a journal is open-access or subscription-based, remove all reuse limitations on reference lists in research articles and make them available under the Creative Commons Public Domain Dedication [10].

10. Remove or reduce the constraints on the number of references in research articles, and, where appropriate, mandate the citation of primary literature in favor of reviews in order to give credit to the group(s) who first reported a finding.

For organizations that supply metrics

11. Be open and transparent by providing data and methods used to calculate all metrics.

12. Provide the data under a licence that allows unrestricted reuse, and provide computational access to data, where possible.

13. Be clear that inappropriate manipulation of metrics will not be tolerated; be explicit about what constitutes inappropriate manipulation and what measures will be taken to combat this.

14. Account for the variation in article types (e.g., reviews versus research articles), and in different subject areas when metrics are used, aggregated, or compared.

For researchers

15. When involved in committees making decisions about funding, hiring, tenure, or promotion, make assessments based on scientific content rather than publication metrics.

16. Wherever appropriate, cite primary literature in which observations are first reported rather than reviews in order to give credit where credit is due.

17. Use a range of article metrics and indicators on personal/supporting statements, as evidence of the impact of individual published articles and other research outputs [11].

18. Challenge research assessment practices that rely inappropriately on Journal Impact Factors and promote and teach best practice that focuses on the value and influence of specific research outputs.

 

 


출처: https://sfdora.org/read/read-the-declaration-korean/

출처: https://sfdora.org/read/

상아탑 대 실천-지향 연구의 미신: 의학교육 무작위 연구의 체계적 문헌고찰(Med Educ, 2020)
The myth of ivory tower versus practice-oriented research: A systematic review of randomised studies in medical education 
Martin G. Tolsgaard1,2 | Kulamakan Mahan Kulasegaram3,4 | Nicole N. Woods3,4 | Ryan Brydges3,5,6 | Charlotte Ringsted7 | Liv Dyre1,2 

1 서론
1 INTRODUCTION

의학교육 연구의 질과 관련하여 반복되는 주제는 실용적 목적이 결여된 이론적 연구1와 이론적 기반이 결여된 응용 연구 사이의 긴장에서 비롯됩니다.2-4 이 주제에 대한 영향력 있는 논문에서 Albert 등4,5 은 의학교육 분야에서 사용자를 위한 생산생산자를 위한 생산이라는 두 가지 유형의 연구에 대한 개념적 모델을 제안했습니다.

  • 사용자를 위한 생산은, 임상의와 교육자가 구체적인 문제를 해결하고 대학과 임상 부서에 서비스를 제공하는 것을 목표로 합니다. 이러한 유형의 연구에는 이론적 프레임워크가 부족한 경우가 많으며5 주로 임상의가 임상 저널에 발표하는 것으로 알려져 있습니다.6 임상의와 교육자가 연구에 이론을 포함하지 않는 이유에 대해서는 몇 가지 제안된 이유가 있습니다. Albert 등은 의학교육 분야에서 영향력 있는 인사들을 인터뷰했는데, 그 중 한 명은 '의사들은 당신의 이론을 듣는 데 관심이 없다 [...] 그들이 알고 싶은 것은 어떻게 하면 더 효과적이고 비용이 적게 드는 것을 만들 수 있는가'라고 말했습니다.5
  • 사용자를 위한 생산자는 자신의 연구를 이론적 틀 안에 위치시키는 데 실패할 수 있지만5,6 프로그램 평가에 엄격한 실험 방법론을 적용함으로써(예: 무작위 설계에서 강력한 실험 통제 사용) 보완합니다.3 그러나 이론적 틀이 없으면 이론적 문제를 발전시키는 것은 물론 실제 문제를 해결하는 데도 실패할 수 있습니다.7 

A recurring theme related to medical education research quality results from the proposed tension between theoretical work lacking a practical purpose1 and applied research lacking a theoretical foundation.2-4 In an influential paper on the topic, Albert et al4, 5 proposed a conceptual model for two types of research within the field of medical education—Production for Users and Production for Producers.

  • At one pole, Production for Users, clinicians and educators aim to solve concrete problems and provide service to universities and clinical departments. This type of research often lacks theoretical frameworks5 and is thought to be published mostly by clinicians in clinical journals.6 There are several proposed reasons for why clinicians and educators may fail to include theory in their research. Albert et al interviewed a number of influential figures in medical education, one of which stated that ‘doctors are not interested in listening to your theory[…] What they want to know is how they can make something more effective and cost less’.5 
  • Although Producers for Users may fail to situate their research within a theoretical framework,56 they (supposedly) compensate by applying strict experimental methodologies to programme evaluations—for example, by using strong experimental controls in a randomised design.3 However, without theoretical frameworks they may fail in solving practical problems as well as in advancing theoretical issues.7

 

  • 다른 극인 생산자를 위한 생산에서 알버트 등은 지식 구축과 이론 개발을 통해 과학적 정당성을 획득하는 학문적 연구자들을 설명합니다.4 이러한 연구자들은 이론을 학습의 일반적인 현상을 이해하는 렌즈로 사용하고,8 국지적 관찰을 기존 지식 기반에 맥락화하는 방법으로 사용합니다.9 적어도 20년 동안 교육 과학자들은 의학교육 연구에서 이론을 더 많이 사용할 것을 요구해 왔습니다.5, 10-14 의학교육 연구에서 이론의 부족은 의학교육 저널에 제출된 논문이 거부되는 주요 원인으로 남아 있습니다.7, 15-17 반면에 고도로 이론적인 연구에 대한 비판자들은 그것이 교육 실무 및 정책 개발에 실질적인 영향을 미치는지 의문을 제기합니다.6, 7, 18 

At the other pole, Production for Producers, Albert et al describe disciplinary researchers, who acquire their scientific legitimacy through knowledge building and theory development.4 These researchers use theory as the lens through which they understand the general phenomena of learning,8 and as a way to contextualise local observations into an existing knowledge base.9 For at least two decades, education scientists have called for an increased use of theory in medical education research.5, 10-14 The lack of theory in medical education research remains a major cause of rejection of papers submitted to medical education journals.7, 15-17 On the other hand, critics of highly theoretical research question whether it has any real impact on educational practice and policy development.6, 7, 18

이러한 사고방식에 따르면, 일반적으로 받아들여지는 통념은 의학교육 연구가 교육자와 임상의에게 도움을 주는 것을 목표로 하는 실용 지향적 연구와 이론을 발전시키는 데 중점을 두지 않고 실제 적용에 중점을 두지 않는 이론 발전 연구라는 두 가지 극으로 나뉜다는 것을 암시한다고 볼 수 있습니다. 이 신화에서 발생하는 잠재적 문제는 각 극의 연구가 목표, 이론 또는 의제를 공유하지 않아 분야 전체를 발전시키지 못하는 사일로 효과입니다.6, 7 
Following this line of thinking, we suggest that a commonly accepted myth implies that medical education research is perennially divided between two singular poles: practically oriented research aiming to serve educators and clinicians with little focus on advancing theory and research aiming to advance theory with little focus on practical applications. A potential problem arising from this myth is silo effects, where research at each pole does not share goals, theories or agendas; thereby failing to advance the field as a whole.6, 7

파스퇴르의 사분면
Pasteur's quadrant

알버트 등의 분석 이후 15년 이상이 지났습니다. 그 사이 이 분야는 전 세계적으로는 물론 학문적으로도 성숙하고 다양해졌습니다. '상아탑' 이론가와 '현장' 실무자 사이의 격차는 여전히 의학교육 연구의 정당성에 관한 논쟁의 대상이지만,1,7 연구자들이 실용적인 문제 해결지식 발전이라는 목표가 상호 배타적이기보다는 상호 보완적일 수 있다는 것을 깨닫게 되면서 그 격차는 좁혀지고 있습니다.7, 19 스토크스는 '[이론적] 이해의 지평을 넓히려는 동시에 활용을 위한 고려에 영감을 받는' '활용 영감 기초 연구'(파스퇴르의 4분면)의 잠재력을 강조하는 연구 분류의 틀을 제시합니다. 나머지 사분면에는 실용적 응용에 대한 고려 없이 오로지 지식의 발전을 추구하는 이론 지향적 기초 연구(보어의 사분면), 이론의 발전에는 관심이 없고 실용적인 문제 해결만을 목적으로 하는 순수 응용 연구(에디슨의 사분면), 비이론적, 비실용적 연구를 대표하는 희귀 연구로 추정되는 무사용, 무이론 사분면이 포함됩니다(그림 1). 따라서 스토크스의 프레임워크는 과학적 사일로의 형성, 과학적 전통이 연구 목표, 과학적 엄격성 및 보고 표준에 미치는 영향 등 의학교육의 연구와 그 과제를 이해하는 데 보다 미묘한 관점을 제공할 수 있습니다. 
Over 15 years have passed since Albert et al’s analysis. The field has matured and has diversified globally as well as disciplinarily. Although the gap between ‘ivory tower’ theorists and ‘in-the-trenches’ practitioners is still a subject of debate regarding the legitimacy of medical education research,1, 7 the gap may be closing as researchers realise that the goals of solving practical problems and advancing knowledge may be complementary rather than mutually exclusive.7, 19 Stokes provides a framework for classifying research emphasising the potential of ‘use-inspired basic research’ (Pasteur's quadrant) that ‘seeks to extend the frontiers of [theoretical] understanding but is also inspired by considerations for use’. The remaining quadrants include theory-oriented basic research that is guided exclusively by its quest for advancing knowledge with no thought for practical application (Bohr's quadrant), pure applied research (Edison's quadrant) that is driven only with the purpose of solving practical problems with no interest for the development of theory, and a no-use, no-theory quadrant for presumably rare research representing non-theoretical and non-practical studies (Figure 1). As such, Stokes’ framework may offer a more nuanced perspective for understanding research in medical education and its challenges, including the formation of scientific silos and the impact of scientific traditions on research goals, scientific rigour and reporting standards.

이 리뷰에서는 의학교육 연구가 사용자 대 생산자라는 두 극으로 나뉘어져 있다는 통념에 대해 살펴보기로 했습니다. 의학교육에는 다양한 연구 접근법이 있습니다. 가용성 측면에서 우리는 임상 학술지뿐만 아니라 교육 학술지에서도 무작위 배정 연구를 찾을 수 있을 것으로 예상했고, 이를 통해 서로 다른 과학적 전통을 가진 영역에서 비교를 할 수 있을 것으로 기대했습니다. 무작위 배정 연구는 임상 연구자뿐만 아니라 분야별 과학자 모두에게 널리 사용되고 이해되는 접근 방식이라는 점을 고려하여 무작위 배정 연구에 초점을 맞추기로 결정했습니다. 예를 들어, 무작위 연구는 의학 및 심리학 연구 모두에서 이론 구축뿐만 아니라 효능 연구 및 실제 임상시험에도 사용됩니다.20 특히 의학교육에서는 이론 구축에 기여하는 무작위 연구의 여러 예가 있지만,21-24 비이론적 연구에 대한 우려도 제기되고 있습니다.3, 5, 25, 26 이러한 이유로 우리는 이론과 실제 적용에 따라 의학교육에 연구 사일로가 존재하는지에 대한 이해를 높이기 위한 출발점으로 무작위 디자인을 사용한 특정 연구 선택에 검토의 초점을 맞췄습니다. 
In this review, we set out to examine the myth that medical education research remains divided between the two poles of production for users vs producers. There are a lot of different research approaches in medical education. In terms of availability, we expected to find randomised studies in both clinical journals as well as in education journals, which would allow us to make comparisons across domains with different scientific traditions. We chose to focus on randomised studies, given the approach is popular and understood on both sides of the aisle—by clinician researchers as well as by disciplinary scientists. For example, randomised studies are used in both medical and psychological research for theory building but also for efficacy studies and practical trials.20 In medical education specifically, there are several examples of randomised studies contributing to theory building,21-24 though there are also concerns raised about non-theoretical research.3, 5, 25, 26 For these reasons, we focused our review on a specific selection of studies using a randomised design as a starting point for building a better understanding of whether research silos exist in medical education according to the use of theory and applications for practice.

우리는 다음과 같은 가설을 세웠습니다:

  • (a) 의학교육 연구는 두 개의 극으로 나뉘기보다는 보어의 사분면에서 파스퇴르의 사분면을 거쳐 에디슨의 사분면에 걸쳐 있다.
  • (b) 의학교육 저널에 발표된 연구는 주로 보어의 사분면에 속하는 반면, 임상 저널에 발표된 연구는 주로 에디슨의 사분면에 속한다,
  • (c) 파스퇴르의 사분면에 속하는 연구는 다른 세 사분면에 비해 인용률이 높고,
  • (d) 무사용, 무이론 사분면은 소수의 저품질 연구로 구성되며,
  • (e) 이 사분면은 다양한 연구 품질 지표와 관련이 있습니다.

We hypothesised that:

  • (a) rather than being divided between two different poles, medical education research spans from Bohr's quadrant across Pasteur's quadrant and to Edison's quadrant,
  • (b) research published in medical education journals predominantly falls into Bohr's quadrant, whereas research published in clinical journals predominately falls into Edison's quadrant,
  • (c) research that falls into Pasteur's quadrant achieves higher rates of citation compared with the other three quadrants,
  • (d) that the no-use, no-theory quadrant would comprise a small number of low-quality studies and
  • (e) that quadrant would be related to various indicators of research quality.

2 방법
2 METHODS

우리는 2018년에 발표된 무작위 의학교육 연구를 체계적으로 검토하여 Stokes의 프레임워크에 따라 분류하고 방법론적 엄격성, 보고 기준 및 저널 특성을 조사하여 신화적 분열을 조사했습니다. 
We conducted a systematic review of randomised medical education studies published in 2018 to classify them according to Stokes’ framework and explore their methodological rigour, reporting standards and journal characteristics in order to examine the mythic divide.

이 검토는 의학교육에서 검토를 수행하기 위한 권고사항27 에 따라 설계되었으며 PRISMA 가이드라인에 따라 보고되었습니다.28 우리는 다음과 같은 검토 질문에 답하는 것을 목표로 했습니다: 2018년에 발표된 무작위 의학교육 연구 표본에서, 연구는 스토크스 4분면에 어떻게 분포되어 있으며 방법론적 엄격성, 보고 기준 및 저널 특성은 어떻게 비교되는가?
The review was designed according to the recommendations for conducting reviews in medical education27 and reported according to the PRISMA guideline.28 We aimed to answer the following review question: In a sample of randomised medical education studies published in 2018, how are studies distributed across Stokes’ quadrants and how do their methodological rigour, reporting standards and journal characteristics compare?

연구 참여 자격
Eligibility

광범위한 의학교육 무작위 연구의 완전성을 보장하기 위해 광범위한 포함 기준을 사용했습니다. 2018년 1월 1일부터 2018년 12월 31일 사이에 출판된 연구를 포함시켰으며, 이를 통해 분석 전에 출판된 논문의 인용이 축적될 수 있는 기간을 조사했습니다. 의학교육과 관련된 모든 무작위 배정 연구를 포함했습니다. 의학교육 연구는 '의대생, 레지던트, 펠로우, 교수진 개발 또는 의사를 위한 평생 의학 교육과 관련된 모든 독창적인 연구'로 정의했습니다.29 이 정의에 따라 수의학, 간호학, 약학 및 치의학 교육 연구는 제외했습니다. 우월성 설계, 비열등성/동등성 설계, 평행군 연구, 교차 및 요인 설계 연구를 포함한 모든 유형의 설계를 포함했습니다. 의사 무작위 배정 연구는 제외되었지만 단순, 블록, 클러스터 무작위 배정 연구와 같은 모든 유형의 진정한 무작위 배정 연구는 포함되었습니다.  
We used broad inclusion criteria to ensure completeness of a wide range of randomised studies in medical education. We included studies published between 1 January 2018 and 31 December 2018, thereby examining a window within which citations of published papers would have had time to accumulate prior to our analysis. We included all randomised studies involving medical education. Medical education research was defined as ‘any original research study pertaining to medical students, residents, fellows, faculty development or continuing medical education for physicians’.29 Using this definition, veterinary, nursing, pharmacist and dental education studies were excluded. We included all types of designs, including superiority designs, non-inferiority/equivalence designs, parallel-group studies, cross-over and factorial design studies. Pseudo-randomised studies were excluded, whereas all types of true randomisation such as simple, block and cluster randomised studies were included.

검색 전략
Search strategy

검색 전략은 전문 사서의 도움을 받아 MEDLINE, Embase, CINAHL, PsychINFO, ERIC, Web of Science 및 Scopus에서 주요 용어를 검색하기 위해 개발되었습니다. 이러한 용어에는 의학교육과 관련된 무작위* 및 MeSH 용어(예: 교육, 전문가)에 대한 절단 검색이 포함되었습니다. 의학교육으로 분류되지 않은 연구(예: 보건 전문직 교육, 시뮬레이션, 학부 의학교육, 기술 강화 교육, 임상 추론, 기술 평가, 교육 전문가, 학생 보건 직업, 인턴십 및 레지던트, 교육과정 계획, 교육 방법, 자기 주도적 학습 등)도 검색에 포함되었습니다. 시뮬레이션 기반 의학 교육에 대한 최근 리뷰와 관심 기간에 발표된 연구의 저자 기록에 대한 참조 목록을 검색에 추가했습니다. 저자의 기록과 의학교육 연구를 자주 게재하는 학술지(Acad Med, Med Educ, AHSE, Med Teach, JAMA, Ann Surg, JGIM)를 직접 검색하여 온라인 검색에 가능한 한 많은 관련 무작위 연구를 포함시키기 위해 반복적인 방식으로 검색 전략을 구체화했습니다. 각 카테고리에 해당하는 연구 목록은 요청 시 제공됩니다. 
The search strategy was developed with the help of expert librarians to search MEDLINE, Embase, CINAHL, PsychINFO, ERIC, Web of Science and Scopus for key terms. These terms included truncated search on random* and MeSH terms relating to medical education (eg Education, Professional). Related domains were also included in the search to account for research not categorised under medical education (eg health profession education, simulation, undergraduate medical education, technology-enhanced education, clinical reasoning, skills assessment, education professional, student health occupation, internship and residency, curriculum planning, instructional method, self-directed learning, etc). We added reference lists of recent reviews in simulation-based medical education and authors’ records of studies published in the period of interest to the search. The authors’ own records and a hand-search through journals that often publish medical education research (Acad Med, Med Educ, AHSE, Med Teach, JAMA, Ann Surg, JGIM) were used to refine the search strategy in an iterative way to include as many relevant randomised studies as possible in the online search. A list of the studies falling into each category is available on request.

선정
Selection

확인된 모든 연구는 제목과 초록을 기준으로 저자 MGT와 LD가 개별적으로 심사하고, 점수를 쌍으로 비교하여 적격성을 결정했습니다. 제목이나 초록만으로는 적격성을 판단하기에 불충분한 경우 전문을 검토했습니다. 이견이 있는 경우 합의에 도달할 때까지 토론을 통해 해결했습니다. 
All identified studies were screened individually by the authors MGT and LD based on titles and abstracts and scores were compared in pairs to determine eligibility. The full text was reviewed when the title or abstract was insufficient for determining eligibility. Disagreement was solved by discussion until consensus was reached.

주요 개념의 운영 및 데이터 추출
Operationalisation of key concepts and data extraction

저자 MGT와 LD는 사전 정의된 코드북에 따라 포함된 모든 연구를 독립적으로 그리고 중복해서 검토했습니다. 
Authors MGT and LD worked independently and in duplicate to review all included studies based on a predefined codebook.

(가) 이론 (나) 교육 개념 및 (다) 교육 도구의 사용을 코딩했습니다.

  • 이론은 '세상을 이해하는 데 도움이 되는 개념 간의 관계에 대한 추상적인 설명'30으로 정의했습니다(예: 인지 부하 이론 또는 자기조절 학습 이론).
  • 교육 개념이론에서 파생된 아이디어 또는 원리(예: 숙달 학습 또는 분산 연습)로 정의했습니다.
  • 마지막으로 교육 도구는 특정 과제에 사용되는 도구 또는 장치(예: 시뮬레이션 또는 e-러닝)로 정의했습니다.

We coded the use of (a) theory (b) educational concepts and (c) educational instruments.

  • We defined theory as ‘an abstract description of the relationship between concepts that help us to understand the world’ 30; for example cognitive load theory or self-regulated learning theory.
  • Educational concepts were defined as ideas or principles derived from theory; for example mastery learning or distributed practice.
  • Finally, educational instruments were defined as tools or devices used for a particular task; for example simulation or e-learning.

포함된 연구를 수행하기 위한 실질적인 교육적 및 임상적 근거를 조사했습니다. 

  • 교육적 근거는 저자가 연구에서 특정 교육적 개입을 사용한 이유를 정당화할 수 있는 경우 존재하는 것으로 점수가 매겨졌습니다. 
  • 임상적 근거의 존재는 저자가 연구가 필요한 이유를 설명하는 데 도움이 되는 임상적 배경 섹션을 포함하면 있는 것으로 점수가 매겨졌습니다. 

이러한 조작을 사용하여 Stokes의 프레임워크에서 두 가지 축(임상 및 교육적 활용에 대한 고려 사항 대 지식의 발전)을 따라 연구를 코딩했습니다. 

  • 임상적 또는 교육적 근거가 포함된 연구는 오른쪽에 있는 두 사분면(에디슨 사분면 또는 파스퇴르 사분면) 중 하나로 분류되었습니다.
  • 교육적 개념이나 이론을 사용한 연구는 두 개의 위쪽 사분면(보어 사분면 또는 파스퇴르 사분면)으로 분류되었습니다.

We examined the practical educational and clinical rationale for conducting the included studies. The educational rationale was scored as present if authors justified why they used the specific educational intervention(s) in their study. The presence of a clinical rationale was scored as present if the authors included a clinical background section to help explain why the study was needed. Using these operationalisations, we coded studies along two axes (considerations for clinical and educational use vs advancement of knowledge) in Stokes’ framework.

  • Studies that included a clinical or educational rationale were classified in one of the two right-sided quadrants (Edison's or Pasteur's Quadrants).
  • Studies that used educational concepts or theory were classified in the two upper quadrants (Bohr's or Pasteur's Quadrants).

보고의 질과 방법론적 엄격성은 타당성 근거가 확립된 세 가지 도구를 사용하여 평가되었습니다: 임상시험 보고 통합 표준(CONSORT) 성명서,31 Jadad 척도,32 의학교육 연구 품질 도구(MERSQI) 척도.29 이 중 두 가지 도구는 무작위 임상시험을 위해 설계되었으며 생의학 연구 영역에서 유래한 반면(CONSORT 성명서 및 Jadad 척도), MERSQI는 의학교육 연구 방법을 평가하기 위해 설계되었습니다. 
Reporting quality and methodological rigour was assessed using three instruments with established validity evidence: The Consolidated Standards of Reporting Trials (CONSORT) statement,31 the Jadad scale,32 and the Medical Education Research Study Quality Instrument (MERSQI) scale.29 Two of these instruments were designed for randomised clinical trials and originated from within the biomedical research domain (CONSORT statement and the Jadad scale), whereas MERSQI was designed for evaluating medical education research methods.

  • CONSORT 성명서는 무작위 대조 연구의 불완전한 보고 문제를 완화하기 위해 1996년에 고안되어 2010년에 개정된 보고 지침입니다. 현재 대부분의 임상 저널에서 CONSORT 성명서를 지지하고 있으며, 제출된 모든 무작위 배정 연구에 대해 CONSORT 준수를 요구하고 있습니다. CONSORT 항목은 있음(점수 = 1점) 또는 없음(점수 = 0점)으로 채점되었습니다. 

The CONSORT statement is a reporting guideline designed in 1996 and revised in 2010 aimed at alleviating problems with incomplete reporting of randomised controlled studies. The CONSORT statement is now supported by the majority of clinical journals, in which adherence to CONSORT is a requirement for all submitted randomised studies. The CONSORT items were scored as present (score = 1) or absent (score = 0).

  • Jadad 척도는 무작위배정의 적절성, 맹검의 효과성, 연구 참여자 감소에 중점을 두고 임상시험의 방법론적 품질을 평가하기 위해 고안되었습니다. Jadad 척도의 최대 점수는 5점입니다.

The Jadad scale is designed for the assessment of methodological quality of clinical trials focusing on adequacy of randomisation, effectiveness of blinding and attrition of study participants. The maximum score on the Jadad scale is five.

  • MERSQI 척도의학교육 연구의 방법론적 강점을 평가하기 위해 특별히 개발되었습니다. 여기에는 사용된 평가 도구의 타당성 증거, 연구 유형, 응답률, 통계 분석의 적절성 및 사용된 결과의 분류와 관련된 항목이 포함됩니다.

The MERSQI scale is developed specifically for evaluating methodological strength of medical education research. It includes items relating to validity evidence of assessment instruments used as well as type of study, response rate, adequacy of statistical analyses and classification of outcomes used.

마지막으로 학술지 유형에 따라 학술지 특성을 코딩했습니다. 의학교육 연구만을 전문으로 하는 저널은 의학교육 저널로, 의학교육이 아닌 주제를 주로 다루는 저널은 임상 저널로 코딩했습니다. 예를 들어, 외과 교육 저널은 의학교육 저널로 코딩되었고 일반 내과학 저널은 임상 저널로 코딩되었습니다. 인용은 포함된 연구에 대해 기록되었으며 2020년 8월 5일에 업데이트되었습니다. 
Finally, journal characteristics were coded in terms of journal type. Journals specifically dedicated to medical education research were coded as such, whereas journals primarily focused on non-medical education topics were coded as a clinical journal. For example, the Journal of Surgical Education was coded as a medical education journal whereas Journal of General Internal Medicine was coded as a clinical journal. Citations were recorded for included studies and updated 5 August 2020.

저자 그룹은 5개의 무작위 의학교육 연구를 시범적으로 검토하고 코드북의 각 주요 용어와 도구를 사용하는 방법에 대한 합의에 도달할 때까지 평가에 대해 논의했습니다. 저자는 각 적격 연구에 독립적으로 점수를 매겼으며 점수를 쌍으로 비교했습니다. 의견 불일치는 토론을 통해 해결했습니다. 
The author group piloted five randomised medical education studies and discussed their ratings until reaching consensus on how to use each of the key terms and instruments in the codebook. Authors scored each eligible study independently and scores were compared in pairs. Disagreement was resolved by discussion.

데이터 분석
Data analyses

연구는 지식의 발전과 실제 사용에 따라 스톡스의 사분면으로 플롯되었습니다.
Studies were plotted into Stokes’ quadrants based on advancement of knowledge and practical use.

CONSORT 문항, 자다드 척도, MERSQI에 대한 합산 점수를 계산했습니다. (a) 저널 유형(임상/의학교육 저널), (b) 개념 또는 이론 포함 여부(예/아니오), (c) 임상/교육적 근거 사용 여부(예/아니오)의 주효과와 상호작용 효과를 세 가지 도구 각각에 대한 점수와 비교하기 위해 2x2x2 ANOVA를 실시했습니다.
Sum scores were calculated for the CONSORT statement, the Jadad Scale and the MERSQI. A 2x2x2 ANOVA was conducted to compare the main effects and interaction effects of (a) journal type (clinical/medical education journal), (b) inclusion of concepts or theory (yes/no) and (c) the use of a clinical/educational rationale (yes/no) on scores for each of the three instruments.

대조군 사용은 (a) 무중재 대조군 (b) A + B 대 A(무언가 + 무언가 대 무언가), (c) 활성 비교군 사용으로 분류했습니다.17 이 분류는 기존 중재에 '무언가'를 추가하는 변형을 포함한 무중재 대조군이 학습자의 학습 방법에 대한 일반적인 이해를 증진시키는 데 거의 도움이 되지 않는다는 기존 문헌의 합의에 근거했습니다.17 (a) 저널 유형(임상/의학교육 저널), (b) 개념 또는 이론 포함 여부(예/아니오), (c) 인용 횟수에 대한 임상/교육적 근거 사용 여부(예/아니오)의 주 효과와 상호작용 효과를 비교하기 위해 2 × 2 × 2 ANOVA를 실시했습니다.
The use of control groups was categorised into (a) no-intervention control group (b) A + B vs A (something + something vs something) and (c) use of active comparison groups.17 This categorisation was based on existing agreements in the literature that no-intervention control groups, including the variant of adding ‘something’ to existing interventions, often do little to advance our general understanding of how learners learn.17 A 2 × 2 × 2 ANOVA was conducted to compare the main effects and interaction effects of (a) journal type (clinical/medical education journal), (b) inclusion of concepts or theory (yes/no) and (c) the use of a clinical/educational rationale (yes/no) on number of citations.

평가자 간 일치도는 카파 통계를 사용하여 결정했습니다.
Inter-rater agreement was determined using kappa statistics.

3 결과
3 RESULTS

연구 흐름 및 기준 데이터
Study flow and baseline data

초기 검색에서 총 3224개의 잠재적 연구가 확인되었습니다. 중복을 제거한 후 2672개의 연구가 선별되었고, 이 중 150개의 연구가 포함 기준을 충족하여 분석되었습니다. 연구 선별 및 선정의 흐름도는 그림 2에 나와 있습니다.
A total of 3224 potential studies were identified from the initial search. After removing duplicates, 2672 studies were screened and of these, 150 met the inclusion criteria and were analysed. Flowchart of study screening and selection is shown in Figure 2.

주요 결과
Main findings

  • 가장 많은 수의 연구인 70건/150건(46.7%)이 실용적 기초 연구(파스퇴르 사분면)로 분류되었고,
  • 순수 응용 연구가 61건/150건(40.7%)으로 그 뒤를 이었습니다(에디슨 사분면).
  • 실제 교육이나 임상 적용을 염두에 두지 않고 지식을 발전시키는 것을 목표로 한 연구는 3건(150건/150(2.0%), 보어의 사분면)에 불과했습니다.
  • 나머지 16/150(10.7%)의 연구는 사용 없음, 이론 없음 사분면으로 분류되었습니다(표 1).

개념 및 이론 사용에 대한 카파값은 상당히 높았고(각각 κ = 0.71 및 0.69), 교육 및 임상적 근거에 대한 카파값은 보통이었습니다(각각 κ = 0.63 및 0.52). 
The highest number of studies, 70/150 (46.7%), were categorised as use-inspired basic research (Pasteur's Quadrant), closely followed by pure applied research, 61/150 (40.7%), Edison's Quadrant). Only three studies aimed to advance knowledge with no thought for practical educational or clinical application 3/150 (2.0%), Bohr's Quadrant). The remaining studies, 16/150 (10.7%), were categorised into the no-use, no-theory quadrant (Table 1). Kappa values for the use of concepts and theory were substantial (κ = 0.71 and 0.69, respectively) and moderate for educational and clinical rationale (κ = 0.63 and 0.52, respectively).

활성 대조군active control groups의 사용은 사분면에 따라 차이가 있었는데, 보어 사분면 3/3(100%), 파스퇴르 사분면 49/70(70%)으로 분류된 연구에서 가장 높은 비율을 보였고, 무사용, 무이론 사분면 10/16(63%), 에디슨 사분면 30/61(49%)로 가장 낮은 비율을 보였습니다(χ2(3) = 8.93, P = .03). 개념과 이론을 사용한 연구는 개념과 이론을 사용하지 않은 연구에 비해 활성 비교군을 사용할 가능성이 더 높았습니다(49/73(67.1%) 대 39/77(50.6%); χ2(1) = 8.46, P = .04, OR 2.0 (95% CI 1.0-3.9).
The use of active control groups differed across the quadrants with the highest proportion in studies categorised in Bohr's, 3/3 (100%) and Pasteur's quadrants, 49/70 (70%) and lowest in the no-use, no-theory quadrant, 10/16 (63%) and Edison's quadrant, 30/61 (49%); χ2(3) = 8.93, P = .03. Studies that used concepts and theory were more likely to use active comparison groups compared with those that did not use concepts and theory, 49/73 (67.1%) vs 39/77 (50.6%); χ2(1) = 8.46, P = .04, OR 2.0 (95% CI 1.0-3.9).

사분면에 걸친 연구 분포는 의학교육 저널임상 저널 간에 각각 유의미한 차이가 있었습니다(χ2(3) = 12.89, P = .005, 표 1). 교육 개념과 이론을 포함하는 연구의 비율은 임상 학술지와 의학교육 학술지 간에 차이가 있었습니다: 각각 45/111(40.5%) vs 28/39(71.8%); χ2(1) = 9.79, P < .001, OR = 3.92 (95% CI 1.61-9.52). 실제 교육적 또는 임상적 근거를 포함하는 연구의 비율은 임상 학술지 97/111(87.4%) 대 의학교육 학술지 34/39(87.2%); χ2(2) = 0.002, P = .99로 학술지 간 차이가 없었으며, χ2(2) = 0.002, P = .99로 나타났습니다. 
The distribution of studies across the quadrants was significantly different between medical education journals and clinical journals, respectively; χ2(3) = 12.89, P = .005, Table 1. The proportion of studies that included educational concepts and theory differed between clinical journals compared with medical education journals: 45/111 (40.5%) vs 28/39 (71.8%) respectively; χ2(1) = 9.79, P < .001, OR = 3.92 (95% CI 1.61-9.52). There were no differences between journals with regard to the proportion of studies that included a practical educational or clinical rationale; clinical journals 97/111 (87.4%) vs medical education journals 34/39 (87.2%); χ2(2) = 0.002, P = .99.

인용 횟수에 대한 저널 유형(F(1,142) = 0.03, P = .86), 이론(F(1,142) = 0.08, P = .78) 또는 실제 사용(F(1,142) = 0.09, P = .78)에 대한 유의미한 주 효과는 없었습니다(표 2). 이러한 변수 간의 상호작용도 통계적으로 유의미하지 않았습니다. 
There were no significant main effects for journal type (F(1,142) = 0.03, P = .86), theory (F(1,142) = 0.08, P = .78) or practical uses (F(1,142) = 0.09, P = .78) on number of citations (Table 2). Nor were any interactions between these variables statistically significant.

이론을 포함할 경우 CONSORT 점수가 약간 높았지만 유의미하게 높았습니다. 그러나 그 외에는 저널 유형, 이론 및 실제 사용 여부가 CONSORT, Jadad 및 MERSQI 점수에 미치는 유의미한 주효과나 상호작용은 없었습니다(표 3). 세 평가 도구의 개별 항목에 대한 카파값은 매우 다양했습니다: CONSORT κ 범위 0.12~1.00, Jadad κ 범위 0.61~0.73, MERSQI κ 범위 0.28~0.79.

  • 성과가 단순한 항목은 카파 값이 높았습니다(예: '제목에서 무작위 임상시험으로 식별' κ = 0.92).
  • 해석의 여지가 있는 항목의 경우 낮은 카파 값이 일반적이었습니다(예: '각 그룹의 중재에 대한 설명이 복제할 수 있을 만큼 충분히 상세함', κ = 0.12).

The inclusion of theory was associated with slightly but significantly higher CONSORT scores. Otherwise, however, there were no significant main effects or interactions for journal type, theory and practical uses on CONSORT, Jadad and MERSQI scores (Table 3). Kappa values from the individual items on the three assessment instruments varied widely: CONSORT κ range 0.12-1.00; Jadad κ range 0.61-0.73; MERSQI κ range 0.28-0.79.

  • Items with simple outcomes had high kappa values (eg ‘identification as randomised trial in title’ κ = 0.92).
  • Low kappa values were common for items that were open for interpretation (eg ‘description of interventions in each group with sufficient detail to allow replication’, κ = 0.12).

4 토론
4 DISCUSSION

무작위 연구 표본을 검토한 결과, 의학교육 연구의 두 가지 주요 극으로 나뉜다는 신화를 뒷받침할 만한 증거를 찾지 못했습니다. 초기 가설과는 달리, 표본으로 추출한 무작위 연구의 대부분은 파스퇴르와 에디슨의 사분면에 속했습니다. 따라서 의학교육 연구가 '상아탑 이론가'와 '현장 실무자'로 대표되는 상반된 두 극으로 구성되어 있다는 견해는 의학교육 실험 연구에 대해서는 더 이상 유지될 수 없습니다. 오히려 [이론과 교육 개념의 사용]과 관련하여 임상 학술지와 의학교육 학술지에 게재된 연구 사이에 틈새가 존재하는 것으로 보입니다. 
In reviewing a sample of randomised studies, we found no evidence to support the myth of a divide between two main poles of medical education research. Contrary to our initial hypothesis, the majority of sampled randomised studies fell into Pasteur's and Edison's Quadrants. Thus, the view that medical education research consists of two opposing poles represented by ‘ivory tower theorists’ and ‘in-the-trenches practitioners’ cannot be upheld for experimental research in medical education. Rather, it seems that if any cleft exists, it is between studies published in clinical journals and medical education journals with respect to their use of theory and educational concepts.

[임상 학술지는 대부분 비이론적 연구를 발표한다]는 가정은 의학교육 분야에서 오랫동안 널리 받아들여져 온 생각입니다.4-6, 9, 18, 33 우리의 데이터에 따르면 이 개념에 어느 정도 진실이 있는 것 같습니다. 이는 공식적인 의학교육 교육을 받지 않은 임상의 독자, 연구자 및 편집자에게 교육 이론은 접근하기 어려운 것으로 간주될 수 있다는 점을 반영할 수 있습니다.5 
The assumption that clinical journals publish largely non-theoretical research is a long-standing and widely held idea in medical education.4-6, 9, 18, 33 Based on our data, it seems that there is some truth to this notion. This may reflect that educational theory may be considered inaccessible to clinician readers, researchers and editors who have not received any formal medical education training.5

의학교육 연구가 '열악한 관계the poor relation'라는 주장은 임상 저널에서 여러 번 반복되어 왔습니다.29, 34 종종 임상 영역 내에서 개발된 보고 지침 및 방법에 대한 낮은 준수가 연구 품질이 좋지 않다는 증거로 사용되었습니다.34 본 표본의 CONSORT 성명서 준수는 의학교육 영역 내35 및 외부의 이전 보고서와 유사했습니다.36 확실히 개선의 여지가 있지만, 의학교육의 실험 연구가 임상 영역 내 연구보다 특별히 나쁘다는 징후는 보이지 않습니다. 임상과 의학교육 학술지 간에 CONSORT, Jadad 또는 MERSQI 점수에 차이가 없다는 것은 방법론 및 보고 품질이 특정 학문의 전통에 의해 독점되지 않는다는 것을 시사합니다. 오히려 이론을 포함한 연구는 활성 대조군을 사용할 가능성이 더 높았으며, 이론을 포함하지 않은 연구보다 CONSORT 점수가 약간 더 높았습니다. 따라서 이론의 포함 여부가 실험적 의학 교육 연구의 질을 나타내는 지표가 될 수 있다는 경험적 증거가 있습니다. 
The claim that medical education research is ‘the poor relation’ has been echoed in clinical journals a number of times.29, 34 Often, the low adherence to reporting guidelines and methods developed within the clinical domain has been used as evidence of poor research quality.34 Adherence to the CONSORT statement in our sample was similar to previous reports within35 and outside the domain of medical education.36 Although there is certainly room for improvement, there are no indications that experimental research in medical education is particularly worse than its counterparts within the clinical domain. Finding no differences in CONSORT, Jadad or MERSQI scores between clinical and medical education journals suggests that methodological and reporting quality is not monopolised by any specific disciplinary tradition. If anything, studies including theory were more likely to use active control groups and they received slightly higher CONSORT scores than studies failing to include theory. As such, there is some empirical evidence that the inclusion of theory may be an indicator of quality in experimental medical education research.

표본에 포함된 연구를 이론, 실습 또는 두 가지 모두의 발전을 목표로 하는지 여부에 따라 Stokes의 4사분면에 따라 분류했을 때,19 전체 연구의 약 11%가 [비-활용, 비-이론 사분면]에 속하는 것으로 나타났습니다. 이 사분면은 품질이 낮은 연구 표본을 대표할 것으로 예상했지만 평균 인용 횟수는 다른 세 사분면의 연구와 다르지 않았습니다(표 2). 스토크스는 이 사분면의 존재를 예측하면서 이 사분면이 '일반적인 설명 목적이나 응용 용도를 고려하지 않고 특정 현상을 체계적으로 탐구하는 연구'를 대표할 것이라고 추측했습니다. 스톡스에 따르면, 무사용, 무이론 사분면의 연구는 보어와 에디슨의 사분면 연구의 중요한 선구자가 될 수 있다고 합니다
When classifying the studies in our sample according to Stokes’ four quadrants in terms of whether they aim to advance theory, practice, or both,19 we found that about 11% of all studies fell into the no-use, no-theory quadrant. We expected this quadrant to represent a sample of low-quality studies but found an average citation count that was no different from studies in the other three quadrants (Table 2). Stokes predicted the existence of this quadrant and speculated that it would represent research that systematically ‘explores particular phenomena without having in view general explanatory objectives or any applied use’. According to Stokes, studies in the no-use, no-theory quadrant could be important precursors for research in Bohr's and Edison's quadrants.

이렇게 제안된 지식과 아이디어의 확산은 [탐구하는 근본 현상을 설명하는 데 도움이 되는 이론의 필요성을 강조하는 고품질 연구를 수행하는 방법]이라는 기존의 견해와 다릅니다.10, 35 그러나 지식과 아이디어가 학문적 사일로 안에 숨어 있지 않다는 증거가 늘어나고 있으며37, 아이디어의 확산이 미리 정의된 도그마를 따라야 한다고 믿을 이유가 거의 없습니다. 연구의 가치는 [실용적이냐 이론적이냐의 구별]에 있지 않을 수 있으며,19 양극단을 만들고 신화를 강화하려는 이러한 시도는 의학교육의 연구 질에 대한 논의에 역효과를 가져오는 경향이 있기 때문입니다.9 오히려 우리는 연구가 얼마나 새로운 아이디어와 지식을 분야 전체에 잘 전달하는지 고려해야 합니다.7 예를 들어 최근 데이터 과학의 발전이 제공하는 미래의 무사용, 무이론 4분면 연구는 명확한 이론적 틀이나 실용적 근거가 부족하더라도 의학교육 연구 분야에 유용한 통찰을 제공할 수 있습니다.38 

This proposed spread of knowledge and ideas differs from existing views on how to conduct high-quality research, which emphasise the need for theory to help explain the underlying phenomena being explored.10, 35 However, there is growing evidence that knowledge and ideas do not stay hidden inside disciplinary silos37 and there is little reason to believe that spread of ideas need to follow predefined dogmas. The value of research may not lie in the distinction of whether or not it has a practical or a theoretical scope,19 as such attempts to create poles and reinforce myths tend to be counter-productive to the conversation on research quality in medical education.9 Rather, we may need to consider how well studies bring forward new ideas and knowledge to the field as a whole.7 For example, future no-use, no-theory quadrant research provided by recent advances in data science may offer valuable insights to the field of medical education research despite lacking explicit theoretical frameworks or practical rationales.38

이 검토에는 몇 가지 한계가 있음을 인정합니다. 첫째, 표본은 무작위 연구로 제한되었는데, 이는 발표된 의학교육 연구의 일부에 불과하며 '상아탑'에 속한다고 비난받을 가능성이 가장 높은 연구 유형을 반영하지 못할 수 있습니다. 이 리뷰에서는 실험적 의학교육 연구의 관점에서 이론과 실제적 근거의 사용을 검토했으며, 연구 결과가 의학교육 연구의 다양한 스펙트럼을 모두 반영하지 못한다는 점을 충분히 인정합니다. 무작위 배정 연구에 초점을 맞춘 이유는 이러한 연구가 생산자를 위한 생산(Production for Producers) 극과 사용자를 위한 생산(Production for Users) 극의 연구 사이의 긴장을 대표할 가능성이 높기 때문에 의학교육의 연구 품질에 대한 기존의 통념을 면밀히 조사할 수 있기 때문이었습니다. 모든 유형의 연구 방법을 검토에 포함하지는 않았지만, 이는 더 연구할 가치가 있는 경험적 문제입니다. 
We acknowledge some limitations to this review. First, the sample was limited to randomised studies, which only represent a small corner of published medical education research and may not reflect the types of research that are most likely to be accused of belong in the ‘ivory tower’. In this review, we examined the use of theory and practical rationale from the perspective of experimental medical education research, fully acknowledging that our findings do not apply the diverse spectrum of medical education research. The rationale for focusing on randomised studies was that these studies were likely to represent tensions between research at the Production for Producers pole as well as the Production for Users pole and thereby allow us to scrutinise existing myths on research quality in medical education. Although we did not include all types of research methods in our review, this is an empirical issue that is worth studying further.

둘째, 학술지를 의학교육과 임상 학술지로 구분했는데, 이는 일부 의학교육 학술지는 다른 학술지(예: Advances in Health Sciences Education)보다 임상 적용에 더 중점을 두는 반면, 임상 학술지는 의학교육 논문을 많이 게재하는 학술지(예: Journal of General Internal Medicine)부터 그렇지 않은 전문 학술지까지 다양하기 때문에, 단순화했다고 볼 수 있습니다. 또한 인용 횟수를 저널 지표로 사용했는데, 이는 여러 가지 이유로 비판을 받을 수 있으며, 가장 중요한 것은 서로 다른 학문 분야 간에 쉽게 비교할 수 없다는 점입니다.39, 40 그럼에도 불구하고 인용 횟수는 여전히 출판사와 저자 모두에게 관심의 대상이며, 이러한 이유로 그 한계를 고려할 때 여전히 고려할 만한 가치가 있습니다. 
Second, we divided journals into medical education and clinical journals, which is a simplification as some medical education journals are clearly more focused on clinical applications (eg Journal of Surgical Education) than others (eg Advances in Health Sciences Education) whereas clinical journals may range from those publishing large number of medical education papers (eg Journal of General Internal Medicine) to specialty journals that do not. Moreover, we used citations as journal metrics, which may be criticised for a number of reasons, most importantly for not being easily comparable between different academic areas of research.39, 40 Nonetheless, citations are still a matter of interest for both publishers and authors and for these reasons they remain relevant to consider given their limitations.

마지막으로, 이 검토에 사용된 보고 및 품질 체크리스트의 일부 항목에서 평가자 간 신뢰도가 낮았습니다. 가장 낮은 카파 점수를 받은 항목은 해석의 여지가 가장 많은 항목이었으며, 이는 최근의 유사한 검토 결과와 일치합니다.35 
Finally, the inter-rater reliability was low for some items in the reporting and quality checklists used in this review. The items that received the lowest kappa scores were the ones that were most open to interpretation, which is consistent with recent similar reviews.35

5 결론
5 CONCLUSION

무작위 설계를 사용한 대규모 연구 표본에서 '상아탑 연구'와 '현장 실무'로 대표되는 의학교육 연구의 양 극단에 대한 신화를 뒷받침할 증거를 찾지 못했습니다. 임상 학술지에 실린 무작위 연구 중 이론이나 교육 개념을 사용한 연구는 절반도 되지 않아 임상 학술지의 비이론적 의학교육 연구에 관한 일반적인 가정을 확인했습니다. 잘 응용된 의학교육 연구와 이론적 의학교육 연구가 서로에게 얼마나 많은 정보를 제공하는지, 그리고 의학교육 연구를 게재하는 학술지 간의 사일로 효과를 피하는 방법을 명확히 하기 위한 노력이 필요합니다. 
We found no evidence to support the myth of a divide in medical education research between two poles represented by ‘ivory tower research’ and ‘in-the-trenches practice’ in a large sample of studies using randomised designs. We did confirm prevailing assumptions regarding non-theoretical medical education research in clinical journals as less than half of the randomised studies in these journals made any use of theory or educational concepts. Efforts are needed to clarify how well-applied and theoretical medical education research inform each other and how to avoid silo effects between scientific journals publishing medical education research.

 


Med Educ. 2021 Mar;55(3):328-335. doi: 10.1111/medu.14373. Epub 2020 Oct 19.

The myth of ivory tower versus practice-oriented research: A systematic review of randomised studies in medical education

Affiliations collapse

Affiliations

1Department of Obstetrics, Juliane Marie Centre, Copenhagen University Hospital Rigshospitalet, Copenhagen, Denmark.

2Copenhagen Academy for Medical Education and Simulation (CAMES), Rigshospitalet, Copenhagen, Denmark.

3The Wilson Centre, University Health Network, Toronto, ON, Canada.

4Department of Family & Community Medicine, University of Toronto, Toronto, ON, Canada.

5Allan Waters Family Simulation Centre, St. Michael's Hospital, Unity Health Toronto, Toronto, ON, Canada.

6Department of Medicine, University of Toronto, Toronto, ON, Canada.

7Centre for Health Science Education, Faculty of Health, Aarhus University, Aarhus C, Denmark.

PMID: 32935373

DOI: 10.1111/medu.14373

Abstract

Context: A long-standing myth in medical education research is a divide between two different poles: research aiming to advance theory with little focus on practical applications ('ivory tower' research) and practically oriented research aiming to serve educators and decision-makers with little focus on advancing theory ('in-the-trenches' practice). We explored this myth in a sample of randomised medical education studies using Stokes' four-quadrant framework for the classification of research perspective.

Methods: We searched MEDLINE, Embase, CINAHL, PsychINFO, ERIC, Web of Science and Scopus for studies in medical education using a randomised design that were published between 1 January 2018 and 31 December 2018. We used Stokes' four-quadrant framework to categorise the studies according to their use of theory, concepts and their justification for practical use. We compared medical education research published in medical education journals and clinical journals.

Results: A total of 150 randomised studies were included in the analysis. The largest segment of studies (46.7%) was categorised as use-inspired basic research (Pasteur's Quadrant), closely followed by pure applied research (40.7%, Edison's Quadrant). Only a few studies were categorised as aiming to advance knowledge with no thought for practical educational application (2.0%, Bohr's Quadrant). The proportion of studies that included educational concepts and theory differed according to publication in clinical journals or medical education journals: 40.5% vs 71.8%, respectively, P < .001. There were no differences between journals with regard to the proportion of studies that included a practical educational or clinical rationale (P = .99).

Conclusion: In a large sample of studies using randomised designs, we found no evidence to support the myth that medical education research divides between two singular poles represented by 'ivory tower research' and 'in-the-trenches practice'. We did confirm prevailing assumptions regarding an emphasis on non-theoretical medical education research in clinical journals.

질적 연구에서 주제 포화를 평가하고 보고하는 단순한 방법(PLOS ONE, 2020)
A simple method to assess and report thematic saturation in qualitative research
Greg Guest1, Emily NameyID2*, Mario Chen2

소개
Introduction

데이터 포화는 질적 표본 크기를 추정하고 평가하기 위한 개념적 척도입니다. 지난 20년 동안 학자들은 경험적 연구를 수행하고 특정 연구의 포화 상태에 도달하는 데 필요한 질적 인터뷰 수를 추정하기 위해 고안된 수학적/통계적 모델을 개발해 왔습니다. 이러한 연구는 질적 연구의 설계 단계에서 표본 크기 추정을 위한 근거 기반을 발전시켰지만, 데이터 수집 중 및/또는 수집 후에 포화와 표본 크기의 적절성을 결정하는 방법을 제공하지는 않습니다. 모스가 20여 년 전에 지적했듯이, "포화는 엄격성의 중요한 요소입니다. 이는 모든 질적 연구에 존재하지만, 안타깝게도 주로 선언을 통해 드러납니다."[1]. 이 백서에서는 질적 연구자가 단순한 선언을 넘어 포화에 대해 이야기하고 이에 대한 증거를 제시할 수 있도록 포화를 평가하고 보고하는 방법을 제시합니다. 
Data saturation is the conceptual yardstick for estimating and assessing qualitative sample sizes. During the past two decades, scholars have conducted empirical research and developed mathematical/statistical models designed to estimate the likely number of qualitative interviews needed to reach saturation for a given study. Although this body of work has advanced the evidence base for sample size estimation during the design phase of a qualitative study, it does not provide a method to determine saturation, and the adequacy of sample sizes, during and/or after data collection. As Morse pointed out more than 20 years ago, “saturation is an important component of rigor. It is present in all qualitative research but, unfortunately, it is evident mainly by declaration” [1]. In this paper we present a method to assess and report on saturation that enables qualitative researchers to speak about--and provide some evidence for--saturation that goes beyond simple declaration.

이 접근법의 토대를 제공하기 위해 포화를 정의한 다음, 포화와 심층 인터뷰를 위한 표본 크기를 추정하는 지금까지의 작업을 검토합니다. 그 다음에는 포화를 운영 및 측정하기 위해 제시된 몇 가지 경험적 기반 방법에 대한 개요를 살펴보고 이러한 접근법을 실제 연구 맥락, 특히 귀납적 주제 분석을 사용하는 연구 맥락에 적용하는 데 따르는 어려움을 파악합니다. 그 후, 우리는 포화를 평가하는 대안적인 방법을 제안하고 귀납적 주제 분석 중 또는 분석 후에 포화를 평가하고 보고하는 비교적 사용하기 쉬운 방법을 제공합니다. 우리는 뚜렷하게 다른 세 가지 정성적 데이터 세트에 대해 부트스트래핑 기법을 사용하여 우리의 방법을 테스트하고 검증합니다. 
To provide the foundation for this approach, we define saturation and then review the work to date on estimating saturation and sample sizes for in-depth interviews. We follow this with an overview of the few empirically-based methods that have been put forward to operationalize and measure saturation and identify challenges of applying these approaches to real-life research contexts, particularly those that use inductive thematic analyses. We subsequently propose an alternative way of evaluating saturation and offer a relatively easy-to-use method of assessing and reporting on it during or after an inductive thematic analysis. We test and validate our method using a bootstrapping technique on three distinctly different qualitative datasets.

우리가 제안하는 방법은 내러티브를 생성하는 것을 목표로 하는 정성적 데이터 수집 기법, 즉 귀납적 프로빙과 함께 개방형 질문을 사용하는 포커스 그룹 및 일대일 인터뷰를 위해 설계되었습니다(개별 인터뷰 데이터에 대해서만 이 방법을 검증하려고 시도했지만). 또한 귀납적 주제 분석[2-4]을 사용하여 데이터에서 새로운 주제를 발견한 다음 코드로 변환하는 상황에도 이 방법을 구체적으로 적용할 수 있습니다.
The method we propose is designed for qualitative data collection techniques that aim to generate narratives–i.e., focus groups and one-on-one interviews that use open-ended questioning with inductive probing (though we have only attempted to validate the method on individual interview data). Our method also specifically applies to contexts in which an inductive thematic analysis [24] is used, where emergent themes are discovered in the data and then transformed into codes.

포화 및 질적 표본 크기 추정의 간략한 역사
A brief history of saturation and qualitative sample size estimation

질적 인터뷰는 몇 번이면 충분할까요? 지난 50여 년 동안 학계 전반에서 이 질문에 대한 답은 대개 포화 상태에 도달하는 것을 중심으로 이루어졌습니다[1, 5-9]. 포화라는 개념은 1967년 글레이저와 스트라우스가 저서 '근거 이론의 발견'에서 '이론적 포화'라는 이름으로 질적 연구 분야에 처음 도입했습니다[10]. 그들은 이 용어를 ["[연구자가] 범주의 속성을 개발할 수 있는 추가 데이터가 발견되지 않는 시점"]으로 정의했습니다(61페이지). 이 정의는 질적 데이터를 사용하여 이론적 모델을 구축하고 테스트하는 관행을 위해 특별히 고안되었으며, [개발 중인 이론적 모델이 안정화되는 시점]을 의미합니다. 그러나 많은 질적 데이터 분석은 특정 근거 이론 방법을 사용하지 않고 보다 [일반적인 귀납적 주제 분석]을 사용합니다. 시간이 지남에 따라 '데이터 포화'라는 용어와 개념의 광범위한 적용을 반영하기 위해 더 넓은 의미의 '데이터 포화'라는 용어가 점점 더 많이 채택되고 있습니다. 이러한 넓은 의미에서 포화 상태는 종종 [데이터 수집 및 분석]에서 [새로 들어오는 데이터가 연구 질문에 대한 새로운 정보를 거의 또는 전혀 생성하지 못하는 시점]으로 설명됩니다[4, 9, 11-13].
How many qualitative interviews are enough? Across academic disciplines, and for about the past five decades, the answer to this question has usually revolved around reaching saturation [1, 59]. The concept of saturation was first introduced into the field of qualitative research as “theoretical saturation” by Glaser and Strauss in their 1967 book The Discovery of Grounded Theory [10]. They defined the term as the point at which “no additional data are being found whereby the [researcher] can develop properties of the category” (pg. 61). Their definition was specifically intended for the practice of building and testing theoretical models using qualitative data and refers to the point at which the theoretical model being developed stabilizes. Many qualitative data analyses, however, do not use the specific grounded theory method, but rather a more general inductive thematic analysis. Over time, the broader term “data saturation” has become increasingly adopted, to reflect a wider application of the term and concept. In this broader sense, saturation is often described as the point in data collection and analysis when new incoming data produces little or no new information to address the research question [4, 9, 1113].

흥미롭게도 포화 상태에 대한 경험적 연구는 포화 상태에 도달할 것으로 예상되는 시점을 결정하기 위한 노력에서 시작되었습니다. "포화 상태가 될 때까지 인터뷰"가 모범 사례로 인식되었지만, 표본 크기에 대한 충분한 설명은 아니었습니다. 대부분의 연구 맥락에서, 연구 수행 전에 자금 지원자, 윤리 위원회 및 기타 검토자가 표본 규모를 명시하고 정당성을 입증해야 합니다[14, 15]. 응용 질적 연구자들은 다음과 같은 질문에 직면했습니다: 현장에 들어가기 전에 얼마나 많은 인터뷰가 필요할지 어떻게 예측할 수 있을까요?
Interestingly, empirical research on saturation began with efforts to determine when one might expect it to be reached. Though “interviewing until saturation” was recognized as a best practice, it was not a sufficient description of sample size. In most research contexts, sample size specification and justification is required by funders, ethics committees, and other reviewers before a study is implemented [14, 15]. Applied qualitative researchers faced the question: How do I estimate how many interviews I’ll need before I head into the field?

이 문제를 해결하기 위한 경험적 연구는 2000년대 초부터 문헌에 등장하기 시작했습니다.

  • Morgan 등[16]은 환경 위험에 대해 수집된 데이터를 사용하여 선구적인 방법론 연구를 수행했습니다. 그들은 처음 5~6개의 인터뷰가 데이터 세트에서 대부분의 새로운 정보를 생성했으며, 표본 크기가 20개에 가까워질수록 새로운 정보를 거의 얻지 못한다는 사실을 발견했습니다. 4개의 데이터 세트에서 데이터 세트 내에서 확인된 모든 개념의 약 80%~92%가 처음 10번의 인터뷰에서 발견되었습니다.
  • 마찬가지로 Guest 등[9]은 서아프리카의 여성 성 노동자들을 대상으로 60건의 심층 인터뷰에 대한 단계적 귀납적 주제 분석을 수행한 결과, 114개의 식별된 주제 중 70%가 처음 6건의 인터뷰에서 나타났으며 92%가 처음 12건의 인터뷰에서 확인되었다는 사실을 발견했습니다.
  • 프란시스(Francis) 연구팀과 네이미(Namey) 연구팀[17, 18]의 후속 연구에서도 비슷한 결과가 보고되었습니다.
  • 이러한 초기 연구를 바탕으로 Hagaman과 Wutich[19]는 교차 문화 연구 내에서 포화를 계산한 결과, 4개 사이트 각각에서 데이터 포화에 도달하기 위해서는 16개 미만의 인터뷰만으로도 충분하지만, 사이트 간 교차 문화 메타 주제를 식별하려면 20~40개의 인터뷰가 필요하다는 사실을 발견했습니다.

Empirical research to address this issue began appearing in the literature in the early 2000s.

  • Morgan et al. [16] conducted a pioneer methodological study using data collected on environmental risks. They found that the first five to six interviews produced the majority of new information in the dataset, and that little new information was gained as the sample size approached 20 interviews. Across four datasets, approximately 80% to 92% of all concepts identified within the dataset were noted within the first 10 interviews.
  • Similarly, Guest et al. [9] conducted a stepwise inductive thematic analysis of 60 in-depth interviews among female sex workers in West Africa and discovered that 70% of all 114 identified themes turned up in the first six interviews, and 92% were identified within the first 12 interviews.
  • Subsequent studies by Francis et al. and Namey et al. [1718] reported similar findings.
  • Building on these earlier studies, Hagaman and Wutich [19] calculated saturation within a cross-cultural study and found that fewer than 16 interviews were enough to reach data saturation at each of the four sites but that 20–40 interviews were necessary to identify cross-cultural meta-themes across sites.

 

Galvin[20]은 메타 분석적 접근 방식을 사용하여 이항 논리를 사용하여 54개의 질적 연구를 검토하고 통계적으로 분석했습니다. 그는 6명의 개인 표본에서 특정 개념(주제)을 식별할 확률이 더 큰 연구 집단의 55%에서 해당 개념을 공유할 경우 99%보다 높다는 것을 발견했습니다.

  • 이와 동일한 논리를 사용하여 Fugard와 Potts[21]는 정성적 데이터의 주제별 분석에 필요한 표본 크기를 추정하는 [정량적 도구]를 개발했습니다. 이 계산에는 (1) 모집단 내에서 주제의 예상 유병률, (2) 해당 주제의 원하는 인스턴스 수, (3) 연구에 필요한 검정력 등이 포함됩니다. 예를 들어, 이 도구는 모집단에서 유병률이 10%인 테마의 인스턴스 2개를 감지할 수 있는 80%의 힘을 가지려면 29명의 참가자가 필요하다고 추정합니다. 이 모델은 무작위 표본을 가정한다는 점에 유의하세요.

Using a meta-analytic approach, Galvin [20] reviewed and statistically analyzed—using binomial logic—54 qualitative studies. He found the probability of identifying a concept (theme) among a sample of six individuals is greater than 99% if that concept is shared among 55% of the larger study population.

  • Employing this same logic, Fugard and Potts [21] developed a quantitative tool to estimate sample sizes needed for thematic analyses of qualitative data. Their calculation incorporates: (1) the estimated prevalence of a theme within the population, (2) the number of desired instances of that theme, and (3) the desired power for a study. Their tool estimates, for example, that to have 80% power to detect two instances of a theme with a 10% prevalence in a population, 29 participants would be required. Note that their model assumes a random sample.

위의 연구는 정성적 표본 크기 추정 분야의 기초가 되는 연구입니다. 이 연구들은 특정 연구에 필요한 정성적 인터뷰의 수를 추정하기 위한 경험적 기반 지침을 제공하며, 정량적 연구 설계의 검정력 계산과 유사한 역할을 합니다(물론 수학이나 정밀도가 떨어지는 경우도 있지만). 그리고 파워 계산과 마찬가지로, 데이터 수집이 시작되면 이 추정치도 논란의 여지가 있습니다. 추정치는 특정 연구의 다양한 요소에 관한 (지정된) 가정과 기대치를 기반으로 합니다. 모든 연구자가 알다시피, 현실은 종종 놀라움을 선사합니다. 연구에 특정 매개변수(정량적)가 적용되거나 경험적 지침에 따라 표본 크기가 정해져 있을 수 있지만(정성적), 데이터 수집이 완료된 후에는 결과 데이터가 어느 쪽에도 부합하지 않을 수 있습니다.
The above studies are foundational in the field of qualitative sample size estimation. They provide empirically-based guidance for approximating how many qualitative interviews might be needed for a given study and serve a role analogous to power calculations in quantitative research design (albeit in some case without the math and degree of precision). And, like power calculations, they are moot once data collection begins. Estimates are based on (specified) assumptions, and expectations regarding various elements in a particular study. As all researchers know, reality often presents surprises. Though a study may be powered to certain parameters (quantitative) or have a sample size based on empirical guidance (qualitative), after data collection is completed the resulting data may not conform to either.

당연히 연구자들은 최근 데이터 포화에 대해 추정을 넘어서는 두 가지 후속 질문을 하기 시작했습니다:

  • 포화 개념을 더 잘 조작화하려면 어떻게 해야 할까요? 그리고
  • 포화에 도달했는지 어떻게 알 수 있을까요?

Not surprisingly, researchers have recently begun asking two follow up questions about data saturation that go beyond estimation: 

  • How can we better operationalize the concept of saturation? and 
  • How do we know if we have reached saturation?

포화 조작화 및 평가
Operationalizing and assessing saturation

정성적 연구에서 포화에 대한 경험적 연구의 범위와 포화를 다루는 데이터 기반 연구에서 사용되는 운영 및 평가 메트릭에 대한 자세한 내용은 표 1에 요약되어 있습니다. 포화 평가에 대한 접근 방식의 개발을 위해 이러한 연구들을 검토하면서, 포화 평가 프로세스의 광범위한 적용에 대한 세 가지 한계를 확인했으며, 이를 극복하고자 했습니다.

  • 메트릭의 비교 가능성 부족,
  • 확률 이론 또는 무작위 샘플링에 대한 의존,
  • 완전히 코딩/분석된 데이터 세트에 의존하는 후향적 평가의 한계

대안적인 접근 방식을 소개하기 전에 각 한계에 대해 간략히 설명합니다.
The range of empirical work on saturation in qualitative research and detail on the operationalization and assessment metrics used in data-driven studies that address saturation are summarized in Table 1. In reviewing these studies to inform the development of our approach to assessing saturation, we identified three limitations to the broad application of saturation assessment processes which we sought to overcome:

  • lack of comparability of metrics,
  • reliance on probability theory or random sampling, and
  • retrospective assessment dependent on having a fully coded/analyzed dataset.

We discuss each limitation briefly before introducing our alternative approach.

 

메트릭의 비교 가능성 부족.
Lack of comparability in metrics.

현재 포화에 대한 조작화 방식은 [포화에 도달했는지 여부를 이분법적으로 판단]하는 데 사용되는 [기준이 매우 다양]합니다(예: Francis 외. [17] 및 Coenen 외. [22]). 분석 단위와 포화 임계값의 엄격성 측면에서 접근 방식이 얼마나 다른지 고려할 때, 포화 상태에 도달했는지 여부에 대한 결론에 대해 어느 정도의 확신을 가져야 하는지 이해하기는 어렵습니다. 통계적 분석 방법을 사용하는 정량적 연구자가 신뢰 구간 수준과 보고할 기타 지표에 대한 옵션을 설정한 것과 달리, [정성적 연구자]가 [포화 결과의 강도를 해석하는 데 도움이 되는 합의된 지표]가 없습니다. 우리가 제안하는 방법은 정성적 연구자가 다양한 수준의 평가 기준 중에서 선택할 수 있도록 하며, 이러한 기준에 대한 공통된 설명과 함께 사용된 기준의 엄격성에 따라 독자가 포화에 관한 결론을 어느 정도 자신 있게 해석할 수 있도록 합니다.
Current operationalizations of saturation vary widely in the criteria used to arrive at a binary determination of saturation having been reached or not reached (e.g., Francis et al. [17] and Coenen et al. [22]). Given how different approaches are–in terms of units of analysis and strictness of saturation thresholds–it is difficult to understand how much confidence to have in a conclusion about whether saturation was reached or not. Unlike quantitative researchers using statistical analysis methods who have established options for levels of confidence intervals and other metrics to report, there are no agreed-upon metrics to help qualitative researchers interpret the strength of their saturation findings. The method we propose facilitates qualitative researchers’ choice among levels of assessment criteria along with a common description of those criteria that will allow readers to interpret conclusions regarding saturation with more or less confidence, depending on the strictness of the criteria used.

확률 이론 및/또는 무작위 표본 가정에 의존합니다.
Reliance on probability theory, and/or the assumption of a random sample.

포화 평가를 [확률론적 가정](예: Lowe 등 [26], Fugard & Potts [21], Galvin [20])에 근거하는 것은 대부분의 질적 연구가 질적 조사의 성격과 목적에 적합한 [비확률적이고 의도적인 표본 추출을 사용한다는 사실]을 무시하는 것입니다[28]. 무작위 표본 추출을 사용하는 경우에도 질적 조사의 개방형 특성은 응답 범주가 구조화되어 있지 않고 상호 배타적이지 않기 때문에 대규모 모집단에 대한 확률 이론이나 통계적 추론에 적합하지 않습니다. 주제 A의 표현이 반드시 주제 B를 배제하는 것은 아니며, 주제 A의 표현이 없다고 해서 반드시 Not-A를 의미하는 것도 아닙니다. 또한, 로지스틱스 관점에서 볼 때, 많은 질적 연구자들은 데이터 세트에 대해 복잡한 통계적 테스트를 수행할 전문 지식이나 시간이 없습니다. 우리의 접근 방식은 단순한 산술과 백분율 계산만 포함합니다.
Basing assessments of saturation on probabilistic assumptions (e.g., Lowe et al. [26], Fugard & Potts [21], Galvin [20]) ignores the fact that most qualitative research employs non-probabilistic, purposive sampling suited to the nature and objectives of qualitative inquiry [28]. Even in cases where random sampling is employed, the open-ended nature of qualitative inquiry doesn’t lend itself well to probability theory or statistical inference to a larger population because response categories are not structured, so are not mutually exclusive. The expression of Theme A is not necessarily to the exclusion of Theme B, nor does the absence of the expression of Theme A necessarily indicate Not-A. Further, from a logistical standpoint, many qualitative researchers do not have the expertise, nor the time required, to perform complicated statistical tests on their datasets. Our approach involves only simple arithmetic and calculation of percentages.

후향적 평가는 완전히 코딩/분석된 데이터 세트가 있어야 합니다.
Retrospective assessment dependent on having a fully coded/analyzed dataset.

데이터 세트의 [전체 테마 수] 대비 [새로운 테마]의 비율을 기준으로 포화를 계산하는 방법(예: Guest 외. [9], Hennink 외. [23])은 수행된 총 인터뷰 수에 의해 제한됩니다. [분모]는 완전히 분석된 데이터 세트의 총 테마 수를 나타내며 고정되어 있는 반면 [분자의 테마 수]는 새로운 인터뷰를 고려할 때마다 분모에 가까워져 결국 100% 포화에 도달하게 됩니다. 후향적으로 평가되고 완전히 분석된 고정된 크기의 데이터 세트에서는 [필연적으로 포화 상태가 발생]합니다. 우리가 설명하는 방법은 전체 데이터 세트 대신 분모에 데이터 항목의 하위 집합을 사용함으로써 이 문제를 해결하여 포화를 보다 전향적으로 평가하고 연구자가 미리 지정한 인터뷰 횟수에 도달하기 전에 중단할 수 있는 이점을 제공합니다. (그러나 이 접근 방식에서는 저자들이 정의한 포화 비율을 측정할 수 없습니다.) 
Methods that calculate saturation based on the proportion of new themes relative to the overall number of themes in a dataset (e.g., Guest et al. [9], Hennink et al. [23]) are limited by the total number of interviews conducted: the denominator represents the total number of themes in the fully-analyzed dataset and is fixed, while the number of themes in the numerator gets closer to the denominator with every new interview considered, thus eventually reaching 100% saturation. Saturation will inevitably occur in a retrospectively-assessed, fully-analyzed, fixed-size dataset. The method we outline eliminates this problem by using a subset of data items in the denominator instead of the entire dataset, facilitating better prospective assessment of saturation and offering the advantage of allowing researchers to stop before reaching a pre-specified number of interviews. (Under our approach, however, a measure of percent saturation as defined by these authors will not be available.)

방법
Methods

포화 계산 및 보고에 대한 대안적 접근 방식 및 방법
An alternative approach and method to calculating and reporting saturation

평가의 목적상, [포화]는 데이터 분석 중 들어오는 데이터 포인트(인터뷰)가 연구 목표와 관련하여 새롭고 유용한 정보를 거의 또는 전혀 생성하지 않는 시점을 의미합니다. 이러한 포화의 정의를 운영하기 위한 우리의 접근 방식은 [기본 크기, 실행 길이, 들어오는 새로운 정보의 상대적 양 또는 새로운 정보 임계값]이라는 [세 가지 요소]로 구성됩니다.
For the purposes of our assessment, saturation refers to the point during data analysis at which incoming data points (interviews) produce little or no new useful information relative to the study objectives. Our approach to operationalizing this definition of saturation consists of three distinct elements–

  • the base size,
  • the run length, and
  • the relative amount of incoming new information, or the new information threshold.

 

기본 크기.
Base size.

포화를 평가할 때 [들어오는 정보]는 [이미 획득한 정보]와 비교하여 가중치를 부여합니다. [기본 크기]는 나중에 [분모]로 사용할 데이터 집합에서 이미 식별된 정보 본문을 어떻게 둘러싸는지를 나타냅니다(Francis 등의 초기 분석 샘플과 유사). 다시 말해, 이미 확보한 정보의 양을 계산하기 위해 검토/분석해야 하는 최소 데이터 수집 이벤트(예: 인터뷰)의 수는 얼마인가? 모든 데이터 수집 이벤트를 기본 크기로 사용하면 더 이상 고려할 데이터가 없기 때문에 기본적으로 포화 상태에 도달할 수 있다는 것을 알고 있습니다. 또한 이전 연구[9, 16, 29]에 따르면 정성적 데이터 세트에서 대부분의 새로운 정보는 프로세스 초기에 생성되며, 일반적으로 점근 곡선을 따르고, 소수의 데이터 수집/분석 이벤트 이후에는 새로운 정보가 상대적으로 급격히 감소한다는 사실도 알고 있습니다. 이러한 이유로 [포화 비율의 분모에 사용할 총 고유 테마 수]를 계산하기 위한 기본 크기로 4, 5, 6개의 인터뷰를 테스트하기로 선택했습니다. 기준 크기의 분석 단위는 데이터 수집 이벤트이며, 분석 항목은 테마를 나타내는 고유 코드입니다.
When assessing saturation, incoming information is weighed against the information already obtained. Base size refers to how we circumscribe the body of information already identified in a dataset to subsequently use as a denominator (similar to Francis et al.’s initial analysis sample). In other words, what is the minimum number of data collection events (i.e., interviews) we should review/analyze to calculate the amount of information already gained? We know that if we use all of the data collection events as our base size, we can reach saturation by default as there are no more data to consider. We also know from previous studies [9, 16, 29] that most novel information in a qualitative dataset is generated early in the process, and generally follows an asymptotic curve, with a relatively sharp decline in new information occurring after just a small number of data collection/analysis events. For this reason, we have chosen to test 4, 5, and 6 interviews as base sizes from which to calculate the total number of unique themes to be used in the denominator of the saturation ratio. The unit of analysis for base size is the data collection event; the items of analysis are unique codes representing themes.

실행 길이.
Run length.

[실행run]은 [연속적인 이벤트 또는 관찰(이 경우 인터뷰)의 집합]으로 정의할 수 있습니다. [실행 길이]는 [새로운 정보를 찾고 계산하는 인터뷰 횟수]입니다. 실행에서 발견된 [새로운 테마의 수]는 [포화 비율]의 [분자]를 정의합니다. 예를 들어, Hagaman과 Wutich(2017)와 Francis 등(2010)은 분자에 대한 새로운 테마의 수를 (재)평가할 때마다 3개의 데이터 수집 이벤트의 실행을 고려하는 반면, Coenen 등(2012)은 데이터 실행에 2개의 이벤트만 포함시킵니다. 저희 분석에서는 연구자에게 더 많은 유연성을 제공하기 위해 두 개의 이벤트와 세 개의 이벤트 등 두 가지 실행 길이 옵션을 계산에 제공합니다. 분석에서 연속적인 실행은 겹치는데, 각 인터뷰 세트는 하나의 이벤트에 의해 시간이 오른쪽으로 또는 "앞으로" 이동합니다. 그림 1은 이 프로세스와 기본 크기 및 실행 길이가 서로 어떻게 연관되는지 보여줍니다. 여기서도 분석 단위는 데이터 수집 이벤트이며, 분석 항목은 고유 코드입니다.
A run can be defined as a set of consecutive events or observations, in this case interviews. The run length is the number of interviews within which we look for, and calculate, new information. The number of new themes found in the run defines the numerator in the saturation ratio. Hagaman and Wutich (2017) and Francis et al. (2010), for example, consider runs of three data collection events each time they (re)assess the number of new themes for the numerator, whereas Coenen et al. (2012) include only two events in their data runs. For our analyses we provide both options for run lengths in our calculations–two events and three events–to afford researchers more flexibility. Note that in our analyses, successive runs overlap: each set of interviews shifts to the right or “forward” in time by one event. Fig 1 shows the process, and how base size and run length relate to one another. Here again the unit of analysis is the data collection event; the items of analysis are unique codes.

 

새로운 정보 임계값.
New information threshold.

[분자]와 [분모]에 대한 분석 단위가 결정되면 [비례 계산]은 간단합니다. 하지만 다음 질문은 순전히 주관적인 질문입니다: 어느 정도의 새로운 정보 부족을 포화 상태의 지표로 받아들여야 할까요? 규범적인 기준이 아니라 연구자에게 선택권을 제공하는 것이 더 현실적이고 투명하며 정확한 방법이라고 생각합니다. 따라서 데이터 수집의 특정 시점에 포화 상태에 도달했다는 증거로 받아들일 수 있는 새로운 정보의 비율을 나타내는 두 가지 수준의 새로운 정보, 즉 ≤5% 새로운 정보새로운 정보 없음(0%)을 우선 제안합니다.
Once units of analysis for the numerator and denominator are determined the proportional calculation is simple. But the next question is a purely subjective one: What level of paucity of new information should we accept as indicative of saturation? We propose that furnishing researchers with options—rather than a prescriptive threshold—is a more realistic, transparent and accurate practice. We therefore propose initially two levels of new information that represent the proportion of new information we would accept as evidence that saturation has been reached at a given point in data collection:

  • ≤5% new information and
  • no (0%) new information.

이러한 새로운 정보 임계값은 통계 분석에서 귀무가설을 거부하기에 충분한 증거가 존재하는지 여부를 판단하기 위해 0.05 또는 0.01 미만의 p값을 사용하는 것과 유사한 벤치마크로 사용할 수 있습니다. 통계 분석에서와 마찬가지로, 확률 이론이 없으므로 이러한 임계값을 충족할 때 실제로 포화 상태에 도달한다는 보장은 없습니다. 그러나 이 임계값은 다른 연구자들이 나중에 해석할 수 있는 [데이터 포화 평가를 투명하게 제시하는 방법]을 제공합니다. 새로운 정보 임계값이 낮을수록 임계값에 도달했을 때 데이터 수집이 중단될 경우 이후 인터뷰에서 중요한 주제가 발견되지 않을 가능성이 줄어듭니다. 기본 크기, 실행 길이, 새로운 정보 임계값의 개념을 종합하면 연구자는 포화 개념을 [얼마나 엄격하게 적용할지], 그리고 주어진 샘플에 대해 [데이터 포화에 도달했다고 확신할 수 있는 수준]을 선택할 수 있습니다(그림 2).
These new information thresholds can be used as benchmarks similar to how a p-value of <0.05 or <0.01 is used to determine whether enough evidence exists to reject a null hypothesis in statistical analysis. As in statistical analysis—but absent the probability theory—there is no guarantee that saturation is in fact reached when meeting these thresholds. But they do provide a transparent way of presenting data saturation assessments that can be subsequently interpreted by other researchers. The lower the new information threshold, the less likely an important number of themes may remain undiscovered in later interviews if data collection stops when the threshold is reached. Taken together, the concepts of base size, run length, and new information threshold allow researchers to choose how stringently they wish to apply the saturation concept–and the level of confidence they might have that data saturation was attained for a given sample (Fig 2).

우리가 제안하는 방법의 장점은 여러 가지가 있습니다:
The advantages of the method we propose are several:

  • 무작위 샘플을 가정하거나 필요하지 않으며, 주제의 빈도에 대한 사전 지식이 필요하지 않습니다.
  • 계산이 간단합니다. 통계적 전문 지식이 없어도 빠르게 계산할 수 있습니다.
  • 메트릭은 데이터 수집 및 분석 프로세스 중에 전향적으로 사용하여 포화 상태에 도달하는 시점을 확인할 수 있습니다(계획보다 적은 수의 데이터 수집 이벤트를 수행할 가능성도 제공).
  • 메트릭은 데이터 수집 및 분석이 완료된 후 소급하여 주제별 포화에 도달하기 위한 샘플의 적절성에 대해 보고하는 데 사용할 수 있습니다.
  • 각 메트릭에 대한 옵션은 분석 전에 지정하거나 데이터 분석 후에 보고할 수 있습니다.
  • 메트릭은 유연합니다. 연구자는 채도를 설명하는 방법에 대한 옵션을 선택할 수 있으며, 보다 투명하고 정확하게 용어를 사용할 수도 있습니다.
  • 포화는 상대적인 측정값으로 개념화됩니다. 이 방법은 분자와 분모 모두에 영향을 미치기 때문에 연구자 간의 코딩 세부 수준 차이를 중화합니다.
  • It does not assume or require a random sample, nor prior knowledge of theme prevalence.
  • Calculation is simple. It can be done quickly and with no statistical expertise.
  • Metrics can be used prospectively during the data collection and analysis process to ascertain when saturation is reached (and providing the possibility of conducting fewer data collection events than planned).
  • Metrics can be used retrospectively, after data collection and analysis are complete, to report on the adequacy of the sample to reach thematic saturation.
  • Options for each metric can be specified prior to analysis or reported after data analysis.
  • The metrics are flexible. Researchers have options for how they describe saturation and can also use the term with more transparency and precision.
  • Saturation is conceptualized as a relative measure. This neutralizes differences in the level of coding granularity among researchers, as the method affects both numerator and denominator.

 

접근 방식의 적용
Application of the approach

예상 데이터 포화 계산의 예입니다.
An example of prospective data saturation calculation.

접근 방식을 설명하기 위해 가상의 데이터 세트를 사용하여 이 프로세스가 어떻게 작동하는지에 대한 단계별 예를 살펴봅시다. 기본 인터뷰 크기 4개, 실행 길이 2개를 사용하여 포화를 전향적으로 계산해 보겠습니다. 이 예에서는 적절한 포화에 도달했음을 나타내기 위해 ≤5%의 새로운 정보 임계값을 선택했습니다. 각 단계에 사용된 데이터는 [그림 3]에 기본, 실행 및 포화 지점 표시와 함께 포함되어 있습니다.
Let’s consider a step-by-step example of how this process works, using a hypothetical dataset to illustrate the approach. We will prospectively calculate saturation using a base size of 4 interviews and run length of 2 interviews. For this example, we have selected a new information threshold of 5% to indicate that we have reached adequate saturation. [The data used for each step are included in Fig 3, along with indication of the base, runs, and saturation points.]

 

1단계 - 베이스가 될 고유 테마의 수를 찾습니다.
STEP 1 –Find the number of unique themes for base.


먼저 처음 4개의 인터뷰를 살펴보고 [이 그룹 내에서 식별된 고유 테마의 수]를 합산합니다. 결과 합계인 37이 방정식의 분모가 됩니다.
We start by looking at the first four interviews conducted and summing the number of unique themes identified within this group. The resulting sum, 37, is the denominator in our equation.

2단계-첫 번째 실행에 대한 고유 테마의 수를 찾습니다.
STEP 2—Find the number of unique themes for the first run.

이 예에서는 [실행 길이]를 2로 사용하므로 기본 세트 이후의 [다음 두 인터뷰(즉, 인터뷰 5와 6)에 대한 데이터]를 포함합니다. 이러한 인터뷰를 검토한 후 인터뷰 5에서 4개의 새로운 테마를, 인터뷰 6에서 3개의 새로운 테마를 확인했다고 가정합니다. 이 첫 번째 실행에서 새로운 테마의 수는 7개입니다.
In this example, we’re using a run length of two, so include data for the next two interviews after the base set–i.e., interviews 5 and 6. After reviewing those interviews, let’s say we identified four new themes in interview 5 and three new themes in interview 6. The number of new themes in this first run is seven.

3단계 - 포화 비율을 계산합니다.
STEP 3 –Calculate the saturation ratio.

이 실행의 새 테마 수(7개)를 기본 세트의 고유 테마 수(37개)로 나눕니다. 이 비율은 19%의 새로운 정보를 나타냅니다. 이는 ≤5% 임계값에 미치지 않으므로 계속 진행합니다.
Divide the number of new themes in this run (seven) by the number of unique themes in the base set (37). The quotient reveals 19% new information. This is not below our ≤5% threshold, so we continue.

4단계 - 시리즈의 다음 실행을 위한 새로운 고유 테마의 수를 찾습니다.
STEP 4 –Find the number of new unique themes for the next run in the series.

다음 실행에서는 다음 두 인터뷰인 6번과 7번의 새 테마를 추가하여(인터뷰 6번과 겹침에 유의) 총 4개의 테마를 만듭니다.
For the next run we add the new themes for the next two interviews, 6 and 7 (note the overlap of interview 6), resulting in a sum of four.

5단계-채도 비율 업데이트.
STEP 5—Update saturation ratio.

최신 실행의 새 테마 수(4개)를 기본 세트의 테마 수(37개)로 나눕니다. 이렇게 하면 11%의 지수가 렌더링되지만 여전히 ≤5% 임계값에 미치지 못합니다. 다음 실행을 계속합니다.
Take the number of new themes in the latest run (four) and divide by the number of themes in the base set (37). This renders a quotient of 11%, still not below our ≤5% threshold. We continue to the next run.

6단계 - 시리즈의 다음 실행을 위한 새로운 고유 테마의 수를 찾습니다.
STEP 6 –Find the number of new unique themes for the next run in the series.

이번 세 번째 실행에서는 인터뷰 7과 8에서 확인된 새로운 테마의 수를 추가합니다.
For this third run we add the number of new themes identified within interviews 7 and 8.

 

7단계 - 채도 비율을 업데이트합니다.
STEP 7—Update saturation ratio.

최신 실행의 새 테마 수(1개)를 기본 세트의 테마 수(37개)로 나눕니다.
Take the number of new themes in the latest run (one) divided by the number of themes in the base set (37).


이 시점에서 마지막 실행으로 [추가된 새로운 정보의 비율]이 우리가 설정한 [≤5% 임계값]보다 낮으므로 8번째 인터뷰 후 여기서 멈추고 주관적인 지표인 ≤5%에 따라 포화 상태에 도달했다고 말할 수 있는 수준으로 새로운 정보의 양이 감소하고 있다는 것을 알 수 있습니다. 마지막 두 번의 인터뷰는 수집된 정보에 크게 추가되지 않았으므로 [6번째 인터뷰]에 포화 상태에 도달했다고 말할 수 있습니다(다음 두 번의 인터뷰는 각각 얼마나 많은 새로운 정보가 생성되는지, 그리고 이것이 설정된 임계값 아래로 떨어질지 확인하기 위해 완료되었습니다). 인터뷰 번호에 위첨자 "+2"를 추가하여 총 8개의 인터뷰가 완료되었음을 표시함으로써 이 두 개의 추가 인터뷰(실행 길이를 나타냄)에 주석을 달 것입니다. 포화 평가를 작성할 때 기본 크기 4를 사용하면 6+2번의 인터뷰를 통해 ≤5%의 새로운 정보 임계값에 도달했다고 말할 수 있습니다. 
At this point the proportion of new information added by the last run is below the ≤5% threshold we established, so we stop here after the 8th interview and have a good sense that the amount of new information is diminishing to a level where we could say saturation has been reached based on our subjective metric of ≤5%. Since the last two interviews did not add substantially to the body of information collected, we would say that saturation was reached at interview 6 (each of the next two interviews were completed to see how much new information would be generated and whether this would fall below the set threshold). We would annotate these two extra interviews (indicative of run length) by appending a superscript “+2” to the interview number, to indicate a total of eight interviews were completed. In writing up our saturation assessment then, we would say that using a base size 4 we reached the ≤5% new information threshold at 6+2 interviews.

이 예에서 포화 상태에 도달했다는 결론에 좀 더 보수적이고 확신을 갖고 싶다면 평가의 두 가지 매개 변수를 조정할 수 있습니다. 실행 기간을 3회(또는 그보다 더 많은 횟수)로 늘리거나, 새로운 정보 임계값을 '새로운 정보 없음'으로 더 엄격하게 설정할 수 있습니다. 여기서 사용된 가상의 데이터 세트(그림 3 참조)를 고려하고 실행 길이를 2로 유지했다면 인터뷰 10+2에서 0%의 새로운 정보 임계값에 도달했을 것입니다. 
If we wanted to be more conservative, and confident in our conclusion of reaching saturation in this example, we could adjust two parameters of our assessment. We could increase the run length to 3 (or an even larger number), and/or we could set a more stringent new information threshold of no new information. If we consider the hypothetical data set used here (see Fig 3) and kept the run length of 2, the 0% new information threshold would have been reached at interview 10+2.

위의 예제 프로세스를 검토한 후에도 여전히 두 가지 논리적 질문을 제기할 수 있습니다. 첫 번째는 "포화 상태가 표시될 때 샘플을 n으로 제한함으로써 중요한 정보를 놓치고 있지 않다는 것을 어떻게 알 수 있는가?"입니다. 다시 말해, 예를 들어 인터뷰를 5번 더 진행했다면 더 중요한 데이터를 추가로 얻을 수 있었을까요? 이에 대한 정직한 대답은 5번의 추가 인터뷰와 그 이후에도 5번의 추가 인터뷰를 실시하지 않는 한 알 수 없다는 것입니다. 그렇기 때문에 인터뷰 질문, 표본 특성 및 기타 연구 매개변수를 비교적 일관되게 유지한다고 가정할 때 시간이 지남에 따라 새로운 정보가 등장하는 속도가 감소하고 가장 일반적이고 두드러진 주제가 조기에 생성된다는 경험적 연구에 의존하고 있습니다. 추가 인터뷰 실시가 포화에 어떤 영향을 미쳤는지 더 자세히 설명하기 위해 그림 3에 20개의 인터뷰를 포함시켰습니다. 인터뷰 12에 이어 진행된 인터뷰에서는 4개의 주제가 추가되었지만 새로운 정보 임계치 ≤5% 이하에 머물렀습니다. 
One may still raise two logical questions after reviewing the example process above. The first is “How do we know that we’re not missing important information by capping our sample at n when saturation is indicated?” Put another way, if we had conducted, say, five more interviews would we have gotten additional and important data? The honest answer to this is that we don’t know, and we can never know unless we conduct those five extra interviews, and then five more after that and so on. That is where we rely on the empirical research that shows the rate at which new information emerges decreases over time and that the most common and salient themes are generated early, assuming that we keep the interview questions, sample characteristics, and other study parameters relatively consistent. To further illustrate how saturation may have been affected by doing additional interviews, we include 20 interviews in Fig 3. The interviews following Interview 12, though yielding four additional themes, remained at or below the ≤5% new information threshold.

두 번째 질문은 첫 번째 질문과 어느 정도 관련이 있으며 가능한 [순서 효과]와 관련이 있습니다. 20개의 인터뷰로 구성된 데이터 집합에서 10번부터 20번까지의 인터뷰가 먼저 수행된 경우 테마 식별 패턴이 동일하게 보일까요? 데이터 수집 과정의 후반부에 새로운 주제가 나타날 수 있을까요? 프로세스/데이터셋의 후반부에 중요한 테마가 나타날 수도 있지만, 위에서 언급한 경험적 연구에 따르면 가장 널리 퍼진 상위 테마는 데이터 수집 초기에 약 6번의 인터뷰 내에서 식별되는 것으로 나타났습니다. 하지만 이를 더욱 확인하기 위해 세 가지 실제 데이터 세트에 [부트스트랩 기법]을 사용하여 이러한 초기 연구의 결과를 확증하고 제안된 메트릭의 분포 특성을 평가했습니다. 이러한 부트스트랩 결과는 새로운 인터뷰에서 새로운 주제가 발견될 때, 그리고 인터뷰 샘플의 다른 복제본에서 무작위로 인터뷰 순서를 정할 때 다양한 중단 지점에서 어떻게 포화에 도달할 수 있는지에 대한 정보를 제공합니다.
The second question is to a degree related to the first question and pertains to possible order effects. Would the theme identification pattern in a dataset of 20 interviews look the same if interviews #10 through #20 were conducted first? Could new themes start emerging later in the data collection process? Though it is possible an important theme will emerge later in the process/dataset, the empirical studies referenced above demonstrate that the most prevalent, high-level, themes are identified very early on in data collection, within about six interviews. But, to further check this, we use a bootstrapping technique on three actual datasets to corroborate findings from these earlier studies and to assess the distributional properties of our proposed metrics. These bootstrap findings give us information on how saturation may be reached at different stopping points as new themes are discovered in new interviews and when the interviews are ordered randomly in different replications of the sample of interviews.

샘플 데이터 세트.
Sample datasets.

부트스트래핑 방법을 적용한 기존의 정성적 데이터 세트 세 개를 선택했습니다. 이 데이터셋은 모두 귀납적 주제 분석 접근법을 사용하여 분석한 개별 인터뷰로부터 생성되었지만, 아래에 설명된 바와 같이 연구 모집단, 질문 주제, 표본 이질성, 인터뷰어, 데이터 수집 도구의 구조가 서로 달랐습니다.
We selected three existing qualitative datasets to which we applied the bootstrapping method. Although the datasets were all generated from individual interviews analyzed using an inductive thematic analysis approach, the studies from which they were drawn differed with respect to study population, topics of inquiry, sample heterogeneity, interviewer, and structure of data collection instrument, as described below.

데이터 세트 1. 이 연구에서는 미국 남동부 지역의 아프리카계 미국인 남성을 대상으로 건강 추구 행동에 대해 40건의 개별 인터뷰를 실시했습니다[29]. 인터뷰 가이드에는 13개의 주요 질문과 각 질문마다 스크립트로 작성된 하위 질문이 포함되어 있었습니다. 모든 인터뷰에는 귀납적 프로빙이 사용되었습니다. 귀납적 주제 분석에는 13개 질문 중 11개가 포함되었으며 93개의 고유 코드가 생성되었습니다. 연구 샘플은 매우 동질적이었습니다.
Dataset 1. This study included 40 individual interviews with African American men in the Southeast US about their health seeking behaviors [29]. The interview guide contained 13 main questions, each with scripted sub-questions. Inductive probing was employed throughout all interviews. The inductive thematic analysis included 11 of the 13 questions and generated 93 unique codes. The study sample was highly homogenous.
데이터 세트 2. 두 번째 데이터 세트는 임신 중 의학적 위험과 연구에 대해 미국 남동부의 (대부분 백인) 산모와 실시한 48건의 개별 인터뷰로 구성됩니다[30]. 인터뷰 가이드에는 13개의 주요 질문과 각 질문마다 스크립트로 작성된 하위 질문이 포함되어 있습니다. 모든 인터뷰에는 귀납적 프로빙이 사용되었습니다. 48건의 인터뷰는 대면, 화상(Skype와 유사한 플랫폼), 이메일(비동기), 문자 채팅(동기) 등 다양한 데이터 수집 모드를 사용하여 각각 12건씩 진행되었습니다. 정성적 주제 분석에는 이 중 10개의 질문이 포함되었으며 85개의 고유 코드가 생성되었습니다.
Dataset 2. The second dataset consists of 48 individual interviews conducted with (mostly white) mothers in the Southeast US about medical risk and research during pregnancy [30]. The interview guide contained 13 main questions, each with scripted sub-questions. Inductive probing was employed throughout all interviews. Of note, the 48 interviews were conducted, 12 each, using different modes of data collection: in-person, by video (Skype-like platform), email (asynchronous), or text chat (synchronous). The qualitative thematic analysis included 10 of these questions and generated 85 unique codes.
데이터 세트 3. 이 연구에는 HIV 감염 고위험군 여성 60명(케냐 30명, 남아공 30명)과의 인터뷰가 포함되었습니다[31]. 인터뷰는 정량적 설문조사에 대한 여성들의 응답에 대한 후속 정성적 조사였습니다. 가이드에는 14개의 질문이 있었지만, 여기서는 세 가지 질문의 데이터만 주제별 분석에 포함했습니다. 이 세 가지 질문에서 55개의 코드가 생성되었습니다. 두 사이트의 참가자는 학력과 결혼 여부를 제외하고는 인구통계학적으로 비슷했습니다. 케냐 표본에서는 기혼 여성과 배우자와 함께 사는 여성이 훨씬 더 많았으며(63% 대 3%), 중등 교육 이상을 이수한 비율은 더 낮았습니다. 모든 인터뷰는 현지 언어로 진행되었습니다.
Dataset 3. This study included 60 interviews with women at higher risk of HIV acquisition—30 participants in Kenya and 30 in South Africa [31]. The interview was a follow-up qualitative inquiry into women’s responses on a quantitative survey. Though there were 14 questions on the guide, only data from three questions were included in the thematic analysis referenced here. Those three questions generated 55 codes. Participants from the two sites were similar demographically with the exceptions of education and marital status. Substantially more women from the Kenya sample were married and living with their partners (63% versus 3%) and were less likely to have completed at least some secondary education. All interviews were conducted in a local language.

세 연구의 데이터는 모두 전사 프로토콜[32]을 사용하여 디지털로 기록 및 전사되었으며, 데이터세트 3의 경우 전사본이 영어로 번역되었습니다. 코딩 및 분석을 용이하게 하기 위해 트랜스크립트를 NVivo[33]로 가져왔습니다. 세 데이터세트 모두 체계적인 귀납적 주제 접근법[2]을 사용하여 분석했으며, 모든 코드는 표준 템플릿[34]에 따라 코드북에 명시적으로 정의되었습니다. 데이터세트 1과 2의 경우, 두 명의 분석가가 각 트랜스크립트를 독립적으로 코딩하고 각 트랜스크립트마다 코드 적용을 비교했습니다. 코드 적용의 불일치는 토론을 통해 해결되어 합의에 따라 코딩된 문서가 만들어졌습니다. 데이터세트 3의 경우, 두 명의 코더가 인터뷰의 20%에 대해 이러한 유형의 코더 간 신뢰도 평가를 실시했습니다(모든 인터뷰를 이중 코딩하는 것보다 표준적이고 효율적인 접근 방식입니다[2]). 데이터셋 3을 생성한 연구는 케냐와 남아프리카의 현지 IRB에서도 검토 및 승인을 받았으며, 세 연구 모두 FHI 360 인간 대상자 보호 위원회의 검토 및 승인을 받았습니다.
Data from all three studies were digitally recorded and transcribed using a transcription protocol [32]; transcripts were translated to English for Dataset 3. Transcripts were imported into NVivo [33] to facilitate coding and analysis. All three datasets were analyzed using a systematic inductive thematic approach [2], and all codes were explicitly defined in a codebook following a standard template [34]. For Datasets 1 & 2, two analysts coded each transcript independently and compared code application after each transcript. Discrepancies in code application were resolved through discussion, resulting in consensus-coded documents. For Dataset 3, two coders conducted this type of inter-coder reliability assessment on 20% of the interviews (a standard, more efficient approach than double-coding all interviews [2]). All three studies were reviewed and approved by the FHI 360 Protection of Human Subjects Committee; the study which produced Dataset 3 was also reviewed and approved by local IRBs in Kenya and South Africa.

 

부트스트래핑 방법.
Bootstrapping method.

이 세 가지 연구는 다양하고 분석적으로 엄격한 사례 연구를 제공하지만, 일반화 가능성은 제한적입니다. 모집단 수준의 통계에 근사치를 구하고 검증 범위를 넓히기 위해 위에서 설명한 각 데이터 세트에서 경험적 부트스트랩 샘플을 추출했습니다. 부트스트랩 방법은 표본 내의 변동성을 사용하여 지표(이 경우 포화 지표)의 샘플링 분포를 경험적으로 추정하는 리샘플링 기법입니다[35]. 이는 원래의 샘플링 체계를 모방하는 방식으로 표본에서 무작위로 교체(즉, 한 항목이 리샘플링에서 두 번 이상 선택될 수 있음)를 통해 여러 번 리샘플링하는 방식으로 수행됩니다. 각 정성적 데이터 세트에 대해 원본 샘플에서 10,000개의 [리샘플을 생성]했습니다. 또한 각 리샘플에서 선택한 [녹취록의 순서를 무작위로 지정]하여 새로운 코드가 발견되는 방법과 시기에 대한 순서 효과를 상쇄했습니다. 각 리샘플에 대해 4, 5 또는 6개의 인터뷰로 구성된 기본 크기 대비 2 또는 3개의 새로운 이벤트 실행 길이에서 발견된 새로운 테마의 비율을 계산했습니다. 그런 다음 ≤5% 또는 0%의 새로운 정보 임계값을 충족하는 데 필요한 트랜스크립트 수를 파악했습니다. 10,000개의 리샘플에서 얻은 이러한 임계값을 기반으로 각 데이터 세트에 대해 다양한 기본 크기와 실행 길이에 걸쳐 각각의 새로운 정보 임계값에 도달하는 데 필요한 인터뷰 수에 대한 중앙값과 5번째 및 95번째 백분위수를 계산했습니다. 5번째 및 95번째 백분위수는 이러한 새로운 정보 임계값에 정의된 포화 상태에 도달하는 데 필요한 트랜스크립트 수에 대한 비모수적 90% 신뢰 구간을 제공합니다.
While these three studies offer diverse and analytically rigorous case studies, they provide limited generalizability. To approximate population-level statistics and broaden our validation exercise, we drew empirical bootstrap samples from each of the datasets described above. The bootstrap method is a resampling technique that uses the variability within a sample to estimate the sampling distribution of metrics (in this case saturation metrics) empirically [35]. This is done by randomly resampling from the sample with replacement (i.e., an item may be selected more than once in a resample) many times in a way that mimics the original sampling scheme. For each qualitative dataset, we generated 10,000 resamples from the original sample. In addition, we randomly ordered the selected transcripts in each resample to offset any order effect on how/when new codes are discovered. For each resample, we calculated the proportion of new themes found in run lengths of two or three new events relative to a base size of four, five or six interviews. We then identified the number of transcripts needed to meet a new information threshold of ≤5% or 0%. Based on these thresholds from 10,000 resamples, for each dataset we computed the median and the 5th and 95th percentiles for number of interviews required to reach each new information threshold across different base sizes and run lengths. The 5th and 95th percentiles provide a nonparametric 90% confidence interval for the number of transcripts needed to reach saturation as defined at these new information thresholds.

각 데이터 세트에서 식별된 총 코드 수를 사용할 수 있었기 때문에 전체 데이터 세트에서 소급하여 평가한 포화와 관련된 새로운 정보 임계값에 도달하는 데 필요한 인터뷰의 중간값을 이해하기 위한 또 다른 메트릭을 제공하기 위해 한 가지 추가 계산을 수행했습니다. 이 경우, 데이터 세트의 각 실행에 대해 새로운 정보 임계값에 도달하기 위한 인터뷰 횟수가 결정되면, 그 시점까지 식별된 고유 테마의 수를 총 고유 테마의 수로 나눴습니다. 이를 통해 데이터의 각 실행에 대한 포화의 백분율 또는 정도를 제공한 다음, 도달한 포화에 대한 중앙값과 5번째 및 95번째 백분위수를 생성하는 데 사용했습니다. 그런 다음 이를 기본 크기, 실행 길이 및 새로운 정보 임계값에 걸쳐 비교할 수 있습니다. [이 과정은 제안된 프로세스의 일부가 아니라 포화 계산을 위해 제안된 접근 방식을 이해하고 검증하기 위한 추가 방법으로 포함되었습니다.] 

Since we had available the total number of codes identified in each dataset, we carried out one additional calculation as a way to provide another metric to understand how the median number of interviews to reach a new information threshold related to retrospectively-assessed degrees of saturation with the entire dataset. In this case, once the number of interviews to reach a new information threshold was determined for each run of a dataset, we divided the number of unique themes identified up to that point by the total number of unique themes. This provided a percent–or degree–of saturation for each run of the data, which was then used to generate a median and 5th and 95th percentile for the degree of saturation reached. This can then be compared across base sizes, run lengths, and new information thresholds. [Note that we include this as a further way to understand and validate the proposed approach for calculating saturation, rather than as part of the proposed process.]

결과
Results

부트스트래핑 분석의 결과는 표 2, 3, 4에 데이터 세트별로 제시되어 있습니다. 각 표에는 새로운 정보 임계값이 5% 이하이고 새로운 정보가 없을 때 기준이 4, 5 또는 6이고 실행 길이가 2 및 3인 부트스트랩 분포의 중앙값과 백분위수가 표시됩니다.
The results from the bootstrapping analyses are presented by dataset, in Tables 2, 3 and 4. Each table presents median and percentiles of the bootstrap distribution using bases of 4, 5 or 6 and run lengths of 2 and 3, at new information thresholds of ≤5% and no new information.

위의 예에서 설명한 것처럼, [실행 길이]의 인터뷰 수는 주어진 새 정보 임계값에 도달하기 위한 인터뷰 수에 포함되지 않으므로 [임계값에 도달했는지 평가하는 데 필요한 총 이벤트 수]는 선택한 실행 길이에 따라 주어진 중앙값보다 두세 개 더 많은 이벤트 수입니다. 이는 위첨자 +2 또는 +3으로 표시됩니다.
Note that, as described in the example above, the number of interviews in the run length is not included in the number of interviews to reach the given new information threshold, so the total number of events needed to assess having reached the threshold is two or three more interviews than the given median, depending on the run length of choice. This is indicated by a superscript +2 or +3.

데이터세트 1(표 2)의 경우, 신규 정보 ≤5% 임계값에서 신규 정보 감소에 도달하는 데 필요한 인터뷰 횟수의 중앙값은 모든 기본 규모에 걸쳐 일정했습니다. 인터뷰 실행 길이가 2회인 경우, 새로운 정보의 감소가 관찰되기까지 필요한 인터뷰 횟수의 중앙값은 6회였습니다. 즉, 처음 4, 5, 6번의 인터뷰에서 식별된 총 고유 코드 수에 비해 7번과 8번 인터뷰에서 기여한 새로운 정보의 양은 전체의 5% 미만이었습니다. 인터뷰가 3번 진행되었을 때, 새로운 정보가 감소하기까지 필요한 인터뷰 횟수의 중앙값은 7번이었습니다. 즉, 처음 4, 5, 6번의 인터뷰에서 식별된 총 고유 코드 수에 비해 8, 9, 10번의 인터뷰가 기여한 새로운 정보의 양은 전체의 5% 미만이었습니다. 기본 크기에서 실행 길이가 2인 경우 포화는 6+2로 나타났고, 실행 길이가 3인 경우 포화는 7+3으로 관찰되었으며, 둘 다 신규 정보 ≤5% 수준에서 관찰되었다고 말할 수 있습니다. 데이터 세트의 총 주제 수를 소급하여 사용했을 때, 6~7개의 인터뷰에 걸쳐 나타난 주제 수는 78%~82%의 포화 중간값에 해당했습니다.
For Dataset 1 (Table 2), at the ≤5% new information threshold, the median number of interviews needed to reach a drop-off in new information was consistent across all base sizes. At a run length of two interviews, the median number of interviews required before a drop in new information was observed was six. This means that relative to the total number of unique codes identified in the first four, five, or six interviews, the amount of new information contributed by interviews 7 and 8 was less than or equal to 5% of the total. At a run length of three interviews, the median number of interviews required before a drop in new information was observed was seven. This means that relative to the total number of unique codes identified in the first four, five, or six interviews, the amount of new information contributed by interviews 8, 9, and 10 was less than or equal to 5% of the total. Across base sizes, for a run length of two, we would say that saturation was indicated at 6+2, while for a run length of three we would say saturation was observed at 7+3, both at the ≤5% new information level. Using the total number of themes in the dataset retrospectively, the number of themes evident across 6–7 interviews corresponded with a median degree of saturation of 78% to 82%.

새로운 정보 임계값 0%에서 포화를 나타내는 인터뷰 수 중앙값은 실행 기간에 따라 달라졌을 뿐, 기반 규모에 관계없이 다시 일관되게 나타났습니다. 필요한 인터뷰 수의 중앙값은 11+2개와 14+3개였습니다. 즉, 실행 길이 2에서는 11번의 인터뷰와 새로운 정보가 제공되지 않음을 확인하는 데 2번의 인터뷰가 더 필요했습니다. 실행 길이 3에서는 14번의 인터뷰와 새로운 정보가 없음을 확인하는 데 3번의 인터뷰가 더 필요했습니다. 11~14개의 인터뷰를 통해 드러난 주제의 수는 포화의 중간값인 87%~89%에 해당했습니다.
At the 0% new information threshold, the median number of interviews to indicate saturation were again consistent across bases sizes, varying only by the run length. The median number of interviews required were 11+2 and 14+3. In other words, at run length 2, it took 11 interviews, plus two more to confirm that no new information was contributed. At run length 3 it was 14 interviews plus three more to confirm no new information. The number of themes evident across 11–14 interviews corresponded with a median degree of saturation of 87% to 89%.

데이터셋 2의 결과는 데이터셋 1과 거의 동일했습니다(표 3). 실행 길이가 2(6+2)인 인터뷰는 6개, 실행 길이가 3(7+3 또는 8+3)인 인터뷰는 7~8개에서 포화가 나타났습니다. 6~8개의 인터뷰에 걸쳐 나타난 테마의 수는 포화의 중간값인 79%~82%에 해당했습니다. 0%의 새로운 정보 임계값에서 포화는 데이터세트 1에서와 동일한 지점인 11+2와 14+3에서 나타났으며, 모든 기본 크기에 걸쳐 일관되게 나타났습니다. 즉, 실행 길이 2를 사용한 11번의 인터뷰 중앙값 이후에는 새로운 정보가 관찰되지 않았고, 실행 길이 3을 사용한 14번의 인터뷰 이후에도 새로운 정보가 관찰되지 않았습니다. 여기에서도 전체 데이터 세트의 총 테마 수는 다르지만, 11~14번의 인터뷰에서 나타난 새로운 테마의 수는 포화의 중앙값이 87%~89%에 해당했습니다.
The results for Dataset 2 were nearly identical to Dataset 1 (Table 3). Saturation was indicated at 6 interviews at a run length of 2 (6+2) and 7–8 interviews at run length 3 (7+3 or 8+3). The number of themes evident across 6–8 interviews corresponded with a median degree of saturation of 79% to 82%. At the 0% new information threshold saturation was indicated at the same points as in Dataset 1: 11+2 and 14+3, consistent across all base sizes. In other words, no new information was observed after a median of 11 interviews using a run-length of 2, nor after 14 interviews using a run length of 3. Here again, despite a different total number of themes in the overall dataset, the number of new themes evident across 11–14 interviews corresponded with a median degree of saturation of 87% to 89%.

데이터셋 3(표 4)은 다른 데이터셋에 비해 샘플에 더 많은 변동이 있었으며, 이는 인터뷰 수 중앙값이 약간 더 높고 포화가 더 낮게 반영되었습니다. 새 정보 임계값 ≤5%에서 실행 길이 2에서 포화 상태에 도달하는 데 필요한 인터뷰 수 중앙값은 8~9개였습니다(기본 크기 4의 경우 더 높음). 실행 길이가 3인 경우 필요한 인터뷰 수 중앙값은 11~12개였습니다(기본 크기 4의 경우 이보다 높았습니다). 8~12개의 인터뷰를 통해 드러난 새로운 주제의 수는 포화의 중앙값이 62%~71%에 해당했습니다. 새로운 정보가 0%인 임계값에서는 포화가 12+2와 16+3으로 나타났으며, 기본 크기 전반에서 일관되게 나타났습니다. 12~16개의 인터뷰에 걸쳐 나타난 새로운 주제의 수는 포화의 중앙값이 69%~76%에 해당했습니다.
Dataset 3 (Table 4) contained more variation in the sample than the others, which was reflected in a slightly higher median number of interviews and a lower degree of saturation. At the ≤5% new information threshold, the median number of interviews required to reach saturation at a run length of 2 was 8–9 (higher for base size 4). At a run length of 3, the median number of required interviews was 11–12 (again higher for base size 4). The number of new themes evident across 8–12 interviews corresponded with a median degree of saturation of 62% to 71%. At the 0% new information threshold, saturation was indicated at 12+2 and 16+3, consistent across base sizes. The number of new themes evident across 12–16 interviews corresponded with a median degree of saturation of 69% to 76%.

토론
Discussion

이 백서에서는 질적 인터뷰의 귀납적 분석에서 주제별 포화를 평가하는 방법을 제시합니다. 이 방법이 심층 인터뷰 맥락에서 포화를 개념화, 평가 및 보고하는 다른 방법과 관련된 많은 한계를 극복하는 방법을 설명합니다. 이 프로세스는 데이터 수집 및 분석 과정에서 전향적으로 적용하거나 데이터 수집 및 분석이 완료된 후 후향적으로 적용할 수 있습니다. 이 방법의 가장 큰 장점은 메트릭이 유연하여 연구자가 다양한 실행 기간 및/또는 새로운 정보 임계값을 선택하여 다양한 수준의 엄격함을 선택할 수 있다는 것입니다. 마찬가지로, 이 방법을 사용하면 포화를 설명하고 보고할 때 다양한 옵션을 사용할 수 있으며 명확성과 투명성이 향상됩니다.
In this paper we present a way of assessing thematic saturation in inductive analysis of qualitative interviews. We describe how this method circumvents many of the limitations associated with other ways of conceptualizing, assessing and reporting on saturation within an in-depth interview context. The process can be applied either prospectively during the data collection and analysis process or retrospectively, after data collection and analysis are complete. A key advantage is that the metrics are flexible, affording researchers the ability to choose different degrees of rigor by selecting different run lengths and/or new information thresholds. Similarly, the method allows for different options–and greater clarity and transparency–in describing and reporting on saturation.

부트스트래핑 분석을 기반으로 몇 가지 결론을 도출할 수 있습니다. 첫 번째는 결과가 이전의 경험적 연구를 바탕으로 예상했던 범위 내에 있다는 것입니다. 5% 이하의 새로운 정보 임계값을 사용한 결과, 일반적으로 6~7개의 인터뷰로 균질한 표본에서 대부분의 주제를 포착할 수 있습니다(6개의 인터뷰로 80%의 포화에 도달). 또한 분석 결과, 이 옵션의 상위 범위(95번째 백분위수)에서는 11~12개의 인터뷰가 필요할 수 있으며, 기존 문헌에 따르면 일반적으로 더 높은 포화에 도달하기 위해서는 12개의 인터뷰가 필요하다고 합니다.
Based on the bootstrapping analyses we can draw several conclusions. The first is that the results are within the range of what we would have expected based on previous empirical studies. Using the ≤5% new information threshold, our findings indicate that typically 6–7 interviews will capture the majority of themes in a homogenous sample (6 interviews to reach 80% saturation). Our analyses also show that at the higher end of the range for this option (95th%ile) 11–12 interviews might be needed, tracking with existing literature indicating 12 interviews are typically needed to reach higher degrees of saturation.

또한 이 프로세스의 적용에 도움이 되는 다른 교훈을 얻을 수도 있습니다:
We can also draw other lessons to inform application of this process:

  • [기본 규모]는 결과에 거의 영향을 미치지 않는 것으로 보입니다. 이는 효율성 측면에서 중요한 사항입니다. 이번 연구 결과가 다른 상황에서도 유효하다면, 기본 인터뷰 규모를 4회로 설정하는 것으로 충분하다는 것을 시사합니다. 실질적으로 이는 6번의 인터뷰(기본 4번, 실행 2번) 후에 포화를 평가해야 한다는 것을 의미합니다. 실시간으로 데이터를 분석하는 경우, 이 초기 평가 결과에 따라 추가 인터뷰가 필요한지 여부를 결정할 수 있습니다.
  • Base size appears to have almost no effect on the outcome. This is important from an efficiency perspective. If our findings hold true in other contexts, it suggests that using a default base size of four interviews is sufficient. In practical terms, this implies that saturation should initially be assessed after six interviews (four in the base, and two in the run). If analyzing data in real time, the results of this initial assessment can then determine whether or not more interviews are needed.
  • 예상대로 [실행 시간]은 결과에 영향을 미칩니다. 실행 길이가 길수록 포화 상태에 도달하기 위해 더 많은 수의 인터뷰가 필요합니다. [실행 길이]가 미치는 효과의 크기는 새 정보 임계값 ≤5%를 사용하는 경우 가장 작거나 매우 미미합니다. 이 발견의 실질적인 의미는 연구자가 더 [긴 실행 길이(예: 3회 이상의 인터뷰)]를 선택하여 포화에 대한 보다 [보수적인 평가를 생성]할 수 있다는 것입니다.
  • Run length has an effect on the outcome, as one would expect. The longer the run length, the greater number of interviews required to reach saturation. The size of run length effect is smallest–very minimal–if employing the ≤5% new information threshold. The practical implication of this finding is that researchers can choose a longer run length–e.g., three interviews (or more)–to generate a more conservative assessment of saturation.
  • [선택한 새로운 정보 임계값]은 예상대로 포화가 표시되는 지점에 영향을 미칩니다. 새로운 정보 임계값이 낮을수록, 즉 새로운 정보를 인식하는 데 더 보수적으로 허용할수록 포화 상태에 도달하기 위해 더 많은 인터뷰가 필요합니다. 응용적인 관점에서 볼 때, 이 결과는 연구자가 원하는 경우 [더 엄격한 새로운 정보 임계값(예: 0%)을 선택]하면 포화를 [더 보수적으로 평가]할 수 있다는 확신을 가질 수 있다는 점에서 중요한 의미를 갖습니다.
  • The new information threshold selected affects the point at which saturation is indicated, as one would expect. The lower the new information threshold–and therefore the more conservative the allowance for recognizing new information–the more interviews are needed to achieve saturation. From an applied standpoint this finding is important in that researchers can feel confident that choosing a more stringent new information threshold–e.g., 0%—will result in a more conservative assessment of saturation, if so desired.

물론 이 접근 방식에는 여전히 한계가 있습니다. 이 접근법은 [귀납적 주제 분석](특정 실제 이슈나 문제에 대한 비교적 좁은 질문에 답하기 위한 연구)을 염두에 두고 개발되었으며, 부트스트래핑 분석에 사용된 데이터 세트는 이 프레임워크 내에서 생성 및 분석되었습니다. 다른 인식론적 또는 현상학적 관점을 가진 질적 연구에 이 접근법을 적용할 수 있는지는 아직 검증되지 않았습니다. 이 방법의 또 다른 잠재적 한계는 [코드북 구조]와 관련이 있습니다. 귀납적 주제 분석을 수행할 때 연구자는 적절한 코드북 구성 체계를 결정해야 합니다(포화와 관련된 논의는 Hennink 외. [23]을 참조하세요). 저희는 [단일 계층 코드북]을 대상으로 이 방법을 테스트했지만, 질적 연구자들은 [계층적 코드북]을 만드는 경우가 많습니다. 기본("상위") 코드와 구성 보조("하위") 코드가 있는 2계층 구조가 일반적인 형태이지만, 연구자는 더 높은 수준의 메타 주제를 식별하고 찾고자 할 수도 있습니다(예: Hagaman과 Wutich [19]). 우리를 포함한 모든 포화 평가 방법의 경우, 연구자는 어느 수준에서 주제/코드를 식별하고 포함할지 결정해야 합니다. 귀납적 주제 분석의 경우, 이는 특정 분석 목표에 필요한 코딩의 세분성 정도와 연구팀이 연구 결과를 보고할 때 포화를 어떻게 논의할 것인지에 따라 달라지는 주관적인 결정입니다. 즉, 연구자는 이 접근 방식을 사용하여 서로 다른 수준의 코딩 세분성을 포함하는 두 개 이상의 코드북에 대한 포화 분석을 실행하고 보고할 수 있습니다. 
There are, of course, still limitations to this approach. It was developed with applied inductive thematic analyses in mind–those for which the research is designed to answer a relatively narrow question about a specific real-world issue or problem–and the datasets used in the bootstrapping analyses were generated and analyzed within this framework. The applicability of this approach for qualitative research with a different epistemological or phenomenological perspective is yet untested. Another potential limitation of this method relates to codebook structure. When conducting an inductive thematic analysis, researchers must decide on an appropriate codebook organizational scheme (see Hennink et al. [23] for discussion on this as it relates to saturation). We tested our method on single-tier codebooks, but qualitative researchers often create hierarchical codebooks. A two-tier structure with primary (“parent”) codes and constituent secondary (“child”) codes is a common form, but researchers may also want to identify and look for higher-level, meta-themes (e.g., Hagaman and Wutich [19]). For any method of assessing saturation, including ours, researchers need to decide at which level they will identify and include themes/codes. For inductive thematic analyses this is a subjective decision that depends on the degree of coding granularity necessary for a particular analytic objective, and how the research team wants to discuss saturation when reporting study findings. That said, a researcher could, with this approach, run and report on saturation analyses of two or more codebooks that contain differing levels of coding granularity.

결론
Conclusion

Tran과 동료들[24]은 "연구자는 자신이 발견한 것에 대한 정보만 가지고 있기 때문에"(17페이지) 포화점을 결정하는 것이 어려운 일이라고 정확하게 지적합니다. 그들은 또한 귀납적 연구의 중단점은 일반적으로 "연구자의 판단과 경험"에 의해 결정된다고 주장합니다. 우리는 이러한 주장을 인정하고 동의합니다.
Tran and colleagues [24] accurately point out that determining the point of saturation is a difficult endeavor, because “researchers have information on only what they have found” (pg. 17). They further argue that the stopping point for an inductive study is typically determined by the “judgement and experience of researchers”. We acknowledge and agree with these assertions.

엄격성, 정확성, 신뢰도의 수준을 선택하고 해석하는 것은 주관적인 작업입니다. 예를 들어, 정량적 연구자가 충분히 큰 효과 크기 또는 충분히 작은 p-값으로 받아들이는 것은 [주관적인 판단]이며 특정 연구 분야의 관습에 근거한 것입니다. 연구자가 통계 결과를 보고하고 해석하는 방법도 마찬가지입니다. P값은 절대값(예: p = .043) 또는 일반적으로 사용되는 몇 가지 증분값(예: p < .05, p < .01 등)으로 표현할 수 있습니다. 마찬가지로, 1.2의 승산비는 통계적으로 유의미할 수 있지만 실제 의미에서 유의미한지 여부는 전적으로 해석의 여지가 있습니다.
Selecting and interpreting levels of rigor, precision, and confidence is a subjective enterprise. What a quantitative researcher accepts, for example, as a large enough effect size or a small enough p-value is a subjective determination and based on convention in a particular field of study. The same can be said for how a researcher chooses to report and interpret statistical findings. P-values can be expressed either in absolute terms (e.g., p = .043) or in several commonly used increments (e.g., p < .05, p < .01, etc.). Likewise, while an odds ratio of 1.2 may be statistically significant, whether or not it’s meaningful in a real-world sense is entirely open to interpretation.

우리는 주제별 포도를 평가하고 보고할 때 이와 유사한 유연성과 투명성을 추구하고 있습니다. 연구자들에게 데이터 수집 중 또는 수집 후에 포화를 쉽게 계산할 수 있는 방법을 제공했습니다. 또한 이 방법을 통해 연구자는 자신의 해석과 결론이 주제별 포화에 도달한 데이터 세트에 근거한 것이라는 확신을 얼마나 갖고 싶은지에 따라 프로세스의 구성 요소인 기본 크기, 실행 길이, 새로운 정보 임계값의 수준을 다르게 선택할 수 있습니다. 연구자들이 이 방법을 유용하게 활용하고, 다른 연구자들이 다양한 연구 집단과 맥락에서 추출한 다양한 유형의 데이터세트에 대해 이 방법을 실증적으로 테스트하여 우리의 연구를 발전시켜 나가기를 바랍니다.
We are advocating for similar flexibility and transparency in assessing and reporting on thematic saturation. We have provided researchers with a method to easily calculate saturation during or after data collection. This method also enables researchers to select different levels of the constituent elements in the process–i.e., Base Size, Run Length and New Information Threshold–based on how confident they wish to be that their interpretations and conclusions are based on a dataset that reached thematic saturation. We hope researchers find this method useful, and that others build on our work by empirically testing the method on different types of datasets drawn from diverse study populations and contexts.


PLoS One. 2020 May 5;15(5):e0232076. doi: 10.1371/journal.pone.0232076. eCollection 2020.

A simple method to assess and report thematic saturation in qualitative research

Affiliations collapse

Affiliations

1Q42 Research, Research Triangle Park, North Carolina, United States of America.

2Global Health, Population, and Nutrition, FHI 360, Durham, North Carolina, United States of America.

PMID: 32369511

PMCID: PMC7200005

DOI: 10.1371/journal.pone.0232076

Abstract

Data saturation is the most commonly employed concept for estimating sample sizes in qualitative research. Over the past 20 years, scholars using both empirical research and mathematical/statistical models have made significant contributions to the question: How many qualitative interviews are enough? This body of work has advanced the evidence base for sample size estimation in qualitative inquiry during the design phase of a study, prior to data collection, but it does not provide qualitative researchers with a simple and reliable way to determine the adequacy of sample sizes during and/or after data collection. Using the principle of saturation as a foundation, we describe and validate a simple-to-apply method for assessing and reporting on saturation in the context of inductive thematic analyses. Following a review of the empirical research on data saturation and sample size estimation in qualitative research, we propose an alternative way to evaluate saturation that overcomes the shortcomings and challenges associated with existing methods identified in our review. Our approach includes three primary elements in its calculation and assessment: Base Size, Run Length, and New Information Threshold. We additionally propose a more flexible approach to reporting saturation. To validate our method, we use a bootstrapping technique on three existing thematically coded qualitative datasets generated from in-depth interviews. Results from this analysis indicate the method we propose to assess and report on saturation is feasible and congruent with findings from earlier studies.

인터뷰 기반 연구에서 표본 크기 충분성의 특성화 및 정당화: 15년간 질적 건강연구의 체계적 문헌고찰(BMC Med Res Methodol. 2018)
Characterising and justifying sample size sufficiency in interview-based studies: systematic analysis of qualitative health research over a 15-year period
Konstantina Vasileiou1* , Julie Barnett1, Susan Thorpe2 and Terry Young3

 

 

배경
Background

질적 조사에서 [표본의 적절성]은 [표본 구성 및 크기의 적절성]과 관련이 있습니다. 이는 많은 질적 연구의 품질과 신뢰성을 평가할 때 중요한 고려 사항이며[1], 특히 [후기 실증주의 전통]에 속하고 [실재론적 존재론적 전제]를 어느 정도 고수하는 연구의 경우 타당성과 일반화 가능성을 평가할 때 중요한 의미를 갖습니다[2,3,4,5]. 
Sample adequacy in qualitative inquiry pertains to the appropriateness of the sample composition and size. It is an important consideration in evaluations of the quality and trustworthiness of much qualitative research [1] and is implicated – particularly for research that is situated within a post-positivist tradition and retains a degree of commitment to realist ontological premises – in appraisals of validity and generalizability [2,3,4,5].

[질적 연구의 표본]은 이 탐구 방식의 기본인 사례 중심 분석의 깊이를 뒷받침하기 위해 작은 경향이 있습니다[5]. 또한 질적 표본은 목적적 표본, 즉 조사 대상 현상과 관련된 풍부한 질감의 정보를 제공할 수 있는 능력에 따라 선택됩니다. 결과적으로 정량적 연구에 사용되는 [확률적 표본 추출]과 달리 [의도적 표본 추출][6, 7]은 '정보가 풍부한' 사례를 선택합니다[8]. 실제로 최근 연구에 따르면 질적 연구에서 무작위 샘플링에 비해 [의도적 샘플링의 효율성이 더 높다]는 사실이 입증되어[9], 질적 방법론가들이 오랫동안 주장해온 관련 주장을 뒷받침하고 있습니다.
Samples in qualitative research tend to be small in order to support the depth of case-oriented analysis that is fundamental to this mode of inquiry [5]. Additionally, qualitative samples are purposive, that is, selected by virtue of their capacity to provide richly-textured information, relevant to the phenomenon under investigation. As a result, purposive sampling [6, 7] – as opposed to probability sampling employed in quantitative research – selects ‘information-rich’ cases [8]. Indeed, recent research demonstrates the greater efficiency of purposive sampling compared to random sampling in qualitative studies [9], supporting related assertions long put forward by qualitative methodologists.

질적 연구에서의 표본 크기는 지속적인 논의의 주제였습니다[4, 10, 11]. 정량적 연구 커뮤니티는 표본 크기를 정확하게 설정하기 위해 비교적 간단한 [통계 기반 규칙]을 확립한 반면, 질적 연구의 표본 크기 결정 및 평가의 복잡성은 질적 연구의 특징인 [방법론적, 이론적, 인식론적, 이념적 다원주의]에서 비롯됩니다(심리학 분야에 초점을 맞춘 논의는 [12]를 참조하세요). 이는 항상 적용되는 명확한 지침에 반하는 것입니다. 이러한 어려움에도 불구하고 다양한 개념적 발전이 이 문제를 해결하기 위해 지침과 원칙을 제시하고 있으며[4, 10, 11, 13,14,15,16,17,18,19,20], 최근에는 표본 크기 결정에 대한 증거 기반 접근 방식이 경험적으로 논의를 뒷받침하려고 합니다[21,22,23,24,25,26,27,28,29,30,31,32,33,34,35].
Sample size in qualitative research has been the subject of enduring discussions [4, 10, 11]. Whilst the quantitative research community has established relatively straightforward statistics-based rules to set sample sizes precisely, the intricacies of qualitative sample size determination and assessment arise from the methodological, theoretical, epistemological, and ideological pluralism that characterises qualitative inquiry (for a discussion focused on the discipline of psychology see [12]). This mitigates against clear-cut guidelines, invariably applied. Despite these challenges, various conceptual developments have sought to address this issue, with guidance and principles [4, 10, 11, 13,14,15,16,17,18,19,20], and more recently, an evidence-based approach to sample size determination seeks to ground the discussion empirically [21,22,23,24,25,26,27,28,29,30,31,32,33,34,35].

본 연구는 참여자별 단일 인터뷰 질적 설계에 초점을 맞추어, 표본 크기와 관련된 정당화 관행에 대한 실증적 증거를 제공함으로써 질적 연구에서 표본 크기의 논의에 더욱 기여하고자 합니다. 다음으로 표본 크기 결정에 관한 기존의 개념적 및 실증적 문헌을 검토합니다. 
Focusing on single-interview-per-participant qualitative designs, the present study aims to further contribute to the dialogue of sample size in qualitative research by offering empirical evidence around justification practices associated with sample size. We next review the existing conceptual and empirical literature on sample size determination.

질적 연구에서의 표본 크기: 개념적 발전과 실증적 조사
Sample size in qualitative research: Conceptual developments and empirical investigations

질적 연구 전문가들은 '몇 명'이라는 질문에 대한 정답은 없으며, 표본 크기는 인식론적, 방법론적, 실제적 문제와 관련된 여러 요인에 따라 달라진다고 주장합니다[36]. 

  • 샌델로우스키[4]는 질적 표본의 크기는 연구 대상 현상에 대한 '새롭고 풍부한 질감의 이해'를 펼칠 수 있을 만큼 [충분히 크되]질적 데이터의 '심층적인 사례 중심 분석'(183쪽)이 배제되지 않도록 [충분히 작을 것]을 권장합니다
  • 모스[11]는 각 사람으로부터 더 많은 사용 가능한 데이터를 수집할수록 더 적은 수의 참가자가 필요하다고 가정합니다. 그녀는 연구자가 연구 범위, 주제의 특성(예: 복잡성, 접근성), 데이터의 품질, 연구 설계와 같은 [매개변수를 고려]할 것을 권유합니다. 

실제로 질적 면접에서 [질문의 구조 수준]은 생성되는 [데이터의 풍부함에 영향]을 미치는 것으로 밝혀졌기 때문에[37] 주의가 필요하며, 경험적 연구에 따르면 [인터뷰 후반부에 질문하는 개방형 질문]이 [더 풍부한 데이터를 생성하는 경향]이 있다고 합니다[37].
Qualitative research experts argue that there is no straightforward answer to the question of ‘how many’ and that sample size is contingent on a number of factors relating to epistemological, methodological and practical issues [36].

  • Sandelowski [4] recommends that qualitative sample sizes are large enough to allow the unfolding of a ‘new and richly textured understanding’ of the phenomenon under study, but small enough so that the ‘deep, case-oriented analysis’ (p. 183) of qualitative data is not precluded.
  • Morse [11] posits that the more useable data are collected from each person, the fewer participants are needed. She invites researchers to take into account parameters, such as the scope of study, the nature of topic (i.e. complexity, accessibility), the quality of data, and the study design.

Indeed, the level of structure of questions in qualitative interviewing has been found to influence the richness of data generated [37], and so, requires attention; empirical research shows that open questions, which are asked later on in the interview, tend to produce richer data [37].

이러한 지침 외에도 전문가들의 질적 연구 경험을 바탕으로 구체적인 수치적 권장 사항도 제시되고 있습니다.

  • 예를 들어, Green과 Thorogood[38]은 상당히 구체적인 연구 질문으로 인터뷰 기반 연구를 수행하는 대부분의 질적 연구자의 경험에 따르면 분석적으로 관련된 하나의 참가자 '범주'에 속하는 20명 내외를 인터뷰한 후에는 새로운 정보가 거의 생성되지 않는다고 주장합니다(102-104페이지).
  • Ritchie 등[39]은 개별 인터뷰를 사용하는 연구에서는 연구자가 분석 작업의 복잡성을 관리할 수 있도록 50명 이하의 인터뷰를 실시할 것을 제안합니다.
  • 마찬가지로 Britten[40]은 대규모 인터뷰 연구의 경우 50~60명으로 구성되는 경우가 많다고 언급합니다. 전문가들은 또한 다양한 이론적, 방법론적 전통과 특정 연구 접근법(예: 근거 이론, 현상학)에 맞춘 수치적 지침을 제시했습니다[11, 41].
  • 최근에는 모집단 내 테마의 빈도 추정치를 기반으로 선험적 표본 크기 결정을 지원하는 정량적 도구가 제안되었습니다[42]. 그럼에도 불구하고 이러한 보다 [수치 공식적인 접근 방식]은 '테마'의 개념적[43], 존재론적 지위[44]에 대한 가정과 샘플링, 데이터 수집 및 데이터 분석 프로세스에 따른 선형성[45]과 관련된 비판을 불러일으켰습니다.

Beyond such guidance, specific numerical recommendations have also been proffered, often based on experts’ experience of qualitative research.

  • For example, Green and Thorogood [38] maintain that the experience of most qualitative researchers conducting an interview-based study with a fairly specific research question is that little new information is generated after interviewing 20 people or so belonging to one analytically relevant participant ‘category’ (pp. 102–104).
  • Ritchie et al. [39] suggest that studies employing individual interviews conduct no more than 50 interviews so that researchers are able to manage the complexity of the analytic task.
  • Similarly, Britten [40] notes that large interview studies will often comprise of 50 to 60 people. Experts have also offered numerical guidelines tailored to different theoretical and methodological traditions and specific research approaches, e.g. grounded theory, phenomenology [1141].
  • More recently, a quantitative tool was proposed [42] to support a priori sample size determination based on estimates of the prevalence of themes in the population. Nevertheless, this more formulaic approach raised criticisms relating to assumptions about the conceptual [43] and ontological status of ‘themes’ [44] and the linearity ascribed to the processes of sampling, data collection and data analysis [45].

원칙적인 측면에서 링컨과 구바[17]는 [정보 중복성]의 기준에 따라 표본 크기를 결정할 것을 제안했는데, 즉 [더 많은 단위를 샘플링해도 새로운 정보가 도출되지 않을 경우 샘플링을 중단할 수 있다]는 것입니다. 정보 포괄성의 논리에 따라 Malterud 등[18]은 실용적인 지침 원칙으로 [정보력 개념]을 도입하여 표본이 제공하는 [정보력이 많을수록 표본 크기가 작아야 하고 그 반대의 경우도 마찬가지]라고 제안했습니다.
In terms of principles, Lincoln and Guba [17] proposed that sample size determination be guided by the criterion of informational redundancy, that is, sampling can be terminated when no new information is elicited by sampling more units. Following the logic of informational comprehensiveness Malterud et al. [18] introduced the concept of information power as a pragmatic guiding principle, suggesting that the more information power the sample provides, the smaller the sample size needs to be, and vice versa.

의심할 여지 없이, 표본 크기를 결정하고 그 충분성을 평가하는 데 가장 널리 사용되는 원칙은 [포화]입니다. 포화 개념은 경험적으로 도출된 이론 개발과 명시적으로 관련된 질적 방법론적 접근 방식인 근거 이론[15]에서 비롯되었으며 이론적 샘플링과 불가분의 관계에 있습니다. [이론적 표본 추출]은 [데이터 수집, 데이터 분석 및 이론 개발의 반복적인 프로세스]를 설명하며, 데이터 수집은 모집단의 사전 정의된 특성이 아닌 새로운 이론에 의해 관리됩니다. [근거 이론 포화(종종 이론적 포화라고도 함)]는 개발 중인 이론 범주(데이터가 아닌)와 관련이 있으며, '새로운 데이터를 수집해도 더 이상 [새로운 이론적 통찰력]을 얻지 못하거나 [핵심 이론 범주의 새로운 속성]이 드러나지 않을 때'[46페이지 113] 분명해집니다. 따라서 근거 이론에서 포화 상태는 [일반적인 데이터 반복에 대한 초점과 동일하지 않으며], 표본 추출의 적절성을 정당화하는 표본 크기에 대한 단일 초점을 넘어서는 것입니다[46, 47]. 근거 이론에서 표본 크기는 진화하는 이론적 범주에 따라 달라지기 때문에 [선험적으로 결정할 수 없습니다].
Undoubtedly, the most widely used principle for determining sample size and evaluating its sufficiency is that of saturation. The notion of saturation originates in grounded theory [15] – a qualitative methodological approach explicitly concerned with empirically-derived theory development – and is inextricably linked to theoretical sampling. Theoretical sampling describes an iterative process of data collection, data analysis and theory development whereby data collection is governed by emerging theory rather than predefined characteristics of the population. Grounded theory saturation (often called theoretical saturation) concerns the theoretical categories – as opposed to data – that are being developed and becomes evident when ‘gathering fresh data no longer sparks new theoretical insights, nor reveals new properties of your core theoretical categories’ [46 p. 113]. Saturation in grounded theory, therefore, does not equate to the more common focus on data repetition and moves beyond a singular focus on sample size as the justification of sampling adequacy [46, 47]. Sample size in grounded theory cannot be determined a priori as it is contingent on the evolving theoretical categories.

포화(종종 '데이터' 또는 '주제별' 포화도라는 용어로 사용됨)는 근거 이론의 기원을 넘어 여러 질적 커뮤니티로 확산되었습니다. '새로운 데이터 없음', '새로운 주제 없음', '새로운 코드 없음'과 다양하게 동일시되는 의미의 확장과 함께, 포화도는 질적 탐구에서 '황금 표준'으로 부상했습니다[2, 26]. 그럼에도 불구하고 모스[48]가 주장했듯이, 포화는 '질적 엄격성의 보증'으로 가장 자주 호출되지만, '우리가 가장 잘 모르는 것'(587쪽)입니다. 물론 연구자들은 포화도가 특정 유형의 질적 연구(예: 대화 분석, [49]; 현상학적 연구, [50])에 적용하기 어렵거나 적절하지 않다고 경고하는 반면, 다른 연구자들은 이 개념을 완전히 거부합니다[19, 51]. 
Saturation – often under the terms of ‘data’ or ‘thematic’ saturation – has diffused into several qualitative communities beyond its origins in grounded theory. Alongside the expansion of its meaning, being variously equated with ‘no new data’, ‘no new themes’, and ‘no new codes’, saturation has emerged as the ‘gold standard’ in qualitative inquiry [2, 26]. Nevertheless, and as Morse [48] asserts, whilst saturation is the most frequently invoked ‘guarantee of qualitative rigor’, ‘it is the one we know least about’ (p. 587). Certainly researchers caution that saturation is less applicable to, or appropriate for, particular types of qualitative research (e.g. conversation analysis, [49]; phenomenological research, [50]) whilst others reject the concept altogether [19, 51].

이 분야의 방법론적 연구는 포화도에 대한 지침을 제공하고 포화를 '조작화'하고 증거하는 프로세스의 실제 적용을 개발하는 것을 목표로 합니다.

  • 게스트, 번스, 존슨[26]은 60개의 인터뷰를 분석한 결과 12번째 인터뷰에 이르러 주제의 포화 상태에 도달했다는 사실을 발견했습니다. 이들은 표본이 비교적 동질적이고 연구 목표가 집중되어 있기 때문에 더 이질적인 표본과 더 넓은 범위를 대상으로 한 연구는 포화 상태에 도달하기 위해 더 큰 규모가 필요할 것이라고 지적했습니다.
  • 이 질문을 다중 사이트, 다문화 연구로 확장한 Hagaman과 Wutich[28]는 연구 사이트를 가로지르는 메타 주제의 데이터 포화도를 달성하려면 20~40개의 인터뷰 샘플 크기가 필요하다는 것을 보여주었습니다.
  • 이론 중심 내용 분석에서 Francis 등[25]은 사전 결정된 모든 이론적 구성에 대해 17번째 인터뷰에 데이터 포화 상태에 도달했습니다. 저자들은 포화도 지정의 근거가 되는 두 가지 주요 원칙을 추가로 제안했습니다.
    • (a) 연구자는 1차 분석에 사용될 초기 분석 샘플(예: 10개의 인터뷰)을 선험적으로 지정하고,
    • (b) 분석에서 새로운 주제나 아이디어를 얻지 못할 경우 추가로 수행해야 하는 인터뷰 수(예: 3개)를 중단 기준으로 정해야 한다는 것입니다.
  • 투명성을 높이기 위해 프란시스 외[25]는 연구자가 포화 상태에 도달했다는 판단을 뒷받침하는 누적 빈도 그래프를 제시할 것을 권장합니다.
  • 주제 포화도 비교 방법(CoMeTS)도 제안되었는데[23], 각각의 새로운 인터뷰 결과를 이미 나온 인터뷰 결과와 비교하여 새로운 주제가 나오지 않으면 '포화된 지형'이 확립된 것으로 간주합니다.
  • 인터뷰 분석 순서는 데이터의 풍부도에 따라 포화 임계값에 영향을 미칠 수 있으므로, 콘스탄티노우 등[23]은 포화 상태를 확인하기 위해 인터뷰 순서를 바꾸고 다시 분석할 것을 권장합니다.
  • 헤닝크, 카이저, 마르코니의 [29] 방법론 연구는 포화도를 지정하고 입증하는 문제에 대해 더 자세히 조명합니다.
    • 인터뷰 데이터를 분석한 결과 코드 포화(즉, 추가 이슈가 식별되지 않는 지점)는 9번의 인터뷰로 달성할 수 있었지만 의미 포화(즉, 이슈의 차원, 뉘앙스 또는 통찰력이 더 이상 식별되지 않는 지점)는 16~24번의 인터뷰가 필요했습니다.
    • 은 특히 유병률이 높고 구체적인 코드의 경우 비교적 빨리 달성할 수 있지만, 깊이는 특히 개념적인 성격의 코드의 경우 추가 데이터가 필요합니다.

Methodological studies in this area aim to provide guidance about saturation and develop a practical application of processes that ‘operationalise’ and evidence saturation.

  • Guest, Bunce, and Johnson [26] analysed 60 interviews and found that saturation of themes was reached by the twelfth interview. They noted that their sample was relatively homogeneous, their research aims focused, so studies of more heterogeneous samples and with a broader scope would be likely to need a larger size to achieve saturation.
  • Extending the enquiry to multi-site, cross-cultural research, Hagaman and Wutich [28] showed that sample sizes of 20 to 40 interviews were required to achieve data saturation of meta-themes that cut across research sites.
  • In a theory-driven content analysis, Francis et al. [25] reached data saturation at the 17th interview for all their pre-determined theoretical constructs. The authors further proposed two main principles upon which specification of saturation be based:
    • (a) researchers should a priori specify an initial analysis sample (e.g. 10 interviews) which will be used for the first round of analysis and
    • (b) a stopping criterion, that is, a number of interviews (e.g. 3) that needs to be further conducted, the analysis of which will not yield any new themes or ideas.
  • For greater transparency, Francis et al. [25] recommend that researchers present cumulative frequency graphs supporting their judgment that saturation was achieved.
  • A comparative method for themes saturation (CoMeTS) has also been suggested [23] whereby the findings of each new interview are compared with those that have already emerged and if it does not yield any new theme, the ‘saturated terrain’ is assumed to have been established.
  • Because the order in which interviews are analysed can influence saturation thresholds depending on the richness of the data, Constantinou et al. [23] recommend reordering and re-analysing interviews to confirm saturation.
  • Hennink, Kaiser and Marconi’s [29] methodological study sheds further light on the problem of specifying and demonstrating saturation.
    • Their analysis of interview data showed that code saturation (i.e. the point at which no additional issues are identified) was achieved at 9 interviews, but meaning saturation (i.e. the point at which no further dimensions, nuances, or insights of issues are identified) required 16–24 interviews.
    • Although breadth can be achieved relatively soon, especially for high-prevalence and concrete codes, depth requires additional data, especially for codes of a more conceptual nature.


넬슨[19]은 포화도 개념을 비판하면서 개발 중인 이론의 견고성을 평가하기 위해 근거 이론 프로젝트에서 다섯 가지 개념적 깊이 기준을 제안합니다:

  • (a) 이론적 개념은 데이터에서 도출된 광범위한 증거에 의해 뒷받침되어야 하며,
  • (b) 상호 연결된 개념 네트워크의 일부임을 입증할 수 있고,
  • (c) 미묘함을 입증하고,
  • (d) 기존 문헌과 공명하고,
  • (e) 외부 타당성 테스트에 성공적으로 제출할 수 있어야 합니다.

Critiquing the concept of saturation, Nelson [19] proposes five conceptual depth criteria in grounded theory projects to assess the robustness of the developing theory:

  • (a) theoretical concepts should be supported by a wide range of evidence drawn from the data;
  • (b) be demonstrably part of a network of inter-connected concepts;
  • (c) demonstrate subtlety;
  • (d) resonate with existing literature; and
  • (e) can be successfully submitted to tests of external validity.

영양학[34], 보건 교육[32], 교육 및 보건 과학[22, 27], 정보 시스템[30], 조직 및 직장 연구[33], 인간 컴퓨터 상호작용[21], 회계 연구[24]에 이르기까지 다양한 학문 분야와 연구 영역에서 표본 크기 보고 및 충분성 평가의 관행을 조사하고자 한 다른 연구도 있습니다. 다른 연구에서는 박사 학위 질적 연구[31]와 근거 이론 연구[35]를 조사했습니다. 이러한 조사에서 불완전하고 부정확한 표본 크기 보고가 흔히 발견되는 반면, 표본 크기의 충분성에 대한 평가와 정당화는 훨씬 더 산발적으로 이루어지고 있습니다.  
Other work has sought to examine practices of sample size reporting and sufficiency assessment across a range of disciplinary fields and research domains, from nutrition [34] and health education [32], to education and the health sciences [22, 27], information systems [30], organisation and workplace studies [33], human computer interaction [21], and accounting studies [24]. Others investigated PhD qualitative studies [31] and grounded theory studies [35]. Incomplete and imprecise sample size reporting is commonly pinpointed by these investigations whilst assessment and justifications of sample size sufficiency are even more sporadic.

Sobal[34]은 30년 동안 영양 교육 저널에 발표된 질적 연구의 표본 규모를 조사했습니다. 개별 인터뷰를 사용한 연구(n = 30)의 평균 표본 크기는 45명이었으며, 이들 중 표본 크기가 포화 상태에 도달했는지 여부를 명시적으로 보고한 연구는 없었습니다. 소수의 논문에서는 표본 관련 제한 사항(대부분 표본의 크기보다는 표본의 유형에 관한 것)이 일반화 가능성을 어떻게 제한하는지 논의했습니다. 20년간의 보건 교육 연구에 대한 체계적인 분석[32]에 따르면 인터뷰 기반 연구의 평균 참여자 수는 104명(인터뷰 대상자 범위는 2~720명)이었습니다. 그러나 40%는 참가자 수를 보고하지 않았습니다. 주요 정보 시스템 저널[30]에 실린 83건의 질적 인터뷰 연구를 조사한 결과, 질적 방법론자의 권고, 선행 관련 연구 또는 포화도 기준에 근거하여 표본 규모에 대한 방어가 거의 없는 것으로 나타났습니다. 오히려 표본 크기는 출판 저널이나 연구 지역(미국 대 유럽 대 아시아)과 같은 요인과 상관관계가 있는 것으로 나타났습니다. 이러한 결과를 바탕으로 저자들은 질적 정보 시스템 연구에서 표본 규모를 결정하고 보고할 때 보다 엄격해야 하며, 근거 이론(예: 20~30개 인터뷰) 및 단일 사례(예: 15~30개 인터뷰) 프로젝트에 대한 최적의 표본 규모 범위를 권장했습니다. 
Sobal [34] examined the sample size of qualitative studies published in the Journal of Nutrition Education over a period of 30 years. Studies that employed individual interviews (n = 30) had an average sample size of 45 individuals and none of these explicitly reported whether their sample size sought and/or attained saturation. A minority of articles discussed how sample-related limitations (with the latter most often concerning the type of sample, rather than the size) limited generalizability. A further systematic analysis [32] of health education research over 20 years demonstrated that interview-based studies averaged 104 participants (range 2 to 720 interviewees). However, 40% did not report the number of participants. An examination of 83 qualitative interview studies in leading information systems journals [30] indicated little defence of sample sizes on the basis of recommendations by qualitative methodologists, prior relevant work, or the criterion of saturation. Rather, sample size seemed to correlate with factors such as the journal of publication or the region of study (US vs Europe vs Asia). These results led the authors to call for more rigor in determining and reporting sample size in qualitative information systems research and to recommend optimal sample size ranges for grounded theory (i.e. 20–30 interviews) and single case (i.e. 15–30 interviews) projects.

마찬가지로 조직 및 직장 연구 논문의 10% 미만이 방법론가, 선행 관련 연구 또는 포화도와 관련된 표본 크기 정당성을 제공했으며[33], 건강 관련 저널의 포커스 그룹 연구 중 17%만이 표본 크기(즉, 포커스 그룹 수)에 대한 설명을 제공했으며, [포화]가 가장 자주 인용된 논거였고 그 다음으로 [출판된 표본 크기 권장 사항][실용적인 이유][22] 순으로 나타났습니다. 포화 개념은 교육 및 보건 과학 분야에서 가장 많이 인용된 51개의 연구 중 11개에서 사용되었는데, 이 중 6개는 근거 이론 연구, 4개는 현상학적 연구, 1개는 내러티브 탐구였습니다[27]. 마지막으로, 회계학 분야의 인터뷰 기반 논문 641편을 분석한 Dai 등[24]은 상당수의 연구가 정확한 표본 크기를 보고하지 않았기 때문에 더 엄격할 것을 요구했습니다. 
Similarly, fewer than 10% of articles in organisation and workplace studies provided a sample size justification relating to existing recommendations by methodologists, prior relevant work, or saturation [33], whilst only 17% of focus groups studies in health-related journals provided an explanation of sample size (i.e. number of focus groups), with saturation being the most frequently invoked argument, followed by published sample size recommendations and practical reasons [22]. The notion of saturation was also invoked by 11 out of the 51 most highly cited studies that Guetterman [27] reviewed in the fields of education and health sciences, of which six were grounded theory studies, four phenomenological and one a narrative inquiry. Finally, analysing 641 interview-based articles in accounting, Dai et al. [24] called for more rigor since a significant minority of studies did not report precise sample size.

질적 연구의 엄격성에 대한 관심 증가(예: [52])와 질적 연구의 검증을 위한 보다 광범위한 방법론 및 분석 공개에도 불구하고[24], 표본 크기 보고 및 충분성 평가는 다양한 연구 영역에서 일관되지 않고 부분적으로만 이루어지고 있습니다. 
Despite increasing attention to rigor in qualitative research (e.g. [52]) and more extensive methodological and analytical disclosures that seek to validate qualitative work [24], sample size reporting and sufficiency assessment remain inconsistent and partial, if not absent, across a range of research domains.

본 연구의 목적
Objectives of the present study

본 연구는 건강과 관련된 질적 연구에 초점을 맞추어 표본 크기 보고 및 정당성에 대한 관습과 관행에 대한 기존의 체계적 분석을 강화하고자 했습니다. 또한, 본 연구는 질적 표본 크기가 학문적 서술에서 어떻게 특징지어지고 논의되는지를 조사함으로써 이전의 경험적 조사를 확장하고자 했습니다. 질적 건강 연구는 의학과의 연관성으로 인해 종종 양적 정신을 반영하는 견해와 입장에 직면하는 학제 간 분야입니다. 따라서 질적 건강 연구는 표본 규모를 고려할 때 구체화되는 과학계의 근본적인 철학적, 방법론적 차이를 드러내는 데 도움이 될 수 있는 상징적인 사례입니다. 따라서 본 연구에서는 질적 건강 연구와 관련된 세 가지 다른 학문 분야인 의학, 심리학, 사회학을 기반으로 비교 요소를 통합했습니다. 질적 건강 연구에서 대중적이고 널리 사용되는 방법론적 선택일 뿐만 아니라 인터뷰 대상자 수로 정의되는 표본 크기에 대한 고려가 특히 두드러지는 방법이기 때문에 [단일 참가자당 인터뷰 설계]에 분석의 초점을 맞추기로 결정했습니다. 
The present study sought to enrich existing systematic analyses of the customs and practices of sample size reporting and justification by focusing on qualitative research relating to health. Additionally, this study attempted to expand previous empirical investigations by examining how qualitative sample sizes are characterised and discussed in academic narratives. Qualitative health research is an inter-disciplinary field that due to its affiliation with medical sciences, often faces views and positions reflective of a quantitative ethos. Thus qualitative health research constitutes an emblematic case that may help to unfold underlying philosophical and methodological differences across the scientific community that are crystallised in considerations of sample size. The present research, therefore, incorporates a comparative element on the basis of three different disciplines engaging with qualitative health research: medicine, psychology, and sociology. We chose to focus our analysis on single-per-participant-interview designs as this not only presents a popular and widespread methodological choice in qualitative health research, but also as the method where consideration of sample size – defined as the number of interviewees – is particularly salient.

방법
Methods

연구 설계
Study design

횡단면 인터뷰 기반의 질적 연구를 보고하는 논문을 구조적으로 검색하고 양적 및 질적 분석 기법을 모두 사용하여 적격 보고서를 체계적으로 검토 및 분석했습니다. 
A structured search for articles reporting cross-sectional, interview-based qualitative studies was carried out and eligible reports were systematically reviewed and analysed employing both quantitative and qualitative analytic techniques.

(a) 동료 검토 프로세스를 따르고, (b) 저널 지표에 반영된 바와 같이 해당 분야에서 높은 수준과 영향력을 지닌 것으로 간주되며, (c) 질적 연구를 수용하고 출판하는 저널을 선정했습니다(추가 파일 1에는 질적 연구와 관련된 저널의 편집 입장과 가능한 경우 샘플 고려 사항이 제시되어 있습니다). 의학을 대표하는 영국의학저널(BMJ), 심리학을 대표하는 영국건강심리학저널(BJHP), 사회학을 대표하는 건강과 질병의 사회학(SHI) 등 각기 다른 학문 분야를 대표하는 세 개의 건강 관련 저널이 선정되었습니다. 
We selected journals which (a) follow a peer review process, (b) are considered high quality and influential in their field as reflected in journal metrics, and (c) are receptive to, and publish, qualitative research (Additional File 1 presents the journals’ editorial positions in relation to qualitative research and sample considerations where available). Three health-related journals were chosen, each representing a different disciplinary field; the British Medical Journal (BMJ) representing medicine, the British Journal of Health Psychology (BJHP) representing psychology, and the Sociology of Health & Illness (SHI) representing sociology.

연구 식별을 위한 검색 전략
Search strategy to identify studies

각 개별 저널의 검색 기능을 사용하여 '인터뷰*' 및 '질적'이라는 용어를 사용했으며, 2003년 1월 1일부터 2017년 9월 22일(즉, 15년 검토 기간) 사이에 출판된 논문으로 결과를 제한했습니다.
Employing the search function of each individual journal, we used the terms ‘interview*’ AND ‘qualitative’ and limited the results to articles published between 1 January 2003 and 22 September 2017 (i.e. a 15-year review period).

자격 기준
Eligibility criteria

검토 대상에 포함되려면 논문이 단면 연구 설계를 보고해야 했습니다. 따라서 종단 연구는 제외되었지만, 광범위한 연구 프로그램 내에서 수행된 연구(예: 광범위한 민족지학의 일부로 임상시험에 중첩된 인터뷰 연구, 종단 연구의 일부)는 단 한 번의 질적 인터뷰만 보고한 경우 포함되었습니다. 데이터 수집 방법은 개별적이고 동시적인 질적 인터뷰여야 하며(즉, 그룹 인터뷰, 구조화된 인터뷰, 일정 기간에 걸친 이메일 인터뷰는 제외), 데이터를 질적으로 분석해야 합니다(즉, 질적 데이터를 정량화한 연구는 제외). 혼합 방법 연구와 두 가지 이상의 질적 데이터 수집 방법(예: 개별 인터뷰 및 포커스 그룹)을 보고하는 논문은 제외되었습니다. 그림 1은 PRISMA 흐름도[53]로, 검색 및 선별된 논문, 적격성 평가 논문, 리뷰에 포함된 논문의 수를 보여줍니다(추가 파일 2는 리뷰에 포함된 논문의 전체 목록과 고유 식별 코드(예: BMJ01, BJHP02, SHI03)를 제공합니다). 한 명의 리뷰 저자(KV)가 검색에서 확인된 모든 논문의 적격성을 평가했습니다. 의심스러운 경우, KV와 JB는 정기적인 회의를 통해 논문을 유지하거나 제외하는 것에 대해 논의하고 공동으로 결정을 내렸습니다. 

To be eligible for inclusion in the review, the article had to report a cross-sectional study design. Longitudinal studies were thus excluded whilst studies conducted within a broader research programme (e.g. interview studies nested in a trial, as part of a broader ethnography, as part of a longitudinal research) were included if they reported only single-time qualitative interviews. The method of data collection had to be individual, synchronous qualitative interviews (i.e. group interviews, structured interviews and e-mail interviews over a period of time were excluded), and the data had to be analysed qualitatively (i.e. studies that quantified their qualitative data were excluded). Mixed method studies and articles reporting more than one qualitative method of data collection (e.g. individual interviews and focus groups) were excluded. Figure 1, a PRISMA flow diagram [53], shows the number of: articles obtained from the searches and screened; papers assessed for eligibility; and articles included in the review (Additional File 2 provides the full list of articles included in the review and their unique identifying code – e.g. BMJ01, BJHP02, SHI03). One review author (KV) assessed the eligibility of all papers identified from the searches. When in doubt, discussions about retaining or excluding articles were held between KV and JB in regular meetings, and decisions were jointly made.

 

데이터 추출 및 분석
Data extraction and analysis

데이터 추출 양식(추가 파일 3 참조)을 개발하여 (a) 논문에 대한 정보(예: 저자, 제목, 학술지, 출판 연도 등), (b) 연구의 목적, 표본 크기 및 이에 대한 정당성, 참여자 특성, 표본 추출 기법 및 저자의 표본 관련 관찰 또는 의견, (c) 데이터 분석 방법 또는 기술, 분석에 참여한 연구자 수, 소프트웨어 사용 가능성, 인식론적 고려 사항에 대한 논의 등 세 가지 영역의 정보를 기록했습니다. 각 논문의 초록, 방법 및 토론(및/또는 결론) 섹션은 모든 관련 정보를 추출한 한 명의 저자(KV)가 검토했습니다. 이는 논문에서 직접 복사했으며, 필요한 경우 의견, 메모 및 초기 생각을 기록했습니다. 
A data extraction form was developed (see Additional File 3) recording three areas of information: (a) information about the article (e.g. authors, title, journal, year of publication etc.); (b) information about the aims of the study, the sample size and any justification for this, the participant characteristics, the sampling technique and any sample-related observations or comments made by the authors; and (c) information about the method or technique(s) of data analysis, the number of researchers involved in the analysis, the potential use of software, and any discussion around epistemological considerations. The Abstract, Methods and Discussion (and/or Conclusion) sections of each article were examined by one author (KV) who extracted all the relevant information. This was directly copied from the articles and, when appropriate, comments, notes and initial thoughts were written down.

기사에서 제공하는 표본 크기의 정당성을 조사하기 위해 귀납적 내용 분석[54]이 처음에 수행되었습니다. 이 분석을 바탕으로 질적으로 다른 표본 크기 정당화를 표현하는 범주를 개발했습니다. 
To examine the kinds of sample size justifications provided by articles, an inductive content analysis [54] was initially conducted. On the basis of this analysis, the categories that expressed qualitatively different sample size justifications were developed.

또한 다음과 같은 측면에 대한 정량적 데이터를 추출하거나 코딩했습니다: 
We also extracted or coded quantitative data regarding the following aspects:

  • 학술지 및 출판 연도
  • 인터뷰 횟수
  • 참가자 수
  • 표본 크기 정당성 유무(예/아니오)
  • 특정 표본 크기 정당화 범주의 존재 여부(예/아니요) 및
  • 제공된 표본 크기 정당화 항목의 수
  • Journal and year of publication
  • Number of interviews
  • Number of participants
  • Presence of sample size justification(s) (Yes/No)
  • Presence of a particular sample size justification category (Yes/No), and
  • Number of sample size justifications provided

이러한 데이터를 탐색하기 위해 설명적 통계 분석과 추론적 통계 분석이 사용되었습니다. 
Descriptive and inferential statistical analyses were used to explore these data.

그런 다음 연구의 표본 크기에 대해 논의하거나 언급하는 모든 과학적 서술에 대해 주제별 분석[55]을 수행했습니다. 이러한 내러티브는 표본 크기를 정당화하는 논문과 그렇지 않은 논문 모두에서 분명하게 나타났습니다. 이러한 내러티브를 식별하기 위해 방법 섹션 외에도 검토된 논문의 토론 섹션을 조사하고 관련 데이터를 추출하여 분석했습니다. 
A thematic analysis [55] was then performed on all scientific narratives that discussed or commented on the sample size of the study. These narratives were evident both in papers that justified their sample size and those that did not. To identify these narratives, in addition to the methods sections, the discussion sections of the reviewed articles were also examined and relevant data were extracted and analysed.

결과
Results

총 214개 논문(BMJ 21개, BJHP 53개, SHI 140개)이 검토 대상에 포함되었습니다. 표 1은 세 저널에서 검토한 연구의 표본 크기(인터뷰 수로 측정)에 대한 기본 정보를 제공합니다. 그림 2는 학술지별로 매년 출판되는 대상 논문 수를 보여줍니다.
In total, 214 articles – 21 in the BMJ, 53 in the BJHP and 140 in the SHI – were eligible for inclusion in the review. Table 1 provides basic information about the sample sizes – measured in number of interviews – of the studies reviewed across the three journals. Figure 2 depicts the number of eligible articles published each year per journal.

 

2012년 이후 BMJ에 게재된 질적 연구 논문이 현저히 감소했으며, 이는 질적 연구를 대상으로 하는 BMJ Open의 시작과 일치하는 것으로 보입니다.
The publication of qualitative studies in the BMJ was significantly reduced from 2012 onwards and this appears to coincide with the initiation of the BMJ Open to which qualitative studies were possibly directed.

유의한 Kruskal-WallisFootnote2 테스트에 따라 쌍으로 비교한 결과, BJHP에 게재된 연구의 표본 크기가 BMJ 또는 SHI에 게재된 연구보다 유의하게(p < .001) 작은 것으로 나타났습니다. BMJ와 SHI 논문의 표본 크기는 서로 크게 다르지 않았습니다. 
Pairwise comparisons following a significant Kruskal-WallisFootnote2 test indicated that the studies published in the BJHP had significantly (p < .001) smaller samples sizes than those published either in the BMJ or the SHI. Sample sizes of BMJ and SHI articles did not differ significantly from each other.

표본 크기 정당화: 양적 및 질적 콘텐츠 분석 결과
Sample size justifications: Results from the quantitative and qualitative content analysis

BMJ 논문 21편 중 10편(47.6%), BJHP 논문 53편 중 26편(49.1%), SHI 논문 140편 중 24편(17.1%)이 일종의 표본 크기 정당화를 제공했습니다. 표 2에서 볼 수 있듯이, 표본 크기를 정당화한 논문의 대부분은 한 가지 정당화를 제공했습니다(70%).

  • 두 가지 정당화를 제공한 연구는 14건(25%),
  • 세 가지 정당화를 제공한 연구는 1건(1.7%),
  • 네 가지 정당화를 제공한 연구는 2건(3.3%)이었습니다.

Ten (47.6%) of the 21 BMJ studies, 26 (49.1%) of the 53 BJHP papers and 24 (17.1%) of the 140 SHI articles provided some sort of sample size justification. As shown in Table 2, the majority of articles which justified their sample size provided one justification (70% of articles);

  • fourteen studies (25%) provided two distinct justifications;
  • one study (1.7%) gave three justifications and
  • two studies (3.3%) expressed four distinct justifications.


수행된 인터뷰 횟수(즉, 표본 크기)와 정당화 제공 사이에는 연관성이 없었습니다(rpb = .054, p = .433). 학술지 내에서는 맨-위트니 테스트 결과 BMJ와 SHI에서 '정당화' 및 '비정당화' 논문의 표본 크기가 서로 크게 다르지 않은 것으로 나타났습니다. BJHP에서는 '정당화' 논문(평균 순위 = 31.3)의 표본 크기가 '비정당화' 연구(평균 순위 = 22.7; U = 237.000, p < .05)보다 훨씬 더 컸습니다. 
There was no association between the number of interviews (i.e. sample size) conducted and the provision of a justification (rpb = .054, p = .433). Within journals, Mann-Whitney tests indicated that sample sizes of ‘justifying’ and ‘non-justifying’ articles in the BMJ and SHI did not differ significantly from each other. In the BJHP, ‘justifying’ articles (Mean rank = 31.3) had significantly larger sample sizes than ‘non-justifying’ studies (Mean rank = 22.7; U = 237.000, p < .05).

논문이 게재된 저널과 정당화 제공 사이에는 유의미한 연관성이 있었습니다(χ2 (2) = 23.83, p < .001). BJHP 연구는 예상보다 훨씬 더 자주 표본 크기 정당성을 제공했으며(z = 2.9), SHI 연구는 훨씬 덜 자주 제공했습니다(z = - 2.4). 논문이 BJHP에 게재된 경우, 근거를 제공할 확률은 SHI에 게재된 경우보다 4.8배 더 높았습니다마찬가지로 BMJ에 게재된 경우, 표본 크기를 정당화하는 연구 확률은 SHI에 게재된 경우보다 4.5배 높았습니다.
There was a significant association between the journal a paper was published in and the provision of a justification (χ2 (2) = 23.83, p < .001). BJHP studies provided a sample size justification significantly more often than would be expected (z = 2.9); SHI studies significantly less often (z = − 2.4). If an article was published in the BJHP, the odds of providing a justification were 4.8 times higher than if published in the SHI. Similarly if published in the BMJ, the odds of a study justifying its sample size were 4.5 times higher than in the SHI.

과학적 내러티브의 질적 내용 분석을 통해 11개의 서로 다른 표본 크기 정당성을 확인했습니다. 이에 대해서는 아래에 설명되어 있으며 관련 논문에서 발췌하여 설명합니다. 요약하자면, 세 저널에서 이러한 근거가 사용된 빈도는 표 3에 나와 있습니다.
The qualitative content analysis of the scientific narratives identified eleven different sample size justifications. These are described below and illustrated with excerpts from relevant articles. By way of a summary, the frequency with which these were deployed across the three journals is indicated in Table 3.

 

포화
Saturation

포화는 세 학술지 모두에서 표본 크기의 충분성을 정당화하기 위해 연구에서 가장 많이 사용된 원칙(전체 정당화의 55.4%)이었습니다. BMJ에서 데이터 포화도를 달성했다고 주장한 연구는 2건(BMJ17, BMJ18)이었으며, 포화도라는 용어를 명시적으로 사용하지 않고 설명적으로 언급한 논문은 1건(BMJ13)이었습니다. 흥미롭게도 BMJ13은 '비정상적/일탈적 관찰'을 찾고 연구 결과의 일관성을 확립하기 위해 포화 시점을 넘어선 데이터를 분석에 포함했습니다.
Saturation was the most commonly invoked principle (55.4% of all justifications) deployed by studies across all three journals to justify the sufficiency of their sample size. In the BMJ, two studies claimed that they achieved data saturation (BMJ17; BMJ18) and one article referred descriptively to achieving saturation without explicitly using the term (BMJ13). Interestingly, BMJ13 included data in the analysis beyond the point of saturation in search of ‘unusual/deviant observations’ and with a view to establishing findings consistency.

인터뷰 연구에 참여하기 위해 33명의 여성에게 연락을 취했습니다. 27명이 동의했고 21명(21-64세, 중앙값 40세)이 데이터 포화점에 도달하기 전에 인터뷰를 진행했습니다(한 번의 테이프 실패로 분석에 사용할 수 있는 인터뷰는 20건). (BMJ17).
Thirty three women were approached to take part in the interview study. Twenty seven agreed and 21 (aged 21–64, median 40) were interviewed before data saturation was reached (one tape failure meant that 20 interviews were available for analysis).
 (BMJ17).

인터뷰의 약 3분의 2를 분석한 결과 새로운 주제는 발견되지 않았지만, 모든 인터뷰는 견해와 보고된 행동이 얼마나 특징적인지 더 잘 이해하고 비정상적이거나 일탈적인 관찰 사례를 더 수집하기 위해 코딩되었습니다. (BMJ13).
No new topics were identified following analysis of approximately two thirds of the interviews; however, all interviews were coded in order to develop a better understanding of how characteristic the views and reported behaviours were, and also to collect further examples of unusual/deviant observations.
 (BMJ13).

두 개의 논문은 데이터 포화도를 달성하기 위해 표본 크기를 미리 결정했다고 보고했습니다(BMJ08 - [기존 연구와 일치]하는 섹션의 발췌문 참조, BMJ15 - [실용적 고려 사항] 섹션의 발췌문 참조).

  • 한 논문에서는 "분석에서 더 이상 반복되는 주제가 나타나지 않을 때"를 이론적 포화 상태(BMJ06)라고 주장한 반면,
  • 다른 연구에서는 분석 범주가 매우 포화 상태이지만 이론적 포화 상태를 달성했는지 여부를 판단할 수 없다고 주장했습니다(BMJ04).
  • 한 논문(BMJ18)은 포화도에 대한 입장을 뒷받침하기 위해 참고 문헌을 인용했습니다.

Two articles reported pre-determining their sample size with a view to achieving data saturation (BMJ08 – see extract in section In line with existing research; BMJ15 – see extract in section Pragmatic considerations) without further specifying if this was achieved.

  • One paper claimed theoretical saturation (BMJ06) conceived as being when “no further recurring themes emerging from the analysis”
  • whilst another study argued that although the analytic categories were highly saturated, it was not possible to determine whether theoretical saturation had been achieved (BMJ04).
  • One article (BMJ18) cited a reference to support its position on saturation.

BJHP에서 6개의 논문이 데이터 포화 상태에 도달했다고 주장했고(BJHP21, BJHP32, BJHP39, BJHP48, BJHP49, BJHP52), 1개의 논문은 표본 크기와 데이터 포화 상태에 도달하기 위한 가이드라인을 고려할 때 포화 상태에 도달할 것으로 예상한다고 명시했습니다(BJHP50).  
In the BJHP, six articles claimed that they achieved data saturation (BJHP21; BJHP32; BJHP39; BJHP48; BJHP49; BJHP52) and one article stated that, given their sample size and the guidelines for achieving data saturation, it anticipated that saturation would be attained (BJHP50).

새로운 주제가 나타나지 않는 시점으로 정의되는 데이터 포화 상태에 도달할 때까지 모집을 계속했습니다. (BJHP48).
Recruitment continued until data saturation was reached, defined as the point at which no new themes emerged.
 (BJHP48).

이전에는 질적 연구에서 데이터 포화 상태에 도달하기 위해 최소 12개 이상의 표본 크기가 필요하다고 권장되어 왔습니다(Clarke & Braun, 2013; Fugard & Potts, 2014; Guest, Bunce, & Johnson, 2006). 따라서 이 연구의 질적 분석과 규모를 위해 13개의 표본이 충분한 것으로 간주되었습니다. (BJHP50).
It has previously been recommended that qualitative studies require a minimum sample size of at least 12 to reach data saturation (Clarke & Braun, 2013; Fugard & Potts, 2014; Guest, Bunce, & Johnson, 2006) Therefore, a sample of 13 was deemed sufficient for the qualitative analysis and scale of this study.
 (BJHP50).

두 개의 연구는 [주제 포화]를 달성했다고 주장했고(BJHP28 - 표본 크기 가이드라인 섹션의 발췌문 참조, BJHP31), 이론 개발과 이론적 표본 추출을 명시적으로 다룬 한 개의 논문(BJHP30)은 [이론적 포화]와 [데이터 포화]를 모두 주장했습니다.
Two studies argued that they achieved thematic saturation (BJHP28 – see extract in section Sample size guidelines; BJHP31) and one (BJHP30) article, explicitly concerned with theory development and deploying theoretical sampling, claimed both theoretical and data saturation.

최종 표본 크기는 주제 포화(주제와 참여자의 의견이 반복되어 새로운 데이터가 더 이상 연구 결과에 기여하지 않는 것으로 보이는 지점)에 따라 결정되었습니다(Morse, 1995). 이 시점에서 데이터 생성이 종료되었습니다. (BJHP31).
The final sample size was determined by thematic saturation, the point at which new data appears to no longer contribute to the findings due to repetition of themes and comments by participants (Morse, 1995). At this point, data generation was terminated.
 (BJHP31).

5개의 연구는 포화라는 용어를 더 이상 명시하지 않고 포화도를 달성(BJHP05, BJHP33, BJHP40, BJHP13 - 실용적 고려 사항 섹션의 발췌문 참조)했거나 예상(BJHP46)했다고 주장했습니다. BJHP17은 포화라는 용어를 구체적으로 사용하지 않고 포화 상태에 도달한 상태를 설명적으로 언급했습니다. 테마의 포화 상태가 아닌 [코딩의 포화 상태]에 도달했다고 주장한 논문은 한 편(BJHP18)이었습니다. 포화 상태에 도달하지 않았다고 명시적으로 언급한 논문은 2건이었으며, 그 대신 [테마의 완성도](BJHP27)를 주장하거나 테마가 복제되고 있다는 주장(BJHP53)을 통해 표본 크기의 충분성을 논증했습니다.
Five studies argued that they achieved (BJHP05; BJHP33; BJHP40; BJHP13 – see extract in section Pragmatic considerations) or anticipated (BJHP46) saturation without any further specification of the term. BJHP17 referred descriptively to a state of achieved saturation without specifically using the term. Saturation of coding, but not saturation of themes, was claimed to have been reached by one article (BJHP18). Two articles explicitly stated that they did not achieve saturation; instead claiming a level of theme completeness (BJHP27) or that themes being replicated (BJHP53) were arguments for sufficiency of their sample size.

또한 포화점에 도달한 시점이 아니라 실용적인 이유로 데이터 수집이 중단되었습니다. 그럼에도 불구하고 데이터 분석이 끝날 무렵에도 하위 테마 내 뉘앙스가 여전히 나타나고 있었지만, 테마 자체는 복제되고 있어 완성도가 높다는 것을 알 수 있었습니다. (BJHP27).
Furthermore, data collection ceased on pragmatic grounds rather than at the point when saturation point was reached. Despite this, although nuances within sub-themes were still emerging towards the end of data analysis, the themes themselves were being replicated indicating a level of completeness.
 (BJHP27).

마지막으로, 한 논문에서는 [이론적 충분성]의 기준이 표본 크기를 결정한다고 주장하며 데이터 포화도 개념을 비판하고 명시적으로 포기했습니다(BJHP16).
Finally, one article criticised and explicitly renounced the notion of data saturation claiming that, on the contrary, the criterion of theoretical sufficiency determined its sample size (BJHP16).

원래 근거 이론 텍스트에 따르면, 데이터 수집은 새로운 발견이 없을 때까지(즉, '데이터 포화'; Glaser & Strauss, 1967) 계속되어야 합니다. 그러나 최근 이 과정에 대한 개정 논의에서는 데이터 수집이 완전한 과정인 경우는 드물며, 연구자는 데이터가 충분한 이론적 설명을 만들 수 있는 정도, 즉 '이론적 충분성'에 의존해야 한다고 주장하고 있습니다(Dey, 1999). 이 연구에서는 데이터 포화도를 찾기보다는 이론적 충분성을 기준으로 모집을 진행하기로 결정했습니다. (BJHP16).
According to the original Grounded Theory texts, data collection should continue until there are no new discoveries (
i.e., ‘data saturation’; Glaser & Strauss, 1967). However, recent revisions of this process have discussed how it is rare that data collection is an exhaustive process and researchers should rely on how well their data are able to create a sufficient theoretical account or ‘theoretical sufficiency’ (Dey, 1999). For this study, it was decided that theoretical sufficiency would guide recruitment, rather than looking for data saturation. (BJHP16).

포화도 논증을 사용한 20개의 BJHP 논문 중 10개가 이 원칙과 관련된 인용을 하나 이상 사용했습니다.
Ten out of the 20 BJHP articles that employed the argument of saturation used one or more citations relating to this principle.

SHI에서는 한 논문(SHI01)이 저자의 판단에 따라 카테고리 포화를 달성했다고 주장했습니다.
In the SHI, one article (SHI01) claimed that it achieved category saturation based on authors’ judgment.

이 수치는 사전에 정해진 것이 아니라 샘플링 전략과 데이터 분석을 기반으로 '카테고리 포화'가 달성되는 시점에 대한 판단에 따라 결정되었습니다. (SHI01).
This number was not fixed in advance, but was guided by the sampling strategy and the judgement, based on the analysis of the data, of the point at which ‘category saturation’ was achieved.
 (SHI01).

3편의 논문은 포화도라는 용어를 사용하지 않거나 어떤 종류의 포화도(예: 데이터, 이론적, 주제적 포화도)를 달성했는지 명시하지 않고 포화도 달성 상태를 설명했으며(SHI04, SHI13, SHI30), 나머지 4편의 논문은 포화도를 달성했다고 명시적으로 언급했습니다(SHI100, SHI125, SHI136, SHI137). 2편의 논문은 데이터 포화를 달성했다고 명시했고(SHI73 - 표본 크기 가이드라인 섹션의 발췌문 참조, SHI113), 2편은 이론적 포화를 주장했으며(SHI78; SHI115), 2편은 주제별 포화를 달성했거나(SHI87; SHI139) 포화된 주제를 언급했습니다(SHI29; SHI50). 
Three articles described a state of achieved saturation without using the term or specifying what sort of saturation they had achieved (i.e. data, theoretical, thematic saturation) (SHI04; SHI13; SHI30) whilst another four articles explicitly stated that they achieved saturation (SHI100; SHI125; SHI136; SHI137). Two papers stated that they achieved data saturation (SHI73 – see extract in section Sample size guidelines; SHI113), two claimed theoretical saturation (SHI78; SHI115) and two referred to achieving thematic saturation (SHI87; SHI139) or to saturated themes (SHI29; SHI50).

아래 설명된 범주에서 이론적 포화 상태에 도달하면 모집 및 분석이 중단되었습니다(링컨과 구바 1985). (SHI115).
Recruitment and analysis ceased once theoretical saturation was reached in the categories described below (Lincoln and Guba 1985).
 (SHI115).

아래에 표시된 응답자의 인용문은 대표적인 것으로 선택되었으며 포화 된 주제를 보여줍니다. (SHI50).
The respondents’ quotes drawn on below were chosen as representative, and illustrate saturated themes.
 (SHI50).

한 기사에서는 표본 크기로 인해 주제별 포화도가 예상되었다고 언급했습니다(SHI94). [이론적 포화도를 정확히 파악하기 어렵다는 점]을 간략하게 언급하면서 SHI32(데이터의 풍부성 및 양 섹션의 발췌문 참조)는 "인터뷰 대상자들 사이에서 나타나기 시작한 높은 수준의 합의"를 근거로 표본 크기의 충분성을 옹호하며 인터뷰의 정보가 복제되고 있음을 시사했습니다. 마지막으로 SHI112(조사 결과의 일관성을 확인하기 위한 추가 샘플링 섹션의 발췌문 참조)는 [담론 패턴의 포화 상태]를 달성했다고 주장했습니다. 19개의 SHI 논문 중 7개가 [포화에 대한 입장을 뒷받침하는 참고 문헌을 인용]했습니다(세 저널에서 포화도에 대한 입장을 뒷받침하기 위해 논문에서 사용한 인용 문헌의 전체 목록은 추가 파일 4 참조).
One article stated that thematic saturation was anticipated with its sample size (SHI94). Briefly referring to the difficulty in pinpointing achievement of theoretical saturation, SHI32 (see extract in section Richness and volume of data) defended the sufficiency of its sample size on the basis of “the high degree of consensus [that] had begun to emerge among those interviewed”, suggesting that information from interviews was being replicated. Finally, SHI112 (see extract in section Further sampling to check findings consistency) argued that it achieved saturation of discursive patterns. Seven of the 19 SHI articles cited references to support their position on saturation (see Additional File 4 for the full list of citations used by articles to support their position on saturation across the three journals).

전반적으로 포화도 개념은 포화, 데이터 포화, 주제 포화, 이론적 포화, 카테고리 포화, 코딩의 포화, 담론적 주제의 포화, 주제 완성도 등의 용어로 표현되는 다양한 변형을 포괄하는 것이 분명합니다. 그러나 이러한 다양한 주장이 때때로 문헌을 참조하여 뒷받침되기는 하지만, 당면한 연구와 관련하여 입증되지는 않았다는 점에 주목할 필요가 있습니다.
Overall, it is clear that the concept of saturation encompassed a wide range of variants expressed in terms such as saturation, data saturation, thematic saturation, theoretical saturation, category saturation, saturation of coding, saturation of discursive themes, theme completeness. It is noteworthy, however, that although these various claims were sometimes supported with reference to the literature, they were not evidenced in relation to the study at hand.

실용적인 고려 사항
Pragmatic considerations

실용적 고려사항에 근거한 표본 크기 결정은 세 학술지 모두에서 두 번째로 자주 인용된 주장(전체 정당화 중 9.6%)이었습니다. BMJ에서는 한 논문(BMJ15)에서 시간 제약과 특정 연구 모집단에 접근하기 어렵다는 실용적인 이유를 들어 표본 크기 결정을 정당화했습니다.
The determination of sample size on the basis of pragmatic considerations was the second most frequently invoked argument (9.6% of all justifications) appearing in all three journals. In the BMJ, one article (BMJ15) appealed to pragmatic reasons, relating to time constraints and the difficulty to access certain study populations, to justify the determination of its sample size.

연구자들의 이전 경험과 문헌에 근거하여[30, 31] 각 사이트에서 15~20명의 환자를 모집하면 각 사이트의 데이터를 개별적으로 분석할 때 데이터 포화 상태에 도달할 것으로 예상했습니다. 시간 제약과 일부 재택 간호 서비스에서 간병인을 구하기 어려울 것으로 예상되어 사이트당 7~10명의 간병인을 목표로 설정했습니다. 이를 통해 전체적으로 75-100명의 환자와 35-50명의 간병인을 대상으로 표본을 추출했습니다. (BMJ15).
On the basis of the researchers’ previous experience and the literature, 
[30, 31] we estimated that recruitment of 15–20 patients at each site would achieve data saturation when data from each site were analysed separately. We set a target of seven to 10 caregivers per site because of time constraints and the anticipated difficulty of accessing caregivers at some home based care services. This gave a target sample of 75–100 patients and 35–50 caregivers overall. (BMJ15).

BJHP에서는 시간 또는 재정적 제약(BJHP27 - 포화 섹션의 발췌문 참조, BJHP53), 참여자 응답률(BJHP13), 인터뷰 대상자를 샘플링하는 고정된참여자 풀의 (따라서 제한된) 규모(BJHP18)와 관련된 실용적인 고려 사항을 언급한 논문이 4편 있었습니다.
In the BJHP, four articles mentioned pragmatic considerations relating to time or financial constraints (BJHP27 – see extract in section Saturation; BJHP53), the participant response rate (BJHP13), and the fixed (and thus limited) size of the participant pool from which interviewees were sampled (BJHP18).

우리는 더 이상 데이터를 수집해도 더 이상 주제가 나오지 않는 포화 상태에 도달할 때까지 인터뷰를 계속하는 것을 목표로 삼았습니다. 실제로 연구에 참여하겠다고 자원한 사람의 수에 따라 연구 모집이 중단되는 시점이 결정되었습니다(청소년 15명, 부모 15명). 그럼에도 불구하고 마지막 몇 번의 인터뷰를 통해 개념의 상당한 반복이 발생하여 충분한 샘플링이 이루어졌음을 알 수 있었습니다. (BJHP13).
We had aimed to continue interviewing until we had reached saturation, a point whereby further data collection would yield no further themes. In practice, the number of individuals volunteering to participate dictated when recruitment into the study ceased (15 young people, 15 parents). Nonetheless, by the last few interviews, significant repetition of concepts was occurring, suggesting ample sampling.
 (BJHP13).

마지막으로 세 개의 SHI 논문은 시간 제약 및 프로젝트 관리 가능성(SHI56), 제한된 응답자 및 프로젝트 리소스(SHI131), 시간 제약(SHI113)과 같은 실용적인 측면과 관련하여 표본 규모를 설명했습니다.
Finally, three SHI articles explained their sample size with reference to practical aspects:

  • time constraints and project manageability (SHI56),
  • limited availability of respondents and project resources (SHI131), and
  • time constraints (SHI113).

표본의 크기는 주로 연구를 완료할 수 있는 응답자와 리소스의 가용성에 따라 결정되었습니다. 표본 구성은 가능한 한 맥락적 요인(예: 성별 관계 및 인종)이 질병 경험을 매개하는 방식에 대한 우리의 관심을 반영했습니다. (SHI131).
The size of the sample was largely determined by the availability of respondents and resources to complete the study. Its composition reflected, as far as practicable, our interest in how contextual factors (for example, gender relations and ethnicity) mediated the illness experience.
 (SHI131).

분석의 질
Qualities of the analysis

이 표본 크기 정당화(전체 정당화 중 8.4%)는 주로 BJHP 기사에서 사용되었으며, 집중적이고 관용적이거나 잠재적으로 초점을 맞춘 분석, 즉 [설명description을 넘어선 분석]에 대해 언급했습니다. 보다 구체적으로, 6개의 논문은 녹취록에 대한 집중적인 분석 및/또는 연구/분석의 관용적 초점을 근거로 표본 크기를 옹호했습니다. 이 중 4개 논문(BJHP02, BJHP19, BJHP24, BJHP47)은 해석적 현상학적 분석(IPA) 접근법을 채택했습니다. 
This sample size justification (8.4% of all justifications) was mainly employed by BJHP articles and referred to an intensive, idiographic and/or latently focused analysis, i.e. that moved beyond description. More specifically, six articles defended their sample size on the basis of an intensive analysis of transcripts and/or the idiographic focus of the study/analysis. Four of these papers (BJHP02; BJHP19; BJHP24; BJHP47) adopted an Interpretative Phenomenological Analysis (IPA) approach.

본 연구에서는 각 참가자의 account을 탐색하기 위한 목적으로 10명의 표본을 사용했습니다(Smith et al., 1999). (BJHP19).
The current study employed a sample of 10 in keeping with the aim of exploring each participant’s account (Smith
 et al., 1999). (BJHP19).

BJHP47은 IPA 접근법 내에서 포화 개념을 명시적으로 포기했습니다. 다른 두 BJHP 논문은 주제 분석을 수행했습니다(BJHP34; BJHP38). 분석 수준 (즉, 피상적 인 설명 분석과 반대되는 잠재적 분석)은 개별 녹취록에 대한 집중적 인 분석이라는 주장과 함께 BJHP38에 의해 정당화로도 호출되었습니다.
BJHP47 explicitly renounced the notion of saturation within an IPA approach. The other two BJHP articles conducted thematic analysis (BJHP34; BJHP38). The level of analysis – i.e. latent as opposed to a more superficial descriptive analysis – was also invoked as a justification by BJHP38 alongside the argument of an intensive analysis of individual transcripts

그 결과 표본 크기는 주제별 분석에 사용되는 표본 크기 범위의 하위에 속했습니다(Braun & Clarke, 2013). 이는 각 녹취록에 대한 [상당한 성찰, 대화 및 시간을 확보하기 위한 것]으로, 피상적인 서술적 분석이 아닌 근본적인 아이디어를 파악하기 위해 사용된 [보다 잠재적인 수준의 분석]에 부합하는 것이었습니다(Braun & Clarke, 2006). (BJHP38).
The resulting sample size was at the lower end of the range of sample sizes employed in thematic analysis (Braun & Clarke, 2013). This was in order to enable significant reflection, dialogue, and time on each transcript and was in line with the more latent level of analysis employed, to identify underlying ideas, rather than a more superficial descriptive analysis (Braun & Clarke, 2006).
 (BJHP38).

마지막으로, 한 BMJ 논문(BMJ21)은 [분석 작업의 복잡성]을 언급하며 표본 규모를 옹호했습니다.
Finally, one BMJ paper (BMJ21) defended its sample size with reference to the complexity of the analytic task.

인터뷰의 깊이와 기간, 데이터의 풍부함, 분석 작업의 복잡성 때문에 30~35명의 인터뷰에 도달했을 때 모집을 중단했습니다. (BMJ21).
We stopped recruitment when we reached 30–35 interviews, owing to the depth and duration of interviews, richness of data, and complexity of the analytical task.
 (BMJ21).

샘플링 요건 충족
Meet sampling requirements

표본 추출 요건 충족(전체 정당화 이유 중 7.2%)은 두 개의 BMJ 논문과 네 개의 SHI 논문에서 표본 크기를 설명하기 위해 사용한 또 다른 논거였습니다. 특정 인터뷰 대상자 특성 측면에서 [최대 변동 샘플링을 달성]하는 것이 두 개의 BMJ 연구(BMJ02, BMJ16 - 연구 설계 요건 충족 섹션의 발췌문 참조)의 표본 규모를 결정하고 설명했습니다.
Meeting sampling requirements (7.2% of all justifications) was another argument employed by two BMJ and four SHI articles to explain their sample size. Achieving maximum variation sampling in terms of specific interviewee characteristics determined and explained the sample size of two BMJ studies (BMJ02; BMJ16 – see extract in section Meet research design requirements).

연령, 성별, 인종, 출석 빈도, 건강 상태의 다양성에 대한 샘플링 프레임 요건이 충족될 때까지 모집을 계속했습니다. (BMJ02).
Recruitment continued until sampling frame requirements were met for diversity in age, sex, ethnicity, frequency of attendance, and health status.
 (BMJ02).

SHI 논문과 관련하여 두 논문에서 표본 추출 전략에 근거하여 표본 수를 설명한 반면(SHI01-포화도 섹션의 발췌문 참조, SHI23), 한 논문에서는 [특정 관심 특성 측면에서 표본 이질성을 확보]하는 데 도움이 되는 표본 추출 요건이 인용되었습니다(SHI127).
Regarding the SHI articles, two papers explained their numbers on the basis of their sampling strategy (SHI01- see extract in section Saturation; SHI23) whilst sampling requirements that would help attain sample heterogeneity in terms of a particular characteristic of interest was cited by one paper (SHI127).

정량적 연구를 위한 모집 장소와 추가 목적 기준의 조합으로 104건의 2단계 인터뷰가 이루어졌습니다(인터넷(OLC): 21건, 인터넷(FTF): 20건, 체육관(FTF): 23건, HIV 검사(FTF): 20건, HIV 치료(FTF): 20건.). (SHI23).
The combination of matching the recruitment sites for the quantitative research and the additional purposive criteria led to 104 phase 2 interviews (Internet (OLC): 21; Internet (FTF): 20); Gyms (FTF): 23; HIV testing (FTF): 20; HIV treatment (FTF): 20.)
 (SHI23).

실시된 50건의 인터뷰 중 30건은 스페인어에서 영어로 번역되었습니다. 연구 결과를 도출한 이 30명은 우울증 증상과 교육 수준의 이질성을 고려하여 번역 대상으로 선정되었습니다. (SHI127).
Of the fifty interviews conducted, thirty were translated from Spanish into English. These thirty, from which we draw our findings, were chosen for translation based on heterogeneity in depressive symptomology and educational attainment.
 (SHI127).

마지막으로, 인터뷰 횟수를 정당화하는 데 사용되지는 않았지만 [표본 추출 요건에 따라 표본 크기를 미리 결정한 논문]이 한 편 있었습니다(SHI10).
Finally, the pre-determination of sample size on the basis of sampling requirements was stated by one article though this was not used to justify the number of interviews (SHI10).

표본 크기 가이드라인
Sample size guidelines

5개의 BJHP 논문(BJHP28, BJHP38 - 분석의 질 섹션의 발췌문 참조, BJHP46, BJHP47, BJHP50 - 포화도 섹션의 발췌문 참조)과 1개의 SHI 논문(SHI73)은 [기존의 표본 크기 가이드라인 또는 연구 전통 내 규범]을 인용하여 표본 크기를 결정하고 이를 정당화하는 데 의존했습니다(전체 정당화 사례의 7.2%).
Five BJHP articles (BJHP28; BJHP38 – see extract in section Qualities of the analysis; BJHP46; BJHP47; BJHP50 – see extract in section Saturation) and one SHI paper (SHI73) relied on citing existing sample size guidelines or norms within research traditions to determine and subsequently defend their sample size (7.2% of all justifications).

표본 크기 가이드라인에서는 20~30건의 인터뷰가 적절하다고 제시했습니다(Creswell, 1998). 면접관과 메모 작성자는 20번의 면접을 완료한 후 주제 포화 상태, 즉 후속 면접에서 새로운 개념이 나오지 않는 지점(Patton, 2002)에 도달했다는 데 동의했습니다. (BJHP28).
Sample size guidelines suggested a range between 20 and 30 interviews to be adequate (Creswell, 1998). Interviewer and note taker agreed that thematic saturation, the point at which no new concepts emerge from subsequent interviews (Patton, 2002), was achieved following completion of 20 interviews.
 (BJHP28).

데이터 포화(새로운 주제가 나오지 않는 지점)에 도달했다고 판단될 때까지 인터뷰를 계속했습니다. 연구자들은 반구조적 인터뷰 접근법을 사용할 때 이론적 포화 상태에 도달할 것으로 예상되는 대략적인 인터뷰 횟수 또는 실제 인터뷰 횟수로 30회를 제안했지만(Morse 2000), 이는 인터뷰 응답자의 이질성 및 탐구하는 문제의 복잡성에 따라 달라질 수 있습니다. (SHI73).
Interviewing continued until we deemed data saturation to have been reached (the point at which no new themes were emerging). Researchers have proposed 30 as an approximate or working number of interviews at which one could expect to be reaching theoretical saturation when using a semi-structured interview approach (Morse 2000), although this can vary depending on the heterogeneity of respondents interviewed and complexity of the issues explored.
 (SHI73).

기존 연구와 일치
In line with existing research

조사 대상 주제 분야의 출판 문헌의 표본 크기(전체 근거의 3.5%)는 2편의 BMJ 논문에서 자체 표본 크기를 결정하고 방어하기 위한 지침 및 선례로 사용되었습니다(BMJ08; BMJ15 - 실용적 고려 사항 섹션의 발췌문 참조).
Sample sizes of published literature in the area of the subject matter under investigation (3.5% of all justifications) were used by 2 BMJ articles as guidance and a precedent for determining and defending their own sample size (BMJ08; BMJ15 – see extract in section Pragmatic considerations).

연구 범위 내에서 데이터 포화도를 달성하고 충분한 후속 인터뷰를 진행하기 위해 매주 출소 예정인 수감자 목록에서 참가자를 추출하여 목표인 35건에 도달할 때까지 샘플링했으며, 이는 최근 연구[8-10]와 일치합니다. (BMJ08).
We drew participants from a list of prisoners who were scheduled for release each week, sampling them until we reached the target of 35 cases, with a view to achieving data saturation within the scope of the study and sufficient follow-up interviews and in line with recent studies 
[8–10]. (BMJ08).

마찬가지로 BJHP38(분석의 질 섹션의 발췌문 참조)은 표본 크기가 해당 분석 접근법을 사용하는 발표된 연구들의 표본 크기 범위 내에 있다고 주장했습니다.
Similarly, BJHP38 (see extract in section Qualities of the analysis) claimed that its sample size was within the range of sample sizes of published studies that use its analytic approach.

데이터의 풍부함 및 양
Richness and volume of data

BMJ21(분석의 질 섹션의 발췌문 참조)과 SHI32는 표본 크기의 충분성을 정당화하기 위해 수집된 데이터의 풍부함, 상세성, 양(전체 정당화 근거의 2.3%)을 언급했습니다.
BMJ21 (see extract in section Qualities of the analysis) and SHI32 referred to the richness, detailed nature, and volume of data collected (2.3% of all justifications) to justify the sufficiency of their sample size.

우편번호 추출을 통해 연락을 받은 잠재적 인터뷰 대상자가 더 많았음에도 불구하고 10차 인터뷰 이후에는 모집을 중단하고 이 표본 분석에 집중하기로 결정했습니다. 수집된 자료는 상당히 많았고, 연구의 집중적인 특성을 고려할 때 매우 상세했습니다. 또한 인터뷰 대상자들 사이에서 높은 수준의 합의가 이루어지기 시작했고, 어느 시점에서 '이론적 포화'에 도달했는지 또는 예외를 발견하기 위해 얼마나 많은 인터뷰가 필요한지 판단하기는 항상 어렵지만이 소규모 심층 조사의 목표를 충족시키기에 충분하다고 느꼈습니다 (Strauss and Corbin 1990). (SHI32).
Although there were more potential interviewees from those contacted by postcode selection, it was decided to stop recruitment after the 10th interview and focus on analysis of this sample. The material collected was considerable and, given the focused nature of the study, extremely detailed. Moreover, a high degree of consensus had begun to emerge among those interviewed, and while it is always difficult to judge at what point ‘theoretical saturation’ has been reached, or how many interviews would be required to uncover exception(s), it was felt the number was sufficient to satisfy the aims of this small in-depth investigation (Strauss and Corbin 1990).
 (SHI32).

연구 설계 요건 충족
Meet research design requirements

본 연구에서 채택한 연구 설계의 요건에 부합하는 표본 크기 결정(전체 정당화의 2.3%)은 2편의 BMJ 논문(BMJ16, BMJ08 - 기존 연구와 일치하는 섹션의 발췌문 참조)에서 사용된 또 다른 정당화였습니다.
Determination of sample size so that it is in line with, and serves the requirements of, the research design (2.3% of all justifications) that the study adopted was another justification used by 2 BMJ papers (BMJ16; BMJ08 – see extract in section In line with existing research).

우리는 다양한 사회적 배경과 인종, 다양한 유형의 자살 및 외상성 사망으로 인한 유가족으로 구성된 총 80명의 응답자[20]를 대상으로 다양하고 최대한의 표본을 확보하고자 했습니다. 다른 시점에 더 작은 표본을 인터뷰할 수도 있었지만(질적 종단 연구), 대신 수년 전에 유족이 된 사람과 최근에 유족이 된 사람, 다른 환경에 처한 유족과 고인과의 관계가 다른 유족, 영국의 다른 지역에 거주하는 사람, 다른 지원 시스템과 검시관 절차를 가진 사람들을 인터뷰하여 광범위한 경험을 추구하기로 결정했습니다(자세한 내용은 표 1과 2 참조). (BMJ16).
We aimed for diverse, maximum variation samples 
[20] totalling 80 respondents from different social backgrounds and ethnic groups and those bereaved due to different types of suicide and traumatic death. We could have interviewed a smaller sample at different points in time (a qualitative longitudinal study) but chose instead to seek a broad range of experiences by interviewing those bereaved many years ago and others bereaved more recently; those bereaved in different circumstances and with different relations to the deceased; and people who lived in different parts of the UK; with different support systems and coroners’ procedures (see Tables 1 and 2 for more details). (BMJ16).

연구자의 이전 경험
Researchers’ previous experience

연구자의 이전 경험(질적 연구 경험일 수 있음)은 BMJ15(실용적 고려 사항 섹션의 발췌문 참조)에서 표본 크기 결정의 근거로 사용되었습니다.
The researchers’ previous experience (possibly referring to experience with qualitative research) was invoked by BMJ15 (see extract in section Pragmatic considerations) as a justification for the determination of sample size.

연구의 성격
Nature of study

한 BJHP 논문에서는 표본 크기가 연구의 탐색적 성격에 적합하다고 주장했습니다(BJHP38).
One BJHP paper argued that the sample size was appropriate for the exploratory nature of the study (BJHP38).

이 연구의 탐구적 성격과 주제에 대한 근본적인 아이디어를 파악하는 데 중점을 두었기 때문에 8명의 참가자 표본이 적절한 것으로 간주되었습니다. (BJHP38).
A sample of eight participants was deemed appropriate because of the exploratory nature of this research and the focus on identifying underlying ideas about the topic.
 (BJHP38).

조사 결과의 일관성을 확인하기 위한 추가 샘플링
Further sampling to check findings consistency

마지막으로, SHI112는 담론 패턴의 포화 상태에 도달한 후, 연구 결과의 일관성을 확인하기 위해 추가 샘플링을 결정하고 수행했다고 주장했습니다.
Finally, SHI112 argued that once it had achieved saturation of discursive patterns, further sampling was decided and conducted to check for consistency of the findings.

연령별로 계층화된 각 그룹 내에서 담화 패턴의 포화 상태에 도달할 때까지 무작위로 인터뷰를 샘플링했습니다. 그 결과 67개의 인터뷰 샘플이 도출되었습니다. 이 샘플을 분석한 후, 연령별로 세분화된 각 그룹에서 무작위로 한 개의 인터뷰를 추가로 선정하여 조사 결과의 일관성을 확인했습니다. 이러한 접근 방식을 통해 주제 영역에서 '나', 주체성, 관계성, 권력에 대한 아동의 담론을 보다 주의 깊게 살펴볼 수 있었으며, 이 글에서 설명한 미묘한 담론적 변이를 발견할 수 있었습니다. (SHI112).
Within each of the age-stratified groups, interviews were randomly sampled until saturation of discursive patterns was achieved. This resulted in a sample of 67 interviews. Once this sample had been analysed, one further interview from each age-stratified group was randomly chosen to check for consistency of the findings. Using this approach it was possible to more carefully explore children’s discourse about the ‘I’, agency, relationality and power in the thematic areas, revealing the subtle discursive variations described in this article.
 (SHI112).

표본 크기를 논의하는 구절의 주제별 분석
Thematic analysis of passages discussing sample size

이 분석 결과 두 가지 중요한 주제 영역이 발견되었는데, 첫 번째는 표본 크기 충분성의 특징에 대한 변화, 두 번째는 표본 크기 부족으로 인한 인식된 위협과 관련된 것입니다.
This analysis resulted in two overarching thematic areas; the first concerned the variation in the characterisation of sample size sufficiency, and the second related to the perceived threats deriving from sample size insufficiency.

표본 크기 충분성의 특성
Characterisations of sample size sufficiency

분석 결과, 관련 의견과 논의를 제공한 논문에서 표본 크기에 대한 세 가지 주요 특징이 나타났습니다. 

  • (a) 대다수의 질적 연구(n = 42)는 표본 크기가 '작다'고 간주하고 이를 한계로 보고 논의했으며, 두 논문만이 작은 표본 크기를 바람직하고 적절한 것으로 간주했습니다. 
  • (b) 소수의 논문(n = 4)은 달성한 표본 크기가 '충분하다'고 선언했으며, 
  • (c) 마지막으로 소수의 연구 그룹(n = 5)은 표본 크기가 '크다'고 특징짓고 있었습니다. 

'큰' 표본 크기를 달성하는 것이 보다 풍부한 결과를 도출할 수 있다는 점에서 긍정적으로 여겨지기도 했지만, 표본 크기가 큰 것이 바람직하기보다는 문제가 되는 경우도 있었습니다.
The analysis showed that there were three main characterisations of the sample size in the articles that provided relevant comments and discussion:

  • (a) the vast majority of these qualitative studies (n = 42) considered their sample size as ‘small’ and this was seen and discussed as a limitation; only two articles viewed their small sample size as desirable and appropriate
  • (b) a minority of articles (n = 4) proclaimed that their achieved sample size was ‘sufficient’; and
  • (c) finally, a small group of studies (n = 5) characterised their sample size as ‘large’.

Whilst achieving a ‘large’ sample size was sometimes viewed positively because it led to richer results, there were also occasions when a large sample size was problematic rather than desirable.

'작다'고 하지만 왜 그리고 누구를 위한 것인가?
‘Small’ but why and for whom?

표본 크기가 '작다'고 명시한 다수의 논문은 암시적이거나 명시적인 정량적 기준 프레임워크에 반하는 결과를 초래했습니다. 흥미로운 점은 표본 크기로 데이터 포화도 또는 '이론적 충분성'을 달성했다고 주장한 3건의 연구에서 '작은' 표본 크기에 대해 논의하거나 한계로 지적했는데, 포화도의 질적 기준이 충족된 상황에서 [왜, 또는 누구를 위해 표본 크기가 작은 것으로 간주했는지에 대한 의문]을 가지게 한다.
A number of articles which characterised their sample size as ‘small’ did so against an implicit or explicit quantitative framework of reference. Interestingly, three studies that claimed to have achieved data saturation or ‘theoretical sufficiency’ with their sample size, discussed or noted as a limitation in their discussion their ‘small’ sample size, raising the question of why, or for whom, the sample size was considered small given that the qualitative criterion of saturation had been satisfied.

이번 연구에는 여러 가지 한계가 있습니다. 표본 크기가 작았고(n = 11), 새로운 주제가 나타나지 않을 만큼 충분히 컸습니다. (BJHP39).
The current study has a number of limitations. The sample size was small (n = 11) and, however, large enough for no new themes to emerge.
 (BJHP39).

이 연구에는 두 가지 주요 한계가 있습니다. 첫 번째는 연구에 참여한 응답자 수가 적다는 점입니다. (SHI73).
The study has two principal limitations. The first of these relates to the small number of respondents who took part in the study.
 (SHI73).

다른 기사들은 표본의 크기가 작기 때문에 (비대표성, 편향성, 자기 선택 등 다른 구성적 '결함'과 함께) 표본에 결함이 있음을 인정하고 받아들이거나, 표본 크기가 작다는 이유로 비판을 받을 수 있음을 예상하는 것처럼 보였습니다. [상상 속의 청중(아마도 리뷰어 또는 독자)]은 정량적 연구의 원칙을 고수하는 경향이 있는 사람으로, 작은 표본이 문제가 될 수 있다는 인식을 나타내는 것이 중요한 사람인 것 같았습니다. 표본이 작다는 것은 종종 후회나 사과의 담론으로 포장된 한계로 해석되기도 했습니다.
Other articles appeared to accept and acknowledge that their sample was flawed because of its small size (as well as other compositional ‘deficits’ e.g. non-representativeness, biases, self-selection) or anticipated that they might be criticized for their small sample size. It seemed that the imagined audience – perhaps reviewer or reader – was one inclined to hold the tenets of quantitative research, and certainly one to whom it was important to indicate the recognition that small samples were likely to be problematic. That one’s sample might be thought small was often construed as a limitation couched in a discourse of regret or apology.

간혹 작은 규모를 한계로 표현하는 것은 [실증주의 프레임워크와 정량적 연구를 지지하는 입장]에 명시적으로 부합하는 경우가 있었습니다.
Very occasionally, the articulation of the small size as a limitation was explicitly aligned against an espoused positivist framework and quantitative research.

이 연구에는 몇 가지 한계가 있습니다. 첫째, 100건의 사건 샘플은 매년 발생하는 전체 심각한 사건 중 극히 일부에 불과합니다.26 우리는 전국적으로 초대장을 보냈지만 더 많은 사람들이 연구에 자원하지 않은 이유를 알 수 없습니다. 그러나 의료 사고에 대한 역학적 지식이 부족하기 때문에 적절한 표본 규모를 결정하는 것은 여전히 어려운 일입니다. (BMJ20).
This study has some limitations. Firstly, the 100 incidents sample represents a small number of the total number of serious incidents that occurs every year.
26 We sent out a nationwide invitation and do not know why more people did not volunteer for the study. Our lack of epidemiological knowledge about healthcare incidents, however, means that determining an appropriate sample size continues to be difficult. (BMJ20).

양적 세계와 질적 세계를 구분하는 다양한 요건과 프로토콜 사이에서 [질적 연구자들이 명백하게 오락가락하고 있음]을 나타내는 몇 가지 사례에서, '작은' 표본 크기를 한계로 잠시 인정한 후, 경험의 복잡성을 포착하고 관용적으로 탐구하는 능력과 성공, 특히 풍부한 데이터를 생성하는 등 보다 질적인 근거로 연구를 옹호하는 논문이 있었습니다.
Indicative of an apparent oscillation of qualitative researchers between the different requirements and protocols demarcating the quantitative and qualitative worlds, there were a few instances of articles which briefly recognised their ‘small’ sample size as a limitation, but then defended their study on more qualitative grounds, such as their ability and success at capturing the complexity of experience and delving into the idiographic, and at generating particularly rich data.

이 연구는 규모는 제한적이지만 소득과 물질적 상황에 관한 남성의 태도와 경험에 내재된 복잡성을 포착하려고 노력했습니다. (SHI35).
This research, while limited in size, has sought to capture some of the complexity attached to men’s attitudes and experiences concerning incomes and material circumstances.
 (SHI35).

소셜 네트워크에 대한 접근을 협상하는 것이 느리고 노동 집약적이기 때문에 우리의 숫자는 적지만, 우리의 방법은 매우 풍부한 데이터를 생성했습니다. (BMJ21).
Our numbers are small because negotiating access to social networks was slow and labour intensive, but our methods generated exceptionally rich data.
 (BMJ21).

이 연구는 대표성이 없는 소규모 표본을 사용했다는 비판을 받을 수 있습니다. 선탠에 관한 연구에서 노년층이 무시되어 왔고, 피부가 고운 노년층이 피부암을 경험할 가능성이 가장 높으며, 여성은 일광욕을 할 때 건강보다 외모를 우선시한다는 점을 고려할 때, 이번 연구는 연구적 관심이 매우 필요한 인구통계학적 그룹에 대한 깊이 있고 풍부한 데이터를 제공합니다. (SHI57).
This study could be criticised for using a small and unrepresentative sample. Given that older adults have been ignored in the research concerning suntanning, fair-skinned older adults are the most likely to experience skin cancer, and women privilege appearance over health when it comes to sunbathing practices, our study offers depth and richness of data in a demographic group much in need of research attention.
 (SHI57).

'충분히 좋은' 표본 크기
‘Good enough’ sample sizes

달성한 표본 크기가 충분하다고 어느 정도 [자신감을 표명한 논문]은 4개에 불과했습니다. 예를 들어, SHI139는 주제 포화도에 대한 정당성을 제시하면서 낮은 응답률에도 불구하고 표본 크기의 충분성에 대한 신뢰를 표명했습니다. 마찬가지로 표본 크기의 정당성을 제시하지 않은 BJHP04는 낮은 응답률이 예상되었기 때문에 결국 충분한 수의 인터뷰 대상자를 모집하기 위해 더 큰 표본 크기를 목표로 삼았다고 주장했습니다.
Only four articles expressed some degree of confidence that their achieved sample size was sufficient. For example, SHI139, in line with the justification of thematic saturation that it offered, expressed trust in its sample size sufficiency despite the poor response rate. Similarly, BJHP04, which did not provide a sample size justification, argued that it targeted a larger sample size in order to eventually recruit a sufficient number of interviewees, due to anticipated low response rate.

대상 모집단 133명 중 23명(즉, 17.3%)의 제1형 당뇨병 환자가 참여에 동의했지만 4명은 이후 추가 연락에 응답하지 않았습니다(총 N = 19). 해당 연령대의 젊은이들의 바쁜 라이프스타일, 지리적 제약, 반구조화된 인터뷰 참여에 필요한 시간으로 인해 상대적으로 낮은 응답률이 예상되었기 때문에 더 많은 대상 표본을 통해 충분한 수의 참가자를 모집할 수 있었습니다. (BJHP04).
Twenty-three people with type I diabetes from the target population of 133 (
i.e. 17.3%) consented to participate but four did not then respond to further contacts (total N = 19). The relatively low response rate was anticipated, due to the busy life-styles of young people in the age range, the geographical constraints, and the time required to participate in a semi-structured interview, so a larger target sample allowed a sufficient number of participants to be recruited. (BJHP04).

다른 두 논문(BJHP35, SHI32)은 연구의 범위(즉, '소규모 심층 조사'), 목적 및 성격(즉, '탐색적')에 따라 충분하다고 주장한 표본 수를 연구의 특정 맥락과 연결시켰습니다. 그럼에도 불구하고 표본 크기가 충분하다는 주장은 표본 크기가 클수록 과학적으로 더 생산적이라는 인정과 병치될 때 때때로 약화되었습니다.
Two other articles (BJHP35; SHI32) linked the claimed sufficiency to the scope (i.e. ‘small, in-depth investigation’), aims and nature (i.e. ‘exploratory’) of their studies, thus anchoring their numbers to the particular context of their research. Nevertheless, claims of sample size sufficiency were sometimes undermined when they were juxtaposed with an acknowledgement that a larger sample size would be more scientifically productive.

이 탐색적 연구에는 표본 규모가 충분했지만, 사회경제적 지위가 낮고 인종적 다양성이 더 많은 참가자를 포함하여 더 다양한 표본을 확보하면 더 많은 정보를 얻을 수 있을 것입니다. 또한 표본이 더 크면 더 다양한 플랫폼에서 운영되는 더 많은 대표 앱을 포함할 수 있습니다. (BJHP35).
Although our sample size was sufficient for this exploratory study, a more diverse sample including participants with lower socioeconomic status and more ethnic variation would be informative. A larger sample could also ensure inclusion of a more representative range of apps operating on a wider range of platforms.
 (BJHP35).

'대규모' 표본 크기 - 약속인가 위험인가?
‘Large’ sample sizes - Promise or peril?

포화도에 대한 정당성을 제공한 세 논문(BMJ13, BJHP05, BJHP48)은 모두 표본 크기가 '크다'고 특징짓고, 이러한 불충분성이 더 풍부한 데이터와 연구 결과를 제공하고 일반화 가능성을 높인다는 긍정적인 측면을 설명했습니다. 그러나 일반화 유형(BJHP48)은 더 이상 명시되지 않았습니다. 
Three articles (BMJ13; BJHP05; BJHP48) which all provided the justification of saturation, characterised their sample size as ‘large’ and narrated this oversufficiency in positive terms as it allowed richer data and findings and enhanced the potential for generalisation. The type of generalisation aspired to (BJHP48) was not further specified however.

이 연구는 중요하지만 연구가 부족한 주제에 대해 비교적 많은 전문가 정보 제공자 표본이 제공한 풍부한 데이터를 사용했습니다. (BMJ13).
This study used rich data provided by a relatively large sample of expert informants on an important but under-researched topic.
 (BMJ13).

질적 연구는 환자의 관점에서 임상 문제를 이해할 수 있는 독특한 기회를 제공합니다. 이 연구는 다양한 지역에서 모집된 대규모의 다양한 표본을 사용했으며 심층 인터뷰를 통해 결과의 풍부함과 일반화 가능성을 높였습니다. (BJHP48).
Qualitative research provides a unique opportunity to understand a clinical problem from the patient’s perspective. This study had a large diverse sample, recruited through a range of locations and used in-depth interviews which enhance the richness and generalizability of the results.
 (BJHP48).


일부 질적 연구자들은 '큰' 표본 규모를 지지하고 중요하게 생각하지만, IPA의 심리학 전통에서는 '큰' 표본 규모는 규범에 반하는 것이므로 정당화될 필요가 있었습니다. IPA를 채택한 4건의 BJHP 연구는 모두 ['작은' 표본 크기의 적절성 또는 바람직성]을 표명하거나(BJHP41; BJHP45), 일반적인 표본 크기보다 더 큰 표본 크기를 포함하는 이유를 서둘러 설명했습니다(BJHP32; BJHP47). 예를 들어, 아래의 BJHP32는 IPA 연구에서 어떻게 큰 표본 크기를 수용할 수 있는지, 그리고 이것이 실제로 특정 연구 목적에 어떻게 적합한지에 대한 근거를 제공합니다. 비규범적 표본 크기 선택에 대한 설명을 강화하기 위해 유사한 표본 크기 접근법을 인용한 이전 IPA 연구를 선례로 사용합니다.
And whilst a ‘large’ sample size was endorsed and valued by some qualitative researchers, within the psychological tradition of IPA, a ‘large’ sample size was counter-normative and therefore needed to be justified. Four BJHP studies, all adopting IPA, expressed the appropriateness or desirability of ‘small’ sample sizes (BJHP41; BJHP45) or hastened to explain why they included a larger than typical sample size (BJHP32; BJHP47). For example, BJHP32 below provides a rationale for how an IPA study can accommodate a large sample size and how this was indeed suitable for the purposes of the particular research. To strengthen the explanation for choosing a non-normative sample size, previous IPA research citing a similar sample size approach is used as a precedent.

소규모 IPA 연구는 대규모 표본으로는 불가능한 심층 분석을 가능하게 합니다(Smith et al., 2009). (BJHP41).
Small scale IPA studies allow in-depth analysis which would not be possible with larger samples (Smith
 et al., 2009). (BJHP41).

IPA는 일반적으로 소수의 트랜스크립트를 집중적으로 조사하지만, 이번 연구는 (우리가 아는 한) 영국에서 이 집단에 대한 최초의 질적 연구이고 개요를 얻고자 했기 때문에 더 다양한 표본을 모집하기로 결정했습니다. 실제로 스미스, 플라워스, 라킨(2009)은 IPA가 대규모 집단에 적합하다는 데 동의합니다. 그러나 심층적인 개인주의적 분석에서 한 그룹의 사람들이 공유한 경험에서 공통된 주제를 도출하고 이를 통해 인터뷰에서 드러나는 주제 간의 관계망을 이해하는 데 사용할 수 있는 분석으로 강조점이 바뀝니다. 이 대규모 IPA 형식은 오탐 연구 분야의 다른 연구자들에 의해 사용되었습니다. 베일리, 스미스, 휴이슨, 메이슨(2000)은 24명의 참가자를 대상으로 염색체 이상에 대한 초음파 검사에 대한 IPA 연구를 수행했으며, 참가자의 수가 많을수록 더 정교하고 일관된 설명을 도출할 수 있다는 사실을 발견했습니다. (BJHP32).
Although IPA generally involves intense scrutiny of a small number of transcripts, it was decided to recruit a larger diverse sample as this is the first qualitative study of this population in the United Kingdom (as far as we know) and we wanted to gain an overview. Indeed, Smith, Flowers, and Larkin (2009) agree that IPA is suitable for larger groups. However, the emphasis changes from an in-depth individualistic analysis to one in which common themes from shared experiences of a group of people can be elicited and used to understand the network of relationships between themes that emerge from the interviews. This large-scale format of IPA has been used by other researchers in the field of false-positive research. Baillie, Smith, Hewison, and Mason (2000) conducted an IPA study, with 24 participants, of ultrasound screening for chromosomal abnormality; they found that this larger number of participants enabled them to produce a more refined and cohesive account.
 (BJHP32).

BJHP에서 발견된 IPA 논문은 '작은' 표본 규모를 옹호하고 '큰' 표본 규모를 문제 삼고 옹호한 유일한 사례입니다. 이러한 IPA 연구는 표본 크기 충분성의 특성화가 '객관적인' 표본 크기 평가의 결과라기보다는 연구자의 이론적, 인식론적 약속의 함수일 수 있음을 보여줍니다. 
The IPA articles found in the BJHP were the only instances where a ‘small’ sample size was advocated and a ‘large’ sample size problematized and defended. These IPA studies illustrate that the characterisation of sample size sufficiency can be a function of researchers’ theoretical and epistemological commitments rather than the result of an ‘objective’ sample size assessment.

표본 크기 불충분으로 인한 위협
Threats from sample size insufficiency

위에서 살펴본 바와 같이, 표본 크기에 대해 언급하는 대부분의 논문은 동시에 [표본 크기가 작고 문제가 있다]고 지적했습니다. 저자가 단순히 '작은' 표본 규모를 연구의 한계로 언급하는 것이 아니라 작은 표본 규모가 어떻게 그리고 왜 문제가 되는지에 대한 설명을 이어가는 경우, 연구의 두 가지 중요한 과학적 특성인 결과의 일반화 가능성과 타당성이 위협을 받는 것으로 보였습니다.
As shown above, the majority of articles that commented on their sample size, simultaneously characterized it as small and problematic. On those occasions that authors did not simply cite their ‘small’ sample size as a study limitation but rather continued and provided an account of how and why a small sample size was problematic, two important scientific qualities of the research seemed to be threatened: the generalizability and validity of results.

일반화 가능성
Generalizability

표본이 '작다'고 응답한 사람들은 이를 [결과의 일반화 가능성이 제한적이라는 점]과 연결지었습니다. 표본과 관련된 다른 특징들(종종 일종의 구성적 특수성)도 [일반화 가능성의 제한]과 관련이 있었습니다. 논문에서 어떤 형태의 일반화를 언급했는지 항상 명시적으로 표현된 것은 아니지만(BJHP09 참조), 일반화는 대부분 명목상의 개념, 즉 표본에서 더 넓은 연구 집단('대표성 일반화' - BJHP31 참조)으로 추론할 수 있는 가능성과 관련된 것이었고 다른 집단이나 문화에 대한 일반화는 덜 자주 언급되었습니다. 
Those who characterised their sample as ‘small’ connected this to the limited potential for generalization of the results. Other features related to the sample – often some kind of compositional particularity – were also linked to limited potential for generalisation. Though not always explicitly articulated to what form of generalisation the articles referred to (see BJHP09), generalisation was mostly conceived in nomothetic terms, that is, it concerned the potential to draw inferences from the sample to the broader study population (‘representational generalisation’ – see BJHP31) and less often to other populations or cultures.

표본이 적고 두 그룹 모두 대상 여성의 대다수가 참여했지만 일반화 가능성을 가정할 수 없다는 점에 유의해야 합니다. (BJHP09).
It must be noted that samples are small and whilst in both groups the majority of those women eligible participated, generalizability cannot be assumed.
 (BJHP09).

이 연구의 한계를 인정해야 합니다: 상대적으로 소수의 참가자와의 인터뷰를 통해 얻은 데이터이므로 모든 환자와 임상의에게 일반화할 수 있는 것은 아닙니다. 특히 환자는 일반적으로 COFP 진단이 확인되는 2차 진료 서비스에서만 모집되었습니다. 따라서 이 표본은 전체 환자, 특히 치과 서비스에 의뢰되지 않았거나 퇴원한 환자를 대표하지 않을 가능성이 높습니다. (BJHP31).
The study’s limitations should be acknowledged: Data are presented from interviews with a relatively small group of participants, and thus, the views are not necessarily generalizable to all patients and clinicians. In particular, patients were only recruited from secondary care services where COFP diagnoses are typically confirmed. The sample therefore is unlikely to represent the full spectrum of patients, particularly those who are not referred to, or who have been discharged from dental services.
 (BJHP31).

일반화라는 용어를 명시적으로 사용하지 않았지만, 두 개의 SHI 논문은 '작은' 표본 크기가 '참여자의 설명으로부터 추정할 수 있는 범위'(SHI114) 또는 '결과로부터 광범위한 결론을 도출할 수 있는 가능성'(SHI124)에 제한을 가한다고 언급했습니다.
Without explicitly using the term generalisation, two SHI articles noted how their ‘small’ sample size imposed limits on ‘the extent that we can extrapolate from these participants’ accounts’ (SHI114) or to the possibility ‘to draw far-reaching conclusions from the results’ (SHI124).

흥미롭게도 소수의 논문만이 [질적 연구와 일치하는 일반화 유형], 즉 [관용적 일반화](즉, 사례로부터 그리고 사례에 대해 만들 수 있는 일반화[5])를 암시하거나 언급했습니다. 모두 사회학 분야에 발표된 이 논문들은 '작은' 규모에도 불구하고 다른 맥락에 대한 논리적, 개념적 추론을 이끌어내고 지식을 발전시킬 수 있는 잠재력을 가진 이해를 생성할 수 있다는 측면에서 연구 결과를 옹호했습니다. 한 논문(SHI139)은 [명목적(통계적) 일반화]와 [관용적 일반화]를 명확하게 대조하면서, 통계적 일반화 가능성이 부족하다고 해서 질적 연구의 연구 표본을 넘어서는 관련성이 무효화되지는 않는다고 주장했습니다.
Interestingly, only a minority of articles alluded to, or invoked, a type of generalisation that is aligned with qualitative research, that is, idiographic generalisation (i.e. generalisation that can be made from and about cases [5]). These articles, all published in the discipline of sociology, defended their findings in terms of the possibility of drawing logical and conceptual inferences to other contexts and of generating understanding that has the potential to advance knowledge, despite their ‘small’ size. One article (SHI139) clearly contrasted nomothetic (statistical) generalisation to idiographic generalisation, arguing that the lack of statistical generalizability does not nullify the ability of qualitative research to still be relevant beyond the sample studied.

또한 이러한 데이터는 의료화 분석을 발전시킬 수 있는 추론을 도출하기 위해 통계적으로 일반화할 수 있는 데이터일 필요는 없습니다(Charmaz 2014). 이러한 데이터는 추가적인 가설을 생성할 수 있는 기회로 볼 수 있으며 의료화 프레임워크의 고유한 적용입니다. (SHI139).
Further, these data do not need to be statistically generalisable for us to draw inferences that may advance medicalisation analyses (Charmaz 2014). These data may be seen as an opportunity to generate further hypotheses and are a unique application of the medicalisation framework.
 (SHI139).

이 분석은 학교 상담과 관련된 소규모 질적 연구이지만 청소년의 정신 건강 관련 자원의 성공적인 활용에 대한 사례 연구로 유용하게 간주 될 수 있습니다. 탐구된 많은 문제가 보다 일반적으로 정신건강 낙인과 관련이 있기 때문에 성인의 서비스 참여에 대한 통찰력도 제공할 수 있습니다. 포지셔닝 이론을 사용하여 사람들이 정신 건강 문제와 관련하여 낙인을 협상하고 부분적으로 받아들이고 동시에 저항하는 방법을 조사하는 사회학적 분석이 정신 건강 서비스 격차를 유지하고 해소할 수 있는 사회적 과정과 내러티브 구성을 설명하는 데 어떻게 기여할 수 있는지를 보여줍니다. (SHI103).
Although a small-scale qualitative study related to school counselling, this analysis can be usefully regarded as a case study of the successful utilisation of mental health-related resources by adolescents. As many of the issues explored are of relevance to mental health stigma more generally, it may also provide insights into adult engagement in services. It shows how a sociological analysis, which uses positioning theory to examine how people negotiate, partially accept and simultaneously resist stigmatisation in relation to mental health concerns, can contribute to an elucidation of the social processes and narrative constructions which may maintain as well as bridge the mental health service gap.
 (SHI103).

단 한 편의 논문(SHI30)에서만 [전이성]이라는 용어를 사용하여 결과의 더 넓은 관련성 가능성을 주장했는데, 이는 표본의 크기보다는 표본 구성(즉, 다양한 표본)의 산물이라고 생각됩니다.
Only one article (SHI30) used the term transferability to argue for the potential of wider relevance of the results which was thought to be more the product of the composition of the sample (i.e. diverse sample), rather than the sample size.

타당성
Validity

'작은' 표본 크기로 인해 발생한 두 번째 주요 우려는 연구 결과의 [내적 타당성(여기서 이 용어는 연구 결과의 '진실성' 또는 신뢰성을 나타내는 데 사용됨)]과 관련이 있습니다. 저자들은 연구 결과의 특정 측면이나 패턴에 대한 신뢰도에 대해 불확실성을 표명했는데, 주로 관련 참가자 특성에 따른 어떤 형태의 차별화와 관련된 것이었습니다.
The second major concern that arose from a ‘small’ sample size pertained to the internal validity of findings (i.e. here the term is used to denote the ‘truth’ or credibility of research findings). Authors expressed uncertainty about the degree of confidence in particular aspects or patterns of their results, primarily those that concerned some form of differentiation on the basis of relevant participant characteristics.

선호하는 정보 출처는 부모의 교육 수준에 따라 달라지는 것으로 보였으나, 표본 크기가 너무 작아 이러한 패턴에 대한 결론을 도출하기는 어려웠습니다. (SHI80).
The information source preferred seemed to vary according to parents’ education; however, the sample size is too small to draw conclusions about such patterns.
 (SHI80).

표본 수가 너무 적어 성별 차이를 확실하게 입증하기는 어려웠지만, 남성의 계정에서는 생의학 및 에로틱한 스크립트가, 여성의 계정에서는 관계적인 스크립트가 더 흔한 것으로 보입니다. (SHI81).
Although our numbers were too small to demonstrate gender differences with any certainty, it does seem that the biomedical and erotic scripts may be more common in the accounts of men and the relational script more common in the accounts of women.
 (SHI81).

다른 사례에서는 연구 결과가 조사 대상 현상의 전체 스펙트럼과 변이를 설명하는지 여부에 대해 불확실성을 표명하는 기사도 있었습니다. 즉, '작은' 표본 크기(통계적으로 대표적이지 않은 표본과 같은 구성적 '결함'과 함께)가 결과의 '내용 타당성'을 위협하는 것으로 간주되어 연구 결론을 잠정적인 것으로 구성하게 된 것입니다.
In other instances, articles expressed uncertainty about whether their results accounted for the full spectrum and variation of the phenomenon under investigation. In other words, a ‘small’ sample size (alongside compositional ‘deficits’ such as a not statistically representative sample) was seen to threaten the ‘content validity’ of the results which in turn led to constructions of the study conclusions as tentative.

데이터 수집은 새로운 정보를 얻지 못했을 때(즉, 포화 지점)가 아니라 실용적인 이유로 중단되었습니다. 따라서 연구 결과를 과장하지 않도록 주의해야 합니다. 초기 인터뷰의 주제가 이후 인터뷰에서도 반복되는 것처럼 보였지만, 추가 인터뷰를 통해 추가 주제가 확인되거나 더 미묘한 설명이 제공되었을 수 있습니다. (BJHP53).
Data collection ceased on pragmatic grounds rather than when no new information appeared to be obtained (
i.e., saturation point). As such, care should be taken not to overstate the findings. Whilst the themes from the initial interviews seemed to be replicated in the later interviews, further interviews may have identified additional themes or provided more nuanced explanations. (BJHP53).

...이 연구는 결혼 생활을 지속하고 있는 부부 중 자체적으로 선택한 소수의 표본을 기반으로 한 것으로, 전체 인구를 대표하지 않는다는 점을 인정해야 합니다. 따라서 참가자들이 산후 외상 후 스트레스 장애를 경험하는 부부를 대표하지 않을 수 있습니다. 따라서 모든 주요 주제가 확인되고 탐구되지 않았을 가능성이 있습니다. 예를 들어, 남성 파트너가 참여를 거부하여 연구에서 제외 된 부부는 대인 관계에 더 큰 어려움을 겪고 있었을 수 있습니다. (BJHP03).
…it should be acknowledged that this study was based on a small sample of self-selected couples in enduring marriages who were not broadly representative of the population. Thus, participants may not be representative of couples that experience postnatal PTSD. It is therefore unlikely that all the key themes have been identified and explored. For example, couples who were excluded from the study because the male partner declined to participate may have been experiencing greater interpersonal difficulties.
 (BJHP03).

표본 규모가 '작다'는 사실을 인지했음에도 불구하고 연구 결과의 신뢰성을 어느 정도 유지하려고 시도한 논문도 있었습니다. 새로운 주제의 명확성과 선명성, 이전의 관련 연구와의 일치성 등이 결과의 타당성을 보증하기 위해 사용된 논거였습니다.
In other instances, articles attempted to preserve a degree of credibility of their results, despite the recognition that the sample size was ‘small’. Clarity and sharpness of emerging themes and alignment with previous relevant work were the arguments employed to warrant the validity of the results.

이 연구는 정서 장애 환자의 영국계 중국인 간병인을 대상으로 질적 방법론을 사용하여 이 커뮤니티 내에서 질병에 대한 사회문화적 표현을 종합하는 데 중점을 두었습니다. 작은 표본 규모에도 불구하고 이 탐색적 조사에 충분한 내러티브에서 명확한 주제가 나타났습니다. (SHI98).
This study focused on British Chinese carers of patients with affective disorders, using a qualitative methodology to synthesise the sociocultural representations of illness within this community. Despite the small sample size, clear themes emerged from the narratives that were sufficient for this exploratory investigation.
 (SHI98).

토론
Discussion

본 연구는 건강 관련 연구에서 질적 표본 크기가 어떻게 특징화되고 정당화되는지 살펴보고자 했습니다. 이전 연구[22, 30, 33, 34]와 마찬가지로 본 연구 결과는 표본 크기의 충분성에 대한 보고가 제한적이라는 것을 보여줍니다. BMJ와 BJHP의 논문 중 50% 이상, SHI의 82%는 [표본 크기의 정당성을 제공하지 않았습니다]. 표본 크기의 정당성을 제공하는 것은 수행된 인터뷰의 수와는 관련이 없었지만, 논문이 게재된 저널과 관련이 있었으며, 이는 선행 연구[30]에서도 보고된 바 있는 징계 또는 출판 규범의 영향을 나타냅니다. 대부분의 질적 연구자들이 표본 크기의 충분성이 연구의 질을 나타내는 중요한 지표라는 데 동의한다는 점을 고려할 때, [표본 크기의 충분성에 대한 투명성 부족]은 문제가 됩니다[56, 57]. 또한 사회과학 분야에서 질적 연구가 증가함에 따라 기존 증거를 종합하고 그 품질을 평가하려는 노력이 부실한 보고로 인해 방해를 받고 있습니다[58, 59]. 
The present study sought to examine how qualitative sample sizes in health-related research are characterised and justified. In line with previous studies [22, 30, 33, 34] the findings demonstrate that reporting of sample size sufficiency is limited; just over 50% of articles in the BMJ and BJHP and 82% in the SHI did not provide any sample size justification. Providing a sample size justification was not related to the number of interviews conducted, but it was associated with the journal that the article was published in, indicating the influence of disciplinary or publishing norms, also reported in prior research [30]. This lack of transparency about sample size sufficiency is problematic given that most qualitative researchers would agree that it is an important marker of quality [56, 57]. Moreover, and with the rise of qualitative research in social sciences, efforts to synthesise existing evidence and assess its quality are obstructed by poor reporting [58, 59].

저자들이 표본 크기를 정당화할 때, 연구 결과에 따르면 [표본 크기 결정에 대한 일반적인 조언]과 일치하여 [연구에 내재된 특징을 기준]으로 [충분성을 평가]하는 경우가 대부분이었습니다[4, 11, 36].

  • 포화의 원칙은 전체 정당화의 55%를 차지하며 가장 일반적으로 호출된 논거였습니다[22]. 포화라는 용어의 의미가 확산되고[49] 포화에 대한 다양한 기본 개념 또는 모델이 반영되는 것을 입증하는 다양한 변형이 분명히 존재했습니다[20]. 그럼에도 불구하고, [포화 상태에 대한 주장]은 [연구 자체에서 수행된 절차]와 관련하여 입증되지 않았으며, 이는 문헌에서 유사한 관찰을 뒷받침합니다 [25, 30, 47]. 포화 상태에 대한 주장은 때때로 다른 문헌의 인용으로 뒷받침되었는데, 이는 당면한 연구의 특성에서 벗어나 개념을 제거했음을 시사합니다.
  • 자원 제약이나 참여자 응답률 및 가용성과 같은 [실용적 고려사항]은 두 번째로 많이 사용된 주장으로 정당화의 약 10%를 차지했으며, 정당화의 23%는 연구의 본질적 특성(예: 분석의 질, 샘플링 또는 연구 설계 요건 충족, 얻은 데이터의 풍부함과 양, 연구의 성격, 결과 일관성을 확인하기 위한 추가 샘플링)을 나타냈습니다.

When authors justified their sample size, our findings indicate that sufficiency was mostly appraised with reference to features that were intrinsic to the study, in agreement with general advice on sample size determination [4, 11, 36]. 

  • The principle of saturation was the most commonly invoked argument [22] accounting for 55% of all justifications. A wide range of variants of saturation was evident corroborating the proliferation of the meaning of the term [49] and reflecting different underlying conceptualisations or models of saturation [20]. Nevertheless, claims of saturation were never substantiated in relation to procedures conducted in the study itself, endorsing similar observations in the literature [253047]. Claims of saturation were sometimes supported with citations of other literature, suggesting a removal of the concept away from the characteristics of the study at hand.
  • Pragmatic considerations, such as resource constraints or participant response rate and availability, was the second most frequently used argument accounting for approximately 10% of justifications and another 23% of justifications also represented intrinsic-to-the-study characteristics (i.e. qualities of the analysis, meeting sampling or research design requirements, richness and volume of the data obtained, nature of study, further sampling to check findings consistency).

표본 크기의 정당성에 대한 언급 중 12%만이 기존 표본 크기 가이드라인과 선례를 제시하는 선행 연구 등 [현재 진행 중인 연구와 무관한 외부 논거와 관련된 것]이었습니다.

  • [커뮤니티 규범]과 [선행 연구]는 표본 크기 추정에 유용한 경험 법칙을 수립할 수 있고[60], 연구 커뮤니티 내에서 어떤 크기가 수용될 가능성이 높은지 알려주지만, 연구자는 특히 그러한 가이드라인[예: 30, 35]이 표본 크기의 충분성에 대한 적절한 증거를 제공하지 않는 연구에 근거할 수 있는 경우 이러한 [규범을 무비판적으로 채택하는 것]을 피해야 합니다.
  • 마찬가지로, [포화 달성을 입증하려는 방법론적 연구]는 포화도가 결정되는 매개변수를 설명하고 연구 프로젝트에 더 작은 또는 더 큰 표본이 필요한 시기를 알려주기 때문에 매우 중요하지만[예: 29], 이러한 프로젝트에서 포화가 달성된 구체적인 수치가 다른 프로젝트에 대해 루틴으로 추정될 수 없습니다.

Only, 12% of mentions of sample size justification pertained to arguments that were external to the study at hand, in the form of existing sample size guidelines and prior research that sets precedents.

  • Whilst community norms and prior research can establish useful rules of thumb for estimating sample sizes [60] – and reveal what sizes are more likely to be acceptable within research communities – researchers should avoid adopting these norms uncritically, especially when such guidelines [e.g. 3035], might be based on research that does not provide adequate evidence of sample size sufficiency.
  • Similarly, whilst methodological research that seeks to demonstrate the achievement of saturation is invaluable since it explicates the parameters upon which saturation is contingent and indicates when a research project is likely to require a smaller or a larger sample [e.g. 29], specific numbers at which saturation was achieved within these projects cannot be routinely extrapolated for other projects.

우리는 [당면한 연구의 특성을 고려하는 것]이 표본 크기를 결정하고 그 충분성을 평가하는 주요 지침이 되어야 한다는 기존 견해에 동의합니다[11, 36].

  • 인식론적 및 이론적 접근 방식,
  • 조사 대상 현상의 특성,
  • 연구의 목적과 범위,
  • 데이터의 질과 풍부성,
  • 연구자의 질적 연구 수행 경험과 기술 등 

We concur with existing views [11, 36] that the consideration of the characteristics of the study at hand, such as

  • the epistemological and theoretical approach,
  • the nature of the phenomenon under investigation,
  • the aims and scope of the study,
  • the quality and richness of data, or
  • the researcher’s experience and skills of conducting qualitative research,

...should be the primary guide in determining sample size and assessing its sufficiency.

또한 질적 연구에서 숫자가 중요하지 않은 것은 아니지만[61], [표본 크기는 단독으로 고려되어서는 안 되며], [데이터 적절성]에 대한 보다 포괄적인 검토에 포함되어야 합니다[56, 57]. 에릭슨[62]의 '증거적 적절성' 차원이 여기에 유용합니다. 그는 아래 측면에서 이 개념을 설명합니다. 

  • 증거의 적절한 
  • 증거의 적절한 다양성
  • 증거의 적절한 해석 상태,
  • 적절한 불일치하는 증거
  • 불일치하는 사례 분석의 적절성 

모든 질적 연구 설계에서 모든 차원이 관련성이 있는 것은 아니지만, 이는 표본 규모를 넘어 데이터 적절성 개념의 두께를 보여줍니다.
Moreover, although numbers in qualitative research are not unimportant [61], sample size should not be considered alone but be embedded in the more encompassing examination of data adequacy [56, 57]. Erickson’s [62] dimensions of ‘evidentiary adequacy’ are useful here. He explains the concept in terms of

  • adequate amounts of evidence,
  • adequate variety in kinds of evidence,
  • adequate interpretive status of evidence,
  • adequate disconfirming evidence, and
  • adequate discrepant case analysis.

All dimensions might not be relevant across all qualitative research designs, but this illustrates the thickness of the concept of data adequacy, taking it beyond sample size.

본 연구는 또한 표본 크기가 일반적으로 '작고' 불충분한 것으로 간주되어 한계로 논의되는 것을 보여주었습니다. 종종 정당화되지 않는(그리고 두 사례에서는 포화 상태라는 자체 주장과 모순되는) 이러한 결과는 질적 건강 연구에서 표본 크기가 [암묵적이지만 만연한 준정량적 관점]에 따라 부정적으로 판단(또는 판단될 것으로 예상)되는 경우가 많다는 것을 시사합니다. 실제로 우리 데이터에서 저자가 검토자의 요청에 따라 자신의 [연구 결과를 정량화하는 데 거부감을 드러낸 사례]가 몇 차례 있었습니다. 이러한 암묵적인 기준점은 저자들이 불충분한 표본 크기로 인한 위협에 대해 논의할 때 더욱 분명해졌습니다. 실재주의와 밀접한 관련이 있는 질적 연구 프로젝트가 충분한 폭과 깊이로 현상을 조사하도록 설정되어 있다는 점에서 [내적 타당성에 대한 우려]는 타당할 수 있지만, [일반화 가능성에 대한 우려]는 의도적인 표본 추출과 양립할 수 없는 개념화를 드러냈습니다. 표본 크기가 작기 때문에 일반화 가능성이 제한적이라는 점은 종종 명목상의 통계적 용어로 논의되었습니다. 연구 결과의 가치를 보증하기 위해 분석적 또는 관용적 일반화가 사용된 경우는 드물었습니다[5, 17].
The present research also demonstrated that sample sizes were commonly seen as ‘small’ and insufficient and discussed as limitation. Often unjustified (and in two cases incongruent with their own claims of saturation) these findings imply that sample size in qualitative health research is often adversely judged (or expected to be judged) against an implicit, yet omnipresent, quasi-quantitative standpoint. Indeed there were a few instances in our data where authors appeared, possibly in response to reviewers, to resist to some sort of quantification of their results. This implicit reference point became more apparent when authors discussed the threats deriving from an insufficient sample size.

  • Whilst the concerns about internal validity might be legitimate to the extent that qualitative research projects, which are broadly related to realism, are set to examine phenomena in sufficient breadth and depth, the concerns around generalizability revealed a conceptualisation that is not compatible with purposive sampling.

The limited potential for generalisation, as a result of a small sample size, was often discussed in nomothetic, statistical terms. Only occasionally was analytic or idiographic generalisation invoked to warrant the value of the study’s findings [5, 17].

본 연구의 강점과 한계
Strengths and limitations of the present study

첫째, 검토한 건강 관련 저널의 수가 제한되어 있어 질적 건강 연구의 '스냅샷'만을 포착했다는 점에 유의해야 합니다. 다른 학문 분야(예: 간호학)와 학제 간 저널을 검토하면 본 분석 결과에 더 많은 내용이 추가될 수 있습니다. 그럼에도 불구하고 본 연구는 실증주의의 유산에 대한 애착이 다른 학문 분야를 기반으로 비교 통찰력을 제공하고, 15년이라는 긴 기간에 걸쳐 출판된 문헌을 분석한 최초의 연구입니다. 게터만[27]도 건강 관련 문헌을 조사했지만 이 분석은 5년 동안 가장 많이 인용된 26개의 논문으로 제한되었고, 칼슨과 글렌튼[22]의 연구는 포커스 그룹 건강 연구에 집중했습니다. 또한, 논문의 인식론적 및 이론적 입장과 관련하여 표본 크기의 정당성을 검토하고자 했으나, 관련 정보가 없거나 논문의 입장을 명확히 파악하고[63] 특정 접근 방식(예: 서로 다른 이론적 및 인식론적 전통의 요소를 결합한 연구)에 따라 분류하는 데 어려움이 있었기 때문에 이 작업이 어려웠습니다. 이러한 분석은 표본 크기라는 방법론적 문제를 연구의 광범위한 철학적 입장과 연결시켜 유용한 통찰력을 얻을 수 있다고 생각합니다. 이러한 한계에도 불구하고, 표본 크기의 특징과 불충분한 표본 크기로 인해 발생할 수 있는 위협에 대한 분석은 표본 크기의 (내)충분성 논증에 대한 우리의 이해를 연구의 다른 특징과 연결함으로써 풍부하게 해줍니다. 동료 심사 과정이 점점 더 공개됨에 따라, 향후 연구에서는 표본 크기의 충분성과 데이터의 적절성에 관한 보고가 저자와 심사자 간의 상호작용에 어떤 영향을 받을 수 있는지에 대해 유용하게 검토할 수 있을 것입니다. 
We note, first, the limited number of health-related journals reviewed, so that only a ‘snapshot’ of qualitative health research has been captured. Examining additional disciplines (e.g. nursing sciences) as well as inter-disciplinary journals would add to the findings of this analysis. Nevertheless, our study is the first to provide some comparative insights on the basis of disciplines that are differently attached to the legacy of positivism and analysed literature published over a lengthy period of time (15 years). Guetterman [27] also examined health-related literature but this analysis was restricted to 26 most highly cited articles published over a period of five years whilst Carlsen and Glenton’s [22] study concentrated on focus groups health research. Moreover, although it was our intention to examine sample size justification in relation to the epistemological and theoretical positions of articles, this proved to be challenging largely due to absence of relevant information, or the difficulty into discerning clearly articles’ positions [63] and classifying them under specific approaches (e.g. studies often combined elements from different theoretical and epistemological traditions). We believe that such an analysis would yield useful insights as it links the methodological issue of sample size to the broader philosophical stance of the research. Despite these limitations, the analysis of the characterisation of sample size and of the threats seen to accrue from insufficient sample size, enriches our understanding of sample size (in)sufficiency argumentation by linking it to other features of the research. As the peer-review process becomes increasingly public, future research could usefully examine how reporting around sample size sufficiency and data adequacy might be influenced by the interactions between authors and reviewers.

결론
Conclusions

지난 10년 동안 질적 연구 분야에서 표본 크기 결정과 표본 크기의 충분성 평가에 대한 증거 기반 접근 방식에 대한 욕구가 커졌습니다. 이 분야의 개념적, 방법론적 발전에도 불구하고, 본 연구의 결과는 표본 크기의 충분성에 대한 평가가 부재하거나 제대로 입증되지 않았다는 결론을 내린 이전 연구를 확인시켜 줍니다. 보건 관련 과학에서 질적 연구에 대한 더 많은 인식을 장려하는 고품질 연구를 보장하고 유지하기 위해[64], 우리는 질적 연구자들이 데이터 적절성 평가의 일부로 표본 규모를 더욱 투명하고 철저하게 평가해야 한다고 주장합니다. [당면한 연구를 면밀히 참조]하여 [표본 크기의 충분성을 평가]하는 관행을 권장하며, 따라서 이 분야에서 증가하는 방법론적 연구에 [표본 크기의 수치적 지침, 규범 및 원칙]을 [탈맥락적으로 적용하여 대응하는 것]을 경계합니다

  • [표본 크기 커뮤니티 규범]이 유용한 경험 법칙으로 작용할 수 있지만, 방법론적 지식을 활용하여 표본 크기의 충분성에 영향을 미치는 포화 및 기타 매개변수가 [특정 프로젝트의 세부 사항]과 어떻게 관련되는지 비판적으로 고려할 것을 권장합니다. 
  • [논문을 검토하는 사람들]은 투명한 연구별 보고를 장려하는 데 중요한 역할을 합니다. 
  • [검토 프로세스]는 저자가 표본 크기 충분성에 영향을 미치는 다양한 요인과 특정 연구의 특성을 고려하여 표본 크기 결정에 대한 결정을 내릴 때 미묘한 판단을 내릴 수 있도록 지원해야 합니다. 

이 분야의 방법론적 근거가 점점 더 많아지고 있는 상황에서 이러한 근거에 기반한 판단을 투명하게 제시하는 것은 매우 중요하며, 시간이 지나면 질적 표본의 '작은' 크기를 연구의 한계로 인용하는 일상적인 관행이 사라지게 될 것입니다.

The past decade has seen a growing appetite in qualitative research for an evidence-based approach to sample size determination and to evaluations of the sufficiency of sample size. Despite the conceptual and methodological developments in the area, the findings of the present study confirm previous studies in concluding that appraisals of sample size sufficiency are either absent or poorly substantiated. To ensure and maintain high quality research that will encourage greater appreciation of qualitative work in health-related sciences [64], we argue that qualitative researchers should be more transparent and thorough in their evaluation of sample size as part of their appraisal of data adequacy. We would encourage the practice of appraising sample size sufficiency with close reference to the study at hand and would thus caution against responding to the growing methodological research in this area with a decontextualised application of sample size numerical guidelines, norms and principles.

  • Although researchers might find sample size community norms serve as useful rules of thumb, we recommend methodological knowledge is used to critically consider how saturation and other parameters that affect sample size sufficiency pertain to the specifics of the particular project.
  • Those reviewing papers have a vital role in encouraging transparent study-specific reporting.
  • The review process should support authors to exercise nuanced judgments in decisions about sample size determination in the context of the range of factors that influence sample size sufficiency and the specifics of a particular study.

In light of the growing methodological evidence in the area, transparent presentation of such evidence-based judgement is crucial and in time should surely obviate the seemingly routine practice of citing the ‘small’ size of qualitative samples among the study limitations.

 


 

BMC Med Res Methodol. 2018 Nov 21;18(1):148. doi: 10.1186/s12874-018-0594-7.

Characterising and justifying sample size sufficiency in interview-based studies: systematic analysis of qualitative health research over a 15-year period

Affiliations collapse

Affiliations

1Department of Psychology, University of Bath, Building 10 West, Claverton Down, Bath, BA2 7AY, UK. K.Vasileiou@bath.ac.uk.

2Department of Psychology, University of Bath, Building 10 West, Claverton Down, Bath, BA2 7AY, UK.

3School of Psychology, Newcastle University, Ridley Building 1, Queen Victoria Road, Newcastle upon Tyne, NE1 7RU, UK.

4Department of Computer Science, Brunel University London, Wilfred Brown Building 108, Uxbridge, UB8 3PH, UK.

PMID: 30463515

PMCID: PMC6249736

DOI: 10.1186/s12874-018-0594-7

Abstract

Background: Choosing a suitable sample size in qualitative research is an area of conceptual debate and practical uncertainty. That sample size principles, guidelines and tools have been developed to enable researchers to set, and justify the acceptability of, their sample size is an indication that the issue constitutes an important marker of the quality of qualitative research. Nevertheless, research shows that sample size sufficiency reporting is often poor, if not absent, across a range of disciplinary fields.

Methods: A systematic analysis of single-interview-per-participant designs within three health-related journals from the disciplines of psychology, sociology and medicine, over a 15-year period, was conducted to examine whether and how sample sizes were justified and how sample size was characterised and discussed by authors. Data pertinent to sample size were extracted and analysed using qualitative and quantitative analytic techniques.

Results: Our findings demonstrate that provision of sample size justifications in qualitative health research is limited; is not contingent on the number of interviews; and relates to the journal of publication. Defence of sample size was most frequently supported across all three journals with reference to the principle of saturation and to pragmatic considerations. Qualitative sample sizes were predominantly - and often without justification - characterised as insufficient (i.e., 'small') and discussed in the context of study limitations. Sample size insufficiency was seen to threaten the validity and generalizability of studies' results, with the latter being frequently conceived in nomothetic terms.

Conclusions: We recommend, firstly, that qualitative health researchers be more transparent about evaluations of their sample size sufficiency, situating these within broader and more encompassing assessments of data adequacy. Secondly, we invite researchers critically to consider how saturation parameters found in prior methodological studies and sample size community norms might best inform, and apply to, their own project and encourage that data adequacy is best appraised with reference to features that are intrinsic to the study at hand. Finally, those reviewing papers have a vital role in supporting and encouraging transparent study-specific reporting.

Keywords: Data adequacy; Qualitative health research; Qualitative interviews; Review; Sample size; Sample size characterisation; Sample size justification; Systematic analysis.

 

코드 포화 대 의미 포화: 얼마나 많은 인터뷰가 필요한가? (Qual Health Res. 2017)
Code Saturation Versus Meaning Saturation: How Many Interviews Are Enough?
Monique M. Hennink1, Bonnie N. Kaiser2, and Vincent C. Marconi1,3

소개
Introduction

"질적 연구에 적합한 표본 크기는 얼마인가요?" 이 질문은 정답이 없는 일반적인 질문입니다. 질적 연구는 일반적으로 의도적으로 선택된 표본(확률 기반 표본과 반대)을 사용하며, 다양한 범위의 "정보가 풍부한" 소스를 찾고(Patton, 1990) 참여자 수보다는 데이터의 품질과 풍부함에 더 중점을 둡니다. 연구 목적, 연구 설계, 연구 모집단의 특성, 분석 접근 방식, 사용 가능한 리소스[다양한 요인이 질적 연구의 표본 크기에 영향]을 미칩니다(Bryman, 2012; Malterud, Siersma, & Guassora, 2015; Morse, 2000). 그러나 목적 표본의 적절성을 평가하기 위한 가장 일반적인 지침 원칙은 포화입니다(Morse, 1995, 2015). "포화는 저자가 리뷰어와 독자에게 제공하는 질적 엄격성에 대한 가장 빈번한 보증이지만, 우리가 가장 잘 알지 못하는 것입니다."(Morse, 2015, 587쪽). 
“What is an adequate sample size for qualitative studies?” This is a common question for which there is not a straightforward response. Qualitative studies typically use purposively selected samples (as opposed to probability-driven samples), which seek a diverse range of “information-rich” sources (Patton, 1990) and focus more on the quality and richness of data rather than the number of participants. Many factors influence sample sizes for qualitative studies, including the study purpose, research design, characteristics of the study population, analytic approach, and available resources (Bryman, 2012; Malterud, Siersma, & Guassora, 2015; Morse, 2000). However, the most common guiding principle for assessing the adequacy of a purposive sample is saturation (Morse, 1995, 2015). “Saturation is the most frequently touted guarantee of qualitative rigor offered by authors to reviewers and readers, yet it is the one we know least about” (Morse, 2015, p. 587).

포화는 질적 연구에서 효과적인 표본 크기의 지표로 사용되며 학술지 및 연구비 지원 기관의 질적 기준에서 볼 수 있지만, 실제로 포화가 무엇을 의미하는지는 아직 명확하지 않습니다. 또한 포화는 질적 연구에 대한 다양한 접근 방식에 적용될 때 여러 가지 의미를 갖습니다(O'Reilly & Parker, 2012). 따라서 포화를 평가하는 방법, 문서화하는 방법, 다양한 유형의 연구와 다양한 유형의 데이터에 대한 포화도의 의미에 대한 방법론적 연구의 지침 없이 포화를 표본의 적절성을 나타내는 일반적인 지표로 무조건 채택하는 것은 부적절합니다. 의도적인 표본에서 포화를 달성하는 데 필요한 표본 크기포화에 영향을 미칠 수 있는 매개변수를 조사하기 위한 방법론적 연구는 거의 수행되지 않았습니다. 본 연구는 질적 연구에서 포화에 대한 두 가지 접근 방식을 문서화하고 평가하여 연구자가 포화가 발생할 수 있는 시점을 효과적으로 측정할 수 있는 지침을 제공하고 연구 제안서 및 프로토콜의 표본 크기 추정을 강화하기 위한 방법론적 연구에 기여합니다.

Although saturation is used as an indicator of an effective sample size in qualitative research, and is seen in quality criteria of academic journals and research funding agencies, it remains unclear what saturation means in practice. Saturation also has multiple meanings when applied in different approaches to qualitative research (O’Reilly & Parker, 2012). Therefore, unquestioningly adopting saturation as a generic indicator of sample adequacy is inappropriate without guidance from methodological research on how to assess saturation, how to document it, and what it means for different types of studies and different types of data. Few methodological studies have been conducted to examine sample sizes needed to achieve saturation in purposive samples and the parameters that may influence saturation. Our study contributes methodological research to document and assess two different approaches to saturation in qualitative research, to provide guidance for researchers to effectively gauge when saturation may occur, and to strengthen sample size estimates for research proposals and protocols.

포화 정의
Defining Saturation

포화 개념은 원래 사회 현상을 설명하기 위해 텍스트 데이터로부터 사회학 이론을 개발하는 데 중점을 두는 질적 연구에 대한 영향력 있는 [근거 이론 접근법]의 일환으로 Glaser와 Strauss(1967)에 의해 개발되었습니다. 근거 이론에서는 [이론적 포화]라는 용어를 사용하는데, 이는 [데이터 수집 시 데이터에서 추가적인 문제나 통찰력이 나타나지 않고 관련 개념 범주가 모두 식별, 탐색, 소진된 시점]을 의미합니다. 이는 개념 범주가 "포화 상태"에 이르렀으며 새로운 이론이 포괄적이고 신뢰할 수 있다는 신호입니다. 따라서 [이론적 포화 상태]"이론적 구성에 대한 더 많은 데이터를 수집해도 새로운 속성이 드러나지 않거나 새로운 근거 이론에 대한 더 이상의 이론적 통찰력을 얻지 못하는 지점"입니다(Bryant & Charmaz, 2007, 611쪽). 이론적 포화의 강조점은 표본의 적절성보다는 표본 크기에 더 중점을 둡니다(Bowen, 2008).

The concept of saturation was originally developed by Glaser and Strauss (1967) as part of their influential grounded theory approach to qualitative research, which focuses on developing sociological theory from textual data to explain social phenomena.

  • In grounded theory, the term theoretical saturation is used, which refers to the point in data collection when no additional issues or insights emerge from data and all relevant conceptual categories have been identified, explored, and exhausted. This signals that conceptual categories are “saturated”, and the emerging theory is comprehensive and credible.
  • Thus, theoretical saturation is “the point at which gathering more data about a theoretical construct reveals no new properties nor yields any further theoretical insights about the emerging grounded theory” (Bryant & Charmaz, 2007, p. 611).

[이론적 포화]의 중요한 측면은 연구자가 샘플링, 데이터 수집, 데이터 분석을 동시에 수행하는 [반복적 프로세스에 포함]되어 있다는 것입니다(Sandelowski, 1995). 이러한 반복적인 프로세스는 ['이론적 샘플링']을 가능하게 하는데, 이는 참여자 모집을 안내하는 데 사용되는 데이터에서 개념을 식별하여 [이론적 포화 상태에 도달할 때까지 후속 데이터 수집에서 해당 개념을 추가로 탐색하는 것]을 포함합니다. 따라서 [이론적 샘플링]은 [이론적 포화]와 [불가분의 관계]에 있으며, 이는 현상의 모든 구성 요소(예: 이슈, 개념, 범주 및 연결)를 충분히 탐색하고 지원하여 새로운 이론이 타당하고 견고하도록 하기 위한 입니다. 따라서 [이론적 포화]는 근거 이론의 목표와 인식론적 접근 방식에 내재되어 있습니다.

The emphasis of theoretical saturation is more toward sample adequacy and less about sample size (Bowen, 2008). An important aspect of theoretical saturation is that it is embedded in an iterative process, whereby researchers are concurrently sampling, collecting data, and analyzing data (Sandelowski, 1995). This iterative process enables “theoretical sampling”, which involves identifying concepts from data that are used to guide participant recruitment to further explore those concepts in subsequent data collection until theoretical saturation is reached. Theoretical sampling is thereby inextricably linked to theoretical saturation to ensure that all constructs of a phenomenon (i.e., issues, concepts, categories, and linkages) are fully explored and supported so that the emerging theory is valid and robust. Theoretical saturation is therefore embedded in the goals and epistemological approach of grounded theory.

포화 적용의 과제
Challenges in Applying Saturation

포화는 근거 이론에서 시작되었지만, 질적 연구에 대한 다른 많은 접근 방식에도 적용됩니다. [데이터 포화] 또는 [주제 포화]라고도 하며, [데이터 수집에서 추가적인 문제가 발견되지 않고 데이터가 반복되기 시작하며 더 이상의 데이터 수집이 불필요해지는 시점]을 말합니다(Kerr, Nixon, & Wild, 2010). 이러한 포화의 광범위한 적용은 이론을 개발하기 위한 데이터의 적절성("이론적 포화"에서와 같이)보다는 표본 크기를 측정하는 데 더 직접적으로 초점을 맞추고 있습니다. 포화의 개념을 방법론적 기원에서 벗어나 질적 연구에 더 일반적으로 적용하는 것은 다소 의문의 여지가 있지만 여전히 문제가 있습니다(Kerr et al., 2010). 근거 이론 외부에서 포화를 사용할 경우, 포화는 종종 표본 추출, 데이터 수집, 데이터 분석의 반복적인 프로세스와 분리되어 적용에 절차적 구조를 제공하지 못합니다. 이러한 [광범위한 맥락에서의 적용에 대한 적절한 지침]이 없으면 [포화가 무엇을 의미하고 어떻게 달성할 수 있는지 불분명]합니다(Kerr et al., 2010). 
Despite its origins in grounded theory, saturation is also applied in many other approaches to qualitative research. It is often termed data saturation or thematic saturation and refers to the point in data collection when no additional issues are identified, data begin to repeat, and further data collection becomes redundant (Kerr, Nixon, & Wild, 2010). This broader application of saturation is focused more directly on gauging sample size rather than the adequacy of data to develop theory (as in “theoretical saturation”). Taking the concept of saturation out of its methodological origins and applying it more generically to qualitative research has been somewhat unquestioned but remains problematic (Kerr et al., 2010). When used outside of grounded theory, saturation often becomes separated from the iterative process of sampling, data collection, and data analysis, which provide procedural structure to its application. Without adequate guidance on its application in this broader context, it is unclear what saturation means and how it can be achieved (Kerr et al., 2010).

이 문제는 발표된 질적 연구에서도 명확하게 드러납니다. 포화가 언급되는 경우, 포화가 어떻게 달성되었는지 또는 포화가 정당화되는 근거가 무엇인지에 대한 설명 없이 그냥 넘어가는 경우가 많습니다(Bowen, 2008; O'Reilly & Parker, 2012).

  • 예를 들어, Francis 등(2010)은 건강 관련 분야에서 데이터 포화가 어떻게 보고되는지 파악하기 위해 16개월 동안 다학제 저널인 사회과학 및 의학에 게재된 모든 논문을 검토했습니다. 데이터 포화를 언급한 18개 논문 중 15개 논문이 포화를 달성했다고 주장했지만, 이러한 연구에서 포화가 어떻게 정의, 달성 또는 정당화되었는지는 불분명했습니다.
  • 칼슨과 글렌튼(2011)은 포커스 그룹 토론을 통해 220개의 연구를 체계적으로 검토하여 표본 크기가 어떻게 정당화되었는지 확인했습니다. 그 결과, 표본 크기를 설명한 연구 중 83%가 포화를 표본 크기의 정당화로 사용했습니다. 그러나 이러한 논문은 포화도에 대한 근거 없는 주장, 미리 정해진 표본 크기를 사용하면서 포화를 달성했다는 언급 등 포화를 달성한 방법에 대한 피상적인 보고를 제공한다는 사실을 발견했습니다.
  • 포화를 평가한 방법이나 그 근거에 대한 정당성이나 설명을 제공하지 않고 포화를 주장하는 연구자들에 대한 우려가 커지고 있습니다(Bowen, 2008; Green & Thorgood, 2009; Guest, Bunce, & Johnson, 2006; Kerr et al., 2010; Malterud et al., 2015; Morse, 1995, 2000, 2015).

This issue is clearly reflected in published qualitative research. If saturation is mentioned, it is often glossed over with no indications for how it was achieved or the grounds on which it is justified (Bowen, 2008; O’Reilly & Parker, 2012).

  • For example, Francis et al. (2010) reviewed all articles published in the multidisciplinary journal Social Science & Medicine over a 16-month period to identify how saturation is reported in health-related disciplines. Of the 18 articles that mentioned data saturation, 15 articles claimed they achieved saturation, but it was unclear how saturation was defined, achieved, or justified in these studies.
  • Carlsen and Glenton (2011) conducted a systematic review of 220 studies using focus group discussions to identify how sample size was justified. They found that of those studies that explained sample size, 83% used saturation as the justification for their sample size. However, they found that these articles provided superficial reporting of how saturation was achieved, including unsubstantiated claims of saturation and reference to achieving saturation while still using the predetermined sample size.
  • There is increasing concern over researchers claiming saturation without providing any justification or explanation of how it was assessed or the grounds on which it was achieved (Bowen, 2008Green & Thorgood, 2009Guest, Bunce, & Johnson, 2006Kerr et al., 2010Malterud et al., 2015Morse, 199520002015).


Morse(1995)는 [포화 상태에 도달하는 데 필요한 표본 크기에 대한 공개된 지침]이 부족하다는 점을 오래 전에 강조했습니다. 10년이 지난 지금도 이러한 상황은 그대로 남아 있으며, 24권의 질적 연구 교과서와 7개의 데이터베이스를 검토한 Guest 외(2006)의 연구에서도 목적적 표본의 포화를 달성하는 방법에 대한 가이드라인을 찾을 수 없었습니다. 저자들은 문헌이 "포화 개념을 제대로 조작화하지 못하며, 포화를 결정하는 방법에 대한 설명과 의도적으로 표본 추출된 인터뷰의 표본 크기를 추정하기 위한 실질적인 지침을 제공하지 않는다"고 결론지었습니다(Guest 외, 2006, 60쪽). 10년이 지난 지금도 많은 사람들은 질적 연구에서 포화를 평가하는 지침이 여전히 모호하고 근거에 기반하지 않는다는 데 동의합니다(Carlsen & Glenton, 2011; Kerr et al., 2010). 포화는 단순한 매력에도 불구하고 조작 및 입증하기가 복잡합니다. 포화가 표본의 적절성을 평가하는 기준으로 유지되려면 포화를 달성하고 평가하는 방법을 조사하기 위한 추가적인 방법론적 연구를 수행해야 합니다. 궁극적으로 이러한 연구 없이는 '포화 상태에 도달했다'는 선언은 의미가 없어지고 용어의 목적이 훼손될 수 있습니다.
Morse (1995) highlighted long ago that there exists a lack of published guidelines on sample sizes needed to reach saturation. A decade later, this situation remains, as confirmed by Guest et al. (2006), who reviewed 24 qualitative research textbooks and seven databases and found no guidelines on how to achieve saturation in purposive samples. The authors concluded that the literature does a “poor job of operationalizing the concept of saturation, providing no description of how saturation might be determined and no practical guidelines for estimating sample sizes for purposively sampled interviews” (Guest et al., 2006, p. 60). Another decade has passed, and many still agree that guidelines for assessing saturation in qualitative research remain vague and are not evidence-based (Carlsen & Glenton, 2011; Kerr et al., 2010). Despite its simple appeal, saturation is complex to operationalize and demonstrate. If saturation is to remain a criterion for assessing sample adequacy, it behooves us to conduct further methodological studies to examine how saturation is achieved and assessed. Ultimately without these studies, declarations of “reaching saturation” become meaningless and undermine the purpose of the term.

또 다른 문제는 포화는 데이터 수집 중에만 작동할 수 있지만 표본 크기는 연구 제안서와 프로토콜에 미리 명시해야 한다는 것입니다. 표본 크기를 선험적으로 파악해야 하는 것은 "질적 연구에 대해 제도적으로 생성된 문제"(Hammersley, 2015, 687쪽)입니다. 또한 질적 표본은 일반적으로 현장에서 반복적인 접근 방식을 사용하여 정의, 개선 및 강화되기 때문에 [윤리 위원회 및 자금 지원 기관에서 요구하는 선험적 표본 크기 결정 요건]은 질적 연구에 어려움을 제공합니다. 그럼에도 불구하고 연구자들은 선험적으로 표본 크기를 추정해야 하지만, 이러한 추정을 뒷받침하기 위해 다양한 유형의 질적 연구에 대해 포화 상태에 도달하는 데 필요한 표본 크기를 입증하는 방법론적 연구는 거의 없습니다. 따라서 질적 연구에 대한 대부분의 표본 크기 권장 사항은 경험적 또는 '경험의 법칙'에 따른 것입니다(Bryman, 2012; Guest 외., 2006; Kerr 외., 2010; Morse, 1995; Sandelowski, 1995). 또한 적절한 표본 크기를 사용하는 것도 [윤리적 문제]입니다(Carlsen & Glenton, 2011; Francis 외, 2010). 필요 이상으로 큰 질적 표본은 연구비를 낭비하고 연구 모집단에 부담을 주며 미사용 데이터로 이어질 수 있으며, 표본이 너무 작으면 현상을 충분히 포착하지 못하고 연구 결과의 타당성을 떨어뜨리며 연구 결과를 바탕으로 개입을 구축하는 데 자원이 낭비될 수 있습니다. 따라서 다양한 유형의 질적 연구에 대한 표본 크기의 선험적 추정치를 안내할 수 있는 증거를 제공하기 위해 포화의 실제 적용에 대한 추가적인 방법론적 연구가 필요합니다. 
A further challenge is that saturation can only be operationalized during data collection, but sample sizes need to be stated in advance on research proposals and protocols. The need to identify sample sizes a priori is to a large extent “an institutionally generated problem for qualitative research” (Hammersley, 2015, p. 687). In addition, requirements mandated by ethics committees and funding agencies for a priori determination of sample sizes provide challenges in qualitative research because qualitative samples are typically defined, refined, and strengthened using an iterative approach in the field. Nonetheless, researchers do need to estimate their sample size a priori, yet there is little methodological research that demonstrates sample sizes needed to reach saturation for different types of qualitative studies to support these estimates. Most sample size recommendations for qualitative research are thus experiential or “rules of thumb” (Bryman, 2012; Guest et al., 2006; Kerr et al., 2010; Morse, 1995; Sandelowski, 1995). Furthermore, using an appropriate sample size is also an ethical issue (Carlsen & Glenton, 2011; Francis et al., 2010): qualitative samples that are larger than needed waste research funds, burden the study population, and lead to unused data, while samples that are too small may not fully capture phenomena, reduce the validity of findings, and waste resources that build interventions on those findings. Therefore, further methodological research is needed on the practical application of saturation to provide a body of evidence that can guide a priori estimates of sample sizes for different types of qualitative research.

포화 평가
Assessing Saturation

많은 논문에서 포화를 보고할 때 투명성을 높여야 한다고 강조하지만(Carlsen & Glenton, 2011; Fusch & Ness, 2015; Kerr et al., 2010; Morse, 2015; O'Reilly & Parker, 2012), 포화를 효과적으로 평가, 보고 및 정당화하는 데 사용할 수 있는 포화 달성 방법에 대한 경험적 데이터를 제공하는 연구는 거의 없습니다. 두 가지 주목할 만한 예외가 있습니다.

  • Guest 등(2006)은 서아프리카 2개국에서 60건의 심층 인터뷰를 실시한 연구 데이터를 사용하여 주제 분석 중 데이터 포화를 체계적으로 문서화하고, 주제 소진에 도달하는 데 필요한 인터뷰 횟수를 파악하고, 중요한 주제가 언제 개발되었는지 파악했습니다. 연구진은 6차례의 연속적인 인터뷰를 통해 제기된 콘텐츠 중심 주제의 수를 세고, 새로운 주제가 제기되거나 새로운 코드북에서 기존 주제가 변경된 시기를 파악하여 주제 개발의 진행 상황을 문서화했습니다. 또한 연구 데이터 전체에서 코드 적용 빈도를 기준으로 테마의 중요도를 평가했습니다.
  • 연구팀은 12번의 인터뷰를 통해 테마의 포화 상태에 도달했지만, 6번의 인터뷰에서는 테마의 기본 요소가 이미 존재한다는 결론을 내렸습니다. 포화는 이러한 데이터에서 테마 개발의 정도와 테마의 중요도에 따라 평가되었습니다. 따라서 12번의 인터뷰를 통해 모든 신규 테마의 88%가 개발되었고, 모든 중요 테마의 97%가 개발되었으므로 12번의 인터뷰를 통해 코드북 구조가 안정화되었으며 그 이후에는 변경이나 추가가 거의 이루어지지 않았습니다.
  • 저자들은 비교적 동질적인 표본, 집중된 연구 목표, 반구조화된 인터뷰 가이드가 12번의 인터뷰를 통해 데이터 포화 상태에 도달하는 데 기여했을 수 있다고 언급합니다. 또한 포화는 연구, 데이터, 연구자의 다양한 특성에 따라 달라질 수 있다고 강조하면서 12건의 인터뷰를 포화의 일반적인 표본 크기로 사용하는 것에 대해 주의를 당부합니다.

Numerous articles emphasize the need for more transparency in reporting saturation (Carlsen & Glenton, 2011; Fusch & Ness, 2015; Kerr et al., 2010; Morse, 2015; O’Reilly & Parker, 2012); however, few studies provide empirical data on how saturation was achieved that can be used to effectively assess, report, and justify saturation. There are two notable exceptions.

  •  Guest et al. (2006) used data from a study involving 60 in-depth interviews in two West African countries to systematically document data saturation during thematic analysis, identify the number of interviews needed to reach thematic exhaustion, and find when important themes were developed. They documented the progression of theme development by counting the number of content-driven themes raised in successive sets of six interviews, identifying when new themes were raised or changes were made to existing themes in the emerging codebook. They also assessed the importance of themes based on the frequency of code application across the study data.
  • They concluded that saturation of themes was achieved by 12 interviews, but that the basic elements for themes were already present at six interviews. Saturation was assessed based on the extent of theme development and theme importance in these data. As such, by 12 interviews, 88% of all emergent themes had been developed, and 97% of all important themes were developed; therefore, the codebook structure had stabilized by 12 interviews with few changes or additions thereafter.
  • The authors note that their relatively homogeneous sample, focused study objectives, and semistructured interview guide may have contributed to reaching data saturation by 12 interviews. They also caution against using 12 interviews as a generic sample size for saturation, stressing that saturation is likely dependent on a range of characteristics of the study, data, and researchers.


이 연구는 포화 상태에 도달하는 데 필요한 샘플 크기를 입증한 최초의 방법론적 연구이지만 몇 가지 한계가 있습니다. 정확한 포화 시점이 불분명합니다. 저자는 12개의 인터뷰로 포화 상태에 도달했다고 말하지만, 인터뷰는 6개씩 일괄적으로 검토되었기 때문에 실제로는 7~12개의 인터뷰 사이에서 포화 상태가 발생했습니다. 코드가 일률적으로 제시되어 있어 다양한 유형의 코드와 코드 특성에 따라 포화도가 어떻게 달라질 수 있는지에 대한 고려가 없습니다. 또한 반복적 다양성 샘플링을 사용하여 참가자를 모집했는지 여부도 불분명하므로 이것이 이 연구의 포화도에 영향을 미쳤는지 또는 어떻게 영향을 미쳤는지는 평가할 수 없습니다(Kerr et al., 2010). 아마도 가장 큰 한계는 테마의 의미를 평가하지 않고 테마의 발생 횟수를 세어 포화도를 평가했다는 점일 것입니다. 테마를 식별하는 것은 포화도에 도달하기 위한 첫 번째 단계에 불과합니다. "테마가 처음 등장했을 때 파악된 내용은 특별히 통찰력이 있거나 드러나지 않을 수 있습니다. 테마 또는 개념의 내용과 정의를 깊이 있게 개발하려면 추가 데이터 수집 및 분석이 필요할 수 있습니다."(Kerr 외., 2010, 276쪽). 마찬가지로 코드의 중요도는 현상 이해에 대한 기여도보다는 데이터 전반에서 코드의 유병률로 정의됩니다: 
This was the first methodological study demonstrating the sample size required to achieve saturation; however, it has some limitations. The exact point of saturation is unclear. The authors state that saturation was achieved by 12 interviews, but interviews were reviewed in batches of six, so that saturation actually occurred somewhere between seven and 12 interviews. Codes are presented as uniform, so there is no consideration of different types of codes and how saturation may differ by code characteristics. It is also unclear whether iterative diversity sampling was used to recruit participants, so we cannot assess whether or how this may have influenced saturation in this study (Kerr et al., 2010). Perhaps the greatest limitation is the assessment of saturation by counting occurrences of themes, without also assessing the meaning of those themes. Identifying themes is just the first step in reaching saturation. “What is identified about the theme the first time it emerges may not be particularly insightful or revealing. Further data collection and analysis may be required to develop depth in the content and definition of a theme or concept” (Kerr et al., 2010, p. 276). Similarly, code importance is defined by the prevalence of codes across data rather than their contribution to understanding the phenomenon:

코드의 의미와 내용에 대한 질적 판단이 없다면, [덜 흔한 코드 중 하나]가 [더 적은 수의 인터뷰가 수행되었다면 놓쳤을 이해의 핵심 열쇠]가 아니라고 누가 말할 수 있겠는가. (Kerr 외, 2010, 274쪽)
Without any qualitative judgement of the meaning and content of codes who is to say that one of the less prevalent codes was not a central key to understanding that would have been missed if fewer interviews had been conducted. (Kerr et al., 2010, p. 274)
 

따라서 게스트와 동료들의 연구에서 놓친 중요한 요소는 이슈의 의미에서 포화 상태에 도달하는 데 필요한 표본 크기와 이것이 데이터에서 테마의 존재를 식별하여 제안한 표본 크기와 어떻게 비교될 수 있는지를 평가하는 것입니다. 따라서 이 연구에서는 데이터에서 제기된 이슈를 완전히 이해하는 데 필요한 인터뷰 횟수에 대한 지침을 제공하지 않습니다. 
Therefore, a critical missing element in the work of Guest and colleagues is to assess the sample size needed to reach saturation in the meaning of issues and how this might compare with their sample size suggested by identifying the presence of themes in data. Therefore, this study does not provide guidance on the number of interviews needed to fully understand the issues raised in these data.

Francis 등(2010)의 또 다른 방법론 연구에서는 이론 기반 인터뷰 연구(계획된 행동 이론에 의해 개념 범주가 미리 결정된 경우)에서 개념의 포화 상태가 언제 발생하는지 확인했습니다. 이들은 분석을 통해 선험적으로 수행할 초기 인터뷰 횟수 지정, 사용할 중단 기준(더 이상 개념이 나오지 않는 연속 인터뷰 횟수 기준) 파악, 투명하고 검증 가능한 방식으로 포화 상태 보고 등 데이터 포화 상태를 설정하고 보고하기 위한 원칙을 제안했습니다. 분석에서 연구진은 초기 샘플로 10개의 인터뷰(이 숫자에 대한 근거는 제공하지 않음)를 사용하고, 중지 기준을 3개로 설정했으며, 개념의 포화와 전체 연구 포화를 보여주기 위해 누적 빈도 그래프를 제시했습니다.

  • 이 매개변수 내에서 한 연구에서는 17번의 인터뷰를 통해 전체 연구 포화도에 도달했으며, 각 신념 범주가 다른 지점에서 포화에 도달하는 것으로 나타났습니다.
  • 두 번째 연구에서는 한 신념 범주에서는 포화 상태에 도달했지만 다른 범주에서는 포화 상태에 도달하지 않았기 때문에 14번의 인터뷰에서는 전체 연구 포화 상태에 도달하지 못했습니다.

이러한 결과는 포화가 단차원적인 것이 아니라 [개별 구성 요소] 또는 [전체 연구 포화]에 따라 다양한 수준에서 평가(또는 달성)될 수 있다는 점을 강조합니다. 따라서 연구자들은 자신이 달성했다고 주장하는 포화의 유형을 명확히 해야 합니다. Francis 등의 연구는 데이터에서 이슈의 의미에 대한 포화도를 평가할 필요성을 인정하기 시작했지만, 귀납적인 내용 중심 주제가 아닌 외부에서 파생된 개념 범주를 사용하여 연구의 포화도를 입증하는 데 그치고 있습니다.
Another methodological study by Francis et al. (2010) identified when saturation of concepts occurs in theory-based interview studies (where conceptual categories were predetermined by the theory of planned behavior). They used their analysis to propose principles for establishing and reporting data saturation, including specifying a priori an initial number of interviews to conduct, identifying stopping criteria to use (based on the number of consecutive interviews that yield no further concepts), and reporting saturation in a transparent and verifiable way. In their analysis, they used an initial sample of 10 interviews (although they provide no justification for this number), a stopping criterion of three, and present cumulative frequency graphs to demonstrate saturation of concepts and overall study saturation.

  • Within these parameters, they found that one study reached overall study saturation by 17 interviews, with each belief category reaching saturation at a different point.
  • In a second study, saturation was achieved in one belief category but not in others; therefore, overall study saturation was not achieved in the 14 interviews conducted.

These results highlight that saturation is not unidimensional; it can be assessed (or achieved) at different levels—by individual constructs or by overall study saturation. Thus, researchers need to be clear on the type of saturation they claim to have achieved. Francis et al.’s study begins to acknowledge the need to assess saturation in the meaning of issues in data; however, the results are limited to demonstrating saturation in studies using externally derived conceptual categories, rather than more inductive content-driven themes.

연구 목표
Study Aims

본 연구는 포화도 운영에 대한 더 많은 방법론적 연구에 대한 요구에 부응합니다(Francis 외, 2010; Guest 외, 2006; Morse, 2015). 우리는 포화가 실제로 무엇을 의미하는지, 어떻게 평가하고 문서화할 수 있는지 탐구하고, 질적 연구에서 표본 크기를 추정하는 데 필요한 실용적인 지침을 제공합니다. 우리는 앞서 설명한 포화의 일반적인 적용, 즉 근거 이론의 맥락 밖에서 사용되는 포화의 일반적인 적용에 초점을 맞추고 있습니다. 이러한 초점은 다른 질적 접근법에서 포화가 어떻게 적용되거나 달성되었는지에 대한 설명 없이 포화도가 자주 사용되며, 위에서 설명한 바와 같이 이러한 광범위한 맥락에서 포화도 사용에 대한 방법론적 지침이 부족하기 때문에 적절하다고 판단됩니다. 
Our study responds to calls for more methodological research on operationalizing saturation (by Francis et al., 2010; Guest et al., 2006; Morse, 2015). We explore what saturation means in practice, how it can be assessed and documented, and we provide pragmatic guidance on estimating sample sizes in qualitative research. We focus on the general application of saturation, described earlier, as used outside of the grounded theory context. This focus is warranted due to the frequent use of saturation in other qualitative approaches without explanation of how it was applied or achieved and due to the lack of methodological guidance on the use of saturation in this broader context, as described above.

본 연구에서는 [코드 포화]와 [의미 포화]라는 두 가지 포화 평가 접근법을 살펴봅니다.

  • 먼저 [코드 포화]를 평가했는데, 코드 포화는 추가적인 문제가 발견되지 않고 코드집이 안정화되기 시작하는 시점으로 정의했습니다. 그런 다음 [코드 포화]가 식별된 문제를 완전히 이해하기에 충분한지 평가했습니다.
  • 둘째, [의미 포화]를 평가했습니다. 이는 이슈를 완전히 이해하고 더 이상 이슈의 차원, 뉘앙스 또는 인사이트를 찾을 수 없는 시점으로 정의했습니다. 또한 코드의 특정 특성이 코드 또는 의미 포화에 영향을 미치는지 평가하여 연구에서 개발된 코드의 특성에 따라 포화를 추정할 수 있는 매개변수를 제공했습니다. 

이 연구에서는 다음과 같은 연구 질문에 대한 답을 찾고자 했습니다:
Our study explores two approaches to assessing saturation, which we term code saturation and meaning saturation. We first assessed code saturation, which we defined as the point when no additional issues are identified and the codebook begins to stabilize. We then assessed whether code saturation is sufficient to fully understand issues identified. Second, we assessed meaning saturation, which we defined as the point when we fully understand issues, and when no further dimensions, nuances, or insights of issues can be found. We also assessed whether certain characteristics of codes influence code or meaning saturation, to provide parameters for estimating saturation based on the nature of codes developed in a study. Our study sought to answer the following research questions:

  • 연구 질문 1: 코드 포화도에 도달하려면 얼마나 많은 인터뷰가 필요한가?
  • 연구 질문 2: 의미 포화도에 도달하기 위해 얼마나 많은 인터뷰가 필요한가?
  • 연구 질문 3: 코드 특성이 포화도에 어떤 영향을 미치는가?
  • 연구 질문 4: 질적 표본 크기를 추정하기 위해 선험적으로 포화도를 평가하는 데 사용할 수 있는 매개변수는 무엇인가요 
  • Research Question 1: How many interviews are needed to reach code saturation?
  • Research Question 2: How many interviews are needed to reach meaning saturation?
  • Research Question 3: How do code characteristics influence saturation?
  • Research Question 4: What parameters can be used to assess saturation a priori to estimate qualitative sample sizes?

이 연구는 건강 행동을 이해하고 중재를 개발하기 위해 일반적으로 보건 과학 및 공중 보건 연구에서 사용되는 응용 질적 연구의 포화도를 평가하는 데 중점을 두었습니다. 이러한 응용 분야에서는 민족지학적 연구와 같은 다른 유형의 질적 연구보다 연구 목적과 연구 집단이 더 명확하게 정의될 수 있습니다. 
Our study focused on assessing saturation in applied qualitative research, typically used in health sciences and public health research to understand health behavior and develop interventions. In these applications, the research purpose and study population may be more defined than in other types of qualitative research, such as ethnographic studies.

연구 방법
Method

연구 배경
Study Background

데이터의 포화도에 대한 분석의 맥락으로 원본 연구의 데이터 수집에 대한 개요를 제공합니다. 원래 연구의 연구 질문은 "HIV 치료에서 환자 유지에 영향을 미치는 요인은 무엇인가?"였습니다. 항레트로바이러스 치료(ART)의 등장으로 HIV 감염은 치명적인 질병에서 만성 질환으로 전환되었습니다. ART는 질병의 진행을 늦추고 다른 사람에게 HIV를 전파하는 것을 줄이는 데 중요합니다(Attia, Egger, Müller, Zwahlen, & Low, 2009; Cohen 외., 2011; "Vital Signs", 2011). HIV 진단 직후 치료와 연계되는 것은 ART를 조기에 시작하고 바이러스 부하 및 기타 동반 질환을 정기적으로 모니터링하는 데 매우 중요합니다. 그러나 미국에서 HIV 양성으로 알려진 사람들 중 77%만이 치료와 연계되어 있으며, 그 이후에도 정기적인 치료를 받는 비율은 51%에 불과합니다(Hall et al., 2012; "Vital Signs," 2011). 따라서 [본 연구의 목적]미국 최대 규모의 재향군인병원인 애틀랜타 재향군인 의료센터(AVAMC)의 감염병 클리닉(IDC)에서 HIV 양성 환자를 치료하는 데 있어 무엇이 치료 유지에 영향을 미치는지 파악하는 것이었습니다. 
We provide an overview of data collection for the original study as context for our analyses on saturation of these data. The research question of the original study was: what influences patient retention in HIV care? With the advent of antiretroviral therapy (ART), HIV infection has transitioned from a fatal disease to a chronic condition. ART is important for slowing progression of the disease and reducing HIV transmission to others (Attia, Egger, Müller, Zwahlen, & Low, 2009; Cohen et al., 2011; “Vital Signs,” 2011). Becoming linked to care soon after diagnosis with HIV is critical for early initiation of ART and regular monitoring of the viral load and other comorbidities. However, only 77% of those known to be HIV positive in the United States are linked to care, and only 51% are retained in regular care thereafter (Hall et al., 2012; “Vital Signs,” 2011). Therefore, the aim of the original study was to understand what influences retention in HIV care at the Infectious Disease Clinic (IDC) of the Atlanta VA Medical Center (AVAMC), the largest VA clinic caring for HIV-positive patients in the United States.

데이터 수집 및 분석
Data Collection and Analysis

연구 참여 자격은 18세 이상이고 2011년 1월 이전에 IDC에 처음 방문했으며 HIV 양성으로 진단받은 경우였습니다. 연구 참여자는 현재 IDC에서 치료를 받고 있는 환자(치료 중 그룹)와 IDC에서 6개월 이상 치료를 받았지만 최소 8개월 동안 클리닉 방문에 참석하지 않은 환자(치료 외 그룹)의 두 그룹으로 나뉘었습니다. 연구 기간 동안 클리닉 예약이 예정된 적격 참가자를 식별하기 위해 환자 기록을 선별했습니다. 진료 외 환자는 진료 외 시간에 따라 사분위수로 나눈 다음 각 사분위수에서 의도적으로 선정했습니다. 그런 다음 연령, 인종, 성별을 기준으로 진료 중인 환자를 진료 외 참여자와 일치하도록 선정했습니다. 참가자에게 전화로 연락하여 정기 진료 예약 시간 또는 다른 시간에 연구에 참여하도록 초대했습니다. 클리닉 기록을 사용하여 인구통계학적 특성 및 치료 유지 특성에 따라 의도적인 다양성 샘플링이 가능했으며, 이후 반복적인 모집을 통해 고용과 같은 다른 특성에서도 다양성을 확보할 수 있었습니다. 데이터는 2013년 2월부터 7월까지 25회의 심층 인터뷰를 통해 수집되었습니다: 16명은 보호 대상에서 벗어난 사람들을, 9명은 보호 대상에서 벗어난 사람들을 대상으로 심층 인터뷰를 진행했습니다. 돌봄을 받지 않는 그룹에서 더 다양한 문제가 제기되었기 때문에 이러한 문제를 완전히 이해하기 위해 더 많은 인터뷰가 필요했습니다. 인터뷰는 질적 연구에 대한 교육을 받고 HIV 치료 및 AVAMC에 대한 경험이 있는 연구자들이 수행했습니다. 연구자들은 반구조화된 인터뷰 가이드를 사용하여 군 복무가 건강 관리에 미치는 영향, HIV 진단, HIV에 대한 지식, HIV 치료, 돌봄 및 지원, AVAMC에서 HIV 치료를 받는 데 있어 장벽과 촉진 요인에 대한 주제를 다루었습니다. 모든 인터뷰는 IDC의 개인실에서 진행되었으며 디지털 방식으로 녹음되었고 약 60분 동안 진행되었습니다. 이 연구는 에모리대학교 기관윤리심의위원회(IRB00060643)의 승인을 받았습니다. 
Participants were eligible for the study if they were 18 years or older, first attended the IDC before January 2011, and were diagnosed as HIV positive. Study participants included two groups: patients currently receiving care at the IDC (in-care group) and patients who received at least 6 months of care at the IDC but had not attended a clinic visit for at least 8 months (out-of-care group). Patient records were screened to identify eligible participants due for a clinic appointment during the study period. Out-of-care patients were divided into quartiles by their time out of care and then purposively selected from each quartile. In-care patients were then selected to match out-of-care participants based on age, ethnicity, and gender. Participants were contacted by telephone and invited to participate in the study at their routine clinic appointment or a different time. Using clinic records enabled purposive diversity sampling by demographic and treatment retention characteristics; thereafter iterative recruitment was used to achieve diversity in other characteristics like employment. Data were collected from February to July 2013, through 25 in-depth interviews: 16 with those out of care and nine with those in care. A greater diversity of issues was raised in the out-of-care group which required more interviews to fully understand these issues. Interviews were conducted by researchers trained in qualitative research and experienced with HIV care and the AVAMC. Interviewers used a semistructured interview guide on the following topics: influence of military service on health care; HIV diagnosis; knowledge of HIV; HIV treatment, care, and support; and barriers and facilitators for receiving HIV care at the AVAMC. All interviews were conducted in a private room at the IDC, digitally recorded, and lasted approximately 60 minutes. The study was approved by Emory University Institutional Review Board (IRB00060643).

모든 인터뷰는 그대로 전사하고 비식별 처리한 후 정성적 데이터 분석을 위해 MaxQDA11 소프트웨어(1989-2016)에 입력했습니다. 모든 데이터에서 핵심 주제를 식별하고 설명하기 위해 주제별 분석을 사용했습니다. 여기에는 모든 녹취록을 읽고 두 명의 분석가가 확인한 참가자가 [제기한 문제를 식별]하고, 각 문제에 [코드명을 부여]하고, [코드북에 모든 코드와 코드 정의를 나열]하는 작업이 포함되었습니다. [코드북]에는 인터뷰 가이드의 주제에 따른 연역적 코드와 귀납적 내용 중심 코드가 모두 포함되었습니다. 코딩된 데이터의 일부에 대해 두 코더 간에 코더 간 일치도를 평가하고 전체 데이터 세트가 코딩되기 전에 코딩 불일치를 해결했습니다.
All interviews were transcribed verbatim, de-identified, and entered into MaxQDA11 software (1989-2016) for qualitative data analysis. We used thematic analysis to identify and describe core themes across all data. This involved reading all transcripts to identify issues raised by participants, which were verified by two analysts; giving each issue a code name; and listing all codes and code definitions in a codebook. The codebook included both deductive codes from topics in the interview guide and inductive content-driven codes. Intercoder agreement was assessed between two coders on a portion of coded data and coding discrepancies resolved before the entire data set was coded.

이러한 데이터의 포화도를 평가하기 위해 코드 개발과 관련된 추가 정보를 수집한 다음 이러한 추가 데이터에 대한 별도의 분석을 수행해야 했습니다. 이러한 추가 데이터와 분석은 다음 섹션에서 설명하며, 분석 방법에 대한 개요는 그림 1에 나와 있습니다. 
To assess saturation in these data, we needed to collect additional information regarding code development and then conduct separate analyses of these additional data. These additional data and analyses are described in the subsequent sections, and an overview of analytic methods is shown in Figure 1.

 

코드 포화도 평가를 위한 데이터
Data for Assessing Code Saturation

코드 포화도를 평가하기 위해 인터뷰가 진행된 순서대로 인터뷰 녹취록을 검토하여 코드 개발 과정을 문서화했습니다. 각 인터뷰마다 코드 이름, 코드 정의, 코드 유형(귀납적 또는 연역적), 새 코드에 대한 참고 사항(예: 문제의 명확성, 코드 정의의 완전성), 이전에 개발된 코드가 인터뷰에 포함되었는지 여부 등 새로 개발된 코드와 코드 특성을 기록했습니다. 각 코드 정의에는 해당 코드가 포착한 문제에 대한 설명, 코드 적용 기준 및 예외 사항, 코드와 관련된 텍스트의 예가 포함되었습니다. 코드 개발의 진화를 파악하기 위해 이전 인터뷰에서 개발된 코드에 대한 변경 사항과 변경 사항의 성격, 각 변경 사항이 발생한 인터뷰 번호도 기록했습니다. 이러한 코드 개발 문서화와 반복적인 코드 개선 작업은 25개의 인터뷰가 모두 검토되고 코드북이 완성될 때까지 각 인터뷰에 대해 개별적으로 계속되었습니다. 
To assess code saturation, we documented the process of code development by reviewing interview transcripts in the order in which they were conducted. For each interview, we recorded new codes developed and code characteristics, including the code name, code definition, type of code (inductive or deductive), any notes about the new code (e.g., clarity of the issue, completeness of the code definition), and whether any previously developed codes were present in the interview. Each code definition included a description of the issue it captured, criteria for code application and any exceptions, and an example of text relevant to the code. To identify the evolution of code development, we also recorded any changes made to codes developed in previous interviews, including the nature of the change and the interview number at which each change occurred. This documentation of code development and iterative refinement of codes continued for each interview individually until all 25 interviews were reviewed and the codebook was complete.

그런 다음 분석을 위해 코드를 다음과 같이 분류했습니다. 

  • 첫째, 코드는 귀납적 코드와 연역적 코드로 분류했습니다.
    • 귀납적 코드는 내용 중심적이며 참가자들이 자발적으로 제기한 반면,
    • 연역적 코드는 연구자 중심적이며 인터뷰 가이드에서 비롯된 것입니다.
  • 둘째, 코드의 변경은 코드명 변경, 코드 정의 변경, 코드 병합, 코드 분할로 분류했습니다.
    • 코드 정의 변경은 개념 확장, 예시 추가, 포함/제외 기준 수정, 부정적 요소 추가 등으로 다시 분류했습니다.
  • 셋째, 코드도 구체적 코드개념적 코드로 분류했습니다.
    • 구체적 코드는 데이터에서 명시적이고 명확한 문제를 포착하는 코드로,
      • 예를 들어 '시간' 코드는 이동 시간, 대기 시간, 약속 시간 등 구체적인 문제를 포착합니다. 마찬가지로 '업무 약속' 코드는 장시간 근무, 교대 근무 또는 휴가 사용과 같은 명시적인 문제를 캡처했습니다.
    • 개념적 코드는 지각, 감정, 판단 또는 느낌과 같은 추상적 구성을 포착하는 코드입니다.
      • 예를 들어, 개념 코드 '바이러스에 대한 편안함'은 HIV에 대한 미묘한 태도, 자신감, 통제감을 포착하는 것으로, "나는 내가 HIV 양성인이라는 사실을 받아들였다. 나는 바이러스에 대해 좀 소극적인 것 같아요. 난 괜찮을 거야."
      • 마찬가지로 '건강에 대한 책임감'이라는 개념 코드는 다음 문구에서 볼 수 있듯이 자신의 건강에 대해 책임을 지고 책임진다는 개념을 담고 있습니다: "아프면 뭔가 조치를 취해야 한다"(책임감) 또는 "HIV에 집중하지 않아서 ... 약을 먹지 않았다"(책임감 부족). 이러한 코드 분류는 코드 유형, 코드 개발 변경 유형, 코드 개발 시기를 정량화하여 결과에 보고될 패턴을 식별하는 데 사용되었습니다.

Codes were then categorized for analysis as follows.

  • First, codes were categorized as inductive or deductive.
    • Inductive codes were content-driven and raised by participants spontaneously, whereas
    • deductive codes were researcher-driven and originated from the interview guide.
  • Second, changes to codes were categorized as change in code name, change in code definition, code merged, and code split into separate codes.
    • Code definition changes were further categorized as expanded conceptually, added examples, edited inclusion/exclusion criteria, and added negative component.
  • Third, codes were also categorized as concrete or conceptual.
    • Concrete codes were those capturing explicit, definitive issues in data;
      • for example, the code “time” captured concrete issues such as travel time, waiting time, and appointment time. Similarly, the code “work commitments” captured explicit issues such as long hours, shift work, or getting time off work.
    • Conceptual codes were those capturing abstract constructs such as perceptions, emotions, judgments, or feelings.
      • For example, the conceptual code “comfort with virus” captures a subtle attitude toward HIV, a feeling of confidence, and a sense of control, as captured in this phrase: “I’ve embraced the fact that I am HIV positive . . . I guess I’m kinda passive to my virus . . . I’m gonna be OK.”
      • Similarly, the conceptual code “responsibility for health” captures the concept of taking charge and being accountable for one’s own health, as shown in these phrases: “If you get sick you need to do something about it” (taking responsibility) or “I wasn’t focused on my HIV and . . . didn’t take medication” (lack of responsibility). These categorizations of codes were used to quantify the types of codes, types of changes to code development, and timing of code development to identify patterns that will be reported in the results.

[코드 포화]가 인터뷰 기록을 검토하는 순서에 영향을 받는지 평가하기 위해 인터뷰 순서를 무작위로 지정하고, 가상의 코드 개발을 무작위 순서로 매핑한 다음, 이를 실제로 인터뷰 기록을 검토한 순서에 따른 코드 개발 결과와 비교했습니다. 이를 위해 먼저 난수 생성기를 사용하여 인터뷰 순서를 무작위로 정했습니다. 이미 동일한 인터뷰가 실제 순서대로 완료되었기 때문에 편향될 수 있으므로 코드 개발을 위해 녹취록을 검토하는 과정을 반복하지 않았습니다. 대신, 인터뷰 전체에 걸쳐 해당 주제가 동일한 횟수만큼 반복된 후에 코드가 개발될 것이라고 가정했습니다. 예를 들어, 실제 코드 개발에서 '약속을 잊어버림' 코드는 인터뷰 1과 3에서 이 문제가 언급된 후 세 번째 인터뷰에서 생성되었습니다. 따라서 무작위 순서로 '약속 잊음' 코드도 마찬가지로 이 주제가 두 번 언급된 후에 생성될 것이라고 가정했습니다. 이는 가상의 코드 개발이 실제 순서와 마찬가지로 연구자의 코드 개발 스타일을 무작위 순서에 반영하여 인터뷰 순서가 코드 개발에 미치는 영향을 보다 직접적으로 평가할 수 있도록 하기 위함이었습니다. 무작위 인터뷰의 코드 개발 패턴을 재현하기 위해 코드가 생성된 인터뷰 전에 코드가 코딩된 데이터에 적용된 인터뷰 횟수로 표시된 테마가 나타난 횟수를 계산했습니다. 그런 다음 이 숫자를 사용하여 무작위 인터뷰에서 가상의 코드 개발을 매핑했습니다. 이 계산은 모든 코드에 대해 수행되었으며 무작위 인터뷰의 코드 개발 매핑에 사용되었습니다.

To assess whether code saturation was influenced by the order in which interview transcripts were reviewed, we randomized the order of interviews, mapped hypothetical code development in the random order, and compared this with results from code development in the order in which interviews were actually reviewed. To do this, we first randomized interviews using a random number generator. We did not repeat the process of reviewing transcripts to develop codes, as this would be biased given that this process had already been completed with the same interviews in their actual order. Instead, we assumed that codes would be developed after the same number of repetitions of that theme across the interviews. For example, in actual code development, the code “forgot appointment” was created in the third interview, after this issue had been mentioned in Interviews 1 and 3. Thus, in the random order, we assumed that the “forgot appointment” code would likewise be created after two mentions of the theme. The aim here was that our hypothetical code development would reflect the researchers’ style of code development in the random order as in the actual order, so that we could assess the effect of interview order on code development more directly. We replicated the pattern of code development in the randomized interviews by calculating the number of times a theme was present (as indicated by the number of interviews in which the code was applied to the coded data) before the interview in which the code was created. We then used these numbers to map hypothetical code development in the randomized interviews. This calculation was done for all codes and was used to map code development in the randomized interviews.

의미 포화도 평가를 위한 데이터
Data for Assessing Meaning Saturation

코드 포화도에 도달하는 데 필요한 샘플 크기가 의미 포화도를 달성하기에 충분한지 평가하기 위해, [코드 포화]와 [개별 코드의 의미 포화]를 비교했습니다. 또한 코드의 유형이나 데이터에서 코드가 차지하는 비중이 어떤 코드의 포화에 영향을 미치는지도 평가했습니다.
To assess whether the sample size needed to reach code saturation was also sufficient to achieve meaning saturation, we compared code saturation with meaning saturation of individual codes. We also assessed whether the type of code or its prevalence in data influenced saturation of a code.

[의미 포화]를 파악하기 위해 원래 연구의 연구 질문에 중심이 되는, [구체적 코드와 개념적 코드](위에 정의된 대로)와 [고빈도 및 저빈도 코드](아래에 정의된 대로)가 혼합된 9개의 코드를 선택했습니다. 이러한 각 코드에 대한 궤적을 개발하여 연속적인 인터뷰를 통해 코드에 대해 알게 된 내용을 파악했습니다. 여기에는 코딩된 데이터를 사용하여 첫 번째 인터뷰에서 코드를 검색하고 설명된 문제의 다양한 차원을 기록한 다음, 두 번째 인터뷰에서 코드를 검색하고 설명된 새로운 차원을 기록한 다음, 25개의 인터뷰가 모두 검토될 때까지 이러한 방식으로 코드를 계속 추적하는 것이 포함되었습니다. 추적한 9개의 코드 모두에 대해 이 과정을 반복했습니다. [코드 궤적]을 사용하여 각 코드의 의미 포화도를 파악한 후, 추가 인터뷰에서는 코드에 대한 추가적인 차원이나 이해가 제공되지 않고 반복만 이루어졌습니다. 그런 다음 개별 코드의 [의미 포화]에 도달하는 데 필요한 인터뷰 횟수를 앞서 결정한 [코드 포화]와 비교했습니다. 
To identify meaning saturation, we selected nine codes central to the research question of the original study and comprising a mix of concrete and conceptual codes (as defined above) and high- and low-prevalence codes (as defined below). We developed a trajectory for each of these codes to identify what we learned about the code from successive interviews. This involved using the coded data to search for the code in the first interview, noting the various dimensions of the issue described, then searching for the code in the second interview and noting any new dimensions described, and continuing to trace the code in this way until all 25 interviews had been reviewed. We repeated this process for all nine codes we traced. We used the code trajectories to identify meaning saturation for each code, whereby further interviews provided no additional dimensions or understanding of the code, only repetition of these. We then compared the number of interviews needed to reach meaning saturation for individual codes with code saturation determined earlier.

코드의 유형에 따라 포화도가 영향을 받는지 평가하기 위해 구체적 코드('시간', '기분 좋음', '충분한 약물', '업무 약속')의 코드 포화와 개념적 코드('바이러스에 대한 편안함', '사형 선고가 아님', '공개', '건강에 대한 책임', 'HIV 낙인')의 코드 포화를 비교했습니다. 마지막으로 코드 포화가 코드 빈도의 영향을 받는지 평가하기 위해 빈도가 높거나 낮은 코드별로 코드 포화도를 비교했습니다. [코드 빈도prevalence]는 [코드가 존재한 인터뷰의 수]로 정의했습니다. 평균적으로 14.5개의 인터뷰에 코드가 존재했기 때문에 고빈도 코드는 14.5개 이상의 인터뷰에 나타난 코드로, 저빈도 코드는 14.5개 미만의 인터뷰에 나타난 코드로 정의했습니다. 의미 포화도를 평가한 코드 중

  • 고빈도 코드에는 "시간", "공개", "HIV 낙인", "건강에 대한 책임"이 포함되었고,
  • 저빈도 코드에는 "건강함", "직장 생활", "충분한 약물", "바이러스에 대한 편안함", "사형 선고가 아님"이 포함되었습니다.

To assess whether saturation was influenced by the type of code, we compared code saturation for the concrete codes (“time,” “feel well,” “enough medications,” and “work commitments”) with saturation for the conceptual codes (“comfort with virus,” “not a death sentence,” “disclosure,” “responsibility for health,” and “HIV stigma”). Finally, to assess whether code saturation was influenced by code prevalence, we compared code saturation by high- or low-prevalence codes. Code prevalence was defined by the number of interviews in which a code was present. On average, codes were present in 14.5 interviews; thus, we defined high-prevalence codes as those appearing in more than 14.5 interviews and low-prevalence codes as those appearing in fewer than 14.5 interviews. Of the codes assessed for meaning saturation, the high-prevalence codes included “time,” “disclosure,” “HIV stigma,” and “responsibility for health,” whereas the low-prevalence codes included “feel well,” “work commitments,” “enough medications,” “comfort with virus,” and “not a death sentence.”

결과
Results

파트 1: 코드 포화도
Part I: Code Saturation

코드 개발
Code development

그림 2는 코드 개발 시기를 보여줍니다. 인터뷰가 진행된 순서, 개발된 코드의 유형(귀납적 또는 연역적), 코드가 개발된 연구 집단(치료 외 그룹 또는 치료 중인 그룹)에 따라 각 연속 인터뷰에서 개발된 새로운 코드의 수를 확인했습니다. 귀납적 코드와 연역적 코드 모두 인터뷰 1에서 개발되었으며 이후에는 귀납적 코드만 추가되었습니다. 이 연구에서는 총 45개의 코드가 개발되었으며, 이 중 절반 이상(53%)의 코드가 첫 번째 인터뷰에서 개발되었습니다. 인터뷰 2와 인터뷰 3에서는 각각 5개의 코드만 추가되었고, 인터뷰 6에서는 84%의 코드가, 인터뷰 9에서는 91%의 새로운 코드가 개발되었습니다. 나머지 16번의 인터뷰에서는 4개의 코드만 추가되었습니다(전체 코드의 8%). 인터뷰 9 이후에 개발된 4개의 코드는 이전 인터뷰에서 개발된 보다 구체적인 주제 코드에 비해 개념적인 코드('약물 휴가', '체계적 무관심', '사형 선고가 아님', '타인 돕기')였습니다. 치료 외 그룹 인터뷰가 완료된 16번 인터뷰까지 연구 코드의 98%를 개발했으며, 두 번째 연구 집단(치료 중 그룹)을 추가한 결과 이 그룹의 의료적 맥락은 다르지만 추가 코드는 단 하나에 불과했습니다. 

Figure 2 shows the timing of code development. We identified the number of new codes developed from each successive interview in the order in which they were conducted, the type of code that was developed (inductive or deductive), and the study population in which codes were developed (out-of-care or in-care group). Both inductive and deductive codes were developed from Interview 1 and thereafter only inductive codes were added. A total of 45 codes were developed in this study, with more than half (53%) of codes developed from the first interview. Interviews 2 and 3 added only five additional codes each; by Interview 6, 84% of codes were identified, and by Interview 9, 91% of all new codes had been developed. The remaining 16 interviews yielded only four additional codes (8% of all codes). These four codes developed after Interview 9 were more conceptual codes (“drug vacation,” “systemic apathy,” “not a death sentence,” and “helping others”) compared with the more concrete topic codes developed in earlier interviews. By Interview 16, when out-of-care group interviews were completed, we had developed 98% of the codes in the study, and adding the second study population (in-care group) yielded only one additional code, despite the different health care context of this group of participants.

그림 2는 대부분의 코드가 가장 먼저 검토된 인터뷰로부터 개발되었음을 보여줍니다. 우리는 인터뷰를 검토하는 순서가 새로운 코드 개발 패턴에 영향을 미치는지, 특히 치료 외 그룹을 먼저 검토하는 것이 코드 개발에 영향을 미치는지 질문했습니다. 이를 평가하기 위해 무작위 인터뷰 순서로 개발된 신규 코드의 수와 실제 인터뷰를 검토한 순서에 따른 코드 개발 수를 비교했습니다. 그림 3은 무작위 인터뷰와 실제 인터뷰 검토 순서 모두에서 동일한 코드 개발 패턴이 나타났으며, 첫 번째 인터뷰에서는 여전히 절반 이상의 코드가 개발되었고 이후 인터뷰가 계속될수록 신규 코드 개발이 급격히 줄어드는 것을 보여줍니다. 두 시나리오 모두에서 여전히 대부분의 코드가 9번 인터뷰에 의해 개발되었습니다(실제 순서와 무작위 순서에서 각각 91%와 87%). 따라서 코드 개발을 위해 인터뷰를 검토하는 순서와 관계없이 초기 인터뷰가 대부분의 새로운 코드를 생성하는 동일한 패턴의 신규 코드 개발이 나타납니다.

 Figure 2 shows that the majority of codes were developed from the very first interview reviewed. We asked whether the order in which interviews were reviewed had any influence on the pattern of new code development and in particular whether reviewing the out-of-care group first influenced code development. To assess this, we compared the number of new codes developed in our randomized interview order with code development in the actual order in which interviews were reviewed. Figure 3 shows that the same pattern of code development emerged in both the random and the actual order in which interviews were reviewed, whereby more than half of codes were still developed in the first interview and new code development tapers sharply with successive interviews. In both scenarios, the majority of codes were still developed by interview 9 (91% and 87% in the actual and random order, respectively). Thus, regardless of the order in which interviews are reviewed for code development, the same pattern of new code development is seen, whereby early interviews produce the majority of new codes.

코드 정의 변경 사항
Code definition changes

표 1은 코드 개발 과정에서 변경된 코드 정의를 보여줍니다. 20개의 코드 정의(44%)는 코드 개발 프로세스 내내 전혀 변경되지 않았습니다. 뚜렷한 패턴은 없었지만, 변경되지 않은 코드의 절반은 보다 구체적인 문제를 포착했거나 인터뷰 가이드에서 질문한 문제에서 직접 파생된 것으로서 사전에 정의하기가 더 쉬웠을 수 있습니다. 이러한 구체적/연역적 코드의 대부분은 코드 개발 프로세스 초기(인터뷰 6)에 개발되었으며 이후 인터뷰를 검토할 때 변경되지 않은 채로 남아있었습니다. 변경되지 않은 구체적인 코드의 예로는 'HIV에 대한 지식', 'HIV 치료 시작', '치료 중단', '치료 복귀', '수감', '충분한 약물 복용' 등이 있습니다. 변경되지 않은 다른 유형의 코드는 개념 코드, 특히 감정을 포착하는 코드였습니다. 이러한 유형의 변경되지 않은 코드는 일반적으로 코딩 과정 후반부(인터뷰 6 이후)에 개발되었는데, 아마도 문제의 성격이 더 완전히 이해된 후 데이터에 잘 맞는 보다 포괄적인 초기 코드 정의가 만들어져 변경할 필요가 없었기 때문일 것입니다. 이러한 문제는 이전 인터뷰에서도 존재했지만 더 많은 데이터를 검토할 때까지 명확성이 부족했을 수 있습니다. 이러한 변경되지 않은 개념 코드의 예로는 분노, 감사, HIV 거부, 공개, 전신적 무관심, 약물 휴가 등이 있습니다.

Table 1 shows changes to code definitions during the process of code development. Twenty code definitions (44%) did not change at all throughout the code development process. Although there were no strong patterns, we did note that half of the unchanged codes captured more concrete issues or were derived directly from issues asked on the interview guide, and thus may be easier to define up front. Most of these concrete/deductive codes were developed early in the code development process (by Interview 6) and remained unchanged when reviewing later interviews. Examples of unchanged concrete codes include “knowledge of HIV”, “HIV treatment initiated”, “time out of treatment”, “return to treatment”, “incarceration”, and “having enough medication”. The other type of code that remained unchanged were conceptual codes, particularly those capturing emotions. This type of unchanged code was generally developed later in the coding process (after Interview 6), possibly once the nature of the issue was more fully understood, resulting in more inclusive initial code definitions that fit data well, thus requiring no changes. These issues may have been present in earlier interviews but lacked clarity until more data were reviewed. Examples of these unchanged conceptual codes were anger, gratitude, denial of HIV, disclosure, systemic apathy, and drug vacation.

나머지 25개 코드의 경우, 총 63개의 코드 정의가 변경되었습니다(표 1 참조). 이 중 4분의 3(75%)이 귀납적 내용 중심 코드에 대한 변경이었지만, 연역적 코드에 대한 변경은 최초 개발 이후에도 계속 이루어졌습니다. 예상대로 코드 개발 프로세스 초기에 많은 정의 변경이 발생했습니다. 코드 정의 변경의 약 절반(49%)이 인터뷰 2~4(데이터 미표시)를 검토하는 동안 발생했고, 인터뷰 6에서 정의 변경의 78%, 인터뷰 9에서 정의 변경의 92%가 이루어졌습니다(데이터 미표시). 따라서 코드 정의는 9번의 인터뷰를 검토한 후 안정화되기 시작했습니다. 두 번째 연구 집단(치료 중인 그룹)의 인터뷰를 검토할 때 코드 정의에 대한 변경 사항은 거의 없었습니다. 따라서 처음에 첫 번째 연구 집단에서 인터뷰를 통해 개발하고 개선한 코드 구조와 정의는 두 번째 연구 집단에도 그대로 적용되었습니다.
For the remaining 25 codes, a total of 63 changes were made to the code definitions (see Table 1). Three quarters (75%) of these changes were made to inductive, content-driven codes; however, changes were still made to the deductive codes after their initial development. As expected, many definition changes occurred early in the code development process. About half (49%) of the changes to code definitions occurred while reviewing Interviews 2 to 4 (data not shown), 78% of definition changes were made by Interview 6, and 92% of definition changes were made by Interview 9 (data not shown). Thus, the code definitions began to stabilize after reviewing nine interviews. When reviewing interviews from the second study population (in-care group), there were very few changes to the code definitions. Therefore, the code structure and definitions initially developed and refined using interviews in the first study population remained applicable to the second study population.

표 1에는 코드 정의에 대한 변경 유형도 나와 있습니다. 코드 정의를 확장하고 코드 적용 매개변수를 세분화하는 두 가지 유형의 변경이 일반적이었습니다. 코드 정의 변경의 1/3(36%)은 포착된 문제의 다양한 측면을 더 포괄할 수 있도록 정의를 개념적으로 확장하는 것과 관련이 있었습니다. 이러한 유형의 변경은 주로 귀납적 내용 중심 코드에 이루어졌으며, 추가 인터뷰를 검토하고 특정 코드 내의 다양성이 드러나면서 개선되었기 때문에 일부 코드 정의는 이 과정을 통해 여러 번 변경되었습니다. 예를 들어, '너무 아픔' 코드는 처음에는 독감과 같은 일회성 신체 질환으로 인해 병원에 방문하지 못하는 경우를 포착하기 위해 정의되었지만, HIV 감염인 생활로 인한 누적된 피로와 피로, 그리고 여러 HIV 관련 건강 상태를 경험하여 병원 방문을 놓친 경우까지 포착하도록 확장되었습니다. 마찬가지로 '부작용' 코드는 처음에는 HIV 치료제 복용으로 인한 부작용 경험을 포착하기 위해 정의되었다가 부작용으로 인한 HIV 치료제 기피도 포함하도록 확장되었고, 이후에는 약을 복용하지 않아 증상을 피하기 위해 HIV 약을 복용하는 순응도까지 포착하도록 확장되었습니다.
Table 1 also shows the types of changes made to code definitions. Two types of changes were common: expanding the code definition and refining the parameters of code application. One third (36%) of changes to a code definition involved conceptually expanding the definition to be more inclusive of different aspects of the issue captured. This type of change was mostly made to inductive content-driven codes that were refined as further interviews were reviewed and the variation within specific codes was revealed; thus, some code definitions changed multiple times through this process. For example, the code “too sick” was initially defined to capture a one-off physical illness preventing clinic visits, such as a flu-like illness, but was expanded to also capture cumulative exhaustion and fatigue from living with HIV and experiencing multiple HIV-related health conditions that led to missed clinic visits. Similarly, the code “side effects” was initially defined to capture experiences of side effects from taking HIV drugs, then expanded to also include avoidance of HIV drugs due to the side effects caused, and then further expanded to capture compliance with taking HIV drugs to avoid symptoms from not taking these drugs.

두 번째로 흔한 변경 유형은 코드가 포착하는 문제의 예시 추가(25%), 포함 또는 제외 기준 구체화(10%), 정의에 부정적 요소 추가(16%) 등 코드 적용의 매개변수를 세분화하는 것이었습니다. 예를 들어, '지원 출처'의 코드 정의에 '지원 부족'을, 'HIV 낙인' 코드 정의에 'HIV 낙인 경험 없음'을 포함시켰습니다. 문제를 더 잘 반영하기 위해 코드명을 수정하거나 문제의 다른 구성 요소를 개별적으로 포착하기 위해 코드를 두 개의 개별 코드로 분리하는 등의 기타 코드 변경은 그다지 흔하지 않았습니다. 코드 정의를 좁히기 위해 변경된 코드는 없었습니다.
The second common type of change involved refining the parameters of code application, such as adding examples of the issue being captured by a code (25%), refining inclusion or exclusion criteria (10%), and adding negative components to a definition (16%). For example, we included lack of support in the code definition of “source of support,” and no experience of HIV stigma in the “HIV stigma” code definition. Other changes to codes were less common, such as editing the code name to better reflect the issue and splitting a code into two separate codes to capture different components of the issue separately. No codes were changed to narrow the code definition.

코드 빈도
Code prevalence

연구에서 가장 많이 사용된 코드가 언제 개발되었는지 알아보고자 했습니다. 그림 4는 각 코드를 별도의 막대로 표시합니다: X축에서 코드의 위치는 해당 코드가 어느 인터뷰에서 개발되었는지를 나타내며, 막대의 높이는 해당 코드가 사용된 인터뷰의 수를 나타냅니다. 예를 들어, 처음 4개의 막대는 이 4개의 코드가 인터뷰 1에서 개발되어 25개의 모든 인터뷰에서 사용되었음을 나타냅니다. 가로 점선은 이 연구에서 코드가 나타난 평균 인터뷰 횟수인 14.5회를 나타냅니다. 따라서 점선 위에 나타나는 코드는 데이터 세트 전체에서 평균보다 높은 빈도를 나타냅니다. 따라서 이 데이터에서 24개의 코드가 높은 유병률을 보였고 21개의 코드가 낮은 유병률을 보였습니다. 그림 4를 보면 고빈도 코드의 75%(18/24)는 첫 번째 인터뷰에서 이미 확인되었고, 87%(21/24)는 인터뷰 6에서, 92%(22/24)는 인터뷰 9에서 고빈도 코드가 개발되었음을 알 수 있습니다. 따라서 고빈도 코드의 대부분은 초기 인터뷰에서 확인되었습니다. 인터뷰 1 이후에 개발된 대부분의 코드는 데이터 세트 전체에서 그 빈도가 낮았습니다.
We wanted to determine when the most prevalent codes in the study were developed. Figure 4 represents each code as a separate bar: The location of a code on the x-axis indicates in which interview a code was developed, and the height of the bar indicates the number of interviews in which a code was used. For example, the first four bars indicate that these four codes were developed in Interview 1 and were used in all 25 interviews. The horizontal dashed line shows the average number of interviews in which a code appears in this study, which is 14.5 interviews. Thus, a code appearing above the dashed line has a higher than average prevalence across the data set as a whole. Thus, 24 codes were of high prevalence and 21 of low prevalence in these data. Figure 4 shows that 75% (18/24) of high-prevalence codes were already identified from the first interview, 87% (21/24) by Interview 6, and 92% (22/24) of high-prevalence codes were developed by Interview 9. Therefore, the vast majority of the high-prevalence codes are identified in early interviews. Most of the codes developed after Interview 1 were less prevalent across the data set.

그림 4는 또한 개발된 코드 유형(구체적 또는 개념적), 각 코드 유형이 개발된 시기, 그리고 이러한 데이터 전체에 걸쳐 다양한 유형의 코드가 얼마나 널리 퍼져 있는지를 보여줍니다. 이 그림에 따르면 첫 번째 인터뷰에서 개발된 코드의 4분의 3(18/24)이 구체적인 코드였으며, 첫 번째 인터뷰에서 개발된 코드의 25%만이 개념적인 코드였습니다. 인터뷰 6 이후에 개발된 코드는 주로 저빈도 코드였으며 거의 전적으로 개념적 코드(7/9, 78%)였고, 이러한 개념적 코드 중 43%(3/7)는 유병률이 높은 코드였습니다. 전반적으로 이 수치는

  • [초기에 개발된 코드]는 [고빈도, 구체적 코드]인 반면,
  • [나중에 개발된 코드]는 [저빈도, 개념적 코드]임을 보여 주지만,

연구의 후반 인터뷰에서는 빈도가 높고 개념적인 코드가 일부 개발되었습니다.

Figure 4 also shows the type of codes developed (concrete or conceptual), when each type of code was developed, and the prevalence of different types of codes across these data as a whole. This figure shows that three quarters (18/24) of codes developed from the first interview were concrete codes, with only 25% of codes from the first interview being conceptual. Codes developed after Interview 6 were mainly low-prevalence codes and were almost exclusively conceptual codes (7/9, 78%), with 43% (3/7) of these conceptual codes being high-prevalence codes. Overall, these figures show that codes developed early were high prevalence, concrete codes, while those developed later were less prevalent, conceptual codes, although some high prevalent, conceptual codes were developed in later interviews in the study.

코드 포화
Code saturation

코드 포화도를 결정하기 위한 선험적 임계값은 없었으며, 분석 결과에 따라 결정되었습니다. 코드 식별률(코드의 91%가 식별됨), 코드 유병률(유병률이 높은 코드의 92%가 식별됨), 코드집 안정성(코드 정의 변경의 92%가 이루어짐)의 조합을 기준으로 [9번의 인터뷰]를 통해 [코드 포화]에 도달했다고 판단했습니다. 이러한 데이터에서 제기된 새로운 이슈의 범위를 파악하는 데는 9번의 인터뷰로 충분했지만, 당시의 이슈를 단순히 개괄적으로 설명하는 것과 비교했을 때 제기된 모든 이슈를 완전히 이해하는 데도 9번의 인터뷰로 충분한지 질문했습니다. 9번의 인터뷰로도 데이터 전반에서 제기된 이슈의 의미 포화도에 도달할 수 있었을까요? 다음 섹션에서 이 질문에 대해 살펴보겠습니다.
We did not have an a priori threshold to determine code saturation; rather, it was determined based on results of our analysis. We determined that code saturation was reached at nine interviews based on the combination of

  • code identification (91% of codes were identified),
  • code prevalence (92% of high-prevalence codes were identified), and
  • codebook stability (92% of code definition changes had been made).

Although nine interviews were sufficient to identify the range of new issues raised in these data, we asked whether nine interviews were also sufficient to fully understand all of the issues raised, compared with having simply outlined the issues at that point. Were nine interviews also sufficient to reach meaning saturation of the issues across data? We explore this question in the next section.

2부: 의미 포화
Part II: Meaning Saturation

의미 포화
Meaning saturation

2부에서는 9번의 인터뷰가 데이터에서 제기된 이슈를 포괄적으로 이해하기에 충분한지 평가합니다. 따라서 [코드 포화]와 [의미 포화] 사이의 일치 여부를 평가합니다. 이를 위해 연구의 각 연속적인 인터뷰에서 코드에 대해 얻은 정보를 기록하여 개별 인터뷰에서 코드에 대해 배운 내용을 더 자세히 파악하고 개별 코드가 의미 포화 상태에 도달하는 시점을 평가했습니다. 원래 연구의 연구 질문에 중심이 되는 9개의 코드를 추적했으며, 구체적 코드, 개념적 코드, 고빈도 또는 저빈도 코드를 혼합하여 포함했습니다. 표 2는 우리가 추적한 9개의 코드를 보여주며, 인터뷰를 통해 확인된 각 코드의 다양한 차원을 나열합니다. 의미 포화도는 새로운 코드 차원이 확인된 마지막 인터뷰에서 발생하는 것으로 결정되었습니다. 예를 들어,

  • '기분 좋음' 코드는 인터뷰 1, 3, 4에서 확인된 5개의 차원으로 구성되어 있어 인터뷰 4에서 의미 포화 상태에 도달했고,
  • '공개' 코드는 여러 인터뷰에서 확인된 13개의 차원으로 구성되어 있어 인터뷰 17에서 의미 포화 상태에 도달했습니다.

그림 5는 9개의 코드가 각각 언제 개발되었는지, 그리고 각 코드가 언제 의미 포화 상태에 도달했는지를 시각적으로 보여줍니다. 
In Part II, we assess whether nine interviews were indeed sufficient to gain a comprehensive understanding of the issues raised in the data. Thus, we assess the congruence between code saturation and meaning saturation. To do so, we recorded the information gained about a code from each successive interview in the study, to identify in greater detail what we learn about a code from individual interviews and to assess when individual codes reach meaning saturation. We traced nine codes central to the research question of the original study and included a mix of concrete, conceptual, and high- and low-prevalence codes. Table 2 shows the nine codes we traced, listing the various dimensions of each code that were identified by interview. Meaning saturation was determined to occur at the last interview in which a novel code dimension is identified.

  • As such, the code “feel well” comprises five dimensions that were identified from Interviews 1, 3, and 4; thus, it reached meaning saturation at Interview 4.
  • The code “disclosure” has 13 dimensions, identified across numerous interviews, and it reached meaning saturation at Interview 17.

Figure 5 visually depicts when each of these nine codes was developed and when each code reached meaning saturation.

 

표 2는 초기 인터뷰에서 많은 차원의 코드가 포착되었음을 보여줍니다. 

  • 인터뷰 6에서는 이미 각 코드의 여러 차원이 식별되었으며, 이 시점에서 하나의 코드가 의미 포화 상태에 도달했습니다. 
  • 인터뷰 9와 12에서는 각 코드에 추가되는 새로운 차원이 줄어들고, 5개의 코드가 의미 포화 상태에 도달했습니다. 
  • 인터뷰 12 이후에도 여러 코드가 의미 포화 상태에 도달하지 않았으며, 마지막 인터뷰까지 여러 차원의 코드가 여전히 식별되고 있습니다. 

따라서 9개의 인터뷰 표본 크기로는 일부 코드의 모든 차원을 파악할 수 있지만 다른 코드의 차원은 파악할 수 없는데, 이에 대해서는 아래에서 자세히 살펴봅니다. 

Table 2 shows that many dimensions of codes are captured in early interviews.

  • By Interview 6, multiple dimensions of each code are already identified, with one code reaching meaning saturation at this point.
  • By Interviews 9 and 12, fewer new dimensions are added to each code, and five codes have now reached meaning saturation.
  • After Interview 12, several codes have not reached meaning saturation, with multiple dimensions of codes still being identified until the last interview.

Therefore, a sample size of nine interviews is sufficient for capturing all dimensions of some codes but not others; we explore this further below.

표 2는 또한 의미 포화도에는 다양한 인터뷰가 필요하며, 다양한 인터뷰는 문제에 대한 포괄적인 이해를 위해 코드의 새로운 차원이나 뉘앙스에 기여한다는 점을 강조합니다. 

  • 예를 들어, '공개'라는 코드의 다양한 차원은 9개의 서로 다른 인터뷰를 통해 확인되었으며, 일부 인터뷰에서는 공개에 대한 여러 차원을 제공하기도 했습니다. 
  • '시간'과 같은 구체적인 코드의 경우에도 모든 차원을 완전히 포착하여 문제를 이해하려면 4가지 다른 인터뷰가 필요합니다. 

따라서 처음에는 한 번의 인터뷰로 코드를 식별할 수 있지만, 문제를 완전히 이해하려면 코드의 모든 차원을 포착하기 위해 여러 번의 인터뷰가 필요합니다. 이는 포화를 평가할 때 코드가 단순히 식별되는 [코드 포화]를 넘어 더 많은 데이터가 필요한 [의미 포화](코드가 완전히 이해되는 의미 포화도)로 나아가야 할 수 있음을 의미합니다.

 Table 2 also highlights that meaning saturation requires a range of interviews, with different interviews contributing a new dimension or nuance of the code toward a comprehensive understanding of the issue.

  • For example, the various dimensions of the code “disclosure” were identified from nine different interviews, with some interviews providing several dimensions of disclosure.
  • Even a concrete code such as “time” requires four different interviews to fully capture all dimensions and thus understand the issue.

Therefore, a code may be initially identified in one interview, but it requires multiple interviews to capture all dimensions of the code to fully understand the issue. This implies that assessing saturation may need to go beyond code saturation (whereby codes are simply identified) toward meaning saturation (where codes are fully understood), which requires more data.

그림 5는 개별 코드가 데이터의 여러 지점에서 의미 포화에 도달했음을 보여줍니다.

  • 일부 코드는 인터뷰 9에서 의미 포화도에 도달했지만, 다른 코드는 훨씬 늦게 또는 전혀 도달하지 못했습니다.
  • 구체적인 문제를 나타내는 코드는 인터뷰 9에서 의미 포화도에 도달하거나 그보다 더 빨리 도달했습니다.
    • 예를 들어, 구체적인 코드인 '기분 좋음', '충분한 약', '시간'은 각각 인터뷰 4, 7, 9에서 의미 포화도에 도달했습니다.
  • 그러나 보다 개념적인 문제를 나타내는 코드는 데이터의 후반부인 인터뷰 16과 24 사이에 의미 포화도에 도달했습니다.
    • 예를 들어, "사형 선고가 아님", "공개", "HIV 낙인" 코드는 각각 인터뷰 16, 17, 24에서 의미 포화도에 도달했습니다. '건강에 대한 책임' 코드는 마지막 인터뷰에서도 새로운 차원이 확인되었기 때문에 의미 포화 상태에 도달하지 않았습니다.

Figure 5 demonstrates that individual codes reached meaning saturation at different points in these data. While some codes reached meaning saturation by Interview 9, other codes reached meaning saturation much later or not at all. Codes representing concrete issues reached meaning saturation by Interview 9 or sooner. For example, the concrete codes “feel well,” “enough medications,” and “time” reached meaning saturation by Interviews 4, 7, and 9, respectively. However, codes representing more conceptual issues reached meaning saturation much later in the data, between Interviews 16 and 24. For example, the codes “not a death sentence,” “disclosure,” and “HIV stigma” reached meaning saturation by Interviews 16, 17, and 24, respectively. The code “responsibility for health” did not reach meaning saturation, as new dimensions were still identified at the last interview conducted.

또한 그림 5는 코드가 개발된 시점과 해당 코드의 모든 차원이 포착된 시점을 시각적으로 보여줌으로써 [코드 생성 후 각 코드를 완전히 이해하는 데 필요한 추가 인터뷰 횟수]를 강조합니다(가로선의 길이로 표시됨). 이는 [개념적 코드]의 모든 차원을 완전히 이해하려면 [구체적 코드]를 완전히 이해하는 것보다 훨씬 더 많은 데이터가 필요하다는 점을 강조합니다. 예를 들어, 

  • '기분 좋음'이라는 [구체적 코드]는 모든 차원을 파악하는 데 4번의 인터뷰만 필요했지만,
  • '공개'라는 개념적 코드는 여러 차원을 파악하는 데 17번의 인터뷰가 필요했습니다.

일부 [개념적 코드]의 경우, 해당 코드의 구체적인 차원을 조기에 파악할 수 있는 반면, 추상적인 차원일수록 [모든 차원]을 파악하기 위해 더 많은 데이터가 필요합니다.

  • 예를 들어, 'HIV 낙인' 코드의 경우, 초기 인터뷰에서는 구체적인 유형의 낙인을 파악할 수 있지만, 자기 낙인, 낙인으로 인한 스트레스, HIV로 인한 사망에 대한 낙인, 낙인을 피하기 위한 HIV 상태 공개 등 보다 미묘한 차원의 낙인을 파악하려면 더 많은 데이터가 필요합니다(표 2 참조).

요약하자면, 9개의 표본 크기는 이러한 데이터의 [구체적 코드]를 이해하는 데는 충분하지만, 이러한 [개념적 코드]나 구체적인 코드의  [개념적 차원을 완전히 이해]하기에는 충분하지 않습니다.
Figure 5 also visually depicts the point at which a code was developed and the point at which all dimensions of that code were captured, thus highlighting the number of additional interviews after code creation that are needed to gain a full understanding of each code (as depicted by the length of the horizontal line). This highlights that fully understanding all dimensions of conceptual codes requires much more data than fully understanding concrete codes. For example, the concrete code “feel well” required only four interviews to identify all its dimensions, whereas the conceptual code “disclosure” required 17 interviews to identify its multiple dimensions. For some conceptual codes, the more tangible concrete dimensions of that code are captured early, whereas the more abstract dimensions require more data to capture all dimensions. For example, in the code “HIV stigma”, the concrete types of stigma are identified from early interviews, but more data are required to reveal the more nuanced dimensions of stigma such as self-stigma, stress of stigma, stigma of dying from HIV, and disclosure of HIV status to avoid stigma (see Table 2). In sum, a sample size of nine would be sufficient to understand the concrete codes in these data, but it would not be sufficient to fully understand conceptual codes or conceptual dimensions of these concrete codes.

의미 포화도가 데이터에서 코드의 유병률이 높은지 낮은지에 따라 영향을 받는지 질문했지만 코드 빈도에 따른 명확한 패턴은 발견되지 않았습니다. 그림 5에서 '시간', '공개', 'HIV 낙인', '건강에 대한 책임'의 고빈도 코드는 9번과 24번 인터뷰 사이에 의미 포화도에 도달하거나 포화도에 도달하지 않았습니다. 저빈도 코드는 인터뷰 6과 16 사이에 의미 포화 상태에 도달했습니다. 이는 데이터에서 더 자주 발견되는 코드가 덜 자주 발견되는 코드보다 문제를 이해하는 데 더 적은 수의 인터뷰가 필요하지 않을 수 있음을 시사합니다. 이 데이터에서는 고빈도 코드와 저빈도 코드 모두 원래 연구의 연구 질문에 똑같이 중요했습니다.
We asked if meaning saturation is influenced by whether a code is of high or low prevalence in these data but found no clear patterns by code prevalence. In Figure 5, high-prevalence codes of “time,” “disclosure,” “HIV stigma,” and “responsibility for health” reached meaning saturation between Interviews 9 and 24 or did not reach saturation. Low-prevalence codes reached meaning saturation between Interviews 6 and 16. This suggests that codes found more frequently in data may not require fewer interviews to understand the issue than codes found less frequently. In these data, both the high- and low-prevalence codes were equally important for the research question of the original study.

토론
Discussion

이 연구는 질적 연구의 포화를 평가하는 제한된 방법론 연구에 기여합니다. 우리는 포화도에 대한 두 가지 접근 방식, 각 접근 방식별로 포화도에 도달하는 데 필요한 샘플 크기, 코드의 특성이 포화도에 영향을 미치는지 여부를 문서화하고자 했습니다. 그 결과를 사용하여 포화도에 도달하기 위한 샘플 크기에 영향을 미치는 매개변수를 개발했습니다.
This study contributes to a limited body of methodological research assessing saturation in qualitative research. We sought to document two approaches to saturation, the sample sizes needed to reach saturation for each approach, and whether the nature of codes influences saturation. We used our results to develop parameters that influence sample sizes for reaching saturation.

그 결과 9번의 인터뷰 끝에 [코드 포화에 도달]했으며, 두 번째 연구 모집단을 추가한 후에도 포화도는 변하지 않았습니다. 또한 [첫 번째 인터뷰]신규 코드의 절반 이상(53%)과 고빈도 코드의 4분의 3(75%)을 차지했으며, 포화 상태에 이를 때까지 후속 인터뷰가 각각 몇 개의 신규 코드를 추가한 것으로 나타났습니다. 따라서 9번의 인터뷰를 통해 공통적인 주제별 이슈의 범위가 파악되었고 코드북이 안정화되었습니다. 이러한 결과는 7~12개의 인터뷰 사이에 데이터 포화 상태가 발생하고, 인터뷰 1과 6 사이에 주제의 기본 요소가 많이 존재한다는 것을 확인한 Guest 등(2006)의 연구 결과와 매우 유사합니다. 또한 우리의 연구 결과는 원하는 포화도에 따라 8~16개의 인터뷰 사이에 포화도가 발생한다는 것을 확인한 Namey, Guest, McKenna, Chen(2016)의 연구 결과와도 일치합니다. 그러나 본 연구는 Guest 등이 수행한 것처럼 6개의 일괄 인터뷰가 아닌 개별 인터뷰에서 개발된 코드를 묘사함으로써 이전 연구보다 더 높은 정밀도를 제공하므로 코드 개발에 대한 첫 번째 인터뷰의 중요한 기여도를 파악하고 코드 포화의 시기와 궤적을 더 정확하게 지정할 수 있습니다.
Our results show that code saturation was reached after nine interviews; even after adding the second study population, saturation was not altered. We also show that the first interview conducted contributed more than half (53%) of new codes and three quarters (75%) of high-prevalence codes, with subsequent interviews adding a few new codes each until saturation. Thus, by nine interviews, the range of common thematic issues was identified, and the codebook had stabilized. These results are remarkably similar to those of Guest et al. (2006), who identified that data saturation occurred between seven and 12 interviews, with many of the basic elements of themes present between Interviews 1 and 6. Our findings also concur with Namey, Guest, McKenna, and Chen (2016), who identified that saturation occurred between eight and 16 interviews, depending on the level of saturation sought. However, our study provides greater precision than previous work by delineating codes developed in individual interviews (rather than in batches of six as done by Guest et al.); thus, we identify the significant contribution of the first interview to code development and specify the timing and trajectory of code saturation more precisely.

[코드 포화]는 [데이터 수집 중에 연구 주제와 관련된 이슈의 범위가 파악되고 더 이상 새로운 이슈가 발생하지 않는다]고 주장하여 포화도를 평가하는 데 자주 사용됩니다. 그러나 연구 결과에 따르면 [코드 포화]에 도달하는 것만으로는 충분하지 않을 수 있습니다. [코드 포화]는 문제를 식별하고 강력한 코드북으로 이어질 수 있지만, 이러한 문제를 완전히 이해하려면 더 많은 데이터가 필요합니다. 포화에 영향을 미치는 것은 이슈의 존재 여부나 빈도뿐만 아니라 이슈를 이해하는 데 도움이 되는 이슈에서 파생된 데이터의 풍부함입니다(Emmel, 2015; Morse, 1995):
Code saturation is often used during data collection to assess saturation, by claiming that the range of issues pertinent to the study topic have been identified and no more new issues arose. However, our results show that reaching code saturation alone may be insufficient. Code saturation will identify issues and lead to a robust codebook, but more data are needed to fully understand those issues. It is not only the presence or frequency of an issue that contributes to saturation but more importantly the richness of data derived from an issue that contributes to understanding of it (Emmel, 2015; Morse, 1995):

[포화도에 대한 잘못된 생각]은 연구자가 "모든 것을 다 들었을 때" 데이터가 포화 상태가 된다는 것입니다. 이 기준은 단독으로 사용할 경우 부적절하며 연구 중인 주제에 대한 이해가 얕을 수 있습니다. (모스, 2015, 587쪽)
[A] mistaken idea about saturation is that data become saturated when the researcher has “heard it all” . . . When used alone, this criterion is inadequate and may provide a shallow . . . understanding of the topic being studied. (Morse, 2015, p. 587)

따라서 [코드 포화]는 주요 탐구 영역에 대한 개요를 제공하기 때문에 [적은 수의 인터뷰]로 도달할 수 있지만, 관심 있는 현상을 이해하는 데 중요한 의미를 지닌 데이터의 깊이, 풍부함, 복잡성을 제공하려면 [더 많은 데이터]가 필요합니다.
Thus, code saturation may be reached with few interviews as it provides an outline of the main domains of inquiry, but further data are needed to provide depth, richness, and complexities in data that hold important meaning for understanding phenomena of interest.

이번 연구에서 가장 설득력 있는 결과는 [의미 포화]를 평가하는 두 번째 접근 방식과 다른 연구에서 평가되지 않은 [코드 특성이 의미 포화에 미치는 영향]과 관련이 있을 것입니다. 연구 결과에 따르면 코드는 균일하지 않고 서로 다른 지점에서 의미 포화도에 도달하거나 포화도에 도달하지 않는 것으로 나타났습니다.

  • 일부 코드의 경우 코드 포화도에 도달하는 것만으로도 의미 포화도를 달성할 수 있었지만,
  • 다른 코드의 경우 문제를 완전히 이해하려면 훨씬 더 많은 데이터가 필요했습니다.
  • [고빈도 구체적 코드]는 일반적으로 초기 인터뷰에서 식별되었으며 [9번의 인터뷰 또는 그 이전]에 의미 포화 상태에 도달하는 것으로 나타났습니다.
  • 그러나 후기 인터뷰에서 확인된 코드는 [저빈도 개념적 코드]로, 의미 포화 상태에 도달하기 위해 [16~24회의 인터뷰]를 통해 더 많은 데이터가 필요했거나 의미 포화 상태에 도달하지 못했습니다.

Perhaps the most compelling results of our study relate to our second approach of assessing meaning saturation and how code characteristics influence meaning saturation, which has not been assessed in other studies. Our results show that codes are not uniform; rather, they reach meaning saturation at different points or do not reach saturation.

  • For some codes, reaching code saturation was also sufficient to achieve meaning saturation,
  • but for other codes, much more data were needed to fully understand the issue.
  • We found that high-prevalence concrete codes were typically identified in early interviews and reached meaning saturation by nine interviews or sooner.
  • However, codes identified in later interviews were low-prevalence conceptual codes that required more data to reach meaning saturation, between 16 and 24 interviews, or they did not reach meaning saturation.

따라서 코드 포화도에서 제안하는 [9개의 표본 크기]는 데이터의 명시적인 구체적인 문제를 포괄적으로 이해하는 데만 충분할 뿐, 훨씬 더 많은 데이터가 필요한 구체적인 코드의 미묘한 개념적 문제와 개념적 차원을 놓칠 수 있습니다. 이를 고려하는 또 다른 방법은 코드를 이해하려면 [다양한 인터뷰]가 필요하며, [다양한 인터뷰]는 문제에 대한 완전한 이해를 구축하는 새로운 차원에 기여한다는 것입니다. 구체적 코드의 경우에도 모든 차원을 이해하려면 4~9개의 인터뷰가 필요하지만, 개념적 코드는 그 의미를 완전히 파악하기 위해 훨씬 더 많은 데이터(즉, 4~24개의 인터뷰)가 필요합니다. 따라서 하나의 코드가 한 인터뷰에서 식별되어 다른 인터뷰에서 반복될 수 있지만, 이를 완전히 이해하려면 문제의 모든 차원을 파악하기 위해 추가 인터뷰가 필요합니다. 이러한 결과는 [코드를 식별하는 것 이상으로 더 많은 데이터를 수집]하고 '모든 것을 들었는지'가 아니라 '모든 것을 이해했는지'를 물어야만 데이터 포화 상태라고 주장할 수 있다는 점을 강조합니다. 또한 의미 포화도를 달성하려면 반복적인 샘플링 프로세스를 사용하여 데이터의 다양성, 명확성 및 깊이를 모니터링하고 이해도가 낮은 참가자 또는 도메인에 데이터 수집을 집중해야 합니다.
Thus, a sample size of nine—as suggested by code saturation—would only be sufficient to develop a comprehensive understanding of explicit concrete issues in data and would miss the more subtle conceptual issues and conceptual dimensions of concrete codes, which require much more data. Another way to consider this is that understanding any code requires a range of interviews, with different interviews contributing new dimensions that build a complete understanding of the issue. Even concrete codes required between four and nine interviews to understand all dimensions; however, conceptual codes required an even greater range of data (i.e., between 4 and 24 interviews) to fully capture their meaning. Therefore, a code may be identified in one interview and repeated in another, but additional interviews are needed to capture all dimensions of the issue to fully understand it. These findings underscore the need to collect more data beyond the point of identifying codes and to ask not whether you have “heard it all” but whether you “understand it all”—only then could data saturation be claimed. Achieving meaning saturation also necessitates using an iterative process of sampling to monitor diversity, clarity, and depth of data, and to focus data collection on participants or domains that are less understood.

코드 사용률에 따른 포화도 패턴은 발견되지 않았습니다. 데이터에서 더 자주 언급된 이슈는 덜 자주 언급된 이슈보다 의미 포화도에 더 빨리 도달하지 않았습니다. 따라서 코드 유병률은 해당 이슈의 의미가 언제 도달할 수 있는지를 알려주지 않기 때문에 포화도를 나타내는 강력한 지표가 아닙니다. "중요한 것은 주제와 관련된 데이터가 발생하는 빈도가 아니라 특정 데이터 세그먼트가 유익한 분석 논거를 개발하고 테스트할 수 있는지 여부"이기 때문에 이는 놀라운 일이 아닙니다(Hammersley, 2015, p.688). 즉, 빈도가 높은 코드가 대부분 식별되었다고 해서 반드시 중요한 문제가 포착된 것과 동일시해서는 안 됩니다. 빈도가 낮은 코드도 데이터의 주제를 이해하는 데 똑같이 기여할 수 있으며, 따라서 빈도가 아니라 이해에 기여하는 정도가 중요해집니다. Morse(2015)는 데이터가 정상 곡선을 따라 발생하며, 일반적인 데이터는 중간에, 덜 일반적인 데이터는 곡선의 꼬리에 위치한다는 점을 강조하여 이를 잘 설명했습니다. 하지만
We found no pattern of saturation by code prevalence. Issues raised more frequently in data did not reach meaning saturation sooner than issues mentioned less frequently. Therefore, code prevalence is not a strong indicator of saturation, as it provides no indication of when the meaning of that issue may be reached. This should not be surprising because “it is not so much the frequency with which data relevant to a theme occurs that is important but rather whether particular data segments allow a fruitful analytic argument to be developed and tested” (Hammersley, 2015, p.688). Code prevalence should also not be equated with code importance; in other words, if most high-prevalence codes have been identified, this does not necessarily equate to important issues having been captured. Less prevalent codes may contribute equally to understanding themes in data; thus, they become important not for their frequency but for their contribution to understanding. Morse (2015) described this well by highlighting that data accrue along a normal curve, with common data in the middle and less common data at the tails of the curve. However,

질적 조사에서는 곡선의 꼬리에 있는 데이터도 똑같이 중요합니다. 곡선의 중앙에 있는 데이터가 덜 일반적인 데이터를 압도하고 꼬리에 있는 똑같이 중요한 데이터를 무시할 위험이 있습니다. (p. 587)
in qualitative inquiry, the data at the tails of the curve are equally important . . . The risk is that the data in the center of the curve will overwhelm the less common data, and we will ignore the equally significant data at the tails. (p. 587)


따라서 빈도가 높은 코드를 포착하여 포화도를 정당화하는 것은 포화도의 요점을 놓치는 것이며, [의미 포화]를 추구하면 곡선을 평평하게 만들어 현상 이해에 기여할 수 있는 코드의 잠재력을 동등하게 취급할 수 있습니다. 이는 포화도를 주장할 때 [코드의 빈도를 계산]하는 것이 아니라, [코드의 의미를 포착]했음을 입증하는 것이 중요하다는 점을 강조합니다.
Therefore, justifying saturation by capturing high-prevalence codes misses the point of saturation; striving for meaning saturation flattens the curve to treat codes equally in their potential to contribute to understanding phenomena. This stresses the importance of demonstrating that the meaning of codes were captured instead of counting the prevalence of codes when claiming saturation.

연구 결과는 [포화가 여러 매개변수의 영향을 받는다]는 점을 강조합니다(그림 6). 이러한 매개변수는 연구 제안서에서 특정 연구에 선험적으로 필요한 표본 크기를 추정하는 데 사용할 수 있으며, 포화도를 평가하고 달성한 근거를 입증하여 사용된 표본 크기를 정당화하는 데 사용할 수도 있습니다. 각 매개변수는 지렛대 역할을 하며 특정 연구의 맥락에서 '가중치'를 부여해야 합니다. 따라서 표본 크기는 단일 매개변수 단독이 아닌 [모든 매개변수의 영향력을 합산]하여 결정됩니다. 예를 들어, 일부 매개변수가 포화도에 대해 더 작은 표본을 나타내고 다른 매개변수가 더 큰 표본을 제안하는 경우, 결합된 영향력을 고려하면 중간 표본 크기가 필요하다는 것을 알 수 있습니다.
Our results highlight that saturation is influenced by multiple parameters (Figure 6). These parameters can be used in a research proposal to estimate sample sizes needed a priori for a specific study or they can be used to demonstrate the grounds on which saturation was assessed and achieved thereby justifying the sample size used. Each parameter acts as a fulcrum and needs to be “weighed up” within the context of a particular study. A sample size is thus determined by the combined influence of all parameters rather than any single parameter alone. For example, where some parameters indicate a smaller sample for saturation and others suggest a larger sample, the combined influence would suggest the need for an intermediate sample size.

  • 연구 목적이 포화도에 영향을 미칩니다. 코드 포화도는 9번의 인터뷰로 도달할 수 있으며, 이는 광범위한 주제에 대한 개요를 제시하거나 설문조사 도구의 항목을 개발하는 것을 목표로 하는 연구에는 충분할 수 있지만 복잡한 현상을 이해 또는 설명하거나 이론을 개발하기 위해 의미 포화도가 필요한 경우에는 더 많은 표본이 필요합니다. 
  • 연구 모집단의 특성은 포화도에 영향을 미칩니다. 본 연구에는 특정 클리닉에서 HIV 치료를 받는 퇴역군인의 비교적 동질적인 표본이 포함되었지만, 연구 집단이 더 다양하다면 코드와 의미 포화도를 모두 달성하기 위해 더 큰 표본 크기가 필요할 것으로 예상됩니다. 
  • 사용된 샘플링 전략이 포화도에 영향을 미칠 수 있는데, 반복 샘플링은 고정 모집 기준을 사용하는 것보다 포화도에 도달하기 위해 더 작은 표본이 필요할 수 있지만, 반복 샘플링은 궁극적으로 표본 크기를 확장하는 새로운 데이터 소스를 발견할 수도 있습니다. 따라서 샘플링 전략에 따라 표본 크기에 서로 다른 영향을 미칠 수 있습니다. 
  • 데이터 품질은 포화도에 영향을 미치는데, '두꺼운' 데이터는 '얇은' 데이터보다 더 깊고 풍부한 인사이트를 제공하지만, 연구 목표에 부합한다면 후자의 데이터로도 코드 포화를 달성하기에 충분할 수 있습니다. 
  • 개발된 코드의 유형은 포화도에 영향을 미칩니다. 데이터에서 명시적이고 구체적인 문제를 포착하려면 더 작은 샘플이 필요하고, 미묘하거나 개념적인 문제를 포착하려면 훨씬 더 큰 샘플이 필요하다는 것을 보여줍니다. 
  • 코드북의 복잡성과 안정성은 포화도에 영향을 미칩니다. 코드북에는 명시적, 미묘한, 개념적 코드를 포함한 광범위한 코드가 포함되어 있어 일부 코드는 안정화되어 포화 상태에 도달한 반면, 다른 코드의 차원은 25번의 인터뷰에서도 여전히 나타나고 있었습니다. 
  • 마지막으로, 포화의 목표와 초점이 포화에 도달하는 위치에 영향을 미쳤습니다. 연구 결과는 '포화 상태에 도달하는 것'이 일률적인 성과가 아님을 보여줍니다. [코드 포화]에 도달하는 것은 [의미 포화]에 도달하는 것과는 다르며, 각각 다른 샘플 크기가 필요합니다. 개별 코드도 데이터의 다른 지점에서 포화에 도달하며, 원하는 포화의 전체 비율은 연구 또는 연구자마다 다를 수 있습니다(예: 80% 대 90%). 

따라서 포화의 목표(예: 핵심 코드 또는 전체 데이터), 포화의 초점(예: 코드 포화 또는 의미 포화), 원하는 포화 수준(예: 80%, 90%)을 파악하면 샘플 크기가 결정되고 포화가 달성되는 지점을 결정할 때 더 큰 뉘앙스를 제공합니다.

  • The study purpose influences saturation. We show that code saturation may be reached at nine interviews, which may be sufficient for a study aiming to outline broad thematic issues or to develop items for a survey instrument, but a larger sample is needed if meaning saturation is needed to understand or explain complex phenomena or develop theory.
  • Characteristics of the study population influence saturation. Our study included a relatively homogeneous sample of veterans receiving HIV care at a specific clinic, but we anticipate a larger sample size would be needed to achieve both code and meaning saturation if the study population were more diverse.
  • The sampling strategy used may influence saturation, whereby iterative sampling may require a smaller sample to reach saturation than using fixed recruitment criteria; however, iterative sampling may also uncover new data sources that ultimately expand the sample size. Thus, sampling strategies may have differing influences on sample size.
  • Data quality influences saturation, as “thick” data provide deeper, richer insights than “thin” data; however, the latter may be sufficient to achieve code saturation if that aligns with the study goals.
  • The type of codes developed influences saturation. We show that a smaller sample is needed to capture explicit, concrete issues in our data, and a much larger sample is needed to capture subtle or conceptual issues.
  • The complexity and stability of the codebook influences saturation. Our codebook included a broad range of codes, including explicit, subtle, and conceptual codes; therefore, some codes stabilized and reached saturation, while dimensions of other codes were still emerging at 25 interviews.
  • Finally, the goal and focus of saturation influence where saturation is achieved. Our results show that “reaching saturation” is not a uniform accomplishment. Achieving code saturation is different from reaching meaning saturation, and each requires different sample sizes. Individual codes also reach saturation at different points in the data, and overall percentage of saturation desired may differ between studies or researchers (e.g., 80% vs. 90%).

Therefore, identifying the goal of saturation (e.g., in core codes or in all data), the focus of saturation (e.g., code saturation or meaning saturation), and the level of saturation desired (e.g., 80%, 90%) also determines the sample size and provides greater nuance in determining where saturation is achieved.

포화를 평가하는 것은 처음에 보이는 것보다 더 복잡합니다. 연구자는 포화를 평가하는 과정, 포화에 도달한 매개변수, 포화에 도달하지 못한 매개변수 및 그 이유에 대해 보다 미묘한 설명을 제공해야 합니다. 이 선언을 한계로 간주해서는 안 되며, 포화 평가에 대한 연구자의 관심과 특정 연구에 어떻게 적용되는지에 대한 인식을 나타내는 지표로 간주해야 합니다.
Assessing saturation is more complex than it appears at the outset. Researchers need to provide a more nuanced description of their process of assessing saturation, the parameters within which saturation was achieved and where it was not achieved and why. This declaration should not be viewed as a limitation but an indicator of researchers’ attention to assessing saturation and awareness of how it applies to a particular study.

연구의 한계
Study Limitations

의미 포화 분석은 다양한 코드를 대상으로 수행되었지만, 본 연구에서 모든 코드가 이 분석에 사용된 것은 아닙니다. 발견한 패턴이 다른 연구 데이터에서도 재현될 수 있는지 확인하기 위해 추가적인 방법론적 연구를 권장합니다. 또한 다른 유형의 질적 연구보다 연구 목적과 연구 참여자가 더 명확하게 정의될 수 있는 응용 질적 연구의 데이터를 사용하여 포화를 평가했습니다. 따라서 본 연구 결과를 다른 유형의 데이터나 질적 연구 접근 방식에 대한 일반적인 것으로 간주해서는 안 됩니다. 마지막으로, 질적 연구자는 코드 개발 스타일(예: 광범위한 코드 또는 특정 코드)이 다를 수 있으며, 본 연구 결과도 코드 개발 스타일을 반영할 수 있습니다. 
Our analysis of meaning saturation was conducted on a diverse range of codes, but not all codes in our study were used for this analysis. We encourage further methodological research to confirm whether the patterns we found can be replicated in other study data. Also, we assessed saturation using data for applied qualitative research, in which the study purpose and study participants may be more defined than in other types of qualitative research. Our results should not be taken as generic for other types of data or approaches to qualitative research. Finally, qualitative researchers may have different styles of developing codes (i.e., broad or specific codes), and our results may also reflect our code development style.

결론
Conclusion

"포화는 엄격성의 중요한 구성 요소입니다. 이는 모든 질적 연구에 존재하지만, 안타깝게도 주로 선언을 통해 드러납니다."(Morse, 2015, 587쪽). 본 연구는 포화에 대한 두 가지 접근 방식을 문서화하고 각 접근 방식에서 포화에 영향을 미치는 매개변수를 도출하여 질적 연구를 위한 표본 크기 추정 지침을 제공하는 방법론적 연구를 제공합니다. 적은 수의 인터뷰만으로도 데이터에서 포괄적인 범위의 문제를 파악할 수 있지만, 이러한 문제에 대한 풍부한 이해를 위해서는 더 많은 데이터가 필요하다는 것을 확인했습니다. 얼마나 많은 추가 데이터가 필요한지는 연구 목적, 연구 모집단, 코드 유형, 코드북의 복잡성 및 안정성 등 다양한 포화 매개변수에 따라 달라집니다. 이러한 포화 매개변수를 사용하여 특정 연구에 대한 표본 크기 추정치를 선험적으로 안내하고 출판물 내에서 포화를 평가하거나 달성한 근거를 입증하면 연구 목적과 질적 연구의 목표를 반영하는 보다 적절한 표본 크기가 도출될 가능성이 높습니다.
“Saturation is an important component of rigor. It is present in all qualitative research, but unfortunately, it is evident mainly by declaration” (Morse, 2015, p. 587). Our study provides methodological research to document two different approaches to saturation and draws out the parameters that influence saturation in each approach to guide sample size estimates for qualitative studies. We identified that a small number of interviews can be sufficient to capture a comprehensive range of issues in data; however, more data are needed to develop a richly textured understanding of those issues. How much additional data are needed will depend on a range of parameters of saturation, including the purpose of the study, study population, types of codes, and the complexity and stability of the codebook. Using these parameters of saturation to guide sample size estimates a priori for a specific study and to demonstrate within publications the grounds on which saturation was assessed or achieved will likely result in more appropriate sample sizes that reflect the purpose of a study and the goals of qualitative research.

 


 

Qual Health Res. 2017 Mar;27(4):591-608. doi: 10.1177/1049732316665344. Epub 2016 Sep 26.

Code Saturation Versus Meaning Saturation: How Many Interviews Are Enough?

Affiliations

11 Emory University, Atlanta, Georgia, USA.

22 Duke University, Durham, North Carolina, USA.

33 Atlanta Veterans Affairs Medical Center, Atlanta, Georgia, USA.

PMID: 27670770

PMCID: PMC9359070

DOI: 10.1177/1049732316665344

Free PMC article

 

Abstract

Saturation is a core guiding principle to determine sample sizes in qualitative research, yet little methodological research exists on parameters that influence saturation. Our study compared two approaches to assessing saturation: code saturation and meaning saturation. We examined sample sizes needed to reach saturation in each approach, what saturation meant, and how to assess saturation. Examining 25 in-depth interviews, we found that code saturation was reached at nine interviews, whereby the range of thematic issues was identified. However, 16 to 24 interviews were needed to reach meaning saturation where we developed a richly textured understanding of issues. Thus, code saturation may indicate when researchers have "heard it all," but meaning saturation is needed to "understand it all." We used our results to develop parameters that influence saturation, which may be used to estimate sample sizes for qualitative research proposals or to document in publications the grounds on which saturation was achieved.

Keywords: HIV/AIDS; USA; behavior; in-depth interviews; infection; methodology; qualitative; saturation.

질적연구에서 포화를 위한 표본 수: 실증 시험의 체계적 문헌고찰(Soc Sci Med. 2022)
Sample sizes for saturation in qualitative research: A systematic review of empirical tests
Monique Hennink a,*, Bonnie N. Kaiser b

 

 

1. 서론
1. Introduction

[포화]는 질적 연구에서 목적적 표본의 적절성을 평가하기 위한 가장 일반적인 지침 원칙입니다(Morse, 1995, 2015; Sandelowski, 1995). 그러나 포화 평가에 대한 지침과 포화에 도달하는 데 필요한 표본 크기는 모호했습니다. 최근까지 포화는 다양한 유형의 정성적 데이터로 경험적으로 평가되지 않았습니다. 포화에 대한 경험적 평가에 대한 관심이 높아지면서 이 주제에 대한 연구가 많이 이루어졌고, 이를 종합하고 이를 통해 무엇을 배울 수 있는지 파악할 수 있는 적절한 시기가 되었습니다. 이 체계적인 검토에서는 정성적 연구에서 포화를 경험적으로 평가하는 연구를 식별하고, 포화에 필요한 표본 크기, 포화를 평가하는 데 사용되는 전략 및 이러한 연구에서 도출할 수 있는 지침을 확인하고자 했습니다.  
Saturation is the most common guiding principle for assessing the adequacy of purposive samples in qualitative research (Morse, 1995, 2015; Sandelowski, 1995). However, guidance on assessing saturation and the sample sizes needed to reach saturation have been vague. Until recently, saturation had not been empirically assessed with different types of qualitative data. A growing interest in empirical assessment of saturation has now generated a body of research on the topic, making it an opportune time to synthesize it and identify what we can learn from it. This systematic review sought to identify studies that empirically assess saturation in qualitative research, to identify sample sizes needed for saturation, strategies used to assess saturation, and guidance we can draw from these studies.

포화의 개념은 Glaser와 Strauss(1967)에 의해 ['이론적 포화']로 개발되었으며, 질적 연구에 대한 영향력 있는 근거 이론 접근법의 일부였습니다. 근거 이론은 사회 현상을 설명하기 위해 텍스트 데이터로부터 사회학 이론을 개발하는 데 중점을 둡니다. 이 접근법에서 [이론적 포화]란 "이론적 구성에 대한 더 많은 데이터를 수집해도 새로운 속성이 드러나지 않고, 새로운 근거 이론에 대한 더 이상의 이론적 통찰을 얻지 못하는 지점"을 의미합니다(Bryant와 Charmaz, 2007, 611쪽). 따라서 데이터 수집에서 [중요한 이슈나 통찰력이 데이터에서 모두 소진되는 시점]은 이론을 구성하는 개념적 범주가 '포화 상태'에 이르렀음을 의미하며, 이는 새로운 이론이 포괄적이고 데이터에 근거한 이론이 될 수 있음을 의미합니다. 이론적 포화 상태는 샘플링, 데이터 수집, 데이터 분석이 동시에 이루어지는 반복적인 과정에도 내재되어 있으며(Sandelowski, 1995), 데이터는 포화 상태가 될 때까지 샘플링에 지속적으로 정보를 제공합니다. 
The concept of saturation was developed by Glaser and Strauss (1967) as ‘theoretical saturation’ and was part of their influential grounded theory approach to qualitative research. Grounded theory focuses on developing sociological theory from textual data to explain social phenomena. Within this approach, theoretical saturation refers to “the point at which gathering more data about a theoretical construct reveals no new properties, nor yields any further theoretical insights about the emerging grounded theory” (Bryant and Charmaz, 2007 p.611). Thus, it is the point in data collection when all important issues or insights are exhausted from data, which signifies that the conceptual categories that comprise the theory are ‘saturated’, so that the emerging theory is comprehensive and well-grounded in data. Theoretical saturation is also embedded in an iterative process of concurrently sampling, collecting data, and analyzing data (Sandelowski, 1995), whereby data continuously inform sampling until saturation.

대부분의 질적 연구는 근거 이론 접근법을 따르지 않지만, 포화 개념은 다른 질적 연구 접근법에서 널리 사용되며, 일반적으로 '데이터 포화' 또는 '주제 포화'라고 불립니다(Hennink et al., 2017). 이러한 포화의 광범위한 적용은 이론적 포화에서와 같이 이론을 개발하기 위한 데이터의 적절성보다는 표본 크기를 평가하는 데 더 중점을 둡니다. 더 넓은 맥락에서 사용되는 포화는 데이터 수집에서 [추가적인 문제나 인사이트]가 발견되지 않고 [데이터가 반복]되기 시작하여 더 이상의 데이터 수집이 [중복되는 시점]을 의미하며, 이는 적절한 표본 크기에 도달했음을 의미합니다. 포화는 표본이 연구 대상 현상에 적합한지, 즉 수집된 데이터가 연구 대상 이슈의 다양성, 깊이, 미묘한 차이를 포착하고 있는지, 따라서 [내용 타당성]을 입증할 수 있는지를 나타내는 중요한 지표입니다(Francis et al., 2010). 포화에 도달하는 것은 데이터 수집을 강력하고 타당하게 만드는 데 도움이 되는 질적 연구의 중요한 구성 요소가 되었습니다(O'Reilly and Parker, 2013). 또한 포화는 "저자가 리뷰어와 독자에게 제공하는 질적 엄격성에 대한 가장 빈번한 보증"입니다(Morse, 2015, 587쪽). 이 리뷰에서는 [근거 이론]의 매개변수 외부에서 사용될 때 포화를 위한 적절한 표본 크기에 대해 알려진 바가 적기 때문에 더 넓은 맥락에서 포화에 초점을 맞춥니다.
Although most qualitative research does not follow a grounded theory approach, the concept of saturation is widely used in other approaches to qualitative research, where it is typically called ‘data saturation’ or ‘thematic saturation’ (Hennink et al., 2017). This broader application of saturation focuses more on assessing sample size rather than the adequacy of data to develop theory (as in theoretical saturation). When used in the broader context, saturation refers to the point in data collection when no additional issues or insights are identified and data begin to repeat so that further data collection is redundant, signifying that an adequate sample size is reached. Saturation is an important indicator that a sample is adequate for the phenomenon studied – that data collected have captured the diversity, depth, and nuances of the issues studied – and thereby demonstrates content validity (Francis et al., 2010). Reaching saturation has become a critical component of qualitative research that helps make data collection robust and valid (O’Reilly and Parker, 2013). Moreover, saturation is “the most frequently touted guarantee of qualitative rigor offered by authors to reviewers and readers" (Morse, 2015, p. 587). In this review, we focus on saturation in the broader context, since less is known about adequate sample sizes for saturation when used outside of the parameters of grounded theory.

질적 표본의 엄밀성을 뒷받침하는 포화의 중요성에도 불구하고, 발표된 질적 연구에서 표본 크기가 정당화되는 방식에 대한 투명성이 일관되게 부족합니다(Morse, 1995; Guest 외., 2006; Kerr 외., 2010; Carlsen and Glenton, 2011; Hennink 외., 2017). [포화는 적절한 표본 크기에 대한 가장 일반적인 근거로 인용]되지만(Morse, 1995, 2015), 포화를 평가한 방법과 그 근거에 대한 자세한 내용은 질적 연구에서 거의 찾아볼 수 없습니다. Vasileiou 등(2018)은 15년 동안 건강 관련 저널에서 [심층 인터뷰를 사용한 질적 연구]를 체계적으로 검토한 결과, 대다수의 논문에서 표본 크기에 대한 정당성을 제공하지 않는다는 사실을 발견했습니다. 정당성이 제시된 경우 55%의 논문에서 포화가 인용되었지만, 포화에 대한 주장은 "연구 자체에서 수행된 절차와 관련하여 입증되지 않았으며"(12쪽), 당면한 연구와 거리가 먼 다른 문헌의 추가 인용만 제시되었습니다. 
Despite the importance of saturation to support the rigor of qualitative samples, there is a consistent lack of transparency in how sample sizes are justified in published qualitative research (Morse, 1995; Guest et al., 2006; Kerr et al., 2010; Carlsen and Glenton, 2011; Hennink et al., 2017). Although saturation is the most commonly cited justification for an adequate sample size (Morse, 1995, 2015), details of how saturation was assessed and the grounds on which it was determined are largely absent in qualitative studies. Vasileiou et al. (2018) conducted a systematic review of qualitative studies using in-depth interviews in health-related journals over a 15-year period and found the vast majority of articles provided no justification for their sample size. Where justifications were given, saturation was cited in 55% of articles; however, claims of saturation were “never substantiated in relation to procedures conducted in the study itself” (p. 12); only further citations of other literature were given that moved away from the study at hand.

마찬가지로 [포커스 그룹 토론]을 사용한 220개의 연구를 체계적으로 검토한 결과(Carlsen and Glenton, 2011), 83%가 표본 크기를 정당화하기 위해 포화를 사용했지만, 포화에 대한 근거 없는 주장이나 미리 정해진 표본 크기를 사용하면서 포화를 달성했다는 언급 등 포화를 달성한 방법에 대한 피상적인 보고만 제공한 것으로 밝혀졌습니다. 또 다른 연구(Francis 외, 2010)에서는 16개월에 걸쳐 사회과학 및 의학 저널의 논문을 검토한 결과 대부분의 논문이 포화 상태에 도달했다고 주장하지만 포화 상태를 정의, 달성 또는 정당화하는 방법에 대해 명확하게 설명하지 않는 것으로 나타났습니다. Marshall 등(2013)도 83개의 [질적 연구를 검토]한 결과 포화가 어떤 연구에서도 설명되지 않았다는 사실을 발견했습니다. 포화가 어떻게 평가되거나 결정되었는지에 대한 연구 기반의 설명 없이 포화를 주장하는 것에 대한 우려가 커지고 있습니다. 포화 상태에 도달했다는 근거 없는 주장은 포화 상태라는 개념의 가치를 훼손합니다. 부분적으로 이러한 투명성 부족은 포화를 평가하는 방법에 대한 공개된 지침이 없기 때문일 수 있습니다(Morse, 1995; Guest et al., 2006). 이 검토에서는 경험적 연구에서 포화를 평가하는 데 사용되는 전략을 파악하여 질적 연구에서 포화를 보고할 때 투명성을 높일 수 있는 방법을 모색하고자 합니다. 

Similarly, a systematic review of 220 studies using focus group discussions (Carlsen and Glenton, 2011) found that 83% used saturation to justify their sample size; however, they provided only superficial reporting of how it was achieved, including unsubstantiated claims of saturation and references to achieving saturation while still using a predetermined sample size. Another study (Francis et al., 2010) reviewed articles in the journal Social Science and Medicine over 16 months and found most articles claimed they had reached saturation but provided no clarity on how saturation was defined, achieved, or justified. Marshall et al. (2013) also reviewed 83 qualitative studies and found saturation was not explained in any study. There are increasing concerns over claims of saturation without study-based explanations of how it was assessed or determined. Unsubstantiated claims of reaching saturation undermine the value of the concept. In part, this lack of transparency may reflect the absence of published guidance on how to assess saturation (Morse, 1995; Guest et al., 2006). In this review, we seek to identify the strategies used to assess saturation in empirical research, which may encourage greater transparency in reporting saturation in qualitative studies.

또한, 다양한 질적 방법에서 포화에 도달하는 데 필요한 특정 표본 크기에 대한 지침은 방법론 문헌에 없거나 모호하며, 근거에 기반하지 않은 일반적인 '경험 법칙'만 제공합니다(Morse, 1995; Guest 외, 2006; Kerr 외, 2010; Bryman, 2012; Hennink 외, 2019). 포화를 경험적으로 평가하는 연구가 이러한 격차를 메우기 시작하면서, 질적 연구에서 포화에 대한 표본 크기에 대해 절실히 필요한 경험적 기반 지침을 제공할 수 있게 되었습니다. 
In addition, guidance on specific sample sizes needed to reach saturation in different qualitative methods has been absent or vague in the methodological literature, providing only general “rules of thumb” that are rarely evidence-based (Morse, 1995; Guest et al., 2006; Kerr et al., 2010; Bryman, 2012; Hennink et al., 2019). As research empirically assessing saturation begins to fill this gap, it allows us to provide much-needed empirically based guidance on sample sizes for saturation in qualitative research.

이 체계적 검토에서는 [정성적 데이터의 포화를 평가하는 실증적 연구를 종합]하고자 합니다. 특히, 포화를 평가하는 데 사용되는 전략을 문서화하고, 다양한 질적 방법을 사용하여 포화에 도달하는 데 필요한 표본 크기를 식별하며, 질적 연구를 위한 표본 크기에 대한 지침을 제시하고자 합니다. 저희가 알기로는 포화에 대한 경험적 연구에 대한 체계적인 검토는 이번이 처음이며, 따라서 질적 연구를 검토하는 연구자, 학술지, 학술지 심사자, 윤리 검토 위원회 및 자금 지원 기관에 유용한 리소스를 제공합니다. 연구자는 연구 제안서 및 프로토콜에서 적절한 표본 크기를 추정할 때 이 결과를 참조할 수 있으며, 이를 통해 연구 자원을 보다 효율적으로 사용하고 제안된 표본 크기에 대한 명확한 근거를 마련할 수 있습니다. 마찬가지로, 연구 결과는 질적 연구에 적합한 표본 크기에 대한 증거 기반의 기대치를 제공하여 연구를 검토하고 자금을 지원하는 사람들에게 지침을 제공할 수 있습니다.
In this systematic review, we aim to synthesize empirical studies that assess saturation in qualitative data. In particular, we aim to document strategies used to assess saturation, identify sample sizes needed to reach saturation using different qualitative methods, and suggest guidance on sample sizes for qualitative research. To our knowledge, this is the first systematic review on empirical studies of saturation and therefore provides a valuable resource for researchers, academic journals, journal reviewers, ethical review boards, and funding agencies that review qualitative research. Researchers can refer to our results when estimating an appropriate sample size in research proposals and protocols, which may lead to more efficient use of research resources and clearer justifications for proposed sample sizes. Similarly, our results may provide evidence-based expectations regarding adequate sample sizes for qualitative research to guide those who review and fund research.

2. 조사 방법
2. Methods

저희는 체계적 문헌고찰을 수행하고 보고할 때 체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목(PRISMA) 가이드라인을 따랐습니다(Moher et al., 2009). 그림 1은 식별, 선별 및 포함된 논문 수를 보여줍니다. 데이터베이스 검색과 인용 검색을 포함한 2단계 검색 프로세스를 사용했습니다. 

We followed the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) guidelines in conducting and reporting our systematic review (Moher et al., 2009). Fig. 1 shows the number of articles identified, screened, and included. We used a two-stage search process, including database searches and citation searches.

먼저 PubMed, Embase, Sociological Abstracts, CINAHL 등 4개의 데이터베이스를 사용하여 제목, 초록, 키워드/색인에 '포화'와 다음 용어 중 하나가 포함된 논문 또는 서적 챕터를 검색했습니다: "인터뷰", "포커스 그룹", "질적" 또는 "주제"(전체 검색어는 부록 표 참조). 검색 결과는 영어 및 인간 연구로 제한되었습니다. 데이터베이스 검색은 2019년 1월 31일부터 2월 1일까지 수행되었으며 2020년 7월 10일에 업데이트되었습니다. 두 저자는 모든 논문 제목, 초록, 필요한 경우 전문을 독립적으로 선별하여 적격성을 결정했습니다. 불일치하는 부분은 논의하고 합의를 통해 해결했습니다. 연구에 포함되려면,

  • a) 질적 연구에서 포화를 평가하기 위해 경험적 데이터를 사용하거나 가상의 데이터를 사용하여 포화를 결정하는 통계 모델을 사용해야 하고,
  • b) 근거 이론을 벗어난 포화에 초점을 맞춰야 하며,
  • c) 저널 논문 또는 책 챕터로 출판되어야 하고,
  • d) 영어로 이용 가능해야 합니다.

데이터베이스 검색을 통해 16개의 논문이 포함되었습니다. 
First, we used four databases -- PubMed, Embase, Sociological Abstracts, and CINAHL -- to search for articles or book chapters that included “saturation” and one of the following terms in the title, abstract, or key words/index: “interview,” “focus group,” “qualitative,” or “thematic” (see Supplemental Table for full search terms). Search results were limited to English-language and human studies. Database searches were conducted on January 31 – February 1, 2019 and updated July 10, 2020. Both authors independently screened all article titles, abstracts, and, where needed, full texts to determine eligibility. Discrepancies were discussed and resolved by consensus. To be eligible for inclusion, studies needed to:

  • a) use empirical data to assess saturation in qualitative research or use a statistical model to determine saturation using hypothetical data,
  • b) focus on saturation outside of grounded theory,
  • c) be published in journal articles or book chapters, and
  • d) be available in English.

Sixteen articles were included from database searches.

둘째, 포함된 논문의 참고문헌 목록을 검토하고 Google Scholar의 '인용 출처' 검색 옵션을 사용하여 인용 검색을 수행하여 포함 기준을 충족하는 추가 기록을 식별했습니다. Google Scholar에서 250개 이상의 인용 논문이 있는 연구의 경우, 인용 논문 내에서 "포화"를 검색하여 처음 250개의 결과(관련성 순으로 정렬됨)를 검토했습니다. 이 단계에서 추가로 7개의 논문이 포함되었습니다.
Second, we conducted citation searches by reviewing the reference lists of included articles and using the “cited by” search option in Google Scholar to identify further records meeting the inclusion criteria. For studies with more than 250 citing articles on Google Scholar, we searched within citing articles for “saturation” and reviewed the first 250 results (which are ordered by relevance). An additional seven articles were included during this step.

23개의 적격 논문에서 다음과 같은 정보를 추출했습니다:

  • a) 논문에 대한 메타 데이터(저자, 저널, 연도),
  • b) 사용된 데이터에 대한 정보(가설적 대 경험적, 인터뷰, 포커스 그룹 토론 등), 연구 목적, 표본 크기, 연구 집단(동종, 이종), 데이터 수집이 반복적이었는지 여부,
  • c) 정의, 목표, 데이터 무작위 배정, 포화 평가 전략, 포화를 위한 표본 크기 및 달성한 포화 수준(예, 코드의 90%) 및
  • d) 추가 정보(제한 사항, 제안된 포화 매개변수).

두 저자는 6개의 논문에서 독립적으로 데이터를 추출하고 결과를 논의했습니다. 이는 명확성 부족이나 중복성 등 데이터 추출 범주에 문제가 있는지 확인하고 두 저자 간의 신뢰성을 확립하기 위해 수행되었습니다. 그런 다음 나머지 각 논문은 두 저자 중 한 명이 데이터 추출을 수행했습니다.
We extracted the following information from the 23 eligible articles:

  • a) meta-data about the article (author, journal, year),
  • b) information about data used (hypothetical vs. empirical; interviews, focus group discussions, etc.), research objective, sample size, study population (homogenous, heterogenous), and whether data collection was iterative,
  • c) information about saturation, including: definition, goal, data randomization, strategy to assess saturation, sample size for saturation, and level of saturation achieved (e.g., 90% of codes), and
  • d) additional information (limitations, any parameters of saturation suggested).

Both authors independently extracted data from 6 articles and discussed results. This was done to identify any issues with the data extraction categories, such as lack of clarity or redundancy, as well as to establish reliability between the two authors. Each remaining article then underwent data extraction by one of the two authors.

경험적 데이터를 사용하여 포화를 평가한 연구와 통계적 모델을 사용한 연구의 결과를 별도로 분석했습니다. 인터뷰 또는 포커스 그룹 토론과 같은 정성적 방법을 통해 포화에 대한 샘플 크기를 분석했습니다. 연구 모집단의 동질성 및 데이터 무작위 추출을 통해 포화를 비교하여 패턴을 파악했습니다. 
We analyzed results separately for studies using empirical data to assess saturation versus those using statistical models. We analyzed sample sizes for saturation by qualitative method: interviews or focus group discussions. We conducted comparisons of saturation by homogeneity of the study population and randomization of data to identify any patterns.

3. 결과
3. Results

체계적인 검토를 통해 질적 연구의 포화를 평가한 23편의 논문을 확인했습니다. 모든 논문은 2006년부터 2020년 사이에 출판되었으며, 대다수(87%, 20/23)가 2014년 이후에 출판되었습니다. 연구 방법론 저널(43%, 10/23)과 사회과학(6/23) 또는 주제별 저널(7/23)(예: 공학, 컴퓨팅, 자연자원)에 게재된 논문이 많았습니다. 경험적 데이터를 사용하여 포화를 평가하는 논문(표 1, 17개 논문)과 통계적 모델링을 사용하여 포화를 예측하는 논문(표 2, 6개 논문)으로 분류했습니다. 이러한 접근 방식과 결과는 비교할 수 없으므로 아래에서 각각을 개별적으로 보고합니다. 

Our systematic review identified 23 articles assessing saturation for qualitative research. All articles were published between 2006 and 2020, with the majority (87%, 20/23) published since 2014. Many articles were published in research methodology journals (43%, 10/23) and others in social science (6/23) or topical journals (7/23) (e.g., engineering, computing, natural resources). We categorized the articles into those assessing saturation using empirical data (Table 1, 17 articles) and those using statistical modeling to predict saturation (Table 2, 6 articles). Since these approaches and results are not comparable, we report each separately below.

 

 

3.1. 포화

평가에 대한 접근 방식
3.1. Approaches to assessing saturation

3.1.1. 경험적 기반 테스트
3.1.1. Empirically based tests

표 1에는 경험적 데이터를 사용하여 포화를 평가한 17개의 논문이 요약되어 있습니다. 일부 논문에서는 여러 데이터 세트를 사용하여 포화를 평가하고 각각의 결과를 개별적으로 보고했기 때문에 표 1에는 17개 논문에서 23개의 테스트가 나와 있습니다(참고: 이러한 연구는 실험적 테스트를 수행하지 않았지만, 간결성을 위해 '테스트'라는 용어를 사용하여 통계적 모델링이 아닌 경험적 데이터를 사용하여 포화를 평가하는 개별 연구를 지칭합니다). 대부분의 논문은 심층 인터뷰(10/17) 또는 포커스 그룹 토론(4/17)에서 얻은 데이터를 사용했으며, 두 가지 유형의 데이터를 모두 사용한 논문은 두 편, 자유 목록 데이터를 사용한 논문은 한 편(Weller et al., 2018)이었습니다. 자유 목록 데이터는 인터뷰 및 포커스 그룹 토론에서 나온 자유로운 서술형 데이터와 비교할 수 없기 때문에 분석에서 Weller 등의 논문은 제외했습니다. 따라서 모든 논문을 설명할 때는 분모 16을 사용하고, 경험적 데이터로 모든 테스트의 데이터 세트와 결과를 설명할 때는 분모 22를 사용합니다.
Table 1 summarizes 17 articles that assess saturation using empirical data. Some articles used multiple datasets to assess saturation and report the results of each separately; therefore, Table 1 shows 23 tests from 17 articles (NB: while these studies were not conducting experimental tests, we use the term ‘test’ for brevity to refer to individual studies using empirical data, as opposed to statistical modeling, to assess saturation). Most articles used data from in-depth interviews (10/17) or focus group discussions (4/17); two articles used both types of data, and one article (Weller et al., 2018) used free list data. We excluded the article by Weller et al. in our analysis because free list data are not comparable to free-flowing narrative data from interviews and focus group discussions. We therefore use the denominator of 16 when describing all articles and 22 when describing the datasets and results of all tests with empirical data.

테스트에 사용된 각 데이터 세트의 원래 연구 목적은 다양했지만, 대부분의 연구(14/16)는 특정 건강 상태(예: 겸상 적혈구 질환, 다발성 경화증, 파제트병), 의료 서비스 또는 개입(예: 유전자 검사, 폭력 예방, 라이프스타일 개입, 환자 유지)의 [경험]과 같은 [건강 문제]에 초점을 맞췄습니다. 이러한 연구 목표는 많은 질적 건강 연구의 전형적인 목표입니다. 사용된 데이터 세트의 표본 크기는 14~132건의 인터뷰와 1~40개의 포커스 그룹으로 다양했습니다. 한 데이터셋(Francis et al., 2010)을 제외한 모든 데이터셋은 포화를 평가하는 데 필요한 표본보다 훨씬 더 큰 표본을 가지고 있어 포화를 평가하는 데 효과적이었습니다. Francis 등(2010)은 사용된 두 데이터 세트 모두에서 연구의 표본 크기와 정확히 일치하는 포화에 도달했다고 보고했습니다. 대부분의 데이터세트(18/22)는 특정 질병(예: HIV, 류마티스 관절염, 겸상 적혈구)을 앓고 있거나 특정 인구 집단(예: 남성 간호사, 의대생, 남아시아 성인, 아프리카계 미국인 남성)의 환자 등 [동질적인 연구 모집단]을 가지고 있었습니다. 나머지 데이터 세트에는 미국 전역의 20~72세 남성 또는 14~18세 청소년과 같이 이질적인 샘플이 더 많았습니다. 
The original research objective for each dataset used in the tests varied, but most studies (14/16) focused on health issues, such as experiences of a specific health condition (e.g., sickle cell disease, multiple sclerosis, Paget's disease), health service, or intervention (e.g., genetic screening, violence prevention, lifestyle interventions, patient retention). These research objectives are typical of much qualitative heath research. The sample size of the datasets used varied from 14 to 132 interviews and 1 to 40 focus groups. All datasets except one (Francis et al., 2010) had a sample that was much larger than the sample ultimately needed for saturation, making them effective for assessing saturation. Francis et al. (2010) report saturation was reached at exactly the sample size of the study for both datasets used. Most datasets (18/22) had a homogenous study population, such as patients with a specific disease (e.g., HIV, rheumatoid arthritis, sickle cell) or from a specific demographic group (e.g., male nurses, medical students, South Asian adults, African American men). The remaining datasets had more heterogeneous samples, such as men aged 20–72 across the US or youths aged 14–18.

저자들은 포화의 목표를 [개별 코드 또는 카테고리의 포화]라는 두 가지 방식으로 설명했습니다. 용어는 기사마다 다르지만,

  • [코드]는 일반적으로 데이터의 개별 이슈, 주제 또는 항목으로 설명되었고
  • [카테고리]는 이슈의 상위 그룹(예: 더 넓은 주제, 메타 주제, 개념)을 나타냅니다.

44%(7/16)의 논문이 코드의 포화를, 31%(5/16)의 논문이 카테고리의 포화를, 25%의 논문이 두 가지 모두를 명시했습니다.
Authors described their goal of saturation in two ways, either as saturation of individual codes or categories. Although terminology varied across articles,

  • codes were typically described as individual issues, topics, or items in data, while
  • categories represented higher-order groupings of issues (e.g., broader themes, meta-themes, concepts).

Forty-four percent (7/16) of articles sought saturation of codes, 31% (5/16) saturation of categories, and 25% stated both.

포화가 정의된 경우, 저자들은 비슷한 정의를 사용했습니다. 전반적으로 포화 상태는 [데이터에서 관련성이 있는 새로운 코드 및/또는 범주가 거의 또는 전혀 발견되지 않는 시점]으로, [연구 현상, 차원, 뉘앙스 또는 가변성에 대한 더 이상의 이해나 기여 없이] [문제가 반복되기 시작하는 시점]으로 설명되었습니다.

  • 일부 논문에서는 두세 번의 연속 인터뷰 또는 포커스 그룹에서 새로운 이슈가 발견되지 않은 후에야 포화 상태를 확인해야 한다고 명시하거나(Coenen 등, 2012; Francis 등, 2010; Morse 등, 2014),
  • 두 명의 연구자에 의해 포화 상태를 결정해야 한다고 명시하기도 했습니다(Morse 등, 2014).
  • 절반 이상의 논문(56%, 9/16)은 포화에 영향을 줄 수 있는 인터뷰 순서를 고려하여 분석 데이터의 순서를 무작위로 지정했습니다.
  • 일부는 무작위 인터뷰 순서와 실제 인터뷰가 진행된 순서 사이의 포화를 비교했고,
  • 다른 일부는 여러 무작위 데이터 순서에 걸쳐 포화를 계산하여 평균을 확인했습니다.

Where saturation was defined, authors used similar definitions. Overall, saturation was described as the point at which little or no relevant new codes and/or categories were found in data, when issues begin to be repeated with no further understanding or contribution to the study phenomenon, its dimensions, nuances, or variability.

  • Some articles further specified that saturation should be confirmed only after no new issues were found in two or three consecutive interviews or focus groups (Coenen et al., 2012Francis et al., 2010Morse et al., 2014) or
  • that it was determined by two researchers (Morse et al., 2014).
  • Over half of articles (56%, 9/16) randomized the order of data for analysis to account for interview order, which might influence saturation.
  • Some compared saturation between the randomized order of interviews and the actual order in which interviews were conducted,
  • while others calculated saturation across multiple randomized orderings of data to identify an average.

[포화를 평가하기 위해 다양한 전략]이 사용되었습니다. 이러한 전략은 표 1에 분류되어 있으며 표 3에 설명된 범주에 따라 분류되어 있습니다.

  • 대부분의 기사(75%, 12/16)는 포화를 평가하기 위해 [단일 전략을 사용]했습니다.
  • 모든 논문은 코드 빈도수, 비교 방법, 중지 기준, 고차 그룹화 등 어떤 형태로든 [코드 빈도수를 사용]하여 포화를 평가했으며,
  • 4편의 논문은 코드 빈도수 외에 다른 접근법을 사용하여 각각의 포화를 비교했습니다(Hennink 외, 2017, 2019; Constantinou 외, 2017; Hagaman과 Wutich, 2017).
  • 많은 논문(37%, 6/16)은 포화를 평가하기 위해 코드 빈도 수만을 사용했는데, 이는 새로운 코드의 빈도가 감소하여 포화에 도달할 때까지 연속된 녹취록 또는 녹취록 세트의 코드를 계산하는 방식이었습니다.
  • 3건(18%, 3/16)의 논문에서는 배치 비교, 중단 기준, 고차 코드 그룹을 계산(개별 코드가 아닌 메타 주제 또는 코드 범주 등)하는 등 코드 빈도 수에 특정 추가 요소를 추가했습니다.
  • 세 논문(Hennink 외., 2017, 2019; Nascimento 외., 2018)에서는 코드 빈도 수와는 완전히 다른 접근 방식인 '코드 의미'를 사용하여 포화를 평가했습니다. 이 접근 방식은 문제, 차원 및 뉘앙스가 완전히 식별되고 이해되었는지를 평가하여 데이터의 문제를 완전히 이해하는 데 중점을 두어 포화에 도달했음을 나타내는 지표로 삼았습니다.
  • 그 후 두 논문(Hennink 외., 2017, Hennink 외., 2019)에서 이 접근 방식을 사용한 포화를 코드 빈도 접근 방식과 비교했습니다.

Various strategies were used to assess saturation. These are categorized in Table 1 and the categories described in Table 3.

  • Most articles (75%, 12/16) used a single strategy to assess saturation.
  • All articles used some form of code frequency counts to assess saturation (including code frequency counts, comparative method, stopping criterion, higher-order groupings), and four articles used another approach in addition to code frequency counts and compared saturation for each (Hennink et al., 20172019Constantinou et al., 2017Hagaman and Wutich, 2017).
  • Many articles (37% 6/16) used only code frequency counts to assess saturation, which involved counting codes in successive transcripts or sets of transcripts until the frequency of new codes diminishes, signaling saturation is reached.
  • Three articles (18%, 3/16) added specific additional elements to code frequency counts, such as batch comparisons, a stopping criterion, or counting higher-order groupings of codes, such as meta-themes or categories of codes rather than individual codes.
  • Three articles (Hennink et al., 20172019Nascimento et al., 2018) used ‘code meaning’ to assess saturation, an entirely different approach from code frequency counts. This approach focused on reaching a full understanding of issues in data as the indicator that saturation is reached, by assessing whether the issue, its dimensions, and nuances are fully identified and understood.
  • Two articles (Hennink et al., 2017Hennink et al., 2019) then compared saturation using this approach with the code frequency approach.

 

3.1.2. 통계적 모델
3.1.2. Statistical models

표 2는 포화를 추정하기 위해 통계적 모델링을 사용한 6개의 논문을 요약한 것입니다. 이 논문들은 위에 요약된 것과는 다른 접근법을 사용했는데, 포화에 필요한 표본 크기를 추정하는 [공식을 개발]하여 데이터 수집 전에 연구 설계에 정보를 제공하기 위해 사용할 수 있습니다.

  • 몇몇 공식은 모집단 내 테마의 유병률 또는 데이터에서 원하는 테마의 인스턴스 수와 같은 유사한 매개변수를 기반으로 한 반면(Fugard and Potts, 2015; Galvin, 2015; Lowe 외, 2018),
  • 로그 정규 분포(Rowlands 외, 2016; Van Rijnsoever, 2017) 또는 집합 이론(Fofana 외, 2020)을 사용한 공식도 있었습니다.
  • 이러한 연구 중 다수는 무작위 표본을 가정한 반면, 무작위 표본과 의도적 표본을 모두 고려한 연구도 있었습니다(Van Rijnsoever, 2017).
  • 대부분의 공식은 인터뷰 데이터를 위해 개발되었으며, 두 개의 논문은 인터뷰, 포커스 그룹, 문서, 문헌 조사 등 다양한 형태의 데이터에 대한 포화 추정에 대해 논의했습니다. 그런 다음 공식의 절반을 경험적 데이터 세트에 적용했습니다.


Table 2 summarizes six articles that used statistical modeling to estimate saturation. These articles used a different approach than those summarized above: they developed a formula to estimate the sample size needed for saturation, which may be used prior to data collection to inform study design.

  • Several formulas were based on similar parameters, such as prevalence of a theme in a population or the desired instances of a theme in data (Fugard and Potts, 2015Galvin, 2015Lowe et al., 2018),
  • while others used a lognormal distribution (Rowlands et al., 2016Van Rijnsoever, 2017) or set theory (Fofana et al., 2020).
  • Many of these studies assumed a random sample, while one accounts for both random and purposive samples (Van Rijnsoever, 2017).
  • Most formulas were developed for interview data, while two articles discussed estimating saturation for various forms of data, including interviews, focus groups, documents, and literature surveys. Half of the formulas were then applied to empirical datasets.

3.2. 포화를 위한 샘플 크기
3.2. Sample size for saturation

그림 2는 [심층 인터뷰 데이터]를 사용한 경험적 기반 테스트의 포화에 대한 샘플 크기를 보여줍니다. 테스트에 사용된 각 데이터 세트(n = 16)에 대한 결과는 별도의 데이터 포인트로 표시됩니다. 서로 다른 표본 크기로 결과가 보고된 경우, 보고된 가장 낮은 표본 크기부터 가장 높은 표본 크기까지 선으로 표시되며, 이 범위에 영향을 미치는 매개변수가 표시됩니다. 저자가 서로 다른 포화 수준을 보고한 경우, 연구 간의 비교 가능성을 위해 90%에 가장 가까운 포화가 표시됩니다. 결과에 따르면 포화에 대한 다양한 접근 방식을 사용한 16개의 테스트에서 포화의 표본 크기는 5개에서 24개의 인터뷰 사이였습니다.

  • 가장 작은 포화 표본 크기는 5개의 인터뷰로, 설문조사 결과를 뒷받침하기 위한 동질적인 연구 모집단을 대상으로 광범위한 범주에서 포화를 구한 연구(Constantinou et al., 2017)였습니다. 이러한 연구 특성을 종합하면 5번의 인터뷰로 포화 상태에 도달한 것을 설명할 수 있습니다.
  • 포화에 대한 가장 큰 표본 크기는 4개국의 메타주제에 대한 포화를 추구한 20~40개(Hagaman and Wutich, 2017)와 연구 질문의 중심이 아닌 코드를 포함한 코드의 의미에 대한 포화를 추구한 24개(Hennink et al., 2017)였습니다.이러한 포화 목표를 달성하려면 더 많은 데이터가 필요하며, 이는 포화에 대한 더 높은 표본 크기를 뒷받침할 수 있습니다.

Fig. 2 shows sample sizes for saturation from empirically based tests using in-depth interview data. The results for each dataset used in the tests (n = 16) are shown as separate data points. Where results are reported at different sample sizes, this is depicted with a line from the lowest to highest sample size reported, and the parameters influencing this range are noted. Where authors report different levels of saturation, saturation closest to 90% is shown for comparability across studies. Results show that across 16 tests using various approaches to saturation, the sample size for saturation ranges between 5 and 24 interviews.

  • The lowest sample size for saturation was 5 interviews (Constantinou et al., 2017), in a study with a homogenous study population that was intended to support survey findings and where saturation was sought in broad categories. Together, these study characteristics may explain reaching saturation at 5 interviews.
  • The highest sample sizes for saturation were 20–40 (Hagaman and Wutich, 2017), where saturation of meta-themes across four countries was sought, and 24 (Hennink et al., 2017), where saturation was sought in the meaning of codes, including codes less central to the research question. These saturation goals require more data, which may support the higher sample sizes found for saturation.

이러한 이상값을 제외하면, 대부분의 데이터 세트는 포화를 평가하기 위해 다양한 접근 방식을 사용했음에도 불구하고 9~17개의 인터뷰, 평균 12~13개의 인터뷰 사이에 포화에 도달했습니다. 대부분의 연구는 비교적 [동질적인 연구 모집단]을 사용했으며 코드, 카테고리 또는 그 조합의 포화 목표가 다양했습니다. 이질적인 샘플을 사용한 연구는 단 3건에 불과했습니다. 이 중 두 연구는 평균보다 큰 표본 크기(16개 인터뷰)에서 포화에 도달했고, 한 연구는 작은 표본 크기(9개 인터뷰)에서 포화에 도달했습니다. 따라서 이 특성에 따른 포화 패턴은 발견되지 않았습니다. 마찬가지로, 대부분의 테스트에서 실제 인터뷰 순서대로 데이터를 분석할 때 무작위 순서와 포화를 비교하지 않았기 때문에 데이터 순서에 따른 포화의 패턴을 식별하기 어려웠습니다. 비교를 수행한 연구에서는 무작위 인터뷰 순서와 실제 인터뷰 순서에서 포화에 차이가 없거나 샘플 크기가 약간 더 큰 것으로 나타났습니다. 무작위 추출을 사용한 연구와 표본 크기의 전체 스펙트럼을 다루지 않은 연구 모두 검토 대상에 포함되지 않았습니다.

Excluding these outliers, most datasets reached saturation between 9 and 17 interviews, with a mean of 12–13 interviews, despite using different approaches to assess saturation. Most of these studies had a relatively homogenous study population and varied in their saturation goal of codes, categories, or a combination. Only three studies used a heterogeneous sample. Two of these studies reached saturation at a larger sample size than the mean (at 16 interviews), and one reached saturation at a smaller sample size (at 9 interviews). Therefore, we found no pattern in saturation by this characteristic. Similarly, it was difficult to identify any pattern of saturation by the order of data, since most tests did not compare saturation when analyzing data in the actual interview order with the randomized order. Those that did make a comparison found no difference or a slightly higher sample size for saturation in the random versus actual order of interviews. Both studies that used randomization and those that did not cover the full spectrum of sample sizes seen in our review.

그림 3은 [포커스 그룹 토론 데이터]를 사용한 6개의 경험적 테스트에서 포화에 대한 샘플 크기를 보여줍니다. 비교 가능성을 위해 다양한 수준의 포화가 보고된 경우 90%에 가장 가까운 포화가 그림에 표시되어 있습니다. 6개의 테스트 모두에서 1~16개의 포커스 그룹 사이에서 포화에 도달했습니다. 두 테스트는 이상치이므로 다른 테스트와 비교할 수 없습니다.

  • 가장 낮은 수치인 Hancock 등(2016)은 단일 비동기 온라인 포커스 그룹의 포화에 대해 보고하며, 포화는 요일 및 참여자별로 보고됩니다.
  • 상위 연구에서는 Morse 등(2014)이 16개 그룹에서 포화에 도달했다고 보고했지만, 코드나 테마가 아닌 공간적 위치에 초점을 맞추었기 때문에 포화에 대한 표본 크기가 더 클 수 있습니다.
  • 나머지 4개의 테스트는 유사한 포화 정의를 사용했으며, 평균 5~6개의 포커스 그룹으로 4~8개의 포커스 그룹 사이에서 포화에 도달했습니다.

대부분의 테스트(4/6)는 연구 모집단이 균질했지만 포화를 평가하는 접근 방식과 코드 또는 카테고리의 포화 목표가 다양했습니다. 이질적인 샘플을 사용한 두 테스트에서는 모두 평균 그룹 수보다 많은 샘플 크기(7개 및 17개 그룹)에서 포화에 도달했습니다.

Fig. 3 shows the sample size for saturation from six empirical tests using data from focus group discussions. For comparability, where various levels of saturation are reported, those closest to 90% are shown in the figure. Across all six tests, saturation was reached between 1 and 16 focus groups. Two tests are outliers and thus not comparable to others.

  • At the lower end, Hancock et al. (2016) report on saturation in a single asynchronous, online focus group, and saturation is reported by day and participant.
  • At the higher end, Morse et al. (2014) report reaching saturation at 16 groups; however, they focus on spatial locations rather than codes or themes, which may account for the higher sample size for saturation.
  • The remaining four tests used similar definitions of saturation and reached saturation between 4 and 8 focus groups, with a mean of 5–6 groups.

Most tests (4/6) had a homogenous study population but varied in their approach to assessing saturation and the saturation goal of codes or categories. In the two tests using heterogeneous samples, both reached saturation at sample sizes above the mean number of groups (at 7 and 17 groups).

 

경험적 데이터에 적용된 포화에 대한 통계 모델을 개발한 연구에서도 포화에 대한 표본 크기는 위와 유사했습니다(표 2). 예를 들어, Rowlands 등(2016)은 로그 정규 분포를 사용하여 [세 가지 인터뷰 데이터 세트]에서 포화를 추정했으며, 그 결과 95% 신뢰 수준에서 포화에 대한 표본 크기는 10개, 10개, 13개로 나타났습니다. (2020)은 [집합 이론과 부분 최소 제곱 회귀]를 사용하여 12개의 인터뷰 데이터 세트에 적용했을 때 포화를 추정했습니다.

In studies that developed statistical models for saturation that were applied to empirical data, the sample sizes for saturation were similar to those above (Table 2). For example, Rowlands et al. (2016) used the lognormal distribution to estimate saturation in three datasets of interviews, and results found the sample sizes for saturation at 95% confidence to be 10, 10, and 13 interviews. Fofana et al. (2020) used set theory and partial least squares regression to estimate saturation at 12 interviews when applied to an empirical dataset.

4. 토론
4. Discussion

이 체계적 문헌고찰은 포화를 평가하는 실증 연구를 식별하고, 포화에 필요한 표본 크기, 포화를 평가하는 데 사용되는 전략, 그리고 이러한 연구에서 도출할 수 있는 지침을 파악하고자 했습니다. 포화를 실증적으로 평가한 23개의 연구를 확인했으며, 이 중 80%가 2014년 이후에 발표된 연구였습니다. 포화를 평가하는 데는 경험적 데이터를 사용한 연구와 통계적 모델을 사용한 연구라는 두 가지 접근 방식이 있었습니다.
This systematic review sought to identify empirical studies that assess saturation, to identify sample sizes needed for saturation, strategies used to assess saturation, and guidelines we can draw from these studies. We identified 23 studies that empirically assessed saturation, with 80% published since 2014. We identified two different approaches to assess saturation: studies that used empirical data and those that used statistical models.

포화를 평가하는 한 가지 접근 방식은 데이터를 수집하기 전에 포화에 대한 표본 크기를 추정하기 위한 통계 모델을 개발하는 데 중점을 두었습니다. 포화를 선험적으로 추정하려는 노력에는 박수를 보내지만, 개발된 많은 공식은 [정성적 연구 수행에 부합하지 않는 암묵적 가정을 기반]으로 하기 때문에 그 유용성이 크게 제한됩니다. 이러한 연구 중 상당수는 [무작위 표본]을 사용하여 전체 인구에서 특정 주제의 유병률 또는 데이터에서 원하는 주제의 인스턴스를 파악하는 등 [확률 기반 가정]을 사용합니다. 게다가 연구자들은 연구를 수행하기 전에 이러한 매개변수를 알지 못하는 경우가 많으며, 항목의 유병률은 질적 연구의 중요한 초점이 아닙니다. [통계 공식]은 정량적 연구자에게 익숙한 검정력 계산과 유사하게 보일 수 있기 때문에, 정성적 연구와 가정이 일치하지 않을 경우 [궁극적으로 달성할 수 없는 과학적 신뢰성]을 오해의 소지가 있는 베일로 만들 수 있다고 생각합니다. 이러한 접근 방식에 대한 우려를 감안하여 더 이상 고려하지 않습니다.
One approach to assessing saturation focused on developing statistical models to estimate sample sizes for saturation prior to data collection. While we applaud efforts to estimate saturation a priori, many of the formulas developed are based on implicit assumptions that do not align with the conduct of qualitative research, thereby significantly limiting their utility. Many of these studies use probability-based assumptions, such as having a random sample and knowing the prevalence of a theme in the broader population or the desired instances of a theme in data. Moreover, researchers often do not know these parameters prior to conducting a study, nor is prevalence of items an important focus of qualitative research. Since a statistical formula may be seen as akin to a power calculation familiar to quantitative researchers, we feel that this may provide a misleading veil of scientific authenticity that ultimately cannot be achieved given the misalignment of assumptions with qualitative research. Given our concerns about these approaches, we do not consider them further.

포화를 평가하는 두 번째 접근 방식은 [경험적 데이터를 사용]했습니다. 심층 인터뷰 데이터를 사용한 16개의 포화 테스트에서 모두 25개 미만의 인터뷰, 더 구체적으로는 [이상값을 제외한 9~17개의 인터뷰]에서 포화에 도달했습니다. 포화를 평가하기 위해 [다양한 접근 방식, 다양한 데이터 세트, 다양한 포화 목표(코드 대 카테고리), 동질적 및 이질적인 연구 모집단을 사용]했음에도 불구하고 연구는 여전히 좁은 범위의 인터뷰 내에서 포화에 도달했습니다. 이는 다양한 접근 방식에 걸쳐 강력한 외부 신뢰도를 보여줍니다. 모든 테스트에서 평균 12~13개의 인터뷰가 포화 상태에 도달했는데, 이는 포화 상태를 경험적으로 평가한 최초의 연구 중 하나인 Guest 외(2006)의 연구 결과(12개의 인터뷰에서 포화 상태에 도달했다고 보고)와 매우 유사합니다. [연구 모집단의 동질성, 무작위 배정 사용, 포화 목표 등] [연구 특성]에 따른 포화에 대한 명확한 패턴을 발견하지 못했는데, 이는 이러한 매개변수를 실제로 평가한 연구가 거의 없었기 때문입니다. 

A second approach to assess saturation used empirical data. In all 16 tests of saturation with data from in-depth interviews, saturation was reached in under 25 interviews, more specifically between 9 and 17 interviews excluding outliers. Despite using different approaches to assess saturation, different datasets, varying saturation goals (codes vs categories), and homogenous and heterogeneous study populations, studies still reached saturation within a narrow range of interviews. This demonstrates strong external reliability across the different approaches. Across all tests, an average of 12–13 interviews reached saturation, which is remarkably similar to findings from Guest et al. (2006), one of the first studies to empirically assess saturation, which reported saturation at 12 interviews. We found no clear pattern in saturation by study characteristics, such as homogeneity of the study population, use of randomization, or saturation goal, largely because few studies actually assessed these parameters in their approach.

포커스 그룹 토론 데이터를 사용한 6개의 테스트에서 포화에 도달한 그룹은 4~8개 그룹으로, 비슷한 좁은 범위였습니다. 인구통계학적 계층화, 이질적인 샘플, 더 넓은 포화 목표(예: 코드 의미, 모든 주제 대 주요 주제)를 사용한 연구에서는 포화에 도달하기 위해 더 많은 그룹이 필요했습니다. 그러나 포커스 그룹 데이터를 비교한 추가 연구 없이 이러한 특성의 영향에 대한 결론을 내리는 것은 신중해야 합니다. 전반적으로 이러한 결과는 다양한 정성적 방법의 포화에 대한 표본 크기에 대한 절실히 필요한 경험적 증거를 제공합니다. 특정 범위의 인터뷰 또는 포커스 그룹 내에서 포화가 수렴하더라도, 아래에서 설명하는 바와 같이 이러한 방법을 사용하는 모든 질적 연구의 일반적인 표본 크기로 사용하거나 잘못 설계되거나 실행된 질적 연구를 정당화하기 위해 이러한 결과를 사용하지 않도록 주의해야 합니다. 대신, 이러한 결과를 질적 연구의 표본 크기를 추정할 때 특정 연구 특성과 함께 고려할 수 있는 지침으로 사용하는 것이 좋습니다. 

In six tests using data from focus group discussions, saturation was reached by 4–8 groups, a similarly narrow range. Studies using demographic stratification, heterogeneous samples, and broader saturation goals (e.g., code meaning, all themes vs main themes) needed more groups to reach saturation. However, we are cautious about drawing conclusions regarding the influences of these characteristics without more studies with focus group data to compare. Overall, these findings provide much-needed empirical evidence of sample sizes for saturation for different qualitative methods. Despite convergence of saturation within a specific range of interviews or focus groups, we caution not to use these findings as generic sample sizes for any qualitative study using these methods, or to justify poorly designed or executed qualitative studies, as we discuss below. Instead, we recommend using these results as guidance to consider alongside the specific study characteristics when estimating the sample size for a qualitative study.

4.1. 연구에 대한 시사점
4.1. Implications for research

체계적 문헌고찰의 결과는 몇 가지 중요한 시사점을 제공합니다. 여기서는 경험적 기반 연구의 시사점에만 초점을 맞춥니다. 이러한 결과는 인터뷰와 포커스 그룹 토론을 사용할 때 포화를 위한 적절한 표본 크기에 관한 경험적 지침을 제공하며, 이는 질적 연구 제안서를 개발할 때 유용할 수 있습니다. 검토 대상에 포함된 대부분의 경험적 기반 연구는 연구 모집단이 균질하고 연구 목표가 집중되어 있었기 때문에 이러한 결과를 다른 유형의 표본이나 더 광범위한 목표를 사용하는 연구에 자신 있게 추정할 수는 없습니다. 따라서 [이러한 결과를 출발점]으로 삼아 인터뷰 또는 포커스 그룹의 잠재적 범위를 파악한 다음 연구 특성(예: 연구 목표, 연구 대상 현상의 성격 및 복잡성, 도구 구조, 샘플링 전략, 표본의 계층화, 연구자의 질적 연구 경험, 포화 목표 및 추구하는 포화 정도)을 고려하여 표본 크기를 구체화하는 것이 좋습니다(Baker and Edwards, 2012; Galvin, 2015; Morse, 1995; 연구 변수를 사용하여 포화를 추정하는 데 대한 자세한 논의는 Hennink et al., 2017 참조). 이러한 고려사항은 각 특정 연구에 보다 맞춤화된 표본 크기로 이어질 뿐만 아니라 제안된 표본 크기에 대한 보다 명확한 정당성을 제공하여 엄밀성을 더합니다. 
The results of our systematic review have several important implications. We focus here only on implications of empirically based studies. These results provide empirical guidance regarding adequate samples sizes for saturation when using interviews and focus group discussions, which can be useful when developing qualitative research proposals. The majority of empirically based studies in our review had a homogenous study population and focused research objectives, so these results cannot be confidently extrapolated to studies using different types of samples or broader goals. Therefore, we recommend using these results as a starting point to identify a potential range of interviews or focus groups then refining the sample size by considering the study characteristics (e.g., study goals, nature and complexity of phenomenon studied, instrument structure, sampling strategy, stratification of sample, researcher's experience in qualitative research, saturation goal, and degree of saturation sought) (Baker and Edwards, 2012; Galvin, 2015; Morse, 1995; see Hennink et al., 2017 for fuller discussion on using study parameters to estimate saturation). These considerations will not only lead to a more tailored sample size for each particular study but also provide clearer justification for the proposed sample size, thereby adding rigor.

또한, 본 연구 결과는 연구자들에게 질적 표본 크기가 '너무 작다'는 일반적인 비판을 반박할 수 있는 강력한 경험적 증거를 제공하며, 이는 일반적으로 이러한 주장에 대한 근거가 제시되지 않음에도 불구하고 비효율적이라는 것을 암시합니다. 우리의 연구 결과는 '작은' 표본 크기가 질적 연구에 효과적이라는 것을 입증하고, 질적 연구에서 적절한 표본 크기의 기준이 되는 포화 상태에 도달할 수 있기 때문에 왜 효과적인지 그 이유를 보여줄 수 있습니다. 또한, 다양한 질적 방법에서 포화 상태에 도달할 수 있는 다양한 표본 크기를 제공함(예: 9~17명의 인터뷰 또는 4~8명의 포커스 그룹)으로써 '작은' 표본이 실제로 어떤 것인지 보여줍니다. [질적 연구를 위한 표본 크기에 대한 일반적인 조언]은 일반적으로 이보다 더 큰 표본 크기를 제안하기 때문에 이 점이 중요합니다. 
Our results also provide researchers with strong empirical evidence to refute the common critique that qualitative sample sizes are ‘too small’, implying that they are ineffective, although no evidence is usually given for these claims. Our results can be used to demonstrate that ‘small’ sample sizes are effective for qualitative research and to show why they are effective – because they are able to reach saturation, the long-held benchmark for an adequate sample size in qualitative research. Furthermore, our results show what a ‘small’ sample actually is, by providing a range of sample sizes for saturation in different qualitative methods (e.g., 9–17 interviews or 4–8 focus groups). This is important because general advice on sample sizes for qualitative research usually suggest higher sample sizes than this.

질적 연구 방법론에 관한 [교과서를 검토]한 결과, 5~60개의 인터뷰(Guest 외, 2006; Constantinou 외, 2017; Hagaman and Wutich, 2017), 2~40개의 포커스 그룹(Guest 외, 2016) 등 표본 크기 권장 사항이 매우 다양하다는 것을 알 수 있었습니다. 더 중요한 것은 이러한 권장 사항 중 어느 것도 경험적 근거가 없다는 것입니다. 적절한 주의 사항과 함께 근거에 기반한 표본 크기 권장 사항을 제공하는 것이 중요합니다.

  • 필요 이상으로 큰 질적 표본은 연구비 낭비, 연구 참여자의 과도한 부담, 데이터 낭비 등 윤리적 문제를 야기하며(Carlsen and Glenton, 2011; Francis 등, 2010),
  • 표본이 너무 작아 포화 상태에 도달하면 연구 결과의 타당성이 떨어집니다(Hennink 등, 2017).

따라서 본 연구 결과는 질적 연구 지침서의 가이드라인의 일부로 포함될 수 있는 포화에 대한 경험적 기반 표본 크기를 제공합니다. 
Reviews of textbooks on qualitative research methodology found that sample size recommendations vary widely, for example 5–60 interviews (Guest et al., 2006; Constantinou et al., 2017; Hagaman and Wutich, 2017) and 2 to 40 focus groups (Guest et al., 2016). More importantly, none of these recommendations is empirically based. Providing evidence-based sample size recommendations, with appropriate caveats, is important.

  • Qualitative samples that are larger than needed raise ethical issues, such as wasting research funds, overburdening study participants, and leading to wasted data (Carlsen and Glenton, 2011Francis et al., 2010),
  • while samples that are too small to reach saturation reduce the validity of study findings (Hennink et al., 2017).

Our results thus provide empirically based samples sizes for saturation that could be included as part of the guidelines in instructional textbooks on qualitative research.

또한 바실레이우 외(2018)는 일부 질적 연구자조차도 자신의 표본 크기가 '작다'고 표현했지만, 이는 "후회나 사과 담론에 따른 한계로 해석된다"(12쪽)는 점을 발견했습니다. 이러한 저자들은 [실증주의를 지향하는 독자들의 우려]에 부응하기 위해 글을 썼을지 모르지만, 질적 근거를 들어 '작은' 표본을 옹호하는 사람은 거의 없었습니다. 우리는 연구자들이 [실증주의 패러다임의 (대부분 부적절한) 우려와 수치적 기대에 대응하기]보다는 [질적 연구의 원칙을 사용하여 표본 크기를 보다 자신 있게 정당화할 수 있도록 우리의 결과를 반영할 것을 권장]합니다. 질적 연구의 표본 크기는 데이터의 적절성에 따라 결정되므로, 효과적인 표본 크기는 숫자(n)보다는 연구 대상 현상에 대한 풍부하고 미묘한 설명을 제공할 수 있는 데이터의 능력에 더 중점을 둡니다. 궁극적으로, 질적 연구를 위한 표본 크기를 결정하고 정당화하는 것은 포화에 영향을 미치는 연구 특성과 분리할 수 없습니다. 우리의 결과는 "소규모 표본에서 엄격하게 수집된 질적 데이터는 사람들의 경험의 전체 차원을 실질적으로 나타낼 수 있다"(Young and Casey, 2019, 12쪽)는 다른 연구 결과를 반영하므로 질적 연구의 엄격성을 평가할 때 이를 한계로 보거나 제시해서는 안 됩니다.
Furthermore, Vasileiou et al. (2018) found that even some qualitative researchers characterized their own sample size as ‘small’, but this was “construed as a limitation couched in a discourse of regret or apology” (p. 12). Although these authors may be writing to the concerns of more positivist-oriented readers, few defended their ‘small’ sample on qualitative grounds. We encourage researchers to reflect on our results to more confidently justify their sample sizes using the principles of qualitative research rather than responding to the (mostly inappropriate) concerns of a more dominant positivist paradigm and their numerical expectations. Sample sizes in qualitative research are guided by data adequacy, so an effective sample size is less about numbers (n's) and more about the ability of data to provide a rich and nuanced account of the phenomenon studied. Ultimately, determining and justifying sample sizes for qualitative research cannot be detached from the study characteristics that influence saturation. Our results echo others, that “rigorously collected qualitative data from small samples can substantially represent the full dimensionality of people's experiences” (Young and Casey, 2019, p.12) and therefore should not be viewed or presented as a limitation when evaluating the rigor of qualitative research.

또한, 이번 연구 결과는 [질적 연구 검토자]에게 [포화에 맞는 효과적인 표본 크기에 대한 경험적 지침]을 제공합니다. 이는 '작은' 표본 크기에 대해 질적 연구를 비판하는 일상적인 관행에 다시 초점을 맞추는 데 도움이 될 수 있으며, 검토자는 대신 연구자에게 다음과 같은 질문을 통해 표본 크기에 대한 보다 명확한 근거를 제시하도록 요청할 수 있습니다:

  • "귀하와 같은 동질적인 연구 모집단에서는 일반적으로 25명 미만으로 포화 상태에 도달할 수 있는데, 왜 40명의 인터뷰 표본을 사용했습니까?"라고 질문할 수 있습니다.

우리는 일반적으로 질적 연구에 효과적인 표본 크기를 결정할 때 수치적 지침만을 사용하는 것을 지지하지는 않지만, 이러한 유형의 질문은 포화에 대한 이용 가능한 경험적 증거를 사용하여 연구자가 표본 크기를 정당화하고 각 개별 연구의 특성을 보다 투명하게 사용하도록 도전하는 보다 정보에 입각한 비판을 반영합니다. 따라서 우리는 질적 연구자들이 표본 크기에 대해 보다 충분한 근거를 제시하고, 질적 연구 검토자들이 이러한 결과를 적용하여 질적 연구에 대한 표본 크기에 대해 보다 효과적인 비평을 제공할 것을 촉구합니다. 이를 통해 질적 연구에 대한 보고와 비평의 질을 개선하고 '작은' 표본 크기에 대한 근거 없는 비판에서 벗어날 수 있습니다.
Our results also provide empirical guidance on effective sample sizes for saturation for reviewers of qualitative research. This may help to refocus the routine practice of criticizing qualitative research for ‘small’ sample sizes so that reviewers may instead ask researchers to provide more explicit justifications for their sample size by asking, for example:

  • “why do you have a sample of 40 interviews, when saturation can typically be reached in less than 25 with a homogenous study population such as yours?”

Although, we generally do not support using only numerical guidance in determining an effective sample size for qualitative research, these types of questions reflect a more informed critique that uses available empirical evidence on saturation to challenge researchers to be more transparent in justifying their sample sizes and using the characteristics of each individual study to do so. We therefore encourage qualitative researchers to provide fuller justifications of their sample sizes and urge reviewers of qualitative studies to apply these findings to provide more effective critiques of sample sizes for qualitative research. This may improve the quality of reporting and critiquing qualitative research and move away from often unsubstantiated critiques of ‘small’ sample sizes.

또한 이번 연구 결과는 [코드 빈도 수]와 [코드 의미 평가의 여러 변형]을 포함하여 [포화를 평가하는 5가지 접근 방식]을 종합적으로 보여줍니다. 이제 질적 연구자들은 데이터 수집 중에 포화를 평가할 수 있는 다양한 전략을 사용할 수 있습니다. 정성적 연구에 대한 수많은 검토에 따르면 포화는 종종 표본 크기를 정당화하기 위해 사용되지만, 포화를 평가하거나 결정하는 방법에 대한 투명성이 압도적으로 부족하다는 사실이 밝혀졌습니다(Carlsen and Glenton, 2011; Francis 외., 2010; Marshall 외., 2013; Vasileiou 외., 2018). 특히 포화가 질적 연구에서 품질의 지표로 환영받는다는 점을 고려할 때 이러한 투명성 부족은 우려스러운 부분입니다. 이는 포화가 연구자들에 의해 거의 근거가 없고 질적 연구 검토자들에 의해 도전받지 않는 엄격함의 외관을 제공하기 위해 "엄격함의 덮개"(Constantinou 외., 2017, 2페이지)로 사용되고 있음을 시사합니다
Our results also synthesize five distinct approaches to assess saturation, including several variations of code frequency counts and assessing code meaning. Qualitative researchers now have an array of strategies to assess saturation during data collection. Numerous reviews of qualitative studies have found that saturation is often used to justify a sample size, but there was an overwhelming lack of transparency in how it was assessed or determined (Carlsen and Glenton, 2011; Francis et al., 2010; Marshall et al., 2013; Vasileiou et al., 2018). This lack of transparency is concerning, particularly given that saturation is hailed as an indicator of quality in qualitative research. It suggests that saturation is being used as a “mantle of rigor” (Constantinou et al., 2017, p. 2) to provide the appearance of rigor that is largely unsubstantiated by researchers and left unchallenged by reviewers of qualitative studies.

이러한 투명성 부족은 어느 정도 [포화 평가에 대한 지침이 없기 때문]일 수 있습니다. 이번 검토에서는 질적 연구자가 포화 평가 방법, 포화에 도달했는지 여부 또는 연구에서 포화가 어느 정도 달성되었는지를 보다 투명하게 보고하기 위해 사용할 수 있는 다양한 전략을 종합했습니다. 이제 연구자는 [포화를 평가하는 전략]과 [포화를 결정한 기준(예: 중지 기준, 누적 빈도 그래프, 코드 비율, 코드 의미)]을 지정할 수 있습니다. 이러한 투명성 강화는 개별 연구의 엄격성뿐만 아니라 질적 연구 전반의 품질에도 분명한 이점이 있습니다. 포화에 대한 투명성이 높아지면 연구의 재현성이 향상되고 포화를 보고하는 방법에 대한 기대치가 높아지며, '포화까지 데이터를 수집했다'와 같이 [일반적이고 근거가 없는 문구]를 사용하는 것에서 벗어날 수 있습니다. 

To some extent, this lack of transparency may reflect the absence of guidance on assessing saturation. Our review has synthesized a range of strategies that can be used by qualitative researchers to become more transparent in reporting how saturation was assessed, whether it was reached, or the extent to which it was achieved in a study. Researchers can now specify a strategy for assessing saturation and the criteria on which it was determined (e.g., a stopping criterion, cumulative frequency graphs, percentage of codes, code meaning). Such greater transparency has clear benefits for the rigor of individual studies but also for the quality of qualitative research as a whole. Greater transparency regarding saturation improves reproducibility of the research and raises expectations on how to report saturation, all of which move away from using generic and unsupported statements such as ‘data were collected until saturation’.

또한 [질적 연구를 발표하는 저널]은 포화에 대한 투명한 보고를 장려하는 데 중요한 역할을 합니다. Vasileiou 등(2018)은 [표본 크기의 정당성 보고]가 [특정 학술지와 일치]한다는 사실을 발견했으며, 이는 학술지 요건이 포화 보고의 투명성 강화 규범을 장려할 수 있음을 시사합니다. 학술지 심사자는 연구자에게 다음 등의 질문을 할 수 있습니다. 

  • '포화를 어떻게 평가했습니까?',
  • '포화에 도달했다는 것을 어떻게 알 수 있습니까? ' 또는
  • '핵심 코드, 범주, 의미 등에서 어느 정도 포화 상태에 도달했습니까?'

이러한 요청은 포화에 대한 보다 투명하고 미묘하며 엄격한 보고가 필요하다는 신호입니다. 이는 단순한 체크리스트 요건을 넘어서는 것으로, 포화가 어떻게 결정되었는지에 대한 연구별 세부 정보 없이 포화에 도달했다는 모호한 보고를 지속시킬 수 있습니다.

In addition, journals publishing qualitative research play a critical role in encouraging transparent reporting of saturation. Vasileiou et al. (2018) found that reporting of sample size justifications aligned with particular academic journals, suggesting that journal requirements may encourage norms of greater transparency in reporting saturation. Journal reviewers may also encourage transparency by asking researchers, for example:

  • ‘how did you assess saturation ?’,
  • ‘how do you know you reached saturation ? ’ , or
  • ‘to what extent was saturation reached – in core codes, categories, meaning etc.?'.

Such requests signal that more transparent, nuanced, and rigorous reporting of saturation is expected. This should go beyond simple check-list requirements, which may simply perpetuate vague reporting that saturation was reached without study-specific details on how it was determined.

본 연구에는 몇 가지 잠재적인 한계가 있습니다. 영어로 출판되고 근거 이론의 인식론적 접근 방식을 벗어난 연구만 포함했으며, 특정 질적 방법에 대한 검색어를 제한적으로 사용했지만 일반적인 방법도 포함했습니다. 이러한 기준 때문에 이미 발표된 다른 포화 테스트는 제외되었을 수 있지만, 검색 기준은 해당 주제에 대한 중요한 연구를 포괄할 수 있을 만큼 충분히 광범위하다고 생각합니다. 검토에서 확인된 논문은 압도적으로 건강 연구에 초점을 맞추고 있으며 포화에 대한 유사한 개념화를 가지고 있습니다. 따라서 연구 결과를 비교하기는 쉽지만, 포화를 다르게 개념화하는 다른 분야에는 이러한 결과를 적용하지 못할 수도 있습니다.
Our study has some potential limitations. We included only studies that were published in English and were outside the epistemological approach of grounded theory, and we used limited search terms for specific qualitative methods but included common methods. While these criteria may have excluded other published tests of saturation, we believe our search criteria were broad enough to capture a significant body of research on the topic. Articles identified in our review focus overwhelmingly on health research and have similar conceptualizations of saturation. While this makes the studies more comparable, these results may not be applicable to other disciplines that may conceptualize saturation differently.

5. 결론
5. Conclusion

포화는 질적 연구에서 표본 크기를 결정할 때 엄격함의 초석으로 간주되지만, 근거 이론을 제외하고는 포화 운영에 대한 지침이 거의 없습니다. 이 체계적 고찰에서는 질적 연구에서 포화를 경험적으로 평가한 연구, 포화를 평가하는 문서화된 접근법, 포화를 위한 표본 크기를 확인한 연구를 확인했습니다. 특히 연구 모집단이 비교적 균질하고 목표가 좁게 정의된 연구에서 좁은 범위의 인터뷰(9~17개) 또는 포커스 그룹 토론(4~8개)으로도 포화를 달성할 수 있음을 보여주는 다양한 포화 평가 접근법을 설명합니다. 체계적인 검토를 통해 포화에 대한 표본 크기를 확인했지만, 특정 매개변수가 포화에 어떤 영향을 미치는지 결정하기 위한 경험적 기반 연구는 거의 발견되지 않았습니다. 연구 목표, 연구 모집단의 특성, 사용된 샘플링 전략(예: 귀납적 샘플링과 고정 샘플링), 데이터 유형, 포화 목표 및 기타 영향과 같은 특정 매개변수가 포화에 미치는 영향에 대한 추가 연구가 필요합니다.

Saturation is considered the cornerstone of rigor in determining sample sizes in qualitative research, yet there is little guidance on its operationalization outside of grounded theory. In this systematic review, we identified studies that empirically assessed saturation in qualitative research, documented approaches to assess saturation, and identified sample sizes for saturation. We describe an array of approaches to assess saturation that demonstrate saturation can be achieved in a narrow range of interviews (9–17) or focus group discussions (4–8), particularly in studies with relatively homogenous study populations and narrowly defined objectives. Although our systematic review identified sample sizes for saturation, we found little empirically based research to determine how specific parameters influence saturation. Further research is needed on how specific parameters influence saturation, such as the study goal, nature of the study population, sampling strategy used (i.e. inductive vs fixed sampling), type of data, saturation goal, and other influences.


 

Soc Sci Med. 2022 Jan;292:114523. doi: 10.1016/j.socscimed.2021.114523. Epub 2021 Nov 2.

Sample sizes for saturation in qualitative research: A systematic review of empirical tests

Affiliations expand

PMID: 34785096

DOI: 10.1016/j.socscimed.2021.114523

Abstract

Objective: To review empirical studies that assess saturation in qualitative research in order to identify sample sizes for saturation, strategies used to assess saturation, and guidance we can draw from these studies.

Methods: We conducted a systematic review of four databases to identify studies empirically assessing sample sizes for saturation in qualitative research, supplemented by searching citing articles and reference lists.

Results: We identified 23 articles that used empirical data (n = 17) or statistical modeling (n = 6) to assess saturation. Studies using empirical data reached saturation within a narrow range of interviews (9-17) or focus group discussions (4-8), particularly those with relatively homogenous study populations and narrowly defined objectives. Most studies had a relatively homogenous study population and assessed code saturation; the few outliers (e.g., multi-country research, meta-themes, "code meaning" saturation) needed larger samples for saturation.

Conclusions: Despite varied research topics and approaches to assessing saturation, studies converged on a relatively consistent sample size for saturation for commonly used qualitative research methods. However, these findings apply to certain types of studies (e.g., those with homogenous study populations). These results provide strong empirical guidance on effective sample sizes for qualitative research, which can be used in conjunction with the characteristics of individual studies to estimate an appropriate sample size prior to data collection. This synthesis also provides an important resource for researchers, academic journals, journal reviewers, ethical review boards, and funding agencies to facilitate greater transparency in justifying and reporting sample sizes in qualitative research. Future empirical research is needed to explore how various parameters affect sample sizes for saturation.

Keywords: Focus group discussions; Interviews; Qualitative research; Sample size; Saturation.

양적연구 질문과 질적연구 질문 및 가설 작성의 실용 가이드 (J Korean Med Sci. 2022)
A Practical Guide to Writing Quantitative and Qualitative Research Questions and Hypotheses in Scholarly Articles
Edward Barroga 1 and Glafera Janet Matanguihan

 

 

서론
INTRODUCTION

과학 연구는 일반적으로 증거에 기반한 연구 질문을 제기한 다음 가설로 명시적으로 재구성하여 시작합니다.1, 2 가설은 연구를 안내하는 방향, 해결책, 설명 및 예상 결과를 제공합니다.3, 4 연구 질문과 가설은 모두 본질적으로 기존 이론과 실제 프로세스를 기반으로 공식화되어 새로운 연구를 시작하고 아이디어의 윤리적 테스트를 허용합니다.5, 6
Scientific research is usually initiated by posing evidenced-based research questions which are then explicitly restated as hypotheses.1, 2 The hypotheses provide directions to guide the study, solutions, explanations, and expected results.3, 4 Both research questions and hypotheses are essentially formulated based on conventional theories and real-world processes, which allow the inception of novel studies and the ethical testing of ideas.5, 6

양적 연구와 질적 연구 모두 연구 질문과 가설을 작성해야 하므로2 양적 연구와 질적 연구 모두에 대한 지식을 갖추는 것이 중요합니다.7 그러나 이러한 중요한 연구 요소들이 간과되는 경우가 있으며, 간과되지 않더라도 필요한 사전 고려와 세심한 주의 없이 틀을 짜는 경우가 있습니다. 정량적 또는 정성적 연구를 개발할 때, 특히 연구 질문과 가설을 개념화할 때 계획과 신중한 고려가 필요합니다.4 
It is crucial to have knowledge of both quantitative and qualitative research2 as both types of research involve writing research questions and hypotheses.7 However, these crucial elements of research are sometimes overlooked; if not overlooked, then framed without the forethought and meticulous attention it needs. Planning and careful consideration are needed when developing quantitative or qualitative research, particularly when conceptualizing research questions and hypotheses.4

연구자들이 혁신적인 연구 질문과 가설을 세우고 이러한 요소를 신중하게 검토하는 저널 논문을 작성할 수 있도록 지속적으로 지원할 필요가 있습니다.1 연구 질문과 가설을 신중하게 고려하지 않으면 일반적으로 비윤리적인 연구와 좋지 않은 결과가 이어집니다. 신중하게 수립된 연구 질문과 가설은 근거가 있는 목표를 정의하고, 이를 바탕으로 연구의 적절한 설계, 과정 및 결과를 결정합니다. 이 글에서는 연구 질문과 가설 수립의 다양한 측면을 자세히 논의하여 연구자가 연구 질문과 가설을 개발하는 데 도움을 드리고자 합니다. 의료 분야의 동료 검토를 거친 과학 논문과 저자들의 예시를 통해 핵심 사항을 설명합니다. 
There is a continuing need to support researchers in the creation of innovative research questions and hypotheses, as well as for journal articles that carefully review these elements.1 When research questions and hypotheses are not carefully thought of, unethical studies and poor outcomes usually ensue. Carefully formulated research questions and hypotheses define well-founded objectives, which in turn determine the appropriate design, course, and outcome of the study. This article then aims to discuss in detail the various aspects of crafting research questions and hypotheses, with the goal of guiding researchers as they develop their own. Examples from the authors and peer-reviewed scientific articles in the healthcare field are provided to illustrate key points.

연구 질문과 가설의 정의 및 관계
DEFINITIONS AND RELATIONSHIP OF RESEARCH QUESTIONS AND HYPOTHESES

[연구 질문][데이터 분석 및 해석을 통해 연구자가 답을 얻고자 하는 것]입니다. 이에 대한 답은 논문의 [토론 섹션]에 길게 작성됩니다. 따라서 연구 질문은 연구 질문에서 제기된 문제를 해결하기 위한 연구의 [다양한 부분parts과 변수]를 미리 볼 수 있습니다.1 [훌륭한 연구 질문]은 [연구 주제, 연구 목적, 연구 범위 및 한계에 대한 이해]를 용이하게 하면서 [연구 작성]을 명확하게 합니다.5 
A research question is what a study aims to answer after data analysis and interpretation. The answer is written in length in the discussion section of the paper. Thus, the research question gives a preview of the different parts and variables of the study meant to address the problem posed in the research question.1 An excellent research question clarifies the research writing while facilitating understanding of the research topic, objective, scope, and limitations of the study.5

반면에 [연구 가설]은 [예상되는 결과에 대한 교육적인 진술]입니다. 이 진술은 배경 연구와 현재 지식을 기반으로 합니다.8, 9 연구 가설은 새로운 현상에 대한 [구체적인 예측10] 또는 [독립 변수와 종속 변수 간의 예상 관계에 대한 공식적인 진술]입니다.3, 11 테스트하거나 탐구할 연구 질문에 대한 잠정적인 답을 제공합니다.4
On the other hand, a research hypothesis is an educated statement of an expected outcome. This statement is based on background research and current knowledge.8, 9 The research hypothesis makes a specific prediction about a new phenomenon10 or a formal statement on the expected relationship between an independent variable and a dependent variable.3, 11 It provides a tentative answer to the research question to be tested or explored.4

[가설]은 [이론에 기반한 결과를 예측]하기 위해 [추론]을 사용합니다.10 가설은 아직 관찰되지 않은 이론의 구성 요소에 초점을 맞추어 이론에서 발전시킬 수도 있습니다.10 가설의 타당성은 종종 재현 가능한 실험에서 이루어진 예측의 테스트 가능성에 기반합니다.8
Hypotheses employ reasoning to predict a theory-based outcome.10 These can also be developed from theories by focusing on components of theories that have not yet been observed.10 The validity of hypotheses is often based on the testability of the prediction made in a reproducible experiment.8

반대로 [가설]을 [연구 질문]으로 바꾸어 표현할 수도 있습니다. 연구 질문에 답하기 위해서는 기존의 이론과 지식에 기반한 여러 가설이 필요할 수 있습니다. 윤리적 연구 질문과 가설을 개발하면 변수 간에 논리적 관계가 있는 연구 설계가 만들어집니다. 이러한 관계는 연구 수행을 위한 견고한 토대가 됩니다.4, 11 연구 질문이 임의로 구성되면 가설이 잘못 수립되고 연구 설계가 부적절해져 신뢰할 수 없는 결과를 초래할 수 있습니다. 따라서 연구를 시작할 때 관련 연구 질문과 검증 가능한 가설을 수립하는 것이 중요합니다.12
Conversely, hypotheses can also be rephrased as research questions. Several hypotheses based on existing theories and knowledge may be needed to answer a research question. Developing ethical research questions and hypotheses creates a research design that has logical relationships among variables. These relationships serve as a solid foundation for the conduct of the study.4, 11 Haphazardly constructed research questions can result in poorly formulated hypotheses and improper study designs, leading to unreliable results. Thus, the formulations of relevant research questions and verifiable hypotheses are crucial when beginning research.12

좋은 연구 질문과 가설의 특징
CHARACTERISTICS OF GOOD RESEARCH QUESTIONS AND HYPOTHESES

우수한 연구 질문은 구체적이고 집중적입니다. 이러한 질문은 수집된 데이터와 관찰을 통합하여 후속 가설을 확인하거나 반박합니다. [잘 구성된 가설]은 [이전 보고서를 기반]으로 하며 [연구 맥락을 검증]합니다. 이러한 가설은 현실적이고, 심도 있고, 충분히 복잡하며, 재현 가능합니다. 더 중요한 것은 이러한 가설을 검증하고 테스트할 수 있다는 것입니다.13
Excellent research questions are specific and focused. These integrate collective data and observations to confirm or refute the subsequent hypotheses. Well-constructed hypotheses are based on previous reports and verify the research context. These are realistic, in-depth, sufficiently complex, and reproducible. More importantly, these hypotheses can be addressed and tested.13

잘 발달된 가설에는 몇 가지 특징이 있습니다. 좋은 가설은 

  • 1) 경험적으로 테스트할 수 있고7, 10, 11, 13, 
  • 2) 예비 증거에 의해 뒷받침되고9, 
  • 3) 윤리적 연구에 의해 테스트할 수 있고7, 9, 
  • 4) 독창적인 아이디어에 기반하고9, 
  • 5) 증거에 기반한 논리적 추론이 있으며10, 
  • 6) 예측할 수 있습니다.11 

좋은 가설은 연구 주제와 관련된 관계 또는 효과가 있음을 나타내는 윤리적이고 긍정적인 의미를 추론할 수 있습니다.7, 11 처음에는 일반 이론에서 개발되고 [연역적 추론]을 통해 구체적인 가설로 분기됩니다. 가설의 근거가 되는 이론이 없는 경우, [구체적인 관찰이나 발견에 근거]한 [귀납적 추론]이 보다 일반적인 가설을 형성합니다.10
There are several characteristics of well-developed hypotheses. Good hypotheses are

  • 1) empirically testable7101113;
  • 2) backed by preliminary evidence9;
  • 3) testable by ethical research79;
  • 4) based on original ideas9;
  • 5) have evidenced-based logical reasoning10; and
  • 6) can be predicted.11 

Good hypotheses can infer ethical and positive implications, indicating the presence of a relationship or effect relevant to the research theme.7, 11 These are initially developed from a general theory and branch into specific hypotheses by deductive reasoning. In the absence of a theory to base the hypotheses, inductive reasoning based on specific observations or findings form more general hypotheses.10

연구 질문 및 가설의 유형
TYPES OF RESEARCH QUESTIONS AND HYPOTHESES

연구 질문과 가설은 연구 유형에 따라 개발되며, 크게 정량적 연구와 정성적 연구로 분류할 수 있습니다. 정량적 연구와 정성적 연구 범주에 따른 연구 질문 및 가설의 유형은 표 1에 요약되어 있습니다.
Research questions and hypotheses are developed according to the type of research, which can be broadly classified into quantitative and qualitative research. We provide a summary of the types of research questions and hypotheses under quantitative and qualitative research categories in Table 1.

 

정량적 연구의 연구 질문
Research questions in quantitative research

정량적 연구에서 연구 질문은 조사 대상 변수 간의 관계를 묻는 질문으로, 일반적으로 연구를 시작할 때 구성됩니다. 이러한 질문은 정확하며 일반적으로 대상 집단, 종속 변수 및 독립 변수, 연구 설계와 관련이 있습니다.1

  • 연구 질문은 하나 이상의 변수와 관련하여 모집단의 행동을 설명하거나 측정할 변수의 특성을 설명하려고 시도할 수도 있습니다(설명적 연구 질문).1, 5, 14
  • 이러한 질문은 또한 결과 변수의 맥락에서 그룹 간의 차이를 발견하거나(비교 연구 질문)1, 5, 14
  • 변수 간의 추세와 상호작용을 규명하는 것을 목표로 할 수도 있습니다(관계 연구 질문).1, 5

양적 연구에서 설명적, 비교 및 관계 연구 질문의 예를 표 2에 제시하고 있습니다.

In quantitative research, research questions inquire about the relationships among variables being investigated and are usually framed at the start of the study. These are precise and typically linked to the subject population, dependent and independent variables, and research design.1 Research questions may also attempt to describe the behavior of a population in relation to one or more variables, or describe the characteristics of variables to be measured (descriptive research questions).1, 5, 14 These questions may also aim to discover differences between groups within the context of an outcome variable (comparative research questions),1, 5, 14 or elucidate trends and interactions among variables (relationship research questions).1, 5 We provide examples of descriptive, comparative, and relationship research questions in quantitative research in Table 2.

정량적 연구의 가설
Hypotheses in quantitative research

정량적 연구에서 가설은 [변수 간의 예상 관계를 예측]합니다.15

  • 예측할 수 있는 변수 간의 관계에는
    • 1) 단일 종속변수와 단일 독립변수 간(단순 가설) 또는
    • 2) 둘 이상의 독립변수와 종속변수 간(복합 가설)이 포함됩니다.4, 11
  • 가설은
    • 또한 따라야 할 예상 방향을 명시하고 특정 결과에 대한 지적 약속을 암시할 수 있습니다(방향성 가설)4.
    • 반면에 가설은 정확한 방향을 예측하지 못할 수 있으며 이론이 없거나 이전 연구 결과와 모순되는 경우(비방향성 가설)에 사용됩니다. 4
  • 또한 가설은
    • 1) 변수 간의 상호 의존성을 정의하고(연관 가설),4
    • 2) 독립 변수의 조작으로 인한 종속 변수에 대한 영향을 제안하고(인과 가설),4
    • 3) 두 변수 간의 음의 관계를 진술할 수 있습니다(귀무 가설),4, 11, 15
    • 4) 기각될 경우 작동 가설을 대체(대체 가설),15 이론을 생성할 수 있는 현상들의 관계를 설명(작동 가설),11
    • 5) 통계적으로 검증할 수 있는 정량화 가능한 변수를 포함(통계 가설),11
    • 6) 또는 상호 연관성을 논리적으로 검증할 수 있는 관계를 표현(논리적 가설)합니다. 11

In quantitative research, hypotheses predict the expected relationships among variables.15 

Relationships among variables that can be predicted include

  • 1) between a single dependent variable and a single independent variable (simple hypothesis) or
  • 2) between two or more independent and dependent variables (complex hypothesis).411 

Hypotheses may also

  • specify the expected direction to be followed and imply an intellectual commitment to a particular outcome (directional hypothesis)4.
  • On the other hand, hypotheses may not predict the exact direction and are used in the absence of a theory, or when findings contradict previous studies (non-directional hypothesis).4 

In addition, hypotheses can

  • 1) define interdependency between variables (associative hypothesis),4 
  • 2) propose an effect on the dependent variable from manipulation of the independent variable (causal hypothesis),4 
  • 3) state a negative relationship between two variables (null hypothesis),41115 
  • 4) replace the working hypothesis if rejected (alternative hypothesis),15 explain the relationship of phenomena to possibly generate a theory (working hypothesis),11 
  • 5) involve quantifiable variables that can be tested statistically (statistical hypothesis),11 
  • 6) or express a relationship whose interlinks can be verified logically (logical hypothesis).11 

 

정량적 연구에서 단순, 복합, 방향성, 비방향성, 연관성, 인과, 무(無), 대안, 작동, 통계적, 논리적 가설의 예와 정량적 가설 검증 연구의 정의는 표 3에 나와 있습니다.

We provide examples of simple, complex, directional, non-directional, associative, causal, null, alternative, working, statistical, and logical hypotheses in quantitative research, as well as the definition of quantitative hypothesis-testing research in Table 3.

 

질적 연구의 연구 질문
Research questions in qualitative research

양적 연구의 연구 질문과 달리 질적 연구의 연구 질문은 일반적으로 지속적으로 검토되고 재구성됩니다. 중심 질문과 관련 하위 질문은 가설보다 더 많이 명시됩니다.15 [중심 질문]은 [중심 현상]을 둘러싼 복잡한 요인들을 광범위하게 탐구하여 참여자들의 다양한 관점을 제시하는 것을 목표로 합니다.15
Unlike research questions in quantitative research, research questions in qualitative research are usually continuously reviewed and reformulated. The central question and associated subquestions are stated more than the hypotheses.15 The central question broadly explores a complex set of factors surrounding the central phenomenon, aiming to present the varied perspectives of participants.15

질적 연구 질문이 개발되는 목표는 다양합니다. 이러한 질문은 다양한 방식으로 작용할 수 있습니다. 

  • 1) 기존 상황을 파악하고 설명하기 위해(맥락적 연구 질문),
  • 2) 현상을 설명하기 위해(서술적 연구 질문),
  • 3) 기존 방법, 프로토콜, 이론 또는 절차의 효과를 평가하기 위해(평가 연구 질문),
  • 4) 현상을 조사하거나 대상 또는 현상 간의 이유 또는 관계를 분석하기 위해(설명적 연구 질문),
  • 5) 특정 주제에 대해 알려지지 않은 측면에 초점을 맞추기 위해(탐색적 연구 질문) 5

There are varied goals for which qualitative research questions are developed. These questions can function in several ways, such as to

  • 1) identify and describe existing conditions (contextual research questions);
  • 2) describe a phenomenon (descriptive research questions);
  • 3) assess the effectiveness of existing methods, protocols, theories, or procedures (evaluation research questions);
  • 4) examine a phenomenon or analyze the reasons or relationships between subjects or phenomena (explanatory research questions); or
  • 5) focus on unknown aspects of a particular topic (exploratory research questions).5 

또한 일부 질적 연구 질문은 이론과 행동의 발전을 위한 새로운 아이디어를 제공하거나(생성적 연구 질문) 특정 입장의 이념을 발전시키기도 합니다(이념적 연구 질문).1
In addition, some qualitative research questions provide new ideas for the development of theories and actions (generative research questions) or advance specific ideologies of a position (ideological research questions).1 

다른 질적 연구 질문은 기존 문헌을 기반으로 하여 작업 지침이 될 수도 있습니다(민족지적 연구 질문). 연구 질문은 기존 문헌이나 질문 유형에 대한 구체적인 언급 없이 광범위하게 진술될 수도 있고(현상학적 연구 질문), 어떤 과정에 대한 이론을 생성하기 위한 것일 수도 있으며(근거 이론 질문), 사례에 대한 설명과 새로운 주제(질적 사례 연구 질문)를 다룰 수도 있습니다. 15
Other qualitative research questions may build on a body of existing literature and become working guidelines (ethnographic research questions). Research questions may also be broadly stated without specific reference to the existing literature or a typology of questions (phenomenological research questions), may be directed towards generating a theory of some process (grounded theory questions), or may address a description of the case and the emerging themes (qualitative case study questions).15 

 표 4에는 질적 연구에서 맥락적, 서술적, 평가적, 설명적, 탐구적, 생성적, 이념적, 민족지학적, 현상학적, 근거 이론 및 질적 사례 연구 연구 질문의 예가 나와 있으며, 표 5에는 질적 가설 생성 연구의 정의가 나와 있습니다.
We provide examples of contextual, descriptive, evaluation, explanatory, exploratory, generative, ideological, ethnographic, phenomenological, grounded theory, and qualitative case study research questions in qualitative research in Table 4, and the definition of qualitative hypothesis-generating research in Table 5.

 
 

 

질적 연구에는 일반적으로 하나 이상의 중심 연구 질문과 '어떻게' 또는 '무엇'으로 시작하는 여러 개의 하위 질문이 있습니다. 이러한 연구 질문은 탐구하다 또는 설명하다와 같은 탐색 동사를 사용합니다. 또한 관심 있는 하나의 중심 현상에 초점을 맞추고 참여자 및 연구 사이트를 언급할 수 있습니다.15 
Qualitative studies usually pose at least one central research question and several subquestions starting with How or What. These research questions use exploratory verbs such as explore or describe. These also focus on one central phenomenon of interest, and may mention the participants and research site.15 

질적 연구의 가설
Hypotheses in qualitative research

질적 연구의 가설은 [조사하고자 하는 문제와 관련된 명확한 진술]의 형태로 진술됩니다. 일반적으로 가설을 테스트하기 위해 가설을 개발하는 양적 연구와 달리 질적 연구는 [가설 테스트와 가설 생성 결과를 모두 도출]할 수 있습니다.2 연구에 양적 연구 질문과 질적 연구 질문이 모두 필요한 경우, 이는 두 연구 방법 간의 통합 프로세스를 통해 하나의 혼합 방법 연구 질문을 개발할 수 있음을 시사합니다.1
Hypotheses in qualitative research are stated in the form of a clear statement concerning the problem to be investigated. Unlike in quantitative research where hypotheses are usually developed to be tested, qualitative research can lead to both hypothesis-testing and hypothesis-generating outcomes.2 When studies require both quantitative and qualitative research questions, this suggests an integrative process between both research methods wherein a single mixed-methods research question can be developed.1

연구 질문 및 가설 개발을 위한 프레임워크
FRAMEWORKS FOR DEVELOPING RESEARCH QUESTIONS AND HYPOTHESES

연구를 시작하기 전에 연구 질문과 가설을 개발해야 합니다.1, 12, 14 연구자와 과학계 모두에게 흥미로운 주제에 대해 실현 가능한 연구 질문을 개발하는 것이 중요합니다. 이는 이전 연구와 현재 연구를 면밀히 검토하여 새로운 주제를 설정함으로써 달성할 수 있습니다. 이후 특정 영역에 초점을 맞춰 윤리적 연구 질문을 생성합니다. 연구 질문의 관련성은 결과 데이터의 명확성, 방법론의 구체성, 결과의 객관성, 연구의 깊이, 연구의 영향력 측면에서 평가됩니다.1, 5 이러한 측면이 FINER 기준(즉, 실현 가능, 흥미, 참신, 윤리적, 관련성)을 구성합니다.1 연구 질문이 FINER 기준을 충족하면 명확성과 효과성을 확보할 수 있습니다. Ratan 등은 연구 질문의 효과성을 평가하기 위해 FINER 기준 외에도 초점, 복잡성, 참신성, 실현 가능성 및 측정 가능성을 설명했습니다.14 
Research questions followed by hypotheses should be developed before the start of the study.1, 12, 14 It is crucial to develop feasible research questions on a topic that is interesting to both the researcher and the scientific community. This can be achieved by a meticulous review of previous and current studies to establish a novel topic. Specific areas are subsequently focused on to generate ethical research questions. The relevance of the research questions is evaluated in terms of clarity of the resulting data, specificity of the methodology, objectivity of the outcome, depth of the research, and impact of the study.1, 5 These aspects constitute the FINER criteria (i.e., Feasible, Interesting, Novel, Ethical, and Relevant).1 Clarity and effectiveness are achieved if research questions meet the FINER criteria. In addition to the FINER criteria, Ratan et al. described focus, complexity, novelty, feasibility, and measurability for evaluating the effectiveness of research questions.14

연구 질문을 개발할 때 PICOT 및 PEO 프레임워크도 사용됩니다.1 이러한 프레임워크에서 다루는 요소는 다음과 같습니다

  • PICOT: P-인구/환자/문제, I-연구 중인 중재 또는 지표, C-비교군, O-관심 결과, T-연구 기간;
  • PEO: P-연구 대상 인구, E-기존 질환에 대한 노출, O-관심 결과.1
  • 연구 질문도 "정밀지도" 프레임워크에 부합하면 좋은 것으로 간주됩니다: 실현 가능, 흥미로움, 참신함, 윤리적, 관련성, 관리 가능, 적절함, 잠재적 가치/출판 가능, 체계적.14

The PICOT and PEO frameworks are also used when developing research questions.1 The following elements are addressed in these frameworks,

  • PICOT: P-population/patients/problem, I-intervention or indicator being studied, C-comparison group, O-outcome of interest, and T-timeframe of the study;
  • PEO: P-population being studied, E-exposure to preexisting conditions, and O-outcome of interest.1 
  • Research questions are also considered good if these meet the “FINERMAPS” framework: Feasible, Interesting, Novel, Ethical, Relevant, Manageable, Appropriate, Potential value/publishable, and Systematic.14

앞서 언급했듯이, 연구 질문과 가설을 신중하게 수립하지 않으면 비윤리적인 연구나 좋지 않은 결과를 초래할 수 있습니다. 이를 설명하기 위해 양적 연구(표 6)16 및 질적 연구(표 7)17에서 불명확하고 취약한 연구 목표를 초래하는 모호한 연구 질문 및 가설의 몇 가지 예와 이러한 모호한 연구 질문 및 가설을 명확하고 좋은 진술로 전환하는 방법을 제공합니다. 
As we indicated earlier, research questions and hypotheses that are not carefully formulated result in unethical studies or poor outcomes. To illustrate this, we provide some examples of ambiguous research question and hypotheses that result in unclear and weak research objectives in quantitative research (Table 6)16 and qualitative research (Table 7)17, and how to transform these ambiguous research question(s) and hypothesis(es) into clear and good statements.

 
연구 질문 및 가설 구성
CONSTRUCTING RESEARCH QUESTIONS AND HYPOTHESES

효과적인 연구 질문과 가설을 구성하기 위해서는

  • 1) 연구 배경을 명확히 하고
  • 2) 연구 시작 시 특정 기간 내에 연구 문제를 파악하는 것이 매우 중요합니다.9 그런 다음
  • 3) 이론과 선행 연구를 검토하거나 예비 연구를 수행하여 가능한 연구 질문에 대한 모든 지식을 수집합니다.18 그 후
  • 4) 연구 문제를 조사하기 위한 연구 질문을 구성합니다. 연구 질문에서 접근해야 할 변수를 식별하고4 연구 문제와 질문에서 구성 요소에 대한 조작적 정의를 내립니다. 그 후,
  • 5) 가설의 형태로 구체적인 연역적 또는 귀납적 예측을 구성합니다.4 마지막으로,
  • 6) 연구 목표를 명시합니다.

연구를 수행하기 전에 효과적인 연구 질문과 가설을 구성하기 위한 일반적인 흐름은 그림 1에 나와 있습니다.

To construct effective research questions and hypotheses, it is very important to

1) clarify the background and
2) identify the research problem at the outset of the research, within a specific timeframe.9 Then,
3) review or conduct preliminary research to collect all available knowledge about the possible research questions by studying theories and previous studies.18 Afterwards,
4) construct research questions to investigate the research problem. Identify variables to be accessed from the research questions4 and make operational definitions of constructs from the research problem and questions. Thereafter,
5) construct specific deductive or inductive predictions in the form of hypotheses.4 Finally,
6) state the study aims.

This general flow for constructing effective research questions and hypotheses prior to conducting research is shown in Fig. 1.

질적 연구에서 [연구 질문]은 목적이나 가설보다 더 자주 사용됩니다.3 이러한 질문은 "무엇을" 또는 "어떻게"라고 질문하여 경험을 발견, 이해, 탐구 또는 설명하고자 합니다. 이러한 질문은 변수를 연관시키거나 그룹을 비교하기보다는 설명을 이끌어내기 위한 개방형 질문입니다. 질적 연구를 진행하는 동안 질문은 지속적으로 검토, 재구성 및 변경됩니다.3 또한 연구 질문은 변수와 그 관계를 비교하기 위한 정량적 연구의 실험에서 가설보다 설문조사 프로젝트에서 더 자주 사용됩니다.
Research questions are used more frequently in qualitative research than objectives or hypotheses.3 These questions seek to discover, understand, explore or describe experiences by asking “What” or “How.” The questions are open-ended to elicit a description rather than to relate variables or compare groups. The questions are continually reviewed, reformulated, and changed during the qualitative study.3 Research questions are also used more frequently in survey projects than hypotheses in experiments in quantitative research to compare variables and their relationships.

[가설]은 확인된 변수를 바탕으로 '특정 행동을 취하면 특정 결과가 예상된다'는 템플릿에 따라 if-then 문장으로 구성됩니다. 이 단계에서는 수행하고자 하는 연구를 통해 기대되는 결과에 대한 아이디어를 도출해야 합니다.18 그런 다음 조작할 변수(독립변수)와 영향을 받을 변수(종속변수)를 정의합니다.4 그 후 가설을 진술하고 구체화하며 가설에 맞는 재현 가능한 데이터를 식별, 수집, 분석합니다.4 가설은 테스트 가능하고 구체적이어야 하며,18 변수와 변수 간의 관계, 연구 대상 특정 집단, 예측되는 연구 결과를 기술해야 합니다.18 가설 구성에는 이론으로부터 추론할 수 있는 테스트 가능한 명제와 독립변수와 종속변수가 분리되어 별도로 측정되어야 합니다.3 따라서 좋은 가설은 연구 또는 시험을 시작할 때 구성한 좋은 연구 질문에 기반해야 합니다.12
Hypotheses are constructed based on the variables identified and as an if-then statement, following the template, ‘If a specific action is taken, then a certain outcome is expected.’ At this stage, some ideas regarding expectations from the research to be conducted must be drawn.18 Then, the variables to be manipulated (independent) and influenced (dependent) are defined.4 Thereafter, the hypothesis is stated and refined, and reproducible data tailored to the hypothesis are identified, collected, and analyzed.4 The hypotheses must be testable and specific,18 and should describe the variables and their relationships, the specific group being studied, and the predicted research outcome.18 Hypotheses construction involves a testable proposition to be deduced from theory, and independent and dependent variables to be separated and measured separately.3 Therefore, good hypotheses must be based on good research questions constructed at the start of a study or trial.12

요약하면, [연구 질문]은 [연구의 배경]을 설정한 후 구성됩니다. 그런 다음 [연구 질문]에 따라 [가설을 개발]합니다. 따라서 우수한 가설을 도출하기 위해서는 우수한 연구 질문을 갖는 것이 중요합니다. 연구 질문에 따라 연구 목표와 연구 설계가 결정되고 궁극적으로 연구 결과가 결정됩니다.12 연구 질문과 가설을 구축하는 알고리즘은 정량적 연구의 경우 그림 2에, 질적 연구의 경우 그림 3에 나와 있습니다.
In summary, research questions are constructed after establishing the background of the study. Hypotheses are then developed based on the research questions. Thus, it is crucial to have excellent research questions to generate superior hypotheses. In turn, these would determine the research objectives and the design of the study, and ultimately, the outcome of the research.12 Algorithms for building research questions and hypotheses are shown in Fig. 2 for quantitative research and in Fig. 3 for qualitative research.

 

 

 

결론
CONCLUSION

연구 질문과 가설은 정량적이든 정성적이든 모든 유형의 연구에서 중요한 요소입니다. 이러한 질문은 연구를 시작할 때 개발해야 합니다. 훌륭한 연구 질문은 나침반처럼 연구의 방향을 설정하고 연구의 성공적인 수행을 결정할 수 있는 훌륭한 가설로 이어집니다. 많은 연구가 실패한 이유는 연구 질문과 그에 따른 가설을 개발하는 데 충분한 고민과 세심한 주의를 기울이지 않았기 때문입니다. 연구 질문과 가설의 개발은 문헌에 대한 광범위한 지식과 지식 격차에 대한 통찰력 있는 파악을 바탕으로 반복적인 과정을 거쳐야 합니다. 집중적이고 간결하며 구체적인 연구 질문은 연구 결과에 대한 공식적인 예측 역할을 하는 가설을 구성하는 데 강력한 토대를 제공합니다. 연구 질문과 가설은 간과해서는 안 되는 연구의 중요한 요소입니다. 연구를 계획할 때 신중하게 생각하고 가설을 세워야 합니다. 이는 연구의 설계, 과정 및 결과를 결정하는 근거 있는 목표를 정의함으로써 비윤리적인 연구와 부실한 결과를 방지합니다.
Research questions and hypotheses are crucial components to any type of research, whether quantitative or qualitative. These questions should be developed at the very beginning of the study. Excellent research questions lead to superior hypotheses, which, like a compass, set the direction of research, and can often determine the successful conduct of the study. Many research studies have floundered because the development of research questions and subsequent hypotheses was not given the thought and meticulous attention needed. The development of research questions and hypotheses is an iterative process based on extensive knowledge of the literature and insightful grasp of the knowledge gap. Focused, concise, and specific research questions provide a strong foundation for constructing hypotheses which serve as formal predictions about the research outcomes. Research questions and hypotheses are crucial elements of research that should not be overlooked. They should be carefully thought of and constructed when planning research. This avoids unethical studies and poor outcomes by defining well-founded objectives that determine the design, course, and outcome of the study.

 

 
EXAMPLES OF RESEARCH QUESTIONS FROM PUBLISHED ARTICLES
 
  • EXAMPLE 1. Descriptive research question (quantitative research)
  • - Presents research variables to be assessed (distinct phenotypes and subphenotypes)
  • “BACKGROUND: Since COVID-19 was identified, its clinical and biological heterogeneity has been recognized. Identifying COVID-19 phenotypes might help guide basic, clinical, and translational research efforts.
  • RESEARCH QUESTION: Does the clinical spectrum of patients with COVID-19 contain distinct phenotypes and subphenotypes?19

 

  • EXAMPLE 2. Relationship research question (quantitative research)
  • - Shows interactions between dependent variable (static postural control) and independent variable (peripheral visual field loss)
  • “Background: Integration of visual, vestibular, and proprioceptive sensations contributes to postural control. People with peripheral visual field loss have serious postural instability. However, the directional specificity of postural stability and sensory reweighting caused by gradual peripheral visual field loss remain unclear.
  • Research question: What are the effects of peripheral visual field loss on static postural control?”20

 

  • EXAMPLE 3. Comparative research question (quantitative research)
  • - Clarifies the difference among groups with an outcome variable (patients enrolled in COMPERA with moderate PH or severe PH in COPD) and another group without the outcome variable (patients with idiopathic pulmonary arterial hypertension (IPAH))
  • “BACKGROUND: Pulmonary hypertension (PH) in COPD is a poorly investigated clinical condition.
  • RESEARCH QUESTION: Which factors determine the outcome of PH in COPD?
  • STUDY DESIGN AND METHODS: We analyzed the characteristics and outcome of patients enrolled in the Comparative, Prospective Registry of Newly Initiated Therapies for Pulmonary Hypertension (COMPERA) with moderate or severe PH in COPD as defined during the 6th PH World Symposium who received medical therapy for PH and compared them with patients with idiopathic pulmonary arterial hypertension (IPAH).”21
  • EXAMPLE 4. Exploratory research question (qualitative research)
  • - Explores areas that have not been fully investigated (perspectives of families and children who receive care in clinic-based child obesity treatment) to have a deeper understanding of the research problem
  • “Problem: Interventions for children with obesity lead to only modest improvements in BMI and long-term outcomes, and data are limited on the perspectives of families of children with obesity in clinic-based treatment. This scoping review seeks to answer the question: What is known about the perspectives of families and children who receive care in clinic-based child obesity treatment? This review aims to explore the scope of perspectives reported by families of children with obesity who have received individualized outpatient clinic-based obesity treatment.”22
  • EXAMPLE 5. Relationship research question (quantitative research)
  • - Defines interactions between dependent variable (use of ankle strategies) and independent variable (changes in muscle tone)
  • “Background: To maintain an upright standing posture against external disturbances, the human body mainly employs two types of postural control strategies: “ankle strategy” and “hip strategy.” While it has been reported that the magnitude of the disturbance alters the use of postural control strategies, it has not been elucidated how the level of muscle tone, one of the crucial parameters of bodily function, determines the use of each strategy. We have previously confirmed using forward dynamics simulations of human musculoskeletal models that an increased muscle tone promotes the use of ankle strategies. The objective of the present study was to experimentally evaluate a hypothesis: an increased muscle tone promotes the use of ankle strategies. Research question: Do changes in the muscle tone affect the use of ankle strategies?”23

 

EXAMPLES OF HYPOTHESES IN PUBLISHED ARTICLES

  • EXAMPLE 1. Working hypothesis (quantitative research)
  • - A hypothesis that is initially accepted for further research to produce a feasible theory
  • “As fever may have benefit in shortening the duration of viral illness, it is plausible to hypothesize that the antipyretic efficacy of ibuprofen may be hindering the benefits of a fever response when taken during the early stages of COVID-19 illness.”24
  • “In conclusion, it is plausible to hypothesize that the antipyretic efficacy of ibuprofen may be hindering the benefits of a fever response. The difference in perceived safety of these agents in COVID-19 illness could be related to the more potent efficacy to reduce fever with ibuprofen compared to acetaminophen. Compelling data on the benefit of fever warrant further research and review to determine when to treat or withhold ibuprofen for early stage fever for COVID-19 and other related viral illnesses.”24
  • EXAMPLE 2. Exploratory hypothesis (qualitative research)
  • - Explores particular areas deeper to clarify subjective experience and develop a formal hypothesis potentially testable in a future quantitative approach
  • “We hypothesized that when thinking about a past experience of help-seeking, a self distancing prompt would cause increased help-seeking intentions and more favorable help-seeking outcome expectations.”25
  • “Conclusion
  • Although a priori hypotheses were not supported, further research is warranted as results indicate the potential for using self-distancing approaches to increasing help-seeking among some people with depressive symptomatology.”25
  • EXAMPLE 3. Hypothesis-generating research to establish a framework for hypothesis testing (qualitative research)
  • “We hypothesize that compassionate care is beneficial for patients (better outcomes), healthcare systems and payers (lower costs), and healthcare providers (lower burnout).26
  • “Conclusion
  • Compassionomics is the branch of knowledge and scientific study of the effects of compassionate healthcare. Our main hypotheses are that compassionate healthcare is beneficial for (1) patients, by improving clinical outcomes, (2) healthcare systems and payers, by supporting financial sustainability, and (3) HCPs, by lowering burnout and promoting resilience and well-being. The purpose of this paper is to establish a scientific framework for testing the hypotheses above. If these hypotheses are confirmed through rigorous research, compassionomics will belong in the science of evidence-based medicine, with major implications for all healthcare domains.”26
  • EXAMPLE 4. Statistical hypothesis (quantitative research)
  • - An assumption is made about the relationship among several population characteristics (gender differences in sociodemographic and clinical characteristics of adults with ADHD). Validity is tested by statistical experiment or analysis (chi-square test, Students t-test, and logistic regression analysis)
  • “Our research investigated gender differences in sociodemographic and clinical characteristics of adults with ADHD in a Japanese clinical sample. Due to unique Japanese cultural ideals and expectations of women's behavior that are in opposition to ADHD symptoms, we hypothesized that women with ADHD experience more difficulties and present more dysfunctions than men. We tested the following hypotheses: first, women with ADHD have more comorbidities than men with ADHD; second, women with ADHD experience more social hardships than men, such as having less full-time employment and being more likely to be divorced.”27
  • “Statistical Analysis
  • (text omitted) Between-gender comparisons were made using the chi-squared test for categorical variables and Students t-test for continuous variables…(text omitted). A logistic regression analysis was performed for employment status, marital status, and comorbidity to evaluate the independent effects of gender on these dependent variables.”27

 

EXAMPLES OF HYPOTHESIS AS WRITTEN IN PUBLISHED ARTICLES IN RELATION TO OTHER PARTS

  • EXAMPLE 1. Background, hypotheses, and aims are provided
  • BACKGROUND
  • “Pregnant women need skilled care during pregnancy and childbirth, but that skilled care is often delayed in some countries …(text omitted). The focused antenatal care (FANC) model of WHO recommends that nurses provide information or counseling to all pregnant women …(text omitted). Job aids are visual support materials that provide the right kind of information using graphics and words in a simple and yet effective manner. When nurses are not highly trained or have many work details to attend to, these job aids can serve as a content reminder for the nurses and can be used for educating their patients (Jennings, Yebadokpo, Affo, & Agbogbe, 2010) (text omitted). Importantly, additional evidence is needed to confirm how job aids can further improve the quality of ANC counseling by health workers in maternal care …(text omitted)”28
  • HYPOTHESES
  • This has led us to hypothesize that the quality of ANC counseling would be better if supported by job aids. Consequently, a better quality of ANC counseling is expected to produce higher levels of awareness concerning the danger signs of pregnancy and a more favorable impression of the caring behavior of nurses.”28
  • AIMS
  • “This study aimed to examine the differences in the responses of pregnant women to a job aid-supported intervention during ANC visit in terms of 1) their understanding of the danger signs of pregnancy and 2) their impression of the caring behaviors of nurses to pregnant women in rural Tanzania.”28
 
  • EXAMPLE 2. Background, hypotheses, and aims are provided
  • BACKGROUND
  • “We conducted a two-arm randomized controlled trial (RCT) to evaluate and compare changes in salivary cortisol and oxytocin levels of first-time pregnant women between experimental and control groups. The women in the experimental group touched and held an infant for 30 min (experimental intervention protocol), whereas those in the control group watched a DVD movie of an infant (control intervention protocol). The primary outcome was salivary cortisol level and the secondary outcome was salivary oxytocin level.”29
  • HYPOTHESIS
  • We hypothesize that at 30 min after touching and holding an infant, the salivary cortisol level will significantly decrease and the salivary oxytocin level will increase in the experimental group compared with the control group.”29
  • EXAMPLE 3. Background, aim, and hypothesis are provided
  • BACKGROUND
  • “In countries where the maternal mortality ratio remains high, antenatal education to increase Birth Preparedness and Complication Readiness (BPCR) is considered one of the top priorities [1]. BPCR includes birth plans during the antenatal period, such as the birthplace, birth attendant, transportation, health facility for complications, expenses, and birth materials, as well as family coordination to achieve such birth plans. In Tanzania, although increasing, only about half of all pregnant women attend an antenatal clinic more than four times [4]. Moreover, the information provided during antenatal care (ANC) is insufficient. In the resource-poor settings, antenatal group education is a potential approach because of the limited time for individual counseling at antenatal clinics.”30
  • AIM
  • “This study aimed to evaluate an antenatal group education program among pregnant women and their families with respect to birth-preparedness and maternal and infant outcomes in rural villages of Tanzania.”30
  • HYPOTHESIS
  • The study hypothesis was if Tanzanian pregnant women and their families received a family-oriented antenatal group education, they would (1) have a higher level of BPCR, (2) attend antenatal clinic four or more times, (3) give birth in a health facility, (4) have less complications of women at birth, and (5) have less complications and deaths of infants than those who did not receive the education.”30

 


 

 

J Korean Med Sci. 2022 Apr 25;37(16):e121. doi: 10.3346/jkms.2022.37.e121.

 

A Practical Guide to Writing Quantitative and Qualitative Research Questions and Hypotheses in Scholarly Articles

Affiliations collapse

1Department of General Education, Graduate School of Nursing Science, St. Luke's International University, Tokyo, Japan. edward-barroga@slcn.ac.jp.

2Department of Biological Sciences, Messiah University, Mechanicsburg, PA, USA.

PMID: 35470596

PMCID: PMC9039193

DOI: 10.3346/jkms.2022.37.e121

 

Abstract

The development of research questions and the subsequent hypotheses are prerequisites to defining the main research purpose and specific objectives of a study. Consequently, these objectives determine the study design and research outcome. The development of research questions is a process based on knowledge of current trends, cutting-edge studies, and technological advances in the research field. Excellent research questions are focused and require a comprehensive literature search and in-depth understanding of the problem being investigated. Initially, research questions may be written as descriptive questions which could be developed into inferential questions. These questions must be specific and concise to provide a clear foundation for developing hypotheses. Hypotheses are more formal predictions about the research outcomes. These specify the possible results that may or may not be expected regarding the relationship between groups. Thus, research questions and hypotheses clarify the main purpose and specific objectives of the study, which in turn dictate the design of the study, its direction, and outcome. Studies developed from good research questions and hypotheses will have trustworthy outcomes with wide-ranging social and health implications.

Keywords: Hypotheses; Qualitative Research; Quantitative Research; Research Questions.

주관적 평가를 측정할 때 동의-비동의 문항 사용의 재고(Res Social Adm Pharm. 2022)
Towards a reconsideration of the use of agree-disagree questions in measuring subjective evaluations
Jennifer Dykema a,b,*, Nora Cate Schaeffer a,b, Dana Garbarski c, Nadia Assad a, Steven Blixt d

서론
Introduction

태도 측정에 대한 그의 중요한 연구에서 렌시스 리커트의 공로를 인정받아, 동의-불일치(AD) 또는 리커트 질문은 태도와 의견을 평가하기 위해 가장 자주 사용되는 응답 형식 중 하나이며, 수많은 연구와 많은 국가 및 연방 조사에서 나타난다. 다음 질문에서 알 수 있듯이 [AD 질문]은 응답자에게 진술을 제공하고 동의 수준을 평가하도록 요청합니다: 

  • 의학 연구원들은 참가자들의 정보를 비공개로 하고 안전하게 유지하기 위해 매우 열심히 일한다. 당신은 강하게 동의하는가, 동의하는가, 동의하지 않거나 동의하지 않는가, 동의하지 않는가, 아니면 강하게 반대하는가?

Credited to Rensis Likert in his seminal research on attitude measurement, agree-disagree (AD) or Likert questions are among the most frequently used response formats to assess attitudes and opinions, appearing in numerous studies and many national and federal surveys.1, 2, 3 As illustrated by the following question, AD questions present respondents with statements and ask them to rate their level of agreement: 

  • Medical researchers work extremely hard to make sure they keep information from participants private and secure. Do you strongly agree, agree, neither agree nor disagree, disagree, or strongly disagree?4

연구자들이 AD 질문의 긍정적인 심리학적 특성에 대해 썼지만, 이러한 항목의 보편성은 사용의 용이성 때문일 가능성이 높다. AD 질문으로 구성된 척도는 진술의 내용이나 복잡성에 관계없이 각 진술에 대해 [동일한 응답 범주]를 사용할 수 있고, 자체 관리 설문지의 경우 연구자가 그리드에서 여러 AD 질문을 [경제적으로 포맷]할 수 있기 때문에 실질적으로 매력적이다.  
While researchers have written about the positive psychometric properties of AD questions,
5 the ubiquity of these items is also likely due to their ease of use. Scales comprised of AD questions are practically appealing because the same response categories can be used for each statement regardless of the content or complexity of the statements, and for self-administered questionnaires, researchers can format multiple AD questions economically in a grid.6,7

그러나 이러한 긍정적인 기능은 [응답자의 부담 증가]로 상쇄될 수 있으며, 이는 [데이터 품질을 저하]시킬 수 있으며, 설문지 설계자들이 [항목별(IS) 질문을 옹호]하도록 만들었다. [IS 질문]은 응답 차원에 맞게 조정된 응답 범주를 사용하여 질문의 기본 응답 차원에 대해 직접 질문하기 위해 작성됩니다. 예를 들어 IS 버전의 예제 질문은 열심히 일하는 강도를 평가하는 응답 범주를 사용하여 의료 연구자가 열심히 일하는 방법의 기본 응답 차원을 측정하기 위해 작성된다: 

  • 의학 연구자들은 참가자들의 정보를 비공개로 하고 안전하게 하기 위해 얼마나 열심히 일할까요? 전혀 열심히 하지 않음, 조금 열심히 하지 않음, 다소 열심히 함, 매우 열심히 함, 극도로 열심히 함?

These positive features, however, may be offset by increased burden for respondents, which may reduce data quality, and has led questionnaire designers to advocate for item-specific (IS) questions.6, 7, 8, 9 IS questions are written to directly ask about a question's underlying response dimension with response categories tailored to match the response dimension.6,7,9 For example, an IS version of the example question would be written to measure the underlying response dimension of how hard medical researchers work using response categories that assess the intensity of working hard: 

  • How hard do medical researchers work to make sure they keep information from participants private and secure: not at all hard, a little hard, somewhat hard, very hard, or extremely hard?

다음 섹션에서는 다음을 수행합니다. 

  • 1) AD 및 IS 질문에 대한 데이터 품질을 비교하는 실험 연구를 검토한다; 
  • 2) AD 및 IS 질문에 대한 응답자의 인지 처리에 관한 연구의 개념적 모델을 제시하고 검토한다; 
  • 3) AD 및 IS 질문 간에 자주 다르고 응답자의 인지 처리 및 데이터 품질에 영향을 미칠 수 있는 질문 특성에 대한 개요를 제공한다 
  • 4) AD 및 IS 질문의 사용 및 연구에 대한 최종 의견과 권고사항을 제공합니다.

In the following sections we:

  • 1) review experimental studies comparing data quality for AD and IS questions;
  • 2) present conceptual models of and review research concerning respondents' cognitive processing of AD and IS questions;
  • 3) provide an overview of question characteristics that frequently differ between AD and IS questions and may affect respondents’ cognitive processing and data quality; and
  • 4) offer concluding comments and recommendations regarding the use and study of AD and IS questions.

AD 대 IS 질문이 데이터 품질에 미치는 영향
Effects of AD versus IS questions on data quality

AD와 IS 질문을 직접 비교하고 데이터 품질 또는 인지 처리 결과를 기반으로 차이를 평가하는 20개의 실험 연구를 식별했다. 여러 연구는 유효성과 신뢰성의 바람직한 데이터 품질 지표를 조사한다. 전반적으로 IS 질문이 더 높은 타당성과 신뢰성과 관련이 있다는 연구 결과가 많다. 예를 들어,

  • 6개의 연구가 AD 질문과 IS 질문 사이에 일관된 차이가 없다고 보고한 반면, 3개의 연구는 IS 질문에 대해 더 높은 유효성을 보여주었고, AD 질문에 대해 더 높은 [타당성]을 보고한 연구는 없었다.
  • [신뢰성]IS 질문에 대해 5개 연구가 더 높은 신뢰성을, AD 질문에 대해 2개 연구가 더 높은 신뢰성을 보여주었고, 2개 연구는 차이가 없다고 보고했다.

We identified 20 experimental studies that directly compare AD and IS questions and evaluate differences based on data quality or cognitive processing outcomes. Several studies examine the desirable data quality indicators of validity and reliability. Overall, a larger number of studies find IS questions are associated with higher validity and reliability. For example, while six studies reported no consistent difference between AD and IS questions,3,4,10, 11, 12, 13 three studies demonstrated validity was higher for IS questions,8,14,15 and no studies reported higher validity for AD questions. For reliability, five studies demonstrated higher reliability for IS questions,8,11,12,15,16 two for AD questions,4,13 and two studies reported no difference.3,17

연구는 또한 다음과 같은 바람직하지 않은 데이터 품질 지표를 조사했다

  • 묵인 (내용에 관계없이 질문에 동의함), 
  • 우선순위로 인한 반응 효과 (첫 번째 범주의 체계적 선택), 
  • 최신성 (마지막 범주의 체계적 선택)
  • 극단적 대응 (첫 번째 범주와 마지막 범주의 체계적 선택), 
  • 직선 (질문 모음의 항목에 대해 유사한 답변을 제공하는 경우), 
  • 항목 무응답 및 
  • 온라인 설문 조사에서 속도와 중단. 

Studies have also examined undesirable data quality indicators including

  • acquiescence (tendency to agree with a question regardless of its content),18 
  • response effects due to primacy (systematic selection of the first category),
  • recency (systematic selection of the last category), and
  • extreme responding (systematic selection of the first and last categories),
  • straightlining (tendency to give similar answers to items in a battery of questions),19 
  • item nonresponse, and
  • speeding and break-offs in online surveys.

일반적으로 더 많은 연구에서 [AD 질문]이 이러한 부정적인 결과와 관련이 있다는 것을 발견했지만, 많은 연구에서 차이를 발견하지 못했으며, 일부 연구에서는 IS 질문에 대해 더 높은 수준의 바람직하지 않은 결과를 발견했다.

  • 예를 들어, 4개의 연구가 묵인을 위한 AD 질문과 IS 질문 사이의 차이가 없거나 일관성이 없다고 보고한 반면, 4개의 연구는 AD 질문이 묵인에 더 취약하다고 보고했다.

다른 반응 효과와 직선에 대한 결과는 더 다양합니다.

  • 세 가지 연구는 AD 질문에 대한 우선순위, 극단적 응답 및 척도 방향 효과를 밝혀냈다;
  • 한 연구는 IS 질문에 대한 최근 영향을 보고했다; 그리고 최종 연구는 AD와 IS 형식 모두에서 극단적인 반응이 있었다고 보고했다. 
  • 직선화의 경우, 두 연구에서 AD 척도에서 직선화가 더 많이 보고되었고, 하나는 IS 척도에서 보고되었으며, 두 연구에서는 차이가 없다고 보고되었다. 
  • 3개의 연구는 AD와 IS 질문에 대한 항목 누락 응답에서 일관된 패턴이 없다고 보고한 반면, 한 연구는 IS 질문에 대한 더 높은 수준을 보고했다. 
  • 마지막으로, 3개의 연구가 AD 형식의 질문 중에서 더 높은 수준의 속도 향상을 보고했지만, AD 또는 IS 형식은 온라인 설문 조사에서 중단 가능성에 더 큰 영향을 미치지 않았다. 

In general, more studies find AD questions are associated with these negative outcomes, but a number of studies find no differences, and a few studies find higher levels of undesirable outcomes for IS questions.

  • For example, while four studies reported no or inconsistent differences between AD and IS questions for acquiescence,13,16,2080 four studies reported AD questions were more susceptible to acquiescence.10,11,14,17 

Findings for other response effects and straightlining are more mixed.

  • Three studies uncovered primacy,21 extreme responding,22 and scale direction23 effects for AD questions;
  • one study reported recency effects4 for IS questions; and a final study reported extreme responding was present for both AD and IS formats.2 
  • For straightlining, two studies reported more straightlining in AD scales,10,12 one in IS scales,22 and two studies reported no differences.21,23 
  • While three studies reported no consistent pattern in item-missing responses for AD and IS questions,16,21,22 one study reported higher levels for IS questions.4 
  • Finally, while three studies reported higher levels of speeding among questions with AD formats,212223 neither an AD or IS format was more likely to affect the likelihood of break-offs in online surveys.22,23

AD 및 IS 질문의 인지 처리
Cognitive processing of AD and IS questions

설문지 설계자들은 AD 질문이 IS 질문보다 인지적으로 부담이 크기 때문에 데이터 품질을 낮출 가능성이 높다고 주장한다. [AD 질문의 복잡성]에 기여하는 한 가지 특징은 [질문의 "제공된" 응답 차원]과 ["기본적인" 응답 차원] 사이의 [불일치]를 응답자에게 자주 제시한다는 것이다. 응답 차원은 질문이 응답자에게 답변을 구성할 때 고려하도록 요청하는 연속체입니다. 평가 척도를 사용한 평가 및 판단에 대한 질문의 경우, 응답 차원은 다음을 설정할 수 있다 

  • 원자가(대상 물체의 평가가 긍정적이든 부정적이든, 예를 들어 "찬성 또는 동의하지 않음"), 
  • 강도(예: "전혀… 극단적이지 않다"), 
  • 수량(예: "대단히 … 많은 양"), 또는 
  • 대상 개체의 상대 빈도(예: "never … always"). 

Questionnaire designers argue that AD questions are more likely to lower data quality because they are more cognitively burdensome than IS questions.6, 7, 8,24 A characteristic that contributes to the complexity of AD questions is that they often present respondents with a mismatch between the question's “offered” and “underlying” response dimensions. A response dimension is the continuum a question asks the respondent to consider when constructing their answer.6,9,25 For questions about evaluations and judgments using rating scales, response dimensions can establish 

  • valence (whether the evaluation of a target object is positive or negative; e.g., “agree or disagree”), 
  • intensity (degree to which the evaluation is held; e.g., “not at all … extremely”), 
  • quantity (amount of the evaluation held; e.g., “none … a great deal”), or 
  • relative frequency of the target object (e.g., “never … always”).

표 1.4의 AD 질문을 고려합니다. 반응 범주가 제시하는 반응 차원은 [일치의 강도]입니다. 이는 진술서에 제시된 [열심히 일하는 강도]의 [근본적인 반응 차원]과 상충된다. 이러한 불일치는 응답자들이 진술에 대한 [자연적으로 발생하는 반응]을 [AD 반응 범주]에 "매핑"하기 위해 복잡한 인지 처리 단계를 수행하도록 강요한다.
Consider the AD question in Table 1.4 The offered response dimension presented by the response categories is the intensity of agreement. This conflicts with the underlying response dimension of the intensity of working hard presented in the statement. These mismatches force respondents to undertake complicated cognitive processing steps in order to “map” their naturally occurring responses to the statement onto the AD response categories.

Tourangeau 등은 응답자가 설문조사 질문에 대한 답변을 구성하는 4단계를 설명한다: 

  • 이해, 
  • 기억에서 관련 정보 검색, 
  • 판단을 위한 검색된 정보 사용, 
  • 답변 선택 및 보고. 

다른 것들은 이 모델을 확장하여 AD 질문에 응답하는 데 관련된 인지 단계를 추가했으며, 표 1에서 AD 및 IS 질문에 대답하기 위해 수행되는 인지 처리 단계의 개념적 모델을 제시한다.
Tourangeau et al.26 describe four stages through which respondents construct answers to survey questions:

  • comprehension,
  • retrieval of relevant information from memory,
  • use of retrieved information to make judgments, and
  • selection and reporting of an answer.

Others have expanded on this model, adding cognitive steps involved in responding to AD questions specifically,6,8,23,27,28 and in Table 1, we present conceptual models of the cognitive processing steps undertaken to answer AD and IS questions. 

AD 질문에 대한 인지 처리 단계의 개념 모델
Conceptual model of cognitive processing steps for AD questions

첫 번째 단계는 응답자가 이해해야 하는 [이해]입니다 

  • 성명서의 문자 그대로의 의미(예: "의료 연구자들은 참가자들의 정보를 비공개로 하고 안전하게 유지하기 위해 매우 열심히 노력한다") 
  • 구성 요소(예: "의료 연구원", "열심히 일한다[열심히 한다] 등). 

The first step is Comprehension in which the respondent must comprehend

  • the literal meaning of the statement (e.g., “Medical researchers work extremely hard to make sure they keep information from participants private and secure”) as well as
  • its component parts (e.g., “medical researchers,” “work [extremely] hard,” etc.).

다음으로, 식별하는 동안, 응답자는 질문의 [기본적인 응답 차원을 식별]합니다. 이는 문장의 의미를 이해하고 임계값 단어(포함된 경우)에 주의를 기울임으로써 달성됩니다. [임계값 단어]는 척도 옵션의 전체 범위를 제시하지 않고 기본 응답 차원에서 임계값을 설정하는 AD 문에 종종 포함되는 인텐시파이어(예: "매우"), 정량자(예: "가장") 또는 빈도 마커(예: "거의")입니다.

  • 예를 들어, AD 질문에는 "극도로"라는 [임계값 단어]가 포함되는데, 이는 "열심히 일한다"를 수정함으로써, 근본적인 응답 차원으로서 열심히 일하는 강도를 강화하는 역할을 한다. 

Next, during Identification, the respondent identifies the question's underlying response dimension, which is accomplished by understanding the meaning of the statement as well as attending to threshold words, if included. Threshold words are intensifiers (e.g., “very”), quantifiers (e.g., “most”), or frequency markers (e.g., “rarely”) often included in AD statements that establish a threshold on the underlying response dimension without presenting the full range of scale options.

  • For example, the AD question includes the threshold word “extremely,” which, by modifying “work hard,” serves to reinforce the intensity of working hard as the underlying response dimension.

기본 반응 차원을 식별한 후, 응답자는 차원(생성)에 대해 자신의 내부 값(반응)을 생성해야 합니다. 

  • 현재 질문의 경우, 응답자는 "상당히 열심히"에 관한 내부 값을 생성합니다. 

After identifying the underlying response dimension, the respondent must generate their own internal value (response) on the dimension (Generation).

  • For the current question, the respondent generates an internal value of “pretty hard.”

이어지는 단계는 일련의 복잡한 인지 과정을 포함한다, 

  • 응답자가 자신의 내부 값인 "상당히 열심히"과 임계값인 "극단적으로 열심히" 사이의 거리를 평가한다(임계값 평가).
  • 그런 다음 내부 값과 임계값 사이의 거리가 "동의", "동의하지 않음" 또는 "중립성"을 나타내는지 확인합니다(극성 평가)

Ensuing steps encompass a set of complicated cognitive processes in which the respondent

  • evaluates the distance between their internal value of “pretty hard” and the threshold value of “extremely hard” (Threshold evaluation), and
  • then determines whether the distance between their internal value and the threshold value indicates “agreement,” “disagreement,” or “neutrality” (Polarity evaluation).

마지막으로, [극성에 대한 평가]에 따라, 응답자는 [제안된 범주 중 하나(매핑)를 사용]하여 제안된 응답 차원에 내부 가치를 매핑해야 합니다.

  • 예를 들어, 응답자는 자신의 내부 값 "매우 엄격"이 임계값 "극히 엄격"에 가깝기 때문에 "동의하지 않음"을 선택하거나, "매우 엄격"이 "극히 엄격"보다 덜 심각하기 때문에 "동의하지 않음"을 선택할 수 있다

Finally, guided by their evaluation of polarity, the respondent must map their internal value onto the offered response dimension using one of the offered categories (Mapping).

  • For example, the respondent might select “agree” because their internal value “pretty hard” is close to the threshold value “extremely hard,” or the respondent could select “disagree” because “pretty hard” is less intense than “extremely hard.”

IS 질문에 대한 인지 처리 단계의 개념 모델
Conceptual model of cognitive processing steps for IS questions

비교 가능한 IS 질문에 답하기 위해 수행되는 인지 처리 단계는 단순화되고 부담이 적을 것으로 예측된다.

  • 첫째, 응답자는 질문의 문자 그대로의 의미와 그 구성요소(Comprehension)를 이해해야 합니다. 
  • 식별 단계에서, 응답자는 질문 방식과 응답 범주의 레이블링 및 순서(예: "전혀 딱딱하지 않음", "약간 딱딱함" 등)에 의해 강화되는 기본 응답 차원을 결정합니다. 
  • 다음으로, 응답자는 "상당히 어려운" 내부 값을 생성한다(생성). 그러나 이 값의 배치는 제공된 범주 중 하나(매핑)에 매핑하여 직접 수행되므로 임계값 및 극성 평가를 우회할 수 있습니다. 
  • 현재 질문의 경우, 응답자는 부사어와 인텐시파이어의 스케일을 조정하는 연구를 바탕으로 "상당히"가 "다소"와 "매우" 사이에 있기 때문에 "다소" 또는 "매우 어렵다"를 선택할 수 있다. 

The cognitive processing steps undertaken to answer a comparable IS question are simplified and predicted to be less burdensome.

  • First, the respondent must comprehend the literal meaning of the question and its component parts (Comprehension).
  • During Identification, the respondent determines the underlying response dimension, which is reinforced by the manner of questioning and the labeling and ordering of the response categories (e.g., “not at all hard,” “a little hard,” etc.).
  • Next, the respondent generates an internal value of “pretty hard” (Generation), but placement of this value is done directly by mapping it to one of the offered categories (Mapping), thereby circumventing Threshold and Polarity evaluation.
  • For the current question, the respondent could select “somewhat hard” or “very hard” because “pretty” lies between “somewhat” and “very” based on studies that scale adverbial phrases and intensifiers.29,30

AD 및 IS 질문을 단독으로 배터리로 처리할 때 응답자의 인지 노력
Respondents’ cognitive effort when processing AD and IS questions alone and in batteries

응답자의 인지적 노력 처리 AD 및 IS 질문을 조사한 연구는 질문이 단독으로 나타나는지 또는 배터리의 일부로 나타나는지, 그리고 IS 응답 범주가 질문에 따라 달라지는 정도라는 두 가지 질문 특성을 중간 정도의 노력으로 나타낸다. 표 1의 모델은 단독으로 제시된 단일 AD 질문이 더 높은 수준의 인지 처리를 필요로 할 것으로 예상하지만, 대부분의 AD 질문은 진술이 다양하지만 응답 범주가 일정하게 유지되는 배터리에서 나타난다. 이 프레젠테이션을 통해 응답자들은 질문과 범주의 패턴을 기억할 수 있으며, 생각이 덜한 답변 과정을 장려할 수 있다. 대조적으로, 여러 IS 질문이 함께 그룹화될 때, 응답자들이 가변 응답 범주를 처리하기 위해 더 많은 노력을 기울이는 것을 요구하기 때문에, 그들은 (자주, 그러나 항상 그렇지는 않다) 서로 다른 응답 차원과 응답 범주를 사용한다. 
Studies examining respondents’ cognitive effort processing AD and IS questions indicate two question characteristics moderate effort: whether questions appear alone or as part of a battery; and the extent to which IS response categories vary across questions.23,28,31 While the model in Table 1 anticipates that a single AD question presented in isolation will require a higher level of cognitive processing, most AD questions appear in batteries in which the statements vary but the response categories remain constant. This presentation allows respondents to memorize the pattern of questioning and categories and may encourage a less thoughtful process of answering.32 By contrast, when multiple IS questions are grouped together, they (often, but not always) use different response dimensions and response categories, requiring respondents exert more effort to process the variable response categories.23

[응답자가 질문을 처리하고 답변하는 데 걸리는 시간의 변화]를 조사하는 연구는 이러한 제안을 크게 뒷받침한다. 응답 지연 시간(RL)은 면접관의 질문 읽기가 끝날 때부터 응답자의 답변까지 걸리는 시간을 측정합니다. 연구자들은 신뢰와 정치적 유효성에 대한 질문에 대해 RLs의 시간을 측정했는데, 이 질문의 범주는 IS 항목에 따라 다르지만 AD 항목에 대해서는 변함이 없었다. 두 연구 모두에서, 배터리의 [첫 번째 질문]에 대한 RL은 AD 항목에 대해 상당히(또는 약간 그렇게) 길었고, AD 응답 형식이 인지적으로 더 부담스러운 응답 작업을 부과했다는 일부 증거를 제공했다. 그룹으로 평가된 RLs는 신뢰에 대한 IS 질문에 대해 더 길었지만 정치적 효과는 아니었다.
Research examining variation in the time respondents spend processing and answering questions largely support these propositions. Response latencies (RLs) measure time spanning the end of an interviewer's question reading to the respondent's answer.33 Researchers timed RLs for questions about trust4 and political efficacy11 in which categories varied across IS items, but were invariant across AD items. In both studies, RLs for the first question in the battery were significantly (or marginally so) longer for the AD item, providing some evidence that AD response formats imposed a more cognitively burdensome response task. Evaluated as a group, RLs were longer for the IS questions about trust, but not political efficacy.

연구자들은 또한 AD 항목에 대해서는 응답 범주가 동일하지만 IS 항목에 대해서는 다양한 독립형 항목으로 제시된 질문에 대한 응답 시간(RT; 읽기 및 답변에 소요된 총 시간)을 조사했다. 조사결과는 카테고리의 수나 순서, PC나 스마트폰에서 질문에 대한 답변 여부와 관계없이 IS 질문의 경우 RT가 더 긴 것으로 나타났다. 대조적으로, AD 및 IS 질문 모두에 대해 응답 범주가 일정하게 유지된 그리드에서 제시된 AD 및 IS 질문에 대한 RT의 차이는 없었다.23 RT에 대한 연구를 종합하면, IS 범주의 changing nature는 응답자들이 지출하는 인지 노력의 양을 증가시킬 수 있다는 것을 보여준다.
Researchers have also examined response times (RTs; total time spent reading and answering) for questions presented as stand-alone items in which response categories were the same for AD items but varied for IS items.21, 22, 23 Findings indicated RTs were longer for IS questions, regardless of the number or ordering of categories or whether the questions were answered on PCs or smartphones. By contrast, there were no differences in RTs for AD and IS questions presented in grids in which the response categories were held constant for both the AD and IS questions.23 Taken together, studies of RTs indicate the changing nature of IS categories may increase the amount of cognitive effort respondents expend. 

다른 방법론은 [그룹화된 IS 질문]의 [다양한 응답 범주]가 [더 많은 인지 노력을 필요]로 하는 반면, [그룹화된 AD 질문]의 [반복적인 질문 패턴]은 [더 피상적인 처리]를 장려한다는 증거를 제공한다. 인터뷰어가 관리하는 연구에서, 연구자들은 IS 응답 범주가 참가자들이 기억하기 어려웠기 때문에 IS 질문이 응답 난이도의 더 높은 수준의 행동 지표와 연관되어 있다고 보고했다. 질문(쇼카드 없이 11개 질문)과 항목의 음성 프레젠테이션. 연구자들은 눈 추적 기술을 사용하여 AD 항목의 경우 동일하지만 IS 질문의 경우 다양한 질문 줄기 대 응답 범주에 대해 응답자의 눈 움직임을 별도로 기록함으로써 인지 노력을 조사했다. 조사 결과는 질문 줄기에 대한 눈의 움직임에 차이가 없는 것으로 나타났지만, 응답자들은 IS 응답 범주를 더 집중적으로 처리하였으며, 더 많은 시간 동안 더 많이 보았다.

Other methodologies also provide evidence that the varying response categories of grouped IS questions require more cognitive effort while the repeated questioning pattern of grouped AD questions encourage more superficial processing. In an interviewer-administered study, researchers4 reported that IS questions were associated with higher levels of behavioral indicators of response difficulty (e.g., higher levels of uncodable answers and answers with qualifications) because the IS response categories were harder for participants to remember, an issue exacerbated by the number of questions (11 questions were asked without show cards) and aural presentation of items. Using eye-tracking technology, researchers28,34 examined cognitive effort by recording respondents’ eye movements separately for question stems versus response categories, which were the same for the AD items, but varied for the IS questions. While findings indicated no differences in eye movements for the question stems, respondents processed IS response categories more intensively, viewing them more and for longer times.

응답자의 AD 및 IS 질문에 대한 인지 노력을 조사한 연구 결과는 IS 질문에 대한 노력을 증가시키는 요인을 이해하기 위해 더 많은 연구가 필요하며, 가장 중요한 것은 그 노력이 데이터 품질과 관련이 있는지 여부이다. 응답 시간만으로는 해석하기 어려울 수 있습니다: "[응답이 지연delay된다는 것]은 질문을 처리하기 어렵거나(일반적으로 나쁜 신호), 질문이 사려 깊은 응답을 장려한다는 것을 의미할 수 있습니다(일반적으로 좋은 신호)(p. 297)." 더 긴 시간은 덜 정확한 답과 관련이 있지만, 자기 관리 기구를 사용한 실험 연구는 [시간과 정확도 사이의 관계]가 [더 길거나 더 짧은 시간일 때 덜 정확]한 곡선관계 일 수 있음을 시사했다.  


Results from studies examining respondents’ cognitive effort answering AD and IS questions suggest more research is needed to understand factors that lead to increased effort for IS questions and most importantly, whether that effort is associated with data quality. Response times alone can be difficult to interpret: “delays in responding could mean that a question is difficult to process (usually a bad sign) or that the question encourages thoughtful responding (typically a good sign) (p. 297).”7 While longer times have been associated with less accurate answers,35 an experimental study with a self-administered instrument suggested the relationship between time and accuracy may be curvilinear with longer and shorter times being less accurate.36

AD 및 IS 질문 간에 다른 질문 특성 개요
Overview of question characteristics that differ between AD and IS questions

실험에서 평가되는 AD-IS 질문 쌍은 종종 인지 처리 및 데이터 품질에 영향을 미칠 수 있는 여러 질문 특성에 따라 다르다. 예를 들어, 제공된 응답 차원(AD 질문에 대한 강도 및 IS 질문에 대한 빈도)과 응답 범주의 방향([높은 것부터 낮은 것]까지 일치 대 [낮은 것부터 높은 것]까지)은 다음 AD-IS 쌍에 따라 다릅니다: 

  • "의사들은 환자들로부터 모든 진실을 숨기는 경우가 거의 없다: 강하게 동의하고 강하게 반대한다." 그리고
  • "의사들은 환자들로부터 모든 진실을 지킨다: 절대로… 항상."  

In experiments, the AD-IS question pairs being evaluated often vary on multiple question characteristics that can affect cognitive processing and data quality. For example, both the offered response dimension (intensity for the AD question and frequency for the IS question) and direction of the response categories (high to low agreement versus low to high frequency) vary for following AD-IS pair:

  • “Doctors rarely keep the whole truth from their patients: agree strongly … disagree strongly” and
  • “Doctors keep the whole truth from their patients: never … always.”8 

응답 차원과 같은 일부 특성은 실험적으로 제어되지 않는 방식으로 AD와 IS 질문을 비교하는 연구에서 종종 공변화되어 특성의 고유하거나 조절하는 효과를 분리하는 것이 불가능하다. 반응 범주에 대한 언어 레이블의 수와 사용과 같은 다른 특성은 일반적으로 AD-IS 실험 내에서 일정하게 유지되지만, 이러한 특성은 연구에 따라 달라 결과를 일반화하는 작업을 복잡하게 만든다. AD-IS 실험에 포함된 질문을 컴파일하고 AD-IS 질문 쌍 간에 다른 주요 특성을 식별하기 위해 특징을 체계적으로 코딩했다(표 2에 요약). 우리는 이러한 특성이 AD-IS 실험 내에서 그리고 AD-IS 실험 전반에 걸쳐 어떻게 변화하는지 설명하고, 선택된 특성의 경우 데이터 품질과 관련된 결과를 간략하게 요약한다. 
Some characteristics, such as response dimensions, often co-vary in studies comparing AD and IS questions in ways that are not controlled experimentally, making it impossible to isolate unique or moderating effects of the characteristics. Other characteristics, such as the number and use of verbal labels for response categories, are usually held constant within an AD-IS experiment; but these features vary across studies, complicating the task of generalizing findings. We compiled questions included in AD-IS experiments and systematically coded their features to identify key characteristics that differ between AD-IS question pairs (summarized in Table 2). We describe how these characteristics vary within and across AD-IS experiments, and for select characteristics, we briefly summarize findings regarding data quality.9,25

 

질문 방식
Manner of questioning

평가할 내용이 포함된 문장이 [문장]이나 [질문]으로 구성되어 있는지 여부를 묻는 방식은 AD와 IS 항목을 구별하는 것의 본질에 기본적이며 AD-IS 비교에 따라 항상 다르다. 연구자들은 AD 항목의 간접 질문 구조를 회피하는 이유로 꼽고 있으며, 6과 실험 연구의 결과는 이러한 권고를 뒷받침한다. 시선 추적 연구의 피험자들은 AD 및 IS 질문 줄기를 처리하는 동등한 인지 노력을 발휘하는 것으로 나타났지만, 실험실 환경의 피험자들은 질문에 대한 주장으로 작성되었을 때 항목의 내용을 덜 깊이 처리했다. 
Questioning manner – whether the sentence with the content to be evaluated is structured as a statement or question -- is fundamental to the nature of what distinguishes AD and IS items and always differs across AD-IS comparisons. Researchers cite the indirect question structure of AD items as a reason to avoid them,6 and findings from experimental studies support these recommendations. While subjects in eye-tracking studies appeared to exert equivalent cognitive effort processing AD and IS question stems,28,34 subjects in a laboratory setting processed the content of items less deeply when they were written as assertions versus interrogatives.37

묵인
Acquiescence

연구에 따르면 제안된 응답 차원의 합의는 특히 낮은 수준의 교육을 받은 응답자들 사이에서 AD 질문이 묵인에 더 취약할 수 있는 반면, IS 응답 차원은 이를 훨씬 덜 우려하게 한다. AD 질문에 대한 묵인은 아마도 공손함, 존경심 또는 대화 관행 때문에 [반대할 이유가 없는 한 "동의"할 수 있는 사전 성향]을 가지고 있기 때문에 발생할 수 있다. AD 진술이 복잡하거나 반복적이거나 응답자에게 두드러지지 않는 항목의 대규모 그룹의 일부인 경우 그러한 경향은 악화될 수 있다. 또한, 응답 차원의 "동의" 또는 긍정적인 보기가 [일반적으로 먼저 제공]되며, 더 많은 처리를 받거나 더 호의적으로 인식될 수 있으므로 선택될 가능성이 더 높다.
Research indicates the offered response dimension of agreement may cause AD questions to be more vulnerable to acquiescence, particularly among respondents with lower levels of education,18,38,39 whereas IS response dimensions make this much less of a concern. Acquiescence for AD questions could arise because listeners have a pre-disposition to “agree” unless they have a reason to disagree, perhaps due to politeness, deference, or because of conversational practices.18,40 Such tendencies might be exacerbated if AD statements are complex or part of a large group of items that are repetitious or not salient to the respondent. In addition, the “agree” or positive end of the response dimension is usually offered first,18 and may receive more processing or be perceived more favorably, and thus more likely to be selected.31

임계값 단어
Threshold words

일반적으로 [임의적인 임계값 단어의 선택]은 내부 값을 AD 응답 범주에 매핑하려는 응답자의 노력을 복잡하게 만들 수 있으며, 궁극적으로 [단조로운 동등성의 원칙]을 위반하는 답변으로 이어질 수 있다. 문항이 [단조로운 동등성]을 갖는다는 것은 [측정되는 구조의 [기본 척도]에서 [답변에 대한 값]을 증가(또는 감소)하는 것과 상관관계가 있는 경우]이다.

Threshold words, the selection of which is typically arbitrary,8 may complicate respondents' efforts to map internal values onto AD response categories, and ultimately lead to answers that violate the principle of monotonic equivalence.7 An item possesses monotonic equivalence when increasing (or decreasing) values for the answers correlate with increasing (or decreasing) values on the underlying scale of the construct being measured.

예를 들어, 환자의 약물 비부착 non-adherence사유를 측정하기 위해 설계된 "비부착성non-adherence은 대부분 사람들의 부주의로 인한 것"이라는 문구를 고려한다. 진술이 암시하는 근본적인 반응 차원은 [부주의로 인한 비고착성이 얼마나 큰가]하는 것이다.

  • 한 응답자는 불응성이 부주의로 인해 "전혀" 발생하지 않는다고 생각하기 때문에 "반대"라고 대답할 수 있고,
  • 다른 응답자는 불응성이 부주의로 인해 "매우" 발생한다고 느끼기 때문에 "반대"라고 대답할 수 있습니

For example, consider the statement “non-adherence is mostly due to people being careless,” designed to measure patients' reasons for medication non-adherence.41 The underlying response dimension implied by the statement is how much non-adherence is due to carelessness.

  • However, one respondent could answer “disagree” because they believe non-adherence is “not at all” due to carelessness
  • while another could “disagree” because they feel non-adherence is due to carelessness “a great deal.”

두 응답자 모두 "동의하지 않음"의 값을 보고하지만, 첫 번째 응답자의 "전혀 그렇지 않음"의 내부 값은 "매우 그러함"보다 근본적인 반응 차원에서 훨씬 더 낮다. 이 항목의 [IS 버전]이 질문을 하는 직접적인 방법을 제공하며 응답자들이 응답 연속체에서 자신을 정확하게 주문하도록 보다 쉽게 보장한다:

  • "사람들의 부주의로 인한 비고착성은 어느 정도인가요? 전혀, 조금, 다소, 꽤 많은 것인가요?"

While both respondents report a value of “disagree,” the first respondent's internal value of “not at all” is clearly much lower on the underlying response dimension than “a great deal.” An IS version of this item provides a direct method of asking this question and more readily ensures that respondents order themselves accurately on the response continuum:

  • “How much is non-adherence due to people being careless: not at all, a little, somewhat, quite a bit, or a great deal?”

측정에는 [단조로운 동등성]이 필요하기 때문에, [AD 질문에 대한 반응]이 [반응 연속체의 양쪽 끝에 있는 임계값을 포함하는 경우]에만 해석할 수 있다고 주장하는 사람도 있습니다. 빈도와 같은 일부 응답 차원의 경우 극단값은 명백할 수 있다(예: "절대" 또는 "항상"). "얼마나how much"를 사용하는 양과 같은 다른 반응 차원의 경우 극단적인 양의 값이 무엇인지는 절대적으로 명확하지 않습니다. "great deal"은 "얼마나" 척도에서 가장 높은 긍정적 가치인가요? 또한, 문헌은 임계값을 전혀 포함하지 않는 AD 질문을 사용하는 도구의 예로 가득 차 있어 응답자들이 자신의 해석을 중첩할 수 있다.
Because measurement requires monotonic equivalence, some argue that responses to AD questions are only interpretable if they include threshold values at either end of the response continuum.42 For some response dimensions, such as frequency, extreme values may be obvious (e.g., “never” or “always”). For other response dimensions, such as quantity using “how much,” it is not absolutely clear what the extreme positive value should be. Is “a great deal” the highest positive value on a “how much” scale? Further, the literature is replete with examples of instruments using AD questions that fail to include a threshold value at all, allowing respondents to superimpose their own interpretations.

극성
Polarity

[AD 항목]은 거의 항상 쌍극이며, 반응 차원의 극 또는 끝을 모두 나타낸다(예: "강력히 동의한다…강력히 동의하지 않는다"). [IS 항목]은 양극성(예: "극도로 만족하지 않고 극도로 만족한다")일 수 있지만, [일반적으로 단극성](예: "전혀 만족하지 않고…극도로 만족하지 않는다" 또는 "전혀 만족하지 않고…극도로 만족하지 않는다")이다. 
AD items are almost always bipolar and present both poles or ends of the response dimension (e.g., “agree strongly … disagree strongly”). While IS items can be bipolar (e.g., “extremely dissatisfied … extremely satisfied”), they are usually unipolar, presenting only one possible pole (e.g., “not at all satisfied … extremely satisfied” or “not at all satisfied … extremely dissatisfied”).

AD 질문의 기본 응답 차원이 [수량] 또는 [빈도]일 때, 해당 IS 질문은 [항상 단극]입니다. 왜냐하면 [수량]에는 "없음" 또는 "전혀 없음"보다 작은 값이 포함되지 않으며, [빈도]에는 "없음"보다 낮은 값이 포함되지 않기 때문입니다. 오직 [강도 반응 차원]만이 양극성일 수 있고, 음의 극값(예: "중요하지 않음")이 양의 극값과 동일한지 여부가 불분명한 일부 차원(예: "중요하지 않음")이 있다.
Whenever the underlying response dimension for an AD question is quantity or frequency, the corresponding IS question will always be unipolar because quantities do not contain values less than “none” or “not at all” and frequencies do not possess values lower than “never.” Only intensity response dimensions can be bipolar and there are some dimensions (e.g., “important”) where it is unclear whether the negative polar-value (e.g., “unimportant”) is equivalent to the positive polar-value.

AD 문항이 다수 포함된 GSS(General Social Survey) 항목에 대한 측정 오차 분석에서, 단극 문항이 양극 문항보다 신뢰도가 높은 것으로 나타났다. 극성의 차이만으로도 한계 분포의 차이가 발생할 가능성이 높아 항목 간의 최대 상관관계가 제한됩니다. IS 항목은 일부에서 권장하는 대로 다양한 긍정 및 부정 응답 차원을 사용할 수 있는 가능성을 제공하며, 항목은 AD 항목보다 상관 관계가 있는 방법 분산이 낮을 수 있습니다. [양극성 AD 항목]과 비교하여, [단극성 IS 항목]은 또한 응답 차원의 특정 측면에서 [더 많은 차별화 점을 제공]하고 [척도 점수의 변동을 증가]시킬 수 있습니다. 
In an analysis of measurement error for items from the General Social Survey (GSS), which included a number of AD questions, results indicated unipolar questions were more reliable than bipolar questions.43 Differences in polarity alone are also likely to generate differences in the marginal distributions,44 which limit the maximum correlations among the items. IS items offer the possibility of using a variety of positive and negative response dimensions as recommended by some;45,46 and the items may have lower correlated method variance than AD items. Compared to bipolar AD items, unipolar IS items also offer more points of differentiation on a particular side of the response dimension and may increase variation for scale scores.12

반응 범주
Response categories

반응 범주는 숫자, 레이블링 및 방향에 따라 다릅니다. 연구 내 범주의 수와 레이블링은 AD-IS 쌍 간에 거의 항상 일정하게 유지되지만, 이러한 특성은 연구에 따라 상당히 다르다. 대조적으로, 범주의 값이 증가하든 감소하든 범주의 방향은 때때로 동일한 연구에서 AD-IS 쌍에 따라 달라집니다. AD-IS 실험에서 [AD 질문]에 대한 범주는 더 자주 [가치value가 감소]하는 반면(예: "동의 … 동의하지 않음"), [IS 질문]에 대한 범주는 더 자주 [증가]한다(예: "절대 … 항상"). 일부 연구에 따르면 AD 및 IS 항목의 데이터 품질은 다섯 가지 범주를 사용하여 최적화되고 단어로 완전히 레이블이 지정되며 순서가 증가할 수 있습니다. 다른 연구에서, 응답자들은 ["강력히 동의하지 않는다"와 "동의하지 않는다"를 구별하는 데 어려움]을 겪었다 "강력하게"는 잠재적으로 응답자의 [평가의 극단성]과 [확실성]을 혼동하기 때문에 수식어로서 문제가 될 수 있다.  
Response categories differ in terms of their number, labeling, and direction. While the number and labeling of categories within a study is almost always held constant between AD-IS pairs, these characteristics vary considerably across studies. By contrast, category direction – whether the categories increase or decrease in value – sometimes varies across AD-IS pairs in the same study. In AD-IS experiments, categories for AD questions more often decrease in value (e.g., “agree … disagree”), while categories for IS questions more often increase (e.g., “never … always”). Some research indicates data quality for both AD and IS items may be optimized using five categories, fully labeled with words, and presented in increasing order.9,22,47 In other research, respondents had difficulty distinguishing between “strongly disagree” and “disagree.”17 “Strongly” may be problematic as a modifier because it potentially conflates the extremity of a respondent's evaluation with their certainty.48

중간 범주
Middle category

단극 IS 항목과 대조적으로, [AD 질문]은 종종 명확한 개념적 중간 범주(예: "동의하지도 동의하지도 않는다")를 포함한다. 양극성 질문에 대한 중간 범주를 포함하기 위해 데이터 품질을 평가하는 실험은 엇갈린 결과를 얻었지만, 연구에 따르면 응답자들은 원하지 않는 방식으로 AD 질문에 대답할 때 중간 범주를 사용한다. 예를 들어, 조사했을 때, 응답자들은 그 문제에 대한 [의견이 없기 때문에 중간 범주를 선택]하는 것을 압도적으로 보고했다. 연구에 따르면 응답자들은 [불확실성]을 나타내거나, [지식의 부족]을 다루거나 [양면성을 표현]하기 위해 AD의 중간 "동의하지도 동의하지도 않는다" 범주를 사용할 수 있다. 측정의 관점에서, 응답자들이 중간 범주를 사용하는 것은 문제가 있다: 응답자들은 이 옵션을 신뢰성 있게 선택할 수 있지만, 그들의 응답은 평가되는 구조에 대한 유효한 척도가 아니다. 연구자들은 [AD 중간 범주의 해석]에 문제가 있음을 지적했으며, 종종 이 범주를 중간 값이 아닌 별도로 사용하여 반응을 분석할 것을 제안합니다.
In contrast to unipolar IS items, AD questions often include a clear conceptual middle category (e.g., “neither agree nor disagree”). While experiments evaluating data quality for the inclusion of middle categories for bipolar questions have had mixed results,7,49, 50, 51 studies indicate respondents use the middle category when answering AD questions in unwanted ways. For example, when probed, respondents overwhelmingly reported selecting the middle category because they did not have an opinion on the issue.52,53 Research indicates respondents may use the AD's middle “neither agree nor disagree” category to indicate uncertainty or deal with a lack of knowledge and express ambivalence.4,54,55 From a measurement perspective, respondents use of the “neither/nor” middle category is problematic: while respondents may reliably select this option, their response is not a valid measure of the construct being assessed. Researchers have noted problems with the interpretation of an AD middle category and often suggest analyzing responses using this category separately and not as a middle value.5

배터리
Battery

인지 처리에 관한 섹션에서 설명한 바와 같이, AD 질문이 배터리에 나타날 때 반복적인 응답 범주가 있는 가변 진술로서 그들의 프레젠테이션은 응답자들이 [질문 패턴과 응답 범주를 기억]할 수 있다. 대조적으로, 여러 IS 질문이 함께 그룹화될 때, 그들은 (종종 있지만 항상 그렇지는 않다) 서로 다른 응답 차원과 응답 범주를 사용한다. 배터리 배치, 배터리에 포함된 질문의 수, IS 질문에 대한 질문에 대한 응답 범주가 다양한 정도는 응답자의 인지 노력에 영향을 미치고, 데이터 품질에 영향을 미칠 가능성이 있다. 면접관이 시행하는 설문도구에서 배터리의 항목은 낮은 신뢰성과 관련이 있다. 자기기입식 도구에서 여러 질문이 그리드에 표시될 때, 더 빨리 대답하고 직선에 더 취약하며 더 높은 상관관계를 가질 수 있다. 그리드 표시에서 [상관 관계가 높을수록 공유 오류 분산으로 인한 측정 오류가 더 높다]는 신호를 보낼 수 있습니다.

As described in the section on cognitive processing, when AD questions appear in batteries their presentation as variable statements with repeated response categories allows respondents to memorize the questioning pattern and response categories.32 By contrast, when multiple IS questions are grouped together, they (often, but not always) use different response dimensions and response categories. Placement in a battery, the number of questions contained in the battery, and the extent to which the response categories vary across questions for IS questions are likely to impact respondents’ cognitive effort and affect data quality. In interviewer-administered instruments, items in batteries are associated with lower reliability.56 When multiple questions are presented in a grid in self-administered instruments, they may be answered more quickly, more vulnerable to straightlining,19 and more highly correlated.57 Higher correlations in a grid presentation may signal higher measurement error due to shared error variance.9

발란스 및 정렬
Valence and alignment

구조를 유효하고 안정적으로 측정하기 위해 연구자들은 응답자들의 답변을 결합하여 단일 값을 만드는 [다중 항목 척도]를 사용한다. [구조물의 원자가, 질문에서 평가할 대상의 원자가, 구조물과 질문 사이의 정렬 사이의 관계]는 측정 오류에 대한 암시와 함께 복잡한 관계를 발생시킨다.
In order to measure constructs validly and reliably, researchers use multi-item scales that combine respondents' answers to create a single value.58 Relationships among a construct's valence, the valence of the objects to be evaluated in the questions, and the alignment between the construct and questions gives rise to a complicated set of relationships with implications for measurement error.

[원자가]는 본질적으로 [긍정적, 부정적, 중립적] 또는 [모호한 구조와 질문에서 질문한 대상]을 의미한다. 예를 들어, [신뢰]와 같은 구성 요소는 본질적으로 더 긍정적으로 평가되는 반면, [인종적 분노]와 같은 구성 요소는 더 부정적으로 평가됩니다. 원자가는 척도 내에서 질문에 따라 다르다. [정치적 유효성]을 측정하는 척도의 경우, 공무원들이 사람들이 생각하는 것에 대해 [얼마나 신경을 쓰는지] 묻는 질문은 긍정적으로 평가되고, [정치와 정부가 얼마나 복잡해 보이는지]에 대한 질문은 부정적으로 평가된다. 
Valence refers to the inherently positive, negative, neutral, or ambiguous nature of the construct and the objects asked about in the questions. For example, a construct like trust is inherently more positively valenced, while a construct like racial resentment is more negatively valenced. Valence also varies across questions within a scale. For a scale measuring political efficacy,2 a question asking “(how much) public officials care about what people think” is positively valenced, while a question about “(how often) politics and governments seem so complicated people can't really tell what's going on” is negatively valenced.

[정렬]은 반응 범주가 구조의 더 낮은 값을 나타내는지 또는 더 높은 값을 나타내는지 여부를 나타냅니다. [포지티브 정렬] 항목은 [더 높은 값의 범주(예: AD 질문에 대해 "강력하게 동의"하고 IS 질문에 대해 "대단히 동의")가 측정되는 구조의 더 높은 수준]을 나타내는 항목이며, [네거티브 정렬] 항목은 [더 높은 값의 범주가 더 낮은 수준]을 나타내는 항목이다. 예를 들어, 가장 값이 높은 범주("강력하게 동의한다"와 "대단히 동의한다")가 가장 높은 수준의 정치적 효과를 나타내기 때문에 [사람들이 무엇을 생각하는지에 대한 공무원들의 관심에 대한 질문]은 긍정적으로 일치한다. 대조적으로, 가장 높은 값의 범주는 가장 낮은 수준의 정치적 효능을 나타내기 때문에 [정치와 정부에 대한 질문]은 부정적으로 일치할 것이다.
Alignment refers to whether lower- or higher-valued response categories indicate lower or higher values of the construct. Positively aligned items are those for which a higher-valued category (e.g., “strongly agree” for an AD question and “a great deal” for an IS question) indicate higher levels of the construct being measured and negatively aligned items are those for which a higher-valued category indicates lower levels of the construct. For example, the question about public officials caring what people think would be positively aligned because the highest-valued categories (“strongly agree” and “a great deal”) indicate the highest level of political efficacy. By contrast, the question about politics and governments would be negatively aligned because the highest-valued categories indicate the lowest level of political efficacy.

AD 질문의 경우 질문의 값은 [묵인]으로 인해 원하지 않는 응답 효과를 초래할 수 있습니다. [긍정적으로 평가된 구조와 질문]의 경우, 묵인은 반응과 구조를 실제보다 더 긍정적으로 보이게 할 수 있다; [긍정적으로 평가된 구조와 부정적으로 단어가 쓰인 질문]에 대해, 묵인은 반응과 구조를 더 부정적으로 보이게 만들 수 있다. [우울증]과 같이 [부정적으로 평가된 구조]의 경우, 구조에 대한 더 높은 값을 나타내기 위해 정렬된 항목(예: "나는 슬프고 우울했다")에 동의하는 경향은 구조에 대한 과대평가를 초래할 수 있다. 항목의 점수를 매기는 방법에 따라, 묵인은 다음을 유발할 수 있다: 평균 점수 추정치 부풀리기, 신뢰도 추정치의 인위적 인플레이션/디플레이션(특히 같은 방향으로 단어가 표시된 항목의 경우), 그리고 AD 측정과 기준 측정 사이에 [자극적으로 높은 상관관계]를 만든다. 
For AD questions, a question's valence can lead to undesired response effects due to acquiescence.

  • For positively valenced constructs and questions, acquiescence can make responses and constructs appear more positive than they are in reality;
  • for positively valenced constructs and negatively worded questions, acquiescence can make responses and constructs appear more negative.

For more negatively valenced constructs like depression, a tendency to agree with items that are aligned to indicate higher values for the construct (e.g., “I have felt sad and blue”), can lead to overestimates of the construct. Depending on how items are scored, acquiescence can inflate estimates of mean scores, artificially inflate or deflate reliability estimates (particularly for items worded in the same direction), and create spuriously high correlations between AD measures and criterion measures.59, 60, 61

[묵인(그리고 부주의)으로 인한 효과]를 줄이기 위해 연구자들은 종종 [긍정적으로 정렬된 항목]과 [부정적으로 정렬된 항목]("항목 반전" 및 역어 질문이라고도 함)을 모두 포함하는 척도를 만들 것을 권장한다. 이 접근법의 이면에 있는 논리는 묵인하는 사람들을 반응 분포의 중간에 배치함으로써 척도 평균의 편향을 줄일 것이라는 것이다. 그러나 연구에 따르면 이 접근법에는 몇 가지 문제가 있다. 

  • 첫째, 모든 응답자에게 동일한 의미를 전달하는 부정적인 단어의 질문을 작성하는 것은 어려울 수 있다 (예: "흥미롭다"의 반대를 측정하기 위해 연구자는 "흥미없다", "흥미없다", "흥미없다" 또는 "흥미없다"를 사용할 수 있지만, 이들이 응답자들 사이에서 동일한 의미를 가질 가능성은 낮다. 그리고 반대로 단어가 쓰인 항목을 포함하는 것은 응답자가 해당 항목에 대해 반대로 쓰지 않은 경우만큼 극단적으로 대답하는 경우에만 편향을 줄일 것이다.). 
  • 둘째, "아니다", "un-", "non-", "-less"와 같은 부정의 사용은 이해성과 데이터 품질을 저하시킬 수 있다. 이것은 진술서에 부정을 포함하는 것(예: "내 성별은 다른 사람들이 나를 대하는 방식에 영향을 미치지 않는다")이 진술서의 내용을 거부하기 위해 [이중 부정]을 처리해야 하는 AD 항목에서 특히 문제가 될 수 있다. 
  • 셋째, 척도의 균형을 맞추려는 시도는 척도의 타당성과 내부 일관성을 낮추고, 부정적으로 정렬된 항목에 대해 예기치 않은 요인 구조를 만들어 [방법 효과method effect]를 추가하는 등 방법론적 문제를 야기할 수 있다.

In order to reduce effects due to acquiescence (and inattention), researchers often recommend creating scales that include both (and often an equal number of) positively and negatively aligned items62, 63, 64 (also called “item reversals”64 and reverse-worded questions65). The logic behind this approach is that it will reduce bias in scale means by placing those who acquiesce in the middle of the response distribution. However, research indicates several problems with this approach.

  • First, writing negatively worded questions that convey the same meaning across all respondents can be difficult (e.g., to measure the opposite of “interesting,” a researcher could use “not interesting,” “uninteresting,” or “boring,” but it is unlikely these have the same meaning across respondents and including oppositely worded items will only reduce bias if respondents answer those items as extremely as they would their counterparts66).
  • Second, the use of negations like “not,” “un-,” “non-,” and “-less” may decrease comprehensibility and data quality.67,68 This may be particularly problematic for AD items where the inclusion of a negation in the statement (e.g., “My gender does not affect the way others treat me”) requires processing a double negative in order to reject the statement's contents (e.g., by selecting “disagree”).69,70 
  • Third, attempts at balancing scales may create methodological problems including lowering the validity and internal consistency of the measures and adding a method effect by creating an unexpected factor structure for the negatively-aligned items.71727374

의견, 권장 사항 및 향후 방향에 대한 마무리
Concluding comments, recommendations, and future directions

AD 질문과 IS 질문을 비교한 실험 연구의 한계
Limitations of experimental studies comparing AD and IS questions

전반적으로 IS 질문은 바람직한 데이터 품질 결과(유효성, 신뢰성)와 관련이 있으며 AD 질문은 바람직하지 않은 결과(인수, 대응 효과 등)와 관련이 있다는 연구 결과가 더 많다. 그러나 많은 연구에서 질문 유형 간의 차이를 발견하지 못했으며, 일부 연구에서는 IS 질문에 대해 더 높은 수준의 바람직하지 않은 결과를 발견했다. 이러한 비교 연구의 몇 가지 한계는 일관성이 없거나 무효인 결과를 설명할 수 있다.

  • 첫째, AD와 IS 문제를 비교하는 실험 연구의 수가 상대적으로 적다. 우리의 리뷰는 20개의 연구를 확인했다. 
  • 둘째, 질문 특성에 대한 논의에서 강조된 바와 같이 AD-IS 질문 쌍은 대개 제어되지 않는 여러 특성에 걸쳐 종종 달라지며, 이는 결과를 혼란스럽게 할 수 있다. 
  • 셋째, 연구는 제한된 수의 주제를 탐구하며 AD 및 IS 질문의 효과는 주제별로 다를 수 있다.

Overall, more studies find IS questions are associated with desirable data quality outcomes (validity, reliability) and AD questions are associated with undesirable outcomes (acquiescence, response effects, etc.). A number of studies, however, find no differences between the question types, and a few studies find higher levels of undesirable outcomes for IS questions. Several limitations of these comparative studies may account for inconsistent or null findings.

  • First, the number of experimental studies comparing AD and IS questions is relatively small. Our review identified twenty studies.
  • Second, highlighted in our discussion of question characteristics, AD-IS question pairs often vary across a number of characteristics that are usually not controlled for, which may confound the results.
  • Third, studies explore a limited number of topics and the effects of AD and IS questions may vary by topic.

넷째, 연구는 타당성, 신뢰성, 묵인, 직선화 등 다양한 데이터 품질 결과를 조사한다. 이러한 결과는 강도와 조작화 측면에서 다양합니다. 타당도와 신뢰도의 추정치는 잠재적으로 데이터 품질에 대한 보다 직접적인 측정치를 제공하지만, 연구는 품질에 따라 달라지는 [신뢰도와 타당도의 다양한 측정치]를 평가한다. 예를 들어, [Cronbach 알파]와 같은 척도의 항목 신뢰도 추정치에는 상관된 오차 분산이 포함되어 있으며 개별 항목에 대한 값을 제공하지 않습니다. 일반적으로 사용되는 짧은 간격 동안 추정된 [시험 재시험 신뢰도]은 강력한 기준을 제공하기 위해 [기억 효과] 또는 [신뢰할 수 있는 방법 효과]에 의해 지나치게 손상될 수 있다. 묵인, 응답 범주의 반복 및 배터리의 항목 표시의 조합은 AD 항목 집합 간의 상관 방법 분산을 증가시킬 수 있으며, 이는 [단순한 상관 관계가 근본적으로 데이터 품질의 모호한 지표임]을 상기시킨다. [방법분산method variance]은 AD와 IS 항목의 상대적 품질을 평가하는 데 중심이 되므로, 방법분산을 파악할 수 있는 신뢰성 추정 및 구성타당성을 위한 방법이 필요하다.  
Fourth, studies examine many different data quality outcomes: validity, reliability, acquiescence, straightlining, etc. These outcomes vary in terms of their strength and operationalizations. While estimates of validity and reliability potentially offer more direct measures of data quality, studies evaluate different measures of reliability and validity that vary in their quality. For example, estimates of reliability of items in a scale, such as from Cronbach's alpha, include correlated error variance and do not provide values for individual items. Estimated test-retest reliabilities, over the short intervals that are commonly used, may be too compromised by memory or reliable method effects to provide a strong criterion.56 It is plausible that a combination of acquiescence, the repetition of the response categories, and the presentation of items in a battery increases correlated method variance among a set of AD items, a reminder that simple correlations are fundamentally an ambiguous indicator of data quality. Because method variance is central to evaluating the relative quality of AD and IS items, methods for estimating reliability and construct validity that can identify method variance are needed.14

질문 특성에 대한 개요를 통해 알 수 있는 내용
What the overview of question characteristics tells us

AD-IS 실험에 포함된 AD-IS 질문 간에 달라지는 핵심 질문 특성에 대한 분석은 이러한 실험에서 비교되는 질문이 종종 여러 특성에 따라 달라져 결론을 도출하는 능력을 복잡하게 만든다는 사실을 강조한다. 한 연구에서 연구자들은 신뢰도를 측정하는 AD-IS 쌍이 다음에 따라 차이가 있다고 지적했습니다:

  • 제공된 응답 차원 (IS 질문에 대한 응답 치수가 설계 및 측정된 강도, 빈도 및 양에 따라 문항특이적인 반면, AD 질문은 강도를 측정했다.); 
  • 응답 범주의 방향성 (AD 대응 범주는 높은 순서에서 낮은 순서로 정렬 – "강력히 동의"에서 "강력히 반대"로 정렬 – IS 범주는 "전혀"에서 "매우"로, "절대"에서 "항상"으로 정렬됨); 
  • 극성 (AD 질문은 양극성, IS 질문은 단극성). 

Our analysis of the key question characteristics that vary between AD-IS questions included in AD-IS experiments highlights the fact that in these experiments, the questions being compared often vary on a number of characteristics, complicating our ability to draw conclusions. In one study,4 researchers noted their AD-IS pairs measuring trust varied based on:

  • offered response dimensions (the AD questions measured intensity while the response dimensions for the IS questions were item-specific by design and measured intensity, frequency, and quantity);
  • the direction of the response categories (the AD response categories were ordered from high to low – “strongly agree” to “strongly disagree” – while the IS categories were ordered from low to high – “not at all” to “a great deal,” “never” to “always”);
  • polarity (the AD questions were bipolar; the IS questions were unipolar).

이 두 응답 형식 사이의 구조적 차이는 응답자의 인지 처리와 데이터 품질에 중요한 결과를 초래한다. 현재까지 이러한 특성의 모든 고유 효과 또는 결합 효과를 추정할 수 있는 설계를 특징으로 하는 연구는 없습니다. 실제로, 응답 범주의 수 또는 척도 방향과 같이 데이터 품질에 중요할 가능성이 있는 다른 특성에서 체계적인 변화가 있는 AD-IS 응답 형식의 사용을 건너는 실험은 소수에 불과하다. 이러한 연구의 결과는 궁극적으로 AD-IS 응답 형식과 다른 질문 특성 사이의 체계적인 상호 작용을 밝혀낼 수 있다.
The structural differences between these two response formats have important consequences for respondents’ cognitive processing and data quality. To date, no studies feature a design that allows for estimation of all the unique or joint effects of these characteristics. Indeed, only a handful of experiments cross the use of an AD-IS response format with systematic variation in other characteristics that are likely to be important for data quality, such as the number of response categories or scale direction. Findings from such studies may ultimately uncover systematic interactions between AD-IS response formats and other question characteristics.

AD 질문을 IS 질문으로 변환할 때의 과제
Challenges of translating AD questions to IS questions

새로운 연구를 위한 주관적 평가를 측정하기 위한 질문을 작성할 때, 여기에 제시된 문제는 IS 질문을 사용하는 것을 권장합니다. 그러나 많은 연구는 이전에 관리된 설문지의 항목을 사용하는 것을 목표로 하며 AD 형식에서 IS 형식으로 번역하는 것은 여러 가지 과제를 제기할 수 있다. AD 문은 상대적으로 작성하기 쉽기 때문에 동시에 평가해야 할 여러 요소(예: 여러 대상 객체 및 조건문)를 포함하는 경우가 많습니다. GSS의 다음 AD 질문을 고려해 보십시오:

"과거의 차별 때문에, 고용주들은 자격 있는 여성들을 고용하고 홍보하기 위해 특별한 노력을 해야 합니다." 

이 질문은 몇 가지 사항에 대해 묻는다:

  • 차별의 원인(예: 성별)과 대리인(예: 고용주)에 대한 믿음,
  • 과거의 차별에 대한 보상을 해야 하는 고용주의 책임,
  • 자격을 갖춘 여성을 고용하고 승진시키는 것이 과거의 행동을 바로잡는지 여부.

When writing questions to measure subjective evaluations for a new study, the issues presented here recommend using IS questions. Many studies, however, aim to use items from previously administered questionnaires and translating from an AD to IS format can pose a number of challenges. Because AD statements are relatively easy to write, they often include several elements – such as multiple target objects and conditional statements -- to be evaluated simultaneously.42 Consider, the following AD question from the GSS:

“Because of past discrimination, employers should make special efforts to hire and promote qualified women.”

This question asks about several things:

  • beliefs about the causes (e.g., gender) and agents of discrimination (e.g., employers),
  • the responsibility of employers to make amends for past discrimination, and
  • whether hiring and promoting qualified women rectifies past behavior.

이 진술에 대한 [동의 또는 동의하지 않는 것]은 이러한 [구성요소 또는 이들의 조합에 대한 믿음]에 기초할 수 있다. 이 질문을 IS 형식으로 변환하면 기본 응답 차원에 대해 내려야 하는 항목과 결정의 복잡성이 강조됩니다: 강도(얼마나 특별한 노력이 필요한가), 양(얼마나 많은 노력이 필요한가), 빈도(얼마나 자주 노력이 필요한가)에 대한 질문인가?
Agreement or disagreement with this statement could be based on beliefs about any of these components or combinations of them. Translating this question into an IS format underscores the complexity of the item and decisions that must be made about the underlying response dimension: is the question asking about intensity (how special efforts should be), quantity (how much effort should be made), or frequency (how often efforts should be made)?

데이터 품질 저하의 원인이 될 수 있는 AD 질문과 관련된 문제는 기본 응답 차원이 모호하거나 여러 해석에 열려 있는 방식으로 작성되는 경우가 많다는 것이다. GSS에서 추출하여 정치적 효과를 측정하도록 설계된 척도에 포함된 표 3의 AD 질문을 고려해 보십시오. 임계값 단어 "most"가 수량 응답 차원을 의미하는 반면 AD 문은 강도, 수량 또는 빈도 차원을 사용하여 IS 질문으로 쉽게 번역될 수 있으며, 실제로 가능한 두 가지 수량 차원인 "얼마나"와 "얼마나 많은"가 가능합니다.
A related problem with AD questions that likely contributes to their lower data quality is that they are often written in way that leaves their underlying response dimension ambiguous or open to multiple interpretations.6 Consider the AD question in Table 3, taken from the GSS and included in a scale designed to measure political efficacy. While the threshold word “most” implies a quantity response dimension, the AD statement can easily be translated into IS questions using intensity, quantity, or frequency dimensions, and indeed, two possible quantity dimensions – “how much” and “how many” are possible.

AD 질문은 항목이 완전히 다른 주제에 대해 질문하는 경우에도 동일한 응답 범주를 사용하여 많은 항목을 배터리로 결합할 수 있기 때문에 널리 사용됩니다. 자체 관리를 위해 AD 질문을 그리드 형식으로 지정하여 공간을 최소화할 수 있습니다. 그러나 IS 질문은 질문의 기본 응답 차원과 일치하는 응답 범주를 사용하기 때문에 AD에서 IS로 항목 집합을 변환하면 문항이 동일한 기본 응답 차원을 공유하지 않는 경우가 많습니다. 예를 들어 표 4의 6개 AD 항목은 그리드에 압축된 동일한 응답 범주를 사용하는 반면, IS 대응 항목은 강도, 양 및 빈도에 대한 응답 차원을 사용하고 해당 차원과 관련된 응답 범주를 요구합니다. IS 항목을 결합하면 그리드가 약간 더 길어집니다. 시각적으로 긴 그리드는 응답자들에게 더 부담스러운 것으로 인식될 수 있지만, 더 명확하게 작성되고 이해하기 쉽기 때문에 IS 질문은 덜 부담스러울 가능성이 높다. AD 및 IS 질문에 답하면서 응답자의 인지적 노력을 측정하고 노력 척도를 데이터 품질과 직접 연결하는 연구가 더 필요하다. 
AD questions are widely used because many items can be combined into a battery using the same response categories, even if the items ask about completely different topics. For self-administration, AD questions can be formatted in a grid to minimize space. However, because IS questions use response categories that match the questions' underlying response dimensions, translating a set of items from AD to IS often reveals that the items do not share the same underlying response dimension. For example, while the six AD items in Table 4 use the same response categories, compactly formatted in the grid,11 their IS counterparts use response dimensions for intensity, quantity, and frequency and require response categories relevant for those dimensions. When combined, the IS items result in a slightly longer grid. While a visually longer grid may be perceived by respondents as more burdensome, because they are more clearly written and easier to understand, the IS questions are likely less burdensome. More research measuring respondents’ cognitive effort while answering AD and IS questions and directly linking effort measures to data quality is needed.

질문 작성자는 종종 [개정과 복제의 균형]을 맞춰야 한다. AD 질문의 광범위한 사용을 고려할 때, 연구자들은 시계열 데이터의 추세 손실을 포함하여 [이전에 시행된 질문이나 "검증된" AD 척도를 사용하지 않는 것에 대한 단점]과 [데이터 품질의 잠재적인 이점]을 비교하여 IS 측정을 변환하는 것을 고려해야 할 수 있다. 검증된 계측기 개발과 관련된 많은 문제가 이 검토의 범위를 벗어나지만, 우리는 척도의 타당화는 이분법적 결과가 아니라 프로세스임을 독자들에게 상기시키고자 한다. 특정 목적을 위해 특정 모집단에 대해 검증된 도구는 증거 없이 다른 모집단이나 목적으로 확장되지 않을 것이다. 또한, 많은 "타당화된" 계측기는 [표준화된 측정을 위한 질문 작성]에 [근거-기반 표준에 미달하는 질문]을 사용한다.
Question writers often need to balance revision against replication.69 Given the wide-spread use of AD questions, researchers may need to weigh disadvantages of not using previously administered questions or “validated” AD scales, including losing trends from time-series data, versus potential gains in data quality to converting IS measures. While many issues related to developing a validated instrument75,76 are beyond the scope of this review, we remind readers that instrument validation is not a binary outcome, but a process.77 An instrument validated for a specific population for a specific purpose would not – without evidence – extend to a different population or purpose. Further, many “validated” instruments use questions that fall short of evidenced-based standards for writing questions for standardized measurement.9

미래연구
Future research


AD와 IS 응답 형식을 직접 비교하는 실험 연구는 약간의 혼합된 결과를 산출하지만, IS 형식을 지지하는 강력한 이론적 뒷받침과 이용 가능한 증거를 고려할 때, 우리는 대부분의 목적으로 AD 질문보다 IS 질문을 추천한다. 우리의 검토는 또한 다양한 실질적 주제에 걸쳐 AD와 IS 질문을 비교하고 데이터 품질을 평가하기 위한 강력한 기준을 포함하는 설계가 더 많은 실험적 연구의 필요성을 지적한다. 향후 작업은 다음 사항을 우선시해야 합니다: 
Although experimental studies directly comparing AD and IS response formats yield some mixed results, given the strong theoretical underpinning and available evidence in support of the IS format, we recommend IS questions over AD questions for most purposes. Our review also points to the need for more experimental research comparing AD and IS questions across a range of substantive topics and with designs that incorporate strong criteria to evaluate data quality. Future work should prioritize the following: 

1) 특정 특성을 가진 일부 구문 또는 질문은 AD 질문으로 더 잘 측정됩니까? 
1) Are some constructs or questions with specific characteristics better measured with AD questions?

Dykema 등은 [의학 연구자에 대한 신뢰]와 같은 비특이적 구성에 대해 질문할 때, 빈도-기반 응답 차원을 사용하는 질문을 할 때, 특히 외부에 초점을 맞춘 행위자들(예: "의학 연구자들은 연구 참가자들의 안전을 보장하기 위해 얼마나 열심히 일하고 있는가")에 대해 질문할 때, 응답자들은 [평가를 위한 것]이 아니라, [대상 물체에 대한 지식을 묻는 것]처럼 들렸기 때문에 응답자들에게 어려웠다. 리커트가 초기 연구에서 사용한 진술과 유사하게, [동의-비동의 보기]는 "해야 한다"(예: "성인 자녀는 부모가 나이가 들면 부모를 돌봐야 한다")를 사용하는 [가치 진술]에도 적용하기 쉬울 수 있다.  
Dykema et al.4 noted that when asking about a non-salient construct like trust in medical researchers, questions using frequency-based response dimensions, especially when asking about externally-focused actors (e.g., “how hard do medical researchers work to ensure participants in their studies are safe”), were difficult for respondents because they sounded like they were asking respondents about their knowledge of the target object and not for an evaluation.78 Similar to the statements Likert used in his early work, an agreement response dimension may also be easy to apply to statements of values using “should” (e.g., “Adult children should take care of their parents when the parents become old”). 

2) 어떤 특성 조합이 최상의 데이터 결과를 제공합니까? 
2) What combinations of characteristics yield the best data outcomes?

우리는 어떤 조합이 최고 품질의 데이터를 산출하는지 결정하기 위해 연구자들에게 특정 질문 특성과 특성 조합의 효과를 추정할 수 있는 능력을 제공할 수 있는 다요인 설계를 사용한 향후 작업을 권장한다. 
We encourage future work using multifactorial designs that can provide researchers with the ability to estimate the effects of particular question characteristics and combinations of characteristics in order to determine which combinations yield the highest quality data.

3) AD 및 IS 질문의 측정 특성은 교육, 언어 구어 및 연령과 같은 사회 인구 통계적 특성에 따라 그룹마다 어느 정도 차이가 있습니까? 많은 연구들은 묵인과 같은 원치 않는 반응 효과가 낮은 교육을 받은 응답자들 사이에서 더 높다는 것을 보여주지만, AD 또는 IS 형식이 그러한 효과로부터 더 보호할 가능성이 있는지를 조사하는 연구는 거의 없다.  
3) To what extent do the measurement properties of AD and IS questions vary across groups based on socio-demographic characteristics such as education, language spoken, and age? Many studies demonstrate that unwanted response effects like acquiescence are higher among respondents with lower education,38,39 but few studies examine whether an AD or IS format is more likely to protect against such effects.

4) AD 및 IS 응답 형식은 관리 모드와 어떻게 상호 작용하며, 어떤 형식이 어떤 모드에 최적이며, 모드 내에서 어떤 구현 기능이 측정에 영향을 미칩니까? 인터뷰어-설문진행의 한계는 응답자가 응답 범주를 인코딩하고 호출해야 한다는 것입니다. 대면 인터뷰 중 IS 아이템에 대한 쇼케이스를 제공하면 응답자의 인지 부담을 줄일 수 있지만, IS아이템 솔루션은 전화 인터뷰에 쉽게 적용되지 않으며, 다양한 응답 범주를 가진 많은 항목을 포함하는 IS 척도는 응답자에게 어려울 수 있다.  

4) How do AD and IS response formats interact with the mode of administration, which format is optimal for which modes, and which features of implementation within mode have consequences for measurement? A limitation of interviewer-administration is that respondents must encode and recall response categories. While providing showcards for IS items during in-person interviews may reduce respondents’ cognitive burden, this solution is not easily applicable to phone interviews and IS scales that include many items with variable response categories may be difficult for respondents.

또한, 그리드를 독립형 질문으로 대체하여 수평 스크롤을 제한하는 응답성 설계를 사용하는 모바일 장치에서 설문 조사가 완료되어 그리드의 이점이 무효화된다. 모드와 관련된 문제는 모드를 혼합하는 조사가 증가하고 연구자들이 모드 효과를 측정하고 줄이는 방법을 계속 탐구함에 따라 더 많은 정밀 조사를 받게 될 것이다. 권장 사항은 점점 더 강력한 연구가 가능해지면 변경될 수 있지만, 현재 우리가 가지고 있는 가장 강력한 증거는 IS 아이템이 더 높은 품질의 데이터를 산출하고 연구자들에게 설계에 있어 상당한 유연성을 제공할 것임을 시사한다.

Further, an increasing share of surveys are completed on mobile devices which usually use a responsive design that limits horizontal scrolling by replacing grids with stand-alone questions, rendering any advantages of grids null. Issues related to mode are likely to receive increased scrutiny as surveys that mix modes grow and researchers continue to explore methods to measure and reduce mode effects.79, 80 Although recommendations may change when more and stronger research becomes available, the strongest evidence we currently have suggests that IS items will yield higher quality data and offer researchers considerable flexibility in design.

 


Res Social Adm Pharm. 2022 Feb;18(2):2335-2344. doi: 10.1016/j.sapharm.2021.06.014. Epub 2021 Jun 24.

Towards a reconsideration of the use of agree-disagree questions in measuring subjective evaluations

Affiliations expand

PMID: 34253471

PMCID: PMC8692311 (available on 2023-02-01)

DOI: 10.1016/j.sapharm.2021.06.014

Abstract

Agree-disagree (AD) or Likert questions (e.g., "I am extremely satisfied: strongly agree … strongly disagree") are among the most frequently used response formats to measure attitudes and opinions in the social and medical sciences. This review and research synthesis focuses on the measurement properties and potential limitations of AD questions. The research leads us to advocate for an alternative questioning strategy in which items are written to directly ask about their underlying response dimensions using response categories tailored to match the response dimension, which we refer to as item-specific (IS) (e.g., "How satisfied are you: not at all … extremely"). In this review we: 1) synthesize past research comparing data quality for AD and IS questions; 2) present conceptual models of and review research supporting respondents' cognitive processing of AD and IS questions; and 3) provide an overview of question characteristics that frequently differ between AD and IS questions and may affect respondents' cognitive processing and data quality. Although experimental studies directly comparing AD and IS questions yield some mixed results, more studies find IS questions are associated with desirable data quality outcomes (e.g., validity and reliability) and AD questions are associated with undesirable outcomes (e.g., acquiescence, response effects, etc.). Based on available research, models of cognitive processing, and a review of question characteristics, we recommended IS questions over AD questions for most purposes. For researchers considering the use of previously administered AD questions and instruments, issues surrounding the challenges of translating questions from AD to IS response formats are discussed.

+ Recent posts