질적연구에서 표본크기는 사전에 결정될 수 있는가?(International Journal of Social Research Methodology, 2018)
Can sample size in qualitative research be determined a priori?
Julius Sima , Benjamin Saundersa , Jackie Waterfieldb and Tom Kingstonea
도입
Introduction
커티스, 게슬러, 스미스, 워시번(2000, 페이지 1002)은 질적연구에서의 샘플링은 '정확하게 다루어져야 할 필요성 및 질적연구의 타당성에 대한 우리의 이해에 기본적'이라는 점에 주목하지만, 데이터 수집과 분석 방법에 비해 충분한 관심을 받지 못한 주제임을 시사하기도 한다. 그러나 최근에는 질적 연구에서 표본 크기에 대한 문제가 주제적인 문제가 되어, 주어진 연구에서 표본으로 추출된 참가자의 수를 선험적으로 결정해야 하는지, 그리고 만약 그렇다면 표시되는 참가자의 수를 결정해야 하는지에 대한 많은 논문들이 논의되고 있다.
Curtis, Gesler, Smith, and Washburn (2000, p. 1002) note that sampling in qualitative research ‘needs to be addressed rigorously and is fundamental to our understanding of the validity of qualitative research’, but also suggest that it is a topic that has received insufficient attention in comparison to methods of data collection and analysis. Recently, however, the question of sample size in qualitative research has become a topical issue, with a number of papers debating whether the number of participants sampled in a given study should be decided upon a priori, and if so, the number of participants that is indicated.
그러나 이러한 시도들은 때때로 그러한 선험적a priori 표본 크기 결정이 질적 연구를 뒷받침하는 개념적이고 방법론적인 개념과 양립할 수 없다고 주장하는 사람들에 의해 도전을 받아왔다.
These attempts have at times, however, been challenged by those arguing that such a priori sample size decisions are incompatible with conceptual and methodological notions underpinning qualitative research.
베이커와 에드워즈(2012년)는 질적 연구에서 최적의 표본 크기에 대한 다양한 연구자들의 견해를 구했다.
Baker and Edwards (2012) sought views from a range of researchers, primarily within the social sciences, as to the optimum sample size in qualitative research.
압도적인 반응은 '그때그때 다르다'.
an overwhelming response of ‘it depends’,
이는 질적 연구에서 샘플링 결정을 내릴 때 시행 중인 상충하는 우선순위를 더욱 강조할 수 있다. 즉, 샘플 크기를 미리 표시해야 하는 실제 요건을 충족할 필요성과 동시에, 그에 관련된 방법론적 고려사항에 부합하는 샘플링 접근법을 채택하려고 한다.
This perhaps further highlights the competing priorities that are at play when making sampling decisions in qualitative research; i.e. the need to satisfy practical requirements of indicating sample size in advance, whilst at the same time seeking to adopt a sampling approach that is in keeping with the methodological considerations pertinent to the particular study.
푸가드와 팟츠(2015a)의 논문을 중심으로 한 이러한 이슈들에 대한 보다 최근의, 그리고 특히 활기찬 논의가 이루어졌다.
A more recent, and particularly spirited, discussion of these issues centred on a paper by Fugard and Potts (2015a),
주된 비평은 (특히 근거 이론 접근법에서는) 표본 크기가 종종 adaptive and emergent하고, 포화 원리를 채택한다는 점에서, 사전에 표본 크기를 결정하는 것은 질적 연구에서 본질적으로 문제가 있다는 주장이다. 포화상태는 여러 방식으로 조작화되지만(Sandelowski, 2008, 페이지 875) 넓게 말하면 '정보 중복성'(Sandelowski, 2008, 875) 또는 데이터 유입으로 발전하는 이론적 통찰력(O'Reilly & Parker, 2013)의 관점에서 데이터 수집 및/또는 분석을 안내한다. 이렇게 해서 표본 크기는 후두엽으로 결정된다. 일부(예: Fusch & Ness, 2015)의 경우, 포화도는 질적 연구 내에서 필수적인 요소로서, 표본 크기가 항상 이 방법으로 결정되어야 함을 암시한다.
Prominent critiques was the argument that determining sample size a priori is inherently problematic in qualitative research, given that sample size is often adaptive and emergent, and – particularly if based on a grounded theory approach – adopts the principle of saturation. Saturation is operationalized in different ways (Saunders et al., 2017), but broadly speaking, it guides data collection and/or analysis either in terms of ‘informational redundancy’ (Sandelowski, 2008, p. 875) or in relation to the theoretical insights that develop as data accrue (O’Reilly & Parker, 2013). In this way, sample size is decided a posteriori. For some (e.g. Fusch & Ness, 2015), saturation is an essential element within qualitative research, implying that sample size should always be determined by this means.
질적 표본 크기를 결정하는 데 취해진 네 가지 일반적인 접근법:
1. 방법론적 고려사항과 과거 경험의 조합에 근거한 경험의 규칙
2. 제안된 연구의 특정 특성에 기반한 개념 모델
3. 경험적 조사로부터 도출된 수치적 지침 및
4. 충분한 표본 크기를 얻을 확률에 근거한 통계적 공식.
four general approaches that have been taken towards determining qualitative sample size:
1. rules of thumb, based on a combination of methodological considerations and past experience;
2. conceptual models, based upon specific characteristics of the proposed study;
3. numerical guidelines derived from empirical investigation; and
4. statistical formulae, based on the probability of obtaining a sufficient sample size.
표본 크기를 결정하는 방법
Approaches to determining sample size
경험적 법칙
Rules of thumb
많은 저자들이 방법론적 고려사항과 유사한 연구에 대한 과거 경험에 기초하여 질적 연구에서 표본 크기에 대한 엄지손가락 규칙을 제안하였다. 이러한 접근방식은 기초이론 연구의 표본 크기에 대한 한 저널의 정책에 반영된다(Dworkin, 2012). 그러한 권고사항 중 일부는 표 1.2에 요약되어 있다. 이러한 경험적 법칙은 일반적으로 명확하고 상세한 근거가 결여되어 있으며, 그들이 제안하는 것에는 유사성의 정도가 있지만, 약간의 다양성도 존재한다.
A number of authors have proposed rules of thumb for sample size in qualitative research, based on methodological considerations and past experience with similar studies; this approach is reflected in one journal’s policy on sample size for grounded theory studies (Dworkin, 2012). Some such recommendations are collated in Table 1.2 These rules of thumb commonly lack a clear and detailed rationale, and whilst there is a degree of similarity in what they propose, there is also some diversity;
개념 모델
Conceptual models
일부 저자들은 제안된 연구의 목표, 기본 이론 체계, 의도된 분석 유형과 같은 구체적인 특성에 기초하여 다소 공식적인 개념 모델을 사용해 왔다.
Some authors have used a rather more formal conceptual model, based upon specific characteristics of the proposed study, such as its aim, its underlying theoretical framework, and the type of analysis intended.
예를 들어, Morse(2000년)는 표본 크기가 다음에 따라 달라질 것이라고 주장한다.
연구 질문의 범위(범위가 넓을수록 필요한 표본 크기가 커짐)
주제 특성('자명한' 주제일수록 표본 크기가 작음)
데이터의 품질(데이터가 풍부할수록 표본 크기가 작음)
연구 설계(그룹이 분석 단위인 종단적 설계의 경우에는 [참가자당 하나의 인터뷰]로 진행되는 경우보다 필요한 참가자 수가 적다.) 및
숨겨진 데이터(면담에서 해당 interviewee 외에 다른 사람의 관점에 대해 무언가를 드러내는 경우, 필요한 표본 크기가 더 줄어들 수 있다.)
Morse (2000), for example, argues that sample size will depend upon:
the scope of the research question (the broader the scope, the larger the sample size needed);
the nature of the topic (the more ‘obvious’, the smaller the sample size);
the quality of the data (the richer the data, the smaller the sample size);
the study design (a longitudinal design in which a group is the unit of analysis will require a smaller sample size than one in which there is one interview per participant); and
shadowed data (if interviews reveal something about others’ perspectives, in addition to the interviewee’s own, this may require a smaller sample size).
보다 최근에는 말테루드, 시에르마, 과소라(2016년)가 샘플 크기를 특정 샘플이 보유하는 '정보력'이라고 부르는 것과 관련하여 결정할 수 있다는 이유를 들고 있다. 이 정보력은 다음에 의해 영향을 받는다.
연구의 목적(목표가 넓을수록 필요한 표본 크기가 커짐)
표본의 특수성(연구 목적과 관련된 참가자의 특성이 구체적일수록 표본 크기가 작아진다)
이론적 배경(기본 이론이 덜 발달할수록 표본 크기가 커짐)
대화의 질(인터뷰에서 대화가 풍부할수록 표본 크기가 작아진다) 및
분석 전략(탐색적인 교차 사례 분석을 목표로 하는 연구는 소수의 정보 제공자의 심층 분석을 목표로 하는 연구보다 더 큰 표본 크기를 필요로 할 것이다).
More recently, Malterud, Siersma, and Guassora (2016) reason that sample size can be determined in relation to what they refer to as the ‘information power’ that a given sample holds.3 This information power is influenced by:
the aim of the study (the broader the aim, the greater the required sample size);
the specificity of the sample (the more specific the characteristics of the participants in relation to the study aims, the smaller the sample size);
the theoretical background (the less developed the underlying theory, the greater the sample size);
the quality of dialogue (the richer the dialogue in the interviews, the smaller the sample size); and
the analysis strategy (a study aiming for an exploratory cross-case analysis will require a larger sample size than one aiming for in-depth analysis of a few informants).
수치지침
Numerical guidelines
표본 크기에 대한 세 번째, 그리고 인기 있어 보이는 접근법은 경험적 조사로부터 도출된 수치적 지침을 채택한다. Guest, Bunce, Johnson (2006)의 초기 영향력 있는 연구는 서아프리카 여성들에 대한 현상학 연구로부터 60개의 인터뷰를 사용했다; 저자들은 주제 분석의 과정에서 일어난 포화의 정도를 결정했다. 포화상태는 12번의 면접에서 발생하는 것으로 간주되었으며, 그들은 향후 연구에 사용될 수 있다고 제안한다. 더 최근에는 게스트, 네임비, 매케나(2017년)가 포커스 그룹에 대한 비슷한 논문을 발표해 전체 테마의 80%가 2~3개 그룹, 90%가 3~6개 그룹 내에서 나올 것으로 결론지었다.
A third, and seemingly popular, approach to sample size employs numerical guidelines derived from empirical investigation. An early and influential study by Guest, Bunce, and Johnson (2006) used 60 interviews from a phenomenological study of West African women; the authors determined the degree of saturation as it occurred during a process of thematic analysis. Saturation was considered to occur within 12 interviews, a figure they suggest could be used for future studies. More recently, Guest, Namey, and McKenna (2017) have published a similar paper on focus groups, concluding that 80% of all themes would emerge within two to three groups, and 90% within three to six groups.
프랜시스 외 연구진(2010년)은 이전 두 연구의 분석에 기초하여 포화 상태에 필요한 표본 크기에 대한 결론을 내렸다. 그들은 10개의 인터뷰의 초기 분석 샘플과 추가 3회라는 포화 상태에 대한 '자료수집 중단 기준'을 정의했는데, 이 기준은 새로운 테마가 나오지 않는 추가 인터뷰의 수로 정의된다.
Francis et al. (2010) reached conclusions on sample sizes required for saturation based on analysis of two previous studies. They defined an initial analysis sample of 10 interviews and a ‘stopping criterion’ for saturation of 3, this criterion being defined as the number of additional interviews in which no new themes emerge.
Hennink, Kaiser, Marconi(2017)도 포화상태와 관련하여 샘플 크기를 고려하며, 다음의 용어를 구별한다.
'코드 포화'(추가적인 이슈가 확인되지 않는 경우)와
'의미 포화'(더 이상의 통찰력을 얻지 못하는 경우)
Hennink, Kaiser, and Marconi (2017) also consider sample size in relation to saturation, distinguishing between what they term
‘code saturation’ (where no additional issues are identified) and
‘meaning saturation’ (where no further insights are gained).
Guest 외 연구진(2006)의 작품을 확장하면서, 하가만과 Wutich(2017)는 메타테마에 초점을 맞추는데, 이 메타테마는 문화나 사이트마다 다르기보다는 문화적으로 교차되는 테마로 정의된다. 그들은 4개 사이트의 132명의 응답자들과의 인터뷰를 통해 240개의 사이트별 주제와 9개의 문화간 메타테마를 산출한 데이터를 분석하였다. 16개 이하의 인터뷰로도 동질적인 집단을 가진 사이트에서 공통의 주제를 식별하기에 충분했지만, 메타테마에 대한 포화도를 달성하기 위해서는 20-40개의 인터뷰가 필요했다. 그들은 특히 참가자들 내부에서가 아닌 전체에서 주제에 초점을 맞췄다.
Extending Guest et al.’s (2006) work, Hagaman and Wutich (2017) focus on metathemes – which they define as themes that are cross-cultural rather than culture- or site-specific. They analysed data from interviews with 132 respondents from 4 sites, yielding 240 site-specific themes and 9 cross-cultural metathemes. Sixteen or fewer interviews were sufficient to identify common themes from sites with homogeneous groups, but 20–40 were needed to achieve saturation for metathemes. They specifically focused on themes across, rather than within, participants.
마지막으로 안도, 커즌스, 영(2014년)은 주제 분석의 맥락에서 포화를 조사한다. 저자들은 12건의 인터뷰(1단계부터 6건, 2단계부터 6건)가 모든 주제와 90% 이상의 코드를 제공했다고 결론짓고, 이를 '상위 수준 개념'으로 주제 분석에 충분한 표본 크기로 추천했다.
Finally, Ando, Cousins, and Young (2014) examine saturation in the context of thematic analysis. The authors concluded that 12 interviews (6 from the first stage and 6 from the second stage) provided all the themes and over 90% of codes, and recommended this as a sufficient sample size for thematic analysis with ‘higher level concepts’.
통계적 공식
Statistical formulae
충분한 표본 크기를 얻을 확률을 바탕으로 표본 크기를 결정하기 위해 최소 5개의 연구가 통계적 공식을 사용해 왔다. 많은 논의를 촉진시킨 연구는 이항 분포에 기초하여 표들을 제시하여 탐지하는데 필요한 최소 참여자 수를 나타내는 푸가드와 포츠(2015a)에 의해, 특정 수준의 신뢰도(예: 80%)가 관심 모집단에서 유병률로 가정된 테마의 사례 수를 나타낸다는 것이다.
At least five studies have used statistical formulae to determine sample size a priori, based on the probability of obtaining a sufficient sample size. A study that has promoted much discussion is that by Fugard and Potts (2015a), who present tables based on a binomial distribution4 to show the minimum number of participants needed in order to detect, with a stated level of confidence (e.g. 80%), a given number of instances of a theme with an assumed prevalence in the population of interest.
이와 유사한 접근방식을 채택한 Galvin(2015년)은
(i) 주어진 인터뷰 횟수에서 주어진 모집단의 유병률을 가진 테마가 적어도 한 번 나타날 확률을 계산하거나, 또는
(ii) 그러한 테마가 출현할 확률 95%에 필요한 인터뷰 횟수를 한 번 이상 계산하기 위해 이항 분포를 이용한다.
Adopting a similar approach, Galvin (2015) utilizes the binomial distribution to
(i) calculate the probability that a theme with a given prevalence in the population will emerge at least once in a given number of interviews, or alternatively
(ii) calculate the number of interviews required for 95% probability of such a theme emerging at least once.
반 리즈니쉬에버(2015년)는 시뮬레이션을 사용해 포화상태에 도달하는 데 필요한 최소한의 정보원 숫자(또는 그의 말로 '정보원')을 결정한다.
van Rijnsoever (2015) uses simulations to determine the minimum number of informants (or, in his words, ‘information sources’) needed to achieve saturation.
마지막으로, Tran, Porcher, Palissard, Ravaud (2016)의 연구는 기존의 개방형 조사 응답 데이터 세트에 Monte-Carlo 시뮬레이션5를 사용하여 각 추가 참가자에 대해 적어도 하나의 새로운 주제를 식별할 확률을 결정한다. 총 150명의 참가자는 원래 연구에서 92%의 주제를 확인할 수 있었다.
Finally, a study by Tran, Porcher, Falissard, and Ravaud (2016) uses Monte-Carlo simulations5 on an existing data-set of open-ended survey responses to determine the probability of identifying at least one new theme for each additional participant. A total of 150 participants allowed 92% of themes in the original study to be identified.
철학 및 방법론적 문제
Philosophical and methodological issues
표본 크기를 미리 정해야 하는 실질적인 필요성도 있을 수 있다. 그러나 위에서 설명한 것과 같은 전략의 방법론적 타당성과 일관성을 고려하는 것이 중요하다.
The practical imperative to predetermine sample size a priori is understandable. However, it is important to consider the ontological and/or epistemological assumptions that are made in the process and the methodological validity and coherence of strategies such as those outlined above.
테마의 존재론적 상태
Ontological status of a theme
통계적 공식(예: Pugard & Potts, 2015a)에 의존하거나 그렇지 않으면 포화 상태가 발생할 예상 인터뷰 수에 도달하는 연구(예: Francis 등, 2010)는 순진한 현실주의적 가정을 한다. – 즉, (주제란) 분석가와는 별개로 참가자의 계정에 '사전 존재'하는 것이며, 발견될 수 있다.
Studies that rely on statistical formulae (e.g. Fugard & Potts, 2015a) or that otherwise arrive at predicted numbers of interviews at which saturation will occur (e.g. Francis et al., 2010) make a naïve realist assumption – i.e. that themes ‘pre-exist’ in participants’ accounts, independently of the analyst, and are there to be discovered.7
이것은 어떤 언어를 사용하는지에 따라 강하게 나타난다. 예를 들어, 반 리즈니베르 (2015)는 모집단이 코드를 '보유contain'할 것이며, 정보는 정보 제공자들로부터 '추출'될 것이라고 제안한다. 그는 또한 데이터 수집 프로세스 전에 코드가 '관찰될 가능성' 또는 '놓칠 가능성'을 언급하고, 마찬가지로 코드가 객관적 존재를 가지고 있음을 시사한다. 푸가드와 팟츠(2015a)는 주제를 '포획'할 때 비슷한 언어를 사용한다.
This emerges strongly in some of the language used. For example, van Rijnsoever (2015) suggests that a population will ‘contain’ codes and that information is ‘extracted’ from informants. He also refers to the possibility of codes ‘becoming observed’ or, alternatively, of being ‘missed’, similarly suggesting that codes have an objective existence, prior to the process of data collection. Fugard and Potts (2015a) use similar language when referring to ‘capturing’ a theme.
이 온톨로지 가정은 미묘한 사실주의(Hammersley, 1992년)와 구성주의(Best, 2008년; Gergen, 2001년)와 같이 질적 연구와 더 일반적으로 연관되는 관점과는 불편한uneasily 관계에 있다.
This ontological assumption sits uneasily with perspectives that are more commonly associated with qualitative research, such as subtle realism (Hammersley, 1992) and constructionism (Best, 2008; Gergen, 2001).
[미묘한 사실주의]는 사회적 현상과 과정이 관찰자로부터 독립된 존재를 갖는다는 점에서 '실제'임을 인정하고, 이에 따라 원칙적으로 '알 수 있다'고 인정하지만, 관찰을 통해 직접적으로 접근할 수 있다는 것은 부정한다. 대신, 그들은 연구자의 데이터 참여에서 emergent하고, 따라서 연구자의 이전의 문화적, 이론적 이해에 의해 중재된다.
Subtle realism accepts that social phenomena and processes are ‘real’ in terms of having an independent existence from those who observe them, and are thereby in principle ‘knowable’, but denies that they are directly accessible through observation. Instead, they emerge from the engagement of the researcher with the data, and are therefore mediated by the researcher’s prior cultural and theoretical understanding.
[구성주의]는 ['진짜'에 대한 모든 주장은 관계의 과정으로 추적되며, 궁극적으로 현실의 한 구조가 다른 구조에 대해 특권을 갖게 되는 extra-cultural한 수단은 없다고 주장하기에] 더욱 분명한 반현실주의적 입장을 취하고 있다(Gergen, 2001, 페이지 8). 따라서 이러한 시각에서 사회현상은 외부세계에 객관적 존재는 없지만 분석가와 정보원이 공동으로 생산하고 있다. (미묘한 사실주의든, 구성주의든) 어느 관점에서도 주제는 '발견되는' 것이 아니다.
Constructionism, meanwhile, takes a more clearly anti-realist stance, arguing that ‘all claims to the ‘real’ are traced to processes of relationship, and there is no extra-cultural means of ultimately privileging one construction of reality over another’ (Gergen, 2001, p. 8). Accordingly, on this view social phenomena have no objective existence in the external world, but are co-produced by analyst and informant. In neither perspective is a theme something to be ‘discovered’.
[통계적 접근법과 수치적 접근방식]은 둘 다 비슷하게 테마의 발생이 균일하고 서로 교환할 수 있다고 가정한다.
These statistical and numerical approaches similarly assume that occurrences of a theme are fungible – they are deemed equivalent and interchangeable,
이와 같이 데이터는 많은 질적 연구의 정신과 사명과는 달리 참가자의 구체적인 경험이나 전기로부터 탈맥락화된다.
In this way, data are decontextualized from participants’ specific experiences or biographies, contrary to the spirit and mission of much qualitative research.
이와 관련된 또 다른 특징은, '주제'는 어떤 의미에서 개인의 속성이라는 관점이다. 응답자가 연구에 대한 보다 정량적인 접근방식에서 특정 변수에 대한 값으로 나타낼 수 있는 것처럼, 마치 참여자와 주제 사이에 일대일 관계가 성립되는 것으로 보인다. 하지만 이러한 이해는 질적 연구의 형태보다는 설문조사식 접근에 더 가까운 것 같다.
Linked to this, is a view of a theme as being in some sense an attribute of an individual. A one-to-one relationship appears to be posited between the participant and the theme, much as a respondent might be represented by a value on a particular variable in a more quantitative approach to research. This understanding seems closer to a survey approach to research than a form of qualitative research
참가자의 수 측면에서 선험적 샘플링을 결정하려고 하는 모든 접근방식은 관련단위relevant unit로서 [개인]을 지나치게 강조하기 쉽다.
any approach that attempts to determine sampling a priori in terms of the number of participants is liable to overemphasize the individual as the relevant unit.
샌델로우스키(1995)가 지적한 바와 같이, 샘플 크기는 참가자의 수만이 아니라 사건, 경험의 수, 사건, 경험의 수 측면에서 생각할 수 있다. 따라서, 표본 크기에 관한 그녀의 권고는 단순한 정보 제공자의 수보다는 경험에 대한 설명의 수를 참조한다. 포화 상태에 기초한 적응적 샘플링 결정은 이러한 서로 다른 유형의 데이터를 수용할 수 있지만, 개별 정보 제공자의 수 측면에서 샘플 크기를 미리 예측하는 전략은 그렇게 하기 위해 애쓸 것이다.
As Sandelowski (1995) points out, sample size can be thought of in terms of the number of events, incidents and experiences, not solely in terms of the number of participants. Accordingly, her recommendations regarding sample size make reference to the number of descriptions of an experience rather than simply the number of informants. Adaptive sampling decisions based on saturation can accommodate these differing types of data, but strategies that predetermine a sample size purely in terms of the number of individual informants would struggle to do so.
'인스턴스'로서의 테마
Themes as ‘instances’
주어진 신뢰도 수준(예: 푸가드 & 포츠, 2015a)으로 테마의 여러 발생을 식별할 수 있거나 포화도를 달성하기 위해 특정한 숫자의 인터뷰가 필요하다는 말은 [테마가 정의되는 방법이 연구 전반에 걸쳐 일정하다]고 가정할 때 성립된다. 이 기준의 주제 발생은 간단한 방법으로 열거될 수 있다. 그러나, 테마의 '인스턴스'로 간주되는 것은 [연구자의 이해의 변화에 따라 데이터 수집과 분석의 과정]에 걸쳐 변화할 수 있다. (연구자의) 통찰력이 발달함에 따라 발생하는 기초적인 이론적 개념이 변화하기 때문이다.
When it is specified that a number of occurrences of a theme can be identified with a given level of confidence (e.g. Fugard & Potts, 2015a) or that a given number of interviews would be required in order to achieve saturation (e.g. Guest et al., 2006), an assumption is made that how a theme is defined is constant throughout the study, and that on this basis occurrences of a theme can be enumerated in a straightforward manner. However, what is considered to be an ‘instance’ of a theme might change over the process of data collection and analysis in line with changes in the researcher’s understanding of the underlying theoretical concept that occur as insights develop.
또한 특정 테마가 중요하거나 관련성이 있다고 간주되는 범위는 연구 중에 데이터가 축적됨에 따라 달라질 수 있다(Emel, 2013; Hammersley, 2015; Ker, Nixon & Wild, 2010).
Furthermore, the extent to which a particular theme is considered to be important or relevant may change as data accumulate during a study (Emmel, 2013; Hammersley, 2015; Kerr, Nixon, & Wild, 2010).
주제가 축적되는 과정에서 연구자가 정보다 통찰력을 얻는 방식이 늘 일관적이거나 선형적이지 않다. 따라서 포화점을 예측하는 시도는 주제가 발생하는 인터뷰 수와 연계될 수 없다. 주제가 연속적인 인터뷰에서 주제가 발생하는 방식과 주제의 각 발생이 해당 주제의 보다 깊은 개념적 이해에 inform하고 (연구자가 스스로를) 수정하는 정도에 따라 달라질 것이기 때문이다. 베커(2012, 페이지 15)가 지적했듯이, '(연구자가) 더 많은 것을 배우고 생각을 수정하기에, 필요한 인터뷰의 수는 날마다 바뀔 것이다.'
Accumulating instances of a theme do not, therefore, contribute information or insights to the researcher in a consistent or linear way. Accordingly, an attempt to predict the point of saturation cannot be tied down to the number of interviews in which a theme occurs, as it will also depend on the way in which, and the degree to which, each occurrence of a theme in successive interviews informs and modifies a deeper conceptual understanding of the theme concerned. As Becker (2012, p. 15) notes, ‘the number of interviews you need will change from day to day as you learn more and revise your ideas’.
햄머슬리(2015년, 페이지 688년)도 '이머징 이론의 결실적 발전'이라는 관점에서 질적 연구자의 초점은 [얼마나 많은 정보원을 표본으로 추출하느냐]가 아니라 [어느 정보원을 표본으로 추출하느냐]에 달려 있는 경우가 많다고 지적한다. 따라서 미묘한 분석의 개발은 테마의 누적 발생(및 그에 수반되는 변동)이 이론적 통찰력을 제공하는 데 얼마나 도움이 되는가에 따라 결정된다. 따라서 일부 account는 다른 account보다 더 많은 기여를 할 것이며, 따라서 단순히 account의 숫자만을 목표로 하는 것은 표본 크기를 결정하는 기준으로서 불충분하다.
Hammersley (2015, p. 688) also points out that the qualitative researcher’s focus is often not so much on how many informants are sampled, but on which informants are sampled, in terms of the ‘fruitful development of the emerging theory’. Hence, the development of a nuanced analysis depends upon how accumulating occurrences (and accompanying variations) of a theme assist in providing theoretical insights. Some accounts will contribute more to this process than others, and aiming only for a number of such accounts is therefore inadequate as a basis for determining sample size.
표본 크기 계산에 대한 통계적 접근 방식은 테마의 인스턴스 수에 명시적으로 초점을 맞춘다. 첫 번째 경우, 주제는 최소한 한 가지 발생을 식별하는 데 필요한 참가자 수에 초점을 맞추고, 두 번째 경우에는 그러한 발생이 추가로 발생하지 않는 것을 식별하기 위해 필요한 인터뷰 수에 초점을 맞춘다. 따라서 테마는 테마의 수많은 인스턴스뿐만 아니라 테마 내에서 의미가 개발되는 방식과 테마 간의 관계를 통해 관심사가 될 수 있는 광범위한 분석 프레임워크의 맥락에서가 아니라 인스턴스 수준에서만 개념화된다.
Statistical approaches to sample size calculation, focus explicitly on the number of instances of a theme. In the first case, the focus is on the number of participants required to identify at least one occurrence of a theme, whilst in the second, it is on the number of interviews required in order to identify no additional such occurrences. Themes are thereby conceptualized only at the level of instances, rather than in the context of a broader analytical framework in which the concern would be not only with enumerable instances of a theme, but also with the way in which meaning is developed within a theme, and through the relationship between themes.
통계적 접근방식은 낮은 수준의, 서술적 주제 수준에서만 작동하며, 분석과정에서 높은 수준의 주제의 추가 개발이나 정교함을 고려하지 않는다. 따라서, 테마가 [서술적 의미]보다는 [해석적 의미]를 갖는 것으로 간주될수록, 예시 측면에서 고안된 표본 크기에 대한 접근방식이 덜 적용될 것이다.8
statistical approaches appear to operate solely at the level of lower order, descriptive themes and do not take account of the further development or elaboration of higher order themes during analysis. Hence, the more that themes are regarded as holding interpretive, rather than descriptive, meaning, the less applicable will be an approach to sample size conceived in terms of instances.8
표본 크기에 대한 통계적 및 경험적 접근방식에서 가정하는 또 다른 것은 어떤 instance를 찾아낼 가능성이 [표본의 구성원 간에 동일하다는 것]이다. 특정 수의 참가자가 특정 수준의 확률로 특정 주제 또는 특정 수의 테마를 식별하기 위해 데이터 수집 전에 진술되는 경우, 각 테마의 발생은 잠재적으로 각 참가자의 계정에서 도출될 수 있다고 가정한다. 그러나 이러한 가정은 질적 연구에 반드시 적용되는 것은 아니다. 일부 하위 순서 테마는 일부 참가자의 account에서는 어렵지 않게 식별될 수 있지만, 어떤 참가자들에서는 가능성이 극히 낮을 수 있다.
A further implication of statistical and empirical approaches to sample size is that the possibility of identifying instances of a theme is taken to be the same across members of the sample. If a specific number of participants is stated in advance of data collection in order to identify a theme, or a particular number of themes, with a stated degree of probability, it is assumed that an occurrence of each theme can potentially be derived from each participant’s account. However, this assumption will not necessarily apply in qualitative research. It is quite possible that some lower order themes will be potentially identifiable in the accounts of some participants but may be extremely unlikely to occur in others.
분석 컨텍스트
The analytical context
사전에 표본숫자를 결정하려는 많은 시도에서 가장 두드러진 방법론적 측면 중 하나는 [분석에 대한 연역적 접근에 대한 의존]이다. 즉, 방법론적으로 사전 식별된 테마를 데이터에 적용하는데 전적으로 또는 주로 의존하는 것이다. 실제로, Francis 등(2010년)은 자신들의 방법은 theory-driven theme에 적용하기 위한 것이라고 말했다.11 이 접근방식은 적어도 부분적으로 프레임워크 분석과 같은 방법에 적용된다(Ritchie & Spencer, 1994),
One of the most striking methodological aspects of many attempts to determine sample size a priori is their reliance on a deductive approach to analysis; i.e. one that relies wholly or predominantly on applying pre-identified themes to the data, rather than allowing these to emerge inductively.10 Indeed, Francis et al. (2010) are clear that their method is intended to apply to theory-driven themes.11 This approach may lend itself, at least partially, to a method such as framework analysis (Ritchie & Spencer, 1994),
이 경우, 데이터 분석을 앞두고 일부 또는 모든 테마가 결정되어 있다.
in which some or all themes are determined ahead of data analysis,
그러나 귀납적으로 분석하기 위한 연구에서 샘플 크기를 미리 지정한다는 것은 본질적으로 모순된다. 만약 테마의 수와 성격에 대한 이해가 분석 과정과 함께 진행된다면, 처음부터 이 이해가 적절할 지점을 의미 있게 예측할 수 없다.
However, attempts to pre-specify sample size – in other than a purely pragmatic way – in advance for a study in which analysis is intended to be inductive is essentially contradictory. If an understanding of the number and the nature of themes proceeds pari passu with the process of analysis, one cannot meaningfully predict at the outset the point at which this understanding will be adequate.
Morse(2000년)와 Malterud 등(2016년)의 개념 모델은 적절한 표본 크기에 중요한 개별 연구의 특정 특성을 강조한다.
The conceptual models of Morse (2000) and Malterud et al. (2016), stress the particular characteristics of individual studies as crucial to adequate sample size,
Malterud et al. (2016)은 질적연구에서 표본 크기를 계산하기 위한 수학공식 사용을 거부하고, 연구 진행과정에서 표본 크기에 대한 초기 평가를 재검토해야 한다는 것을 인정한다.
Malterud et al. (2016) reject the use of formulae to calculate sample size in qualitative research, and acknowledge that initial assessments of sample size should be revisited during a study.
말테루드 외 연구진(2016, 페이지 1754) 모델의 기본 전제는 '표본 크기를 안내하는 도구는 특정 분석 방법의 절차에 의존하지 말고 공유 방법론 원리shared methodological principle에 의존해야 한다'는 것이다. 첫째, 이 주장은 논란의 여지가 있다. 분석 방법은 적어도 [연구 질문의 성격]에 의해 부분적으로 결정되며, 이는 다시 [특정 철학적 관점]에 기초하게 될 것이므로, [표본 크기는 특정 분석 절차와 관련될 가능성]이 있다.
A basic premise of Malterud et al’s (2016, p. 1754) model is that ‘tools to guide sample size should not rely on procedures from a specific analysis method, but rest on shared methodological principles’. First, this claim is contestable. As a method of analysis will be at least partly determined by the nature of the research question, which will in turn be based on a particular philosophical perspective, it is likely that sample size will be related to particular analytical procedures.
민족학 연구의 맥락에서, [개인이 특정 문화나 사회적 관행에 어떻게 기여하고 참여하는지 이해하기 위한] 분석을 한다면, 한 사람의 account가 다른 사람의 경험이 어떠하며, 그것이 어떻게 다른지에 대해 우리에게 무언가를 말해줄 수 있다는 느낌이 있고, 결국 따라서 표본 크기에 영향을 미친다.
If, in the context of an ethnographic study, analysis is directed at understanding how individuals contribute to and partake of a particular culture or set of social practices, there is a sense (albeit limited, perhaps) in which one person’s account may tell us something about the experiences of others and the way in which these differ, and thereby influence the sample size.
이와는 대조적으로, 현상학적 원리에 기초하는 분석은 다른 사람의 경험에 대한 정보원의 토론을 단순히 개인의 특정한 관점을 정교하게 만드는 것으로 간주할 수 있다. 다른 사람들이 경험하거나 지각하는 것에 대한 통찰력을 제공하는 것은 아닐 수 있다. 따라서 표본 크기에 대한 효과는 각 경우에 따라 매우 다르다.
In contrast, an analysis founded on more phenomenological principles may simply regard an informant’s discussion of others’ experiences as elaborating that individual’s own particular perspective, rather than providing insight into what others experience or perceive. The effect on sample size is very different in each case.
둘째, '공유 방법론적 원리'를 고집하는 것은 질적 연구 안에 불안하게 자리잡고 있는 방법론적 통합의 형태를 시사한다. 말테루드 외 연구진(2016년)은 '정보력'의 다양한 차원이 있으므로, 따라서 표본 크기는 균일하고 예측 가능한 방식으로 작동한다고 가정하는 것 같다. 분명히 목표가 넓은 연구에는 (목표가 좁은 연구보다) 더 큰 표본을 요구하는 경향이 있다. 그러나 이것은 필연적인 문제인가? 단순히 목표의 넓이만 따르기보다는, 연구목적의 본질과 관련있지 않을까?
Second, the insistence on ‘shared methodological principles’ suggests a form of methodological unity that sits uneasily within qualitative research. Malterud et al. (2016) seem to assume that the various dimensions of ‘information power’, and hence of sample size, operate in a uniform and predictable way. No doubt there is a tendency for a study with broad aims to require a larger sample than one with narrower aims, but is this a matter of necessity? Might it not have to do with the nature of these aims, rather than just their breadth?
'참가자에게 절대 challenge하지 않는 연구자는 [낮은 정보력을 보유하는 경험적 데이터]로 끝날 위험을 가지고 있다는 주장도 있다. 즉, 분석하는 동안 이전으로부터 알려진 것만 재현한다'는 것이다(Malterud et al., 2016, 페이지 1756). 이것은 매우 광범위한 주장으로 보이며, 면접에서 잘못된 통설을 가정한다. 예를 들어, 인터뷰에 대한 서술적 접근방식에서, challenging이라는 테크닉은 통찰력 있는 데이터를 얻는 데 도움이 되기 보다는 비현실적일 수 있다.
It is argued that ‘a researcher who never challenges his or her participant runs the risk of developing empirical data holding low information power, which, during analysis, only reproduces what is known from before’ (Malterud et al., 2016, p. 1756). This seems to be a very broad claim, and assumes a false orthodoxy in interviewing. In a narrative approach to interviewing, for example, a technique of challenging might be inimical, rather than conducive, to obtaining insightful data.
표본 크기의 적정성을 개념화하는 방식도 정성적 연구와 공명이 거의 없는 분석에 대한 접근법을 제안할 수 있다. 앞서 논의한 사례에 초점을 맞추는 것은 질적 데이터 분석에서 숫자세기enumeration 과정을 지나치게 강조하는 것을 조장한다. Silverman(1985)과 Dey(1993)와 같은 저자들은 질적 데이터로부터 이론적 통찰력을 얻는 것은 때때로 어떤 형태의 기본적인 정량화에 의존할 수 있다고 설득력 있게 주장해왔다. 예를 들어, Dey(1993, 페이지 179)는 '실제적으로, 수치 평가에 의지하지 않고 어떻게 카테고리 간의 연관성을 식별하거나 관계의 강도를 평가하는 것이 가능한지 보기 어렵다'고 주장한다.
The way in which adequacy of sample size is conceptualized can also suggest an approach to analysis that has little resonance with qualitative research. The focus on instances, discussed earlier, encourages an undue emphasis on a process of enumeration in qualitative data analysis. Admittedly, authors such as Silverman (1985) and Dey (1993) have argued convincingly that deriving theoretical insights from qualitative data may at times depend upon some form of basic quantification. Dey (1993, p. 179), for example, maintains that ‘it is difficult to see how, in practice, it is possible to identify associations between categories or to assess the strength of relationships without recourse to a numerical evaluation’.
그러나 이러한 유형의 숫자세기는 질적 데이터 분석에서 보조적 역할 이상의 역할을 한다고 보기는 어렵다. 앞서 주장했듯이 [의미 있는 분석은 궁극적으로 데이터에 표현된 개념의 특성과 의미]에 따라 좌우될 것이며, 그 유병성, 빈도 또는 전형성이 아니다. 더욱이 반 리자루티버(2015, 페이지 12)가 '연구의 신뢰성을 높이기 위해 의도적으로 각 코드의 최소 관측 개수를 목표로 하는 것이 가능하다'고 제안할 때 나타나듯이, 어느 정도 분석적인 중요성의 척도로 단순하게 인스턴스 수를 동일시하는 것은 위험하다.
However, it is hard to see this type of enumeration as playing more than an ancillary role in qualitative data analysis. As argued earlier, a meaningful analysis will ultimately depend upon the nature and meaning of concepts expressed in the data, not their prevalence, frequency or typicality. Moreover, it is dangerous to equate the number of instances straightforwardly with some measure of analytical importance, as van Rijnsoever (2015, p. 12) appears to when suggesting that ‘to enhance the credibility of the research, it is possible to aim deliberately for a minimum number of observations of each code’.
참가자의 다양성
Diversity of the participants
표 1의 rule of thumb 중 일부는 동질성의 개념을 가리키며, 이것이 필요한 표본 크기에 영향을 미칠 수 있음을 암시한다. 질적 연구에서의 샘플링은 연구의 초점인 사람들에게서 다른 특성이나 경험의 다양성을 고려할 필요가 있으며, 연구참여자에 대해서 추정하는 이질성이 클수록 포함되어야 할 참가자의 수가 더 많다고 생각하는 것이 참으로 타당하다. 때때로 이러한 사고방식은 선험적 판단을 알려줄 수 있다.
Some of the rules of thumb in Table 1 refer to the notion of homogeneity, suggesting that this may influence the required sample size. It is indeed reasonable to think that sampling in qualitative research needs to take account of the differing characteristics, or the diversity of experience, in those who are the focus of the study, and that the greater their supposed heterogeneity, the larger the number of participants that should be included. On occasions, this way of thinking may inform a priori judgments.
예를 들어, 질병의 경험이 어떻게 축적되는지를 탐구하려는 연구는 남성과 여성의 관점에 대한 분석적 비교를 예측하고 그에 따라 정보 제공자의 수를 결정할 수 있다. 마찬가지로, 그리고 아마도 더 가능성이 높은 것은 데이터 분석 과정에서 참가자의 account에서 이질감이 나타날 수 있으며, 이론적 샘플링의 원칙에 따라 샘플링된 참가자의 수를 적절하게 알릴 수 있다(Glaser & Strauss, 1967).
A study intending to explore how the experience of an illness is gendered may, for example, foresee analytical comparisons between men’s and women’s perspectives and determine the number of informants accordingly. Equally, and perhaps more likely, a sense of heterogeneity may emerge from participants’ accounts during the process of data analysis, and may appropriately inform the number of participants sampled in line with the principles of theoretical sampling (Glaser & Strauss, 1967).
그러나 두 경우 모두에서 이 고려의 기초가 되는 것은 조사 연구에서와 같이 경험적 표현성의 일부 개념이 아니라 '현상을 분석하는 데 사용할 설명 집합의 전체 범위의 변동을 생성하는 것'에 대한 우려다(Polkinghorne, 1989, 페이지 48). 따라서 질적연구에서 표본의 동질성이 표본 크기를 결정하는 방식은 양적 연구와 같지 않다. 질적 연구에서의 주요 관심사는 [무작위 표본오차random sampling error를 최소화]하는 것이다(Barnett, 2002).
In both cases, however, what underlies this consideration is not some notion of empirical representativeness – as might be the case in survey research – but rather a concern ‘to generate a full range of variation in the set of descriptions to be used in analysing a phenomenon’ (Polkinghorne, 1989, p. 48). The homogeneity of the sample does not, therefore, drive sample size in the same way as in quantitative research, where the principal concern is with minimizing random sampling error (Barnett, 2002).
상호의존적인 표본 크기의 결정요인
Determinants of sample size as interdependent
말테루드 외 연구진(2016년)과 모스(2000년) 모델은 표본 크기의 다양한 결정 요인을 독립적으로, 따라서 종합적으로 작동하는 것처럼 제시한다.
Malterud et al.’s (2016) and Morse’s (2000) models present the various determinants of sample size as if they operate independently and thus summatively.
그러나 어떤 경우에는 표본 크기의 결정요인들이 상호작용을 할 것이라고 상상할 수 있다. 따라서 표본 크기에 영향을 미치는 요인은 독립적이지 않을 수 있으며, 연구에 한 가지 특정 치수가 존재하는 정도는 다른 차원의 일부 또는 전체가 필요한 표본 크기에 영향을 미치는 정도에 영향을 미칠 것이다.
It is, however, conceivable that in some instances, these determinants will interact. Hence, the factors influencing sample size may well not be independent, and the extent to which one particular dimension is present in a study will influence the extent to which some or all of the others influence the required sample size.
모르스(2000, 페이지 3, 4)는 다음의 두 가지를 분리한다.
연구범위의 영향: '연구 문제의 범위가 넓을수록 포화상태에 도달하는 데 시간이 더 오래 걸릴 것'
연구주제의 영향: '연구 중인 주제가 분명하고 명확하며, 면접에서 쉽게 정보를 얻을 수 있다면, 주제가 수면 아래에 있고 흥미를 유발하고 잡기 어려운 경우보다 참가자가 더 적게 필요하다.'
그러나 범위가 넓은 연구는 명백한 주제 또는 범위가 좁은 주제와 같이 표면 아래에 있는 주제를 다룰 수 있다.
Morse (2000, pp. 3, 4) considers separately
the effect of the scope of the study (‘the broader the scope of the research question, the longer it will take to reach saturation’) and
the effect of the topic of the study (‘If the topic being studied is obvious and clear, and the information is easily obtained in the interviews, then fewer participants are needed than if the topic is below the surface and intriguing and difficult to grab’).
However, a study whose scope is broad may conceivably address either an obvious topic or one that is below the surface, as may one whose scope is narrower.
따라서 표본 크기의 일반적인 결정 요소에 의존하는 것은 현실적이지 않을 수 있다.
Consequently, it may not be realistic to rely on generic determinants of sample size
그러나 그 대신 당면한 연구의 특정 특성과, 이러한 특성들 사이의 상호관계의 방식에 좀 더 특유한 초점을 맞춘다.
but instead take a more particularistic focus on the specific characteristics in the study at hand, and the way in which these interrelate.
통계적 가정
Statistical assumptions
표본 크기를 계산하기 위해 통계적 방법을 사용하는 접근방식으로 눈을 돌리면, 이것들은 많은 구체적인 가정을 만든다.
If we turn to the approaches that employ statistical methods to calculate sample size, these make a number of specific assumptions.
첫째, 확률론적 모델의 일부로서, 그들은 테마의 발생이 통계적으로 독립적이라고 가정한다. 즉, 한 정보원의 계정에서 테마의 식별이 다른 정보원에서의 발생에 영향을 미치지 않고 영향을 받지 않는다고 가정한다. 하지만 그렇지 않다. 앞서 제안한 바와 같이, 연구 내에서는 특정 다른 정보 제공자보다 특정 정보 제공자의 account에서 주제가 발생할 가능성이 더 높을 수 있다.
First, as part of the probabilistic model, they assume that occurrences of a theme are statistically independent – i.e. that the identification of a theme in the account of one informant does not influence, and is not influenced by, its occurrence in any other informant. This is unlikely to be the case. As suggested earlier, within a study, a theme may be more likely to arise from the accounts of certain informants than of certain other informants.
유사한 방법으로, 질적 연구(Noy, 2008년)에서 흔히 일어나는 것처럼 눈덩이 표본 추출 프로세스가 채택된다면, 추가 정보 제공자를 식별하기 위한 소셜 네트워크 또는 이전 관계의 사용은 테마가 독립적이지 않을 것을 거의 보장한다. 또한, 연구자의 관심사는 단순히 (여러 명의) account 전반에 걸쳐 테마가 존재하는 것이 아니라, (한 명의) 개인 정보원의 account에서 어떤 방식으로 테마가 반복적으로 예시되는지에 초점이 맞춰질 수 있다. 위와 마찬가지로, (한 명의) 정보원 내에서 발생하는 여러 사건들은 독립적이지 않을 것이다.
In a similar way, if a process of snowball sampling is adopted – as commonly occurs in qualitative research (Noy, 2008) – the use of social networks or prior relationships to identify additional informants almost guarantees that themes will not be independent. Additionally, interest may centre on how a theme is repeatedly exemplified by an individual informant’s account, not merely with the presence of themes across accounts – these occurrences within an informant will similarly not be independent.
둘째로, 이러한 통계적 계산은 이항 분포와 같은 확실한 기본 확률 분포에 의존한다. 따라서, 어떤 테마가 인구에서 15%의 유병률을 가진 것으로 간주되고, 연구자가 이 테마의 최소 발생을 95% 신뢰하기를 원하는 경우, 다음 공식(여기서 'ln'은 자연 로그(natural logarithm)은 필요한 최소한의 정보원을 제공한다(Viechtbauer et al., 2015).
Second, these statistical calculations rely upon a posited underlying probability distribution, such as the binomial distribution. So, if a theme is considered to have a prevalence of 15% in the population, and the researcher wishes to be 95% confident of finding at least one occurrence of this theme, the following formula (where ‘ln’ denotes natural logarithm) will provide the minimum number of informants required (Viechtbauer et al., 2015):
대부분의 정성적 연구에서는 무작위 표본 추출이 실행 불가능할 뿐만 아니라, 더 큰 문제는, 무작위 표변 추출식으로 하기 위해서는 어떤 형태의 sampling 방법(예를 들어 목적적 sampling)을 불가능하게 만든다는 것이다. 왜냐하면 이러한 샘플링은 연구 진행과정에서 개발된 통찰력이나 다른 emergent feature의 관계 속에서 적응적으로 사례를 선택해야 하기 때문이다.
Not only is random sampling impracticable in most qualitative research, but a notable drawback is that such a prescribed method also rules out any form of sampling – such as purposive (Mason, 2002) or theoretical (Glaser & Strauss, 1967) sampling – that adjusts the selection of cases adaptively during analysis in relation to developing insights or other emergent features of the study.
이와 직결되는 세 번째 가정은 주제(예: 푸가드 & 포츠, 2015a; Galvin, 2015) 및/또는 테마 수(예: 반 리지얼리버, 2015)를 처음부터 추정할 수 있다는 것이다. 이는 연역 체계 내에서 선험적 테마를 명확하게 정의한 경우에만 가능하며, 분석에 대한 귀납적 접근방식은 분명히 불가능하다. 귀납적 방식을 사용할 경우, 어떤 주제가 생성될지는 처음알 알 수 없을 뿐만 아니라, 연구가 진행됨에 따라 이미 알려진 주제도 (그 주제의 prevalence에 대해 원래 가지고 있었던 sense와 다른 방식으로) 정교화되고 재정의 될 것이다.
Directly linked to this is a third assumption: that the prevalence of a theme (e.g. Fugard & Potts, 2015a; Galvin, 2015) and/or the number of themes (e.g. van Rijnsoever, 2015) can be estimated at the outset. This is probably only possible with clearly defined a priori themes within a deductive framework, and certainly not in an inductive approach to analysis. In the latter, not only are themes liable to be unknown at the outset, but any that are known will be subject to refinement or re-definition as the study proceeds, largely precluding any prior sense of their prevalence.
일반성의 가정
An assumption of generality
표본 크기에 대한 통계적 접근방식은 계산이 이루어지는 기초(예: 테마의 보급)를 새로운 연구의 맥락으로 transfer할 수 있어야 한다고 가정한다.
Statistical approaches to sample size assume that the basis on which the calculation is made – e.g. the prevalence of a theme – should be transferable to the context of a new study.
이러한 일반성의 개념은 또한 고려된 다른 접근방식의 기초가 된다. '비슷한' 연구로 과거의 경험을 바탕으로 지침을 만드는 것은 [동일한 방법론적 또는 분석적 전통]에서조차 연구들 간에 [잘못된 동질성]을 가정할 위험이 있다.
This notion of generality also underlies some of the other approaches that have been considered. Establishing guidelines on the basis of past experience with ‘similar’ studies runs the risk of assuming a false homogeneity among studies, even with the same methodological or analytical tradition.
해석적 현상학적 분석의 관점에서 수행되는 연구들은, 예를 들어, 분명히 공통점을 가지고 있을 것이다. 그러나 (이러한 개념은) 연구들 사이의 유사성을 과장하고 개별 연구의 독특한 특징을 간과할 위험이 있다. 겉으로 보기에 동등한 방법론이라도 상당히 다른 형태 또는 강조를 취할 수 있기 때문이다.
Studies carried out from the perspective of interpretative phenomenological analysis, for example, will clearly have something in common, but there is a danger of overstating their similarity and overlooking the unique features of individual studies, in response to which an apparently equivalent methodology may take quite a different form or emphasis.
따라서 표본 크기에 대해 도출되는 수치의 일반성은 (저자들이 흔히 인정하는 것처럼) 제한적일 수 있으며, 이는 연구의 주제, 맥락 또는 모집단이 다를 수 있는 미래 연구와 관련하여 그 유용성을 저하시킬 수 있다. 더구나 이것은 단지 일반성의 문제가 아니다. 특정 연구의 고유한 특징을 무시하는 것은 대부분의 정성적 연구의 맥락적 지향contextual orientation에 반하는 것이다.
The generality of the figures they derive for sample size may therefore be limited (as the authors often admit), and this undercuts their usefulness in relation to future studies in which the topic, context or population of the study may differ. Moreover, this is not just a matter of generalizability. Ignoring the unique features of a particular study goes against the contextual orientation of most qualitative research.
고찰
Discussion
많은 연구자들이 펀딩 기관의 요구사항, 시간 및 자원 관리의 실용성을 고려할 때 질적 연구에서 [표본 크기 결정 방법] 찾는 것을 이해하는 것은 어렵지 않다. 그리고 아마도 몇몇 사람들은 일정정도의 표준화를 도입하여 샘플링에 대한 주관적 판단이 '지저분해 보이는 것'를 최소화시키고자 하는 욕망도 있을 것이다.
It is not difficult to understand the desire of many researchers undertaking qualitative research to pursue methods for determining sample size a priori, given requirements of funding bodies, the practicalities of managing time and resources, and perhaps, among some, a desire to reduce the perceived ‘messiness’ of subjective judgements about sampling by introducing a degree of standardization.
[표본 크기 결정에 대한 통계적 접근법]과 [경험적으로 도출된 지침]은 참여자 수와 테마의 식별된 인스턴스 수 사이의 직접적인 관계에 대한 가정 측면에서 테마의 식별에 있어 [일정정도의 균일성]을 시사하는 것으로 보인다. 그러한 접근방식에서, 이러한 사례들이 관련된 주제와 관련하여 제공하는 [이론적 통찰력보다는, 테마의 인스턴스 수가 가장 중요한 것]으로 보인다. 우리는 그러한 모델들이 테마가 미리 정의되어 있는 분석에 대한 연역적 접근방식에 더 적합해 보이며, 표본 추출 결정이 포화도와 같은 원리에 의해 유도되는 보다 탐구적이고 유도적인 접근방식과 다소 양립할 수 없는 것처럼 보인다고 주장해왔다.
Both statistical approaches to determining sample size and empirically derived guidelines appear to suggest a degree of uniformity in the identification of a theme, in terms of the assumption of a direct relationship between the number of participants and the number of identified instances of a theme. In such approaches, the number of instances of a theme appears to be most significant, rather than the theoretical insights these instances offer in relation to the theme concerned. We have argued that such models appear more suited to deductive approaches to analysis in which themes are predefined, and appear somewhat incompatible with more exploratory, inductive approaches in which sampling decisions are guided by a principle such as saturation.
Malterud et al. (2016)은 또한 다양한 질적 방법에 걸친 표준화에 대해서 의심스러운 가정을 한다. 즉, 서로 다른 연구 설계와 분석 프레임워크에 걸친 일련의 공유 원칙이 존재한다는 것이다.
Malterud et al. (2016) also make the questionable assumption of a degree of standardization across qualitative methods – that there is a set of shared principles spanning different study designs and analytic frameworks.
추가적으로, 통계적 공식과 경험적으로 도출된 지침과 같이, '정보력'의 개념은 비록 암묵적으로, [데이터는 참여자들로부터 어떻게든 추출될 것이다는 현실주의적 가정]을 채택하기 위해 나타난다. 이는 우리가 제안한 인식론적 입장이 접근방식과 상충되는 것임을 시사한다. 우리는 테마란 '진행 중인ongoing 해석적 분석의 일부'로 간주한다.
Additionally, like statistical formulae and empirically derived guidelines, the notion of ‘information power’ appears, albeit implicitly, to adopt a realist assumption that data are somehow extracted from participants, suggesting the incremental gaining of objective information – an epistemological stance we have proposed is at odds with approaches that consider themes as being developed as part of an ongoing, interpretive analysis.
또한 이러한 접근법들 중 다수는 표본 크기 권고사항이나 계산에 지나치게 일반주의적인 접근으로 이어지는 연구들 사이의 [동질성]을 가정하지만, 이 가정 역시 의문스럽다.
Many of these approaches also assume a questionable homogeneity across studies leading to an excessively generalist approach to sample size recommendations or calculations.
연구자(특히 질적 연구의 스펙트럼의 해석적 끝에서 일하는 사람)는 펀딩기관이나 윤리 검토 위원회에 표본 크기를 정당화하려고 할 때 진정한 도전에 직면한다. 그러나 의심스러운 가정에 근거하거나 양적 연구로부터 부적절한 방법론적 또는 통계적 원칙을 가져오는 예측이나 계산에 의존하는 것은 잘못된 대응이다.
Researchers – particularly those working at the interpretive end of the spectrum of qualitative research – face a genuine challenge when seeking to justify sample sizes to funding bodies or ethical review committees. However, resorting to predictions or calculations that rest upon questionable assumptions, or that import inappropriate methodological or statistical principles from quantitative research, is an ill-advised response to this challenge.
더 적절한 대응은,
표본 크기에 대한 표시를 제공하는 실용적 필요성에 대해 설명하기 위해, 수치에 대한 근거 없는 경험적 근거를 제시하거나 포화점에 대한 정확한 예측을 시도하지 않고,
궁극적으로 필요한 참여자 수에 대한 확실한 판단은 연구가 진행 중인 후에나 도달할 수 있다는 분명한 경고와 함께, 대략적이고 매우 잠정적인 상한을 제시하는 것이다.
A preferable approach would be, perhaps, to address the pragmatic necessity of providing some indication of sample size by presenting an approximate, and very provisional, anticipated upper limit, without presenting an unwarranted empirical basis for such a figure or attempting precise predictions of a point of saturation, but with a clear caveat that a firm judgment of the number of participants ultimately required can only be reached once the study is underway.
이는 표본 크기에 대한 [적응적 접근방식이 연구에서 채택된 귀납적 방법론과 어떻게 부합하는지에 대한 명확한 설명]과 더불어, [연구 과정에서 표본 크기 결정이 어떻게 이루어질지에 대한 개요]를 포함함으로써 더욱 정당화될 수 있다. – 예를 들어, 연구에서 포화도를 평가하고 입증하는 방법 - 이를 통해 명확한 방법론적 reasoning에 근거한 rationale를 제공할 수 있다.
This can be further justified by including a clear explanation of how an adaptive approach to sample size fits with the inductive methodology adopted in the study, as well as an outline of how sample size decisions will be made during the course of the study – for example, the way in which saturation will be assessed and demonstrated in the research – thereby providing a rationale underpinned by clear methodological reasoning.
결론
Conclusion
이 증거에서, 우리는 (질적연구에서) 선행적으로 표본 크기를 정의하는 것은 본질적으로 유도적이고 탐구적인 연구의 경우에 문제가 있다고 믿는다. 이러한 종류의 연구는, 정의에 근거하자면, 핵심 주제를 사전에 식별할 수 없는 것과 관련된 현상을 탐구하려고 한다. 그러한 접근방식에서, 아직 알려지지 않은 것에 대한 충분한 이해를 형성하기 위해 얼마나 많은 참여자가 필요한지를 미리 명시하는 것은 본질적으로 비논리적이다(Sunders et al., 2017). 따라서 연구 시작 시 표본 크기에 대한 대략적인 추정치를 제공해야 하는 실무적 의무는 인정하지만, 연구 목적을 충족하기에 적절한 표본 크기를 구성하는 것에 대한 결정은 반드시 연구자가 지속적으로 해석하는 과정이라고 주장한다. 샘플크기 결정은 반복적이고, 맥락-의존적인 결정으로서, 연구자가 '개발된 테마', '이들 테마 간의 관계', 그리고 '이들 테마의 개념적 경계가 있는 곳'에 대한 점점 더 포괄적인 그림을 개발해나가면서, 분석 과정 중에 이루어진다.
On this evidence, we believe that defining sample size a priori is inherently problematic in the case of inductive, exploratory research, which, by definition, looks to explore phenomena in relation to which we cannot identify the key themes in advance. In such an approach, specifying a priori how many participants will be needed to create sufficient understanding of what is as yet unknown is, in its essence, illogical (Saunders et al., 2017). Thus, whilst we acknowledge the practical imperative to give a rough estimate of sample size at the beginning of a study, we argue that the decision over what constitutes an adequate sample size to meet a study’s aims is one that is necessarily a process of ongoing interpretation by the researcher. It is an iterative, context-dependent decision made during the analytical process as the researcher begins to develop an increasingly comprehensive picture of the developed themes, the relationship between these themes, and where the conceptual boundaries of these themes lie.
더욱이 (선행 결정을 통해서든 포화상태와 같은 보다 적응적인 접근방식을 통해서든) 어떤 방법으로든 연구의 참여자 수에 대한 결정을 내릴 필요가 분명히 있기는 하지만, '표본 크기'라는 문제가 질적 자료 수집 및 분석 프로세스의 다른 필수 요소들을 모두 뒤덮어버릴 정도로 disproportionate하게 부각되어서도 안 된다. 에멜(2013년, 페이지 154년)이 우리에게 상기시켜 주듯이, '중요한 것은 사례의 수가 아니라, 중요한 것은 연구자가 그 사례들을 가지고 무엇을 하느냐'는 것이다.
Moreover, although there is clearly a need to make a decision on the number of participants in a study by one means or another – whether through a priori determination or a more adaptive approach such as saturation – there is also a need to ensure that the whole issue of sample size does not assume a disproportionate prominence and overshadow other essential elements within the process of qualitative data collection and analysis. As Emmel (2013, p. 154) reminds us, ‘it is not the number of cases that matters, it is what you do with them that counts’.
===
1. 우리는 이 용어를 광범위하게 '코드', '범주', 그리고 이와 유사한 용어를 수용하기 위해 사용한다.
1. We use this term broadly, to embrace ‘codes’, ‘categories’, and similar terms.
2. 일부 그러한 권고사항은 정보 제공자의 수가 아니라 개별 정보 제공자와의 인터뷰의 수와 관련이 있다. 예를 들어 스프래들리(1979년, 페이지 51년)는 민족학 연구에 대해 적어도 6~7시간의 1시간 인터뷰를 추천한다.
2. Some such recommendations relate not to the number of informants but to the number of interviews with an individual informant. For example, Spradley (1979, p. 51) recommends at least six to seven one-hour interviews for an ethnographic study.
3. 비록 이러한 저자들은 그들의 모델이 연구의 계획에 적용된다는 것을 나타내지만, 표본 크기의 사전 결정에만 초점을 맞추는 것은 아니다; 그들은 표본 크기의 적절성이 연구 중에 지속적으로 재평가되어야 한다는 것에 주목한다.
3. Although these authors indicate that their model applies to the planning of a study, it is not solely focussed on the prior determination of sample size; they note that the adequacy of the sample size should be continuously reassessed during a study.
4. 이항 분포는 이항 변수에 사용되는 확률 분포로서, 즉 관측치가 '현재' 대 '잠재'와 같은 두 가지 가능한 값 중 하나를 취할 수 있는 확률 분포다.
4. The binomial distribution is a probability distribution used for binary variables, i.e. those in which an observation can take one of two possible values, such as ‘present’ versus ‘absent’.
5. 몬테카를로 시뮬레이션은 시뮬레이션된 값의 모집단에서 수많은 랜덤 표본을 추출하여 특정 통계량의 표본 분포를 추정한다(Mooney, 2004).
5. Monte Carlo simulations estimate the sampling distribution of a particular statistic by drawing numerous random samples from a simulated population of values (Mooney, 2004).
6. 구체적으로는, 이 곡선에 대한 0.05의 값(즉, 추가 참가자 20명당 하나의 새로운 테마)이 97.5%의 테마를 식별할 수 있도록 하는 한편, 더 이상의 테마를 산출하지 않는 추가 참가자의 포함을 제한하는 테마 누적 곡선을 구성했다. 견본 채취
6. More specifically, a theme accumulation curve was constructed, such that a value of 0.05 for this curve (i.e. one new theme for each 20 additional participants) allowed 97.5% of themes to be identified whilst limiting the inclusion of further participants who would not yield further themes; this was proposed as a possible stopping criterion for sampling.
7. 흥미롭게도, 이 접근방식의 초기 예(Romney, Weller, & Batchelder, 1986년)는 그들의 지식 - 구체적인 질문에 대한 그들의 답변의 진실 또는 거짓 - 조사라는 측면에서 참가자의 수를 계산하는데 초점을 맞추었다. 이것에서 성격적으로 질적 연구가 집중되는 믿음이나 경험의 문제로 옮겨가는 것은 의문이다.
7. Interestingly, an early example of this approach (Romney, Weller, & Batchelder, 1986) focused on calculating the number of participants in terms of investigating their knowledge – the truth or falsity of their responses to specific questions. Moving from this to matters of belief or experience, on which qualitative research characteristically focuses, is questionable.
8. 그러나 하가만과 우티치(2017년)는 그들의 주제가 서술적임을 분명히 하고 있다.
8. Hagaman and Wutich (2017) are, however, explicit that their themes are descriptive.
9. 더 큰 이론적 추상성과 다수의 저차주 테마를 흡수할 가능성이 높기 때문에 고차주 테마는 대부분 또는 모든 계정을 포괄하는 것으로 더 쉽게 가정할 수 있다. 그러나 표본 크기에 대한 이러한 수치적 및 통계적 접근방식은 저차원의 주제에 초점을 맞추는 경향이 있다.
9. Higher-order themes, owing to their greater theoretical abstraction and the fact that they are likely to subsume a number of lower-order themes, might be more readily assumed to encompass most or all accounts. However, these numerical and statistical approaches to sample size tend to focus on lower-order themes.
10. 유도 과정에 의한 테마의 식별은 가장 일반적으로 근거 이론과 관련이 있다(Glaser & Strauss, 1967). 초기에 근거 이론에서의 분석 과정은 실제로 귀납적인 것이지만, 이론 범주가 진화함에 따라, 데이터의 인스턴스들이 가장 적합했던 이론 범주와 관련이 있는 보다 유괴적인 논리를 채택하여, 이러한 범주를 더욱 발전시키고 다듬을 수 있게 된다(Charmaz, 2009). 이에 따라 우리는 좁은 의미보다는 넓은 의미에서 '귀납'을 사용하고 있다.
10. The identification of themes by an inductive process is most commonly associated with grounded theory (Glaser & Strauss, 1967). Initially, the process of analysis in grounded theory is indeed inductive, but as theoretical categories evolve, a more abductive logic is employed whereby instances of data are related to the theoretical category with which they best fit (Charmaz, 2009), thereby allowing these categories to be further developed and refined. Accordingly, we are using ‘inductive’ in a broad rather than a narrow sense.
11. 신기하게도 코드의 수와 발생 확률 측면에서 코드를 미리 알 수 있다고 제안했음에도 불구하고, 반 리자르티베르 (2015)는 근거 이론의 원리에 맞추어 귀납적 접근법 내에서 그의 접근방식을 설정한다.
11. Curiously, despite proposing that codes can be foreknown in terms of their number and probability of occurrence, van Rijnsoever (2015) sets his approach within an inductive approach, aligned with the principles of grounded theory.
12. Malterud et al(2016, 페이지 1754)은 결정요인이 '상호적 영향'을 가질 수 있음을 인정하지만, 이는 그들이 제안한 모델 내에서 설명되지 않는다.
12. Malterud et al (2016, p. 1754) acknowledge that the determinants may have a ‘mutual impact on each other’, but this is not explicated within the model that they propose.
There has been considerable recent interest in methods of determining sample size for qualitative research a priori, rather than through an adaptive approach such as saturation. Extending previous literature in this area, we identify four distinct approaches to determining sample size in this way: rules of thumb, conceptual models, numerical guidelines derived from empirical studies, and statistical formulae. Through critical discussion of these approaches, we argue that each embodies one or more questionable philosophical or methodological assumptions, namely: a naïve realist ontology; a focus on themes as enumerable ‘instances’, rather than in more conceptual terms; an incompatibility with an inductive approach to analysis; inappropriate statistical assumptions in the use of formulae; and an unwarranted assumption of generality across qualitative methods. We conclude that, whilst meeting certain practical demands, determining qualitative sample size a priori is an inherently problematic approach, especially in more interpretive models of qualitative research.