적절한 샘플 크기란 무엇인가? 이론-기반 인터뷰 연구에서 데이터 포화의 조작화(Psychol Health, 2010)

What is an adequate sample size? Operationalising data saturation for theory-based interview studies

Jill J. Francisa*, Marie Johnstonb, Clare Robertsona, Liz Glidewella, Vikki Entwistlec, Martin P. Ecclesd and Jeremy M. Grimshawe




배경

Background


콘텐츠 분석을 이용해 분석하는 반구조 면접을 활용하는 연구에서는 '데이터 포화'에 도달할 때까지 참가자를 면접하는 기준으로 표본 크기가 정당화되는 경우가 많다. 그러나 데이터 포화 상태에 도달했을 때 합의된 설정 방법이 없기 때문에 이것이 실제로 무엇을 의미하는지는 명확하지 않다.

In studies that use semi-structured interviews that are analysed using content analysis, sample size is often justified on the basis of interviewing participants until ‘data saturation’ is reached. However, there is no agreed method of establishing when data saturation has been reached and so it is not clear what this means in practice.


데이터 포화 개념은 Glaser와 Strauss(1967)에 의해 질적 연구 분야에 도입되었으며, [개념 범주의 측면을 개발하는 새로운 추가 데이터가 발견되지 않는 데이터 수집 지점]을 의미하였다. 데이터 포화 개념은 그러한 연구에 매우 유용한 지침이다. 적절한 표본 크기는 연구 목적의 함수이며, 경험이나 관점의 복잡성, 범위 및 분포의 함수이다. 질적연구에서 표본 크기는 (power analysis의 형태로) 정량적 연구에 사용된 통계적 매개변수와는 다르다. 사실, 게스트, 번스, 존슨(2006)은 '포화는 gold standard가 되었다'고 주장한다. 

The concept of data saturation was introduced to the field of qualitative research by Glaser and Strauss (1967) and referred to the point in data collection when no new additional data are found that develop aspects of a conceptual category. The idea of data saturation is a very useful guide for such research, in which the appropriate sample size is a function of the purpose of the study and the complexity, range and distribution of experiences or views of interest, 

rather than of the statistical parameters used in quantitative research 

(e.g. in the form of a power analysis). 

Indeed, Guest, Bunce, and Johnson (2006) claim that ‘saturation has ...become the gold standard by which diversity samples are determined in health science research’ (p. 60).



개념 범주 또는 구성 요소가 기존 이론에 기초하여 사전 설정된 인터뷰 연구의 맥락에서, (인터뷰가 이러한 개념 범주 내에서 참가자의 경험이나 견해를 도출하는 데 효과적이라면) 표본 추출이 적절하다면, 구성construct의 내용 영역이 적절하게 채워졌거나 포화되었을 가능성이 높다. 데이터 포화상태는 그러한 이론에 기초한 인터뷰 연구가 내용 타당성을 위한 적절한 표본을 달성했을 가능성이 있는지를 다루기 때문에 중요한 개념이다.

In the context of interview studies where the conceptual categories, or constructs, are pre-established on the basis of existing theory, if sampling is adequate 

(and if the interviews have been effective in eliciting participants’ experiences or views within these conceptual categories), 

it is likely that the content domain of the construct has been adequately populated (or saturated). Data saturation is an important concept as it addresses whether such a theory-based interview study is likely to have achieved an adequate sample for content validity.


  • 필요 이상으로 큰 표본의 사용은 윤리적 문제가 되고(연구 자금과 참가자의 시간을 낭비하기 때문에)

  • 필요 이하로 작은 표본의 사용은 윤리적 문제 및 과학적 문제가 된다(왜냐하면 표본이 너무 작아서 결과가 특이 데이터를 반영하고 따라서 전송되지 않을 수 있기 때문에, 연구 자금과 참가자 시간의 낭비일 수 있기 때문이다.)

The question of sample size is also important because 

  • the use of samples that are larger than needed is an ethical issue (because they waste research funds and participants’ time) and 

  • the use of samples that are smaller than needed is both an ethical and a scientific issue (because it may not be informative to use samples so small that results reflect idiosyncratic data and are thus not transferable, and may therefore be a waste of research funds and participant time).


데이터 포화 상태가 달성될 때까지의 샘플링을 한다는 아이디어는 여러 건강 관련 분야의 연구에서 한동안 제기되어 왔다. 이 용어가 최근 건강 연구에 초점을 맞춘 학문에서 사용되고 있는 방식을 파악하기 위해 2006년 6월~2007년 9월 16개월 동안 (포함) 다학제 학술지 '사회과학과 의학'에 게재된 모든 논문을 검토했다. '데이터 포화'는 18개 논문에서 언급되었으며, 이 중 15개 논문이 데이터 포화를 달성했다고 주장했다. 정의는 일관성이 있었다; 데이터 포화상태는 데이터에서 새로운 주제, 발견, 개념 또는 문제가 명백하지 않다는 것을 의미했다. 그러나 데이터 포화도가 어떻게 결정됐는지는 명확하지 않았다. 표 1은 검토된 각 연구의 관련 인용구를 제시하며, 포화도가 정의되고 정당화되는 방법을 보여준다.

The idea of sampling until data saturation is achieved has been invoked in research for some time in several health-related disciplines. To get a sense of the way the term has been recently used in disciplines that focus on health research, we reviewed all papers published in the multidisciplinary journal Social Science and Medicine during the 16-month period June 2006–September 2007 (inclusive). ‘Data saturation’ was mentioned in 18 papers, of which 15 claimed to have achieved data saturation. The definitions were consistent; data saturation meant that no new themes, findings, concepts or problems were evident in the data. However, it was not clear how data saturation was decided. Table 1 provides the relevant quotations from each of the studies reviewed, showing how saturation was defined and justified.




그렇다면 이 기사에서 다룬 질문은 '실제로 새로운 주제가 등장하지 않았다고 말하는 것은 무엇을 의미하는가?'이다. 만약 두 번째 참가자가 새로운 아이디어를 언급하지 않는 한 첫 번째 참가자와 매우 유사하다면, 두 번의 인터뷰 후에 인터뷰를 중단하는 것은 분명히 적절하지 않다. 그러나, 연구자가 더 많은 참가자를 표본으로 추출한다면 [더 이상의 중요한 새로운 아이디어는 언급되지 않을 것이라고 확신하기까지]는 얼마나 많은 새로운 아이디어와 인터뷰가 필요할까?

The question addressed in this article, then, is ‘What does it mean, in practice, to say that NO new themes have emerged?’ If a second participant is very similar to the first insofar as s/he does not mention any new ideas, it is clearly not appropriate to stop interviewing after two interviews. Yet, how many interviews with no new ideas does it take before the researcher may be confident that no more important new ideas would be mentioned if more participants were sampled?


이 글에서는 pre-specified theoretical construct을 맥락적으로 관련되는 내용으로 채우기 위해 데이터를 생성하기 위해 인터뷰가 사용되는 연구에 초점을 맞추고 있다.

In this article we focus on studies in which interviews are used to generate data to populate pre-specified theoretical constructs with contextually relevant content.


우리는 계획된 행동 이론(TPB)에 기초하여 이론적으로 초점을 맞춘 인터뷰 대화록의 이론 기반 내용 분석을 포함하는 두 연구에서 제안된 원칙을 설명한다(Ajzen, 1991년).

We illustrate the proposed principles in two studies that involved theory-based content analysis of theoretically-focussed interview transcripts founded on the theory of planned behaviour (TPB) (Ajzen, 1991).


TPB는 의도와 행동을 예측하기 위한 이론적 프레임워크를 제공한다.

The TPB provides a theoretical framework for predicting intentions and behaviour.


TPB 연구는 모델에서 구성물을 운용하기 위해 표준 방법(예: Francis 등, 2004)을 사용한다. 

  • 태도(특정 행위를 수행하는 것을 어느 정도 선호하는가)

  • 주관적 규범(그 사람이 사회적 원천으로부터 그 행동을 수행하도록 압력을 얼마나 느끼는지, 또는 그렇지 않은지를)

  • 인식된 행동 통제(PBC) (행동이 자신의 통제 안에 있다고 느끼는 정도)

TPB research uses standard methods (e.g. Francis et al., 2004) to operationalise the constructs in the model: 

  • attitude (how much the person is in favour of performing a specified behaviour), 

  • subjective norm(how much the person feels pressure from social sources to perform the behaviour, or not) and 

  • perceived behavioural control (PBC) (how much the person feels that the behaviour is within his or her control).


  • 행동적 신념(행동을 제정할 때 인식되는 장점과 단점)은 태도를 결정하는 요소로 제안된다.

Behavioural beliefs (the perceived advantages and disadvantages of enacting the behaviour) are proposed determinants of attitude.


  • 규범적 신념(행동을 수행하도록 압력을 행사하는 것으로 인식되는 개인 또는 사회 집단)은 주관적 규범의 결정요인으로 제안된다.

Normative beliefs (the individuals or social group perceived to exert pressure to enact the behaviour, or not) are proposed determinants of subjective norm.


  • 통제 신(행동을 더 쉽게 또는 더 어렵게 만드는 인식된 요소)은 PBC의 결정요인으로 제안된다.

Control beliefs (the perceived factors that make it easier or more difficult to enact the behaviour) are proposed determinants of PBC.


TPB는 '일률적' 설문지를 사용하기보다는, 조사 대상 모집단의 행동과 관련된 문제를 설문 항목에서 반영하도록 규정한다. 이러한 인터뷰 수행에 대한 기존 지침은 필요한 인터뷰 횟수를 명시하지 않는다. 인터뷰 녹취록은 이론 기반 콘텐츠 분석을 거쳐 아젠(1988)이 인터뷰 형식에 대한 상세한 지침을 제공했다. 분석의 목적은 인터뷰 대상자로부터 가장 '성실한' 행동, 규범적, 통제적 신념이 무엇인지 발견하는 것이다. 이는 공개 질문에 대한 응답으로 참가자가 가장 자주 언급하는 견해나 신념을 독립적으로 파악함으로써 이루어진다. 이러한 이유로, 여기 보고된 연구들은 공유된 신념에 대한 데이터 포화(즉, 둘 이상의 참여자가 언급함)를 분석했는데, 이는 특이적 신념(즉, 한 참가자에 의해서만 언급됨)이 참여자가 도출된 모집단의 대부분과 관련이 없을 가능성이 높았기 때문이다.

Rather than using a ‘one-size-fits-all’ questionnaire, the TPB stipulates that the questionnaire items should reflect issues that are relevant to the target behaviour for the population to be investigated. Existing guidance on conducting these interviews does not specify the number of interviews necessary. Interview transcripts are subjected to theory-based content analysis and Ajzen (1988) has provided detailed guidance on the interview format. The objective of the analysis is to discover, from interviewees, what are the most ‘salient’ Behavioural, Normative and Control beliefs. This is done by identifying the views or beliefs that are most frequently mentioned, independently, by participants, in response to open questions. For this reason, the studies reported here analysed data saturation for shared beliefs (i.e. mentioned by two or more participants), as idiosyncratic beliefs (i.e. mentioned by only one participant) were not likely to be relevant to most of the population from which the participants were drawn.


따라서 이 이론 기반 접근법은 다른 유형의 정성적 연구와 중요한 차이가 있다. 

  • 첫째, 일부 연구에서는 초기 표본 내에서 '이상한/특이한' 것으로 보이는 테마가 있더라도, 그 테마는 나중에 잠재적으로 과소대표된 세부 그룹의 참가자를 추가로 표본 추출해야 할 수 있다.

  • 둘째, 일부 연구는 개인 또는 하위 그룹이 어떻게 다를 수 있는지에 대한 가설을 생성하기 위해 표본 내의 대비contrast를 명시적으로 탐색search한다. 

This theory-based approach thus differs importantly from other types of qualitative research. 

  • First, in some studies, themes that appear to be ‘idiosyncratic’ within an initial sample might lead to further sampling of participants from potentially under-represented sub-groups for whom such themes might be important. 

  • Second, some studies explicitly search for contrasts within the sample in order to generate hypotheses about how individuals or sub-groups might differ. 


여기서 제안된 데이터 포화 확립 원칙은 이러한 다른 유형의 연구에는 적용되지 않는다. 그러나 샘플링을 중단해야 하는 시점에 대한 질문이 연구 결과에 유의한 영향을 미칠 수 있으므로, 명확한 근거를 가진 팀 결정이 필요할 수 있으므로 원칙이 이러한 종류의 연구에 적합할 수 있음을 제안한다. 위에서 언급한 바와 같이, 우리는 먼저 사전 지정된 이론 구성에 기초하여 [덜 복잡한 인터뷰 연구 맥락] 안에서 원칙을 제안한다.

The principles for establishing data saturation that are proposed here do not apply to these other types of research. We suggest, however, that the principles might be adaptable to these kinds of studies, because the question, when to stop sampling, may significantly influence research findings and therefore may require team decisions that have a clear justification. As indicated above, we first propose the principles within the less complex context of an interview study based on pre- specified theoretical constructs.


데이터 포화 지정 원칙

Principles for specifying data saturation


우리는 분석과 보고를 위한 네 가지 원칙을 제안한다.

We propose four principles for analysis and reporting.


(1) 첫째, 연구자들은 (데이터 포화도에 대한 점진적 판단 근거를 확인하기 위해) 1차 분석이 완료할 샘플 크기가 어느 정도인지 미리 지정해야 한다. 우리는 이것을 초기 분석 샘플로 참고할 것이다. 구체적인 숫자는 연구 질문과 인터뷰 주제 가이드의 복잡성, 표본의 다양성 및 분석 특성(예: 대상 구조물의 수와 가능성 있는 치수성)에 따라 달라진다. 물론 표본 추출은 연구와 관련된 사전 지정된 '층화stratification' 요인(예: 연령, 성별, 농촌성, 민족성)에 따라 수행될 것이다. 그렇지 않으면, 표본의 가짜 동질성으로 인해 가짜 초기 데이터 포화도가 달성될 수 있다. (많은 계층화 요인이 연구 문제와 관련될 가능성이 있는 경우, 더 큰 초기 분석 표본이 필요할 가능성이 있다.

First, researchers should specify a priori at what sample size the first round of analysis will be completed (in order to identify a basis for progressive judgements about data saturation). We will refer to this as the initial analysis sample. The specific number will depend on the complexity of the research questions and of the interview topic guide, the diversity of the sample and the nature of the analysis (e.g. the number and likely dimensionality of the target constructs). Of course, sampling would be conducted according to pre-specified ‘stratification’ factors that are relevant to the study (e.g. age, gender, rurality and ethnicity). Otherwise, spurious early data saturation may be achieved due to spurious homogeneity of the sample. (If many stratification factors are likely to be relevant to the research questions, a larger initial analysis sample is likely to be needed.)


(2) 두 번째 원칙은 연구팀이 (새로운 공유 주제나 아이디어가 등장하지 않고) 데이터 포화 상태를 달성했다고 결론을 내리기 전에, 얼마나 더 많은 인터뷰를 할 것인지를 미리 명시해야 한다는 것이다. 우리는 이것을 정지 기준으로 삼을 것이다. 그런 다음 정지 기준이 충족될 때까지 분석이 계속 진행된다.

The second principle is that researchers should specify a priori how many more interviews will be conducted, without new shared themes or ideas emerging, before the research teamcan conclude that data saturation has been achieved. We will refer to this as the stopping criterion. The analysis then proceeds on an ongoing basis until the stopping criterion is met.


이 기사에서 보고된 연구에서 이러한 두 가지 원칙을 설명하기 위해, 우리는 처음 두 가지 원칙을 다음과 같이 명시한다(2개 또는 3개의 주요 계층화 요인 가정).

To illustrate these two principles in the studies reported in this article, we specify the first two principles as follows (assuming two or three main stratification factors):

  • 초기 분석 샘플: (적절한 다양성 샘플링과 함께) 최소 10번의 면접이 실시될 것이다.

  • 정지 기준: 10번의 인터뷰 후에 새로운 테마가 등장하지 않고 세 번의 추가 인터뷰가 진행되었을 때, 우리는 이것을 데이터 포화점으로 정의할 것이다. 정지 기준은 추가 자료 없이 3회 연속 면접이 있을 때까지 각 연속 면접(즉, 11회, 12회, 13회, 14회 등) 후에 시험한다. 초기 분석 표본에 적용되는 계층화 요인이 부적절할 수 있다는 분석이 제시되는 경우, 연구의 이 단계에서 연구팀은 샘플링할 다른 참가자 그룹을 지정할 수 있다.

  • Initial analysis sample: At least 10 interviews will be conducted (with . appropriate diversity sampling).

  • Stopping criterion: After 10 interviews, when three further interviews have . been conducted with no new themes emerging, we will define this as the point of data saturation. The stopping criterion is tested after each successive interview (i.e. 11, 12 and 13; then 12, 13 and 14, and so on) until there are three consecutive interviews without additional material. In this phase of the study a research team might decide to specify other groups of participants to sample, if analysis suggests that the stratification factors applied for the initial analysis sample may be inadequate.


(3) 세 번째 원칙은 분석이 견고하고 신뢰할 수 있다는 것을 입증하기 위해 보고된 최소 두 개의 독립적인 코더 및 합의 수준에 의해 분석이 이상적으로 수행된다는 것이다.

The third principle is that the analysis would ideally be conducted by at least two independent coders and agreement levels reported to establish that the analysis is robust and reliable.


(4) 네 번째 원칙은 독자들이 증거를 평가할 수 있도록 데이터 포화 방법과 소견을 이상적으로 보고하는 것이다.

The fourth principle is that the data saturation methods and findings ideally would be reported so that readers can evaluate the evidence.


선행 기준은 논문의 '방법' 섹션의 일부일 수 있다. 우리는 이 원칙들을 아래에 증명할 것이다.

A priori criteria could be part of a paper’s ‘Methods’ section. We will demonstrate these principles below.


이전에 인터뷰 연구가 이론에 근거하지 않은 경우, 표본 크기 규칙을 명시하려는 시도가 있었다. 게스트 외. (2006)은 아프리카 두 나라에서 사회적 만족도 행동과 자기보고 성행위의 정확성을 주제로 인터뷰를 실시했다. 그들은 60번의 인터뷰가 실시될 때까지 연속적으로 6번의 인터뷰 후에 주제 파악의 진행 과정을 문서화했다.

An earlier attempt has been made to specify a sample size rule for interview studies that are not theory based. Guest et al. (2006) conducted interviews in two African countries on the topic of social desirability behaviour and accuracy of self-reported sexual behaviour. They documented the progression of theme identification after successive sets of six interviews, until 60 interviews had been conducted. 


모든 코드의 92%가 12번의 면접 후에 확인되었고 97%의 '중요' 코드(동일한 생각을 표현하는 개인 수로 운영됨)는 12번의 면접에서 확인되었다. 게스트 외. (2006)는 약 12개가 긴급한 주제를 위해 분석된 인터뷰 연구에 충분한 표본이라고 결론지었다. 그러나, 그들은 그들의 연구 결과의 이전 가능성에 의문을 제기했다. 게다가, 인터뷰 과정의 '발전'은 없어 보였다. 인터뷰 연구 과정 동안 주제 가이드는 새로운 주제를 더 깊이 탐구하도록 진화하지 않았다. 그런 의미에서 게스트와 동료가 사용하는 방법은 긴급한 주제 분석이라기보다는 여기에서 보고된 연구에서 설명한 미리 정해진 이론 기반 접근방식에 가까웠다. 게다가, 분석이 6개 세트로 진행되었기 때문에, 언제 그들이 파악한 포화 상태에 도달했는지는 분명하지 않다; 포화 상태에 도달한 시점은 7번째에서 12번째 인터뷰 사이 어딘가였다. 이러한 접근방식과 대조적으로, 우리는 적절한 표본 크기를 확립하기 위한 일련의 원칙과 이러한 판단을 뒷받침하는 데이터를 제시하는 방법을 제안한다.

Ninety-two per cent of all codes were identified after 12 interviews and 97% of the ‘important’ codes (operationalised as the number of individuals expressing the same idea) were identified within these 12 interviews. Guest et al. (2006) concluded that about 12 is a sufficient sample for interview studies analysed for emergent themes. However, they questioned the transferability of their findings. Furthermore, there appeared to be no ‘development’ of the interview process; the topic guide did not evolve to explore emerging themes in greater depth during the course of the interview study. In that sense, the methods used by Guest and colleagues were more like the pre-determined, theory-based approach described in the studies reported here than like an emergent themes analysis. In addition, as the analysis proceeded in sets of six, it is not clear when their identified level of saturation was reached; it was somewhere between 7 and 12 interviews. In contrast to this approach, we propose a set of principles for establishing the appropriate sample size, together with ways to present data to support this judgement.


연구 1: 상부 호흡기 감염 관리에 대한 일반 의료인의 신념의 내용 분석

Study 1: Content analysis of general medical practitioners’ beliefs about managing upper respiratory tract infections


배경

Background


방법들

Methods


분석: 이론 기반 콘텐츠 분석은 세 단계로 진행되었다. 

    • 첫째, 한 연구자는 각각의 대본을 별도의 발음으로 나누었다. 

    • 둘째, 한 연구자는 서로 다른 참가자의 발언을 유사한 신념으로 분류하고 각 신념에 대한 설명서의 문구('요약 데이터')를 사용했다. 

    • 셋째, 두 명의 재판관은 세 가지 종류의 믿음의 존재/부존성을 위해 각각의 믿음을 독립적으로 코드화했다. 행동적 믿음, 규범적 믿음, 통제적 믿음. 크립펜도르프(Krippendorff, 2004)는 3단계에서 각 구성별로 별도로 재판관들 간의 합의를 기술하는 데 사용되었다.

Analysis: Theory-based content analysis was conducted in three steps. 

    • First, one researcher split each transcript into separate utterances. 

    • Second, one researcher grouped the utterances of different participants into similar beliefs and used wording from the transcripts to describe each belief (‘summary data’). 

    • Third, two judges independently coded each belief for the presence/absence of three kinds of belief: Behavioural belief, Normative belief and Control belief. Krippendorff’s (Krippendorff, 2004) was used to describe agreement between judges at the third step, separately for each construct.


데이터 포화 분석은 네 단계로 수행되었다. 

    • 첫째, 데이터 테이블은 각 개인에 대해 도출된 특정 신념의 수준에서 구성되었다. 

    • 둘째, 각 참가자가 인터뷰한 신념에 대해 언급된 신념을 표시하기 위해 세 종류의 신념 각각에 대한 요약표를 구성했다. 이 요약 표에는 순차적으로 제시된 이진(예/아니오) 데이터가 포함되었으며, 특이적 신념(즉, 최소 두 명의 참가자가 공유하지 않은 믿음)이 포함되었다. 

    • 셋째, 요약 표의 데이터를 사용하여 일련의 누적 빈도 그래프를 구성했는데, 각 신념 유형(행동, 규범 및 제어)에 대해 하나씩, '모든 신념'에 대해 한 줄씩을 구성했다. 

    • 이 선들은 14명의 참가자들에 의해 각각의 (공유된) 개인신앙이 언급된 빈도를 순차적으로 표시했다.

The data saturation analysis was conducted in four steps. First, data tables were constructed at the level of specific beliefs elicited for each individual. Second, summary tables were constructed for each of the three kinds of belief to display the beliefs that were mentioned by each participant interviewed. This summary table contained binary (yes/no) data presented sequentially and included idiosyncratic beliefs (i.e. beliefs that were not shared by at least two participants). Third, data from the summary tables were used to construct a series of cumulative frequency graphs, one for each type of belief (Behavioural, Normative and Control) and one line for ‘All beliefs’. These lines displayed, sequentially, the frequency with which each (shared) individual belief was mentioned by the 14 participants.


이 누적 빈도 그래프는 조사하기 위해 검사되었다: 

    • (a) 초기 분석 표본에서 도출된 공유 믿음의 수(10으로 설정됨), 

    • (b) 각 구성과 전체에서 정지 기준을 충족하는 데 필요한 인터뷰의 수(3으로 설정됨), 

    • (c) 3초 후에 새로운 공유 신념이 나타났는지 여부.(각 구성과 전체에서) 새로운 공유된 신념이 없는 과민한 인터뷰.

These cumulative frequency graphs were inspected to investigate: 

    • (a) the number of shared beliefs elicited by the initial analysis sample (which was set at 10), 

    • (b) the number of interviews required to meet the stopping criterion (which was set at three) for each construct and overall and 

    • (c) whether any new shared beliefs emerged following three successive interviews with no new shared beliefs (for each construct and overall).


결과

Results


요약 데이터: 그림 1은 항생제를 처방하지 않고 URTI 환자들을 관리하는 것에 대한 구체적인 공통 신념에 대해 1~14 참가자에 대한 누적 빈도 그래프를 보여준다. 선 위의 '1 2 3' 숫자 시퀀스는 정지 기준의 적용을 강조한다. 

Summary data: Figure 1 presents cumulative frequency graphs for participants 1–14, for the specific, shared beliefs about managing patients with URTI without prescribing antibiotics. The number sequence, ‘1 2 3’ above a line highlights the application of the stopping criterion. 


연구포화 상태: 모든 믿음의 범주. 마지막으로, 그림 1의 모든 믿음 범주를 나타내는 선은 10번의 인터뷰 후에 초기 분석 표본이 57개의 공유된 믿음을 낳았고 11이나 12번의 인터뷰에서는 새로운 공유된 믿음이 없었다는 것을 보여준다. 그러나 인터뷰 13에서는 두 가지 새로운 믿음이 있었다. 따라서 정지 기준을 적용하는 것은 데이터 포화 현상이 발생했다는 연구팀의 의식에도 불구하고 연구상 포화 상태가 달성되지 않았다는 것을 의미한다.

Studywise saturation: All belief categories. Finally, the line representing all belief categories in Figure 1 shows that, after 10 interviews, the initial analysis sample had yielded 57 shared beliefs and there were no new shared beliefs in interviews 11 or 12. However, there were two new shared beliefs at interview 13. So applying the stopping criterion indicates that studywise saturation was not achieved, despite the research team’s sense that data saturation had occurred.


그러나 이 연구는 데이터 포화 확립을 위한 제안된 원칙이 마련되기 전에 수행되었다. 14번의 인터뷰가 실시되었지만, 새로운 공유 신념이 등장하지 않는 두 번의 인터뷰는 제안된 포화상태에 대한 기준을 충족시키기 위해 필요했을 것이다. 이것은 '일반 토론' 섹션에서 더 많이 고려된다.

However, this study was conducted before the proposed principles for establish- ing the data saturation were devised. Fourteen interviews were conducted but two more interviews without new shared beliefs emerging would have been necessary to meet the proposed criterion for saturation. This is considered further in ‘General Discussion’ section.




연구 2: Paget의 뼈 질환에 대한 유전자 검사에 대한 믿음의 내용 분석

Study 2: Content analysis of beliefs about genetic screening for Paget’s disease of the bone


배경

Background


방법들

Methods


결과

Results


요약 데이터: 표 2는 2진수(예/아니오) 데이터를 제시하며, 그림 2는 PDB의 선별 시험 참가에 대한 특정, 공유 행동, 규범 및 통제 신념 및 모든 신념에 대한 참가자 1-17에 대한 누적 빈도 그래프를 제시한다. 다시, 선 위 또는 아래의 숫자 시퀀스 '1 2 3'은 정지 기준이 충족되었음을 강조한다. 

Summary data: Table 2 presents binary (yes/no) data and Figure 2 presents cumulative frequency graphs for participants 1–17, for the specific, shared Behavioural, Normative and Control beliefs, and all beliefs about attending a screening test for PDB. Again, the number sequence, ‘1 2 3’ above or below a line highlights that the stopping criterion was met. 


구성 수준 포화: 그림 2는 Paget의 질병에 대한 선별 검사를 실시할 때의 장단점에 대해 질문했을 때, 첫 번째 참가자가 네 가지 뚜렷한 행동적 믿음을 언급했음을 보여준다. 네 번째 인터뷰 이후 11개의 공통된 행동신념이 도출되었다. 

Construct-level saturation: Figure 2 shows that, when asked about advantages and disadvantages of taking a screening test for Paget’s disease, the first participant mentioned four distinct Behavioural beliefs. After the fourth interview, 11 shared Behavioural beliefs had been elicited. 


스터디 포화 상태: 모든 신념의 범주. 마지막으로, 그림 2에서 모든 신념범주를 나타내는 선은 10번의 인터뷰 후에 초기 분석 표본이 31개의 공유된 신념을 산출했음을 보여준다. 인터뷰 11과 12는 세 가지 새로운 신념을 만들어냈다. 인터뷰 13에서는 새로운 믿음은 없었지만 인터뷰 14에서는 한 가지 더 많은 신념이 도출되었다. 17번의 인터뷰가 있은 후, 연구 데이터 포화상태가 이루어졌고, 따라서 인터뷰는 그 시점에서 중단되었다. 이 연구에서 도출된 공유된 신념의 총 수는 35개였다. 

Studywise saturation: All belief categories. Finally, from Figure 2, the line representing all belief categories shows that, after 10 interviews, the initial analysis sample had yielded 31 shared beliefs. Interviews 11 and 12 generated three new shared beliefs. In interview 13 there were no new beliefs but one further belief was elicited in interview 14. Studywise data saturation was achieved after17 interviews, and so interviewing ceased at that point. The total number of shared beliefs elicited in the study was 35. 







일반적 고찰

General discussion


데이터 포화 원리(최소 10회 이상 면접을 위한 다양성 표본 추출, 새로운 주제 없이 3회 연속 면접, 누적 빈도 그래프로 순차적으로 데이터 표시)를 지정함으로써, Study 2 연구팀이 투명하고 신뢰할 수 있는 방식(인터뷰의 적절한 수행과 코딩의 신뢰성 확보)으로 데이터 포화 상태에 도달한 시점을 합의하고 보고할 수 있도록 지원 하였다. [구인 포화도]와 [연구 포화도]를 구별함으로써 다른 수준에서 샘플링의 포화도와 적절성을 평가할 수 있었다.

Specifying the principles of data saturation (purposive diversity sampling fora minimum of 10 interviews, three further consecutive interviews with no new themes and presentation of data sequentially as cumulative frequency graphs) enabled the Study 2 research team to agree, and report, the point at which data saturation was achieved, in a transparent and reliable manner (assuming appropriate conduct of the interviews and reliability of coding). By distinguishing between construct saturation and studywise saturation it was possible to assess saturation and adequacy of sampling at different levels


이는 연구팀이 포화상태가 달성되었다고 주관적으로 판단했지만 정지기준을 소급 적용하면 해당 기준이 충족되었음을 입증하기 위해 적어도 두 번의 인터뷰가 더 필요하다는 것을 시사한 연구 1과 대비된다. 

This contrasts with Study 1, in which the study team had judged, subjectively, that saturation was achieved but retrospective application of the stopping criterion suggested that at least two more interviews would be necessary to demonstrate that the criterion had been met. 


제안된 기준이 너무 엄격한가? 구인 수준에서 연구 2의 결과를 검사하면 이 질문에 대답하는 데 도움이 될 수 있다. 만약 정지 기준이 구인 수준에서 적용되었다면, 

  • 행동신념만을 조사하기 위한 연구는 15번의 인터뷰 후에 샘플링을 중단했을 것이다; 

  • 규범신념만을 조사하기 위한 연구는 13번의 인터뷰 후에 샘플링을 중단했을 것이다; 그리고 

  • 제어신념만을 조사하기 위한 연구는 14번의 인터뷰 후에 샘플링을 중단했을 것이다.

만약 이런 일이 있었다면 인터뷰한 표본의 공동신념(전체 35명 중 3%)은 놓쳤을 것이다.

Is the proposed criterion too stringent? Inspection of the results from Study 2 at the construct level may help to answer this question. If the stopping criterion had been applied at the construct level, then 

  • a study to investigate only Behavioural beliefs would have ceased sampling after 15 interviews; 

  • a study to investigate only Normative beliefs would have ceased sampling after 13 interviews; and 

  • a study to investigate only Control beliefs would have ceased sampling after 14 interviews.

If this had occurred, one shared belief from the sample interviewed (out of the total of 35), or 3%, would have been missed.


이는 게스트와 동료의 조사 결과와 일치하며, 게스트는 총 60번의 인터뷰 중 첫 12번의 인터뷰가 97%의 중요한 코드를 도출했다고 보고했다. 따라서 10+/-3 기준은 완벽하지 않지만 상당히 효과적인 지침으로 나타난다(정량적 연구에 대한 0.05 유의성 기준에서 약 5%의 연구에서 유형 1 오류가 발생할 수 있다는 것을 허용하는 것과 같은 방식으로). 따라서 우리는 이러한 이론 기반 분석의 예에 대하여 이 접근방식이 견실한 것으로 보인다고 제안한다. 원칙은 다른 이론적 가정에 기초하거나 다른 종류의 연구 질문을 다루는 추가 연구에서 사용 및 시험에 적합할 수 있다. 정량적 연구의 원칙과 유사한 점은 일부 인터뷰 연구를 강화할 수 있지만 모든 인식론에 대해 편안하지는 않을 수 있다.

This is consistent with the findings of Guest and colleagues, who reported that the first 12 interviews elicited 97% of the important codes out of a total of 60 interviews. Thus, although the 10+/-3 criterion is not perfect, it appears to be a fairly effective guide (in the same way that the 0.05 significance criterion for quantitative studies allows that a Type 1 error may be made in approximately 5% of studies). We therefore suggest that this approach appears to be robust for these examples of theory-based analysis. The principles may be adaptable for using and testing in further studies based on different theoretical assumptions or addressing different kinds of research questions. Such parallels with the principles of quantitative research may strengthen some interview studies but may not sit comfortably with all epistemologies.


10 +/- 3 기준(이 적절한지)은 추가적으로 시험되어야 하지만, 우리는 데이터 포화 상태에 동의하는 일부 인정된 관례가 도움이 될 수 있다고 제안한다. 정량적 연구에 대한 0.05 유의 기준과 마찬가지로, 이와 같은 10+/-3 관례는 [다소 자의적이며 공유 또는 명시적 기준에 따라 정성적 연구를 평가하려는 시도에 동의하지 않는 연구자들]에게는 도움이 되지 않을 수 있다. 다른 연구자들은 연구의 목적이 다소 엄격한 기준을 요구하는 관습에서 벗어날 필요가 있는 시기를 결정하는 데 유용한 참고점을 발견할 수 있다.

While the 10 +/- 3 criterion should be tested further, we suggest that some accepted convention for agreeing data saturation could be helpful. Like the 0.05 significance criterion for quantitative studies, such a convention would be somewhat arbitrary and may not be helpful for researchers who disagree with attempts to appraise qualitative research according to shared and/or explicit criteria. Other researchers might find it a useful point of reference for deciding when it is necessary to deviate from the convention where the objectives of the study require a more, or less, stringent criterion.


연구들 간의 유사점은 (대조적인 행동 유형과 표본 추출에도 불구하고), 도출된 새로운 신념의 수가 약 6번의 인터뷰 후에 plateau에 도달하기 시작했다는 것이다(그러나 우리는 첫 6번의 인터뷰가 연구 1과 2의 공유된 믿음의 92%와 86%만을 생성하였기 때문에 이 시점에서 포화 상태에 이르렀다고 주장하지는 않을 것이다). 처음 10번의 인터뷰에 대한 자발적인 다양성 샘플링의 사용은 이 plateau을 일찍 달성하는 데 기여했을 가능성이 높다. 따라서 최소 표본 크기를 13으로 설정하면 태도, 주관적 규범 및 PBC와 관련된 거의 모든 믿음을 포착할 가능성이 매우 높다는 확신을 갖게 된다. 다른 이론에 근거한 내용 분석을 위해 유사한 방법으로 데이터를 표시하는 것은 어떤 초기 분석 표본 크기와 정지 기준이 적절한지 평가하는 데 유사하게 도움이 될 수 있다.

A similarity between the studies is that, despite contrasting types of behaviour and people sampled, the number of new beliefs elicited started to plateau after around six interviews (although we would not claim that saturation was reached at this point as the first six interviews generated only 92%and 86%of shared beliefs in Studies 1 and 2, respectively). It is likely that the use of purposive diversity sampling for the first 10 interviews contributed to achieving this plateau so early. This permits some confidence that setting the minimum sample size at 13 is very likely to capture almost all the beliefs relating to attitude, subjective norm and PBC. Presentation of the data in a similar way for content analysis based on other theories could similarly help to assess which initial analysis sample size and stopping criterion are appropriate.


물론 여기서 제안한 원칙에는 몇 가지 한계가 있다.

There are, of course, several limitations to the principles proposed here.


첫째, 초기 분석 표본과 정지 기준에 대해 제안된 실제 수치는 적합성을 입증하기 위해 일련의 증거들이 필요할 것이다. 또한, 특정 관례의 적합성은 다른 목적을 가진 연구와 다른 이론적 구조를 사용하는 연구에 따라 다를 수 있다(그러나 이것은 분명히 시험 가능하다). 우리가 제안하는 새로운 아이디어를 창출하지 않는 것이 포화도를 지정하는 중요한 도구가 될 수 있는 최소한의 인터뷰 횟수를 명시하고 그 다음 추가 횟수를 지정하는 원칙이다.

First, the actual numbers proposed for the initial analysis sample and stopping criterion would require a body of evidence to demonstrate their appropriateness. Furthermore, it is possible that the appropriateness of particular conventions might vary across studies with different objectives and using different theoretical constructs (but this is clearly testable). It is the principle of specifying a minimum number of interviews and then a further number that generate no new ideas that we propose may be an important tool for specifying saturation.


둘째, 이 원칙은 양질의 데이터 수집을 했다는 전제에 의존한다. 즉, 주도적인 질문이나 사전 해석 없이 프롬프트, 성찰, 격려를 사용하여 참가자의 견해를 이끌어낼 수 있는 적절하게 훈련되고 숙련된 면접관은 연구 과정의 필수적인 부분이다.

Second, the principles rely on high quality data collection. That is, appropriately trained and skilled interviewers who are able to use prompts, reflection and encouragement to elicit participants’ views without asking leading questions or pre-empting interpretations are an essential part of the research process.


셋째, 여기서 보고된 분석은 [어떤 것이 하나의 신념을 구성하는지에 대한 코더들 간의 명확성]이 있다고 가정한다. 이러한 가정은 TPB에 기초한 분석의 특수 사례에서 비논리적인 것으로 보였지만 다른 유형의 연구에서는 그러한 판단이 명확하지 않을 수 있다. 이것은 독특한 믿음과 공유된 믿음을 구별하는 데 중요할 것이다.

Third, the analyses reported here assume clarity among the coders about what constitutes a single belief. This assumption appeared to be non-problematic in the special case of analysis based on the TPB but such judgements may not be as clear in other types of studies. This would be important in distinguishing between idiosyncratic and shared beliefs.


결론적으로 이론 기반 콘텐츠 분석을 사용하는 향후 인터뷰 연구에 대해 다음과 같은 권고안을 제시한다. 

  • 첫째, 연구자들은 연구 프로토콜에 연구 데이터 포화 기준을 명시하고(최초 분석 샘플의 크기와 중단 기준의 결정) 이러한 기준을 간행물(프로토콜 출판물 포함)에 보고할 수 있다. 

  • 둘째, 포화 결정의 투명성과 검증가능성을 높이고 다른 종류의 연구 주제(특정 파트에 대한 특정 이슈의 복잡성 또는 다면성에 대한 설명 등)를 다루기 위해, 여기에 그림처럼 누적 빈도 그래프를 사용하여 데이터를 효과적으로 조직하고 제시할 수 있다.예상 그룹). 

  • 셋째로, 다양한 유형의 인터뷰 연구에서 표본 크기에 대한 결정을 위한 관례를 확립하기 위해 일련의 증거들이 축적될 수 있다. 이 생각을 반성하고 발전시키기 위한 추가적인 연구가 필요하다.

In conclusion, we offer the following recommendations for future interview studies that use theory-based content analysis. First, researchers could specify a priori their criteria for studywise data saturation in study protocols (deciding the size of the initial analysis sample and the stopping criterion) and report these criteria in publications (including publications of protocols). Second, data could effectively be organised and presented using cumulative frequency graphs, as illustrated here, to enhance the transparency and verifiability of the decision that saturation is achieved and to address different kinds of research topics (such as descriptions of the complexity or multifaceted nature of certain issues for certain participant groups). Third, a body of evidence could thereby be accumulated to establish a convention for decisions about sample sizes in different types of interview study. There is a need for further research to reflect on and develop this idea.







, 25 (10), 1229-45
 

What Is an Adequate Sample Size? Operationalising Data Saturation for Theory-Based Interview Studies

Affiliations 

Affiliation

  • 1Health Services Research Unit, University of Aberdeen, Aberdeen, UK. j.francis@abdn.ac.uk

Abstract

In interview studies, sample size is often justified by interviewing participants until reaching 'data saturation'. However, there is no agreed method of establishing this. We propose principles for deciding saturation in theory-based interview studies (where conceptual categories are pre-established by existing theory). First, specify a minimum sample size for initial analysis (initial analysis sample). Second, specify how many more interviews will be conducted without new ideas emerging (stopping criterion). We demonstrate these principles in two studies, based on the theory of planned behaviour, designed to identify three belief categories (Behavioural, Normative and Control), using an initial analysis sample of 10 and stopping criterion of 3. Study 1 (retrospective analysis of existing data) identified 84 shared beliefs of 14 general medical practitioners about managing patients with sore throat without prescribing antibiotics. The criterion for saturation was achieved for Normative beliefs but not for other beliefs or studywise saturation. In Study 2 (prospective analysis), 17 relatives of people with Paget's disease of the bone reported 44 shared beliefs about taking genetic testing. Studywise data saturation was achieved at interview 17. We propose specification of these principles for reporting data saturation in theory-based interview studies. The principles may be adaptable for other types of studies.


+ Recent posts