측정은 늘리고, 에러는 줄이고: 설문척도의 타당도 향상 프로세스(Review of General Psychology, 2011)

Measure Twice, Cut Down Error: A Process for Enhancing the Validity of Survey Scales

Hunter Gehlbach and Maureen E. Brinkworth

Harvard Graduate School of Education





설문조사 설계에 대한 대학원 교육의 부족이 원인일 수 있다. 설문지 개발에 대한 학문적 가이드는 너무 많이 존재하지만, 그저 방법론 저널에 고립되어 있으며, 실제로 설문조사를 설계하는 사람들은 이것을 알지 못하고, 또는 리커트 접근법만을 통해 척도를 개발하는 오랜 습관은 새로운 기술이 등장하였음에도 불구하고 죽지 않는다(McIver & Carmines, 1981). 

Perhaps a paucity of graduate training on survey design is to blame; perhaps too much of the scholarly guidance on questionnaire development remains sequestered in methodology journals thereby eluding those who actually design surveys; or perhaps longstanding habits of developing scales through the solitary Likert approach (McIver & Carmines, 1981) die hard, despite the availability of new techniques.


알려진 여러 설문조사 설계 관행을 종합하기 위해 노력하기보다는, 오히려 우리는 이전 프로세스와 다른 새로운 프로세스를 만들고자 한다(예: Clark & Watson, 1995; Comrey, 1988; Simms, 2008) 

Rather we strive to synthesize several known (though not necessarily widely known) survey design practices to create a new process that differs importantly from previous processes (e.g., Clark & Watson, 1995; Comrey, 1988; Simms, 2008)


비록 우리가 기술하는 많은 기법이 개별 설문조사 항목의 개발에 적용되지만, 우리는 척도 개발에 초점을 맞춘다. 즉, 척도 개발이란, [동일한 underlying construct를 평가하기 위해 설계된 일련의 유사한 항목]에 대한 점수를 합산하여 참여자의 construct에 대한 점수를 나타내는 것이다(DeVellis, 2003).

Although many of the techniques we describe apply to the development of individual survey items, we focus on scale development—that is, a series of similar items designed to assess the same underlying construct that are then summed to represent a participant’s score on the construct (DeVellis, 2003).


"전형적인" 설문 설계 과정

A “Typical” Survey Design Process


몇몇 저자들이 학자들을 위한 훌륭한 가이드를 제공했다.

Several authors have provided excellent guidance for scholars


첫째, 이러한 프로세스의 목표는 일반적으로 동일하다. 즉, 구인타당도의 증거를 입증하는 척도를 만드는 것이다. 구인타당도는 내용, 실질, 구조, 일반화성, 외부화 및 결과적 등 다양한 형태로 존재한다.

First, the goal of these processes is generally the same—to produce a scale that demonstrates evidence of construct validity. Construct validity comes in many forms—content, substantive, structural, generalizability, external, and consequential—


구인타당도는 다음의 함수이다

  • 평가 척도 내의 문항들, 

  • 응답자 집단, 

  • 응답자가 설문조사를 하는 맥락 

  • 설문조사에서 도출한 점수의 최종 사용(Messick, 1995). 

Construct validity is a function of 

  • the items within a survey scale, 

  • the population of respondents, 

  • the context in which they are taking the survey, and 

  • the ultimate use of the scores derived from the survey (Messick, 1995). 


그러므로 타당도는 척도의 고유한 성질이라기 보다는(즉, "validated scale"은 잘못된 명칭이다), 점수 사용의 목적에 따라서, 맥락마다, 응답자마다, 수집된 결과에 대한 근거를 학자들이 증거를 찾아야 하는 것이다.

Thus, validity is not so much an endstate (i.e., the idea of a “validated scale” is a misnomer) as a property of scales, which scholars can find increasing amounts of evidence for (or against) for different respondents in different contexts and for different uses of the resultant scores.


둘째로, 설문조사를 설계하기 위한 이러한 과정을 살펴보면, 많은 권고사항들이 유사하다. 일반적인 템플릿은 

  • (a) 설문 설계자가 문제의 구인을 명확히 결정하고, 

  • (b) 문헌을 참고하여 새로운 척도가 필요한지 확인하고, 

  • (c) 문항 풀을 개발하며(이 때는 문항이 overly inclusive해도 된다)

  • (d) 항목에 대한 적절한 응답 형식을 선택하고, 

  • (e) 파일럿 시험을 여러 번 반복해야 한다고 제안한다.

Second, looking across these processes for designing surveys, many recommendations are similar. The general template suggests that survey designers should 

  • (a) clearly determine the construct in question, 

  • (b) consult the literature to ascertain whether a new scale is needed, 

  • (c) develop an item pool (that should be overly inclusive), 

  • (d) select appropriate response formats for items, and 

  • (e) conduct several iterations of pilot testing.


이러한 프로세스의 대부분은 예비 표본에서 파일럿 데이터를 수집한 후 연구자가 취할 수 있는 분석적 접근방식에 초점을 맞춘다. 이 정신측정 도구 키트에는 평가하기 위한 분석

The bulk of these processes center on the analytic approaches a researcher can take after having collected pilot data from a preliminary sample. This psychometric toolkit includes analyses to assess: 

  • item-level means and variability; 

  • inter-item and item-total correlations; 

  • reliability (e.g., coefficient alpha or test–retest); 

  • factor structure (e.g., exploratory and/or confirmatory factor analysis); 

  • multi-trait, multi-method matrix approaches to establishing validity; 

  • item-response theory; and so on. 


요약하자면, 이러한 프로세스들은 문항 개발에는 중점을 덜 두고 있으며, 척도가 개발된 이후의 작업(back-end), 즉 어떻게 문항을 선택할 것인가를 더 강조한다.

In sum, these processes emphasize the back-end of scale development—that is, the selection of items—while focusing less on the development of items.


우리는 이 "일반적인" 조사 설계 과정이 개선될 수 있다고 주장한다.

we argue that this “typical” survey design process could be improved.


1단계: 문헌 고찰

Step 1: Literature Review


대부분의 척도개발 프로세스와 마찬가지로, 우리의 프로세스도 철저한 문헌 검토로부터 시작된다.

Congruent with most scale construction processes, our scale construction process begins with a thorough literature review.


이 단계에는 두 가지 목표가 있다: 문헌과 관련하여 구인을 정확하게 정의하고, 구인(또는 관련 구인)의 기존 척도가 얼마나 유용할 수 있는지를 식별하는 것이다. 첫째, 문헌에 대한 지식은 조사 설계자가 자신의 구조를 정의하여 이를 내부에 배치하고, 연결하며, 관련 개념과 구별하는 데 도움이 된다. 일부 연구자들이 도움이 될 수 있는 새로운 방법 중 하나는 관심 구인와 관련되지만 구별되는 구인들 사이에서 중첩 정도를 보여주는 벤다이어그램을 그려보는 것이다.

This step has two goals: to precisely define the construct in relation to literature and to identify how existing measures of the construct (or related constructs) might be useful. First, knowledge of the literature helps survey designers define their construct so as to situate it within, connect it to, and differentiate it from related concepts. A new practice that some researchers may find helpful is to sketch Venn diagrams that illustrate the degree of overlap between their construct of interest and related, but distinct, constructs.


특히, 이러한 도표는 학자들이 그들의 구성의 적절한 "grain size" 즉, 그들의 구성을 측정할 추상화 수준을 결정하는 데 도움을 줄 수 있다. 예를 들어, 학부생들의 사회적 성향을 조사하기 위해, 사람들은 (연속체의 작은 결말에서) 데이트를 하거나, 친구들과 시간을 보내거나, 다른 사람들과 상호작용하는 그들의 성향을 평가하기 위해 척도를 개발할 수 있다.

Of particular importance, these diagrams can help scholars determine the appropriate “grain size” of their construct, that is, the level of abstraction at which to measure their construct. For example, to investigate the social proclivities of undergraduates, one could develop scales to assess their propensity to go on dates (at the small-grain end of the continuum), spend time with friends, or interact with others (at the large-grain end of the continuum).


일단 연구자들이 그들의 관심 구인를 명확히 하면, 문헌을 검토함으로써 잠재적으로 사용가능한 기존 척도를 평가하는 데 도움이 된다. 척도 타당성 검사 연구, 방법 섹션, 부록 등이 일반적으로 표본 항목, 전체 척도, 척도의 심리측정적 특성을 제공한다. 어떤 경우에는 학자들이 관심구인과 밀접하게 일치하고 사소한 수정만으로 사용할 수 있는 척도를 발견할 수도 있다. 그러나 많은 경우에 문항 자체는 사용할 수 없을 수 있다(예: 항목의 판독 수준이 부적절하거나 항목이 모범 사례와 일치하지 않음). 그러나 이러한 문항도 새로운 항목을 개발하는 데 유용할 수 있다.

Once researchers clarify their construct of interest, reviewing the literature also serves to evaluate previous measures for potential use. Scale validation studies, methods sections, and appendixes typically provide sample items, the full scale, or both, as well as psychometric properties of the scale. In some instances, scholars may find scales that closely match their construct of interest and can use them with only minor modifications. In many cases, the items themselves might be unusable (e.g., the reading level of the items is inappropriate or the items do not comport with best practices). However, the content these items address might be valuable in developing new items.


2단계: 인터뷰 및 포커스 그룹

Step 2: Interviews and Focus Groups


문헌 검토가 완료되면 연구자들은 관심 모집단에 관심을 돌릴 수 있다. 즉, 여기부터가 기존에 권고된 설문조사 개발 과정에서 달라지는 점이다. 구체적으로, 연구자는 그들이 새로이 정교화한 개념이 잠재적 응답자들이 그 구인을 생각하는 방식과 일치하는지 확인할 필요가 있다. 

  • 응답자는 문헌에 있는 것과 동일한 범주를 포함하거나 제외하는가? 

  • 응답자는 관련 현상을 기술할 때 어떤 용어를 사용하는가? 

이러한 질문에 답하기 위해, 연구원들은 보통 관심 집단을 거의 닮은 개인들로부터 직접 데이터를 수집하기를 원할 것이다.

With the literature review completed, researchers can turn their attention to the population of interest—an important deviation from most traditional survey construction processes. Specifically, scholars need to ascertain whether their newly refined conceptualization of the construct matches the way their prospective respondents think about it. Do respondents include and exclude the same categories as those in the literature? What terminology do respondents use in describing relevant phenomena? To answer these questions, researchers will usually want to collect data directly from individuals who closely resemble their population of interest.


두 가지 주요 목표. 

  • 첫째, 연구자들은 참가자들이 자신의 언어로 관심구인에 대해 어떻게 생각하는지 들을 필요가 있으며, 연구자의 유도심문prompting은 최소화해야 한다. 

  • 둘째로, 가능한 한 많은 unprompted 정보를 얻은 후에, 설문 설계자들은 잠재적 응답자들이 문헌에 언급된 구인의 특정 특성에 동의하는지 여부를 평가하기 위해 더 많은 탐색질문을 할 수 있다.

two main objectives. 

  • First, researchers need to hear how participants think about the focal construct in their own words, with minimal prompting from the researcher. 

  • Second, after getting as much unprompted information as possible, survey designers can ask more directed, probing questions to assess whether respondents agree with certain characteristics of the construct noted in the literature.


구인이 다면적이었기 때문에, 우리는 문헌 검토에서 학생과 교사들이 중요하다고 느끼는 범주를 효율적으로 배우기 위해 Q-sort 기법의 적응을 고안했다. 인터뷰가 끝날 무렵, 참가자들은 우리가 문헌 리뷰에서 삭제한 TSR의 측면이 표시된 카드를 분류하는 Q-sort 절차를 완료했다. 구체적으로, 그들은 "이런 특징들이 각각 선생님/학생들과 긍정적인 관계를 발전시키는데 얼마나 중요한가?"라는 질문에 응답했다. 이에 대응하기 위해 참가자들은 카드를 매우 중요한/필수적인, 다소 중요한/상관없는 범주로 분류했다.

Because our construct was multifaceted, we devised an adaptation of the Q-sort technique to efficiently learn which categories from our literature review students and teachers felt were important. Toward the end of the interviews, participants completed a Q-sort procedure in which they sorted cards labeled with aspects of TSR that we had culled from our literature review. Specifically, they responded to the question, “How important are each of these characteristics to developing a positive relationship with your teacher/students?” To respond, participants grouped cards into the following categories: extremely important/essential, somewhat important, and not important/doesn’t matter.



3단계: 인터뷰와 문헌 고찰 통합–Focus 그룹 데이터

Step 3: Synthesizing the Literature Review With Interview–Focus Group Data


척도 개발 과정의 세 번째 단계는 해당 구조의 학문적 개념과 일반적 개념 사이에서 발생하는 차이를 조정하기 위한 초기 시도이다. 구체적으로, 이 단계의 목표는 [양측 모두 합의할 수 있는] 구인에 대한 완전한 개념을 제공하는 것이다. 문헌 검토 및 인터뷰-포커스 그룹 데이터로부터, 설문 설계자는 자신의 구인에 대한 포괄적인 지표 목록을 개발할 수 있다(4단계에서 초기 항목을 개발할 것이다). 이러한 데이터 출처의 병합과정은 기존 문헌과 의견제출자들이 특정 지표에 대한 합의가 이루어지면 쉬워진다.

The third step of this scale development process represents an initial attempt to reconcile differences that emerge between academic and lay conceptualizations of the construct in question. Specifically, the goal of this step is to provide a full conception of the construct with which both parties are likely to agree. From the literature review and the interview–focus group data, survey designers can develop a comprehensive list of indicators for their construct (from which they will develop initial items in Step 4). The merging of these sources of data is straightforward when prior literature and respondents agree on particular indicators.


개념적으로 서로 일치하더라도, 설명하는 방식이 서로 다를 때에는, 설문 설계자는 응답자의 언어를 사용할 수 있다. 만약 어떤 indicator가 한 가지 출처에서는 언급되지만, 다른 출처에서는 언급되지 않는 경우, 대부분의 연구자들은 우선은 지표를 유지하기를 원할 것이다. 후속 단계에서 해당 지표를 반영하는 항목이 적절한지 여부를 확인하는 검사를 제공할 것이다.

When they agree conceptually but describe the indicators in different ways, survey designers can use the vocabulary of their respondents. At this stage, when an indicator is mentioned from one source but not the other, most researchers will want to retain the indicator for the time being—later steps in the process will provide checks to see whether items that reflect that indicator seem appropriate.


4단계: 문항 개발

Step 4: Developing Items


목록을 종합한 후, 설문 개발자는 예비 문항을 작성할 수 있다. 이 단계의 목표는 3단계에서 확인된 indicator를 적절히 나타내는 항목을 개발하는 동시에, 잠재적 응답자에게 의미 있는 용어를 사용하는 문항을 개발하는 것이다(2단계부터). 이 단계에서는 두 가지 어려움이 있다.

After synthesizing their lists, survey designers can write preliminary items. The goal of this step is to develop items that adequately represent the indicators from Step 3 while using terminology that is meaningful to potential respondents (from Step 2). Two challenges predominate during this phase of scale development.


첫 번째 과제는 생성할 항목의 수를 결정하는 것이다. large-grain 구인의 경우, 각 지표에 해당하는 항목을 갖는 것은 불가능할 수 있다. 항목 수를 결정하는 것은 궁극적으로 연구자의 전문적인 판단에 달려 있으며, 전체 구성의 더 큰 부분을 나타내는 항목을 개발하는 것에 대한 친숙도facility에 달려있다. 그러나 보수적인 방식은, 최종 척도에 필요한 것보다 더 많은 항목을 개발하는 것이다(예: 궁극적으로는 8항목 척도를 개발하고자 15개의 잠재적 항목 개발). 또한 1단계에서 개발된 벤다이어그램과 비교하는 것도 이러한 항목을 점검하는 데 도움이 될 수 있다.

The first challenge lies in determining the number of items to generate. For large-grain constructs, having an item that corresponds to each indicator may be impossible. Deciding on the number of items ultimately rests with the professional judgment of researchers and (as we illustrate below) their facility in developing items that represent larger portions of the whole construct. However, the conservative path is to develop more items than are needed for the final scale (e.g., perhaps developing 15 potential items in the hopes of ultimately developing an eight-item scale). It may also help to check these items against the Venn diagrams developed in Step 1.


이 단계의 두 번째 도전은 각 항목을 실제로 표현하는데 있다. 일반적인 설문 조사 구성 접근방식의 단어 항목에 대한 지침은 다음에 대해 이야기한다.

  • 명확하고 모호하지 않은 언어를 사용한다. 

  • 편견을 방지한다. 

  • 품목의 스템이 반응 앵커와 일치하는지 확인한다. 

  • 민감한 정보를 요청할 때 응답자에게 불쾌감을 주지 않도록 주의한다. 

  • double-barreled item를 피하다

The second challenge of this step lies in actually wording each item. Much of the guidance on wording items in the typical survey construction approaches describes how designers should 

  • use clear, unambiguous language; 

  • guard against bias; 

  • ensure that the item stems cohere with the response anchors; 

  • be wary of offending respondents when asking for sensitive information; 

  • avoid double-barreled items; and so on. 


이것들은 중요한 기억장치들이지만, 아마도 많은 설문 조사 설계자들에게는 직관적일 것이다. 반대로, 똑같이 중요한 여러 문제은 조사 설계자들 사이에서 잘 알려져 있지 않은 것으로 보인다. 표 1은 그러한 다섯 가지 문제를 보여준다.

Although these are important reminders, they are probably intuitive for many survey designers. Conversely, a wide array of equally important issues appears to be less wellknown among survey designers. Table 1 illustrates five such issues


문항을 만드는 기술이 점점 과학화됨에 따라, 척도를 새롭게 만들 때는 이러한 경험적 연구결과에 대한 집합적 지식을 반영할 필요가 있다.

However, as the art of crafting items is increasingly becomes a science, new scales need to reflect the field’s collective knowledge of this empirical work.




5단계: 전문가 검토

Step 5: Expert Validation


잠재 문항 목록을 만든 후에, 설문 조사 설계자들은 그들의 초점을 그들의 학문적 청중에게 돌려줄 수 있다. 전문가 검증 단계를 통해 설문조사 설계자는 개별 항목의 construct relevance를 확인하는 데이터를 수집하고, 누락된 주요 지표가 있는지에 대해 이중 검사를 수행할 수 있다. 이를 위해, 설문조사 설계자는 해당 분야의 전문가를 찾아야 하며, 이들에게 문항의 집합이 특정 구조를 얼마나 잘 나타내는지를 검토를 요청해야 한다. 전문가들은 

  • 설문에 대한 평가 설계자의 정의를 읽고 설문에 응답한 뒤, 

  • 설문조사 설계자가 관심을 갖을 construct relevance, 명확성, 기타 특성에 대해 각 항목을 평가하고

  • 개별 항목에 대한 추가 의견을 작성하고, 

  • underrepresent되었거나 누락되었다고 판단되는 중요한 지표를 식별한다.

With a list of potential items in hand, survey designers can return their focus to their academic audience. The expert validation step allows survey designers to collect data that establishes the construct relevance of individual items and double checks for key omitted indicators. Toward this end, survey designers can identify experts in the field and invite them to judge how well a set of items represents a particular construct. Those judges then 

  • complete a survey in which they read the survey designers’ definition of the construct; 

  • rate each potential item on construct relevance, clarity, or other characteristics of concern to the survey designer; 

  • write-in additional comments about individual items; and 

  • identify any important indicators that they perceive to be underrepresented or absent.


또한 이 프로세스는 설계자가 자신의 규모에 대한 내용타당도를 정량화할 수 있는 기회를 제공한다.

This process also offers designers the chance to quantify thecontent validity of their scale


복수의 관련 척도를 작성하는 설계자에게 또 다른 유용한 기법은 전문가에게 각각의 문항을 구인(또는 "기타" 범주)에 match해보도록 요청하는 것이다. 이 프로세스는 해당 항목이 얼마나 차별적 타당성을 나타내는지를 조기에 제시한다(Hinkin, 1995).

Another useful technique for designers who are creating multiple related scales is to ask experts to match items to the construct they belong to (or to an “other” category)—this process provides an early indication of how well the items manifest discriminant validity (Hinkin, 1995).



6단계: 인지적 사전테스트

Step 6: Cognitive Pretesting


더 큰 규모의 파일럿 연구를 수행하기 전에 2차 리트머스 테스트는 잠재적 응답자들이 각 항목을 어떻게 이해하고 반응하는지 알아보는 것이다. "인지적 사전 시험" 또는 "인지적 인터뷰"의 관행은 응답자가 항목을 해석하는 방법을 배우기 위한 구조화된 접근법을 제공한다(Presser et al., 2004; Willis, 2005). 구체적인 접근방식은 다르지만, 이 기법의 핵심은 일반적으로 조사 설계자가 잠재적 응답자를 인터뷰하면서

  • (1) 질문에 포함된 단어를 응답자의 언어로 반복하게 하고(심지어 문항에 있는 단어는 하나도 쓰지 않게 하면서)

  • (2) 질문에 답할 때 하게 된 모든 생각을 보고하여 큰 소리로 생각하도록 한다. 

The penultimate litmus test, before conducting a larger scale pilot study, is to learn how potential respondents understand and respond to each item. The practice of “cognitive pretesting” or “cognitive interviewing” provides a structured approach for learning how respondents interpret items (Presser et al., 2004; Willis, 2005). Though specific approaches differ, the core of this technique usually entails the survey designer to interview potential respondents and ask them

  • (a) to repeat the question in their own words—sometimes without repeating any words from the question itself and 

  • (b) to think out loud by reporting every thought they have as they answer the question. 


인터뷰 도중 또는 인터뷰 말미에서 평가 설계자는 응답자가 각 항목을 어떻게 이해하고 있는지를 명확히 하기 위해 보통 탐색용probing 후속 질문을 한다. 이 프로세스의 상세한 예시를 위한 자세한 내용은 카라베닉 등을 참조하십시오. (2007) 

During or at the end of the interview the survey designer usually asks follow-up, probing questions to clarify how respondents understand each item. See Karabenick et al. (2007) for a detailed illustration of this process.


이 기법의 두 가지 측면이 중요하다. 

  • 첫째, 인지적 사전 테스트는 대부분의 응답자들에게 이상하고 부자연스럽다. 특히 자신의 내면의 독백을 외부 세계에 말로 표현해야 한다. 따라서, 연구자들은 응답자들에게 연습항목을 통해서 이러한 비통상적인 과정에 대해 연습하고 피드백을 받을 수 있게 한 뒤, 인지 사전 테스트 인터뷰를 시작한다. 

  • 째로, 이 기법은 또한 조사 설계자들이 자신이 만든 문항에 대해서 과도하게 생각하도록overthink 만들 수 있다(Willis, 2005). 즉, 설문응답자가 응답하는 도중에 질문을 해석하고 답변하는 방식은, 인지적 사전 시험 세션과 같이 오랜 시간에 걸쳐 고정된 항목에 대해 생각하는 때의 해석과 일치하지 않는 경우가 있다. 따라서 전문가들은 종종 문항을 수정하기에 앞서서, 그 항목에 대한 복수의 의견제출자들의 명확한 추세trends를 확인하도록 조언한다(Willis, 2005).

Two aspects of this technique are important to recognize. 

  • First, cognitive pretesting is strange and unnatural for most respondents—especially having to verbalize one’s inner monologue to the outside world. Thus, many researchers begin their cognitive pretesting interviews with a practice item that allows respondents to practice and receive feedback on this unusual process. 

  • Second, this technique can also lead survey designers to overthink their items (Willis, 2005). In other words, how respondents interpret and answer questions during a survey is sometimes incongruent with their interpretations when they fixate on an item for a protracted period of time during a cognitive pretesting session. Thus, experts often advise identifying clear trends from multiple respondents about a potentially problematic item before making changes (Willis, 2005).


파일럿테스트

Pilot Testing


조사 설계자의 최선의 노력과 이전 6단계의 엄격한 준수에도 불구하고 일부 항목은 여전히 문제가 될 수 있다. 그러나 이 단계에서 대부분의 문제는 더 큰 표본의 데이터가 없으면 탐지하기 어렵다. 따라서, 파일럿 시험의 목표는 규모가 더 많은 참가자들에게 규모를 관리하여 척도 내에서 어떻게 기능하는지 시험하고 척도가 다른 척도에 비해 어떻게 기능하는지 결정하는 것이다.

Despite the best efforts of survey designers and rigorous adherence to the previous six steps, some items may remain problematic. However, at this stage most problems are hard to detect without data from a larger sample. Thus, the goal of pilot testing is to administer the scale to a larger population of participants to test how items function within the scale and to determine how the scale functions relative to other measures.


일반적으로, 연구원들은 핵심 문항군을 찾을 때까지(즉, 최소한 몇 가지 서로다른 방법으로 신뢰도, 응집도, construct validity를 잘 보여줌) 관심집단과 닮은 표본으로부터 파일럿 테스트를 반복한다.

Usually, researchers iterate through pilot testing until they have a core group of items that function well (i.e., a reliable, cohesive group of items that manifest construct validity in at least a couple different ways) on a sample that closely resembles their population of interest.


예를 들어, 만약 우리가 문헌검토를 마무리하고 단순히 우리의 현존하는 지식에 의존했다면, 우리는 선생님과 같은 미묘한 점들을 우리의 관심의 구성 밖으로 떨어지는 인격적 특성으로 구별하지 않고, 특정한 학생을 우리의 관심의 구성으로 보살피는 선생님들의 행위와 같은 구별할 수 있었을 것이다. 

For example, if we had finessed the review of the literature and simply relied on our existing knowledge, we would not have distinguished subtleties such as teacher caring as a personality trait falling outside of our construct of interest but the act of a teacher caring about a particular student as being germane to our construct of interest. 


2단계와 3단계가 없었다면 우리는 학생들의 반응성, 그리고 학생들이 그들의 관계에 있어 중요한 측면으로서 그들의 선생님에 대한 합리적인 기대를 가지고 있는 것과 같은 중요한 지표를 놓쳤을 것이다. 

Without Steps 2 and 3 we would have missed important indicators such as student responsiveness and students having reasonable expectations for their teachers as important facets of the relationship. 


4단계에서 모범 사례를 알지 못하면 특정 문항에서 더 많은 응답 오류를 발생시킬 것이 거의 확실하다. 예를 들어, 일부 선행 조치에서 발견한 동의-불합리 대응 앵커와 함께 항목을 사용하려는 유혹을 받았을 수 있다. 

Ignorance of the best practices in Step 4 would almost certainly have introduced more respondent error into specific items, for example, we might have been tempted to use items with agree–disagree response anchors that we found in some prior measures without adapting them. 


5단계는 측량 건설에 대한 전형적인 접근방식에 비추어 특히 중요하다. 일반적인 접근방식에 따르면, 매우 큰 항목 풀을 초기에 구성하고, 그 다음에 파일럿 테스트를 통해 항목들을 정리한다(특히 척도의 요인 구조에 문제가 있는 것으로 판명될 때). 그러나 이러한 분리는 구조물의 중요한 측면을 생략할 수 있다. 우리가 수행한 전문가 테스트는 우리가 교사-학생 관계에서 학생 학습의 역할을 충분히 나타내지 못할 위험에 처해 있다는 것을 깨닫도록 도와주었다. 

Step 5 is especially important in light of the typical approaches to survey construction. Through the typical approach, very large item pools are often constructed initially and then items are pruned through pilot tests (often when they prove problematic for the factor structure of the scale). However, this pruning can result in the omission of critical aspects of the construct. The expert testing that we conducted helped us to realize that we were in danger of underrepresenting the role of student learning in teacher–student relationships. 


마지막으로, 6단계는 우리가 최선을 다했음에도 불구하고 일부 응답자들에게는 너무 어려운 어휘를 포함시켰다는 것을 깨닫게 해주었다. 다시 말하지만, 이 중요한 정보는 파일럿 테스트를 통해 쉽게 탐지되지 않을 수 있다.

Finally, Step 6 helped us realize that, despite our best efforts, we had still included some vocabulary that was too difficult for some of our respondents. Again, this important information could easily go undetected through pilot testing.


위협, 마지막 생각

Caveats and Concluding Thoughts


대표 표본, 응답률 극대화, 인센티브 사용, 배치 형식 조사, 양식(예: 종이와 연필 대 웹)은 다른 문헌에서 검토된 중요한 주제다(예: 딜먼, 스마이트, 2009).

Representative samples, maximizing return rates, use of incentives, layout–formatting of surveys, and modality (e.g., paper and pencil vs. web) are all critical topics reviewed elsewhere (e.g., Dillman, Smyth, & Christian, 2009).






For years psychologists across many subfields have undertaken the formidable challenge of designing survey scales to assess attitudes, opinions, and behaviors. Correspondingly, scholars have written much to guide researchers in this undertaking. Yet, many new scales violate established best practices in survey design, suggesting the need for a new approach to designing surveys. This article presents 6 steps to facilitate the construction of questionnaire scales. Unlike previous processes, this one front loads input from other academics and potential respondents in the item-development and revision phase with the goal of achieving credibility across both populations. Specifically, the article describes how (a) a literature review and (b) focus group–interview data can be (c) synthesized into a comprehensive list to facilitate (d) the development of items. Next, survey designers can subject the items to (e) an expert review and (f) cognitive pretesting before executing a pilot test.


+ Recent posts