교육연구를 위한 설문지 개발(AMEE Guide No.87)

Developing questionnaires for educational research: AMEE Guide No. 87

ANTHONY R. ARTINO, JR.1, JEFFREY S. LA ROCHELLE1, KENT J. DEZEE1 & HUNTER GEHLBACH2

1Uniformed Services University of the Health Sciences, USA, 2Harvard Graduate School of Education, USA


 

 


도입: 의학교육연구에서의 설문

Introduction: Questionnaires in medical education research


2011년과 2012년 Meadical Teacher에 출판된 원저를 분석한 연구에 따르면, 37개(24%)의 논문에서 설문조사를 연구 설계의 한 부분으로 활용하였다. 비슷하게, 설문은 GME 연구에서도 흔히 사용된다. JGME에 2011~2012년에 출판된 논문의 75%가 설문을 사용하였다.

In our recent review of original research articles published in Medical Teacher in 2011 and 2012, we found that 37 articles (24%) included surveys as part of the study design. Similarly, surveys are commonly used in graduate medical education research. Across the same two-year period (2011–2012), 75% of the research articles published in the Journal of Graduate Medical Education used surveys.


의학교육에서 설문이 널리 사용되고 있지만, 어떻게 설문을 설계하는 것이 최선인지에 대한 논문은 별로 없다.

Despite the widespread use of surveys in medical education, the medical education literature provides limited guidance on the best way to design a survey (Gehlbach et al. 2010). Consequently, many surveys fail to use rigorous methodologies or ‘‘best practices’’ in survey design.


설문 척도 설계의 체계적 7단계

A systematic, seven-step process for survey scale design


설문survey라는 용어는 광범위하게 사용되고 있어서, 전화 인터뷰, 포커스 그룹에 사용되는 문항 세트, 자기기입식 환자 설문의 질문 등을 포함한다.

The term ‘‘survey’’ is quite broad and could include the questions used in a phone interview, the set of items employed in a focus group and the questions on a self- administered patient survey (Dillman et al. 2009).


우리는 주로 자기기입식 설문에 초점을 두고자 하며, questionnaire라고 불리기도 한다.

we focus primarily on self-admin- istered surveys, which are often referred to as questionnaires.


questionnaire를 만들기 전에, 우선 설문이 연구질문이나 관심 대상이 되는 construct를 보는데 최선의 방법인지를 결정해야 한다. Construct란 연구자가 평가하고자 하는 모델/아이디어/이론을 말한다.

Before creating a questionnaire, however, it is imperative to first decide if a survey is the best method to address the research question or construct of interest. A construct is the model, idea or theory that the researcher is attempting to assess.


예컨대, 의과대학생의 만족도에 대해서 관심이 있다고 하면, 단순히 '얼마나 만족하나요?'라고 물어볼 수도 있다. 그러나 더 나은 방법은 만족도를 구성하는 여러 측면을 물어보도록 설계하는 것이다 (교육 시설에 대해서 / 교수자에 대해서 / 스케줄에 대해서 얼마나 만족하나요?)

As an example,consider a medical education researcher interested in assess-ing medical student satisfaction. One approach would be to simply ask one question about satisfaction (e.g. How satisfied were you with medical school?). A better approach, however,would be to ask a series of questions designed to capture the different facets of this satisfaction construct (e.g. How satisfied were you with the teaching facilities? How effective were your instructors? and How easy was the scheduling process?). 



단계1: 문헌조사

Step 1: Conduct a literature review


문헌조사의 목적에는 두 가지가 있다. (1)Cosntruct를 명확히 정의함, (2) Construct의 척도(혹은 관련된 construct)가 이미 존재하는지 확인함.

There are two primary purposes for the literature review: (1) to clearly define the construct and (2) to determine if measures of the construct (or related constructs) already exist.


 

모든 타당도 연구에서 construct를 명확히 정의내리는 것은 필수적인 단계이다. Construct에 대한 좋은 정의는 기존 문헌과의 관계 속에서 위치하게 되며, 다른 construct와 어떻게 관계되는지, 관련된 construct들과 어떻게 다른지 등을 필요로 한다. 잘 쓰여진 정의는 그 construct를 어느 수준에서 추상화하여 측정할 것인지를 결정하는데도 도움이 된다 ('입자 크기grain size'라고 불리는 것). 예컨대, 필수 임상술기 수행에 대한 피훈련자의 자신감을 연구할 때, 청진에 얼마나 자신이 있는지를 평가하는 척도를 개발할 수도 있고(small grain), 신체검진을 수행해보게 할 수도 있고(medium grain), 어떤 전공specialty에 관해서 필수 임상술기를 수행하게 할 수도 있다(large grain)

Formulating indispensable how a first clear step definition of the construct is an the in any validity study clarify (Cook & Beckman 2006). A good definition will construct is positioned within the existing literature, how it relates to other constructs and how it is different from related constructs (Gehlbach & Brinkworth 2011). A well-formulated definition also helps to determine the level of abstraction at which to measure a given construct (the so-called ‘‘grain size’’,as defined by Gehlbach & Brinkworth 2011). For example, to examine medical trainees’ confidence to perform essential clinical skills, one could develop scales to assess their confidence to auscultate the heart (at the small-grain end of the spectrum), to conduct a physical exam (at the medium-grain end of the spectrum) or to perform the clinical skills essential to a given medical specialty (at the large-grain end ofthe spectrum).


비록 많은 의학교육연구자들이 설문지를 독립적으로 개발하지만, 기존의 설문지를 활용하는 것이 더 효율적일 수 있다.

Although many medical education researchers prefer to develop their own surveys independently, it may be more efficient to adapt an existing questionnaire


SEPT에서 묘사된 것과 같기, '타당도'란 그 척도의 의도한 목적을 지지하는 근거의 정도degree이다.

As described in the Standards for Educational and Psychological Testing, validity refers to the degree to which evidence and theory support a measure’s intended use (AERA, APA, & NCME 1999).


더 나아가서, 신뢰도/타당도는 설문도구의 특성이 아니라, 설문에서 얻은 점수와 그 해석에 대한 것이다. 

Furthermore, it is important to acknowledge that reliability and validity are not properties of the survey instrument, per se, but of the survey’s scores and their interpretations (AERA, APA, & NCME 1999). 


 

단계2: 인터뷰/포커스 그룹 수행

Step 2: Conduct interviews and/or focus groups
 

또 다른 말로는, 인터뷰 응답자들은 construct에 대하여 문헌에서 나온 것과 동일한 특성을 포함(또는 배제)시켰는가? 인터뷰 응답자들이 construct를 묘사할 때 어떤 단어를 사용하였는가?

 

In other words, do respondents include and exclude the same features of the construct as those described in the literature? What language do respondents use when describing the construct?


비유를 들자면 의사와 환자는 둘 다에게 받아들여질 수 있는 새로운 계획을 개발해야 한다. 많은 의사들은 환자를 대하는데 어려움을 겪곤 한다. construct도 마찬가지인데, 연구자는 construct를 정의내릴 때 불가피하게 연구자 자신의 관점과 편견을 반영시키게 되므로, 타인의 관점이 필요하다.

The clinician and patient then must develop a new plan that is acceptable to both. Many clinicians have also experienced difficulty treating a patient, A construct is no different. the researcher unavoidably brings his/her perspectives and biases to this definition, Thus, other perspectives are needed.


설계 프로세스의 2단계를 완수하기 위해서, 설문 개발자는 응답자의 관점에서의 input을 필요로 한다. 인터뷰와 포커스 그룹은 그러한 input을 얻는데 합당한 방법이다.

In order to accomplish Step 2 of the design process, the survey designer will need input from prospective respondents. Interviews and/or focus groups provide a sensible way to get this input.


단계 3: 문헌리뷰와 인터뷰 결과를 합하기

Step 3: Synthesize the literature review and interviews/focus groups


 

3단계를 수행하는 합당한 방식 중 하나는, 문헌조사와 인터뷰 결과를 합해서 construct를 위한 지표의 포괄적 목록을 만드는 것이다.

One suitable way to conduct Step 3 is to develop a comprehensive list of indicators for the construct by merging the results of the literature review and interviews/focus groups (Gehlbach & Brinkworth 2011).


이들 자료가 개념적으로 유사하지만 문헌과 인터뷰 응답자가 서로 다른 용어로 construct를 묘사하고 있다면, 인터뷰 응답자의 용어를 활용하는 것이 보다 합당하다. 예컨대, 교사의 자신감('자기효능감')을 평가하 때, '새로운 테크닉을 시도할 때의 자신감'을 물어보는 것이 '신교수법 활용의 효과성'이라고 물어보는 것보다 낫다.

When these data are similar conceptually, but the literature and potential respondents describe the construct using different terminology, it makes sense to use the vocabulary of the potential respondents. For example, when assessing teacher confidence (sometimes referred to as teacher self-efficacy), it is probably more appropriate to ask teachers about their ‘‘confidence in trying out new teaching techniques’’ than to ask them about their ‘‘efficaciousness in experimenting with novel pedagogies’’ (Gehlbach et al. 2010).


최종적으로 문헌에서 찾은 것과 다른 식의 construct definition을 내리기 위해서는 합당한 이유가 있어야 한다.

It is worth noting that scholars may have good reasons to settle on a final construct definition that differs from what is found in the literature.



 

단계 4: 문항 개발

Step 4: Develop items


일반적으로, 궁극적으로 최종 스케일에 활용될 문항의 숫자보다 더 많은 수의 문항을 만드는 것이 낫다(8개 문항 설문을 만들기 위해서는 15개 문항 개발). 왜냐하면 일부 문항을 제거되거나 수정될 가능성이 높기 때문이다. 궁극적으로, 문항의 숫자를 결정하는 것은 professional judgment의 문제이긴 하나, 가장 협소하게 정의된 construct에 대해서 6~10개 정도의 문항으로 이뤄진 스케일이면 현상의 본질을 신뢰성있게 보여줄 수 있다.

In general, it is good practice to develop more items than will ultimately be needed in the final scale (e.g. developing 15 potential items in the hopes of ultimately creating an eight-item scale), because some items will likely be deleted or revised later in the design process (Gehlbach & Brinkworth 2011). Ultimately, deciding on the number of items is a matter of professional judgment, but for most narrowly defined constructs, scales containing from 6 to 10 items will usually suffice in reliably capturing the essence of the phenomenon in question.



Table 2 presents several item-writing pitfalls and offers solutions.


 

Table 2 and Figure 1 present several common mistakes designers commit when writing and formatting their response options.

 


Table 3 provides several examples of five- and seven-point response scales that can be used when developing Likert- scaled survey instruments.

 


 


단계 5: 전문가 확인validation

Step 5: Conduct expert validation


 

전문가 패널을 선정하기 전에, 누가 '전문가'로서의 자격을 갖췄는지에 대한 구체적 기준을 정해야 한다.

First, before selecting a panel of experts to evaluate the content of a new question- naire, specific criteria should be developed to determine who qualifies as an expert.


한 가지 유용한 접근법은 레퍼런스 목록에 등장하는 저자들을 찾는 것이다. 

 

One useful approach to finding experts is to identify authors from the reference lists of the articles reviewed during the literature search.


Rubio 등은 6~10명의 전문가를 권장했으며, 더 많은 전문가가 동원될수록 construct에 대한 더 명확한 합의가 생성될 수 있으며, 항목의 퀄리티와 관련성도 더 향상될 것이라고 했다.

Rubio et al. (2003) recommends using 6–10 experts, while acknowledging that more experts (up to 20) may generate a clearer consensus about the construct being assessed, as well as the quality and relevance of the proposed scale items.


일반적으로, 전문가 검토를 통해서 확인하려는 것은 대표성/명확성/관련성/분포 등이다.

In general, the key domains to assess through an expert validation process are representativeness, clarity, relevance and distribution.

  • 대표성: 문항들이 얼마나 전체 construct를 나타내는가 Representativeness is defined as how com-pletely the items (as a whole) encompass the construct,

  • 명확성: 문항의 기술된 형태가 얼마나 명확한가 clarity is how clearly the items are worded and

  • 관련성: 각 문항이 construct의 구체적 측면과 얼마나 연관되어있는가 relevance refers to the extent each item actually relates to specific aspects of the construct.

  • 분포: 분포는 늘 전문가 검토를 통해서 측정되는 것은 아니다. 왜냐하면 응답자가 특정 문항에서 '높은 점수를 선택하기에' 문항이 '얼마나 어려운가'와 같은 보다 미묘한 측면에 대한 것이기 때문이다. 다른 말로 하면, 평균적인 의과대학생 설문은 자신감 관련 문항에서 '해부학 시험에서 100점을 맞을 것으로 얼마나 자신합니까?'와 같이 물었을 때 높은 점수를 선택하기 매우 어렵다. 대신 이러한 문항을 '해부학 시험을 통과할 자신이 얼마나 있습니까'라고 물으면 학생들은 대답하기 더 수월할 것이다. 
    The distribution of an item is not always measured during expert validation as it refers to the more subtle aspect of how ‘‘difficult’’ it would be for a respondent to select a high score on a particular item. In other words, an average medical student may find it very difficult to endorse the self-confidence item, ‘‘How confident are you that you can get a 100% on your anatomy exam’’, but that same student may find it easier to strongly endorse the item, ‘‘How confident are you that youcan pass the anatomy exam’’. 


 

양적 자료 수집에 더하여, 설문 개발자들은 서술형 응답도 받아야 한다.

In addition to collecting quantitative data, questionnaire designers should provide their experts with an opportunity to provide free-text comments.


 

단계 6: 인지 인터뷰cognitive interviews 시행

Step 6: Conduct cognitive interviews

 


 

response process validity의 근거를 수집하는 것이 중요하다.

it is important to collect evidence of response process validity


이러한 근거를 수집하는 한 가지 방법은 cognitive interview 혹은 cognitive pre-testing 이라고 불리는 단계를 밟는 것이다.

One means of collecting such evidence is achieved through a process known as cognitive interviewing or cognitive pre-testing (Willis 2005).


cognitive interviews 의 결과는 응답자들이 문항 또는 보기를 어떻게 해석함에 있어서 어떠한 실수를 하는지 알아보기에 좋다. 질적 테크닉으로서, 이 단계의 분석은 수치자료에 대한 통계적 분석이 아니라, 인터뷰의 코딩과 해석에 의존한다. 따라서 표본 크기는 작은 편이며 10~30명의 대상자만 포함한다.

Results from cognitive interviews can be helpful in identifying mistakes respondents make in their interpretation of the item or response options (Napoles-Springer et al. 2006; Karabenick et al. 2007). As a qualitative technique, analysis does not rely on statistical tests of numeric data but rather on coding and interpretation of written notes from the interview. Thus, the sample sizes used for cognitive interviewing are normally small and may involve just 10–30 participants (Willis & Artino 2013).


Cognitive interviewing 은 심리학에서 테크닉을 가져왔으며, 통상적으로 응답자가 설문에 응답할 때 일련의 cognitive process를 거친다고 가정한다. 이 단계에는...

Cognitive interviewing employs techniques from psych- ology and has traditionally assumed that respondents go through a series of cognitive processes when responding to a survey. These steps include

  • comprehension of an item stem and answer choices,

  • retrieval of appropriate information from long-term memory,

  • judgment based on comprehension of the item and

  • their memory and finally selection of a response (Tourangeau et al. 2000).

 

응답자가 각 단계에서 difficulty를 겪을 수 있기 때문에, cognitive interview 는 모든 잠재적 문제에 대응할 수 있게 설계 및 기술script되어야 한다. 중요한 첫 번째 단계는 각 문항에 대하여 설문 개발자가 애초에 의도한 의미를 반영할 수 있는 코딩 기준을 만드는 것이다. 이것은 cognitive interview 과정에서 수집되는 응답의 해석을 도와준다.

Because respondents can have any cognitive interview difficulty at stage, a should be designed and scripted to address any and all of these potential problems. An important first step in the cognitive interview process is to create coding criteria that reflects the survey creator’s intended meaning for each item (Karabenick et al. 2007), which can then be used to help interpret the responses gathered during the cognitive interview.


cognitive interview 를 수행하는 두 가지 주요 테크닉은 think-aloud technique verbal probing이다.

The two major techniques for conducting a cognitive interview are the think-aloud technique and verbal probing.

 

  • 응답하면서 떠오르는 모든 생각을 말로 표현하게 함. 인터뷰어는 지속적으로 말을 하도록 장려함으로써 이 과정을 지지해주며, 말한 내용을 기록한다. 그러나 대부분의 응답자에게 이 과정은 부자연스럽거나 어려우며, 방대한 양의 free-response data를 생성한다는 단점이 있다.
    The think-aloud technique requires respondents to verbalize every thought that they have while answering each item. Here, the interviewer simply supports this activity by encouraging the respondent to keep talking and to record what is said for later analysis (Willis & Artino 2013). This technique can provide valuable information, but it tends to be unnatural and difficult for most respondents, and it can result in reams of free-response data that the survey designer then needs to cull through.

  • 보다 능동적인 형태의 자료 수집으로서, 인터뷰어가 일련의 probe 질문을 던져서 구체적인 정보를 얻는 것이다. 보통 동시적 probing과 후향적 probing으로 나눠진다.
    A complementary procedure, verbal probing, is a more active form of data collection where the interviewer adminis- ters a series of probe questions designed to elicit specific information (Willis & Artino 2013; see Table 4 for a list of commonly used verbal probes). Verbal probing is classically divided into concurrent and retrospective probing.

    • 동시적 프로빙: 응답을 하는 중간에 물어봄. 최근의 생각을 응답할 수 있음.
      In concur- rent probing, the interviewer asks the respondent specific questions about their thought processes as the respondent answers each question. Although disruptive, concurrent probing has the advantage of allowing participants to respond to questions while their thoughts are recent.

    • 후향적 프로빙: 모든 설문을 마친 이후에 하게 되며, 덜 disruptive함. 단점은 recall bias와 hindsight effect.
      Retrospective probing
      , on the other hand, occurs after the participant has completed the entire survey (or section of the survey) and is generally less disruptive than concurrent probing. The down- side of retrospective probing is the risk of recall bias and hindsight effects (Drennan 2003).

    • 즉각적 후향적 프로빙: 두 가지를 변형한 것으로서, 인터뷰어가 설문 중간에 자연스럽게 break를 포함히켜 두는 것이다. 각 항목 사이에 interruption이 없다. recall bias나 hindsight effect를 줄여준다.
      A modification to the two verbal probing techniques is defined as immediate retrospect- ive probing, which allows the interviewer to find natural break points in the survey. Immediate retrospective probing allows the interviewer to probe the respondent without interrupting between each item (Watt et al. 2008). This approach has the potential benefit of reducing the recall bias and hindsight effects while limiting the interviewer interruptions and decreasing the artificiality of the process.

 

실제로는 많은 cognitive interview는 think-aloud와 verbal probing을 모두 사용한다.

In practice, many cognitive interviews will actually use a mixture of think-aloud and verbal probing techniques to better identify potential errors.



 

일단 cognitive interview 가 완료되면, 몇 가지 분석법이 있다.

Once a cognitive interview has been completed, there are several methods for analyzing the qualitative data obtained.

 

한 가지 방법은 coding을 하는 것이다. 사전에 결정된 코드에 따라서 자주 발생하는 에러/각 에러의 빈도/에러의 심각성 등을 코딩한다.

One way to quantitatively analyze results from a cognitive interview is through coding. With this method, pre-determined codes are established for common respondent errors (e.g. respondent requests clarification), and the frequency of each type of error is tabulated for each item(Napoles-Springer et al. 2006). In addition, codes may be ranked according to the pre-determined severity of the error.

 

양적 결과가 해석을 하기에는 용이하나, 예측하지 못한 에러를 놓치거나 왜 그러한 에러가 발생하는지에 대한 설명은 해주지 못한다. 따라서 질적 접근법이 활용되기도 한다. interaction analysis는 사람들이 대화를 하는 도중에 해석하고 상호작용하는 방식을 묘사하고 설명할 때 사용되는 전형적인 방법이며, cognitive interview에도 적용되어서 응답의 의미를 해석하는데 사용할 수 있다.

Although the quantitative results of this analysis are often easily interpretable, this method may miss errors not readily predicted and may not fully explain why the error is occurring (Napoles-Springer et al. 2006). As such, a qualitative approach to the cognitive an interaction interview can also be employed through analysis. Typically, an interaction analysis attempts to describe and explain the ways in which people interpret and interact during a conversation, and this method can be applied during the administration of a cognitive interview to determine the meaning of responses (Napoles-Springer et al. 2006).

 

coding과 interaction analysis가 상당히 효과적이며, 새로운 설문지에 대한 cognitive validity를 제공한다.

Studies have demonstrated that the combination of coding and interaction analysis can be quite effective, providing more information about the ‘‘cognitive validity’’ of a new question- naire (Napoles-Springer et al. 2006).


 

단계7: 파일럿 테스트

Step 7: Conduct pilot testing

 

 

 

설문의 내적 구조를 확인하고 어떤 문항이 single underlying construct를 측정하는지 평가하기 위해서는 (척도의 단차원성), 설문 개발자는 factor analysis 등을 활용해야 한다. 요인분석은 ‘‘the number of distinct constructs needed to account for the pattern of correlations among a set of measures’’

To ascertain the internal structure of the questionnaire and to evaluate the extent to which items within a particular scale measure a single underlying construct (i.e. the scale’s uni- dimensionality), survey designers should consider using advanced statistical techniques such as factor analysis. Factor analysis is a statistical procedure designed to evaluate ‘‘the number of distinct constructs needed to account for the pattern of correlations among a set of measures’’ (Fabrigar & Wegener 2012, p. 3).

 

단일한 construct를 평가하기 위해 개발된 설문 스케일의 차원성dimensionality를 평가하기 위해서는 우리는 CFA를 활용하기를 권고한다. 다른 학자들은 새로운 척도의 분석에는 EFA가 더 적절하다고 주장하기도 한다. 구체적인 분석 방법과 무관하게, 연구자들은 요인분석이 종종 잘못 이해되고 잘못 수행된다는 것을 알아야 한다. 가이드가 있다.

To assess the dimensionality of a survey scale that has been deliberately constructed to assess a single construct (e.g. using the processes described in this study), we recom- mend using confirmatory factor analysis techniques; that said, other scholars have argued that exploratory factor analysis is more appropriate when analyzing new scales (McCoach et al. 2013). Regardless of the specific analysis employed, research- ers should know that factor analysis techniques are often poorly understood and poorly implemented; fortunately, the literature is replete with many helpful guides (see, for example, Pett et al. 2003; McCoach et al. 2013).


가장 흔한 신뢰도 평가 척도는 Cronbach's alpha이다. 그러나 흔히 생각하는 것처럼 Cronbach's alpha는 척도의 단-차원성의 좋은 척도는 아니다. 따라서 대부분의 경우에 설문 개발자는 먼저 요인분석을 수행하여 척도의 단차원성을 평가한 다음, 신뢰도 분석을 진행해서 internal consistency를 평가해야 한다. Cronbach's alpha가 척도의 길이에 민감하기 때문에, 다른 모든 조건이 동등하다면 더 긴 척도가 더 높은 점수를 얻게 해준다. 당연히 척도의 길이와 이에 따른 내적 일관성의 향상은 응답자에게 과도한 부담이 되지 않도록 균형을 이뤄야 한다. 설문지가 너무 길거나 응답자가 피로해지면 응답의 오류가 수반되기 마련이다.

The most common means of assessing scale reliability is by calculating a Cronbach’s alpha coefficient. It is important to note that Cronbach’s alpha is not a good measure of a scale’s uni-dimensionality (measuring a single concept) as is often assumed (Schmitt 1996). Thus, in most cases, survey designers should first run a factor analysis, to assess the scale’s uni-dimensionality and then proceed with a reliability analysis, to assess the internal consistency of the item scores on the scale (Schmitt 1996). Because Cronbach’s alpha is sensitive to scale length, all other things being equal, a longer scale will generally have a higher Cronbach’s alpha. Of course, scale length and the associated increase in internal consistency reliability must be balanced with over-burdening respondents and the concomitant response errors that can occur when questionnaires become too long and respondents become fatigued.


척도의 단-차원성과 내적 일관성이 평가되고 난 다음에는, 설문 개발자는 각 척도를 종합한 점수composite score를 생성한다. 연구질문에 따라 다르겠지만, 이러한 종합점수는 독립/종속 변인으로 사용된다. 종합점수는 단순히 평균을 낸 점수가 될 수 있다(가중치가 있거나 없거나). 평균점수를 사용하는 것이 점수 합을 내는 것보다 장점이 있다.

Once a scale’s uni-dimensionality and internal consistency have been assessed, survey designers often create composite scores for each scale. Depending on the research question being addressed, these composite scores can then be used as independent or dependent variables. A composite score is simply a mean score (either weighted or unweighted) of all the items within a particular scale. Using mean scores has several distinct advantages over summing the items within a particular scale or subscale.

  • 점수를 anchor에 따라 해석하기가 더 직관적
    First, mean scores are usually reported using the same response scale as the individual items; this approach facilitates more direct interpretation of the mean scores in terms of the response anchors.

  • 개인이나 집단 수준에서 차이를 비교하기 좋음. Colliver는 "점수의 합계는 척도와 문항 수를 모두 반영하게 되는데, 이는 점수 간 차이를 더 과장시키며, 실제보다 그 차이가 가지는 의미를 더 과장시킨다"
    Second, the use of mean scores makes it clear how big (or small) measured differences really are when comparing individuals or groups. As Colliver et al. (2010) warned, ‘‘the sums of ratings reflect both the ratings and the number of items, which magnifies differences between scores and makes differences appear more important than they are’’ (p. 591).




Christian LM, Parsons NL, Dillman DA. 2009. Designing scalar questions for web surveys. Sociol Method Res 37:393–425.


Sullivan G. 2011. A primer on the validity of assessment instruments. J Grad Med Educ 3(2):119–120.


Sullivan GM, Artino AR. 2013. Analyzing and interpreting data from Likert- type scales. J Grad Med Educ 5(4):541–542.


Rickards G, Magee C, Artino AR. 2012. You can’t fix by analysis what you’ve spoiled by design: developing survey instruments and collecting validity evidence. J Grad Med Educ 4(4):407–410.



 



 

 


 





 2014 Jun;36(6):463-74. doi: 10.3109/0142159X.2014.889814. Epub 2014 Mar 24.

Developing questionnaires for educational researchAMEE Guide No. 87.

Author information

  • 1Uniformed Services University of the Health Sciences , USA .

Abstract

In this AMEE Guide, we consider the design and development of self-administered surveys, commonly called questionnairesQuestionnaires are widely employed in medical education research. Unfortunately, the processes used to develop such questionnaires vary in quality and lack consistent, rigorous standards. Consequently, the quality of the questionnaires used in medical education research is highly variable. To address this problem, this AMEE Guide presents a systematic, seven-step process for designing high-quality questionnaires, with particular emphasis ondeveloping survey scales. These seven steps do not address all aspects of survey design, nor do they represent the only way to develop a high-quality questionnaire. Instead, these steps synthesize multiple survey design techniques and organize them into a cohesive process for questionnaire developers of all levels. Addressing each of these steps systematically will improve the probabilities that survey designers will accurately measure what they intend to measure.

PMID:
 
24661014
 
[PubMed - indexed for MEDLINE] 
PMCID:
 
PMC4059192
 
Free PMC Article


 

+ Recent posts