설계로 망친 설문을 분석으로 고칠 수 없다: 설문도구 개발과 타당도 근거 수집

You Can’t Fix by Analysis What You’ve Spoiled by Design: Developing Survey Instruments and Collecting Validity Evidence


Gretchen Rickards, MD Charles Magee, MD, MPH Anthony R. Artino Jr, PhD

 

 


 

신뢰도와 타당도에 영향을 미치는 무수한 요인들. 잘 못 쓰여진 글귀, 레이아웃, 부적절한 보기

A plethora of factors affecting reliability and validity in surveys includes, but is not limited to, poor question wording, confusing question layout, and inadequate response op- tions.

 

 

질문1: 내 연구질문에 설문이 적절한 도구인가?

Question 1: Is a Survey an Appropriate Tool to Help Answer My Research Question?

 

 

설문 설계에서 contruct란 평가하고자하는 모델/아이디어/이론이다.

In the language of survey design, a construct is the model, idea, or theory you are attempting to assess.

 

설문은 종종 다른 유형의 자료 수집에서 보조자료이다.

surveys often supplement, rather than replace, other forms of data collection.

 

Contruct의 예로는 동기부여/만족/스스로 인식한 학습 등이 있다.

Examples of the constructs we often want to measure include things like motivation, satisfaction, and perceived learning.

 

 

질문2: 다른 사람이 이 construct를 연구한 적이 있는가?

Question 2: How Have Others Addressed This Construct in the Past?

 

 

당신이 어떤 construct 측정에 흥미가 있다면, 다른 사람들도 측정하려고 시도해봤을 가능성이 높다.

Odds are, if you are interested in measuring a particular construct, someone else has previously attempted to measure it, or something very similar.

 

이전에 타당도를 검증한 설문이라도, 추가적으로 신뢰도/타당도 검증이 필요하다.

It is important to note, however, that previously validated surveys require the collection of additional reliability and validity evidence in your specific context.

 

예컨대, 불안에 관한 설문은 well-being의 측면에서 적절할 수 있으나, 가장 knowledgeable한 학생을 평가하는데는 부적절하다. 평가도구는 그대로이고 해석만 달라져도 이렇게 된다.

For example, a survey of student anxiety might be appropriate for assessing aspects of well-being, but such a survey would be inappropriate for selecting the most knowledgeable medical students. In this example, the survey did not change, only the score interpretation changed.

 

 

질문3: 어떻게 문항을 개발할 것인가?

Question 3: How Do I Develop My Survey Items?

 

연구 대상자의 언어로 문항을 만드는 것이 중요하다. statement가 아니라 questio을 사용하라. 부정형 단어negatively worded 문항을 지양하라, 일반적인 동의 수준을 묻는 보기가 아니라, 측정하려는 구인을 강조하는 anchor를 사용하라 등이 있다. 널리 사용되긴 하나, 일반적인 동의 수준을 묻는 anchor(매우 동의, 동의, 중립, 반대, 매우 반대)는 상당한 측정 오차가 있다.

Developing items by using the vocabulary of your target population is also important. Other key principles of item development include writing questions rather than statements, avoiding negatively worded items, and using response anchors that emphasize the construct being measured rather than using general agreement response anchors.2,8 Although widely used, general agree- ment response anchors (eg, strongly disagree, disagree, neutral, agree, strongly agree) are well known to be subject to considerable measurement error.2

 

These sources have been described in the Standards for Educa- tional and Psychological Testing5 as evidence based on (1) content, (2) response process, (3) internal structure, (4) relationships with other variables, and (5) consequences.

 

질문4: 설문 문항이 construct에 관련되게 명확히 기술되었는가?

Question 4: Are the Survey Items Clearly Written and Relevant to the Construct of Interest?

 

질문5: 응답자는 내가 의도한 대로 문항을 해석할 것인가?

Question 5: Will Respondents Interpret My Items in the Manner That I Intended?

 

질문6: 내 설문 문항에서 얻은 점수의 신뢰도가 충분하며, 다른 척도와 관계는 어떠한가?

Question 6: Are the Scores Obtained FromMy Survey Items Reliable and Do They Relate to Other Measures as Hypothesized?

 

설문을 파일럿 테스트하고, 타당도 근거를 수집한다. 파일럿에서는 실제 수행 예정인 것과 동일한(웹-기반 혹은 종이-기반) 방식으로 설문을 하게 해야 한다.

The next step is to pilot test your survey and to begin collecting validity evidence based on reliability and rela- tionships with other variables. During pilot testing, membersof the target population complete the survey in the planned delivery mode (eg, web-based or paper-based format).

 

가장 흔한 신뢰도 평가는 Cronbach alpha 계수이다.

The most common means of assessing scale reliability is by calculating a Cronbach a coefficient.

 

단순히 말하게, 다섯 개의 문항이 '흥미'라는 구인을 측정하면, 이 다섯 개 문항은 서로 높은 상관이 있어야 한다.

Simply speaking, if 5 items on your survey are all designed to measure the construct resident interest, for example, then it follows that the 5 items should be moderately to highly correlated with one another.

 

composite score는 단순히 가중치 없이 평균낸 것이다.

As described earlier, a composite score is simply an unweighted average of all the items within a particular scale.

 







  2012 Dec;4(4):407-10. doi: 10.4300/JGME-D-12-00239.1.

You Can't Fix by Analysis What You've Spoiled by DesignDeveloping Survey Instruments and Collecting ValidityEvidence.

PMID:
 
24294413
 
[PubMed] 
PMCID:
 
PMC3546565
 
Free PMC Article



 


 

 

리커트 척도 자료 분석하기

Analyzing and Interpreting Data From Likert-Type Scales

Gail M. Sullivan, MD, MPH, Anthony R. Artino Jr, PhD

 

 



 

1932년 Rensis Likert는 태도를 측정하기 위하여 개발하였고, 5 또는 7점의 ordinal scale로 어떤 statement에 대해서 어느 정도 동의하는지 응답하게 했다. Ordinal scale에서 응답자의 대답은 'rate'혹은 'rank'될 수 있지만, 각 응답 간 거리는 측정가능하지 않다. 따라서 '늘 그렇다' '종종 그렇다' '가끔 그렇다' 등의 응답 사이의 차이가 반드시 같은 것은 아니다.

Developed in 1932 by Rensis Likert1 to measure attitudes, the typical Likert scale is a 5- or 7-point ordinal scale used by respondents to rate the degree to which they agree or disagree with a statement (TABLE). In an ordinal scale, responses can be rated or ranked, but the distance between responses is not measurable. Thus, the differences between ‘‘always,’’ ‘‘often,’’ and ‘‘sometimes’’ on a frequency response Likert scale are not necessarily equal.

 

통증에 관한 여러가지 연속 척도

The various continuous measures for pain are well-known examples of this (FIGURE 1).

 

 

논쟁

The Controversy

 

의학교육 문헌에서 오랫동안 ordinal data에 대한 논란이 있는데, 이러한 순서 척도를 숫자로 변환하였을 때 간격 척도interval data처럼 처리가능하냐는 것이다. 즉, 표준편차, 'normally distributed'한 자료에 대해 쓸 수 있는 모수통계와 같은 것을 사용할 수 있는가?

In the medical education literature, there has been a long- standing controversy regarding whether ordinal data, converted to numbers, can be treated as interval data.2 That is, can means, standard deviations, and parametric statistics, which depend upon data that are normally distributed (FIGURE 2), be used to analyze ordinal data?

 

다행히도 Dr. Geoff Norman이라는 의학교육연구 방법론의 대가가 이 논란을 포괄적으로 정리한 바 있다. 그는 강력한 근거를 제시하면서 실제 자료와 가상 자료를 가지고 모수적 통계가 순서 자료에서 사용 가능할 뿐 아니라 비모수통계보다 더 robust함을 보여주었다. 즉 모수 통계는 심지어 통계적 가정(자료의 정규분포)이 위배된 상황에서조차 비모수적 통계보다 더 '옳은 답'을 줄 가능성이 높았다는 것이다. 따라서 비포수적 통계는 unbiased answer를 얻기에 충분히 robust하며, 이러한 결과는 Likert scale 응답을 분석할 때 '진실'에 가까운 답을 준다.

Fortunately, Dr. Geoff Norman, one of world’s leaders in medical education research methodology, has compre- hensively reviewed this controversy. He provides compel- ling evidence, with actual examples using real and simulated data, that parametric tests not only can be used with ordinal data, such as data from Likert scales, but also that parametric tests are generally more robust than nonparametric tests. That is, parametric tests tend to give ‘‘the right answer’’ even when statistical assumptions— such as a normal distribution of data—are violated, even to an extreme degree.4 Thus, parametric tests are sufficiently robust to yield largely unbiased answers that are acceptably close to ‘‘the truth’’ when analyzing Likert scale responses.4

 

 

 

요점

The Bottom Line

 

많은 전문가들이 이 논란에 참여했고, 결론은 상당히 명확하다. 모수적 통계가 Likert scale응답에 쓰일 수 있다. 그러나 자료를 묘사하는데 있어서 자료가 전형적인 정규분포를 따르지 않는 이상 평균은 그 의미가 제한적이며, 응답 분포를 보여주는 것이 더 도움이 될 것이다.

Now that many experts have weighed in on this debate, the conclusions are fairly clear: parametric tests can be used to analyze Likert scale responses. However, to describe the data, means are often of limited value unless the data follow a classic normal distribution and a frequency distribution of responses will likely be more helpful.

 

 

4 Norman G. Likert scales, levels of measurement and the ‘‘laws’’ of statistics. Adv Health Sci Educ Theory Pract. 2010;15(5):625–632.

 

 

 

 

 



 


  2013 Dec;5(4):541-2. doi: 10.4300/JGME-5-4-18.

Analyzing and interpreting data from likert-type scales.

PMID:
 
24454995
 
[PubMed] 
PMCID:
 
PMC3886444
 
Free PMC Article

 

 

 

 

 

 

 

 

 

 

 

+ Recent posts