"질문이 답의 형태를 결정한다": 보건전문직교육 연구에서 사용된 설문도구의 퀄리티 평가(Acad Med, 2018)

“The Questions Shape the Answers”: Assessing the Quality of Published Survey Instruments in Health Professions Education Research

Anthony R. Artino Jr, PhD, Andrew W. Phillips, MD, MEd, Amol Utrankar, Andrew Q. Ta, and Steven J. Durning, MD, PhD



자기보고되는 행동과 태도는 질문의 표현, 형식, 맥락과 같은 연구 도구의 특징에 의해 강하게 영향을 받는다.

—노버트 슈바르츠, 19991

Self-reports of behaviors and attitudes are strongly influenced by features of the research instrument, including question wording, format, and context. 

—Norbert Schwarz, 19991


이 분야에서 가장 영향력이 큰 3개 학술지에 대한 최근 연구에 따르면, 모든 원저 중 52%가 적어도 1개의 설문조사를 채택했다.2 조사는 종종 다른 이해하기 어려운 개념에 대한 정보를 수집하는 가장 좋은 방법이기 때문에, 부분적으로 인기가 있다.3,4 특히, survey는 일반적으로 "구인construct"이라고 불리는 관측할 수 없는 변수를 평가하는데 유용하다.5,6 HPE에서 Construct는 매우 여러가지가 있다(예: 학생 동기 부여, 환자 만족, 의사 공감).

A recent study of the three highest-impact journals in the field found that 52% of all original research studies employed at least one survey.2 Surveys are popular, in part, because they are often the best way to collect information about otherwise elusive concepts.3,4 In particular, surveys are useful for assessing nonobservable variables, commonly referred to as constructs.5,6 Constructs abound in HPE (e.g., student motivation, patient satisfaction, physician empathy).


불명확하거나 서식이 불량한 문항을 포함한 설문이나 형식적으로 문제가 있는 설문은 응답자가 해석하고 대답하기 어려워 질 수 있다.1,6,7 응답자가 문항을 이해하는 데 어려움을 겪는 경우, 이것은 결과적으로 나타나는 점수에 대한 신뢰도를 저하시킬 수 있는 측정오차가 된다.6,8–10, 궁극적으로, 설문의 설계가 문제가 있을 경우 그 도구는 연구자에게 신뢰할 수 있고 해석할 수 있는 데이터를 제공하지 못할 수 있기에, 타당성 주장을 방어하거나 결과를 해석하는 것도 어렵게 할 수 있다.11,12

Poorly designed survey instruments containing unclear or poorly formatted items can be difficult for respondents to interpret and answer, yielding low-quality data.1,6,7 When respondents have difficulty processing survey items, the result is measurement error that can degrade the reliability of the scores that emerge.6,8–10 Ultimately, poorly designed survey instruments may fail to provide researchers with reliable, interpretable data, thereby making validity arguments difficult to defend and study results hard to interpret.11,12


HPE 분야에서 연구자들은 종종 새로운 조사 도구를 개발하는데, 그 때 설문 점수와 그 설문의 의도된 용도와 관련하여 [타당성 및 신뢰성 증거를 수집하거나 철저히 보고하지 않는 경우가 많다.13~15 대안으로, 일부 HPE 연구자들은 추가적인 타당도 및 신뢰도 분석을 수행하기보다는, 이전에 발표된 조사 도구를 자신의 표집 형태에 맞춰서 조금 변경하여 사용한다. 이렇게 하는 이유는 그 설문 도구가 피어리뷰된 문헌에 발표되다는 것에 근거한다.

In the field of HPE, researchers often develop new survey tools without collecting or thoroughly reporting validity and reliability evidence for the survey scores and their intended use.13–15 Alternatively, some HPE researchers use or adapt previously published survey instruments without conducting additional validity and reliability analyses for their specific sampling frame, presumably because they are published in the peer-reviewed literature


그러나 이러한 행동은 적어도 두 가지 이유로 문제가 있다. 

  • 첫째, 연구자들은 흔히 이러한 도구를 "validated survey"라고 부르는데, 타당도와 신뢰도는 평가 점수 및 평가 도구 자체의 특성이 아니라 주어진 맥락에서 제안된 해석의 속성이기 때문에 이러한 표현은 부정확하다.16 

  • 째로, 이미 출판된 설문도구에 의존한다면, 그 도구와 그 안에 있는 문항들이 잘 설계되고, 잘 쓰여지고, 잘 포맷되어 있다고 가정할 가능성이 높다. 불행하게도, 과연 그러한지에 대한 평가는 잘 이뤄지지 않는다.13–15

This latter behavior is problematic for at least two reasons. First, researchers often refer to such instruments as “validated surveys,” which is inaccurate because validity and reliability are properties of the survey scores and their proposed interpretations in a given context, not properties of the survey instrument itself.16 Second, a researcher who chooses to rely on a published survey is likely assuming the instrument, and the items therein, are well designed, well written, and well formatted. Unfortunately, the veracity of this assumption often goes unassessed.13–15


현재 HPE 연구에 사용되는 조사 도구의 품질에 대한 통찰력이 부족하다.

Currently, we lack insight into the quality of the survey instruments used in HPE research.



방법

Method


연구방법의 일부로 적어도 1개의 자체관리 조사기구를 사용한 모든 독창적인 연구기사를 포함시켰다(그림 1).

We included all original research articles that used at least one self- administered survey instrument as part of the research method (Figure 1).



코딩 루브릭

Coding rubric


특정 코딩 기준 및 예를 포함한 전체 코딩 루브릭은 보충 부록 1( http://links.lww.com/ACADMED/A499)에 수록되어 있다.

A copy of the full coding rubric, including specific coding criteria and examples, is provided in Supplemental Digital Appendix 1 (at http://links.lww.com/ACADMED/A499).



또한 이 루브릭의 부분을 사용하여, 코더들은 저자들이 내용, 인지 과정, 내부 구조, 다른 변수와의 관계 및 결과에 기초한 증거, 교육 및 심리 테스트 표준에 명시된 다섯 가지 근거 출처에 부합하는 타당성 증거를 보고했는지와 어떻게 보고했는지를 평가했다.16

Using this portion of the rubric, the coders also assessed if and how authors reported validity evidence that aligned with the five sources of evidence articulated in Standards for Educational and Psychological Testing: evidence based on 

      • content, 

      • cognitive processes, 

      • internal structure, 

      • relationships with other variables, and 

      • consequences.16


타당성 근거와 무관하게 신뢰성 증거를 평가했지만, 신뢰도란 타당도에 대한 함의를 가지고 있음(신뢰도는 타당도의 일부임을) 인정한다(예를 들어 internal structure의 근거이다).16

Although we assessed reliability evidence independent of validity evidence, we recognize that score reliability has implications for validity (e.g., as evidence of internal structure).16


설계 및 시각적 레이아웃에서 널리 인정되는 모범 사례 또는 설계 원칙 위반.

    • (1) 동의 응답지, 

    • (2) 다중 질문 항목, 

    • (3) 라벨이 없는 응답지, 

    • (4) 불균일한 간격의 응답지

    • (5) substantive한 응답지와 구분이 어렵게 제시된 nonsubstantive 응답지

a violation of widely accepted best practices, or design tenets, in the design and visual layout of Likert-type rating items: (1) agreement response items, (2) multibarreled items, (3) unlabeled response options, (4) unevenly spaced response options, and (5) nonsubstantive response options formatted together with substantive response options.


설계 함정으로 표시된 5가지 조사 설계 원칙의 설명과 예는 표 1과 보충 디지털 부록 1( http://links.lww.com/ACADMED/A499)에 수록되어 있다.

Descriptions and examples of the five survey design tenets, framed as design pitfalls, are provided in Table 1 and Supplemental Digital Appendix 1 (at http://links.lww.com/ACADMED/A499).



통계 분석

Statistical analysis


결과

Results


2013년 3개 학술지에 게재된 732편의 논문 중 376편이 독창적인 연구 논문이 아니었으며, 171편의 원조사 논문은 설문조사를 사용하지 않았다(그림 1).

Of 732 articles published in the three journals in 2013, 376 were not original research articles, and 171 original research articles did not use a survey (Figure 1).



타당도와 신뢰도 근거

Validity and reliability evidence


표 2는 저자가 보고한 타당성 및 신뢰성 증거를 요약한 것이다.

Table 2 summarizes the validity and reliability evidence reported by authors.



문항 퀄리티 평가

Item-quality assessment


문항의 품질 평가 결과는 표 3에 제시되어 있으며, 아래에 요약되어 있다.

Results of the item-quality assessment are presented in Table 3 and summarized below:


원칙별로 각각을 위반한 항목의 비율에 대한 분포는 그림 2에 제시되어 있다.

The distributions of the percentage of items that violated a given tenet, per survey instrument, are provided in Figure 2.





고찰

Discussion


결함이 있는 문항이 실제로 응답자에게 부정적인 영향을 미쳤는지 또는 어떻게 영향을 미쳤는지는 알 수 없지만, 우리는 수십 년간의 경험적 연구에 근거하여, 이러한 문항이 응답자에 의해 잘못 해석되거나, 부정확한 데이터로 이어질 수 있다고 추측한다.

Although we do not know whether or how such flawed items may have negatively affected respondents, we speculate, on the basis of decades of empirical research,8,10,21,22 that these items could have been misinterpreted by respondents or otherwise led to inaccurate data.


신뢰도나 타당도에 대한 공격을 방어하는 방법 중 하나는 연구의 특정 맥락에 근거하여 조사한 점수에 대한 신뢰도 및 타당도 증거를 수집하고 보고하는 것이다.16 불행하게도, 새로 개발된 도구이든 기존에 출판된 도구를 변형하여 사용하였든 대다수의 연구자들은 그러한 증거를 보고하지 않았다. 더욱이, 증거를 보고한 저자들 조차, 대체로 그 방법이 부적절했다. 예를 들어, 가장 흔히 기술된 타당도 근거의 출처는 전문가에 의한 내용 검토였으며, 보통 약 6개 연구 중 1개에서만 보고되었다. 그러나 타당도 근거가 보고되었다 하더라도 저자는 전문가의 자격이나 검토 과정의 구성요소를 충분히 기술하지 않았기 때문에, 검토 과정의 세부사항을 알 수 없었다. 또한 가장 일반적으로 보고된 신뢰성 근거의 출처는 내부 일관성 계수(Cronbach alpha)이다. Cronbach's alpha에 대해 잘 알려진 한계점이나 이를 부적절하게 사용하는 여러 관행을 고려할 때, 신뢰도를 보고하기 위해 연구자들이 alpha만을 거의 독점적으로 사용하는 것은 당혹스럽다.

One way to guard against unreliable scores and flawed validity arguments is to collect and report validity and reliability evidence for survey scores based on a study’s specific context.16 Unfortunately, our results indicate that the majority of investigators failed to report such evidence, whether their survey tool was newly developed or appropriated or adapted from a previously published instrument. Moreover, those authors who did report evidence typically did so inadequately. For example, the most common source of validity evidence described was content reviews by experts, reported for approximately one in six surveys. However, even in those cases, the reporting lacked detail, with authors not fully describing the qualifications of their experts or the components of the review process. In addition, the most commonly reported source of reliability evidence was an internal consistency coefficient (Cronbach alpha). Considering the well- known limitations24,25 and inappropriate uses26,27 of this metric, its almost exclusive use by investigators to report reliability is disconcerting.


Wetzel13이 HPE의 조사 개발 기사에 대한 리뷰에서 지적한 바와 같이, "이용가능한 증거들을 주의 깊게 고려하지 않은 상태에서는, 연구자든 교육자든 문헌에 발표된 도구를 채택하고 적용하는 데 신중해야 한다."

As Wetzel13 noted in her review of survey development articles in HPE, “researchers and educators should be cautious in adopting and applying instruments from the literature without carefully considering the available supporting evidence.”


우리는 연구자들이 직접 저자들에게 연락하여 타당성 및 신뢰성 증거를 문의하거나, 또는 조사 시행 전에 그들 자신의 파일럿 데이터를 수집할 것을 권고한다.

we recommend that researchers attempt to contact the authors directly to inquire about validity and reliability evidence or, alternatively, collect their own pilot data prior to survey implementation.


문항 퀄리티

Item-quality tenets


예를 들어, 자기보고식 설문 도구를 사용한 연구의 3분의 2 이상이 설문 문항을 제공하지 않아 코딩할 수 없었다. 조사 항목이 나열된 36개 연구에서도 전체 형식 조사의 전체 사본을 포함하면 절반에 불과했다. 이러한 보고 세부사항의 부족이 잘 드러나는 부분은 연구중 1/5에서는 설문조사의 총 항목 수조차 나타내지 않은 것으로 확인되었다.

For instance, more than two-thirds of the research articles that used self- administered survey instruments did not provide their survey items and thus could not be coded. Even for the 36 studies with survey items listed, only half included a complete copy of the fully formatted survey. This lack of reporting detail is epitomized by the finding that approximately one in five surveys coded did not even indicate the total number of items on the survey.


본 연구의 기본적인 가정은 설계가 미흡한 조사 항목이 응답자가 설문 질문을 해석하고 응답하는 방식에 부정적인 영향을 미칠 수 있으며, 종종 그렇게 한다는 것이다.8,10,22

A fundamental assumption in the present study is that poorly designed survey items can, and often do, negatively affect how respondents interpret and respond to survey questions.8,10,22


이 가정을 명시적으로 테스트하지는 않았지만, 이 원칙은 조사 설계 분야에서 무수한 연구에 기초한다.1 즉, 질문 표현, 형식, 맥락(예: 질문 순서)과 같은 설문조사 도구의 특징들이 응답자가 어떻게 설문을 해석하고 응답할지를 결정한다는 것이다. 뿐만 아니라, 연구자가 의도한 방식과 응답자가 해석한 방식이 일치할지 여부에도 영향을 미친다.

Although we did not explicitly test this assumption, it is based on a central principle that has emerged from the large corpus of research in the field of survey design: “The questions shape the answers.”1 In other words, features of the survey instrument, such as question wording, format, and context (e.g., question order), chiefly determine how respondents interpret and respond to survey questions, as well as whether their interpretations match what the researcher had in mind.1,10,22


본 연구에서는 Likert형 등급 항목의 설계 및 시각적 배치와 관련된 5개의 함정에 대해 코딩하였다. 이러한 함정은 모두 측정 오류를 증가시키거나 다른 방법으로 편향된 답변으로 유도하기 위해 경험적으로 보여졌다. 한 가지 예는 "동의수준"을 물어보는 응답지가 있다.

In the present study, we coded for five pitfalls related to the design and visual layout of Likert-type rating items; all of these pitfalls have been shown empirically to increase measurement error or otherwiselead to biased answers.1,9,21,22 For example, agreement response options.


"동의 수준"을 물어보는 것은 설문도구를 개발 할 때 작성과 관리가 쉽기 때문에 연구자에게 매력적이지만, "묵인acquiescence으로 인한 편향이 생기기 쉽다. 문항에서 무슨 내용을 물어보든, 그냥 동의하는 경향이 생긴다".22 측정 오류를 최소화하기 위해, 대부분의 전문가들은 측정 대상의 underlying construct를 강조하는 설문문항과 선택지를 강조한다.8,10,22 추가적으로, 최근의 경험적 증거에 따르면, "연구자들은 어떤 상황에서도 동의수준을 묻는 설문 질문을 하지 말 것"을 권고하는 설문연구의 대가 크로스닉의 권고를 지지한다.

Although appealing to researchers because they are easy to write and administer, survey design experts have long disparaged such items because “they are susceptible to bias due to acquiescence—the tendency to endorse any assertion made in a question, regardless of its content.”22 To  minimize measurement error, most experts instead favor survey questions and corresponding response options that emphasize the underlying construct being measured.8,10,22 Additionally, recent empirical evidence9,21 supports the long- standing recommendation of Krosnick,22 a leading survey design scholar, who advises researchers to never, under any circumstances, ask a survey question using agreement response options. 



이중 문항

the use of multibarreled items,


그러나, 모든 이중 조사 항목이 똑같이 문제가 되는 것은 아니다. 예를 들어, "당신의 주치의가 예의바르고 예의바르게 행동했는가?"라는 설문 항목은 이중으로 표시되지만, "polite"와 "courteous"라는 단어는 동의어다. 따라서 질문이 필요 이상으로 단어적이지만, 응답자에게 어려움을 주지 않을 수 있다.

However, not all multi-barreled survey items are equally problematic. For example, the survey item “To what degree was your physician polite and courteous?” is double-barreled, yet the words “polite” and “courteous” are synonyms. So, while the question is wordier than necessary, it may not cause difficulty for respondents.


해결책은 간단하다. 두 가지 질문으로 나누어 풀어놓거나, 가장 중요한 요소에 대해 한 가지 질문만 할 수 있다. 그러나 이 연구에서 관찰한 바와 같이, 이 문제는 종종 수정되지 않는다.

Although the solution is simple—untangle the original item by asking two questions or only ask one question about the most important component—such problems often go uncorrected, as we observed in this study.


레이블이 지정되지 않은 응답 옵션 또는 불균일한 간격의 응답 옵션 사용 또는 실질적인 응답 옵션과 함께 비실제적인 응답 옵션 배치

using unlabeled response options or unevenly spaced response options, or placing nonsubstantive response options together with substantive response options,


따라서 설문이라는 방법을 사용할 연구자는 문항 작성방법과 모범 사례에 익숙해져야 한다.5,6 이 권고사항은 일반적으로 [측정 오차가 결과를 왜곡할 가능성이 더 큰] 상대적으로 작은 표본에서 데이터를 수집하는 HPE 맥락에서 훨씬 더 중요하다.29 .7

Therefore, we encourage HPE investigators who intend to use surveys for research to become familiar with item- writing and pretesting best practices.5,6 This recommendation is even more important in HPE contexts where we typically collect data from relatively small samples,29 which gives measurement error greater potential to skew results.7



한계와 미래 방향

Limitations and future directions 


우리 연구의 중요한 한계쩜은, "명확하지 않거나 잘못 포맷된 조사 항목이 응답자의 응답 프로세스에 부정적인 영향을 미쳐 측정 오류로 이어진다"는 우리의 기본 가정과 관련이 있다.1,6,8–10,22 그러나 본 연구에서는 항목 품질과 점수 신뢰성 및 유효성 사이의 관계를 명시적으로 평가하지 않았다.

A second important limitation relates to our underlying assumption that unclear and/or poorly formatted survey items negatively affect respondents’ response processes, thus leading to measurement error.1,6,8–10,22 However, in the present study, we did not explicitly assess the relationship between item quality and score reliability and validity.


권고와 결론

Recommendations and conclusions


첫째, 연구실행시 연구자들은 기존 도구를 사용하는 경우 뿐만 아니라 새롭게 개발하고 사전 시험을 함으로써 체계적으로 수행할 수 있도록, 그리고 근거에 기반하여 수행할 수 있도록 더 많은 노력을 기울여야 한다.

First, from a research conduct perspective, investigators should do more to ensure that they are systematic and evidence based in their approach to survey design and pretesting, as well as in their adaptation of existing tools.


다음으로, 연구자들은 사용한 설문조사 도구에 대한 타당성 및 신뢰성 증거를 더 잘 보고해야 한다.

Next, researchers must do a better job reporting validity and reliability evidence for the survey tools they employ, whether those instruments are de novo or adopted from a previous study.


우리는 기존에 발표된 설문조사 도구를 차용한 연구자들은 자신의 연구 맥락과 관련된 추가적인 타당성 및 신뢰성 증거를 수집하고 보고할 것을 권고한다. 우리는 저자들이 그러한 증거를 보고하지 않는 연구는 불완전한 조사일 뿐이며 조사 결과의 진실성에 대해 회의적으로 읽혀져야 한다고 주장할 것이다.

We recommend, as others6,13,30 have, that investigators adopting previously published survey tools collect and report additional validity and reliability evidence relevant to their own study context. We would argue that studies whose authors do not report such evidence are incomplete investigations and should be read with skepticism with regard to the veracity of the findings.


출판의 관점에서, HPE 저널 편집자들에게는, 저자들이 사용한 설문도구를 본문이나 온라인 부록을 사용하여, 설문도구의 전체 버전을 제공하도록 요구할 것을 권고한다.

From a publishing perspective, we recommend that HPE journal editors require authors to provide complete, fully formatted versions of their survey instruments in their published papers, either within the main body of the text or in an online appendix.


마지막으로, 조사 연구를 위한 보고 가이드라인이 시급하다고 본다. Bennett과 동료 31은 보고지침에 대한 체계적인 검토에서 지적했듯이 "조사 연구의 최적 보고에 관한 지침은 제한적이고 합의는 없다"고 말했다.

Finally, we believe that reporting guidelines for survey research are urgently needed. As Bennett and colleagues31 noted in their systematic review of reporting guidance, “there is limited guidance and no consensus regarding the optimal reporting of survey research.”





22 Krosnick JA. Survey research. Annu Rev Psychol. 1999;50:537–567.


 13  Wetzel AP. Factor analysis methods and validity evidence: A review of instrument development across the medical education continuum. Acad Med. 2012;87:1060–1069.


25 Tavakol M, Dennick R. Making sense of Cronbach’s alpha. Int J Med Educ. 2011;2:53–55.


29 Picho K, Artino AR Jr. 7 deadly sins in educational research. J Grad Med Educ. 2016;8:483–487.


6 Gehlbach H, Brinkworth ME. Measure twice, cut down error: A process for enhancing the validity of survey scales. Rev Gen Psychol. 2011;15:380–387.










 2018 Mar;93(3):456-463. doi: 10.1097/ACM.0000000000002002.

"The Questions Shape the Answers": Assessing the Quality of Published Survey Instruments in Health Professions Education Research.

Author information

1
A.R. Artino Jr is professor of medicine and deputy director of graduate programs in health professions education, Department of Medicine, F. Edward Hébert School of Medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland; ORCID: http://orcid.org/0000-0003-2661-7853. A.W. Phillips is adjunct clinical professor of emergency medicine, Department of Emergency Medicine, University of North Carolina, Chapel Hill, North Carolina. A. Utrankar is a fourth-year medical student, Vanderbilt University School of Medicine, Nashville, Tennessee. A.Q. Ta is a second-year medical student, University of Illinois College of Medicine, Chicago, Illinois. S.J. Durning is professor of medicine and pathology and director of graduate programs in health professions education, Department of Medicine, F. Edward Hébert School of Medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland.

Abstract

PURPOSE:

Surveys are widely used in health professions education (HPE) research, yet little is known about the quality of the instrumentsemployed. Poorly designed survey tools containing unclear or poorly formatted items can be difficult for respondents to interpret and answer, yielding low-quality data. This study assessed the quality of published survey instruments in HPE.

METHOD:

In 2017, the authors performed an analysis of HPE research articles published in three high-impact journals in 2013. They included articles that employed at least one self-administered survey. They designed a coding rubric addressing five violations of established best practices for survey item design and used it to collect descriptive data on the validity and reliability evidence reported and to assess the quality of available survey items.

RESULTS:

Thirty-six articles met inclusion criteria and included the instrument for coding, with one article using 2 surveys, yielding 37 unique surveys. Authors reported validity and reliability evidence for 13 (35.1%) and 8 (21.6%) surveys, respectively. Results of the item-qualityassessment revealed that a substantial proportion of published survey instruments violated established best practices in the design and visual layout of Likert-type rating items. Overall, 35 (94.6%) of the 37 survey instruments analyzed contained at least one violation of best practices.

CONCLUSIONS:

The majority of articles failed to report validity and reliability evidence, and a substantial proportion of the survey instrumentsviolated established best practices in survey design. The authors suggest areas of future inquiry and provide several improvement recommendations for HPE researchers, reviewers, and journal editors.

PMID:
 
29095172
 
DOI:
 
10.1097/ACM.0000000000002002


+ Recent posts