설문 설계의 단계 따라가기: GME 연구 사례(J Grad Med Educ, 2013)
Tracing the Steps of Survey Design: A Graduate Medical Education Research Example
Charles Magee, MD, MPH Gretchen Rickards, MD Lynn A. Byars, MD, MPH Anthony R. Artino Jr., PhD
설문조사는 대학원 의학 교육(GME) 환경에서 데이터를 수집하는 데 자주 사용됩니다.1 그러나 GME 설문조사가 엄격하게 설계되지 않은 경우, 결과의 품질은 바람직한 수준보다 낮을 수 있다.
Surveys are frequently used to collect data in graduate medical education (GME) settings.1 However, if a GME survey is not rigorously designed, the quality of the results is likely to be lower than desirable.
배경 Background
2010년, 국방부는 워싱턴 DC에 있는 월터 리드 육군 의료 센터와 메릴랜드 주 베데스다에 있는 국립 해군 의료 센터의 통합을 의무화했다. 이러한 통합 이전에 각 병원은 별도의 IM 상주 프로그램을 포함하여 독립적으로 인가된 GME 프로그램을 유지했습니다. 합병하는 동안 이러한 IM 프로그램은 통일된 프로그램에 원활하게 통합되어야 했습니다.
In 2010, the Department of Defense mandated the integration of the Walter Reed Army Medical Center in Washington, DC, with the National Naval Medical Center in Bethesda, Maryland. Prior to this integration, each hospital maintained independently accredited GME programs, including separate IM residency programs. During the merger these IM programs were asked to integrate seamlessly into a unified program.
많은 유사점에도 불구하고, 2개의 IM 프로그램은 성공적인 통합을 방해할 수 있는 중요한 차이를 가지고 있었다. 예를 들어, Walter Reed의 주민들은 프로그램에 강한 경험적 학습 요소를 가져오는 것으로 생각되는 하룻밤, 24시간 당직구조에 익숙했다. 그러나, 이 당직 시스템은 근무 시간 제한을 위반할 위험을 무릅썼다. 국립해군의료원 주민들은 근무시간 위반 위험은 없앴지만 인계인수 건수는 늘린 night-float 제도 아래 근무했다. 이러한 프로그램적 차이를 고려하여, 우리는 두 프로그램의 관련자들이 [프로그램 통합이 IM 레지던스의 미칠 영향에 대해 가지고 있는 생각]을 이해하는 데 관심이 있었다.
Despite many similarities, the 2 IM programs had important differences that might inhibit successful integration. For example, residents at Walter Reed were accustomed to an overnight, 24-hour call structure that was thought to bring a strong experiential learning element to the program. Yet, this call system risked violating work hour restrictions. Residents at the National Naval Medical Center worked under a night-float system that eliminated the risk of duty hour violations but increased the number of handoffs. Given these programmatic differences, we were interested in understanding how individuals in both programs thought the integration would affect the quality of the IM residency.
설문 조사 설계 프로세스
Our Survey Design Process
증거 기반 설계 프로세스를 통해 GME 연구자는 모든 응답자가 동일한 방식으로 해석할 가능성이 높고, 정확하게 대응할 수 있으며, 기꺼이 대답할 의욕과 의욕이 있는 일련의 조사 항목을 개발할 수 있다.
Evidence-based design processes allow GME researchers to develop a set of survey items that every respondent is likely to interpret the same way, is able to respond to accurately, and is willing and motivated to answer.
질문 1: 설문조사가 연구 질문에 답변하는 데 도움이 되는 적절한 도구입니까?
Question 1: Is a Survey an Appropriate Tool to Help Answer My Research Question?
설문조사를 작성하기 전에 관심 있는 연구 질문과 연구자가 측정하고자 하는 변수(또는 구조)를 고려하는 것이 중요하다. 예를 들어, 연구 질문이 의도된 청중의 신념, 의견 또는 태도와 관련이 있다면, 조사는 타당하다. 한편, 연구자가 특정 임상 절차에 대한 거주자의 기술 수준과 같이 직접 관찰 가능한 행동을 평가하는 데 더 관심이 있는 경우, 관찰 도구가 더 나은 선택이 될 수 있다.
Before creating a survey, it is important to consider the research question(s) of interest and the variables (or constructs) the researcher intends to measure. If, for example, the research question relates to the beliefs, opinions, or attitudes of the intended audience, a survey makes sense. On the other hand, if a researcher is more interested in assessing a directly observable behavior, such as residents' skill level for a particular clinical procedure, an observational tool may be a better choice.
레지던트 합병의 맥락에서, 우리는 통합 노력이 대학원 의학 교육 인증 위원회(ACGME)에 의해 지정된 주요 GME 품질 요소 및 프로그램 요구 사항에 어떤 영향을 미치는지 이해하고자 했다. 우리는 이러한 요소들을 전공의의 관점에서 이해하면 리더십이 성공적인 통합에 대한 위협과 프로세스 개선을 위한 잠재적 기회를 식별할 수 있을 것이라고 믿었다. 또한, 우리는 설문조사가 적절한 도구라고 생각했다. 왜냐하면 (훨씬 더 나중에 얻을 수 있는 in-service 시험 점수와 board 점수와 같은 더 객관적인 결과를 기다리기보다는) 참가자들로부터 실시간 피드백을 수집할 수 있기 때문이다. 각 프로그램의 전공의들이 우리 조사의 대상 인구로 확인되었다.
In the context of the residency merger, we wanted to understand how the integration effort would have an impact on key GME quality elements and program requirements as specified by the Accreditation Council for Graduate Medical Education (ACGME).2 We believed that understanding these factors from the residents' perspective would enable leadership to identify threats to successful integration as well as potential opportunities for process improvement. Further, we felt a survey was the appropriate tool because it would allow us to collect real-time feedback from participants rather than waiting for more objective outcomes, such as in-service exam scores and board scores, which, although valuable, would occur much later. The residents of each program were identified as the target population for our survey.
질문 2: 과거에 다른 사람들은 어떻게 이 구조물을 다루었는가?
Question 2: How Have Others Addressed This Construct in the Past?
문헌에 대한 철저한 검토는 GME 조사 설계 과정의 다음 단계가 되어야 한다. 이 단계는 이전 연구에서 관심 구인construct가 어떻게 정의되었는지에 대한 정보를 제공한다. 또한 이를 통해 기존 조사 척도를 사용하거나 조정할 수 있는 것을 식별할 수 있다.
A thorough review of the literature should be the next step in the GME survey design process. This step provides information about how the construct of interest has been defined in previous research. It also helps one identify existing survey scales that could be employed or adapted.
우리의 리뷰는 GME 프로그램의 통합에 대해 거의 발표되지 않았다는 것을 보여주었다. 하지만, 우리는 경영 문헌에서 조직 변화와 구조조정의 많은 예를 발견했습니다. 조직 변화의 가장 널리 출판되고 잘 연구된 사례들 중 일부는 William Bridges에 의해 개발되었다.3 Bridges의 몇 가지 설문 조사 도구를 검토하여 설문 조사에 적용할 수 있는 공통 주제와 항목을 파악했습니다. 궁극적으로, 우리는 이 항목들 중 어떤 것도 사용하지 않았다. 대신, 우리는 몇 가지 항목을 수정하고 브리지스의 작업을 사용하여 현재의 만족도, 통합이 훈련 경험에 미치는 영향에 대한 인식, 전환을 위한 훈련 프로그램의 준비성에 대한 믿음 등 개별적이지만 관련 있는 3개의 아이디어로 construct를 better define 했다.
Our review revealed that very little has been published on integration of GME programs. However, we found a number of examples of organizational change and restructuring in the business literature. Some of the most widely published, well-studied examples of organizational change were developed by William Bridges.3 We reviewed several of Bridges' survey instruments to identify common themes and items that might be applicable to our survey. Ultimately, we did not use any of these items verbatim. Instead, we adapted several items and used Bridges' work to better define our constructs of 3 separate but related ideas: current satisfaction, perceptions of the impact of the integration on the training experience, and beliefs about the readiness of the training programs to make the transition.
관련 조사 척도를 찾고 사용 또는 수정하고자 하는 GME 연구자는 대개 저자에게 연락하여 사용을 요청할 수 있다. 그러나 "이전에 검증된" 조사 척도는 특히 초기 조사 대상자와 다른 방식으로 척도가 수정되거나 모집단에 사용되는 경우 특정 연구 맥락에서 [추가적인 신뢰성과 타당성 증거를 수집해야 한다]는 점에 주목할 필요가 있다. 출판을 위해, 이 추가 증거는 "방법"과 "결과" 섹션에 보고되어야 한다.
GME researchers who find and wish to use or modify relevant survey scales can usually contact authors and request such use. It is worth noting, however, that “previously validated” survey scales require the collection of additional reliability and validity evidence in the specific research context, particularly if the scales are modified in any way or used in populations different from the initial survey audience. For publication, this additional evidence should be reported in the “Methods” and “Results” sections.
질문 3: 설문 조사 항목을 어떻게 개발합니까?
Question 3: How Do I Develop My Survey Items?
이 단계의 목표는 응답자가 쉽게 이해할 수 있는 언어로 관심 구성을 적절하게 나타내는 조사 항목을 만드는 것이다. 한 가지 중요한 설계 고려사항은 구조물을 적절히 평가하는 데 필요한 항목 수입니다. 이 문제에 대한 쉬운 해답은 없다. 이상적인 항목 수는 구조의 복잡성과 구조를 평가하고자 하는 수준(때로는 "grain size" 또는 구조가 측정될 추상화 수준level of abstraction이라고도 함)을 포함한 여러 요인에 따라 달라진다.4 일반적으로 최종 규모에서 궁극적으로 필요한 것보다 더 많은 항목을 개발하는 것은 좋은 생각이다. 왜냐하면 일부 문항은 의심할 여지 없이 설계 프로세스 후반에 삭제되거나 수정될 것이기 때문이다.4
The goal of this step is to create survey items that adequately represent the construct of interest in a language that respondents can easily understand. One important design consideration is the number of items needed to adequately assess the construct. There is no easy answer to this question. The ideal number of items depends on a number of factors, including the complexity of the construct and the level at which one intends to assess the construct (sometimes referred to as the “grain size” or level of abstraction at which the construct will be measured).4 In general, it is a good idea to develop more items than will ultimately be needed in the final scale because some items will undoubtedly be deleted or revised later in the design process.4
다음 과제는 명확하고 모호하지 않은 항목 집합을 작성하는 것입니다. 좋은 문항을 작성하는 것은 과학이면서 예술이다. 그럼에도 불구하고, 항목 작성 프로세스를 안내하는 데 사용되어야 하는 수많은 항목 작성 지침(증거 기반 모범 사례)이 있다. 1,4–8 이러한 모범 사례를 검토하는 것은 이 사설의 범위를 벗어난다. 그러나, 우리는 독자를 돕기 위해 표 1의 몇 가지 증거 기반 권고 사항에 대한 요약을 제공했다.
The next challenge is to write a set of clear and unambiguous items. Writing good items is as much an art as it is a science. Nonetheless, there is a plethora of item-writing guidance—evidence-based, best practices—that should be used to guide the item-writing process.1,4–8 Reviewing these best practices is beyond the scope of this editorial; however, we have provided a summary of several evidence-based recommendations in table 1 to assist readers.
항목 작성 프로세스를 안내하기 위해 공인 IM 레지던스에서 ACGME가 요구하는 요소를 선택했습니다.2 특히 조직개편의 영향을 받을 가능성이 크고 전공의들에게도 잘 보이는 요소를 선택했다. 우리의 초기 초안에는 잠재적으로 관련된 모든 요소에 대한 질문이 있었습니다; 우리가 너무 많은 항목을 가지고 있다는 것이 금방 분명해졌습니다. 따라서, 우리는 의도된 응답자들과 가장 관련이 있을 가능성이 높은 문제들에 우리의 노력을 다시 집중했다. 이를 통해, 우리는 150개 항목에서 45개 항목으로 설문 조사를 줄일 수 있었습니다.
To guide our item-writing process, we selected elements that the ACGME requires in an accredited IM residency.2 In particular, we chose elements that we felt were likely to be affected by reorganization and were also visible to the residents. Our initial draft had questions about every potentially relevant element; it quickly became clear that we had too many items. As such, we refocused our efforts on those issues most likely to be relevant to the intended respondents. In doing so, we were able to cut down our survey from 150 items to a more manageable 45 items.
조사 개발 프로세스 중에 내린 다른 결정을 설명하기 위해, 우리는 이 사설의 나머지 부분을 교육적 품질 척도에 초점을 맞춘다. 이 규모를 위해, 우리는 참가자들이 합병이 그들의 IM 전공의 경험의 질에 영향을 미칠 것이라고 믿는 정도를 알고 싶었습니다. 예를 들어, 한 항목은 "내과 통합이 아침 보고서의 교육 질에 어떤 영향을 미칠 것으로 생각하십니까?"라고 물었습니다. 우리는 우리의 문헌 검토와 전문가들과의 토론을 바탕으로, 응답자들이 그 영향이 긍정적일 수도 있고 부정적일 수도 있다고 생각할 수도 있다고 믿었기 때문에, 우리는 "긍정적이거나 부정적인 영향"의 중간점을 가진 양극성 척도를 선택했다. 그리고 반응 척도의 낮은 쪽에 대한 "극한 부정적 영향"과 높은 쪽에 대한 "극한 긍정적 영향"의 끝점(표 2)입니다.
To illustrate other decisions we made during the survey development process, we focus the remainder of this editorial on our didactic quality scale. For this scale, we wanted to know the extent to which participants believed the merger would have an impact on the quality of their IM residency experience. For example, one item asked “How do you think the internal medicine integration will impact the educational quality of morning report?” Because we believed, based on our literature review and discussion with experts, that respondents might think the impact could either be positive or negative, we chose a bipolar scale with a midpoint of “neither positive nor negative impact” and endpoints of “extreme negative impact” on the low side of the response scale and “extreme positive impact” on the high side of the response scale (table 2).
질문 4: 설문 항목이 명확하게 작성되었고 관심 구성 요소와 관련이 있습니까?
Question 4: Are the Survey Items Clearly Written and Relevant to the Construct of Interest?
조사 내용을 평가하기 위해 GME 연구원들은 전문가 그룹에게 항목 검토를 요청해야 한다. 내용 또는 전문가 검증이라고 하는 이 프로세스는 명확성, 구조와의 관련성 및 인지 난이도에 대한 조사 항목 초안을 검토하도록 전문가에게 요청하는 것을 포함한다.9-11 전문가는 또한 품목 개발 중에 누락되었을 수 있는 구조물의 중요한 측면을 식별하는데 도움을 줄 수 있다. "전문가"는 특정 관심구조에 대해 잘 아는 조사 설계 경험자, 국가 콘텐츠 전문가 또는 지역 동료가 포함될 수 있다. 콘텐츠 검증을 수행하는 데 필요한 전문가 수는 일반적으로 적다. 전문가 6명에서 12명 정도면 충분할 것이다.10,11
To assess survey content, GME researchers should ask a group of experts to review the items. This process, called content or expert validation, involves asking experts to review the draft survey items for clarity, relevance to the construct, and cognitive difficulty.9–11 Experts can also assist in identifying important aspects of the construct that may have been omitted during item development. “Experts” might include those more experienced in survey design, national content experts, or local colleagues knowledgeable about the specific construct of interest. The number of experts needed to conduct a content validation is typically small; 6 to 12 experts will often suffice.10,11
당사의 9명의 전문가는 각 IM 프로그램의 직원뿐만 아니라 조사 설계에 대한 전문지식을 갖춘 소속 대학의 교수진을 선발했습니다. 각 전문가는 평가 항목 초안 및 그 또는 그녀가 집중하기를 원하는 조사의 목적과 구체적인 측면을 설명하는 문서와 함께 콘텐츠 검증에 참여하라는 초대를 받았다. 이 과정을 통해 우리의 전문가들은 초점이 잘 맞지 않는 6개의 항목을 찾아냈고, 우리는 이 항목들을 설문조사에서 제거했다. 우리의 전문가들은 스케일 항목에서 콘텐츠 누락을 식별하지 않았으며, ACME 품질 요소 및 프로그램 요건을 고품질 GME 훈련 프로그램의 보편적인 속성으로 사용하는 것에 동의했다. 마지막으로, 전문가들은 해석하기 어렵다고 느끼는 몇 가지 항목을 찾아냈고, 이 항목들은 수정되었다.
Our 9 experts included staff from each IM program, as well as select faculty from our affiliated university who had expertise in survey design. Each expert received an invitation to participate in the content validation, along with the draft survey items and a document outlining our purpose and the specific aspects of the survey on which we wanted him or her to focus. Through this process our experts identified 6 items that were poorly focused; we eliminated these items from the survey. Our experts did not identify any content omissions in the scale items, and they agreed with our use of ACGME quality elements and program requirements as universal attributes of a high-quality GME training program. Finally, our experts identified several items that they felt were difficult to interpret, and these items were revised.
질문 5: 응답자가 내가 의도한 대로 내 항목을 해석할 것인가?
Question 5: Will My Respondents Interpret My Items in the Manner That I Intended?
조사 항목 초안이 전문가 검토를 거친 후에는 대상 인구가 항목 및 대응 옵션을 어떻게 해석할지 평가하는 것이 중요하다. 이를 위한 한 가지 방법은 인지 인터뷰 또는 인지 사전테스트라고 알려진 과정을 통해서이다.12
- 인지 인터뷰는 일반적으로 응답자가 각 항목을 소리내어 읽고 특정 응답을 선택하는 데 있어서 자신의 사고 과정을 설명하는 대면 인터뷰를 포함한다.
- 이 프로세스를 통해 각 응답자가 연구자가 의도한 대로 항목을 해석하고 정확한 응답을 생성하기 위한 예상 인지 단계를 수행하고 적절한 응답 앵커를 사용하여 응답하는지 확인할 수 있다.
- 인지 인터뷰는 대상 모집단을 대표하는 소수의 참가자(일반적으로 4-10명 참가자)와 함께 수행해야 하는 정성적 방법이다.
- 이 단계는 잘못된 해석 또는 편향을 초래할 수 있는 질문 또는 응답 문구의 문제를 식별하는 중요한 단계입니다. 인지 인터뷰는 표준화된 방법론을 사용하여 수행해야 하며, 적용할 수 있는 몇 가지 체계적인 접근법이 있다.12
After the draft survey items have undergone expert review, it is important to assess how the target population will interpret the items and response options. One way to do this is through a process known as cognitive interviewing or cognitive pretesting.12
- Cognitive interviewing typically involves a face-to-face interview during which a respondent reads each item aloud and explains his or her thought process in selecting a particular response.
- This process allows one to verify that each respondent interprets the items as the researcher intended, performs the expected cognitive steps to generate an accurate response, and responds using the appropriate response anchors.
- Cognitive interviewing is a qualitative method that should be conducted with a handful of participants who are representative of the target population (typically 4–10 participants).
- This is a critical step to identify problems with question or response wording that may result in misinterpretation or bias. Cognitive interviewing should be conducted using a standardized methodology, and there are several systematic approaches that can be applied.12
우리의 적은 목표 인구(전체 거주자 약 68명)를 고려하여, 우리는 치프 레지던트와 각 프로그램의 프로그램 및 부 프로그램 책임자와 인지 인터뷰를 수행하기로 선택했는데, 그들은 우리의 목표 모집단과 가장 가까운 유사점을 나타낸다고 느꼈다. 우리는 think-aloud 기술과 소급해서 말하는 탐색 기술을 모두 사용하여 인지 인터뷰를 수행했다.12 Think-aloud 방법에서는 각 참가자가 표준화된 스크립트를 읽는 동안 검토하는 설문조사의 초안 사본을 제공한다. 인터뷰 진행자는 각 항목을 읽고, 그 후에 질문을 처리하고 답변을 선택하는 동안 참가자가 큰 소리로 생각할 수 있도록 초대됩니다. 비록 시간이 많이 걸리지만, 이 인터뷰 방법은 원하는 인지적 반응을 불러일으키지evoke 못하는 항목을 식별하는 데 도움이 된다.
Given our small target population (approximately 68 residents in all), we opted to perform cognitive interviews with the chief residents and the program and associate program directors of each program, who we felt represented the closest available analogues to our target population. We performed cognitive interviews using both the think-aloud and retrospective verbal probing techniques.12 In the think-aloud method, each participant is provided with a copy of the draft survey, which he or she reviews while an interviewer reads from a standardized script. The interviewer reads each item, after which the participant is invited to think aloud while processing the question and selecting a response. Although time consuming, this method of interviewing is helpful in identifying items that fail to evoke the desired cognitive response.
[후향적 verbal probing]은 참가자가 전체 설문조사를 완료한 직후 관리하는 스크립트로 작성된 질문으로 구성된 대안 방법이다. 이 접근 방식은 시간을 절약하고 보다 정확한 조사 경험을 제공하지만, 각 질문에 대한 참가자의 기억과 관련된 편견을 도입할 수 있다. 인지 인터뷰를 통해, 우리는 항목 표현, 시각적 디자인 및 설문 레이아웃에 대한 몇 가지 작지만 중요한 문제를 확인했으며, 다음 반복에서 모두 수정되었다.
Retrospective verbal probing is an alternative method that consists of scripted questions administered just after the participant completes the entire survey. This approach conserves time and allows for a more authentic survey experience; however, retrospective verbal probing can introduce bias related to the participant's memory of each question. Through cognitive interviewing, we identified several small but important issues with our item wording, visual design, and survey layout, all of which were revised in our next iteration.
질문 6: 내 설문 조사 항목에서 얻은 점수는 신뢰할 수 있으며, 가설을 세운 다른 조치와 관련이 있습니까?
Question 6: Are the Scores Obtained From My Survey Items Reliable, and Do They Relate to Other Measures as Hypothesized?
앞서 언급한 조사 설계 과정 중 GME 연구원들의 최선의 노력에도 불구하고, 일부 조사 항목은 여전히 문제가 있을 수 있다.4 따라서 추가적인 타당성 증거를 얻으려면 평가기기의 파일럿 테스트를 수행해야 한다. 전면적인 조사를 위해 계획된 조건과 동일하거나 매우 유사한 조건을 사용하여 설문조사를 시범적으로 시험하는 것이 중요하다. 그런 다음 파일럿 테스트의 설명 데이터를 사용하여 개별 항목에 대한 반응 분포를 평가하고 종합 점수를 조정할 수 있습니다. 또한 이러한 데이터를 사용하여 항목 및 복합 점수 상관 관계를 분석할 수 있으며, 이 모든 데이터는 설문의 [내부 구조]와 [다른 변수와의 관계]에 대한 증거입니다. 또한 요인 분석과 같이 더 진보된 다른 통계 기법을 사용하여 조사의 내부 구조를 확인할 수 있다는 점에 주목할 필요가 있다.13
Despite the best efforts of GME researchers during the aforementioned survey design process, some survey items may still be problematic.4 Thus, to gain additional validity evidence, pilot testing of the survey instrument should be performed. It is important to pilot test the survey using conditions identical or very similar to those planned for the full-scale survey. Descriptive data from pilot testing can then be used to evaluate the response distributions for individual items and scale composite scores. In addition, these data can be used to analyze item and composite score correlations, all of which are evidence of the internal structure of the survey and its relations to other variables. It is also worth noting that other, more advanced statistical techniques, such as factor analysis, can be used to ascertain the internal structure of a survey.13
우리는 Walter Reed의 IM 프로그램에서 14명의 거주자와 National Naval Medical Center의 IM 프로그램에서 20명의 레지던트를 대상으로 우리의 설문 조사를 시험했다. 이것은 목표 인구의 50%를 나타낸다. 표 2는 특정 항목에 대한 IM 통합의 인지적 영향을 평가하기 위해 고안된 교육적 품질 척도에 대한 우리의 파일럿 테스트 결과를 제시한다.각 교육 프로그램 내의 교육 구성 요소. 척도에는 8개의 질문이 포함되었으며, "극한 부정적 영향"에서 "극한 긍정적 영향"에 이르는 5포인트 리커트 유형의 응답 척도가 사용되었습니다.
We pilot tested our survey on 14 residents from Walter Reed's IM program and 20 residents from the National Naval Medical Center's IM program; this represented 50% of the target population. table 2 presents the results of our pilot test for the didactic quality scale, which was designed to assess the perceived impact of the IM integration on specific didactic components within each training program. The scale included 8 questions and used a 5-point, Likert-type response scale ranging from “extreme negative impact” to “extreme positive impact.”
SPSS 20.0(IBM Corporation, New York)을 사용하여 item-level statistics를 검토한 후 Cronbach 알파 계수를 계산하여 교육 품질 척도에서 8개 항목의 내부 일관성 신뢰성을 평가했다. 크론바흐 알파 계수는 0에서 1 사이의 범위를 가질 수 있으며 척도 항목이 서로 관련되는 정도에 대한 평가를 제공합니다. 첫 번째 사설에서 설명했듯이, 교육 품질을 측정하도록 설계된 8개 항목과 같은 주어진 구성을 측정하기 위해 설계된 조사 항목 그룹은 모두 서로 moderate to strong한 positive 상관 관계를 보여야 한다. 두 항목이 양의 상관 관계가 없는 경우 하나 이상의 항목에 잠재적인 문제가 있음을 나타냅니다.
After reviewing the item-level statistics using SPSS 20.0 (IBM Corp., New York), we calculated a Cronbach alpha coefficient to assess internal consistency reliability of the 8 items in our didactic quality scale. A Cronbach alpha coefficient can range from 0 to 1 and provides an assessment of the extent to which the scale items are related to one another. As we explained in our first editorial, a group of survey items designed to measure a given construct, such as our 8 items designed to measure didactic quality, should all exhibit moderate to strong positive correlations with one another. If they are not positively correlated, this suggests a potential problem with one or more of the items.
그러나 크론바흐 알파는 스케일 길이에 민감하다. 다른 모든 것들이 동일하면, 일반적으로 더 긴 스케일은 더 높은 크론바흐 알파를 갖는다. 이와 같이 규모의 내부 일관성 신뢰성을 높이는 매우 쉬운 방법은 항목을 추가하는 것입니다. 그러나 크론바흐 알파의 이러한 증가는 [응답자들이 지치게 하는 지나치게 긴 조사]로 인해 더 많은 응답 오류가 발생할 수 있는 가능성과 균형을 이루어야 한다.
It should be noted, however, that Cronbach alpha is sensitive to scale length; all other things being equal, a longer scale will generally have a higher Cronbach alpha. As such, a fairly easy way to increase a scale's internal consistency reliability is to add items. However, this increase in Cronbach alpha must be balanced with the potential for more response error due to an overly long survey that is exhausting for respondents.
내부 일관성 신뢰성에 대한 설정된 임계값은 없지만 일반적으로 알파 β0.75는 허용되는 것으로 간주된다.14 우리의 교육적 품질 척도의 경우 크론바흐 알파는 8.89로 예상대로 8개 항목이 서로 높은 상관 관계를 가지고 있음을 나타낸다. 그런 다음 합성 점수(즉, 8개 항목의 가중치 없는 평균 점수)를 계산하여 교육 품질 변수를 만들고 합성 점수의 기술 통계량과 히스토그램(표 2와 그림 각각)을 검사했습니다. 히스토그램은 정규 분포를 따르며, 이는 응답자들이 반응 척도를 따라 거의 모든 점을 사용하고 있음을 시사합니다.
Although there is no set threshold value for internal consistency reliability, an alpha ≥0.75 is generally considered to be acceptable.14 For our didactic quality scale, the Cronbach alpha was .89, which indicated that our 8 items were highly correlated with one another, as expected. We then calculated a composite score (ie, an unweighted mean score of the 8 items) to create our didactic quality variable, and we inspected the descriptive statistics and histogram of the composite scores (table 2 and figure, respectively). The histogram was normally distributed, which suggested that our respondents were using almost all of the points along our response scale.
위에서 설명한 항목 및 척도 분석을 수행한 후에는 전면적인 조사 프로젝트로 진행하는 것이 합리적입니다. 물론 시험 결과가 낮은 신뢰도 또는 놀라운 관계를 보이는 경우(즉, 주어진 규모의 하나 이상의 항목이 다른 항목과 예상대로 상관관계가 없는 경우), 연구자는 기존 항목을 수정하거나 성능이 떨어지는 항목을 제거하거나 새로운 항목의 초안을 작성하는 것을 고려해야 한다. 설문조사가 대폭 수정될 경우 개정된 조사의 후속 시범 시험이 실시될 수 있다. 실적이 저조한 품목을 일부 제거하는 등 사소한 수정만 이뤄진다면 직접 본격적인 조사 시행으로 진행하는 것이 타당하다.
After conducting the item- and scale-level analyses, as described above, it is reasonable to advance to the full-scale survey project. Of course, if the pilot results indicate poor reliability and/or surprising relationships (ie, one or more items in a given scale do not correlate with the other items as expected), researchers should consider revising existing items, removing poorly performing items, or drafting new items. If significant modifications are made to the survey, a follow-up pilot test of the revised survey may be in order. If only minor modifications are made, such as removing a handful of poorly performing items, it is reasonable to proceed directly to full-scale survey implementation.
결론 Concluding Thoughts
J Grad Med Educ. 2013 Mar;5(1):1-5.
doi: 10.4300/JGME-D-12-00364.1.
Tracing the steps of survey design: a graduate medical education research example
Charles Magee, Gretchen Rickards, Lynn A Byars, Anthony R Artino Jr
- PMID: 24404217
- PMCID: PMC3613291
Free PMC article
'Articles (Medical Education) > 의학교육연구(Research)' 카테고리의 다른 글
The Green Lumber Fallacy, Jingle-Jangle Fallacies (0) | 2021.05.13 |
---|---|
일반화가능도 이론 간단히: G-studies를 위한 프라이머(J Grad Med Educ, 2019) (0) | 2021.05.06 |
N을 어떻게 할까? 포커스그룹 연구에서 샘플 사이즈 보고에 관한 방법론적 연구(BMC Med Res Methodol, 2011) (0) | 2021.05.06 |
질적 면담 연구에서 샘플 사이즈: 정보력에 의하여 (Qual Health Res, 2016) (0) | 2021.05.06 |
교육 디자인연구(EDR) 수행을 위한 열두 가지 팁(Med Teach, 2020) (0) | 2021.05.01 |