구색만 갖추기: 어거지로 하는 설문이 자료 퀄리티에 미치는 영향(EDUCATIONAL RESEARCHER, 2021)
Assessing Survey Satisficing: The Impact of Unmotivated Questionnaire Responding on Data Quality
Christine Calderon Vriesema1 and Hunter Gehlbach2

 

교육 연구자들을 포함한 사회과학자들은 오랫동안 설문조사와 애증 관계를 유지해왔다. 한편, 설문조사는 응답자의 가치, 인식 및 태도를 효율적이고 규모에 맞게 파악한다(Gehlbach, 2015; Gilbert, 2006; West et al., 2017). 설문조사의 유연성을 통해 응답자는 자신, 다른 개인 또는 전체 계층 또는 공동체에 대한 인식을 보고할 수 있습니다. 
Social scientists, including educational researchers, have long maintained a love–hate relationship with surveys. On the one hand, surveys uncover respondents’ values, perceptions, and attitudes efficiently and at scale (Gehlbach, 2015; Gilbert, 2006; West et al., 2017). Surveys’ flexibility allows respondents to report on themselves (i.e., self-report measures), other individuals, or their perceptions of a whole class or community.
반면, [회의론자]들은 설문조사 데이터의 가치를 비판해 왔으며, 종종 세 가지 우려에 초점을 맞추고 있다.
  • 첫째, 일부는 참가자들이 양질의 답변을 제공하는 데 필요한 자기성찰 능력에 대해 의문을 제기한다. 예를 들어, Nisbett와 Wilson(1977a, 1977b)은 사람들이 자신의 선택을 이해하려는 잘못된 시도의 여러 예를 제공했다. 다른 것들은 응답자들이 존재하지 않는 정책에 대해 어떻게 쉽게 보고하는지, 따라서 사람들이 어떻게 그들이 가질 수 없는 의견을 보고하는지를 보여준다(Bishop et al., 1980).
On the other hand, skeptics have critiqued the value of survey data, often focusing on three concerns. First, some raise questions about the introspective abilities participants need to provide high-quality answers. For example, Nisbett and Wilson (1977a, 1977b) provided multiple examples of people’s erroneous attempts to understand their own choices. Others show how respondents readily report on policies that do not exist, thus, showing how people report opinions that they could not possibly have (Bishop et al., 1980).
  • 두 번째 도전은 사람들이 자신의 태도를 알 수 있다는 것을 인정하면서도, 미묘한 힘이 응답자의 정확한 보고를 방해할 수 있다고 우려하는 비평가들로부터 발생한다. 이러한 힘에는 묵인 편향, 사회적 만족도, 바닥/천장 효과, 편향된 질문 표현, 대응 순서 효과 등과 같은 현상이 포함된다(예: Krosnick, 1999).
A second challenge arises from critics who acknowledge that people might know their own attitudes but worry that subtle forces may inhibit respondents’ accurate reporting. These forces include phenomena such as acquiescence bias, social desirability, floor/ceiling effects, biased question wording, response order effects, and so forth (e.g., Krosnick, 1999).
그러나 설문조사 설계자는 설문조사를 [응답자가 합리적으로 의견을 가질 수 있는 주제]로 제한할 수 있다. 또한 설문조사 연구자들이 개발한 많은 모범 사례에 부합하도록 설문조사를 설계할 수 있다(Gehlbach & Artino, 2018). 따라서 조사 연구의 방법론으로서의 이 [두 가지 잠재적인 문제는 현실적이고 진지하게 받아들여야 하지만 극복할 수 없는 경우는 거의 없다]. 
Yet, survey designers can delimit surveys to topics that respondents might reasonably have opinions on. Furthermore, they can design surveys to accord with many of the best practices that survey researchers have developed (Gehlbach & Artino, 2018). So, although these two potential problems with survey research as a methodology are real and need to be taken seriously, they are rarely insurmountable.
  • 셋째, 잠재적으로 더 도전적인 것은 참가자들이 설문조사를 진지하게 받아들이려는 동기에 대한 우려이다. 가장 극단적인 형태로, 어떤 사람들은 아마도 지루하거나 웃기려는 시도로 거짓 대답을 하기 위해 적극적으로 노력하는 "장난꾸러기 응답자"가 될 수도 있다. Krosnick(1991)은 응답자들이 응답에 최선의 노력을 기울이지 못하는 더 온화하고 잠재적으로 더 보편적인 형태의 "구색만갖추기satisficing"을 설명한다. 이러한 동기 부여 문제는 충분히 일반적이어서 일부 연구자들은 성실성이라는 성격 특성을 측정하기 위한 수행 과제로 설문지에 대한 응답자의 노력(또는 그 부족)을 사용했다(Hitt et al., 2016; Zamarro et al., 2018).
Third, and potentially more challenging, are concerns about participants’ motivation to take the survey seriously. In its most extreme form, some may become “mischievous responders” (Robinson-Cimpian, 2014) who actively strive to give false answers, perhaps out of boredom or an attempt to be funny. Krosnick (1991) describes milder, and potentially more prevalent forms of “satisficing,” where respondents fail to put forth their best efforts in responding. This motivation problem is sufficiently common that some researchers have even used respondents’ effort (or lack thereof) on questionnaires as a performance task to measure the personality trait of conscientiousness (Hitt et al., 2016; Zamarro et al., 2018).
학교들이 설문조사 자료로 정책을 알리는 것을 점점 더 목표로 함에 따라, 이러한 동기 부여 문제는 독특한 도전 과제를 제시한다. 만약 응답자들이 항목을 건너뛰거나, 일찍 그만두거나, 매번 같은 대답을 해서 설문조사를 빠르게 통과하고 싶다면, 연구원들은 그것을 막기 위해 할 수 있는 일이 거의 없다. 실무자와 정책 입안자는 보완적인 문제에 직면해 있습니다: 고객은 만족도가 데이터 품질에 어느 정도 영향을 미치는지 파악하기 위해 [satisficing의 만연성]을 이해해야 합니다. 우리는 캘리포니아에서 초등학생과 중등학생의 사회적 정서적 학습에 대한 지속적인 대규모 조사에서 만족도를 조사함으로써 두 가지 과제를 모두 해결한다. 이 기사는 설문 조사 데이터의 만족도를 감지, 평가 및 회계 처리하기 위한 간단한 전략을 개략적으로 설명합니다. 참가자 만족도에 관한 더 큰 문헌(예: Burge & Gehlbach, 2012; Hitt et al., 2016; Krosnick, 1991; Soland, 2018) 내에서, 우리는 이 연구가 잠재적으로 문제가 있는 대응 패턴을 식별하기 위한 접근 가능한 도구를 교육 의사결정자에게 제공하기를 바란다. 
As schools increasingly aim to inform their policies with survey data, this motivation problem presents a unique challenge. If respondents want to skip items, quit early, or speed through the survey by giving the same answer each time, researchers can do little to prevent it. Practitioners and policymakers face a complementary problem: They need to understand the pervasiveness of satisficing to determine to what extent satisficing affects data quality. We address both challenges by investigating satisficing in an ongoing, large-scale survey of elementary and secondary students’ social–emotional learning in California. This article outlines straightforward strategies for detecting, assessing, and accounting for satisficing in survey data. Within the larger literature around participant satisficing (e.g., Barge & Gehlbach, 2012; Hitt et al., 2016; Krosnick, 1991; Soland, 2018), we hope this study provides educational decision makers with accessible tools for identifying potentially problematic response patterns.

구색만 갖추기
Satisficing

전통적으로 "satisficing"은 사람들이 [정신 에너지를 보존하기 위해 차선의 의사 결정 전략을 사용하는 인지 휴리스틱]을 의미한다(Simon, 1957; Simon & Stedry, 1968). 예를 들어, 일부 의사결정자들은 "최적" 해결책을 찾기보다는 "충분히 가까워 보인다"는 만족스러운 첫 번째 대안을 선택하여 시간과 노력을 절약한다. 설문조사 학자들은 응답자들의 차선의 행동을 설명하기 위해 이 개념을 적용했다(Krosnick, 1991; Tourangeau, 1984). 설문조사에서 만족하는 것은
  • 첫 번째 합리적인 응답 옵션 선택,
  • 제시된 모든 진술에 동의하는 것,
  • 여러 항목에 걸쳐 동일한 옵션을 직선으로 반복적으로 선택하는 것,
  • "모름" 또는 "해당되지 않는" 응답을 일관되게 선택하는 것을 포함할 수 있다(Barge & Gehlbach, 2012; Krosnick, 1991).
Traditionally, “satisficing” refers to a cognitive heuristic in which people employ suboptimal decision-making strategies to conserve mental energy (Simon, 1957; Simon & Stedry, 1968). For example, rather than searching for an “optimal” solution, some decision makers select the first satisfactory alternative that seems “close enough,” thereby saving time and effort. Survey scholars have adapted this concept to explain respondents’ suboptimal behaviors (Krosnick, 1991; Tourangeau, 1984). On surveys, satisficing can include
  • selecting the first reasonable response option,
  • agreeing with all the statements presented,
  • selecting the same option repeatedly in a straight line across multiple items, and
  • consistently selecting the “don’t know” or “not applicable” responses (Barge & Gehlbach, 2012Krosnick, 1991).
일부 조사 연구자들이 참가자들의 satisficing에 대해 보고했지만, 이러한 세부사항을 체계적으로 포함하는 사람은 거의 없다. Barge와 Gehlbach(2012)는 대학생을 대상으로 실시한 두 가지 설문조사를 대상으로 척도 간 신뢰도와 연관성에 대한 만족도의 영향을 조사했다. 저자들은 대부분의 학생들이 적어도 한 가지 형태의 satisficing에 관여한다는 것을 발견했다(두 조사에서 61%와 81%의 학생들). 이러한 satisficing은 인위적으로 부풀린 내부 일관성 추정치와 척도 간 상관관계를 초래했다. 이러한 관행의 만연성과 데이터 해석에 대한 시사점은 특히 특정 항목이 작성되는 방법에 어려움을 겪을 수 있는 어린 학생들에게 만족스러운 설문조사와 잠재적 결과를 추가로 탐구할 필요성을 강조한다(예: 부정적으로 단어화된 항목; Benson & Hocevar, 1985). 대규모 데이터가 정책 및 실천을 위한 의사 결정을 안내하는 데 점점 더 많이 사용되고 있기 때문에 이러한 지식은 특히 중요하다(Marsh et al., 2018).

Although some survey researchers have reported on participant satisficing, few systematically include these details. Barge and Gehlbach (2012) examined the effects of satisficing on the reliability of and associations between scales for two surveys administered to college students. The authors found that most students engaged in at least one form of satisficing (61% and 81% of students across the two surveys). This satisficing resulted in artificially inflated internal consistency estimates and correlations between scales. The pervasiveness of these practices and implications for data interpretation underscore the need to further explore survey satisficing and its potential consequences, especially for younger students who may struggle with how certain items are written (e.g., negatively worded items; Benson & Hocevar, 1985). This knowledge is particularly important now as large-scale data are increasingly used to guide decisions for policy and practice (Marsh et al., 2018).

satisficing 검출 전략에는 복잡도가 다양한 방법이 포함된다(Barge & Gehlbach, 2012; Steedle et al., 2019). 이상적으로, 만족도를 해결하기 위한 절차의 집합은 가능한 한 광범위하게 접근할 수 있어야 한다. 이를 위해, 우리는 연구자, 실무자 및 정책 입안자가 거의 모든 설문 조사 기반 데이터 세트 내에서 평가할 수 있는 세 가지 응답자 행동에 초점을 맞춘다
  • 조기종결
  • 미응답
  • 한줄긋기

Strategies for detecting satisficing include a range of methods that vary in complexity (Barge & Gehlbach, 2012; Steedle et al., 2019). Ideally, any set of procedures to address satisficing should be as broadly accessible as possible. Toward this end, we focus on three respondent behaviors that researchers, practitioners, and policymakers can assess within almost all survey-based data sets: 
  • early termination—when respondents fail to complete the full survey; 
  • nonresponse, or omitted items; and 
  • straight-line responding—when respondents select the same response option repeatedly (e.g., for at least 10 consecutive items).
본 연구에서는 선행연구(Barge & Gehlbach, 2012)를 바탕으로 직선응답을 10개의 연속항목으로 조작화하였으며, 이는 역점수 항목의 배치를 고려할 때 이 특정 설문조사의 맥락에 부합하기 때문이다. 학생들이 동일한 구조 내의 여러 항목에 대해 유사하게 반응하는 것이 타당해 보였지만, 여러 구조와 역 점수 항목에 걸쳐 연속적으로 10개의 동일한 반응이 나타날 가능성은 거의 없어 보였다. 이러한 조작화는 또한 carryover effect와 같이 표면적으로 유사한 인지적 편향과 직선화를 구별하는 데 도움이 될 것이다. 직선적인 반응은 응답자들이 인지적 노력을 보존하는 데 도움이 된다. 대조적으로, 참가자들이 한 조사 항목과 후속 항목의 유사성을 인식할 때 이월 효과(Dillman et al., 2014)가 발생할 수 있으며, 따라서 유사한 응답을 장려한다(과다하게). 설문조사의 모든 10개 항목 집합에는 여러 개의 구성요소가 포함되므로, 참가자는 항목 간의 개념적 차이를 확인해야 합니다. 
In this study, we operationalized straight-line responding as 10 consecutive items based on prior research (Barge & Gehlbach, 2012), and because it fit the context of this particular survey given the placement of reverse-scored items. Although it seemed plausible for students to respond similarly across multiple items within the same construct, the likelihood of 10 identical responses in a row spanning multiple constructs and reverse-scored items seemed vanishingly small. This operationalization also should help distinguish straight-lining from ostensibly similar cognitive biases, such as carryover effects. Straight-line responding helps respondents conserve cognitive effort. By contrast, carryover effects (Dillman et al., 2014) can occur when participants perceive similarities from one survey item to a subsequent item, thereby encouraging (overly) similar responses. Because multiple constructs are included in all 10-item sets within the survey, participants should see conceptual differences between items.
요약하면, 우리는 조기 종료, 무응답 또는 직선 응답이라는 세 가지 차선의 응답 패턴 중 하나 이상에 관여함으로써 satisficing을 조작화했다. 다른 접근법이 존재하지만(예: Hit 등, 2016; Robinson-Cimpian, 2014; Steedle 등, 2019), 우리는 대규모 학생 설문 조사 데이터에서 만족스러운 것을 체계적으로 정의, 계산 및 보고하기 위한 세 가지 간단하고 접근 가능한 전략에 중점을 두었다. 그렇게 함으로써, 우리는 이러한 간단한 단계들이 그들의 특정 교육적 맥락 내에서 가능한 한 많은 조사 데이터 사용자들에 의해 널리 채택되기를 희망했다. 
In sum, we operationalized satisficing as engaging in one or more of these three suboptimal response patterns: early termination, nonresponse, or straight-line responding. Although other approaches exist (e.g., Hitt et al., 2016; Robinson-Cimpian, 2014; Steedle et al., 2019), we focused on three straightforward, accessible strategies for systematically defining, calculating, and reporting satisficing in large-scale student survey data. By doing so, we hoped that these simple steps might be widely adopted by as many users of survey data as possible within their specific educational contexts.

연구 질문과 가설
Research Questions and Hypotheses

연구 결과의 투명성과 신뢰성을 높이기 위해 권장 사례에 따라 일련의 가설을 사전 등록했다(Gehlbach & Robinson, 2018). 구체적으로, 우리는
  • (a) 학생들이 어느 정도까지 조사 satisficing에 참여했는지,
  • (b) 어떤 형태의 satisficing이 조사 데이터에 가장 큰 위협이 되는지,
  • (c) 이 전략이 조사 척도에서 학생들의 평균 점수에 어떻게 영향을 미칠 수 있는지 더 잘 식별하기 위해, 학생들이 한줄긋기를 할 때 가능성이 높은 응답 옵션이 무엇인지
  • (d) 어떤 학생들이 가장 satisficing을 할 것 같은지
To boost the transparency and credibility of our findings, we preregistered a set of hypotheses (https://osf.io/36zqk/) according to recommended practices (Gehlbach & Robinson, 2018). Specifically, we wanted to know
  • (a) to what extent students engaged in survey satisficing,
  • (b) which form of satisficing posed the largest threat to survey data,
  • (c) which response option students were most likely to select when straight-lining in order to better discern how this strategy might affect students’ mean scores on the survey scales, and
  • (d) which students were most likely to satisfice.
탐사 파일럿 데이터와 이전 연구를 통해 다음과 같은 사전 지정된 가설을 테스트했다:
Informed by our exploratory pilot data and prior research, we tested the following prespecified hypotheses:
  • 가설 1: 전체 표본의 최소 10%가 만족스러운 형태로 사용됩니다.
  • 가설 2: 세 가지 유형의 만족도 조사 중 직선이 가장 많은 총 조사 항목에 영향을 미칩니다.
  • 가설 3: 직선 라이닝은 데이터의 품질에 영향을 미칩니다. 구체적으로:
    • 가설 3a. 직선을 이루는 참가자는 대부분 척도의 오른쪽에서 가장 극단적인 반응 옵션을 선택합니다.
    • 가설 3b: 역점수 항목을 고려한 후 직선 응답은 네 가지 조사 척도의 평균 점수에 유의한 영향을 미친다.
  • 가설 4: 남학생이 여학생보다 만족도가 높을 것이다.
Hypothesis 1: At least 10% of the total sample will engage in some form of satisficing.
Hypothesis 2: Of the three types of satisficing examined, straight-lining will affect the greatest number of total survey items.
Hypothesis 3: Straight lining will affect the quality of the data. Specifically:
Hypothesis 3a. Participants who straight-line will select the most extreme response option on the right-hand side of the scale the majority of the time.
Hypothesis 3b: After accounting for reverse-scored items, straight-line responding will significantly affect the mean scores across the four survey scales.
Hypothesis 4: Male students will be more likely to satisfice than female students.

방법
Method

샘플
Sample

본 연구는 캘리포니아 교육의 Core-PACE 연구 파트너십을 위한 정책 분석을 통해 수집된 2차 자료를 분석하였다. 우리는 2014-2015년과 2015-2016년 학기 동안 여러 캘리포니아 학군을 대상으로 대규모 설문 조사의 일환으로 관리된 일련의 사회 정서 학습(SEL) 항목에 대한 학생들의 반응을 분석했다. 전체 설문조사에는 SEL 항목이 포함되었고 그 다음으로 학교 문화와 기후 항목이 포함되었다. 그러나 문화와 기후 항목의 수는 학군과 학년에 따라 달랐다. 따라서, 우리는 분석을 SEL 항목으로 제한했다.
This study examined secondary data collected through the Policy Analysis for California Education’s CORE-PACE Research Partnership. We analyzed student responses to a set of social–emotional learning (SEL) items administered as part of a larger survey to several California school districts during the 2014–2015 and 2015–2016 school years. The full survey included SEL items followed by a set of school culture and climate items; however, the number of culture and climate items varied across districts and school years. Thus, we restricted our analyses to the SEL items.

파일럿의 경우 2014-2015학년도 데이터에 대한 탐색적 분석을 수행했습니다. 이러한 분석은 2015-2016년 데이터에 대해 테스트한 사전 등록된 가설을 생성했다. 확인 연구를 위한 표본(N = 409,721)은 CORE 학군의 하위 집합에서 온 학생들을 포함했다. 2학년 2명을 제외한 학생들은 3학년부터 12학년까지 다양했다. 표본은 146,126명의 초등학생들, 125,747명의 중학생들, 그리고 137,838명의 고등학생들을 포함했다. 표 1은 학생 인구 통계의 완전한 설명을 제공한다. 

For our pilot, we conducted exploratory analyses on the 2014–2015 school year data. These analyses generated the preregistered hypotheses that we tested on the 2015–2016 data. The sample (N = 409,721) for our confirmatory study included students from a subset of the CORE school districts (see the full list here: https://edpolicyinca.org/initiatives/core-pace-research-partnership). Except for two second graders, students ranged from Grades 3 through 12. The sample included 146,126 elementary school students; 125,747 middle school students; and 137,838 high school students. Table 1 provides a complete description of student demographics.

 

방안
Measures

25개 항목으로 구성된 SEL 조사 성장 마인드를 측정하는 척도 4개(n = 4개 항목), 규제(n = 9개 항목), 자기 인식(n = 4개 항목), 사회 인식(n = 8개 항목)을 포함하였다. 각 척도에 대한 예제 항목은 다음과 같습니다: "내 지능은 내가 별로 바꿀 수 없는 것", "마지막까지 기다리지 않고 바로 일을 끝냈다", "어려울 때도 모든 시험을 잘 볼 수 있다", "다른 사람들의 의견을 얼마나 주의 깊게 들었느냐"는 질문이 각각 나왔다. 우리는 전체 척도에 대한 모든 항목과 5가지 대응 옵션을 온라인 보충 자료의 부록 A(저널 웹사이트에서 이용 가능)에 제시한다. 평균, 표준 편차 및 내부 일관성 신뢰성 추정치는 표 2에 나와 있습니다. 전반적으로 이러한 구조를 측정하는 목적은 학생들의 SEL을 더 잘 이해하고 학교 수준의 데이터 중심 의사결정을 지원하는 것이었다. 이 설문조사의 개발에 대한 자세한 내용(예: SEL 역량이 결정된 방법, 조치를 선택하고 테스트한 방법 등)은 West 등(2018)을 참조하십시오. 
The 25-item SEL survey included four scales measuring growth mindset (n = 4 items), regulation (n = 9 items), self-efficacy (n = 4 items), and social awareness (n = 8 items). Example items for each scale included: “My intelligence is something that I can’t change very much,” “I got my work done right away instead of waiting until the last minute,” “I can do well on all my tests, even when they’re difficult,” and “How carefully did you listen to other people’s points of view?” respectively. We present all items for the complete scales and their five response options in Appendix A of the online supplementary materials (available on the journal website). Means, standard deviations, and internal consistency reliability estimates are in Table 2. Overall, the goal of measuring these constructs was to better understand students’ SEL and to support school-level data-driven decision making. For more information about the development of this survey (e.g., how SEL competencies were determined, how measures were selected and tested, etc.), please see West et al. (2018).

절차들
Procedures

각 만족스러운 행동에 대해 응답자들이 특정 대응 전략(각각 1 또는 0으로 코딩됨)에 참여하는지 여부를 결정했다. 우리는 최종 조사 항목(즉, 항목 25)을 완료하기 전에 조사를 종료함으로써 조기 종료를 조작화했다. 응답자가 마지막으로 완료한 항목 이전에 설문조사에서 하나 이상의 항목이 누락하는 것으로 무응답을 조작화하였습니다. 이 접근법을 통해 비응답자와 초기 종료자를 이중으로 계산하는 것을 피할 수 있었다. 
For each satisficing behavior, we determined whether respondents engaged in the specific response strategy or not (coded as 1 or 0, respectively). We operationalized early termination as ending the survey prior to completing the final survey item (i.e., Item 25). Nonresponse was operationalized as omitting at least one item in the survey prior to a respondent’s last completed item. This approach allowed us to avoid double-counting nonresponders and early terminators.
직선 응답을 식별하기 위해 설문 조사 전체에 걸쳐 10개 항목의 각 순차적 집합에 대한 표준 편차를 분석했다(예: 항목 1-10, 항목 2-11, 항목 3-12 등). 주어진 집합에 대한 표준 편차 0은 학생이 10개 항목 각각에 대해 동일한 반응 옵션을 선택했음을 나타냅니다. 따라서 16개의 가능한 구간(즉, 10개의 순차 항목의 16세트)에서 학생들은 전략을 적어도 한 번 이상 사용할 경우 직선자로서 자격을 얻었다. 마지막으로, 우리는 이 세 가지 이진수 값을 합산하여 전반적인 satisficing(조사 중 어느 시점에서 학생이 satisficing했는지 여부)를 결정했다. 0보다 큰 값은 학생이 조사 중 어느 시점에서 만족했음을 나타낸다. 이러한 계산에 대한 자세한 설명은 온라인 보충 자료(저널 웹사이트에서 제공)의 부록 B를 참조하십시오.
To identify straight-line responding, we analyzed the standard deviation for each sequential set of 10 items across the survey (e.g., Items 1–10, 2–11, 3–12, etc.). Standard deviations of zero for a given set indicated that the student selected the same response option for each of the 10 items. Thus, across the 16 possible intervals (i.e., the 16 sets of 10 sequential items), students qualified as straight-liners if they used the strategy at least once. Finally, we determined overall satisficing—whether a student satisficed at any point during the survey—by summing these three binary values; values greater than zero indicated that a student satisficed at some point during the survey. Please see Appendix B in the online supplementary materials (available on the journal website) for detailed descriptions of these calculations.

사전 등록된 결과
Preregistered Results

가설 1: 전체 만족도
Hypothesis 1: Overall Rate of Satisficing

만족 학생 수를 전체 참가자 수로 나누어 표본의 최소 10%가 만족도 조사에 참여할 것이라는 첫 번째 가설을 실험하였다. 우리의 데이터는 30.36%의 학생들이 적어도 하나의 satisficing 형태에 참여하면서 그 가설을 지지했다. 만족도는 조기종료 3.73%, 무응답 24.99%, 직선응답 5.38% 등이었다. 일부 학생들은 다양한 형태의 satisficing을 보였다(3.26%는 두 가지 형태, 0.14%는 세 가지 형태 모두에 참여했다).
We tested our first hypothesis that at least 10% of the sample would engage in survey satisficing by dividing the number of students who satisficed by the total number of participants. Our data supported the hypothesis with 30.36% of students engaging in at least one form of satisficing. The satisficing included 3.73% early termination, 24.99% nonresponse, and 5.38% straight-line responding. Some students engaged in multiple forms of satisficing (3.26% engaged in two forms, and 0.14% engaged in all three).

가설 2: 측량 영향
Hypothesis 2: Survey Impact

우리는 세 가지 응답 패턴 중에서 직선 응답이 가장 많은 총 조사 항목에 영향을 미칠 것이라는 가설을 세웠다. 단일 항목에만 영향을 미칠 수 있는 무응답 및 조기 종료와 대조적으로, 정의상 한 번만 응답해도 최소 10개의 항목이 포함된다. 결과는 직선으로 선을 그은 학생들이 평균 3.90개의 간격(각 간격은 10개의 잠재적으로 중복되는 항목 집합을 나타낸다; SD = 4.04) 동안 이 행동에 참여했다는 우리의 가설을 뒷받침했다. 이 평균은 거의 13개 항목을 연속으로 동일한 반응 옵션을 선택하는 것에 해당합니다. 이에 비해 평균 무응답은 건너뛴 항목 1.77개에 해당했고, 평균 조기 종료로 3.52개 항목이 조기 종료됐다. 따라서 직설적 응답(각각 5.38% 대비 24.99%)에 비해 무응답 학생이 더 많았음에도, 무응답 관련 항목은 더 적었다.
We hypothesized that out of the three response patterns, straight-line responding would affect the greatest number of total survey items. In contrast to nonresponse and early termination, which might affect as little as a single item, straight-line responding even once implicates a minimum of 10 items, by definition. The results supported our hypothesis in that students who straight-lined engaged in this behavior for a mean of 3.90 intervals (each interval represents a set of 10, potentially overlapping items; SD = 4.04). This average corresponds to selecting the same response option almost 13 items in a row. In comparison, average nonresponse corresponded to 1.77 skipped items, and average early termination resulted in ending 3.52 items early. Thus, even though more students engaged in nonresponse compared with straight-line responding (24.99% compared with 5.38%, respectively), fewer items were implicated by nonresponse.

가설 3a 및 3b: 직선 반응
Hypotheses 3a and 3b: Straight-Line Responding

우리는 첫 번째, 두 번째, 세 번째, 네 번째, 다섯 번째 반응 옵션에 대해 직선 응답이 얼마나 자주 발생했는지에 대한 빈도를 조사함으로써 직선 응답을 한 참가자가 절반에 걸쳐 척도의 오른쪽에서 가장 극단적인 반응 옵션을 선택한다는 가설 3a를 테스트했다. 그런 다음 다섯 번째 반응 옵션(즉, 오른쪽으로 가장 먼 선택)을 사용하여 발생한 직선 반응의 백분율을 계산했습니다. 참가자들은 16개 구간에 걸쳐 46.02%의 경우에 가장 오른쪽 응답 옵션을 선택했는데, 이는 우리가 예측한 대다수에 미치지 못하는 것입니다. 두 번째로 많이 선택된 옵션은 중간 옵션(M = 29.97%)이었다.
We tested Hypothesis 3a, that participants who straight-lined would select the most extreme response option on the right-hand side of the scale over half the time, by examining the frequencies for how often straight-line responding occurred for the first, second, third, fourth, and fifth response options. We then calculated the percentage of straight-line responding that occurred using the fifth response option (i.e., the choice farthest to the right). Participants selected this response option 46.02% of the time across the 16 intervals–short of the majority we had predicted. The second most frequently selected option was the middle option (M = 29.97%).
직선 응답이 4개 척도(가설 3b)에 대한 학생들의 평균 점수에 영향을 미치는지 여부를 조사하기 위해 척도별로 일련의 2-표본 t 검정을 수행했습니다. 우리는 전체 샘플을 충실도가 높은 샘플(즉, 직선을 긋는 응답자를 제외한 후 샘플)과 비교했다.1 
To examine whether straight-line responding affected students’ mean scores for the four scales (Hypothesis 3b), we conducted a series of two-sample t tests for each scale. We compared the complete sample with the high-fidelity sample (i.e., the sample after excluding respondents who straight-lined).1
효과 크기는 작았지만, 전체 표본은 고출실도 표본보다 높은 평균 점수를 보였다: 규정, t(796909) = 9.68, p <.001, 99% CI 0.01, 0.02, Cohen's d = 0.02, 자가 진단, t(794575) = 16.19, p <.001, 99% CI [0.03, 0.04], 사회적 인식, C.03, C.03, C.03, 14.03, C.03, C.03, C.03, C.93).03, C.03, C.03, C.03oen's d = 0.03. 성장 마인드 척도에서도 동일한 패턴이 나타났지만 항목은 역점을 받았다. 척도의 맨 오른쪽에 일직선으로 그은 학생들(즉, 반응 옵션 5를 선택)은 성장 사고방식의 개념적 반대를 지지했다. 따라서 역점수 성장 마인드 항목을 고려한 결과 성장 마인드 점수는 다른 척도의 패턴을 반영하는 것으로 나타났다. 구체적으로, 완전표본은 고순도표본 t(794700) = -6.51, p < .001, 99% CI [-0.02, -0.01], Cohen's d = 0.01 (표 2 참조)보다 낮은 점수를 받았다. 요약하면, 학생들이 직선 반응에 참여하는 방식은 각 구성에 대한 전체 평균 점수에 영향을 미쳤다. 
Although the effect sizes were small, the complete sample had higher mean scores than the high-fidelity sample for: regulation, t(796909) = 9.68, p < .001, 99% CI 0.01, 0.02], Cohen’s d = 0.02; self-efficacy, t(794575) = 16.19, p < .001, 99% CI [0.03, 0.04], Cohen’s d = 0.04; and social awareness, t(795008) = 14.93, p < .001, 99% CI [0.02, 0.03], Cohen’s d = 0.03. The same pattern emerged for the growth mindset scale; however, the items were reverse scored. Students who straight-lined on the far right-hand side of the scale (i.e., selecting Response Option 5) endorsed the conceptual opposite of growth mindset. Thus, after accounting for the reverse-scored growth mindset items, we found that the growth mindset scores mirrored the pattern of the other scales. Specifically, the complete sample had lower scores than the high-fidelity sample, t(794700) = −6.51, p < .001, 99% CI [−0.02, −0.01], Cohen’s d = 0.01 (see Table 2). In sum, the pattern of how students engage in straight-line responding affected the overall mean scores for each construct.

가설 4: 만족자 식별
Hypothesis 4: Identifying Satisficers

로지스틱 회귀 분석을 사용하여 남학생이 여학생보다 만족할 가능성이 높다는 가설을 검증했습니다. 결과에 따르면 satisficing을 할 확률은 남성이 여성보다 16% 높았다(B = 0.15, SE = 0.01, 승산비 = 1.16, 99% CI [1.14, 1.18]).
We used a logistic regression to test our hypothesis that male students would be more likely to satisfice than female students. Results showed that the odds of satisficing were 16% higher for males than females (B = 0.15, SE = 0.01, odds ratio = 1.16, 99% CI [1.14, 1.18]).

탐색 결과
Exploratory Results

전체적으로, 우리의 결과는 우리의 샘플에서 satisficing하는 학생의 만연성을 보여주었고, 30% 이상의 학생들이 이런 행동에 관여하고, 직선적인 응답을 하는 것은 가장 많은 항목을 의미한다. 이러한 사전 등록된 가설은 중요한 확인 데이터를 제공하는 동시에 일련의 탐색적 분석을 통해 추구한 추가적인 질문을 제기하기도 했다. 
  • 먼저 성별 외에 다른 학생 특성이 전반적인 만족도를 예측하는지 살펴보았다.
  • 둘째, 직선 응답이 학생 하위 그룹 비교와 설문 조사의 심리학적 속성(예: 크론바흐의 알파 계수)에 미치는 영향을 추가로 조사했다
  • 마지막으로, 우리는 학생들이 이러한 형태의 만족에 가장 자주 참여한다는 점을 고려하여 무응답을 더 자세히 탐구했다.2
우리는 향후 연구를 위한 보다 정교한 권장 사항을 개발하기 위해 이러한 탐색적 분석을 추구했다.
Overall, our results showed the pervasiveness of student satisficing in our sample, with over 30% of students engaging in some form of satisficing and straight-line responding implicating the greatest number of items. While providing important confirmatory data, these preregistered hypotheses also raised additional questions that we pursued through a series of exploratory analyses. Specifically,
  • we first explored whether other student characteristics in addition to gender predicted overall satisficing.
  • Second, we further examined the effects of straight-line responding on student subgroup comparisons and the psychometric attributes of the survey (e.g., Cronbach’s alpha coefficients.)
  • Last, we explored nonresponse in further detail, given that students engaged in this form of satisficing most frequently.2 
We pursued these exploratory analyses to develop more refined recommendations for future research.

탐색적 분석: 전반적인 만족도
Exploratory Analyses: Overall Satisficing

로지스틱 회귀 모형을 적합하여 다른 학생 특성도 만족스러운 설문 조사를 예측했는지 여부를 조사합니다. 성별 외에 인종/민족, 학년, 영어 학습자 상태, 장애 상태 학생, 무료 또는 할인된 가격의 점심 자격, 정학을 포함했습니다. 결과에 따르면 유색인종 학생들은 6%, 무료 또는 할인된 점심식사를 할 수 있는 학생들은 8%, 영어 학습자로 분류된 학생들은 22%, 그리고 장애가 있는 학생들은 45%의 만족 가능성이 증가했다저학년 학생들은 만족할 확률이 13% 감소했다. 정학 횟수는 학생들의 만족도를 예측하지 못했다(표 3 참조). 
We fit a logistic regression model to examine whether other student characteristics also predicted survey satisficing. In addition to gender, we included race/ethnicity, grade, English Language Learner status, student with a disability status, free or reduced-price lunch qualification, and suspensions. Results indicated that odds of satisficing increased 6% for students of color, 8% for students qualifying for free or reduce price lunch, 22% for students classified as English language learners, and 45% for students with disabilities. Odds of satisficing decreased by 13% for students in younger grades. The number of suspensions did not predict student satisficing (see Table 3).

탐색적 분석: 직선 응답
Exploratory Analyses: Straight-Line Responding

직선응답은 다른 어떤 형태의 만족도보다 총조사 항목에 더 많은 영향을 미쳤고 4개 척도에 대한 학생들의 평균 점수에 영향을 미쳤다는 점을 고려하여, 우리는 이러한 구체적인 만족도 형태에 대한 몇 가지 후속 질문을 추구했다. 우리는 잠재적인 성별 차이, 크론바흐의 알파 및 상관 계수의 차이, 직선 응답 패턴에 초점을 맞추었다. 
Given that straight-line responding affected more total survey items than any other form of satisficing and affected students’ mean scores for the four scales, we pursued several follow-up questions for this specific form of satisficing. We focused on potential gender differences, differences in Cronbach’s alpha and correlation coefficients, and the pattern of straight-line responding.

성별 차이
Gender differences

남학생들이 여학생들보다 더 자주 satisficing한다는 사전 등록된 연구 결과를 추적하기 위해, 우리는 연구자들이 만족을 설명하지 못한다면 이러한 경향이 성별 차이를 강조하거나 약화시킬 수 있을지 궁금했다. 구체적으로, 우리는 전체 샘플과 충실도가 높은 샘플(즉, 직선으로 선 학생들을 제거하기 전과 후)을 비교했다. 결과는 직선제를 실시한 학생들을 제거한 후 평균 점수가 0.01점에서 0.02점 사이에서 변화한 것으로 나타났다(예: 여학생들의 평균 자기 조절 점수는 4.16점에서 4.14점으로 떨어졌다). 그러나, 평균 점수가 변경되었음에도 불구하고, 여학생과 남학생의 차이의 크기는 완전 표본에 기초한 분석인지 아니면 충실도가 높은 표본에 기초한 분석인지에 관계없이 일관성을 유지했다. 여학생들은 남학생들보다 자기조절(Cohen's d = 완전체 0.28, 고충실체 0.27), 항목을 역선택한 후 성장 마인드(Cohen's d = 완전체 0.04, 고충실체 0.03), 사회적 인식(Cohen's d = 완전체 0.22, 고충실체 0.22)이 더 높게 나타났다. 대조적으로, 남학생들은 여학생들보다 더 높은 자기 효능감을 보였다(완전한 경우에는 0.08, 고충실도 응답 경우에는 0.10). 
To follow up on our preregistered finding that male students satisficed more often than their female counterparts, we wondered if this tendency might accentuate or mute gender differences if researchers failed to account for satisficing. Specifically, we compared the complete sample and the high-fidelity sample (i.e., before and after removing students who straight-lined). Results indicated that mean scores changed between 0.01 and 0.02 points after removing the students who straight-lined (e.g., mean self-regulation scores for female students fell from 4.16 to 4.14). However, even though the mean scores changed, the magnitude of differences between female and male students remained consistent regardless of whether analyses were based on the complete sample or the high-fidelity sample.
  • Female students reported higher
    • self-regulation (Cohen’s d = 0.28 for complete, 0.27 for high fidelity),
    • growth mindset after reverse-scoring the items (Cohen’s d = 0.04 for complete, 0.03 for high fidelity), and
    • social awareness (Cohen’s d = 0.22 for complete, 0.22 for high fidelity) than male students.
  • In contrast, male students reported higher
    • self-efficacy than female students (Cohen’s d = 0.08 for complete, 0.10 for high fidelity).

Cronbach의 알파 및 상관 계수
Cronbach’s alpha and correlation coefficients

둘째, 우리는 Feldt의 (1969) W 통계량을 사용하여 Cronbach의 알파 계수를 비교했다. 표 2에서 알 수 있듯이 성장 마인드, 조절, 자기효능감, 사회적 인식에 대한 알파 계수는 충실도가 높은 표본에 비해 전체 표본이 .01에서 .02 사이 더 높았다. 이러한 결과는 0.001 미만의 p 값에 해당한다(표 2 참조). 
Second, we compared Cronbach’s alpha coefficients by using Feldt’s (1969) W statistic. As Table 2 shows, the alpha coefficients for growth mindset, regulation, self-efficacy, and social awareness were between .01 and .02 higher for the complete sample as compared with the high-fidelity sample; these findings correspond to a p value of less than .001 (see Table 2).
셋째, Fisher's z를 사용하여 전체 표본과 충실도가 높은 표본 간의 상관 계수를 비교했습니다. 성장 마인드와 조절(z = -12.65), 자기 인식(z = -13.23), 사회 인식(z = -5.12)의 상관관계는 고순도 표본보다 완전 표본에서 더 높았다. 자기인식(z = 13.20)과 사회인식(z = 13.16)의 규제 상관관계와 자기인식과 사회인식의 상관관계(z = 21.80)를 분석할 때도 동일한 양상이 나타났다. 모든 상관관계는 p < .001에서 유의했다(표 4 참조). 결론적으로, 내부 일관성과 척도 간 상관관계에 대한 완전 표본과 고충실도 표본 간의 차이는 작았다. 
Third, we used Fisher’s z to compare the correlation coefficients between the complete sample and the high-fidelity sample. Correlations for growth mindset with regulation (z = −12.65), self-efficacy (z = −13.23), and social awareness (z = −5.12) were higher for the complete sample than the high-fidelity sample. The same pattern emerged when examining the correlations for regulation with self-efficacy (z = 13.20) and social awareness (z = 13.16), as well as the correlation between self-efficacy and social awareness (z = 21.80). All correlations were significant at p < .001 (see Table 4). In sum, the differences between the complete and high-fidelity samples for internal consistency and correlations between scales were small.

직선 응답 패턴
Pattern of straight-line responding

지금까지, 우리의 데이터는 직선 응답이 평균 점수, 척도 신뢰성 및 상관 계수에 영향을 미친다는 것을 시사했다. 이것은 설문 조사에서 학생들이 가장 자주 직선을 긋는 부분(예: 학생들이 피곤해하고 설문 조사가 끝날 때쯤 직선으로 응답하기 시작할 수 있음)에 대한 질문을 제기한다. 그렇지 않으면 전체 설문조사를 완료한 모든 학생(즉, 항목을 누락하거나 설문조사를 일찍 종료하지 않은 학생을 포함)을 대상으로 응답 패턴을 조사했다. 우리는  
  • 첫 번째 간격 이후 학생 직선(a)이 감소했고,
  • (b) 다음 13 간격 동안 상당히 일정하게 유지되었지만
  • (c) 조사의 마지막 세 간격 동안 증가했다는 것을 발견했다(그림 1 참조).
Thus far, our data suggested that straight-line responding affected mean scores, scale reliability, and correlation coefficients. This raises the question of where, within the survey, students straight-lined most frequently (e.g., students may get fatigued and start straight-line responding toward the end of the survey). We examined the response pattern for all the students who otherwise completed the full survey (i.e., we included the students who did not omit items or end the survey early). We found that student straight-lining
  • (a) decreased after the first interval,
  • (b) remained fairly consistent for the next 13 intervals
  • but (c) increased during the last three intervals of the survey (see Figure 1).

탐색적 분석: 무응답
Exploratory Analyses: Nonresponse

사전 등록된 분석에 따르면 직선 응답은 무응답보다 설문 항목 수가 더 많은 것으로 나타났다. 그러나, 무응답이 대부분의 학생들이 참여하는 만족스러운 행동이라는 점을 고려하여, 우리는 (a) 누락된 데이터가 4개 척도의 평균 점수에도 영향을 주는지 여부와 (b) 누락된 데이터의 패턴을 조사하기 위해 두 가지 탐색적 분석을 추구했다. 
Our preregistered analyses indicated that straight-line responding implicated a greater number of survey items than nonresponse. However, given that nonresponse was the satisficing behavior most students engaged in, we pursued two exploratory analyses to examine (a) whether missing data also affected mean scores for the four scales and (b) the pattern of missing data.

평균 차이
Mean differences

네 가지 척도에 걸쳐 완전 표본과 충실도가 높은 표본 간에 차이가 있는지 조사했습니다. 결과는 전체 표본이 높은 충실도 표본에 비해 규제 및 성장 사고방식에 대한 평균 점수가 유의하게 낮다는 것을 보여주었다. 그러나 차이의 크기는 규제(Cohen's d = 0.06)와 성장 사고방식(Cohen's d = 0.03) 모두에서 미미했다. 평균 차이는 자기효능감과 사회적 인식에서 훨씬 더 작았지만, 표본 크기를 고려할 때 이러한 차이도 상당했다. 전체 표본은 고순도 표본(Cohen's d = 0.01)보다 낮은 자기 만족도를 보였습니다. 사회적 인식은 거의 차이가 없었다(Cohen's d = 0.001). 표 5를 참조하십시오. 
Across the four scales, we examined whether there were differences between the complete and high-fidelity3 samples. Results indicated that the overall sample had significantly lower mean scores for regulation and growth mindset than the high-fidelity sample. However, the magnitude of the differences was modest for both regulation (Cohen’s d = 0.06) and growth mindset (Cohen’s d = 0.03). The mean differences were even smaller for self-efficacy and social awareness, although given our sample size, these differences also were significant. The overall sample had lower self-efficacy than the high-fidelity sample (Cohen’s d = 0.01). There was almost no difference for social awareness (Cohen’s d = 0.001). See Table 5.

무응답 패턴
Pattern of nonresponse

직선 응답 패턴을 탐구하는 분석과 유사하게, 우리는 이 분석에서 샘플을 전체 설문 조사를 완료한 학생(즉, 항목 25에 응답한 학생)으로 제한했다. 따라서 그림 2는 조사의 처음 24개 항목에 걸쳐 누락된 데이터의 패턴을 보여줍니다. 값은 각 항목에 대한 결측 반응의 총합을 나타냅니다. 이 패턴은 학생들이 일반적으로 하반기에 비해 상반기에 더 많은 항목을 누락했다는 것을 시사한다. 이번 조사에서 가장 많이 누락된 항목은 10번과 11번으로 각각 13,627건과 10,104건의 누락 응답이 있었다. 두 항목 모두 역채점 성장 마인드 항목이었다. 
Similar to our analysis exploring the pattern of straight-line responding, we restricted our sample in this analysis to the students who completed the full survey (i.e., those who responded through to Item 25). Thus, Figure 2 shows the pattern of missing data across the first 24 items in the survey. The values represent the total missing responses for each item. The pattern suggests that students generally missed more items in the first half of the survey compared with the second half. The two most-missed items in the survey were Items 10 and 11, where there were 13,627 and 10,104 missing responses, respectively. Both items were reverse-scored growth mindset items.

논의
Discussion


이 기사에서, 우리는 고도로 훈련된 통계학자의 도움 없이도 다른 사람들이 이러한 단계를 쉽게 복제할 수 있도록 만족도를 정의하고 계산하기 위해 의도적으로 간단한 접근법을 취했다. 광범위한 satisficing에도 불구하고 데이터는 조기 종료, 무응답 및 직선 응답에 놀라울 정도로 robust한 것으로 나타났다. 우리는 우리의 연구 결과와 연구자, 실무자 및 정책 입안자가 응답자의 만족에 대응하여 무엇을 할 수 있는지 논의한다. 

In this article, we took a deliberately simple approach to defining and calculating satisficing so that others might easily replicate these steps, even without the help of highly trained statisticians. Despite extensive satisficing, the data appeared to be surprisingly robust to early termination, nonresponse, and straight-line responding. We discuss our findings and what researchers, practitioners, and policymakers might do in response to respondent satisficing.

전체 만족도
Total Satisficing

전체적으로 30%가 조금 넘는 표본이 적어도 하나의 satisficing 형태에 관여했다. 그러나 만족도가 응답자의 동기 부여 부족을 반영한다는 점을 고려할 때, 연구자들은 satisficing 행동을 어떻게 조작화 할 것인지를 고려하는 것이 중요하다. 우리는 우리의 정의에 대해 포괄적인 접근법을 취했다. 특히, 응답자들은 한 항목을 생략하는 한 비응답자로서의 자격이 있었다. 이렇게 큰 데이터 세트를 사용하면 일부 의욕적인 학생(예: 실수로 항목을 놓친 학생)을 실수로 잘못 분류하여 잠재적으로 학생 메타데이터를 잘못 표현하는 것이 불가피해 보인다(Soland 등, 2019)., 2019). 반면에, 연속적으로 10개 항목의 직선화 임계값은 차선의 노력을 기울이고 있는 일부 응답자(예: 9개 항목에 대해 직선화한 응답자)를 제외했을 가능성도 있다. 자체 데이터 만족도를 조사하는 연구자, 실무자 및 정책 입안자는 특정 컨텍스트에 대한 만족도 및 운영화에 대한 의미 있는 정의를 결정해야 합니다. 
Overall, a little more than 30% of the sample engaged in at least one form of satisficing. Given that satisficing reflects a lack of respondent motivation, however, it is important for researchers to consider how they operationalize satisficing behaviors. We took an inclusive approach to our definitions. In particular, respondents qualified as nonresponders as long as they omitted one item. With a data set this large, it seems inevitable that we inadvertently miscategorized some motivated students (e.g., those who missed an item by accident), thereby potentially misrepresenting student metadata (Soland et al., 2019). On the other hand, it is also possible that our straight-lining threshold of 10 items in a row excluded some respondents (e.g., those who straight-lined for nine items) who were putting forth suboptimal effort. Researchers, practitioners, and policymakers examining satisficing in their own data will need to determine meaningful definitions of satisficing and operationalizations for their specific contexts.

설문조사 데이터에 미치는 영향
Impact on Survey Data

세 가지 만족행동 중 학생 직선응답이 전체 설문항목(평균 13개 항목)에 가장 많은 영향을 미쳤고, 무응답 및 조기종료(각각 1.77개, 3.52개 항목)에 비해 영향을 미쳤다. 우리는 이번 조사에 성장 마인드를 측정하는 역점수 항목들이 포함되어 있었기 때문에 직선으로 선 학생들이 자신의 태도를 정확하게 보고하지 않았다고 합리적으로 확신한다. 따라서 오른쪽 대응 옵션은 고정된 사고방식, 즉 성장 사고방식의 개념적 반대를 의미했습니다. 직선 응답자 중 성장 마인드 점수가 가장 낮은 학생은 자기효능감과 규제가 가장 높은 것으로 조사됐다. 이러한 결과는 더 강한 성장 마인드셋과 더 높은 자기효능감을 연결하는 동기부여 연구와 일치하지 않을 것이다(Deck & Master, 2009). 
Of all three satisficing behaviors, student straight-line responding affected the greatest number of total survey items (almost 13 items on average) compared with nonresponse and early termination (1.77 and 3.52 items, respectively). We are reasonably confident that the students who straight-lined were not accurately reporting their attitudes because the survey included a set of reverse-scored items measuring growth mindset. The right-hand response option therefore signaled a fixed mindset—the conceptual opposite of growth mindset. Among straight-line responders, our survey results show that the students with the lowest growth mindset scores have the highest self-efficacy and regulation. These findings would be incongruous with the motivation research linking stronger growth mindsets with higher self-efficacy (Dweck & Master, 2009).
또한, 우리 표본에서 한줄긋기를 한 학생들은 거의 절반의 경우(M = 46.02%)을 맨 오른쪽에서 반응 옵션을 선택했기 때문에, 이러한 만족스러운 행동은 네 가지 척도에 걸쳐 학생들의 점수에 영향을 미쳤다. 그러나, 상대적으로 작은 효과 크기는, 통계적으로 유의미하긴 하나, 샘플 간의 차이가 반드시 우리의 연구 결과에 대한 해석에 상당한 위협을 나타내는 것은 아니라는 것을 시사했다. 우리가 미리 지정한 가설에서, 코헨의 d 계수는 0.01에서 0.04 사이로, 일반적으로 "작은" 효과 크기에 대해 예약된 0.20 컷오프 아래로 떨어졌다(코헨, 1988). 우리는 탐색적 분석(Cohen의 d 계수 0.001 ~ 0.06)에 대해 유사한 결과를 얻었다. 이는 일반적으로 우리의 데이터에 대한 실질적으로 다른 해석을 정당화할 정도로 평균이 충분히 다르지 않았음을 나타낸다. 물론 효과 크기의 크기는 연구 맥락에 따라 다양하다. 한 영역에서 작을 수 있는 것은 다른 영역에서 의미 있는 차이를 나타낼 수 있다(Kraft, 2020). 또한, 일부 연구자들은 효과 크기 컷오프가 상대적으로 임의적이며, 대신 효과가 야기할 수 있는 결과의 관점에서 해석되어야 한다고 주장한다(Funder & Ozer, 2019). 따라서 로컬 컨텍스트는 차이가 의미 있는 경우 안내하는 데 도움이 될 수 있습니다. 
Moreover, because the students who straight-lined in our sample selected the response option on the far right-hand side almost half the time (M = 46.02%), this satisficing behavior affected students’ scores across the four scales. Yet, the relatively modest effect sizes suggested that, while significant, the differences between samples did not necessarily represent a substantial threat to interpretations of our findings. In our prespecified hypotheses, the Cohen’s d coefficients ranged from 0.01 to 0.04, falling below the 0.20 cutoff typically reserved for “small” effect sizes (Cohen, 1988). We obtained similar findings for our exploratory analyses (Cohen’s d coefficients from 0.001 to 0.06)—indicating that, in general, the means were not sufficiently different to warrant substantially different interpretations of our data. Of course, the magnitude of effect sizes ranges across research contexts—what may be small in one domain may represent a meaningful difference in others (Kraft, 2020). Moreover, some researchers argue that effect size cutoffs are relatively arbitrary and should instead be interpreted in terms of the consequences that the effects could cause (Funder & Ozer, 2019). Local contexts can therefore help guide when the differences are meaningful.
우리는 또한 직선 응답과 무응답의 패턴을 조사했다. 설문조사가 [끝날 무렵에는 한줄긋기 응답]이 더 많이 발생한 반면, [전반기에는 무응답]이 더 빈번하게 발생했다. 주목할 점은 가장 많이 놓친 항목이 성장 마인드 항목이었다는 점이다. 이는 본 SEL 설문조사에 사용된 성장 사고방식 척도와 역점수 항목의 포함에 대한 우려와 일치한다(Meyer et al., 2018). 역스코어링 항목 이외의 조사 설계 전략을 사용하면(예: 한 번에 한 척도에서 모든 항목을 제시하는 대신 조사 전체에 걸쳐 서로 다른 구조의 항목을 삽입하는 것) 역스코어링 항목에 필요한 인지 복잡성을 추가하지 않고도 응답자 satisficing를 최소화하는 데 도움이 될 수 있다(Gehlbach & Barge, 2012) 항목(예: Benson & Hocevar, 1985). 
We also examined patterns in straight-line responding and nonresponse. Straight-line responding occurred more toward the end of the survey, whereas nonresponse happened more frequently in the first half. Of note is that the most frequently missed items were growth mindset items. This aligns with concerns about the growth mindset scale used in this SEL survey and its inclusion of reverse-scored items (Meyer et al., 2018). Using survey design strategies other than reverse-scoring items (e.g., interspersing items from different constructs throughout the survey rather than presenting all items from one scale at a time) may help to minimize respondent satisficing (Gehlbach & Barge, 2012) without adding the cognitive complexity required by the wording of reverse-scored items (e.g., Benson & Hocevar, 1985).
요약하면, 본 연구의 결과는 설문조사 데이터 사용자가 만족도가 각 표본의 데이터 품질에 어떤 영향을 미치는지 인지할 필요가 있지만, 이러한 행동이 satisficing이 높은 경우에도 전체 결과의 무결성을 항상 위협하지는 않을 수 있음을 시사한다. 이 기사에서 평가한 세 가지 전략(예: Robinson-Cimpian, 2014; Steedle et al., 2019)을 초과하는 만족도 감지를 위한 추가 또는 다른 전략을 원하는 설문조사 데이터 사용자는 응답 행동이 특정 교육 환경에서 데이터에 어느 정도 영향을 미치는지 유사하게 결정해야 한다. 
In sum, the findings of this study suggest that although survey data users need to be aware of how satisficing affects data quality in their respective samples, these behaviors may not always threaten the integrity of the overall results even when rates of satisficing are high. Users of survey data who want additional or different strategies for detecting satisficing that extend beyond the three assessed in this article (e.g., strategies described in Robinson-Cimpian, 2014; Steedle et al., 2019) will need to similarly determine to what extent the response behaviors affect the data in their specific educational context.

응답자 특성
Respondent Characteristics

만족이 데이터 품질에 미치는 영향을 조사하는 것 외에도 satisficing이 샘플의 특성을 체계적으로 변화시킬 수 있는지도 조사했다. 표본에서 만족자를 제거하여 응답자 동기 부여 문제를 해결하는 것은 특정 집단이 다른 집단보다 더 높은 비율로 satisficing을 하는 경우 대표성이 없는 표본으로 이어질 수 있다. 현재 표본에서는 남학생이 여학생보다 만족도가 높았다. 탐색적 분석은 또한 인종/인종, 언어 상태 및 장애 상태를 만족과 관련된 다른 요인으로 식별했다. 이러한 결과는 Soland(2018)가 학생 하위 그룹 간 만족도 차이를 발견한 결과를 반영한다. 구체적으로 학업진보도 평가에서 남학생과 유색인종 학생들의 빠른 추측 비율이 높았다(Soland, 2018). 그러나 현재 연구와 다른 연구(예: Soland, 2018)에서 하위 그룹 차이의 작은 특성 때문에 정책 결정은 학생의 하위 그룹을 다르게 다룰 필요가 없을 수 있다. 그러나 언급한 바와 같이, 연구자들은 연구 결과를 발표하기 전에 만족자를 제거할 필요가 있는지 여부를 확인하기 위해 만족도가 자신의 데이터 품질에 어느 정도 영향을 미치는지 결정해야 한다.
In addition to investigating the impact of satisficing on data quality, we also examined whether satisficing might change the nature of the sample in systematic ways. Addressing the problem of respondent motivation by removing satisficers from the sample could lead to unrepresentative samples if certain groups satisfice at higher rates than others. In the present sample, male students were more likely to satisfice than their female counterparts. Exploratory analyses also identified race/ethnicity, language status, and disability status as other factors associated with satisficing. These findings reflect those obtained by Soland (2018), who found differences in satisficing across student subgroups. Specifically, on the Measures of Academic Progress assessment, male students and students of color engaged in higher rates of rapid guessing (Soland, 2018). However, because of the modest nature of the subgroup differences in the current study and elsewhere (e.g., Soland, 2018), policy decisions may not need to treat different subgroups of students differently. As noted, however, researchers will need to determine to what extent satisficing affects their own data quality in order to ascertain whether it is necessary to remove satisficers prior to presenting their findings.

연구자, 실무자 및 정책 입안자를 위한 권장 사항
Recommendations for Researchers, Practitioners, and Policymakers

본 연구를 바탕으로 학생 설문조사 데이터를 처리하기 위한 5가지 지침을 제안한다. 
  • 첫째, 연구자, 실무자 및 정책 입안자는 설문 조사의 맥락 내에서 의미 있는 satisficing 의 정의를 결정해야 한다. 만족스럽게 정의하고 운영하기 위해 비교적 포괄적인 접근 방식을 취했지만, 일부 구역에서는 더 보수적인 접근 방식(예: 무응답을 하나가 아닌 네 개의 누락된 항목으로 정의)이 필요할 수 있다. 다행히도 다양한 정의를 만족하고 영향을 검토하는 테스트는 비교적 저렴한 비용으로 추가 분석을 수행하는 데 걸리는 시간에 불과합니다. 데이터 분석가들이 만족의 영향을 더욱 탐구함에 따라, 우리는 주어진 맥락에서 가장 합리적인 것이 무엇인지 보기 위해 다양한 정의를 테스트하는 것을 추천한다.
Based on this study, we recommend the following five guidelines for handling student survey data. First, researchers, practitioners, and policymakers will need to determine meaningful definitions of satisficing that make sense within the context of their surveys. While we took a relatively inclusive approach to defining and operationalizing satisficing, some districts might require more conservative approaches (e.g., defining nonresponse as four missed items rather than one). Fortunately, testing different definitions of satisficing and examining the repercussions is relatively low cost—merely the time taken to conduct additional analyses. As data analysts further explore the impact of satisficing, we recommend testing various definitions to see what is most sensible for a given context.
  • 둘째, satisficing 행동이 결과 해석에 얼마나 영향을 미치는지 평가하기 위해 연구자, 실무자 및 정책 입안자가 satisficing 유무에 관계없이 데이터를 검토할 것을 권장한다. CORE 맥락 내에서, 직선 응답과 무응답은 결과의 주요 해석을 바꾸지 않았다. 예를 들어, 직선 응답 표본과 높은 충실도 표본 간의 차이의 크기는 매우 작았습니다. 그러나, 교육의 맥락 의존적 특성을 고려할 때, 이러한 결과는 교육 환경에 따라 달라질 수 있다. 또한 다른 유형의 분석은 다른 방식으로 영향을 받을 수 있다. 특정 부분군 비교(예: 학년 수준, 학교, 성장률 등) 또는 항목 구조와 관련된 분석(예: 요인 분석 기법)은 만족자의 포함 또는 제외에 더 민감할 수 있다. 따라서, 우리는 설문 조사 데이터 사용자가 다양한 분석 및 설정에 걸쳐 자체 설문 조사에서 만족도가 척도에 얼마나 영향을 미칠 수 있는지 조사할 것을 권장한다. 만족으로 인한 결과적 차이가 언제, 어디서, 왜 더 많이 나타나는지를 배우는 것이 앞으로 나아가는 중요한 지식이 될 것이다.
Second, we recommend that researchers, practitioners, and policymakers examine their data with and without satisficers in order to evaluate how much the satisficing behaviors affect interpretation of the findings. Within the CORE context, straight-line responding and nonresponse did not change the main interpretation of findings. For example, the magnitude of differences between the straight-line responding and high-fidelity samples was quite small. However, given the context-dependent nature of education, results like these might vary across educational settings. Furthermore, other types of analyses might be affected in different ways. Perhaps certain subgroup comparisons (e.g., grade levels, schools, growth rates, etc.) or analyses involving item structure (e.g., factor analytic techniques) are more sensitive to the inclusion or exclusion of satisficers. Thus, we encourage users of survey data to examine how satisficing may affect scales in their own surveys across a range of analyses and settings. Learning when, where, and why there are more consequential differences in findings due to satisficing will be important knowledge moving forward.
  • 셋째, satisficing하는 모든 학생으로부터 모든 데이터를 제외하지 않는 것이 좋습니다. 대신, 연구자, 실무자 및 정책 입안자는 결함이 있는 데이터만 제거함으로써 더 많은 이익을 얻을 수 있다(즉, 목록별 삭제보다는 사례별 삭제). 특히, 직선 응답과 무응답은 학생들의 평균 점수에 영향을 미칠 수 있으므로, 데이터 분석가들이 이러한 두 가지 반응 패턴에 초점을 맞출 것을 제안한다. 결함이 있는 데이터를 제거하면 분석가들이 데이터 중심의 의사 결정을 지원할 때 잠재적으로 손상된 데이터와 함께 양질의 데이터를 낭비하지 않도록 하는 데도 도움이 될 것입니다. 그러나 이 과정의 일부로, 우리는 또한 데이터 분석가들이 먼저 데이터를 제외하는 것이 표본 모집단의 성격을 크게 바꾸지 않는다는 것을 확인하도록 권장한다(예: 불균형한 수의 특정 인구 통계 그룹을 제거함으로써).
Third, we recommend against excluding all data from every student who satisfices. Instead, researchers, practitioners, and policymakers may benefit more from removing only the flawed data (i.e., case-wise rather than listwise deletion). Specifically, because straight-line responding and nonresponse may affect students’ mean scores, we suggest that data analysts focus on these two response patterns. Removing flawed data will also help ensure that analysts are not throwing quality data away along with the potentially compromised data when working to support data-driven decision making. As part of this process, however, we also encourage data analysts first to confirm that excluding data does not markedly change the nature of the sample population (e.g., by removing a disproportionate number of certain demographic groups).
  • 넷째, 설문조사에 [역스코어 항목을 포함하는 것]은 직선 응답자를 탐지하기 위한 효과적인 전략으로 보일 수 있다. 그러나 우리는 이 전술을 사용하지 않아야 한다고 경고한다. 역스코어 항목은 척도의 신뢰성을 떨어뜨리고 참가자들이 답변하기 어렵다(Benson & Hocevar, 1985; Gehlbach & Brinkworth, 2011; Swain et al., 2008). 대신에 조사 설계자는 [서로 다른 구인의 항목을 분산시켜 삽입]하고(Gehlbach & Barge, 2012) [응답 옵션이 구인 특이적이도록 보장]하여 직선 응답을 완화할 수 있다(Gehlbach & Brinkworth, 2011).
    • 항목을 [interspersing]하면 참가자가 동일하거나 유사한 구조의 항목을 서로 옆에 배치할 때 발생할 수 있는 고정 및 조정과 같은 인지 편향에 참여할 가능성이 줄어든다(Gehlbach & Barge, 2012).
    • 또한 각 항목에 대해 [완전한 레이블이 지정된 응답 옵션]을 포함하고 항목과 응답 옵션 모두에서 동일한 구인별 언어를 사용하면 응답자들이 유사한 질문을 반복적으로 하는 것이 아니라 별개의 현상에 대해 설문조사가 질문한다는 점을 강화할 수 있다(Gehlbach, 2015).

Fourth, including reverse-scored items in a survey may seem like an effective strategy for detecting straight-line responders. However, we caution against using this tactic. Reverse-scored items reduce scale reliability and are difficult for participants to answer (Benson & Hocevar, 1985; Gehlbach & Brinkworth, 2011; Swain et al., 2008). Instead, survey designers can attempt to mitigate straight-line responding by interspersing items from different constructs (Gehlbach & Barge, 2012) and ensuring that response options are construct specific (Gehlbach & Brinkworth, 2011).
  • Interspersing items reduces the chances that participants will engage in cognitive biases, like anchoring and adjusting, which can occur when items from the same or similar constructs are placed next to each other (Gehlbach & Barge, 2012).
  • Furthermore, including fully labeled response options for each item and using the same construct-specific language in both the items and response options can help to reinforce to respondents that the survey is asking about distinct phenomena as opposed to asking similar questions over and over (Gehlbach, 2015).
마지막으로, 설문조사에 인지적 노력을 기울이는 학생들의 동기는 가변적이기 때문에 설문조사를 이용하는 학생들은 설문조사 도구를 사용하기 전에 학생들의 참여를 유도할 것을 권장한다. 미래 연구는 또한 학생들이 만족스러운 행동에 참여할 가능성이 가장 높은 시기와 장소를 더 잘 이해하기 위해 설문 조사(예: 인지 면접을 통해)에서 학생들의 만족 동기의 질적 차이를 탐구함으로써 이익을 얻을 수 있다. 설문조사 과정 초기에 응답자의 동기를 향상시키기 위해 증거 기반 전략(예: Dillman 등, 2014)을 사용하면 학생들이 사용하는 만족스러운 행동의 일부를 줄일 수 있다.
Last, because students’ motivation to put cognitive effort into a survey is malleable, we urge those using survey research to cultivate buy-in from students prior to administering the survey instruments. Future research may also benefit from exploring qualitative differences in students’ motivation to satisfice on surveys (e.g., through cognitive interviewing) to better understand when and where students are most likely to engage in satisficing behaviors. Using evidence-based strategies (e.g., Dillman et al., 2014) to enhance respondent motivation early in the survey process may reduce some of the satisficing behaviors utilized by students.

결론
Conclusion

조사 데이터에 대한 비판이 많다. 이러한 비판은 응답자들이 자신의 태도를 이해하고, 태도를 정확하게 보고하고, 충분한 동기를 가지고 설문에 참여하는 능력에 의문을 제기한다. 낮은 응답자 동기 부여는 이러한 유형의 응답자 행동에 대한 연구자 통제가 부족하다는 점을 고려할 때 데이터 해석에 가장 도전적인 위협이 될 수 있다. 그러나, 우리의 연구 결과는 우리의 샘플에서 satisficing하는 학생들이 널리 퍼져 있음에도 불구하고, 이 관행이 데이터 품질에 미치는 영향은 놀라울 정도로 작아 보였다는 것을 보여준다. 교육의 맥락별 특성 때문에, 우리는 다른 사람들이 자신의 데이터 세트에서 만족하는 설문 조사의 유병률과 영향을 유사하게 결정할 것을 촉구한다. 집단적인 노력을 통해, 우리는 조사 결과가 만족스러운 행동에 얼마나 강력한지 알 수 있다. 이 중요한 작업을 추구하는 연구자, 실무자 및 정책 입안자를 지원하기 위해, 우리는 대규모 데이터 세트에서 만족하는 학생을 정의하고 계산하기 위한 접근 가능한 기반을 제공했다. 우리는 이러한 전략이 궁극적으로 학교가 더 나은 데이터 중심 결정을 내리도록 도우려는 개인들을 촉진하기를 바란다.
Critiques of survey data abound. These criticisms question respondents’ ability to understand their own attitudes, accurately report their attitudes, and engage in surveys with sufficient motivation. Low respondent motivation may present the most uniquely challenging threat to data interpretation given the lack of researcher control over this type of respondent behavior. However, our findings indicate that despite the prevalence of student satisficing in our sample, the impact of this practice on data quality appeared surprisingly small. Because of the context-specific nature of education, we urge others to similarly determine the prevalence and impact of survey satisficing in their own data sets. Through a collective effort, we can learn how robust survey findings are to satisficing behaviors. To support researchers, practitioners, and policymakers pursuing this important task, we have provided an accessible foundation for defining and calculating student satisficing in large-scale data sets. We hope these strategies ultimately facilitate those individuals who are trying to help schools to make better data-driven decisions.

Abstract

Education researchers use surveys widely. Yet, critics question respondents’ ability to provide high-quality responses. As schools increasingly use student surveys to drive local policy making, respondents’ (lack of) motivation to provide quality responses may threaten the wisdom of using questionnaires for data-based decision making. To better understand student satisficing—the practice of suboptimal responding on surveys—and its impact on data quality, we examined its pervasiveness and impact on a large-scale social–emotional learning survey administered to 409,721 elementary and secondary students. Findings indicated that despite the prevalence of satisficing, its impact on data quality appeared more modest than anticipated. We conclude by outlining an accessible approach for defining and calculating satisficing for researchers, practitioners, and policymakers.

 

 

 

+ Recent posts