교육연구의 7대 죄악(J Grad Med Educ, 2016)
7 Deadly Sins in Educational Research
Katherine Picho, PhD
Anthony R. Artino Jr, PhD
과학 연구의 타당성에 대한 우려는 최근 몇 년간 증가해 왔으며, 생물 의학에서 발표된 대부분의 연구 결과가 거짓임을 보여주는 상당한 증거가 있다.4 의학뿐만 아니라 교육에서 연구 연구를 감염시키는 주요 결함은 종종 작은 표본, 작은 효과, 그리고 느슨하게 정의되고 구현된 연구 설계와 관련이 있다.4 많은 재조사자들이 과학 문헌이 시간이 지나면서 저절로 고쳐지길 기대하지만, 항상 그렇지는 않다.실제로 '서랍장 효과'(부정적인 결과가 있는 미발표 연구)와 [복제가 제대로 인정받지 못하고 상대적으로 흔하지 않은 작업]으로 남아 있다는 사실을 고려하면, 잘못된 결과의 자체 수정은 (규칙이라기보다는) 예외적인 일일 수 있다. 이러한 난제에 대응하여, 이 사설은 특히 양적 연구의 경우, 재검사가 오도, 과장 또는 완전히 잘못된 발견을 보고하도록 이끄는 가장 일반적인 교육 연구 관행을 강조한다.
Concerns over the validity of scientific research have grown in recent years, with considerable evidence indicating that most published research findings in the biomedical sciences are false.4 The major flaws that infect research studies—in education as well as biomedical science—often relate to small samples, small effects, and loosely defined and implemented research designs.4 While many re-searchers expect that the scientific literature self-corrects over time, this is not always the case.Indeed, considering the ‘‘file drawer effect’’ (unpublished studies with negative outcomes) and the fact that replication remains an underappreciated and relatively uncommon enterprise,5 self-correction of faulty results may be the exception, not the rule. In response to these challenges, this editorial highlights the most common educational research practices,particularly for quantitative studies, that lead re-searchers to report misleading, exaggerated, or entirely false findings.
연구 전에 저질러진 죄
Sins Committed Before Research
신 #1 : 허술한 문헌고찰의 저주
Sin #1: The Curse of the Handicapped Literature Review
경험적 연구는 이론 시험과 발전의 일차적인 수단이다. 그것은 또한 진정한 교육 환경에서 실질적인 개입을 테스트하기 위해 필수적이다. 문헌검토는 특정 분야의 기존 강점, 약점, 지식 격차 등을 파악해 이 과정의 핵심이다. 문헌 검토는 연구 과정의 주요 측면(즉, 연구 질문, 설계 및 방법)을 알려주고, 연구 결과에 대한 추론이 논의될 수 있는 범위 내에서 경계를 기술한다.
Empirical research is the primary means of theory testing and development. It is also essential for testing practical interventions in authentic educational environments. The literature review is central to this process as it identifies existing strengths, weaknesses, and knowledge gaps in a particular field. The literature review informs key aspects of the research process (ie, research questions, design, and methods) and delineates boundaries within which inferences about findings can be discussed.
불행히도, 연구자들은 종종 그들의 가설에 찬성하여 왜곡된, 부분적인 검토를 할 것이다. 더욱 흔한(더 나쁜) 것은 연구가 완료되고 결과가 알려진 후에 문헌 검토를 실시하는 관행이다. 이러한 관행은 연구자들이 기사를 선택적으로 사용하고 결과를 뒷받침하는 가설을 수정할 수 있게 한다. 이것은 과학 연구의 기대되는 부분인 무작위로 인한 변동은 상당한 수의 거짓 발견을 낳기 때문에 문제가 된다.7 결과가 알려진 후 가설을 수정하는 것은 과학적인 방법에 대한 후진적backward 접근일 뿐만 아니라, 가짜 발견에 근거한 잘못된 결론으로 연구 분야를 오염시킬 가능성을 높인다. 그러한 관행은 왜 일부 연구 결과가 반복되지 않는지를 설명할 수 있다.8
Unfortunately, researchers will often conduct partial reviews that are skewed in favor of their hypotheses. Even more common (and worse) is the practice of conducting the literature review after the study has been completed and the results are known. Such practices allow researchers to selectively use articles and revise hypotheses in support of their results. This is a problem because variation due to randomness, which is an expected part of scientific research, yields a fair number of spurious findings.7 Reformulating hypotheses after results are known is not only a backward approach to the scientific method, but it also increases the likelihood of polluting the field of study with false conclusions based on spurious findings. Such practices could explain why some study findings fail to replicate.8
신 #2: 불충분한 검정력
Sin #2: Inadequate Power
정량적 연구에서 통계적 테스트는 독립 변수나 예측 변수 및 결과 사이의 관계의 성격과 규모에 대해 추론하는 데 도움이 된다. 이러한 추론에 대한 결론이 타당하다고 간주되는 정도를 [통계적 결론 타당성]이라고 부르기도 한다.9
In quantitative studies, statistical tests help researchers make inferences about the nature and magnitude of the relationships between independent or predictor variables and outcomes. The extent to which conclusions about these inferences are deemed reasonable is sometimes referred to as statistical conclusion validity.9
모집단에는 존재하지 않는 그룹 간 차이를 허위로 발견할 수 있는 위험성이 항상 존재한다. 이를 유형 1 오류 또는 거짓 양성이라고 한다.9 유형 1 오차는 그러한 차이가 실제로 존재할 때 그룹 간에 통계적으로 유의한 차이를 발견할 확률인 검정의 통계적 검정력을 증가시킴으로써 최소화할 수 있다.10 검정력 값은 0(검정력 없음)부터 1(극히 높은 검정력)까지 다양하다. 매우 높은 값(예: 1의 검정력)으로 검정력을 증가시키는 것이 잘못된 양의 획득 가능성을 현저히 감소시키는 간단한 해결책처럼 보일 수 있지만, 이 접근방식은 잘못된 음성결과 획득 확률 또는 [유형 2 오류]의 발생 가능성을 증가시키는 의도하지 않은 결과를 초래한다.9 따라서 통계적 검정력은 유형 2의 오차를 발생시킬 위험을 크게 증가시키지 않고 진정한 그룹 차이를 탐지할 수 있을 만큼 충분히 높은 스펙트럼의 두 끝 사이에 미세한 선을 걸어야 한다. 교육 연구에서, 최적 검정력에 대한 협약은 일반적으로 0.8이다.
there is always the risk that one could falsely find group differences where they do not exist in the population. This is called a type 1 error, or a false positive.9 Type 1 errors can be minimized by increasing the statistical power of a test, which is the probability of finding a statistically significant difference among groups when such a difference actually exists.10 Statistical power values range from 0 (no power) to 1 (extremely high power). Although increasing power to extremely high values (eg, to a power of 1) might seem like a simple solution to drastically reduce the likelihood of obtaining a false positive, this approach has the unintended consequence of increasing the probability of obtaining a false negative, or a type 2 error.9 Therefore, statistical power must walk a fine line between the 2 ends of the spectrum: high enough to detect true group differences without drastically increasing the risk of making a type 2 error. In educational research, the convention for optimum power is typically 0.8.11
검정력은 표본 크기와 시험 중인 가설의 수에 의해 영향을 받는다. 한 연구는 심리학과 교육을 포함한 사회과학 분야의 대부분의 연구에서 검정력이 낮았음을 발견했다. 심리학에서 연구의 평균 검정력은 0.35였다. 의학교육에서 표본 크기가 20, 15, 심지어 10명 정도로 적은 양적 연구가 이루어지는 것은 드문 일이 아니다. 따라서, 많은 의학 교육 연구 연구가 그룹 간의 진정한 차이를 발견하기에 불충분할 가능성이 있다.
Power is affected by sample size and the number of hypotheses being tested, among other factors. One study found that most studies in the social sciences, including psychology and education,12 were underpowered. In psychology, the average power of studies was 0.35.12 In medical education, it is not uncommon for quantitative studies to be conducted with sample sizes as low as 20, 15, or even 10 participants. Therefore, it is likely that many medical education research studies are insufficiently powered to detect true differences among groups.
힘은 또한 두 그룹 간의 차이의 크기와 같이 예상되는 효과의 크기에 영향을 받는다. 따라서 주어진 연구에서 낮은 검정력은 [작은 표본]과 [작은 효과] 또는 [두 가지 모두]의 조합에서 기인할 수 있다.13 그룹 간의 실제 차이를 놓치는 것 외에도, 낮은 검정력은 통계적으로 유의한 결과가 가짜 발견이 아닌 실제 효과를 나타낼 가능성을 감소시킨다.13 이 두 가지 문제 모두 그 분야 연구의 신뢰도를 약화시킨다. 전자는 이해를 진전시킬 수 있는 가설을 섣불리 폐기하고 후자는 복제할 수 없는 허황된 발견으로 이어질 수 있다.
Power is also affected by the magnitude of the expected effect, such as the size of the differences between 2 groups. Hence, in a given study, low power may stem from small samples and small effects or a combination of both.13 In addition to missing a true difference between groups, low power also reduces the likelihood that a statistically significant result represents a true effect rather than a spurious finding.13 Both of these issues weaken the reliability of findings in a given field. The former may lead to prematurely discarding hypotheses that might advance understanding, and the latter, to spurious findings that cannot be replicated.
표본 크기를 증가시키는 것 외에도, 동일한 셀 표본 크기, 참가자 일치, 사전 공변량 측정, 후속 분석에서 공변량의 보정 등과 같은 실험 설계 효율성을 개선하여 검정력을 증가시킬 수 있다.
Besides increasing sample size, power can be increased by improving experimental design efficiency, such as through
the use of equal cell sample sizes;
matching participants;
measuring covariates a priori; and
correcting for covariates in subsequent analyses.
신 #3: 측정의 중요성 무시
Sin #3: Ignoring the Importance of Measurement
검증되지 않은 척도를 사용하거나, 심리측정적 특성이 좋지 않은 조치를 채택하는 것은 결과에 더 많은 "소음"을 더하는 역할을 할 뿐이며, 모순되거나 신뢰할 수 없는 발견으로 필드를 잠재적으로 방해할 수 있다.14
Using measures that have not been tested, or employing those that have poor psychometric properties, only serves to add more ‘‘noise’’ to the results and potentially taints the field with contradictory or implausible findings.14
측정 문제는 연구 대상이 되는 [구인]을 과소 대표하거나 과대 대표하는 측정 도구(예: 설문지)에서 발생할 수 있다. 측정 도구가 너무 좁으면(예: 단일 항목 측정의 경우), 구성의 중요한 측면을 배제하여 관심 현상의 본질을 포착하지 못할 가능성이 높다.14
Measurement problems can stem from measurement tools (eg, questionnaires) that underrepresent or overrepresent the construct under study. When a measurement tool is too narrow (eg, in the case of single-item measures), then it likely excludes important aspects of the construct and thus fails to capture the true nature of the phenomenon of interest.14
측정 문제는 또한 결과 변수(예: 시험 점수, 점원 등급)가 너무 쉬우거나 어려울 때 발생한다. 극히 쉬우거나 어려운 작업은 각각 천장과 바닥 효과로 이어져 상관성과 편향 결과를 약화시킨다.
Measurement problems also occur when the outcome variables (eg, test scores, clerkship grades) are too easy or too difficult. Tasks that are extremely easy or difficult lead to ceiling and floor effects, respectively, which weaken correlations and bias results.
연구 중에 저질러진 죄
Sins Committed During Research
Sin #4: 잘못된 통계 도구 사용
Sin #4: Using the Wrong Statistical Tool
가장 일반적인 것은 데이터가 사용 중인 통계기법의 가정을 충족하는지 여부를 점검(또는 보고)하지 않는 것이다. 아마도 가장 자주 위반되는 가정은 관찰이 독립적이라는 가정일 것이다. 이러한 특정 위반과 관련된 것은 비독립적 데이터를 독립된 것처럼 취급하는 실수(예: 3회 측정된 20명의 참가자의 데이터를 60명의 참가자의 데이터인 것처럼 취급하는 것)이다.15
The most common involve not checking (or reporting) whether the data meet assumptions of the statistical technique being used. Perhaps the most frequently violated assumption is the assumption that observations are independent. Related to this specific violation is the mistake of treating nondependent data as if they were independent (eg, treating data from 20 participants that are measured 3 times as if data are from 60 participants).15
그러한 통계적 가정을 위반하면 유형 1 오류(허위 긍정)를 인위적으로 부풀리는 효과가 있어, 이는 보증된 결과보다 통계적으로 더 유의미한 결과를 초래한다. 이 결과는 통계적으로 유의한 결과에서 도출될 수 있고 복제 실패를 초래할 수 있는 추론의 타당성을 위협한다. 이러한 함정을 피하기 위해 연구자들은 자신의 데이터가 사용하고자 하는 데이터 분석 기법의 가정을 충족하는지 검증해야 한다. 통계적 가정이 위반되면 문제를 해결하기 위한 조치를 취하거나(예: 비정규 데이터 변환) 이러한 위반에 강력한 대체 통계 기법(예: 정규 분포를 따르지 않는 연속 데이터에 대한 비모수 통계)을 사용해야 한다. 게다가, 연구 과정의 초기에 통계학자와 상담하는 것은 도움이 될 수 있다. 그러한 관행은 그 일에 적합한 통계 도구를 찾는 데 매우 중요하다.
The violation of such statistical assumptions has the effect of artificially inflating type 1 errors (false positives), which leads to more statistically significant results than warranted. This outcome threatens the validity of inferences that can be made from statistically significant results and can also result in replication failure. To avoid this pitfall, researchers should verify that their data meet the assumptions of the data analytic technique they intend to use. When statistical assumptions are violated, one should take steps to remedy the problem (eg, transforming nonnormal data) or use alternate statistical techniques that are robust to these violations (eg, nonparametric statistics for continuous data that do not follow a normal distribution). Moreover, it can be helpful to consult a statistician early in the research process; such a practice is critical to finding the right statistical tool for the job.
죄 #5: 데이터에 대한 무자비한 고문과 기타 의문스러운 분석 관행
Sin #5: Merciless Torture of Data and Other Questionable Analysis Practices
그러한 관행의 예로는
자신의 가설에 부합하는 결과만 보고(''체리피킹'),
결과에 맞게 통계적으로 유의한 임계값을 완화한
단측 t 검정을 사용했지만 연구 보고서에 이를 언급하지 않음
가설과 적합하도록 P 값을 위아래로 잘못 반올림(예: 실제 P 값이 .049인 경우 P ¼ 0.04 보고)한다.
Examples of such practices include
reporting only results that align with one’s hypotheses (‘‘cherry picking’’),
relaxing statistical significant thresholds to fit results,
using 1-sided t tests but failing to mention this in the research report, and
wrongly rounding P values upward or downward to fit with a hypothesis (eg, reporting P ¼ .04, when the actual P value is .049).16
또 다른 인기 있지만 의문스러운 관행은 [낚시fishing]인데, 이것은 사전 지정된 가설에서 유래하지 않은 통계적으로 유의한 발견에 대한 채굴 데이터를 말한다.9 낚시는 제1종 오류율을 증가시키고 인위적으로 통계적 유의성을 증가시킨다. 실제로, 특히 이러한 발견들은 실제적인 인구 차이의 결과보다 우연의 산물이 될 가능성이 더 높기 때문에, 어로 탐험의 발견을 중심으로 전체 연구를 재구성하는 것은 죄악이 될 것이다.
Another popular yet questionable practice is fishing, which refers to mining data for statistically significant findings that do not stem from prespecified hypotheses.9 Fishing increases type 1 error rates and artificially inflates statistical significance. Indeed, it would be a sin to restructure an entire study around findings from a fishing expedition, especially since these findings are more likely to be a product of chance than the result of actual differences in the population.
연구 후 저지른 죄
Sins Committed After Research
신 #6: P 가치에 대한 노예제도
Sin #6: Slavery to the P Value
사회과학에서 통계적 추론에 가장 일반적으로 적용되고 수용된 접근방식은 [귀무 가설 유의성 검정],17 여기서 주어진 구성물에 대한 그룹 차이에 대한 연구자의 가설을 귀무 가설과 비교하여 시험한다: 차이가 없다.18 일반적으로 통계 분석은 변수에 대한 평균 그룹 차이를 반영하는 점수를 생성하며 검정 통계량(t 비율, 카이-제곱 분석 등)과 확률 값(P 값)을 동반한다. P 값은 [데이터가 샘플링된 모집단에 차이가 존재하지 않는 경우 관측된 그룹 차이 또는 더 극단적인 결과를 얻을 확률]을 나타낸다.19
The most commonly applied and accepted approach to statistical inference in the social sciences is null hypothesis significance testing,17 where a researcher’s hypothesis about group differences on a given construct is tested against the null hypothesis: there are no differences.18 Generally, statistical analyses generate a score that reflects mean group differences for a variable, accompanied by test statistics (t ratios, chi-square analyses, etc) and a probability value (P value). P values represent the probability of obtaining the observed group difference or a more extreme result if said difference did not exist in the population from which the data were sampled.19
유용한 도구임에도 불구하고 P 값은 그다지 유용하지 않다.
첫째, 통계적으로 유의한 결과(즉, 귀무 가설을 기각함)가 어떤 식으로든 연구자의 가설을 확인해주는 것은 아닌데, 대부분의 경우 거짓으로 인식되고 그렇게 해석된다.20,21
두 번째, 매우 큰 표본 크기(예: 수천 개)는 소그룹 차이를 확대시킬 것이다. 그 결과는 통계적으로 유의미할 수 있다.작은 차이 때문에 실질적으로 중요하지 않다. 교육 연구에서는 큰 표본 크기가 드물지만 큰 데이터베이스를 사용할 수 있을 때(예: 전문의 보드 점수) 종종 볼 수 있다. 연구자들은 효과 크기 및 효과 크기 주변의 신뢰 구간과 같은 보다 유익하고 실용적 인 지표로 P 값 통계를 보완하는 데 초점을 맞춰야 한다.
Although a useful tool, P values are not very informative.
First, a statistically significant result (ie, rejecting the null hypothesis) does not in any way confirm the researcher’s hypotheses, although most times it is falsely perceived and interpreted as such.20,21
Second, extremely large sample sizes (eg, in the thousands) will magnify small group differences; the result may be statistically significant yet practically unimportant due to tiny differences. In educational research, large sample sizes are rare but occasionally are seen when large databases are available (eg, specialty board scores). Researchers should focus on supplementing P value statistics with more informative and practical metrics like effect sizes and confidence intervals around effect sizes.
Sin #7: 결과 보고 및 원시 데이터 유지에 대한 투명성 결여
Sin #7: Lack of Transparency in Reporting Results and Maintaining Raw Data
비록 저자가 단어 수 제한이나 통계적 정교함의 결여에 대한 우려는 불충분한 보고를 야기할 수 있지만, 그러한 관행은 또한 의심스러운 연구 관행을 은폐하는 역할을 한다. 예를 들어, 저자는 기술 통계량(예: 평균)에 대한 기본 정보를 포함하지만 표준 편차를 포함하지 못하는 경우가 있다.
Although author concerns about word count limits or lack of statistical sophistication may cause inadequate reporting, such practices also serve to cover up questionable research practices. For example, authors sometimes include basic information about descriptive statistics (eg, means) but fail to include standard deviations.
기사의 통계적 결과가 메타분석에서 활용되기 때문에 통계분석의 정확한 보고와 투명성이 중요하다. 따라서 일차적 수준의 연구에서 보고의 오류는 메타 분석적 소견에서도 오류와 편향으로 이어질 수 있다. 연구자들은 중요한지 여부에 관계없이 기초적인 서술적 통계량(표본 크기, 평균, 표준 편차)과 정확한 P 값에 대한 완전한 정보를 제공하기 위해 노력해야 한다. 마지막으로 중요한 것은 연구자들이 모든 통계 분석을 완전히 공개해야 한다는 것이다.
Correct reporting and transparency of statistical analyses are important because statistical results from articles are used in meta-analyses. Thus, errors of reporting in primary level studies can lead to errors and bias in meta-analytic findings as well. Researchers should strive to provide full information on basic descriptive statistics (sample sizes, means, and standard deviations) and exact P values, regardless of whether or not they are significant. Last but not least, researchers should fully disclose all of their statistical analyses.
Summary
15. Leppink J. Data analysis in medical education research: a multilevel perspective. Perspect Med Educ. 2015;4(1):14–24. XXX
7 Deadly Sins in Educational Research
- PMID: 27777653
- PMCID: PMC5060934
- DOI: 10.4300/JGME-D-16-00332.1
'Articles (Medical Education) > 의학교육연구(Research)' 카테고리의 다른 글
초첨길이 가변성: 의학교육연구에서 연구질문(Acad Med, 2019) (0) | 2020.11.18 |
---|---|
개념적 프레임워크를 통해서 교육연구를 강화하기: 의학교육자를 위한 도전과 로드맵(Acad Pediatr, 2019) (0) | 2020.11.18 |
지식 통합의 방법: 개괄 (Heart Lung, 2014) (0) | 2020.11.15 |
의료인문학 연구에 대해 다시 생각하기: Scoping review와 Narrative synthesis (Med Educ, 2016) (0) | 2020.09.18 |
아무도 보지 않은 문제: 의학교육의 철학적 탐험(Teach Learn Med, 2020) (0) | 2020.09.18 |