절대표준에서 벗어나자: 무작위대조군시험과 교육연구 (J Grad Med Educ. 2011)

Getting Off the ‘‘Gold Standard’’: Randomized Controlled Trials and Education Research 

Gail M. Sullivan, MD, MPH

무작위화는 관련성을 댓가로 얻어진다.

Randomization may be achieved at the expense of relevance. 

L. J. Cronbach, Designing Evaluations of Educational and Social Problems1

Gold Standard로서의 RCT

The Randomized Controlled Trial ‘‘Gold Standard’’

의학 교육 연구자들은 임상 연구 패러다임에서 multisite 무작위 통제 시험 (RCT)의 'Gold Standard'에 더 익숙합니다. RCT에서 연수생은 무작위로 2 개 이상의 교육 개입 중 1 개를 받도록 배정됩니다. 무작위 대조 시험은 관찰 시험보다 적은 bias로 치료 효과 크기를 결정할 수 있는 정량적, 비교, 통제 실험이다 .2 무작위 배정은 임상 시험에서 가장 강력한 실험 설계로 간주된다 : 그룹간에 다른 변수가 평균적으로 차이가있을 때, 그 차이는 개입에 기인한 것이라 볼 수 있다.

Medical education researchers are inevitably more familiar with the multisite randomized controlled trial (RCT) ‘‘gold standard’’ from the clinical research paradigm. In an RCT, trainees are randomly assigned to receive 1 of 2 or more educational interventions. Randomized controlled trials are quantitative, comparative, controlled experiments in which treatment effect sizes may be determined with less bias than observational trials.2 Randomization is considered the most powerful experimental design in clinical trials: with other variables equal between groups, on average, any differences in outcome can be attributed to the intervention.2

실시간으로 진행되는 교육과정에서는 무작위 배정의 어려움이 즉각적으로 드러납니다. 레지던트나 펠로우들은 보통 서로 다른 시간에 로테이션을 경험합니다.

With trainees moving through educational processes in real time, the difficulties of randomization become immediately clear. Residents and fellows usually experience rotations at different times:

또한 피훈련자는 무작위 배정을 거부 할 수 있지만, 그렇다고 중요한 교육적 경험에서 배제되어서는 안된다. '위약 (placebo)'의 사용은 종종 금기입니다. 다기관 개입은 더 많은 피험자를 대상으로(따라서 차이를 발견할 power가 더 커진다), 더 일반화가능한 결과를 얻을 수 있지만, 교육프로그램의 차이로 인한 어려움이 있다.

Also, trainees have the option to refuse randomization, yet they cannot miss critical educational experiences. Use of a ‘‘placebo’’ is often contraindicated. Multisite interventions, while providing more subjects (with greater power to detect differences) and more generalizability, present challenges due to training differences.

대부분의 학부생들이 종종 거의 동일한 '치료법'을 받기 때문에 하나 이상의 변수를 바꿔볼 수 있지만, GME에서는 그렇지 않습니다. 레지던트 및 펠로우 훈련은 대개 매우 개별화되어있기 때문에 RCT 모델이 부적절하다.

While large numbers of medical undergraduates often receive nearly identical ‘‘treatments,’’ in which 1 or more variables may be altered, this is not true for graduate medical education. Residency and fellowship training are usually highly individualized, which makes the RCT model increasingly unsuitable as training advances.

타당성 고려 외에도, 전문가들은 임상 연구에서 파생 된 연구 모델을 교육 연구에 적용하는 것에 의문을 제기한다. 

  • 고도로 복잡한 교육 시스템은 확실한 포함/제외 기준을 요구하는 RCT 모델에 적합하지 않을 수 있다. 

  • Regehr은 하나 또는 몇 개의 변수가 엄격하게 통제 될 수있는 위약 대조 약효 임상 시험이 의학 교육 연구의 가치있는 목표인지 여부에 의문을 제기하기도 했다. 

  • 교육 연구에서 변수는 거의 통제 할 수없고 피험자와 연구 요원을 'blind'하는 것은 비 윤리적이거나 불가능할 수 있습니다 .3,7 

  • 마지막으로 교육 연구에서 치료적 개입을 정의하는 것은 임상 시험보다 훨씬 어렵습니다. Norman이 말했듯이, 약물을 처방 할 수있는 것과 같은 방식으로 "apply curriculum daily"할 수는 없습니다 .5

In addition to feasibility considerations, experts question the applicability of research models, derived from clinical research, for education studies.3,4 The highly complex system of education may be a poor fit for the RCT model, which requires clear inclusion/exclusion criteria and interventions administered identically via multiple physicians (ie, teachers).3,5,6 Regehr asks whether simulating placebo- controlled efficacy clinical trials, in which 1 or a few variables may be tightly controlled, is a worthwhile goal for medical education research.3 In education studies, variables can rarely be controlled tightly and blinding of subjects and study personnel may be unethical or impossible.3,7 Finally, defining the therapeutic intervention in education research is much more difficult than in clinical trials. As Norman suggests, one cannot ‘‘apply curriculum daily’’ in the same way that one can prescribe a medication.5

교육 연구의 RCT

RCTs in Education Research

무작위 추출의 가장 큰 장점은 allocation bias를 줄여서 baseline variable에 의한 차이를 줄이는 것이다. 무작위 화는 관심있는 결과와 관련이 없는 것으로 알려진 기준 특성이 그룹간에 균등하게 분배되도록합니다. 참가자 간의 차이도 오류가 발생하는 원인 중 하나이지만, 무작위 화는 교육 연구에서 발생할 수있는 다른 오류 원인을 제어하지 못합니다 (표 1). 개입, 설정 및 기타 실행 요인을 구현하는 사람들의 변형은 대상의 기본 변형보다 더 많은 영향을 미칠 수 있습니다. 무작위 화가 통제 할 수없는 다른 일반적인 '혼동'은...

  • 사전 테스트가 학습에 미치는 영향 (차별적 연구 또는 학습 장려) 8 

  • 호손 효과 (참가자의 동기 부여 변화) 

  • 연구 개입 동안 발생하는 다른 경험의 영향 5) 

  • 높은 참여자 dropout (예 : 75 % 미만의 응답률) .9 

  • 상황에 따른 요인은 무작위 배정이 해결할 수없는 결과에 영향을 줄 수 있습니다 .10 

  • 특히 중재가 상당히 희석되면 (예 : 워크샵, 단기 코스 또는 온라인 사례), 효과가 개입의 결과인지 맥락적 요인에 따른 것인지 여부가 분명하지 않을 수 있습니다.

The primary advantage of randomization is that it reduces allocation bias, which derives from baseline variables that may influence outcome(s). Randomization ensures that baseline characteristics, not known to be related to the outcome of interest, are equally distributed among the groups. Although differences among participants are 1 source of error, randomization will not control for other sources of error, which are likely to occur in education studies (TABLE 1). Variations in those implementing the intervention, settings, and other execution factors may have more impact than baseline variations in the subjects. Other common ‘‘confounders’’ that randomization may not control for are effects of 

  • pretests on learning (encouraging differential study or learning);8 

  • Hawthorne effects (changes in participant motivation); 

  • effects of other, nonintervention training experiences occurring during the study intervention;5 and 

  • high participant dropout (eg, less than 75% response rates).9 

  • Contextual factors may affect outcomes in ways that randomization cannot fix.10 

  • Especially if the intervention is fairly dilute (eg, a workshop, short course, or online cases), it may not be apparent whether the intervention is causing the outcome effects versus contextual factors.

교육 연구에서 배정 된 그룹의 학습자를 Blind 시키는 것은 종종 어렵습니다. 

  • Blinding이 없다면, 레지던트들은 그들이 공부하거나 특정 그룹에 배정된다는 것을 알기 때문에, 그에 맞춰 반응 할 수 있습니다. 

  • 훈련 프로그램 내에서 훈련생은 다양한 상호 작용으로 무작위 화의 효과를 떨어뜨리는 오염 효과 (즉, 서로 학습을 공유하는 연수생)가 발생합니다. 

  • 이 상황에서 Crossover 디자인이 사용될 수 있지만, 학습에 결정적인 것 알려진 active intervention을 보류할 수는 없다. 그러나 crossover 디자인은 그룹 간 학습의 오염을 포함 할 수도 있습니다.

In education studies it is often difficult to ‘‘blind’’ learners to their assigned group. 

  • Without blinding, residents can react to the knowledge that they are being studied or assigned to a particular group. 

  • Within training programs trainees interact to a great extent, resulting in contamination effects (ie, trainees sharing learning with each other) that further compromise randomization. 

  • Active interventions that are deemed critical to learning cannot be withheld, although crossover designs may be used in this situation. However, crossover designs may also involve contamination of learning between groups.

교육 실험에 RCT를 사용해야하는시기는 언제입니까? Norman에 따르면, 무작위 추출은 웹 기반 학습 및 임상 시뮬레이션과 같은 비교적 표준화 된 중재를 조사하는 데 가장 유용합니다. 그는 다음의 경우에 RCT를 고려할 것을 권고한다. 

(1) 사전 관찰 연구가 가설을 뒷받침 한다.

(2) 학습의 메커니즘이 알려져있다; 

(3) 개입의 결과는 쉽게 측정할 수 있고, 개입에 따른 것으로 쉽게 받아들여질 수 있다. 

(4) 개입의 혜택을받을 가능성이있는 하위 집단이 쉽게 확인된다. 

(5) 개입의 효과 크기가 작다; 

(6) 시험 결과는 RCT6의 비용을 정당화할 수 있을 정도로 큰 영향을 미칠 수있다 (표 2). 

그러나 이러한 기준은 의학 교육 연구에서 종종 충족되지 않습니다.

When should an RCT be used in education experiments? According to Norman,6 randomization is most useful in examining relatively standardized interventions, such as web-based learning and, possibly, clinical simulation. He recommends that randomization be considered when (1) prior observational studies support the hypothesis; (2) the mechanism of learning is understood; (3) the outcome of the intervention is easily measured and accepted as related to the intervention; (4) the subgroups likely to benefit from the intervention are also easily identified; (5) the effect size of the intervention is small; and (6) the results from the trial may have a large impact, to justify the costs of an RCT6 (TABLE 2). These criteria are not often satisfied in medical education studies.

임상 연구에서도 RCT는 위험 요소나 예후를 식별하는 것 보다도, 치료적 시도를 연구하는데 가장 도움이됩니다 .6 마찬가지로 교육 연구에서 무작위 화가 부적절한 연구 조사가 있습니다. 레지던트의 출신지, 결혼여부, 성별 등은 임의로 지정할 수 없습니다. 요약하면, 의학 교육 연구에서의 무작위 추출은 만병통치약이 아니며, 많은 연구 가설에 대해서는 최선의 방법이 아닙니다.

Even in clinical research, RCTs are most helpful for therapeutic trials, rather than for risk factor identification orprognosis.6 Likewise in education research, there are researchquestions for which randomization will be inappropriate: residents cannot be randomly assigned to whether they are fromrural versus urban areas, married, or female. In summary, randomization in medical education research is not a cure and not the best method for many research hypotheses.

무작위 대조군 연구의 대안

Alternatives to Randomization

비 무작위 방법은 교육 연구에서 흔히 사용되며, 전문가들은 이것이 RCT보다 열등하지 않다고 간주합니다. 체계적 문헌고찰에서, BEME는 여러 요인을 가지고 논문의 강점을 평가하지만, 무작위화 여부로 평가하지 않습니다 .11

Nonrandomized methods are common in education research and considered by experts as not inferior to RCTs. In systematic reviews, Best Evidence in Medical Education groups grade the strength of articles on several factors, but not whether the study was randomized.11

아마도 교육자를위한보다 적절한 임상 연구 모델은 "실용주의적 시도"일 것이다 .12 실용적인 관점에서, Real-world에서 2 개 이상의 의학적 개입을 비교해야 한다. 그러나 대규모 다중 기관 연구를위한 구조와 기금이 현재 부족하기 때문에(이것은 연구자들에게 큰 과제이다) intervention 간의 진정한 차이 (또는 동등성)를 결정하기 위해서는 훨씬 많은 수의 연구대상자가 필요합니다.

Perhaps a more relevant clinical research model for educators is the ‘‘pragmatic trial.’’12 In a pragmatic trial, 2 or more medical interventions are compared in real-world practice. However, a much greater number of subjects are usually needed to determine true differences (or equivalence) among interventions, which will present a challenge for education researchers, as the structure and funds for large multi-institution studies are at present scarce.

역학 조사 방법을 빌리 자면, 관측 디자인은 횡단 또는 종단이 될 수 있습니다. 종단 연구는 시간 경과에 따른 변화를 측정하기 위해 지속적인 감시 또는 반복적 횡단 방법을 사용할 수 있습니다 .14 이러한 연구 설계를 강화하려면, 비교 그룹을 포함해야합니다.

Borrowing from epidemiology research methods, observational designs can be cross-sectional or longitudinal. Longitudinal studies may use ongoing surveillance or repeated cross-sectional methods to measure change over time.14 To strengthen these research designs, one must include a comparison group.

Journal of Graduate Medical Education에 제출 된 독창적 인 연구 논문에서 언급 된 가장 일반적인 디자인 중 하나는 단일 그룹 디자인입니다. 비교 그룹이 없다면,이 설계는 미래의 연구를 위한 가설을 제시 할 수 있지만 확고한 결론을 내지는 못합니다.

One of the most common designs noted in original research submissions to the Journal of Graduate Medical Education is the single group design. Without a comparison group, this design may suggest hypotheses for future study, but will not generate firmconclusions.

RCT와 비 RCT 연구의 타당성에 대한 우려

Validity Concerns With RCT and Non-RCT Research

연구의 우선 순위가 긍정적 인 결과를 찾아서 발표하는 것이라면, 차이의 원인에 대해서는 덜 생각해도 될 것이다.3 이 때 중요한 질문은 그 차이가 개입이나 잠재적 편견 때문인지 여부입니다. 전문가들은 종종 개입 자체보다도 confounder가 교육 연구에서 긍정적 결과를 낳는 요인이라고 주장한다. 이러한 confounder 요인들이 철저히 논의된다면, 중요한 통찰력이 생길 수 있고 실제로 "긍정적 인 결과"보다 더 많은 통찰을 제공 할 수있다. 비-무작위화, 비-통제 디자인이 사용될 때, Colliver와 McGaghie는 이러한 'threat to validity'가 연구의 limitation을 다루는 형식적인 부분이 아닌 "연구의 중심 위치"에서 철저히 논의되어야한다고 강조합니다 .16

When the priority is to find and publish positive results, less consideration may be given to the causes of the differences observed.3 The key question is whether the differences are due to the intervention or to potential bias. Experts assert that often it is confounders that cause the positive results in education studies, rather than the intervention itself.3,16 If these confounding factors are discussed thoroughly, important insights may result and actually provide more enlightenment than the ‘‘positive findings.’’ When nonrandomized, noncontrolled designs are used, Colliver and McGaghie emphasize that the potential ‘‘threats to validity’’ thus introduced must be discussed thoroughly in ‘‘a central place in the study’’ rather than as a perfunctory list in the limitations section.16

연구자들은 종종 작은 표본 크기의 문제에 직면합니다. 확고한 결론을 위해 충분한 수의 연구대상자를 확보하기 위해서는 개입과 자료 수집을 여러 번 반복해야 할 수 있습니다. JGME에 투고된 논문들을 보면 이 잠재적인 해결책이 종종 간과됩니다. 일부 연구자는 연구대상이 적을 때, 통제그룹을 포기하고는 하는데, 이렇게 되면 모든 피험자가 intervention을 받습니다.

Researchers are often faced with the problem of small sample sizes. Several iterations of the intervention and data collection may be necessary to obtain sufficient numbers of subjects, for firmconclusions. In research submissions to the Journal of Graduate Medical Education, this potential solution is often overlooked. Some researchers, faced with a small number of subjects to study, may forgo a control group: all subjects receive the intervention.

무작위 배정이 반드시 필요한 것은 아니지 비교 집단은 교육 연구에 필수적입니다. 

  • 모든 연구대상자에게 intervention이 이루어진다면, 비교 그룹을 delayed search할 수 있고, 이것은 어렵지만 불가능하지는 않다. 

  • 아무 것도 없는 것보다 무슨 비교그룹이라도 있는 것이 낫다. 

  • 그러나 서로 다른 비교 그룹은 많은 bias을 유발할 수 있습니다.

While randomization is not necessary, a comparison group is essential in education research. If the intervention involved all available subjects, a delayed search for a comparison group may be difficult, yet not impossible. Any comparison group is better than none, but dissimilar comparison groups may introduce a large degree of bias.



분명히 유용한 상황도 있지만, 무작위 추출은 의학 교육 연구에서 ''황금 표준 ''이 아닙니다. 보다 중요한 것은 방법론에 관한 결정이 개입에 앞서서, 충분한 수의 연구대상자와 반복이 사용하고, 비교 그룹이 포함하며, 제한 사항을 사려 깊고 철저한 방법으로 다루어야 한다는 것이다.

While useful in some situations, randomization is not the ‘‘gold standard’’ for medical education research. More important is that decisions regarding methodology precede the intervention, that adequate numbers of subjects and iterations are used, that a comparison group is included, and that limitations are addressed in a thoughtful, thorough manner.

또한 문헌은 아주 명백하게 학생들에게 무엇을 가르치든 간에 그들은 학습을 한다는 것을 보여주며, 특정 요건을 만족시키기 위해서 학생들은 교육에서 부족한 것이 무엇이든 스스로 충족시키려고 한다는 것을 보여준다.18 따라서 효과적인 교육 개입에 대한 이해를 높이려면 새로운 교육적 개입을 다른 효과적인 개입과 비교해야합니다. 임상 연구와는 달리 위약군은 거의 도움이되지 않습니다. 새로운 교육 개입과 '통상적인'관행을 비교하는 것은, 학생들이 학습을 향상시킬 수 있는 research arm의 참신함을 ''알지 못하는 한" - 생산적이다.

In addition, the literature demonstrates quite definitively that medical learners will learn whatever we teach and also may supplement any teaching deficits to meet certification requirements.18 Thus, to increase our understanding of effective educational interventions, a new educational intervention should be compared to another effective intervention. Unlike clinical research, a placebo arm is rarely helpful. Comparing the new educational intervention to ‘‘usual’’ practices is productive as long as students are not ‘‘cued’’ to the novelty of the research arm—which may enhance (or negatively bias) their learning

'고찰' 부분에서 이러한 잠재적인 오류 원인을 그저 의무적으로 나열하는 대신, 연구자는 결과에 영향을 미칠 수있는 편견의 출처에 대한 신중하고 상세한 분석을 통해 기존 지식을 향상시킬 수 있을 것입니다.

Rather than an obligatory listing of these potential sources of error in the discussion, researchers will enhance existing knowledge through a careful and detailed analysis of sources of bias that may have affected the results.3

Getting off the "gold standard": randomized controlled trials and education research.

