무작위 대조군 연구 = 교란되고 사소한 연구결과: 대(grand) 교육실험의 위험성(Med Educ, 2003)
RCT = results confounded and trivial: the perils of grand educational experiments
Correspondence: Prof G Norman, Building T-13, McMaster University, 1200 Main
St. W, Hamilton, Ontario, Canada. Tel.: 00 905 525 9140; Fax: 00 905 577 0017;
E-mail: norman@mcmaster.ca
도입
Introduction
의학 교육의 최근호에서 Torgerson1은 의학 교육에서 RCT가 더 사용되어야 한다고 주장했다. 그녀의 주장은 2 개의 전제를 기반으로 한 것 같습니다.
In a recent issue of Medical Education, Torgerson1 made an impassioned plea for greater use of randomized trial methods in medical education. It seems that her claim is based on two premises
1 '무작위 시험은 일반적으로 평가 연구의 금본위 제로 인식되고 있습니다.'그래서 우리 모두는 그것을 수행해야합니다. 과
1 ‘The randomised trial is generally acknowledged as the gold standard of evaluative research’, so we should all be doing it; and
2 논란이 많은 임상 시험 (RCTs)을하는 것에 반대하는 논쟁은 반대론자들의 RCT 방법에 대한 무지를 보여줍니다.
2 Any argument against doing more ran-domised clinical trials (RCTs) amounts to a display of ignorance of RCT methods on the part of the nay-sayer.
그녀의 관점과 내 관점의 차이점의 중심은 다음의 구절에 구체화되어 있습니다.
One which is central to the difference between her perspective and my own is embodied in the phrase:
[교육 연구자들 사이에서] 무작위 배정은 결과에 영향을 미치는 '무수히 많은 요인들'에 대해 통제 할 수 없다고 생각됩니다.
[among educational researchers] randomisation is thought to be un-able to control for the ‘myriad off actors’ affecting outcome.
그러나 이 모든 변수는 동전을 던진다고 사라지지 않는다. 그들은 여전히 거기에 있으며, 각 그룹 내의 다른 사람들이 개입에 다르게 반응하도록 최선을 다하고 있습니다.
But all these variables did not just go away at the flip of the allocation coin. They are still there,doing their best to make different people within each group respond differently to the intervention.
그 결과, 통제 된 시험이 치료 효과에 대한 편견없는 추정치를 잘 산출 할 수 있지만, 설명 할 수없는 변화의 바다에서 손실 될 가능성이 높으며 탐지가 불가능할 수도 있습니다. 무작위화 설계로 확인 될 수있는 효과는 실제적인 결과가 거의 없다는 점에서 중요하지 않을 수 있습니다. 그것은 무작위 시험이 교육 개입에 할 수 없다는 것은 아닙니다. RCT를 위해 그만큼의 노력을 들일 가치가 없다는 것입니다.
The consequence is that, while a controlled trial may well yield unbiased estimates of treatment effects, they will likely be lost in a sea of unexplained variance, and may not even be detect-able. What effects can be identified from such randomised designs are likely to be of such minimal importance as to be of little practical consequence. It is not that randomised trials are not possible to do on educational interventions; it is that they are not worth the effort involved in doing them.
어떤 사람들은 이에 대해서 "증거는 어디에 있습니까?" 라고 물을지도 모른다. 증거는 어디에나 있다. 달링 하몬드 (Darling-Hammond)와 영 (Young)은 최근 교육 연구원 (Educational Researcher) 3 호에 글을 썼다.
Well, some might think that a strong claim. Where is the evidence? Every-where. Darling-Hammond and Young,writing in a recent issue of Educational Researcher:3
'... 학생들의 학업 성취도는 학급 규모 및 수업 구성과 같은 다른 요인보다 학생에게 배정 된 교사의 영향을 훨씬더 받습니다. Rivkin, Hanu-schek 및 Kain (2001)의 최근 분석에 따르면 테스트에서 총 변동의 최소 7 % - 교사는 교사의 차이점을 얻습니다.
‘… student achievement gains are much more influenced by a student’s assigned teacher than by other factors like class size and class composition…A recent analysis by Rivkin, Hanu-schek and Kain (2001) attributes at least 7% of the total variance in test-score gains to differences in teachers.
분산의 7 %는 커리큘럼으로 인한 차이보다 훨씬 큽니다. 그러나 다시 한 번, 설명 할 수없는 더 큰 93%의 분산이 있습니다.
Just to underline the conclusions of this statement, 7% of the variance is much more than the variance due to curriculum. Of course, 93% of the variance unexplained is much more again
교육 연구자들은 거대한 통제 실험을하는 법을 알고 있으며, 오랫동안 어떻게 알고 있습니다. 우리는 1960 년대 프로젝트 헤드 라인 시작을 다시 언급 할 수 있습니다. Project Head Through는 몇 십 년 동안 전통을 이어가고, 결국 총 비용이 약 10 억 달러가 된 1995 년에 마감되었습니다. 여러 개입에 대한이 막대한 연구 결과 :
Educational researchers do know how to do grand controlled experiments , and have known how for a longtime. We can in refer back to Project Head start, the 1960s, which was succeeded by Project Follow Through,which continued the tradition for a few more decades, finally closing down in 1995 after a total cost of about a billion dollars. The results of this enormous study of multiple interventions:
학생 성취도는 프로그램-간 차이보다 프로그램-내 차이가 더 큰 것으로 나타났습니다. 어떤 프로그램도 여러 기관 사이에 일관성을 유지할 수는 없습니다. 각 지역의 상황은 프로그램, 인사, 교수 방법, 예산, 지도력 및 지역 사회 지원의 종류에 따라 달라진다.
It was found that the variance in student achievement was larger with-in programs than it was between programs. No program could produce consistency of effects across sites. Each local context was different, requiring differences in pro-grams, personnel, teaching methods,budgets, leadership and kinds of community support.4
Berliner의 발언은 한층 더 우려를 불러 일으킨다.
임상 시험실 수술을하는 실험자가 내 관상 동맥을 우회하고 하루에 3 번 약물이나 위약 300mg을 복용했다는 것을 합리적으로 확신 할 수 있지만, 교육 경험자는 얼마나 많은 '치료 요법'을 실제로 학생이 받았는지 알 수 없다. 실제로 대부분의 교과 과정 중재에서 실제로 벌어진 치료적 중재가 무엇인지 정확하게 모릅니다.
Berliner’s comments introduce an additional level of concern.
While experimenters conducting clinical trial sof surgery can be certain that my coronary artery was bypassed, and reasonably confident that I took my 300 mg of drug or placebo three times a day, educational experimenters must live with far greater uncertainty about how much of the ‘therapy’ was actually received by the student. Indeed, it is unclear with most curriculum interventions exactly what the therapeutic inter-vention actually was.
그러나 그것이 효과가 있다면 누가 그것을 효과가있게 만드는가? 그것은 분명히 무언가가 무작위로 고른 시도에서 중요하지 않다는 그녀의 주장을 뒷받침하는 Torgerson의 태도입니다 :
But if it works, who cares what makes it work? That is clearly the attitude of Torgerson, who, in buttressing her argument that blinding is unimportant in randomized trials, states:
비록 열의가 그 효과에 대한 책임이 있었다고하더라도, 더 나은 결과로 이끌어 낸다면 새로운 방법의 사용을 여전히지지 할 것입니다.
Even if enthusiasm were responsible for the effect, this would still support the use of the new method if it led to better outcomes.
놀랄 만한! 열의가 효력을 발생시키는 주성분이라면 '방법'은 무엇입니까?
Incredible! If enthusiasm is the active ingredient leading to the effect, what is the ‘method’?
사실, 열정으로 인해 차이가 생겼다면, 교육 및 학습에 관한 지식의 확대에 기여하는 대신, 이 실험의 결과는 어떤 방법이 더 나은지에 대한 결론을 단순히 흐리게 만들 뿐이다.
Indeed, if it is enthusiasm that is leading to differences, then the findings of any experiment, instead of contributing to an expanding corpus of knowledge about teaching and learning, would simply cloud any conclusions about the benefit of one method or another.
그렇다면, 우리가 선생님에게 줄 수있는 가장 좋은 조언은 열정을 유지하기 위해 매 5 년마다 커리큘럼을 바꿔야하는 커리큘럼 회전목마가 될 것입니다.
We would be doomed would be to a curriculum merry-go-round where the best advice we could give to teachers would be to change the curriculum every 5 years to maintain enthusiasm.
그러나 상황은 그보다 더 나쁩니다. Trail이 전반적인 효과를 제외하고 모든 것을 격리시키는 기괴한 능력을 감안할 때, 정말로 열정때문에 그러한 결과가 생겼는지 여부를 알 수 없기 때문이다.
But the situation is worse even than that. Given the uncanny ability of the trial to isolate everything except the overall effect of the intervention, we would not even be able to tell whether it was enthusiasm that did the trick.
이러한 맥락에서, Gene Glass가 작성한 Project Headstart / Project Follow Through 연구에 대한 비평 요약을 인용하면 유용 할 수 있습니다 .6 Glass가 포스트 모더니스트에게 경멸감을 느끼지 않도록 독자를 안심시키기 위해 그는 널리 인정 받았습니다. 메타 분석 / 체계적인 검토의 아버지, 세계적인 교육 통계 학자. 그는 이렇게 썼습니다.
In this context, it is perhaps useful to quote from a summary of a critique of the Project Headstart ⁄ Project Follow Through studies, written by Gene Glass.6 Just to reassure readers that Glass is no raving post-modernist, he is widely acknowledged as the father of meta-analysis ⁄ systematic reviews, and a world class educational statistician. He wrote:
NIE는 프로그램에 참여한 사람들이 형식에 입각 한 선택을 가능하게하는 민족지 학적, 주로 서술적인 사례 연구 접근 방식을 강조하는 평가를 실시해야한다고 제안했다.
(1) FT가 과거에 수행한 평가는 가치 판단을 유도하기위한 정량적, 실험적 접근법이었으며,
(2) 정량적, 실험적 평가 접근법의 결함은 너무 심각해서, 고칠 수도 없고, 사용할 수도 없다.
…it is suggested that NIE should conduct evaluation emphasising an ethnographic, principally descriptive case-study approach to enable in-formed choice by those involved in the program. The discussion is based on the following assumptions:
(1)Past evaluations of FT have been quantitative, experimental approaches to deriving value judgements;
(2) The deficiencies of quantitative,experimental evaluation approaches are so thorough and irreparable as to disqualify their use…
간단히 말해서, 20 년 전 메인 스트림 교육 연구자들은 grand curriculum experiment에서 파생된 미미한 통찰력에 환멸을 느꼈다. 교육 연구가 요즘 질적인 방법에 의존하고 실험을 덜 하는 것은 실험을하는 방법을 모르기 때문이 아닙니다. 그러한 노력에도 불구하고 얻을 수 있는 지식이 얼마나 작은지를 너무 잘 알고 있다는 것입니다. 어떤 교과 과정이 다른 것보다 낫다는 것을 증명할 수 있다고 하더라도, 무작위화를 하는 과정에서 어떤 변수가 치료에 포함되었으며, 어떤 변수가 평균을 취하는 과정에서 소실되었는지를 알지 못한다. 결국, 다음에 시도했을 때 결과가 어쨌든 복제되지 않을 것이라는 점을 염려하면서도 그 이유는 모를 것입니다.
In short, two decades ago, main-stream educational researchers became disenchanted with the marginal insights derived from grand curriculum experiments. The reason that educational research nowadays is long on qualitative methods and short on experiments, is not that we do not know how to do experiments; it is that we know only too well how little knowledge will emerge from all that effort. Even if we were,against all odds, able to prove that one curriculum was better than another, we would likely be left wondering about just what it was in all those variables that went into the treatment and those that get averaged out by the process of randomisation that actually caused the effect. And worrying that the next time it was tried, the results would not replicate anyway, and we would have no idea why.
실험을위한 역할이 없다는 뜻입니까? 상당히 명확하지 않습니다. 실제로 글래스가 이 보고서를 쓴 지 20 년이 지난 지금 질적 연구에서도 약간의 진전이있었습니다 .7 문제의 근원은 인식론적입니다. 질적 연구자는 일반화 가능한 결과를 기대하는 것은 불합리하다는 것을 전제로, 계획에 따라 진행한 뒤, 두껍고 통찰력이 있지만 매우 상황 특이적인 해석을 내놓습니다. 그러나 세계는 행동을위한 기초로서 새로운 일반화 가능한 지식을 기다리고있다.
Does that mean there is no role for experiment? It’s not quite that clear. Indeed, two decades after Glass wrote the report, there has been some disenchantment with qualitative research as well.7 The origin of the problem is, I think, epistemological. Qualitative researchers begin with the premise that it is unreasonable to expect generalizable findings, then proceed according to plan and provide thick, insightful, but highly situation-specific interpretations. But the world awaits some new generalizable knowledge as a basis for action.
그리고 거기에 딜레마가 있다. Grand experiment가 실제 통찰력을 산출하기에는 너무 많은 변수를 평균화하고, 질적 연구가 궁극적으로 어떤 결론을 내리기에는 너무 구체적이지 않은 경우, 새로운 지식은 어디서 오는가? 저의 관점은 환원주의의 과정에 대한 통찰력을 얻는 것입니다. 환원주의가 과학 철학에 경멸적인 의미를 갖게되었지만, 이 경우에는 환원주의가 유일한 효과적인 행동 과정이라고 생각합니다.
And therein lies the dilemma. If grand experiments average too many variables to yield any real insights, and if qualitative research is ultimately too specific to yield any general conclusions, where will new knowledge come from? My own view is that we will gain insight by a process of reductionism. Although reductionism has come to have pejorative connotations in philosophy of science, in this case, I think it represents the only effective course of action.
예를 들어, 전 세계 의과 대학에서 우리는 학생들에게 의학의 기본 개념을 가르치기 위해 지나치게 많은 시간을 보내고 나중에 임상 적 문제를 이해하기 위해 개념을 사용할 수있게되기를 바랄 것입니다. 'Transfer'이라고 불리는 과정이 다른 본문에서 나타나는 현상을 설명하기 위해 기억에서 개념을 추출하는 과정이 극도로 어렵다는 증거가 있기 때문에 나는 'forlorn'이라고 말합니다. 심리학자들은 수십 년 동안이 문제를 탐구 해 왔으며,이 전략을 용이하게 할 수있는 고의적 인 연습을 포함하는 많은 전략을 확인했습니다 .8 이러한 아이디어가 교육자들에 의해 크게 무시당하는 것은 아쉽습니다.
As one example, in medical schools worldwide we spend an inordinate amount of time teaching students the basic concepts of medicine, in the forlorn hope that they will be able to use the concepts later to understand clinical problems. I say ‘forlorn’ because the evidence is that the process of retrieving concept from memory to explain a phenomenon posed in a different con-text, a process called ‘transfer’, is extremely difficult. Psychologists have explored issues of transfer for several decades, and have identified a number of strategies, mostly involving deliberate practice, which can facilitate this pro-cess.8 More’s the pity that these ideas are largely ignored by educators.
Transfer가 얼마나 어려운지, 그리고 그것에 대해 수행 할 수 있는 일은 무엇인지 이해하게 된 것은 대규모 무작위 시험에서 기인하지 않았다. 오히려 그 현상에 대한 지식의 축적은 많은 이론을 바탕으로 여러 실험실에서 일어나는 많은 작고 엄격하게 통제 된 연구에서 비롯된 것입니다. 많은 복제와 개입의 요인에 대한 체계적인 변화가 그 과정의 이론에 의해 유도되었습니다.
An understanding of how difficult transfer is, and what can be done about it, did not result from large randomized trials. Rather, the accumulation of knowledge about the phenomenon came about from many small, tightly controlled studies, occurring in many labs, with many replications and with systematic variation of the factors in the interventions, driven by theories of the process.
결론적으로 말하자면, 저는 교육적 의사 결정을 알리기위한 대규모 무작위 교과 과정 실험의 패권에 대한 믿음이 끔찍히도 잘못되었다고 생각합니다. 이것은 어떤 식 으로든 실험의 기본 강점에 대해 거부하는 것이 아니다. 정반대의 신념으로 나는 신중하고 이론에 근거한 실험적 연구의 결과로 교육의 의미있는 발전이 이루어졌으며 앞으로도 계속 될 것이라고 확신한다. 그러나 최근의 역사를 돌이켜보면, 아무 생각 없이 커리큘럼 수준에서 실험을 적용할 경우, 미미하고, 복제불가능하고, 해석불가능한 결과를 가져 오며 종종 엄청난 비용이 소요된다는 것을 보여주었습니다.
In conclusion, I must state categorically that, in my view, a faith in the supremacy of large randomized curriculum experiments for informing educational decision-making is dreadfully misguided. This does not, in any way, constitute a rejection of the basic strengths of experimentation. Quite the opposite, I am convinced that significant advances in education have come about, and will continue to occur, as a result of careful, theory-guided, experimental research. But recent history has shown that unthinking methods application of experimental at the level of curriculum leads to small, unreplicable and uninterpretable results, often acquired at enormous expense.
RCT = results confounded and trivial: the perils of grand educational experiments.
Author information
- 1
- McMaster University, Hamilton, Ontario, Canada. norman@mcmaster.ca
Comment in
Comment on
- Educational research and randomised trials. [Med Educ. 2002]
- PMID:
- 12834412
- [Indexed for MEDLINE]
'Articles (Medical Education) > 의학교육연구(Research)' 카테고리의 다른 글
체계성의 한계에 대하여 (Med Educ, 2008) (0) | 2017.07.25 |
---|---|
의학교육연구의 평판: 준실험연구와 타당도 위협(Teach Learn Med, 2008) (0) | 2017.07.25 |
의학교육연구에서 사실주의적 방법: 무엇이고, 어떻게 기여하나? (Med Educ, 2012) (0) | 2017.07.25 |
의학교육연구는 '경성' 연구인가 '연성' 연구인가? (Adv in Health Sci Educ, 2008) (0) | 2017.07.25 |
의학교육에서 실험연구에 대한 성찰(Adv in Health Sci Educ, 2010) (0) | 2017.07.21 |