보였다가, 안 보였다가? (Adv in Health Sci Educ, 2011)
Now you see it, now you don’t?
Geoff Norman
뉴요커 (Lehrer2010)의 기사는 매우 성공적인 항 정신 이상 약물로부터 심리적 효과에 이르기까지 모든 종류의 과학적 발견에 대해 발견되는 '그림자 짓기'라고 불리는 흥미로운 현상을 묘사합니다. 이것은 처음에는 강력한 효과를 나타내었지만, 반복적 인 관찰을 통해 시간이 지남에 따라 효과는 더 이상 중요하지 않은 지점까지 아래로 드리프트하는 현상을 말한다.
the article from the New Yorker (Lehrer2010) w describes an interesting phenomenon, in which all sorts of scientific discoveries, ranging from a class of highly successful antipsychotic drugs to a psychological effect called ‘‘verbal overshadowing’’ initially show strong effects, but over time, with repeated observations, the effects drift downwards to the point that they no are no longer significant.
그런데 이것은 실제로 매우 흔한 것입니다. 몇 가지 예 :
At one level, this is actually fairly commonplace. Living in an epidemiology depart-ment, I’ve seen many treatments come and go. Some examples:
비타민 E는 심장 마비를 예방합니다. Oop, 아니었네요.
유방 X 선 촬영 / PSA는 생명을 구합니다. 흠 ... 어쩌면 아닐지도 몰라.
여성의 에스트로젠 대체가 심장 마비를 예방합니다. 죄송합니다, 발생 원인이었네요.
Vitamin E prevents heart attacks. Oop, no it doesn’t.
Mammography/PSA saves lives. Hmm…maybe not.
Estrogen replacement in women prevents heart attacks. Oops, it causes them.
사실, 그리스의 전염병 학자 John Ioannidis는 임상 연구 결과가 '뒤집힌' 역사를 연구 한 오랜 연구 프로그램을 가지고 있습니다. 한 연구에서 Ioannadis (2005)는 45 건의 매우 긍정적 인 (1,000 건의 인용) 임상 연구 (예를 들어, 에스트로겐 대체 요법과 심장병, 아스피린 및 심장병)를 조사한 결과, 16 %에서 그 결과가 바뀌었고, 16 %는 후속 연구에서 더 큰 영향을 보였으며, 24 %는 복제되지 않았고, 절반 이하 (44 %)에서만 후속 연구에서 일관된 결과를 보였다.
In fact, a Greek epidemiologist, John Ioannidis, has a longstanding research program studying the history of clinical research findings that ‘‘flip’’. In one study Ioannadis (2005) looked at 45 highly cited positive ([1,000 citations) clinical studies (for example, estrogen replacement and heart disease, aspirin and heart disease) and found that in 16%, sub- sequent studies reversed the finding, 16% found larger effects on subsequent study, 24% were not replicated, and less than half (44%) had followup studies that were consistent.
한 가지 이유는 연구 디자인입니다. 여섯 개 중 다섯 개의 무작위 연구 결과가 후속 연구에서 변경되었습니다. 그러나 방법론과는 아무런 관련이 없는 다른 설명도 있습니다.
그 중 일부는 단순히 알파 오류 문제입니다. 후향적 분석은 필연적으로 비타민 E와 암, 휴대폰 및 뇌종양과 같은 연관성을 순전히 우연히 발견하게 될 것이지만, 그러한 fishing expeditions은 임상 시험에서는 거의 발생하지 않습니다.
이제는 감시가 심해져서 그럴 일이 없지만, 과거에는 Vioxx 임상시험과 같이 vested interests가 오염 된 결과를 가져올 수 있었다. Onereview 기사에 따르면 비영리 기관의 자금 지원을받는 임상시험에서는 16 %가, 제약회사가 지원한 임상시험에서는 51 %가 (Als-Nielson 외 2003) 긍정적인 결과를 나타냈다.
연구자들은 비록 임상 적으로 유의하지만, 임상 시험에서 확인 된 많은 효과가 절대적인 의미에서 매우 작을 수 있음을 명심해야하며, 따라서 상당히 뒤집힐 수 있음을 생각해야 한다. 0.1 미만의 효과 크기가 흔하다(Lipsey and Wilson 1993)
One aspect is research design; 5/6 non-randomized study findings were changed sub- sequently. However there are other explanations that have nothing to do with methodology. Some of it is simply the alpha error problem; retrospective analyses are inevitably going to turn up some associations, such as Vitamin E and cancer, or mobile phones and brain tumours, purely by chance, but such fishing expeditions rarely arise in clinical trials.Vested interests may have, in the past, tainted results such as the clinical trial of Vioxx(Bombardier et al. 2000), although this is less likely with greater oversight today. Onereview article showed that 16% of trials funded by non-profit agencies showed positivefindings compared to 51% of drug-company funded trials (Als-Nielson et al. 2003). Andone must keep in mind that many of the effects identified in clinical trials, althoughstatistically significant, may be exceedingly small in an absolute sense, so can reverse quiteeasily. Effect sizes less than 0.1 are the norm (Lipsey and Wilson 1993)
교육에 대한 우리의 질문은, 똑같은 일이 여기에서 일어날 것인가이다. 어떤 현상이 한 번 관찰되었다가 그 다음에는 사라지는 경우가 있는가? Regehr의 "Rocket Science"기사 (2010)는 다소 냉소적으로 연구자가 무언가가 작동work할 때까지 계속 장난을 치고 있기 때문에, 출판된 문헌은 긍정적인 방향으로 편향 될 수 있다고 설명합니다. (만약 첫 번째에 실패한다면, 다시 하고, 다시 하고, 다시 해보라.) 이 프로세스가 사실이라면 분명히 재현 불가능한 긍정적 인 결과를 가져올 수 있습니다. 다른 한편으로는, 당신의 방법, 재료 등의 문제로 인해 연구가 효과적이지 않다는 가정을 시작한 다음 다른 변이를 시도하는 것은 매우 합리적이고 적절하게 겸손한 과정입니다. 그러나 일련의 실망 이후 처음으로 긍정적인 결과를 얻은 후에는, 복제되고 확장 된 대안을 탐색 할 때까지 이 성공은 순수히 우연에 의한 것으로 간주해야 한다(그리고 p 값을 무시해야 한다).
The larger question for us in education is, does the same thing happen here? Are there instances where a phenomenon is demonstrated, but then goes away. Regehr in his ‘‘Rocket Science’’ article (2010), describes, somewhat cynically in my view, a process whereby the literature can be biased in favour of positive results because researchers just keep messing around until something works than publish it (if at first you don’t succeed, trial, trial, trial again). That process, if true, could certainly lead to unreproducible positive results. On the other hand, It seems to me that starting with the assumption that the study didn’t work because of problems with your methods, materials, etc., and then trying another variation, is a pretty rational and suitably humble process. However, once you got that first positive result after a series of disappointments, you should properly view it as pure seredipity (and ignore the p value) until you’re explored the alternatives, replicated and extended.
그러나 Regehr의 일화나 내 연구 모두 New Yorker의 현상이 교육에 존재하거나 존재하지 않는다는 증거가 되지는 못한다. 그러나 나는 교육에는 이러한 현상이 존재한다고 보지 않는다. 적어도 확실히 Ioannis가 임상 세계에서 묘사하는 것과 같이 일반적으로는 아닙니다. 믿을만한 증거 (학습 스타일, 성인 학습 이론 등을 배제한)에 근거한 현상이 결국 전복 된 사례는 매우 극소수이다.
Eva와 Regehr (2005)의 자기 평가에 대한 독창적 인 작업은 1991 년에 출판 된 Gordon의 아름다운 리뷰로 거슬러 올라가는 일관된 증거를 바탕으로 만들어졌습니다.
Norcini (2005)가 지적한 바와 같이 내용 특수성 현상은 어느 곳에나 존재하며, 30 년 동안 평가에서 일관된 결과를 제공합니다.
감독자 평가는, 비록 전 세계적으로 임상 교육에 보편적으로 남아 있지만, 1972 년 (Streiner 1985) 이후로는 신뢰할 수 없는 것이 되었다.
But neither Regehr’s anecdote nor mine constitutes evidence that the New Yorker phe-nomenon is present or absent in education. I don’t think it is; certainly not as commonly as Ioannadis describes in the clinical world. I can think of very few examples where a phenomenon, based on credible evidence (which excludes learning style, adult learning theory,etc.) was eventually overturned.
The seminal work by Eva and Regehr (2005) on self-assessment, builds on a large body of consistent evidence going back to Gordon’s beautiful reviews published in 1991.
The phenomenon of content specificity, as Norcini (2005) noted, is ubiquitous—a consistent finding in assessment for 30 years.
Supervisor assessments have been shown to be unreliable since at least 1972 (Streiner 1985), and continue to be so (van derZwet et al. 2011) although they remain almost universal in clinical education worldwide.
분명히 모든 것이 일관성이 있는 것은 아닙니다. 학습의 맥락이 후속 이전에 영향을 미친다는 생각은 의학 교육에서 거의 공리적이고, 학습의 맥락이 최종 적용의 맥락과 일치해야 한다고 주장한 많은 학습 이론을 자극했다. 이 'authenticity' 주장은 또한 충실도가 높은 (그리고 비싼) 시뮬레이터의 사용에 대한 이론적 근거의 근간을 이루고있다 (McGaghie et al., 2010). 그러나 불행하게도, 기본적인 심리학 연구 (Hockley 2008)는 물론 의학 교육 (Koens et al. 2003)에서도, 한 연구에서조차 그것을 반복하는 것은 매우 어려웠다.
Admittedly, consistency is not always the case. The idea that the context of learning has an impact on subsequent transfer is almost axiomatic in medical education, and has stimulated a number of learning theories, all of which argue that the context of learning should match the context of eventual application. This‘‘authenticity’’ argument also underlies much of the rationale for the use of high fidelity(and expensive) simulators (McGaghie et al. 2010). Unfortunately, however persuasive the idea, it has been very difficult to replicate it, both in basic psychology studies (Hockley 2008) and in at least one study in medical education (Koens et al. 2003).
의학교육 연구와 임상 연구자 사이에 불일치가 있을까? 한 가지 가능성은 의학교육연구가 더 크고 강력한 효과를 다루기 때문이다. Lipsey and Wilson (1993)은 1400 개의 원천 연구를 포괄하는 302 개의 메타 분석을 "메타 분석"하여 모든 메타 분석에서 교육 및 심리적 개입의 평균 효과 크기가 0.50임을 발견했다. 큰 효과가 사라지게하는 것이 훨씬 어렵습니다. 또한 이들은, 임상 연구와는 달리 무작위 추출 여부와 효과 크기, 또는 연구 품질과 효과 크기 (대조군이있는 한) 사이에 아무런 관련이 없음을 발견했습니다. 그들은 출판 편견의 증거를 보았습니다. 그러나 어떤 bias도 긍정적 효과를 없애지는 않았습니다.
Why the discrepancy between us and the clinical researchers? One possibility is we’re simply dealing with larger and therefore more robust effects. Lipsey and Wilson (1993) ‘‘meta-analyzed’’ 302 meta analyses, encompassing 14,000 original studies and found that the average effect size for educational and psychological interventions across all the meta- analyses was 0.50. It’s a lot harder to make big effects disappear. In contrast to the clinical studies described above, they found no relation between randomization or not and effect size, or between study quality and effect size (as long as it had a control group). They did see evidence of publication bias. But none of these biases made the positive effects go away.
나는 Lipsey가 의학 개입을위한 효과 크기를 인용했기 때문에이 모든 것을 지적합니다. 표 6은 많은 전통적인 치료법과 사망률 (예 : CABG, 심장 마비로 인한 아스피린)이 ES가 훨씬 작고 종종 0.1 미만임을 보여줍니다. 교육에서 우리는 삶과 죽음의 문제를 다룰 수는 없지만, 임상 연구에서 우리의 결과가 실제로 "큰 형님"(연구 당 비용면에서 큰)보다 더 신뢰할 수 있고 견고할지도 모른다. 결과적으로 우리는 의학연구를 괴롭히는 "보였다가, 이제는 안 보였다가"하는 현상에 덜 시달릴 수도 있습니다.
I point all this out because Lipsey also cites effect sizes for medical interventions. Their Table 6 shows that for many conventional therapies and mortality (e.g. CABG, aspirin for heart attack) the ES is much smaller, often less than 0.1. I Although we in education may not deal with life and death issues, we may be in a situation where our results are actually more credible and robust than our ‘big brothers’ (at least big in terms of cost per study) in clinical research. And as a result it may be that we suffer less from the ‘‘now you see it— now you don’t’’ phenomenon that seems to plague medical research.
어쩌면 이제는 부적절한 것에 대해 사과를 그만 둘 때일지도 모른다.
Maybe it’s time we quit apologizing for our inadequacies.
Now you see it, now you don't?
- PMID:
- 21728020
- DOI:
- 10.1007/s10459-011-9310-7
- [Indexed for MEDLINE]
'Articles (Medical Education) > 의학교육연구(Research)' 카테고리의 다른 글
의학교육연구: 30년간의 진전(BMJ, 2002) (0) | 2017.08.07 |
---|---|
가르치면 배울 것이다: 의학교육에 효과성 비교연구가 필요한 이유(Adv in Health Sci Educ, 2012)) (0) | 2017.08.04 |
비추고 확대하기 위한 개념 프레임워크(Med Educ, 2009) (0) | 2017.08.04 |
의학과 의학교육의 질적연구 평가(Med Teach, 2005) (0) | 2017.08.04 |
교육개입의 성과 연구: 설계의 문제(BMJ, 2002) (0) | 2017.08.03 |