의학교육에서 양적연구방법 (Understanding Medical Education Ch25)

Quantitative research methods in medical education

Geoff Norman1 and Kevin W Eva2

1 Clinical Epidemiology and Biostatistics, McMaster University, Canada

2 Centre for Health Education Scholarship, University of British Columbia, Canada





양적 패러다임

The quantitative paradigm


사실, 정량화없이 자연 과학을 구상하는 것은 어렵다.

Indeed, it is difficult to envision natural science without quantification,


그러나 양적 방법은 만병 통치약이 아닙니다. 많은 사람들은 사회 과학자들이 자연 과학 방법을 의심없이 너무 빨리 받아들였고, 숫자 몇 개로 요약할 수 없는 사회 상황의 복잡성을 적절히 인식하지 못했다고 주장했다. 24장에서 Illing은 양적 방법을 사회 과학으로 채택한 역사와 질적 인 방법으로 이어지는 불안한 통합 (혹은 분열)에 대한 역사를 검토했다. 정량적 인 '먼지 그릇 체험주의'가 반작용을 일으킨 것은 놀라운 일이 아닙니다. 당장의 반성에 따라 교육 환경에서의 인간 상호 작용의 복잡성을, 치료제를 받은 절반과 받지 못한 나머지 반으로 줄여서, '성공' 또는 '실패'로 '성과'를 구분하려는 어리석은 시도를 찾는 것은 너무나도 쉬운 일이다 1) 사회 과학 연구의 양적 접근에 연루되어 있지만, Illing이 지적한 바와 같이 사람을 '연구대상'으로 축소시켜서, 교육용 의약품의 정확히 동일한 용량을 흡수한다고 보는 것은, 의도하지 않은 '귀류법reductio ad absurdum'에 불과하다.

But quantitative methods are not a panacea. Many would claim that social scientists have been too quick to adopt the methods of natural science unquestioningly and have not given adequate recognition to the complexity of social situations, which are not evidently reducible to a few numbers. In Chapter 24, Illing reviewed the history of the adoption of quantitative methods into social science, and the subsequent uneasy integration (or partitioning) with qualitative methods. It is not surprising that the quantita- tive ‘dust bowl empiricism’ led to a counter reaction. It is embarrassingly easy to find examples in medical education that, on a moment’s reflection, exemplify the silliness of attempts to reduce the complexity of human interaction in an educational setting to a ‘treatment’ that half receive and half do not, and an ‘outcome’ such as pass or fail on an examination.(1) Although we are personally wedded to quantitative approaches to social science research, such studies, which, as Illing points out, reduce the people in the study to ‘objects’ that are supposed to absorb exactly the same dose of the educational drug, amount to little more than unintended ‘reductio ad absurdum’.


특정 사례를 식별함으로써 얻을 수 있는 것은 별로 없다. 더 큰 문제는 양적 방법이 분야에서 인정 된 진전과 일치하는 정도입니다. 자연 과학의 방법이 인간 수명과 복지에 대한 직접적인 결과로 의학에서 엄청난 진보를 이끌어 냈다는 논쟁은 없습니다.

Little is served by identifying specific examples. The larger question is the extent to which quantitative methods have been aligned with recognised progress in the field. There is simply no dispute that the methods of the natural sciences, have led to enormous advances in medi- cine with direct consequences for human longevity and welfare.


Bordage가 지적한 것처럼, (3) 지역 사회는 질적 - 양적 논쟁에서 벗어나야한다. 왜냐하면 이러한 '반복적 인 논쟁은 생산적이지 않기 때문이다. . 각 접근법은 그 자체로 유용하며 서로 보완할 때 가장 생산적입니다. '

As Bordage notes,(3) the community should move on from the qualitative– quantitative debate because ‘this oft-repeated debate is not productive. . .each approach is useful in its own right and is often most productive when complementary’.


실제로, 많은 양적 방법론 비평가들은 교육 연구의 양적 방법이 통계적 방법의 적용에 의해 입증되거나 불일치되는 무작위 실험을 사용하여 가설을 검증하는 것으로 추정한다. 그러나 이것은 심하게 부적절한 묘사이다.

Indeed, many critics of quantitative methodology appear to presume that quantitative methods in educational research amount to testing hypotheses using randomised experi- ments that are proven or disproven by application of sta- tistical methods. This is a woefully inadequate description of, for example, the psychometric methods that have led to such significant advances in assessment methods.




연구 질문

The research question


이전 섹션에서, 우리는 많은 저자들이 양적 연구를 가설 테스트와 동일시 함을 지적했다. 이것은 지나치게 단순화한 것일 뿐만 아니라, 연구 문제의 본질과 타당성에 주의를 기울이지 않은 것이다. 너무 자주, 학생들이 연구 질문에 대해 토론 할 때, 실용적이고 상식적인 질문을 formal한 연구 가설로 변환하는 방법을 배우는 데 많은 노력을 들인다. 아무런 차이나 효과가 없음을 가정하는 '귀무 가설' 또는 영-상관 관계를 설정하는 것을 배운다.

In the previous section, we noted that many authors equate quantitative research with hypothesis testing. In our view, not only is this association simplistic, but it gives insuffi- cient attention to the nature and adequacy of the research question. Far too frequently, when students do discuss the research question, much effort is expended in learning how to convert a practical, commonsense question into a formal research hypothesis or, even better, a ‘null hypothesis’ that frames it as no difference, no effect or zero correlation.


그러나 '연구 가설'이라는 개념은 몇 가지 종류의 양적 연구에만 잘 적용될 뿐이다.

In any case, the idea of a research hypothesis only applies well to some kinds of quantitative research.


신뢰도 연구를 귀무 가설로 구성하면 다음과 같은 상황이 생긴다: 새로운 성찰 연습의 필기 시험의 신뢰도는 0.5보다 작을 것입니다.

To frame a reliability study as a null hypothesis would look something like: The reliability of the new written test of reflec- tive practice will be less than 0.5.


이 틀은 단순히 연구 목표를 적절히 포착하지 못합니다. 우리의 견해가 대다수의 입장을 대변하지는 않을지라도, 적절한 연구 질문에 노력을 기울여야하고, 섬세한 귀무 가설 작성은 잊어야한다. 결국 연구 문제의 목적은 사후 설명의 가능성을 줄이고, 질문에 대답하는 데 사용될 방법을 지정하거나 제한하며, 연구의 초점이 성취 가능한지 여부에 대한 신중한 분석을 가능하게하는 것입니다.

This framing simply does not adequately capture the goal of the research. While our views may not represent a majority position, we believe that we should focus effort on an adequate research question, and forget about the niceties of null hypothesis creation. In the end, the goals of the research question are to reduce the possibility of post-hoc explanations, to specify or constrain the methods used to answer the question, and to enable careful analysis of whether or not the focus of the research is achievable.


예상치 못한 결과가 발생했을 때 post-hoc 추측이 유용하지 않다고 말하는 것은 아니지만, 인쇄하기 전에 결과를 확인하기 위해 더 많은 연구가 필요하다고 말하는 것입니다. 스타일 자체가 중요한 것은 아니지만, 정밀성을 갖춤으로써 궁극적으로 답할 수없는 질문을 추구하는 데 시간과 자원 낭비를 피하는 것은 매우 중요합니다.

That is not to say that post-hoc speculation is not useful when unanticipated find- ings arise, but it is to say that further study should be engaged to confirm the result before running to the print- ers. Style is unimportant, but precision is invaluable to avoid wasting time and resources in pursuit of ultimately unanswerable questions.


그렇다면 연구 질문이 훌륭한지는 어떻게 알 수 있을까? 연구 질문의 가치는 고립되어 판단 될 수는 없으며, 그것이 발생하는 특정 연구 영역의 맥락에서만 볼 수 있습니다. 연구는 발견에 관한 것이며, 이미 알려진 것을 발견하는 데는 거의 요점이 없다 (Box 25.2).

So how do we ensure that the research question is good? The worth of a research question cannot be judged in isolation, but can only be viewed in the context of the specific research domain in which it arises. Research is about discovery, and there is little point in discovering what is already known (Box 25.2).


'디스커버리 (Discovery)'는 연구의 잠재적 기여에 대해 생각할 수있는 유용한 방법이지만, 지식 축적의 관점에서 발견 행위라는 것은 현재의 이해에서 큰 도약을 의미합니다.

‘Discovery’ is a useful way to think about the potential contribution of a research study, but the word implies such large leaps from current understanding that we prefer to think of the act of discovery in terms of knowledge build- ing.


너무 자주, 문헌고찰은 놀이터 싸움을 말하는 어린 아이처럼 읽혀진다. 'Johnny did this. 그럼 샐리가 그랬어. 그리고 나서 Bob은이 다른 것을 말했다. '문헌고찰은 누구에게 누가 무엇을했는지에 대한 연대적 인 설명이 아니라 오히려이 연구가 상주reside 할 개념적 틀을 확립해야한다. (5)

Too frequently, the literature review reads like a child recounting a play- ground fight: ‘Johnny did this. Then Sally did that. Then Bob came along and said this other thing.’ The literature review is not, and should not be, a chronological recount- ing of who did what to whom, but rather, should establish a conceptual framework within which the present study will reside.(5)





연구 가치가 있는 주제 정하기

BOX 25.2 HOW TO: Select an issue worthy of research 


When contemplating which research ideas are worth developing into more fully fledged projects, there are a variety of criteria that should be used. Here are just a few guiding principles: 


참신성Novelty: Has the study been done before? It is insufficient to say ‘to our knowledge this has never been done’ without a concentrated effort to determine whether or not it has been done. Talk with experts, be they local or international, and scour the literature for other studies aimed at similar issues. At this point in history it is inconceivable that no one has ever written anything of relevance to whatever topic you care to study. Only after a careful search of a variety of literatures can you make a compelling argument for how your particular study could advance understanding in some meaningful way beyond what has already been done. 


중요성Importance: Medical education is an applied field. As a result, while any given study might not yield immediate practical implications, it should be possible to conceive of ways in which the research efforts might beneficially impact on the field in the future. Use your ‘on-the-ground’ experiences to inform your research questions just as much as you use the literature. 


프로그램적Programmatic(not project): Too often we in applied fields think of research in terms of projects as opposed to programmes. The latter term, put forward by the Hungarian philosopher of science Imre Lakatos, should draw attention to the fact that real advances are typically made through systematic and long-term study of a particular issue.(5) 진정한 진보는 일반적으로 특정 문제에 대한 체계적이고 장기적인 연구를 통해 이루어진다. (5)



유도된Guided: What is the conceptual framework within which your study fits?(5) Which theories speak to the issue with which you are trying to grapple? Do they contradict one another in a way that you could inform through your research efforts? Is your theory/hypothesis falsifiable (i.e could your study design yield an answer that would counter the theory you are using as a guide)? 


기반한Grounded: Related to some of the previous points, we use the term ‘grounded’ to indicate that the study should be grounded in the context of what is already known such that the context is used to determine which of the various possible research directions is most appropriate (i.e. most likely to provide meaningful results to the community) at this point in history. One may not be able to predict this with perfect accuracy, but the issue should be considered through broad consultation and reflection. 이미 알려진 것의 맥락에서 근거를 두어, 역사의 현재 시점에서 다양한 가능한 연구 방향 중 어느 것이 가장 적절한지를 결정하는 데 사용되어야한다



문헌 검토는 지식 격차를 분명히 식별해야하며 격차는 filling을 보장할 정도로 충분히 중요해야한다. '이 연구가 우리나라 / 도시 / 대학 / 학문 분야에서 한 번도 해본 적이 없다'는 진술의 정당성은 약하다. 떠오르는 개념적 틀은 연구자들 (결국 독자들)이 더 큰 그림 ( '최첨단')에 집중하는 데 도움이되어야하며, 현재의 연구가 이러한 지식을 어떻게 부가 하는지를 명확하게 기술해야한다.

The literature review should clearly identify knowledge gaps, and the gaps should be substantive enough to warrant filling; statements such as ‘this study has never been done in our country/city/university/discipline’ are weak justi- fication. The emerging conceptual framework should be such that it helps the researcher – and eventually his or her readers – focus on the bigger picture (the ‘state of the art’), and  should  clearly  delineate  how  the  present  study  addsto this knowledge. 


이것은 연구자가 공식적인 문헌 검토를 통해 모든 연구를 시작해야 함을 의미합니다. 물론 연구는 선형적인 방식으로 진행되지 않지만, 성숙한 연구 프로그램의 한 특징은 연구가 문헌 검토에서 새롭게 만들어지는 상황 예외.

This implies that the researcher should begin every study with a formal literature review, Of course, research does not proceed in such a linear fashion, but one characteristic of mature research programmes is that situations where a study is created de novo from a literature review are the exception.



연구 문제의 질을 보장하기 위해 할 수있는 일은 무엇입니까? 이 질문에 대답하는 한 가지 방법은 '이론'의 개념에서 질문을 끌어내는 것입니다. 궁극적으로 두 가지 결론(성공했거나 그렇지 않은 경우)만 이끌어내는 연구 가설과는 달리, 연구 이론은 여러 변수의 상호 작용에 대한 이해를 포함한다. 이러한 이론에 근거한 연구는 우리 분야의 소수에 불과하다. (7) 최근의 논문의 약 절반 만 개념적 틀을 가지고있는 것으로 확인되었다 (8)

So what can be done to ensure the quality of the research question? One way to answer this question is to draw on the notion of ‘theory’. In contrast to a research hypothesis, which ultimately leads to only two conclusions: (a) it worked, or (b) it did not, a research theory involves an understanding of the interaction of multiple variables. Such theory-based research is conspicuously in the minor- ity within our field.(7) Only about half the articles in a recent review were identified as having a conceptual frame- work(8)


포퍼의 말을 사용하는 것은 과학 이론의 정의적 속성이라는 것이 여기에서 주목할 가치가있다. (9) 그것은 반증가능성, 즉 틀린 것으로 입증 될 수 있다는 것이다. 따라서 이론을 지식 구축의 기초로 사용하는 연구는 맥락으로서 이론을 사용하는 전형적인 형태보다 더 역동적인 품질을 가지고있다. 과학적 이론은 영원하거나 불변적이지 않다. 우리는 새로운 증거가 생겨나면서 변화와 진화 (그리고 설명력의 증가)를 기대합니다.

It is worth noting here that a defining property of scien- tific theory is, to use Popper’s words,(9) that it is falsifiable, i.e. it can be proven wrong. As such, studies that use theory as a basis for knowledge building have a more dynamic quality than typical invocations of theory as context. Scien- tific theories are not permanent and immutable; we expect them to change and evolve (and increase in explanatory power) as new evidence arises.


일부 이론은 실증주의 전통에 확고하게 뿌리를 둔 것도 있지만, 세계가 하나의 '효과가 있거나 없거나'와 같은 환원주의적 패키지로 묘사되지 않음을 인정할 때 이론을 가장 잘 사용할 수 있다. 나아가 이전에 언급 한 바와 같이, 연구가 이론적이라는 사실은 그것이 실천과 무관하다는 것을 의미하지 않는다. 반대로 스톡스 (Stokes, 12)가 설득력있게 기술했듯이, 이론에 기초한 기초 과학과 실제 지향적 인 연구 노력은 연속체의 분리 된 끝 부분에 놓여있는 것으로 해석되어서는 안된다. 오히려 그는 루이 파스퇴르가 세균학에 대한 기본 지식을 발전시키는 데 큰 걸음을 내디뎠던 '파스퇴르의 사분면 (Pasteur 's quadrant)'에 관한 최고의 연구와 같이, 두 가지의 아젠다가 서로 수직하는 연속체로 간주되어야한다고 주장했다. 파스퇴르는 동시에 실용적이고 현실적인 와인 및 실크 산업에 대한 영향, 그리고 물론 의학에도 영향을 미쳤다 (그림 25.1).

It might also be noted that, while some notions of theory- building remain firmly rooted in a positivist tradition, theory is probably best used when it moves some towards the recognition that the world is not adequately described by a single ‘it worked/it did not’ reductionistic package.(11) Further, as we alluded to earlier, the fact that research is theory-based does not mean it is irrelevant to practice. On the contrary, as Stokes(12) has convincingly described, theory-based basic science and practically-oriented research efforts should not be construed as lying at separate ends of a continuum. Rather, he argues, the two agendas should be considered orthogonal continua in their own rights, with the best research lying in what he called ‘Pasteur’s quad- rant’, to reflect the great strides Louis Pasteur made in advancing fundamental knowledge about bacteriology, while simultaneously having practical, real-world, impact in the wine and silk industries, and of course, medicine (Figure 25.1).



연구 설계

Research designs


이 소개에서 보았듯이, 각각의 전통은 다른 목표를 가지고 있으며, 하나의 디자인 조건은 다른 것을 배제 할 수 있습니다. 우리가 나중에 자세히 설명 할 하나의 예로서 상관 연구는 관계를 보기 위해 개인 간 차이가 필요하지만 실험 연구는 치료 효과를 감지하기 위해 개별적인 차이를 없애는 것이 최선이다. 다른 차이점이 있습니다. 실험적 연구는 전향적이지만, 상관 연구는 기존 데이터베이스에서 수행되는 경우가 많습니다. 기존 데이터를 사용하는 것에 대해서, 연구 질문이 기존 자료에서 유도되기 때문에, 새로운 이해를 발견하는데 별로 도움이 안된다고 생각할 수도 있다. 주목해야 할 점은, 평범한prosaic 질문은 어떤 연구 접근법에 독점적이지 않으며, 반대로 어떤 가장 흥미로운 연구들은 거대 기관 데이터베이스의 후향적 분석에서 발생했다는 것은 확실하다. (14,15)


As can be seen from this introduction alone, each tradi- tion has different aims, and the design conditions necessary for one may be exclusionary of another. As one example, which we will elaborate on later, correlational research requires individual variation in order to see relationships, while experimental research does its best to eliminate indi- vidual differences in order to detect treatment effects. There are other differences: experimental research is almost by definition prospective, whereas correlational research is often conducted on existing databases. Use of existing data, while often necessary, can encourage an attitude where the questions are driven by the available data, rather than the reverse, adding little in the way of advancing understand- ing. That danger noted, it is certainly true that prosaic questions are not proprietary to any one research approach, and conversely, some of the most interesting research has arisen from retrospective analysis of large institutional databases.(14,15)


실험의 전통

The experimental tradition


우리가 앞서 논의한 것처럼 (모든 것이 그렇진 않지만) 과학의 중심 인 발견 행위는 종종 사물 (변수) 간의 인과 관계를 규명하는데 있다. 실험적인 전통은 이 아젠다를 대표합니다.

The act of discovery, which is central to science as we dis- cussed earlier, is often, although not entirely, directed at identifying causal relationships among things (variables). The experimental tradition exemplifies this agenda.


다음과 같은 명제가 이를 잘 보여준다.

Statements like: 


• P32 핵에 의한 중성자 흡수는 안정성을 감소시켜 방사성으로 만들고 β 입자의 방출로 S32를 감쇠시킨다

•  the absorption of a neutron by the P32 nucleus decreases its  stability,  making  it  radioactive  and  leading  to  decayto S32 by emission of a β particle 


•식이 요법에서 과량의 염화나트륨이 고혈압을 유발하여 뇌졸중의 위험이 증가합니다

•  excess sodium chloride in the diet leads to hypertension that results in increased risk of stroke 


• 일과성 허혈성 발작 환자에게 주어진 반나절 영양 워크샵은 제한된 소금식이로 인한 순응도를 증가 시켰습니다

•  a  half-day  nutrition  workshop  given  to  patients  with transient ischaemic attacks increased compliance with a restricted salt diet 


그러나 이 모든 진술은 종속 변수에 변화를 일으키는 독립 변수 인 원인을 암시하지만 '원인'이라는 단어는 언급하지 않았습니다. 더욱이, 원인의 의미는 위에서 아래로 진행할 때와 매우 다르며 추론의 유효한 테스트를 확실히하기 위해 수행해야하는 단계가 이에 따라 점점 더 복잡해집니다. 중성자의 경우에는 모호성이 없다. 그러나 두 번째 성명서에는 훨씬 더 많은 불확실성이 있습니다. 최종 인과 관계 진술은 더욱 모호합니다.

...exemplify the causal goal of the experimenter. Yet while all these  statements  imply  causation  –  an  independent  varia-ble  that  ‘causes’  a  change  in  a  dependent  variable  –  none mentioned the word ‘cause’. Further, the meaning of causa-tion is very different as we proceed from top to bottom, and the steps one must take to ensure a valid test of the infer-ence are correspondingly more and more complex. For the neutron, there is no ambiguity. However, there is much more uncertainty in the second statement. The final causal statement is even more vague.


물론 교육 연구의 대부분은 첫 번째 사례보다는 최종 사례와 닮았습니다. 이것은 교육에서의 경험적 연구의 역할에 대한 우리의 이해에 두 가지 중요한 함축적 의미를 갖는다. 

  • 첫째, 물리학과는 대조적으로, 우리가 찾는 관계는 필연적으로 확률 적이며, 인과 관계의 신호는 거의 항상 소음의 바다에서 항해 중입니다. 이런 이유로 우리는 통제 집단, 무작위 화 및 포함 기준과 같은 전략을 강요해야합니다. 

  • 둘째, 관계의 복잡성이 프로세스와 메커니즘을 이해하려는 시도를 방해할 수 있습니다. 실험을 통해 합법적인 인과 관계를 발견한다는 목적에 비추어보자면, 커리큘럼 수준의 중재에 초점을 맞추는 무작위 대조 연구 (RCT)와 같은 실험 방법은 교육에서 과소-사용된 된 것이라기보다 과도하게 사용되는 경우 일 수 있습니다.  (17)

Of course, much of educational research resembles the final rather than the first example. This has two critical implications  for  our  understanding  of  the  role  of  experi-mental research in education. 

  • First, in contrast to physical sciences, the relationships we seek are inevitably probabil-istic,  and  the  signal  of  a  causal  relation  is  almost  alwaysswimming  in  a  sea  of  noise.  It  is  for  this  reason  that  we must impose such strategies as control groups, randomisa-tion  and  inclusion  criteria.  

  • Second,  the  complexity  of  the relationships may well stifle any serious attempt at under-standing  processes  and  mechanisms.  To  the  extent  that experiments  are  directed  at,  and  useful  for,  discovering lawful  causal  relationships,  it  may  well  be  the  case  that experimental  methods  like  randomised  controlled  trials (RCTs), which tend to focus on curriculum-level interven-tions,  are  over-  rather  than  under-used  in  education.(17) 






연구 설계

Study designs


실험적 접근법의 본질은 비교이다.

The essence of the experimental approach is a compari- son


한 그룹 : 사전 테스트 - 사후 테스트 및 사후 테스트

One group: Pre-test–post-test and post-test only



의학 교육에 대한 최근의 리뷰는 단일 그룹 사전 테스트 - 사후 테스트 디자인이 가장 일반적으로보고 된 실험 방법론 (105 개의 연구 중 32 %)과 단일 그룹의 사후 테스트 디자인 (26 %)으로 이어지는 것을 보여주었습니다. (8) 이것이 왜 그런지 쉽게 알 수 있습니다. 이러한 디자인은 진행중인 커리큘럼이나 과정 변경에 쉽게 통합 될 수 있습니다. 수업을받는 학생들에게 무언가를 가르치고 시작과 끝에서 측정해야합니다. 이와 대조적으로 통제 집단과의 비교는 시험 자원 봉사를 할 것이지만 가짜 개입만을 받거나 아무런 통제도받지 못하는 대조 집단의 확인이 필요하다. 유감스럽게도 캠벨 (Campbell)과 스탠리 (Stanley)의 '사전 실험 (pre-experimental)'이라는 라벨이 붙은 하나의 그룹 디자인은 과학적 가치가 매우 제한적이라고 지적한다. 문제는 무수합니다. 논리적으로, 처음부터 끝까지 관측 된 변화가 성숙, 공동 개입 또는 그 밖의 그럴듯한 설명과 같은 경쟁 가설과는 대조적으로 중재에 귀속 될 수는 없습니다.

A recent review in medical education showed that a single- group pre-test–post-test design was the most commonly reported experimental methodology (32% of 105 studies) followed by a one-group post-test-only design (26%).(8) It is easy to see why this is the case. These designs can easily be incorporated into an ongoing curriculum or course change. All one needs to do is teach something to students taking the course and measure them at the beginning and the end. By contrast, comparisons with a control group require identification of a comparable control group of par- ticipants who will volunteer to be tested but will only receive a sham intervention or none at all. Regrettably, one- group designs, labelled ‘pre-experimental’ by Campbell and Stanley,(20) have very limited scientific value. The problems are myriad. Logically, there is no way that what- ever changes are observed from beginning to end can be ascribed to the intervention as opposed to competing hypotheses such as maturation, co-intervention or any number of other plausible explanations.


또한, 논리적 인 결함이 편협한 것처럼 보일 수 있지만,보다 근본적인 문제가 있습니다. 개입 전과 후에 성과 변화가 나타나면 비교는 제로 변화에 대한 것입니다.

Further, while the logical flaws may appear parochial, there is a more fundamental educational problem. If one shows a change in performance before and after an inter- vention, the comparison is against zero change,


결국, 학생들이 과정 후에 어떤 것을 배웠다는 시연은 과목의 특정 측면의 기여에 대해 아무것도 밝히지 않습니다.

In the end, a demonstration that students learnt something after a course reveals nothing about the contri- bution of any specific aspect of the course.



두 그룹 : 무작위 대조 연구 및 코호트 연구

Two groups: Randomised controlled trials and cohort studies


무작위 화는 시작시의 동등함을 보장하기위한 것입니다. 중재의 표준화는 해석을 용이하게한다. 맹검blind은 완전한 후속 조치처럼 편견을 피할 수 있습니다. 이러한 방식으로, 차이가 관찰된다면, 확률적 기회가 bias를 미치는 영향을 줄여서 개입에 의한 영향을 분명히 밝혀 질 수있다.

Randomisation is intended to ensure equivalence at inception; standardisation of inter- ventions facilitates interpretation; blinding avoids bias as does complete follow-up, and so on. In this manner, if a difference is observed, it can unequivocally be attributed to the intervention alone short of the omnipresent influence of chance.


박스 25.3의 기준은 이해하기 쉽지만 실천하기가 훨씬 어렵다.

The criteria in Box 25.3 are easy to understand but much more difficult to put into practice.






무작위 화, 준 무작위 화 및 손상되지 않은 그룹

Randomisation, quasi-randomisation and intact groups


실험적 접근법의 한 가지 방법론적인 사인은 무작위 화를 사용하는 그룹에의 무작위 할당이다. 그러나 무작위 배정은 때때로 어렵습니다.

One methodological sine qua non of the experimental approach is randomisation, assignment to groups using a random process. But randomisation is difficult to achieve at times



우리는 무작위화가 (목적을 위한) 수단이라는 것을 잊어 버리곤 한다. 학생들이 궁극적 인 성능에 영향을 미칠 가능성이 거의없는 튜토리얼이나 병원 로테이션을 선택하면 '준 무작위 화'라고 불리는 것이 좋을 것입니다.

We forget that randomisation is a means to an end; if students select a tutorial or a hospital rotation in some manner that is highly unlikely to have an impact on their ultimate performance, what we might call ‘quasi- randomisation’, that may well be good enough.



Lipsey와 Wilson (24)은 교육 및 심리학 적 개입에 대한 319 건의 체계적인 검토를 분석하여 다음과 같은 결과를 보여 주었다 : 

      • (a) 평균 효과 크기 0.45 (임상 개입의 효과 크기는 훨씬 더 작다; 심근 경색 예방에서 아스피린에 대한 한 연구는 계산 된 효과 크기 0.02) (25) 

      • (b) 무작위 화가 효과 크기에 영향을 미치지 않는다. 효과는 무작위 화가 발생했는지 여부에 관계없이 평균 (평균)이었다. 이러한 상황에서 '유사 무작위 화'의 잠재적 편향은 무시할 수 있습니다.

Lipsey and Wilson(24) analysed 319 systematic reviews of educational and psychological interventions and showed: (a) an average effect size of 0.45 (effect sizes of clinical interventions are much smaller; one study of aspirin in preventing myocardial infarction had a computed effect size of 0.02)(25) and (b) no influence of randomisation on effect size; the effects were of equal mag- nitude (on average) whether randomisation took place or not. Under such circumstances, the potential bias from ‘quasi-randomisation’ is negligible.



이러한 상황을 다루기위한 무작위 배정을 '클러스터 무작위 화'라고 부릅니다. 여기서는 클러스터(예 : 클래스)가 하나의 치료 또는 다른 치료에 할당됩니다.

A variant of randomisation to deal with this situation is called ‘cluster randomisation’ – where clusters (e.g. classes) are assigned to one treatment or another.


다른 한편으로, 많은 연구가 그대로의 그룹을 사용합니다 - 역학자들이 코호트 연구라고 부르는 집단으로 전환시킵니다 (나중에 논의 할 것입니다). 한 예로, 많은 연구에서 PBL 대 강의 중심의 커리큘럼을 살펴 보았습니다.

On the other hand, many studies use intact groups – turning them into what epidemiologists would call cohort studies (which we will discuss later). As one example, many studies have looked at PBL versus lecture-based curricula.


차이점을 고려할 때, 입학 기준에서 수업료에 이르기까지 다양한 학교가 다르므로 학교 간 비교는 신중하게 검토해야합니다. 두 트랙에서 서로 다른 기준을 사용하여 학생을 선택했거나 한 트랙이나 다른 트랙을 스스로 선택할 수도 있지만 학교 내 비교가 더 좋을 수 있습니다.

In considering any differences that emerge, between-school comparisons must be viewed with caution, because differ- ent schools differ on myriad variables, from the admissions criteria to the cost of tuition. Within-school comparisons may be better, although often students were selected using different criteria in the two tracks or may have self-selected one track or another.


Allocation에 대한 결론은 조건부 결론입니다. 어떤 경우에는 무작위 할당이 동등한 것으로 간주 될 가능성이 높습니다. 다른 경우에서는 심각한 혼란을 야기 할 수 있습니다.

The conclusion about allocation is a conditional one. In some circumstances there is a good likelihood that non- random assignment can be viewed as equivalent. In others, this may lead to serious confounding.




위약 또는 일반적인 치료

Placebo or usual care


위약이나 usual care에 대한 비교는 다른 방법론적 기준이 얼마나 잘 수행되었는지에 관계없이 그 가치가 제한적일 수 있습니다. 마찬가지로, 하나는 추가 리소스에 대한 액세스 권한이 있고 다른 하나는 없는 경우 A+B와 A를 비교하는 것과 같고, 이것은 '치료 없음'과 비교하는 것과 같다.

Such comparisons may be of limited value, regardless of how well other methodological criteria are accomplished. Similarly, comparing two groups where one had access to additional resources and the other did not amounts to comparing (A + B) to A; again it amounts to a ‘no treatment’ comparison.


총 교육 시간, 교육의 질 또는 다른 혼란을 표준화 할 수있는 두 가지 실험적 개입을 비교하는 것이 훨씬 유익합니다. 이 전략이 어떻게 작동하는지에 대한 훌륭한 사례 중 하나 인 Cook (30)은 e- 러닝에 관한 많은 연구를 논의하고 매체 내에서 (예 : 연구의 두 가지 무기 모두 컴퓨터 사용) 연구를 주장하여 교육학 적 변수 체계적으로 조작 (즉, 제어) 될 수 있으며 특정 매체는 confounded하지 않습니다.

It is far more informative to compare two experimental interventions where it is possible to standardise for total time of instruction, quality of instruction or other con- founders. As one excellent example of how this strategy would work, Cook(30) has discussed the many studies of e-learning and argued for studies that make comparisons within medium (e.g. both arms of the study use the com- puter) so that pedagogical variables can be systematically manipulated (i.e. controlled) and the specific medium is not confounded.


맹검

Blinding


앞서 말했듯이, 좋은 RCT에 대한 한 가지 기준은 모든 참가자 - 교사, 학생 및 연구원 -은 누가 어떤 그룹에 속해 있는지 'blind'되어있다는 것입니다.

As we said before, one criterion of a good RCT is that all participants – teachers, students and researchers – are ‘blind’ as to who is in which group.


연구의 타당성을 보장하기 위해서는 불가피한 unblinding에 대해 calculated guess를 해야합니다. 그렇게하지 않으면 잘못된 해석으로 이어질 수 있습니다. 한 예로, 북미의 모든 의대생은 분명한 이유로 면허 시험에 합격 할 동기가 매우 높습니다. 따라서 면허 시험에 대한 학생의 성취도가 커리큘럼과 관련이없는 많은 수천 시간의 연구 활동을 반영하기 때문에 PBL 커리큘럼을 평가하기위한 기준으로 면허 시험을 사용하는 것은 거의 의미가 없습니다.

To ensure the validity of the study we must make some  calculated  guesses  about  the  effect  of  the  inevitable unblinding.  Failure  to  do  so  may  lead  to  false  interpreta-tion. As one example, all medical students in North America are highly motivated to pass the licensing examination, for obvious reasons. Consequently, it makes little sense, in our view, to use a licensing examination as a criterion to evalu-ate a PBL curriculum because student performance on thelicensing  examination  is  likely  to  reflect  many  hours  of study  activity  unrelated  to  the  curriculum. 




사전 테스트의 위험

The perils of pre-tests


RCT의 한 가지 변종은 2 그룹, 사전 테스트 후 사후 테스트 디자인입니다. 사전 테스트 수행하여 baseline의 차이를 수정하는 이유는 논리적이지 못하나, 사전 테스트의 잠재적 부작용은 종종 인식되지 않습니다.

One variant on the RCT is a two-group, pre-test–post-test design. The usual reason for considering a pre-test, to correct for baseline differences, turns out not to be logically defensible, and the potential side effects of a pre-test often go unrecognised.



사전 테스트는 하나의 해석을 고려해야하는 기본 차이가 있는지 여부를 식별하는 데 유용한 역할을 할 수 있습니다. 그러나 이것이 비 - 무작위 할당의 결과라면 사전 테스트 수정의 양은 그러한 차이를 제어 할 수 없습니다

Pre-tests may serve a useful role in identifying whether or not there are baseline differences that should factor into one’s interpretation; however, if this is a consequence of non-random allocation, no amount of pre-test correction can control for such differences


교육에서 사전 테스트는 한 가지 더 심각한 책임이 있습니다. 사전 테스트는 학생들에게 최종 시험에 무엇이 나올지를 알려주는 것과 마찬가지다.

In education, pre-tests have one further serious liability. There is no better way to inform students about what the final test will look like than to give them a parallel pre-test.


사전 시험과 사후 시험에 똑같은 시험을 사용할 경우 이러한 우려는 더 명백해진다. 이것은 시험본 내용이 특히 기억에 남는다는 것을 암시한다. (향상된 학습 또는 시험 효과).

Using exactly the same test, both pre- and post-intervention simply magnifies the concern, as highlighted by Larsen et al.’s findings,(33) which suggest that the material one is tested on becomes particularly memorable (a phenomenon known as test-enhanced learning or testing effects).



이 문제를 명시 적으로 인식하는 하나의 솔루션을 솔로몬 4 그룹 디자인이라고합니다. 이 디자인에는 네 개의 그룹이 있습니다.

One solution that explicitly recognises this issue is called the Solomon Four Group Design. In this design there are four groups:




• 사전 테스트, 개입, 사후 테스트

• 사전 테스트 - 사후 테스트

• 중재 - 사후 테스트

• 사후 테스트.


• pre-test, intervention, post-test 

• pre-test–post-test 

• intervention–post-test 

• post-test. 



이론적으로는 사전 테스트의 효과를 중재 자체에서 해독하는 것이 가능합니다.

It is then theoretically possible to disentangle the effect of pre-test from the intervention itself.




결과 : 자체 평가 대 성과 중심, 단기 대 장기

Outcomes: Self-assessed versus performance-based, and short term versus long term


적절한 결과의 선택은 아마도 연구 설계에서 가장 어려운 부분 일 것입니다. 그것은 필연적으로 이상적인 세계에서 평가되는 것과 시간, 돈 및 수용 가능성의 피할 수없는 제약으로 합리적으로 평가 될 수있는 것 사이의 타협을 나타냅니다. 더욱이, 단순한 사실은 교육에 대한 관심의 결과 (광범위하게 채택 된 CanMEDS 역할과 같은)는 절대 객관적인 실체가 아니라 이론적 인 구조라는 사실이다 .34)

The choice of the appropriate outcome is perhaps the most difficult part of study design. It almost inevitably repre- sents a compromise between what would be assessed in an ideal world and what can reasonably be assessed with the inevitable constraints of time, money, and acceptability. Moreover, the simple fact is that many outcomes of interest in education (like the CanMEDS roles that have been broadly adopted) are theoretical constructs rather than absolute objective entities.(34)



Gruppen (39)은 교육적 치료와 환자 결과 사이에 개입 변수가 너무 많아서 어떠한 교육 개입도 감지가능한 차이를 만들어내지 않을 것이라는 근본적인 이유 때문에 그러한 탐구가 불충분하다는 것을 발견했다.

Gruppen(39) that such a quest is ill-advised for the more fundamental reason that there are so many intervening variables between educational treatment and patient outcome that it is unlikely any educational intervention will lead to detectable differences.


그러나 이론 기반의 프로그램 연구에 대한 철학적 약속에 부합하는 즉각적인 조치를 모색해야하는 또 다른 이유가 있습니다. 예를 들어 최종 시험이나 면허 시험에는 약간의 실질적인 가치가있을 수 있지만, 개입으로 인해 성과가 조금씩 증가한다는 사실을 입증하기까지 너무 많은 교란변수가 있을 수 있으므로 결과와 개입 간의 인과 관계가 밝혀지지 않을 수 있습니다. 각 단계의 개입이 proximal한 결과에 최대 효과를 미치고, 체인이 길어질수록 영향이 인과관계가 작아질 것으로 생각해야 한다.

There is, however, another reason to seek more immedi- ate measures, which aligns with the philosophical commit- ment to theory-based, programmatic research. While demonstrating that an intervention leads to a (small) incre- ment in performance in, say, a final exam or a licensing examination may be of some practical value, these out- comes are subject to so many confounders that they are unlikely to reveal a cause–effect relationship with the inter- vention. It is helpful to think of a causal chain where an intervention at each level will have maximal effect on prox- imal outcomes, and less impact as the chain lengthens.


예를 들어, 의대 1 학년의 지식 수준을 향상시키기위한 개입을 보여줄 수 있고, 1 학년 실적이 임상실습 수행 능력을 예측할 수있는 것으로 밝혀지며, 임상실습 수행 능력이 국가 면허 시험에서받은 점수와 관련이있는 것으로 나타날 것이다.

For example, if an interven- tion can be shown to improve knowledge levels in the first year of medical school and first-year performance is shown to be predictive of clerkship performance, clerkship per- formance is found to relate to scores received on a national licensing exam, and so on,


결과 측정을 결정할 때 고려해야 할 두 번째 문제는 출처source이다. 학습자가 완성한 만족도 척도는 편리적으로 관리의 용이성 때문에 프로그램 효과 측정 수단으로 보편적으로 사용됩니다. 그러나 과정을 수강하기 위해 시간과 돈을 소비 한 사람이 아무 것도 배우지 못하고 완전 쓰레기였다고 생각할리는 만무하다 (사실 일부 고사양 코스가 정확히 그러함에도 불구하고). 교육에 대한 만족이 수행능력 향상과 약간의 관계가 있지만, 학생이 자신의 점수를 안다면 이것은 닭이 먼저냐 달걀이 먼저냐의 문제일 수있다. 더 나쁜 것은 스스로 보고 한 역량의 판단은 관찰 된 역량과 관계가 매우 작다는 것이 반복적으로 드러났다 (44-46)

A second issue to consider when deciding on outcome measures is the source. Satisfaction scales, completed by learners, are ubiquitously used as measures of programme effectiveness, probably because of their ease of administra-tion. However, it is difficult to imagine how someone who has spent the time and money to take a course would per-ceive that they had learnt nothing and it was all a waste –even  though  some  highly  touted  courses  are  exactly that.(42) Satisfaction with teaching is moderately related to performance gains;(43) however, this may be a chicken–egg phenomenon  as  the  strongest  relations  result  when  stu-dents  know  their  scores.  Worse  still,  self-reported  judge-ments of competence have been shown repeatedly to have minimal  relationship  with  observed  competence,(44–46) 


최적의 선택은 한편으로는 개입 효과에 민감하고 인과 적 추론을 허용하기 위해 시간과 맥락에서 충분히 가깝지만 어떤 절대적인 의미에서 타당하고 중요한 결과여야 한다. 이 후자의 포인트는 발생할 수있는 변화를 나타낼 가능성이있는 결과를 보도록하기 위해 신중하게 고려하고, 상담하고, 파일럿 테스트를해야합니다. 다시 말하지만, 개입이 정동, 행동, 인지(결과의 ABC)에 영향을 미칠 가능성이 있는지를 판단하는 데 이론과 경험을 모두 사용해야합니다. 마지막으로, 측정치가 신뢰성과 타당성에 대한 입증 된 증거와 함께 정신 분석 학적으로 타당해야 함을 주목하십시오. 우리는 다음 절에서이 주제에 대해 더 많은 것을 말할 것입니다.

The optimal choice must be a measure that, on the one hand, is sufficiently close in time and context to be sensitive to intervention effects and to permit causal inferences, but is sufficiently relevant, in some absolute sense, to be viewed as a valid and important outcome. This latter point requires careful consideration, consultation and pilot testing to ensure that one is looking at outcomes that are likely to represent the changes that could conceivably be occurring. Again, one should use both theory and experience to inter- pret whether the intervention is likely to impact upon measures of affect, behavioural outcomes or cognitive indi- cators of ability (the ABCs of outcomes). Finally, note for now that the measures must be psychometrically sound, with proven evidence of reliability and validity. We will have more to say on this topic in the next section.



3 개 이상의 그룹 및 요인 설계

Three or more groups, and factorial designs



여러 그룹을 고려해야 할 충분한 이유가 있습니다. 가장 큰 단점은 각각의 추가 그룹이 추가 참가자 샘플을 필요로한다는 것입니다. 그러나 '요인 설계'를 사용하는 대안 설계 전략은 표본 크기가 매우 작을 때 여러 가설을 다룰 수 있다는 놀라운 속성이 있습니다.

there is good reason to consider multiple groups. The primary disadvantage is that each additional group requires an additional sample of participants. However, an alternative design strategy, using ‘factorial designs’, has the remarkable property that one can address multiple hypotheses with very small penalty in sample size.


이 네 그룹은 2 × 2 테이블 내에있는 것으로 생각할 수 있습니다 (그림 25.2). 이제, 각 그룹에 25 명의 학생이 있다고 가정합니다. 데이터는 양방향 분산 분석이 가능하다 (two-way ANOVA)

These four groups can be thought of as lying within a 2 × 2 table (Figure 25.2). Now, suppose that 25 students are in each group. The data would be analysed with a two-way ANOVA,


또한 단일 연구 조사에서 두 변수를 모두 포함하지 않으면 상호 작용을 평가할 수 없는데, 상호 작용은 종종 가장 흥미로운 결과가있는 곳입니다.

Further, one cannot assess an interaction without includ- ing both variables in a single research study, and the inter- action is often where the most interesting findings lie.





샘플 및 효과 크기

Sample and effect sizes



이전 절에서 다 요인 설계의 가치에 대해 논하자면, 부분적으로 표본 크기면에서 매우 작은 벌금으로 정보를 얻을 수 있다는 근거에서 부분적으로는 유비쿼터스 문제에 대한 답을 포함시키지 말아야 할 것이다. '얼마나 많은 사람들이 필요합니까?' 물론 대답은 '상황마다 다르다'는 질문은 보통 유비쿼터스입니다.

Given that the previous section argued for the value of multifactorial designs, in part on the basis that one can get more information with very small penalty in terms of sample size, it would be remiss of us not to include an answer to the ubiquitous question of ‘How many people do I need?’ Of course, questions are usually ubiquitous when the answer is ‘it depends’,


필요한 표본 크기를 결정할 때 고려해야 할 두 가지 주요 쟁점이 있습니다. 첫 번째는 통계에 관한 것이며 마지막 절에서 언급 한 'power'의 개념과 관련됩니다.

There are two central issues to take into account in deter- mining the required sample size. The first is statistical and is related to the concept of ‘power’ alluded to in the last section.


'p = 0.05'의 표준은 확률로 인해 관찰 된 차이가 5 % 미만이 될 가능성을 의미하므로 무작위 적 변화가 아니라 개입이 그룹 간의 차이를 가져 오는 확률은 좋다. 확률을 기반으로하기 때문에 결론은 틀릴 수도 있다. 차이가 없는데도 차이가 있다고 잘못 판단 할 수 있습니다. 'power'은 그 반대에 대한 것이다. 즉, 개입의 근본적인 효과가 있을 때 차이가 없다고 결론짓는 것이다. 이것은 연구가 교육적으로 중요한 영향을 탐지하기에 충분히 큰 표본을 가질 확률입니다. 표본 크기에 대한 구체적인 계산은이 장의 범위를 벗어나는데, 수행해야하는 통계적 테스트에 따라 수식이 다르기 때문이다. 하지만 중요한 것은, 어떤 경우에도 표본 크기 계산은 difference가 얼마나 클지, 그리고 얼마나 표본 사이에 variability가 있을지에 따라서 달라진다는 것이다.

The standard of ‘p = 0.05’ means that the likelihoodthat  an  observed  difference  arose  due  to  chance  is  less  than  5%,  so  the odds are good that the intervention, and not random vari-ation,  resulted  in  the  differences  between  the  groups. Because it is based on probabilities, the conclusion is falli-ble  –  one  can  falsely  conclude  that  there  is  a  difference when there is none. ‘Power’ reflects the opposite concern; concluding that no difference exists when in fact there is an underlying effect ofthe intervention. It is the probability that a study has a large enough sample to detect an educationally important effect. Specific calculations for sample size are beyond the scope of this chapter as the formulae differ depending on the statisti-cal test one needs to perform, but it should be noted that in all cases sample size calculations are dependent on predic-tions of how large a difference and how much variability in the  sample  one  would  expect.  


예측은 이용 가능한 최선의 정보를 기반으로해야하지만 필연적으로 계산은 어느 정도 추측이 들어갈 수 밖에 없다. 그러나 통계적으로 유의미한 차이를 발견 할 수 있다면, 연구에 의해 sufficiently powered 라고 한다(즉, 충분한 표본 크기를 가졌다). 표본의 대표성이나 더 표본이 커질 경우 그 효과가 사라질 지 여부에 대한 논쟁이 있을 수있다. 결과의 정확성을 확인하기 위한 복제는 가치있지만, 연구가 충분한 power을 가졌는지 여부는 논쟁의 여지가 없다. power 계산은 연구가 끝나기 전이나 의미가 얻어지지 않을 때만 관련이 있습니다. 그러나 표본 크기 계산과 마찬가지로 이것은 발견하고자하는 차이의 크기를 가정해야합니다. 큰 차이는 작은 차이보다 작은 샘플을 필요로합니다.

The  predictions  should  be based on the best information available, but inevitably the calculations will be guesstimates to some degree. If one is able  to  find  a  statistically  significant  difference,  however, then by definition the study was sufficiently powered (i.e. had a large enough sample size). One could debate the rep-resentativeness of the sample and whether or not the effect might disappear with greater sampling, making replication an  invaluable  strategy  for  confirming  the  accuracy  of  the results, but whether or not the study had sufficient power (i.e. was statistically ‘big enough’) is not debatable. Power calculations are only relevant before a study has ended or if significance was not obtained, but like sample size calcula-tions these require an assumption of the magnitude of dif-ference one wanted to detect. Big differences require smaller samples than small differences. 



고려해야 할 두 번째 쟁점은 앞의 논의에서 암묵적으로 다뤄졌다. 매우 큰 샘플은 작은 샘플에 반대되는 문제를 야기 할 수 있습니다. 개입은 시험이 매우 큰 표본 크기를 가졌기 때문에 실용적인 중요성이 없더라도 통계적으로 유의미한 효과를 나타낼 수 있습니다. 효과 크기가 클수록 그 발견이 '임상적으로 중요하다'고 주장하는 것이 더 쉬워집니다. 관례에 따라, 0.2, 0.5 및 0.8의 효과 크기 (즉, 표준 편차의 20 %, 50 % 및 80 %에 해당하는 차이)는 작고, 중간 및 큰 것으로 간주됩니다 .49)

The second issue to consider is implicit in the preceding discussion. Very large samples can yield the opposite problem to small samples. An intervention can have a sta- tistically significant effect even if it is of no practical impor- tance, simply because the study had a very large sample size. The larger the effect size, the easier it is to argue that the findings are ‘clinically important’. By con- vention, effect sizes of 0.2, 0.5 and 0.8 (i.e. differences that amount to 20%, 50% and 80% of the standard deviation) are considered small, medium and large.(49)





요약

Summary


많은 변수와 공변량을 포함하는 커리큘럼 수준 중재에서 (유의미한 추론은) 거의 발생하지 않는다. 따라서 active ingredient만을 분리해내는 일련의 소규모 실험을 설계하여 학습을 위해 어떤 요소가 중요한지에 대한 지식을 구축하는 것이 더 유익합니다. 그러나 쉽게 조작 할 수없는 자연적으로 발생하는 변수 간의 관계를 테스트하는 데 관심이있는 경우 다음 절에서 설명하는 것처럼 역학 또는 상관 관계에서 추출한 방법론이 더 적절할 수 있습니다.


But such inferences rarely arise from curriculum-level interventions, which contain many variables and covari- ates. It is often more informative to design a series of small- scale experiments that tease apart the active ingredients, thus building knowledge of which elements are critical for learning. However, when one is interested in testing the relationship between naturally occurring variables that cannot easily be manipulated, then methodologies drawn from the epidemiological or correlational traditions may be more appropriate, as discussed in the following sections.



역학적 전통

The epidemiological tradition



우리는 이미 RCT에 대해 논의했으며, 그 설계는 박스 25.4에 나와있다. 응답자는 행 (즉, 약물 또는 위약 그룹)으로 무작위 추출되고 결과 (열)는 표로 작성됩니다. 코호트 연구는 참여자가 두 그룹으로 무작위 추출되지 않는다는 점을 제외하고는 동일하게 보입니다. 실험자가 통제 할 수없는 과정의 결과로 각 코호트의 구성원이 결정되며, 따라서 '개입'이라는 단어보다 '노출'과 같은 용어로 대체되어야합니다.

We have already discussed the RCT, the design of which is shown in Box 25.4. Respondents are randomised to rows (i.e. to the drug or placebo group) and the outcome (the columns) is tabulated. A cohort study looks the same, except that participants are not randomised to the two groups; rather, they are members of each cohort as a result of pro- cesses beyond the experimenter’s control and, as such, the word ‘intervention’ should be replaced by ‘exposure’ or some other descriptor appropriate to the particular focus of the study.



환자-대조군 연구도 같은 방법으로 설명 할 수 있지만 할당 방법은 반대 방향으로 진행됩니다. 사례는 결과에 따라 선택됩니다. 질병에 걸렸거나 검사를 통과하지 못했고 그 결과가없는 사람이 대조군을 선택합니다. 이 연구는 사례가 위험 (예 : 흡연 또는 PBL)에 노출 될 가능성이 더 큰지 여부를 판단하기 위해 검토됩니다. 그러므로 사례 대조군 연구는 다음과 같은 예외 사항을 제외하고는 RCT와 동일하게 보입니다.

A case–control study can be illustrated in the same way, but the method of allocation runs in the opposite direction. Cases are selected by the outcome – they had the disease, or they failed the examination – and controls are selected by who did not have that outcome. The study then looks back to determine whether the cases were more likely to be exposed to some risk (e.g. smoking or PBL ). A case–control study, therefore, looks the same as the RCT with the excep- tions that:



• 행은 위험 요인으로 분류됩니다 (현재 / 부재)

• the rows are better labelled as risk factors (present/ absent)


• 연구자가 열을 가로 지르는 다양한 위험 요소 비율을 찾는 것처럼 연구대상자는 행이 아닌 열에 지정됩니다.

• subjects are assigned to the columns rather than by the rows as the researcher looks for different rates of risk factor across the columns.







요약

Summary


아마도 아이러니하게도이 계층 구조에서 가장 적합한 연구 설계는 환자-대조군일 것입니다. 코호트 연구 나 RCT와 유사한 연구의 예가 많이 있으며, 새로운 라벨을 붙이기 위해 특별히 도움이되지는 않습니다. 그러나 환자 - 대조군 연구는 결과가 임상 의학에서의 적용과 유사한 고유 한 상황에서 유용한데, 예컨대 결과가 범주화되어 있거나(징계 조치 예 / 아니오), 유병률이 낮거나, 발생까지의 시간 지연은 긴 상황이 여기에 속한다.. 일반적으로 향적이기 때문에 환자 - 대조군 연구는 교육적 중재와 환자 결과를 연결시키는 것에 대한 유일한 응답이거나 적어도 가장 효율적인 응답 일 수 있습니다. 환자-대조군 연구의 대안들은 너무 크고, 비용이 많이 들고, 너무 비효율적이어서 수익률이 낮다 (Box 25.5). (41)


Perhaps ironically, the most applicable study design from this hierarchy is the last. There are many examples of studies that resemble cohort studies or RCTs, and it is not particularly helpful to single these out with a new label. However, the case–control study is uniquely useful in situ- ations analogous to its application in clinical medicine, where the outcome is categorical (disciplinary action yes/ no), the prevalence of the outcome is low and the time delay until it occurs is long. Because it is usually retrospec- tive, the case–control study may well be the only, or at least the most efficient, response to the concern to link educa- tional interventions to patient outcomes; any alternative is likely to be too large, too costly and too inefficient to show any yield (Box 25.5).(41)





심리측정의 전통

The psychometric tradition


RCT는 의학 교육에서 RCT를 사용하는 연구가 거의없는 것과 관련하여 '최고의'연구 설계로 자주 개최됩니다. 그러한 태도는 우리의 관점에서 놀랍게도 근시안적이다. (17) 현장에서 가장 중요한 질문 및 이슈 중 많은 부분이 RCT로 다루어 질 수 없으며 그렇게되어서는 안된다는 것을 알기 위해서 양적 영역을 떠날 필요는 없으며, 다른 실험적 또는 준 - 실험적 설계도 있다.

RCT is frequently held up as the ‘best’ research design with accompanying consternation regarding how few studies in medical education use an RCT. Such an attitude is, in our view, amazingly myopic.(17) One need not leave the quantitative domain to recognise that many of the most important questions and issues in the field cannot, and should not, be addressed with an RCT or, for that matter, any other experimental or quasi- experimental design.



기본 개념

Basic concepts


정보를 수집하고 의사 결정을 내리기는 쉽지만 그러한 결론이 적절한 조사에 부합하는지 여부를 결정하는 데 훨씬 더 많은 시간이 소요됩니다. 이 진술을 이해하려면 '적절한 조사'를 정의해야합니다. 측정 장비가 유용한 정보를 제공하기 위해서는 신체 상태 (체온계로 측정)와 객관적인 표시 (예 : 자신의 능력에 대한 지각과 같은)를 더 객관적으로 요구하는 것이 필요합니다. 도구가 네 가지 '좋은'측정 값을 충족시키는 지 확인하십시오.

it is easy to collect information and make decisions, but much more is involved in determining whether or not those conclusions stand up to proper scrutiny. To understand this statement it is of course necessary to define ‘proper scrutiny’. For any meas- urement instrument to provide useful information, be it an objective indication of some physical state (as would be measured with thermometers) or a subjective claim about a more ethereal construct (like one’s perceptions of one’s own abilities), it is necessary to ensure that the tool satisfies the four ‘-ities’ of good measurement:



• 타당성

• 수용 가능성

• 신뢰성

• 타당성.


• feasibility 

• acceptability 

• reliability 

• validity.



처음 두 도구는 도구를 사용할 수있는 범위 (실행 가능성)사람들이 사용할 수있는 정도 (수용 가능성)에 대해서만 사용해야한다는 의미로 굳이 설명할 필요가 없습니다.

The first two need no explanation in that it seems fairly straightforward to suggest that a tool should only be used to the extent that it can be used (feasibility) and to the extent that people will use it (acceptability).



우리가 시작하기 전에 면책 조항 : 측정 도구의 정신 측정 학적 특성에 대해 논의 할 것이지만, 어떤 도구와 관련하여 그러한 특성에 대한 상황 별 주장을하는 것은 정확하지 않으므로 간단히 유용한 속기를 위해 간단하게 설명합니다. 즉, 도구의 유용성 (18 장 참조)은 도구가 사용되는 인구 및 상황에 전적으로 근거합니다.

Before we begin, a disclaimer: while we will discuss the psychometric properties of measure- ment instruments, we do so simply for the sake of useful shorthand, as it is inaccurate to make acontextual claims about such properties in relation to any instrument. That is, the utility (see Chapter 18) of an instrument is based entirely on the population and context within which the instrument is to be used.




신뢰도

Reliability


신뢰도 란 측정도구가 개별 관심 대상을 지속적으로 구별하는 정도를 나타내는 통계적 용어입니다.

Reliability is a statistical term indicating the extent to which a measurement instrument consistently differentiates between individual subjects of interest.


전문직의 책무성에 대한 지식을 평가하는 도구를 개발하는 데 관심이 있다면 응답의 다양성을 가져 오는 항목을 생성하는 것이 어렵지 않을 것입니다. 그러나 그 가변성은 여러 가지 요인에 기인 할 수 있습니다. 우리의 희망은 시험 점수가 전문적 책임에 대한 지식과 관련하여 학생간에 진정한 또는 일관된 차이를 반영한다는 것입니다. 그러나 체계적 편향과 무작위적 요인들이 학생들에게 부여 된 점수에 영향을 줄 수 있기 때문에, 일부 variability는 측정 오류로 인한 것입니다.

Were one interested in developing a tool to assess knowledge of professional responsibilities, it would not be hard to generate items that result in variability of responses. That variabil- ity, however, could be attributable to any number of factors. Our hope is that scores on the test reflect true or consist- ent differences between students, with respect to their knowledge of professional responsibilities. Some portion of the variability, however, will be attributable to error of measurement because systematic biases and random forces can be expected to impact on the scores assigned to students.


무한한 수의 sources of error가 있지만, 주된 질문은 variability중 얼만큼이 학생들 간의 실제 차이와 관련된 error에 따른 것이냐는 문제이다. 즉, 테스트를 다시 실시한다면 개인의 점수가 한 시험에서 다음 시험으로 얼마나 일관성이있을 것인가?

While there are an infinite number of sources of error, the primary question is how much of the variability in scores can be attributed to error in relation to actual differences between the students? In other words, if we were to re-administer the test how consistent would individuals’ scores be from one administration to the next?




σ2는 분산을 표현하는 데 사용되는 일반적인 기호이며,

σ2 is the conventional symbol used to express variance,


이 공식은 우리가 신뢰도에 관한 몇 가지 근본적인 요점을 설명하고 심리 측정 적 전통에 대한 연구를 가능하게 해주기 때문에 제시된다 (박스 25.6 참조).

the formula is presented because it enables us to illustrate some fundamental points about reliability and, in turn, research in the psychometric tradition (see Box 25.6).


psychometric 전통 내에서 교육 저널의 독자는 또한 신뢰성의 개념의 가까운 사촌 인 generalisability의 개념을 접하게 될 것입니다. 일반화가능도 이론은 개별 주제에 할당 된 점수가 다른 상황 (다른 평가자, 다른 시간 등)에 할당 된 점수로 일반화되는 정도를 표현하는 방법입니다. (52) 만약 이것이 친숙하게 느껴진다면, 그것은 일반화가능도 이론이 여러 가지 오류 분산 원인을 동시에 고려할 수있는 수학 기반 구조를 제공하는 고전적 테스트 신뢰성 이론의 확장 일 뿐이기 때문이다

Within the psychometric tradition readers of educational journals will also encounter the notion of generalisability, a close cousin of the concept of reliability. Generalisability theory is a way of expressing the extent to which the scores assigned to individual subjects generalise to the scores assigned in another context (with another rater, at another time, etc.).(52) If that sounds familiar, it is because general- isability theory is simply an extension of classic test reliabil- ity theory that provides the mathematical infrastructure to enable multiple sources of error variance to be considered simultaneously.




BOX 25.6 FOCUS ON: Reliability

• 신뢰성은 측정 도구의 고정 된 속성이 아닙니다.

Reliability is not a fixed property of the measurement instrument. If a test of professionalism knowledge, as described above, is designed to provide an assessment of second-year residents, then its reliability (i.e. its ability to consistently differentiate between subjects) must be tested on a sample of second-year residents. To recruit a more heterogeneous sample (e.g. by enrolling first-year undergraduates and practising ethicists) will result in artificial inflation of the numerator, and as a result, artificially inflated estimates of the reliability of the tool. Researchers must make a concerted effort to specify the context within which they want to use their instruments and test by recruiting a sample of respondents representative of those working in that context.


• 도구의 신뢰성을 평가하려면 관심 변수를 반복하여 측정해야합니다.

Repeated measurement across the variables of interest is required to estimate the reliability of a tool. If raters are liable to disagree about the strength of a student’s performance, then multiple raters should be asked to rate the student’s performance. If performance varies across the cases (content specificity), then students should be assessed on multiple cases. Simply administering a test and revealing that the scores are normally distributed tells us absolutely nothing about the extent to which the tool consistently differentiates between subjects because the variation can result from true differences between students or measurement error.


• 개인별 관측치가 많을수록 측정도구의 신뢰성이 높아집니다.

The more observations per individual one is able to average across, the more reliable the instrument will tend to be. The n under the error term represents the number of observations collected (be they from multiple test questions, multiple raters, multiple administrations of the exercise or some other source of error variance). An average over multiple observations provides a better estimate of the amount of the construct held by the individual than any one score because random positive sources can cancel out random negative forces. Of course if a particular source of variance does not contribute error to a particular measurement, averaging across multiple observations collected across that source will have no impact (dividing zero by anything still leaves one with zero). An important aspect of psychometric analysis, therefore, is to determine how many observations one must collect for the total to achieve reasonable levels of reliability – if the answer is too many to be feasible, it suggests that the tool should be modified or abandoned.


• 차이를 보여주지 못하는 도구는 평가에 쓸모가 없습니다.

A tool that does not discriminate is useless for assessment. There may be other aspects of utility (specifically, motivating individuals to engage in desired study behaviour – educational impact) that warrants use of a particular measurement instrument, but generally, claims of utility rely on evidence of reliability and, if everyone receives the same score, from an assessment perspective one may as well assume the result and do something better with one’s time than administer the test.


• 그룹의 평균 점수가 시간이 지남에 따라 (또는 평가자를 거쳐) 변하지 않았다는 주장은 신뢰성의 증거를 제공하지 못합니다.

Claims that the mean score of a group did not change over time (or across raters) provide no evidence of reliability. One would find a stable mean even if the rank ordering of individuals within the sample perfectly reversed from one test administration to the next 표본 내의 개인의 순위 순서가 한 시험에서 다음 시험으로 가면서 완전히 바뀌더라도 평균은 동일할 수 있습니다. (i.e. if there was absolutely no consistency in the scores assigned and, as a result, all variance could be attributed to error). A random number generator can be expected to result in equivalent means on different occasions, but random number generators can hardly claim to provide reliable measures of performance.


• 때로는 타당도이 더 중요하기 때문에 측정의 신뢰도는 어찌되었든 무관하다는 주장이 제기됩니다.

Occasionally, the claim is made that reliability of a measure is irrelevant because validity is more important. Such a statement is simply illogical. One can view reliability as the correlation between a measure and itself (on repeated occasions). One aspect of validity expresses the correlation between a measure and some external (preferably ‘gold’) standard. It is axiomatic that a measure cannot correlate with something better than it correlates with itself. Hence, reliability is not dissociated from validity; instead, it sets an upper limit on possible claims to validity. And, in fact, modern models of psychometrics consider reliability to simply be one aspect of validity.(57) 그러한 진술은 그저 비논리적이다. 신뢰성은 하나의 척도는 척도와 그 자체 (반복되는 경우) 사이의 상관 관계이다. 타당도의 한 측면은 측정 값과 일부 외부 (바람직하게는 '금') 표준 간의 상관 관계이다. 어떤 척도든 자기자신보다 다른 것과 더 높은 상관관계를 보여줄 수 없다는 것은 공리입니다. 따라서 신뢰성은 타당성과 분리되지 않습니다. 대신, 가능한 클레임에 대한 상한을 유효성으로 설정합니다. 그리고 실제로, 현대의 정신 측정 모델은 신뢰성을 단순히 타당도의 한 측면으로 간주합니다. (57)




타당도

Validity


  • 내용타당도는 도구의 항목이 해당 도메인을 넘어서서 적절하게 샘플링하는 정도 (즉, 질문이 충분하고 충분한 지 여부)로 간주됩니다. 

  • 준거 타당도란 그 측정이 동일한 기본 구성의 다른 측정과 잘 연관되는 범위를 지칭한다; 

  • 구인 타당도는 도구가 측정하려고하는 기본 구인의 이해에 기반한 기대와 도구에서 파생 된 점수가 일치하는 정도를 나타냅니다

  • Content validity is considered to be the extent to which the items in a tool adequately sample the domain of interest without extending beyond it (i.e. are the questions suffi- cient and relevant?); 

  • criterion validity refers to the extent to which the measure correlates well with another measure of the same underlying construct; and 

  • construct validity indi- cates the extent to which the scores derived from the instru- ment align with expectations based on understanding of the underlying construct that the tool was intended to measure



실제로 신뢰도는 별도의 개념이라기보다는 타당도의 한 측면 일 뿐이며, 만약 underlying construct의 양이 변할 것으로 예상되지 않는다면, 점수도 변경되어서는 안된다는 주장이 제기되었습니다. (59)

In fact, some have argued that reliability is simply one aspect of validity rather than a separate concept, the argument being that if the amount of underlying construct is not expected to have changed across administrations of the instrument, then the scores should not change either.(59)



즉 Messick이 '결론적 타당성'이라고 부르는 것의 한 측면은 강조 할 가치가있다. (58) 평가는 오랫동안 학생들의 학습 활동에 영향을 미친 것으로 알려져왔다. (60) 결과적으로, 평가 도구를 사용하여 촉진시키고자 하는 학습 활동과 도구에 의해 자극 된 학습 활동 간의 일치를 이끌어 낼 필요가있다. (60)

That said, one aspect of what Messick calls ‘consequential validity’ is worth highlighting.(58) Assessment has long been known to have a steering effect on the learning activities of students.(60) As a result, to ensure the utility of an assessment instrument it is necessary to engender a match between the learning activities one hopes to promote and the learning activities stimulated by the tool.(60)




도구가 신뢰할 수 없다면 타당하지 않을 수 있다는 단순한 이유 때문에, 대부분이 위에서 설명한 신뢰도를 테스트하여 도구의 타당도에 대한 연구를 시작합니다.

Most will start their study of the validity of an instru- ment by testing its reliability as described above, for the simple reason that if a tool is not reliable, it cannot be valid.


그러나 신뢰도만으로는 충분하지 않습니다. 일관되게 측정 할 수있는 것이 측정이 타당하다는 것을 의미하지는 않습니다.

However, reliability is insufficient. Just because some- thing can be measured consistently does not mean that the measurements are valid.



OSCE의 'O'는 객관적인 의미로, 적절한 행동에 대한 점검표를 작성하고 피험자가 수행 한 것을 지적함으로써 성과를 평가할 수 있다는 초기 아이디어를 나타냅니다. 실제로 이러한 검사 목록은 개인의 성과에 대한 신뢰성있는 측정을 견고하게 제공하는 것으로 나타났습니다. 그러나 다양한 연구에서 (능력을 측정하여 알고자 했던) "경험"과는 아무 관계가없는 것으로 나타났습니다. 대조적으로, 전반적인 성과 등급global rating은 경험 수준과 관련이있는 경향이 있는데, 이는 체크리스트가 포괄성의 타당한 척도를 제공 할 수 있지만, 주관적인 판단은 많은 영역에서 임상적 전문성을보다 정확하게 측정 할 수 있음을 의미합니다. (64,65)

The ‘O’ in OSCE stands for objective, to indicate the initial idea that one could evaluate perform- ance by generating a checklist of appropriate behaviours and noting which were undertaken by the examinee. Indeed, such checklists have been shown to robustly provide very reliable measurements of individuals’ per- formance.(63) In various studies, however, they have been seen to bear no relation to experience, an important varia- ble if one wants to make claims about measuring ability. In contrast, global ratings of performance do tend to correlate with experience levels, suggesting that while checklists may provide a valid measure of comprehensiveness, sub- jective judgement provides a more valid measurement of clinical expertise in many domains.(64,65)


타당성을 연구하는 데 사용할 수있는 다양한 방법론에 대해 늘어놓을 수 있습니다.

One could go on ad nauseum about the variety of meth- odologies that can be used to study validity.


법안이 증거의 균형을 유지하면서 의사 결정을 유도하도록 허용되어야하는 정보를 제공한다고 주장하기 때문에 타당성을 테스트하는 것이 중요합니다. 본질적으로 타당성 테스트는 이론 테스트입니다. 긍정적인 결과를 나타내는 각각의 새로운 테스트는 도구의 이론과 타당도를 모두 지지하지만, 부정적인 결과를 나타내는 새로운 테스트는 이론이 잘못되었거나 도구가 구인의 부적절하게 측정하는지 여부를 질문하고 연구해야합니다. 

It is important to test validity because claims that a measure provides information that should be allowed to guide decision-making rest on the balance of evidence. In essence, validity testing is theory testing; each new test that reveals a positive result supports both the theory and the validity of the instrument, but each new test that reveals a negative result should lead one to question (and study) whether the theory is incorrect or the tool provides an inadequate measure of the construct.




요약

Summary


psychometric 전통에서 수행되는 연구의 가장 중요한 주제는 연구자, 교육자, 임상의가 우리의 사고와 의사 결정을 안내하는 데이터가 결론을 도출하는 데 사용할 수 있도록 충분히 신뢰할 수 있도록 노력해야한다는 것입니다. 너무나 자주 사람들의 삶이 변경되기 때문에 이것은 단순히 학문적 인 문제가 아닙니다.

The overarching theme of research undertaken within the psychometric tradition is that researchers, educators, clini- cians, need to strive to be sure that the data that guide our thinking and decision making are sufficiently trustworthy to warrant using them to draw conclusions. This is not simply an academic issue, as too often people’s lives are altered


연구 도구와 평가 전략의 타당성을 보장하는 것은 윤리적으로 필수적이다 .67)

Ensuring the validity of one’s research instruments and assessment strategies is an ethical impera- tive.(67)




상관관계의 전통

The correlational tradition



 Questionnaire  ‘design’  is  addressed  by  Lovato and  Wall  in  Chapter  27,


사람들은 자신의 행동의 원인이나 자신의 성과의 적절성을 정확하게 판단하는데 매우 취약하다는 한계를 항상 알고 있어야한다. (45,46)

one must always be aware of the limitation that people are notoriously bad at accurately judging the cause of their behaviour,(68) or the adequacy of their own performance.(45,46)


점수

Scoring


일반적으로 개별 항목의 응답은 점수로 합산됩니다. 점수를 고려하여 각 항목에 어떤 가중치를 주어야하는지 결정하기 위해 많은 노력이 필요합니다. 실제로 밝혀진 바와 같이, 적어도 1976 년으로 거슬러 올라간 광범위한 문헌은 절대적으로 일관성이 있습니다. 즉, 모든 항목을 단순히 합산 한 동일한 가중치 모델은 다른 대안보다 신뢰할 수 있고 유효합니다. (69)주의 사항이 하나 있습니다. 단순 합계는 항목이 평균과 표준 편차가 유사하다고 가정합니다. 일부 항목이 바이너리 (0 또는 1)이고 일부 항목이 7 점 척도 인 항목을 함께 추가하는 것이 더 이상 적합하지 않습니다. 7 점 척도를 기반으로하는 인터뷰 점수를 100점 만점에 합산한다거나, 전체 크기의 척도로서 킬로그램을 미터 단위의 높이와 합산하는 것과 같다. 개별 항목이 다른 눈금의 경우, 올바른 방법은 눈금을 결합하기 전에 Z 점수 (점수 - 평균) / 표준 편차로 변환하는 것이지만 조합은 여전히 ​​동일한 가중치를 유지해야합니다.


Quite commonly, responses from individual items are to be summed into a score. Much effort is sometimes expended to decide what weight should be given to each item com-prising  the  score.  As  it  turns  out,  an  extensive  literature dating  back  to  at  least  1976  is  absolutely  consistent  –  an equal weighting model, where all items are simply summed together,  is  as  reliable  and  valid  as  any  alternative.(69) There  is  one  cautionary  note:  a  simple  sum  assumes  that the items are similar in means and standard deviations. Itwould be no more appropriate to add together items, some of  which  are  binary  (0  or  1)  and  some  of  which  are  on seven-point  scales,  than  it  would  be  to  add  an  interview score  based  on  seven-point  scales  to  grades  out  of  100,  or for  that  matter,  to  add  weight  in  kilograms  to  height  in metres  as  a  measure  of  overall  size.  When  the  individual items  are  on  different  scales,  the  correct  approach  is  to convert  to  Z  scores  [(score  –  mean)/standard  deviation] before  combining  scales,  but  the  combination  should  still retain equal weights. 



타당화

Validation





분석

Analysis



상관 분석은 변수들 간의 관계에 대한 검색을 기반으로하며, 일반적으로 분석은 모든 변수가 서로 상관 관계를 가지고 시작하고 (거의 모든 경우가 끝나기 시작합니다), 몇 가지 중요한 상관 관계를 중심으로 사후적 이야기를 꾸려나간다. 이 전략의 문제점은 연구자가 'p = 0.05'의 의미를 잊어 버린 것처럼 보인다는 것인데, 실제로 상관 관계가 없다면 우연히이 크기의 관측 된 관계가 발생할 가능성이있다. 즉, 계산 된 20 가지 상관 관계마다 0.05 수준에서 우연히 의미가 있습니다 (실제로는 적어도 하나가 유의미할 가능성이 64.2 %입니다).

The correlational approach is based on a search for relation- ships among variables, and analysis typically begins (and all too often ends) with every variable being correlated with every other, and then post-hoc stories being constructed around the few ‘significant’ correlations. The problem with the strategy is researchers appear to forget the meaning of ‘p = 0.05’ – the likelihood that an observed relationship of this magnitude could have arisen by chance if there was in fact no relationship. In other words, for every 20 correlations that are calculated, one will be significant by chance at the 0.05 level (actually, there is a 64.2% chance that at least one will be significant).


이 '데이터 준설'에 대한 분명한 해결책은 관계가 예상되는지에 대한 실질적인 이론부터 시작하는 것입니다. 최소한 이것은 '산탄 총 (shotgun)'접근법을 사용하는 것보다 특정 상관 관계에주의를 집중시킬 수 있습니다. 또한, 연구자가 여전히 하나 이상의 상관 관계에 관심을 가질 가능성이 있으므로 임계 p 값은 0.05 / n으로 설정해야합니다. 여기서 'n'은 통계 테스트의 총 수입니다 ( 'Bonferroni 보정'). 74)

An obvious solution to this ‘data dredging’ is to begin with a substantive theory about what relationships are expected. At a minimum, this can direct attention to specific correla- tions rather than using a ‘shotgun’ approach. Further, as it is likely that the researcher will still be interested in more than one correlation, the critical p-value should be set at 0.05/n where ‘n’ is the total number of statistical tests – a ‘Bonferroni correction’.(74)


상관 관계보다 더 정교한 접근법은 다중 회귀 분석, 요인 분석 및 구조 방정식 모델링과 같은 다 변수 방법을 포함합니다. 엄밀히 말하면 'multi-variate'이라는 용어는 여러 종속 변수가있는 상황에만 적용되어야합니다. 따라서 다중 회귀는 univariate 절차이며 요인 분석 및 구조 방정식 모델링은 multi0variate입니다. 다중 회귀는 여러 독립 변수로 단일 종속 변수를 예측하는 것을 포함한다.

A more sophisticated approach than correlations involves multivariate methods such as multiple regression, factor analysis and structural equation modelling. Strictly speak- ing, the term ‘multi-variate’ should only apply to a situation with multiple dependent variables. So multiple regression is a univariate procedure, factor analysis and structural equa- tion modelling are multi-variate. Multiple regression involves predicting a single dependent variable with mul- tiple independent variables,


요인 분석은 '요인'이라고 불리는 변수 클러스터 간의 근본적인 연관성을 찾습니다. 확증 적 요인 분석, 계층 적 선형 모델 및 구조 방정식 모델을 포함하는 다 변량 기법의 계열은 더욱 복잡하다. 이 모든 방법에서 연구자는 변수 간의 관계에 대한 이론으로 시작합니다 (예 : 좋은 교사는 학생들의 동기 부여를 증가시켜 성공률과 결합하여 최종 시험 성적을 예측합니다). 서로 다른 원인 모델이 데이터 세트에 적용되고 계산 된 정도가 계산됩니다.

Factor analysis seeks underlying asso- ciations among clusters of variables, which are called ‘factors’. More sophisticated is the family of multi-variate methods, including confirmatory factor analysis, hierarchi- cal linear models and structural equation models. In all these methods, the researcher begins with a theory about the relationship among variables (e.g. good tutors succeed by increasing motivation of students, and this, in combina- tion with their prior achievement, predicts their final exam performance). Different causal models are fitted to the data set and the degree of fit computed.


이러한 접근법에 대한 도전 과제는 다음과 같습니다. 

  • (a) 이러한 모든 방법은 표본 집약적이며 표본 크기는 변수 수의 최소 5-10 배가되어야합니다. 

  • (b) 모델의 복잡성이 증가함에 따라, 이 모델이 데이터에 적합하지만 저 모델은 그렇지 않다는 것이 실제로 무엇을 의미하는지 분명하지 않게된다

  • (c) 어떤 두 연구가 동일한 변수의 조합을 사용하지는 않을 것이기 때문에 인과 관계가 그 기반이되는 자료 집합에 고유하다는 우려가 남아있다.

Challenges for these approaches include: 

  • (a) all of these methods are sample intensive, and the rule of thumb is that the sample size should be at least 5–10 times the number of variables; 

  • (b) as the complexity of the model increases, it becomes less and less clear what it actually means to say that this model fits the data but that model does not; and 

  • (c) because it is unlikely that any two studies will use the same combina- tion of variables, the concern remains that the causal theory, whatever it may be, is unique to the data set on which it is based.


그럼에도 불구하고, 이러한 접근법은 상호 연관성 연구에서 너무나 빈번히 나타나는 수십 개의 상관 계수 중에서 mindless cranking에 대한 상당한 진보를 나타냅니다. 실험 연구 섹션에서 제시된 효과 크기에 대한 논의에서와 마찬가지로, 관련 p- 값이 아닌 상관 계수에 초점을 맞추기 바랍니다. 큰 샘플의 경우 작은 상관 관계 (예 : r = 0.1)도 통계적으로 유의미 할 수 있습니다. 그러나 변동 계수 (r^2)는 r = 0.1은 데이터의 분산의 1 % 만 차지하는 관계를 나타냅니다. 결과적으로 r^2는 항상 상관 관계의 '임상적'중요성을 판단하는 데 사용해야합니다. 마지막 절에서이 문제로 돌아갈 것입니다 (Box 25.7).

Nevertheless, these approaches do represent a consider- able advance over the mindless cranking out of dozens of correlation coefficients that is all too frequently the norm in correlational research. As in the discussion on effect size presented in the experimental studies section, we urge a focus on the correlation coefficient, not the associated p- value. With large samples, even small correlations (e.g. r = 0.1) can be statistically significant. The coefficient of variation (r2), however, reveals that r = 0.1 describes a rela- tionship that accounts for only 1% of the variance in the data. As a result, r2 should always be used to judge the ‘clinical’ importance of a correlation. We will return to this issue in the final section (Box 25.7).



크론바흐와 두 개의 원칙

Cronbach’s ‘two disciplines’



가장 적절한 방법론은 연구자가 해결하고자하는 질문이 무엇이냐에 따라 다르다. 이론 기반 및 프로그램 방식의 연구 활동을 촉진함에있어, 우리는 문제에 대한 삼각 측량을 가능하게하는 다양한 방법을 사용함으로써, 하나의 방법론으로는 도달할 수 없는 기본 관계에 대한보다 풍부한 이해를 개발하도록 권장합니다. 그러나 그 선택은 value-free한 것은 아니다. 리 크론 바흐 (Lee Cronbach)는 1957 년에 출판 된 고전적 논문 (75)에서 '과학적 심리학의 두 분야'라는 기본 이중성을 처음으로 인식했다.

The methodology that is most appro- priate, is dependent on the question the researchers want to  address.  In  promoting  theory-based  and  programmatic research efforts, we advocate using a variety of methods to enable  triangulation  on  a  problem,  thereby  developing  a richer understanding of the underlying relationships than any one methodology would allow. However, the choice isnot quite as value-free as might be imagined. Lee Cronbach first  recognised  a  fundamental  duality  in  a  classic  paper published  in  1957(75)  called  the  ‘The  two  disciplines of scientific psychology’. 



이분법의 본질은 다음과 같습니다. 심리 측정법을 포함한 상관 분석 방법은 개인차에 의존합니다.

The essence of the dichotomy is this: Correlational methods, including psychometrics, are critically dependent on individual differences.


지능 지수 나 전임상 성적과 같은 개별적인 속성과 면허 시험 성과 같은 일부 결과 사이에는 상관 관계가 없을 수도있다. 대조적으로 보충 코스가 표준 입학 시험에서 더 높은 점수를 얻을 수 있는지 알아보기위한 실험을한다면, 이상적으로 학부 성적에 의해 측정 된 능력이 정확히 동일한 학생 집단부터 시작할 것이다. 어떤 학생들은 생물학, 물리학 등에서 매우 능숙하고, 어떤 학생들은 지식이 거의 없다면, 실험군과 대조군 사이에 학생들의 점수가 크게 차이가 날 수 있습니다. 이러한 variability은 결과적으로 치료가 통계적으로 유의하다는 것을 보여주기 위해 고안된 통계 테스트의 분모로 끝납니다 (즉, 데이터에 '노이즈'가 추가 될 것입니다).

between some individual attribute such as intelligence quotient or premedical grades and some outcome such as licensing examination performance, unless some students are high or low on each measure there can be no correla- tion. By contrast, if we were to do an experiment to see whether a supplementary course can help students achieve higher scores on a standardised admissions test, ideally we would like to begin with a cohort of students whose abili- ties, as measured by undergraduate grades, are exactly the same. To the extent that some students are already very good at biology, physics, etc., and others in the course have little knowledge or aptitude, this will lead to large variabil- ity in the scores of students in the experimental and control groups. This variability will, in turn, end up in the denomi- nator of any statistical test designed to show that the treat- ment was statistically significant (i.e. will add ‘noise’ to the data).


  • 실험주의자에게, 사람들 간 차이는 치료 효과를 찾을 수 있는 기회를 희석시키는 것이다

  • 상관주의자에게, 목표는 명시적으로 사람들 간의 차이를 이해하는 것입니다. 따라서 말 그대로 한 사람의 signal은 다른 사람의 noise이다.

To the experimentalist, any variation between people will dilute the chances of finding a treatment effect. To the correlationalist, the goal is explicitly to understand the dif- ferences between people. Thus it is literally the case that one person’s signal is the other’s noise.


이 이분법을 감안할 때, 방법론적으로 어떤 것이 더 우월한지를 따지는 것은 색상이 사용되는 용도와 관계없이 빨간색이 파란색보다 낫다는 증거를 찾는 것과 같다. 목적이 무엇이냐에 따라 한 가지가 다른 것보다 더 좋거나 나쁠 수 있다. 이들은 단지 다를 뿐이다. 이러한 상황은 'RCT는 치료가 효과가 있는지를 알아내는 데에는 최선의 설계이고, 누구에게 치료 효과가 있는지를 찾는 데에는 최악의 설계'라는 최근의 선언에 잘 요약되었습니다.

Given this dichotomy, it makes no more sense to argue which is ‘better’ methodologically than to try to find evi- dence that red is better than blue, irrespective of the use to which the colours are to be put. They are not better or worse, except in relation to what one is trying to achieve; they are just different. The situation was nicely summarised recently by a wag who declared that, ‘Randomised control- led trials are the best design of all to find out if a treatment works, and the worst design to find out who it works for.’









리뷰

Reviews



체계적 문헌고찰과 메타분석

Systematic reviews and meta-analysis




하든 (Harden) 등에 의해 시작된 Best Evidence Medical Education (BEME) 운동의 결과로 의학적 문헌에서 체계적인 검토가 점차 대중화되었다. 어느 정도 그들은 양적 연구에 대한 환원 주의적 접근법을 요약한다. 목표는 그것이 얼마나 잘 작동 하는지를 가장 잘 나타내는 하나의 숫자를 결정하는 것이다.

In part as a consequence of the Best Evidence Medical Education (BEME) movement, initiated by Harden et al.,(76) systematic reviews have become increasingly popular in the medical education literature. To some degree they epit- omise the reductionistic approach to quantitative research – the goal is to determine the one number that best specifies how well ‘it’ works.


체계적인 검토 란 무엇인가? 목표는 특정 질문에 대한 경험적 문헌을 모두 식별하고, (덜 포괄적 인 전략에 비해) 편견이 상대적으로없는 방식으로 특정 개입의 효과 (또는 비 효과)를 가장 잘 추정하기 위해 통계적 방법을 사용하는 것입니다. 

What is a systematic review? The goal is, more or less, to identify all of the empirical literature on a particular ques- tion, and to then use statistical methods to best estimate the effect (or non-effect) of a particular intervention in a way that is relatively free of bias compared with less compre- hensive strategies. There are, therefore, three aspects of ‘systematic’:



그러므로 '체계적'이라는 세 가지 측면이있다.


• 주제와 관련된 모든 문헌을 체계적인 검색.

• 최소한의 품질과 관련성을 달성하는 논문의 하위 집합을 선택하는 체계적인 검토

• 문제의 최선의 추정치에 도달하기 위해 특정 통계 방법을 사용하는 체계적인 요약.

• a systematic search for all the literature relevant to a topic 

•  a systematic review to select the subset of articles achiev-ing at least minimal quality and relevance 

• a systematic summary using specific statistical methods to arrive at the best estimate of the effect in question.



이러한 측면은 똑같이 중요하지만 분리 될 수 있음은 분명합니다. 

  • 첫째, 전자 데이터베이스를 검색하기위한주의 깊은 컴퓨터 알고리즘을 고안하고 수동 검색으로 보완해야합니다. 

  • 주요 연구가 결정되면 방법 론적 엄격함을 보장하기 위해 세부적으로 검토해야하며 종종 각 연구의 품질 평가 점수를 가능하게하는 상세한보고 양식을 사용합니다. 

  • 마지막으로, 각 연구는 일반적으로 그것이 사용 된 각 사례에서 개입의 강도를 나타내는 '효과 크기'를 평가하기 위해 분석됩니다.

It is clear that these aspects, while equally important, are separable. First, careful computer algorithms to search elec- tronic databases must be devised and then supplemented with manual searches. Once the key articles have been located they must be reviewed in detail to ensure methodo- logical rigour, often using a detailed reporting form that enables a quality score for each study. Finally, each study is typically analysed to estimate an ‘effect size’ indicating the strength of the intervention in each instance in which it was used.



메타 분석에서, 이러한 효과 크기는 표본 크기에 의한 가중치를 사용하여 결합되어 전체 (즉, 평균) 효과 크기 및 유의성에 대한 통계적 테스트에 도달합니다. 이 시점에서 두 번째 '체계적'이라는 것이 드러납니다. 모든 개인 효과를 전반적으로 비 편향된 추정치로 체계적으로 평균화합니다. 특정 중재가 특정 결과에 영향을 미치는지 여부를 결정하는 것이 전체적인 요점입니다.

In meta-analyses these effect sizes are then combined, using a weighting by sample size, to arrive at an overall (i.e. average) effect size and a statistical test of significance. It is at this point that the second ‘systematic’ emerges – a systematic statistical averaging of all the individual effects into an overall unbiased estimate. This is the whole point of the exercise: to determine whether a particular interven- tion affected a particular outcome.








체계적 문헌고찰의 문제점

Problems with systematic reviews


근거의 퀄리티

Quality of the evidence


체계적 문헌고찰에서는 충족되지 않은 기준의 수를 기반으로 한 연구의 열악한 품질에 대한 절망감 피할 수 없다. 체계적 문헌고찰에서 다음과 같은 disclaimer를 밝히는 것은 이제는 거의 표준이 되었다. '저자는이 검토에 들어간 연구의 질로 인한 개인적인 손해에 대해 책임을지지 않습니다.'

It seems that an inevitable consequence of the systematic review is a note of despair about the poor quality of the studies, based on the number of criteria that were not ful- filled. It has almost reached the point of there being a stand- ard disclaimer in systematic reviews: ‘The authors take no responsibility for any personal damage resulting from the quality of the studies that went into this review.’



출판 된 논문의 질에 대한 이 같은 비판은 연구가 모든 만족스러운 피어-리뷰를 통과했다는 점을 고려하면 다소 이상하게 보입니다.

This disparaging of the quality of published papers seems a bit strange because, for the most part, the articles had all satisfied peer reviewers.


편집자로서 우리는 몇 개의 방법론적 기준을 통과했느냐를 근거로 논문의 가치를 판단하지 않으며, 실제로 Bordage (82)는 피어 리뷰어도 거의 동일한 것으로 나타났다. OSCE 연구에서 Global rating이 체크리스트보다 우월하다는 것을 발견 한 것처럼, Bordage의 심사 과정에 대한 검토는 논문의 방법론적 구성 요소가 전반적인 가치를 정확히 나타내주지 못함을 시사합니다. 또한 이전에 언급 된 Lipsey와 Wilson (24)의 연구 결과에 따르면 판정된 연구의 질과 치료 효과 사이에는 아무런 관련이 없으며, 무작위 시험이 비-무작위 시험보다 systematic하게 치료 효과가 다르지 않다.

as editors, we rarely judge the worth of a paper by the number of methodologi- cal criteria it fulfilled(80,81) and, indeed, Bordage(82) has shown the same to be the case on the part of peer reviewers. Just as the OSCE literature has found that global judge- ments are superior to checklists, Bordage’s examination of the peer-review process suggests that the methodological components of a paper provide a poor indication of its overall value. Further, a preoccupation with quality might be tempered by the finding of Lipsey and Wilson,(24) men- tioned earlier, that there was no relation between judged study quality and treatment effect, nor did randomised trials yield systematically different treatment effects than non-randomised studies.






성과의 이질성

Heterogeneity of the outcome


효과 크기를 사용하면 동일한 구성의 다양한 측정을 공통 척도에 적용 할 수 있지만, 체계적 문헌고찰은 결과를 examination performance와 같은 하나의 척도로 줄일 수 없다. 대신, '두 개의 연구에서 포트폴리오가 성찰 학습에 기여했다'라는 식으로 보고한다.

While the use of effect sizes enables putting various meas- ures of the same construct on a common metric, it appears that systematic reviews are rarely able to reduce the outcome to one measure such as examination performance. Instead, the review reported findings along the lines of ‘two studies reported that portfolios contributed to reflective learning’.


의심 할 여지없이, BEME 그룹은 의학 교육의 체계적인 검토에 대한 가장 조심스럽고 포괄적 인 접근 방식을 채택했습니다. Issenberg et al. (84)의 고 충실도 시뮬레이션에 대한 첫 번째 리뷰는 "연구 설계, 교육 개입, 결과 측정 및 시간-프레임의 이질성으로 인하여 메타분석을 활용한 자료 합성이 어려웠다"이라고 결론을 내렸다. 그리고나서 저자들은 시뮬레이션을 효과적으로 사용할 수 있는 조건을 설명하였다. 많은 초록에 대해 체계적인 검색을 수행하지만, 결과적으로는 적은 수의 적합한 연구만이 남게 되고, 어떤 정량적 합성이나 메타 분석을 허용하기위한 너무 많은 잠재적 성과와 결합되는 이 접근법은 이러한 검토의 표준이 되었다.

Undoubtedly, the most careful and comprehensive approach to systematic reviews in medical education has been mounted by the BEME group. The first review, of high-fidelity simula- tion, by Issenberg et al.(84) concluded: ‘Heterogeneity of research designs, educational interventions, outcome measures, and time frame precluded data synthesis using meta-analysis.’ The authors then went on to describe the conditions that led to effective use of simulation. This approach, where a system- atic search on many abstracts yields a small number of suitable studies, which in turn are combined with too many potential outcomes to permit any quantitative synthesis or meta-analysis, emerges as the norm for these reviews.




연구의 낮은 수율

Low yield of studies


체계적인 리뷰는 유용한 논문의 수율이 너무 낮기 때문에 엄청난 노동 집약적 일 수 있습니다. BEME 논문에서 나온 예를들 수 있습니다. 초기 공동체 경험에 관한 연구 (85)는 73 개 연구 (6832 개 초록 중)에서 23 개 결과를 분류했으며 정량적 합성은 불가능했습니다. 아마도 '건초 더미에있는 바늘'의 최악의 사례는 10495개의 초록으로 시작하여 12개의 상세한 검토로 끝난 전문 직업 교육 (86)의 종합이었을 것입니다.

Systematic  reviews  can  be  enormously  labour-intensive, primarily  because  the  yield  of  useful  articles  is  so  low.Examples drawn from the BEME monographs can be given. The  study  of  early  community  experience(85)  catalogued 23 outcomes from 73 studies (out of 6832 abstracts) and no quantitative  synthesis  was  possible.  Perhaps  the  worst example of ‘needle in a haystack’ was the synthesis of inter-professional education(86) that began with 10 495 abstracts and ended with 12 worthy of detailed review. 







비판적 문헌고찰

Critical reviews


연구 문제에 대한 초기 논의에서, 우리는 좋은 문헌 검토는 무엇이 잘 확립되어 있는지, 제대로 이해되지 않고 무엇이 이해되어야하는지 등을 밝히면서 문헌의 비판적 종합을 대표한다고 설명했다. 이것이 잘 진행되면 서로 다른 여러 문헌을 모아서 결과적으로 새로운 시각을 제시 할 수 있습니다. 연구 당 하나의 단락으로 요약하여 진정한 합성이 없는 연대기적 'blow-by-blow' 설명으로 끝나서는 안됩니다. 비판적 문헌고찰에 인용 된 문헌은 해당 분야의 모든 관련 문헌을 나타내지 않는다.

In our initial discussion of the research question, we described the characteristics of a good literature review, namely that it represents a critical synthesis of a literature, identifying what is well established, what is only poorly understood and what remains to be understood. It may, when done well, bring together several disparate litera- tures and, as a result, offer a new perspective. It should not end up as a chronological ‘blow-by-blow’ account, with one paragraph per study and no real synthesis. There is no pretence in a critical review that the cited literature repre- sents all the relevant literature in the field,



우리가 아는 바로는 그러한 리뷰에를 어떻게 해야하는지에 관해서는 거의 쓰여진 바가 없다. 이것은 다소 이상한데,이 논문들 중 일부는 시간이 지남에 따라 분야의 '인용 고전'이된다는 것이 거의 의심의 여지가 없기 때문이다.

To our knowledge little is written about how to go about such reviews, which is somewhat strange, as there is little doubt that some of these papers become, over time, the ‘citation classics’ of the field.


 좋은 비판적 리뷰를 구별하는 것은 무엇입니까? 우선, 포괄성 또는 체계성과는 관련이 거의 없다. 대신 인용 된 리뷰는 독특한 시각을 제시하고 주장을 뒷받침 할 수있는 근거를 입증 할 수 있어야 한다. 좁은 질문과 관련된 모든 논문에 대한 문헌의 구석 구석을 샅샅이 뒤지는 대신, 성공적인 비평가는 다양한 문학을 탐구하고 금광을 채취하여 커뮤니티에서 질문을 정의하는 방식을 근본적으로 바꾸어놓는다.

 What distinguishes a good critical review from a poor one? One expects  that  it  has  little  to  do  with  comprehensiveness  or systematicity. Instead, the cited reviews appear to be those that  present  unique  perspectives  and  marshal  evidence convincingly  to  support  the  claims.  Rather  than  scouring the nooks and crannies of the literature for every paper that is relevant to a narrow question, successful critical review-ers explore a variety of literature, mining for gold nuggetsthat  often  alter  the  way  the  community  fundamentally defines the question. 



실제로 교육에 대한 비판적 검토와 체계적인 검토는 종종 ​​비슷한 결론을 낳았다. 부분적으로는 어느 누구도 체계성의 목표 (데이터의 편향을 없애는 것)가 어느 정도는 칭찬받을 만하다는 것을 논쟁하려 들지 않기 때문이다. 종종 체계성은 단지 신뢰성을 위장한 것에 불과하다. 성과의 이질성으로 인해 결과를 체계적으로 결합 할 수 없고 그저 각각의 연구를 독립적으로 묘사할 수 밖에 없다면, 체계적 문헌고찰과 비판적 문헌고찰을 구분하는 유일한 차이는 정보를 검색하는 데 소요되는 시간과 자원의 양일 뿐이다 .

In practice, critical and systematic reviews in education have often led to similar conclusions, in part because, while no one would debate that the goal of systematicity – to eliminate bias in the data one draws on – is laudable, to some extent the mantle of systematicity is just a guise of credibility. If one cannot combine the findings in some sys- tematic way as a result of heterogeneity of outcomes to the point of having to describe each study independently, then the only thing separating systematic reviews from critical narrative reviews is the amount of time and resources spent searching for information.


너무 자주 체계성은 그 자체로 아무 생각 없이 품질이 판단되는 기준으로 적용되곤 하지만, 실제로 학문의 진보는 체계성 그 자체가 아닌 다양한 아이디어의 비판적 종합으로부터 종종 얻어진다. 그러나 체계적 문헌고찰의 모범적인 사례까 여럿 있고, 따라서 체계적인 검토가 유용하지 않다고 암시하려는 것은 아니다. (90,91)

It is to say that too often the claim of systematicity is applied thoughtlessly as a criterion by which quality is judged, when in fact true advances in the field are as often gained from critical syntheses of diverse ideas  rather  than  systematicity  itself.(89)  That  said,  we  in no  way  mean  to  imply  that  systematic  reviews  are  notuseful when done well as there are many exemplary exam-ples in the literature.(90,91) 




비판적 리뷰의 문제점

Problems with critical reviews


저자의 편견

Author bias


비판적 리뷰의 강점 또한 약점입니다. 독창적 인 관점을 뒷받침하기 위해 연구들을 정리할 때, 선택한 논문이 의식적으로 또는 무의식적으로이 주장에 편향 될 수 있다는 모호한 불안감이 있습니다. 저자는 자신의 주장에 부합하거나 반대하는 모든 증거를 제시해야 할 의무가 없으며, 단지 결론을 내릴 때 편견을 갖지 말아야 할 뿐이다.

The strengths of critical reviews are also their weaknesses. When literature is marshalled to support a unique perspec- tive, there is the vague disquiet that the selected literature may be, consciously or unconsciously, biased in favour of the claim. The author is under no explicit mandate to present all the evidence for and against, only to be unbiased in his or her conclusions.


두 가지 중요한 리뷰가 정반대의 결론에 도달하는 것은 드문 일이 아닙니다. 그러한 것은 학술 토론을위한 사료입니다.

it is not uncommon for two critical reviews to come to diametrically opposite conclusions. Such is the fodder for academic debate.


문헌의 편향된 샘플링

Biased sampling of literature


두 번째 문제는 검토의 목적이 정말로 중요한 가치에 대한 최선의 추정치를 얻는 것이며, 비판적인 리뷰에 적합한 합성 방법이 전혀 사용되지 않는다면, 기껏해봐야 primitive한 것이다. 종종 '30개 중 22개 연구가 긍정적 인 효과를 보인다'와 같이 요약하곤 하는데, 이것은 바로 체계적인 리뷰가 가장 잘하는 부분입니다.

A second problem is that if the purpose of the review is really to obtain a best estimate of the value of something the synthesis methods used in critical reviews, if used at all, are primitive at best. They often reduce to a summary like ‘22/30 studies showed a positive effect’. That is precisely what systematic reviews do best – sometimes.


마지막으로, 비판적 리뷰는 학술적 디더링의 맨틀을 가정 할 수도 있습니다. 이러한 리뷰는 최종적으로 '작동함/작동하지 않음'으로 끝나는 경우가 드물고, 대신 체계적인 리뷰보다 훨씬 더 미묘한 토론을 제공하며, 불가피한 self-fulfilling을 위한 더 많은 연구를 요구한다.

Finally, critical reviews can also assume a mantle of aca- demic dithering. Such reviews rarely conclude with a final ‘it works/it does not work’, instead providing far more nuanced discussion than purely systematic reviews, with an inevitable self-fulfilling call for more research.




요약

Summary


인용 된 사례에서 체계적인 검토와 비평적 검토의 차이는 매우 작다. 각 유형의 검토가 서로 다른 목표에 의해 자극 될 수는 있지만 (효과가 있는가? vs 어떻게 효과가 있는가?), 체계적인 검토는 하위 그룹과 하위 목표를 식별하는 것으로서, 필연적으로 여기서 얻어지는 지식의 형태는 '어떻게 다양한 상황이 결과에 영향을 주는가'를 밝히는 것이 된다. 한편, 비판적인 검토는 이론을 발전시키는 데 직접적인 영향을 미칠 수 있지만, 현실은 이 분야에 이론이 거의 없다는 것입니다. 따라서 검토 과정에서 영향을 미칠 수있는 여러 가지 요소에 초점을 맞출 가능성이 더 큽니다. 결과적으로 이 두 문헌고찰 영역의 생태계가 두 접근법 사이의 수렴을 강요하는 것처럼 보일 수 있습니다.


In the examples cited, the distinction between systematic review and critical review becomes vanishingly small. While each type of review may be stimulated by differing goals (Does it work? versus How does it work?), inevitably, as the systematic review identifies subgroups and sub- goals, the additional knowledge is more of the form of revealing how different circumstances may influence the results. And while the critical review may be directed at advancing a theory, the reality is that there are very few theories in this field, so it is more likely that it will be focus- ing on the various things that may influence the effect under review. So it would seem that the ecology of the domain may be forcing a convergence between the two approaches.


Discussion


약 30 년 동안, 교육 연구는 '질적 - 양적 (quantitative-quantitative)'논쟁에 휘말려 양쪽 모두를 해 쳤다. 차이점을 해결할 방법이 있습니까? 통찰력은 Lee Cronbach가 다시 제공 한 것으로 믿고 있습니다. 앞에서 설명한 '두 분야'논문에서 (75) 그는 적성-치료 상호 작용에 대한 조사를지지했다.

For about three decades, educational research has been embroiled in the ‘qualitative–quantitative’ debate, to the detriment of both. Is there any way to resolve the differences? The insight was, we believe, again provided by Lee Cronbach. In his ‘Two disciplines’ paper that we described earlier,(75) he advocated a search for aptitude–treatment interactions


이후의 논문 (93)에서 크론 바흐 (Cronbach)의 결론은 보다 세심한 관찰을 위해보다 실험적인 통제를 시도하는 것을 포기하는 것이었다.

Cronbach’s resolution in a later paper(93) was to abandon attempts at greater experimental control in favour of more careful observation:


'[이 논문에서는] 심리적 실험을 시도하는 결과, 대부분의 효과가 상호 작용하는 세계에서 경험적 일반화를 탐구 할 것이다. 실험적인 통제와 체계적인 상관 관계에 관한 두 가지 과학 분야가 사전에 설정된 공식적인 질문에 답하기 위해 고안되었지만, 이제는 과학적 현실의 풍부함을 더 완전하게 탐구 할 수있는보다 개방적이고 탐구적인 조사가 이루어질 때이다.

‘[This paper will] explore the consequences of attempting to establish in psychological experimentation, empirical gener- alisations in a world in which most effects are interactive. While the two scientific disciplines of experimental control and systematic correlation are designed to answer pre-stated formal questions, the time has come for more open-ended, inquisitive investigation that will more fully explore the rich- ness of scientific reality.’













3 Bordage G (2007) Moving the field forward: going beyond quantitative-qualitative. Academic Medicine. 82: S126–8.


5 Bordage G (2009) Conceptual frameworks to illuminate and magnify. Medical Education. 43: 312–9.


82 Bordage G (2001) Reasons reviewers reject and accept manuscripts: the strengths and weaknesses in medical education reports. Aca- demic Medicine. 76: 889–96.


89 Eva KW (2008) On the limits of systematicity. Medical Education. 42: 852–3.


65 Eva KW and Hodges BD (2012) Scylla or Charybdis? Can we navi- gate between objectification and judgement in assessment? Medical Education. 46: 914–9.


91 Cook DA and West CP (2012) Conducting systematic reviews in medical education: a stepwise approach. Medical Education. 46: 943–52.


67 Norman GR (2004) The morality of medical school admissions. Advances in Health Sciences Education. 9: 79–82.




Chapter 21. Quantitative Research Methods in Medical Education

  1. Tim Swanwick
  1. Geoff Norman Professor1 and
  2. Kevin W Eva Associate Professor2

Published Online: 28 JUN 2010

DOI: 10.1002/9781444320282.ch21


+ Recent posts