커크패트릭 레벨과 교육의 '근거'(Med Educ, 2012)

Kirkpatrick’s levels and education ‘evidence’

Sarah Yardley1 & Tim Dornan2









도입

INTRODUCTION 


최근의 책에서 Donald Kirkpatrick 은 어떻게 평가모델에서 네 개의 descriptor에 이르게 되었는지를 설명했다. 그는 기술 훈련은 반응-학습-행동-효과로 평가해야함을 관찰했다. 커크패트릭의 목적은 관리자에게 학습자와 학습자가 근무하는 조직에 대해서 즉각적으로 확인가능하고 측정하기 쉬운 결과를 제공하는 것이었다. 기업의 리더들은 훈련이 효과과 있었다는 구체적 증거(판매량이라던가, 제품의 질, 수익성)를 필요로 한다. 산업계에서 성공적으로 사용한 보고는 다른 영역으로의 확산을 가져왔다. 커크패트릭 그 자신도 여러 곳에서 찬사가 쏟아진 만큼 이 네 단계의 validation은 필요없다는 입장을 밝혔다. 그러나 커크패트릭 모델이 의학교육에서 널리 사용되고 있지만 비판이나 분석은 없다.

In a recent book, Donald Kirkpatrick explains how he arrived at the set of four descriptors that are now widely used to evaluate the impact of interventions in education.2 He had observed that technical training could be evaluated by measuring learners’ reactions, learning and behaviour, and their impact on the organisations for which the learners worked.3 Kirkpatrick’s purpose was to provide managers with promptly identifiable and easy-to-measure outcomes in learners and the organisations for which they worked. Business leaders needing tangible evidence that training would enhance their sales volume, product quality and profitability quickly implemented his ideas. Reports of their successful use in business attracted interest from other fields and his ideas spread. Kirkpatrick himself said there was no need to validate the descriptors because accolades poured in.2 Despite the wide use of Kirkpatrick’s levels in medical education, there has been no review or critique of their use in this context.



방법

METHODS



결과

RESULTS


교육 인터벤션 평가를 위한 커크패트릭 레벨의 적합성

The suitability of Kirkpatrick’s levels for appraising education interventions


대다수의 연구에서 커크패트릭 레벨을 heuristics로 사용하였다. 단지 네 개의 연구만이 미 모델의 사용을 비판했으며, 이 중 하나는 커크패트릭의 레벨이 인적자원개발 분야에서 무비판적으로 적용되고 있음을 지적했다. Abernathy는 이 '레벨'이 교육훈련의 평가에 대해서 어떤 질문을 던지고 어떤 결과를 내야하는가에 영향을 준다면서, 이 레벨은 '연성(soft)' 성과 혹은 지속학습의 평가에는 부적절하다고 지적했다. Alliger와 Janak은 커크패트릭 모델이 가정하고 있는, 그리고 훈련 결과의 모양을 빚어내는 세 가지 요소를 지적했다. 

Most articles found by our search used Kirkpatrick’s levels as heuristics in education evaluation; just four critiqued their use11–14 and one of these found that Kirkpatrick’s levels were applied uncritically in the field of human resource development.14 Abernathy,12noting that the levels could influence the questions asked and results produced, rejected them as unsuitable for evaluating either ‘soft’ outcomes or continuous learning (as opposed to time-limited interventions). Alliger and Janak identified three types of assumption by which Kirkpatrick’s model could tacitly shape research findings, comprising: 

    • 레벨에 숫자를 붙임으로서 위계를 가정함
      assumptions of hierarchy associated with the numeric labelling of levels; 
    • 레벨 간 인과관계를 가정함
      assumptions of causal links between levels, and 
    • 레벨 간 정적 상관관계를 가정함
      assumptions that the levels are positively inter-correlated.11 

Blanchard 등은 어떤 연구든 평가를 하기에 앞서서 커크패트릭 레벨과 상관 없이 목적이 정의되어야 한다고 주장했다.

Blanchard et al.13 argued that the purpose of any research had to be determined before any evaluation of it at any particular Kirkpatrick level could be considered. 


비록 이들 중 어떤 연구도 의학교육에 대한 것은 아니지만, 의학교육에 적응가능한 것으로 보이며, 커크패트릭도 그 자신이 각 '레벨'을 훈련 휴리스틱으로 사용했기 때문에 (어떻게 숙고한 연습과 사회적 학습을 통해서 전문가를 키우는가가 아니라) 이들 저자의 의견에 동의했을 것이다. 그는 단기적인, 실재하는 목적(판매량, 질, 수익성) 등을 측정하기로 선택했다. 무형의 훈련성과에 대한 커크패트릭의 해결책은 - 그가 스스로 책에서도 언급한 바와 같이 - 유형의 이익과 연결시키는 것이며, 왜냐하면 훈련은 구체적인 측정가능한 행동을 목적으로 하고 있는 훈련이 시장가치를 인정받을 수 있기 때문이다.

Although none of those studies concerned medical education, they seem applicable to it and Kirkpatrick himself might have agreed with these authors because he actually advocated using the levels as a training heuristic,2 not to evaluate how professionals become expert practitioners through deliberate practice and social learning. He chose the levels to measure very short-term and tangible endpoints like sales volume, quality and profitability. Kirkpatrick’s solution to intangible benefits of training, which he acknowl- edged in his original work, was to link them to tangible benefits because training orientated towards specific measurable behaviours could be assigned a market value.2


커크패트릭이 커크패트릭 레벨을 성공적으로 적용했다고 인용한 여러 개의 참고문헌 중 어떤 것도 의학교육에 관련된 것은 없으며, 비지니스 분야와는 특성이 다르다(다양한 집단의 니즈를 충족시켜야 함). 커크패트릭 레벨의 문제점은 각 레벨에서 고려하는 수혜자가 모두 다르다는 것이다. 레벨1~3은 학습자이며 레벨4a는 조직, 레벨4b는 환자이다.

Of his numerous references to successful applications of the levels,2 none came from a field as complex as medical education, which differs from business in that it is required to meet the needs, equitably, of a whole array of beneficiaries, including patients, students, practitioners, communities and health care organisations. A problem with Kirkpatrick’s levels is that different levels concern different beneficiaries: levels 1–3 concern learners; level 4a concerns organisations, and level 4b concerns patients.


이 구조에서 교사 역시 완전히 사라져 있다. 이 모델은 질적/양적 방법론으로 평가가능한 무수한 성과에 대한 평가를 포괄하는데 한계가 있으며, 뿐만 아니라 어떻게 그리고 왜 복잡한 인터벤션의 특정 요소와 어떠한 결과의 관계 있어서 그러한 결과가 나타났는지도 설명해주지 못한다. 이 모델은 그저 기대 성과를 측정하는데 사용될 뿐이며, 기대하지 않았던 결과는 무시한다. 즉, '의도한 대로 A라는 결과가 나타났는가?'를 물어보는 것이지 '이 인터벤션의 결과는 무엇인가?'라고 묻지 않는다. 임상적으로 이에 적합한 비유는 신약의 의도한 효과만 측정하고, 부작용은 측정하지 않는 것이다.

Teachers are missing from the scheme altogether. The model does not allow for the rich variety of outcomes that can be evaluated using qualitative as well as quantitative methodologies, nor explain how or why such out- comes are consequential to particular elements of complex interventions. It tends only to be used to measure anticipated outcomes and ignores unanticipated consequences. That is, it asks ‘Was outcome X achieved as intended, or not?’ rather than ‘What were the outcomes of this intervention?’ A clinical parallel would be a clinical trial that measured only the intended effects of a new drug and not its side-effects.




커크패트릭 레벨의 의학교육에 대한 적용

Application of Kirkpatrick’s levels to medical education research


커크패트릭 모델이 나온 40년이 자나서, BEME는 문헌리뷰의 기준 위한 커크패트릭 레벨의 modified version을 도입하였다

Forty years after Kirkpatrick’s original work, the BEME collaboration adopted a modified version of Kirkpatrick’s levels (which it named a ‘hierarchy’) as a grading standard for bibliographic reviews (Table 2). A prototype coding sheet, accompanied by explanatory notes, offered two complementary ways of appraising evi- dence, using either Kirkpatrick’s ‘hierarchy’ to grade the impact of interventions (Table 2) or a simple anchored rating scale of 1–5 of the ‘strength’ (Table 3) or trustworthiness of findings.


우리의 첫 번째 BEME 리뷰는 그 레벨을 사용하고, 위계로서 받아들여서 높은 수준의 커크패트릭 레벨을 더 중요한 성과로 지칭했다. 이 연구에서 24%의 성과는 레벨 에 있었으며 - 우리는 그 당시 이것을 중요하지 않은 것으로 평가했고 - 76%에서는 더 중요한, 높은 수준의 성과 평가로 나아갔다. 총 64%의 성과가 레벨 2에 있었으며, 레벨 3과 레벨 4를 합해도 12%밖에 남지 않았다. 우리가 연구성과의 '강도'에 대해 평가했을 때는 출판도니 결과의 42%만이 강력한연구성과(3점 이상) 이면서 중요한 연구성과(레벨 2 이상)에 해당되었고, 그 대부분은 레벨 2에 있었다.

Our own first BEME review9 (of early workplace experience in undergraduate medical education) used the levels and, accepting them as a hierarchy, treated a higher Kirkpatrick level as indicative of a more important outcome. This review found that 24% of outcomes were at level 1, which we then regarded as unimportant, and the other 76% were progressively more important according to their higher levels. A total of 64% of outcomes were found to be at level 2, leaving only 12% at levels 3 and 4 combined. When we added in an appraisal of the ‘strength’ of outcomes (Table 3), only 42% of published outcomes were both strong (rated at ‡ 3) and important (Kirkpatrick level ‡ 2) and then mostly at level 2 in the hierarchy.


그러나 레벨 3, 4 성과가 매우 미미하다는 것을 보여준 것은 우리만은 아니었으며 14개의 분석된 자료 중 레벨 3, 4를 평가한 것이 50%를 넘는 것은 3개 뿐이었다.

It shows we were not alone in finding relatively fewKirkpatrick level 3 or 4 outcomes. In only three of 14 data analyses (21%) were half or more of the outcomes rated at a level > 2. 


Table 1에서 기술한 대부분의 연구는 레벨 1 혹은 레벨 2a, 2b를 측정하고 있으며, 이들은 각각 description (레벨 1) and justification (레벨 2a, 2b) 연구라고 명명되었으며 나름의 가치가 있다. 문제는 'clarification study'의 성과인데, 이것이야말로 의학교육연구를 더욱 강화시키는 토대가 되는 연구이며, 모든 커크패트릭 레벨에 맞을 수 있는 연구이다. 그러나 우리가 어떻게, 왜 특정 효과가 인터벤션의 특정 요소의 결과로 나타나는지를 이해하지 못한다면, 교육의 이익을 최대화하기 위해 개선하는데 어려움을 겪을 것이다. 구체적인 예를 들어보자면, 한 연구를 통해서 학습자의 정서에 영향을 주는 교육 인터벤션에 대한 clarify를 한다고 했을 때, 이것은 레벨 1 혹은 레벨 2 에 대한 것이며 상대적으로 중요하지 않은 결과로 여겨질 수 있다. 그러나 이것은 학습자의 professional development에 중요하다는 것이 자명하다. 늘 '결과'가 '과정'보다 중요한 것일까?

Most papers in Table 1 described what learners experienced (level 1) or measured what they learned (levels 2a and 2b); these have been more simply termed ‘description’ and ‘justification’ studies, respectively, and each has its own value.23 The snag is that outcomes in ‘clarification studies’, which are a rich basis on which to strengthen medical education,23 could fit under any or all of Kirkpatrick’s levels. Yet, unless we understand how, and why, effects are consequential to particular elements or interactions, it will be difficult to refine education to maximise benefit. To give a specific example, it is possible that a study clarifying how an educational intervention affected learners’ emotions could be classified as demonstrating outcomes at level 1 (reactions) or 2 (attitudes), which are regarded as relatively unimportant, despite being self-evidently important to the professional development of the learners. Are outcomes necessarily more important than processes (which are not included in Kirkpatrick’s levels)?


Holton은 충분한 이론적 근거나 지지적 근거가 부족한 상태에서 낮은 레벨의 성과가 높은 레벨의 성과의 전제조건이 된다는 위계를 사용하는 것은 부적절하다고 지적했다.

Holton criticised their use as a hierarchy on the grounds that they lack important attributes of a theory and lack supportive evidence to indicate that lower-level outcomes are prerequisite to higher-level ones.14





의학교육 연구 평가를 위한 대안

Alternatives for appraising research in medical education


상대적으로 단순하나 교육훈련 인터벤션의 평가를 위해서는, 신속하게 드러나고 쉽게 관찰가능한, 전통적인 실험 설계에서의 성과를 평가하여 '레벨'이 (학습자 외의) 중요한 수혜자(대개 환자)에게 직접적 관심을 갖게 해줄 수 있다. 그러나 앞선 리뷰를 보면, 복잡하고, 장기 성과가 중요하고, 결과에 대한 평가만큼이나 과정에 대한 평가가 중요한 여러 교육 인터벤션에서는 부적합함을 보여준 바 있다. 실제로, 우리의 리뷰는 커크패트릭 레벨을 잘 못된 유형의 근거로 활용하는 것은 오히려 해로울 수 있음을 지적했다.

When evaluating relatively simple training interventions, the outcomes of which emerge rapidly and are easily observed within classical experiment designs, the levels can direct attention to important beneficiaries other than learners (notably patients). The preceding review, however, leads us to conclude they are unsuitable for the higher proportion of education interventions, which are complex, in which the most important outcomes are longer-term, and in which process evaluation is as important as (perhaps even more important than) outcome evaluation. Indeed, our review found a body of opinion that considered that Kirkpatrick’s levels, applied to the wrong type of evidence, might be harmful.11–14



그렇다면 '근거의 종류가 평가를 편향시키지 않는' 대안으로 무엇이 있을까? 다른 식으로 표현하자면, 어떻게 우리가 추구하는 가치를 손상시키지 않으면서 적합한 '레벨'을 포함하는 균형을 잡을 수 있을까? 현재의 지식으로는 negative finding을 포함시키고, 추가 연구나 실천에 유용한 새로운 혹은 더 철저한 작업에 대한 구체적 요구를 포함시키는 방법이 있다.

What alternative ways are there, then, to critique the quality of various types of evidence in a scholarly way without allowing the type of evidence to bias its evaluation? Put another way, how do we balance the right level of inclusiveness with rigour in our approach to value? It is important that the current state of knowledge, including ‘negative’ findings and specific needs for new or more rigorous work to usefully inform further research or practice innovation, is represented.


다양한 systematic review  

The scholarship of systematic review in clinical science takes its origins from a paper published 40 years ago by the epidemiologist Archie Cochrane, in which he berated medical practice for being ineffective or frankly harmful.27 

    • The Cochrane Collaboration (http://www.cochrane.org) came into existence to promote clinical trials, using systematic review and statistical meta-analysis to synthesise findings from their aggregated results. ‘Evidence’ was rated as ‘weak’ or ‘strong’ according to standard criteria, which appraised its ability to support the statistical estimation of effect sizes. The Cochrane approach is not the only one in the health domain. 
    • The Joanna Briggs Institute (http://www.joan- nabriggs.edu.au/about/home.php) and the W K Kellogg Foundation (http://www.wkkf.org), both of which seek to improve health care practice through multidisciplinary working, have taken a pluralistic approach and do not place randomised controlled trials at the top of a hierarchy, regardless of the question posed. 
    • Recognising that the hypoth- etico-deductive, experimental approach of natural sciences is ‘ill-equipped to help us understand com- plex, comprehensive, and collaborative community initiatives’ (http://www.wkkf.org/knowledge-center/ resources/2010/w-k-kellogg-Foundation-Evaluation- Handbook.aspx), they allow questions to be asked and answered without forcing complex systems to fit the evaluative tools of one dominant research para- digm. 
    • By contrast, the Campbell Collaboration (http://www.campbell collaboration.org), which reviews evidence related to education, crime and justice, and social welfare, has aligned itself with the Cochrane Collaboration in holding data that are suitable for statistical meta-analysis as of intrinsically higher quality.




따라서, 이들 리뷰의 서로 다른 방법론은 서로 다른 '인식론적' 정의로부터 시작한다. '인식론적' 이라는 단어는 인식자(knower)와 지식(known)의 관계를 의미하는 것이다. 코크란 접근법은 전통적인 과학적 방법론에 따른 것이며, 실증주의적 인식론에 바탕을 두고, 복잡한 상황을 상대적으로 단순한 실험적 설계 내에서의 변수 간 비교로 환원한다. 비판적 평가에 있어서 코크란 접근법의 기준은 그것의 인식론적 입장과 일관된다. 그러나 Pope 등은 systematic review는 비록 그것이 임상영역에 강한 선호를 보이지만 (여러 대안 사이에 선택을 도와주기 때문에) 이것이 근거를 종합하는 유일한 방법은 아님을 주장한다.

Thus, different review methodologies start from different ‘epistemological’ assumptions, where the term ‘epistemological’ refers to the relationship between the knower and the known. The Cochrane approach, drawn from classical scientific methodology, has a positivist epistemology which allows it to reduce complex situations to a comparison of variables within relatively simple experiment designs. Its standards of critical appraisal are consistent with its epistemological stance. Pope et al. noted that systematic review, although it is strongly favoured in the clinical domain because it helps in making choices between alternative treatments, is not the only way of syn- thesising evidence.28


The Cochrane Collaboration이 '의사결정을 지지'하기 위하여 근거를 사용하는 방식은 '지식을 지지'하기 위하여 근거를 사용하는 (비-이분법적) 방법과 구분된다. 근거를 종합하는 집합적, 해석적 방법은 질적 근거와 양적 근거를 혼합하거나, 질적 근거만을 가지고 종합하기도 한다. 이러한 방법은 '지식을 지지'하는 더 나은 방법이 될 수 있으며, 실증주의적 인식론보다는 구성주의적 인식론에 기초한다. 의학교육연구는, 우리의 리뷰에서 보여준 바와 같이, 다원주의적이다. 따라서 bibliographic research가 커크패트릭의 평가에 따르지 않는 다섯 중 네 명의 리뷰어는 어디에 있는가?

The Cochrane Collaboration’s use of evidence for ‘decision support’ can be distinguished from the (non-dichotomous) use of evidence for ‘knowledge support’. Aggregative or interpretive methods of evidence synthesis that mix qualitative with quantitative evidence, or synthesise qualitative evidence alone, give better knowledge support and start from constructionist rather than positivist epistemological assumptions.28 Medical education research, our reviews have shown, is pluralistic. So where does that leave the four out of five reviewers whose bibliographic research does not lend itself to Kirkpatrick rating?



비판적 평가의 레퍼런스 기준을 정의하는 것이 아니라, 이 리뷰는 그러한 기준이 과연 존재할 수 있는지, 그리고 근거의 종합을 위한 계획을 수립할 때 얼마나 많은 질문에 대한 답이 필요한가에 대한 의구심을 던지는 것이다. 독자로 하여금 근거를 평가할 수 있는 토대를 전혀 주지 않기보다는, 우리는 논리적 접근을 위한 사고실험을 하고자 한다.
Far from defining a reference standard for critical appraisal, this review casts doubt on whether such a standard could ever exist and shows how many questions must be answered when planning an evidence synthesis. Rather than leave the reader with no basis on which to appraise evidence, we conducted a thought experiment in order to define a logical approach. 

실증주의적 원칙에 따라 진행된 실험에 있어서 근거기반의학의 비판적 평가 도구는 교육근거에도 적용될 수 있다. 이 섹션의 첫 문단에서 제시한 조건과 같이 그렇게 상대적으로 단순한 훈련 인터벤션의 평가에서 커크패트릭의 레벨은 적절하다. 대부분의 경우에서는 (아마 의학교육 근거의 80%는 될 것이다) 구성주의적 인식론이 적합하다. 이 경우에 비판적 평가는 (BEME scale 1~5와 같은) 결과의 신뢰성에 대한 단순한 종합적 판단이 아니다. 비록 한 리뷰 안에 포함된 개개의 연구마다 개별적으로 비판적 평가를 위한 도구가 적용될 수는 있지만, 종합적 결론에 대한 신뢰도에 있어서 이득이 되는 정도는 미미하다. 
For experimental research conducted on positivist principles, the critical appraisal tools of evidence-based medicine can be applied to education evidence. Under the conditions defined in the first paragraph of this section, such as in the evaluation of relatively simple training interventions, Kirkpatrick’s levels are appropriate. In the majority of cases (perhaps 80% of medical education evidence syntheses), a constructionist epistemology is likely to be appropriate, in which case critical appraisal will rest on simple global judgements of trustworthiness, such as the BEME scale of 1–5. Although critical appraisal tools appropriate to individual methodologies could be applied to individual studies included within a review, any gain in reliability is likely to make little difference to the overall conclusions pieced together from multiple different methodologies.


DISCUSSION


근거를 종합하는 것의 예술은, 우리의 결론으로는, 하나의 방법론이나 평가기준을 다양한 것들에 고정시키는 것이 아니라 여러 측면이 고려된 선택을 내리는 것에 있다. 이것은 Eva가 말한 '질(quality)의 단일한 결정권자는 없다'것과 같은 것이며, 왜냐하면 어떤 근거가 놓이는 위치가 그것의 유용성을 결정하기 때문이다.

The art of evidence synthesis, we conclude, lies in making well-considered choices rather than valorising one methodology or appraisal standard over another, echoing Eva’s view that there can be no single arbiter of quality because it is the use to which evidence is put that determines its utility.29


근거의 다양한 활용방법이 - 그것이 무엇이 되었든 - 어떤 방법을 사용할 것인지를 좌우한다.

The use of evidence to support policy, define outcomes, identify new research questions, answer practical teaching questions, inform teachers’ personal development, serve as a debating tool or establish the ‘state of knowledge’ on a subject can all dictate different methodologies


중립적인 것으로 보여지는 지식의 현 상태('state of knowledge')를 알아내는 것조차 존재론적, 인신론적 지위가 있다. 만약 질문이 '단순한 인터벤션의 효과'를 플라시보와 비교하는 것이라면 'naive realist'적 존재론과 인식론에 따라 코크란의 비판적 평가 기준을 사용하게 하고 효과크기를 측정하게끔 할 것이다. 더 환원주의적 관점에서는 결과는 더 명확할지언정, 활용가능도는 더 떨어질 것이다.

Even the last of these, which is often presented as a neutral assessment, involves ontological and epistemological positioning. If the topic in question is the efficacy of a simple interven- tion compared with a placebo administered under controlled conditions, a ‘naive realist’ ontology and epistemology30 would direct the use of Cochrane critical appraisal standards and estimation of effect sizes. The more reductionist a review, the clearer its results, but perhaps also the less applicable they are.


의학교육자들인 근거중심의학에서 벗어나는 지점은 단순한 실험의 결과와 실제 상황에서의 적용 사이에 있는 큰 격차이다. 프로세스는 물론 맥락이 교육 성과에 영향을 미친다. 더 나아가 경험의 스토리가 사라진다면 풍부한 뉘앙스는 물론 심지어 정보의 모든 핵심이 사라질 수도 있다.

Where medical education really deviates from evidence-based medicine is in its recognition of a wide gap between the results of simple experiments and their applicability in ‘real practice’. Context as well as process impacts on educational outcomes. Moreover, rich nuances or even the whole essence of information may be lost when stories of experience are omitted.


이 모든 이유로 인해, 리뷰어는 양적 자료는 물론 질적 자료를 고려하여 연구자가 교육행위의 상대주의적, 사회적 실천의 한 부분으로서 존재하기 위한 대화에 맞는 주장을 구성(construct)해야한다. 만약 연구자가 정책에 영향을 미치고 있다면 현실주의자적 입장과 수반적(attendant) 방법이 적합할 수 있으며, 리뷰어가 다음의 문제를 위해서는 실용주의적 판단을 내려야 한다.

      • 내가 의사로서 원저를 읽을 때 거기서 무엇을 얻어야 하는가? 
      • 그 맥락 속에서 받아들여야 할 것은 무엇이며, 더 정제되거나 뉘앙스를 파악해야 할 것은 무엇인가? 
      • 나는 어떻게 이 주제의 연구를 계층화하여 부분적으로 도움이 되는 정보를 버리지 않고서도 강력한 근거와 제한적 근거를 알아볼 수 있을 것인가?

For all of these reasons, it is likely a reviewer will need to consider qualitative as well as quantitative sources of evidence and ‘construct’ an argument fitted to the conversation he or she wants to be part of in the relativist, social world of education practice. If the reviewer wants to influence policy, a realist stance and attendant methods may be appropriate, 31 whereby the reviewer uses pragmatic judgement to answer questions like: If I were reading the original papers as a practitioner, what would I take away from them? What would I accept within context or pass judgement on in a more refined or nuanced manner than the current systematic review process allows? How can I stratify the studies on this topic to see where evidence is strongest or limited without unnecessarily discounting partially helpful informa-tion?



우리의 포괄적 결론은 근거가 사용되는 목적이 근거를 종합하는 방법의 신뢰성과 최선의 방법이 무엇인지에 영향을 준다는 것이다. 과학적 실험의 방법론적 가정이나 환자에게 돌아올 이득에 대한 임상적 가정을 근거의 기준으로서 채택하지 않는다면, 우리는 연구자들이 다음과 같이 근거를 종합할 것을 권고한다.

Our broad conclusion is that the purpose to which evidence is put influences its trustworthiness and the best way of synthesising it. Having rejected the methodological assumptions of scientific experimentation and the clinical assumption of patient benefit as reference standards of evidence, we suggest that researchers synthesising evidence should: 

    • state very clearly the aims of their work; 
    • make their epistemological and ontological assumptions explicit; 
    • admit any evidence that is appropriate to the aim, including complex and qualitative evidence; 
    • consider features of empirical research such as the strength of its theoretical orientation and its relevance to the review question when considering its weight in the final synthesis, and 
    • make absolutely transparent, when reporting a review, the decisions they took and their reasons for taking them.









 2012 Jan;46(1):97-106. doi: 10.1111/j.1365-2923.2011.04076.x.

Kirkpatrick's levels and education 'evidence'.

Author information

  • 1Keele University Medical School, Faculty of Health, Keele, UK. syardley@doctors.org.uk

Abstract

OBJECTIVES:

This study aims to review, critically, the suitability of Kirkpatrick's levels for appraising interventions in medical education, to review empirical evidence of their application in this context, and to explore alternative ways of appraising research evidence.

METHODS:

The mixed methods used in this research included a narrative literature review, a critical review of theory and qualitative empirical analysis, conducted within a process of cooperative inquiry.

RESULTS:

Kirkpatrick's levels, introduced to evaluate training in industry, involve so many implicit assumptions that they are suitable for use only in relatively simple instructional designs, short-term endpoints and beneficiaries other than learners. Such conditions are met by perhaps one-fifth of medical education evidence reviews. Under other conditions, the hierarchical application of the levels as a critical appraisal tool adds little value and leaves reviewers to make global judgements of the trustworthiness of the data.

CONCLUSIONS:

Far from defining a reference standard critical appraisal tool, this research shows that 'quality' is defined as much by the purpose to which evidence is to be put as by any invariant and objectively measurable quality. Pending further research, we offer a simple way of deciding how to appraise the quality of medical education research.

© Blackwell Publishing Ltd 2012.


+ Recent posts