타당도주장(validity arguments)에 대한 현대적 접근: Kane의 프레임워크에 대한 실용 가이드(Med Educ, 2015)
A contemporary approach to validity arguments: a practical guide to Kane’s framework
David A Cook,1,2 Ryan Brydges,3,4 Shiphra Ginsburg3,4 & Rose Hatala5
INTRODUCTION
타당도 근거를 수집하고 해석하는 과정을 'validation'이라고 부른다.
The process of collecting and inter- preting validity evidence is called ‘validation’.
Messick6 and Kane7 은 지난 100년간 어떻게 validation이 발전해왔는가에 대해 설명했다. 간략히 요약하자면, 교육자들은 초반에는 두 종류의 validity를 인식했다.
Messick6 and Kane7 have offered detailed reviews of how validation has evolved over the past 100 years. To summarise very briefly (see Fig. 1), educators ini- tially recognised two types of validity:
- 내용타당도: 평가 문항을 만드는 것과 관련
content valid- ity (which relates to the creation of the assessment items), and - 준거타당도: 동일한 현상을 측정하는 레퍼런스기준reference standard과 점수가 얼마나 잘 correlate하는가
criterion validity (which refers to how well scores correlate with a reference-standard mea- sure of the same phenomenon).
그러나 내용타당도는 거의 언제나 검사를 지지하는 결과를 보였고, 연구자들은 곧 레퍼런스기준을 찾고 validating하는 것이 매우 어렵다는 것을 - 특히 실체가 없는 특성(예: 프로페셔널리즘)에 대해서 - 알게 되었다. 명확하게 정의내릴 수 있는 준거가 존재하지 않는 상황에 대한 대안으로서, 이론가들은 '구인타당도'를 제시했다. 이는 '구인'의 개념이나 이론을 기반으로 실체가 없는 특성attributes(구인contruct)이 관찰가능한 특성attributes과 연결되어 있다는 것이다. 이렇게 되면 타당도를 검증할 때, 관찰가능한 특성을 측정하고, 이론적인 관계theorised relationship을 평가하면 된다.
However, content validity nearly always supported the test, and investi- gators quickly recognised that identifying and vali- dating a reference standard is very difficult, especially for intangible attributes (e.g. professional- ism). As an alternative for contexts in which no definitive criterion existed, theorists proposed con- struct validity,8 in which intangible attributes (con- structs) are linked with observable attributes based on a conception or theory of the construct. Validity can then be tested by measuring observable attri- butes and evaluating the theorised relationships.
전문가들은 곧 이러한 다양한 타당도의 '유형'들이 (신뢰도reliability metrics와 합해져서) 궁극적으로 construct-related relationship을 지지하(거나 반박하)는 공통의 경로commom pathway를 갖는다는 것을 인식하게 되었다. 이는 연구자들로 하여금 서로 '다양한 유형'의 타당도라는 개념을 버리고, '유일한 validity인 construct validity를 지지하즌 다수의 근거 출처evidence from multiple sources'라는 통합된 프레임워크에 이르게 된다. 그러나 Messick의 프레임워크가 이후 폭넓게 인정받아왔지만, 서로 다른 근거출처evidence sources 사이에 우선순위를 정해주지 않았으며, 어떻게 평가에 따라서 그 우선순위가 달라질 수 있는지(예: 고부담 평가와 저부담 평가에서 어떻게 다르닞) 등을 보여주지 않았다.
Experts soon realised that all these different ‘types’ of validity, together with reliability metrics, ulti- mately had the common pathway of supporting (or refuting) the construct-related relationships. This led researchers (as detailed by Messick6) to abandon the different ‘types’ of validity in favour of a unified framework in which construct validity (the only type) is supported by evidence derived from multi- ple sources. However, although Messick’s framework has subsequently been widely embraced,9,10 it does not prioritise among the different evidence sources or indicate how priority might vary for different assessments.11
Kane의 프레임워크가 아름다운 점은, 양적 평가, 질적 평가, 평가프로그램에 모두 적용될 수 있다는 점이다. 이러한 다재다능함이 우리를 질적 자료와 주관적 자료가 점차 더 가치를 인정받고 있는, 그리고 다수의 평가자료가 일상적으로 통합되는 'post-psychometric era'로 옮겨가게 했다.
The beauty of Kane’s framework is that it applies equally to an individual quantitative assessment tool, a qualitative assessment tool, or a programme of assessment. Such versatility will be required as we move into a ‘post-psychometric era’ of assessment in which qualitative and subjective data are increas- ingly valued13 and multiple assessment data points of varying rigour are routinely integrated.14
의사결정의 초점과 그 결과
A FOCUS ON DECISIONS AND CONSEQUENCES
우리가 학습자를 평가할 때, 우리는 주로 '숫자'를 생성한다. 그러나 우리가 진짜로 원하는 것은 그 학습자에 대한 '판단decision'이며, 예컨대 '합격인가?' 하는 것이다.
When we assess a learner, we usually generate a number but What we want –indeed, is a decision about that learner. Did he pass?
궁극적으로 validation은 그 판단의 방어가능성defensibility를 지지하는 근거를 수집하는 것이 전부이다.
Ultimately, validation is all about collecting evidence to support the defensibility of that decision.
임상의학과의 비유를 하면 이렇다. PSA검사가 전립선암 진단에 유용한가? 근거를 삺보면 재검사에 대한 결과가 reproducible하고 매년 측정한 결과도 그렇다. 그러나 이러한 긍정적 결과에도 불구하고 전문가 조직에서는 대부분의 남성에 대해서는 권고하지 않는다. 이러한 불일치가 일어나는 이유는 추가 검사evaluation에 의한 의도하지 않은 부정적 결과 때문이며,더 중요하게는 대규모의 무작위연구에서 서로 상충하는 결과가 나왔기 때문이다.
An analogy with clinical medicine may help to illus- trate this point. Is the prostate-specific antigen (PSA) test useful in screening for prostate cancer? Evidence suggests that values are quite reproducible on retesting and from year-to-year,16,17 Yet despite this favourable evidence, professional organisations rec- ommend against screening for most men.21–23 This incongruity arises because of the unintended adverse consequences of further evaluation24 and, more importantly, because large randomised trials have arrived at conflicting conclusions
이 임상 사례에서 중요한 교훈을 얻을 수 있다.
From this clinical example we learn several impor- tant lessons
첫째, 모든 평가가 다 도움이 되는 것은 아니다.(낮은 점수가 불필요한 재교육활동으로 이어질 수 있다)
Firstly, not all assessments are beneficial. (if, for instance, a low score prompted unnecessary remediation activities).
둘째, 사람들은 동일한 근거를 두고도 서로 다른 결론에 이르를 수 있다.
Secondly, peo- ple may rightly arrive at different conclusions when interpreting the same evidence
셋째, 평가는 어떤 맥락에서는 유용하면서 다른 맥락에서는 그렇지 않을 수 있다(PSA검사의 특성은 연령에 따라 다르며, 교육상황에서 체크리스트는 절차적 기술을 평가하는데는 적합하나 임상현상에서의 미묘한 뉘앙스를 잡아내지는 못한다.)
Thirdly, an assessment mightbe useful in some contexts but not in others (e.g. PSA test properties vary by age; an education checklist may prove adequate for assessing proce- dural skills in a simulation-based context, but fail to capture important nuances of clinical practice).
넷째, 시험(검사)의 유용성은 목적에 따라 다르다(PSA검사는 일반적으로 암의 재발을 보는데 좋다. mini-CEX는 형성적 피드백을 제공하는데는 좋으나, 총괄적 목적이나 프로그램 평가의 목적으로는 덜 그러하다.)
Fourthly, the usefulness of a test may vary for differ- ent purposes (e.g. the PSA test is generally consid- ered useful in monitoring for cancer recurrence; the mini-clinical evaluation exercise [mini-CEX] seems appropriate as a tool for formative feedback, but may be less defensible when used for summative purposes or programme evaluation26).
다섯째, 평가 행위 자체가 개입intervention이다. Test-enhanced learning은 하나의 사례이다.(PSA검사와 PSA검사 비수행을 무작위연구 할 수 있으며, 평가시행 vs 평가비시행에 대해서도 무작위 연구가 가능하다.)
Fifthly, the act of assessment is in fact an intervention, as wit- nessed by research on test-enhanced learning,27 (e.g. one can conduct a randomised trial of PSA testing versus no PSA,19,20 or educational assessment versus no assessment28,29).
validation의 목적은 어떠한 의사결정과 그에 수반되는 결과가 유용한지를 평가할 근거를 수집하는 것이다.
The purpose of validation is to collect evidence that evaluates whether or not a decision and its atten- dant consequences are useful.
타당도 논거
THE VALIDITY ARGUMENT
타당도논거validity argument는 타당도근거의 수집과 해석을 이끈다. 한 조각의 근거가 단독적으로 결론을 내릴정도로 논란의 여지가 없는 경우는 거의 없다. 보통, 타당도논거는 다수의 근거들로 이뤄지며, 각각으로는 불완전하나 종합적으로 판단을 내리기체 충분하다.
The validity argument guides the collection and interpretation of validity evidence. Rarely is a single piece of evidence so incontrovertible that it single-handedly ‘makes the case’. Rather, the argument usually con- sists of multiple pieces of evidence, individually incomplete but collectively sufficient to convince the jury.
법정의 비유를 들자면,얼마나 많은 근거가 필요한가는 그에 따른 결정의 무게gravity에 달렸다.
Continuing the analogy of a legal argument, the amount of evidence required varies depending on the gravity of the pending decision.
같은 원칙을 적용할 수 있다.
Turning now to assessment validation, the same principles apply. (Fig. 2).
Brennan은 '악마는 디테일에 있다. 그러나 기본적 접근법은 간단하다'. Kane은 '첫째, 의도나 해석(interpretation/use argumgnet, IUA)에 대한 주장을 한다. 둘째, 이 주장을 평가한다(validity argument)' 이 두 단계 접근법은 주장을 하고, 그 주장을 평가하는 것이고, 일상적 연구에서 가설을 검증하는 것과 다르지 않다.
Brennan34 observed: ‘There may be devilish details to be considered, but the basic approach is straight- forward.’ Kane12 declared: ‘First, state the claims that are being made in a proposed interpretation or use (the IUA [interpretation/use argument]), and second, evaluate these claims (the validity argu- ment).’ This two-step approach – stating and then evaluating claims – is analogous to the routine research practice of stating and then testing a hypothesis.
Kane의 프레임워크
KANE’S FRAMEWORK
그러나 가설의 가장 취약한 고리를 찾아내고, 그것을 평가할 검사를 계획하는 것은 그렇게 쉬운obvious 일은 아니다(Brennan이 말한 '악마의 디테일'과 같다). 다행히도, Kane은 타당도주장에 대해서 생각해볼 수 있는 프레임워크를 만들었다.
However, identifying the weakest links and assump- tions in the hypothesis, and planning the tests that will evaluate those assumptions, is rarely obvious (the ‘devilish details’ referred to by Brennan34). For- tunately, Kane has described a framework for think- ing about the validity argument
Kane은 평가를...다음과 같이 나눔
Kane traces an assessment from
- 단일한 관찰결과(객관식 시험 점수)로부터의 점수
the Scoring of a single observa- tion (e.g. multiple-choice examination question, skill station, clinical observation or portfolio item), - 관찰한 점수를 시험 상황에서의 일반적 수행능력을 대표하는 점수의 일반화
to using the observation score(s) to generate an overall test score representing performance in the test setting (Generalisation), - 시험 상황에서의 점수를 실제 상황에서의 수행능력으로 추론하는 외삽
to drawing an inference regarding what the test score might imply for real- life performance (Extrapolation), and then - 이 정보를 해석하고, 결정을 내리는 것인 함의
to inter- preting this information and making a decision (Implications) (Fig. 3).
타당도논거는 다수의 추론inference를 포괄하는 다양한 출처의 근거를 포함해야 한다. 또한 가장 취약한 고리에 초점을 맞추는 것도 중요하다. Kane의 프레임워크가 가지는 장점 중 하나는 psychometric data에 지나치게 의존하지 않으며, 따라서 비-정량적 평가에도 적용가능하다는 것이다.
The validity argument should contain multiple sources of evidence that span several (if not all) inferences. It is also important to focus on the weak- est links (most questionable assumptions). One advantage of Kane’s framework is that it does not rely heavily on psychometric data, and thus the con- cepts apply readily to non-quantitative assessments (such as learning portfolios and narrative perfor- mance reviews).
제안하고자 하는 활용법을 정의함
Define the proposed use
합격/불합격 결과를 위한 평가와 단순히 raw score만 보고하면 되는 평가는 필요한 타당도 근거의 우선순위가 다를 수 있다. 의대 2학년생을 위한 의사소통 평가, 1년차 레지던트를 위한 평가, 정신과의사 혹은 정형외과의사를 위한 평가 등에서 다 다를 수 있다.
Tests intended to result in pass/fail decisions may require different prioritisa- tion of validity evidence than those reporting raw scores. The validation of an assessment of communi- cation skills for a second-year medical stu-dent, first-year resident or practising physician, or for a psychiatrist versus an orthopaedic surgeon. Interpretations to guide formative feedback or to establish a minimal level of competence
점수산출 추론
Scoring inference
각 평가는 몇 개의 수행능력을 관찰하는 것으로부터 시작하며, 이를 통해 공정/정확/재생산가능한 양적 점수를 생성해낸다
Each assessment begins with an observation of some performance to generate a fair,accurate, reproducible quantitative score (or an accurate and insightful narrative comment).
일반화 추룬
Generalisation inference
일반화를 이해하기 위해서 우리는 '시험 상황'에서의 수행능력과 '실제 상황'에서의 것을 구분할 필요가 있다. 일반화는 '시험 상황'의 수행능력에 대한 것이다.
To understand Generalisation we need to distinguish performance in the ‘test world’ (formally the ‘uni- verse of assessment’) from that in the ‘real world’. Generalisation deals with test-world performance.
시험 상황universe of assessment에서 만들 수 있는 문항의 숫자는 이론적으로는 거의 무한하다.
In the universe of assessment, there are in theory a limitless number of items that we could create or select
궁극적으로 이 무한한 가능성의 우주에서 일부를 선택하여 어떤 표본을 만든다고 했을 때, 우리는 이 표본으로부터 모든 assessment universe로 일반화할 수 있기를 원한다.
The test items we ultimately select represent a sample of the items from this universe of possibilities. However, we ideally want to general- ise from this sample to the entire assessment uni- verse.
따라서 '일반화'란 '얼마나 문항들을 잘 선택했는가'에 대한 답을 찾는 것이다.
Thus, Generalisation seeks to answer the question: how well do the selected test items
근거를 살펴보면, 이 질문에 대한 답은 주로 두 가지 출처로부터 온다.
Evi- dence to answer this question comes from two primary sources:
- 검사 영역 내에서 적절한 표본 선정을 위해서 선택한 방법
methods taken to ensure adequate and appropriate sampling within the test domain, and - 완전히 새로운 표본을 사용했을 때 비슷한 점수를 얻을 가능성(재생산가능성, 신뢰도)
empiric studies to determine the likelihood of obtaining similar scores if we use an entirely new sample of items (reproducibility or reliability).
적절한 표본 선정을 위해서 선택하는 방법에는 블루프린트 혹은 무작위 선택이 있다.
Methods to ensure appropriate sampling might include a test blueprint (across domains) or random sampling (within a domain)
비-수치적 자료 혹은 assessment universe가 고도로 이질적인 경우와 같은 질적 연구에서는 '포화'라는 개념이 유용할 수 있다.
The qualitative research concept of saturation may be useful, espe- cially for non-numeric data or if the universe is highly heterogeneous:
수치 점수의 재생산가능성은 신뢰도를 이용해서 결정할 수 있다.(classical test theory 또는 Generalisability theory에서의 신뢰도)
The reproducibility of numeric scores can be empir-ically determined using reliability metrics.
classical test theory,
Generalisability theory
질적연구에서 개별 질적자료를 synthesis하는 것은 통찰을 제공하는/정확한/방어가능한 해석법이며, 양적자료의 generalisation에 비견될 수 있다. 평가자간 신뢰도를 대부분의 수치점수에 있어서 '에러'로 처리하지만, 질적 평가에 있어서 우리는 평가자간 차이를 수행능력에 대한 통찰을 제공해주는 가치있는 것으로 본다(다양한 관점). 서로 다른 자료 출처로부터 선택과 통합하는 것(triangulation), 언제 종료할 것인가를 결정하는 것(saturation)은 질적연구자료의 '일반화추론'을 도와준다.
For qualitative assessments, the synthesis of individ- ual pieces of qualitative data to form an insightful, accurate and defensible interpretation is analogous to quantitative generalisation. Whereas we treat inter-rater variability as error for most numeric scores, in qualitative assessments we view observer variability as representing potentially valuable insights into performance (i.e. different perspec- tives38,39). The method for selecting and synthesis- ing data from different sources (triangulation) and deciding when to stop (saturation) will inform the Generalisation inference for qualitative data.
외삽 추론
Extrapolation inference
'외삽'은 시험 상황에서 실제 상황으로 나아가는 것이다.
Extrapolation takes us from the test-world universe to the real world.
'외삽'을 지지하는 근거는 주로 두 가지가 있다.
Evidence to support Extrapolation comes primarily from two sources:
- 시험 영역에서의 점수가 실제 수행능력의 핵심 특성을 반영하게끔 하는 방법
methods taken to ensure that the test domain reflects the key aspects of real perfor- mance, and - 시험 수행능력과 실제상황 수행능력의 관계를 평가하는 분석
empiric analyses evaluating the relationship between the test performance and real-world perfor- mance.
interview or poll experts,
observe the actual task
think aloud
review past literature
그러나 known-group comparison은 상대적으로 약한 타당도 근거만을 제공하는데, 왜냐하면 관련성이 인과성을 의미하지는 않기 때문이다. 더 강력한 외삽근거는 시험점수가 실제상황 평가와 개념적으로 관련된 점수와 상관관계가 어떤지 보는 것이다.
How- ever, known-group comparisons offer relatively weak validity evidence because association does not imply causation.40 Stronger Extrapolation evidence can be collected by correlating test scores with scores from a conceptually related real-world assessment.
질적연구에서, 외삽은 이해관계자들이 그 해석에 동의함을 보여주는 근거, 혹은 새로운 훈련이나 수행의 맥락에서 적용될 것이라는 기대 등에 의해서 더 지지될 수 있다.
For qual- itative assessment, Extrapolation might be further supported by evidence suggesting that stakeholders agree with the interpretations and anticipate that they will apply to new contexts in training or practice.
안타깝게도, 일반화와 추론은 서로 반대로 작용할 수 있다. Kane은 '우리는 일반화를 희생하여 외삽을 강화시킬 수 있다(평가 과제가 평가 대상 영역을 반영하도록 함), 또는 우리는 외삽을 희생하여 일반화를 강화시킬 수 있다(다수의 고도로 표준화된 과제를 사용)'
Unfortunately, Generalisation and Extrapolation are often at odds with one another. Kane7 notes: ‘We can strengthen extrapolation at the expense of gen- eralisation by making the assessment tasks as repre- sentative of the target domain as possible, or we can strengthen generalisation at the expense of extrapo- lation by employing larger numbers of highly standardised tasks.’
함의 추론
Implications inference
마지막 단계는 대상영역의 점수로부터 그 점수의 해석으로 나아가고, 그 해석으로부터 특정한 활용방법/결정/후속활동 으로 나아가는 것이다. Kane은 '검사 점수를 특정 방식으로 해석하는 것이 타당하다는 근거가 자동적으로 그 점수를 어떻게 활용할지에 대한 것까지 정당화시켜주는 것은 아니다' 라고 말했다. 또한 '완벽하게 정확한 정보를 바탕으로 하고 있더라도, 그에 따른 의사결정은 목적을 달성하지 못할 수도 있고, 목적을 달성하더라도 비용이 너무 많이 들어갈 수도 있고, 그냥 폐기될 수도 있다' 라고 했다. 또 다른 말로는, 우리가 비록 정확한 측정을 하였다 하더라도, 그 정보가 유용할 것인지(혹은 적절하게 활용될 것인지)는 또 다른 문제라는 것이다. 따라서 타당도 논거의 최종 단계는 이 평가가 학습자/이해관계자/사회에 미칠 여파를 평가하는 것이다.
The final inference moves from the target domain score to some interpretation about that score, and from that interpretation to a specific use, decision or action. As Kane7 states: ‘It is gener- ally inappropriate to assume that evidence support- ing a particular interpretation of test scores automatically justifies a proposed use of the scores.’ He also notes: ‘A decision procedure that does not achieve its goals, or does so at too high a cost, is likely to be abandoned even if it is based on perfectly accu- rate information.’7 In other words, even if we mea- sure the attribute correctly, it doesn’t necessarily mean this information will be useful (or used well). Thus, the final phase in the validity argument evalu- ates the consequences or impact of the assessment on the learner, other stakeholders and society at large.42
평가의 여파에 대한 자료를 수집하는 가장 단순한 방법은 일부 학습자에게만 제공하는 것이다.
The most straightforward way to collect data regard- ing the consequences of assessment would be to offer the assessment to some learners but not to others,
그러나 이러한 연구는 대부분 연구자들에게 수행하기 어렵다. '함의추론'을 평가하는 더 현실적인 방법은 다음과 같다.
However, such studies are diffi- cult to conduct and exceed the reach of most inves- tigators. More achievable studies evaluating the Implications inference include
- 기준 설정 연구
standard-setting stud- ies (discussed under Scoring), - 비-비교 연구
non-comparative stud- ies exploring intended and unintended consequences (e.g. what happens to learners who fail a key examination), and - 하위그룹간 차이 비교
evaluations of differ- ences in test performance among subgroups for which performance should be similar, such as men and women (differential item functioning).
이처럼 질적 평가에서 최종 해석에 관한 전문가들의 동의를 평가하는 것, 그리고 학습자와 평가자에 대한 결정사항의 영향력을 평가하는 것이 함의추론을 지지한다.
Like- wise, in qualitative assessments, evaluating the agree-ment of experts with final interpretations and the impact of decisions on learners and raters would support the Implications inference.
이러한 질문에 답하는 것이다.
- 시험에서 떨어진 학생들과 통과한 학생들에게는 어떤 일이 생기는가?
what happened to those learners who failed the test and those who passed? - 재교육remediation이 후속 평가에서 수행능력의 향상을 가져왔는가?
Did remediation result in improved perfor- mance on follow-up assessment?
PUTTING THE ARGUMENT TOGETHER
일관성있는 논거의 계획과 제시
Planning and presenting a coherent argument
비록 Kane이 어떤 순서로 타당도 근거를 수집하고 평가해야하는가를 명시하진 않았지만 논거의 phase에 따른 자연스러운 진행과정이 있다.
Although Kane does not specify the order in which validity evidence should be collected and evaluated, there seems to be a natural progression that aligns the phases of the argument (from left to right in Fig. 3) with the priority and sequence of collecting empiric evidence. It seems natural...
- to solidify evi- dence regarding the scoring rubric before analysing the generalisability of those scores,
- to evaluate gener- alisability before extrapolating to real life, and
- to con- firm relationships with real-life performance before attempting to confirm the impact of assessment on meaningful outcomes.
타당도논거의 모든 추론들이 모두 가치가 있지만, 그 중요도가 모두 같지는 않다. '일반화'는 형성평가를 강조하는 상황에서는 덜 중요하고, '외삽'은 실제 상황에서의 수행을 직접 관찰하는 상황에서는 덜 중요하다. 이러한 중요도의 차이는 근거를 수집하기 전에 '가설을 명확히 설정하는 것(IUA)'이 필요함을 강조한다.
Although all of the inferences in the validity argu- ment merit some attention, they are not all of equal importance. General- isation may be less important when the emphasis is on formative feedback, and the Extrapolation infer- ence may be less important for assessments (both qualitative and quantitative) that rely on direct observation of real clinical performance as the underlying assumptions are relatively plausible. This underscores the need to clearly state the hypothesis (the interpretation/use argument) before collecting evidence!실제 관찰 결과가 하나의 추론 내에서(일반화 내에서 근거가 상충할 수 있음), 추론 간에서(일반화 논거에는 긍정적이나 외합 논거에는 부정적인 것이 있을 수 있음), 맥락에 따라 다를 수 있다. 사전에 IUA(the interpretation/use argument)를 구체적으로 하는 것이 이러한 관찰결과를 통합하는데 도움이 될 것이다.
Empiric findings often disagree within an inference (e.g. conflicting evidence for Generalisation), between inferences (e.g. favourable Generalisation but unfavourable Extrapolation), and across different contexts or research studies. A pre-specified inter- pretation/use argument and evaluation plan helps to integrate such findings.
타당도 근거 축적building의 흔한 오류
Flaws in building the validity argument
교육자들은 흔히 한 목적 혹은 한 맥락에서 validate된 검사는 다른 것에서도 그러할 것이라고 가정하는 실수를 범하곤 한다. 실제로는, 모든 평가가 interpretation and use마다 validation되어야 한다. Kane이 언급한 실수의 유형들.
Educators commonly make the mistake of assuming that a test validated for one purpose or context is valid for another. In reality, all assess- ments must be validated for each new proposed interpretation and use. Kane7 identified a number of other flaws in building the validity argument.
- 제한된 근거만을 평가하여 해석이나 결정이 타당하다고 판단내리는 것
Firstly, educators often conclude that interpreta- tions and decisions are valid after evaluating lim- ited evidence. - 주어진 목적에서 필요한 것보다 더 과도한ambitious 논거를 요구하는 것(비평가, 연구자, 규제기준)
Secondly, critics, na€ıve investigators or inappropriate regulatory requirements might propose an argument that is more ambitious than required for a given purpose. - 수집하기 쉬운 근거만 수집하고, 더 질문의 여지가 있는 것에 대해서는 근거를 수집하지 않는 것
Thirdly, investigators often collect easy-to-measure evidence for assump- tions that are already plausible; this typically occurs at the expense of addressing other more question- able assumptions, and can be misleading if the sheer quantity of evidence obscures important omissions.
Kane의 프레임워크의 실용적 적용
PRACTICAL APPLICATION OF KANE’S FRAMEWORK
임상상황: 제안된 '함의'를 지지하기 위해서, 우리는 특정 질병에 대한 스크리닝과 이후 질병을 치료하는 것이 아무것도 안하고 기다리는 것보다 장기적으로 임상성과가 더 나은지를 알고 싶어한다.
Finally, to support the proposed Implications we would want to know that screening for a disease and then treating it yields better long- term clinical outcomes than waiting for the disease to become clinically apparent, and that adverse effects of the treatment do not outweigh the bene- fits.
양적연구상황: 제안된 '함의'를 지지하기 위해서, 우리는 다음과 같은 것을 알고 싶어한다.
Finally, to support the proposed Implications, we would want to know
- 딜레이 결정을 내린 것이 patient care를 향상시키는가 that decisions to delay operating privileges improve patient care,
- 재교육으로 향상이 되는가 that remediation leads to objective improvement,
- 레지던트가 좋다고 느끼는가 that residents perceive a benefit, and
- 이러한 딜레이가 레지던트나 교육 프로그램에 부담이 되지는 않는가 that the delay does not impose an excessive burden on resi- dents or training programmes.
그러나 이를 지지하는 근거는 아직 없다.
However, virtually no evi- dence has been reported to support the Implications inference.63
질적연구상황:
Finally, we consider the use of narrative comments (qualitative data) from supervisors assessing resi- dents’ clinical performance to make decisions about promotion to the next training year.
Scoring inference 를 위해서는 다음을 보고자 함
To support the Scoring inference we would expect to see
- that ques- tions prompt a variety of relevant narrative data,
- that assessors have actually observed the behaviours they are asked to assess, and
- that narrative com- ments provide a rich, detailed description of observed behaviours.
Generalisation inference 를 위해서는 다음을 보고자 함
To support Generalisation,we would expect to see
- that narratives have been solicited from people representing a variety of clini- cal roles,
- that the narratives collectively form a coherent picture of the resident, and
- that those conducting the interpretive analysis have appropri- ate training or experience.
Extrapolation inference 를 위해서는 다음을 보고자 함
To support Extrapolation, we would anticipate
- that those providing raw narra- tives agree with the synthesised ‘picture’ and
- that the qualitative narrative agrees with other data (qualitative or quantitative) measuring similar traits.
Implications inference 를 위해서는 다음을 보고자 함
Finally, to support the proposed Implications,we would want to know
- that both those providing nar- ratives and the residents themselves agree with the decision based on these narratives, and
- that actions based on these decisions have the desired effect.
We found evidence to support many, but not all, of these propositions (Table 2).64–77
CONCLUSIONS
결론적으로 네 가지를 강조하고자 한다
In conclusion, we emphasise four points.
첫째, validation은 끝이 아니라 과정이다. 검사가 'validate'되었다고 말하는 것은, 그 과정을 수행했다는 것을 의미할 뿐, 의도한 해석, validation의 과정, 그 과정이 이뤄진 맥락 등을 지칭하는게 아니다.
Firstly, validation is not an endpoint but a process. Stat- ing that a test has been ‘validated’ merely means that the process has been applied, but does not indicate the intended interpretation, the result of the validation process or the context in which this was done.
둘째, 이상적인 validation은 명확한 IAU를 기술하는 것으로부터 시작된다. 핵심 주장과 근거를 정의하는 당초 계획한 IAU로 진행되며, 타당도논거를 위한 논리적, 실용적 근거를 수집하고 종합함으로써 진행된다.
Secondly, validation ideally
- begins with a clear statement of the proposed interpretation and use (decision),
- continues with a carefully planned interpretation/use argument that defines key claims and assumptions, and
- 앞에 두 개가 되고 나서야 이게 됨
only then pro- ceeds with the collection and organisation of logi- cal and empirical evidence into a substantiated validity argument.
셋째, 가장 취약한 고리에 초점을 둬야 한다.
Thirdly, educators should focus on the weakest links (most questionable assump- tions) in the chain of inference.
넷째, 여기서 제시된 모든 임상, 교육 사례에서 점수/일반화/외삽 근거는 매우 강하다. 실제로 행동을 위한 함의implication에 이르러서야 꼭 있어야 하는데 부족한 것들이 드러난다. 이러한 이유로, 우리는 implication과 이어지는 결정이 validity argument에서 궁극적으로 가장 중요한 것이라고 믿는다.
Fourthly, in all of the clinical and educational examples cited herein, the Scoring, Generalisation and Extrapolation evidence is fairly strong; only when we attempt to infer actionable Implications, moving from the real- world score to specific decisions, do important deficiencies come to light. For this reason, we believe that the Implications and associated deci- sions are ultimately the most important inferences in the validity argument.
12 Kane MT. Validating the interpretations and uses of test scores. J Educ Meas 2013;50:1–73.
13 Hodges B. Assessment in the post-psychometric era: learning to love the subjective and collective. Med Teach 2013;35:564–8.
15 Schuwirth LWT, van der Vleuten CPM. Programmatic assessment and Kane’s validity perspective. Med Educ 2012;46:38–48.
A contemporary approach to validity arguments: a practical guide to Kane's framework.
Author information
- 1Mayo Clinic Online Learning, Mayo Clinic College of Medicine, Rochester, Minnesota, USA.
- 2Division of General Internal Medicine, Mayo Clinic, Rochester, Minnesota, USA.
- 3Department of Medicine, University of Toronto, Toronto, Ontario, Canada.
- 4Wilson Centre, University Health Network, Toronto, Ontario, Canada.
- 5Department of Medicine, University of British Columbia, Vancouver, British Columbia, Canada.
Abstract
CONTEXT:
OBJECTIVES:
RESULTS:
CONCLUSIONS:
© 2015 John Wiley & Sons Ltd.
Comment in
'Articles (Medical Education) > 평가법 (Portfolio 등)' 카테고리의 다른 글
post-psychometric 시대의 평가: 주관과 집단을 생각하기 (Med Teach, 2013) (0) | 2016.03.08 |
---|---|
관찰을 통해서 임상술기평가의 블랙박스 열기: 개념적 모델(Med Educ, 2011) (0) | 2016.03.02 |
완전학습에서의 평가: 타당도와 합리화의 핵심 이슈(Acad Med, 2015) (0) | 2016.02.24 |
'블랙박스' 다르게 보기: 세 가지 관점에서 보는 평가자의 인식(Med Educ, 2014) (0) | 2016.02.19 |
같은 것을 다르게 보는 것 - DOPA에서 평가자 간 차이의 기전 (Adv in Health Sci Educ, 2013) (0) | 2016.02.12 |