결과타당도근거(Consequences Validity Evidence): 교육평가의 임팩트 (Acad Med, 2016)

Consequences Validity Evidence: Evaluating the Impact of Educational Assessments

David A. Cook, MD, MHPE, and Matthew Lineberry, PhD




 

Emerging reforms 으로 인해 valid assessment가 중요해짐.

Emerging reforms in health professions education such as competency-based education, mastery learning, entrustable professional activities, and adaptive learning environments underscore the need for valid assessments of learning outcomes.

 

평가의 타당도에 대한 현재의 standard framework는 Messick이 1989년에 제안한 것.

The currently standard framework for thinking about assessment validity, first proposed by Messick1 in 1989, defines validity as

“the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests.”2

 

타당도는 이렇게 볼 수도 있다.

Validity can be viewed as

a hypothesis about the meaning (interpretations) and application (uses) of test scores.

 

일반적인 가설과 마찬가지로 validity hypothesis 역시 근거를 수집함으로서 검증될 수 있고, 수집된 근거는 강점/약점/Residual gaps 등을 도출하는 validity argument로 요약된다. 핵심 assumption을 타겟으로 한 근거가 강력한 validity argument를 만드는데 중요하다.

Like any hypothesis, the validity hypothesis can be tested by collecting evidence, which is then summarized in a coherent narrative or validity argument that identifies strengths, weaknesses, and residual gaps (i.e., the degree of support).3,4 Evidence targeting key assumptions is vital to crafting a strong validity argument.


다섯 개의 sources.

In this framework, evidence derives from five different sources:

  • content,

  • internal structure,

  • relationships with other variables,

  • response process, and

  • consequences (see Table 1).5,6

처음 세 개는 각각 content validity / reliability / criterion, correlational, and construct validity에 비견될 수 있다. 그리고 이것들은 교육자들이 잘 이해하고 있다.

The first three sources map to prior notions of content validity; reliability; and criterion, correlational, and construct validity, respectively,7 and as such have been readily understood by educators.


그러나 response process 나 consequences 에 대한 것은 기존 프레임워크에 해당하는 것이 없고, 교육자들은 이 개념을 이해하고 실제로 적용하는데 어려움을 겪는 것으로 보임.

However, the concepts of response process and consequences have no counterpart in the older framework, and in our experience it has been challenging for educators to understand these concepts and visualize how these might be implemented in practice.




그러나 여러 연구자들은 consequences evidence 의 중요성을 반복해서 강조하고 있다.

Yet, authors have repeatedly emphasized the critical significance of consequences evidence in presenting a compelling validity argument.3,5,6,9


consequences evidence 를 설명하고자 한다.

The purpose of this article is to explain consequences evidence in easily understood terms and propose a framework for organizing the collection and interpretation of such evidence along with several examples.

 

 

 



“Consequences”란 무엇인가?

What Do We Mean by “Consequences”?


Consequences evidence는 평가의 유익하거나 유해하거나 의도하거나 의도하지 않은 영향을 조사한다. 이러한 의미에서 평가는 개입intervention으로 간주 될 수있다.
Consequences evidence looks at the impact, beneficial or harmful and intended or unintended, of assessment.2,13 In this sense, assessment can be viewed as an intervention.


시험 관리, 시험, 점수 분석 및 해석, 후속 결정 및 조치(교정, 피드백, 판촉 또는 Board 인증 등)는 모두 평가 대상 및 다른 사람 및 시스템에 직접적인 영향을 미칩니다 ( 교사, 환자, 학교 등). 이러한 영향은, 이상적으로는, 실제 이익이 예상 이익과 일 치하는지, 그 이익이 비용이나 부작용보다 중요한지 판단하기 위해 평가되어야합니다.
The act of administering or taking a test, the analysis and interpretation of scores, and the ensuing decisions and actions (such as remediation, feedback, promotion, or board certification) all have direct impacts on those being assessed and on other people and systems (e.g., teachers, patients, schools). These impacts should ideally be evaluated to determine whether actual benefits align with anticipated benefits and outweigh costs and adverse effects.


유방 조영술은 유방암 검사를위한 평가 (진단 검사)입니다. 현재의 증거에 따르면 해석이 더 어렵고 판단이 내려지기 전에 old films와의 비교가 자주 필요하며 오탐 (false positive)이 흔하며 불필요한 생검 및 감정적 인 스트레스를받는 여성이 있기 때문에 젊은 여성에게 덜 유용하다고 제안합니다. 그러나 대부분의 전문가들은 50 세에서 74 세 사이의 여성의 경우 유방암의 부작용을 크게 줄이기 때문에 매년 유방 검사를받는 것이 유익하다는 것에 동의합니다 .24,25 유방조영술은 검사의 불완전성과 의도하지 않은 부정적 결과에도 불구하고, 시험의 영향은 전반적으로 유익하다.
Mammograms are assessments (diagnostic tests) used to screen for breast cancer. Current evidence suggests that they are less useful in younger women because interpretation is more difficult, that comparison with old films is often required before a judgment can be made, and that false positives are common and subject women to unnecessary biopsies and emotional stress.19–23 Yet most experts agree that for women aged 50 to 74, annual screening mammograms are beneficial because they substantially reduce the adverse consequences of breast cancer.24,25 Despite the imperfections of the test and unintended negative consequences of false-positive results, the test has an overall beneficial impact.


그러나 어떤 가이드라인에 따르면 젊은 여성 (위양성 비율이 더 높은 경우)과 노인 여성 (유방암으로 사망하기 전에 다른 원인으로 사망 할 수도 있음)의 경우, 유방 X 선 검사는 자동으로 수행되어서는 안됩니다. 논란의 여지가있다 .26 다른 임상 예에는 심장 마비 진단을위한 brain natriuretic peptide 의 사용, 대장 암 검진을위한 유연한 S 자 결장경 검사 28, 관상 동맥 질환 탐지를위한 컴퓨터 단층 촬영 혈관 조영술 29이 포함된다. 이 검사들 각각은 무작위연구를 통해서 검사를 받지 않았을 경우와 비교했을 때 장기적인 영향이 어떠한지 평가된 바 있다. 검사라는 것은 비용, 편익 및 잠재적 harm를 수반하는 Intervention이다.
However, for younger women (for whom the false-positive rate is higher20) and for older women (who might die of other causes before they die of breast cancer) screening mammograms should not be automatic according to some guidelines,24 although this is a matter of controversy.26 Other clinical examples include the use of brain natriuretic peptide for diagnosing heart failure,27 flexible sigmoidoscopy for colon cancer screening,28 and computed tomographic angiography for detection of coronary artery disease29—each of which has been evaluated using randomized trials comparing the long-term impact of testing (and its associated clinical decisions) vs no testing. In each case, the act of testing is in fact an intervention with costs, benefits, and potential harms.



 

마찬가지로, 교육 평가 역시 잠재적인 비용, 편익 및 손해가 있는 intervention으로 간주 될 수 있습니다. 예를 들어, 보드 인증 시험은 무능한 의사로부터 환자를 보호하고 의사에게 공부를 하게끔 encourage할 수 있지만 시험보는 능력은 떨어지는 유능한 의사에게 불필요한 remediation을 하도록 강요 할 수 있습니다. 이때 이 시험은 의사와 환자의 삶에 "개입"되어 유익하거나 해로운 결과를 가져옵니다.
Similarly, educational assessments can be viewed as interventions with potential costs, benefits, and harms. For example, a board certification exam might protect patients from incompetent physicians and encourage physicians to study, but might also force competent physicians with poor test-taking skills to engage in needless remediation. This exam has “intervened” in the lives of physicians and patients and led to both beneficial and harmful consequences.



다른 말로 표현하자면 Consequences evidence 는 "우리가 측정하고 있다고 생각하는 것을 측정하고 있습니까?"(다른 유효성의 증거에 의해 답변 된 질문) 문제를 다루지 않습니다. 오히려, "측정 활동과 그에 따른 해석 및 점수 적용이 부작용이 거의없이 원하는 결과를 얻나요?"
Stated another way: Consequences evidence does not address the question, “Are we measuring what we think we are measuring?” (a question answered by the other sources of validity evidence). Rather, it addresses, “Does the activity of measuring and the subsequent interpretation and application of scores achieve our desired results with few negative side effects?”


 

연구자들은 때때로 consequence를 validity evidence출처 (이 논문의 초점)와 "결과"라는 단어의 다른 용도 (예 : 영향 또는 결과의 일반적인 동의어)로 혼동합니다. 예를 들어, 교육 활동 (코스, 커리큘럼, 온라인 모듈 또는 시뮬레이션 시나리오)의 결과를 테스트 환경이나 실제 임상에서 측정 된 outcome measure를 사용하여 평가하고는 한다. 이러한 교육 개입의 평가는 assessment validity을 뒷받침하는 consequences evidence를 평가하는 연구와 개념적으로 구별된다

Investigators occasionally confuse consequences as a source of assessment validity evidence (the focus of this article) with other uses of the word “consequences” (e.g., as a general synonym for impact or outcome). For example, studies often evaluate the consequences of training activities (courses, curricula, online modules, or simulation scenarios) using outcomes measured in a test setting or in real clinical practice; such evaluations of training interventions are conceptually distinct from studies evaluating consequences evidence to support assessment validity



혹은, assessment validation은 시험 점수와 환자, 프로그램 또는 사회의 다른 동시 또는 미래 측정 (즉, 실제 결과 또는 "결과") 간의 연관성을 평가할 수 있습니다. 그러한 association은 "relationships with other variables"를 확립함으로써 validity argument에 도움이 되겠지만 consequences validity evidence 를 반영하지는 않는다 (즉, 평가 자체의 consequence보다는 점수 간의 relationship에 중점을 둡니다).
Alternatively, an assessment validation study might evaluate the association between test scores and other concurrent or future measurements of patients, programs, or society (i.e., real- life outcomes or “consequences”). Such associations would inform the validity argument by establishing “relationships with other variables”2,7 but would not reflect consequences validity evidence (i.e., the analysis focuses on the relationships among scores rather than the consequences of the assessment itself).


 

물론 impact 측정이 평가 consequences(평가는 결국 개입이므로)의 증거가되며, 상관 분석은 결과 증거를 제공 할 수있는 상황이 있습니다 (표 2 및 예 1 참조). 중요한 것은 연구 설계 나 통계 분석이 아니라 오히려 validity argument에서 증거가 어떻게 제시되는입니다. Consequences evidence 는 해석의 영향과 평가 점수의 사용을 결정establish합니다.
Of course, there are situations in which measures of impact constitute evidence of assessment consequences (assessments are, after all, interventions), and correlational analyses can provide consequences evidence (see Table 2 and Appendix 1 for examples). What matters is not the study design or statistical analysis but, rather, how the evidence is presented in the validity argument: Consequences evidence establishes the impact of interpretations and uses of assessment scores.


 



The Importance of Consequences Evidence


 

 

임상의는 pt management를 향상시키지 않는다면 종종 검사를 하지 말라고 교육받는다. 교육 평가의 경우에도 마찬가지입니다. (교육 평가는) 학습 성과 향상이 비용 및 잠재적 위험보다 크지 않다면 사용해서는 안됩니다. Messick1 (p85)은 "테스트의 결과와 부작용에 대한 평가는 테스트 사용의 유효성 확인에서 핵심적인 부분입니다."Kane's3 (p54)는 최근의 유효성 재구성 개념을 재구성하여 유사한 결과를 뒷받침하는 증거에 유사한 우선 순위를 부여합니다 평가 : "결과 또는 결과는 의사 결정 절차 평가의 최종선입니다. 목표를 달성하지 못하거나 너무 높은 비용으로 의사 결정 절차를 포기한 경우에도 완벽하게 정확한 정보를 바탕으로 결정 절차가 포기 될 수 있습니다. "다른 저자도 결과 증거의 우위를지지했습니다 .5,6 , 9

Clinicians are often taught not to order a test if it won’t improve patient management. The same holds true for educational assessments: If they do not lead to improved learning outcomes sufficient to outweigh costs and potential harms, they should not be used.

  • Messick1(p85) argued that “Evaluation of the consequences and side effects of testing is a key aspect of the validation of test use.”

  • Kane’s3(p54) more recent conceptual reframing of validation, gives similar priority to evidence supporting the consequences of assessment: “Consequences, or outcomes, are the bottom line in evaluating decision procedures. A decision procedure that does not achieve its goals, or does so at too high a cost, is likely to be abandoned, even if it is based on perfectly accurate information.”

  • 다른 저자도 consequences evidence의 우위를지지했습니다.
    Other authors have also supported the primacy of consequences evidence.5,6,9



진단 검사의 가치에 대한 궁극적인 증거가 진료에 미치는 영향인 것과 마찬가지로 교육 평가의 가치에 대한 궁극적 인 증거는 학습자, 교사를 비롯하여 대중과 시스템에 미치는 영향입니다 .12 임상 시험과 마찬가지로 교육 평가는 의도 한 이익을 실현시키지 못하거나 이익을 상회하는 비용 또는 의도하지 않은 부정적 결과를 초래할 수 있습니다 .12,13,17

Just as the ultimate evidence for the value of a diagnostic test is the impact on practice, the ultimate evidence for the value of an educational assessment is the impact on learners, teachers, and the people and systems they influence.12 Like clinical tests, educational assessments may fail to realize their intended benefits or may have costs or unintended negative consequences that outweigh the benefits.12,13,17



(부정적 결과를 초래한) 그런 경우에는 도구 개발의 정확성, 점수의 신뢰성 및 다른 변수와의 점수 상관 관계의 강도가 실제로 중요하지 않다고 주장 할 수 있습니다. 이러한 우려는 Board 자격 갱신 과정에서 이뤄지는 고부담 시험에 대한 많은 비판을 뒷받침합니다 .30 이러한 이유 때문에 결과의 증거가 궁극적으로 validity argument의 가장 중요한 source라고 생각합니다.

In such instances one could argue that the rigor of instrument development, the reliability of scores, and the strength of score correlations with other variables really don’t matter. Such concerns underpin many recent criticisms of high-stakes testing as part of the board recertification process.30 For this reason, we believe that evidence of consequences is ultimately the most important source of validity evidence.


 

 

HPE연구에서 Consequences Evidence

Consequences Evidence in Health Professions Education Research


 

Consequences evidence 는 보건 전문가 교육에서 보고되는 일이 드물다
Consequences evidence is reported only infrequently in health professions education.


  • A systematic review of 22 clinical teaching assessments found only 2 studies (9%) that reported consequences evidence, and in neither case did the original researchers identify the evidence as such.

     

    • One study found that providing formative feedback to teachers enhanced their teaching scores,31 whereas

       

    • the other study found that the assessment raised awareness of effective teaching behaviors.32

  •  

  • A systematic review of 417 articles examining simulation- based assessment6 found only 20 studies (5%) reporting consequences evidence.

     

    • The majority of this evidence comprised establishing a pass/fail cut point (n = 14).

       

    • Two studies explored an anticipated impact on students or patients,33,34 3 contrasted the number of actual vs. expected passing grades,35–37 and

       

    • 1 study noted differential item functioning as a possible source of invalidity.38 No study reported an unanticipated impact.

  •  

  • Finally, a systematic review of 55 studies evaluating assessment tools for direct observation18 found 11 studies (20%) reporting consequences evidence other than satisfaction with the assessment activity. All of these evaluated the impact of assessment,

    • documenting outcomes including curricular changes based on common deficiencies,39

    • improved feedback,40–43

    • poor recall of feedback provided (i.e., failure to achieve intended consequence),44

    • improved objectively measured skills,45,46 and

    • increased test preparation activities.47


A Framework for Evaluating Consequences Evidence



Consequences evidence 는 학습자, 교육자 및 교육 기관 등 다양한 당사자에 대한 평가의 영향에 대한 데이터로 구성됩니다. 환자, 제공자 및 건강 관리 기관; 심지어는 사회 전체에 대한 영향도 포함된다. 이러한 영향은 유익하거나 유해 할 수 있으며 의도적이거나 의도하지 않을 수 있습니다 .13

의도적인 이익은 아마도 예상하고 측정하기가 가장 쉽습니다.

의도하지 않은 피해는 (쉽게 예상되거나 명시 적으로 목표를 정할 수 없기 때문에) 가장 어려울 수 있습니다 .48


Consequences evidence consists of data on the impact of an assessment on diverse parties: learners, educators, and educational institutions; patients, providers, and health care institutions; and even society at large. Such impact can be beneficial or harmful, and it may be intentional or unintentional.13 Intentional benefits are probably the easiest to anticipate and measure; unintentional harms may be the most difficult (because they cannot be easilyanticipated or explicitly targeted).48 


 

전문가들은 간접적인 영향 (예 : 학생 동기 또는 준비 활동, 강사 수업 계획 및 대중 인식에 대한 영향)으로부터 점수 사용 (예 :지도 지침 또는 진급 결정)의 직접적인 효과를 구별합니다 .17 그러나 이러한 분류는 일단 수집된 근거를 분류, 해석, 보고할 때에는 유용할지 모르나, validation study를 계획할 때 potential source로 광범위하게 고려하는 것을 돕기에는 부적절합니다.

Experts have also distinguished direct effects of score use (e.g., instructional guidance or advancement decisions) from indirect effects (e.g., influence on student motivation or preparation activities, instructor lesson plans, and public perceptions).17 However, although these classifications are helpful for categorizing, interpreting, and reporting consequences evidence once it has been collected, they are inadequate for helping investigators to consider broadly the potential sources of consequences evidence when planning an assessment validation study.



 

또한 proposed theory에 따라서 동일한 효과도 의도되거나 의도되지 않은 것으로, 유익하거나 또는 유해한 것으로, 직접적이거나 간접적인 것으로 생각 될 수 있습니다.

Moreover, the same effect might be considered intended or unintended, beneficial or harmful, and direct or indirect depending on the proposed theory, interpretation, and use of the assessment.

  • mastery goal oritentation을 의도했으나, performance goal orientation을 가질수도
    For example, an assessment might have unintended effects on learners’ general orientations toward performing well relative to peers vs. mastering content for its own sake (performance vs. mastery goal orientations49). However, promoting stronger mastery goal orientations may be an explicitly intended consequence of assessment when adopting a mastery learning curricular model.50

  • 위험을 줄이기 위한 의사의 행동이 보는 측면에 따라 beneficial할 수도, detrimental할 수도.
    Similarly, one could imagine educational assessments that lead physicians to be risk averse in beneficial ways (e.g., carefully following protocol for central line placement after a central line assessment) or in detrimental ways (e.g., practicing “defensive medicine” by ordering unnecessary lab tests after a test of medical knowledge).




이전의 저자들은 classification cut points의 rigor, appropriateness, and consistency 에 대한 평가를 consequences evidence로 포함시켰다 .5-7,50 이러한 증거는 평가에서 비롯된 함의와 결정에 직접적인 영향을 미치지 만, 우리는 평가의 실제 결과에 영향을 미치기보다는 그것이 영향을 주기 때문에 preconsequences evidence 로 더 정확하게 분류 될 수 있다고 생각합니다. 이것을 고려하더라도, 우리는 그러한 증거가 Messick의 프레임 워크에서 결과 증거로 가장 적절하게 일치한다는 것에 계속 동의합니다. (Kane의 최근의 프레임워크에서 그러한 evidence는 "implications and decision"에 대한 inference에 잘 들어 맞는다3,9)

Previous authors, including ourselves, have included evaluations of the rigor, appropriateness, and consistency of classification cut points and labels as consequences evidence.5–7,50 Although such evidence has direct bearing on the implications and decisions arising from the assessment, on careful reflection we believe it might be more correctly labeled preconsequences evidence because it affects, rather than results from, the actual consequences of assessment. With this caveat, we continue to agree that such evidence fits most appropriately as consequences evidence in Messick’s framework. (As an aside, we note that in Kane’s more recent framework such evidence fits squarely under the inference of “implications and decision.”3,9)




연구자들의 consequences evidence 자료 수집과 자료 소비자들의 evidence gap 도출을 돕기 위하여, 위의 개념을 통합한 comprehensive framework를 만들었다.

In considering how to help investigators prospectively plan the collection of consequences evidence and help consumers identify evidence gaps, we have integrated the above conceptual elements to create a comprehensive framework for systematically prioritizing and organizing consequences evidence



  • First, evidence can derive from evaluations of the impact on examinees, educators, and other stakeholders (e.g., patients), and the impact of classifications (“preconsequences,” e.g., different cut scores or labels, and accuracy across examinee subgroups).

  • Second, studies can be distinguished as evaluating the impact of test score use (similar to the “direct” effects noted above) such as the effectiveness of score-guided remediation or advancement decisions; or the impact of the assessment activity itself (independent of scores) such as change in preassessment study behaviors or the effect of test-enhanced learning.

    • 임상에 비유한다면: 암을 발견 할 수 있다는 두려움 때문에 잠재적 인 통증이나 재정적 인 비용 (검사점수의 활용으로 인한 impact)에 대해 걱정할지도 모를 여성은 다가오는 유방 X 선 사진에 대해 불안해 할 수도 있습니다. ("점수"와 무관 한 시험 활동). 이러한 각각의 차원에는 의도되었거나 의도되지 않았거나 유익하거나 유해한 결과가 포함될 수 있습니다. 후자의 점을 추가하면 4 차원 프레임 워크가 완료됩니다 (그림 1 참조).
      To use a clinical example: A woman might get anxious about an upcoming mammogram because she is scared that it might detect cancer (impact of [anticipated] “score” use), or she might be worried about the potential pain or financial cost (impact of the test activity independent of the “score”). Each of these dimensions could include consequences that are intended or unintended, and beneficial or harmful; adding the latter points completes a four-dimensional framework (see Figure 1).






Appendix 1 with examples spanning all dimensions.


 

 

임상 진단 테스트와 교육 평가 모두에 대한 테스트의 impact을 평가하는 직접적인 접근법은 테스팅을 완료하기 위해 절반을 무작위로 테스트하고 테스트하지 않기 위해 나머지 절반을 무작위로 추출하는 것입니다 (13,51).

A straightforward approach to evaluate a test’s impact—for both a clinical diagnostic test and for an educational assessment—would be to randomize half to complete the test and the other half to no test,13,51 


 

덜 강력하지만 여전히 유용한 접근법은 덜 엄격한 연구 설계 (예 : 비 무작위 집단, 단일 그룹 사전 테스트 - 사후 테스트 또는 단일 그룹 사후 테스트 전용 연구)를 사용하지만 동일한 결과를 측정 할 수 있습니다. 평가 대상자 만이 평가의 영향을받는 것은 아닙니다.

A less robust but still useful approach might use less rigorous study designs (such as nonrandomized cohort, single-group pretest–posttest, or even single-group posttest-only studies) but measure the same outcomes. Those being assessed are not the only ones impacted by an assessment.


 

 

preconsequences 증거 . 평가결과(interpretations and decision)에 근거한 classification의 defensibility에 직접적으로 영향을 주는 요인들을 포함한다.

As noted above, preconsequences evidence includes factors that directly influence the defensibility of classifications based on test results (interpretations and decisions), such as

  • 검사가 뭐라고 불리는가 the labels applied to the test itself and any subtests1;

  • 합격선의 결정 the definition of the passing score (e.g., at what point is remediation required?)5; and

  • (비슷해야하는) 하위그룹간의 점수차이 존재여부  differences in scores among subgroups where performance ought to be similar (e.g., men vs. women), suggesting that decisions may be spurious.52

  • 합/불합 비율 Finally, investigators could monitor pass/fail rates; for example, a failure rate higher or lower than expected might indicate a test that is either too hard or too easy, respectively.


그럼에도 불구하고 예상 할 수없고 전향 적으로 측정 할 수있는 의도하지 않은 결과unintended consequence는 사실 후에 만 ​​식별 할 수있는 예기치 않은 결과unforeseeable consequence와 구별됩니다. 우리는 데이터가 숫자 일 필요는 없다는 점을 강조합니다. 적절하게 계획되고 수집 된 질적 데이터는 특히 의도하지 않았거나 예측할 수없는 결과를 확인하고자 할 때 강력한 증거를 제공 할 수 있습니다.

We distinguish unintended consequences, which can be nonetheless anticipated and prospectively measured, from unforeseeable consequences, which can only be identified after the fact. We further emphasize that data need not be numeric. Qualitative data, properly planned and collected, could provide strong evidence9—especially when seeking to identify unintended or unforeseeable consequences.


 

 

이 예들의 많은 데이터는 매우 주관적이며 대안 해석이 가능합니다. 예를 들어, 점수가 동일해야 할 경우 하위 그룹 간의 점수 차이는 무효의 표시 일 수 있지만 점수가 다를 것으로 예상되는 경우 유효성을 지원하는 것으로 해석 될 수도 있습니다. 마찬가지로 이상적인 failure rate 은 상황에 따라 다릅니다. 평가와 그 결과를 연결하는 행동 이론theory of action 에 의해 종종 유도되는 validity arguement9,10,53을지지하거나 훼손시키는 것이 무엇인지를 사전에 분명히 밝혀야한다 .3,54

 

궁극적으로, 그러나 평가와 그 결과 사이에 명확한 원인 - 결과 관계를 보여주기 어려울 수 있다. 그렇다고 해서 교육자가 validity argument의 중요한 요소를 무시하는 것을 정당화해서는 안된다. 다양한 증거 자료와 데이터 수집 방법의 삼각 측량은 방어 할 수있는 주장을 수립하는 데 도움이 될 것입니다.

The data in many of these examples are highly subjective and open to alternative interpretation. For example, score differences among subgroups could be a sign of invalidity if scores should be the same, but could also be interpreted as supporting validity if scores would be expected to vary. Similarly, the ideal failure rate will vary by situation. It is essential to articulate in advance what findings would support or undermine the validity argument,9,10,53 often guided by a theory of action linking the assessment and its consequences.3,54 Ultimately, it may be difficult if not impossible to establish a clear cause–effect relationship between the assessment and its consequences.14 This should not, however, justify educators in ignoring this important element of the validity argument. Triangulation of different evidence sources and data collection methods will help establish a defensible argument.


 

 

마지막으로 평가의 의도 된 용도의 부작용side effect을 오용misuse의 영향과 혼동해서는 안됩니다 .10 기존의 증거의 범위를 벗어나는 테스트 점수의 적용은 엄밀히 말해서 오용이라고 할 수 있습니다. 여기에는 평가를 새로운 목적에 사용하는 것 (예 : 면허 시험 점수를 사용하여 입학 결정을 알리는 것)를 채택하거나 도구, 절차 또는 학습자 집단의 요소를 변경하여 평가를 적용하는 것이 포함됩니다. 기존 평가를 채택하거나 채택하는 것이 일반적이지만 종종

"시험 제작자는 테스트 오용으로 인한 부정적인 결과에 대해 책임을지지 않습니다. ... 사용자가 테스트 개발자가 승인하고 시험하지 않은 목적으로 적절한 테스트를 수행 할 때 사용자는 필요한 유효성 조사를 수행 할 책임이 있습니다. "13 (p8)

 

 

Finally, the side effects of intended uses of an assessment should not be confused with the effects of misuse.10 Any application of test scores beyond the scope of existing evidence constitutes, strictly speaking, a misuse. This would include adopting an assessment for new purposes (e.g., using licensure exam scores to inform admissions decisions) or adapting an assessment by changing elements in the instrument, procedures, or learner population. Although it is commonplace and often profitable to adopt or adapt an existing assessment, those doing so should remember that

“Test makers are not responsible for negative consequences following from test misuse.… When users appropriate tests for purposes not sanctioned and studied by the test developers, users become responsible for conducting the needed validity investigation.”13(p8)



 

Consequences Evidence 사용하기

Identifying and Using Consequences Evidence in Practice



모든 consequences evidence 가 똑같이 compelling 한 것은 아닙니다. 같은 시험을 한 번 더 보면, 시험 점수를 간단하게 향상시킬 수 있습니다 (예 : "재시험을했을 때 학생이 더 좋았으며, 이는 첫 번째 시험의 결과로 기술이 향상되었음을 시사한다"). 이런 것은 설득력있는 consequence evidence에 기여하지 못한다. 왜냐하면 우리가이 변화에 대한 대안적 설명이 충분히 존재하기 때문이다 (즉, 다른 경험으로부터 배우기).

Not all consequences evidence is equally compelling. Simple improvement in test scores from one testing occasion to the next (e.g., “Students did better when they were retested, suggesting that their skills had improved as a result of the first test”) would not, for example, contribute persuasive evidence of consequences because we can imagine plausible alternative explanations for this change (i.e., learning from other experiences).


 

평가에 대한 만족도, 자기평가 점수의 향상, 비교 기준점이없는 합격 / 불합격률에 대한 학습자 및 교수 평가는 유용하지만 다소 약한 증거를 제공합니다.
Learner and faculty ratings of satisfaction with the assessment, self-reported improvements in skill attributed to the assessment, and pass/fail rates without a comparison reference point would provide useful but rather weak evidence.


 

유사하게, 합격 / 불합격 컷오프 포인트의 수립은, 얼마나 엄격하게 수행되었는지에 관계없이, 실제로 컷팅 포인트의 결과가 평가 될 때까지 비교적 약한 증거이다. 강력한 양적 또는 질적 데이터가없는 일화anecdote는 마찬가지로 약한 지원만을 제공합니다.
Similarly, the establishment of a pass/fail cut point, regardless of how rigorously done, is relatively weak evidence until the consequences of that cut point have been evaluated in practice. Anecdotes without robust quantitative or qualitative data likewise provide only weak support.




보다 강력한 증거는 비교 집단 (무작위 또는 무작위 적으로 역사적 또는 병행 대조군)을 사용한 연구에서 나올 것이다. 시험 자체와는 다른 원하는 결과의 객관적 측정. 또는 엄격한 질적 데이터 수집 및 분석.
Stronger evidence will come from studies using a comparison group (randomized, or nonrandomized historical or concurrent control group); objective measures of the desired outcomes that are different from the test itself; or rigorous qualitative data collection and analysis.



consequences evidence 가 가장 중요한 증거이지만 테스트 개발자, 테스트 사용자, 연구원 및 저널 편집자는 validity argument를 구성하는 여러 요소 중 하나라는 것을 기억해야합니다. 어떤 단일 소스도 dominate 할 수 없다. 더욱이 강력한 consequences evidence 는 "테스트가 일정 기간 동안 의도 된대로 사용되기 전까지는 증거를 수집 할 수 없습니다."14 (p15) 이와 같이 단계별 접근법은 합리적인 것처럼 보입니다. 초기 장비 평가에서는 쉽고 비용이 적게 드는 증거 소스 (예 : 콘텐츠, 내부 구조 / 신뢰성, 다른 변수와의 관계, 대응 프로세스 [표 1 참조])를 수집하고 이 증거가 도움이된다면 그 이후 엄격한 평가로 진행할 것을 제안합니다.

Although consequences evidence is the most important source of evidence, test developers, test users, researchers, and journal editors must remember that it constitutes only one of several elements in a comprehensive validity argument. No single source can or should dominate. Moreover, robust consequences “evidence cannot be collected until the test is used as intended for some period of time.”14(p15) As such, a stepwise approach seems reasonable. We propose that during initial instrument evaluation, developers and researchers might prioritize presumably easier and less costly evidence sources (e.g., content, internal structure/ reliability, relationships with other variables, response process [see Table 1]) and then progress to rigorous evaluation of consequences if this evidence proves supportive.




consequences evidence 의 유형, 수량 및 엄격 성은 평가에 따라 달라질 것입니다

The type, quantity, and rigor of consequences evidence will vary depending on the assessment


예를 들어, 환자 안전을 향상시키는 것으로 주장되는 면허 시험 (예상되는 혜택)은 실패한 의사의 고용 가능성에 영향을 미칩니다. 그러한 평가는 의학적 학생에게 피드백을 촉진하기 위해 고안된 평가보다 더 큰 evidence of consequences 가 될 수 있습니다 (예 : 예상되는 이익 실현, 합격 / 불합격 기준 설정 방법, 유능한 의사의 실패 횟수).

For example, a licensure exam that claims to enhance patient safety (anticipated benefit) will impact the employability of physicians who fail. Such an assessment likely merits greater evidence of consequences (e.g., Are anticipated benefits realized? How was the pass/fail cut point established? How often do competent physicians fail?) than an assessment designed to promote feedback to medical students.



그러나 일부 "저부담"시험은 잠재적으로 중대한 결과를 가져올 수 있습니다. 특히 대규모로 구현되거나 장시간 반복되는 경우에 특히 그렇습니다. 예를 들어, 피드백을 촉진하기위한 평가는 1 년 내내 매일 실시 될 경우 역량, 전문적 정체성, 자기 주도적 학습 및 자기 효능감의 여러 영역에서 상당한 누적 효과를 나타낼 수 있습니다.

However, some supposedly “low-stakes” exams could have potentially significant consequences, especially if implemented on a large scale or repeated over an extended period of time. For example, an assessment intended to promote feedback could have significant cumulative effects across multiple domains of competence, professional identity, self-directed learning, and self-efficacy if administered daily over an entire year of training.


바람직하지 않은 validity evidence 는 종종 평가 과정의 다른 문제를 지적해내기도 합니다. Negative consequences네 가지 근본적인 문제 중 하나로 추적 할 수 있습니다. .
Unfavorable validity evidence often points to problems elsewhere in the assessment process. Negative consequences can usually be traced back to one of four underlying problems3:

  • the measurement or scoring procedure (e.g., irrelevant, unreliable, or omitted test items);

  • the specific interpretation (e.g., an inappropriate pass/fail cut point);

  • the attribute being measured (i.e., the wrong construct); or

  • the response (e.g., the actions that follow the decision).




Concluding Remarks


결론적으로, 우리는 다음을 강조한다.

  • 첫째, 평가는 실제로 진단용 검사이며, 의학 및 교육 분야에서 모두 중재로 간주 될 수 있습니다.

  • 둘째, 타당도 증거는 impact of assessments (as interventions) on examinees and other stakeholdersthe defensibility of score classifications (“preconsequences” evidence)를 조사합니다. 이러한 결과는 점수 사용이나 평가 활동 자체에서 비롯 될 수 있으며 의도적이거나 의도하지 않고 유익하거나 유해 할 수 있습니다.

  • 셋째, 타당도 증거가 결과의 가장 중요한 원천이다. 왜냐하면 평가가 원하는 영향을 미치지 않으면 사용해서는 안되기 때문이다.

  • 마지막으로, 결과의 유형, 수량 및 엄격 성은 평가 및 사용 목적에 따라 달라질 것입니다.
     

In conclusion, we emphasize the following. First, assessments are really diagnostic tests, and both in medicine and in education they can be viewed as interventions. Second, consequences validity evidence looks at the impact of assessments (as interventions) on examinees and other stakeholders, and the defensibility of score classifications (“preconsequences” evidence). Such consequences can arise from score use or the assessment activity itself, and can be intentional or unintended and beneficial or harmful. Third, consequences validity evidence is the most important source of evidence because if the assessment does not have the desired impact, it should not be used. Finally, the type, quantity, and rigor of consequences evidence will vary depending on the assessment and the claims for its use.



 

 

 




 2016 Jun;91(6):785-95. doi: 10.1097/ACM.0000000000001114.

Consequences Validity EvidenceEvaluating the Impact of Educational Assessments.

Author information

  • 1D.A. Cook is professor of medicine and medical education, associate director, Mayo Clinic Online Learning, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine, Rochester, Minnesota. M. Lineberry is assistant professor of medical education, Department of Medical Education, and assistant director for research, Graham Clinical Performance Center, University of Illinois at Chicago, Chicago, Illinois.

Abstract

Because tests that do not alter management (i.e., influence decisions and actions) should not be performed, data on the consequences of assessment constitute a critical source of validity evidenceConsequences validity evidence is challenging for many educators to understand, perhaps because it has no counterpart in the older framework of content, criterion, and construct validity. The authors' purpose is to explain consequences validity evidence and propose a framework for organizing its collection and interpretation.Both clinical and educational assessments can be viewed as interventions. The act of administering or taking a test, the interpretation of scores, and the ensuing decisions and actions influence those being assessed (e.g., patients or students) and other people and systems (e.g., physicians, teachers, hospitals, schools). Consequences validity evidence examines such impacts of assessments. Despite its importance, consequences evidence is reported infrequently in health professions education (range 5%-20% of studies in recent systematic reviews) and is typically limited in scope and rigor.Consequences validity evidence can derive from evaluations of the impact on examinees, educators, schools, or the end target of practice (e.g., patients or health care systems); and the downstream impact of classifications (e.g., different score cut points and labels). Impact can result from the uses of scores or from the assessment activity itself, and can be intended or unintended and beneficial or harmful. Both quantitative and qualitative research methods are useful. The type, quantity, and rigor of consequences evidence required will vary depending on the assessment and the claims for its use.

PMID:
 
26839945
 
DOI:
 
10.1097/ACM.0000000000001114
[PubMed - in process]


+ Recent posts