타당도: 한 단어, 여러 의미(Adv in Health Sci Educ, 2016)

Validity: one word with a plurality of meanings

Christina St-Onge1 • Meredith Young2 • Kevin W. Eva3 • Brian Hodges4




도입

Introduction


타당도는 일반적으로 측정할 개념, (개발된) 평가 도구, (사용된) 분석 접근법, 평가 결과의 선택에 필요한 정보를 주는 퀄리티 평가의 표지로 간주된다(AERA 등 1999). 즉, '타당도는 평가의 필수불가결한 것이다. 왜냐하면 타당도가 없다면 의학교육에서 평가는 아무런 의미가 없기 때문이다' (Downing 2003). 이와 같이 타당도는 흔히 도구의 퀄리티를 '증명attest'하고 입학부터 실무에 이르기까지 높은 보건 전문직 교육에서 고부담 평가의 사용을 정당화하기 위해 사용된다. 다른 말로 하자면, [무엇이 타당한가]에 대한 결정이 개인과 사회에 영향을 미치기 때문에타당도는 다른 사람들에게 특정한 도구, 분석 절차 또는 시험 점수가 높은 품질 기준을 충족한다는 것을 확신시키기 위해 사용되는 수사학적 '갓-텀'(Lingard 2009)이 되었다.

Validity is generally considered a beacon of quality assessment, informing the choice of concepts measured, assessment tools developed, analytic approaches used, and interpretation of assessment results (AERA et al. 1999). That is, ‘‘Validity is the sine qua non of assessment, as without evidence of validity, assessments in medical education have little or no intrinsic meaning’’ (Downing 2003). As such, validity is often used to ‘attest’ to the quality of tools and to justify the use of assessments in health professions education where stakes are high from admissions to entry into practice. In other words, because decisions about what is considered valid impact upon individuals and society, validity has become a ‘god term’ (Lingard 2009) that is used rhetorically to convince others that particular instruments, analytic procedures, or test scores collected meet high standards of quality.


그러나 최근 몇 가지 리뷰에서 문서화한 바와 같이, HPE(Health Professions Education) 내에서 '타당도'이라는 용어를 사용하는 방식에는 명백한 불일치가 있다(Cook et al. 2013, 2014). 그러한 가변성을 지적하는 작가는 일반적으로 (적어도 암묵적으로) 이러한 불일치의 원인이 현대 이론과 타당도에 대한 접근에 관한 무지에 의한 것이라고 가정한다. 그러나 타당화 관행의 variability는, 부분적으로, 서로 다른 영역의 사람들에게, 서로 다른 방식으로 가치를 제공하는, 서로 다른 타당도의 개념화로부터 발생할 수 있다고 생각할 수 있다.

There is clear inconsistency, however, in the way the term ‘validity’ is used within Health Professions Education (HPE), as documented by several recent reviews (Cook et al. 2013, 2014). Authors who point to such variability commonly assume (at least implicitly) that it is driven by ignorance regarding modern theories and approaches to validity. It is conceivable, however, that the variability in validation practices could arise, in part, from different conceptualizations of validity that provide value to those who work in health professions education in different ways.


HPE은 교육심리학, 측정학, 사회학, 실험심리학 등 여러 분야의 전문가로부터 지속적으로 정보가 유입되는 응용분야로, 이 모두가 분야의 방법론적, 개념적 풍요로움에 기여한다. 그러나 이러한 '풍요로움richness'은 [타당도의 상이한 개념화]를 유발하고, 이는 서로 다른 우선순위로 이어질 수 있으며, 따라서 혼동, 오해, 갈등을 유발할 수 있는 다수의 해석과 이해의 원인이 될 수 있다.

Health professions education is an applied field full of practitioners that is continuously informed by many different disciplines, including educational psychology, measurement, sociology and experimental psychology, all of which contribute to the methodological and conceptual richness of the field. This ‘richness’, however, may lead to different priorities that are supported by differing conceptualizations of validity, thereby generating multiple interpretations and understandings that have the potential to create confusion, miscommunication, and conflict.


타당도에 대한 [묵시적 개념화]와 [상이한 개념화]의 공존은 문제가 있다. 왜냐하면 HPE에서 매일 중대한 결정이 평가 점수의 '퀄리티'에 크게 의존하는 방식으로 이뤄지기 때문이다(예: 개인이 자신이 선택한 직업에 접근할 수 있는 능력, 잘못 인지된 상황에 직면했을 때 법적 상환legal recourse, 그리고 가장 일반적으로 그리고 중요한 것은 환자가 받는 치료의 질이다.) 평가 점수의 '방어가능성'과 그러한 점수의 '정확성'에 대한 개념은 생산된 점수의 타당도에 관한 논쟁에 강하게 놓여 있다.

The co-existence of implicit and different conceptualizations of validity is problematic because important decisions are made every day within the health professions that rely heavily on the ‘quality’ of assessment scores (e.g., individuals’ access to a career of their choice, legal recourse when faced with perceived fault, and most generally and importantly, the quality of care received by patients). Notions of the ‘defensibility’ of assessment scores and the ‘accuracy’ of such scores rest strongly on arguments regarding the validity of the scores produced.


목적

Purpose


이 연구의 주된 목적은 담화 분석을 사용하여 보건 직업 교육에서 '타당도'이라는 용어가 사용되는 다양한 방법을 식별하는 것이었다.

The primary purpose of this study was to use discourse analysis to identify the different ways in which the term ‘validity’ is used within health professions education.


방법

Method


설계

Design


우리의 연구는 담론 이론(Mills 2004)에 기반을 두고 있으며, 따라서 담론 분석의 방법론을 채택하고 있다. 우리의 접근방식은 주로 Hodges 등이 '경험적 담화 분석'라고 명명한 것을 따르고 있으며, 보건 직업 교육 문헌의 텍스트와 언어로 타당도가 구성되는 방법에 일차적으로 초점을 맞추고 있다.

Our research is based on discourse theory (Mills 2004) and thus employs a methodology of Discourse Analysis. Our approach is primarily what Hodges et al. (2008) have labeled ‘empirical discourse analysis’—having a primary focus on ways validity is constructed in text and language in the health professions education literature.


자료(아카이브)

Data (Archive)


토론 분석은 관심의 소지를 식별하기 위해 분석되는 텍스트 및 기타 자료의 식별에서 시작된다(Hodges et al. 2008). 우리는 주로 우리의 연구 기록보관을 보건직 교육원들로 제한했다. 그 목적은 그 분야에서 일하는 사람들에 의해 어떻게 그 건축물이 변형적으로 사용되는지를 탐구하는 것이기 때문이다.

Discourse analysis begins with identification of an archive—the textual and other materials that are analyzed to identify discourses of interest (Hodges et al. 2008). We predominantly restricted our study archive to sources from health professions education because the purpose was to explore how the construct is variably used by people working in that field.


이 연구를 위해 조립된 기록보관소는 4단계 과정으로 구축되었으며, 타당도와 평가를 주제로 한 영어와 프랑스어 출판된 동료 검토 논문과 책으로 구성되어 있다.

The archive assembled for this research was constructed in a four-step process and is comprised of English and French published peer-reviewed articles and books on the topic of validity and assessment.


1단계 본 논문의 모든 저자들은 프레임 평가 관행 측면에서 '매우 중요'하다고 간주한 개인 소장품으로부터 보건 전문직 교육 분야의 타당도와 평가에 관한 5개 내지 6개의 주요 논문을 식별했다. 한 작가(CSO)는 이 텍스트를 비판적으로 검토하여 새로운 언어와 타당도에 대한 개념을 식별하였다.

Step 1 All authors of this paper identified five to six key papers on validity and assessment in the field of health professions education fromtheir personal collection that they considered to be ‘very important’ in terms of framing assessment practices. One author (CSO) reviewed the texts critically to identify emerging language and concepts about validity.


2단계 이 문서 모음에서 인용한 내용은 이차 출처를 포함하도록 아카이브를 확장하기 위해 검토되었다. 한 작가(CSO)는 새롭게 대두되는 담론을 추가로 파악하기 위해 이 텍스트들을 검토했다.

Step 2 The references from this collection of papers were examined to expand the archive to include secondary sources. One author (CSO) reviewed these texts in order to further identify emerging discourses.


3단계 PubMED, ERIC 및 PsycINFO/PsycLit을 사용하여 보건 전문직 교육 문헌에 대한 보다 공식적인 검색을 포함하며, 학술적 사서의 도움을 채용했다. 이 검색의 목표는 1995년에서 2013년 사이에 건강 전문직 교육에서 '평가 타당도'을 주제로 출판된 더 큰 기사의 집합을 확인하는 것이었다. 검토는 전통적인 체계적 검토를 수행하기 보다는 보관소의 폭과 범위를 증가시킬 목적으로 잘린truncated 키워드를 사용하여 실시되었다(valid*, assess*). 즉, 목표는 이 검색으로 포괄적이거나 매우 정밀한 포함/제외 기준을 설정하는 것이 아니라 가능한 한 많은 타당도 개념화를 포함하는 것이었다. 기록보관소에 대해 고려되기 위해서, 기사는 보건 직업 교육 분야에서 평가의 맥락에서 타당도 문제를 다루어야 했다.

Step 3 Involved a more formal search of health professions education literature using PubMED, ERIC, and PsycINFO/PsycLit, employing the assistance of an academic librarian. The goal of this search was to identify a larger set of articles, published between 1995 and 2013, on the topic of ‘validity of assessment’ in health professions education. The review was conducted using the truncated key words valid* and assess* with the intention of increasing the breadth and coverage of the archive rather than with the aim of undertaking a traditional systematic review. In other words, the goal was not to be comprehensive with this search or to set very precise inclusion/exclusion criteria, but was to be as inclusive of as many validity conceptualizations as possible. To be considered for the archive, an article had to address the topic of validity in the context of assessment in the field of health professions education.


4단계 위에서 언급한 검색은 2013년부터 2015년까지 주요 작성자가 설정한 콘텐츠 경고 표에 의해 플래그가 표시된 텍스트로 보완되었다. 한 저자(CSO)는 이러한 목표를 염두에 두고 논문의 포함/제외를 평가하기 위해 문헌검색에서 검색된 모든 제목과 추상화를 검토하였다.

Step 4 The above mentioned search was complemented by texts from 2013 to 2015 flagged by Table of Content alerts set by the principal author. One author (CSO) reviewed all titles and abstracts retrieved from the literature search to assess the inclusion/exclusion of papers with these goals in mind.


절차

Procedure


분석

Analysis


분석은 반복적이었으며, 연속적인 각 단계에서 순차적으로 담론표를 작성했고, 팀의 집단적 및 개별적 전문지식(추후 기술)과 그 결과로 나타나는 내재적 관점을 통해 이를 알게 되었다. 담론의 요소(핵심어, 개념, 주장, 관련 개인과 제도)가 더욱 명확하게 규명됨에 따라 결국 표 1의 구축으로 이어지는 패턴으로 분류되었다.

The analysis was iterative, building the discourse table sequentially at each successive stage and it was informed by the team’s collective and individual expertise (that are subsequently described) and the inherent perspectives that result. As elements of discourse (key words, concepts, arguments, associated individuals and institutions) were more clearly identified, they were sorted into patterns that eventually led to the construction of Table 1.



결과

Results


연구된 기록 자료에서 세 가지 다른 담론이 확인되었다. 

(1) 시험 특성으로서의 타당도, 

(2) 논쟁 기반 증거-체인으로서의 타당도, 

(3) 사회적 의무로서의 타당도.

Three different discourses were identified in the archival materials studied: (1) Validity as a test characteristic, (2) Validity as an argument-based evidentiary-chain and (3) Validity as a social imperative.


  • 시험 특성으로서의 타당도는 타당도가 도구의 본질적 속성이며 따라서 내용 및 문맥에 독립적인 것으로 보일 수 있다는 개념에 의해 뒷받침된다.

Validity as a test characteristic is underpinned by the notion that validity is an intrinsic property of a tool and could, therefore, be seen as content and context independent.


  • 주장에 기초한 증거-체인으로서의 타당도는 타당도가 도구/장치에 속하지belong 않도록 지속적인 분석을 통해 평가 결과의 해석을 지원하는 것의 중요성을 강조한다. 프로세스 기반 검증(타당도란 목표가 아니라 여정)이 강조된다.

Validity as an argument-based evidentiary-chain emphasizes the importance of supporting the interpretation of assessment results with ongoing analysis such that validity does not belong to the tool/instrument itself. The emphasis is on process-based validation (emphasizing the journey instead of the goal).


  • 사회적 의무로서의 타당도는 긍정적이든 부정적이든 개인과 사회 수준에서 평가의 결과를 예견한다.

Validity as a social imperative foregrounds the consequences of assessment at the individual and societal levels, be they positive or negative.


시험의 특성으로서 타당도

Validity as a test characteristic


이 담화에서 타당도는 흔히 "시험이 실제로 측정하고자 하는 것을 측정하는 정도"로 정의된다(Anastasi 1988, 페이지 28). 문자 그대로 액면가로서 그러한 정의는 타당도 주장을 도구 자체의 특성(즉, 본질적으로 도구에 속하는 것)에 대한 진술로 취급한다. 이와 같이 도구에 내재된 속성으로서의 타당도는 내용, 컨텍스트, 시간이 바뀌어도 유지된다. 종종 이 담론과 연관되어 발견되는 개념은 "시험은 상관관계가 있는 모든 것에 대해 타당valid하다"(길포드 1946, 페이지 429)라는 문장에서 예시된 개념이다. 이 담론을 사용하여 도구가 '타당한' 것으로 '낙인 찍히면' 그 도구는 그 품질을 무한정 유지하는 것처럼 취급된다.

In this discourse, validity is often defined as ‘‘the degree to which the test actually measures what it purports to measure’’ (Anastasi 1988, p. 28). Taken literally and at face value, such a definition treats claims of validity as statements about a characteristic of the tool itself (i.e., something that inherently belongs to the tool). As such, validity as a property inherent in a tool spans domains of content, context, and time. Often found associated with this discourse is a concept illustrated by the statement: ‘‘a test is valid for anything with which it correlates’’ (Guilford 1946, p. 429). Once a tool is branded as ‘valid’ using this discourse, the tool is treated as though it retains that quality indefinitely.


따라서 시험 특성으로서의 타당도는 그 도구를 승인해주는 '금도장'으로 생각할 수 있다. 예를 들어, 이 담론을 사용하는 사람들은 MCQ(다중 선택 질문)가 지식의 타당한 척도라고 말할 수 있다. 따라서 그들은 필기 시험을 만들 때 주어진 형식을 따르는 것만으로도 방어될 수 있다. 다음은 타당도의 '골드 씰'을 달성한 것으로 프레임된 도구에 대한 사례 몇 가지이다.

Validity as a test characteristic, therefore, can be thought of as a ‘gold seal of approval’. As an example, those employing this discourse would say that Multiple Choice Questions (MCQs) are a valid measure of knowledge, full stop. Thus they can be defended as the goto format when creating written exams. Here are a few examples of claims about tools that are framed as having achieved a ‘gold seal’ of validity:


증거는 JSE[Jefferson Scale of Empathy]가 의료 분야에서 의대생과 의사에게 타당valid하고 신뢰할 수 있는 공감의 척도가 된다는 것을 보여주었다. (Van Winkle et al. 2013, 페이지 219 - 저자)

Evidence has shown the JSE [Jefferson Scale of Empathy] to be a valid and reliable measure of empathy in medical students and physicians in the context of healthcare. (Van Winkle et al. 2013, p. 219 -emphasis by authors)


타당도를 도구의 품질로 간주하는 경우, 주어진 영역(지식, 기술, 전문성 등)에 대해 [가장 타당한 것으로 보일 수 있는 하나의 우수한 도구가 있을 수 있는 가능성]이 열린다. 따라서 이러한 담론은 측정하려는 내용이나 능력과는 무관한, '최고의' 평가 도구를 식별하기 위한 탐색, '성배'를 찾기 위한 퀘스트를 가능하게 한다.

When one considers validity to be a quality of a tool, the door is opened for the possibility that for any given domain (knowledge, skills, professionalism, etc.) there could be one superior tool that could be shown to be the most valid. Thus, this discourse makes possible the quest for ‘holy grails’ of assessment, a quest to identify the ‘best’ assessment tools, independent of content or ability to-be-measured.


MCQ 테스트는 서면 평가의 가장 효율적인 형태로서, 콘텐츠의 광범위한 적용범위에 의해 신뢰성과 타당도를 갖는다. (McCoubrie 2004, 페이지 711 - 저자 강조)

MCQ testing is the most efficient formof written assessment, being both reliable and valid by broad coverage of content. (McCoubrie 2004, p. 711 -emphasis by authors)


흥미롭게도, 우리는 시험적 특징으로서의 타당도의 담론을 비판적으로 평가하는 일부 사람들은 이를 '구식', '논쟁적', '가치 결여'라고 주장한다.

Interestingly, we found that the discourse of validity as a test characteristic is judged harshly by some who argue that this view is ‘antiquated’, ‘controversial’, or ‘lacking in value’.


우리는 종종 '타당화된 도구'라는 말을 듣는다." 이 개념화는 그 도구가 타당하거나 그렇지 않다는 이분법을 암시한다. 이 견해는 부정확하다. 첫째로, 타당도는 추론의 속성이지, 기구가 아니라는 것을 기억해야 한다. 둘째, 해석의 타당도는 항상 정도의 문제다. 도구에서 얻은 점수는 기초 구조를 더 정확하거나 덜 정확하게 반영하지만 결코 완벽하지 않다. (Cook and Beckman 2006, p. 166e10)

We often read about ‘‘validated instruments.’’ This conceptualization implies a dichotomy—either the instrument is valid or it is not. This view is inaccurate. First, we must remember that validity is a property of the inference, not the instrument. Second, the validity of interpretations is always a matter of degree. An instrument’s scores will reflect the underlying construct more accurately or less accurately but never perfectly. (Cook and Beckman 2006, p. 166e10)


타당도 범주를 고려할 때, 타당도 증거는 다양한 정도까지 존재한다고 이해되지만, 평가가 '타당하다'라고 할 수 있는 threshold는 없다. (벡먼 외) 2004, 973쪽

When considering categories of validity, it is understood that validity evidence exists to various degrees, but there is no threshold at which an assessment is said to be valid. (Beckman et al. 2004, p. 973)


그러나 보건 전문직 교육 문헌에 이러한 타당도 담론이 지속적으로 존재함에 따라 '즉각적 해결책'이 필요한 개인(예: '타당한' 평가 프로그램, 도구, 접근법을 새로 만들려는 열망/지식/자원이 없는 교육자와 관리자)가 필요로하는 실용적 필요성을 충족시킬 수 있음을 시사한다. 타당도의 담론을 시험 특성으로 사용하면, 자원이나 심리학적 전문지식이 부족한 상황에서도, 퀄리티가 높다고 보고된 도구를 사용하여 평가와 관련된 과제를 극복할 수 있기 때문이다. 즉, '이미 발견된found' 해결책의 사용이 가능한 것이다.

However, the continued presence of this discourse of validity in the health professions education literature suggests that it may fill a pragmatic need for individuals who require ‘off-the-shelf solutions’ (e.g., educators and administrators who do not have the desire, knowledge, or resources to create ‘valid’ assessment programs, tools, or approaches de novo). Using the discourse of validity as a test characteristic permits the possibility of ‘found’ solutions to overcome the challenges associated with assessing students and future professionals using tools reported to be of high quality in a context of limited resources or limited psychometric expertise.


...대학 차원의 가용자원으로 타당하고 신뢰할 수 있는 역량 평가를 개발하기는 쉽지 않다.(로버트 외 2006, 저자의 542 강조)

…Developing a valid and reliable assessment of competence is not easy to achieve with the resources available at the university level. (Roberts et al. 2006, p. 542 emphasis by authors)


우리는 타당도를 시험의 내재된 특성으로 강조함으로써 다른 효과에 대해 추측할 수 있다. 시험의 불변성 속성으로서의 타당도는 평가 실무자에게 잘못된 안전의식을 심어줄 우려가 있다. 평가자는 평가도구의 '금도장gold seal'에 대해 의문을 제기하거나 다시 확인해볼 필요성을 전혀 느끼지 못할 수 있다. 예를 들어, MCQ 시험 형식을 사용하는 것은, 할라디나 등 2002년에 제시된 것과 같은 항목 작성 지침이나 MCQ가 사용되는 맥락적 성격을 고려하지 않고 '타당하다valid'(McCoubrie 2004)고 들었기 때문이다. 이런 것이 이 담론에 존재하는 사각지대의 사례이다. 마찬가지로 적절한 청사진이나 문제가 있는 시나리오에 대한 주의vigilance 없이 OSCE나 MMI와 같은 평가 접근방식을 배치하는 것을 선택하는 것은 맥락적으로 의미 있는 평가를 달성하려는 [원래 의도했던 목적]을 어렵게 만들 수 있다(Eva 및 Macala 2014). 더욱이 원래 연구한 용도 이외의 목적으로 또는 원래 맥락을 넘어서는 목적으로 시험을 사용하는 것도 (부정적) 결과를 초래할 수 있다.

We can speculate about some of the effects of emphasizing validity as a test characteristic over other discourses of validity. Validity as an immutable property of a test has the potential to create a false sense of security for assessment practitioners, who may never feel the need to question or re-evaluate an instrument’s ‘gold seal’. Using an MCQ exam format, for example, because it is said to be ‘valid’ (McCoubrie 2004) without consideration for item-writing guidelines such as those put forward in Haladyna et al. 2002), or the nature of the context in which the MCQs are used, is an example of such a blind spot. Similarly, choosing to put in place an assessment approach like OSCEs or MMIs without proper blueprinting strategies or without vigilance for problematic scenarios may defeat the intended purpose of achieving a contextually meaningful assessment (Eva and Macala 2014). Moreover, using tests beyond their original contexts or for purposes other than the originally studied uses can have consequences.


잘못된 인간에 대한 측정:

IQ 테스트가 지능을 하나의 탈맥락화된 점수로 수량화할 수 있다는 전제를 가지고 이뤄진 결과, 어떻게 새로운 맥락(이민 목적 등)에서 사용된 다음, IQ 점수에 근거하여 특정 인종-민족 집단을 '지능이 낮은 사람'으로 표기하는 등의 부적절한 결론을 도출해 왔는가.

The Mismeasure of Man: 

how the IQ test, based on the premise that intelligence can be quantified in a single, decontextualized score, has been used in novel contexts (such as for immigration purposes) to draw inappropriate conclusions such as labelling of entire ethno-cultural groups as ‘less intelligent’ based on test scores.



인수 기반 증거-체인으로서의 타당도

Validity as an argument-based evidentiary-chain


이 담론을 사용할 때, 타당도는 논쟁 기반 증거-체인으로 구체화되며, "평가 결과에 할당된 의미나 해석을 뒷받침하거나 반박하기 위해 제시된 증거"로 정의된다(2003년, 페이지 830). 이 담론에서의 타당도는 때때로 (이전의 담론에서와 같이) 특정 도구에 초점을 맞추지만, 타당도 자체는 매우 맥락의존적으로 본다. 여기서는 타당도 확인 프로세스를 통해 달성할 수 있는 점수의 타당한 해석에 초점을 맞추고 있다. 즉, 시행된 각각의 시험마다 (기초 이론/예측과 관련하여) 평가 결과의 해석을 뒷받침할 수 있는 충분한 증거가 있는지 검증한다. 여기서 명사 'validation'과 동사 'to validated'가 주로 나타나지만, 형용사 'validated'라는 문구는 절대 사용하지 않는다. 이는 평가되는 도구의 품질이 아니라 도구 사용의 적절성이라는 개념과 평가 프로세스를 구현하는 방식에 따라 시험자의 성과나 평가 점수에서 도출된 해석과 결론을 반영한다.

When this discourse is used, validity is framed as an argument-based evidentiary-chain and defined as ‘‘the evidence presented to support or refute the meaning or interpretation assigned to assessment results’’ (Downing 2003, p. 830). Though validity in this discourse does sometimes focus on particular tools (as in the previous discourse), validity itself is seen as highly contextual. The focus is on the valid interpretation of scores that can be achieved via a validation process used to verify that there is sufficient evidence in each administration of a test to support the interpretation of the assessment results in relation to the underlying theory/expectations. Here, the adjective ‘validated’ never appears while the noun ‘validation’ and the verb ‘to validate’ are common. This reflects the notion that it is not the quality of the tool that is judged but rather the appropriateness of the uses of the tool, and the interpretations and conclusions drawn from the examinees’ performance or assessment scores given the way the assessment process was implemented.


예를 들어, certification 시험의 타당화validation 프로세스는 임상 시뮬레이션을 주의 깊게 작성하고, 실제로 구현하며, 표준화했다는 문서화뿐만 아니라, 원하는 역량을 획득한 후보만 합격하고, 역량을 숙달하지 못한 후보만 시험에 불합격하도록 하는 것을 목적으로 할 수 있다. 그러나 중요한 것은 이 근거출처와 그에 기반한 certification 시험의 타당도 판단은 이 한 가지 사례에만 적용될 것이다. 그 다음에 사용할 때, 그리고 그 다음에 생성된 결과는 또 다른 타당도 검사를 필요로 할 것이다.

For example, a validation process for a certification exam might aim to document that clinical simulations were created carefully, implemented authentically, and standardized as well as ensuring that only the candidates who have acquired the sought after competences pass and only the candidates who do not master the competences fail the exam. Importantly, however, these sources of evidence and the determination of validity of the certification examinations would apply only to one instance of its use. Subsequent usages and the results generated would require repeated validation.


논쟁 기반 증거-체인으로 타당도 담론을 채택하는 사람들에게, 데이터/점수의 사용과 해석을 뒷받침하거나 반박하기 위한 증거를 제공하기 위해 '타당도'을 사용한다는 점에서 [과학적 방법]에 비유될 수 있다. 이 담론에서는 증거가 계속 축적되면서 결론이 바뀔 수도 있다고 인식한다. 따라서 타당도 과정을 평가 목적을 정의한 후 구현되는 여정으로 특징짓기도 한다. 타당화 과정의 목표는 검증 프로세스에서 가능한 한 많은 증거를 수집하고, 특정 테스트에서 생성된 데이터의 타당도 정도를 알려주는 변수/요소를 식별하는 것이다. 이 뿐만 아니라, 타당도 주장을 이해하고, 그 한계를 설정하는 것이다.

For those employing the discourse of validity as an argument-based evidentiary-chain, there is an analogy to the scientific method in that ‘validation’ is used to provide evidence to support or refute the use and interpretation of data/scores. There is also recognition that conclusions may change as evidence continues to accumulate. It is thus characterized by some as a journey on which one embarks after having defined the assessment purpose(s). The goal is to collect as much evidence as possible in a validation process and to identify variables/factors that inform the degree to which data produced by a particular test are valid but also to understand and set limits on claims of validity.


이 담론의 사용자들은, 이론에 근거한 평가 전략을 만든 다음, 관찰된 결과가 토대를 이루는underlying 이론의 예상 징후를 보여주는지를 평가하는 것을 목표로 한다.

Users of this discourse aim to create assessment strategies that are based on theories and then evaluate if the observed results show evidence of expected manifestations of the underlying theory.


이 담론은 타당화 접근법과 표준을 전면에 배치하며, 두 저자 메식(1995)과 케인(2006)은 이 담론의 anchor authorities으로 매우 자주 인용된다. 따라서 [논쟁 기반 증거 체인으로서의 타당도]는 [평가에 의해 생성된 점수의 품질에 대해 (권위 있게 말하고자 하는 경우) 적용할 일련의 규칙과 규정]을 만든다.

this discourse places validation approaches and standards at the forefront, and two authors—Messick (1995) and Kane (2006)—are very frequently cited as anchor authorities for this discourse. Validity as an argument-based evidentiary-chain thus creates a set of rules and regulations to be applied if one wants to speak authoritatively about the quality of the scores generated by an assessment.


이러한 담론은 타당도 및 검증 관행을 규제하는 교육 및 심리 테스트 표준 SERT (AERA 등 1999년), 교육 테스트 서비스 ETS 및 기타 기관과 같은 공식화된 평가 기관과 강하게 관련되어 있는 것으로 보인다. 더욱이, 이러한 기관들은 권장되는 관행recommended practice을 적용하고 집행하는 고도로 자격을 갖춘 사람들의 역할을 정당화한다.

This discourse appears to be strongly associated with formalized assessment institutions such as; the Standards for Educational and Psychological Testing (AERA et al. 1999), the Educational Testing Service, and others that regulate validity and validation practices. Moreover, these institutions legitimize the role of highly qualified people who apply and enforce the recommended practices.


이 타당도 담론을 과도하게 강조할 때 발생할 명백한 결과는 [검증 과정이 절대 끝나지 않는 과정이 될 것]이라는 점이다(Bertrand and Blais 2004). "타당도 및 평가 검증 및 개정'은 절대 끝나지 않는 사이클이다(Beckman 등). 2009년, 페이지 188)". 게다가, 점수 해석을 위해 다른 형태의 증거들을 어떻게 따져볼지에 대한 명확한 규칙이 없는 것 같다. 따라서 [수집된 타당도 근거와 새로운 점수 해석]을 해석하고 통합할 필요가 있기 때문에, QA 프로세스에 지속적으로 engage해야만 한다(Cook et al. 2015).

An apparent consequence of an over-emphasis of this discourse of validity is that the validation process would become a never-ending process (Bertrand and Blais 2004): ‘‘validity and assessment validation and revision is a never-ending cycle’’ (Beckman et al. 2009, p. 188). In addition, there appear to be no clear rules about how to weigh the different forms of evidence for different score interpretations. Thus, one can remain engaged in a continuous quality assurance process with the need to interpret and incorporate each new piece of validity evidence collected and each new score interpretation (Cook et al. 2015).


마지막으로, 이러한 담론을 강조함에 따른 또 다른 결과는, '내용 전문가content exprt'들이 실제로 좋은 성과를 정의하는 것이 무엇인지를 '알고' 있지만, (보다 공식화된 검증 프레임워크에 따르려면) 이들의 판단은 증거체인에서 relevant하거나 reliable해보이지 않기 때문에 평가 과정에서 저평가될 수 있다는 것이다. 즉, [타당도의 근거로 간주되는 것을 너무 협소하게 바라볼 경우], 자신의 전문직을 규제할 책임이 있는 전문가에게 상황에 맞춘 적절하고 중요한 평가 전략의 결정능력이 주어지지 않을 수 있다.

Finally, one further consequence of emphasizing this discourse is that little consideration may be given to content experts who feel that they ‘know’ what defines good performance in practice but who may become undervalued in the assessment process because their judgement does not seem relevant or reliable in the evidentiary-chain according to the more formalized validation frameworks. In other words, the professionals who are responsible for regulating their own profession may experience lessened capacity to determine contextually appropriate and important strategies for assessment if too narrow a lens is placed on what counts as evidence of validity.


검증의 증거-체인을 지원하기 위해 데이터를 수집하는 데 시간과 리소스가 필요하다. 이것은 임상 실습과 교육에서 최전선에서 일하는 사람들에게 어려울 수 있다. 그들은 또한 (더 많은 적시point-in-time 시험 전략을 위해 수집할 수 있는 증거의 덩어리를 모으는 것이 더 어려운) '주관적subjective' 또는 '관찰적observational'으로 보이는 평가를 채택할 때 저항에 직면할 수 있다.

Time and resources are required to collect data to support an evidentiary-chain of validation. This may prove difficult for those working at the front lines in clinical practice and education settings. They may also face resistance when employing assessments that are seen as ‘subjective’ or ‘observational’ for which it is more difficult to assemble the mass of evidence that can be gathered for more point-in-time testing strategies.


사회적 의무로서의 타당도

Validity as a social imperative


사회적 의무으로서의 타당는, 개별적으로 취했을 때, 대부분의 독자들에게 친숙하게 보일 수 있는 몇 가지 요소들로 새롭게 부상하는 담론이다. 이 담론은 처음 두 가지 담론보다 새로이 등장한 것으로, 다양한 종류의 전문성, 관점, 이해관계자(관리자, 연구원, 정책 분석가 등)의 역할을 강조한다. 사회적 의무로서의 타당도는 개인 및 사회 수준에서 평가의 결과에 대한 신중한 고려를 포함하는 평가에 대한 사회 주도적 관점으로 나타났다. 이러한 담론은 보다 광범위한 개인 및 사회 문제를 전망함으로써, 특정 도구에 대해 한 가지만 고려하지 않고sole consideration, 이를 뛰어넘는 '조감도'를 취한다는 것이 특징이다. 

Validity as a social imperative is an emerging discourse with several components that, when taken individually, may seem familiar to most readers. This discourse is newer and informed by different kinds of expertise, perspectives, and stakeholders (administrators, researchers, policy analyst, etc.) than the first two discourses. Validity as a social imperative appeared in our archive as a socially driven perspective on assessment that includes calls for deliberate consideration for the consequences of assessment at both individual and societal levels. This discourse appears to be characterized by taking a ‘bird’s eye view’ of assessment that foregrounds broader individual and societal issues and that goes beyond the sole consideration of specific tools.


시험의 결과에 주의를 기울이는 것은 반드시 이 신흥 담론에만 국한되는 것은 아니며, 위에서 설명한 타당도의 증거적 개념과 더 일반적으로 관련이 있는 저자를 찾을 수 있다. 어느 정도, 사회적 의무로서의 타당도는 증거-체인으로서의 타당도에서 뻗어나온 결과물outgrowth일 수 있다. 우리가 [사회적 의무]를 별개의 담론으로 식별하려는 이유는, '사회적 의무'로 타당도를 사용하는 사람들은 [평가 개발 및 검증 프로세스 전반에 걸쳐 나타나는 평가의 사회적 결과]를 특히 중요시하는 것처럼 보이기 때문이다. 이와는 대조적으로, 증거-체인 담론에 포함되는 경우, 평가의 결과는 많은 변수 중 하나일 뿐이며, 일반적으로 전혀 고려되지 않을 경우 사소한 변수일 뿐이다. 또한 사회적 의무로서의 타당도의 담론은 학습자를 넘어 보다 거시적 사회 수준에서 영향을 포함하도록 평가 결과의 개념을 확장시킨다.

Giving attention to the consequences of a test is not necessarily unique to this emerging discourse and can be found authors who are more commonly associated with the evidentiary-chain notion of validity described above. To some degree, validity as a social imperative may be an outgrowth of validity as an evidentiary-chain. Our argument for identifying it as a discrete discourse arises from the observation that those who employ validity as a social imperative seem to foreground social consequences of assessment throughout assessment development and validation processes. By contrast, when included in the evidentiary-chain discourse, consequences of assessment are just one of many variables, usually a minor one if considered at all. This discourse of validity as a social imperative also expands the idea of consequences of assessment beyond learners to include impacts at a more macro societal level.


...참가할 가치가 있는 10%를 선정하는 과정에서(따라서 사회에서 존경받고 보수가 좋은 자리를 보장한다) 우리는 나머지 90%에게 그들이 가치 없는 사람이고, 그들이 충분히 좋지 않으며, 개인적인 결함을 가지고 있다고 말하고 있다. (노먼 2004)

…in the course of selecting the 10 % who are worthy of admission (and hence guaranteed an esteemed and well-paid place in society), we are telling the other 90 % that they are unworthy; that they are not good enough, that they have personal failings. (Norman 2004)


이러한 타당도 담론을 채택하는 사람들은 평가 목적에 대한 프로그램적 관점에 부합하는 경향이 있기 때문에, 이 담론의 지지자들은 사후 분석에는 주의를 덜 기울이는 것 같다. 오늘날 작가들은 평가를 도입하기 전에 [평가 전략의 개념적 계획 및 평가에 대한 목적적 접근의 우선 순위 지정을] 더욱 강조해 왔다. 또한 평가 후에는 [(평가 수행 후 문제를 식별하고 해결하는 데 초점을 맞춘평가의 품질에 대한 분석적 점검]보다 [의도하지 않은 결과의 최소화]를 강조해왔다예를 들어, 개별 평가 도구에 의해 생성된 데이터에서 시험 데이터가 결합되는 방식으로 강조점이 이동하기도 한다. 

Because those who adopt this discourse of validity tend to align themselves with a programmatic perspective on the purpose of assessment, proponents of this discourse seem to give less attention to post hoc analyses. Writers today have put greater emphasis on conceptual planning of an assessment strategy and prioritizing a purposeful approach to assessment by using tools and strategies a priori (prior to its administration) and minimizing unintended consequences over analytic checking of the quality of assessment results a posteriori, practices that focus on identifying and addressing issues post administration. For example, there is also a shift in emphasis from data generated by individual assessment tools to the way in which testing data are combined.


[(거의) 완벽한 평가도구의 조합]보다 오히려 [덜 완벽한 평가도구의 세심한 결합]이 결과적으로는 더 나을 것이다. 즉, 중요한 것은 있는 것은 빌딩블록의 퀄리티 뿐만 아니라, 빌딩블록을 결합하는 방식이다. (슈워스와 반 데르 블뤼텐 2012, 페이지 39)

A combination of (near-) perfect instruments may result in a weaker programme than a carefully combined set of perhaps less perfect components. In other words, it is not only the quality of the building blocks that is relevant, but also the ways in which they are combined. (Schuwirth and van der Vleuten 2012, p. 39)


이것은 사후 심리측정학 분석 데이터가 중요하지 않다고 말하는 것은 아니다. 다만, 사후 심리측정적 분석은 평가 전략의 복잡성을 완전히 파악하지 못하는 것 같다.

This is not to say that post hoc psychometric analytic data are not important. However, they seem unable to fully capture the complexity of assessment strategies


따라서, [학습자가 평가에 지불하는 비용]과 [사회와 실무자 모두가 경험할 수 있는 편익] 사이의 균형을 잡으려는 맥락에서 판단해야 한다.

and as such, they must be considered in the context of striving for balance between the costs of having learners submitted to the assessment and the potential for benefits to be experienced by both society and the practitioner.


심리측정적 접근방식은 [의료 전문가에게 점점 더 필수적이라고 여겨지는 상위 수준의 역량을 평가하기에는], 특히 이 역량을 [authentic context에서 분리하여 의미 있게 평가할 수 없다는 점]에서, 너무 환원주의적이다 (Kuper 등 2007). (Beendonk 외 2013, 페이지 560)

[…] the psychometric approach is considered to be too reductionist (Huddle and Heudebert 2007) for the assessment of higher order competencies, which are increasingly deemed to be essential for medical professionals but cannot be meaningfully assessed detached from the authentic context (Kuper et al. 2007). (Berendonk et al. 2013, p. 560)


넓은 사회과학적 관점에서 볼 때, 전통적인 OSCE 타당도 조사는 약간 좁았다. ...OSCE는 맥락의존적이고, 잠재적으로 formative하며, 권력, 경제, 문화의 관계와 같은 사회학적 변수의 영향을 많이 받는 복잡한 사회적 사건이다. (호지 2003, 페이지 253)

From the vantage point of a broad social-science perspective, traditional OSCE validity research has been a bit narrow. …OSCEs are complex social events that are highly contextual, potently formative and heavily influenced by sociological variables such as relations of power, economics and culture. (Hodges 2003, p. 253)


본질적으로, 이 담론은 관심의 초점을 [도구나 검증 과정의 속성]에서 [학습자와 사회를 위하여 평가가 지향해야 하는 목적]으로 이동시킨다.

In essence, this discourse shifts the focus of attention from the properties of the tool or the validation process to the desired purpose of assessment for the learner and for society.


평가의 교육적 가치는 쉽게 과소평가된다. 대부분의 학습자가 평가의 요구 사항을 발견하고 충족하는 데 능숙하기 때문에 평가의 성격과 내용은 학생들이 채택하는 학습 전략에 강한 영향을 미친다. (크로슬리 외 2002, 페이지 800)

The educational value of assessment is easily underestimated. The nature and content of assessment strongly influences the learning strategies that students adopt because most learners are adept at spotting and meeting the requirements of an assessment. (Crossley et al. 2002, p. 800)


이러한 담론을 사용하는 개인들이 종사하는 교육 프로그램 및 조직에서는 [커리큘럼]과 [사회가 졸업생에게 기대하는 미래의 의료행위practice]에 부합하는 완전하고 포괄적인 평가 프로그램을 주장한다. (약점을 식별하는) 후향적인 관점이기보다는, 이는 (assessment practice 개선을 통한) 전향적인 관점이다.

Individuals that employ this discourse often work in training programs and organizations that claim ownership of a complete, comprehensive program of assessment aligned with the curriculum and the expectations of society for future practice (and in some cases certification) of graduates prospectively (through improving assessment practices) rather than retrospectively (through identifying weaknesses).


더욱이, 이러한 담론은 평가의 일치단결된concerted 발전을 중요시하기에, 프로그램적인 평가 개발을 지도guide하는 평가 위원회나 이사들의 필요성을 강조한다. 평가 도구와 접근법의 결정은 개별 코스를 담당하는 자 또는 개별 코스의 특이한 견해/책임을 가진 사람, 생성된 데이터의 타당도를 측정하는 사람에게 맡겨둘 것이 아니다.

Moreover, this discourse promotes concerted developments in assessment, thus creating the need for evaluation committees or directors that guide programmatic assessment development rather than leaving the selection of tools and approaches to the idiosyncratic views/abilities of those responsible for individual courses, or in the hands of those who measure the validity of data generated.


단순히 좋아 보이는 도구를 사용하게 놔둬서, 학생들의 미래를 바꾸는 life-changing decision을 내리는 것은 분명 용납될 수 없다는 것이 내 견해다(6). 그러나 그것은 반대 의견이다.(노먼 2015, 페이지 300, 301)작가에 의한 강조

My own view is that it is surely not acceptable to make life changing decisions about students’ future using instruments that simply look good (6). But that is one opinion against another. (Norman 2015, pp. 300, 301)—emphasis by authors


문헌에 따르면, 사회적 의무로서 타당도를 지나치게 강조하면 "대부분의 교육자들에게 물의를 일으킬 뿐만 아니라, 실제로 시험 사용의 의도된 결과와 의도하지 않은 결과에 대한 주의를 덜 기울일 수 있다"(Shepard 1997, 페이지 13). 일반적으로 이러한 타당도 형태와 관련된 데이터는 다양한 출처에서 얻으며, 양적 정보뿐만 아니라 질적 정보도 포함할 수 있다.

It has been suggested in the literature that an overemphasis on validity as a social imperative may ‘‘not only muddy the waters for most educators, it may actually lead to less attention to the intended and unintended consequences of test use’’ (Shepard 1997, p. 13). Typically, data related to this form of validity come from a variety of sources and may include qualitative as well as quantitative information.


좀 더 전통적인 것을 소홀히 할 가능성이 있지만 그럼에도 불구하고 유용한 정신측정학 모니터링은 특히 개별 도구의 퀄리티 수준에서 이루어진다. '큰 그림'만 보고 평가 도구(예: 항목 분석, 신뢰성, 합격률 등)에 의해 생성된 구체적인 데이터의 품질을 모니터링하는 시력을 상실할 경우, '신뢰할 수 없는' 검사나 불공정한 합격/불합격 점수를 중심으로 사각지대가 발생할 수 있다. 이 담론에서 심리측정적 분석은 타당도 확인의 중심적 접근방식은 아니지만, 적절히 사용할 경우 그 사용은 목적적합한 평가의 목표를 지원할 수 있다. 질적 데이터의 사용에 대한 강력한 접근방식이 이 담화(Kuper et al. 2007; Van Der Vleuten et al. 2010)에서 유용할 수 있다는 주장이 제기되었지만, 그렇게 하는 방법은 초기 단계에 머물러 있다.

there is the potential of neglecting the more traditional, but nevertheless useful psychometric monitoring a posteriori, particularly at the level of the quality of individual tools. If one attends only to the ‘big picture’ and loses sight of monitoring the quality of data generated by specific assessment tools (e.g., item analysis, reliability, pass rates, etc.), blind spots may develop around ‘unreliable’ examinations or unfair pass/fail cut scores. While in this discourse psychometric analysis is not the central approach to ascertain validity, its use may support the goal of purposeful assessment when used appropriately. It has been argued that robust approaches to the use of qualitative data could be useful within this discourse (Kuper et al. 2007; Van Der Vleuten et al. 2010), however methods to do so remain in their infancy.


고찰

Discussion


본 연구는 보건 직업 교육 및 평가의 특정한 맥락 안에서 "타당도"이라는 용어를 사용하는 것에 초점을 맞추었다. 기본적인 개념화와 무관하게, 타당도는 보건 직업 교육에 일반적으로 사용되며 높은 부하를 받는 용어임이 분명하다.

This study has focused on the use of the term ‘‘validity’’ within the specific context of health professions education and assessment. Independent of the underlying conceptualization, it is clear that validity is a commonly used -and highly loaded- term in health professions education.


  • 타당도는 어떤 사람들에게는 도구가 특정 금본위제를 충족하였기 때문에 도구가 사용될 수 있거나 심지어 사용되어야 한다는 것을 나타내는 것처럼 보인다.

Validity seems to signify, for some, that a tool can or even should be used since it has met a certain gold standard.


  • 다른 사람들에게는 점수 해석의 적절성을 보장하기 위해 진행되는 과정에 대해 말하는 것 같다.

For others, it seems to speak to the process put in place to ensure the appropriateness of the score interpretation.


  • 어떤 그룹에게 타당도는 의도하지 않은 결과를 최소화하는 데 초점을 맞춘 학습자와 사회의 평가의 역할과 가치에 대한 고려사항에 관한 것으로 보인다.

For a third group, validity seems to be about the considerations for the role and value of assessment for learners and society with a focus on minimizing unintended consequences.


이러한 각 단점을 채택함으로써 얻을 수 있는 권력관계와 편익은 (부분적으로는) 공개된 타당화 관행에서 채택되는 프로세스와 시험testing 기관이 생성 및 승인한 지침에 의해 권장되는 프로세스 간의 관찰된 불일치를 설명할 수 있다.

The power relations and benefits gained by adopting each of these discourses may explain—in part—the observed discrepancies between the processes that are sometimes adopted in published validation practices and the processes recommended by the guidelines generated and endorsed by testing organizations.


[논쟁 기반 증거-체인의 담론]을 채택하는 사람들에게 신뢰를 받으려면, 특정 용어를 사용해야 하고, 이른바 '현대적' 타당도 이론을 언급해야 할 것으로 예상된다. 따라서 이 담론에 참여하는 한 가지 방법은 [기술 보유자 또는 적절한 언어와 기술을 익힌 사람]이 되어서, 타당도의 규칙과 규정(일반적으로 케인과 메시크에 관한 것)을 주장하는 것이다. 이들은 타당도 접근법을 권장하고 적용할 수 있는 힘을 가지고 있다. 즉, [논쟁 기반 증거-체인 담론]은 특정한 기술과 지식 기반을 가진 사람들이, 특정한 전문화된 직업을 갖는 것을 가능하게 한다. 또한 [선별된 그룹의 사람]만이 타당화 작업을 처리할 수 있는 전문 지식을 가지고 있다는 것을 암시하는 것으로 보인다.

To be credible to those employing the discourse of argument-based evidentiary-chain, one is expected to use a specific set of terminology and refer to what are called ‘modern’ theories of validity, as illustrated by the multiple reviews on the subject (Cizek et al. 2008, 2010; Cook et al. 2014, 2015; Wools and Eggens 2013). Thus, one way of participating in this discourse is as a skill holder or a person who has mastered the appropriate language and skills and, as such, lays claim to the rules and regulations of validation (usually in reference to Kane and Messick). Such individuals have the power to recommend and apply validation approaches. In other words, this discourse makes certain specialized jobs possible for people who have a specific skill set and knowledge base. It also appears to imply that only a select group of people have the expertise to tackle a validation task.


최근의 체계적인 검토를 살펴보면 '근대적 타당성 이론'의 채택이 늦어지고lag 있다는 점을 지적하고 비평한다(Cook et al. 2013, 2014). 이러한 담론이 지배적인 경우, 고도로 훈련된 개인이 평가 도구의 지속적인 타당도를 보장해야 함을 암시하는 경우가 많다. 결과적으로, (—제한적인 공식 훈련만 받은 —)'novices'가 평가 프로그램을 개발하고 모니터링해야 하는 상황에서,

  • 그들은 같은 언어를 사용하지 않기 때문에 '외계인' 또는 '임포스터'로 인식될 수 있다. 

  • 인가된 타당성 이론을 능숙하게 사용하지 못할 수 있다. 

  • '전문가'에게 통상적이지 않거나 설득력이 없는 타당도 프로세스 근거를 제시할 수 있다.

Recent systematic reviews document and critique a ‘lag’ in uptake of ‘modern validity theories’ (Cook et al. 2013, 2014). Where this discourse is dominant, it is often implied that highly trained individuals are required to ensure the ongoing validation of assessment tools. Consequently, when ‘novices’—with limited formal training—are called upon to develop and monitor assessment programs, they 

  • may be perceived as ‘outsiders’ or ‘impostors’ because they do not use the same language, 

  • may not adeptly use sanctioned theories of validity, and 

  • may put forward evidence during a validation process that is not conventional or convincing to a ‘professional’.


[사회적 의무로서의 타당도]와 같은 타당도에 대한 새로운 담론과 개념화가 등장하며, 다른 역할의 가능성이 대두되고 있다. 그리고 다음의 질문이 제기된다.

  • 타당성이란 것은 무엇을 의미하는지(또는 어떤 담론이 합법적이라고 여겨지는지)에 대해서 판단할 수 있는(또는 허용되지 않는) 사람은 누구인가?

  • 궁극적으로, '적절한' 평가라는 것은 무엇인가?

With new emerging discourses and conceptualizations of validity—such as validity as a social imperative—comes the possibility of different roles and, as such, calls into question 

  • who is now allowed (or not allowed) to judge what validity means (or which discourse is considered legitimate) and 

  • ultimately what is considered ‘appropriate’ assessment. 


이 세 번째 담론의 사용자는 정책 입안자, 교사 및 커리큘럼 및/또는 평가 프로그램 전문가를 포함한다. 세 번째 담론을 채택하는 사람들은 종종 시험 대상자를 옹호하거나(평가 대상자가 평가로부터 피해를 경험하지 않도록 해야 함), 사회 전반을 옹호함으로써(평가 프로그램이 프로그램의 가치와 사회의 요구에 부합되어야 함) 이러한 담론에 윤리적 요소를 끌어오는confer 경우가 많다.

Users of this third discourse might include policy makers, teachers, and curriculum and/or assessment program specialists. Those who employ this discourse often do so by advocating for those being tested (aiming to make sure that no harm is experienced by the learners from the assessment) or for society in general (by making sure that the programs of assessment are aligned with programs’ values and society’s needs) thus conferring on this discourse an ethical quality.


Validation의 초점을 바꾸려는 생각에 어떤 사람들이 예민하게 반응하는 것은 놀랄 일이 아니다. (본 논문의) 개발 단계에서 이 연구에 대해 다음과 같은 의견을 들었다(즉, 연구비 신청에 대응하여): 

"심리학적 관점에서, 나는 [타당도 개념화 연구]가 우리의 지식에 새로운 어떤 것도 추가할 수 있다고 생각하지 않는다. 타당도는 사회언어적 이슈에 근거하지 않는다. 그것은 경험적 자료와 현대/전통적인 심리학적 방법에 기반을 두고 있다."

it is not surprising that some individuals would react strongly to the thought of shifting the focus of validation, as exemplified by the following review received about this work at the development stage (i.e., in response to a grant application): 

‘‘From a psychometric perspective, I do not believe that [investigating conceptualizations of validity] can add anything new to our knowledge. Validity is not based on sociolinguistic issues; it is based on empirical data and modern/traditional psychometric methods.’’


우리가 '시험기 가진 특성'으로서 타당도(=첫 번째 담론)를 주장하는 사람을 만나지는 않았지만, 문헌에는 이러한 관점을 받아들이고 있음이 문헌상에는 명확히, 그리고 지속적으로 확인되며, 따라서 심리측정적 담론이 충족시켜주는 요구가 분명 존재한다. 우리는 분석에서 타당도의 담론과 관련하여 나타나는 두 가지 주요 역할, 즉 소비자와 생산자를 확인할 수 있었다. 즉, 이 담론은 [생산자(개별이든 조직이든)]가 ['타당화된validated' 도구를 필요로 하는 소비자]에게 [제품(테스트/평가 전략)]을 제공 및 판매하는 소비주의 철학을 선호한다.

While we did not encounter anyone laying claim to validity as a test characteristic, its clear and continued presence in the literature suggests both that many accept this perspective and that it fulfills a need. We could see in our analysis two major roles emerging in association with the discourse of validity as a test characteristic: consumers and producers. In other words, this discourse favours a consumerism philosophy in which producers (whether individuals or organizations) provide (and market) products (tests/ assessment strategies) to consumers who need ‘validated’ tools.


이 경우에 소비자는 개인(예: '쉘프 시험'을 사용하는 교수)이나 집단(예: 어떤 직업의 문지기로 라이선스 시험을 받아들이는 사회)가 될 수 있다. 소비자는 외부 출처에 근거하여 '사전에 이미 검증된' 평가 도구를 제공받고 싶어하며, 자신이 선택한 도구에서 생성된 데이터의 타당도에 대해 독립적으로 의문을 제기할 수 없거나(능력) 의문을 제기할 의사가 없을 수 있다(의지).

Consumers can be individuals (such as professors using a ‘shelf exam’) or collectives (such as a society that accepts a licensure exam as the gatekeeper of a profession). The consumers need to rely on external sources to provide them with ‘pre-validated’ assessment tools and may not be able or willing independently to question the validity of the data generated by those tools that they have taken up.


평가 도구가 '명성name'을 지닌다면 [이러한 형식의 타당도 담론을 채택하는 것은] 생산자(개별 연구자, 개발자 또는 조직)에게 매력적일 수 있으며, 그 후에 상업적 목적을 위해 학술적 영향, 브랜드 또는 저작권을 증명하는 데 사용될 수 있다. 이 기업가적 성격은 시험의 특성으로서 타당도의 담론을 촉진하기 위한 동기를 창출할 수 있다. 또한 기관은 판매 가능한 제품을 생산하기 위한 적절한 요소(즉, '타당화된 평가 도구')를 결합할 수 있을 때 이 담론을 사용함으로써 신뢰도나 힘을 얻을 수 있다.

Adopting this form of validity discourse may also be attractive to producers (individual researchers, developers, or organizations) when an assessment tool carries their name and then can be used to demonstrate scholarly impact, branded, or copyrighted for commercial purposes. This entrepreneurial dimension may create an incentive to promote the discourse of validity as a test characteristic. Institutions may also gain credibility or power from using this discourse when they can put together the appropriate ingredients to yield sellable products (i.e., ‘validated assessment tools’).


이번 연구에서 알 수 있듯이, 개개인이 최고의 품질 기준을 충족시키기 위한 평가를 밑바닥부터de novo 만들 수 있는 모든 자원을 가지고 있지 않을 수 있다는 점을 감안할 때, 타당도를 이러한 방식으로 개념화하는 것이 실용주의적 요구에 부응하는 것처럼 보인다. 

As indicated in our results, this conceptualization of validity does seem to answer a pragmatic need given that individuals might not have all the resources to create assessment de novo to meet the highest standards of quality. 


또 하나 또는 추가적인 설명은 담론이 임상학에서 '수입'되었다는 것이다. Clinical science에서는 고전적인 타당도 모델(또는 내용, 구성 및 준거 타당도)이 문헌에 남아 있으며(Mokkink et al. 2012; Portney 2000), 타당도를 임상에서 사용하는 평가 도구의 속성으로 간주한다.

Another or additional explanation is that the discourse was ‘imported’ from the clinical sciences in which the classical model of validity (or the validity trinity of content, construct, and criterion validity) is still present in the literature (Mokkink et al. 2012; Portney 2000) and in which we see validity as the property of a clinical assessment tool.


이 작업의 한계에는 특정 문맥에 대한 담화 분석을 집중하기로 선택한 것이 포함된다.

Limitations of this work include that we chose to focus our discourse analysis on a specific context—the scientific literature of health professions education.


결론

Conclusion


타당도는 보건 직업 교육에서 몇 가지 다른 의미를 가지고 있다. 이러한 의미들의 공통점은, 아마도 어떤 형태로든 타당도가 평가 개발 및 품질 모니터링에 대한 논의의 핵심이며, 그 중심에 있어야 한다는 암묵적 이해일 것이다. 본 연구에서 관찰된 담론은 보건 직업 교육에 영향을 미치는 다수의 병행적 분야와 분야의 타당도 개념 사용과 관련하여 발생할 가능성이 높다. 어떤 담론이 합법적이거나 지배적인 것으로 보이는 변화가 있었다면, 이는 [보건 직업과 다른 분야 사이의 관계 변화] 때문일 수 있다.

Validity has several different meanings in health professions education. What these meanings have in common, perhaps, is an implicit understanding that validity, in some form, is and should be at the heart of any discussion about assessment development and quality monitoring. It is likely that the discourses observed in this study arise in relation to usages of the concept of validity in a number of parallel disciplines and fields that influence health professions education. It may be that changes in which discourse is seen as legitimate or dominant can be traced to changing relationships between the health professions and other fields.


따라서, 타당도 개념을 채택하는 사람들에 대한 우리의 권고는 평가 도구와 프로그램의 가치 및 적절성에 대한 진술을 하기 전에 자신이 타당도에 대해 갖는 개념을 명시적으로 설명하는 것이다. 그렇게 한다고 해서 한 사람이 사용하는 담론의 한계가 없어지는 것은 아니며, 다른 담론을 채택한 경우에 관련될 타당도에 대한 함축도 피할 수 없다. 그러나 이는 타당도 개념이 비판적 성찰에서 자유롭지 않게 채택되지 않을 가능성을 증가시키고 따라서 현장이 현장에 영향을 미치는 불일치와 긴장을 해소하는 데 도움이 될 수 있다.

As such, our recommendation for those employing concepts of validity is to explicitly describe one’s conceptualizations before making statements of truth about the worth and/or appropriateness of assessment tools and programs. Doing so will not eliminate the limitations of the discourse one uses, nor will it avoid the implications for validity that would be relevant had a different discourse been adopted. It will, however, increase the likelihood that the notion of validity is not adopted free of critical reflection and might, therefore, help the field to bridge discrepancies and tensions that are currently impacting upon the field.


Lingard, L. (2009). What we see and don’t see when we look at ‘‘competence’’: Notes on a god term. Advances in Health Sciences Education, 14, 625–628.


Norman, G. (2015). Identifying the bad apples. Advances in Health Sciences Education, 20(2), 299–303. doi:10.1007/s10459-015-9598-9.


Schuwirth, L. W. T., & van der Vleuten, C. (2012). Programmatic assessment and Kane’s validity perspective. Medical Education, 46(1), 38–48. doi:10.1111/j.1365-2923.2011.04098.x.


Van Der Vleuten, C. P. M., Schuwirth, L. W. T., Scheele, F., Driessen, E. W., & Hodges, B. (2010). The assessment of professional competence: Building blocks for theory development. Best Practice and Research: Clinical Obstetrics and Gynaecology, 24(6), 703–719. doi:10.1016/j.bpobgyn.2010.04.001.










, 22 (4), 853-867
 

Validity: One Word With a Plurality of Meanings

Affiliations 

Affiliations

  • 1Université de Sherbrooke, Sherbrooke, Canada. Christina.St-Onge@USherbrooke.ca.
  • 2McGill University, Montreal, Canada.
  • 3University of British Columbia, Vancouver, Canada.
  • 4University of Toronto, Toronto, Canada.

Abstract

Validity is one of the most debated constructs in our field; debates abound about what is legitimate and what is not, and the word continues to be used in ways that are explicitly disavowed by current practice guidelines. The resultant tensions have not been well characterized, yet their existence suggests that different uses may maintain some value for the user that needs to be better understood. We conducted an empirical form of Discourse Analysis to document the multiple ways in which validity is described, understood, and used in the health professions education field. We created and analyzed an archive of texts identified from multiple sources, including formal databases such as PubMED, ERIC and PsycINFO as well as the authors' personal assessment libraries. An iterative analytic process was used to identify, discuss, and characterize emerging discourses about validity. Three discourses of validity were identified. Validity as a test characteristic is underpinned by the notion that validity is an intrinsic property of a tool and could, therefore, be seen as content and context independent. Validity as an argument-based evidentiary-chain emphasizes the importance of supporting the interpretation of assessment results with ongoing analysis such that validity does not belong to the tool/instrument itself. The emphasis is on process-based validation (emphasizing the journey instead of the goal). Validity as a social imperative foregrounds the consequences of assessment at the individual and societal levels, be they positive or negative. The existence of different discourses may explain-in part-results observed in recent systematic reviews that highlighted discrepancies and tensions between recommendations for practice and the validation practices that are actually adopted and reported. Some of these practices, despite contravening accepted validation 'guidelines', may nevertheless respond to different and somewhat unarticulated needs within health professional education.

Keywords: Assessment; Discourse analysis; Health profession education; Validation; Validity.


+ Recent posts