WBA 시스템을 위한 타당도 지도 만들기: Messick과 Kane의 상호교차 (Acad Med, 2021)
Constructing a Validity Map for a Workplace-Based Assessment System: Cross-Walking Messick and Kane
Benjamin Kinnear, MD, MEd, Matthew Kelleher, MD, MEd, Brian May, MD, MEd, Dana Sall, MD, MEd, Daniel P. Schauer, MD, MSc, Daniel J. Schumacher, MD, PhD, MEd, and Eric J. Warm, MD
보건 직업 교육은 [의료 제공자를 훈련시키는 데 사용되는 프로세스]가 [복무할 인구의 요구]에 따라 추진되는 접근 방식인 [역량 기반 패러다임]으로 전환되었다. 역량 측정의 필요성으로 인해 평가는 역량 기반 의료 교육(CBME) 구현에서 특히 중요하지만 어려운 측면이 되었다. 직장 기반 평가(WBA)는 실제 임상 과제를 수행하는 학습자 평가의 이점을 제공하는 평가 프로그램에 필수 요소가 되었다. 그러나 WBA는 상대적으로 낮은 심리측정적 성능으로 인해 총괄적 목적을 위한 타당성 증거가 부족하다는 비판을 종종 받는다. 우리는 타당성이 심리측정학 그 이상을 포함해야 한다고 믿는다.
Health professions education has shifted to a competency-based paradigm, 1–4 an approach in which the processes used to train health care providers are driven by the needs of the populations they serve. 5–7 The need for competency measurement has made assessment a particularly crucial, yet challenging, aspect of competency-based medical education (CBME) implementation. 8–11 Workplace-based assessment (WBA) has become integral to programs of assessment, 8 carrying the advantage of assessing learners performing real-world clinical tasks. However, WBAs are often criticized for lacking validity evidence for summative purposes due to relatively poor psychometric performance. 12 We believe validity should include more than psychometrics alone.
타당도는 good assessment의 필수불가결한 요소이므로 CBME 프로그램의 핵심입니다. 타당도에 대한 여러 가지 설명이 존재하지만, 현대의 프레임워크는 타당도를 [데이터를 미리 정의된 해석이나 사용에 대해 지지하는 해석적 주장interpretive argument]으로 개념화한다. 두 개의 현대적 프레임워크는 비록 강조점이 다르지만 타당성 증거를 구성하기 위해 일반적으로 사용된다(표 1). 메식(Messick)의 프레임워크는 타당성 [증거의 출처]를 강조하고, 케인의 프레임워크는 [증거 사슬의 추론]에 초점을 맞춘다. 이러한 프레임워크가 상호 배타적이지는 않지만, 종종 증거를 구성하기 위해 둘 중 하나가 사용된다. 그러나 우리는 그것들이 상호 보완적이라고 믿는다.
Validity is the sine qua non of good assessment, 13 and therefore is central to CBME programs. While multiple descriptions of validity exist, 14 modern frameworks conceptualize it as an interpretive argument that supports a predefined interpretation or use of data. 15 Two contemporary frameworks are commonly used to organize validity evidence, though they differ in emphasis (Table 1). Messick’s framework stresses sources of validity evidence, 16 and Kane’s focuses on inferences in an evidentiary chain. 17 While these frameworks are not mutually exclusive, often one or the other is used to organize evidence. However, we believe they are complementary.
접근
Approach
신시내티 대학(UC) 내과 레지던트 프로그램은 UC 메디컬 센터, 보훈 의료 센터 및 여러 외래 클리닉에서 돌아가며 약 89명의 레지던트들로 구성되어 있다. 2012년에는 대학원 의학교육 하위역량 인증협의회를 통합한 위탁기반 WBA 제도를 시행하였으며, 이후 이 데이터를 레지던트 역량 판단에 활용하기 위한 타당성 근거를 수집하고 있습니다.
The University of Cincinnati (UC) Internal Medicine (IM) residency program, based in an urban, tertiary referral medical center, consists of approximately 89 categorical residents who rotate at UC Medical Center, Veterans Affairs Medical Center, and multiple ambulatory clinics. In 2012, we implemented an entrustment-based WBA system that integrated the Accreditation Council for Graduate Medical Education subcompetencies, and we have been collecting validity evidence for using these data for determination of resident competence since that time. 18,19
우리는 다음 4단계를 포함한 수사적 주장을 반영하는 다단계 프로세스를 사용하여 타당도 맵을 구성했다.
- (1) 명시된 해석과 사용에 대한 비판적인 질문을 할 때,
- (2) 그에 대한 대응으로 타당성 증거를 찾고,
- (3) 증거 분류, 그리고
- (4) 증거를 시각화
We constructed our validity map using a multistep process that mirrored a rhetorical argument including the following 4 steps:
- (1) Asking critical questions about the stated interpretation and use,
- (2) Seeking validity evidence as a response,
- (3) Categorizing evidence, and
- (4) Visualizing evidence.
1. 서술된 해석과 사용에 대한 중요한 질문
1. Asking critical questions about the stated interpretation and use
우리 팀은 먼저 우리만의 WBA 시스템에 [비판적인 대화자 역할]을 하는 방식을 택했습니다. 우리는 개별적으로 WBA 데이터를 사용하여 내린 결정이 역량 평가에 타당한지 여부에 이의를 제기할 수 있는 질문을 작성했다. 예제는 다음과 같습니다.
- "위임entrustment은 왜 일선 평가를 위한 구성물로 사용되는가?"
- "위임 평정entrustment rating의 신뢰도는 어느 정도인가?" 및
- "위임entrustment 점수는 임상 치료 품질 척도와 관련이 있는가?"
이 질문들은 우리가 찾는 타당성 증거에 대한 가이드 역할을 했습니다.
Our team first took the approach of acting as an interlocutor who is critical of our own WBA system. We individually wrote questions that might challenge whether decisions made using the WBA data were valid for assessment of competence. Example questions included,
- “Why is entrustment used as a construct for frontline assessment?”,
- “What is the reliability of entrustment ratings?”, and
- “Do entrustment scores correlate with measures of clinical care quality?”.
These questions then served as a guide for the validity evidence we sought.
2. 대응책으로서 타당성 입증 모색
2. Seeking validity evidence as a response
우리는 각각의 질문에 답변하고 뒷받침되는 증거를 제공하려고 시도했습니다. 우리는 먼저 우리의 대응을 지지하거나 반박할 수 있는 증거를 위해 기존 문헌을 검토했다. 증거가 없다면, 이전 작업을 통해 생성한 증거를 사용했습니다.
We attempted to respond to each question and provide supportive evidence. We first reviewed existing literature for evidence that would support or refute our response. Other times we used evidence that we had generated through previous work.
이 작업은 마이크로소프트 엑셀(마이크로소프트, 워싱턴 레드몬드) 스프레드시트를 사용하여 구성되었으며 열 제목은 다음과 같습니다. 질문, 응답, 근거, 인용문, 격차.
This work was organized using a Microsoft Excel (Microsoft Corporation, Redmond, Washington) spreadsheet with the following column headings: Question, Response, Supporting Evidence, Citations, Gaps.
3. 증거 분류
3. Categorizing evidence
우리는 우리의 주장에서 추론(Kane)을 뒷받침하는 증거 출처(메식)를 기준으로 증거를 구성했다(그림 1). 이 프로세스는 토론을 통해 범주 분류에 대한 그룹 합의를 형성했습니다. 예를 들어,
- 일선 WBA 기기에 대한 위탁 프레임워크의 사용은 점수 추론(Kane)을 뒷받침하기 위한 응답 프로세스 증거(Messick)로 고려되었다.
- 일반화 가능성 연구는 일반화 추론(Kane)을 뒷받침하는 내부 구조 증거(Messick)로 간주되었다.
We organized our evidence by the source of evidence (Messick) supporting an inference (Kane) in our argument (Figure 1). This process was done using discussion to form group consensus around categorizations. For example,
- the use of an entrustment framework for frontline WBA instruments was considered response process evidence (Messick) to support the scoring inference (Kane).
- The generalizability study was deemed internal structure evidence (Messick) to support the generalization inference (Kane).
4. 증거 시각화: 지도 작성
4. Visualizing evidence: Map building
엑셀은 증거를 분류하는 기능적인 수단이었지만, 우리는 두 가지 이유로 좀 더 시각적인 형식을 원했습니다.
- 첫째, 우리는 우리의 논쟁에 남아 있는 차이를 식별하기 위해 수집된 증거에 대해 이해할 수 있는 높은 수준의 검토를 추구했다. 이 시각 자료는 증거에 대한 심층 분석에 사용되는 Excel 문서와 함께 빠른 참조를 위한 타당도의 "맵" 역할을 할 수 있다.
- 둘째, 지도는 우리가 이미 수집한 증거, 진행 중인 검증 작업, 향후 연구로 정리할 수 있게 해주었습니다.
Excel was a functional means of cataloguing evidence, but we wanted a more visual format for 2 reasons.
- First, we sought an understandable, high-level review of collected evidence to identify remaining gaps in our argument. This visual could serve as a validity “map” for quick reference, with the Excel document used for deeper dives into the evidence.
- Second, the map allowed us to organize evidence into that which was already collected, ongoing validation work, and future studies.
We used Microsoft Visio (Microsoft Corporation, Redmond, Washington) to create the map and organize the information using spatial orientation and color/shading (Figure 2). Inferences from Kane’s framework were placed in 4 rows that crossed 3 columns labeled “Evidence obtained,” “Work in progress,” and “Gaps/future studies.” Each critical question from the Excel sheet was placed in a box that represented the corresponding response/evidence. Boxes were color coded based on which source of evidence they represented from Messick’s framework and placed in the appropriate row and column on the map.
성과
Outcomes
우리의 타당도 맵의 첫 번째 초안은 메식(Messick)이 상세히 설명한 5가지 근거 출처를 모두 포함하고 케인이 설명한 4가지 추론 모두에 걸쳐 확산된 25개의 증거 상자를 생성했다(그림 2a). 우리 팀은 지도 제작 과정과 지도 자체에서 가치를 발견했어요. 수사적 질문-응답 과정을 통해 WBA 시스템을 신중하게 비판적으로 평가할 수 있었다.
The first draft of our validity map produced 25 boxes of evidence that included all 5 sources of evidence detailed by Messick and spread across all 4 inferences described by Kane (Figure 2a). Our team found value in both the process of map construction and in the map itself. The rhetorical question–response process allowed us to critically appraise our WBA system in a deliberate fashion.
우리는 메식 프레임워크와 케인의 프레임워크를 모두 지도에 통합하는 것이 유익하다는 것을 알았다. 케인의 틀은 증거 사슬에서 "가장 약한 고리"를 식별할 수 있다는 장점을 가지고 있어, 우리의 작업의 우선순위를 정하는 데 도움을 준다. 15 앞서 언급했듯이, 지도에는 외삽 추론을 뒷받침할 증거가 부족함을 보여주었다. 따라서, 우리는 우리의 WBA 데이터가 성과에 대한 다른 측정 또는 임상 치료 결과와 관련이 있는지를 연구하여 증거를 구축하는 데 최근의 노력을 집중해 왔다. 메식(Messick)의 프레임워크는 주어진 추론을 뒷받침할 수 있는 증거의 출처를 통해 우리가 체계적으로 생각하도록 도왔다.
We found it beneficial to integrate both Messick’s and Kane’s frameworks into our map. Kane’s framework carries the advantage of allowing for the identification of the “weakest link” in the evidentiary chain, helping us to prioritize our work. 15 As previously mentioned, the map showed our argument was lacking in evidence to support the extrapolation inference. Thus, we have focused our recent efforts on building evidence by researching if our WBA data are associated with other measures of performance or with clinical care outcomes. Messick’s framework has helped us think systematically through sources of evidence that might be sought to support a given inference.
우리의 타당도 맵은 역동적이며, 새로운 질문이 발생하고 새로운 증거가 수집됨에 따라 변화한다. 전자 형식을 사용하면 시간이 지남에 따라 지도를 쉽게 편집, 업데이트 및 공유할 수 있습니다. 그림 2b는 타당성 연구가 완료되거나 증거가 발견됨에 따라 박스가 오른쪽(미래 작업)에서 왼쪽(증거 누적)으로 이동하는 방법을 보여주는 업데이트된 지도이다.
Our validity map is dynamic, and changes as new questions arise and new evidence is collected. Using an electronic format allows us to easily edit, update, and share the map over time. Figure 2b is an updated map, showing how boxes move from right (future work) to left (accrued evidence) as validity studies are completed or evidence is discovered.
다음 단계
Next Steps
현재 타당도 맵의 한계는 각 상자의 질문을 뒷받침하는 증거를 쉽게 심층 분석할 수 없다는 것이다. 위에서 언급한 바와 같이 증거의 초기 분류에 Excel을 사용했으며, 이 스프레드시트에는 관련 증거에 대한 보다 심층적인 설명과 인용이 포함되어 있습니다. 향후 반복 작업에는 대화형 플랫폼과 심층 다이빙을 허용하는 플랫폼을 기반으로 타당도 맵을 구축하는 것이 포함될 것이다.
A limitation of our current validity map is that it does not allow for an easy deep dive into the evidence undergirding each box’s question. As noted above, we used Excel for the initial categorization of evidence, and these spreadsheets contain more in-depth explanations and citations for relevant evidence. Future iterations will involve building our validity map on a platform that is interactive and allows for deep dives.
우리는 WBA 시스템에 대한 타당성 증거를 수집, 분류 및 구성하는 데 가치를 발견했지만, 가장 높은 가치는 평가 시스템의 이해관계자와 이 작업을 공유하는 데 있다. 우리는 우리의 과정과 제공된 증거의 수용 가능성에 대한 피드백을 얻기 위해 의학 교육계의 다른 사람들과 우리의 타당성 맵을 예비적으로 공유했습니다. 26 다음 단계에는 타당성 맵이 프로그램의 타당성 주장을 평가하는 데 가치를 추가하는지 이해하기 위해 이해관계자(예: 인가자, 기관 지도자, 학습자, 환자)의 의견을 수집하는 것이 포함된다. 이해관계자들은 증거의 우선순위를 다르게 정하거나 우리에게 처음에 분명하지 않은 새로운 gap을 강조할 수 있다.
We found value in collating, categorizing, and organizing validity evidence for our WBA system, but the highest value lies in sharing this work with the stakeholders of our assessment system. We have preliminarily shared our validity map with others in the medical education community to obtain feedback on our process and the acceptability of the evidence provided. 26 Next steps include collecting stakeholders’ (e.g., accreditors, institutional leaders, learners, patients) input to understand if our validity map adds value for evaluating our program’s validity argument. Stakeholders may prioritize evidence differently or highlight new gaps not initially evident to us.
결론
Conclusion
WBA 시스템에 대한 타당도 맵을 구축하는 것이 증거 격차를 식별하고 향후 연구 및 프로그램 개선 노력을 계획하는 데 도움이 된다는 것을 발견했습니다. 다른 프로그램도 WBA 시스템의 의도된 사용을 정의하고, 중요한 질문을 생성하고 관련 증거를 수집하기 위한 수사적 질의응답 접근법을 사용하며, 증거를 구성하고 중요한 차이를 식별하기 위해 Messick과 Kane의 프레임워크를 사용하여 유사한 접근방식을 취할 수 있다.
We found that constructing a validity map for our WBA system helped identify evidentiary gaps and plan future research and program improvement efforts. Other programs could take a similar approach by defining the intended use of their WBA system, using a rhetorical question–answer approach to generate critical questions and collect relevant evidence, and using the frameworks from Messick and Kane to organize evidence and identify critical gaps.
doi: 10.1097/ACM.0000000000004112.
Constructing a Validity Map for a Workplace-Based Assessment System: Cross-Walking Messick and Kane
Affiliations collapse
PMID: 34183604
'Articles (Medical Education) > 평가법 (Portfolio 등)' 카테고리의 다른 글
임상추론 평가방법: 스코핑 리뷰와 실용적 가이드(Acad Med, 2019) (0) | 2022.04.02 |
---|---|
수행능력저하를 믿지 않는 것에서 실패를 인식하기까지: 티핑 포인트 모델(Med Educ, 2021) (0) | 2022.03.30 |
의학교육의 프로그램적 평가가 헬스케어에서 배울 수 있는 것(Perspect Med Educ, 2017) (0) | 2021.12.10 |
CBME에서 프로그램적 평가의 계획과 설계(Med Teach, 2021) (0) | 2021.12.05 |
신뢰와 통제 사이: 프로그램적 평가에서 교수의 평가에 대한 개념화(Med Educ, 2020) (0) | 2021.12.03 |