시험을 위한 블루프린트 제작 가이드(AMEE Guide No. 125) (Med Teach, 2019)
A practical guide to test blueprinting (AMEE Guide No. 125) (Med Teach, 2019)
Mark R. Raymonda and Joseph P. Grandeb
도입 Introduction
과정과 평가가 목표와 일치하도록 하기 위해 진정 중요한 학습 결과를 균형 있게 다루려면 잘 숙고한 계획에 따라 평가를 개발하는 것이 중요하다. 여기에서는 시험의 계획에 대한 체계적인 접근 방식, 즉 학생들이 각 평가에서 무엇을 알고 시연할 수 있는지를 문서화하는 접근 방식을 설명합니다. 이러한 계획 문서는 테스트 계획, 사양 표 및 테스트 사양이라고도 하지만 일반적으로 테스트 Blueprint라고 합니다.
To ensure that course and assessments are consistent with objectives address truly important learning outcomes in a balanced manner, it is important that assessments be developed according to a well thought-out plan. This article describes a systematic approach to planning tests—an approach that documents what students should know and be able to demonstrate on each assessment. These planning documents are typically called test blueprints, although they also are known as test plans, tables of specifications, and test specifications.
테스트 Blueprint는 테스트의 주요 속성을 설명합니다. 시험 청사진은 다룰 내용을 명시해야 하지만, 많은 청사진은 또한 각 내용 영역에 할당된 강조의 양, 평가 작업의 인지적 요구, 평가 형식 및 기타 중요한 특징과 같은 속성을 설명한다(Millman and Greene 1989; Raymond 2016).
A test blueprint describes the key properties of a test. While any test blueprint should specify
the content to be covered, many blueprints also describe properties such as
the amount of emphasis allocated to each content area,
the cognitive demand of the assessment tasks,
the assessment format, and
other important features (Millman and Greene 1989; Raymond 2016).
테스트 Blueprint의 기반
Foundations of a test blueprint
학습 성과와 학생 역량에 대한 주장
Learning outcomes and claims about student competence
테스트 청사진은 대부분의 강사가 [이미 시행하고 있는 학습 성과와 과정 목표를 자연스럽게 확장한 것]입니다.
A test blueprint is a natural extension of the learning outcomes and course objectives that most instructors already have in place.
우리는 학습 성과를 [학생들이 과정을 이수할 때 갖춰야 하는 지식과 기술을 설명하는 광범위한 서술]로 정의한다(Harden 2002). 행동 목표(또는 교육 목표)는 학생들이 알고 할 수 있는 것을 자세히 설명하는 진술이다.
We define learning outcomes as broad statements that describe the knowledge and skills that students should possess upon completing a course (Harden 2002). Behavioral objectives (or instructional objectives) are statements that describe in detail what students are expected to know and be able to do.
학습 성과는 학생들이 기대하는 지식과 기술을 나타내며,
행동 목표는 그 목표를 달성하기 위한 로드맵 역할을 한다.
평가 목표라는 용어를 사용하여 특별히 평가를 목표로 하는 학습 결과 또는 행동 목표를 설명합니다.
Learning outcomes indicate the knowledge and skills that are expected of students, while
behavioral objectives serve as a road map for getting there.
We use the term assessment objectives to describe those learning outcomes or behavioral objectives that are specifically targeted for assessment.
평가의 일차적인 목표는 강사가 학생들이 알고 할 수 있는 것에 대해 주장이나 추론을 할 수 있도록 하는 것이다. 테스트는 그러한 주장을 뒷받침할 증거를 얻을 수 있는 기회를 창출한다(Mislevy and Riconscente 2006). 학생이 "심혈관 시스템의 주요 상태를 진단하기 위한 지식과 기술을 마스터했다"는 주장을 뒷받침하기 위해, 강사는 관심 있는 행동을 유도하기 위한 평가 과제를 식별하고, 학생들이 그러한 행동을 증명할 기회를 제공해야 한다. 증거 중심 설계는 교수들이 학생 능력에 대한 주장을 뒷받침할 증거를 제공하는 평가 과제를 선택하도록 요구한다.
A primary goal of assessment is to allow an instructor to make a claim or inference about what students know and are able to do. A test creates the opportunity to obtain evidence to support such claims (Mislevy and Riconscente 2006). To back up the claim that a student has “mastered the knowledge and skills to diagnose major conditions of the cardiovascular system”, an instructor needs to identify assessment tasks to elicit the behaviors of interest, and then provide the opportunity for the student to demonstrate those behaviors. Evidence-centered design requires that faculty choose assessment tasks that provide the evidence to support the claims to be made about student competence.
학생들이 [각 장기 시스템에 영향을 미치는 가장 일반적인 질병을 진단할 수 있도록 보장한다]라는 전체적인 목표가 있는 과정을 고려해보자. 그림 1은 학습 결과와 심혈관 시스템에 특정한 몇 가지 목표를 나타냅니다. 학습 결과, "심혈관 질환에 대한 진단 테스트 결과에 대한 적응증 인식 및 해석"은 상당히 광범위하다. 결과를 성공적으로 입증할 수 있는 것은 지식과 기술의 상당한 네트워크를 필요로 한다. 그림 1의 8가지 행동 목표는 학습 결과에 대한 숙달성을 입증하는 데 필요한 행동의 표본일 뿐입니다. 이러한 행동 목표는 수업을 guide하기 위한 것이지만, 평가에 정보를 제공하는 방법도 쉽게 알 수 있습니다. 각 목표를 "학생이 할 수 있을 것"과 같은 조항과 함께 선행함으로써 이러한 진술은 학생에 대한 주장을 뒷받침하는 평가 목표로 바뀔 수 있습니다. 행동 목표는 개발하기가 지루하지만, 그 특수성specificity은 평가 과제의 개발을 단순화할 수 있다.
Consider a course that has an overall goal of ensuring that students can diagnose the most common diseases affecting each organ system. Figure 1 identifies a learning outcome and several objectives specific to the cardiovascular system. The learning outcome, “Recognize indications for and interpret results of diagnostic tests for cardiovascular disease” is fairly broad; being able to successfully demonstrate that outcome requires a substantial network of knowledge and skills. The eight behavioral objectives in Figure 1 are just a sample of the behaviors required to demonstrate mastery of that learning outcome. Although these behavioral objectives are intended to guide instruction, it is easy to see how they also can inform assessment. By preceding each objective with a clause like “The student will be able to…” these statements can be transformed into assessment objectives that support claims to be made about students. Although behavioral objectives are tedious to develop, their specificity can simplify the development of assessment tasks.
지식의 종류와 수준
Types and levels of knowledge
이러한 서로 다른 유형의 학습은 다른 교육 및 평가 방법을 필요로 한다는 것은 오래 전부터 인식되어 왔다. 밀러의 피라미드는 학습의 유형을 조직하는 데 인기 있는 틀 중 하나이다. 그림 2에 표시된 바와 같이,
It has long been recognized that these different types of learning require different methods of instruction and assessment. Miller’s(1990) pyramid is one popular framework for organizing types of learning. As depicted in Figure 2,
그림 2의 중심 부분은 원래의 피라미드를 묘사하는 반면, 왼쪽의 텍스트는 두 가지 샘플 행동 목표와 그것들이 계층에서 어디에 속하는지 나열한다.
The central portion of Figure 2 depicts the original pyramid, while the text on the left lists two sample behavioral objectives and where they fall in the hierarchy.
Bloom's (1956) 분류법은 평가에 유용한 또 다른 모형입니다. 그것은 행동을 인지, 정서, 그리고 정신 운동 영역이라고 불리는 세 가지 범주로 분류한다. 그림 1의 지시 목표를 이 세 가지 도메인 중 하나 이상으로 분류할 수 있는 방법을 알 수 있다. 예를 들어, 목표 7 "대동맥 협착을 청취하기 위해 청진기를 최적의 위치에 배치"를 하려면 청진기를 배치할 위치(인지적)를 결정하고 환자에게 배치 및 권한(정서적)을 요청한 다음 청진기를 배치해야 합니다(정신운동적).
Bloom’s(1956) taxonomy is another model that is useful for assessment. It classifies behaviors into three categories referred to as the cognitive, affective, and psychomotor domains (Anderson and Krathwohl 2001). One can see how the instructional objectives in Figure 1 can be classified into one or more of these three domains. For example, objective 7, “Place stethoscope in optimal location to listen for aortic stenosis”, requires deciding where to place the stethoscope (cognitive), explaining its placement to the patient and asking permission (affective), and then positioning the stethoscope (psychomotor).
인지 영역은 교수와 평가에서 가장 많은 관심을 받았다. 그것은 지식, 이해, 응용, 분석, 합성, 평가의 여섯 단계로 구성되며, 각각의 수준은 앞의 것보다 더 많은 인지적 투자를 필요로 한다. 행동 목적의 수준은 평가에 영향을 미친다.
The cognitive domain has received the most attention in teaching and assessment. It consists of six levels: knowledge, comprehension, application, analysis, synthesis, and evaluation, with each level requiring a greater cognitive investment than the one preceding it. The level of a behavioral objective has implications for assessment.
예를 들어, 객관식 질문(MCQ)은 지식과 이해를 평가하는 데 효과적이지만, 종합 및 평가에는 효용이 제한적이고, 정신 운동 및 정서 영역의 많은 기술을 평가하는 데는 효과적이지 않다.
For example, while multiple-choice questions (MCQs) are effective for assessing knowledge and comprehension, they have limited utility for assessing synthesis and evaluation, and are ineffective for assessing many skills in the psychomotor and affective domains.
효과적인 테스트 청사진에 대한 4단계
Four stages to an effective test blueprint
그림 3과 아래 텍스트는 테스트 청사진을 개발하기 위한 네 가지 단계를 설명합니다.
Figure 3 and the text below describe four stages for developing a test blueprint.
주요 지식 및 기술 영역 식별
Identify the major knowledge and skill domains
이 첫 번째 단계는 [평가할 광범위한 역량 영역]을 식별하는 것을 포함한다. 그들은 학생들의 행동에 대해 제기되는 높은 수준의 주장에 대응해야 한다. 이 과제에 접근하는 한 가지 방법은 "만약 내가 내 과정을 몇 개 내지 몇 개 단위로 분할한다면, 라벨은 무엇이 될 것인가?"라고 묻는 것이다. 만약 그 의도가 학생들의 면역학 지식에 대한 주장을 하는 것이라면, 프레임워크는 면역학의 영역을 정의하는 주요 내용 범주를 포함해야 한다. 만약 그 의도가 학생의 환자와 상호작용하는 능력에 대한 주장을 하는 것이라면, 그 프레임워크는 주요한 유형의 의사소통 기술을 포함할 것이다. 이러한 문서는 과정 개요, 학습 결과, 강의 노트, 교과서 및 기타 교육 자료에서 찾을 수 있습니다. 또한, 커리큘럼 조사와 직무 분석 보고서는 의료 교육에서 커리큘럼 설계와 평가에 중요한 기술을 식별했다.
This first stage involves identifying the broad competency domains to be assessed. They should correspond to the high-level claims to be made about student behaviors. One way to approach this task is to ask, “If I were to partition my course into a few to several units, what would the labels be?” If the intent is to make claims about students’ knowledge of immunology, then the framework should include major content categories that define the domain of immunology. If the intent is to make claims about a student’s ability to interact with patients, then the framework will include major types of communication skills. Such documentation can be found in course outlines, learning outcomes, lecture notes, textbooks, and other instructional materials. In addition, curriculum surveys and job analysis reports have identified the skills that are important for curriculum design and assessment in medical education
테스트 Blueprint는 일반적으로 구성된 목록, 개요 또는 테이블 형식으로 만들어진다. 시험 청사진의 조직 체계는 중요한데, 그 범주는 claim과 종종 학생들에게 제공되는 피드백을 병행하기 때문이다. 다음에 설명된 바와 같이 테스트 청사진은 테스트할 내용 또는 평가 작업에 필요한 행동 프로세스에 따라 구성할 수 있습니다(Millman 및 Greene 1989; Raymond 2016).
Test blueprints typically are cast in the form of an organized list, outline, or table. A test blueprint’s organizational framework is important because the categories often parallel the claims to be made and the feedback provided to students. As described next, test blueprints can be organized according to the content to be tested or around the behavioral processes required of the assessment tasks (Millman and Greene 1989; Raymond 2016).
[내용 지향적인 청사진]은 테스트를 다루는 주제 또는 주제 측면에서 설명합니다. 그들은 보통 전통적인 학문분야에 따라 시험 자료를 구분했다. 예를 들어 의과대학 임상의 학년을 포함하는 종합적인 시험에는 생리학, 약리학, 생물통계학 등과 같은 범주가 포함될 수 있다.
Content-oriented blueprints describe tests in terms of the topics or subject matter covered. They usually slice up the test material according to traditional academic disciplines. For example, a comprehensive test covering a preclinical year of medical school might include categories such as physiology, pharmacology, biostatistics, and so on.
[프로세스 지향 테스트 청사진]은 학생들이 보여줄 수 있는 절차적 기술을 기술하고 있다. 많은 프로세스 지향 테스트 청사진에는 블룸의 분류학 인지 영역의 기술이 포함되어 있습니다. 예를 들어, Miller의 피라미드는 통계 시험의 70%가 알고 있는 수준의 과제를 포함하며, 30%는 학생들이 방법을 보여주도록 요구할 것이라고 결정하는 데 사용될 수 있다. 프로세스 지향 프레임워크는 특히 절차적 기술과 정서적 영역에 중점을 두는 임상 교육에 유용하다.
Process-oriented test blueprints delineate the procedural skills students are expected to demonstrate. Many process-oriented test blueprints include skills from the cognitive domain of Bloom’s taxonomy. Miller’s pyramid can be used to decide, for example, that 70% of a statistics test will include tasks at the knows and knows how levels, while 30% will require students to show how. Process-oriented frameworks are particularly useful for clinical training where the emphasis is on procedural skills and the affective domain.
앞의 텍스트는 테스트 Blueprint가 내용 중심 또는 프로세스 중심 윤곽선임을 나타냅니다. 실제로 많은 Blueprint에서 이 두 차원을 [프로세스-컨텐츠 매트릭스]라는 단일 프레임워크에 통합합니다.
The preceding text suggests that test blueprints are either content-oriented or process-oriented outlines. In fact, many blueprints integrate these two dimensions into a single framework called the content-by-process matrix.
그림 4와 같은 프로세스별 콘텐츠 매트릭스는 테스트 설계를 위한 상당한 유연성을 제공하며 커리큘럼 전반에 걸쳐 사용할 수 있습니다. 이 설계의 일반적인 변화는 행 또는 열을 블룸의 분류법(예: 지식, 응용 프로그램, 분석)의 인지 수준으로 바꾸는 것입니다.
A content-by-process matrix like that in Figure 4 offers considerable flexibility for test design and can be used across the curriculum. A common variation of this design is to replace either the rows or columns with the cognitive levels from Bloom’s taxonomy (e.g. knowledge, application, analysis).
평가 목표 설명
Delineate the assessment objectives
이전 단계의 결과는 주요 내용과 프로세스의 범주 목록입니다. 이 두 번째 단계에서는 자세한 내용을 설명서에 소개합니다. 테스트 청사진은 구체적, 저추론적low-inference 행동을 나열하여 학생들이 기대하는 바를 설명해야 한다(Mookerjee et al. 2013). [저추론 행동]은 학생이 평가가 의도한 행동을 보여주었는지 객관적으로 판단하기에 충분히 관찰가능해야 한다. 경우에 따라 필수 세부 정보가 과정 목표의 일부로 이미 존재합니다. 무커지 외 연구진(2013)이 개발한 임상 기술 평가 청사진은 의대 기존 임상 기술 커리큘럼의 이정표에 의존했다.
The outcome of the previous stage is a list of the major content and/or process categories; this second stage introduces detail to the documentation. Test blueprints should describe what is expected of students by listing specific, low-inference behaviors (Mookherjee et al. 2013). Low-inference behaviors are sufficiently observable to objectively determine whether the student demonstrated the behaviors of interest. Sometimes the required detail will already exist as part of the course objectives. A blueprint for clinical skills assessment developed by Mookherjee et al. (2013) relied on milestones from the medical school’s existing clinical skills curriculum.
이정표와 학습 성과와 같은 상세한 문서를 쉽게 이용할 수 없는 경우, 평가 목표를 작성할 필요가 있을 수 있다. 잘 작성된 평가 목표는 그림 1의 행동 목표와 유사합니다. 그들은 숙달될 내용과 학생이 보여줄 지식이나 기술의 유형을 명시한다. 또 다른 접근 방식은 매트릭스 Blueprint에 의존하여 평가 목표를 지정하는 것입니다. 그림 5는 심혈관 의학에 대한 점원 시험을 위한 프로세스별 내용 청사진의 골격을 보여줍니다.
If detailed documents such as milestones and learning outcomes are not readily available, then it may be necessary to write the assessment objectives. Well-written assessment objectives are similar to the behavioral objectives in Figure 1. They specify the content to be mastered and the type of knowledge or skill that the student is expected to demonstrate. Another approach is to rely on a matrix blueprint to specify the assessment objectives. Figure 5 presents the skeleton of a content-by-process blueprint for a clerkship exam on cardiovascular medicine.
그림 5에는 논평할 가치가 있는 다른 특징들이 포함되어 있다.
첫째, 심근경색증에 따른 세부사항을 수준별로 기록합니다. 이상적으로는 각 등급의 심장 질환이 적절한 특정 조건을 포함하는 것이 좋다.
둘째, 오른쪽 열과 아래쪽 행의 값은 각 범주에 할당된 질문 수를 나타냅니다. 다양한 질문이 있으면 Blueprint를 구현할 때 유연성을 제공합니다.
셋째, 이 예제는 매우 일반적인 행렬의 각 셀에 대한 평가 항목 수를 지정합니다. 그러나 그림에서 알 수 있듯이 셀은 다른 방법으로도 사용될 수 있습니다(예: 과정 목표와 연결됨).
마지막으로, 세분화 수준을 고려하는 것이 중요합니다. 평가 작업을 더 쉽게 만들고 균형 잡힌 테스트를 조립할 수 있다는 이점 때문에 너무 세부적이고 몇 시간을 들여 테스트 청사진을 개발할 수 있습니다. 세부 사항이 너무 적어서 시험에 집중하지 못할 수도 있고, 학생들은 무엇을 예상해야 할지 모를 것이다. 대부분의 저자들은 테스트 청사진(예: Coderre 등)의 특수성을 높이려고 합니다. 2009; Fives and DiDonato-Barnes 2013, Mookherjee et al. 2013)
Figure 5 includes other features worthy of comment.
First, note the level of detail under cardiomyopathies. Ideally, each class of cardiac disorders would include specific conditions as appropriate.
Second, the values in the right column and the bottom row indicate the number of questions allocated to each category. Having a range of questions provides some flexibility when implementing the blueprint.
Third, this particular example specifies the number of test items for each cell of the matrix, which is quite common. However, as the Figure indicates, the cells can be used in other ways as well (e.g. linked to course objectives).
Finally, the level of granularity is important to consider. Too much detail and one can spend hours developing the test blueprint, with the benefit that it will be easier to produce assessment tasks and to assemble a balanced test. Too little detail and the test may be unfocused, and students will not know what to expect. Most authors lean toward greater specificity in test blueprints (e.g. Coderre et al. 2009; Fives and DiDonato-Barnes 2013; Mookherjee et al. 2013).
평가 형식 결정
Decide on the assessment format
평가 형식을 선택하는 것은 평가 방법과 학생들이 알고 할 수 있는 것에 대한 주장을 일치시키는 문제이다. 평가 방법은 세 가지 일반적인 등급으로 분류된다: 서면 평가, 시뮬레이션, 작업장 기반 평가.
Choosing an assessment format is a matter of matching the method of assessment with the claims to be made about what students know and can do. Assessment methods fall into three general classes: written assessments, simulations, and workplace-based assessment.
테스트 청사진 개발과 가장 관련이 있는 두 가지 유형의 타당성 증거는 콘텐츠 타당성 및 응답 프로세스입니다(Tavakol 및 Dennick 2017). 테스트 청사진이 컨텐츠 관련 증거의 주요 출처 역할을 한다는 것은 널리 알려져 있습니다(Kane 2016; Raymond 2016). 그 이유는 신중하게 개발된 테스트 청사진을 통해 평가 내용이 지침 중 다루는 내용과 일치하도록 보장할 수 있기 때문입니다(Notar 등). 2004; McLaughlin et al., 2005; Fives and DiDonato Barnes 2013).
The two types of validity evidence most relevant to the development of test blueprints are content validity and response process (Tavakol and Dennick 2017). It is widely recognized that a test blueprint serves as a primary source of content-related evidence (Kane 2016; Raymond 2016). This is because a thoughtfully developed test blueprint can help ensure that the assessment aligns with content covered during instruction (Notar et al. 2004; McLaughlin et al. 2005; Fives and DiDonatoBarnes 2013).
응답 프로세스 타당성은 [평가 과제에 의해 도출된 인지적, 정신 운동적, 그리고 정서적 프로세스가 학생들의 행동에 대해 제기되는 주장에 의해 암시되는 과정과 유사한 정도]를 의미한다. 예를 들어, MCQ는 "학생이 신체 검사와 흉부 X선을 해석하여 흉부 중심화의 필요성을 결정할 수 있다"는 주장을 뒷받침할 수 있다. 그러나 학생이 실제로 흉부 중심화를 수행할 수 있다는 주장을 뒷받침하려면 매우 영리한 MCQ가 필요할 것이다. 이 후자의 목표는 실제 또는 모의 실험 환자와 상호작용하는 학생의 직접 관찰을 포함하는 형식을 필요로 한다.
Response process validity refers to the extent to which the cognitive, psychomotor, and affective processes elicited by the assessment tasks are similar to the processes implied by the claims to be made about student behaviors. For example, an MCQ could support the claim that “the student is able to interpret physical examination and chest X-ray to determine the need for thoracentesis”. However, it would take a very clever MCQ to support the claim that a student can actually perform thoracentesis. This latter objective would require a format involving direct observation of the student interacting with a real or simulated patient.
또한 신뢰도는 평가 형식의 선택에 영향을 미치며, MCQ는 일반적으로 시뮬레이션이나 작업장 기반 평가보다 더 신뢰할 수 있는 점수를 산출한다. 비용, 물류 및 기타 실제적인 제약조건이 평가 형식의 선택에 가장 큰 영향을 미칠 것이다. 멀티 스테이션 시뮬레이션은 타당도를 향상시킬 수 있지만 직원 지원이나 물리적 공간 측면에서 의대 용량을 초과할 수 있다.
Reliability also will influence the choice of an assessment format, with MCQs generally producing more reliable scores than simulations or workplacebased assessments. Cost, logistics, and other practical constraints will most certainly influence the choice of an assessment format. Multi-station simulations may enhance validity but may exceed a medical school’s capacity in terms of staff support or physical space.
의심할 여지 없이, 의학 교육의 평가 환경은 지난 수십 년 동안 진화해 왔다. 임상 시뮬레이션과 작업장 기반 평가가 점점 더 보편화되고 있는 반면, 서면 평가는 그것이 가장 효과적인 영역만으로 제한되고 있다. 테스트 청사진을 필기 테스트와 연결하는 것이 일반적이지만, 시뮬레이션 및 작업 공간 기반 평가에도 역할이 있습니다. 실제로, 시험 청사진은 교육과정이 임상적 환경의 특이점에 의존하는 임상실습과 전공의에게 훨씬 더 중요할 수 있다.
Without question, the assessment landscape in medical education has evolved over the past few decades. Clinical simulations and workplace-based assessments are becoming more common, while written assessments are being limited to those domains for which they are most effective. Although it is common to associate test blueprints with written tests, they also have a role in simulations and workplace-based assessments. Indeed, test blueprints can be even more important for clerkships and residencies where the curriculum is dependent on the idiosyncrasies of the clinical setting.
OSCE와 같은 구조화된 임상 시뮬레이션은 시험 내용을 통제할 수 있는 직장 기반 평가보다 더 큰 기회를 제공한다. OSCE가 관련성이 있고 서로 다른 학생 코호트 간에 균형을 유지할 수 있도록 테스트 청사진은 학생 성과에 가장 영향을 미칠 수 있는 사례 특성을 명시해야 한다. 이론적으로, OSCE 청사진은 환자 나이, 성별, 의료 조건 및 환자 관리 유형과 같은 여러 요소로 구성될 수 있다. 이는 다차원 매트릭스로 수백 개의 셀을 생성한다. 실제로, 간단한 테이블로도 충분할 수 있다. 그림 6은 OSCE의 청사진을 보여줍니다. 이 Blueprint는 단일 테스트 양식에 대한 환자 및 의사 작업을 설명합니다. 추가 테스트 양식으로 일반화하려면 각 열에 대한 추가 내용 제약 조건을 문서화하는 것이 바람직합니다.
Structured clinical simulations, such as OSCEs, afford greater opportunity than workplace-based assessments to control test content. To ensure that OSCEs are relevant and remain balanced across different student cohorts, test blueprints should specify those case characteristics most likely to affect student performance. In theory, an OSCE blueprint could consist of multiple factors, such as patient age, gender, medical condition, and type of patient management; this would produce hundreds of cells in a multidimensional matrix. In practice, a simple table may suffice. Figure 6 illustrates a blueprint for an OSCE. This blueprint describes the cases and physician tasks for a single test form. To generalize to additional test forms, it would be desirable to document additional content constraints for each column.
범주 가중치 지정
Specify the category weights
테스트 시간은 제한되어 있습니다. 실질적인 문제로서, 내용 가중치 또는 범주 가중치를 사용하여 다른 평가 목표에 시간과 공간을 할당할 필요가 있다.
서면 평가의 경우, 가중치는 각 범주의 [시험 항목 수] 또는 백분율에 해당한다.
시뮬레이션과 작업장 평가의 경우 가중치는 [시험 시간]으로 환산할 가능성이 더 높다.
Testing time is limited. As a practical matter, it is necessary to allocate time and space to the different assessment objectives through the use of content weights or category weights.
For written assessments, the weights correspond to the number or percent of test items for each category.
For simulations and workplace assessments, the weights more likely translate to the amount of testing time.
범주 가중치를 할당할 때 한 가지 어려움은 일반적으로 [평가 목표 수가 사용 가능한 시험 시간을 초과한다는 것]이다. 도메인 샘플링 모델은 이 과제를 설명한다. 모든 테스트가 관심 있는 더 큰 지식 및 기술 영역의 행동 샘플을 나타낸다는 원칙에 기초한다(Tavakol 및 Dennick 2017).
One challenge when assigning category weights is that the the number of assessment objectives usually outweighs available testing time. The domain sampling model speaks to this challenge; it is based on the principle that any test represents a sample of behaviors from the larger knowledge and skill domains of interest (Tavakol and Dennick 2017).
범주 가중치는 도메인 내에서 주제의 중요성을 반영한다(Millman과 Greene 1989). 중요성은 주제에 전념하는 교육 시간, 그것이 실제로 얼마나 자주 적용되는지, 또는 후속 학습을 위한 주제의 중요성에 해당될 수 있다. 범주 가중치는 다양한 의료 조건과 절차의 발병률을 보고하는 국가 데이터에서 도출할 수 있다(Boulet et al. 2003, Baker et al. 2017). 또는 교수진, 거주자 또는 학생과 같은 동료들을 조사하여 주제 중요성을 결정할 수 있다.
Category weights reflect the importance of the topics within a domain (Millman and Greene 1989). Importance might correspond to the instructional time devoted to a topic; how often it is applied in practice; or the criticality of a topic for subsequent learning. Category weights can be derived from national data reporting the incidence of various medical conditions and procedures (Boulet et al. 2003; Baker et al. 2017). Alternatively, one can survey colleagues such as faculty, residents, or students to determine topic importance.
가중치 도출에 대한 이러한 엄격한 경험적 접근방식은 훌륭하지만 덜 까다로운 방법은 또한 강의실 시험에 적합하다. 효과적인 두 가지 전략은 하향식 및 상향식 방법(Raymond 2016)이며, 두 가지 방법 모두 단일 강사에 의해 적용되거나 동료 및 상급advanced 의대생을 포함하여 적용할 수 있다.
하향식 방법에는 Blueprint의 각 주요 범주에 백분율을 할당하여 백분율 합계가 100%가 되도록 합니다. 바람직한 경우, 하위 범주에 대해서도 유사한 방식으로 가중치를 얻을 수 있다.
상향식 방법에는 백분율이 아닌 항목 수를 지정해야 하며, 그 수는 먼저 하위 범주 또는 특정 목적의 [낮은 수준(예: 하위 범주)에서 할당]되어야 합니다. 상향식 접근법의 한 가지 과제는 총 항목 수가 실현 가능한 최대 시험 길이를 초과할 수 있다는 것이다. 따라서 초기 가중치에 대한 일부 조정이 종종 필요하다.
Although these rigorous empirical approaches to deriving weights are admirable, less demanding methods also are suitable for classroom tests. Two effective strategies are the top-down and the bottom-up methods (Raymond 2016), both of which can be applied by a single instructor, or by including colleagues and advanced medical students.
The top-down method involves the assignment of percentages to each major category in the blueprint such that the percentages sum to 100%. Weights can be obtained in a similar fashion for subcategories, if desirable.
The bottom-up method requires specifying numbers of items, rather than percentages; and that numbers first be assigned at a lower level of the test blueprint (e.g. at the subcategory or specific objective). One challenge with the bottom-up approach is that the total number of items may exceed the maximum feasible test length; consequently, some adjustment to the initial weights is often necessary.
요약 및 결론 설명
Summary and concluding comments
테스트 청사진은 테스트 내용이 커리큘럼과 일치하는지 확인합니다(Notar 등). 2004); 이것은 타당도의 중요한 측면이다(Tavakol 및 Dennick 2017). 테스트 청사진은 특정 테스트의 점수가 더 큰 관심 영역(Kane 2016)으로 일반화되도록 지원함으로써 다른 방식으로 내용 타당화를 지원합니다. 또한 테스트 Blueprint는 응답 프로세스의 타당도를 평가하기 위한 프레임워크를 제공합니다.
Test blueprints assure that the content of a test aligns with the curriculum(Notar et al. 2004); this is a critical aspect of validity (Tavakol and Dennick 2017). Test blueprints support content validation in other ways, by helping to ensure that scores on a specific test generalize to the larger domain of interest (Kane 2016). Test blueprints also provide a framework for evaluating the validity of response processes.
이 문서는 강사가 학생들에게 어떤 가치를 부여하고 기대하는지를 나타내며 학습 가이드로 사용할 수 있습니다. 학생들과 청사진을 공유하는 것에는 장단점이 있지만, 연구는 이러한 관행을 뒷받침한다(McLaughlin et al. 2005; Patil et al. 2015).
They indicate what instructors value and expect of their students, and can be used as a study guide. Although there are pros and cons to sharing blueprint with students, studies support this practice (McLaughlin et al. 2005; Patil et al. 2015).
Blueprint에 포함된 내용 범주와 역량 영역은 학생들에게 피드백의 기초를 제공한다.
The content categories and competency domains included on test blueprints provide the basis for feedback to students.
Blueprint는 평가 관련 자료의 개발을 촉진한다. 예를 들어, 시험 청사진을 시뮬레이션 및 작업장 기반 평가를 위한 채점 루빅과 피드백 보고서로 변환하는 것이 간단하다(Mookerjee et al. 2013).
They facilitate the development of assessment-related materials. For example, it is straightforward to transform a test blueprint into scoring rubrics and feedback reports for simulations and workplace-based assessments (Mookherjee et al. 2013).
Blueprint는 부서별 문항작성 작성 및 검토 작업을 구성하는 데 필수적입니다. 문항 쓰기 과제를 간결하게 전달하기 때문이다
Test blueprints are essential for organizing departmental item-writing and review efforts because they succinctly communicate item-writing assignments.
Blueprint는 시험 자료를 관리하기 위한 메타데이터를 제공한다. 일단 시험 청사진에 따라 시험 항목이 코드화되면, 더 큰 항목 풀에서 그것들을 회수하고 다른 목적을 위해 시험 형태로 조립하는 것이 간단하다.
They provide metadata for managing test materials. Once test items have been coded according to a test blueprint, it is straightforward to retrieve them from a larger pool of items and to assemble them into test forms for different purposes.
Blueprint는 교육의 질 향상에 기여한다. 학생 피드백에 사용된 범주는 또한 교수진에게 교육적 효과의 척도를 제공한다. 시험 청사진은 계획, 지침 및 평가 사이의 연관성을 명확히 하며, 이는 교수진의 자기반성을 고무시킬 수 있다(McLaughlin et al. 2005).
Test blueprints contribute to educational quality improvement. The categories used for student feedback also provide faculty with measures of instructional effectiveness. Test blueprints clarify the connections between planning, instruction, and assessment, which can inspire faculty self-reflection (McLaughlin et al. 2005).
A practical guide to test blueprinting
- PMID: 31017518
- DOI: 10.1080/0142159X.2019.1595556
Abstract
A test blueprint describes the key elements of a test, including the content to be covered, the amount of emphasis allocated to each content area, and other important features. This article offers practical guidelines for developing test blueprints. We first discuss the role of learning outcomes and behavioral objectives in test blueprinting, and then describe a four-stage process for creating test blueprints. The steps include identifying the major knowledge and skill domains (i.e. competencies); delineating the specific assessment objectives; determining the method of assessment to address those objectives; and establishing the amount of emphasis to allocate to each knowledge or skill domain. The article refers to and provides examples of numerous test blueprints for a wide variety of knowledge and skill domains. We conclude by discussing the role of test blueprinting in test score validation, and by summarizing some of the other ways that test blueprints support instruction and assessment.
'Articles (Medical Education) > 평가법 (Portfolio 등)' 카테고리의 다른 글
의과대학에서 발달시험: 네덜란드의 경험 (Perspect Med Educ, 2016) (0) | 2021.04.25 |
---|---|
의학교육에서 평가의 역사(Adv Health Sci Educ Theory Pract, 2020) (0) | 2021.02.03 |
종합에서 해석까지: 어떻게 평가자가 역량기반포트폴리오의 복잡한 데이터를 판단하는가(Adv in Health Sci Educ, 2017) (0) | 2020.12.11 |
내러티브 코멘트의 숨은 가치: 질적 자료의 양적 신뢰도 분석(Acad Med, 2017) (0) | 2020.12.11 |
운전 연습 또는 운전 시험? 피드백을 평가와 구분하기 위한 비유(Perspect Med Educ, 2020) (0) | 2020.12.11 |