좋은 평가에 대한 2018 컨센서스 프레임워크(Med Teach, 2018)

2018 Consensus framework for good assessment

John Norcinia , M. Brownell Andersonb, Valdes Bollelac, Vanessa Burchd, Manuel Jo~ao Costae ,

Robbert Duvivierf, Richard Haysg , Maria Felisa Palacios Mackayh, Trudie Robertsi and David Swansonj




배경

Background


이 아이디어가 2018년 오타와 컨퍼런스에서 워크숍의 일부로 제시됐을 때, "Criteria"이라는 단어를 사용하는 것은 마치 평가를 판단하는데 사용하는 기준의standards의 개발을 암시했기 때문에 적절하지 않다는 강한 느낌이 있었다. 따라서 Criteria 대신 "프레임워크"라는 단어가 개별 평가 및 평가 시스템의 개발과 검토에 유용할 수 있는 구조를 만들고자 하는 우리의 바람을 더 정확하게 포착했다는 일반적인 합의가 있었다.

When these ideas were presented as part of a workshop at the 2018 Ottawa Conference, there was a strong sense that the use of the word “criteria” was not optimal since it implied the development of standards against which assessments could be judged. Instead, there was general agreement that the word “framework” more precisely captured our desire to create a structure that might be useful in the development and review of individual assessments and systems of assessment.


프레임워크의 다양한 요소들이 모든 평가에 보편적으로 그리고 같은 비중으로 적용되지 않는다. 평가의 맥락과 목적적합성은 각 요소의 중요도에 크게 영향을 미친다.

the various elements of a framework do not apply universally and equally to all the assessments. The context and purpose-priorities of assessment heavily influence the importance of those elements.


의학 졸업생들의 지식에 대한 책무성의 필요를 충족시키기 위해 고안된 시험(예: 의사국가시험)은, 미래 학습 또는 커리큘럼 개혁을 안내할 세부적인 피드백을 제공하지 않으며, 이는 애초에 그 시험은 그렇게 하도록 설계되지 않았기 때문이다.

examination designed to meet the need for accountability for the knowledge of medical graduates (e.g. a medical licensing examination) does not produce detailed feedback that would guide future learning or curricular reform, since it has not been designed to do so.


마찬가지로, 프레임워크의 요소들은 동일한 평가에 대해서조차 이해관계자들마다 가중치가 다를 수 있다. 예를 들어, 교육적 효과 및 촉매적 효과에 대해 규제 당국은 무관심한 반면, 학생들은 관심이 높다.

Similarly, the elements of the framework are not of equal weight for all stakeholders, even, given the same assessment. For example, students may value the educational and catalytic effect of an assessment while regulators might be indifferent.


흥미롭게도, 유사한 문제들이 학생 선발과 같은 다른 고부담시험에서 발생했다. 최근 선정 방법의 검토(Primidaux et al. 2011)는 "정치적 타당성"이라는 개념을 도입했다. 직업심리학 문헌에 처음 소개된 정치적 타당성이란 개념은 "선발 과정의 설계에 영향을 미치는 이해관계자(또는 이해관계자 그룹)"가 많다는 것을 인정한다(Patterson과 Zibaras 2011). 마찬가지로, 평가 프로세스처럼 다양한 관점을 가진 광범위한 이해 당사자들이 참여하는 경우에도 명백하다.

Interestingly, similar issues have arisen in other highstakes processes like student selection. A recent review (Prideaux et al. 2011) of selection methods invoked the concept of ““political validity””. First introduced in the occupational psychology literature, political validity recognizes that “there are often many stakeholders (or stakeholder groups) that influence the design of selection processes” (Patterson and Zibarras 2011). This is evident in assessment processes too, where a wide group of stakeholders with different perspectives are involved


달리 말하면, 평가 시스템은 (강건하고 방어할 수 있는 심리측정학적 특성을 가진 방법 사용) 준거관련(동시/예측) 타당성 및 정치적 타당성(다양한 이해관계자의 이해관계를 포함)을 모두 요구한다.

Put differently, systems of assessment require both criterion-related (concurrent/predictive) validity (using methods with robust and defensible psychometric properties) and political validity (including the interests of different stakeholders).


단일 평가

Single assessments


좋은 평가의 프레임워크

Framework for good assessment



표 1. 좋은 평가를 위한 프레임워크: 단일 평가.

Table 1. Framework for good assessment: single assessments.


1. 타당성 또는 일관성: 평가 결과는 일관성 있는 증거로 입증되는 특정 목적에 적합하다.

1. Validity or Coherence: The results of an assessment are appropriate for a particular purpose as demonstrated by a coherent body of evidence.


2. 재현성, 신뢰성 또는 일관성: 유사한 상황에서 반복될 경우 평가 결과는 동일하다.

2. Reproducibility, Reliability, or Consistency: The results of the assessment would be the same if repeated under similar circumstances.


3. 동등성: 동일한 평가는 다른 기관 또는 시험 주기에 걸쳐 관리했을 때 동등한 점수 또는 결정을 내립니다.

3. Equivalence: The same assessment yields equivalent scores or decisions when administered across different institutions or cycles of testing.


4. 타당성: 상황과 맥락을 고려할 때 평가는 실용적이고 현실적이며 합리적입니다.

4. Feasibility: The assessment is practical, realistic, and sensible, given the circumstances and context.


5. 교육 효과: 평가는 평가를 받는 사람들에게 교육적인 이점이 있는 방식으로 준비하도록 동기를 부여.

5. Educational Effect: The assessment motivates those who take it to prepare in a fashion that has educational benefit.


6. 촉매 효과: 평가는 모든 이해당사자들이 교육을 만들고, 개선하고, 지원하도록 동기를 부여하는 방식으로 결과와 피드백을 제공한다. 이는 미래 학습을 유도하고, 전체 프로그램의 질을 향상시킨다.

6. Catalytic effect: The assessment provides results and feedback in a fashion that motivates all stakeholders to create, enhance, and support education; it drives future learning forward and improves overall program quality.


7. 수용성: 이해관계자는 평가 과정과 결과가 신뢰할 수 있다고 생각합니다.

7. Acceptability: Stakeholders find the assessment process and results to be credible.


프레임워크와 평가 목적

The framework and assessment purpose




형성평가

Formative assessment


효과적인 형성평가는 전형적으로 저부담평가이며, 종종 비공식적이고 opportunistic하며, 학습을 자극하기 위한 목적이 있다.

Effective formative assessment is typically low stakes, often informal and opportunistic by nature, and is intended to stimulate learning.


형성평가는 다음의 경우에 가장 잘 작동한다

(1) 교육 과정 및/또는 임상 작업 흐름에 내장된다. 

(2) 구체적이고 실행 가능한 피드백을 제공한다. 

(3) 지속적으로 이뤄진다.

(4) 적시에 이뤄진다.


Formative assessment works best when it 

(1) is embedded in the instructional process and/or clinical work flow, 

(2) provides specific and actionable feedback, 

(3) is ongoing, and 

(4) is timely.


총괄평가

Summative assessment


효과적인 종합 평가는 일반적으로 중부담, 고부담 평가이며, 책무성의 요구에 대응하기 위한 것이다. 흔히 일관성 있는, 고품질의 시험 자료, 체계적인 기준 설정 프로세스, 보안 관리가 필요합니다.

Effective summative assessment is typically medium or high stakes and is intended to respond to the need for accountability. It often requires coherent, high-quality test material, a systematic standard-setting process, and secure administration.


프레임워크와 이해관계자

The framework and stakeholders



Examinees

Examinees have a vested interest in both formative and summative assessment and they should be actively involved in seeking information that supports their learning. For formative assessment, educational effects, catalytic effects, and acceptability are likely to be of most concern to examinees, since these are the main drivers of learning. Examinees may take validity-coherence for granted, and feasibility will most probably be a consideration based on cost and convenience. Equivalence and reliability-consistency are of less immediate concern.


For summative assessment, issues related to perceived fairness will be most salient for examinees, as will clarity and openness about the content and process of assessment. Hence, elements such as validity-coherence, reproducibility-consistency, equivalence, and acceptability will be most important. The catalytic effect will support remediation, especially for unsuccessful examinees. When successful examinees are not provided with feedback or do not use it, the opportunity to support ongoing learning is missed.


Teachers-educational institutions

These stakeholders have interests in every facet of the assessment of students to fulfill their dual roles in education and accountability. Consistent with what was outlined above, the elements apply differently to these two roles or purposes. Validity-coherence, reproducibility-consistency, equivalence, and acceptability are particularly important to ensure correctness and fairness in decision making. Educational effects, catalytic effects, and acceptability are the cornerstones of successful student engagement and learning based on assessment.


For both teachers and institutions, student assessment information serves an important secondary purpose, namely, it speaks to the outcomes of the educational process. In other words, students’ assessments, appropriately aggregated, often serve as benchmarks for comparison and formative assessment for teachers and institutions. For such data, elements like equivalence and reproducibility-consistency are a bit less important while the educational effect and catalytic effect are a bit more important. Validity-coherence is important but should be addressed as part of good student assessment, while feasibility should be straightforward since the data are already available.


Beyond repurposing student assessment, institutions engage in the assessment of individual teachers and the evaluation of programs. These applications can be broadly classified as either formative or summative and the criteria apply as noted above.


Patients

For patients, it is most important that their healthcare providers have good communication skills, appropriate qualifications, and the ability to provide safe and effective care. While patients certainly support the use of formative assessment to help the students and practitioners in the development and refinement of these skills, summative assessment is a more immediate concern since patients need to be assured of their providers’ competence. Consequently, elements such as validity-coherence, reproducibility-consistency, and equivalence are of greatest importance. Feasibility, acceptability, educational effect, and catalytic effect are of less concern to this group. In the long term, however, formative assessment that supports and promotes continuous improvement will be important.


Healthcare system and regulators

The most pressing need of the healthcare system and the regulators is to determine which providers are competent and safe enough to enter and remain in the workforce. This need implies correct decisions based on summative assessment, so validity-coherence, reproducibility-consistency, and equivalence are paramount. Feasibility is also important since the healthcare systems and the regulators sometimes bear these costs.


It is becoming more common for health systems to engage in some form of continuous quality improvement (CQI). These systems are often embedded in the clinical work flow and they provide ongoing, specific, feedback to healthcare workers about their activities and outcomes. Validity-coherence is central, along with educational and catalytic effects, feasibility, and acceptability.


Likewise, many regulators are beginning to time limit the validity of their registration-licensure-certification decisions. This is often accompanied by the addition of a CQI component to the revalidation process. As with the healthcare system, such a component would need to emphasize validity-coherence, educational effect, educational quality, feasibility, and acceptability with less stress on equivalence and reproducibility-consistency.


평가 시스템

Systems of assessment


평가 시스템은 하나 이상의 목적을 위해 조립된assemble 일련의 개별 (평가)척도의 통합이다.

systems of assessment integrate a series of individual measures that are assembled for one or more purposes.


일반적으로 단일 평가 방법은 이러한 모든 skill들을 파악할 수 없으므로 여러 가지 척도가 필요합니다. 그러나 이러한 척도들은 종종 단독으로 사용되거나, 조정되지uncoordinated 않은 방식으로 적용된다. 이러한 조정되지 않은 (평가)척도들은 종종 그냥 과거에 하던대로 가중치를 두어 합산한 뒤 총괄적 결정에 사용된다. 평가 시스템은 다양한 이해관계자(예: 학생, 교수, 환자, 규제 기관)에 대한 다양한 목적(예: 형태별/요약적, 높은/낮은 지분)을 달성하기 위해 단일 평가를 명시적으로 혼합하여야 한다.

Single methods of assessment are generally unable to capture all of these skills so multiple measures are needed. However, these measures are often applied in isolation or at least in an uncoordinated fashion. These uncoordinated measures are often combined to reach an overall decision based on the weights dictated by tradition. A system of assessment explicitly blends single assessments to achieve the different purposes (e.g. formative versus summative; high vs. low stakes) for a variety of stakeholders (e.g. students, faculty, patients, regulatory bodies).



그림 1은 전 세계의 다양한 평가 상태를 보여줍니다.

Figure 1 illustrates the various states of assessment around the world.


그림 1.2. (태도적, 관계적 구성요소는 무시되더라도) 역량의 인지적 측면만을 평가하는 것은 드문 일이 아니다. 왜냐하면 그것이 상대적으로 검사하기 쉽기 때문이다.

Figure 1.2. it is not uncommon to mount an assessment of the cognitive aspects of competence since they are relatively easy to examine, while ignoring the performance and attitudinal/relational components.


(그림 1.3). 이를 시스템의 전반적인 목적과 통합하려는 시도는 제한적이다. 그 결과 총괄적 평가결정에 포함되는 사항에 차이가 발생하고, 비효율성이 발생하여, 어떤 분야에 대해서만 과도한 평가가 발생할 수 있습니다.

(Figure 1.3). there is a limited attempt to integrate these with the overall purposes of the system. This leads to gaps in what is covered and inefficiencies that might lead to over-assessment.


그림 1.4는 평가 시스템의 정상 작동에 가장 근접한 것이다.

Figure 1.4 comes closest to a well-functioning system of assessment.


좋은 평가의 프레임워크

Framework for good assessment


평가 시스템에 적용가능한 프레임워크

The elements of a framework for good assessment in Table 4 are applicable to a system of assessment.


표 4. 평가 체계 : 평가 체계

Table 4. Framework for Good Assessment: Systems of Assessment.


1. 일관성: 평가 시스템은 동일한 목적을 중심으로 질서 정연하게 조정된 개별 평가 및 독립적인 성과로 구성된다.

1. Coherent: The system of assessment is composed of multiple, coordinated individual assessments and independent performances that are orderly and aligned around the same purposes.


2. 연속성: 평가 시스템은 지속적이며, 개별 결과는 시스템의 목적에 누적적으로 기여한다.

2. Continuous: The system of assessment is ongoing and individual results contribute cumulatively to the system purposes.


3. 종합성: 평가 시스템은 포괄적이고 효과적이며, 목적에 부합하는 형성적, 진단적, 총괄적 요소로 구성됩니다. 일부 또는 모든 구성 요소는 신뢰할 수 있고 통합적입니다.

3. Comprehensive: The system of assessment is inclusive and effective, consisting of components that are formative, diagnostic, and/or summative as appropriate to its purposes. Some or all components are authentic and integrative.


4. 실현가능성: 평가 시스템과 그 구성요소는 목적, 이해관계자 및 맥락을 고려할 때 실용적이고 현실적이며 효율적이며 합리적입니다.

4. Feasible: The system of assessment and its components are practical, realistic, efficient, and sensible, given the purposes, stakeholders, and context.


5. 목적지향성: 평가 시스템은 그것이 만들어진 목적을 지원한다.

5. Purposes driven: The assessment system supports the purposes for which it was created.


6. 수용가능성: 시스템의 이해관계자는 신뢰할 수 있고 증거 기반인 평가 절차와 결과를 찾습니다.

6. Acceptable: Stakeholders in the system find the assessment process and results to be credible and evidence-based.


7. 투명성, 비편향성: 이해관계자는 시스템의 작동을 이해해야 하며, 의도하지 않은 결과를 최소화해야한다. 결정은 공정하고 공평해야 한다.

7. Transparent and free from bias: Stakeholders understand the workings of the system and its unintended consequences are minimized. Decisions are fair and equitable.


표 5는 보건 직업 교육에서 일반적인 평가 시스템의 예를 제시한다.

Table 5 presents examples of common systems of assessments in health professions education.


일부 평가 시스템은 특정 유형의 '다면적 의사결정'을 위해 종종 다른 정보들과 결합되는 일련의 평가로 구성된 것으로 볼 수도 있다. 입학 및 면허 시스템은 좋은 예이다.

Some systems of assessment can reasonably be viewed as consisting of a series of assessments, often coupled with other information, for making certain kinds of multi-faceted decisions. Admissions and Licensure systems provide good examples.


다른 평가 시스템은 일종의 교육적 개입으로 간주되며, 프로그레스 테스트와 프로그램 평가가 좋은 예이다.

Other systems of assessment are best thought of as educational interventions; Progress Testing and Programmatic Assessment provide good examples.




평가 시스템 구현 시 고려 사항

Considerations in implementation of systems of assessment


의료 분야의 평가 시스템에 대한 사례가 많지만, 개념은 잘 이해되지 않고 구현이 어려울 수 있습니다.

While the case for systems of assessment in the health professions is strong, the concept is often not well understood, and implementation can be challenging.


정의는 모든 참가자(규제자, 후보자, 교사 및 평가자)에게 명확하고 접근가능해야 하며, 그래야 혼란 또는 오해의 범위를 줄여준다. 평가 시스템은 단순히 시간 경과에 따른 점수를 결합하여 결정을 내리는 것 이상의 것입니다. 

Definitions need to be clear and accessible to all the participants (regulators, candidates, teachers, and assessors); this reduces the scope for confusion or misinterpretation. Systems of assessment are more than just combining scores over time to make a decision, for example, that enough has been achieved to “pass”.


평가시스템의 목적은 해당 시스템이 제공하는 프로그램의 비전/미션과 명확하고 일관되어야 합니다. 교육 환경에서 그러한 목적은 커리큘럼과 학습 성과와 일치해야 한다(예: constructive alignment)(Biggs 2014).

The purposes of the system need to be clear and consistent with the vision/mission of the program it serves. In an educational setting, those purposes also need to be consistent with the curriculum and the learning outcomes (i.e. constructive alignment) (Biggs 2014).


평가 시스템을 위한 프레임워크의 적용은 두 가지 이점을 가질 것이다. 

Application of the framework for systems of assessment will have two benefits; 


첫째는 목적에 대한 적합성이다. 많은 "전통적인" 평가는 쉽게 할 수 있거나, 지금껏 행해졌던 것에 초점을 맞추고, 종종 지식과 임상 기술만을 지나치게 강조하여, 그 결과 "좋은 성과"에 필요한 다른 역량은 희생된다. 교육 프로그램에 적합한 평가 시스템은 임상 실무에서 중요하지만 "측정하기 어려운" 역량을 평가하는 방법을 포함하여 광범위한 학습 성과와 평가 방법을 포함해야 한다. 학습- 및 직장- 기반 포트폴리오에 기반한 평가가 바람직할 수 있다. 예를 들어, 성찰과제, 아침 회진 및 인계, 진료기록 작성, 지역사회 프로젝트 및 프로페셔널 행동에 관련된 평가가 포함된다. 학습자들은 교육프로그램이 "검사"하는 것을 "신경"쓰기 마련이다.

the first is fitness for purpose. Many “traditional” assessments focus on what can be done easily or has always been done, often resulting in an overemphasis on knowledge and clinical skills, at the expense of the other competencies necessary for good performance. Systems of assessment for educational programs should include a broad range of learning outcomes and assessment methods, including those that assess “difficult to measure” competencies important in clinical practice. Often, assessments based on learning- and workplace- based portfolios will be desirable. Examples include assessments related to reflective assignments, morning rounds and hand offs, record keeping, community projects, and professional behaviors. Learners “respect” what programs “inspect”.


또 다른 평가시스템의 이점은 효율성입니다. 고품질 평가는 리소스 집약적이기 때문에 수집된 정보는 값비싼 리소스를 "폐기"해서는 안 됩니다. 많은 평가들은 서로에 대해, 그리고 유사한 후속 평가에 대한 예측도가 높다. 따라서, 이러한 중복성을 염두에 두고 평가 시스템을 설계하면, 평가 수행에 필요한 자원을 줄이고, 평가가 덜 자원 집약적이고 더 실현가능할 것이다.

Another benefit is efficiency. High-quality assessment is resource-intensive, so information gathered should not “waste” expensive resources. Many assessments are highly predictive of each other and of subsequent similar assessments. Consequently, designing the system of assessment with these redundancies in mind should reduce the resources needed to conduct them and make assessment less resource-intensive and more feasible.


개별 평가에서와 마찬가지로, 평가시스템에도 원하는 성과에서부터 유도된 purposeful blueprinting이 필수적입니다. 이는 적절한 방법, 역량 및 학습 결과의 범위를 선택하도록 안내하는 동시에, 직접적으로 목적을 다루도록 함으로써 평가 결과로부터 타당도 추론에 기여한다. 어떤 내용과 스킬을 평가할 때, 모든 평가는 (적절하게 잘 설계된) sample of universe를 기반으로 한다. 잘 구성된 평가 시스템은 추출된 표본과 consistent하며, 그러한 표본을 extend할 수 있다. 예를 들어 교육 환경에서 일군의 학습성과로부터 추출sampled될 수 있는데, 이상적으로는 긴 시간에 걸쳐서 각 성과가 여러 차례 평가될 수 있도록 중복overlapping되는 범위를 가져야 한다.

Purposeful blueprinting driven by the desired outcomes is essential for systems, just as it is for individual assessments. This promotes the validity of inferences from assessment results by guiding the selection of a range of appropriate methods, competencies, and learning outcomes, while ensuring that purposes are directly addressed. All assessments are based on a sample of a universe (preferably well-designed) of content and skills; well-constructed systems of assessment are consistent with and can extend that sampling. For example in an educational setting, competencies might be sampled from across a set of learning outcomes, ideally with overlapping scope so that, over time, most are assessed on several occasions.


개별 평가에 대해서 신중한 선택과 설계 또한 필요하다.

Careful selection and design of individual assessments are also required,


동일한 역량의 서로다른 측면을 목표로 하는 방법을 사용하는 것이 도움이 될 수 있으며, 이 경우 삼각측량을 촉진하고 광범위한 지식, 기술 및 행동적 내용에 대해 효율적인 평가를 촉진할 수 있다(Wilkinson 2007).

The use of methods aimed at different aspects of the same competence can be helpful as it will facilitate triangulation and the efficient assessment of a wide range of knowledge, skills, and behavior content (Wilkinson 2007).


개별 평가의 타이밍과 순서에는 평가시스템의 목적에 관계없이 세심한 계획이 필요하다. 이는 교육 프로그램에서 개별 학생의 학습 궤적을 reflect하도록 설계된 시스템에서 특히 중요하다.

The timing and sequencing of individual assessments requires careful planning regardless of the purposes of the system. This is particularly important for systems designed to reflect the learning trajectories of the individual students in an educational program.


개별 형성평가의 빈도를 늘리면, 소수의 고부담 시험에 의한 압력을 줄일 수는 있지만, 동시에 실현 가능성 문제도 야기할 수 있다. 교육 프로그램에서, 많은 역량이 서로 다른 시간에 그리고 다른 순서로 달성될 수 있으므로, 이 접근방식은 일정정도의 유연성을 허용할 것이다. 또한 학습 속도가 느려지면 재교육 및 추가 자원이 필요할 수 있습니다.

Increasing the frequency of individual formative assessments reduces the pressure created by a small number of high-stakes events, but this can also create feasibility issues. In educational programs, many competencies can be achieved at different times and in different sequences so this approach allows for some flexibility. Further, slower learning might trigger the need for remediation/additional resources.


일부 관찰자는 광범위한 평가 방법의 사용 신뢰성에 미치는 잠재적 영향에 대해 우려하며, 어떤 평가방법은 단독으로 사용될 경우 신뢰성이 낮게 나타날 수 있기 때문이다. 그러나 복수의 방법과 복수의 평가자를 여러 차례에 걸쳐서 사용하면 다양한 attributes를 달성했다는 증거를 제공하기에 충분하다.

Some observers are concerned about the potential impact on reliability of using the broader range of assessment methods, some of which, when used alone, demonstrate lower reliability. The use of multiple methods and multiple judges on multiple occasions is sufficient to provide evidence for the achievement across a range of attributes.


총괄적 결정이 필요한 경우, 기준 설정은 복잡할 수 있으며, 개별 평가의 aggregated된 결과에 기초하여 종합적인 결정을 내리는 다양한 방법이 필요할 수 있다. 수많은 평가(예: 교육 프로그램의 일부로서)가 있을 때, 이러한 결정을 순전히 양적 및 기계적 방식으로 결합하는 것은 어려운 일일 뿐만 아니라, 만족스러운 결과를 내지 못할 수 있다. 이 전략은 특정 평가가 중요함에도 불구하고 전체적인 의사결정에 대한 기여도가 낮다는 이유로 경시하는 결과를 유발 할 수 있다.

Where summative decisions are needed, standard setting may be complex and require a variety of methods to make an overall decision based on the aggregated results of individual assessments. Combining these decisions in a purely quantitative and mechanical way, especially when there are numerous assessments (e.g. as part of an educational program), is challenging and may not yield a satisfactory outcome. This strategy may also trivialize important individual assessments when they contribute less to an overall decision.


시스템의 목적에 맞는 경우 일련의 비보상적 결정을 내리는 것이 합리적일 수 있습니다. 결론을 내릴 때 모든 측정 정보를 가장 잘 고려하는 위원회 판단 절차를 마지막으로 사용하는 것이 적절할 수 있습니다. 

Where it fits the purposes of the system, it may be reasonable to make a series of non-compensatory decisions, . Finally use of a committee judgment process, which takes all of the measurement information into account in coming to a conclusion, may be the best alternative. 


일부 평가 시스템에서는 개별 측정은 형성평가와 총괄평가 목적 모두에 대해 사용된다. 이렇게 할 경우, 효율성이 향상될 수 있고 , 평가 결과를 바탕으로 피드백도 제공하고 의사 결정을 내리는 데에도 도움을 받을 수 있을 것이다. 그러나 이중적인 목적은 조심스럽게 다뤄져야 한다. 형성적 목적을 위해 설계된 평가는 종종 총괄적 목적에 적합하지 않은 특성을 가지고 있다.

In some systems of assessment, individual measures are used for both formative and summative purposes. This contributes to improved efficiency, potentially making assessments helpful in both, providing feedback and making decisions. However, we believe this dual purpose needs to be handled cautiously. Assessments designed for formative purposes often have characteristics that make them less than ideal for the summative purposes and vice versa.


이 문제에 대한 한 가지 접근법은 [피드백을 제공하는 개별 교수진]과 [별도로 평가 결과에 따라 의사결정을 담당하는 위원회]를 만드는 것이다. 위원회의 구성원들은 학생들에게 가까이 있는 사람들이 아니며, 가르치고 피드백을 주는 사람들은 총괄적 결정을 내리지 않는다.

one approach to this challenge is to create a committee that is responsible for making decisions based on assessment results, separately from individual faculty providing feedback. Members of the committee are not those who are close to the students along the way and those who teach and give feedback do not make decisions.



Recommendations for future work


   프레임워크의 adaptability가 기술과 인공지능(AI)에 미치는 영향

   평가 방법의 비용 및 ROI

   교육 및 의료 시스템과 평가의 상호작용

   이 프레임워크와 문헌에 보고된 다른 프레임워크 사이의 관계(예: Michie et al. 2011)


   The adaptability of the frameworks to technology and artificial intelligence (AI)

   The costs and the return on investment of assessment methods

   The interaction of assessments with educational and health care systems

   The relationship between these frameworks and others reported in the literature (for example Michie et al. 2011).


Conclusions


평가 시스템의 경우 고려해야 할 몇 가지 추가 요소 또는 최소한 몇 가지 추가 측면이 있다. 이는 개별 평가의 구현과 달리, [표본 추출, 타이밍 및 의사결정, 서로 다른 출처의 다른 종류의 정보를 결합하는 방법, 진급결정이 이루어지는 방법]과 관련이 있다.

For systems of assessment there are some additional elements, or at least some additional aspects, that should be considered. These relate not so much to the way individual assessment episodes are implemented, but more to the sampling, timing and decision-making, the means of combining different kinds of information from different sources, and how progression decisions are made.










 2018 Oct 9:1-8. doi: 10.1080/0142159X.2018.1500016. [Epub ahead of print]

2018 Consensus framework for good assessment.

Author information

1
a FAIMER , Philadelphia PA , USA.
2
b NBME , Philadelphia PA , USA.
3
c School of Medicine of Ribeirão Preto , Universidade Cidade de Sao Paulo , Ribeirão Preto , Brazil.
4
d Groote Schuur Hospital , University of Cape Town and Groote Schuur , Cape Town , South Africa.
5
e School of Medicine , University of Minho , Braga , Portugal.
6
f Parnassia Psychiatric Institute , Maastricht University , Hague , The Netherlands.
7
g Rural Clinical School , University of Tasmania , Burnie , Australia.
8
h Cumming School of Medicine , University of Calgary , Alberta , Canada.
9
i Medical Education Unit , University of Leeds , Leeds , UK.
10
j ABMS , Chicago , IL , USA.

Abstract

INTRODUCTION:

In 2010, the Ottawa Conference produced a set of consensus criteria for good assessment. These were well received and since then the working group monitored their use. As part of the 2010 report, it was recommended that consideration be given in the future to preparing similar criteria for systems of assessment. Recent developments in the field suggest that it would be timely to undertake that task and so the working group was reconvened, with changes in membership to reflect broad global representation.

METHODS:

Consideration was given to whether the initially proposed criteria continued to be appropriate for single assessments and the group believed that they were. Consequently, we reiterate the criteria that apply to individual assessments and duplicate relevant portions of the 2010 report.

RESULTS AND DISCUSSION:

This paper also presents a new set of criteria that apply to systems of assessment and, recognizing the challenges of implementation, offers several issues for further consideration. Among these issues are the increasing diversity of candidates and programs, the importance of legal defensibility in high stakes assessments, globalization and the interest in portable recognition of medical training, and the interest among employers and patients in how medical education is delivered and how progression decisions are made.

PMID:
 
30299187
 
DOI:
 
10.1080/0142159X.2018.1500016


+ Recent posts