좋은 평가의 기준: Ottawa 2010 컨퍼런스의 합의문과 권고안(Med Teach, 2011)

Criteria for good assessment: Consensus statement and recommendations from the Ottawa 2010 Conference

JOHN NORCINI1, BROWNELL ANDERSON2, VALDES BOLLELA3, VANESSA BURCH4, MANUEL JOA˜ O COSTA5, ROBBERT DUVIVIER6, ROBERT GALBRAITH7, RICHARD HAYS8, ATHOL KENT9, VANESSA PERROTT10 & TRUDIE ROBERTS11

1FAIMER, USA, 2AAMC, USA, 3Universidade Cidade de Sa˜ o Paulo, Brazil, 4University of Cape Town and Groote Schuur Hospital, South Africa, 5University of Minho, Portugal, 6Maastricht University, The Netherlands, 7National Board of Medical Examiners, USA, 8Keele University, UK, 9University of Cape Town, South Africa, 10University of Cape Town, South Africa, 11University of Leeds, UK



맥락

Context


정의

Definitions


평가에는 정보를 테스트, 측정, 수집 및 결합하고 피드백을 제공하는 작업이 포함됩니다.

Assessment involves testing, measuring, collecting, and combining information, and providing feedback.


실천적 요점

Practice points


위에 요약 된 우수한 평가 기준은 포괄적 인 원칙의 집합으로 작용하기위한 것입니다. 이들로부터 다양한 이해 관계자에게 유용한 지침을 제공 할 수있는 일련의 실행 지점을 도출 할 수 있습니다. 이러한 실천 사항 중 일부는 다음과 같습니다.


The criteria for good assessment outlined above are intended to act as a set of overarching principles. From them, a series of practice points can be derived that might provide useful guidance to various stakeholders. Some of these practice points follow.



수험생

. 수험생은 자신이받는 평가의 목적을 알아야합니다.

. 수험생은 그들이받는 평가의 질을 확신해야합니다.

. 수험생은 지속적인 학습을 유도하는 피드백을 받아야합니다.

. 수험생은 피드백을 받고 행동하는 데 적극적으로 참여해야합니다.

. 수험생은 채점 및 표준 설정 과정에 대해 적절한시기에 정보를 제공받아야 한다.

Examinees

. Examinees should know the purpose of the assessments they take.

. Examinees should be assured of the quality of assessments they take.

. Examinees should receive feedback that fosters ongoing learning.

. Examinees should participate actively in receiving and acting on feedback.

. Examinees should be informed in a timely fashion about the scoring and standard-setting process.


환자

. 환자의 역할이 전문 기술 (예 : 의사 소통 기술)과 일치 할 때 환자는 평가자로 포함되어야합니다.

. 환자는 능력 및 성과의 여러 측면에 대한 이해를 향상시키는 데 기여해야합니다.

. 환자는 연수생이받는 평가의 질을 확신assured해야합니다.

. 전문 지식의 범위 내에서 평가의 교육적 효과에 기여할 수있는 경우 환자를 교육자로 포함시켜야합니다.


Patients

. Patients should be included as assessors when that role is consistent with their expertise (e.g., communication skills).

. Patients should contribute to improving understanding of facets of competence and performance.

. Patients should be assured of the quality of assessments trainees take.

. Patients should be included as educators when, within the scope of their expertise, they can contribute to the

educational effects of assessments. 


교사들

. 교사는 수강생의 학습을 극대화하는 방식으로 평가를 설계해야합니다.

. 교사는 그들의 가르침에서 학습 목표를 다루어야한다.

. 교사는 평가 결과를 사용하여 향후 학습의 질을 향상시켜야합니다.

Teachers

. Teachers should design their assessments in ways that maximize examinee learning.

. Teachers should address learning objectives in their teaching.

. Teachers should use assessment results to improve the quality of future learning.


교육 기관

. 교육 기관은 교수진에게 평가를 위한 교육을 제공해야합니다.

. 교육 기관은 평가가 잘 수행되도록 자원 (임상 직원)을 배정해야합니다.

. 교육 기관은 교육의 질을 모니터링하기위한 프로세스의 일환으로 평가의 품질을 분석해야합니다.

. 교육 기관은 자신의 커리큘럼이 자신의 평가와 일치하도록해야합니다.


Educational institutions

. Educational institutions should provide training in assessment for faculty.

. Educational institutions should allocate resources (clinical staff) to ensure assessment is done well.

. Educational institutions should analyze the quality of their assessments as part of processes for monitoring the quality of their teaching.

. Educational institutions should ensure that their curricula are consistent with their assessments.


의료 시스템

. 의료 시스템은 지속적인 형성 평가를위한 기회를 제공해야합니다.

. 의료 시스템은 형성평가에 대해 대응을 장려하는 문화를 촉진해야합니다.

. 의료 시스템은 직장 환경에서의 평가 연구를 촉진해야합니다.

Healthcare systems

. Healthcare systems should offer opportunities for ongoing formative assessment.

. Healthcare systems should facilitate a culture of encouraging response to formative assessment.

. Healthcare systems should promote research in assessment in workplace settings.


규제 기관

. 감독 당국은 평가의 교육적 효과를 고려해야합니다.

. 감독 당국은 지속적으로 역량을 확보 할 수있는 평가를 제공해야합니다.

. 규제 기관은 교육 및 의료 시스템에 대한 평가의 촉매 효과를 인식해야합니다.

Regulators 

. Regulators should take account of the educational effects of their assessments.

. Regulators should offer assessments which ensure ongoing competence.

. Regulators should recognize the catalytic effects of assessment on the education and healthcare systems.


어떤 관점에서 보든, 평가에 대한 사전적 정의는 동사 ''시험하기test''에 대해 두 가지 뚜렷한 의미를 지닌다 (Crossley 외. 2002). 

  • 하나는 평가 대상에 대한 더 많은 정보를 얻으려는 시도로 무언가의 가치를 발견하는 것입니다. 

  • 다른 하나는 trial(즉, 평가의 영향)을 통해 무언가의 품질을 향상시키는 것입니다. 

이 두 가지 의미는 평가의 중요성, 적용, 그리고 훌륭한 평가를위한 기준의 파악에 중요합니다.


No matter the perspective, the dictionary definition carries two distinct meanings to the verb ‘‘to test’’ (Crossley et al. 2002). One is to discover the worth of something by trial, with the purpose of obtaining more information about the object of assessment. The other is to improve the quality of something by trial (i.e., the impact of assessment). These two meanings are central to understanding the importance of assessment, its applications, and to identifying the criteria for good assessment.


역사적 관점 

Historical perspective


선발을 위한 지식 및 / 또는 성과의 측정은 역사적으로 가장 많이 보급되어 왔습니다. 가장 이른 평가 기록은 중국에서 한 왕조 (기원전 206 년부터 220 년까지)로 거슬러 올라간다. 중세 이슬람의 의학 실습은 역량 테스트를 필요로 했으며, 17 세기 예수회 제사장들은 중국에 입국 한 선교사들의 영향을 받아 학교 진학을위한 경쟁 시험을 사용했다.

Measurement of knowledge and/or performance for the purposes of selection has been its most pervasive role throughout time. The earliest records of assessment date back to the Han dynasty in China (206 BC to 220 AD) where candidates were selected for government service. The practice of medicine in medieval Islam required competence testing and by the seventeenth century Jesuit priests were using competitive examination for entry into their schools, possibly influenced by the missionaries who had traveled to China.


의학 교육과 관련하여 공식 평가 개발을 향한 첫 번째 단계는 비엔나 및 프랑스 의과 대학에서 인턴 과정 중 시험을 실시하는 것이 었습니다. 1788 년부터 파리의 인턴십 입학은 경쟁 구두 및 구술 시험으로 결정되었습니다 (Lesky 1970, Poynter 1970). 1850 년대 영국의 옥스포드 (Oxford)와 케임브리지 대학 (Cambridge university)에서 의학계 학생들을위한 졸업시험이 도입되었습니다. 1861년에는 이러한 검사는 1858 년 영국에서 설립 된 General Medical Council에서 규정 한 국가의 법적 요구 사항이되었습니다. 이 관행은 19 세기 후반 유럽 의과 대학에 빠르게 확산되었습니다.

With regard to medical education, the first step toward the development of formal assessments was the introduction of examinations during an internship in Viennese and French medical schools. From 1788, entry to these internships in Paris was decreed to be by competition in the form of written and oral examinations (Lesky 1970; Poynter 1970). Exit level examinations for medical students were subsequently introduced in Britain in the 1850s at Oxford and Cambridge universities. By 1861, such examinations became a statutory national requirement stipulated by the General Medical Council established in Britain in 1858. This practice rapidly spread throughout medical schools in Europe in the latter part of the nineteenth century.


대서양을 가로 질러, 미국에서는 상황이 아주 달랐습니다. 1800 년대에 Abraham Flexner (Flexner 1910)가 작성한 보고서에 설명 된대로 사적 및 공적 자금으로 '의과 대학'이 확산되었고, 이들은 교육, 훈련 및 평가 기준이 광범위하게 서로 달랐다. 이 보고서는 이후 미국에서의 의학 교육에 혁명을 일으켰으며, 1912 년에는 면허위원회의 일원이 American Medical Association’s Council on Medical Education (Kassebaum)가 결정한 학업 기준 (기준)에 근거하여 Federation of State Medical Boards 을 구성했습니다. 1930 년대에는 미국에서의 의료 훈련이 표준화되었고, 대학에서는 실험실 기반 및 병원 기반 교육을 제공하며, 졸업시험을 치르게 되었다 (Starr 1982).

Across the Atlantic, in the USA the situation was quite different. During the 1800s there had been a proliferation of ‘‘medical colleges’’ both privately and publicly funded, in which the standards of teaching, training, and assessment varied widely as described in the report authored by Abraham Flexner (Flexner 1910). This report subsequently revolutionized medical education in the USA and by 1912, a group of licensing boards formed the Federation of State Medical Boards which agreed to base their practice on academic standards (criteria) as determined by the American Medical Association’s Council on Medical Education (Kassebaum 1992). By the 1930s, medical training in the USA had been standardized and colleges offered laboratory-based and hospital-based training with exit examinations (Starr 1982).


지난 50 년 동안 전 세계적으로 학부 의대생 및 대학원생 평가에 관한 중요한 발전이 4가지 있었습니다.

. 의학적 역량의 다양한 차원을 지향하는 광범위한 평가 도구 개발,

. 새로운 교수법 및 학습 접근법의 개발 및 적용,

. psychometrics의 세련된 향상과 개별 평가 도구 및 결과에 대한 적용

. 평가의 핵심 요소로서 컴퓨터의 역할 증가 (Norcini 2005)

Over the past 50 years, there have been at least four major developments relevant to the assessment of undergraduate medical students and postgraduate trainees worldwide.

. development of a wide range of assessment tools, directed to different dimensions of medical competency, 

. development and application of new teaching and learning approaches, 

. increased sophistication of psychometrics and its application to individual assessment tools and results, and

. growing role of the computer as an integral part of assessments (Norcini 2005)


20 세기 중반까지 의과 대학 시험은 에세이와 구술 시험의 사용에 크게 의존했으며 통과 기준은 주관적이었습니다. 그러한 검사의 임의적 성격과 그 열악한 신뢰성에 대한 인식은 지난 50 년 동안 정신 측정 학적으로 강력한 평가 도구를 개발하게되었습니다. 여기에는 객관식 질문, 그리고 (시험 환경뿐만 아니라 작업 환경에서 성과를 평가하는) 다양한 양식이 포함됩니다

Until the middle of the twentieth century, medical school examinations relied heavily on the use of essays and oral examinations and the standards for passing were subjective. Recognition of the arbitrary nature of such examinations and their poor reliability led to the development of a large array of psychometrically robust assessment tools over the past 50 years. These include multiple choice questions and a range of modalities assessing performance both in an examination setting as well as in the workplace


이러한 발전은 몇 가지 기준에 의해 주도되었습니다.

. 평가는 재현 가능성 (신뢰성), 타당성, 실현 가능성, 공정성 및 학습에 도움이되어야합니다 (van der Vleuten 1996).

. 평가의 내용과 형태는 그들의 목적과 바람직한 결과에 부합 할 필요가 있으며,

. 수험자의 수행이 사례 또는 내용에 따라 다르기 때문에, 정확한 표본 추출을 위해서는 광범위한 표본 추출이 필요합니다(예 : 다중 생검).

. 합격 점수는 체계적으로 유도되어야 하며 평가의 전반적인 신뢰성이 중요합니다.

. 평가는 명확하게 정의 된 표준에 따라 작성되어야하며, 체계적이고 신뢰할 수있는 방법을 사용하여 derive되어야합니다

These developments have been driven by a few criteria:


. the assessments need to be reproducible (reliable), valid, feasible, fair, and beneficial to learning (van der Vleuten 1996),

. the content and form of assessments need to be aligned with their purpose and desired outcomes,

. broad sampling is needed to achieve an accurate representation of ability since examinee performance is case or content specific (multiple biopsies),

. systematically derived pass–fail scores and the overall reliability of an assessment are important, and

. assessments need to be constructed according to clearly defined standards and derived using systematic and credible methods.


좋은 평가의 기준을 정하는 것의 중요성

The importance of defining criteria for good assessment


이해관계자

Stakeholders


다양한 이해 관계자가 평가 및 결과에 관련되거나 영향을받습니다. 이해 관계자는 환자, 일반 대중, 건강 관리 고용주, ​​전문 및 규제 기관, 대학, 의과 대학, 교육 기관, 개별 교사 및 최종적으로 동등하게 중요한 수험자를 포함합니다 (Amin 외). 이해 관계자는 동일한 평가조차도 다른 용도로 사용하며, 당연히 그러한 평가를 평가하는 다양한 기준의 중요성에 관해 다소 다른 우선 순위를 가지고 있습니다.

A number of different stakeholders are involved with or affected by assessments and their results. Stakeholders include the patients, general public, healthcare employers, professional and regulatory bodies, universities, medical schools, training organizations, individual teachers, and, finally and equally important, the examinees themselves (Amin et al. 2006). The stakeholders make different uses of even the same assessments and, not surprisingly, have somewhat different priorities when it comes to the importance of various criteria against which those assessments should be judged.


학생들은 자신의 학습에 영향을 미치는 특정 사회 문화적 맥락에서 왔으며, 평가에 의해 발전된 발달을 보였다 (Vygotsky, 1978). 학습자는 이렇게 지속적인 평가를 성공적으로 수행해가면서 (치료자, 카운슬러 또는 과학자와 같은) 점차적으로 사회에서 새로운 역할에 적응해간다 (Downie & Calman 1987; Rees & Jolly 1998). 또한, Boud (2000)는 평가가 평생 학습의 핵심 특징이라고 제안했다. Rushton (2005)은 이러한 관점을지지하면서 "학생들이 미래의 학습 경험에 대한 독립적 인 평가를 계속하는 데 필요한 준비를 학생들에게 제공합니다."

Students come from a specific socio-cultural context, which affects their learning, and they have their development shaped by assessment (Vygotsky 1978). If successful with these ongoing assessments, the student gradually adopts new roles within society such as healer, counselor, or scientist (Downie & Calman 1987; Rees & Jolly 1998). Further, Boud (2000), has proposed that assessment is a key feature of lifelong learning. Rushton (2005) supports this perspective, stating ‘‘(it) equips students with the preparation required to continue independent assessment of their future learning experiences’’.


평가에 대해 다양한 교수 및 학습 기관은 학생과는 약간 다른 시각을 가지고 있습니다.

The various teaching and learning institutions have a slightly different perspective, from students, on assessment.


규제 기관은 환자, 일반 대중 및 고용주를위한 게이트 키퍼 역할을하기 때문에 훌륭한 평가를 보장하는 데 중요한 역할을합니다. 이 맥락에서의 평가는 직업적 표준의 유지 및 개인과 사회 모두에 대한 책임 성과 밀접하게 연관되어 있으며, 이는 훌륭한 평가를위한 명확한 기준을 가질 필요성을 강조합니다. 결국 대중은 모든 의사가 유능하고 숙련 된 의료 종사자가 되도록 평가 절차가 수행되었다는 믿음에 따라 개인 의사를 신뢰할 수 있다.

Regulatory bodies have a critical role in ensuring good assessment since they serve as gatekeepers for patients, the general public, and employers. Assessment in this context is closely linked with the maintenance of professional standards and with accountability – both to the individual and to society – which reinforces the need to have clear criteria for good assessment. In the end, the public entrusts itself to individual doctors based on the belief that the assessment process has been carried out in such a way that all are competent and skilled health practitioners.


평가의 좋은 기준은 품질을 향상시킬뿐만 아니라 의도하지 않은 결과를 피하기 위해서도 중요합니다. Newble (1998)은 평가와 커리큘럼 개혁 간의 불일치가 학생 행동에 바람직하지 않은 영향을 미친 결과를 설명했다. 교과 과정 개혁의 일환으로, 그는 교훈적인 가르침이 어떻게 와드 중심의 가르침으로 대체되었는지 설명합니다. 그러나 한 해가 진행됨에 따라 학생들이 병동에서 거의 볼 수 없었고, 강의식 교육이 점점 더 많이 요구되었고, 학생들은 책 학습에 더 많은 시간을 할애했습니다. 그 이유는 평가 방법이 교과 과정 개혁과 일치하지 않았고 이전의 교훈 학습 스타일을 선호했기 때문입니다. 즉 기관적 수준에서 평가 방법론은 기관의 사명과 교육 프로그램의 목표를 훼손하고 있었다 (Trigwell 2001). 이 예는 평가를 교육 실무와 조화시키는 것이 중요하다는 것을 강조합니다.

Good criteria for assessment are important not only to improve quality but also to avoid unintended effects. Newble (1998) described how a mismatch between assessment and curriculum reform resulted in undesirable effects on student behavior. As part of curricular reform, he describes how didactic teaching was replaced with ward-based teaching. However, as the year progressed students were seldom seen on the wards, didactic teaching was increasingly requested and more time was devoted to book learning. The reason for this was that the assessment methods did not match the curricular reform but favoured the former style of didactic learning. Thus, at an institutional level, the assessment methodology was undermining the institutional mission and the goal of the educational program (Trigwell 2001). This example highlights the importance of aligning the assessment with educational practice.


배움과 가르침

Learning and teaching


많은 유명 명언들은 Miller 's (1990)의 "Assessment Driven Learning"과 Ben-David (2000)의 평가에서 "Assessment expands professional horizon"등 교육 과정에서 평가의 중심 역할을 강조합니다.

Many well-known adages emphasize the central role of assessment in the educational process such as Miller’s (1990) assertion that ‘‘Assessment drives learning’’ and Ben-David’s (2000) view that ‘‘Assessment expands professional horizons’’.


가치를 발견하고 품질을 향상시키는 두 가지 목표를 달성하려면 학습 평가가 중요합니다 (Arnold 2002). 교육 기관 및 교육자는 평가를 [책무성을 위한 도구]로만 간주하는 것으로부터 벗어나 [개선을위한 방법]으로 보기 시작했다(Colliver 2002; Cottrell 2006). 학습의 견고한 평가와 그것을 뒷받침하는 이론의 개발에 대한 강조가 강조됩니다. 이것은 여전히 ​​진행중인 작업입니다. 노먼과 슈미트 (Norman and Schmidt, 1999)는 "교육자들이 이론을 언급 할 때, 그것은 마치 술 취하는 사람들이 (illumination이 아니라 support를 위해) 가로등을 사용하는 것과 같은 방식으로 더 자주 사용된다"고 지적했다.

In order for it to achieve its two goals – that of discovering worth as well as improving quality – the assessment of learning is critical (Arnold 2002). Institutions and educators have moved from viewing assessment as only a tool for accountability to viewing it as a method for improvement as well (Colliver 2002; Cottrell 2006). The emphasis is on the need for the robust assessment of learning and the development of a theory to support it. This is still a work in progress; as Norman and Schmidt (1999) note: ‘‘When educators do make reference to theory, it is more frequently used the same way as a drunkard uses a light post –more for support than for illumination’’. 


평가의 중요성을 인식하고 교육 및 학습 연구와 연결하지 않는 것은 실수입니다 (Shepard 2000)

It would be a mistake to recognize the importance of assessment and yet not to connect it with the scholarship of teaching and learning (Shepard 2000)


좋은 평가의 기준에 대한 현재의 이슈 

Current issues in criteria for good assessment


세 가지 분류 

The state of the art of assessment may be organized into three categories: 


. 실천이 증거와 일치하는 영역 : 실천에 도움이 되는 증거가 있고 실무가 일반적으로 그 증거와 일치하는 경우의 평가 상황.

. 실천이 아직 증거와 일치하지 않는 영역 : 증거가 있지만 실제적으로 일반적으로 무시되는 평가 상황 (예 : 가능성이있는 문제가있는 곳).

. 증거가 부족한 영역 : 증거에 의해서 도움을 받을 수 없는 평가 상황 (즉, 연구가 필요함)

. Areas where practice is consistent with the evidence:Assessment situations where there is evidence that informs practice and where practice is generally consistent with that evidence. 

. Areas where practice is not yet consistent with the evidence:Assessment situations where there is evidence but it is generally ignored in practice (e.g., where there are issues of feasibility). 

. Areas where there is a lack of evidence: Assessment situations that are not informed by the evidence (i.e.,research is needed). 


분류1: 실천이 근거와 일치함

Category 1: Practice is consistent with the evidence


지필고사

Written examinations.


객관식 질문, 에세이 및 유사한 형식을 통한 지식, 종합 및 판단 평가는 주로 첫 번째 범주에 속합니다. 이 범주의 평가 기준은 일반적으로 잘 정립되고 수용됩니다. 상당한 규모의 증거 기반이 있으며 합리적인 자원이있는 곳에서 고부담 (지역, 국가 및 지역 시험) 및 저부담 시험에서의 적용은 일반적으로 증거와 일치합니다

The assessment of knowledge, synthesis, and judgment through multiple choice questions,essays, and similar formats falls predominantly into the first category. The criteria for the assessments in this category are generally well established and accepted. There is a sizeable evidence base and, where reasonable resources are available,their application in high stakes (local, national, and regional examinations) and low stakes settings, is typically consistent with the evidence



OSCE

Objective structured clinical examination.



OSCE를 사용한 임상 기술 평가는이 범주에 포함됩니다. 지난 30 년 동안 OSCE의 신뢰성, 실현 가능성 및 타당성 및 표준화 된 환자의 사용에 대한 광범위한 연구가 개발되었습니다. OSCE 형식은 증거 (범주 1)와 일치하는 다양한 고부담 및 저부담 상황에 적용되었습니다.

Assessment of clinical skills using the OSCE is included in this category.Over the past 30 years, an extensive body of research about the reliability, feasibility, and validity of the OSCE and the use of standardized patients has been developed. The OSCE format has been applied in a variety of high and low stakes situations in a fashion consistent with the evidence (category1).


분류2: 실천이 근거와 일치하지 않음

Category 2: Practice is not yet consistent with the evidence 


시뮬레이션

Simulation.


지난 수십 년 동안 수행 된 연구는이 기술을 평가에 사용하는 것을 매우지지하고 있으며, 다양한 상황 (카테고리 1)에서의 성공적인 배치deployment를 위해 광범위한 지침이 제공됩니다. 시뮬레이션의 일반적인 적용에 대한 주된 장애impediment는 그것의 타당성과 관련이 있습니다. 특히 장치가 비싸고 전용 시설 (시뮬레이션 센터)을 만들어야 할 수도 있으며, 좋은 시험 재료의 개발은 상당한 자원을 요구할(카테고리 2) 수 있습니다.

Research done over the past few decades is very supportive of the use of this technology in assessment and broad guidance is available for its successful deployment in a variety of different situations(category 1). The main impediment to the general application of simulation relates to its feasibility. Specifically, the devices are expensive, they may require the creation of a dedicated facility (simulation center), and the development of good testing material can be resource intense (category 2). 


근무지기반학습

Workplace-based assessment that supports clinical training.


최근 몇 년간, (임상 훈련을 지원하는) 직접 관찰을 통한 형성 평가가 강조되고 있습니다. 예비 연구는 일반적으로 그러한 결과를 지지하며, 문헌 번호는 다양한 목적에 필요한 평가자와 만남과 같은 문제에 대한 광범위한 지침을 제공합니다. 타당성은 그것의 실행에 대한 주요 장애물(카테고리 2)이며, 특히 임상 교수가 충분한 수의 평가를 수행하는 시간을 찾기가 어렵습니다.

In recent years, there has been an increasing emphasis on directly observed formative assessment that supports clinical training. Preliminary research is generally supportive and the literature number provides broad guidance on issues such as the of assessors and encounters needed for various purposes. Feasibility (category 2) is the major obstacle to its implementation and, in particular, it is difficult for clinical faculty to find time to perform a sufficient number of assessments. 


분류3: 근거가 부족함

Category 3: Lack of evidence


직무 평가

Assessment of work.


정확한 환자 기록 (카테고리 2)에 대한 지속적인 액세스가 필요하기 때문에 타당성 및 수용 가능성이 이용 가능한 척도에 관하여 대부분에서 주요 쟁점입니다. 마지막으로, 환자 만족도 측정과 같은 몇 가지 조치가 있는데, 이는 좋은 증거가 있으며 실현 가능한 것입니다 (범주 1).

Feasibility and acceptability are major issues for most of the available measures since they require continuous access to accurate patient records (category 2). Finally, there are a few measures, such as patient satisfaction measures, for which there is good evidence and that are feasible (category 1).


새로운 역량의 평가

Assessment of newer competencies.


예를 들어, ACGME 역량은 의학 지식, 환자 간호, 의사 소통 기술, 전문성, 시스템 기반 실습 및 실습 기반 학습 및 개선입니다. 각 역량은 다음과 같이 정의됩니다.

for example, the ACGME competencies are 

    • medical knowledge, 

    • patient care, 

    • communication skills, 

    • professionalism, 

    • systems-based practice, and 

    • practice-based learning and improvement. 

Each competency is defined as follows:


이러한 역량 중 의학 지식, 환자 간호 및 의사 소통 기술 (범주 1) 프로페셔널리즘 평가 (범주 2)에 관한 문헌이 증가하고있는 반면, 실습 기반 학습 및 개선 및 시스템 기반 실습 (카테고리 3) (Arnold 2002; Driessen et al., 2005; Cruess et al., 2006; Epstein 2007; Lurie et al. 2009; Varkey et.)에 대한 연구는 비교적 새로운 연구이며, 이러한 역량에 대한 좋은 평가 기준을 결정하기 위해서는 상당한 연구가 필요하다. al., 2009).

Of these competencies, there is a substantial literature on the assessment of medical knowledge, patient care, and communication skills (category 1) and a growing literature in the assessment of professionalism (category 2), while practice-based learning and improvement and systems-based practice are relatively new and considerable research is needed to determine the criteria for good assessment of these competencies (category 3).(Arnold 2002; Driessen et al. 2005; Cruess et al. 2006; Epstein 2007; Lurie et al. 2009; Varkey et al. 2009).


좋은 평가에 대한 초안 합의문

Draft consensus criteria for good assessment


어떤 하나의 기준도 모든 상황에 똑같이 적용되지 않습니다. 사실, 동일한 기준이라도 평가의 목적과 맥락에 따라 다른 중요성을 가질 것으로 기대되어야한다. 예를 들어, 의과대학생이 지식에 대한 책임에 대한 필요성을 충족시키기 위해 고안된 우수한 총괄시험 (예 : 면허 시험)은 동시에 미래의 학습이나 교과 과정 개혁을 안내하는 상세한 피드백을 기대할 수 없습니다.

No single set of criteria for good assessment apply equally well to all situations. In fact, the same criteria should be expected to have different importance depending on the purpose and context of assessment. For example, a good summative examination designed to meet the need for accountability for the knowledge of medical graduates (e.g., a medical licensing examination) cannot be expected to, at the same time, produce detailed feedback that would guide future learning or curricular reform.


마찬가지로, 동일한 평가에 대해서도 여러 기준이 모든 이해 관계자에게 동일한 가중치를 갖지 않는다. 예를 들어, 환자에게는 면허 시험의 타당성 또는 일관성이 더 중요하며, 시험을 치르는 의사 또는 비용을 지불하는 정부가 얼마나 비용이 드느냐가 주된 관심사는 아니다. 기준의 중요성은 이해 관계자의 관점에 따라 달라질 것입니다.

Similarly, the criteria are not of equal weight for all stakeholders even given the same assessment. For example, the validity or coherence of a licensing examination may be of more importance to patients than how much it costs the doctors who take it or the government that finances it. The importance of the criteria will vary with the perspective of the stakeholder.


좋은 평가의 기준

Criteria for good assessment


이러한 기준 중 많은 부분이 이전에 설명되었으며 우리는 여기에서 그들의 중요성을 계속 지원합니다. 그러나 우리는 평가의 촉매 효과에 특히 중점을 둔다.

Many of these criteria have been described before and we continue to support their importance here. However, we place particular emphasis on the catalytic effect of assessment.


  • (1) 타당성 또는 Coherence.

  • (2) 재현성 또는 일관성.

  • (3) 동등성. 동일한 평가는 다른 기관 또는 시험주기에 걸쳐 시행 될 때 동등한 점수 또는 결정을 산출합니다.

  • (4) 적용가능성. 환경과 상황에 따라 평가는 현실적이고 현실적이며 합리적입니다.

  • (5) 교육적 효과. 평가는 시험을 준비하는 사람에게 교육적 이득이 있어야 한다

  • (6) 촉매 효과. 평가는 교육을 창출하고 향상시키고 지원하는 방식으로 결과와 피드백을 제공합니다. 미래의 학습을 촉진시킵니다.

  • (7) 수용 가능성. 이해 관계자는 평가 프로세스 및 결과를 신뢰할 수 있음을 확인합니다.

(1) Validity or coherence.

(2) Reproducibility or consistency.

(3) Equivalence. The same assessment yields equivalent scores or decisions when administered across different institutions or cycles of testing. 

(4) Feasibility. The assessment is practical, realistic, and sensible, given the circumstances and context. 

(5) Educational effect. The assessment motivates those who take it to prepare in a fashion that has educational benefit. 

(6) Catalytic effect. The assessment provides results and feedback in a fashion that creates, enhances, and supports education; it drives future learning forward. 

(7) Acceptability. Stakeholders find the assessment process and results to be credible. 


평가 목적에 따른 기준

The criteria and assessment purpose


형성평가

Formative assessment


효과적인 형성평가는 종종 비공식적이고, 기회적이이나, 학습을 촉진하기위한 것입니다. 정의에 따르면, 그것을 특징 짓기 위해 두드러지는 기준은 촉매 효과catalytic effect입니다. 그것은 다음의 경우에 가장 잘 작동합니다.

(1) 교육 과정 및 / 또는 작업 흐름에 포함되며embed,

(2) 구체적이고 실행 가능한 피드백을 제공하고,

(3) 지속적이며

(4) 시기 적절하다.

Effective formative assessment is typically low stakes, often informal and opportunistic in nature, and is intended to stimulate learning. By definition, the criterion that stands out to characterize it is ‘‘catalytic effect’’. It works best when it 

(1) is embedded in the instructional process and/or work flow, 

(2) provides specific and actionable feedback, 

(3) is ongoing, and 

(4) is timely. 


    • 결과적으로 동등성, 재현가능성-일관성과 같은 기준의 중요성은 어느 정도 감소합니다.

    • 교육 효과와 교육의 질이 가장 중요하게 유지되는 가운데 , 타당성 - 일관성은 핵심이 된다.

    • 실현가능성 또한 지속적이고 시의적절하며 수험생의 어려움에 맞추어져 있다면 형성평가가 더 효과적이라는 사실에 대응하여 중요성이 증가합니다.

    • 마찬가지로, 수용가능성도 ((교수진과 학생 모두) 프로세스에 전념하고 피드백에 대한 신뢰성을 부여하며 중요한 영향을 미치는지 확인하는 데 특히 중요합니다.

    • Consequently, the importance of criteria such as equivalence and reproducibility-consistency diminishes to some degree. 

    • Validity-coherence remains central while educational effect and educational quality become paramount. 

    • Feasibility also increases in importance in response to the fact that formative assessment is more effective if it is ongoing, timely, and tailored to examinees’ individual difficulties. 

    • Likewise acceptability, both for faculty and students, is especially important if they are to commit to the process, give credibility to the feedback they receive, and ensure that it has a significant effect.


총괄평가

Summative assessment


    • 효과적인 총괄평가는 일반적으로 중부담, 고부담이며 기본적으로 책임에 대한 필요성에 응답하기위한 것입니다.

    • 종종 일관된 고품질의 테스트 자료, 중요한 컨텐츠 전문 지식, 체계적인 표준 설정 프로세스 및 안전한 관리가 필요합니다.

    • 따라서 타당성-일관성, 재현성-일관성, 동등성과 같은 기준이 가장 중요합니다.

    • 실현가능성, 수용 가능성 및 교육적 효과 또한 중요하지만 정신 분석 기준과 동일한 정도로 중요하지는 않습니다. 정신분석적 기준은 점수에 대한 신뢰도와 근본적인 의미를 결정합니다.

    • 촉매 효과가 있으면 좋겠지만, 이 상황에서는 덜 강조됩니다. 그러나 유용한 피드백을 제공하지 않아 지속적인 교육에서 학습자를 지원할 수있는 기회를 놓치게됩니다.

Effective summative assessment is typically medium or high stakes and is primarily intended to respond to the need for accountability. 

It often requires coherent, high-quality test material, significant content expertise, a systematic standard-setting process, and secure administration. 

Consequently, criteria such as validity-coherence, reproducibility-consistency, and equivalence are paramount. 

Feasibility, acceptability, and educational effect are also important, but not to the same degree as the psychometric criteria, which will to a great extent determine credibility in the scores and the underlying implications. 

A catalytic effect is desirable but is less emphasized in this setting. 

However, by not providing useful feedback, we miss the opportunity to support the learners in their continuing education. 


이해관계자와 기준

The criteria and stakeholders


피험자

Examinees


수험생은 조형 및 종합 평가에 vested interest가 있으며, 학습을 지원하는 정보를 찾는 데 적극적으로 관여해야합니다.

Examinees have a vested interest in both formative and summative assessment and they must be actively involved in seeking information that supports their learning. 


    • 형성 평가의 경우 교육 효과, 촉매 효과 및 수용 가능성이 학습자가되기 때문에 수험생에게 가장 큰 관심사가 될 수 있습니다.

    • 수험생은 타당성을 당연하게 여길 수도 있으며, 실현 가능성은 비용 및 편의성 측면에서 문제가됩니다.

    • 동등성 및 신뢰성 - 일관성은 덜 즉각적인 요구이다.

For formative assessment, educational effects, catalytic effects, and acceptability are likely to be of most concern to examinees since they are the drivers of learning. 

Examinees may take validity-coherence for granted and feasibility will be an issue in terms of cost and convenience. 

Equivalence and reliability-consistency are less immediate. 


    • 총괄 평가의 경우, 공정성에 대한 인식은 수험생에게 가장 두드러 질 것입니다.

    • 따라서 타당성 - 일관성, 재현성 - 일관성, 동등성 및 수용성과 같은 기준이 가장 중요합니다.

    • 촉매 효과는 (특히 실패한 수험생의) 재교육을 지원합니다.

    • 성공적인 수험자에게 피드백이 제공되지 않거나 사용하지 않으면, 지속적 학습을 지원할 수있는 기회를 놓치게됩니다.

For summative assessment, issues related to perceived fairness will be most salient for examinees. 

Hence, criteria such as validity-coherence, reproducibility-consistency, equivalence, and acceptability will be most important. 

The catalytic effect will support remediation, especially for the unsuccessful examinees. 

When successful examinees are not provided feedback or do not use it, it misses the opportunity to support ongoing learning.


교사-교육기관

Teachers-educational institutions


교사와 교육기관은 학생들의 평가에서 교육과 책임에 대한 이중적인 역할을 수행하데 관련된 모든 측면에 관심을 가지고 있습니다. 위에 요약 된 내용과 일치하는 기준은이 두 가지 목적에 다르게 적용됩니다.

These stakeholders have interests in every facet of the assessment of students to fulfill their dual roles in education and accountability. Consistent with what was outlined above, the criteria apply differently to these two purposes.


교사 및 교육 기관 모두에게 학생 평가 정보는 중요한 부차적 목적이 있다.

이 데이터는 교육 과정의 결과에 대해 말합니다. 즉, 학생들의 총괄 평가는 적절하게 집합 된 것으로, 종종 교사와 교육 기관을위한 형성 평가의 역할을합니다. 이 목적에 관해서라면, 동등성, 재현성 - 일관성과 같은 기준보다 교육적 효과가 조금 더 중요하다. 타당성 - 일관성은 중요하지만 좋은 학생 평가의 일부로 다루어야하며, 실현가능성은 데이터가 이미 이용 가능하므로 straightforward해야 한다.

For both teachers and institutions, student assessment information serves an important secondary purpose. 

These data speak to the outcomes of the educational process. In other words, students’ summative assessments, appropriately aggregated, often serve as formative assessment for teachers and institutions. 

When combined for this purpose, criteria such as equivalence and reproducibility-consistency are a bit less important while educational effect and educational effect are a bit more important. 

Validity-coherence is important but should be addressed as part of good student assessment, while feasibility should be straightforward since the data are already available.


학생 평가 재사용 이외에도 교육 기관은 개별 교사 및 프로그램 평가에 engage합니다. 이러한 평가 응용 프로그램은 크게 formative 또는 summative로 분류 할 수 있으며 기준은 위에서 언급 한대로 적용됩니다.


Beyond repurposing student assessment, institutions engage in the assessment of individual teachers and programs. 

These assessment applications can be broadly classified as either formative or summative and the criteria apply as noted above.


환자

Patients.


환자는 형성 평가의 사용을 확실히 지지하지만, 총괄평가가 더 즉각적인 관심사입니다.

따라서 타당성-일관성, 재현성-일관성, 동등성과 같은 기준이 가장 중요합니다.

실현가능성, 수용가능성, 교육 효과 및 촉매 효과는이 그룹에 덜 관심의 대상입니다.

그러나 장기적으로는 지속적 개선을 지원하는 형성 평가가 동동하거나 더 중요할 것입니다.


While patients certainly support the use of formative assessment, summative assessment is a more immediate concern. 

Consequently, criteria such as validity-coherence, reproducibility-consistency, and equivalence are of the most importance. 

Feasibility, acceptability, educational effect, and catalytic effect are of less concern to this group. 

In the long term, however, formative assessment that supports continuous improvement will be of equal or greater importance.


헬스케어 기관, 규제기관

Healthcare system and regulators


의료 시스템 및 감독 당국의 가장 긴급한 요구는 의료제공자provider가 노동력으로 포함되기에 유능하고 안전한지 판단하는 것입니다. 이 필요성은 총괄 평가에 근거한 올바른 결정을 의미하므로 타당성-일관성, 재현성-일관성 및 동등성이 가장 중요합니다. 실행가능성도 중요합니다. 

The most pressing need of the healthcare system and the regulators is to determine which providers are competent and safe enough to enter the workforce. 

This need implies correct decisions based on summative assessment, so validity-coherence, reproducibility-consistency, and equivalence are paramount. Feasibility is also important. 


보건 시스템이 어떤 형태의 CQI에 관여하는 것이 점점 더 보편화되고 있습니다. 이러한 시스템은 종종 작업 흐름에 포함되며 의료 종사자에게 그들의 활동과 결과에 대해 지속적이고 구체적인 피드백을 제공합니다.

교육 효과, 촉매 효과, 실현 가능성 및 수용 가능성과 함께 타당성- 일관성은 핵심적인 요소입니다.

It is growing more common for health systems to engage in some form of CQI. 

These systems are often embedded in the work flow and they provide ongoing, specific feedback to healthcare workers about their activities and outcomes. 

Validity-coherence is central, along with educational and catalytic effects, feasibility, and acceptability.




 2011;33(3):206-14. doi: 10.3109/0142159X.2011.551559.

Criteria for good assessmentconsensus statement and recommendations from the Ottawa 2010Conference.

Author information

1
FAIMER, 3624 Market Street, 4th Floor, Philadelphia, PA 19104, USA. jnorcini@faimer.org

Abstract

In this article, we outline criteria for good assessment that include: (1) validity or coherence, (2) reproducibility or consistency, (3) equivalence, (4) feasibility, (5) educational effect, (6) catalytic effect, and (7) acceptability. Many of the criteria have been described before and we continue to support their importance here. However, we place particular emphasis on the catalytic effect of the assessment, which is whether the assessment provides results and feedback in a fashion that creates, enhances, and supports education. These criteria do not apply equally well to all situations. Consequently, we discuss how the purpose of the test (summative versus formative) and the perspectives of stakeholders (examinees, patients, teachers-educational institutions, healthcare system, and regulators) influence the importance of the criteria. Finally, we offer a series of practice points as well as next steps that should be taken with the criteria. Specifically, we recommend that the criteria be expanded or modified to take account of: (1) the perspectives of patients and the public, (2) the intimate relationship between assessment, feedback, and continued learning, (3) systems of assessment, and (4) accreditation systems.

PMID:
 
21345060
 
DOI:
 
10.3109/0142159X.2011.551559


+ Recent posts