평가의 공정성 수호하기: 어떻게 교수자가 공동-실천하는가 (Med Educ, 2022)
Safeguarding fairness in assessments—How teachers develop joint practices
Linda Barman1 | Cormac McGrath2 | Staffan Josephsson3 | Charlotte Silén4 | Klara Bolander Laksov2,4

 

1 소개
1 INTRODUCTION

보건 전문가 교육에서 [학생 학습에 대한 평가]는 중심적이지만 어려운 과제이다. 한 가지 과제는 미리 정의된 표준의 적용을 통해 투명성을 달성하는 동시에 교사의 전문적인 판단을 인정하는 것이다. 지난 수십 년 동안 성과 기반 및 역량 기반 커리큘럼 개혁은 [투명성]과 [공공 책무]의 강화를 추진해 왔다. 그러한 투명성을 달성하기 위한 한 가지 방법은 평가 기준을 명시하는 것이다. 그러나 역량, 평가 타당성 및 신뢰성을 포착하는 의미 있는 기준의 개발이 논의된다. 명시적 채점 기준은 학생들이 학습할 것으로 기대되는 내용의 투명성을 높이는 것으로 알려져 있지만, ['일부' 역량만을 선호함]으로써 [역량의 통합적 평가]를 위험에 빠뜨릴 수 있다. 
The assessment of student learning in health professions' education is a central, yet challenging task.1, 2 One challenge involves achieving transparency through the application of pre-defined standards, while also acknowledging teachers' professional judgements. For the past decades, outcome-based and competency-based curriculum reforms have pushed for enhanced transparency and public accountability.3-5 One way to achieve such transparency has been to make the assessment standards explicit.3, 5 However, the development of meaningful criteria capturing competency, assessment validity and reliability are debated.5-9 Explicit grading criteria are known to increase the transparency of what students are expected to learn but may endanger the assessment of integrated competency in favour of ‘pieces of’ competencies.10-12 

다양한 평가 방법의 결과와 평가자 등급의 변동 이유(판단 및 피드백 제공의 숙련도 포함)에 대해서는 많이 알려져 있지만, [임상 교사가 어떤 식으로 평가 관행을 개발하고 평가 표준을 이해하는지]에 대해서는 거의 알려져 있지 않다. Gordon과 Cleland16은 최근 문맥상 변화 관행을 이해하기 위한 비선형 접근법을 요구했다. 이 서술적 연구는 이러한 비선형 접근법을 사용하여 보건직 교사들이 시간에 따라 평가 관행에 대해 어떻게 가고, 명확한 평가 기준을 강조하는 정책과 관련하여 경험적 기반 발견을 기여함으로써 변화 관행에 대한 복잡성을 풀어나간다. 본 연구의 목적은 학생들의 임상 역량을 평가하기 위한 공유 기준이 개발 및 구현될 때 교사의 평가 관행이 어떻게 바뀔 수 있는지를 이해하는 것이다.

While much is known concerning the outcomes of different assessment methods,13 and the reasons for variation in assessor ratings including proficiency in making judgements and providing feedback,14, 15 little is known about how clinically oriented teachers develop assessment practices and make sense of assessment standards. Gordon and Cleland16 recently called for non-linear approaches to understand change practices in context. This narrative study uses such a non-linear approach to unravel the complexity of change practices by contributing empirical-based findings concerning how health professions teachers go about their assessment practice, over time, and in relation to policies emphasising clear assessment criteria. The aim of the present study is to understand how teachers' assessment practice may change when shared criteria for assessing students' clinical competency are developed and implemented.

 

1.1 평가 및 기준에 대한 교사의 접근 방식
1.1 Teachers' approaches to assessment and standards

평가자마다 평정이 다른 이유에 대해 여러 가지 설명이 있다. 예를 들어, 학생 성취도는 [개별 특성의 사회적 분류]에 기초하여 판단된다. Kogan 등은 교수진의 임상 기술 평가 사이에 변화를 초래하는 몇 가지 요인을 보고한다. 그들은 교육 환경, 독특한 임상적 만남, 제도적 문화와 같은 [평가 상황에서 맥락적 요인의 영향]을 강조한다. 17 [교사의 인식론적 관점]은 또한 그들의 평가 관행에 영향을 미치는 것으로 알려져 있다. 이러한 기본적인 가정은 '생명을 가지게 되며come to life' 의료 전문가들이 의료행위를 하는 [사회 및 문화적 맥락]의 통합된 부분이다.20 [제정된 견해enacted view]는 평가자의 판단 사이의 차이를 설명할 수 있으며, 또한 연구에 따르면 교사들은 평가의 기능을 다른 방식으로 고려할 수 있다. De Jongge 등은 작업 기반 성과 평가의 다양한 관점에 관한 문헌의 주요 주제를 확인했습니다.

  • (1) 학습에 대한 평가 대 학습에 대한 평가, 
  • (2) 역량의 전체론적 개념화 대 분석적 개념화 
  • (3) 심리측정학 대 사회구성주의 접근법 

There are a number of explanations as to why assessors' ratings differ, for example that student performance is judged based on social categorisations of individual charachteristics.14 Kogan et al.17 report several factors leading to variation between faculty members' assessments of clinical skills. They emphasise the influence of contextual factors in the assessment situation, such as the educational setting, the unique clinical encounter and the institutional culture.17 Teachers' epistemological views are also known to influence their assessment practices.41819 Such fundamental assumptions ‘come to life’ and are an integrated part of the social and cultural context in which health professionals practice.20 Enacted views may explain the variation between assessors' judgements, and also, research suggest that teachers regard the function of assessment in different ways.151821 de Jonge et al.21 identified key themes in the literature regarding different perspectives of work-based performance assessments:

  • (1) assessment for learning versus assessment of learning,
  • (2) holistic versus analytical conceptualisations of competence and
  • (3) psychometric versus social-constructivist approaches.

Hodges22는 [심리측정학 담론]이 평가에 관한 [의학 교육 연구]뿐만 아니라 [교육자]들 사이에서 사고와 실천의 한 방식이었던 방법을 상세히 설명한다(예를 들어 숫자를 이용한 피드백을 제공하는 것이 여기에 해당한다). 단어보다 [숫자를 사용]하는 것은 철학적 가정을 반영하고 시간을 절약할 수 있지만, 연구원들은 이런 방식을 주의할 것을 촉구하고, [평가와 피드백 방법의 조합]의 가치를 강조하며, 다른 목적에 도움이 될 수 있다고 제안한다.23 유사한 논거를 사용하여, 프로그래밍 평가의 옹호자들은 학생들의 능력을 다양한 방법으로 포착하는 더 긴 기간에 걸친 다양한 형성적 및 종합적 평가 방법을 제안한다.1, 24

Hodges22 details how the psychometric discourse has not only dominated the medical education research regarding assessments but also how it has been a way of thinking and practising among educators, for example, by providing feedback using numbers. The use of numbers rather than words reflects philosophical assumptions and may save time, but researchers urge caution and suggest a combination of rating and feedback methods could be valuable and serve different purposes.23 Using a similar rationale, advocates of programmatic assessment suggest a variety of formative and summative assessment methods over longer periods of time that capture students' capabilities in various ways.1, 24

많은 연구가 설명적 요인과 성공적인 평가 방법의 확인에 관한 것이지만, 시간이 지남에 따라 교사들의 시각이 어떻게 변할 수 있는지에 대한 연구는 거의 없다. 본 논문에서, 우리는 교사의 관행 개발을 다루고, 학생들의 평가 표준, 자유방임주의 접근법, 명시적 접근법, 사회-건설주의 접근법 및 실천 공동체 접근법에 대한 교사의 다양한 접근 방식을 개략적으로 설명하는 O'Donovan 등의 19 프레임워크를 적용한다.19

  • 평가에 대한 [자유방임적 접근법]은 학생들이 기준이 어떻게 정해지고 질이 어떻게 평가되는지를 점차적으로 '알게' 된다는 것을 의미한다. 자유방임주의로 접근하는 교사들은 우연한 방식으로 비공식적으로 전달되는 암묵적인 기준에 따라 성과를 판단한다.
  • [명시적 접근법]은 기준을 명시적으로 그러나 수동적으로 명확히 설명하는 평가 기준에 의해 특징지어진다. 이 접근법은 교사들이 소위 명시적인 기준에 너무 많이 의존하게 만든다는 비판을 받아왔다.
  • [사회 구성주의 접근법]은 평가 관행과 관련하여 공동 참여를 인정한다. 학생들은 적극적으로 참여하며, 다양한 활동을 통해 평가 기준에 익숙해져 실제 의미에 대한 이해를 형성합니다.6
  • 네 번째 접근법은 벵거의 26가지 [실천 공동체 이론]에 기초한다. 교사와 학생이 평가 실천에 상호 참여하는 것이 중요하다는 점을 인정하며, 이를 통해 학습 공동체 내의 명시적 기준과 암묵적 지식이 논의되고 공유되어 상호 이해를 형성한다.

While much research concern the identification of explanatory factors7, 14, 17 and successful methods for assessments,13, 25 little is devoted to how teachers' views may change over time. In this paper, we address teachers' development of practices and apply O'Donovan et al.'s19 framework, which outlines teachers' different approaches to developing students' understanding of assessment standards, the laisse-faire approach, the explicit approach, the social-constructivist approach and the community of practice approach.19 

  • Practising the laisse-faire approach to assessment means students gradually come to ‘know’ how standards are set and how quality is assessed. Teachers with a laissez-faire approach judge performances according to tacit standards that are informally communicated in serendipitous ways.
  • The explicit approach is characterised by assessment criteria that articulate standards explicitly but passively. This approach has been criticised for making teachers rely too much on so-called explicit criteria.
  • The social-constructivist approach acknowledges joint participation with respect to evaluative practice. Students are actively engaged and, through various activities, become familiar with assessment criteria to create an understanding of what they mean in practice.6 
  • The fourth approach builds on Wenger's26 theory of community of practice. It acknowledges the importance of teachers' and students' mutual engagement in the assessment practice, whereby explicit standards and tacit knowledge within the learning community are discussed and shared to form mutual understanding.

2 방법
2 METHODS

2.1 서술적 연구 접근법
2.1 A narrative research approach

이 연구는 인간이 경험을 서술형으로 구성함으로써 어떻게 그들의 경험에 의미를 부여하는가에 대한 서술 이론에 기초하고 있다. [서사적 감각 형성]은 [사람들이 행동과 경험을 설명하기 위해 과거, 현재, 미래의 사건들을 서술로 연결시키는 것]을 의미한다. 브루너는 세상을 이해하는 [두 가지 보완적인 방법]이 있다고 주장한다. [논리-과학적] 그리고 [서사적]. 

  • [과학]은 일반적인 원인을 찾기 위해 논리를 사용하는 첫 번째 것과 경험적 탐구를 통해 검증 가능한 진리를 검증하는 것에 의해 뒷받침된다. 그러나
  • [서사적 감각 형성]은 인간이 일상 생활에서 다른 사건들을 연결함으로써, [자신과 타인의 행동을 어떻게 설명하는지]를 다룬다. 이러한 [스토리가 있는 연결]이 진화하면 모순과 여러 의미를 포함할 수 있습니다. 

This study is based on narrative theory about how humans bring meaning to their experiences by structuring them as narratives.27-29 Narrative sense-making means that people connect past, present and future events into narratives to explain actions and experiences.3031 Bruner27 argues that there are two complementary ways to make sense of the world: the logico-scientific and the narrative.

  • Science is underpinned by the first, in which logic is used to find general causes, and through empirical explorations test verifiable truths.
  • Narrative sense-making, however, deals with how humans explain the actions of themselves and others by making connections between different events in their everyday lives.27 When these storied connections evolve, they may contain contradictions and multiple meanings.28 

이 연구의 근거는 [실천의 발전]은 모순으로 가득 차 있고, 교육 실천을 개선하기 위해서는 [교사들이 변화와 관련된 경험을 어떻게 이해하는지] 더 잘 이해하는 것이 필수적이라는 것이다. [서사의 강점]은 [인간 생활의 지저분하고 모순된 측면]을 조명하는 생동감에 있다. 교사들이 학문과 임상 업무의 다양성에 관여할 때, 그들의 의도는 정적이지 않으며, '능력 개발'의 결과물도 아니다. 오히려 다른 실천방법이 시험되고 반영됨에 따라 의도는 지속적으로 변화한다.

The rationale of this study is that development of practice is filled with contradictions and that a better understanding of how teachers make sense of experiences related to change is essential to improve educational practice. The strength of narratives is their lifelikeness, which illuminates the messy and contradictory aspects of human life.27 When teachers engage in the diversity of academic and clinical work, their intentions are not static or the result of ‘a competence development’. Rather, intentions change continuously as different ways of practising are tested and reflected upon.

2.2 연구 및 샘플링의 맥락
2.2 Context of study and sampling

이번 연구는 스웨덴 고등교육 내 명확한 등급기준 등 투명성을 강조하는 국가개혁과 연계해 진행됐다. 스웨덴 대학은 채점 기준을 어떻게 적용할지를 자율적으로 결정할 수 있기 때문에 대학, 과정, 심지어 학과 내에서도 차이가 있다. 스웨덴의 학습 프로그램은 [과정 기반 시스템]을 중심으로 구성되며, 각 과정이 끝난 후 학생들의 성과를 평가하고 채점하며, 일반적으로 5주 또는 10주 동안 지속된다. 스웨덴에서, [과정 리더]는 수업 요강을 개발하고, 평가와 채점 기준을 결정하며, 보통 시험관의 공식적인 역할을 맡지만, 다른 교사들은 학생들의 성과에 대한 정보를 제공할 수 있다. 의학 및 보건직 교육에서, 각 강의 요강은 커리큘럼과 연계된 학습 결과를 명시해야 하며, 따라서 의도된 대학원 역량으로 연결되어야 한다.4 세부 수준과 학습 성과가 표현되는 방법은 과정마다 다르지만, 일반적으로 채점 기준은 학생 성과에 대한 요구사항을 명시한다.
This study was conducted in conjunction with national reforms stressing transparency such as clear grading criteria within higher education in Sweden. Universities in Sweden have the autonomy to decide how grading criteria are applied, and therefore, there is variation between universities, courses and even within departments. Study programmes in Sweden are organised around a course-based system, where students' performances are assessed and graded after each course, which generally lasts for 5 or 10 weeks. In Sweden, course leaders are mandated to develop the course syllabus, decide assessments and grading criteria and usually have the formal role of examiner, but other teachers can provide input on student performance. In medical and health professions education, each syllabus should specify learning outcomes that are linked to the curriculum and thus to the intended graduate competency.4 The level of detail and the way that learning outcomes are expressed varies between courses but, in general, grading criteria specify the requirements on student performance.

우리의 심층 서술적 연구 접근법에 따라, 우리는 이론에 기초한 표본추출을 사용하여 하나의 [교육적 설정]을 선택했다. 17 우리는 [커리큘럼 개혁에 대한 이데올로기적 접근]에 의해 설명되는 것과 유사한 학생 중심의 학습 관점에 따라, 광범위한 해석에 기초하여 정책을 번역하는 주요 커리큘럼 변경을 시행한 9명의 교사를 모집했다.32 모든 9명의 교사들, 남자, 여자, 모두 병원 현장에서 일했고 스웨덴 대학에 의해 제공되는 하나의 건강 전문 교육에서 주요 과정의 계획, 전달 및 평가(형성 및 종합 평가 포함)를 담당했다. 지난 10년 동안, 학습 프로그램의 대부분의 과정에 대한 책임은 이 교사들 사이에서 돌아가며, 그들은 각각 여러 과목의 과정 지도자와 시험관이었다.
In accordance with our in-depth narrative research approach, one educational setting was chosen using theory-based sampling.17 We recruited nine teachers who had implemented major curriculum changes where they translated policy based on a broad interpretation in line with a student-centred view of learning, similar to what is described by the theoretical construct ideological approach to curriculum reform.32 All nine teachers, men and women, worked at a hospital site and were responsible for the planning, delivery and evaluation (including formative and summative assessments) of the main courses in one health professions education offered by a Swedish university. In the last 10 years, responsibility for the majority of courses in the study programme had rotated between these teachers, who each had been course leaders and examiners for several courses.

이 연구는 교사들에 의해 시작된 [평가 관행을 개선하기 위한 개입]과 함께 수행되었습니다. 교사들은 서로 다른 수준의 공부에서 세 명의 학생들을 모집했고 그들이 각각 다른 환자들을 검사하면서 그들을 비디오로 촬영했다. 검사에는 이력서 작성, 신체검사, 기술기기 취급, 진단 전 소견 해석, 치료 권고 등이 포함됐다. 검사는 약 1시간이 소요될 것으로 예상되었으며 학생들의 최종 임상 기술 검사와 유사한 임상 훈련 환경에서 실제 환자를 대상으로 수행되었습니다. 그 후 교사들은 5개월 간격으로 세 차례에 걸쳐 만났다. 처음 두 번의 회의 동안 모든 교사가 비디오를 시청하고 개별적으로 평가를 수행한 후 평가 결과와 기준 해석에 대해 공동으로 논의하였다. 두 회의 모두 다단계 순위와 전문적 행동에 대한 명확화 등 기준을 개선했다. 두 번째 기준 토론 후 5개월 후, 교사들은 기준 템플릿을 완성하기 위해 다시 만났다. 미팅 사이에 그들은 개정된 기준을 실무에 적용했다.

This study was conducted in conjunction to an intervention initiated by the teachers to enhance their assessment practice. The teachers recruited three students from different levels of study and videotaped them as they each examined different patients. The examination included history-taking, physical examination, handling technical devices, interpretation of findings before diagnosis and recommendations for treatment. The examination was expected to take approximately 1 hour and was performed on authentic patients in a clinical training setting that resembled the students' final clinical skills exam. The teachers then met on three occasions at 5-month intervals. During the first two meetings, all teachers watched the videos and carried out the assessments individually before jointly discussing their assessment outcomes and interpretations of the criteria. Both meetings resulted in refinements of the criteria, such as multi-level rankings and clarifications on professional behaviour. Five months after their second criteria discussion, the teachers met again to finalise the criteria template. In between meetings, they applied the revised criteria in their practice.

2.3 자료 및 분석
2.3 Data and analysis

이 데이터는 교사들이 평가 관행을 개선하기 위해 1년 동안 개입하는 동안, [여러 가지 방법]을 조합하여 생성되었습니다. 녹음되고 녹음된 관찰은 9명의 교사들의 네 번의 회의와 그 회의들 사이의 비공식적인 대화 동안 이루어졌다. 회의 후 그들의 개별 서면 성찰도 수집되었다. 첫 번째 저자가 만든 필드 노트에는 얼굴 표정, 몸짓, 물리적인 방, 유물, 분위기 등이 담겼다. 모든 메모는 관측 당일이나 다음 날 작성되었다. 연말에는 학과에서 가장 오래 근무한 교사(>10년)와 채점기준 개정 조정을 맡은 교사 중 3명을 선발해 단체면접을 진행했다. 이 탐색적 인터뷰(2.5시간)는 교사들이 과거의 경험을 회상하고 그 의미를 발전시킬 수 있는 기회를 제공했고, 그에 따라 풍부한 데이터가 생성되었다. 33 또한 교사 그룹의 일원이었던 프로그램 책임자와 함께 두 번의 추가 인터뷰가 이루어졌다.
The data were generated through a combination of methods throughout the teachers' 1-year intervention to enhance their assessment practice. Tape-recorded and transcribed observations were made during four meetings of the nine teachers and during informal talks between those meetings. Their individual written reflections following the meetings were also collected. The field notes generated by the first author included facial expressions, body language, the physical room and artefacts and the atmosphere.33, 34 The notes were all written out either the same day or the day after the observation. At the end of the year, three of the teachers who had worked the longest at the department (>10 years), and the teacher responsible for coordinating the revision of the grading criteria, were chosen for a group interview. This exploratory interview (2.5 hours) provided an opportunity for the teachers to recall past experiences and evolve the meaning of these, thereby rich data was generated.33 Two additional interviews were held with the Programme Director, who was also part of the teacher group (e.g. course lead and examiner).


저자들 중 세 명이 공동으로 [중요한 사건]을 중심으로 서술 분석을 수행했다. 즉, 교사들이 평가의 공동 개발에 있어서 중요한 것으로 인식되는 사건들, 즉, 기회나 변화에 대한 압력을 조성한다. 표 1을 참조하는 이 중복된 사건들은 10년 전으로 거슬러 올라가는 상황에 대한 선생님들의 이야기를 바탕으로 했다. 분석 중에, 텍스트 자료로 번역된 모든 데이터는 함께 모이게 되어, 교사들의 '우세한 담론'이 그들의 일상적인 행위enactment(생각과 행동)에서 어떻게 표현되었고, 이러한 담론이 시간에 따라 어떻게 발전했는지에 대한 서술적 분석이 가능하게 되었다. 34 

Three of the authors jointly conducted a narrative analysis centred on significant events,28, 29, 34 i.e. events the teachers perceived as significant28 for their joint development of assessments, either by creating opportunities or pressure to change. These overlapping events, see Table 1, were based on stories shared by the teachers about situations that went as far back as 10 years. During analysis, all data, transcribed as text materials, were pooled together, enabling narrative analysis of how the teachers' ‘prevailing discourses’ were expressed in their everyday enactment (thinking and acting) and how these discourses evolved over time.34 

수행된 분석 과정은 모의emplotment라고 알려져 있는데, 이것은 연구자들이 그들의 경험을 이해하기 위해, [교사들이 했던 것과 같은 방식으로 인간의 행동, 의미, 동기, 사건, 결과를 연결했다는 것]을 의미한다.

  • [플롯]은 시작, 중간, 끝을 중심으로 정렬되며, 이는 [인간 추론의 간단한 개요]에 비해서 [서사적 분석의 결과를 더 많이 만들고], [네러티브의 주제 분석의 제시]와는 다르다.
  • [플롯]은 물리적 의미에서의 다양한 사건들이 어떻게 전개되는지를 중심으로 구성될 수도 있지만, 우리가 인간의 변화 경험에 관심을 기울였을 때, 모의emplotment는 [선생님들이 의미 있는 것으로 표현한 사건들에 초점]을 맞추었다. 
  • 우리의 연구 접근법에 따르면, 인간의 [의미 만들기]는 종종 물리적 연대기와는 다른 시간과 상호 연결된 사건의 재창조라고 간주되었다.
  • 전개되는 서술(emplotment)은 여러 번 다시 쓰여졌고 작가들 사이에서 논의되었다. 결국, 그들의 평가 관행이 어떻게 변화했는지와 학생들의 임상 역량을 평가하기 위한 기준을 어떻게 이해했는지에 대한 교사들의 의미 결정(행동 및 경험을 통해 보여짐)을 묘사하면서, 일관된 내러티브가 구성되었다.

The analytical process conducted is known as emplotment, which means that the researchers linked human action, meaning, motives, events and consequences in the ‘same way’ the teachers did, in order to make sense of their experiences.29, 34 

  • Plots are ordered around a beginning, middle and end, which makes the findings from a narrative analysis more than a brief outline of human reasoning and differs from the presentation of a thematic analysis of narratives.3035 
  • Plots may be structured around how different events played out in a physical sense, however, as we attended to human experience of change, the emplotment centred on happenings the teachers expressed as meaningful.
  • In accordance with our research approach, human meaning-making was regarded as a re-creation of time and interconnected events that most often differ from physical chronology.2728 
  • The unfolding narrative (the emplotment) was rewritten several times and discussed among the authors. Eventually, a coherent narrative was structured, depicting the teachers' meaning-making (shown through action and experience) of how their assessment practices had changed and how they made sense of the criteria to assess students' clinical competency.

표 1. 중요 이벤트
TABLE 1. 
Significant events


중요 이벤트

* 투명성 요건이 높아진 대학 개혁에 이어 교육과정 개정도 뒤따랐다.
* 학생들의 성적은 나빠졌고, 그들은 지원이 너무 적다고 불평했고 자퇴를 원했다.
* 교육학에서의 역량 개발은 동료 평가와 미니 CEX의 구현으로 이어졌다.
* 학생들의 임상 기술을 평가하는 평가자의 수를 2명에서 1명으로 줄인다.
* 교육 문제를 논의하기 위한 정기적인 교사 회의를 도입했습니다.
* 학생들은 평가의 불공평함에 대해 불평했다.


Significant events
  • University reform with increased requirements of transparency, followed by curriculum revision.
  • Students' performances deteriorated, and they complained about too little support and wanted to drop out.
  • Competence development in pedagogy resulted in the implementation of peer-assessments and mini-CEX.
  • Reduction in the number of assessors grading students' clinical skills from two to one.
  • Introduced regular teacher-meetings to discuss educational matters.
  • Students complained about unfairness in assessments.

2.4 방법론적 성찰 및 한계
2.4 Methodological reflections and limitations

내러티브는 사회적 맥락에 내재되어 있으므로 독특하고 일반화되지 않는다. 그것들은 현상의 풍부함과 복잡성을 묘사하고 있으며, 독특한 내러티브는 다른 맥락에서 일어나는 일들을 설명하고 이해하기 위해 전이transfer될 수 있고, 그 목적을 위해 여기에 맥락적 설명이 포함된다. 여기에 보고된 서술은 교사들에게 의미 있는 동기와 사건들을 포함한 변화 과정을 보여준다. 자연과학의 관점에서, 사건에 대한 인간의 기억은 편향될 수 있다. 예를 들어, 서술적 의미 만들기는 사건의 정확한 연대기적 표현을 반영하지 않을 수 있다. 따라서 [내러티브 인 액션 분석]은 [집행된 이야기]와 [인간이 그들의 관점에서 사건을 이해하는 방법]을 조명한다. 우리가 사회 문화적 관점을 채택하고 분석의 단위로 그룹 레벨에 참여했기 때문에, 교사들의 감각 형성에서의 개인 차이는 여기서 다루지 않는다. 이 분석에는 개입을 수행한 9명의 교사로부터 생성된 데이터가 포함되었으며, 한 연구 프로그램에 대한 주된 책임이 있었다. 그러나 학생들을 가르치고 평가한 다른 보건 전문가와 대학 교수진들은 그들의 관점을 공유하지 않았을 수 있다. 게다가, 참여 교사들은 이전에 교수진 개발에 참여했으며, 비록 그들 모두가 평가에 관한 특별한 교육을 받은 것은 아니지만 교육학상 지식을 가지고 있는 것으로 가정했다.

Narratives are embedded in social contexts and therefore unique and not meant to be generalised. They depict the richness and complexity of a phenomenon, and what unique narratives illustrate can be transferred to explain and understand happenings in other contexts, and for that purpose, contextual descriptions are included here.33 The narrative reported here illustrates change processes including motives and events that were meaningful to the teachers. From a natural science perspective, humans' recollection of events may be biased; for example, narrative sense-making may not reflect a precise chronological presentation of events. Narrative-in action analysis thus illuminates enacted stories and how humans make sense of events from their perspective. As we adopted a socio-cultural perspective,26, 36 and attended to the group level as the unit of analysis, the teachers' individual differences in sense-making are not addressed here. The analysis included data generated from nine teachers who conducted an intervention and had the main responsibility for one study programme, although other health practitioners and university faculty who taught and assessed their students may not have shared their perspectives. Furthermore, the participant teachers had previously attended faculty development and assumed to be pedagogically informed, although not all of them had training specifically regarding assessment.

2.5 윤리적 고려사항
2.5 Ethical considerations

이 연구에 대한 윤리적 승인에 따라, 모든 참가자들은 구두와 서면으로 통지를 받은 후 공식적으로 참여하기로 동의했습니다. 교사들에게는 가명이 주어지고, 더 나아가 기밀성을 보장하기 위해, 전문적인 활동에 관한 세부 사항은 공개되지 않는다.

In accordance with the ethical approval for this study, all participants formally consented to take part after being informed orally and in writing. The teachers are here given pseudonyms, and to further ensure confidentiality, no details concerning professional activities are disclosed.

3 결과
3 RESULTS

3.1 평가 공정성 보장
3.1 Safeguarding fairness in assessments

이 연구 결과는 교사들이 학생들의 임상 기술을 평가하기 위한 채점 기준의 사용을 교정하기 위한 도덕적 의도에 의해 동기부여가 된 이야기를 제시한다. 이 섹션에서는 먼저 프롤로그가 우리의 분석을 바탕으로 평가 기준과 교육과정을 재작업하려는 교사들의 의도를 설명한다. 그 다음에, 이야기의 윤곽이 잡힌다.

  • (a) 어떻게 선생님들이 기준을 포함하는 평가 지향적인 문화를 발전시켰는지, 
  • (b) 선생님들께서 이해하셨던 방식들 
  • (c) 평가의 공정성에 대한 그들의 가치와 관련하여 교사들의 채점 기준 개발이 어떻게 다른 방향으로 전환되었는가. 

그리고 나서 에필로그는 선생님들이 그들의 개입을 어떻게 요약했는지 보여준다. 서술에 포함된, 선생님들의 계속되는 대화와 설명은 어떻게 그들의 노력이 명백해졌는지를 묘사한다. 이러한 계정에는 미팅이나 미팅 사이 또는 인터뷰 상황에서 교사들에게 공유된 짧은 이야기가 포함됩니다.

The findings present a narrative where the teachers became motivated by moral intentions to calibrate their use of grading criteria for assessing students' clinical skills. In this section, the prologue first explains, based on our analysis, the teachers' intentions of reworking assessment criteria and the curriculum. Then, the narrative outlines

  • (a) how the teachers developed an assessment-oriented culture in which criteria were embedded,
  • (b) the ways in which the teachers made sense of those and
  • (c) how the teachers' development of grading criteria took different turns in connection with their values of fairness in assessments.

The epilogue then shows how the teachers summarised their intervention. Included in the narrative, the teachers' ongoing dialogues and accounts situate and depict how their endeavours became manifest. These accounts include short stories that were shared among the teachers in and between meetings or in interview situations.

3.2 프롤로그: 변화를 시작한 동기
3.2 Prologue: Motives to initiate change

병원 현장에서 함께 일하는 보건 전문 교사 그룹은 [성과-기반 교육]을 향한 중요한 커리큘럼 개혁을 수행했다.

  • 이 변화 과정의 일환으로, 그들은 임상 기술 훈련에 대한 강조를 증가시키고, 그들의 교육 역할을 재정의하고, 촉진적 역할을 채택하고, 정보 제공자로서 그들의 시간을 줄였다.
  • [임상 기술에 관한 평가의 증가]는 그들이 두 명의 검사관으로부터 한 명의 검사관으로 자원을 절약하도록 강요했다. 이는 다소 신뢰할 수 없는 것으로 느껴졌기 때문에, 그들은 형성적 평가와 총괄적 평가에 유용한 공동 기준을 개발했다.
  • 하지만, 학생들은 점점 더 불평등하게 평가를 받고 있고 일부 교사들이 더 가혹한 판단을 하고 있다고 불평했다
  • 교사들은 처음에는 이러한 불만을 부정했지만, 평가 후 회의를 하는 동안, 그들이 기준에 대한 이해가 서로 다르고, 학생들의 성적을 평가하는 방법도 서로 다르다는 것을 깨달았다.

이를 통해 그들은 학생들의 임상 기술 평가와 기준의 적용을 조화시킬 목적으로 개입을 수행하게 되었다.

A group of health profession teachers working together at a hospital site had conducted a significant curriculum reform towards outcome-based education. As part of this change process, they increased the emphasis on training of clinical skills, re-defined their teaching roles, adopted a facilitating role and reduced their time as information providers. The increase of assessments concerning clinical skills forced them to economise resources from two examiners to one. This felt a bit unreliable, so they developed joint criteria useful for both formative and summative assessments. However, the students increasingly complained that they were being assessed unfairly and that some teachers were making harsher judgements. The teachers at first rejected these complaints, but during post-assessment meetings, they realised that they had different understandings of the criteria and different ways of judging student performance. This led them to conduct an intervention with the aim of harmonising the application of the criteria and assessment of students' clinical skills.

3.3 교사들이 면밀한 조사에 대해 어떻게 개방하였는가?
3.3 How the teachers opened up to scrutiny

3.3.1 서술은 현재 시간에서 시작되며 10년간의 변화가 어떻게 등급 기준의 공동 개발을 가능하게 했는지 개략적으로 설명한다.
3.3.1 The narrative starts in present time and outlines how a decade of changes made joint development of grading criteria possible

평가 기준의 개선 뒤에 있는 아이디어는 지난 10년 동안 발전한 교사들의 실천에서 비롯되었다. 정밀 조사를 개방함으로써, 그들은 [명확한 평가 기준을 적용하는 것이 도덕적 의무]라는 공통의 이해를 위한 길을 열었다. 다음 이야기는 평가를 통한 학생 학습을 지원하기 위해 기준의 사용이 어떻게 그들의 접근법의 필수적인 부분이 되었는지를 묘사한다.
The ideas behind improvements to the assessment criteria arose from the teachers' practice as it evolved over the last 10 years. By opening up to scrutiny, they paved the way for a shared understanding that applying clear assessment criteria was a moral obligation. The following story depicts how the use of criteria had become an integral part of their approach to support student learning through assessments.

 

회의에 가는 길에 존은 한 학생에 의해 제지당했는데, 한 학생이 그녀의 머리를 훈련실 밖으로 내밀고 그에게 손짓했다. 그녀는 '존, 내가 안나를 진찰하는 동안 좀 볼래?'라고 말했다. 만나기 전까지 아직 시간이 좀 남아있던 존은 그녀의 초대에 기쁘고 마음이 놓였다. 이 학생은 수줍음이 많고 지속적인 평가에 참여하는 것을 꺼리는 것으로 알려졌다. 때때로, 그녀가 환자 검사 절차에 대해 자신감이 없는 것인지 아니면 단지 그녀의 성과를 면밀히 검사하는 것이 불편한지 구별하기 어려웠다. 그녀가 마침내 마음을 열게 된 것을 기뻐하며 그는 그녀에게 미소를 지으며 말했다: "기꺼이 그러죠!"
On his way to a meeting, John was stopped by a student who stuck her head out of one of the training rooms and beckoned him. She said, ‘Hey John, would you like to watch while I examine Anna?’ John, who still had some time before his meeting, was happy and relieved by her invitation. The student was known to be shy and reluctant to participate in continuous assessment. Sometimes, it was hard to tell if she was insecure about the patient examination procedures or if she was just uncomfortable having her performances scrutinised. Pleased that she had finally opened up, he smiled at her and said: ‘I'd be happy to!’

 

위의 이야기에서 알 수 있듯이, 부서의 일상적인 정신은 개방적이고 친근했습니다. 몇 년에 걸친 교사들의 끈질긴 작업을 통해, 그리고 서술형 분석에 의해 조명되어, 그들은 [평가 지향적 문화]를 발전시켰는데, 이것은 동료 학습과 평가가 어떻게 지속적으로 적용되는지 보여 주었다. 여러 가지 방법으로, 선생님들은 어떻게 [대화와 동료평가]가 학생들 사이에서, 그리고 그들 자신들 사이에서, 습관적인 관행으로 발전해왔는지를 밝혔다. 그들은 [그들의 가르침에 대한 지속적인 평가]와 [공동으로 교육 개선을 하는 것]에 대해 그들이 어떻게 편안함을 느끼는지에 대해 공개적으로 말했다.
As illustrated by the above story, the everyday spirit at the department was open and friendly. Through the teachers' persistent work over several years, and illuminated by the narrative analysis, they had developed an assessment-oriented culture, which was shown in how peer learning and evaluations were continuously applied. In several ways, the teachers revealed how dialogue and peer assessments had developed into a habitual practice among the students and among themselves. They spoke openly about how they felt comfortable with continuous evaluations of their teaching and of jointly making educational improvements.


우리의 서술적 분석은 교사들이 [공동으로 채점 기준을 개발]하고, [평가를 공정하게 만들기 위한 노력]이 그들이 [점차적으로 면밀한 검토를 받게 된 변화 과정의 결과]라는 것을 보여준다. [평가 기준의 도입]은 서로 다른 교수법과 학습 활동을 적용하는 데 [수년간의 시행착오]가 선행되었다. [동료 평가]는 학생들이 학습에 더 큰 책임을 지는 것을 지원하는 한 가지 방법으로 약 5년 전에 시작되었다. 동료 학습을 적용한 지 몇 년 후, 학생들이 임상 작업을 연습하는 동안 다른 사람을 초대하여 피드백을 제공하는 것이 일반적이 되었다. 교사들은 지속적인 평가가 창의성과 새로운 발전을 위한 공간을 만들면서 '많은 것을 얻었다'고 믿었다. 하지만, [명시적인 평가 기준의 적용]이 그들의 야망을 더 크게 만든 [도덕적 선]을 대표한다는 것이 교사들의 믿음이었다.

Our narrative analysis shows that the teachers' efforts to jointly develop grading criteria and make assessments fair were the result of a change process in which they gradually opened up to scrutiny. The implementation of assessment criteria was preceded by years of trial and error in applying different teaching methods and learning activities. Peer assessments started out, about 5 years ago, as one way to support students taking greater responsibility for their learning. After a few years of applying peer learning, it became commonplace for students to invite others to provide feedback while practising clinical work. The teachers believed, they ‘had gained a lot’ by opening the door to continuous evaluation as it created space for creativity and new developments. However, it was the teachers' belief that the application of explicit assessment standards represented the moral good that drove their ambitions further.

3.4 어떻게 교사들이 '도덕적 선'을 제정하였는가?
3.4 How the teachers enacted the ‘moral good’

3.4.1 이 서술의 두 번째 부분은 왜 채점 기준이 교사들에게 의미 있게 되었는지, 그리고 과거의 법들이 어떻게 공정한 평가를 위한 현재의 이니셔티브를 강화했는지 설명한다.
3.4.1 This second part of the narrative illustrates why grading criteria became meaningful to the teachers and how past enactments reinforced current initiatives to assess fairly

교사들은 그들의 평가 관행을 개선하고 질 높은 교육을 제공하기 위해 몇 가지 계획을 세웠기 때문에, [환자와 학생들을 돌보는 것]이 그들의 핵심 동기였다. 궁극적으로, [평가 기준]은 졸업생들이 필요한 역량을 갖추도록 함으로써 교사들이 환자에 대한 의무를 이행하는 수단이었다. 예를 들어, 시간 제한 평가에 대한 그들의 아이디어는 전문적인 작업에서의 효과와 거의 관련이 없었지만, 오히려 학생들이 신체 검사 동안 환자의 불편함을 최소화해야 했고, 따라서 환자들이 도움을 구하는 것을 두려워하는 것을 막아야 했다. '도덕적 선'을 실행enact하려는 교사들의 노력은 (한나의 높은 관심 기말고사 회상 등과 같이) 과거 학생평가 경험에 대한 이야기로 강화되고 정당화됐다.

As the teachers had taken several initiatives to improve their assessment practice and provide a high quality education, caring for patients and students was their key motivation. Ultimately, the assessment criteria were means for teachers to fulfil their obligations towards patients by ensuring graduates had the necessary competency. For example, their idea of time-limited assessments had little to do with effectiveness in professional work, but rather concern of patients' discomfort during physical examination, which students needed to minimise and thereby preventing patients from being afraid to seek help. The teachers' efforts to enact the ‘moral good’ were reinforced and justified by stories about past experiences of student assessment, such as Hanna's recollection of high-stake final exams.

 

당신의 인생 동안, 당신은 결코 당신의 실제 기술에 대해 평가되지 않습니다. 유일한 시간은 당신이 운전 시험을 볼 때이다. 학생들이 그들의 성과에 대한 평가를 받은 경험이 부족했던 것은 당연하다! 생각해보면 그건 정말 비윤리적이었어요. 그들은 몇 년에 걸쳐 연구를 계속했고, 졸업하기 직전에 임상 성적에 따라 점수를 매겼다. 그들 중 몇몇은 이미 직업을 가지고 있었다. 그리고 나서, 펑, 그들은 기말고사에서 떨어졌어! 그들은 너무 긴장해서 얼굴이 파랗게 질려 쓰러질 것 같았다.

During the course of your life, you are never evaluated on your practical skills. The only time is when you take your driving test. No wonder the students lacked experience of being assessed on their performance! It was really unethical, when you think about it. They pursued their studies over several years, and right before they graduated, they were graded on their clinical performances. Some of them had already got jobs. And then, bang, they failed their final exam! They were so nervous their faces turned green, and they were ready to faint.

 

그런 이야기들이 교사들 사이에서 반복적으로 공유되었고, 현재의 제도에 비해 과거의 평가 관행이 얼마나 미흡했는지에 대한 인식을 심화시켰다. 이런 식으로, 과거의 사건들은 그들이 어떻게 지속적인 임상 기술 훈련을 추가하는 것을 포함한 교육 과정의 개혁이 도덕적으로 정당했는지 확인했습니다. 교사들은 이러한 변화들이 학생들이 더 나은 준비를 하고 더 나은 성적을 거두도록 했다고 믿고 있다. 그들은 또한 [practical skills에 대한 평가를 받는 것]은 학생들에게 새롭고 매우 스트레스를 많이 받는 상황이며, [그 자체가 훈련과 평가를 필요로 하는 능력]으로 간주되어야 하는 것이라는 것을 이해하게 되었다. 그러나, 커리큘럼의 변화와 지속적인 동료 학습 및 피드백의 사용으로, 등급별 평가는 덜 극적으로 되었다. 
Such stories were shared repeatedly among the teachers and deepened the perception of how assessment practices in the past were inadequate, compared with the present system. In this way, past events confirmed how their reformation of the curriculum including adding continuous clinical skills training was morally justifiable. The teachers believed these changes had led to students feeling better prepared and performing better. They had also come to understand that being assessed on practical skills was a new and highly stressful situation for the students and something that should be regarded as an ability in its own right that required training and evaluation. However, with the curriculum changes and the use of continuous peer learning and feedback, the graded assessments had become less dramatic.



임상 기술 평가에 기준을 적용하는 것은 공평하고 환자의 안전을 보장한다는 교사의 가치를 강제하기 때문에 의미가 있다. 그러나 [도덕적 선]에 대한 내러티브를 제정enact하는 것은 때때로 [평가의 공정성, 환자의 책임성, 학습 촉진의 가치]가 충돌한다는 것을 의미했다. 무엇이 공정하고 무엇이 공정하지 않은지 결정하는 딜레마도 제시했다.

Applying criteria to the assessment of clinical skills became meaningful because it enforced the teachers' values of being fair and ensuring patient safety. However, enacting the narrative about the moral good meant that the values of fairness in assessment, patient accountability and facilitation of learning sometimes collided. It also presented the dilemma of deciding what was fair and what was not.

3.5 교사들이 편파적인 평가를 통해 공정성을 어떻게 유지하였는가?
3.5 How the teachers upheld fairness with an unbiased assessment

3.5.1 이 서술의 세 번째 부분은 학생들을 공정하게 평가하려는 교사들의 가치와 관련하여 성적 기준의 공동 개발이 어떻게 다른 방향으로 이루어졌는지를 보여준다.
3.5.1 This third part of the narrative shows how the joint development of grading criteria took different turns associated with the teachers’ value of assessing students fairly

평가를 조화시키는 방법에 대한 논의 동안, 특정 학생의 행동을 촉진하는 방법으로 기준을 적용하려는 교사들의 노력이 분명해졌다. 학생들이 환자 안전 및 우수 관리 기준의 최소 요건을 충족하도록 보장하기 위한 한 가지 방법은 손을 씻거나 기구를 소독하는 것과 같이 환자를 검사할 때 무엇을 해야 하고 해서는 안 되는지에 대한 [절대적인 요건]을 정의하는 것이었다. 이와 같은 성과는 학생들이 이러한 과제를 수행하는 방법의 다양한 품질에 관계없이 합격/불합격으로 평가되었으며, 결과적으로 학생이 이러한 과제를 수행하거나 전체 시험에서 불합격하게 된다. 한편으로, 이러한 '둘 중 하나 혹은 둘 중 하나'의 공연은 평가하기가 쉬운 것으로 보였고, 다른 한편으로는, 학생들이 그러한 활동을 부분적으로 했을 때, 우려의 대상이 되었다. 한 가지 제안은 교사들이 환자를 진찰하는 데 실제로 사용된 모든 기구들이 실제로 소독되었다는 것을 고려할 수 있다는 것이었다. 다만 기준에 따르면 모든 위생적인 측면이 협상 불가로 규정돼 시험에 사용한 적이 있는지 여부와 관계없이 모든 기구 소독을 소홀히 한 학생에게 불합격시키는 것이 타당했다. 일부 교사들은 이러한 유형의 평가를 수행하는 것이 더 쉽고, 협상할 수 없으며, 따라서 공정하다고 주장하면서 이러한 유형의 평가를 지지했다. 이들의 주장의 이면에는 환자에 대한 걱정이 있었고, [모든 기구를 소독하는 것을 소홀히 한 학생]은 [환자를 치료하는 것]도 전적으로 신뢰할 수 없다는 점이 있었다. 이 협상할 수 없는 '어느 쪽인가' 추론도 아래 대화에서 보여지듯이 다른 성격의 성과를 평가하기 위한 기준을 적용할 때 채택되었다.

During the discussions of how to harmonise assessments, the teachers' efforts to apply criteria in ways that promoted certain student behaviours became clear. One way to ensure that the students met the minimum requirements of patient safety and good practice was to define absolute requirements of what they should and should not do when examining patients, such as washing their hands and disinfecting instruments. Performances like that were assessed pass/fail, regardless of the varied quality of how students carried out these tasks, consequently, either the student performed these tasks or the student would fail the entire exam. On the one hand, these ‘either-or’ performances were seen as easy to assess; on the other hand, there was concern when students performed such activities partially, as in the case of a student who cleaned a few of the instruments, but not all of them. One suggestion was that the teachers could take into account that all of the instruments actually used to examine the patient had in fact been disinfected. According to the criteria, however, all hygiene aspects were stipulated as non-negotiable, which made it reasonable to fail students who neglected to disinfect all instruments regardless of whether they had been used in the examination. Some teachers argued in favour of this type of assessment, contending it was easier to conduct, non-negotiable and therefore fair. Behind their argument was a concern for patients and that a student who neglected to disinfect all instruments could not be fully trusted to treat patients. This non-negotiable ‘either-or’ reasoning was also adopted when they applied criteria to assess performances of a different nature, as illustrated by the dialogue below.

 

  • 존: 만약 모든 사람들이 그 학생이 병력 청취를 요약한 적이 없다는 것에 동의한다면, 그 기준이 분명히 그렇게 되어야 한다고 하는데 왜 우리는 모두 그 학생을 합격으로 평가했을까?
  • 티나: 흠, 아주 좋은 질문이야!
  • 에드워드: 하지만 그녀가 한 일, 그녀가 공연한 일들, 그녀는 정말 잘 해냈어요. 그녀는 결코 그것을 완전히 이해하지 못했다.
  • 한나: 나는 우리가 이 기준을 두 부분으로 나눌 필요가 있다고 생각해, 그렇지 않으면 피드백을 주기가 어려울 거야. 첫 번째 부분은 시술 중에 사용된 기술이어야 합니다. 이 경우, 그녀가 한 모든 일에 대해 어느 정도 신뢰를 줄 수 있습니다. 그게 공평할 것 같아요. 그리고 나서, 병력의 요약은 별도의 기준이 될 수 있다.
  • 비트라이스: 만약 우리가 당신의 제안대로 한다면, 요약은 여전히 5포인트로 계산되어야 하며, 우리가 그것들을 낮추기 위해 사용하는 기준이 되어야 하는가? 
  • 제니: 네 말은, 만약 그들이 병력 청취에 대한 요약을 하지 않았다면, 그들은 실패했다는 거야?
  • 한나: 글쎄, 그래, 그래야 한다고 쓰여 있는 한, 여기 템플릿에 있어.
  • 에드워드: 학생들의 눈에는, 네가 이렇게 하지 않으면 시험에 떨어진다는 것이 분명할 거야!
  • 한나: 그래, 그리고 그들은 템플릿이 말한 대로 해!
  • 존: 좋아, 만약 그들이 병력 청취를 요약하지 않으면, 그들은 모든 시험에서 낙제한다는 거야?!
  • 한나: 그래, 만약 그들이 요약하지 못한다면, 우리는 그들이 왜 환자가 먼저 왔는지 이해했는지 절대 알 수 없을 거야. 당신은 그 문제를 정확하게 처리했나요? 글쎄요, 애초에 문제를 파악하지 못했다면 알 방법이 없습니다. 
  • John: If everyone agrees that the student never made a summary of the history-taking, then how come we all graded the student as pass when the criteria clearly says that this should be done?
  • Tina: Hmm, very good question!
  • Edward: But what she did, the things she performed, she did really well. She just never really got it completely.
  • Hanna: I think we need to split this criterion into two parts, otherwise it will be hard to give feedback. The first part should be the technique used during the procedure, so that, in this case we can give some credit for all that she did. I feel that would be fair. And then, the summary of the history-taking can be a separate criterion.
  • Beatrice: If we do as you suggest, should the summary then still count as five points and be a criterion we use to bring them down?
  • Jenny: You mean if they haven't made a summary of the history-taking they fail?
  • Hanna: Well, yes, as long as it says should, here in the template.
  • Edward: In the eyes of the students, it will be clear that you fail your exam if you don't do this!
  • Hanna: Yes, and they do what the template says!
  • John: Ok, so if they don't summarise the history-taking, they fail the whole exam?!
  • Hanna: Well yes, if they fail to summarise, we will never know if they understood why the patient came in the first place. Did you handle the problem correctly? Well, there is no way of knowing if you never identified the problem in the first place.

기준을 개발하기 위한 교사들의 작업 동안, 그들은 과거에 평가가 어떻게 수행되었는지를 반성했습니다. 토론 중 반복적인 논평은 교사 그룹이 과거에 학생 성과에 대한 [주관적인 평가를 하는 것]에서 [가능한 객관적인 것]으로 어떻게 변화했는지를 강조하였다. 한 전직 교수가 한 학생의 시험에 대해 "너무 귀엽다, 합격이다"고 말한 적이 있는 '옛날'의 명시적 기준이 부족했다고 함께 웃었다. 그러나 완전히 객관적인 것은 표준화된 기준을 사용하여 다른 성격의 학생-환자 만남을 평가할 때 어려운 것으로 간주되었고, 토론하는 동안 교사들은 반복적으로 서로에게 '그러나 그것은 다시 주관적이 된다'고 상기시켰다. [주관성]은 주로 [전문적 행동과 의사소통 기술의 평가]와 관련되었으며, 따라서 이러한 기준을 명확히 함으로써 오해할 수 없는 성과 차원을 정의할 필요가 생겼다. 다양한 방법으로 전문적인 행동의 차원을 정의하려고 노력하면서, 선생님들은 행동, 전반적인 의사소통, 병력 청취의 요약, 진단과 치료 그리고 전문용어의 사용에 대한 정보를 제공하는 것 사이의 차이에 대해 추론했다. 그들은 전문적인 행동의 평가에 대한 두 가지 다른 이유들 사이에서 망설였다: [전반적인 의사소통과 전문적인 행동을 평가]하거나, [의사소통을 별도의 부분으로 나누고 환자 검사의 각 부분에 연결]했다. 그들은 의사소통 능력이 전문적인 행위와 다소 다르며 아마도 별도로 평가할 수 있을 것이라는 데 동의하였다.

During the teachers' work to develop the criteria, they reflected upon how assessments had been performed in the past. Recurrent comments during the discussions highlighted how the teacher group had changed from making subjective assessments of student performance in the past, to being as objective as possible. Together, they laughed about the lack of explicit criteria back in the ‘old days’ when a former professor once said about a student's examination, ‘She is so cute, she can pass’. However, being entirely objective was considered difficult when using the standardised criteria to assess student–patient encounters of a different nature and during the debates the teachers repeatedly reminded each other ‘but then it becomes subjective again’. Subjectivity was mainly associated with the assessment of professional behaviour and communication skills, and therefore, clarifying those criteria created a need to define performance dimensions that could not be misinterpreted. Trying to, in various ways, defining dimensions of professional behaviour, the teachers reasoned about the differences between behaviour, overall communications, the summary of history-taking, giving information about the diagnosis and treatment and the use of jargon. They teetered between two different rationales on the assessment of professional behaviour: assessing overall communication and professional behaviour or dividing the communication into separate pieces and connecting it to each part of the patient examination. They agreed that communication skills were somewhat different from professional behaviour and could perhaps be assessed separately.

평가에서 공정하고 일관성을 유지하기 위한 시도로, 교사들에 의해 기준과 학생들의 성과에 대한 여러 해석이 면밀히 검토되었다. 그러나 그들은 표준화가, 예를 들어 학생들이 특별히 골치 아픈 환자를 검사할 때처럼, 임상 작업의 현실과 완전히 양립할 수 없다고 믿었다. 
In an attempt to be fair and consistent in assessments, multiple interpretations of criteria and student performances were scrutinised by the teachers. However, they believed that standardisation was not fully compatible with the reality of clinical work, for example, when students examined patients that were considered particularly troublesome.

  • 비트라이스: 시험이 너무 오래 걸려 낙방한 학생들에게 동시에 제한시간을 초과한 친구가 있는데 어떻게 설명할 것인가? 미니 CEX에 사용하는 10%의 시간 마진을 추가해야 할까요? 
  • 조지: 안돼! 템플릿에 그렇게 심하게 조종당해서는 안돼!
  • 제니: 동의해. 우린 로봇이 아니야!
  • 존: 나도 동의해. 만약 그렇다면, 제 말은, 환자가 특별히 힘들어하는 것을 본다면, 여러분은 단지 범죄 행위를 저지르고 틀에서 벗어나야 한다는 것입니다. 

  • Beatrice: How do we explain to students who failed because the examination took too long, when, at the same time they have a friend who passed who also exceeded the time limit? Should we perhaps add the ten percent time margin that we use for the mini-CEX?
  • George: No! You cannot let yourself be steered by the template that hard!
  • Jenny: Agree. We're not robots!
  • John: I agree. If that is the case, I mean if you see that the patient is being particularly difficult, you just have to commit a criminal act and deviate from the template.

위의 대화는 교사들이 기준 템플릿을 따르고 현실을 다면적으로 인식하고 상황의 복잡성을 고려하여 전문적인 판단을 내리는 등 공정성을 이루려 노력했음을 보여준다.

The dialogue above shows how the teachers tried to achieve fairness by following the criteria template and recognised reality as multifaceted and that making professional judgements required considering the complexity of the situation.

3.6 에필로그—완벽한 평가 기준 없음
3.6 Epilogue—No perfect assessment criteria

그들의 개입이 끝날 때, 선생님들은 학생들에게 평등한 상황을 만드는 것이 얼마나 어려운지를 반성했고 완벽한 평가 기준이라는 것은 없다는 결론에 도달했다. 그들의 개입을 반성하면서, 그들은 단일 기준을 다르게 평가했음에도 불구하고, 각 학생들에 대한 전반적인 평가는 그들이 기대했던 것보다 더 동등하다고 느꼈다. 이로 인해 교사들은 평가가 완전히 조화를 이루지 못할지라도, 그들의 공동 토론은 협상 가능한 합의로 이어졌다고 결론을 내리게 되었다.

At the end of their intervention, the teachers reflected upon how hard it was to create equal situations for the students and came to the conclusion that there was no such thing as perfect assessment criteria. Reflecting on their intervention, they felt that even though they valued single criteria differently, the overall assessment of each student was more equal than they had anticipated. This made the teachers conclude that, even if assessments would never be completely harmonised, their joint discussions had led to a negotiable consensus.

4 토론
4 DISCUSSION

이 연구 결과는 어떻게 교사들이 [공통 채점 기준을 개발]할 수 있었는지를 보여주며, 이러한 변화는 그들의 [공정성과 책무성]에 대한 가치관에 의해 추진되었다. 기준은 커리큘럼에 통합되어 형성 및 종합 평가에 유용했다. 그런 방식으로, 그리고 교사들의 관점에서, 기준은 공정한 평가를 보장하고 미래의 환자들이 가능한 최고의 치료를 받을 수 있도록 했다. 그러나 [통합 역량의 평가]와 [분리된 '기술의 조각'의 평가]와 같은 여러 딜레마가 나타났다.
The findings show how the teachers' development of common grading criteria was made possible by their openness to peer scrutiny and that these changes were driven by their values of fairness and accountability. Criteria had been integrated in the curriculum, useful for formative and summative assessments. In that way, and from the teachers' perspective, criteria safeguarded fair assessments and that future patients would receive the best possible treatment. However, a number of dilemmas emerged, such as the assessment of integrated competencies versus the assessment of separate ‘pieces of skills’.

[평가 지향적 문화 정착]은 교사들이 어떻게 채점 기준의 적용을 조화시키는지에 대한 [선결조건]으로 보였다. 암묵적으로 전달된 기대에서 기준에 대한 공유된 이해로 평가 관행의 이러한 변화는 표준 공유에 대한 교사들의 접근 방식에 대한 O'Donovan 등의 모델과 비교하여 이해할 수 있다. 과거 [자유방임주의 접근법]에서와 같이 암묵적인 기준이 얼마나 우세했는지를 언급함으로써, 교사들은 명확한 기준을 적용하기 위한 그들의 선택을 정당화했다. 그 후 암묵적인 기준에 대응하여 채점 기준이 시행되었지만, 교사들은 명확한 기준이 충분하지 않다는 것을 깨달았다. 학생 개개인의 평가 기준에 대한 이해는 다를 수 있으며, 이 연구의 교사들은 [평가와 관련된 그들의 의도]를 충족시키기 위해 [모든 학생들이 동일한 방법]으로 기준을 이해할 필요가 있다는 것을 깨닫게 되었다. 따라서, 학생들의 동료 평가와 병행한 형성적 평가가 커리큘럼 전반에 걸쳐 통합되었고, 이는 [사회 구성주의적 접근법]의 제정을 가능하게 했다. 흥미롭게도, 채점 기준을 적용하는 것에 대한 대화에 학생들을 참여시키는 것은 더 많은 해명의 필요성을 만든 것으로 보인다. 학생들이 그들이 평가하는 기준에 완전히 접근할 수 있을 때, 이러한 기준에 비추어 그들의 성과에 대해 토론할 기회가 있다고 결론짓는 것은 그럴듯해 보인다. 결과적으로, 선생님들은 기준을 해석하는 방법, 받아들일 수 있는 학생 수행의 범위, 그리고 그들의 판단을 정당화하는 방법에 대해 숙고할 필요가 있을 수 있다.

The establishment of an assessment-oriented culture seemed to be prerequisite for how the teachers were committed to harmonise their application of grading criteria. This change in assessment practice, from tacitly conveyed expectations to shared understandings of criteria, can be understood vis-à-vis O'Donovan et al.'s19 model of teachers' approaches to sharing standards. By referring to how tacit standards, as in the laisse-faire approach prevailed in the past, the teachers justified their choice to apply clear criteria. Grading criteria were then implemented, in response to tacit standards, but the teachers realised that articulating criteria were not enough. Individual students' understanding of assessment standards may differ,19 and the teachers in the present study came to realise that, to fulfil their intentions concerning assessments, all students needed to make sense of the criteria in the same way. Thus, formative assessments in parallel with students' peer reviews were integrated throughout the curriculum, which enabled the enactment of a social-constructivist approach.19 Interestingly, it appears that involving students in the dialogue about applying grading criteria created a need for further clarifications. It seems plausible to conclude that, when students have full access to the standards by which they are judged, there is an opportunity to discuss their performances in light of these standards. Consequently, teachers may need to reflect on ways to interpret criteria, the range of acceptable student performances and how to justify their judgements.

우리는 예를 들어, [준거-참조 프레임워크를 통해 표현된 공유 표준]이 피드백을 중재할 수 있다는 Kogan 등의 의견에 동의한다. [명시적 기준]은 학습을 촉진할 수 있지만, 그러한 기준의 질에 대해서는 아무 말도 하지 않으며, 따라서 예를 들어, 교사의 판단이 타당하다는 것을 보장하지 않습니다.1 다른 사람들이 지적하는 바와 같이, 유효성 및 신뢰성은 시험의 내재적 특성이 아니며 단순히 평가 도구를 적용한다고 해서 달성되는 것도 아니다. 교사 커뮤니티 내의 공동 협상은 (이 연구에서 교사들에 의해 열린 토론과 유사하게) 학생 성과에 대한 기준과 판단의 이해를 조화시킬 수 있을 것이다.

We agree with Kogan et al.17 that shared standards articulated via, for example, a criterion-referenced framework can mediate feedback. While explicit criteria can facilitate learning, they say nothing about the quality of those standards and, therefore, do not safeguard that, for example, teachers' judgements are valid.1 As others point out,1 validity and reliability are not immanent traits of tests and will not be achieved simply by applying an assessment instrument. Joint negotiations within teacher communities—similar to the discussions held by the teachers in this study—will likely harmonise the understanding of both criteria and judgements of student performance.

이 연구의 교사들은 [실천 공동체 접근 방식]에서와 같이, 평가 기준을 형성할 때 학생들을 공동 참여자로 초대하지 않았다. 그러나, 그들의 노력은, [부분적]으로, 평가 문제에 대한 공유된 실천 공동체로 이해될 수 있다. 개발 과정을 통해 교사들은 서로의 아이디어와 비평에 대해 마음을 터놓았고, 이는 채점 기준, 역량/역량 및 평가의 공유된 의미에 대한 협상을 가능하게 했다. [학생과 교사가 형성적 평가를 덜 심각하게 받아들이는 문제]는 [저부담 평가와 고부담 평가를 일치]시키고, [평가 지향 문화의 일부로 지속적인 교사와 동료 피드백을 포함]하려는 [교사들의 노력]에 의해 회피avoided되는 것처럼 보였다. 그러나 이러한 변경 프로세스에는 시간이 걸렸고 평가 이유의 변경도 포함되었습니다.

The teachers in this study did not invite their students to be co-participants in formulating assessment criteria, as in the community of practice approach.1926 However, their efforts can be understood, in part, as a shared community of practice around assessment matters. Through a development process, the teachers opened themselves up to each other's ideas and critiques, which enabled negotiations about a shared meaning of the grading criteria, competencies/competency and assessment. The problem of formative assessments being taken less seriously by students and teachers24 seemed to be avoided by the teachers' efforts to align low and high stake assessments and to embed continuous teacher and peer feedback as part of an assessment-oriented culture. However, this change process took time and included shifts in assessment rationales.

교사의 야망ambition은 [평가자 간 신뢰성과 표준화, 환자 조우에서 발생하는 상황적 요인 인정]과 같은 [평가의 딜레마]가 어떻게 드러났는지를 보여준다. [기준에 충실해야 한다]는 생각은 [가끔은 템플릿에서 벗어나야 한다]는 개념과 충돌했고, 그들은 채점 전에 특히 복잡한 환자 사례를 고려해야 한다는 데 동의했다. 비슷한 방식으로, Kogan 등은 교수진이 성과 등급을 만들 때 임상적 만남의 복잡성에 영향을 받는다고 보고하며, 이러한 등급 오류를 수정하기 위해 교수진이 평가 훈련을 받을 필요가 있다고 주장한다. 우리는 교수개발이 유익하다는 것에는 동의하지만, 주어진 맥락에서 무엇이 타당한지를 결정하는 과제는 여전히 남아 있다. 게다가, 그리고 이 연구에 의해 보여지는 것은, 평가 관행이 바뀌고 교사들이 그들의 '새로운 지식'을 실천으로 옮기면서, 그들은 새로운 딜레마에 직면할 수도 있다. 현재의 연구결과는, 교수개발은 [평가자들이 기준을 어떻게 이해하는지]를 다루고, [학생들의 성적 범위에 대한 공동 토론에 임상 교사를 참여시킬 필요]가 있다는 것을 암시한다. 이것이 교사의 평정을 조화시키는 것으로 보인다.

The teachers' ambitions show how dilemmas in assessment manifested, such as inter-rater reliability and standardisation, and acknowledging contextual factors arising in patient encounter. The idea of being steadfast to the criteria collided with the notion of sometimes having to deviate from the template, and they agreed that particularly complex patient cases should be taken into account before grading. In a similar way, Kogan et al.17 report that faculty members' are influenced by the complexity of clinical encounters when making performance ratings, arguing that faculty needs to be trained in assessment to modify such rating errors.17 While we agree that faculty development is beneficial, the challenge to decide what counts as valid in a given context still remains.25, 37 Moreover, and shown by this study, as assessment practices change, and teachers translate their ‘new knowledge’ into practice, they may face new dilemmas. The current findings imply that faculty development needs to address how assessors make sense of criteria and to involve clinical teachers in joint discussions on the range of acceptable student performances, which seem to harmonise teachers' ratings.

평등하고 편파적이지 않은 평가를 달성하기 위해, 이 연구의 교사들은 [학생 수행능력의 서로 다른 조각]들을 [평가 기준에 별도로 명시해야 하는지] 궁금해했다. 결과적으로, 그들은 예를 들어, [전문적 행동]을 2진법으로 판단할 수 있는 하위 범주로 분할함으로써 [전체론적 기준(역량)을 조작화]하려고 했다. 따라서, 비록 그들이 학생들의 기준에 대한 이해에 [사회 구성주의적 접근법]을 채택했지만, 교사들은 채점 기준을 개발하기 위해 다른 근거를 집행enact했다. 그러나 [심리측정학적 합리성]에 기초한 [이진 체크리스트]의 사용에만 의존하는 임상 역량의 [신뢰할 수 있는 측정]을 구성하는 어려움에 대한 의문도 있었다. [준거-참조 평가]와 관련된 비평은 교사들이 [전문적 실천에 유용한 통합적 역량]보다 [수행의 조각]을 판단할 위험이 있다고 주장한다.8 이 연구의 교사들은 [전문직업성의 글로벌 평가]는 [주관적]이며, [환자를 보호]하며, [학생에게 공평하게 하려는 그들의 의도]와 양립할 수 없다고 보았다. 

In order to achieve equal and unbiased assessments, the teachers in this study wondered whether separate pieces of student performance should be stated in the grading criteria. Consequently, they tried to operationalise holistic criteria (competency) by, for example, splitting professional behaviour into subcategories that could be judged binarily. Thus, although they adopted a social-constructivist approach to students' understanding of standards,19 the teachers enacted a different rationale to develop the grading criteria. The challenges of constructing reliable measurements of clinical competency have been acknowledged,38 though, relying solely on the use of binary checklists based on psychometric rationales has also been questioned.12, 39 The critique related to criterion-referenced assessments claims teachers risk judging pieces of performance rather than integrated competencies useful for professional practice.8 Global ratings of professionalism were seen by the teachers in this study as being subjective and incompatible with their intentions of protecting patients and being fair to students.

우리의 해석은 교사들이 [자유방임주의 접근법]과 유사하게, [정보가 없거나 암묵적인 측면에 기초한 평가를 멀리했다]는 것이다. [전체론적 판단]은 [편향되거나 잘못된 판단을 내리는 것]과 혼동될 필요가 없으며, [객관성]은 [완전한 표준화를 통해 얻은 신뢰성]과 동일하지 않다. 이 연구의 교사들이 제기한 문제는 세부 사항에서 '무언가를 잃어버렸느냐'는 것이었다. 교사가 채점을 하기 전에 학생들의 성취도를 종합할 필요가 있다는 것이 이미 정립되었다; '우리가 전체를 볼 때, 우리는 그 부분들을 고립된 채로 볼 때와는 다르게 본다'. [전문적인 보건의료 행위의 특정 성과]는 환자 안전 때문에 협상할 수 없는 것이 필요하지만, 예를 들어, 별도의 차원에서 이원적 판단이 이루어진다면 전문적인 행동의 기준은 덜 타당할 수 있다. 이 연구에서 교사들의 추론은 매우 다른 유형의 성과에 대한 기준을 공식화할 때 같은 논리를 사용하는 것이 얼마나 매력적인지를 보여주었다. 결과적으로, 통합 역량에 대한 평가가 부족할 수 있다. 이는 교사들이 [임상 역량의 표준과 등급]에서 [어떻게 서로 다른 rationale의 동시 사용을 인정할 것인지], 따라서 [이진법과 전체론적 판단의 결합을 어떻게 인정해야 하는지]를 성찰해야 함을 의미한다.

Our interpretation is that the teachers abstained from assessments that were uninformed or based on tacit aspects, similar to the laissez-faire approach.19 Holistic judgements need not be confused with making biased or invalid judgements,22 and objectivity is not equal to reliability obtained through complete standardisation.1, 39 The question the teachers in this study raised was whether ‘something was lost’ in the details. It has previously been established that teachers need to synthesize student achievements before grading; ‘When we see the whole, we see its parts differently than when we see them in isolation’4(p227). While certain performances in professional health practices need to be non-negotiable due to patient safety, criteria of professional behaviour, for example, may be less valid if binary judgements are made on separate dimensions. The teachers' reasoning in this study made visible how tempting it may be to use the same rationale when formulating criteria for performances of very different types. Consequently, the assessment of integrated competencies may be lacking. This implies that teachers should reflect on how standards and ratings of clinical competency need to acknowledge the simultaneous use of different rationales, thus a combination of binary and holistic judgements.

교육 변화와 교사의 평가 실천 발전은 종종 느리고 저항적인 것으로 여겨진다. 이 연구는 어떻게 교사들의 [채점 기준을 개발하려는 동기]가 어떤 식으로 [학생들과 함께 일하는 그들 자신의 실천]과 [환자에 대한 그들의 관심]으로부터 도출되었는지를 보여준다. 그러므로, 사회와 학생들을 위해 선행을 하려는 그들의 의지는 대학으로부터의 압력이나 투명성을 강조하는 정부 개혁과는 거의 관계가 없는 공유된 평가 관행을 만드는 동기였다.
Educational change and teachers' development of assessment practice are often regarded as slow and resistant.18, 21 This study shows how teachers' motivation to develop grading criteria was derived from their own practice working with students and their concern for patients. Thus, their willingness to do good for society and for the students was the incentive for creating a shared assessment practice, which had little to do with pressure from the university or governmental reform stressing transparency.

5 결론
5 CONCLUSION

이 연구는 공유된 평가 기준이 개발되고 실행될 때 교사의 평가 관행이 어떻게 바뀔 수 있는지에 대한 풍부한 설명에 기여한다. 이 논문에서 설명된 변화 프로세스는 [선형 모델]도, [이상적인 개발 프로세스]도 규정하지 않지만, 이 연구에서 많은 시사점을 도출할 수 있다. 이 연구결과는 교사들이 [준거와 수용 가능한 학생들의 성적 범위]에 대한 [공동 토론]을 통해 [그들의 판단에 대한 근거를 정기적으로 재평가할 필요]가 있다는 것을 암시한다. 이러한 논의는 기준 적용에 대한 이해를 조화시킬 뿐만 아니라 교원 공동체 내에서 평가와 역량에 대한 변화하는 이유를 풀어내는 것으로 보인다. 이 연구는 [동료 학습]과 [사회 구성주의 접근 방식]의 적응은 시간이 걸리고, 평가에서 [새로운 선택과 딜레마]를 만들 수 있음을 보여준다. 일부 연구자들은 [수행능력 테스트]에서 엄격함을 증가시켜야 한다고 주장하는 반면, 다른 연구자들은 [전체론적이고 건설적이며 전문적인 접근 방식]을 요구하거나, [더 긴 기간에 걸쳐 평가의 삼각 측량]을 제안합니다. 어떤 평가를 적용하든 [교사의 전문적인 판단을 담당하는 대화]가 필요하다. 이번 연구는 [평가에 대한 교사들의 시각]이 고정된 것이 아니며, 평가 기준과 그들의 판단이 [어떻게 서로 다른 rationale의 동시 사용을 인정해야 하는지] 반성해야 한다는 것을 보여준다. 따라서 [다양한 요구가 있는 환자를 포함하는 개별 학생의 수행능력]을 어떻게 다르게 판단해야 하는지 참조하면서, [이진적 판단 및 전체론적 판단]을 조합하여 적용할 필요가 있다. 우리는 개별 교사들의 견해를 넘어선 평가 관행과 교사들이 어떻게 다른 방법과 기준을 적용하는지에 대한 더 많은 연구를 환영한다.

This study contributes a rich description of how teachers' assessment practices may change when shared assessment criteria are developed and implemented. The change process illustrated in this paper neither stipulates neither a linear model nor an ideal development process, yet a number of implications may be drawn from this study. The findings imply that teachers need to regularly re-evaluate grounds for their judgements through joint discussions of criteria and the range of acceptable student performances. Such discussions seem to not only harmonise the understanding of criteria application but also unravel the shifting rationales on assessment and competency within teacher communities. This study demonstrates the adaptation of peer learning and social-constructivist approaches may take time and create new choices and dilemmas in assessment. Whereas some researchers argue for increased rigour in performance tests, others call for holistic, constructivist and professional approaches or suggest triangulation of assessments over longer periods of time. Regardless of what kind of assessments is applied, conversations that take charge of teachers' professional judgements are necessary. This study shows that teachers' views on assessment are not fixed, and they should reflect on how assessment standards and their judgements must acknowledge the simultaneous use of different rationales. Therefore, with reference to how individual student performances involving patients with various needs should to be judged differently, a combination of binary and holistic judgements needs to be applied. We welcome more research on assessment practices beyond individual teachers' views and on how teachers make sense of applying different methods and standards.

 


Med Educ. 2022 Jun;56(6):651-659.

 doi: 10.1111/medu.14789. Epub 2022 Mar 14.

 

Safeguarding fairness in assessments-How teachers develop joint practices

Affiliations collapse

Affiliations

1Department of Learning in Engineering Sciences, KTH Royal Institute of Technology, Stockholm, Sweden.

2Department of Education, Stockholm University, Stockholm, Sweden.

3Department of Neurobiology, Care Sciences and Society, Karolinska Institutet, Stockholm, Sweden.

4Department of Learning, Informatics, Management and Ethics, Karolinska Institutet, Stockholm, Sweden.

PMID: 35263464

DOI: 10.1111/medu.14789

Abstract

Introduction: In light of reforms demanding increased transparency of student performance assessments, this study offers an in-depth perspective of how teachers develop their assessment practice. Much is known about factors that influence assessments, and different solutions claim to improve the validity and reliability of assessments of students' clinical competency. However, little is known about how teachers go about improving their assessment practices. This study aims to contribute empirical findings about how teachers' assessment practice may change when shared criteria for assessing students' clinical competency are developed and implemented.

Methods: Using a narrative-in-action research approach grounded in narrative theory about human sense-making, one group including nine health professions teachers was studied over a period of 1 year. Drawing upon data from observations, interviews, formal documents and written reflections from these teachers, we performed a narrative analysis to reveal how these teachers made sense of experiences associated with the development and implementation of joint grading criteria for assessing students' clinical performances.

Results: The findings present a narrative showing how a shared assessment practice took years to develop and was based on the teachers changed approach to scrutiny. The teachers became highly motivated to use grading criteria to ensure fairness in assessments, but more importantly, to fulfil their moral obligation towards patients. The narrative also demonstrates how these teachers reasoned about dilemmas that arose when they applied standardised assessment criteria.

Discussion: The narrative analysis shows clearly how teachers' development and application of assessment standards are embedded in local practices. Our findings highlight the importance of teachers' joint discussions on how to interpret criteria applied in formative and summative assessments of students' performances. In particular, teachers' different approaches to assessing 'pieces of skills' versus making holistic judgements on students' performances, regardless of whether the grading criteria are clear and well-articulated on paper, should be acknowledged. Understanding the journey that these teachers made gives new perspectives as to how faculty can be supported when assessments of professionalism and clinical competency are developed.

+ Recent posts