HPE 평가의 사회적 명령으로서 타당도: 개념 분석(Med Educ, 2018)

Validity as a social imperative for assessment in health professions education: a concept analysis

Melanie Marceau,1 Frances Gallagher,1 Meredith Young2 & Christina St-Onge3




도입 INTRODUCTION


보건 전문직 교육(HPE) 내에서 평가의 역할을 재고하고 재편성해야 한다는 주장이 여러 차례 제기돼 왔다. 평가 요청의 현재 추세는 다음을 요구한다.

  • 전통적인 학습의 평가에서 벗어나 학습을 위한 평가를 향한 변화, 

  • 대안적이고 진정한authentic 평가 전략의 지원 및 사용

  • 성과에 대한 목적적합하고 적절한 표본 추출에 대한 증가하는 요구에 부합

모두 프로그램적 평가를 위한 접근방식이다.2

There have been several calls to reconsider and reshape the role of assessment within health professions education (HPE). Current trends in assessment call for 

  • a shift towards assessment for learning away from the traditional assessment of learning,1 

  • urge increased support for and use of alternative and authentic assessment strategies, and 

  • echo a growing call for purposeful and appropriate sampling of performance, 

all of which are approaches that translate to programmatic assessment.2 


평가에 있어 가장 중요한 고려사항은 시행 중인 평가 전략이 최고 품질이어야 한다는 것이다. 평가의 품질은 전통적으로 그 타당성과 연관되어 왔으며, 이는 [평가 점수의 타당한 해석을 뒷받침할 증거를 축적하는 것을 목표]로 하는 엄격한 검증 과정을 통해 문서화된다.3–5

One consideration that remains paramount to assessment is that the assessment strategies put in place need to be of the highest quality. The quality of assessment has traditionally been associated with its validity, which is documented through rigorous validation processes that aim to accumulate evidence to support a valid interpretation of assessment scores.3–5


[Authentic 및 프로그램적 평가와 같은] 평가의 현재 추세에 대하여, [타당화에 대한 전통적인 접근법]에 대해서도 의문이 점점 커지고 있다.6–9 예를 들어, 문헌에는 평가자 분산rater variance이 전문가 판단을 반영할 수 있으므로 측정 오류로만 간주해서는 안 된다는 논의가 있다. 이러한 논의는 모든 평가자 분산을 측정 오류로 보고 전통적인 측정 모델을 적용하는 것은 적절하지 않음을 시사한다.10 또한, (authentic 또는 프로그램적 평가처럼) 복잡한 평가를 위한 타당화 프로세스에서 통계적 및 심리학적 근거에만 의존하는 것에 약간의 불편함이 있는 것으로 보인다. 이유는, 이 증거가 부적절해서가 아니라 평가의 품질에 대한 평가로서 불완전하기 때문이다.

The use of traditional approaches to validation for current trends in assessment, such as authentic and programmatic assessment, is increasingly questioned.6–9 For instance, there are discussions in the literature suggesting that rater variance may reflect expert judgement and therefore should not be considered solely as measurement error. These discussions suggest traditional measurement models cannot be applied as they consider all rater variance to be measurement error.10 Additionally, there appears to be some discomfort about relying solely on statistical and psychometric evidence in a validation process for complex assessment such as authentic or programmatic assessment, not because this evidence is inappropriate, but because it may give an incomplete evaluation of the quality of the assessments (e.g. Schuwirth and van der Vleuten,11 and Hodges12).


기존 심리측정학 모델을 복잡한 평가에 적용할 수 있는지에 대한 논쟁 외에도 HPE 커뮤니티에서는 타당성 자체에 대한 합의가 거의 없는 것으로 보인다. St-Onge 외 연구진들은 HPE 문헌에서 타당성이 어떻게 사용되는지를 조사하기 위해 담화 분석 방법론에 의존했다. 저자들은 HPE 문헌에서 타당성에 대한 세 가지 다른 개념을 식별하고 기술하였다. 

(i) 시험 특성으로서의 타당성 (고전 유효성 'trinity'[내용, 기준 및 구성]에 대한 유효성); 

(ii) 주장 기반 증거사슬로서의 타당성(메식스 13 및 케인의 14 프레임워크에서 선호하는 논쟁 기반 접근법과 유사) 

(iii) 사회적 의무로서의 타당성.9 


In addition to the debates about the applicability of traditional psychometric models to complex assessment, there seems to be little agreement in the HPE community regarding validity itself. St- Onge et al.9 relied on discourse analysis methodology to investigate how validity is used in the HPE literature. The authors identified and described three different conceptualisations of validity within the HPE literature: 

  • (i) validity as a test characteristic (similar to the classic validity ‘trinity’ [content, criteria and construct]); 

  • (ii) validity as an argument-based evidentiary chain (similar to the argument-based approaches favoured in Messick’s13 and Kane’s14 frameworks), and 

  • (iii) validity as a social imperative.9 

다른 개념론과 대조적으로, 사회적 의무로서의 타당성은 HPE 문헌에서 새롭게 대두되는 담론이며 [평가와 검증에 대한 보다 전체적인holistic 비전]을 반영하며, 특히 평가의 [더 넓은 개인(학습자)과 사회적 결과에 대해 고려할 것]을 강조한다. 예를 들어, '사회적 결과societal consequences'에 대한 고려는 보건 전문가 인증으로 이어지는 높은 수준의 평가 품질을 보장할 필요성을 포함했다.

By contrast with the other conceptualisations, validity as a social imperative is an emerging discourse in the HPE literature and reflects a more holistic vision of assessment and validation, specifically highlighting considerations for broader individual (learner) and societal consequences of assessment. For example, within the discourse analysis, consideration for ‘societal consequences’ included the necessity of assuring the quality of high-stakes assessments leading to the certification of health professionals.


사회적 의무로서의 타당성의 새로운 개념은 문학 전반에 걸쳐 제시되었고, 프로그램적 평가에 관한 논의를 반영하고 사회 내 [다른 이해관계자(예: 학습자, 평가자, 교육 프로그램, 더 넓은 대중)]에 대한 [평가의 잠재적 결과]에 대한 고려를 증가시켰다. 이 담론은 St-Onge 외 연구진에서 가장 덜 구체화되거나 조작화된 것으로, 아마도 그것의 창발적 성격 때문일 것이다.

The emerging concept of validity as a social imperative was represented across a body of literature and reflected discussions around programmatic assessment and increased consideration of the potential consequences of assessment for different stakeholders in society (e.g. learners, assessors, educational programmes, the broader public). This discourse is the least concretised or operationalised in St-Onge et al.’s work,9 probably because of its emergent nature.


방법 METHODS


개념분석(concept analysis)은 지식의 개발에 사용되는 방법론이다.15,16 체계적이고 엄격한 과정을 통해 개념을 구체화하고 다듬어 실전에 보다 효율적으로 사용할 수 있도록 할 수 있다.16 로저스에 의해 개발된 방법은 귀납적이며 데이터 분석에 대한 질적 접근법에 의존한다.16,17 로저는 그녀의 방법을 [나선형]이라고 묘사하였으며, 이는 반복적인 과정을 통해 개념의 끊임없는 진화를 보여주는 것이다. 이 끊임없는 진화는 우리의 목적과 잘 맞아떨어졌다.18,19

Concept analysis is a methodology used in the development of knowledge.15,16 Through a structured and rigorous process, this methodology can be used to clarify and refine a concept so that it can be used more efficiently in practice.16 The method developed by Rodgers is inductive and relies on qualitative approaches to data analysis.16,17 Rodgers illustrates her method as a spiral to show the constant evolution of a concept through an iterative process,16,17 and this constant evolution resonated well with our purpose.18,19


로저스는 진화 개념 분석을 완료하는 데 있어 6단계를 설명하고 있으며, 이는 비선형적 방식으로 수행될 수 있다.16 표 1은 이러한 단계와 보다 전통적인 연구 용어와의 정렬을 간략히 설명한다. 1~4단계는 방법 섹션과 가장 직접적으로 일치하지만, 6단계는 이 문서의 결론에 설명되어 있다. 5단계는 개념 진화evolving concept에 항상 포함되어 있는 것은 아니며, 우리 작업의 진행 상황을 고려할 때, 우리는 그것을 향후 작업의 길잡이로 포함하기를 선호해왔다.

Rodgers describes six steps in completing an evolutionary concept analysis, which can be performed in a non-linear fashion.16 Table 1 briefly describes these steps and their alignment with more traditional research terminology. Whereas Steps 1–4 align most directly with the methods section, Step 6 is described in the conclusion of this article. Step 5 is not always included for evolving concepts and, given the state of progress of our work, we have preferred to include it as an avenue for future work.



1단계. 관심의 개념 및 관련 표현 식별

Step 1. Identify the concept of interest and associated expressions


정의해야 할 개념에 라벨을 붙이는 데 사용되는 용어(단어나 단어 그룹)를 적절하게 선택하는 것이 필수적이다.16 처음에, [사회적 명령]으로서의 타당성의 새로운 개념은 HPE 문헌으로부터 개발되었다. 이 개념 분석의 실행에서, 우리는 맥락을 구체화하는 것이 중요하다는 것을 알게 되었다. 따라서, 이 연구의 핵심인 개념은 HPE의 평가에 대한 사회적 의무로서 타당성이 있다.

It is essential to appropriately select the terminology (word or group of words) used to label the concept that is to be defined.16 Initially, the emerging concept of validity as a social imperative9 was developed from the HPE literature. In the execution of this concept analysis, we found it important to specify the context; therefore, the concept that is the core of this study is validity as a social imperative for assessment in HPE.


2단계. 데이터 수집에 적합한 영역 식별 및 선택

Step 2. Identify and select an appropriate realm for data collection


St-Onge et al.,9에 의해 사용된 원래 용어로부터 그리고 학술 사서의 도움을 받아, (ii) 타당도, (iii) 사회적 의무, (iii) 평가, (iv) 보건 전문가(예: 의학, 간호 또는 물리치료 전문가)의 각 개념을 포함하는 논문를 대상으로 검색 전략을 개발했다.

Drawing from the original terms used by St-Onge et al.,9 and with the assistance of an academic librarian, a search strategy was developed to target articles that included each of the following concepts: (i) validity; (ii) social imperative; (iii) assessment, and (iv) health professional (e.g. medicine, nursing or physical therapy professional).


그림 1은 문서 선택 절차를 보여준다.

Figure 1 illustrates the document selection procedure.



3단계. 개념의 속성, 선행 조건 및 결과 식별과 관련된 데이터 수집

Step 3. Collect data relevant to identifying attributes, antecedents and consequents of the concept


3단계와 4단계를 별도로 제시하지만, 개념 분석 중에 데이터 수집과 관리는 반복적인 프로세스로 수행된다는 점에 유의해야 한다.16 데이터 수집과 분석은 개념을 명확히 하기 위해 팀원들 간에 몇 차례의 반복적인 토론이 필요했다.

We present Steps 3 and 4 separately; however, it is important to note that during concept analysis, data collection and management are performed as an iterative process.16 Data collection and analysis required several iterative rounds of discussion among team members to clarify the concept.


포함된 문서의 어떤 구성요소도 데이터의 출처로 간주될 수 있다: 초록, 도입, 방법, 결과, 토론 및 결론은 모두 사회적 의무로서 타당성 개념의 개선과 관련된 데이터를 생성할 수 있다.

Any component of an included document could be considered as a source of data: the abstract, introduction, methods, results, discussion and conclusion could all generate data relevant for the refinement of the concept of validity as a social imperative.


속성, 선행 조건 및 결과의 식별은 로저스가 설명한 개념 분석의 핵심 특징이다.17 이러한 중점 영역은 분석 전에 데이터를 수집, 정리 및 관리하는 데 도움을 주었다. 구체적으로는, 

    • 선행조건antecedents은 HPE에서 평가를 위한 사회적 의무로서 타당성의 개념보다 앞서는 것이다. 

    • 속성attributes은 개념을 정의하는 특성 또는 [HPE에서 평가에 대한 사회적 의무로서 타당성]을 다른 것과 구별짓거나 특징짓는 특성이다. 

    • 결과consequents는 개념의 직접적인 결과로 일어나는 것이다.16

The identification of attributes, antecedents and consequents is a key feature of a concept analysis, as described by Rodgers.17 These main areas of focus helped us to collect, organise and manage the data before the analysis. More concretely, 

    • antecedents are what precedes the concept16 of validity as a social imperative for assessment in HPE. 

    • Attributes are the characteristics that define the concept16 or what distinguishes or characterises validity as a social imperative for assessment in HPE. 

    • The consequents of a concept are what happens as a direct result of the concept.16


4단계. 개념의 속성, 선행 조건 및 결과에 대한 데이터 분석

Step 4. Analyse data for the attributes, antecedents and consequents of the concept


개념 분석이 중요한 방법론적 프레임이었지만, 텍스트에서 수집된 데이터를 해석하기 위해 어떤 정성적 분석 접근법을 사용해야 하는지에 대해서는 규범적이지 않다. 여기서, 우리는 마일스 등이 기술한 정성적 분석 프로세스를 사용하기로 결정했는데, 이는 개념 분석의 구조를 감안할 때 로저스가 제안한 선행 코드, 속성 및 결과물을 포함하는 미리 정해진 코드 내에서 창발적 코드(귀납적 프로세스)를 식별할 수 있기 때문이다. 좀 더 구체적으로 말하면, 이 과정은 반복적으로 그리고 부수적으로concomitantly 진행되는 수행된 세 가지 동시적 분석 사이클로 구성되어있다 - [데이터 응축, 데이터 표시, 그리고 결론 도출 및 검증]

Although concept analysis was the overarching methodological frame, it is not prescriptive regarding which qualitative analysis approach should be used to interpret data gathered from texts. Here, we decided to use the qualitative analysis process described by Miles et al.20 because it allows for the identification of emerging codes (inductive process) within predetermined codes, which, given the structure of a concept analysis, includes antecedents, attributes and consequents as suggested by Rodgers.15,16 More specifically, this process consists of three concurrent analysis cycles performed iteratively and concomitantly: data condensation; data display, and drawing and verifying conclusions.


    • 데이터 응축은 미리 결정되어있거나(예: 선행 조건, 속성 및 결과), 새롭게 부상한 코드(예: 유효성의 결과에 대한 논란 또는 점수 해석에 따른 결과에 대한 우려)를 사용한 데이터 분석이다.

Data condensation consists of data analysis using predetermined (i.e. antecedents, attributes and consequents) and emerging codes20 (e.g. controversy about consequences of validity or concern about consequences resulting from the interpretation of scores).


    • 데이터 디스플레이는 데이터 시각화를 통해 우리의 결과를 더 잘 이해하고 나타낼 수 있게 했다.20 스키마를 이용하여, 연구팀은 코드의 시각적 표현을 얻었다.

Data display allowed us to better understand and represent our results through data visualisation.20 Using a schema, the research team obtained a visual representation of the codes.


모든 요소에 대한 이러한 개요는 문서의 발췌본이 속성인지 선행인지 결과인지를 판단하는 데 도움이 되었다.

This overview of all elements helped us to determine whether an excerpt of a document was an attribute, an antecedent or a consequent.


    • 결론을 도출하고 검증하는 것은 데이터 응축과 데이터 표시에서 나타나는 결론의 개발과 검증과 관련이 있다.20 분석은 반복적인 과정이었기 때문에, 연구팀은 데이터와 코드 사이의 일치를 개선하기 위해 문서를 여러 번 다시 읽었다.

Drawing and verifying conclusions relates to the development and verification of conclusions that emerge from data condensation and data display.20 Because analysis was an iterative process, the team re-read the documents several times to improve the match between data and codes.


결과 

RESULTS


총 67건의 문서가 선정되어 분석되었다.

A total of 67 documents were selected and analysed.


(Table 2).


(Table 3).





HPE의 평가에 대한 사회적 의무로서 타당성 개념의 확인된 선행 조건, 속성 및 결과의 개요는 그림 2에서 확인할 수 있다.

An overview of the identified antecedents, attributes and consequents of the concept of validity as a social imperative for assessment in HPE can be found in Figure 2.



선행자

Antecedents


사회적 기대에서 비롯되는 HPE의 변화

Changes to HPE that stem from societal expectations


전문기관과 고등교육기관이 [의료전문가의 역량취득을 측정하고 감시하는 방법에 대한 정보]에 대한 사회의 욕구가 증가하고 있다.21 예를 들어, 역량기반교육(CBE)의 핵심 원칙 중 하나는 전문직 종사자가 성취하도록 보장함으로써 환자를 보호하는 것이다. 일정 수준의 역량22–24이며 임상 환경의 현실에 더 잘 대비된다.25–27 전문 기관과 고등 교육 기관은 대상 역량에 걸쳐 학습자의 능력을 가능한 한 정확하게 측정하기 위해 평가 프로그램을 신중하게 계획하고 설계해야 한다.

There has been increasing desire on the part of society for information on how professional bodies and higher education institutions measure and monitor the acquisition of competencies by health care professionals.21 For example, one of the core tenets of competency-based education (CBE) is to protect patients by ensuring that professionals achieve a certain level of competency22–24 and are better prepared for the realities of the clinical setting.25–27 Professional bodies and higher education institutions must ensure that their assessment programmes are carefully planned and designed in order to measure the abilities of learners across targeted competencies as accurately as possible.


역량 있는 실무에 대한 기대치를 반영하고 부합하는 평가에 집중

Focus on assessment that reflects and aligns with expectations of competent practice


학습을 촉진하고 대중을 보호하기 위해서는 평가 관행을 조정할 필요가 있다.23 문헌은 전통적인 학습의 평가에서 학습을 위한 평가로 이동함을 나타낸다.1 우리는 또한 대안적이고 진정한alternative and authentic 평가 전략의 사용에 초점을 맞추었다. 이러한 평가는 [현실주의, 작업 상황의 시뮬레이션 또는 작업 상황 자체의 동원]으로 특징지어지며, [판단, 복잡한 작업, 피드백]에 초점을 맞추고 있다.28-30 '프로그램적 평가'라는 용어가 점점 더 많이 사용되고 있다.

To facilitate learning and protect the public, it is necessary to adjust assessment practice.23 The literature indicates a shift towards assessment for learning from the traditional assessment of learning.1 We also found a focus on the use of alternative and authentic assessment strategies, characterised notably by realism, simulations of the work context, or mobilisation of the work context itself, and a focus on judgement, complex tasks and feedback.28–30 There is a growing use of the term ‘programmatic assessment’,2


타당성에 대한 적절한 증거를 제공하는 것이 어려움

Difficulty in providing appropriate evidence of validity


비록 심리측정학 접근법이 여전히 중요하고 HPE에 관련되지만, 기존의 타당화 전략은 보다 현대적인 평가 관행에 이를 적용할 때 한계가 있다.11,33 현재 우리가 이용할 수 있는 측정 및 통계 분석 모델은 [개별 역량 평가 도구]의 품질을 문서화하는 데 적합하지만, [평가 프로그램]을 검증하는 데 수반되는 복잡성으로는 쉽게 확장되지 않는다. 현재 우리의 정신측정학 모델은 도구에 의해 생성된 점수의 검증에 잘 배치되어 있지만, [서술적 피드백]이나 HPE에서 점점 더 늘어나는 [질적 평가 데이터]에 적합한 접근법은 별로 가지고 있지 않다. 게다가, 실제로 [전체 평가 프로그램] 또는 [학습자의 전반적인 역량]의 타당화를 잘 처리할 수 있는 정신측정학 접근법은 거의 없다.

Although psychometric approaches are still valuable and relevant in HPE, traditional validation strategies have limits when it comes to applying them to more modern assessment practices.11,33 The measurement and statistical analysis models currently available to us are appropriate for documenting the quality of individual competence assessment tools, but are not easily extended to the complexities of validating a programme of assessment. Whereas our current psychometric models are well situated for the validation of scores generated by tools, we have few approaches that are appropriate for narrative feedback, or the more qualitative assessment data that are increasingly present in HPE.34 In addition, few psychometric approaches are, indeed, amenable to the validation of entire assessment programmes or the learner’s overall set of competencies.21


[사회적 필수요건]으로 타당성 측면에서의 [선행자]들은 [의료전문가의 훈련과 평가에 대한 지속적인 주요 변경사항], 특히 [교육과 평가에 대한 CBE 접근방식의 채택]과 align 되어있는 것으로 보인다.

The antecedents identified for validity as a social imperative seem to align with ongoing major changes to the training and assessment of health care professionals, most notably the adoption of CBE approaches to training and assessment.


특성 

Attributes


평가 품질을 문서화하기 위해 사회가 신뢰할 수 있다고 간주하는 증거의 사용 시연

Demonstration of the use of evidence considered credible by society to document the quality of assessments


결과에 대한 해석은 [관리자의 결정(예: 성공 대 실패)]으로 이어질 가능성이 높다. HPE의 맥락에서, 평가 결과의 잘못된 측정 또는 잘못된 해석은 환자 안전에 큰 영향을 미칠 수 있다: 필요한 기술이나 역량이 없는 연습에 적합하다고 판단되는 학습자는 부적절한 환자 진료를 제공할 수도 있다.23,35

Interpretation of the results is likely to lead to a decision by the administrators (e.g. success versus failure). In the context of HPE, poor measurement or misinterpretation of assessment results can have a significant impact on patient safety: a learner who is deemed suitable for practice without the requisite skills or competencies may deliver suboptimal patient care.23,35


학습자의 success or failure는 [설득력 있는 평가 자료에 근거]해야, 준비되지 않은 연습생이 사회에 미칠 잠재적 부정적 영향을 줄일 수 있다.

A learner’s success or failure must be based on persuasive assessment data to decrease the potential negative impacts of an ill-prepared trainee on society.


즉, 고부담 평가(라이센스 검사 등)는 [환자에게 안전한 진료를 제공하기 위해 필요한 역량을 아직 숙달하지 못한 연습생]에게 진료할 수 있는 권한을 부여할 수 있다. 그러한 결과로, 학습자의 능력에 대한 판단을 담당하는 전문 기관과 고등 교육 기관은 [충분하고 신뢰할 수 있는 증거]를 가지고 [학습자의 역량 수준을 문서화]해야 한다.

In other words, high-stakes assessments (such as licensure examinations) may grant the right of practice to trainees who have not yet mastered the competencies required to provide safe care to patients. With such consequences, the professional bodies and higher education institutions responsible for making judgements about a learner’s abilities must document the learner’s level of competence with sufficient and credible evidence.37–40


점점 더 많은 전문 기관professional bodies들이 학습자 역량 평가에 대한 책임을 고등 교육 기관과 전문 훈련 프로그램에 이전하고 있다.26 따라서, [타당화 프로세스를 수립하고 평가 품질을 뒷받침하는 증거를 문서화하는 것]은 (프로그램 인증을 포함하여) 고등 교육 기관이 가지는 책임의 주요 측면이다. 평가가 종종 사회를 보호하기 위한 보호자로서 사용된다는 점을 고려할 때, 우리는 [평가 점수에 대한 해석의 타당성을 문서화하는 증거]를 사회가 이용할 수 있도록 해야 하며, [이용자들에게 신뢰성이 주어야 한다]고 주장한다. 이는 평가 과정에 대한 외부 관점을 필요로 한다.

Increasingly, professional bodies are transferring responsibility for assessing learner competency to higher education institutions and professional training programmes.26 Therefore, establishing validation processes and documenting evidence supporting the quality of assessment is a major aspect of responsibility for higher education institutions, including for programme accreditation. Given that the assessment is often used as a guard with which to protect society, we posit that the evidence to document the valid interpretation of assessment scores should be made available to society and credible to its users; this takes an external view of the assessment process.


고등 교육 기관과 전문 훈련 프로그램은 그들이 유능한 실무자임을 입증한 훈련생들만 졸업하거나 인증할 책임이 있으며, 그러한 결정을 뒷받침할 증거를 제공할 수 있어야 한다.

Higher education institutions and professional training programmes have a responsibility to society to ensure that they graduate or certify only those trainees who have demonstrated they are competent practitioners, and must be able to provide evidence to support those decisions.


평가 프로세스 및 점수 해석을 통해 포함된 검증

Validation embedded through the assessment process and score interpretation


검증은 지속적인 역동적 과정이다.41 개발 및 모니터링을 포함하는 평가에 참여하는 사람들은 평가 및 평가 프로그램의 개발, 평가 전략의 관리 및 결과의 해석 과정에서 평가의 품질(타당성)에 대한 지속적인 경계심vigilance을 보여야 한다.39

Validation is a continuous dynamic process.41 Those involved in assessment, which includes development and monitoring, must show constant vigilance for the quality (validity) of their assessments during the development of the assessment and assessment programme, the administration of assessment strategies, and the interpretation of results.39


평가 프로그램을 구성함에 있어, 타당화 프로세스의 모든 구성요소를 의도적으로 선택하면 결과의 해석이 더 신뢰할 수 있고 방어성이 더 높아진다.6 평가 과정 전반에 걸쳐 타당성을 구축하는 것은 평가 프로그램의 모든 측면의 품질을 개선하는 데 도움이 된다. 구체적인 용어로, 이것은 평가 책임자가 [타당화 전략](예: 심리측정학 분석, 측정자 인터뷰), [평가 관리 절차], [평가자가 요구하는 교육]을 미리 선택한다는 것을 의미한다.

During the construction of an assessment programme, the deliberate selection of all components of the validation process makes the interpretation of results more credible and more defensible.6 Building in validity34,42 throughout the assessment process helps to improve the quality of all aspects of the assessment programme. In concrete terms, this means that the person responsible for the assessment pre-selects the validation strategies (e.g. the psychometric analyses, interviews with raters), the assessment administration procedure and the training required by assessors.


결과적 타당성에 대한 고려는 검증 프로세스의 필수적인 부분이며 평가 개발 및 모니터링 프로세스 전반에 걸쳐 타당성을 구축하기 위한 노력에서 중요한 고려사항이 되어야 한다. 결과는 의도되거나 의도하지 않을 수 있고, 유익하거나 해로울 수 있다. 결과적으로, 관리자는 평가 프로그램에 포함된 모든 평가를 개발하는 동안 평가의 잠재적 결과를 고려하고 또한 모니터링해야 한다. 보다 구체적으로, 예상가능한 결과를 고려할 때에는 운영 및 결과 해석에서 발생하는 [모든 가능한 결과]가 포함되어야 하며, (일반적으로 검증에 대한 더 고전적인 접근방식처럼) 구인-무관 분산(CIV)에 국한되지 않아야 한다.

Consideration for consequential validity is an essential part of the validation process35 and should be an important consideration in an effort to build in validity throughout the assessment development and monitoring process. Consequences can be intended or unintended, beneficial or harmful.5,13,14,43 As a result, administrators should consider, and also monitor for, potential consequences of assessment during the development of all assessments included in an assessment programme. More specifically, the consideration of anticipated consequences should include all possible consequences arising from the administration and interpretation of the results,35 and not be limited to construct-irrelevant variance, as typically reported in more classical approaches to validation.


[의도적인 이익]은 종종 예측하고 측정하기 가장 쉬운 반면, [의도하지 않은 손해]는 종종 고려하고 감시하기 가장 어렵다.

Intentional benefits are often the easiest to anticipate and measure, whereas unintentional harms are often the hardest to consider and monitor.35


평가 결과의 조합 해석을 뒷받침하는 문서화된 유효성 증거

Documented validity evidence supporting the interpretation of the combination of assessment findings


검증 프로세스는 다른 시간에 서로 다른 출처로부터 수집된 학습자의 여러 '스냅샷' 형태로 상당한 양의 정보를 생성하는 프로그램 평가 접근법에서도 중요하다.21 프로그램 평가에서는, 평가 프로그램에서 생성된 점수(들)의 해석을 뒷받침하는 타당성 증거를 수집해야 한다.

The validation process is also important in a programmatic assessment approach that produces a considerable amount of information in the form of several ‘snapshots’ of the learner collected from different sources at different times.21 In programmatic assessment, validity evidence must be collected to support the interpretation of the score (s) generated by the assessment programme


평가 결과를 전체적으로 해석하려면, [이용 가능한 평가 데이터]를 조직하고 해석하기 위해 [한 명 또는 그 이상의 개인]의 판단이 필요할 수 있다.

This interpretation of the assessment results as a whole is likely to require the judgement of one or more individuals in order to organise and interpret available assessment data.


결과를 [산술적으로 단순히 합산만 하면 전체가 되는 작은 조각으로 나눌 수 없는 경우], 특히 평가 프로그램에서 [다양한 평가 유형의 정보를 결합해야 하는 경우], 정보를 수집하고 분석collate하기 위해 인간의 판단을 사용해야 한다.

‘If we cannot break down the results into little pieces that arithmetically add up to a total score, we need to use human judgement to collect and collate information, especially if – in a programme of assessment – information from various types of assessment needs to be combined (p. 481)’.32


평가 관리자가 평가 프로그램에 걸쳐 제시된 학습자의 성과에 대해 보다 방어가능한 결정을 내릴 수 있도록 타당성 증거를 문서화할 필요가 있다.21

Validity evidence needs to be documented in order to help assessment administrators make a more defensible decision about the learner’s performance, as represented across the programme of assessment.21


모든 평가 전략의 품질을 문서화하기 위한 다양한 증거(양적 및 정성적)의 정당화된 사용 시연

Demonstration of a justified use of a variety of evidence (quantitative and qualitative) to document the quality of all assessment strategies


평가 프로그램의 품질은 몇 가지 출처로부터의 타당도 증거에 기초해야 한다. 모든 평가 프로그램에 대해 포괄적인 검증 프로세스가 시행되도록 하기 위해 증거를 신중하게 선택해야 한다.26,41

The quality of the assessment programme must be based on evidence of validity from several sources.37,38,40 Evidence must be carefully chosen to ensure that a comprehensive validation process is put in place for any assessment programme.26,41


타당도 증거는 본질적으로 양적이든 질적이든 엄격한 접근법에 기초해야 한다.34,35 평가 프로그램의 감시를 책임지는 사람들은 이를 위해 타당화 실무를 할 때 [질적연구의 맥락에서 개발된 지식과 방법의 총체corpus]를 활용integrate할 수 있다.

Validity evidence, be it quantitative or qualitative in nature, must be based on a rigorous approach.34,35 To this end, those responsible for the monitoring of programmes of assessment could integrate the corpus of knowledge and methods developed in the context of qualitative research into their validation practices.


예를 들어, 평가를 담당하는 관리자는 서로 다른 유형의 증거에 대한 일관성을 찾기 위해 데이터를 삼각측량하거나, [포화 상태]에 도달하기 위해 학습자의 성과에 대한 정보를 축적하기 위해 서로 다른 전략을 사용할 수 있다.1,39 [평가 의사결정 과정과 관련된 엄격함을 개선하기 위해 '전체적overall' 판단을 내리는 사람]들로부터 [상세한 질적 데이터]를 포함하는 것도 고려할 수 있다. .12

As an example, administrators responsible for assessment could use different strategies to accumulate information about the learner’s performance in order to triangulate data to look for consistency across different types of evidence or attempt to reach saturation.1,39 We could also consider including detailed qualitative data from the individuals who are making ‘overall’ judgements in order to improve the rigour associated with assessment decision-making processes.12


결과

Consequent


검증 프로세스의 건전성 및 평가에 따른 결정의 신뢰

Belief in the soundness of the validation process and the decisions resulting from the assessment


사회적 의무로서의 타당성은 이제 떠오른emerging 개념이기 때문에, 그 결과의 주제에 대해 직접 보고하는 문헌은 거의 없다. 그러나 서로 다른 집단(전문 기관 및 고등 교육 기관의 관리자, 평가를 수행하는 평가자)에 의해 수행되는 [타당화 프로세스에서 사회에 대한 고려consideration for society]는 [평가 시스템, 평가 점수, 그리고 이 시스템에서 도출된 판단]에 대한 신뢰를 증가시킬 것으로 믿는다프로그램적 평가는 타당하고 다양하며 고품질 유효성의 증거를 사용하여 구성 및 모니터링할 필요가 있다.34

As validity as a social imperative is an emerging concept, there is little literature directly reporting on the topic of its consequents. However, we believe that the consideration for society in the validation processes conducted by different groups (administrators for professional bodies and higher education institutions, as well as the assessors conducting the assessment) will increase trust in the assessment system, in the assessment scores and in judgements resulting from this system. Programmatic assessment needs to be constructed and monitored with relevant, varied and high- quality evidence of validity.34


'[실천공동체에 의한 수행능력 가치]에 대한 논의에 참여하면 [무엇이 전문적 역량의 우수성을 구성하는지]와 [평가 시스템이 환자 치료의 질 향상에 어떻게 기여할 수 있는지]에 대한 논쟁을 더욱 부채질할 수 있다(1172 페이지).33

‘Engagement in discussion about performance values by communities of practice may further fuel the debate about what constitutes excellence in professional competence and how assessment systems may contribute to improving the quality of patient care (p. 1172)’.33


평가와 검증 프로세스의 프로그램은 계획되고 명시적으로 문서화되어야 한다. 따라서 평가 결과의 해석에서 발생하는 [결정은 더 쉽게 방어할 수 있고 사회를 포함한 모든 이해당사자들에게 투명하게 공개될 것]이다.

The programme of assessment and validation processes should be planned and explicitly documented; therefore, decisions arising from the interpretation of the assessment results will be more easily defensible and made transparent to all stakeholders, including society at large.


고찰 DISCUSSION


평가의 타당성에 대한 사회의 우려

Society’s concern about the validity of assessment


사회는 평가가 고품질의 평가가 될 것으로 기대한다; 이는 [고등 교육 기관(차세대 의료 사업자를 양성할 사회적 지시)의 평가]부터 [다양한 전문 기관의 평가(대중을 보호할 사회의 지시)]에 이르기까지 광범위한 평가에 적용된다. 몇몇 기관들은 이러한 사회적 책임을 충족시키고 평가에 대한 사회적 우려에 대응할 수 있도록 하기 위한 작업을 시작했다. 한 예로, 캐나다 의료 위원회(MCC)는 [허가 의무(즉, 캐나다에서의 의료행위)와 관련된 사회적 맥락과 관련된 니즈]를 식별하기 위한 프로세스에 투자했다. MCC는 최근 관련 이해관계자(전문가, 간호사, 약사, 의사, 일반인)와의 협의 결과를 참작하기 위해 평가 청사진을 수정했다.45 점수 해석에 따른 의사결정을 정당화하기 위해 [타당성 증거]가 필요하며, 특히 보건의료 전문직의 진입을 위한 핵심 결정 지점을 나타내는 입학, 면허 및 인증과 같은 고부담 평가에서 그렇다.

Society expects assessments to be of high quality; this applies to assessments ranging from those by higher education institutions (which have the social mandate to train the next generation of health care providers) to those of the various professional bodies (which have the social mandate to protect the public). Several institutions have initiated work to meet this social responsibility and to enable them to respond to societal concerns about assessment. As one example, the Medical Council of Canada (MCC) invested in a process to identify needs relevant to its societal context as relevant to its licensure mandate (i.e. medical practice in Canada). The MCC has recently adapted its assessment blueprint to take into account results from consultations with relevant stakeholders (experts, nurses, pharmacists, physicians and members of the public).45 Validity evidence is necessary to justify decisions resulting from score interpretations, especially in high-stakes assessments, such as admissions, licensing and certification, which represent key decision points for entry into the health care professions.


에바 외 연구진은 고부담평가 횟수가 증가했음에도 불구하고 미국의 [의료 오류 빈도]와 [질 낮은 건강 관리의 빈도]가 계속 증가하고 있음을 강조한다. 환자 안전에 대한 사회적 우려는 의료 분야에서 발생하는 사건(예: 부작용)에 대한 대중 매체의 관심이 높아짐에 따라 촉진되는 것으로 보이며, 이는 의료 사업자의 역량 수준을 반영하는 것으로 볼 수 있다.46 [프로그램적 평가 또는 평가자 기반 평가에 대한 의존도가 증가하고, HPE의 평가 가치에 대한 인식이 지속되고, 많은 평가 결정의 고부담 특성을 인정함에 따라], (개인의 역량에 관한 추론을 포함하여) [평가 점수에 근거한 추론]의 타당성을 결정하는 것은 여전히 과제로 남아 있다.

Eva et al.23 highlight that, even with the increased number of high-stakes assessments, the frequencies of medical error and poor quality health care in the USA continue to increase. Societal concerns about patient safety appear to be fuelled by the growing attention given by mass media to events occurring in the health care sector (e.g. adverse events), which could be seen as a reflection of the competency level of health care providers.46 With increasing reliance on programmatic or rater-based assessments, continued recognition of the value of assessment in HPE and an acknowledgement of the high-stakes nature of many assessment decisions, determining the validity of inferences based on assessment scores, including inferences regarding an individual’s competence, remains a challenge.


메식스의 통일된 타당성 이론은 평가 프로그램의 품질 문서화를 책임지는 사람들을 도울 수 있는 방식으로 아직 운영되지 않았다. 프로그램적 평가에 대한 평가 점수에 근거한 추론 검증에 대한 [케인의 주장 기반 접근방식]을 운용하려는 노력이 있었지만, 이 프레임워크는 [메식(Messick)처럼] 평가의 결과에는 초점을 맞추지 못하고 있다. 평가 프로그램에 대한 검증 관행을 지원하기 위해 HPE 평가의 현재 맥락에서 이러한 프레임워크에서 최선의 것들을 통합하기 위한 추가 작업이 필요하다.

Messick’s13 unified theory of validity has yet to be operationalised in a way that could help those responsible for the documentation of the quality of their assessment programmes.25,47 Although there have been efforts to operationalise Kane’s14,43 argument-based approach to the validation of inferences based on assessment scores for programmatic assessment, this framework does not have the same focus on consequences of assessment as that of Messick.13 Further work is required to bring the best of these frameworks together in the current context of HPE assessment in order to support validation practices for programmes of assessment.


개인과 사회에 대한 평가 결정의 결과에 대한 기대

Anticipation of the consequences of assessment decisions for individuals and society


평가자는 개인과 사회에 대한 평가 결정의 잠재적 결과를 예측하고 이를 최소화 또는 완화하기 위한 조치를 제안해야 한다. 그러나 타당화 과정의 잠재적 결과에 대한 고려는 여전히 논란의 여지가 있다.48,49 메렌스50과 팝햄,51과 같은 일부 저자들은 [평가의 결과]가 타당성이 아니라 사회정책과 관련이 있다고 주장해왔다. 그럼에도 불구하고 평가는 사회적 행위로서 사회적 결과를 가져온다. 쿡과 라인베리35는 결과적 타당성이 검증 과정에서 고려해야 할 가장 중요한 증거라고 주장하기까지 한다. 그들의 정당성은 우리의 분석에서 확인된 핵심 특징과 유사하다: 평가 결과에 기초하여 이루어진 모든 결정은 긍정적이거나 부정적으로 개인이나 사회에 영향을 미칠 수 있다.

Assessors must anticipate the potential consequences of assessment decisions on individuals and society, and propose measures to minimise or mitigate them. However, consideration of the potential consequences of the validation process remains controversial.48,49 Some authors, such as Mehrens50 and Popham,51 have argued that the consequences of assessment are associated with social policies and not with validity.4,5,44,49,52,53 Nonetheless, assessment is a social act and has social consequences. Cook and Lineberry35 go so far as to claim that consequential validity is the most important evidence to consider in a validation process. Their justification is similar to a core feature identified in our analysis: all decisions made based on the results of assessments can impact the individual or society, positively or negatively.


이러한 개념 분석의 결과에 기초하여, 결과를 단순히 귀납적으로a posteriori 관심을 가지거나 측정할 것이 아니라, 타당화 과정(평가 및 평가 점수의 준비, 관리 및 해석) 전체에 걸쳐 검토, 참석 및 완화해야 한다고 본다. 그러나 결과는 HPE에서 자주 측정되지 않는다. 우리는 '어떻게' 평가의 결과를 before, during, after에 측정할 수 있는지에 대한 몇 가지 설명들을 찾아냈다. 더욱이, 결과 측정measuring consequences은 [평가의 잠재적인 의도하지 않은 결과를 측정하기 위한 종적 연구와 같은] 상당한 노력이 필요한 도전적인 과정이다.5 결과적 타당성 보장이 어렵다는 점을 감안할 때, 결과적 타당성의 작동화에 대한 추가 연구가 필요하다.

Based on the results of this concept analysis, we believe that consequences should not simply be attended to or measured a posteriori, but considered, attended to and mitigated throughout the validation process (preparation, administration and interpretation of assessment and assessment scores). However, consequences are not frequently measured in HPE.1,23,35 We found few descriptions of ‘how’ one could measure the consequences of assessment before, during or after the said assessment. Furthermore, measuring consequences is a challenging process that requires substantial effort5 such as through longitudinal studies to measure the potential unintended consequences of assessment.23 Given the difficulty in assuring consequential validity, further studies on the operationalisation of consequential validity are required.


정성적 검증 전략의 중요성 증대

The increased importance of qualitative validation strategies


CBE로 HPE의 변화는 프로그램적 평가의 이행과 성과 기반 평가에 대한 의존도 증가와 같은 평가 실무의 변화를 가져왔다. 문헌은 점점 더 authentic하고 프로그램적인 평가와 같은 복잡한 평가에 대한 적절한 타당성 증거를 제공하는 것이 어렵다는 것을 시사하고 있다.

The shift in HPE towards CBE brought about changes in assessment practice, such as the implementation of programmatic assessment and the increased reliance on performance-based assessment. The literature increasingly suggests the difficulty of providing adequate validity evidence for complex assessment such as authentic and programmatic assessment.


호지스가 지적한 바와 같이, 정신측정학 접근법은 현재 진화하고 있다. [분석과 합성을 위한 정성적 접근법을 타당화 프로세스에 통합하는 것]을 포함하여, 복잡한 평가 전략의 합성과 품질 모니터링을 위한 해결책을 공동체로 찾을 필요가 있다. 기존 타당도 프레임워크의 작성자(예: Messick13 및 Kane14)는 평가 점수의 유효한 해석을 지원하기 위한 정성적 데이터의 사용을 기각하지는 않지만, 이러한 데이터가 어떻게 보일 수 있고 타당화 과정에서 어떻게 고려될 수 있는지에 대해서는 거의 알려져 있지 않다. 

As indicated by Hodges,12 psychometric approaches are currently evolving. We need, as a community, to find solutions for the synthesis and quality monitoring of complex assessment strategies, including integrating qualitative approaches for analysis and synthesis into the validation process. Although the authors of existing validity frameworks (e.g. Messick13 and Kane14) do not dismiss the use of qualitative data to support the valid interpretation of assessment scores, little is known of what these data might look like and how they might be considered in a validation process.13,44,53


정성적 타당도 증거에 대한 의존도를 증가시킬 수 있는 잠재적 위험으로는 [전통적인 정신측정학 접근법에 대한 의존도 감소]와 [전통적인 양적 방법론을 위한 장소의 제한] 등이 있을 수 있다. 일부 저자들은 질적 증거와 양적 증거를 결합할 필요성을 언급해왔다. 

A potential risk for increasing the reliance on qualitative validity evidence may suggest a limited place for more traditional quantitative methodologies, with a reduced reliance on traditional psychometric approaches. Some authors have mentioned the need to combine qualitative and quantitative evidence.35,53,54


그러나 질적 근거와 양적 증거를 결합하는 목표에 부합하는 제안된 전략들은 제대로 정의되지 않았거나 운용되지 않은 채로 남아 있다. 서로 다른 유형의 증거 사이의 균형은 분석과 데이터 통합에 대한 혼합된 방법 접근법을 고려하는 데 어려움이 있을 수 있으며 이로울 수 있다. 

However, the proposed strategies that would align with the goal of combining qualitative and quantitative evidence remain poorly defined or operationalised. The balance between different types of evidence may be difficult to establish and may benefit from the consideration of mixed-methods approaches to analysis and data integration.55,56


선택된 증거의 유형에 관계없이, 평가에 참여하는 개인은 프로그램적 평가의 품질을 보장하기 위해 최선의 증거를 선택하고 정당화해야 한다. 그러나 특히 접근 가능한 자원이 거의 없는 개인이나 기관에서 검증 접근방식의 전환을 달성하기는 쉽지 않을 것으로 보인다. 수집된 타당도 증거의 유형(질적, 양적 또는 혼합)에 관계없이, 이러한 증거에 근거하여 해석하고 결정을 내리는 인간의 판단이 필요하며, 항상 그러할 것이다. 

Regardless of the types of evidence selected, individuals involved in assessment must choose and justify the best evidence to ensure the quality of their programmatic assessment. However, achieving a shift in validation approach is unlikely to be easy, especially for those individuals or institutions with few accessible resources. Whatever the type of validity evidence collected – be it qualitative, quantitative or mixed – there is, and will always be, a need for human judgement to interpret and make decisions based on these evidences.32,34


강점과 한계 Strengths and limitations


개념 분석에서, 모든 관련 문헌의 식별은 품질의 표식이 아니다. 오히려 개념 분석의 목적은 개념의 폭을 반영하는 대표적인 문헌을 식별하는 것이다.

In a concept analysis, the identification of all relevant literature is not a marker of quality; rather, the goal of a concept analysis is to identify a representative body of literature reflecting the breadth of a concept.


결론 CONCLUSIONS


이 개념 분석의 결과는 [평가의 품질에 대한 사회의 증가하는 우려]와 [새롭게 부상하는 평가 접근방식의 품질을 확립하기 위한 평가 책임자의 필요성]을 강조한다이제 개념을 명확히 했으므로, 추가 연구는 평가의 개발 및 모니터링에 관련된 개인에 따라 검증 접근법, 사회적 관심사 및 이 개념의 운영화 사이의 교차점을 설명하는데 초점을 맞출 수 있다. 학생, 심사원, 관리자, 평가 위원회 또는 전문 기관의 구성원 등.

Findings from this concept analysis highlight society’s growing concern about the quality of assessment and a need for those responsible for assessment to establish the quality of newly emerging assessment approaches. Now that we have clarified the concept, further research can focus on elucidating the intersections between validation approaches, societal concerns and the operationalisation of this concept according to individuals involved in the development and monitoring of assessment, such as students, assessors, administrators, and members of assessment committees or professional bodies.







23 Eva KW, Bordage G, Campbell C, Galbraith R, Ginsburg S, Holmboe E, Regehr G. Towards a programme of assessment for health professionals: from training into practice. Adv Health Sci Educ Theory Pract 2016;21 (4):897–913.


32 Schuwirth LWT, van der Vleuten CPM. Programmatic assessment: from assessment of learning to assessment for learning. Med Teach 2011;33 (6):478–85.


33 Govaerts M, van der Vleuten CPM. Validity in work- based assessment: expanding our horizons. Med Educ 2013;47 (12):1164–74.


34 van der Vleuten CPM, Schuwirth LWT, Scheele F, Driessen EW, Hodges B. The assessment of professional competence: building blocks for theory development. Best Pract Res Clin Obstet Gynaecol 2010;24 (6):703–19.


35 Cook DA, Lineberry M. Consequences validity evidence: evaluating the impact of educational assessments. Acad Med 2016;91 (6):785–95.


38 Colliver JA, Conlee MJ, Verhulst SJ. From test validity to construct validity ... and back? Med Educ 2012;46 (4):366–71.


39 Cook DA, Brydges R, Ginsburg S, Hatala R. A contemporary approach to validity arguments: a practical guide to Kane’s framework. Med Educ 2015;49 (6):560–75.


46 Carraccio C, Englander R, van Melle E, ten Cate O, Lockyer J, Chan M-K, Frank JR, Snell LS. International competency-based medical education collaborators. Advancing competency-based medical education. Acad Med 2016;91 (5):645–9.





. 2018 Jun;52(6):641-653.
 doi: 10.1111/medu.13574.

Validity as a social imperative for assessment in health professions education: a concept analysis

Affiliations 

Affiliations

  • 1Department of Nursing, Faculty of Medicine and Health Sciences, Université de Sherbrooke, Sherbrooke, Quebec, Canada.
  • 2Department of Medicine and Center for Medical Education, Faculty of Medicine, McGill University, Montreal, Quebec, Canada.
  • 3Department of Medicine, Faculty of Medicine and Health Sciences, Université de Sherbrooke, Sherbrooke, Quebec, Canada.

Abstract

Context: Assessment can have far-reaching consequences for future health care professionals and for society. Thus, it is essential to establish the quality of assessment. Few modern approaches to validity are well situated to ensure the quality of complex assessment approaches, such as authentic and programmatic assessments. Here, we explore and delineate the concept of validity as a social imperative in the context of assessment in health professions education (HPE) as a potential framework for examining the quality of complex and programmatic assessment approaches.

Methods: We conducted a concept analysis using Rodgers' evolutionary method to describe the concept of validity as a social imperative in the context of assessment in HPE. Supported by an academic librarian, we developed and executed a search strategy across several databases for literature published between 1995 and 2016. From a total of 321 citations, we identified 67 articles that met our inclusion criteria. Two team members analysed the texts using a specified approach to qualitative data analysis. Consensus was achieved through full team discussions.

Results: Attributes that characterise the concept were: (i) demonstration of the use of evidence considered credible by society to document the quality of assessment; (ii) validation embedded through the assessment process and score interpretation; (iii) documented validity evidence supporting the interpretation of the combination of assessment findings, and (iv) demonstration of a justified use of a variety of evidence (quantitative and qualitative) to document the quality of assessment strategies.

Conclusions: The emerging concept of validity as a social imperative highlights some areas of focus in traditional validation frameworks, whereas some characteristics appear unique to HPE and move beyond traditional frameworks. The study reflects the importance of embedding consideration for society and societal concerns throughout the assessment and validation process, and may represent a potential lens through which to examine the quality of complex and programmatic assessment approaches.

평가프로그램과 케인의 타당도 관점(Med Educ, 2012)

Programmatic assessment and Kane’s validity perspective

Lambert W T Schuwirth1,2 & Cees P M van der Vleuten2





도입 INTRODUCTION


의학 교육 평가 문헌은 의료 [역량을 구성하는 각각의 개별 구조construct]에 대해 ['성배'라는 것이 존재할 것이라는 가정] 하에 (다른 모든 것에 비해) [하나의 평가 기구의 본질적인 우월성을 입증하려는 연구]에 의해 오랫동안 지배되어 왔다. 이 담론의 대표적인 예로는 의학 문제해결의 평가에서 [객관식 문항]보다 [개방형 문항]의 선천적 우월성을 입증하려고 시도한 많은 연구가 있다.1-4 그러나 점점 더 평가의 내용이 그 형식보다 훨씬 더 중요한 역할을 한다는 것이 분명해졌다.2-5 더 중요한 것은 이러한 성배가 존재할 가능성이 매우 낮으며, 심지어 다른 맥락까지 적용될 가능성이 낮다는 인식이 증가하고 있다는 점이다. 대신, 각 평가 방법의 효용성은 항상 품질의 다양한 측면 사이의 절충이라는 관념이 자리를 잡게 되었다.

The medical education assessment literature has long been dominated by studies that try to demonstrate the intrinsic superiority of one assessment instrument over all others on the assumption that such a ‘holy grail’ for each of the separate constructs that make up medical competence will exist. Typical examples of this discourse include the many studies that have attempted to prove the innate superiority of open-ended questions over multiple-choice questions in the assessment of medical problem-solving.1–4 Increasingly, however, it has become clear that the content of an assessment plays a far more important role than its format.2–5 More importantly, there is increasing awareness that it is highly improbable that such a holy grail exists and even less likely that it will be applicable across different contexts. Instead, the notion that the utility of each assessment method is always a compromise between various aspects of quality has gained ground.


[평가의 질]을 더 높은 수준에서 평가해야 한다는 것이 더 일반적으로 받아들여졌을 때 한 단계 더 나아갔다. 따라서 개별 평가 방법의 수준에서 평가를 평가하기보다는 방법에 따라 평가의 품질을 결정해야 한다.8.9 이 관점의 두 가지 결과가 중요하다. 

  • 첫째로, 어떤 상황에서든 하나의 도구가 완벽하지 않을 수 있다는 것을 깨닫게 한다(실제로 거의 모든 악기는 완벽하지 않다). 

  • 째로, 평가 도구의 강점은 평가 프로그램 구축을 통한 유연하고 맞춤화된 접근방식에서 비롯된다는 것을 암시한다. [(거의) 완벽한 도구의 조합]보다 아마도 [덜 완벽한 구성요소를 세심하게 결합한 세트]가 더 강력한 평가 프로그램을 만들 수 있다.

A further step was taken when it became more generally accepted that the quality of assessment should be evaluated at a higher level. Thus, rather than evaluating an assessment at the level of the individual assessment method, the quality of the assessment should be determined across methods.8,9 Two outcomes of this view are important. 

  • Firstly, it makes us realise that in any situation a single instrument may not be perfect (in reality almost all instruments are less than perfect). 

  • Secondly, it implies that strength derives from a more flexible and tailor-made approach to building a programme. A combination of (near-) perfect instruments may result in a weaker programme than a carefully combined set of perhaps less perfect components.


예를 들어, 역량 영역(예: 미국 대학원 의학 교육 인증 위원회[ACGME] 또는 캐나다 CanMEDS 도메인의 왕립 의사 및 외과의사 대학(Royal College of Occessors and Occessors of CanMEDS domains10,11)의 개발의 맥락에서, 전통적인 접근방식은 각 역량 영역에 대해 하나의 우수한 기기가 개발되어야 하는 평가 프로그램을 지시할 것이다. 그러한 프로그램은 [1개의 도구 대 1의 역량 영역 설계]를 따를 것이다. 프로그램적 접근방식에서 하나의 기구는 학생과 교사 모두에게 다양한 역량 영역을 알릴 수 있으며, 역량 영역은 다양한 출처의 정보를 사용하여 평가된다. 따라서 1 : 1 관계보다는 소위 n : n 관계를 얻는다.12

For example, in the context of the development of competency domains (such as those defined by the US Accreditation Council for Graduate Medical Education [ACGME] or the Royal College of Physicians and Surgeons of Canada’s CanMEDS domains10,11), the traditional approach would dictate an assessment programme in which one superior instrument would require to be developed for each of the competency domains. Such a programme would follow a one-instrument-to-one-competency-domain design. In a programmatic approach one instrument can inform both students and teachers on various competency domains and a competency domain is assessed using information from various sources. Thus, rather than a 1 : 1 relationship, a so-called n : n relationship is obtained.12


완벽한 단일 도구가 없고 각 도구가 장단점(또는 표시, 부작용 및 금지)을 가진 것으로 간주되는 경우, 이것은 신뢰도나 건설 타당성 부족으로 인해 기각된 방법의 필요한 재평가로 이어져야 한다 (바이바, 긴 케이스, 구술 시험 등). 전통적으로 평가 도구의 가치가 다소 이분법적인 방법(좋음 대 나쁘음)으로 판단되었던 반면에, 이제는 [평가 프로그램의 장단점] 또는 [빌딩 블록으로서의 부가가치added value 측면]에서 재평가되고 있다.

If there is no single perfect instrument and each instrument is considered to have its advantages and disadvantages (or indications, side-effects and contraindications), this leads to a necessary reappraisal of methods that had been dismissed because of lack of reliability or construct validity, such as the viva, the long case, the oral examination, and so forth. Whereas the value of an instrument was traditionally judged in a more or less dichotomous manner (as good versus bad), it is now reappraised in terms of its strengths and weaknesses or its added value as a building block in an assessment programme.


타당도에 대한 Kane의 관점

KANE ON VALIDITY


본질적으로 타당성은 [문제의 평가가 평가하고자 하는 역량이나 성과 측면을 실제로 포착하는지]의 문제와 관련된다. 따라서 의료교육의 경우 평가 프로그램은 기업의 '의료 역량'을 포착하는 것을 목표로 한다. 역량이라는 entity는 [존재한다고 가정하지만, 직접 관측할 수 없다는 점에서 construct]이다. 따라서 관찰된 행동에서 유추해야 한다.

In essence, validity pertains to the question of whether the assessment in question actually captures the aspect of competence or performance it purports to assess. Thus, in the case of medical education, the assessment programme aims to capture the entity ‘medical competence’. Such an entity is a construct in that it is assumed to exist yet it cannot be observed directly. Therefore, it must be inferred from observed behaviour.


Kane은 특정 구조에 대한 평가의 타당성을 유추하는 것은 주장을 구축하고 검증하는 (그리고 반증하려는) 지속적인 과정이라고 말한다.13–15

Kane states that inferring the validity of an assessment for a certain construct is an ongoing process of building and verifying (and trying to falsify) arguments.13–15


관찰에서 점수까지

From observation to score


문제해결 능력 평가에서 전형적인 접근방식은 학생들이 다양한 의학적 사례에서 어떻게 수행하는지 관찰하는 것이다. 점수는 학생들이 질문에 대한 '원raw' 대답에서 도출되어야 한다. 물론 우리는 병력청취에서 질문한 관련 질문의 수, 수행된 관련 신체 검사의 수, 그리고 주문된 관련 실험실 시험의 수를 세어 모두 합쳐서 총점을 줄 수 있다.

A typical approach in the assessment of problem solving skills is to observe how students perform on various medical cases. A score must be derived from the ‘raw’ answers students give to questions. We could, of course, just count the number of relevant questions asked in history taking, the number of relevant physical examinations performed and the number of pertinent laboratory tests ordered, and add them all up to give a total score.


그러나 의학문제해결 및 전문지식에 관한 이론은 [전문가는 결론을 내리기 전에 반드시 더 많은 정보를 수집하지 않으며, 그보다는 '효율적'으로 정보를 수집한다]고 기술하고 있다.16–18 또한, 어떤 정보를 수집하는가에 관한 전문가들 사이에 개별적인 차이가 있다(사람에 따라 고유하다). 따라서, 위에서 설명한 방식으로 점수를 매기는 것은 관찰 결과를 점수로 적절하게 변환하는 데 도움이 되지 않을 것이다.

However, theories on medical problem solving and expertise state that experts do not necessarily collect more information before they come to a conclusion, but that they collect information more efficiently.16–18 In addition, there are individual differences between experts with respect to which information they collect (idiosyncrasy).17–19 Therefore, scoring in the manner described above would not serve to properly translate observations to scores.


관측 점수에서 우주 점수까지

From observed score to universe score


일반적으로 한두 건의 케이스는 후보자의 문제해결 전문지식에 대한 일반적인 결론을 도출하는 데 충분한 증거를 제공하지 않는다고 알려져 있다. 인지심리학 연구는 문제해결 전문지식의 영역별 특수성domain specificity 현상을 반복적으로 보여 주었다.23,24 따라서 긴 사례의 작은 표본은 일반적인 문제해결 능력에 대한 추론을 지원하지 않는다.

It is generally known that one or two cases never provide evidence sufficient to support the drawing of general conclusions about a candidate’s problem solving expertise. Research in cognitive psychology has repeatedly demonstrated the phenomenon of the domain specificity of problem-solving expertise.23,24 Therefore, small samples of long cases do not support inferences on general problem-solving ability.


그 결과, key-feature(KF) approach  접근법이나 의료 의사 결정에 초점을 맞춘 확장 매칭 항목과 같이 더 많은 수의 더 짧은 사례에 기초한 방법이 설계되었다.25–27

As a result, methods based on larger numbers of shorter cases, such as in the key-feature approach or in extended-matching items focused on medical decision making, have been designed.25–27


우주 점수에서 대상 도메인까지

From universe score to target domain


간단한 점수 체계와 좋은(넓지만 더 피상적인) 표본 추출 접근법을 통해 관찰된 점수에서 우주universe 점수까지의 좋은 추론을 이끌어내지만, 그 점수가 [의료에서 의사결정 능력]을 포착하고 있는가? 일련의 연구는 그러한 시험의 점수가 예상에 따라 작용한다는 것을 입증하기 위해 사용될 수 있다.

Key-feature approaches with simple scoring schemes and good (broad but more superficial) sampling approaches lead to a good inference from observed score to universe score, but do they capture medical decision-making ability? A series of studies may be used to demonstrate that scores on such tests behave according to expectations.


따라서 [우주 점수에서 목표 영역(의료 의사결정 기술)까지]의 추론을 뒷받침하기 위해서는 [질문에서 확인한 결정이 정말로 필수적이거나 핵심 기능의 결정을 대표한다는 가정]을 뒷받침하는 정보를 수집해야 한다.28,30

Thus, in order to support an inference from universe score to target domain (medical decision-making skills), information in support of the assumption that the decisions for which the questions ask are really essential or represent key-feature decisions must be collected.28,30


대상 도메인에서 구성으로

From target domain to construct


마지막으로, 의료 문제 해결은 단순히 서류 기반 또는 컴퓨터화된 사례에 대해 올바른 결정을 내리는 것 이상의 것을 수반한다. 실제 생활에서는 환자로부터 정보를 유도하는 능력(예: 의사소통 능력)과 정보를 선별하고 관련 없는 정보와 관련성을 구별하는 능력과 같은 많은 다른 요소들이 역할을 할 수 있다.

Finally, medical problem solving entails much more than simply making the right decisions on paperbased or computerised cases. In real life many other factors may play a role, such as ability to elicit information from a patient (e.g. communication ability), and ability to sift through information and distinguish relevant from non-relevant information.


즉, [키-기능 접근방식을 이용한 문제해결능력의 평가]가 [의료역량이라는 construct에 어떤 것을 더하는지]를 판단하는 것이 중요하다. 그 방법의 장단점은 무엇인가? 추가 방법을 사용하여 약점을 해결하거나 보완할 수 있는 방법은 무엇인가? 예를 들어, [키-기능 접근 점수]와 [미니-임상시험(미니-CEX)] 점수 사이의 시너지는 무엇인가? 전자는 높은 양의 낮은 충실도 평가를 기반으로 하고 후자는 더 적은 수의 충실도 시험 표본에 기초하고 있다.

In other words, it is important to determine what the assessment of problem-solving ability, using key-feature approaches, adds to the construct of medical competence. What are the strengths or weaknesses of the method? How can the weaknesses be addressed or compensated for by using additional methods? What, for example, is the synergy between key-feature approach scores and scores on mini-clinical examinations (mini-CEXs), where the former is based on a high quantity of low-fidelity assessment and the latter on fewer samples of high-fidelity testing?


케인의 타당성 관점을 보여주는 의학적 예

A medical example of Kane’s validity perspective


의학에서 BP는 직접 관찰할 수 없는 구조의 좋은 예다. 혈압은 일반적으로 환자의 건강 평가에 도움이 되도록 복용한다.

In medicine, BP is a good example of a construct that cannot be observed directly. Blood pressure is normally taken to aid in the evaluation of a patient’s health.


관찰에서 점수까지

From observation to score


환자의 BP를 확인할 때 의사는 음향(코롯코우 소리) 신호와 스피모노마노미터의 시각적 판독값을 수치값으로 전환해야 한다. 추론은 의사가 언제 판독을 해야 할지 알고, 스피모노미터가 너무 빨리 또는 너무 느리게 흘러내리지 않게 하고, 오른쪽 커프를 사용하는 등의 가정에 근거한다. 절차의 모든 측면이 올바르게 수행되어야만 관찰부터 점수까지의 유효한 추론이 이루어질 수 있다.

When taking a patient’s BP, the doctor must convert acoustic (Korotkow sounds) signals and a visual reading of the sphygmomanometer to a numerical value. The inferences are based on the assumption that the doctor knows when to take the reading, does not let the sphygmomanometer run down too quickly or too slowly, and uses the right cuff, and so forth. Only when every aspect of the procedure is performed correctly can a valid inference from observation to score be made.


관측 점수에서 우주 점수까지

From observed score to universe score


다음 추론은 관측치가 가능한 모든 관측치를 충분히 대표하는지 여부를 가리킨다. 이 예에서 이것은 하나의 측정치가 진단을 기초로 할 충분한 데이터를 제공하는지 여부를 가리킨다. 예를 들어 네덜란드 가이드라인은 고혈압은 BP를 한 번의 상담에서 두 번 측정하고 두 번째 상담에서 반복 측정해야 진단할 수 있다고 규정하고 있다.32

The next inference refers to whether the observations are sufficiently representative of all possible observations. In our example, this refers to whether one measurement provides sufficient data on which to base a diagnosis. The Dutch guideline, for example, stipulates that hypertension can only be diagnosed if BP is taken twice during one consultation and is repeated during a second consultation.32


우주 점수에서 대상 도메인까지

From universe score to target domain


이제 BP 측정 결과는 [환자의 심혈관 상태]에 대한 결론을 도출하는 데 사용된다. 이를 위해서는 심장의 배양, 맥박 증식 및 기타 결과를 통합하고 결론이 유효하기 위해 결과를 삼각측량해야 한다.

Now the results of the BP measurements are used to draw conclusions about the cardiovascular status of the patient. This requires heart auscultation, pulse palpation and other results to be incorporated and the results triangulated in order for the conclusions to be valid.


대상 도메인에서 구성으로

From target domain to construct


환자의 심혈관 상태는 이제 [환자의 건강 상태]를 확립하는 데 사용될 수 있지만, 보다 일반적인 결론을 뒷받침하기 위해 다른 출처로부터 추가 정보를 얻고 삼각측량을 해야 한다.

The patient’s cardiovascular status can now be used to establish his or her health status, but further information must be obtained from other sources and triangulated to support a more general conclusion.


추론하기

MAKING INFERENCES


케인의 견해로는 추론은 [논거argument]에 근거한다. 이것들은 양적인 것일 수도 있고 질적인 것일 수도 있지만, 그것들은 항상 이론에 근거하고 해석적인 것이어야 하기 때문에 [고립된 논거]로 존재할 수는 없다. 물론, 어떤 논쟁도 괜찮지는 않을 것이다. 검증 과정의 논쟁은 명확하고 구체적이며 일관성이 있어야 하며 완전해야 하며 타당해야 하며 검증가능해야 하며 반증가능해야 한다.14

In Kane’s view, inferences are based on arguments. These may be quantitative or qualitative, but they must always be theory-based and interpretive and thus cannot serve as arguments in isolation. Of course, not just any argument will do. Arguments in the validation process must be clear, specific, coherent, complete, plausible, verifiable and falsifiable.14


모든 이해관계자나 연구자가 자신의 논리를 따를 수 있도록 하기 위해서는 논거argument가 명확해야 한다. 따라서 argument에는 충분한 구체적인 내용이 포함되어야 한다. 일관성은 관련 추론 네트워크가 최종 결론과 결정이 관찰된 성과로부터 타당하게 뒤따를 수 있도록 요구한다. 이를 위해서는 논거가 완전해야 한다. 

Arguments are required to be clear in order to ensure that every stakeholder or researcher is able to follow their logic. Therefore, the argument must include sufficient specific details. Coherence requires that the network of related inferences is such that the final conclusions and decisions follow plausibly from the observed performance. This requires the argument to be complete. 


어떤 주장의 타당성plausibility은 종종 주장 그 자체로 자명할 수 있지만, 일부 주장의 경우 경험적 기초에만 의존하기도 하며, 반면 다른 어떤 주장의 경우 신중한 문서화 및 절차 정밀도에 의존할 수도 있다. 이것은 연역적 추론이나 귀납적 추론뿐만 아니라 확률적 추론과 같은 다른 형태의 방어적 추론도 포함할 수 있다. 

The plausibility of the argument may often be self-evident, but some arguments will rely on empirical underpinning (preferably by not only verification, but also by multiple failed attempts at falsification) and others will rely on careful documentation and scrutiny of procedures. This may involve the employment of not only deductive reasoning or inductive inferences, but also of other forms of defeasible reasoning, such as probabilistic reasoning. 


방어가능한 주장은 어떤 전제presupposition를 담고 있지만 반론counterargument이 강할 경우 이것이 전복될 수도 있다는 것을 수용하는 주장이다. 확률에 근거한 주장은 무효로 할 수 있지만defeasible, 순전히 연역적 논리에 근거한 주장은 그렇지 않다. 비록 이것이 평가 개발자나 연구자가 자신이 필요로 하는 어떤 논쟁이든 사용할 수 있는 대단한 관용도를 가지고 있다는 인상을 줄 수 있지만, 이것은 사실이 아니다: 모든 논쟁은 그것이 타당성을 위한 최적의 증거를 제공하기 위해 전략적이고 프로그램적인 방법으로 신중하게 선택되어야 한다.

Defeasible arguments are arguments that contain a presupposition but accept that this may be overthrown if counterarguments are strong. Probability-based arguments are defeasible, whereas those based on sheer deductive logic are not. Although this may give the impression that the assessment developer or researcher has great latitude to use whatever arguments he or she needs, this is not the case: every argument must be carefully chosen in a strategic and programmatic way to ensure that it provides the optimal evidence for validity.


프로그램 평가 및 추론

PROGRAMMATIC ASSESSMENT AND INFERENCES


평가 프로그램은 다양한 평가 구성요소(도구)를 사용할 것이다. 우리는 각 평가도구의 품질은 동일한 (심리측정적) 접근법을 사용하여 결정할 수 없다고 믿는다. 대신에, 우리는 프로그램의 특정 구성요소에 따라 평가에 다양한 방법과 절차가 사용되어야 한다고 생각한다. 이들 각각의 선택은 [평가도구의 구성 요소와 평가 프로그램이 포착하고자 하는 구인construct]의 특성에 대한 명확한 개념에 기초해야 한다.

A programme of assessment will use various assessment components (instruments). We believe that the quality of each of these cannot be determined using the same (psychometric) approaches. Instead, we think that a variety of methods and procedures should be used in assessment depending on the specific component of the programme. The choice of each of these must be based on a clear notion of the nature of the construct the component and the assessment programme are trying to capture.


우리는 이 방법들 중 어떤 것도 그 자체로 좋거나 나쁘다는 것을 보여주고 싶지 않다. 반대로, 특정 방법의 가치와 유용성은 추론을 얼마나 서포트하는지로부터만 도출될 수 있으며, 따라서 [특정 구인에 대한 평가의 타당성]에 도달할 수 있다.

We do not wish to illustrate that any of these methods are either good or bad in themselves. On the contrary, the value and usefulness of a particular method can only be derived from the support it lends to an inference and thus to the validity of the assessment for a certain construct.


추론 1. 관찰에서 점수까지

Inference 1. From observation to score


문항 작성 규칙 

Item construction rules


이는 주제를 숙지한 학생이 항목에 정확하게 답하고 숙달하지 않은 학생이 오답할 확률을 최적화하기 위한 것이다.33,34 다시 말해 학생이 거짓 부정 또는 거짓 긍정 응답을 할 가능성을 최소화하는 역할을 한다.

These are designed to optimise the probability that a student who has mastered the subject matter will answer the item correctly and those without sufficient mastery will answer incorrectly.33,34 In other words, they serve to minimise the chance that a student will give a false negative or false positive response.


예를 들어, 학생이 가장 긴 옵션을 선택했기 때문에 객관식 질문에 정확하게 답하거나, 또는 소위 '블런더부스' 기법을 성공적으로 적용했기 때문에 개방형 질문에 정확하게 답하는 경우, 이 학생이 획득한 점수는 [주제 숙달이 아니라] '시험-숙련성'에 기초하였기 때문에 무효다.

If, for example, a student answers a multiple-choice question correctly because he or she has chosen the longest option, or answers an open-ended question correctly because he or she has successfully applied a so-called blunderbuss technique, the scores this student obtains are invalid as they are based on ‘test-wiseness’ and not on subject matter mastery.


구술 시험에서의 시험 전략과도 관련이 있다(예: 시험관의 취미를 알아내고 그것을 활용한다).

it also pertains to test-taking strategies in oral examinations (e.g. find out the hobby horses of the examiner and capitalise on them).


평가의 구조화

Structuring of the assessment


모든 응시자가 평가에서 요구하는 과제와 유사하게 대응해야 하는 ATLS(고급 외상 수명 지원) 절차적 능력의 평가와 같이 관심대상 구조construct가 균일하다면, 평가를 구조화하면 관측치에서 점수로의 변환이 개선된다. 그러나 후보자와 당면한 문제(예: 직장에 의한 평가와 같이)의 [상호작용의 질]이 문제라면, 구조화는 잘 작동하지 않는다.

If the construct of interest is uniformity, such as in the assessment of advanced trauma life support (ATLS) procedural skills, in which all candidates should respond similarly to the tasks demanded by the assessment, structuring the assessment improves the conversion of observations to scores. However, if the quality of the interaction between the candidate and the problem at hand (e.g. as in workplace-based assessment) is an issue, structuring does not work well.


한 가지 예는 고도로 구조화된 초기 객관적 구조 임상 검사(OSCE)이다. 많은 심사관들은 개별 항목에 대한 모든 점수를 합산하는 것이 OSCE가 평가하고자 하는 역량의 능력을 실제로 나타내지 않는다고 불평했다. 구인의 구체적인 정의에 따라 평가의 구조화는 경우에 따라 타당성 주장을 강화하지만 다른 경우에는 약화시킬 수 있다.

This is exemplified by early objective structured clinical examinations (OSCEs), which were highly structured. Many examiners complained that adding up all the scores on the individual items did not really indicate ability in the competence the OSCE was intended to assess. Depending on the specific definition of the construct, structuring the assessment may strengthen the validity argument in some cases, but weaken it in others.


채점 규칙 

Scoring rules


물론 채점 규칙의 결정이 중요한 역할을 한다. 추측guessing에 대한 벌점 적용 여부에 대한 광범위한 논쟁이 이를 잘 보여주는 예다.35

Of course, the determination of scoring rules plays an important role. The extensive debates about whether or not to apply a penalty for guessing are a good example of this.35


[학생의 지식을 하나의 구성]으로 담아내려고 한다면, [willingness to guess]는 [관찰부터 점수까지의 추론]에서 오류의 원인이 된다. 대조적으로, [학생이 실제로 어떤 지식을 사용하려고 하는지]를 평가하는 데 관심이 있다면, educated guess를 하려는 의지는 구조 관련 분산(CRV)의 원천으로 보여질 수 있다.

If one tries to capture the student’s knowledge as a construct in his or her head, willingness to guess is a source of error in the inference from observation to score. If, by contrast, one is interested in assessing which knowledge the student is willing to actually use, willingness to make an educated guess may well be seen as a source of construct-relevant variance.


또한, [더 복잡한 채점 방법]이 일반적으로 더 많은 분산을 도입하지만 (구인 관련 분산인 경우가 드물기 때문에) [단순한 1-0 접근법]보다 본질적으로 더 나은 것은 아니다. 이것은 'Granularity'와 관련된 문제다. 지나치게 상세한 채점은 구성과 관련된 분산을 증가시킬 수 있다. 논문의 경우 10점 만점에 7.35점이 있으면 단순히 존재하지 않는 정확도를 나타낸다.

Further, more complicated scoring methods are not inherently better than simple 1-0 approaches19 because although they generally do introduce more variance, this is seldom construct-relevant variance. This is an issue related to ‘granularity’. Overly detailed scoring can increase the construct-irrelevant variance: a mark of 7.35 out of 10 for a thesis suggests an accuracy that is simply not there.


문항 분석 

Item analyses


[문항 분석]은 유효성에 부정적인 영향을 미칠 수 있는 항목을 식별할 수 있기 때문에 관찰에서 점수로 추론을 개선하는 데 사용될 수 있다. 그러나 이 능력은 평가에서 시험하고자 하는 구성에 따라 달라진다.

Item analyses can be used to improve the inference from observation to score because they can identify items that might have a negative influence on validity. However, this ability depends on the construct the assessment aims to test.


만약 구조물이 균질하고 안정적이라고 가정한다면, 문항 분석은 종종 항목들의 제거로 이어진다. 이것은 구성 무관련 분산(CIR)을 제거함으로써 시험의 측정적 특성을 개선한다.

If the construct is assumed to be homogeneous and stable, item analyses often lead to the elimination of items. This improves the measurement properties of the test by weeding out construct-irrelevant variance.


그러나 시험이 [본질적으로 의미 있고 관련성이 있는 항목의 집합]으로 보여지는 경우(ATLS 교육에서 사례 상황처럼) 문항분석 결과는 어떤 항목을 주의 깊게 검토해야 할 필요성을 보여주기 위한 것이다. 이를 통해서 그 문항이 실제로 구인과 관련이 있고, 모호하지 않으며, 의미있는지를 확인하게 된다.

If, however, the test is seen as a collection of intrinsically meaningful and relevant items (as in the case situations in ATLS training), item analysis results can only serve to flag up the need to carefully review an item and check whether it is actually as relevant, unambiguous and meaningful as it was thought to be on construction.


관련성 평가

Relevancy evaluations


항목이나 평가 부분이 관련되어야 한다는 완전한 합의가 있을 수 있지만, [관련성]이 정의되는 방법 역시 구인에 대한 이론적 개념에 달려 있다.

There is probably complete agreement that items or assessment parts need to be relevant, but how relevance is defined is again dependent on theoretical conceptions about the construct.


      • 관련성은 대부분의 사람들이 알고 있는 것으로 정의될 수 있다. 그 경우에 높은 p-값(정답률)은 타당성 주장을 구성한다. 

      • 관련성을 역량 있는 사람알아야 할 것으로 정의된다면, 높은 항목-총 상관관계(Rit)와 함께 낮은 p-값이 타당성에 대한 더 나은 주장이 될 것이다. 

      • 관련성을 모든 사람들이 알아야 할 것으로 정의된다면, p-값(정답률)과 총점-문항 상관관계(Rit)는 관련성에 유용한 매개변수가 아니다. 이 경우, 어떤 항목의 관련성에 대한 질적 논거가 필요하다. 예를 들어, 학생이 갑상선의 생물피드백 메커니즘과 그 호르몬을 이해하지 못한다면, 실험실 결과를 잘 해석하지 못할 것이다.

      • Relevance can be defined as what most people know. In that case high p-values would constitute an argument for validity. 

      • If relevance is defined as what competent people need to know, low p-values in conjunction with high item–total correlations (Rit) would be a better argument for validity. 

      • By contrast, if relevance is defined as what all people should know, p-values and Rit are not useful parameters for relevancy. In this case, qualitative arguments for the relevancy of an item need to be made: for example, if a student doesn’t understand the biofeedback mechanism of the thyroid gland and its hormones, he or she will not interpret laboratory results well.


보고 및 요약

Reporting and summarising


구두 평가, 포트폴리오 및 직장 기반 평가에서 [보고 및 요약]하는 것은 정보를 '점수'로 변환하는 한 방법이다. 평균, 표준 편차 등은 정량적 방법에서 많은 양의 데이터를 점수로 변환하는 표준 방법을 나타내는 반면, 정성적 평가에서 전문가 요약은 이러한 역할을 한다.

Reporting and summarising in oral assessments, portfolios and workplace-based assessments is one way of converting information to ‘scores’. Whereas means, standard deviations and so forth represent standard ways of converting large amounts of data into scores in quantitative methods, in qualitative assessment an expert summary plays this role.


정량적 평가에서 뒷받침되는 증거는 정확한 (통계적) 기술 기법과 정확한 계산의 적용에 기초한다. 정량적 평가에서 supporting evidence는 평가자의 전문지식과 그것의 발전(교사 훈련)에 기초한다.

In quantitative assessment methods the supporting evidence is based on the application of the correct (statistical) descriptive techniques and correct calculations. In the qualitative context it is based on examiner expertise and its development (teacher training).


평가도구의 사용가능성 

Feasibility of the instrument


사용자는 평가 도구를 사용하는 데 완전히 익숙해야 한다. 그렇지 않고서야 어떻게 자신의 관측을 정확하게 점수로 환산할 수 있을까? 사용자가 평가 도구를 사용하여 관찰을 채점하는 방법이나 특정 관찰을 채점하는 위치에 대해 확신할 수 없는 경우 관찰에서 점수까지의 추론 강도는 심각하게 제한된다. 또 다른 상황은 평가 도구가 사용하기에 너무 복잡하여(예: 60항목 OSCE 양식) 관측자의 '인지 부하'가 [수행능력을 관찰하고 판단]하기보다는 [평가도구를 관리하는 방법을 알아내는 데 이용되는 경우]에 존재한다. 따라서 [관찰에서 점수까지의 타당한 추론은 평가도구가 충분히 사용자 친화적이거나 시험관이 훈련을 통해 도구에 세심하게 숙지된 경우]에만 할 수 있다.

The user must be fully comfortable with using the assessment instrument. How else can he or she correctly translate his or her observations into scores? If the user is unsure about how to score an observation using the instrument or where to score certain observations, the strength of the inference from observation to score is seriously limited. Another such situation exists if the instrument is so complicated to use (e.g. a 60-item OSCE form) that the observer’s ‘cognitive load’ is occupied by finding out how to manage the instrument rather than by observing and judging the performance. A valid inference from observation to score can therefore only be made if the instrument is sufficiently user-friendly or the examiner has been carefully familiarised with the instrument through training.


요약하면, 관찰에서 점수까지의 모든 추론에 대해 타당성 인수는 다음을 기반으로 한다. 

      • 측정 도구 제작에 사용되는 품질 절차, 

      • 사용자 및 사용자의 전문성 

      • 양 요인 간의 상호 작용 

In summary, for all inferences from observation to score, validity arguments are based on 

      • the quality procedures used to construct the measurement instrument, 

      • the expertise of the user and 

      • the interplay between both factors. 


우리는 각 (타당도) 주장의 강도가 [주장이 구인의 이론적 개념을 지지하는 정도]에 의해 결정된다는 것을 충분히 강조하고자 한다.

We cannot stress enough that the strength of each argument is determined by the extent to which it supports the theoretical notions of the construct.


추론 2. 점수에서 우주 점수까지

Inference 2. From scores to universe scores


이 두 번째 추론은 종종 '신뢰성'이라고 불린다. 이 개념은 [신뢰할 수 없는 시험은 절대 타당할 수 없다]는 격언의 기초가 된다. 그러나 그 관계는 그것보다 더 미묘한 뜻이 있다. 관측된 점수로부터 우주 점수로의 추론은 [관측된 점수의 집합이 가능한 모든 점수의 우주를 충분히 대표한다는 주장]에 근거한다.

This second inference is often referred to as ‘reliability’; this notion is the basis for the adage that unreliable tests can never be valid. However, the relationship is more nuanced than that. The inference from observed scores to universe scores is based on the argument that the observed set of scores is sufficiently representative of the universe of all possible scores.


그러므로 이 '유니버스'의 본질에 대한 생각은 필수불가결한 것이다

    • 예를 들어, 테스트-재테스트 상관관계는 유니버스(대상 영역 또는 구성물)가 [내부적으로 일관성이 있거나 동질적이라는 가정] 하에 우주 표현에 대해서만 유효한 추론이다. 

    • 만약 ['유니버스'가 이질적인 것으로 가정]한다면, 높은 시험-재고 상관관계를 찾는 것은 논리적이지도 않고 그럴듯하지도 않을 것이다. 이 경우 시험-보정 신뢰성은 양호한 우주 일반화보다는 불량함을 나타낼 수 있다.36

An idea of the nature of this ‘universe’ is therefore indispensible. 

    • For example, test–retest correlations are only valid inferences for universe representation under the assumption that the universe – the target domain or the construct – is internally consistent or homogeneous. 

    • If the ‘universe’ is assumed to be heterogeneous, it will be neither logical nor plausible to find high test–retest correlations. In this case test–retest reliability would indicate poor rather than good universe generalisation.36


고전 시험 이론

Classical test theory


크론바흐의 알파 공식과 쿠더-리처드슨 공식과 같은 고전적 시험 이론(CTT)에 기초한 절차는 시험-재시험 상관관계의 개념을 참조한다. 실제로 그들은 시험 결과의 내부 일관성을 결정한다. 물론 우리가 [유니버스 자체가 너무 동질적이어서, 독립적으로 채취한 두 표본이 동일한 결과를 초래할 것으로 예상할 수 있다고 가정]한다면, 시험-재시험 상관관계는 우주의 일반화에 유용한 접근법일 것이다. 이러한 가정에서는, 관측치 사이의 모든 변동이 일반적으로 구성 관련 분산(CIR)으로 처리된다는 결론을 얻는다.

Procedures based on classical test theory (CTT), such as Cronbach’s alpha and Kuder–Richardson formulas, refer to the notion of a test–retest correlation. In fact, they determine the internal consistency of the test results. Of course a test–retest correlation is only a useful approach to universe generalisation if we assume that the universe itself is so homogeneous that two independently taken samples can be expected to lead to the same results. A consequence of this assumption is that all variation between observations is generally treated as construct-irrelevant variance.


또 다른 가정은 관측 중에 측정 개체가 변하지 않는다는 것이다. 우리가 이전에 사용한 BP와 지능의 예에서 우리는 전자가 시시각각으로 변하고 후자가 안정감을 유지할 것으로 기대한다. 만약 우리가 낮 동안 두 가지 측정을 반복하고 대상 내에서 완벽한 일치와 대상들 간의 체계적 차이를 찾는다면, 우리는 이것을 지능 테스트의 타당성과 BP 측정의 타당성을 지지하는 주장으로 간주할 것이다.

Another assumption is that the object of measurement does not change during the observations. In the examples we used before, of BP and intelligence, we expect the former to change from moment to moment and the latter to remain stable. If we were to take repeated measurements of both during the day and were to find perfect agreement within subjects and systematic differences between subjects, we would regard this as an argument in favour of the validity of the intelligence test and against that of the BP measurement.


단수성이나 동질성이 구조에 관한 이론의 일부가 아니거나 질적 데이터가 수집되는 경우 CTT는 잘 작동하지 않는다.

In cases in which unidimensionality or homogeneity are not part of the theory about the construct or where qualitative data are collected, CTT does not work well.


일반성 이론

Generalisability theory


일반화가능도 이론(GT)은 훨씬 유연하다. 사용자가 어떤 분산 요소를 구성 관련 요소로 간주하고 구성 관련 요소로 간주해야 하는지 정확하게 정의해야 한다. 그러나, 그것은 여전히 하나의 우주 점수가 있고 이것은 함축성을 가지고 있다는 개념에서 출발한다. 예를 들어 OSCE에 있는 관측소의 총 점수에 대해 일반적 타당성 분석을 수행하는 경우, [기본적인 가정은 '스킬'의 특성이 [소생 스테이션의 점수]와 [복부 검사 스테이션의 점수]를 결합하는 행위를 방어할 수 있으며, 이 두 가지를 서로 교환할 수 있다는 것이다]. 또 다른 예로는 미니 CEX가 있는데, 여기서 일반 가능성 분석은 역사 학습 기술이 인문학적 특성과 완전히 상호 호환된다는 자동 가정을 해야 한다. 이런 가정하에, [어리석은 질문을 하지만 숙련된 의사소통 방식으로 그렇게 하는 사람]은 [불쾌한 방식으로 올바른 질문을 하는 사람]과 동일한 정도로 유능하다.

Generalisability theory (GT) is much more flexible. It requires the user to define exactly which elements of variance are to be seen as construct-relevant and which as construct-irrelevant. It still, however, starts from the notion that there is one universe score and this has implications. If, for example, a generalisability analysis is performed on the total scores of the stations on an OSCE, the underlying assumption is that the trait ‘skills’ is such that it is defensible to combine the scores on a resuscitation station with those on an abdominal examination station, and that both are interchangeable. Another example is the mini-CEX, where a generalisability analysis must make the automatic assumption that history-taking skills are completely interchangeable with humanistic qualities. On this assumption, someone who asks stupid questions but does so in a skilled communicative manner is as competent as someone who asks the right questions in an unpleasant manner.


누가 옳다는 말은 없지만, 구성 요소인 '기술'의 성격에 대해 크게 다른 견해가 있는 것은 분명하다.

There is no saying who is right, but it is clear that there are hugely different views on the nature of the construct ‘skills’.


확률론적 접근법

Probabilistic approaches


또 다른 이슈는 모든 상황이 동일한 양의 샘플링을 필요로 하는지에 관한 것이다. 7개의 미니 CEX 관측에서 매우 형편없거나 매우 잘한 후보자는 정말로 여덟 번째가 필요한가?

Another issue concerns whether every situation requires the same amount of sampling. Does the candidate who has performed very poorly or extremely well on seven mini-CEX observations really require an eighth?


하나의 이론은 [지식이 하나의 특성의 구인]이라는 가정으로부터 출발할 수 있는데, 이 가정은 [학습자의 능력이 높을수록 정답을 맞출 확률이 균일하게 증가할 것]이라는 것을 암시한다(예를 들어, 학생이 좌심장 장애에 대해 좋은 지식을 가지고 있다면, Frank-Starling 메커니즘과 심장 생리학에 대해서도 알고 있다고 가정해도 무방할 것이다). 그러한 이론적 맥락에서 [문항 반응 이론(IRT) 모델은 일반화의 유용한 수단]이다. 

One theory may start from the assumption that knowledge is a construct of a single trait which implies that there will be a uniform increase in the probability that a candidate will give a correct answer with increasing ability (e.g. if a student has good knowledge about left-sided heart failure, it will be safe to assume that he or she knows about heart failure, about Frank–Starling mechanisms and about heart physiology). In such a theoretical context, item response theory (IRT) models are useful means of generalisation. 


그러나 지식의 소유가 [서로 관련 없는 일련의 항목]으로 보이는 상황에서(예를 들어, 학생이 계면활성제가 제2형 폐렴구에 의해 생산된다는 것을 안다면, 이것은 그가 발광기 테레스 근육의 종이와 삽입이 무엇인지 자동적으로 안다는 것을 의미하지는 않는다), IRT는 덜 유용하고 이항 모델과 같은 다른 모델들은 덜 유용할 수 있다. 좀 더 적용이 되다37

In a situation in which the possession of knowledge is seen as an unrelated set of items (e.g. if a student knows that surfactant is produced by type II pneumocytes, this does not automatically mean that he or she knows what the origo and insertion of the pronator teres muscle are), IRT is less useful and other models, such as binomial models, may be more applicable.37 


정보의 포화도

Saturation of information


정보 접근법의 포화상태는 정성적 연구 방법론에서 온 것이다. 만약 우리가 [구인이 이질적이고 비차원적]이라고 가정하거나 이론화한다면, [내부 일관성 측정은 일반화를 위한 최선의 방법이 아니다]. 정보의 포화상태는 기본적으로 새로운 관찰이 이미 획득한 정보에 중요한 새로운 정보를 추가하지 않는다는 것을 의미한다. 이는 추가 진단이 진단이나 치료 작용을 바꾸지 않으면 명령해서는 안 된다는 진단 격언과 견줄 만하지만, 하나의 진단만 할 수 있다고 규정하지는 않는다.

Saturation of information approaches originate from qualitative research methodologies. If we assume or theorise the construct to be heterogeneous and non-dimensional, internal consistency measures are not the best way to generalise. Saturation of information basically means that new observations do not add important new information to that already obtained. This is comparable with the diagnostic adage that if additional diagnostics do not change the diagnosis or the therapeutic actions, they should not be ordered, but it does not stipulate that only one diagnosis can be made.


특히 학습을 위한 평가 접근방식에서 침상 예절을 목표로 하는 평가 구성요소를 설계하고자 한다면, 모든 관측치를 점수로 변환하고 일반적 타당성 계수를 계산하는 것은 실제로 그러한 복잡한 현상의 평가에 대한 정의가 되지 않을 것이다. [새로운 관찰]이 [후보가 어떻게 하고 있는지]에 대한 [정보의 만화경]에 어떤 것을 더해줄 것인지에 대해 추측하는 것은 훨씬 더 유용하고 정보가 풍부하다.

If one wants to design an assessment component aimed at bedside manners, especially from an assessment-for-learning approach, converting all observations to a score and calculating the generalisability coefficient would not really do justice to the assessment of such a complex phenomenon. Making assumptions about whether a new observation would add anything to the kaleidoscope of information about how a candidate is doing is much more useful and information-rich.


신뢰도

Credibility


비록 권위에 기반한 주장이 현재 유행하고 있지는 않지만, 물론 [신뢰성]의 문제는 유니버스의 일반화에 역할을 한다. 진단 전문지식에 대한 연구는 경험 많은 전문가들이 진단과 치료에 대한 유효한 결정에 도달하기 위해 정보가 덜 필요하다는 것을 보여준다. 이것은 평가 분야에도 쉽게 적용될 수 있다. 관찰에서 유니버스 점수에 이르는 추론을 함에 있어서, 많은 맥락에서 [전문가가 초보 평가자보다 더 적은 수의 관찰을 필요로 하는 것]이 일반적일 가능성이 높다. 따라서 관찰된 대 우주 점수 추론 주장은 초보자가 추론을 하는 것보다 [전문가 평가자가 추론을 하는 경우]에 더 강력하다.

Although authority-based arguments are not in vogue at present, the issue of credibility does, of course, play a role in universe generalisation. Research in diagnostic expertise shows that experienced experts need less information to reach valid decisions about diagnosis and treatment. This can be easily translated to the assessment field. It is highly likely – and, in many contexts, normal – that an expert requires fewer observations than a novice assessor to make the inferences from observation to universe score. Therefore, the observed-to-universe-score inference argument is stronger if the inference is made by an expert assessor than by a novice.


샘플링 스키마

Sampling schemas


샘플링 스키마(예: 청사진)는 샘플링할 도메인과 우주에 대한 관찰 샘플(항목, 미니-CEX 등)의 [대표성]을 바탕으로 한 인수에 의한 우주 일반화 추론을 지원한다.

Sampling schemas – such as blueprinting – support the universe generalisation inference by arguments based on the domain to be sampled and the representativeness of the sample of observations (items, mini-CEXs, etc.) for the universe.


      • 우주를 동질적으로 보더라도, 표본 추출은 모든 원치 않는 분산원을 평균화할 수 있을 만큼 충분히 넓어야 한다. 

      • 이와는 대조적으로 우주를 이질적인 것으로 보는 경우, 표본 추출은 우주의 모든 측면이 표본에 포함되도록 해야 한다.

      • Even if the universe is seen as homogeneous, sampling must be broad enough to average out all unwanted sources of variance. 

      • By contrast, if the universe is seen as heterogeneous, sampling must be such that all aspects of the universe are included in the sample.


추론 3. 우주 점수에서 대상 도메인까지

Inference 3. From universe score to target domain


프로세스 중 어느 시점에서 [대표 결과]는 [대상 영역에 대한 결론]을 도출할 수 있는 방식으로 [결합]되어야 한다. 평가 프로그램에서 이것은 다양한 계측기의 결과를 조합할 것을 요구한다.

At some point during the process the representative results must be combined in such a way that conclusions about the target domain can be drawn. In a programme of assessment this requires that the results of various instruments be combined.


이는 표준이 무엇인지뿐만 아니라 다양한 도구로부터 얻은 결과(특히 양적 정보와 질적 정보를 결합한 경우)를 어떻게 결합할지에 대해서도 의사결정을 내릴 것을 요구한다.

This demands that decisions be made not only about what the standards are, but also on how to combine the results of various instruments (especially if they combine quantitative and qualitative information).


표준설정

Standard setting


표준 설정은 평가에서 크게 논의되는 사안이다. 이는 타겟 영역에 대한 [이분법적 yes/no 결정에 도달하기 위해 많은 측정 정보를 줄이는 최적의 방법]에 관한 것이기 때문이다. 다시 한번 추론의 유형과 주장의 강도는 대상 영역의 이론적 개념에 따라 달라진다.

Standard setting is a heavily debated issue in assessment. This is logical because it concerns the optimal way to reduce much of the measurement information to arrive at a dichotomous yes ⁄ no decision about the target domain. Again, the type of inferences and the strength of the argument depend on the theoretical notion of the target domain.


      • [특정 시점에서 숙달되어야 하는 모듈형 대상 영역](예: 무릎 검사 수행 능력)의 경우, 일반적으로 표준 설정은 [최소 허용 수준의 숙달성]을 정의하기 위해 사용된다. 

      • [종단적 구성 요소](예: 진행률 테스트)는 전체 기간life 동안 지속적으로 개선되는 특성을 평가한다. 이 경우 상대적 또는 투입적ipsative 표준(훈련 단계나 또래 집단 또는 후보자의 과거 성과에 상대적)이 더 적용된다.

      • For modular target domains (e.g. ability to perform an examination of the knee), which should be mastered by a certain time-point, standard setting is typically used to define the minimally acceptable level of mastery. 

      • Longitudinal components (e.g. progress testing) assess characteristics that constantly improve during life. In these cases, relative or ipsative standards (relative to the phase of the training or a peer group or relative to the candidate’s past performance) are more applicable.


역학 또는 기준 기반 접근 방식

Epidemiological or criterion-based approaches


[수치적 결과]가 대상 영역의 기준으로 정의될 수 있는 경우, 이 세 번째 추론의 주장은 양성 또는 음성 예측 값과 승산비에 기초할 수 있다. 이러한 경우, 수신기 작동 특성(ROC) 곡선을 사용하여 추론 주장을 뒷받침할 수 있다.

In cases in which a numerical outcome can be defined as a criterion for the target domain, the arguments in this third inference can be based on positive and negative predictive values and odds ratios. In such cases, receiver operating characteristic (ROC) curves can be used to support the inference argumentation.


그러나 수치적 접근만이 역학 논쟁의 혜택을 볼 수 있는 것은 아니다. 몇몇 더 [이론적인 역학 개념]도 유용하다. 긍정적인 예측가치에 대한 아이디어는, 논리적으로, 고학년 학생들은 저학년 학생들과는 다른 유급률failure rate을 보여야 한다. 왜냐하면 간단히 말해서, 지속적으로 이뤄진 선발 과정으로 인해 역량이 부족한 학생이 수업에 남아있을 가능성이 감소하였기 때문이다. 따라서 1년차 코호트에서 25%의 failure rate가 허용된다고 간주되는 경우, 이는 최종 학년 그룹에서 동일한 failure rate가 허용된다는 것을 의미해서는 안 된다.

However, not only numerical approaches can benefit from epidemiological arguments. Some more theoretical epidemiological concepts are also useful. The idea of the positive predictive value gives us to understand that, logically, senior year classes should show dissimilar failure rates to more junior classes, simply because the ongoing selection process has decreased the a priori probability that an incompetent student will remain in the class. Thus, if a failure rate of 25% is considered acceptable in a first-year cohort, this should not mean that the same failure rate is acceptable in a final-year group.


보정, 연결 및 데이터 정렬

Compensation, conjunction and collation


대상 영역에 대한 좋은 추론을 도출하기 위해서는 서로 다른 평가 요소들을 결합해야 한다. 그러나 정보를 결합하는 특정 방법을 무작위로 선택하는 것은 논쟁의 강력한 근거를 제공하지 못한다.

In order to arrive at a good inference about the target domain, separate assessment elements must be combined. However, randomly choosing a certain method of combining information does not provide a strong basis for argumentation.


내용이 같을 경우 형식이 다르더라도 사물things이 잘 일반화된다는 견실한 연구에도 불구하고 2,3,5 우리는 의미 있는 내용보다는 형식이 비슷한 경우(예: 복부 검사와 무릎 검사의 OSCE 스테이션)에 요소들을 결합하는 경우가 많다.

Despite the robust finding that things generalise well across formats if the content is the same and vice versa,2,3,5 we often combine elements because they are of the same format (e.g. OSCE stations on abdominal examination and knee examination) rather than because they have similar meaningful content.


이것은 본질적으로 스킬이란 것을 [관련성이 있는 관찰된 능력의 선별된 집합]이 아니라 [단차원적 특성]으로 보는 암묵적 개념에 기초한다. 후자(단차원적 특성)에서는 보상compensation이 대상 영역에 추론을 하는 가장 좋은 방법이며, 전자(본질적으로 관련있는 관찰된 능력의 집합) 에서는 결합conjunction이 가장 좋은 방법이다.

This is based on the implicit notion of skills as a unidimensional trait, rather than as a selected set of intrinsically relevant observed abilities. In the former, compensation is the best way of making an inference to the target domain; in the latter conjunction is.


다양한 출처 또는 평가 요소의 정보가 결합되어야 하는 경우(예: 무릎 검사에 관한 OSCE 스테이션과 무릎 해부학에 초점을 맞춘 서면 검사의 부분), 결합collation과 삼각 측정이 논쟁에 더 적합한 기초가 된다. 여기서 [삼각측량을 행하고 해석하는 사람의 인간의 판단과 전문지식]은 추론의 완전성과 타당성의 기초를 형성한다 (이는 마치, 거의 같은 방식으로, 나트륨 수치와 갈증 불만사항의 조합에 의미를 부여하기 위해서는 의사의 전문지식과 필요한 것과 같다). 9,38,39

If information from various sources or assessment elements needs to be combined (e.g. an OSCE station on knee examination and the part of a written examination that focuses on knee anatomy), collation and triangulation are more suitable bases for argument. Here, human judgement and the expertise of the person doing and interpreting the triangulation formthe basis for the completeness and plausibility of the inference (in much the same way as the expertise of the doctor is needed to make meaning of the combination of information on sodium level and a thirst complaint).9,38,39

(Collate: to bring together different pieces of written information so that the similarities and differences can be seen:)


회원조회

Member checking


멤버 체크는 평가 과정에 대한 다양한 기여자의 견해만 포함하는 평가 프로그램의 모든 프로세스를 의미하지만(예: 360도 접근 방식), 또한 다음의 것들을 지속적으로 평가할 수 있도록 설계된 내부 단계도 포함한다. 

      • 대상 영역에 관한 중간 및 최종 결론이 이러한 기여자contributor의 견해와 일치하는지 여부 

      • 이러한 관점에 기초하여 작성된 추론이 유효한지 여부. 

Member checking refers to all processes in an assessment programme that not only includes the views of various contributors to the assessment process (such as in a 360-degree approach), but also includes in-built steps designed to continually evaluate 

      • whether the intermediate and final conclusions with respect to the target domain accord with the views of these contributors and 

      • whether inferences made on the basis of these views are valid. 


따라서, 멤버 체크는 대상 영역에 관한 최종 결정과 결론에 대한 [모든 행위자actor의 소유권ownership을 지지]하고, 따라서 추론의 타당성을 지지한다.

As such, member checking supports the ownership of all actors of the final decisions and conclusion with respect to the target domain and thus to the plausibility of the inference.


이러한 추론을 위해 양적 방법과 질적 방법 모두 이용할 수 있다. 

      • 순수하게 양적인 결과를 조합할 필요가 있을 때에는, 보상compensation과 연계conjunction, 예측 가치predictive value 등의 문제가 더 설득력을 갖는다. 

      • 질적 결과(질적 결과만 또는 양적 결과와 연계하여)를 사용할 때에는, 인간의 판단력이 역할을 하므로, [판단을 내리는 사람들의 전문성(교사 훈련)과 신뢰성]이 주장argument의 필수 요소다.

For this inference, both quantitative and qualitative methods are available. 

      • Whenever purely quantitative results need to be combined, issues such as compensation and conjunction, and predictive values, are more convincing. 

      • Whenever qualitative results are used (either in isolation or in conjunction with quantitative results), human judgement plays a role, and thus the expertise (teacher training) and credibility of the people making the judgements are necessary elements of the arguments.


추론 4. 대상 도메인에서 구성으로

Inference 4. From target domain to construct


기본적으로 앞의 두 가지 추론에 사용된 것과 동일한 방법과 절차를 사용하여 [대상 도메인에서 구성으로] 추론한다. 의료 역량competence의 구성을 위해, 특히 이 construct을 일련의 역량competency 영역으로 보는 현재 통용되는 관점에 비추어 볼 때, 이러한 [역량 영역competency domains이 최종 구인final construct을 구성하는 방법]에 대한 이론적이고 실질적인 개념을 갖는 것이 중요하다.

Basically the same methods and procedures used in the previous two inferences are used to make inferences from target domain to construct. For the construct of medical competence, especially in the light of the currently popular view of this construct as a set of competency domains, it is important to have a theoretical and practical notion of how these competency domains make up the final construct.


최종적인 비유로서의 건강은 세계보건기구 40에 의해 '... 육체적, 정신적, 사회적 복지가 완전한 상태일 뿐 질병이나 병약함의 부재는 아니다.'40 건강에 대한 이러한 정의는 이론적으로 유용한 구인이지만, 어떤 실제 환자에서도 거의 달성되지 않을 것이기 때문에 의료실무에서는 무용지물이다. 실제 현장에서는, [건강]은 [환자와 의사 모두 그 과정의 결과에 만족하고 있으며, 더 이상의 행동이 필요하지도, 바라지도 않는다고 결정했다는 의미]로 더 자주 이용된다.

Health as a final analogy is defined by the World Health Organization40 as: ‘...a state of complete physical, mental and social well-being and not merely the absence of disease or infirmity.’40 This is a useful theoretical construct, but it is useless in medical practice because it will almost never be attained in any real patient. In practice, health is more often used in the sense that both the patient and doctor are satisfied about the outcome of the process and have decided that further actions are neither needed nor wanted.


[CanMEDS 및 ACME 역량에 정의된 것과 같은] 역량 영역은 이론상 유용하지만, 현재로서는 평가 목적으로 무언가를 해결해주기보다는 더 많은 문제를 일으키는 구인construct을 형성한다

    • 어떤 정보를 어떤 역량에 매핑해야 하는가? 

    • 서로 다른 역량에 매핑되는 정보를 어떻게 처리해야 하는가? 

    • 한 가지 역량에 매핑되는 서로 다른 정보 소스를 어떻게 관리해야 하는가? 

    • 역량이 서로 보상할 수 있는가, 아니면 서로 결부적으로 다루어야 하는가?

Competency domains, such as those defined in the CanMEDS and ACGME competencies, are useful in theory, but, for assessment purposes, they form a construct that currently creates more problems than it solves. 

    • What information should be mapped onto which competency? 

    • How should we deal with information that maps onto different competencies? 

    • How should we manage different sources of information that map onto one competency? 

    • Can competencies compensate for one another or should they be treated conjunctively?


또 다른 논의의 쟁점이 훨씬 더 중심적일 수 있다. 의료 역량은 [모든 상황]에서 프로토콜에 부합하는 방식으로 행동할 수 있는 능력인가, 아니면 진단, 의사소통 및 치료 결정을 [각 상황에 최적으로 적용할 수 있도록 충분히 유연한 방식으로 행동]할 수 있는 능력인가? 전자에서는 추론에 대한 더 구조화된 접근법이 더 그럴듯하다. 후자에서는 좀더 해석적인 주장이 나와야 한다. 우리는 우리가 [평가하고자 하는 구인이 충분히 명확하고 그것에 대한 모든 이론적 개념이 충분히 구체적일 때에만 타당성확인의 주장이 만들어질 수 있다]는 것을 충분히 강조하고자 한다.

Another issue of discussion may be even more central. Is medical competence the ability to act in a manner that accords with protocol in every situation or is it the ability to be act in a manner that is sufficiently flexible to allow for the optimal adaptation of diagnostic, communicative and therapeutic decisions to each situation? In the former, more structured approaches to inferences are more plausible. In the latter, more interpretative arguments must be made. We cannot stress enough that the arguments of validation can only be made if the construct we want to assess is defined clearly enough and when all theoretical notions about it are sufficiently concrete.


결론 CONCLUSIONS


우리는 여기서 의료 역량의 평가의 타당성은, 특히 평가 프로그램에 기초하는 경우, 각각은 일관성이 있어야 하지만, 또한 일관되고 일관성 있는 하나의 주장 시리즈를 형성하는 데 최대 기여해야 하는 추론 프로그램에 기초해야 한다고 주장해왔다.

We have argued here that the validity of the assessment of medical competence – especially if it is based on a programme of assessment – is based on a programme of inferences, each of which must be coherent, but which must also contribute maximally to the forming of one consistent and coherent argumentation series.







. 2012 Jan;46(1):38-48.
 doi: 10.1111/j.1365-2923.2011.04098.x.

Programmatic assessment and Kane's validity perspective

Affiliations 

Affiliation

  • 1Flinders Innovation in Clinical Education, Flinders University, South Australia, Australia. Lambert.schuwirth@flinders.edu.au

Abstract

Context: Programmatic assessment is a notion that implies that the strength of the assessment process results from a careful combination of various assessment instruments. Accordingly, no single instrument is superior to another, but each has its own strengths, weaknesses and purpose in a programme. Yet, in terms of psychometric methods, a one-size-fits-all approach is often used. Kane's views on validity as represented by a series of arguments provide a useful framework from which to highlight the value of different widely used approaches to improve the quality and validity of assessment procedures.

Methods: In this paper we discuss four inferences which form part of Kane's validity theory: from observations to scores; from scores to universe scores; from universe scores to target domain, and from target domain to construct. For each of these inferences, we provide examples and descriptions of approaches and arguments that may help to support the validity inference.

Conclusions: As well as standard psychometric methods, a programme of assessment makes use of various other arguments, such as: item review and quality control, structuring and examiner training; probabilistic methods, saturation approaches and judgement processes, and epidemiological methods, collation, triangulation and member-checking procedures. In an assessment programme each of these can be used.

의학교육에서 오픈북평가: 지금이 적기다 (Med Teach, 2020)

Assessing open-book examination in medical education: The time is now

Ivry Zagury-Orlya and Steven J. Durningb



코로나바이러스 대유행은 전세계적으로 의료 교육자들이 그들의 교육과 평가를 온라인 환경에 적응하도록 강요했다. 온라인에서 학습자를 평가하면 이론적으로 시험 보안, 특히 고부담 시험(Durning et al. 2016; Fuller et al. 2020)에 대한 우려가 제기된다. 폐쇄형 시험(CBE)과 개방형 시험(OBE)의 관리는 감독되지 않은 것에서부터 오디오 및 비디오 모니터링과 지문 감식이 있는 시험 프로그램까지 다양하다(Fuller et al. 2020). 현재, OBE 대 CBE의 사용은 논쟁거리로 남아 있다 – 그 이유와 함께, OBE와 CBE 중 어느 한쪽의 사용을 지지하는 결정적인 증거가 부족하다. (Durning et al. 2016)

The coronavirus pandemic has forced medical educators, globally, to adapt their teaching and assessment to the online environment. Assessing learners online, theoretically poses a concern for test security, particularly for high-stakes testing (Durning et al. 2016; Fuller et al. 2020). Administration of closed-book examinations (CBEs) and open-book examinations (OBEs) vary from being unsupervised to test-taking programs with audio and video monitoring and fingerprint identification (Fuller et al. 2020). As of now, the use of OBE versus CBE remains a debate – with reason: definitive evidence supporting the use of one over the other is lacking (Durning et al. 2016).


CBE 또는 OBE를 사용하기로 한 결정에는 몇 가지 이론적 가정이 있다. 한 쪽에서, CBE 옹호자들은 일반적으로 

  • 첫째, CBE가 [학습자가 알고 있는 정보]의 지표로서 정보를 이해하고 인출하는 학습자의 능력을 평가하는데 필수적이라고 주장한다. (Durning et al. 2016) 

  • 둘째로, CBE를 복용하는 것은, 외관상 더 수동적인 OBE와 비교했을 때, 시험 효과의 결과로 학습자의 장기 보유에 도움이 될 수 있는 기억력에서 더 많은 노력을 필요로 할 수 있다. 그럼에도 불구하고, 최근 CBE와 OBE를 비교한 체계적 검토에서 시험 성과와 시험 효과에 대해 유의미한 차이는 발견되지 않았다(Durning et al. 2016). 

  • 셋째, 학습자는 OBE가 CBE보다 쉽다고 가정할 수 있으며, 결과적으로 OBE에 대해 덜 공부할 수 있다(Durning et al. 2016). 실제로, 체계적 검토 결과 학습자들은 OBE를 준비하는 데 더 적은 시간을 투자했지만, 포함된 37개 연구 중 70%는 OBE에 대한 사전 경험이 거의 또는 전혀 없었으며, 이는 학생들이 준비하는데 필요한 시간을 과소평가하게 만들 수도 있다(Durning et al. 2016).

There exist several theoretical assumptions underlying the decision to use CBEs or OBEs. On the one hand, advocates for CBE generally contend that, 

  • first, CBEs are essential for evaluating learners’ ability to understand and recall information as an indication of what learners know (Durning et al. 2016). 

  • Second, taking a CBE may require more effortful retrieval from memory, which, as a result of the testing effect, could benefit learners’ long-term retention, as compared to seemingly more passive OBEs (Durning et al. 2016). Nevertheless, in a recent systematic review comparing CBE and OBE, no significant differences were noted for exam performance and testing effects (Durning et al. 2016). 

  • Third, learners may assume OBEs are easier than CBEs, and may, consequently, study less for an OBE (Durning et al. 2016). Indeed, the systematic review indicated that learners invested less time preparing for an OBE; however, in 70% of the 37 studies included, participants had little to no prior experience with OBE, which may have led them to underestimate the time required to prepare (Durning et al. 2016).


반면 OBE의 지지자들은 OBE가 교육자들이 암기를 넘어 고차원의 인지 능력과 비판적 사고를 요구하는 질문을 제기할 수 있도록 한다고 주장한다. 학습자의 지식을 평가하지 않는다는 위협은 모든 것을 찾을 시간이 없도록 시험 시간을 제약시킴으로써 극복할 수 있다(Durning et al. 2016). 또는 더 좋은 방법은 'why'에 대한 질문을 함으로써 극복할 수 있다(슈워츠슈타인과 로버츠 2017; 풀러 외 2020). 이러한 질문은 검색할 수 없을 뿐만 아니라, 학습자들의 추론적 사고를 밝혀내고 그들의 사고에 도전하는데 도움을 준다. 그리고 의학지식이 핵심역량임에도 불구하고 의료학습자의 지식손실은 상당할 수 있다(D'Eon 2006).

On the other hand, proponents of OBE argue that OBEs allow educators to pose questions that require higher-order cognitive skills and critical thinking, beyond rote memorization (Durning et al. 2016). The threat of not assessing learners’ knowledge could be overcome by time-pressured tests, leaving little time to look up everything (Durning et al. 2016), or better, by asking why questions (Schwartzstein and Roberts 2017; Fuller et al. 2020), which are not only less searchable but also help to uncover learners’ reasoning and challenge their thinking. And although medical knowledge is a core competency, knowledge loss among medical learners can be significant (D’Eon 2006).


암기의 한계를 인식하는 것은 플립 교실 모델(슈워츠슈타인과 로버츠 2017)의 채택과 일치하며, 최근 미국 의료면허시험(USMLE) 1단계를 합격 또는 불합격으로 하기로 연방의료위원회(FSMB)와 국가의료심사위원회(National Board of Medical Examiners, NBME)의 결정과 일치한다. USMLE step 1에서 세 자리 성적을 없앰으로써, 학습자들은 불필요한 사실보다 더 중요하고 관련 있는 정보를 우선시할 것으로 기대한다(Prober 2020).

Recognizing the limits of rote memorization is consistent with the adoption of the flipped classroom model (Schwartzstein and Roberts 2017), and the recent decision by the Federation of State Medical Boards (FSMB) and the National Board of Medical Examiners (NBME) to make the US Medical Licensing Examination (USMLE) Step 1 exam a pass or fail assessment. By eliminating the three-digit score, learners may prioritize more essential and relevant information, over unnecessary facts, they are likely to be tested on (Prober 2020).


OBE와 CBE의 대면 비교를 넘어, OBE는 임상 실습에 보다 정통하며 다양한 전이 가능한 기술의 평가를 허용할 수 있다

  • 학습자가 고품질 정보를 얻기 위해 찾아야 하는 자원(자료)의 유형에 대해 공식적인 교육을 받고 있는가? 

  • 학습자가 시간에 제약된 환경에서 신뢰할 수 있는 증거를 적용하는 방법을 알고 있는가? 

  • 학습자가 불확실성에 대응하는 방법을 알고 있는가? 

Beyond the face-to-face comparison of OBE and CBE, OBEs are more authentic to clinical practice and may allow for assessment of various transferable skills. 

  • Do learners have formal training on the type of resources they must seek to obtain high-quality information? 

  • Do learners know how to apply credible evidence in time-constrained settings? 

  • Do learners know how to respond to uncertainty? 

이 질문들 중 많은 것은 매일 실무자들이 경험하는 것을 나타낸다. 그러나 이러한 질문들은 일반적으로 교육되거나 의도적으로 평가되지 않는다.

Many of these questions represent what practitioners experience daily; yet, these are typically not taught or purposely assessed.


온라인 OBE는 '구글 의사'를 넘어 의사가 현재 임상 실습에서 사용할 것으로 예상되는 치료 시점 자원을 실시간으로 시뮬레이션할 수 있다. 특히 OBE는 학습자가 온라인 자원을 효율적으로 효과적으로 문제 해결에 활용할 수 있도록 설계할 수 있다. 이 때 수행능력이 뛰어나다는 것은 다음과 같은 지식으로 증명될 수 있다: 

  • 무엇을 검색할 것인가, 어느 정도 배경 지식이 있어야 효과적일 수 있다. 

  • 어디서 검색할 것인가, 신뢰할 수 있는 출처를 식별하고 오보의 현저한 시대에 이성의 목소리가 되기 위해 필요한 기술 

  • 어떻게 검색할 것인가, 적절한 키워드, 유효한 검색 전략 및 적절한 리소스 탐색을 최소 시간 내에 검색하는 방법 

  • 어떻게 데이터를 효과적으로 사용할 것인가– 정보 검색에 능숙하다고 해서 지식 번역의 우수성을 의미하는 것은 아니다.

Online OBEs can provide a real-time simulation of the point-of-care resources – beyond doctor Google – that physicians are currently expected to use in their clinical practice. Specifically, OBEs can be designed for learners to utilize online resources to problem-solve efficiently and effectively. Greater performance could be evidenced by knowing: 

  • what to search, which would require some background knowledge to be effective; 

  • where to search, a necessary skill for identifying credible sources and for being the voice of reason in this striking age of misinformation; 

  • how to search, with appropriate keywords, valid search strategies, and proper resource navigation, in minimal time; and 

  • how to use the data effectively – being proficient at searching for information does not imply excellence in knowledge translation. 


또한 온라인 OBE는 일반적으로 증거 기반 의학이라고 불리는 [임상 의사결정에서 이용 가능한 최선의 증거를 적절히 식별하고 활용하는 것의 중요성]에 대한 학습자의 인식을 높일 수 있다. 과학 정보의 양이 기하급수적으로 증가함에 따라 한때 의과대학에서 일찍 습득되었던 지식은 잊혀질 뿐만 아니라 무관할 수도 있다. 온라인 OBE를 관리함으로써, 의대생과 레지던트들도 자기주도 학습자가 되어야 할 의무를 더욱 의식하게 될 수 있다. 그들은 의료행위의 끊임없는 진화에 보조를 맞추는 기술을 개발할 수 있었다.

Online OBEs may also heighten learner awareness of the importance of aptly identifying and utilizing best available evidence in clinical decision-making, commonly referred to as evidence-based medicine. With the quantity of scientific information increasing exponentially, knowledge that was once acquired early in medical school may not only be forgotten but may also be irrelevant. By administering online OBEs, medical students and residents may become more mindful of their duty to be self-directed learners. They could develop skills in keeping up with the constant evolutions of medical practice.


코로나바이러스 대유행으로 인한 CBE의 제한된 실현가능성을 고려할 때, 지금은 의료 교육자인 우리 모두가 의학교육에서 온라인 OBE의 사용을 신중하게 탐구할 때다. 

  • 첫째, 효과성을 연구하기 전에 학습자에게 저부담 환경에서 충분한 OBE 경험을 제공해야 한다. 예를 들어, 우리는 종합 평가 전에 일련의 형성적 OBE를 구현할 수 있다. 

  • 둘째, OBE가 학습자와 교수진에게 어떻게 받아들여지는지를 잘 설계된 조사와 정성적 연구 방법을 사용하여 탐구해야 한다. 

  • 셋째, 우리는 온라인 자원으로 오픈북 시험을 사용하는 것의 효율성과 효과성에 대한 연구를 고려해야 한다. 예를 들어, 현재 사용할 수 있는 시험 응시 기술을 고려할 때, 우리는 학습자가 어떤 자원을 사용하고 있는지 또는 주어진 페이지의 어떤 섹션에 가장 오랜 시간을 소비하는지 평가할 수 있다. 그러한 데이터 분석을 통해 우리는 학습자들에게 미래의 실무자로서 그들에게 도움이 될 수 있는 맞춤형 피드백을 제공할 수 있을 것이다.

Given the limited feasibility of CBEs due to the coronavirus pandemic, now is the time for us, medical educators, to thoughtfully explore the use of online OBEs in medical education. 

  • First, before studying their effectiveness, we should provide learners with sufficient OBE experience in lower-stake settings. For example, we can implement a series of formative OBEs before a summative assessment. 

  • Second, we should explore how OBEs are received by learners and by faculty using well-designed surveys and qualitative research methods. 

  • Third, we ought to consider studying the efficiency and effectiveness of using openbook exams with online resources. For example, given the test-taking technology that is currently available, we can assess what resources learners are using, or what section of any given page they spend the longest time on. Such data analytics would allow us to provide our learners with tailored feedback that could benefit them as future practitioners.


그러나 한 가지 시험 모드를 선택하는 대신에 OBE와 CBE를 결합한 혼합 접근법을 사용하여 학습자를 평가할 수 없을까? OBE와 CBE에 대한 체계적 검토의 결론은 각각 장단점과 추천에 대한 혼합된 증거를 고려할 때, 학습 프로토콜은 오픈북과 클로즈북 항목을 모두 사용하여 학습자를 평가할 수 있어야 한다고 제안했다(Durning et al. 2016).

But, instead of choosing one mode of examination over another, could we not assess learners using a blended approach, combining OBEs and CBEs? Conclusions from a systematic review on OBE and CBE suggested that we should; given the pros and cons of each, and the mixed evidence for recommending one versus the other, study protocols could assess learners using both open-book and closed-book items (Durning et al. 2016).


[필수 의료 개념에 대한 학습자의 이해를 평가해야 한다고 주장하는 CBE 지지자]들은 임상 실습에서 결국 기대되는 것인 [학습자의 정보 검색 및 번역 능력을 평가하는 능력을 가진 공개 온라인 검사를 지지하는 OBE 지지자]들과 힘을 합칠 수 있다. 혼합된 평가에는 1부에서, CBE로, 자료를 찾아보지 않고 알아야 할 개념에 대한 학습자의 평가한 뒤, 2부에서 학습자가 연구할 것으로 기대되는 주제에 대한 오픈북이 포함될 수 있다.

Proponents of CBE who reason that we must evaluate learners’ understanding of essential medical concepts can join forces with OBE supporters who advocate for an open, online examination that has the ability to assess learners’ capacity to search and translate information efficiently, as they would be expected to do in clinical practice. A mixed assessment could include a first part, closed-book, evaluating learners on concepts they should know without looking things up, followed by a second part, open-book, on topics learners are expected to research.


  • 학습자의 경우 일상적인 OBE는 [스테로이드 합성에 관한 분자적 상세한 내용]보다는 무엇이 잘못될 수 있고 왜 잘못될 수 있는지에 더 많은 초점을 맞출 수 있다. 교육자가 학습 자료를 제공하거나 탐색하기를 기다리는 대신, 몇 시간 동안 최신의 과학 문헌을 통해 학습자들은 평생 자기조절적학습자가 되는 방법을 배우고 신뢰할 수 있는 연구를 효율적으로 검색하고 해석할 수 있다. 

  • 교육자들에게 OBE는 인터넷 검색의 이점과 한계를 조사하고 학습자의 고차원의 사고 능력을 목표로 하는 데 매력적일 수 있다. 중요도가 높은 CBE에 오픈 엔드 항목을 추가함으로써, 면허소지 기관은 진품이며 증거기반 임상실무와 관련된 기술을 평가할 기회를 갖는다.

  • For learners, routine OBEs could entail focusing less on the molecular details of steroid synthesis, and more on what can go wrong and why. Rather than waiting for educators to provide learning materials or navigating, for hours, through up-to-date, scientific literature, learners can learn how to become lifelong self-regulatory learners and search and interpret credible research efficiently. 

  • For educators, OBEs could be attractive in investigating the benefits and limits of searching the Internet and in targeting their learners’ higher-order thinking skills. By adding open-ended items to high-stakes CBEs, licensing bodies have an opportunity to assess skills that are authentic and relevant to evidence-based clinical practice.



Durning SJ, Dong T, Ratcliffe T, Schuwirth L, Artino AR, Boulet JR, Eva K. 2016. Comparing open-book and closed-book examinations: a systematic review. Acad Med. 91(4):583–599.





. 2020 Aug 28;1-2.
 doi: 10.1080/0142159X.2020.1811214. Online ahead of print.

Assessing open-book examination in medical education: The time is now

Affiliations 

Affiliations

  • 1Faculty of Medicine, Université de Montréal, Montreal, Canada.
  • 2Center for Health Professions Education, Uniformed Services University of the Health Sciences, Bethesda, MD, USA.

Abstract

As a result of the coronavirus pandemic, the feasibility of holding secure closed-book examinations in medical education is compromised. In this Personal View, we compare the underlying reasoning for using open-book and closed-book exams. We rethink the role of open-book assessment and offer ways in which we believe they can complement closed-book exams. We highlight the gap in research, highlight future directions, and call on medical educators to seize our current golden opportunity to explore the impact of open-book exams - on their own or combined to closed-book tests, as a blended approach - on learners, educators, and licensing bodies.

Keywords: e-learning/computers; Assessment; best evidence medical education; evidence-based medicine; independent.


CBME를 위한 평가 진주(J Grad Med Educ, 2017)

Assessment Pearls for Competency-Based Medical Education

Susan Humphrey-Murto, MD, MEd, FRCPC Timothy J. Wood, PhD Shelly Ross, MA, PhD Walter Tavares, PhD Brent Kvern, MD, CCFP, FCFP Ravi Sidhu, MD, MEd, PhD Joan Sargeant, BN, MEd, PhD Claire Touchie, MD, MHPE, FRCPC




1. 모든 평가는 표본이다.

1. All Assessments Are Samples


전공의가 demonstrate할 것으로 기대하는 모든 것을 평가할 수 없기 때문에, 우리는 신중하게 구성된 청사진을 사용하여 의도적으로 대표 지식과 기술을 샘플링해야 한다.2 Blueprint는 평가되고 있는 내용을 정의하며, 또한 충분하고 적절한 샘플링을 보장함으로써 평가 전략이 유효하다는 증거를 제공한다. 예를 들어, 내과용 1 EPA는 "의학 바닥에서 새로운 급성 문제를 가진 입원환자를 수용하고 관리한다."3,4 전공의가 이 EPA를 완료하기 위해서는 기초과학 지식, 임상적 특징 및 관리 전략, 의사소통 기술 및 적절히 focus된 신체검진 수행 능력 등 몇 가지 역량이 필요하다. 각 역량에 대해서는 샘플링 전략이 필요하다.

It is not possible to assess everything residents are expected to demonstrate, so we must deliberately sample representative knowledge and skills using a carefully constructed blueprint.2 A blueprint defines what is being assessed; it also provides evidence that the assessment strategy is valid by ensuring sufficient and appropriate sampling. For example, 1 EPA for internal medicine is ‘‘admit and manage a medical inpatient with a new acute problem on a medical floor.’’3,4 Several competencies are required for a resident to complete this EPA: knowledge of basic science, clinical features and management strategies, as well as communication skills and the ability to perform an appropriately focused physical examination. For each competency, a sampling strategy is required.


2. 부담stakes이 높을수록 샘플이 더 많이 필요함

2. The Higher the Stakes, the More Samples Are Needed


모든 측정은 오차가 있으며, 부담이 더 높을수록 더 많은 평가점(또는 샘플)이 필요하다.5 예를 들어, 평가의 목적이 전공의에게 외래 클리닉에서 환자 관리에 대한 피드백을 제공하는 것이라면, 단일 평가가 적절할 것이다. 반면, 임상 역량 위원회(CCC)가 학습자 진급에 대한 결정을 내리고자 한다면(즉, 평가는 고득점 합격/불합격 결정을 위한 것이다), 평가자료를 1개만 사용하는 것은 방어할 수 없을 것이다. 평가의 목적(높은/낮은 부담)을 정의하면 필요한 샘플 수를 결정하는 데 도움이 될 수 있다.

All measurements have error, and the higher the stakes, the more assessment points (or samples) are required.5 For example, if the purpose of the assessment is to provide feedback to residents on the management of patients in ambulatory clinic, a single assessment would be appropriate. On the other hand, if the Clinical Competency Committee (CCC) wanted to make decisions on learner promotion (ie, the assessment is for higher-stakes pass/fail decisions), then using only 1 faculty assessment would not be defensible. Defining the purpose (high/low stakes) of the assessment can help determine how many samples are needed.


3. 쉬운 것뿐만 아니라 중요한 것이 무엇인지 평가하기

3. Assess What Is Important, Not Just What Is Easy


교육자들은 종종 무엇이 중요한지를 평가하기 보다는 쉬운 것을 평가하는 잘못을 범한다. 우리는 지필시험이 임상 역량의 모든 측면을 평가는데 사용하는 것으로는 적절하지 않다는 것을 알고 있다. CanMEDS 2015 및 ACME(Accreditation Council for Graduate Medical Education) 역량7과 같은 프레임워크에서 내면적intrinsic(의료전문가 외non-medical expert) 역할은 평가하기 어려울 수 있지만(예: 프로페셔널리즘), 이것들이 의사 역량의 중요한 요소들이다. 분명히, 의료 교육자들은 의료 지식(ACGME)이나 CanMEDS 의료 전문가medical expert 역할과 같이 평가하기 쉬운 능력뿐만 아니라, 서로 다른 영역의 역량을 평가하는 도구를 개발하는 데 있어 진전을 이루었다.

Educators often default to assessing what is easy, rather than assessing what is important. We know that using a written examination to assess all aspects of clinical competence is not adequate. The intrinsic (nonmedical expert) roles in frameworks such as CanMEDS 20156 and the Accreditation Council for Graduate Medical Education (ACGME) competencies7 can be difficult to assess (eg, professionalism), yet they are important elements of physician competence. Clearly, medical educators have made progress on developing tools to assess different areas of competence, not just the easier competencies to assess such as medical knowledge (ACGME) or the CanMEDS medical expert role.


BOX: Glossary of Terms 


임상역량위원회(CCC) : 역량 기반 의료교육의 맥락에서 CCC는 복수의 출처에서 수집된 평가 데이터를 조합해 학습자의 진척도를 평가하고 높은 수준의 의사결정을 할 교수진 구성원이 포함된 위원회다. 

Clinical Competency Committee (CCC): In the context of competency-based medical education, the CCC is a committee that includes members of the faculty who will use a combination of assessment data gathered from multiple sources to evaluate learners’ progress and make high-stakes decisions. 


역량: 연습생 또는 의사가 연습의 모든 작업을 효과적이고 일관성 있게 수행할 수 있는 일련의 능력. 그것은 복잡한 구조로 여겨진다. 

Competence: An array of abilities that enables the trainee or physician to do all tasks of practice effectively and consistently. It is considered a complex construct. 


역량: 연습생 또는 의사의 관찰 가능한 (하나의) 능력. 예: 완전하고 정확한 신체 검사를 수행하십시오. 

Competency: An observable ability of a trainee or & physician. Example: perform a complete and accurate physical examination. 


역량 기반 의료 교육: 결과 능력을 지향하고, 역량을 중심으로 조직된, 의사 교육의 접근 방법. 그것은 시간 기반 훈련을 강조하고 더 많은 유연성과 학습자 중심성을 약속한다.16 

Competency-Based Medical Education: An approach to & educating physicians that is oriented to outcome abilities and organized around competencies. It de-emphasizes time-based training and promises more flexibility and learner-centeredness.16 


구성: 행동에서 추론되는 추상적 개념의 무형의 집합. 5 예를 들어 "임상적 역량"과 "전문성"은 평가하는데 흥미가 있을 수 있지만, 작업장에서의 연습생의 행동에서 추론되는 구성물이다. 

Construct: An intangible collection of abstract concepts & that are inferred from behavior.5 For example ‘‘clinical competence’’ and ‘‘professionalism’’ are constructs that may be of interest to assess, but are inferred from the trainee’s behavior in the workplace. 


위탁 가능한 프로페셔널 활동(EPA): 특정 전문 분야에 필수적인 실제 작업으로 정의되며, 일단 역량이 확보되면 교육자에게 위탁할 수 있는 전문직업적 실천 단위. 3 EPA의 예: "다중 진료 설정에 걸쳐 급성 공통 질환 환자 관리" 17. 

Entrustable Professional Activity (EPA): Units of professional practice, defined as real-life tasks essential for a particular specialty and can be entrusted to a trainee once competence has been attained.3 Example of an EPA: ‘‘Manage care of patients with acute common diseases across multiple care settings.’’17 


저부담, 고부담 평가 : 저부담 평가는 승급·선발·인증 면에서 연습생에게 미치는 결과가 제한된 반면, 고부담 평가는 인증 실패 등 광범위한 결과를 초래할 수 있다.11 

Low-Stakes and High-Stakes Assessments: Low-stakes assessments have limited consequences for the trainee in terms of promotion, selection, or certification, whereas high-stakes assessments can have far-reaching consequences such as failure to become certified.11 


이정표: 초보자에서 전문가로 옮겨가면서 각 전문성의 단계에서 기대되는 연습생의 능력. 신경학적 신체 검사의 예: 레벨 1—완전한 신경학적 검사를 수행—레벨 4—적합한 모든 추가적 적절한 기동을 정확하게 통합한 관련 신경학적 검사를 효율적으로 수행한다.18 

Milestones: The expected ability of a trainee at a stage of expertise, as he or she moves from novice to expert. Example of neurology physical examination: level 1— performs complete neurological examination—to level 4—efficiently performs a relevant neurological examination accurately incorporating all additional appropriate maneuvers.18 


프로그램식 평가 접근 방식: 학습과 평가를 최적화하기 위해 종단적으로 배치되고 의도적으로 구성된 평가 방법의 사용. 이 프로그램에는 더 높은 지분 통과/실패 결정을 위해 집계된 몇 가지 저점 평가 데이터 포인트가 포함될 것이다.11 

Programmatic Approach to Assessment: The use of & several assessment methods arranged longitudinally and constructed deliberately to optimize learning and assessment. The program would include several low-stakes assessment data points that are aggregated for higher stakes pass/fail decisions.11 


평가자 인식: 의식적 또는 무의식적 수준에서 점수 매기기와 채점 중에 발생하는 정신적 과정.

Rater Cognition: The mental processes that occur during & scoring, at either a conscious or unconscious level.


4. 모든 평가에는 판단이 포함된다.

4. All Assessment Involves Judgment


완벽한 객관성과 표준화는 가능하지도 바람직하지도 않다시험 점수가 생성되려면 성과를 관찰한 다음 점수로 변환해야 하며, 이 점수는 반드시 해석되어야 한다. 모든 단계에는 판단이 필요하다.

Perfect objectivity and standardization is neither possible nor desirable. Considering that in order for a test score to be generated, a performance must be observed and then converted into a score, which then must be interpreted—every step involves judgment.


평가자 인식은 여러 평가자가 서로 다른 관점을 제공하고 전공의의 성과에 대한 더 풍부한 데이터를 제공할 수 있는 잠재력을 가지고 있는 강점으로써 증가된 관심을 받았다.11 반면에, 여러 평가자들에 의한 과도한 평가등급 변동은 신뢰성과 타당성에 대한 우려를 야기시켰다.12 훈련을 통해서 평가자는 개선될 수 있으나, 연구 결과는 엇갈린다.13

Rater cognition has received increased attention as a strength, where multiple raters provide different perspectives and have the potential to provide richer data about a resident’s performance.11 On the other hand, excessive variability in ratings by different raters has raised concerns about reliability and validity.12 Training raters may improve assessment quality, but results are mixed.13


승급promotion의 문턱이나 기준을 명확하게 정하려면 집단적 판단과 전문가의 공감대가 필요하다.11,14

Determining the threshold or standard for promotion clearly requires collective judgments and the consensus of experts.11,14


5. 양적, 질적 방법 상호 보완

5. Quantitative and Qualitative Methods Complement One Another


내러티브는 누적된 숫자가 가릴mask 수 있는 성과 요소를 포착하는 것으로 입증되었다. 나아가, 대부분의 직장 평가 상황과 같이 표준화되지 않은 상황에서는 피드백과 학습을 위한 훨씬 더 나은 데이터를 제공한다.11

Narratives have been shown to capture elements of performance that an accumulation of numbers may mask15; further, in unstandardized situations—such as most workplace assessment situations—narrative provides much better data for feedback and learning.11


6. 임상적 역량의 모든 측면을 파악할 수 있는 단일 평가 툴은 없음

6. No Single Assessment Tool Can Capture All Aspects of Clinical Competence


임상적 역량은 다양한 평가 도구와 전략이 필요한 복잡한 구조다.

Clinical competence is a complex construct necessitating a diverse set of assessment tools and strategies.


7. 피드백은 평가의 필수 요소

7. Feedback Is an Essential Element of Assessment


최상의 평가 관행은 하나의 교육 단위를 통과할 수 있을 만큼 충분히 잘 하는 것뿐만 아니라, 수행능력 향상에 도움이 되는 형성적 피드백의 기회를 제공하는 것이다.

best assessment practice is not only about doing well enough to pass a unit of instruction, but also providing an opportunity for formative feedback that contributes to improved performance.


8. 평가는 학습을 촉진한다.

8. Assessment Drives Learning


학습자들은 가능할 때마다 '시험에 대비하여' 학습 전략을 자신이 알고 있는 개념에 집중하여 학습할 것이다. 시험 강화 학습은 교육생들이 시험을 준비하고 완료한 후 피드백을 받을 때 학습을 포함한다.

Learners will ‘‘study to the test’’ whenever possible, focusing their study strategies on concepts they know will be examined. Test-enhanced learning involves learning as trainees prepare for the test, complete it, and then receive feedback.


9. 타당성이 평가 데이터의 가장 중요한 특성임

9. Validity Is the Most Important Characteristic of Assessment Data


간단히 말해서 타당성은 [이론과 증거가 특정 목적을 위한 평가 점수의 해석을 뒷받침하는 정도에 대한 전반적인 판단]이다.5,22 만약 어떤 전공의가 객관식 시험에서 만점을 점수를 받았다면, 우리는 과연 그 전공의가 내과의사에게 오는 모든 상담에 대비해서, 이제 책임지고first call 컨설트를 받을 준비가 되어 있다고 결론을 내릴 수 있을 것인가?

Simply put, validity is the overall judgment of the degree to which theory and evidence support the interpretation of assessment scores for a specific purpose.5,22 If a resident scores perfectly on a multiple-choice examination of knowledge, can we conclude that the resident is ready to take first call for all consultations coming to internal medicine?


객관식 시험 점수를 first call을 받을 준비가 되어 있다는 증거로 해석하는 것은 타당하지 않다: 증거(지식 시험)가 목적(전반적 역량)을 뒷받침하지 않기 때문이다. 이는 중요한 개념을 강조한다: (본질적으로) 타당하거나 타당하지 않은 테스트는 없다는 것이다. 타당성은 항상 특정 목적에 대한 시험 점수에 근거한 추론이나 판단의 적절성을 말한다.

the interpretation of the multiple-choice test score as proof of readiness to take first call is not valid: the evidence (knowledge testing) does not support the purpose (overall competence). This highlights an important concept: that there is no such thing as a valid or invalid test. Validity always refers to the appropriateness of inferences or judgments based on test scores for a specific purpose.


10. 완벽한 평가는 환상이다.

10. Perfect Assessment Is an Illusion


모든 평가와 관련된 많은 기준이 있다: 타당성, 재현성, 동등성, 타당성, 교육 효과, 촉매 효과, 수용성. 23,24 궁극적으로 평가는 항상 어느 정도의 타협을 수반한다.

There are many criteria that are relevant to any assessment: validity, reproducibility, equivalence, feasibility, educational effect, catalytic effect, and acceptability.23,24 Ultimately, assessment always involves some degree of compromise.


  • 진행상황에 대한 데이터와 피드백을 제공하는 것이 목적이라면 저부담 평가를 고려하십시오. 이 경우 실현가능성(행정의 본질), 수용성(전공의와 교직원에 대한 수용성), 교육효과(피드백 촉진), 촉매효과(교육을 강화할 결과를 제공)가 모두 중요하게 고려될 것이다. 

  • 만약 이것이 유의미한 결과를 가진 고부담 평가였다면, 방어 가능한 결과로 이어지기 위해서는 재현성(통계적으로 신뢰할 수 있는 시험)과 동등성(모든 전공의가 동일한 방법으로 시험됨)이 가장 중요할 것이다.

Consider a low-stakes assessment where the purpose is to provide residents with progress data and feedback. In this instance, feasibility (ease of administration), acceptability (for residents and faculty), education effect (facilitates feedback), and catalytic effect (provides results that enhance education) would all be considered important. If this was a high-stakes assessment with significant consequences, then reproducibility (statistically reliable test) and equivalence (every resident is tested in the same way) would be paramount to lead to defensible results.







. 2017 Dec;9(6):688-691.
 doi: 10.4300/JGME-D-17-00365.1.

Assessment Pearls for Competency-Based Medical Education

Free PMC article


의학 전문직업성 평가: 평가도구와 측정특성의 체계적 보고(PLoS One, 2017)

Assessing medical professionalism: A systematic review of instruments and their measurement properties

Honghe Li1, Ning Ding1☯, Yuanyuan Zhang2☯, Yang Liu3, Deliang Wen1*





도입 

Introduction


의료전문가의 사회에 대한 헌신이 의료전달체계 내에서 변화의 외적인 힘에 의해 도전을 받고 있는 가운데, 의료전문직업성은 고품질 환자진료를 제공하는 핵심요인 중 하나로 널리 주목을 받아 왔다[1–4]. 많은 연구에서 입증되었듯이, 전문직업성은 의사-환자 관계 개선, 환자 만족도, 의료 전문가의 경력 만족도, 그리고 심지어 건강관리 결과와도 밀접한 관련이 있기 때문에 의학의 실천에 중심적이다[4–7]. 의료 전문직업성의 핵심 요소들은 모든 의료 전문가들이 의료 서비스를 조직하고 제공할 것을 약속하고, 환자와 대중들 사이에서 신뢰를 구현하며, 각자의 분야에서 자기 감시와 개선을 하도록 요구한다[8–11]. 게다가 전문성에 대한 이해는 시간과 문화적 맥락에 따라 다르다[12]. 전문성이 복합적이고 다차원적인 구조임을 시사한다[9].

Facing medical professionals’ commitment to the society is being challenged by external forces of change within health care delivery systems, medical professionalism has received widespread attention as one of the core factors in providing high-quality patient care [1–4]. As demonstrated by many studies, professionalism is central to the practice of medicine because of its close associations with improvements in physician-patient relationships, patient satisfaction, health care professionals’ career satisfaction, and even healthcare outcomes [4–7]. The core components of medical professionalism require that all medical professionals commit to organize and deliver health care, to implement trust within patients and the public, and to self-monitor and improve in their respective fields [8–11]. Besides, understanding of professionalism varies across time and cultural contexts [12], suggesting that professionalism is a complex, multi-dimensional construct [9].


지난 30년 동안, 의료 전문직업성을 평가하기 위한 다양한 도구들이 개발되었고 많은 경험적 연구에 사용되었다[13–15].

Over the last three decades, various instruments to assess medical professionalism were developed and employed in many empirical researches [13–15].


측정도구 사용에 대한 지침을 제공하기 위한 노력의 일환으로, 발행된 여러 검토 기사에서 내용, 유형 및 구성에 대한 전문성을 평가하는 측정도구를 요약하고 비교하였다[9, 13, 15, 16, 18, 19]. 이러한 검토에 따르면 많은 측정도구들이 측정 특성에 대해 완전히 평가되지 않았으며, 이는 척도의 사용을 제한한다[9, 13, 18].

In an effort to provide guidance for instrument usage, several published review articles have summarized and compared instruments assessing professionalism with respect to their content, type, and construction [9, 13, 15, 16, 18, 19]. These reviews have indicated that many instruments have not been fully evaluated for their measurement properties, which would then limit their usage [9, 13, 18].


COSMIN(Consensus-based Standards for health status Measurement INstruction) 체크리스트는 연구의 방법론적 품질을 체계적으로 평가하기 위해 개발된 프레임워크로, 다양한 분야에서 경험적 연구의 품질을 평가하는 데 사용되어 왔다 [23–25]. 건강관리 결과를 측정하는 기구 외에도, COSMIN 체크리스트는 자가 효능감, 의사 신뢰도 및 근린 환경과 같은 다른 복잡한 건강 관련 문제의 금융상품의 품질을 평가하는 데도 사용되었다 [24, 26, 27].

The COnsensus-based Standards for the selection of health status Measurement INstruments (COSMIN) checklist is a widely accepted framework developed for systematically evaluating the methodological quality of studies [20–22] and has been used for assessing the quality of empirical studies in various fields [23–25]. Besides instruments measuring health care outcomes, the COSMIN checklist was also used to assess the quality of instruments of other complex health-related issues, such as self-efficacy, trust in physicians, and neighborhood environments [24, 26, 27].


연구 자료 및 방법

Materials and methods


검색 전략 

Search strategy


1990년 1월 1일부터 2015년 12월 31일까지 전자 데이터베이스 PubMed, Web of Science, PsycINfo에 대한 무증상 검색은 측정 속성에 대한 보고서(S1 부록)로 의료 전문성을 평가하는 연구를 식별하기 위해 실시되었다.

A systematic search of the electronic databases PubMed, Web of Science, and PsycINFOfrom January 1, 1990 through to December 31, 2015, was conducted to identify studies assessing medical professionalism with reports on measurement properties (S1 Appendix).


본 연구에서는 전문직업성을 아놀드 외 에 의한 분류에 근거하여 완전한 구성물complete construct로 파악하였다. [29] 아놀드 등에서는 의료 전문성을 평가하는 도구를 세 가지 그룹으로 분류하였다. 

    • 역량 면으로서의 전문성을 평가하는 도구, 

    • 종합적인 구성 요소로서의 전문성을 평가하는 도구, 그리고 

    • 휴머니즘과 공감과 같은 전문성의 별도 요소 평가 도구 [29]. 

이 검토에는 전문성의 개별적인 요소만을 가지는 척도가 전문성을 전체적으로 평가하는 척도로 간주되지 않았기 때문에 종합적 구성으로서 또는 역량의 한 측면으로서 전문성의 척도가 포함되었다.

In this study, we identified professionalism to be a complete construct based on the classification of instruments by Arnold, et al. [29]. Arnold, et al., classified instruments assessing medical professionalism into three groups: 

    • those assessing professionalism as a facet of competence; 

    • those assessing professionalism as a comprehensive construct; and 

    • those assessing separate elements of professionalism, such as humanism and empathy [29]. 

This review included measures of professionalism as a comprehensive construct or as a facet of competency, since any measure of only an individual element of professionalism was not considered as a measure assessing professionalism as a whole.


연구 선택

Study selection


자료 추출과 질 평가

Data extraction and quality assessments


포함된 연구의 방법론적 품질과 계측기의 측정 특성을 평가하기 전에 계측기의 짧은 이름, 작성자/년, 국가, 연구 설계, 대상 모집단, 표본 크기, 설정, 연령, 성비 등 포함된 연구의 서술적 변수를 추출했다.

Before assessing the methodological quality of the included studies and the measurement properties of an instrument, descriptive variables of the included studies were extracted, including: the short name of the instrument, author/year, country, study design, target population, sample size, setting(s), age, and sex ratio.


방법론적 퀄리티 평가

Evaluation of methodological quality of the included studies


포함된 연구의 방법론적 품질은 COSMIN 점검표에 기초하여 평가되었다[20]. COSMIN 체크리스트에는 고전적 테스트 이론(CTT) 기반 분석(내부 일관성, 신뢰성, 측정 오류, 내용 유효성, 구조적 유효성, 가설 테스트, 문화 간 유효성, 기준 유효성 및 응답성)을 위한 9개의 상자가 포함되어 있다. 이 box들은 계측기의 측정 속성에 대한 연구의 설계, 방법론 및 보고 품질의 다른 측면을 평가한다. 각 box에는 4점 척도로 측정된 5~18개 항목이 들어 있다. 문항응답이론(IRT) 모델의 경우 방법론적 품질을 평가하기 위한 상자가 1개뿐입니다. 항목 내 어떤 항목의 가장 낮은 점수는 각 상자의 전체 점수를 결정한다.

Methodological quality of the included studies was evaluated based on the COSMIN checklist [20]. The COSMIN checklist includes 9 boxes for classical test theory (CTT) based analyses (internal consistency, reliability, measurement error, content validity, structural validity, hypothesis testing, cross-cultural validity, criterion validity, and responsiveness) to rate different aspects of the design, methodological, and reporting quality of studies on instruments’ measurement properties. Each box contains 5 to 18 items measured on a 4-point scale (excellent, good, fair, or poor). For item response theory (IRT) models, there is only 1 box to rate its methodological quality. The lowest score for any item within the item determined the overall score for each box.


    • 교차 문화 타당성은 번역되거나 문화적으로 조정된 측정도구에서 항목의 성능을 결정하고, 조정된 측정도구가 원래 버전의 계측기 항목의 성능을 적절히 반영하는지 여부를 결정하는 것을 목적으로 한다. 

    • 대응성은 측정될 구조물의 시간 경과에 따른 변화를 감지할 수 있는 계측기의 능력으로서 COSMIN에 의해 정의되었다. 

9개의 측정 속성에 대한 전체 설명은 COSMIN 분류법[22]에서 얻을 수 있다. COSMIN 체크리스트와 4점 척도는 COSMIN 웹사이트[31]에서 확인할 수 있다.

    • Cross-cultural validity aimed to determine the performance of the items on a translated or culturally adapted instrument and whether or not the adapted instrument adequately reflects the performance of the items of the original version of the instrument. 

    • Responsiveness was defined by COSMIN as the ability of an instrument to detect change over time in the construct to be measured. 

A full description of the 9 measurement properties can be obtained from the COSMIN taxonomy [22]. The COSMIN checklist and the 4-point scale can be found on the COSMIN website [31].


도구의 측정적 특성 평가

Evaluation of measurement properties of the included instruments


측정 속성의 보고된 모든 측면의 추출은 COSMIN 점검표에 따라 수행되었다[20–22]. 식별된 측정의 측정 속성은 Terwee 외 연구진[32]이 개발한 측정 속성의 품질 기준[표 1에서 볼 수 있는 바와 같이]에 근거하여 평가하였으며, 이는 다양한 연구 분야에서 많은 체계적인 검토에 이용되어 왔다[33–35].

Extraction of all reported aspects of the measurement properties was performed according to the COSMINchecklist [20–22]. The measurement properties of the identified measures were evaluated based on the criteria for quality of measurement properties developed by Terwee et al [32] (as can be seen in Table 1), which have been used in many systematic reviews in different study fields [33–35].



자료 합성과 질 평가 

Data synthesis and quality assessment


향후 사용을 위한 권장 계기를 결정하기 위해, Cochrane Back Review Group[36, 37]에서 제안한 최선의 증거 합성을 수행하였고, 도구의 속성 수준은 "강", "모더레이트", "제한", "충돌", "알 수 없음"으로 분류되었다(표 2). 가장 좋은 증거 합성은 고려를 위한 세 가지 측면을 결합했다: 

    • 1) 다양한 연구에서 언급된 측정 속성의 방법론적 품질, 

    • 2) 계측기의 측정 속성의 등급, 

    • 3) 각 계측기에 대한 연구 수.

In order to determine instruments for recommendation for future use, best-evidence synthesis as proposed by the Cochrane Back Review Group [36, 37] was performed, with levels of instrument properties categorized as “strong”, “moderate”, “limited”, “conflicting”, or “unknown” (Table 2). The best-evidence synthesis combined three aspects for consideration: 

    • 1) the methodological quality of the measurement property stated by various studies, 

    • 2) the rating of the measurement properties of instruments, and 

    • 3) the number of studies for each instrument.


More rating rules can be seen in Table 2.



결과

Results


문헌 검색 및 연구 선택

Literature search and study selection


선정 과정의 세부사항은 그림 1에서 확인할 수 있다.

The details of the selection process can be seen in Fig 1.


포함된 연구 및 측정도구에 대한 설명

Description of included studies and instruments


포함된 연구의 특성 요약(S2 부록)을 보면 80개 연구 중 78개가 2000년 이후 출판된 것으로 나타났다. 80% 이상의 연구가 북미와 유럽에서 수행되었다.

The summary of the characteristics of the included studies (S2 Appendix) show that 78 of the 80 studies were published after 2000. More than 80%of studies were conducted in North America and Europe,


전문성이 종합구축(n = 44)으로 인정되는지, 역량의 면(n = 30)으로 인정받는지에 따라 총 74개의 악기가 두 가지 광범위한 범주로 나뉘었다.

A total of 74 instruments were divided into two broad categories depending on whether professionalism was recognized 

    • as a comprehensive construct (n = 44) or 

    • as a facet of competence (n = 30).


포함된 74개 계측기의 분류는 표 3에서 확인할 수 있으며, 포함된 계측기의 자세한 내용은 S3 부록에서 확인할 수 있다.

The classification of the 74 included instruments’ classification can be seen in Table 3, and details of the included instruments can be found in the S3 Appendix.


미국내과학회(ABIM)의 이론적 프레임워크[3]에 근거하여 12개 악기를 개발하였고, 

캐나다 왕립의학과외과의대학[40]에 근거한 7개 악기는 [40], 그리고 

22개 악기는 모든 악기의 55.4%를 차지하는 대학원 의학교육인증위원회[41]에 근거하였다.

    • 12 instruments were developed based on the theoretical framework of the American Board of Internal Medicine (ABIM) [3], 

    • 7 were based on the Royal College of Physicians and Surgeons of Canada (RCPSC) [40], and 

    • 22 were based on the Accreditation Council for Graduate Medical Education (ACGME) [41], accounting for 55.4%of all instruments.



포함된 연구의 방법론적 품질

Methodological quality of the included studies


내부 일관성 구조적 타당성은 가장 많이 보고된 측정 속성(각각 64개 연구와 54개 연구로 보고됨)인 반면, 

측정 오류, 신뢰성, 기준 유효성 및 응답성은 충분히 보고되지 않았으며, 후속 연구 부족으로 인해 보고되었을 가능성이 가장 높다(표 4 참조).

Internal consistency and structural validity were the most frequently reported measurement properties (reported in 64 and 54 studies, respectively), 

whereas measurement errors, reliability, criterion validity and responsiveness were not reported sufficiently, most likely due to the lack of follow-up studies (See Table 4).


표본 크기가 불충분하고 누락된 데이터를 관리하는 방법에 대한 세부 정보가 부족하여 28개 연구가 방법론적 품질에서 "공정" 또는 "불량"으로 평가되었다. 16개 연구에서 보고된 각 측정 속성은 "양호" 또는 "우수"로 평가되었다.

Inadequate sample sizes and lack of details in how missing data were managed resulted in 28 studies being rated as “fair” or “poor” in methodological quality. In 16 studies, each reported measurement property was rated as either “good” or “excellent”.


    • 17개 연구에서는 내용 타당성이 보고되었으며, 그 중 적합성이나 포괄성이 충분히 평가되지 않았기 때문에 방법론적 품질에서 11개가 "공정" 또는 "불량"으로 평가되었다. 

    • 71개 연구 중 18개 연구에서는 가설 검정을 실시했지만, 4개 연구만 '선'으로 평가되었고, 나머지는 가설을 제시하거나 가설 기대치(효과 방향이나 크기)를 명확히 진술하지 못했다. 

    • 교차 문화의 유효성은 단지 5개의 계기에 대해 시험되었고, 이 속성에서 저조한 성과는 주로 다중 그룹 확인 인자 분석의 부족에 기인했다. 

    • MSF 계수를 사용한 17개 연구 중 하나를 제외한 모든 연구는 내부 일관성 측면에서 저조한 성과를 보였는데, 이는 항목별 판매에 대한 크론바흐의 계수가 계산되지 않았기 때문이다.

    • 17 studies reported content validity, of which 11 were rated “fair” or “poor” in methodological quality because relevance or comprehensiveness was not sufficiently evaluated. 

    • 18 of the 71 studies implemented hypothesis testing, but only 4 were rated as “good”, and the rest failed to propose hypotheses or to clearly state hypothesis expectations (the directions or magnitudes of the effects). 

    • Cross-culture validity was tested for only five instruments, and poor performance in this property was mainly due to the lack of multiple-group confirmatory factor analysis. 

    • All but one of the 17 studies using MSF instruments performed poorly with respect to internal consistency, because Cronbach’s coefficients for subscales were not calculated.




측정 품질 특성

Quality of measurement properties


계측기의 측정 특성의 품질은 Terwee의 기준 [32] (표 5)에 근거하여 평가하였다. 대부분의 계측기는 성능이 우수하였으며, 내부 일관성과 구조적 타당성에서 ("+") 긍정적인 평가를 받았다. 콘텐츠 유효성의 불확실한 결과는 주로 불충분한 정보 때문이었다. 다그룹 확정요인 분석의 부족으로, 문화간 타당성에 대한 대부분의 결과도 미확정 상태로 돌아왔다. 기준 유효성에 관하여, 두 연구에서 사용된 금 표준(즉 USMLE, 프로그램GPA)이 사실 유효한 금 표준이라는 증거는 불충분했다[97, 98]. 또한, Pearson 계기와 이러한 공인된 금 표준 간의 상관관계는 0.7 미만이므로 부정적인 결과를 나타낸다. 그 결과, criterion validity은 전반적인 측정 성능이 저조한 것으로 나타났다.

The quality of instruments’ measurement properties were assessed based on Terwee’s criteria [32] (Table 5). Most instruments performed well and were rated positively (“+”) in internal consistency and structural validity. Indeterminate results in content validity were mainly due to insufficient information. Due to the lack of multiple-group confirmatory factor analysis, most results for cross-cultural validity also returned indeterminate. As for criterion validity, there was insufficient evidence that the gold standards (i.e. USMLE, programGPA) used in two of the studies were in fact valid gold standards [97, 98]. Additionally, Pearson correlations between the instruments and these recognized gold standards were less than 0.7, signifying negative results. As a results, criterion validity displayed poor overall measurement performance.



최량증거합성

Best-evidence synthesis


최선의 증거 합성은 연구 방법론적 품질의 결과(표 4)와 계측기의 측정 속성 결과(표5)를 통합하여 표 2에 요약한 방법에 따라 수행되었다. 각 계측기의 측정 특성에 대한 성능은 표 6과 같다.

Best-evidence synthesis was performed according to the method summarized in Table 2, by integrating the results of study methodological qualities (Table 4) and the results of measurement properties of instruments (Table 5). The performances of each instrument’s measurement properties are shown in Table 6.


데이터 합성 결과에 따르면 측정 속성에서 3개의 계측기는 최소 2개의 강한 양성("++") 또는 3개의 중간 양성("+") 등급을 가졌고, 측정 속성에서 제한적이거나 음성이거나 "-", "-" 또는 "-" 등급이 없는 것으로 확인되었다. 

    • 이러한 두 가지 기구, 즉 간호학 분야의 자체 관리 등급 척도는 모두 간호학과 학생들을 위한 히사르의 기구[53]와 간호학 개업의 역할 및 역량 척도[80]이다. 

    • 세 번째로는 의대생들의 역량 측면에서의 의학적 전문성에 대한 역할 모델 평가인 PFCI(Preceived Computer Competency Competency Competency Competency Registory)이다[118].

According to the data synthesis results, 3 instruments had at least two strong positive (“+++”) or three moderate positive (“++”) ratings without any limited or negative (“-”, “-” or “-”) ratings in measurement properties and were thus identified as best-rated. 

    • Two of these instruments, both self-administered rating scales in the nursing profession, were Hisar’s instrument for nursing students [53] and the Nurse Practitioners’ Roles and Competencies Scale (NPRCS) [80]. 

    • The third is the Perceived Faculty Competency Inventory (PFCI), a role model evaluation by medical students regarding medical professionalism as a facet of competency [118].




고찰

Discussion


2009년 이전과 2009년 이전에, 여러 기사에서 의료 전문성을 평가하는 데 사용되는 평가 도구 또는 기법을 체계적으로 검토하였다[9, 13, 15, 18]. 그러나 최근의 체계적 검토는 주로 특정 기기 유형(예: MSF)이나 특정 의료 분야에 초점을 맞춘다[30, 121].

Up and prior to 2009, several published articles systematically reviewed the assessment tools or techniques used to assess medical professionalism [9, 13, 15, 18]. However, recent systematic reviews mainly focus on a specific instrument type (eg. multisource feedback) or on a specific medical discipline [30, 121].


본 검토에서는 2008년부터 2015년까지 발표된 새로운 연구와 그에 상응하는 계측기를 포함하였으며, 연구 방법론적 품질과 보고된 계측기의 측정 특성을 분석하여 계측기의 선택과 사용을 용이하게 하기 위해 계측기의 특성을 요약하였다.

In this review, we included new studies and a corresponding instrument published from 2008 to 2015, analyzes the methodological quality of the studies and the measurement properties of the reported instruments, and summarizes the instruments’ characteristics in order to facilitate their selection and use.


직접 관찰(mini-CEX 및 P-MEX를 통한)과 수집된 견해(MSF 및 환자의 의견을 통한)는 전문성을 평가하는 데 중요한 도구로 입증되었다[9, 122]. 이러한 것들은 복수의 평가자와 다른 관점을 제공하며 평가, 신뢰성 및 객관성의 폭을 강화한다[9, 122]

  • 그러나, 본 연구는 전문성을 평가하는 MSF 기기가 14개가 있었음에도 불구하고, 전문성을 종합 개념으로 평가하는 MSF 기기가 거의 없다는 것을 보여주었다. 또한 MSF를 사용한 18개 연구 중 17개 연구에서는 내부 일관성에 대한 "나쁜" 방법론 등급을 얻었거나 이 속성에 대해 보고하지 않았다.

Direct observations (through mini-CEX and P-MEX) and collated views (through MSF and patients’ opinions) have been demonstrated to be crucial instruments for assessing professionalism[9, 122]. These offer different perspectives from multiple assessors and would enhance the breadth of assessment, reliability, and objectivity [9, 122]. 

  • However, despite there being 14 MSF instruments assessing professionalism as a facet of competency, this study showed that there were few MSF instruments assessing professionalism as a comprehensive concept. Furthermore, 17 of the 18 studies using MSF obtained a “poor” methodology rating for internal consistency or did not report on this property.


따라서, 기존의 MSF 계측기의 방법론적 품질을 개선·향상하거나 전문성에 특화된 MSF 계측기를 더 많이 개발해야 한다는 요구가 있다. 밀러의 택사노미[123, 124, 125]는 평가 시스템 개발을 위한 템플릿으로서 의료 교육에서 평가의 상대적 위치와 사용법을 설명하기 위해 자주 사용되어 왔다. 전문성을 comprehensive construct으로 평가하는 기존 도구들도 시뮬레이션 기구가 없어 밀러의 피라미드 모델의 'show how' 수준을 보여주지 못한 반면, 역량의 한 측면a facet of competency으로서의 전문성 평가는 이 수준에서 더 나은 성능을 보였다.

Thus, there is a calling to refine and enhance the existing methodological quality of MSF instruments or to develop more MSF instruments specific to professionalism. Miller’s Taxonomy (knows, knows how, shows, and does) [123], as a template for the development of systems of evaluation [12, 124, 125], has often been used to illustrate the relative position and usage of assessment in medical education. The existing instruments assessing professionalism as a comprehensive construct also failed to demonstrate the “shows how” level of Miller’s pyramid model because of no simulation instruments, whereas assessment of professionalism as a facet of competency held better performance in this level.


그러나 이 연구에서는, 평가도구 중 의사결정을 위한 운용상 사용을 뒷받침할 수 있는 유효성 및 신뢰성에 대한 중요한 기준을 충족하는 도구는 거의 없었다. 이전의 여러 리뷰[9, 15, 18]에서는 의료전문성 평가의 새로운 방법을 개발하는 것보다 기존 측정도구의 측정 특성을 개선하는 것이 더 실용적일 수 있다는 의견을 제시하였다. 그러나 이번 연구에 포함된 도구 중 37개가 새롭게 개발되었으며, 기존 악기 대부분이 정교함이 결여되어 있었다.

However, in this study, very few of the involved instruments met the critical criteria for validity and reliability that would support their operational use for decision-making. Multiple previous reviews [9, 15, 18] have suggested that it may be more practical to improve the measurement properties of existing instruments rather than develop new measures of assessing medical professionalism. However, 37 of the instruments involved in this study were newly developed, and most of the existing instruments lacked refinement.


적절한 후속 조치가 부족하여 많은 연구에서 신뢰성과 측정 오류가 모두 무시되었다. 표 4, 5, 6에서 볼 수 있듯이, 측정 속성의 COSMIN 정의[22] 및 COSMIN 점검표 매뉴얼의 이 측정 속성 요구[127]에 근거한 어떤 연구도 측정 오류를 보고하지 않았다. 그것은 "측정할 구성의 진정한 변화에 기인하지 않는 환자 점수의 체계적이고 무작위적인 오류"로 정의되었으며, 시점 간의 분산을 고려해야 했다. 따라서 이 검토에서 포함된 연구 중 하나는 허용 가능한 측정 오류를 보고하였다.

Both reliability and measurement error were ignored in many studies due to the lack of adequate follow-up. As can be seen in Tables 4, 5 and 6, based on the COSMIN definitions of measurement properties [22] and COSMIN checklist manual’s requirement of this measurement property [127], no study reported measurement error. It was defined as “the systematic and random error of a patient’s score that is not attributed to true changes in the construct to be measured” and needed to take into account the variance between time points. Thus, in this review one of the included studies reported acceptable measurement error.


종단적 연구 부족과 그에 따른 개입이 대응성responsiveness 평가 부족의 주요 원인이다. 또한 기준 유효성criterion validity도 거의 보고되지 않았다. 전문성이 추상적인 개념이라는 게 가장 유력한 이유다. 전문직업성 평가에 합리적인 gold standard는 말할 것도 없고, 현재 전문성에 대한 보편적인 정의는 없다. 의사 신뢰[26], 팀워크[128], 커뮤니케이션 기술[129, 130], 사교 기술[131] 등 다른 많은 분야에서도 마찬가지다.

Lack of longitudinal studies and corresponding interventions are the primary reasons for the lack of evaluation of responsiveness. Additionally, criterion validity was also rarely reported. The most likely reason is that professionalism is an abstract concept. There is currently no universal definition of professionalism, not to mention a reasonable gold standard for its assessment. This is also the case in many other fields, such as trust in physicians [26], teamwork [128], communication skills [129, 130], and social skills [131].


최량증거 합성의 요약에서 보듯이 모든 측정 속성에 대해 측정 기구를 시험한 적은 없지만, 간호학과 학생들을 위한 히사르의 계측기 [53], NPRCS [80], PFCI [118] 등 세 가지 계측기는 방법론적 품질과 측정 속성 모두에서 더 나은 성능을 보였다. 앞의 두 개의 자기보고식 등급 척도는 밀러의 택사노미의 "knows" 수준과 "knows how" 수준에 속했다. 이것은 밀러의 피라미드 모델의 높은 인지 수준에 대한 의료 전문성을 평가하는 도구와 고품질 연구의 필요성을 강조한다. 더욱이 3가지 권장기구 중 2개는 간호사의 전문성을 평가한 반면 3번째 기구는 의대생을 대상으로 했다. 이것들은 의사와 같은 다른 의료 하위 분야의 전문성을 평가하는 기구의 개발 또는 개선을 위해 참조될 수 있다.

As seen in the summary of best-evidence synthesis, no measurement instrument had been tested for all measurement properties, but three instruments—Hisar’s instrument for nursing students [53], the NPRCS [80], and the PFCI [118]—had better performance in both methodological quality and measurement properties. The former two self-administered rating scales belonged to the “knows” and “knows how” levels of Miller’s Taxonomy. This highlights the need for high-quality studies and for instruments that assess medical professionalism on higher cognitive levels of Miller’s Pyramid Model. Moreover, two of three recommended instruments assessed professionalism in nurses, while the third instrument targeted medical students. These could be referenced for the development or improvement of instruments assessing professionalism in other medical subfields, such as physicians.


결론

Conclusion


측정도구는 도구 사용 및 대상 모집단이 다양했지만, 측정 속성의 성능 및 해당 연구의 방법론적 품질이 다양했다. 구체적으로는 적절한 후속 조치가 미흡하여 많은 연구에서 신뢰성과 측정 오류가 무시되었고, 종적 연구와 그에 상응하는 개입이 부족하여 응답성이 거의 보고되지 않았다. 보고된 척도의 속성에서, 내용타당도와 준거타당도는 부정적이거나 불확실한 등급이 더 많아 계측기의 사용과 평가결과의 유의성을 제한할 수 있었다.

The instruments were diverse in tools’ use and target population, but the performance of their measurement properties and the methodological quality of the corresponding studies were varied. Specifically, reliability and measurement error were ignored in many studies due to the lack of adequate follow-up, and responsiveness was rarely reported due to lack of longitudinal study and corresponding intervention. For the measurement properties that were reported, content validity and criterion validity had more negative or indeterminate ratings, which would limit the usage of the instruments and the significance of assessment results.


9. Wilkinson TJ, Wade WB, Knock LD. A blueprint to assess professionalism: results of a systematic review. Acad Med. 2009; 84: 551–558. https://doi.org/10.1097/ACM.0b013e31819fbaa2 PMID: 19704185


19. Goldie J. Assessment of professionalism: a consolidation of current thinking. Med Teach. 2013; 35: e952–956. https://doi.org/10.3109/0142159X.2012.714888 PMID: 22938675










Review

 

. 2017 May 12;12(5):e0177321.
 doi: 10.1371/journal.pone.0177321. eCollection 2017.

Assessing medical professionalism: A systematic review of instruments and their measurement properties

Affiliations 

Affiliations

  • 1Research Center of Medical Education, China Medical University, Shenyang, Liaoning, China.
  • 2School of Public Health, Dalian Medical University, Dalian, Liaoning, China.
  • 3School of Public Health, China Medical University, Shenyang, Liaoning, China.
Free PMC article

Abstract

Background: Over the last three decades, various instruments were developed and employed to assess medical professionalism, but their measurement properties have yet to be fully evaluated. This study aimed to systematically evaluate these instruments' measurement properties and the methodological quality of their related studies within a universally acceptable standardized framework and then provide corresponding recommendations.

Methods: A systematic search of the electronic databases PubMed, Web of Science, and PsycINFO was conducted to collect studies published from 1990-2015. After screening titles, abstracts, and full texts for eligibility, the articles included in this study were classified according to their respective instrument's usage. A two-phase assessment was conducted: 1) methodological quality was assessed by following the COnsensus-based Standards for the selection of health status Measurement INstruments (COSMIN) checklist; and 2) the quality of measurement properties was assessed according to Terwee's criteria. Results were integrated using best-evidence synthesis to look for recommendable instruments.

Results: After screening 2,959 records, 74 instruments from 80 existing studies were included. The overall methodological quality of these studies was unsatisfactory, with reasons including but not limited to unknown missing data, inadequate sample sizes, and vague hypotheses. Content validity, cross-cultural validity, and criterion validity were either unreported or negative ratings in most studies. Based on best-evidence synthesis, three instruments were recommended: Hisar's instrument for nursing students, Nurse Practitioners' Roles and Competencies Scale, and Perceived Faculty Competency Inventory.

Conclusion: Although instruments measuring medical professionalism are diverse, only a limited number of studies were methodologically sound. Future studies should give priority to systematically improving the performance of existing instruments and to longitudinal studies.


맥락특이성 (When I say ...) (Med Educ, 2014)

When I say … context specificity

Cees P M van der Vleuten



사람들은, 특히 다른 사람들의 행동은 안정적인 성향에 의해 지배된다고 생각하는 경향이 있다. 특성trait은 [안정된 잠재된 실체]로서, 만약 성장이 경험의 결과로 일어난다고 한다면, 이것은 시간이 지남에 따라 지속적으로 일어난다.

People are inclined to think that behaviour, that of others in particular, is governed by stable dispositions. Traits are stable latent entities and if growth happens as a result of experience, this happens continuously over time.


그러나, 성격 심리학 연구자들이 반세기 넘게 특성을 측정하려고 노력한 후, 행동에 주된 영향을 미치는 것은 특성이 아니라 상황이라는 것을 깨닫기 시작하였다. 이것은 사람-상황 상호작용으로 패러다임을 급진적으로 바꿔놓았으며, 특성 역시 맥락-의존적 상태로 재구성되었다.

However, after researchers in personality psychology had been trying to measure traits for over half a century, the realisation dawned that it was not traits but the situation that was the dominant influence on behaviour. This sparked a radical shift to a paradigm of person-by-situation interaction, with traits re-cast as context-dependent states.1


의학 교육에서 맥락이 새롭게 중심으로 등장하면서 상당한 파문을 일으켰다. 문제 해결 능력은 더 이상 안정된 실체로 개념화되지 않았다. 사실 정반대로, 그것은 전문가와 학습자들의 독특한 경험에 따라 극단적으로 특정한 맥락이었다.

In medical education, the new centrality of context caused quite a stir. Problem-solving ability was no longer conceptualised as a stable entity. Quite the opposite in fact, it was context specific in the extreme, depending crucially on experts’ and learners’ idiosyncratic experiences.


평가에서 중요한 발견은 1960년대의 환자 관리 문제라는 한 가지 문제 해결 연습의 수행은 다른 연습에서의 수행에 대한 예측이 거의 없었다는 점이었으며, 이는 평가 방법에 걸쳐 공유된 것으로 판명된 지속적인 발견이었다. 분산 성분을 따로 떼어서 분석했을 때, 일반적으로 [측정 목적과 관련된 분산]보다 [사람-문항 상호작용]이 훨씬 커서 분산의 가장 지배적인 근원으로 식별했다.

The seminal discovery in assessment was that performance on one problem-solving exercise – the Patient Management Problem of the 1960s – was hardly predictive of performance on another exercise, a persistent finding that turned out to be shared across assessment methods. In teasing out variance components, research typically identified person-by-item interaction as the most dominant source of the greatest variance, much greater than the variance associated with the purpose of the measurement,


이것은 [일반화가능한 추론]을 하기 위해서는 표본이 (종종 불가능할 정도로) 커야 한다는 것을 암시했다.

This implied that to make generalisable inferences, samples had to be large, often unfeasibly so.


전문지식 연구와 심리측정학에서 나온 연구 결과는 사실상 모든 의학 교육 분야로 복제되었다. 심지어 프로페셔널리즘, 커뮤니케이션, 팀 성과, 리더십과 같은 일반적인 기술도 맥락 특이적인 것으로 증명되었다. Eva2는 적절한 결론을 내렸다: '맥락 특이성은 심오하게 일반적인 현상'이다.

The findings from expertise research and psychometrics were replicated in virtually all areas of medical education. Even generic skills, such as professionalism, communication, team performance and leadership proved context specific. Eva2 aptly concluded: ‘context specificity is a profoundly general phenomenon’.


심리학적 이론에서 맥락 특이성은 '소음'으로 치부된다. 하지만 과연 그럴까? 의사가 환자나 환경에 자신의 행동을 적합시킬 때 '소음'이라고 확신할 수 있는가. 만약 이것이 의사의 전문적 전문지식의 표시라면?

In psychometric theory, context specificity is dismissed as ‘noise’. But is it? Can we be sure it is ‘noise’ when a doctor fits his actions to the patient or the environment (a hectic emergency department, being on call at night)? What if this is a sign of the doctor’s professional expertise?


평가계는 복잡한 성과를 포착하기 위해서는 전문적인 판단에 의존하는 것이 안전하다는 견해를 지지하기 시작하고 있다

The assessment community is beginning to endorse the notion that it is safe to rely on professional judgement for capturing complex performances.


우리가 현재 문서화하고 있는 새로운 이해는 [평가자들이 수동적이고 완벽하게 보정된 측정기기]가 아니라 [상황적 요인과 개인적 경험의 정보를 이용하여 판단을 내리는 능동적 행위자agent]이라는 것이다.4

The new understanding that we are currently documenting is that assessors are not passive, perfectly calibrated measurement instruments, but active agents constructing judgements using information from situational factors and personal experiences.4


이러한 관점에서, 서로 다른 평가자들이 서로 유사한 판단을 내릴 것으로 예상되지 않으며, 이것은 실제로 바람직할 수도 있다! 사실, 학습의 측면에서 보자면 성과에 대한 다양한 관점이 이로운 것일 수도 있다. 또한, 우리는 숫자에 의한 채점scoring으로부터 멀어지고 있다. 복잡한 기술과 수행은 이해하기 어렵고 서술만이 제공할 수 있는 풍부한 정보가 필요하다.

From this perspective, different assessors are not expected to make similar judgements, and this may actually be desirable! Indeed, from a learning orientation, different perspectives on performance may be beneficial. Also, we are moving away from scoring by numbers. Complex skills and performances are elusive and need the wealth of information that only narrative can provide.


어쩌면 우리의 해석에 의미를 부여하기 위해 질적인 방법론을 도입해야 할지도 모른다. 목적적합한 샘플링, 회원 확인, 삼각측량 및 포화도는 복잡한 성능을 바탕으로 예측하기 위한 건전한 전략일 수 있다. 말로 점수를 대체해야 할까? 그렇다면 심리학 이론을 해석적 이론으로 대체해야 할까?

Perhaps we should invoke qualitative methodologies to give meaning to our interpretations. Purposeful sampling, member checking, triangulation and saturation may be sound strategies for making predictions based on complex performances. Should we replace scores by words? So, should we replace psychometric theories with an interpretative theory?


3 Durning S, Artino AR Jr, Pangaro L, van der Vleuten CPM, Schuwirth L. Context and clinical reasoning: understanding the perspective of the Med Educ 2011;45:927–38.






. 2014 Mar;48(3):234-5.
 doi: 10.1111/medu.12263.

When I say … context specificity

Affiliations 

Affiliation

  • 1Maastricht, the Netherlands.


학생평가에 성찰적 글쓰기 사용시 고려사항: 신뢰도와 타당도(Med Educ, 2015)

Considerations in the use of reflective writing for student assessment: issues of reliability and validity

Tracy Moniz,1 Shannon Arntfield,2 Kristina Miller,3 Lorelei Lingard,4 Chris Watling4 & Glenn Regehr5




도입 INTRODUCTION


의료 교육자는 학습자의 성찰 능력 성장을 지원하는 도구를 개발하거나, 더 깊은 의미를 얻고 미래의 행동을 인도하는 방법으로 경험을 검토, 해석 및 이해하는 능력을 개발했다.9,10 성찰적 글쓰기는 포트폴리오를 학습하는 맥락에서 점점 더 많이 사용되는 그러한 도구 중 하나이다.

medical educators have developed tools that support the growth of reflective capacity in learners, or the ability to review, interpret and understand experiences in ways that achieve deeper meaning and guide future behaviour.9,10 Reflective writing is one such tool that is used increasingly in the context of learning portfolios.4,9–22


교육 도구로서의 성찰적 글쓰기의 증가는 의학교육자들 사이에서 점차 [의대생의 성찰 능력을 '전문적 발전의 지표로서' 공식적으로 평가하기 위한 평가 도구로도 사용될 수 있다]는 기대가 늘어나는 결과를 낳았다. 즉 해석적, 관계적, 성찰적 기술에서의 정체성 형성과 성장 모두에 관하여 평가할 수 있다고 보았다. 이러한 가정과 기대를 부채질하는 것은 의학의 역량 기반 교육 운동의 성장인데, 이는 학생들이 훈련 과정 동안 중요한 이정표를 달성했다는 것을 확인하기 위한 평가 메커니즘을 필요로 한다.

The rise of reflective writing as an educational tool has resulted in tentative, but increasing, assumptions and expectations among medical educators that it can also be used as an assessment tool to formally assess a medical student’s reflective capacity ‘as an indicator of professional development’,10 with respect to both identity formation and growth in interpretive, relational and reflective skills.10,12,20,22 Fuelling these assumptions and expectations is the growth of the competency-based education movement in medicine,23,24 which requires assessment mechanisms to affirm that students have accomplished key milestones over the course of their training.


따라서 우리의 연구는 학부 의학 교육에서 평가 방법으로서 성찰적 쓰기 포트폴리오를 점점 더 광범위하게 채택하고 있는 것을 고려한다.

Our study, therefore, considers – and questions – the increasingly widespread uptake of the reflective writing portfolio as an assessment method in undergraduate medical education.



방법 

METHODS


포트폴리오 모듈 설계 

Portfolio module design


2012/2013학년도 캐나다 의대 3학년 의대생 170명이 임상실습 포트폴리오 모듈에 참여했다. 내러티브 의학에 뿌리를 둔 3 포트폴리오 모듈은 [정체성 형성의 문제, 환자의 질병 경험 이해, 사람 중심의 치료]에 집중하기 위한 학습 도구로 성찰을 사용했다.28

Over the 2012/2013 academic year, 170 Year 3 medical students at a Canadian medical school participated in the portfolio module of clerkship. Rooted in narrative medicine,3 the portfolio module used reflection as a learning tool to focus on issues of identity formation, understanding the patient’s illness experience, and person-centred care.28


학생들은 한 해 동안 완료한 네 번의 성찰적 글쓰기 연습에 대해 제공된 각 질문 목록에서 선택한 성찰적 글쓰기 프롬프트에 대한 응답으로 각각의 성찰을 작성했다. 표 1은 학생들이 선택할 수 있는 완전한 쓰기 프롬프트 세트를 보여준다.

Students wrote each reflection in response to a reflective writing prompt, which they selected from a list of prompts provided for each of the four reflective writing exercises completed throughout the year. Table 1 presents the complete set of writing prompts from which students could choose.


참가자 Participants


성찰 능력 측정 Measurement of reflective capacity


REFLECT rubric10은 신뢰성 연구의 대상이 된 반사적 글쓰기 작품에서 입증된 반사 수준을 코드화하기 위한 몇 안 되는 출판된 도구 중 하나이다.25

The REFLECT rubric10 is one of the few published tools for codifying the level of reflection demonstrated in reflective writing pieces that has been subject to studies of reliability.25


기타 학생 성취도 측정 Other measures of student performance


의대 2학년 때 학생들은 MCQ 시험을 이용해 평가한 8개 과정 모듈을 이수했다.

During the second year of medical school, students completed eight course modules assessed using MCQ examinations.


의과대학 4학년 동안 학생들은 10개의 표준화된 환자 기반 스테이션으로 구성된 OSCE를 이수했다.

During Year 4 of medical school, students completed an OSCE that consisted of 10 standardised patient-based stations.


연구는 생물의학 지식 이상을 포함하는 커뮤니케이션, 임상적 추론, 전문성과 같은 본질적 기술의 발달과 반사 능력의 개발을 연관시켰다. 이러한 점을 고려할 때, OSCE에 의해 생성된 이러한 내재적 기술(가장 두드러진 커뮤니케이션 도전에서의 성능)의 측정은 성찰적 글쓰기 능력과 관련이 있을 것으로 예상하였다.

Research has associated the development of reflective capacity with that of intrinsic skills, such as communication, clinical reasoning and professionalism,1–8 which encompass more than biomedical knowledge. Given this, we anticipated that measures of these intrinsic skills as generated by the OSCE (most notably performance on a communication challenge) would be related to reflective writing capacity.


절차 Procedure


4명의 측정자를 대상으로 한 REFLECT 루브릭에 대한 교육에는, 보충 디지털 콘텐츠를 포함하여 Wald 등이 보고한 자료에 대한 검토가 포함되었고, 루브릭을 어떻게 적용할 수 있는지에 대한 그룹 토론이 이어졌다.

Training on the REFLECT rubric for the four raters included a review of the material reported by Wald et al.,10 including the supplemental digital content, followed by a group discussion on how the rubric might be applied.


4명의 측정자는 훈련을 마친 후 참가자 성찰의 428개 표본을 모두 평가하였다(훈련에 사용된 표본을 재평가하는 것을 포함).

Following training, the four raters assessed all 428 samples of participant reflections (which included the re-rating of those used in training).


주어진 작품에 대한 최종 '성찰' 점수를 결정하기 위해, 우리는 네 명의 평가자들의 평균 점수를 사용했다.

To determine the final ‘reflection’ score for a given piece, we used the average score across the four raters.


통계 분석 Statistical analysis


표본에 대한 경주 간 신뢰도를 결정하기 위해, 우리는 4개의 쓰기 표본 세트 각각에 대한 4-Rater Cronbach의 a-값 30과 전체 428개의 표본에 대한 4-Rater a-값 및 Srout 및 Fleiss31 사례 2 단일-Rater 내 상관 계수(ICC)를 별도로 계산했다. 이 전체 표본 ICC에서 우리는 스피어맨-브라운 예언 공식 32를 사용하여 최소 0.80의 신뢰도 값을 달성하는 데 필요한 측정기 수를 결정했다.

To determine the inter-rater reliability for our sample, we separately calculated four-rater Cronbach’s a-values30 for each of the four sets of writing samples, as well as the four-rater a-value and the Shrout and Fleiss31 Case 2 single-rater intraclass correlation coefficient (ICC) for the full 428 samples. From this full-sample ICC, we used the Spearman–Brown prophecy formula32 to determine the number of raters needed to achieve a reliability value of at least 0.80.


성찰적 글쓰기 점수의 발산적/수렴적 타당도를 탐구하기 위해, 4개의 쓰기 샘플과 REFLECT 점수의 Pearson 제품-모멘트 상관 계수(r)를 통해 각 참가자의 평균 REFLECT 점수를 계산했다. 2학년 MCQ 점수(전위적 타당성)와 4학년 OSCE 점수(전위적 타당성)로.

To explore the divergent and convergent validity of the reflective writing scores, we calculated the average REFLECT score for each participant across the four writing samples and the Pearson product– moment correlation coefficients (r) of the REFLECT score with students’ Year 2 MCQ scores (divergent validity) and Year 4 OSCE scores (convergent validity).




결과 RESULTS


평가자 간 신뢰도 Inter-rater reliability


4개의 쓰기 샘플에 대한 네 평가자의 a-값은 0.72 - 0.82 범위였으며, 모든 쓰기 샘플에서 a = 0.771(단일 기록 ICC: 0.457)이었다. 스피어맨-브라운 예언 공식의 적용은 최소 0.80의 평가자 간 a-계수를 달성하기 위해 5명의 레이터가 주어진 반사를 점수화할 필요가 있음을 나타냈다.

Four-rater a-values for the four writing samples ranged from 0.72 to 0.82; across all writing samples, a = 0.771 (single-rater ICC: 0.457). Application of the Spearman–Brown prophecy formula indicated the need for five raters to score a given set of reflections to achieve an inter-rater a-coefficient of at least 0.80.


여러 글쓰기 간 신뢰도 Reliability across writing samples


표 2는 학생 참가자가 제작한 4개의 반사적 글쓰기 샘플 각각에 대한 평균, SD 및 점수 범위를 나타낸다(각각 4명의 측정자가 채점).

Table 2 reports the mean, SD and range of scores for each of the four samples of reflective writing produced by the student participants (each scored by the four raters).


4개의 쓰기 샘플 간의 상관관계는 중간(r = 0.407)에서 낮은(r = 0.097)까지 다양했으며, 4-표본 a-값은 0.541(단일표본 ICC: 0.228)이었다. 스피어맨-브라운 예언 공식의 적용에 따르면 적어도 0.80의 신뢰도 값을 얻으려면 학생당 14개의 쓰기 샘플이 필요하다.

The correlations between the four samples of writing ranged from moderate (r = 0.407) to low (r = 0.097), resulting in a four-sample a-value of 0.541 (single-sample ICC: 0.228). Application of the Spearman–Brown prophecy formula indicated that 14 writing samples per student are required to achieve a reliability value of at least 0.80.


변별 및 수렴 타당도 Divergent and convergent validity


표 3은 MCQ와 OSCE 총점, 글로벌 및 통신 점수에 대한 기술 통계량을 나타낸다.

Table 3 presents descriptive statistics for the MCQ and OSCE total, global and communication scores.


표 4는 모든 측정에 걸친 상관관계의 패턴을 보여준다. REFT 점수와의 상관관계는 통계적으로 유의하지 않았다.

Table 4 presents the pattern of correlations across all measures. None of the correlations with the REFLECT scores were statistically significant.



고찰 DISCUSSION


학부 의학 커리큘럼에서, 성찰적 쓰기는 학생들의 성찰 능력을 평가하는 주요 도구가 되었다. 4,10–12,20

In undergraduate medical curricula, reflective writing has become a primary tool for the assessment of students’ reflective capacity.4,10–12,20


이전 연구와 일관된 방식으로, 우리는 REFLECT 루브릭을 의료 교육 환경에서 반사적 쓰기 성능을 계량화하는 도구로 사용하여 합리적인 평가자 간 신뢰성을 입증했다. 우리의 연구는 지금까지 가장 큰 표본 크기를 사용했다: 107명의 참가자들이 각각 4개의 서술문을 써서 분석을 위한 총 428개의 서술문을 제공했다.

In a manner consistent with previous research, we demonstrated reasonable inter-rater reliability using the REFLECT rubric as a tool for quantifying reflective writing performance in a medical education setting. Our study used the largest sample size to date: 107 participants each wrote four narratives to provide a total of 428 narratives for analysis.


우리의 평가자 간 신뢰성은 월드 외 연구진.10이 보고한 것 보다 다소 낮았다(최종 반복에서 단일 경주자 ICC 0.632를 발견했다). 우리의 낮은 값이 샘플링 오차를 나타내는지 아니면 측정자 사이의 루브릭에 덜 친숙함을 나타내는지 우리는 모른다. 그럼에도 불구하고, 우리의 연구 결과는 적어도 0.80의 래터간 신뢰도를 얻는 데 필요한 래터 수에 영향을 미친다: 우리의 연구는 4~5명의 평가자가 필요하다고 결론내린 반면, Wald와 동료은 2~3명의 사용을 제안했다.

Our inter-rater reliability was somewhat lower than that reported by Wald et al.10 (who found a single-rater ICC of 0.632 in their final iteration). Whether our lower values represent sampling error or less familiarity with the rubric among our raters, we do not know. Regardless, our findings have implications for the number of raters needed to obtain inter-rater reliability of at least 0.80: our study concluded the need for four or five raters, whereas Wald and colleagues10 proposed the use of two or three raters based on their results.


아마도 더 놀라운 것은, 우리는 하나의 성찰적 글쓰기 능력이 다른 글의 성능을 강하게 예측하지 못한다는 것을 발견했다. 4명의 측정자 평균을 바탕으로 한 반사 쓰기 점수에 대한 단일표본 ICC는 0.228에 불과했는데, 이는 반사 쓰기 성능을 안정적으로 측정하기 위해 약 14개의 쓰기 표본이 필요하다는 것을 보여준다. 이러한 연구 결과는 성찰적 글쓰기가 [의학 교육에서 평가된 다른 많은 기술들만큼] 맥락 의존적인 것임을 암시한다. 그 결과 성찰적 글쓰기 표본 하나만으로는 학생의 반사적 쓰기 능력에 대한 특별히 정확하거나 안정적인 추정치가 되지 못한다.

Perhaps more strikingly, we found that performance on one reflective writing sample did not strongly predict performance on another. The single-sample ICC for reflective writing scores based on the average of four raters was only 0.228, which indicated that approximately 14 writing samples are required to obtain a stable measure of reflective writing performance. These findings suggest that reflective writing appears to be as context-dependent as many other skills assessed in medical education, such that a single sample of narrative reflection is unlikely to be a particularly accurate or stable estimate of a student’s reflective writing competency. 


실제로, 우리의 연구 결과는 성과에 대한 신뢰할 수 있는 추론을 도출하기 위해 학생당 14개의 반사적 쓰기 샘플이 필요하다는 것을 시사한다. 이 요건은 OSCE(성능의 안정적 추정치를 달성하려면 15~20개의 관측소가 필요함) 또는 미니임상 평가 연습(미니-CEX)과 같은 다른 평가와 호환된다(37 성능 점수에 대한 합리적인 신뢰도를 달성하기 위해 약 14개의 등급 표본이 필요함).

Indeed, our study results suggest the need for 14 reflective writing samples per student to draw reliable inferences about performance. This requirement is compatible with other assessments, such as OSCEs (which require 15–20 stations to attain stable estimates of performance36) or mini-clinical evaluation exercises (mini-CEXs) (which require around 14 samples of rating to achieve reasonable confidence in performance scores37).


성찰적 글쓰기 포퍼먼스에 대한 연구를 설계할 때, 연구자들은 표본당 너무 적은 샘플 또는 너무 적은 평가자를 사용함으로써 발생하는 부정확한 측정에 의해 연구가 제한되지 않도록 해야 한다.

in designing a study in which reflective writing performance is a dependent measure, researchers must ensure that findings are not limited by inaccurate measurements of reflective writing that result from the use of too few samples or too few raters per sample.


우리의 연구 결과는 또한 의학 교육이 현재 평가 도구로서 성찰적 글쓰기 포트폴리오를 통합하고 제공하는 방식에 상당한 변화가 필요하다는 것을 시사한다. 성찰적 글쓰기 기반 평가는 [OSCE 또는 Mini-CEX와 같은 다른 평가 도구]와 동등한 수준의 연구 및 자원 투입을 요구한다. 이 정도의 헌신이 없다면, 성찰적 글쓰기를 신뢰성과 타당도를 갖춘 평가로 자신 있게 사용될 수 없다.

Our findings further suggest the need for a significant shift in the way medical education currently incorporates and provides resources for reflective writing portfolios as assessment tools. Reflective writing-based assessment demands the same levels of research and resource commitment as have been applied to other assessment tools such as the OSCE or the mini-CEX. Without such a commitment, reflective writing cannot confidently be used as a reliable and valid form of assessment.


비록 우리가 반사적 글쓰기를 측정하는 것이 간단하지 않다는 것을 보여주었지만, 성찰적 글쓰기가 쉽게 수량화되지 않는다는 사실이 교육 도구로서의 RW의 가치를 부정하지 않는다. 사실, 차론과 헤르만38은 [성찰적 글쓰기를 계량화하려는 바로 그 노력이 그것의 교육적 가치를 훼손했을 수도 있다]고 주장해 왔다. 그들은, 의료 교육자들이 성찰적 글쓰기의 사용을 학습에서 평가로 확대함에 있어서, 성찰적 글쓰기를 환원적인 방식으로 사용하게 되었다고 제안한다. 그 결과, 성찰적 글쓰기가 학습에 대하여 가지는 잠재적 효용을 완전히 감소시킬 수 있다. 지금과 같은 평가의 맥락에서, '글쓰기란, 특정 기술이 이미 다른 곳에서 획득된 다음에, 그 기술의 달성 정도를 측정하기 위해 사용된다'.38

Although we have shown that measuring reflective writing is not simple, the fact that reflective writing is not easily quantifiable does not negate its value as an educational tool. In fact, Charon and Hermann38 have argued that the very effort of quantifying reflective writing may have undermined its educational value. They suggest that, in extending the use of reflective writing from learning to assessment, medical educators have come to use reflective writing in a reductive manner – one that may reduce its potential utility for learning altogether. In the current context of assessment, ‘writing is used to measure the attainment of the skill of reflection after that skill has somehow been attained elsewhere’.38 


글쓰기를 '발견discovery'으로 보는 대안적 관점에서는, 글쓰기란 '사실상 성찰 상태에 도달하기 위해' 사용되어야 한다고 주장한다.38 성찰적 글쓰기를 판단하고 평가할 때, 글쓰기는 '개별 학습자의 성취에 대한 정량화된 마커'에 불과하다. 성찰적 글쓰기를 판단하고 평가하면, 글쓰기가 그 자체로 성찰 기술을 가르치는 발견적 과정이 되지 못하는 것이다. 38. 평가를 목적으로 성찰적 글쓰기를 사용하는 것은 학생들이 무엇을 어떻게 쓰느냐의 성격과 방법을 변화시킨다: 그들은 '반성reflect'하기 보다는 겉으로 보이는 '수행perform'하기 위해 쓴다. [평가에 집중하는 것]은 '성찰을 통한 학습'이 더 이상 목표가 아니기 때문에 실제로 [학생의 학습 능력]과 충돌할 수 있으며, 샤론과 헤르만이 주장하듯이, '이 충동은 아마도 성찰적 글쓰기의 잠재적인 진정한 이득을 왜곡하고 낭비할 수 있다'.38

In their alternative view of writing as ‘discovery’, Charon and Hermann argue that writing should, in fact, be used ‘to attain the state of reflection’.38 The act of judging and rating reflective writing turns that writing into ‘quantified markers of individual learners’ achievements’38 instead of a discovery process that, in and of itself, teaches the skills of reflection. Using reflective writing for assessment purposes changes the nature and method of what and how students write: they write to ‘perform’ rather than to ‘reflect’. Focusing on assessment may then actually conflict with a student’s ability to learn because ‘learning through reflection’ is no longer the goal and, as Charon and Hermann argue, ‘this impulse perhaps distorts and squanders the potential deep dividends of the work of reflective writing’.38


우리의 자료를 토대로 볼 때, 개개인의 안정적인 구조로서 반사능력에 대한 의미 있는 결론을 도출하기 위해서는 학생당 14개의 쓰기 샘플이 필요한 것으로 보이며, 각 샘플은 4~5명의 측정자가 평가해야 한다. 이러한 적지 않은 요구사항은 학부 의학교육에서 성찰적 글쓰기를 평가 도구로 사용하는 것의 타당성과 유용성에 관한 중요한 고려사항을 제기한다.

Based on our data, it seems that to draw meaningful conclusions about reflective capacity as a stable construct in individuals requires 14 writing samples per student, each of which must be assessed by four or five raters. This daunting requirement raises important considerations regarding the feasibility and utility of using reflective writing as an assessment tool in undergraduate medical education.


우리는 이번 연구가 학생들의 성찰능력을 평가하기 위한 성찰적 글쓰기의 사용에 관한 중요한 경고의 이야기를 제공한다고 믿는다. 적어도 우리의 자료는 그 분야가 평가 도구로서 반사적 글쓰기를 사용하는 방향으로 계속 나아가고 있다면, 향후 연구는 실행하기에 신뢰할 수 있고 타당하며 실용적인 반사적 글쓰기의 척도 개발에 초점을 맞춰야 한다고 제안한다. 아마도 더 비판적으로, 우리의 결과는 교육적 도구로서 성찰적 글쓰기의 사려 깊은 사용의 필요성을 강화시키고, 유의미하게 충족시킬 수 없는 목적을 위하여 성찰적 글쓰기를 급작스럽게 채택하는 것을 경계한다.

we believe our findings offer an important cautionary tale regarding the use of reflective writing to assess students’ reflective capacity. At minimum, our data suggest that if the field continues to move towards the use of reflective writing as an assessment tool, then future research must focus on the development of measures of reflective writing that are reliable, valid and practical to implement. Perhaps more critically, our results reinforce the need for the thoughtful use of reflective writing as a pedagogical tool, and caution against its precipitous adoption to serve purposes it cannot meaningfully fulfil.


38 Charon R, Hermann N. A sense of story, or why teach reflective writing? Acad Med 2012;87 (1):5–7.










. 2015 Sep;49(9):901-8.
 doi: 10.1111/medu.12771.

Considerations in the use of reflective writing for student assessment: issues of reliability and validity

Affiliations 

Affiliations

  • 1Department of Communication Studies, Mount Saint Vincent University, Halifax, Nova Scotia, Canada.
  • 2Department of Obstetrics and Gynaecology, Western University, London, Ontario, Canada.
  • 3Department of Health and Rehabilitation Sciences, Western University, London, Ontario, Canada.
  • 4Centre for Education Research and Innovation, Western University, London, Ontario, Canada.
  • 5Centre for Health Education Scholarship, University of British Columbia, Vancouver, British Columbia, Canada.

Abstract

Context: Reflective writing is a popular tool to support the growth of reflective capacity in undergraduate medical learners. Its popularity stems from research suggesting that reflective capacity may lead to improvements in skills such as empathy, communication, collaboration and professionalism. This has led to assumptions that reflective writing can also serve as a tool for student assessment. However, evidence to support the reliability and validity of reflective writing as a meaningful assessment strategy is lacking.

Methods: Using a published instrument for measuring 'reflective capacity' (the Reflection Evaluation for Learners' Enhanced Competencies Tool [REFLECT]), four trained raters independently scored four samples of writing from each of 107 undergraduate medical students to determine the reliability of reflective writing scores. REFLECT scores were then correlated with scores on a Year 4 objective structured clinical examination (OSCE) and Year 2 multiple-choice question (MCQ) examinations to examine, respectively, convergent and divergent validity.

Results: Across four writing samples, four-rater Cronbach's α-values ranged from 0.72 to 0.82, demonstrating reasonable inter-rater reliability with four raters using the REFLECT rubric. However, inter-sample reliability was fairly low (four-sample Cronbach's α = 0.54, single-sample intraclass correlation coefficient: 0.23), which suggests that performance on one reflective writing sample was not strongly indicative of performance on the next. Approximately 14 writing samples are required to achieve reasonable inter-sample reliability. The study found weak, non-significant correlations between reflective writing scores and both OSCE global scores (r = 0.13) and MCQ examination scores (r = 0.10), demonstrating a lack of relationship between reflective writing and these measures of performance.

Conclusions: Our findings suggest that to draw meaningful conclusions about reflective capacity as a stable construct in individuals requires 14 writing samples per student, each assessed by four or five raters. This calls into question the feasibility and utility of using reflective writing rigorously as an assessment tool in undergraduate medical education.

프로그램적평가의 이론적 고려사항(Med Teach, 2020)

Theoretical considerations on programmatic assessment

Dario M. Torrea, L. W. T. Schuwirthb and C. P. M. Van der Vleutenc,d




도입

Introduction


PA(Programmatic assessment)는 평가를 시스템이나 프로그램 전체로 보는 평가 접근방식이다(Van der Vleuten and Schuwirth 2005). 최적의 건설적 정렬을 달성하기 위해 의도적인 방법 조합을 사용한다(Bigs 1996). PA의 각 개별 평가는 전형적으로 학습에 최적화된 데이터 지점일 뿐이다. 즉, 데이터 포인트당 합격/불합격 결정이 이루어지는 것이 아니라, 데이터 포인트 간에 충분한 정보를 수집한 후에야 통과/실패 결정을 의미한다. PA에서는 주기적으로 성찰과 자기조절학습이 촉진되는데, 이는 데이터 포인트에서 얻은 정보에 대해 정기적으로 진척 상황을 논의하는 코치(실적 데이터를 수집하여 사용하는 교수진)와 논의하기 때문이다. 충분한 데이터가 수집된 후에야, 일반적으로 (독립적) 평가위원회 형태에서 총괄적 결정이 이루어진다(PA의 핵심 측면에 대한 개요는 표 1 참조). 거의 모든 경우에서 PA는 이른바 학습을 위한 평가AfL라는 철학과 연관되어 있다.

Programmatic assessment (PA) is an approach to assessment in which assessment is seen as a system or a program as a whole (Van der Vleuten and Schuwirth 2005). It uses a deliberate mix of methods to achieve optimal constructive alignment (Biggs 1996). Each individual assessment in PA is merely a data point which is typically optimized for learning. This means that pass/fail decisions are not taken per data point, but only after enough information across data points has been collected. In PA, self-regulated learning is promoted by periodic reflection by the learners on the information received from the data points and with coaches (faculty members who gather and use performance data to stimulate and support students in managing their learning) who regularly discuss the learner’s progression. Only when sufficient data are collected, a summative decision is taken, usually in the form of an (independent) committee of assessors (see Table 1 for an overview of the core aspects of PA). In almost all cases, PA is associated with a so-called assessment for learning philosophy (Schuwirth and Van der Vleuten 2011).


그러나 PA의 이론적 기반은 명확하게 설명되지 않았다.

However, the theoretical underpinnings of PA have not been clearly described.

  • 첫 번째 그리고 가장 분명한 이유는 다른 과학 영역과 마찬가지로 의학 교육 뒤의 과학은 이론과 그에 뒤따르는 가설에 대한 실험적인 테스트를 통해 발전하기 때문이다. 

  • 또 다른 중요한 이유는 이론이 연구 결과를 이해하는데 중요하며, 특정 현상이 발생하는 이유를 이해하면 교육자들이 한 교육적 맥락에서 다른 교육적 맥락으로 연구 결과를 적용adapt할 수 있다는 것이다(Cianciolo et al. 2013).

  • The first and most obvious reason is that, like any scientific domain, the science behind medical education progresses through experimental testing of theories and their ensuing hypotheses. 

  • Another important reason is that theories are important for making sense of research findings and that understanding why certain phenomena occur allows educators to adapt research findings from one educational context to another (Cianciolo et al. 2013).

우리는 여기서 경고할 것이 있다. 이 글의 목적은 특정 이론이 PA의 교리를 설명하는데 다른 이론보다 낫다고 주장하는 것이 아니다.

We want to express a caveat here. The purpose of this article is not to argue that one particular theory is better than others to explain the tenets of PA.


표 1. 프로그램 평가의 특성.

Table 1. Characteristics of programmatic assessment.


프로그램은 각각의 개별적인 방법의 강점과 약점이 어떻게 시너지적으로 결합되는지를 바탕으로 의도적으로 복수의 측정도구를 사용한다.

The program uses multiple instruments deliberately based on how each individual method’s strengths and weakness are combined synergistically.


PA의 평가는 학습자의 강점, 약점 및 진행상황에 대한 정보를 수집하고 수집하는 지속적이고 종단적 과정이다.

The assessment in PA is a continual and longitudinal process during which information about the learner’s strengths, weaknesses, and progress is collected and collated.


학습자에 대한 정보는 평가도구 내withn에서 수집되지 않고(예: OSCE의 한 스테이션과 다른 스테이션의 성과를 결합한 결과) 평가도구들 사이의 의도적 삼각 측량(다른 평가 방법의 관련 정보와 함께 OSCE 스테이션에서의 성과)하여 역량에 대한 의미 있는 "진단"에 도달한다.

Information about the learner is not collated within instruments (such as the result on one station in an OSCE being combined with performance on another station) but purposefully triangulated across instruments (performance on the OSCE station with relevant information from another assessment method) to arrive at a meaningful “diagnosis” of competence.


의사결정은 비례적이다; 평가결정의 부담은 그것이 근거하는 정보의 풍부함에 비례한다.

Decision-making is proportional; the stakes of an assessment decision are proportional to the richness of the information on which it is based.


평가 프로세스의 품질과 효용성은 표준 심리측정, 멤버체킹, 포화, 단계별 복제, 전문성 개발 등 다양한 품질 보증 프로세스에 의해 결정된다.

Quality and utility of the assessment process are determined by a variety of quality assurance processes, including standard psychometrics, member checking, saturation of information, stepwise replication, and expertise development.


핵심은 통해 정보를 풍부하게 유지하는 것으로서, 이를 통해서 (환원주의자와 달리) 전체적인holistic 역량의 평가가 가능하다. 한 가지 방법은 포트폴리오를 통한 수집이다.

The focus is on keeping the information rich, for instance through collection in a portfolio, to enable holistic, as opposed to reductionist, assessment of competence.


초기 초점은 학습에 대한 평가 정보를 (단순히 행동주의적인 방식이 아니라) 학습을 위하여, 학습자에게 의미 있는 방식으로 사용하는 데 있다.

The initial focus is on using the assessment information on driving learning in a way that is meaningful to the learner rather than merely behaviorist.


성공적인 학습과 개선은 다른 학생들보다 더 잘하기 보다는 각각의 학생이 될 수 있는 최고의 건강 전문가가 되는 것으로 정의된다.

Successful learning and improvement are defined as becoming the best health professional each student can be, rather than being better than the other students.


핵심은 [피드백을 수용하거나 사용하려 하지 않(못)하거나, 피드백을 학습의 원동력과 개선의 동력으로 사용하지 않(못)으려고 하는] 학습자를 식별하는 데 있다.

The focus is on identifying those learners who are unable or remain unwilling to accept and use feedback and demonstrate using it to drive their learning and to improve.


PA에서는 피드백 루프를 항상 닫혀야 한다.

In PA, the feedback loop has to be closed all the time.


PA는 다소 체계적이고 학교 통제적인 평가에서 자기 소유의 평가와 학습에 이르기까지 학습자의 기관과 학습 진전에 대한 책임을 점진적으로 증가시키려 한다.

PA seeks to gradually increase the learner’s agency and accountability for their own learning and progress, starting from rather structured and school-controlled assessment to self-owned assessment and learning.



프로그래밍 방식 평가: 모델

Programmatic assessment: The model


1. 교육활동은 일련의 [학습과제]를 수반하며, 교육설계원칙에 근거한 커리큘럼을 만드는 데 기여하는 방식으로 정비된다.

1. Training activities involve a series of learning tasks and are arranged in such a way that they contribute to create a curriculum based on principles of instructional design


2. [평가 활동]은 학습자에게 의미 있고 지속적인 학습과 성장을 지원하도록 설계된다. 그들은 교사에게 다양한 평가 방법에서 얻은 복수의 평가 데이터 포인트를 제공한다.

2. Assessment activities are designed to be meaningful to the learner and to support ongoing learning and growth. They provide the teacher with multiple assessment data points from a wide array of assessment methods.


a. 평가자의 주요 임무는 각 데이터 지점의 정보를 활용하여 학습자에게 피드백을 제공하고, 또한 이전 평가 정보에 기초하여 학습자의 진행 상황에 대한 결정을 내리는 것이다. 저부담 데이터포인트 정보는 평가자에 의해 나중에 활용될 수 있다.

a. The main task of the assessor is to provide feedback to the learner by utilizing the information from each data point and to make a decision about the progress of the learner also based on previous assessment information. Low-stake data point information can be later utilized by the assessor.


b. 평가와 훈련training 활동은 매우 밀접하게 연관되어 있으며 때로는 같을 수도 있다. 대부분의 평가 과제는 개발적이지만 숙달 지향적인 것도 있다. 숙달 지향적 과제는 보통 고부담이지만, 그것은 여전히 피드백의 기회가 있으며, 저부담 활동과는 완전히 관련이 없거나 영향을 받지 않을 수 있다.

b. Assessment and training activities are very closely interrelated and sometimes, they may be the same. Most assessment tasks are developmental but some are mastery-oriented. A mastery-oriented task is high stakes, but it does still constitute an opportunity for feedback and may not be completely unrelated or unaffected by low-stakes activities.


3. 따라서 평가 활동은 종단적 방식으로 이루어진다. PA에는 지속적으로 정보를 수집하는 과정이 있으며(공식적 평가를 통해 이뤄지거나, 비공식적/공식적 피드백을 통해 이뤄진다), 정기적인 성찰과 교수/코치와의 미팅을 진행한다. 학습자의 피드백 수행enactment은 평가의 필수적인 부분이다.

3. Assessment activities happen therefore in a longitudinal fashion. There is a continuous process of collecting information – either through formal assessments or through informal and formal feedback – in a dossier or portfolio with periodic reflections and meetings with a faculty member/coach. The enactment on feedback by the learner is an integral part of the assessment.


4. 지원활동에는 성찰적 학습과 자기조절학습이 포함된다. 학습자는 학습 및 평가 활동의 정보에 기초하여 성찰적 학습을 수행한다. 자기조절학습은 학생을 지도하고 멘토링하는 교직원의 서포트를 받는다. 사회적 상호작용은 성찰활동과 자기조절 학습을 위한 비계scaffold를 제공한다.

4. Supporting activities include reflective and self-regulated learning. Reflective learning performed by learners is based on information from learning and assessment activities. Self-regulated learning is supported by faculty through students’ coaching and mentoring. Social interaction provides a scaffold for reflective activities and self-regulated learning.


5. 중간 및 최종 평가는 연속체에 걸친 훈련과 평가 활동 전반에 걸쳐 교차하는 의사결정 지점이다. 중간 평가는 교정조치 지향적remediation-oriented이며, 학습을 위한 정보가 풍부한 권장사항을 제공하며, 학습자의 종단적 개발을 목표로 한다.

5. Intermediate and final evaluations are decision points interspersed throughout training and assessment activities across the continuum. Intermediate evaluations are remediation-oriented, provide information-rich recommendations for learning, and are aimed at the longitudinal development of the learner.


6. 최종 평가는 학습자가 프로그램을 진입/진학할progress 수 있는지 또는 종료해야 하는지 여부를 결정한다는 목표를 가진 고부담 결정이다. 복수의 데이터 포인트와 중간 평가의 정보를 활용하여 판단을 내리는 전문가 위원회에 의해 달성된다(Van der Vleuten et al. 2012).

6. The final evaluation is a high-stakes decision with the goal of determining whether the learners can progress in the program or should exit. It is achieved by a committee of experts who make a judgment utilizing information from multiple data points and intermediate evaluations (Van der Vleuten et al. 2012).


이론적 특

Theoretical frameworks


PA 기본원칙: 의미 구축

Fundamental PA principle: Meaning making


PA에서 의미와 의미구축이 중심적인 역할을 한다. PA 의미구축에서, 학습자는 자신이 이용할 수 있는 모든 정보를 분석하고 삼각측량하여 특정한 장점과 약점을 식별하도록 요구되거나, 그렇게 할 동기를 부여 받는다. 그 결과 학습자는 정보의 의미를 적극적으로 구축하고, 자신의 성과를 새롭게 파악하며, 향후 학습을 위한 구체적인 계획을 설계한다

Meaning and meaning making play a central role in PA. In PA meaning making, learners are required or incentivized to analyze and triangulate all information available to them, identifying specific strengths and weaknesses. As a result, learners actively construct meaning of the information, develop a new understanding of their performance, and design concrete plans for future learning. 


평가 방법에 걸쳐 정보를 삼각측량할 수 있도록 교사와 학습자는 정보가 결합합으로써 의미를 파악할 수 있어야 한다. 이는 임상의사가 병력청취와 신체검사 결과(Tweed and Wilkinson 2019)를 결합하여 의미를 파악하는 것과 비슷하다. 의미구축은 또한 건설적인 피드백의 제공과 유용하고 실행 가능한 학습 목표의 형성에 중요하다. 몇 가지 이론은 왜 이것이 더 나은 판단과 더 나은 학습으로 이어질 수 있는지를 뒷받침한다.

In order to be able to triangulate information across assessment methods, the teacher and learner must be able to see meaning in the way the information is combined – much like a clinician sees meaning in combining a lab result with a history taking response and a physical examination finding (Tweed and Wilkinson 2019). This meaning making is also important for the provision of constructive feedback and the formulation of useful and actionable learning goals. Several theories underpin why this would lead to better judgments and better learning.


설명 이론: 구성주의자 및 사회적 구성주의자

Explanatory theories: Constructivist and social constructivist


[구성주의적 접근법]에서 학습은 능동적인 의미 생성 과정으로 간주된다. 학습은 미래의 문제 해결을 위해 지식을 보유하고 접근하기 위해 내부적으로 구성되어야 한다. 이 이론은 더 많은 지식과 이해는 '구성construction'이라고 기술하고 있는데, 이것은 학습자가 기존의 지식과 이해에 기반하여 적극적으로 구축되어야 하고 따라서 수동적으로 획득되지 않는다는 것을 의미한다. 학습은 또한 이해관계자(학습자와 교사)와 교사들 사이의 사회적 활동이다(Dewey 1938; Bruner 1960; Vygotsky 1978; Bruner 1986). 따라서 [효과적인 학습이라는 목적을 가진 상호작용]은 이해관계자들 사이의 shared meaning making에 달려 있다.

In a constructivist approach, learning is seen as an active process of meaning making, positing that knowledge has to be constructed internally in order to be retained and accessible for future problem-solving. The theory states that further knowledge and understanding are constructions, which means that they have to be actively built on existing knowledge and understanding and are therefore not acquired passively. Learning is also seen as a social activity between stakeholders (learners and teachers) and teachers facilitate and support students’ active involvement with the material (Dewey 1938; Bruner 1960; Vygotsky 1978; Bruner 1986). Interaction with the purpose of effective learning thus depends on shared meaning making between the stakeholders.


사회적 구성주의는 인지 발달과 깊은 이해에서 [사회적 과정의 가치]를 강조한다. 다른 사람들과의 결정적 상호작용은 기존 지식에 대한 새로운 지식의 구축을 촉진할 뿐만 아니라 학습자들이 그들의 이해를 구성하고 재구성하도록 한다. 따라서 그들은 사회적이고 협력적인 환경을 통해 학습된 지식과 이해에 대한 다양한 의미 있는 관점을 만들어 낸다. 따라서 학습 과정의 협력적 성격과 문화적 사회적 맥락의 중요성을 강조한다. 인지 과정의 강화는 사회적 상호작용에서 비롯되고, 사회적 상호작용의 결과다. 학습은 [학습자에 의한 새로운 지식의 동화]일 뿐만 아니라 학습은 [학습자가 지식 공동체로 통합되는 과정]이기도 하다(Vygotsky 1978; Bruner 1986). 따라서 의미 부여와 의미 있는 상호작용은 이러한 프로세스의 필수불가결요소이다.

Social constructivism stresses the value of the social process in cognitive development and deep understanding. The critical interactions with others not only facilitate the building of new knowledge on existing knowledge but also make the learners construct and reconstruct their understanding. Thus, they create various meaningful perspectives on the learned knowledge and understanding through a social and collaborative setting. It emphasizes, therefore, the collaborative nature of learning and the importance of the cultural and social context in the learning process. This strengthening of cognitive processes originates in and is the result of social interactions. Learning is not only the assimilation of new knowledge by learners, but it is also the process by which learners become integrated into a knowledge community (Vygotsky 1978; Bruner 1986). Meaning making and meaningful interaction are therefore sine qua nons for these processes.


기본 PA 원리: 종단성

Fundamental PA principle: Longitudinality


PA에서도 학습자의 진행 상황에 대한 정보를 종단적으로 수집하는 접근법은 중요하다. 그것은 더 긴 기간 동안의 평가 참여가 가능하게 하며, 스냅숏보다는 더 많은 장면을 제공한다. 또한, 의사결정의 부담이 데이터의 신뢰성, 풍부성 및 견고성에 비례해야 하는 비례성 원칙(Schuwirth et al. 2017)이 있다. 이 원칙에 따르면, 오랜 시간 동안 평가에 참여한다면prolonged engagement, 여러 평가의 데이터 포인트를 수집하고 수집하는 데 더 많은 시간을 사용할 수 있고, 고부담 의사결정에 대한 이해관계자 수가 늘어날 것이다. 그리고 평가 피드백이 이전의 피드백에 기반하여 구축build on될 수 있도록 한다.

The approach to collect information about the learner’s progress longitudinally is important in PA as well. It provides a longer assessment engagement and thus more of a movie rather than a snapshot. Further, in accordance with the principle of proportionality (Schuwirth et al. 2017)in which the stakes of the decisions have to be proportional to the credibility, richness, and robustness of data, prolonged engagement allows for more time to collect and collate multiple assessments’ data points and greater stakeholder numbers in relation to high stakes in decision making and it enables the assessment feedback to better build on previous feedback.


설명 이론: 구성주의자 및 사회 구성가

Explanatory theories: Constructivist and social constructivist


듀이(1938년)는 수십 년 전, 모든 경험은 이전의 경험에 의해 형성되고 '어떤 식으로든 다음에 오는 경험의 질을 변화시킨다는' [경험의 연속성]의 원리를 기술했다(p. 27). 연속성의 원칙에 기초하면, 효과적인 교육은 지속적인 성장의 과정으로 간주되고 경험의 질은 이후의 경험에 영향을 미치는 방법으로 의도된다. 따라서 경험의 연속성의 원칙은 지속적인 학습을 지원하기 위해 평가, 훈련 및 지원 활동을 배치하는 PA의 중요한 측면이다.

Dewey (1938), many decades ago, described the principle of continuity of experience in which every experience is shaped by the previous experience and ‘modifies in some ways the quality of those which come after’ (p. 27). Based on the principle of continuity, effective education is seen as a process of continuous growth and the quality of the experience is intended as a way to influence later experiences. The principle of continuity of experience is therefore an important aspect of PA in which assessment, training, and supporting activities are arranged to support ongoing learning.


이것은 비고츠키(1978년)와 푸에르슈타인 등의 작업에 의해 더욱 지원되며(2002년), 여기서 핵심은 정적 평가와 반대되는 동적 평가 개념이다. 동적 평가는 assisted performance를 통한 학습자의 미래 발전을 목표로 한다. 그것은 단순히 학생이 특정 시점에 무엇을 할 수 있느냐(배움의 관점에 대한 더 많은 평가)가 아니라, 학생이 피드백과 도움(배움에 대한 평가)에 어떻게 대응할 수 있느냐에 대한 것이다. 그러므로 강조되는 것은 과거에 배운 것이 아니라 현재와 미래에서 배울 수 있는 것에 있다

This is further supported by the work of Vygotsky (1978) and Feuerstein et al. (2002) in which the concept of dynamic assessment, opposed to static assessment, is central. Dynamic assessment aims at the future development of the learner through a process of assisted performance. It is not merely about what the student can do at a certain point in time (more an assessment of learning perspective) but how the student could respond to feedback and assistance (assessment for learning). The emphasis is therefore not on what has been learned in the past but on what can be learned in the present and the future. 


현대 교육에서, 이것은 불가능한 기대가 아니다; 평생학습에 대한 기대가 증가함에 따라, 우리는 – 행동주의자와 같은 방식의 – 통제는 졸업으로 끝나며, 대학의 사회에 대한 책임은 졸업과 함께 시작된다는 것을 깨닫는다. ...다음의 것들은 [사회적 학습 맥락에서 발생하는, 사회 구성주의 이론적 프레임워크에 기반을 둔] PA의 요소 중 하나이다.

    • 학습자에게 피드백을 지속적으로 전달하며, 학습을 지원하고 만들기 위한 평가 활동의 배치

    • 학생들을 지도하고 지도하는 교육자  역할

    • 고부담 또는 저부담 결정을 내리는 전문가 위원회를 구성하는 평가자 간의 사회적 상호의존성과 상호작용 

In modern education, this is not an implausible expectation; with the increasing expectation of the lifelong learner, we realize that the – behaviorist – span of control ends with graduation and the university’s responsibility to society starts with graduation. 

    • The arrangement of assessment activities to support and create learning with constant delivery of feedback to learners, 

    • the role of teachers in coaching and mentoring students, and 

    • the social interdependence and interactions among assessors in the setting of a committee of experts who make high or low stakes decisions 

...are some of the elements of PA that occur in a social learning context and are grounded in a social constructivist theoretical framework.


앞선 학습이 다음에 뒤따를 학습에 미치는 영향의 중요성을 감안하여, PA는 지식의 재구조화가 일어날 수 있도록 하는 교육적 핵심 요소를 포함한다. PA는 새로운 지식 구조의 개발을 위한 비계를 만들고 학생들에게 새로운 상황에서 개념과 전략을 적용할 수 있는 지속적인 기회를 제공한다. 이러한 맥락에서, 가르침과 평가는 학습의 목표, 특히 [현재의 이해]와 [추구하는 새로운 이해 사이]의 격차를 좁히는 목표를 향해 혼합blend된다. 학습을 위한 평가AfL와 학습의 평가AoL 구성요소의 조합은 (다른 평가 행위와 도구의 여러 데이터 포인트에 의해 지원되는) 교육 연속체 전체에 걸쳐 지속적인 평가를 가능하게 한다.

In view of the importance of prior learning as an influence on new learning, PA includes key elements of pedagogic practice that allow knowledge restructuring to occur. PA creates the scaffold for the development of new knowledge structures and provides students with continuous opportunities to apply concepts and strategies in novel situations. In this context, teaching and assessment are blended toward the goals of learning, particularly the goal of closing gaps between current understanding and the new understandings sought. The combination of components of assessment for and of learning allows creating a continuous assessment across an educational continuum supported by multiple data points from different assessment practices and tools.


기본 PA 원칙: 지속적인 피드백 및 피드백 루프 닫기

Fundamental PA principle: Continuous feedback and closing the feedback loop


PA에서는 피드백의 제공 및 획득과 피드백 루프의 폐쇄를 위한 중심 역할이 존재한다. 이것은 형성적 평가와 혼동되어서는 안 된다. 그보다, 이것은 [피드백 과정을 학습을 유도하는 최적의 접근방식으로 사용하는 것]에 관한 것이다. 이는 학생들이 피드백을 사용해야on board하고, 후속 학습 목표에서 의도한 개선을 이루었음을 증명해야 한다는 것을 의미한다. 

In PA, a central role exists for the provision and uptake of feedback and closing the feedback loop. This is not to be confused with formative assessment; instead, it is about an approach in which the feedback process is used to optimally drive student learning. This means that the student has to take the feedback on board and has to demonstrate that the ensuing learning goals have led to the purported improvement. 


이것은 [PA의 총괄적 측면]이란 일회성으로 특정 합격 점수를 획득하는 것이 아니라, 외부 세계에서도 수용할 수 있는 목표에 상호 합의하는 지속적인 과정이라는 것을 의미한다. 이것은 학습자에게 쉬운 과정이 아니며 종종 학습자들을 그들의 안전 영역 밖으로 밀어낼 것이다. 다양한 이론들이 이것이 효과적인 학습을 용이하게 하는 이유를 설명한다.

This means that the summative aspect in PA is not the attainment of a certain cutoff score in a one-off occasion but a continuous process of reaching mutually agreed upon targets which are also acceptable to the outside world. This is not an easy process for the learner and will often push them outside of their comfort zone. Various theories explain why this facilitates effective learning.


설명 이론: 인지적 및 인지적 발달 방향

Explanatory theories: Cognitivist and cognitive development orientation


동화 이론(Ausubel 2012)과 인지 개발 이론(Vygotsky 1978)은 PA의 중요한 이론적 신조다. 동화 이론은 새로운 사상이 확립된 사상이나 관념에 의해 관련되고 동화되었을 때 효과적으로 학습되어 새로운 인지 구조를 만들 수 있다고 가정한다. PA에서는 새로운 데이터 포인트가 이전의 '기존의established' 데이터 포인트에 지속적으로 동화되며, 평가 데이터는 이전의 확보된 평가 데이터와 동화되어 중간 및 최종 평가로 이어진다.

Assimilation theory (Ausubel 2012) and the theory of cognitive development (Vygotsky 1978) are important theoretical tenets of PA. Assimilation theory posits that new ideas are effectively learned when they are related to and assimilated by established ideas or notions, so that they can create a new cognitive structure. In PA, new data points are continually assimilated to previous ‘established’ data points, and assessment data are assimilated to previous established assessment data, leading to both the intermediate and final evaluation of the model.


Vygotsky의 인지 발달 이론에서, 하나의 중심 목표는 인지 갈등을 만들어 인지 성장을 장려하는 것이다.

In Vygotsky’s theory of cognitive development, one central aim is to encourage cognitive growth by creating cognitive conflict,


Vygotskian 이론의 핵심 개념은 학습자의 실제 개발과 잠재적 개발 사이의 공간 또는 거리로 의도된 근위부 개발 영역(ZPD)이다. ZPD는 학습과 개발이 상호 작용하는 영역을 나타내며 개발 준비의 척도를 제공한다. ZPD에 있는 어려운 과제들은 최대치의 인지적 성장을 촉진한다따라서 교육자가 종단적 저부담 평가와 고부담 평가를 통합하므로써, ZPD에서 학습자의 성과를 점진적으로 평가할 수 있는 기회를 만든다면, PA에서 새로운 통찰력을 제공할 수 있을 것이다. ZPD는 [세계에 대한 학습자의 기존 개념]이 [새로운 정보]와 충돌할 때 존재하며, 이는 학습자 자신의 능력에 대한 자기 인식에도 적용된다.

A key concept of the Vygotskian theory is the zone of proximal development (ZPD) which is intended as the space or distance between the actual and potential development of a learner. The ZPD represents an area in which learning and development interact and it provides a measure of developmental readiness. Challenging tasks that are in the ZPD promote maximum cognitive growth. Therefore, the opportunity for educators to progressively assess learners’ performance in the ZPD, integrating longitudinal lowand high-stakes assessment information, may provide a new insight in PA and deserves further exploration. The ZPD exists when the learner’s existing conceptualizations about the world clash with new information, and this applies to self-conceptualizations about the learner’s own competence as well.


이것은 메지로의 변혁적 학습 이론(Mezirow 2002)에 의해 제시된 혼란스러운 딜레마와 유사하다. 이 딜레마는 여러분 주변의 세계와 학습자로서 여러분 자신을 이해하는 출발점이 된다. PA의 개발 구조와 지원 활동은 ZPD에서 학생과 교사의 상호작용을 허용하며, 따라서 인지 발달과 인지적 변화를 촉진한다.

This is similar to the disorientating dilemma as posited by Mezirow’s transformative learning theory (Mezirow 2002), in which the disorientating dilemmas serve as a starting point for reframing understanding, both of the world around you and of yourself as a learner. The developmental structure and supporting activities of PA allow the interaction of students and teachers in the ZPD, therefore promoting cognitive development and cognitive change.


기본 PA 원칙: 학습에 대한 평가 및 학습에 대한 평가

Fundamental PA principle: Assessment for learning and assessment as learning


학습을 위한 평가AfL로서 PA는 [교육 과정과 평가 과정 사이의 경계가 더 모호]하다는 점에서 더 전통적인 접근 방식과는 다르다. 보다 전통적인 접근법에서 평가는 단지 교육 과정의 결과를 측정하는 것을 목적으로 한 교육 이외의 과정으로 볼 수 있는 반면, PA에서 평가와 교육은 서로 불가분한 영역이다. 이것은 아마도 철학적 입장에서 가장 어려운 변화일 것이다. 그러나 PA가 왜 전통적인 평가보다 더 나은 학습자 역량의 개발을 지원하는지에 대한 타당한 이론적 뒷받침이 있다.

The PA as an assessment for learning approach is different from a more traditional approach in that the lines between educational and assessment processes are fuzzier. In the more traditional approaches, assessment can be seen as a process extrinsic to education, merely aimed at measuring the outcome of the educational process, whereas in PA, the assessment process is an inextricable part of education. This is perhaps the most difficult change in philosophical stance but there is, again, plausible theoretical underpinning of why PA supports the development of learner competence, likely even better than traditional assessment.


설명 이론: 교육적 설계 및 구성주의적 지향 이론

Explanatory theories: Theory of instructional design and constructivist orientation


학습 과제와 평가 활동의 상호 결합을 '학습으로서의 평가'라고 부르기도 한다. 학습 과제에는 TBL 또는 PBL 소그룹 튜토리얼, 자율학습, 강의, 역사 및 신체검사 작성, 문제해결 과제 등 학습으로 이어지는 여러 가지 학습 활동이 포함될 수 있다. 학습 과제 분석에는 목표와 활성화 목표를 달성하는 데 필요한 필수 역량의 식별이 포함된다(Gagne 등 2005).

The interweaving of learning tasks and assessment activities is sometimes called ‘assessment as learning.’ A learning task may involve a number of learning activities leading to learning: a TBL or PBL small group tutorial, a self-study, a lecture, a history and physical exam write up, or a problem-solving assignment. Learning task analysis involves the identification of prerequisite competencies which are needed to achieve target and enabling objectives (Gagne et al. 2005).


그 다음, 프로그램에서 목적적합한 과제 선정이 요구된다. 학습 과제는 학생이 필요한 기본 지식, 기술 또는 이해를 습득하는 데 도움이 되도록 만들어져야 하며, 이는 목표에 도달하거나 더 깊이 있는 학습을 촉진하는 [도약대 역할]을 하게 된다. 이 원칙은 medical competence의 획득뿐만 아니라 learning how to learn에도 해당된다. PA에서는 학습자가 학습 목표를 공식화하고 성공적으로 제정enact하기 위해 이것을 사용할 것이라는 기대와 함께, 학습자가 의미를 부여하기 위한 지속적인 피드백과 요구사항requirement은 '학습'에 관한 학습과제로 간주된다. PA의 학습과제 개념은 학습과제에 대한 Gagne의 분석에 타당하게 근거하고 있다. 즉, 훈련 활동과 평가 활동이 밀접하게 연관되어 있을 뿐만 아니라, medical competence와 learning to learn에 대한 학습도 이루어지고 있다.

A purposeful selection of tasks in the program is then required; learning tasks are set to support the student in acquiring necessary basic knowledge, skills, or understanding to serve as a springboard to reach target objectives or promote further and deeper learning. This principle does not only pertain to the acquisition of medical competence but also to learning how to learn. In PA, the continuous feedback and requirement for the learner to make meaning, in conjunction with the expectation that the learner will use this to formulate and successfully enact learning goals, are to be seen as learning tasks on ‘learning to learn.’ The concept of learning tasks of PA is plausibly grounded in Gagne’s analysis of learning tasks. In other words, not only are training activities and assessment activities closely connected, but also are learning for medical competence and learning to learn.


마찬가지로 Merri€enboer와 Kirschner(2017년)는 10단계 및 4C/ID(4개 구성 요소 지침 설계) 모델을 설명한다. 이 모델의 주요 요소와 첫 번째 요소 중 하나는 학습 과제의 설계를 수반한다. PA 모델과 유사하게, 4C/ID 모델의 구조적 요소는 상호의존적이며, 퍼포먼스 평가의 설계는 특정한 시점에 각 과제에 대한 성과를 측정할 수 있다. 이를 통해 학습과제에 대한 학습자의 종단적 진행을 모니터링할 수 있다.

Similarly, Merri€enboer and Kirschner (2017) describe a ten-step and 4C/ID (4 components instructional design) model. One of the main and first component of this model entails the design of learning tasks. Similar to the PA model, the structural elements of 4C/ID model are interdependent and the design of performance assessments allows to measure performance on each of the tasks, at particular points in time. This allows for monitoring the learners’ longitudinal progression over the leaning tasks.


또한, 4C/ID의 단계 중 하나는 학습 과제의 시퀀스(3단계)를 포함한다. 이 순서는 단순한 것에서 복잡한 것으로 나아가는 것이며, 수행능력 평가(2단계)와 결합되어서 함께 학습을 최적화하고 개별화된 학습 개발 궤적을 만든다. Van Merri€enboer와 Kirschner(2017년)는 4C/ID 모델에서 평가의 총괄적 초점(AoL)은 고부담 결정을 내리는 것에 있지만, 동시에 강력한 형성적 기능 - 의미있는 피드백 - 을 수행해야 한다고 주장했다.

Further, one of the steps involves the sequence of learning tasks (step 3), from simple to more complex, which, coupled with frequent performance assessments (step 2), optimizes learning and creates individualized learning developmental trajectories. In the 4C/ID model, Van Merri€enboer and Kirschner (2017) contend that even though the summative focus of assessment (assessment of learning) is to make high-stakes decisions, it must also perform a strong formative – meaningful feedback – function.


따라서 학습과 평가 과정을 성공적으로 진행하기 위하여 AoL과 AfL은 건설적으로 정렬되고, 교육 이론과 설계와 완벽하게 통합되어야 하지만, 이것이 얼마나 성공할 수 있는가는 [교사나 코치의 질]과 [조직의 학습 문화]에 달려 있다(Harrison 등 20).16, 2017).

Therefore, assessment of and for learning can be constructively aligned, and fully integrated with instructional theory and design, if they are to succeed in driving the learning and assessment process, but how successful this can be done depends on the quality of the teacher or coach and the learning culture in the organization (Harrison et al. 2016, 2017).


PA 기본원칙: 학생 주체성과 책임

Fundamental PA principle: Student agency and accountability


PA의 중요한 측면은 학생들이 자신의 학습과 평가에 대한 주체성과 책임을 맡도록 허용하거나 만드는 것이다. 앞에서 말했듯이, 학습자의 학습과 평가에 대한 행동주의자적 통제 범위는 그들의 졸업으로 끝나지만, 의대의 사회에 대한 책임은 졸업으로 시작된다. 그러므로 PA 프로그램은 점차적으로 그 기관과 책임을 학습자에게 넘기는 것을 추구한다. 이는 행동주의자와 자기조절이론에 정통한 운전자 사이의 의식적이고 의도적인 균형이 구현의 일부임을 암시한다. 

An important aspect of PA is allowing or making the student assume agency and accountability for their own learning and their own assessment. As said before, the span of – behaviorist – control over the learners’ learning and assessment ends with their graduation but the medical school’s responsibility to society starts with graduation. PA programs therefore seek to gradually hand over that agency and accountability to the learner. This implies that a conscious and purposeful balance between behaviorist and self-regulation theory-informed drivers is part of the implementation.


설명 이론: 자기결정론(SDT)과 자기규제학습이론(SRL)

Explanatory theories: Self-determination theory (SDT) and self-regulation learning theory (SRL)


지원 활동, 특히 '자율성 지지 교육'이라는 개념은 PA 모델의 핵심 요소로서 학습자와 교사가 참여한다. 이러한 '자율성 지원 교육'은 무엇보다도 SDT와 SRL의 두 가지 이론적 프레임워크에 근거를 두고 있다.

Supporting activities, in particular the concept of ‘autonomy-supportive teaching,’ are a key component of the PA model and involve learners and teachers. Such ‘autonomy-supportive teaching’ is grounded in, among others, two theoretical frameworks, SDT and SRL.


SDT의 주요 축 중 하나는 자율성의 개념과 필요성이다. SDT에서 자율성은 '[자기 행동]의 인식된 기원이나 근원이 되는 것'(Deci와 Ryan 2004, 페이지 8)으로 의도되므로, 자율적 행동은 자아의 표현이다. SDT에서는 자율성-지지적 교사는 학생에게 독립적인 업무의 기회를 제공하고, 내부 동기를 지원하며, 학생들의 요구에 유연하고 대응한다. 따라서 '자율성 지지적 교육'은 PA의 맥락에서 교사들이 하는 주요한 역할이며, 코칭은 학생들의 자기 결정을 촉진하고, 학생들을 자율성의 연속체에서 움직이도록 돕는다.

One of the main pillars of SDT is the concept of or need for autonomy. In SDT, autonomy is intended as ‘being the perceived origin or source of one’s own behaviour’ (Deci and Ryan 2004, p. 8) and therefore, an autonomous behavior is an expression of the self. In SDT, autonomy-supportive teachers provide opportunities for independent work and support internal motivations, and they are flexible and responsive to the needs of the students. Therefore, ‘autonomy-supportive teaching’ is a major role teachers play in the context of PA, and the coaching fosters students’ self-determination and helps move the students across an autonomy continuum.


성공적인 평생 학습자에게 필요한 원하는 자율성을 달성할 수 있도록 하기 위해, 자기조절학습(SRL)은 통찰력이 있을 수 있다(Pintrich 2004; Schunk 2005). SRL은 학습자가 목표 설정, 학습 전략 선택 및 자체 성과 평가에 관여한다는 것을 전제로 한다. 또한 '자율적 지원 교육'의 개념은 [교사가 학생의 목표 설정, 학습 과제 제안, 학습과정 감시 및 평가 등을 돕는] 사회적조절학습의 원칙에도 근거를 두고 있다(Zimmerman 1998; Bandura 2001).

In order to be able to achieve the desired autonomy needed for successful lifelong learners, self-regulated learning (SRL) can be insightful (Pintrich 2004; Schunk 2005). SRL posits that learners are involved in goal setting, selecting learning strategies and evaluating their own performance. The concept of ‘autonomy-supportive teaching’ is also grounded in the principle of socially regulated learning in which the teacher helps the student in setting goals, suggesting learning tasks, monitoring and assessing the learning process (Zimmerman 1998; Bandura 2001).


설명 이론: 행동주의적 성향과 고의적 실천 원칙

Explanatory theories: Behaviorist orientation and principles of deliberate practice


행동주의적인 접근법의 교리는 우리가 PA에서 숙달학습의 개념을 접할 때 해당되는 것이다(Block 1980; Guskey 1980; Skinner 2011). 숙달학습에서 학생들은 정해진 수준의 숙련도를 보여주지 않으면 다음 수준의 수업으로 나아갈 수 없다. 이러한 숙달력은 의료 역량의 요소와 관련될 수 있지만 학습의 요소에도 해당될 수 있다. 예를 들어, 성찰 또는 자기분석 문서를 작성하는 것은 일련의 프로그램된 연습을 통해 배울 필요가 있을 수 있다. 이러한 모든 측면에 대해, [점진적으로 과제의 난이도를 증가시키면서, 즉각적인 보강과 피드백을 결합]하는 shaping이라는 개념은 행동주의자적 원칙이다.

Tenets of behaviorist approaches are considered when we encounter the concept of mastery learning in PA (Block 1980; Guskey 1980; Skinner 2011). In mastery learning, students cannot progress to the next level of instruction unless they demonstrate a set level of proficiency. This mastery can pertain to elements of medical competence but also to elements of learning to learn. For example, producing reflection or self-analyses documents may need to be learned through a series of programed exercises. For all these aspects, the concept of shaping, where instruction proceeds with tasks of increasing levels of difficulty, coupled with immediate reinforcement and feedback is a principle of the behaviorist orientation.


숙달학습은 어떤 면에서 [의도적인 연습DP]의 핵심 원칙이다DP는 코치에 의해서 설계되는 활동으로서, 반복과 정교화를 통해 개인의 성과를 향상시키는 것이 목적이다(Anders Ericsson 2008). [학습자 동기 부여]와 [과제 설계]는 DP의 중요한 요소들이다. 교육자는 [학습자의 사전 지식 및 이해를 고려하여, 단시간의 교육 후에 학습자가 과제를 정확하게 이해할 수 있도록] 해야 한다. 학습자는 각 과제와 관련된 활동이 끝난 후 즉시 관련 피드백과 성과에 대한 지식을 얻어야 한다.

Mastery learning is a key principle of deliberate practice for some aspects – typically the more technical aspects – as is meaning making to others – typically the more understanding/insight-related aspects. Deliberate practice is intended as the activity designed by a coach to improve performance of an individual through repetition and refinement (Anders Ericsson 2008). Learners’ motivation and the design of the task are crucial elements of deliberate practice. Educators should take into account ‘the pre-existing knowledge and understanding of the learners, so that the task can be correctly understood after a brief period of instruction.’ Learners should receive immediate relevant feedback and knowledge of results of their performance after each task-related activity.


또한, 비고츠키아의 관점에 따르면, [배우는 과정에서는 교사와 학생이 학습 프로세스의 shaping과 directing 책임을 분담하지만], 점차적으로 책임이 바뀌는 co-regulated learning에 참여해야 할 것이다. 이를 위해 초기 비계는 서서히 제거되고 학생은 점차적으로 자신의 학습에 대한 책임감을 높여 자기 조절 능력을 키울 것으로 예상된다(van Houten-Schat et al. 2018). PA에서 학생과 교사의 관계는 매우 중요하며, PA의 역할은 실제로 그들의 발전의 다른 단계에 있는 학생들의 자기조절을 강화하는 것일 수 있다.

Further, according to the Vygotskian perspective, teacher and student will have to engage in co-regulated learning, in which they share the responsibility of shaping and directing the learning process but with a gradual change of responsibilities. For this, the initial scaffold will be slowly removed and the student is expected to gradually take increasing responsibility of his or her own learning, developing self-regulating skills (van Houten-Schat et al. 2018). In PA, the relationship of student and teacher is crucial, and one role of PA might indeed be that of foster self-regulation of students at different stages of their development.


해설론: 직업수요원론

Explanatory theories: Job demand–resource theory


고용수요원론(JDR-T) (Bakker and Demeruti 2017)에서 직업 특성은 크게 두 가지 범주로 나뉜다. 직무 요구와 직무 자원

    • 직무 요구는 [높은 업무 부담이나 감정적으로 힘든 상황]과 같신체적, 심리적, 조직적 노력이다. 

    • 직무 자원은 직무 요구를 줄여주거나, 자율성을 높여주거나, 성과에 대한 피드백을 제공하거나, 개인의 성장을 촉진하거나, 업무 목표를 달성하는 것이 포함된다. 직무 자원은 미래의 업무 참여와 동기를 예측한다.

In the job demand–resource theory (JDR-T) (Bakker and Demerouti 2017), job characteristics fall into two main broad categories: job demands and job resources. 

    • Job and demands are physical psychological organizational efforts that may include high work pressure or emotionally demanding situations. 

    • Job resources are those aspects of the job that reduce job demands, foster autonomy, provide feedback on performance, promote personal growth, and achieve work goals. Job resources predict future work engagement and motivation.


PA 평가에서 지원 활동에서 교직원의 역할은 바커와 데메루티(2017년)가 정의한 [직무 자원의 창출]과 유사할 수 있다. 코치로 활동할 때 교수들은 학생들의 자기 결정과 자율성을 개발하고, 상호작용적 사회적 학습 환경을 조성하며, 학생들이 직업 수요에 대처할 수 있도록 하고, 발전과 성장의 기회를 창출할 수 있도록 하는 직업 자원을 제공하기 위해 노력한다.

In PA assessment, the role of the faculty within the supporting activities may be similar to that of creating job resources as defined by Bakker and Demerouti (2017). Faculty when acting as coaches contribute to develop students’ self-determination and autonomy, foster an interactive social learning environment, and strive to provide those job resources that allow students to cope with job demands while creating opportunities for development and growth.


고찰

Discussion


의학연구와 달리 의학교육연구는 연구결과의 완벽한 복제를 자동적으로 가정하지는 않는다. 따라서 (RCT처럼) 의료 연구가 문맥적 특징에 관계없이 다른 맥락에서 복제할 수 있는 발견을 목표로 하는 경우가 많다면, 종종 의학교육 연구는 '복잡성' 또는 '시스템'을 가정하고 시작한다(Rosas 2015). 복잡한 상황에서, 발견을 한 맥락에서 다른 맥락으로 직접 복제하는 것은 작동하지 않는다; 대신에, 어떤 것이 작용하여 다른, 약간 다른 문맥에 맞게 수정되거나 전달될 수 있는 이유를 이해할 필요가 있다. 그러한 이해는 문제 해결을 transfer하는데 있어서 깊은 구조deep structure의 역할과 유사하다고 볼 수 있다(Eva et al. (Eva et al. 1998). 따라서 이론은 특정 상황이나 학습 조직에서 발생할 수 있는 구현의 과제를 극복하는 데 도움이 될 수 있다(Torre 등 2006).

Unlike in medical research, medical education research does not automatically assume perfect replication of research findings. So, where medical research is often aimed at producing findings that can be replicated in any other context regardless of contextual features – typically like randomized controlled trials – often (medical) education research starts from the assumption of complexity or systems (Rosas 2015). In complex situations, direct replication of findings from one context to another does not work; instead, there is a need to understand why something works so it can be adapted or transferred to fit another, slightly different context. Such understanding can be seen as analogous to the role of a deep structure in transfer of problem solving (Eva et al. 1998). Theory can therefore help overcome the challenges of implementation that may arise in specific contexts or learning organizations (Torre et al. 2006).


이론이 PA의 실행을 위한 기회를 알려준 한, 우리는 이론이 구현 도전에 직면하는 데 어떻게 도움이 될 수 있는지에 대한 예를 설명하기를 좋아한다. 예를 들어, 학생들은 임상실습에서, 그들은 한 번의 로테이션에서 동안 문제가 있을 수 있다. 그런 다음, 향후 로테이션 감독자/조정자가 이러한 문제에 대해 알아야 후속 로테이션 중에 이러한 문제를 학생에게 구체적으로 지원할 수 있다. 그러나, 감독관에게 앞선 로테이션의 정보를 주는 것을, 다음 감독관에게 편견을 갖게 하며, 학생들은 마치 '범죄 전과criminal case record'를 부당하게 넘기는 것처럼 인식할 수 있다. 그러나 PA 관점에서는, 이것은 '관리의 연속성' 프로세스에 더 가까울 것이다. 이 딜레마는 학습 맥락에 대한 표준 평가에서 주요 문제지만, PA 맥락에서 쉽게 해결할 수 있다.

As far as theory informed opportunities for the implementation of PA, we like to illustrate an example of how theory may help face an implementation challenge. For instance, when students are in their clinical rotations, they might have issues during one rotation. It is then imperative that the supervisor/coordinator of future rotations knows about these issues, so that they can specifically support the student with these during the subsequent rotations. However, notifying that supervisor may be perceived by the students as an unfair transfer of a ‘criminal case record’ and therefore may be seen to be biasing the next supervisor. From a PA view, it would be more like a ‘continuity of care’ process. This dilemma is a major one in a standard assessment of learning context, but it is an easy one to solve in a PA context.


한 로테이션을 도는 동안 문제를 경험한 학생은 학습 코치 –와 함께 –을 분석하고 교정조치 계획을 제시하도록 요청 받는다. 그 후 학생은 미래의 감독자와 이 계획을 소통하고 토론하며 이 계획을 어떻게 실행할지 준비할 것으로 예상된다. 점검 단계에서, 감독관이 계획에 서명하도록 요구될 수 있으며, 그것은 포트폴리오의 일부가 된다. 또한 학생과 그들의 학습 코치는 학생들이 이러한 어려운 대화를 다루는 방법을 배울 수 있도록 하기 위해 미래의 감독자/코디네이터와 그들의 문제를 소통하는 방법을 토론하고 연습할 수 있다. 이와 같이, 정보의 연속성과 종단성이 보호된다면, 학생이 자신의 학습에 주체성을 가지게 되고, 지난 로테이션의 문제는 단순히 나쁜 경험이 아니라 학습의 기회로 여겨지며, 그 문제는 단순히 성적표에 대한 체크박스가 아니라 학습의 의미 형성을 최적화하고, 자기조절학습을 촉진하고, 지속적인 성장과 학습자의 발전을 자극하는 수단으로 사용될 것이다.

The student who experiences issues during one rotation is asked to analyze – together with their learning coach – and provide a plan for remediation. The student is then expected to communicate and discuss this plan with their future supervisor and make arrangements for how to implement this plan. As a check, it can be required that the supervisor signs a plan and it becomes part of the portfolio. The student and their learning coach could also discuss and practice the way the student would communicate their issues with their future supervisor/coordinator, as a way of allowing the student to learn how to deal with these difficult conversations. As such, continuity of care and longitudinality of information is safeguarded, agency lies with the student for their own learning, the issues in the past rotation are not merely bad experiences but opportunities for learning, and the issues are not just a tick box on an academic transcript, but are being used to optimize meaning making of learning, foster self-regulated learning, and promote continuous growth and learner’s development.


우리가 다루지 않은 것과 점점 더 중요한 이슈로 인식되고 있는 것은 [조직문화]와 [소위 순진한 인식론]의 역할이다. 전자는 조직의 변화 의지를 촉진하거나 저해한다는 점에서 중요하다(Harrison et al. 2017). 후자는 더더욱 극복하기 어렵다, 깊은 신념과 관련되기 때문에, 우리는 비체계적이고 유도되지 않은 경험에 의해 우리 주변의 세계에 대해 발전한다(Vosniadou 1994). 이러한 현상은 종종 사람들로 하여금 그들이 교육받고 평가받는 방식이 현대 교육의 틀이 되어야 한다고 믿게 한다. 하지만, 우리가 50년 전처럼 의술을 실천하지 않는 것처럼, 우리도 50년 전처럼 교육을 실천하는 것을 목표로 해서는 안 된다. 왜 의학은 왜 일반적으로 진보하는 방향으로 자연스러운 전문직업적 경향을 갖는데 있고, 의학 교육에 관해서는 보수적이 되는지는 여전히 불분명하다. 우리는 이 분야에서 아직 이 요소를 우리의 서술에 포함시키기에는 충분한 이론적 발전이 없다고 느꼈다.

What we have not addressed and what is increasingly being recognized as a significant issue is the role of organizational culture and of so-called naïve epistemologies. The former is significant in that it facilitates or hampers the willingness in the organization to change (Harrison et al. 2017). The latter is even more difficult to overcome, as it relates to the deep beliefs, we develop about the world around us by unsystematic and unguided experience (Vosniadou 1994). This phenomenon often leads people to believe that the way they were educated and assessed should be the mold for modern education. However, like we do not practice medicine like we did 50 years ago, neither should we aim at practicing education the way we did 50 years ago. Why there is a general natural professional tendency in medicine to progress and when it comes to medical education to be conservative is still unclear. We felt that there is not sufficient theoretical development in this field yet to include this element in our narrative.



van Houten-Schat MA, Berkhout JJ, van Dijk N, Endedijk MD, Jaarsma AD, Diemers AD. 2018. Self-regulated learning in the clinical context: a systematic review. Med Educ. 52(10):1008–1015.







, 42 (2), 213-220
 

Theoretical Considerations on Programmatic Assessment

Affiliations 

Affiliations

  • 1Department of Medicine, Uniformed Services University of Health Sciences, Bethesda, MD, USA.
  • 2Department of Education and Health Profession Education, Flinders Medical School, Adelaide, Australia.
  • 3Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands.
  • 4Faculty of Health Medicine and Life Sciences, School of Health Professions Education, Maastricht University, Maastricht, The Netherlands.

Abstract

Introduction: Programmatic assessment (PA) is an approach to assessment aimed at optimizing learning which continues to gain educational momentum. However, the theoretical underpinnings of PA have not been clearly described. An explanation of the theoretical underpinnings of PA will allow educators to gain a better understanding of this approach and, perhaps, facilitate its use and effective implementation. The purpose of this article is twofold: first, to describe salient theoretical perspectives on PA; second to examine how theory may help educators to develop effective PA programs, helping to overcome challenges around PA.Results: We outline a number of learning theories that underpin key educational principles of PA: constructivist and social constructivist theory supporting meaning making, and longitudinality; cognitivist and cognitive development orientation scaffolding the practice of a continuous feedback process; theory of instructional design underpinning assessment as learning; self-determination theory (SDT), self-regulation learning theory (SRL), and principles of deliberate practice providing theoretical tenets for student agency and accountability.Conclusion: The construction of a plausible and coherent link between key educational principles of PA and learning theories should enable educators to pose new and important inquiries, reflect on their assessment practices and help overcome future challenges in the development and implementation of PA in their programs.


지식, 스킬, 딱정벌레: 의학교육에서 개인적 경험의 프라이버시 존중(Perspect Med Educ, 2020)

Knowledge, skills and beetles: respecting the privacy of private experiences in medical education

Mario Veen · John Skelton · Anne de la Croix





도입

Introduction


모든 의대생들이 무언가가 들어 있는 상자를 가지고 있다고 가정하자: 우리는 그것을 '공감'이라고 부른다. 아무도 다른 사람의 상자를 들여다볼 수 없고, 모든 학생들은 그들 자신의 공감 경험을 보아야만 공감이 무엇인지 안다고 말한다.—여기서는 모든 사람이 각자 자기 상자에 서로 다른 것을 가지고 있을 수 있을 것이다. 심지어 그런 것이 끊임없이 변하는 것도 상상할 수 있을 것이다.

Suppose every medical student had a box with something in it: we call it ‘empathy’. No one can look into anyone else’s box, and all students say they know what empathy is only by looking at their own experience of empathy.—Here it would be quite possible for everyone to have something different in their box. One might even imagine such a thing constantly changing.


우리는 이 인용구의 'empathy'라는 단어를 'integrity', '성찰' 또는 '전문적 정체성 형성'으로 대체할 수 있다. 우리는 루드비히 비트겐슈타인의 사고실험을 거쳐 그들을 '딱정벌레'라고 부를 것이다.

We could replace the word ‘empathy’ in this quote by ‘integrity’, ‘reflection’, or ‘professional identity formation’—these are terms that have found their way into our common medical educational language yet are intensely personal and private for learners. We will call them ‘beetles’, after the thought experiment by Ludwig Wittgenstein:


모든 사람들이 무언가가 들어 있는 상자를 가지고 있다고 가정하자: 우리는 그것을 '딱정벌레'라고 부른다. 아무도 다른 사람의 상자를 들여다볼 수 없고, 모든 사람은 자기가 가진 딱정벌레만 보고 딱정벌레가 무엇인지 안다고 말한다.—여기서는 모든 사람이 자기 상자에 뭔가 다른 것을 가지고 있을 수 있을 것이다. 누군가는 그러한 것이 끊임없이 변화하는 것을 상상할 수도 있다.

Suppose everyone had a box with something in it: we call it a ‘beetle’. No one can look into anyone else’s box, and everyone says he knows what a beetle is only by looking at his beetle.—Here it would be quite possible for everyone to have something different in their box. One might even imagine such a thing constantly changing [1].


딱정벌레와 같은 비유에서 딱정벌레는 사적이고 개인적인 경험을 의미한다. 우리는 결코 '상자'에서 우리 자신의 내적 경험을 끄집어내어 비교할 수 없기 때문에, 다른 사람들이 (자신과) 같은 방식으로 공감이나 고통을 경험하는지 여부는 결코 알 수 없다.

In the beetle-in-a-box analogy, the beetle stands for private, personal experiences. We can never know if other people experience empathy or pain in the same way, because we can never take our own inner experiences out of the ‘box’, and compare them.


우리는 의학 교육에서 딱정벌레를 다루는 방법을 고려하기 전에 이 근본적인 생각을 끝까지 따를 것이다. 사적인 경험('고통', '슬픔')을 가리키는 단어의 의미는 정신적 이미지에서 찾아볼 수 없다. 우리가 무언가를 지칭할 수 있는 것이 적을수록('이것'이 바로 내가 '의자'라고 말로 의미하는 것이다) 더 복잡해진다. 자기자신의 개인적인 경험을 표현할 말을 찾는 것이 어려운 것이라면, 다른 사람의 내면에 대해서 그렇게 하는 것은 불가능한 것이다. 그러나 의학 교육은 최근 의학의 개인적이고 감정적인 측면에 더 많은 관심을 보였으며, 이에 따라 공감, 직업적 정체성 개발, 성찰과 같은 흐릿한fuzzy 개념[2]을 도입했다. 이것들은 학생 시절과 그 이후의 경력을 통해 사적인 상자에 들어 있는 딱정벌레들이다.

We shall follow this fundamental idea through, before considering ways to deal with beetles in medical education. The meanings of words that refer to private experiences (‘pain’, ‘sadness’) are not to be found in a mental image. The less we can point to something (‘THIS is what I mean when I say ‘chair”), the more complex it is to define. It is difficult to find words for our own private experiences, but it is impossible to do so for someone else’s inner world. However, medical education has recently shown more interest in the personal and emotional side of medicine, and has thereby introduced such fuzzy concepts [2] as empathy, professional identity development, and reflection. These are beetles in the individual’s box, carried through the student years and the subsequent career.


이 논의에서, 딱정벌레 문제의 핵심은, [개인적인 경험]이 실제로 존재하고, 이것이 유능한 의료 전문가로 발전하는데 중요하다는 것을 알고 있지만, 우리는 그것을 관찰하거나 측정하거나 공유할 수 없다는 것이다. 왜냐하면 양 당사자가 지적할 수 있는 외부의 referent가 없기 때문이다. 이것은 '평가'에 증명demonstration과 관찰observation을 필요로 하는 의학 커리큘럼에 딱정벌레를 통합하기 어렵다는 것을 의미한다. 의학교육에서 평가를 할 때 우리는 '지금 관찰하는 것은 '실제real thing'의 표현'이라고 가정한다. 기술은 보여질 수 있고, 지식도 보여질 수 있다. 그러나 딱정벌레는 그럴 수 없다.

For our purposes, the core of the beetle problem is that while we know private experiences exist and matter for developing into a competent healthcare professional, we cannot observe, measure, or share them, because there is no external referent that both parties can point to. This means it is hard to incorporate beetles into the medical curriculum, in which assessment requires demonstration and observation, where the assumption is that what we observe is a representation of the ‘real thing’. A skill can be demonstrated, knowledge can be demonstrated. Beetles cannot.


그러나 의학 교육에서는 의대생들이 자신의 상자를 열어, 평가를 위해 어떤 내용을 제작할 수 있는 것처럼 행동하는 경우가 많다. 그리고나면, 교육자들은 의대생들의 공감 수준[3] 또는 그들의 성찰의 질을 평가해야 한다[4]. 이를 위해 의과대학생들에게는 의학커리큘럼에서 개인적인 경험을 '공유'해달라는 요구가 점점 늘고 있다. 하지만 만약 이것이 근본적으로 불가능하다면?

In medical education, however, we often act as if medical students are able to open up their boxes and produce the contents for assessment purposes. Educators, in turn, are expected to assess medical students’ levels of empathy [3] or the quality of their reflection [4]. To this end, medical trainees are increasingly asked to ‘share’ private experiences in the medical curriculum. But what if this is fundamentally impossible?


우리는 딱정벌레를 어떻게 다루어야 할지 모른다. 동시에, 우리는 역량 기반 의학의 젊은 과학에서 이 시점에서 우리는 여전히 '우리가 가만히 서 있을 수 없는 과도기의 한가운데' 있다는 것을 인정한다.

We do not know how to deal with beetles-in-boxes. At the same time, we acknowledge that at this point in the young science of competency-based medical education we are still ‘in the midst of a transition in which we cannot remain standing ’ [5].


딱정벌레가 어떻게 의학 교육과정에 들어갔는지

How beetles entered medical curricula


지식과 기술과는 다른 동물인 딱정벌레가 공식적인 커리큘럼에 들어간 정확한 순간은 없다. 우리는 두 가지 주요 발전이 한 역할을 했다고 가정한다.

There is no exact moment when beetles, different animals from knowledge and skills, entered formal curricula. We hypothesize that two main developments played a role.


첫째, 환자의 안전과 관리 대한 초점이다. 전문직 종사자보다는 일반인(환자)에 초점을 맞춘 것은 1세기 동안, 일반 교육을 위해 듀이에서, 그리고 의학 검진을 위해 오슬러에서 있었다[7]. 1970년대부터[8] 이후, 병뿐만 아니라 환자까지도 강조하면서 인간화된 의학의 요구가 증가하고 있다[9].

First, the focus on the safety and care of the patient. A focus on the lay rather than the professional has been with us for a century, in Dewey for general education [6], and in Osler for medicine passim [7]. From the 1970s [8] onwards, there have been increasing calls for humanized medicine, with its emphasis on the patient as well as the disease [9].


케네디는 의사소통, 팀워크, 그리고 그와 같은 것들을 포함하기 위해 '역량의 개념을 확장할 필요가 있다'고 말했다. 인적 요인 및 환자 중심은 의료 서비스의 중요한 측면이 되었다 [11, 12].

Kennedy spoke of the need to ‘broaden the notion of competence’, to include such things as communication, team-work and the like [10]. Human factors and patient-centredness became important aspects of healthcare [11, 12].


둘째, 역량기반 교육을 향한 움직임과 그에 따른 OSCE 사용의 증가는 역량을 평가하는 객관적인 방법으로 여겨졌다[13–17]. 교육과학에서 얻은 통찰력은 영감으로 사용되었고 '[기술, 성격 특성, 사회 및 경제적 문제, 시민으로서의 책임 측면에서] 현대 의사의 특성과 자질에 대한 상세한 분석이 필요하다고 판단되었다'[13]. '특정 상황에서 의료행위에 필요한 기능'이라는 가이드에 따라, 의학 교육은 이전에 탐구되지 않았던 새로운 주제를 향해 문을 열었다. 유명한 CanMeds 역할은 이 발전의 파생물로 볼 수 있다.

Second, the movement toward outcome-based education, and consequently the burgeoning use of the OSCE approach offered itself explicitly as an objective way of assessing competence [13–17]. Insights from educational sciences were used as an inspiration and ‘a detailed analysis of the characteristics and qualifications of the modern physician was deemed necessary, in terms of skills, personality traits, social and economic problems, and responsibility as a citizen’ [13]. Taking guidance from ‘functions required for the practice of medicine in a specified setting’, doors opened for new and previously unexplored themes in medical education. The famous CanMeds roles can be seen as an offshoot of this development,


CanMeds 역할과 씨름하면서, 많은 이상한 손님들이 공식적인 교육과정에 들어갔다: 진실성, 전문성, 공감, 반성과, 배려심, 등등. 이러한 새로운 개념들은 자신들이 들어간 집주인의 요구 중 일부를 준수해야 했다: 딱정벌레는 즉시 측정할 수 있는 것으로 명확히 정의되었다(이는 인증 기관의 조사를 받는 시스템에서는 흔한 일이다). 이러한 개념적 명확성에 대한 요구는 빠르게 충족되었고, (딱정벌레와 같은) 공감이 가르치고 보여질 수 있는 행동의 집합인 'achievement'이나 'performance'으로 변화되었다. 

In grappling with CanMeds roles, many strange guests entered the formal curriculum: integrity, professionalism, empathy, reflection, a caring attitude, and so on. These new concepts had to comply with some of the demands of their new home: beetles were immediately clearly defined to be measurable and assessable—as is customary in systems under scrutiny of accreditation bodies. This demand for conceptual clarity was quickly satisfied, transforming a beetle-like empathy into an ‘achievement’ or ‘performance’, a set of behaviours that can be taught and demonstrated, and therefore assessed and measured. 


그러나, 획일적인 정의를 찾으려는 시도는 [우리가 같은 말을 사용하고 있을 때, 우리는 같은 것을 의미한다는 가정]에 달려 있다.

However, the attempt to find a uniform definition hinges on the assumption that when we are using the same word, we mean the same thing.


딱정벌레는 본디 의학을 좀더 인간적으로 만들기 위해 커리큘럼에 추가되었고, 우리는 이 노력을 칭송한다. 그러나 여기에 수반된 비용은 딱정벌레를 지식과 행동으로 전락시키는 것이었다. 감정이입이 기술이나 수행이 되면, 그것은 공감을 멈추게 된다. 성찰이 체크박스가 되는 순간, 그것은 진정한 성찰이 아니게 된다[19].

Beetles were added to the curriculum to make medicine more human, which is an endeavour we applaud. But the cost has been to reduce them to knowledge and behaviours. When empathy becomes a skill or a performance, it ceases to be empathy. The moment reflection becomes a tick-box exercise, it ceases to be authentic reflection [19].


딱정벌레의 복잡성

The complexity of beetles


비트겐슈타인의 상자속 딱정벌레 사고 실험은 주로 감각을 다루지만 논쟁은 연장될 수 있다.

Wittgenstein’s beetle-in-a-box thought experiment deals principally with sensations, but the argument can be extended,


비트겐슈타인은 특히 고통의 문제를 다룬다. 내 고통의 경험도 네 고통의 경험과 같은가?

Wittgenstein deals in particular with the question of pain. Is my experience of pain the same as yours?


첫째로, 단어는 의미가 변한다. 공동체는 그것들을 이러한 변화를 반영하고 보강하는 방식으로 단어를 사용한다. 그러므로 영어 ‘게이’는 이제 ‘쾌활함’이라는 의미에서 쓸모가 없어 보인다. '스퀘어'는 1950년대에 그랬던 것처럼 더 이상 '패셔너블'을 의미할 수 없다. 의미는 용도에 의해 결정된다. 의학 교육에서 단어들의 변화하는 의미를 연구하는 것은 우리에게 많은 것을 가르쳐 줄 수 있는데, 이것은 '역량있는competent' 의사의 인식에 관한 연구에서 알 수 있다[20]. Kripke는 Sign을 사용할 때 중요한 것은, '공동체'가 내가 그것을 제대로 사용했는지에 동의하는지 여부라고 말했다[21].

First, words change their meaning, and the community uses them in ways which reflect and reinforce these changes—or the changes die out. Thus, English ‘gay’ seems unusable now in the sense of ‘lighthearted’. ‘Square’ can no longer mean ‘unfashionable’, as it did in the 1950s. Meaning is determined by use. Studying changing meanings of words in medical education can teach us a lot, as can be seen in a study about perceptions of the ‘competent’ doctor [20]. Kripke suggests that in using a sign ,what matters is that the ‘community’ agree that I have used it successfully [21].


의학 교육은 서로 다른 문화적, 제도적 공동체로 이루어져 있으며, 의과대학에 사용되고 있는 개념들은 종종 다른 과학 공동체(의학, 심리학, 인문, 사회, 교육학)로부터 옮겨운 것이다. 개인, 공동체 및 과학 분야를 넘나드는 여행에서 단어는 새로운 의미를 얻고, 기존의 의미를 잃는다[22]. 이것은 '감정'과 같은 개념이 매우 다른 의미를 가질 수 있는 이유를 설명할 수 있다[23].

Medical education consists of different cultural and institutional communities, and concepts that are being used in medical education have often travelled from other scientific communities (medical science, psychology, humanities, social & educational sciences). In their travels across individuals, communities, and scientific disciplines, words take on meanings and lose others [22]. This might explain why a concept such as ‘emotion’ can take on very different meanings [23].


둘째, 가치와 관련된 개념은 원래 절대로 잘 정의되지 않는다. 수학의 플러스 부호는 명확하게 정의되어 있다. 예를 들어, 이것은 신체의 일부와 질병의 이름에 대한 많은 의학 용어에 대체로 해당된다.

Second, concepts associated with value are in principle never well-defined. A plus sign in mathematics is clearly defined: This is broadly true of a great many medical terms, for parts of the body and names of diseases, for example.


그러나 '공감'이라는 단어에 대해서 그러한 합의는 없다. 그러한 합의는 애초에 존재할 수 없다. 더 나아가, '공감'이라는 것이 '해야하는 일의 목록'으로만 구성되어있지 않음은 자명하다. '공감'적인 사람이 특정한 방식으로 행동할 수는 있지만, 그렇게 하지 않는 것이 의미하는 바는 여러가지가 될 수 있다.

There is no such agreement—there can be no such agreement—about a term like ‘empathy’, or ‘respect’ (for colleagues or patients, for example). And beyond that, it seems clear that ‘empathy’ does not consist of a list of things to do. An empathic person may behave in specific ways (cocks their head, listens carefully, says ‘that must be very hard for you’), but failure to do so could mean many things.


(예를 들어) 우리는 공감이 부족하다는 것을 재빨리 추론할 수도 있지만, 그것은 이 사람이 많은 젊은 학부생들이 그렇듯이 공동체가 이해할 수 있는 방식으로 '감정'의 가치나 태도를 어떻게 표현해야 하는지 모른다는 것을 의미할 수도 있다. 또 다른 가능성은 그 사람이 우리와 다른 배경을 가지고 있다는 것이며, 우리는 그들의 행동을 특정한 감정을 나타내는 것으로 해석하지 않을 수도 있다[24]. 같은 방식으로, 시니컬한 학생일지라도 시험에 합격하기 위해서는 공감하는 행동을 흉내낼 수도 있다.

We might quickly infer a lack of empathy, yet it could mean that this person does not know how to demonstrate the value or attitude of ‘empathy’ in a way that the community can understand, as might be the case in many young undergraduates. Another option is that this person has a different background to us, the perceivers, and we might not interpret their behaviour as displaying a certain emotion [24]. Equally, a cynical student may imitate empathic behaviour in order to pass exams.


'진짜' 딱정벌레와 [그 딱정벌레의 발현으로 볼 수 있는] 행동과 마커marker 사이에는 인과관계가 없다. 또한 가치나 태도를 보여주는 것으로 보여지는 것은 그것을 실제로 소유했다는 증거가 아니다.

There is no causal relationship between the ‘real’ beetle, and the set of behaviours and markers that might be seen as the manifestation of that beetle. Also, being seen as demonstrating a value or attitude is not evidence of actually possessing it.


문제는 우리가 이 두 원이 어딘가에서 중복될 수 있다는 것을 알고 있지만, 어느 학생이 어느 집합에 떨어지는지는 알 수 없다는 것이다.

The catch is that while we know that the two circles probably overlap somewhere, we are unable to tell which students fall into which area.



딱정벌레 평가 - 불가능한 모험

Assessing beetles—an impossible venture


의학 교육에서 딱정벌레의 진짜 어려움은 시험에서 온다. 지식('지식')과 기술('수행')의 측면을 가르치고 시험하기 쉽다. 그러나 추상적 개념(딱정벌레)은 일반적으로 '가치'과 연결되어 있으며, 본디 손쉽게 '정확한 정의'를 내어주지 않는다. 그런 의미에서 '잘못된' 대답과 '올바른' 대답을 구분할 정확한 방법은 없다. 그러나 마찬가지로, 의사가 음주한 상태로 수술해도 괜찮은지 물어보는 것으로는 좋은 가치(관)를 가지고 있는지 평가할 수는 없다. 학생은 어떤 대답이 필요한지 너무 잘 안다.

The real difficulty with beetles in medical education comes with testing. It is easy to teach and test aspects of knowledge (‘knowing’) and skills (‘doing’). Abstract concepts (beetles), however, are typically linked to values, and in principle not susceptible to precise definition. There is in that sense no exact way of telling a ‘right’ answer from a ‘wrong’ answer. But equally, one cannot assess whether a doctor has good values by asking them if it is okay to operate under the influence of alcohol. They are likely to know what answer is required.


문제는 시험을 목적으로 딱정벌레를 [학생들이 알고 있거나 해야 하는 것]으로 정의하는 것이다. 이렇게 함으로써 딱정벌레를 행동으로 재구성 하고, 지표indicator를 지정하여 측정할 수 있게 한다. 그러나 딱정벌레가 수행performance의 측면에서만 정의되고 평가될 때, 좀비 문제[19]는 두 가지 방법으로 발생한다. 

  • 첫째, 외부 관찰자로서, 우리는 그 행동이 진짜인지 아니면 '그런 척 하는 행동'인지 구분할 수 없다. 

  • 둘째, 이런 식으로 행동을 보는 체계에서 학생들은 단지 [행동에 대한 보상]을 받게 되며, 의미 있는 딱정벌레 교육에 실제로 참여하게 될 외적인 동기는 없다.

The risk is that, for testing purposes, a beetle is defined in terms of what students must know or do. It is reformulated as a behaviour, and indicators are specified so it becomes measurable. But when the beetle is defined and tested only in terms of performance, what we have elsewhere called the Zombie problem [19] arises in two ways. 

  • First, as outside observers, we cannot say if the behaviour is authentic or an act, such as an actor might give. 

  • Second, in a system that views behaviour in this way, students are rewarded for just the behaviour, and there is no extrinsic motivation to actually engage in meaningful beetle education.

그래서, 예를 들어, 우리는 학생들이 성찰을 하기를 원한다. 슬프게도, 우리는 '성찰적 좀비'만 양성할 수 있다. [19], 성찰적 좀비는 실제로 성찰을 하지 않고도 성찰적인 사람의 모든 외적인 특징을 보여주는 학생이다. 성찰 모형에 대한 지식이 적용된 성찰 에세이를 쓰는 학생의 능력은 실제 성찰을 보장하지 않는다. 그것은 단지 그들이 성찰적 에세이를 잘 쓴다는 것을 의미한다: 상자가 있고, 그 상자 속에는 성찰이이 일어날 수 있는 공간이 있지만, 우리는 그 안에 딱정벌레가 있는지, 혹은 그 어떤 다른 것을 포함하고 있는지 모른다.

So, for example, we want students to reflect. Sadly, we can easily posit a ‘reflective zombie’ [19], a student showing all the outer traits of a reflective person without having actually reflected. A student’s ability to write a reflective essay in which knowledge of reflection models has been applied does not guarantee actual reflection. It just means they are good at writing a reflective essay: there is a box, a space in which reflection could take place, but we do not know if there is a beetle in there, or if it contains anything at all.


우리가 전통적으로 딱정벌레를 평가하는 방법은 표상representation 모델을 사용하는 것이다. 이 모델에서 언어와 행동은 사람들의 내적 삶[26]에서 실제로 일어나고 있는 일을 나타내는 것으로 보인다. 우리는 학생들의 머리와 마음 속을 직접 들여다볼 수 없다는 것을 알고 있다. 다만 (논리적으로) 우리는 행동을 관찰할 수 있을 뿐이라고 귀결된다.

The way we traditionally assess beetles is with the model of representation. In this model, language and action are seen as a representation of what is actually going on in people’s inner lives[26]. We recognize that we cannot look directly inside students’ heads and hearts. But what we can observe, the logic goes, is their behaviour:


우리는 교육자들이 학생이 하는 것과 말하는 것을 해석하기를 기대하며, 교육자들이 이로서 [학생의 딱정벌레]를 판단내리는 방식으로 해석하기를 기대한다. 이 표상적representational 모델은 비판을 받았으나, 여전히 의학 교육에서 우세한 모델이다. 우리는 이 모델을 버릴 때가 되었다고 믿는다.

We expect educators to interpret what a student does and says, and we expect them to translate this to a judgment of the student’s beetle . This representational model has been criticized [1, 27, 28] but is still the dominant model in medical education. We believe it is time to leave this model behind.


우리는 상자 속의 딱정벌레가 어떻게 생겼는지를 보여주는 행동적, 물리적 표지에 동의할 수 있고, 학생에게 그들 자신의 딱정벌레에 대한 점수를 스스로 보고하도록 요청할 수 있지만, 이것은 우리에게 딱정벌레 자체에 대한 어떤 것도 말해주지 않는다.

We can agree on the behavioural and physical markers of what we think a beetle in a box looks like, and we can ask people to self-report a score of their own beetle—but that does not tell us anything about the beetle itself.



앞으로 갈 길

The way forward


평가: 딱정벌레의 사생활 존중

Assessment: respect the privacy of the beetle


어떻게 평가할 것인가?

how will we assess this?


1. '우리는 이것을 평가하고 싶은가? 만약 그렇다면 왜인가?' 의도된 평가가 정말로 역량 개발에 기여하고 있는가? 이것은 커리큘럼에 중요하지만 평가하기에 유익하거나 해롭지는 않은 부분이 있을 가능성을 열어준다.

1. ‘Do we want to assess this, and, if so, why?’ Does the intended assessment truly contribute to competency development? This opens up the possibility that there may be parts of the curriculum which are important, but not beneficial or even harmful to assess.


2. '이것 평가 가능할까?' 만약 어떤 것이 객관적으로 측정될 수 없고, 우리가 어쨌든 평가의 형태를 적용한다면, 우리는 실제로 평가되고 있는 것에 대해 생각할 필요가 있다.

2. ‘Is it possible to assess this?’ If something cannot be objectively measured, and we apply a form of assessment anyway, then we need to think about what is actually being assessed.


3. '이 현상의 어느 측면을 평가하며, 어떻게 평가하는가?' 여기서 평가 방법은 평가 대상과 일치해야 한다.

3. ‘Which aspect of this phenomenon do we assess, and how?’ Here the assessment method should fit what is being assessed.


딱정벌레에 대한 객관적인 평가는 근본적으로 불가능하다. 왜냐하면 그것은 외부적인 기준을 필요로 하기 때문이다. 표준화가 항상 가능한 것은 아니다: 예를 들어 [표준화된 시험에서의 수행]을 가지고 [의사가 실제 환경에서 어떻게 수행할지]를 추론하는 것은 현명하지 못하다[29, 30]. 왜냐하면 '실제 세계는 비표준화되어 있고, 더 중요한 것은, 표준화를 시도하는 것은 평가를 하찮게trivialize 할 것이기 때문이다.' [31].

Objective assessment of beetles is fundamentally impossible, because it requires an external standard. Standardization is not always possible: extrapolating, for example, how a doctor performs in a real-world environment from performance in a standardized test is unwise [29, 30], because: ‘The real world is non-standardized and haphazard, and, more importantly, any attempt at standardization will only trivialize the assessment’ [31].


인간으로서 우리는 항상 서로에 대해 의견과 판단을 형성한다. 주관적 평가는 평가자의 경험이 방정식의 필수적인 부분임을 의미한다[30]. 교육자는 [자신의 딱정벌레]를 도구로 사용함으로써, (피평가자와의) 대화 속에서 어떻게 공명resonate하는지 인식함으로써, 학생이 '공감'적으로 보이는지에 대한 자신의 생각을 형성할 수 있다. 또는 우리는 환자의 피드백과 그들의 공감 경험을 (모크) 상담에서 살펴볼 수도 있다. 

As human beings, we form opinions and judgments of each other all the time. Subjective assessment means that the assessor’s experience is a necessary part of the equation [30]. An educator might form an idea of whether a student comes across as empathic by being aware how their own beetle ‘resonates’ in the conversation, using themselves as an instrument. Or we might look at patient feedback and their experience of empathy in a (mock) consultation. 


우리는 평가에 대한 현상학적 접근을 제안하고 있는데, 이는 객관적 평가가 아닌 평가자의 경험이 기준이라는 것을 의미한다. 이런 종류의 평가는 딱정벌레에 대한 부당한 주장pretence을 하지 않는 한 매우 유용할 수 있다(예: '이 사람은 성찰능력이 없다' 또는 '이 사람은 공감능력이 없다'). 그것은 또한 우리가 평가자마다 같은 사람에 대한 다른 평가를 가질 수 있다는 것을 받아들여야 한다는 것을 의미한다. 이러한 경우, (프로그램 평가나 전체적인 평가와 같은) 평가가 논리적이다[30].

We are proposing a phenomenological approach to assessment, which means that the experience of the assessor, rather than an objective assessment, is the criterion. This kind of assessment can be very useful, as long as no pretences are made about the beetle (e.g., ‘this person cannot reflect’, or ‘this person is not empathic’). It also means that we have to accept that different assessors can have different assessments of the same person. This makes other forms of assessment more logical, such as programmatic assessment or holistic assessment [30].


이러한 유형의 평가는 '평가도구'가 교사의 경험이기 때문에 교사 연수를 필요로 한다. 평가자 훈련은 평가자로서 자신의 한계를 인식하고 반성하며, 항상 편견을 갖는 것에 초점을 맞출 것이다. 진정한 전문직 종사자들은 자기 자신의 주관성과 잠재적 편견을 성찰하고 인식할 것이기 때문에 수준 높은 교육자들은 수준 높은 교육자들은 고품질의 판단을 내릴 것이다.

This type of assessment requires teacher training, as the assessment ‘instrument’ is the teacher’s experience. This kind of training would focus on being aware of and reflecting on one’s limits as an assessor, and being aware of always being biased. High-quality educators will form high-quality judgments, as true professionals will be reflective and aware of their own subjectivity and potential bias.


정의: 딱정벌레 모양의 구멍

Definitions: beetle-shaped holes


(그들의 감정[30]을 포함하여) 미래의 의사에 대한 현대의학의 whole person 관점은 환영할 만하다. 그러나 정확한 정의에 도달하려는 어떤 시도도 잘못된 것이다. (딱정벌레를) '정확한' 정의로 조작화하려는 것은 복잡한 개념의 본질을 상실할 위험이 있다.

The contemporary focus on the whole person of the future doctor, including their emotions [30], is welcome. However, any attempt to reach precise definitions is misguided. Operationalizing these definitions risks causing complex concepts to lose their essence.


딱정벌레를 정의해야 할 것으로 보기보다는, 우리는 딱정벌레를 공동체 사이를 여행하고, 특정한 의미를 떠맡고, 다른 것을 잃고, 개별적인 해석의 여지를 남기는 흐릿한fuzzy 개념[2]으로 볼 수도 있다. 

Rather than seeing beetles as something to be defined, we might see them as fuzzy concepts [2] that travel between communities, take on certain meanings, lose others, and leave room for individual interpretation. 


특정 개념이 무엇을 의미하는지 임시적으로 그리고 부분적으로 정의하기 위해 더듬는 동안, 우리는 그것이 무엇을 할 수 있는지에 대한 통찰력을 얻는다. (부분적이고 임시적인 정의를 찾고자) 더듬는 것 자체가 가치있는 작업이다심지어 끈질기게 확립된 그러한 개념조차 그 개념의 잠재적 상호주관성 때문에 가치가 있다. 누구에게나 같은 의미를 지니기 때문이 아니라, 그렇지 않기 때문에 가치가 있는 것이다.

‘While groping to define, provisionally and partly, what a particular concept may mean, we gain insight into what it can do. It is in the groping that the valuable work lies. [. . . ] Even those concepts that are tenuously established [are valuable] primarily because of their potential intersubjectivity. Not because they mean the same thing for everyone, but because they don’t’ [22].


사회학과 학생들이 말하자면 '자본주의'나 '아노미'나 '기분' 같은 추상적인 개념을 가지고 작업을 해야 하는 것처럼, 의대생들은 '환자 중심', '팀워크', '반성'과 같은 용어를 다루는 법을 배워야 할 것이다. 이것이 어렵다고 생각했던 유일한 이유는 의학 교육이 과학을, 특히 '팩트'에 관한 과학을 다룬다고 인식되었기 때문이다. 그러나 사회과학과 인문학에서 어려운 개념에 대한 논의는 일상적인 일이다.

Just as students of sociology, say, have to work with abstract concepts such as ‘capitalism’ or ‘anomie’ or ‘ascribed status’, so medical students will need to learn to handle terms like ‘patient-centredness’, ‘teamwork’, and ‘reflection’. The only reason anyone ever thought this was hard is because medical education is perceived as involving science, and science is about facts. The discussion of difficult concepts is, however, routine in social sciences and humanities.


이것은 쉽지 않다. 의학교육 시스템이 그렇듯이, 목표는 여전히 '옳은 것'에서 '잘못된 것'을 가려내고, 최선의 행동 방침을 결정하기 위해 증거를 사용하는 것 등을 목표로 한다. 의학(교육)의 전통에서 모든 개념은 잘 정의되어 있으며, 그렇지 않은 개념은 과학적인 개념이 아니므로 적어도 전문적professionally으로는 신경 쓸 가치가 없는 것처럼 여겨졌다. 이는 (역설적으로) 교육 개발자, 교사, 학생들이 모호성을 다루는 법을 배울 필요가 있다는 것을 의미한다. 사회과학과 인문과학은 이런 점에서 의학을 제공할 것이 많다.

This is not easy, as in the medical education system the aim is still to sort out what is ‘correct’ from what is ‘incorrect’, to use evidence to decide on the best course of action, and so on. In this tradition, every concept is well-defined, and if it is not, it is not a scientific concept and therefore not worth bothering with, at least professionally. This means educational developers, teachers, and students need to learn how to deal with ambiguity. Social science and the humanities have a lot to offer medical education in this respect.


역량 프레임워크: 한계 인정

Competency frameworks: acknowledge the limits


그 중심적인 난제는 간단히 언급되어 있다. 무엇인가를 의학교육과정에 포함시킬지를 결정하는 조건이 '객관적으로 측정가능한지'라면, 커리큘럼에 딱정벌레가 설 자리는 없을 것이며, 우리는 오직 지식과 기술에만 집중해야 할 것이다. 그러나 우리는 심대히 중요하지만, 평가는 커녕, 명확하게 정의조차 할 수 없는 것(integrity, value, 자기 인식 등등)이 있다는 것을 알고 있다.

The central conundrum is simply stated. If the condition for inclusion in the medical curriculum is that something is objectively measurable, then indeed beetles have no place in the curriculum, and we should focus only on knowledge and skills. Yet we know that there are things (integrity, values, self-awareness, to name but a few) which matter profoundly but which cannot be clearly defined, let alone assessed.


역량 프레임워크는 측정할 수 있는 지식과 기술의 측면을 규정한다. 그러나 시험이라는 조건에서의 측정 행위와 이에 대해 분명히 해야 할 것은 의사가 오더를 내릴 수 있는지 여부를 측정하는 것이다.

Competency frameworks set out aspects of knowledge and skills which can be measured. The act of measurement under examination conditions, however, and we should be clear about this, is a measurement of whether a doctor can perform to order.


대부분의 학생들은 표준화된 환자와 대면하여 OSCE에서 공감을 수행할perform 수 있다. 그러나 이것이 그들을 공감하게 하지는 않는다.

most students can perform empathy in an OSCE, face to face with a standardized patient: but this does not make them empathic.


딱정벌레에 대한 평가, 아니 [딱정벌레와 결부된 성과performance에 대한 평가]가 조금이라도 시도되려면 잘 훈련된 사람들이 필요하다. 그리고 학생들에 관한 한, 어떤 종류의 '애니멀' 딱정벌레인지 배우고 그들이 개인적으로 가지고 다니는 딱정벌레를 탐구하는 것은 학생들이 동료나 멘토들과 함께 성찰하고, 탐구하고, 대화할 수 있는 공간을 필요로 할 것이다.

Assessment of beetles, or rather, assessments of performances that we associate with beetles, requires well-trained people if it is to be attempted at all. And as far as students are concerned, learning what kind of ‘animals’ beetles are, and exploring the beetles they personally carry with them, might require space for students to reflect, explore and talk to peers and mentors.


평가와 측정은 그 자체로 목표가 되어서는 안 되며, 보다 높은 목적을 달성해야 한다.

Assessment and measurement should not be goals in themselves, but serve a higher purpose:


평가는 교육적 가치를 가질 수 있다. 그러나 많은 경우 평가는 역효과를 낳을 수 있고 학생들을 피상적인 학습행위로 이끌 수 있다.

Assessments can have educational value—people learn from being assessed, learn from feedback, and from mapping their progress. But in many cases, assessment can be counterproductive and guide students towards superficial learning behaviour.


상자속 딱정벌레 사고실험의 본질은 딱정벌레 '그 자체'는 공공 언어public language에서 [아주 잘 정의된 역할]을 할 수 없다는 것이다. 우리는 우리가 말하고 있는 것을 대충 알고 있다고 짐작하겠지만, '정직'에 대한 당신의 개념은 나와 다를 수 있다. 그러므로 우리는 딱정벌레의 사생활을 존중해야 한다. 프라이버시에 대한 정의 중 하나는 '각 개인의 경험과 생각을 즉시 그 사람에게 알리는 기능'이다[34]. 딱정벌레의 비유는 교육자로서 우리가 그러한 내부 국가들에 즉시 접근할 수 없다는 것을 보여준다. 학생들 자신만이 한다.

The essence of the beetle-in-a-box thought experiment is that the beetle ‘itself’ cannot play any very well-defined role in public language. Your concept of ‘honesty’ may be different from mine, even if we suspect we know roughly what we are talking about. We should, therefore, respect the privacy of the beetle. One definition of privacy [33] is ‘the feature which leaves each person’s experiences and thoughts as known immediately to that person’ [34]. The beetle analogy shows that we as educators have no immediate access to those inner states. Only the students themselves do.


결론

Conclusion


지식과 기술 다음으로, 딱정벌레는 의학 교육에 중요한 역할을 한다. 딱정벌레는 외부 세계에 접근할 수 없는 사적인 경험이지만, 개인이 세상을 경험하는 방식과 따라서 그들이 배우고 발전하는 방식의 중요한 부분이다. 딱정벌레의 문제는, 우리가 딱정벌레를 기술로서 취급하고, 학생들에게 (실제로는 불가능한) 시연demonstration을 요청하고, 우리는 그것들을 측정하려고 노력하는 것이, 피상적인 '좀비' 학습 행동을 자극한다는 것이다.

Next to knowledge and skills, beetles-in-boxes play an important part in medical education. Beetles are private experiences that are inaccessible to the outer world, but are an important part of the way individuals experience the world and thus the way in which they learn and develop. The problem with beetles is that we treat them as skills and ask students to demonstrate them (which is impossible), we try to measure them (which is impossible), and thereby we stimulate superficial ‘zombie’ learning behaviour.


우리는 의료 교육자들이 그것을 보고 측정하거나 평가하려 하지 않음으로써 개인 경험의 프라이버시를 존중할 것을 요구한다. 그렇게 하기보다는, 딱정벌레를 잡고 있는 사람, 의대생에게 초점을 옮기자고 제안한다.

We call for medical educators to respect the privacy of private experiences by not trying to see, measure, or assess them. Rather than doing so, we propose to shift the focus to the person holding the beetle, the medical student.




20. Whitehead CR, Austin Z, Hodges BD. Continuing the competency debate: reflections on definitions and discourses. AdvHealthSci Educ. 2013;18:123–7. XXX


23. McNaughton N. Discourse(s) of emotion within medical education: the ever-present absence. Med Educ. 2013;47:71–9.


30. Schuwirth L, Ash J. Assessing tomorrow’s learners: In competency-based education only a radically different holistic method of assessment will work. Six things we could forget. MedTeach. 2013;35:555–9.







 [Online ahead of print]

Knowledge, Skills and Beetles: Respecting the Privacy of Private Experiences in Medical Education

Affiliations 

Affiliations

  • 1Department of General Practice, Erasmus University Medical Center, Rotterdam, The Netherlands. m.veen.1@erasmusmc.nl.
  • 2Institute of Clinical Sciences, University of Birmingham, Birmingham, UK.
  • 3Educational Sciences, Faculty of Behaviour and Movement Sciences, VU University, Amsterdam, The Netherlands.
  • 4Research in Education, Amsterdam UMC, VUmc School of Medical Sciences, Amsterdam, The Netherlands.

Abstract

In medical education, we assess knowledge, skills, and a third category usually called values or attitudes. While knowledge and skills can be assessed, this third category consists of 'beetles', after the philosopher Wittgenstein's beetle-in-a-box analogy. The analogy demonstrates that private experiences such as pain and hunger are inaccessible to the public, and that we cannot know whether we all experience them in the same way. In this paper, we claim that unlike knowledge and skills, private experiences of medical learners cannot be objectively measured, assessed, or directly accessed in any way. If we try to do this anyway, we risk reducing them to knowledge and skills-thereby making curriculum design choices based on what can be measured rather than what is valuable education, and rewarding zombie-like student behaviour rather than authentic development. We conclude that we should no longer use the model of representation to assess attitudes, emotions, empathy, and other beetles. This amounts to, first of all, shutting the door on objective assessment and investing in professional subjective assessment. Second, changing the way we define 'fuzzy concepts' in medical education, and stimulating conversations about ambiguous terms. Third, we should reframe the way we think of competences and realize only part of professional development lies within our control. Most importantly, we should stop attempting to measure the unmeasurable, as it might have negative consequences.

Keywords: Assessment; Communication; Competency based education; Empathy; Philosophy; Professionalism.


타당도: 한 단어, 여러 의미(Adv in Health Sci Educ, 2016)

Validity: one word with a plurality of meanings

Christina St-Onge1 • Meredith Young2 • Kevin W. Eva3 • Brian Hodges4




도입

Introduction


타당도는 일반적으로 측정할 개념, (개발된) 평가 도구, (사용된) 분석 접근법, 평가 결과의 선택에 필요한 정보를 주는 퀄리티 평가의 표지로 간주된다(AERA 등 1999). 즉, '타당도는 평가의 필수불가결한 것이다. 왜냐하면 타당도가 없다면 의학교육에서 평가는 아무런 의미가 없기 때문이다' (Downing 2003). 이와 같이 타당도는 흔히 도구의 퀄리티를 '증명attest'하고 입학부터 실무에 이르기까지 높은 보건 전문직 교육에서 고부담 평가의 사용을 정당화하기 위해 사용된다. 다른 말로 하자면, [무엇이 타당한가]에 대한 결정이 개인과 사회에 영향을 미치기 때문에타당도는 다른 사람들에게 특정한 도구, 분석 절차 또는 시험 점수가 높은 품질 기준을 충족한다는 것을 확신시키기 위해 사용되는 수사학적 '갓-텀'(Lingard 2009)이 되었다.

Validity is generally considered a beacon of quality assessment, informing the choice of concepts measured, assessment tools developed, analytic approaches used, and interpretation of assessment results (AERA et al. 1999). That is, ‘‘Validity is the sine qua non of assessment, as without evidence of validity, assessments in medical education have little or no intrinsic meaning’’ (Downing 2003). As such, validity is often used to ‘attest’ to the quality of tools and to justify the use of assessments in health professions education where stakes are high from admissions to entry into practice. In other words, because decisions about what is considered valid impact upon individuals and society, validity has become a ‘god term’ (Lingard 2009) that is used rhetorically to convince others that particular instruments, analytic procedures, or test scores collected meet high standards of quality.


그러나 최근 몇 가지 리뷰에서 문서화한 바와 같이, HPE(Health Professions Education) 내에서 '타당도'이라는 용어를 사용하는 방식에는 명백한 불일치가 있다(Cook et al. 2013, 2014). 그러한 가변성을 지적하는 작가는 일반적으로 (적어도 암묵적으로) 이러한 불일치의 원인이 현대 이론과 타당도에 대한 접근에 관한 무지에 의한 것이라고 가정한다. 그러나 타당화 관행의 variability는, 부분적으로, 서로 다른 영역의 사람들에게, 서로 다른 방식으로 가치를 제공하는, 서로 다른 타당도의 개념화로부터 발생할 수 있다고 생각할 수 있다.

There is clear inconsistency, however, in the way the term ‘validity’ is used within Health Professions Education (HPE), as documented by several recent reviews (Cook et al. 2013, 2014). Authors who point to such variability commonly assume (at least implicitly) that it is driven by ignorance regarding modern theories and approaches to validity. It is conceivable, however, that the variability in validation practices could arise, in part, from different conceptualizations of validity that provide value to those who work in health professions education in different ways.


HPE은 교육심리학, 측정학, 사회학, 실험심리학 등 여러 분야의 전문가로부터 지속적으로 정보가 유입되는 응용분야로, 이 모두가 분야의 방법론적, 개념적 풍요로움에 기여한다. 그러나 이러한 '풍요로움richness'은 [타당도의 상이한 개념화]를 유발하고, 이는 서로 다른 우선순위로 이어질 수 있으며, 따라서 혼동, 오해, 갈등을 유발할 수 있는 다수의 해석과 이해의 원인이 될 수 있다.

Health professions education is an applied field full of practitioners that is continuously informed by many different disciplines, including educational psychology, measurement, sociology and experimental psychology, all of which contribute to the methodological and conceptual richness of the field. This ‘richness’, however, may lead to different priorities that are supported by differing conceptualizations of validity, thereby generating multiple interpretations and understandings that have the potential to create confusion, miscommunication, and conflict.


타당도에 대한 [묵시적 개념화]와 [상이한 개념화]의 공존은 문제가 있다. 왜냐하면 HPE에서 매일 중대한 결정이 평가 점수의 '퀄리티'에 크게 의존하는 방식으로 이뤄지기 때문이다(예: 개인이 자신이 선택한 직업에 접근할 수 있는 능력, 잘못 인지된 상황에 직면했을 때 법적 상환legal recourse, 그리고 가장 일반적으로 그리고 중요한 것은 환자가 받는 치료의 질이다.) 평가 점수의 '방어가능성'과 그러한 점수의 '정확성'에 대한 개념은 생산된 점수의 타당도에 관한 논쟁에 강하게 놓여 있다.

The co-existence of implicit and different conceptualizations of validity is problematic because important decisions are made every day within the health professions that rely heavily on the ‘quality’ of assessment scores (e.g., individuals’ access to a career of their choice, legal recourse when faced with perceived fault, and most generally and importantly, the quality of care received by patients). Notions of the ‘defensibility’ of assessment scores and the ‘accuracy’ of such scores rest strongly on arguments regarding the validity of the scores produced.


목적

Purpose


이 연구의 주된 목적은 담화 분석을 사용하여 보건 직업 교육에서 '타당도'이라는 용어가 사용되는 다양한 방법을 식별하는 것이었다.

The primary purpose of this study was to use discourse analysis to identify the different ways in which the term ‘validity’ is used within health professions education.


방법

Method


설계

Design


우리의 연구는 담론 이론(Mills 2004)에 기반을 두고 있으며, 따라서 담론 분석의 방법론을 채택하고 있다. 우리의 접근방식은 주로 Hodges 등이 '경험적 담화 분석'라고 명명한 것을 따르고 있으며, 보건 직업 교육 문헌의 텍스트와 언어로 타당도가 구성되는 방법에 일차적으로 초점을 맞추고 있다.

Our research is based on discourse theory (Mills 2004) and thus employs a methodology of Discourse Analysis. Our approach is primarily what Hodges et al. (2008) have labeled ‘empirical discourse analysis’—having a primary focus on ways validity is constructed in text and language in the health professions education literature.


자료(아카이브)

Data (Archive)


토론 분석은 관심의 소지를 식별하기 위해 분석되는 텍스트 및 기타 자료의 식별에서 시작된다(Hodges et al. 2008). 우리는 주로 우리의 연구 기록보관을 보건직 교육원들로 제한했다. 그 목적은 그 분야에서 일하는 사람들에 의해 어떻게 그 건축물이 변형적으로 사용되는지를 탐구하는 것이기 때문이다.

Discourse analysis begins with identification of an archive—the textual and other materials that are analyzed to identify discourses of interest (Hodges et al. 2008). We predominantly restricted our study archive to sources from health professions education because the purpose was to explore how the construct is variably used by people working in that field.


이 연구를 위해 조립된 기록보관소는 4단계 과정으로 구축되었으며, 타당도와 평가를 주제로 한 영어와 프랑스어 출판된 동료 검토 논문과 책으로 구성되어 있다.

The archive assembled for this research was constructed in a four-step process and is comprised of English and French published peer-reviewed articles and books on the topic of validity and assessment.


1단계 본 논문의 모든 저자들은 프레임 평가 관행 측면에서 '매우 중요'하다고 간주한 개인 소장품으로부터 보건 전문직 교육 분야의 타당도와 평가에 관한 5개 내지 6개의 주요 논문을 식별했다. 한 작가(CSO)는 이 텍스트를 비판적으로 검토하여 새로운 언어와 타당도에 대한 개념을 식별하였다.

Step 1 All authors of this paper identified five to six key papers on validity and assessment in the field of health professions education fromtheir personal collection that they considered to be ‘very important’ in terms of framing assessment practices. One author (CSO) reviewed the texts critically to identify emerging language and concepts about validity.


2단계 이 문서 모음에서 인용한 내용은 이차 출처를 포함하도록 아카이브를 확장하기 위해 검토되었다. 한 작가(CSO)는 새롭게 대두되는 담론을 추가로 파악하기 위해 이 텍스트들을 검토했다.

Step 2 The references from this collection of papers were examined to expand the archive to include secondary sources. One author (CSO) reviewed these texts in order to further identify emerging discourses.


3단계 PubMED, ERIC 및 PsycINFO/PsycLit을 사용하여 보건 전문직 교육 문헌에 대한 보다 공식적인 검색을 포함하며, 학술적 사서의 도움을 채용했다. 이 검색의 목표는 1995년에서 2013년 사이에 건강 전문직 교육에서 '평가 타당도'을 주제로 출판된 더 큰 기사의 집합을 확인하는 것이었다. 검토는 전통적인 체계적 검토를 수행하기 보다는 보관소의 폭과 범위를 증가시킬 목적으로 잘린truncated 키워드를 사용하여 실시되었다(valid*, assess*). 즉, 목표는 이 검색으로 포괄적이거나 매우 정밀한 포함/제외 기준을 설정하는 것이 아니라 가능한 한 많은 타당도 개념화를 포함하는 것이었다. 기록보관소에 대해 고려되기 위해서, 기사는 보건 직업 교육 분야에서 평가의 맥락에서 타당도 문제를 다루어야 했다.

Step 3 Involved a more formal search of health professions education literature using PubMED, ERIC, and PsycINFO/PsycLit, employing the assistance of an academic librarian. The goal of this search was to identify a larger set of articles, published between 1995 and 2013, on the topic of ‘validity of assessment’ in health professions education. The review was conducted using the truncated key words valid* and assess* with the intention of increasing the breadth and coverage of the archive rather than with the aim of undertaking a traditional systematic review. In other words, the goal was not to be comprehensive with this search or to set very precise inclusion/exclusion criteria, but was to be as inclusive of as many validity conceptualizations as possible. To be considered for the archive, an article had to address the topic of validity in the context of assessment in the field of health professions education.


4단계 위에서 언급한 검색은 2013년부터 2015년까지 주요 작성자가 설정한 콘텐츠 경고 표에 의해 플래그가 표시된 텍스트로 보완되었다. 한 저자(CSO)는 이러한 목표를 염두에 두고 논문의 포함/제외를 평가하기 위해 문헌검색에서 검색된 모든 제목과 추상화를 검토하였다.

Step 4 The above mentioned search was complemented by texts from 2013 to 2015 flagged by Table of Content alerts set by the principal author. One author (CSO) reviewed all titles and abstracts retrieved from the literature search to assess the inclusion/exclusion of papers with these goals in mind.


절차

Procedure


분석

Analysis


분석은 반복적이었으며, 연속적인 각 단계에서 순차적으로 담론표를 작성했고, 팀의 집단적 및 개별적 전문지식(추후 기술)과 그 결과로 나타나는 내재적 관점을 통해 이를 알게 되었다. 담론의 요소(핵심어, 개념, 주장, 관련 개인과 제도)가 더욱 명확하게 규명됨에 따라 결국 표 1의 구축으로 이어지는 패턴으로 분류되었다.

The analysis was iterative, building the discourse table sequentially at each successive stage and it was informed by the team’s collective and individual expertise (that are subsequently described) and the inherent perspectives that result. As elements of discourse (key words, concepts, arguments, associated individuals and institutions) were more clearly identified, they were sorted into patterns that eventually led to the construction of Table 1.



결과

Results


연구된 기록 자료에서 세 가지 다른 담론이 확인되었다. 

(1) 시험 특성으로서의 타당도, 

(2) 논쟁 기반 증거-체인으로서의 타당도, 

(3) 사회적 의무로서의 타당도.

Three different discourses were identified in the archival materials studied: (1) Validity as a test characteristic, (2) Validity as an argument-based evidentiary-chain and (3) Validity as a social imperative.


  • 시험 특성으로서의 타당도는 타당도가 도구의 본질적 속성이며 따라서 내용 및 문맥에 독립적인 것으로 보일 수 있다는 개념에 의해 뒷받침된다.

Validity as a test characteristic is underpinned by the notion that validity is an intrinsic property of a tool and could, therefore, be seen as content and context independent.


  • 주장에 기초한 증거-체인으로서의 타당도는 타당도가 도구/장치에 속하지belong 않도록 지속적인 분석을 통해 평가 결과의 해석을 지원하는 것의 중요성을 강조한다. 프로세스 기반 검증(타당도란 목표가 아니라 여정)이 강조된다.

Validity as an argument-based evidentiary-chain emphasizes the importance of supporting the interpretation of assessment results with ongoing analysis such that validity does not belong to the tool/instrument itself. The emphasis is on process-based validation (emphasizing the journey instead of the goal).


  • 사회적 의무로서의 타당도는 긍정적이든 부정적이든 개인과 사회 수준에서 평가의 결과를 예견한다.

Validity as a social imperative foregrounds the consequences of assessment at the individual and societal levels, be they positive or negative.


시험의 특성으로서 타당도

Validity as a test characteristic


이 담화에서 타당도는 흔히 "시험이 실제로 측정하고자 하는 것을 측정하는 정도"로 정의된다(Anastasi 1988, 페이지 28). 문자 그대로 액면가로서 그러한 정의는 타당도 주장을 도구 자체의 특성(즉, 본질적으로 도구에 속하는 것)에 대한 진술로 취급한다. 이와 같이 도구에 내재된 속성으로서의 타당도는 내용, 컨텍스트, 시간이 바뀌어도 유지된다. 종종 이 담론과 연관되어 발견되는 개념은 "시험은 상관관계가 있는 모든 것에 대해 타당valid하다"(길포드 1946, 페이지 429)라는 문장에서 예시된 개념이다. 이 담론을 사용하여 도구가 '타당한' 것으로 '낙인 찍히면' 그 도구는 그 품질을 무한정 유지하는 것처럼 취급된다.

In this discourse, validity is often defined as ‘‘the degree to which the test actually measures what it purports to measure’’ (Anastasi 1988, p. 28). Taken literally and at face value, such a definition treats claims of validity as statements about a characteristic of the tool itself (i.e., something that inherently belongs to the tool). As such, validity as a property inherent in a tool spans domains of content, context, and time. Often found associated with this discourse is a concept illustrated by the statement: ‘‘a test is valid for anything with which it correlates’’ (Guilford 1946, p. 429). Once a tool is branded as ‘valid’ using this discourse, the tool is treated as though it retains that quality indefinitely.


따라서 시험 특성으로서의 타당도는 그 도구를 승인해주는 '금도장'으로 생각할 수 있다. 예를 들어, 이 담론을 사용하는 사람들은 MCQ(다중 선택 질문)가 지식의 타당한 척도라고 말할 수 있다. 따라서 그들은 필기 시험을 만들 때 주어진 형식을 따르는 것만으로도 방어될 수 있다. 다음은 타당도의 '골드 씰'을 달성한 것으로 프레임된 도구에 대한 사례 몇 가지이다.

Validity as a test characteristic, therefore, can be thought of as a ‘gold seal of approval’. As an example, those employing this discourse would say that Multiple Choice Questions (MCQs) are a valid measure of knowledge, full stop. Thus they can be defended as the goto format when creating written exams. Here are a few examples of claims about tools that are framed as having achieved a ‘gold seal’ of validity:


증거는 JSE[Jefferson Scale of Empathy]가 의료 분야에서 의대생과 의사에게 타당valid하고 신뢰할 수 있는 공감의 척도가 된다는 것을 보여주었다. (Van Winkle et al. 2013, 페이지 219 - 저자)

Evidence has shown the JSE [Jefferson Scale of Empathy] to be a valid and reliable measure of empathy in medical students and physicians in the context of healthcare. (Van Winkle et al. 2013, p. 219 -emphasis by authors)


타당도를 도구의 품질로 간주하는 경우, 주어진 영역(지식, 기술, 전문성 등)에 대해 [가장 타당한 것으로 보일 수 있는 하나의 우수한 도구가 있을 수 있는 가능성]이 열린다. 따라서 이러한 담론은 측정하려는 내용이나 능력과는 무관한, '최고의' 평가 도구를 식별하기 위한 탐색, '성배'를 찾기 위한 퀘스트를 가능하게 한다.

When one considers validity to be a quality of a tool, the door is opened for the possibility that for any given domain (knowledge, skills, professionalism, etc.) there could be one superior tool that could be shown to be the most valid. Thus, this discourse makes possible the quest for ‘holy grails’ of assessment, a quest to identify the ‘best’ assessment tools, independent of content or ability to-be-measured.


MCQ 테스트는 서면 평가의 가장 효율적인 형태로서, 콘텐츠의 광범위한 적용범위에 의해 신뢰성과 타당도를 갖는다. (McCoubrie 2004, 페이지 711 - 저자 강조)

MCQ testing is the most efficient formof written assessment, being both reliable and valid by broad coverage of content. (McCoubrie 2004, p. 711 -emphasis by authors)


흥미롭게도, 우리는 시험적 특징으로서의 타당도의 담론을 비판적으로 평가하는 일부 사람들은 이를 '구식', '논쟁적', '가치 결여'라고 주장한다.

Interestingly, we found that the discourse of validity as a test characteristic is judged harshly by some who argue that this view is ‘antiquated’, ‘controversial’, or ‘lacking in value’.


우리는 종종 '타당화된 도구'라는 말을 듣는다." 이 개념화는 그 도구가 타당하거나 그렇지 않다는 이분법을 암시한다. 이 견해는 부정확하다. 첫째로, 타당도는 추론의 속성이지, 기구가 아니라는 것을 기억해야 한다. 둘째, 해석의 타당도는 항상 정도의 문제다. 도구에서 얻은 점수는 기초 구조를 더 정확하거나 덜 정확하게 반영하지만 결코 완벽하지 않다. (Cook and Beckman 2006, p. 166e10)

We often read about ‘‘validated instruments.’’ This conceptualization implies a dichotomy—either the instrument is valid or it is not. This view is inaccurate. First, we must remember that validity is a property of the inference, not the instrument. Second, the validity of interpretations is always a matter of degree. An instrument’s scores will reflect the underlying construct more accurately or less accurately but never perfectly. (Cook and Beckman 2006, p. 166e10)


타당도 범주를 고려할 때, 타당도 증거는 다양한 정도까지 존재한다고 이해되지만, 평가가 '타당하다'라고 할 수 있는 threshold는 없다. (벡먼 외) 2004, 973쪽

When considering categories of validity, it is understood that validity evidence exists to various degrees, but there is no threshold at which an assessment is said to be valid. (Beckman et al. 2004, p. 973)


그러나 보건 전문직 교육 문헌에 이러한 타당도 담론이 지속적으로 존재함에 따라 '즉각적 해결책'이 필요한 개인(예: '타당한' 평가 프로그램, 도구, 접근법을 새로 만들려는 열망/지식/자원이 없는 교육자와 관리자)가 필요로하는 실용적 필요성을 충족시킬 수 있음을 시사한다. 타당도의 담론을 시험 특성으로 사용하면, 자원이나 심리학적 전문지식이 부족한 상황에서도, 퀄리티가 높다고 보고된 도구를 사용하여 평가와 관련된 과제를 극복할 수 있기 때문이다. 즉, '이미 발견된found' 해결책의 사용이 가능한 것이다.

However, the continued presence of this discourse of validity in the health professions education literature suggests that it may fill a pragmatic need for individuals who require ‘off-the-shelf solutions’ (e.g., educators and administrators who do not have the desire, knowledge, or resources to create ‘valid’ assessment programs, tools, or approaches de novo). Using the discourse of validity as a test characteristic permits the possibility of ‘found’ solutions to overcome the challenges associated with assessing students and future professionals using tools reported to be of high quality in a context of limited resources or limited psychometric expertise.


...대학 차원의 가용자원으로 타당하고 신뢰할 수 있는 역량 평가를 개발하기는 쉽지 않다.(로버트 외 2006, 저자의 542 강조)

…Developing a valid and reliable assessment of competence is not easy to achieve with the resources available at the university level. (Roberts et al. 2006, p. 542 emphasis by authors)


우리는 타당도를 시험의 내재된 특성으로 강조함으로써 다른 효과에 대해 추측할 수 있다. 시험의 불변성 속성으로서의 타당도는 평가 실무자에게 잘못된 안전의식을 심어줄 우려가 있다. 평가자는 평가도구의 '금도장gold seal'에 대해 의문을 제기하거나 다시 확인해볼 필요성을 전혀 느끼지 못할 수 있다. 예를 들어, MCQ 시험 형식을 사용하는 것은, 할라디나 등 2002년에 제시된 것과 같은 항목 작성 지침이나 MCQ가 사용되는 맥락적 성격을 고려하지 않고 '타당하다valid'(McCoubrie 2004)고 들었기 때문이다. 이런 것이 이 담론에 존재하는 사각지대의 사례이다. 마찬가지로 적절한 청사진이나 문제가 있는 시나리오에 대한 주의vigilance 없이 OSCE나 MMI와 같은 평가 접근방식을 배치하는 것을 선택하는 것은 맥락적으로 의미 있는 평가를 달성하려는 [원래 의도했던 목적]을 어렵게 만들 수 있다(Eva 및 Macala 2014). 더욱이 원래 연구한 용도 이외의 목적으로 또는 원래 맥락을 넘어서는 목적으로 시험을 사용하는 것도 (부정적) 결과를 초래할 수 있다.

We can speculate about some of the effects of emphasizing validity as a test characteristic over other discourses of validity. Validity as an immutable property of a test has the potential to create a false sense of security for assessment practitioners, who may never feel the need to question or re-evaluate an instrument’s ‘gold seal’. Using an MCQ exam format, for example, because it is said to be ‘valid’ (McCoubrie 2004) without consideration for item-writing guidelines such as those put forward in Haladyna et al. 2002), or the nature of the context in which the MCQs are used, is an example of such a blind spot. Similarly, choosing to put in place an assessment approach like OSCEs or MMIs without proper blueprinting strategies or without vigilance for problematic scenarios may defeat the intended purpose of achieving a contextually meaningful assessment (Eva and Macala 2014). Moreover, using tests beyond their original contexts or for purposes other than the originally studied uses can have consequences.


잘못된 인간에 대한 측정:

IQ 테스트가 지능을 하나의 탈맥락화된 점수로 수량화할 수 있다는 전제를 가지고 이뤄진 결과, 어떻게 새로운 맥락(이민 목적 등)에서 사용된 다음, IQ 점수에 근거하여 특정 인종-민족 집단을 '지능이 낮은 사람'으로 표기하는 등의 부적절한 결론을 도출해 왔는가.

The Mismeasure of Man: 

how the IQ test, based on the premise that intelligence can be quantified in a single, decontextualized score, has been used in novel contexts (such as for immigration purposes) to draw inappropriate conclusions such as labelling of entire ethno-cultural groups as ‘less intelligent’ based on test scores.



인수 기반 증거-체인으로서의 타당도

Validity as an argument-based evidentiary-chain


이 담론을 사용할 때, 타당도는 논쟁 기반 증거-체인으로 구체화되며, "평가 결과에 할당된 의미나 해석을 뒷받침하거나 반박하기 위해 제시된 증거"로 정의된다(2003년, 페이지 830). 이 담론에서의 타당도는 때때로 (이전의 담론에서와 같이) 특정 도구에 초점을 맞추지만, 타당도 자체는 매우 맥락의존적으로 본다. 여기서는 타당도 확인 프로세스를 통해 달성할 수 있는 점수의 타당한 해석에 초점을 맞추고 있다. 즉, 시행된 각각의 시험마다 (기초 이론/예측과 관련하여) 평가 결과의 해석을 뒷받침할 수 있는 충분한 증거가 있는지 검증한다. 여기서 명사 'validation'과 동사 'to validated'가 주로 나타나지만, 형용사 'validated'라는 문구는 절대 사용하지 않는다. 이는 평가되는 도구의 품질이 아니라 도구 사용의 적절성이라는 개념과 평가 프로세스를 구현하는 방식에 따라 시험자의 성과나 평가 점수에서 도출된 해석과 결론을 반영한다.

When this discourse is used, validity is framed as an argument-based evidentiary-chain and defined as ‘‘the evidence presented to support or refute the meaning or interpretation assigned to assessment results’’ (Downing 2003, p. 830). Though validity in this discourse does sometimes focus on particular tools (as in the previous discourse), validity itself is seen as highly contextual. The focus is on the valid interpretation of scores that can be achieved via a validation process used to verify that there is sufficient evidence in each administration of a test to support the interpretation of the assessment results in relation to the underlying theory/expectations. Here, the adjective ‘validated’ never appears while the noun ‘validation’ and the verb ‘to validate’ are common. This reflects the notion that it is not the quality of the tool that is judged but rather the appropriateness of the uses of the tool, and the interpretations and conclusions drawn from the examinees’ performance or assessment scores given the way the assessment process was implemented.


예를 들어, certification 시험의 타당화validation 프로세스는 임상 시뮬레이션을 주의 깊게 작성하고, 실제로 구현하며, 표준화했다는 문서화뿐만 아니라, 원하는 역량을 획득한 후보만 합격하고, 역량을 숙달하지 못한 후보만 시험에 불합격하도록 하는 것을 목적으로 할 수 있다. 그러나 중요한 것은 이 근거출처와 그에 기반한 certification 시험의 타당도 판단은 이 한 가지 사례에만 적용될 것이다. 그 다음에 사용할 때, 그리고 그 다음에 생성된 결과는 또 다른 타당도 검사를 필요로 할 것이다.

For example, a validation process for a certification exam might aim to document that clinical simulations were created carefully, implemented authentically, and standardized as well as ensuring that only the candidates who have acquired the sought after competences pass and only the candidates who do not master the competences fail the exam. Importantly, however, these sources of evidence and the determination of validity of the certification examinations would apply only to one instance of its use. Subsequent usages and the results generated would require repeated validation.


논쟁 기반 증거-체인으로 타당도 담론을 채택하는 사람들에게, 데이터/점수의 사용과 해석을 뒷받침하거나 반박하기 위한 증거를 제공하기 위해 '타당도'을 사용한다는 점에서 [과학적 방법]에 비유될 수 있다. 이 담론에서는 증거가 계속 축적되면서 결론이 바뀔 수도 있다고 인식한다. 따라서 타당도 과정을 평가 목적을 정의한 후 구현되는 여정으로 특징짓기도 한다. 타당화 과정의 목표는 검증 프로세스에서 가능한 한 많은 증거를 수집하고, 특정 테스트에서 생성된 데이터의 타당도 정도를 알려주는 변수/요소를 식별하는 것이다. 이 뿐만 아니라, 타당도 주장을 이해하고, 그 한계를 설정하는 것이다.

For those employing the discourse of validity as an argument-based evidentiary-chain, there is an analogy to the scientific method in that ‘validation’ is used to provide evidence to support or refute the use and interpretation of data/scores. There is also recognition that conclusions may change as evidence continues to accumulate. It is thus characterized by some as a journey on which one embarks after having defined the assessment purpose(s). The goal is to collect as much evidence as possible in a validation process and to identify variables/factors that inform the degree to which data produced by a particular test are valid but also to understand and set limits on claims of validity.


이 담론의 사용자들은, 이론에 근거한 평가 전략을 만든 다음, 관찰된 결과가 토대를 이루는underlying 이론의 예상 징후를 보여주는지를 평가하는 것을 목표로 한다.

Users of this discourse aim to create assessment strategies that are based on theories and then evaluate if the observed results show evidence of expected manifestations of the underlying theory.


이 담론은 타당화 접근법과 표준을 전면에 배치하며, 두 저자 메식(1995)과 케인(2006)은 이 담론의 anchor authorities으로 매우 자주 인용된다. 따라서 [논쟁 기반 증거 체인으로서의 타당도]는 [평가에 의해 생성된 점수의 품질에 대해 (권위 있게 말하고자 하는 경우) 적용할 일련의 규칙과 규정]을 만든다.

this discourse places validation approaches and standards at the forefront, and two authors—Messick (1995) and Kane (2006)—are very frequently cited as anchor authorities for this discourse. Validity as an argument-based evidentiary-chain thus creates a set of rules and regulations to be applied if one wants to speak authoritatively about the quality of the scores generated by an assessment.


이러한 담론은 타당도 및 검증 관행을 규제하는 교육 및 심리 테스트 표준 SERT (AERA 등 1999년), 교육 테스트 서비스 ETS 및 기타 기관과 같은 공식화된 평가 기관과 강하게 관련되어 있는 것으로 보인다. 더욱이, 이러한 기관들은 권장되는 관행recommended practice을 적용하고 집행하는 고도로 자격을 갖춘 사람들의 역할을 정당화한다.

This discourse appears to be strongly associated with formalized assessment institutions such as; the Standards for Educational and Psychological Testing (AERA et al. 1999), the Educational Testing Service, and others that regulate validity and validation practices. Moreover, these institutions legitimize the role of highly qualified people who apply and enforce the recommended practices.


이 타당도 담론을 과도하게 강조할 때 발생할 명백한 결과는 [검증 과정이 절대 끝나지 않는 과정이 될 것]이라는 점이다(Bertrand and Blais 2004). "타당도 및 평가 검증 및 개정'은 절대 끝나지 않는 사이클이다(Beckman 등). 2009년, 페이지 188)". 게다가, 점수 해석을 위해 다른 형태의 증거들을 어떻게 따져볼지에 대한 명확한 규칙이 없는 것 같다. 따라서 [수집된 타당도 근거와 새로운 점수 해석]을 해석하고 통합할 필요가 있기 때문에, QA 프로세스에 지속적으로 engage해야만 한다(Cook et al. 2015).

An apparent consequence of an over-emphasis of this discourse of validity is that the validation process would become a never-ending process (Bertrand and Blais 2004): ‘‘validity and assessment validation and revision is a never-ending cycle’’ (Beckman et al. 2009, p. 188). In addition, there appear to be no clear rules about how to weigh the different forms of evidence for different score interpretations. Thus, one can remain engaged in a continuous quality assurance process with the need to interpret and incorporate each new piece of validity evidence collected and each new score interpretation (Cook et al. 2015).


마지막으로, 이러한 담론을 강조함에 따른 또 다른 결과는, '내용 전문가content exprt'들이 실제로 좋은 성과를 정의하는 것이 무엇인지를 '알고' 있지만, (보다 공식화된 검증 프레임워크에 따르려면) 이들의 판단은 증거체인에서 relevant하거나 reliable해보이지 않기 때문에 평가 과정에서 저평가될 수 있다는 것이다. 즉, [타당도의 근거로 간주되는 것을 너무 협소하게 바라볼 경우], 자신의 전문직을 규제할 책임이 있는 전문가에게 상황에 맞춘 적절하고 중요한 평가 전략의 결정능력이 주어지지 않을 수 있다.

Finally, one further consequence of emphasizing this discourse is that little consideration may be given to content experts who feel that they ‘know’ what defines good performance in practice but who may become undervalued in the assessment process because their judgement does not seem relevant or reliable in the evidentiary-chain according to the more formalized validation frameworks. In other words, the professionals who are responsible for regulating their own profession may experience lessened capacity to determine contextually appropriate and important strategies for assessment if too narrow a lens is placed on what counts as evidence of validity.


검증의 증거-체인을 지원하기 위해 데이터를 수집하는 데 시간과 리소스가 필요하다. 이것은 임상 실습과 교육에서 최전선에서 일하는 사람들에게 어려울 수 있다. 그들은 또한 (더 많은 적시point-in-time 시험 전략을 위해 수집할 수 있는 증거의 덩어리를 모으는 것이 더 어려운) '주관적subjective' 또는 '관찰적observational'으로 보이는 평가를 채택할 때 저항에 직면할 수 있다.

Time and resources are required to collect data to support an evidentiary-chain of validation. This may prove difficult for those working at the front lines in clinical practice and education settings. They may also face resistance when employing assessments that are seen as ‘subjective’ or ‘observational’ for which it is more difficult to assemble the mass of evidence that can be gathered for more point-in-time testing strategies.


사회적 의무로서의 타당도

Validity as a social imperative


사회적 의무으로서의 타당는, 개별적으로 취했을 때, 대부분의 독자들에게 친숙하게 보일 수 있는 몇 가지 요소들로 새롭게 부상하는 담론이다. 이 담론은 처음 두 가지 담론보다 새로이 등장한 것으로, 다양한 종류의 전문성, 관점, 이해관계자(관리자, 연구원, 정책 분석가 등)의 역할을 강조한다. 사회적 의무로서의 타당도는 개인 및 사회 수준에서 평가의 결과에 대한 신중한 고려를 포함하는 평가에 대한 사회 주도적 관점으로 나타났다. 이러한 담론은 보다 광범위한 개인 및 사회 문제를 전망함으로써, 특정 도구에 대해 한 가지만 고려하지 않고sole consideration, 이를 뛰어넘는 '조감도'를 취한다는 것이 특징이다. 

Validity as a social imperative is an emerging discourse with several components that, when taken individually, may seem familiar to most readers. This discourse is newer and informed by different kinds of expertise, perspectives, and stakeholders (administrators, researchers, policy analyst, etc.) than the first two discourses. Validity as a social imperative appeared in our archive as a socially driven perspective on assessment that includes calls for deliberate consideration for the consequences of assessment at both individual and societal levels. This discourse appears to be characterized by taking a ‘bird’s eye view’ of assessment that foregrounds broader individual and societal issues and that goes beyond the sole consideration of specific tools.


시험의 결과에 주의를 기울이는 것은 반드시 이 신흥 담론에만 국한되는 것은 아니며, 위에서 설명한 타당도의 증거적 개념과 더 일반적으로 관련이 있는 저자를 찾을 수 있다. 어느 정도, 사회적 의무로서의 타당도는 증거-체인으로서의 타당도에서 뻗어나온 결과물outgrowth일 수 있다. 우리가 [사회적 의무]를 별개의 담론으로 식별하려는 이유는, '사회적 의무'로 타당도를 사용하는 사람들은 [평가 개발 및 검증 프로세스 전반에 걸쳐 나타나는 평가의 사회적 결과]를 특히 중요시하는 것처럼 보이기 때문이다. 이와는 대조적으로, 증거-체인 담론에 포함되는 경우, 평가의 결과는 많은 변수 중 하나일 뿐이며, 일반적으로 전혀 고려되지 않을 경우 사소한 변수일 뿐이다. 또한 사회적 의무로서의 타당도의 담론은 학습자를 넘어 보다 거시적 사회 수준에서 영향을 포함하도록 평가 결과의 개념을 확장시킨다.

Giving attention to the consequences of a test is not necessarily unique to this emerging discourse and can be found authors who are more commonly associated with the evidentiary-chain notion of validity described above. To some degree, validity as a social imperative may be an outgrowth of validity as an evidentiary-chain. Our argument for identifying it as a discrete discourse arises from the observation that those who employ validity as a social imperative seem to foreground social consequences of assessment throughout assessment development and validation processes. By contrast, when included in the evidentiary-chain discourse, consequences of assessment are just one of many variables, usually a minor one if considered at all. This discourse of validity as a social imperative also expands the idea of consequences of assessment beyond learners to include impacts at a more macro societal level.


...참가할 가치가 있는 10%를 선정하는 과정에서(따라서 사회에서 존경받고 보수가 좋은 자리를 보장한다) 우리는 나머지 90%에게 그들이 가치 없는 사람이고, 그들이 충분히 좋지 않으며, 개인적인 결함을 가지고 있다고 말하고 있다. (노먼 2004)

…in the course of selecting the 10 % who are worthy of admission (and hence guaranteed an esteemed and well-paid place in society), we are telling the other 90 % that they are unworthy; that they are not good enough, that they have personal failings. (Norman 2004)


이러한 타당도 담론을 채택하는 사람들은 평가 목적에 대한 프로그램적 관점에 부합하는 경향이 있기 때문에, 이 담론의 지지자들은 사후 분석에는 주의를 덜 기울이는 것 같다. 오늘날 작가들은 평가를 도입하기 전에 [평가 전략의 개념적 계획 및 평가에 대한 목적적 접근의 우선 순위 지정을] 더욱 강조해 왔다. 또한 평가 후에는 [(평가 수행 후 문제를 식별하고 해결하는 데 초점을 맞춘평가의 품질에 대한 분석적 점검]보다 [의도하지 않은 결과의 최소화]를 강조해왔다예를 들어, 개별 평가 도구에 의해 생성된 데이터에서 시험 데이터가 결합되는 방식으로 강조점이 이동하기도 한다. 

Because those who adopt this discourse of validity tend to align themselves with a programmatic perspective on the purpose of assessment, proponents of this discourse seem to give less attention to post hoc analyses. Writers today have put greater emphasis on conceptual planning of an assessment strategy and prioritizing a purposeful approach to assessment by using tools and strategies a priori (prior to its administration) and minimizing unintended consequences over analytic checking of the quality of assessment results a posteriori, practices that focus on identifying and addressing issues post administration. For example, there is also a shift in emphasis from data generated by individual assessment tools to the way in which testing data are combined.


[(거의) 완벽한 평가도구의 조합]보다 오히려 [덜 완벽한 평가도구의 세심한 결합]이 결과적으로는 더 나을 것이다. 즉, 중요한 것은 있는 것은 빌딩블록의 퀄리티 뿐만 아니라, 빌딩블록을 결합하는 방식이다. (슈워스와 반 데르 블뤼텐 2012, 페이지 39)

A combination of (near-) perfect instruments may result in a weaker programme than a carefully combined set of perhaps less perfect components. In other words, it is not only the quality of the building blocks that is relevant, but also the ways in which they are combined. (Schuwirth and van der Vleuten 2012, p. 39)


이것은 사후 심리측정학 분석 데이터가 중요하지 않다고 말하는 것은 아니다. 다만, 사후 심리측정적 분석은 평가 전략의 복잡성을 완전히 파악하지 못하는 것 같다.

This is not to say that post hoc psychometric analytic data are not important. However, they seem unable to fully capture the complexity of assessment strategies


따라서, [학습자가 평가에 지불하는 비용]과 [사회와 실무자 모두가 경험할 수 있는 편익] 사이의 균형을 잡으려는 맥락에서 판단해야 한다.

and as such, they must be considered in the context of striving for balance between the costs of having learners submitted to the assessment and the potential for benefits to be experienced by both society and the practitioner.


심리측정적 접근방식은 [의료 전문가에게 점점 더 필수적이라고 여겨지는 상위 수준의 역량을 평가하기에는], 특히 이 역량을 [authentic context에서 분리하여 의미 있게 평가할 수 없다는 점]에서, 너무 환원주의적이다 (Kuper 등 2007). (Beendonk 외 2013, 페이지 560)

[…] the psychometric approach is considered to be too reductionist (Huddle and Heudebert 2007) for the assessment of higher order competencies, which are increasingly deemed to be essential for medical professionals but cannot be meaningfully assessed detached from the authentic context (Kuper et al. 2007). (Berendonk et al. 2013, p. 560)


넓은 사회과학적 관점에서 볼 때, 전통적인 OSCE 타당도 조사는 약간 좁았다. ...OSCE는 맥락의존적이고, 잠재적으로 formative하며, 권력, 경제, 문화의 관계와 같은 사회학적 변수의 영향을 많이 받는 복잡한 사회적 사건이다. (호지 2003, 페이지 253)

From the vantage point of a broad social-science perspective, traditional OSCE validity research has been a bit narrow. …OSCEs are complex social events that are highly contextual, potently formative and heavily influenced by sociological variables such as relations of power, economics and culture. (Hodges 2003, p. 253)


본질적으로, 이 담론은 관심의 초점을 [도구나 검증 과정의 속성]에서 [학습자와 사회를 위하여 평가가 지향해야 하는 목적]으로 이동시킨다.

In essence, this discourse shifts the focus of attention from the properties of the tool or the validation process to the desired purpose of assessment for the learner and for society.


평가의 교육적 가치는 쉽게 과소평가된다. 대부분의 학습자가 평가의 요구 사항을 발견하고 충족하는 데 능숙하기 때문에 평가의 성격과 내용은 학생들이 채택하는 학습 전략에 강한 영향을 미친다. (크로슬리 외 2002, 페이지 800)

The educational value of assessment is easily underestimated. The nature and content of assessment strongly influences the learning strategies that students adopt because most learners are adept at spotting and meeting the requirements of an assessment. (Crossley et al. 2002, p. 800)


이러한 담론을 사용하는 개인들이 종사하는 교육 프로그램 및 조직에서는 [커리큘럼]과 [사회가 졸업생에게 기대하는 미래의 의료행위practice]에 부합하는 완전하고 포괄적인 평가 프로그램을 주장한다. (약점을 식별하는) 후향적인 관점이기보다는, 이는 (assessment practice 개선을 통한) 전향적인 관점이다.

Individuals that employ this discourse often work in training programs and organizations that claim ownership of a complete, comprehensive program of assessment aligned with the curriculum and the expectations of society for future practice (and in some cases certification) of graduates prospectively (through improving assessment practices) rather than retrospectively (through identifying weaknesses).


더욱이, 이러한 담론은 평가의 일치단결된concerted 발전을 중요시하기에, 프로그램적인 평가 개발을 지도guide하는 평가 위원회나 이사들의 필요성을 강조한다. 평가 도구와 접근법의 결정은 개별 코스를 담당하는 자 또는 개별 코스의 특이한 견해/책임을 가진 사람, 생성된 데이터의 타당도를 측정하는 사람에게 맡겨둘 것이 아니다.

Moreover, this discourse promotes concerted developments in assessment, thus creating the need for evaluation committees or directors that guide programmatic assessment development rather than leaving the selection of tools and approaches to the idiosyncratic views/abilities of those responsible for individual courses, or in the hands of those who measure the validity of data generated.


단순히 좋아 보이는 도구를 사용하게 놔둬서, 학생들의 미래를 바꾸는 life-changing decision을 내리는 것은 분명 용납될 수 없다는 것이 내 견해다(6). 그러나 그것은 반대 의견이다.(노먼 2015, 페이지 300, 301)작가에 의한 강조

My own view is that it is surely not acceptable to make life changing decisions about students’ future using instruments that simply look good (6). But that is one opinion against another. (Norman 2015, pp. 300, 301)—emphasis by authors


문헌에 따르면, 사회적 의무로서 타당도를 지나치게 강조하면 "대부분의 교육자들에게 물의를 일으킬 뿐만 아니라, 실제로 시험 사용의 의도된 결과와 의도하지 않은 결과에 대한 주의를 덜 기울일 수 있다"(Shepard 1997, 페이지 13). 일반적으로 이러한 타당도 형태와 관련된 데이터는 다양한 출처에서 얻으며, 양적 정보뿐만 아니라 질적 정보도 포함할 수 있다.

It has been suggested in the literature that an overemphasis on validity as a social imperative may ‘‘not only muddy the waters for most educators, it may actually lead to less attention to the intended and unintended consequences of test use’’ (Shepard 1997, p. 13). Typically, data related to this form of validity come from a variety of sources and may include qualitative as well as quantitative information.


좀 더 전통적인 것을 소홀히 할 가능성이 있지만 그럼에도 불구하고 유용한 정신측정학 모니터링은 특히 개별 도구의 퀄리티 수준에서 이루어진다. '큰 그림'만 보고 평가 도구(예: 항목 분석, 신뢰성, 합격률 등)에 의해 생성된 구체적인 데이터의 품질을 모니터링하는 시력을 상실할 경우, '신뢰할 수 없는' 검사나 불공정한 합격/불합격 점수를 중심으로 사각지대가 발생할 수 있다. 이 담론에서 심리측정적 분석은 타당도 확인의 중심적 접근방식은 아니지만, 적절히 사용할 경우 그 사용은 목적적합한 평가의 목표를 지원할 수 있다. 질적 데이터의 사용에 대한 강력한 접근방식이 이 담화(Kuper et al. 2007; Van Der Vleuten et al. 2010)에서 유용할 수 있다는 주장이 제기되었지만, 그렇게 하는 방법은 초기 단계에 머물러 있다.

there is the potential of neglecting the more traditional, but nevertheless useful psychometric monitoring a posteriori, particularly at the level of the quality of individual tools. If one attends only to the ‘big picture’ and loses sight of monitoring the quality of data generated by specific assessment tools (e.g., item analysis, reliability, pass rates, etc.), blind spots may develop around ‘unreliable’ examinations or unfair pass/fail cut scores. While in this discourse psychometric analysis is not the central approach to ascertain validity, its use may support the goal of purposeful assessment when used appropriately. It has been argued that robust approaches to the use of qualitative data could be useful within this discourse (Kuper et al. 2007; Van Der Vleuten et al. 2010), however methods to do so remain in their infancy.


고찰

Discussion


본 연구는 보건 직업 교육 및 평가의 특정한 맥락 안에서 "타당도"이라는 용어를 사용하는 것에 초점을 맞추었다. 기본적인 개념화와 무관하게, 타당도는 보건 직업 교육에 일반적으로 사용되며 높은 부하를 받는 용어임이 분명하다.

This study has focused on the use of the term ‘‘validity’’ within the specific context of health professions education and assessment. Independent of the underlying conceptualization, it is clear that validity is a commonly used -and highly loaded- term in health professions education.


  • 타당도는 어떤 사람들에게는 도구가 특정 금본위제를 충족하였기 때문에 도구가 사용될 수 있거나 심지어 사용되어야 한다는 것을 나타내는 것처럼 보인다.

Validity seems to signify, for some, that a tool can or even should be used since it has met a certain gold standard.


  • 다른 사람들에게는 점수 해석의 적절성을 보장하기 위해 진행되는 과정에 대해 말하는 것 같다.

For others, it seems to speak to the process put in place to ensure the appropriateness of the score interpretation.


  • 어떤 그룹에게 타당도는 의도하지 않은 결과를 최소화하는 데 초점을 맞춘 학습자와 사회의 평가의 역할과 가치에 대한 고려사항에 관한 것으로 보인다.

For a third group, validity seems to be about the considerations for the role and value of assessment for learners and society with a focus on minimizing unintended consequences.


이러한 각 단점을 채택함으로써 얻을 수 있는 권력관계와 편익은 (부분적으로는) 공개된 타당화 관행에서 채택되는 프로세스와 시험testing 기관이 생성 및 승인한 지침에 의해 권장되는 프로세스 간의 관찰된 불일치를 설명할 수 있다.

The power relations and benefits gained by adopting each of these discourses may explain—in part—the observed discrepancies between the processes that are sometimes adopted in published validation practices and the processes recommended by the guidelines generated and endorsed by testing organizations.


[논쟁 기반 증거-체인의 담론]을 채택하는 사람들에게 신뢰를 받으려면, 특정 용어를 사용해야 하고, 이른바 '현대적' 타당도 이론을 언급해야 할 것으로 예상된다. 따라서 이 담론에 참여하는 한 가지 방법은 [기술 보유자 또는 적절한 언어와 기술을 익힌 사람]이 되어서, 타당도의 규칙과 규정(일반적으로 케인과 메시크에 관한 것)을 주장하는 것이다. 이들은 타당도 접근법을 권장하고 적용할 수 있는 힘을 가지고 있다. 즉, [논쟁 기반 증거-체인 담론]은 특정한 기술과 지식 기반을 가진 사람들이, 특정한 전문화된 직업을 갖는 것을 가능하게 한다. 또한 [선별된 그룹의 사람]만이 타당화 작업을 처리할 수 있는 전문 지식을 가지고 있다는 것을 암시하는 것으로 보인다.

To be credible to those employing the discourse of argument-based evidentiary-chain, one is expected to use a specific set of terminology and refer to what are called ‘modern’ theories of validity, as illustrated by the multiple reviews on the subject (Cizek et al. 2008, 2010; Cook et al. 2014, 2015; Wools and Eggens 2013). Thus, one way of participating in this discourse is as a skill holder or a person who has mastered the appropriate language and skills and, as such, lays claim to the rules and regulations of validation (usually in reference to Kane and Messick). Such individuals have the power to recommend and apply validation approaches. In other words, this discourse makes certain specialized jobs possible for people who have a specific skill set and knowledge base. It also appears to imply that only a select group of people have the expertise to tackle a validation task.


최근의 체계적인 검토를 살펴보면 '근대적 타당성 이론'의 채택이 늦어지고lag 있다는 점을 지적하고 비평한다(Cook et al. 2013, 2014). 이러한 담론이 지배적인 경우, 고도로 훈련된 개인이 평가 도구의 지속적인 타당도를 보장해야 함을 암시하는 경우가 많다. 결과적으로, (—제한적인 공식 훈련만 받은 —)'novices'가 평가 프로그램을 개발하고 모니터링해야 하는 상황에서,

  • 그들은 같은 언어를 사용하지 않기 때문에 '외계인' 또는 '임포스터'로 인식될 수 있다. 

  • 인가된 타당성 이론을 능숙하게 사용하지 못할 수 있다. 

  • '전문가'에게 통상적이지 않거나 설득력이 없는 타당도 프로세스 근거를 제시할 수 있다.

Recent systematic reviews document and critique a ‘lag’ in uptake of ‘modern validity theories’ (Cook et al. 2013, 2014). Where this discourse is dominant, it is often implied that highly trained individuals are required to ensure the ongoing validation of assessment tools. Consequently, when ‘novices’—with limited formal training—are called upon to develop and monitor assessment programs, they 

  • may be perceived as ‘outsiders’ or ‘impostors’ because they do not use the same language, 

  • may not adeptly use sanctioned theories of validity, and 

  • may put forward evidence during a validation process that is not conventional or convincing to a ‘professional’.


[사회적 의무로서의 타당도]와 같은 타당도에 대한 새로운 담론과 개념화가 등장하며, 다른 역할의 가능성이 대두되고 있다. 그리고 다음의 질문이 제기된다.

  • 타당성이란 것은 무엇을 의미하는지(또는 어떤 담론이 합법적이라고 여겨지는지)에 대해서 판단할 수 있는(또는 허용되지 않는) 사람은 누구인가?

  • 궁극적으로, '적절한' 평가라는 것은 무엇인가?

With new emerging discourses and conceptualizations of validity—such as validity as a social imperative—comes the possibility of different roles and, as such, calls into question 

  • who is now allowed (or not allowed) to judge what validity means (or which discourse is considered legitimate) and 

  • ultimately what is considered ‘appropriate’ assessment. 


이 세 번째 담론의 사용자는 정책 입안자, 교사 및 커리큘럼 및/또는 평가 프로그램 전문가를 포함한다. 세 번째 담론을 채택하는 사람들은 종종 시험 대상자를 옹호하거나(평가 대상자가 평가로부터 피해를 경험하지 않도록 해야 함), 사회 전반을 옹호함으로써(평가 프로그램이 프로그램의 가치와 사회의 요구에 부합되어야 함) 이러한 담론에 윤리적 요소를 끌어오는confer 경우가 많다.

Users of this third discourse might include policy makers, teachers, and curriculum and/or assessment program specialists. Those who employ this discourse often do so by advocating for those being tested (aiming to make sure that no harm is experienced by the learners from the assessment) or for society in general (by making sure that the programs of assessment are aligned with programs’ values and society’s needs) thus conferring on this discourse an ethical quality.


Validation의 초점을 바꾸려는 생각에 어떤 사람들이 예민하게 반응하는 것은 놀랄 일이 아니다. (본 논문의) 개발 단계에서 이 연구에 대해 다음과 같은 의견을 들었다(즉, 연구비 신청에 대응하여): 

"심리학적 관점에서, 나는 [타당도 개념화 연구]가 우리의 지식에 새로운 어떤 것도 추가할 수 있다고 생각하지 않는다. 타당도는 사회언어적 이슈에 근거하지 않는다. 그것은 경험적 자료와 현대/전통적인 심리학적 방법에 기반을 두고 있다."

it is not surprising that some individuals would react strongly to the thought of shifting the focus of validation, as exemplified by the following review received about this work at the development stage (i.e., in response to a grant application): 

‘‘From a psychometric perspective, I do not believe that [investigating conceptualizations of validity] can add anything new to our knowledge. Validity is not based on sociolinguistic issues; it is based on empirical data and modern/traditional psychometric methods.’’


우리가 '시험기 가진 특성'으로서 타당도(=첫 번째 담론)를 주장하는 사람을 만나지는 않았지만, 문헌에는 이러한 관점을 받아들이고 있음이 문헌상에는 명확히, 그리고 지속적으로 확인되며, 따라서 심리측정적 담론이 충족시켜주는 요구가 분명 존재한다. 우리는 분석에서 타당도의 담론과 관련하여 나타나는 두 가지 주요 역할, 즉 소비자와 생산자를 확인할 수 있었다. 즉, 이 담론은 [생산자(개별이든 조직이든)]가 ['타당화된validated' 도구를 필요로 하는 소비자]에게 [제품(테스트/평가 전략)]을 제공 및 판매하는 소비주의 철학을 선호한다.

While we did not encounter anyone laying claim to validity as a test characteristic, its clear and continued presence in the literature suggests both that many accept this perspective and that it fulfills a need. We could see in our analysis two major roles emerging in association with the discourse of validity as a test characteristic: consumers and producers. In other words, this discourse favours a consumerism philosophy in which producers (whether individuals or organizations) provide (and market) products (tests/ assessment strategies) to consumers who need ‘validated’ tools.


이 경우에 소비자는 개인(예: '쉘프 시험'을 사용하는 교수)이나 집단(예: 어떤 직업의 문지기로 라이선스 시험을 받아들이는 사회)가 될 수 있다. 소비자는 외부 출처에 근거하여 '사전에 이미 검증된' 평가 도구를 제공받고 싶어하며, 자신이 선택한 도구에서 생성된 데이터의 타당도에 대해 독립적으로 의문을 제기할 수 없거나(능력) 의문을 제기할 의사가 없을 수 있다(의지).

Consumers can be individuals (such as professors using a ‘shelf exam’) or collectives (such as a society that accepts a licensure exam as the gatekeeper of a profession). The consumers need to rely on external sources to provide them with ‘pre-validated’ assessment tools and may not be able or willing independently to question the validity of the data generated by those tools that they have taken up.


평가 도구가 '명성name'을 지닌다면 [이러한 형식의 타당도 담론을 채택하는 것은] 생산자(개별 연구자, 개발자 또는 조직)에게 매력적일 수 있으며, 그 후에 상업적 목적을 위해 학술적 영향, 브랜드 또는 저작권을 증명하는 데 사용될 수 있다. 이 기업가적 성격은 시험의 특성으로서 타당도의 담론을 촉진하기 위한 동기를 창출할 수 있다. 또한 기관은 판매 가능한 제품을 생산하기 위한 적절한 요소(즉, '타당화된 평가 도구')를 결합할 수 있을 때 이 담론을 사용함으로써 신뢰도나 힘을 얻을 수 있다.

Adopting this form of validity discourse may also be attractive to producers (individual researchers, developers, or organizations) when an assessment tool carries their name and then can be used to demonstrate scholarly impact, branded, or copyrighted for commercial purposes. This entrepreneurial dimension may create an incentive to promote the discourse of validity as a test characteristic. Institutions may also gain credibility or power from using this discourse when they can put together the appropriate ingredients to yield sellable products (i.e., ‘validated assessment tools’).


이번 연구에서 알 수 있듯이, 개개인이 최고의 품질 기준을 충족시키기 위한 평가를 밑바닥부터de novo 만들 수 있는 모든 자원을 가지고 있지 않을 수 있다는 점을 감안할 때, 타당도를 이러한 방식으로 개념화하는 것이 실용주의적 요구에 부응하는 것처럼 보인다. 

As indicated in our results, this conceptualization of validity does seem to answer a pragmatic need given that individuals might not have all the resources to create assessment de novo to meet the highest standards of quality. 


또 하나 또는 추가적인 설명은 담론이 임상학에서 '수입'되었다는 것이다. Clinical science에서는 고전적인 타당도 모델(또는 내용, 구성 및 준거 타당도)이 문헌에 남아 있으며(Mokkink et al. 2012; Portney 2000), 타당도를 임상에서 사용하는 평가 도구의 속성으로 간주한다.

Another or additional explanation is that the discourse was ‘imported’ from the clinical sciences in which the classical model of validity (or the validity trinity of content, construct, and criterion validity) is still present in the literature (Mokkink et al. 2012; Portney 2000) and in which we see validity as the property of a clinical assessment tool.


이 작업의 한계에는 특정 문맥에 대한 담화 분석을 집중하기로 선택한 것이 포함된다.

Limitations of this work include that we chose to focus our discourse analysis on a specific context—the scientific literature of health professions education.


결론

Conclusion


타당도는 보건 직업 교육에서 몇 가지 다른 의미를 가지고 있다. 이러한 의미들의 공통점은, 아마도 어떤 형태로든 타당도가 평가 개발 및 품질 모니터링에 대한 논의의 핵심이며, 그 중심에 있어야 한다는 암묵적 이해일 것이다. 본 연구에서 관찰된 담론은 보건 직업 교육에 영향을 미치는 다수의 병행적 분야와 분야의 타당도 개념 사용과 관련하여 발생할 가능성이 높다. 어떤 담론이 합법적이거나 지배적인 것으로 보이는 변화가 있었다면, 이는 [보건 직업과 다른 분야 사이의 관계 변화] 때문일 수 있다.

Validity has several different meanings in health professions education. What these meanings have in common, perhaps, is an implicit understanding that validity, in some form, is and should be at the heart of any discussion about assessment development and quality monitoring. It is likely that the discourses observed in this study arise in relation to usages of the concept of validity in a number of parallel disciplines and fields that influence health professions education. It may be that changes in which discourse is seen as legitimate or dominant can be traced to changing relationships between the health professions and other fields.


따라서, 타당도 개념을 채택하는 사람들에 대한 우리의 권고는 평가 도구와 프로그램의 가치 및 적절성에 대한 진술을 하기 전에 자신이 타당도에 대해 갖는 개념을 명시적으로 설명하는 것이다. 그렇게 한다고 해서 한 사람이 사용하는 담론의 한계가 없어지는 것은 아니며, 다른 담론을 채택한 경우에 관련될 타당도에 대한 함축도 피할 수 없다. 그러나 이는 타당도 개념이 비판적 성찰에서 자유롭지 않게 채택되지 않을 가능성을 증가시키고 따라서 현장이 현장에 영향을 미치는 불일치와 긴장을 해소하는 데 도움이 될 수 있다.

As such, our recommendation for those employing concepts of validity is to explicitly describe one’s conceptualizations before making statements of truth about the worth and/or appropriateness of assessment tools and programs. Doing so will not eliminate the limitations of the discourse one uses, nor will it avoid the implications for validity that would be relevant had a different discourse been adopted. It will, however, increase the likelihood that the notion of validity is not adopted free of critical reflection and might, therefore, help the field to bridge discrepancies and tensions that are currently impacting upon the field.


Lingard, L. (2009). What we see and don’t see when we look at ‘‘competence’’: Notes on a god term. Advances in Health Sciences Education, 14, 625–628.


Norman, G. (2015). Identifying the bad apples. Advances in Health Sciences Education, 20(2), 299–303. doi:10.1007/s10459-015-9598-9.


Schuwirth, L. W. T., & van der Vleuten, C. (2012). Programmatic assessment and Kane’s validity perspective. Medical Education, 46(1), 38–48. doi:10.1111/j.1365-2923.2011.04098.x.


Van Der Vleuten, C. P. M., Schuwirth, L. W. T., Scheele, F., Driessen, E. W., & Hodges, B. (2010). The assessment of professional competence: Building blocks for theory development. Best Practice and Research: Clinical Obstetrics and Gynaecology, 24(6), 703–719. doi:10.1016/j.bpobgyn.2010.04.001.










, 22 (4), 853-867
 

Validity: One Word With a Plurality of Meanings

Affiliations 

Affiliations

  • 1Université de Sherbrooke, Sherbrooke, Canada. Christina.St-Onge@USherbrooke.ca.
  • 2McGill University, Montreal, Canada.
  • 3University of British Columbia, Vancouver, Canada.
  • 4University of Toronto, Toronto, Canada.

Abstract

Validity is one of the most debated constructs in our field; debates abound about what is legitimate and what is not, and the word continues to be used in ways that are explicitly disavowed by current practice guidelines. The resultant tensions have not been well characterized, yet their existence suggests that different uses may maintain some value for the user that needs to be better understood. We conducted an empirical form of Discourse Analysis to document the multiple ways in which validity is described, understood, and used in the health professions education field. We created and analyzed an archive of texts identified from multiple sources, including formal databases such as PubMED, ERIC and PsycINFO as well as the authors' personal assessment libraries. An iterative analytic process was used to identify, discuss, and characterize emerging discourses about validity. Three discourses of validity were identified. Validity as a test characteristic is underpinned by the notion that validity is an intrinsic property of a tool and could, therefore, be seen as content and context independent. Validity as an argument-based evidentiary-chain emphasizes the importance of supporting the interpretation of assessment results with ongoing analysis such that validity does not belong to the tool/instrument itself. The emphasis is on process-based validation (emphasizing the journey instead of the goal). Validity as a social imperative foregrounds the consequences of assessment at the individual and societal levels, be they positive or negative. The existence of different discourses may explain-in part-results observed in recent systematic reviews that highlighted discrepancies and tensions between recommendations for practice and the validation practices that are actually adopted and reported. Some of these practices, despite contravening accepted validation 'guidelines', may nevertheless respond to different and somewhat unarticulated needs within health professional education.

Keywords: Assessment; Discourse analysis; Health profession education; Validation; Validity.


PBL의 맥락에서 평가(Adv Health Sci Educ Theory Pract, 2019)

Assessment in the context of problem‑based learning

Cees P. M. van der Vleuten1 · Lambert W. T. Schuwirth2




도입

Introduction


창시 이래, 문제 기반 학습(PBL)은 세계를 정복했다(도너랜드 비클리 1993). 맥매스터 대학교의 60년대 중반에 강의 기반 교육의 급진적인 단절로 시작된 것은(Barrows and Tamblyn 1980), 그 이후 다른 학교들에 의해 점점 더 모방되고 있는 성공적인 교육 전략인 것으로 밝혀졌다.

Since its inception, problem-based learning (PBL) has conquered the world (Donnerand Bickley 1993). What started in the mid-sixties at McMaster University as a radical break from lecture-based education (Barrows and Tamblyn 1980), turned out to be a successful didactic strategy which has since been increasingly copied by other schools.


원래 PBL은 이념적 정체성이 높았다. 이는 '진정한 PBL'을 실천할 때 준수해야 하는 정의된 단계를 가진 프로세스로 정의되었음을 의미했다. 나중에야 PBL이 교육 및 인지 심리학 연구(Norman과 Schmidt 1992; Dolmans et al. 2005; Neville 2009)의 통찰력과 이론과 일치한다는 것이 명확해졌다.

Originally, PBL had a high ideological identity. This meant that it was defined as a process with defined steps which had to be adhered to when practicing ‘true PBL’. Only later did it become clear that PBL aligned with insights and theories from educational and cognitive psychological research (Norman and Schmidt 1992; Dolmans et al. 2005; Neville 2009).


오늘날, PBL에 대한 원래의 이념적 접근은 진정되었고 그것은 많은 다른 manifestation를 가질 수 있다. 그래서 어떤 학교가 PBL을 사용한다고 주장할 때 그것이 정확히 무엇을 수반하는지 항상 명확하지는 않다.

Nowadays, the original ideological approach to PBL has calmed down and it can have many different manifestations. So, when schools claim to be using PBL it is not always clear what that exactly entails.


우리의 관점에 따르면, 그것은 몇 가지 필수적인 특성이다.

In our view that are some essential characteristics:


1. 과제나 문제를 학습의 출발점으로 삼는 것

2. 자기주도적, 자기조절적 학습

3. 이러한 과제를 해결하는 학습자 그룹 작업

4. 이 과정의 촉진자로서 교사들의 역할

1. The use of engaging tasks or problems as a starting point for learning
2. Self-directed and self-regulated learning

3. Working in groups of learners tackling these tasks

4. The role of the teachers as a facilitator of this process


이는 PBL의 맥락에서 학습자 성과에 대한 평가를 어떻게 설계할 것인가 하는 문제를 남긴다. 건설적인 정렬은 모든 이해당사자들(학습자, 직원 및 조직)이 지지하고 경험하는 [프로그램의 의도된 목적]과 [평가의 공개적이고 예기치 않은 목표]가 서로 얼마나 정렬되었는지를 표현하는 개념으로 제안되었다(Bigs 1996). 둘 사이에 불일치가 있는 경우, 평가의 영향은 일반적으로 의도한 학습 접근법을 무시한다.

This leaves the question how to design assessment of learner achievements in the context of PBL? Constructive alignment has been suggested as a concept that expresses the extent to which the intended goals of the training program align with the overt and unexpected goals of the the assessment as espoused and experienced by all stakeholders (learners, staff and organization) (Biggs 1996). If there is a mismatch between the two, the assessment impact typically overrides the intended learning approach.


평가에서 지배적인 교육 관행은 종합적이고 모듈화된 접근법이며, 특히 주로 인지적 측면을 평가한다. 불행하게도, 많은 PBL 학교들도 이 접근법을 사용하는데, 이것은 논리적으로 많은 경우에 건설적인 비정렬constructive malalignment로 이어진다.

The dominant educational practice in assessment is a summative, modular approach, particularly assessing the more cognitive aspects. Unfortunately, many PBL schools use this approach as well, which logically leads to constructive misalignment in many cases.


이러한 건설적인 불일치를 더 잘 이해하기 위해, 우리는 PBL 맥락에서 평가와 관련된 두 가지 주요 갈등을 식별하는 것이 도움이 된다고 생각한다. 

To better understand this constructive misalignment, we find it helpful to identify two major frictions around assessment in a PBL context. 


첫째는 PBL이 단순히 지식과 기술의 발달 이상의 것을 촉진하는 것으로 가정된다는 것이다. 그러한 다른 능력들은 임상적 추론과 임상적 의사 결정뿐만 아니라 의사소통, 협업 전문성 등과 같은 더 많은 영역-비의존적 능력과도 관련이 있다. [일반적으로 평가된 것]과 [PBL 교육 접근법에 의해 열망된 것] 사이에 인식된 마찰은 더 적절한 평가 방법을 설계하려는 많은 시도들로 이어졌다.

The first is that PBL is assumed to promote more than purely the development of knowledge and skills. Such other abilities related not only to clinical reasoning and clinical decision-making, but also to more domain independent abilities such as communication, collaboration professionalism, etcetera. The perceived friction between what was generally assessed and what was aspired by PBL education approaches has led to many attempts to design more appropriate methods of assessment.


두 번째 마찰은 한편으로는 학습자에게 학습을 자율적으로 규제하도록 요구하지만, 동시에 교사 주도의 평가나 시험을 성공적으로 통과해야 한다는 모순에 있다. 학생들이 성공적으로 자기 평가를 하고 그 후에 자신의 학습을 지시하는 능력은 심각하게 의심된다(Eva et al.) 그러나, 졸업 후 의사들은 평생 학습자가 될 수 있어야 하며, 이를 위해서는 스스로 평가하고 스스로 조절하는 학습 능력을 갖추어야 한다는 데 더 많은 동의가 있는 것 같다.

The second friction lies in the contradiction of requiring the learners to self-regulate their learning on the one hand, but at the same time they have to successfully pas set of teacher-led assessments or tests. the ability of students to successfully self assess and subsequently direct their own learning is seriously doubted (Eva et al. 2004). Yet, there seems to be more agreement that after graduation doctors should be able to be lifelong learners and for this require having developed self-assessment and self-regulated learning ability.


수단에 대한 요구

The quest for instrumentation


분명히 PBL은 임상 추론을 촉진하기 위한 것으로, 이는 논리적으로 임상 추론의 평가를 위한 기구를 개발하고자 하는 욕구로 이어졌고, 그 후에는 이 분야에서 방대한 양의 연구 개발로 이어졌다.

Clearly, PBL is aimed at promoting clinical reasoning, which logically led to the desire to develop instruments for the assessment of clinical reasoning, and subsequently to a vast amount of research and development in this area.


평가 문헌에서, 이것은 60년대에 환자 문제의 종이 시뮬레이션을 사용하면서 시작되었다(McGuire and Babott 1967; McCarty and Gonnella 1967). 그것들은 환자 관리 문제(PMP)로 불렸다. 환자의 초기 complaint가 제시되었고, 학습자는 해결책에 도달하기 위해 문제를 헤쳐나가야 했다. 학생이 취한 각각의 행동들은 점수가 매겨졌고 이 점수는 한 개인의 임상적 추론 능력을 나타내는 지표로 여겨졌다.

Within the assessment literature, this started in the sixties with the use of paper simulations of patient problems (McGuire and Babbott 1967; McCarthy and Gonnella 1967). They were called Patient Management Problems (PMPs). A patient’s initial complaint was presented, and the learner had to navigate their way through the problem to arrive at the solutions. Each action taken was scored and these scores were considered to be an indication of a person’s clinical reasoning ability.


그 방법에 대한 몇 가지 직관에 반하는 측정 문제가 발견되었다. 첫째, 전문가들은 (시뮬레이션을 통한) 최적의 경로에 동의하지 않았고 각 결정에 서로 다른 점수를 부여했다. 즉, 전문가들은 동일한 문제를 제시했을 때, 그들은 서로 다른 해결 방법을 제안했다.

Several, counterintuitive, measurement problems with the method were found. First, experts did not agree on the optimal pathway through the simulation and assigned different credits to each decision. In other words, when different experts were presented with the same problem, they suggested different solution pathways.


둘째, 환자 문제에 대한 개별 학습자의 점수가 0.1–0.2로 매우 낮다는 것이 밝혀졌다. 임상적 추론을 일반적이고 지식에 독립적인 특성으로 측정할 수 없다는 것이 명백해졌다. 이것은 후에 내용 특이성의 문제라 불리는 것의 첫 번째 표시였다(Eva 2003).

Second, it was discovered that the scores of individual learners across patient problems was very low, in the order of 0.1–0.2. It became clear that clinical reasoning could not be measured as a generic and knowledge-independent trait. This was a first indication of what later has been called the problem of content specificity (Eva 2003).


그 후 내용 특이성은 거의 모든 평가 측정에 내재하는 것으로 밝혀졌다. 모든 평가 측정에서 재현 가능한 점수에 도달하기 위해서는 분산 소스sources of variance에 걸쳐 상당한 표본 추출이 이루어져야 한다. 내용(문제, 사례, 항목, 오랄, 측점 등)에 영향을 미칠 수 있는 측면.

Content specificity was subsequently found to be innate to almost all assessment measurement. In order to arrive at a reproducible score in all assessment measurements, considerable sampling needs to be done across sources of variance; aspects that have a possible impact on the score such as content (problems, cases, items, orals, stations, etc.),


따라서, 평가 시간이 제한되어 있는 경우, 표본 추출에 효율적일 필요가 있다. 그 방법으로 개발된 것 중 하나는 키 기능 접근 시험(Page et al. 1995) 및 확장 일치 항목(Case and Swanson 1993)과 같이 덜 복잡한 짧은 시나리오나 vignet을 사용한 평가 방법이었다. 그러나 이러한 기구들은 주로 임상추론과정의 결과, 즉 임상적 의사결정에 초점을 맞추는 것 같았다. '추론 프로세스 자체'대한 평가는 여전히 성배로 남아 있었다.

The corollary of this that given that assessment time is limited, there is a need to be efficient with sampling. One of the developments were assessment methods with short scenarios or vignettes which were less complex, such as key-feature approach testing (Page et al. 1995) and or extended-matching items (Case and Swanson 1993). However, these instruments seemed to focus mainly on the outcome of the clinical reasoning process, the clinical decision making. The assessment of the reasoning process itself still remained a Holy Grail.


따라서, 검색은 계속되었고, 좀 더 구체적인 임상 추론도구는 나중에 개발되었다.

Therefore, the search continued and some more specific clinical reasoning instruments were developed later,


한 예로 잘못 정의된 환자 시나리오가 전개되고 학습자가 문제에 대한 가설에 대한 확률을 나타내야 하는 SCT(스크립트 동시성 테스트)가 있다(Lubarsky et al. 2011). 또 다른 형식은 PBL 학습 과정, 이른바 트리플 점프 연습(Westmorland and Parsons 1995)을 모방한 구술이었다. 그것은 구술적 배경(점프 1)에서의 사례 발표, 학습자에 의한 사례에 대한 자율 학습 시간(점프 2) 및 다음 구술적 세션에서의 발견 보고(점프 3)에서 시작되었다. 트리플점프는 꽤 독창적이었지만 그다지 인기를 얻은 적은 없었다.

One example is the Script Concordance Test (SCT) in which an ill-defined patient scenario unfolds itself and the learner has to indicate probabilities of their hypothesis of the problem (Lubarsky et al. 2011). Another format was an oral that also mimicked the PBL learning process, the so-called Triple Jump Exercise (Westmorland and Parsons 1995). 

  • It started with the presentation of a case in an oral setting (jump 1), 

  • some time for self-study on the case by the learner (jump 2) and 

  • a report of the finding in a next oral session (jump 3). 

The method was quite original but never has gained much popularity.


임상적 추론보다 임상적 의사결정을 평가하기가 더 쉬웠던 이유 중 하나는 온톨로지적 차이: 

  • 임상적 의사결정은 일반적으로 한 개 또는 소수의 방어가능한 정답으로 이어지는 과정인 반면 

  • 임상적 추론은 더 예측 불가능하거나 복잡하며 (상황에 따라 여러 괜찮은 답이 있을 수 있는) 다중적 결과를 초래할 수 있는 과정이다.(Durning et al. 2010).

One of the currently proposed reasons why clinical decision making was easier to assess than clinical reasoning is an ontological difference: 

  • clinical decision making is a process that typically leads to one or a few defensibly correct answers whereas 

  • clinical reasoning is a process that is more unpredictable or complex and there can lead to multiple good answers depending on the situation (Durning et al. 2010).


훌륭한 임상 의사결정이 예상할 수 있는 정답으로 이어진다면, 전형적으로 구조화되고 표준화된 평가로 시험할 수 있다. 그렇기 때문에 평가에서 핵심 특징 접근방식이나 확장 매칭 항목에 대한 유효한 것으로 밝혀졌다(Case and Swanson 1993; Bordage et al. 1995). 필요한 결과를 예측할 수 없고 상황에 따라 여러 가지 좋은 답이 있다면, 평가를 미리 정의할 수 없으며, here and now에서 평가해야 한다.

If good clinical decision-making predictably leads to correct answers, it can typically be tested with structured and standardised assessments. That is why the key feature approach to assessment and extended matching items have been found to be valid (Case and Swanson 1993; Bordage et al. 1995). When the required outcome is unpredictable and there are multiple good answers depending on the situation the assessment cannot be predefined and has to happen in the here and now.


이 과제의 한 예는 SCT에 대한 우려로 설명되는데, SCT에서는 자극stimulus(질문에서 묻는 것)은 본질적으로 다르지만, 점수가 수렴되어 있어 임상 추론의 복잡성과 잘 맞지 않는다(Lineberry et al. 2013). 이로 인해 임상 추론 평가에서 인간 판단의 역할을 연구하는데 새로운 관심을 갖게 되었다(Govaerts et al. 2012; Govaerts et al. 2011; Gingerich et al. 2014).

One example of this challenge is illustrated by the concerns around script concordance tests, where the stimulus—what the question asks—is divergent in nature but the scoring is convergent and hence does not sit well with the complexity of clinical reasoning (Lineberry et al. 2013). This has led to a renewed interest in researching the role of human judgment in the assessment of clinical reasoning (Govaerts et al. 2012; Govaerts et al. 2011; Gingerich et al. 2014).


평가 관행에서 이것을 하는 데는 많은 변화가 있을 수 있다. 슈워스 외 연구진은 "결론적으로, 임상적 추론을 평가하는 방법은 매우 많고, 최선의 척도가 없기 때문에, 선택은 정말로 당신의 것이다."라고 결론짓는다. (슈워스 외, 2019, 페이지 413)

There can be many variations to do this in an assessment practice. Schuwirth et al. conclude: “Finally, because there are so many ways to assess clinical reasoning, and no single measure is the best measure, the choice is really yours.” (Schuwirth et al. 2019, p. 413)


그러나 PBL은 또한 협력, 의사소통, 규제된 학습 능력과 전문성 같은 지식과 기술 이외의 다른 능력을 촉진하는 것으로 가정되었다. 따라서, 이러한 능력의 평가를 위한 도구를 개발하기 위한 이니셔티브가 수행되었다. PBL이 시작된 맥매스터 대학교에서는 처음에 학습자에 대한 튜터 기반의 평가가 사용되었다.

However, PBL was also assumed to promote other abilities than knowledge and skills, such as collaboration, communication and regulated learning ability and professionalism. Therefore, initiatives were undertaken to develop instruments for the assessment of these abilities. At McMaster University, where PBL started, initially tutor-based assessment of the learners was used.


튜터 평가는 면허 시험 성과를 예측하지 못했다(Keane et al. 1996). 이러한 면허시험에서의 성과를 예측할 수 없는 것이 능력의 개발을 예측하기에 충분한 자기 규제 학습의 가정이 부정확하다는 표시인지 아니면 순수하게 인간의 판단에 기초한 평가의 초기 구현이 아직 미숙했음을 나타내는 것인지 의문을 가질 수 있다.

the tutor evaluations did not predict licensing exam performance (Keane et al. 1996). One can question whether this inability to predict performance on a licensing exam is an indication that the assumption of good selfregulated learning being sufficient to predict the development of competence is incorrect or whether the early implementation of purely human judgement-based assessment was still immature.


그 이후, 부분적으로 휴리스틱스와 편견에 관한 문헌(플러스 1993)과 자연주의적인 의사 결정(Gigerrenzer and Goldstein 1996)에서 인간의 판단을 평가에서 사용하는 것에 대해 많은 것을 배웠다.

Since that time, much has been learned about using human judgement in assessment, partly from the literature on heuristics and biases (Plous 1993) and from naturalistic decision-making (Gigerenzer and Goldstein 1996)


예를 들어, Maastricht University에서 PBL을 채택한 두 번째 대학교에서, 전문적 행동에 대한 평가는 두드러진 자리prominent place를 얻었다(Van Luijk et al. 2000; 반묵 등 2009). 이러한 평가는 그룹 및 자신에 대한 그룹 작업과 관련된 자신의 행동에 대한 자기평가와 더불어 튜터 및 동료의 판단과 서술적 피드백을 기반으로 하였다. 본질적으로, 이것들은 더 복잡한 능력을 평가하기 위해 전문적인 판단을 사용한 초기 사례였다. 그러나, 이것의 단점은 능력 평가의 구획화가 지속된 것이었다.

At Maastricht University for instance, the second university to adopt PBL, the assessment of professional behavior received a prominent place (Van Luijk et al. 2000; Van Mook et al. 2009). These assessments were based on a judgement and narrative feedback from the tutor and peers combined with a self-assessment on behavior pertaining to group work around the task, in relation to others in the group and to oneself. Essentially, these were early examples of the use of professional judgment to assess more complex abilities. Yet, the downside of this was a persistence of the compartmentalisation of the assessment of competence.


교육의 또 다른 발전인 역량 기반 의학 교육(CBME)은 모든 유형의 능력이 서로 상호작용한다고 제안하며, 역량에 대한 보다 통합적인 관점을 제안했다. 그래서 평가를 위해, 이것은 좀 더 통합적인 관점을 필요로 했다. CBME 문헌에서 '역량'은 일반적으로 복잡한 전문적 과제를 수행하는데 필요한 지식, 기술 및 태도의 통합으로 정의된다 (Albanese et al. 2008). CBME는 교육의 결과를 "교육 프로그램을 마친 후 학습자가 할 수 있는 것은 무엇인가?"라고 정의하기 위한 교육에 도전했다.

Another development in education, competency-based medical education (CBME), proposed a more integrative view on competence, in which all types of abilities were expected to interact with each other. So for assessment, this required a more integrative view. In the CBME literaturea ‘competency’ is generally defined the integration of knowledge, skills and attitudes to fulfil a complex professional task (Albanese et al. 2008), which instigated a major orientation shift in educational thinking. CBME challenged education to define the outcomes of education as: “What is it that learners after completing the training program are able to do?”


역량 프레임워크는 커리큘럼 구조화에 심대한 영향을 미쳤지만, 평가 개발 및 연구에도 영향을 미쳤다. 여러가지 역량 프레임워크에서 공통적으로 의사소통, 협업, 전문성, 건강 옹호, 시스템 기반 실천 등 복잡한 능력을 강조하고 있다.

Competency frameworks have had a profound impact on structuring curricula, but they also influenced the assessment developments and their research. The commonality across these frameworks that they emphasize complex abilities, such as communication, collaboration, professionalism, health advocacy, systems-based practice, etcetera, more strongly.


그러나 복잡한 능력들은 쉽게 정의될 수 없고 시험으로 끝나는 짧은 코스에서 쉽게 훈련될 수도 없다. 이러한 역량은 대개 커리큘럼에서 수직적vertical 학습선learning line을 필요로 하며 종단적으로 발전한다. CBME의 인기가 높아지면서, CBME는 기존의 평가 측정 관점에 문제를 제기했으며, 개발자와 연구자들에게 '측정할 수 없는 것'을 평가하도록 자극했다. 일반적으로 이러한 복잡한 능력은 한 시점에 측정할 수 없고, authentic한 교육적 또는 임상적 환경에서 반복적으로 수행능력에 대한 전문적인 판단을 해야만 평가할 수 있다

Complex abilities cannot be easily defined, though and neither can they be easily trained in a short course ending with an exam. These competencies usually require vertical learning lines in a curriculum and develop longitudinally. Through its increase in popularity CBME challenged the traditional measurement perspective of assessment and stimulated developers and researchers to start ‘assessing the unmeasurable’. it is generally help that these complex abilities cannot be measured at one point in time but can only be assessed through professional judgments of habitual performance in more or less authentic educational or clinical settings.


이는 (복잡한 역량을) 간단한 체크리스트에서 거의 포착할 수 없다는 것을 의미하며, 평가를 하려고 해봐야 그것은 trivialize될 뿐이다(Van der Vleuten et al. 2010). 따라서 평가 문헌은 밀러의 피라미드의 꼭대기로 올라갔다(밀러 1990): 즉, 보다 주관적인 정보원에 크게 의존하는 비표준화된 척도를 이용한 퍼포먼스 평가이다(Kogan et al. 2009). 여기서, 모든 학생들이 평가에서 동등하고 공정한 결과를 얻을 자격이 있다는 것을 부정하지는 않지만, 결과에서 도달하기까지 정확히 같은 과정을 밟는다는 것을 의미하지는 않는다.

This means that they can hardly be captured in a simple checklist and when tried, the assessment is trivialized (Van der Vleuten et al. 2010). Thus, the assessment literature moved towards the top of Miller’s pyramid (Miller 1990): the assessment of performance using unstandardized measures that strongly rely on more subjective sources of information (Kogan et al. 2009). This did not negate that every student is entitled to a fair and equitable outcome of the assessment, but not to exactly the same process to reach at outcome.


CBME에 대한 주의의 또 다른 중요한 결과는 종단성의 문제다. 시간 경과에 따른 성장을 바라보는 것은 모듈화된 평가 시스템의 고전적 접근방식에 대한 근본적인 도전이다.

Another major consequence of the attention to CBME is the issue of longitudinality. Looking at growth across time is a fundamental challenge for our classical approach of a modularised assessment system.


분명한 의미 중 하나는 직장 기반 평가에서 관찰과 점수가 동시에 발생해야 한다는 것이다. 이것은 예를 들어, 필기시험에서는 일련의 주관적 판단(교육과정이란 무엇인가, 질문의 청사진은 무엇인가, 어떤 항목을 생산해야 하는가, 어떤 기준을 정해야 하는가?)이 퍼포먼스 데이터의 수집보다 선행된다 (퍼포먼스 데이터 수집은 심지어 컴퓨터 프로그램으로도 할 수 있다). 이러한 실시간 관찰 및 채점을 위해서는, 평가자에게 더 높은 "평가 문해력assessment literacy"을 요구하며, 단순히 더 루브릭을 정교하게 하는 것 만으로는 해결할 수 없었다(Popam 2009; Valentine and Schuwirth 2019).

One of the obvious implications is that in workplace-based assessment the observation and scoring have to happen simultaneously. This is different to, for instance, written examinations where a whole series of subjective judgements (what is the curriculum, what is the blueprint what topics to questions, what items to produce, what standards to set?) precedes the collection of performance data (which can be even done by a computer program). This requirement of real-time observation and scoring required considerably more assessment literacy from the assessor and could not simply be solved by more elaborate rubrics (Popham 2009; Valentine and Schuwirth 2019).


더 분명한 것은 교육적인 관점에서 평가에 더 많은 관심을 기울인다는 것이다. 이는 정신측정학에 대한 담론이 지배하는 표준화된 평가 테크놀로지(즉, 피라미드의 첫 세 층)와 다르다. 학습자에게 정보를 제공하기 위한 평가의 유용성과 학습자가 더 중심적이 되었다(Kogan et al. 2017).

What is further evident, is that more attention is given to assessment from an education perspective, rather than from the dominant discourse around psychometrics in standardized assessment technology, i.e. in the first three layers of the pyramid (Schuwirth and Ash 2013). The learner and the utility of assessment to inform learning became more central (Kogan et al. 2017).


논리적으로, 피드백의 퀄리티가 낮으면 그 효과는 제한적이거나 심지어 부정적인 영향을 미칠 것이다. 또 다른 연구 결과는 매우 총괄적 환경에서 학습자가 피드백을 받는 경향이 적다는 것을 보여주었다(Harrison et al. 2016). 아마도 가장 중요한 함축적 의미는 정보 전달자로서 점수와 학점은 상당한 한계를 가지고 있다는 것이다. 질적 및 서술적 정보는 숫자점수보다 훨씬 더 많은 의미를 가지며, 특히 복잡한 능력이 평가될 때 더욱 그러하다(Ginsburg et al. 2013).

Logically, poorly given feedback will have limited—or even negative—impact. Another finding showed that in highly summative settings, learners are less inclined to engage with feedback (Harrison et al. 2016). Perhaps the most important implication is that scores and grades have considerable limitations as information conveyers. Qualitative and narrative information have much more meaning than scores, particularly when complex abilities are being assessed (Ginsburg et al. 2013).


이상적으로 피드백은 임상 이벤트의 직접 관찰에 기초하거나, 장기간에 걸쳐 행동에 대한 대화인 것이다(Van der Vleuten and Verhoeven 2013).

Ideally, feedback is a dialogue either in action, based on direct observation of a clinical event, or on action, over a longer period of time (Van der Vleuten and Verhoeven 2013).


자기주도 학습도 마찬가지다. 자기주도 학습은 예를 들어 신뢰할 수 있는 사람과의 지속적인 대화를 통해 교육적인 비계scaffolding를 필요로 한다. 멘토링에 관한 문헌은 초기 긍정적 효과를 보여주고 있다(Driessen and Overeem 2013).

The same holds for self-directed learning; self-directed learning requires educational scaffolding, for example through an ongoing dialogue with a trusted person. The literature on mentoring is shows early positive effects (Driessen and Overeem 2013).


그것은 분명히 올바른 연금술에 관한 것이다. 평가는 학습자에게 의미 있는 피드백을 제공함으로써 명백한 학습 기능을 가져야 한다. 피드백은 [피드백 후속 조치 또는 성장 마인드를 가진 위탁자와의 대화]를 통해 scaffold로서 사용되어야 한다. 임상 환경 또는 부서의 문화는 예상되는 내용과 승인된 내용에 대해 학습자에게 가장 강력한 메시지를 전달하기 때문에 매우 중요하다(Watling et al. 2013a; Ramani et al. 2017).

It clearly is about the right alchemy. Assessment should have an obvious learning function through providing the learner with meaningful feedback. Feedback use is to be scaffolded with feedback follow-up or through dialogues with entrusted persons with a growth mindset. The culture of a clinical setting or a department is over overriding importance as it conveys the strongest messages to the learner about what is expected and what is sanctioned (Watling et al. 2013a; Ramani et al. 2017).


평가 전략의 탐색

The quest for assessment strategies


PBL은 개념적 이해에 초점을 맞춘 심층 학습 전략의 육성을 추구한다. 이러한 학습 전략을 촉진하기 위한 평가 전략은 PBL이 시작된 이래 의제로 다뤄졌다. 아마도 앞에서 언급한 트리플 점프 연습은 PBL 학습 사이클을 모방하여 보다 깊은 이해를 증진시키기 위한 접근법의 한 예일 것이다.

PBL seeks to foster a deep learning strategy, focused on conceptual understanding. Assessment strategies to promote such learning strategies haves been on the agenda since the beginning of PBL. Probably, the Triple Jump Exercise mentioned earlier is an example of an approach to promote deeper understanding by mimicking the PBL learning cycle.


PBL에서 오랜 역사를 가진 또 다른 대안 평가 전략은 progress testing이다(슈와르와르 반 데르 블루텐 2012).

Another alternative assessment strategy that has a long history in PBL is progress testing (Schuwirth and van der Vleuten 2012).


progress testing은 매년 여러 차례 반복되며, 각각 새로운 질문이 있지만 내용은 동일하다. 개별 테스트의 결과는 성장 곡선과 성능 예측을 생성하기 위해 결합된다. 이러한 형태의 테스트는 1977년 마스트리히트에서 시작되었다. Test-directed 공부를 피하는 것이 주된 목적이었다. 어떤 것이든 물어 볼 수 있기 때문에 progress test에 맞춰 준비하기는 매우 어렵다. 그러나, 학습자가 PBL 시스템에서 정기적으로 공부를 한다면, 대부분의 경우 충분한 성장이 자동으로 일어날 것이다.

The test is repeated a number of times per year, each with new questions but with the same content blueprint. The results on the individual tests are combined to produce growth curves and performance predictions. This form of testing started in 1977 in Maastricht. The main purpose was to avoid test-directed studying. It is very difficult to specifically prepare for a progress test since anything might be asked. But, if a learner studies regularly in the PBL system most likely sufficient growth will occur automatically.


종단적 평가도 미래 성과를 더 잘 예측하는 요인으로 가정한다. 시험 지향 연구의 부작용 없이 그리고 라이선스 성능에 대해 예측 가능한 이러한 종류의 지식 테스트는 그들의 PBL 접근법을 hand-in-glove에 맞추었다. 전략적인 관점에서, 흥미로운 질문은 기존 평가 프로그램에서 어떤 부분이 progress test로 대체될 수 있는지이다. 인지 영역에서는 progress test에 전적으로 의존하는 학교도 있다(Ricketts et al. 2009년) 그리고 다른 지식 시험이 필요하지 않다면 얼마나 많은 자원을 절약할 수 있을지 쉽게 상상할 수 있다.

Longitudinal assessment is also assumed to be a better predictor of future performance. This kind knowledge testing without the side effect of test-directed studying and that is predictive for licensure performance fitted their PBL approach hand-in-glove. From a strategic perspective, the interesting question is what in existing assessment programs may be replaced with progress testing. There are schools that rely exclusively on progress testing in the cognitive domain (Ricketts et al. 2009) and it is easily conceivable how many resources would be saved if no other knowledge exams were needed.


더 넓은 평가 전략은 프로그램적인 평가다. 프로그램 평가의 기본 규칙은 다음과 같다.

A wider assessment strategy, is programmatic assessment. The ground rules in programmatic assessment are:


• 모든 평가는 데이터 포인트에 불과하다.

• Every (part of an) assessment is but a data-point


• 학습자에게 의미 있는 피드백을 제공함으로써 모든 데이터 포인트가 학습에 최적화됨

• Every data-point is optimized for learning by giving meaningful feedback to the learner


• 단일 데이터 포인트에서 합격/불합격 결정이 내려지지 않음

• Pass/fail decisions are not given on a single data-point


• 평가 방법이 다양하게 있음

• There is a mix of methods of assessment


• 방법의 선택은 그 방법을 사용하는 교육적 정당성에 따라 달라진다.

• The choice of method depends on the educational justification for using that method


• 총괄적 및 형성적 평가의 구분은 '부담'의 continuum으로 대체된다.

• The distinction between summative and formative is replaced by a continuum of stakes


• 부담 및 학습자 진행 의사결정은 이해 관계와 비례하여 관련이 있음

• Stake and decision-making learner progress are proportionally related to the stakes


• 역량 프레임워크에 따라, 평가 정보들은 여러 데이터 포인트에 걸쳐 삼각측량된다

• Assessment information is triangulated across data-points towards a competency framework


• 역량 위원회에서 고부담 의사 결정(홍보, 졸업)

• High-stakes decisions (promotion, graduation) are made in competence committees


• 학습자에게 진행 상황을 알릴 목적으로 중간 결정을 내린다.

• Intermediate decisions are made with the purpose of informing the learner on their progress


• 학습자는 모든 평가 데이터의 자체 분석을 사용하여 (교수) 멘토와 반복적인 학습 회의를 갖는다.

• Learners have a recurrent learning meetings with (faculty) mentors using a self-analysis of all assessment data


어떤 개별 데이터 포인트도 고부담 결정을 내리는 데 사용되지 않는다(Van der Vleuten and Schuwirth 2005). 그렇게 함으로써, 학습자들은 각각의 개별 평가에서 총괄적 "스트링"을 제거해냄으로써, 종합 평가 게임을 시도하기 보다는 학습 오리엔테이션에 집중할 수 있다. 자기주도 학습은 정기적인 데이터 기반의 자기 평가 및 학습 계획을 통해 촉진되며, 시간에 따라 학습자를 따르는 신뢰할 수 있는 사람에 의해 강화 및 지원된다(일반적으로 수년간의 교육 과정).

Any individual data point is never used to make high-stakes decisions (Van der Vleuten and Schuwirth 2005). That way, by taking out the summative “sting” out of each individual assessment, learners may concentrate on a learning orientation rather than trying to game of summative assessment. Self-directed learning is promoted through regular data-driven self-assessment and planning of learning, reinforced and supported by a trusted person that follows the learner in time (usually across years of training).


데이터 포인트는 본질적으로 풍부해야 한다

  • 양적 자료에서, '풍부함'이란 보통 하위 영역에 대한 피드백 보고서에 있고, 레퍼런스 그룹과 비교한 정보가 제공된다. 

  • 질적 자료에서, '풍부함'이란 제공되고 있는 이야기의 질에 있다. 

전문적 판단(교직원, 동료, 동료 또는 환자에 의한) 및 직접 관찰의 사용은 프로그램 평가에서 역량 구축 프로세스에 의해 강력하게 촉진되고 지원된다.

Data points need to be rich in nature. 

  • When quantitative, the richness lies usually in feedback reports on subdomains and comparative information is given to a refence group. 

  • When qualitative, the richness lies in the quality of the narrative being provided. 

The use of professional judgment (by faculty, coworkers, peers or patients) and direct observation are strongly promoted and supported by capacity building processes in programmatic assessment.


데이터 포인트 전반에 걸친 정보를 삼각적으로 분석하고 집계함으로써 의사 결정의 강도가 높아진다. 데이터 포인트에 걸친 정보는 양적·질적 데이터의 조합이므로, 의사결정은 알고리즘이나 통계적일 수 없으며, 인간의 판단은 불가결하다. 반복적인 협의 과정을 통해 필요한 경우 풍부한 정보를 사용하고 합의에 도달함으로써 의사결정에 도달하는 독립적인 의사결정 위원회(Hauer et al. 2016)를 사용하여 고득점의 의사결정을 견고하게 한다.

Decision-making becomes robust by triangulating and aggregating information across data-points. Since the information across data points is a combination of quantitative and qualitative data, decision making cannot be algorithmic or statistical, and human judgment is indispensable. Any high-stakes decision is rendered robust by using independent decision committees that arrive at their decisions by using rich information and reaching consensus (Hauer et al. 2016), when needed through iterative consultative processes.


결론

Conclusion


PBL의 맥락에서의 평가는 PBL의 의도와 평가 사이의 건설적인 정렬의 필요성에 의해 이루어진다. 단원 종료 후 시험이라는 고전적 총괄적 패러다임은 PBL에 잘 맞지 않는다. 비록 PBL과 관련된 여러 평가도구에 대한 초기 연구가 몇 가지 유망한 발전을 만들어냈을 수도 있지만, 어떤 단일 도구도 전체 그림을 공개할 수 없다는 것이 명백해졌다.

Assessment in the context of PBL is driven by the need for constructive alignment between intentions of PBL and assessment. The classic summative paradigm with end-of-unit examinations does not really fit well to PBL. Although an initial search for instruments relevant for PBL may have produced some promising developments, it has become clear that no single instrument can unveil the whole picture.


건설적 정렬은 평가에 대한 통합적 접근방식을 통해 최적으로 달성된다(Norcini et al. 2018; Eva et al. 2016). 프로그래밍적 평가가 그런 예다.

Constructive alignment is best achieved through an integrative approach to assessment (Norcini et al. 2018; Eva et al. 2016) and for this to be attained a breach with the traditional summative approach is required. Programmatic assessment is such an example.


PBL에서와 마찬가지로 우리는 시스템 넓은 평가 접근방식에서 많은 다른 징후나 "하이브리드"를 볼 것이다.

Just like in PBL we will see many different manifestations or “hybrids” in system wide approaches to assessment.


Servant-Miklos, V. F. C. (2019). A Revolution in its own right: How maastricht university reinvented problembased learning. Health Professions Education. https ://doi.org/10.1016/j.hpe.2018.12.005.






 2019 Oct 2. doi: 10.1007/s10459-019-09909-1. [Epub ahead of print]

Assessment in the context of problem-based learning.

Author information

1
School of Health Professions Education, Faculty of Health, Medicine and Life Sciences, Maastricht University, P.O. Box 616, 6200 MD, Maastricht, The Netherlands. c.vandervleuten@maastrichtuniversity.nl.
2
Prideaux Centre for Research in Health Professions Education, College of Medicine and Public Health, Flinders University, Sturt Road, Bedford Park, SA, 5042, Australia.

Abstract

Arguably, constructive alignment has been the major challenge for assessment in the context of problem-based learning (PBL). PBL focuses on promoting abilities such as clinical reasoning, team skills and metacognition. PBL also aims to foster self-directed learning and deep learning as opposed to rote learning. This has incentivized researchers in assessment to find possible solutions. Originally, these solutions were sought in developing the right instruments to measure these PBL-related skills. The search for these instruments has been accelerated by the emergence of competency-based education. With competency-based education assessment moved away from purely standardized testing, relying more heavily on professional judgment of complex skills. Valuable lessons have been learned that are directly relevant for assessment in PBL. Later, solutions were sought in the development of new assessment strategies, initially again with individual instruments such as progress testing, but later through a more holistic approach to the assessment program as a whole. Programmatic assessment is such an integral approach to assessment. It focuses on optimizing learning through assessment, while at the same gathering rich information that can be used for rigorous decision-making about learner progression. Programmatic assessment comes very close to achieving the desired constructive alignment with PBL, but its wide adoption-just like PBL-will take many years ahead of us.

KEYWORDS:

Assessment; Competency-based medical education; Constructive alignment; Problem-based learning; Programmatic assessment; Progress test

PMID:
 
31578642
 
DOI:
 
10.1007/s10459-019-09909-1


"추진"을 넘어: 평가, 퍼포먼스, 학습의 관계(Med Educ, 2019)

Beyond ‘driving’: The relationship between assessment, performance and learning

Ian M. Scott





1 도입

1 | INTRODUCTION


커리큘럼 테이블에 앉아 있는 의학 교육자로서, 나는 학생들이 '배우게 하려면' 시험을 봐야 한다는 요구를 종종 듣는다. 결국, 모든 사람들은 평가가 학습을 촉진한다는 것을 안다.

As a medical educator who sits at curriculum tables, I often hear calls for testing to ensure that students ‘learn it’; after all, everyone knows that assessment drives learning.


스완슨과 케이스1은 우리에게 '시험으로 학생들을 쥐어잡으면, 그들의 마음과 마음이 따라올 것이다'라고 충고했다. 그러나, 우리가 평가의 역할을 개념화하는 방법에 대한 문제를 인식하고 있으며, 평가가 학습에 어떻게 영향을 미치는가에 대한 기대는 시간이 지남에 따라 진화해 왔다. 

  • 오래 전인 1961년 밀러2는 단순히 시험의 주된 목적이 학생들이 공부하도록 자극하는 것이라고 말했다. 

  • 1996년에 Van der Vleuten3은 평가를 구성할 때 트레이드오프가 있으며 평가의 내용, 형식, 시기 및 피드백은 (평가가) 모두 학습에 사용될 수 있는 정도에 영향을 미친다고 언급했다. 

  • 2011년, Norcini et al4는 능력과 학습에 대한 양쪽의 판단을 지원하기support 위한 평가를 요청했다. 

  • 가장 최근에 와틀링과 긴즈버그5는 교육자로서 우리는 "퍼포먼스"를 "전문가로서의 개선을 위한 노력"으로 대체할 수 있도록, 학습과 일의 "improvement model"을 추구해야 한다고 제안한다.

Swanson and Case1 have advised us to ‘Grab students by the tests and their hearts and minds will follow’. However, there are recognised challenges in the ways we conceptualise the role of assessments, and expectations regarding how assessments affect learning have evolved over time. As long ago as 1961, Miller2 stated simply that the central purpose of a test was to stimulate students to study. In 1996, van der Vleuten3 noted that there are tradeoffs when constructing assessments and that the content, format, timing and feedback of assessments all affect the degree to which they can be used for learning. In 2011, Norcini et al4 called for assessments to support both judgements of ability and learning. Most recently, Watling and Ginsburg5 suggest that as educators, we must embrace an improvement model of learning and working so that performance is replaced by striving for improvement as a professional.


평가에 대해 점점 더 미묘한 생각을 하고 있는 이러한 상황을 고려할 때, 평가가 항상 학습자들을 학습으로 몰아가고drive 있다고 주장하는 것은 어리석은 일일 것이다. James는 사실 평가 관행은 학습과 미약한 관계가 있을 뿐이라고 주장한.6 그러나 평가가 결코 우리의 학습자들을 학습으로 유도하지 않는다고 가정하는 것도 마찬가지로 어리석은 것이다. 평가와 학습의 불일치를 검토함으로써 우리는 '평가가 학습을 촉진한다'는 것이 보편적인 진리로 언급되었을 때 왜 신화로 간주되어야 하는지에 대해 더 잘 이해할 수 있을 것이다.

Given this increasingly nuanced thinking about assessments, it would be folly to argue that our assessments always drive our learners towards learning. James argues, in fact, that assessment practices have only a tenuous or partial relationship to learning.6 It would be equal folly, however, to assume our assessments never drive our learners towards learning. By examining the mismatch between assessment and learning we may come to a better understanding of why ‘assessment drives learning’ should be regarded as a myth when stated as a universal truth.



2 퍼포먼스와 학습

2 | PERFORMANCE AND LEARNING


학습은 실천이나 다른 형태의 경험에서 비롯되는 지식이나 행동의 안정된 변화다.7 강사는 평가를 만들고 학생들은 이러한 평가에 조치 또는 성과로 응답한다. 평가에 대한 이러한 response은 종종 학습의 표시로 표시되지만, 교육자가 관찰하는 응답은 완전히 다른 것을 나타낼 수 있다. 

  • response들이 지식이나 행동의 안정적인 변화를 창출하는 것과 일치할 때, 평가는 학습을 촉진한다. 

  • response들이 지식이나 행동의 안정된 변화를 창출하는 것과 일치하지 않을 때, 우리는 그것들을 배움보다는 특정한 능력을 증명하거나 암시하기 위해 수행되는 것으로 간주해야 한다. 

학습learning과 연계된 것인지, 시험응시행위(점수)performance와 연계된 것인지는 학생들이 평가에 대비하여 취하는 조치와 평가 도중 및 평가 후에 학생들이 선택한 행동에 의해 결정된다.

Learning is a stable change in knowledge or behaviour that results from practice or other forms of experience.7 Instructors create assessments and students respond to these assessments with an action or performance. Although these responses to assessments are often labelled indications of learning, the responses educators observe may represent something else entirely. 

  • When responses are aligned with generating stable changes in knowledge or behaviour, then assessment drives learning. 

  • When responses are not aligned with generating stable changes in knowledge or behaviour, we must consider them to be performance put on for the sake of demonstrating or implying a particular capability rather than learning. 

Alignment with learning or performance is determined by the actions students take in preparation for the assessment and the ways students choose to act during and after the assessments.


1928년 듀이는 학생들이 "정신적 노예"가 되는 것을 피하기 위해서는 학습에서 목적의식을 느껴야 한다고 언급했다.8 정신적 노예는 단순히 높은 점수나 긍정적인 피드백을 추구하는 것일 수 있으며 긍정적인 평판을 만들기 위해 행동하는 것도 포함할 수 있다. 의도적으로 학습에 대한 보상을 추구한다는 것은, 학생들이 학습에 해로움에도 불구하고 높은 시험응시행위를 보여주려고 할 때 나타나는, 평가의 바람직하지 않은 결과물이다.

In 1928 Dewey noted that students must feel a sense of purpose in their learning to avoid mental slavery.8 Mental slavery may be the pursuit of high marks or positive feedback and can include learners acting to create positive reputations. This purposeful seeking of reward over learning is the undesired consequence of assessment, when students seek to demonstrate high performance to the detriment of learning.


장기 리콜은 공부가 시간에 따라 분산될 때(즉, 분산 실습) 하나의 연속 기간에 이루어지는 것보다 더 효과적이다.9 '벼락치기'는 Learning보다 Performance에 보답을 준다. 학습을 평가하기 위해 빈번하지 않은 고부담 시험을 사용할 경우, 벼락치기는 performance를 우선시하게 되며, 장기적 관점의 학습을 위해서 공부하는 학생들을 잠재적으로 처벌punish할 수 있다.9 그러므로 마치 배움이 일어난 것처럼 보일지 모르지만, 벼락치기 공부를 하는 학생들에게 performance에 대한 보상을 하는 것은 [장기적인 보존]과 [미래의 환경에 학습내용을 적용할 수 있는 능력]을 저해할 수 있고, 따라서 배움을 촉진하는 것과는 정반대의 것이다.

Long-term recall is more effective when studying is spread out over time (ie distributed practice) than when it takes place in one continuous period.9 Student ‘cramming’ (ie massed practice or intensive study just before an examination) rewards performance over learning. When infrequent highstakes examinations are used to assess learning, cramming can prioritise performance and potentially punish students who seek to learn material for longterm retention.9 Thus, although it may appear that learning has occurred, rewarding performance in students who cram can impede longterm retention and the capacity to apply the material in future settings, thereby promoting the very opposite of learning.


소규모 집단 상호작용에서, 학생들의 인상 관리는 [학습]을 희생하면서 비슷하게 [점수]를 보상할 수 있다. 이러한 환경에서 교직원은 대개 학생들을 평가하는 책임을 진다. 이러한 평가에 대응하여, 학생들은 교수들의 평가에 영향을 미치려는 노력의 일환으로 자신을 돋보이게 하기 위하여 튜토리얼 초기에 일부 지식을 시연할 수 있는 'tutorial air time'을 추구한다.

In small group interactions, students’ impression management can similarly reward performance at the expense of learning. In such settings, a faculty member is usually responsible for assessing students. In response to this assessment, students seek ‘tutorial air time’ by demonstrating some knowledge early in the tutorial to ensure that the faculty member notices them in an effort to influence their assessment.10,11


그러나 우리가 위의 학습 활동에서 [학생 참여의 양]을 proxy로서 평가한다면, 우리는 performance에 보상함으로써 이러한 원래 의도를 훼손할 수 있다. 즉, 이 튜토리얼을 통해서 유도하려고 했던 종류의 학습을 저해하게 된다.

If we assess the amounts of student participation as proxies for these above learning activities, however, we may undermine these intentions by rewarding performance, thus impeding the very learning the tutorials were developed to enable.


학생들의 인상 관리는 임상 환경에서도 학습을 방해할 수 있다. 여기서 학생은 [환자를 돌보기]보다는 [감독자나 동료들을 위해 수행하는performing 것]에 집중하는 모습을 보이게 되고, 이것은 임상 의사 결정, 자신의 건강, 그리고 심지어 환자 안전까지 손상시킬 수 있다.

Students’ impression management can also impair learning in clinical settings. Here, students who focus on performing for their supervisors or their peers rather than caring for their patients can impair their clinical decision making, their own wellness and even patient safety.12,13


이처럼 학생이 '측정measuring up'에 맞추려는 경향은 [교육자와 학습세팅이 학생들에게 주는 단서들에 의해 사회적으로 구성되고 결정]된다.12 이러한 환경이 performance에 대한 보상을 위해 구성되면, 학생들이 연기perform를 할 것이다. 이러한 상황에서 학생들은 임상 교육 세팅을 관리하고, 자신의 지도자와 상황을 관리하기 위해 정교한 전략을 사용하여 긍정적인 이미지를 유지한다.14,15 Performance 접근법을 채택한 학생들은 [환자의 병에 대해 배우고 환자를 돌보는 데] 초점을 맞추기보다는, 감독자가 듣고 싶은 것을 말함으로써 그들이 '겉으로 보이는' 능력에 대한 보상을 받을 수 있다.14,15

This student focus on ‘measuring up’ is socially constructed and determined by the cues that instructors and the learning setting give to students.12 When these environments are constructed to reward performance, students will perform. In such situations, students actively work to manage the clinical teaching setting and use sophisticated strategies to manage their preceptors and the situation to maintain a positive image.14,15 Students who adopt a performance approach can be rewarded for their apparent competence by telling the supervisor what they want to hear rather than focusing on learning about their patient's illness and dedicating themselves to caring for their patients.14,15


마지막으로, 평가에 대응하여 학생들이 보여주는 performance는 환자에 대해 생각하는 방식을 변질시킬 수 있다. 학생들은 환자를 [돌봄을 통해 배움을 얻는 방법]으로 여기기보다는, 성공의 장애물로 여기게 된다. Gormley et al17 참고사항처럼 객관적 구조화된 임상시험(OSCEs) '...가 학습을 잘못된 방향으로 이끌고 있을 수 있다. 그들은 OSCE와 같은 평가들이 학생들에게 주는 사회적, 문화적 메시지를 고려하라고 요구한다. OSCE 체크리스트를 만족하면 평가에서 높은 점수를 얻을 수 있지만, 환자 관리가 제대로 이루어지지 않을 수 있다. OSCE는 학생들에게 [임상에서 마주칠 때 좋은 모습을 보이는 것]이 [잘 하는 것]보다 더 중요하다는 메시지를 줄 수 있다.

Lastly, performances in response to assessments can pervert the way students think about patients by shifting patients from a means to learn through caring to a barrier to success. As Gormley et al17 note, the objective structured clinical examinations (OSCEs) ‘… may be driving learning in the wrong direction’. They ask us to consider the social and cultural messages that assessments such as OSCEs give students. Satisfying the OSCE checklist can result in a high score on the assessment but may represent poor patient care. The OSCE can give students the message that in a clinical encounter it is more important to appear good than do well.


3 나아갈 방향

3 | MOVING FORWARD


우리는 평가가 모든 경우에 학습을 지원support한다고 가정할 수 없다. 이러한 평가 문제에 직면하여, 학생, 기관, 커리큘럼, 평가 및 피드백이 학습을 더 잘 지원할 수 있는 방법을 지원하기 위해 취할 수 있는 조치들이 있다.

we cannot assume assessments support learning in all cases. In the face of this assessment problem, there are actions we can take to support how our students, institutions, curriculum, assessments and feedback can better support learning.


3.1. 학생

3.1 | Students


엘리엇과 Dweck는 개인이 성취 상황에서 성장 및 숙달, 성과와 고정 방향의 두 가지 유형의 목표 방향을 채택할 수 있다고 제안한다.18,19 

    • 학생들은 목표가 개인적 개발에 초점을 맞춰져 있을 때(학습해야 할 자료나 과제의 숙달) growth 지향을 보여준다. 

    • 대조적으로, 학생들은 자신의 능력에 대한 긍정적인 평가를 찾는 데 초점을 맞추고 부정적인 판단을 피하려고 할 때 performance 지향성을 보여준다. 

Elliot and Dweck propose that individuals can adopt two types of goal orientations in achievement situations: growth and mastery, and performance and fixed orientations.18,19 

    • Students demonstrate a growth orientation when their goals focus on personal development (ie mastery of the material or task to be learned). 

    • By contrast, students demonstrate a performance orientation when their goals focus on seeking positive assessments of their competence and they look to avoid negative judgements. 


특정한 시점에 이러한 두 가지 상반된 생각 중 하나를 보유하는 것은 평가에 대응하여 학생들이 어떻게 행동할 것인가에 상당한 의미를 갖는다. 학습자는 상황에 따라 고정형 마인드와 성장형 마인드를 둘 다 가질 수 있으며, 어떤 사고방식이 발동되는지는 학습과 평가 상황에 따라 달라진다. 성장 마인드를 갖는 것은 학생들이 [답을 모르거나, 실수를 하거나, 실패를 경험하거나, 불안해할 때] 학습을 서포트해주고 저항감을 낮춰준다.18,19

Holding one of these two opposing mindsets at any given time has considerable implications for how students will behave in response to assessment challenges. Learners can have both fixed and growth mindsets at different points in time, and which mindset is invoked depends on the learning and assessment context. Having a growth mindset supports learning and avoids resistance when students do not know an answer, make an error, experience failure or are anxious.18,19


학생들에게 성장형 마인드를 촉진하려면, [단순히 우리 자신의 성공적인 성과를 모델링]해서는 안된다. 학생들에게 성장형 마음가짐을 길려주기 위해서는, 성장형 마음가짐은 도전을 수반하는 평생에 걸친 활동이며, 어떤 도전이 주어졌을 때, 그것을 물고늘어져서sticking to 역량을 추구하는 과정에서 학습하는 것임을 설명하고 모델링해야 한다. [결과보다는 과정에 초점을 맞추고, 우리가 지금 가르치는 자료를 배울 때 우리가 겪었던 어려움에 대해 열린 자세를 갖는 것]은, [단순히 열린 마음을 가지거나 좋은 사람이 됨으로써 성장 마인드가 표현된다는 신화]를 제거함으로써 학생들에게 도움이 될 수 있다.20

We can help foster a growth mindset in our students by explaining and modelling that a growth mindset is a lifelong activity that entails taking on challenges, sticking to those challenges and learning from them in the pursuit of competence, rather than simply modelling our own successful performance. Focusing on process rather than outcome and being open about struggles we had when learning material that we are now trying to teach can also help students by dispelling the myth that a growth mindset is represented simply by having an open mind or being a nice person.20


3.2. 기관

3.2 | Institutions


성찰적 실천을 드러내놓고 하는 기관은 해당 기관에서 일하고 배우는 개인들을 위한 learning orientation을 촉진할 수 있다.23,24 Klein 등은 비록 학교가 학생들에게 성장 마인드를 갖도록 가르칠 수 있지만 임상 환경의 문화가 경쟁적이고, 개개인이 주로 자신들의 performance를 더 가치있게 여긴다면, learning perspective를 서포트하는데서 올 수 있는 이득을 잃게 될 것이라고 제안했다.

Organisations that make reflective practice overt can promote a learning orientation for the individuals who work and learn in those institutions.23,24 Klein et al25 suggest that although schools can teach students to have a growth mindset orientation, if the culture of the clinical setting is competitive, with individuals primarily valued for their performances, any gains in supporting a learning perspective will be lost.


또한 주로 performance에 초점을 맞춘 설정은 학습 및 성과 지향성을 모두 갖춘 학생들 사이에서 더 나쁜 결과를 초래한다.26 학습 환경에서의 학생 발전은 일부 학습 환경이 아니라 전체적으로 명확하게 입증된 명시적 가치에 기초해야 한다고 문헌에 제시되어 있다.27, 28 기관 문화는 기관 내에서 '무엇이 행해지고, 어떻게 행해지고, 누가 그것을 하고 있는가'로 표현되는 가정, 신념, 가치의 총합이다.29

In addition, settings that are primarily focused on performance lead to poorer outcomes amongst those with both learning and performance orientations.26 The literature suggests that student development in learning settings needs to be based on explicit values that are clearly demonstrated in all, not some, learning environments.27, 28 Institutional culture is the sum total of the assumptions, beliefs and values as expressed by ‘what is done, how it is done, and who is doing it’ within an institution.29


문화에 영향을 미치기 위해서는 기관의 변화가 어떻게 일어나는지 고려하는 것이 도움이 된다. 이와 관련하여 Kotter의 1996년 모델은 지속적인 사용과 증거 축적을 입증하였다.32,33 변경에 대한 8단계 개요...

To influence culture it is helpful to consider how institutional change takes place. In this regard, Kotter's 1996 model has demonstrated sustained use and accumulation of evidence.32,33 The eight steps Kotter outlines for change are: 

    1. establish a sense of urgency, 

    2. form coalitions, 

    3. create a vision for change, 

    4. communicate that vision, 

    5. empower others to enact the vision, 

    6. plan for and create short-term wins, 

    7. consolidate improvements and 

    8. institutionalise new approaches.34 

비록 기관의 문화를 바꾸는 것이 어려울 수 있지만, 우리 기관이 학생들에게 주는 명시적이고 암묵적인 메시지를 탐구하는 것은 우리가 평가 앞에서 학습을 지원하는 변화 과정을 목적에 따라 만들고 관리하는 데 도움이 될 수 있다.35

Although it can be challenging to change the culture of an institution, exploring the explicit and tacit messages that our institution gives students may help us begin to purposefully create and manage a change process that supports learning in the face of our assessments.35


3.3. 교육과정

3.3 | Curriculum


future practice를 명시적으로 지원하는 커리큘럼이 현재의 학습을 지원한다.36 어떤 학교도 학생들에게 미래실습을 지원하지 않는 자료를 가르치고 있다고 주장하지는 않겠지만, 학생들은 현재의 학습과 미래의 과제 사이의 연관성을 깨달을 때 더 많은 학습 동기를 얻을 수 있다. 많은 동기적 이론들은 수행과제가 미래에 가지는 가치의 중요성을 지지한다.37 

A curriculum that explicitly supports future practice supports current learning.36 Although no school would claim they are teaching students material that does not support future practice, students can be further motivated to learn when they see the connection between current learning and future tasks. Many motivational theories support the importance of this future task value.37 


예를 들어 주관적 기대 가치 이론은 행동에 영향을 미치는 두 가지 주요 독립적 요소가 있다고 말한다: 즉 [성공의 기대치]와 [과제를 수행할 때 본질적인 가치가 있다고 인식하는 정도(과제 가치)].37 [현재 평가되고 있는 것이 미래의 practice을 지원할 것이라는 것을 학생들에게 증명하는 것]은 [단순히 현재의 성과를 우선시 하는 것]보다 [미래의 practice를 더 잘하기 위해서는 학습 과제에 더 참여해야 한다는 것]에 동기를 부여해줄 것이다.

For example, subjective expectancy-value theories identify two key independent factors that influence behaviour: the expectancy of success and the degree to which students perceive there to be intrinsic value in doing the task (task value).37 Demonstrating to students that what they are being assessed on now will support future practice may motivate students to more fully engage in learning those tasks to enable better future practice, rather than simply prioritising current performance.24


또한 assessment practice가 커리큘럼 계획을 보다 직접적으로 지원할 수 있는 방법을 찾으려면 [효과적인 학습 전략]과 [평가 관행] 사이의 juxtaposition에 대해 생각해 볼 가치가 있다. 던로스키 외 연구진은 최근 효과적인 교육 및 학습 기법으로 학생들의 학습을 향상시키는 방법을 개략적으로 설명했다. 이러한 기법은 interleaved and non-massed 학습에서부터 시험 연습에 이르기까지 다양하다. 바람직한 학습전략이 어떻게 assessment practice에 반영되어 그 전략이 가져오는 leaning affordance로부터 이득을 볼 수 있는지 고려하는 것이 중요하다. 이러한 교육 및 연구 기법은 배치 방법에 따라 성과나 학습을 지원할 수 있다는 점에 유의해야 한다.

It is also worth thinking about the juxtaposition between effective learning strategies and assessment practices to determine how the latter can more directly support curriculum planning. Dunlosky et al9 have recently outlined how to improve students’ learning with effective instructional and studying techniques. These techniques range from interleaved and nonmassed learning to practice testing. It is valuable to consider how these strategies could be embedded in assessment practices to take advantage of their learning affordances. It is important to note that these instructional and study techniques could support either performance or learning depending on how they are deployed.


3.4. 평가

3.4 | Assessment


테스트 강화 학습을 통해 더 나은 메모리를 지원하는 요인으로는 

    • 절한 간격의 반복적인 테스트, 

    • 생산 테스트 사용(단답, 빈칸 채우기, 에세이 등), 

    • 절한 타이밍에 맞는 피드백 제공 등이 있다.

Factors that support better memory through test-enhanced learning include 

    • repeated testing with appropriate spacing intervals, 

    • use of production tests (short-answer, fill-in-the-blank, essay, etc.) and 

    • the provision of feedback that is appropriately timed.40-42


이러한 특징을 이해하려면 이 분야가 [시험 강화 학습]이라는 용어가 아니라 이제는 보다 포괄적인 용어인 [리콜 강화 학습]으로 이동했다는 점을 유념해야 한다리콜에는 학생들이 (그들이 환자의 병을 진단하려고 할 때 또는 주치의가 제기하는 구두 질문이나 절차를 수행하라는 요청을 받은 경우43) 소그룹 문제 기반 환경에서 정보를 발표하는 시나리오가 포함될 수 있다. 즉, 이것들은 학습을 직접적으로 지원하는 공식 시험을 완료하는 행위는 아니다. 이것은 학습을 유도하는 니모닉 효과를 뒷받침하는 회상 행위이다.

To understand these features it is important to note that the field has moved away from using the term test-enhanced learning to the more encompassing term recall-enhanced learning. Recall can include scenarios in which students present information in a small group problem-based setting, when they seek to diagnose a patient's illness or when they are asked to perform a procedure or answer an oral question posed by an attending physician.43 In other words, it is not the act of completing a formal test that directly supports learning but the act of recall that supports the mnemonic effects driving this phenomenon.


리콜 강화 학습 효과를 최대한 활용하려면 리콜이 교육과정에 필수적인 다른 맥락도 고려해야 하며, 이러한 비공식 평가 상황이 학생들이 '테스트'에 참여할 수 있는 중요한 기회를 제공한다는 점을 인식해야 한다. 다만, Watling과 Ginsburg에 의해 식별된 한 가지 주의사항은 public assessment가 단순히 데이터 수집을 수반하는 것만은 아니라는 것이다. 이러한 평가는 복잡한 사회적 환경에 내재되어 있다. 내재된 사회적 요인이 요구하는 것은, 교육과정이 [다른 형태의 학습이나 학생 개발에 쏟는 시간은 없는, 그저 'recall mills'이 되지 않도록 주의]해야 한다는 점이다. 

To take full advantage of the recall-enhanced learning effect, we should also consider the other contexts in which recall is integral to our curriculum and recognise that these non-formal assessment settings provide important opportunities for students to engage in ‘testing’. One caveat, as identified by Watling and Ginsburg,5 is that public assessments do not just entail the collection of data; rather, these assessments are embedded in a complex social setting. Embedded social factors demand that we be careful that our programmes do not become ‘recall mills’ with little time spent on other forms of learning or attention to student development.


3.5. 피드백

3.5 | Feedback


블랙과 윌리엄스는 평가가 학습에 집중되도록 하기 위해서는 성적과 형성적 피드백을 명확히 구별해야 한다고 주장해왔다.44 이러한 구별을 넘어서 교육학과 심리학의 문제를 모두 고려한 형성적 평가 이론의 개발에 대한 요구가 있었다.44,45 최근 W.atling과 Ginsburg는 우리가 '성과performance의 문화보다는 개선improvement의 문화'를 육성하기를 원한다면 평가 목적을 명확히 할 필요가 있다고 언급했다.5

Black and Williams have argued that ensuring assessments are focused on learning requires a clearer distinction between grading students and providing formative feedback.44 Beyond this distinction, there have been calls for the development of formative assessment theory that takes into account issues of both pedagogy and psychology.44,45 Recently Watling and Ginsburg have noted the need for a clarity of assessment purpose if we wish to foster a ‘culture of improvement rather than a culture of performance’.5


개선 문화를 채택하기 위해서는 효과적인 피드백의 몇 가지 특징을 활용하는 것이 중요할 것이다.46-50 학습을 지원하는 피드백 실습은 매우 많으며, 여기에는 

    • 학습자를 압도하지 않기 위해 관리 가능한 단위로 정교한 피드백을 제시하고, 

    • 학습 과정 중 초보자나 어려움을 겪는 학생들에게 명확한 지침을 제공하며('힌트'는 명시적이고 지시적인 피드백만큼 도움이 되지 않을 수 있음), 

    • 그리고 타이밍 대한 관심이 포함된다. (어려운 작업에 대한 보다 즉각적인 피드백과 상대적으로 단순한 작업에 대한 지연된 피드백 포함).

To adopt a culture of improvement it will be important to utilise some features of effective feedback.46-50 Feedback practices that support learning are numerous, including: 

    • the presentation of elaborated feedback in manageable units in order not to overwhelm the learner; 

    • offering explicit guidance to novices or struggling students during the learning process (hints may not be as helpful as more explicit, directive feedback); and 

    • attention to timing (with more immediate feedback for difficult tasks and delayed feedback for relatively simple tasks).


또한 임상 환경에는 효과의 강력한 증거와 관련된 피드백 연습이 있다.48 

    • 절차(방법)의 측면에서, 피드백은 상품으로서가 아니라 대화로서 취급될 필요가 있음을 시사한다. 

    • 내용의 측면에서, 피드백은 개별 연습생에게 맞춤화되고, 잘 된 핵심 사항을 강화하고, 업무의 질을 향상시키기 위한 전략을 협력적으로 만들며, 자기 인식의 증가를 지원할 때 가장 효과적이다. 

    • 피드백은 연습자가 개선을 위한 전략을 수립할 수 있도록, actionable해야 할 뿐만 아니라, 실제로 작업이 어떻게 수행되었으며, 이상적으로는 어떻게 수행되어야하는지에 초점을 맞춰야 한다.

In addition, there are feedback practices in the clinical setting that are associated with strong evidence of effectiveness.48 

    • As a process, this literature suggests the need to treat feedback as a conversation rather than as a commodity. 

    • As content, feedback works best when tailored to the individual trainee, includes reinforcement of key points done well, involves collaborative generation of strategies to improve the quality of work, and supports increased selfawareness. 

    • Feedback should ideally focus on how the task was carried out and how that type of task should or might be carried out, as well as being actionable, enabling the trainee to construct strategies for improvement.


학생들이 학습 계획 수립에 적극 참여한다는 개념을 고려하여, Boud51은 평가 활동이 학생들이 그들의 미래 실습에서 자기평가를 수행할 수 있도록 지시되어야 한다고 제안한다. 일단 학습자들이 교육기관을 떠나게 되면, 학습자는 (바라건대) 자신이 유능한지, 전문적으로 행동하는지, 충분히 배려하는지, 동정심이 많은지를 궁금해(야) 할 것이다. 다시 말해, 우리는 피드백 전략을 생각함에 있어서, 피드백을 학생들이 자신이 (1)커뮤니티를 serve할만큼 충분한 지식/술기/태도를 갖췄는지, (2)부족한 점을 어떻게 보완할 것인지를 판단할 수 있는 접근법을 익히는 수단으로 바라보아야 한다.

Elaborating on the notion of students being active participants in the coconstruction of learning plans, Boud51 suggests that assessment activities should be directed in such a way as to enable students to undertake selfassessment in their future practice. Once our learners leave our institutions , they will (hopefully) be wondering if they are competent, if they are acting professionally, are caring enough and are being compassionate. In other words, we should think of our feedback strategies as a means through which to give stu-dents in our programmes the approaches to determine if they have the knowledge, skills and attitudes to serve the communities they are working in and to address any deficiencies they identify.52 



4 결론

4 | CONCLUSIONS


우리가 평가의 취지에 대해 더욱 명백해짐에 따라, 우리는 평가를 교육 과정의 통합된 부분으로 생각할 필요가 있다. 단지 교육의 다른 측면과 별도로 존재하는 것이 아니다. 평가를 통해 학습을 지원하려면 평가를 지원하고 커리큘럼의 지원을 받아야 한다.

As we become more explicit about the intent of our assessments, we need to think of our assessments as an integrated part of the curriculum and not just something we do after or separately from other aspects of instruction. Assessment needs to support and be supported by the curriculum if we wish assessment to support learning.


우리는 우리의 평가, 피드백 그리고 심지어 코칭까지 [학생의 발전, 제도적 문화와 커리큘럼 디자인에 맞추어] 디자인하는 것에 대해 생각하기 시작할 필요가 있다. 또한 우리는 학습자의 궁극적인 practice도 고려해야 한다.

We, therefore, need to start thinking about designing our assessments, feedback and even coaching in tandem with student development, institutional culture and curriculum design, as well as looking forward to our learners’ ultimate practices.


McGaghie는 묻고 대답한다. '... 모든 수련생들 사이에서 최대의 학습 성과를 내는 교육 환경을 어떻게 설계해야 할까? 정답은... [모든 학습자들 사이에서 숙달 수준의 성취를 촉진하는] 커리큘럼과 평가 계획을 만드는 것이다. .57 이러한 고려사항들은 우리가 우리의 평가를 계획하고, 개발하고, 적용하고 해석하는 방법에 복잡성을 가중시키지만 그러한 고려사항들은 우리 학생들과 더 중요한 우리 환자들의 미래에 필수적이다. 

McGaghie asks and answers, ‘… how shall we design an educational environment that produces maximum learning outcomes among all trainees? The answer is to create … a curriculum and assessment plan—that promotes mastery level achievement among all learners’.57 These considerations add complexity to the ways we plan, develop, apply and interpret our assessments but such considerations are vital to the future of our students and more importantly our patients.


평가가 학습을 촉진하는가? 그래, 할 수 있지만, 오직 우리의 학습자들, 우리의 기관, 교육과정과 적절한 평가와 피드백 사용을 통해서만 그러하다. 이러한 적극적이고 의도적인 참여를 통해, 우리는 학생들을 성과performance보다는 학습learning을 향해 drive할 것이다.

Does assessment drive learning? Yes, it can, but only through active and purposeful engagement with our learners, our institutions, our curriculum and the appropriate use of assessments and feed-back. Through this active and purposeful engagement, we will be more likely to ride with our students towards learning rather than drive our students towards performance. 


57. McGaghie WC. Mastery learning: it is time for medical education to join the 21st century. Acad Med 2015;90(11):1438-1441.





 2019 Aug 26. doi: 10.1111/medu.13935. [Epub ahead of print]

Beyond 'driving': The relationship between assessmentperformance and learning.

Author information

1
Centre for Health Education Scholarship, The University of British Columbia, Vancouver, British Columbia, Canada.

Abstract

OBJECTIVE:

Is the statement 'assessment drives learning' a myth?

BACKGROUND:

Instructors create assessments and students respond to these assessments. Although such responses are often labelled indications of learning, the responses educators observe can also be considered a performance. When responses are aligned with generating stable changes, then assessment drives learning. When responses are not aligned with stable changes, we must consider them to be something else: a performance put on partially or fully for the sake of implying capability rather than actual learning. The alignment between the assessments educators create and the way students respond to these assessments is determined by the actions students take in our curriculum, in preparation for our assessments and after engaging with our assessments.

CONCLUSIONS:

Not all assessments need to or should support learning, but when we assume all assessments 'drive learning', we endorse the myth that assessment is necessarily a formative aspect of our curricula. When we create assessments that encourage performance activities such as cramming, competing for tutorial airtime and impression management in the clinical setting we drive students to a performance. By thinking about how our students, institutions, curricula and assessments support learning and how well they support performance, we can modify and more fully align our curricular and assessment efforts to support learners in achieving their (and our) desired outcome. So, is the phrase 'assessment drives learning' a myth? This paper will conclude that it often is but we as educators must, through our leadership, move this myth towards a reality.


직접 관찰과 평가를 정렬하기(Med Educ, 2019)

Aligning direct observation and assessment

Stephen Gauthier




평가는 역량 기반 의료 교육(CBME)에서 학습과 평가를 추진하는 엔진이다. 직접 관찰은 그 엔진에 동력을 주는 연료. 직접 관찰에 기반한 강력한 평가 프로그램 작성에 대한 책임은 결국 바쁜 최전방 임상의들의 어깨에 있다. 그 결과, 임상 실습에서 자연스럽게 발생하는 감독자의 관찰을 활용하는 것이 중요하다.

Assessment is the engine that drives learning and evaluation in competency-based medical education (CBME). Direct observation is the fuel that powers that engine. Responsibility for the creation of a strong programme of assessment based on direct observation ultimately falls on the shoulders of busy frontline clinicians. As a result, it is important to capitalise on supervisors’ observations that occur naturally in clinical practice.


의료 훈련의 구조에 짜여들어가있는woven into 그러한 기회 중 하나는 감독자에게 임상 사례를 발표하는 관행이다. 구두사례 발표는 연습생과 감독자가 환자 진료를 안내하는 정보를 검토하는 귀중한 순간을 나타낸다. 그것들은 모든 분야의 일일 작업흐름에 포함된다. 그러나 구두사례 프리젠테이션이 널리 보급되었음에도 불구하고 평가 툴로서 어떻게 효과적으로 사용될 수 있는지 명확하지 않기 때문에 평가에 활용도가 낮다.12 이 점에서 중요한 단계는 구두사례 프리젠테이션을 사용하여 어떤 기술을 평가해야 하고 평가해서는 안 되는지를 이해하는 것이다.

One such opportunity woven into the fabric of medical training is the practice of presenting a clinical case to a supervisor. Oral case presentations represent valuable moments in which the trainee and supervisor review information that guides patient care. They are embedded in the daily workflow of all disciplines. Despite their prevalence, however, oral case presentations are underutilised for assessment because it is unclear how they can be used effectively as assessment tools.1,2 A critical step forward in this regard is to understand which skills should and should not be assessed using oral case presentations.


스켈리 외 연구진.3은 레지던트 환자가 마주치는 동안의 의사소통을 후속 구두사례 설명과 비교하여 이러한 이해에 기여한다.

Skelly et al.3 contribute to this understanding by comparing communication during resident– patient encounters with subsequent oral case presentations.


환자의 만남과 사례 제시 사이에 의료 콘텐츠의 상당 부분이 일치했지만, 의사소통에서는 해당되지 않았다(일치도가 낮았다). 스켈리 외 연구진은 레지던트가 환자의 만남 동안 중요한 의사소통 기술을 지속적으로 보여주지 못했으며 구두사례 발표 중 감독자들에게 의사소통의 질에 대해서는 전달되지 않았다는 사실을 발견했다.3 게다가, 감독관들은 기본적인 의사소통 문제를 제안하는 'cues'에 거의 반응하지 않았다. 저자들은 이러한 문제들을 다루기 위해 좀 더 직접적인 관찰을 요구한다.

Whereas much of the medical content was congruent between the patient encounter and case presentation, this was not true for communication. Skelly et al. found that residents consistently failed to demonstrate important communication skills during the patient encounter and that communication quality was not conveyed to supervisors during oral case presentations.3 Furthermore, supervisors rarely responded to ‘cues’, which suggested underlying communication issues. The authors call for more direct observation to address these issues.


스켈리 외 연구진의 연구결과3 CBME의 확립된 평가 이론과 일치한다. 어떤 역량을 평가하기 위해 대리proxy지표(이 경우 구술 사례 발표)를 사용하는 것은 문제가 있다. 레지던트-환자 상호 작용을 관찰하는 것은 밀러의 피라미드 최고 수준에 있는 의사소통에 대한 평가를 가능하게 한다. 평가의 '편의성'을 위하여 다른 전략을 사용하려는 유혹이 많겠지만, 다른 방식으로 'doing'에 대한 평가를 한다는 것은 불가능하다.

Skelly et al.’s findings3 align with established theories of assessment in CBME. Using a proxy (in this case the oral case presentation) to assess any given competency is problematic. Observing resident– patient interaction directly provides an assessment of communication at the highest level of Miller’s pyramid – assessing a trainee ‘doing’4 – that cannot be achieved in other ways despite the temptation to use other strategies for the sake of convenience.


어떤 형태의 평가도 평가 프로그램으로 우리가 달성해야 할 모든 목표를 달성할 수 없다. 따라서, '어떤 기술이 어떤 순간에 관찰될 수 있는지'에 대한 세심한 고려가 필요하다. 이를 위해 '직접 관찰'이라는 개념을 좁게 구상해서는 안 된다. 직접 관찰에는 단순히 [수련자가 환자와 상호작용하는 상황을 관찰하는 상황]을 넘어서, [감독자가 연습자가 임상 과제를 완료하는 것을 지켜보는 상황]도 포함될 수 있다.

no one form of assessment can achieve every goal we need to fulfil with our assessment programme, a conclusion that necessitates the careful consideration of which skills can be observed at which moments. To this end, the notion of ‘direct observation’ should not be conceived narrowly. Direct observation can include any situation in which a supervisor watches a trainee complete a clinical task rather than simply a situation in which a trainee is watched while interacting with a patient.


본질적으로, [연습생-환자 조우에 대한 '직접 관찰']이 [구술 사례 발표]와 비교하여 연습생의 능력에 대해 반드시 더 나은 평가를 제공하는 것은 아니다. 오히려 이 둘은 서로 다른 평가를 가능하게 하며, 각 도구는 서로 다른 기술을 관찰할 수 있는 잠재력을 가지고 있다.

In essence, it is not that ‘direct observation’ of a trainee–patient encounter necessarily offers a better assessment of the trainee’s competence relative to the oral case presentation. Rather, it offers a different assessment and each tool has the potential to enable the observation of different skills.


즉, 스켈리 외 연구진이 구두사례 프리젠테이션에 의해 제공되는 간접적인 수단을 통해 의사소통능력을 평가할 수 없다는 사실을 경고하지만, 직접 관찰의 정의를 확대한다면, [임상 추론]은 구두사례 발표에서 (밀러의 피라미드 최고 수준인) '직접 관찰'이 가능하다고 볼 수 있다. 환자와의 상호 작용과 달리, 구두사례 발표는 감독자가 자신의 임상 추론에 대한 보다 광범위한 평가를 용이하게 하기 위해 탐색 질문을 하고 연습생과 체계적인 대화를 할 수 있도록 한다.5

In other words, although Skelly et al.3 alert us to the fact that communication skills may not be assessable through the indirect means provided by oral case presentations, broadening the definition of direct observation may make it such that clinical reasoning is more ‘directly observed’ at the highest level of Miller’s pyramid in the oral case presentation. Unlike an interaction with a patient, an oral case presentation allows the supervisor to ask probing questions and to engage in structured dialogue with the trainee to facilitate a more extensive assessment of his or her clinical reasoning.5


구두사례발표가 커뮤니케이션 스킬을 정확히 보여주지 못하는 것과 마찬가지로, [레지던트가 작성한 퇴원 요약서를 읽는 것]은 퇴원 과정에서 bedside에서 발생한 상호작용의 퀄리티에 대해서 정확히 보여주지 못하는 proxy method일 수 있다그러나, 퇴원 요약서를 검토함으로써 판단할 수 있는 귀중한 기술이 있다. 예를 들어 퇴원 요약서는 

  • 의료 제공자와 의사소통하는 능력, 

  • 퇴원 계획을 수립하는 능력, 

  • 안전한 transitions of care를 구현할 수 있는 능력

...에 대해 더 '직접 관찰'을 제공할 가능성이 높다.

Reading a discharge summary written by a resident offers a proxy method of assessing the discharge process that may not be an accurate representation of the quality of the discharge interaction that takes place at the bedside, much as oral case presentations do not accurately convey communication skills. However, there are valuable skills to be demonstrated, insight into which might be gleaned by reviewing discharge summaries. Discharge summaries, for example, are likely to provide more ‘direct observation’ of a trainee’s ability to communicate with health care providers, formulate discharge plans and implement safe transitions of care.


평가해야 할 기술에 따라서는, 아래의 것들이 직접 관찰의 기회 또는 proxy라고 볼 수 있다.

  • 소생 후의 보고, 

  • 컨설턴트에게 제공받은 정보의 전달 

  • 프로시져 노트 문서화

...가 포함된다. 

Other activities that can be viewed as either proxies or opportunities for direct observation according to the skill that needs to be assessed include 

  • debriefing following a resuscitation, 

  • relaying information provided by a consultant and 

  • documenting procedure notes. 

위 활동 중 수련생-환자 조우에 대한 직접적인 관찰을 수반하는 것은 없지만, 그것들은 가치 있는 역량에 대한 보다 직접적인 관찰을 통해 entrustment decision에 도움이 된다.2,7 감독관은 주어진 활동을 관찰할 때 평가해야 할 것을 의도적으로 선택하기 위해 이러한 구별을 이해해야 한다.

None of these activities involve direct observation of a trainee– patient encounter, but they can inform entrustment decisions through more direct observation of valued competencies.2,7 Supervisors must understand this distinction in order to deliberately choose what to assess when observing any given activity.


요컨대, 스켈리 외 연구진은 우리에게 구두 사례 발표가 의사소통 능력을 평가하는데 부적합하다는 것을 보여준다. 그러나 focused and deliberate하게 사용한다면 충분한 가치를 제공할 수 있다는 점에서, 구두사례발표가 쓸모 없거나 형편없는 평가 수단이라는 것을 의미하지는 않는다. 특정 기술을 직접 관찰하기 위한 도구로 구술 사례 프레젠테이션을 수용하면 '우리가 하고 있는 것do과 측정하는 것measure을 정렬'할 수 있다.8 감독자가 무엇을 관찰는지도 중요하지만, 더 중요한 것은 관찰하는 동안 무엇을 평가하는지이다.

In sum, Skelly et al.3 show us that oral case presentations are inadequate for assessing communication skills. However, this does not imply that they are useless or poor means of assessment given that they can provide value when used in focused and deliberate ways. Perceiving oral case presentations as tools to directly observe specific skills allows for an opportunity to ‘[align] what we measure with what we do’.8 What supervisors observe matters, but what they assess while observing matters more.






 2019 Jul;53(7):642-644. doi: 10.1111/medu.13903. Epub 2019 May 20.

Aligning direct observation and assessment.

Author information

1
Division of General Internal Medicine, Department of Medicine, School of Medicine, Queen's University, Kingston, Ontario, Canada.
PMID:
 
31106882
 
DOI:
 
10.1111/medu.13903


시뮬레이션 기반 평가에서 체크리스트와 전반적평가(GRS)의 타당도근거에 대한 체계적 문헌고찰(Med Educ, 2015)

A systematic review of validity evidence for checklists versus global rating scales in simulation-based assessment

Jonathan S Ilgen,1 Irene W Y Ma,2 Rose Hatala3 & David A Cook4,5




도입

INTRODUCTION


건강 전문가 교육에서 평가 시 체크리스트와 글로벌 등급 척도(GRS)가 자주 사용되며, 이 두 종류의 도구의 상대적 장단점이 오랫동안 논의되어 왔다.1–4 

  • 체크리스트는 평가자에게 직접 관찰 가능한 조치의 수행이나 누락에 대해 입증하도록 유도하는 반면, 

  • GRS는 일반적으로 평가자에게 참가자의 전체적인 성과를 판단하거나 하위 작업에서 수행에 대한 세계적인 인상을 제공하도록 요구한다. 

  • 크리스트는 사용하기에 비교적 직관적이며, 특히 당면한 임상 작업에 익숙하지 않은 평가자의 경우 관찰 가능한 행동에 대한 단계별 개요와 형태적 피드백을 위한 지침을 제공한다.5

Checklists and global rating scales (GRSs) are frequently used in assessment in health professional education, and the relative advantages and disadvantages of these two types of tool have long been debated.1–4 Checklists prompt raters to attest to the performance or omission of directly observable actions, whereas GRSs typically asks raters to judge participants’ overall performance or to provide global impressions of performance on sub-tasks. Checklists are relatively intuitive to use and – especially for raters who are less familiar with the clinical task at hand – provide step-by-step outlines for observable behaviours and guidance for formative feedback.5


체크리스트가 더 '객관적인' 측정 프레임의 매력을 제공하지만, 증거는 이 형식이 반드시 더 높은 타당성이나 신뢰성을 부여하지는 않을 수 있음을 시사한다.6,7 평가자에게 등급을 이분화하도록 요구함으로써, 체크리스트는 정보의 손실을 초래할 수 있으며,1,8 체크리스트 형식은 임상 역량을 더 정확하게 반영하는 행동action을 댓가로 그 철저함을 보상받을 수도 있다.

Although checklists offer the allure of a more ‘objective’ frame of measurement, evidence suggests that this format may not necessarily confer greater validity or reliability.6,7 By requiring raters to dichotomise ratings, checklists may result in a loss of information,1,8 and this format may reward thoroughness at the expense of actions that more accurately reflect clinical competence.6,9,10


이와는 대조적으로, 비록 GRS를 정확히 사용하려면 주관적인 판단과 의사결정을 필요로 하지만, GRS는 체크리스트와는 전문성의 수준 차이를 더 민감하게 감지하는 것으로 나타났다.11 .12 이러한 주관성이 가치를 가질 가능성이 있지만, 평가의 신뢰성과 정확성은 평가자의 특성에 따라 달라질 수 있다. 평가자의 특성에는 척도에 대한 익숙도, 임상 전문지식, 개인적 특이성, 과제의 복잡성과 같은 것이 있으며, 일부는 고부담 평가 환경에서 GRS의 defensibility에 의문을 제기한다.15–17

By contrast, GRSs have been shown to detect differing levels of expertise more sensitively than the checklist,11 although the rendering of accurate global impressions requires subjective rater judgement and decision making.12 While this subjectivity is likely to have value,13,14 the reliability and accuracy of assessments may be dependent upon rater characteristics, such as familiarity with the scale, clinical expertise, training and personal idiosyncrasies, and on the complexity of the task, which leads some to question the defensibility of expert global impressions in high-stakes assessment settings.15–17



연구질문

Research questions


  • 1 체크리스트 점수와 비교하여 전지구적 등급의 계층간, 항목간 및 계간 신뢰도는 무엇인가?

1 What are the inter-rater, inter-item and inter-station reliabilities of global ratings in comparison with checklist scores?

  • 2 글로벌 등급과 체크리스트 점수는 얼마나 잘 연관되어 있는가?

2 How well do global ratings and checklist scores correlate?

  • 3 글로벌 등급 및 체크리스트 점수에 대해 보고된 유효성 증거는 무엇인가?

3 What validity evidence has been reported for global ratings and checklist scores?


방법

METHODS


본 검토는 체계적인 검토를 위한 품질의 PRISMA(체계적 검토 및 메타 분석 시 선호되는 보고 항목) 표준을 준수하여 계획 및 수행하였다.23

We planned and conducted this review in adherence to the PRISMA (preferred reporting items for systematic reviews and meta-analyses) standards of quality for reporting systematic reviews.23


Study eligibility


우리는 테크놀로지-향상 시뮬레이션을 '학습자가 교육이나 평가를 목적으로 임상 치료의 한 측면을 모방하기 위해 물리적으로 상호 작용하는 교육 도구 또는 장치'로 정의했다. 여기에는 고충실성 및 저충실성 마니킨, 파트타스크 트레이너, 가상현실(비표준 컴퓨터 장비가 필요한 컴퓨터 시뮬레이션 포함), 동물 모델 및 교수 목적으로 사용되는 인간 사체모형이 포함된다.'24

we defined technology-enhanced simulation as an: ‘educational tool or device with which the learner physically interacts to mimic an aspect of clinical care for the purpose of teaching or assessment. This includes (but is not limited to) highfidelity and low-fidelity manikins, part-task trainers, virtual reality (including any computer simulation that requires non-standard computer equipment), animal models, and human cadaveric models used for teaching purposes.’24


    • 체크리스트를 이분법적 대응 형식과 두 개 이상의 항목을 가진 계측기로 정의하고, 단일 체크리스트 항목(즉, 전체 패스/실패에 한함)으로 연구를 제외했다. 

    • GRS를 항목당 2개 이상의 응답 옵션을 가진 계측기로 정의했다. 이러한 척도는 전반적판단을 허용하도록 설계되었기 때문에 단일 항목 종합 GRS(즉, '글로벌 인상에 대한 요구 사항')를 포함시켰다.

We defined checklists as instruments with a dichotomous response format and more than one item; we excluded studies with only a single checklist item (i.e. an overall pass/fail only). We defined GRSs as instruments with more than two response options per item. Because these scales have been designed to allow global judgements, we included single-item summative GRSs (i.e. those that ask for a ‘global impression’).



Study identification and selection


Data extraction


Data analysis



결과

RESULTS


시험 흐름은 부록 S2 (온라인)에 나타나 있다. 잠재적으로 관련성이 있는 11628개의 논문에서, 우리는 1819명의 훈련생들의 데이터를 반영하여 GRS와 체크리스트를 사용하여 동일한 구조를 측정했던 45개를 식별했다(중간: 연구당 27명의 훈련생들, [IQR]: 20–55). 표 1은 포함된 연구의 주요 특징을 요약한다.

Trial flow is shown in Appendix S2 (online). From 11 628 potentially relevant articles, we identified 45 that used a GRS and a checklist to measure the same construct, reflecting data from 1819 trainees (median: 27 trainees per study; interquartile range [IQR]: 20–55). Table 1 summarises the key features of the included studies.


척도 특징

Scale characteristics


평가의 임상 영역에는 개방수술(n = 18) 및 최소침습수술(n = 5) , 내시경(n = 8), 소생(n = 7), 항체생리학(n = 4) 및 소생과 수술에 대한 비기술적 기술(n = 3)이 포함되었다(표 1). 보고서의 약 2/3(GRS, n = 27, 체크리스트, n = 29)는 척도의 예를 포함하거나 복제가 가능하도록 충분한 설명을 제공했다. 항목 번호가 보고된 연구 중 GRS(n = 43)는 평균 6개 항목(중간: 7개, 범위: 1–13)을 포함했으며, 체크리스트(n = 35개)는 평균 19개 항목(중간: 17; 범위: 3–49)을 포함했다.

The clinical areas of assessment included open (n = 18) and minimally invasive (n = 5) surgery, endoscopy (n = 8), resuscitation (n = 7), anaesthesiology (n = 4), and non-technical skills for both resuscitation and surgery (n = 3) (Table 1). About two-thirds of the reports (GRS, n = 27; checklist, n = 29) included examples of their scales or provided sufficient description to allow their replication. Among studies in which item numbers were reported, GRSs (n = 43) contained an average of six items (median: seven; range: 1–13), and checklists (n = 35) contained an average of 19 items (median: 17; range: 3–49).


40개의 연구는 가장 보편적으로 GRS 앵커에 대한 설명을 제공했다. 가장 흔한 것은 행동적(즉, 직접 관측 가능한 조치, n = 23)인 것이었고, 다른 것으로는 숙련도(즉, 특정 행동을 개략적으로 설명하지 않고 '높음'에서 '낮음'까지), 리커트 규모 기반 앵커(즉, '부동의'에서 '동의'까지), 전문가/중간/초보자(n = 1), 시각 아날로그 척도(n = 3)(일부 연구에서는 여러 앵커 유형을 사용하기도 함)등이 있었다. 13개의 연구에서는 OSATS GRS29 또는 매우 약간 수정하는 것을 사용하였고, 또 다른 14개의 연구에서는 OSATS를 새로운 계측기의 출발점으로 사용하였다.

Forty studies provided descriptions of GRS anchors, which were most commonly behavioural (i.e. directly observable actions, n = 23); other anchors included proficiency (i.e. ranging from ‘high’ to ‘low’ performance without outlining specific behaviours, n = 10), Likert scale-based anchors (i.e. ranging from ‘disagree’ to ‘agree’, n = 5), expert/intermediate/novice performance (n = 1), and visual analogue scales (n = 3) (some studies used multiple anchor types). Thirteen studies used the OSATS GRS29 or very slight modifications of it, and another 14 studies used the OSATS as the starting point for a new instrument.



평가자 특징

Rater characteristics and procedures


포함된 연구의 평가자는 일반적으로 의사였다(n = 34). 다른 의료전문가(간호사, 응급의료기술자, 호흡기 치료사 등)를 채용한 5개 연구와 11개 연구에서는 래더의 배경을 명확하게 기술하지 않았다. 작가들은 일반적으로 평가되는 임상 영역에서 이러한 개인의 전문지식을 설명함으로써 자신의 연구자 선택을 정당화했다.

Raters in the included studies were typically physicians (n = 34). Five studies employed other medical professionals (such as nurses, emergency medical technicians and respiratory therapists), and 11 studies did not clearly describe the backgrounds of raters. Authors typically justified their rater selection by describing these individuals’ expertise in the clinical area being assessed.


포함된 연구의 절반 미만이 연구 대상 척도에 대한 평가자 훈련을 기술했으며(GRS, n = 21, 체크리스트, n = 22), 래터 훈련 결과의 증거를 제공한 연구는 거의 없었다(GRS, n = 2, 체크리스트, n = 1). 다섯 가지 연구는 GRS에 체크리스트와 다른 수준의 교육을 제공했다. 연구 대상 도구의 특정 훈련이 보고되지 않은 연구(GRS, n = 24, 체크리스트, n = 23) 중 일부는 자신의 래더가 훈련 경험에 대한 추가 설명 없이 '경험'(GRS, n = 4; 체크리스트, n = 3)이라고 보고했다.

Fewer than half of the included studies described rater training for the scale under study (GRS, n = 21; checklist, n = 22), and few provided evidence of rater training outcomes (GRS, n = 2; checklist, n = 1). Five studies provided different degrees of rater training for GRSs than for checklists. Among the studies in which no specific training in the tool under study was reported (GRS, n = 24; checklist, n = 23), a few reported that their raters were ‘experienced’ (GRS, n = 4; checklist, n = 3) without further explanation of training experience.


45개 연구 중 39개에서 GRS와 체크리스트는 동일한 평가자에 의해 완료되었다. 평가의 약 절반은 실제 수행상황(GRS, n = 22, 체크리스트, n = 22)에서 이루어졌고, 나머지 평가는 비디오(GRS, n = 24, 체크리스트, n = 24)를 사용하여 소급 수행되었다. 한 연구는 라이브 리뷰와 비디오 리뷰를 모두 사용했다.37

The GRS and checklist were completed by the same rater in 39 of the 45 studies. About half of the ratings were performed live (GRS, n = 22; checklist, n = 22), and the remaining ratings were performed retrospectively using video (GRS, n = 24; checklist, n = 24); one study used both live and video reviews.37


도구 간 상관관계

Correlation between instruments


그림 S1(온라인)은 이러한 분석을 이용할 수 있었던 16개 연구에서 GRS와 체크리스트 사이의 상관 계수의 메타 분석을 요약한다. 풀링된 상관관계는 중간 수준(r = 0.76, 95% 신뢰 구간[CI] 0.69–0.81)이었으며, 연구 간 불일치가 컸다(I2 = 71%)

Figure S1 (online) summarises the meta-analysis of correlation coefficients between GRSs and checklistsin the 16 studies in which these analyses were available. The pooled correlation was moderate  (r = 0.76, 95% confidence interval [CI] 0.69–0.81), with large inconsistency between studies (I2 = 71%).


신뢰도 근거

Reliability evidence


대부분의 연구(표 1)는 어떤 형태로든 신뢰성(GRS, n = 33, 체크리스트, n = 33)을 제공했지만, 재현성을 평가하기 위해 일반화가능도 분석을 사용한 연구는 8개뿐이었다. 27개 GRS 및 27개 체크리스트 연구에서 평가자간신뢰성이 보고되었다. 몇 가지 연구(GRS, n = 6; 체크리스트, n = 5)는 IRR을 계산하기 위해 크론바흐의 알파(Alpha)를 사용했다. 우리는 분석 전에 그것들을 단일 계수로 조정했다. 풀링된 분석(그림 S2, 온라인)은 두 GRS(풀링된 IRR 0.78, 95% CI 0.71–0.83, I2 = 78%)와 체크리스트(풀링된 IRR 0.81, 95% CI 0.75–0.85; I2 = 74%)에 대해 상당한 평균 신뢰성과 높은 불일치를 보여주었다.

Most studies (Table 1) provided some form of reliability (GRS, n = 33; checklist, n = 33), but only eight studies used generalisability analyses to evaluate reproducibility. Inter-rater reliability was reported in 27 GRS and 27 checklist studies. Several studies (GRS, n = 6; checklist, n = 5) used Cronbach’s alpha to calculate IRR; we adjusted these to a single rater before analysis. Pooled analyses (Fig. S2, online) demonstrated substantial mean inter-rater reliabilities and high inconsistency for both GRSs (pooled IRR 0.78, 95% CI 0.71–0.83; I2 = 78%) and checklists (pooled IRR 0.81, 95% CI 0.75–0.85; I2 = 74%).


민감도 분석

Sensitivity analyses


우리는 특정한 척도나 연구 특성이 우리의 연구 결과에 편향을 줄 수 있다고 생각하는 몇 가지 환경에서 민감도 분석을 수행했다. 

    • 첫째, OSATS GRS(연구의 거의 3분의 1에 사용)가 우리의 결과를 지배하지 않도록 하기 위해, 13개의 OSATS 연구를 제외한 후 민감도 분석을 실시했다. 

    • 둘째, 다중 항목과 단일 항목 GRS가 유사한 성능 특성을 갖도록 하기 위해 단일 항목 GRS를 사용한 연구를 제외한 민감도 분석을 수행했다. 

    • 세 번째로, 더 많은 스테이션과 각 스테이션에서 새로운 점검표를 사용한 연구가 체크리스트에 대한 신뢰성 데이터를 감소시킬 수 있다는 우려를 해결하기 위해, 우리는 3개 이상의 스테이션을 가진 연구에 국한된 민감도 분석을 수행했다. 

    • 마지막으로, 여러 보고서에서 저자들은 분석이 항목 간 또는 계통간 신뢰도를 반영하는지 여부를 명확히 밝히지 않았다(GRS, n = 3; 체크리스트, n = 4). 상황적 단서는 위에서 설명한 메타 분석에 충분한 잠정적 분류를 지원했지만 모호한 연구를 제외한 민감도 분석도 수행했다. 

모든 민감도 분석의 경우, 결과는 주요 분석과 유사했다(데이터가 표시되지 않음).

We conducted sensitivity analyses in several settings in which we felt that particular scale or study characteristics might bias our findings.

    • Firstly, to ensure that the OSATS GRS (which was used in nearly a third of the studies) did not dominate our results, we conducted post hoc sensitivity analyses excluding the 13 OSATS studies. 

    • Secondly, to ensure that multi-item and single-item GRSs had similar performance characteristics, we performed sensitivity analyses excluding studies with a single-item GRS. 

    • Thirdly, to address the concern that studies with more stations and with novel checklists for each station would reduce the reliability data for checklists, we conducted sensitivity analyses limited to studies with three or more stations. 

    • Lastly, in several reports, authors did not clearly state whether analyses reflected inter-item or inter-station reliability (GRS, n = 3; checklist, n = 4). Contextual clues supported provisional classifications sufficient for the meta-analysis described above, but we also conducted sensitivity analyses excluding the ambiguous studies. 

For all sensitivity analyses, the results were similar to the main analyses (data not shown).


기타 타당도 근거

Other validity evidence


표 1은 포함된 연구에 대한 나머지 타당성 증거를 요약한다. 대부분의 기사는 내용 타당도 증거(GRS, n = 38, 체크리스트, n = 41)를 제공했다.

    • GRS의 경우 이전에 보고된 도구(n = 18), 이전에 발표된 도구의 수정(n = 15) 또는 전문가 합의(n = 8)의 형태로 가장 많이 나타났으며, 

    • 체크리스트의 경우 전문가들 간의 합의(n = 26) 및 기존 도구를 수정해서 사용했다는 것(n = 16)이 가장 일반적으로 인용되었다.

Table 1 summarises the remaining validity evidence for the included studies. Most articles provided evidence of content validity (GRS, n = 38; checklist, n = 41); for GRSs, this most commonly appeared in the form of previously reported instruments (n = 18), modifications of previously published instruments (n = 15), or expert consensus (n = 8), whereas for checklists, consensus among experts (n = 26) and modifications of prior instruments (n = 16) were most commonly cited.


고찰

DISCUSSION


우리는 GRS와 체크리스트 점수 사이의 중간정도의 상관관계를 발견했고, 평균적으로 58%의 차이variance를 설명했다. 두 척도 유형에 대한 평가자간 신뢰도는 유사하게 높았지만, 항목간 및 스테이션간 신뢰도는 GRS를 선호했다. 

내용 타당도 증거는 일반적으로 보고되었지만 GRS는 이전 연구를 언급했고 체크리스트는 전문가 의견을 언급했다는 점에 차이가 있었다. 다른 변수와의 관계에 대한 증거는 대개 두 척도 모두에서 유사했으며, GRS를 덜 선호했으며, 거의 선호하지 않았다. 대응 과정이나 결과에 대한 증거는 두 가지 척도에 모두 부족했다. 소수의 연구에서는 평가자훈련이 보고되었고, 훈련결과를 제공하는 연구는 거의 없었다.

We found moderate correlations between GRS and checklist scores, explaining on average 58% of the variance. Inter-rater reliabilities for both scale types were similarly high, whereas inter-item and inter-station reliabilities favoured the GRS. Content validity evidence was reported commonly but differed between the two scales, with GRSs referencing prior studies and checklists invoking expert opinion. Evidence for relations to other variables was usually similar for both scales, less often favoured GRSs, and rarely favoured checklists. Evidence for response process or consequences was lacking for both scales. A minority of studies reported rater training and very few provided training outcomes.


기존 연구와 통합

Integration with prior work


체크리스트에 대한 평가자간 신뢰도는 과거 조사에서 발견된 것보다 더 높았고, 체크리스트가 '매우 낮은 신뢰도에도 불구하고 객관성의 환상'을 제공한다는 기존의 일반적 결과와 반대되는 것이다. .7 우리의 체계적인 접근방식과 큰 표본 크기가 이전에 가능했던 것보다 더 강력한 분석을 허용한다고 생각할 수 있다. 이러한 높은 평가자간 신뢰성에 대한 대안적 설명은 다음과 같다. 

    • (i) 테크니컬 스킬은 의사소통 역량과 같이 정의가 덜 명확한 역량보다 더 재현 가능한 측정에 도움이 될 수 있음;38 

    • (ii) 의사 평가자가 퍼포먼스 목표에 대한 공통의 관점을 공유했을 수 있음, 

    • (iii) 다양한 수련 단계를 대표하기 위하여 의도적으로 선택된 결과 연구참여자의 이질성이 높았고, 그 결과 수행능력의 범위가 더 넓어져서wider range, 평가자가 수행능력 변동variation을 찾아내기 더 쉬워지고, 이것이 더 높은 신뢰도를 가져왔을 수 있다. 

The inter-rater reliabilities for checklists were higher than those found in past investigations38 and challenge past generalisations that checklists offer ‘the illusion of objectivity...with very little reliability’.7 It is conceivable that our systematic approach and large sample size permitted analyses more robust than those previously possible. Alternative explanations for these high inter-rater reliabilities include: 

    • (i) technical skills may lend themselves to more reproducible measurements than less well-defined competencies such as communication;38 

    • (ii) physician raters may have shared a common view of performance targets, and 

    • (iii) heterogeneity among study participants who were deliberately selected to represent different training levels may lead to artefactually high overall reliability attributable to a wider range of performance variation that was easier for raters to identify.39


물론, 도구 특이적 평가자 훈련이 명백히 부족함에도 불구하고, 두 척도 유형 모두에 대해 이러한 높은 평가자간 신뢰도를 발견했으며, 이는 평가자 교육의 중요성을 옹호하는 문헌과 모순된다.

Of note, we found these high inter-rater reliabilities for both scale types despite an apparent paucity of instrument-specific rater training, contradicting, in part, literature advocating the importance of rater training.16,40–42


문항간 신뢰성에 대한 우리의 연구 결과는 OSCE의 최근 검토 결과와 유사하지만, 스테이션간 신뢰성은 체크리스트의 경우 유사하지만 GRS의 경우에는 더 낮았다.18 이러한 차이점은 추가 탐사에 도움이 된다. 우리는 많은 체크리스트가 여러 영역의 역량을 평가하여 항목 간 신뢰도를 낮추는 데 기여할 수 있다는 점에 주목했다. 우리는 우리 연구에서 체크리스트가 스테이션 간 신뢰도가 낮게 나온 것이, 적어도 부분적으로는, 각 스테이션에서 고유한 과제-특이적 도구를 사용했기 때문으로 생각한다.

Our findings for inter-item reliability parallel those of a recent review of OSCEs, whereas inter-station reliability in that review was similar for checklists but lower for GRSs.18 This divergence merits further exploration. We noted in our study that many checklists assessed multiple domains of competence, which may contribute to lower inter-item reliability. We suspect the low inter-station checklist reliability in our study results, at least in part, from the use of unique task-specific instruments at each station.


OSATS를 이용한 시뮬레이션 기반 기술력 평가를 조사한 초기 연구 결과에서 GRS에서 초심자와 전문자의 구별이 더 잘 이루어지며, 이는 전문성에 대한 판단은 체크리스트가 잡아낼 수 있는 것보다, 더 많은 nuance를 필요로 한다는 것을 시사한다.17 우리의 데이터는 두 척도가 대부분의 경우 유사한 discrimination을 보인다는 점에서 이 해석에 추가적인 세분성을 제공한다. 그러나 만약 둘 중에 더 우월한 것을 꼽으라면, 일반적으로는 GRS일 가능성이 높다. 다른 결과 척도와의 연관성을 탐색하는 분석은 유사한 패턴을 보여준다.

Early studies examining simulation-based technical skill assessment using the OSATS found better expert–novice discrimination for the GRS,29 suggesting that judgements of expertise require more nuance than can be captured by a checklist.1,7 Our data provide additional granularity to this interpretation, in that the two scales show similar discrimination by trainee level most of the time, yet, if one rating scale is superior, it is typically the GRS. Analyses exploring associations with other outcome measures show a similar pattern.



한계와 강점

Limitations and strengths


우리의 연구결과는 원래 연구와 검토 방법론의 한계로 인해 완화되었다. 

    • 이들 연구에서의 평가는 다양한 임상 주제를 나타내며, 과제-특이적 체크리스트는 스테이션이나 연구에 따라 다양했다. 

    • 이와는 대조적으로, 거의 모든 다중 스테이션 연구는 각 스테이션에서 동일한 GRS를 사용했으며, 특정 규모에 대한 친숙성이 증가하면 내부 일관성에 긍정적인 영향을 미칠 수 있다. 

동일한 평가자들이 대부분의 연구에서 두 척도를 모두 완료했고, 도구의 순서가 일관성 있게 보고되지 않았기 때문에, 우리는 한 척도 등급이 다른 척도에 미치는 영향의 방향이나 크기를 추정할 수 없었다. 거의 모든 연구가 기술적인 과제에 초점을 맞추고 있기 때문에, 우리의 연구 결과는 인지적 및 비기술적 과제에 적용되지 않을 수 있다.

Our findings are tempered by limitations in both the original studies and our review methodology. The assessments in these studies represent diverse clinical topics, and task-specific checklists varied across stations and among studies. By contrast, nearly all multi-station studies used the same GRS at each station, and increased familiarity with a particular scale might favourably influence its internal consistency. As the same raters completed both scales in most studies, and the order of instrument was not consistently reported, we were unable to estimate either the direction or the magnitude of the influence of one scale rating over another. Because nearly all studies focused on technical tasks, our findings may not apply to cognitive and nontechnical tasks.



연구 함의

Implications for research


우리는 (스테이션 간 신뢰도, 항목 간 신뢰도 사이의 불확실성 등) 또는 비표준 방법을 사용하는 (평가자간 신뢰도를 계산하기 위해 크론바흐의 알파 사용과 같은) 것과 같이 여러 연구에서 모호한 많은 사례를 발견했다. 유용한 해석과 교차 연구 비교를 용이하게 하기 위해, 우리는 저자들이 변화의 측면(평가자, 항목, 스테이션, 시간)을 명확하게 정의하고 각 측면에 적합한 신뢰성 분석을 사용한 다음 이러한 결과를 명시적으로 보고할 것을 권장한다. 일반화가능도 연구는 이 점에서 도움이 될 수 있다.43

We found numerous instances in which authors were vague in their reporting (such as uncertainty between inter-station versus inter-item reliability) or used non-standard methods (such as in the use of Cronbach’s alpha to calculate inter-rater reliability). To facilitate useful interpretations and cross-study comparisons, we encourage authors to clearly define the facet(s) of variation (raters, items, stations, time), use reliability analyses appropriate to each facet, and then explicitly report these findings. Generalisability studies may be helpful in this regard.43


실무 함의

Implications for practice


우리의 자료에서는, 이전 작업에서 제시된 것보다 체크리스트에 대한 판단이 더 긍정적이다.6 평균적 평가자간 신뢰성은 GRS보다 체크리스트에서 높고 약간 더 좋았으며, 다른 척도와의 분별discrimination이나 상관관계는 대개 비슷했다. 또한 체크리스트를 사용하면 평가자 훈련 필요성이 낮아질 수 있으며, 피드백의 퀄리티를 높일 수도 있다. 그러나 체크리스트의 경우 각 과제마다 체크리스트가 필요하며, 각각의 체크리스트는 테크니컬 스킬의 평가라는 맥락에서 독립적인 검증이 필요하다. 따라서, 타당성 근거의 견고성이라는 측면에서, 체크리스트는 일반적으로 GRS에 뒤처질lag behind 것이다. 또한 체크리스트가 보다 객관적인 평가를 제공한다는 인식에도 불구하고, 이러한 체크리스트를 만드는 것 자체는 종종 주관적인 판단을 필요로 한다는 점을 강조할 필요가 있다.

Our data support a more favourable view of checklists than has been suggested in earlier work.6 Average inter-rater reliability was high and slightly better for checklists than for GRSs, and discrimination and correlation with other measures were usually similar. The use of checklists may also diminish rater training requirements and improve the quality of feedback,41,44 although these issues require further study. However, each task requires a separate checklist and each task-specific checklist requires independent validation, especially in the context of assessing technical skills. As such, checklists will typically lag behind GRSs in the robustness of validity evidence. It is also important to highlight that, despite the perception that checklists offer more objective assessment, the construction of these tools often requires subjective judgements.


글로벌 등급 척도는 중요한 이점을 가지고 있다. 체크리스트와 비교하여, GRS는 항목 간 및 스테이션 간 평균 신뢰성이 더 높다. 또한 GRS는 여러 작업에서 사용할 수 있으므로 작업별 척도 개발의 필요성이 없어지며, 적용되는 상황에 따른 타당성 검사를 단순화할 수 있다. GRS는 전문지식의 미묘한 요소 또는 원하는 실무에서 잠재적으로 위험할 수 있는 여러 가지 보완적 관점을 반영할 수 있지만, 더 많은 평가자 훈련을 요구할 수 있다. 체크리스트와 GRS 모두 인간의 전문성과 판단의 필요성을 대체하지는 못할 것이다.

Global rating scales have important advantages. Compared with checklists, GRSs have higher average inter-item and inter-station reliability. Moreover, GRSs can be used across multiple tasks, obviating the need for task-specific instrument development and simplifying application-specific validation. Global rating scales may require more rater training, although subjective responses can capture nuanced elements of expertise7 or potentially dangerous deviations from desired practice,45 and reflect multiple complementary perspectives.14 Finally, we note the inseparable interaction between the person using the instrument and the instrument itself: neither the checklist nor the GRS will supplant the need for human expertise and judgement.








 2015 Feb;49(2):161-73. doi: 10.1111/medu.12621.

systematic review of validity evidence for checklists versus global rating scales in simulation-based assessment.

Author information

1
Division of Emergency Medicine, Department of Medicine, University of Washington School of Medicine, Seattle, Washington, USA.

Abstract

CONTEXT:

The relative advantages and disadvantages of checklists and global rating scales (GRSs) have long been debated. To compare the merits of these scale types, we conducted a systematic review of the validity evidence for checklists and GRSs in the context of simulation-based assessment of health professionals.

METHODS:

We conducted a systematic review of multiple databases including MEDLINE, EMBASE and Scopus to February 2013. We selected studies that used both a GRS and checklist in the simulation-based assessment of health professionals. Reviewers working in duplicate evaluated five domains of validity evidence, including correlation between scales and reliability. We collected information about raters, instrument characteristics, assessment context, and task. We pooled reliability and correlation coefficients using random-effects meta-analysis.

RESULTS:

We found 45 studies that used a checklist and GRS in simulation-based assessment. All studies included physicians or physicians in training; one study also included nurse anaesthetists. Topics of assessment included open and laparoscopic surgery (n = 22), endoscopy (n = 8), resuscitation (n = 7) and anaesthesiology (n = 4). The pooled GRS-checklist correlation was 0.76 (95% confidence interval [CI] 0.69-0.81, n = 16 studies). Inter-rater reliability was similar between scales (GRS 0.78, 95% CI 0.71-0.83, n = 23; checklist 0.81, 95% CI 0.75-0.85, n = 21), whereas GRS inter-item reliabilities (0.92, 95% CI 0.84-0.95, n = 6) and inter-station reliabilities (0.80, 95% CI 0.73-0.85, n = 10) were higher than those for checklists (0.66, 95% CI 0-0.84, n = 4 and 0.69, 95% CI 0.56-0.77, n = 10, respectively). Content evidence for GRSs usually referenced previously reported instruments (n = 33), whereas content evidence for checklists usually described expert consensus (n = 26). Checklists and GRSs usually had similar evidence for relations to other variables.

CONCLUSIONS:

Checklist inter-rater reliability and trainee discrimination were more favourable than suggested in earlier work, but each task requires a separate checklist. Compared with the checklist, the GRS has higher average inter-item and inter-station reliability, can be used across multiple tasks, and may better capture nuanced elements of expertise.

PMID:
 
25626747
 
DOI:
 
10.1111/medu.12621


의학교육 평가에서 주관성의 힘(Acad Med, 2019)

The Power of Subjectivity in the Assessment of Medical Trainees

Olle ten Cate, PhD, and Glenn Regehr, PhD



적어도 지난 50년 동안 "객관성"은 의학 교육자를 포함한 시험을 설계하는 데 있어 거의 논쟁의 여지가 없는 추구였다. 1961년 De Groot2(p172)는 객관성을 "개인 의견, 선호도, 관찰 방식, 견해, 흥미 또는 정서의 간섭은 물론 잠재적 간섭조차 없는" 판단으로 정의했다. 시험의 객관성에 대한 탐구는, 학교와 대학의 학생 수가 증가함에 따라, 보다 자동적인 채점 제도의 필요성을 자극했기 때문에, 서면 평가에 다중 선택 질문(MCQ)이 도입됨으로써 효과적으로 가능해졌다. MCQ는 학생지식을 평가할 때 심사위원들의 개인적인 의견을 배제할 수 있는 기회를 제공했고, 따라서 공정성과 기준에 대한 논쟁에 대해 매우 필요한 응답을 제공했다.

For at least the last 50 years, “objectivity” has been an almost undisputed pursuit for those designing tests, including medical educators.1 In 1961, De Groot2(p172) defined objectivity as judgment “without interference or even potential interference of personal opinions, preferences, modes of observation, views, interests or sentiments.” The search for objectivity in testing was effectively enabled with the introduction of multiple-choice questions (MCQs) in written assessments, as the growing numbers of students in schools and universities stimulated the need for more automatic scoring systems. MCQs offered opportunities to exclude the personal opinions of examiners when assessing student knowledge and, therefore, offered a much-needed response to disputes about fairness and standards.


의학교육에서 객관적 시험을 향한 노력은 곧 사실적 지식을 넘어 더 정교한 훈련 목표에 대한 평가로까지 확대되었다. 환자 관리 문제3 및 트리플 점프 연습4와 같은 테스트는 사례특이성과 맥락특이성 문제로 인한 어려움에도 불구하고 (이러한 평가방법은) 임상적 추론과 문제 해결 기술을 "객관적으로" 평가하도록 개발되었고, 그 결과 적절한 수준의 신뢰성을 달성하기 위해 많은 시간이 필요하게 되었다.

In medical education, efforts toward objective testing soon extended to the assessment of more sophisticated training goals beyond factual knowledge. Tests such as the patient management problem3 and the triple jump exercise4 were developed to “objectively” assess clinical reasoning and problem-solving skills, although these were plagued with issues of case and context specificity and, therefore, required many hours of testing to achieve appropriate levels of reliability.5


보다 성공적으로, 임상 기술에 대한 성과 기반 시험들, 객관적인 구조화된 임상 시험에 의해 예시된, 4는 많은 학부 및 대학원 의학 교육 프로그램 및 국가 시험으로 통합되었다.6,7 미니 임상 평가 연습, 임상 조우 카드, 임상 작업 샘플링, 절차적 기술의 직접 관찰 및 기타 도구에 이르기까지, 객관성에 대한 열망search는 작업장에 기초한 평가로 확대되었다.8

More successfully, performance-based tests of clinical skills, exemplified by the objective structured clinical examination,4 were integrated into many undergraduate and postgraduate medical education programs and national examinations.6,7 With the introduction of mini-clinical evaluation exercises, clinical encounter cards, clinical work sampling, direct observation of procedural skills, and other tools, the search for objectivity also extended to workplace-based assessment.8


보다 최근에는 CBME(세기를 전후해 시작된 널리 퍼진 운동)의 도입으로 임상 작업장에서 객관적인 평가를 위한 탐구가 촉진되었고, 시간기반의 도제모델에서 임상 능력의 불명확하고 국부적인 표준에서 벗어나야 한다는 경고가 내려졌다. 여기에서 벗어나, 투명하고 구조화된 결과 중심의 임상 수행능력 평가를 위한 모델로 나아가게 된 것이다.

More recently, the search for objective assessment in the clinical workplace was given impetus through the introduction of competency-based medical education (a pervasive movement that started roughly around the turn of the century), with its injunction to move away from unclear and local standards of clinical competence in time-based apprenticeship models toward transparent, structured, outcomes-oriented clinical performance assessment.9


우리는 우선 객관성이, 사실 현재의 노력이 달성하고 있는 것을 나타내지 않을 수도 있다는 것을 제안할 것이다. 오히려 이러한 "객관성"을 향한 노력들은 단일의, 그러나 여전히 사회적으로 구성되는 관점에 대한 융합인 "공유 주체성"을 협상하는 것으로 이해될 수 있다.

We will first suggest that objectivity may not, in fact, represent what current efforts are achieving. Rather, these purported efforts toward “objectivity” might better be understood as negotiating a “shared subjectivity,” a convergence on a single, but still socially constructed, perspective.



객관성의 신화

The Myth of Objectivity


실증주의적 관점 또는, 고전적인 시험 이론의 관점에서 ,객관성은 각 원하는 학습자의 질을 측정하기 위해 진정한 점수가 존재함을 시사한다. 기존의 평가 도구에서 파생된 점수는 이 실제 점수("측정 오류")에서 벗어난다. 그러나 의학과 같은 영역에서는, 학생들이 논쟁의 여지가 없는 답을 만들어 내기 보다는 문제를 해결하는 법을 배워야 하는 영역에서는, 종종 진정한 점수나 표준의 객관성에 의문을 제기할 수 있다.

Objectivity, from a positivist, classical test theory perspective, suggests that for each desired learner quality to be measured, a true score exists. With any existing assessment tool, the derived score will deviate from this true score (the “measurement error”). However, in domains such as medicine, in which students must learn to solve problems rather than produce undisputed answers, very often the objectivity of true scores or standards can be questioned.


예를 들어, "객관적"을 "평가자의 개인적 편견을 배제한다"라고 정의하는 경우, 대규모 MCQ 시험도 객관적이지 않다고 주장할 수 있다. 실제로, 모든 시험 질문은 개인, 종종 전문가에 의해 만들어지며, 어떤 내용이 시험에 포함될 가치가 있는지, 때로는 최선의 답이 무엇인지에 대한 가치 판단을 나타낸다. 일부 시험 형식에서 인정되는 바와 같이, 전문가들마다 이 점에서 그들의 의견이 다를 가능성이 매우 높다.10,11 시험 청사진에 도달하기 위한 대화들, 포함할 주제 및/또는 포함된 주제의 가중치를 결정하는 것은 거의 간단하지 않다.

For example, if “objective” is defined as “precluding personal bias of the assessor,” then it could be argued that even large-scale MCQ tests are not objective. Indeed, every test question is created by an individual, often an expert, and represents a value judgment regarding what material is worth testing and sometimes even what the best answer is. Different experts are very likely to differ in their opinions in this regard, as is acknowledged in some test formats.10,11 Conversations to arrive at a test blueprint, determining the topics to be included and/or the weighting of topics that are included, are seldom straightforward.


마찬가지로, 표준 설정은 종종 전문가들 사이에서 매우 복잡한 협상을 필요로 하는데, 최소의 자격을 갖춘 지원자가 어느 정도 알아야 하는지 뿐만 아니라, 시험이 부적절하게 높은 비율의 지원자를 불합격시키지 않도록 하는 방법에 관해서도 말이다.  (예를 들어, 국가 면허 시험에 대한 전문가가 결정한 기준이 지원자의 절반에 실패하는 것으로 판명될 경우, 불합격률을 예상과 일치하도록 기준을 조정하는 경향이 분명히 강할 것이다.)

Similarly, standard setting often requires a highly complex negotiation among experts, not only regarding how much a minimally competent candidate should know but also how to ensure that a test does not fail an inappropriately high proportion of candidates (e.g., if the expert-determined standard on a national licensing examination were found to fail half the candidates, there would undoubtedly be a strong tendency to adjust standards to bring the failure rate in line with expectations).


질문에 대한 답변(예: 가장 가능성이 높은 진단)도 협상 대상이 될 수 있으며, 결과적으로 일부 최근의 시험 모델은 다양한 전문가의 의견을 점수 채점 루브릭에 반영하려고 시도했다.10

Even the answers to questions (such as the most likely diagnosis) may be subject to negotiation, and consequently some recent test models have tried to incorporate a variety of expert opinions in the scoring rubric.10


그러므로 가장 순수한 형태의 지식 시험에서도 객관성에 대한 최선의 근사치는 종종 단순히 [다수의 전문가들 사이에서 (어쩔 수 없이) 이뤄진 합의]일 뿐이며, 이것은 객관성이라기보다는 (협상되고) 공유된 주관성으로 간주될 수 있다.

Thus, even in the purest tests of knowledge, the best approximation of objectivity is often simply a (grudging) consensus among a numerical majority of experts, resulting in what might, therefore, be considered a (negotiated) shared subjectivity rather than objectivity.


이러한 공유된 주체성의 협상은 평가자-기반 평가에서 더욱 명백해진다. 이러한 평가에서 일관되게 드러난 심리측정적 약점은, 심지어 교사들이 같은 성과를 평가했을 때에도 발생하며, 평가자 훈련에 많은 노력을 이끌어냈다.


This negotiation of shared subjectivity becomes even more obvious in rater-based assessments. The consistent demonstration of psychometric weaknesses,12–15 even when preceptors rate the same performance,16–19 has led to numerous efforts at rater training,


흥미롭게도, 그러한 훈련 노력의 성공이 상대적으로 결여되면서, 일부에서는 단지 "본래적으로 일관성이 없는" 평가자들을 배제하여 나머지 평가자들 사이에 공통의 관점과 인식된 신뢰성을 확보하도록 했다.16 이 접근방식이 주관성을 배제한다고 주장하기는 어렵다. 기껏해야 구성된 합의 뒤에 주관성을 숨기고 있다.

Interestingly, the relative lack of success for such training efforts has led some to simply exclude “inherently inconsistent” raters to ensure a common perspective and a perceived reliability among the remaining raters.16 It is hard to argue that this approach excludes subjectivity—at best, it masks subjectivity behind a constructed consensus.


평가자만 객관성의 개념에 문제를 일으키는 것은 아니다. 맥락도 그러하다. 맥락특이성(즉, 특정 문제 또는 특정 상황에서 개인의 수행이 다른 문제 또는 다른 상황에서 동일한 개인의 수행에 대해 약하게 예측될 뿐이라는 관찰2)은 성과를 평가하려는 정신분석학자들의 측면에서 일반적으로 인정되는 골치거리다. 실제로, 노르치니는 맥락특이성이야말로 "의료 교육의 유일한 사실"이라고 제안한 것으로 알려져 있다.22(p1220)

Not only do raters cause problems for the notion of objectivity, so does the context. Context specificity (i.e., the observation that an individual’s performance on a particular problem or in a particular situation is only weakly predictive of the same individual’s performance on a different problem or in a different situation21) is a commonly recognized thorn in the side of psychometricians trying to assess performance. Indeed, Norcini has been credited with suggesting that context specificity is “the one fact of medical education.”22(p1220)


이것이 "팩트"로서 널리 퍼져 있는 상황을 감안할 때, 아마도 역량이란 개인에게 있는 것이 아니라, 매우 가변적인 맥락과 개인의 상호작용에 있다고 제안할 수 있을 것이다.23,24 더 나아가, 진저리치25는 임상적 능력의 판단은 본질적으로 사회적 활동이며, 그러한 사회적 판단은 필연적으로 수행능력에 대한 해석을 필요로 한다고 말했다. 그렇다면, 개인의 성과에 대한 인식자의 (평가자) 해석은 맥락의 일부분이며, 다수의 인식자는 다수의 컨텍스트를 의미한다.

Given the widespread prevalence of this “fact,” perhaps it is time to suggest that competence does not reside in the individual but, rather, in the individual’s interaction with a highly variable context.23,24 Further, Gingerich25 has suggested that the judgment of clinical competence is an inherently social activity and that social judgments are necessarily interpretations of the performance. If so, then a perceiver’s (rater’s) interpretation of an individual’s performance is a part of the context, and multiple perceivers means multiple contexts.


예를 들어, 어떤 perceiver는 수행능력을 안심(신뢰하고 박식함)으로 경험할 수 있고, 또 다른 지각자는 그것을 오프퍼팅(제어하고 거만함)으로 볼 수 있지만, 각각의 지각자에게 있어서 관찰한 수행의 각 경험은 "진실"이다. 따라서 주어진 성과에 대한 평가의 변화에서 도출해야 할 가장 적절한 [결론은 평가에 잡음이 있고 문제적인 객관성이 결여되어 있다는 것]이 아니라, [그 성과가 중대하게 서로다른 방식으로 인식될 수 있기 때문에 성과(더 적게는 '수행자')에 대한 "객관적" 진리는 단 한 가지도 없다는 것]이다. 이것은 (오직 하나의 진실만이 있음을 시사하는) 실증주의적인 견해라기보다는 구성주의적인 견해이다.

For example, one perceiver may experience a performance as reassuring (confident and knowledgeable), and another may see it as off-putting (controlling and arrogant), but each experience of the performance is “true” for that perceiver. Thus, the most appropriate conclusion to draw from variations in assessment for a given performance is not that there is noise in the ratings and a problematic lack of objectivity but, rather, that the performance can be perceived in importantly different ways, so there is no single “objective” truth about the performance (much less, the performer). This is a constructivist view, rather than a positivist one, which, as mentioned above, would suggest that there is only one truth.


임상 환경에서의 평가는 "객관성"의 개념을 더욱 복잡하게 만든다. 임상적 맥락에서, 훈련생에 대한 평가는 환자관리를 위임받을 준비가 되어 있는지 평가하는 것을 의미한다,26 따라서, 학습자의 평가와 환자 치료에 관한 의사결정은 분리할 수 없다.27–29 의료 훈련생들이 실무자의 감독 하에 작업할 때, 환자 치료에 참여할 수 있는 준비성의 평가는 [학습자와 환자 모두의 유익성과 위해성]의 지속적인 균형을 포함한다.30,31

Assessment in the clinical setting complicates the notion of “objectivity” still further. In the clinical context, assessment of trainees implies an evaluation of their readiness to be entrusted with care,26 and therefore, the assessment of learners and decisions around patient care are inextricable.27–29 As medical trainees work under the supervision of a practitioner, the evaluation of their readiness to engage in patient care involves a continuous balancing of the benefits and risks for both the learner and patient.30,31


이러한 순간순간의 임시 위임 결정은 그 정의상 주관적이고 상황특이적이어야 한다. 임상 평가에 "객관성"이라는 기준을 적용하는 것은, 판단을 항상 문서로 표현될 수있으며, 맥락과 무관하게 이해하고 공유할 수 있다는 가정을 수반한다.

These moment-by-moment, ad hoc entrustment decisions must, by definition, be subjective and situation specific. Applying a criterion of “objectivity” to clinical assessment also carries with it the assumption that judgments can always be expressed as documentation that can be shared and understood acontextually.


환자에 대한 전문가의 판단과 마찬가지로 이러한 직관은 유사한 경험을 가진 다른 전문가들과 의미 있게 공유될 수 있지만, 문서화된 단어나 숫자로 공식화한다면, 그 본질의 일부를 상실할 가능성이 높다.34,35 따라서 추가 훈련을 guide하거나 인증을 위한 준비상태를 결정을 위해 특정 개인에 대한 종합적 결정을 내리기 위해서는, 의료 역량 위원회와 같은 팀이 복잡한 데이터 패턴에 비추어 일정 기간 동안 이러한 주관적 평가의 범위를 검토하고, 팀이 (객관적이 아니라) 일관된 집단적 결정coherent collective determination을 하는 데 편안함을 느낄 때까지 협상할 필요가 있다.37,38

Similar to expert judgments about patients, these intuitions might be shared meaningfully among other experts with similar experiences but are likely to lose some of their essence when formalized in documented words or numbers.34,35 Thus, to arrive at a summative decision about a given individual, either to guide further training or to determine readiness for certification,36 it is necessary for a team, such as a clinical competency committee, to examine the breadth of these subjective assessments over some time period and to negotiate, in light of the complex patterns of data and informed by their own personal knowledge and experience, until the team feels comfortable in making a coherent collective (rather than “objective”) determination.37,38


주관성을 수용하는 힘

The Power of Embracing Subjectivity


이 절에서는 주관성을 피할 수 없을 뿐만 아니라 실제로 포용해야 한다고 제안할 것이다. 우리는 이전에 단일 성과에 대해 복수의 합법적인 관점이 있을 수 있으며 이러한 각각의 관점은 개별 인식자의 경험에서 "진실" 수 있다고 지적했다. 만약 그렇다면, "소음 속의 신호"를 찾거나 인식자들 사이에서 하나의 공통된 관점을 협상하기 위해 그러한 관점을 평균화하려는 노력은 개인의 대표성뿐만 아니라 효과적인 미래 수행능력을 위한 개인의 준비에도 문제를 일으킬 수 있다.

In this section, we will suggest, not merely that subjectivity cannot be avoided but that, in fact, it should be embraced. We previously pointed out that there might be multiple legitimate perspectives on a single performance and that each of these perspectives might be “true” in the experience of the individual perceiver. If so, the effort to average those perspectives to find the “signal in the noise” or to try to negotiate a single common perspective among perceivers is problematic not only in its representation of the individual but also in its preparation of the individual for effective future performance.


Trainee에 대한 유효한 이미지를 구축하기 위한 합법적인 접근방식으로 다중 소스 피드백(MSF)을 널리 수용하는 것이 우리의 초점의 대표적 예이다.41,42 MSF가 그렇게 유용한 것은 "평가자 사이의 차이가 있기 때문"이지, "평가자 사이에 차이가 있음에도 불구하고"가 아니다.

The popularity and widespread acceptance of multisource feedback (MSF) as a legitimate approach to building a valid image of a trainee exemplifies our point.41,42 It is because of the differences between assessors, not despite them, that MSF is so useful.


컨텍스트에 대한 적응성은 숙련된 실무자의 특히 중요한 특징이며, 평가자는 그 컨텍스트의 일부분이다. 커뮤니티(환자, 의료 전문가, 병원 등)가 실력있는 의사에게 보고 싶은 것은 상호작용을 하는 과정에서 자신이 다른 사람에게 미치는 영향을 스스로 모니터링하고, 필요할 경우에는 자신이 받은 피드백을 수용하는 방식으로 자신의 행동을 수정할 수 있는 능력(및 성향)이다.

Adaptability to the context is a particularly important feature of a skillful practitioner, and assessors are part of that context. What the community (patients, health professionals, hospitals, etc.) would like to see in a high-quality practitioner is the ability (and propensity) to monitor his or her impact on other individuals in an interaction and, when needed, to modify his or her behaviors in ways that accommodate the feedback received


이러한 방식으로 효과적으로 감시하고 수용하기 위해서는, 배우들이 자신의 스타일을 오프풋(혹은 자신의 행동을 오만한 것으로 보거나 접근)하여 이러한 종류의 반응이 감지되고 있을 때, 적응adapt할 수 있다는 것을 아는 것이 중요하다. 따라서 특정 상황에서의 가장 좋은 행동 방법이 하나뿐임을 시사하는 평가 과정과는 대조적으로, 연습자에게 전달해야 할 보다 적절한 메시지는 이러한 종류의 [(다양한) 해석에 경각심을 갖고, 상황에 따라 적절한 방식으로, 그에 따라 대응할 수 있도록 자신의 행동을 해석하는 방법]일 수 있다.

To effectively monitor and accommodate in this way, it is critical for the actor to know that some people find his or her style off-putting (or see his or her actions or approach as arrogant) so that he or she can be alert to this concern and adapt if and when this sort of reaction is being perceived. Thus, in contrast with an assessment process that suggests that there is just one best way to act in a particular situation, a more appropriate message to relay to the trainee might be the various ways in which his or her behavior was interpreted so that he or she can be alert to these sorts of interpretations and respond accordingly, in a situationally appropriate way.


따라서 학습자들이 만약 "일관되지 않은" 피드백에 종종 민감하게 반응한다는 사실은 그들이 객관적으로 올바른 행동 방법이 하나 있다고 믿는 중요한 신호일 수도 있다. 이러한 좌절감은 이러한 학습자들이 현재 임상 실습에서 직면하게 될 행동에 대한 해석의 다양성에 대해 잘 준비되지 않았음을 시사한다.

The fact that learners often react to “inconsistent” feedback with frustration, therefore, might be an important signal that they believe there is a single objectively correct way to act. This frustration suggests that these learners are currently not well prepared for the variability in interpretations of their behavior that they will face in clinical practice.


주관성을 포용함으로써, 또한 특별위탁을 가능하게 하기 위해 교관들에 의해 행해지는 순간순간의 판단의 가치와 불가능성에 대해 더 잘 생각할 수 있게 한다.

embracing subjectivity also enables better thinking about the value and defensibility of the moment-by-moment judgments being made by preceptors to enable ad hoc entrustment.


평가는 [평가 대상 개인에 대한 진술]에서 벗어나 대신 [특정 순간에 특정 학습자에게 무언가를 허락하는 것을 preceptor가 편안하게 느끼는 참여 수준]에 초점을 맞추고 있다.44–46 임상 업무에 대해 학습자를 신뢰한다는 것은, '인식된 위험'에 대한 평가를 함의하며, 이는 학습자가 그 업무를 수행할 능력을 그 상황에 달려있는 환자 안전과 대비해서 경중을 따진다는 의미이기 때문이다. 

assessment is shifting away from statements about the individual being assessed and focusing instead on the level of participation that the preceptor feels comfortable allowing for a certain learner at a certain moment.44–46 Entrusting learners with clinical tasks implies an assessment of perceived risk, as the anticipated level to which the learner will be able to perform the task is weighed against the patient’s safety in that particular context.29–31,47


중요한 것은, 이러한 초점의 변화는 학습자에 대한 맥락이 결여된 추론을 '객관성'으로 가장하여 문서화하도록 강요하기 보다는, 주관적인 경험을 조사 및 문서화하도록 preceptor에게 힘을 준다. 따라서 역설적이게도, 직장에서 평가의 틀이 주관성으로 이동한다면,  평가자는 자신이 남긴 문서와 관련하여 훨씬 더 방어하기 유리한 입장이 된다. 

  • 만약 "평균 이하" 또는 "기대 충족"과 같은 진술이 있다면, "객관적 진실"이 아니라고 의문을 갖거나, 다른 학습자와 비교했을 때 자신에게 주어진 "객관적 점수"의 차이의 공정성에 이의를 제기할지도 모른다. 

  • 그러나 평가자 입장에서 학습자가 "이 절차를 수행하는 것이 불편하다"거나, "아직 혼자서 그 환자 대화를 이끌게 두지 않겠다" 또는 "이 부분을 완료하는 동안 수술실을 떠나는 것이 편안하다"와 같은 진술에 이의를 제기하는 것은 어렵다."46

Importantly, this shift in focus empowers the preceptor to probe and document his or her subjective experience rather than forcing him or her to document a context-free inference about the learner in the guise of objectivity. Ironically, therefore, the move to subjectivity as a framing of assessment in the workplace places the preceptor in a substantially more defensible position with regard to his or her documentation. A learner might legitimately question the “objective truth” in statements such as “below average” or “meets expectations” or challenge the fairness of differences in “objective scores” given to him or her as compared with different leaners. However, it is difficult for a learner to challenge a statement such as “I am just not comfortable with you performing this procedure,” “I’ll not have you lead that patient conversation on your own yet,” or “I’m now comfortable leaving the operating room while you complete this part of the procedure.”46


즉, 단일 수행에 대한 개별적인 평가 수준에서, 수용자의 주관적 경험에 대한 문서화는 진정으로 방어할 수 있는 유일한 명제다. "객관적인 진실" 진술은 항상 의심을 받을 여지가 있다. 서로 다른 발달 단계에서 기대되는 행동에 대한 설명은 기껏해야 평가자에게 참고일 뿐이다. 이것이 결코 "객관적인" 이정표 역할을 할 수 없다.50

In other words, at the level of an individual assessment of a single performance, documentation of the preceptor’s subjective experience is the only truly defensible proposition. “Objective truth” statements are always open to being questioned. Even descriptions of expected behavior at different developmental stages48,49 can, at best, be a suggested reference for raters; they can never serve as “objective” milestones.50


시사점 및 미래 방향

Implications and Future Directions


평가에서 주체성이 다시 나타난 것을 인정하고 축하하면서, Hodges40은 건강 직업 교육을 "정신분석 후 시대"로 나아가고 있다고 묘사했다.

Acknowledging and celebrating the reemergence of subjectivity in assessment, Hodges40 has described health professions education as moving into a “post-psychometric era.”


그러나, 우리는 이것이 자료와 평가에 관한 "전-심리학적" 사고방식의 복귀로 이어지지 말아야 한다고 강력히 제안하기를 바란다. 객관성에 대한 심리측정적 추구는, 평가의 공정성을 달성하기 위한 노력이 포함되었다는 것을 기억하는 것이 중요하다. 과거의 교훈에 따르면, 제한되지 않은 주관성은 쉽게 (암묵적 또는 명시적으로) 체계적인 약탈disadvantaging을 초래할 수 있고, 심지어 다른 사회 집단에서 개인을 완전히 배제시킬 수 있다는 것을 반복적으로 보여준다.

However, we wish to strongly suggest that this should not lead to the return of a “pre-psychometric” mind-set about data and assessment. It is important to remember that the psychometric pursuit of objectivity included, an effort to achieve fairness in assessment. Lessons from the past repeatedly demonstrate that unfettered subjectivity can easily lead to the (implicit or explicit) systematic disadvantaging and even outright exclusion of individuals from different social groups.


과거의 교훈은 또한 "객관적" 척도의 개발이 기대했던 결과를 낳지 않은 경우가 적지 않음을 시사한다. 평가에서 공정성을 찾는 것은 중요한 목표로 남아 있다. 그러나 학습자들은 공정성이 능력(관찰된 행동)과 컨텍스트(전문가 평가자와 상황을 포함)의 상호 작용에서 비롯됨으로써, 학습자 간 평가는 쉽지 않으며, 본질적으로 덜 투명하다는 것을 깨달아야 한다.

lessons from the past also suggest that the development of “objective” measures has not infrequently produced similar results. Seeking fairness in assessment remains an important goal. But learners should realize that fairness results from the interaction of ability (observed behavior) with context (including the expert rater and the circumstances), making comparisons among learners challenging and inherently less transparent 

"쉬운 케이스로 [A]가 아주 잘하고 있는 것을 보았어."  대 "어려운 케이스에 고전하는 [B]를 봤다"고 하고서도 비슷한 등급으로 이어질 수 있다. 그러나 학습자 A는 자신이 부당한 대우를 받고 있다고 느끼게 할 수 있다.

(“I saw you [learner A] doing very well with an easy case” versus “I saw you [learner B] struggling with a difficult case” could lead to a similar rating, but could make learner A feel that he or she was being treated unfairly).


한 가지 유망한 방향은 무엇이 전문가들로 하여금 [무엇이 그들의 동료들을 실무자로서 신뢰하게 하는가]를 깊이 탐구하는 것이다.53 전문가의 판단은, 주관성에서 벗어날 수 없지만, 불가피한 것이다. 그리고 그것의 질은 경험에 따라 증가한다. Hodges40(p37)이 주장했듯이, 훈련생에 대한 임상 평가는 임상적 판단에 가장 잘 비유될 수 있다. "경험을 통해 전문 임상의사는 패턴을 보다 빠르고 정확하게 인식하게 된다. 이 과정이 교육에서도 작동하지 않는다고 믿을 이유가 없다"고 말했다. 그러나 이 과정을 '블랙박스'로 취급해서는 안될 것이다.

one promising direction is to deeply explore what makes professionals trust their colleagues as practitioners.53 Expert judgment, although fraught with subjectivity, is unavoidable, but its quality increases with experience. As Hodges40(p37) has argued, clinical assessment of trainees might best be likened to clinical judgment: “With experience, expert clinicians become more rapid and more accurate in their recognition of patterns. There is no reason to believe that this process does not also operate in education.” Yet, this process need not be treated as a “black box.”


점점 더, 개별 의사들 사이에의 독특함은 피할 수 없는 것으로 인식되고 있다. 실제로 최근 환자 안전 모델은 다음을 제안한다. "매일매일 수행능력의 변동성은 다양한 조건에 대응하는 데 필요한 적응력을 제공한다. 이렇기 때문에 일이 제대로 되는 것이다. 인간은 결과적으로 시스템 유연성과 탄력성에 필요한 자원으로 간주된다."

Increasingly, it is being recognized that uniqueness among individual practitioners is not something to be avoided. In fact, recent models of patient safety have suggested that “everyday performance variability provides the adaptations that are needed to respond to varying conditions, and hence is the reason why things go right. Humans are consequently seen as a resource necessary for system flexibility and resilience.”54(p4)


교육자는 중요한 의사결정을 위해 여러 사람 또는 일부 표준과 비교하기 위해 주관적인 데이터를 컴파일하는 방법을 탐구해야 한다. 이것은 패턴을 분별하고 맥락에서 개별 데이터 포인트를 해석할 수 있는 충분한 데이터가 필요할 것이다. 이는 개인의 종합적 표현에서 다양한 의견이 손실되도록 특이치를 폐기하거나 평균화하는 것을 반드시 의미하는 것은 아니다("중심적 경향" 통계 사용과 마찬가지로). 이것은 오히려 각 데이터 포인트의 상황에 따라 데이터의 변동성을 해석하고 일관성이 아니라 중요도에 따라 가중치를 부여하는 것이다.

Educators must explore how to compile subjective data to compare across people or against some standard for the purposes of high-stakes decision making. This will require enough data to be able to discern patterns and interpret individual data points in context. This does not necessarily mean discarding outliers or averaging such that varying opinions are lost in the summative representation of the individual (as happens with the use of “central tendency” statistics) but, rather, interpreting the variability of data according to each data point’s context and giving the data their weight based on their importance rather than on their consistency.




5 Van der Vleuten CPM. The assessment of professional competence: Developments, research and practical implications. Adv Health Sci Educ Theory Pract. 1996;1: 41–67.


52 Kuper A. Literature and medicine: A problem of assessment. Acad Med. 2006;81:128–137.




 2019 Mar;94(3):333-337. doi: 10.1097/ACM.0000000000002495.

The Power of Subjectivity in the Assessment of Medical Trainees.

Author information

1
O. ten Cate is professor of medical education and senior scientist, Center for Research and Development of Education, University MedicalCenter Utrecht, Utrecht, the Netherlands; ORCID: https://orcid.org/0000-0002-6379-8780. G. Regehr is professor, Department of Surgery, and associate director of research, Centre for Health Education Scholarship, Faculty of Medicine, University of British Columbia, Vancouver, British Columbia, Canada; ORCID: http://orcid.org/0000-0002-3144-331X.

Abstract

Objectivity in the assessment of students and trainees has been a hallmark of quality since the introduction of multiple-choice items in the 1960s. In medical education, this has extended to the structured examination of clinical skills and workplace-based assessment. Competency-based medical education, a pervasive movement that started roughly around the turn of the century, similarly calls for rigorous, objective assessment to ensure that all medical trainees meet standards to assure quality of health care. At the same time, measures of objectivity, such as reliability, have consistently shown disappointing results. This raises questions about the extent to which objectivity in such assessments can be ensured.In fact, the legitimacy of "objective" assessment of individual trainees, particularly in the clinical workplace, may be questioned. Workplaces are highly dynamic and ratings by observers are inherently subjective, as they are based on expert judgment, and experts do not always agree-for good, idiosyncratic, reasons. Thus, efforts to "objectify" these assessments may be problematically distorting the assessment process itself. In addition, "competence" must meet standards, but it is also context dependent.Educators are now arriving at the insight that subjective expert judgments by medical professionals are not only unavoidable but actually should be embraced as the core of assessment of medical trainees. This paper elaborates on the case for subjectivity in assessment.

PMID:
 
30334840
 
DOI:
 
10.1097/ACM.0000000000002495


의학교육에서 측정과 평가의 토대(AMEE Guide No. 119) (Med Teach, 2017)

The foundations of measurement and assessment in medical education

Mohsen Tavakola and Reg Dennickb





도입

Introduction


모든 공식 교육의 DNA는 평가다. 평가라는 것은 [시험자료에서 파생된 정보를 수집해 해석하여 수험내용과 학생점수를 정당화하는 체계적인 과정]이다.

The DNA of any formal education is assessment. It is a systematic process that collects and interprets information derived from exam data to legitimize examination content and student marks


[평가는 학습의 측정]이며, 측정 과정의 정확성, 신뢰성 및 타당성에 영향을 미치는 요인에 대한 이해가 고품질 평가의 생성에 필수적이라는 점을 강조해야 한다.

It should be emphasized that assessment is the measurement of learning and that an understanding of the factors that influence the accuracy, reliability, and validity of the measurement process are essential for the creation of high quality assessments


측정과 평가

Measurement and assessment


측정

Measurement


측정이란 [규칙에 기반하여 개체, 사건, 속성, 특성에 숫자를 할당하는 것]으로 정의되었다(Miller et al. 2013). 이 정의에서 특성은 숫자로 분류된다. 예를 들어 명확한 "규칙"은 이런 것이 있다. 동일한 지시와 시행, 문제, 채점방식에 따라 시험을 치르게 되면 학생들의 점수를 서로 비교할 수 있다.

It has been defined as the assignment of numbers to objects, events, attributes, and traits according to rules(Miller et al. 2013). In this definition these characteristics are labeled by numbers. An example may clarify the “rules”.If students take an exam with the same instructions, administration, assessment questions, and scoring system, we can compare students’ marks with each other.


평가

Assessment


평가는 "개인이 얼마나 잘 수행하는가?"와 관련이 있다(Miller 등, 2013).

Assessment is concerned with “How well does the individual perform?” (Miller et al. 2013).


학생들의 능력을 측정하는 타당하고 신뢰할 수 있는 평가에는 세 가지 주요 목표가 있다. 

    • "향후 학습의 동기와 방향을 제공함으로써 모든 학습자와 실무자의 능력을 최적화한다. 

    • 무능한 의사를 확인함으로써 대중을 보호한다. 

    • 지원자 또는 상위단계 교육을 받을 사람을 선발할 근거를 제공한다"(Epstein 2007).

Valid and reliable assessments that measure the ability of students have three main goals: 

    • “to optimize the capabilities of all learners and practitioners by providing motivation and direction for future learning; 

    • to protect the public by identifying incompetent physicians; and 

    • to provide a basis for choosing applicants or advanced training” (Epstein 2007). 

의학교육에서 평가는 개별 과목의 학습성과에 기초해야 한다.

In medical education, assessment should be based on the learning outcomes of the individual courses


형성평가와 총괄평가

Formative and summative assessment


형성평가

Formative assessment


학생들은 자신의 역량 격차나 교육적 필요성, 현재 상태와 원하는 목표의 차이를 알아야 하며, 그 격차를 줄이기 위한 조치를 취해야 한다(Black and William 1998).

Students should be aware of their competency gaps or educational needs, the difference between their current status and their desired goals, and they should take action in order to achieve this (Black and Wiliam 1998).


이러한 판단에 기초하여, 의학 교사들은 학생들이 원하는 학습 목표를 달성하기 위해 교육 자료를 조정하고 학습 성과를 명확히 한다. 학생과 교육자에 대한 건설적 피드백은 형성적 평가의 초석이다(Shepard 2006).

Based on these judgments, medical teachers adjust educational materials and clarify learning outcomes in order for students to achieve the desired learning goals. Constructive feedback to students and educators is the cornerstone of formative assessment (Shepard 2006).


총괄평가

Summative assessment


종합평가에 의해, 우리는 대중에게, 우리 학생들이 환자의 진단과 치료에 대한 최소한의 기준을 충족했다고 보장한다(Norcini and Dawson-Sunders 1994).

by summative assessment, we assure the public that our students have minimum standards for the diagnosis and treatment of patients (Norcini and Dawson-Saunders 1994).


규준지향 평가와 준거지향 평가

Norm-referenced and criterion-referenced measurement


규준지향 해석은 코호트의 학생들의 성적 분포에 학생 간 상대적 성적 분포와 관련이 있다.

Norm-referenced interpretations are concerned with a student’s mark relative to the distribution of marks of a cohort of students.


규준지향 평가에는 높은 성과 낮은 성과를 차별화하기 위해 어려운 질문이 포함될 수 있다. 이것은 자리가 제한되어 있을 때 지원자를 선발하는데 유용하다.

norm-referenced assessments can contain hard questions in order to differentiate high and low performers. This is useful for selecting applicants when there are limited positions available,


기준 참조 해석은, 때로는 객관적 참조라고 부르기도 하며, 과정 학습 결과를 형성하는 기준과 관련이 있다. 이 접근법에서, 학생의 마크는 학습 결과의 달성에 근거하여 해석된다.

Criterion-referenced interpretations, sometimes called objective referenced, are concerned with the criteria forming the learning outcomes of a course. In this approach, a student’s mark is interpreted based on the achievement of learning outcomes


기준설정

Standard setting


대부분의 기준설정 방법은 합격과 불합격의 경계선에 있는 학생이 보였을 수행능력을 추정하는 방식으로 이루어지며, 이를 통해 최소한의 수행능력 수준을 합격선으로 설정한다.

Most standard setting methods use the estimated performance of a borderline student who is on the border between pass and fail to identify a pass mark that establishes the minimum level of performance,


시험 중심 방법은 가장 인기 있는 방식으로, 안고프 방식(및 그 변형), 에벨 방식, 네델스키 방법이 있다. 이러한 접근법은 두 가지 이유로 비난을 받아왔다. 

  • 첫째, 표준 설정자들이 어떤 항목에 정확히 답할 확률을 추정하기 위해 경계선 학생들의 지식과 기술 수준을 상상하는 것은 매우 어렵다. 

  • 둘째로, 표준 설정자가 바뀌면 합격선도 바뀐다(Cizek 1993).

The most popular test-centered methods are the Angoff method (and its modifications), the Ebel method, and the Nedelsky. These methods have been criticized for two reasons. 

  • First, it is very difficult for standard setters to imagine the knowledge and skill levels of borderline students in order to estimate the probability that they answer an item correctly. 

  • Secondly, if standard setters are changed, the pass mark will change (Cizek 1993).


학생 중심의 방법에서 합격 점수는 특정 평가에 기초한 학생들의 실제 성적에 기초한다.

In student-centered methods, the pass mark is based on students’ actual performance on a specific assessment.



성능(표준) 데이터 표시

Presentation of performance (normative) data


학생들의 수행능력이 패스 마크에 미치는 영향을 둘러싼 논란이 있다. 메타 분석 결과, 표준 설정자에게 항목 난이도 값을 제시하여 Angoff's method를 사용하면 합격 점수가 낮게 나타난 것으로 나타났다. 항목 난이도 값을 제공하는 경우, 합격선보다는 표준 설정자 사이의 변동성에 영향을 미친다는 주장이 제기되었다. 또한, 표준 설정자는 "토론과 피드백이 있는 경우에, 최종적으로 정한 합격선에 대해 더 확신을 갖는다"고 느낀다(Hombton et al. 2012).

there is controversy surrounding the influence of performance data on the pass mark. A meta-analysis showed that presenting the item difficulty values to standard setters resulted in low pass mark using Angoff’s methods (Hurtz and Auerbach 2003). It has been argued that providing item difficulty values impacts on the variability among standard setters rather than on the established pass mark. In addition, standard setters “feel more confident about the resulting performance standards if there has been discussion and feedback” (Hambleton et al. 2012).


일부 연구에서는 표준 설정자에게 학생 점수데이터를 제공하면, 합격점 표시가 증가하거나 감소한다는 것을 보여준다.

Some studies show that the pass mark increases or decreases by providing performance data to standard setters.


보상 및 결합 표준 설정 전략

The compensatory and conjunctive standard-setting strategies


보상적 채점은 합격/불합격 판단을 위해 특정 합격/불합격 표시를 비교한 평가 배터리의 합계를 의미한다. 스테이션이 모두 [임상 수행능력]과 같은 단일 구인을 측정하는 경우, 스테이션 점수의 평균은 관심구인을 유의미하게 대표하며, 따라서 하나 또는 두 개 스테이션의 점수가 낮더라도, 전체 수행능력이 적절하다면 무시할 수 있다(Haladyna 및 Hess 1999).

Compensatory strategy/scoring refers to the sum of a battery of assessments which are compared with a particular pass mark to make a pass/fail judgment. If stations all measure a single construct, such as the construct of clinical performance, the average of the station scores meaningfully represents the construct of interest, and hence a low score on one or two stations can be overlooked if overall performance is adequate (Haladyna and Hess 1999).


결합적 채점에서, 각 스테이션은 별도의 합격기준이 있는 단일 구인을 구성하며, 각 스테이션이 환자 안전을 위해 필요하기 때문에 하나의 스테이션을 실패하는 것도 용인되지 않는다. 전문 인증 및 면허 시험의 경우, 평가를 통해 자격증을 받은 사람은 관심 구인construct of interest에 역량을 갖추어야 한다고 믿기 때문에 결합적 채점을 사용할 수 있다.

In conjunctive scoring, each station constitutes a single construct with a separate pass mark, and failing these stations is not tolerated since each station is necessary for patient safety. For professional certification and licensure tests, assessment leads can use conjunctive scoring as they believe that a licentiate should be competent in the construct of interest.


결과적으로, 결합적 채점에서 스테이션 점수의 합계는 무의미하다. 분명히, 탈락자는 보상적 채점보다 결합적 채점에서 더 많을 것이다. 결합적 접근법이 의사의 역량과 능력의 정당화에 중요하지만, 이 전략은 잠재적으로 더 많은 실패를 초래할 수 있으며, 이는 전문직 집단에는 문제가 될 수 있다(Haladyna and Hess 1999). 

Consequently,the sum of the stations scores does not make sense in conjunctive scoring. Clearly, fails will be greater in conjunctive scoring than in compensatory scoring. Although the conjunctive approach is central to the legitimation of a physicians' competency and capability, this strategy will potentially result in more failures, which might be professionally problematic (Haladyna and Hess 1999). 



신뢰도, 타당도

Reliability and validity


신뢰도를 이해하기 위한 유용한 비유는 시험의 "소음"이다. 시험 재시험 신뢰성, 병렬형태, 분할형태, 계수 알파 및 Kuder-Richardson, Hoyt의 방법(분석 분산 접근법을 사용하여 추정), 계수 세타(요소 분석 사용), 오메가, 계량간 신뢰성(합의) 및 일반화성 이론.

A useful analogy for understanding reliability is that of “noise” in a test. 

  • test-re-test reliability, 

  • parallel form, 

  • split-half, 

  • coefficient alpha, and 

  • Kuder–Richardson, 

  • Hoyt’s method (which is estimated using the analysis variance approach), 

  • Coefficient theta (using factor analysis), 

  • Omega, 

  • Inter-rater reliability (agreement), and 

  • Generalizability theory.


타당도

Validity


타당도는 "시험의 제안된 사용에 의해 자격이 있는 시험 점수의 해석을 뒷받침하는 증거와 이론의 정도"와 관련이 있다(AERA(American Educational Research Association, AERA) 1999). 이러한 점을 고려할 때, 평가자는 점수를 어떻게 해석하였으며 어떻게 사용할 것인지에 대해 명확히 해야 한다.

Validity is concerned with “the degree to which evidence and theory support the interpretation of test scores entitled by proposed uses of tests” (American Educational Research Association (AERA) 1999). Given this, assessors should be clear about the proposed interpretation and use of student marks.


타당성은 평가 질문이나 평가 결과와 무관하다는 점을 강조해야 한다. 평가 결과의 추론 및 결정과 관련이 있다(Kane 2002).

It should be emphasized that validity is neither concerned with assessment questions nor the assessment results. It is concerned with the inferences and decisions of the assessment results (Kane 2002).


평가 내용에 기반한 근거

Evidence based on assessment content


평가 질문은 잠재적으로 가능한 모든 평가 질문의 샘플이다.

Assessment questions are a sample of all potential assessment questions


따라서 우리는 가능한 모든 평가 질문에 대해, 평가 질문의 샘플을 얼마나 잘 일반화할 수 있는지 조사할 필요가 있다.

hence we need to investigate how well the sample of assessment questions can be generalized to all possible assessment questions.


평가 질문이 학습 목표와 얼마나 잘 일치하는가?

How well do the assessment questions align with the learning objectives?


평가 질문은 관심 영역을 얼마나 잘 나타내고 있는가?

How well do the assessment questions represent the domain of interest?


콘텐츠 영역에 전문성을 가진 사람은 콘텐츠에 기반한 증거를 제공할 수 있다.

Those who have expertise in the content domain can provide evidence based on content.


응답 프로세스에 대한 근거

Evidence based on response process


이러한 유형의 타당성은 측정하려는 구인이 학생들이 실제로 수행하거나 실제로 보이는 반응의 성격에 얼마나 적합한지에 대한 증거를 요구한다.

This type of validity requires evidence on how much the construct being measured fits the nature of performance or response in which students are engaged.


우울증을 평가하려고 한다면, 

    • 평가 질문이 우울증의 구조에 부합하는지 여부(즉, 구인 대표성)

do the assessment questions fit the construct of depression, i.e. construct representation.

    • 평가 질문은 우울증 구조와 관련이 없는 다른 요인과 관련있지는 않은가? (즉, 구인-무관 변동)

Do assessment questions associate with other factors which are not concerned with the construct of depression, i.e. construct-irrelevant variance?


따라서 측정하려는 구인이 충분히 표현되지 않았거나, 무관한 요인에 의해 영향을 받는 경우 시험의 타당성은 위협받을 것이다.

Therefore, the validity of a test will be threatened, if the construct of interest is underrepresented or influenced by irrelevant factors.


응답프로세스에 대한 타당성 근거얻는 방법은 다양하다. 이러한 방법은 think aloud interview나 focus group interview와 같은 질적 데이터 수집 방법을 기반으로 한다. 예를 들어, 이러한 방법을 통해 OSCE에서 평가자들을 관찰하면 그들이 학생들의 성적을 어떻게 평가하고 해석하는지를 이해할 수 있다. Assessor는 Examiner가 학생을 평가할 때 관련 없는 요인이 아니라, 의도된 기준에 따라 학생을 평가하도록 보장해야 한다.

There are different methods for obtaining validity evidence for the response process. These methods are based on qualitative data collection methods such as think aloud interview and focus group interviews. For example, observing examiners in OSCEs allows us to understand how they rate and interpret the performance of students. Assessors should ensure that the examiners rate students based on the intended criteria rather than irrelevant factors.


내적 구조에 기반한 근거

Evidence based on internal structure


우리는 [문항 및 평가 결과]와 [측정 중인 구인] 사이의 연관성에 대한 증거를 제공하기를 원한다. 평가는 단일 구성(단차원) 또는 다중 구성(다차원)을 측정할 수 있다.

We want to provide evidence of the association between items and assessment results and the construct being measured. An assessment may measure a single construct (unidimensional) or multiple constructs (multidimensional).


내부 구조에 근거하여 증거를 확립하기 위해 다양한 방법을 적용할 수 있다. 

    • 예를 들어, Rasch 분석은 우리가 평가 질문의 정신 구조를 식별할 수 있게 하는 한 가지 방법이다. 

    • 요인 분석을 통해 평가의 내부 구조를 파악할 수 있다. 

    • 또 다른 접근법은 대조군 접근법이라고 하며, 때로는 알려진 집단 접근법이라고도 한다. 여기서, 시험은 관심의 구조에 대해 서로 다른 지식을 가진 두 그룹의 사람들에게 관리된다(극도로 높고 매우 낮은).

An assortment of methods can be applied to establish evidence based on internal structure. 

    • For example, Rasch analysis is one method that enables us to identify the psychometric structure of assessment questions. 

    • Using factor analysis, we can identify the internal structure of assessments. 

    • Another approach is called the contrasted groups approach, sometimes also called the known-group approach. Here, the test is administered to two groups of people who have different knowledge of the construct of interest (extremely high and extremely low).


외부 변인과의 관계에 기반한 근거

Evidenced based on relations to external variables


타당성 증거를 제공하기 위해 AERA가 제안한 또 다른 접근방식은 시험 점수와 외부 변수 사이의 연관성을 확인하는 것이다. 두 평가의 점수는 두 평가 모두 동일한 구조를 측정하는 경우 서로 상관관계가 있다.

Another approach suggested by the AERA for providing validity evidence is to identify the association between test scores with external variables. The scores of two assessments are correlated with each other if both measure the same construct.


예를 들어, 입학 과정에서는 물리학 및 수학의 성과에 대한 점수가 의학에서의 후기 성과와 높은 상관관계가 있는 경우, 입학 지도자는 물리학과 수학을 의학의 진입 요건으로 간주할 수 있다. 이 때, 물리학과 수학 점수를 criterion이라고 하고, 이러한 접근법을 criterion-related validity 이라고 한다.

For example, in the admission process, if scores on performance in physics and mathematics are highly correlated with the later performance in medicine, the admission leaders may consider physics and mathematics as entry requirements for medicine. Here, this physics and mathematics are called criteria and approach is called the criterion-related validity.


CRV에는 두 가지 유형이 있다. 즉 동시 타당도와 예측 타당도. 

    • 동시 타당도는 시험과 기준을 동시에 평가한다. 

    • 예측 타당도는 미래 학생들의 행동을 예측하기 위해 시험 점수를 사용하는 것을 포함한다.

two types: concurrent and predictive. In concurrent validity, the test and the criterion are administered simultaneously. Predictive validity involves using the test scores to predict the behavior of students in the future.


시험의 후속결과에 기반한 근거

Evidence based on consequence of testing


이 기준서에서 설명하는 마지막 유형의 유효성 증거는 평가 결과의 의도된 의도된 의도하지 않은 결과에 기초한다. 평가 문제가 교육 시스템 전체에 어떻게 영향을 미칠 수 있는가? 형성평가와 총괄평가의 의도는 학생들의 능력을 향상시키는 것이다. 

    • 평가는 학생들의 능력을 향상시키는가? 

    • 평가는 학생들의 동기를 강화시켜 줍니까? 

    • 평가는 교육을 향상시키는가?

The last type of validity evidence explained in the Standards is based on the intended and unintended outcomes of assessment results. How can assessment questions influence the education system as whole? The intention of both formative and summative assessments is to improve student ability. 

    • But do they improve the ability of students? 

    • Do they enhance student motivation? 

    • Do they improve teaching?


평가 문항의 분석

The analysis of assessment questions


평가항목의 분석은 학생들이 시험에서 받은 점수에 대한 유용한 정보를 제공한다. 그러나 시험점수에 오류가 있다면, 잘못된 결론을 내릴 수 있다.

The analysis of assessment items provides useful information about the marks that students have received from their exams. Student marks can be misleading if errors are attached to them.


일반적으로 두 가지 통계가 낮은 항목, 즉 난이도 변별도를 식별하는 데 사용된다. 항목 난이도는 질문을 제대로 응답한 학생의 비율을 말한다. 변별도는 항목별로 상위 및 하위 성과자를 구분하는지 여부를 나타낸다.

Two common statistics are usually used to identify the underperforming items: item difficulty and the item discrimination index. Item difficulty refers to the proportion of students who get the question right. Item discrimination indicates whether or not the items differentiate high and low performers.


너무 쉽거나 너무 어려운 문항은 성적 면에서 학생들을 구별하지 못한다.

Too easy and too difficult items do not differentiate students in terms of the performance being measured.


평가항목의 질은 어떻게 판단해야 하는가? 심리측정적 관점에서 보면, 변별도가 높으면 품질이 좋다. 변별도를 계산하기 위해 다양한 접근법을 사용한다. Point-biserial 상관관계(항목점수와 항목점수를 제외한 총점 사이의 상관관계)가 항목 품질에 대한 최상의 지표를 제공한다는 것은 충분히 문서화되었다(Kelley et al. 2002). 좋은 문항이라면 이 상관관계가 0.25 이상이어야 한다. 차별지수의 부정적인 가치는 평가에서 나쁜 성적을 보인 사람들이 그 항목에 정확하게 대답했다는 것을 나타낸다.

How should we judge the quality of assessment items? From a psychometric perspective, an item has good quality if it has a high item discrimination index. A variety of approaches are used to calculate the item-discrimination index. It has been well documented that the point-biserial correlation (the correlation between item score and the total mark excluding the item score) provides the best indicator of the item quality (Kelley et al. 2002). A good item has a point-biserial correlation of 0.25 or above. A negative value of the discrimination index indicates those who performed poorly on assessment answered the item correctly.


Item characteristic curves (ICC)


ICC는 시험의 학생 능력과 항목 난이도 사이의 관계를 설명한다. (그림 1 참조). 이 수치에서 알 수 있듯이, 이 항목은 전체 시험에서 성적이 좋지 않은 학생들이 그 문항을 틀렸음을 의미하므로, 학생을 잘 변별하였다.

ICC illustrate the relationship between student ability and item difficulty (the proportion of students answering an item correctly) of a test. (see Figure 1). As you can see from this figure, this item has discriminated students soundly meaning that those who performed poorly on the whole test answered the item incorrectly.


Option characteristic curve


기능적 오답보기(틀릴 수 있을 정도로 부정확한 항목)는 실제로 적절한 답가지일 경우 전체 시험 점수와 부정적인 상관관계를 가진다. 학생이 잘못된 선택(고교생과 저학력자)을 선택하지 않을 경우, 이 선택사항은 문제에서 제외되어야 한다. 제대로 된 보기라면, 학생 중 5% 이상에서 응답해야 한다(Haladyna 및 Downing 1988).

A functional distractor (plausibly incorrect item) has negative correlation with the total test score, if it is indeed a distractor. If a wrong option is not chosen by students (high and low performers), the option should be excluded from the question. A functional distractor should have a distribution frequency of greater than 5% for a cohort of students (Haladyna and Downing 1988).


그림 2는 여러 학생들로부터 객관식 질문의 추적선을 보여준다. 보기 A는 학생 능력이 증가함에 따라 이 대안을 선택하는 경향이 줄어들었음을 보여준다. 보기 B, C, D는 이 세 가지 부정확한 대안들이 타당하지 않다는 것을 반영하는 소수의 학생들에 의해 선택되었고, 이 항목이 상위 성과자와 하위 성과자를 구분하지 않는다는 것을 쉽게 제거했다. 올바른 보기 E는 대다수의 학생들에 의해 선택되었고 이 대안들을 선택하는 것은 학생들의 능력이 증가함에 따라 높게 되었다.

Figure 2 shows that the trace lines in a multiple-choice question from a cohort of students. Alternative A shows that the tendency towards the selection of this alternative was decreased as student ability was increased. Alternatives B, C and D were selected by few students reflecting that these three incorrect alternatives were not plausible and easily eliminated meaning that this item did not discriminate between high and low performers. Correct alternative E was selected by the majority of students and selecting this alternative became high as student ability increased.


Conclusions






 2017 Oct;39(10):1010-1015. doi: 10.1080/0142159X.2017.1359521. Epub 2017 Aug 2.

The foundations of measurement and assessment in medical education.

Author information

1
Medical Education Unit , Educational Development Center, The University of Nottingham , Nottingham , UK.
2
Medical Education Unit , The Medical School, The University of Nottingham , Nottingham , UK.

Abstract

As a medical educator, you may be directly or indirectly involved in the quality of assessments. Measurement has a substantial role in developing the quality of assessment questions and student learning. The information provided by psychometric data can improve pedagogical issues in medical education. Through measurement we are able to assess the learning experiences of students. Standard setting plays an important role in assessing the performance quality of students as doctors in the future. Presentation of performance data for standard setters may contribute towards developing a credible and defensible pass mark. Validity and reliability of test scores are the most important factors for developing quality assessment questions. Analysis of the answers to individual questions provides useful feedback for assessment leads to improve the quality of each question, and hence make students' marks fair in terms of diversity and ethnicity. Item Characteristic Curves (ICC) can send signals to assessment leads to improve the quality of individual questions.

PMID:
 
28768456
 
DOI:
 
10.1080/0142159X.2017.1359521


부담은 갖는 자의 것: 학습자의 프로그램적 평가 인식에 대한 국제연구(Med Educ, 2018)

Stakes in the eye of the beholder: an international study of learners’ perceptions within programmatic assessment

Suzanne Schut,1,2 Erik Driessen,1,2 Jan van Tartwijk,3 Cees van der Vleuten1,2 & Sylvia Heeneman1,4



도입

INTRODUCTION


평가의 학습과 의사결정 기능을 모두 최적화하기 위한 평가 프로그램을 설계할 때 프로그래밍 평가를 프레임워크로 사용할 수 있다.7

Programmatic assessment can be used as a framework when designing assessment programmes that are aimed at optimising both the learning and the decision-making function of assessment.7


비록 기존 연구에 다르면 이 평가 접근법이 자기조절학습 개발을 지원하는 데 도움이 될 수 있다는 긍정적인 결과를 보여주지만, 이 접근법을 시행하는 것은 도전이고, 현실적으로 많은 원칙들은 여전히 불확실하다.

although research shows the first positive results that this assessment approach might be beneficial for supporting the development of self-regulated learning,5,8,9 implementing this approach is a challenge and many of the principles are still uncertain in practice.4,5,10


프로그램 평가에서 중요한 개념 중 하나는 평가는 평가의 부담stake와 개별 평가의 수 사이의 비례 관계를 갖는 연속체로서 제안된다는 것이다.7 각 개별 평가 자체는 학습자에게 제한된 결과(즉, 낮은 부담)를 가지지만, 평가 결과가 통합되면 졸업 또는 진급에 대한 결정에 사용될 때 평가가 중대해질 수 있다(예: 높은 부담).

One of the important concepts within programmatic assessment is that assessment is proposed as a continuum with a proportional relationship between what is at stake and the number of individual assessments.7 Each individual assessment itself has limited consequences for the learner (i.e. is low stakes) but the consequences of the evaluation of the aggregated assessments can be substantial when they are used for a decision about, for instance, graduation or promotion (i.e. high stakes).


개별 평가의 부담을 낮추는 것은 프로그램 평가의 학습 잠재력을 최적하기 위해 필요하며, 학습자에게는 자신의 성과에 대한 지속적인 정보의 흐름을 제공할 수 있다. 그러나 연구자들은 학습을 자극하고 최적화하기 위해 [저부담 평가를 개발하려는 설계자의 의도]와 [이러한 평가를 총괄평가로 생각하여 학습자들이 갖는 고부담 인식]이 사이에 불일치를 보고하였다. 이는 잠재적으로 학습자가 평가를 학습 기회가 아닌 장애물로서 생각하게 되고, 각각의 개별 평가에 집중하게 만든다.

Lowering the stakes of the individual assessment is supposed to optimise and benefit the learning potential of programmatic assessment, and provide learners with a continuous flow of information about their performance.11 However, researchers have reported a mismatch between the designers’ intentions to develop low-stakes assessments to stimulate and optimise learning, and learners’ perceptions of these assessments as high stakes and summative.4,5 This potentially leads learners to focus on each individual assessment as a hurdle and not as a learning opportunity.12,13


모든 평가 시스템이 학습에 미치는 영향은 학습자의 인식에 의해 매개된다.13,14

The impact of any assessment system on learning is mediated by learner’s perceptions.13,14




METHODS


표본

Sample


우리는 구성주의 기반 이론에서 영감을 받아 데이터 수집과 분석에 개방적이고 질적인 접근법을 사용했다.15,16 포함 기준은 다음과 같다. 

  • (i) 학습자에게 진행 상황에 대한 정보를 제공하는 것을 목표로 하는 저점 평가와 복수의 저점 평가 통합 평가에 기초한 높은 수준의 의사결정을 포함하여 평가에 대한 프로그래밍 방식을 사용한다. 

  • (ii) 최적의 구현 문제로 인한 평가 이해에 대한 간섭을 최소화하기 위해 프로그램 평가의 장기적인 안정적 구현이 있다.

We used an open and qualitative approach to data gathering and analyses, inspired by constructivist grounded theory.15,16 The inclusion criteria were: 

  • (i) a programmatic approach to assessment is used, including low-stakes assessments aiming to provide learners with information about their progress, and high-stakes decisions regarding learners’ progress are based on the evaluation of the aggregation of multiple low-stakes assessments; and 

  • (ii) there is a stable implementation of programmatic assessment over a longer period to minimise interference in the perceptions of assessment stakes due to suboptimal implementation issues.


Table 1.


자료 수집

Data collection


A convenience sampling approach was taken based on learners’ availability at predetermined times. 


자료 분석

Data analysis


Interview data were analysed using a constant comparative approach.15 

    • Independent analysis of the first four transcripts using an open coding strategy was carried out by SS and SH. During this process, coding results and relations between codes were discussed constantly. Differences were discussed until consensus was reached. 

    • This process resulted in initial codes and preliminary themes, which were used by the first author (SS) for coding of the next four transcripts. 

    • When new codes and themes emerged, these transcripts too were independently analysed by the second researcher (SH) to test the fit and relevance of the new codes and themes. 

    • Necessary adaptations to the interview questions were made for the subsequent interviews. 

    • Through coding and constant comparison, data were organised around two main categories: programme factors and (inter) personal factors.

    • Several discussions with all members of the research team were organised in order to reach consensus on the themes that emerged, on the depth of the preliminary analysis and on the relationships between codes and categories in order to raise the analytical level from categorical to conceptional.


Furthermore, two members of the research team (ED and JvT) read two additional transcripts to review the data and to ensure a fit with the codes and discussed themes. Data collection and analysis continued until theoretical sufficiency was reached, defined as ‘the stage at which categories seem to cope adequately with new data without requiring continued extensions and modifications’.17


포화의 기준

Theoretical sufficiency was proposed by Dey17 and offers a more nuanced alternative to saturation to deal with issues concerning the sense of completeness and certainty implied by theoretical saturation.18 The following criteria were used: 

    • (i) new data could be fitted in categories that were already developed; 

    • (ii) no new insights, themes, issues or counter-examples or cases arose; and 

    • (iii) consensus within the research team was reached about the notion of sufficiency with the collected and analysed data.15–17 

All interviews were then re- read by the first researcher to ensure that no relevant information was missed.


반성성

Reflexivity

  • We acknowledge that data in this study are co- constructed by interactions with the participants, as are the interpretations and meaning we gave to these data.15 

  • To prevent biases as much as possible, we brought together a multidisciplinary research team: SS and ED have a background in educational sciences, CvdV in psychology, JvT in sociology and SH in biomedical sciences. SS, ED, CvdV and SH all have involvement in programmatic assessment in medical education. 

  • To avoid tunnel vision in our interpretation of the data, we brought in an outsider perspective: JvT works in the social sciences and in teacher education and is not directly involved in medical education.




결과
RESULTS


전반적으로, 학습자들은 '부담'에 대해서 프로그램 평가 모델 내에서 정의된 것과 동일한 정의를 내렸다. 즉 평가에 뒤따르는 결과라고 보았다. 그러나 이러한 결과는 주로 프로그램 평가 모델에서 제안된 연속체로 간주되지 않고 이분법으로 간주되었다. 평가는 부담이 있거나(즉, 결과가 있음), 전혀 부담이 없었다(즉, 결과가 없음), '평가되지 않는 것은 아무도 관심을 갖지 않는다. 재교육 또는 재시험이 있는 것과는 완전 다르다(A2).

Overall, learners shared the same definition of stakes as defined within the model of programmatic assessment; that is, the consequences following an assessment. However, these consequences were not primarily considered as the proposed continuum in the programmatic assessment model, but rather as a dichotomy. Assessment comes with stakes (i.e. with consequences) or no stakes at all (i.e. no consequences); ‘It doesn’t count, nobody cares, it’s not like you have to remediate or take a resit or whatever’ (A2).


모든 프로그램에서, 연속체로서의 평가 부담의 개념은 [학습과 평가 환경 내에서 행동, 통제 및 선택을 할 수 있는 학습자가 스스로 인식한 능력]과 강하게 관련되어 있었다. 평가 프로그램의 몇 가지 설계 요인은 통제력을 행사할 수 있는 학습자의 기회에 영향을 주었다. 학습자가 이러한 기회에 행동했는지는 경험과 자신감 사이의 상호 작용과 교사 같은 평가 환경의 다른 사람과의 관계에 달려 있다.

In all different programmes, learners’ conceptualisation of assessment stakes as a continuum was strongly related to their perceived ability to act, control and make choices within the learning and assessment environment. Several design factors of the assessment programme influenced learners’ opportunities to exercise control. Whether or not learners acted upon these opportunities depended on the interplay between experience and confidence, as well as the relationship with others in the assessment environment such as teachers.



평가 프로그램 내에서 통제의 기회

Opportunities for control within the assessment programme


몇몇 프로그램 설계 요인은 통제력을 행사할 수 있는 학습자의 기회와 이해관계에 영향을 미쳤다.

Several programme design factors influenced learners’ opportunities to exercise control and with that the perception of stakes.


결과에 영향을 줄 수 있는 기회

Opportunities to influence outcomes


일반 역량(예: 커뮤니케이션, 협업 및 전문성)에서 진보progress를 하는 경우, 학습자는 이러한 역량의 요구사항에 대해 여러 가지 관점을 경험했고, 이는 종종 명확한 표준이나 규범 없다고 인식되어, 요구 성과에 대해 자신이 더 큰 영향을 미칠 수 있다고 인식하게 되었다.

In the case of making progress in generic competencies (e.g. communication, collaboration and professionalism), learners experienced multiple perspectives on the requirements of these competencies, often without a clear standard or norm, resulting in a perception of more influence on the required outcomes.


대조적으로, 대부분의 학습자들은 표준화된 지식 시험을 고부담 평가로 간주했고, 이러한 평가 과제를 달성해야 할 고정된 규범norm과 연관시켰다. 학생들은 과거에 이와 비슷한, 사전에 구성된 시험 및 답안에 따라 '정답 찾기'를 하는 평가에서 성공해왔으며, 학생들은 그 결과가 시험의 내용, 품질 및 관련성에 크게 의존한다는 느낌을 받고 있었다. 이 때문에 평가와 결과에 대한 자신의 통제권이 거의 없다는 인식이 생겼으며, 특히 이러한 유형의 평가로 인해 학점(성적)이 매겨질 경우 더욱 그러하다.

By contrast, most learners considered standardised knowledge tests as high stakes and associated these assessment tasks with a fixed norm to be achieved. They experienced success in such assessments as being able to ‘find the correct answer’, according to a pre-constructed test and answer key, which led to a feeling of being highly dependent on the content, quality and relevance of the specific test. This caused a perception of little to no control over the assessment and outcomes, especially when this type of assessment resulted in grades:


또한, 평가자와 상호작용할 수 있는 기회(예: 구술 검사 중 또는 평가자가 직접 관찰하는 동안 학습자와 상호작용할 때)는 학습자가 평가 결과에 잠재적으로 영향을 미칠 수 있는 것으로 인식되었다. 학습자들은 심사원과의 상호작용이 있으면 자신의 진행과 능력을 보여줄 수 있는 더 많은 기회가 있다고 보았고, 평가 과정과 결과에 대한 통제력을 더 많이 느끼게 되었다고 지적했다. 이것은 인지된 부담을 낮췄다.

Furthermore, the opportunity to interact with the assessor (e.g. during an oral examination, or when an assessor would interact with the learner during direct observation) was perceived as a potential influence on the assessment outcome. Learners indicated that interaction with the assessor provided more opportunities to show their progress and abilities, and made them feel more in control over the process and the outcome of the assessment. This lowered the perceived stakes.


그러나 반대로, 평가자와의 상호작용이 인지된 부담을 높일 수도 있다. 학습자들은 이것이 특히 평가자가 위협적일 때라든가, 평가자가 중요한 역할 모델이라든가, 자신의 관심 분야에 종사할 때  체면을 잃을 위험이 있다고 생각했다

However, interaction with the assessor could also raise the perceived stakes: learners thought this carried the risk of losing face, especially when the assessor was intimidating, an important role model or worked in a discipline of interest. 


근거를 수집할 기회

Opportunities to collect evidence


모든 프로그램에서 학습자들은 자신의 진행 상황을 모니터링하고 보여주기 위해 포트폴리오 내에서 증거를 수집했다. 그러나 프로그램마다 학습자가 증거를 수집하고 선택하는 자유가 달랐다. 일부 프로그램은 (형성평가용 자가 테스트를 하거나, 학습자가 스스로 직접 관찰받을지를 결정하고 요청하도록 함으로써) 학습자에게 평가를 시작할 기회를 주었다. 이러한 통제의 느낌은 인식된 부담을 낮췄을 뿐만 아니라, 더 중요하게는 평가를 더욱 목적적합하게 만드는 것처럼 보였다.

In all programmes, learners collected evidence within a portfolio, with the aim of monitoring and showing their progress. However, programmes varied in the freedom learners had to collect and select evidence. Some programmes gave learners the opportunity to initiate an assessment, by taking formative self- tests or encouraging learners to ask for direct observation on the learners’ own terms. This feeling of control not only lowered the perceived stakes, but more importantly also seemed to make the assessment feel more relevant:


결과나 후속 조치에 다른 사람이 자동으로 접근할 수 없고, 어떤 내용을 공유할지 학습자가 통제할 수 있을 때, 부담 인식은 더 낮았다. 학습자들은 포트폴리오에 대한 자신의 증거를 선택할 기회가 주어졌을 때, 더 많은 선택권을 경험했고, 더 많은 통제권이 있다는 느낌을 받았다. 

The perceived stakes were lower when results or follow-ups were not automatically accessible to others and learners could control what was shared. Learners experienced more choice and felt more in control when given the opportunity to select their own evidence for the portfolio: 


개선의 기회

Opportunities to improve


불충분한 성능performance을 개선하기 위해 프로그램이 제공하는 절차는 각 개별 평가의 영향에 대한 학습자의 통제능력 인식에 영향을 미쳤다. 중요한 요소는 개선의 기회가 교육 프로그램에 통합되는지 여부였다. 이것이 정규 커리큘럼이나 평가 활동과 별도로 이루어져야 할 때, 개선에 필요한 시간 투자는 과부하처럼 느껴졌고, 부담은 높아졌으며 학습자들은 이를 피하고자 더욱 동기부여를 받았다.

The procedures offered by programmes to improve earlier insufficient performance influenced learners’ perceived control of the impact of each individual assessment. An important factor was whether or not opportunities for improvement were integrated into the educational programme. When this had to be done next to the regular curriculum or assessment activities, the time investment needed for improvement felt like an overload, the stakes became higher and learners were more motivated to avoid this:


대부분의 프로그램은 학습자가 진보와 개선을 보여줄 수 있는 더 많은 기회를 촉진하기 위한 다중 보완적 평가를 제공했다. 이로써 개별 평가의 부담이 낮아졌다. 한 개인의 '스냅샷'에만 의존하지 않는 것은, 특히 평가가 경향성이나 피드백 메시지에 초점을 맞추었을 때, 자신의 성과를 보여주고 개선할 수 있는 여러 기회 때문에 학습자가 더 많은 통제권을 갖는다는 느낌을 주었다.

Most programmes provided multiple complementary assessments that were meant to facilitate more opportunities for learners to show progress and improvement. This lowered the stakes of the individual assessment. Not being solely dependent on one individual ‘snapshot’ gave learners more feeling of being in control, because of multiple opportunities to show and improve on their performance, especially when the focus was on trends or reoccurring feedback messages:


보완적 평가의 수가 평가 이해에 긍정적인 영향을 미쳤지만, 이것이 너무 늘어날 경우, 평가가 무의미해지고 프로그램의 요건을 충족하기 위한 checkbox activity가 되는 소위 '오버킬'의 지점에 도달하기도 하였다.

Although the number of complementary assessments influenced the perception of assessment stakes positively, this also came with reaching a point of so-called ‘overkill’, in which the assessment became meaningless and a checkbox activity to meet the requirements of the programme:


그것은 거의 평가에 대한 사냥이 된다. 그리고 더 이상 품질이나 그 유용성에 관한 것이 아니라 그저 양에 관한 것이다.(B1)

It almost becomes a hunt on evaluations. And it’s not about the quality or their usefulness anymore, but just about the quantity. (B1)


점수를 개별 평가에 사용하고 학습자가 여러 결과를 평균하는 방법으로 불충분한 성과를 수정할 수 있을 때, 이는 학습자가 일관성coherence을 이해하는 데 기여했다. 하지만, 성적을 받는 것은 또한 학습자들 사이의 경쟁, 불안감 그리고 성적 지향에 기여했고, 이것은 부담을 높였다.

When grades were used for individual assessments, and learners could correct insufficient performance by ways of averaging multiple results, this contributed to learners’ understanding of the coherence. However, receiving grades also contributed to competition amongst learners, anxiety and a performance orientation, which raised the stakes.



통제능력에 대한 신념에 영향을 미치는 요인

Factors influencing learners’ believed ability to exercise control


학습자들은 통제력을 행사할 수 있는 능력이 있다고 믿었을 때, 평가 프로그램에서 제공한 기회를 통제용으로 사용했다.

Learners used opportunities provided by the assessment programme for control, when they believed they had the ability to exercise control.


경험과 자신감의 상호작용

The interplay between experience and confidence


과거의 평가 경험은 모든 프로그램에서 학습자의 부담 인식에 영향을 미쳤다. 대부분의 학습자들은 '성공'이란 최고가 되는 것이라고 정의하는 것에 익숙했고, 높은 점수나 성적을 받는 데 익숙했다.

Previous experience of assessments influenced the perceived stakes within all programmes. Most learners were accustomed to defining success as being top of their class and getting high scores or grades:


과거에 학생들은 종종 그러한 성과에 대해 보상을 받았고, 심지어 그런 성과를 필수품이라 여겨기도 했다. 의과대학에 입학하려면 높은 중등학교 성적 평균이 요구되었던 상황이 그 예다. 그 후 평가는 높은 성적에 대한 압박, 불안감, 실패에 대한 두려움과 연관되었다. 그러한 평가 경험은 강한 영향을 미쳤다. 이러한 연관성이 보다 학습 지향적인 평가 인식으로 대체되기 위해서는 새로운 경험이 필요했다. 학습자들은 저부담 평가의 의미와 결과에 대한 자신감을 얻어야 했고, 이는 부담에 대한 인식에 크게 기여했다. 최초의 저부담 평가는 모든 학생에게 고부담 평가로 인식되었고, 이는 특히 학습자들이 기대되는 사항이나 요구를 충족시킬 수 없을 때, 만약 그 요건을 충족하지 못하면 무엇이 일어나는지 완전히 이해하지 못했을 때 발생했다: '나는 [만약 우리가 나쁜 성과를 거둘 경우] 일어날 일을 정확히 알지 못함으로써 많은 불안이 야기되었다고 생각한다. ' (A1). 학습자들은 점차 친숙해져서, 그런 평가에 더 익숙해 질수록 불안감이 덜해졌다.

In programmes previously attended, this was often rewarded and even viewed as a necessity. An example is the situation when admission to a medical school required a high secondary school grade point average. Assessment was then associated with pressure for high performance, insecurities and fear of failing. Such assessment experiences had a strong impact. New experiences were required before these associations were replaced with a more learning-oriented perception of assessment. Learners had to gain confidence in the meaning and consequences of the low-stakes assessment, which contributed significantly to the perception of stakes. First-time experiences with low-stakes assessments were unanimously perceived as high stakes, especially when learners did not fully understand what was expected, or what could happen when they were unable to meet the demands: ‘I think a lot of the anxiety was caused by us not knowing exactly what was going to happen [if we would perform poorly on an OSCE]’ (A1). The more familiar learners became with such assessments, the less anxious they felt.



교사의 영향

The influence of teachers


통제력을 행사할 수 있는 능력과 그에 따른 저부담 관계라는 평가에 대한 인식은 학습자들과 교사들의 관계에 크게 의존하고 있는 것처럼 보였다. 학습자들이 교사가 자신의 옹호자라고 느끼고, 학습을 용이하게 하고, 실험과 통제를 할 수 있게 했을, 그들은 저부담 평가를 진정으로 저부담으로, 그리고 학습에 의미 있는 것으로 해석할 수 있었고 안전하다고 느꼈다. 그제서야 평가 환경은 안전한 학습 및 실험 장소로 이해되었다: '나는 멍청해 보여도 괜찮다' (A1) '실패의 공포를 느끼기 힘들 것 같다' (C1)

The believed ability to exercise control and therefore the perception of assessment as low stakes seemed strongly dependent on learners’ relationship with their teachers. When learners felt the teacher was their advocate, facilitated learning, and allowed them to experiment and to take control, they felt safe and able to interpret low- stakes assessments as low stakes and meaningful for learning. The assessment environment was then described as a safe place to learn and experiment: ‘I feel very comfortable looking stupid’ (A1) and ‘I think it’s hard to feel the fear of failing’ (C1).



그래서 그는 모든 힘을 가지고 있다. 그런 느낌이야. 그는 그것에 대해 할 말이 많다. 그가 중요하게 여기는 것들은, 그는 그것들을 골라서 그것에 초점을 맞춘다. 그리고 그들이 가지고 있는 결과는, 나는 그러한 시험이 실제로 가져야만 하는 결과보다 훨씬 더 크다고 생각한다. (B

So he [the teacher] has all the power. That’s how it feels to me. He has a lot to say about it. The things he considers important, he picks themout and focuses on them. And the consequence they have, I think are much bigger than the consequences such a test should actually have. (B1)


고찰

DISCUSSION


프로그램적 평가가 제안하는 평가부담연속체의 기초가 되는 이론적 가정은 저부담 평가들이 학습 기회를 창출하고, 학습자의 학습을 자기조절하는 데 사용될 수 있도록, 학습자에게 지속적인 정보의 흐름을 발생시킨다는 것이다.7,11 이를 위해서 평가는 저부담으로 의도되거나 설계되어야 하며, 학습자가 저부담으로 인식해주어야 한다.

The theoretical assumption underlying the proposed continuum of assessment stakes within programmatic assessment, is that low-stakes assessments create learning opportunities and generate a continuous flow of information for learners that can be used to self-regulate their learning.7,11 This requires assessment that is intended or designed to be low stakes, to be perceived as such by the learner.12–14


통제권을 갖는다는 느낌은 학습 및 평가 환경 내에서 행동, 통제 및 선택을 할 수 있는 학습자의 인식 능력이라고 불리는 기관의 개념과 강하게 연계된다.12,13,19

the feeling of being in control is strongly linked to the concept of agency, referred to as learners’ perceived ability to act, control and make choices within the learning and assessment environment.12,13,19


평가를 이용한 지속적인 개발을 위한 학습자의 agency의 중요성은 이미 다른 연구에서도 강조되었다.

The value and importance of learners’ agency for continuous development using assessment has already been highlighted by others1,8,12,19–21


표준화된 평가는 학습자에게 agency의 기회를 거의 제공하지 않는다. 필요하며 이해할 수 있지만, 표준화는 개별 학습자가 제어권을 행사할 수 있는 공간을 거의 남겨두지 않고 프로그램 레벨에서 통제한다. 이는 학습자가 학습 및 평가 경험으로부터 멀어지게 할 수도 있다.23,24

Standardised assessments provide little opportunity for learners’ agency. Although necessary and understandable, standardisation places the control at the programme level, leaving little space for the individual learner to exercise control. This might even alienate learners from their learning and assessment experience.23,24


그러나 프로그램에서 학습자에게 스스로의 평가를 시작할 수 있는 기회를 허용했을 때, 그리고 학습자가 progress의 증거를 선택할 수 있게 되었을 때, 주인의식agency이 장려되었다.

A sense of agency was, however, encouraged when the programme allowed learners to initiate their own assessment, and when learners were enabled to select evidence of progress.


그러나 일부 학습자들은 이 관계가 [불평등한 힘의 균형]으로 특징지어지며, 결국 평가 부담에 대한 인식을 악화시켰다고 느꼈다. 

However, some learners felt that the relationship was characterised by an unequal power balance thatinfluenced their perception of assessment stakes: 


표준화된 지식 시험을 사용하더라도, 학습자가 진보progress를 모니터하고 보여줄 수 있는 기회를 늘리는 것이 부담을 낮추는 또 다른 전략이 될 수 있다. 그러나 프로그램 설계자는 학습자와 교수진 모두에게 평가 과부하가 발생하지 않도록 주의해야 한다.

Increasing the number of opportunities for learners to monitor and show progress, even with standardised knowledge tests, can be another strategy to lower the stakes. Programme designers should take care, however, not to create an assessment overload for both learners and faculty members.


성적grades과 보상 기회를 사용하면 보완적 평가 간의 일관성coherence을 강조할 수 있지만, 이는 덜 바람직한 학습 전략과 행동을 장려하는 역효과를 가져올 수 있다.27 성적을 주는 방식은 지속적 개선에 초점을 둔 자극보다는 성과와 경쟁에 초점을 맞추도록 유도하는 암묵적 위험을 가질 수 있다..12,28 성적을 제공하지 않는 것은 학습자의 목표가 개선되는 것으로 설명되는 학습 지향점으로의 전환을 가능하게 하는 것으로 보였다.29,30

Although using grades and opportunities to compensate can highlight the coherence amongst complementary assessments, this may have the adverse effect of encouraging different, less desirable, study strategies and behaviours.27 Providing grades has the implicit risk of encouraging a focus on outcomes and competition rather than stimulating a focus on continuous improvement.12,28 Not providing grades seemed to enable a shift to a learning orientation, described as one in which the learner’s goal is to improve.29,30


초점은 [학습 진행 상황을 분석하고 반성하기 위해 저부담 평가에서 생성된 정보를 사용하는 것]과 이것이 [미래 학습을 어떻게 지시해야 하는지]에 초점을 맞추어야 한다. 우리는 학습자에게 단순히 quantity 요건을 설정하기 보다는, 진행률과 개선을 보여주기 위해 필요한 적절한 수의 평가를 제어할 수 있는 더 많은 기회를 주는 것을 고려할 수 있다. 이것은 평가 경험을 보다 personal inquiry로 만들 수 있고, 개선 계획에 대한 주인의식ownership을 창출할 수 있다.

The focus should be on using information generated by low-stakes assessment to analyse and reflect upon learning progress and how this should direct future learning. We could consider giving more opportunity for the learner to control the appropriate number of assessments needed to show progress and improvement, rather than setting up quantity requirements. This can make the assessment experience a more personal inquiry and create ownership over the plan of improvement.


이런 식으로 생각하는 것이 결과consequence가 불필요하다고 말하는 것은 아니다: 학습자들이 자신의 약점을 다루거나 자신의 장단점에 관한 정보에 따라 행동할 동기를 거의 느끼지 않았을 때, 저부담 평가는 좀처럼 개선에 초점을 맞추지 못했다. 그러므로 소위 사후 평가 프로세스(후속 활동 또는 성찰 작업)의 구현은 지원 프로그램 구조의 설계(즉, 개선의 여지가 용이함)와 교사의 역할(즉, 개선 대 성과 평가) 모두에서 필수적이다.

Thinking this way does not take away the need for some type of consequences: when learners perceived little incentive to address their weaknesses or to act upon information concerning their strengths and weaknesses, low- stakes assessment rarely led to a focus on improvement. The implementation of the so-called post-assessment process (the follow-up activities or reflective tasks) is therefore essential,31 both in the design of a supportive programme structure (i.e. facilitating room for improvement) and in the role of the teacher (i.e. valuing and stimulating improvement versus performance).


마지막으로, 학습자들의 자신감과 통제력을 행사할 수 있다는 능력에 대한 신념은 시간이 지나면서 증가하는 것처럼 보였다. 프로그램 평가 내의 초심자는 새로운 평가 접근법에 적응하고 익숙해지기 위한 시간이 필요했다. 고부담 평가와 관련된 경험은 차차 단계적으로 잊혀져야 하며, 교사는 학습자의 경험 수준으로 지도와 방향을 조정할 필요가 있다.32 또한 교사-학습자 관계가 안전하며 학습자의 자율성으로 특징지어질 수 있을 때 학습자는 평가를 사용하여 학습자를 지원support할 가능성이 더 높다. 프로그램적 평가 내에서 학습자는 평가 과정에 대한 독립성과 통제권을 허가받아야 한다. 그렇게 해야만 학습자들은 평가를 저부담으로 인식할 것이다.

Last, learners’ confidence and their believed ability to exercise control seemed to increase over time. Novices within programmatic assessment needed time to adjust to and get familiar with the new assessment approach. Associations and experiences with high-stakes assessment need to be phased out and teachers need to adjust the level of guidance and direction to the experience level of learners.32 Moreover, when the teacher–learner relationship can be characterised as safe and with autonomy for the learner, learners are more likely to use assessment to support their learning. Within programmatic assessment, learners should be allowed independence and control over the assessment process. Only then, will learners perceive assessment as low stakes.


우리의 결과는 평가 과정1,33 내에서 학습자와 교사가 공동의 책임을 지라는 요구와 잘 들어맞고, 학습자가 피드백과 평가를 통해 적극적으로 참여할 수 있도록 대화가 번창할 수 있는 학습 환경을 만들어야 한다.21,34

Our results fit well with the calls to create a shared responsibility between learners and teachers within the assessment process1,33 and with the need to create a learning environment where dialogue can flourish to engage learners actively with feedback and assessment.21,34


교사들은 이러한 안전한 학습 환경을 조성하고 프로그램적 평가의 잠재력을 활용하는데 있어 기본적이다.

Teachers are fundamental for creating this safe learning environment and utilising the potential of programmatic assessment.



한계
Limitations


이 연구는 몇 가지 한계가 있다. 첫째, 의학 교육 내 학습자는 일반적으로 엄격한 과정 입학 절차를 통해 선발되는 높은 성취도의 학생으로 특징지어진다. 평가 부담에 대한 인식이 저성취 학습자에게는 다르게 작용할 수 있다.

This study has several limitations. Firstly, learners within medical education are typically characterised as high achievers, selected through rigorous course admission procedures. The perception of assessment stakes might work differently for low- achieving learners.


마지막으로, 교사 역할의 중요성을 고려할 때, 미래 연구는 평가의 이해관계에 대한 교사들의 인식을 탐구함으로써 학생들의 자기 보고된 인식을 삼각측량화해야 한다.

Finally, given the importance of the role of the teacher, future studies should triangulate students’ self-reported perceptions by exploring the perceptions of teachers regarding the stakes of assessment.



결론

CONCLUSION


8 Altahawi F, Sisk B, Poloskey S, Hicks C, Dannefer EF. Student perspectives on assessment: experience in a competency-based portfolio system. Med Teach 2012;34 (3):221–5.


20 Watling C. The uneasy alliance of assessment and feedback. Perspect Med Educ 2016;5 (5):262–4.


31 Eva KW, Munoz J, Hanson MD, Walsh A, Wakefield J. Which factors, personal or external, most influence students’ generation of learning goals? Acad Med 2010;85 (10 Suppl):S102–5.







 2018 Jun;52(6):654-663. doi: 10.1111/medu.13532. Epub 2018 Mar 24.

Stakes in the eye of the beholder: an international study of learners' perceptions within programmatic assessment.

Author information

1
Faculty of Health, Medicine and Life Sciences, School of Health Professions Education, Maastricht University, Maastricht, the Netherlands.
2
Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, the Netherlands.
3
Department of Education, Utrecht University, Utrecht, the Netherlands.
4
Department of Pathology, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, the Netherlands.

Abstract

OBJECTIVES:

Within programmatic assessment, the ambition is to simultaneously optimise the feedback and the decision-making function of assessment. In this approach, individual assessments are intended to be low stakes. In practice, however, learners often perceive assessments designed to be low stakes as high stakes. In this study, we explored how learners perceive assessment stakes within programmatic assessment and which factors influence these perceptions.

METHODS:

Twenty-six learners were interviewed from three different countries and five different programmes, ranging from undergraduate to postgraduate medical education. The interviews explored learners' experience with and perception of assessment stakes. An open and qualitative approach to data gathering and analyses inspired by the constructivist grounded theory approach was used to analyse the data and reveal underlying mechanisms influencing learners' perceptions.

RESULTS:

Learners' sense of control emerged from the analysis as key for understanding learners' perception of assessment stakes. Several design factors of the assessment programme provided or hindered learners' opportunities to exercise control over the assessmentexperience, mainly the opportunities to influence assessment outcomes, to collect evidence and to improve. Teacher-learner relationships that were characterised by learners' autonomy and in which learners feel safe were important for learners' believed ability to exercise control and to use assessment to support their learning.

CONCLUSIONS:

Knowledge of the factors that influence the perception of assessment stakes can help design effective assessmentprogrammes in which assessment supports learning. Learners' opportunities for agency, a supportive programme structure and the role of the teacher are particularly powerful mechanisms to stimulate the learning value of programmatic assessment.

PMID:
 
29572920
 
PMCID:
 
PMC6001565
 
DOI:
 
10.1111/medu.13532
[Indexed for MEDLINE] 
Free PMC Article


의학교육의 평가 전환: 임상추론 평가에 불확실성 통합하기 (Acad Med, 2017)

Transforming Medical Assessment: Integrating Uncertainty Into the Evaluation of Clinical Reasoning in Medical Education

Suzette Cooke, MD, PhD, and Jean-Francois Lemay, MD



임상 추론의 기술이 의사 성과에 그렇게 필수적인 경우, 분명 이 핵심 역량은 의료 교육에서 형성 및 총괄 평가에서 엄청난 관심을 받아야 할 것이다. 하지만 그럴까?

If the skill of clinical reasoning is so essential to physician performance then surely this core competency receives targeted attention in formative and summative evaluations in medical education. But does it?


현재까지, 의료 연수생 평가는 주로 지식과 이해의 기초적 요소에 기초하고 있으며, 특히 자격시험이라는 맥락에서 그러하다. 임상 추론의 기술과 관련된 필수적이고 고차적인 기능의 형태적 또는 종합적 평가에 훨씬 적은 주의를 기울인다. 이와 같이 임상적 성과에 필요한 것과 현재 평가되고 있는 것 사이에는 차이가 존재한다.

To date, evaluation of medical trainees is based primarily on the foundational elements of knowledge and comprehension, especially in the context of certifying examinations. Much less attention is placed on the formative or summative assessment of essential, higher-order functions associated with the skill of clinical reasoning. As such, a gap exists between what we recognize is required for clinical performance and what is currently being assessed.


우리는 의학에서 임상 추론의 향후 평가에 철학적으로 가장 중요한 두 가지 개념을 제안한다: 

  • "불확실성"의 맥락에서의 평가(사용 가능한 모든 정보에도 불구하고, 최선의 진단, 조사 또는 치료에 대해 약간의 의심이 있을 때), 

  • 하나 이상의 정답이 완전히 가능하다는 것을 인정하고(심지어 합리적이라는) 것

We propose two concepts that are philosophically paramount to the future assessment of clinical reasoning in medicine: 

  • assessment in the context of “uncertainty” (when, despite all of the information that is available, there is some doubt as to the best diagnosis, investigation, or treatment), and 

  • acknowledging that it is entirely possible (and reasonable) to have more than “one right answer.”


불확실성의 맥락에서 평가

Assessment in the Context of Uncertainty


전통적으로 의학적 평가는 확실성의 맥락에서 이루어졌다. 훈련생들은 주로 상당한 수의 사실, 패턴, 연관성, 알고리즘을 기억할 수 있는 능력을 시험받는다. 예를 들어 

  • 다중 선택 질문(MCQ)은 하나의 정답을 가지고 있으며, 

  • 단답형 질문(SAQ)은 대개 하나의 의미를 갖는 것으로 해석되는 일련의 수용 가능한 답변을 가지고 있다. 

  • 객관적 구조화된 임상시험(OSCE)에서도 채점 마찰은 종종 정보 수집의 초기 단계에 대한 점수를 주고, 짧은 조사 목록을 생성하고, 패턴을 인식하며, 최종(흔히 직접적인 알고리즘 기반) 관리 단계를 생성하는 것과 관련이 있다.

Traditionally, medical assessment has taken place in the context of certainty. Trainees are primarily tested on their ability to remember a significant number of facts, patterns, associations, and algorithms. For example, multiple- choice questions (MCQs) have a single correct answer, and short-answer questions (SAQs) usually have a series of acceptable answers that are interpreted as having a single meaning. Even in objective structured clinical examinations (OSCEs), the scoring rubrics are often associated with either giving points for the initial steps of information gathering, generating a shortlist of investigations, pattern recognition, and the final (and often straightforward algorithm driven) steps of management;


OSCE에서 피평가자는 

  • working diagnosis 개발에 어떤 주요 기능을 사용하고 있는지, 

  • 검사를 통해 무엇을 배제하려고 하는지, 

  • 특정 진단, 조사 또는 치료에 대한 결정을 어떻게 종합했는지 

  • 그러한 정보를 어떻게 활용하고 있는지

...에 대해 거의 질문을 받지 않는다. 

Candidates in OSCEs are rarely asked how they are applying that information, including which key features they are using to develop a working diagnosis, what they are attempting to rule in and out from requested investigations, and how they have synthesized their decision about a particular diagnosis, investigation, or treatment. 


또한 지원자들은 질병의 유병률, 확률, 민감성, 특수성을 고려한 베이즈 정리의 원리를 어떻게 통합했는지를 일상적으로 보여줄 것으로 기대되지도 않는다.3 더욱이, 지원자들이 [의사결정에 영향을 미쳤을 수 있는 상황적 특징과 사건의 비정형적인 측면을 다루거나 관리하는] 사고 프로세스에 대해서도 거의 평가되지 않는다.

Similarly, candidates are not routinely expected to show how they have integrated the principles of Bayes’ theorem, which considers disease prevalence, probability, sensitivity, and specificity.3 Furthermore, candidates’ thinking processes are rarely probed with respect to contextual features that may have affected their decision making and how they intend to address or manage atypical aspects of the case.


또한 대부분의 평가 형식에 대한 현재 채점 키(MCQ, SAQ, OSCE, 캐나다 자격 검사 파트 1, 2 미국 의료 면허 시험)는 일반적으로 "골드 표준" 교과서 또는 저널 또는 기타 증거 기반 출처에서 도출된다. 간단히 말하면, 지식기반의 평가를 만드는 것이 훨씬 더 쉽다. 왜냐하면 확실성과 명확한 증거가 있기 때문이다. 그렇다면, 왜 지금 평가가 바뀌어야 하는가?

In addition, current scoring keys for most formats of assessment (MCQ, SAQ, OSCE, Medical Council of Canada Qualifying Examination Part 1 and 2, United States Medical Licensing Examination) are typically derived from “gold standard” textbooks or journals or other evidence- based sources . Put simply—it is much easier to create assessments for knowledge-based tests for which there is certainty and clear evidence. So, why should assessment change now?


현재의 평가 방법은 의학을 적용하기 위해서 요구되는 임상 추론 과정의 현실을 충분히 반영하지 못하기 때문이다. Durning et al4는 "현재 임상 추론을 평가하는 모델은 종종 실제로 이루어져야 하는 임상추론에 한참 미치지 못한다"고 관찰했다.

Current methods of assessment should change now because they do not sufficiently reflect the realities of clinical reasoning processes required in applied medicine. Durning et al4 have observed that “our current models of assessing clinical reasoning often fall short of what is actually occurring.”


일부 실제 임상 사례들은 "명확하게" 기본 지식, 이해력 및 적용만으로도 충분하지만, 여러 가지 변수와 상당한 수준의 불확실성을 포함하는 사례들이 많다. Fargason 등 6명은 "의료는 불확실성으로 가득 차 있다"고 진술했다. "많은 학생들에게 불확실성을 받아들이고 효과적으로 대처하는 능력은 '그들이 직면하는 가장 어려운 적응 과제'이다."7 2012년 헐 외 연구진 8은 "초심자를 일상적인 상황에서의 역량을 갖추기 위한 훈련만 하는 것은 불충분하다. 우리는 그들이 임상 실습에서 직면하게 될 무수하고 예측불가능하며 비루틴적인 상황들과 맞닥뜨릴 준비가 되어 있어야 함을 알아야 한다."

while some real clinical cases are “clear-cut” and that basic knowledge, comprehension, and application will suffice, there are many cases that contain multiple variables and a significant degree of uncertainty. Fargason et al6 have stated that “medicine is full of uncertainty.” “For many students, the development of the ability to accept uncertainty and to deal with it effectively is ‘the most difficult adaptational task confronting them.’”7 In 2012, Hull et al8 suggested, “Training novices for competence in routine situations is insufficient; we also need to know they are equipped to contend with the myriad, unpredictable, non-routine situations they will confront in clinical practice.”



불확실성에 대한 내과의사의 tolerance는 의사의 의료행위에 영향을 미친다. 불확실성에 대한 내성이 낮은 의사는 과도한 진단 테스트와 추가적인 경험적 치료를 지시할 가능성이 더 높다.9 이러한 행동은 의료 비용을 증가시키고 환자를 부작용 발생 위험에 빠뜨린다.10,11

A physician’s tolerance of uncertainty influences her or his clinical practice. Physicians who are less tolerant of uncertainty are more likely to order excessive diagnostic testing and additional empiric treatment.9 This behavior increases health care costs and places patients at risk for experiencing adverse events.10,11


임상 의학에서 많은 일반적인 상황들이 이 불확실성에 기여한다. 여기에는 다음과 같은 것들이 포함된다.

many common situations in clinical medicine, contribute to this uncertainty. These include


• 사례에 대한 "현재 이용 가능한" 정보의 양이 제한될 경우

• 키(중요) 정보가 누락된 경우

• 일부 정보가 기여적이지만 "discriminating"하지 않을 경우

• 일부 정보가 예상치 못한 것이며/또는 모순될 경우

• 이용 가능한 정보의 가중치가 달라질 경우

• 핵심 특징이 진단에 쉽게 "들어맞지" 않을 경우

• 특정 행동 방침에 대한 증거가 없거나 열악할 경우


• The amount of “currently available” information for the case is limited. 

• Key (critical) information is missing. 

• Some information is contributory but not “discriminating.” 

• Some information is unexpected and/ or may be contradictory. 

• The information available may be weighted differentially. 

• Key features available do not readily “fit” a diagnosis. 

• There is either no evidence or poor evidence for a particular path or course of action.



또한 사례의 맥락적 특징과 각 환자에게 고유한 인적 요인을 일상적으로 고려하고 명시할 것을 제안한다.

Furthermore, we propose that contextual features of the case and human factors that are unique to each patient be routinely considered and made explicit.



• 의사 결정과 매우 관련이 있을 수 있는 상황적 요인들도 성공적인 환자 치료를 위해 '방정식'에 포함되어야 한다. 여기에는 연령, 성별, 의료의 중요성 및 복잡성, 의료 팀과 환자의 지리적 위치, 가용 리소스(전문지식, 시간 및 물리적/재정적 자원 포함), 의료 시스템 요소, 시스템 언어 및 통신 문제, 문화적 믿음 및 사회적 환경이 포함된다.

• Contextual factors that may be highly relevant to decision making must enter the equation for successful patient care. These include age, gender, medical acuity and complexity, geographical location of the health care team and of the patient and family, available resources (including expertise, time, and physical and financial resources), health care system factors, system language and communication issues, cultural beliefs, and social circumstances.


• 인간에게는 내재된 가변성이 있다. 동일한 조건을 가진 두 명의 환자조차 정확히 같은 방식으로 나타날 가능성이 없으며, 또한 모든 환자가 동일한 치료에 동일한 방식으로 반응하지 않을 것이다. 의사는 환자 특유의 요인을 인식하는 법을 배워야 하며 이러한 요인의 통합에 기초하여 진단, 조사 또는 치료적 요인을 조정하는 것이 적절할 때 배워야 한다.

• There is inherent variability in human beings. No two patients with the same condition are likely to present in exactly the same way; nor will patients respond to treatment (i.e., albuterol or chemotherapy) in identical fashion. Physicians must learn to recognize patient-specific factors and when it is appropriate to adjust the diagnosis, investigation, or therapeutic regimen based on the integration of these factors.


따라서 임상 의사는 이용 가능한 정보, 가장 목적적합한 정보, 누락된 주요 부분을 식별할 수 있어야 한다. 그들은 상황별 특징뿐만 아니라 의료 데이터도 적용해야 한다. 또한 임상의사는 잠재적인 환자 고유 요인을 이해해야 한다. 주어진 시점에서 임상의사는 사례를 분석하고, (최종 진단이 아니더라도) 작업 진단을 종합하고, 조사와 치료에 관한 적극적인 결정을 내릴 수 있어야 한다.

Therefore, Clinicians must be able to discern what information is available, what is most relevant, and what key pieces are missing. They must apply medical data as well as contextual features. Clinicians must also appreciate potential patient-specific factors. At any given point in time, a clinician must be able to analyze the case, synthesize a working diagnosis (even if it is not the final diagnosis), and make active decisions regarding investigations and treatment.


이러한 불확실성의 상황을 인식하고 받아들이는 것은 의사의 능력에 필수적이다.

Recognizing and accepting these situations of uncertainty (after collecting and analyzing the best available knowledge, evidence, and experience) is essential to a physician’s ability


의학적인 전문지식은 임상적 추론과 진단적 성과에 있어서 개인의 성과와 밀접하게 연관되어 있다.14

medical expertise is closely linked to an individual’s performance in clinical reasoning and diagnostic performance.14


의료 교육자들은 응용, 분석 및 합성의 이러한 상위 임상 추론 기술을 교육과 평가에 모두 포함시키고 이를 현실 세계의 불확실성 맥락 안에서 수행할 도덕적 책임이 있다.

medical educators have a moral responsibility to embed these higher-order clinical reasoning skills of application, analysis, and synthesis into both teaching and assessment and to do this within real-world contexts of uncertainty.


정말로 유일한 정답만이 있는 것이 가능할까?

Can There Really Be More Than One Correct Answer?


임상 의학에서 어떤 상황에서는 환자에 대한 충분한 정보와 문헌(또는 전문가의 합의를 통해)에 진단, 조사 또는 치료의 단일하고 명확한 경로를 고수할 수 있다는 충분한 증거가 있을 때도 있다. 그러나 어떤 상황에서는, 이용 가능한 정보가 별로 없거나, 이용 가능한 정보와 사례의 맥락을 고려할 때, 한 가지 특정 선택을 지시할 증거가 불충분할 수 있다. 사례와 상황에 따라 진단 설정, 조사 계획 작성 또는 치료 처방을 위한 두 가지(또는 그 이상) 접근방식이 안전하고 합리적일 수 있다. 

In some situations in clinical medicine, there is enough information about the patient and sufficient evidence in the literature (or via expert consensus) to adhere to a single, clear path of diagnosis, investigation, or treatment. In other situations, the information available at the time may be weak, or, given the information available and the context of the case, there may be insufficient evidence to dictate one specific choice. Depending on the case and the context, two (or more) approaches to establishing the diagnosis, creating a plan for investigation, or prescribing treatment may be safe and reasonable. 


SCT(스크립트 Concordance Test)15

The Script Concordance Test (SCT)15


임상 예는 부록 1에 설명되어 있다.

A clinical example is illustrated in Appendix 1


Durning et al4는 "여러 개의 올바른 path가 있는 상황이 존재하며, 전문성이라는 것은 [경계 조건의 집합] 내에서의 성과로 정의된다"라고 기술하고 있다.

Durning et al4 state that “there are often multiple correct paths and what defines expertise is performance within a set of boundary conditions.”


요약하자면, "하나 이상의 정답"의 존재 가능성을 존중하는 것은 임상 현실을 반영하며 궁극적으로 임상 추론의 평가를 보다 타당하고 신뢰할 수 있게 할 것을 제안한다.

In summary, we propose that respecting the possibility of the existence of “more than one correct answer” reflects clinical reality and will ultimately make the assessment of clinical reasoning more valid and reliable.


불확실성의 맥락: 극복할 장애물

The Context of Uncertainty: Current Barriers


불확실성의 맥락에서 의사결정을 목표로 하는 평가의 생성에는 네 가지 다른 장벽이 있다.

There are four different barriers to creating assessments that target decision making in the context of uncertainty.


첫 번째 장벽은 평가에 관련된 모든 이해당사자들에 의해 임상 의학의 불확실성의 상황을 인정하는 것이다. 이것은 이러한 상황을 노출하고 강조함으로써, 우리는 회색 영역이 항상 존재할 것이라는 것을 받아들이는데 더 가까워지고, 이러한 상황들을 그것들로부터 벗어나기 보다는 형식적이고 종합적인 평가에서 인정하고, 직면하고, 관여하는 것이 더 낫다.

The first barrier is acknowledging situations of uncertainty in clinical medicine by all stakeholders involved with assessment. This By exposing and highlighting these situations, we come closer to accepting that gray zones will always exist, and it is better to acknowledge, confront, and engage these situations in formative and summative assessments rather than steering away from them.


두 번째 장벽은 임상 의사 결정에서 다양한 수준의 불확실성을 관리하는 데 필요한 임상 추론 기술의 발달progressive 수준을 식별하기 위해 명확한 프레임워크를 개발해야 한다는 것이다

The second barrier is that a clear framework must be developed to identify the progressive levels of clinical reasoning skills needed to manage varying degrees of uncertainty in clinical decision making. 


(1) 초기 단계에서 연습생은 사례에 포함된 "핵심 특징"을 식별할 수 있어야 한다. 그런 다음 특정 사례의 맥락 안에서 각 특징에 적절한 "가중치"를 적용해야 한다(일부 특징이 특정 시점의 사례에 더 큰 영향을 미치기 때문이다).

In the early phases, trainees need to be able to identify “key features” embedded within a case. Then they need to apply appropriate “weight” to each of these features within the context of the particular case (as some features will more heavily influence a case at any given point in time).


(2) 다음 단계: 가중치는 의사가 얻는 정보의 품질과 신뢰성에 영향을 받을 수 있다. 이 정보는 또한 베이스의 정리 원리를 적용하여 해석하고 우선 순위를 정할 수도 있다.3 사례 기능의 가중치는 가능한 인지적 편견(예: 고정, 확인 편향, 조기 폐쇄)에 대한 인식에 의해 더욱 강화될 수 있다.17 인지적 편견의 고려는 의사의 사고 과정에 기여할 수 있는 개인, 시스템 및 환경적 요인을 감사하는 데 도움이 되는 개인적 성찰 습관을 만드는 것을 말한다.

That weighting may be influenced by the quality and the reliability of the information being received. This information may also be interpreted and prioritized by applying the principles of Bayes’ theorem.3 Weighting of case features may be further enhanced by an awareness of possible cognitive biases (i.e., anchoring, confirmation bias, premature closure).17 The consideration of cognitive biases refers to creating a habit of personal reflection to help appreciate the personal, system, and environmental factors that may be contributing to a physician’s thought process.


(3) 다음 단계: 이 단계는 종종 부재하거나, 있더라도 과소평가된다. 의사는 환자의 의료 데이터뿐만 아니라 모든 임상 사례에 대해 "그림에 색칠"하는 상황적 요소도 평가해야 한다. 교과서의 사례는 "프로토타입"이지만, 각각의 실제 사례는 전형적이고 비정형적인 특징을 가진 "exemplar"이며, 고착되어 있고 반드시 고려해야 하는 추가적인 상황 변수들이다.18,19 특정 상황 인자의 기간 내에 특정 환자 사례 요소를 제거하려면 분석의 임상적 추론 기술이 필요하다.즉, 사례의 가장 관련성이 높은 의학적 측면과 상황적 측면을 선택할 수 있고, 어떤 측면이 우세할지 결정하고, 임상 의사 결정에 대한 의미를 종합할 수 있다.

The next step is often absent or, when present, underestimated. The trainee must evaluate not only the patient’s medical data but also the contextual factors that “color the picture” of every clinical case. The textbook case is the “prototype” case, but each real case is an “exemplar” with typical and atypical features, as well as additional contextual variables that are entrenched and must be considered.18,19 Teasing out the specific patient case factors within the milieu of specific contextual factors requires the clinical reasoning skill of analysis: being able to select the most relevant medical and contextual aspects of a case, determining which ones will predominate, and synthesizing the implications for clinical decision making.


세 번째 장벽은, 자격부여기관과 매우 관련이 있으며, 평가 방법의 불가능성과 관련이 있다. 구체적말하자면, "점수의 해석은 원하는 해석의 이성을 뒷받침하거나 반박하기 위해 제시된 이론, 가설 및 논리의 네트워크와 연결되어야 한다."21

A third barrier, that is real and extremely relevant to certification bodies, relates to the defensibility of the assessment method. More specifically, “the interpretation of scores must be linked to a network of theory, hypotheses, and logic which are presented to support or refute the reasonableness of the desired interpretations.”21


전통적으로, 하나의 정답의 합의되어 왔다. 더 최근에, SCT는 전문가 패널의 "누적 반응"을 고려할 수 있는 가능성을 보여주었다. Charlin과 Van der Vleuten15는 특히 불확실성의 영역에서 전문가 패널의 누적 응답은 모달 응답과 모달 응답에 가까운 응답을 포함하여 다양한 잠재적으로 허용가능한 응답을 조명하는 데 도움이 된다고 주장한다.15 우리는 이 일반 개념을 지지한다. 그러나 이 채점 방법에 대한 유효한 비판은 전문가가 제공한 응답에 대한 제한된 안전 점검조차 없다는 것이다.22 전문가도 질문을 잘못 해석하거나 오류를 범할 수 있다. 그들의 반응이 궁극적으로 점수 키를 형성하기 때문에, 평가 전에 그 키를 선별하는 것이 중요하다.

Traditionally, a consensus response has been sought, producing a single answer. More recently, SCT has demonstrated the potential to consider the “cumulative response” of a panel of experts. Charlin and van der Vleuten15 contend that, particularly in areas of uncertainty, the cumulative response of the expert panel helps to illuminate a variety of potential acceptable responses including modal responses and responses near to the modal response.15 We support this general concept. However, a valid criticism of this scoring method is the absence of even a limited peer review of the responses provided by the experts.22 Experts can also misinterpret a question  or make an error. Because their responses ultimately form the scoring key, it is vital to screen that key prior to the assessment.



네 번째 장벽은 실현 가능성과 관련이 있다. 불확실성의 맥락에서 임상 추론의 관련 평가와 관련된다.

A fourth barrier, facing relevant assessment of clinical reasoning in contexts of uncertainty, relates to feasibility.


• 평가 형식은? 특정 형식에 필요한 리소스(예: 컴퓨터, 표준화된 환자, 마네킹 등)는 무엇인가? 컴퓨터 기술에 의존하고 있는가? 믿을만해? 안전해?

• What will the format of the assessment be? What resources (i.e., computers, standardized patients, mannequins, etc.) does the specific format require? Is there a reliance on computer technology? Is it reliable? Is it secure?


• 누가 평가를 개발할 것인가? 어떤 전문지식이 필요한가? 어디서 어떻게 이런 일이 일어날까? 비용은 얼마인가?

• Who will develop the assessment? What expertise is required? Where and how will this occur? What is the cost?


• 평가는 어디에서 실시될 것인가? 해당 위치가 이용 가능하고, 접근 용이하며, 안전하며, 평가 방법에 적합한가? 그 장소에 많은 지원자가 들어갈 수 있을까? 시설비는 얼마인가?

• Where will the assessment take place? Is the location available, easily accessible, secure, and appropriate for the assessment method? Can the location accommodate a large number of candidates? What is the cost of the facility?


• 평가는 언제 실시되는가? 얼마나 걸리나요? 이는 후보자, 심사원 및 관리자의 가용성에 적합한가?

• When will the assessment take place? How long does it take? Does this fit reasonably well with the availability of candidates, examiners, and administrators?


• 평가 관리를 위해 응시자나 심사원이 여행 및 숙박과 관련하여 상당한 비용을 부담해야 하는가?

• Does the administration of the assessment require candidates or examiners to incur significant costs related to travel and accommodation?


• 시기, 위치, 응시자 수 및 응시자 수 때문에 두 개 이상의 시험을 생성해야 하는가(즉, 시험 A와 시험 B)? 의도하지 않은 시험 노출/오염에 대한 위험을 야기하는가? 후보자들에 대한 격리 조치가 필요한가?

• Does the timing, location, number of candidates, and number of examiners necessitate the creation of more than one examination (i.e., Exam A and Exam B)? Does this threaten/create risk for unintended test exposure/contamination? Is sequestering of candidates necessary?


• 평가 결과를 개발, 관리, 점수화, 배포하고 안전하게 저장하는 데 소요되는 시간과 재정적 비용은 얼마인가?

• What is the time and financial cost to develop, administer, score, distribute, and securely store results of the assessment?



SCT 방법은 실현가능성의 관점에서 몇 가지 장점을 제공한다. SCT는 안전하고 신뢰할 수 있는 인터넷 접속을 제공할 수 있는 임의의 시간과 장소에서 발생할 수 있다. SCT는 60~90분 안에 투여할 수 있으며 즉각적인 채점을 할 수 있다. SCT 형식은 시각적 영상(즉, X선, 래시, ECG), 비디오(즉, 발작), 오디오(즉, 심장 또는 폐음)의 통합을 지원한다. 이 형식은 임상적 사실성을 만드는 데 도움이 된다.

The SCT method offers several advantages from the perspective of feasibility. The SCT may take place at any time and in any location that can offer secure and reliable Internet access. SCT can be administered in 60 to 90 minutes and produces instantaneous scoring. The SCT format supports the integration of visual images (i.e., x-rays, rashes, an ECG), video (i.e., seizures), and audio (i.e., heart or lung sounds); this format helps to create clinical realism.


강력한 평가를 개발할 때 고려해야 할 또 다른 기준은 미래의 학습과 실습에 미치는 영향이다.4 의학 교육자들은 평가가 학습을 촉진한다는 것을 잘 알고 있다.27

Another criterion to consider, when developing a robust assessment, is the impact on future learning and practice.4 Medical educators are well aware that assessment drives learning.27


우리는 이러한 효과가 임상 추론 기술 개발, 불확실성 관리, 훈련 중 환자에 대한 더 나은 임상 의사 결정, 그리고 경력의 과정에 대한 경험 증대에 있어 연습생들에게 도움이 될 것이다.

We anticipate that these effects will aid trainees in developing clinical reasoning skills, managing uncertainty, making better clinical decisions for their patients during their training, and with increasing experience over the course of their career.


맺음말

Concluding Remarks


세계적으로 건강관리가 발전하면서 유아, 아동, 성인은 병에서 살아남고 점점 더 복잡한 건강관리 조건을 안고 살고 있다. 동시에 의학 연구는 우리의 임상 지식의 경계를 계속 밀어붙이고 있으며, 우리가 "새로운 길"을 불붙이면서 우리는 자연스럽게 미지의 영역과 불확실성에 직면하게 된다. 그러나 이 과정에서 우리는 종종 그 불확실성을 관리하기 위해 둘 이상의 안전하고 허용 가능한 접근법을 발견한다.

With advancements in health care worldwide, infants, children, and adults are surviving illness and living with increasingly complex health care conditions. Concurrently, medical research continues to push the boundaries of our clinical knowledge, and as we blaze “new trails” we naturally encounter uncharted territory and uncertainty. During this process, however, we often discover more than one safe and acceptable approach to managing that uncertainty.


4 Durning SJ, Artino AR Jr, Schuwirth L, van der Vleuten C. Clarifying assumptions to enhance our understanding and assessment of clinical reasoning. Acad Med. 2013;88:442–448.





 2017 Jun;92(6):746-751. doi: 10.1097/ACM.0000000000001559.

Transforming Medical AssessmentIntegrating Uncertainty Into the Evaluation of ClinicalReasoning in Medical Education.

Author information

1
S. Cooke is clinical associate professor, Department of Paediatrics, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada. J.F. Lemay is professor, Department of Paediatrics, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada.

Abstract

In an age where practicing physicians have access to an overwhelming volume of clinical information and are faced with increasingly complex medical decisions, the ability to execute sound clinical reasoning is essential to optimal patient care. The authors propose two concepts that are philosophically paramount to the future assessment of clinical reasoning in medicine: assessment in the context of "uncertainty" (when, despite all of the information that is available, there is still significant doubt as to the best diagnosis, investigation, or treatment), and acknowledging that it is entirely possible (and reasonable) to have more than "one correct answer." The purpose of this article is to highlight key elements related to these two core concepts and discuss genuine barriers that currently exist on the pathway to creating such assessments. These include acknowledging situations of uncertainty, creating clear frameworks that define progressive levels of clinicalreasoning skills, providing validity evidence to increase the defensibility of such assessments, considering the comparative feasibility with other forms of assessment, and developing strategies to evaluate the impact of these assessment methods on future learning and practice. The authors recommend that concerted efforts be directed toward these key areas to help advance the field of clinical reasoning assessment, improve the clinical care decisions made by current and future physicians, and have positive outcomes for patients. It is anticipated that these and subsequent efforts will aid in reaching the goal of making future assessment in medical education more representative of current-day clinical reasoning and decision making.

PMID:
 
28557933
 
DOI:
 
10.1097/ACM.0000000000001559


마일스톤을 활용한 역량 평가(Med Teach, 2015)

Assessing competencies using milestones along the way

ARA TEKIAN1, BRIAN D. HODGES2, TRUDIE E. ROBERTS3, LAMBERT SCHUWIRTH4 & JOHN NORCINI5

1University of Illinois at Chicago, USA, 2University of Toronto, Canada, 3Leeds Institute of Medical Education, UK,

4Flinders University, Australia, 5FAIMER, USA




도입

Introduction


2012년 프라하에서 열린 유럽 의학교육협회(AMEE) 회의에서, 심포지엄은 '역량'과 '마일스톤'에 대한 다양한 해석과 오해를 탐구하고, 이들의 보건 직업 교육에서의 응용과 유용성에 대해 토론하고, 그것들을 측정하는 데 내재된 논란을 조사하기 위해 조직되었다. 이러한 우려는 유럽, 미국, 캐나다 및 호주의 관점에서 검토되었다.

During the 2012 meeting of the Association of Medical Education in Europe (AMEE) in Prague, a symposium was organized to explore the different interpretations and misinterpretations of ‘‘competencies’’ and ‘‘milestones’’, debate their application and usefulness in health professions education, and probe the controversies inherent in measuring them. These concerns were examined from a European, American, Canadian and Australian perspectives.


배경

Background


현재 교육의 본질에 관한 두 가지 모델이나 의욕이 있다. 첫 번째는 교육이 정해진 기간 내에 이루어질 것이라고 가정하는 친숙한 시간 기반 모델이다.

There are currently two models or discourses concerning the nature of education. The first is the familiar time-based model which assumes that education will occur within fixed periods.



이와는 대조적으로, 지난 수십 년간 결과 기반 교육 모델에 대한 관심이 증가했다.

In contrast, the past few decades have seen growing interest in an outcomes-based model of education.


역량에 대한 캐나다적 관점

Canadian perspective on the competencies


캐나다에서는, 전 세계적으로 큰 영향을 미친 CanMEDS "flower"에 근거한 역량 운동이 있다.

In Canada, there is a competency movement based on the CanMEDS ‘‘flower’’ that has had significant impact around the world.


현재 외과 전문의 레지던트 프로그램이 완전히 역량 기반인 몇 가지 실험이 이루어지고 있다. 이러한 잠재적 이점에도 불구하고 역량 기반 모델에 대한 우려도 있다.

Several experiments are currently taking place in which residency programs in surgical specialties are fully competency-based. Despite these potential advantages, there are also concerns about the competency-based model:


  • 낮은 기준. 최소 또는 최저 공통 분모를 강조하며, 이는 일반적인 표준 저하를 초래할 수 있다.

  • 실용주의적 성향. 실무적인 문제에만 훈련을 집중하는 경향이 있다.

  • 복잡한 로지스틱스. 개별 페이싱은 스케줄링과 함께 물류 문제를 제시한다.

  • 루틴 기술이나 시험에 대한 가르침 강조. 원래 역량 기반 접근은 기술 및 직업 분야에서 시작되었는데, 이분야는 의료와 달리 의료 분야에 존재하는 복잡성이나 판단 기반적 측면이 없다.

  • 사회적 책임. 사회적 책임이 운영되고 평가될 수 있는가? 역량 기반 모델은 의학의 복잡하고 관계적인 측면을 다루기에는 충분하지 않을 수 있다.

  • Lower standards. It emphasizes the bare minimum or lowest common denominator, and this may lead to a general lowering of standards.

  • Utilitarian tendencies. It tends to focus training on practical concerns only.

  • Complicated logistics. Individual pacing presents logistical issues with scheduling.

  • Emphasis on routine skills or teaching to the test. Originally, the competency-based approach began in technical and vocational fields, which do not have the complexities or judgment-based aspects that are present in the medical field.

  • Social responsibility. Can social responsibility be operationalized and assessed? The competency-based model may be insufficient to address the complex and relational aspects of medicine.


역량을 구성하는 요소에 대한 재평가

Reevaluating components that constitute competency.


표준을 정의할 때 우리는 '역량'이라는 개념의 본질에 대해 생각할 필요가 있을 수 있다. 역량은 환원주의적 체크리스트 접근방식에 의해 결정될 수 없다는 개념이 점점 더 인정받고 있다. 역량은 목록 이상의 것이다. 이것은 "건강"이라는 개념과 유사성하다. "건강"은 체크리스트만으로 평가될 수 없다. 우리 중 MD인 사람들은 결코 실험실 가치만으로 환자를 진단하거나 치료하지 않고 오히려 인간의 판단을 통합하는 법을 배워왔다; 우리 자신의 판단뿐만 아니라 다른 전문가들(병리학자/방사선학자 등). 언어는, 즉 서술된 형태는, 환자의 건강 상태를 설명하고 평가하는 데 있어서 의사의 주요 도구다.

When defining standards we may need to think about the nature of the concept ‘‘competence’’. It is increasingly that recognized competence cannot be determined by a reductionist checklist approach; competence is more than a list. The analogy with a concept like ‘‘health’’ is obvious; ‘‘health’’ cannot be evaluated by checklists alone. Those of us who are MDs have been taught never to diagnose or treat a patient based on lab values alone but rather to incorporate human judgments; not only our own but also those of other experts (pathologists/radiologists, etc.). Language, or in the form of narrative, is the doctor’s main tool in describing and evaluating a patient’s health situation.


우리가 이 은유를 '역량'에 적용하면, 우리는 역량을 설명하기 위한 특별한 서술어의 개발과 사용을 탐구해야한다. – 그것들을 정의하기 위해서뿐만 아니라 교육자들이 학생들의 능력을 묘사하고, 평가하고, 향상시킬 수 있도록 한다. 여기에는 두 가지 중요한 의미가 있다.

If we apply this metaphor to ‘‘competence’’ it leads us to explore the development and use of narratives specifically to describe for competencies – not only to define them, but also to enable the educators to describe, evaluate and improve the competence of students. and there are two important implications:


첫째, 결과의 긴 목록은 도움이 될 수 있지만, 완성해야 할 항목의 목록으로서가 아니라, 서술적 구성을 위한 용어로만 사용될 수 있다. 환자가 완전한 의학 교과서의 모든 증상을 가지고 있지 않거나, 작가가 사전에 있는 모든 단어를 사용할 필요가 없듯이, 의학 교육자들은 학생들의 역량에 대한 관찰을 기술하고 평가하기 위해 단어와 개념을 다양하게 선택할 수 있다. 따라서 의료 교육자는 이정표, 결과물 또는 위탁 가능한 전문 활동을 완료해야 하는 단순한 활동 목록으로 생각하기 보다는 세부적인 목표를 "사전"으로 보고, 역량에 대해 서술narrate하는데 사용해야 한다.

First, long lists of outcomes may be helpful but only as terms to use to construct narrative, not as lists of items to be completed. Just as a patient will not have all of the symptoms of a complete medical textbook, or as a writer need not use all the words in the dictionary, medical educators can both employ a range and selection of words and concepts to describe and evaluate their observations of students’ competence. Therefore, instead of thinking of milestones, deliverables or entrustable professional activities as simple lists of activities that need to be completed, medical educators should consider detailed objectives as a ‘‘dictionary’’ that can be used to narrate competence.


둘째, 서술은 학생의 역량의 progress를 판단하기 위한 관찰, 판단, 시험 결과, 성찰의 조합을 허용한다. 이는 당뇨를 진단하기 위해서 주소, , 시각, 음향 및 구술 정보의 조합과 혈청 포도당 수치값을 조합하는 것과 마찬가지이다. 내레이션을 통해 우리는 교육에 대한 보다 통합적인 접근방식으로 나아가며, 평가에 대한 환원주의적 접근방식에서 벗어나게 된다.

Second, narrative allows for the combination of observations, judgments, results of tests, and reflections to be combined in order to determine a student’s progress towards competence, much like the combination of complaints, visual, acoustic, and palpatory information on physical examination and the numerical value of 35mmol/l for serum glucose can add up to a diagnosis of ‘‘diabetes mellitus’’. Narrative leads us toward a more integrative approach to education and away from a reductionist approach to assessment.



우리가 정의하고 측정하는 역량 재평가

Reevaluating how we define and measure competencies


전형적 평가 프로그램은 과제, 시험, 출석, 보고서 등으로 구성되며, 보통 이 값들을 가지고 각각의 항목에 백분율을 할당하고 모든 것을 합산하여 역량에 대한 결정을 내린다. 그러나 백분율은 자의적이며(일반적으로 모두 어림수치이다) 일반적으로 의미 있는 근거가 부족하다. 계약에 의해, 통합적 서술은 요소들을 집합적으로 취하여 그것들을 묘사하고 학생의 능력을 전체적으로 사용한다. 당뇨병의 예를 들자면, 우리는 말초동맥맥박을 찾아냈을 때, 그것이 진단에 30% 기여한다고 "가중"하지 않는다. 통합적 서술적 접근방식은 보다 의미 있는 결정을 가능하게 한다.

The typical assessment program consists of assignments, exams, attendance, and reports, and frequently the practice is to assign a percentage to each and add everything together to arrive at a decision about competence. The percentages, however, are arbitrary (typically they are all round figures) and generally lack a meaningful rationale. By contracts, an integrative narrative takes the elements collectively and employs them to describe and a student’s competence holistically. In our diabetes example we do not ‘‘weight’’ a finding of absent peripheral arterial pulsations as contributing 30% to the diagnosis. An integrated narrative approach enables more meaningful decisions.


평균

An average


점수를 집계하는 데 사용되는 전통적인 방법은 종종 평균을 사용하는 것이다. 그러나 건강의 측정은 평균으로 정의되지 않는다. 예를 들어, 우리는 사람에 대해서 합계점수를 얻기 위해 병력, 검사, 병리결과, 신체 검사에 대한 점수를 합산한 뒤, 그 사람이 '건강하다'인지 '건강하지 않다'인지를 판단하기 위해서 전 인구의 평균과 비교하지 않는다.

Conventional methods used to assemble scores often use an average. However, measurements of health are not defined as an average. For example, we do not add up a combination of scores on history, lab testing, pathology, and physical examination to get at a total score, which is then compared to the population average in order to define whether a person is ‘‘healthy’’ or ‘‘unhealthy’’.


우리는 역량에 대한 우리의 결정이 타당하고 유용하다는 것을 확실히 하기 위해 서로 다른 조치의 점수를 결합할 때 신중할 필요가 있다. 우리 분야에는 숫자가 서술보다 더 '객관적'이라는 일반적인 믿음이 있지만, 모든 정량적 연구 논문이 숫자보다 더 많은 단어를 포함하고 있다는 사실을 생각해 보라! 숫자는 정보를 제공하지만 단어는 의미를 제공한다.

We need to be careful in combining scores from disparate measures to ensure that our decisions about competence are valid and useful. There is, in our field, a general belief that numbers are more ‘‘objective’’ than narratives, but consider the fact that all quantitative research papers contain more words than numbers! Numbers provide information but words provide meaning.


마일스톤 재구성

Reconstructing the milestones


마일스톤은 때때로 간단한 작업으로 묘사된다: 혈압을 재는 능력, 관련 기록을 보는 능력, 복부 검사를 하는 능력. 그러나, (의료에는) 복잡성과 맥락에 뿌리를 둔, 더 높은 차원의 역량 영역이 있다.

Milestones are sometimes described as simple tasks: ability to take blood pressure, to take a relevant history, to perform an abdominal exam. However, there is a broader domain of higher order competencies rooted in complexity and context.


전문성

Expertise


서술의 풍부함은 작가의 전문성에 의해 영향을 받는다. 무엇을 찾아야 할지 모른다면, 그 사람은 그것을 볼 수 없을 것이다. 또한 보지 못할 뿐만 아니라 말로 그것을 표현할 수 없을 것이다. 내레이션을 통해 전체 역량을 유지하면서도 그것을 부품으로 분해하지 않고 기술할 수 있는 유일한 방법이 될 수 있다.

The richness of narrative is influenced by the expertise of the writer. If one does not know what to look for, then he or she will not see it, much less be able to capture it in words. Narrative may be the only way to maintain the whole of competence while describing it without deconstructing it into parts.



유럽 맥락에서의 역량과 마일스톤

Competencies and milestones in the European context


많은 사람들이 유럽을 하나의 실체로 보고 있지만, 각 개별 국가는 의학 훈련과 능력을 포함한 주제에 대한 고유한 견해를 가지고 있다.

Even though many view Europe as a single entity, each individual country has its own unique views about topics including medical training and competence.


영국에서 역량은 인지, 기능, 개인, 윤리, 메타-능력의 5가지 범주로 정의된다. 프랑스에서 역량은 인지, 기능, 행동의 세 분야로 분류된다. 독일에서, 역량은 주제, 개인적, 사회적 역량과 관련하여 여겨진다. 이러한 국가별 관점 및 기타 국가별 관점에 대한 보다 광범위하고 자세한 내용은 골드 가이드(2014년)에서 확인할 수 있다.

In the United Kingdom, competence is defined in five categories: cognitive, functional, personal, ethical, and meta-competence. In France, competence is classified into three areas: cognitive, functional, and behavioral. In Germany, competence is viewed with respect to subject, personal, and social competence. A broader and more detailed view of these and other country-specific perspectives can be found in the Gold Guide (2014).



수행능력, 투명성, 성과

Performance, transparency, and outcomes


역량이라는 것은 연습생들의 수행능력과 성과에 초점을 맞추지만 또한 교육 과정에 관련된 사람들에게 투명성과 책임감을 제공한다. 이 접근법은 측정 가능한 목표와 교육 결과를 제공하여 비용 편익 결정을 하는데 활용할 수 있다.

It focuses on the performance and outcomes of the trainees but also provides transparency and accountability to those involved in the educational process. This approach provides measurable goals and educational outcomes which can be utilized to make cost-benefit decisions.


단순화된 척도

Simplified measurements


이 모델을 통해 연습의 복잡성을 평가하는 것은 어려우며, CBME를 비판하는 사람들은 이것이 의대생과 레지던트들을 위한 더 단순화되거나 제한된 교육으로 이어질 수 있다고 경고한다.

it is difficult to assess the complexity of practice via this model, and critics warn that it may lead to a more simplified or limited education for medical students and residents.


언제 가장 유용한가?

When is it most useful?


역량 있는 행동은 상황에 따라 다르며, 맥락에 따라 크게 의존적이다. 이와 같이, 역량 기반 교육은 의료 교육의 초기 단계에서 더 적용가능하다.

Competent behavior describes responses that are situation-specific and depend heavily on context. As such, competency-based education may be more applicable at the beginning of medical education.


시간의 역할은?

What role does time play?


Frank에 따르면, "목표는 연습생들이 단순히 얼마나 시간을 들였느냐가 아니라, 이러한 이정표를 충족했음을 보여주는 것이다." (Frank et al. 2010)

According to Frank, ‘‘The goal will be to show that trainees met these milestones – not just that they put in the time’’ (Frank et al. 2010).


의대생들과 레지던트들은 실제 임상환경에서의 많은 다양한 측면을 이해하기 위해 훈련 내내 가능한 한 많은 기회와 경험에 노출되어야 한다. 상황을 처리하거나 과제를 수행하는 방법은 여러 가지가 있으며, 연습생들에게 이러한 지식과 노출을 제공하기 위해서는 시간이 매우 중요하다. 오늘날 세계에서 의사들은 종종 어려운 상황이나 엄청난 압박을 받는 희귀하고 낯선 상황에 신속하게 대처하고 대응해야 한다.

Medical students and residents must be exposed to as many opportunities and experiences as possible throughout their training in order to understand the many varied aspects of a real workplace. There is more than one way to handle a situation or perform a task, and time is crucial to provide trainees with this knowledge and exposure. In today’s world, doctors must act quickly and respond to rare and unfamiliar situations, often in difficult situations and under great pressure.


21세기에 의사가 필요로 하는 기술은 그 어느 때보다도 다르다.

The skills that a doctor needs in the 21st century are different than ever before.


미국 맥락에서의 마일스톤

Milestones in the US context


미국 대학원의료교육인증위원회(ACGME)는 미국에서 대학원 교육 프로그램을 인증하고, 1997년에 결과 프로젝트를 시작하고, 전문분야에 걸쳐 6개의 역량을 채택하였다.

The Accreditation Council for Graduate Medical Education (ACGME) accredits postgraduate training programs in the US and in 1997 they initiated the Outcomes Project and adopted six competencies across the specialties


각 전공과목에서는 우선 많은 하위 역량을 개발하여 이 여섯 가지 역량을 그들의 분야에 적응시켰다. 이것은 그것들을 평가하기 위한 도구들의 개발을 촉진시켰지만, 그것은 정확히 무엇을 측정해야 하는지 그리고 언제 측정해야 하는지를 불명확하기 때문에 혼합된 성공을 맞이했다.

The specialties first adapted these six competencies to their disciplines by developing a number of sub-competencies. This spurred development of tools to assess them, but it met with mixed success because it was unclear exactly what needed to be measured and when.


이러한 결핍을 해결하기 위해 이정표와 위탁 가능한 전문 활동(EPA)의 개념이 도입되었다.

To address this deficiency, the concepts of the milestones and entrustable professional activities (EPAs) were introduced.


환원주의

Reductionism


마일스톤은 본질적으로 환원주의적이다. 그것을 완성하는 것이 전체적인 역량 충족을 의미하지는 않으며 통합적인 훈련 경험, 평가 및 전체적인 피드백이 필요하다.

Milestones are reductionist by nature . Completing them does not imply overall competence and integrated training experiences, assessments,and holistic feedback are needed.


시간기반 교육과정과의 불일치

Mismatch with time-based curriculum


마일스톤은 결과 기반 커리큘럼을 위해 설계되었으며 시간/프로세스 기반 시스템에 강제 적용되고 있다. 시간은 개입이 아니라 개입이 작용하는 맥락이다.

Milestones are designed for an outcomes-based curriculum and they are being forced into a time/process-based system. Time is not an intervention, it is a context within which an intervention operates.


지속적 교육 시스템 부족

Lack of a system of ongoing education


이정표는 현재 진행 중인 전문적 발전이라는 맥락에서 가장 잘 설정된다. 이것은 "훈련 종료시점"에서의 능력에서부터 평생학습 활동으로 초점이 전환되는 것을 의미한다.

Milestones are best set in the context of ongoing professional development. This will require a shift in focus from competence at the ‘‘end’’ of training to lifelong learning activity.


마일스톤의 수

Number of milestones


프로그램 감독들의 주된 걱정은 이 많은 마일스톤을 어떻게 다 다룰 수 있느냐이다. 사실, 그렇지 않다. 평가는 표본 추출에 관한 것이므로, 연습생들은 매번 정확히 같은 것에 대해 평가될 필요가 없으며, 여러 평가가 서로 같은 역량의 측면에 초점을 맞출 필요도 없다.

A major concern expressed by program directors is how a large number of milestones can be addressed. In fact, they do not. Assessment is about sampling so trainees do not need to be assessed on exactly the same things every time they are assessed, nor do those assessments need to focus on the same aspects of competence as each other.


평가 양식

Assessment forms


프로그램 감독들은 종종 어떤 평가 양식을 사용해야 하는지 궁금해 한다. 사실, 평가 양식이 평가의 질에 미치는 영향은 미미하다. 이와 달리 교수가 누구냐와 어떤 상황encounter이냐가 큰 차이를 만든다. 형식은 평가해야 할 것과 잘 작성되어야 하지만, 길지 않아야 하고, 문구와 척도는 최소한의 영향만 미칠 것이다. 개별 등급 형태가 아닌 항목 풀을 개발하는 데 노력을 기울인다면 매우 유용할 것이다.

Program directors often wonder exactly which assessment forms should be used. In fact, rating forms make only a small difference in the quality of assessment – the faculty and the encounters make a big difference. Forms need to comport with what is to be assessed and be well written, but they need not be long and the wording and scaling will have only minimal impact. It would be very useful if efforts were aimed at developing item pools and not individual rating forms.



임상역량위원회
Clinical competency committee


너무 많은 데이터에서 개별 연습생에 대한 결론을 도출하는 것은 임상 역량 위원회의 사용을 통해 해결할 수 있는 문제다.

Reaching conclusions about individual trainees out of so much data is an issue that can be resolved through the use of clinical competency committees.


교수개발

Faculty development


이정표를 구현하려면 대부분의 평가가 관찰에 의존하기 때문에 교수진 개발이 필요하다. 그러므로 교직원은 측정 수단이다. 비록 이정표가 훈련을 더 쉽게 만들지만, 마일스톤이 있다고 교수개발을 대신할 수는 없다. 짧고 주기적인 훈련으로 충분해야 한다.

Implementation of the milestones will require faculty development, since most of the assessment will rely on observation. Therefore, faculty is the measurement instrument. Although, the milestones make that training easier, they are not a substitute for it. Short and periodic training exercises should be sufficient.





The Gold Guide – A Reference Guide for Postgraduate Specialty Training in the UK. 2014. [Accessed 29 September 2014] Available from: http:// hee.nhs.uk/2014/06/04/the-gold-guide-fifth-edition-is-now-available/.








 2015 Apr;37(4):399-402. doi: 10.3109/0142159X.2014.993954. Epub 2014 Dec 19.

Assessing competencies using milestones along the way.

Author information

1
University of Illinois at Chicago , USA .

Abstract

This paper presents perspectives and controversies surrounding the use of milestones to assess competency in outcomes-based medical education. Global perspectives (Canada, Europe, and the United States) and developments supporting their rationales are discussed. In Canada, there is a significant movement away from conceptualizing competency based on time, and a move toward demonstration of specific competencies. The success of this movement may require complex (rather than reductionist) milestones that reflect students' progression through complexity and context and a method to narrate their journey. European countries (United Kingdom, France, and Germany) have stressed the complexity associated with time and milestones for medical students to truly achieve competence. To meet the changing demands of medicine, they view time as actually providing students with knowledge and exposure to achieve various milestones. In the United States, milestones are based on sampling throughout professional development to initiate lifelong learning. However, the use of milestones may not imply overall competence (reductionism). Milestones must be developed alongside outcomes-based curriculum with use of faculty and competency committees. The perspectives outlined in this paper underscore emerging challenges for implementing outcomes-based medical education and call for new conceptualizations of competence.

PMID:
 
25523010
 
DOI:
 
10.3109/0142159X.2014.993954


평기는 학습에 좋은가? 학습은 평가에 좋은가? 둘 다인가? (Perspect Med Educ, 2015)

Is assessment good for learning or learning good for assessment? A. Both? B. Neither? C. It depends?

Francois J Cilliers




이번 호에서 덩 외 연구진[3]. 다른 몇몇 문헌과 함께, 그들의 연구결과는 인출연습retrieval practice을 사용하는 것과 같은 일반적인 학생 학습 행동(다중 선택 질문 검토 및 플래시 카드 사용)이 실제로 학생 수행의 형태로 학습에 대한 긍정적인 결과와 관련이 있음을 시사한다.

In this issue, Deng et al. [3]. In keeping with some other literature, their findings suggest that common student learning behaviours that equate to the use of retrieval practice—reviewing multiple choice questions and using flash cards—are indeed associated with positive outcomes on learning in the form of student performance.


연구자와 선생님의 관점에서, 시험 강화 학습에 대한 연구는 평가와 학습과 관련된 다소 당황스러운 일련의 발견들의 한 부분에 기여한다. 이러한 발견을 이해한다는 것은 평가와 학습에 관한 문헌에서 명확성의 결여되어 있음이 입증되며 더욱 더 어려웠다[4]. 저자들이 평가에 대해 글을 쓸 때, 정확히 무엇을 의미하는가? 형성 평가? 형성 평가의 일환으로 제공되는 피드백? 수업? 총괄평가? 사용되는 평가 방법? 그리고 그들이 학습에 대해 글을 쓸 때, 학생들이 학습을 위해 시간을 계획하거나 플래시 카드를 사용하는 것과 같은 학습 행동을 의미하는가? 그들은 지식, 기술, 기질을 습득하고 인코딩하는 두뇌 내 학습 과정을 의미하는가? 또는 그 과정의 결과, 즉 나중의 검색과 성능?

From a researcher’s and teacher’s perspective, research on test-enhanced learning contributes to but one segment of a somewhat bewildering array of findings relating assessment and learning. Making sense of these findings has been all the more difficult for the fact that the literature on assessment and learning has been bedevilled by a lack of clarity [4]. When authors write about assessment, what— exactly—do they mean? Formative assessment? Feedback as part of formative assessment? Coursework? Summative assessment? The assessment method being used? And when they write about learning, do they mean student learning behaviours like scheduling time for learning or using flash cards? Do they mean the in-the-brain process of learning i.e., of acquiring and encoding knowledge, skills, dispositions? Or the outcome of that process i.e., later retrieval and performance?


학생들이 다가오는 시험에 그들의 학습을 적응시키는 방법은 학습의 행동과 학습 과정 모두의 관점에서 사전 평가 학습 효과[4, 6]를 구성한다. 시험 중 검색 관행[7]과 후속 피드백[8]은 모두 수행 학습의 관점에서 유익한 사후 평가 학습 효과를 제공해야 한다.

The ways that students adapt their learning to the upcoming test constitute pre-assessment learning effects [4, 6] from the perspective of both learning - as- behaviour and learning-as-process. Retrieval practice [7] during the test and subsequent feedback [8] should both hopefully yield beneficial post-assessment learning effects from the perspective of learning-as-performance.


하지만 학생들의 관점은 어떤가? 결국, 실제로 연구 결과를 활용하려는 시도는 고립된 상태에서 이뤄지는 것이 아니라 기존의 교육 및 평가 맥락에서 발생할 것이다. 

But what about the students’ perspective? After all, any attempt to utilize research findings in practice will typically occur not in isolation but rather in the context of multiple existing teaching and assessment practices. 


내가 제안한 모델은 학생 학습의 평가 전 품질과 규제와 결과적 평가의 다양한 측면을 관련시킨다. 이 모델은 보건 행동 이론에서 도출된 영향 평가, 대응 평가, 기관 및 대인 관계 요인을 포함한다. 이것은 학생들이 이론과 임상 평가 양쪽의 다양한 요구와 변화하는 요구에 어떻게 반응했는지를 반영한다[4, 6, 13].

The model I proposed relates a range of aspects of consequential assessment to the pre-assessment quality and regulation of students’ learning. The model incorporates impact appraisal, response appraisal, agency and interpersonal factors, constructs derived from health behaviour theory. It reflects how students responded to varying and changing demands of both the assessment of theory and clinical assessment, relative to other aspects of their academic and personal lives [4, 6, 13]. 






↓ Full text

Is assessment good for learning or learning good for assessment? A. Both? B. Neither? C. It depends?

Cilliers FJ. Perspect Med Educ. 2015.

Abstract

No abstract available

PMID

 26498444 [] 

PMCID

 PMC4673068


의사결정 기준 설정: 의학교육은 Shared Decision Making에 준비가 되었나? (Med Educ, 2019)

Setting decision-making criteria: is medical education ready for shared decision making?

Suzanne Schut & Erik Driessen




인간의 의사결정은 편견, 오류 및 불합리성을 초래하기 쉽다.1 의료 및 교육과 같은 고부담 책임 시스템에서는 이 문제를 다루기 어려울 수 있다. [환자 관리]의 퀄리티와 [역량 기반 교육 및 평가]의 퀄리티은 ill-defined 문제를 다루고 있으며, 수많은 판단을 내리는 여러 전문가의 협력적 접근 방식에 달려있다. 두 가지 맥락 모두 도전적이고 높은 작업 수요와 최전방 전문가들이 수행하는 중요한 역할에 의해 특징지어지며, 둘 다 인간 의사결정의 질에 상당한 압력을 가한다.2

Human decision making is prone to bias, fallibility and irrationality.1 In high-stakes accountability systems, such as health care and education, this can be challenging to deal with. The quality of patient care and of competency-based education and assessment depends on the collaborative approach of multiple experts making numerous judgements while dealing with ill- structured problems. Both contexts are characterised by challenging, high-stakes work demands and by the crucial roles played by frontline professionals, both of which place substantial pressure on the quality of human decision making.2


휴리스틱스는 구조화되지 않은 환경에서 복잡한 의사결정을 처리할 때 몇 가지 지침과 지원을 제공한다. 그것들은 문제 해결의 과정을 안내하는 데 사용되는 정신적 지름길 또는 상호 관련 원칙 또는 지침으로 설명된다.3 알고리즘(즉, 적절하게 사용했을 때 문제에 대한 보장된 해결책을 약속하는 특정 목표를 달성하기 위한 단계별 처방)과 달리, 휴리스틱스는 해결책으로 이어질 수 있는 문제 해결 전략이다. 휴리스틱스의 한 예로, 해결책을 찾는 것을 당면한 상황과 비슷한 상황으로 제한하는 유추적 사고analogical thinking가 있다.

Heuristics offer some guidance and support when dealing with complex decision making in ill- structured settings. They are described as mental shortcuts or interrelated sets of principles or guidelines that are used to guide the process of problem solving.3 By contrast with algorithms (i.e. step-by-step prescriptions for achieving particular goals that, when used properly, promise a guaranteed solution to the problem), heuristics are problem- solving strategies that may lead to solutions. An example of heuristics is analogical thinking, in which one limits the search for solutions to situations that are similar to that at hand.


Feufel과 Flach4는 응급 부서에서 임상 의사 결정에서 확인한 공통적인 두 가지 휴리스틱스를 언급했다

  • '흔한 것'(증상과 의학적 이력, 현재 관찰을 고려할 때 가장 흔한 것), 

  • '최악의 경우'(감별 진단이 질병의 발생 가능성보다는 다른 증상과 관련된 잠재적 결과에 초점을 맞춘 경우)

Feufel and Flach4 present two commonly used heuristics they have identified in clinical decision making in the emergency department: 

  • Common Things’ (what is most common given the symptoms, medical history and current observations), and 

  • Worst Cases’ (in which the differential diagnosis is focused on the potential consequences associated with the different symptoms rather than the likelihood of a disease).


의료 교육에서 가장 고부담 결정 중 하나는, 교육자는 학습자가 '성공'했는지 여부에 대한 총괄적 판단이다.

In medical education one of the most high-stakes, summative decisions an educator is required to make concerns whether or not a learner has ‘succeeded’.


학습자의 성과 수준 또는 역량 개발 지표에 대해서는 이러한 휴리스틱스를 사용하면 더 쉽게 해석될 수 있다.

  • 흔한 것(행동 및 성과 지표로 볼 때 가장 흔하거나 가능성이 높은 것은 무엇인가?) 

  • 악의 상황(lapses in professional behavior와 같이, 재교육 또는 추가 감독에 교사가 초점을 둬야 하는 학생의 성과와 관련된 잠재적 결과의 경고지표).

Indicators of learners’ performance levels or competency development may be more easily interpreted by teachers or supervisors with the use of these heuristics: 

  • Common Things (what is most common or likely given the indicators of behaviour and performance), and 

  • Worst Cases (alarming indicators of potential consequences related to the student’s performance that focus the teacher’s support on the provision of remediation or more supervision, such as indications of lapses in professional behaviour).


결정의 품질을 개선하고 오류 가능성을 완화하기 위해, 저자들은 신호 탐지 이론, 이른바 '결정 기준'이라는 개념을 차용한다. 이것은 흔한 것에 환자 관리를 집중할 것인지 아니면 최악의 경우에 초점을 둘 것인지를 결정하는 데 사용되는 기준을 반영하며, 결정의 품질에 관한 핵심 매개변수다. '좋은good' 품질 또는 '만족스러운satisfactory' 기준을 결정하는 것은 도메인별 값과 오류의 잠재적 결과에 따라 달라진다. 

To improve the quality of the decision and to mitigate the likelihood of errors, the authors4 borrow a concept from signal detection theory, the so- called ‘decision criterion’. This reflects the criterion that is used to decide whether to focus patient management on a Common Thing or a Worst Case, and is a key parameter with respect to the quality of the decision. What determines ‘good’ quality or a ‘satisfactory’ criterion will depend on domain-specific values and the potential consequences of an error. 


대부분의 경우, 총괄평가에서 그러한 결정을 내릴 책임과 힘(또는 '결정 기준 설정')은 평가자, 기관, 규제 기관의 배타적 영역 내에 있으며, 아무도 그 책임과 힘에 대해 도전하지 않는다. 이것은 우리가 평가에 있어서 가지고 있는 규범과 가치를 보여주며, 그러한 고부담 결정을 내리기에 가장 적합한 사람을 누구라고 생각하는지에 대한 우리의 생각을 보여준다. 이 관행은 여전히 의료 교육 및 평가에 domain-specific values를 반영하고 있는가?

In summative assessment, the responsibility and power to make that decision (or to ‘set the decision criterion’) are, in most cases, within the exclusive domain of the assessor, institute or regulatory body – a practice that is rarely challenged. It reflects the underlying norms and values we hold to assessment practices and who we consider best placed to make those high-stakes decisions. Does this practice still reflect the domain-specific values in medical education and assessment?


스스로 규제하는 학습에 중점을 두고 평생 학습자를 의료 시스템에 전달하고자 하는 열망을 고려할 때, 의학 교육은 분명히 학습자의 역할과 책임을 중요시하는 것으로 보인다. 이러한 가치가 평가에서 반영되고 있으며 의사결정 기준 설정에 보다 구체적으로 반영되고 있는가? 여기서 중요한 질문은 역량기반 의학교육의 평가에서 고부담 결정을 내리기 위한 '만족스러운' 의사결정 기준을 누가 설정해야 하는가이다. 지금처럼 평가자가 일방적으로 기준을 결정하는 것이, 성찰적/자기조절적/역랴있는 전문직을 양성하려는 현대 교육 및 평가모델의 목적에 정말 부합하는가?

Given its emphasis on self-regulated learning and the aspiration to deliver lifelong learners to the health care system, medical education clearly seems to value the role and responsibility of the learner. Are these values mirrored in our assessment practices and more specifically in setting the decision criterion? The pivotal question here is: who should set the ‘satisfactory’ decision criterion to make high- stakes decisions in assessment within competency-based medical education? Isn’t the unilateral setting of the decision criterion by the assessor at odds with the objectives of modern education and assessment models, which aimto determine who is a reflective, self- regulating and competent professional?


만약 우리가 학습자가 복잡한 임상 의사결정 프로세스와 같이 [정보에 입각]하고 [성찰하는 방식]으로 어려운 결정을 내릴 수 있기를 원한다면,4 우리는 의사결정 기준 설정에 대하여 학생의 역할과 참여에 대해 재고할 필요가 있다. 역량 또는 책임성을 결정하는 데 사용되는 의사결정 기준을 설정하는 데 학습자를 참여시키는 것은 의사결정 프로세스에 엄청난 도움이 될 수 있다. 왜냐하면 그 자체로 의사결정과정을 향상시킬 뿐만 아니라, 그 결정에 대한 학습자의 수용acceptability, 그리고 무엇보다 일반적인 평가행위의 의미를 더해주기 때문이다. 일반적으로. 최근의 연구에서, 학습자들은 평가에서 의사결정의 과정에 영향을 주고 통제하는 기회를 부여받으면 주체성을 느끼고sense of agency, 학습과 평가 경험에 대한 학생의 공동 책임shared responsibility을 촉진한다고 주장했다. 또한 평가에서 학습자의 주체성agency는 평가를 자기조절학습의 기회로 사용할 수 있도록 한다.5

If we want learners to make difficult choices in an informed and reflective way, such as in the complex clinical decision-making process ,4 we need to reconsider learners’ roles and involvement in setting the decision criterion. Involving the learner in setting the decision criterion that is used to determine competence or entrustability might benefit the decision-making process tremendously, not only in terms of improving the decision-making process, but also by increasing the acceptability of the decision and, more importantly, the meaningfulness of assessment practices in general. In a recent study, learners argued that opportunities to influence and control the process of decision making in assessment stimulate a sense of agency and facilitate a shared responsibility for their learning and assessment  experience. Moreover, learner agency in assessment enables the potential to use assessment as a learning opportunity for self- regulated learning.5


우리는 학습자가 자신의 평가 기준을 완전히 정해야 한다고 주장하는 것이 아니며, 우리도 자기 평가 관행의 도전과 긴장을 모르는 것도 아니다.

We are not arguing that learners should set their own assessment criteria completely, and neither are we ignorant of the challenges and tensions of self-assessment practices.




 2019 Apr;53(4):324-326. doi: 10.1111/medu.13826. Epub 2019 Feb 27.

Setting decision-making criteria: is medical education ready for shared decision making?

Author information

1
Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, the Netherlands.


의학교육에서 학습자 평가를 위한 프레임워크: AMEE Guide No. 78 (Med Teach, 2013)

Frameworks for learner assessment in medicine: AMEE Guide No. 78

LOUIS PANGARO1 & OLLE TEN CATE2

1Uniformed Services University of the Health Sciences, USA, 2University Medical Center, Utrecht, the Netherlands





프레임워크의 중요성

The importance of frameworks


가르치는 것이 당신의 열정이지만, 학생들을 평가하는 것은 선생님으로서 당신에게 쉽지 않았고, 동료 선생님들의 평가를 감독하는 것은 매우 복잡해 보인다.

Teaching is your passion, but assessing students has simply not been easy for you as a teacher, and overseeing the assessments of your fellow teachers seems very complicated.


당신은 모든 학습자들에게 "기대 이상임" 이라고 점수를 주는 것을 좋아한다. 왜냐하면 학생들은 분명히 최선을 다하는 것 같기 때문이다. 당신은 모든 등급이 어떤 경우에도 주관적이라고 걱정하며, 동료들로부터 "객관적인" 평가를 받는 방법을 모른다고 느끼지 않는다. 어디서 도움을 받을 수 있니?

You yourself like giving all learners ‘‘above expectations’’ marks, because students clearly seem to do their best. You worry that all grading is subjective in any case, and do not feel you know how to get ‘‘objective’’ evaluations from your colleagues. Where can you get help?


밀러가 제공한 간단한 4층 골격은, 교육자 밀러 피라미드로 널리 알려져 있으며, 의사들이 임상 능력을 평가받으려면, 필기 시험이나 표준화된 기술 시험보다 더 높고 유효한 수준이 있다고 경고하였다.

The simple four-layered framework he provided, widely known as The educators Miller Pyramid, alerted that there is a higher, more valid level than written tests and even than standardized skills tests, if doctors are to be assessed on their clinical ability.


(그림 1).

(Figure 1).




표 1은 교육자가 친숙할 수 있는 공통 프레임워크의 개요를 제공한다.

Table 1 provides an overview of common frameworks with which educators may be familiar.




평가에서 프레임워크의 일차적 효과는 사실 교사들의 observation을 guide하는 것이다. 즉, 연습생에서 무엇을 찾아야 하는지, 언제, 그리고 어떤 순서에서 찾아야 하는지 말이다. 청사진은 그러한 틀에서 도출될 수 있다. 학생들은 그것들이 채점에 사용되는 것으로 지정되었다는 것을 알게 된다면 카테고리에 초점을 맞출 것이다.

The primary assessment effect of frameworks is, in fact, to guide the teachers in their observations—what to look for in a trainee, when, and in what order of importance. Blueprints can be derived from such frameworks. students will focus on the categories if they realize these have been designated as the drivers of grading.


프레임워크는 학생들이 무엇을 배워야 하는지에 대해 미리 알려준다. 프레임워크 내의 카테고리는 기관의 교육적 가치와 학습자에 대한 기대의 주요한 표현이다.

Frameworks set up a priori what students are supposed to learn. the categories within a framework are the primary expression of an institution’s educational values and expectations for learners.


프레임워크와 관련된 이차적 효과는 프레임워크를 사용할 것으로 예상되는 사람들(학생과 교사, 그리고 코스 이사)에 의해 적용될 수 있는 일관성과 정확성이다. 성공적인 프레임워크의 적용은 카테고리의 명확성, 프레임워크의 사용 용이성, 사용자에 의한 가치 수용성 등과 관련이 있다. 학습자와 궁극적으로 사회에 대한 공평성fairness은 프레임워크가 얼마나 잘, 얼마나 일관되고, 신뢰성 있고, 유효하게 적용될 수 있는지에 달려 있다. 이는 프레임워크의 본질적 특성(명확성, 단순성 및 수용성) 뿐만 아니라 교수 등이 이 프레임워크를 사용할 수 있게 교육하고 훈련하는 데 사용되는 자원에 모두 좌우될 것이다.

Secondary effects related to frameworks are the consistency and accuracy with which they can be applied by those expected to use them(students and teachers, as well as course directors). Successful application relates to the clarity of the categories, the ease of use of the framework, and the acceptability of its values by the user. Fairness to learners and ultimately to society will depend upon how well, that is, how consistently, reliably, and validly the framework can be applied. This will depend upon both the intrinsic characteristics of the framework (clarity, simplicity, and acceptability) and the resources spent to instruct and train teachers and others to use it.



주요 교수-학습 프레임워크의 짧은 역사

Short history of major frameworks to inform teaching and assessment


교육학자 랄프 타일러는 1949년에 '타일러 레쇼넬'으로 알려진 것을 출판한 이후, 교육은 결과 쪽으로 향하기 시작했다(Tyler 1949. 이 Rationale는 간단하지만 강력한 네 가지 질문을 제시한다. 

Ever since educational scientist Ralph Tyler published in 1949 what became known as the ‘‘Tyler Rationale,’’ education started to orient toward outcomes (Tyler 1949). This Rationale poses four simple but powerful questions: 


(1) 학교는 어떤 교육적 목적을 달성하고자 하는가? 

(2) 이러한 목적을 달성할 가능성이 있는 교육적 경험을 제공할 수 있는가? 

(3) 이러한 교육경험은 어떻게 조직될 수 있는가?

(4) 이러한 목적을 달성하고 있는지 어떻게 판단할 수 있는가? 

(1) What educational purposes should a school seek to attain? 

(2) What educational experiences can be provided that are likely to attain these purposes? 

(3) How can these educational experiences be organized?

(4) How can we determine whether these purposes are being attained? 


교육목표에 대한 분류학적으로 인지영역(지식), 정신운동영역(수동능력), 정서영역(태도)을 기술한 벤자민 블룸은 그 이후 교육목표에 대한 세계 대부분의 생각을 지배해 왔다.

Benjamin Bloom, whose taxonomy of educational objectives described a cognitive domain (knowledge), a psychomotor domain(manual skills), and an affective domain (attitudes), and has since dominated most of the world’s thinking of educational objectives.


(부록 2 참조). 그 이후, "KSA" (지식-기술-태도)는 비록 유일한 것은 아니었지만, 오랜 기간 선생님들의 정신적 모델이었다. 

(see Appendix 2). Since that time, ‘‘KSA’’ (for knowledge-skills-attitudes) has been the dominant, if not exclusive, mental model of generations of teachers. 




1980년대에, 교육자들은 교육의 최종 목표뿐만 아니라 발달 이정표에도 초점을 맞추기 시작했다. Dreyfus와 Dreyfus가 고안한 모델(Dreyfus & Dreyfus 1986)은 5단계(노비스, 어드밴스트 초보자, 유능, 능숙, 전문가)를 구분한다. 

In the 1980s, educationalists started focusing not only on final objectives of education, but also on developmental milestones. The model devised by Dreyfus and Dreyfus(Dreyfus & Dreyfus 1986) distinguishing five stages (novice,advanced beginner, competent, proficient, and expert) 


학부의학교육: 지난 20년간 학부 의학의 목표의 분석적 프레임워크의 잘 알려진 예로는 미국 의과대학 목표 프로젝트(Anderson 1999), 영국의 내일 의사(GME)2009), 스코틀랜드 의사(Scottish Deans' Medical Curriculum Group 2009), 네덜란드 대학원의료 교육 프레임워크(van Herwarden et al. 2009)가 있다. 'RIME'프레임워크(Reporter-Interpreter-Manager-Educator) (Pangaro1999)는 발달적이면서 합성적 프레임워크이다.

the objectives for undergraduate medical education over the past two decades. Well-known examples are analytic frameworks ofUSA’s Medical School Objectives Project (Anderson 1999),UK’s Tomorrow’s Doctors (General Medical Council (GME)2009), the Scottish Doctor (Scottish Deans’ Medical Curriculum Group 2009), and the Dutch Framework for Undergraduate Medical Education (van Herwaarden et al. 2009). The ‘‘RIME’’framework (Reporter-Interpreter-Manager-Educator) (Pangaro1999) has a developmental dimension but is synthetic at the same time


졸업후 의학 교육 : "CanMEDS" (Frank 2005), "CanMEDS" (Frank 2005), "ACGME Framework" (Anon 1999).

postgraduate medical education : the Canadian Medical Education Directions for Specialists, in short ‘‘CanMEDS’’ (Frank 2005), and the framework theof  Accreditation Council for Graduate Medical Education, the‘‘ACGME framework’’ (Anon 1999).


근무지 평가의 어려움

The difficulty of workplace assessments


전통적 신뢰도 요건이 근무지 평가에서는 쉽게 충족될 수 없다. 평가자는 전문성과 경험이 다르며, 평가받는 직장의 업무는 다르며, 상황은 계속 다르다. 또한 '의료 역량'에는 많은 다른 면들이 포함되어 있는데, 그 면들은 대부분은 관찰 가능하지 않을 수 있다.

Traditional reliability requirements of assessment cannot easily be met in the workplace. Assessors differ in expertise and experience, tasks in the workplace that are being assessed differ, and circumstances differ continuously. In addition, ‘‘medical competence’’ includes many different facets, most of which are not visible at a moment of observation.


평가자는 작업장 평가에서 측정 오차의 주요 원인으로 간주된다(Govaerts et al. 2007). 체계적인 오류와 무작위 오류가 둘 다 있다. 체계적인 오류는 작업장에서의 의료 훈련생들을 너무 높게 평가하고 "실패"하는 광범위한 경향이다(Dudek et al. 2005). 이는 관대성leniency 편차 또는 generosity 실수라고 불리며, 기준을 갖거나 적용하지 않는 것과 같은 몇 가지 요인에 의해 발생한다(Albanese 1999). 특히 문제가 되는 것은 작업장 평가에 대한 강조가 증가함에 따라 성적이 수년 동안 "인플레이션"이 되어 기준이 낮아지는 것으로 보인다는 점이다(Speer et al. 2000).

Assessors are considered to be a major source of measurement error in workplace assessment (Govaerts et al. 2007). There are both systematic error and random error. A systematic error is the widespread tendency to rate medical trainees in the workplace too highly and to ‘‘fail to fail’’ (Dudek et al. 2005). This has been called leniency-bias or generosity error, and is caused by several factors, such as lack of having or applying standards (Albanese 1999). Particularly disturbing is the observation that with increased emphasis on workplace assessment, grades appear to become ‘‘inflated’’ over the years, resulting in lowered standards (Speer et al. 2000).


후광 효과와 낮은 평가자 내, 평가자 간 신뢰성은 훈련받지 않은 평가자들 사이에서 흔히 볼 수 있다(Albanese 2000; Williams et al. 2003).

Halo-effects and low intraand interrater reliability are ubiquitous among untrained assessors of medical trainees (Albanese 2000; Williams et al. 2003).


[개인이 수년 동안 구축한 주관적이고 사회적으로 구성된 프레임워크]는 평가의 객관성을 극대화가 목적인 프레임워크의 장애요소이다(Gingerich et al. 2011). 또한 바쁘고 산만한 임상 환경에서 학습자를 평가하기 위한 많은 측면들이 단지 그들을 정확하게 판단하기 위해 감독자의 인지 능력을 너무 많이 요구한다고 제안되었다(Tavares & Eva 2012).

Such subjective, socially constructed frameworks that individuals have built over many years may interfere with frameworks that aim to maximize objectivity in assessment (Gingerich et al. 2011). It has also been suggested that the many aspects to evaluate learners on, in a busy, distracting clinical setting simply demand too much of the cognitive capacity of supervisors to accurately judge them well (Tavares & Eva 2012).


일차적인 이론 및 연구 문제는 왜 그렇게 많은 프레임워크가 있었음에도 평가자(후광, 관대성 등)에 내재된 직장 문제나 상황에 내재된 문제(사례 내용, 복잡성 및 맥락의 변화)를 극복할 수 없었는가 하는 것이다.

The primary theoretical and research question is why the availability of frameworks has not been able to overcome the workplace problems inherent in the rater (halo, leniency, etc.) or inherent in the circumstances (changes of case content, complexity, and context).


교육의 목표는 평가를 위한 틀로 번역되어야 하며, 교사들은 개별 상황에서 적절하게 적용할 수 있다. 이는 교육 프로그램의 주요 책임이며, 임상실습과 레지던트 관리자의 주요 업무다.

Objectives of education must be translated into frameworks for assessment, which teachers can apply properly in one-on-one situations. This is a major responsibility of training programs, and a major task for clerkship and residency directors.


둘째로, 평가 시스템은 이용 가능한 프레임워크가 실제로 교사들에 의해 확실하게 사용되고 적용되도록 자원을 제공해야 한다. 이를 위해서는 훈련, 모니터링 및 피드백이 필요하다.

Secondly, the assessment system must provide the resources to be sure that the available framework is actually used and applied by teachers. This will take training,monitoring, and feedback. 


의학교육의 프레임워크 종류 - 이론 설명

Types of frameworks in medical education—Theory explained 


분석적 프레임워크, 역량의 측면들을 묘사

Analytic frameworks, describing aspects of competence 


타일러와 블룸의 시대 이후, 이제 [의과대학에서 일어난 일]이 아니라 [실제 진료에 필요한 것]으로의 전환이 명백해졌다. (OBE)

Since the times of Tyler and Bloom, a shift is now apparent from a focus on what happens in a medical school to whatis needed in practice. (OBE)


그림 2

Figure 2


역량의 관련 차원이 모두 프레임워크 내에 포함된다는 것은 분석적 프레임워크의 특징이다.

It is a feature of analytic frameworks that the relevant dimensions of competence are all encompassed within the framework


완전한 분석 체계는 역량의 모든 측면에 대한 설명에 초점을 맞추고 있으며, 그 결과 프레임워크는 자세해지고 위계적 구조를 갖는다.

Fully analytic frameworks focus on description of all facets of competence, which makes them detailed andoften hierarchical.


초창기에는, 위에서 언급된 많은 국가 시스템은 평가될 100개 이상의 개별 능력 또는 역량 담당자를 열거했다. 우리는 프로그램과 관리자들이 개별 교수들이 따를 수 있는 간단한 구조를 제공하도록 권장한다. 이는 의무(태도)와 전문성(기술과 지식)의 약속으로서 펠레그리노의 프로페셔널리즘(Pellegrino 1979)의 정의를 사용하여 "KSA"로 또는 훨씬 더 간결하게 이루어질 수 있다. 

In their initial formulations,many of the national systems mentioned above have, to be complete, listed more than 100 separate abilities or competencies clerkship to be assessed. We encourage program and directors to provide teachers a simple structure on which to hang their terms. This can be done with ‘‘KSA,’’or even more concisely by using Pellegrino’s definition of Professionalism (Pellegrino 1979) as a promise of duty(attitude) and expertise (skill and knowledge)


대부분의 성과 지향적 프레임워크는 분석적 성격을 갖는다.

Most outcome-oriented frameworks have an analytic nature;


CanMEDS 프레임워크에는 7개의 역할, 134개의 "요소", 28개의 "키-경쟁력" 그리고 125개의 "지원력"이 있다. 

The CanMEDS framework has 7 roles, 134 ‘‘elements,’’ 28 ‘‘key-competencies,’’ and 125 ‘‘enabling competencies.’’ 


이 접근법의 장점은 우리가 기대하는 의사가 될 것으로 기대하는 것에 대한 완전히 포괄적인 설명에 근접한다는 것이다. 그러나 고도로 분석적인 프레임워크의 어려움은 명확성을 상실하는 경향이 있는 길고 매우 상세한 목표 목록을 이끌어 낸다는 것이다. 프레임은 그것을 사용하는 사람들에 의해 기억되고 적용되어야 하는 현실 세계의 추상이다. 많은 사람들은 4개의 세트(RIME Pangaro 1999), 6개의 유닛(ACGME1999) 또는 7개의 유닛(CanMEDS 2005)을 기억할 수 있다. 수십 개의 단위를 가진 보다 정교한 프레임워크는 대개 사용자 대다수가 기억하지 못한다. 이는 프레임워크의 '이차 효과'라고 부르는 결과를 초래하며, 이것은 교육계에 의한 사용의 용이성, 그리고 프레임워크를 사용하는 사람들을 훈련시키는 데 필요한 자원 등과 같은 사용의 신뢰성에 직접적으로 영향을 미친다. 2차 효과에서 프레임워크를 서로 비교하는 연구는 없지만, 더 간단한 프레임워크가 더 효과적이라는 몇몇 증거가 있다(Battistone et al. 2002).

The strength in this approach is that it nears a fully comprehensive description of what we expect a physician to be. But the difficulty of highly analytic frameworks is that they lead to long and very detailed lists of objectives that tend to lose clarity. Frameworks are abstractions of the real world that need to be remembered and applied by those who use them. Many people can remember a set of four (RIME Pangaro 1999), six (ACGME1999), or seven (CanMEDS 2005) units. More elaborated frameworks with dozens of units are usually not retained by the bulk of the users. This results in what we would call‘‘secondary effects’’ of the frameworks, which directly affect their reliability in use, such as the ease of their use by the educational community, and the resources needed to train people to use the framework. We know of no studies comparing frameworks with one another in secondary effects,but there is some evidence that simpler frameworks are more effective (Battistone et al. 2002).


합성적 프레임워크, 역량의 다양한 영역을 통합

Synthetic frameworks, integrating facets or domains of competence


합성적 특성을 가진 프레임워크는 실천에 초점을 둔다. 이 접근방식은 분석적 프레임워크의 경우보다 본질적으로 통합적이고 측정 지향적이지 않다(Pangaro 1999). 이 프레임워크의 근본적 질문은 trainee가 충분한 역량에 도달하면 어떤 활동이나 과제를 맡길 수 있는가이다.

Frameworks with a synthetic nature are grounded in the practice of their focus. This approach is essentially integrative and less measurement-oriented, than is the case with analytic frameworks (Pangaro 1999). The grounding question is: What activity or task can be entrusted to a trainee, once sufficient competence has been reached?


표 3

Table 3.





그림 3a와 3b에서 보듯이, 합성적이라는 뜻은 지식과 기술, 태도를 결합한다는 것이다(판가로 1999).

As seen in Figures 3a and 3b, they are synthetic in the sense that they combine knowledge, skill, and attitudes (Pangaro 1999).



합성 프레임워크는 주어진 다른 프레임워크의 요소들을 결합할 수 있다.

Synthetic frameworks may combine elements of any other given framework


ACGME 역량과 하위 역량은 단순성을 위해 각각 RIME 프레임워크에 매핑될 수 있다(표 4).

The ACGME competencies and sub-competencies may, for simplicity, each be mapped to the RIME framework (Table 4).




[교육 성과]를 [사회가 의사로부터 기대하는 것]과 더 강하게 연결하기 위해 [역량 기반 의학 교육]이 제안되었다(Carraccio et al. 2002; Frank et al. 2010). 'competence'과 'competency'라는 용어는 서로 다른 방식으로 사용되어 왔으며, 이로 인해 다소 혼선이 빚었다.

Competency-based medical education has been proposed to link outcome of education more strongly to what schools believe that society expects from a doctor (Carraccio et al. 2002; Frank et al. 2010). The terms ‘‘competence’’ and ‘‘competency’’ have been used in differing ways, and this has resulted in some confusion.


medical competence의 정의에 대해서 한 권위있는 논문은 이렇게 정의했다.

An authoritative publication proposed as a definition of medical competence:


개인과 봉사하는 공동체의 이익을 위해 의사소통, 지식, 기술력, 임상 추론, 감정, 가치 및 반성을 일상 생활에서 습관적이고 신중하게 사용하는 ." (Epstein & Hundert 2002)

The habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individual and the community being served.’’ (Epstein & Hundert 2002)


이러한 정의에 의해 판단되는 competence은 분명히 다차원적이며, 의료행위를 위해 Bloom의 KSA 요소를 활용하며, 실무에 기반을 두고 있다. "competency"은 언어학적으로 "competence"과 유사하다. "competence"은 종종 단수로 사용되어 개인의 일반적인 능력 상태를 반영한다. 그러나 competencies은 종종 복수형으로 사용된."보통 competencies라고 부르는 것은 통합적 competence의 구성요소나 여러 측면(들)이다. 그리고 우리의 관점에서 볼 때, competencies라는 용어는 학습자가 성공하기 위해 통합되어야 하는 여러 측면이나 기술들을 암시하며, 따라서 기본적으로 분석적 접근방식을 반영한다.

Judged by this definition, competence is clearly multidimensional, utilizing Bloom’s KSA elements to serve the practice of medicine, and grounded in practice. ‘‘Competency’’ is linguistically similar to ‘‘competence.’’ ‘‘Competence’’ is often used in singular, reflecting a state of the individual’s general ability. Competency, however, is often used in plural as ‘‘competencies.’’ What many people call competencies are components or facets of integrative competence; and from our perspective, they reflect an underlying analytic approach, implying multiple facets or skills that must be put together by a learner to be successful.


더 중요한 것은 "competencies"는 추상적인 경향이 있기 때문에, 관찰할 수 있는 구체적인 활동과 연계되지 않는 한 평가를 위한 가장 자연스러운 단위는 아닌 것 같다. 이는 역량이 달성되었다는 추론을 허용하기 위해 관찰할 수 있는 활동을 나열한 표 5에서 볼 수 있다.

More importantly, ‘‘competencies’’ tend to be abstractions and therefore do not seem to be the most natural units for assessment, unless they are linked to concrete activities which can be observed. This is seen in Table 5, which lists the activities that can be observed to allow the inference that a competency has been achieved.



그러므로 competence은 어떤 것을 성공적이거나 효율적으로 할 수 있는 통합적 능력으로 간주되어야 한다. 또 다른 방법으로, competence은 노력이나 자원을 과도하게 사용하지 않고서도 각각의 상황이나 각각의 환자에게 필요한 것을 가져다 준다(Pangaro 2000). 따라서, competence은 일상 생활에서 직업의 구체적인 행위에 반영된다. 따라서 EPA를 수행하기 위한 ability는 competency라고 부를 수 있으며, 왜냐면 그것이 바로 EPA가 정확히 의미하는 바이기 때문이다. EPA는 전문가가 미래의 신뢰를 허용하는 방식으로 수행함으로써 입증한 중요하고 어쩌면 필수적인 활동이다. 

Competence should therefore be considered the integrative ability to do something successfully or efficiently (Oxford Dictionaries).Phrased another way, competence brings to each situation or each patient what is required by the situation, with little excessive use of effort or resources (Pangaro 2000). Thus,competence is reflected in a concrete act of the profession in daily practice. The ability to execute an EPA can thus be designated a competency, because that is exactly what an EPAis: an important, perhaps essential, activity that a professional has demonstrated by performing in a way that allows future trust. 


반복하면, 의사소통능력 또는 협업능력은 competency가 아니라 domain of competence라고 부르는 것이 더 적절하며, 좀 더 상세한 서브 스킬은 'facets of competence'이라고 부르는 것이 합리적일 것이다." 마지막으로 연습생은 기술적으로 특정 활동을 수행할 수 있지만, 특정 EPA를 광범위하고 통합적인 의미에서 숙달할 때까지 감독되지 않는 상태에서 혼자 수행하도록 위임받지 않는다. 따라서 trainee에 대해서 unsupervised practice에 대한 준비가 되기 이전에 competent 또는 competence라는 용어를 사용하는 것은 임시적이며, 제한적이다. 

To repeat, it would be sensible to call the ability to communicate or collaborate, a ‘‘domain of competence,’’ rather than a competency, as is often done, and to call more detailed sub-skills ‘‘facets of competence.’’ Finally, a trainee may be able to technically perform a specific activity,  but would not be entrusted to do so unsupervised, unless and until this EPA is mastered in a broad and integrative sense Any use of the term ‘‘competent’’ or ‘‘competency’’ before a trainee is ready for unsupervised practice is therefore provisional and limited. 


환자 치료와 같은 사회적 상황에서 기능하려면 지식, 기술, 태도의 실시간 조합이 필요하다는 것은 합성적 프레임워크의 가정이다.

It is an assumption of synthetic frameworks that functioning in a social situation, such as in patient care, requires the real-time combination of knowledge, skills, and attitudes.


수년간의 훈련을 마치면 competence가 최종 종착점이 되지만, 그 동안 학습자들은 점진적으로 늘어나는 실질적인 책임을 통해 실천 공동체(Lave & Wenger 1991)에 통합되어야 한다. 그 접근방식은 performance가 명백한 실천의 맥락을 갖고 있다는 점에서 본질적으로 사회적이며, 분석적 프레임워크처럼 행동적이지 않다. 즉, 상황과 무관하게 관찰될 수 있다는 점에서 측정 지향적이지 않다. 

Competence is a final end-point after years of training, but in the meantime learners must be incorporated into the community of practice (Lave & Wenger 1991) through increasing,real responsibility. The approach is essentially social in that performance has a clear practice context, and is not behavioral(measurement oriented, in that it can be observed independent of situation) as it is with analytic frameworks. 


합성적 접근법은 

    • 학생이 무엇을 배웠는지에 대한 "인식적" 질문에서, 

    • 시험 조건 하에서 학생이 무엇을 할 수 있는지(또는 시연할 수 있는) "행동적" 질문을 넘어, 

    • 더 나아가 밀러의 피라미드(Miller 1990) 상단에 있는 실질적인 책임의 상황에서, 학생이 어떤 행동을 실제로 하는지"does do"에 대한 질문으로 이동한다. 

Synthetic approaches move from the ‘‘cognitive’’ question of what the student has learned, and even beyond the ‘‘behavioral’’question of what the student can do (or demonstrate) under test conditions, to what the student ‘‘does do,’’ in a situation with real responsibility, over time, at the top of Miller’s Pyramid (Miller 1990). 


시뮬레이션된 시스템 상황에서 기능을 시뮬레이션된 상황에서 입증하기 위한 "competency"를 측정하는 것은 가능하지만, 우리는 이것을 기술skill이라고 부르고 싶다. 그리고 이 기술이 실제 상황에서 입증된 후에야 이 기술skill을 능력competency이라고 부를 수 있다. 그러므로 합성적 틀에 내포된 사회적 접근방식은 밀러의 피라미드에서 "shows how"와 "does"사이의 차이도 분명히 한다. 

While it is possible to measure functioning in a simulated system situation as a ‘‘competency’’to be demonstrated in a simulated situation, we would rather call this a skill; once demonstrated in an actual practice situation, a skill can be called a competency. Thus, the social approach, implicit in synthetic frameworks, also makes clear the difference between ‘‘shows how’’ and ‘‘does’’ in Miller’s Pyramid. 


업무나 역할에 책임을 위임할 수 있도록, 긴 시간과 여러 환자에 걸쳐 수행이 지속된다는 것은 합성 모델의 추가적인 가정이다. unsupervised practice에 대한 entrustment 결정은 대개 이 역량competency을 강화하기 위해 일정한 지속적 실천 기간을 요구한다. 

It is a further assumption of the synthetic model that performance is sustained over time and over multiple patients to enable entrustment of on-going responsibility for the task or role. Entrustment decisions for unsupervised practice, usually require a certain duration of sustained practice to consolidate this competency. 


RIME 모델(Pangaro 1999)은 합성 프레임워크의 한 예다. 예를 들어, "리포터"로서 일관된 신뢰성을 보여주지 않은 학생은 더 높은 수준의 책임으로 나아가는 것이 허용되지 않을 것이다.

The RIME model (Pangaro 1999) is an example of a synthetic framework. A student, for instance, who did not demonstrate consistent reliability as a ‘‘reporter’’ would not be allowed to progress to a higher level of responsibility


어떤 의미에서 RIME 프레임워크는 환자 치료가 어떤 것을 포함하는지를 간단히 기술한 것이기도 하다. 그 프레임워크에 쓰이는 vocabulary는 [교육, 평가, 이정표에 대한 커뮤니케이션과 합의의 많은 부분이 언어적인 문제라는 사실을 강조]해왔다. 학생들의 발전과정를 표현할 적절한 단어를 찾는 것은 학습자, 교사, 행정가들에게 매우 중요하다. RIME 어휘는 도입 후 북미 의학 교육(Hemmer et al. 2008)에 빠르게 익숙해졌고, 다양한 환경에서 실현 가능한 것으로 밝혀졌다(Battistone et al. 2002). 한 가지 이유는 이 프레임워크의 통합적 성격이 환자 치료 책임과 직접 관련이 있다고 인식되며, 따라서 일반적인 임상의사의 판단 시스템과 더 일치하기 때문일 수 있다(Gingerich et al. 2011).

In a sense, the RIME framework is a simple elaboration of what patient care encompasses.  The framework has been presented as a vocabulary, stressing the fact that much of the communication and consensus about education, assessment, and milestones isa linguistic issue. Finding the right words to express student progress is hugely important for learners, teachers, and administrators. After its introduction, the RIME vocabulary quickly caught on in North-American medical education(Hemmer et al. 2008), and was found feasible in a wide variety of settings (Battistone et al. 2002). One reason may well be that its synthetic nature is recognized as directly related to patient care responsibilities, and thus is more congruent with clinicians’ usual judgment systems (Gingerich et al. 2011).


합성어들은 일반적으로 구체적인 용어를 사용하며, 추상적으로 표현되는 경우가 적으며, 흔히 역할을 기술한다. 예를 들어, CanMEDs 프레임워크에서 "Medical Expert" 또는 "Advocate"라는 용어는 이것을 채울fill 과제나 역할을 필요로 하며, RIME 체계의 "Reporter"라는 것은 바로 그 역할이 될 수 있다.

Synthetic terminologies typically use concrete terms and are less often expressed in generic abstractions, and they often describe roles. The term ‘‘Medical Expert’’ or ‘‘Advocate’’ from the CanMEDs framework, for instance, imply a task or role to be filled, just as ‘‘reporter’’ in the RIME scheme is a role to been trusted. 


분석적 프레임워크는 그 프레임워크에 사용된 단어의 의미만 보자면 논리적으로 매우 옳지만, 합성적 프레임워크는 그 프레임워크가 지니는 의미가 세상world과 연관되어야만 참이 된다. RIME과 같은 합성 체계는 능력이 포함될 수 있는 이전의 개념에서 도출되거나 "분석된" 것이 아니라, 의사가 수행하는 작업과 역할에 대한 작업장의 관찰에 의존한다.

Analytic propositions are logically true by virtue of the meaning of the words alone, while synthetic propositions are known to be true from how their meaning relates to the world. Synthetic frameworks,such as RIME, depend upon a workplace observation of the tasks and roles that physicians perform, rather than being abstractions derived from, or ‘‘analyzed’’ from, a prior concept of what competence would include.


프레임워크를 사용하는 사람들의 실제 의료현장에서의 실천으로부터 파생된 모델이 이점을 갖는다는 것은 이치에 맞는다. 임상 정보 수집 및 커뮤니케이션(리포팅), 결론 도달(인터프리팅), 공식 계획(매니징)은 의사의 일상 업무의 일부다. 그 기저에 깔린 구인(정신 모델)은 의사의 일상 업무 공간을 반영하며, 따라서 Bloom의 지식-기술-태도 접근과 같은 추상화에서 파생된 것보다 더 쉽게 이용할 수 있다. 즉, 합성적 접근법은 의사가 환자 치료에 적용하는 두 가지 능력, 즉 패턴 인식과 지저분한 일련의 발견으로부터 결론에 도달하는 능력을 이용한다.

It makes sense that a mental model derived from the actual practice of those using a framework would have advantages. Gathering and communicating clinical information (reporting), reaching conclusions (interpreting), and formulating plans (managing) are part of the daily work of physicians. the underlying construct (mental model) reflects the daily workplace tasks of physicians, and thus is more easily available than one derived from abstractions, such as Bloom’s knowledge-skills-attitudes approach. The synthetic approach takes advantage of two abilities which physicians apply in patient care—pattern recognition and reaching conclusions from messy sets of findings.


발달적 프레임워크, 발달과정에 초점

Developmental frameworks, focused on progression


발달적 프레임워크에서 학습자는 독립성을 향해 사다리를 한 걸음 한 걸음 한 걸음 더 나아간다. 발달적 프레임워크는 위에서 언급한 보다 정적인 결과 기반 프레임워크와 반대로 항상 학습자의 개발 단계 또는 이정표를 언급한다.

In a developmental framework, the learner progresses step-wise up a ladder toward independence. Developmental frameworks always mention stages or milestones in the development of the learner, as opposed to the more static outcome-based frameworks mentioned above.


아이들의 성장은 종종 교육 과정에서 학생들의 성장에 대한 이미지나 은유로 사용되어 왔다. 진보와 성장을 학습 과정의 기본으로 보는 것은 꽤 오래된 것이다. 플라톤은 심리적인 성장을 피상적이고 구체적인 세부사항에 대한 인식에서 그 밑바탕에 있는 진정한 의미와 형태에 대한 인식(Kenny 2004)으로 나아가는 진보라고 묘사한다. 이는 징후와 증상에서 병리학적 과정의 기본 개념인 진단으로 이동하는 것과 직접적으로 유사하다.

The growth of children has often been used as an image or metaphor for the growth of students in an educational process. Seeing progress and growth as the basis of the learning process is quite old. Plato describes psychological growth as progress from an awareness of superficial, concrete details toward a perception of the true meaning and form underlying them (Kenny 2004). This is directly analogous to moving from signs and symptoms to an underlying concept of a pathological process, the diagnosis.


고등교육에서 자주 언급되는 발달 프레임워크에는 초보자, 고급 초보자, 능력자, 숙련자, 전문가 등 5가지 단계가 포함된다.(Dreyfus & Dreyfus 1986).

 A frequently cited developmental framework in higher education, includes five stages: novice, advanced beginner, competent, proficient, and expert.(Dreyfus & Dreyfus 1986).


발달적 모델의 가정은 stages, 또는 논리적 순서로 진행되는 steps가 존재하며, 각각의 단계는 progression을 위해 필요하다는 것이다. 일단 일의 고급 초보자라면, 사람은 더 이상 초보자처럼 보이거나 행동하지 않는다.

The assumption of the developmental model is that there are stages, or steps of progression in a logical order, and that each step is required for progression. Once one is an advanced beginner in a task, one no longer looks or behaves like a novice.


발달적 모델에서 'competence'이라는 용어는 하나의 단계로 사용되는데, 아마도 가장 중요한 단계일 것이지만, 드레퓌스 모델이 보여주듯이 반드시 마지막 단계는 아니다. "competent"는 적어도 학습자의 일정한 독립성을 허용하는 임계값으로 간주될 수 있다 (10 Cate et).

In a developmental model, the term ‘‘competence’’ is used as one step, probably the most important, but not necessarily the final step, as the Dreyfus model shows. ‘‘Competent’’ can at least be viewed as a threshold that should permit a certain independence of the learner (ten Cate et al. 2010).


특히 드레퓌스 용어는 의도적으로 일반적intentionally generic이며 학습자나 교사에게 무엇이 기대되는지에 대한 구체적인 그림을 주지 않는다.

The Dreyfus terms in particular are intentionally generic and do not give learners or teachers a concrete picture of what is expected.


한편, 독립적인 실천을 향한 진행 상황을 문서화하기 위해 "마일스톤"를 사용하는 것은 분명히 경험적인 것으로, 전문가의 관찰에 의해 선택된 목적이다. 특정 환경에서 특정 학생에게 프레임워크를 신뢰성있게 적용하는 일관성을 달성하기 위해서는 여전히 많은 작업이 수행되어야 한다.

On the other hand, the use of ‘‘milestones’’ to document progression toward independent practice is clearly empiric, with the objectives chosen by the observation of experts. To achieve the consistency of use that allows reliable application of the framework to specific students in specific settings, a lot of work must still be done.


예를 들어 "노비스"(수행능력이 rule-driven인 경우)에서 "고급 초심자"(분석적 추론과 패턴 인식 사용)로 의료 전문 지식의 진보가 어떤 것인지(패턴의 한계를 인식한다).

for what progress in medical expertise looks like, for example, 

    • from ‘‘novice’’ (for whom performance is rule driven) 

    • to ‘advanced beginner’’ (uses both analytic reasoning and pattern recognition) 

    • to expert (recognizes the limits of pattern).


개발 틀에서. "전문가" 지위를 획득한 후에 "노비스"로 다시 기능하는 것은 일종의 질병의 재발relapse로 볼 수 있을 것이다. 이것이 "RIME"이 완전한 발달적 프레임워크가 아니라는 한 가지 이유다.

in a developmental framework To function again as a ‘‘novice,’’ after having achieved ‘‘expert’’ status would be seen as a relapse. This is one reason that ‘‘RIME’’ is not a fully developmental framework;



대부분의 프레임워크의 하이브리드적 특성

The hybrid nature of most frameworks


ACGME에 의해 아직 명시되지는 않았지만, 우리는 "patient care"의 역량 영역이 분명히 지배적인 영역이며, 다른 모든 사람들이 진정으로 지지하는 영역이라고 주장할 것이다. "환자 치료"는 그 자체로 교수진 개발 노력이 선생님과 환경에 걸쳐 공유된 의미를 개발하는데 초점을 맞춰야 하는 합성적이며 다차원적인 용어다. 다른 영역에서 부실한 의사가 환자 치료에서 우수할 수는 없다.

Although not yet made explicit by the ACGME, we would argue that the competency domain of ‘‘patient care’’ is clearly the dominant domain, which all others really support. ‘‘Patient care’’ is itself a synthetic, multidimensional term for which faculty development efforts must be focused on developing a shared meaning, across teachers and settings. One cannot be superb in patient care while at the same time mediocre in the other domains.


분석적 프레임워크와 합성적 프레임워크도 명확히 발달적 특성을 갖는다. 의학 교육은 10년 이상의 훈련을 받을 수 있기 때문에, 교육자들은 그들이 사용하는 어떤 프레임워크의 발달 측면을 분명히 표현하기 위해 노력을 기울여야 한다는 것은 분명하다.

Developmental features of analytic and synthetic frameworks are also apparent. Because medical education may span well over a decade of training, it is clear that educators must spend effort to articulate the developmental aspect of any framework that they use.


ACGME 모델의 출발점이 분석적이었기 때문에, 발달적 측면이 본질적이지는 않지만, 현재 "마일스톤"의 형태로 개발 중에 있다(Green et al. 2009). 이제 역량 영역을 이정표와 결합하면 혼합 프레임워크가 명확하게 된다.

As the starting point of the ACGME model was analytic, the developmental aspect was not intrinsic, but is now under development in the form of ‘‘milestones’’ (Green et al. 2009). The combination of competency domains with milestones now clearly results in a hybrid framework.


한편, 합성적인 RIME 프레임워크는 다음 연수의 진전에 대한 판단을 지도하기 위해 미국의 임상실습에서 널리 사용될 수 있는 발달적 측면을 가지고 있다(Hemmer et al. 2008). 그러나 interpreter의 지위를 얻은 학생이 reporting task를 무조건 잘 하는 것은 아니므로 엄격히 발달적인 것은 아니다. 사실, 그들은 점차 더 reporting을 잘 하게 된다.

On the other hand, the synthetic RIME framework has a developmental aspect allowing it to be widely used in clerkships in the United States to guide judgments on advancement to the next year of training (Hemmer et al. 2008). Yet, it is not strictly developmental in that those who have earned interpreter ‘‘status’’ do not leave reporting tasks behind. In fact, they get better at reporting. 


대부분의 교육자들은 시간이 지남에 따라 독립성을 강화하는 역할을 하고 있으며, 프로그램과 사무국장들은 개발적으로 적절한 목표를 설명하고 전달할 수 있어야 한다.

Most educators have the role of fostering independence over time, and program and clerkship directors must be able to describe and communicate developmentally appropriate goals.



교사를 위한 가이드 - 프레임워크를 사용한 학습자 평가

Guiding teachers—the use of frameworks for the assessment of learners—Theory in practice


분석적 지식-기술-적성 프레임워크의 한 차원(인식) 내의 개발 단계를 사용하여 RIME(표 8)과 같은 합성 프레임워크 내에서 요구되는 점진적으로 높은 수준을 반영할 수 있다.

The developmental stages within one dimension (the cognitive) of the analytic knowledge-skill-attitude framework can be used to reflect the progressively higher levels required within a synthetic framework such as RIME (Table 8).


평가 프로세스 내에서 특정 작업이나 활동을 관찰하고 문서화할 수 있으며, 과제를 수행하는 데 필요한 역량이나 기술을 이러한 관찰에서 추론할 수 있다는 것을 깨닫는 것이 중요하다. 이것은 표 5에서 예시하였다.

Within the assessment process it is important to realize that specific tasks or activities can be observed and documented, and that the competencies or skills required to perform the task are inferred from these observations. This was illustrated above in Table 5.


면허 취득을 목표로 의사를 양성할 때, 우리의 강조점은 성과 지향적인 프레임워크에 있어야 한다. 이를 위해서는 이분법적인 합격-실패 집중이 필요하며, 학습자가 개발 프레임워크에서 중간 이정표를 달성하는 것은 덜 중요하다.

when we prepare physicians for licensing, then our emphasis must be on an outcomes-oriented framework. This requires a dichotomous pass–fail focus, and the learner’s attainment of intermediate milestones in a developmental framework is then less important.


이와는 대조적으로, 우리의 교육적 역할이 학부부터 대학원 의학 교육에 이르는 오랜 과정에 걸쳐 성장을 촉진하는 것이라면, 명시적으로 발달적인 프레임워크는 필수적이 될 것이다. 구조적인 관찰과 피드백은 종합적 결정이 아니라 개선과 진보를 위해 설계된다.

By contrast, if our educational role is to foster growth over a long process from undergraduate to graduate medical education, then an explicitly developmental framework becomes essential. Structured observation and feedback are designed for improvement and advancement, not a summative decision.


합성 접근방식에 의해 제기되는 특별한 문제는 전문가로 추정되는 래더의 판단인 오랜 기간 동안 사용 가능한 방법들이 체계적으로 연구되지 않았다는 것이다. 실제로 최근 수십 년 동안의 분석적 접근방식은 정신계적으로 방어 가능한 정량화된 측정의 중요성을 강조하고 있으며(Lurie et al. 2011), 이는 더 강조되지 않고 아마도 더 서술적인 평가를 평가(Pangaro 2000)을 평가절하했을 것이다.

The particular problem posed by synthetic approaches is that the time-honored available methods, judgments by raters presumed to be expert, have not been systematically studied. In fact the analytic approaches of recent decades have emphasized the importance and highlighted the difficulty of psychometrically defensible quantified measurements (Lurie et al. 2011), which have de-emphasized and perhaps devalued more descriptive evaluations (Pangaro 2000).



Epstein RM, Hundert EM. 2002. Defining and assessing professional competence. Med Humanit 287(2):226–235.










 2013 Jun;35(6):e1197-210. doi: 10.3109/0142159X.2013.788789. Epub 2013 May 16.

Frameworks for learner assessment in medicineAMEE Guide No. 78.

Author information

1
Department of Medicine, F. Edward Hebert School of Medicine, Uniformed Services University of the HealthSciences, 4301 Jones Bridge Road, Bethesda, MD 20814-4799, USA. louispangaro@aol.com

Abstract

In any evaluation system of medical trainees there is an underlying set of assumptions about what is to be evaluated (i.e., which goals reflect the values of the system or institution), what kind of observations or assessments are useful to allow judgments 1 ; and how these are to be analyzed and compared to a standard of what is to be achieved by the learner. These assumptions can be conventionalized into a framework for evaluation. Frameworks encompass, or "frame," a group of ideas or categories to reflect the educational goals against which a trainee's level of competence or progress is gauged. Different frameworks provide different ways of looking at the practice of medicine and have different purposes. In the first place, frameworks should enable educators to determine to what extent trainees are ready for advancement, that is, whether the desired competence has been attained. They should provide both a valid mental model of competence and also terms to describe successful performance, either at the end of training or as milestones during the curriculum. Consequently, such frameworks drive learning by providing learners with a guide for what is expected. Frameworks should also enhance consistency and reliability of ratings across staff and settings. Finally, they determine the content of, and resources needed for, rater training to achieve consistency of use. This is especially important in clinical rotations, in which reliable assessments have been most difficult to achieve. Because the limitations of workplace-based assessment have persisted despite the use of traditional frameworks (such as those based on knowledge, skills, and attitudes), this Guide will explore the assumptions and characteristics of traditional and newer frameworks. In this AMEE Guide, we make a distinction between analytic, synthetic, and developmental frameworks. Analytic frameworks deconstruct competence into individual pieces, to evaluate each separately. Synthetic frameworks attempt to view competence holistically, focusing evaluation on the performance in real-world activities. Developmental frameworks focus on stages of, or milestones, in the progression toward competence. Most frameworks have one predominant perspective; some have a hybrid nature.

PMID:
 
23676179
 
DOI:
 
10.3109/0142159X.2013.788789


시험의 교육적 가치: 어디까지 확장되는가? (Adv Health Sci Educ Theory Pract, 2018 )

The pedagogical value of testing: how far does it extend?

Kevin W. Eva1 · Colleen Brady2 · Marion Pearson2 · Katherine Seto2





도입

Introduction


"평가가 학습을 촉진한다"는 개념은 학습자의 학습 행동에 영향을 미칠 것으로 예상되는 시험을 통해 보건 전문 교육에서 널리 받아들여진다(Newble 2016). 이러한 현상에 대한 인식은 시험을 단순히 학습의 평가로 취급하는 것이 아니라 학습을 위한 평가를 의도적으로 사용하자는 요구와 병행하여 증가하고 있다(Suchwist and van der Vleuten 2011; Eva et al. 2016).

The notion that “assessment drives learning” is widely accepted in health professional education with tests being expected to influence learners’ study behaviour (Newble 2016). Awareness of this phenomenon is increasing in parallel with calls to deliberately use assessment for learning rather than treating tests simply as assessment of learning (Schuwirth and van der Vleuten 2011; Eva et al. 2016).


시험 강화 학습

Test‑enhanced learning


작업 시간을 통제하거나 연구만을 위한 그룹을 위해 왜곡하는 경우에도 학습 + 테스트 그룹은 일상적으로 더 많은 retention 상태를 보인다(Roediger 및 Karpicke 2006). 이러한 효과는 실험실 기반 연구, 실제 교실 및 임상 환경에서 관찰되었다(Dunlosky et al. 2013).

Even when time-on-task is controlled or skewed in favour of the Study-only groups, Study + Test groups routinely show greater retention (Roediger and Karpicke 2006). Such effects have been seen in labbased studies, real-world classrooms, and clinical settings (Dunlosky et al. 2013).


(시험의) 편익은 여러 시간적 맥락, 시험 형식 및 지식 영역에 걸쳐 발생하는 것으로 나타났다.

Benefits have been shown to occur across temporal contexts, test formats, and knowledge domains.


이러한 발견의 주된 설명은 기억에서 정보를 검색하면 메모리가 더 강해지므로 나중에 호출하고 적용할 가능성이 커진다는 것이다(Carpenter 2012). 만일 사실이라면, 기억에 관한 associative model은 시험을 보는 것의 장점이 모두 [시험을 본 자료에 대한 기억]은 물론 [관련 정보의 검색]도 용이하게 해야 한다고 제안할 것이다(Chan et al. 2006). 즉, 어떤 의미론적 개념semantic concept이 기억에서 활성화되면, 그 개념과 다른 개념 사이의 associative link도 각 메모리 트레이스의 강도가 증가함에 따라 비슷하게 활성화되어야 한다. 예를 들어, 'book = le livre'에 대해서 시험을 보면, 개념적으로 서로 연관되어 있는 read = lire 에 대한 기억도 용이하게 할 수 있다.

The dominant explanation of these findings is that retrieving information from memory makes the memory stronger, thereby increasing the likelihood of later recall and application (Carpenter 2012). If true, associative models of memory would suggest that the benefits of being tested should both improve the memorability of the material that was tested and facilitate the retrieval of related information (Chan et al. 2006). That is, if one semantic concept is activated in memory, then the associative links between that concept and other concepts should similarly become activated with the strength of each memory trace increasing. For example, being tested on book = le livre could facilitate memory for read = lire if both pairs were in the studied material because the words are conceptually associated with one another.


요컨대, 우리는 가능한 한 많은 것을 시험해야 하는가 아니면 일반화된 편익에 대한 기대와 함께 배우기 위해 도메인으로부터 전략적으로 샘플을 채취할 수 있는가?

In sum, do we need to test as much as possible or can we strategically sample from the domain to be learned with the expectation of generalized benefit?


회상-유도 촉진

Retrieval‑induced facilitation


몇몇 심리학 연구는 "회상 유도 촉진"이 발생할 수 있다는 것을 보여주었다. 즉, 학습한 정보의 하위집합에서 시험을 보는 것은 공부는 했지만 명시적으로 시험을 보지는 않은, 개념적으로 관련된 정보의 리콜도 용이하게 할 수 있다(Chan 2009).

Several psychology studies have indicated that “retrieval-induced facilitation” can occur. That is, being tested on a subset of studied information can facilitate recall of conceptually related information that was studied but not tested explicitly (Chan 2009).


그렇긴 하지만, 문헌에서 학습한 정보의 일부만을 테스트하는 것에 대한 우려를 불러일으키는 "회상-유도 망각"의 징후도 많이 있다.

That said, there are also a number of indications of “retrieval-induced forgetting” in the literature that raise concerns about testing only a subset of to-be-learned information.


즉, 운동 명칭의 일부 집합subset을 찾기 위한 노력은 나중에 회상 연습을 하지 않은 것에 비해 다른 스포츠 이름을 검색하는 참가자의 능력을 손상시킨다. 이는 시험-유도 학습에 모순되는 것으로, 즉 시험을 보는 것이 언제나 유익한 것은 아니며, 적절하게 사용하지 않을 경우 해로울 수 있다는 주장이다.

In other words, the effort to retrieve a subset of sports names impairs participants’ ability to later retrieve different sports names relative to had the retrieval practice not taken place. This is an important contradiction to the broadly made claims that tests enhance learning as it suggests testing is not universally beneficial and can be detrimental if not used appropriately.


대부분의 검색 회상-유도 망각 연구는 위에 언급한 스포츠 및 음료 단어 목록과 같은 비통합적 자극을 사용한다. 그러나, 검색 유도 촉진이 관찰된 경우, 자극은 서면 또는 비디오 형식으로 제시된 텍스트의 일관성 있는 구절이었다(예: Cranney et al.의 심리학 비디오 연구는 위에서 설명한다). 전형적인 강의실 기반 강의 자료는 이 연속체 중 어디에 위치하는가?

Most retrieval-induced forgetting studies use non-integrated stimuli such as the above-mentioned sports and drinks word lists. Where retrieval-induced facilitation has been observed, however, the stimuli have been coherent passages of text presented in written or video form (e.g., Cranney et al.’s psychobiology video study describe above). Where on this continuum does typical classroom-based lecture material lie?


목적

Purpose


본 연구에서는 시험 효과가 확장되는 정도를 조사하기 위해 결과 시험 항목이 학습 시험에서 마주친 항목과 어느 정도 관련이 있는지 조작하였다. 학습 단계 시험 항목에 대하여, 예후 시험 항목은 동일하거나 이전에 시험하지 않았다. 이전에 테스트되지 않은 항목은 연구된 자료에서 추출한 것이며, 다른 질병 상태의 맥락에서 유사한 치료법을 조사하거나, 보다 일반적인 제약 지식 영역(예: 기본 생리학 및 약물 특성)과 관련이 있다.

In this study, we manipulated the extent to which outcome test items were related to items encountered on a learning test to examine how far testing effects extend. Relative to learning-phase test items, outcome test items were either identical or not previously tested. Not previously tested items were drawn from the studied material, examined similar therapeutics in the context of different disease states, or related to more generic domains of pharmaceutical knowledge (e.g., basic physiology and drug characteristics).


이 두 가지 범주의 질문은 시험이 학습자가 개입과 결과 사이의 자료를 검색(또는 학습)하는 데 더 많은 시간을 할애할 수 있다는 가능성에 기초하여 포함되었으며, 이는 연구 자료에 포함되지 않은 관련 치료 정보를 더 쉽게 접할 수 있다. 시험 효과가 어느 정도까지 일반화되는지 이해하면 교육자가 학습 개입을 위해 보다 전략적으로 평가를 계획할 수 있다.

These latter two categories of questions were included based on the possibility that testing might encourage learners to spend more time searching for (or studying) the material between intervention and outcome, which might lead them to more readily encounter related therapeutic information that was not included in the study material. Understanding the extent to which testing effects generalize will enable educators to more strategically plan assessment for learning interventions.


방법

Method


맥락

Context


Four of the six tutorial groups were then chosen (based on there being no formal class time immediately after their regularly scheduled tutorial) and randomly assigned to the Study Only or Study + Test conditions to prevent contamination of the intervention within tutorial group.


자료

Material


각 슬라이드에는 대학교 강의 자료에 대한 일반적인 3-7개의 포인트 폼(즉, 벌거벗은) 노트가 포함되어 있었다(그림 참조). 예를 들어 1).

Each slide contained three to seven point-form (i.e., bulleted) notes typical of university lecture materials (see Fig. 1 for an example).




관련 전문 지식을 갖춘 두 명의 약학 교육을 받은 공동 연구자가 슬라이드를 사용하여 결과 테스트(Box 1)를 위한 40개의 객관식 질문을 작성했다.

Two Pharmacy-trained co-investigators with relevant expertise used the slides to generate 40 multiple choice questions for the outcome test (Box 1).



    • 슬라이드 덱의 시작 부분에 약술된 목표를 사용하고 학습 자료 전반에 걸쳐 적절한 균형을 보장하면서 슬라이드의 치료 내용을 기반으로 10개 질문 세트를 작성했다. 이 10개의 질문은 Study + Test 조건 참가자에게 전달된 학습 단계 테스트를 구성했다. 또한, 이러한 질문들은 해당 그룹에 대한 연구의 두 단계(즉, 질문 내용 또는 형식에 대한 변경 없이)에서 동일한 것으로 나타난다는 점에서 결과 테스트에 "반복" 질문으로 포함되었다. 

    • 10개 질문("시험은 하지 않았지만" 항목)의 두 번째 집합은 연구된 자료에서 비슷하게 초점을 맞추고 도출했지만 학습 단계 테스트에서는 사용되지 않았다. 

    • 10개 질문("연구되지 않은 치료" 항목) 중 세 번째 질문은 연구되지 않은 의학적 조건(예: 알레르기 비염 및 출혈 치료)에서 학습 테스트 질문에서 다룬 것과 유사한 치료 지식에 초점을 맞추었다. 

    • 최종 10개 질문("일반 의약품 지식 미연구" 항목)은 학생들이 아직 커리큘럼에서 접하지 못한 약학과 약학과 및 약학 과목에서 뽑았는데, 이 과목은 기초 생리학, 약물 특성 등 연구 자료에서 볼 수 없었던 보다 일반적인 지식에 초점을 맞춘 것이었다.

    • One set of 10 of questions was created based on the therapeutics content in the slides, using the objectives outlined at the start of the slide deck and ensuring an appropriate balance across the learning material. These 10 questions formed the learning-phase test that was delivered to Study + Test condition participants. In addition, they were included in the outcome test as “Repeat” questions given that they were presented identically in both phases of the study for that group (i.e., with no changes made to the question content or format). 

    • A second set of 10 questions (“Studied but not tested” items) were similarly focused and drawn from the studied material, but had not been used during the learning-phase test. 

    • A third set of 10 questions (“Not studied therapeutics” items) focused on therapeutic knowledge similar to that covered in the learning test questions in the context of medical conditions that were not studied (e.g., allergic rhinitis and hemorrhoid treatments). 

    • The final set of 10 questions (“Not studied generic pharmaceutical knowledge” items) was drawn from pharmacology and pharmaceutics courses students had not yet encountered in the curriculum that focused on more generic knowledge such as basic physiology and drug characteristics that were, again, not in the study material.


개입과 절차

Intervention and procedure


이 연구는 전체 튜토리얼 그룹에 걸친 프레젠테이션의 일관성을 보장하기 위해 모든 자료와 지침을 문서로 제공하여 두 단계로 진행되었다. 학습 단계 동안 모든 학생들에게 "만약 당신이 (GERD와 PUD)에서 즉시 테스트를 받아야 한다면, 몇 퍼센트의 질문이 정확하게 대답될 것으로 예상하는가?"라고 먼저 추정하라는 질문을 받았다.

The study took place in two phases with all materials and instructions being delivered on paper to ensure consistency of presentation across tutorial group. During the learning phase, all students were first asked to estimate “If you were to be tested on (GERD and PUD) immediately, what percentage of questions would you anticipate answering correctly?”


분석

Analysis



결과

Results


참가자

Participants


Table 1 offers a summary of the groups’ baseline characteristics.


학습 시기

Learning phase


Both groups provided equal estimates regarding the amount of material they already knew (58.3 vs. 58.6% for the Study Only and Study + Test groups, respectively; t = 0.1, p > 0.9) and the amount of material they expected to know after the learning phase (78.3 vs. 78.8%, respectively; t = 0.2, p > 0.8). After 20 min of study time the Study + Test group answered an average of 4.4/10 questions correctly (SD = 1.2).


시험 시기 퍼포먼스 추정

Test phase performance estimates


Two weeks after the learning phase, prior to completing the outcome test, both groups provided similar estimates of how much of the material they knew prior to participating (56.0 vs. 61.4% for the Study Only and Study + Test groups, respectively; t = 0.9, p > 0.3).


시험 시기 퍼포먼스(실제) 

Test phase performance


Of primary interest to the research question posed, Table 2 illustrates the mean performance achieved by each group for all four item types included in the outcome test.


시험 후 추정

Post‑study estimates




고찰

Discussion


이 연구에 포함된 결과 테스트에서 항목 유형을 정리하면

  • (a) 전통적인 시험 강화 학습 효과를 복제하였다(학습 단계에서 반복된 항목을 사용하여). 

  • (b) 관찰된 차이가 무작위화 실패에서 기인할 가능성이 없음을 확인하였다

  • (c) 시험의 이점이 [시험한 특정 지식에 대한 기억력]을 넘어서 확장됨을 입증하였다. ("공부는 하였지만 시험은 보지 않은" 항목에서 회상-유도 촉진 효과를 관찰함).

The manipulation of item types on the outcome test included in this study allowed us to 

  • (a) replicate conventional test-enhanced learning effects (through the use of items that were repeated from the learning phase), 

  • (b) confirm that the differences observed were unlikely to derive from a failure of randomization and 

  • (c) demonstrate that the benefits of testing do extend beyond benefits to memory for the specific knowledge that was tested (given the observation of a retrieval-induced facilitation effect in the “studied but not tested” items).


시험-강화 학습의 기전

The mechanisms of test‑enhanced learning


사실 '시험'이 교육적 편익이 있음을 보여준 다양한 방법은 [학습 자료 회상을 위한 노력]이 [시험 그 자체]보다 이러한 주요 결정요인이라는 것을 암시한다(라센과 도른 2013 참조). 결과적으로, '회상-강화 학습'이라는 말이 '시험 강화 학습'보다 더 유행하고 있지만, 우리는 이 논문에서 후자의 용어를 유지해왔다. 

The variety of ways in which ‘testing’ has revealed pedagogical benefits, in fact, suggests that effortful retrieval of studied material is the key determinant of the phenomenon rather than testing per se (see Larsen and Dornan 2013). Consequently, the phrase ‘retrieval-enhanced learning’ is now more in vogue than ‘test-enhanced learning’ but we have maintained the latter terminology in this paper 


시험을 치른 후, [학생들은 시험 관련 정보를 찾아보도록 명시적으로 지시 받았는지 여부와 관계 없이] 자신 있게 대답하지 못한 질문에 대한 답을 검색하는 경향이 있다. 따라서 Study Only(학습 단독) 그룹의 참가자들이 Study + Test(학습+시험) 그룹의 참가자들보다 [학습 단계 이후에 학습한 자료에 대해 생각하지 않았다]고 보고한 것은 놀라운 일이 아니었다.

after being tested, students are likely to search for answers to questions they did not feel confident answering regardless of whether or not they are explicitly instructed to seek test-relevant information. It was not surprising, therefore, that participants in the Study Only group were more likely than those in the Study + Test group to report they did not think about the studied material after the learning phase.


회상-강화 촉진의 기전

The mechanisms of retrieval‑induced facilitation


이러한 관찰은 상당히 긍정적인 실제적인 의미를 지니는데, 왜냐하면 시험을 중요한 교육적 개입으로 사용하기 위해서 굳이 학생들이 공부하고 있는 자료의 모든 가능한 측면에 대해 퀴즈를 낼 필요가 없다는 것을 시사하기 때문이다. 이는 좋은 시험 문제를 만드는 것은 상당한 자원을 소모하는 것이며, 시험에 동반되는 학습자 측의 평가 피로로 인한 위험을 피하는 것이 중요하기 때문이다.

These observations yield considerable positive practical implications as they suggest that one need not quiz students on every possible aspect of the material they are studying to have some hope of using testing as a valuable pedagogical intervention. This is beneficial both because the generation (and completion of) good test questions is resource consuming and because it is important to avoid the perils that accompany assessment fatigue on the part of learners.


Chan(2009)은 회상-유도 촉진에 대해 설명한다. 그는 산문prose 기반 자료(회상-기반 망각을 보여주는 "단어 목록"과 대비하여)를 독립적인 정보의 수집이라기 보다는 "아이디어 단위"로 생각되어야 한다고 말하였다. 즉, 어떤 사람이 새로운 정보를 접하게 되면, 그 내용은 문자 그대로(즉, 피상적인 단어 집합) 표상되며, 동시에 상황적으로도(즉, 문맥에서 단어의 의미를 더 깊이 이해함)표상된다. 

Chan (2009) accounts for the retrieval-induced facilitation that he observed upon presenting integrated study material to participants by suggesting that prose-based materials (in contrast to word lists, which revealed retrieval-based forgetting) should be thought of as “idea units” rather than as a collection of independent pieces of information. When one encounters new information the material is mentally represented both literally (i.e., as a superficial set of words) and situationally (i.e., with deeper understanding of the meaning of the words in context). 


그와 같은 "의미"는 정보를 읽거나 듣고 있는 개인이 갖고 있는 기존의 정신 모델을 갱신하거나 새로운 정신 모델을 만드는 방식으로 기존의 지식과 상호작용한다. Chan은 정보가 통합된 방식으로 제시될 때, 기존의 정신 모델을 업데이트하는 것이 더 쉽다고 주장하며, 따라서 모델 간의 간섭을 줄여주며, 검색으로 인한 촉진이 발생할 가능성을 더 높여준다.

That meaning interacts with pre-existing knowledge in a way that requires the individual who is reading or listening to the information to either update an existing mental model or create a new one. When information is presented in an integrated manner, Chan argues, it is easier to update existing mental models, thereby reducing interference between models and making retrieval-induced facilitation more likely to occur.


실무적으로 이러한 이해의 함축은 두 가지로 구분된다. 

In practical terms, the implications of this understanding are twofold: 


(1) 생리적 문제가 어떻게 특정 증상을 유도하고 어떻게 특정 치료법으로 극복할 수 있는지와 같은 [통합된 자료]를 학습자가 이해할 수 있도록 도와주려고 한다면, 

[학습자가 이해해야 하는 다양한 아이디어들 중 subsample을 의도적으로 시험문제로 선택함으로써] 검색 유도 촉진의 이점을 최적화할 수 있다.

(1) When we strive to help learners understand material that is integrated, such as how physiological problems induce particular symptoms and might be overcome with particular therapies, then we might optimize the benefits of retrieval-induced facilitation by deliberately selecting a subsample of possible test questions that represent the variety of idea units we need learners to understand;


(2) 다양한 해부학적 구조의 이름 기억과 같이 통합되지 않은 자료를 학습자가 이해할 수 있도록 도와주려고 한다면, 

본 연구에서 관찰된 검색 유도 촉진이 그러한 맥락에 일반화된다고 가정할 수 없다. 사실, 그러한 상황에서는 [회상-유도 망각]이 발생할 것이라는 것이 이론적으로 가능하다. 결과적으로, 교육자들은 [자료가 덜 통합되었을 때에는] 학습해야 하는 모든 범위의 자료에 대해 시험을 보는 것에 대해 좀더 신중해야 할 필요가 있을 수 있다. 그러나, 다시, 이 가설의 시험은 여전히 행해져야 한다.

(2) When we strive to help learners understand material that is not integrated, such as memorizing the names of various anatomical structures, 

we cannot assume that the retrieval-induced facilitation observed in this study will generalize to such contexts. In fact, in such situations it remains theoretically plausible (if not probable given Chan’s findings) that retrieval-induced forgetting would be the rule. As a result, educators may still need to be more deliberate about testing as much of the entire range of material to be learned as possible if the material is less integrated. Again, however, testing of this hypothesis remains to be carried out.


회상 유도 촉진은 어디까지 발생하는가?

How far does retrieval‑induced facilitation extend?


비록 주로 통제조건으로 포함되었지만, 시험의 이점이 [학습자료에 포함되지 않았던] 치료적 측면에 대한 항목까지는 확장되지 않았다는 것은 주목할 만하다.

Although it was primarily included as a control condition, it is noteworthy that the benefit of testing did not extend to items focused on therapeutic aspects of practice that were not included in the studied material.


강점과 한계

Strengths and limitations



결론

Conclusions


의도적으로 형성평가 시험문제를 우선순위를 두어 선택해야 한다.

students will benefit from educators deliberately prioritizing the selection of formative test questions that offer a heterogeneous sampling of the domain to be learned in a manner that challenges students to seek answers to the questions they encounter.


Barnett, S. M., & Ceci, S. J. (2002). When and where do we apply what we learn? A taxonomy for far transfer. Psychological Bulletin, 128(4), 612–637.


Eva, K., & Regehr, G. (2010). Exploring the divergence between self-assessment and self-monitoring. Advances in Health Sciences Education, 16(3), 311–329.


Larsen, D. P., & Dornan, T. (2013). Quizzes and conversations: Exploring the role of retrieval in medical education. Medical Education, 47(12), 1236–1241. XXX


Mylopoulos, M., Brydges, R., Woods, N. N., Manzone, J., & Schwartz, D. L. (2016). Preparation for future learning: A missing competency in health professions education? Medical Education, 50(1), 115–123.









 2018 Oct;23(4):803-816. doi: 10.1007/s10459-018-9831-4. Epub 2018 May 26.

The pedagogical value of testing: how far does it extend?

Author information

1
Department of Medicine, Centre for Health Education Scholarship, University of British Columbia, 429K - 2194 Health Sciences Mall, Vancouver, BC, V6T 1Z3, Canada. kevin.eva@ubc.ca.
2
Faculty of Pharmaceutical Sciences, University of British Columbia, Vancouver, BC, Canada.

Abstract

Information is generally more memorable after it is studied and tested than when it is only studied. One must be cautious to use this phenomenon strategically, however, due to uncertainty about whether testing improves memorability for only tested material, facilitates learning of related non-tested content, or inhibits memory of non-tested material. 52 second-year Pharmacy students were asked to study therapeutic aspects of gastroesophageal reflux disease and peptic ulcer disease. One group was given 30 min to study. Another was given 20 min to study and 10 min to complete a 10-item test. Two weeks later a 40-item test was delivered to both groups that contained (a) the 10 learning phase questions, (b) 10 new questions drawn from the studied material, (c) 10 new questions about therapeutics in different disease states, and (d) 10 new questions drawn from more general pharmaceutical knowledge (e.g., basic physiology and drug characteristics). Moderate to large retrieval-enhanced learning effects were observed for both questions about material that was tested (22.9% difference in scores, p < 0.05, d = 0.60) and questions about material that was studied without being tested (18.9% difference, p < 0.05, d = 0.75). Such effects were not observed for questions that were not part of the study material: therapeutic questions that addressed different disease states (1.8% difference, p > 0.7, d = 0.08) or generic pharmaceutical questions (7.4% difference, p > 0.2, d = 0.32). Being tested made it more likely that students would report reviewing the material after the initial learning session, but such reports were not associated with better test performance. The benefit of mentally retrieving information from studied material appears to facilitate the retrieval of information that was studied without being tested. Such generalization of the benefit of testing can increase the flexibility of test-based pedagogic interventions.

KEYWORDS:

Assessment-for-learning; Retrieval-enhanced learning; Retrieval-induced facilitation; Test-enhanced learning

PMID:
 
29804269
 
DOI:
 
10.1007/s10459-018-9831-4


동료평가의 신뢰도와 타당도: 체계적 문헌고찰(Med Teach, 2011)

Reliability and validity of student peer assessment in medical education: A systematic review

RENE´ E SPEYER1, WALMARI PILZ2, JOLIEN VAN DER KRUIS3 & JAN WOUTER BRUNINGS2

1HAN University of Applied Sciences, The Netherlands, 2Maastricht University Medical Center, The Netherlands,

3Jeroen Bosch Hospital, The Netherlands






도입

Introduction


의료 실무에서 동료 평가는 가치 있는 도구로 간주된다. 동료 평가는 

  • 학생들이 교육 활동에 참여하도록 자극하고 

  • 평가 기준을 명확히 하고, 

  • 팀 성과를 개선하거나, 

  • 개인적인 노력을 결정하는데 사용될 수 있다. 

  • 동료 평가는 학생들이 서로의 직업적 행동에 대해 비판적인 태도를 갖도록 할 것이다.

In medical practice, peer assessment is considered to be a valuable instrument. Peer assessment can be used to stimulate students to participate in educational activities and clarify assessment criteria, improve team performance or determine individual effort. Peer assessment will encourage students to develop a critical attitude towards each other’s professional behaviour.


Gielen(2007)에 따르면, 동료 평가는 5가지 주요 목표를 가지고 있다: 

  • 가 도구로서 동료평가 사용

  • 학습 도구로서의 동료 평가 사용, 

  • 학습 환경에 사회적 통제의 설치, 

  • 평생 학습에 대한 자기 감시와 자기 통제를 위한 학생들의 준비, 

  • 실에서의 학생들의 적극적인 참여.

According to Gielen (2007), peer assessment has five main goals: 

  • The use of peer assessment as an assessment tool and learning tool, 

  • the installation of social control in the learning environment, 

  • the preparation of students for self-monitoring and self-regulation in lifelong learning, and 

  • the active participation of students in the classroom.


동료 평가에서 가장 잘 알려진 목표는 평가 도구로 사용하는 것이다. 동료들에 의한 판단은 타당하고 신뢰할 수 있어야 하므로, 평가 도구로서 동료 평가가 갖는 하위목적에 따라 동료 판단에 대한 일부 퀄리티 기준이 결정될 수 있다. 동료 평가를 평가 도구로 사용하는 이 목표를 달성하기 위한 전제조건은 이해당사자들이 평가 결과에 대한 신뢰감을 가지고 수용acceptance을 보여줄 필요가 있다는 것이다.

The most well-known goal of peer assessment is its use as an assessment tool. As the judgements by peers need to be valid and reliable, some quality criteria for the peers’ judgements can be formulated depending on the subgoal of peer assessment as an assessment tool. A prerequisite to achieve this goal of using peer assessment as an assessment tool is that stakeholders need to have confidence in and show acceptance of the results of the assessment.


두 번째 목표는 동료 평가를 학습 도구라고 한다. 3가지 과정이 이 학습을 생산하거나 지원할 수 있다. 

  • 학습과 피드백을 위한 평가를 통한 피평가자의 학습, 

  • 학습 평가를 통한 평가자의 학습 

  • 료 학습 프로세스를 통한 학습이다. 

학생들에게 피드백을 제공함으로써, 필요하다면 학생들은 전문직업적 행동을 조정하고 개선할 수 있다.

The second goal refers to peer assessment as a learning tool. Three processes are able to produce or support this learning: 

  • learning by the assessee through assessment for learning and feedback, 

  • learning by the assessor through assessing for learning, and, 

  • learning by both through peer learning processes. 

By providing feedback to students, their professional behaviour can be adjusted and improved if necessary.


세 번째 목표인 사회적 통제의 도구로서의 동료 평가는 가장 외부적인 통제를 필요로 한다. 원하는 행동에 도달하고 원치 않는 행동을 피하는 효율성은 가장 중요한 퀄리티 컨셉으로 간주된다.

The third goal, peer assessment as a tool for social control, requires the most external control. The efficiency in reaching desired behaviour and avoiding undesired behaviour is considered the most important quality concept.


그러나, 학생들이 평생 학습자로서 스스로를 평가하는 방법을 배우고, 독립적 학습자가 되는 것을 돕는 것을 목표로 할 때, 네 번째 목표가 달성될 수 있으며, 그 결과 학생들은 스스로 학습 행동을 자제하고 스스로 관찰하게 된다.

However, when aiming at helping students to learn how to assess themselves as lifelong learners and grow to become independent learners, a fourth goal has been achieved, resulting in self-regulation and self-monitoring of learning behaviour by students themselves.


최종 목표는 동료 평가가 학생 중심 학습 환경 내에서 학생들의 학습 참여를 자극하는 도구가 되기 때문에 교실에서 자율성 서포트와 가장 직접적으로 연계된다. 평가의 질은 각 학생의 학습과 평가에 대한 'sense of ownership'의 발달로 개념화될 수 있다.

The final goal is most directly linked to autonomy support in the classroom as peer assessment becomes a tool to stimulate active participation of students in their learning within student-centred learning environments. Quality of assessment can be conceptualized as the development of a ‘sense of ownership’ of the learning and assessment for each student.


따라서, 동료 평가의 질은 

  • 평가의 신뢰성, 

  • 동료 간의 상호작용, 

  • 평가의 부담 수준 

  • 각 (학생) 동료 간 평가 사이의 동등성에 대한 가정

...을 포함한 다양한 요소에 의해 영향을 받을 수 있다(Norcini 2003).

Thus, the quality of peer assessment can be influenced by a variety of factors, including the reliability of the assessment, the interaction between peers, the stakes of the assessment and the assumption of equivalence between the evaluations of each (student) colleague or peer (Norcini 2003).


의사가 동료 심사를 위해 사용하는 평가 기구의 심리적 특성에 대한 의문이 제기된 바 있고, 의대생들의 동료 평가를 연구할 때에도 동일한 문제가 발생할 수 있다(Dijcks et al. 2003). 일반적으로, 불충분한 타당성이나 신뢰성을 보이는 평가도구의 결과는 정확하게 해석할 수 없기 때문에, 사용하는 평가 기구의 심리학적 특성에 대한 정확한 지식이 필요하다.

As doubts have been described about the psychometric characteristics of the assessment instruments used for peer review by physicians, the same problems might be expected when studying peer assessment by medical students (Dijcks et al. 2003). In general, it is necessary to have exact knowledge of the psychometric characteristics of assessment instruments being used, because the outcome of instruments showing insufficient validity or reliability cannot be correctly interpreted.


본 연구에서, 동료 평가는 토핑(1998년)에 따라 정의된다: 

개인이 유사한 지위를 가진 동료학습의 결과결과물의 양, 수준, 가치, 품질 또는 성공을 고려consider하게 하는 것 

In this study, peer assessment is defined according to Topping (1998):

‘An arrangement in which individuals consider the amount, level, value, worth, quality, or success of the products or outcomes of learning of peers of similar status’. 


동료 평가란 

같은 분야에서 동료(피어) 학생이 그 의학 분야의 업무나 업무의 질을 유지하거나 향상시키기 위해 수행한 성과를 평가하는 것을 말한다.

Peer assessment refers to 

the assessment of a student’s performance undertaken by a fellow (peer) student in the same field, in order to maintain or enhance the quality of the work or performance in that medical field.



방법

Method



결과

Results


연구 개괄

Overview of studies


Table 2 presents an overview of all included articles listing authors in alphabetical order.




일반 기술

General description


포함된 기사를 보면, 아마토와 노발레스 카스트로(2009)의 스페인어 연구를 제외하고 모든 출판물은 영어로 작성되었다. 1970년대에는 4개의 연구가, 1980년대에는 2개의 연구가, 1990년대에는 4개의 연구가 발표되었다. 다른 18개 연구는 이 지난 10년 동안 발표되었는데, 이는 동료 평가, 특히 신뢰성과 타당성에 대한 관심이 증가하고 있음을 시사한다.

Looking at the included articles, all publications were English written with the exception of one Spanish study by Amato and Novales-Castro (2009). Four studies were published in the 1970s, another two in the 1980s and four in the 1990s. The other 18 studies were published this last decade, suggesting a growing interest in peer assessment and, especially, in its reliability and validity.


거의 모든 연구들이 의대생들에게 집중되었다. 한 연구는 약국 학생(O'Brien et al. 2008)의 동료 평가를 설명하고, 또 다른 연구는 의학과 치과를 결합한 그룹의 동료 평가를 설명했다(Nofziger et al. 2010). 저자에 의해 언급될 경우, 데이터 누락이나 드롭아웃의 수를 고려하여, 이 모든 연구의 실제 참가자 수는 16명에서 349명 사이였습니다. 과목 수가 50개 미만인 학생 수는 7개, 과목 수가 50개에서 100개 사이인 8개, 과목이 100개 이상인 13had를 대상으로 한 13 had가 포함되었다. 피험자의 중간값은 98명(1⁄451; 75 번째 백분위수 1⁄4160).

Almost all studies focused on medical students. One study described peer assessment in pharmacy students (O’Brien et al. 2008), and another in a combined group of medical and dentistry students (Nofziger et al. 2010). The actual number of participants in all these studies, taking into account the number of drop-outs or missing data if mentioned by the author(s), ranged from16 to 349 students. 

    • Seven studies included student populations with fewer than 50 subjects; 

    • 8 studies had between 50 and 100 subjects and 

    • 13 had more than 100 subjects. 

The median number of subjects was 98 (25th percentile ¼51; 75th percentile ¼160).


대부분의 연구는 프로페셔널한 행동을 평가의 주요 대상으로 간주했다(Bryan et al. 2005; Cottrell et al. 2006; Kovach et al. 2009), 다른 연구에서는 리더십 능력(Chen et al. 2009), 인터뷰 기술(Rudy et al. 2001; Perera et al. 2010) 또는 문제 기반 성과(Sulvan et al. 1999; Papincakzakz)와 같은 주제에 초점을 맞추었다. 기타 2007a,b; Amato & Novales-Castro 2009). 연구의 대부분은 동료 평가를 주로 평가 도구로 사용했다.

Most studies considered professional behaviour as the main subject of assessment (Bryan et al. 2005; Cottrell et al. 2006; Kovach et al. 2009), whereas other studies focused on topics such as leadership capacities (Chen et al. 2009), interview skills (Rudy et al. 2001; Perera et al. 2010) or problem-based performance (Sullivan et al. 1999; Papinczak et al. 2007a,b; Amato & Novales-Castro 2009). The majority of the studies used peer assessment mainly as an assessment tool.


설문지당 항목 수는 매우 다양했다. 가장 짧은 설문지는 두 개의 단일 항목(Alagna & Reddy 1985)으로 구성되었고, Magzoub 외 연구진(1998)의 가장 긴 설문지는 22개 항목 계측기를 가리켰다. 총 28개의 연구는 주로 의료 교육 환경에서 동료 평가를 위한 22개의 서로 다른 도구를 기술했다.

The number of items per questionnaire varied greatly. The shortest questionnaire consisted of two single items (Alagna & Reddy 1985), whereas the longest questionnaire by Magzoub et al. (1998) referred to a 22-item instrument. In total, the 28 included studies described 22 different instruments for peer assessment in mainly medical educational settings.


심리측정적 특성

Psychometric characteristics


Table 3 provides a glossary of psychometric terms used in this review.


일치성

Agreement 

The extent to which the scores on repeated measures are close to each other: absolute measurement error (Terwee et al. 2007)


구인 타당도

Construct validity 

The extent to which a measurement corresponds to theoretical concepts (constructs) concerning the phenomenon under study (Last 2001)


내용타당도

Content validity 

The extent to which the domain of interest is comprehensively sampled by the items in the questionnaire (Terwee et al. 2007)


수렴 타당도

Convergent validity 

The degree to which a measure is correlated with other measures that it is theoretically predicted to correlate with. Convergent validity is a variant of construct validity (Last 2001)


준거 타당도

Criterion validity 

The extent to which the measurement correlates with an external criterion of the phenomenon under study (Last 2001)


변별 타당도

Discriminant validity 

The degree to which the measure is not similar to (diverges from) other measures that it theoretically should not be similar to. Discriminant validity is a variant of construct validity (Last 2001)


바닥효과, 천정효과

Floor or ceiling effect 

The number of respondents who achieved the lowest or highest possible score (Terwee et al. 2007; McHorney & Tarlov 1995)


내적 일관성

Internal consistency 

The extent to which items in a (sub)scale are intercorrelated, thus measuring the same construct (Terwee et al. 2007)


예측 타당도

Predictive validity 

The degree to which test scores predict performance on some future criterion (Dijcks et al. 2003)


신뢰도

Reliability 

The extent to which patients can be distinguished from each other, despite measurement errors: relative measurement error (Terwee et al. 2007) The extent to which the same measurements of individuals obtained under different conditions yield similar results (Everitt 2006)


재생산도

Reproducibility 

The degree to which repeated measurements in stable persons provide similar answers (Terwee et al. 2007)


시험-재시험 신뢰도

Test–retest reliability 

An index of score consistency over a brief period of time (typically several weeks), usually the correlation coefficient determined between administration of the test twice with a certain amount of time between administrations (Everitt 2006)



고찰 및 결론

Discussion and conclusion


요약

Summarizing


평가 주제는 다른 연구들과 자주 중복되는 것으로 나타나지만, 저자의 작업 환경이나 개인적 관심사에 따라 조정되거나 개정되는 등 매우 다양한 다양성을 보여준다. 대부분의 연구는 동료 평가를 주로 평가 도구로 사용했다.

The subject of assessment, although showing frequent overlap with other studies, shows a great diversity as well, being adjusted or revised according to the authors’ working surroundings or personal interest. Most studies used peer assessment mainly as an assessment tool.


심리측정, 이질성

Psychometry and heterogeneity


그러나 여전히 설문지의 심리학적 특성에 대한 평가는 해당 연구에서 데이터의 보고와 가용성에 크게 좌우된다. 심리학적 정보의 과소 보고되었더라도, 이 연구가 반드시 나쁜 연구 설계나 성과를 가지고 있는 것은 아니다.

But still, the rating of a questionnaire’s psychometric characteristics is highly dependent on the reporting and availability of data in the corresponding study. In the case of underreporting of psychometric information, the study in particular does not necessarily have a poor study design or performance.



미래 연구

Future research


교육에서 동료 평가 도구의 선택은, 한편으로는, 최적의 정신 분석적 품질 측면에서, 그리고 반면에, 평가의 변별적이고 평가적인 목적을 고려하여 정당화될 수 있다. 동료 평가를 위한 하나의 보편적 수단인 single gold standard는 없다. 그러나, 미래의 동료들이 내린 판단을 계량화하여 학생의 수행능력을 평가하기 위한 가치 있는 도구로서 동료 평가를 적용하기 전에, 연구는 동료 평가를 위한 도구당 정확한 심리적 특성을 연구하고 결정하는데 좀더 철저하게 초점을 맞출 필요가 있을 것이다. 

Choices of peer assessment instruments in education can be justified, on the one hand, in terms of optimal psychometric qualities, and on the other hand, by taking into account the discriminative and evaluative purposes of the assessment. There is no such thing as one universal instrument for peer assessing, a single gold standard. However, before applying peer assessment on a large scale as a valuable instrument for evaluation of a student’s performance by quantifying judgements made by his or her future colleagues, research will need to focus more thoroughly on exploring and determining the exact psychometric characteristics per instrument for peer assessment.


놀랍게도, 동료 평가가 의학 교육 환경에서 일반적인 도구임에도 불구하고, 설문지의 정신분석에 대한 정보의 부족은 거의 언급되거나 의문시되지 않았다. 앞에서 언급한 바와 같이 일반적으로 검증되지 않았거나 신뢰할 수 없는 금융상품이나 설문지를 적용하면 데이터를 적절하게 해석할 수 없거나 공식적인 평가에 유용한 기여를 할 수 있다. 아마도 이 검토에서 가장 중요한 발견 중 하나는 의료 교육 환경에서 동료 평가를 사용할 때 주의할 필요가 있다는 잘 근거가 있는 지표일 것이다.

 Surprisingly, although peer assessment is a common tool in medical educational settings, in literature, the lack of information about questionnaires’ psychometry has seldom been mentioned or questioned. As stated before, in general, the application of unvalidated or unreliable instruments or questionnaires will result in data that cannot be adequately interpreted, nor lead to any useful contribution to formal assessment. Maybe, that one of the most important findings in this review is the well-founded indication at the need for caution when using peer assessment in medical educational settings.



 2011;33(11):e572-85. doi: 10.3109/0142159X.2011.610835.

Reliability and validity of student peer assessment in medical education: a systematic review.

Author information

1
Institute of Health Studies, HAN University of Applied Sciences, Nijmegen, The Netherlands. r.speyer@online.nl

Abstract

BACKGROUND:

Peer assessment has been demonstrated to be an effective educational intervention for health science students.

AIMS:

This study aims to give an overview of all instruments or questionnaires for peer assessments used in medical and allied health professional educational settings and their psychometric characteristics as described in literature.

METHODS:

A systematic literature search was carried out using the electronic databases Pubmed, Embase, ERIC, PsycINFO and Web of Science, including all available inclusion dates up to May 2010.

RESULTS:

Out of 2899 hits, 28 studies were included, describing 22 different instruments for peer assessment in mainly medical educational settings. Although most studies considered professional behaviour as a main subject of assessment and described peer assessment usually as an assessment tool, great diversity was found in educational settings and application of peer assessment, dimensions or constructs as well as number of items and scoring system per questionnaire, and in psychometric characteristics.

CONCLUSIONS:

Although quite a few instruments of peer assessment have been identified, many questionnaires did not provide sufficient psychometric data. Still, the final choice of an instrument for educational purposes can only be justified by its sufficient reliability and validityas well as the discriminative and evaluative purposes of the assessment.

PMID:
 
22022910
 
DOI:
 
10.3109/0142159X.2011.610835
[Indexed for MEDLINE]


우리가 측정하는 것, 그리고 우리가 측정해야 하는 것(Med Educ, 2019)

What we measure . . . and what we should measure in medical education

John R Boulet1 & Steven J Durning2





도입

INTRODUCTION


의학의 실천은 이미 변해왔고 앞으로도 계속될 것이다. 마찬가지로 이전에 학습한 환자 관리 전략이 보다 효과적인 전략으로 대체되어 의료 사업자의 환경이 더욱 변화할 것이다.1

The practice of medicine has and will continue to change. Likewise, previously learned patient management strategies will be replaced with more effective ones, further changing the health care provider landscape.1


이러한 모든 변화는 직접적으로 또는 간접적으로 개별 평가, 평가 프로그램 및 이해당사자가 품질을 개선하기 위해 평가 데이터를 사용하는 방식에 변화를 가져왔다.23 불행히도 많은 평가 프로세스는 이미 낡았거나, 측정하기 쉬운 것에만 기반하고 있거나, 사용 방식을 뒷받침하는 근거가 제한적이다.4-7 결과적으로, 그리고 많은 프레임워크에 기초하여, 타당성이 의심스럽다.8 

All of these changes, either directly or indirectly, have led to changes in individual assessments, assessment programmes and the ways in which stakeholders use assessment data to improve quality.2,3 Unfortunately, many assessment processes remain outdated, are based on what is easy to measure, or have limited evidence to support their use.4–7 As a result, and based on a number of frameworks, their validity is questionable.8 


보다 긍정적인 관점에서, 많은 현재 변화는 무엇이 싸게 측정하기가 쉬운지가 아니라, (아무리 어렵더라도) 무엇을 측정해야 하는지에 초점을 두고 있다. 더 중요한 것은, 지식, 기술 및 태도에 대한 더 지속적인 평가를 가능하게 하는 통합 종단적 평가 프로그램 쪽으로 움직임이 있었다는 점이다. 교육과 평가를 더 잘 통합하는 이 프로그램들은 유능한 평생 학습자들을 더 많이 배출할 가능성이 있다.9 

On a more positive note, many current changes focus on what should be measured, however difficult, as opposed to what is inexpensive or easy to measure. More importantly, there has been a movement towards integrated longitudinal assessment programmes that allow for a more continuous evaluation of knowledge, skills and attitudes. These programmes, which better integrate education and assessment, may be more likely to produce competent lifelong learners.9 


실용적인 관점에서, 이제 테크놀로지 발전은 평가 데이터의 보다 효율적인 수집, 저장 및 처리를 가능하게 한다.

From a practical perspective, technological advances now allow for more efficient collection, storage and processing of assessment data.


의사(와 의사가 되려는 사람)에 대한 평가

ASSESSMENT OF PHYSICIANS (AND THOSE WHO WANT TO BE)


자격증 및 자격증 검사를 직접 경험한 대부분의 실행 중인 의사들은 의학교육에서 평가의 역할을 잘 알고 있다. 다양한 형태의 평가가 사용된다.

Most practising physicians, having themselves experienced certification and licensure examinations, are well aware of the role of assessment in medical education. Various forms of assessment are used


이러한 평가의 목적은 상당히 다를 수 있지만, 그들은 모두 직업의 특정 시점에 개인이 필요로 하는 지식, 기술 및 태도를 측정하는 데 의존한다.

Although the purposes of these assessments can be quite different, they all rely on the measurement of the knowledge, skills and attitudes needed by individuals at specific time-points in their careers.


이러한 기술적 진보가 진화하는 의료역량 평가와 관련된 모든 긴장을 제거하지는 못할지라도, 기술의 진보는 그 과정을 더 효과적이고 효율적이며 의미 있게 만들어야 한다.

Although these technological advances will not eliminate all the tension associated with assessing evolving medical competencies, they should make the process more effective, efficient and meaningful.


시험 강화 학습에 관한 문헌에서 인용한 바와 같이, 반복적인 시험이 반복 학습에 비해 우수한 학습 전달을 산출한다고 주장할 수 있다.10 따라서 우리가 더 많은 평가를 효율적으로 관리할 수 있는 한, 학습자는 궁극적으로 이익을 얻을 것이다.11 

Drawing from the literature on test-enhanced learning, it is arguable that repeated testing produces superior transfer of learning relative to repeated studying.10 Thus, to the extent that we can efficiently administer more assessments, the learner will ultimately benefit.11 


그러나 평가가 올바른 목적에 부합하지 않거나 콘텐츠에 적절한 가중치를 부여하지 않는 경우 잘못된 방향으로 학습하도록 유도할 수 있다. 따라서 의학교육에서 우리가 보는 측정의 긴장tension은 적어도 어느 정도 더 많은(유효한) 평가 관리를 둘러싼 trade-off와 그렇게 하는데 필요한 자원들을 중심으로 전개된다. 

However, if assessments are not properly targeted at the right proficiencies, or the content is not weighted appropriately, they may drive learning in the wrong direction.12,13 Thus, the measurement tension that we see in medical education revolves, at least to some extent, around the trade-offs associated with administering more (valid) assessments and the resources required to do so.


선발을 위한 평가

ASSESSMENTS USED FOR SELECTION


이러한 평가의 타당성을 제쳐두고, 또는 평가 점수에 기초하여 우리가 만들고자 하는 추론을 제쳐두고, 지식외에도 의대생이나 레지던트(대학원 연수생)로서 성공하기 위해 필요한 다른 속성과 기술들이 일반적으로 인정되어 왔다. 역사적으로, 주로 지식 기반 평가(예: Medical College 입학 시험[MCAT])를 의과대학 입학을 위한 초기 스크리닝으로 사용했다.

Putting aside the validity of these assessments or, more appropriately, the inferences we may wish to make based on assessment scores, there has been a general recognition that, in addition to knowledge, other attributes and skills are required to be successful as a medical student or as a resident (postgraduate trainee). Historically, primarily knowledge-based assessments (e.g. the Medical College Admission Test [MCAT]) were used as initial screens for entry into medical school.


MMI 형식을 사용하는 학교들은 MMI 과정을 통해 학생들이 여러 명의 면접관과 상호 작용하기 때문에, 단일 면접관의 의견이 지나치게 강조되지 않는다고 믿는다.

Schools using the MMI format believe it produces a more reliable assessment of a candidate.20 Because students interact with multiple interviewers over the course of the MMI, the opinion of a single interviewer is not over-emphasised.


많은 요인들이 의대생들의 미래의 성공에 영향을 미칠 수 있고 이들 중 일부는 통제할 수 없다. 그러나 지식의 적용 또는 지능 이외의 속성이 강조되어야 한다는 것은 타당해 보인다. 환자 관리는 리더십, 팀워크, 커뮤니케이션, 양심, 적응성 및 기타 개인 및 그룹 특성에 의존한다. 이 중 일부는 배울 수 있지만, 다른 일부는 특성(예: 성격)과 비슷하며 쉽게 수정할 수 없다. 적어도 타당성을 고려한 그들의 측정은 주목할 만하다.

Many factors could impact the future success of a medical student and some of these cannot be controlled. It seems reasonable, however, that attributes other than, or in addition to, intelligence or application of knowledge should be emphasised. Patient care relies on leadership, teamwork, communication, conscientiousness, adaptiveness and a host of other individual and group attributes. Although some of these can be taught, others are more trait-like (e.g. personality), and not easily modified. Their measurement, at least in terms of validity considerations, deserves attention.



교육 프로그램에서 사용되는 평가

ASSESSMENTS USED IN EDUCATION PROGRAMMES


지식, 그리고 그 적용은 적어도 '주니어'시기에는 대부분의 평가 프로그램의 핵심이다. 그리고 다른 능력들은 훈련이 진행됨에 따라 더 중요해진다. 의심할 여지 없이, 전문가를 정의하는 것은 리더십, 팀워크, 대인 관계 기술, 커뮤니케이션, 적응성, 정보 기술 사용, 그리고 의료 시스템에 대한 인식과 능력을 포함한 이러한 역량들이다.

Knowledge, and its application, is at the core of most assessment programmes, at least for more ‘junior’ years. Other competencies become more important as training progresses. Arguably, it is these competencies, including leadership, teamwork, interpersonal skills, communication, adaptability, use of information technology, and awareness of and ability to navigate the health care system, amongst others, that define the professional.


다양한 수행-기반 평가가 있다. 여기에는 OSCE, mini-CEX, 차트 시뮬레이션 리콜(CSR)등이 포함된다. 이러한 성과 기반 평가는 (표준화된 환경에서 수행하든 직장에서 수행하든) 단순한 지식 이상의 것을 측정하는 것을 목표로 한다. 관리상 부담스럽고 일반적으로 비용이 많이 들지만 의료 실무에 중요한 역량의 평가를 허용한다.

variety of performance-based assessments, including, amongst others, the OSCE, mini-clinical evaluation exercise (mini-CEX) and chart-stimulated recall (CSR).21,22 These performance-based assessments, whether conducted in a standardised environment or in the workplace, aimto measure more than just knowledge. Although they are administratively burdensome, and typically costly, they allow for the assessment of competencies that are important to medical practice.


학부와 졸업후 의학 교육 모두에서, measuring of growth를 위한 움직임이 있어 왔다. 성장을 측정하기 위해서는 point-in-time 평가가 더 자주 이루어져야 한다. 또한 성능 데이터를 저장하고 분석하는 시스템이 있어야 한다.

In both undergraduate and graduate medical education, there has been a movement towards the measuring of growth. To measure growth, point-in-time assessments need to be more frequent. There must also be systems in place to store and analyse performance data.


또한 개별 평가 방법을 커리큘럼 결과와 일치하도록 선택하는 프로그래밍 방식의 평가를 향한 움직임도 있었다. 여기서, 적절한 평가 청사진을 개발하기 위한 노력을 기울인 경우, 의미 있는 point-in-time 평가 데이터를 종방향으로 취합하여 특정 역량에 대한 판정을 지원할 수 있다.25,26

There has also been a movement towards programmatic assessment, in which individual assessment methods are chosen specifically to align with curriculum outcomes. Here, where efforts have been made to develop proper assessment blueprints, meaningful point-in-time assessment data can be aggregated longitudinally to support decisions regarding specific competencies.25,26


역량에 대해 좀 더 명확히 하고 개별 학습자에 초점을 맞추면 개별 훈련생들이 가능한 최고의 제공자가 되도록 발전시키는 데 도움이 되는 의미 있는 평가를 개발할 수 있다. 종단적 성과 데이터를 저장하기 위한 정보 시스템을 개발하면 학습 및 역량 달성과 관련된 데이터를 포함한 평가 목표 달성이 용이해질 것이다.

Being more explicit about the competencies, and focusing on the individual learner, allows for the development of meaningful assessments that will help the individual trainee progress to become the best possible provider. Developing information systems to store longitudinal performance data will facilitate the achievement of assessment goals, including those related to learning and competency attainment.


교육 프로그램에 사용되는 평가들은 명백히 지식의 측정을 넘어서까지 확장되었다. 또한 의미 있는 피드백을 제공하는 데 초점을 맞춘 좀 더 형성적인 평가 관행을 지향하는 움직임도 있었다. 교육적인 관점에서, 이 두 가지 경향은 모두 긍정적이다.

The assessments used in education programmes have clearly extended beyond the measurement of knowledge. There has also been a movement towards more formative assessment practices that focus on the provision of meaningful feedback. From an educational perspective, both of these trends are positive.


라이센스, 인증 또는 인증에 사용되는 평가

ASSESSMENTS USED FOR LICENSURE, CERTIFICATION OR RECERTIFICATION


면허시험은 많은 국가에서 누가 의학을 실행할 수 있는지 또는 실행할 수 없는지를 결정하기 위해 사용된다.30 역사적으로 이러한 평가는 주로 지식의 측정이나 기껏해야 지식의 적용(예: 약리학의 경우)과 관련이 있었다. 그들은 전형적으로 선택된 응답 형식을 사용한다. 이 평가들은 대형 문제은행이 필요하기 때문에 건설 비용이 많이 든다. 

Licensure examinations are used in many countries to decide who can, or cannot, practise medicine.30 Historically, these assessments were primarily concerned with measuring knowledge or, at best, the application of knowledge (e.g. in pharmacology). They typically employ selected-response formats. These assessments are costly to construct because they require large item banks. 


그럼에도 불구하고, 그것들은 효율적이고, 최소한 측정하는 construct(예: 실험실 검사의 해석) 또는 constructs에 대해 상당히 정확한 능력 추정치를 산출한다. 그러나, 지식의 지식과 적용이 중요하지만, 적절한 환자 관리의 제공은 다른 능력을 필요로 한다.

Nevertheless, they are efficient and yield fairly precise estimates of ability, at least on the construct (e.g. interpretation of laboratory tests), or constructs, being measured. However, although knowledge and application of knowledge are important, the provision of adequate patient care requires other abilities.


1992년 캐나다 의료위원회(MCC)는 캐나다 의료위원회(LMCC) 면허를 위한 MCC 자격검사 파트 II(MCCQE II)를 도입하였다. MCCQE 파트 II는 실제 환자의 상태를 시뮬레이션하기 위해 훈련된 일반 환자인 표준화된 환자(SP)를 이용한다.

In 1992, the Medical Council of Canada (MCC) introduced the MCC Qualifying Examination Part II (MCCQE II) for the Licentiate of the Medical Council of Canada (LMCC). The MCCQE Part II utilises standardised patients (SPs), who are lay people trained to simulate the conditions of real patients.


유사한 유형의 평가가 1998년 외래 의학 졸업생 교육 위원회(ECFMG)에 의해 2004년 국가 역학 검사 위원회(NBOME)와 2004년 미국 의료 허가 시험(USMLE)에 의해 도입되었다.31

Similar types of assessment were introduced by the Educational Commission for Foreign Medical Graduates (ECFMG) in 1998, by the National Board of Osteopathic Medical Examiners (NBOME) in 2004, and by the United States Medical Licensing Examination (USMLE) in 2004.31


이러한 성과 기반 검사를 라이센스 부여 프로세스의 일부로 도입하면 임상 기술이 환자 치료 제공에 필수적이라는 일반적인 인식이 강조된다. 다른 허가증 검사 형식과 마찬가지로, 그것들은 관리하는데 비용이 많이 들고 그것들의 타당성은 여전히 논란의 대상이다. 그러나, 그들의 도입은 의과대학이 그들의 커리큘럼에서 임상기술을 강조하도록 강요했다. 결과적 타당성의 관점에서, 평가는 확실히 학습을 주도했다.33

The introduction of these performance-based examinations as part of the licensure process highlights the general recognition that clinical skills are essential for the provision of patient care. Like other licensure examination formats, they are expensive to administer and their validity remains subject to debate.32 Their introduction did, however, push medical schools to emphasise clinical skills in their curricula. From a consequential validity perspective, the assessments have certainly driven learning.33


미국과 영국을 포함한 많은 국가들은 잘 확립된 인증 및 재인증 프로그램을 보유하고 있다. 그럼에도 불구하고, 다양한 이해관계자들은 평가가 적절하지 않거나 그들의 일상 업무와 무관하다고 불평했다. 기본적인 문제는 평가 내용이 적어도 그 시점의 의사에게 효과적인 진료에 필요한 지식과 기술과 적절하게 일치하지 않는다는 것이다. 

Many countries, including the USA and the UK, have well-established certification and recertification programmes. Nevertheless, various stakeholders have complained that the assessments are not appropriate or are irrelevant to their everyday practice. The fundamental issue is that assessment content is not adequately aligned with the knowledge and skills required for effective practice, at least for the physician at that point in his or her career. 


평가 관점에서, 재인증(또는 재검증) 시험이 고부담의 '학습'의 평가인지 아니면 형성적 목적의 '학습'을 위한 평가인지 또는 그 조합을 위한 것인지의 여부도 어느 정도 논란이 있었다.36

From an assessment perspective, there has also been some debate as to whether recertification (or revalidation) examinations should be high-stakes assessments ‘of learning’ or more formative assessments ‘for learning’, or some combination thereof.36


대부분의 전문분야에서 인증시험은 대학원교육이 끝날 때 치러지며, 선택한 응답 형식으로 관리한다. 보다 최근에는 인증시험이(파트별 시험으로, 전공의 수련의 초기와 후기로) 확대되었으며, 일부 경우에는 성과 기반 평가를 포함하도록 확대되었다.37

For most specialties, the certification examination is taken at the end of postgraduate training and is administered in a selected-response format. More recently, certification examinations have been spread out (taken in parts, earlier and later in specialty training) and, in some cases, expanded to include some form of performance-based assessment.37


의료면허시험에서처럼, 전문의 인증에 성과기반 평가의 도입은 지식 이외의 능력(예: 의사소통, 팀워크, 절차)이 의사의 전문지식의 중요한 부분이라는 사실을 인식한다.

As in medical licensure examinations, the introduction of performance-based assessments into specialty certification recognises the fact that abilities other than knowledge (e.g. communication, teamwork and procedures) are important parts of a physician’s expertise.


따라서, 어떤 간격에서든, 단순히 인증 시험을 반복하는 것은 (그 자체로 최소한 의사가 그들의 능력을 강화하도록 동기를 부여하는 측면에서는) 그다지 의미 있는 것이 아니라는 주장이 제기되어 왔다. 이 문제를 해결하기 위해 일부 전문 위원회는 1년 동안 MCQ 기반 평가(분기당 약 30회)를 졸업자에게 제공함으로써 보다 연속적인 평가 모델을 도입했다.38 

As such, it has been argued that simply repeating the certification examination, at whatever interval, is not, in itself, very meaningful, at least in terms of motivating physicians to enhance their abilities. To address this issue, some specialty boards have introduced more continuous assessment models by providing diplomates with MCQ-based assessments (approximately 30 per quarter) to be taken over the course of a year.38 


원칙적으로 스마트폰으로 시행할 수 있는 이러한 아이템은 졸업자의 연습 영역과 능력에 맞게 개조할 수 있으며, 현재의 건강관리 문제(예: 아편성 전염병)를 충족시키기 위해 신속하게 수정할 수 있다. 더욱 중요한 것은 지속적인 평가 모델이 개인의 지식 유지에 도움이 된다는 것이다.39

In theory, these items, which can be delivered on a smartphone, can be adapted to the diplomate’s practice domain and ability, and can be quickly modified to meet a current health care concern (e.g. opioid epidemic). More importantly, the continuous assessment model helps individuals retain knowledge.39


이 모델에 대한 논의의 대부분은 보안에 초점을 맞춘다. 문항에 답하는 사람이 본인이라는 것을 어떻게 알 수 있을까? 종합 평가 관점에서 보면, 이것은 확실히 문제다. 그러나 형성 평가 관점에서, 그리고 이사회가 인증된 의사가 전문가라고 가정하고 실제로 더 나은 정보를 제공하는 환자 관리(합리적인 가설)를 원한다고 가정하면, [소수의 개인에 의해 악용될 수 있는 잠재적인 보안 구멍]은 [대다수 학습자의 적극적인 참여]보다 더 작을 수 있다.

Much of the argument against this model, centres on security. How can we know that the individual answering the items is who he says he is? From a summative assessment perspective, this is certainly a problem. However, from a formative assessment perspective, and assuming that board-certified physicians are professionals and actually want to provide better, more informed patient care (a reasonable hypothesis), the potential security holes, perhaps exploited by a few individuals, may be outweighed by the active engagement of the majority of learners.


새로운 평가 방법론

NEW(ER) ASSESSMENT METHODOLOGIES


시뮬레이션을 포함한 기술 및 평가 방법의 발전으로 (최소한 표준화된 방식으로) 측정할 수 있는 범위가 확장되었으며, 여러 측면에서 평가할 수 있는 영역의 범위가 확장될 것이다.

Advances in technology and assessment methods, including simulation, have expanded the scope of what can be measured, at least in a standardised way.40 Technology, in many respects, has and will continue to expand the domain of what can be assessed.


OSCE의 사용은 꽤 널리 퍼져있으며 거의 50년 전으로 거슬러 올라간다. 동일한 기간 동안, 전형적인 제공자-환자 상호 작용의 모델링이 진화해왔다. moulage, 연합 가족 구성원, 프로그래밍된 검사 도구(예: 심장 소리가 있는 청진기), 후속 방문, 적응형 시뮬레이션 등을 포함하는 하이브리드 스테이션의 사용은 더 높은 시뮬레이션 충실도와 측정 영역의 확장(예: 팀워크 측정)으로 이어졌다.41,4

The use of OSCEs is quite prevalent and dates back nearly 50 years. Over the same period, the modelling of typical provider–patient interactions has evolved. The use of moulage, confederate family members, programmed examination tools (e.g. stethoscopes with heart sounds), hybrid stations that involve follow-up visits, adaptive simulations, etc., has led to both greater simulation fidelity and expansions in the measurement domain (e.g. measurement of teamwork).41,42 


또한 모든 의료 분야에서 전기 기계식 마네킹의 사용이 증가하고 있다. 생리학적으로, 이 마네킹들은 실제 인간이 하는 것처럼 중재에 반응하도록 프로그램될 수 있다. 그들 역시 SP에서 시뮬레이션할 수 없는 물리적 결과(예: 부정맥)의 시뮬레이션을 허용함으로써 측정 영역을 확장했다. 그들은 실제 환자 치료 환경에서 드물게 발생하는 드문 사건을 다루기 위해 전문의가 훈련하는 데 꽤 효과적이라는 것을 입증했다.43

There has also been a growing use of electro-mechanical manikins in all health care disciplines. Physiologically, these manikins can be programmed to react to interventions (e.g. intubation, drug administrations) just as real humans would. They too have expanded the measurement domain by allowing for the simulation of physical findings (e.g. dysrhythmia) that cannot be simulated in SPs. They have proved to be quite effective in training practitioners to deal with rare events that are encountered infrequently in real patient care settings.43


OSCE와 기타 성능 기반 평가는 관리 비용이 매우 많이 들 수 있지만, 기술은 지속적으로 비용을 줄일 수 있고, 앞으로도 계속하여 비용을 줄일 수 있다. 이제 환자 또는 다른 의료 종사자와 상호작용할 때 의사의 진정한 간접 관찰을 가능하게 하는 착용 가능한 기기가 있다.

Although OSCEs and other performance-based assessments can be quite expensive to administer, technology can, and will continue to, mitigate the costs. There are now wearable devices that can allow for the authentic indirect observation of practitioners as they interact with patients or other health care workers.


평가 척도 유효성

THE VALIDITY OF ASSESSMENT SCORES


기술적 진보는 의학교육의 측정 영역을 확대하고 AI의 다양한 적용을 포함한 새로운 채점 도구를 사용할 수 있게 해준다. 그러나 평가 점수의 심리측정적 적합성을 서포트하거나 또는 이러한 점수를 기반으로 한 역량 의사결정을 하기 위해서 데이터를 수집해야 하는 필요성을 완화하지는 않을 것이다.

Technological advances can both expand the measurement domain in medical education and allow for the use of novel scoring tools, including various applications of AI. They will not, however, alleviate the need to gather data to support the psychometric adequacy of assessment scores or any competency decisions we make based on these scores.


타당성 프레임워크에 대한 논문이가 있었고, 의학교육에 사용된 다양한 평가에서 획득한 점수의 타당성을 뒷받침하는 증거가 어떻게 수집될 수 있는지에 대한 기사가 있었다.5,19 

There have been articles written about validity frameworks and how evidence to support the validity of the scores obtained in various assessments employed in medical education can be collected.5,19 


이 증거를 모을 때, 우리는 "무엇에 대한 타당성"을 원하는지 스스로 물어봐야 한다. 선발 결정을 내리는 데 사용되는 평가의 경우, 선발된 사람들이 업무에 적합하다는 몇 가지 증거가 필요하다(즉, 프로그램이 성공적이다). 

In gathering this evidence, we must ask: Validity for what? For assessments used to make selection decisions, we need some evidence that those who are selected are up to the task (i.e. they are successful in the programme). 


인증과 자격증 시험의 궁극적인 목표는 대중의 보호를 위해서, 우리는 다음과 같이 질문해야 한다: 어떤 증거들이 실무자들이 자격을 갖추고 있다는 것을 보여주는가? 

For certification and licensure examinations, the ultimate goal of which is the protection of the public, we must ask: What evidence indicates that practitioners are qualified? 


MOC를 위해, 우리는 반드시 다음과 같이 질문해야 한다: 평가를 받는 사람들이 더 나은 의사라는 것을 어떻게 알 수 있을까?

For maintenance of certification, or revalidation, we must ask: How will we know that those who take the assessments are better practitioners?


대부분의 경우, 통제된 실험을 수행할 수 없다(예: 임상 면허를 신청하는 자의 무작위 표본에 대한 평가 요구사항을 면제하고 환자의 결과가 더 나쁜지 조사함). 

In most instances, we cannot conduct controlled experiments (e.g. by waiving assessment requirements for a random sample of those seeking practice licences and investigating whether they have worse patient outcomes). 


또한 예측타당도에 대해서(즉, 평가 결과가 미래 성과와 어떻게 관련되는지에 관한 방법), 수많은 교란 변수 때문에 특정 결과(예: 사망률)를 특정 제공자에게 귀속하기가 어렵거나 불가능하게 된다. 그럼에도 불구하고, 이해관계자는 특정 평가의 사용을 지원하거나 반박하는 정보를 요구하고 있고, 그것을 요구할 권리가 있다.48

Furthermore, for any predictive validity considerations (i.e. how assessment results are related to future performance), numerous confounding variables make it difficult, or impossible, to attribute specific outcomes (e.g. mortality) to specific providers. Nevertheless, the stakeholders are demanding, and have a right to, information that supports, or refutes, the use of specific assessments.48


다행히도 많은 의과대학과 레지던트 프로그램은 교육과정과 학습분석의 적용을 통한 진행상황에 관한 종단적 데이터의 저장과 검색을 허용하는 정보시스템을 개발했다.49 마찬가지로 전자 의료 기록, 고유 제공자 식별자 및 환자 기록에 대한 접근성을 통해 평가 데이터와 치료 품질을 구체적으로 연결하는 연구를 수행하기가 쉬워졌다.50

Fortunately, many medical schools and residency programmes have developed information systems that allow for the storage and retrieval of longitudinal data concerning progress through the curriculum and the application of learning analytics.49 Likewise, with electronic medical records, unique provider identifiers and access to patient records, it has become easier to conduct studies that specifically link assessment data and quality of care.50



결론

CONCLUSIONS


모든 직업에서와 같이, 무엇을 평가해야 하는지, 누가 평가 내용을 관리할 책임이 있는지, 그리고 어떻게 평가 과정을 뒷받침하기 위해 증거를 수집해야 하는지에 관한 의학에는 분명히 긴장감이 있다.

As in any profession, there are clearly tensions in medicine as to what should be assessed, who should be responsible for administering assessment content, and how evidence should be gathered to support the evaluation process.


의사의 관점에서, (목적에 관계 없이) 평가는 의료행위에 중요한 영역을 측정할 필요가 있다. 우리에게, 이것은 시험 개발자들과 시험 응시자들 사이의 긴장을 완화시키는 중요한 단계다. 지식은 반드시 필요하지만, 분명 중요하고, 어쩌면 훨씬 더 중요한 다른 자질들이 있다. 

From the physician’s perspective, assessments, regardless of purpose, need to measure domains that are important to the practice of medicine. To us, this is a key step in lessening the tension between test developers and test takers. Knowledge is certainly required, but there are without doubt other qualities that are important, and perhaps far more important. 


평가의 미래에 대해 생각할 때 이런 질문이 필요하다: 우리가 측정해야 하는 것 중 측정하지 않는 것은 무엇인가? 2차 질의가 어떻게 이루어질 수 있는지와 관련이 있다. 첫 번째 질문의 경우, 의료행위가 진화하는 과정에서 현재 강조되지 않은 특정 구조(또는 영역)의 측정을 필요로 할 것이 분명하다. 현재 표준화된 많은 평가에서 측정되지 않은 팀워크는 환자 관리의 근본적인 부분이다. 시스템 기반 실무와 관련된 다른 영역(예: 개입의 비용과 편익 이해)은 OSCE를 통해 간접적으로 측정할 수 있지만, 종종 전혀 측정되지 않기도 한다. 

Thinking about the future of assessment begs the question: What are we not measuring that we should be measuring? A secondary query relates to how this could be accomplished. For the first question, it is clear that the evolving practice of medicine will necessitate the measurement of certain constructs (or domains) that are currently not emphasised. Teamwork, which is not measured in many of the current standardised assessments, is a fundamental part of patient care. Other domains related to system-based practice (e.g. understanding the costs and benefits of interventions) can be measured indirectly through OSCEs, but are often not measured at all. 


우리는 또한 미래에 의료행위가 어떻게 될지에 대해서도 생각해야 한다. 앞으로의 신체검사는 어떤 것이 필요할까? 그렇게 많은 정보를 암기하고 재생성하는 것이 필요한 것인가, 아니면 정보를 찾아내고 그것을 실무와 더 관련이 있는 관리 시점 자원을 사용하여 합성하는 능력이 있는가? 이러한 질문에 대한 답변은 의미 있는 평가의 개발에 도움이 될 것이다. 일단 측정영역을 더 잘 정의하면, '어떻게'의 질문에 대답하는 것이 더 쉬울 것이다.


We should also be thinking about what the practice of medicine will look like in the future. What will the physical examination of the future entail? Is it necessary to memorise and regurgitate so much information, or is the ability to seek out information and synthesise it using point-of-care resources more relevant to practice? Answers to these questions will inform the development of meaningful assessments. Once the measurement domain is better defined, the ‘how’ questions will be easier to answer.





 2019 Jan;53(1):86-94. doi: 10.1111/medu.13652. Epub 2018 Sep 14.

What we measure … and what we should measure in medical education.

Author information

1
Foundation for Advancement of International Medical Education and Research (FAIMER), Philadelphia, Pennsylvania, USA.
2
Department of Medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland, USA.

Abstract

CONTEXT:

As the practice of medicine evolves, the knowledge, skills and attitudes required to provide patient care will continue to change. These competency-based changes will necessitate the restructuring of assessment systems. High-quality assessment programmes are needed to fulfil health professions education's contract with society.

OBJECTIVES:

We discuss several issues that are important to consider when developing assessments in health professions education. We organise the discussion along the continuum of medical education, outlining the tension between what has been deemed important to measure and what should be measured. We also attempt to alleviate some of the apprehension associated with measuring evolving competencies by discussing how emerging technologies, including simulation and artificial intelligence, can play a role.

METHODS:

We focus our thoughts on the assessment of competencies that, at least historically, have been difficult to measure. We highlight several assessment challenges, discuss some of the important issues concerning the validity of assessment scores, and argue that medicaleducators must do a better job of justifying their use of specific assessment strategies.

DISCUSSION:

As in most professions, there are clear tensions in medicine in relation to what should be assessed, who should be responsible for administering assessment content, and how much evidence should be gathered to support the evaluation process. Although there have been advances in assessment practices, there is still room for improvement. From the student's, resident's and practising physician's perspectives, assessments need to be relevant. Knowledge is certainly required, but there are other qualities and attributes that are important, and perhaps far more important. Research efforts spent now on delineating what makes a good physician, and on aligning new and upcoming assessment tools with the relevant competencies, will ensure that assessment practices, whether aimed at establishing competence or at fostering learning, are effective with respect to their primary goal: to produce qualified physicians.

PMID:
 
30216508
 
DOI:
 
10.1111/medu.13652


의학교육 학생평가의 객관성에 대한 쟁점 (KMER, 2013)

민경석1ㆍ양길석2

1세종대학교 인문과학대학 교육학과, 2가톨릭대학교 교직과

Issues Related to the Objectivity of Student Assessment in Medical Education

Kyung-Seok Min1 · Kil-Seok Yang2

1Department of Education, College of Liberal Arts, Sejong University; 2Department of Education, The Catholic University of Korea, Seoul, Korea




서 론


교육 및 심리검사에서 객관성(objectivity)이란 동일한 능력 혹은특성을 갖는 피험자가 동일한 검사결과(예, 점수)를 획득함을 의미한다(Miller et al., 2009). 대학수학능력시험 혹은 전국단위 자격증시험(예, 의사자격시험)과 같은 대규모 평가(large scale assessments)에서 활용되는 표준화 검사(standardized tests)는 주로 선다형 문항(multiple choice items) 혹은 단답형 문항(short answeritems)으로 구성되며, 이에 따라 상대적으로 높은 객관성을 유지하고 있다. 특히, 선택형 문항은 점수를 할당하는 채점과정에서 채점자의 판단적 의사결정이 개입할 여지가 없다는 점에서 객관식 문항(objective type items)이라 불린다.


한편 강의자가 직접 제작한 학교평가(classroom assessment) 혹은 학생의 실기능력에 대한 수행평가(performance assessment)는선택형 문항 중심의 표준화 검사와 비교하여 객관성이 상대적으로낮은 것으로 취급된다(Miller et al., 2009). 예를 들어, 일반대학 학생평가에서 주로 활용되는 논술시험(혹은 보고서)은 채점자의 판단적 논리에 의해서 점수가 결정되며, 이에 따라 동일한 학생의 논술문에 대하여 서로 다른 채점자의 점수는 동일하지 않으며, 한 사람의 채점자 또한 여러 학생의 논술문을 채점하면서 일관된 채점기준을 적용하는 데 어려움을 겪는 경향을 보인다. 의학교육에서 학생의 임상실기능력을 평가하는 전통적 방법인 관찰평가, 임상증례보고 등은 논술시험과 유사한 특성을 보이며(Kogan et al., 2009), 채점자 내 혹은 채점자 간 점수의 차이는 평가점수의 비일관성을 의미하고, 이는 검사점수의 낮은 신뢰도로 이어진다.


또 다른 측면에서, 검사점수의 신뢰성을 높이고자 학생평가에서선택형 문항 중심의 객관식 문항만을 활용하는 것은 검사가 측정하고자 하는 바를 측정하고 있는가를 의미하는 타당도에 문제점을 드러낸다. 의학교육에서 추구하는 교육목표에는 객관식 문항으로 측정될 수 있는 지식의 획득 여부뿐만 아니라 실제상황에서 지식내용을 적용하고 처치결과를 판단하는 임상능력이 중요한 요소로 포함될 때, 학생평가 또한 임상상황의 문제해결력, 의사소통능력, 비판적 사고력을 평가해야만 타당한 것이라고 할 수 있다.


의과대학과 의학전문대학원의 교육목표는 의학적 지식의 획득과 임상능력의 배양으로 의료현장에서 문제해결능력과 전인적 치료자로서 의사의 태도를 강조한다(Miller, 1990). 이러한 교육목표에 근거하여 의과대학의 학생평가는 저학년의 지식 중심 교육과정과 고학년의 임상실기 중심의 교육과정으로 구분되며, 지식과 임상능력을 평가할 수 있는 다양한 학생평가 방식(선다형 문항, 구술, 임상사례, 관찰평가, 업무일지, 표준화 환자 등)이 활용된다. Mavis etal. (2001)은 126개 미국 의과대학 설문조사결과를 통하여 객관구조화진료시험(objective structured clinical examination, OSCE)과같이 표준화 환자(standardized patients)를 활용한 학생평가방법이지속적으로 확대되고 있음에도 불구하고, 이러한 모의 임상능력 평가결과는 진급, 졸업과 같은 중요한 의사결정에는 상대적으로 적게활용되며, 전체적으로 선다형 문항과 관찰평가(preceptor rating)와같은 전통적 평가방식이 보다 광범위하게 이용되고 있음을 밝힌다.


현대 교육평가이론은 학생특성과 학업성취에 대한 정보를 수집하여 교육과정 개선을 위하여 활용하며, 이에 따른 교육성과를 높인다는 학생평가의 본원적 목적을 달성하기 위하여, 성취기준 기반평가(standards-based assessment, Stecher, 2010), 증거기반평가(evidence-centered design, Mislevy et al., 2003), 성과기반평가(outcome-based assessment, Dent & Harden, 2009) 등을 강조한다. 이러한 경향은 일부 강조점에서 차이를 보임에도 불구하고, 학생평가의 목적은 교육과정을 통한 교육목표의 달성 정도를 명확히제시하는 것에 있으며, 이를 위하여 전통적인 선택형 문항 중심의평가를 포함한 다양한 평가방식의 개발 및 활용을 제안한다. 특히,1980년대를 전후로 미국을 중심으로 평가의 타당도를 중시하는 수행평가에 대한 논의가 활성화되었고, 나아가 수행평가의 객관성즉, 학생평가결과의 타당도를 전제하면서도 그 신뢰성을 함께 높일수 있는 방법이 다양하게 제안되어 왔다(Lane, 2010; Lane & Stone,2006; Stecher, 2010).


학생평가를 포함한 교육평가는 측정의 양호도 판단기준으로 신뢰도와 타당도를 강조한다. 

  • 대규모의 평가 체제에서 평가시행 및 결과가 민감하게 작용하는 경우에는 무엇보다도 점수의 일관성을 의미하는 신뢰도를 우선시할 수밖에 없으며 그에 따른 타당도의 결여 측면을 검사의 설계, 문항내용의 충실성으로 보완하고자 노력한다. 

  • 반면에 실제적인 능력, 즉 수행능력을 제대로 측정하고자 하는 경우에는 다양한 수행과제를 활용하여 타당도를 먼저 확보하고자 하며, 그 방법들의 특성상 인간에 의한 판단이 개입될 수밖에 없기 때문에 보완적으로 신뢰도를 강화하려고 하는 노력을 수반한다. 

즉, 학생평가의 객관성은 측정이론적 측면에서 신뢰도와 타당도의 문제를 의미하는 것으로서, 이는 평가계획, 실시, 결과보고 및활용 등 평가의 전 과정과 관련된다. 이 논문에서는 학생평가과정에서 중요하게 고려해야 할 문항형식, 평가내용, 시행절차, 채점, 결과산출에 관하여 전통적인 지필시험과 수행평가를 대비하여 학생평가의 신뢰도와 타당도에 대하여 논의하고자 한다.


평가 문항형식의 객관성


학생평가에 활용되는 평가도구는 문항의 모둠으로 구성되며, 문항특성을 나타내는 문항형식은 평가상황에서 학생에게 요구하는바가 무엇이며, 이에 따른 응답방식을 결정한다. 또한 문항형식은학생 반응뿐만 아니라 평가내용, 시행환경과 절차, 채점방식 및 결과보고와 직접적으로 연관된 것으로(Allen & Yen, 1979), 평가의목적에 근거하여 적절한 평가 문항형식을 결정하는 것은 학생평가의 객관성을 위한 가장 중요한 의사결정과정이라 할 수 있다.


학생평가에서 중요하게 대비되는 문항형식은 

  • 선택형(selectedresponse items)과 

  • 구성형(constructed response items)이라 할 수있다. 


선택형 문항은 진위형(true-false form), 선다형(multiplechoice form), 연결형(matching form) 등을 포함하며, 학생평가의모든 분야에서 가장 자주 활용되고 객관적인 평가 문항형식으로취급된다. 대표적인 선택형 문항인 선다형은 지문(stem)과 선택지(alternatives)로 구성되며, 선택지 중에서 지문이 요구하는 정답(key) 선택 여부에 따라 학생의 능력을 평가한다. 선다형 문항의 선택지에서 사전에 정답이 결정되어 있으며, 학생 응답과 정답의 일치여부를 통하여 문항점수가 결정되기 때문에 채점자의 주관적 판단이 필요가 없다. 이에 따라 선다형 문항은 optical mark reader(OMR) 용지를 이용한 전산처리를 통하여 기계가 채점할 수 있다는 점에서 합리성, 공정성, 투명성을 강조하는 현대사회에 가장 대중화된 학생평가방법이라 할 수 있다.


구성형 문항은 단답형(short answer type), 완성형(completiontype), 논술형(essay type)으로 구분되며, 지문에 대하여 간단한 단어나 문구를 제시하는 단답형이나 완성형에 비하여 논술형은 비교적 제한 없이 여러 개의 문장으로 학생이 응답하는 문항형태를 의미한다. 단답형과 완성형 문항은 선다형 문항과 유사하게 사전에정답이 결정되어 선택형 문항수준에 가까운 채점의 일관성을 담보한다. 반면에 논술형은 피험자의 분석력, 비판력, 조직력, 종합력, 문제해결력, 창의력 등 고차원적 사고능력을 측정한다는 긍정적 특성에도 불구하고, 채점자의 판단에 의해 점수가 부여되며, 이에 따라 채점자 간 혹은 채점자 내 점수의 일관성이 선택형 문항에 비하여 낮아지는 특성을 보인다.


구성형 문항을 대표하는 논술은 주로 언어적 사고와 표현능력을평가하는 것으로 수행평가의 한 방식이라 할 수 있다. 1980년대 이후 미국의 학생평가는 학생의 지식수준에서 수행능력을 강조함에따라 전통적인 학생평가에서 수행과제 중심의 평가로 전환되었다.즉, 학생 앎보다는 학생행동을 직접 측정하는 수행평가는 실제상황과 근접한 평가환경에서 시연되는 학생의 결과물과 성취과정에중점을 두며, 이에 따라 단순한 지식에 대한 평가가 아닌, 수행과정에 중심을 두며 부가적으로 의사소통, 태도, 성실성 등의 정의적 특성을 평가한다(Lane, 2010; Lane & Stone, 2006).


학생행동을 직접 평가하는 수행평가는 교육내용에 대한 실제적적용능력이라는 교육목표에 부합한다는 원론적 의미뿐만 아니라,학생평가를 통한 교수-학습과정의 개선을 강조한다. 즉, 교육목표로 인지적 영역을 포함한 다양한 수행목표를 설정했음에도 불구하고, 학교 교육과정은 학생참여, 체험, 실기가 아닌 지식전달을 위한강의자 중심의 수업이 이루어지며, 학생평가 또한 절차적 객관성을강조하는 지식정보수준의 선다형 문항이 주로 활용되어지는 바, 수행평가를 통하여 교육과정과 성취결과에 대한 개선을 이루고자 하는 교육정책적 지향성을 내포하고 있다. 특히, 의학교육은 전문가양성 및 직업교육의 성격을 포함하며, 학교교육을 통하여 양성된신입 의사의 실제적인 임상능력검증에 대한 사회적 요구가 지속적으로 높아짐에 따라, 임상실기 중심의 수행평가를 통한 교육과정의 개선이 지속적으로 주장되어 왔다. 의학교육에서 학생평가의 수준을 구분한 Miller (1990)의 피라미드에 대응하는 평가 문항형식은 다음과 같다(Amin et al., 2006). 

  • 1) 지식과 방법(knows & knowhow): 구술시험(oral examination), 긴 논술(long essay question),짧은 논술(short essay question), 선다형 문항(multiple choice question),확장연결형문항(extended matching items, EMI), 핵심요소시험(key features examination); 

  • 2) 행동시연(show how): OSCE, 긴사례(long case), 짧은 사례(short case); 

  • 3) 행동(does): 간편임상실습(mini clinical evaluation exercise), 진료과정관찰(direct observationof procedural skills), 점검표(checklist), 다면평가(360-degreeevaluation), 진료일지(logbook), 포트폴리오(portfolio).


Miller (1990)의 4가지 평가목적에 대응하는 다양한 평가방식은앞서 논의된 선택형, 구성형, 수행평가의 다양한 적용과 변형사례라고 할 수 있다. 예를 들어, 

  • EMI는 채점의 객관성을 유지한 채, 복잡한 지식 및 다양한 주제의 연계성을 평가할 수 있도록 선다형 문항의 확장된 형태라고 할 수 있다. 

  • 간편 논술은 비판적 사고능력을측정하면서 채점의 객관성을 높이기 위한 구성형 문항의 변형이며, 

  • OSCE는 실제적 상황의 학생행동을 평가하면서 채점의 일관성을 높이는 수행평가의 한 형태라고 할 수 있다. 

즉, 모든 문항형식은객관성을 의미하는 신뢰도와 타당도라는 측면에서 강점과 약점을가지며, 평가의 목적에 따라 문항형식의 변형과 개선을 통하여 지속적으로 새로운 문항형식을 활용하는 것이 필요할 것이다. 특히,현대 컴퓨터기술(시뮬레이션, 네트워킹, 인공지능 등)의 발달에 따라(Drasgow et al., 2006) 기존 문항형식의 제한점을 극복하여 객관성과 현실 적용력이 높은 새로운 문항형식이 지속적으로 개발될 것이다.


평가내용의 객관성


학생평가 문항은 학생특성을 측정하기 위하여, 교육내용 혹은교육목표를 대표하는 표본과제(sampled tasks)이며 평가도구(시험)는 이러한 문항의 모둠으로 정의된다(Allen & Yen, 1979). 즉, 학생평가는 한 학기 강의 혹은 학과목 내용을 모두 측정하는 것이 아니라 교육목표를 대표하는 내용을 반영한 평가 문항을 통하여, 학생의 이해, 적용능력을 추정(inference)하는 과정이라고 할 수 있다.교육과정의 표본으로서 평가 문항이라는 논리는, 사회여론을 알기위하여 모든 사람에게 의견을 묻는 것이 아니라 모집단을 대표할수 있는 표본(일반적으로 1,000명 내외)을 조사하는 사회조사방법과 비유적으로 비교될 수 있다(Allen & Yen, 1979; Lohr, 1999). 즉,공정하고 타당한 사회조사를 위하여 지역, 성별, 연령, 소득 등 다양한 요인을 복합적으로 고려하여 표집된 표본이 전체 모집단을 대표할 수 있으며, 모집단을 적절히 대표하는 표본의 조사결과가 모집단의 의견으로 추정된다. 유사하게, 학생평가에서 제한적으로 구성되는 평가 문항이 교육내용과 교육목표를 얼마나 적절히 대표하는가는 평가의 내용타당도(content validity)를 의미한다. 검사이론에서 학생평가의 내용적 대표성을 위하여 평가 문항의 구성을 위한 설계도(blueprints)로서 검사명세표(test specification)의 세밀한설정을 중요하게 강조한다(Allen & Yen, 1979; Kane, 2006). 일반적으로 검사명세표는 내용영역과 행동영역이 교차하는 이원분류표로서 각 교차영역의 문항분포뿐만 아니라 문항형식, 난이도, 배점등에 대한 상세한 정보를 포함한다.


구체적인 평가계획으로서 검사명세표가 명확히 작성되었음에도불구하고, 앞서 논의된 문항형식에 따라 검사의 내용 대표성은 이질적인 양태를 보인다. 

  • 문항당 풀이시간이 상대적으로 적은 선다형문항의 경우, 제한된 평가시간 동안 많은 수의 문항이 시행될 수 있으며, 많은 수의 문항은 정해진 교육과정의 범위를 포괄하고 대표하는 데 강점으로 작용한다. 

  • 에 반하여 수행평가에 포함되는 실기, 논술, 구술의 경우, 평가시행과 채점과정에서 많은 시간과 비용이 소요된다. 이에 따라 제한된 시험시간 동안 상대적으로 적은 문항이 출제되고, 결국 내용적 대표성을 확보하기 어려운 문제로 이어진다. 

예를 들어, 동일한 임상능력을 측정하기 위하여 3시간 동안500개의 선다형 문항을 출제하는 것과 5가지 임상사례에 기반한표준화 환자를 활용한 평가를 비교할 때, 어느 방법이 보다 객관적인가의 문제는 문항 수에 따른 평가내용 대표성과 포괄성과 관련된것이라 할 수 있다.


또한 문항 수는 내용 타당도뿐만 아니라 점수신뢰도와 관련되며, 일반적으로 문항 수가 많을수록 높은 신뢰도를 보인다(Allen &Yen, 1979). 표준화 검사의 신뢰도는 통상 0.9 이상이며 학교평가의경우 0.7-0.8 수준임을 고려하여, 0.8 수준의 신뢰도를 위하여 약 10개 내외의 수행과제가 요구된다(Lane, 2010). 결국, 학생평가에서내용적 대표성뿐만 아니라 평가결과점수의 일관성을 높이기 위해서는 수행과제를 분할하여, 여러 측면에서 학생 특성을 측정하는것이 바람직하다고 할 수 있다.


평가내용의 대표성과 평가방식의 연관성, 이에 따른 평가결과의 신뢰도는 평가시행을 위한 현실적 조건(예, 시간, 비용, 장소 등)에제약을 받는다. 고등교육의 목표가 단순 지식에서부터 문제해결력,비판적 사고 등의 폭넓은 영역을 포괄하고 있음을 고려할 때, 학생평가는 어느 한 가지 평가방법을 선택하는 문제가 아니라 다양한수준의 평가방법을 활용하여 학생의 특성에 대한 종합적 정보를확보해 나갈 필요가 있다. 즉 임상의 기초가 되는 지식수준의 평가에는 선택형 문항이 강점을 가지며, 실제적 행위를 평가하기 위해서는 수행평가가 유용하게 적용될 수 있다. 이러한 다양한 방법을포괄하여 전체적 학생특성을 평가할 수 있는 학생평가 체제를 구축하는 것이, 교육목표 달성 정도를 확인하고 교육과정을 개선하기위한 학생평가 객관성에 중요하게 작용한다.


평가시행절차의 객관성


평가시행절차의 객관성은 검사가 모든 피험자에게 동일하게 시행되며, 채점되는 것을 의미한다. 즉, 표준화된 시행절차에 따라 검사결과는 시행시기, 검사유형(test forms)과 관계없이 모든 피험자에게 동일한 의미를 제공한다(Cohen & Wollack, 2006). 종종 표준화가 객관식 문항 혹은 표준점수로 산출되는 검사결과와 혼동되기도 하며, 검사의 표준화 절차가 규준참조검사에서만 필요한 것으로오인되기도 한다(Kane, 2006).


측정이론적으로 검사의 표준화는 검사가 측정하고자 하는 바 이외에 검사점수에 영향을 미치는 외재요인(nuisance factors)을 최소화하고, 평가상황에서 모든 피험자에게 자신 능력 혹은 특성을 발휘할 수 있는 동등한, 공정한 기회를 제공하는 것을 의미한다. 이를위하여 전통적인 지필검사에서는 모든 피험자에게 동일한 문항을제시하고, 검사시간을 포함한 검사환경을 엄격히 통제한다. 또한 검사에서 측정하는 특성 이외의 요소에 의한 차별성을 배제하기 위하여 평가과목의 구성, 문항형태, 평가범위, 채점요소 및 절차에 대한 정보를 사전에 피험자에게 제공한다. 이러한 절차적 요소의 명확성을 위하여 표준화 검사의 경우, 과거 기출 문항을 공개하고, 모의시험과 같은 사전 연습 기회를 제공하여 검사가 측정하는 바가무엇이며 검사상황에서 피험자가 해야 할 것과 하지 말아야 할 것에 대한 세부적 지침을 모든 피험자에게 공개적으로 제공한다.


학교 현장에서 오랫동안 실시되어 왔으며, 많은 선행연구가 이루어진 선택형 문항으로 구성된 지필평가는 이러한 시행절차의 표준화에 많은 장점을 갖는다. 즉, 검사내용과 형식에 대한 명확한 전달이 용이하며, 검사환경을 모든 피험자에게 동일하게 하는 절차가비용과 시간적 측면에서 상대적으로 간편하다. 무엇보다 오랜 시행경험을 통하여 시행자와 피험자 모두에게 익숙한 평가절차라는 것은 지필검사의 큰 강점으로 작용한다.


그러나 실기능력평가는 수행평가의 경우 상대적으로 시행절차의 표준화에 어려움을 보이며, 이러한 점 때문에, 학생 간 점수의 차이가 평가하고자 하는 능력의 차이에서 나타난 것인지 시행절차의비표준화로 인한 외재요인에 따른 것인지에 대한 명확한 확인과 통제가 필요하다. 예를 들어, 임상능력을 평가하기 위하여 표준화 환자를 이용한 경우에서, 모든 피험자에게 동일한 표준화 환자가 활용될 수 있는가, 모든 피험자에게 동일한 환자가 제시될지라도 표준화 환자는 매번 동일한 양호도 수준에서 평가상황을 재현하는가,만약 현실적 어려움으로 여러 명의 표준화 환자가 피험자 집단에활용된다면, 서로 다른 표준화 환자의 수행은 학생 평가결과에 영향을 미치지 않는가, 또한 평가장소와 시기가 피험자마다 다른 경우 이러한 조건은 학생 평가점수에 영향을 미치지는 않는가 등의문제는 평가결과의 신뢰성과 타당성에 대한 쟁점 사항이다(Epstein,2007; Miller, 1990).


검사시행의 표준화는 또한 검사의 보안(test security)과 관련된다. 일반적으로 피험자가 검사문항을 사전에 입수하여 연습하거나검사시행과정에서 부정한 방법으로 정답을 표기한다면, 검사점수는 피험자의 능력을 정확히 표시할 수 없을 것이다(Cohen & Wollack,2006). 예를 들어, 표준화 환자에 대한 정보수집, 검사, 진단 등다양한 절차를 통하여 피험자의 임상능력을 평가하는 수행평가에서, 피험자가 구체적 평가내용을 사전에 인지하였다면, 이는 임상능력을 평가하는 것이 아니라 단순 암기능력을 평가하게 된다(Epstein,2007).


학생평가에서 표준화의 목적은 모든 피험자에게 동일한 평가조건과 기회를 부여하여 평가결과를 객관적으로 비교 가능하게 하는 것에 있다. 의학교육에서 임상실기능력평가를 위하여 전통적으로 활용된 직접관찰, 증례, 실습평가는 실기능력배양이라는 교육목적에 부합하는 평가임에도 불구하고 내용 대표성 및 절차의 표준화에 어려움을 갖는다. 이러한 점에서 표준화 환자를 이용한 임상평가는 실제와 유사한 상황에서 임상능력을 평가하고 평가의 객관성을 위한 수행평가 표준화의 선도적 방안이라고 할 수 있다. 특히, 국내외 의사자격시험에 포함된 OSCE는 임상사례 수, 단계(stations)의 할당시간, 표준화 환자의 훈련수준, 채점기준 등에 대한 다양한 개선을 통하여 수행평가 또한 선택형 문항수준의 객관성을확보할 수 있음을 현실적으로 보여 준 사례라고 할 수 있다. 반면, 수행평가결과의 신뢰성에 영향을 미치는 요소인 채점자, 과제, 환경에 대한 선행연구에서 밝혀진 바와 같이(Cronbach et al., 1997),평가 환경(occasions, 예, 표준화 환자 특성, 장소, 시간 등)이 중요한요인 임에도 다른 두 요소에 비하여 상대적으로 소홀히 다루어져왔기에, 이에 대한 지속적인 개선 노력이 필요할 것이다.


평가점수 산출의 객관성


학생평가의 객관성에서 가장 직접적인 단계로 논의되는 것이 평가점수를 산출하는 채점의 공정성, 투명성, 일관성이다. 선다형 문항은 선택지 중에서 사전에 정답이 결정되어 있으며, 학생 응답과정답을 비교하여 문항점수를 결정한다는 측면에서 채점자의 판단이 개입될 여지가 없다. 이에 반하여 학생이 응답/수행을 스스로 구성하는 수행평가에서는 상대적으로 자유로운 응답양식과 포괄적인 채점기준으로 인하여 채점자의 판단적 의사결정이 개입되며, 채점의 일관성과 타당성을 위하여 앞서 논의된 문항형식과 시행절차의 표준화와 함께 채점절차의 객관화가 요구된다. 의학교육에서 임상능력 측정을 위하여 표준화 환자를 이용한 평가의 필요성에 대한 대체적 동의가 이루어져 왔음에도 불구하고, 피험자의 어떤 행위/태도가 중요한 것이며, 동일한 피험자 행위에 대하여 복수의 채점자는 동일한 점수를 부여하는가, 채점자로서 표준화 환자가 포함되어야 하는가 등은 이러한 채점의 객관성과 관련된 사항이라 할수 있다.


수행평가 채점의 객관성을 위한 절차로서 두 가지 단계가 제안된다. 

  • 째는 두 사람 이상의 채점자가 채점하며 채점자에 대한 사전훈련이 진행되어야 한다. 

  • 째, 사전에 채점기준을 명확히 제시한채점기준표(scoring rubrics)를 활용해야 한다. 이때 수행평가의 채점방법은 크게 분석채점(analytic scoring)과 총괄채점(holisticscoring)으로 구분된다.


복수의 채점자를 활용하며, 채점자에 대한 사전훈련을 통하여채점자 간, 채점자 내 점수의 일관성을 확보하여 학생평가 점수의객관성을 높이는 절차는 대규모 학생평가 혹은 고부담평가(highstakeassessments)에서 엄격하게 적용되며, 많은 시간과 비용이 소요된다. 

  • 그러나 수행평가에서 평가자의 가치판단이 개입할 수 있음을 인정하는 전제에서 학생 응답에 의한 가치 판단이 아니라 채점자의 주관적 편견이 개입하는 것을 방지하기 위하여 두 사람 이상이 채점에 참여하고 또한 이러한 차이를 사전에 조정하는 채점자훈련절차는 반드시 필요한 과정이라 할 수 있다. 

  • 복수채점의 수준은 시간과 비용이라는 현실적 여건을 고려하여, 일상적인 수업의학생평가에서는 모든 피험자에 대한 복수채점보다는 일부 피험자표본에 대한 복수채점을 통하여 평가의 객관성을 확인할 수 있다.

  • 또한 채점자 훈련의 가장 중요한 과정은 채점기준표를 이해하고 실제 채점에서 이를 일관되게 적용하는 것이다. 즉, 채점에 임하기 이전에 채점기준표와 일치하는 혹은 일치하지 않는 학생 응답/수행을 명확히 확인하고, 각 점수수준을 대표하는 수행에 대한 명확한설정이 이루어져야 한다(Lane & Stone, 2006).


의학교육에서 임상평가의 채점은 주로 교수자 한 사람에 의하여실행된다는 점을 고려할 때, 채점 공정성을 위하여 무엇보다 중요한 과정은 채점기준표를 명확히 작성하는 것이라 할 수 있다. 즉, 검사가 측정하고자 하는 바를 실제 측정하기 위하여 검사를 제작하기 이전에 검사명세표를 세밀하게 작성하여 기준으로 활용하는 것과 동일하게, 채점기준표는 채점의 일관성과 주관적 요소를 배제하기 위하여 필수 과정이다. 채점기준표 설정의 근거는 교육목표에서달성하고자 하는 성취기준이며, 평가도구를 통하여 측정하고자 하는 학생의 지식, 기술수준을 세밀하게 나열하고, 이러한 평가내용에 대한 수행수준에 따라 점수를 할당하는 것이라 할 수 있다. 그러므로 채점기준표는 채점을 위한 수행요소를 구체적으로 설정함에따라, 학생이 수행해야 할 핵심내용을 보다 명확하게 하여, 수행과제 자체의 타당도를 높이는 데 기여한다. 또한, 채점기준표는 평가자의 채점 일관성뿐만 아니라 피험자에게 자신의 점수가 무엇에 근거한 것인가를 확인하는 기회를 제공하여 평가를 통한 학생 성취에 대한 피드백을 제공할 수 있다는 점에서 평가의 객관성을 높이는 데 중요한 역할을 한다.


마지막으로, 채점의 객관성에 영향을 미치는 중요한 요인은 채점방식이다. 수행평가에서는 분석채점(analytic scoring)과 총괄채점(holistic scoring) 등 크게 두 가지 방식이 활용된다. 

  • 분석채점은 수행과제를 구성하는 여러 요소(예, 문진, 검사, 진단, 처치 등)를 구분하여 각 영역에 대한 점수를 부여하고, 이를 합산하여 전체 수행점수를 산출한다. 

  • 반면에, 총괄채점은 피험자의 수행에 대한 전체적수준에 대하여 하나의 종합점수를 부여하는 방식이다. 


주로 논술시험의 채점방법에 관한 선행연구는 분석채점이 높은 채점자 신뢰도를 보이며, 전체 점수뿐만 아니라 세부 영역에 대한 학생수행정보를 제공하는 장점을 갖는 반면, 총괄채점은 개별요소보다는 이들이 모여 종합된 성취수준을 평가하는 장점을 보인다. 음악회에서공연되는 오케스트라 연주의 질은 관악기, 타악기, 현악기 등 각 파트 연주의 탁월함으로 평가될 수 없다는 Mullis (1984)의 비유처럼,진단, 검사, 처치로 이어지는 임상과정은 세부 영역의 정확성과 함께 전체 과정의 효율성, 효과성 등이 동시에 중요하게 평가될 수 있다. 즉, 임상능력평가를 위한 채점방법은 평가의 목적과 채점기준표의 구성, 평가결과의 활용에 따라 분석채점과 총괄채점이 선택적, 종합적으로 활용되어야 할 것이다. 또 다른 측면에서는, 현대 컴퓨터기술의 발달에 따라 다양한 문항형식의 조합, 개선이 이루어지는 것과 유사하게, 인공지능을 활용한 정보탐색기능을 활용하여수행평가의 채점에서 사람을 대신한 기계 채점의 도입은(Lane,2010) 객관성 향상을 위한 지속적 노력의 과제라고 할 수 있다.


평가결과보고의 객관성


학생평가의 최종 단계는 평가결과를 학생, 학부모, 및 교육기관에 보고하는 것이다. 앞서 논의된 문항형식과 내용, 시행절차, 채점등의 과정이 평가의 목적에 부합하도록 적절히 설정되어야 하는 것과 동일하게 평가결과의 보고 또한 평가의 목적과 활용에 의하여결정된다. 예를 들어, 학과목 내용에 기반하여 평가가 실시되었다면, 평가결과는 교수학습과정을 개선하기 위한 중요한 정보로 적절한 시간에 제시되어야 하며, 평가의 목적이 모든 학생의 능력수준을 구분하는 서열화에 있다면, 학생 전체의 능력수준과 개인의 위치정보를 제공할 수 있는 점수 척도(예, Z점수, T점수)가 활용되어야 할 것이다.


일반적으로 학생평가에서 강의자는 다양한 평가방법을 활용한다. 예를 들어, 객관식 시험, 퀴즈, 임상실습, 출석 등과 같이 네 가지방법으로 평가를 실시하였다면, 최종 학생평가결과를 산출하기 위하여 네 가지 점수를 어떤 식으로 종합할 것이다. 가장 간단한 방법으로, 각 시험의 만점을 25점으로 설정하여 합산하면 100만점의 최종점수가 결정될 것이다. 이때 만약 출석과 퀴즈에서 모든 학생이동일한 점수를 받았다면, 실제적으로 최종점수는 객관식 시험과임상실습에 의해서 결정되는 것이라 할 수 있다. 즉 이 경우, 형식적으로 네 가지 평가요소가 각 25%로 동일한 비중을 가짐에도 불구하고 학생 변별을 위한 실제적 요소는 객관식 시험과 임상사례 토의에만 해당되며, 출석과 퀴즈의 실제적 평가 가중치는 0%가 된다.의학교육은 매우 복잡한 교육과정을 포함하며, 이에 따라 다양한평가방법을 활용하여 학생정보를 수합한다. 그러므로 교육적 의사결정의 객관성을 위하여, 각 평가요소에 대한 명목 가중치와 실제가중치에 대한 계획이 명확히 설정될 필요가 있다.


두 번째 고려할 사항으로는, 학생평가가 학생들을 서열화하여세부적으로 변별하는 것에 목적이 있는가, 혹은 준거(criterion)에의하여 기본필수능력을 성취했는가를 중시하는가에 따라 평가 결과의 산출과 보고방식이 다르게 설정된다

  • 규준참조평가(normreferenced tests)의 경우 상위, 중위, 하위 모든 능력수준을 세부적으로 구분할 수 있는 평가의 구성과 점수산출이 요구되는 반면, 

  • 준거참조평가(criterion referenced test)는 비/통과를 결정하는 기준선의 객관성이 주요한 관심 대상이 된다. 


의학교육이 전문가 및 직업교육의 특성을 갖는다는 점에서, 기본필수능력의 습득 여부가서열적 정보보다 학생평가에서 중요하게 다루어질 필요가 있다. 이러한 점에서 준거참조검사의 기준점수를 결정하는 준거설정(standardsetting)은 합격과 불합격이라는 의사결정의 객관성을 확보하기 위한 중요한 절차로 다루어져야 한다. 구체적인 준거설정에는 매우 다양한 방법(예, Bookmark 방법, 수정된 Angoff 방법 등)이 있음에도 불구하고, 가장 중요한 것은 준거점수가 의미하는 피험자의지식, 능력수준이 명확히 정의되어야 한다는 것이다(Kane, 2006).즉, 준거점수에 해당하는 지식과 능력수준이 구체적으로 정의되고, 이에 대하여 전문가, 교육자들의 합의가 이루어질 때, 준거점수를 기준으로 한 교육적, 행정적 의사결정은 객관성을 담보한다.


마지막으로 평가정보의 내용과 명세화 수준은 교육과정에서 평가결과를 활용하는 목적에 따라 형성평가(formative assessment)와 총괄평가(summative assessment)로 구분된다. 형성평가는 교수학습 과정에서 학생 및 강의자에게 수시로 피드백(feedback)을 제공하여 교육과정 및 수업을 개선시키는 평가를 의미한다. 또한, 형성평가의 평가결과는 학생에게 학업동기를 유발하고, 자기주도적학습능력을 함양하게 하고, 사고능력을 배양하는 피드백의 역할을 한다. 교수자와 학습자의 의사소통이라는 피드백으로서 평가결과는 학생의 서열뿐만 아니라, 시간 흐름에 따른 발전 정도, 또한 학업에 대한 정의적 태도 등의 정보를 포함할 수 있다. 즉, 매번의 학생평가가 졸업과 진급과 같이 합격/불합격의 결정에 제한된 것이 아니라면, 평가의 교육적 활용(교수학습의 개선, 학생 학업동기 배양등)이 결과 보고에 고려될 때 결과타당도(consequential validity,Kane, 2006)라는 측면에서 평가의 객관성이 확보된다.


요약하면, 평가의 마지막 단계인 결과보고에서는 다양한 평가요소의 합산을 위한 실제 가중치 수준, 준거참조검사에서 준거기준에 해당하는 학생수행의 수준에 대한 명확한 설정, 형성평가와 총괄평가와 같은 평가 목적의 구분이 필요하다.


결 론


문항형식이라는 측면에서 전통적으로 수행능력을 강조하는 의학교육은 수행평가를 선도하고 있다. 특히, OSCE는 전국 규모의자격시험에 활용될 정도의 표준화가 마련된 대표적 사례라고 할 수있다. 또한, 현대 컴퓨터기술(시뮬레이션, 네트워킹, 인공지능 등)의발달은 표준화 환자의 수행 일관성을 높이기 위한 방안으로 활용될 수 있을 것이다. 

  • 문항내용은 평가의 교육과정 대표성과 관련된것으로, 임상평가의 과제 수, 시행시간, 내용적 포괄성과 관련된 문항형식의 고려를 통하여 지속적 개선이 필요할 것이다. 

  • 평가 실시절차 표준화의 목적은 모든 피험자에게 동일한 평가 조건과 기회를부여하여 평가결과를 객관적으로 비교 가능하게 하는 것에 있다.수행평가결과의 신뢰성에 중요하게 영향을 미치는 요소로 채점자,과제의 일관성을 위하여 많은 노력이 투입된 반면, 평가환경의 영향은 상대적으로 소홀히 다루어져 왔다. 

  • 평가결과 산출을 위한 채점기준표는 학생수행요소를 명시함에 따라, 학생이 수행해야 할핵심내용을 보다 명확하게 하여, 수행과제 자체의 타당도를 높이는데 기여한다. 또한, 채점기준표는 평가자의 채점 일관성뿐만 아니라피험자에게 자신의 점수가 무엇에 근거한 것인가를 확인하는 기회를 제공하여 평가를 통한 학생성취에 대한 피드백을 제공할 수 있다는 점에서 평가의 객관성을 높이는 데 중요한 역할을 한다. 

  • 평가의 마지막 단계인 결과보고에서는 다양한 평가요소의 합산을 위한실제 가중치 수준, 형성평가와 총괄평가와 같은 평가목적의 구분,준거참조검사에서 준거기준에 해당하는 학생수행의 수준에 대한명확한 설정이 필요하다.


교육 분야에서 평가의 역할과 기능에 대한 논의는 평가주도 교육과정(test driven curriculum)과 교육과정주도 평가(curriculum driven test)로 대별된다. 평가주도 교육과정은 학생평가내용이 학생들이 이수해야 할 교육과정을 규정하고, 이에 따라 교육개혁을위한 효율적 정책방향으로 지지되어 왔다. 물론 평가주도 교육과정으로 인한 교육과정의 협소화, 평가 만능화 등에 대한 다양한 비판이 있어 왔음에도 불구하고, 현대 증거기반 교육연구, 성과기반 교육정책과 같은 객관주의적 관점에서 학생평가의 결과는 교육의 성과를 판단하고 교육개혁을 위한 주도적인 역할을 한다. 


이에 따라 학생평가의 객관성은 학생 개인뿐만 아니라 교육기관의 책무성, 국가 교육정책의 효과성을 판단하기 위하여 매우 중요하게 다루어지고 있다. 특히 의학교육은 일반 교육의 공공성뿐만 아니라 의료 인력양성이라는 사회적 책무성을 포함함에 따라 학생평가의 객관성이 더욱 강조된다. 학생평가의 객관성은 평가계획의 수립에서 결과보고에 이르는 전 과정의 내용적, 절차적 타당성에 근거한 것으로,Shepard (2000)는 학생평가에 대하여 다음과 같이 제안한다.


바람직한 학생평가를 위해서는 

  • 째, 학생의 사고능력 및 실제수행능력을 향상시킬 수 있는 과제가 주어져야 하며, 

  • 둘째, 학습결과뿐만 아니라 학습 과정을 다루어야 하며, 

  • 셋째, 수업과 통합된 지속적 활동이어야 하며, 

  • 넷째, 학생학습을 지원할 수 있도록 형성적평가가 이루어져야 하며, 

  • 다섯째, 학생들에게 무엇이 기대되는지 명확히 확인시킬 수 있어야 하며, 

  • 여섯째, 학생들이 자신의 수행을 평가하는 데 능동적으로 참여하게 하며, 

  • 곱째, 학생학습뿐만 아니라 수업개선을 위하여 평가결과가 활용되어야 한다.


Shepard의 제안은 전통적 지필평가와 수행평가 모두에 적용되는 것으로, 학생평가의 교육적 활용을 강조한다. 평가상황에서 제한적으로 수집된 학생의 말, 행동, 반응 등은 그 학생이 보다 넓은범위에서 무엇을 알고, 할 수 있으며, 어떤 능력을 갖는지에 대한 추정의 근거가 된다. 이러한 추정의 정확성이 학생평가의 객관성을 의미하며, 이는 학생평가를 구성하는 문항형식, 문항내용, 시행절차,채점, 결과산출 과정이 논리적, 실천적으로 평가목적에 부합하였는가로 귀결된다.




This paper addressed various issues related to the objectivity of student assessment in medical education. The

objectivity of assessment was related to all the steps of test development, administration, and results reporting

in terms of reliability and validity. Specifically, the objectivity of item formats, representativeness of test content,

standardization of test administration, consistency of scoring procedures, and appropriateness of reporting test

results were discussed by comparing performance assessment with traditional paper-and-pencil tests. The conclusions were derived from current measurement theories such as standards-based assessment, evidencebased

design, and outcome-based assessment. Further, based on Shepard’s propositions (2006), the objectivity

of student assessment could be achieved by improving the concordance between educational objectives and

assessment components such as item types, test contents, and test administration, scoring, and reporting.


Keywords: Objectivity, Reliability, Student assessment, Validity

Corresponding author

Kyung-Seok Min

Department of Education, College of Liberal Arts, Sejong University, 209 Neungdong-ro, Gwangjin-gu, Seoul 143-747, Korea

Tel: +82-2-3408-3128

Fax: +82-2-3408-4304

E-mail: minkyungseok@sejong.ac.kr

Received: September 28, 2013

Revised: October 17, 2013

Accepted: October 17, 2013


의학교육 학생평가의 객관성에 대한 쟁점
Issues Related to the Objectivity of Student Assessment in Medical Education
Kyung-Seok Min1 Kil-Seok Yang2 
Department of Education, College of Liberal Arts, Sejong University(1) Department of Education, The Catholic University of Korea, Seoul, Korea(2)
의학교육논단 2013 ;15(3):105-111
Keyword : Objectivity, Reliability, Student assessment, Validity
 


보건의료인교육에서 시험-강화 학습: 체계적 문헌고찰(BEME Guide No. 48) (Med Teach, 2018)

Test-enhanced learning in health professions education: A systematic review: BEME Guide No. 48

Michael L. Greena, Jeremy J. Moellerb and Judy M. Spakc




도입

Introduction


교육자들은 보통 "학습의" 평가를 생각한다. 학과 과정이 끝날 때, 학생들은 공부를 통해 이전에 배웠던 정보를 기억한다. 최근 교육자들은 평가를 교육적 전략으로 고려하는 "학습을 위한" 평가로 눈을 돌렸다(슈퍼스와 반 데어 벨루텐 2011). 평가는 학생들의 학습 행동을 유도하여 간접적으로 학습을 강화한다(리허설 효과)(Fitch et al. 1951; Newble and Jaeger 1983)

Educators commonly think of assessment “of” learning. At the end of a course of study, students recall information previously learned through studying. Recently, educators have turned their attention to assessment “for” learning (Schuwirth and Van der Vleuten 2011), considering assessment as a pedagogical strategy in and of itself. Looming assessments indirectly enhance learning by driving students’ study behaviors (rehearsal effect) (Fitch et al. 1951; Newble and Jaeger 1983).



평가는 또한 직접적으로 학습을 향상시킨다. 인지 심리학 실험실(Roediger and Butler 2011; Karpicke and Gimaldi 2012), 교실(Roediger et al. 2011; Agarwal et al. 2012)에 대한 연구는 이전에 학습한 정보(Retural practice)를 상기하면 미래에 정보를 기억하는 능력이 향상된다는 것을 일관되게 입증한다. 정보를 기억하기 위해 노력하며 신중한 시도를 하는 학생들은 같은 자료를 반복적으로 공부하는 학생들보다 더 나은 학습, 보존 및 이전을 보여준다. 이 효과는 시험의 맥락 안에서 검색 관행이 발생할 때 "시험 강화 학습(TEL)"으로 알려져 있다.

Assessment also directly enhances learning. Studies in cognitive psychology laboratories (Roediger and Butler 2011; Karpicke and Grimaldi 2012) and classrooms (Roediger et al. 2011; Agarwal et al. 2012) consistently demonstrate that recalling previously learned information (retrieval practice) enhances the ability to recall the information in the future (retrieval effect). Students who engage in effortful, deliberate attempts to recall information show better learning, retention, and transfer than students who spend the same time repeatedly studying the same material. This effect is also known as “test-enhanced learning (TEL)” when the retrieval practice occurs in the context of a test.


  • 몇 가지 시험 형식은 검색 효과를 향상시킨다. 반복된 테스트는 긴 단일 테스트보다 더 나은 리콜을 촉진한다(Wheeler and Roediger 1992; Karpicke and Roediger 2008). 

  • 시간 간격에 따른 간격 테스트로 연속 연속 테스트(Landauer and Bjork 1978); Cepha et al. 2006; Karpicke and Roediger 2007)에 비해 더 나은 회수 결과가 나타난다. 이러한 효과는 1분에서 30일까지 간격마다 지속된다. 

  • Spacing간격이 같으면 간격이 확대되는 것보다 장기 보존이 더 효과적이다. 

  • 정보의 생산을 요구하는 항목(짧은 답변, 에세이)은 정보의 인식을 요구하는 항목(다중 선택, 참/거짓)보다 더 나은 성과를 낸다. (McDaniel, Anderson 등, 2007; McDaniel, Roediger 등, 2007; Pyc 및 Rawson 2009) 

  • 피드백을 받은 학생들은 더 많은 정보를 상기하고 강화된 메타 인식 인식을 즐긴다(Bangert-Drowns et al. 1991; Butler et al. 2008).

  • Several test formats enhance the retrieval effect. Repeated testing promotes better recall than a long single test (Wheeler and Roediger 1992; Karpicke and Roediger 2008). 

  • Spacing tests over time intervals results in better recall compared with back-to-back consecutive testing ( Landauer and Bjork 1978; Cepeda et al. 2006; Karpicke and Roediger 2007). These effects persists at spacing intervals from one minute to 30days. 

  • Equal spacing intervals produce better long-term retention than expanding intervals. 

  • Items that require production of information (short answer, essay) perform better then items that require recognition of information (multiple choice, true/false). (McDaniel, Anderson, et al. 2007; McDaniel, Roediger, et al. 2007; Pyc and Rawson 2009) 

  • Students who receive feedback recall more information and enjoy enhanced metacognitive awareness (Bangert-Drowns et al. 1991; Butler et al. 2008).


이러한 발견들은 학습자들에게 시사하는 바가 있다. 대학생들은 대부분 재독을 학습 전략으로 사용하고 검색 실습을 거의 하지 않기 때문에 검색 효과에 대한 인식이 부족한 것으로 보인다(Karpicke et al. 2009).

These findings have implications for learners. College undergraduates appear to lack an awareness of the retrieval effect as they most commonly employ rereading as a learning strategy and very rarely engage in retrieval practice (Karpicke et al. 2009).


보다 최근에는, 조사관들이 건강직업 교육에 있어서 회복 효과를 입증했다.

More recently, investigators have demonstrated the retrieval effect in health professions education.


TEL의 표준화된 효과 크기는 0.9로 추정되어 실질적인 중요성이 크다(Kreiter et al. 2013).

The standardized effect size of TEL has been estimated at 0.9, indicating large practical importance (Kreiter et al. 2013).


방법

Methods


리뷰 문제

Review questions


우리의 체계적 검토는 질문을 다루었다: 학생이나 공급자(과목)에서, 동일한 자료(비교)를 공부하는 것에 비해 TEL (인터벤션)은 학습, 유지 또는 이전을 증가시키고, 효과의 크기는 어떻게 되는가? 몇 가지 부수적인 질문이 보충 부록 1에 열거되어 있다. 우리는 또한 TEL의 추가 연구를 위한 지역들을 조명했다. 이 mapping review에서는 TEL 문헌의 격차와 방법론적인 단점을 식별하기 위해 노력했다(부록 1 참조).

Our systematic review addressed the question: In health professions students or providers (Subjects), does TEL (Intervention) compared to studying the same material (Comparison) increase learning, retention, or transfer, and what is the magnitude of the effect (Outcome)? Several subsidiary questions are listed in Supplementary Appendix 1. We also illuminated areas for further study in TEL. In this mapping review, we sought to identify gaps and methodologic shortcomings in the TEL literature (Supplementary Appendix 1)


Search strategy



Screening and selection of studies


Inclusion and exclusion criteria


Data extraction and coding


To allow comparison of effects among heterogeneous studies, we determined the effect size (Hojat and Xu 2004; Leppink et al. 2016) if the study provided the requisite data. The effect size for comparing means is determined as the standardized mean difference (SMD). 


For comparing an intervention group to a control group: 

SMD=(meancases- meancontrols)/SDcontrols. 


For comparing two interventions: 

SMD=(meancases - meancontrols)/SDpooled. 


As a measure of the impact of an intervention, the SMD is operationally interpreted as:

    • SMD = 0.20 (SMALL, negligible practical importance)

    • SMD = 0.50 (MEDIUM, moderate practical importance)

    • SMD = 0.80 (LARGE, crucial practical importance)


Assessment of study methodological quality


Reproducibility of data abstraction processes



Results


Reproducibility analyzes


Study retrieval, screening, and inclusion


Figure 1 shows the flow diagram of study screening and eligibility.


The characteristics of the 19 studies (including two PhD theses) appear in Table 1 (study design), Table 2 (demographics, control, and TEL interventions), and Table 3 (outcome measures and results).




연구 특성

Study characteristics (study design)


The design and conduct of the studies, all randomized controlled trials (RCTs), were generally methodologically sound (Table 1).


연구 특성

Study characteristics (demographics, control, and TEL interventions)


이 과목에는 의대생(8개 연구), 간호학생(3개), 연합 보건대학원(2개), 주민(3개), CME 프로그램 내 의사(2개), 치과 및 치과위생과 학생(1개)이 포함되었다. TEL 개입에는 짧은 응답 질문(SAQ), 다중 선택 질문(MCQ), 시뮬레이션(심폐소생술), 표준화된 환자 및 핵심 기능 질문(임상적 추론)이 포함되었다. Key feature은 수험자가 오류를 범할 가능성이 높은 실제 문제의 식별 및 해결 과정에서 어려운 단계를 나타낸다. Key feature은 짧은 응답 형식의 사례 기반 질문에 포함되어 있다(Page et al. 1995; Hrynchak et al. 2014). 짧은 답변 항목은 큐(질문에 대한 응답)와 논큐(관련 정보의 free 리콜)으로 구분되었다.

Subjects included medical students (8 studies), nursing students (3), allied health students (2), residents (3), physicians in CME programs (2), and dental and dental hygiene students (1) (Table 2). TEL interventions included short answer questions (SAQs), multiple choice questions (MCQs), simulation (cardiopulmonary resuscitation), standardized patients, and key features questions (clinical reasoning). A key feature represents a difficult step in the identification and resolution of a problem in practice in which examinees are likely to make errors. Key features are embedded in casebased questions with short answer response formats (Page et al. 1995; Hrynchak et al. 2014). The short answer items were both cued (response to a question) and non-cued (free recall of relevant information).


복수 TEL 시험을 치른 12개 연구 중, 7개 연구는 반복 시험에 동일한 항목(라센, 버틀러, 로이디거 2013; 오글스비, 2013; 돕슨 외 2015; 맥코넬 외 2015b)을 포함했고, 동일한 주제에 대해 서로 다른 항목을 포함했다(리틀과 2014년 4개 포함).새로운 강의나 e-러닝 세션에 연결된 다양한 주제에 대한 다양한 항목(Schmidmaier et al. 2011; Cook et al. 2014; Messineo et al. 2015; Raupach et al. 2016)


이러한 모든 연구는 연속 TEL 시험을 채택한 한 연구(Dobson 등 2015)를 제외하고 1주-2주 간격으로 반복 TEL 시험을 간격 설정했다. 공동 개입에는 평가 항목에 대한 피드백(이론적 또는 근거 없는 올바른 답변)과 자체 설명이 포함됐다. 후자의 경우, 학생들은 정보의 특정 부분이 중요한 이유와 그것이 기존의 지식과 어떻게 관련되어 있는지에 대한 설명을 생성했다(Chamberland et al. 2015).

Among the 12 studies in which students took multiple TEL tests, seven included identical items on repeated tests (Larsen, Butler, Lawson, et al. 2013; Larsen, Butler, Roediger 2013; Oglesby, 2013; Dobson et al. 2015; Larsen et al. 2015; McConnell et al. 2015b), one included different items on the same topics (Ali and Ruit 2014), and four included different items on different topics (Schmidmaier et al. 2011; Cook et al. 2014; Messineo et al. 2015; Raupach et al. 2016), linked to a new lecture or e-learning session. All of these studies spaced repeated TEL tests at 1–2week intervals, with the exception of one study (Dobson et al. 2015) that employed consecutive TEL testing. Co-interventions included feedback for assessment items (correct answers with or without rationale) and self-explanation. For the latter, students generated explanations about why a particular piece of information is important and how it relates to their existing knowledge (Chamberland et al. 2015).


성과 척도와 결과

Outcome measures and results


19개 연구는 검사(MCQ, SAQ, 에세이, 핵심 기능 질문), 방사선 해석, 시뮬레이션(심장 체포 시나리오), 표준화된 환자 평가(표3)를 포함한 49가지 학습 성과를 보고했다.

The 19 studies reported 49 learning outcomes, including examinations (MCQs, SAQs, essay, key features questions), radiograph interpretation, simulation (cardiac arrest scenario), and standardized patient assessment (Table 3).


6가지 즉각적인 학습 성과 중 5개는 학습보다 TEL을 선호했다(SMD 0.09–0.44). 2

3개의 retention 성과(1주–6개월) 중 21개는 학습보다 TEL을 선호했다(SMD 0.10–2.5).

Among the six immediate learning outcomes, five favored TEL over studying (SMD 0.09–0.44). 

Among the 23 retention outcomes (1week–6months), 21 favored TEL over studying (SMD 0.10–2.5).


세 가지 연구는 transfer에 대한 TEL의 영향을 입증했다. 이 연구의 모든 7가지 전달 결과는 연구보다 TEL을 선호했다. (SMD 0.33–1.1) 시간 경과에 따라 반복적으로 결과를 측정한 모든 연구는 TEL 효과의 붕괴를 발견했다.

Three studies demonstrated the impact of TEL on transfer: All seven transfer outcomes in these studies favored TEL over studying (SMD 0.33–1.1). All of the studies that repeatedly measured outcomes over time found a decay in the TEL effect.


15개의 결과가 서로 다른 TEL 전략을 비교했다. 테스트의 수를 변화시킨 유일한 연구는 1개에 대한 세 가지 TEL 테스트의 장점을 보여주지 못했다(Ali and Ruit 2014). 한 연구는 TEL 테스트당 질문 수를 변화시켰다. 학습 결과 점수는 매우 좁은 범위에서 증가했지만 질문 수가 1에서 5에서 10으로 증가했고 그 이상을 능가하는 이점이 없었다(Cook et al. 2014). SAQ 테스트는 두 가지 연구에서 네 가지 결과(SMD 0.86 및 1.1)에서 MCQ 테스트보다 더 나은 학습 결과를 낳았다(Ali and Ruit 2014; McConnell et al. 2015b). "Context rich" MCQ(지식의 적용 필요)가 "context free" MCQ(사실 인정 필요)보다 더 잘 수행되었다(McConnell et al. 2015b). 표준화된 환자의 TEL을 가진 학생은 SAQs TEL을 가진 학생보다 표준 환자 결과 테스트(SMD 0.71)에서 더 많이 보유했지만, 필기 시험 결과 테스트(Larsen 2013a)에서는 그렇지 않았다. co-intervention으로서 자기설명은 의대생들의 시험을 강화한 것보다 공부를 훨씬 더 향상시켰다.

Fifteen outcomes compared different TEL strategies. The only study that varied the number of tests failed to show an advantage of three TEL tests over one (Ali and Ruit 2014). One study varied the number of questions per TEL test. The learning outcome scores increased, albeit within a very narrow margin, as the number of questions progressed from 1 to 5 to 10 questions, with no further advantage beyond that (Cook et al. 2014). SAQ tests resulted in better learning than MCQ tests in four outcomes in two studies (SMDs 0.86 and 1.1) (Ali and Ruit 2014; McConnell et al. 2015b). “Context rich” MCQs (requiring application of knowledge) performed better than “context free” MCQs (requiring recognition of facts) (McConnell et al. 2015b). Students with standardized patients TEL retained more than students with SAQs TEL on a standardized patient outcome test (SMD 0.71) but not on a written examination outcome test (Larsen 2013a) Self-explanation as a co-intervention enhanced studying (SMD 0.68) to a greater degree than it enhanced testing (SMD 0.28) in medical students (Larsen et al. 2013b).


고찰

Discussion


인지심리학에 관한 연구는 이전에 학습된 정보(retrieval 실습)를 상기하면 미래에 (retrieval 효과 또는 시험강화학습) 정보를 상기할 수 있는 능력이 향상된다는 것을 일관되게 입증한다. 정보를 기억하기 위해 노력하며 신중한 시도를 하는 학생들은 같은 내용을 공부하는데 같은 시간을 보내는 학생들보다 더 나은 학습, 보존 및 이전을 보여준다.

Studies in cognitive psychology consistently demonstrate that recalling previously learned information (retrieval practice) enhances the ability to recall the information in the future (retrieval effect or test-enhanced learning). Students who engage in effortful, deliberate attempts to recall information show better learning, retention, and transfer than students who spend the same time studying the same material.


이 중에서, 단지 19개만이 TEL을 동일한 자료를 학습하거나 서로 다른 TEL 전략과 비교했다. 이러한 연구에서 TEL은 다양한 건강 직업, 학습자 수준, TEL 형식 및 학습 결과에 걸쳐 일관되고 강력한 효과를 보여주었다.

Of these, only 19 compared TEL to studying the same material or to an alternate TEL strategy. TEL, in these studies, demonstrated consistent and robust effects across different health professions, learner levels, TEL formats, and learning outcomes.


19개 연구의 설계와 수행은 모두 무작위 통제 시험이었고, 비교적 높은 품질 점수에서 지적한 바와 같이 일반적으로 양호했다.

The design and conduct of the 19 studies, all randomized controlled trials, was generally sound, as indicated by relatively high quality scores.



TEL은 인지학 및 교육학자에 의해 광범위하게 연구되어 왔다. 실험실 환경 및 1차, 2차, 2차 및 2차 교실에서의 검색 실행을 위한 효과 크기는 0.5로 추정되었다. 우리의 리뷰는 보건전문가들이 이러한 발견들을 내부화하고 TEL 연구에서 확장했다는 것을 보여주었다. 첫째, 두 연구는 모두 복수의 학습자, 설정 및 TEL 형식에 걸쳐 TEL의 일관성 있고 강력한 효과를 발견한다. 인지 심리학 연구는 TEL 개입과 학습 결과를 어떤 유형의 "검사"로 제한했지만, 보건 직업 교육 연구는 방사선 해석, 심폐소생술 시뮬레이션, 표준화된 환자 외 사고 및 임상 추론과 같은 광범위한 임상 평가를 포함했다.

TEL has been extensively studied by cognitive and educational pychologists ( Roediger and Butler 2011; Brame and Biel 2015; Eisenkraemer et al. 2013). The effect size for retrieval practice in laboratory settings and primary, secondary, and post-secondary classrooms has been estimated to be 0.5 (Rowland 2014; Adesope et al. 2017) Our review revealed that health professions educators internalized and extended these findings in their TEL research. Firstly, both literatures find consistent and robust effects of TEL across multiple learners, settings, and TEL formats. While the cognitive psychology studies confined TEL interventions and learning outcomes to “examinations” of some type, health professions education studies included a wider array of clinical assessments, such as radiograph interpretation (Baghdady et al. 2014), cardiopulmonary resuscitation simulation (Kromann et al. 2009, 2010), standardized patient et encounters (Larsen al. 2013a), and clinical reasoning (Raupach et al. 2016).


인지 심리학 실험은 반복된 TEL 테스트가 단지 하나의 시험보다 더 효과적이라는 것을 보여준다. 또한 시간 경과에 따른 시험 간격은 연속 시험보다 우수하다. 우리 7개 건강직업연구의 학생들은 단 1개의 TEL 시험을 치렀고, 나머지는 1주-2주 간격으로 2-8개의 TEL 시험을 보았다. 반복실험(3주)을 단일시험과 비교한 건강전문가들만이 반복실험의 장점을 발견하지 못했다(Ali and Ruit 2014). 이 예상치 못한 결과는 데이터의 극단적인 콘텐츠 특수성에 의해 설명될 수 있다.

Cognitive psychology experiments demonstrate that repeated TEL tests are more effective than just one (Wheeler and Roediger 1992; Roediger and Karpicke 2006; Karpicke and Roediger 2008). In addition, spacing the tests over time is superior to consecutive testing ( Landauer and Bjork 1978; Cepeda et al. 2006; Karpicke and Roediger 2007). Students in seven of our health professions studies took one only one TEL test, while the remainder took 2–8 TEL tests at 1–2 week intervals. The only health professions study that compared repeated testing (3 weekly) with a single test did not reveal an advantage to repeated testing (Ali and Ruit 2014). This unexpected finding might be explained by the extreme content specificity in the data.


인지심리학 연구에서 정보생성이 필요한 항목은 정보인식이 필요한 항목보다 더 잘 수행된다(McDaniel, Anderson 등). Roediger, 2007; McDaniel, et al. 2007; Pyc and Rawson 2009). 이 효과는 "원하는 어려움"이라고 불렸다. 우리의 리뷰는 보건 직업 교육에서 이러한 발견을 확인하였고, 다중 선택 질문보다 짧은 답변 질문의 이점을 보여주었으며, 문맥이 풍부한 다중 선택 질문(지식의 적용이 필요한 질문)의 이점을 입증하였다.

In cognitive psychology studies, items requiring production of information perform better than items requiring recognition of information (McDaniel, Anderson, et al. Roediger, 2007; McDaniel, et al. 2007; Pyc and Rawson 2009). This effect has been called “desirable difficulty.” Our review confirmed this finding in health professions education, demonstrating an advantage of short answer questions over multiple choice questions, and an advantage of context rich multiple choice questions (which require application of knowledge) over context free multiple choice questions.


검색 시도 후 피드백은 시험의 니모닉 효과를 증가시킨다(Bangert-Drowns et al. 1991). 여기에는 학생이 오답을 검색하고 "학습"하는 것을 방지하기 위해 (단순히 맞고 틀린 것이 아니라) 정답을 포함해야 한다(Butler 등, 2007; Butler 및 Roediger 2008). 이는 학생들이 distractor 옵션에서 잘못된 정보에 "노출"되기 때문에 인식 항목에 특히 중요하다. 또한 피드백은 답은 맞췄지만 자신감은 낮았던 응답의 retention을 강화한다(Butler et al. 2008).

Feedback after a retrieval attempt increases the mnemonic effect of testing (Bangert-Drowns et al. 1991). It should include the correct answer (not merely right or wrong) the student from to prevent retrieving and “learning” an incorrect response (Butler et al. 2007; Butler and Roediger 2008). This is particularly important for recognition items because the students are “exposed” to incorrect information in the distractor options (Butler et al. 2006). Feedback also enhances the retention of correct but low confidence responses (Butler et al. 2008).


심리학자들은 회수 효과를 설명하기 위해 몇 가지 이론을 제시했다. 메모리는 다음과 같은 두 가지 차원을 가질 수 있다. 저장storage 강도 및 검색retrieval 강도, Deficit processing theory에 따르면, 초기 학습 동안 이 두 가지는 서로 부정적인 상관관계가 있다검색의 어려움(검색 강도가 낮아짐)은 저장 강도의 상승을 가져온다. 정보를 기억하는 것은 그것을 읽거나 인식하는 것보다 더 어렵다. 이는 또한 간격 효과를 설명할 수 있다. 간격 효과는 연속 시험 시 정보를 상기하는 것보다 intervening time gap을 사용하여 정보를 반복적으로 호출하는 것이 더 어렵게 만들기 때문이다.

Psychologists have proposed several theories to explain the retrieval effect ( Roediger and Butler 2011; Karpicke and Grimaldi 2012; Yeh and Park 2015) Memory may have two dimensions: storage strength and retrieval strength, which, according to the deficient processing theory, are negatively correlated during initial learning. More difficult retrieval (lower retrieval strength) results in higher gains in storage strength. Recalling information is more “difficult” than reading or recognizing it. This may also explain the spacing effect as it is more “difficult” to repeatedly recall information with intervening time gaps than to recall it on consecutive trials. 


transfer appropriate processing theory에 따라 메모리 성능은 학습 맥락이 검색 맥락과 일치할 경우에 향상된다. 시험의 실행은 단순히 자료를 다시 읽는 것보다 최종 시험의 조건에 더 가깝다

Memory performance, per the transfer appropriate processing theory, is enhanced to the extent that the learning context matches the retrieval context. The act of testing as practice more closely approximates the conditions on the final test than simply rereading the material. 


마지막으로, 메모리에서 정보를 검색하면 메모리 추적을 상세히 설명하고 추가 검색 경로(큐)를 만들 수 있으며, 이는 정보가 미래에 다시 성공적으로 검색될 가능성을 더 높인다. 이러한 영향은 아마도 개별 시냅스 수준의 분자 변화와 뉴런 네트워크의 보다 광범위한 수정에 동반할 것이다(Friedlander et al. 2011).

Finally, retrieval of information from memory may elaborate the memory trace and create additional retrieval routes (cues), which make it more likely that the information will be successfully retrieved again in the future. At the neuronal level, these effects presumably accompany both molecular changes at the level of individual synapses and more widespread modifications of the neuronal network (Friedlander et al. 2011).


요컨대, 보건직의 TEL은 다양한 직업, 학습자 수준, TEL 형식 및 학습 성과 전반에 걸쳐 일관되고 강력한 효과를 보여주었다.

In summary, TEL in the health professions demonstrated consistent and robust effects across different professions, learner levels, TEL formats, and learning outcomes.


이러한 발견들은 건강직의 교육자들에게 몇 가지 의미를 가진다. 교육자들은 의료 정보의 리콜, 보존 및 이전을 강화하기 위해 커리큘럼에 TEL을 포함시킬 것을 고려해야 한다. 이상적으로는 TEL "시험"을 반복하고, 시간 경과에 따라 간격을 두고, 정보생성이 필요한 항목을 활용하고, 정확한 응답과 논리로 피드백을 포함시켜야 한다.

These findings have several implications for educators in the health professions. Educators should consider including TEL in their curricula to enhance recall, retention, and transfer of medical information. Ideally, TEL “tests” should be repeated, spaced over time, utilize items that require production of information, and include feedback with the correct responses and rationale.


교육자들이 이미 과중한 교과과정에 TEL을 통합하는 것은 어려울 수 있다

  • 그들은 각각의 강의나 다른 학습 세션에 관계된 몇 개의 짧은 답안 문제를 가진 약간의 강의 시간에 퀴즈에 넣을 수 있다. 

  • 학생들은 시험을 치르기 위해 그들의 헌신적인 학습 시간을 "빌려와야" 할지도 모른다. 

  • 비록 그들이 퀴즈를 끝낸 후에 정답을 볼 수도 있지만, 그럼에도 불구하고 그들은 정해진 시간 간격에 걸쳐 그것을 다시 맞출 것이다. 

  • 마지막으로, 선생님은 정답에 대한 설명을 제공하기 위해 수업시간에 퀴즈를 다시 볼 것이다. 

  • 이 역할에서 교수진은 짧은 질문에 대한 "정답" 답변의 범위에 대해 명확한 설명을 제공해야 한다. 

우리의 검토 결과들은 커리큘럼 시간에서의 그러한 트레이드오프가 가치가 있을 것이라는 것을 암시한다.

It may be challenging for educators to integrate TEL into already overfilled curricula. They might appropriate some didactic lecture time for a quiz, with a few short answer questions, linked to each lecture or other learning session. The students might “borrow” some of their dedicated study time to take the quiz. Even though they might see the correct answers after completing the quiz, they would nonetheless retake it over specified time intervals. Finally, the teacher would revisit the quiz in class time to provide explanations for the correct answers. In this role, faculty should provide clear explanations for the range of “correct” responses to the short answer questions. The findings in our review suggest that such tradeoffs in curricular time would be worthwhile.


더욱이, 검색 관행은 공식적인 "시험"으로 제한될 필요가 없다. 학생이 자신이 배우고 있는 자료를 고려하고, 그것을 제쳐 두고, 그것을 적극적으로 재구성할 때마다, 그녀는 검색 연습을 하는 것이다. 여기에는 질문 간 온라인 학습 모듈(DelSignore et al. 2016; Raupach et al. 2016), 질문이 있는 전자 플래시 카드(Schmidmaier et al. 201) 및 다양한 문항 생성 애플리케이션이 포함될 수 있다. 

Furthermore, retrieval practice need not be restricted to formal “tests.” Whenever a student considers the material she is learning, sets it aside, and actively reconstructs it, she is engaging in retrieval practice. These might include elearning modules with interspersed questions (DelSignore et al. 2016; Raupach et al. 2016), electronic flashcards with questions (Schmidmaier et al. 2011), and various question generating applications. 


마지막으로, 교육자들은 검색 연습을 통합하기 위해 기존의 교육 "과제" 전략을 수정할 수 있다. 교육자들은 "오픈북" 학습 활동을 "closed book" 활동으로 바꿀 수 있으며, 그 다음에는 피드백을 줄 수 있다. 인지 심리학 연구에서, 이러한 "closed book" 방식이 take home quizzes에 적용되거나(Agarwal et al. 2008)와 개념 매핑(Blunt and Karpicke 2014)에 적용되어 학습이 크게 향상되었다.

Finally, educators can modify existing educational “homework” strategies to incorporate retrieval practice. Educators can change “open book” learning activities to “closed book” activities followed by feedback. In cognitive psychology studies, these “closed book” modifications applied to take home quizzes (Agarwal et al. 2008) and concept mapping (Blunt and Karpicke 2014) greatly enhanced learning.


우리의 발견은 또한 학생들과 훈련생들에게 영향을 끼친다. 대학생들은 메타인지 능력이 떨어지는 것을 보여준다. 그들은 실제로 반복된 회상 연습을 통해 더 많이 배우지만, 이렇게 해 보기 전까지 학생들은 반복된 읽기로 더 많은 것을 배울 것이라고 예측한다(Roediger와 Karpicke 2006). 이러한 믿음과 일관되게, 학부생들은 대부분 반복적인 독서를 연구 전략으로 사용하며, 인출 연습은 매우 드물게만 실천한다(Karpicke et al. 2009). 결과적으로, 보건전문직학생들은 효과적인 학습 전략으로 여러 TEL 퀴즈나 검색 관행을 쉽게 받아들이지 않을 수 있다. 

Our findings also have implications for health professions students and trainees. College undergraduate students demonstrate poor metacognitive awareness. While they actually learn more with repeated retrieval practice, they predict, prior to engaging, that they will learn more with repeated reading (Roediger and Karpicke 2006). Consistent with this belief, undergraduates most commonly employ repeated reading as a study strategy and very rarely engage in retrieval practice (Karpicke et al. 2009). Consequently, health professions students may not readily embrace multiple TEL quizzes or retrieval practice as an effective study strategy. 


교육자들은 설득력 있는 데이터를 공유하거나 학생들이 검색 연습을 하게 하여 반복된 판독에 비해 보존 상태가 개선되는지 확인해야 할 수 있다(Dobson 및 Linderholm 2015). 일단 TEL의 장점을 설득하면, 학생들은 평가가 단지 외부 이해관계자들에 의해 행해지는 행정적인 연습이 아니라는 것을 아는 데서 만족을 얻어야 한다. 반대로, 평가는 단순 학습이 할 수 없는 방식으로 학습을 장려한다.

Educators may need to share the persuasive data or invite students to try retrieval practice and see if it improves their retention compared to repeated reading (Dobson and Linderholm 2015). Once persuaded of the virtues of TEL, students should find gratification in the knowledge that assessment is not merely an administrative exercise imposed by external stakeholders. On the contrary, assessment promotes learning in ways that studying cannot.






 2018 Apr;40(4):337-350. doi: 10.1080/0142159X.2018.1430354. Epub 2018 Feb 1.

Test-enhanced learning in health professions education: A systematic reviewBEME Guide No. 48.

Author information

1
a Department of Internal Medicine and Teaching and Learning Center , Yale School of Medicine , New Haven , CT , USA.
2
b Department of Neurology , Yale School of Medicine , New Haven , CT , USA.
3
c Cushing-Whitney Medical Library , Yale School of Medicine , New Haven , CT , USA.

Abstract

BACKGROUND:

Cognitive psychology studies demonstrate that subjects who attempt to recall information show better learning, retention, and transfer than subjects who spend the same time studying the same material (test-enhanced learning, TEL). We systematically reviewed TEL interventions in health professions education.

METHODS:

We searched 13 databases, 14 medical education journals, and reference lists. Inclusion criteria included controlled studies of TEL that compared TEL to studying the same material or to a different TEL strategy. Two raters screened articles for inclusion, abstracted information, determined quality scores, and calculated the standardized mean difference (SMD) for the learning outcomes.

RESULTS:

Inter-rater agreement was excellent for all comparisons. The 19 included studies reported 41 outcomes with data sufficient to determine a SMD. TEL interventions included short answer questions, multiple choice questions, simulation, and standardized patients. Five of six immediate learning outcomes (SMD 0.09-0.44), 21 of 23 retention outcomes (SMD 0.12-2.5), and all seven transfer outcomes (SMD 0.33-1.1) favored TEL over studying.

CONCLUSIONS:

TEL demonstrates robust effects across health professions, learners, TEL formats, and learning outcomes. The effectiveness of TEL extends beyond knowledge assessed by examinations to clinical applications. Educators should include TEL in healthprofessions curricula to enhance recall, retention, and transfer.

PMID:
 
29390949
 
DOI:
 
10.1080/0142159X.2018.1430354
[Indexed for MEDLINE]


CBAS와 어려워하는 전공의 탐색 및 서포트의 관계(JAMA, 2018)

Association of a Competency-Based Assessment System With Identification of and Support for Medical Residents in Difficulty

Shelley Ross, PhD; Natalia M. Binczyk, BMSc; Deena M. Hamza, PhD; Shirley Schipper, MD; Paul Humphries, MD; Darren Nichols, MD; Michel G. Donoff,MD




도입

Introduction


CBAS는 두 가지 기본에 근거한 프로그램적인 평가로 설계되었다. 하나는 AOL이며, 다른 하나는 레지던트와 공유되는 정기적 형성피드백이다(저부담 평가도구와 함께 문서화된다). CBAS는 직장 기반 교육WBL에서 레지던트에 대한 직접적인 관찰에 초점을 맞추고 있다. CBAS는 학습자를 관찰한 후, WBA의 모범 사례를 준수하여 전문가의 판단과 코칭을 촉진 및 capture하도록 지원합니다. CBAS의 평가 도구는 preceptor들이 레지던트가 업무에서 수행한 것을 묘사하고, 관찰한 것을 가정의학의 상위 역량영역에 맞춰 tag 또는 분류하도록 한다(전문성, 의사소통 기술, 임상적 추론, 의료 지식, 환자 중심 치료, 실행 관리, 절차 기술 및 적절한 프레젠테이션 우선 순위 지정). 평가가 되는 역량은 우리의 사전 CBAS 대 사후 CBAS 코호트에 유사하지만, 명확성과 이해를 높이기 위해 그러한 역량의 설명자가 변경되었습니다.

The CBAS is designed as programmatic assessment26-28 predicated on 2 fundamentals: assessment for learning20,29,30 and regular formative feedback shared with residents (documented with low-stakes assessment tools).17,21,25 The CBAS focuses on direct observation of residents in workplace-based training. In keeping with best practices of workplace-based assessment, CBAS helps to both facilitate and capture experts’ judgment and coaching after observation of learners. The assessment tools in CBAS are designed to allow preceptors to describe what they see the residents do in the workplace and tag or sort their observations according to high-level descriptions of areas of competence in family medicine (professionalism, communication skills, clinical reasoning, medical knowledge, patient-centered care, practice management, procedural skills, and appropriately prioritizing presenting issues).24 Although the competencies being assessed were similar for our pre-CBAS vs post-CBAS cohorts, the descriptors of those competencies were changed to enhance clarity and understanding.


방법

Methods


STROBE를 따름

We adhered to the Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) reporting guideline for reporting observational cohort studies.31


어떤 전공의가 하나 이상의 측면에서 어려움을 겪는지 알아내기 위해 "flag"라 불린 변수를 찾는다.

Three program directors identified variables (referred to as flags) that indicated that a resident was having difficulty with 1 or more aspects of residency training. These variables are defined in the Box.



통계 분석

Statistical Analysis


Results


전공의의 기본 인구통계학적 특성(표 1)은 국제 의료 졸업생 비율을 제외하고 사전 CBAS와 사후 CBAS 코호트가 유사했다.

The basic demographic characteristics of the residents (Table 1) were similar between the pre-CBAS and post-CBAS cohorts with the exception of the proportion of international medical graduates.


종합평가에 있어 깃발을 받은 전공의의  비율의 차이는 표 2에 제시되어 있다.

Differences in the percentage of residents receiving flags on summative assessments are presented in Table 2.


표 3은 주어진 전체 정의에 따라 resident in difficulty 기준을 충족하는 각 코호트 내 전공의 비율 변화를 보고한다.

Table 3 reports changes in the proportions of residents within each cohort who met the criteria for designationas a resident indifficulty, according tothe definitions given.


또한 평가 플래그가 전공의와  함께 해결되었다는 증빙 자료(그림)의 빈도로 CBAS 전 훈련과 사후 CBAS 훈련 간의 변화를 분석하였다.

We also analyzed changes between pre-CBAS training and post-CBAS training in the frequency of evidence of documentation that a flag on an assessment had been addressed with the resident (Figure).










고찰

Discussion

이러한 연구 결과는 CBME로의 전환을 위한 정당성을 보여주며, 특히 CBME가 전통적인 의료 교육보다 개선되었다는 증거의 필요성에 대해 과거 문헌에서 제기된 몇 가지 질문에 답하기 시작한다. CBME로 전환하기 전 프로그램에 사용된 기존의 평가 방식과 비교했을 때, 역량 기반 평가는 훈련에 어려움이 있는 레지던트를 더 잘 식별하였으며, 어떻게 전공의에 대한 concern이 해결되었는지에 대한 향상을 보여주었다.

These findings begin to answer some of the questions raised in the literature about justification for the shift to CBME,8-14 specifically, the need for evidence that CBME is an improvement over traditional medical education. Compared with the traditional assessment approach used in our program before the switch to CBME, competency-based assessment was associated with better identification of residents who encountered difficulties in training and improvement in how concerns about resident competence were addressed.


CBAS를 시행한 이후, 총괄평가에서 최소 1개의 플래그를 받는 레지던트의 비율이 크게 감소했다.

Since implementation of CBAS, there has been a significant decrease in the proportion of residents receiving at least 1 flag on a summative assessment.


여러 개의 flag을 받은 레지던트 비율이 크게 감소했다.

There were large decreases in the proportion of residents who were receiving multiple flags.


복수의 개별 로테이션에서의 flag 감소 및 어려움에 처한 레지던트로 판정되는 레지던트 비율 감소 사이에 잠재적 연관성이 발견되었다. 비록 1개의 로테이션에서 flag를 받은 레지던트 비율은 변화가 없었지만, 2개 이상의 로테이션에서 flag를 받은 레지던트의 비율은 2012년 1명을 제외하고 약 0%로 감소했다.

A potential association was found between the decrease in flags on multiple discrete rotations and the reduction in the proportions of residents who met criteria for resident in difficulty. Although the proportion of residents who received a flagged assessment from1 rotation remained stable across the study period, the proportion of residents who received a flag on assessments from more than 2 rotations decreased to approximately 0%with the exception of 1 resident in the 2012-2014 cohort.


CBAS 방식의 접근법이 전공의에 대한 더 나은 support와 관련되어있을 가능성을 보여두는 또 다른 것은 역량 부족으로 flag된 전공의가 추가적인 support를 받았다는 것이다. 이는 총괄평가에서의 flag로 나타난 경우에 레지던트와의 토론이 더 늘어났다는 것이다. 학습자가 difficulty를 겪는 것으로 확인되면, 이는 학습자와 함께 논의되어야 하나, 이러한 코칭은 facilitated될 필요가 있다. CBAS 이전에는 1개 이상의 flag를 받은 거주자 중에서 35%~40%는 전공의파일에 flag가 해결되었다거나 전공의와 논의되었다는 증거가 없었다(그림).

The likelihood that the CBAS approach to assessment is associated with better support of residents who are flagged for deficiencies in competence is further supported by the finding of an increase in documentation showing that flags on summative assessments were discussed with the resident. Identified difficulties should be discussed with learners, but such coaching needs to be facilitated. Before CBAS, 35%to 40%of the residents who received 1 or more flags had no evidence in their files that the flag had been addressed or discussed with them(Figure).


전반적으로, 본 연구는 CBAS와 같은 역량 기반 평가 프레임워크가, 역량 gap을 가진 레지던트를 더 잘 식별함을 보여준다. 또한 CBAS는 격차가 확인된 경우, 그것을 해소하고 개선하기 위해 레지던트에 대해 더 나은 서포트를 제공하는 것과 관련이 있는 것으로 보인다. 이 레지던트 프로그램의 기존 평가 접근방식은 전공의가 어려움을 겪고 있는 때를 식별하기 위한 프로세스를 마련했지만, 총괄평가가 일상적인 관찰observation과 단절되었기 때문에 그러한 시스템이 효과적이지 않았던 것으로 보인다. 어려움을 겪고 있는 레지던트를 식별하는 데 실패하는 것은 이 전공의 프로그램에만 국한되지 않습니다. 오히려, 이러한 문제는 의학교육의 여러 평가 방식에서 확인되었으며 CBME로의 변화를 정당화하는 핵심 중 하나입니다.

Overall, this study suggests that a competency-based assessment framework such as CBAS is associated with better identification of residents who have competence gaps. Furthermore, CBAS appears to be associated with better support for residents to address and ameliorate identified gaps. Although the previous assessment approach in this residency program had processes in place that were intended to identify when residents were struggling, the system was ineffective, perhaps because summative assessments were disconnected from daily observations. This failure to identify struggling residents is not unique to this one residency program; rather, this problem has been identified across multiple assessment approaches in medical education and is one of the key justifications for moving to CBME.1,15-17


이러한 연구결과는 평가절차의 개선의 결과로 기각될 수 있다. 그러나, CBME 문화에서의 평가는 반드시 달라야 하며, CBAS 접근법은 조사된 거주 프로그램의 평가에 대한 이전의 접근방식과 근본적으로 다르다. 회전의 끝을 포착하는 데 초점을 맞춘 평가와 달리, CBAS 도구, 양식 및 프로세스는 임상 코치와 공유하는 형태적 피드백의 대표 표본을 포함하여 임상 경험 전반에 걸쳐 역량을 향한 진행의 증거를 포착한다. 이러한 저평가들은 학습을 반영하고 육성할 수 있다.

It would be possible to dismiss these findings as being a result of improving processes of assessment. However, assessment in a CBME culture must be different,17,21,37-40 and the CBAS approach is fundamentally different from the previous approach to assessment in the residency program examined. In contrast to assessment that focused on capturing end of rotation judgements, the CBAS tools, forms, and processes capture evidence of progress toward competence across clinical experiences, including a representative sampling of the formative feedback shared by the clinical coaches who work with the resident. These low-stakes assessments may reflect and foster learning.


역량에 대한 총괄평가는 정기적으로 이루어진다. 고부담 ITER은 매 로테이션 종료시 완료됩니다. 고부담의 정기 발달상황 점검은 4개월마다 이루어집니다(이전에는 6개월마다). CBAS 이후의 차이점은 정기 진행상황 검토를 할 때, [현재 역량 향상의 진행]에 대하여, 전공의가 자기성찰을 문서화한 후, 교수 어드바이저(역량 코치)와 전공가 함께 토론하게 된다는 것이다. 이 때, CBAS에서 수집된 저부담평가를 guided self assessment의 기반근거로 사용한다.

Summative assessments of progress toward competence occur regularly. High stakes in training evaluation reports are completed at the end of every rotation. High-stakes periodic progress reviews occur every 4 months (previously every 6 months). The difference after CBAS is that the periodic progress review is now a shared process in which resident self-reflections on progress toward competence are documented and then discussed between the faculty advisor (competence coach) and the resident, with the low-stakes assessments collected in CBAS used as the evidence base for guided self-assessment.41


CBAS 프레임워크의 평가의 투명성과 형성평가의 정기적 제공이라는 특징은 어려움을 겪는 전공의를 조기에 식별할 수 있는 문화를 만들어냈다. 이러한 문화에 기여하는 두 가지 요소는 다음과 같습니다. 

  • 량 향상의 진행에 대한 문서화된 증거의 확산(강점과 약점을 모두 식별할 수 있음) 

  • 레지던트의 학습에 대한 정기적인 토론 

레지던트가 최고의 의사가 될 수 있도록 지원하는 문화에서, flag와 같은 격차를 해소하는 것은 낙인을 찍는 것처럼 느껴질 가능성이 낮다. 

The transparent nature of assessment in the CBAS framework, as well as the regular provision of formative feedback, has created a culture in which residents in difficulty can be identified early. Two factors contribute to this culture: the proliferation of documented evidence of progress toward competence (which can identify both strengths and gaps) and the regular discussion of the resident’s learning. Addressing a gap, such as a flag, is less stigmatizing in a culture in which supporting residents to be the best physicians that they can be is the focus of assessment. 


총괄평가에서 전공의를 flagging하는 과정은 바뀌지 않았다. CBAS 도입 후에도, flag는 여전히 레지던트가 역량을 입증하지 못한 1개 이상의 주제가 있음을 의미한다. CBAS전후의 차이점은, 도입 후에는 [역량에 대한 우려]를 종종 로테이션 중에 레지던트와 논의한다는 것이다. 이는, 많은 경우에, 레지던트의 부족한 부분이 로테이션 종료 시에 이뤄지는 총괄평가 전에 해결됨을 의미한다.

The process of flagging a resident on a summative assessment has not changed: before and after CBAS, a flag means that there are 1 or more topics on which a resident has not demonstrated competence. The difference is that concerns about competence are often discussed with the resident throughout a clinical experience, which means that in many cases, deficiencies are remedied before the final summative assessment at the end of the rotation.



Limitations


Conclusions


이 다년간의 역량 기반 평가 및 전통적인 평가 구현의 비교에서 얻은 결과는 CBME의 개념 증명(Proof of Concept)을 지원합니다. 평가의 초점을 

  • 직접적인 관찰에 대한 강조 

  • 문서화 증가

  • 학습을 위한 평가 

에 두는 것은 [1개 이상의 역량이 부족한 학습자를 발견하고], [그 부족을 어떻게 해결할 것인가]와 관련이 있다

The findings from this multiyear comparison of implementation of competency-based assessment and traditional assessment support a proof of concept for CBME. Changing the focus of assessment to an emphasis on direct observation, increased documentation, and assessment for learning may be associated with improved identification of learners who are deficient in 1 or more competency and with how those deficiencies are addressed.







Association of a Competency-Based Assessment System With Identification of and Support for Medical Residents in Difficulty

JAMA Netw Open. 2018;1(7):e184581. doi:10.1001/jamanetworkopen.2018.4581
Key Points

Question  Is competency-based assessment associated with changes in rates of identification of and support for residents in difficulty compared with traditional assessment?

Findings  In this cohort study of 458 Canadian medical residents, there were significant reductions in the proportions of residents receiving flagged assessments on multiple rotations, reductions in proportions of residents defined as being in difficulty, and increases in documented evidence identifying that gaps were discussed with the resident following introduction of a competency-based assessment program.

Meaning  Competency-based assessment may contribute to better identification of and support for residents in difficulty.

Abstract

Importance  Competency-based medical education is now established in health professions training. However, critics stress that there is a lack of published outcomes for competency-based medical education or competency-based assessment tools.

Objective  To determine whether competency-based assessment is associated with better identification of and support for residents in difficulty.

Design, Setting, and Participants  This cohort study of secondary data from archived files on 458 family medicine residents (2006-2008 and 2010-2016) was conducted between July 5, 2016, and March 2, 2018, using a large, urban family medicine residency program in Canada.

Exposures  Introduction of the Competency-Based Achievement System (CBAS).

Main Outcomes and Measures  Proportion of residents (1) with at least 1 performance or professionalism flag, (2) receiving flags on multiple distinct rotations, (3) classified as in difficulty, and (4) with flags addressed by the residency program.

Results  Files from 458 residents were reviewed (pre-CBAS: n = 163; 81 [49.7%] women; 90 [55.2%] aged >30 years; 105 [64.4%] Canadian medical graduates; post-CBAS: n = 295; 144 [48.8%] women; 128 [43.4%] aged >30 years; 243 [82.4%] Canadian medical graduates). A significant reduction in the proportion of residents receiving at least 1 flag during training after CBAS implementation was observed (0.38; 95% CI, 0.377-0.383), as well as a significant decrease in the numbers of distinct rotations during which residents received flags on summative assessments (0.24; 95% CI, 0.237-0.243). There was a decrease in the number of residents in difficulty after CBAS (from 0.13 [95% CI, 0.128-0.132] to 0.17 [95% CI, 0.168-0.172]) depending on the strictness of criteria defining a resident in difficulty. Furthermore, there was a significant increase in narrative documentation that a flag was discussed with the resident between the pre-CBAS and post-CBAS conditions (0.18; 95% CI, 0.178-0.183).

Conclusions and Relevance  The CBAS approach to assessment appeared to be associated with better identification of residents in difficulty, facilitating the program’s ability to address learners’ deficiencies in competence. After implementation of CBAS, residents experiencing challenges were better supported and their deficiencies did not recur on later rotations. A key argument for shifting to competency-based medical education is to change assessment approaches; these findings suggest that competency-based assessment may be useful.


WBA: 사용자인식과 단점 극복을 위한 전략(Adv in Health Sci Educ, 2015)

Workplace-based assessment: a review of user perceptions and strategies to address the identified shortcomings

Jonathan Massie1 • Jason M. Ali2




도입

Introduction


WBA(작업장 기반 평가) 도구는 근무지 내에서 객관적으로 임상 기술을 평가하여 밀러 피라미드(Miller 1990)의 상위 계층을 평가할 수 있는 수단을 제공하도록 설계되었습니다. '작업장 기반 평가'라는 용어는 많은 도구를 포함한다(표 1).

workplace-based assessments (WBAs). These tools were designed to provide a means of assessing clinical skills objectively, within the workplace, permitting assessment of the top tiers of Millers Pyramid (Miller 1990). The term ‘workplace-based assessment’ describes a number of tools (Table 1),



최근 몇 년 동안 의료 분야의 WBA 활용이 상당히 다양하다는 사실이 밝혀졌습니다. 그러나 또한 WBA 도구는 의도한 대로 사용되지 않았다. 특히, 그들은 형성평가보다는 총괄평가 목적으로 사용되었고, 훈련생들은 WBA를 단순한 장애물로 보았다(Bindal et al. 2011).

Over recent years there has been a realisation that engagement with WBAs in the medical workplace varies significantly, and that WBA tools are not being used as intended—in particular that they have been adopted as summative rather than formative assessments and trainees see them as simply hurdles (Bindal et al. 2011).


한 WBA에 대한 교육자 및 trainer 인식 조사(Fokema et al. 2014)에서는 

examining trainee and trainer perceptions towards WBAs (Fokkema et al. 2014).


'WBA는 교육이 어떠해야 하는지에 대한 나의 생각과 일치하다'는 것에 동의한 viewpoint가 하나도 없었음은 흥미롭다.

It was interesting to note that none of the viewpoints agreed that ‘WBAs tally with my own ideas about what education should be like’.


방법론

Methodology


문헌 고찰

The literature relating to WBAs was reviewed to identify studies examining trainee and trainer perceptions towards WBA tools.


결과

Results


WBA가 PGME에서 더 중요한 기능을 제공하므로, 사용자 수용성이 중요하다는 것을 인식하는 것이 중요하다. 학습 및 평가 도구는 모든 당사자가 완전히 engage해야만 성공할 수 있습니다. 따라서 이러한 평가를 평가할 때 사용자 인식을 이해하는 것이 중요하다.

With WBAs featuring more prominently in postgraduate medical training, it is important to recognise that acceptability to users is essential. Learning and assessment tools will only be successful when all parties fully engage. Therefore, understanding user perceptions is critical when evaluating these assessments.


Trainee의 관점

The trainee’s perspective


교육 및 전문성 개발에 대한 가치

Value to training and professional development


WBA 도구는 학습을 용이하게 하고 임상 성능을 향상시키는 것을 목표로 한다. 연수생들이 WBA 도구가 이러한 목표를 얼마나 달성했다고 느끼는지를 조사한 몇 가지 연구가 있었다. 2010년 Miller와 Archer의 포괄적인 리뷰에서 MSF만이 연수생 성과 개선에 있어 효과적이라는 설득력 있는 증거를 가지고 있다는 것이 밝혀졌습니다(Miller and Archer 2010). 그러나 이 논문은 WBA가 의도한 영향을 미치지 않았다는 우려를 강조했다.

WBA tools aim to facilitate learning and improve clinical performance. There have been several studies examining the extent to which trainees feel WBA tools achieve these goals. A comprehensive review of this literature by Miller and Archer in 2010 revealed that only multi-source feedback had convincing evidence of effectiveness in improving trainee performance (Miller and Archer 2010). This paper though, highlighted concerns that WBAs were not having their intended impact.


WBAs as ‘assessments’


WBA를 둘러싼 중요한 논쟁이 생기는 분야는 '평가'라는 단어에 초점을 맞추고 있다. WBA 도구는 주로 총괄평가보다는 형성평가를 목적으로 만들어졌다. (2011년 이전, 일반 의료 위원회 2010년) 그러나 훈련생들은 그들의 발달과정과 잠재적 약점보다는 성공적인 업적만을 기록하기를 바란다. (Jenkins et al. 2013) 이는 WBA의 주된 목적이 연습생에게 성찰과 지속적인 학습을 유도하기 위해 구조화된 피드백을 제공하는 것임을 고려할 때 문제를 야기한다. 안타깝게도, 훈련생들 사이에는 [여전히 자신들에게는 등급과 순위가 매겨지고 있다]는 인식이 있고, 이것은 engagement에 부정적인 영향을 주었다. (Nesbitt et al. 2013)

A significant area of contention surrounding WBAs has centred on the word ‘assessment’. WBA tools have predominantly been intended as formative, rather than summative, assessments (Beard 2011; General Medical Council 2010). Trainees though, desire only their successful achievements to be documented rather than their progression and potential weaknesses (Jenkins et al. 2013). This creates a challenge when the primary purpose is to provide the trainee with structured feedback to drive reflection and continued learning. Unfortunately, there is still a feeling amongst trainees that they are being graded and ranked and this has negatively impacted on their engagement (Nesbitt et al. 2013).


WBA가 성능에 대한 총괄평가라는 우려로 인해 다음과 같은 결과가 초래되었다고 합니다.

The concern that WBAs are summative assessments of their performance, has reportedly resulted in:


• CBD를 할 때, 성과가 좋지 않거나 복잡도가 높은 사례에 대한 논의를 회피(Mehta et al. 2013; Sabey and Harris 2011)

• signed off에 필요한 최소 요건만을 채움(Powell et al. 2014)

• 평가에 대한 스트레스가 퍼포먼스에 영향을 미치고, staged environment를 생성(Cohen et al. 2009; Tsagkataki 및 Choudhary 2013)

• Trainer는 더 유용한 구두 및 서면 피드백을 사용하는 대신 체크박스만 사용 (Sabey 및 Harris 2011).

• 더 좋은 '점수'를 기대하며 '친절한' 평가자만을 찾는 훈련생(McKavanagh et al. 2012; Rees et al. 2014; Simmons 2013)


• Trainees avoiding discussion of cases with poor outcomes or a high degree of complexity as part of case-based discussion (Mehta et al. 2013; Sabey and Harris 2011)

• Trainees undertaking the minimum required to be signed off (Powell et al. 2014)

• Stress surrounding the assessments, impacting on performance and generating a staged environment (Cohen et al. 2009; Tsagkataki and Choudhary 2013)

• Trainers focussing on the tick-box ratings, at the expense of the more useful verbal and written feedback (Sabey and Harris 2011)

• Trainees seeking ‘friendly’ assessors, hoping for a more positive ‘mark’ (McKavanagh et al. 2012; Rees et al. 2014; Simmons 2013)


WBA engagement에 영향을 미친다고 trainee가 지적한 요인들

Factors trainees report to impact on their engagement with WBAs


WBA에 대한 부정적 감정이 의료계에 만연해 있는 것은 분명하다. 이러한 측면에서, 몇몇 연구는 그런 문제를 해결하고자 훈련생들이 어떤 것이 주요 문제라고 생각하는지 알아내는 것을 목표로 삼았다. 이러한 연구에서 시간 제약이 지배적인 문제임이 반복적으로 드러난다.

It is clear that negative feelings towards WBAs are prevalent in the medical workplace. To extend this observation, several studies have aimed to identify what trainees view as being the major problems, in order that they can be addressed. These studies repeatedly identify time constraints as being a dominant concern.


시간이 부족한 결과 WBA의 우선순위가 떨어지는 간주되는 경우가 많으며, 그 결과 보고된 도구의 misuse가 일어난다(Ali 2013; Bindal et al. 2011). 이는 매년 WBA의 수를 늘려야 하는 교육 기관(Pentlow 2013)에 의해 더욱 문제가 가중된다.

As a result, WBAs are often seen as a low priority and this contributes to the misuse of the tools that has been widely reported (Ali 2013; Bindal et al. 2011). This is only further confounded by training bodies requiring increasing numbers of WBAs to be completed each year (Pentlow 2013).


또 다른 자주 제기되는 우려사항은 일반적으로 훈련생들이 평가자을 스스로 선택해야 함에도 불구하고, 평가자가 WBA에 대해 참여 및 이해가 부족한 것이다. Trainee가 평가자를 선택하는 것은 훈련생에게 자신의 학습에 대한 책임을 지도록 하는 동시에, trainer에게는 상당한 관리 부담을 덜어준다. 그럼에도 불구하고 평가자는 일반적으로 현재 속해있는 임상 팀의 시니어 의사 및 컨설턴트로 구성되며, 임상 성과에 대한 피드백을 제공하는 데 적합한 직속 임상 감독자는 배제되곤 한다.

Another frequently reported concern is poor assessor engagement and understanding of WBAs, despite the fact that trainees are usually required to self-select their assessors. Trainee selection of assessors serves both to empower trainees to take responsibility for their own learning, but also removes a significant administrative burden from the trainers. Nevertheless, assessors would typically comprise the senior doctors and consultants on their current clinical team—their direct clinical supervisors who should be in a good position to offer feedback on clinical performance.


물론 컨설턴트 시간은 소중하다는 인식이 있고, 바쁜 임상 환경 훈련에서는 (WBA는) 불행하게도 부차적인 것이 되는데, 이는 열의 부족으로 오해될 수 있습니다. 그러나, 이러한 보고서는 상당수의 훈련생들이 느끼기에 평가자가 WBA에 대해 지식과 이해가 불완전한 것으로 느낀다는 것을 암시한다.

Of course, there is recognition that consultant time is valuable, and that in the busy clinical environment training, unfortunately, takes second priority at times—which may be misconceived as a lack of enthusiasm. However, these reports go further to suggest that a significant number of trainees feel their assessors have an incomplete knowledge and understanding of WBAs, which underlies this lack of engagement.


이는 WBA가 도입된 지 몇 년이 지났음에도, 훈련생들이 보기에는 WBA에 대해 충분히 이해하지 못한다고 느끼는 트레이너가 여전히 상당히 많다는 것을 강조한다. 훈련생들이 전반적으로 그들의 평가자를 선택할 책임이 있기 때문에 이것은 매우 중요한 문제가 된다.

This highlights that even several years following the introduction of WBAs, despite becoming commonplace, there are still a significant number of trainers who trainees feel lack sufficient understanding of WBAs. This is of importance since trainees, on the whole, have the responsibility of selecting their assessors.


이미 오래 전부터 훈련생과 심사원 사이의 관계가 평가의 타당성에 상당한 영향을 미칠 수 있다는 것이 인식되었다(Holmboe 2004; Norcini 2003). 또한 이러한 WBA도구가 도입될 경우, 'leniency bias'로 인해 어려움을 겪고 있는 교육자를 식별하는 데 영향을 미칠 수 있습니다(Mitchell et al. 2011).

it has long been recognised that the relationship between trainee and assessor can have a significant impact on the validity of the assessment, (Holmboe 2004; Norcini 2003) and potentially impact on the ability of these tools to identify struggling trainees, due to the leniency bias introduced (Mitchell et al. 2011).


훈련생들이 갖는 또 다른 우려는, 수련 과정에서 WBA와 어떻게 그것들을 최대한 활용할 수 있는지에 대한 공식적인 훈련이 부족한 것에 있다. 간단히 말해서, 연수생들은 전반적으로 WBA를 완전히 이해하지 못한다. 논의된 바와 같이, 많은 이들은 예를 들어 WBA가 형성적 의도를 갖는다고 인식하지 않는다. WBA가 성공적인 구현되려면 'WBA에 대한 공식적인 교육' 핵심임이 강조된 바 있고(Saedon et al. 2010), 이는 사용자에 의해 입증되었다(Rauf et al. 2011). 그럼에도 불구하고, 의사들에 대한 최근의 연구는 10%만이 WBA 도구 사용에 대한 공식적인 교육을 받았다고 밝혔다. (Weston과 Smith 2014)

A further concern of trainees, likely to impact upon their engagement with WBAs, is a lack of formal training in the educational basis of WBAs, and how to get the most out of them. In simple terms trainees on the whole do not fully understand WBAs. As discussed, many do not recognise their formative intent for example. It has previously been highlighted that formal training in the use of WBAs is key to their successful implementation (Saedon et al. 2010), and this has been corroborated by users (Rauf et al. 2011). Despite this, a recent study of Foundation doctors revealed that just 10 % had received any formal training in the use of WBA tools (Weston and Smith 2014).


이러한 우려로 인해 많은 훈련생들은 WBA가 단순히 훈련 진행에 필요한 '허들' 또는 '체크박스'으로 간주되고 있으며, 이는 WBA 도구가 잘못 사용되는 결과를 초래한다. 예를 들어, 훈련생들은 어떤 것에 대해 평가를 받을 때, 그 전 과정에 대해 observed 되지 않았다거나, 심지어는 전혀 observed받지 않았음을 인정한다(McKavanagh et al. 2014; Nesbitt et al. 2012; Nesbitt et al). 분명히 이러한 상황에서는 WBA가 제공하는 학습 기회는 상실된다.

Together, these concerns result in many trainees seeing WBAs as simply ‘hurdles’ or ‘tick-box exercises’ required to progress in their training, and results in WBA tools being misused. For example, trainees frequently admit to not being observed for the whole duration or, in some cases, any of the clinical activity they are being assessed on (McKavanagh et al. 2012; Nesbitt et al. 2013; Rees et al. 2014; Sabey and Harris 2011; Tailor et al. 2014). Clearly, the learning opportunity afforded by WBAs is lost in these circumstances.


트레이너의 관점

The trainer’s perspective


평가자들이 WBA를 수행하는 방식은 학습, 그리고 잠재적으로 연수생들의 지속적인 참여에 중대한 영향을 미칠 것이다(Sabey and Harris 2011).

The manner in which assessors conduct WBAs will have a critical impact on the learning that occurs and potentially the on-going engagement of trainees (Sabey and Harris 2011).


WBA에 대한 지식 및 이해 

Trainer knowledge and understanding of WBAs


WBA의 목적을 이해하는 것이 성공의 핵심이다. 훈련생들이 WBA에 대한 이해가 부족한 것은 분명하며, trainee는 또한 그들의 평가자들도 마찬가지라고 인식한다.

Understanding the purpose of WBAs is central to their success. It is clear that trainee understanding of WBAs is lacking, and their perception is that this is also the case for their assessors.


따라서 현재 영국에서 GME 과정에 WBA가 설립되고 있지만, 컨설턴트 트레이너 중 상당수가 관련 교육을 받지 않았다고 계속 보고하고 있으며 이는 WBA 수행 방식에 분명한 영향을 미칠 것이다.

Thus it is apparent that despite WBAs now being established in postgraduate training in the UK, a sizeable proportion of consultant trainers continue to report not having received relevant training which clearly will have an impact on how they conduct WBAs.


교육에 대한 WBA의 가치에 대한 이해

Trainer perceptions of WBA value to training


영국의 국가 단위 조사는 훈련생과 평가관의 참여에 관한 문제에 대한 강사들의 생각을 조사하기 위해 더 나아가고 있다.

The UK national trainer survey went further to examine trainer thoughts on the problems with trainee and assessor engagement.


(Bodle et al. 2008). 특히, 이 연구에서는 훈련생 중 90%가 WBA를 시행한 결과 수술 능력이 향상되었다고 믿었고, 이는 훈련생과 트레이너 사이의 WBA 가치에 대한 인식의 차이를 부각시켰다.

(Bodle et al. 2008). Notably, in this study, 90 % of trainees believed that their surgical skills had improved as a consequence of undertaking WBAs, highlighting a potential disparity between trainee and trainer perceptions towards WBA value.


WBA 과정에 대한 잠재적인 회의론에도 불구하고, trainer들은 WBA를 타당한 평가 툴로 인식하는 것으로 보인다.

Despite potential scepticism towards the process of WBAs, trainers do appear to perceive WBAs as being valid assessment tools.


실제로 트레이니와 트레이너의 인식을 동시에 검토하는 몇 가지 연구에서 증명되었듯이, 트레이너는 훈련생보다 이 점에 있어서 더 긍정적인 시각을 가지고 있는 것처럼 보인다.

Indeed, trainers do appear to hold more positive views in this regard than trainees, as evidenced in the few studies examining trainee and trainer perceptions simultaneously.


비록 트레이너들이 WBA의 타당성에 대해 확신을 갖고 있지만, 흥미로운 점은 일부 컨설턴트들이 훈련생들의 progression에 미칠 영향을 우려하여 훈련생들의 점수를 낮게 주는 것을 꺼리고 있는 것처럼 보인다 것이다.

Although trainers feel confident in the validity of WBAs it is interesting to note studies highlighting that some consultants appear unwilling to score trainees poorly for fear of the impact this will have on the trainees progression (Royal College of Physicians 2014).


고찰

Discussion


이 리뷰에서 보고된 문헌은 WBA에 대한 사용자의 현재 인식에 대해 비관적인 견해를 제시하며, 많은 사람들이 WBA의 타당성과 가치에 대해 의문을 제기한다. 훈련자는 

  • 시간 부족, 

  • 평가자 참여 불량, 

  • WBA 목표에 대한 평가자의 불충분한 이해, 

  • 품질 불량 피드백 

  • WBA 방법론의 교육 부족

...을 부정적인 기본 요소로 식별한다. 

The literature reported in this review presents a bleak view of current user perceptions towards WBAs, with many questioning their validity and worth. 

Trainees identify 

  • a lack of time, 

  • poor assessor engagement, 

  • poor understanding of assessors towards the aims of WBAs, 

  • poor quality feedback and 

  • their own lack of training in WBA methodology as principal factors underlying their negativity. 

비록 트레이너들이 WBA에 대해 긍정적인 경향이 있지만, 이는 보편적이지 않으며, 마찬가지로 가용 시간의 중요성을 강조하면서도, WBA의 성공을 가로막는 중요한 요소로 훈련생들의 disengagement을 강조한다. 어떤 면에서 이러한 결과는 MSF와는 달리, WBA 도구는 임상 성과에 의도한 영향을 미치지 않았다고 결론 내렸던 Miller와 Archers의 체계적인 검토 결과를 보완한다(Miller and Archer 2010).

Although trainers tend to be more positive towards WBAs, this is not universal and they similarly highlight available time, but also trainee disengagement as important factors hindering the success of WBAs. In some ways, these results complement the findings of Miller and Archers systematic review which concluded that apart from multi-source feedback, WBA tools were not having their intended impact on clinical performance (Miller and Archer 2010).


지금까지 논의한 바로는 의료계에는 복잡한 전문적 행동의 평가하고자 환원적 '체크리스트'식 접근법을 사용하는 것에 대해 '매우 의심스럽다'고 한다. 또한 WBA에 대한 '널리 퍼진 냉소'가 있다. 이로 인해 WBA가 많은 곳에서 오용되고, 많은 이들이 WBA를 그저 훈련 진행에 있어 불편한 '체크박스'로 간주하게 되었다. 또한 WBA 도구는 의도했던 대로 작동하지 않습니다. 이런 이유로, 영국의 GME 프로그램에 대한 공식적인 검토 보고서는, 특히 WBA가 긴급히 해결해야 할 문제임을 강조한다(Collins 2010; Hiorut 2005).

from the discussion thus far it is clear that the medical profession remains ‘rightly suspicious of the use of reductive ‘tick-box’ approaches to assess the complexities of professional behaviour’ and that there is ‘widespread cynicism’ towards WBAs (Academy of Medical Royal Colleges 2009). This has resulted in WBAs being widely misused and regarded by many as merely an inconvenient ‘tick-box’ to progress in their training. In the workplace these tools are not performing as was intended. In agreement, reports following formal review of postgraduate training programmes in the UK specifically highlight WBAs to be a problem that needs to be urgently addressed (Collins 2010; Eraut 2005).


WBA에 대한 trainee 경험 개선하기

Improving trainee experience of WBAs


(Table 3).

Table 3 A list of strategies to improve trainee engagement

Trainee Engagement 향상 전략

Strategies to improve trainee engagement with WBAs

  • '감독하의 학습 이벤트'로 이름을 변경하여 WBA의 목적 명확화

  • WBA에 대한 노출을 의과대학 커리큘럼의 필수 구성요소로 함

  • WBA에 대한 지속적인 이해를 보장하기 위한 교육자 대상 반복 훈련

  • 평가자를 위한 필수 교육, 아마도 인증 필요할지도.

  • 컨설턴트 계약에 교육 시간 포함

  • 태블릿/스마트폰 애플리케이션을 통해 WBA 양식에 대한 접근성 향상

  • 평가자가 피드백을 제공하는 기술에 익숙해지도록 보장

  • Clarifying the purpose of WBA by renaming as ‘Supervised Learning Events’

  • Exposure to WBAs a mandatory component of medical school curricula

  • Repeated training of trainees to ensure ongoing understanding of WBA

  • Mandatory training for assessors, perhaps requiring certification

  • Building training time into consultant contracts

  • Improving accessibility to WBA forms with tablet/smartphone applications

  • Ensuring assessors are versed in the art of giving feedback


WBA의 목적 명확화

Clarifying the purpose of WBAs


첫째, WBA 방법론의 중요성이 강조되었다. (Academy Royal Colleges 2009; General Medical Council 2010) 이는 심사원들에게도 적용된다. 그러나 그러한 훈련에 임상의사를 참여시키는 것은 어려운 일일 수 있다.

Firstly, the importance of training in WBA methodology has been highlighted (Academy of Medical Royal Colleges 2009; General Medical Council 2010). This also applies to assessors. However, engaging clinicians in such training can prove to be a challenge.


이와 관련하여, 의과대학에서 특히 형성적 도구로서 의대생들의 WBA 도구에 대한 노출을 증가시킬 수 있다. 이것은 학생들이 직장-기반 학습에 참여하도록 촉진할 뿐만 아니라, 교실에서 학습된 임상 지식의 재-맥락화를 촉진할 것이다(Van Oers 1998). 이러한 조기 참여는 그들의 훈련에 계속될 WBA에 대한 긍정적인 인식을 확립하게 유도할 있다.

A related suggestion is to increase exposure of medical students to WBA tools during medical school, particularly as formative tools. Not only will this promote engagement of students with workplace-based learning, it will facilitate the re-contextualisation of clinical knowledge learnt in the classroom (Van Oers 1998). This early engagement, may permit establishment of positive perceptions towards WBAs that will continue into their training.


두 번째 접근 방식은 WBA 도구의 용도를 강조하기 위해 이름을 바꾸는 것을 고려하는 것이다. GMC는 형성적 피드백을 제공하도록 설계된 도구에 대해 감독적 학습 이벤트(SLE)라는 이름을, 총괄적 도구에게는 AoL이라는 이름을 제안했다(General Medical Council 2010). '평가'라는 단어를 삭제하고 '학습'을 도입하는 것은 도구의 형태적 의도를 명확하게 해줄 것으로 생각된다.

The second approach is to consider re-branding WBA tools to emphasise their purpose. The GMC have proposed adoption of new nomenclature: supervised learning events (SLEs) for tools designed to provide formative feedback, and assessments of learning (AoL) for summative tools (General Medical Council 2010; Kessel et al. 2012). It is felt that removing the word ‘assessment’ and introducing ‘learning’ will explicitly clarify the formative intent of the tools.


SLE에는 학습적 기능에 대한 강조가 이미 주입되어 있으므로, '이제 갓 면허를 취득한' 의사들에게 SLE를 도입한다면, 그들이 나중에 WBA를 만나더라도 좀더 긍정적인 태도를 가질 수 있다. 고무적인 초기 징후는 SLE가 사용자로부터 더 높은 수준의 지원을 받는다는 것이다(Ree et al. 2014; Cho et al. 2014). 그러나 변화의 속도가 빨라지자 사용자, 특히 트레이너들이 혼란스러워하기 시작한다는 증거도 있으며, 이로 인해 선의가 위험에 빠질 수도 있다(최종 외 2014).

Introducing SLEs to ‘just-qualified’ doctors may also engender a more positive attitude when encountering WBAs later in their training, since emphasis on their learning functions have already been instilled. Encouragingly, early signs are that SLEs have a higher level of support from users (Rees et al. 2014; Cho et al. 2014). However there is also evidence that the fast pace of change is beginning to confuse users, particularly trainers, which may place this goodwill in jeopardy (Cho et al. 2014).


시간 문제 관리

Managing the problem of time


여전히 연습생과 트레이너 모두에게 WBA와의 완전한 참여를 위해 가장 자주 언급되는 문제는 가용 시간 부족입니다. 이와 관련하여 WBA가 전체적으로 치과 교육생에 의해 긍정적으로 받아들여졌다는 점이 주목할 만하다(Griveson et al. 2011; Kirton et al. 2013).

Lack of available time remains the most frequently quoted challenge to full engagement with WBAs, by both trainees and trainers. In this regard it is notable that WBAs have been, on the whole, positively received by dental trainees (Grieveson et al. 2011; Kirton et al. 2013).


시간 부족의 결과로 나타나는 흔한 시나리오는, 평가자가 임상 작업을 관찰하지만 (서면 피드백이 있는) 양식이 종종, 몇 달 후에 작성되고, 이 때는 사건에 대해 충분히 기억을 기대하기 어렵게 되므로, 그것의 타당도에 의심을 갖게 된다. 또한, 이러한 상황에서 trainee는 평가자에게 문서화를 독촉해야 하게 되므로, 훈련자와 trainer 사이의 관계에도 부담이 될 수 있다(Rees et al. 2014).

A scenario commonly reported to be a consequence of the lack of time, is that a clinical task is observed by an assessor but forms (with written feedback) are completed, sometimes, months later, when it is difficult to expect reliable recollection of the event sufficient to provide feedback, questioning its validity (Basu et al. 2013; Bindal et al. 2013; Tailor et al. 2014). This may also strain the relationship between trainee and trainer as the trainee is made to pursue the trainer for documentation (Rees et al. 2014).


Addressing the quality of feedback provided


WBA에 따라오는 피드백의 품질은 일부 세부적으로 검토되었으며, 많은 저자들의 결론은 제공된 피드백이 목적에 맞지 않으며 심지어 동기 감소와 같은 훈련생들에게 해로운 결과를 초래할 수 있다는 것이다.

The quality of feedback provided as part of WBAs has been examined in some detail and the conclusion of many authors is that the feedback provided is not fit for purpose, and may even have detrimental consequences on trainees such as decreasing their motivation (Hattie and Timperley 2007; Saedon et al. 2012).


평가관이 WBA를 이수하는 과정에서, 그리고 특히 효과적인 피드백을 제공하는 방법에 대한 공식 교육이 크게 부족한 것이 훈련생에게 제공되는 피드백의 퀄리티가 낮은 근본적인 요소일 가능성이 높다. 이와 관련하여, 피드백의 품질을 개선하기 위해 평가자 훈련의 제공을 증가시키는 것이 제안되었다(Babu et al. 2009; Basu et al. 2013; Norcini and Burch 2007; Pelgim et al., 2012). 

It is likely that the widespread lack of formal training for assessors in completing WBAs, and perhaps specifically on how to provide effective feedback, is the major factor underlying the poor quality feedback being provided to trainees (Norcini and Burch 2007). In this regard, increasing the provision of assessor training has been suggested to improve the quality of feedback (Babu et al. 2009; Basu et al. 2013; Norcini and Burch 2007; Pelgrim et al. 2012). 


그럼에도 불구하고, 의료 근무환경 전반의 피드백 품질을 다루는 것은, 특히 그러한 교육 프로그램에 평가자를 참여시키기가 어렵다고 보고되온 것을 고려하면, 간단하지 않다(Canavan et al. 2010). 그러나, 아마도 미래에는 trainer에게 피드백 제공에 대한 필수 교육을 받도록 요구하고, 이것을 certification의 조건으로 만드는 것이 필요할 수도 있다. 특히 이 문제를 진지하게 해결하려면 더욱 그러할 것이며, 왜냐하면 특히 트레이너들의 전문성 개발이 교육 도구로서 WBA의 성공에 중요한 것이기 때문이다(Norcini and Burch 2007).

Despite this, addressing the quality of feedback throughout the medical workplace is not straightforward, particularly considering the challenges reported in engaging assessors in training (Canavan et al. 2010). However, requiring trainers to undertake mandatory training in providing feedback and perhaps going so far as to require certification, should perhaps be a considered a requirement in the future, if a serious attempt at addressing this concern is to be made; especially since professional development of trainers is considered critical to the success of WBAs as an educational tool (Norcini and Burch 2007).


한계

Limitations


주로 영국 중심 연구

The major limitation of this review is its UK centric nature.


미래 방향

Future directions


결론

Conclusion


WBA는 GME에서 '일반적인 것'이 되었다. 그러나 훈련생과 평가자는 자신이 정기적으로 사용하는 도구의 교육적 토대를 불완전하게 이해하고 있는 것으로 보인다. 이것은 WBA 가치에 대한 인식과 학습 보조 도구로서 WBA에 engage하는 것에 부정적인 영향을 끼쳤고, 결과적으로 그들의 오용을 초래했다.

Workplace based assessments have become the ‘norm’ in postgraduate medical training. However, trainees and their assessors appear to have incomplete understanding of the educational basis of the tools they are regularly using. This has had a negative impact on both their perceptions of WBA value and their engagement with the tools as learning aids, resulting in their widespread misuse.


사용자 이해 부족, 가용 시간 부족, 피드백 제공 트레이너 불충분한 훈련 등 세 가지 주요 기본 문제

the three dominant underlying problems: lack of user understanding, lack of available time and insufficient training of trainers in feedback provision.






 2016 May;21(2):455-73. doi: 10.1007/s10459-015-9614-0. Epub 2015 May 24.

Workplace-based assessment: a review of user perceptions and strategies to address the identified shortcomings.

Author information

1
School of Clinical Medicine, University of Cambridge, Cambridge, UK.
2
Department of Surgery, University of Cambridge, BOX 202, Addenbrookes Hospital, Cambridge, CB2 0QQ, UK. ja297@cam.ac.uk.

Abstract

Workplace based assessments (WBAs) are now commonplace in postgraduate medical training. User acceptability and engagement is essential to the success of any medical education innovation. To this end, possessing an insight into trainee and trainer perceptions towards WBAs will help identify the major problems, permitting strategies to be introduced to improve WBA implementation. A review of literature was performed to identify studies examining trainee and trainer perceptions towards WBAs. Studies were excluded if non-English or sampling a non-medical/dental population. The identified literature was synthesised for the purpose of this critical narrative review. It is clear that there is widespread negativity towards WBAs in the workplace. This has negatively impacted on the effectiveness of WBA tools as learning aids. This negativity exists in trainees but also to an extent in their trainers. Insight gained from the literature reveals three dominant problems with WBA implementation: poor understanding as to the purpose of WBAs; insufficient time available for undertaking these assessments; and inadequate training of trainers. Approaches to addressing these three problems with WBA implementation are discussed. It is likely that a variety of solutions will be required. The prevalence of negativity towards WBAs is substantial in both trainees and trainers, eroding the effectiveness of learning that is consequent upon them. The educational community must now listen to the concerns being raised by the users and consider the range of strategies being proposed to improve the experiences of trainees, and their trainers.

KEYWORDS:

Engagement; Implementation; Perceptions; SLEs; Supervised learning events; Trainees; Trainers; WBAs; Workplace based assessment

PMID:
 
26003590
 
DOI:
 
10.1007/s10459-015-9614-0


좋은 평가에 대한 2018 컨센서스 프레임워크(Med Teach, 2018)

2018 Consensus framework for good assessment

John Norcinia , M. Brownell Andersonb, Valdes Bollelac, Vanessa Burchd, Manuel Jo~ao Costae ,

Robbert Duvivierf, Richard Haysg , Maria Felisa Palacios Mackayh, Trudie Robertsi and David Swansonj




배경

Background


이 아이디어가 2018년 오타와 컨퍼런스에서 워크숍의 일부로 제시됐을 때, "Criteria"이라는 단어를 사용하는 것은 마치 평가를 판단하는데 사용하는 기준의standards의 개발을 암시했기 때문에 적절하지 않다는 강한 느낌이 있었다. 따라서 Criteria 대신 "프레임워크"라는 단어가 개별 평가 및 평가 시스템의 개발과 검토에 유용할 수 있는 구조를 만들고자 하는 우리의 바람을 더 정확하게 포착했다는 일반적인 합의가 있었다.

When these ideas were presented as part of a workshop at the 2018 Ottawa Conference, there was a strong sense that the use of the word “criteria” was not optimal since it implied the development of standards against which assessments could be judged. Instead, there was general agreement that the word “framework” more precisely captured our desire to create a structure that might be useful in the development and review of individual assessments and systems of assessment.


프레임워크의 다양한 요소들이 모든 평가에 보편적으로 그리고 같은 비중으로 적용되지 않는다. 평가의 맥락과 목적적합성은 각 요소의 중요도에 크게 영향을 미친다.

the various elements of a framework do not apply universally and equally to all the assessments. The context and purpose-priorities of assessment heavily influence the importance of those elements.


의학 졸업생들의 지식에 대한 책무성의 필요를 충족시키기 위해 고안된 시험(예: 의사국가시험)은, 미래 학습 또는 커리큘럼 개혁을 안내할 세부적인 피드백을 제공하지 않으며, 이는 애초에 그 시험은 그렇게 하도록 설계되지 않았기 때문이다.

examination designed to meet the need for accountability for the knowledge of medical graduates (e.g. a medical licensing examination) does not produce detailed feedback that would guide future learning or curricular reform, since it has not been designed to do so.


마찬가지로, 프레임워크의 요소들은 동일한 평가에 대해서조차 이해관계자들마다 가중치가 다를 수 있다. 예를 들어, 교육적 효과 및 촉매적 효과에 대해 규제 당국은 무관심한 반면, 학생들은 관심이 높다.

Similarly, the elements of the framework are not of equal weight for all stakeholders, even, given the same assessment. For example, students may value the educational and catalytic effect of an assessment while regulators might be indifferent.


흥미롭게도, 유사한 문제들이 학생 선발과 같은 다른 고부담시험에서 발생했다. 최근 선정 방법의 검토(Primidaux et al. 2011)는 "정치적 타당성"이라는 개념을 도입했다. 직업심리학 문헌에 처음 소개된 정치적 타당성이란 개념은 "선발 과정의 설계에 영향을 미치는 이해관계자(또는 이해관계자 그룹)"가 많다는 것을 인정한다(Patterson과 Zibaras 2011). 마찬가지로, 평가 프로세스처럼 다양한 관점을 가진 광범위한 이해 당사자들이 참여하는 경우에도 명백하다.

Interestingly, similar issues have arisen in other highstakes processes like student selection. A recent review (Prideaux et al. 2011) of selection methods invoked the concept of ““political validity””. First introduced in the occupational psychology literature, political validity recognizes that “there are often many stakeholders (or stakeholder groups) that influence the design of selection processes” (Patterson and Zibarras 2011). This is evident in assessment processes too, where a wide group of stakeholders with different perspectives are involved


달리 말하면, 평가 시스템은 (강건하고 방어할 수 있는 심리측정학적 특성을 가진 방법 사용) 준거관련(동시/예측) 타당성 및 정치적 타당성(다양한 이해관계자의 이해관계를 포함)을 모두 요구한다.

Put differently, systems of assessment require both criterion-related (concurrent/predictive) validity (using methods with robust and defensible psychometric properties) and political validity (including the interests of different stakeholders).


단일 평가

Single assessments


좋은 평가의 프레임워크

Framework for good assessment



표 1. 좋은 평가를 위한 프레임워크: 단일 평가.

Table 1. Framework for good assessment: single assessments.


1. 타당성 또는 일관성: 평가 결과는 일관성 있는 증거로 입증되는 특정 목적에 적합하다.

1. Validity or Coherence: The results of an assessment are appropriate for a particular purpose as demonstrated by a coherent body of evidence.


2. 재현성, 신뢰성 또는 일관성: 유사한 상황에서 반복될 경우 평가 결과는 동일하다.

2. Reproducibility, Reliability, or Consistency: The results of the assessment would be the same if repeated under similar circumstances.


3. 동등성: 동일한 평가는 다른 기관 또는 시험 주기에 걸쳐 관리했을 때 동등한 점수 또는 결정을 내립니다.

3. Equivalence: The same assessment yields equivalent scores or decisions when administered across different institutions or cycles of testing.


4. 타당성: 상황과 맥락을 고려할 때 평가는 실용적이고 현실적이며 합리적입니다.

4. Feasibility: The assessment is practical, realistic, and sensible, given the circumstances and context.


5. 교육 효과: 평가는 평가를 받는 사람들에게 교육적인 이점이 있는 방식으로 준비하도록 동기를 부여.

5. Educational Effect: The assessment motivates those who take it to prepare in a fashion that has educational benefit.


6. 촉매 효과: 평가는 모든 이해당사자들이 교육을 만들고, 개선하고, 지원하도록 동기를 부여하는 방식으로 결과와 피드백을 제공한다. 이는 미래 학습을 유도하고, 전체 프로그램의 질을 향상시킨다.

6. Catalytic effect: The assessment provides results and feedback in a fashion that motivates all stakeholders to create, enhance, and support education; it drives future learning forward and improves overall program quality.


7. 수용성: 이해관계자는 평가 과정과 결과가 신뢰할 수 있다고 생각합니다.

7. Acceptability: Stakeholders find the assessment process and results to be credible.


프레임워크와 평가 목적

The framework and assessment purpose




형성평가

Formative assessment


효과적인 형성평가는 전형적으로 저부담평가이며, 종종 비공식적이고 opportunistic하며, 학습을 자극하기 위한 목적이 있다.

Effective formative assessment is typically low stakes, often informal and opportunistic by nature, and is intended to stimulate learning.


형성평가는 다음의 경우에 가장 잘 작동한다

(1) 교육 과정 및/또는 임상 작업 흐름에 내장된다. 

(2) 구체적이고 실행 가능한 피드백을 제공한다. 

(3) 지속적으로 이뤄진다.

(4) 적시에 이뤄진다.


Formative assessment works best when it 

(1) is embedded in the instructional process and/or clinical work flow, 

(2) provides specific and actionable feedback, 

(3) is ongoing, and 

(4) is timely.


총괄평가

Summative assessment


효과적인 종합 평가는 일반적으로 중부담, 고부담 평가이며, 책무성의 요구에 대응하기 위한 것이다. 흔히 일관성 있는, 고품질의 시험 자료, 체계적인 기준 설정 프로세스, 보안 관리가 필요합니다.

Effective summative assessment is typically medium or high stakes and is intended to respond to the need for accountability. It often requires coherent, high-quality test material, a systematic standard-setting process, and secure administration.


프레임워크와 이해관계자

The framework and stakeholders



Examinees

Examinees have a vested interest in both formative and summative assessment and they should be actively involved in seeking information that supports their learning. For formative assessment, educational effects, catalytic effects, and acceptability are likely to be of most concern to examinees, since these are the main drivers of learning. Examinees may take validity-coherence for granted, and feasibility will most probably be a consideration based on cost and convenience. Equivalence and reliability-consistency are of less immediate concern.


For summative assessment, issues related to perceived fairness will be most salient for examinees, as will clarity and openness about the content and process of assessment. Hence, elements such as validity-coherence, reproducibility-consistency, equivalence, and acceptability will be most important. The catalytic effect will support remediation, especially for unsuccessful examinees. When successful examinees are not provided with feedback or do not use it, the opportunity to support ongoing learning is missed.


Teachers-educational institutions

These stakeholders have interests in every facet of the assessment of students to fulfill their dual roles in education and accountability. Consistent with what was outlined above, the elements apply differently to these two roles or purposes. Validity-coherence, reproducibility-consistency, equivalence, and acceptability are particularly important to ensure correctness and fairness in decision making. Educational effects, catalytic effects, and acceptability are the cornerstones of successful student engagement and learning based on assessment.


For both teachers and institutions, student assessment information serves an important secondary purpose, namely, it speaks to the outcomes of the educational process. In other words, students’ assessments, appropriately aggregated, often serve as benchmarks for comparison and formative assessment for teachers and institutions. For such data, elements like equivalence and reproducibility-consistency are a bit less important while the educational effect and catalytic effect are a bit more important. Validity-coherence is important but should be addressed as part of good student assessment, while feasibility should be straightforward since the data are already available.


Beyond repurposing student assessment, institutions engage in the assessment of individual teachers and the evaluation of programs. These applications can be broadly classified as either formative or summative and the criteria apply as noted above.


Patients

For patients, it is most important that their healthcare providers have good communication skills, appropriate qualifications, and the ability to provide safe and effective care. While patients certainly support the use of formative assessment to help the students and practitioners in the development and refinement of these skills, summative assessment is a more immediate concern since patients need to be assured of their providers’ competence. Consequently, elements such as validity-coherence, reproducibility-consistency, and equivalence are of greatest importance. Feasibility, acceptability, educational effect, and catalytic effect are of less concern to this group. In the long term, however, formative assessment that supports and promotes continuous improvement will be important.


Healthcare system and regulators

The most pressing need of the healthcare system and the regulators is to determine which providers are competent and safe enough to enter and remain in the workforce. This need implies correct decisions based on summative assessment, so validity-coherence, reproducibility-consistency, and equivalence are paramount. Feasibility is also important since the healthcare systems and the regulators sometimes bear these costs.


It is becoming more common for health systems to engage in some form of continuous quality improvement (CQI). These systems are often embedded in the clinical work flow and they provide ongoing, specific, feedback to healthcare workers about their activities and outcomes. Validity-coherence is central, along with educational and catalytic effects, feasibility, and acceptability.


Likewise, many regulators are beginning to time limit the validity of their registration-licensure-certification decisions. This is often accompanied by the addition of a CQI component to the revalidation process. As with the healthcare system, such a component would need to emphasize validity-coherence, educational effect, educational quality, feasibility, and acceptability with less stress on equivalence and reproducibility-consistency.


평가 시스템

Systems of assessment


평가 시스템은 하나 이상의 목적을 위해 조립된assemble 일련의 개별 (평가)척도의 통합이다.

systems of assessment integrate a series of individual measures that are assembled for one or more purposes.


일반적으로 단일 평가 방법은 이러한 모든 skill들을 파악할 수 없으므로 여러 가지 척도가 필요합니다. 그러나 이러한 척도들은 종종 단독으로 사용되거나, 조정되지uncoordinated 않은 방식으로 적용된다. 이러한 조정되지 않은 (평가)척도들은 종종 그냥 과거에 하던대로 가중치를 두어 합산한 뒤 총괄적 결정에 사용된다. 평가 시스템은 다양한 이해관계자(예: 학생, 교수, 환자, 규제 기관)에 대한 다양한 목적(예: 형태별/요약적, 높은/낮은 지분)을 달성하기 위해 단일 평가를 명시적으로 혼합하여야 한다.

Single methods of assessment are generally unable to capture all of these skills so multiple measures are needed. However, these measures are often applied in isolation or at least in an uncoordinated fashion. These uncoordinated measures are often combined to reach an overall decision based on the weights dictated by tradition. A system of assessment explicitly blends single assessments to achieve the different purposes (e.g. formative versus summative; high vs. low stakes) for a variety of stakeholders (e.g. students, faculty, patients, regulatory bodies).



그림 1은 전 세계의 다양한 평가 상태를 보여줍니다.

Figure 1 illustrates the various states of assessment around the world.


그림 1.2. (태도적, 관계적 구성요소는 무시되더라도) 역량의 인지적 측면만을 평가하는 것은 드문 일이 아니다. 왜냐하면 그것이 상대적으로 검사하기 쉽기 때문이다.

Figure 1.2. it is not uncommon to mount an assessment of the cognitive aspects of competence since they are relatively easy to examine, while ignoring the performance and attitudinal/relational components.


(그림 1.3). 이를 시스템의 전반적인 목적과 통합하려는 시도는 제한적이다. 그 결과 총괄적 평가결정에 포함되는 사항에 차이가 발생하고, 비효율성이 발생하여, 어떤 분야에 대해서만 과도한 평가가 발생할 수 있습니다.

(Figure 1.3). there is a limited attempt to integrate these with the overall purposes of the system. This leads to gaps in what is covered and inefficiencies that might lead to over-assessment.


그림 1.4는 평가 시스템의 정상 작동에 가장 근접한 것이다.

Figure 1.4 comes closest to a well-functioning system of assessment.


좋은 평가의 프레임워크

Framework for good assessment


평가 시스템에 적용가능한 프레임워크

The elements of a framework for good assessment in Table 4 are applicable to a system of assessment.


표 4. 평가 체계 : 평가 체계

Table 4. Framework for Good Assessment: Systems of Assessment.


1. 일관성: 평가 시스템은 동일한 목적을 중심으로 질서 정연하게 조정된 개별 평가 및 독립적인 성과로 구성된다.

1. Coherent: The system of assessment is composed of multiple, coordinated individual assessments and independent performances that are orderly and aligned around the same purposes.


2. 연속성: 평가 시스템은 지속적이며, 개별 결과는 시스템의 목적에 누적적으로 기여한다.

2. Continuous: The system of assessment is ongoing and individual results contribute cumulatively to the system purposes.


3. 종합성: 평가 시스템은 포괄적이고 효과적이며, 목적에 부합하는 형성적, 진단적, 총괄적 요소로 구성됩니다. 일부 또는 모든 구성 요소는 신뢰할 수 있고 통합적입니다.

3. Comprehensive: The system of assessment is inclusive and effective, consisting of components that are formative, diagnostic, and/or summative as appropriate to its purposes. Some or all components are authentic and integrative.


4. 실현가능성: 평가 시스템과 그 구성요소는 목적, 이해관계자 및 맥락을 고려할 때 실용적이고 현실적이며 효율적이며 합리적입니다.

4. Feasible: The system of assessment and its components are practical, realistic, efficient, and sensible, given the purposes, stakeholders, and context.


5. 목적지향성: 평가 시스템은 그것이 만들어진 목적을 지원한다.

5. Purposes driven: The assessment system supports the purposes for which it was created.


6. 수용가능성: 시스템의 이해관계자는 신뢰할 수 있고 증거 기반인 평가 절차와 결과를 찾습니다.

6. Acceptable: Stakeholders in the system find the assessment process and results to be credible and evidence-based.


7. 투명성, 비편향성: 이해관계자는 시스템의 작동을 이해해야 하며, 의도하지 않은 결과를 최소화해야한다. 결정은 공정하고 공평해야 한다.

7. Transparent and free from bias: Stakeholders understand the workings of the system and its unintended consequences are minimized. Decisions are fair and equitable.


표 5는 보건 직업 교육에서 일반적인 평가 시스템의 예를 제시한다.

Table 5 presents examples of common systems of assessments in health professions education.


일부 평가 시스템은 특정 유형의 '다면적 의사결정'을 위해 종종 다른 정보들과 결합되는 일련의 평가로 구성된 것으로 볼 수도 있다. 입학 및 면허 시스템은 좋은 예이다.

Some systems of assessment can reasonably be viewed as consisting of a series of assessments, often coupled with other information, for making certain kinds of multi-faceted decisions. Admissions and Licensure systems provide good examples.


다른 평가 시스템은 일종의 교육적 개입으로 간주되며, 프로그레스 테스트와 프로그램 평가가 좋은 예이다.

Other systems of assessment are best thought of as educational interventions; Progress Testing and Programmatic Assessment provide good examples.




평가 시스템 구현 시 고려 사항

Considerations in implementation of systems of assessment


의료 분야의 평가 시스템에 대한 사례가 많지만, 개념은 잘 이해되지 않고 구현이 어려울 수 있습니다.

While the case for systems of assessment in the health professions is strong, the concept is often not well understood, and implementation can be challenging.


정의는 모든 참가자(규제자, 후보자, 교사 및 평가자)에게 명확하고 접근가능해야 하며, 그래야 혼란 또는 오해의 범위를 줄여준다. 평가 시스템은 단순히 시간 경과에 따른 점수를 결합하여 결정을 내리는 것 이상의 것입니다. 

Definitions need to be clear and accessible to all the participants (regulators, candidates, teachers, and assessors); this reduces the scope for confusion or misinterpretation. Systems of assessment are more than just combining scores over time to make a decision, for example, that enough has been achieved to “pass”.


평가시스템의 목적은 해당 시스템이 제공하는 프로그램의 비전/미션과 명확하고 일관되어야 합니다. 교육 환경에서 그러한 목적은 커리큘럼과 학습 성과와 일치해야 한다(예: constructive alignment)(Biggs 2014).

The purposes of the system need to be clear and consistent with the vision/mission of the program it serves. In an educational setting, those purposes also need to be consistent with the curriculum and the learning outcomes (i.e. constructive alignment) (Biggs 2014).


평가 시스템을 위한 프레임워크의 적용은 두 가지 이점을 가질 것이다. 

Application of the framework for systems of assessment will have two benefits; 


첫째는 목적에 대한 적합성이다. 많은 "전통적인" 평가는 쉽게 할 수 있거나, 지금껏 행해졌던 것에 초점을 맞추고, 종종 지식과 임상 기술만을 지나치게 강조하여, 그 결과 "좋은 성과"에 필요한 다른 역량은 희생된다. 교육 프로그램에 적합한 평가 시스템은 임상 실무에서 중요하지만 "측정하기 어려운" 역량을 평가하는 방법을 포함하여 광범위한 학습 성과와 평가 방법을 포함해야 한다. 학습- 및 직장- 기반 포트폴리오에 기반한 평가가 바람직할 수 있다. 예를 들어, 성찰과제, 아침 회진 및 인계, 진료기록 작성, 지역사회 프로젝트 및 프로페셔널 행동에 관련된 평가가 포함된다. 학습자들은 교육프로그램이 "검사"하는 것을 "신경"쓰기 마련이다.

the first is fitness for purpose. Many “traditional” assessments focus on what can be done easily or has always been done, often resulting in an overemphasis on knowledge and clinical skills, at the expense of the other competencies necessary for good performance. Systems of assessment for educational programs should include a broad range of learning outcomes and assessment methods, including those that assess “difficult to measure” competencies important in clinical practice. Often, assessments based on learning- and workplace- based portfolios will be desirable. Examples include assessments related to reflective assignments, morning rounds and hand offs, record keeping, community projects, and professional behaviors. Learners “respect” what programs “inspect”.


또 다른 평가시스템의 이점은 효율성입니다. 고품질 평가는 리소스 집약적이기 때문에 수집된 정보는 값비싼 리소스를 "폐기"해서는 안 됩니다. 많은 평가들은 서로에 대해, 그리고 유사한 후속 평가에 대한 예측도가 높다. 따라서, 이러한 중복성을 염두에 두고 평가 시스템을 설계하면, 평가 수행에 필요한 자원을 줄이고, 평가가 덜 자원 집약적이고 더 실현가능할 것이다.

Another benefit is efficiency. High-quality assessment is resource-intensive, so information gathered should not “waste” expensive resources. Many assessments are highly predictive of each other and of subsequent similar assessments. Consequently, designing the system of assessment with these redundancies in mind should reduce the resources needed to conduct them and make assessment less resource-intensive and more feasible.


개별 평가에서와 마찬가지로, 평가시스템에도 원하는 성과에서부터 유도된 purposeful blueprinting이 필수적입니다. 이는 적절한 방법, 역량 및 학습 결과의 범위를 선택하도록 안내하는 동시에, 직접적으로 목적을 다루도록 함으로써 평가 결과로부터 타당도 추론에 기여한다. 어떤 내용과 스킬을 평가할 때, 모든 평가는 (적절하게 잘 설계된) sample of universe를 기반으로 한다. 잘 구성된 평가 시스템은 추출된 표본과 consistent하며, 그러한 표본을 extend할 수 있다. 예를 들어 교육 환경에서 일군의 학습성과로부터 추출sampled될 수 있는데, 이상적으로는 긴 시간에 걸쳐서 각 성과가 여러 차례 평가될 수 있도록 중복overlapping되는 범위를 가져야 한다.

Purposeful blueprinting driven by the desired outcomes is essential for systems, just as it is for individual assessments. This promotes the validity of inferences from assessment results by guiding the selection of a range of appropriate methods, competencies, and learning outcomes, while ensuring that purposes are directly addressed. All assessments are based on a sample of a universe (preferably well-designed) of content and skills; well-constructed systems of assessment are consistent with and can extend that sampling. For example in an educational setting, competencies might be sampled from across a set of learning outcomes, ideally with overlapping scope so that, over time, most are assessed on several occasions.


개별 평가에 대해서 신중한 선택과 설계 또한 필요하다.

Careful selection and design of individual assessments are also required,


동일한 역량의 서로다른 측면을 목표로 하는 방법을 사용하는 것이 도움이 될 수 있으며, 이 경우 삼각측량을 촉진하고 광범위한 지식, 기술 및 행동적 내용에 대해 효율적인 평가를 촉진할 수 있다(Wilkinson 2007).

The use of methods aimed at different aspects of the same competence can be helpful as it will facilitate triangulation and the efficient assessment of a wide range of knowledge, skills, and behavior content (Wilkinson 2007).


개별 평가의 타이밍과 순서에는 평가시스템의 목적에 관계없이 세심한 계획이 필요하다. 이는 교육 프로그램에서 개별 학생의 학습 궤적을 reflect하도록 설계된 시스템에서 특히 중요하다.

The timing and sequencing of individual assessments requires careful planning regardless of the purposes of the system. This is particularly important for systems designed to reflect the learning trajectories of the individual students in an educational program.


개별 형성평가의 빈도를 늘리면, 소수의 고부담 시험에 의한 압력을 줄일 수는 있지만, 동시에 실현 가능성 문제도 야기할 수 있다. 교육 프로그램에서, 많은 역량이 서로 다른 시간에 그리고 다른 순서로 달성될 수 있으므로, 이 접근방식은 일정정도의 유연성을 허용할 것이다. 또한 학습 속도가 느려지면 재교육 및 추가 자원이 필요할 수 있습니다.

Increasing the frequency of individual formative assessments reduces the pressure created by a small number of high-stakes events, but this can also create feasibility issues. In educational programs, many competencies can be achieved at different times and in different sequences so this approach allows for some flexibility. Further, slower learning might trigger the need for remediation/additional resources.


일부 관찰자는 광범위한 평가 방법의 사용 신뢰성에 미치는 잠재적 영향에 대해 우려하며, 어떤 평가방법은 단독으로 사용될 경우 신뢰성이 낮게 나타날 수 있기 때문이다. 그러나 복수의 방법과 복수의 평가자를 여러 차례에 걸쳐서 사용하면 다양한 attributes를 달성했다는 증거를 제공하기에 충분하다.

Some observers are concerned about the potential impact on reliability of using the broader range of assessment methods, some of which, when used alone, demonstrate lower reliability. The use of multiple methods and multiple judges on multiple occasions is sufficient to provide evidence for the achievement across a range of attributes.


총괄적 결정이 필요한 경우, 기준 설정은 복잡할 수 있으며, 개별 평가의 aggregated된 결과에 기초하여 종합적인 결정을 내리는 다양한 방법이 필요할 수 있다. 수많은 평가(예: 교육 프로그램의 일부로서)가 있을 때, 이러한 결정을 순전히 양적 및 기계적 방식으로 결합하는 것은 어려운 일일 뿐만 아니라, 만족스러운 결과를 내지 못할 수 있다. 이 전략은 특정 평가가 중요함에도 불구하고 전체적인 의사결정에 대한 기여도가 낮다는 이유로 경시하는 결과를 유발 할 수 있다.

Where summative decisions are needed, standard setting may be complex and require a variety of methods to make an overall decision based on the aggregated results of individual assessments. Combining these decisions in a purely quantitative and mechanical way, especially when there are numerous assessments (e.g. as part of an educational program), is challenging and may not yield a satisfactory outcome. This strategy may also trivialize important individual assessments when they contribute less to an overall decision.


시스템의 목적에 맞는 경우 일련의 비보상적 결정을 내리는 것이 합리적일 수 있습니다. 결론을 내릴 때 모든 측정 정보를 가장 잘 고려하는 위원회 판단 절차를 마지막으로 사용하는 것이 적절할 수 있습니다. 

Where it fits the purposes of the system, it may be reasonable to make a series of non-compensatory decisions, . Finally use of a committee judgment process, which takes all of the measurement information into account in coming to a conclusion, may be the best alternative. 


일부 평가 시스템에서는 개별 측정은 형성평가와 총괄평가 목적 모두에 대해 사용된다. 이렇게 할 경우, 효율성이 향상될 수 있고 , 평가 결과를 바탕으로 피드백도 제공하고 의사 결정을 내리는 데에도 도움을 받을 수 있을 것이다. 그러나 이중적인 목적은 조심스럽게 다뤄져야 한다. 형성적 목적을 위해 설계된 평가는 종종 총괄적 목적에 적합하지 않은 특성을 가지고 있다.

In some systems of assessment, individual measures are used for both formative and summative purposes. This contributes to improved efficiency, potentially making assessments helpful in both, providing feedback and making decisions. However, we believe this dual purpose needs to be handled cautiously. Assessments designed for formative purposes often have characteristics that make them less than ideal for the summative purposes and vice versa.


이 문제에 대한 한 가지 접근법은 [피드백을 제공하는 개별 교수진]과 [별도로 평가 결과에 따라 의사결정을 담당하는 위원회]를 만드는 것이다. 위원회의 구성원들은 학생들에게 가까이 있는 사람들이 아니며, 가르치고 피드백을 주는 사람들은 총괄적 결정을 내리지 않는다.

one approach to this challenge is to create a committee that is responsible for making decisions based on assessment results, separately from individual faculty providing feedback. Members of the committee are not those who are close to the students along the way and those who teach and give feedback do not make decisions.



Recommendations for future work


   프레임워크의 adaptability가 기술과 인공지능(AI)에 미치는 영향

   평가 방법의 비용 및 ROI

   교육 및 의료 시스템과 평가의 상호작용

   이 프레임워크와 문헌에 보고된 다른 프레임워크 사이의 관계(예: Michie et al. 2011)


   The adaptability of the frameworks to technology and artificial intelligence (AI)

   The costs and the return on investment of assessment methods

   The interaction of assessments with educational and health care systems

   The relationship between these frameworks and others reported in the literature (for example Michie et al. 2011).


Conclusions


평가 시스템의 경우 고려해야 할 몇 가지 추가 요소 또는 최소한 몇 가지 추가 측면이 있다. 이는 개별 평가의 구현과 달리, [표본 추출, 타이밍 및 의사결정, 서로 다른 출처의 다른 종류의 정보를 결합하는 방법, 진급결정이 이루어지는 방법]과 관련이 있다.

For systems of assessment there are some additional elements, or at least some additional aspects, that should be considered. These relate not so much to the way individual assessment episodes are implemented, but more to the sampling, timing and decision-making, the means of combining different kinds of information from different sources, and how progression decisions are made.










 2018 Oct 9:1-8. doi: 10.1080/0142159X.2018.1500016. [Epub ahead of print]

2018 Consensus framework for good assessment.

Author information

1
a FAIMER , Philadelphia PA , USA.
2
b NBME , Philadelphia PA , USA.
3
c School of Medicine of Ribeirão Preto , Universidade Cidade de Sao Paulo , Ribeirão Preto , Brazil.
4
d Groote Schuur Hospital , University of Cape Town and Groote Schuur , Cape Town , South Africa.
5
e School of Medicine , University of Minho , Braga , Portugal.
6
f Parnassia Psychiatric Institute , Maastricht University , Hague , The Netherlands.
7
g Rural Clinical School , University of Tasmania , Burnie , Australia.
8
h Cumming School of Medicine , University of Calgary , Alberta , Canada.
9
i Medical Education Unit , University of Leeds , Leeds , UK.
10
j ABMS , Chicago , IL , USA.

Abstract

INTRODUCTION:

In 2010, the Ottawa Conference produced a set of consensus criteria for good assessment. These were well received and since then the working group monitored their use. As part of the 2010 report, it was recommended that consideration be given in the future to preparing similar criteria for systems of assessment. Recent developments in the field suggest that it would be timely to undertake that task and so the working group was reconvened, with changes in membership to reflect broad global representation.

METHODS:

Consideration was given to whether the initially proposed criteria continued to be appropriate for single assessments and the group believed that they were. Consequently, we reiterate the criteria that apply to individual assessments and duplicate relevant portions of the 2010 report.

RESULTS AND DISCUSSION:

This paper also presents a new set of criteria that apply to systems of assessment and, recognizing the challenges of implementation, offers several issues for further consideration. Among these issues are the increasing diversity of candidates and programs, the importance of legal defensibility in high stakes assessments, globalization and the interest in portable recognition of medical training, and the interest among employers and patients in how medical education is delivered and how progression decisions are made.

PMID:
 
30299187
 
DOI:
 
10.1080/0142159X.2018.1500016


+ Recent posts